WO2021223232A1

WO2021223232A1 - 一种基于Gaia AI语音控制的智能电视多语种识别系统

Info

Publication number: WO2021223232A1
Application number: PCT/CN2020/089239
Authority: WO
Inventors: 黄国桂; 吴文弘; 康许坤
Original assignee: 赣州市牧士电子有限公司
Priority date: 2020-05-08
Filing date: 2020-05-08
Publication date: 2021-11-11
Also published as: CN111800657A; CN111800657B

Abstract

本发明公开了一种基于Gaia AI语音控制的智能电视多语种识别系统，属于语音控制领域，本发明公开的一种基于Gaia AI语音控制的智能电视多语种识别系统，包括用于接收语音信号的遥控器、以及语音信号识别处理的控制系统，所述控制系统设置有第一语种存储模块，所述控制系统优先按照所述第一语种存储模块中的语种比对；所述控制系统提取语音输入时电视界面的信息，以优先比对在该界面下使用概率最大的关键词。直接选择第一语种存储模块中的语种库进行识别校对，同时根据所在界面信息进行相关关键词校对，从而提高语音的识别速度和识别准确率。

Description

一种基于Gaia AI语音控制的智能电视多语种识别系统

技术领域

本发明涉及语音控制领域，尤其涉及一种基于Gaia AI语音控制的智能电视多语种识别系统。

背景技术

现阶段普通液晶智能电视基本都是按键与遥控器操作控制为主，因现在智能电视机功能强大，软件搜索，电影搜索等常用功能，但遥控器打字与功能控制的速度慢等缺点，随着人们对电视的高效操作需求，为此开发语音控制产品。随着语音识别技术的飞速发展，目前的语音识别准确度已达到实际应用的水平，从而成为人机交互的重要接口之一，被广泛应用于各类场景，例如语音输入、语音搜索、语音翻译、智能家居等等。同时，使用语音识别技术的用户也越来越多，这些用户可能来自不同的国家，使用不同的语种，因此传统的单一语音识别模型很难适用于所有用户，需要针对不同语种的用户训练相应的声学模型。

中国专利文献公开号CN109817213A公开的一种用于自适应语种进行语音识别的方法，包括：基于获取的语音数据提取表示发音音素信息的音素特征；将所述音素特征输入预先基于多语种语料训练得到的语种判别模型，得到所述语音数据的语种判别结果；以及根据所述语种判别结果，基于相应语种的语言声学模型获取所述语音数据的语音识别结果。

现有的语音控制电视识别速度较慢，对于支持多国语言的识别设备其识别速度和识别准确率相对较低，从而影响客户使用体验。

发明内容

为了克服现有技术的缺陷，本发明所要解决的技术问题在于提出一种基于 Gaia AI语音控制的智能电视多语种识别系统，优先选取最优的语种和关键词校对识别，从而对于不同语种可以快速准确的识别。

为达此目的，本发明采用以下技术方案：

本发明提供的一种基于Gaia AI语音控制的智能电视多语种识别系统，包括用于接收语音信号的遥控器、以及语音信号识别处理的控制系统，所述控制系统设置有第一语种存储模块，所述控制系统优先按照所述第一语种存储模块中的语种比对；所述控制系统提取语音输入时电视界面的信息，以优先比对在该界面下使用概率最大的关键词。选择最可能的语种，同时根据界面情况选择最可能出现的关键词，从而可以快速准确的校对识别语音。

本发明优选地技术方案在于，所述遥控器接收特定激活语传输至所述控制系统，所述控制系统对激活语与支持的语种对比，以将识别出的语种储存至所述第一语种存储模块。方便准确确定使用者所使用的语言，从而方便快速识别。

本发明优选地技术方案在于，在使用时，所述控制系统识别出不同于所述第一语种存储模块中的语种时，所述控制系统将所述第一语种存储模块中的语种替换为该新的语种。在使用者切换控制语言时也可以很快确定其语种，在后续使用该语种时可以更快速准确的识别。

本发明优选地技术方案在于，所述控制系统中设置有若干种语言的标准语言库，所述控制系统接收到语音指令后，从所述标准语言库优先根据所述第一语种存储模块中的语种进行比对识别。电视支持多种语言，但是使用时优先调用第一语种存储模块中的语种，可以提高语音识别效率。

本发明优选地技术方案在于，所述控制系统中还设置有修正语言库，所述控制系统根据与所述标准语言库比对后对电视进行控制，在确认识别正确后将该操作指令以及接收到的语音指令储存至所述修正语言库，所述控制系统在语音识别时优先与所述修正语言库比对。使得可以适应各地使用者在使用时口音差异而导致的识别准确的问题。

本发明优选地技术方案在于，所述控制系统对电视进行操作之后，若用户5秒未进行返回操作，则认为该操作正确有效，以判定语音识别正确，以完成对所述修正语言库的存储。避免将识别错误的语音指令储存，从而避免后续再次误操作。

本发明优选地技术方案在于，所述控制系统提取电视界面信息，以将所述标准语言库按界面划分为若干语言层，所述控制系统识别电视所处界面，优先从该界面对应的语言层进行语音识别比对。根据界面信息来按最优关键词校对，从而提高语音识别效率。

本发明优选地技术方案在于，所述控制系统提取界面信息采用所述第一语种存储模块中的语种在所述标准语言库中对应的语言层比对时，未比对到合适的指令时，优先在其他语种的界面对应的语言层比对。进一步的提高语音识别效率。

本发明的有益效果为：

本发明提供的一种基于Gaia AI语音控制的智能电视多语种识别系统，包括用于接收语音信号的遥控器、以及语音信号识别处理的控制系统，所述控制系统设置有第一语种存储模块，所述控制系统优先按照所述第一语种存储模块中的语种比对；所述控制系统提取语音输入时电视界面的信息，以优先比对在该界面下使用概率最大的关键词。直接选择第一语种存储模块中的语种库进行识别校对，同时根据所在界面信息进行相关关键词校对，从而提高语音的识别速度和识别准确率。

附图说明

图1是本发明具体实施方式中提供的基于Gaia AI语音控制的智能电视多语种识别系统原理示意图；

图中：

1、遥控器；2、控制系统；21、第一语种存储模块；22、标准语言库；23、修正语言库；221、语言层。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。

实施例一

如图1所示，初次使用语音智能电视时，只需按下遥控器1的语音输入按键，说出激活语则可由控制系统2在若干的标准语言库22中进行校对识别，激活语可以采用如“语音精灵”、“语音小助手”等不常用的词。从而判断使用者所使用的语言时哪一种，并将该语种信息储存至第一语种存储模块21中。在后续使用的过程中，通过用于接收语音信号的遥控器1将使用者的语音传输至语音信号识别处理的控制系统2，控制系统2设置有第一语种存储模块21，控制系统2优先按照第一语种存储模块21中的语种比对；控制系统2中设置有若干种语言的标准语言库22，控制系统2接收到语音指令后，从标准语言库22优先根据第一语种存储模块21中的语种进行比对识别。

例如当第一语种存储模块21中储存的语种为英语时，则控制系统2在接收到语音指令之后，优先将语音按照英文语音处理，从而将语音与英文的标准语言库22中校对识别。从而可以加快语音指令的识别。在使用时，所述控制系统2识别出不同于所述第一语种存储模块21中的语种时，所述控制系统2将所述第一语种存储模块21中的语种替换为该新的语种。在使用者切换控制语言时也可以很快确定其语种，在后续使用该语种时可以更快速准确的识别。在家中来外国的客人时，其操作电视时可能使用不同于第一语种存储模块21中的语种，此时控制系统2采用第一语种存储模块21中的语种进行匹配识别时不能准确的识别，此时控制系统2优先采用该界面下可能出现的关键词，调取其他语种的标准语言库22进行校对识别。当识别成功之后，则有控制系统2进行相关的操作，在用户10s后未返回重新操作，则认为该操作有效，语音识别正确，此时控制系统2将识别出来的新的语种替换掉第一语种存储模块21中的语种，从而在后续操作时，使用该新的语种识别会更加迅速准确。

控制系统2提取语音输入时电视界面的信息，以优先比对在该界面下使用概率最大的关键词。选择最可能的语种，同时根据界面情况选择最可能出现的关键词，从而可以快速准确的校对识别语音。例如在电视的初始界面时，用户一般会进行的操作可能是打开某个电视节目，或者播放某首歌曲。最有可能出现的关键词就是“打开”和“播放”。在语音识别时，通过控制系统2判断电视目前所处界面，从而优先选择该方向的关键词校对识别，从而可以加快识别的速度和准确率。

实施例二

如图1所示，控制系统2中设置有若干种语言的标准语言库22，控制系统2接收到语音指令后，从标准语言库22优先根据第一语种存储模块21中的语种进行比对识别。电视支持多种语言，但是使用时优先调用第一语种存储模块21 中的语种，可以提高语音识别效率。为了提高发音不准时的识别率，控制系统2中还设置有修正语言库23，控制系统2根据与标准语言库22比对后对电视进行控制，在确认识别正确后将该操作指令以及接收到的语音指令储存至修正语言库23，控制系统2在语音识别时优先与修正语言库23比对。使得可以适应各地使用者在使用时口音差异而导致的识别准确的问题。进一步地，控制系统2对电视进行操作之后，若用户5秒未进行返回操作，则认为该操作正确有效，以判定语音识别正确，以完成对修正语言库23的存储。避免将识别错误的语音指令储存，从而避免后续再次误操作。

在使用者发音不准确的情况下，控制系统2首先根据第一语种存储模块21中的语种调取标准语言库22中的语种校对识别，优先根据电视所处界面选择概率大的关键词进行操作，例如在视频播放界面时，用户最可能进行的操作时“暂停、快进、下一集、加大音量”等操作，因此在识别相应的关键词后，则认为识别成功，识别成功后控制系统2进行相应的操作，在操作完成之后若用户5s没有返回重新操作，则认为该操作正确有效，以判定语音识别正确，然后将语音指令以及相对应的操作指令储存在修正语言库23。控制系统2接收到语音指令时优先与修正语言库23进行校对识别，从而在使用者发音不够准确的情况，也可以快速准确的识别。

实施例三

如图1所示，在使用的过程中，通过用于接收语音信号的遥控器1将使用者的语音传输至语音信号识别处理的控制系统2，控制系统2设置有第一语种存储模块21，控制系统2优先按照第一语种存储模块21中的语种比对；控制系统2中设置有若干种语言的标准语言库22，控制系统2接收到语音指令后，从标准语言库22优先根据第一语种存储模块21中的语种进行比对识别。例如当第一语种存储模块21中储存的语种为英语时，则控制系统2在接收到语音指令之后，优先将语音按照英文语音处理，从而将语音与英文的标准语言库22中校对识别。从而可以加快语音指令的识别。在使用时，所述控制系统2识别出不同于所述第一语种存储模块21中的语种时，所述控制系统2将所述第一语种存储模块21中的语种替换为该新的语种。在使用者切换控制语言时也可以很快确定其语种，在后续使用该语种时可以更快速准确的识别。

为了进一步地的提高识别速度和准确率。控制系统2提取电视界面信息，以将标准语言库22按界面划分为若干语言层221，控制系统2识别电视所处界面，优先从该界面对应的语言层221进行语音识别比对。根据界面信息来按最优关键词校对，从而提高语音识别效率。例如在首页时，用户一般会使用“搜索”、“打开”、“播放”等关键词，因此这些词列为首页界面所对应的第一层级校对识别关键词。而在歌曲播放界面，用户使用较多的关键词为“下一首”、“加大声音”等相关关键词，因此这些词列为歌曲播放界面所对应的第一层级校对识别关键词。在控制系统2接收到语音指令时，同时会调取电视所处界面信息，从而优先调取相关界面对应的语言层221进行识别，可以进一步加快识别速度和识别准确率。

进一步地，控制系统2提取界面信息采用第一语种存储模块21中的语种在标准语言库22中对应的语言层221比对时，未比对到合适的指令时，优先在其他语种的界面对应的语言层221比对。进一步的提高语音识别效率。在首页进行语音操作时，控制系统2首先在“搜索”、“打开”、“播放”等关键词的语言层221进行校对识别，当在该语言层221未识别出相应的语音指令时，优先采用其他语种下的“搜索”、“打开”、“播放”等关键词的语言层221进行校对识别。在校对到合适的语音指令时，则进行相关的操作，并在用户5s未返回操作时认定识别正确，从而判断用户改变了使用语种，从而将第一语种存储模块21中的语种替换。

本发明是通过优选实施例进行描述的，本领域技术人员知悉，在不脱离本发明的精神和范围的情况下，可以对这些特征和实施例进行各种改变或等效替换。本发明不受此处所公开的具体实施例的限制，其他落入本申请的权利要求内的实施例都属于本发明保护的范围。

Claims

一种基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

包括用于接收语音信号的遥控器(1)、以及语音信号识别处理的控制系统(2)，所述控制系统(2)设置有第一语种存储模块(21)，所述控制系统(2)优先按照所述第一语种存储模块(21)中的语种比对；

所述控制系统(2)提取语音输入时电视界面的信息，以优先比对在该界面下使用概率最大的关键词。
根据权利要求1所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述遥控器(1)接收特定激活语传输至所述控制系统(2)，所述控制系统(2)对激活语与支持的语种对比，以将识别出的语种储存至所述第一语种存储模块(21)。
根据权利要求2所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

在使用时，所述控制系统(2)识别出不同于所述第一语种存储模块(21)中的语种时，所述控制系统(2)将所述第一语种存储模块(21)中的语种替换为该新的语种。
根据权利要求1所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述控制系统(2)中设置有若干种语言的标准语言库(22)，所述控制系统(2)接收到语音指令后，从所述标准语言库(22)优先根据所述第一语种存储模块(21)中的语种进行比对识别。
根据权利要求4所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述控制系统(2)中还设置有修正语言库(23)，所述控制系统(2)根据与所述标准语言库(22)比对后对电视进行控制，在确认识别正确后将该操作指令以及接收到的语音指令储存至所述修正语言库(23)，所述控制系统(2)在语音识别时优先与所述修正语言库(23)比对。
根据权利要求5所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述控制系统(2)对电视进行操作之后，若用户5秒未进行返回操作，则认为该操作正确有效，以判定语音识别正确，以完成对所述修正语言库(23)的存储。
根据权利要4或5所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述控制系统(2)提取电视界面信息，以将所述标准语言库(22)按界面划分为若干语言层(221)，所述控制系统(2)识别电视所处界面，优先从该界面对应的语言层(221)进行语音识别比对。
根据权利要求7所述的基于Gaia AI语音控制的智能电视多语种识别系统，其特征在于：

所述控制系统(2)提取界面信息采用所述第一语种存储模块(21)中的语种在所述标准语言库(22)中对应的语言层(221)比对时，未比对到合适的指令时，优先在其他语种的界面对应的语言层(221)比对。