WO2016023317A1

WO2016023317A1 - 一种语音信息的处理方法及终端

Info

Publication number: WO2016023317A1
Application number: PCT/CN2014/094677
Authority: WO
Inventors: 李向阳
Original assignee: 中兴通讯股份有限公司
Priority date: 2014-08-15
Filing date: 2014-12-23
Publication date: 2016-02-18
Also published as: CN105469789A

Abstract

一种语音信息的处理方法及终端，所述方法包括：获得语音信号（S101）；识别所述语音信号，获得对应的文本信息（S102）；基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息（S103），其中，所述会话历史数据库中存储有用户的会话历史记录。纠错后的文本信息是与用户的会话历史记录匹配程度最高的，也就是最符合上下文的语境的，那么，纠错后的文本信息也是最为贴近用户实际输入的语音内容的，如此，有效地解决了现有技术存在的终端语音识别的准确率低的技术问题，提高了终端语音识别的准确率，提高用户体验。

Description

一种语音信息的处理方法及终端

技术领域

本发明涉及语音信息处理领域，尤其涉及一种语音信息的处理方法及终端。

背景技术

随着科技的发展，将语音信号转换成对应的文本信息这一技术越来越受到人们的青睐，该技术使得人们能够摆脱键盘的束缚，可以通过对输入的语音进行识别，获得对应的文本信息，以实现输入，方便用户使用。

目前，以智能手机为例，当用户使用智能手机上安装的个人语音助手时，输入语音为“你在干吗呢？最近忙不忙啊？”，个人语音助手对该语音信息进行识别，可能由于用户周围的环境噪音较大、用户自己的语言习惯等因素，使得该语音助手不能准确地识别出用户输入的语音，所以识别出的文本信息就可能为“拟再干嘛呐？嘴紧忙吧忙啊？”，然后将该文本信息输出给用户，这样，用户看到的文本信息与其实际输入的内容差距较大，也就是说，终端不能够准确地识别出用户输入的语音内容。

所以，现有技术中存在终端语音识别的准确率低的技术问题。

发明内容

为解决现有存在的技术问题，本发明实施例期望提供一种语音信息的处理方法及终端。

第一方面，本发明实施例提供一种语音信息的处理方法，所述方法包括：获得语音信号；识别所述语音信号，获得对应的文本信息；基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息，其中，所述会话历史数据库中存储有用户的会话历史记录。

在一个实施例中，所述基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息，包括：基于预置在所述终端中的字词库，获得与所述文本信息关联的至少一个备选语句；将所述至少一个备选语句与所述会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句；将所述匹配程度最高的语句确定为所述纠错后的文本信息。

在一个实施例中，在所述获得纠错后的文本信息之后，所述方法还包括：将所述纠错后的文本信息存入所述会话历史数据库，更新所述会话历史数据库。

在一个实施例中，在所述获得纠错后的文本信息之后，所述方法还包括：输出所述纠错后的文本信息。

第二方面，本发明实施例提供一种终端，所述终端包括：获得单元、识别单元及纠错单元；其中，所述获得单元，配置为获得语音信号；所述识别单元，配置为识别所述终端中的语音信号，获得对应的文本信息；所述纠错单元，配置为基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息；其中，所述会话历史数据库中存储有用户的会话历史记录。

在一个实施例中，所述纠错单元，具体配置为基于预置在所述终端中的字词库，获得与所述文本信息关联的至少一个备选语句；将所述至少一个备选语句与所述会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句；将所述匹配程度最高的语句确定为所述纠错后的文本信息。

在一个实施例中，所述终端还包括更新单元，配置为在获得纠错后的文本信息之后，将所述纠错后的文本信息存入所述会话历史数据库，更新所述会话历史数据库。

在一个实施例中，所述终端还包括输出单元，配置为在获得纠错后的文本信息之后，输出所述纠错后的文本信息。

本发明实施例所提供的语音信息的处理方法及终端，当终端获得语音信号后，对该语音信号进行识别，获得对应的文本信息，然后，基于预置在终端中的存储有用户的会话历史记录的会话历史数据库，终端对文本信息进行纠错，获得纠错后的文本信息，此时，纠错后的文本信息是与用户的会话历史记录匹配程度最高的，也就是最符合上下文的语境的，那么，纠错后的文本信息也是最为贴近用户实际输入的语音内容的，如此，有效地解决了现有技术存在的终端语音识别的准确率低的技术问题，提高了终端语音识别的准确率，提高用户体验。

附图说明

图1为本发明实施例中的语音信息的处理方法的流程示意图；

图2为本发明实施例中的文本信息纠错方法的流程示意图；

图3为本发明实施例中的终端的结构示意图；

图4为本发明另一实施例中的终端的结构示意图；

图5为本发明另一实施例中的终端的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

本发明实施例提供一种语音信息的处理方法，该方法应用于终端上，该终端可以为智能手机、平板电脑等设备。

图1为本发明实施例中语音信息的处理方法的流程示意图，参考图1所示，该方法包括：

S101：获得语音信号；

具体来说，当用户使用个人语音助手，或者与其他用户进行即时聊天时，用户可以通过语音唤醒、点击物理按键等方式开启终端的语音识别功能，此时，用户对着终端的麦克风输入语音，终端获得该语音的语音信号。

例如，用户A和用户B正在进行即时聊天，用户A输入的会话内容为“你在干吗呢？”，用户B输入的会话内容为“没干嘛啊，你呢？”，用户A接着输入会话内容为“一样，你在哪？”，此时，用户B唤醒终端，并语音输入“我在家，你呢？”，那么，终端获得用户B输入的语音所对应的语音信号。

S102：识别语音信号，获得对应的文本信息；

具体来说，在终端获得上述语音信号之后，通过预定的采样率得到语音信号对应的音频流，并将该音频流作为语音识别引擎的输入，以此来对语音信号进行识别，获得语音信号对应的文本信息。但是由于用户进行语音输入时，可能周围的噪音较大或用户自己的语言习惯等因素，导致获得的文本信息与用户实际想要表达的意思不一致。比如，终端对获得的用户B的语音信号进行语音识别，语音识别出现偏差，得到的用户B的语音对应的文本信息就为“偶在假，你那？”。

在实际应用中，上述预定的采样率可以为16KHz，也可以为22KHz，当然，采样率还可以为其他取值，本申请不做具体限定。

S103：基于预置在终端中的会话历史数据库，对文本信息进行纠错，获得纠错后的文本信息；

首先，需要说明的是，在实际应用中，终端中预置有字词库和会话历史数据库，其中，字词库中可以存储有所有的字词句，类似于存储在终端中的字典或者词典；另外，字词库还可以在初始时仅存储一些常用的字词句，并在之后用户的使用过程中，根据用户语音输入或者文本输入的内容进行学习，将用户常用的字词添加到该字词库中，来扩充字词库。

在一个实施例中，在本实施例中，字词库中所有的字、词可以根据用户使用每个字或者词的频率，由大到小排列，如下表1所示，C1列为使用频率最高的字，C2列为使用频率次高的字，依次类推；R1行为读音为“WO”的所有字，R2为发音为“ZAI”的所有字，依次类推。

	C1	C2	C3	C4
	C1	C2	C3	C4	R1	我	偶	窝	喔
R2	在	再	载	仔	R1	我	偶	窝	喔
R2	在	再	载	仔	R3	家	加	假	佳
R4	你	拟	呢	泥	R3	家	加	假	佳
R4	你	拟	呢	泥	R5	呢	那	呐	讷

表1

在一个实施例中，针对不用的用户，可以将字词库分为基础字词库以及个人字词库，在基础字词库中存储一些常用的字词，在个人字词库中，针对不同的用户，存储每个用户的习惯性用语，形成与用户一一对应的个人字词库。

在一个实施例中，上述会话历史数据库中可以存储有用户的会话历史记录，包括以语音、文本等方式输入的会话记录。比如，用户A和用户B正在进行会话，会话历史数据库中可以存储两个用户之前的会话记录，如表2所示。

用户	会话消息
用户	会话消息	用户A	你在干吗呢？
用户B	没干嘛啊，你呢？	用户A	你在干吗呢？

用户A

一样，你在哪？

表2

那么，S103可以为：基于预置在终端中的字词库，获得与文本信息关联的至少一个备选语句，将至少一个备选语句与会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句，将匹配程度最高的语句确定为纠错后的文本信息。

具体来说，终端将通过S102获得的文本信息进行词法及句法的分析，进行拆分，比如，通过S102获得的文本信息为“偶在假，你那？”，终端经过词法及句法的分析，对该信息进行拆分，将该语句拆分成多个句子组件，如“偶”、“在”、“假”、“你”、“那”，然后，针对每一个句子组件，在表1中，取出与该句子组件同行的所有字、词，即根据表1，得到：与“偶”同行的所有字“我”“窝”“喔”；与“在”同行的所有字“再”“载”“仔”；与“假”同行的所有字“家”“加”“佳”；与“你”同行的所有字“拟”“呢”“泥”；以及与“那”同行的所有字“呢”“呐”“讷”，然后对这些字词进行排列组合，得到与文本信息相关联的多个备选语句，即S1：“偶在假，你呢？”，S2：“我在家，你呢？”，S3：我在家，拟那？”，然后将这3个备选语句和上述会话历史数据库中最新一条会话记录，即“一样，你在哪？”进行匹配，计算每一个备选语句与该条会话记录的匹配程度，得到S1的相关匹配程度为50％，S2的相关匹配程度为100％，S3的匹配程度为85％，由此可以看出，S2为与会话记录匹配度最高的语句，此时，将可以将S2确认为纠错后的文本信息。

需要说明的是，上述一个或者多个实施例中所说的会话历史数据库和字词库可以为存储在终端本地的数据库，也可以为存储在云端服务器的数据库，本发明不做具体限定。

在一个实施例中，上述基于会话历史数据库对文本信息进行纠错的步骤除了上述一个或者多个实施例中所述的方法之外，还可以采用其他的方法，只要能够基于会话历史数据库进行纠错即可，本发明不做具体限定。

在另一实施例中，为了保证终端能够正常地进行下一次语音纠错，那么，在S103之后，该方法还可以包括：在获得纠错后的文本信息之后，将纠错后的文本信息存入会话历史数据库，更新会话历史数据库。也就是说，将S103得到的纠错后的文本信息作为会话记录存储在会话历史数据库中，以更新该数据库。

在实际应用中，会话历史数据库的容量可以配置为无限大，也可以配置为预设大小。也就是说，会话历史数据可以保存所有历史会话信息，无限量的存储；在一个实施例中，由于无限量的存储数据增加了数据库的维护难度，并且极大地浪费了系统资源，所以，终端可以根据预设条件来维护会话历史数据库中的数据。比如，用户可以预置时间门限，终端删除会话数据库中超过该时间门限的会话消息，假设时间门限为7天，那么，终端检测发现会话历史数据库中存储有7天之前的会话消息时，终端删除该消息；用户也可以预设存储条数，终端维护会话数据库仅存储预设存储条数的会话消息，假设预设存储条数为100条，那么，终端检测发现会话历史数据库中存储的历史会话消息的条数达到100条时，如果要存储一条新的会话消息，就会先删除一条最早的会话消息，然后再存储新的会话消息；而终端检测发现会话历史数据库中存储的历史会话消息未达到100条时，正常存储新的会话消息即可；当然，用户还可以根据与其会话的对象来选择存储的会话消息，假设用户可以设置只存储与用户A的会话消息，那么，终端检测发现用户除了与用户A进行会话以外，还与其他用户进行会话时，终端仅将与用户A有关的会话消息存储在会话历史数据库中，其他的会话消息则不保存。

具体会话历史数据中通过哪种存储方式来维护和更新，可根据用户的选择来设置，本发明不做具体限定。

在一个实施例中，在具体实施过程中，通过S103获得的纠错后的文本信息，除了用以更新会话历史数据库之外，还可以输出给用户，那么，在S103之后，该方法还可以包括：在获得纠错后的文本信息之后，输出纠错后的文本信息，即输出“我在家，你呢？”，这样，就使得用户在听不清或者不方便收听语音输入的录音时，可以查看终端输出的纠错后的文本信息。

在实际应用中，终端可以根据用户的设置，以语音交互中的从文本到语音(TTS，Text To Speech)播报，或者显示文本等方式输出给用户，当然，还可以有其他的输出方式，本发明不做具体限定。

下面以具体实例来对上述一个或者多个实施例所述的语音信息的处理方法进行描述。

图2为本发明实施例中的文本信息纠错方法的流程示意图，参考图2所示，假设以用户A和用户B正在进行聊天为例，该方法包括：

S201：终端获得用户B当前输入的语音信号，即“我在家，你呢？”；

S202：终端对该语音信号进行识别，获得与语音信号对应的文本信息，即“偶在假，你那？”；

S203：终端对文本信息进行语句拆分，得到句子组件，即“偶”、“在”、“假”、“你”、“那”；

S204：基于字词库，终端对上述句子组件进行排列组合，得到与该文本信息相关联的备选语句S1、S2、S3；

其中，S1为“偶在假，你呢？”，S2为“我在家，你呢？”，S3为“我在家，拟那？”；

S205：终端将备选语句S1、S2、S3分别与表2中的“一样，你在哪？”进行相关度匹配，分别得到S1的相关匹配程度为50％，S2的相关匹配程度为100％，S3的匹配程度为85％；

S206：将S2确定为纠错后的文本信息；

S207：将S2存储在会话历史数据库中，更新该会话历史数据库；

S208：显示S2。

由上述可知，终端将用户输入的语音转换成对应的文本信息后，首先基于用户的会话历史记录对文本信息纠错，获得纠错后的文本信息。那么，在将文本信息输出给用户时，该文本信息是最符合上下文的语境的，也是最符合用户的语言习惯的，这样，避免了由于输出的文本信息不符合用户所表达的意思所导致的其他用户误解或不能正确理解该用户想要表达的意思的情况，提高了终端语音识别的准确率，提高用户体验。

基于同一发明构思，本发明实施例提供一种终端，该终端与上述一个或者多个实施例中所述的终端一致。

图3为本发明实施例中终端的结构示意图，参考图3所示，该终端包括：获得单元31、识别单元32及纠错单元33；

其中，获得单元31，配置为获得语音信号；

识别单元32，配置为识别终端中的语音信号，获得对应的文本信息；

纠错单元33，配置为基于预置在终端中的会话历史数据库，对文本信息进行纠错，获得纠错后的文本信息；其中，会话历史数据库中存储有用户的会话历史记录。

在一个实施例中，纠错单元33，具体配置为基于预置在终端中的字词库，获得与文本信息关联的至少一个备选语句；将至少一个备选语句与会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句；将匹配程度最高的语句确定为纠错后的文本信息。

在一个实施例中，如图4所示，所示终端还包括更新单元34，配置为在获得纠错后的文本信息之后，将纠错后的文本信息存入会话历史数据库，更新会话历史数据库。

在一个实施例中，如图5所示，所示终端还包括输出单元35，配置为在获得纠错后的文本信息之后，输出纠错后的文本信息。

上述获得单元31、识别单元32及纠错单元33均可设置在终端的如CPU、ARM等处理器中，也可以设置在如嵌入式控制器或者系统级芯片中，本发明不做具体限定。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。

Claims

一种语音信息的处理方法，应用于终端，所述方法包括：

获得语音信号；

识别所述语音信号，获得对应的文本信息；

基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息；其中，所述会话历史数据库中存储有用户的会话历史记录。
根据权利要求1所述的方法，其中，所述基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息，包括：

基于预置在所述终端中的字词库，获得与所述文本信息关联的至少一个备选语句；

将所述至少一个备选语句与所述会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句；

将所述匹配程度最高的语句确定为所述纠错后的文本信息。
根据权利要求1所述的方法，其中，在所述获得纠错后的文本信息之后，所述方法还包括：

将所述纠错后的文本信息存入所述会话历史数据库，更新所述会话历史数据库。
根据权利要求1所述的方法，其中，在所述获得纠错后的文本信息之后，所述方法还包括：

输出所述纠错后的文本信息。
一种终端，所述终端包括：获得单元、识别单元及纠错单元；其中，

所述获得单元，配置为获得语音信号；

所述识别单元，配置为识别所述终端中的语音信号，获得对应的文本信息；

所述纠错单元，配置为基于预置在所述终端中的会话历史数据库，对所述文本信息进行纠错，获得纠错后的文本信息；其中，所述会话历史数据库中存储有用户的会话历史记录。
根据权利要求5所述的终端，其中，

所述纠错单元，配置为基于预置在所述终端中的字词库，获得与所述文本信息关联的至少一个备选语句；

将所述至少一个备选语句与所述会话历史数据库中的会话内容进行匹配，筛选出匹配程度最高的语句；

将所述匹配程度最高的语句确定为所述纠错后的文本信息。
根据权利要求5所述的终端，其中，所述终端还包括更新单元，配置为在获得纠错后的文本信息之后，将所述纠错后的文本信息存入所述会话历史数据库，更新所述会话历史数据库。
根据权利要求5所述的终端，其中，所述终端还包括输出单元，配置为在获得纠错后的文本信息之后，输出所述纠错后的文本信息。