WO2014101687A1

WO2014101687A1 - 一种用于实现语音输入的方法与设备

Info

Publication number: WO2014101687A1
Application number: PCT/CN2013/089721
Authority: WO
Inventors: 陆阳阳; 贾磊
Original assignee: 百度在线网络技术（北京）有限公司
Priority date: 2012-12-31
Filing date: 2013-12-17
Publication date: 2014-07-03
Also published as: US10199036B2; CN103076893A; EP2940551A4; US20150302852A1; EP2940551A1; JP2016505893A; EP2940551B1; CN103076893B; JP6309539B2

Abstract

提供一种用于实现语音输入的方法和设备，所述方法在网络设备端根据语音识别模型，确定语音输入信息对应的输入字符序列，并通过确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息，从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；用户设备端根据所述分词的准确性信息，将所述输入字符序列提供给用户。所述的方法和设备根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

Description

一种用于实现语音输入的方法与设备

技术领域

本发明涉及互联网技术领域，尤其涉及一种用于实现语音输入的技术。背景技术

随着语音识别技术的发展，语音输入所应用的领域越来越多。然而在很多情况下，语音输入仍然存在很多错误，例如对于同音字的识别与确定的不准确等，使得语音输入的准确性降低，影响了用户体验。发明内容

本发明的目的是提供一种用于实现语音输入的方法与设备。

根据本发明的一个方面，提供了一种在网络设备端用于实现语音输入的方法，其中，该方法包括以下步骤：

a获取语音输入信息；

b根据语音识别模型，确定所述语音输入信息对应的输入字符序列；

c确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；输入信息相对应的用户设备。

根据本发明的另一方面，还提供了一种在用户设备端用于辅助实现语音输入的方法，其中，该方法包括以下步骤：

A 获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

B 根据所述分词的准确性信息，将所述输入字符序列提供给用户。

根据本发明的再一方面，还提供了一种用于实现语音输入的网络设备，其中，该设备包括：

输入获取装置，用于获取语音输入信息；

序列确定装置，用于根据语音识别模型，确定所述语音输入信息对应的输入字符序列；

准确性确定装置，用于确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；

发送装置，用于将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

根据本发明的又一方面，还提供了一种用于辅助实现语音输入的用户设备，其中，该设备包括：

序列获取装置，用于获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

提供装置，用于根据所述分词的准确性信息，将所述输入字符序列提供给用户。

根据本发明的另一方面，还提供了一种用于实现语音输入的系统，包括如上述所述的网络设备及如上述所述的用户设备。

与现有技术相比，本发明通过在网络设备端根据语音识别模型，确定语音输入信息对应的输入字符序列，并通过确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息，从而将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；用户设备端根据所述分词的准确性信息，将所述输入字符序列提供给用户；从而根据输入字符序列中分词的呈现概率信息来获得所述分词的准确性信息，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求，并根据述访问请求，确定与所述至少一个分词相对应的一个或多个备选项，从而将所述一个或多个备选项发送至所述用户设备；在用户设备端将所述一个或多个备选项中至少一个提供给所述用户；进一步地，在网络设备端还可以结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项；进一步地，在用户设备端，还可以根据用户对所述一个或多个备选项中至少一个的选择操作，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。从而为用户提供了多种备选项，便于修正语音输入中的错误，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端确定所述分词在所述输入字符序列中的条件概率，将所述条件概率作为所述分词的呈现概率信息，并根据所述条件概率确定所述分词的准确性信息；进一步地，还可以根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值；从而结合整个字符序列，提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体验。

而且，本发明还可以在网络设备端根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列；从而结合上下文信息，提高了所确定的输入字符序列的准确性，进而提高了语音输入的准确性与灵活性，使得所述输入词条与用户的输入需求相匹配，提高了输入灵活度与个性化，还提高了输入法的输入效率，改善了用户体马。附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显：

图 1 示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图；

图 2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图；

图 3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图；

图 4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。

附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式

下面结合附图对本发明作进一步详细描述。

图 1示出根据本发明一个方面的一种用于实现语音输入的网络设备与用户设备示意图；其中，网络设备 1包括输入获取装置 11、序列确定装置 12、准确性确定装置 13、发送装置 14; 用户设备 2包括序列获取装置 21、提供装置 22; 网络设备 1和用户设备 2的各个装置之间互相配合，以实现语音输入。具体地，网络设备 1中的输入获取装置 11获取语音输入信息；序列确定装置 12根据语音识别模型，确定所述语音输入信息对应的输入字符序列；准确性确定装置 13 确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；发送装置 14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，用户设备 2中的序列获取装置 21 获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；提供装置 22根据所述分词的准确性信息，将所述输入字符序列提供给用户。

其中，所述网络设备其包括但不限于计算机、网络主机、单个网络服务器、多个网络服务器集或多个服务器构成的云；在此，云由基于云计算（ Cloud Computing )的大量计算机或网络服务器构成，其中，云计算是分布式计算的一种，由一群松散耦合的计算机集组成的一个虚拟超级计算机。所述用户设备其包括但不限于任何一种可与用户通过键盘、遥控器、触摸板、或声控设备进行人机交互的电子产品，例如计算机、智能手机、 PDA, 游戏机、或 IPTV等。所述网络包括但不限于互联网、广域网、城域网、局域网、 VPN网络、无线自组织网络（Ad Hoc 网络）等。本领域技术人员应能理解，其他的能够实现语音输入的网络设备与用户设备同样适用于本发明，也应包含在本发明保护范围以内，并在此以引用方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解"持续"是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等，直至网络设备停止获取语音输入信息。

网络设备 1中的输入获取装置 11获取语音输入信息。具体地，输入获取装置 11通过基于各种通信协议 (Communications Protocol),通过各种数据传输接口，与第三方的语音输入信息数据库等进行交互，获取语音输入信息；或者所述输入获取装置 11 实时获取用户所输入的语音输入信息，或者与所述用户设备进行交互，获取用户所实时输入的语音输入信息等。其中，所述语音输入信息包括但不限于字、词、短句或长句等。

序列确定装置 12根据语音识别模型，确定所述语音输入信息对应的输入字符序列。具体地，所述序列确定装置 12通过根据预先设置或学习得到的语音识别模型，通过例如将语音输入信息进行切分，获得与所述语音输入信息相对应的一个或多个输入音节，将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配，从而获得与所述音节对应的一个或多个分词或候选分词；依次对所述输入音节进行匹配，从而确定与所述语音输入信息相对应的输入字符序列，其中，所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此，所述语音识别模型包括但不限于通用语音识别模型，或是仅与当前用户所对应的特定语音识别模型；所述语音识别模型通过语音训练所获得。例如，若所述语音输入信息对应句子"我带你去锦州"，序列确定装置 12对所述语音输入信息进行切分，从而获得与所述语音输入信息相对应的多个分词；例如：我、带、你、去、锦州；其中， "带"的位置还可能有其他候选分词, 如"代、待、呆（10% ) ", "锦州"处也可能还有其他候选分词，如"金州、晋州"等。

准确性确定装置 13 确定所述输入字符序列中分词所对应的呈现概 * 率信息，以获得所述分词的准确性信息。具体地，所述准确性确定装置 13通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息，确定与所述输入字符序列中分词所对应的呈现概率信息；并根据所述呈现概率信息，通过直接将所述呈现概率信息作为所述分词的准确性信息的方式，获得所述分词的准确性信息；或者如基于所述分词在所述输入字符序列中的上下文信息，或是基于所述分词的词性信息等，对所述呈现概率信息进行处理，以获得所述分词的准确性信息。例如，继上例，准确性确定装置 13 通过与呈现概率信息数据库相交互，获得与所述语音输入信息对应句子"我带你去锦州 "中的分词所对应的呈现概率信息（如括号中所示），我（90% )、带（40% )、你（90% )、去（98% )、锦州 ( 40% ), 其中"带"的位置还可能有其他候选分词，如"代 ( 30% )、待（20% )、呆（10% ) ", "锦州 "处也可能还有其他候选分词, 如"金州（30% )、晋州（30% ) "等; 所述准确性确定装置 13将所述呈现概率信息直接对应为所述分词的准确性信息。即如"我"的准确性信息为 90%等。

发送装置 14将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地，所述发送装置 14从所述准确性确定装置 13 中获取由一个或多个分词或候选分词所组成的输入字符序列，以及所述分词的准确性信息，通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

相应地，用户设备 2中的序列获取装置 21获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息。具体地，所述序列获取装置 21 通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列，以及所述分词的准确性

Ί^- 。

提供装置 22根据所述分词的准确性信息，将所述输入字符序列提供给用户。具体地，所述提供装置 22通过根据所述序列获取装置 21 中所获取的输入字符序列，以及所述输入字符序列中分词的准确性信息，通过将对应同一个输入音节的所述准确性信息最高的分词进行组合，从而生成提供给所述用户的输入字符序列；或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后，生成供给所述用户的输入字符序列，其中，所述输入字符序列中包含所有匹配的分词等；并通过与所述用户进行交互，通过基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口（API ) 等方式，将所述输入字符序列提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，所述准确性确定装置 13还可以确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。具体地，所述准确性确定装置 13 还可以通过直接获取所述分词在所述输入字符序列中的条件概率；或者先获取所述输入字符序列出现的概率 P ( B ), 然后获取当所述输入字符序列中包含所述分词的概率 P ( AB ), 从而计算得到在所述输入字符序列中出现所述分词的条件概率 P( A|B ), 将所述条件概率 P ( A|B )作为所述分词的呈现概率信息。所述准确性确定装置 13 通过根据预置的或机器学习等方式所获得呈现概率阈值，例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词，若所述分词的呈现概率信息低于所述呈现概率阈值，则确定该分词为不准确分词，从而确定所述分词的准确性信息。

更优选地，所述网络设备 1还包括阈值确定装置（未示出），其中，所述阈值确定装置根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。具体地，所述阈值确定装置可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息，通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式，确定所述呈现概率阈值。例如，如所述分词以及候选分词的呈现概率信息为 {40%, 10%, 10%, 20%, 20%} , 则可取阈值为 30%-40%, 而不必限定为 50%; 例如，若所述分词以及候选分词的呈现概率信息为 {50%, 45%, 5%} ,则即使呈现概率阈值取 50%, 仍存在较大可能为错误等。

优选地，所述序列确定装置 12 还可以根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。具体地，所述序列确定装置 12通过例如结合所述语音输入信息所对应的上下文信息，确定所对应的语音识别模型，例如，根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型，然后根据所述语音识别模型，确定所述语音输入信息所对应的输入字符序列；或者利用通用的语音识别模型确定所述输入字符序列，并结合所述上下文信息对所述输入字符序列进行调整，例如提高上下文匹配的字符序列的权重或优先级等。其中，所述确定输入字符序列的方式与图 1 中所述序列确定装置 12 的确定方式相同或相似，故此处不再赞述，并通过引用的方式包含于此。

图 2示出根据本发明一个优选实施例的一种用于实现语音输入的网络设备与用户设备示意图；其中，网络设备 1包括输入获取装置 11 '、序列确定装置 12'、准确性确定装置 13'、发送装置 14'、请求获取装置 15'、备选确定装置 16'、备选发送装置 17'; 用户设备 2包括序列获取装置 21 '、提供装置 22'、备选请求获取装置 23'、访问请求发送装置 24'、备选接收装置 25'、备选提供装置 26'；网络设备 1和用户设备 2的各个装置之间互相配合，以实现语音输入。具体地，网络设备 1中的输入获取装置 1 Γ获取语音输入信息；序列确定装置 12'根据语音识别模型，确定所述语音输入信息对应的输入字符序列；准确性确定装置 13'确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；发送装置 14，将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，用户设备 2中的序列获取装置 21 '获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；提供装置 22，根据所述分词的准确性信息，将所述输入字符序列提供给用户；备选请求获取装置 23'获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；访问请求发送装置 24'基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；相应地，请求获取装置 15'获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；备选确定装置 16'根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；备选发送装置 17'将所述一个或多个备选项发送至所述用户设备；相应地，备选接收装置 25'接收所述网络设备基于所述访问请求发送的一个或多个备选项；备选提供装置 26'将所述一个或多个备选项中至少一个提供给所述用户。其中，网络设备 1中的获取装置 11 '、序列确定装置 12'、准确性确定装置 13'、发送装置 14' 和用户设备 2中的序列获取装置 21 '、提供装置 22'分别与图 1所示对应装置相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

上述各装置之间是持续不断工作的，在此，本领域技术人员应理解"持续"是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等，直至网络设备停止获取语音输入信息。

备选请求获取装置 23'获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作。具体地，备选请求获取装置 23'基于各种通信协议，通过各种应用程序接口，从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；或者与用户直接交互，获取的请求操作。其中，所述请求操作包括但不限于输入、点击、触摸等。例如，继上例，备选请求获取装置 23，与所述用户直接交互，获取所述用户通过点击等方式，所输入的对"锦州 "的备选项的请求。

访问请求发送装置 24'基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地，访问请求发送装置 24，基于所述请求操作，通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。

相应地，请求获取装置 15，获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地，所述请求获取装置 15'通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。

备选确定装置 16'根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项。具体地，所述备选确定装置 16'根据所述请求获取装置 15'所获取的访问请求，根据所述访问请求中所需获取的分词，通过直接获取序列确定装置 12'中对所述分词的候选分词，并将所述候选分词做为备选项；或者重新处理所述分词，以获得与所述至少一个分词相对应的一个或多个备选项。其中，所述处理方法与所述序列确定装置 12，中的方法相同或相似，故此处不再赘述，并通过引用的方式包含于此。

备选发送装置 17'将所述一个或多个备选项发送至所述用户设备。具体地，备选发送装置 17'获取所述备选确定装置 16'所确定的一个或多个备选项，通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述一个或多个备选项发送至所述用户设备。

相应地，用户设备端的备选接收装置 25'接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地，备选接收装置 25'通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。

备选提供装置 26'将所述一个或多个备选项中至少一个提供给所述用户。具体地，备选提供装置 26'通过根据所述备选接收装置 25'中所获取的一个或多个备选项，通过根据系统预置或用户设定的方式，将所述一个或多个备选项中至少一个，通过与所述用户进行交互提供给所述用户；或者基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口（API ) 等方式，将所述一个或多个备选项中至少一个提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，所述网络设备 1 中的备选确定装置 16，还可以根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。具体地，所述备选确定装置 16'还可以根据所述访问请求中，通过结合所述访问请求中的分词的上下文信息，对所述至少一个分词相对应的一个或多个备选项进行确定。例如，根据上下文信息，通过结合如常用搭配、或语法等信息，将与所述上下文信息匹配程度较低的备选项进行筛除等；例如，对于语音输入信息"我带你去锦州"，若需获取备选项的分词是"锦州"，考虑到 "去"这个方向词，则那么对应的备选项可能是 "金州"、 "晋州"，而不会包括"禁咒"。

优选地，所述用户设备 2还包括操作获取装置（未示出）和替换装置（未示出），其中，操作获取装置获取用户对所述一个或多个备选项中至少一个的选择操作；替换装置根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。具体地，操作获取装置通过与用户直接交互，或者经由可以提供所述选择操作的第三方设别的应用程序接口等，获取用户对所述一个或多个备选项中至少一个的选择操作；例如，用户通过点击等方式选择了一个或多个备选项中的一个，则操作获取装置对所述选择操作以及其所选择的备选项进行获取。替换装置获取所述操作获取装置所选择的备选项，并利用所述备选项替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。例如，继上例，用户选择了备选项"金州"，从而替换装置利用"金州"替换掉所述"锦州"，更新后的输入字符序列为 "我带你去金州"。

图 3示出根据本发明另一个方面的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地，在步骤 si中，网络设备 1获取语音输入信息；在步骤 s2中，网络设备 1根据语音识别模型，确定所述语音输入信息对应的输入字符序列；在步骤 S3中，网络设备 1 确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；在步骤 s4中，网络设备 1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，在步骤 s4中，用户设备 2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；在步骤 s5 中，用户设备 2根据所述分词的准确性信息，将所述输入字符序列提供给用户。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解"持续"是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供等，直至网络设备停止获取语音输入信息。

在步骤 si 中，网络设备 1获取语音输入信息。具体地，在步骤 si 中 , 网络设备 1通过基于各种通信协议 (Communications Protocol), 通过各种数据传输接口，与第三方的语音输入信息数据库等进行交互，获取语音输入信息；或者在步骤 si中，网络设备 1实时获取用户所输入的语音输入信息，或者与所述用户设备进行交互，获取用户所实时输入的语音输入信息等。其中，所述语音输入信息包括但不限于字、词、短句或长句等。

在步骤 s2中，网络设备 1根据语音识别模型，确定所述语音输入信息对应的输入字符序列。具体地，在步骤 s2中，网络设备 1通过根据预先设置或学习得到的语音识别模型，通过例如将语音输入信息进行切分，获得与所述语音输入信息相对应的一个或多个输入音节，将所述输入音节的特征矢量依次与所述语音识别模型中的模板等进行匹配，从而获得与所述音节对应的一个或多个分词或候选分词；依次对所述输入音节进行匹配，从而确定与所述语音输入信息相对应的输入字符序列，其中，所述输入字符序列中包括与所述语音输入信息相对应的多个分词或候选分词。在此，所述语音识别模型包括但不限于通用语音识别模型，或是仅与当前用户所对应的特定语音识别模型；所述语音识别模型通过语音训练所获得。例如，若所述语音输入信息对应句子"我带你去锦州"，在步骤 s2中，网络设备 1对所述语音输入信息进行切分，从而获得与所述语音输入信息相对应的多个分词；例如：我、带、你、去、锦州；其中， "带"的位置还可能有其他候选分词，如"代、待、呆 ( 10% ) ", "锦州 "处也可能还有其他候选分词，如"金州、晋州"等。

在步骤 S3中，网络设备 1确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息。具体地，在步骤 S3中，网络设备 1通过根据机器学习所获得的、或是通过查询相应的呈现概率信息数据库等所获得的信息，确定与所述输入字符序列中分词所对应的呈现概率信息；并根据所述呈现概率信息，通过直接将所述呈现概率信息作为所述分词的准确性信息的方式，获得所述分词的准确性信息；或者如基于所述分词在所述输入字符序列中的上下文信息，或是基于所述分词的词性信息等，对所述呈现概率信息进行处理，以获得所述分词的准确性信息。例如，继上例，在步骤 S3中，网络设备 1通过与呈现概率信息数据库相交互，获得与所述语音输入信息对应句子"我带你去锦州 "中的分词所对应的呈现概率信息（如括号中所示），我（90% )、带（40% )、你（90% )、去 ( 98% )、锦州（40% ), 其中"带"的位置还可能有其他候选分词，如"代（30% )、待（20% )、呆 ( 10% ) "， "锦州"处也可能还有其他候选分词，如"金州（30% )、晋州（30% ) "等；在步骤 s3中，网络设备 1 将所述呈现概率信息直接对应为所述分词的准确性信息。即如 "我"的准确性信息为 90%等。

在步骤 s4中，网络设备 1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。具体地，在步骤 s4 中，网络设备 1从所述步骤 s3中获取由一个或多个分词或候选分词所组成的输入字符序列，以及所述分词的准确性信息，通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备。

相应地，在步骤 s4中，用户设备 2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息。具体地，在步骤 s4中，用户设备 2通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述网络设备处接收由一个或多个分词或候选分词所组成的与所述语音输入信息所对应的输入字符序列，以及所述分词的准确性信息。

在步骤 s5中，用户设备 2才艮据所述分词的准确性信息，将所述输入字符序列提供给用户。具体地，在步骤 s5中，用户设备 2通过步骤 s4中所获取的输入字符序列，以及所述输入字符序列中分词的准确性信息，通过将对应同一个输入音节的所述准确性信息最高的分词进行组合，从而生成提供给所述用户的输入字符序列；或者将对应同一个输入音节的所有分词或候选分词按照准确性从高到低进行排序后，生成供给所述用户的输入字符序列，其中，所述输入字符序列中包含所有匹配的分词等；并通过与所述用户进行交互，通过基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口（API ) 等方式，将所述输入字符序列提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，在步骤 s3中，网络设备 1还可以确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。具体地，在步骤 s3中，网络设备 1还可以通过直接获取所述分词在所述输入字符序列中的条件概率；或者先获取所述输入字符序列出现的概率 P ( B ), 然后获取当所述输入字符序列中包含所述分词的概率 P ( AB ), 从而计算得到在所述输入字符序列中出现所述分词的条件概率 P( A|B ), 将所述条件概率 P ( A|B )作为所述分词的呈现概率信息。在步骤 S3中，网络设备 1通过根据预置的或机器学习等方式所获得呈现概率阈值，例如将所述呈现概率信息高于所述呈现概率阈值的一个或多个分词作为准确分词，若所述分词的呈现概率信息低于所述呈现概率阈值，则确定该分词为不准确分词，从而确定所述分词的准确性信息。

更优选地，该方法还包括步骤 sll (未示出），其中，在步骤 sll中，网络设备 1根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。具体地，在步骤 sll 中，网络设备 1可以获取所述分词以及所述分词所对应的候选分词的呈现概率信息，通过例如对所述一个或多个分词以及候选分词的呈现概率进行平均、加权平均、取中值等方式，确定所述呈现概率阈值。例如，如所述分词以及候选分词的呈现概率信息为 {40%, 10%, 10%, 20%, 20%} , 则可取阈值为 30%-40%, 而不必限定为 50%; 例如，若所述分词以及候选分词的呈现概率信息为 {50%, 45%, 5%} ,则即使呈现概率阈值取 50%, 仍存在较大可能为错误等。

优选地，在步骤 s2中，网络设备 1还可以根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。具体地，在步骤 s2中，网络设备 1通过例如结合所述语音输入信息所对应的上下文信息，确定所对应的语音识别模型，例如，根据所述上下文信息中的关键字判定相对应的不同领域的语音识别模型，然后根据所述语音识别模型，确定所述语音输入信息所对应的输入字符序列；或者利用通用的语音识别模型确定所述输入字符序列，并结合所述上下文信息对所述输入字符序列进行调整，例如提高上下文匹配的字符序列的权重或优先级等。其中，所述确定输入字符序列的方式与图 31中所述步骤 s2的确定方式相同或相似，故此处不再赞述，并通过引用的方式包含于此。

图 4示出根据本发明一个优选实施例的一种由网络设备与用户设备配合实现的用于实现语音输入的方法流程图。具体地，在步骤 sl，中，网络设备 1获取语音输入信息；在步骤 s2'中，网络设备 1根据语音识别模型，确定所述语音输入信息对应的输入字符序列；在步骤 S3'中，网络设备 1确定所述输入字符序列中分词所对应的呈现概率信息，以获得所述分词的准确性信息；在步骤 s4'中，网络设备 1将所述输入字符序列及所述分词的准确性信息发送至所述语音输入信息相对应的用户设备；相应地，在步骤 s4，中，用户设备 2获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；在步骤 s5'中，用户设备 2根据所述分词的准确性信息，将所述输入字符序列提供给用户；在步骤 s6'中，用户设备 2获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；在步骤 s7'中，用户设备 2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；相应地，在步骤 s7，中，网络设备 1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；在步骤 s8，中，网络设备 1才艮据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；在步骤 s9'中，网络设备 1将所述一个或多个备选项发送至所述用户设备；相应地，在步骤 s9，中，用户设备 2接收所述网络设备基于所述访问请求发送的一个或多个备选项；在步骤 slO'中，用户设备 2将所述一个或多个备选项中至少一个提供给所述用户。其中，步骤 sl '、步骤 s2'、步骤 s3'、步骤 s4'、步骤 s5'分别与图 3所示对应步骤相同或基本相同，故此处不再赘述，并通过引用的方式包含于此。

上述各步骤之间是持续不断工作的，在此，本领域技术人员应理解"持续"是指上述各步骤分别实时地或者按照设定的或实时调整的工作模式要求，进行语音输入信息的获取、输入字符序列的确定、准确性信息的获取、输入字符序列以及分词准确性信息的发送与接收、输入字符序列的提供、备选请求操作的获取、备选访问请求的发送与接收、备选项的确定、备选项的发送与接收、备选项的提供等，直至网络设备停止获取语音输入信息。一个分词的备选项的请求操作。具体地，在步骤 s6，中，用户设备 2基于各种通信协议，通过各种应用程序接口，从第三方设备中获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；或者与用户直接交互，获取的请求操作。其中，所述请求操作包括但不限于输入、点击、触摸等。例如，继上例，在步骤 s6，中，用户设备 2与所述用户直接交互，获取所述用户通过点击等方式，所输入的对"锦州"的备选项的请求。

在步骤 s7'中，用户设备 2基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求。具体地，访在步骤 s7，中，用户设备 2基于所述请求操作，通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述关于所述至少一个分词的备选项的访问请求发送至所述网络设备。

相应地，在步骤 s7，中，网络设备 1获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求。具体地，在步骤 s7，中，网络设备 1通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述用户设备处接收关于所述至少一个分词的备选项的访问请求。

在步骤 s8'中，网络设备 1根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项。具体地，在步骤 s8，中，网络设备 1 根据步骤 s7'所获取的访问请求，根据所述访问请求中所需获取的分词，通过直接步骤 s2'中对所述分词的候选分词，并将所述候选分词做为备选项；或者重新处理所述分词，以获得与所述至少一个分词相对应的一个或多个备选项。其中，所述处理方法与所述步骤 s2，中的方法相同或相似，故此处不再赘述，并通过引用的方式包含于此。

在步骤 s9'中，网络设备 1将所述一个或多个备选项发送至所述用户设备。具体地，在步骤 s9，中，网络设备 1获取所述步骤 s8，所确定的一个或多个备选项，通过基于各种通信协议，通过用户设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，将所述一个或多个备选项发送至所述用户设备。相应地，在步骤 s9，中，用户设备 2接收所述网络设备基于所述访问请求发送的一个或多个备选项。具体地，在步骤 s9，中，用户设备 2通过基于各种通信协议，通过网络设备所提供的应用程序接口（API ), 或其他约定的通信方式的格式要求，从所述网络设备处接收基于所述访问请求发送的一个或多个备选项。

在步骤 slO'中，用户设备 2将所述一个或多个备选项中至少一个提供给所述用户。具体地，在步骤 slO，中，用户设备 2通过根据步骤 s9，中所获取的一个或多个备选项，通过根据系统预置或用户设定的方式，将所述一个或多个备选项中至少一个，通过与所述用户进行交互提供给所述用户；或者基于各种通信协议，通过用户所对应的用户设备所提供的应用程序接口（API ) 等方式，将所述一个或多个备选项中至少一个提供给所述用户。在此，所述用户包括但不限于与提供所述语音输入信息相对应的用户，或者指定的用于接收所述语音输入信息的用户等。

优选地，在步骤 s8，中，网络设备 1还可以根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。具体地，在步骤 s8，中，网络设备 1还可以根据所述访问请求中，通过结合所述访问请求中的分词的上下文信息，对所述至少一个分词相对应的一个或多个备选项进行确定。例如，才艮据上下文信息，通过结合如常用搭配、或语法等信息，将与所述上下文信息匹配程度较低的备选项进行筛除等；例如，对于语音输入信息"我带你去锦州"，若需获取备选项的分词是"锦州"，考虑到 "去"这个方向词，则那么对应的备选项可能是"金州"、 "晋州"，而不会包括"禁咒"。

优选地，该方法还包括步骤 sl2，（未示出）和步骤 sl3，（未示出），其中，在步骤 sl2'中，用户设备 2获取用户对所述一个或多个备选项中至少一个的选择操作；在步骤 sl3'中，用户设备 2根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。具体地，在步骤 sl2，中，用户设备 2通过与用户直接交互，或者经由可以提供所述选择操作的第三方设别的应用程序接口等，获取用户对所述一个或多个备选项中至少一个的选择操作；例如，用户通过点击等方式选择了一个或多个备选项中的一个，则在步骤 sl2' 中，用户设备 2对所述选择操作以及其所选择的备选项进行获取。在步骤 sl3，中，用户设备 2获取所述步骤 sl2，所选择的备选项，并利用所述备选项替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。例如，继上例，用户选择了备选项"金州"，从而在步骤 sl3，中，用户设备 2利用"金州"替换掉所述"锦州"，更新后的输入字符序列为"我带你去金州"。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然"包括"一词不排除其他单元或步骤，单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

Claims

权利要求书

1. 一种在网络设备端用于实现语音输入的方法，其中，该方法包括以下步骤：

a获取语音输入信息；

2. 根据权利要求 1所述的方法，其中，该方法还包括：

- 获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；

X才艮据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；

- 将所述一个或多个备选项发送至所述用户设备。

3. 根据权利要求 2所述的方法，其中，所述步骤 X包括：

-根据所述访问请求，并结合所述至少一个分词的上下文信息，确定与所述至少一个分词相对应的一个或多个备选项。

4. 根据权利要求 1至 3中任一项所述的方法，其中，所述步骤 c包括：

- 确定所述分词在所述输入字符序列中的条件概率，以作为所述分词的呈现概率信息；

-根据呈现概率阈值，基于所述分词的呈现概率信息，确定所述分词的准确性信息。

5. 根据权利要求 4所述的方法，其中，该方法还包括：

-根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。

6. 根据权利要求 1至 5中任一项所述的方法，其中，所述步骤 b包括：

-根据语音识别模型，并结合所述语音输入信息所对应的上下文信息，确定所述语音输入信息对应的输入字符序列。

7. 一种在用户设备端用于辅助实现语音输入的方法，其中，该方法包括以下步骤：

A获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

B根据所述分词的准确性信息，将所述输入字符序列提供给用户。

8. 根据权利要求 7所述的方法，其中，该方法还包括：

- 获取所述用户对所述输入字符序列中至少一个分词的备选项的请求操作；

-基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；

-接收所述网络设备基于所述访问请求发送的一个或多个备选项； - 将所述一个或多个备选项中至少一个提供给所述用户。

9. 根据权利要求 8所述的方法，其中，该方法还包括：

- 获取用户对所述一个或多个备选项中至少一个的选择操作； -根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。

10. 一种用于实现语音输入的网络设备，其中，该设备包括：输入获取装置，用于获取语音输入信息；

11. 根据权利要求 10所述的网络设备，其中，该设备还包括：请求获取装置，用于获取所述用户设备发送的关于所述至少一个分词的备选项的访问请求；

备选确定装置，用于根据所述访问请求，确定与所述至少一个分词相对应的一个或多个备选项；

备选发送装置，用于将所述一个或多个备选项发送至所述用户设备。

12. 根据权利要求 11所述的网络设备，其中，所述备选确定装置用于：

13. 根据权利要求 10至 12中任一项所述的网络设备，其中，所述准确性确定装置用于：

14. 根据权利要求 13所述的网络设备，其中，该设备还包括：阈值确定装置，用于根据所述分词的呈现概率信息，以及所述分词对应的候选分词的呈现概率信息，确定所述呈现概率阈值。

15. 根据权利要求 10至 14中任一项所述的网络设备，其中，所述序列确定装置用于：

16. 一种用于辅助实现语音输入的用户设备，其中，该设备包括：序列获取装置，用于获取网络设备所发送的语音输入信息所对应的输入字符序列，以及所述输入字符序列中分词的准确性信息；

17. 根据权利要求 16所述的用户设备，其中，该设备还包括：一个分词的备选项的请求操作；

访问请求发送装置，用于基于所述请求操作向所述网络设备发送关于所述至少一个分词的备选项的访问请求；

备选接收装置，用于接收所述网络设备基于所述访问请求发送的一个或多个备选项；

备选提供装置，用于将所述一个或多个备选项中至少一个提供给所述用户。

18. 根据权利要求 17所述的用户设备，其中，该设备还包括：操作获取装置，用于获取用户对所述一个或多个备选项中至少一个的选择操作；

替换装置，用于根据所述选择操作所对应的备选项，替换所述输入字符序列中对应的分词，以获得更新后的所述输入字符序列。

19. 一种用于实现语音输入的系统，包括如权利要求 10至 15中任一项所述的网络设备及如权利要求 16至 18中任一项所述的用户设备。