WO2014106433A1

WO2014106433A1 - 语音识别的方法、交互设备、服务器和系统

Info

Publication number: WO2014106433A1
Application number: PCT/CN2013/090033
Authority: WO
Inventors: 李善甫; 董明杰
Original assignee: 华为技术有限公司
Priority date: 2013-01-06
Filing date: 2013-12-20
Publication date: 2014-07-10
Also published as: KR101838095B1; US11676605B2; US10229684B2; CN103915095B; US20210366483A1; US20190156833A1; CN103915095A; US10971156B2; KR20150103222A; US20150310864A1

Abstract

提供了一种语音识别方法、装置和系统。所述语音识别方法包括：解析一个或多个第一文本以得到第一目标语义，第一文本由第一语音信号转换得到（S11）；根据所获取的第一目标语义确定与第一目标语义相对应的第三方应用对象，第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序（S12）；从第三方应用注册表中获取与所确定的第三方应用对象相关的第三方应用程序并启动第三方应用程序（S13）。所述语音识别方法根据用户的语音信号，可以通过语义分析，确定语音信号对应的第三方应用程序，查找第三方应用注册表信息并启动第三方程序，从而无需用户通过点击第三方应用程序来启动对应程序，为用户提供更智能的服务，方便用户的使用。

Description

语音识别的方法、交互设备、服务器和系统本申请要求于 2013 年 01 月 06 日提交中国专利局、申请号为 201310003504.4、发明名称为"语音识别的方法、交互设备、服务器和系统" 的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及交互设备应用领域，更具体地，涉及语音识别的方法、交互设备、服务器和系统。背景技术

现有技术中，用户可以为交互设备（英文为 User Equipment,缩写为 UE ) 灵活自主的下载各种应用（英文为 application ), 这些应用不一定是终端厂家提供的。我们将非交互设备自带且用户自行获取的应用称为第三方应用程序，如苹果的应用商城（英文为 APP store )和安卓市场（英文为 android market ) 中的应用，也可以说是设备出厂时未经授信通过语音方式启动的程序。第三方应用程序独立于操作系统的但是能在操作系统的操作环境下被调用并执行的程序集或者指令集。正是有了这些数量众多的第三方应用程序，极大地丰富了用户对应用的选择。目前最常见的两个交互设备的操作系统为安卓（英文为 Android )和苹果操作系统（缩写为 iOS ) , 都可以支持第三方应用程序。其中 Android平台上，第三方可以将开发的应用上传到安卓市场上发售； iOS平台上，第三方可以将开发的应用上传到应用商城上发售。

交互设备的用户可以通过连接网络，将安卓市场或者苹果商店的应用下载到该交互设备，这些应用可以是免费的或者收费的，且这些应用包括最常见的地图、 QQ社交通信软件、 Skype 即时通信软件或淘宝购物软件等。上述应用会以图标的形式呈现在终端上，当用户需要启用某个第三方应用程序时，通过触摸屏点击对应的图标，触发该第三方应用程序启动。

对于交互设备，无需点击对应的图标，如何更智能地通过语音识别来启动第三方应用程序是个难题。发明内容有鉴于此，本发明实施例提供一种语音识别的方法、交互设备、服务器和系统，以解决通过语音识别来启动第三方应用程序的难题。

第一方面，提供了一种语音识别的方法，包括：解析一个或多个第一文本以得到第一目标语义，第一文本由第一语音信号转换得到；根据所获取的第一目标语义确定与第一目标语义相对应的第三方应用对象，第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序。

在第一种可能的实现方式中，在解析第一文本以得到第一目标语义之前，方法还包括：获取第一语音信号并转换所述第一语音信号得到一个或多个第一文本。

结合第一方面或第一种可能的实现方式，在第二种可能的实现方式中，转换第一语音信号得到至少两个第一文本；按照预定的评分规则根据至少两个第一文本的语义的自然性及连贯性对至少两个第一文本中的每个第一文本的语义进行评分，评分的高低体现语义的自然性及连贯性的优劣。

结合第一方面的第二种可能的实现方式，在第三种可能的实现方式中，获取至少两个第一文本的语义评分最高且超过预设阈值的第一文本的语义作为所述的第一目标语义。

结合第一方面的第三种可能的实现方式，在第四种可能的实现方式中，根据第一目标语义，确定与第一目标语义相对应的所有第三方应用对象；若第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发出提示信息，提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以从所有与第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收选择指令，并根据选择指令选择相应的目标第三方应用对象；相应，从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序具体包括：从第三方应用注册表中获取与目标第三方应用对象相关联的第三方应用程序并启动第三方应用程序。

结合第一方面的第四种可能的实现方式，在第五种可能的实现方式中，当选择指令为第二语音信号；相应，根据接收的选择指令选择相应的目标第三方应用对象具体包括：转换第二语音信号得到第二文本；解析第二文本获取第二目标语义；根据第二目标语义确定相应的目标第三方应用对象。

结合第一方面或第一方面的上述可能的实现方式，在第六种可能的实现方式中，方法还包括：在从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前，生成第三方应用注册表。

结合第一方面或第一方面的上述可能的实现方式，在第七种可能的实现方式中，启动第三方应用程序后还包括：向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（ API )。

结合第一方面或第一方面的上述可能的实现方式，在第八种可能的实现方式中，方法还包括：第三方应用程序接收用户的第三语音信号；转换第三语音信号以得到第三文本；根据第三文本的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（API ), 以使被启动的第三方应用程序通过 API获取所需的硬件或软件资源。

结合第一方面或第一方面的上述可能的实现方式，在第九种可能的实现方式中，方法由交互设备执行。

结合第一方面或第一方面的上述可能的实现方式，在第九种可能的实现方式中，解析一个或多个第一文本以得到第一目标语义由服务器执行；根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，以及从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序由交互设备执行。

第二方面，提供了一种语音识别的交互设备，包括解析单元、确定单元、启动单元和存储单元：解析单元，用于解析一个或多个语音识别单元发送的第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到；确定单元，用于根据解析单元所获取的第一目标语义确定与第一目标语义相对应的第三方应用对象，第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；启动单元，用于访问存储单元，从存储单元存储的第三方应用注册表中获取与确定单元所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序；和存储单元，用于存储第三方应用注册表和第三方应用程序。

在第一种可能的实现方式中，交互设备还包括语音识别单元，用于转换第一语音信号得到一个或多个第一文本，并发送到所述解析单元。

结合第二方面或第二方面的第一种可能的实现方式，在第二种可能的实现方式中，交互设备还包括语音识别单元：语音识别单元用于转换第一语音信号得到至少两个第一文本并发送到所述解析单元；解析单元具体用于按照预定的评分规则，根据至少两个第一文本的语义的自然性及连贯性对至少两个第一文本中的每个第一文本的语义进行评分，评分的高低体现语义的自然性及连贯性的优劣；获取至少两个第一文本的语义评分最高的第一文本的语义作为的第一目标语义。

结合第二方面的第二种可能的实现方式，在第三种可能的实现方式中，解析单元具体用于：获取至少两个第一文本的语义评分最高且超过预设阈值的第一文本的语义作为所述的第一目标语义。

结合第二方面或第二方面的上述可能的实现方式，在第四种可能的实现方式中，交互设备还包括发送单元和接收单元：确定单元，具体用于根据第一目标语义，确定与第一目标语义相对应的所有第三方应用对象；若第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发送单元，用于发出提示信息，提示信息包含所述第三方应用对象信息，用以提示用户根据第三方应用对象信息发出进一步的选择指令，以便确定单元从所有与第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元，用于接收用户发送的选择指令；确定单元，具体用于根据接收的选择指令选择相应的目标第三方应用对象；启动单元从存储单元存储的第三方应用注册表中获取与目标第三方应用对象相关联的第三方应用程序并启动第三方应用程序。

结合第二方面的第四种可能的实现方式，在第五种可能的实现方式中，语音识别单元还用于当的选择指令为第二语音信号时，转换第二语音信号得到第二文本并发送到解析单元；解析单元还用于解析第二文本获取第二目标语义；确定单元还用于根据第二目标语义确定相应的目标第三方应用对象。

结合第二方面的上述可能的实现方式，在第六种可能的实现方式中，交互设备还包括生成单元：生成单元在启动单元从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前，生成第三方应用注册表并发送到存储单元。

结合第二方面或第二方面的上述可能的实现方式，在第七种可能的实现方式中，启动单元启动第三方应用程序后，向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（ API )。

第三方面，提供了一种语音识别的服务器，包括解析单元、确定单元、启动单元和存储单元：解析单元，用于解析一个或多个第一文本以得到第一目标语义，其中第一文本由转换第一语音信号获得；确定单元，用于根据解析单元所获取的第一目标语义确定与第一目标语义相对应的第三方应用对象，第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；启动单元，用于从存储单元存储的第三方应用注册表中获取与确定单元所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序；存储单元用于存储第三方应用注册表和第三方应用程序。

在第一种可能的实现方式中，解析单元具体用于：按照预定的评分规则，根据转换第一语音信号得到的至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，评分的高低体现语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

结合第三方面的第一种可能的实现方式，在第二种可能的实现方式中，解析单元具体用于：获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

结合第三方面或第三方面的上述可能的实现方式，在第三种可能的实现方式中，服务器还包括发送单元和接收单元：确定单元，具体用于根据第一目标语义，确定与第一目标语义相对应的所有第三方应用对象；若第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发送单元，用于发出提示信息，提示信息包含所述第三方应用对象信息，用以提示用户根据第三方应用对象信息发出进一步的选择指令，以便确定单元从所有与第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元，用于接收用户发送的选择指令；确定单元，具体用于根据接收的选择指令选择相应的目标第三方应用对象；启动单元从存储单元存储的第三方应用注册表中获取与目标第三方应用对象相关联的第三方应用程序并启动第三方应用程序。

结合第三方面的第三种可能的实现方式，在第四种可能的实现方式中，解析单元还用于当的选择指令为第二语音信号时，解析第二文本获取第二目标语义，其中第二文本由转换第二语音信号获得；确定单元具体用于根据第二目标语义确定相应的目标第三方对象。

结合第三方面或第三方面的上述可能的实现方式，在第五种可能的实现方式中，服务器还包括生成单元：生成单元在启动单元从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前，生成第三方应用注册表并发送到存储单元。

结合第三方面或第三方面的上述任一项可能的实现方式，在第六种可能的实现方式中，启动单元启动的第三方应用程序后，向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（ API )。

结合第三方面或第三方面的上述可能的实现方式，在第七种可能的实现方式中，启动单元启动第三方应用程序后，以使第三方应用程序转换第三语音信号以得到第三文本；根据第三文本的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（API ), 以使被启动的第三方应用程序通过 API获取所需的硬件或软件资源。

结合第三方面或第三方面的上述可能的实现方式，在第八种可能的实现方式中，接收单元还用于在解析第一文本以得到第一目标语义前，接收由交互设备发送的第一文本。

结合第三方面或第三方面的上述可能的实现方式，在第九种可能的实现方式中，发送单元还用于在启动第三方应用程序后向交互设备发送响应反馈。

第四方面，提供了一种语音识别的装置，包括处理器和存储器：处理器解析一个或多个第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到；根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；访问存储器，从所述存储器存储的第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序，其中存储器存储第三方应用注册表和所述第三方应用程序以及处理器执行上述方法的指令。

在第一种可能的实现方式中，处理器在解析第一文本以得到第一目标语义之前，获取第一语音信号并转换所述第一语音信号得到一个或多个第一文本。

结合第四方面或第一种可能的实现方式，在第二种可能的实现方式中，处理器转换第一语音信号得到至少两个第一文本；按照预定的评分规则根据至少两个第一文本的语义的自然性及连贯性对至少两个第一文本中的每个第一文本的语义进行评分，评分的高低体现语义的自然性及连贯性的优劣。

结合第四方面的第二种可能的实现方式，在第三种可能的实现方式中，处理器获取至少两个第一文本的语义评分最高且超过预设阈值的第一文本的语义作为所述的第一目标语义。

结合第四方面的第三种可能的实现方式，在第四种可能的实现方式中，处理器根据第一目标语义，确定与第一目标语义相对应的所有第三方应用对象；若第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发出提示信息，提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以从所有与第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收选择指令，并根据选择指令选择相应的目标第三方应用对象；相应，从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序具体包括：从第三方应用注册表中获取与目标第三方应用对象相关联的第三方应用程序并启动第三方应用程序。

结合第四方面的第四种可能的实现方式，在第五种可能的实现方式中，处理器当选择指令为第二语音信号；相应，根据接收的选择指令选择相应的目标第三方应用对象具体包括：转换第二语音信号得到第二文本；解析第二文本获取第二目标语义；根据第二目标语义确定相应的目标第三方应用对结合第四方面或第四方面的上述可能的实现方式，在第六种可能的实现方式中，处理器在从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前，生成第三方应用注册表并发送到存储器。

结合第四方面或第四方面的上述可能的实现方式，在第七种可能的实现方式中，处理器启动第三方应用程序后还包括：向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（ API )。结合第四方面或第四方面的上述可能的实现方式，在第八种可能的实现方式中，处理器在启动第三方应用程序后，以使第三方应用程序接收用户的第三语音信号；转换第三语音信号以得到第三文本；根据第三文本的语义命令调用与被启动的第三方应用程序相匹配的第三方应用接口（API ), 以使被启动的第三方应用程序通过 API获取所需的硬件或软件资源。

第五方面，提供了一种语音识别的系统，包括上述任一交互设备、服务器或装置。

通过上述技术方案，根据用户的语音信号，可以通过语义分析，确定语音信号对应的第三方应用程序；查找第三方应用注册表信息并启动第三方程序，从而无需用户通过点击第三方应用程序来启动对应程序，为用户提供了更智能的服务，方便了用户的使用。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例中所需要使用的附图作筒单地介绍，显而易见地，下面所描述的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是本发明实施例 1的语音识别方法的示意流程图。

图 2是本发明实施例 2的语音识别方法的示意流程图

图 3是本发明实施例的第三方应用程序启动后调用交互设备硬件的示意图。

图 4是本发明实施例 3的第三方应用程序支持语音识别功能的示意图。图 5是本发明实施例 4的语音识别系统的示意架构图。

图 6是本发明实施例 5的语音识别方法的示意流程图。

图 7是本发明实施例 7的语音识别的交互设备的示意框图。

图 8是本发明实施例 8的语音识别的交互设备的示意框图。

图 9是本发明实施例 9的语音识别的服务器的示意框图。

图 10是本发明实施例 10的语音识别的服务器的示意框图。

图 11是本发明实施例 11的语音识别的装置的示意框图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都应属于本发明保护的范围。

本文中术语"和 /或"，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如， A和 /或 B, 可以表示：单独存在 A, 同时存在 A和 B, 单独存在 B这三种情况。另外，本文中字符 "/" , 一般表示前后关联对象是一种 "或" 的关系。

语音识别技术就是使机器，也就是装置通过识别和理解过程，将语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

现有技术中，语音识别技术一般将识别结果以文本或命令的形式输出。整个语音识别过程为语言信号输入，经过处理后，输出文字内容，或者输出命令用以驱动其他的设备，从而改变了传统的鼠标或者键盘的输入方式。

现有技术的交互设备例如可以包括：智能手机（英文为 smart phone )、平板计算机（英文为 Tablet PC ), 游戏机等。上述交互设备通常具有语音识别功能，且语音识别功能中从语音到文字的准确率在不断提高。但交互设备启动第三方应用程序必需通过触摸点击或者鼠标点击，才能实现程序的调用。这样，用户希望提高交互设备的智能化水平，例如可以通过语音识别，直接启动第三方应用程序。本发明实施例提供了这样一种方法，可以实现根据用户的语音信号，直接启动第三方应用程序的问题。

图 1是本发明实施例 1的语音识别方法的示意流程图，包括以下内容。

511 , 解析一个或多个第一文本得到第一目标语义，所述第一文本由第一语音信号转换得到。

512, 根据所获取的第一目标语义确定与第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序。

S11和 S12在上下文中也称为语义分析。

S13 , 从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序。作为不同的实施例，第三方应用程序可以下载在用户的交互设备上，也可以下载在服务器上；将语音信号转换成文本的语音识别功能可以放置在交互设备上，也可以放置在服务器上；解析文本获得目标语义以及确定与目标语义相对应的第三方应用对象并启动第三方应用程序可以由交互设备执行，也可以由服务器执行。该服务器是用来为交互设备提供支持服务的，与下文中为第三方应用程序提供支持的第三方服务器不同。

本发明实施例利用语音识别功能，根据用户的语音信号，可以通过语义分析，确定语音信号对应的第三方应用程序；查找第三方应用注册表信息并启动第三方程序，从而无需用户通过点击第三方应用程序来启动对应程序，为用户提供了更智能的服务，方便了用户的使用。

可选的，作为不同的实施例，在解析所述第一文本以得到第一目标语义之前，获取第一语音信号并转换所述第一语音信号得到所述一个或多个第一文本。

可选的，作为不同的实施例，转换第一语音信号得到至少两个第一文本；相应，按照预定的评分规则，根据所述至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

可选的，作为不同的实施例，获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义，包括：获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

可选的，作为不同的实施例，根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象具体包括：根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收选择指令，并根据接收的所述选择指令选择相应的目标第三方应用对象；相应，所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序具体包括：从第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

可选的，作为不同的实施例，选择指令为第二语音信号；相应，所述根据接收的所述选择指令选择相应的目标第三方应用对象具体包括：转换所述第二语音信号得到第二文本；解析所述第二文本获取第二目标语义；根据所述第二目标语义确定相应的目标第三方应用对象。

可选的，作为不同的实施例，方法还包括：在所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，生成所述第三方应用注册表。

可选的，作为不同的实施例，启动所述的第三方应用程序后还包括：向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

可选的，作为不同的实施例，启动所述第三方应用程序后，所述方法还包括：所述第三方应用程序转换所述第三语音信号以得到第三文本；根据所述第三文本的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API, 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

可选的，作为不同的实施例，所述方法由交互设备执行。

可选的，作为不同的实施例，所述方法由所述解析一个或多个第一文本以得到第一目标语义由服务器执行；所述根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，以及所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序由交互设备执行。

图 2是本发明实施例 2的语音识别方法的示意流程图。在实施例 2中，交互设备执行该方法，用户将第三方应用程序下载到交互设备。交互设备至少包括语音识别单元、解析单元、确定单元、启动单元和存储单元等。

S21 , 交互设备接收第一语音信号。

此处的第一语音信号是用户说的话，例如 "老胡在线吗"。交互设备可以通过麦克风接收第一语音信号。 522, 交互设备转换第一语音信号得到一个或多个第一文本。

交互设备的语音识别单元接收到第一信号后，将语音波形转换为文字 (Speech to text), 该文字对应上述第一文本。语音识别单元转换后输出的第一文本可以是 "老胡在线吗"、 "老胡在先吗" 和 /或 "老虎在线吗" 等，发送到确定单元进行处理。在本发明实施例中，交互设备包括语音识别单元以及解析单元、确定单元和启动单元，分别执行本发明实施例 2中的具体步骤。在其他实施例中语音识别单元和其余的解析单元、确定单元、启动单元可以包括在不同的设备中。

523 , 交互设备按照预定的评分规则，根据至少两个第一文本的语义 (英文为 semantic)的自然性及连贯性分别对至少两个第一文本的语义进行评分。

交互设备的解析单元根据第一文本列举出对应的可选语义，如交互设备的电话簿中有 "老胡"，以前用户的语音输入中有 "在线" 等出现概率较高的词；解析单元排序出多种组合，例如 "老胡在线吗"、 "老胡在先吗"和 "老虎在线吗"，并根据语义的自然性及连贯性，对每个组合打分，评分的高低体现所述语义的自然性及连贯性的优劣。

可选的，作为不同的实施例，解析单元可以设置一个评分阈值，并根据预定的评分规则对第一文本的语义的各种组合评定分值。仅仅当该第一文本的语义的评分最高且超过预定的阈值时，才做任务分析，并访问存储单元。

S28 , 当交互设备转换第一语音信号仅得到一个第一文本时，通过第一文本的语义直接确定第一目标语义，可以省略评分过程 S23和 S24, 进而执行步骤 S25及以后的步骤。

524, 交互设备获取至少两个第一文本的语义评分最高的第一文本的语义作为第一目标语义。

可选的，在一个实施例中，如果交互设备的解析单元只获取了一个评分最高的第一文本的语义例如 "老胡在线"，则接下来执行 S25。

在另一实施例中，当没有一个第一文本的语义的评分超过预定的阈值时，或有两个以上的第一文本的语义的评分超过预定的阈值时，解析单元根据上下文，可以向语音识别单元反馈需要输入更多信息的命令。可选的，解析单元根据语义的上下文分析， "在线" 与文字通信和语音通信紧密相关，即向语音识别单元反馈命令，如 "你希望是语音在线通信" 还是 "文字在线通信"。语音识别单元可以将该命令以语音或文字的方式反馈给用户，让用户输入更多的要求。例如用户回答 "语音"，由此增加 "语音" 要求，解析单元将 "语音" 与 "在线" 作为第一目标语义。

525 , 交互设备根据第一目标语义确定与第一目标语义相对应的第三方应用对象。

交互设备的确定单元根据选择出的第一目标语义确定相关的任务，如

"在线 "对应的任务为社交任务，需要启动单元启动对应的第三方应用程序，如 QQ和 /或 Skype等。为方便说明，本文中将候选的第三方应用程序称为第三方应用对象。确定单元可以基于预先定义的语义和第三方应用程序之间的关联关系，也可以是根据第三方应用程序的使用频率自行选择来通过第一目标语义确定第三方应用对象，本发明对此不做限定。

在一个实施例中，根据第一目标语义仅确定了一个与第一目标语义相对应的第三方应用对象，举例来说， Skype即时通信软件。

在另一个实施例中，交互设备还可以包括发送单元和接收单元。若所确定的第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发送单元发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便确定单元从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元接收选择指令，确定单元具体根据接收的所述选择指令选择相应的目标第三方应用对象；相应，启动单元获取与目标第三方应用对象相关联的第三方应用程序并启动该第三方应用程序。

如果根据第一目标语义查找到至少两个第三方应用对象，举例来说，

Skype即时通信软件和 QQ社交通信软件。则确定单元根据上下文，可以向语音识别单元反馈需要输入更多信息的命令，比如向语音识别单元反馈命令，如 "你希望是 Skype即时通信"还是 "QQ社交通信"。语音识别单元可以将该命令以语音或文字的方式反馈给用户，让用户输入更多的要求。假如用户回答 "Skype" , 由此解析单元将 "Skype" 作为第二目标语义。接下来，确定单元根据第二目标语义确定目标第三方应用对象为 Skype 即时通信软件。

526 , 交互设备从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动该第三方应用程序。

交互设备的启动单元在第三方应用注册信息表中查找确定的第三方应用程序并启动该第三方应用程序。

启动单元确定具体的第三方应用程序后，再去访问存储单元。存储单元存储交互设备开机时生成的第三方应用注册信息表或者安装程序时生成的第三方应用注册信息表，查找到对应的程序如 Skype并启动该程序。与交互设备的出厂时自带的缺省应用的注册表不同，第三方应用注册信息表可以在安装第三方应用程序时生成，也可以在安装第三方应用程序后开机时生成，只要在从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前就可以。本实施例中，第三方应用注册信息表存储在交互设备。在其他实施例中，第三方应用注册信息表也可以存储在交互设备之外的其他设备，或同时存储在交互设备和其他设备上。

S27, 交互设备启动第三方应用程序后，向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的 API (英文为 Application Programming Interface ,中文为应用编程接口 )且通过 API获取所需的硬件和 /或软件资源。

图 3是本发明实施例的第三方应用程序启动后调用交互设备硬件的示意图。交互设备 31启动第三方应用程序 32后，通过定义好的 API 33与第三方应用程序 32进行通信。如第三方应用程序需要启动视频和语音聊天功能，即通过交互设备操作系统 34预先定义好的视频 API和音频 API接口等，调用交互设备的摄像机 ( camera ) 35和麦克风（ microphone ) 36。在目前的交互设备操作系统中定义了几千种 API用于支持各种第三方应用程序，从而实现不同的功能，利用这些 API, 第三方应用程序可以与交互设备平台进行通信、调用交互设备的各种资源。

举例来说，第三方应用程序被启动后，接收解析单元的语义命令，并根据该语义命令完成对应的操作。例如启动第三方应用程序 QQ后，解析单元发送语义命令给 QQ,该命令的传递也可以是预先定义好的 API; QQ接收到该命令后，在 QQ好友列表中查找好友名为 "老胡" 的通信对象的状态；并将该状态信息反馈给解析单元，解析单元将状态信息翻译成对应的语义，通过语音识别单元将该语义输出给用户，如最后以语音信息的形式输出告知用户，如 "老胡不在线"。在此过程中，第三方应用程序可能涉及用户鉴权的问题，及需要输入用户帐号和密码，这类信息由第三方应用程序经过解析单元、语音识别单元反馈给用户；用户通过语音或者键盘的方式输入对应的账户号码和密码。

在本发明实施例 2中，用户只需通过语音发出命令，交互设备就可以对该语音进行识别、进而进行语义分析，最后启动第三方应用程序，此外还可以在启动第三方应用程序后进一步地向用户反馈与第三方应用程序相关的状态信息，提供了一种新的启动第三方应用程序的方法，极大方便了用户的使用。

在上述各个单元例如语音识别单元和解析单元之间交互的文本的信息可以是译码，对用户呈现的形式可以是播放的语音或屏幕文字等。

图 4是本发明实施例 3的第三方应用程序支持语音识别功能的示意架构图。实施例 3中，交互设备具有语音识别功能，用户将第三方应用程序下载到交互设备，与实施例 2不同的是，第三方应用程序本身也支持语音识别功能，可以根据用户的语音输入执行相关的操作。这样，实施例 2和实施例 3 根据用户的语音信号识别与启动对应的第三方应用程序的过程相同，出于筒洁，此处不再赘述。不同在于第三方应用程序启动后，实施例 3中第三方应用程序对任务的执行过程。

参考图 4, 第三方应用程序 41启动后，由于其自身带有语音识别功能，能够直接接收用户的语音信号 42, 并根据识别语音信号 42获得对应命令，执行相关的操作。第三方应用程序接收用户的语音信号 42, 转换得到文本，完成文本的语义解析，并执行语义对应的任务。可选的，第三方应用程序 41 可以将语义分析和任务执行放置在其对应的第三方服务器 43上实现。当根据文本的语义命令，第三方应用程序 41需要调用交互设备 44的资源时，通过交互设备的操作系统 45定义的 API 46与交互设备联系，并启动相关的资源，如调用摄像机 47和麦克风 48进行视频通信。举例来说，如果交互设备启动的第三方应用程序为 QQ, 对应的第三方服务器例如为腾讯公司的服务器，第三方应用程序与第三方服务器之间的通信可以为第三方定义的私有接口和协议。第三方应用程序如果为地图，该第三方应用程序需要调用交互设备的 GPS信息，可以通过对应的 API查询交互设备的地址信息，同时具体的地图信息可以由第三方应用程序访问自己的第三方服务器，获取对应地图信息。

图 5是本发明实施例 4的语音识别系统 50的示意架构图。系统 50包括交互设备 51和服务器 52。交互设备 51可以包括语音识别单元 511、存储单元 512、操作系统 513、摄像机 514和麦克风 515等。服务器 52可以包括第三方应用程序 522、存储单元 523以及解析单元、确定单元、启动单元，其中解析单元、确定单元和启动单元在图 5中以 521指示。交互设备 51与服务器 52通过网络 53连接。操作系统 513定义了多个 API 516用于支持各种第三方应用程序 522。

在图 5的语音识别方法系统中，交互设备仅具备语音识别功能，而语义分析、启动第三方应用程序的功能都由服务器完成，且第三方应用程序存储在服务器上。可选的，这些第三方应用程序不支持语音识别功能。在交互设备或者服务器上可以同时包括存储单元、或者放置在二者之一上，启动单元访问存储单元时可以择一地选择一个存储单元；交互设备通过网络与服务器连接，网络提供二者通信的管道，可以为无线网络或者有线网络。

基于图 5中系统 50的架构，图 6是本发明实施例 5的语音识别方法的示意流程图。

561 , 交互设备转换第一语音信号得到一个或多个第一文本，将第一文本发送至服务器。

此处的第一语音信号是用户说的话，例如 "老胡在线吗"，通过交互设备的麦克风接收后，由交互设备的语音识别单元将语音波形转换为第一文本，例如语音识别单元转换后输出的第一文本可以是 "老胡在线吗"、 "老胡在先吗" 和 /或 "老虎在线吗" 等，发送到服务器进行处理。

562, 服务器解析一个或多个第一文本以得到第一目标语义。该步骤可以包括以下具体内容。

在本实施例中，服务器包括解析单元、确定单元和启动单元。服务器的解析单元接收交互设备发送的转换第一语音信号得到的至少两个第一文本，按照预定的评分规则，根据至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取评分最高的第一文本的语义作为第一目标语义。可选的，解析单元根据第一文本列举出对应的可选语义，如交互设备的电话簿中有 "老胡"，以前用户的语音输入中有 "在线" 等出现概率较高的词；处理单元排序出多种组合，例如 "老胡在线吗"、 "老胡在先吗" 和 "老虎在线吗"。根据语义的自然性及连贯性，对每个组合打分，评分的高低体现所述语义的自然性及连贯性的优劣。

可选的，作为不同的实施例，解析单元可以设置一个评分阈值，并根据预定的评分规则对第一文本的语义的各种组合评定分值，且将至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

在一个实施例中，如果只有一个评分最高的第一文本的语义例如 "老胡在线"，则解析单元将第一文本的语义作为第一目标语义。

在另一实施例中，当没有一个第一文本的语义的评分超过预定的阈值时，或有两个以上的第一文本的语义的评分超过预定的阈值时，解析单元根据上下文，可以向交互设备的语音识别单元反馈需要输入更多信息的命令；如上例所述，语义 "在线" 评分后，不满足语义的评分阈值，解析单元根据语义的上下文分析， "在线" 与文字通信和语音通信紧密相关，即向语音识别单元反馈命令，如 "你希望是语音在线通信" 还是 "文字在线通信"。语音识别单元可以将该命令以语音或文字的方式反馈给用户，让用户输入更多的要求。例如用户回答 "语音，由此增加 "语音"要求，解析单元将 "语音" 与 "在线" 作为第一目标语义。

可选的，作为不同的实施例，当交互设备转换第一语音信号仅得到一个第一文本并发送到服务器时，服务器通过第一文本的语义直接确定第一目标语义，进而执行步骤 S63及以后的步骤。

S63 , 服务器根据第一目标语义确定与第一目标语义相对应的第三方应用对象。

确定单元根据选择出的第一目标语义确定相关的任务，如 "在线" 对应的任务为社交任务，需要启动单元启动对应的第三方应用程序，如 QQ 和 / 或 Skype等。为方便说明，本文中将候选的第三方应用程序称为第三方应用对象。确定单元可以基于预先定义的语义和第三方应用程序之间的关联关系，也可以是根据第三方应用程序的使用频率自行选择来通过第一目标语义确定第三方应用对象，本发明对此不做限定。在一个实施例中，根据第一目标语义仅确定了一个与第一目标语义相对应的第三方应用对象，举例来说， Skype即时通信软件。

在另一个实施例中，服务器还可以包括发送单元和接收单元。若所确定的第三方应用对象大于等于两个，则获取所有与第一目标语义相关联的第三方应用对象信息；发送单元发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便确定单元从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元接收选择指令，确定单元根据所述选择指令选择相应的目标第三方应用对象；相应，启动单元获取与目标第三方应用对象相关联的第三方应用程序并启动该第三方应用程序。

Skype即时通信软件和 QQ社交通信软件。则处理单元根据上下文，可以向语音识别单元反馈需要输入更多信息的命令；向语音识别单元反馈命令，如 "你希望是 Skype即时通信"还是 "QQ社交通信"。语音识别单元可以将该命令以语音或文字的方式反馈给用户，让用户输入更多的要求。例如用户回答 "Skype" , 由此解析单元将 "Skype" 作为第二目标语义。接下来，确定单元根据第二目标语义确定目标第三方应用对象为 Skype即时通信软件。

564 , 服务器从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动该第三方应用程序，并向交互设备发送响应反馈。

服务器的启动单元可以择一地访问服务器的存储单元或交互设备的存储单元，根据所存储的第三方应用注册信息表，找到所确定的第三方应用程序并启动该第三方应用程序。

启动单元确定具体的第三方应用程序后，再去访问存储单元。交互设备的存储单元存储第三方应用注册信息表，服务器的存储单元存储第三方应用程序和第三方应用注册信息表。与交互设备的出厂时自带的缺省应用的注册表不同，第三方应用注册信息表可以在安装第三方应用程序时生成，也可以在安装后开机时生成。本实施例中，当第三方应用注册信息表存储在交互设备的存储单元时，服务器的启动单元需要访问交互设备的存储单元以获取第三方应用程序并启动该第三方应用程序。

565 , 交互设备接收服务器发送的响应反馈。服务器的启动单元启动第三方应用程序后，发送单元向第三方应用程序发送第一目标语义的语义命令，以使第三方应用程序根据第一目标语义的语义命令调用与被启动的第三方应用程序相匹配的 API (英文为 Application Programming Interface, 中文为应用编程接口）且通过 API获取所需的硬件和 /或软件资源。

可选的，第三方应用程序被启动后，接收解析单元的语义命令，并根据该语义命令完成对应的操作。例如启动第三方应用程序 QQ后，解析单元发送语义命令给 QQ,该命令的传递也可以是预先定义好的 API; QQ接收到该命令后，在 QQ好友列表中查找好友名为 "老胡" 的通信对象的状态；并将该状态信息反馈给解析单元，解析单元将状态信息翻译成对应的语义，通过交互设备的语音识别单元将该语义输出给用户，如最后以语音信息的形式输出告知用户，如 "老胡不在线"。在此过程中，第三方应用程序可能涉及用户鉴权的问题，及需要输入用户帐号和密码，这类信息由第三方应用程序经过服务器的发送单元、交互设备的语音识别单元反馈给用户；用户通过语音或者键盘的方式输入对应的账户号码和密码。

可选的，作为另一个实施例 6, 与实施例 4和 5的不同之处在于第三方应用程序本身也支持语音识别功能，可以根据用户的语音输入执行相关的操作。这样，实施例 6和实施例 4根据用户的语音信号识别与启动对应的第三方应用程序的过程相同，参考实施例 5 , 出于筒洁，此处不再赘述。不同在于第三方应用程序启动后，实施例 6中对第三方应用程序对任务的执行过程。

第三方应用程序启动后，由于其自身带有语音识别功能，能够直接接收用户的语音信号，并根据该命令执行相关的操作。第三方应用程序接收用户的语音信号，转换得到文本，完成文本的语义解析，并执行语义对应的任务。第三方应用程序将语义分析和任务执行放置在其对应的第三方服务器上实现。当根据文本的语义命令，第三方应用程序需要调用交互设备的资源时，通过交互设备的操作系统定义的 API与交互设备联系，并启动相关的资源，如调用摄像机和麦克风进行视频通信，此时，如果交互设备启动的第三方应用程序为 QQ, 对应的第三方服务器例如为腾讯公司的服务器，第三方应用程序与第三方服务器之间的通信可以为第三方自己定义的私有接口和协议。第三方应用程序如果为地图，该第三方应用程序需要调用交互设备的 GPS 信息，可以通过对应的 API查询交互设备的地址信息，同时具体的地图信息可以由第三方应用程序访问自己的第三方服务器，获取对应地图信息。

图 7是本发明实施例 7的语音识别的交互设备 70的示意框图。交互设备 70可以包括：解析单元 71、确定单元 72、启动单元 73和存储单元 74等。举例来说，交互设备可以是移动终端或平板电脑（Tablet PC )等装置。

解析单元 71解析一个或多个第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到。

确定单元 72根据解析单元所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序。

启动单元 73访问所述存储单元，从所述存储单元存储的第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

存储单元 74存储第三方应用注册表和所述第三方应用程序。

交互设备 70可以执行本发明实施例 1的语音识别方法，具体细节此处不再赘述。

图 8是本发明实施例 8的语音识别的交互设备 80的示意框图。交互设备 80包括语音识别单元 81、解析单元 82、确定单元 83、启动单元 84、存储单元 85和生成单元 86, 以及发送单元 87和接收单元 88。交互设备 80的解析单元 82、确定单元 83、启动单元 84、存储单元 85与交互设备 70的解析单元 71、确定单元 72、启动单元 73和存储单元 74相同或相似，不同之处在于，交互设备 80还包括语音识别单元 81和生成单元 86, 以及发送单元 87和接收单元 88。

语音识别单元 81转换第一语音信号得到一个或多个第一文本，并发送到所述解析单元 82。

生成单元 86 当所述交互设备在所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，生成所述第三方应用注册表并发送到所述存储单元 85。

解析单元 82具体转换第一语音信号得到至少两个第一文本；按照预定的评分规则，根据所述至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

解析单元 82具体获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

确定单元 83具体根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；发送单元 87发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便确定单元 83从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元 88接收选择指令，确定单元 83具体根据接收的所述选择指令选择相应的目标第三方应用对象；启动单元具体从所述存储单元存储的第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

语音识别单元 81还当所述的选择指令为第二语音信号时，转换所述第二语音信号得到第二文本并发送到所述解析单元 82; 解析单元 82还解析所述第二文本获取第二目标语义；确定单元 83根据所述第二目标语义确定相应的目标第三方应用对象。

启动单元 84还在启动所述第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。交互设备 80实现了本发明实施例 1、 2或 3的语音识别方法，出于筒洁，具体细节此处不再赘述。

图 9是本发明实施例 9的语音识别的服务器 90的示意框图。服务器 90 包括解析单元 91、确定单元 92、启动单元 93和存储单元 94等。服务器 90 为交互设备提供支持服务。

解析单元 91解析一个或多个第一文本以得到第一目标语义，其中所述第一文本由转换第一语音信号获得。

确定单元 92根据解析单元所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序。

启动单元 93从所述存储单元 92存储的第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

存储单元 92存储所述第三方应用注册表和所述第三方应用程序。

服务器 90实现了本发明实施例 1的语音识别方法，出于筒洁，具体细节此处不再赘述。

图 10是本发明实施例 10的语音识别的服务器 100的示意框图。服务器 100包括解析单元 101、确定单元 102、启动单元 103、存储单元 104和生成单元 105 ,以及发送单元 106和接收单元 107等。服务器 100的解析单元 101、确定单元 102、启动单元 103和存储单元 104与服务器 90的解析单元 91、确定单元 92、启动单元 93和存储单元 94相同或相似。不同的是，服务器 100还包括生成单元 105以及发送单元 106和接收单元 107。

生成单元 105当所述服务器在所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，生成所述第三方应用注册表并发送到所述存储单元 104。

解析单元 101具体按照预定的评分规则，根据转换第一语音信号得到的至少两个所述第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

解析单元 101具体获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

确定单元 102还根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；发送单元 106发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便确定单元 101从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收单元 107接收选择指令，确定单元 101根据接收的所述选择指令选择相应的目标第三方应用对象；启动单元 103从所述存储单元 104存储的第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

解析单元 101还当所述的选择指令为第二语音信号时，解析所述第二文本获取第二目标语义，其中所述第二文本由转换所述第二语音信号获得；确定单元 102根据所述第二目标语义确定相应的目标第三方应用对象。

启动单元 103还在启动所述的第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

启动单元 103在启动所述第三方应用程序后，以使所述第三方应用程序转换所述第三语音信号以得到第三文本；根据所述第三文本的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API, 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

接收单元 107还在解析第一文本以得到第一目标语义前，接收由交互设备发送的所述第一文本。发送单元 106在启动所述第三方应用程序后向所述交互设备发送响应反馈。

服务器 100实现了本发明实施例 1、 5或 6的语音识别方法，出于筒洁，具体细节此处不再赘述。

图 11是本发明实施例 11的语音识别的装置 110的示意框图。装置 110 包括处理器 111和存储器 112等。

存储器 112可以是包括 RAM和 ROM、或任何固定的存储介质、或可移动的存储介质，用于存储可以执行本发明实施例的程序，或本发明实施例中待处理的数据，或第三方应用程序等。如总线的方式与其他装置双向通信。

作为一种实现方式的装置 110, 处理器 111解析一个或多个第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到；根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；访问存储器，从所述存储器存储的第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。其中存储器 112存储第三方应用注册表和所述第三方应用程序，以及处理器 111执行上述方法的指令。

当装置 110还可以包括麦克风等采集语音信号的器件或模块等时，处理器 111转换麦克风等采集的第一语音信号得到一个或多个第一文本。

此外，处理器 111具体转换第一语音信号得到至少两个第一文本；按照预定的评分规则，根据所述至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

处理器 111具体获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

处理器 111还根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；接收选择指令，并根据接收的所述选择指令选择相应的目标第三方应用对象；从所述存储器 112存储的第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

处理器 111还当所述的选择指令为第二语音信号时，转换所述第二语音信号得到第二文本；解析所述第二文本获取第二目标语义；根据所述第二目标语义确定相应的目标第三方应用对象。

处理器 111在从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动第三方应用程序之前，生成第三方应用注册表。

处理器 111还在启动所述第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

处理器 111当装置 110在所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，生成所述第三方应用注册表并发送到所述存储器 112。

作为另一种实现方式，当装置 110不包括麦克风等采集语音信号的器件或模块等时，处理器 111还在解析第一文本以得到第一目标语义前，接收由另一装置发送的所述第一文本；解析第一文本以得到第一目标语义，其中可选的，所述第一文本由转换第一语音信号获得至少两个第一文本，根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，从所述存储器 112存储的第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。其中存储器 112存储所述第三方应用注册表和所述第三方应用程序，以及处理器 111执行上述方法的指令。。

处理器 111当装置 111安装第三方应用程序时或当装置 111开机后生成所述第三方应用注册表并发送到所述存储器 112。

处理器 111具体按照预定的评分规则，根据转换第一语音信号得到的至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

处理器 111还当所述的选择指令为第二语音信号时，解析所述第二文本获取第二目标语义，其中所述第二文本由转换所述第二语音信号获得；根据所述第二目标语义确定相应的目标第三方应用对象。

处理器 111还启动所述的第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

处理器 111在启动所述第三方应用程序后，以使所述第三方应用程序转换所述第三语音信号以得到第三文本；根据所述第三文本的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API , 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

处理器 111 在启动所述第三方应用程序后向上述另一装置发送响应反馈。

装置 110实现了本发明实施例 1、 2、 3、 5或 6中的语音识别的方法，作为具体实现形式可以是例如移动终端、平板电脑或服务器等。

本发明实施例还提供了一种语音识别系统，可以包括上述实施例中的装置 110、交互设备 70、交互设备 80、服务器 90和服务器 100中任一装置。出于筒洁，具体细节此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和筒洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ ROM , Read-Only Memory )、随机存取存储器（RAM, Random Access Memory ), 磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种语音识别的方法，其特征在于：

解析一个或多个第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到；

根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；

从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

2、根据权利要求 1所述的方法，其特征在于，在解析所述第一文本以得到第一目标语义之前，所述方法还包括：获取第一语音信号并转换所述第一语音信号得到所述一个或多个第一文本。

3、根据权利要求 1或 2所述的方法，其特征在于，所述转换所述第一语音信号得到多个第一文本包括：

转换第一语音信号得到至少两个第一文本；

相应，所述解析所述第一文本以得到第一目标语义包括：

按照预定的评分规则，根据所述至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；

获取所述至少两个第一文本的语义中评分最高的所述第一文本的语义作为所述的第一目标语义。

4、根据权利要求 3所述的方法，其特征在于，所述获取所述至少两个第一文本的语义中评分最高的所述第一文本的语义作为所述的第一目标语义，包括：

获取所述至少两个第一文本的语义中评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

5、根据权利要求 1至 4任意一项所述的方法，其特征在于，所述根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象具体包括：

根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；

发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；

接收选择指令，并根据所述选择指令选择相应的目标第三方应用对象；相应，所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序具体包括：

从第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

6、根据权利要求 5所述的方法，其特征在于，所述的选择指令为第二语音信号；相应，

所述根据接收的所述选择指令选择相应的目标第三方应用对象具体包括：

转换所述第二语音信号得到第二文本；

解析所述第二文本获取第二目标语义；

根据所述第二目标语义确定相应的目标第三方应用对象。

7、根据权利要求 1至 6任一项所述的方法，其特征在于，在所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，所述方法还包括：

生成第三方应用注册表。

8、根据权利要求 1至 7任意一项所述的方法，其特征在于，所述启动所述的第三方应用程序后还包括：

向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API, 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

9、根据权利要求 1至 7任意一项所述的方法，其特征在于，所述启动所述第三方应用程序后，所述方法还包括：

所述第三方应用程序接收用户的第三语音信号；

转换所述第三语音信号以得到第三文本；根据所述第三文本的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API, 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

10、根据权利要求 1至 9任意一项所述的方法，其特征在于，所述方法由交互设备执行。

11、根据权利要求 1至 9任意一项所述的方法，其特征在于：所述解析一个或多个第一文本以得到第一目标语义由服务器执行；所述根据所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，以及所述从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序由交互设备执行。

12、一种语音识别的交互设备，其特征在于，所述交互设备包括解析单元、确定单元、启动单元和存储单元：

所述解析单元，用于解析一个或多个第一文本以得到第一目标语义，所述第一文本由第一语音信号转换得到；

所述确定单元，用于根据所述解析单元所获取的第一目标语义确定与所述第一目标语义相对应的第三方应用对象，所述第三方应用对象相关联的第三方应用程序是设备出厂时未经授信通过语音方式启动的程序；

所述启动单元，用于访问所述存储单元，从所述存储单元存储的第三方应用注册表中获取与所述确定单元所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序；

所述存储单元，用于存储第三方应用注册表和所述第三方应用程序。

13、根据权利要求 12所述的交互设备，其特征在于，所述交互设备还还包括语音识别单元：

所述语音识别单元，用于转换第一语音信号得到一个或多个第一文本，并发送到所述解析单元。

14、根据权利要求 12所述的交互设备，其特征在于，所述交互设备还包括语音识别单元：

所述语音识别单元用于转换第一语音信号得到至少两个第一文本并发送到所述解析单元；

所述解析单元具体用于按照预定的评分规则，根据所述至少两个第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

15、根据权利要求 14所述的交互设备，其特征在于，所述解析单元具体用于：

获取所述至少两个第一文本的语义评分最高且超过预设阈值的所述第一文本的语义作为所述的第一目标语义。

16、根据权利要求 12至 15任意一项所述的交互设备，其特征在于，所述交互设备还包括发送单元和接收单元：

所述确定单元，具体用于根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；

所述发送单元，用于发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便所述确定单元从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；

所述接收单元，用于接收用户发送的选择指令；

所述确定单元，具体用于根据接收的所述选择指令选择相应的目标第三方应用对象；所述启动单元从所述存储单元存储的第三方应用注册表中获取与所述目标第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序。

17、根据权利要求 16所述的交互设备，其特征在于：

所述语音识别单元还用于当所述的选择指令为第二语音信号时，转换所述第二语音信号得到第二文本并发送到所述解析单元；

所述解析单元还用于解析所述第二文本获取第二目标语义；所述确定单元还用于根据所述第二目标语义确定相应的目标第三方应用对象。

18、根据权利要求 12至 17任一项所述的交互设备，其特征在于，所述交互设备还包括生成单元：

所述生成单元在所述启动单元从第三方应用注册表中获取与所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序之前，生成所述第三方应用注册表并发送到所述存储单元。

19、根据权利要求 11至 18任一项所述的交互设备，其特征在于：所述启动单元启动所述第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

20、一种语音识别的服务器，其特征在于，包括解析单元、确定单元、启动单元和存储单元：

所述解析单元，用于解析一个或多个第一文本以得到第一目标语义，其中所述第一文本由转换第一语音信号获得；

所述启动单元，用于从所述存储单元存储的第三方应用注册表中获取与所述确定单元所确定的第三方应用对象相关联的第三方应用程序并启动所述第三方应用程序；

所述存储单元用于存储所述第三方应用注册表和所述第三方应用程序。

21、根据权利要求 20所述的服务器，其特征在于，所述解析单元具体用于：

按照预定的评分规则，根据转换第一语音信号得到的至少两个所述第一文本的语义的自然性及连贯性对所述至少两个第一文本中的每个第一文本的语义进行评分，所述评分的高低体现所述语义的自然性及连贯性的优劣；获取所述至少两个第一文本的语义评分最高的所述第一文本的语义作为所述的第一目标语义。

22、根据权利要求 21所述的服务器，其特征在于，所述解析单元具体用于：

23、根据权利要求 20至 22任意一项所述的服务器，其特征在于，所述服务器还包括发送单元和接收单元：

所述确定单元，具体用于根据所述第一目标语义，确定与所述第一目标语义相对应的所有第三方应用对象；若所述第三方应用对象大于等于两个，则获取所有与所述第一目标语义相关联的第三方应用对象信息；所述发送单元，用于发出提示信息，所述提示信息包含所述第三方应用对象信息，用以提示用户根据所述第三方应用对象信息发出进一步的选择指令，以便所述确定单元从所有与所述第一目标语义相关联的第三方应用对象中选则目标第三方应用对象；

所述接收单元，用于接收用户发送的选择指令；

24、根据权利要求 23所述的服务器，其特征在于：

所述解析单元还用于当所述的选择指令为第二语音信号时，解析所述第二文本获取第二目标语义，其中所述第二文本由转换所述第二语音信号获得；所述确定单元具体用于根据所述第二目标语义确定相应的目标第三方应用对象。

25、根据权利要求 20至 24任一项所述的服务器，其特征在于，所述服务器还包括生成单元：

26、根据权利要求 19-25任一项所述的服务器，其特征在于：

所述启动单元启动所述的第三方应用程序后，向所述第三方应用程序发送所述第一目标语义的语义命令，以使所述第三方应用程序根据所述第一目标语义的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API。

27、根据权利要求 20至 26任意一项所述的服务器，其特征在于：所述启动单元启动所述第三方应用程序后，以使所述第三方应用程序转换所述第三语音信号以得到第三文本；根据所述第三文本的语义命令调用与被启动的所述第三方应用程序相匹配的第三方应用接口 API , 以使所述被启动的第三方应用程序通过所述 API获取所需的硬件或软件资源。

28、根据权利要求 20至 27任意一项所述的服务器，其特征在于，所述接收单元还用于在解析第一文本以得到第一目标语义前，接收由交互设备发送的所述第一文本。

29、根据权利要求 20至 28任意一项所述的服务器，其特征在于：所述发送单元还用于在启动所述第三方应用程序后向所述交互设备发送响应反馈。

30、一种语音识别的系统，其特征在于，包括如权利要求 12至 19任一项所述的交互设备或如权利要求 20至 29任一项所述的服务器。