WO2014161301A1

WO2014161301A1 - 一种终端控制方法、装置和终端

Info

Publication number: WO2014161301A1
Application number: PCT/CN2013/086358
Authority: WO
Inventors: 林俊萱
Original assignee: 中兴通讯股份有限公司
Priority date: 2013-07-16
Filing date: 2013-10-31
Publication date: 2014-10-09
Also published as: CN104301500A

Abstract

本发明提供了一种终端控制方法、装置和终端，所述方法包括：获取用户发送的控制终端执行操作的语音信息；对所述语音信息进行语义分析，获得分析结果；将所述分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果；控制所述终端执行与所述处理结果对应的操作。本发明通过指定标准语法格式，将用户发送的语音信息转换为标准语法格式匹配的结果，实现终端对用户语音信息中的操作意图的理解，并最终执行用户指示的操作。

Description

一种终端控制方法、装置和终端技术领域

本发明涉及移动通信领域，尤其涉及一种终端控制方法、装置和终端。背景技术

自然语言语义理解 ( Nature Language Understanding, NLU )俗称人机对话，是人工智能的分支学科，主要研究用电子计算机模拟人的语言交际过程，使计算机能理解和运用人类社会的自然语言如汉语、英语等，实现人机之间的自然语言通信，以代替人的部分脑力劳动。

语言是以词为基本单位，词汇又受到语法的支配才可构成有意义的、可理解的句子，句子按照一定的形式再构成篇章。机器对语言的理解一般是一个层次化的过程，许多语言学家把这一过程分为 4个层次，依次为：语音分析-语法分析-语义分析 -语用分析。其中，语音分析是根据音位规则，从语音中区分出一个个独立的音素，再根据音位规则找出一个个音节及其对应的词素或词；语法分析又分为词法分析和句法分析，词法分析主要是找出词汇的各个词素，句法分析是对句子或短语的结构进行分析，它的方法有很多，例如短语结构语法、格文法、扩充转移网络和功能语法等；语义分析是通过分析找出词义、结构意义及其结合意义，从而确定语言所表达的真正含义或概念；语用分析则是研究一个语言符号在特定的语境中所具有的交际价值。

下面再介绍一下句法分析中的格文法。格文法的特点是以动词为中心来构造分析结果，尽管文法规则只描述句法，但分析结果产生的结构却与语义关系相对应，而非严格的句法关系，举例说明如下：英语句子 "Mary hit Bill"，按照格文法分析后的结果可表示为： Hit (Agent Mary) ( Dative Bill); 上述这种表示结构称为格表示。在格表示中，一个语句包含的名词词组和介词词组均以它们与句子中动词的关系来表示，称为格。上例中动词中心是 hit，名词 Mary和 Bill均以与动词 hit的关系进行表示，则 Agent和 Dative 均是格，而像"（ Agent Mary) "这样的基本表示就是格结构。

但是，目前现有技术中并没有提供终端根据用户的语音信息理解用户的操作意图，进而执行用户操作的相关方案。发明内容

本发明的目的是提供一种终端控制方法、装置和终端，通过指定标准语法格式，将用户发送的语音信息转换为标准语法格式匹配的结果，实现终端对用户语音信息中的操作意图的理解，并最终执行用户指示的操作。

为了实现上述目的，本发明实施例提供了一种终端控制方法，所述方法包括：

获取用户发送的控制终端执行操作的语音信息；

对所述语音信息进行语义分析，获得分析结果；

将所述分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果；

控制所述终端执行与所述处理结果对应的操作。

优选地，所述操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

优选地，所述标准语法格式中至少包括用于与操作对应的命令格和用于标识所述操作的对象的对象格。

优选地，所述对象格用于标识所述对象的对象主体。

优选地，所述对象格还用于标识所述对象的对象状态。

优选地，所述标准语法格式中还包括用于描述所述对象执行所述操作的操作信息的扩充格。

优选地，所述控制所述终端执行与所述处理结果对应的操作为：控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

为了实现上述目的，本发明实施例还提供了一种终端控制装置，所述装置包括：获取模块、分析模块、处理模块和控制模块；其中，

获取模块，配置为获取用户发送的控制所在终端执行操作的语音信息；分析模块，配置为对所述语音信息进行语义分析，得到分析结果；处理模块，配置为将所述分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果；

控制模块，配置为控制所在终端执行与所述处理结果对应的操作。优选地，所述操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

优选地，所述对象格用于标识所述对象的对象主体。

优选地，所述对象格还用于标识所述对象的对象状态。

优选地，所述控制模块，配置为控制所在终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

为了实现上述目的，本发明实施例还提供了一种终端，所述终端上述任一项所述的终端控制装置。

本发明实施例通过对用户发送的控制终端执行操作的语音信息进行语义分析，并将分析结果按照预设的标准语法格式进行转换和解析处理，获得具体的处理结果来实现终端对用户语音信息中的操作意图的理解，在理解了用户的操作意图后，根据处理结果执行与所述处理结果对应的操作，即执行用户指示的操作。附图说明

图 1为本发明实施例提供的终端控制方法的流程示意图；

图 2为本发明实施例提供的一种终端控制装置的结构示意图；图 3为本发明实施例提供的另一种终端控制装置的结构示意图。具体实施方式为使本发明实施例要解决的技术问题、技术方案和优点更加清楚，下面将结合附图及具体实施例进行详细描述。

本发明实施例提供了一种终端控制方法，如图 1所示，包括：步骤 101 : 获取用户发送的控制终端执行操作的语音信息；

步骤 102: 对所述语音信息进行语义分析，得到分析结果；

步骤 103:将所述分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果；

步骤 104: 控制所述终端执行与所述处理结果对应的操作。

本发明实施例通过对用户发送的控制终端执行操作的语音信息进行语义分析，并将分析结果按照预设的标准语法格式进行转换和解析处理，根据具体的处理结果来实现终端对用户语音信息中的操作意图的理解，在理解了用户的操作意图后，根据处理结果执行与所述处理结果对应的操作，即执行用户指示的操作。

下面分步骤介绍一下本发明实施例提供的方法。

优选地，所述获取用户发送的控制终端执行操作的语音信息为：通过语音识别软件来获取所述语音信息。

为了方便在下一步中对所述语音信息进行语义分析，获取所述语音信息后，还需要进行语音识别，并将所述语音信息转换为文本格式的识别结果，所述文本格式的识别结果可以是中文或英文等语言的，具体采用何种语言取决于用户发送语音信息时采用的语言。在本发明实施例中，用户控制终端执行的操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

优选地，对获取所述语音信息并转换为识别结果的过程举例说明如下：用户需要通过语音控制终端拨打电话时，可以通过语音识别软件获取用户发送的控制终端执行拨打电话的具体操作的语音信息，在进行语音识别后转换为文本格式识别结果 "please help me call John "，当然，也可以是中文的 "请帮我打电话给 John"。

优选地，所述语义分析的过程、与自然语言语义理解（NLU ) 过程相同，可以包括：对文本格式的语音信息进行语音分析，根据音位规则找出一个个音节及其对应的词素或词；进行语法分析，找出词汇的各个词素，在本发明实施例中，优选地使用格文法对其进行句法分析；进行语义分析，通过分析找出词义、结构意义及其结合意义；进行语用分析，通过提取中心词，确定命令想要完成的功能，按照格文法的格结构获取各语义格的功能详情。

对其中使用格文法进行句法分析，举例说明：对文本格式的语音信息 "please help me call John"使用格文法对其进行句法分析，得到如下的结果： Call (Agent me)(Dative John); 其中，动词中心是 call, Agent和 Dative均是格。

应当注意地是，通过格文法进行句法分析产生的结构已经对应于语义关系，不再是严格的句法关系了，如上例中完成格文法的句法分析后，已经能够确定该句所要表达的真正含义，即已经确定了语义关系。

在对语音信息进行分析得到分析结果后，执行步骤 13，将分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果。这里先介绍一下标准语法格式：为了理解用户语音信息中的操作意图，并执行用户指示的操作，本发明实施例定义了标准语法格式，作为用户使用语音信息控制终端的入口，所述标准语法格式中至少包括用于与操作对应的命令格和用于标识所述操作的对象的对象格，如下： Command (<Objectl>); 其中， Command 为命令格，与具体的操作对应，小括号 (）中为对象格，用于标识操作的对象。

拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息分别对应的标准语法格式为： Call (<contact>)、 Sms(<Contact>)、 Start (<Application>) 、 Set(<Function>) 、 Set(<Application>) 和 Search (<Content>) 。

对标准语法格式举例说明如下：拨打电话的标准语法格式为： Call (<contact>), 其中， call与拨打电话的操作对应， contact为拨打电话操作对应的对象，也就是联系人。那么上述文本格式的语音信息" please help me call John"中的语音信息经过语音分析后，转换为标准语法格式如下： Call (John)。

上述的标准语法中的对象格主要是用于标识所述对象的对象主体，属于某一集合（例如：联系人），应当注意地是某些时候光标识对象主体并不能完全体现用户的操作意图，举例说明如下：

用户发送的控制终端执行操作的语音信息转换为文本格式是 "please turn the music down"，要求将终端播放音乐的应用程序声音调小，经过语义分析，发现该语音信息要执行的操作属于设置应用，采用的标准语法格式是 Set (< Application:^，具体为 Set (music), 很明显通过该标准语法格式不能体现用户的操作意图。

为了解决这一问题，优选地，在本发明实施例中，所述对象格还用于标识所述对象的对象状态，用于描述操作对象的具体状态的改变，也就是说用户发送控制终端执行操作的语音信息的意图是要改变对象的状态，相应地，标准语法格式进一步具体为： Command (<Objectl>[Object2])，其中， Command为命令格，与具体的操作对应，小括号 ()中为对象格，用于标识操作的对象， <>中的 Objectl为对象主体， []中的 Object2为对象状态。

对应地，标准语法格式就为： Set (<music> [turn down])。

当然，对象状态并不局限于音量大小的调整，还有很多其他的情况，在此不——列举。

一般情况下，用户通过语音信息控制终端的意图不仅在于要执行操作，还希望能够进一步控制终端执行操作的具体操作信息，例如用户可以通过语音信息控制终端给某一联系人发送短信，进一步地，用户也希望能直接通过语音信息控制终端给该联系人发送短信的具体内容，因此，在本发明实施例中，优选地，所述标准语法格式中还包括用于描述所述对象执行所述操作的操作信息的扩充格，相应地，标准语法格式进一步具体为：

Command (<Objectl>[Object2]) [Object3]，其中， Command为命令格，与具体的操作对应，小括号 ()中为对象格，用于标识操作的对象， <>中的 Objectl为对象主体， []中的 Object2为对象状态， []中的 Object3为扩充格，描述所述对象执行所述操作的操作信息。

用户发送的控制终端执行操作的语音信息转换为文本格式是 "please send message to Tom, How are you? "，要求发送短信给联系人 Torn, 且短信的具体内容是 "How are you? "，转换为标准语法格式如下： Sms (Tom) [How are you? ]。其中， Sms是命令格，与发送短信的操作对应，小括号（ ) 中为对象格， Objectl为 Tom，是对象主体， How are you? 为扩充格，这里不涉及对象状态的改变， Object2为空。

在将用户发送的语音信息进行语义分析获得分析结果后，将所述分析结果按照标准语法格式进行转换和解析处理，具体地：可以将所述分析结果首先进行转换，也就是将所述分析结果按照上述的标准语法格式

Command (<Objectl>[Object2]) [Object3]进行匹配，如果至少成功匹配了命令格和对象格的内容，则对匹配后的标准语法格式进行解析，确定具体的操作和与操作对应的对象（还可以包括对象状态和 /或具体的操作信息）。以便下一步骤 104根据转换和解析处理的结果控制终端执行对应的操作。在实际应用中，也可以将转换结果封装为标准的语义包，解析语义包来确定具体的操作和与操作对应的对象。

在获得了处理结果后，执行步骤 104，控制所述终端执行与所述处理结果对应的操作。

优选地，步骤 104可以具体为：控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

当然，当扩充格为空时，只控制所述终端对所述对象格对应的对象执行所述命令格对应的操作，举例说明如下：

下面针对上述不同操作结合实施例说明按照标准语法格式 Command (<Objectl>[Object2]) [Object3]进行转换和解析处理后，执行对应的操作，如下。

<操作一 >拨打电话

标准语法格式： Call (<Contact>) [<Type>]。

比如，标准语法格式为： Call (Tom) [Mobile] , 对应的操作为：打电话给 Tom的手机，其中 Tom为名片夹中联系人， Mobile为联系人号码的类型，若扩充格不存在，即 [Mobile]不存在时，可以默认为拨打联系人手机。

<操作二 >发送短信

标准语法格式： Sms (<Contact>) [Text]。

比如，标准语法格式为： Sms (Tom) [How are you? ] ，对应的操作为：发短信给 Tom，其中 Tom为名片夹中联系人， "How are you? " 为短信内容，若扩充格不存在，即 [How are you? ]不存在，则打开短信编辑界面，并填充 Tom至联系人输入栏。

<操作三 >启动应用

标准语法格式： Start (<Application>)₀

比如，标准语法格式为： Start (Calculator), 对应的操作为：启动计算器。对象格包含手机已安装的所有应用。

<操作四>设置功能

标准语法格式： Set (<Function>) [<Status>]。

设置功能时可能会涉及对功能状态的设置，此时可以将其作为对象状态设置在对象格中，用 Object2 来描述，也可以直接设置在扩充格中，用 Object3来描述。

比如，标准语法格式为： Set (GPS) [On] ,对应的操作为：打开 GPS。其中的对象格包含 Bluetooth, Data等，扩充格包含 On和 Off两个状态。

<操作五>设置应用

标准语法格式： Set (<Application>) [<Details>]。

比如，标准语法格式为： Set(Alarm)[127: 1420] , 对应的操作为设置星期一至星期日， 14: 20的闹铃。其中 127表示星期一至星期日， 1为星期一， 2为星期二， 4为星期三， 8为星期四 ......1+4=5 表示星期一和星期三，以此类推。

<操作六 >搜索

标准语法格式： Search (Content) [<Engine>]。

比如，标准语法格式为： Search (Weather) [Baidu]，对应的操作为：使用百度搜索天气，其中对象格可以是任意内容，扩充格表示搜索引擎，如 Baidu, Google等等。

通过上述 4个步骤实现了本发明的目的，即设置了一种标准语法格式，获取用户发送的控制终端执行操作的语音信息后，进行语义分析，将分析结果按照所述的标准语法格式进行转换和解析处理，来实现终端对用户语音信息中的操作意图的理解，在理解了用户的操作意图后，根据处理结果执行与所述处理结果对应的操作，即执行用户指示的操作。

下面详细介绍一下本发明实施例提供的终端控制方法的整体流程，包括：

步骤 201 : 获取用户发送的控制终端执行操作的语音信息，可以通过语音识别软件来获取所述语音信息，并转换为文本格式的识别结果。

步骤 202: 对文本格式的语音信息进行语义分析，得到分析结果。本步骤具体包括：

步骤 2021 : 进行语音分析，根据音位规则，找出所述文本格式的语音信息中一个个音节及其对应的词素或词；

步骤 2022: 进行语法分析，根据所述词素或词，使用格文法对所述文本格式的语音信息进行句法分析，得到句法结构；

步骤 2023 : 进行语义分析，通过对所述句法结构的分析找出所述文本格式的语音信息的词义、结构意义及其结合意义；

步骤 2024: 进行语用分析，通过从所述文本格式的语音信息的词义、结构意义及其结合意义中提取中心词，确定命令想要完成的功能，再根据各语义格获取功能详情。

步骤 203: 将所述分析结果按照标准语法格式进行转换和解析处理，即与标准语法格式进行匹配，如果至少成功匹配了命令格和对象格的内容，则对匹配后的标准语法格式进行解析，确定具体的操作和与操作对应的对象（还可以包括对象状态和 /或具体的操作信息） .

步骤 204:控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。对上述的流程举例说明如下：

用户通过语音信息发送短信的过程包括：

步骤 301 :获取用户发送的语音信息，并转换为文本格式" Send message to Tom, How are you? "；

步骤 302: 利用格文法对文本格式的识别结果进行语义分析；

步骤 303: 转换为标准语法格式： Sms (Tom) [How are you? ]，对应的操作是： Sms, 对象为 Tom，操作信息是 How are you? ，并将此结果封装成标准的语义包；

步骤 304: 解析此语义包，解析到的执行操作是 "sms"，要发送的人名是： Tom，内容是： How are you? ，此时调用终端相应的平台 API发送短信 "How are you，，给联系人 Tom。

用户通过语音信息拨打电话的过程包括：

步骤 401 : 获取用户发送的语音信息，并转换为文本格式 "Please help me to Call John Water at Home"；

步骤 402: 利用格文法对文本格式的识别结果进行语义分析；步骤 403 : 转换为标准语法格式： Call (John Water) [Home] , 对应的操作是： Call, 对象为 John Water, 操作信息是 Home, 并将此结果封装成标准的语义包。

步骤 404: 解析此语义包，解析到的执行操作是 "Call" , 要打电话的对象是： John Water, 号码类型是： Home, 调用终端相应的平台 API打电话给 John Water的 Home 号码。

用户通过语音信息设置闹钟应用的过程包括：

步骤 501，获取用户发送的语音信息，并转换为文本格式 "Please wake me up at 9 'clock tomorrow morning"；

步骤 502，利用格文法对文本格式的识别结果进行语义分析；步骤 503，转换为标准语法格式： Set (Alarm) [9:00 am] , 对应的操作是： Set, 对象为 Alarm, 操作信息是时间 9:00am，并将此结果封装成标准的语义包；

步骤 504，解析此语义包，解析到的执行操作是 "Set"，对象是： Alarm, 时间是： 9:00 am，调用终端相应的平台 API设置明天 9:00 am的闹钟。

本发明实施例还提供了一种终端控制装置，所述装置如图 2所示，包括：

获取模块，配置为获取用户发送的控制终端执行操作的语音信息；分析模块，配置为对所述语音信息进行语义分析，得到分析结果；处理模块，配置为将所述分析结果按照预设的标准语法格式进行转换和解析处理，获得处理结果；

控制模块，配置为控制所述终端执行与所述处理结果对应的操作。其中分析模块可以包括：语音分析子模块，配置为对转换为文本格式的语音信息进行语音分析，根据音位规则找出一个个音节及其对应的词素或词；

语法分析子模块，配置为对语音信息进行语法分析，找出词汇的各个词素，使用格文法对其进行句法分析；

语义分析子模块，配置为对语音信息进行语义分析，通过分析找出词义、结构意义及其结合意义；

语用分析子模块，配置为对语音信息进行语用分析，通过提取中心词，确定命令想要完成的功能，再根据各语义格获取功能详情。

对应地，本发明实施例还提供了另一种终端控制装置，如图 3所示。上述的终端控制装置，其中，所述操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

上述的终端控制装置，其中，所述标准语法格式中至少包括用于与操作对应的命令格和用于标识所述操作的对象的对象格。

上述的终端控制装置，其中，所述对象格用于标识所述对象的对象主体。

上述的终端控制装置，其中，所述对象格还用于标识所述对象的对象状态。

上述的终端控制装置，其中，所述标准语法格式中还包括用于描述所述对象执行所述操作的操作信息的扩充格。

上述的终端控制装置，其中，所述控制模块，控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

上述终端控制装置中获取模块、分析模块、处理模块和控制模块，均可以由 CPU、或 DSP实现。

本发明实施例还提供了一种终端，所述终端上述任一项所述的终端控制装置。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

权利要求书

1、一种终端控制方法，所述方法包括：

获取用户发送的控制终端执行操作的语音信息；

对所述语音信息进行语义分析，获得分析结果；

控制所述终端执行与所述处理结果对应的操作。

2、如权利要求 1所述的终端控制方法，其中，所述操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

3、如权利要求 1所述的终端控制方法，其中，所述标准语法格式至少包括用于与操作对应的命令格和用于标识所述操作的对象的对象格。

4、如权利要求 3所述的终端控制方法，其中，所述对象格用于标识所述对象的对象主体。

5、如权利要求 4所述的终端控制方法，其中，所述对象格还用于标识所述对象的对象状态。

6、如权利要求 3-5任一项所述的终端控制方法，其中，所述标准语法格式中还包括用于描述所述对象执行所述操作的操作信息的扩充格。

7、如权利要求 6所述的终端控制方法，其中，所述控制所述终端执行与所述处理结果对应的操作具体为：

控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

8、一种终端控制装置，所述装置包括：获取模块、分析模块、处理模块和控制模块；其中，

控制模块，配置为控制所在终端执行与所述处理结果对应的操作。

9、如权利要求 8所述的终端控制装置，其中，所述操作至少包括拨打电话、发送短信、启动应用、设置功能、设置应用和搜索信息中的一项。

10、如权利要求 8所述的终端控制装置，其中，所述标准语法格式中至少包括用于与操作对应的命令格和用于标识所述操作的对象的对象格。

11、如权利要求 10所述的终端控制装置，其中，所述对象格用于标识所述对象的对象主体。

12、如权利要求 11所述的终端控制装置，其中，所述对象格还用于标识所述对象的对象状态。

13、如权利要求 10-12任一项所述的终端控制装置，其中，所述标准语法格式中还包括用于描述所述对象执行所述操作的操作信息的扩充格。

14、如权利要求 13所述的终端控制装置，其中，

所述控制模块，配置为控制所述终端对所述对象格对应的对象按照所述扩充格对应的操作信息执行所述命令格对应的操作。

15、一种终端，其中，所述终端包括权利要求 8-14任一项所述的终端控制装置。