WO2013155847A1

WO2013155847A1 - 一种语音控制浏览器动作的方法、系统及浏览器

Info

Publication number: WO2013155847A1
Application number: PCT/CN2012/086047
Authority: WO
Inventors: 周晓波; 司天歌; 刘玉国
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-04-19
Filing date: 2012-12-06
Publication date: 2013-10-24
Also published as: CN103377212A; CN103377212B; US20140096004A1

Abstract

提供了一种语音控制浏览器动作的方法、系统，该方法包括：接收输入的语音命令；在预设的网页模板中查找到命令字段的值为语音命令的模板条目，网页模板中包括多个模板条目，模板条目中包括元素字段、命令字段和操作字段；在当前网页中查找到与模板条目中的元素字段的值对应的元素，使该元素执行与操作字段的值对应的操作。该方法可以根据网页的内容进行相应的语音控制，更进一步提高了用户的语音体验效果。

Description

一种语音控制浏览器动作的方法、系统及浏览器

技术领域

本发明属于浏览器技术领域，尤其涉及一种语音控制浏览器动作的方法、系统及浏览器。

背景技术

当前，语音技术在浏览器产品中开始普及。主要有两种模式：语音输入法和语音命令。在语音输入法模式下，具体产品形态如，语音搜索、语音输入文本等；在语音命令模式下，则由语音控制前进、后退等浏览器动作。

第二种模式，是用语音转换的文字来执行命令，即一种新的交互方式，而交互时执行的操作是由语音来控制的。也就是说是一种新的用户界面（User Interface ，UI）。

现有浏览器产品中对第二种模式的使用是有局限的：因为这种模式是与网页内容无关的通用控制，因此必须是通用的，即对每个网页都能进行的操作进行控制，例如控制翻页、前进、后退、打开网页等。也就是说，第二种模式针对的是浏览器本身的功能，而与网页的具体内容没有关系。

综上所述，现有技术的语音命令模式下，通过语音只能对浏览器进行与网页内容无关的通用控制，而不能针对网页的具体内容进行控制。

技术问题

本发明实施例提供了一种语音控制浏览器动作的方法、装置及浏览器，旨在解决现有技术只能对浏览器进行与网页内容无关的通用控制，而不能针对网页的具体内容进行控制的问题。

技术解决方案

一方面，提供一种语音控制浏览器动作的方法，其中所述方法包括：

判断当前网页是否在预设的白名单中，所述白名单包括语音控制浏览器动作的网页；

若当前网页在预设的白名单中，则接收语音命令；

在当前网页中匹配与所述语音指令相对应的元素字段；

获取所述元素字段对应的操作字段；

控制当前网页执行所述操作字段的操作。

另一方面，提供一种语音控制浏览器动作的方法，其中所述方法包括：

接收输入的语音命令；

获取语音命令的命令字段；

根据命令字段在预设的网页模板中查找模板条目，所述模板条目包括元素字段、命令字段和操作字段的一一对应关系；

在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

另一方面，提供一种语音控制浏览器动作的系统，其中所述系统包括：

语音接收单元，用于接收输入的语音命令；

模板条目查找单元，用于根据语音命令的命令字段在预设的网页模板中查找模板条目，所述模板条目包括元素字段、命令字段和操作字段的一一对应关系；

动作执行单元，用于在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

再一方面，提供一种浏览器，所述浏览器包括一语音控制浏览器动作的系统，所述系统包括：

语音接收单元，用于接收输入的语音命令；

有益效果

在本发明实施例中，浏览器接收到用户输入的语音控制命令后，在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段；查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。由于语音控制命令的使用场景，不是通用的浏览器操作，而是根据网页内容定制的操作控制命令，比如“转播”、“广播”等，因此是一种与网页内容相关的语音控制浏览器动作的方法，可以根据网页的内容进行相应的语音控制，更进一步提高了用户的语音体验效果。

附图说明

图1是本发明实施例一提供的语音控制浏览器动作的方法的实现流程图；

图2是本发明实施例一提供的第一个交互点的网页示意图；

图3是本发明实施例一提供的第二个交互点的网页示意图；

图4是本发明实施例四提供的第三个交互点的网页示意图；

图5是本发明实施例二提供的语音控制浏览器动作的方法的实现流程图；

图6是本发明实施例三提供的语音控制浏览器动作的系统的结构框图；

图7是本发明实施例四提供的语音控制浏览器动作的系统的结构框图。

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在本发明实施例中，针对网页的具体内容，尤其是web2.0时代，网页的结构比较单一，用户提交内容增多，但是入口单一，如t.qq.com，主要的操作就是“转播”、“发微博”、“发评论”等几个。因此本发明实施例针对一些典型的web产品，提供一些语音控制命令，浏览器接收到所述语音控制命令后，在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段；查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

以下结合具体实施例对本发明的实现进行详细描述：

实施例一

图1示出了本发明实施例一提供的语音控制浏览器动作的方法的实现流程，在本实施例中，浏览器默认开启语音控制功能，可以接收用户输入的语音控制命令，并根据该命令来对网页中的相应元素来进行控制，详述如下：

在步骤S101中，接收输入的语音控制命令。

在本实施例中，用户在浏览器的网址输入栏中输入网址，浏览器为用户打开相应的网页。用户可以语音输入与该网页内容中的某一按钮的操作对应的命令，浏览器接收到该语音控制命令后，即可控制该按钮执行相应的操作。比如，在一个网页中，会为用户提供几个交互点。以t.qq.com为例，典型的交互点分别如图2、3和4所示，包括：a）发微博、b)转播、c)评论，或者评论且转播。这三个典型的交互点，用户可以输入自己的文字，也可以只转播或评论，而不输入文字。

具体的通过语音控制命令来实现交互的过程是：

假设用户不在图2、3和4所示的示意图中的编辑框中输入文字，或者已经输入好了文字，用户点击“广播”、“转播”或者“评论”就完成了一次操作。

我们重点来看这个点击操作。本发明是针对这种操作，让语音控制命令来控制与“广播”、“转播”或者“评论”对应的按钮。即用户说出“广播”、“转播”或“评论”时，即会触发这些操作，就像在这些按钮上点击鼠标一样。

这种语音控制模式和背景技术中提到的第二种模式不同的是，“广播”、“转播”和“评论”是网页的内容，因此，本发明是针对特定的网页的一种语音控制模式。

在步骤S102中，在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段。

在本实施例中，网页内容中的相应元素对应的事件可以用语音控制命令来控制则需要通过一个网页模板来指定。

网页模板中包括多个模板条目，对于网页中的不同的元素，会对应不同的模板条目，所述模板条目中需要制定网页中哪个元素用什么来控制，即三个基本字段来指定：<元素，命令，操作>。如何来标识一个元素，在本实施例中，采用元素的ID属性，因为HTML中每个元素的ID是唯一的。

例如，如图5所示，在t.qq.com中的，图片中的“转播”按钮对应的元素ID=‘mybuttonid’，对应的点击事件为onclick=‘forwardweibo’，那么对应的模板条目就是：

<‘mybuttonid’，‘转播’，‘forwardweibo’>。

在步骤S103中，在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

在本实施例中，如对图5所示的网页，用户输入语音控制命令“转播”后，浏览器根据该命令查找到网页模板中的对应模板条目<‘mybuttonid’，‘转播’，‘forwardweibo’>，然后，在网页中查找到元素ID为‘mybuttonid’的按钮，使该按钮执行‘forwardweibo’操作。

本实施例，用户通过语音输入语音控制命令后，浏览器对该命令进行检测，当检测到该语音控制命令与网页内容中的相应元素所要执行的命令匹配时，则通过该语音控制命令控制所述元素执行相应的操作。由于输入的语音控制命令是针对网页内容的命令，所以是一种基于网页内容的语音控制模式。

实施例二

图5示出了本发明实施例二提供的语音控制浏览器动作的方法的实现流程，详述如下：

在步骤S501中，将需要用语音来控制浏览器动作的网址加入到白名单中，所述白名单是一个网址列表，所述网址列表中包括的网址是需要用语音来控制浏览器动作的网址。

在本实施例中，由于本发明针对的是网页的内容，该网页究竟有哪些操作可以用语音控制命令来控制并不知晓，因此需要进行运营，即网页制作方来申请合作。例如针对t.qq.com这个页面，如果希望语音控制，则需要申请将该页面的网址添加到白名单里，浏览器遇到白名单里的网址，就启动语音控制功能，相比实施例一可以不用对每个网页都开启语音控制功能，节省了计算机资源，有利于提高网页浏览速度。

在步骤S502中，判断用户输入的网址是否在预设的白名单中，所述白名单中包括所有需要用语音来控制浏览器动作的网址，如果是，则启动语音控制功能。

在本实施例中，用户输入网址，进入相应的页面后，浏览器判断所述网址是否在预设的白名单中，所述白名单中包括所有需要用语音来控制浏览器动作的网址，如果是，则启动语音控制功能。

在步骤S503中，接收输入的语音控制命令。

在步骤S504中，在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段。

在步骤S505中，在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

在本实施例中，步骤S503至S505的执行和上述实施例一中的步骤S101-S103的执行过程类似，详情参见上述实施例一的描述。

本实施例，将需要进行语音控制的网页的网址添加到白名单中，当用户输入的网址是白名单中的网址时，才开启语音控制功能，通过输入的语音控制命令控制网页中的相应元素。相比实施例一，只针对白名单中的网页开启语音控制功能，节省了计算机资源，更有利于加快网页的浏览速度。

实施例三

图6示出了本发明实施例三提供的语音控制浏览器动作的系统的具体结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。该语音控制浏览器动作的系统是浏览器中的软件单元、硬件单元或者软硬件结合的单元，所述系统包括：语音接收单元61、模板条目查找单元62和动作执行单元63。

其中，语音接收单元61，用于接收输入的语音命令；

模板条目查找单元62，用于在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段；

动作执行单元63，用于在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

具体各个单元的执行情况，请参见实施例一中的描述，在此不再赘述。

实施例四

图7示出了本发明实施例四提供的语音控制浏览器动作的系统的具体结构框图，为了便于说明，仅示出了与本发明实施例相关的部分。该语音控制浏览器动作的系统是浏览器中的软件单元、硬件单元或者软硬件结合的单元，所述系统包括：白名单生成单元71、网址判断单元72、语音控制启动单元73、语音接收单元74、模板条目查找单元75和动作执行单元76。

其中，白名单生成单元71，用于将需要用语音来控制浏览器动作的网址加入到白名单中，所述白名单是一个网址列表，所述网址列表中包括的网址是需要用语音来控制浏览器动作的网址；

网址判断单元72，用于判断用户输入的网址是否在预设的白名单中，所述白名单中包括所有需要用语音来控制浏览器动作的网址；

语音控制启动单元73，用于如果是，则启动语音控制功能；

语音接收单元74，用于接收输入的语音命令；

模板条目查找单元75，用于在预设的网页模板中查找到命令字段的值为所述语音命令的模板条目，所述网页模板中包括多个模板条目，所述模板条目中包括元素字段、命令字段和操作字段，其中，所述元素字段的值为元素的ID属性；

动作执行单元76，用于在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。

具体各个单元的执行情况，请参见实施例一和实施例二中的描述，在此不再赘述。

值得注意的是，上述系统实施例中，所包括的各个单元只是按照功能逻辑进行划分的，但并不局限于上述的划分，只要能够实现相应的功能即可；另外，各功能单元的具体名称也只是为了便于相互区分，并不用于限制本发明的保护范围。

另外，本领域普通技术人员可以理解实现上述各实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，相应的程序可以存储于一计算机可读取存储介质中，所述的存储介质，如ROM/RAM、磁盘或光盘等。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

本发明的实施方式

工业实用性

序列表自由内容

Claims

一种语音控制浏览器动作的方法，其中所述方法包括：

判断当前网页是否在预设的白名单中，所述白名单包括语音控制浏览器动作的网页；

若当前网页在预设的白名单中，则接收语音命令；

在当前网页中匹配与所述语音指令相对应的元素字段；

获取所述元素字段对应的操作字段；

控制当前网页执行所述操作字段的操作。
根据权利要求1所述的语音控制浏览器动作的方法，其中在接收语音命令之前，所述方法还包括步骤：

预先存储模板条目，其中所述模板条目中包括有元素字段和操作字段的一一对应关系；

而获取所述元素字段对应的操作字段的步骤具体包括：

在所述模板条目中匹配与所述元素字段对应的操作字段。
根据权利要求1所述的语音控制浏览器动作的方法，其中所述模板条目中还包括有命令字段，其中所述模板条目中的元素字段、命令字段和操作字段相互一一对应；

而在当前网页中匹配与所述语音指令相对应的元素字段的步骤具体包括：

匹配与所述语音指令对应的命令字段；

而获取所述元素字段对应的操作字段的步骤具体包括：

根据所述命令字段匹配相应的元素字段；

根据所述元素字段匹配相应的操作字段。
如权利要求1所述的方法，其中在所述接收输入的语音命令之前，所述方法还包括以下步骤：

预设白名单，其中所述白名单中包括有语音控制浏览器动作的网址。
一种语音控制浏览器动作的方法，其中所述方法包括：

接收输入的语音命令；

获取语音命令的命令字段；

根据命令字段在预设的网页模板中查找模板条目，所述模板条目包括元素字段、命令字段和操作字段的一一对应关系；

在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。
如权利要求5所述的语音控制浏览器动作的方法，其中在所述接收输入的语音命令之前，所述方法还包括：

判断输入的网址是否在预设的白名单中，所述白名单中包括语音来控制浏览器动作的网址；

若输入的网址在预设的所述白名单中，则进行接收输入的语音命令的步骤。
如权利要求5所述的语音控制浏览器动作的方法，其中在所述接收输入的语音命令之前，所述方法还包括：

预设一白名单，将语音控制浏览器动作的网址添加至所述白名单中。
如权利要求5所述的语音控制浏览器动作的方法，其中所述元素字段的值为元素的ID属性。
一种语音控制浏览器动作的系统，其中所述系统包括：

语音接收单元，用于接收输入的语音命令；

模板条目查找单元，用于根据语音命令的命令字段在预设的网页模板中查找模板条目，所述模板条目包括元素字段、命令字段和操作字段的一一对应关系；

动作执行单元，用于在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。
如权利要求9所述的语音控制浏览器动作的系统，其中所述系统还包括：

网址判断单元，用于判断输入的网址是否在预设的白名单中，所述白名单中包括所有需要用语音来控制浏览器动作的网址；

语音控制启动单元，用于在所述网址判断单元判定输入的网址在预设的白名单时，控制所述语音接收单元接收输入的语音命令，以启动语音控制功能。
如权利要求9所述的语音控制浏览器动作的系统，其中所述系统还包括：

白名单生成单元，用于将语音控制浏览器动作的网址加入到白名单中。
如权利要求5所述的系统，其中所述元素字段的值为元素的ID属性。
一种浏览器，其中所述浏览器包括一语音控制浏览器动作的系统，其中所述系统包括：

语音接收单元，用于接收输入的语音命令；

模板条目查找单元，用于根据语音命令的命令字段在预设的网页模板中查找模板条目，所述模板条目包括元素字段、命令字段和操作字段的一一对应关系；

动作执行单元，用于在当前网页中查找到与所述模板条目中的元素字段的值对应的元素，使所述元素执行与所述操作字段的值对应的操作。
如权利要求13所述的浏览器，其中所述系统还包括：

网址判断单元，用于判断输入的网址是否在预设的白名单中，所述白名单中包括语音控制浏览器动作的网址；

语音控制启动单元，用于在所述网址判断单元判定输入的网址在预设的白名单时，控制所述语音接收单元接收输入的语音命令，以启动语音控制功能。
如权利要求13所述的浏览器，其中所述系统还包括：

白名单生成单元，用于将语音控制浏览器动作的网址加入到白名单。
如权利要求13所述的浏览器，其中所述元素字段的值为元素的ID属性。