WO2014079324A1

WO2014079324A1 - 一种语音交互方法和装置

Info

Publication number: WO2014079324A1
Application number: PCT/CN2013/086734
Authority: WO
Inventors: 周彬
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2012-11-26
Filing date: 2013-11-08
Publication date: 2014-05-30
Also published as: CN103839548A; CN103839548B; US20150255072A1; US9728192B2

Abstract

一种语音交互方法和装置，方法包括：设置画面素材移动命令与交互关键字的对应关系，该方法还包括：展示画面素材；录制用户语音文件，分析用户语音文件以解析出交互关键字；根据解析出的交互关键字确定对应于交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制画面素材的移动。

Description

一种语音交互方法和装置

技术领域

本发明涉及信息处理技术领域，更具体地，涉及一种语音交互方法和装置。发明背景

随着计算机技术和网络技术的飞速发展，互联网（Internet )和即时通信技术在人们的日常生活、学习和工作中发挥的作用也越来越大。而且，随着移动互联网的发展，互联网也在向移动化发展。

当今社会已经进入了高度发达的信息时代，其企业竟争形态也已经由过去主要以产品功能质量为主的单一竟争形态转变为以企业形象、商品、品牌等作为重要手段和主要倾向的复合竟争形态。这种形态的转变与现代画面展示事业（例如广告）的迅速发展是分不开的。

在目前的画面展示方法中，通常由画面提供商自己直接提供画面素材，而且单向在网络上主动展示画面。发明内容

本发明实施方式提出一种语音交互方法，以提高交互成功率。本发明实施方式还提出了一种语音交互装置，以提高交互成功率。本发明实施方式还提出了一种移动终端，以提高交互成功率。本发明实施方式的具体方案如下：

一种语音交互方法，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：

展示画面素材；录制用户语音文件，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

一种语音交互装置，包括一个或者多个处理器和存储器；其中，所述存储器中包含可由所述一个或者多个处理器执行的多个单元，所述多个单元包括：对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元，其中：

对应关系设置单元，用于设置画面素材移动命令与交互关键字的对应关系；

画面素材展示单元，用于展示画面素材；

交互关键字解析单元，用于录制用户语音文件，分析所述用户语音文件以解析出交互关键字；

画面素材移动单元，用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

一种移动终端，该移动终端包括一个或者多个处理器和存储器；其中，所述存储器包含可由所述一个或者多个处理器执行的多个单元，所述多个单元包括：显示单元、语音录制单元和计算单元，其中：

显示单元，用于展示画面素材；

语音录制单元，用于录制用户语音文件；

计算单元，用于保存画面素材移动命令与交互关键字的对应关系，分析所述用户语音文件以解析出交互关键字； ^据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

从上述技术方案可以看出，在本发明实施方式中，设置画面素材移动命令与交互关键字的对应关系；展示画面素材；录制用户语音文件，分析用户语音文件以解析出交互关键字；根据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制述画面素材的移动。由此可见，应用本发明实施方式之后，不同于现有技术中画面提供者的单片面画面展示，画面浏览受众可以基于语音方式控制画面素材的移动，因此画面浏览受众可以通过语音方式与画面素材有效交互，提高了交互成功率。

而且，本发明实施方式通过感应用户语音来控制画面素材，同时还提高了画面素材的曝光程度，从而进一步能够提高画面素材投放效果。附图简要说明

图 1为本发明实施例中的一种语音交互方法流程图。

图 2为本发明实施例中的一种汽车类型的画面素材示意图。

图 3为本发明实施例中的一种汽车类型的画面素材交互移动示意图。图 4为本发明实施例中的一种语音交互装置结构图。

图 5为本发明实施例中的另一种语音交互装置的结构图。

图 6为本发明实施例中的一种移动终端结构示意图。

图 7为本发明实施例中的另一种移动终端的结构示意图。具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细阐述。

在目前的画面展示方法中，通常由画面提供商自己直接提供画面素材，而且单向在网络上主动展示画面。然而，这种展示方式并没有考虑到画面受众的个人参与程度，因此仅是一种片面的画面展示，与画面浏览受众缺乏有效交互，因此交互成功率很低。

为此，本发明实施例提供了一种语音交互方法。在本发明实施方式中，设置画面素材移动命令与交互关键字的对应关系；展示画面素材；录制用户语音文件，分析用户语音文件以解析出交互关键字； ^据解析出的交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制述画面素材的移动。由此可见，应用本发明实施方式之后，不同于现有技术中画面提供者的单片面画面展示，画面浏览受众可以基于语音方式控制画面素材的移动，因此画面浏览受众可以通过语音方式与画面素材有效交互，提高了交互成功率。

图 1为根据本发明实施方式的语音交互方法流程图。

如图 1所示，该方法包括：

步骤 101: 设置画面素材移动命令与交互关键字的对应关系。

在这里，画面素材移动命令用于控制画面素材的移动。可以设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹等各种画面素材移动命令与交互关键字的对应关系。

当用户的语音中包含交互关键字时，可以基于与该交互关键字对应的画面素材移动命令来控制画面素材的移动。比如，可以设置交互关键字 "启动" 对应于画面素材启动命令；交互关键字 "停止" 对应于画面素材停止命令；设置交互关键字 "加速" 对应于画面素材加速命令；设置交互关键字 "减速" 对应于画面素材减速命令；交互关键字 "曲线" 对应于设置画面素材移动轨迹为曲线的命令；交互关键字 "直线" 对应于设置画面素材移动轨迹为直线的命令，等等。

以上虽然详细罗列了画面素材移动命令与交互关键字的具体实例，本领域技术人员可以意识到，这种罗列仅仅是示范性的，并不用于限定本发明实施方式的保护范围。

在一个实施方式中，可以将画面素材移动速度与交互关键字的对应关系保存在移动终端上。移动终端可以包括但是不局限于：功能手机、智能手机、掌上电脑、个人电脑（ PC )、平板电脑或个人数字助理（ PDA ), 等等。

以上虽然详细罗列了移动终端的具体实例，本领域人员可以意识到，这些罗列仅是阐述目的，并不用于限定本发明实施方式的保护范围。

移动终端可以适用于任意的智能终端操作系统，具体可以采用的操作系统包括但是不局限于：安卓（ Andorid )、 Palm OS、 Symbian (塞班）、 Windows mobile , Linux、 Android (安卓 )、 iPhone (苹果 ) OS、 Black Berry (黑莓） OS 6.0、 Windows Phone 系列，等等。

优选地，移动终端具体可以采用安卓操作系统，而且移动终端可以采用到 Andorid的各个版本之中，包括但是不局限于：阿童木（ Android Beta ), 发条机器人（Android 1.0 )、纸杯蛋糕（Android 1.5 )、甜甜圏 ( Android 1.6 )、松饼（ Android 2.0/2.1 ), 冻酸奶（ Android 2.2 )、姜饼 ( Android 2.3 ), 蜂巢（ Android 3.0 )、冰激凌三明治 ( Android 4.0 )、果冻豆（Jelly Bean, Android 4.1 )等版本。以上详细罗列了 Android平台的具体版本，本领域技术人员可以意识到，本发明实施方式并不局限于上述罗列版本，而还可以适用于其他基于 Android软件架构的任意版本之中。

需要注意的是，在设置完画面素材移动命令和交互关键字的对应关系之后，当用户下次利用语音控制画面素材的移动时，可以直接执行步骤 102 , 步骤 101可以不再重复执行。

步骤 102: 展示画面素材，录制用户语音文件，分析所述用户语音文件以解析出交互关键字。在这里，图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式，将画面素材上传到位于网络侧的服务器中，然后由移动终端从服务器中获取到画面素材，并展示画面素材。

画面素材的具体内容与期望向用户展示的素材本身相关。比如，假设期望投放关于品牌汽车的信息推送，则可以上传品牌汽车的实物模型图像；假如期望投放关于某款电子产品的信息推送，则可以上传该款电子产品的实物模型图像；等等。

在移动终端上还可以展示与画面素材相对应的背景图像。背景图像和画面素材的种类可以有多种。比如，背景图像和画面素材可以分别为：位图；联合照片专家组（JPEG ); 签图像文件格式（TIFF ); 图像互换格式（GIF ); 流式网络图形格式（PNG ); 或三维图像，等等。 GIF 图像文件的数据是经过压缩的，而且是采用了可变长度等压缩算法。 GIF格式的另一个特点是其在一个 GIF文件中可以存多幅彩色图像，如果把存于一个文件中的多幅图像数据逐幅读出并显示到屏幕上，就可构成一种最筒单的画面。

本发明实施方式中，可以通过将该画面类型的画面素材叠加到背景图像上，实现共同显示。

示范性地，图 2为根据本发明实施方式的汽车类型的画面素材示意图。由图 2可见，画面素材为汽车模型，背景图像为房屋。汽车模型与房屋融合显示在一起，而且汽车模型停留在房屋之中。

而且，信息推送受众、图像提供商或任意的第三方还可以通过多种方式上传画面素材。比如，可以由图像受众直接在移动终端上，通过无线上网的方式将画面素材上传到服务器；也可以由图像提供商通过个人计算机（PC )等方式将画面素材上传到服务器，等等。

优选的，移动终端可以通过通用网关接口（CGI ) 的方式从服务器获取到背景图像和画面素材，并在移动终端的浏览器窗口上显示背景图像和画面素材。

移动终端浏览器是运行在移动终端上的浏览器，可以通过通用分组无线服务技术（GPRS )等多种方式上网浏览互联网内容。目前，一些移动终端浏览器需要 JAVA或移动终端的系统（如苹果的 IOS系统以及 Android平台等）支持。

服务器可以向移动终端提供背景图像，也可以在移动终端本地预先存储背景图像。优选在服务器中保存背景图像，这是因为相比较移动终端，服务器可以具有更大的储存空间，因此可以在服务器中保存海量的背景图像。示范性地，背景图像可以包括：蓝天、白云、大桥、公路等等。

在一个实施方式中，图像受众、图像提供商或任意第三方除了上传画面素材之外，还进一步上传用于描述该画面素材类型的图像属性信息。图像属性信息可以是文本信息。还可以直接通过画面素材的命名来描述其类型。服务器可以根据图像属性信息确定出画面素材的类型，并检索与该画面素材相匹配的背景图像。

比如，假设画面素材是针对汽车的信息推送，则服务器可以检索出适于汽车的背景图像（比如为跑道）；假设画面素材是针对电子产品的信息推送，则服务器可以检索出适于电子产品的背景图像（比如为办公桌)。

在这里，当由服务器提供背景图像时，服务器可以首先将上传来的画面素材和自身保存的背景图像发送到移动终端，而且优选顺带发送定单信息和 /或广告位信息等，并提供给移动终端进行相应展示。

在移动终端上将背景图像和画面素材共同显示，从而实现融合显示。优选地，画面素材显示在背景图像的上面或前面。当向用户展示画面素材之后，可以基于用户的语音实现针对画面素材的互动过程。

用户在浏览画面素材时，或者浏览画面素材之后，可以发出语音。此时录制用户语音文件，分析用户语音文件以解析出交互关键字。

在这里，可以基于各种语音识别技术分析用户语音文件以解析出交互关键字。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术等方面。

本发明实施方式可以采用的语音识别的种类有很多，比如连续语音识别、关键词检出、说话人辨认、说话人确认、语音合成、音频检索等方式。更具体地，连续语音识别可以采用隐马尔科夫模型，而且本发明实施方式还可以采用动态时间规正、神经网络、支持向量机、矢量量化等各种语音识别算法。

在具体实施中，可以将各种语音识别技术通过内置插件或接口等方式嵌入到各种终端的浏览器窗口中，从而使得浏览器窗口自身可以具备相应语音识别功能。

比如，可以将用户输入的语音文件转换成文本文件，再将文本文件与数据库中的文本格式的关键字进行比较，如果匹配成功则可确定出交互关键字。也可以将用户输入的语音文件与语音格式的交互关键字进行波形比较，若与语音格式的交互关键字波形一致，则可确定出交互关键字。

在一个实施方式中，可以首先获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；再从所述文本文件中检索交互关键字。在另一个实施方式中，可以确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

在本发明实施方式中，还可以基于语音来实现变更画面素材。

具体地，可以设置画面素材变更命令与画面素材变更关键字的对应关系；然后通过录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；再根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示更新后画面素材。

步骤 103: 根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

在这里，可以根据在步骤 101设置的画面素材移动命令与交互关键字的对应关系，根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令。

比如，口在步骤 101中设置有关键字 "启动" 对应于画面素材启动命令、交互关键字 "停止" 对应于画面素材停止命令、设置交互关键字 "加速" 对应于画面素材加速命令、设置交互关键字 "减速" 对应于画面素材减速命令、交互关键字 "曲线" 对应于设置画面素材移动轨迹为曲线的命令、交互关键字 "直线" 对应于设置画面素材移动轨迹为直线的命令。

则当步骤 102中解析出交互关键字为 "启动" 时，则可确定画面素材移动命令具体为：画面素材启动命令；当步骤 102中解析出交互关键字为 "停止" 时，则可确定画面素材移动命令具体为：画面素材停止命令；当步骤 102中解析出交互关键字为 "加速" 时，则可确定画面素材移动命令具体为：画面素材加速命令；当步骤 102中解析出交互关键字为 "减速"时，则可确定画面素材移动命令具体为：画面素材减速命令；当步骤 102中解析出交互关键字为 "曲线" 时，则可确定画面素材移动命令具体为：设置画面素材移动轨迹为曲线的命令；当步骤 102中解析出交互关键字为 "直线" 时，则可确定画面素材移动命令具体为：设置画面素材移动轨迹为直线的命令，等等。

当解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，可以基于所确定的画面素材移动命令控制所述画面素材的移动。

在本发明实施方式中，还可以在步骤 101中预先设置交互关键字与画面素材移动速度之间的对应关系。比如：设置交互关键字 "高速运动" 对应于画面素材保持预先设置的高速移动速度，即针对画面素材的高速移动速度保持命令；还可以设置交互关键字 "中速运动" 对应于画面素材保持为预先设置的中速移动速度，即针对画面素材的中速移动速度保持命令；还可以设置交互关键字 "低速运动" 对应于画面素材保持为预先设置的低速移动速度，即针对画面素材的低速移动速度保持命令。

当步骤 102中解析出交互关键字为 "高速运动" 时，则可确定画面素材移动命令具体为：画面素材保持预先设置的高速移动速度，则此时控制画面素材移动速度加速到该预先设置的高速移动速度，并保持该高速移动速度。

当步骤 102中解析出交互关键字为 "中速运动" 时，则可确定画面素材移动命令具体为：画面素材保持预先设置的高速移动速度，则此时控制画面素材移动速度加速到该预先设置的中速移动速度，并保持该中速移动速度。

当步骤 102中解析出交互关键字为 "低速运动" 时，则可确定画面素材移动命令具体为：画面素材保持预先设置的低速移动速度，则此时控制画面素材移动速度加速到该预先设置的低速移动速度，并保持该低速移动速度。

图 3为根据本发明实施方式的汽车类型的画面素材交互移动示意图。由图 3可见，画面素材为汽车模型，背景图像为房屋。汽车模型与房屋融合显示在一起，而且汽车模型停留在房屋之上。当感应到用户的语音之后，可以根据包含于该语音中的交互关键字对应的画面素材移动命令，汽车模型从该房屋中移开。

而且，在用户靠近摄像头时，可以由摄像头的热传感器检测到用户的热量，并开始播放预先设定的引擎启动声音，以预示汽车模型已经启动。

基于上述详细分析，本发明实施方式还提出了一种语音交互装置。图 4为根据本发明实施方式的语音交互装置结构图。

如图 4所示，该装置包括对应关系设置单元 401、画面素材展示单元 402、交互关键字解析单元 403和画面素材移动单元 404, 其中：

对应关系设置单元 401 , 用于设置画面素材移动命令与交互关键字的对应关系；其中，画面素材移动命令用于控制画面素材的移动；

画面素材单元 402, 用于展示画面素材；

交互关键字解析单元 403 , 用于录制用户语音文件，分析所述用户语音文件以解析出交互关键字；

画面素材移动单元 404, 用于根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

在一个实施方式中，交互关键字解析单元 403 , 用于获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；从所述文本文件中检索交互关键字。

在另一个实施方式中，交互关键字解析单元 403 , 用于确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

优选地，对应关系设置单元 401 , 用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

图 5为本发明实施例中另一种语音交互装置的结构示意图。如图 5 所示。除了对应关系设置单元 401、画面素材展示单元 402、交互关键字解析单元 403和画面素材移动单元 404, 该装置可以进一步包括画面素材变更单元 405; 其中，

对应关系设置单元 401 , 进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系；

交互关键字解析单元 403 , 进一步用于录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

画面素材变更单元 405 , 用于 ^据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并向画面素材展示单元 402发送该更新后画面素材；

画面素材展示单元 402 , 进一步用于展示该更新后画面素材。

可以基于上述方法和装置，在多种应用环境中实施本发明实施方式。比如，可以将本发明实施方式应用到移动终端的广告应用中。可以预先设置互动关键字 "奥迪启动"。在用户点击广告后，提示用户利用麦克风说提示语： "奥迪启动"；当用户说出奥迪启动后，该语音关键字被解析成文本，与广告设定的互动关键字比较。若互动关键字一致，则将触发广告的行为，放出汽车启动的引擎声音，预示着广告内的汽车已经启动，而且广告横幅内的汽车轮胎转动，迅速移动开出广告可见范围，因此更能提高广告的互动性和新颖性。

基于上述分析，本发明实施方式还提出了一种移动终端。

图 6为根据本发明实施方式的移动终端结构示意图。

如图 6所示，该移动终端包括显示单元 601、语音录制单元 602和计算单元 603。其中：

显示单元 601 , 用于展示画面素材；

语音录制单元 602, 用于录制用户语音文件；

计算单元 603 , 用于保存画面素材移动命令与交互关键字的对应关系，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

图 7为本发明实施例中另一种移动终端的结构示意图。如图 7所示，除了显示单元 601、语音录制单元 602和计算单元 603 , 该移动终端可以进一步包括摄像单元 604, 用于感应用户的热量，并在感应到用户热量后向显示单元 601发出热量提示消息；

显示单元 601 , 进一步用于收到热量提示消息之后，播放画面素材移动启动音频。

本发明实施例中的单元可以集成于一体，也可以分离部署；可以合并为一个单元，也可以进一步拆分成多个子单元。这些者单元可以由软件实现（如存储在非易失性存储介质中的由一个或者多个处理器执行的计算机可读指令），或者由硬件实现，或者由软件和硬件结合实现。

而且，在这里，图像受众、图像提供商或任意的第三方都可以通过各种信息传输方式，将画面素材上传到位于网络侧的服务器中，然后由移动终端从服务器中获取到画面素材，并展示画面素材。

实际上，可以通过多种形式来具体实施本发明实施方式所提出的语音互动方法和装置。比如，可以遵循一定规范的应用程序接口，将语音互动方法编写为安装到移动终端中的插件程序，也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时，可以将其实施为 ocx、 dll、 cab等多种插件形式。也可以通过 Flash插件、 RealPlayer插件、 MMS 插件、 MIDI五线谱插件、 ActiveX插件等具体技术来实施本发明实施方式所提出的语音互动方法。

可以通过指令或指令集存储的储存方式将本发明实施方式所提出的语音互动方法存储在各种存储介质上。这些存储介质包括但是不局限于: 软盘、光盘、 DVD、硬盘、闪存、 U盘、 CF卡、 SD卡、 MMC卡、 SM 卡、记忆棒 ( Memory Stick )、 xD卡等。

另外，还可以将本发明实施方式所提出的语音互动方法应用到基于闪存（Nand flash ) 的存储介质中，比如 U盘、 CF卡、 SD卡、 SDHC 卡、 MMC卡、 SM卡、记忆棒、 xD卡等。

综上所述，在本发明实施方式中，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：展示画面素材；制用户语音文件，分析所述用户语音文件以解析出交互关键字；根据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。由此可见，应用本发明实施方式之后，不同于现有技术中画面提供者的单片面画面展示，而是可以基于语音文件的交互关键字控制画面素材的移动，因此画面浏览受众可以通过语音方式与画面素材有效交互，提高了交互成功率。

而且，本发明实施方式通过感应用户语音来控制画面素材，同时还提高了画面素材的曝光程度，从而进一步能够提高画面素材投放效果。以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

权利要求书

1、一种语音交互方法，其特征在于，设置画面素材移动命令与交互关键字的对应关系，该方法还包括：

展示画面素材；

录制用户语音文件，分析所述用户语音文件以解析出交互关键字；才艮据解析出的所述交互关键字确定对应于该交互关键字的画面素材移动命令，并基于所确定的画面素材移动命令控制所述画面素材的移动。

2、根据权利要求 1所述的语音交互方法，其特征在于，所述分析用户语音文件以解析出交互关键字包括：

获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；

从所述文本文件中检索交互关键字。

3、根据权利要求 1所述的语音交互方法，其特征在于，所述分析用户语音文件以解析出交互关键字包括：

确定该用户语音文件的语音波形图；

判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

4、根据权利要求 1所述的语音交互方法，其特征在于，所述设置画面素材移动命令与交互关键字的对应关系为：设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

5、根据权利要求 1所述的语音交互方法，其特征在于，进一步设置画面素材变更命令与画面素材变更关键字的对应关系；该方法还包括：录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

才艮据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并展示所述更新后画面素材。

6、一种语音交互装置，其特征在于，包括一个或者多个处理器和存储器；其中，所述存储器中包含可由所述一个或者多个处理器执行的多个单元，所述多个单元包括：对应关系设置单元、画面素材展示单元、交互关键字解析单元和画面素材移动单元，其中：

画面素材展示单元，用于展示画面素材；

7、根据权利要求 6所述的语音交互装置，其特征在于，

交互关键字解析单元，用于获取语音训练文件和文本训练文件，并利用所述语音训练文件和文本训练文件，对语音识别器采用语音自适应方式估计语音参数，并利用该已估计语音参数的语音识别器识别所述用户语音文件，以将该用户语音文件转换为文本文件；从所述文本文件中检索交互关键字。

8、根据权利要求 6所述的语音交互装置，其特征在于，交互关键字解析单元，用于确定该用户语音文件的语音波形图；判断该用户语音文件的语音波形图中是否包含与交互关键字的语音波形保持一致的波形区域，如果是，则基于该所包含的交互关键字的语音波形确定该交互关键字。

9、根据权利要求 6所述的语音交互装置，其特征在于，

对应关系设置单元，用于设置画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

10、根据权利要求 6所述的语音交互装置，其特征在于，进一步包括画面素材变更单元；

对应关系设置单元，进一步用于设置画面素材变更命令与画面素材变更关键字的对应关系；

交互关键字解析单元，进一步用于录制用户语音文件，分析所述用户语音文件以解析出画面素材变更关键字；

画面素材变更单元，用于根据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并向画面素材展示单元发送该更新后画面素材；

画面素材展示单元，进一步用于展示该更新后画面素材。

11、一种移动终端，其特征在于，包括一个或者多个处理器和存储器；其中，所述存储器包含可由所述一个或者多个处理器执行的多个单元，所述多个单元包括：显示单元、语音录制单元和计算单元，其中：显示单元，用于展示画面素材；

语音录制单元，用于录制用户语音文件；

12、根据权利要求 11所述的移动终端，其特征在于，所述计算单元进一步用于：

从所述文本文件中检索交互关键字。

13、根据权利要求 11所述的移动终端，其特征在于，所述计算单元进一步用于：

确定该用户语音文件的语音波形图；

14、根据权利要求 11所述的移动终端，其特征在于，所述画面素材移动命令与交互关键字的对应关系包括：画面素材加速命令、画面素材减速命令、画面素材启动命令、画面素材停止命令、画面素材移动速度保持命令、或画面素材移动轨迹与交互关键字的对应关系。

15、根据权利要求 11所述的移动终端，其特征在于，所述计算单元所述计算单元进一步用于：

分析所述用户语音文件以解析出画面素材变更关键字；

才艮据解析出的所述画面素材变更关键字确定对应于该画面素材变更关键字的更新后画面素材，并控制所述展示单元展示所述更新后画面素材。

16、根据权利要求 11所述的移动终端，进一步包括摄像单元，摄像单元，进一步用于感应用户的热量，并在感应到用户热量后向显示单元发出热量提示消息；

显示单元，进一步用于收到热量提示消息之后，播放画面素材移动启动音频。