WO2008077336A1

WO2008077336A1 - Procédé de réponse vocale et serveur vocal

Info

Publication number: WO2008077336A1
Application number: PCT/CN2007/071104
Authority: WO
Inventors: Yuetao Meng; Zhou Yu; Keping Chen
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2006-12-26
Filing date: 2007-11-21
Publication date: 2008-07-03
Also published as: CN101001287A; EP1968293A1; US20080232559A1

Description

语音应答方法及语音服务器

本申请要求于 2006 年 12 月 26 日提交中国专利局、申请号为 200610157787.8, 发明名称为"语音服务器及语音应答方法 "的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本发明涉及通信领域，尤其涉及一种语音应答方法及语音服务器。

背景技术

语音识别技术的进步以及 VoIP ( Voice Over IP )的问世，加上新出现的先进的"语音服务器"（与之相对的是按键式菜单选择），这些共同促成了完全自动化的 IVR ( Interactive Voice Response, 语音应答）应用，客户可通过这些应用与企业或运营商进行端到端业务。譬如说，顾客拨打消费类家电设备生产商的服务热线，只要让顾客选择说 "水箱"，就会被引到相关部门，从而大大缩短了通话时间。在电信增值业务领域，如号码百事通业务，运营商也提供了语音识别的用户体验。在另一个应用领域：数据录入，语音技术远胜于按键式 IVR。譬如说，美国航空公司最近推出了完全自动化的系统，以便人们通过电话订票。仅采用按键式拨号是不可能部署这种应用的。

在语音技术方面，用户使用听觉器官和声音与系统交互，这样的界面被称作语音用户界面 (Voice User Interface, VUI), VUI必须尽量能在第一次交互时就得到正确的结果，减少用户确认次数及从错误返回的次数。

下面的例子是一个用户和一个航班信息系统的一次交互过程：

系统：你好，多谢致电"蓝天"航空。我们最新的自动系统可以帮你查询你需要的航班信息。请问你知道航班号吗？

用户：对不起，我不知道。

系统：没关系，请告诉我航班的出发城市。

用户：北京。请参阅图 1，自动化 IVR系统包括依次连接的电话机、交换机和语音服务器，语音服务器包括依次连接的业务处理模块、业务控制模块和语音处理模块，业务控制模块与交换机连接， IVR系统的主要工作流程如下： A、用户使用电话机拨打语音服务器的电话号码，交换机接通电话机和语音服务器的传输通道；

B、语音服务器播放欢迎词或操作提示语，具体为：业务控制模块从业务处理模块获得文本应答，业务控制模块调用语音处理模块的 TTS ( Text to Speech, 文字 /语音转换）技术将所述文本应答转换成语音，业务控制模块通过交换机将该语音返回到电话机；

C、用户通过语音和语音服务器交互，业务控制模块把电话机发出的声音信号交语音处理模块；语音处理模块执行 ASR ( Automatic Speech Recognition, 自动语音识别）并返回文本给业务控制模块，业务控制模块提交文本到业务处理模块；

D、如果语音被正确识别文本，业务处理模块执行业务，并提示用户执行结果；如果语音没有识别或者带有歧义，业务处理模块提示用户确认结果或错误；

E、用户继续使用语音和语音服务器交互，或者挂机。

可以看出，整个流程是用户输入语音应答，语音服务器提示结果或要求用户确认操作。然而，当语音服务器无法识别用户语音操作或有歧义时，往往使用语音交互提示音要求用户确认歧义或者重新发起语音操作 ,这时提示音播放的速度控制较快不宜听懂，且易忘记，较'隄可能导致用户失去耐心，同时如果在一个嘈杂的环境 ,噪声也会影响用户的听觉，虽然可以采用重复播放提示音 , 但这也常常会引起用户的反感。

因此 , IVR系统具有如下缺点：

1、不好的语音交互界面可能会降低语音交互系统的速度，因为用户必须听完并理解提示才能继续使用系统；

2、重复播放提示音常常会引起用户的反感。

发明内容

本发明实施例所要解决的技术问题在于提供一种在语音识别交互界面的同时提供可视界面的语音应答方法及语音服务器。

为解决上述技术问题，本发明实施例所采用的技术方案是：一种语音应答方法，包括以下步骤：获取语音业务请求，将所述语音业务请求转换成文本业务请求；根据所述文本业务请求获得相应的语音应答数据和可视应答数据；发送所述语音应答数据和可视应答数据。

为解决上述技术问题，本发明实施例所采用的技术方案是：提供一种语音服务器，其包括业务处理模块、业务控制模块和语音处理模块，

所述语音处理模块，用于将接收到的语音业务请求转换成文本业务请求；所述业务处理模块，用于根据所述文本业务请求获得相应的语音应答数据和可视应答数据；

所述业务控制模块，用于发送所述语音应答数据和可视应答数据。

本发明实施例的有益效果是：由于本发明实施例采用声音和可视应答数据的结合，因此人机交互界面更为友好、和谐；当提示音不可辨别时，利用可视界面依然能够达到交互效果；可以实现用户语音打断，在没有听完提示音就答复结果，从而加快语音交互的速度和效率；另外可避免用户没有理解或听清提示音的情况下需要重复播放提示音。

附图说明

图 1是背景技术中自动化 IVR系统的结构示意图。

图 2是本发明实施例的 IVR系统的结构示意图。

图 3是本发明实施例的语音应答方法的流程示意图。

图 4是本发明实施例的基于 SIP协议的语音应答方法的流程示意图。具体实施方式

下面结合附图举例说明本发明的具体实施方式。

请参阅图 2，本发明实施例的 IVR系统包括依次连接的电话机、交换机和语音服务器，语音服务器包括依次连接的业务处理模块、业务控制模块和语音处理模块，业务控制模块与交换机连接，其中语音处理模块用于将接收到的语音业务请求转换成文本业务请求，该语音业务请求可从业务控制模块获得，也可以直接通过接口获得；业务处理模块中存储有与文本业务请求关联的语音应答数据和可视应答数据（如文本、图像、流媒体），业务处理模块根据文本业务请求获得相应语音应答数据和可视应答数据；业务控制模块与业务处理模块相连，用于控制业务处理模块，将业务处理模块获得的语音应答数据和可视应答数据通过交换机返回给电话机，以提供给用户。电话机是具有显示模块的电话机，通过视频通信通道、音频通信通道和信令，语音服务器在传递语音的同时传递文本、图像或流媒体到电话机，电话机通过显示模块显示文本、图像或流媒体内容。本发明实施例可使人们在听计算机说话的同时能看到一个合成的人脸 (虚拟的主持人)，使人机交互界面更为友好、和谐。另外，在本发明实施例的语音服务器中，若业务处理模块具有与文本业务请求关联的文本应答数据，那么本发明实施例的语音服务器还应当包括转换单元和第二语音处理模块，该转换单元可以是独立的模块，也可以设置在业务控制模块中，其用于将文本应答数据转换成图像和 /或媒体流；该第二语音处理模块用于将文本应答数据转换成语音应答数据，该第二语音处理模块可以是独立的模块，也可以设置在语音处理模块中。此时，业务控制模块用于控制业务处理模块，从业务处理模块获得文本应答数据，并调用第二语音处理模块的 TTS技术将所述文本应答数据转换成语音应答数据，及控制转换单元调用文本到可视信息的转换

(Text-to- Visual Speech, TTVS)技术将所述文本应答数据转换成图像或流媒体。

本发明实施例电话语音系统除了声音交互界面外，还能提供辅助的文本、图形可视界面或视频界面，因此通过声音和可视信息的结合，加快语音交互的速度和效率，同时人机交互界面更为友好、和谐。

本发明实施例不限制传输网络和协议，所以文本、图像和流媒体的传递可以使用 PSTN网络 ( Public Switched Telephone Network, 公用交换电话网）、基于 IP的交换网络和基于 IP协议（如 SIP协议）；本发明实施例电话机可以是 VOIP电话、普通老式电话机 POTS、智能终端、手机等。

请参阅图 3，本发明实施例的语音应答方法包括以下步骤：

A、获取用户的语音业务请求，将所述语音业务请求转换成文本业务请求；

B、根据所述文本业务请求获得相应的语音应答数据和可视应答数据；若有与所述文本业务请求关联的语音应答数据和 /或可视应答数据，则根据所述文本业务请求直接获得相应的语音应答数据和 /或可视应答数据；若具有与所述文本业务请求关联的文本应答数据，则根据所述文本业务请求获得相应的文本应答数据，将所述文本应答数据转换成语音应答数据、图像和 /或流媒体； C、将所述语音应答数据和可视应答数据发送给所述用户，所述可视应答数据包括如下至少一种：文本、图像和流媒体；若所述可视应答数据为文本或图像，则通过信令将所述文本或图像发送给所述用户；若所述可视应答数据为流媒体，则建立流媒体通信通道，通过所述流媒体通信通道将所述流媒体发送给所述用户。接收用户上报的终端支持的业务能力信息，根据所述业务能力信息确定相应的可视应答数据。

请参阅图 4，本发明实施例基于 SIP协议 (Session Initiation Protocol, 会话初始化协议)的语音应答方法包括以下步骤：

Al、用户拨号后，电话机向语音服务器发 INVITE消息，语音服务器返回 200OK消息， INVITE和 200OK消息中均带有电话机是否支持文本消息、图像、流媒体的标识和用于描述媒体流的 SDP协议 (Session Description Protocol, 会话描述协议)；

Bl、承载 SDP协议的 INVITE、 200OK 消息进行 SDP协商后，电话机和语音服务器之间建立音频通信通道；若确定电话机支持文本消息，则电话机和语音服务器之间通过信令交互文本，通过音频通信通道交互语音；若确定电话机支持流媒体，则在电话机和语音服务器之间建立视频通信通道，电话机和语音服务器之间通过视频通信通道交互流媒体；若确定电话机支持图像消息，则在电话机和语音服务器之间通过信令交互图像。

举例如下：用户拨打 911电话，电话机发送 INVITE消息如下：

INVITE SIP:911 SIP/2.0 〃表示向 911发起呼叫

Allow: MESS AGE, INFO,.... //表示话机支持 MESSAGE 消息， INFO消息 Content-Type: application/SDP〃表示下面是消息内容，遵循 SDP协议 c=IN IP4 191.169.1.112 //话机希望使用 IP地址 191.169.1.112 收发媒体数据

m=audio 14380 RTP/AVP 0 96 97 98 //话机音频收发的端口为 14380 a=rtpmap:0 PCMU //音频编码方式 m=video 3400 RTP/AVP 98 99 〃话机视频收发端口为 3400 a= //视频编码方式 (略）

电话机发送 INVITE 消息给语音服务器，表明希望建立视频和音频通道，同时告诉语音服务器电话机支持文本消息 (MESSAGE), 支持图像（INFO ), 电话机返回 200OK消息如下：

SIP/2.0 200OK Content-Type： application/SDP

m=audio 14380 RTP/AVP 0 96 97 98 //语音服务器音频收发的端口为 14380

a=rtpmap:0 PCMU //音频编码方式 m=video 3400 RTP/AVP 98 99 //语音服务器视频收发端口为 3400 语音服务器返回 200OK消息之后视频和音频媒体流建立。

Allow: MESSAGE, INFO,.... //表示支持 MESSAGE 消息， INFO消息通过 INVITE 消息 Allow字段的 MESSAGE和 INFO , 语音服务器知道电话机能接受文字消息和图像，发送文字使用 MESSAGE 消息，发送图像使用 INFO 消息。

具体的标准如下：

RFC3261 详细描述 SIP协议

RFC3364 详细描述 SDP的话协商

RFC3428 详细描述 MESSAGE 消息收发文本

RFC2976 伴细描述 INFO消息

在 PSTN 网络上，要实现上述功能可以使用 H.320协议，具体不再描述。另外，本发明实施例的 IVR系统中的交换机也可以由软交换设备、路由器等来替代。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的硬件平台的方式来实现，当然也可以全部通过硬件来实施，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案对背景技术做出贡献的全部或者部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如 ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备以上所述，仅为本发明的较佳实施例而已，并非用于限定本发明的保护范围，凡在本发明的精神和原则之内所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

权利要求

1、一种语音应答方法，其特征在于，包括以下步骤：

获取语音业务请求，将所述语音业务请求转换成文本业务请求；根据所述文本业务请求获得相应的语音应答数据和可视应答数据；发送所述语音应答数据和可视应答数据。

2、如权利要求 1所述的语音应答方法，其特征在于，该方法还包括：接收业务能力信息；

根据所述业务能力信息确定所述可视应答数据。

3、如权利要求 1或 2所述的语音应答方法，其特征在于，所述可视应答数据包括：文本和 /或图像和 /或流媒体。

4、如权利要求 1所述的语音应答方法，其特征在于：所述根据所述文本业务请求获得相应的语音应答数据和可视应答数据包括：：

根据所述文本业务请求获得相应的文本应答数据；

将所述文本应答数据转换成所述语音应答数据。

5、如权利要求 1所述的语音应答方法，其特征在于，所述根据所述文本业务请求获得相应的语音应答数据和可视应答数据包括：

才艮据所述文本业务请求获得相应的文本应答数据；

将所述文本应答数据转换成所述可视应答数据。

6、如权利要求 3所述的语音应答方法，其特征在于，该方法还包括：当所述可视应答数据为文本或图像时，通过信令发送所述文本或图像；当所述可视应答数据为流媒体时，建立流媒体通信通道，通过所述流媒体通信通道发送所述流媒体。

7、一种语音服务器，其包括业务处理模块、业务控制模块和语音处理模块，其特征在于，

8、如权利要求 7所述的语音服务器，其特征在于，所述业务处理模块中存储有与所述文本业务请求关联的语音应答数据和可视应答数据。

9、如权利要求 7所述的语音服务器，其特征在于，所述业务处理模块中存储与所述文本业务请求关联的文本应答数据，所述语音服务器还包括第二语音处理模块，用于将所述文本应答数据转换成所述语音应答数据。

10、如权利要求 7所述的语音服务器，其特征在于，所述业务处理模块中存储与所述文本业务请求关联的文本应答数据，所述语音服务器还包括转换单元，用于将所述文本应答数据转换成所述可视应答数据。