WO2007045187A1

WO2007045187A1 - Procede, appareil et systeme pour executer la fonction de conversion texte-parole

Info

Publication number: WO2007045187A1
Application number: PCT/CN2006/002806
Authority: WO
Inventors: Cheng Chen
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2005-10-21
Filing date: 2006-10-20
Publication date: 2007-04-26
Also published as: EP1950737A4; EP1950737B1; CN1953053A; DE602006014578D1; ATE469415T1; CN100487788C; EP1950737A1; US20080205279A1

Description

一种实现文语转换功能的方法、装置及系统本申请要求于 2005 年 10 月 21 日提交中国专利局、申请号为 200510114277.8、发明名称为 "一种实现文语转换功能的方法"的中国专利申请的优先权，其全部内容通过引用结合在本申请中。技术领域

本发明涉及信息处理技术领域，特别涉及实现文语转换功能的方法、装置及系统。背景技术

文语转换（TTS, Text to Speech )技术，即将书面语言转换成语音的技术，涉及声学、语言学、数字信号处理、计算机科学等相关技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，与传统的声音回放技术有着本质的区别。传统的声音回放设备（系统），如磁带录音机，是通过预先录制声音然后回放来实现 "让机器说话" 的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机文语转换则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器 "像人一样开口说话" 。

文语转换系统为了合成出高质量的语言，除了依赖于各种规则，包括语义学规则、词汇规则、语音学规则外，还必须对文字的内容有很好的理解，这也涉及到自然语言理解的问题。图 1显示了一个完整的文语转换系统示意图。文语转换过程是先将文字序列转换成音韵序列，再由系统根据音韵序列生成语音波形。其中涉及语言学处理，例如分词、字音转换等, 以及一整套有效的韵律控制规则；其次，需要先进的语音合成技术，能按要求实时合成出高质量的语音流。因此，一般说来，文语转换系统都需要一套复杂的文字序列到音素序列的转换处理程序。

文语转换技术 TTS是一项核心的语音技术。采用文语转换技术将文本信息转换成机器合成的语音，可提供方便的、友好的人机交互接口。在电话和嵌入式语音等应用系统中，增加了系统的适用范围和灵活性。

现有网络系统中，应用服务器在向用户放音时，通常有两种方法：第一种方法是直接播放一个录音。如当用户呼叫一个用户失败时 , 系统会向用户提示 "你呼叫的用户不在服务区"，这段提示音是提前录制并存储在服务器上的。在 H.248协议中已有完善的方法。

第二种方法是用文语转换功能来实现。当用户呼叫失败时，系统把 "你呼叫的用户不在服务区" 这句文本转换成语音输出给用户。

使用文语转换，其优点是：

修改方便，在修改时只需修改文本，不需要重新录音；

可以根据用户需求播放更个性化的提示音，如分別用男声、女声、中性声音播放。

上述的第二种方法在 H.248协议中没有定义，而媒体资源应用环境需要使用文语转换功能。

发明内容

本发明实施例提供一种实现文语转换的方法、装置及系统，以使媒体处理系统可将文本转换为语音，为用户提供相关语音服务。

本发明实施例提供的一种实现文语转换功能的方法，通过对 H.248 协议的扩展实现文语转换，该方法包括以下步骤：

媒体资源处理装置接收媒体资源控制装置发送的携带包含文语转换指示的及相关参数的 H.248消息；

媒体资源处理装置根据所述消息中的参数进行文语转换处理，并将文语转换结果反馈媒体资源控制装置。

所述相关参数包括文本串的相关信息，媒体资源处理装置根据所述文本串的相关信息，对所述文本串进行文语转换。

所述文本串的相关信息为能被正确发音的文本串，媒体资源处理装置接收到所述文本串相关信息后，直接提取该文本串并进行文语转换。

更适宜地，所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务器上。

所述文本串的相关信息为所述文本串文件标识和存储位置信息，媒体资源处理装置接收到所述文本串的相关信息后 , 根据其中的存储位置信息，从本地或者外部服务器读取文本串文件放入緩存，并进行文语转换。

所述文本串的相关信息为文本串和包括文本串文件标识及存储位置的文本串文件信息的组合，所述文本串文件信息和文本串组合成连续文本串，并在文本串文件标识前增加关键字表示引入文本串文件；

更适宜地，媒体资源处理装置接收到所述文本串文件信息后，将从本地或者外部服务器读取的文本串与 H.248消息中携带的文本串进行合成并緩存，然后进行文语转换。

所述相关参数包括：

指示读取文本串文件的参数，在接收到指示预读取文件的命令后，从远程服务器读取相应文件并缓存在本地，否则等到命令执行时再读取文件；和 /或

文件緩存的时长参数，设置所述读取的文件在本地緩存的时间长度。所述文本串的相关信息包括文本串和录音文件标识的组合，并在录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到所述文本串的相关信息后，对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合成语音片断。

所述文本串的相关信息为包括文本串文件标识及存储位置的文本串文件信息和录音文件标识的组合 , 并在所述录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到所述文本串的相关信息后，根据存储位置信息从本地或者外部服务器读取文本串放入緩存，然后对读取的文本串进行文语转换，并将文语转换后输出的语音与录音文件组合成语音片断。

优选地，所述 H.248消息中还携带有文语转换输出的语音属性的相关参数，该相关参数包括：发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换 , 媒体资源处理装置接收到该相关参数后为输出的语音设置相应的属性。

更适宜地，在检测到异常事件时，媒体资源处理装置将表示异常事件相应的错误码反馈给媒体资源控制装置。媒体资源处理装置进行文语转换过程中，媒体资源控制装置对文语转换过程进行控制，包括：

暂时停止对用户播放文语转换后的语音；和 /或

从上述暂停状态恢复到播放状态的步骤；和 /或

文语转换结束后，用户中止相关操作。

优选地，媒体资源控制装置对文语转换过程的控制包括使播放快进或者快退，该快进包括快进若干字、句子或者段落，或者快进若干秒，或者快进若干语音单位；该快退包括快退若干字、句子或者段落，或者快退若干秒，或者快退若干语音单位。

更适宜地，媒体资源控制装置对文语转换过程的控制包括：重新开始文语转换，并根据要求重新设置文语转换参数，包括音调、音量、音速、发音性别、发音年龄、重读位置、停顿位置和时长；或，重复播放当前句、段落或者全文。

进一步包括取消对所述当前句、段落或者全文的重复播放。

本发明的实施例还提供一种媒体资源处理装置，包括：

信息获取单元，用于获取媒体资源控制装置发送的包括待识别的文本串和控制参数的控制信息；

文语转换单元，用于将所述控制信息中的文本串转换成语音信号；发送单元，发送所述的语音信号给媒体资源控制装置。

优选地，该装置还包括：

文件获取单元，用于获取文本串文件并发送给文语转换单元；录音获取单元，用于获取录音文件；

合成单元，用于将文语转换单元输出的语音信号和所述录音文件合成新的语音信号，发送给所述发送单元。

本发明的实施例提供的一种实现文语转换功能的系统，包括：媒体资源控制装置，对 H.248协议进行扩展，发送携带指示及相关参数的 H.248消息给媒体资源处理装置，控制媒体资源处理装置执行文语转换；

媒体资源处理装置接收媒体资源控制装置发送的携带文语转换处理指示及相关参数的 H. 248消息，并根据所述相关参数进行文语转换处理，并将文语转换结果反馈媒体资源控制装置。

所述媒体资源处理装置包括文语转换单元，用于将文本串转换成语音信号。

所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务器上，所述文本串的相关信息为文本串的标识和存储位置信息，媒体资源处理装置接收到所述文本串相关信息后 , 根据其中的存储位置信息，从本地或者外部服务器读取文本串文件放入缓存 , 并进行文语转换。

所述文本串的相关信息包括文本串和录音文件标识的组合，并在录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到该組合后，对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合语音片断。

综上所述，本发明实施例中，通过对 H. 248协议的扩展，在 H. 248 消息中携带包括文本串的相关信息的扩展包参数，指示并控制媒体资源处理装置根据所述参数进行文语转换处理，并将文语转换结果反馈媒体资源控制装置。通过本发明提供的方法，可以在移动或者固网的媒体资源应用中，给用户提供文语转换相关的业务应用，如把网页上的内容转成声音读给用户听。同时，在修改时只需修改文本，不需要重新录音，并且可以根据用户需求播放更个性化的提示音。附图说明

图 1为现有技术的文语转换实现原理示意图；

图 2为现有技术的 WCDMA IP多媒体系统中处理媒体资源业务的网络架构示意图；

图 3为现有技术的固定软交换网络中处理媒体资源业务的网络架构示意图；图 4为本发明实施例的实现文语转换的方法的流程图；

图 5为本发明实施例提供的实现文语转换的装置架构图。具体实施方式

图 2为 WCDMA IP多媒体系统（IMS, IP Multimedia Subsystem ) 网络中，处理媒体资源业务的网络架构。其中，应用服务器 1用于处理各种业务，例如对用户放音、收号、会议、录音等。业务呼叫会话控制装置 2用于处理路由，将应用服务器发出的消息正确地转发给媒体资源控制装置 3, 或者将媒体资源控制装置 3发出的消息正确地路由到应用服务器 1。媒体资源控制装置 3用于控制媒体资源，其根据应用服务器 1 的要求，选择相应的媒体资源处理装置 4并控制媒体资源的处理。媒体资源处理装置 4用于媒体资源的处理，在媒体资源控制装置 3的控制下，完成应用服务器 1下发的媒体资源操作处理。

其中，应用服务器 1、业务呼叫会话控制装置 2、以及媒体资源控制装置 3之间采用的接口使用 SIP协议和 XML协议，或者是 SIP协议和类似 XML的协议（例如 VXML )。媒体资源控制装置 3和媒体资源处理装置 4之间采用的接口为 Mp接口，使用 H.248协议。媒体资源处理装置 4的对外接口为 Mb接口，一般釆用 RTP协议承载用户媒体流。

图 3为现有技术的在固定软交换网络中处理媒体资源业务的网络架构。其中，媒体资源服务器（ MRS, Media Resource Server )相当于 WCDMA IMS网络中的媒体资源控制装置 3和媒体资源处理装置 4的功能，应用服务器相当于 WCDMA IMS网络中的应用服务器 1和业务呼叫会话控制装置 2的功能，以及软交换装置和应用服务器 1功能大致相同。

根据本发明通过 H.248协议实现文语转换的方法可以应用于图 2所示的 WCDMA IMS网络、以及图 3所示的固定软交换网络中的媒体资源处理。同样也可以应用于其它网络，如 CDMA网络和固定 IMS网络，其媒体资源应用场景的架构和业务流程和上述 WCDMA IMS 的基本相同，以及 WCDMA、 CDMA电路软交换网络，其某体资源应用架构和业务流程和固定软交换网络基本相同。也就是，本发明可以应用于所有通过 H.248协议控制媒体资源装置以实现文语转换功能。以下将以应用于 WCDMA IMS为例，结合附图说明本发明所提供的通过 H.248协议实现文语转换功能的方法。

这里，由于本发明实施例只涉及图 2所示媒体资源控制装置 3和媒体资源处理装置 4之间的处理过程，而其他过程同现有 WCDMAIMS网络中的处理过程相同，因此，为了简化而只对媒体资源控制装置 3和媒体资源处理装置 4之间的处理过程进行描述。

如图 4所示为根据本发明的具体实施例中媒体资源控制装置 3和媒体资源处理装置 4进行媒体资源的控制和处理的流程图。

步骤 1，媒体资源控制装置 3向媒体资源处理装置 4发出进行文语转换的指示。

具体地，媒体资源控制装置 3通过定义 H.248协议扩展包，在 H.248 消息中携带扩展包参数，从而指示媒体资源处理装置 4执行文语转换。 H.248协议包定义如下：

1. 特性 ( Properties ):

无

2. 事件（Events ):

参照在后续 "事件" 部分中的定义。

3、信号（Signals )

参照后续在 "信号" 部分的定义。

4. 统计信息（Statistics )

无

5. 处理 ( Procedure )

对应后续将要描述的流程。

步骤 1 , 在 H.248消息的参数中携带文本串相关信息。可采用多种方式：

( 1 )在 H.248消息的参数中携带文本串：

文本串是一个能被正确发音的字符串，如 "You are welcome!" 该文本串的格式不被处理 H.248协议的功能实体识别，只是作为一个串嵌入在 H.248消息中。媒体资源处理装置 4接收到此参数后，可以直接提取文本串交给文语转换单元处理。

( 2 )在 H.248消息参数中携带文本串文件标识和存储位置信息文本串可以预先存储在媒体资源处理装置 4或者外部服务器上，

H.248消息中携带该文本串文件的标识和存储位置信息。

文本串文件的标识可以是符合文件命名规范的任意字符串。

文本串文件的存储位置信息有三种形式：

I. 本地可直接存耳又的文件，如 welcome.txt;

II. 通过 file：〃方式存取的文件，如 file ://huawei/welcome.txt;

III. 通过 http:〃方式存耳又的文件，如 http:〃huawei/welcome.txt; 媒体资源处理装置接收到此参数后，根据文本串文件的存放位置，先从远端服务器或者本地存储中读取文本串文件，放入缓存，再由文语转换单元进行文语转换处理。

( 3 )在 H.248消息参数中同时携带文本串和文本串文件，文本串和文件组合执行

将文本串文件信息（包括文本串文件标识和文本串文件的存储位置信息）和文本串组合成一个连续文本串，在文本串文件标识前面增加特殊的关键字，表示引入一个发音文本串文件，而不是直接转换这个文件名，如：

Do you want to play a game?

媒体资源处理装置 4接收到发音文本串和文本串文件的组合执行命令后，先进行预处理，从外部服务器或者在本地读取文本串文件，并将其和消息中携带的发音文本串连接成为一个串，放入緩存，再进行文语转换处理。 ( 4 )在 H.248 消息参数中同时携带文本串和 /或文本串文件信息以及录音文件

对一个文本串或者文本串文件做文语转换处理后，再和录音文件组合成语音片段。

在录音文件标识前面增加特殊的关键字，表示引入一个录音文件，而不是直接转换这个文件名，如：

Do you want to play a game?

媒体资源处理装置 4接收到文本串和 /或文本串文件信息和录音文件的组合后，先进行预处理，从远端服务器或者本地读取文件，放入緩存；再对文本串进行文语转换处理，并将文语转换后的输出语音和录音文件组合成一个语音片段。

另外，在步驟 1中，进一步在 H.248消息中携带文语转换输出的语音属性参数。在指示媒体资源处理装置执行文语转换时，可携带的与发音有关的参数有：

( 1 )发音语言种类

可以使用不同的语言种类，遵从 RFC3066的定义。

( 2 )发音性别

可以是男声、女声或者中性声音；

( 3 )发音年龄

可以是孩童声音、成年人声音、或者老年声音；

( 4 )发音速度

发音速度可以比正常语速更快或者更慢，用百分比表示， -20%表示比正常速度慢 20 %。

( 5 )发音音量

发音音量可以比正常音调更高或者更低，用百分比表示， -20%表示比正常音调低 20 %。

( 6 )发音音调

发音音调可以比正常音调更高或者更低，用百分比表示， -20%表示比正常音调低 20%。

(7)特殊文字的发音方式

对文本串中的特殊字规定发音方式。如 "2005/10/01"的发音为 "2005 年 10月 1 曰"。

(8)是否停顿和停顿时长、停顿位置

停顿的目的是为了符合发音习惯，停顿时长是大于 0的一个时间值，停顿位置可以有几种取值：在每读完一句话后停顿，或者在每读完一段话后停顿。

(9)是否重读和重读级别、重读的位置

重读级别可以是高、中、低三个级别；重读的位置可以有几种取值：只在全文开始时重读，每句话的开始都重读，每段话的开始都重读等。

( 10)是否预读取文本串文件

若指示预读取文件，则在接收到命令后，就到远程服务器读取文件緩存在本地，否则等到命令执行时再读取文件；

(11)文件緩存的时长

文件读取到本地后，緩存多长时间后失效。

( 12) 是否在用户输入双音多频（ DTMF, Dual Tone Multiple Frequency )信号或者语音时，中止文语转换。

在文语转换和自动语音 /DTMF识别同时进行时，文语转换过程中若用户输入 DTMF或者语音时，文语转换可以中止。

具体地，在 H.248协议包中定义了：

信号（Signal), 包括：（1)指示播放 TTS文件的信号；（2)指示播放 TTS 串的信号；（3)指示播放 TTS串、 TTS文件以及语音片断的信号；（4)指示设置重音的信号；（5)指示设置停顿的信号；以及（6)指示特殊字词的信号，这些信号分别表示如下：

( 1 )播放 TTS文件 ( Play TTS File ), 用于指示执行文语转换功能。信号名（Signal Name): 播放 TTS文件（Play TTS File)

信号标识（SignallD): ptf (0χ??)

说明（Description): 对文本串文件执行 TTS功能信号类型（SignalType): BR

时长 (Duration): 不可用（Not Applicable) 其附加参数 ( Additional Parameter ) 包括：

I.

参数名 (Parameter Name): TTS文件

参数标识（Parameter ID): tf (0χ??)

说明： TTS文件名和存储位置类型（Type): 字符串（String) 是否可选（Optional): 否

可能取值（ Possible Value )：合法的文件标识和存储格式默认值（Default): 无

II.

参数名：语言类型 (Language Type) 参数标识： It (0χ??)

说明- 语言类型

类型- 字符串

是否可选：否

可能值：遵从 RFC3066协议默认值- 无

III.

IV. 参数名：年齢（Age)

参数标识： ag (0χ??)

说明：发音年龄

类型: 字符串

是否可选：否

可能值：孩子，成人，老人默认值- 无

V.

参数名：速度 (Speed)

参数标识-. sp (0χ??)

说明- 发音速度

类型: 整数

是否可选：是

可能值：从 -100%到 100%之间的值默认值: 无

VI.

参数名：音量 (Volume) 参数标识： νο (0χ??)

立立兽

说明- 及曰曰虽

类型- 整数

是否可选- 是

可能值-― 从 -100%到 100%之间的值默认值- 无

VII.

参数名：音调（Tone)

参数标识： to (0χ??)

说明：发音音调

类型：是否可选：是

可能值：从 -100%到 100%之间的值默认值- 无

VIII.

参数名- 预读文件（Prefetch) 参数标识= pf (0χ??)

说明：预读取文本串文件类型- enum

是否可选：是

可能值：是，否

默认值：是

IX.

参数名：缓存时间（Cache Time) 参数标识： ct (0χ??)

说明：文件缓存时长

类型：整数

是否可选- 是

可能值- 大于 0秒

默认值：无

X.

XI. 参数名： voice barge in

参数标识： vbi (0χ??)

说明- 在用户输入者语音时，中止文语转换类型：整数

是否可选- 是

可能值- 大于 0秒

默认值- 无

( 2 )播放 TTS串（Play TTS String ), 用于指示对文本串执行 Τ' 。信号名称- 播放 TTS串

信号标识： pts (0χ??)

说明：指示对文本串执行 TTS功能

信号类型： BR

时长：不可用其附加参数包括：

I.

参数名： TTS串 (TTS String)

参数标识： ts (0χ??)

说明：可进行发音的文本串

类型- 字符串

是否可选：否

可能值- 可进行发音的文本串

默认值：无其它参数和 "播放 TTS文件"信号的 II、 III、 IV、 V、 VI、 VII、 X、相同。

( 3 )播放 TTS串、 TTS文件以及语音片断

信号名称- 播放组合（Play union) 信号标识- 说明- 播放 TTS串、 TTS文件、语音片段文件的组合信号类型- BR

时长：不可用其附加参数包括：

I.

参数名： TTS和语音片断

参数标识： ta (0χ??)

o

说明- 播放 TTSo■串、 TTS文件、语音片段文件的组合

1 -—

类型：字符串 o 是否可选： No

可能值- 播放 TTS串、 TTS文件、语音片段文件的组合默认值：无其它参数和 "播放 TTS 文件" 信号的 II、 III、 IV、 V、 VI、 VII、 VIII 、 IX 、 X、 XI相同。

( 4 )设置重音（ Set Accentuation ), 用于指示 TTS的重读级别和位置。

其附加参数包括:

I.

参数名- 重读位置 (Accentuation Position)

参数标识：

说明：重读位置

类型- 文本串是否可选：是

可能值：开始位置，句子开头，段落开头

默认值：无

II.

参数名：重读级另 'J (Accentuation Grade)

参数标识： ag (0χ??)

说明：重读级别

类型- 字符串

是否可选：是

可能值：高，中，低

默认值：无

( 5 )设置停顿（ Set Break ), 用于指示 TTS的停顿位置和时长。信号名称- 设置停顿（Set Break)

信号标识： sb (0χ??)

说明：指示 TTS的停顿位置和时长

类型信号- BR

时长不可用其附加参数包括：

I.

参数名：停顿位置 (Break Position)

参数标识： bp (0χ??) - 说明- 停顿位置

类型：字符串

是否可选：否

可能值- 句子的结尾，段落的结尾

默认值- 无

II. 参数名- 停顿时长（Break Time) 参数标识- bt (0χ??)

说明- 停顿时长

类型- 整数

是否可选：是

可能值：大于 0毫秒

默认值- 无

( 6 ) 特殊字词（ Special Words ), 用于指示 TTS对特殊字词的发- fe。信号名称（Signal Name)：特殊字词

信号标识（SignallD).- sw (0χ??)

说明- 指示 TTS对特殊字词的发音方法

类型信号- BR

时长不可用其附加参数包括：

I.

参数名- 目标字词 ( Destination Words )

参数标识： dw (0χ??)

说明：文本串中的原始字词

类型- 字符串

是否可选： ― 是 - 可能值- 任何

默认值：无

II.

参数名：取代发音（Say As)

参数标识- sa (0χ??)

说明- 取代的发音方法类型：字符串

是否可选：是

可能值- 任何

默认值：无步骤 2, 媒体资源处理装置在接收到媒体资源控制装置的指示后，确认该指示，将确认信息反馈媒体资源控制装置，并进行文语转换，向用户播放转换后的语音。

步骤 3, 媒体资源控制装置 3指示媒体资源处理装置检测文语转换结果。

步骤 4, 媒体资源处理装置 4在接收到该指示之后，确认并返回确认信息。

步骤 5，媒体资源控制装置 3对文语转换过程进行控制，该控制包括：

暂停：暂时停止对用户播放转换后的语音；

恢复：恢复以上暂停状态到播放状态；

快进和快进到的位置，有多种指示方法：

( 1 )快进若干个字；

(2)快进到后面某一句的开始；

(3)快进到后面某一段开始；

(4)快进若干秒；

( 5 )快进若干语音单位（语音单位由实现自定义，如 10s )。快退和快退的位置，有多种指示方法：

(1 ) 快退若干个字；

(2) 快退到前面某一句开始；

(3)快退到前面某一段开始；

( 4 )快退若干秒；

(5)快退若干语音单位（语音单位由实现自定义，如 10s)。重新开始文语转换；

文语转换结束：用户中止重复和重复的范围，有多种指示方法-.

(1)重复当前句；

(2)重复当前段；

(3) 重复全文；

取消重复：取消上述的重复播放；

重新设置文语转换参数，包括上述的音调、音量、音速、发音性别、发音年龄、重读位置、停顿位置和时长等参数。

具体地，在 H.248协议包中的定义为：

信号：包括 TTS暂停、

( 1 ) TTS暂停 ( TTS Pause ), 用于指示暂停 TTS。

附加参数：无

(3) TTS跳过字词 ( TTS Jump Words ), 用于指示跳过几个字后继续进行。

信号名称- TTS跳过字词

信号标识： tjw (Ox??)

说明：指示跳到某一个位置继续进行类型信号- BR

时长：不可用

附加参数：

I.

参数名- 跳过多少 (Jump Size)

参数标识： js (0χ??)

说明- 跳过的字个数，正表示向后，负表示向前类型：整数

是否可选- 否

可能值：任何

默认值：无

( 4 ) TTS跳过句子（ TTS Jump Sentences ), 用于指示跳过几个句续进行。信号名称： TTS jump sentences

信号标识- tjs (0χ??)

说明：指示跳过几个句子后继续进行

类型信号- BR

时长：不可用附加参数包括：

I.

参数名：跳过多少

参数标识： js (0χ??)

说明- 跳转的句子个数，正表示向后，负表示向前类型：整数

是否可选：否

可能值：任何

默认值：无 ( 5 ) TTS跳过段落（ TTS Jump Paragraphs ), 用于指示跳过几个段落后继续进行。

O •

( 6 ) TTS跳过秒数 ( TTS Jump Seconds ), 用于指示跳过几秒的语音后继续进行。信号名称： TTS跳过秒数

信号标识： tjs (0χ??)

说明- 指示跳过几秒语音后继续进行

类型信号- BR

时长- 不可用附加参数包括：

I.

参数名：跳过多少

参数标识：

说明：跳转的秒数，正表示向后，负表示向前类型：整数

是否可选：否

可能值- 任何

默认值：无

( 7 ) TTS跳过语音单元（ TTS Jump Voice Unit ), 用于指示跳过几个语音单元后继续进行。

参数名：跳过多少

参数标识： js (0χ??)

说明- 跳转的语音单元数，正表示向后，负表示向前类型：整数

是否可选：否

可能值：任何

默认值：无

( 8 ) TTS重新开始 ( TTS Restart ) 信号名称： TTS重新开始

信号标识- tr (0χ??)

说明- TTS重新开始

类型信号- BR

时长- 不可用

附加参数：无 TTS结束（TTS End )

附加参数：无

( 10 ) TTS重复（ TTS Repeat ), 指示重复进行 TTS的某一段文字,

附加参数包括:

I.

步骤 6, 媒体资源处理装置 4在接收到该指示之后，确认并返回确认信息。

步驟 7，媒体资源处理装置 4将在文语转换过程中检测到的事件如正常结束，超时等反馈给媒体资源控制装置 3。

文语转换过程检测到的事件包括：异常情况下的错误码、以及正常转换结束时描述结果的参数。

文语转换功能执行的错误码

媒体资源处理装置在执行文语转换过程中，若产生异常，要向媒体资源控制装置返回具体的错误码。错误码的具体值由相关标准统一定义、分配，内容包括：

(1) 不能识别的单词或者字；

(2) 不能发音的字；

(3) 文本串文件不存在；

(4)文本串文件读取错误；

(5) 参数不支持或者错误；

(6)对文语转换的控制不支持或者错误；

( 7 )媒体资源处理装置硬件错误；

( 8 )媒体资源处理装置软件错误； .

(9)其它错误。

文语转换正常结束后返回的描述结果的参数

文语转换正常结束时，可以返回以下信息：

( 1 )文语转换过程正常结束；

(2) 用户输入触发文语转换中止：用户输入中止键，用户输入

DTMF, 用户输入语音。

(3)统计信息：向用户播放的文语转换语音时长。

具体如下：

事件：

( 1 ) TTS执行失败 ( TTS Failure )

检测到的事件参数 ( ObservedEventDescriptor parameters ) 包括: I. 参数名- 错误返回码（Error Return Code) 参数标识： ere (0χ??)

说明：错误码参数

参数类型：整数

是否可选：否

可能值：以上方案定义的错误码

默认值- 无

( 2 ) TTS执行完成（ TTS Success )

事件名称： TTS执行完成

事件标识： ttssuss (0χ??)

说明：文语转换执行完成，返回结果事件说明参数：无检'《¾ f)J ]事件参数 ( ObservedEventDescriptor parameters ) 包括: I.

参数名：结束原因（End Cause)

参数标识： ec (0χ??)

说明- 触发文语转换结束的原因

类型- 整数

是否可选：是

可能值- 转换完成，用户输入 DTMF、用户输入语音默认值：无

II.

参数名： TTS时间 (TTS Time)

参数标识： tt (0χ??)

说明：执行文语转换的时长

类型- 整数

是否可选：是

可能值：大于 0秒

步骤 8,媒体资源控制装置 3将确认消息反馈给媒体资源处理装置 4, 文语转换结束。

参照图 5 , 本发明的实施例提供的一种媒体资源处理装置，包括信息获取单元 10, 用于获取媒体资源控制装置发送的包括待识别的文本串和控制参数的控制信息；

文语转换单元 20, 用于将所述控制信息中的文本串转换成语音信发送单元 30, 发送所述的语音信号给媒体资源控制装置。

该装置还包括：

文件获取单元 40, 用于获取文本串文件并发送给文语转换单元；录音获取单元 50 , 用于获取录音文件；

合成单元 60, 用于将文语转换单元输出的语音信号和所述录音文件合成新的语音信号，发送给所述发送单元。

另外，本发明实施例还提供一种实现文语转换功能的系统，包括：媒体资源控制装置，对 H.248协议进行扩展，发送携带指示及相关参数的 H.248消息给媒体资源处理装置，控制媒体资源处理装置执行文语转换；

所述文本串的相关信息为能被正确发音的文本串，媒体资源处理装置接收到所述文本串相关信息后 , 直接提取该文本串并进行文语转换。

所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务器上，所述文本串的相关信息为文本串的标识和存储位置信息，媒体资源处理装置接收到所述文本串相关信息后，根据其中的存储位置信息，从本地或者外部服务器读取文本串文件放入緩存，并进行文语转换。

所述文本串的相关信息包括文本串和录音文件标识的组合，并在录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到该组合后，对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合语音片断。

通过本发明提供的方法，可以在移动或者固网的媒体资源应用中，给用户提供文语转换相关的业务应用，如把网页上的内容转成声音读给用户听。同时，在修改时只需修改文本，不需要重新录音，并且可以根据用户需求播放更个性化的提示音。

可以理解的是，本发明并不限于上述的实施例，本领域的技术人员可以在理解本发明的基础上进行相应的变更或者修饰。例如，媒体资源控制装置 3可以同时向媒体资源处理装置 4发出上述步骤 1和步骤 3中的指示，并且媒体资源处理装置 4可以同时执行步骤 2和步骤 4中的操作。

Claims

权利要求

1. 一种实现文语转换功能的方法，其特征在于，通过对 H.248协议的扩展实现文语转换，该方法包括以下步骤：

2. 如权利要求 1所述的方法，其特征在于，所述相关参数包括文本串的相关信息，媒体资源处理装置根据所述文本串的相关信息，对所述文本串进行文语转换。

3. 如权利要求 2所述的方法，其特征在于，所述文本串的相关信息为能被正确发音的文本串，媒体资源处理装置接收到所述文本串相关信息后，直接提取该文本串并进行文语转换。

,

4. 如权利要求 2所述的方法，其特征在于，所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务器上。

5. 如权利要求 4所述的方法，其特征在于，所述文本串的相关信息为所述文本串文件标识和存储位置信息，媒体资源处理装置接收到所述文本串的相关信息后，根据其中的存储位置信息，从本地或者外部服务器读取文本串文件放入緩存，并进行文语转换。

6. 如权利要求 4所述的方法，其特征在于，所述文本串的相关信息为文本串和包括文本串文件标识及存储位置的文本串文件信息的组合，所述文本串文件信息和文本串组合成连续文本串，并在文本串文件标识前增加关键字表示 1入文本串文件；

媒体资源处理装置接收到所述文本串文件信息后，将从本地或者外部服务器读取的文本串与 H.248消息中携带的文本串进行合成并緩存，然后进行文语转换。

7. 如权利要求 4所述的方法，其特征在于，所述相关参数包括：指示读取文本串文件的参数，在接收到指示预读取文件的命令后，从远程服务器读取相应文件并緩存在本地，否则等到命令执行时再读取文件；和 /或

文件緩存的时长参数，设置所述读取的文件在本地緩存的时间长度。

8. 如权利要求 2所述的方法，其特征在于，所述文本串的相关信息包括文本串和录音文件标识的组合，并在录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到所述文本串的相关信息后，对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合成语音片断。

9. 如权利要求 4所述的方法，其特征在于，所述文本串的相关信息为包括文本串文件标识及存储位置的文本串文件信息和录音文件标识的组合，并在所述录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到所述文本串的相关信息后，根据存储位置信息从本地或者外部服务器读取文本串放入緩存，然后对读取的文本串进行文语转换，并将文语转换后输出的语音与录音文件组合成语音片断。

10. 如权利要求 2所述的方法，其特征在于，进一步包括：所述 H.248 消息中还携带有文语转换输出的语音属性的相关参数，该相关参数包括：发音语言种类、发音性别、发音年龄、发音速度、发音音量、发音音调、特殊文字的发音方式、停顿、重读、或者在用户输入时是否中止文语转换，媒体资源处理装置接收到该相关参数后为输出的语音设置相应的属性。

11. 如权利要求 1所述的方法，其特征在于，进一步包括：在检测到异常事件时，媒体资源处理装置将表示异常事件相应的错误码反馈给媒体资源控制装置。

12.如权利要求 1 所述的方法，其特征在于，媒体资源处理装置进行文语转换过程中，媒体资源控制装置对文语转换过程进行控制。

13.如权利要求 12所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制包括暂时停止对用户播放文语转换后的语音。

14.如权利要求 13所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制进一步包括：

从上述暂停状态恢复到播放状态的步骤。

15. 如权利要求 12所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制进一步包括：文语转换结束后，用户中止相关操作。

16. 如权利要求 12所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制包括使播放快进或者快退，该快进包括快进若干字、句子或者段落，或者快进若干秒，或者快进若干语音单位；该快退包括快退若干字、句子或者段落，或者快退若干秒，或者快退若干语音单位。

17. 如权利要求 12所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制包括：

重新开始文语转换，并根据要求重新设置文语转换参数，包括音调、音量、音速、发音性别、发音年龄、重读位置、停顿位置和时长；或，重复播放当前句、段落或者全文。

18. 如权利要求 17所述的方法，其特征在于，媒体资源控制装置对文语转换过程的控制进一步包括取消对所述当前句、段落或者全文的重复播放。

19、一种媒体资源处理装置，其特征在于，包括：

20、如权利要求 19所述的装置，其特征在于，还包括：

21、一种实现文语转换功能的系统，其特征在于，包括：

媒体资源控制装置，对 H.248协议进行扩展，发送携带指示及相关参数的 H.248消息给媒体资源处理装置，控制媒体资源处理装置执行文语转换；

22. 如权利要求 21所述的系统，其特征在于，所述媒体资源处理装置包括文语转换单元，用于将文本串转换成语音信号。

23. 如权利要求 22所述的系统，其特征在于，所述相关参数包括文本串的相关信息，媒体资源处理装置根据所述文本串的相关信息，对所述文本串进行文语转换。

24. 如权利要求 23所述的系统，其特征在于，所述文本串的相关信息为能被正确发音的文本串，媒体资源处理装置接收到所述文本串相关信息后，直接提取该文本串并进行文语转换。

25. 如权利要求 23所述的系统，其特征在于，所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务器上，所述文本串的相关信息为文本串的标识和存储位置信息，媒体资源处理装置接收到所述文本串相关信息后，才据其中的存储位置信息，从本地或者外部服务器读取文本串文件放入緩存，并进行文语转换。

26. 如权利要求 23所述的系统，其特征在于，所述文本串的相关信息包括文本串和录音文件标识的组合，并在录音文件标识前增加关键字表示引入录音文件，媒体资源处理装置接收到该组合后，对文本串进行文语转换，然后将文语转换后输出的语音与录音文件组合语音片断。