WO2007045187A1 - Procede, appareil et systeme pour executer la fonction de conversion texte-parole - Google Patents

Procede, appareil et systeme pour executer la fonction de conversion texte-parole Download PDF

Info

Publication number
WO2007045187A1
WO2007045187A1 PCT/CN2006/002806 CN2006002806W WO2007045187A1 WO 2007045187 A1 WO2007045187 A1 WO 2007045187A1 CN 2006002806 W CN2006002806 W CN 2006002806W WO 2007045187 A1 WO2007045187 A1 WO 2007045187A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
media resource
text string
file
speech
Prior art date
Application number
PCT/CN2006/002806
Other languages
English (en)
French (fr)
Inventor
Cheng Chen
Original Assignee
Huawei Technologies Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co., Ltd. filed Critical Huawei Technologies Co., Ltd.
Priority to EP06805015A priority Critical patent/EP1950737B1/en
Priority to DE602006014578T priority patent/DE602006014578D1/de
Priority to AT06805015T priority patent/ATE469415T1/de
Publication of WO2007045187A1 publication Critical patent/WO2007045187A1/zh
Priority to US12/106,693 priority patent/US20080205279A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/04Details of speech synthesis systems, e.g. synthesiser structure or memory management
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/1066Session management
    • H04L65/1101Session protocols
    • H04L65/1106Call signalling protocols; H.323 and related
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/762Media network packet handling at the source 

Definitions

  • the present invention relates to the field of information processing technologies, and in particular, to a method, device and system for implementing a text-to-speech function. Background technique
  • TTS Text to Speech
  • system such as tape recorders
  • eye tracker implement "let the machine talk” by pre-recording the sound and then playing it back.
  • This approach has significant limitations in terms of content, storage, transmission, or convenience and timeliness.
  • Figure 1 shows a complete schematic diagram of the text-to-speech system.
  • the text-to-speech conversion process first converts the sequence of words into a sequence of phonemes, and the system generates a waveform of speech based on the sequence of phonemes. It involves linguistic processing, such as word segmentation, word conversion, and a set of effective prosody control rules.
  • Second, advanced speech synthesis technology is required to synthesize high-quality voice streams in real time as required. Therefore, in general, the text-to-speech system requires a complex set of text sequences to the phoneme sequence conversion process.
  • Text-to-speech technology TTS is a core voice technology.
  • the text-to-speech technology is used to convert text information into machine-synthesized voice, which provides a convenient and friendly human-computer interaction interface.
  • applications such as telephony and embedded voice the scope and flexibility of the system is increased.
  • the first method is to play a recording directly. For example, when the user fails to call a user, the system will prompt the user that "the user you are calling is not in the service area", and the prompt tone is recorded in advance and stored on the server.
  • the H.248 protocol There are well-established methods in the H.248 protocol.
  • the second method is implemented using the text-to-speech function.
  • the system converts the text "The user you are calling is not in the service area" into a voice output to the user.
  • More personalized prompts can be played according to user needs, such as male, female, and neutral sounds.
  • the second method described above is not defined in the H.248 protocol, and the media resource application environment needs to use the text-to-speech function.
  • Embodiments of the present invention provide a method, apparatus, and system for implementing text-to-speech conversion, so that a media processing system can convert text into voice and provide related voice services to users.
  • a method for implementing a text-to-speech conversion function implemented by extending the H.248 protocol, and the method includes the following steps:
  • the media resource processing device receives the H.248 message that is sent by the media resource control device and carries the text-to-speech indication and related parameters;
  • the media resource processing apparatus performs text-to-speech conversion processing according to parameters in the message, and feeds back the text-to-speech result to the media resource control apparatus.
  • the related parameter includes related information of the text string, and the media resource processing device performs text-to-speech conversion on the text string according to the related information of the text string.
  • the related information of the text string is a text string that can be correctly pronounced.
  • the media resource processing device After receiving the text string related information, the media resource processing device directly extracts the text string and performs text-to-speech conversion.
  • the text string is pre-stored in the form of a file on a media resource processing device or an external server.
  • the related information of the text string is the text string file identifier and the storage location information.
  • the media resource processing device After receiving the related information of the text string, the media resource processing device reads the text string from the local or external server according to the storage location information therein. Put the file into the cache, and transfer the text Change.
  • the related information of the text string is a combination of a text string and text string file information including a text string file identifier and a storage location, the text string file information and the text string are combined into a continuous text string, and added before the text string file identifier
  • the keyword indicates the introduction of the text string file
  • the media resource processing device synthesizes and caches the text string read from the local or external server and the text string carried in the H.248 message, and then performs text-to-speech conversion.
  • the related parameters include:
  • the length parameter of the file cache which sets the length of time that the read file is cached locally.
  • the related information of the text string includes a combination of a text string and a recording file identifier, and a keyword is added before the recording file identifier to indicate that the recording file is introduced.
  • the media resource processing device After receiving the related information of the text string, the media resource processing device performs the text string. The text is converted, and then the speech and the recorded file outputted by the text are combined into a speech segment.
  • the related information of the text string is a combination of text string file information including a text string file identifier and a storage location, and a recording file identifier, and a keyword is added before the recording file identifier to indicate that the recording file is introduced, and the media resource processing device receives the After the information about the text string, the text string is read from the local or external server according to the storage location information, and then the text string is converted into a text, and the text and the sound file are converted after the text is converted. Synthesize speech segments.
  • the H.248 message further carries a related parameter of a speech attribute of the text conversion output, and the related parameters include: a pronunciation language type, a pronunciation gender, a pronunciation age, a pronunciation speed, a pronunciation volume, a pronunciation tone, and a special text.
  • the media resource processing device sets the corresponding attribute for the output voice after receiving the relevant parameter.
  • the media resource processing device feeds back an error code corresponding to the abnormal event to the media resource control device.
  • the media resource control device controls the text language conversion process, including:
  • the control of the text conversion process by the media resource control device comprises: fast forwarding or fast rewinding, the fast forwarding comprises fast forwarding a number of words, sentences or paragraphs, or fast forwarding for several seconds, or fast forwarding to several speech units; Rewinding involves rewinding words, sentences, or paragraphs, or rewinding for a few seconds, or rewinding several speech units.
  • the media resource control device controls the text conversion process to: restart the text conversion, and reset the text conversion parameters according to requirements, including pitch, volume, speed of sound, pronunciation gender, pronunciation age, reread position, pause Position and duration; or, repeat the current sentence, paragraph, or full text.
  • An embodiment of the present invention further provides a media resource processing apparatus, including:
  • An information acquiring unit configured to acquire control information that is sent by the media resource control device and includes a text string to be identified and a control parameter;
  • a text conversion unit configured to convert the text string in the control information into a voice signal; and send, by the sending unit, the voice signal to the media resource control device.
  • the device further comprises:
  • a file obtaining unit configured to acquire a text string file and send the file string to the text conversion unit; and the recording obtaining unit is configured to obtain the recording file;
  • a synthesizing unit configured to synthesize the voice signal output by the text conversion unit and the recording file into a new voice signal, and send the signal to the sending unit.
  • a system for implementing a text-to-speech conversion function includes: a media resource control apparatus, extending an H.248 protocol, and transmitting an H.248 message carrying an indication and related parameters to a media resource processing apparatus, and controlling The media resource processing device performs text conversion;
  • the media resource processing device receives the portable text conversion process sent by the media resource control device Instructing and H.248 messages of related parameters, and performing text-to-speech conversion processing according to the relevant parameters, and feeding back the text-to-speech results to the media resource control device.
  • the media resource processing apparatus includes a text-to-speech unit for converting a text string into a voice signal.
  • the related parameter includes related information of the text string, and the media resource processing device performs text-to-speech conversion on the text string according to the related information of the text string.
  • the related information of the text string is a text string that can be correctly pronounced.
  • the media resource processing device After receiving the text string related information, the media resource processing device directly extracts the text string and performs text-to-speech conversion.
  • the text string is pre-stored in the form of a file on the media resource processing device or the external server.
  • the related information of the text string is the identifier of the text string and the storage location information. After the media resource processing device receives the text string related information, According to the storage location information therein, the text string file is read from the local or external server into the cache, and the language conversion is performed.
  • the related information of the text string includes a combination of a text string and a recording file identifier, and a keyword is added before the recording file identifier to indicate that the recording file is introduced.
  • the media resource processing device After receiving the combination, the media resource processing device performs text conversion on the text string, and then A voice segment is combined with a voice and a recorded file that are converted after the text is converted.
  • the extended packet parameter including the related information of the text string is carried in the H.248 message, and the media resource processing apparatus is instructed and controlled according to the parameter.
  • the text language conversion process is performed, and the text language conversion result is fed back to the media resource control device.
  • the user can provide a business application related to text-to-speech conversion in a mobile or fixed-network media resource application, such as converting the content on the web page into a sound and reading it to the user. At the same time, it only needs to modify the text when modifying, no need to re-record, and can play more personalized prompts according to user needs.
  • FIG. 1 is a schematic diagram of a principle of implementing language conversion in the prior art
  • FIG. 2 is a schematic diagram of a network architecture for processing a media resource service in a WCDMA IP multimedia system of the prior art
  • 3 is a schematic diagram of a network architecture for processing a media resource service in a fixed softswitch network of the prior art
  • 4 is a flowchart of a method for implementing text conversion according to an embodiment of the present invention
  • FIG. 5 is a schematic structural diagram of an apparatus for implementing text-to-speech conversion according to an embodiment of the present invention. detailed description
  • Figure 2 shows the network architecture for processing media resource services in a WCDMA IP Multimedia System (IMS) network.
  • the application server 1 is used to process various services, such as playing, receiving, meeting, recording, and the like.
  • the service call session control device 2 is configured to process the route, correctly forward the message sent by the application server to the media resource control device 3, or correctly route the message sent by the media resource control device 3 to the application server 1.
  • the media resource control device 3 is for controlling media resources, which selects the corresponding media resource processing device 4 and controls the processing of the media resources according to the requirements of the application server 1.
  • the media resource processing device 4 is configured to process the media resource, and under the control of the media resource control device 3, complete the media resource operation process delivered by the application server 1.
  • the interface between the application server 1, the service call session control device 2, and the media resource control device 3 uses the SIP protocol and the XML protocol, or the SIP protocol and an XML-like protocol (such as VXML).
  • the interface adopted between the media resource control device 3 and the media resource processing device 4 is an Mp interface, which uses the H.248 protocol.
  • the external interface of the media resource processing device 4 is an Mb interface, and the RTP protocol is generally used to carry the user media stream.
  • the media resource server (MRS) is equivalent to the functions of the media resource control device 3 and the media resource processing device 4 in the WCDMA IMS network
  • the application server is equivalent to the application server 1 and the service call session control in the WCDMA IMS network.
  • the functions of the device 2, as well as the softswitch device and the application server 1, are substantially the same.
  • the method for implementing text-to-speech conversion by the H.248 protocol according to the present invention can be applied to the WCDMA IMS network shown in FIG. 2 and the media resource processing in the fixed softswitch network shown in FIG. The same can be applied to other networks, such as CDMA networks and fixed IMS networks.
  • the architecture and service flow of the media resource application scenario are basically the same as those of the above WCDMA IMS, and the WCDMA, CDMA circuit softswitch network, its resource application architecture and
  • the business process is basically the same as the fixed softswitch network. That is, the present invention can be applied to all of the media resource devices controlled by the H.248 protocol to implement the text-to-speech function.
  • the method for implementing the text-to-speech conversion function by the H.248 protocol provided by the present invention will be described below by taking an example of application to the WCDMA IMS.
  • FIG. 4 is a flow chart showing the control and processing of media resources by the media resource control device 3 and the media resource processing device 4 in accordance with a specific embodiment of the present invention.
  • Step 1 the media resource control device 3 issues an instruction to perform the text-to-speech conversion to the media resource processing device 4.
  • the media resource control apparatus 3 carries the extended packet parameter in the H.248 message by defining the H.248 protocol extension packet, thereby instructing the media resource processing apparatus 4 to perform the text-to-speech conversion.
  • the H.248 protocol package is defined as follows:
  • Step 1 Carry the text string related information in the parameters of the H.248 message. Can use a variety of the way:
  • the text string is a string that can be correctly pronounced, such as "You are welcome!”
  • the format of the text string is not processed.
  • the functional entity of the H.248 protocol is recognized as a string embedded in the H.248 message.
  • the media resource processing device 4 can directly extract the text string and hand it to the text conversion unit for processing.
  • the text string may be pre-stored on the media resource processing device 4 or an external server.
  • the H.248 message carries the identifier and storage location information of the text string file.
  • the identifier of the text string file can be any string that conforms to the file naming convention.
  • the media resource processing device 4 After receiving the combined execution command of the pronunciation text string and the text string file, the media resource processing device 4 performs pre-processing, reads the text string file from the external server or locally, and connects it with the pronunciation text string carried in the message. A string, put into the cache, and then text conversion processing. (4) Carrying text string and/or text string file information and recording files simultaneously in H.248 message parameters
  • the voice clip After performing a text-to-speech conversion process on a text string or a text string file, the voice clip is synthesized with the recorded file group.
  • the media resource processing device 4 After receiving the combination of the text string and/or the text string file information and the recording file, the media resource processing device 4 performs pre-processing, reads the file from the remote server or locally, puts it into the cache, and performs text-to-speech conversion on the text string. Processing, and combining the text-converted output speech and recording files into a speech segment.
  • step 1 the voice attribute parameter of the text conversion output is further carried in the H.248 message.
  • the parameters that can be carried in connection with the sound are:
  • It can be a child voice, an adult voice, or an old voice
  • the pronunciation speed can be faster or slower than the normal speech rate, expressed as a percentage, -20% means 20% slower than normal.
  • the pronunciation volume can be higher or lower than the normal pitch, expressed as a percentage, -20% means 20% lower than the normal pitch.
  • Pronunciation tones can be higher or lower than normal tones, expressed as a percentage, -20% of the table
  • the display is 20% lower than the normal pitch.
  • the purpose of the pause is to conform to the pronunciation habit.
  • the pause duration is a time value greater than 0.
  • the pause position can have several values: pause after each sentence, or pause after each paragraph.
  • the level of rereading can be three levels: high, medium, and low; the position of rereading can have several values: only reread at the beginning of the full text, reread at the beginning of each sentence, and reread at the beginning of each paragraph.
  • the remote server reads the file cache locally, otherwise it waits until the command is executed to read the file;
  • the text-to-speech conversion can be aborted if the user inputs DTMF or speech during the text-to-speech conversion.
  • Signal including: (1) a signal indicating the playback of the TTS file; (2) a signal indicating the playback of the TTS string; (3) a signal indicating the playback of the TTS string, the TTS file, and the voice segment; (4) indicating the setting of the accent Signals; (5) signals indicating the setting of pauses; and (6) signals indicating special words, which are respectively expressed as follows:
  • Play TTS file (Play TTS File), which is used to indicate the execution of the text conversion function.
  • Signal Name Play TTS File (Play TTS File)
  • TTS file name and storage location Type (Type): String (String) Optional (Optional): No
  • Parameter name Language Type Parameter ID: It (0 ⁇ ??)
  • Parameter name - read-ahead file (Prefetch) parameter identifier pf (0 ⁇ ??)
  • Not available Additional parameters include:
  • TTS string TTS String
  • Not available Additional parameters include:
  • Type - text string Optional: Yes
  • Duration Not available Additional parameters include:
  • Duration Not available Additional parameters include:
  • Step 2 After receiving the instruction from the media resource control device, the media resource processing device confirms the instruction, feeds the confirmation information back to the media resource control device, and performs text-to-speech conversion to play the converted voice to the user.
  • Step 3 the media resource control device 3 instructs the media resource processing device to detect the text conversion result.
  • Step 4 After receiving the indication, the media resource processing device 4 confirms and returns the confirmation information.
  • Step 5 The media resource control device 3 controls the text conversion process, and the control includes:
  • Cancel repeat Cancel the above repeat play
  • Reset the text conversion parameters including the above parameters of pitch, volume, speed of sound, pronunciation gender, pronunciation age, reread position, pause position and duration.
  • the definition in the H.248 protocol package is:
  • TTS Pause is used to indicate the suspension of TTS.
  • TTS Jump Words used to indicate that several words are skipped and then continue.
  • TTS Jump Sentences used to indicate skipping a few sentences.
  • Signal Name TTS Jump sentences
  • Not available Additional parameters include:
  • TTS Jump Seconds used to indicate that skipping a few seconds of speech continues.
  • Duration - Not available Additional parameters include:
  • TTS Jump Voice Unit which is used to indicate that several voice units are skipped and then continue.
  • TTS Restart (TTS Restart) Signal Name: TTS restarts
  • Additional parameters include:
  • Step 6 After receiving the indication, the media resource processing device 4 confirms and returns the confirmation information.
  • Step 7 the media resource processing device 4 feeds back to the media resource control device 3 the event detected during the text-to-speech conversion, such as normal end, timeout, and the like.
  • the events detected during the text-to-speech conversion process include: error code under abnormal conditions, and normal The parameter that describes the result at the end of the conversion.
  • the media resource processing device returns a specific error code to the media resource control device if an abnormality occurs during the execution of the text-to-speech conversion.
  • the specific value of the error code is uniformly defined and allocated by relevant standards, including:
  • TTS Failure TTS Failure
  • the detected event parameters include: I. Parameter Name - Error Return Code Parameter ID: ere (0 ⁇ ??)
  • Event ID ttssuss (0 ⁇ ??)
  • EventDescriptor parameters includes: I.
  • TTS Time TTS Time
  • Step 8 the media resource control device 3 feeds back the confirmation message to the media resource processing device 4, and the text-to-speech conversion ends.
  • a media resource processing apparatus includes an information acquiring unit 10, configured to acquire control information that is sent by a media resource control apparatus and includes a text string to be identified and a control parameter.
  • the text conversion unit 20 is configured to convert the text string in the control information into a voice message transmitting unit 30, and send the voice signal to the media resource control device.
  • the device also includes:
  • a file obtaining unit 40 configured to acquire a text string file and send the file string to the text-to-speech conversion unit
  • the synthesizing unit 60 is configured to synthesize a voice signal output by the text conversion unit and the recording file into a new voice signal, and send the signal to the sending unit.
  • the embodiment of the present invention further provides a system for implementing a text-to-speech conversion function, including: a media resource control apparatus, extending an H.248 protocol, and transmitting an H.248 message carrying an indication and related parameters to a media resource processing apparatus, Controlling the media resource processing device to perform text-to-speech conversion;
  • the media resource processing device receives the H.248 message carrying the text-to-speech processing indication and related parameters sent by the media resource control device, and performs text-to-speech conversion processing according to the relevant parameters, and feeds the text-to-speech conversion result to the media resource control device.
  • the media resource processing apparatus includes a text-to-speech unit for converting a text string into a voice signal.
  • the related parameter includes related information of the text string, and the media resource processing device performs text-to-speech conversion on the text string according to the related information of the text string.
  • the related information of the text string is a text string that can be correctly pronounced.
  • the media resource processing device After receiving the text string related information, the media resource processing device directly extracts the text string and performs text-to-speech conversion.
  • the text string is pre-stored in a file form in a media resource processing device or an external service
  • the related information of the text string is the identifier of the text string and the storage location information.
  • the media resource processing device After receiving the text string related information, the media resource processing device reads the text string from the local or external server according to the storage location information therein. The file is placed in the cache and the text is converted.
  • the related information of the text string includes a combination of a text string and a recording file identifier, and a keyword is added before the recording file identifier to indicate that the recording file is introduced.
  • the media resource processing device After receiving the combination, the media resource processing device performs text conversion on the text string, and then A voice segment is combined with a voice and a recorded file that are converted after the text is converted.
  • the user can provide a business application related to text-to-speech conversion in a mobile or fixed-network media resource application, such as converting the content on the webpage into a sound and reading it to the user.
  • a business application related to text-to-speech conversion in a mobile or fixed-network media resource application, such as converting the content on the webpage into a sound and reading it to the user.
  • only the text needs to be modified during the modification, no re-recording is required, and a more personalized tone can be played according to the user's needs.
  • the media resource control device 3 can simultaneously issue the instructions in the above steps 1 and 3 to the media resource processing device 4, and the media resource processing device 4 can simultaneously perform the operations in steps 2 and 4.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Business, Economics & Management (AREA)
  • Telephonic Communication Services (AREA)
  • Machine Translation (AREA)
  • Communication Control (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Document Processing Apparatus (AREA)

Description

一种实现文语转换功能的方法、 装置及系统 本申请要求于 2005 年 10 月 21 日提交中国专利局、 申请号为 200510114277.8、 发明名称为 "一种实现文语转换功能的方法"的中国专 利申请的优先权, 其全部内容通过引用结合在本申请中。 技术领域
本发明涉及信息处理技术领域,特别涉及实现文语转换功能的方法、 装置及系统。 背景技术
文语转换(TTS, Text to Speech )技术, 即将书面语言转换成语音 的技术, 涉及声学、 语言学、 数字信号处理、 计算机科学等相关技术, 解决的主要问题就是如何将文字信息转化为可听的声音信息, 与传统的 声音回放技术有着本质的区别。传统的声音回放设备(系统), 如磁带录 音机, 是通过预先录制声音然后回放来实现 "让机器说话" 的。 这种方 式无论是在内容、 存储、 传输或者方便性、 及时性等方面都存在很大的 限制。 而通过计算机文语转换则可以在任何时候将任意文本转换成具有 高自然度的语音, 从而真正实现让机器 "像人一样开口说话" 。
文语转换系统为了合成出高质量的语言, 除了依赖于各种规则, 包 括语义学规则、 词汇规则、 语音学规则外, 还必须对文字的内容有很好 的理解, 这也涉及到自然语言理解的问题。 图 1显示了一个完整的文语 转换系统示意图。 文语转换过程是先将文字序列转换成音韵序列, 再由 系统根据音韵序列生成语音波形。 其中涉及语言学处理, 例如分词、 字 音转换等, 以及一整套有效的韵律控制规则; 其次, 需要先进的语音合 成技术, 能按要求实时合成出高质量的语音流。 因此, 一般说来, 文语 转换系统都需要一套复杂的文字序列到音素序列的转换处理程序。
文语转换技术 TTS是一项核心的语音技术。采用文语转换技术将文 本信息转换成机器合成的语音, 可提供方便的、 友好的人机交互接口。 在电话和嵌入式语音等应用系统中, 增加了系统的适用范围和灵活性。
现有网络系统中, 应用服务器在向用户放音时, 通常有两种方法: 第一种方法是直接播放一个录音。 如当用户呼叫一个用户失败时 , 系统会向用户提示 "你呼叫的用户不在服务区",这段提示音是提前录制 并存储在服务器上的。 在 H.248协议中已有完善的方法。
第二种方法是用文语转换功能来实现。 当用户呼叫失败时, 系统把 "你呼叫的用户不在服务区" 这句文本转换成语音输出给用户。
使用文语转换, 其优点是:
修改方便, 在修改时只需修改文本, 不需要重新录音;
可以根据用户需求播放更个性化的提示音, 如分別用男声、 女声、 中性声音播放。
上述的第二种方法在 H.248协议中没有定义, 而媒体资源应用环境 需要使用文语转换功能。
发明内容
本发明实施例提供一种实现文语转换的方法、 装置及系统, 以使媒 体处理系统可将文本转换为语音, 为用户提供相关语音服务。
本发明实施例提供的一种实现文语转换功能的方法, 通过对 H.248 协议的扩展实现文语转换, 该方法包括以下步骤:
媒体资源处理装置接收媒体资源控制装置发送的携带包含文语转换 指示的及相关参数的 H.248消息;
媒体资源处理装置根据所述消息中的参数进行文语转换处理, 并将 文语转换结果反馈媒体资源控制装置。
所述相关参数包括文本串的相关信息, 媒体资源处理装置根据所述 文本串的相关信息, 对所述文本串进行文语转换。
所述文本串的相关信息为能被正确发音的文本串, 媒体资源处理装 置接收到所述文本串相关信息后, 直接提取该文本串并进行文语转换。
更适宜地, 所述文本串以文件形式预先存储在媒体资源处理装置或 者外部服务器上。
所述文本串的相关信息为所述文本串文件标识和存储位置信息, 媒 体资源处理装置接收到所述文本串的相关信息后 , 根据其中的存储位置 信息, 从本地或者外部服务器读取文本串文件放入緩存, 并进行文语转 换。
所述文本串的相关信息为文本串和包括文本串文件标识及存储位置 的文本串文件信息的组合, 所述文本串文件信息和文本串组合成连续文 本串, 并在文本串文件标识前增加关键字表示引入文本串文件;
更适宜地, 媒体资源处理装置接收到所述文本串文件信息后, 将从 本地或者外部服务器读取的文本串与 H.248消息中携带的文本串进行合 成并緩存, 然后进行文语转换。
所述相关参数包括:
指示读取文本串文件的参数, 在接收到指示预读取文件的命令后, 从远程服务器读取相应文件并缓存在本地, 否则等到命令执行时再读取 文件; 和 /或
文件緩存的时长参数,设置所述读取的文件在本地緩存的时间长度。 所述文本串的相关信息包括文本串和录音文件标识的组合, 并在录 音文件标识前增加关键字表示引入录音文件, 媒体资源处理装置接收到 所述文本串的相关信息后, 对文本串进行文语转换, 然后将文语转换后 输出的语音与录音文件组合成语音片断。
所述文本串的相关信息为包括文本串文件标识及存储位置的文本串 文件信息和录音文件标识的组合 , 并在所述录音文件标识前增加关键字 表示引入录音文件,媒体资源处理装置接收到所述文本串的相关信息后, 根据存储位置信息从本地或者外部服务器读取文本串放入緩存, 然后对 读取的文本串进行文语转换, 并将文语转换后输出的语音与录音文件组 合成语音片断。
优选地, 所述 H.248消息中还携带有文语转换输出的语音属性的相 关参数, 该相关参数包括: 发音语言种类、 发音性别、 发音年龄、 发音 速度、 发音音量、 发音音调、 特殊文字的发音方式、 停顿、 重读、 或者 在用户输入时是否中止文语转换 , 媒体资源处理装置接收到该相关参数 后为输出的语音设置相应的属性。
更适宜地, 在检测到异常事件时, 媒体资源处理装置将表示异常事 件相应的错误码反馈给媒体资源控制装置。 媒体资源处理装置进行文语转换过程中, 媒体资源控制装置对文语 转换过程进行控制, 包括:
暂时停止对用户播放文语转换后的语音; 和 /或
从上述暂停状态恢复到播放状态的步骤; 和 /或
文语转换结束后, 用户中止相关操作。
优选地, 媒体资源控制装置对文语转换过程的控制包括使播放快进 或者快退, 该快进包括快进若干字、 句子或者段落, 或者快进若干秒, 或者快进若干语音单位; 该快退包括快退若干字、 句子或者段落, 或者 快退若干秒, 或者快退若干语音单位。
更适宜地, 媒体资源控制装置对文语转换过程的控制包括: 重新开始文语转换, 并根据要求重新设置文语转换参数, 包括音调、 音量、 音速、 发音性别、 发音年龄、 重读位置、 停顿位置和时长; 或, 重复播放当前句、 段落或者全文。
进一步包括取消对所述当前句、 段落或者全文的重复播放。
本发明的实施例还提供一种媒体资源处理装置, 包括:
信息获取单元, 用于获取媒体资源控制装置发送的包括待识别的文 本串和控制参数的控制信息;
文语转换单元, 用于将所述控制信息中的文本串转换成语音信号; 发送单元, 发送所述的语音信号给媒体资源控制装置。
优选地, 该装置还包括:
文件获取单元, 用于获取文本串文件并发送给文语转换单元; 录音获取单元, 用于获取录音文件;
合成单元, 用于将文语转换单元输出的语音信号和所述录音文件合 成新的语音信号, 发送给所述发送单元。
本发明的实施例提供的一种实现文语转换功能的系统, 包括: 媒体资源控制装置, 对 H.248协议进行扩展, 发送携带指示及相关 参数的 H.248消息给媒体资源处理装置, 控制媒体资源处理装置执行文 语转换;
媒体资源处理装置接收媒体资源控制装置发送的携带文语转换处理 指示及相关参数的 H. 248消息,并根据所述相关参数进行文语转换处理, 并将文语转换结果反馈媒体资源控制装置。
所述媒体资源处理装置包括文语转换单元, 用于将文本串转换成语 音信号。
所述相关参数包括文本串的相关信息, 媒体资源处理装置根据所述 文本串的相关信息, 对所述文本串进行文语转换。
所述文本串的相关信息为能被正确发音的文本串, 媒体资源处理装 置接收到所述文本串相关信息后, 直接提取该文本串并进行文语转换。
所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务 器上, 所述文本串的相关信息为文本串的标识和存储位置信息, 媒体资 源处理装置接收到所述文本串相关信息后 , 根据其中的存储位置信息, 从本地或者外部服务器读取文本串文件放入缓存 , 并进行文语转换。
所述文本串的相关信息包括文本串和录音文件标识的组合, 并在录 音文件标识前增加关键字表示引入录音文件, 媒体资源处理装置接收到 该組合后, 对文本串进行文语转换, 然后将文语转换后输出的语音与录 音文件组合语音片断。
综上所述, 本发明实施例中, 通过对 H. 248协议的扩展, 在 H. 248 消息中携带包括文本串的相关信息的扩展包参数, 指示并控制媒体资源 处理装置根据所述参数进行文语转换处理, 并将文语转换结果反馈媒体 资源控制装置。 通过本发明提供的方法, 可以在移动或者固网的媒体资 源应用中, 给用户提供文语转换相关的业务应用, 如把网页上的内容转 成声音读给用户听。 同时, 在修改时只需修改文本, 不需要重新录音, 并且可以根据用户需求播放更个性化的提示音。 附图说明
图 1为现有技术的文语转换实现原理示意图;
图 2为现有技术的 WCDMA IP多媒体系统中处理媒体资源业务的网 络架构示意图;
图 3为现有技术的固定软交换网络中处理媒体资源业务的网络架构 示意图; 图 4为本发明实施例的实现文语转换的方法的流程图;
图 5为本发明实施例提供的实现文语转换的装置架构图。 具体实施方式
图 2为 WCDMA IP多媒体系统(IMS, IP Multimedia Subsystem ) 网络中, 处理媒体资源业务的网络架构。 其中, 应用服务器 1用于处理 各种业务, 例如对用户放音、 收号、 会议、 录音等。 业务呼叫会话控制 装置 2用于处理路由, 将应用服务器发出的消息正确地转发给媒体资源 控制装置 3, 或者将媒体资源控制装置 3发出的消息正确地路由到应用 服务器 1。媒体资源控制装置 3用于控制媒体资源,其根据应用服务器 1 的要求, 选择相应的媒体资源处理装置 4并控制媒体资源的处理。 媒体 资源处理装置 4用于媒体资源的处理,在媒体资源控制装置 3的控制下, 完成应用服务器 1下发的媒体资源操作处理。
其中, 应用服务器 1、 业务呼叫会话控制装置 2、 以及媒体资源控制 装置 3之间采用的接口使用 SIP协议和 XML协议, 或者是 SIP协议和 类似 XML的协议(例如 VXML )。媒体资源控制装置 3和媒体资源处理 装置 4之间采用的接口为 Mp接口, 使用 H.248协议。 媒体资源处理装 置 4的对外接口为 Mb接口, 一般釆用 RTP协议承载用户媒体流。
图 3为现有技术的在固定软交换网络中处理媒体资源业务的网络架 构。其中,媒体资源服务器( MRS, Media Resource Server )相当于 WCDMA IMS网络中的媒体资源控制装置 3和媒体资源处理装置 4的功能, 应用 服务器相当于 WCDMA IMS网络中的应用服务器 1和业务呼叫会话控制 装置 2的功能, 以及软交换装置和应用服务器 1功能大致相同。
根据本发明通过 H.248协议实现文语转换的方法可以应用于图 2所 示的 WCDMA IMS网络、以及图 3所示的固定软交换网络中的媒体资源 处理。 同样也可以应用于其它网络, 如 CDMA网络和固定 IMS网络, 其媒体资源应用场景的架构和业务流程和上述 WCDMA IMS 的基本相 同, 以及 WCDMA、 CDMA电路软交换网络, 其某体资源应用架构和业 务流程和固定软交换网络基本相同。 也就是, 本发明可以应用于所有通 过 H.248协议控制媒体资源装置以实现文语转换功能。 以下将以应用于 WCDMA IMS为例,结合附图说明本发明所提供的 通过 H.248协议实现文语转换功能的方法。
这里, 由于本发明实施例只涉及图 2所示媒体资源控制装置 3和媒 体资源处理装置 4之间的处理过程,而其他过程同现有 WCDMAIMS网 络中的处理过程相同, 因此, 为了简化而只对媒体资源控制装置 3和媒 体资源处理装置 4之间的处理过程进行描述。
如图 4所示为根据本发明的具体实施例中媒体资源控制装置 3和媒 体资源处理装置 4进行媒体资源的控制和处理的流程图。
步骤 1, 媒体资源控制装置 3向媒体资源处理装置 4发出进行文语 转换的指示。
具体地,媒体资源控制装置 3通过定义 H.248协议扩展包,在 H.248 消息中携带扩展包参数, 从而指示媒体资源处理装置 4执行文语转换。 H.248协议包定义如下:
Figure imgf000009_0001
1. 特性 ( Properties ):
2. 事件(Events ):
参照在后续 "事件" 部分中的定义。
3、 信号 (Signals )
参照后续在 "信号" 部分的定义。
4. 统计信息 (Statistics )
5. 处理 ( Procedure )
对应后续将要描述的流程。
步骤 1 , 在 H.248消息的参数中携带文本串相关信息。 可采用多种 方式:
( 1 )在 H.248消息的参数中携带文本串:
文本串是一个能被正确发音的字符串, 如 "You are welcome!" 该文本串的格式不被处理 H.248协议的功能实体识别, 只是作为一 个串嵌入在 H.248消息中。 媒体资源处理装置 4接收到此参数后, 可以 直接提取文本串交给文语转换单元处理。
( 2 )在 H.248消息参数中携带文本串文件标识和存储位置信息 文本串可以预先存储在媒体资源处理装置 4或者外部服务器上,
H.248消息中携带该文本串文件的标识和存储位置信息。
文本串文件的标识可以是符合文件命名规范的任意字符串。
文本串文件的存储位置信息有三种形式:
I. 本地可直接存耳又的文件, 如 welcome.txt;
II. 通过 file:〃方式存取的文件, 如 file ://huawei/welcome.txt;
III. 通过 http:〃方式存耳又的文件, 如 http:〃huawei/welcome.txt; 媒体资源处理装置接收到此参数后, 根据文本串文件的存放位置, 先从远端服务器或者本地存储中读取文本串文件, 放入缓存, 再由文语 转换单元进行文语转换处理。
( 3 )在 H.248消息参数中同时携带文本串和文本串文件,文本串和 文件组合执行
将文本串文件信息 (包括文本串文件标识和文本串文件的存储位置 信息)和文本串组合成一个连续文本串, 在文本串文件标识前面增加特 殊的关键字, 表示引入一个发音文本串文件, 而不是直接转换这个文件 名, 如:
<importtextfile http ://huawei/welcome.txt>
Do you want to play a game?
媒体资源处理装置 4接收到发音文本串和文本串文件的组合执行命 令后, 先进行预处理, 从外部服务器或者在本地读取文本串文件, 并将 其和消息中携带的发音文本串连接成为一个串, 放入緩存, 再进行文语 转换处理。 ( 4 )在 H.248 消息参数中同时携带文本串和 /或文本串文件信息以 及录音文件
对一个文本串或者文本串文件做文语转换处理后, 再和录音文件组 合成语音片段。
在录音文件标识前面增加特殊的关键字, 表示引入一个录音文件, 而不是直接转换这个文件名, 如:
<importaudiofile http ://huawei/welcome.g711 >
Do you want to play a game?
媒体资源处理装置 4接收到文本串和 /或文本串文件信息和录音文件 的组合后, 先进行预处理, 从远端服务器或者本地读取文件, 放入緩存; 再对文本串进行文语转换处理, 并将文语转换后的输出语音和录音文件 组合成一个语音片段。
另外, 在步驟 1中, 进一步在 H.248消息中携带文语转换输出的语 音属性参数。 在指示媒体资源处理装置执行文语转换时, 可携带的与发 音有关的参数有:
( 1 )发音语言种类
可以使用不同的语言种类, 遵从 RFC3066的定义。
( 2 )发音性别
可以是男声、 女声或者中性声音;
( 3 )发音年龄
可以是孩童声音、 成年人声音、 或者老年声音;
( 4 )发音速度
发音速度可以比正常语速更快或者更慢, 用百分比表示, -20%表 示比正常速度慢 20 %。
( 5 )发音音量
发音音量可以比正常音调更高或者更低, 用百分比表示, -20%表 示比正常音调低 20 %。
( 6 )发音音调
发音音调可以比正常音调更高或者更低, 用百分比表示, -20%表 示比正常音调低 20%。
(7)特殊文字的发音方式
对文本串中的特殊字规定发音方式。如 "2005/10/01"的发音为 "2005 年 10月 1 曰"。
(8)是否停顿和停顿时长、 停顿位置
停顿的目的是为了符合发音习惯,停顿时长是大于 0的一个时间值, 停顿位置可以有几种取值: 在每读完一句话后停顿, 或者在每读完一段 话后停顿。
(9)是否重读和重读级别、 重读的位置
重读级别可以是高、 中、低三个级别; 重读的位置可以有几种取值: 只在全文开始时重读, 每句话的开始都重读, 每段话的开始都重读等。
( 10)是否预读取文本串文件
若指示预读取文件, 则在接收到命令后, 就到远程服务器读取文件 緩存在本地, 否则等到命令执行时再读取文件;
(11)文件緩存的时长
文件读取到本地后, 緩存多长时间后失效。
( 12) 是否在用户输入双音多频 ( DTMF, Dual Tone Multiple Frequency )信号或者语音时, 中止文语转换。
在文语转换和自动语音 /DTMF识别同时进行时,文语转换过程中若 用户输入 DTMF或者语音时, 文语转换可以中止。
具体地, 在 H.248协议包中定义了:
信号(Signal), 包括: (1)指示播放 TTS文件的信号; (2)指示播 放 TTS 串的信号; (3)指示播放 TTS串、 TTS文件以及语音片断的信 号; (4)指示设置重音的信号; (5)指示设置停顿的信号; 以及(6)指 示特殊字词的信号, 这些信号分别表示如下:
( 1 )播放 TTS文件 ( Play TTS File ), 用于指示执行文语转换功能。 信号名 (Signal Name): 播放 TTS文件 (Play TTS File)
信号标识 (SignallD): ptf (0χ??)
说明 (Description): 对文本串文件执行 TTS功能 信号类型 (SignalType): BR
时长 (Duration): 不可用 (Not Applicable) 其附加参数 ( Additional Parameter ) 包括:
I.
参数名 (Parameter Name): TTS文件
参数标识 (Parameter ID): tf (0χ??)
说明: TTS文件名和存储位置 类型 (Type): 字符串 (String) 是否可选 (Optional): 否
可能取值 ( Possible Value ): 合法的文件标识和存储格式 默认值 (Default): 无
II.
参数名: 语言类型 (Language Type) 参数标识: It (0χ??)
说明- 语言类型
类型- 字符串
是否可选: 否
可能值: 遵从 RFC3066协议 默认值- 无
III.
Figure imgf000013_0001
IV. 参数名: 年齢 (Age)
参数标识: ag (0χ??)
说明: 发音年龄
类型: 字符串
是否可选: 否
可能值: 孩子, 成人, 老人 默认值- 无
V.
参数名: 速度 (Speed)
参数标识-. sp (0χ??)
说明- 发音速度
类型: 整数
是否可选: 是
可能值: 从 -100%到 100%之间的值 默认值: 无
VI.
参数名: 音量 (Volume) 参数标识: νο (0χ??)
立立兽
说明- 及曰 曰虽
类型- 整数
是否可选- 是
可能值-― 从 -100%到 100%之间的值 默认值- 无
VII.
参数名: 音调 (Tone)
参数标识: to (0χ??)
说明: 发音音调
类型: 是否可选: 是
可能值: 从 -100%到 100%之间的值 默认值- 无
VIII.
参数名- 预读文件 (Prefetch) 参数标识= pf (0χ??)
说明: 预读取文本串文件 类型- enum
是否可选: 是
可能值: 是, 否
默认值: 是
IX.
参数名: 缓存时间 (Cache Time) 参数标识: ct (0χ??)
说明: 文件缓存时长
类型: 整数
是否可选- 是
可能值- 大于 0秒
默认值: 无
X.
Figure imgf000015_0001
XI. 参数名: voice barge in
参数标识: vbi (0χ??)
说明- 在用户输入者语音时, 中止文语转换 类型: 整数
是否可选- 是
可能值- 大于 0秒
默认值- 无
( 2 )播放 TTS串 (Play TTS String ), 用于指示对文本串执行 Τ' 。 信号名称- 播放 TTS串
信号标识: pts (0χ??)
说明: 指示对文本串执行 TTS功能
信号类型: BR
时长: 不可用 其附加参数包括:
I.
参数名: TTS串 (TTS String)
参数标识: ts (0χ??)
说明: 可进行发音的文本串
类型- 字符串
是否可选: 否
可能值- 可进行发音的文本串
默认值: 无 其它参数和 "播放 TTS文件"信号的 II、 III、 IV、 V、 VI、 VII、 X、 相同。
( 3 )播放 TTS串、 TTS文件以及语音片断
信号名称- 播放组合 (Play union) 信号标识- 说明- 播放 TTS串、 TTS文件、 语音片段文件的组合 信号类型- BR
时长: 不可用 其附加参数包括:
I.
参数名: TTS和语音片断
参数标识: ta (0χ??)
o
说明- 播放 TTSo■串、 TTS文件、 语音片段文件的组合
1 -—
类型: 字符串 o 是否可选: No
可能值- 播放 TTS串、 TTS文件、 语音片段文件的组合 默认值: 无 其它参数和 "播放 TTS 文件" 信号的 II、 III、 IV、 V、 VI、 VII、 VIII 、 IX 、 X、 XI相同。
( 4 )设置重音( Set Accentuation ), 用于指示 TTS的重读级别和位 置。
Figure imgf000017_0001
其附加参数包括:
I.
参数名- 重读位置 (Accentuation Position)
参数标识:
说明: 重读位置
类型- 文本串 是否可选: 是
可能值: 开始位置, 句子开头, 段落开头
默认值: 无
II.
参数名: 重读级另 'J (Accentuation Grade)
参数标识: ag (0χ??)
说明: 重读级别
类型- 字符串
是否可选: 是
可能值: 高, 中, 低
默认值: 无
( 5 )设置停顿 ( Set Break ), 用于指示 TTS的停顿位置和时长。 信号名称- 设置停顿 (Set Break)
信号标识: sb (0χ??)
说明: 指示 TTS的停顿位置和时长
类型信号- BR
时长 不可用 其附加参数包括:
I.
参数名: 停顿位置 (Break Position)
参数标识: bp (0χ??) - 说明- 停顿位置
类型: 字符串
是否可选: 否
可能值- 句子的结尾, 段落的结尾
默认值- 无
II. 参数名- 停顿时长 (Break Time) 参数标识- bt (0χ??)
说明- 停顿时长
类型- 整数
是否可选: 是
可能值: 大于 0毫秒
默认值- 无
( 6 ) 特殊字词( Special Words ), 用于指示 TTS对特殊字词的发- fe。 信号名称 (Signal Name): 特殊字词
信号标识 (SignallD).- sw (0χ??)
说明- 指示 TTS对特殊字词的发音方法
类型信号- BR
时长 不可用 其附加参数包括:
I.
参数名- 目标字词 ( Destination Words )
参数标识: dw (0χ??)
说明: 文本串中的原始字词
类型- 字符串
是否可选: ― 是 - 可能值- 任何
默认值: 无
II.
参数名: 取代发音(Say As)
参数标识- sa (0χ??)
说明- 取代的发音方法 类型: 字符串
是否可选: 是
可能值- 任何
默认值: 无 步骤 2, 媒体资源处理装置在接收到媒体资源控制装置的指示后, 确认该指示, 将确认信息反馈媒体资源控制装置, 并进行文语转换, 向 用户播放转换后的语音。
步骤 3, 媒体资源控制装置 3指示媒体资源处理装置检测文语转换 结果。
步骤 4, 媒体资源处理装置 4在接收到该指示之后, 确认并返回确 认信息。
步骤 5, 媒体资源控制装置 3对文语转换过程进行控制, 该控制包 括:
暂停: 暂时停止对用户播放转换后的语音;
恢复: 恢复以上暂停状态到播放状态;
快进和快进到的位置, 有多种指示方法:
( 1 )快进若干个字;
(2)快进到后面某一句的开始;
(3)快进到后面某一段开始;
(4)快进若干秒;
( 5 )快进若干语音单位(语音单位由实现自定义, 如 10s )。 快退和快退的位置, 有多种指示方法:
(1 ) 快退若干个字;
(2) 快退到前面某一句开始;
(3)快退到前面某一段开始;
( 4 )快退若干秒;
(5)快退若干语音单位(语音单位由实现自定义, 如 10s)。 重新开始文语转换;
文语转换结束: 用户中止 重复和重复的范围, 有多种指示方法-.
(1)重复当前句;
(2)重复当前段;
(3) 重复全文;
取消重复: 取消上述的重复播放;
重新设置文语转换参数, 包括上述的音调、 音量、 音速、发音性别、 发音年龄、 重读位置、 停顿位置和时长等参数。
具体地, 在 H.248协议包中的定义为:
信号: 包括 TTS暂停、
( 1 ) TTS暂停 ( TTS Pause ), 用于指示暂停 TTS。
Figure imgf000021_0001
附加参数: 无
(3) TTS跳过字词 ( TTS Jump Words ), 用于指示跳过几个字后继 续进行。
信号名称- TTS跳过字词
信号标识: tjw (Ox??)
说明: 指示跳到某一个位置继续进行 类型信号- BR
时长: 不可用
附加参数:
I.
参数名- 跳过多少 (Jump Size)
参数标识: js (0χ??)
说明- 跳过的字个数, 正表示向后, 负表示向前 类型: 整数
是否可选- 否
可能值: 任何
默认值: 无
( 4 ) TTS跳过句子( TTS Jump Sentences ), 用于指示跳过几个句 续进行。 信号名称: TTS jump sentences
信号标识- tjs (0χ??)
说明: 指示跳过几个句子后继续进行
类型信号- BR
时长: 不可用 附加参数包括:
I.
参数名: 跳过多少
参数标识: js (0χ??)
说明- 跳转的句子个数, 正表示向后, 负表示向前 类型: 整数
是否可选: 否
可能值: 任何
默认值: 无 ( 5 ) TTS跳过段落( TTS Jump Paragraphs ), 用于指示跳过几个段 落后继续进行。
O •
Figure imgf000023_0001
( 6 ) TTS跳过秒数 ( TTS Jump Seconds ), 用于指示跳过几秒的语 音后继续进行。 信号名称: TTS跳过秒数
信号标识: tjs (0χ??)
说明- 指示跳过几秒语音后继续进行
类型信号- BR
时长- 不可用 附加参数包括:
I.
参数名: 跳过多少
参数标识:
说明: 跳转的秒数, 正表示向后, 负表示向前 类型: 整数
是否可选: 否
可能值- 任何
默认值: 无
( 7 ) TTS跳过语音单元( TTS Jump Voice Unit ), 用于指示跳过几 个语音单元后继续进行。
Figure imgf000024_0001
参数名: 跳过多少
参数标识: js (0χ??)
说明- 跳转的语音单元数, 正表示向后, 负表示向前 类型: 整数
是否可选: 否
可能值: 任何
默认值: 无
( 8 ) TTS重新开始 ( TTS Restart ) 信号名称: TTS重新开始
信号标识- tr (0χ??)
说明- TTS重新开始
类型信号- BR
时长- 不可用
附加参数: 无 TTS结束(TTS End )
Figure imgf000025_0001
附加参数: 无
( 10 ) TTS重复( TTS Repeat ), 指示重复进行 TTS的某一段文字,
Figure imgf000025_0002
附加参数包括:
I.
Figure imgf000025_0003
步骤 6, 媒体资源处理装置 4在接收到该指示之后, 确认并返回确 认信息。
步驟 7, 媒体资源处理装置 4将在文语转换过程中检测到的事件如 正常结束, 超时等反馈给媒体资源控制装置 3。
文语转换过程检测到的事件包括: 异常情况下的错误码、 以及正常 转换结束时描述结果的参数。
文语转换功能执行的错误码
媒体资源处理装置在执行文语转换过程中, 若产生异常, 要向媒体 资源控制装置返回具体的错误码。错误码的具体值由相关标准统一定义、 分配, 内容包括:
(1) 不能识别的单词或者字;
(2) 不能发音的字;
(3) 文本串文件不存在;
(4)文本串文件读取错误;
(5) 参数不支持或者错误;
(6)对文语转换的控制不支持或者错误;
( 7 )媒体资源处理装置硬件错误;
( 8 )媒体资源处理装置软件错误; .
(9)其它错误。
文语转换正常结束后返回的描述结果的参数
文语转换正常结束时, 可以返回以下信息:
( 1 )文语转换过程正常结束;
(2) 用户输入触发文语转换中止: 用户输入中止键, 用户输入
DTMF, 用户输入语音。
(3)统计信息: 向用户播放的文语转换语音时长。
具体如下:
事件:
( 1 ) TTS执行失败 ( TTS Failure )
Figure imgf000026_0001
检测到的事件参数 ( ObservedEventDescriptor parameters ) 包括: I. 参数名- 错误返回码 (Error Return Code) 参数标识: ere (0χ??)
说明: 错误码参数
参数类型: 整数
是否可选: 否
可能值: 以上方案定义的错误码
默认值- 无
( 2 ) TTS执行完成( TTS Success )
事件名称: TTS执行完成
事件标识: ttssuss (0χ??)
说明: 文语转换执行完成, 返回结果 事件说明参数: 无 检'《¾ f)J ]事件参数 ( ObservedEventDescriptor parameters ) 包括: I.
参数名: 结束原因 (End Cause)
参数标识: ec (0χ??)
说明- 触发文语转换结束的原因
类型- 整数
是否可选: 是
可能值- 转换完成, 用户输入 DTMF、 用户输入语音 默认值: 无
II.
参数名: TTS时间 (TTS Time)
参数标识: tt (0χ??)
说明: 执行文语转换的时长
类型- 整数
是否可选: 是
可能值: 大于 0秒
Figure imgf000028_0001
步骤 8,媒体资源控制装置 3将确认消息反馈给媒体资源处理装置 4, 文语转换结束。
参照图 5 , 本发明的实施例提供的一种媒体资源处理装置, 包括 信息获取单元 10, 用于获取媒体资源控制装置发送的包括待识别的 文本串和控制参数的控制信息;
文语转换单元 20, 用于将所述控制信息中的文本串转换成语音信 发送单元 30, 发送所述的语音信号给媒体资源控制装置。
该装置还包括:
文件获取单元 40, 用于获取文本串文件并发送给文语转换单元; 录音获取单元 50 , 用于获取录音文件;
合成单元 60, 用于将文语转换单元输出的语音信号和所述录音文件 合成新的语音信号, 发送给所述发送单元。
另外, 本发明实施例还提供一种实现文语转换功能的系统, 包括: 媒体资源控制装置, 对 H.248协议进行扩展, 发送携带指示及相关 参数的 H.248消息给媒体资源处理装置, 控制媒体资源处理装置执行文 语转换;
媒体资源处理装置接收媒体资源控制装置发送的携带文语转换处理 指示及相关参数的 H. 248消息,并根据所述相关参数进行文语转换处理, 并将文语转换结果反馈媒体资源控制装置。
所述媒体资源处理装置包括文语转换单元, 用于将文本串转换成语 音信号。
所述相关参数包括文本串的相关信息, 媒体资源处理装置根据所述 文本串的相关信息, 对所述文本串进行文语转换。
所述文本串的相关信息为能被正确发音的文本串, 媒体资源处理装 置接收到所述文本串相关信息后 , 直接提取该文本串并进行文语转换。
所述文本串以文件形式预先存储在媒体资源处理装置或者外部服务 器上, 所述文本串的相关信息为文本串的标识和存储位置信息, 媒体资 源处理装置接收到所述文本串相关信息后, 根据其中的存储位置信息, 从本地或者外部服务器读取文本串文件放入緩存, 并进行文语转换。
所述文本串的相关信息包括文本串和录音文件标识的组合, 并在录 音文件标识前增加关键字表示引入录音文件, 媒体资源处理装置接收到 该组合后, 对文本串进行文语转换, 然后将文语转换后输出的语音与录 音文件组合语音片断。
通过本发明提供的方法, 可以在移动或者固网的媒体资源应用中, 给用户提供文语转换相关的业务应用, 如把网页上的内容转成声音读给 用户听。 同时, 在修改时只需修改文本, 不需要重新录音, 并且可以根 据用户需求播放更个性化的提示音。
可以理解的是, 本发明并不限于上述的实施例, 本领域的技术人员 可以在理解本发明的基础上进行相应的变更或者修饰。 例如, 媒体资源 控制装置 3可以同时向媒体资源处理装置 4发出上述步骤 1和步骤 3中 的指示, 并且媒体资源处理装置 4可以同时执行步骤 2和步骤 4中的操 作。

Claims

权 利 要 求
1. 一种实现文语转换功能的方法, 其特征在于, 通过对 H.248协议 的扩展实现文语转换, 该方法包括以下步骤:
媒体资源处理装置接收媒体资源控制装置发送的携带包含文语转换 指示的及相关参数的 H.248消息;
媒体资源处理装置根据所述消息中的参数进行文语转换处理, 并将 文语转换结果反馈媒体资源控制装置。
2. 如权利要求 1所述的方法, 其特征在于, 所述相关参数包括文本 串的相关信息, 媒体资源处理装置根据所述文本串的相关信息, 对所述 文本串进行文语转换。
3. 如权利要求 2所述的方法, 其特征在于, 所述文本串的相关信息 为能被正确发音的文本串, 媒体资源处理装置接收到所述文本串相关信 息后, 直接提取该文本串并进行文语转换。
,
4. 如权利要求 2所述的方法, 其特征在于, 所述文本串以文件形式 预先存储在媒体资源处理装置或者外部服务器上。
5. 如权利要求 4所述的方法, 其特征在于, 所述文本串的相关信息 为所述文本串文件标识和存储位置信息, 媒体资源处理装置接收到所述 文本串的相关信息后, 根据其中的存储位置信息, 从本地或者外部服务 器读取文本串文件放入緩存, 并进行文语转换。
6. 如权利要求 4所述的方法, 其特征在于, 所述文本串的相关信息 为文本串和包括文本串文件标识及存储位置的文本串文件信息的组合, 所述文本串文件信息和文本串组合成连续文本串, 并在文本串文件标识 前增加关键字表示 1入文本串文件;
媒体资源处理装置接收到所述文本串文件信息后, 将从本地或者外 部服务器读取的文本串与 H.248消息中携带的文本串进行合成并緩存, 然后进行文语转换。
7. 如权利要求 4所述的方法, 其特征在于, 所述相关参数包括: 指示读取文本串文件的参数, 在接收到指示预读取文件的命令后, 从远程服务器读取相应文件并緩存在本地, 否则等到命令执行时再读取 文件; 和 /或
文件緩存的时长参数,设置所述读取的文件在本地緩存的时间长度。
8. 如权利要求 2所述的方法, 其特征在于, 所述文本串的相关信息 包括文本串和录音文件标识的组合, 并在录音文件标识前增加关键字表 示引入录音文件, 媒体资源处理装置接收到所述文本串的相关信息后, 对文本串进行文语转换, 然后将文语转换后输出的语音与录音文件组合 成语音片断。
9. 如权利要求 4所述的方法, 其特征在于, 所述文本串的相关信息 为包括文本串文件标识及存储位置的文本串文件信息和录音文件标识的 组合, 并在所述录音文件标识前增加关键字表示引入录音文件, 媒体资 源处理装置接收到所述文本串的相关信息后, 根据存储位置信息从本地 或者外部服务器读取文本串放入緩存, 然后对读取的文本串进行文语转 换, 并将文语转换后输出的语音与录音文件组合成语音片断。
10. 如权利要求 2所述的方法,其特征在于,进一步包括:所述 H.248 消息中还携带有文语转换输出的语音属性的相关参数,该相关参数包括: 发音语言种类、 发音性别、 发音年龄、 发音速度、 发音音量、 发音音调、 特殊文字的发音方式、 停顿、 重读、 或者在用户输入时是否中止文语转 换, 媒体资源处理装置接收到该相关参数后为输出的语音设置相应的属 性。
11. 如权利要求 1所述的方法, 其特征在于, 进一步包括: 在检测到异常事件时, 媒体资源处理装置将表示异常事件相应的错 误码反馈给媒体资源控制装置。
12.如权利要求 1 所述的方法, 其特征在于, 媒体资源处理装置进 行文语转换过程中, 媒体资源控制装置对文语转换过程进行控制。
13.如权利要求 12所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制包括暂时停止对用户播放文语转换后的语音。
14.如权利要求 13所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制进一步包括:
从上述暂停状态恢复到播放状态的步骤。
15. 如权利要求 12所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制进一步包括: 文语转换结束后, 用户中止相关操作。
16. 如权利要求 12所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制包括使播放快进或者快退,该快进包括快进若干字、 句子或者段落, 或者快进若干秒, 或者快进若干语音单位; 该快退包括 快退若干字、 句子或者段落, 或者快退若干秒, 或者快退若干语音单位。
17. 如权利要求 12所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制包括:
重新开始文语转换, 并根据要求重新设置文语转换参数, 包括音调、 音量、 音速、 发音性别、 发音年龄、 重读位置、 停顿位置和时长; 或, 重复播放当前句、 段落或者全文。
18. 如权利要求 17所述的方法, 其特征在于, 媒体资源控制装置对 文语转换过程的控制进一步包括取消对所述当前句、 段落或者全文的重 复播放。
19、 一种媒体资源处理装置, 其特征在于, 包括:
信息获取单元, 用于获取媒体资源控制装置发送的包括待识别的文 本串和控制参数的控制信息;
文语转换单元, 用于将所述控制信息中的文本串转换成语音信号; 发送单元, 发送所述的语音信号给媒体资源控制装置。
20、 如权利要求 19所述的装置, 其特征在于, 还包括:
文件获取单元, 用于获取文本串文件并发送给文语转换单元; 录音获取单元, 用于获取录音文件;
合成单元, 用于将文语转换单元输出的语音信号和所述录音文件合 成新的语音信号, 发送给所述发送单元。
21、 一种实现文语转换功能的系统, 其特征在于, 包括:
媒体资源控制装置, 对 H.248协议进行扩展, 发送携带指示及相关 参数的 H.248消息给媒体资源处理装置, 控制媒体资源处理装置执行文 语转换;
媒体资源处理装置接收媒体资源控制装置发送的携带文语转换处理 指示及相关参数的 H. 248消息,并根据所述相关参数进行文语转换处理, 并将文语转换结果反馈媒体资源控制装置。
22. 如权利要求 21所述的系统, 其特征在于, 所述媒体资源处理装 置包括文语转换单元, 用于将文本串转换成语音信号。
23. 如权利要求 22所述的系统, 其特征在于, 所述相关参数包括文 本串的相关信息, 媒体资源处理装置根据所述文本串的相关信息, 对所 述文本串进行文语转换。
24. 如权利要求 23所述的系统, 其特征在于, 所述文本串的相关信 息为能被正确发音的文本串, 媒体资源处理装置接收到所述文本串相关 信息后, 直接提取该文本串并进行文语转换。
25. 如权利要求 23所述的系统, 其特征在于, 所述文本串以文件形 式预先存储在媒体资源处理装置或者外部服务器上, 所述文本串的相关 信息为文本串的标识和存储位置信息, 媒体资源处理装置接收到所述文 本串相关信息后, 才 据其中的存储位置信息, 从本地或者外部服务器读 取文本串文件放入緩存, 并进行文语转换。
26. 如权利要求 23所述的系统, 其特征在于, 所述文本串的相关信 息包括文本串和录音文件标识的组合, 并在录音文件标识前增加关键字 表示引入录音文件, 媒体资源处理装置接收到该组合后, 对文本串进行 文语转换, 然后将文语转换后输出的语音与录音文件组合语音片断。
PCT/CN2006/002806 2005-10-21 2006-10-20 Procede, appareil et systeme pour executer la fonction de conversion texte-parole WO2007045187A1 (fr)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP06805015A EP1950737B1 (en) 2005-10-21 2006-10-20 A method, device and system for accomplishing the function of text-to-speech conversion
DE602006014578T DE602006014578D1 (de) 2005-10-21 2006-10-20 Verfahren, vorrichtung und system zur erzielung der funktion einer text-zu-sprache-umsetzung
AT06805015T ATE469415T1 (de) 2005-10-21 2006-10-20 Verfahren, vorrichtung und system zur erzielung der funktion einer text-zu-sprache-umsetzung
US12/106,693 US20080205279A1 (en) 2005-10-21 2008-04-21 Method, Apparatus and System for Accomplishing the Function of Text-to-Speech Conversion

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CNB2005101142778A CN100487788C (zh) 2005-10-21 2005-10-21 一种实现文语转换功能的方法
CN200510114277.8 2005-10-21

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US12/106,693 Continuation US20080205279A1 (en) 2005-10-21 2008-04-21 Method, Apparatus and System for Accomplishing the Function of Text-to-Speech Conversion

Publications (1)

Publication Number Publication Date
WO2007045187A1 true WO2007045187A1 (fr) 2007-04-26

Family

ID=37962207

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2006/002806 WO2007045187A1 (fr) 2005-10-21 2006-10-20 Procede, appareil et systeme pour executer la fonction de conversion texte-parole

Country Status (6)

Country Link
US (1) US20080205279A1 (zh)
EP (1) EP1950737B1 (zh)
CN (1) CN100487788C (zh)
AT (1) ATE469415T1 (zh)
DE (1) DE602006014578D1 (zh)
WO (1) WO2007045187A1 (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009265279A (ja) * 2008-04-23 2009-11-12 Sony Ericsson Mobilecommunications Japan Inc 音声合成装置、音声合成方法、音声合成プログラム、携帯情報端末、および音声合成システム
CN101778090A (zh) * 2009-01-12 2010-07-14 华为技术有限公司 一种基于文本的媒体控制方法、装置和系统
KR20120120406A (ko) * 2010-03-09 2012-11-01 알까뗄 루슨트 숫자들의 음성 통신
CN102202279B (zh) * 2010-03-23 2015-08-19 华为技术有限公司 媒体资源控制方法、装置、媒体资源节点及媒体资源控制系统
KR102421745B1 (ko) * 2017-08-22 2022-07-19 삼성전자주식회사 Tts 모델을 생성하는 시스템 및 전자 장치
CN110505432B (zh) * 2018-05-18 2022-02-18 视联动力信息技术股份有限公司 一种视频会议操作结果的展示方法和装置
CN110797003A (zh) * 2019-10-30 2020-02-14 合肥名阳信息技术有限公司 一种文本转语音显示字幕信息的方法
CN112437333B (zh) * 2020-11-10 2024-02-06 深圳Tcl新技术有限公司 节目播放方法、装置、终端设备以及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271216A (zh) * 1999-04-16 2000-10-25 松下电器产业株式会社 语音声音通信系统
EP1235406A1 (en) * 2001-02-15 2002-08-28 Lucent Technologies Inc. IP packet access gateway
CN1390013A (zh) * 2001-05-31 2003-01-08 阿尔卡塔尔公司 在多媒体网络中的紧急通知和最优先服务
US20040010582A1 (en) 2002-06-28 2004-01-15 Oliver Neal C. Predictive provisioning of media resources
CN1545280A (zh) * 2003-11-12 2004-11-10 中兴通讯股份有限公司 一种h.248消息分级编解码的实现方法
CN1547190A (zh) * 2003-11-30 2004-11-17 中兴通讯股份有限公司 承载控制分离网络中语音通知包的构造和解析方法
CN1575574A (zh) * 2000-12-28 2005-02-02 英特尔公司 增强的媒介网关控制协议

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030028380A1 (en) * 2000-02-02 2003-02-06 Freeland Warwick Peter Speech system
FI115868B (fi) * 2000-06-30 2005-07-29 Nokia Corp Puhesynteesi
US7020611B2 (en) * 2001-02-21 2006-03-28 Ameritrade Ip Company, Inc. User interface selectable real time information delivery system and method
US7185094B2 (en) * 2001-03-30 2007-02-27 Sandcherry, Inc. Media session framework using a control module to direct and manage application and service servers
EP1341155B1 (en) * 2002-02-15 2007-07-18 Canon Kabushiki Kaisha Information processing apparatus and method with speech synthesis function
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271216A (zh) * 1999-04-16 2000-10-25 松下电器产业株式会社 语音声音通信系统
CN1575574A (zh) * 2000-12-28 2005-02-02 英特尔公司 增强的媒介网关控制协议
EP1235406A1 (en) * 2001-02-15 2002-08-28 Lucent Technologies Inc. IP packet access gateway
CN1390013A (zh) * 2001-05-31 2003-01-08 阿尔卡塔尔公司 在多媒体网络中的紧急通知和最优先服务
US20040010582A1 (en) 2002-06-28 2004-01-15 Oliver Neal C. Predictive provisioning of media resources
CN1545280A (zh) * 2003-11-12 2004-11-10 中兴通讯股份有限公司 一种h.248消息分级编解码的实现方法
CN1547190A (zh) * 2003-11-30 2004-11-17 中兴通讯股份有限公司 承载控制分离网络中语音通知包的构造和解析方法

Also Published As

Publication number Publication date
EP1950737A4 (en) 2008-11-26
EP1950737B1 (en) 2010-05-26
CN1953053A (zh) 2007-04-25
DE602006014578D1 (de) 2010-07-08
ATE469415T1 (de) 2010-06-15
CN100487788C (zh) 2009-05-13
EP1950737A1 (en) 2008-07-30
US20080205279A1 (en) 2008-08-28

Similar Documents

Publication Publication Date Title
WO2007045187A1 (fr) Procede, appareil et systeme pour executer la fonction de conversion texte-parole
TWI249729B (en) Voice browser dialog enabler for a communication system
JP3873131B2 (ja) 電話メッセージの転記のために使用される編集システム及び方法
US9214154B2 (en) Personalized text-to-speech services
US7644000B1 (en) Adding audio effects to spoken utterance
JP5750380B2 (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
US6724864B1 (en) Active prompts
JP2010140506A (ja) 文書に注釈を付ける装置
TW200901162A (en) Indexing digitized speech with words represented in the digitized speech
WO2013135167A1 (zh) 一种移动终端处理文本的方法、相关设备及系统
CN104078038B (zh) 一种页面内容朗读方法和装置
JP5638479B2 (ja) 書き起こし支援システムおよび書き起こし支援方法
JP2017021125A (ja) 音声対話装置
JP2013025299A (ja) 書き起こし支援システムおよび書き起こし支援方法
US8881045B2 (en) Method and apparatus for generating prompt information of a mobile terminal
JP5727777B2 (ja) 会議支援装置および会議支援方法
CN101222542B (zh) 一种实现文语转换功能的方法
JP3936351B2 (ja) 音声応答サービス装置
JP2002023787A (ja) 音声合成装置、音声合成システム、音声合成方法及び記憶媒体
WO2018211748A1 (ja) 情報処理装置および情報処理方法
JP2016186646A (ja) 音声翻訳装置、音声翻訳方法および音声翻訳プログラム
JP6387044B2 (ja) テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
KR102025903B1 (ko) 언어 학습을 위한 장치 및 그 제어방법
TWM656770U (zh) 語音合成配音系統
JP3760420B2 (ja) 音声応答サービス装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application
NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2006805015

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 2006805015

Country of ref document: EP