WO2014085985A1 - 一种通话转录系统和方法 - Google Patents
一种通话转录系统和方法 Download PDFInfo
- Publication number
- WO2014085985A1 WO2014085985A1 PCT/CN2012/085855 CN2012085855W WO2014085985A1 WO 2014085985 A1 WO2014085985 A1 WO 2014085985A1 CN 2012085855 W CN2012085855 W CN 2012085855W WO 2014085985 A1 WO2014085985 A1 WO 2014085985A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- call
- text file
- file
- audio file
- memory
- Prior art date
Links
- 238000013518 transcription Methods 0.000 title claims abstract description 73
- 230000035897 transcription Effects 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 32
- 230000015654 memory Effects 0.000 claims description 64
- 238000012545 processing Methods 0.000 claims description 11
- 238000002372 labelling Methods 0.000 abstract 2
- 238000012163 sequencing technique Methods 0.000 abstract 1
- 238000006243 chemical reaction Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 9
- 238000001914 filtration Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 210000001072 colon Anatomy 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/26—Speech to text systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/42221—Conversation recording systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M3/00—Automatic or semi-automatic exchanges
- H04M3/42—Systems providing special services or facilities to subscribers
- H04M3/56—Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2201/00—Electronic components, circuits, software, systems or apparatus used in telephone systems
- H04M2201/40—Electronic components, circuits, software, systems or apparatus used in telephone systems using speech recognition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N7/00—Television systems
- H04N7/14—Systems for two-way working
- H04N7/15—Conference systems
Definitions
- the present invention relates to the field of communications, and in particular, to a call transcription system and method. Background technique
- the present invention discloses a call transcription system, including a receiving device, a voice recognition device, and a tagging device, wherein the receiving device is configured to connect to a switch and convert an input voice signal into an audio file;
- the voice recognition device is coupled to the receiving device for transcribing the audio file into a text file; and
- the tagging device is coupled to the voice recognition device for adding a corresponding audio to the text file.
- the timestamp of the file and sorts and merges all text files after the timestamp according to the timestamp into a call record text file.
- the call transcription system further includes: a transmitting device connected to the tagging device for transmitting the call log text file to a user.
- the call transcription system further includes: a memory connected between the receiving device and the voice recognition device for storing the audio file.
- the content of the call record text file includes the The content of the text file, the timestamp corresponding to the text file, and the address of the audio file corresponding to the text file in the memory.
- the tagging apparatus is further configured to: according to the address of the audio file corresponding to the text file in the call record text file and the call record text file in the memory, Establishing a call database in the memory, so that the user accesses the call database according to the call record text file; wherein each data item in the call database includes: content of the text file, the text The timestamp corresponding to the file and the address of the audio file corresponding to the text file in the memory.
- the call transcription system further includes: a memory connected between the receiving device and the voice recognition device for storing the audio file; and the tagging device further And establishing, in the memory, a call database, where the call database has an access interface, according to an address of the audio file corresponding to the text file in the call record text file and the text file in the call record text file in the memory For the user to access directly through the network; wherein each data item in the call database includes: a content of the text file, a timestamp corresponding to the text file, and an audio file corresponding to the text file in the memory The stated address.
- the call transcription system further includes: a slicer connected between the receiving device and the voice recognition device, configured to slice the audio file into sub-audio files To output to the voice recognition device.
- the slicer further includes: a detecting unit, configured to detect a silent portion in the audio file; and a dividing unit, configured to cut the audio file based on the detected silent portion Divided into the sub audio file.
- the silent portion includes a portion having a decibel value less than or equal to a noise threshold for a period of 0.6 seconds or more.
- the call transcription system further includes: a memory connected between the slicer and the voice recognition device, configured to store the sub audio file; and the voice recognition The sub audio file transcribed by the device is from the memory.
- the call transcription system further includes: an automatic gain controller connected to the receiving device for performing gain control on the input voice signal.
- the call transcription system further includes a filter connected to the receiving device for performing noise reduction processing on the input voice signal.
- a call transcription method including: Converting the audio signal into an audio file; transcribing the audio file into a text file; adding a timestamp of the corresponding audio file to the text file; and sorting all text files after the timestamp according to the timestamp and Merge into a call log text file.
- the method further includes: sending the call record text file to the user.
- the converting the input speech signal to an audio file further comprises storing the audio file to a memory.
- the content of the call record text file includes the content of the text file, a timestamp corresponding to the text file, and an address of the audio file corresponding to the text file in the memory.
- the method further includes: determining, according to the call record text file, an address of the audio file corresponding to the text file in the call record text file in the memory Establishing a call database in the memory, so that the user accesses the call database according to the call record text file; wherein each data item in the call database includes: content and content of the text file And a timestamp corresponding to the text file and the address of the audio file corresponding to the text file in the memory.
- the method further comprises: storing the audio file into a memory; and after the combining into the call record text file, the method further comprises: recording the text according to the call And an address of the audio file corresponding to the text file in the call record text file in the memory, a call database is established in the memory, and the call database has an access interface for the user to directly access through the network;
- Each data item in the call database includes: a content of the text file, a timestamp corresponding to the text file, and the address of the audio file corresponding to the text file in the memory.
- the method further comprises: dividing the audio file into sub-audio files.
- the method before converting the input voice signal into an audio file, the method further comprises: performing gain control and/or noise reduction processing on the input voice signal.
- the above-described call transcription system and method provided by the present invention can provide a record of the call content that can be retrieved according to time, and facilitates the search and inquiry of the call content by both parties or others.
- Figure 1 shows a block diagram of a structure of a call transcription system in accordance with a preferred embodiment of the present invention
- FIGS. 2a and 2b respectively show schematic diagrams of text files before and after merging in accordance with a preferred embodiment of the present invention
- FIG. 3 is a flow chart showing a method of call transcription in accordance with a preferred embodiment of the present invention
- FIG. 4 is a diagram showing a call system including a call transcription system in accordance with a preferred embodiment of the present invention. detailed description
- a call transcription system is provided.
- the voice transcription system 100 includes a receiving device 103, a voice recognition device 106, and a tagging device 107.
- the receiving device 103 is used to connect to the switch and convert the input voice signal into an audio file.
- the voice recognition device 106 is coupled to the receiving device 103 for transcribed the audio file into a text file.
- the tagging device 107 is coupled to the speech recognition device 106 for adding a time stamp of the corresponding audio file to the text file, and sorting and merging all the text files after the time stamp according to the time stamp into a call log text file.
- the input voice signals from both parties of the call are converted to audio files by the receiving device 103, forming their own time stamps for acquisition by the tagging device 107.
- the voice recognition device 106 transcribes the audio file formed by the conversion of the receiving device 103 into a text file.
- the transcription process performed by the speech recognition device 106 The following operations can be included.
- the audio file formed by the conversion of the receiving device 103 is subjected to extraction of the speech feature of the speech signal.
- the speech signal can be analyzed and processed, the redundant information unrelated to the speech recognition can be removed and important information affecting the speech recognition can be obtained, and the speech signal can be compressed at the same time.
- the speech recognition device 106 uses the trained acoustic model to identify based on the extracted speech features. Specifically, the speech features of the speech signal are matched and compared with the speech features of the acoustic model to obtain an optimal recognition result.
- the tagging device 107 adds the time stamp of the corresponding audio file to the text file formed by the speech recognition device 106, and sorts and merges all the text files after the time stamp according to the time stamp into a call record text file for the call.
- the conversation between the two parties provides a "history" of the call.
- the tagging device 107 can obtain the timestamp of the audio file formed by the receiving device 103 through the system function stat, and then add the acquired timestamp to the front of the corresponding text file, and finally according to The timestamp sorts all the text files with the timestamp and merges them into a call record text file, which forms a conversation history like QQ or MSN.
- FIGs 2a and 2b respectively show schematic diagrams of text files before and after merging in accordance with a preferred embodiment of the present invention.
- 2a shows a schematic diagram of a text file corresponding to a voice signal of a channel (for example, channel A and channel B) from both sides of the call by the tagging device 107
- FIG. 2b shows the tagging device.
- 107 Schematic diagram of a call record text file sorted and combined according to a timestamp. As shown in Fig. 2b, the user can view the call record text file including the content of the text file and the time stamp corresponding to the text file.
- the call transcription system 100 can also include a transmitting device 108 coupled to the tagging device 107 for transmitting the last formed call log text file to the user.
- the transmitting device 108 can be an email device that transmits the call recording text file to the user by email.
- the user can include both parties to the call or other users.
- the user's email address can be set as needed, and the "history" of the call between the two parties can be sent to the user by e-mail, so that the user can conveniently query the content of the call.
- the call transcription system 100 can also include a memory 105.
- the memory 105 is connected between the receiving device 103 and the voice recognition device 106 for storing the audio file formed by the conversion of the receiving device 103.
- the content of the call log text file may include the content of the text file, the time stamp corresponding to the text file, and the address of the audio file corresponding to the text file in the memory 105.
- the user can not only retrieve and query the call record by time stamp, but also link to the corresponding audio file in the memory 105 according to the address of the audio file corresponding to the text file included in the text file included in the call record text file, thereby listening to the corresponding audio file.
- the voice of the call may include the content of the text file, the time stamp corresponding to the text file, and the address of the audio file corresponding to the text file in the memory 105.
- the buyer and the seller of the call can find a time point or time period in the call record text file to query the current call content, so that the conversation history can be retrieved according to the time to find out the history of the transaction or some The content of the call of the stock code.
- Listening can verify the call log text file and correct errors that may occur in the automatic transcription of the call transcription system.
- the content of the call log text file may not include the address of the audio file corresponding to the text file in the memory 105.
- the tagging device 107 may further be configured to establish a call database in the memory 105 according to the address of the audio file corresponding to the text file in the call record text file and the call record text file in the memory 105, so that the user can record the call according to the call record.
- Each data item in the call database includes: a content of the text file, a timestamp corresponding to the text file, and an address of the audio file corresponding to the text file in the memory 105.
- the user can retrieve the call database by using the keyword and/or time stamp of the text in the call record text file to obtain the address of the corresponding audio file, thereby Listen to the voice of the corresponding call.
- the user can open the received call log text file, find a time point, and index the corresponding call record to query the call content.
- the address of the audio file corresponding to the found call content may be clicked, and the corresponding audio file may be linked to listen to the voice of the corresponding call to record the call in the text file of the call.
- the content is verified.
- the address can be a hyperlink.
- the call transcription system 100 may also include a memory 105 without including the transmitting device 108, that is, the memory 105 is connected between the receiving device 103 and the voice recognition device 106 for the storage receiving device 103 to be converted. Audio file.
- the tagging device 107 is further configured to establish a call database in the memory 105 according to the address of the audio file corresponding to the text file in the last formed call record text file and the call record text file, and the call database has an access interface. For users to access directly through the network.
- Each data item in the call database includes: a content of the text file, a timestamp corresponding to the text file, and an address of the audio file corresponding to the text file in the memory 105.
- the last formed call log text file does not need to be sent to the user, and the user can directly access the network through the network.
- the call database queries and listens to the corresponding call content.
- the above access interface can be a WEB front-end access interface.
- the user can access the database through the WEB front-end access interface.
- different users can be granted different permissions, enabling different users to perform different operations on documents in the database, such as retrieval, viewing, editing, and deletion.
- the above access interface may be a database access interface of PHPMYADMIN.
- the call transcription system 100 can also include a slicer
- Speech recognition technology is usually based on vocabulary, phrases or shorter sentences.
- the slicer 104 can divide a continuous large number of calls into shorter sentences. In this way, the subsequent speech recognition processing can be performed on the segmented data, which greatly improves the processing precision. This effectively guarantees the quality of the call transcription.
- the slicer 104 can be divided into a detecting unit and a dividing unit, wherein the detecting unit is configured to detect a silent portion in the audio file formed by the receiving device 103 after conversion, and the dividing unit is configured to The mute portion of the detection splits the audio file into sub-audio files.
- the mute part is an essential part of the call. Splitting the audio file based on the mute part can better express the speaker's statement meaning. This will not cause a sentence or a sentence, and avoid errors in subsequent processing.
- the mute portion of the audio file may be the portion of the decibel value that lasts for a certain period of time less than or equal to the noise threshold.
- the noise threshold can be determined according to the specific circumstances of the environment in which the two parties are located. For example, in noisy environments, the noise threshold can be set higher. By increasing the length of time that is sustained, the noise can be considered muted and removed.
- the duration of time is 0.6 seconds or more. 0.6 seconds is the general pause interval between sentences and sentences when people communicate with each other. Selecting the silence of this time period can more accurately divide the conversation content of people into sub-audio files in natural sentences, and can Effectively removes noise, making the subsequent process more accurate.
- call transcription system 100 may also include a memory
- call transcription system 100 may also include an input interface and an output interface (not shown in FIG. 1).
- the input interface may be connected between the external switch and the receiving device 103 for receiving an input voice signal from the external switch, and the input voice signal may be an analog signal or a digital signal.
- the sampling frequency is preferably 8000 Hz, and the number of quantization bits is preferably 16 bits.
- the output interface can be connected between the tagging device 107 and the user's personal computer (PC) for transmitting the last formed call log text file to the user.
- the call transcription system 100 can also include an automatic gain controller 101 coupled to the receiving device 103 for gain control of the input speech signal.
- the decibel value of the received input speech signal is adjusted to a substantially uniform set value level.
- the gain control of the input speech signal by the automatic gain controller 101 can successfully avoid the influence on the subsequent processing due to the speaker volume being large or small.
- the automatic gain controller 101 may include an amplifying unit and a reducing unit.
- the amplifying unit when the decibel value of the received input speech signal is less than the set value, the amplifying unit is configured to amplify the input speech signal whose decibel value is less than the set value to the set value; conversely, when the received input speech signal is decibel
- the reduction unit reduces the input speech signal whose decibel value is greater than the set value to the set value.
- This setting can be freely defined according to actual needs.
- the call transcription system 100 can further include a filter 102 coupled to the receiving device 103 for performing noise reduction processing on the input speech signal.
- Noise reduction can be done by filtering. Filtering filters out noise and interference from continuous or discrete input data to extract useful information.
- filter 102 can be a Wiener filter to achieve a good filtering effect.
- both the automatic gain controller 101 and the filter 102 can make the input speech signal easy to recognize and improve the accuracy of recognition and translation.
- connection may mean a direct connection between the various devices, and may also indicate an indirect connection, only one of the different devices of the call transcription system 100 is shown in FIG. There are other ways to connect.
- the automatic gain controller 101 can be directly coupled to the receiving device 103, which is coupled between the automatic gain controller 101 and an external switch.
- the memory 105 can be used to store the audio file formed by the conversion of the receiving device 103, and can also be used to store the call database, and can also be used to store the splitter 104 to the receiving device. After the converted audio file is segmented The resulting sub audio file.
- audio files, call databases, and sub-audio files can also be stored by different memories.
- a call transcription method is also provided.
- 3 shows a flow diagram of a call transcription method 300 in accordance with a preferred embodiment of the present invention.
- the call transcription method 300 includes a conversion step 303, a voice-to-text step 306, and a tagging step.
- the conversion step 303 converts the input speech signal into an audio file; the speech-to-text step 306 transcribes the audio file formed by the conversion step 303 into a text file; and the tagging step 307 is a text file formed by the transcription of the speech-to-text step 306.
- the timestamp of the corresponding audio file is added and all text files after the timestamp are sorted according to the timestamp and merged into a call record text file.
- the step of adding 308 further includes a transmitting step
- the converting step 303 further includes a storing step 305 for storing the audio file to the memory.
- the contents of the call log text file include the content of the text file, the time stamp corresponding to the text file, and the address of the audio file corresponding to the text file in the memory.
- the tagging step 307 further comprises: establishing a call database in the memory according to the address of the audio file corresponding to the text file in the call record text file and the call record text file in the memory, so as to enable the user
- the call database is accessed based on the call log text file.
- Each data item in the call database includes: a content of the text, a timestamp corresponding to the text file, and an address of the audio file corresponding to the text file in the memory.
- the converting step 303 further includes a storing step 305 for storing the audio file to the memory, and further comprising, after the tagging step 307, the text file according to the call recording text file and the call recording text file.
- the address of the corresponding audio file in the memory, the call database is established in the memory, and the call database has an access interface for the user to directly access through the network.
- Each data item in the call database includes: a content of the text file, a timestamp corresponding to the text file, and an address of the audio file corresponding to the text file in the memory.
- the converting step 303 may further include a dividing step 304 for dividing the audio file formed by the converting step 303 into sub-audio files.
- the converting step 303 may also include a gain control step 301 and/or a noise reduction processing step 302 to perform gain control and/or noise reduction processing on the input speech signal.
- Figure 3 illustrates an order of execution of the steps of a call transcription method in accordance with a preferred embodiment of the present invention, which sequence can be adjusted.
- gain control step 301 can be performed after noise reduction process step 302.
- the call system 400 includes a telephone 401 and a telephone 402 used by a user to talk, a public switched telephone network (PSTN) 403, a private branch exchange (IP PBX) 404, and a call transcription system 405 provided by the present invention.
- PSTN public switched telephone network
- IP PBX private branch exchange
- the telephone 401 and the telephone 402 used for the user's call can also be replaced by the smart terminal. Accordingly, the PSTN 403 can also be replaced with a Voice over Internet Protocol (VOIP) network.
- VOIP Voice over Internet Protocol
- the two sides of the call are User 1 and User 2.
- the party making the call for example, the user 1, calls the user 2 through the PSTN 403.
- the IP PBX 404 establishes a call connection for both parties.
- User 1 and User 2 start a call, and their respective voices enter the call transcription system 405 via IP PBX 404, and the transcribed final formed call log text is transmitted to the user's personal computer 406 via the network or e-mail.
- User 1 and User 2 as well as other users in need, can conveniently retrieve and query the call content via the call log text formed by system 405 for call transcription.
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Signal Processing (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Marketing (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Economics (AREA)
- Acoustics & Sound (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Telephonic Communication Services (AREA)
Abstract
一种通话转录系统和方法。该通话转录系统包括接收装置(103)、语音识别装置(106)和加标签装置(107)。其中所述接收装置(103)用于连接到交换机并将输入语音信号转换为音频文件;所述语音识别装置(106)与所述接收装置相连(103),用于将所述音频文件转录为文本文件;以及所述加标签装置(107)与所述语音识别装置(106)相连,用于为所述文本文件加上对应的音频文件的时间戳,并根据所述时间戳将加上时间戳后的所有文本文件排序并合并为通话记录文件。所述通话转录系统和方法能够提供可根据时间进行检索的通话内容的记录,方便通话双方或他人检索和查询通话内容。
Description
一种通话转录系统和方法 技术领域
本发明涉及通信领域, 尤其涉及一种通话转录系统和方法。 背景技术
在当今的时代, 由于工作需要, 企业内部的工作人员或企业与企业的 双方代表之间常常需要进行沟通交流, 例如召开电话会议等。 虽然不在同 一间办公室的人通过网络和电话等方式可以便利地进行交流。 然而还存在 一个会议记录的问题, 比如经常会出现召开电话会议的双方开完电话会议 而忘记了部分会议内容的情况, 或者是企业的其他工作人员因为工作需要 而希望查看某一时段的通话内容的情况。
因此, 需要提供一种通话转录系统和方法以解决上述问题。 发明内容
在发明内容部分中引入了一系列简化形式的概念, 这将在具体实施方 式部分中进一步详细说明。 本发明的发明内容部分并不意味着要试图限定 出所要求保护的技术方案的关键特征和必要技术特征, 更不意味着试图确 定所要求保护的技术方案的保护范围。
为了解决上述问题, 本发明公开了一种用于通话转录系统, 包括接收 装置、 语音识别装置和加标签装置, 其中, 所述接收装置用于连接到交换 机并将输入语音信号转换为音频文件; 所述语音识别装置与所述接收装置 相连, 用于将所述音频文件转录为文本文件; 以及所述加标签装置与所述 语音识别装置相连, 用于为所述文本文件加上对应的音频文件的时间戳, 并根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话记 录文本文件。
在本发明一个优选实施例中, 所述通话转录系统还包括: 发送装置, 其与所述加标签装置相连, 用于将所述通话记录文本文件发送给用户。
在本发明一个优选实施例中, 所述通话转录系统还包括: 存储器, 其 连接在所述接收装置和所述语音识别装置之间, 用于存储所述音频文件。
在本发明一个优选实施例中, 所述通话记录文本文件的内容包括所述
文本文件的内容、 所述文本文件对应的时间戳和所述文本文件对应的音频 文件在所述存储器中的地址。
在本发明一个优选实施例中, 所述加标签装置还用于根据所述通话记 录文本文件和所述通话记录文本文件中的所述文本文件对应的音频文件在 所述存储器中的地址, 在所述存储器中建立通话数据库, 以使所述用户根 据所述通话记录文本文件来访问所述通话数据库; 其中, 所述通话数据库 中每个数据项包括: 所述文本文件的内容、 所述文本文件对应的时间戳和 所述文本文件对应的音频文件在所述存储器中的所述地址。
在本发明一个优选实施例中, 所述通话转录系统还包括: 存储器, 其 连接在所述接收装置和所述语音识别装置之间, 用于存储所述音频文件; 并且所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文 本文件中的所述文本文件对应的音频文件在所述存储器中的地址, 在所述 存储器中建立通话数据库, 所述通话数据库具有访问接口以供用户通过网 络直接访问; 其中, 所述通话数据库中每个数据项包括: 所述文本文件的 内容、 所述文本文件对应的时间戳和所述文本文件对应的音频文件在所述 存储器中的所述地址。
在本发明一个优选实施例中, 所述通话转录系统还包括: 切分器, 其 连接在所述接收装置和所述语音识别装置之间, 用于将所述音频文件切分 为子音频文件以输出到所述语音识别装置。
在本发明一个优选实施例中, 所述切分器进一步包括: 检测单元, 用 于检测所述音频文件中的静音部分; 以及分割单元, 用于基于所检测的静 音部分将所述音频文件切分为所述子音频文件。
在本发明一个优选实施例中,所述静音部分包括在 0.6秒或 0.6秒以上 的时间段内分贝值小于或等于噪声阈值的部分。
在本发明一个优选实施例中, 所述通话转录系统还包括: 存储器, 其 连接在所述切分器和所述语音识别装置之间, 用于存储所述子音频文件; 并且所述语音识别装置所转录的子音频文件来自于所述存储器。
在本发明一个优选实施例中, 所述通话转录系统还包括: 自动增益控 制器, 其与所述接收装置相连, 用于对所述输入语音信号进行增益控制。
在本发明一个优选实施例中, 所述通话转录系统还包括滤波器, 其与 所述接收装置相连, 用于对所述输入语音信号进行降噪处理。
根据本发明另一方面, 还提供了一种通话转录方法, 包括: 将输入语
音信号转换为音频文件; 将所述音频文件转录为文本文件; 为所述文本文 件加上对应的音频文件的时间戳; 以及根据所述时间戳将加上时间戳后的 所有文本文件排序并且合并为通话记录文本文件。
在本发明一个优选实施例中, 所述合并为通话记录文本文件之后还包 括: 将所述通话记录文本文件发送给用户。
在本发明一个优选实施例中, 所述将输入语音信号转换为音频文件之 后还包括将所述音频文件存储至存储器。
在本发明一个优选实施例中, 所述通话记录文本文件的内容包括所述 文本文件的内容、 所述文本文件对应的时间戳和所述文本文件对应的音频 文件在所述存储器中的地址。
在本发明一个优选实施例中, 所述合并为通话记录文本文件之后还包 括: 根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对 应的音频文件在所述存储器中的地址, 在所述存储器中建立通话数据库, 以使所述用户根据所述通话记录文本文件来访问所述通话数据库; 其中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所述文本文件 对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述地 址。
在本发明一个优选实施例中, 所述将输入语音信号转换为音频文件之 后还包括将所述音频文件存储至存储器; 并且所述合并为通话记录文本文 件之后还包括: 根据所述通话记录文本文件和所述通话记录文本文件中的 文本文件对应的音频文件在所述存储器中的地址, 在所述存储器中建立通 话数据库, 所述通话数据库具有访问接口以供用户通过网络直接访问; 其 中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所述文本 文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中的所述 地址。
在本发明一个优选实施例中, 将输入语音信号转换为音频文件之后还 包括: 将所述音频文件切分为子音频文件。
在本发明一个优选实施例中, 将输入语音信号转换为音频文件之前还 包括: 对所述输入语音信号进行增益控制和 /或降噪处理。
本发明所提供的上述通话转录系统和方法能够提供可根据时间进行检 索的通话内容的记录, 方便通话双方或他人检索和查询通话内容。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。 附图 中示出了本发明的实施例及其描述, 用来解释本发明的原理。在附图中, 图 1 示出了根据本发明一个优选实施例的通话转录系统的结构框 图;
图 2a和图 2b分别示出了根据本发明一个优选实施例的合并前后的 文本文件的示意图;
图 3示出了根据本发明一个优选实施例的通话转录方法的流程图; 图 4示出了包括根据本发明一个优选实施例的通话转录系统的通话 系统的示意图。 具体实施方式
在下文的描述中, 给出了大量具体的细节以便提供对本发明更为彻底 的理解。 然而, 对于本领域技术人员来说显而易见的是, 本发明可以无需 一个或多个这些细节而得以实施。 在其他的例子中, 为了避免与本发明发 生混淆, 对于本领域公知的一些技术特征未进行描述。
为了彻底了解本发明, 将在下列的描述中提出详细的结构。 显然, 本 发明的施行并不限定于本领域的技术人员所熟习的特殊细节。 本发明的较 佳实施例详细描述如下, 然而除了这些详细描述外, 本发明还可以具有其 他实施方式。
根据本发明的一方面, 提供了一种通话转录系统。 图 1示出了根据本 发明一个优选实施例的通话转录系统 100的结构框图。 如图 1所示, 该通 话转录系统 100包括接收装置 103、 语音识别装置 106和加标签装置 107。 其中,接收装置 103用于连接到交换机并将输入语音信号转换为音频文件。 语音识别装置 106与接收装置 103相连,用于将音频文件转录为文本文件。 加标签装置 107与语音识别装置 106相连, 用于为文本文件加上对应的音 频文件的时间戳, 并根据时间戳将加上时间戳后的所有文本文件排序并且 合并为通话记录文本文件。
来自交换机的通话双方的输入语音信号经接收装置 103转换为音频文 件, 形成自己的时间戳, 供加标签装置 107获取。
语音识别装置 106将接收装置 103转换后形成的音频文件转录为文本 文件。 根据本发明一个优选实施例, 语音识别装置 106所进行的转录过程
可以包括下述操作。 首先对接收装置 103转换后形成的音频文件进行语音 信号的语音特征的提取。 根据提取的语音特征, 可以对语音信号进行分析 处理,可去掉与语音识别无关的冗余信息并获得影响语音识别的重要信息 , 同时可对语音信号进行压缩。 然后, 语音识别装置 106根据所提取的语音 特征利用已训练的声学模型进行识别。 具体地, 将语音信号的语音特征同 声学模型的语音特征进行匹配与比较, 得到最佳的识别结果。
加标签装置 107为语音识别装置 106转录后形成的文本文件加上对应 的音频文件的时间戳, 并根据时间戳将加上时间戳后的所有文本文件排序 并且合并为通话记录文本文件, 为通话双方的会话提供了一份通话的 "历 史记录" 。 例如, 在 Unix或 Linux系统下, 加标签装置 107可以通过系统 函数 stat获取接收装置 103转换后形成的音频文件的时间戳, 然后将获取 到的时间戳加到对应的文本文件的前面, 最后根据时间戳将加上时间戳后 的所有文本文件排序并且合并为通话记录文本文件,这样就形成了类似 QQ 或 MSN那样的对话历史。时间戳和文本可以以冒号分割。 图 2a和图 2b分 别示出了根据本发明一个优选实施例的合并前后的文本文件的示意图。 其 中 ,图 2a示出了加标签装置 107为其加了时间戳的来自通话双方的信道 (例 如,信道 A和信道 B) 的语音信号对应的文本文件的示意图, 图 2b示出了 加标签装置 107根据时间戳排序并合并后的通话记录文本文件的示意图。 如图 2b所示,对于包括文本文件的内容和文本文件对应的时间戳的通话记 录文本文件, 用户查看起来非常方便。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括发送装 置 108 ,其与加标签装置 107相连,用于将最后形成的通话记录文本文件发 送给用户。 发送装置 108可以为电子邮件装置, 其利用电子邮件将通话记 录文本文件发送给用户。 这里, 用户可以包括通话双方或其他用户。 可根 据需要设定用户的电子邮件地址, 将通话双方通话的 "历史记录" 以电子 邮件的方式发送给用户, 以供用户方便地查询通话内容。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括存储器 105。其中, 存储器 105连接在接收装置 103和语音识别装置 106之间, 用 于存储接收装置 103转换后形成的音频文件。
根据本发明的一个优选实施例, 通话记录文本文件的内容可以包括文 本文件的内容、 文本文件对应的时间戳和文本文件对应的音频文件在存储 器 105中的地址。 这样, 根据发送装置 108发送给用户的通话记录文本文
件, 用户不但可以通过时间戳检索、 查询通话记录, 还可以根据通话记录 文本文件中包含的文本文件对应的音频文件在存储器 105 中的地址链接到 存储器 105 中对应的音频文件, 从而重听对应的通话的语音。 例如, 在证 券买卖应用中, 通话的买卖双方可以在通话记录文本文件中查找一个时间 点或时间段以查询当时的通话内容, 这样就可以根据时间检索到对话历史 从而查到关于买卖历史或者某个股票代码的通话内容。 另外, 重听可以对 通话记录文本文件进行校验, 纠正通话转录系统自动转录中可能产生的错 误。
本领域普通技术人员可以理解, 通话记录文本文件的内容可以不包括 文本文件对应的音频文件在存储器 105 中的地址。 此时, 加标签装置 107 可以还用于根据通话记录文本文件和通话记录文本文件中的文本文件对应 的音频文件在存储器 105中的地址, 在存储器 105中建立通话数据库, 以 使用户根据通话记录文本文件来访问通话数据库。 其中, 该通话数据库中 的每个数据项包括: 文本文件的内容、 文本文件对应的时间戳和文本文件 对应的音频文件在存储器 105中的地址。 这样, 根据发送装置 108发送给 用户的通话记录文本文件, 用户可以通过通话记录文本文件中的文本的关 键字和 /或时间戳等信息,检索该通话数据库来得到对应的音频文件的地址, 从而重听对应的通话的语音。 例如, 用户可以打开收到的通话记录文本文 件, 查找一个时间点, 从而索引到对应的通话记录, 查询到通话内容。 并 且, 为了确保通话内容的正确性, 可以点击查找到的通话内容对应的音频 文件的地址, 就可以链接到对应的音频文件从而重听对应的通话的语音, 以对通话记录文本文件中的通话内容进行校验。 例如, 该地址可以是一个 超链接。
根据本发明的一个优选实施例, 通话转录系统 100也可以包括存储器 105而不包括发送装置 108 ,即存储器 105连接在接收装置 103和语音识别 装置 106之间, 用于存储接收装置 103转换后形成的音频文件。 并且加标 签装置 107还用于根据最后形成的通话记录文本文件和通话记录文本文件 中的文本文件对应的音频文件在存储器 105中的地址, 在存储器 105中建 立通话数据库, 该通话数据库具有访问接口以供用户通过网络直接访问。 其中, 通话数据库中的每个数据项包括: 文本文件的内容、 文本文件对应 的时间戳和文本文件对应的音频文件在存储器 105 中的地址。 这样, 无需 把最后形成的通话记录文本文件发送给用户, 用户可以通过网络直接访问
该通话数据库来查询并且重听对应的通话内容。 本领域普通技术人员可以 理解,上述访问接口可以是 WEB前端访问界面。用户可以通过该 WEB前 端访问界面对该数据库进行访问。具体地, 可以对不同用户授予不同权限, 使得不同用户能够对该数据库中的文档进行不同操作, 例如检索、 查看、 编辑和删除。 本领域普通技术人员可以理解, 上述访问接口可以是 PHPMYADMIN的数据库访问界面。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括切分器
104 ,其连接在接收装置 103和语音识别装置 106之间,用于将接收装置 103 转换后形成的音频文件切分为子音频文件以输出到语音识别装置 106。语音 识别技术通常是基于词汇、 短语或较短句子来进行的。 切分器 104可以把 连续大段的通话切分为较短的语句。 这样, 后续的语音识别处理可以针对 切分后的数据进行,大大提高了处理精度。这有效保证了通话转录的质量。
根据本发明的一个优选实施例, 切分器 104可以分为检测单元和分割 单元, 其中, 检测单元用于检测接收装置 103转换后形成的音频文件中的 静音部分, 而分割单元用于基于所检测的静音部分将音频文件切分为子音 频文件。 静音部分是通话中的必不可少的部分, 基于静音部分来切分音频 文件可以更好地表达说话者的语句含义。这样不会出现断句或半句的情况, 避免后续处理出现错误。
音频文件中的静音部分可以为持续一定时间的分贝值小于或等于噪声 阈值的部分。 噪声阈值可根据通话双方所在环境的具体情况而定。 例如, 嘈杂的环境中, 噪声阈值可以设置得较高。 通过增加所持续的时间长度, 噪声可以被视为静音从而被去除。 优选地, 所持续的时间长度为 0.6秒或 0.6秒以上。 0.6秒是人与人交流的时候句与句之间的大体停顿间隔, 选择 这个时间段的静音可以较为准确地将人与人的通话内容划分成以自然句为 单位的子音频文件, 并且可以有效去除噪音, 使得接下来的处理过程正确 率更高。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括存储器
105 , 其连接在切分器 104和语音识别装置 106之间, 用于存储切分器 104 切分后形成的子音频文件; 并且语音识别装置 106所转录的子音频文件来 自于存储器 105。经过存储器 105 , 可以将切分器 104切分后形成的子音频 文件暂时存入存储器 105 ,以在进入语音识别装置 106之前缓冲,使得语音 识别装置 106接下来进行的转录工作更为顺畅。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括输入接 口和输出接口 (未在图 1 中示出) 。 其中, 输入接口可以连接在外部交换 机和接收装置 103之间, 用于从外部交换机接收输入语音信号, 该输入语 音信号可以是模拟信号也可以是数字信号。 如果是数字信号, 其采样频率 优选为 8000Hz , 其量化位数优选为 16比特。 输出接口可以连接在加标签 装置 107和用户的个人电脑 (PC) 之间, 用于将最后形成的通话记录文本 文件发送给用户。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括自动增 益控制器 101 ,其与接收装置 103相连,用于对输入语音信号进行增益控制。 例如, 将所接收的输入语音信号的分贝值调节到大致统一的设定值水平。 由自动增益控制器 101对输入语音信号进行增益控制可以成功避免因说话 者音量忽大忽小造成对后续处理的影响。
优选地,该自动增益控制器 101可以包括放大单元和缩小单元。其中, 当所接收的输入语音信号的分贝值小于设定值时, 放大单元用于将分贝值 小于该设定值的输入语音信号放大至该设定值; 反之, 当所接收的输入语 音信号的分贝值大于该设定值时, 缩小单元将分贝值大于该设定值的输入 语音信号缩小至该设定值。 此设定值可根据实际需要自由限定。
根据本发明的一个优选实施例, 通话转录系统 100还可以包括滤波器 102 , 其与接收装置 103相连, 用于对输入语音信号进行降噪处理。 降噪处 理可以采用滤波的方法。 滤波可以从连续的或离散的输入数据中滤除噪声 和干扰以提取有用信息。 优选地, 滤波器 102可以是维纳滤波器以取得良 好的滤波效果。
总之, 自动增益控制器 101和滤波器 102均可以使输入语音信号便于 被识别并且提高识别和翻译的正确率。
另外, 值得注意的是, 以上术语 "连接" 和 "相连" 可以表示各个装 置之间的直接连接, 也可以表示间接连接, 图 1 中只示出了通话转录系统 100的不同装置之间的一种连接方式,还可以有其它的连接方式。例如, 自 动增益控制器 101可以直接连接接收装置 103 ,滤波器 102连接在自动增益 控制器 101和外部交换机之间。
本领域普通技术人员可以理解, 在上述实施例中, 存储器 105可以用 来存储接收装置 103转换后形成的音频文件,也可以用来存储通话数据库, 还可以用来存储切分器 104对接收装置转换后形成的音频文件进行切分后
产生的子音频文件。 本领域普通技术人员可以理解, 音频文件、 通话数据 库以及子音频文件还可以由不同的存储器存储。
根据本发明的另一方面, 还提供了一种通话转录方法。 图 3示出了根 据本发明一个优选实施例的通话转录方法 300的流程图。 如图 3所示, 该 通话转录方法 300包括转换步骤 303、 语音转文本步骤 306和加标签步骤
307。其中, 转换步骤 303将输入语音信号转换为音频文件; 语音转文本步 骤 306将转换步骤 303转换后形成的音频文件转录为文本文件; 加标签步 骤 307为语音转文本步骤 306转录后形成的文本文件加上对应的音频文件 的时间戳并根据时间戳将加上时间戳后的所有文本文件排序并且合并为通 话记录文本文件。
根据本发明的一个优选实施例, 加标签步骤 307之后还包括发送步骤
308 , 用于将通话记录文本文件发送给用户。
根据本发明的一个优选实施例, 将转换步骤 303之后还包括存储步骤 305 , 用于将音频文件存储至存储器。
根据本发明的一个优选实施例, 通话记录文本文件的内容包括文本文 件的内容、 文本文件对应的时间戳和文本文件对应的音频文件在存储器中 的地址。
根据本发明的一个优选实施例, 加标签步骤 307之后还包括根据通话 记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存储器 中的地址, 在存储器中建立通话数据库, 以使用户根据通话记录文本文件 来访问所述通话数据库。 其中, 该通话数据库中每个数据项包括: 文本文 件的内容、 文本文件对应的时间戳和文本文件对应的音频文件在存储器中 的地址。
根据本发明的一个优选实施例, 转换步骤 303 之后还包括存储步骤 305 , 用于将音频文件存储至存储器, 并且加标签步骤 307之后还包括根据 通话记录文本文件和通话记录文本文件中的文本文件对应的音频文件在存 储器中的地址, 在存储器中建立通话数据库, 该通话数据库具有访问接口 以供用户通过网络直接访问。 其中, 该通话数据库中每个数据项包括: 文 本文件的内容、 文本文件对应的时间戳和文本文件对应的音频文件在存储 器中的地址。
根据本发明的一个优选实施例, 转换步骤 303之后还可以包括切分步 骤 304 , 用于将转换步骤 303转换后形成的音频文件切分为子音频文件。
根据本发明的一个优选实施例, 转换步骤 303之前还可以包括增益控 制步骤 301和 /或降噪处理步骤 302 , 以对输入语音信号进行增益控制和 /或 降噪处理。
另外, 本领域普通技术人员可以理解, 图 3示出了根据本发明一个优 选实施例的通话转录方法步骤的一种执行顺序, 该顺序可以进行调整。 例 如, 增益控制步骤 301可以在降噪处理步骤 302之后执行。
图 4示出了包括根据本发明一个优选实施例的通话转录系统的通话系 统的优选实施例的示意图。该通话系统 400包括用户通话所使用的电话 401 和电话 402、 公用电话交换网 (PSTN) 403、 专用交换机 (IP PBX) 404和 本发明所提供的通话转录系统 405。其中 ,用户通话所使用的电话 401和电 话 402也可以替换为智能终端, 相应地, PSTN 403也可以替换为互联网语 音传输协议 (VOIP) 网络。
如图 4所示,通话的双方分别为用户 1和用户 2。其中,打电话的一方, 例如, 用户 1 , 通过 PSTN 403拨号呼叫用户 2。 IP PBX 404建立双方的呼 叫连接。随后,用户 1和用户 2开始通话,其各自发出的语音经 IP PBX 404 进入通话转录系统 405 ,经转录后的最终形成的通话记录文本通过网络或电 子邮件传送到用户的个人电脑 406。用户 1和用户 2以及其他有需要的用户 可以通过用于通话转录的系统 405形成的通话记录文本方便地检索和查询 通话内容。
本发明已经通过上述实施例进行了说明, 但应当理解的是, 上述实施 例只是用于举例和说明的目的, 而非意在将本发明限制于所描述的实施例 范围内。 此外本领域技术人员可以理解的是, 本发明并不局限于上述实施 例, 根据本发明的教导还可以做出更多种的变型和修改, 这些变型和修改 均落在本发明所要求保护的范围以内。 本发明的保护范围由附属的权利要 求书及其等效范围所界定。
Claims
1. 一种通话转录系统, 包括接收装置、 语音识别装置和加标签装置, 其中,
所述接收装置用于连接到交换机并将输入语音信号转换为音频文件; 所述语音识别装置与所述接收装置相连, 用于将所述音频文件转录为 文本文件; 以及
所述加标签装置与所述语音识别装置相连, 用于为所述文本文件加上 对应的音频文件的时间戳, 并根据所述时间戳将加上时间戳后的所有文本 文件排序并且合并为通话记录文本文件。
2. 根据权利要求 1所述的通话转录系统, 其特征在于, 所述通话转录 系统还包括:
发送装置, 其与所述加标签装置相连, 用于将所述通话记录文本文件 发送给用户。
3. 根据权利要求 2所述的通话转录系统, 其特征在于, 所述通话转录 系统还包括:
存储器, 其连接在所述接收装置和所述语音识别装置之间, 用于存储 所述音频文件。
4. 根据权利要求 3所述的通话转录系统, 其特征在于, 所述通话记录 文本文件的内容包括所述文本文件的内容、 所述文本文件对应的时间戳和 所述文本文件对应的音频文件在所述存储器中的地址。
5. 根据权利要求 3所述的通话转录系统, 其特征在于, 所述加标签装 置还用于根据所述通话记录文本文件和所述通话记录文本文件中的所述文 本文件对应的音频文件在所述存储器中的地址, 在所述存储器中建立通话 数据库,以使所述用户根据所述通话记录文本文件来访问所述通话数据库; 其中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所 述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中 的所述地址。
6. 根据权利要求 1所述的通话转录系统, 其特征在于, 所述通话转录 系统还包括:
存储器, 其连接在所述接收装置和所述语音识别装置之间, 用于存储 所述音频文件; 并且
所述加标签装置还用于根据所述通话记录文本文件和所述通话记录文 本文件中的所述文本文件对应的音频文件在所述存储器中的地址, 在所述 存储器中建立通话数据库, 所述通话数据库具有访问接口以供用户通过网 络直接访问;
其中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所 述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中 的所述地址。
7. 根据权利要求 1所述的通话转录系统, 其特征在于, 所述通话转录 系统还包括:
切分器, 其连接在所述接收装置和所述语音识别装置之间, 用于将所 述音频文件切分为子音频文件以输出到所述语音识别装置。
8. 根据权利要求 7所述的通话转录系统, 其特征在于, 所述切分器进 一步包括:
检测单元, 用于检测所述音频文件中的静音部分; 以及
分割单元, 用于基于所检测的静音部分将所述音频文件切分为所述子 音频文件。
9. 根据权利要求 8所述的通话转录系统, 其特征在于, 所述静音部分 包括在 0.6秒或 0.6秒以上的时间段内分贝值小于或等于噪声阈值的部分。
10. 根据权利要求 7所述的通话转录系统, 其特征在于, 所述通话转 录系统还包括:
存储器, 其连接在所述切分器和所述语音识别装置之间, 用于存储所 述子音频文件; 并且
所述语音识别装置所转录的子音频文件来自于所述存储器。
11. 根据权利要求 1所述的通话转录系统, 其特征在于, 所述通话转 录系统还包括:
自动增益控制器, 其与所述接收装置相连, 用于对所述输入语音信号 进行增益控制。
12. 根据权利要求 1所述的通话转录系统, 其特征在于, 所述通话转 录系统还包括:
滤波器, 其与所述接收装置相连, 用于对所述输入语音信号进行降噪 处理。
13. 一种通话转录方法, 包括:
将输入语音信号转换为音频文件;
将所述音频文件转录为文本文件;
为所述文本文件加上对应的音频文件的时间戳; 以及
根据所述时间戳将加上时间戳后的所有文本文件排序并且合并为通话 记录文本文件。
14. 根据权利要求 13所述的通话转录方法, 其特征在于, 所述合并为 通话记录文本文件之后还包括:
将所述通话记录文本文件发送给用户。
15. 根据权利要求 14所述的通话转录方法, 其特征在于,
所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储 至存储器。
16. 根据权利要求 15所述的通话转录方法, 其特征在于, 所述通话记 录文本文件的内容包括所述文本文件的内容、 所述文本文件对应的时间戳 和所述文本文件对应的音频文件在所述存储器中的地址。
17. 根据权利要求 15所述的通话转录方法, 其特征在于, 所述合并为 通话记录文本文件之后还包括:
根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对 应的音频文件在所述存储器中的地址, 在所述存储器中建立通话数据库, 以使所述用户根据所述通话记录文本文件来访问所述通话数据库;
其中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所 述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中 的所述地址。
18. 根据权利要求 13所述的通话转录方法, 其特征在于,
所述将输入语音信号转换为音频文件之后还包括将所述音频文件存储 至存储器; 并且
所述合并为通话记录文本文件之后还包括:
根据所述通话记录文本文件和所述通话记录文本文件中的文本文件对 应的音频文件在所述存储器中的地址, 在所述存储器中建立通话数据库, 所述通话数据库具有访问接口以供用户通过网络直接访问;
其中, 所述通话数据库中每个数据项包括: 所述文本文件的内容、 所 述文本文件对应的时间戳和所述文本文件对应的音频文件在所述存储器中 的所述地址。
19. 根据权利要求 13所述的通话转录方法, 其特征在于, 将输入语 『号转换为音频文件之后还包括:
将所述音频文件切分为子音频文件。
20. 根据权利要求 13所述的通话转录方法, 其特征在于, 将输入语 『号转换为音频文件之前还包括: 对所述输入语音信号进行增益控帝 降噪处理。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2012/085855 WO2014085985A1 (zh) | 2012-12-04 | 2012-12-04 | 一种通话转录系统和方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2012/085855 WO2014085985A1 (zh) | 2012-12-04 | 2012-12-04 | 一种通话转录系统和方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2014085985A1 true WO2014085985A1 (zh) | 2014-06-12 |
Family
ID=50882752
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/CN2012/085855 WO2014085985A1 (zh) | 2012-12-04 | 2012-12-04 | 一种通话转录系统和方法 |
Country Status (1)
Country | Link |
---|---|
WO (1) | WO2014085985A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423382B2 (en) | 2017-12-12 | 2019-09-24 | International Business Machines Corporation | Teleconference recording management system |
US10582063B2 (en) | 2017-12-12 | 2020-03-03 | International Business Machines Corporation | Teleconference recording management system |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1636384A (zh) * | 2002-02-20 | 2005-07-06 | 思科技术公司 | 进行带可选语音到文本转换的电话会议的方法和系统 |
CN102047647A (zh) * | 2008-05-27 | 2011-05-04 | 高通股份有限公司 | 用于将电话通话转录为文本的方法和系统 |
US20110301952A1 (en) * | 2009-03-31 | 2011-12-08 | Nec Corporation | Speech recognition processing system and speech recognition processing method |
CN102436812A (zh) * | 2011-11-01 | 2012-05-02 | 展讯通信(上海)有限公司 | 会议记录装置及利用该装置对会议进行记录的方法 |
-
2012
- 2012-12-04 WO PCT/CN2012/085855 patent/WO2014085985A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1636384A (zh) * | 2002-02-20 | 2005-07-06 | 思科技术公司 | 进行带可选语音到文本转换的电话会议的方法和系统 |
CN102047647A (zh) * | 2008-05-27 | 2011-05-04 | 高通股份有限公司 | 用于将电话通话转录为文本的方法和系统 |
US20110301952A1 (en) * | 2009-03-31 | 2011-12-08 | Nec Corporation | Speech recognition processing system and speech recognition processing method |
CN102436812A (zh) * | 2011-11-01 | 2012-05-02 | 展讯通信(上海)有限公司 | 会议记录装置及利用该装置对会议进行记录的方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10423382B2 (en) | 2017-12-12 | 2019-09-24 | International Business Machines Corporation | Teleconference recording management system |
US10582063B2 (en) | 2017-12-12 | 2020-03-03 | International Business Machines Corporation | Teleconference recording management system |
US10732924B2 (en) | 2017-12-12 | 2020-08-04 | International Business Machines Corporation | Teleconference recording management system |
US11089164B2 (en) | 2017-12-12 | 2021-08-10 | International Business Machines Corporation | Teleconference recording management system |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020232865A1 (zh) | 会议分角色语音合成方法、装置、计算机设备和存储介质 | |
US6651042B1 (en) | System and method for automatic voice message processing | |
US20110004473A1 (en) | Apparatus and method for enhanced speech recognition | |
US20150106091A1 (en) | Conference transcription system and method | |
CA2706046C (en) | Method for determining the on-hold status in a call | |
JP5042194B2 (ja) | 話者テンプレートを更新する装置及び方法 | |
US9183834B2 (en) | Speech recognition tuning tool | |
WO2019148586A1 (zh) | 多人发言中发言人识别方法以及装置 | |
US20030157968A1 (en) | Personalized agent for portable devices and cellular phone | |
US20100094630A1 (en) | Associating source information with phonetic indices | |
WO2020238209A1 (zh) | 音频处理的方法、系统及相关设备 | |
US20100268534A1 (en) | Transcription, archiving and threading of voice communications | |
CN103856602A (zh) | 一种通话转录系统和方法 | |
CN102903361A (zh) | 一种通话即时翻译系统和方法 | |
US20120209606A1 (en) | Method and apparatus for information extraction from interactions | |
US9936068B2 (en) | Computer-based streaming voice data contact information extraction | |
EP2763136B1 (en) | Method and system for obtaining relevant information from a voice communication | |
CN106713111B (zh) | 一种添加好友的处理方法、终端及服务器 | |
CN108021675A (zh) | 一种多设备录音的自动切分对齐方法 | |
CA2713355C (en) | Methods and systems for searching audio records | |
CN114449105A (zh) | 基于语音的电力客户服务话务质检系统 | |
JPWO2009107211A1 (ja) | 音声データの質問発話部抽出処理プログラム,方法および装置,ならびに音声データの質問発話部を用いた顧客問い合わせ傾向推定処理プログラム,方法および装置 | |
CN113782026A (zh) | 一种信息处理方法、装置、介质和设备 | |
JP2020193994A (ja) | 通話システム、及び通話プログラム | |
CN111341301B (zh) | 一种录音处理方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 12889616 Country of ref document: EP Kind code of ref document: A1 |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
32PN | Ep: public notification in the ep bulletin as address of the adressee cannot be established |
Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205 DATED 05/10/2015) |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 12889616 Country of ref document: EP Kind code of ref document: A1 |