WO2007055233A1 - 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム - Google Patents

音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム Download PDF

Info

Publication number
WO2007055233A1
WO2007055233A1 PCT/JP2006/322255 JP2006322255W WO2007055233A1 WO 2007055233 A1 WO2007055233 A1 WO 2007055233A1 JP 2006322255 W JP2006322255 W JP 2006322255W WO 2007055233 A1 WO2007055233 A1 WO 2007055233A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
speech
voice
editing
recognition
Prior art date
Application number
PCT/JP2006/322255
Other languages
English (en)
French (fr)
Inventor
Makoto Terao
Original Assignee
Nec Corporation
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nec Corporation filed Critical Nec Corporation
Priority to US12/089,619 priority Critical patent/US8155958B2/en
Publication of WO2007055233A1 publication Critical patent/WO2007055233A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • Audio text input system Audio text input method and audio text input program
  • the present invention relates to a voice text input system, a voice text input method, and a voice text input program, and in particular, performs voice text input efficiently by using voice recognition.
  • the present invention relates to a system, a voice text input method, and a voice text input program.
  • Patent Document 1 describes an example of a conventional speech text input system using speech recognition.
  • the speech text input system described in Patent Document 1 automatically recognizes speech data to be transcribed and automatically converts the speech into text, and then manually edits the error location in the recognition result text.
  • This is a voice text system that completes the transcription.
  • this conventional speech text input system 200 includes a speech storage unit 212, a speech recognition unit 211, a recognition result storage unit 213, an editing unit 222, an editing position storage unit 225, and an editing unit.
  • the result storage means 226, the sound reproduction means 221, the sound reproduction time storage means 224, and the synchronization means 223 are comprised.
  • the conventional speech text input system 200 having such a configuration operates as follows.
  • the voice storage unit 212 stores voice data to be transcribed.
  • the voice recognition unit 211 reads the voice data from the voice storage unit 212, recognizes the voice, converts it into recognition result text information, and outputs it to the recognition result storage unit 213.
  • the recognition result Link information that associates the voice data part with each word (word) of text information is output simultaneously.
  • the link information is, for example, time information based on the reproduction time of audio data corresponding to each word.
  • the recognition result text information and link information are stored in the recognition result storage means 213. In this way, recognition result text information and speech data can be associated.
  • the editing means 222 reads the recognition result text information stored in the recognition result storage means 213, edits the error part in the recognition result text according to the editing instruction of the transcription operator, and edits the edited text. Is output to the editing result storage means 226. Similar to a general text editor, the editing means 222 places an editing cursor on the text and edits the text at the editing cursor position. The position of the editing cursor is stored in the editing position storage means 225.
  • the voice reproduction means 221 reproduces the voice data stored in the voice storage means 212 in accordance with the voice reproduction instruction of the transcription operator. At this time, the time of the sound being reproduced is stored in the sound reproduction time storage means 224. The transcriber is working on editing the error in the recognition result text while listening to the voice being played.
  • Synchronizing means 223 synchronizes the position of the editing cursor stored in editing position storage means 225 with the audio reproduction time stored in audio reproduction time storage means 224 in accordance with the operator's synchronization instruction. This can be done by referring to link information stored in the recognition result storage means 213 that associates the recognition result text information with the voice data. That is, when synchronizing the voice playback time with the position of the editing cursor, the voice playback time may be set to the time corresponding to the recognition result word where the editing cursor is placed. By synchronizing the audio playback time with the position of the editing cursor in this way, the transcription operator can quickly hear and confirm the audio corresponding to the position of the editing cursor during the editing operation.
  • the editing cursor when the position of the editing cursor is synchronized with the audio playback time, the editing cursor can be moved on the recognition result text corresponding to the portion of the audio data being played back. . In this way, the editing cursor position is synchronized with the audio playback time. As a result, the transcription operator can place the editing cursor at a position on the text corresponding to the misrecognized portion as soon as the misrecognized speech is heard.
  • the position of the editing cursor placed on the recognition result text is used by using the correspondence between the recognition result text and the voice data.
  • the audio playback time can be synchronized with each other, improving the efficiency of the transcription work.
  • Patent Document 1 Japanese Patent Publication No. 2004-530205
  • the recognition result text information is output in units of words as enclosed in square brackets, and time information of audio data corresponding to each of the words “next", “no”, “meeting”, etc. is provided. It is given as link information. Therefore, at this time, the audio playback time can be synchronized with the position of the edit cursor regardless of which word the edit cursor is on, and conversely, the audio that is being played back no matter where the audio playback time is. You can synchronize the editing cursor on the word corresponding to the location.
  • the speech text input system of the present invention includes speech recognition means for speech recognition of speech data and outputting recognition result information to which time information of the speech data is added, and text information obtained by transcription of speech data. It is characterized by comprising text editing means for creating a certain edited result text, and matching means for matching the edited result text and the voice data by collating the edited result text with the recognition result information.
  • the matching unit collates the edited result text with the recognition result information, associates the edited result text with the time information of the recognition result information, and edits the edited result text and the voice. Correlate data. Therefore, it is possible to obtain information indicating the correspondence between the position on the edited result text and the playback location of the audio data.
  • the edited result text to which time information is not added can be associated with the speech data.
  • the recognition result information described above is composed of written characters, and the matching means may collate the edited result text and the recognition result information by matching the written characters. .
  • the edited result text is usually written by written characters, so that the edited result text and the recognition result information can be easily collated.
  • the recognition result information described above is composed of subwords, and includes subword conversion means for converting the edit result text into a subword string, and the matching means includes the edit result text and
  • the recognition result information may be collated by subword matching.
  • subwords are basic acoustic units such as phonemes and syllables.
  • the subword conversion means described above may convert the edited text into a subword string by morphological analysis using a dictionary with reading information. In this way, even if the editing result text to be converted is not a word-by-word text, such as Japanese, and is in a language, it is converted into a sub-word string using the reading information provided by the morpheme dictionary. Can be converted.
  • the text editing means described above stores the input powerful character string before powerful kanji conversion
  • the subword conversion means stores the powerful character string before powerful kanji conversion. You can refer to the character string and convert the edited text to a subword string. In this way, the reading information of the edited result text can be obtained from a powerful character string, so that the edited result text can be converted into a subword string without using a morphological dictionary.
  • the editing cursor of the text editing unit refers to the voice playback unit that plays back the voice data and the correspondence between the edit result text obtained by the matching unit and the voice data.
  • Synchronizing means for synchronizing the position and the sound reproduction time of the sound reproducing means may be provided. In this way, the audio data playback location and editing The cursor position can be linked, and the operator can efficiently transcribe the voice.
  • the synchronization means described above may synchronize the edit cursor position with the audio reproduction time. In this way, the editing cursor can be moved to the position on the text corresponding to the playback location of the audio data, and the operator can check the editing result text while listening to the speech and quickly rewrite the erroneous recognition location. it can.
  • the synchronization means described above may synchronize the speech reproduction time with the editing cursor position. This makes it possible to play back the voice data corresponding to the text at the editing cursor position, and the operator can immediately hear the voice corresponding to the editing cursor position.
  • the speech text recognition method of the present invention includes a speech recognition process for speech recognition of speech data and outputting recognition result information to which time information of the speech data is added, and text information obtained by transcription of speech data. It is characterized by having a text editing process for creating an edited result text, and a matching process for matching the edited result text with the voice data by comparing the edited result text with the recognition result information.
  • the editing result text and the recognition result information are collated in the matching step, the editing result text and the time information of the recognition result information are associated, and the editing result text and the speech data Are associated. Therefore, in speech transcription work, text information that has been edited with respect to recognition result information, or edited result text that is information that does not have time information, such as new transcription text information, is also compatible with voice data. Thus, it is possible to obtain information indicating the correspondence between the position on the edit result text and the playback position of the audio data.
  • the recognition result information described above is composed of written characters, and in the matching process described above, the edited result text and the recognition result information are matched with the written characters. You may collate. In this way, the edit result text is usually written down by the written characters, so that the edit result text can be easily associated with the recognition result information.
  • the recognition result information described above is composed of subwords, and has a subword conversion step for converting the edit result text into a subword string before the matching step. In the matching process, the edit result text and the recognition result information may be collated by subword matching.
  • the recognition accuracy in units of subwords such as phonemes is relatively higher than the recognition accuracy of written characters, so when the edited result text and recognition result information are collated based on the consistency of the written characters Compared with the above, the voice data and the edited result text can be associated with higher accuracy.
  • the edit result text may be converted into a subword string by morphological analysis using a dictionary with reading information.
  • the morpheme dictionary is provided in the morpheme dictionary, and it is converted into subword strings using the reading information. Can be converted.
  • the input powerful character string before conversion into kanji characters is stored in the text editing step described above, and the kana character string before conversion into kana-kanji characters is referred to in the subword conversion step. Then, you can convert the edited text into a subword string. In this way, since it is possible to obtain powerful character string reading information of the edited text, it is possible to convert the edited text into a phoneme string without using a morphological dictionary.
  • the text editing step described above refers to the audio reproduction step of reproducing audio data, and the correspondence between the edit result text obtained in the matching step and the audio data.
  • the editing cursor position may be synchronized with the speech reproduction time in the synchronization step described above.
  • the editing cursor can be moved to the position on the text corresponding to the playback location of the audio data, and the operator can quickly rewrite the misrecognized location by checking the edit result text while listening to the speech. be able to.
  • the speech playback time is set. You may synchronize with an edit cursor position. This makes it possible to play back the audio data corresponding to the text at the editing cursor position, and the operator can immediately hear the audio corresponding to the editing cursor position.
  • the speech text recognition program includes speech recognition processing for speech recognition of speech data and output of recognition result information to which time information of the speech data is added, and text information obtained by transcription of speech data. It is characterized in that the computer executes text editing processing for creating a certain editing result text, and matching processing for matching the editing result text with the speech data by matching the editing result text with the recognition result information.
  • the recognition result information described above is composed of written characters, and the matching process is performed by matching the edited result text and the recognition result information by matching the written characters. It may be content.
  • the above-mentioned recognition result information is composed of subwords, and the computer executes subword conversion processing for converting the edited result text into a subword sequence. And the recognition result information may be verified by matching subwords.
  • the above-described subword conversion processing may have a content such that the edited result text is converted into a subword string by morphological analysis using a dictionary with reading information.
  • the input powerful character string before the powerful kanji conversion is stored in the text editing process described above, and the subword conversion process is performed before the powerful kanji conversion.
  • the contents may be such that the edited text is converted into a subword string by referring to the character string.
  • the synchronization processing described above may be such that the editing cursor position is synchronized with the audio reproduction time.
  • the above voice text In the storage program the above-described synchronization processing may be such that the audio playback time is synchronized with the edit cursor position.
  • the editing result text is associated with the audio data by matching processing, and the correspondence between the position on the editing result text and the reproduction position of the audio data is indicated.
  • Information can be obtained. Therefore, similar to the above-described speech text system, in speech transcription work, it does not have time information such as text information obtained by editing the recognition result information or new transcription text information.
  • the edit result text which is text information, can be associated with voice data.
  • editing is performed by collating the editing result text with the time information added thereto with the recognition result information including the time information.
  • Time information can also be obtained on the result text. Therefore, the transcript of the speech, the edit result text obtained as a result of editing the recognition result text, or the edit result text and speech that is text information newly transcribed without using the recognition result text. Data can be associated.
  • FIG. 1 is a functional block diagram of the audio text input system 1.
  • the voice text entry system 1 includes a voice recognition device 10 and an editing device 20.
  • the speech recognition device 10 includes speech recognition means 11, speech storage means 12, and recognition result storage means.
  • the editing device 20 includes a text editing unit 22, an editing position storage unit 25,
  • the editing result storing means 26, the sound reproducing means 21, the sound reproducing time storing means 24, the matching means 27, and the synchronizing means 23 are provided.
  • the voice storage unit 12 stores voice data to be converted into text.
  • This audio data is, for example, digital data obtained by sampling an analog audio signal at a predetermined sampling frequency and quantizing each sampling value.
  • the voice recognition means 11 reads voice data from the voice storage means 12, recognizes the voice, The utterance content is converted into text. Then, the recognition result text to which the time information based on the reproduction time of the audio data is added is output to the recognition result storage means 13 as the recognition result information.
  • This time information is information indicated by the elapsed time, the number of elapsed frames, and the like from a reference point (for example, the head of the data) in the audio data.
  • the text editing means 22 is a text editor for editing text information, reads the recognition result text from the recognition result storage means 13, and edits the recognition result text according to the editing instruction of the transcription operator. By this editing, the erroneous part of the speech recognition is corrected, and the text information in which the speech data is transcribed is finally created.
  • the editing result storage means 26 stores the text information edited by the text editing means 22 as an editing result text.
  • the editing position storage means 25 stores the position of the editing cursor on the text editor.
  • the voice reproduction means 21 reproduces the voice data stored in the voice storage means 12 according to the voice reproduction instruction of the transcription operator.
  • the audio reproduction time storage means 24 always stores the time of the audio part that the audio reproduction means 21 reproduces.
  • the matching unit 27 collates the edited result text stored in the edited result storage unit 26 with the recognition result information with time information stored in the recognition result storage unit 13, thereby Correlate with audio data. As a result, it is possible to associate the time information with the edited portion in which the time information is lost in the editing result text.
  • the collation between the edited result text and the recognition result information is performed in units of written characters.
  • the synchronization means 23 is stored in the editing position storage means 25 by referring to the matching result between the editing result text and the voice data by the matching means 27 in accordance with the operator's synchronization instruction!
  • the cursor position and the audio playback time storage means 24 are stored to synchronize the audio playback time.
  • the voice storage unit 12, the recognition result storage unit 13, the voice reproduction time storage unit 24, the edit position storage unit 25, and the edit result storage unit 26 described above are each stored in, for example, a magnetic disk device or a semiconductor memory. Consists of devices.
  • the voice recognition unit 11 reads the voice data stored in the voice storage unit 12, recognizes the voice, and uses the recognition result text to which time information for associating with the voice data is added as the recognition result information.
  • the result is output to the recognition result storage means 13 (S101 in FIG. 2).
  • the speech recognition processing in the speech recognition means 11 is, for example, a general method using MFCC (Mel-scale Frequency Cepstral Coefficients) as a feature quantity, a hidden Markov model as an acoustic model, and a word N-gram model as a language model. This is realized by a typical large vocabulary continuous speech recognition technology.
  • MFCC Mel-scale Frequency Cepstral Coefficients
  • the text editing means 22 is a text editor for the transcription operator to enter a voice and edits the text at the editing cursor position displayed on the display screen or the like. That is, the text at the editing cursor position is rewritten and edited by the keyboard input by the operator (S102 in FIG. 2). At this time, the transcription operator can confirm the editing cursor position by inverting the character corresponding to the editing cursor position or displaying an underline beside or under the character.
  • the edit cursor position on the text is stored in the edit position storage means 25.
  • the text information edited by the text editing means 22 is stored in the editing result storage means 26.
  • the text editing unit 22 reads the text information of the recognition result stored in the recognition result storage unit 13 before editing and edits the error part in the recognition result! Assuming /, it is possible, however, that no text exists without reading the recognition result.
  • the voice reproduction means 21 reproduces the transcription target voice data stored in the voice storage means 12 in accordance with the voice reproduction instruction by the input of the transcription operator such as a keyboard, and outputs an output device such as a speaker. Force also outputs audio. Audio from an output device such as a speaker By outputting, the transcription worker can transcribe by listening to the voice. At this time, the time of the sound being reproduced is stored in the sound reproduction time storage means 24. When the audio reproduction time stored in the audio reproduction time storage unit 24 is rewritten by the synchronization unit 23 described later, the audio reproduction unit 21 reproduces the audio at the newly rewritten time.
  • the synchronization means 23 determines whether or not there is a transcription operator synchronization instruction (S103 in FIG. 2), and if there is a synchronization instruction, the editing cursor position stored in the editing position storage means 25 and Performs a synchronization process to synchronize the audio playback time stored in the audio playback time storage means 24.
  • the former synchronization process makes it possible to reproduce audio data corresponding to the text at the cursor position
  • the latter synchronization process moves the editing cursor to a position on the text corresponding to the place where the sound is played. Make it possible.
  • the matching means 27 When the synchronization means 23 receives a synchronization instruction (Yes in S103 in FIG. 2), the matching means 27 first stores the edited result text stored in the edited result storage means 26 and the recognition result memory. By collating the recognition result information stored in the means 13 (S104 in FIG. 2), the edited result text is associated with the voice data (S105 in FIG. 2).
  • FIG. 3 is a diagram illustrating the operation of the matching unit 27 in the above example.
  • Matching means 27 uses the edited result text expressed in written characters “The next meeting will be held at 8 am on the 26th,” and the recognition result information written text “ The event will be held from all eight characters of the ground on the road ”as shown in Fig. 3 (S104 in Fig. 2).
  • This verification is based on the well-known technique of dynamic programming (DP: Dvnamic Programmin It can be obtained by performing matching by g) in units of written characters. In other words, “2” “No” “ The correspondence between the two is taken by the notation characters such as “eight”.
  • the notation characters of the recognition result information are accompanied by time information.
  • P1 on the edited result text in FIG. 3 corresponds to the position P2 of the recognition result information
  • P2 corresponds to the time t3 of the voice data
  • P1 can be associated with time t3 on the audio data.
  • the synchronizer 23 refers to the correspondence between the edit result text and the audio data by the matching unit 27, so that the audio reproduction time stored in the audio reproduction time storage unit 24 is stored in the editing position storage unit 25. Synchronize with the edit cursor position stored in, or conversely, synchronize the edit cursor position stored in the edit position storage means 25 with the audio playback time stored in the audio playback time storage means 24. (Step S1 06 in Fig. 2).
  • the matching process (S104 and S105 in Fig. 2) between the edited result text and the voice data by the matching means 27 is performed when there is an operator's synchronization instruction.
  • This association may be executed at any time when the text information is edited. That is, S104 and S105 may be executed between S102 and S103 in FIG. In this case, when there is a synchronization instruction, the audio playback time and editing by the synchronization means 23 are immediately performed. Synchronization processing with the cursor position (S106 in Fig. 2) is executed.
  • the matching means 27 associates the recognition result information with the V without the time information and the recognition result information with the edit result text and the time information. It is possible to associate the edited result text obtained as a result of editing the text or the recognition result text, which is text information newly created without using the recognition result text, and the voice data. This makes it possible for the operator to always use the synchronization function between the editing cursor position and the audio playback time, regardless of whether or not the editing work is performed, greatly improving the efficiency of the transcription work. To do.
  • FIG. 4 is a functional block diagram of the audio text input system 2.
  • the matching unit 30 matches the edited result text with the recognition result information
  • the matching of subwords is not the same as the matching of the notation characters as in the matching unit 27 of the first embodiment. 4 and the speech recognition unit 11a in FIG. 4 outputs a subword string with time information in addition to the notation characters as recognition result information, and the recognition result storage unit 13 has subwords with time information in addition to the notation characters. It differs from the speech text input system 1 of the first embodiment shown in FIG. 1 in that the column is stored as recognition result information.
  • the matching means 30 in the second embodiment includes a subword conversion means 31 and a subword matching means 32.
  • the second embodiment is characterized in that the matching means 30 associates the edited result text with the recognition result information by subword matching.
  • subwords are basic acoustic units such as phonemes and syllables.
  • phonemes are employed as subwords, but the same applies when other basic acoustic units such as syllables are used.
  • the operation of the matching means 30 will be described in detail using a specific example.
  • the speech recognition means 11a also outputs a phoneme string “rj ikain okaigiwaniju: ronichinozenhachijikarakaisaiitasnim asu” in addition to the written characters as recognition result information. At this time, time information of the corresponding voice data is added to the phoneme string.
  • the recognition result storage means 13 stores a phoneme string with time information in addition to written characters as recognition result information.
  • the speech recognition means 11a performs speech recognition processing in units of phonemes and syllables, it is possible to output the recognition result as a phoneme string.
  • the subword converting means 31 converts the edit result text composed of the notation characters into a subword string.
  • phonemes are adopted as subwords, so the edited text is converted into a phoneme string. That is, the text “The next meeting will be held at 8:00 am on the 26th” will be converted to “j ikainokaigiwaniju: rokunic hinogozenhachijiKarakais aiitashimasuJ and ⁇ ⁇ ⁇ (1”.
  • the subword matching unit 32 collates the phoneme string of the edited result text converted by the subword conversion unit 31 with the phoneme string of the recognition result information stored in the recognition result storage unit 13. This situation is shown in Fig. 6.
  • By collating phonemes and making correspondences it is possible to make robust and accurate associations with recognition errors rather than making associations with written characters. This is because, in general, in speech recognition, even when a written character is misrecognized, subwords such as phonemes are often correctly answered !, t, and so on.
  • the edited text is converted into a sub-word string by referring to the word dictionary to which the phonetic symbol is assigned. Is possible. However, it seems that the target language is Japanese In case of language, the edited text cannot be directly converted to a sub-word string.
  • FIG. 7 is a block diagram showing an example of the subword converting means 31 that converts Japanese editing result text into a subword string.
  • the sub-word conversion means 31 shown in FIG. 7 includes morpheme analysis means 33 and morpheme analysis dictionary storage means 34 with reading information.
  • the morpheme analyzing means 33 is a known technique for the edit result text input from the edit result storage means 26 "the next meeting will be held from 8:00 am on the 26th". Perform an elemental analysis. At this time, the morpheme analysis means 33 refers to the morpheme analysis dictionary storage means 34 with reading information and performs morpheme analysis. I will give you all the power you need. Reading information power Converting into subwords such as phonemes and syllables is easy. With the above method, the edited text can be converted into a subword string.
  • Kana characters that is, reading information
  • Kanji conversion is performed. Therefore, by storing the keyboard input, the reading information of the edited result text is stored. Obtainable. For example, when you type “nijyuurokunichi” in order to type “26th day” and then perform the conversion of the character, you will be able to store this reading information obtained from the keyboard input.
  • the subword conversion means 31 can convert the edit result text into a subword string by referring to the reading information obtained from the keyboard input.
  • the subword conversion unit 31 is provided in the matching unit 30, but the subword conversion unit 31 may be provided in the text editing unit 22.
  • the subword of the edit result text at the timing when the text information is edited Conversion into a sequence is performed, and the converted subword sequence is also stored in the editing result storage means 26. Therefore, the matching means 30 can collate the edited result text and the recognition result information by matching subwords.
  • the matching means 30 collates the edited text and recognition result information by matching subwords such as phonemes with higher recognition accuracy than the written characters. Even if the speech recognition accuracy is low, the edited text and speech data can be correlated with high V accuracy.
  • the speech text input system according to the third embodiment is different from the second embodiment in that the language of the speech data to be transcribed is English instead of Japanese.
  • the configuration of the voice text entry system in the third embodiment is the same as in FIG.
  • FIG. 6 is a diagram showing a specific example of the operation of the matching means in the third embodiment.
  • Figure 6 shows that “She an you recommend a hotel which is not too expensive?” "we give not too expensiv e?”, it shows how it was edited correctly.
  • the voice recognition means 1 la is not only a character as recognition result information but also “k ae ny uw w ey tf ax m eh nd ow uw n 1 1 eh 1 w iy g ih vn aa 1 1 uw iy ksp eh ns iy Also outputs v and ⁇ ⁇ ⁇ U.
  • the time information of the corresponding speech data is added to the phoneme string, and the recognition result storage means 13 includes the time information in addition to the written characters as the recognition result information.
  • the speech recognition means 11a since the speech recognition means 11a performs speech recognition processing in units of phonemes and syllables, it is possible to output the recognition result as a phoneme string.
  • the subword conversion means 31 converts the edit result text composed of the notation characters into a subword string.
  • the phoneme is described as an example of the subword, so the edit result text is converted into a phoneme string. That is, “Can you recommend a hotel w hich is not too expensive?”, And ⁇ ⁇ Edit result 3 rst k ae ny uw r eh k ax m eh nd ax hn ow uw t eh 1 w ih ch ih zn aa 1 1 uw iy ksp en ns iy v To do.
  • the subword matching unit 32 collates the phoneme string of the edited result text converted by the subword conversion unit 31 with the phoneme string of the recognition result information stored in the recognition result storage unit 13. As a result, as shown in Fig. 6, the edit result text and the voice data can be robustly associated with misrecognition. Because “recommend” is misrecognized as “wait for men don't”, at the phoneme level, “r eh k ax m eh nd” becomes “w ey tf ax m eh nd...” This is because some phonemes are correct.
  • the subword matching means 32 obtains the correspondence between the edited result text and the recognition result information in this way, the recognition result information is accompanied by time information. Correspondence can be taken.
  • the speech text system according to the third embodiment can associate the edited text with speech data even if the language of speech data is English. As a result, even if the audio data to be transcribed is in English, the operator can always use the synchronization function between the editing cursor position and the audio playback time, improving the transcription work efficiency. To do.
  • FIG. 9 is a configuration diagram of the computer 3 controlled by a program when the first embodiment, the second embodiment, and the third embodiment are configured by the program.
  • the computer 3 includes a data processing device 50 including an MPU (Micro Processing Unit), a storage device 40 including a magnetic disk and a semiconductor memory, a liquid crystal display, a speaker, and the like. And an input / output device 60 having an input device such as a keyboard and a mouse, and a speech text input program 70.
  • MPU Micro Processing Unit
  • the storage device 40 is used as voice storage means 41, recognition result storage means 42, edit position storage means 43, voice reproduction time storage means 44, edit result storage means 45, and the like.
  • the voice text input program 70 is read by the data processing device 50 and controls the operation of the data processing device 50, thereby realizing the functional means in each of the embodiments described above on the data processing device 50. . That is, the data processing device 50 is the same as the speech recognition means 11 and lla, the sound reproduction means 21, the text editing means 22, the synchronization means 23, and the matching means 27 and 30 under the control of the speech text recognition program 70. Perform the following process.
  • FIG. 1 is a block diagram showing a configuration of a speech text system that is a first embodiment of the present invention.
  • FIG. 2 is a flowchart showing the operation of the speech text system shown in FIG.
  • FIG. 3 is a diagram showing a specific example of the operation of the matching means in FIG. 1.
  • FIG. 4 is a block diagram showing a configuration of a speech text system that is the second and third embodiments of the present invention.
  • FIG. 5 is a block diagram showing a configuration of the matching means in FIG. 4.
  • FIG. 6 is a diagram showing a specific example of the operation of the matching means in FIG.
  • FIG. 7 is a block diagram showing a configuration example of subword conversion means in FIG. 5.
  • FIG. 7 is a block diagram showing a configuration example of subword conversion means in FIG. 5.
  • FIG. 8 is a diagram showing a specific example of the operation of the matching means in the spoken text system according to the third embodiment of the present invention.
  • FIG. 9 is a block diagram showing a configuration of a computer according to a fourth embodiment of the present invention.
  • FIG. 10 is a block diagram showing a configuration of a conventional speech text system.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 認識結果テキストに対して編集を加えた結果得られる編集結果テキスト、または新規に作成した書き起こしテキスト情報である編集結果テキストと音声データとを対応づけることができる音声テキスト化システム等を提供すること。 【解決手段】 音声テキスト化システム1は、テキスト編集手段22により得られた編集結果テキストと音声認識手段11により生成された時刻情報付きの音声認識結果情報とを照合することにより、編集結果テキストと音声データとを対応づけるマッチング手段27を備えている。

Description

音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プロ グラム
技術分野
[0001] 本発明は、音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プ ログラムに関し、特に、音声認識を利用することで効率の良い音声のテキストイ匕を行う 音声テキストイ匕システム、音声テキストイ匕方法および音声テキストイ匕用プログラムに関 する。
背景技術
[0002] 会議や講演などの議事録を作成するためには、音声データをテキストィヒする作業 が必要となる(以下では、このような音声のテキストイ匕を「書き起こし」と呼ぶ)。しかし、 音声の書き起こし作業には非常に多くの人的コストがかかるため、作業効率の改善 が求められている。一方で、近年の音声認識技術の進歩により、自由発話を対象とし た音声認識の精度が向上しつつある。このような状況下で、音声認識技術を利用し た書き起こし作業の支援が検討されるようになってきた。
[0003] 音声認識を利用した従来の音声テキストイ匕システムの一例が、特許文献 1に記載さ れている。この特許文献 1に記載された音声テキストイ匕システムは、書き起こし対象と なる音声データを音声認識することで音声を自動的にテキスト化した上で、認識結果 テキスト中の誤り箇所を人手によって編集して書き起こしを完成させる音声テキストイ匕 システムである。図 10に示すように、この従来の音声テキストイ匕システム 200は、音声 記憶手段 212と、音声認識手段 211と、認識結果記憶手段 213と、編集手段 222と、 編集位置記憶手段 225と、編集結果記憶手段 226と、音声再生手段 221と、音声再 生時刻記憶手段 224と、同期手段 223とから構成されて 、る。
[0004] このような構成を有する従来の音声テキストイ匕システム 200は次のように動作する。
音声記憶手段 212には、書き起こし対象となる音声データが記憶されている。音声認 識手段 211は、音声記憶手段 212から音声データを読み込んで音声認識し、認識 結果テキスト情報に変換して認識結果記憶手段 213に出力する。このとき、認識結果 テキスト情報の各ワード (単語)に対して音声データの部分を対応させるリンク情報を 同時に出力する。リンク情報とは、例えば、各ワードに対応する音声データの再生時 間に基づいた時刻情報などである。この認識結果テキスト情報とリンク情報は、認識 結果記憶手段 213に記憶される。このようにすることで、認識結果テキスト情報と音声 データとを対応づけることができる。
[0005] 編集手段 222は、認識結果記憶手段 213に記憶された認識結果テキスト情報を読 み込み、書き起こし作業者の編集指示に従って認識結果テキスト中の誤り箇所を編 集し、編集されたテキストを編集結果記憶手段 226に出力する。編集手段 222は一 般的なテキストエディタと同様に、テキスト上に編集カーソルを置き、編集カーソル位 置のテキストに対して編集が行われる。この編集カーソルの位置は、編集位置記憶 手段 225に記憶されている。
[0006] 一方、音声再生手段 221は、書き起こし作業者の音声再生指示に従って音声記憶 手段 212に記憶されている音声データを再生する。このとき、再生している音声の時 刻は、音声再生時刻記憶手段 224に記憶されている。書き起こし作業者は、再生し ている音声を聞き取りながら認識結果テキスト中の誤り箇所の編集作業を進めていく
[0007] 同期手段 223は、作業者の同期指示に従って編集位置記憶手段 225に記憶され ている編集カーソルの位置と、音声再生時刻記憶手段 224に記憶されている音声再 生時刻とを同期させる。これは、認識結果記憶手段 213に記憶されている、認識結 果テキスト情報と音声データとを対応づけるリンク情報を参照することで可能となる。 すなわち、音声再生時刻を編集カーソルの位置に同期させる場合は、編集カーソル が置かれている認識結果単語に対応する時刻に音声再生時刻を合わせれば良い。 このように音声再生時刻を編集カーソルの位置に同期させることにより、書き起こし作 業者は、編集作業中に編集カーソルの位置に対応する音声を素早く聞いて確認す ることがでさる。
[0008] また、これとは逆に、編集カーソルの位置を音声再生時刻に同期させる場合は、再 生している音声データの部分に対応する認識結果テキスト上に編集カーソルを移動 させることもできる。このように編集カーソルの位置を音声再生時刻に同期させること により、書き起こし作業者は誤認識されている音声を聞いたらすぐに、その誤認識箇 所に該当するテキスト上の位置に編集カーソルを置くことができる。
[0009] 以上述べたように、この従来の音声テキストイ匕システムでは、認識結果テキストと音 声データとの対応づけを利用することで、認識結果テキストの上に置かれた編集カー ソルの位置と音声再生時刻とを相互に同期させることができるため、書き起こし作業 の効率が改善される。
[0010] 特許文献 1 :特表 2004— 530205号公報
発明の開示
発明が解決しょうとする課題
[0011] この従来の音声テキスト化システムの問題点は、認識結果テキストに対して編集を 加えた場合や、認識結果テキストを使わずに新規にテキストを編集した場合に、編集 後のテキストと音声データとを対応づけられない、ということである。その理由は、編集 後のテキストの編集箇所に対しては詳細な時刻情報が付与されて 、な 、ためである
[0012] 以下で、認識結果テキストに対して編集を加えた場合について、具体例を用いて説 明する。
[0013] 「次回の会議は二十六日の午前八時力 開催致します」という発話の音声データが 「次回」「の」「会議」「は」「二重」「路」「に」「地」「の」「全」「八」「字」「から」「開催」「致し 」「ます」と認識された場合について説明する。
[0014] 認識結果テキスト情報は鍵括弧で括られたように単語単位で出力されており、各単 語「次回」「の」「会議」などのそれぞれに対して対応する音声データの時刻情報がリ ンク情報として付与されている。したがって、この時点では、編集カーソルがどの単語 上にあっても編集カーソルの位置に音声再生時刻を同期させることができるし、また 、逆に、音声再生時刻がどこであっても再生している音声箇所に対応する単語上に 編集カーソルを同期させることができる。
[0015] しかし、書き起こし作業者の編集作業によって「二重」「路」「に」「地」「の」「全」「八」 「字」という誤認識部分を「二十六日の午前八時」と書き換えて編集した場合には問 題が生じる。 [0016] 編集箇所の「二十六日の午前八時」に対しては編集によって時刻情報が失われて おり、その結果、編集結果テキストと音声データとの対応づけが得られなくなつている 。例えば、編集後のテキスト中の「午前」の時刻情報が得られないため、「午前」に対 応する音声データがどこであるかが分力 ない。従って、編集カーソルが「午前」の上 に置かれているときに音声再生時刻を同期させることはできないし、また、逆に、「午 前」の音声を再生しているときに編集カーソルをテキスト上の「午前」に同期させること もできない。このように、編集結果テキストと音声データとを対応づけられないと、編集 途中で書き起こし作業者が編集箇所を再度確認したいと思ったときに、編集カーソル と音声再生時刻との同期機能を利用することができず、作業の効率が低下してしまう
[0017] また、ある作業者が編集した書き起こしテキストを別の作業者がクロスチェックするこ とは一般的に広く行われているが、そのような場合でも、同様の問題が生じる。
[0018] そこで、本発明は、音声の書き起こし作業において、認識結果テキスト情報に対し て編集を加えた場合や、認識結果テキストを使わずに新規にテキストを編集した場合 でも、編集結果テキスト情報と音声データとを対応づけることができる音声テキストイ匕 システム等を提供することをその目的とする。 課題を解決するための手段
[0019] 本発明の音声テキストイ匕システムは、音声データを音声認識して当該音声データ の時刻情報が付加された認識結果情報を出力する音声認識手段と、音声データを 書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集手段と、編 集結果テキストと認識結果情報とを照合することで、編集結果テキストと音声データと を対応付けるマッチング手段とを備えたことを特徴とする。
[0020] 上記音声テキストイ匕システムによれば、マッチング手段が編集結果テキストと認識結 果情報とを照合し、編集結果テキストに認識結果情報の時刻情報を対応させて、編 集結果テキストと音声データとを対応付ける。よって、編集結果テキスト上の位置と音 声データの再生箇所との対応関係を示す情報を得ることができる。
[0021] そのため、音声の書き起こし作業において、時刻情報が付加されていない編集結 果テキストを音声データと対応づけることができる。 [0022] 上記の音声テキストイ匕システムにおいて、上述した認識結果情報が表記文字で構 成されており、マッチング手段は、編集結果テキストと認識結果情報とを表記文字の 整合によって照合してもよい。このようにすれば、編集結果テキストは通常、表記文字 によって書き起こされることから、編集結果テキストと認識結果情報とを容易に照合す ることがでさる。
[0023] 上記の音声テキストイ匕システムにおいて、上述した認識結果情報がサブワードで構 成されており、編集結果テキストをサブワード列に変換するサブワード変換手段を備 え、マッチング手段は、編集結果テキストと認識結果情報とをサブワードの整合によ つて照合してもよい。このようにすると、音声認識処理においては表記文字における 認識精度が低い場合でもサブワード単位での認識精度は比較的高いため、編集結 果テキストと認識結果情報とを表記文字の整合により照合した場合に比べより高い精 度で照合することができる。よって、高い精度で編集結果テキストと音声データとを対 応付けることができる。ここで、サブワードは、音素や音節等の基本的な音響単位の ことである。
[0024] 上記の音声テキストイ匕システムにおいて、上述したサブワード変換手段は、読み情 報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換 してもよい。このようにすれば、変換対象の編集結果テキストが、例えば日本語のよう にテキストを単語単位で分かち書きしな 、言語の場合でも、形態素辞書が備えて ヽ る読み情報を利用してサブワード列に変換することができる。
[0025] 上記の音声テキストイ匕システムにおいて、上述したテキスト編集手段は、入力された 力な漢字変換前の力な文字列を記憶し、サブワード変換手段は、力な漢字変換前の カゝな文字列を参照して編集結果テキストをサブワード列に変換してもよ ヽ。このように すれば、力な文字列から編集結果テキストの読み情報を得ることができるから、形態 素辞書を用いることなく編集結果テキストをサブワード列に変換することができる。
[0026] 上記の音声テキスト化システムにおいて、音声データを再生する音声再生手段と、 上述したマッチング手段で得られる編集結果テキストと音声データとの対応付けを参 照して、テキスト編集手段の編集カーソル位置と音声再生手段の音声再生時刻とを 同期させる同期手段とを備えてもよい。このようにすると、音声データの再生箇所と編 集カーソル位置とをリンクさせることができ、作業者は音声の書き起こしを効率よく行う ことができる。
[0027] 上記の音声テキストイ匕システムにおいて、上述した同期手段は、編集カーソル位置 を音声再生時刻に同期させてもよい。このようにすれば、音声データの再生箇所に 対応するテキスト上の位置に編集カーソルを移動させることができ、作業者は音声を 聞き取りながら編集結果テキストを確認し誤認識箇所を迅速に書き換えることができ る。
[0028] 上記の音声テキストィヒシステムにおいて、上述した同期手段は、音声再生時刻を編 集カーソル位置に同期させてもよい。このよう〖こすると、編集カーソル位置のテキスト に対応する部分の音声データを再生することができ、作業者は編集カーソルの位置 に対応する音声をすぐに聞くことができる。
[0029] 本発明の音声テキストイ匕方法は、音声データを音声認識し当該音声データの時刻 情報が付加された認識結果情報を出力する音声認識工程と、音声データを書き起こ したテキスト情報である編集結果テキストを作成するテキスト編集工程と、編集結果テ キストと認識結果情報とを照合し編集結果テキストと音声データとを対応付けるマッチ ング工程とを有したことを特徴とする。
[0030] 上記音声テキストィヒ方法によれば、マッチング工程で編集結果テキストと認識結果 情報とが照合され、編集結果テキストと認識結果情報の時刻情報とが対応付けられ て、編集結果テキストと音声データとが対応付けられる。よって、音声の書き起こし作 業において、認識結果情報に対して編集を加えたテキスト情報,または新規の書き 起こしテキスト情報のような時刻情報を持たない情報である編集結果テキストでも音 声データと対応づけることができ、編集結果テキスト上の位置と音声データの再生箇 所との対応関係を示す情報を得ることができる。
[0031] 上記の音声テキストイ匕方法にぉ 、て、上述した認識結果情報が表記文字で構成さ れており、上述したマッチング工程では、編集結果テキストと認識結果情報とを表記 文字の整合によって照合してもよい。このようにすれば、編集結果テキストは通常、表 記文字によって書き起こされることから、編集結果テキストと認識結果情報とを容易に 対応づけることができる。 [0032] 上記の音声テキストイ匕方法にぉ 、て、上述した認識結果情報がサブワードで構成 されており、編集結果テキストをサブワード列に変換するサブワード変換工程をマツ チング工程の前に有し、マッチング工程では、編集結果テキストと認識結果情報とを サブワードの整合によって照合してもよい。このようにすれば、一般に音声認識では、 表記文字における認識精度よりも音素などサブワード単位での認識精度は比較的高 いため、編集結果テキストと認識結果情報とを表記文字の整合性により照合した場合 に比べ、より高い精度で音声データと編集結果テキストとを対応づけることができる。
[0033] 上記の音声テキストィヒ方法において、上述したサブワード変換工程では、読み情報 付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に変換し てもよい。このようにすれば、変換対象の編集結果テキストが、例えば日本語のように テキストを単語単位で分かち書きしな 、言語の場合でも、形態素辞書が備えて 、る 読み情報を利用してサブワード列に変換することができる。
[0034] 上記の音声テキストイ匕方法において、上述したテキスト編集工程では、入力された 力な漢字変換前の力な文字列を記憶し、サブワード変換工程では、かな漢字変換前 のかな文字列を参照して編集結果テキストをサブワード列に変換してもよ 、。このよう にすれば、力な文字列力 編集結果テキストの読み情報を得ることができるから、形 態素辞書を用いることなく編集結果テキストを音素列に変換することができる。
[0035] 上記の音声テキストイ匕方法にぉ 、て、上述したテキスト編集工程は、音声データを 再生する音声再生工程と、マッチング工程で得られる編集結果テキストと音声データ との対応付けを参照し編集カーソル位置と音声再生工程における音声再生時刻とを 同期させる同期工程とを有してもよい。このようにすると、音声データの再生箇所と編 集カーソル位置とをリンクさせることができ、作業者は書き起こしを効率よく行うことが できる。
[0036] 上記の音声テキストィヒ方法において、上述した同期工程では、編集カーソル位置 を音声再生時刻に同期させてもよい。このようにすると、音声データの再生箇所に対 応するテキスト上の位置に編集カーソルを移動させることができ、作業者は音声を聞 き取りながら編集結果テキストを確認し誤認識箇所を迅速に書き換えることができる。
[0037] 上記の音声テキストィヒシステムにおいて、上述した同期工程では、音声再生時刻を 編集カーソル位置に同期させてもよい。このよう〖こすると、編集カーソル位置のテキス トに対応する部分の音声データを再生することができ、作業者は編集カーソルの位 置に対応する音声をすぐに聞くことができる。
[0038] 本発明の音声テキストイ匕用プログラムは、音声データを音声認識し当該音声データ の時刻情報が付加された認識結果情報を出力する音声認識処理と、音声データを 書き起こしたテキスト情報である編集結果テキストを作成するテキスト編集処理と、編 集結果テキストと認識結果情報とを照合し編集結果テキストと音声データとを対応付 けるマッチング処理とをコンピュータに実行させることを特徴とする。
[0039] 上記の音声テキストイ匕用プログラムにおいて、上述した認識結果情報が表記文字 で構成されており、マッチング処理は、編集結果テキストと認識結果情報とを表記文 字の整合によって照合するような内容であってもよい。
[0040] 上記の音声テキストィヒ用プログラムにおいて、上述した認識結果情報がサブワード で構成されており、編集結果テキストをサブワード列に変換するサブワード変換処理 をコンピュータに実行させると共に、マッチング処理は、編集結果テキストと認識結果 情報とをサブワードの整合によって照合するような内容であってもよい。
[0041] 上記の音声テキストイ匕用プログラムにおいて、上述したサブワード変換処理は、読 み情報付きの辞書を用いた形態素解析によって編集結果テキストをサブワード列に 変換するような内容であってもよい。
[0042] 上記の音声テキストイ匕用プログラムにおいて、上述したテキスト編集処理で、入力さ れた力な漢字変換前の力な文字列を記憶し、サブワード変換工程は、力な漢字変換 前のかな文字列を参照して編集結果テキストをサブワード列に変換するような内容で あってもよい。
[0043] 上記の音声テキスト化用プログラムにおいて、上述した音声データを再生する音声 再生処理と、マッチング処理で得られる編集結果テキストと音声データとの対応付け を参照しテキスト編集処理における編集カーソル位置と音声再生処理における音声 再生時刻とを同期させる同期処理とをコンピュータに実行させてもよい。
[0044] 上記の音声テキストイ匕用プログラムにおいて、上述した同期処理は、編集カーソル 位置を音声再生時刻に同期させるような内容であってもよい。また、上記の音声テキ ストィ匕用プログラムにおいて、上述した同期処理は、音声再生時刻を編集カーソル位 置に同期させるような内容であってもよい。
[0045] このような音声テキストイ匕用プログラムによれば、マッチング処理により編集結果テ キストと音声データを対応付けて、編集結果テキスト上の位置と音声データの再生箇 所との対応付けを示す情報を得ることができる。そのため、上述した音声テキストィ匕シ ステムと同様に、音声の書き起こし作業において、認識結果情報に対して編集をカロ えたテキスト情報,または新規の書き起こしテキスト情報のような時刻情報を持たな ヽ テキスト情報である編集結果テキストを音声データと対応づけることができる。
発明の効果
[0046] 本発明によれば、音声テキストイ匕システムにお 、て、時刻情報が付与されて ヽな ヽ 編集結果テキストを、時刻情報が含まれている認識結果情報と照合することにより、 編集結果テキスト上でも時刻情報を得ることができる。そのため、音声の書き起こし作 、て、認識結果テキストに対して編集を加えた結果得られる編集結果テキスト ,または認識結果テキストを使わずに新規に書き起こしたテキスト情報である編集結 果テキストと音声データとを対応づけることができる。
発明を実施するための最良の形態
[0047] 本発明の第 1の実施形態である音声テキストイ匕システム 1の構成と動作にっ 、て、 図面を参照して詳細に説明する。
[0048] 図 1は、音声テキストイ匕システム 1の機能ブロック図である。図 1を参照すると、音声 テキストイ匕システム 1は、音声認識装置 10と、編集装置 20とを備えている。
[0049] 音声認識装置 10は、音声認識手段 11と、音声記憶手段 12と、認識結果記憶手段
13とを備えている。編集装置 20は、テキスト編集手段 22と、編集位置記憶手段 25と
、編集結果記憶手段 26と、音声再生手段 21と、音声再生時刻記憶手段 24と、マツ チング手段 27と、同期手段 23とを備えている。
[0050] 音声記憶手段 12は、テキスト化の対象となる音声データを記憶する。この音声デー タは、例えば、アナログの音声信号を所定のサンプリング周波数でサンプリングし、各 サンプリング値を量子化することでデジタルィ匕したデータである。
[0051] 音声認識手段 11は、音声記憶手段 12から音声データを読み込んで音声認識し、 その発話内容をテキスト化する。そして、当該音声データの再生時間に基づいた時 刻情報が付加された認識結果テキストを、認識結果情報として認識結果記憶手段 13 に出力する。この時刻情報とは、音声データ中の基準点(たとえばデータの先頭)か らの経過時間や経過フレーム数などで示す情報である。
[0052] テキスト編集手段 22は、テキスト情報を編集するためのテキストエディタで、認識結 果記憶手段 13から認識結果テキストを読み込み、書き起こし作業者の編集指示に従 つて認識結果テキストを編集する。この編集により音声認識の誤り箇所が修正されて 、音声データを書き起こしたテキスト情報が最終的に作成される。編集結果記憶手段 26はテキスト編集手段 22で編集されたテキスト情報を編集結果テキストとして記憶す る。編集位置記憶手段 25は、テキストエディタ上の編集カーソルの位置を記憶してい る。
[0053] 音声再生手段 21は、書き起こし作業者の音声再生指示に従って、音声記憶手段 1 2に記憶されている音声データを再生する。音声再生時刻記憶手段 24は、音声再生 手段 21が再生する音声箇所の時刻を常に記憶する。
[0054] マッチング手段 27は、編集結果記憶手段 26に記憶されている編集結果テキストと 認識結果記憶手段 13に記憶されている時刻情報付きの認識結果情報とを照合する ことで、編集結果テキストと音声データとを対応づける。これによつて、編集結果テキ スト上で時刻情報が失われていた編集箇所に対しても時刻情報を対応づけることが できる。本第 1実施形態では、編集結果テキストと認識結果情報との照合は表記文字 を単位として行われる。
[0055] 同期手段 23は、作業者の同期指示に従って、マッチング手段 27による編集結果テ キストと音声データとの対応づけ結果を参照することで、編集位置記憶手段 25に記 憶されて!、るカーソル位置と音声再生時刻記憶手段 24に記憶されて 、る音声再生 時刻とを同期させる。
[0056] 上記の、音声記憶手段 12、認識結果記憶手段 13、音声再生時刻記憶手段 24、 編集位置記憶手段 25、編集結果記憶手段 26は、それぞれ、例えば磁気ディスク装 置や半導体メモリ等の記憶装置で構成されて 、る。
[0057] 次に、図 1および図 2のフローチャートを参照して音声テキスト化システム 1全体の 動作について詳細に説明する。
[0058] 音声認識手段 11は、音声記憶手段 12に記憶されている音声データを読み込んで 音声認識し、音声データと対応づけるための時刻情報が付加された認識結果テキス トを、認識結果情報として認識結果記憶手段 13に出力する(図 2の S101)。
[0059] 例えば、音声認識結果テキストの表記文字が「次回の会議は二重路に地の全八字 から開催致します」であれば、「次回」は音声データ中の時刻 0. 1〜0. 4秒に対応し 、「の」は音声データ中の時刻 0. 4〜0. 5秒に対応している、というような時刻情報を 音声認識結果テキストに付随して出力する(図 3の認識結果と音声データとの対応づ けを参照)。
[0060] 音声認識手段 11における音声認識処理は、例えば、特徴量として MFCC (Mel-sc ale Frequency Cepstral Coefficients)を用い、音響モデルとして隠れマルコフモデル 、言語モデルとして単語 N-gramモデルを使った一般的な大語彙連続音声認識技術 によって実現する。
[0061] テキスト編集手段 22は、書き起こし作業者が音声をテキストイ匕するためのテキストェ デイタであり、ディスプレイ画面などに表示される編集カーソル位置のテキストに対し て編集が行われる。すなわち、編集カーソル位置のテキストが、作業者によるキーボ ード入力等によって書き換えられて編集される(図 2の S102)。このとき、編集カーソ ル位置に相当する文字を反転表示したり、文字の横や下に下線を表示したりすること により、書き起こし作業者が編集カーソル位置を確認できるようにする。また、テキスト 上の編集カーソル位置は編集位置記憶手段 25に記憶されて 、る。テキスト編集手 段 22によって編集されたテキスト情報は、編集結果記憶手段 26に記憶される。
[0062] なお、本実施例では、テキスト編集手段 22は、編集開始前に、認識結果記憶手段 13に記憶されている認識結果のテキスト情報を読み込み、認識結果中の誤り箇所を 編集して!/、くと仮定して 、るが、認識結果を読み込まずに何もテキストが存在しな ヽ 状態力 新規に書き起こしを行うことも可能である。
[0063] 音声再生手段 21は、書き起こし作業者のキーボード等力もの入力による音声再生 指示に従って、音声記憶手段 12に記憶されている書き起こし対象の音声データを再 生し、スピーカ等の出力装置力も音声を出力する。スピーカ等の出力装置から音声 を出力することによって、書き起こし作業者は、音声を聞きとつて書き起こしを行うこと ができる。このとき、再生している音声の時刻は、音声再生時刻記憶手段 24に記憶さ れている。音声再生時刻記憶手段 24に記憶されている音声再生時刻が後述する同 期手段 23によって書き換えられた場合、音声再生手段 21は、新しく書き換えられた 時刻の音声を再生する。
[0064] 同期手段 23は、書き起こし作業者の同期指示があるかどうかを判定し(図 2の S10 3)、同期指示があれば、編集位置記憶手段 25に記憶されている編集カーソル位置 と音声再生時刻記憶手段 24に記憶されている音声再生時刻とを同期させる同期処 理を実行する。この同期処理には、音声再生時刻を編集カーソル位置に同期させる 場合と、編集カーソル位置を音声再生時刻に同期させる場合の 2通りの同期がある。 すなわち、前者の同期処理は、カーソル位置のテキストに対応する音声データの再 生を可能とし、後者の同期処理は、音声が再生されている場所に対応するテキスト上 の位置に編集カーソルを移動することを可能とする。
[0065] 同期手段 23が同期指示を受けた(図 2の S103の判定力イエスの)ときには、まず、 マッチング手段 27が、編集結果記憶手段 26に記憶されている編集結果テキストと認 識結果記憶手段 13に記憶されている認識結果情報とを照合することで(図 2の S104 )、編集結果テキストと音声データとの対応づけを行う(図 2の S 105)。
[0066] 具体例を用いてマッチング手段 27による編集結果テキストと音声データとの対応づ けの動作を詳細に説明する。
[0067] 「次回の会議は二十六日の午前八時力 開催致します」という発話の音声データが 、音声認識手段 11により「次回の会議は二重路に地の全八字から開催致します」と 音声認識され、その後、書き起こし作業者が、「二重路に地の全八字」という誤認識 箇所を「二十六日の午前八時」と編集した場合を例に説明する。
[0068] 図 3は、上記の例におけるマッチング手段 27の動作を示す図である。
[0069] マッチング手段 27は、表記文字で表された編集結果テキスト「次回の会議は二十 六日の午前八時力 開催致します」と、認識結果情報の表記文字「次回の会議は二 重路に地の全八字から開催致します」とを図 3で示すように照合する(図 2の S104)。 この照合は、公知の技術であるダイナミックプログラミング(DP : Dvnamic Programmin g)によるマッチングを表記文字単位で実行することによって得ることができる。すなわ ち、編集結果テキストの表記文字「二十六日の午前八時」と認識結果情報の表記文 字「二重路に地の全八字」の両方に存在する「二」「の」「八」などの表記文字によって 両者の対応がとられる。
[0070] このように、編集結果テキストと認識結果情報の表記文字との対応づけが得られる と、認識結果情報の表記文字には時刻情報が付随しているため、編集結果テキスト と音声データとの対応づけをとることができる(図 2の S105)。たとえば、図 3の編集結 果テキスト上の位置 P1が認識結果情報の位置 P2に対応していることが分かると、 P2 は音声データの時刻 t3に対応しているから、編集結果テキスト上の位置 P1を音声デ ータ上の時刻 t3に対応付けることができる。
[0071] 同期手段 23は、マッチング手段 27による編集結果テキストと音声データとの対応 づけを参照することで、音声再生時刻記憶手段 24に記憶されて 、る音声再生時刻 を、編集位置記憶手段 25に記憶されている編集カーソル位置に同期させたり、或い は逆に、編集位置記憶手段 25に記憶されて ヽる編集カーソル位置を音声再生時刻 記憶手段 24に記憶されている音声再生時刻に同期させたりする(図 2のステップ S1 06)。
[0072] すなわち、図 3において、編集カーソル位置が P1であるときに音声再生時刻を t3に 変更したり、音声再生時刻が t3であるときに編集カーソル位置を P1に変更したりする
[0073] 以上で説明したような、テキストの編集(図 2の S 102)と、編集結果テキストと音声デ ータとの対応づけ(図 2の S104及び S105)と、編集カーソル位置と音声再生時刻と の同期処理(図 2の S 106)とをテキストの編集が終了するまで繰り返し実行する(図 2 の S107)。テキストの編集を繰り返し、書き起こしが完成すると処理全体が終了する。
[0074] なお、以上の説明では、マッチング手段 27による編集結果テキストと音声データと の対応づけ処理(図 2の S104及び S105)は、作業者の同期指示があった場合に行 つて ヽるが、この対応づけをテキスト情報が編集されたタイミングで随時実行しても良 すなわち、図 2の S102と S103との間で S104、 S 105を実行してお!ヽても良!/、。 この場合、同期指示があった場合には即座に同期手段 23による音声再生時刻と編 集カーソル位置との同期処理(図 2の S 106)が実行される。
[0075] 次に、本実施の形態の効果について説明する。
[0076] 音声テキストイ匕システム 1では、マッチング手段 27が、時刻情報の付与されていな V、編集結果テキストと時刻情報が付与されて 、る認識結果情報とを対応づけることに より、認識結果テキストに対して編集を加えた結果得られる編集結果テキスト、もしく は認識結果テキストを使わずに新規に書き起こしテキスト情報である認識結果テキス トと音声データとを対応づけることができる。これによつて、作業者は、編集作業が行 われた力どうかに関わらず常に、編集カーソル位置と音声再生時刻との同期機能を 利用することが可能となり、書き起こし作業の効率が大幅に向上する。
[0077] 次に、本発明の第 2の実施形態である音声テキストイ匕システム 2の構成と動作につ いて、図面を参照して詳細に説明する。
[0078] 図 4は、音声テキストイ匕システム 2の機能ブロック図である。図 4の音声テキストィ匕シ ステム 2は、マッチング手段 30が編集結果テキストと認識結果情報とを照合する際に 、第 1実施形態のマッチング手段 27のように表記文字の整合ではなぐサブワードの 整合によって照合する点、および図 4の音声認識手段 11aが、認識結果情報として 表記文字に加えてサブワード列を時刻情報付きで出力し、認識結果記憶手段 13が 表記文字に加えて時刻情報付きのサブワード列を認識結果情報として記憶する点に おいて図 1に示す第 1実施形態の音声テキストイ匕システム 1と異なる。
[0079] 図 5に示すように、本第 2実施形態におけるマッチング手段 30は、サブワード変換 手段 31と、サブワードマッチング手段 32とを備えている。本第 2実施形態は、マッチ ング手段 30が、編集結果テキストと認識結果情報とをサブワードの整合により対応づ けるところに特徴がある。ここで、サブワードとは、音素や音節等の基本的な音響単 位のことである。
[0080] 本第 2実施形態では、サブワードとして音素を採用しているが、音節等の他の基本 的な音響単位を用いても同じである。次に、具体例によって、マッチング手段 30の動 作について詳細に説明する。
[0081] 「次回の会議は二重路に地の全八字から開催致します」という音声認識結果に対し て、「次回の会議は二十六日の午前八時力 開催致します」と編集する場合を例に 説明する。音声認識手段 11aは、認識結果情報として表記文字に加えて、 rj i k a i n okaigiwaniju:ronichinozenhachijikarakaisaiitasnim a s u」という音素列も出力する。このとき、音素列には対応する音声データの時刻情 報を付加する。認識結果記憶手段 13は、認識結果情報として表記文字に加えて時 刻情報付きの音素列を記憶する。
[0082] 音声認識手段 11aは、音素や音節を単位として音声認識処理を行うため、認識結果 を音素列として出力することは可能である。
[0083] サブワード変換手段 31は、表記文字で構成された編集結果テキストをサブワード 列に変換する。本第 2実施形態ではサブワードとして音素を採用しているため、編集 結果テキストを音素列に変換する。すなわち、「次回の会議は二十六日の午前八時 力ら開催致します」というテキスト' |·青報を「j ikainokaigiwaniju:rokunic hinogozenhachijiKarakais aiitashimasuJと ヽっ音 歹(1に変換 する。
[0084] サブワードマッチング手段 32は、サブワード変換手段 31によって変換された編集 結果テキストの音素列と、認識結果記憶手段 13に記憶された認識結果情報の音素 列とを照合する。この様子を示したのが図 6であり、音素を照合して対応づけることに よって、表記文字で対応づけるよりも認識誤りに頑健で正確な対応づけが可能となる 。なぜならば、一般に音声認識において、表記文字では誤認識をしている場合でも、 音素などのサブワードでは正解して 、ることが多!、、 t 、う特徴があるためである。
[0085] 例えば、図 6の例では、表記文字レベルでは「十」を「重」に、「時」を「字」に誤認識 しており、これらは表記文字の整合ではマッチしないが、音素で整合することで両者 が正しくマッチすることが分かる。なお、音素列同士の対応づけは、公知の技術であ る DPマッチングなどの手法を用いれば良 、。
[0086] 次に、サブワード変換手段 31で、編集結果テキストをサブワード列に変換する方法 について説明する。
[0087] 書き起こし対象の言語が英語のように単語単位で分かち書きされて 、る言語であれ ば、発音記号が付与されている単語辞書を参照することで、編集結果テキストをサブ ワード列に変換することが可能である。しかし、書き起こし対象の言語が日本語のよう に単語単位で分かち書きされて!/、な!、言語の場合は、編集結果テキストを直接サブ ワード列に変換することができな 、。
[0088] 以下では、書き起こし対象が日本語である場合に、編集結果テキストをサブワード 列に変換する方法について説明する。
[0089] 図 7は、日本語の編集結果テキストをサブワード列に変換するサブワード変換手段 31の一例を示すブロック図である。図 7に示すサブワード変換手段 31は、形態素解 析手段 33と、読み情報付き形態素解析辞書記憶手段 34とを備えて 、る。
[0090] 形態素解析手段 33は、編集結果記憶手段 26から入力された編集結果テキスト「次 回の会議は二十六日の午前八時から開催致します」に対して、公知の技術である形 態素解析を実行する。このとき、形態素解析手段 33は、読み情報付き形態素解析辞 書記憶手段 34を参照して形態素解析を行うため、入力された編集結果テキストの読 み情報、すなわち「じかい の かいぎ わ 〖こ じゅ一 ろく にち の ごぜん はち じ 力 かいさい いたし ます」を得ることができる。読み情報力 音素や音節な どのサブワードに変換することは容易である。以上の方法により、編集結果テキストを サブワード列に変換することができる。
[0091] また、サブワード変換手段 31にお 、て、編集結果テキストをサブワード列に変換す る別の方法として、テキスト編集手段 22に対する書き起こし作業者のキーボード入力 を記憶しておく方法をとることもできる。
[0092] すなわち、キーボードによる一般的な日本語入力においては、かな文字、すなわち 読み情報を入力して漢字変換を施すため、キーボード入力を記憶しておくことで、編 集結果テキストの読み情報を得ることができる。例えば、「二十六日」と打ち込むため に、キーボードを「n i j y u u r o k u n i c h i (にじゅうろくにち)」と打ち込んでから漠 字変換を施したとき、キーボード入力から得られたこの読み情報を編集結果記憶手 段 26に記憶しておく。サブワード変換手段 31は、キーボード入力から得られた読み 情報を参照することで、編集結果テキストをサブワード列に変換することができる。
[0093] なお、本第 2実施形態では、サブワード変換手段 31はマッチング手段 30に備えら れていたが、サブワード変換手段 31は、テキスト編集手段 22に備えられていても良 い。この場合、テキスト情報が編集されたタイミングで編集結果テキストのサブワード 列への変換がなされ、変換されたサブワード列も編集結果記憶手段 26に記憶される 。したがって、マッチング手段 30は、編集結果テキストと認識結果情報とをサブワード の整合により照合することが可能となる。
[0094] 次に、本第 2の実施形態の効果について説明する。音声テキストイ匕システム 2では、 マッチング手段 30が、編集結果テキストと認識結果情報とを、表記文字よりも認識精 度が高い音素などのサブワードの整合によって照合するため、書き起こし対象となる 音声データの音声認識精度が低い場合でも、編集結果テキストと音声データとを高 V、精度で対応づけることができる。
[0095] 次に、本発明の第 3の実施形態である音声テキストイ匕システムの構成と動作につい て、図面を参照して詳細に説明する。
[0096] 本第 3実施形態における音声テキストイ匕システムは、書き起こし対象とする音声デ ータの言語が日本語ではなく英語である点が、第 2実施形態と異なる。本第 3実施形 態における音声テキストイ匕システムの構成は図 4と同様である。
[0097] 図 6は、第 3実施形態におけるマッチング手段の動作の具体例を示す図である。
[0098] 図 6は、 "し an you recommend a hotel which is not too expensive? と ヽっ音; ^ァ ~~ タの^ 結果ァゃスト; 0 、 'し an you wait for men don' t tell we give not too expensiv e?"であった場合に、これを正しく編集したときの様子を示している。音声認識手段 1 laは、認識結果情報として表記文字に加えて、 "k ae n y uw w ey t f ax m eh n d ow uw n 1 1 eh 1 w iy g ih v n aa 1 1 uw iy k s p eh n s iy v と ヽぅ音素歹 Uも出力す 。こ のとき、音素列には対応する音声データの時刻情報を付加する。認識結果記憶手段 13は、認識結果情報として表記文字に加えて時刻情報付きの音素列を記憶する。
[0099] 第 2実施形態と同様、音声認識手段 11aは、音素や音節を単位として音声認識処 理を行うため、認識結果を音素列として出力することは可能である。
[0100] サブワード変換手段 31は、表記文字で構成された編集結果テキストをサブワード 列に変換する。本第 3実施形態では、サブワードとして音素を例に説明しているため 、編集結果テキストを音素列に変換する。すなわち、 "Can you recommend a hotel w hich is not too expensive?,,と ヽぅ編集結果ァ3 rスト k ae n y uw r eh k ax m eh n d ax hn ow uw t eh 1 w ih ch ih z n aa 1 1 uw iy k s p en n s iy vと ヽっ音素歹 Uに 換 する。
[0101] 英語の表記文字列は単語ごとに分かち書きされているため、発音記号が付与され た単語辞書を参照することで簡単に編集結果テキストを音素列に変換することができ る。
[0102] サブワードマッチング手段 32は、サブワード変換手段 31によって変換された編集 結果テキストの音素列と、認識結果記憶手段 13に記憶された認識結果情報の音素 列とを照合する。これによつて図 6に示すように、編集結果テキストと音声データとを 誤認識に頑健に対応づけることが可能となる。なぜならば、 "recommend"を" wait for men don't"と誤認識していても、音素レベルでは" r eh k ax m eh n d"が" w ey t f ax m eh n d…"となっており、一部の音素は正解しているためである。
[0103] このようにサブワードマッチング手段 32によって編集結果テキストと認識結果情報と の対応付けが得られると、認識結果情報には時刻情報が付随しているため、編集結 果テキストと音声データとの対応付けをとることができる。
[0104] 次に、本第 3の実施形態の効果について説明する。第 3の実施形態における音声 テキストイ匕システムは、音声データの言語が英語であっても、編集結果テキストと音声 データとの対応付けをとることができる。これによつて、作業者は、書き起こし対象とす る音声データが英語であっても、編集カーソル位置と音声再生時刻との同期機能を 常に利用することが可能となり、書き起こし作業効率が向上する。
[0105] 次に、本発明の第 4の実施形態であるコンピュータ 3の構成と動作について、図面 を参照して詳細に説明する。
[0106] 図 9は、第 1の実施形態および第 2の実施形態および第 3の実施形態をプログラム により構成した場合に、そのプログラムにより制御されるコンピュータ 3の構成図である 。図 9を参照すると、コンピュータ 3は、 MPU (Micro Processing Unit)等を含んで構 成されるデータ処理装置 50と、磁気ディスクや半導体メモリ等で構成される記憶装置 40と、液晶ディスプレイやスピーカ等の出力装置およびキーボードやマウス等の入力 装置を備えた入出力装置 60と、音声テキストイ匕用プログラム 70とを備えている。
[0107] 記憶装置 40は、音声記憶手段 41、認識結果記憶手段 42、編集位置記憶手段 43 、音声再生時刻記憶手段 44、編集結果記憶手段 45などとして使用される。 [0108] 音声テキストイ匕用プログラム 70は、データ処理装置 50に読み込まれ、データ処理 装置 50の動作を制御することにより、データ処理装置 50上に前述した各実施の形態 における機能手段を実現する。すなわち、データ処理装置 50は、音声テキストイ匕用 プログラム 70の制御により、音声認識手段 11および l la、音声再生手段 21、テキス ト編集手段 22、同期手段 23、マッチング手段 27および 30、と同一の処理を実行す る。
産業上の利用可能性
[0109] 本発明によれば、会議や講演の議事録を作成するための音声のテキスト化作業、 或いは、映画やテレビ番組の字幕作成などの業務において、作業者の負担を軽減し て作業の効率を改善する、といった用途に適用できる。
図面の簡単な説明
[0110] [図 1]本発明の第 1の実施形態である音声テキストイ匕システムの構成を示すブロック 図である。
[図 2]図 1の音声テキストイ匕システムの動作を示す流れ図である。
[図 3]図 1のマッチング手段の動作の具体例を示す図である。
[図 4]本発明の第 2及び第 3の実施形態である音声テキストイ匕システムの構成を示す ブロック図である。
[図 5]図 4のマッチング手段の構成を示すブロック図である。
[図 6]図 4のマッチング手段の動作の具体例を示す図である。
[図 7]図 5のサブワード変換手段の構成例を示すブロック図である。
[図 8]本発明の第 3の実施形態である音声テキストイ匕システムにおけるマッチング手 段の動作の具体例を示す図である。
[図 9]本発明の第 4の実施形態であるコンピュータの構成を示すブロック図である。
[図 10]従来の音声テキストイ匕システムの構成を示すブロック図である。
符号の説明
[0111] 1, 2 音声テキスト化システム
3 コンピュータ
10 音声認識装置 , 11a 音声認識手段
音声記憶手段
認識結果記憶手段
編集装置
音声 S生手段
テキスト編集手段
同期手段
音声再生時刻記憶手段
編集位置記憶手段
編集結果記憶手段
, 30 マッチング手段
サブワード変換手段
サブワードマッチング手段
形態素解析手段
読み情報付き形態素解析辞書記憶手段 記憶装置
音声記憶手段
認識結果記憶手段
編集位置記憶手段
音声 S生時刻記憶手段
編集結果記憶手段
データ処理装置
入出力装置
音声テキストィヒ用プログラム
音声テキストイ匕システム
音声認識装置
1 音声認識手段
2 音声記憶手段 213 認識結果記憶手段
220 編集装置
221 音声再生手段
222 編集手段
223 同期手段
224 音声再生時刻記憶手段
225 編集位置記憶手段
226 編集結果記憶手段

Claims

請求の範囲
[1] 音声データを音声認識して当該音声データの時刻情報が付加された認識結果情 報を出力する音声認識手段と、
前記音声データを書き起こしたテキスト情報である編集結果テキストを作成するテ キスト編集手段と、
前記編集結果テキストと前記認識結果情報とを照合することで、前記編集結果テキ ストと前記音声データとを対応付けるマッチング手段とを備えたことを特徴とする音声 テキスト化システム。
[2] 前記請求項 1に記載の音声テキストイ匕システムにお 、て、
前記認識結果情報が表記文字で構成されており、
前記マッチング手段は、前記編集結果テキストと前記認識結果情報とを表記文字 の整合によって照合することを特徴とする音声テキストイ匕システム。
[3] 前記請求項 1に記載の音声テキストイ匕システムにお 、て、
前記認識結果情報がサブワードで構成されており、
前記編集結果テキストをサブワード列に変換するサブワード変換手段を備え、 前記マッチング手段は、前記編集結果テキストと前記認識結果情報とをサブワード の整合によって照合することを特徴とする音声テキストイ匕システム。
[4] 前記請求項 3に記載の音声テキストイ匕システムにお 、て、
前記サブワード変換手段は、読み情報付きの辞書を用いた形態素解析によって前 記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕システ ム。
[5] 前記請求項 3に記載の音声テキストイ匕システムにおいて、
前記テキスト編集手段は、入力されたかな漢字変換前のかな文字列を記憶し、 前記サブワード変換手段は、前記かな漢字変換前のかな文字列を参照して前記編 集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕システム。
[6] 前記請求項 1乃至 5のいずれか一項に記載の音声テキストイ匕システムにおいて、 前記音声データを再生する音声再生手段と、
前記マッチング手段で得られる前記編集結果テキストと前記音声データとの対応付 けを参照して、前記テキスト編集手段の編集カーソル位置と前記音声再生手段の音 声再生時刻とを同期させる同期手段とを備えたことを特徴とする音声テキストイ匕シス テム。
[7] 前記請求項 6記載の音声テキストイ匕システムにお 、て、
前記同期手段は、前記編集カーソル位置を前記音声再生時刻に同期させることを 特徴とする音声テキストイ匕システム。
[8] 前記請求項 6記載の音声テキストイ匕システムにお 、て、
前記同期手段は、前記音声再生時刻を前記編集カーソル位置に同期させることを 特徴とする音声テキストイ匕システム。
[9] 音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報 を出力する音声認識工程と、
前記音声データを書き起こしたテキスト情報である編集結果テキストを作成するテ キスト編集工程と、
前記編集結果テキストと前記認識結果情報とを照合し前記編集結果テキストと前記 音声データとを対応付けるマッチング工程とを有したことを特徴とする音声テキストイ匕 方法。
[10] 前記請求項 9に記載の音声テキストィヒ方法において、
前記認識結果情報が表記文字で構成されており、
前記マッチング工程では、前記編集結果テキストと前記認識結果情報とを前記表 記文字の整合によって照合することを特徴とする音声テキストイ匕方法。
[11] 前記請求項 9に記載の音声テキストィヒ方法において、
前記認識結果情報がサブワードで構成されており、
前記編集結果テキストをサブワード列に変換するサブワード変換工程を前記マッチ ング工程の前に有し、
前記マッチング工程では、前記編集結果テキストと前記認識結果情報とを前記サ ブワードの整合によって照合することを特徴とする音声テキストイ匕方法。
[12] 前記請求項 11に記載の音声テキストイ匕方法にぉ 、て、
前記サブワード変換工程では、読み情報付きの辞書を用いた形態素解析によって 前記編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕方 法。
[13] 前記請求項 11に記載の音声テキストイ匕方法にぉ 、て、
前記テキスト編集工程では、入力された力な漢字変換前のかな文字列を記憶し、 前記サブワード変換工程では、前記力な漢字変換前の力な文字列を参照して前記 編集結果テキストをサブワード列に変換することを特徴とする音声テキストイ匕方法。
[14] 前記請求項 9乃至 13のいずれか一項に記載の音声テキストイ匕方法において、 前記音声データを再生する音声再生工程と、前記マッチング工程で得られる前記 編集結果テキストと前記音声データとの対応付けを参照し前記テキスト編集工程に おける編集カーソル位置と前記音声再生工程における音声再生時刻とを同期させる 同期工程とを有したことを特徴とする音声テキストイ匕方法。
[15] 前記請求項 14記載の音声テキスト化方法にぉ 、て、
前記同期工程では、前記編集カーソル位置を前記音声再生時刻に同期させること を特徴とする音声テキストイ匕方法。
[16] 前記請求項 14記載の音声テキスト化方法にぉ 、て、
前記同期工程では、前記音声再生時刻を前記編集カーソル位置に同期させること を特徴とする音声テキストイ匕方法。
[17] 音声データを音声認識し当該音声データの時刻情報が付加された認識結果情報 を出力する音声認識処理と、前記音声データを書き起こしたテキスト情報である編集 結果テキストを作成するテキスト編集処理と、前記編集結果テキストと前記認識結果 情報とを照合し前記編集結果テキストと前記音声データとを対応付けるマッチング処 理とをコンピュータに実行させることを特徴とする音声テキストイ匕用プログラム。
[18] 前記請求項 17に記載の音声テキストイ匕用プログラムにおいて、
前記認識結果情報が表記文字で構成されており、
前記マッチング処理は、前記編集結果テキストと前記認識結果情報とを前記表記 文字の整合によって照合するような内容であることを特徴とする音声テキストイ匕用プロ グラム。
[19] 前記請求項 17に記載の音声テキストイ匕用プログラムにおいて、 前記認識結果情報がサブワードで構成されており、
前記編集結果テキストをサブワード列に変換するサブワード変換処理を前記コンビ ユータに実行させると共に、
前記マッチング処理は、前記編集結果テキストと前記認識結果情報とを前記サブヮ ードの整合によって照合するような内容であることを特徴とする音声テキストイ匕用プロ グラム。
[20] 前記請求項 19に記載の音声テキストイ匕用プログラムにおいて、
前記サブワード変換処理は、読み情報付きの辞書を用いた形態素解析によって前 記編集結果テキストをサブワード列に変換するような内容であることを特徴とする音声 テキストイ匕用プログラム。
[21] 前記請求項 19に記載の音声テキストイ匕用プログラムにおいて、
前記テキスト編集処理で入力された力な漢字変換前の力な文字列を記憶し、 前記サブワード変換処理は、前記かな漢字変換前のかな文字列を参照して前記編 集結果テキストをサブワード列に変換するような内容であることを特徴とする音声テキ ストィ匕用プログラム。
[22] 前記請求項 17乃至 21のいずれか一項に記載の音声テキストイ匕用プログラムにお いて、
前記音声データを再生する音声再生処理と、
前記マッチング処理で得られる前記編集結果テキストと前記音声データとの対応付 けを参照し前記テキスト編集処理における編集カーソル位置と前記音声再生処理に おける音声再生時刻とを同期させる同期処理とを前記コンピュータに実行させること を特徴とする音声テキストイ匕用プログラム。
[23] 前記請求項 22記載の音声テキストイ匕用プログラムにおいて、
前記同期処理は、前記編集カーソル位置を前記音声再生時刻に同期させるような 内容であることを特徴とする音声テキストイ匕用プログラム。
[24] 前記請求項 22記載の音声テキストイ匕用プログラムにおいて、
前記同期処理は、前記音声再生時刻を前記編集カーソル位置に同期させるような 内容であることを特徴とする音声テキストイ匕用プログラム。
PCT/JP2006/322255 2005-11-08 2006-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム WO2007055233A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US12/089,619 US8155958B2 (en) 2005-11-08 2006-11-08 Speech-to-text system, speech-to-text method, and speech-to-text program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2005323993A JP2007133033A (ja) 2005-11-08 2005-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
JP2005-323993 2005-11-08

Publications (1)

Publication Number Publication Date
WO2007055233A1 true WO2007055233A1 (ja) 2007-05-18

Family

ID=38023235

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/322255 WO2007055233A1 (ja) 2005-11-08 2006-11-08 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム

Country Status (3)

Country Link
US (1) US8155958B2 (ja)
JP (1) JP2007133033A (ja)
WO (1) WO2007055233A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019120248A1 (zh) * 2017-12-20 2019-06-27 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
WO2020036189A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、データ構造、プログラム、表示装置、及び編集支援装置

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4861941B2 (ja) * 2007-09-19 2012-01-25 株式会社エヌ・ティ・ティ・データ 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム
US8131545B1 (en) * 2008-09-25 2012-03-06 Google Inc. Aligning a transcript to audio data
US8954328B2 (en) * 2009-01-15 2015-02-10 K-Nfb Reading Technology, Inc. Systems and methods for document narration with multiple characters having multiple moods
WO2010146869A1 (ja) * 2009-06-18 2010-12-23 日本電気株式会社 編集支援システム、編集支援方法および編集支援プログラム
JP5014449B2 (ja) * 2010-02-26 2012-08-29 シャープ株式会社 会議システム、情報処理装置、会議支援方法、情報処理方法、及びコンピュータプログラム
US8392186B2 (en) 2010-05-18 2013-03-05 K-Nfb Reading Technology, Inc. Audio synchronization for document narration with user-selected playback
US8554558B2 (en) 2010-07-12 2013-10-08 Nuance Communications, Inc. Visualizing automatic speech recognition and machine translation output
US8224654B1 (en) 2010-08-06 2012-07-17 Google Inc. Editing voice input
JP2013025299A (ja) * 2011-07-26 2013-02-04 Toshiba Corp 書き起こし支援システムおよび書き起こし支援方法
JP5404726B2 (ja) * 2011-09-26 2014-02-05 株式会社東芝 情報処理装置、情報処理方法およびプログラム
JP5787780B2 (ja) * 2012-01-25 2015-09-30 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
JP6323828B2 (ja) * 2013-12-27 2018-05-16 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 支援装置、情報処理方法、及び、プログラム
US10052056B2 (en) * 2014-09-01 2018-08-21 Beyond Verbal Communication Ltd System for configuring collective emotional architecture of individual and methods thereof
JP2015187733A (ja) * 2015-04-28 2015-10-29 株式会社東芝 書き起こし支援システムおよび書き起こし支援方法
CN105869654B (zh) * 2016-03-29 2020-12-04 阿里巴巴集团控股有限公司 音频消息的处理方法及装置
JP6387044B2 (ja) * 2016-05-25 2018-09-05 株式会社東芝 テキスト処理装置、テキスト処理方法およびテキスト処理プログラム
US10061761B2 (en) 2016-07-22 2018-08-28 International Business Machines Corporation Real-time dynamic visual aid implementation based on context obtained from heterogeneous sources
JP6615952B1 (ja) * 2018-07-13 2019-12-04 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP2020154057A (ja) * 2019-03-19 2020-09-24 株式会社モアソンジャパン 音声データのテキスト編集装置及び音声データのテキスト編集方法
CN111192579B (zh) * 2019-12-30 2022-09-23 思必驰科技股份有限公司 信息处理方法、信息控制中心设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JP2003316375A (ja) * 2002-04-26 2003-11-07 Ricoh Co Ltd 分散ディクテーションシステム、プログラム及び記憶媒体
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0731677B2 (ja) * 1987-09-29 1995-04-10 シャープ株式会社 文書作成・校正支援装置
JP2937710B2 (ja) 1993-09-22 1999-08-23 日本電気株式会社 インクジェットプリンタ用印字検査装置
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
US5903867A (en) * 1993-11-30 1999-05-11 Sony Corporation Information access system and recording system
JPH07210185A (ja) 1993-11-30 1995-08-11 Sony Corp 朗読情報作成装置および朗読装置
US6961700B2 (en) * 1996-09-24 2005-11-01 Allvoice Computing Plc Method and apparatus for processing the output of a speech recognition engine
US6490563B2 (en) * 1998-08-17 2002-12-03 Microsoft Corporation Proofreading with text to speech feedback
US6535848B1 (en) * 1999-06-08 2003-03-18 International Business Machines Corporation Method and apparatus for transcribing multiple files into a single document
JP4323029B2 (ja) 1999-10-21 2009-09-02 ヤマハ株式会社 音声処理装置およびカラオケ装置
JP3470664B2 (ja) * 1999-12-01 2003-11-25 日本電気株式会社 受信メール表示方法及び絵文字変換機能付き電子メール端末装置
WO2001084535A2 (en) * 2000-05-02 2001-11-08 Dragon Systems, Inc. Error correction in speech recognition
US6785650B2 (en) * 2001-03-16 2004-08-31 International Business Machines Corporation Hierarchical transcription and display of input speech
DE60202453T2 (de) 2001-03-29 2006-01-19 Koninklijke Philips Electronics N.V. Synchronisierung eines audio- und eines text-cursors während der editierung
US7136803B2 (en) * 2001-09-25 2006-11-14 Apple Computer, Inc. Japanese virtual dictionary
US7774694B2 (en) * 2002-12-06 2010-08-10 3M Innovation Properties Company Method and system for server-based sequential insertion processing of speech recognition results
US20070244700A1 (en) * 2006-04-12 2007-10-18 Jonathan Kahn Session File Modification with Selective Replacement of Session File Components
US7881930B2 (en) * 2007-06-25 2011-02-01 Nuance Communications, Inc. ASR-aided transcription with segmented feedback training

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07152787A (ja) * 1994-01-13 1995-06-16 Sony Corp 情報アクセスシステムおよび記録媒体
JP2003316375A (ja) * 2002-04-26 2003-11-07 Ricoh Co Ltd 分散ディクテーションシステム、プログラム及び記憶媒体
JP2004170765A (ja) * 2002-11-21 2004-06-17 Sony Corp 音声処理装置および方法、記録媒体並びにプログラム
JP2005165066A (ja) * 2003-12-03 2005-06-23 Internatl Business Mach Corp <Ibm> 音声認識システム、データ処理装置、そのデータ処理方法及びプログラム
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019120248A1 (zh) * 2017-12-20 2019-06-27 北京君林科技股份有限公司 一种将语音转换为文字的方法、装置及系统
WO2020036189A1 (ja) * 2018-08-15 2020-02-20 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、データ構造、プログラム、表示装置、及び編集支援装置
JPWO2020036189A1 (ja) * 2018-08-15 2021-08-10 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、データ構造、プログラム、表示装置、及び編集支援装置
JP7096510B2 (ja) 2018-08-15 2022-07-06 日本電信電話株式会社 応対履歴作成支援装置、応対履歴作成支援方法、プログラム、表示装置、及び編集支援装置
US11482209B2 (en) 2018-08-15 2022-10-25 Nippon Telegraph And Telephone Corporation Device and method for supporting creation of reception history, non-transitory computer readable recording medium
US11749258B2 (en) 2018-08-15 2023-09-05 Nippon Telegraph And Telephone Corporation Device and method for supporting creation of reception history, non-transitory computer readable recording medium

Also Published As

Publication number Publication date
US8155958B2 (en) 2012-04-10
JP2007133033A (ja) 2007-05-31
US20090048832A1 (en) 2009-02-19

Similar Documents

Publication Publication Date Title
WO2007055233A1 (ja) 音声テキスト化システム、音声テキスト化方法および音声テキスト化用プログラム
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
EP1430474B1 (en) Correcting a text recognized by speech recognition through comparison of phonetic sequences in the recognized text with a phonetic transcription of a manually input correction word
EP0965979A1 (en) Position manipulation in speech recognition
WO1998002862A1 (en) Apparatus for interactive language training
US20030154080A1 (en) Method and apparatus for modification of audio input to a data processing system
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JP2002304190A (ja) 発音変化形生成方法及び音声認識方法
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
US6546369B1 (en) Text-based speech synthesis method containing synthetic speech comparisons and updates
JP2010197644A (ja) 音声認識システム
Demuynck et al. Automatic generation of phonetic transcriptions for large speech corpora.
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP2014134640A (ja) 文字起こし装置およびプログラム
JP5334716B2 (ja) 文字情報提示制御装置及びプログラム
WO2007114346A1 (ja) 音声認識装置
Batlouni et al. Mathifier—Speech recognition of math equations
JP5366050B2 (ja) 音響モデル学習装置、音声認識装置、及び音響モデル学習のためのコンピュータプログラム
JP3277579B2 (ja) 音声認識方法および装置
JP2009116107A (ja) 情報処理装置及び方法
JP6712511B2 (ja) 音声学習システム、音声学習方法、及び記憶媒体
JP2005157166A (ja) 音声認識装置、音声認識方法及びプログラム
JPS6315294A (ja) 音声分析装置
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
Rajnoha et al. Czech spontaneous speech collection and annotation: The database of technical lectures

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 12089619

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 06823159

Country of ref document: EP

Kind code of ref document: A1