WO2012144525A1 - 音声認識装置、音声認識方法及び音声認識プログラム - Google Patents

音声認識装置、音声認識方法及び音声認識プログラム Download PDF

Info

Publication number
WO2012144525A1
WO2012144525A1 PCT/JP2012/060478 JP2012060478W WO2012144525A1 WO 2012144525 A1 WO2012144525 A1 WO 2012144525A1 JP 2012060478 W JP2012060478 W JP 2012060478W WO 2012144525 A1 WO2012144525 A1 WO 2012144525A1
Authority
WO
WIPO (PCT)
Prior art keywords
section
speech recognition
input
phrase
processing result
Prior art date
Application number
PCT/JP2012/060478
Other languages
English (en)
French (fr)
Inventor
伸 小栗
真也 飯塚
Original Assignee
株式会社エヌ・ティ・ティ・ドコモ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エヌ・ティ・ティ・ドコモ filed Critical 株式会社エヌ・ティ・ティ・ドコモ
Publication of WO2012144525A1 publication Critical patent/WO2012144525A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to a voice recognition device, a voice recognition method, and a voice recognition program.
  • Patent Document 1 the words included in the speech recognized by the speech recognition means are extracted and displayed from the dictionary means, and competing words having a high probability of competing with the words are extracted and displayed for display to the user.
  • An apparatus for selecting competing words is disclosed.
  • Patent Document 2 describes a device that displays the vocabulary of the first candidate included in the speech obtained by speech recognition and displays the vocabulary after the second candidate so that the user can select the vocabulary.
  • JP 2006-146008 A Japanese Patent Laid-Open No. 9-50291
  • the present invention has been made in view of the above problems, and a speech recognition device, a speech recognition method, and a speech recognition program capable of easily correcting a section having a recognition error in a speech recognition result.
  • the purpose is to provide.
  • a speech recognition apparatus is obtained by a speech acquisition unit that acquires input speech, a dictionary storage unit that stores a plurality of words, and a speech acquisition unit.
  • the input speech is divided into a plurality of sections, speech recognition processing is performed for each of the plurality of sections with reference to the dictionary storage means, and a speech recognition processing result including a plurality of words obtained for each of the plurality of sections by the speech recognition processing.
  • a speech recognition means for outputting; a recognition result display means for presenting the speech recognition processing result output by the speech recognition means; and at least a hold designation input for a section in the speech recognition processing result presented by the recognition result display means
  • a holding section that is a section for which a designation for holding is accepted by the designation receiving means in the presentation of the voice recognition processing result by the recognition result display means.
  • a hold section display means for displaying in a manner distinguishable from a section not designated for hold, an edit control means for extracting the hold section from the speech recognition processing result, and controlling the words of the extracted hold section to be editable, and editing Correction input receiving means for receiving input of a character string for the reserved section controlled to be editable by the control means.
  • a speech recognition method includes a speech acquisition step of acquiring input speech, and the input speech acquired in the speech acquisition step divided into a plurality of sections.
  • Speech that performs speech recognition processing for each of a plurality of sections with reference to a dictionary storage unit that stores words and outputs a speech recognition processing result including a plurality of words obtained for each of the plurality of sections by the speech recognition processing Recognizing step, recognition result presenting step for presenting speech recognition processing result output in speech recognition step, and input of at least hold designation for sections in speech recognition processing result presented in recognition result presenting step can be accepted
  • a holding section that displays a holding section that is a section for which a holding designation has been accepted in a manner that can be distinguished from a section that has not been designated as a holding section, and a holding section that is extracted from the voice recognition processing result and extracted.
  • An edit control step for controlling the phrase to be editable
  • a speech recognition program provides a computer with a speech acquisition function for acquiring input speech and an input speech acquired by the speech acquisition function into a plurality of sections.
  • the speech recognition process is performed for each of a plurality of sections by referring to a dictionary storage unit storing a plurality of words, and a speech recognition process result including a plurality of words obtained for each of the plurality of sections by the speech recognition process.
  • the designation acceptance function accepts the hold designation.
  • a hold section display function that displays a hold section that is a section in a manner distinguishable from a section that is not designated as a hold section, and a hold section is extracted from the voice recognition processing result, and the words of the extracted hold section are controlled to be editable.
  • An editing control function and a correction input receiving function that receives an input of a character string for a reserved section controlled to be editable by the editing control function are realized.
  • an input for holding designation is accepted for each section in the speech recognition processing result, and the reserved section designated for holding is displayed so as to be distinguishable from other sections. Therefore, it becomes easy to recognize a section requiring correction in the voice recognition processing result. Then, the words in the reserved section are controlled to be editable, and the input of the character string for the reserved section is accepted, so that the words in the reserved section are corrected. Therefore, it becomes easy to correct the reserved section.
  • the edit control unit integrates the plurality of sections as one holding section when the plurality of continuous sections are extracted as the holding section in the voice recognition processing result. Control to be editable.
  • the speech recognition unit outputs a phrase obtained by performing speech recognition processing on the input speech corresponding to the one reserved section integrated by the editing control unit.
  • Re-recognizing means for extracting from the speech recognition processing result
  • correction candidate display means for displaying the word / phrase extracted by the re-recognizing means as the word / phrase of the correction candidate for the word / phrase in one reserved section.
  • the phrase of the speech recognition processing result corresponding to one hold section in which a plurality of hold sections are integrated is displayed as a correction candidate word, correction for the one hold section desired by the user is performed.
  • the possibility of presenting candidates is increased. Accordingly, it is possible to reduce the user's operation in correcting the voice recognition result.
  • the speech recognition apparatus includes a dictionary storage unit based on a phrase output by the speech recognition unit as a speech recognition process result of a plurality of sections included in one holding section integrated by the editing control unit. And a correction candidate display means for displaying the phrase searched by the re-search means as a correction candidate word / phrase for the word / phrase in one reserved section.
  • the phrase corresponding to one reserved section in which a plurality of reserved sections are integrated is extracted by re-searching the storage means storing the vocabulary, and the extracted phrases are displayed as correction candidate phrases.
  • the possibility that the correction candidate for the one reserved section desired by the user can be presented is increased. Accordingly, it is possible to reduce the user's operation in correcting the voice recognition result.
  • the dictionary storage unit is searched based on the input character string received by the correction input receiving unit, the correction candidate word / phrase including the input character string is extracted, and the correction candidate word / phrase is extracted.
  • Correction candidate display means for omitting the matched character string and displaying a correction candidate word / phrase when the last character string matches the character string immediately after the reserved section in the voice recognition processing result output by the voice recognition means Is further provided.
  • the character string at the end of the correction candidate word / phrase matches the character string immediately after the reserved section
  • the character string at the end of the correction candidate word / phrase is deleted and displayed.
  • the deletion operation of the character string is not required after selection of the candidate word / phrase. Therefore, the user's operation can be reduced.
  • FIG. 1 is a block diagram showing a functional configuration of the speech recognition apparatus 1.
  • the speech recognition apparatus 1 performs, for example, speech recognition processing on input speech, displays recognition result word / phrase candidates for each phrase in the recognition processing result sentence, and displays a plurality of displayed words / phrases Is a device for confirming a sentence of a speech recognition processing result by allowing a user to select a desired phrase from, for example, a mobile terminal.
  • the speech recognition apparatus 1 functionally stores a speech acquisition unit 11 (speech acquisition unit), a speech recognition unit 12 (speech recognition unit), a dictionary DB 13 (dictionary storage unit), a recognition result, and the like.
  • Unit 14 recognition result display unit 15 (recognition result display unit), designation receiving unit 16 (designation receiving unit), holding section information storage unit 17, holding section display unit 18 (holding section display unit), editing control unit 19 (editing) Control means) and a correction input receiving unit 20 (correction input receiving means).
  • FIG. 2 is a hardware configuration diagram of the speech recognition apparatus 1.
  • the speech recognition apparatus 1 physically includes a CPU 101, a RAM 102 and a ROM 103, which are main storage devices, a communication module 104, which is a data transmission / reception device, an auxiliary storage device 105 such as a hard disk and a flash memory, an input
  • the computer system includes an input device 106 such as a keyboard, which is a device, and an output device 107 such as a display.
  • Each function shown in FIG. 1 has a communication module 104, an input device 106, and an output device 107 under the control of the CPU 101 by loading predetermined computer software on the hardware such as the CPU 101 and the RAM 102 shown in FIG. This is realized by reading and writing data in the RAM 102 and the auxiliary storage device 105.
  • each function part of the speech recognition apparatus 1 is demonstrated in detail.
  • the voice acquisition unit 11 is a part that acquires input voice, and is configured by a device such as a microphone.
  • the voice acquisition unit 11 sends an input voice signal representing the input voice to the voice recognition unit 12.
  • the voice recognition unit 12 divides the input voice acquired by the voice acquisition unit 11 into a plurality of sections, performs voice recognition processing for each of the plurality of sections with reference to the dictionary DB 13, and performs voice recognition processing for each of the plurality of sections. This is a part for outputting a voice recognition processing result composed of a plurality of obtained phrases.
  • the speech recognition processing result includes a plurality of recognition result candidates for each section in the input speech. Note that the voice recognition processing performed by the voice recognition unit 12 can be realized by a known technique.
  • the voice recognition unit 12 stores the voice recognition processing result in the recognition result storage unit 14.
  • the dictionary DB 13 is a storage unit that stores a plurality of words.
  • the dictionary DB 13 is referred to by the speech recognition unit 12 during speech recognition processing. Further, as will be described later, the dictionary DB 13 is also referred to when correcting the speech recognition processing result.
  • the recognition result storage unit 14 is a part for storing a speech recognition processing result.
  • FIG. 3A is a diagram illustrating an example of a data configuration and data contents representing a speech recognition processing result.
  • Ruby is appropriately displayed in Roman characters (Romanized Japan). This ruby does not exist in a display example or data example. Ruby is similarly displayed in the other figures and explanations, but the same is true in that respect.
  • the speech recognition processing result stores the words and phrases of the speech recognition result candidate in the regions L 1 and L 2 for each of a plurality of clauses (sections).
  • Each phrase is identified by a phrase ID.
  • the phrase with the phrase ID “4” includes “high-speed (kuusoku)”, “broadcast (houseou)”, “delusion (moususou)”, “restraint (kuusoku)”, etc. as candidate phrases of speech recognition results.
  • phrases plausible as the speech recognition result is stored in area L 1 as phrase uppermost.
  • “high speed (kuusoku)” is stored as a plausible result.
  • the phrase other speech recognition result candidates are stored in the area L 2.
  • the recognition result storage unit 14 includes display phrase data displayed on the recognition result display unit 15 as a temporary speech recognition processing result.
  • FIG. 3B is a diagram illustrating an example of display phrase data.
  • the displayed word / phrase data is configured by concatenating words / phrases that are likely as the voice recognition result of each phrase in the voice recognition processing result shown in FIG. That is, in the example shown in FIG. 3B, the display phrase data is a character string obtained by concatenating the phrases stored at the top of each phrase in the speech recognition processing result data shown in FIG. “Is this dish used at high speed (Kono ryouri niwa kousoku tsukawa rete imasuka)” is stored.
  • FIG. 4A is a diagram illustrating an example of a data configuration and data content representing a speech recognition processing result when speech in English is acquired.
  • the speech recognition processing result stores speech recognition result candidate words in regions L 21 and L 22 for each of a plurality of clauses (sections). For example, the phrase with the phrase ID “2” has “walked”, “worked”, “warmed”, and the like as candidate phrases of the speech recognition result. Among the plurality of words, phrases plausible as the speech recognition result is stored in the area L 21 as the phrase uppermost. In the phrase with the phrase ID “2”, “walked” is stored as a likely result. Further, the phrase other speech recognition result candidates are stored in the area L 22.
  • FIG. 4B is a diagram showing an example of display word / phrase data in the case where English speech is acquired.
  • the displayed word / phrase data is formed by concatenating words / phrases that are likely as the voice recognition result of each phrase in the voice recognition processing result shown in FIG.
  • the display phrase data is a character string obtained by concatenating the phrases stored at the top of each phrase in the speech recognition processing result data shown in FIG. “I walked hard yesterday” is stored.
  • the recognition result storage unit 14 can store post-designation input character string information, which is character string information representing the speech recognition processing result after the designation input is performed.
  • the designation input will be described later.
  • the recognition result display unit 15 is a part that presents the voice recognition processing result output by the voice recognition unit 12.
  • FIG. 5 is a diagram illustrating an example of a display screen of the speech recognition processing result displayed by the recognition result display unit 15.
  • the recognition result display unit 15 displays the text of the speech recognition process results in the display area D 1.
  • the recognition result display unit 15 displays the display word data illustrated in FIG. 3 (b) in the display region D 1.
  • the recognition result display unit 15 displays a phrase candidate of the speech recognition result of each clause (section) in the display region D 2.
  • the phrase "and the like are displayed in the display area D 2 as phrase candidates of the speech recognition result in the clause.
  • the designation receiving unit 16 is a part that accepts at least a hold designation input for each section in the voice recognition processing result presented by the recognition result display unit 15. Specifically, the designation accepting unit 16 accepts designation input from the user such as “confirmation designation”, “hold designation”, and “deletion designation” for each clause (section) in the speech recognition processing result.
  • the designation input is realized by the operation of the operation units S 1 , S 2 , S 3 in the display screen example of FIG.
  • the user selects a desired phrase from the phrase recognition result candidates displayed in the display area D 2 for each clause, perform operations of "confirmation designation” To do.
  • the phrase of the recognition result of the relevant phrase is confirmed.
  • the user performs an operation "Pending designation”.
  • the designation receiving unit 16 causes the recognition result etc. storage unit 14 or the hold section information storage unit 17 to store information related to the hold section that is the section for which the hold is designated.
  • FIG. 6A is a diagram showing character string information (character string information after designation input) of a speech recognition processing result after designation input stored in the recognition result storage unit 14.
  • this (kono) “cooking (ryouri)”, “niwa”, “use (tsukawa)”, “rete”, “is there (imasuka)”
  • “determined designation” is input to a phrase such as “”
  • “pending designation” is input to the phrase identified by the phrase ID “4”. That is, when “pending designation” is input to a certain phrase, the designation receiving unit 16 stores data indicating a pending section in an area corresponding to the phrase in the character string information after designation input.
  • “*” data corresponding to the number of characters of the clause is stored in the area corresponding to the reserved section.
  • FIG. 6B is a diagram illustrating an example of the configuration and data of the reserved section information related to the reserved section stored in the reserved section information storage unit 17. That is, the reserved section information storage unit 17 is a part that stores the reserved section information.
  • the designation receiving unit 16 associates the phrase ID of the holding section with the holding section ID that identifies the holding section, as shown in FIG.
  • the number of characters of the phrase is stored in the reserved section information storage unit 17 as the reserved section information. Note that it is sufficient that the information on the reserved section is stored in either the recognition result storage 14 or the reserved section information storage unit 17. That is, when the reserved section information is stored in the recognition result storage 14 as shown in the example of FIG. 6A, the speech recognition apparatus 1 may not include the reserved section information storage unit 17. Good.
  • FIG. 7A shows character string information (character string information after designated input) of a speech recognition processing result after designation input, which is stored in the recognition result storage unit 14 when English speech is acquired.
  • “determined designation” is input for a phrase such as “I”, “hard”, and “yesdayday”, and “pending designation” is input for the phrase identified by the phrase ID “2”. An example of the case is shown.
  • the designation receiving unit 16 stores data indicating a pending section in an area corresponding to the phrase in the character string information after designation input.
  • the number of “*” data corresponding to the number of syllables of the phrase is stored in the area corresponding to the reserved section.
  • FIG. 7B is a diagram showing an example of the configuration and data of the reserved section information related to the reserved section stored in the reserved section information storage unit 17 when the English voice is acquired. That is, the reserved section information storage unit 17 is a part that stores the reserved section information.
  • the designation receiving unit 16 associates the phrase section ID of the holding section with the holding section ID for identifying the holding section, as shown in FIG.
  • the number of syllables of the phrase is stored in the holding section information storage unit 17 as holding section information. Note that it is sufficient that the information on the reserved section is stored in either the recognition result storage 14 or the reserved section information storage unit 17.
  • the speech recognition apparatus 1 may not have the hold section information storage 17. Good.
  • the term “number of characters” is appropriately read as “number of syllables” when a language that does not use syllable characters such as English is used.
  • the hold section display unit 18 displays the hold section for which the hold designation has been accepted by the designation receiving unit 16 in the presentation of the speech recognition processing result by the recognition result display unit 15 in a manner that can be distinguished from the section not designated for hold. It is a part to do.
  • FIG. 8 is a diagram illustrating an example of a display screen of a reserved section by the reserved section display unit 18. As shown in FIG. 8, the hold section display unit 18, for example, in a manner such as "*" in the number of characters corresponding to the hold interval, and displays a hold section in the display area D 3. Thereby, it becomes easy to recognize a section requiring correction in the voice recognition processing result.
  • the editing control unit 19 is a part that extracts a reserved section from the voice recognition processing result and controls the extracted words in the reserved section to be editable. Specifically, the edit control unit 19 extracts the reserved section with reference to the character string information after designation input in the recognition result storage unit 14 (see FIG. 6A). Alternatively, the editing control unit 19 refers to the reserved section information storage unit 17 (see FIG. 6B) and extracts the phrase ID of the reserved section. Then, the edit control unit 19 controls the extracted words in the reserved section so that they can be edited with the corrected words. At this time, the editing control unit 19 can display a cursor indicating that editing is possible at the display position of the reserved section.
  • the correction input accepting unit 20 is a part that accepts input of a character string for the reserved section controlled to be editable by the editing control unit 19. Specifically, the correction input receiving unit 20 receives a character input by the user, and receives the received character string (phrase) in the section (see FIG. 6A) stored as the reserved section in the character string information after the designated input. ) Is memorized.
  • FIG. 9A is a diagram illustrating an example of character string information after designation input after correction input for the reserved section. As shown in FIG. 9A, when a phrase such as “Kasuga is” is input as the correction input for the reserved section shown in FIG. The inputted phrase “Kousouga” is stored in the area corresponding to.
  • the correction input receiving unit 20 when correction input for the reserved section is performed, the correction input receiving unit 20, as shown in FIG. 9B, Delete the hold section information related to the hold section. Then, as shown in FIG. 10, the recognition result display unit 15 displays the specified input after the character string information after the modification input is performed in the display area D 4.
  • a plurality of clauses are reserved sections such as “** used for this dish *** (konryo ryoriwa ** tsukawareate ***)”.
  • the editing control unit 19 searches for a reserved section from the beginning of the sentence, and when a reserved section immediately after the character string “Konoryo niwa” is detected, the edit control unit 19 controls the reserved section to be editable.
  • the recognition result display unit 15 displays the specified input after the character string information reflecting the corrected input to the hold section in the display area D 4 . Subsequently, when the acceptance of the correction input for a certain reserved section is completed, the editing control unit 19 further performs a search toward the end of the sentence, and extracts the next detected reserved section. In the above example, the edit control unit 19 extracts the reserved section immediately after the character string “used (tukawarete)”. Then, the edit control unit 19 controls the reserved section to be editable, and displays a cursor indicating that the reserved section is editable at the display position of the reserved section.
  • the recognition result display unit 15 displays the specified input after the character string information reflecting the corrected input to the hold section in the display area D 4 below
  • the designation receiving unit 16 displays FIG. As shown to (a), the data which show a pending
  • the designation receiving unit 16 stores data such as “**” and “***” in each of the areas corresponding to the two sections of “day (hibi)” and “park (kouen)”. .
  • designated reception part 16 may memorize
  • the designation receiving unit 16 stores data such as the phrase ID “3”, the number of characters “2”, the phrase ID “4”, and the number of characters “4” as the reserved section information of the reserved section IDs “1” and “2”, respectively.
  • the information is stored in the reserved section information storage unit 17.
  • the hold section display unit 18 displays the phrase corresponding to the words “day (hibi)” and “park (kuuen)” so as to be identifiable as a hold section. It is displayed in the area D 6.
  • the edit control unit 19 searches for the character string information after the designated input shown in FIG. Then, the edit control unit 19 further searches the character string information after the designated input, and determines whether or not the section following the extracted reserved section is a reserved section. When a plurality of consecutive sections are extracted as a reserved section, the editing control unit 19 controls the editing so that the plurality of sections are integrated and edited as one reserved section. That is, as shown in FIG. 13A, the edit control unit 19 integrates the continuous reserved sections in the character string information after the designated input into one reserved section. In FIG. 13A, the integrated one reserved section is indicated by data such as “******”.
  • the edit control unit 19 refers to the reserved section information shown in FIG. 12B, and extracts the reserved section information having the reserved section ID having the smallest value. Then, the editing control unit 19 further searches the holding section information in the holding section information storage unit 17 and determines whether or not the phrase following the phrase ID of the extracted holding section is stored as the holding section. When a plurality of phrases with consecutive phrase IDs are extracted as holding sections in the holding section information, the editing control unit 19 integrates the holding section information of the plurality of phrases into one holding section information. That is, as shown in FIG. 13B, the edit control unit 19 integrates the consecutive reserved sections in the character string information after the designated input into one reserved section. In FIG. 13B, the integrated hold section information includes information such as the phrase ID “3, 4” and the number of characters “6” as the hold section information whose hold section ID is “1”.
  • FIG. 14 is a block diagram illustrating functional units related to correction candidate display processing in the speech recognition apparatus 1.
  • the functional units shown in FIG. 1 are omitted.
  • the speech recognition apparatus 1 can further include a re-recognition unit 21 (re-recognition unit), a re-search unit 22 (re-search unit), and a correction candidate display unit 23 (correction candidate display unit). .
  • the re-recognition unit 21 uses the speech recognition processing result output from the speech recognition unit 12 to obtain a phrase obtained by performing speech recognition processing on the input speech corresponding to the one reserved section integrated by the editing control unit 19. This is the part to be extracted.
  • the processing content of the re-recognition part 21 is demonstrated concretely.
  • FIG. 15A is a diagram illustrating an example of a data configuration and data content representing a voice recognition processing result output from the voice recognition unit 12.
  • the voice recognition processing result is stored in the recognition result storage 14.
  • the sections corresponding to the phrase IDs “3” and “4” are designated as the reserved sections, and as shown in FIG.
  • the re-recognition unit 21 refers to the speech recognition processing result shown in FIG. 15A and extracts a word / phrase corresponding to the one reserved section.
  • words having a number of characters within a predetermined number of differences from the number of characters in the reserved section integrated into one reserved section are extracted from the speech recognition processing result.
  • the re-recognition unit 21 utters words having the number of characters from “5” to “7” because the number of characters in the integrated reserved section information is “6”. It searches the recognition processing result, re-recognition unit 21 extracts a phrase "Hibiya Park (hibiyakouen)" in the region L 5 of the speech recognition processing result. Then, the re-recognition unit 21 sends the extracted word / phrase as a correction candidate to the correction candidate display unit 23.
  • the re-search unit 22 may search for a correction candidate word / phrase.
  • the re-search unit 22 is a part that searches the dictionary DB 13 based on the words / phrases output by the voice recognition unit 12 as the voice recognition processing results of a plurality of sections included in one holding section integrated by the editing control unit 19. .
  • the re-search unit 22 performs a so-called “fuzzy search” with respect to one integrated reserved section, using the words displayed as candidates for the speech recognition results as keys.
  • the fuzzy search is a search that is performed with a certain threshold value for the degree of matching with a key word being reduced. That is, in the fuzzy search, a phrase having a lower degree of matching with the key phrase is searched than in a normal search process.
  • the re-search unit 22 searches the dictionary DB 13 (fuzzy search) using a word such as “hibikoen” as a key, and sends the search result to the correction candidate display unit 23.
  • the correction candidate display unit 23 is a part that displays the words extracted by the re-recognition unit 21 or the re-search unit 22 as the correction candidate words of the words in one reserved section. Specifically, when “hibiyakouen” is extracted as the correction candidate phrase by the re-recognition unit 21 or the re-search unit 22, the correction candidate display unit 23 displays the correction candidate for one reserved section. “Hibiyakouen” is displayed as a phrase.
  • FIG. 15B is a diagram illustrating an example of a display screen on which the correction candidate words and phrases are displayed by the correction candidate display unit 23. As shown in FIG. 15 (b), the correction candidate display unit 23 displays the correction candidate word “hibiyakouen” at a position corresponding to the reserved section in the display area D 8 .
  • the words and phrases of the speech recognition processing result corresponding to one holding section in which a plurality of holding sections are integrated are displayed as the correction candidate words.
  • the possibility that the correction candidate for the one reserved section desired by can be presented is increased.
  • the phrase corresponding to one reserved section in which a plurality of reserved sections are integrated is extracted by the re-search of the storage means storing the vocabulary, and the extracted phrase Is displayed as a correction candidate word / phrase, the possibility that the correction candidate for the one reserved section desired by the user can be presented is increased. Accordingly, it is possible to reduce the user's operation in correcting the voice recognition result.
  • the voice recognition device 1 may include any one of the re-recognition unit 21 and the re-search unit 22.
  • FIG. 16 is a block diagram illustrating functional units related to the processing.
  • the correction input receiving unit 20 receives an input of a character string for correction input for the reserved section controlled to be editable by the editing control unit 19. Then, the correction input receiving unit 20 sends the received character string to the correction candidate display unit 23.
  • the correction candidate display unit 23 searches the dictionary DB 13 based on the input character string received by the correction input receiving unit 20 to extract a correction candidate word / phrase including the input character string, and the character string at the end of the extracted correction candidate word / phrase When the character string immediately after the reserved section in the voice recognition processing result output by the voice recognition means matches, the corrected candidate word / phrase is displayed by omitting the matched character string.
  • the correction candidate word / phrase display process will be described in detail.
  • FIG. 17 (a) is a diagram showing the character string information after designation input after the hold designation is performed.
  • the character string information after the designation input is stored in the recognition result storage 14.
  • a hold designation is made in the third section of the character string “Rustyuuni *** wokemashita” shown in FIG.
  • the correction input receiving unit 20 receives the input of the character string “de (de)”.
  • the correction input receiving unit 20 sends the character string “de (de)” to the correction candidate display unit 23.
  • the correction candidate display unit 23 searches the dictionary DB 13 based on the character string “de (de)”.
  • the correction candidate display unit 23 displays, for example, correction candidate phrases “denwawo”, “denwaga”, and “denwani” as shown in FIG.
  • the correction candidate display unit 23 displays the character string at the end of the correction candidate word / phrase shown in FIG. 17 (b) and the character immediately after the reserved section in the character string information after designated input shown in FIG. 17 (a). It is determined whether or not there is a match with the column. If there is a match, the corrected candidate word / phrase is displayed without the matched character string. Specifically, the character string “O (wo)” at the end of the correction candidate word “denwawo” shown in FIG. 17B and the character string information after designated input shown in FIG. Since the character string “O (wo)” immediately after the reserved section “***” in FIG.
  • FIG. 17C is an example of a display screen on which correction candidate words are displayed. As shown in FIG.
  • the speech recognition apparatus 1 has the function of displaying the correction candidate word / phrase for the reserved section described with reference to FIG. 16 and the correction candidate display process of displaying the correction candidate word / phrase described with reference to FIG. It is good also as providing this function together.
  • FIG. 18 is a flowchart showing the processing contents of the voice recognition method.
  • the voice acquisition unit 11 acquires an input voice (S1).
  • the voice recognition unit 12 divides the input voice acquired by the voice acquisition unit 11 into a plurality of sections, performs a voice recognition process for each of the plurality of sections with reference to the dictionary DB 13, and outputs a voice recognition process result. (S2).
  • the voice recognition processing result is stored in the recognition result storage 14.
  • the recognition result display unit 15 causes the predetermined display device to present the voice recognition processing result output by the voice recognition unit 12 (S3).
  • the designation receiving unit 16 selects a phrase having the smallest phrase ID value in each phrase of the speech recognition processing result (S4). In other words, the designation receiving unit 16 selects the section closest to the beginning of the sentence from the sections where no designation is input. Next, the designation receiving unit 16 receives a designation input such as a hold designation or a confirmation designation for the selected section (S5). At this time, the hold section display unit 18 displays the hold section for which the hold designation has been received by the designation receiving unit 16 in the voice recognition processing result in a form that can be distinguished from the section that is not designated for hold. And the designation
  • a designation input such as a hold designation or a confirmation designation for the selected section (S5).
  • step S7 the edit control unit 19 extracts a reserved section from the voice recognition processing result, and controls the extracted phrase of the reserved section to be editable (S7). Subsequently, the correction input receiving unit 20 receives a character string input (correction input) for the reserved section controlled to be editable by the editing control unit 19 (S8). Then, the editing control unit 19 determines whether or not the hold section that has received the correction input in step S8 is the last hold section in the voice recognition processing result (S9). Then, the processes in steps S7 to S9 are repeated until the correction input for all the reserved sections is received.
  • FIG. 19 is a flowchart showing the processing contents in the speech recognition apparatus 1. The process shown in FIG. 19 can be executed as a subroutine of step S7 in the flowchart of FIG.
  • the edit control unit 19 acquires a reserved section from the voice recognition processing result (S11). Next, the edit control unit 19 further searches the speech recognition processing result, and determines whether or not the section following the reservation section acquired in step S11 is a reservation section (S12). If it is determined that the subsequent section is a reserved section, the processing procedure proceeds to step S13. On the other hand, if it is not determined that the subsequent section is a reserved section, the processing procedure shown in this flowchart ends.
  • step S13 the edit control unit 19 extracts a plurality of consecutive reserved sections, and integrates the plurality of reserved sections so as to be edited as one reserved section (S13).
  • the re-recognition unit 21 uses the speech recognition unit 12 to output the words and phrases obtained by performing the speech recognition process on the input speech corresponding to the one reserved section integrated by the editing control unit 19.
  • a correction candidate word / phrase is extracted from the processing result (S14).
  • the re-search unit 22 searches the dictionary DB 13 based on the words / phrases output by the speech recognition unit 12 as the speech recognition processing results of a plurality of sections included in the one holding section integrated by the editing control unit 19, The phrase obtained by the search is output as a correction candidate phrase for one reserved section (S14).
  • the correction candidate display unit 23 displays the phrase extracted by the re-recognition unit 21 or the phrase searched by the re-search unit 22 as a correction candidate word / phrase in one reserved section (S15). And the designation
  • FIG. 20 is a flowchart showing the processing contents in the speech recognition apparatus 1. The process shown in FIG. 20 can be executed as a subroutine of step S8 in the flowchart of FIG.
  • the correction input receiving unit 20 receives a correction input for the reserved section (S21). Then, the correction input receiving unit 20 sends the received character string to the correction candidate display unit 23. Next, the correction candidate display unit 23 searches the dictionary DB 13 based on the input character string received by the correction input receiving unit 20 and extracts correction candidate words including the input character string (S22). Subsequently, the correction candidate display unit 23 determines whether or not there is a match between the character string at the end of the correction candidate word and the character string immediately after the reserved section in the speech recognition processing result (S23). If both character strings match, the processing procedure proceeds to step S24.
  • step S24 the correction candidate display unit 23 deletes the character string that matches the character string immediately after the reserved section at the end of the correction candidate word / phrase (S24).
  • step S25 the correction candidate display unit 23 presents the correction candidate word / phrase (S25).
  • FIG. 21 is a diagram showing a configuration of a speech recognition program 1m corresponding to the speech recognition apparatus 1 shown in FIGS.
  • the voice recognition program 1m includes a main module 10m that centrally controls voice recognition processing, a voice acquisition module 11m, a voice recognition module 12m, a dictionary DB 13m, a recognition result storage module 14m, a recognition result presentation module 15m, a designation receiving module 16m, The holding section information storage module 17m, the holding section display module 18m, the edit control module 19m, and the correction input receiving module 20m are provided.
  • the speech recognition program 1m may further include a re-recognition module 21m, a re-search module 22m, and a correction candidate display module 23m.
  • the modules 10m to 23m realize the functions for the functional units 11 to 23 in the speech recognition apparatus 1.
  • the voice recognition program 1m may be transmitted via a transmission medium such as a communication line, or may be stored in the program storage area 1r of the recording medium 1d as shown in FIG. There may be.
  • an input for holding designation is received by the designation receiving unit 16 for each section in the voice recognition processing result, and the reserved section for which holding is specified is the other. Since it is displayed by the hold section display unit 18 so as to be distinguishable from the section, it is easy to recognize a section requiring correction in the voice recognition processing result. Then, the edit control unit 19 controls the words in the reserved section so that they can be edited, and the correction input receiving unit 20 receives the input of the character string for the reserved section, so that the words in the reserved section are corrected. Therefore, it becomes easy to correct the reserved section.
  • a speech recognition apparatus capable of easily correcting a section having a recognition error in a speech recognition result.
  • Recognition result presentation module 16m ... Designated reception module, 17m ... Reserved section Information storage module, 18m ... pending section display module, 19m ... editing control module, 20m ... correction input acceptance module, 21m ... re-recognition module Lumpur, 22m ... re-search module, 23m ... correction candidate display module.

Abstract

 音声認識装置は、音声認識処理結果における区間ごとに保留指定の入力を受け付ける指定受付部と、保留指定された保留区間をその他の区間と識別可能に表示する保留区間表示部とを有するので、音声認識処理結果において修正を要する区間の認識が容易となる。そして、音声認識装置は、保留区間の語句を編集可能に制御する編集制御部と、当該保留区間に対する文字列の入力を受け付ける修正入力受付部とを更に備えるので、保留区間の語句の修正が実施される。従って、保留区間の修正が容易となる。

Description

音声認識装置、音声認識方法及び音声認識プログラム
 本発明は、音声認識装置、音声認識方法及び音声認識プログラムに関する。
 入力された音声に対して音声認識処理を行い、文節ごとの認識結果の語句の候補を表示し、表示された複数の語句から所望の語句をユーザに選択させることにより音声認識結果の文章を確定する技術が知られている。また、音声認識結果における信頼度の低い文節をユーザに認識させるために、その文節の表示色を変更して表示する技術が知られている。一方、特許文献1には、音声認識手段により認識された音声に含まれる単語を辞書手段から抽出表示すると共に、当該単語と競合する確率が高い競合単語を抽出して表示し、ユーザに表示した競合単語を選択させる装置が開示されている。さらに、特許文献2には、音声認識により得られた音声に含まれる第1候補の語彙を表示すると共に、第2候補以降の語彙をユーザに選択可能に表示する装置が記載されている。
特開2006-146008号公報 特開平9-50291号公報
 しかしながら、従来の音声認識技術では、音声認識結果の候補の中に所望の語句がない場合に、その修正を行うことができず、一旦、音声認識結果を文章として確定させた後に、誤りのある区間を選択して修正を行わなければならなかった。そのため、従来の音声認識技術では、認識結果の修正が煩雑であった。
 そこで、本発明は、上記問題点に鑑みてなされたものであり、音声認識結果における認識の誤りがある区間の修正を容易に実施することが可能な音声認識装置、音声認識方法及び音声認識プログラムを提供することを目的とする。
 上記課題を解決するために、本発明の一形態に係る音声認識装置は、入力音声を取得する音声取得手段と、複数の語句を記憶している辞書記憶手段と、音声取得手段により取得された入力音声を複数の区間に区切り、辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識手段と、音声認識手段により出力された音声認識処理結果を提示する認識結果表示手段と、認識結果表示手段により提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付ける指定受付手段と、認識結果表示手段による音声認識処理結果の提示において、指定受付手段により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示手段と、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御手段と、編集制御手段により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付手段とを備える。
 また、上記課題を解決するために、本発明の一形態に係る音声認識方法は、入力音声を取得する音声取得ステップと、音声取得ステップにおいて取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識ステップと、音声認識ステップにおいて出力された音声認識処理結果を提示する認識結果提示ステップと、認識結果提示ステップにおいて提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付ステップと、認識結果提示ステップにおける音声認識処理結果の提示において、指定入力受付ステップにおいて保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示ステップと、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御ステップと、編集制御ステップにおいて編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付ステップとを有する。
 また、上記課題を解決するために、本発明の一形態に係る音声認識プログラムは、コンピュータに、入力音声を取得する音声取得機能と、音声取得機能により取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識機能と、音声認識機能により出力された音声認識処理結果を提示する認識結果提示機能と、認識結果提示機能により提示された音声認識処理結果における区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付機能と、認識結果提示機能による音声認識処理結果の提示において、指定受付機能により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示機能と、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する編集制御機能と、編集制御機能により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付機能とを実現させる。
 上記の形態の音声認識装置、音声認識方法及び音声認識プログラムによれば、音声認識処理結果における区間ごとに保留指定の入力が受け付けられ、保留指定された保留区間がその他の区間と識別可能に表示されるので、音声認識処理結果において修正を要する区間の認識が容易となる。そして、保留区間の語句が編集可能に制御され、当該保留区間に対する文字列の入力が受け付けられるので、保留区間の語句の修正が実施される。従って、保留区間の修正が容易となる。
 また、別の形態に係る音声認識装置では、編集制御手段は、音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する。
 上記形態によれば、一の保留区間に対する修正入力を行うことにより、連続する複数の保留区間に対応する区間の修正が可能であるので、保留区間が統合されない場合において必要とされた後続する保留区間の削除操作が必要とされない。従って、ユーザの操作低減が可能となる。
 また、さらに別の形態に係る音声認識装置は、編集制御手段により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識手段により出力された音声認識処理結果から抽出する再認識手段と、再認識手段により抽出された語句を、一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段とを更に備える。
 上記形態によれば、複数の保留区間が統合された一の保留区間に対応する音声認識処理結果の語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。
 また、さらに別の形態に係る音声認識装置は、編集制御手段により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識手段により出力された語句に基づき、辞書記憶手段を検索する再検索手段と、再検索手段により検索された語句を、一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段とを更に備える。
 上記形態によれば、複数の保留区間が統合された一の保留区間に対応する語句が語彙を記憶した記憶手段の再検索により抽出され、抽出された語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。
 また、さらに別の形態に係る音声認識装置では、修正入力受付手段により受け付けられた入力文字列に基づき辞書記憶手段を検索して入力文字列を含む訂正候補語句を抽出し、該訂正候補語句の末尾の文字列と、音声認識手段により出力された音声認識処理結果における保留区間の直後の文字列とが一致する場合に、該一致した文字列を省いて訂正候補語句を表示する訂正候補表示手段を更に備える。
 上記形態によれば、訂正候補語句の末尾の文字列が、保留区間の直後の文字列と一致する場合に、訂正候補語句の末尾における当該文字列が削除された上で表示されるので、訂正候補語句の選択後において当該文字列の削除操作が必要とされない。従って、ユーザの操作低減が可能となる。
 本発明の一側面によれば、音声認識結果における認識の誤りがある区間の修正を容易に実施することが可能となる。
音声認識装置の機能的構成を示すブロック図である。 音声認識装置のハードブロック図である。 音声認識処理結果を表すデータの構成及びデータの内容の例、及び表示語句データの例を示す図である。 音声認識処理結果を表すデータの構成及びデータの内容の例、及び表示語句データの例を示す図である。 音声認識処理結果を表示する表示画面の例を示す図である。 認識結果等格納部に記憶された、指定入力後における音声認識処理結果の文字列情報、及び保留区間情報の構成及びデータの例を示す図である。 認識結果等格納部に記憶された、指定入力後における音声認識処理結果の文字列情報、及び保留区間情報の構成及びデータの例を示す図である。 保留区間を示す表示画面の例を示す図である。 保留区間に対する修正入力後の指定入力後文字列情報及び保留区間情報の例を示す図である。 修正入力が実施された後の音声認識処理結果を示す表示画面の例を示す図である。 音声認識処理結果を表すデータの構成及びデータの内容の例、及び音声認識処理結果を表示する表示画面の例を示す図である。 指定入力後における指定入力後文字列情報、保留区間情報、及び表示画面の例を示す図である。 複数の保留区間が統合された後における指定入力後文字列情報、保留区間情報、及び表示画面の例を示す図である。 音声認識装置における、訂正候補表示処理に関わる機能構成を示すブロック図である。 音声認識処理結果を表すデータの構成及びデータの内容の例、及び表示画面の例を示す図である。 音声認識装置における、保留区間に対する訂正候補の語句を表示する処理に関わる機能構成を示すブロック図である。 保留指定が行われた後の指定入力後文字列情報、辞書DBから抽出された訂正候補語句、及び訂正候補語句が表示された表示画面の例を示す図である。 音声認識方法の処理内容を示すフローチャートである。 連続する複数の区間に対して保留指定の入力が行われた場合の処理内容を示すフローチャートである。 保留区間に対する訂正候補の語句を表示する処理内容を示すフローチャートである。 音声認識プログラムの構成を示す図である。
 本発明に係る音声認識装置、音声認識方法及び音声認識プログラムの実施形態について図面を参照して説明する。なお、可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。
 図1は、音声認識装置1の機能的構成を示すブロック図である。本実施形態の音声認識装置1は、例えば、入力された音声に対して音声認識処理を行い、認識処理結果の文章における文節ごとの認識結果の語句の候補を表示し、表示された複数の語句から所望の語句をユーザに選択させることにより音声認識処理結果の文章を確定する装置であって、例えば、携帯端末により構成される。
 図1に示すように、音声認識装置1は、機能的には、音声取得部11(音声取得手段)、音声認識部12(音声認識手段)、辞書DB13(辞書記憶手段)、認識結果等格納部14、認識結果表示部15(認識結果表示手段)、指定受付部16(指定受付手段)、保留区間情報記憶部17、保留区間表示部18(保留区間表示手段)、編集制御部19(編集制御手段)及び修正入力受付部20(修正入力受付手段)を備える。
 図2は、音声認識装置1のハードウエア構成図である。音声認識装置1は、物理的には、図2に示すように、CPU101、主記憶装置であるRAM102及びROM103、データ送受信デバイスである通信モジュール104、ハードディスク、フラッシュメモリ等の補助記憶装置105、入力デバイスであるキーボード等の入力装置106、ディスプレイ等の出力装置107などを含むコンピュータシステムとして構成されている。図1に示した各機能は、図2に示すCPU101、RAM102等のハードウエア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで通信モジュール104、入力装置106、出力装置107を動作させるとともに、RAM102や補助記憶装置105におけるデータの読み出し及び書き込みを行うことで実現される。再び、図1を参照し、音声認識装置1の各機能部について詳細に説明する。
 音声取得部11は、入力音声を取得する部分であって、例えばマイクといった装置により構成される。音声取得部11は、入力音声を表す入力音声信号を音声認識部12に送出する。
 音声認識部12は、音声取得部11により取得された入力音声を複数の区間に区切り、辞書DB13を参照して複数の区間毎に音声認識処理を実施し、音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する部分である。具体的には、音声認識処理結果は、入力音声における各区間毎に、複数の認識結果の候補を含む。なお、音声認識部12により実施される音声認識処理は、周知の技術により実現可能である。音声認識部12は、音声認識処理結果を認識結果等格納部14に記憶させる。
 辞書DB13は、複数の語句を記憶している記憶手段である。辞書DB13は、音声認識処理に際して、音声認識部12により参照される。また、後述するように、辞書DB13は、音声認識処理結果の修正に際しても参照される。
 認識結果等格納部14は、音声認識処理結果を記憶する部分である。図3(a)は、音声認識処理結果を表すデータの構成及びデータの内容の例を示す図である。なお、図中及び以下の説明における日本語のデータには、説明の便宜のために、ローマ字(Romanized Japanese)で、適宜ルビを表示している。このルビは、表示例やデータの例において実在するものではない。その他の図や説明においても同様にルビを表示しているが、その点において同様である。
 図3(a)に示すように、音声認識処理結果は、複数に区切られた文節(区間)毎に、音声認識結果の候補の語句を領域L,Lに記憶している。各文節は、文節IDにより識別される。例えば、文節IDが「4」の文節は、音声認識結果の候補の語句として、「高速(kousoku)」、「放送(housou)」、「妄想(mousou)」及び「拘束(kousoku)」等を有している。これらの複数の語句のうち、音声認識結果として尤もらしい語句が、最上位の語句として領域Lに記憶されている。文節IDが「4」の文節では、「高速(kousoku)」が尤もらしい結果として記憶されている。また、その他の音声認識結果の候補の語句は、領域Lに記憶される。
 また、認識結果等格納部14は、仮の音声認識処理結果として認識結果表示部15に表示される表示語句データを含む。図3(b)は、表示語句データの例を示す図である。表示語句データは、図3(a)に示す音声認識処理結果における、各文節の音声認識結果として尤もらしい語句の連結により構成される。即ち、図3(b)に示す例では、表示語句データは、図3(a)に示す音声認識処理結果のデータのうち、各文節の最上位に記憶されている語句を連結させた文字列「この料理には高速使われていますか(kono ryouri niwa kousoku tsukawa rete imasuka)」を記憶している。
 図4(a)は、英語による音声が取得された場合における、音声認識処理結果を表すデータの構成及びデータの内容の例を示す図である。図4(a)に示すように、音声認識処理結果は、複数に区切られた文節(区間)毎に、音声認識結果の候補の語句を領域L21,L22に記憶している。例えば、文節IDが「2」の文節は、音声認識結果の候補の語句として、「walked」、「worked」、及び「warmed」等を有している。これらの複数の語句のうち、音声認識結果として尤もらしい語句が、最上位の語句として領域L21に記憶されている。文節IDが「2」の文節では、「walked」が尤もらしい結果として記憶されている。また、その他の音声認識結果の候補の語句は、領域L22に記憶される。
 また、図4(b)は、英語による音声が取得された場合における、表示語句データの例を示す図である。表示語句データは、図4(a)に示す音声認識処理結果における、各文節の音声認識結果として尤もらしい語句の連結により構成される。即ち、図4(b)に示す例では、表示語句データは、図4(a)に示す音声認識処理結果のデータのうち、各文節の最上位に記憶されている語句を連結させた文字列「I walked hard yesterday」を記憶している。
 また、認識結果等格納部14は、指定入力が行われた後における、音声認識処理結果を表す文字列情報である指定入力後文字列情報も記憶できる。なお、指定入力については後述する。
 認識結果表示部15は、音声認識部12により出力された音声認識処理結果を提示する部分である。図5は、認識結果表示部15により表示された音声認識処理結果の表示画面の例を示す図である。図5に示すように、認識結果表示部15は、表示領域Dに音声認識処理結果の文章を表示させる。具体的には、認識結果表示部15は、例えば、図3(b)に例示される表示語句データを表示領域Dに表示させる。また、認識結果表示部15は、各文節(区間)の音声認識結果の候補の語句を表示領域Dに表示させる。図5に示す例では、表示領域Dにおいてポインタが「高速(kousoku)」にあるので、「高速(kousoku)」、「放送(housou)」、「妄想(mousou)」及び「拘束(kousoku)」等の語句が、当該文節における音声認識結果の候補の語句として表示領域Dに表示されている。
 指定受付部16は、認識結果表示部15により提示された音声認識処理結果における各区間に対して、少なくとも保留指定の入力を受け付ける部分である。具体的には、指定受付部16は、音声認識処理結果における各文節(区間)毎に、例えば、「確定指定」、「保留指定」及び「削除指定」といったユーザからの指定入力を受け付ける。指定入力は、図5の表示画面例における操作部S,S,Sの操作により実現される。
 音声認識処理結果の文章を確定させるために、ユーザは、文節毎に表示領域Dに表示される認識結果の候補の語句の中から所望の語句を選択し、「確定指定」の操作を実施する。この「確定指定」の操作により、当該文節の認識結果の語句が確定される。一方、表示領域Dに表示される認識結果の候補の語句の中に所望の語句が存在しない場合には、ユーザは、「保留指定」の操作を実施する。「保留指定」の操作が実施されると、指定受付部16は、保留指定された区間である保留区間に関する情報を認識結果等格納部14又は保留区間情報記憶部17に記憶させる。
 図6(a)は、認識結果等格納部14に記憶された、指定入力後における音声認識処理結果の文字列情報(指定入力後文字列情報)を示す図である。図6(a)では、「この(kono)」、「料理(ryouri)」、「には(niwa)」、「使わ(tsukawa)」、「れて(rete)」、「いますか(imasuka)」といった文節に対して「確定指定」が入力され、文節ID「4」により識別される文節に対して「保留指定」が入力された場合の例が示されている。即ち、指定受付部16は、ある文節に対して「保留指定」が入力されると、指定入力後文字列情報における当該文節に対応する領域に、保留区間であることを示すデータを記憶させる。図6(a)に示す例では、保留区間に対応する領域に、当該文節の文字数に相当する数の「*」のデータが記憶されている。
 一方、図6(b)は、保留区間情報記憶部17に記憶された、保留区間に関する保留区間情報の構成及びデータの例を示す図である。即ち、保留区間情報記憶部17は、保留区間情報を記憶する部分である。指定受付部16は、ある区間に対して「保留指定」が入力されると、図6(b)に示すように、保留区間を識別する保留区間IDに対応付けて、保留区間の文節ID及び当該文節の文字数を保留区間情報として保留区間情報記憶部17に記憶させる。なお、保留区間の情報は、認識結果等格納部14又は保留区間情報記憶部17のいずれかに記憶されれば足りる。即ち、保留区間情報が、図6(a)の例に示すように認識結果等格納部14に記憶される場合には、音声認識装置1は保留区間情報記憶部17を有さないこととしてもよい。
 日本語のような音節文字(syllabary)を使用する言語以外の言語においては、上述の文字数の代わりに音節(syllable)数を用いて保留区間情報を記憶してもよい。図7(a)は、英語による音声が取得された場合における、認識結果等格納部14に記憶された、指定入力後における音声認識処理結果の文字列情報(指定入力後文字列情報)を示す図である。図7(a)では、「I」、「hard」、「yesterday」といった文節に対して「確定指定」が入力され、文節ID「2」により識別される文節に対して「保留指定」が入力された場合の例が示されている。即ち、指定受付部16は、ある文節に対して「保留指定」が入力されると、指定入力後文字列情報における当該文節に対応する領域に、保留区間であることを示すデータを記憶させる。図7(a)に示す例では、保留区間に対応する領域に、当該文節の音節数に相当する数の「*」のデータが記憶されている。
 一方、図7(b)は、英語による音声が取得された場合における、保留区間情報記憶部17に記憶された、保留区間に関する保留区間情報の構成及びデータの例を示す図である。即ち、保留区間情報記憶部17は、保留区間情報を記憶する部分である。指定受付部16は、ある区間に対して「保留指定」が入力されると、図7(b)に示すように、保留区間を識別する保留区間IDに対応付けて、保留区間の文節ID及び当該文節の音節数を保留区間情報として保留区間情報記憶部17に記憶させる。なお、保留区間の情報は、認識結果等格納部14又は保留区間情報記憶部17のいずれかに記憶されれば足りる。即ち、保留区間情報が、図7(a)の例に示すように認識結果等格納部14に記憶される場合には、音声認識装置1は保留区間情報記憶部17を有さないこととしてもよい。以下、「文字数」という用語は、英語等の音節文字(Syllabary)を使用しない言語を用いる場合には「音節数」と適宜読み替えるものとする。
 保留区間表示部18は、認識結果表示部15による音声認識処理結果の提示において、指定受付部16により保留指定の受け付けをされた保留区間を、保留指定されていない区間と識別可能な態様で表示する部分である。図8は、保留区間表示部18による、保留区間の表示画面の例を示す図である。図8に示すように、保留区間表示部18は、例えば、保留区間に対応する文字の数の「*」といった態様で、表示領域Dに保留区間を表示する。これにより、音声認識処理結果において修正を要する区間の認識が容易となる。
 編集制御部19は、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する部分である。具体的には、編集制御部19は、認識結果等格納部14における指定入力後文字列情報(図6(a)参照)を参照して保留区間を抽出する。または、編集制御部19は、保留区間情報記憶部17(図6(b)参照)を参照して保留区間の文節IDを抽出する。そして、編集制御部19は、抽出した保留区間の語句を、修正入力された語句による編集が可能なように制御する。このとき、編集制御部19は、編集可能であることを示すカーソルを当該保留区間の表示位置に表示させることができる。
 修正入力受付部20は、編集制御部19により編集可能に制御された保留区間に対する文字列の入力を受け付ける部分である。具体的には、修正入力受付部20は、ユーザによる文字入力を受け付け、指定入力後文字列情報において保留区間として記憶されていた区間(図6(a)参照)に、受け付けた文字列(語句)を記憶させる。図9(a)は、保留区間に対する修正入力後の指定入力後文字列情報の例を示す図である。図9(a)に示すように、修正入力受付部20は、図6に示した保留区間に対する修正入力として「香草が」といった語句が入力されると、指定入力後文字列情報における当該保留区間に対応する領域に、入力された語句「香草が(kousouga)」を記憶させる。また、保留区間情報記憶部17において保留区間の情報を記憶していた場合には、保留区間に対する修正入力が行われると、修正入力受付部20は、図9(b)に示すように、当該保留区間に関する保留区間情報を削除する。そして、図10に示すように、認識結果表示部15は、修正入力が実施された後の指定入力後文字列情報を表示領域Dに表示させる。
 また、指定入力後文字列情報において、例えば、「この 料理 には ** 使われて ***(kono ryouri niwa ** tsukawarete ***)」というように、複数の文節(区間)が保留区間とされていた場合には、編集制御部19、修正入力受付部20及び認識結果表示部15は、以下のように機能する。即ち、編集制御部19は、文頭から保留区間を検索し、文字列「この料理には(kono ryouri niwa)」の直後の保留区間を検出すると、当該保留区間を編集可能に制御する。そして、当該保留区間に対する修正入力が修正入力受付部20により受け付けられると、認識結果表示部15は、当該保留区間への修正入力を反映した指定入力後文字列情報を表示領域Dに表示させる。続いて、ある保留区間に対する修正入力の受け付けが完了すると、編集制御部19は、更に文末に向かって検索を実施し、次に検出した保留区間を抽出する。上記の例では、編集制御部19は、文字列「使われて(tsukawarete)」の直後の保留区間を抽出する。そして、編集制御部19は、当該保留区間を編集可能に制御すると共に、当該保留区間が編集可能であることを示すカーソルを当該保留区間の表示位置に表示させる。以下同様に、保留区間に対する修正入力が修正入力受付部20により受け付けられると、認識結果表示部15は、当該保留区間への修正入力を反映した指定入力後文字列情報を表示領域Dに表示させる。このように、一の保留区間に対する修正入力が実施されると、編集制御部19により次の保留区間が編集可能に制御されるので、編集可能な区間を指定するためのカーソルを次の保留区間に移動する操作の削減が可能となる。
 次に、連続する複数の文節(区間)に対して保留指定の入力が行われた場合の各機能部の動作について説明する。ここでは、図11(a)に示すような音声認識処理結果が認識結果等格納部14に記憶されているものとして説明する。図11(a)に示すように、領域Lには、文節毎の尤もらしさの最上位の候補の語句として、「私(watashi)」、「は(wa)」、「日々(hibi)」、「公園(kouen)」、「に(ni)」、「行き(iki)」、「ます(masu)」といった語句が記憶されている。この場合には、認識結果表示部15は、図11(b)に示すように、「私は日々公園に行きます(watashi wa hibi kouen ni ikimasu)」といった文章を表示領域Dに表示する。
 続いて、「日々(hibi)」及び「公園(kouen)」の語句に対応する文節(区間)に対して、ユーザによる「保留指定」の入力が行われると、指定受付部16は、図12(a)に示すように、指定入力後文字列情報における当該区間に対応する領域に、保留区間を示すデータを記憶させる。ここでは、指定受付部16は、「日々(hibi)」及び「公園(kouen)」の2つの区間に対応する領域のそれぞれに、「**」及び「****」といったデータを記憶させる。又は、指定受付部16は、図12(b)に示す保留区間情報を保留区間情報記憶部17に記憶させてもよい。ここでは、指定受付部16は、保留区間ID「1」及び「2」の保留区間情報として、それぞれ文節ID「3」、文字数「2」及び文節ID「4」、文字数「4」といったデータを保留区間情報記憶部17に記憶させる。このとき、保留区間表示部18は、図12(c)に示すように、「日々(hibi)」及び「公園(kouen)」の語句に対応する文節が保留区間であることを識別可能に表示領域Dに表示させる。
 編集制御部19は、図12(a)に示される指定入力後文字列情報を文頭から探索して、保留区間を抽出する。そして、編集制御部19は、指定入力後文字列情報をさらに探索して、抽出した保留区間に後続する区間が保留区間であるか否かを判定する。編集制御部19は、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する。即ち、編集制御部19は、図13(a)に示すように、指定入力後文字列情報における連続する保留区間を、一の保留区間に統合する。図13(a)では、統合された一の保留区間は、「******」といったデータにより示される。
 または、編集制御部19は、図12(b)に示される保留区間情報を参照し、値が最も小さい保留区間IDを有する保留区間情報を抽出する。そして、編集制御部19は、保留区間情報記憶部17の保留区間情報をさらに探索して、抽出した保留区間の文節IDに後続する文節が保留区間として記憶されているか否かを判定する。編集制御部19は、保有区間情報において、文節IDが連続する複数の文節を保留区間として抽出した場合に、当該複数の文節の保留区間情報を一の保留区間情報に統合する。即ち、編集制御部19は、図13(b)に示すように、指定入力後文字列情報における連続する保留区間を、一の保留区間に統合する。図13(b)では、統合された保留区間情報は、保留区間IDが「1」の保留区間情報として、文節ID「3,4」及び文字数「6」といった情報を含む。
 このように、連続する保留区間が一の保留区間に統合されることにより、一の保留区間に対する修正入力を実施することにより、連続する複数の保留区間に対応する全区間の修正が可能となる。これにより、保留区間が統合されない場合において必要とされた後続する保留区間の削除操作が不要となる。従って、ユーザの操作低減が可能となる。
 次に、連続する保留区間が統合された場合における、当該区間に対する訂正候補の語句を表示する訂正候補表示処理のための各機能部の動作及び処理内容について説明する。図14は、音声認識装置1における訂正候補表示処理に関わる機能部を示すブロック図である。なお、図14では、図1に示した機能部は省略されている。図14に示すように、音声認識装置1は、再認識部21(再認識手段)、再検索部22(再検索手段)及び訂正候補表示部23(訂正候補表示手段)を更に備えることができる。
 再認識部21は、編集制御部19により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識部12により出力された音声認識処理結果から抽出する部分である。以下、再認識部21の処理内容について具体的に説明する。
 図15(a)は、音声認識部12から出力された音声認識処理結果を表すデータの構成及びデータの内容の例を示す図である。この音声認識処理結果は、認識結果等格納部14に記憶されている。図11及び図12に示されるように、文節ID「3」及び「4」に対応する区間が保留区間に指定されると共に、図13に示されるように、これらの区間が編集制御部19により一の保留区間に統合された場合には、再認識部21は、図15(a)に示される音声認識処理結果を参照して、当該一の保留区間に対応する語句を抽出する。その際、一の保留区間に統合された保留区間の文字数との差異が所定数以内の文字数の語句を音声認識処理結果より抽出する。例えば、所定数を「1」と設定していたとすると、再認識部21は、統合された保留区間情報の文字数が「6」であるため、文字数が「5」から「7」の語句を音声認識処理結果より検索し、再認識部21は、音声認識処理結果の領域Lにおける語句「日比谷公園(hibiyakouen)」を抽出する。そして、再認識部21は、抽出した語句を訂正候補として訂正候補表示部23に送出する。
 また、音声認識装置1では、再検索部22により訂正候補の語句が検索されることとしてもよい。再検索部22は、編集制御部19により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識部12により出力された語句に基づき、辞書DB13を検索する部分である。
 具体的には、再検索部22は、統合された一の保留区間に関して、音声認識結果の候補として表示されていた語句をキーとして、いわゆる「あいまい検索」を実施する。あいまい検索は、キーとされた語句との一致の度合いに関する閾値を一定程度低下させて実施される検索である。即ち、あいまい検索では、通常の検索処理よりも、キーとされた語句との一致の度合いが低い語句が検索される。図11~13に示す例では、再検索部22は、「ひびこうえん(hibikouen)」といった語句をキーとして、辞書DB13を検索(あいまい検索)し、検索結果を訂正候補表示部23に送出する。
 訂正候補表示部23は、再認識部21又は再検索部22により抽出された語句を、一の保留区間の語句の訂正候補の語句として表示する部分である。具体的には、再認識部21又は再検索部22により訂正候補の語句として「日比谷公園(hibiyakouen)」が抽出された場合には、訂正候補表示部23は、一の保留区間の訂正候補の語句として、「日比谷公園(hibiyakouen)」を表示する。図15(b)は、訂正候補表示部23により訂正候補の語句が表示された表示画面の例を示す図である。図15(b)に示すように、訂正候補表示部23は、訂正候補の語句「日比谷公園(hibiyakouen)」を表示領域Dの当該保留区間に対応する位置に表示させる。
 以上説明した再認識部21及び訂正候補表示部23によれば、複数の保留区間が統合された一の保留区間に対応する音声認識処理結果の語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。また、再検索部22及び訂正候補表示部23によれば、複数の保留区間が統合された一の保留区間に対応する語句が語彙を記憶した記憶手段の再検索により抽出され、抽出された語句が訂正候補の語句として表示されるので、ユーザが所望する、当該一の保留区間に対する訂正候補を提示できる可能性が高められる。従って、音声認識結果の修正におけるユーザの操作低減が可能となる。なお、音声認識装置1は、再認識部21及び再検索部22のいずれか一方を備えることとしてもよい。
 次に、保留区間に対する訂正候補の語句を表示する処理について説明する。図16は、当該処理に関わる機能部を示すブロック図である。
 修正入力受付部20は、編集制御部19により編集可能に制御された保留区間に対する修正入力のための文字列の入力を受け付ける。そして、修正入力受付部20は、受け付けた文字列を訂正候補表示部23に送出する。
 訂正候補表示部23は、修正入力受付部20により受け付けられた入力文字列に基づき辞書DB13を検索して入力文字列を含む訂正候補語句を抽出し、抽出した訂正候補語句の末尾の文字列と、音声認識手段により出力された音声認識処理結果における保留区間の直後の文字列とが一致する場合に、一致した文字列を省いて訂正候補語句を表示する。続いて、図17を参照して、訂正候補の語句の表示処理を具体的に説明する。
 図17(a)は、保留指定が行われた後の指定入力後文字列情報を示す図である。この指定入力後文字列情報は、認識結果等格納部14に格納されている。ここでは、図17(a)に示す文字列「留守中に***を受けました(rusutyuuni *** woukemashita)」のうちの3番目の区間に保留指定が行われたものとする。続いて、修正入力として、文字列「で(de)」がユーザにより入力されたとすると、修正入力受付部20は、文字列「で(de)」の入力を受け付ける。そして、修正入力受付部20は、文字列「で(de)」を訂正候補表示部23に送出する。次に訂正候補表示部23は、文字列「で(de)」に基づき、辞書DB13を検索する。ここでは、訂正候補表示部23は、例えば、図17(b)に示されるような訂正候補語句「でんわを(denwawo)」、「でんわが(denwaga)」、「でんわに(denwani)」を、辞書DB13から抽出したものとする。
 この場合に、訂正候補表示部23は、図17(b)に示される訂正候補語句の末尾の文字列と、図17(a)に示される指定入力後文字列情報における保留区間の直後の文字列との一致の有無を判定し、一致する場合には、一致した文字列を省いて当該訂正候補語句を表示する。具体的には、図17(b)に示される訂正候補語句「でんわを(denwawo)」の末尾の文字列「を(wo)」と、図17(a)に示される指定入力後文字列情報における保留区間「***」の直後の文字列「を(wo)」とが一致するので、訂正候補表示部23は、訂正候補語句「でんわを(denwawo)」の末尾の文字列「を(wo)」を省き、語句「でんわ(denwa)」を訂正候補語句として表示する。図17(c)は、訂正候補語句が表示された表示画面の例である。図17(c)に示されるように、訂正候補表示部23は、訂正候補語句「でんわ(denwa)」、「でんわが(denwaga)」、「でんわに(denwani)」を表示領域D10に表示させる。例えば所望の入力文章が「留守中にでんわを受けました(rusutyuunidenwawoukemashita)」である場合に、訂正候補語句として「でんわを(denwawo)」ではなく「でんわ(denwa)」が表示され、この訂正候補語句「でんわ(denwa)」を保留区間の訂正語句として選択することにより、文字列「を(wo)」を後に削除する操作が不要となる。これにより、ユーザの操作負担の低減が可能となる。
 なお、音声認識装置1は、図16を参照して説明した、保留区間に対する訂正候補の語句を表示する機能と、図14を参照して説明した、訂正候補の語句を表示する訂正候補表示処理の機能とを併せて備えることとしてもよい。
 続いて、音声認識装置1における音声認識方法の処理内容を説明する。図18は、音声認識方法の処理内容を示すフローチャートである。
 まず、音声取得部11は、入力音声を取得する(S1)。次に、音声認識部12は、音声取得部11により取得された入力音声を複数の区間に区切り、辞書DB13を参照して複数の区間毎に音声認識処理を実施し、音声認識処理結果を出力する(S2)。この音声認識処理結果は、認識結果等格納部14に格納される。続いて、認識結果表示部15は、音声認識部12により出力された音声認識処理結果を所定の表示装置により提示させる(S3)。
 指定受付部16は、音声認識処理結果の各文節における最も文節IDの値が小さい文節を選択する(S4)。即ち、指定受付部16は、指定入力がされていない区間のうち最も文頭に近い区間を選択する。次に、指定受付部16は、選択された区間に対する、保留指定、確定指定等の指定入力を受け付ける(S5)。このとき、保留区間表示部18は、音声認識処理結果における、指定受付部16により保留指定の受け付けをされた保留区間を、保留指定されていない区間と識別可能な態様で表示する。そして、指定受付部16は、ステップS5において指定入力を受け付けた文節(区間)が、音声認識処理結果における最後の文節であるか否かを判定する(S6)。最後の文節でない場合には、ステップS4~S6の処理が繰り返される。一方、最後の文節である場合には、処理手順はステップS7に進められる。
 ステップS7において、編集制御部19は、音声認識処理結果から保留区間を抽出し、抽出した保留区間の語句を編集可能に制御する(S7)。続いて、修正入力受付部20は、編集制御部19により編集可能に制御された保留区間に対する文字列の入力(修正入力)を受け付ける(S8)。そして、編集制御部19は、ステップS8において修正入力を受け付けた保留区間が、音声認識処理結果における最後の保留区間であるか否かを判定する(S9)。そして、全ての保留区間に対する修正入力の受け付けが行われるまで、ステップS7~S9の処理が繰り返される。
 次に、図19を参照して、連続する複数の文節(区間)に対して保留指定の入力が行われた場合の処理内容を説明する。図19は、音声認識装置1における当該処理内容を示すフローチャートである。図19に示す処理は、図18のフローチャートにおけるステップS7のサブルーチンとして実行されることができる。
 まず、編集制御部19は、音声認識処理結果から保留区間を取得する(S11)。次に、編集制御部19は、音声認識処理結果をさらに探索して、ステップS11において取得した保留区間に後続する区間が保留区間であるか否かを判定する(S12)。後続する区間が保留区間であると判定された場合には、処理手順はステップS13に進められる。一方、後続する区間が保留区間であると判定されなかった場合には、本フローチャートに示す処理手順は終了する。
 ステップS13において、編集制御部19は、連続する複数の保留区間を抽出して、当該複数の保留区間を統合して一の保留区間として編集可能に制御する(S13)。次に、再認識部21は、編集制御部19により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、音声認識部12により出力された音声認識処理結果から訂正候補の語句として抽出する(S14)。または、再検索部22は、編集制御部19により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識部12により出力された語句に基づき、辞書DB13を検索し、検索により得られた語句を一の保留区間に対する訂正候補の語句として出力する(S14)。
 次に、訂正候補表示部23は、再認識部21により抽出された語句又は再検索部22により検索された語句を、一の保留区間の語句の訂正候補の語句として表示する(S15)。そして、指定受付部16は、訂正候補表示部23により表示された訂正候補の語句に対する指定入力を受け付ける(S16)。
 次に、図20を参照して、保留区間に対する訂正候補の語句を表示する処理内容を説明する。図20は、音声認識装置1における当該処理内容を示すフローチャートである。図20に示す処理は、図18のフローチャートにおけるステップS8のサブルーチンとして実行されることができる。
 まず、修正入力受付部20は、保留区間に対する修正入力を受け付ける(S21)。そして、修正入力受付部20は、受け付けた文字列を訂正候補表示部23に送出する。次に、訂正候補表示部23は、修正入力受付部20により受け付けられた入力文字列に基づき辞書DB13を検索して入力文字列を含む訂正候補語句を抽出する(S22)。続いて、訂正候補表示部23は、訂正候補語句の末尾の文字列と、音声認識処理結果における保留区間の直後の文字列との一致の有無を判定する(S23)。両文字列が一致する場合には、処理手順はステップS24に進められる。
 ステップS24において、訂正候補表示部23は、訂正候補語句の末尾における、保留区間直後の文字列と一致した文字列を削除する(S24)。そして、ステップS25において、訂正候補表示部23は、訂正候補の語句を提示する(S25)。
 次に、コンピュータを、本実施形態の音声認識装置1として機能させるための音声認識プログラムについて説明する。図21は、図1,14及び16に示した音声認識装置1に対応する音声認識プログラム1mの構成を示す図である。
 音声認識プログラム1mは、音声認識処理を統括的に制御するメインモジュール10m、音声取得モジュール11m、音声認識モジュール12m、辞書DB13m、認識結果等格納モジュール14m、認識結果提示モジュール15m、指定受付モジュール16m、保留区間情報記憶モジュール17m、保留区間表示モジュール18m、編集制御モジュール19m及び修正入力受付モジュール20mを備えて構成される。また、音声認識プログラム1mは、再認識モジュール21m、再検索モジュール22m及び訂正候補表示モジュール23mを更に備えて構成されてもよい。そして、各モジュール10m~23mにより、音声認識装置1における各機能部11~23のための各機能が実現される。なお、音声認識プログラム1mは、通信回線等の伝送媒体を介して伝送される態様であってもよいし、図14に示されるように、記録媒体1dのプログラム格納領域1rに記憶される態様であってもよい。
 以上説明した本実施形態の音声認識装置1、音声認識方法及び音声認識プログラムでは、音声認識処理結果における区間ごとに保留指定の入力が指定受付部16により受け付けられ、保留指定された保留区間がその他の区間と識別可能に保留区間表示部18により表示されるので、音声認識処理結果において修正を要する区間の認識が容易となる。そして、編集制御部19により保留区間の語句が編集可能に制御され、修正入力受付部20により当該保留区間に対する文字列の入力が受け付けられるので、保留区間の語句の修正が実施される。従って、保留区間の修正が容易となる。
 以上、本発明をその実施形態に基づいて詳細に説明した。しかし、本発明は上記実施形態に限定されるものではない。本発明は、その要旨を逸脱しない範囲で様々な変形が可能である。
 以上説明したように、本実施形態によれば、音声認識結果における認識の誤りがある区間の修正を容易に実施することが可能な音声認識装置が提供される。
 1…音声認識装置、11…音声取得部、12…音声認識部、13…辞書DB、14…認識結果等格納部、15…認識結果表示部、16…指定受付部、17…保留区間情報記憶部、18…保留区間表示部、19…編集制御部、20…修正入力受付部、21…再認識部、22…再検索部、23…訂正候補表示部、1d…記録媒体、1m…音声認識プログラム、1r…プログラム格納領域、10m…メインモジュール、11m…音声取得モジュール、12m…音声認識モジュール、14m…認識結果等格納モジュール、15m…認識結果提示モジュール、16m…指定受付モジュール、17m…保留区間情報記憶モジュール、18m…保留区間表示モジュール、19m…編集制御モジュール、20m…修正入力受付モジュール、21m…再認識モジュール、22m…再検索モジュール、23m…訂正候補表示モジュール。
 

Claims (7)

  1.  入力音声を取得する音声取得手段と、
     複数の語句を記憶している辞書記憶手段と、
     前記音声取得手段により取得された入力音声を複数の区間に区切り、前記辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識手段と、
     前記音声認識手段により出力された音声認識処理結果を提示する認識結果表示手段と、
     前記認識結果表示手段により提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付ける指定受付手段と、
     前記認識結果表示手段による音声認識処理結果の提示において、前記指定受付手段により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示手段と、
     前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御手段と、
     前記編集制御手段により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付手段と、
     を備える音声認識装置。
  2.  前記編集制御手段は、前記音声認識処理結果において、連続する複数の区間を保留区間として抽出した場合に、当該複数の区間を統合して一の保留区間として編集可能に制御する、
     請求項1に記載の音声認識装置。
  3.  前記編集制御手段により統合された一の保留区間に対応する入力音声に対して音声認識処理されて得られた語句を、前記音声認識手段により出力された音声認識処理結果から抽出する再認識手段と、
     前記再認識手段により抽出された語句を、前記一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段と、
     を更に備える請求項2に記載の音声認識装置。
  4.  前記編集制御手段により統合された一の保留区間に含まれる複数の区間の音声認識処理結果として音声認識手段により出力された語句に基づき、前記辞書記憶手段を検索する再検索手段と、
     前記再検索手段により検索された語句を、前記一の保留区間の語句の訂正候補の語句として表示する訂正候補表示手段と、
     を更に備える請求項2に記載の音声認識装置。
  5.  前記修正入力受付手段により受け付けられた入力文字列に基づき前記辞書記憶手段を検索して前記入力文字列を含む訂正候補語句を抽出し、該訂正候補語句の末尾の文字列と、前記音声認識手段により出力された音声認識処理結果における前記保留区間の直後の文字列とが一致する場合に、該一致した文字列を省いて前記訂正候補語句を表示する訂正候補表示手段を更に備える、請求項1に記載の音声認識装置。
  6.  入力音声を取得する音声取得ステップと、
     前記音声取得ステップにおいて取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識ステップと、
     前記音声認識ステップにおいて出力された音声認識処理結果を提示する認識結果提示ステップと、
     前記認識結果提示ステップにおいて提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付ステップと、
     前記認識結果提示ステップにおける音声認識処理結果の提示において、前記指定入力受付ステップにおいて保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示ステップと、
     前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御ステップと、
     前記編集制御ステップにおいて編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付ステップと、
     を有する音声認識装置における音声認識方法。
  7.  コンピュータに、
     入力音声を取得する音声取得機能と、
     前記音声取得機能により取得された入力音声を複数の区間に区切り、複数の語句を記憶している辞書記憶手段を参照して前記複数の区間毎に音声認識処理を実施し、前記音声認識処理により複数の区間毎に得られた複数の語句からなる音声認識処理結果を出力する音声認識機能と、
     前記音声認識機能により出力された音声認識処理結果を提示する認識結果提示機能と、
     前記認識結果提示機能により提示された音声認識処理結果における前記区間に対して、少なくとも保留指定の入力を受け付け可能な指定入力受付機能と、
     前記認識結果提示機能による音声認識処理結果の提示において、前記指定受付機能により保留指定の受け付けをされた区間である保留区間を、保留指定されていない区間と識別可能な態様で表示する保留区間表示機能と、
     前記音声認識処理結果から前記保留区間を抽出し、抽出した前記保留区間の語句を編集可能に制御する編集制御機能と、
     前記編集制御機能により編集可能に制御された保留区間に対する文字列の入力を受け付ける修正入力受付機能と、
     を実現させる音声認識プログラム。
PCT/JP2012/060478 2011-04-21 2012-04-18 音声認識装置、音声認識方法及び音声認識プログラム WO2012144525A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011095368A JP5396426B2 (ja) 2011-04-21 2011-04-21 音声認識装置、音声認識方法及び音声認識プログラム
JP2011-095368 2011-04-21

Publications (1)

Publication Number Publication Date
WO2012144525A1 true WO2012144525A1 (ja) 2012-10-26

Family

ID=47041631

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/060478 WO2012144525A1 (ja) 2011-04-21 2012-04-18 音声認識装置、音声認識方法及び音声認識プログラム

Country Status (2)

Country Link
JP (1) JP5396426B2 (ja)
WO (1) WO2012144525A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6327745B2 (ja) * 2014-02-24 2018-05-23 日本放送協会 音声認識装置、及びプログラム
EP3131093B1 (en) * 2014-04-08 2021-05-12 Sony Corporation Information processing device, information processing method, and program
EP3506256A4 (en) * 2016-08-26 2019-08-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
CN109643545A (zh) * 2016-08-31 2019-04-16 索尼公司 信息处理设备和信息处理方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161464A (ja) * 1997-11-25 1999-06-18 Nec Corp 日本語文章作成装置
JP2002156996A (ja) * 2000-11-16 2002-05-31 Toshiba Corp 音声認識装置、認識結果修正方法及び記録媒体
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
JP2006234907A (ja) * 2005-02-22 2006-09-07 Canon Inc 音声認識方法
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63278173A (ja) * 1987-05-11 1988-11-15 Nec Corp 文書入力方式
JPH06282293A (ja) * 1993-03-29 1994-10-07 Sony Corp 音声認識装置
JP2002140094A (ja) * 2000-11-01 2002-05-17 Mitsubishi Electric Corp 音声認識装置、音声認識方法および音声認識プログラムを記録したコンピュータ読取可能な記録媒体
JP2006039954A (ja) * 2004-07-27 2006-02-09 Denso Corp データベース検索装置、プログラム及びナビゲーション装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11161464A (ja) * 1997-11-25 1999-06-18 Nec Corp 日本語文章作成装置
JP2002156996A (ja) * 2000-11-16 2002-05-31 Toshiba Corp 音声認識装置、認識結果修正方法及び記録媒体
JP2005228178A (ja) * 2004-02-16 2005-08-25 Nec Corp 書き起こしテキスト作成支援システムおよびプログラム
JP2006234907A (ja) * 2005-02-22 2006-09-07 Canon Inc 音声認識方法
JP2009098490A (ja) * 2007-10-18 2009-05-07 Kddi Corp 音声認識結果編集装置、音声認識装置およびコンピュータプログラム

Also Published As

Publication number Publication date
JP2012226220A (ja) 2012-11-15
JP5396426B2 (ja) 2014-01-22

Similar Documents

Publication Publication Date Title
RU2379767C2 (ru) Коррекция ошибок для систем распознавания речи
US8954329B2 (en) Methods and apparatus for acoustic disambiguation by insertion of disambiguating textual information
US8407039B2 (en) Method and apparatus of translating language using voice recognition
EP2179372B1 (en) Document editing using anchors
JP4829901B2 (ja) マニュアルでエントリされた不確定なテキスト入力を音声入力を使用して確定する方法および装置
JPH03224055A (ja) 同時通訳向き音声認識システムおよびその音声認識方法
JP2002117026A (ja) 確率的入力方法によって生成された候補リストからフィルタリングおよび選択を行うための方法およびシステム
JP5824829B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
CN101009094B (zh) 支持发音信息编辑的系统和方法
WO2012144525A1 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP3104661B2 (ja) 日本語文章作成装置
JP5688677B2 (ja) 音声入力支援装置
JP4189336B2 (ja) 音声情報処理システム、音声情報処理方法及びプログラム
JP4966324B2 (ja) 音声翻訳装置、および方法
KR102091684B1 (ko) 음성 인식 텍스트 수정 방법 및 이 방법을 구현한 장치
JP2002215184A (ja) 音声認識装置、及びプログラム
KR100910302B1 (ko) 멀티모달 기반의 정보 검색 장치 및 방법
US6327560B1 (en) Chinese character conversion apparatus with no need to input tone symbols
JP4347716B2 (ja) 音声認識サーバ、音声入力システム、及び、音声入力方法
JP2001109740A (ja) 中国語文書作成装置及び中国語文書作成方法
JPWO2005076259A1 (ja) 音声入力システム、音声入力方法、および、音声入力用プログラム
KR100960490B1 (ko) 동의어를 이용한 검색 서비스 제공 방법 및 시스템
EP2058799B1 (en) Method for preparing data for speech recognition and speech recognition system
JP2006113269A (ja) 発音系列認識装置、発音系列認識方法及び発音系列認識プログラム
JPH08129545A (ja) 文字列変換方法及び文書作成装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12774168

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12774168

Country of ref document: EP

Kind code of ref document: A1