WO2018043139A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2018043139A1
WO2018043139A1 PCT/JP2017/029493 JP2017029493W WO2018043139A1 WO 2018043139 A1 WO2018043139 A1 WO 2018043139A1 JP 2017029493 W JP2017029493 W JP 2017029493W WO 2018043139 A1 WO2018043139 A1 WO 2018043139A1
Authority
WO
WIPO (PCT)
Prior art keywords
unit
word
phrase
information
voice recognition
Prior art date
Application number
PCT/JP2017/029493
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to CN201780051783.8A priority Critical patent/CN109643547A/zh
Priority to EP17846147.1A priority patent/EP3509060A4/en
Priority to US16/323,734 priority patent/US20190180751A1/en
Priority to JP2018537118A priority patent/JPWO2018043139A1/ja
Publication of WO2018043139A1 publication Critical patent/WO2018043139A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and a program, and more particularly, to an information processing device, an information processing method, and a program that can perform voice recognition with higher accuracy.
  • the voice recognition result is wrong, for example, it is possible to obtain a more accurate voice recognition result by urging recurrence and correcting the voice recognition result.
  • it is possible to improve the speech recognition accuracy by performing recurrent utterances for correcting speech recognition results in units of phrases, or by separating the speech recognition results in recurrent utterances based on sound information. Techniques that make corrections easy have been proposed.
  • Patent Document 1 when changing or adding a sentence expression, it is possible to reduce the burden on the user by creating sentences in phrase units including particles and predicates for phrases. it can.
  • the present disclosure has been made in view of such a situation, and enables voice recognition with higher accuracy.
  • An information processing apparatus obtains voice information obtained by a user's utterance, and obtains a word string representing the utterance content as a voice recognition result by performing voice recognition on the voice information. And, when the speech recognition is performed on the speech information by the speech recognition unit, for each word recognized as the speech recognition result, a reliability serving as an index representing a degree of reliability as the speech recognition result is acquired.
  • a reliability level acquisition unit; a phrase unit determination unit that determines a phrase unit including the word with low reliability acquired by the reliability level acquisition unit; and the speech unit recognition unit and the phrase unit determination unit An output processing unit for outputting speech recognition result information for recognizing phrase units.
  • An information processing method or program acquires voice information obtained by a user's utterance, acquires a word string representing the utterance content by performing voice recognition on the voice information as a voice recognition result, When speech recognition is performed on the speech information, for each word recognized as the speech recognition result, a confidence level is obtained as an index indicating a degree of reliability as the speech recognition result, and the low-reliability word And a step of outputting speech recognition result information for recognizing the phrase unit together with the speech recognition result.
  • a word string representing the utterance content is acquired as a voice recognition result, and voice recognition on the voice information is performed. Is performed, for each word recognized as a speech recognition result, a reliability is obtained that serves as an index representing the degree to which each word can be trusted as the speech recognition result. Then, a phrase unit including a word with low reliability is determined, and voice recognition result information for recognizing the phrase unit is output together with the voice recognition result.
  • voice recognition can be performed with higher accuracy.
  • FIG. 18 is a block diagram showing an example of composition of a 1 embodiment of a voice recognition system to which this art is applied. It is a block diagram which shows the 1st structural example of a speech recognition server. It is a figure explaining an example of a phrase unit determination process. It is a figure which shows a pronunciation information table. It is a figure explaining an example of a speech recognition result output process. It is a flowchart explaining voice recognition processing. It is a flowchart explaining a phrase unit determination process. It is a flowchart explaining a start word specific process. It is a flowchart explaining an end word specific process. It is a block diagram which shows the 2nd structural example of a speech recognition server. It is a figure explaining the modification of a phrase unit determination process. It is a figure about the modification of the user interface of voice recognition. It is a figure about the modification of a speech recognition result output process. And FIG. 18 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a speech recognition system to which the present technology is applied.
  • a speech recognition system 11 is connected to a plurality of (N in the example of FIG. 1) client terminals 13-1 to 13-N and a speech recognition server 14 via a network 12 such as the Internet. Configured. Note that the client terminals 13-1 to 13-N are configured in the same manner, and will be referred to as the client terminal 13 as appropriate when it is not necessary to distinguish them from each other.
  • the client terminal 13 includes a voice information acquisition device such as a microphone for inputting voice uttered by the user and acquiring voice information.
  • the client terminal 13 receives the voice information acquired by the voice information acquisition device via the network 12. It transmits to the voice recognition server 14. Further, the client terminal 13 receives the voice recognition result transmitted from the voice recognition server 14 and presents it to the user. For example, the client terminal 13 displays a video (image) representing the voice recognition result on the video output device, or outputs a synthesized voice representing the voice recognition result from the voice output device.
  • the voice recognition server 14 performs voice recognition processing on voice information transmitted from the client terminal 13 via the network 12. Then, the voice recognition server 14 transmits a word string or the like recognized from the voice information as a voice recognition result to the client terminal 13 via the network 12. At this time, the voice recognition server 14 sends the voice recognition result not only to the client terminal 13 that has transmitted the voice information, but also to the client terminals 13 of other users with which the user of the client terminal 13 is communicating, for example. Can be sent.
  • the voice recognition system 11 is configured, and voice information acquired by the utterance of the user of the client terminal 13 is transmitted to the voice recognition server 14, and voice recognition processing is performed in the voice recognition server 14. The voice recognition result is transmitted to. Therefore, the voice recognition system 11 can implement a higher-accuracy voice recognition process even if the processing capability of each client terminal 13 is low, for example, by implementing a higher-performance and latest voice recognition process in the voice recognition server 14. Can be provided.
  • FIG. 2 is a block diagram showing a first configuration example of the voice recognition server 14.
  • the speech recognition server 14 includes a communication unit 21, an input sound processing unit 22, a speech recognition unit 23, a reliability acquisition unit 24, a phonetic symbol conversion unit 25, a phrase unit determination processing unit 26, and a speech recognition.
  • a result output processing unit 27 is provided.
  • the communication unit 21 performs various communications with the client terminal 13 via the network 12 in FIG.
  • the communication unit 21 receives audio information transmitted from the client terminal 13 and supplies it to the input sound processing unit 22.
  • the communication unit 21 transmits the voice recognition result information supplied from the voice recognition result output processing unit 27 to the client terminal 13.
  • the input sound processing unit 22 performs various kinds of pre-processing necessary for performing voice recognition on the voice information supplied from the communication unit 21 before the voice recognition unit 23 performs voice recognition. For example, the input sound processing unit 22 eliminates a silent section or a section of only noise in the voice information, and detects a voice section including the spoken voice from the voice information. VAD (Voice Activity Detection) Processing is performed, and the voice information of the utterance section is supplied to the voice recognition unit 23.
  • VAD Voice Activity Detection
  • the voice recognition unit 23 performs voice recognition on the voice information supplied from the input sound processing unit 22, recognizes the utterance content included in the voice information for each word, and converts a word string representing the utterance content into phonetic symbol conversion. To the unit 25 and the phrase unit determination processing unit 26.
  • the reliability acquisition unit 24 serves as an index indicating how reliable the voice recognition result when the voice recognition unit 23 recognizes a word is confidence (confidence level) is acquired for each word and supplied to the phrase unit determination processing unit 26.
  • the reliability acquisition unit 24 can acquire the reliability based on a word graph generated in the process of speech recognition by the speech recognition unit 23.
  • the phonetic symbol conversion unit 25 refers to, for example, a dictionary in which words and phonetic symbols are associated with each other, and converts the word string supplied from the speech recognition unit 23 into phonetic symbols associated with the respective words. To the phrase unit determination processing unit 26.
  • the phrase unit determination processing unit 26 converts the word string supplied from the speech recognition unit 23 based on the reliability supplied from the reliability acquisition unit 24 and the phonetic symbols supplied from the phonetic symbol conversion unit 25. As will be described later with reference to FIG. 3, a phrase unit determination process for determining a phrase unit is performed.
  • the phrase unit is configured by one or more words obtained by dividing the word sequence recognized by the speech recognition unit 23 into, for example, parts to be uttered collectively when prompting the user to speak again.
  • the phrase unit determination processing unit 26 acquires the reliability of the speech recognition result in a certain unit (in the case of “article + word” in English, in the case of “morpheme + particle or auxiliary verb” in Japanese), When there is a low word, the phrase unit is determined from words around the word.
  • the phrase unit determination processing unit 26 refers to the pronunciation information table in which voiced and unvoiced sounds are associated with the phonetic symbols as shown in FIG. 4 based on the phonetic symbols converted by the phonetic symbol conversion unit 25.
  • the phrase unit can be determined.
  • the phrase unit determination processing unit 26 selects the words arranged in front of the words with low reliability in order from the word immediately before the words with low reliability, and the selected words start with a voiced sound. Based on whether or not it is, the word that becomes the beginning of the phrase unit is specified.
  • the phrase unit determination processing unit 26 selects words arranged behind a word with low reliability in order from one word after the word with low reliability, and the selected word is a voiced sound. Based on whether or not it begins, the word that ends the phrase unit is identified.
  • the speech recognition result output processing unit 27 is a user interface that allows the user to recognize the phrase unit determined by the phrase unit determination processing unit 26, and the speech recognition result that allows the user of the client terminal 13 to recognize the phrase unit together with the speech recognition result.
  • a speech recognition result output process for generating and outputting information is performed.
  • the speech recognition result output processing unit 27 generates and outputs display information for displaying a user interface (see FIG. 5) that clearly indicates that characters representing the speech recognition result are divided in units of phrases. Or synthesized speech information for outputting the synthesized speech representing the speech recognition result divided into phrases and outputting it.
  • the voice recognition server 14 is configured, performs voice recognition on the voice information transmitted from the client terminal 13, determines a phrase unit that delimits the recognized word string, and delimits the word string in phrase units.
  • the obtained voice recognition result can be transmitted to the client terminal 13. Thereby, when an incorrect word is included in the voice recognition result presented to the user at the client terminal 13, it is possible to prompt the user to repeat the speech for each phrase including the erroneously recognized word.
  • the speech recognition server 14 can correct and output the speech recognition result so as to include a correct word as a result of performing speech recognition in phrase units, as compared to performing speech recognition in word units. . Since the speech recognition result can be corrected in this way, the speech recognition server 14 can perform speech recognition with higher accuracy as a result.
  • phrase unit determination process by the phrase unit determination processing unit 26 will be described with reference to FIGS.
  • the voice recognition result “I23sue a person with a red shoot” is obtained by the voice recognition unit 23.
  • the reliability acquisition unit 24 acquires the reliability “0.99” for the word “I” in the speech recognition result, acquires the reliability “0.23” for the word “sue”, and the word “person”. ”Is obtained with a reliability of“ 0.98 ”.
  • the reliability acquisition unit 24 acquires a reliability “0.99” for the word “with”, acquires a reliability “0.98” for the word “red”, and trusts the word “shoot”. Get degree "0.12".
  • the phonetic symbol conversion unit 25 converts each word of the speech recognition result into a phonetic symbol as shown.
  • the phrase unit determination processing unit 26 refers to the pronunciation information table of FIG. 4 based on the phonetic symbols converted by the phonetic symbol conversion unit 25, and uses voiced sounds both in front and behind words with low reliability. Determine the phrase unit so that the beginning word is placed. Alternatively, the phrase unit determination processing unit 26 may determine the phrase unit so that a word starting with a voiced sound is arranged at least one of the front and rear of a word with low reliability.
  • the phrase unit determination processing unit 26 arranges a word “I” starting with a voiced sound in front of a word “sue” with low reliability and a word starting with a voiced sound behind the word “sue”. “I sue a person” where “person” is placed is determined as a phrase unit. In addition, the phrase unit determination processing unit 26 arranges the word “red” beginning with a voiced sound ahead of the word “shoot” because the word “shoot” with low reliability is arranged last. “A red shoot” is determined as a phrase unit.
  • phrase unit determination processing unit 26 may specify words with high reliability as start and end words in phrase units including words with low reliability, based on the reliability.
  • phrase unit determination processing unit 26 may specify the start word and the end word of the phrase unit including words with low reliability based on both the reliability and the phonetic symbols.
  • FIG. 5 shows a user interface displayed on the video output device of the client terminal 13 as an example of the speech recognition result output processing by the speech recognition result output processing unit 27.
  • the phrase unit is determined by the phrase unit determination processing unit 26 as described above with reference to FIG. 3 with respect to the speech recognition result “I sue a person with a red shoot” by the speech recognition unit 23.
  • the speech recognition result output processing unit 27 displays display information for displaying the speech recognition result on the user interface that is clearly delimited by the phrase unit “I sue a person” and the phrase unit “a red shoot”.
  • Output speech recognition result output processing As shown in FIG. 5, the video output device of the client terminal 13 has, for example, a user interface in which the phrase unit “I sue a person” and the phrase unit “a red ⁇ shoot” are surrounded by different frames. Is displayed.
  • the voice recognition unit 23 performs voice recognition on the voice information re-spoken in the unit of a phrase including the wrong word, so that, for example, a more accurate voice can be obtained compared to the case where only the wrong word is spoken. A recognition result can be obtained.
  • FIG. 6 is a flowchart for explaining the speech recognition process executed in the speech recognition server 14.
  • step S ⁇ b> 11 the input sound processing unit 22 performs a process of detecting an utterance section including the speech uttered by the user of the client terminal 13 from the audio information supplied from the communication unit 21.
  • step S12 the input sound processing unit 22 determines whether or not the utterance by the user of the client terminal 13 has started according to the detection result of the utterance section in the processing in step S11.
  • step S12 when the input sound processing unit 22 determines that the utterance has not started, the process returns to step S11, and the process waits until it is determined that the utterance has started.
  • step S13 when the input sound processing unit 22 determines in step S12 that the user of the client terminal 13 has started speaking, the process proceeds to step S13.
  • step S13 the input sound processing unit 22 supplies the speech information of the utterance section to the speech recognition unit 23, and the speech recognition unit 23 performs speech recognition on the speech information.
  • step S14 the input sound processing unit 22 determines whether or not the utterance by the user of the client terminal 13 has ended.
  • step S14 when the input sound processing unit 22 determines that the utterance has not ended, the process returns to step S13, and the voice recognition by the voice recognition unit 23 is continuously performed.
  • step S15 when the input sound processing unit 22 determines in step S14 that the utterance by the user of the client terminal 13 has ended, the process proceeds to step S15.
  • step S15 the speech recognition unit 23 generates a word string representing the utterance content included in the speech information as a speech recognition result based on speech recognition in step S13 based on speech information from the start to the end of speech. get. Then, the speech recognition unit 23 supplies the speech recognition result to the phonetic symbol conversion unit 25 and the phrase unit determination processing unit 26.
  • step S16 the phonetic symbol conversion unit 25 converts the word string supplied from the speech recognition unit 23 in step S15 into a phonetic symbol for each word and supplies it to the phrase unit determination processing unit 26.
  • step S17 the reliability acquisition unit 24 acquires the reliability for each word when the speech recognition unit 23 performs speech recognition in step S13, and supplies the reliability to the phrase unit determination processing unit 26.
  • step S18 the phrase unit determination processing unit 26 applies the phonetic symbol supplied from the phonetic symbol conversion unit 25 in step S16 to the word string supplied from the speech recognition unit 23 in step S15, and the reliability in step S17. Based on the reliability supplied from the acquisition unit 24, a phrase unit determination process (a flowchart of FIG. 7 described later) is performed. Then, the phrase unit determination processing unit 26 supplies the phrase unit determined in the phrase unit determination process to the speech recognition result output processing unit 27 together with the word string.
  • step S ⁇ b> 19 the speech recognition result output processing unit 27 displays a user interface that clearly indicates that the word string recognized by the speech recognition unit 23 is delimited by the phrase unit determined by the phrase unit determination processing unit 26. Outputs speech recognition result information for display. Then, after the communication unit 21 transmits the voice recognition result information output from the voice recognition result output processing unit 27 to the client terminal 13 via the network 12, the voice recognition process is ended.
  • FIG. 7 is a flowchart for explaining the phrase unit determination process of step S18 in the voice recognition process of FIG.
  • the phrase unit determination process is performed, for example, in order from the word at the beginning of the word sequence recognized by the speech recognition unit 23.
  • the phrase unit determination processing unit 26 first processes the word at the beginning of the sentence.
  • step S22 the phrase unit determination processing unit 26 determines whether or not the reliability acquired for the word to be processed is equal to or less than a predetermined threshold value.
  • step S22 when the phrase unit determination processing unit 26 determines that the reliability is equal to or less than the predetermined threshold, the process proceeds to step S23.
  • step S23 the phrase unit determination processing unit 26 performs a start word specifying process (a flowchart of FIG. 8 described later) for specifying a start word that is a start of a phrase unit including the word to be processed.
  • step S24 the phrase unit determination processing unit 26 performs an end word specifying process (the flowchart of FIG. 9 described later) for specifying the end word that is the end of the phrase unit including the word to be processed.
  • step S24 or when the phrase unit determination processing unit 26 determines in step S22 that the reliability is not less than or equal to a predetermined threshold (that is, the reliability is greater than the predetermined threshold), the process proceeds to step S25. .
  • step S25 the phrase unit determination processing unit 26 determines whether or not all the words included in the word string recognized by the speech recognition unit 23 have been processed.
  • step S25 when the phrase unit determination processing unit 26 determines that not all words are to be processed, that is, if there are words that are not yet processed, the process proceeds to step S26.
  • step S26 the phrase unit determination processing unit 26 newly sets a word next to the word currently being processed as a processing target. Then, the process returns to step S22, and the same process is repeated for the newly processed word.
  • phrase unit determination processing unit 26 determines in step S25 that all the words are to be processed, the phrase unit determination process ends.
  • FIG. 8 is a flowchart illustrating the start word specifying process in step S23 in the phrase unit determination process of FIG.
  • step S31 the phrase unit determination processing unit 26 determines whether or not all the words preceding the processing target word have been selected as targets for specifying the starting word.
  • step S31 when the phrase unit determination processing unit 26 determines that all the words ahead of the word to be processed have not been selected as the target for specifying the starting word, the process proceeds to step S32. That is, in this case, a word that is not selected as a target for specifying the starting word is in front of the word to be processed.
  • step S32 the phrase unit determination processing unit 26 selects the previous word as a target for specifying the starting word. For example, the phrase unit determination processing unit 26, when the starting word specifying process is the first time, the word for specifying the starting word for the word immediately before the word to be processed in step S21 or S26 of FIG. Choose as. Further, the phrase unit determination processing unit 26 selects the word immediately before the currently selected word as a target for specifying the starting word when the starting word specifying process is performed for the second time or later.
  • step S33 the phrase unit determination processing unit 26 determines whether or not the reliability of the word selected in the immediately preceding step S32 is equal to or less than a predetermined threshold value.
  • step S33 If the phrase unit determination processing unit 26 determines in step S33 that the reliability of the selected word is not less than or equal to a predetermined threshold (that is, the reliability is greater than the predetermined threshold), the process proceeds to step S34. .
  • step S34 the phrase unit determination processing unit 26 determines whether the phonetic symbol of the selected word starts with a voiced sound according to the phonetic symbol supplied from the phonetic symbol conversion unit 25.
  • step S34 when the phrase unit determination processing unit 26 determines that the pronunciation symbol of the selected word starts with a voiced sound, the process proceeds to step S35.
  • step S35 the phrase unit determination processing unit 26 specifies the selected word as the starting word.
  • step S34 determines in step S34 that the phonetic symbol of the selected word does not start with a voiced sound, that is, the phonetic symbol of the selected word starts with an unvoiced sound. In this case, the process returns to step S31, and the same process is repeated thereafter.
  • step S33 if the phrase unit determination processing unit 26 determines that the reliability of the selected word is equal to or less than a predetermined threshold, the process proceeds to step S36.
  • step S36 the phrase unit determination processing unit 26 specifies the word immediately after the word selected as the target for specifying the starting word as the starting word at this point. For example, when the start word specifying process is the first time, the word immediately before the word to be processed is selected as the target for specifying the start word, and the processing target of the next one is A word is identified as the starting word.
  • step S31 determines in step S31 that all the words ahead of the word to be processed have been selected as the target for specifying the starting word.
  • step S37 the phrase unit determination processing unit 26 specifies the word at the beginning of the word string recognized by the speech recognition unit 23 as the starting word.
  • step S35 After the process of step S35, step S36, or step S37, the start word specifying process is terminated.
  • FIG. 9 is a flowchart illustrating the termination word specifying process in step S24 in the phrase unit determination process of FIG.
  • step S41 the phrase unit determination processing unit 26 determines whether or not all the words behind the word to be processed have been selected as targets for specifying the terminal word.
  • step S41 when the phrase unit determination processing unit 26 determines that all the words behind the word to be processed have not been selected as the target for specifying the terminal word, the process proceeds to step S42. That is, in this case, a word that has not been selected as a target for specifying a terminal word is behind the word to be processed.
  • step S42 the phrase unit determination processing unit 26 selects the next word as a target for specifying the terminal word. For example, the phrase unit determination processing unit 26, when the terminal word specifying process is the first time, the target word for specifying the terminal word for the word immediately after the word to be processed in step S21 or S26 in FIG. choose as. Further, the phrase unit determination processing unit 26 selects a word immediately after the currently selected word as a target for specifying the end word when the end word specifying process is performed for the second time or later.
  • step S43 the phrase unit determination processing unit 26 determines whether or not the reliability of the word selected in the immediately preceding step S42 is equal to or less than a predetermined threshold value.
  • step S43 If the phrase unit determination processing unit 26 determines in step S43 that the reliability of the selected word is not less than or equal to a predetermined threshold (that is, the reliability is greater than the predetermined threshold), the process proceeds to step S44. .
  • step S44 the phrase unit determination processing unit 26 determines whether the phonetic symbol of the selected word starts with a voiced sound according to the phonetic symbol supplied from the phonetic symbol conversion unit 25.
  • step S44 when the phrase unit determination processing unit 26 determines that the pronunciation symbol of the selected word starts with a voiced sound, the process proceeds to step S45.
  • step S45 the phrase unit determination processing unit 26 specifies the selected word as a terminal word.
  • step S44 determines in step S44 that the phonetic symbol of the selected word does not start with a voiced sound, that is, the phonetic symbol of the selected word starts with an unvoiced sound. In this case, the process returns to step S41, and the same process is repeated thereafter.
  • step S43 if the phrase unit determination processing unit 26 determines that the reliability of the selected word is equal to or less than a predetermined threshold, the process proceeds to step S46.
  • step S46 the phrase unit determination processing unit 26 specifies the word immediately before the word selected as the target for specifying the terminal word as the terminal word at this time. For example, when the terminal word specifying process is the first time, the word immediately after the word to be processed is selected as the target for specifying the terminal word, and the processing target preceding the word is processed. A word is identified as a terminal word.
  • step S41 determines whether the phrase unit determination processing unit 26 has selected all the words behind the word to be processed as targets for specifying the terminal word.
  • step S47 the phrase unit determination processing unit 26 identifies the word at the end of the sentence in the word string recognized by the speech recognition unit 23 as the terminal word.
  • step S45 After the process in step S45, step S46, or step S47, the end word specifying process is terminated.
  • the speech recognition server 14 recognizes the phrase unit together with the speech recognition result by determining the phrase unit by the phrase unit determination process when performing speech recognition on the speech information transmitted from the client terminal 13.
  • a user interface can be presented. Thereby, it is possible to cause the user to repeat the speech in phrase units, and a more accurate speech recognition result can be obtained.
  • FIG. 10 is a block diagram showing a second configuration example of the voice recognition server 14.
  • the same reference numerals are given to the same components as those in the voice recognition server 14 in FIG. 2, and detailed description thereof is omitted.
  • the speech recognition server 14A includes a communication unit 21, an input sound processing unit 22, a speech recognition unit 23, a reliability acquisition unit 24, a phonetic symbol conversion unit 25, a phrase unit determination processing unit 26, and a speech recognition.
  • the result output processing unit 27 is common to the voice recognition server 14 of FIG.
  • the voice recognition server 14 ⁇ / b> A includes a one-character voice recognition unit 28 and a natural language analysis unit 29.
  • the single character speech recognition unit 28 can perform speech recognition on the speech information supplied from the input sound processing unit 22 in units of one character.
  • the single character speech recognition unit 28 includes a speech recognition engine specialized in speech recognition in units of one character, as compared to the speech recognition unit 23.
  • the phrase unit determination processing unit 26 A phrase unit consisting only of words with low reliability is determined. That is, in this case, re-speaking of only words with low reliability is prompted. After that, when the input sound processing unit 22 acquires the speech information of the recurrent utterance, the input sound processing unit 22 supplies the one-character speech recognition unit 28 with the speech information of the word whose reliability is low. Lets perform voice recognition.
  • the speech recognition result obtained by the speech recognition unit 23 performing speech recognition on the speech information is supplied to the natural language analysis unit 29. Then, the natural language analysis unit 29 performs natural language analysis on the speech recognition result, and acquires a sentence element (sentence component) of a word included in the speech recognition result as an analysis result.
  • the natural language analysis unit 29 performs natural language analysis on the speech recognition result, and acquires a sentence element (sentence component) of a word included in the speech recognition result as an analysis result.
  • the natural language analysis unit 29 is included in the speech recognition result. Get sentence elements for each word. For example, in the natural language analysis unit 29, the word “I” is a noun (subject), the word “sue” is a verb, the word “a” is an article, and the word “person” is a noun (object). Yes, an analysis result is acquired that the word “with” is a preposition, the word “a” is an article, the word “red” is an adjective, and the word “shoot” is a noun.
  • the phrase unit determination processing unit 26 can determine the phrase unit based on the language structure according to such a sentence element. For example, the phrase unit determination processing unit 26 determines “I sue a person” as a phrase unit based on a strongly connected language structure of a subject, a verb, and an object. Also, the phrase unit determination processing unit 26 determines “a red shoot” as a phrase unit based on, for example, a strongly connected language structure of articles, adjectives, and nouns.
  • the phrase unit determination processing unit 26 determines the word starting from the unvoiced sound as the starting word if the language structure has a strong connection between the subject, the verb, and the object. Or you may select as a termination word.
  • the natural language analysis unit 29 for example, the word “She” is a noun (subject), the word “prays” is a verb, the word “with” is a preposition, and the word “her” is a noun (objective). Analysis result that the word “hair” is a noun (object). At this time, the reliability of the word “prays” is low, and the phrase unit determination processing unit 26 performs a process of determining a phrase unit including the word “prays”.
  • the phrase unit determination processing unit 26 has a strong linguistic structure of a subject and a verb even if the word “She” preceding the word “prays” with low reliability does not start with a voiced sound. It can be judged that the connection is strong. Therefore, the phrase unit determination processing unit 26 can select the word “She” that does not start from the voiced sound as the starting word and determine “She plays with” as the phrase unit.
  • the phrase unit determination processing unit 26 performs processing based on whether or not the phrase unit is a word starting from a voiced sound when determining the phrase unit. This is because a word starting from a voiced sound can be recognized more accurately than a word starting from an unvoiced sound. In addition, for example, even if a word starts with an unvoiced sound, if a relatively large number of voiced sounds (for example, more than half of all words) are included, it is considered that speech recognition can be performed with high accuracy. It is done.
  • the phrase unit determination processing unit 26 determines a phrase unit by specifying a word that starts with an unvoiced sound and contains a relatively large amount of voiced sounds as a start word or an end word. can do.
  • the speech recognition unit 23 Based on the speech information “Statistics ⁇ shows that people are having fewer children” spoken by the user, the speech recognition unit 23 generates a speech recognition result of “Statistics shoes that people are having fewer children”. Suppose that it was obtained. At this time, the word “Statistics” does not start with a voiced sound, but it can be determined that the content rate of the voiced sound is high, so that the phrase unit determination processing unit 26 uses the word “Statistics” as a starting word and “Statistics shows that Can be determined as a phrase unit.
  • FIG. 12 shows an example of a user interface in a system that allows a user to select a content to be uttered and input a voice.
  • a speech recognition system for a system that allows a user to speak either of the choices “Seashell” or “glass ball” in response to the question sentence “Which do you like better?” 11 can be applied.
  • the choice “Seashell” contains many unvoiced sounds, and it is assumed that the accuracy of voice recognition is lowered.
  • the speech recognition system 11 is a word having a meaning similar to the choice “Seashell”, and the choice includes the choice of the word including many voiced sounds. Can be changed. That is, as shown in the lower side of FIG. 12, the speech recognition system 11 can change the option “Seashell” to the option “Shellfish”. Thereby, voice recognition can be performed with higher accuracy by uttering the choice “Shellfish” containing more voiced sounds than the choice “Seashell”.
  • FIG. 13 shows a modified example of the user interface output by the voice recognition result output processing unit 27.
  • the user interface that is clearly delimited by the phrase unit “I sue a person” and the phrase unit “a red shoot” is presented to the user, and the phrase unit It is possible to encourage the recurrence of “a red shoot”.
  • the terminal word starts with an unvoiced sound, it is considered difficult to greatly improve the speech recognition accuracy for recurrent speech.
  • the speech recognition result output processing unit 27 after the phrase unit “a red shoot” in which the word starting with the unvoiced sound is the end word, the notice sentence “speech with“ please ” Can be output. That is, when the end word of a phrase unit is a word that starts with an unvoiced sound, it is urged to add a word that does not affect the sentence and starts with a voiced sound after the end word. Present the user interface. Thus, when the user re-speaks “I see a person with a red shirt please”, since the terminal word starts with a voiced sound, the speech recognition accuracy for the re-uttered speech is greatly improved.
  • the processes described with reference to the flowcharts described above do not necessarily have to be processed in chronological order in the order described in the flowcharts, but are performed in parallel or individually (for example, parallel processes or objects). Processing).
  • the program may be processed by one CPU (Central Processing Unit) or may be distributedly processed by a plurality of CPUs.
  • CPU Central Processing Unit
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 14 is a block diagram showing an example of a hardware configuration of a computer that executes the above-described series of processing by a program.
  • the computer 101 illustrated in FIG. 14 corresponds to, for example, the client terminal 13 in FIG. 1 and can perform voice recognition processing by the client terminal 13 alone without performing processing via the network 12.
  • An example is shown.
  • the computer 101 includes an audio information acquisition device 102, a video output device 103, an audio output device 104, a CPU 105, a memory 106, a storage device 107, and a network input / output device 108. Further, similarly to the speech recognition server 14 shown in FIG. 2, the computer 101 includes an input sound processing unit 22, a speech recognition unit 23, a reliability acquisition unit 24, a phonetic symbol conversion unit 25, a phrase unit determination processing unit 26, and A speech recognition result output processing unit 27 is provided. Furthermore, the computer 101 is configured to include a one-character speech recognition unit 28 and a natural language analysis unit 29, similar to the speech recognition server 14A shown in FIG.
  • the audio information acquisition device 102 is constituted by a microphone
  • the video output device 103 is constituted by a display
  • the audio output device 104 is constituted by a speaker.
  • the network input / output device 108 corresponds to the communication unit 21 in FIG. 2 and can perform communication in accordance with, for example, a LAN (Local Area Network) standard.
  • the CPU 105 reads out the program stored in the storage device 107 to the memory 106 and executes it, whereby the above-described series of processing is performed.
  • the program executed by the CPU 105 is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact-Disc-Read-Only Memory), DVD (Digital Versatile-Disc), etc.), a magneto-optical disk, or a semiconductor memory. It can be provided by being recorded on a package medium composed of the above, or can be provided via a wired or wireless transmission medium using the network input / output device 108.
  • a voice recognition unit that acquires voice information obtained by a user's utterance and acquires a word string representing the utterance content as a voice recognition result by performing voice recognition on the voice information;
  • a reliability that is used as an index indicating a degree of reliability as a speech recognition result.
  • An information processing apparatus comprising: an output processing unit that outputs voice recognition result information for recognizing the phrase unit determined by the phrase unit determination unit together with the voice recognition result.
  • a phonetic symbol conversion unit for converting the word string recognized as the voice recognition result into phonetic symbols of the respective words;
  • the information processing apparatus wherein the phrase unit determination unit determines the phrase unit based on the phonetic symbols converted by the phonetic symbol conversion unit.
  • the phrase unit determination unit refers to the phonetic symbol converted by the phonetic symbol conversion unit, and identifies a word that starts with a voiced sound as a word that is the start and end of the phrase unit.
  • Information processing device (4) The phrase unit determination unit selects a word arranged in front of the low-reliability word sequentially from the one before the low-reliability word, and the selected word starts with a voiced sound.
  • the information processing apparatus according to (3), wherein a word that is a starting point of the phrase unit is specified based on whether or not the phrase unit is present.
  • the phrase unit determination unit selects words arranged behind the low-reliability word sequentially from one word after the low-reliability word, and the selected word starts with a voiced sound.
  • the information processing apparatus according to (3) or (4), wherein a word that is a terminal of the phrase unit is specified based on whether or not the phrase unit is present.
  • a natural language analysis unit for performing natural language analysis on a sentence composed of a word sequence recognized as the speech recognition result, The information according to any one of (1) to (5), wherein the phrase unit determination unit determines the phrase unit based on a strongly connected language structure with reference to an analysis result by the natural language analysis unit. Processing equipment. (7) A one-character voice recognition unit that performs voice recognition on the voice information in units of one character; After the phrase unit consisting of only the words with low reliability is determined by the phrase unit determination unit, speech recognition is performed by the one-character speech recognition unit on the speech information re-spoken for the words with low reliability.
  • the information processing apparatus according to any one of (1) to (6).
  • the output processing unit moves the word that does not affect the sentence and starts with the voiced sound to the front or rear of the phrase unit.
  • the information processing apparatus according to any one of (1) to (7), wherein a user interface that prompts a recurrent story is presented.
  • a communication unit that communicates with other devices via a network;
  • An input sound processing unit that performs processing for detecting an utterance section in which sound is included in the sound information,
  • the communication unit is Obtaining the audio information transmitted from the other device via the network and supplying it to the input sound processing unit;
  • the information processing apparatus according to any one of (1) to (8), wherein the voice recognition result information output from the output processing unit is transmitted to the other apparatus via the network.
  • 11 speech recognition system 12 network, 13 client terminal, 14 speech recognition server, 21 communication unit, 22 input sound processing unit, 23 speech recognition unit, 24 reliability acquisition unit, 25 phonetic symbol conversion unit, 26 phrase unit determination processing unit , 27 speech recognition result output processing unit, 28 single character speech recognition unit, 29 natural language analysis unit, 101 computer, 102 speech information acquisition device, 103 video output device, 104 speech output device, 105 CPU, 106 memory, 107 storage device , 108 Network input / output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

本開示は、より高精度に音声認識を行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 音声情報に対する音声認識を行うことにより発話内容を表す単語列が音声認識結果として取得され、その音声情報に対する音声認識が行われる際に、音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度が取得される。そして、信頼度の低い単語を含む文節単位が決定されて、音声認識結果とともに文節単位を認識させる音声認識結果情報が出力される。本技術は、例えば、ネットワークを介して音声認識処理を提供する音声認識システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本開示は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より高精度に音声認識を行うことができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするために、音声認識処理による音声認識結果の精度を高めることが重要となっている。
 また、音声認識結果が間違っていた場合には、例えば、再発話を促して音声認識結果を修正することで、より正確な音声認識結果を得ることができる。このとき、音声認識結果を修正するための再発話を文節単位で行わせることによって、音声認識精度を高める技術や、音の情報に基づいて文節単位で区切ることによって、再発話における音声認識結果の修正を容易に行う技術などが提案されている。
 例えば、特許文献1に開示されているように、文章表現を変更または追加する際に、語句に対する助詞や述語なども含めた文節単位で文章を作成することによって、ユーザの負担を軽減することができる。
特開2012-53634号公報
 ところで、上述したように、音声認識精度を高めることが重要であることより、従来よりも高精度に音声認識処理を行うことができる技術が求められている。
 本開示は、このような状況に鑑みてなされたものであり、より高精度に音声認識を行うことができるようにするものである。
 本開示の一側面の情報処理装置は、ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得する音声認識部と、前記音声認識部により前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得する信頼度取得部と、前記信頼度取得部により取得された前記信頼度の低い単語を含む文節単位を決定する文節単位決定部と、前記音声認識結果とともに、前記文節単位決定部により決定された前記文節単位を認識させる音声認識結果情報を出力する出力処理部とを備える。
 本開示の一側面の情報処理方法またはプログラムは、ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得し、前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得し、前記信頼度の低い単語を含む文節単位を決定し、前記音声認識結果とともに、前記文節単位を認識させる音声認識結果情報を出力するステップを含む。
 本開示の一側面においては、ユーザの発話により得られる音声情報を取得して、その音声情報に対する音声認識を行うことにより発話内容を表す単語列が音声認識結果として取得され、音声情報に対する音声認識が行われる際に、音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度が取得される。そして、信頼度の低い単語を含む文節単位が決定され、音声認識結果とともに、文節単位を認識させる音声認識結果情報が出力される。
 本開示の一側面によれば、より高精度に音声認識を行うことができる。
本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。 音声認識サーバの第1の構成例を示すブロック図である。 文節単位決定処理の一例について説明する図である。 発音情報テーブルを示す図である。 音声認識結果出力処理の一例を説明する図である。 音声認識処理を説明するフローチャートである。 文節単位決定処理を説明するフローチャートである。 始端単語特定処理を説明するフローチャートである。 終端単語特定処理を説明するフローチャートである。 音声認識サーバの第2の構成例を示すブロック図である。 文節単位決定処理の変形例について説明する図である。 音声認識のユーザインタフェースの変形例について図である。 音声認識結果出力処理の変形例について図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <音声認識システムの構成例>
 図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。
 図1に示すように、音声認識システム11は、インターネットなどのネットワーク12を介して、複数台(図1の例ではN台)のクライアント端末13-1乃至13-Nおよび音声認識サーバ14が接続されて構成される。なお、クライアント端末13-1乃至13-Nは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末13と称する。
 クライアント端末13は、ユーザにより発話された音声を入力し、音声情報を取得するためのマイクロホンなどの音声情報取得装置を備えており、音声情報取得装置が取得した音声情報を、ネットワーク12を介して音声認識サーバ14に送信する。また、クライアント端末13は、音声認識サーバ14から送信されてくる音声認識結果を受信して、ユーザに提示する。例えば、クライアント端末13は、音声認識結果を表す映像(画像)を映像出力装置に表示したり、音声認識結果を表す合成音声を音声出力装置から出力したりする。
 音声認識サーバ14は、ネットワーク12を介してクライアント端末13から送信されてくる音声情報に対する音声認識処理を行う。そして、音声認識サーバ14は、音声情報から認識された単語列などを音声認識結果として、ネットワーク12を介してクライアント端末13に送信する。このとき、音声認識サーバ14は、音声情報を送信してきたクライアント端末13だけでなく、例えば、そのクライアント端末13のユーザがコミュニケーションを行っている他のユーザのクライアント端末13にも、音声認識結果を送信することができる。
 このように音声認識システム11は構成されており、クライアント端末13のユーザの発話により取得される音声情報が音声認識サーバ14に送信され、音声認識サーバ14において音声認識処理が行われ、クライアント端末13に音声認識結果が送信される。従って、音声認識システム11は、例えば、より高性能で最新の音声認識処理を音声認識サーバ14に実装することで、個々のクライアント端末13の処理能力が低くても、より高精度な音声認識処理を提供することができる。
 <音声認識サーバの第1の構成例>
 図2は、音声認識サーバ14の第1の構成例を示すブロック図である。
 図2に示すように、音声認識サーバ14は、通信部21、入力音処理部22、音声認識部23、信頼度取得部24、発音記号変換部25、文節単位決定処理部26、および音声認識結果出力処理部27を備えて構成される。
 通信部21は、図1のネットワーク12を介して、クライアント端末13と各種の通信を行う。例えば、通信部21は、クライアント端末13から送信されてくる音声情報を受信して、入力音処理部22に供給する。また、通信部21は、音声認識結果出力処理部27から供給される音声認識結果情報を、クライアント端末13に送信する。
 入力音処理部22は、通信部21から供給される音声情報に対して、音声認識部23において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部22は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するVAD(Voice Activity Detection)処理を行って、発話区間の音声情報を音声認識部23に供給する。
 音声認識部23は、入力音処理部22から供給される音声情報に対する音声認識を行い、音声情報に含まれている発話内容を単語ごとに認識して、発話内容を表す単語列を発音記号変換部25および文節単位決定処理部26に供給する。
 信頼度取得部24は、音声認識部23において音声情報に対する音声認識が行われる際に、音声認識部23が単語を認識したときの音声認識結果を信頼できる程度を表す指標となる信頼度(confidence level)を単語ごとに取得して、文節単位決定処理部26に供給する。例えば、信頼度取得部24は、音声認識部23による音声認識の過程で生成される単語グラフに基づいて、信頼度を取得することができる。
 発音記号変換部25は、例えば、単語および発音記号が対応付けられている辞書を参照し、音声認識部23から供給される単語列を、それぞれの単語に対応付けられている発音記号に変換して、文節単位決定処理部26に供給する。
 文節単位決定処理部26は、音声認識部23から供給される単語列を、信頼度取得部24から供給される信頼度、および、発音記号変換部25から供給される発音記号に基づいて、図3を参照して後述するように、文節単位を決定する文節単位決定処理を行う。ここで、文節単位は、音声認識部23により認識された単語列を、例えば、ユーザに再発話を促すときに纏めて発話させたい部分ごとに区切った1以上の単語により構成される。例えば、文節単位決定処理部26は、音声認識結果の信頼度をある単位(英語なら「冠詞+単語」の単位、日本語なら「形態素+助詞または助動詞」の単位)で取得し、信頼度の低い単語があった場合、その単語の周辺の単語から文節単位を決定する。
 また、文節単位決定処理部26は、発音記号変換部25により変換された発音記号に基づいて、図4に示すような有声音および無声音と発音記号とが対応付けられている発音情報テーブルを参照し、文節単位を決定することができる。即ち、文節単位決定処理部26は、信頼度の低い単語の前方に配置されている単語を、信頼度の低い単語の1つ前から順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、文節単位の始端となる単語を特定する。同様に、文節単位決定処理部26は、信頼度の低い単語の後方に配置されている単語を、信頼度の低い単語の1つ後ろから順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、文節単位の終端となる単語を特定する。
 音声認識結果出力処理部27は、文節単位決定処理部26により決定された文節単位をユーザに認識させるようなユーザインタフェースで、音声認識結果とともに文節単位をクライアント端末13のユーザに認識させる音声認識結果情報を生成して出力する音声認識結果出力処理を行う。例えば、音声認識結果出力処理部27は、音声認識結果を表す文字が文節単位で区切られていることが明示されるユーザインタフェース(図5参照)を表示するための表示情報を生成して出力したり、音声認識結果を表す合成音声を文節単位で区切って出力するための合成音声情報を生成して出力する。
 このように音声認識サーバ14は構成されており、クライアント端末13から送信されてきた音声情報に対する音声認識を行い、認識された単語列を区切る文節単位を決定して、文節単位で単語列が区切られた音声認識結果を、クライアント端末13に送信することができる。これにより、クライアント端末13においてユーザに提示される音声認識結果に間違った単語が含まれている場合、その間違って認識された単語を含む文節単位でユーザに再発話を促すことができる。
 従って、音声認識サーバ14は、例えば、単語単位で音声認識を行う場合と比較して、文節単位で音声認識を行う結果、正しい単語を含むように音声認識結果を修正して出力することができる。このように音声認識結果を修正することができるので、音声認識サーバ14は、結果的に、より高精度に音声認識を行うことができる。
 <文節単位決定処理および音声認識結果出力処理>
 図3乃至図5を参照して、文節単位決定処理部26による文節単位決定処理の一例について説明する。
 図3に示すように、例えば、ユーザが発話した「I see a person with a red shirt」という音声情報に基づいて、音声認識部23により「I sue a person with a red shoot」という音声認識結果が得られたとする。このとき、信頼度取得部24は、この音声認識結果における単語「I」に対して信頼度「0.99」を取得し、単語「sue」に対して信頼度「0.23」を取得し、単語「person」に対して信頼度「0.98」を取得する。同様に、信頼度取得部24は、単語「with」に対して信頼度「0.99」を取得し、単語「red」に対して信頼度「0.98」を取得し、単語「shoot」に対して信頼度「0.12」を取得する。また、発音記号変換部25は、音声認識結果の各単語を、図示するような発音記号に変換する。
 そして、文節単位決定処理部26は、発音記号変換部25が変換した発音記号に基づいて、図4の発音情報テーブルを参照し、信頼度の低い単語の前方および後方の両方に、有声音で始まっている単語が配置されるように文節単位を決定する。または、文節単位決定処理部26は、信頼度の低い単語の前方および後方の少なくとも一方に、有声音で始まっている単語が配置されるように文節単位を決定してもよい。
 例えば、文節単位決定処理部26は、信頼度の低い単語「sue」に対し、その前方に有声音で始まっている単語「I」が配置されるとともに、その後方に有声音で始まっている単語「person」が配置される「I sue a person」を文節単位として決定する。また、文節単位決定処理部26は、信頼度の低い単語「shoot」が最後に配置されていることより、単語「shoot」に対して前方に有声音で始まっている単語「red」が配置される「a red shoot」を文節単位として決定する。
 なお、例えば、文節単位決定処理部26は、信頼度に基づいて、信頼度の高い単語を、信頼度の低い単語を含む文節単位の始端単語および終端単語として特定してもよい。または、文節単位決定処理部26は、信頼度および発音記号の両方に基づいて、信頼度の低い単語を含む文節単位の始端単語および終端単語を特定してもよい。
 図5には、音声認識結果出力処理部27による音声認識結果出力処理の一例として、クライアント端末13の映像出力装置に表示されるユーザインタフェースが示されている。
 例えば、音声認識部23による「I sue a person with a red shoot」という音声認識結果に対し、図3を参照して上述したように、文節単位決定処理部26により文節単位が決定されたとする。この場合、音声認識結果出力処理部27は、文節単位「I sue a person」および文節単位「a red shoot」で区切られていることが明示されるユーザインタフェースで音声認識結果を表示させる表示情報を出力する音声認識結果出力処理を行う。これにより、クライアント端末13の映像出力装置には、図5に示すように、例えば、文節単位「I sue a person」および文節単位「a red shoot」が、それぞれ異なる枠で囲われたユーザインタフェースが表示される。
 このように、文節単位で明確に区分けされたユーザインタフェースにより、音声認識結果が間違っている単語に対する音声認識をやり直すためにユーザに対して再発話を促す際に、ユーザは、容易に文節単位で再発話を行うことができる。
 従って、音声認識部23は、間違った単語を含む文節単位で再発話された音声情報に対する音声認識を行うことによって、例えば、間違った単語だけが発話される場合と比較して、より正確な音声認識結果を得ることができる。
 <音声認識処理>
 図6は、音声認識サーバ14において実行される音声認識処理について説明するフローチャートである。
 例えば、クライアント端末13からネットワーク12を介して送信されてくる音声情報を通信部21が受信して入力音処理部22に供給すると処理が開始される。ステップS11において、入力音処理部22は、通信部21から供給される音声情報から、クライアント端末13のユーザが発話した音声が含まれている発話区間を検出する処理を行う。
 ステップS12において、入力音処理部22は、ステップS11での処理における発話区間の検出結果に従って、クライアント端末13のユーザによる発話が始まったか否かを判定する。ステップS12において、入力音処理部22が、発話が始まっていないと判定した場合、処理はステップS11に戻り、発話が始まったと判定されるまで、処理は待機される。一方、ステップS12において、入力音処理部22が、クライアント端末13のユーザの発話が始まったと判定した場合、処理はステップS13に進む。
 ステップS13において、入力音処理部22は、発話区間の音声情報を音声認識部23に供給し、音声認識部23は、その音声情報に対する音声認識を行う。
 ステップS14において、入力音処理部22は、クライアント端末13のユーザによる発話が終わったか否かを判定する。ステップS14において、入力音処理部22が、発話が終わっていないと判定した場合、処理はステップS13に戻り、音声認識部23による音声認識が継続して行われる。一方、ステップS14において、入力音処理部22が、クライアント端末13のユーザによる発話が終わったと判定した場合、処理はステップS15に進む。
 ステップS15において、音声認識部23は、発話が始まってから終わるまでの音声情報に基づいたステップS13における音声認識に基づいた音声認識結果として、音声情報に含まれている発話内容を表す単語列を取得する。そして、音声認識部23は、音声認識結果を発音記号変換部25および文節単位決定処理部26に供給する。
 ステップS16において、発音記号変換部25は、ステップS15で音声認識部23から供給される単語列を、単語ごとに発音記号に変換し、文節単位決定処理部26に供給する。
 ステップS17において、信頼度取得部24は、ステップS13で音声認識部23が音声認識を行う際の単語ごとの信頼度を取得して、文節単位決定処理部26に供給する。
 ステップS18において、文節単位決定処理部26は、ステップS15で音声認識部23から供給される単語列に対し、ステップS16で発音記号変換部25から供給される発音記号、および、ステップS17で信頼度取得部24から供給される信頼度に基づき、文節単位決定処理(後述する図7のフローチャート)を行う。そして、文節単位決定処理部26は、文節単位決定処理において決定した文節単位を、単語列とともに音声認識結果出力処理部27に供給する。
 ステップS19において、音声認識結果出力処理部27は、音声認識部23により認識された単語列が、文節単位決定処理部26により決定された文節単位で区切られていることが明示されるユーザインタフェースを表示させるための音声認識結果情報を出力する。そして、通信部21が、音声認識結果出力処理部27から出力される音声認識結果情報を、ネットワーク12を介してクライアント端末13に送信した後、音声認識処理は終了される。
 図7は、図6の音声認識処理におけるステップS18の文節単位決定処理について説明するフローチャートである。
 文節単位決定処理は、例えば、音声認識部23により認識された単語列の文頭の単語から順番に処理が行われ、ステップS21において、文節単位決定処理部26は、まず、文頭の単語を処理対象とする。
 ステップS22において、文節単位決定処理部26は、処理対象の単語に対して取得された信頼度が、所定の閾値以下であるか否かを判定する。
 ステップS22において、文節単位決定処理部26が、信頼度が所定の閾値以下であると判定した場合、処理はステップS23に進む。
 ステップS23において、文節単位決定処理部26は、処理対象の単語が含まれる文節単位の始端となる始端単語を特定する始端単語特定処理(後述する図8のフローチャート)を行う。
 ステップS24において、文節単位決定処理部26は、処理対象の単語が含まれる文節単位の終端となる終端単語を特定する終端単語特定処理(後述する図9のフローチャート)を行う。
 ステップS24の処理後、または、ステップS22において文節単位決定処理部26が、信頼度が所定の閾値以下でない(即ち、信頼度が所定の閾値より大きい)と判定した場合、処理はステップS25に進む。
 ステップS25において、文節単位決定処理部26は、音声認識部23により認識された単語列に含まれる全ての単語を処理対象としたか否かを判定する。
 ステップS25において、文節単位決定処理部26が、全ての単語を処理対象としていないと判定した場合、即ち、まだ処理対象となっていない単語がある場合、処理はステップS26に進む。
 ステップS26において、文節単位決定処理部26は、現在処理対象となっている単語の次の単語を、新たに処理対象とする。そして、処理はステップS22に戻り、新たに処理対象となった単語に対して、以下、同様の処理が繰り返される。
 一方、ステップS25において、文節単位決定処理部26が、全ての単語を処理対象としたと判定した場合、文節単位決定処理は終了される。
 図8は、図7の文節単位決定処理におけるステップS23の始端単語特定処理について説明するフローチャートである。
 ステップS31において、文節単位決定処理部26は、処理対象の単語の前方にある全ての単語を、始端単語を特定するための対象として選択したか否かを判定する。
 ステップS31において、文節単位決定処理部26が、処理対象の単語の前方にある全ての単語を、始端単語を特定するための対象として選択していないと判定した場合、処理はステップS32に進む。即ち、この場合、始端単語を特定するための対象として選択されていない単語が、処理対象の単語の前方にあることになる。
 ステップS32において、文節単位決定処理部26は、1つ前の単語を、始端単語を特定するための対象として選択する。例えば、文節単位決定処理部26は、始端単語特定処理が1回目であるとき、図7のステップS21またはS26で処理対象とした単語の1つ前の単語を、始端単語を特定するための対象として選択する。また、文節単位決定処理部26は、始端単語特定処理が2回目以降であるとき、選択中の単語の1つ前の単語を、始端単語を特定するための対象として選択する。
 ステップS33において、文節単位決定処理部26は、直前のステップS32で選択されている単語の信頼度が、所定の閾値以下であるか否かを判定する。
 ステップS33において、文節単位決定処理部26が、選択されている単語の信頼度が、所定の閾値以下でない(即ち、信頼度が所定の閾値より大きい)と判定した場合、処理はステップS34に進む。
 ステップS34において、文節単位決定処理部26は、発音記号変換部25から供給される発音記号に従って、選択されている単語の発音記号が有声音から始まっているか否かを判定する。
 ステップS34において、文節単位決定処理部26が、選択されている単語の発音記号が有声音から始まっていると判定した場合、処理はステップS35に進む。ステップS35において、文節単位決定処理部26は、その選択している単語を始端単語として特定する。
 一方、ステップS34において、文節単位決定処理部26が、選択されている単語の発音記号が有声音から始まっていないと判定した場合、即ち、選択されている単語の発音記号が無声音から始まっている場合、処理はステップS31に戻り、以下、同様の処理が繰り返される。
 また、ステップS33において、文節単位決定処理部26が、選択されている単語の信頼度が、所定の閾値以下であると判定した場合、処理はステップS36に進む。
 ステップS36において、文節単位決定処理部26は、この時点で、始端単語を特定するための対象として選択されている単語の1つ後ろの単語を始端単語として特定する。なお、例えば、始端単語特定処理が1回目であるとき、処理対象の単語の1つ前の単語が、始端単語を特定するための対象として選択されており、その1つ後ろにある処理対象の単語が始端単語として特定される。
 一方、ステップS31において、文節単位決定処理部26が、処理対象の単語の前方にある全ての単語を、始端単語を特定するための対象として選択したと判定した場合、処理はステップS37に進む。
 ステップS37において、文節単位決定処理部26は、音声認識部23により認識された単語列の文頭の単語を、始端単語として特定する。
 ステップS35、ステップS36、またはステップS37の処理後、始端単語特定処理は終了される。
 図9は、図7の文節単位決定処理におけるステップS24の終端単語特定処理について説明するフローチャートである。
 ステップS41において、文節単位決定処理部26は、処理対象の単語の後方にある全ての単語を、終端単語を特定するための対象として選択したか否かを判定する。
 ステップS41において、文節単位決定処理部26が、処理対象の単語の後方にある全ての単語を、終端単語を特定するための対象として選択していないと判定した場合、処理はステップS42に進む。即ち、この場合、終端単語を特定するための対象として選択されていない単語が、処理対象の単語の後方にあることになる。
 ステップS42において、文節単位決定処理部26は、1つ後ろの単語を、終端単語を特定するための対象として選択する。例えば、文節単位決定処理部26は、終端単語特定処理が1回目であるとき、図7のステップS21またはS26で処理対象とした単語の1つ後ろの単語を、終端単語を特定するための対象として選択する。また、文節単位決定処理部26は、終端単語特定処理が2回目以降であるとき、選択中の単語の1つ後ろの単語を、終端単語を特定するための対象として選択する。
 ステップS43において、文節単位決定処理部26は、直前のステップS42で選択されている単語の信頼度が、所定の閾値以下であるか否かを判定する。
 ステップS43において、文節単位決定処理部26が、選択されている単語の信頼度が、所定の閾値以下でない(即ち、信頼度が所定の閾値より大きい)と判定した場合、処理はステップS44に進む。
 ステップS44において、文節単位決定処理部26は、発音記号変換部25から供給される発音記号に従って、選択されている単語の発音記号が有声音から始まっているか否かを判定する。
 ステップS44において、文節単位決定処理部26が、選択されている単語の発音記号が有声音から始まっていると判定した場合、処理はステップS45に進む。ステップS45において、文節単位決定処理部26は、その選択している単語を終端単語として特定する。
 一方、ステップS44において、文節単位決定処理部26が、選択されている単語の発音記号が有声音から始まっていないと判定した場合、即ち、選択されている単語の発音記号が無声音から始まっている場合、処理はステップS41に戻り、以下、同様の処理が繰り返される。
 また、ステップS43において、文節単位決定処理部26が、選択されている単語の信頼度が、所定の閾値以下であると判定した場合、処理はステップS46に進む。
 ステップS46において、文節単位決定処理部26は、この時点で、終端単語を特定するための対象として選択されている単語の1つ前の単語を終端単語として特定する。なお、例えば、終端単語特定処理が1回目であるとき、処理対象の単語の1つ後ろの単語が、終端単語を特定するための対象として選択されており、その1つ前にある処理対象の単語が終端単語として特定される。
 一方、ステップS41において、文節単位決定処理部26が、処理対象の単語の後方にある全ての単語を、終端単語を特定するための対象として選択したと判定した場合、処理はステップS47に進む。
 ステップS47において、文節単位決定処理部26は、音声認識部23により認識された単語列の文末の単語を、終端単語として特定する。
 ステップS45、ステップS46、またはステップS47の処理後、終端単語特定処理は終了される。
 以上のように、音声認識サーバ14は、クライアント端末13から送信されてくる音声情報に対する音声認識を行う際に、文節単位決定処理で文節単位を決定することで、音声認識結果とともに文節単位を認識させるユーザインタフェースを提示することができる。これにより、ユーザに対して文節単位で再発話を行わせることができ、より正確な音声認識結果を得ることができる。
 <音声認識サーバの第2の構成例>
 図10は、音声認識サーバ14の第2の構成例を示すブロック図である。なお、図10に示す音声認識サーバ14Aにおいて、図2の音声認識サーバ14と共通する構成については、同一の符号を付し、その詳細な説明は省略する。
 図10に示すように、音声認識サーバ14Aは、通信部21、入力音処理部22、音声認識部23、信頼度取得部24、発音記号変換部25、文節単位決定処理部26、および音声認識結果出力処理部27を備える点で、図2の音声認識サーバ14と共通の構成となっている。さらに、音声認識サーバ14Aは、1文字音声認識部28および自然言語解析部29を備えて構成される。
 1文字音声認識部28は、入力音処理部22から供給される音声情報に対して1文字単位で音声認識を行うことができる。例えば、1文字音声認識部28は、音声認識部23よりも1文字単位での音声認識に特化した音声認識エンジンを備えている。
 例えば、音声認識サーバ14Aでは、信頼度の低い単語を含む文節単位を決定する際に、上述したような有声音から始まる単語を特定することができなかった場合、文節単位決定処理部26により、その信頼度の低い単語のみからなる文節単位が決定される。即ち、この場合、信頼度の低い単語のみの再発話が促される。その後、再発話の音声情報を入力音処理部22が取得すると、入力音処理部22は、信頼度が低かった単語の音声情報を1文字音声認識部28に供給し、1文字音声認識部28に音声認識を行わせる。
 これにより、信頼度の低い単語を含む文節単位を決定する際に、その単語のみからなる文節単位が決定されても、その再発話を音声認識部23により音声認識させる場合よりも、音声認識の精度を向上させることができる。
 自然言語解析部29には、音声認識部23が音声情報に対する音声認識を行って得られる音声認識結果が供給される。そして、自然言語解析部29は、音声認識結果に対する自然言語解析を行って、音声認識結果に含まれる単語の文要素(文の成分)を解析結果として取得する。
 図3を参照して上述したように、音声認識部23により「I sue a person with a red shoot」という音声認識結果が得られた場合、自然言語解析部29は、その音声認識結果に含まれる単語ごとの文要素を取得する。例えば、自然言語解析部29は、単語「I」が名詞(主語)であり、単語「sue」が動詞であり、単語「a」が冠詞であり、単語「person」が名詞(目的語)であり、単語「with」が前置詞であり、単語「a」が冠詞であり、単語「red」が形容詞であり、単語「shoot」が名詞であるという解析結果を取得する。
 そして、文節単位決定処理部26は、このような文要素に従った言語構造に基づいて、文節単位を決定することができる。例えば、文節単位決定処理部26は、主語、動詞、および目的語という繋がりの強い言語構造に基づいて、「I sue a person」を文節単位として決定する。また、文節単位決定処理部26は、例えば、冠詞、形容詞、および名詞という繋がりの強い言語構造に基づいて、「a red shoot」を文節単位として決定する。
 このように、言語構造に基づいて文節単位を決定する場合、主語、動詞、および目的語という繋がりの強い言語構造であれば、文節単位決定処理部26は、無声音から始まっている単語を始端単語または終端単語として選択してもよい。
 例えば、ユーザが発話した「She plays with her hair」という音声情報に基づいて、音声認識部23により「She prays with her hair」という音声認識結果が得られた例について説明する。
 この場合、自然言語解析部29は、例えば、単語「She」が名詞(主語)であり、単語「prays」が動詞であり、単語「with」が前置詞であり、単語「her」が名詞(目的語)であり、単語「hair」が名詞(目的語)であるという解析結果を取得する。このとき、単語「prays」の信頼度が低く、文節単位決定処理部26は、単語「prays」を含む文節単位を決定する処理を行う。
 そして、文節単位決定処理部26は、信頼度が低い単語「prays」の前にある単語「She」が有声音から始まっていなくても、主語および動詞という繋がりの強い言語構造であって、音の結びつきが強いと判断することができる。従って、文節単位決定処理部26は、有声音から始まっていない単語「She」を始端単語として選択して、「She plays with」を文節単位として決定することができる。
 <変形例について>
 図11を参照して、文節単位決定処理の変形例について説明する。
 上述したように、文節単位決定処理部26は、文節単位を決定する際に、有声音から始まっている単語であるか否かに基づいて処理を行っている。これは、有声音から始まっている単語の方が、無声音から始まっている単語よりも高精度に音声認識を行うことができるからである。この他、例えば、無声音から始まっている単語であっても、有声音が相対的に多く(例えば、全単語の半分以上)含まれている場合、高精度に音声認識を行うことができると考えられる。
 従って、文節単位決定処理部26は、無声音から始まっている単語であって、かつ、有声音が相対的に多く含まれている単語を、始端単語または終端単語として特定して、文節単位を決定することができる。
 例えば、図11に示すように、ユーザが発話した「Statistics shows that people are having fewer children」という音声情報に基づいて、音声認識部23により「Statistics shoes that people are having fewer children」という音声認識結果が得られたとする。このとき、単語「Statistics」は、有声音から始まっていないが、有声音の含有率が高いと判定できることより、文節単位決定処理部26は、単語「Statistics」を始端単語として、「Statistics shows that」を文節単位として決定することができる。
 図12を参照して、音声認識のユーザインタフェースの変形例について説明する。
 図12には、発話する内容をユーザに選択させて音声入力させるシステムにおけるユーザインタフェースの一例が示されている。図12の上側に示すように、質問文「Which do you like better?」に対して、選択肢「Seashell」および選択肢「glass ball」のいずれかを、ユーザに発話させるようなシステムに、音声認識システム11を適用することができる。しかしながら、選択肢「Seashell」は、無声音が多く含まれており、音声認識の精度が低下することが想定される。
 このように、音声認識の精度が低下することが想定される場合、音声認識システム11は、選択肢「Seashell」に類似する意味を備えた単語であって、有声音が多く含まれる単語に、選択肢を変更することができる。即ち、図12の下側に示すように、音声認識システム11は、選択肢「Seashell」を選択肢「Shellfish」に変更することができる。これにより、選択肢「Seashell」よりも有声音が多く含まれている選択肢「Shellfish」を発話させることによって、より高精度に音声認識を行うことができる。
 図13を参照して、音声認識結果出力処理の変形例について説明する。
 図13には、音声認識結果出力処理部27により出力されるユーザインタフェースの変形例が示されている。
 例えば、図5を参照して説明したように、文節単位「I sue a person」および文節単位「a red shoot」で区切られていることが明示されるユーザインタフェースをユーザに提示して、文節単位「a red shoot」の再発話を促すことができる。しかしながら、この場合、終端単語が無声音で始まっていることより、再発話に対する音声認識精度が大きく向上することは難しいと考えられる。
 そこで、音声認識結果出力処理部27は、図13に示すように、無声音で始まっている単語が終端単語となっている文節単位「a red shoot」の後ろに、注意文「speech with "please"」を付加するようなユーザインタフェースを出力することができる。即ち、文節単位の終端単語が、無声音で始まっている単語であるときに、文章に影響しない単語であって、かつ、有声音から始まる単語を、その終端単語の後ろに付け加えるような発話を促すユーザインタフェースを提示する。これにより、ユーザが、「I see a person with a red shirt please」と再発話すると、終端単語が有声音から始まっていることより、その再発話に対する音声認識精度が大きく向上することになる。
 なお、文節単位の始端単語が、無声音で始まっている場合も同様に、文章に影響しない単語であってかつ、有声音から始まる単語を、その始端単語の前に付け加えるような再発話を促すユーザインタフェースを提示してもよい。
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPU(Central Processing Unit)により処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図14は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 ここで、図14に示すコンピュータ101は、例えば、図1のクライアント端末13に対応しており、ネットワーク12を介して処理を行うことなく、クライアント端末13単体で音声認識処理を行うことができる構成例が示されている。
 コンピュータ101は、音声情報取得装置102、映像出力装置103、音声出力装置104、CPU105、メモリ106、記憶装置107、ネットワーク入出力装置108を備えて構成される。さらに、コンピュータ101は、図2に示した音声認識サーバ14と同様に、入力音処理部22、音声認識部23、信頼度取得部24、発音記号変換部25、文節単位決定処理部26、および音声認識結果出力処理部27を備えて構成される。さらに、コンピュータ101は、図10に示した音声認識サーバ14Aと同様に、1文字音声認識部28および自然言語解析部29を備えて構成される。
 例えば、音声情報取得装置102はマイクロホンにより構成され、映像出力装置103はディスプレイにより構成され、音声出力装置104はスピーカにより構成される。また、ネットワーク入出力装置108は、図2の通信部21に対応し、例えば、LAN(Local Area Network)の規格に従った通信を行うことができる。
 そして、コンピュータ101では、CPU105が、記憶装置107に記憶されているプログラムをメモリ106に読み出して実行することにより、上述した一連の処理が行われる。
 なお、CPU105が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアに記録して提供したり、ネットワーク入出力装置108を利用して、有線または無線の伝送媒体を介して提供することができる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得する音声認識部と、
 前記音声認識部により前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得する信頼度取得部と、
 前記信頼度取得部により取得された前記信頼度の低い単語を含む文節単位を決定する文節単位決定部と、
 前記音声認識結果とともに、前記文節単位決定部により決定された前記文節単位を認識させる音声認識結果情報を出力する出力処理部と
 を備える情報処理装置。
(2)
 前記音声認識結果として認識された単語列を、それぞれの単語の発音記号に変換する発音記号変換部
 をさらに備え、
 前記文節単位決定部は、前記発音記号変換部により変換された発音記号に基づいて、前記文節単位を決定する
 上記(1)に記載の情報処理装置。
(3)
 前記文節単位決定部は、前記発音記号変換部により変換された発音記号を参照し、有声音で始まっている単語を、前記文節単位の始端および終端となる単語として特定する
 上記(2)に記載の情報処理装置。
(4)
 前記文節単位決定部は、前記信頼度の低い単語の前方に配置されている単語を、前記信頼度の低い単語の1つ前から順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、前記文節単位の始端となる単語を特定する
 上記(3)に記載の情報処理装置。
(5)
 前記文節単位決定部は、前記信頼度の低い単語の後方に配置されている単語を、前記信頼度の低い単語の1つ後ろから順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、前記文節単位の終端となる単語を特定する
 上記(3)または(4)に記載の情報処理装置。
(6)
 前記音声認識結果として認識された単語列からなる文章に対して自然言語解析を行う自然言語解析部をさらに備え、
 前記文節単位決定部は、前記自然言語解析部による解析結果を参照し、繋がりの強い言語構造に基づいて、前記文節単位を決定する
 上記(1)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記音声情報に対して1文字単位で音声認識を行う1文字音声認識部をさらに備え、
 前記文節単位決定部により前記信頼度の低い単語のみからなる文節単位が決定された後、前記信頼度の低い単語について再発話された音声情報に対して、前記1文字音声認識部により音声認識が行われる
 上記(1)から(6)までのいずれかに記載の情報処理装置。
(8)
 前記出力処理部は、前記文節単位の始端または終端となる単語が有声音で始まっていない場合、文章に影響しない単語であってかつ、有声音から始まる単語を、前記文節単位の前方または後方に付け加えて再発話を促すユーザインタフェースを提示させる
 上記(1)から(7)までのいずれかに記載の情報処理装置。
(9)
 ネットワークを介して他の装置と通信を行う通信部と、
 前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
 をさらに備え、
 前記通信部は、
  前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
  前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
 上記(1)から(8)までのいずれかに記載の情報処理装置。
(10)
 ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得し、
 前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得し、
 前記信頼度の低い単語を含む文節単位を決定し、
 前記音声認識結果とともに、前記文節単位を認識させる音声認識結果情報を出力する
 ステップを含む情報処理方法。
(11)
 ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得し、
 前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得し、
 前記信頼度の低い単語を含む文節単位を決定し、
 前記音声認識結果とともに、前記文節単位を認識させる音声認識結果情報を出力する
 ステップを含む情報処理をコンピュータに実行させるプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 11 音声認識システム, 12 ネットワーク, 13 クライアント端末, 14 音声認識サーバ, 21 通信部, 22 入力音処理部, 23 音声認識部, 24 信頼度取得部, 25 発音記号変換部, 26 文節単位決定処理部, 27 音声認識結果出力処理部, 28 1文字音声認識部, 29 自然言語解析部, 101 コンピュータ, 102 音声情報取得装置, 103 映像出力装置, 104 音声出力装置, 105 CPU, 106 メモリ, 107 記憶装置, 108 ネットワーク入出力装置

Claims (11)

  1.  ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得する音声認識部と、
     前記音声認識部により前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得する信頼度取得部と、
     前記信頼度取得部により取得された前記信頼度の低い単語を含む文節単位を決定する文節単位決定部と、
     前記音声認識結果とともに、前記文節単位決定部により決定された前記文節単位を認識させる音声認識結果情報を出力する出力処理部と
     を備える情報処理装置。
  2.  前記音声認識結果として認識された単語列を、それぞれの単語の発音記号に変換する発音記号変換部
     をさらに備え、
     前記文節単位決定部は、前記発音記号変換部により変換された発音記号に基づいて、前記文節単位を決定する
     請求項1に記載の情報処理装置。
  3.  前記文節単位決定部は、前記発音記号変換部により変換された発音記号を参照し、有声音で始まっている単語を、前記文節単位の始端および終端となる単語として特定する
     請求項2に記載の情報処理装置。
  4.  前記文節単位決定部は、前記信頼度の低い単語の前方に配置されている単語を、前記信頼度の低い単語の1つ前から順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、前記文節単位の始端となる単語を特定する
     請求項2に記載の情報処理装置。
  5.  前記文節単位決定部は、前記信頼度の低い単語の後方に配置されている単語を、前記信頼度の低い単語の1つ後ろから順に選択して、その選択された単語が有声音で始まっているか否かに基づいて、前記文節単位の終端となる単語を特定する
     請求項2に記載の情報処理装置。
  6.  前記音声認識結果として認識された単語列からなる文章に対して自然言語解析を行う自然言語解析部をさらに備え、
     前記文節単位決定部は、前記自然言語解析部による解析結果を参照し、繋がりの強い言語構造に基づいて、前記文節単位を決定する
     請求項1に記載の情報処理装置。
  7.  前記音声情報に対して1文字単位で音声認識を行う1文字音声認識部をさらに備え、
     前記文節単位決定部により前記信頼度の低い単語のみからなる文節単位が決定された後、前記信頼度の低い単語について再発話された音声情報に対して、前記1文字音声認識部により音声認識が行われる
     請求項1に記載の情報処理装置。
  8.  前記出力処理部は、前記文節単位の始端または終端となる単語が有声音で始まっていない場合、文章に影響しない単語であってかつ、有声音から始まる単語を、前記文節単位の前方または後方に付け加えて再発話を促すユーザインタフェースを提示させる
     請求項1に記載の情報処理装置。
  9.  ネットワークを介して他の装置と通信を行う通信部と、
     前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
     をさらに備え、
     前記通信部は、
      前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
      前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
     請求項1に記載の情報処理装置。
  10.  ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得し、
     前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得し、
     前記信頼度の低い単語を含む文節単位を決定し、
     前記音声認識結果とともに、前記文節単位を認識させる音声認識結果情報を出力する
     ステップを含む情報処理方法。
  11.  ユーザの発話により得られる音声情報を取得して、前記音声情報に対する音声認識を行うことにより発話内容を表す単語列を音声認識結果として取得し、
     前記音声情報に対する音声認識が行われる際に、前記音声認識結果として認識された単語ごとに、それぞれを音声認識結果として信頼できる程度を表す指標となる信頼度を取得し、
     前記信頼度の低い単語を含む文節単位を決定し、
     前記音声認識結果とともに、前記文節単位を認識させる音声認識結果情報を出力する
     ステップを含む情報処理をコンピュータに実行させるプログラム。
PCT/JP2017/029493 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム WO2018043139A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201780051783.8A CN109643547A (zh) 2016-08-31 2017-08-17 信息处理装置、处理信息的方法和程序
EP17846147.1A EP3509060A4 (en) 2016-08-31 2017-08-17 INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING PROCESS AND PROGRAM
US16/323,734 US20190180751A1 (en) 2016-08-31 2017-08-17 Information processing apparatus, method for processing information, and program
JP2018537118A JPWO2018043139A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016170308 2016-08-31
JP2016-170308 2016-08-31

Publications (1)

Publication Number Publication Date
WO2018043139A1 true WO2018043139A1 (ja) 2018-03-08

Family

ID=61300773

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/029493 WO2018043139A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20190180751A1 (ja)
EP (1) EP3509060A4 (ja)
JP (1) JPWO2018043139A1 (ja)
CN (1) CN109643547A (ja)
WO (1) WO2018043139A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2005157166A (ja) * 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置
JP2012053634A (ja) 2010-08-31 2012-03-15 Fujifilm Corp 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム
WO2015059976A1 (ja) * 2013-10-24 2015-04-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050114131A1 (en) * 2003-11-24 2005-05-26 Kirill Stoimenov Apparatus and method for voice-tagging lexicon
CN102393793A (zh) * 2004-06-04 2012-03-28 B·F·加萨比安 在移动和固定环境中增强数据输入的系统
JP2006010739A (ja) * 2004-06-22 2006-01-12 Toyota Central Res & Dev Lab Inc 音声認識装置
TWI277949B (en) * 2005-02-21 2007-04-01 Delta Electronics Inc Method and device of speech recognition and language-understanding analysis and nature-language dialogue system using the method
CN101082836A (zh) * 2007-06-29 2007-12-05 华中科技大学 一种整合语音输入和手写输入功能的汉字输入系统
US8326631B1 (en) * 2008-04-02 2012-12-04 Verint Americas, Inc. Systems and methods for speech indexing
CN103810996B (zh) * 2014-02-21 2016-08-31 北京凌声芯语音科技有限公司 待测试语音的处理方法、装置及系统

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000029492A (ja) * 1998-07-09 2000-01-28 Hitachi Ltd 音声翻訳装置、音声翻訳方法、音声認識装置
JP2005157166A (ja) * 2003-11-28 2005-06-16 Toyota Central Res & Dev Lab Inc 音声認識装置、音声認識方法及びプログラム
JP2010197669A (ja) * 2009-02-25 2010-09-09 Kyocera Corp 携帯端末、編集誘導プログラムおよび編集装置
JP2012053634A (ja) 2010-08-31 2012-03-15 Fujifilm Corp 文書作成支援装置、文書作成支援方法、並びに文書作成支援プログラム
WO2015059976A1 (ja) * 2013-10-24 2015-04-30 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2016109725A (ja) * 2014-12-02 2016-06-20 ソニー株式会社 情報処理装置、情報処理方法およびプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3509060A4

Also Published As

Publication number Publication date
EP3509060A1 (en) 2019-07-10
EP3509060A4 (en) 2019-08-28
JPWO2018043139A1 (ja) 2019-06-24
CN109643547A (zh) 2019-04-16
US20190180751A1 (en) 2019-06-13

Similar Documents

Publication Publication Date Title
JP4481972B2 (ja) 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
TW546631B (en) Disambiguation language model
US8024179B2 (en) System and method for improving interaction with a user through a dynamically alterable spoken dialog system
JP4542974B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US11093110B1 (en) Messaging feedback mechanism
US11810471B2 (en) Computer implemented method and apparatus for recognition of speech patterns and feedback
JP2011158902A (ja) 音声認識装置、音声認識方法、及び音声認識ロボット
EP3509062B1 (en) Audio recognition device, audio recognition method, and program
JP2008209717A (ja) 入力された音声を処理する装置、方法およびプログラム
JP7557085B2 (ja) 対話中のテキスト-音声の瞬時学習
CN110675866B (zh) 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质
JP2010157081A (ja) 応答生成装置及びプログラム
JP2023503718A (ja) 音声認識
JP7326931B2 (ja) プログラム、情報処理装置、及び情報処理方法
US20180012602A1 (en) System and methods for pronunciation analysis-based speaker verification
JP2010197644A (ja) 音声認識システム
JP2006259641A (ja) 音声認識装置及び音声認識用プログラム
JP2004271895A (ja) 複数言語音声認識システムおよび発音学習システム
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
WO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
JP6849977B2 (ja) テキスト表示用同期情報生成装置および方法並びに音声認識装置および方法
EP3718107B1 (en) Speech signal processing and evaluation
JP2003162524A (ja) 言語処理装置
JP2005128130A (ja) 音声認識装置、音声認識方法及びプログラム
JP2004021207A (ja) 音素認識方法、音素認識装置および音素認識プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17846147

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018537118

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017846147

Country of ref document: EP

Effective date: 20190401