WO2018043138A1 - 情報処理装置および情報処理方法、並びにプログラム - Google Patents

情報処理装置および情報処理方法、並びにプログラム Download PDF

Info

Publication number
WO2018043138A1
WO2018043138A1 PCT/JP2017/029492 JP2017029492W WO2018043138A1 WO 2018043138 A1 WO2018043138 A1 WO 2018043138A1 JP 2017029492 W JP2017029492 W JP 2017029492W WO 2018043138 A1 WO2018043138 A1 WO 2018043138A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
information
voice recognition
utterance
speech
Prior art date
Application number
PCT/JP2017/029492
Other languages
English (en)
French (fr)
Inventor
真一 河野
祐平 滝
Original Assignee
ソニー株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニー株式会社 filed Critical ソニー株式会社
Priority to JP2018537117A priority Critical patent/JPWO2018043138A1/ja
Priority to CN201780051273.0A priority patent/CN109643551A/zh
Priority to US16/305,328 priority patent/US20200320976A1/en
Priority to EP17846146.3A priority patent/EP3509062B1/en
Publication of WO2018043138A1 publication Critical patent/WO2018043138A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/083Recognition networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/221Announcement of recognition results

Definitions

  • the present invention relates to an information processing apparatus, an information processing method, and a program, and more particularly, to an information processing apparatus, an information processing method, and a program that can perform better voice input.
  • a feature amount is extracted from speech information. For example, a feature amount such as MFCC (Mel-Frequency Cepstrum Coefficients) is extracted. Based on the feature amount extracted from the speech information, the speech recognition engine performs speech recognition processing with reference to the acoustic model, the recognition dictionary, and the language model, and a character string recognized from the speech is output. .
  • MFCC Mel-Frequency Cepstrum Coefficients
  • Patent Document 1 discloses a speech recognition system that selects an acoustic model to be used for speech recognition based on user classification in speech recognition for an unspecified number of users.
  • the present invention has been made in view of such a situation, and makes it possible to perform better voice input.
  • An information processing apparatus acquires voice information obtained by a user's utterance and detects a utterance feature from the voice information, and the voice information includes voice.
  • a specific silence period detection unit that detects a specific silence period that is a specific short silence period that is not determined as a silence period, and a feature of the utterance that is detected from the speech information by the utterance feature detection unit
  • a selection unit that selects a voice recognition process performed on the voice information based on the specific silence period detected from the voice information by the specific silence period detection unit, and the selection unit selects the voice recognition process.
  • an output processing unit that outputs voice recognition result information indicating the voice recognition process obtained from the voice recognition result together with the voice recognition result recognized by the voice recognition process.
  • An information processing method or program acquires speech information obtained by a user's speech, detects speech features from the speech information, and determines speech segments in which speech is included in the speech information.
  • a specific silence period that is a specific short silence period that is not determined as a silence period is detected, and the feature of the utterance detected from the voice information and the specific silence period detected from the voice information are detected.
  • the speech recognition result information indicating the speech recognition result obtained from the speech recognition result together with the speech recognition result recognized by the selected speech recognition process Is included.
  • a silent period A specific silence period that is a specific short silence period that is not determined to be detected is detected. Then, based on the feature of the utterance detected from the voice information and the specific silence period detected from the voice information, the voice recognition process performed on the voice information is selected, and the voice recognized by the voice recognition process Along with the recognition result, voice recognition result information indicating that the voice recognition processing has been performed is output.
  • better voice input can be performed.
  • FIG. 18 is a block diagram illustrating a configuration example of an embodiment of a computer to which the present technology is applied.
  • FIG. 1 is a block diagram illustrating a configuration example of an embodiment of a speech recognition system to which the present technology is applied.
  • a speech recognition system 11 is connected to a plurality of (N in the example of FIG. 1) client terminals 13-1 to 13-N and a speech recognition server 14 via a network 12 such as the Internet. Configured. Note that the client terminals 13-1 to 13-N are configured in the same manner, and will be referred to as the client terminal 13 as appropriate when it is not necessary to distinguish them from each other.
  • the client terminal 13 includes a voice information acquisition device such as a microphone for inputting voice uttered by the user and acquiring voice information.
  • the client terminal 13 receives the voice information acquired by the voice information acquisition device via the network 12. It transmits to the voice recognition server 14. Further, the client terminal 13 receives the voice recognition result transmitted from the voice recognition server 14 and presents it to the user. For example, the client terminal 13 displays a user interface representing a speech recognition result on the video output device, or outputs synthesized speech representing the speech recognition result from the speech output device.
  • the voice recognition server 14 performs voice recognition processing on voice information transmitted from the client terminal 13 via the network 12. Then, the voice recognition server 14 transmits a word string or the like recognized from the voice information as a voice recognition result to the client terminal 13 via the network 12. At this time, the voice recognition server 14 sends the voice recognition result not only to the client terminal 13 that has transmitted the voice information, but also to the client terminals 13 of other users with which the user of the client terminal 13 is communicating, for example. Can be sent.
  • the voice recognition system 11 is configured, and voice information obtained by the speech of the user of the client terminal 13 is transmitted to the voice recognition server 14, and voice recognition processing is performed in the voice recognition server 14. A speech recognition result is transmitted. Therefore, the voice recognition system 11 can implement better voice input even if the processing capability of each client terminal 13 is low, for example, by implementing the latest voice recognition processing with higher performance on the voice recognition server 14. Can be provided.
  • FIG. 2 is a block diagram showing a first configuration example of the voice recognition server 14.
  • the speech recognition server 14 includes a communication unit 21, an input sound processing unit 22, an utterance feature detection unit 23, a specific silence period detection unit 24, a noise detection unit 25, a speech recognition mode switching processing unit 26, A mode speech recognition unit 27, a special mode speech recognition unit 28, and a speech recognition result output processing unit 29 are provided.
  • the communication unit 21 performs various communications with the client terminal 13 via the network 12 in FIG.
  • the communication unit 21 receives audio information transmitted from the client terminal 13 and supplies it to the input sound processing unit 22.
  • the communication unit 21 transmits the voice recognition result information supplied from the voice recognition result output processing unit 27 to the client terminal 13.
  • the input sound processing unit 22 performs various kinds of pre-processing necessary for performing voice recognition on the voice information supplied from the communication unit 21 before the normal mode voice recognition unit 27 and the special mode voice recognition unit 28 perform voice recognition. For example, the input sound processing unit 22 eliminates a silent section or a section of only noise in the voice information, and detects a voice section including the spoken voice from the voice information. VAD (Voice Activity Detection) A process is performed and the audio
  • VAD Voice Activity Detection
  • the utterance feature detection unit 23 detects the feature of the user's utterance from the speech information of the utterance section supplied from the input sound processing unit 22, and switches the speech feature detection result indicating the detected utterance feature to the voice recognition mode switching. This is supplied to the processing unit 26.
  • the utterance feature detection unit 23 detects the sound volume level based on the sound information as the utterance feature, and compares the sound volume level based on the sound information with a preset normal sound volume level. Is the utterance feature detection result. Further, the utterance feature detection unit 23 detects, for example, the voice input speed based on the voice information as the utterance feature, and compares the result with the comparison with the voice input speed until then (the result is faster than before). / Delayed) as the speech feature detection result. In addition, the speech feature detection unit 23 detects, for example, a speech frequency based on speech information as a speech feature, and compares the result with a relative comparison with the previous speech frequency (higher / lower than before). ) As the speech feature detection result.
  • the specific silence period detection unit 24 is an emergency that is not determined to be a silence period in the VAD process in which the input sound processing unit 22 detects a speech period from the voice information from the voice information of the speech period supplied from the input sound processing unit 22.
  • a short silence period is detected as a specific silence period.
  • the specific silence period is a short silence period that occurs at the break of each alphabet utterance when the alphabet is uttered character by character, and is called a so-called interval.
  • the specific silence period detection unit 24 supplies a specific silence period detection result indicating the timing and interval at which the specific silence period is detected from the speech information of the utterance section to the voice recognition mode switching processing unit 26.
  • the noise detection unit 25 detects the volume level of noise included in the speech information of the utterance section supplied from the input sound processing unit 22 and supplies the detected noise volume level to the voice recognition mode switching processing unit 26. To do.
  • the speech recognition mode switching processing unit 26 includes the speech feature detection result supplied from the speech feature detection unit 23, the specific silence period detection result supplied from the specific silence period detection unit 24, and the noise supplied from the noise detection unit 25. Based on the sound volume level, the voice recognition process is switched.
  • the voice recognition mode switching processing unit 26 selects the voice recognition process in the normal mode when the volume level of the voice based on the voice information is lower than the normal volume level.
  • the voice recognition mode switching processing unit 26 is based on the utterance feature detection result, and the volume level of the voice based on the voice information is higher than the normal volume level, and the specific silence is detected based on the specific silence period detection result. If the period is repeatedly detected at a predetermined interval, the special mode voice recognition process is selected on the assumption that a condition for performing the special mode voice recognition process has occurred.
  • the speech recognition mode switching processing unit 26 is based on the speech feature detection result when the speech input speed based on the speech information is relatively slow and when the speech frequency based on the speech information is relatively high. In the same manner as in the case where the sound volume level based on the sound information is higher than the normal sound volume level, it is determined that the condition for performing the sound recognition process in the special mode has occurred, and the sound recognition process in the special mode is selected.
  • the speech recognition mode switching processing unit 26 selects the special mode speech recognition processing for performing speech recognition for each character.
  • the voice recognition mode switching processing unit 26 avoids selection of the voice recognition process in the special mode when the volume level of the noise exceeds a predetermined volume level set in advance. That is, when the noise is large, it is possible that the recognition accuracy of the special mode voice recognition process is lowered. Therefore, it is preferable not to select the special mode voice recognition process.
  • the voice recognition mode switching processing unit 26 supplies the voice information of the utterance section supplied from the input sound processing unit 22 to the normal mode voice recognition unit 27.
  • the speech recognition mode switching processing unit 26 supplies the speech information of the speech section supplied from the input sound processing unit 22 to the special mode speech recognition unit 28 when the special mode speech recognition processing is selected.
  • the normal mode speech recognition unit 27 performs speech recognition processing on the speech information supplied from the speech recognition mode switching processing unit 26 with reference to a general recognition dictionary, for example, as in the past. Then, the normal mode speech recognition unit 27 supplies, for example, a character string recognized from speech information to the speech recognition result output processing unit 29 as a speech recognition result.
  • the special mode speech recognition unit 28 uses a special character string such as an ID, abbreviation, proper noun, or net slang (hereinafter referred to as a special character as appropriate) from the speech information supplied from the speech recognition mode switching processing unit 26. ) Is recognized in the special mode.
  • Special mode speech recognition processing includes, for example, a single character mode for performing speech recognition for each character, an uppercase conversion mode for converting speech recognition results to uppercase letters, and a number conversion for converting words of speech recognition results to numbers. There are modes.
  • the special mode voice recognition unit 28 determines that a character-by-character voice input for inputting an ID is performed in the one-character mode. Performs special mode speech recognition. Also, the special mode voice recognition unit 28 converts the recognized character into uppercase letters when the volume level of the voice based on the voice information exceeds the normal volume level in the single character mode. Special mode voice recognition processing is performed in the mode. Further, the special mode speech recognition unit 28 refers to a character string / number conversion table as shown in FIG. 3, and when the word recognized by the speech recognition is registered in the character string / number conversion table, the recognized word is converted into a number. Special mode speech recognition processing is performed in the number conversion mode to be converted.
  • the voice recognition result output processing unit 29 generates voice recognition result information indicating the voice recognition process from which the voice recognition result is obtained together with the voice recognition result supplied from the normal mode voice recognition unit 27 or the special mode voice recognition unit 28. Then, the data is supplied to the communication unit 21.
  • the voice recognition result output processing unit 29 causes the user of the client terminal 13 to recognize display information for displaying a user interface for recognizing the voice recognition result and the voice recognition process, and the voice recognition result and the voice recognition process.
  • the synthesized speech information for outputting the synthesized speech is generated as speech recognition result information.
  • the voice recognition server 14 is configured as described above, and the voice mode transmitted from the client terminal 13 via the network 12 is switched between the normal mode voice recognition process and the special mode voice recognition process. Such voice recognition processing can be performed. Then, the voice recognition server 14 transmits the voice recognition result information obtained by performing the voice recognition process to the client terminal 13 via the network 12, and the voice recognition process from which the voice recognition result is obtained together with the voice recognition result. Can be presented to the user.
  • the voice recognition server 14 can recognize special characters that cannot be recognized only by referring to a general recognition dictionary by the voice recognition processing in the special mode, and provide better voice input. Can do.
  • the abbreviation “lol” is sometimes used for the English phrase “laughing out loud”, but the pronunciation of the abbreviation “lol” is read one by one as “el-or-el”. Sometimes it is pronounced as a single word “roll”. Furthermore, as a variation (notation fluctuation) of the abbreviation “lol”, the notation may change due to differences in nuances such as “LOLOLOLOL”, “lolz”, and “lul”. In addition to this example, similar abbreviations may be used, and it is very difficult to reflect all of them in the dictionary.
  • IDs, abbreviations, proper nouns, net slang, and the like increase daily, so it is considered that the cost is too high to reflect the dictionary. Or words that are used only by friends of a specific group of social networks are not usually reflected in the recognition dictionary.
  • the voice recognition server 14 performs the special mode voice recognition process by the special mode voice recognition unit 28 when a condition for performing the special mode voice recognition process as described above occurs. Speech recognition for special characters can be performed accurately. As a result, the voice recognition server 14 can provide better voice input by appropriately selecting the voice recognition process even when normal conversation and special character utterances are mixed.
  • an icon 51 representing the user's utterance state is displayed on the screen of the video output device of the client terminal 13, and when the user's utterance is not detected, as shown in the upper part of FIG. Are displayed thinly (indicated by a broken line in the example of FIG. 4).
  • the voice information acquisition device of the client terminal 13 detects the user's utterance
  • the display of the microphone in the icon 51 is changed to dark as shown in the lower part of FIG. 4, and the user's utterance is displayed below the icon 51.
  • a display field 52 for displaying the characters recognized from is displayed.
  • FIG. 5 shows a state where the speech information “Let's” start “this” battle ”out of the speech information“ Let ’s ”start“ this ”battle“ BTX505 ”is supplied to the speech recognition server 14.
  • the utterance feature detection unit 23 of the speech recognition server 14 compares the sound volume levels as processing for detecting an utterance feature from the speech information “Let's start this battle”.
  • the volume level of the voice information “Let's start this battle” is equal to or lower than the normal volume level
  • the utterance feature detection unit 23 indicates the utterance feature detection result indicating that the volume level is equal to or lower than the normal volume level. Is supplied to the voice recognition mode switching processing unit 26.
  • the voice recognition mode switching processing unit 26 normally performs voice recognition on the voice information “Let's start this battle” according to the utterance feature detection result that the volume level of the voice information “Let's start this battle” is equal to or lower than the normal volume level. It is determined to be performed in the mode. Based on this, the voice recognition mode switching processing unit 26 supplies the voice information “Let's start this battle” to the normal mode voice recognition unit 27, and the normal mode voice recognition unit 27 performs the normal mode voice recognition processing.
  • the normal mode speech recognition unit 27 supplies a character string “Let's ⁇ start this battle” to the speech recognition result output processing unit 29 as a speech recognition result obtained by performing the speech recognition processing in the normal mode. Therefore, the voice recognition result output processing unit 29 generates voice recognition result information for outputting a user interface that allows the user of the client terminal 13 to recognize that the voice recognition result “Let's start this battle” is obtained, and performs communication. To the unit 21.
  • the client terminal 13 displays a user interface based on the voice recognition result obtained by the voice recognition processing in the normal mode.
  • a user interface is displayed that performs dynamic display such that the speech recognition result during recognition by the speech recognition processing in the normal mode is generated around the microphone of the icon 51.
  • words that are being recognized by the speech recognition processing in the normal mode are sequentially displayed. That is, as shown in the upper side of FIG. 6, the speech recognition result “Let's start...” During recognition is displayed in the display field 52. Then, when all voice recognition for the voice information “Let's start this battle” is completed, the voice recognition result “Let's start this battle” is displayed in the display field 52 as shown in the lower side of FIG.
  • FIG. 7 shows a state in which the speech information “BTX” is supplied to the speech recognition server 14 following the speech information “Let's start this battle” in the speech information “Let's start this battle BTX505”. ing. Note that when the speech recognition process in the normal mode is performed on the speech information “BTX”, a speech recognition result “bee tee ecs” is obtained as illustrated.
  • the utterance feature detection unit 23 compares the volume levels as processing for detecting the utterance feature from the voice information “BTX”. In the example of FIG. 7, the volume level of the audio information “BTX” exceeds the normal volume level, and the utterance feature detection unit 23 generates an utterance feature detection result indicating that the volume level exceeds the normal volume level.
  • the voice recognition mode switching processing unit 26 is supplied.
  • the specific silence period detection unit 24 performs a process of detecting a specific silence period from the audio information “BTX”.
  • the period indicated by the white arrow is detected as the specific silence period, and the specific silence period detection unit 24 detects the specific silence period that indicates the timing and interval at which the specific silence period is detected. The result is supplied to the voice recognition mode switching processing unit 26.
  • the speech recognition mode switching processing unit 26 performs the special mode speech based on the speech feature detection result supplied from the speech feature detection unit 23 and the specific silence period detection result supplied from the specific silence period detection unit 24. It is determined whether to perform recognition processing.
  • the voice recognition mode switching processing unit 26 uses the special mode based on the fact that the volume level exceeds the normal volume level and that a specific silence period is detected at a predetermined timing and interval. It is determined that the voice recognition process is performed.
  • the voice recognition mode switching processing unit 26 supplies the voice information “BTX” to the special mode voice recognition unit 28, and the special mode voice recognition unit 28 performs the special mode voice recognition process.
  • the special mode speech recognition unit 28 supplies the uppercase alphabet “BTX” to the speech recognition result output processing unit 29 as a speech recognition result obtained by performing the speech recognition processing in the special mode (single character mode and capital letter conversion mode). To do. Accordingly, the speech recognition result output processing unit 29 generates speech recognition result information for outputting a user interface that allows the user of the client terminal 13 to recognize that the speech recognition result “BTX” in uppercase alphabet is obtained, Supply to the communication unit 21.
  • the client terminal 13 displays a user interface based on the voice recognition result obtained by the voice recognition processing in the special mode. That is, as shown in FIG. 8, below the icon 51, among the special mode speech recognition processing, a mark “1 character” indicating speech recognition processing in one character mode and speech recognition processing in uppercase conversion mode are shown. The mark “Uppercase” is displayed. Then, a user interface is displayed for dynamic display in which the voice recognition result during recognition by the voice recognition processing in the one-character mode and uppercase conversion mode is converted from lowercase letters to uppercase letters while moving around the microphone of the icon 51.
  • FIG. 8 shows an example of a user interface converted from a lowercase letter “b” to an uppercase letter “B”, but the same process is repeated for the subsequent uppercase letters “T” and “X”. Is called. Then, when all voice recognition for the voice information “BTX” is completed, the voice recognition result “Let's start this battle BTX” is displayed in the display field 52 as shown in FIG.
  • FIG. 10 illustrates a state in which the speech information “505” is supplied to the speech recognition server 14 subsequent to the speech information “Let's start this battle BTX” in the speech information “Let's start this battle BTX505”. ing. Note that when the speech recognition process in the normal mode is performed on the speech information “505”, a speech recognition result “five zero five” is obtained as illustrated.
  • the utterance feature detection unit 23 compares the volume levels as processing for detecting the utterance feature from the voice information “505”. In the example of FIG. 10, the volume level of the audio information “505” exceeds the normal volume level, and the utterance feature detection unit 23 generates an utterance feature detection result indicating that the volume level exceeds the normal volume level.
  • the voice recognition mode switching processing unit 26 is supplied.
  • the specific silence period detection unit 24 performs a process of detecting a specific silence period from the audio information “505”.
  • the period indicated by the white arrow is detected as the specific silence period
  • the specific silence period detection unit 24 detects the specific silence period indicating the timing and interval at which the specific silence period is detected. The result is supplied to the voice recognition mode switching processing unit 26.
  • the speech recognition mode switching processing unit 26 performs the special mode speech based on the speech feature detection result supplied from the speech feature detection unit 23 and the specific silence period detection result supplied from the specific silence period detection unit 24. It is determined whether to perform recognition processing.
  • the voice recognition mode switching processing unit 26 uses the special mode based on the fact that the volume level exceeds the normal volume level and that a specific silence period is detected at a predetermined timing and interval. It is determined that the voice recognition process is performed.
  • the voice recognition mode switching processing unit 26 supplies the voice information “BTX” to the special mode voice recognition unit 28, and the special mode voice recognition unit 28 performs the special mode voice recognition process.
  • the special mode speech recognition unit 28 supplies a number “505” to the speech recognition result output processing unit 29 as a speech recognition result obtained by performing the speech recognition processing in the special mode (single character mode and number conversion mode). Accordingly, the speech recognition result output processing unit 29 generates speech recognition result information that causes the user of the client terminal 13 to recognize that the numerical speech recognition result “505” has been obtained, and the communication unit 21.
  • the client terminal 13 displays a user interface based on the voice recognition result obtained by the voice recognition processing in the special mode. That is, as shown in FIG. 11, below the icon 51, among the special mode voice recognition processes, the mark “1 ⁇ 1character” indicating the one-character mode voice recognition process and the voice recognition process in the number conversion mode are shown. The mark “Number” is displayed. Then, a user interface is displayed for dynamic display in which the speech recognition result during recognition by the speech recognition processing in the one-character mode and the number conversion mode is converted from words to numbers while moving around the microphone of the icon 51.
  • FIG. 11 shows an example of a user interface in which the word “five” is converted to the number “5”, but the same processing is repeated for the subsequent numbers “0” and “5”. Is called. Then, when all voice recognition for the voice information “505” is completed, the voice recognition result “Let's start this battle BTX505” is displayed in the display field 52 as shown in FIG.
  • FIG. 13 is a flowchart for explaining a voice recognition process executed in the voice recognition server 14.
  • step S ⁇ b> 11 the input sound processing unit 22 performs a process of detecting an utterance section including the speech uttered by the user of the client terminal 13 from the audio information supplied from the communication unit 21.
  • step S12 the input sound processing unit 22 determines whether or not the utterance by the user of the client terminal 13 has started according to the detection result of the utterance section in the processing in step S11. In step S12, when the input sound processing unit 22 determines that the utterance has not started, the process returns to step S11, and the process waits until it is determined that the utterance has started.
  • step S12 when the input sound processing unit 22 determines in step S12 that the utterance of the user of the client terminal 13 has started, the process proceeds to step S13. At this time, the input sound processing unit 22 starts supplying the speech information of the utterance section to the utterance feature detection unit 23, the specific silent period detection unit 24, the noise detection unit 25, and the speech recognition mode switching processing unit 26.
  • step S ⁇ b> 13 the utterance feature detection unit 23 performs a process of detecting an utterance feature from the speech information of the utterance section supplied from the input sound processing unit 22, and supplies the utterance feature detection result to the speech recognition mode switching processing unit 26.
  • the utterance feature detection results include the result of comparing the volume level of the voice information with the normal volume level, the result of detecting that the voice speed of the voice information has decreased relatively, and the relative frequency of the voice information. The result of detecting that it has become high is included.
  • step S ⁇ b> 14 the specific silence period detection unit 24 performs processing for detecting the specific silence period from the speech information of the utterance section supplied from the input sound processing unit 22, and when the specific silence period is detected, the specific silence period is detected.
  • the period detection result is supplied to the speech recognition mode switching processing unit 26.
  • the specific silence period detection result includes the timing and interval at which the specific silence period detection unit 24 detects the specific silence period.
  • step S15 the noise detection unit 25 performs a process of detecting noise from the speech information of the utterance section supplied from the input sound processing unit 22, and indicates that if noise of a predetermined level or higher is detected.
  • the noise detection result is supplied to the speech recognition mode switching processing unit 26.
  • step S16 the speech recognition mode switching processing unit 26 determines whether a condition for performing the speech recognition processing in the special mode has occurred based on the speech feature detection result, the specific silence period, and the noise detection result. For example, the voice recognition mode switching processing unit 26 detects a specific silent period twice or more in a predetermined period (for example, 1 to 2 seconds) when the volume level of the voice based on the voice information is higher than the normal volume level. In this case, it is determined that a condition for performing the voice recognition processing in the special mode has occurred.
  • a predetermined period for example, 1 to 2 seconds
  • the voice recognition mode switching processing unit 26 performs the condition for performing the voice recognition process in the special mode when the voice input speed based on the voice information is relatively slow and the specific silent period is detected twice or more in the predetermined period. Is determined to have occurred. Further, the voice recognition mode switching processing unit 26 has a condition for performing the voice recognition processing in the special mode when the frequency of the voice based on the voice information is relatively high and the specific silent period is detected twice or more in the predetermined period. It is determined that For example, when a user speaks a special character such as an ID, the user generally tends to speak louder than normal conversation, speak in a slow tone, or speak loudly. . Therefore, it is preferable to select the voice recognition processing in the special mode under the above conditions. In addition, when the noise detection result indicates that noise of a predetermined level or more is detected, the voice recognition mode switching processing unit 26 does not select the special mode voice recognition process, and does not select the special mode voice recognition process. Let the process do.
  • step S16 when the voice recognition mode switching processing unit 26 determines that the condition for performing the voice recognition process in the special mode has not occurred, the process proceeds to step S17.
  • step S17 the speech recognition mode switching processing unit 26 supplies the speech information of the utterance section supplied from the input sound processing unit 22 to the normal mode speech recognition unit 27, and the normal mode speech recognition unit 27 performs normal mode speech. Perform recognition processing.
  • step S18 for example, every time a word is recognized from the voice information, the normal mode voice recognition unit 27 supplies the word to the voice recognition result output processing unit 29 as a voice recognition result.
  • the speech recognition result output processing unit 29 generates speech recognition result information for outputting a user interface that allows the user of the client terminal 13 to recognize that the speech recognition result is acquired by the speech recognition processing in the normal mode, and performs communication.
  • the client terminal 13 displays the user interface as described above with reference to FIG.
  • step S19 the voice recognition mode switching processing unit 26 determines whether or not to end the voice recognition process in the normal mode. For example, the voice recognition mode switching processing unit 26 constantly monitors whether or not a condition for performing the special mode voice recognition process has occurred as in step S16, and the condition for performing the special mode voice recognition process has occurred. In some cases, it is determined that the voice recognition process in the normal mode is finished. In addition, for example, the voice recognition mode switching processing unit 26 determines that the voice recognition process in the normal mode is to be ended even when the supply of the voice information of the utterance section from the input sound processing unit 22 is stopped.
  • step S19 when the speech recognition mode switching processing unit 26 determines not to end the speech recognition processing in the normal mode, the processing returns to step S17, and thereafter the same processing is repeated. On the other hand, when the speech recognition mode switching processing unit 26 determines in step S19 that the speech recognition processing in the normal mode is to end, the processing proceeds to step S20.
  • step S ⁇ b> 20 the normal mode voice recognition unit 27 supplies the voice recognition result output process unit 29 with the voice recognition results from when the normal mode voice recognition process is started to when it is ended.
  • the voice recognition result output processing unit 29 generates voice recognition result information for outputting a user interface for presenting the voice recognition result to the user, and supplies the voice recognition result information to the communication unit 21.
  • the client terminal 13 displays a user interface indicating the voice recognition result recognized by the voice recognition processing in the normal mode at this time.
  • step S16 determines in step S16 that a condition for performing the voice recognition process in the special mode has occurred, the process proceeds to step S21.
  • step S21 the speech recognition mode switching processing unit 26 supplies the speech information of the utterance section supplied from the input sound processing unit 22 to the special mode speech recognition unit 28, and the special mode speech recognition unit 28 Perform recognition processing.
  • step S22 the special mode speech recognition unit 28 refers to the character string number conversion table as shown in FIG. 3 and determines whether the speech recognition result is a number.
  • step S22 when the special mode speech recognition unit 28 determines that the speech recognition result is a number, the process proceeds to step S23, and the special mode speech recognition unit 28 converts the speech recognition result into a number.
  • step S22 determines in step S22 that the speech recognition result is not a number
  • the process proceeds to step S24, and the special mode speech recognition unit 28 changes the speech recognition result to a special character.
  • step S23 or S24 the processing proceeds to step S25, and the special mode speech recognition unit 28, for example, every time a number or special character is recognized from the speech information, the speech recognition result is output to the speech recognition result output processing unit 29.
  • the speech recognition result output processing unit 29 generates speech recognition result information for outputting a user interface that allows the user of the client terminal 13 to recognize that the speech recognition result is acquired by the speech recognition processing in the special mode, and performs communication.
  • the unit 21 As a result, on the client terminal 13, the user interface as described above with reference to FIGS. 8 and 11 is displayed.
  • step S26 the voice recognition mode switching processing unit 26 determines whether or not to end the voice recognition process in the special mode. For example, the voice recognition mode switching processing unit 26 always monitors whether or not the condition for performing the special mode voice recognition process generated in step S16 continues, and the condition for performing the special mode voice recognition process continues. When it stops, it determines with complete
  • step S26 when the voice recognition mode switching processing unit 26 determines not to end the voice recognition process in the special mode, the process returns to step S21, and the same process is repeated thereafter. On the other hand, when the speech recognition mode switching processing unit 26 determines in step S26 that the special mode speech recognition processing is to be terminated, the processing proceeds to step S27.
  • step S27 the special mode speech recognition unit 28 supplies the speech recognition result output processing unit 29 with the speech recognition results from the start to the end of the special mode speech recognition processing.
  • the voice recognition result output processing unit 29 generates voice recognition result information for outputting a user interface for presenting the voice recognition result to the user, and supplies the voice recognition result information to the communication unit 21.
  • the client terminal 13 displays a user interface indicating the voice recognition result recognized by the voice recognition processing in the special mode at this time.
  • step S20 or S27 the process proceeds to step S28, and the input sound processing unit 22 determines whether or not the utterance by the user of the client terminal 13 is finished. If the input sound processing unit 22 determines in step S28 that the utterance has not ended, the process returns to step S13, and the same process is repeated thereafter.
  • step S28 the voice recognition processing is ended.
  • the speech recognition server 14 can switch between the normal mode speech recognition processing and the special mode speech recognition processing based on the speech feature detection result, the specific silence period, and the noise detection result. Thereby, the speech recognition server 14 can perform appropriate speech recognition processing when special characters are included in the middle of a normal conversation, and can provide better speech input.
  • the voice recognition system 11 can handle voice recognition processing for Japanese.
  • the special mode speech recognition unit 28 performs the capital letter conversion mode.
  • the special mode speech recognition unit 28 can perform a conversion mode for converting into hiragana or katakana.
  • the voice recognition mode switching processing unit 26 determines that the user is seeking voice recognition for each character, and the special mode voice recognition is performed.
  • the unit 28 performs a single character mode speech recognition process.
  • the special mode voice recognition unit 28 performs voice recognition processing in the hiragana mode.
  • the mark “1 character” indicating the speech recognition processing in the one-character mode and the speech recognition processing in the hiragana mode in the speech recognition processing in the special mode.
  • the mark “Kana” is displayed.
  • the special mode voice recognition unit 28 performs voice recognition processing in the katakana mode.
  • the mark “1 character” indicating the one-character mode voice recognition process and the voice recognition process in the katakana mode
  • the mark “Kana” is displayed.
  • the speech recognition system 11 can perform speech recognition processing in a special mode suitable for each language.
  • FIG. 15 shows an example of an API (Application Programming Interface) that realizes voice recognition processing by the voice recognition system 11.
  • API Application Programming Interface
  • start () instructing the start of the voice recognition processing is transmitted from the client terminal 13 to the voice recognition server 14.
  • client transmission data (send Client Data (Data)) is sequentially transmitted from the client terminal 13 to the voice recognition server 14.
  • client transmission data for example, the audio information “Let's start this battle”, the audio information “BTX”, and the audio information “505” as described above are stored as data.
  • server transmission data (send Server Data (result Data)) is sequentially transmitted from the voice recognition server 14 to the client terminal 13.
  • server transmission data for example, the speech recognition result “Let's start this battle”, the speech recognition result “BTX”, and the speech recognition result “505” as described above are stored as data.
  • Each speech recognition result includes a data number (result_data_num), text (result_text), and mode information (recognition_mode).
  • Such data transmission / reception is performed between the client terminal 13 and the voice recognition server 14. Thereafter, when it is detected at the client terminal 13 that the user has finished speaking, a stop command (stop ()) for instructing the end of the voice recognition processing is transmitted from the client terminal 13 to the voice recognition server 14.
  • the voice recognition processing by the voice recognition system 11 can be realized by the API as described above.
  • a display example of the speech recognition result on the client terminal 13 will be described with reference to FIGS.
  • the client terminal 13 can employ voice recognition in a chat application, for example.
  • the comment “Let's'start this battle BTX505” with the user name “VVX99” is returned to the comment “Are you ready?” With the user name “PSZ09”, and the comment “Yeeeeees” with the user name “BTX505” is returned.
  • An example in which is performed is shown.
  • the client terminal 13 holds a friend list in which user names for chatting are registered.
  • the friend list of the user name “VVX99” includes the user name “PSZ09” and the user name “BTX505”. Is registered. Therefore, when the user name registered in the friend list is obtained as a voice recognition result, the client terminal 13 can highlight the user name.
  • the user name “BTX505” in the comment “Let's start this battle BTX505” with the user name “VVX99” is decorated in bold.
  • FIG. 17 shows an example in which the user name “BTX505” is highlighted in the display field 52 by highlighting.
  • the user can easily recognize that the voice recognition result is the user name.
  • highlighting of the user name may be specified by the voice recognition result output processing unit 29 using the voice recognition result information and executed by the client terminal 13, for example.
  • the client terminal 13 abbreviates the voice recognition result by highlighting the voice recognition result obtained by performing the special mode voice recognition processing by the special mode voice recognition unit 28. It is possible to assist the user in recognizing that it is a special character such as a character or a number. In this way, the user can recognize the special character at a glance, thereby facilitating communication or concentrating on the original work.
  • the client terminal 13 can emphasize the voice recognition result by various methods such as changing the character color, changing the size, or highlighting the client terminal 13.
  • the speech recognition result by the normal mode speech recognition processing is output at a normal volume
  • the speech recognition result by the special mode speech recognition processing is , Can be output at a louder volume than usual. Or you may change the sound quality at the time of outputting the speech recognition result by the speech recognition process of special mode. This makes it possible for the user to easily recognize special characters and the like.
  • the voice recognition result output processing unit 29 generates voice recognition result information for changing the expression of the user interface between the voice recognition result by the voice recognition process in the normal mode and the voice recognition result by the voice recognition process in the special mode. Can be generated.
  • the voice recognition mode switching processing unit 26 repeats the voice recognition process in the normal mode a plurality of times, and if the same voice information is supplied, that is, if the user repeats the same utterance, It may be determined that the result is wrong and the voice recognition process in the special mode may be performed. Further, when information indicating that the user has performed an operation of deleting all voice inputs for the same voice recognition result is supplied, it can be determined that the voice recognition result is wrong. Therefore, in this case, for example, even if the voice recognition process in the normal mode is performed three times, the voice recognition mode switching processing unit 26 determines that the voice information to be supplied next is deleted when the voice input is completely deleted. On the other hand, special mode voice recognition processing can be performed.
  • the voice recognition mode switching processing unit 26 can determine the selection of the voice recognition process in the special mode according to the attribute of the text field that is the target of voice input. For example, since the text field for inputting a zip code has an attribute for inputting only numbers, the speech recognition mode switching processing unit 26 can determine to perform the number conversion mode in the speech recognition processing in the special mode. .
  • the special mode speech recognition unit 28 selects one of the speech recognition results “BTX” and the speech recognition results “505” for the user name “BTX505” as described above when the reliability of one speech recognition result is low. Only one speech recognition result can be displayed. That is, for such a user name, the user is more comfortable when only a part of the correct voice recognition result is displayed than when the voice recognition result is partially incorrect. Can be recognized.
  • the voice recognition mode switching processing unit 26 switches the mode to the voice recognition processing in the special mode according to the operation. Can do.
  • voice recognition system 11 instead of connecting only one voice recognition server 14, for example, a plurality of voice recognition servers 14 are connected, and each voice recognition server is simultaneously connected to the same voice information. 14 can perform voice recognition processing. In this case, it is possible to provide a user interface in which a plurality of voice recognition results are presented with reliability and can be selected by the user.
  • the processes described with reference to the flowcharts described above do not necessarily have to be processed in chronological order in the order described in the flowcharts, but are performed in parallel or individually (for example, parallel processes or objects). Processing).
  • the program may be processed by one CPU (Central Processing Unit) or may be distributedly processed by a plurality of CPUs.
  • CPU Central Processing Unit
  • the above-described series of processing can be executed by hardware or can be executed by software.
  • a program constituting the software executes various functions by installing a computer incorporated in dedicated hardware or various programs.
  • the program is installed in a general-purpose personal computer from a program recording medium on which the program is recorded.
  • FIG. 18 is a block diagram showing an example of the hardware configuration of a computer that executes the above-described series of processing by a program.
  • the computer 101 shown in FIG. 18 corresponds to the client terminal 13 of FIG. 1 and shows a configuration example in which processing can be performed by the client terminal 13 alone without performing processing via the network 12. ing.
  • the computer 101 includes an audio information acquisition device 102, a video output device 103, an audio output device 104, a CPU 105, a memory 106, a storage device 107, and a network input / output device 108. Further, similarly to the voice recognition server 14 shown in FIG. 2, the computer 101 includes a communication unit 21, an input sound processing unit 22, an utterance feature detection unit 23, a specific silent period detection unit 24, a noise detection unit 25, a voice recognition mode. A switching processing unit 26, a normal mode speech recognition unit 27, a special mode speech recognition unit 28, and a speech recognition result output processing unit 29 are provided.
  • the audio information acquisition device 102 is constituted by a microphone
  • the video output device 103 is constituted by a display
  • the audio output device 104 is constituted by a speaker.
  • the network input / output device 108 corresponds to the communication unit 21 in FIG. 2 and can perform communication in accordance with, for example, a LAN (Local Area Network) standard.
  • the CPU 105 reads out the program stored in the storage device 107 to the memory 106 and executes it, whereby the above-described series of processing is performed.
  • the program executed by the CPU 105 is, for example, a magnetic disk (including a flexible disk), an optical disk (CD-ROM (Compact-Disc-Read-Only Memory), DVD (Digital Versatile-Disc), etc.), a magneto-optical disk, or a semiconductor memory. It can be provided by being recorded on a package medium composed of the above, or can be provided via a wired or wireless transmission medium using the network input / output device 108.
  • this technique can also take the following structures.
  • An utterance feature detection unit that acquires voice information obtained by a user's utterance and detects a utterance feature from the voice information;
  • a specific silence period detection unit that detects a specific silence period that is a specific short silence period that is not determined to be a silence period in the process of detecting an utterance period in which voice is included in the voice information; Performed on the voice information based on the features of the utterance detected from the voice information by the utterance feature detection unit and the specific silence period detected from the voice information by the specific silence period detection unit
  • An information processing apparatus comprising: an output processing unit that outputs voice recognition result information indicating a voice recognition process obtained from the voice recognition result together with the voice recognition result recognized by the voice recognition process selected by the selection unit.
  • the selection unit is one of a normal mode voice recognition process for recognizing a normal character string and a special mode voice recognition process for recognizing a special character string as a voice recognition process performed on the voice information.
  • (3) The selection unit determines that a specific feature is detected from the voice information by the utterance feature detection unit, and the specific silence period detection unit repeatedly detects the specific silence period from the voice information at a predetermined interval.
  • the information processing apparatus according to (2) wherein when the determination is made, the voice recognition process in the special mode is selected.
  • the utterance feature detection unit detects a volume level of voice based on the voice information as a feature of the utterance, The information processing unit according to (3), wherein the selection unit determines that the specific feature is detected from the audio information when a volume level of the audio exceeds a predetermined volume level set in advance. apparatus.
  • the utterance feature detection unit detects a voice input speed based on the voice information as a feature of the utterance, The selection unit determines that the specific feature is detected from the voice information when a change occurs in which the input speed of the voice detected by the utterance feature detection unit becomes relatively slow.
  • the information processing apparatus according to (4).
  • the utterance feature detection unit detects the frequency of the voice based on the voice information as the feature of the utterance, The selection unit determines that the specific feature is detected from the voice information when a change occurs in which the frequency of the voice detected by the speech feature detection unit is relatively high.
  • the information processing apparatus according to any one of 5).
  • a communication unit that communicates with other devices via a network;
  • An input sound processing unit that performs processing for detecting an utterance section in which sound is included in the sound information,
  • the communication unit is Obtaining the audio information transmitted from the other device via the network and supplying it to the input sound processing unit;
  • the information processing apparatus according to any one of (1) to (11), wherein the voice recognition result information output from the output processing unit is transmitted to the other apparatus via the network.
  • An information processing method including a step of outputting voice recognition result information indicating a voice recognition process obtained from the voice recognition result together with the voice recognition result recognized by the selected voice recognition process.
  • a program for causing a computer to execute information processing including a step of outputting voice recognition result information indicating a voice recognition process obtained from the voice recognition result together with the voice recognition result recognized by the selected voice recognition process.
  • 11 speech recognition system 12 network, 13 client terminal, 14 speech recognition server, 21 communication unit, 22 input sound processing unit, 23 utterance feature detection unit, 24 specific silence period detection unit, 25 noise detection unit, 26 speech recognition mode switching Processing unit, 27 normal mode speech recognition unit, 28 special mode speech recognition unit, 29 speech recognition result output processing unit, 51 icon, 52 display field, 101 computer, 102 speech information acquisition device, 103 video output device, 104 speech output device , 105 CPU, 106 memory, 107 storage device, 108 network input / output device

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

本発明は、より良好な音声入力を行うことができるようにする情報処理装置および情報処理方法、並びにプログラムに関する。 音声情報から検出される発話の特徴および特定無音期間に基づいて、通常モードの音声認識処理および特殊モードの音声認識処理のいずれかが選択され、その選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報が出力される。本技術は、例えば、ネットワークを介して音声認識処理を提供する音声認識システムに適用できる。

Description

情報処理装置および情報処理方法、並びにプログラム
 本発明は、情報処理装置および情報処理方法、並びにプログラムに関し、特に、より良好な音声入力を行うことができるようにした情報処理装置および情報処理方法、並びにプログラムに関する。
 近年、音声入力を利用したユーザインタフェースの活用が広まっており、より良好な音声入力を可能とするような音声認識処理を実現することが重要となっている。
 一般的に、音声認識処理では、音声情報に対して特徴量を抽出する処理が行われ、例えば、MFCC(Mel-Frequency Cepstrum Coefficients)などの特徴量が抽出される。そして、音声情報から抽出された特徴量に基づいて、音声認識エンジンが、音響モデルや、認識辞書、言語モデルを参照して音声認識処理を行って、音声から認識された文字列が出力される。
 例えば、特許文献1には、不特定多数のユーザを対象とする音声認識において、ユーザの類別に基づいて、音声認識に使用する音響モデルを選択する音声認識システムが開示されている。
特開2000-347684号公報
 ところで、ゲームチャットやライブ配信プラットフォームなどにおいてメッセージを入力する用途では、通常の語句による文章だけでなく、ID(Identification)や、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊な文字列が入力されることがある。このような特殊な文字列に対して、音声認識処理を正確に行うことは困難であり、良好な音声入力を行うことが難しかった。
 本発明は、このような状況に鑑みてなされたものであり、より良好な音声入力を行うことができるようにするものである。
 本開示の一側面の情報処理装置は、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部とを備える。
 本開示の一側面の情報処理方法またはプログラムは、ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力するステップを含む。
 本開示の一側面においては、ユーザの発話により得られる音声情報を取得して、声情報から発話の特徴が検出され、音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間が検出される。そして、音声情報から検出された発話の特徴、および、音声情報から検出された特定無音期間に基づいて、音声情報に対して行われる音声認識処理が選択され、その音声認識処理で認識された音声認識結果とともに、その音声認識処理が行われたことを示す音声認識結果情報が出力される。
 本開示の一側面によれば、より良好な音声入力を行うことができる。
本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。 音声認識サーバの構成例を示すブロック図である。 文字列数字変換テーブルの一例を示す図である。 音声認識処理の基本的なユーザインタフェースの一例を示す図である。 音量レベルの比較について説明する図である。 通常モードの音声認識処理におけるユーザインタフェースの一例を示す図である。 音量レベルの比較および特定無音期間の検出について説明する図である。 1文字モードおよび大文字変換モードにおけるユーザインタフェースの一例を示す図である。 音声認識結果の一例を示す図である。 音量レベルの比較および特定無音期間の検出について説明する図である。 1文字モードおよび数字変換モードにおけるユーザインタフェースの一例を示す図である。 音声認識結果の一例を示す図である。 音声認識処理を説明するフローチャートである。 日本語に対する音声認識処理におけるユーザインタフェースの一例を示す図である。 音声認識処理を実現するAPIの一例を示す図である。 音声認識結果を強調表示する一例を示す図である。 音声認識結果を強調表示する他の例を示す図である。 本技術を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
 以下、本技術を適用した具体的な実施の形態について、図面を参照しながら詳細に説明する。
 <音声認識システムの構成例>
 図1は、本技術を適用した音声認識システムの一実施の形態の構成例を示すブロック図である。
 図1に示すように、音声認識システム11は、インターネットなどのネットワーク12を介して、複数台(図1の例ではN台)のクライアント端末13-1乃至13-Nおよび音声認識サーバ14が接続されて構成される。なお、クライアント端末13-1乃至13-Nは、それぞれ同様に構成されており、互いに区別する必要がない場合、以下適宜、クライアント端末13と称する。
 クライアント端末13は、ユーザにより発話された音声を入力し、音声情報を取得するためのマイクロホンなどの音声情報取得装置を備えており、音声情報取得装置が取得した音声情報を、ネットワーク12を介して音声認識サーバ14に送信する。また、クライアント端末13は、音声認識サーバ14から送信されてくる音声認識結果を受信して、ユーザに提示する。例えば、クライアント端末13は、音声認識結果を表すユーザインタフェースを映像出力装置に表示したり、音声認識結果を表す合成音声を音声出力装置から出力したりする。
 音声認識サーバ14は、ネットワーク12を介してクライアント端末13から送信されてくる音声情報に対する音声認識処理を行う。そして、音声認識サーバ14は、音声情報から認識された単語列などを音声認識結果として、ネットワーク12を介してクライアント端末13に送信する。このとき、音声認識サーバ14は、音声情報を送信してきたクライアント端末13だけでなく、例えば、そのクライアント端末13のユーザがコミュニケーションを行っている他のユーザのクライアント端末13にも、音声認識結果を送信することができる。
 このように音声認識システム11は構成されており、クライアント端末13のユーザの発話により得られる音声情報が音声認識サーバ14に送信され、音声認識サーバ14において音声認識処理が行われ、クライアント端末13に音声認識結果が送信される。従って、音声認識システム11は、例えば、より高性能で最新の音声認識処理を音声認識サーバ14に実装することで、個々のクライアント端末13の処理能力が低くても、より良好な音声入力を可能とする音声認識処理を提供することができる。
 <音声認識サーバの第1の構成例>
 図2は、音声認識サーバ14の第1の構成例を示すブロック図である。
 図2に示すように、音声認識サーバ14は、通信部21、入力音処理部22、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、音声認識モード切り替え処理部26、通常モード音声認識部27、特殊モード音声認識部28、および音声認識結果出力処理部29を備えて構成される。
 通信部21は、図1のネットワーク12を介して、クライアント端末13と各種の通信を行う。例えば、通信部21は、クライアント端末13から送信されてくる音声情報を受信して、入力音処理部22に供給する。また、通信部21は、音声認識結果出力処理部27から供給される音声認識結果情報を、クライアント端末13に送信する。
 入力音処理部22は、通信部21から供給される音声情報に対して、通常モード音声認識部27および特殊モード音声認識部28において音声認識を行う前に必要な各種の前処理を行う。例えば、入力音処理部22は、音声情報において無音となっている区間や雑音だけの区間を排除し、発話された音声が含まれている発話区間を音声情報から検出するVAD(Voice Activity Detection)処理を行って、発話区間の音声情報を取得する。そして、入力音処理部22は、発話区間の音声情報を、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、および音声認識モード切り替え処理部26に供給する。
 発話特徴検出部23は、入力音処理部22から供給される発話区間の音声情報から、ユーザの発話の特徴を検出して、その検出した発話の特徴を示す発話特徴検出結果を音声認識モード切り替え処理部26に供給する。
 例えば、発話特徴検出部23は、発話の特徴として、音声情報に基づく音声の音量レベルを検出し、音声情報に基づく音声の音量レベルと、予め設定されている通常時の音量レベルとの比較結果を発話特徴検出結果とする。また、発話特徴検出部23は、例えば、発話の特徴として、音声情報に基づく音声の入力速度を検出し、それまでの音声の入力速度と相対的に比較した比較結果(それまでより速くなった/遅くなった)を発話特徴検出結果とする。また、発話特徴検出部23は、例えば、発話の特徴として、音声情報に基づく音声の周波数を検出し、それまでの音声の周波数と相対的に比較した比較結果(それまでより高くなった/低くなった)を発話特徴検出結果とする。
 特定無音期間検出部24は、入力音処理部22から供給される発話区間の音声情報から、入力音処理部22が音声情報から発話区間を検出するVAD処理においては無音期間と判定されないような非常に短い無音期間を、特定無音期間として検出する。例えば、特定無音期間は、アルファベットを1文字ずつ発話する際の各アルファベットの発話の区切りで発生する短時間の無音期間であり、いわゆる間(ま)と称されるものである。そして、特定無音期間検出部24は、発話区間の音声情報から特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
 雑音検出部25は、入力音処理部22から供給される発話区間の音声情報に含まれている雑音の音量レベルを検出し、その検出した雑音の音量レベルを音声認識モード切り替え処理部26に供給する。
 音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、特定無音期間検出部24から供給される特定無音期間検出結果、および、雑音検出部25から供給される雑音の音量レベルに基づいて、音声認識処理を切り替える処理を行う。
 例えば、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも低い場合には、通常モードの音声認識処理を選択する。一方、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高く、かつ、特定無音期間検出結果に基づいて、特定無音期間が所定の間隔で繰り返して検出されている場合、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。
 また、音声認識モード切り替え処理部26は、発話特徴検出結果に基づいて、音声情報に基づく音声の入力速度が相対的に遅い場合、および、音声情報に基づく音声の周波数が相対的に高い場合にも、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも高い場合と同様に、特殊モードの音声認識処理を行う条件が発生したとして、特殊モードの音声認識処理を選択する。
 ここで、例えば、ユーザが、通常よりも大きな音量で、間が空いたうえで短い発話と間とを繰り返すような発話をする場合、IDを入力するような1文字ずつの音声の入力が行われていると考えることができる。従って、この場合、音声認識モード切り替え処理部26は、そのような1文字ずつの音声認識を行う特殊モードの音声認識処理を選択することが好ましい。
 さらに、音声認識モード切り替え処理部26は、雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、特殊モードの音声認識処理の選択を回避する。即ち、雑音が大きい場合には、特殊モードの音声認識処理の認識精度が低下することが考えられるため、特殊モードの音声認識処理を選択しないことが好ましい。
 そして、音声認識モード切り替え処理部26は、通常モードの音声認識処理を選択した場合には、入力音処理部22から供給される発話区間の音声情報を通常モード音声認識部27に供給する。一方、音声認識モード切り替え処理部26は、特殊モードの音声認識処理を選択した場合には、入力音処理部22から供給される発話区間の音声情報を特殊モード音声認識部28に供給する。
 通常モード音声認識部27は、例えば、従来と同様に、一般的な認識辞書を参照して、音声認識モード切り替え処理部26から供給される音声情報に対する音声認識処理を行う。そして、通常モード音声認識部27は、例えば、音声情報から認識された文字列を、音声認識結果として音声認識結果出力処理部29に供給する。
 特殊モード音声認識部28は、音声認識モード切り替え処理部26から供給される音声情報から、IDや、省略語、固有名詞、ネットスラングなどのような特殊な文字列(以下適宜、特殊文字と称する)を認識する特殊モードの音声認識処理を行う。特殊モードの音声認識処理には、例えば、1文字ごとの音声認識を行う1文字モードや、音声認識結果をアルファベットの大文字に変換する大文字変換モード、音声認識結果の単語を数字に変換する数字変換モードなどがある。
 例えば、特殊モード音声認識部28は、特定無音期間が所定の間隔で繰り返して検出されている場合、IDを入力するような1文字ずつの音声の入力が行われているとして、1文字モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部28は、1文字モードのときに、音声情報に基づく音声の音量レベルが通常時の音量レベルを超えている場合、認識した1文字をアルファベットの大文字に変換する大文字変換モードで特殊モードの音声認識処理を行う。また、特殊モード音声認識部28は、図3に示すような文字列数字変換テーブルを参照し、音声認識により認識した単語が文字列数字変換テーブルに登録されている場合、認識した単語を数字に変換する数字変換モードで特殊モードの音声認識処理を行う。
 音声認識結果出力処理部29は、通常モード音声認識部27または特殊モード音声認識部28から供給される音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を生成して、通信部21に供給する。例えば、音声認識結果出力処理部29は、クライアント端末13のユーザに、音声認識結果および音声認識処理を認識させるためのユーザインタフェースを表示させる表示情報や、音声認識結果および音声認識処理を認識させるための合成音声を出力させるための合成音声情報などを音声認識結果情報として生成する。
 このように音声認識サーバ14は構成されており、クライアント端末13からネットワーク12を介して送信されてくる音声情報に対して、通常モードの音声認識処理または特殊モードの音声認識処理を切り替えて、いずれかの音声認識処理を行うことができる。そして、音声認識サーバ14は、音声認識処理を行って得られる音声認識結果情報を、ネットワーク12を介してクライアント端末13に送信し、音声認識結果とともに、その音声認識結果が得られた音声認識処理をユーザに提示することができる。
 従って、音声認識サーバ14は、例えば、一般的な認識辞書を参照しただけでは認識できないような特殊文字を、特殊モードの音声認識処理によって認識することができ、より良好な音声入力を提供することができる。
 例えば、従来、IDや、省略語、固有名詞、ネットスラングなどのような認識辞書には掲載されていない特殊文字に対する音声認識を行うことは、音声認識の技術的な特性(語句が登録された認識辞書を使って認識するという特性)より困難であった。また、このような特殊文字は、利用シーンなどによって表現方法が変更されることも多く、全ての特殊文字を認識辞書に登録することは現実的ではない。
 具体的には、英語の語句「laughing out loud」に対して省略語「lol」が用いられることがあるが、省略語「lol」の発音としては、「エル・オー・エル」と一文字ずつ読むこともあれば、「ロゥル」と一つの単語として発音することもある。さらに、省略語「lol」のバリエーション(表記ゆれ)として、「LOLOLOLOL」や「lolz」「lul」などニュアンスの違いなどで表記が変わることがある。この例以外にも、同様な省略語が用いられることがあり、それらの全てを辞書に反映させることは非常に困難である。さらに、IDや、省略語、固有名詞、ネットスラングなどは、日々増えていくので辞書の反映にはコストが高過ぎると考えられる。または、ソーシャルネットワークの特定のグループの仲間だけで使用される言葉などは、通常、認識辞書に反映されることはない。
 これに対し、音声認識サーバ14は、上述したような特殊モードの音声認識処理を行う条件が発生したときには、特殊モード音声認識部28により特殊モードの音声認識処理が行われるので、従来よりも、特殊文字に対する音声認識を正確に行うことができる。これにより、音声認識サーバ14は、通常の会話と、特殊文字の発話とが混在したような場合でも、適切に音声認識処理を選択することで、より良好な音声入力を提供することができる。
 <音声認識システムの音声認識処理>
 図4乃至図12を参照して、音声認識システム11により提供される音声認識処理について説明する。
 ここで、図4乃至図12では、クライアント端末13のユーザが発話した「Let’s start this battle BTX505」という音声情報に対して、音声認識サーバ14において実行される音声認識処理について説明する。
 例えば、クライアント端末13の映像出力装置の画面には、ユーザの発話状態を表すアイコン51が表示されており、ユーザの発話が検出されていないときには、図4の上段に示すように、アイコン51内のマイクロホンが薄く(図4の例では破線で)表示される。そして、クライアント端末13の音声情報取得装置がユーザの発話を検出すると、図4の下段に示すように、アイコン51内のマイクロホンの表示が濃く変更されるとともに、アイコン51の下方に、ユーザの発話から認識された文字を表示するための表示フィールド52が表示される。
 図5には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」までが音声認識サーバ14に供給された状態が示されている。まず、音声認識サーバ14の発話特徴検出部23は、音声情報「Let's start this battle」から発話特徴を検出する処理として、音量レベルの比較を行う。図5の例では、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であり、発話特徴検出部23は、音量レベルは通常時音量レベル以下であることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
 そして、音声認識モード切り替え処理部26は、音声情報「Let's start this battle」の音量レベルは通常時音量レベル以下であるという発話特徴検出結果に従って、音声情報「Let's start this battle」に対する音声認識を通常モードで行うと判定する。これに基づき、音声認識モード切り替え処理部26は、音声情報「Let's start this battle」を通常モード音声認識部27に供給し、通常モード音声認識部27による通常モードの音声認識処理が行われる。
 例えば、通常モード音声認識部27は、通常モードの音声認識処理を行った音声認識結果として、「Let's start this battle」という文字列を音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、音声認識結果「Let's start this battle」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
 その結果、クライアント端末13では、通常モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。例えば、図6に示すように、通常モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺に湧き出すような動的な表示を行うユーザインタフェースが表示される。また、表示フィールド52には、通常モードの音声認識処理による認識途中の単語が順次表示される。即ち、図6の上側に示すように、表示フィールド52には、認識途中の音声認識結果「Let's start…」が表示される。そして、音声情報「Let's start this battle」に対する全ての音声認識が終了したとき、図6の下側に示すように、表示フィールド52には、音声認識結果「Let's start this battle」が表示される。
 次に、図7には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle」に続いて音声情報「BTX」までが音声認識サーバ14に供給された状態が示されている。なお、音声情報「BTX」に対して、通常モードの音声認識処理が行われた場合、図示するように「bee tee ecs」という音声認識結果が得られてしまう。
 まず、発話特徴検出部23は、音声情報「BTX」から発話特徴を検出する処理として、音量レベルの比較を行う。図7の例では、音声情報「BTX」の音量レベルは通常時音量レベルを超えており、発話特徴検出部23は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
 また、特定無音期間検出部24は、音声情報「BTX」から特定無音期間を検出する処理を行う。図7の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部24は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
 そして、音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、および、特定無音期間検出部24から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図7に示す例では、音声認識モード切り替え処理部26は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。
 従って、音声認識モード切り替え処理部26は、音声情報「BTX」を特殊モード音声認識部28に供給し、特殊モード音声認識部28による特殊モードの音声認識処理が行われる。
 例えば、特殊モード音声認識部28は、特殊モード(1文字モードおよび大文字変換モード)の音声認識処理を行った音声認識結果として、「BTX」という大文字のアルファベットを音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、大文字のアルファベットの音声認識結果「BTX」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
 その結果、クライアント端末13では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図8に示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1 character」および大文字変換モードの音声認識処理を示すマーク「Uppercase」が表示される。そして、1文字モードおよび大文字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺を移動しながら小文字から大文字に変換される動的な表示を行うユーザインタフェースが表示される。
 図8には、小文字「b」から大文字「B」に変換されるユーザインタフェースの例が示されているが、これに続く大文字「T」および大文字「X」についても同様に処理が繰り返して行われる。そして、音声情報「BTX」に対する全ての音声認識が終了したとき、図9に示すように、表示フィールド52には、音声認識結果「Let's start this battle BTX」が表示される。
 次に、図10には、音声情報「Let’s start this battle BTX505」のうち、音声情報「Let's start this battle BTX」に続いて音声情報「505」が音声認識サーバ14に供給された状態が示されている。なお、音声情報「505」に対して、通常モードの音声認識処理が行われた場合、図示するように「five zero five」という音声認識結果が得られてしまう。
 まず、発話特徴検出部23は、音声情報「505」から発話特徴を検出する処理として、音量レベルの比較を行う。図10の例では、音声情報「505」の音量レベルは通常時音量レベルを超えており、発話特徴検出部23は、音量レベルは通常時音量レベルを超えていることを示す発話特徴検出結果を、音声認識モード切り替え処理部26に供給する。
 また、特定無音期間検出部24は、音声情報「505」から特定無音期間を検出する処理を行う。図10の例では、白抜きの矢印で示されている期間が、特定無音期間として検出されており、特定無音期間検出部24は、特定無音期間を検出したタイミングおよび間隔を示す特定無音期間検出結果を、音声認識モード切り替え処理部26に供給する。
 そして、音声認識モード切り替え処理部26は、発話特徴検出部23から供給される発話特徴検出結果、および、特定無音期間検出部24から供給される特定無音期間検出結果に基づいて、特殊モードの音声認識処理を行うか否かを判定する。図10に示す例では、音声認識モード切り替え処理部26は、音量レベルは通常時音量レベルを超えているとともに、所定のタイミングおよび間隔で特定無音期間が検出されていることに基づいて、特殊モードの音声認識処理を行うと判定する。
 従って、音声認識モード切り替え処理部26は、音声情報「BTX」を特殊モード音声認識部28に供給し、特殊モード音声認識部28による特殊モードの音声認識処理が行われる。
 例えば、特殊モード音声認識部28は、特殊モード(1文字モードおよび数字変換モード)の音声認識処理を行った音声認識結果として、「505」という数字を音声認識結果出力処理部29に供給する。従って、音声認識結果出力処理部29は、数字の音声認識結果「505」が得られたことを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。
 その結果、クライアント端末13では、特殊モードの音声認識処理により得られた音声認識結果に基づくユーザインタフェースが表示される。即ち、図11に示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1 character」および数字変換モードの音声認識処理を示すマーク「Number」が表示される。そして、1文字モードおよび数字変換モードの音声認識処理による認識途中の音声認識結果が、アイコン51のマイクロホンの周辺を移動しながら単語から数字に変換される動的な表示を行うユーザインタフェースが表示される。
 図11には、単語「five」から数字「5」に変換されるユーザインタフェースの例が示されているが、これに続く数字「0」および数字「5」についても同様に処理が繰り返して行われる。そして、音声情報「505」に対する全ての音声認識が終了したとき、図12に示すように、表示フィールド52には、音声認識結果「Let's start this battle BTX505」が表示される。
 <音声認識処理の説明>
 図13は、音声認識サーバ14において実行される音声認識処理を説明するフローチャートである。
 例えば、クライアント端末13からネットワーク12を介して送信されてくる音声情報を通信部21が受信して入力音処理部22に供給すると処理が開始される。ステップS11において、入力音処理部22は、通信部21から供給される音声情報から、クライアント端末13のユーザが発話した音声が含まれている発話区間を検出する処理を行う。
 ステップS12において、入力音処理部22は、ステップS11での処理における発話区間の検出結果に従って、クライアント端末13のユーザによる発話が始まったか否かを判定する。ステップS12において、入力音処理部22が、発話が始まっていないと判定した場合、処理はステップS11に戻り、発話が始まったと判定されるまで、処理は待機される。
 一方、ステップS12において、入力音処理部22が、クライアント端末13のユーザの発話が始まったと判定した場合、処理はステップS13に進む。このとき、入力音処理部22は、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、および音声認識モード切り替え処理部26への発話区間の音声情報の供給を開始する。
 ステップS13において、発話特徴検出部23は、入力音処理部22から供給される発話区間の音声情報から発話特徴を検出する処理を行い、発話特徴検出結果を音声認識モード切り替え処理部26に供給する。例えば、発話特徴検出結果には、音声情報の音量レベルを通常時音量レベルと比較した結果や、音声情報の音声速度が相対的に低下したことを検出した結果、音声情報の音声周波数が相対的に高くなったことを検出した結果などが含まれる。
 ステップS14において、特定無音期間検出部24は、入力音処理部22から供給される発話区間の音声情報から特定無音期間を検出する処理を行い、特定無音期間が検出された場合には、特定無音期間検出結果を音声認識モード切り替え処理部26に供給する。例えば、特定無音期間検出結果には、特定無音期間検出部24が特定無音期間を検出したタイミングおよび間隔が含まれる。
 ステップS15において、雑音検出部25は、入力音処理部22から供給される発話区間の音声情報から雑音を検出する処理を行い、所定レベル以上の雑音が検出された場合には、その旨を示す雑音検出結果を音声認識モード切り替え処理部26に供給する。
 ステップS16において、音声認識モード切り替え処理部26は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、特殊モードの音声認識処理を行う条件が発生したか否かを判定する。例えば、音声認識モード切り替え処理部26は、音声情報に基づく音声の音量レベルが通常時の音量レベルよりも大きく、所定期間(例えば、1~2秒間)に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。
 同様に、音声認識モード切り替え処理部26は、音声情報に基づく音声の入力速度が相対的に遅く、所定期間に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。また、音声認識モード切り替え処理部26は、音声情報に基づく音声の周波数が相対的に高く、所定期間に特定無音期間が2回以上検出された場合、特殊モードの音声認識処理を行う条件が発生したと判定する。例えば、ユーザは、IDなどの特殊文字を発話するとき、一般的に、通常の会話よりも大きな音声で発話したり、ゆっくりとした口調で発話したり、高い声で発話したりする傾向がある。従って、上述のような条件のとき、特殊モードの音声認識処理を選択することが好ましい。また、音声認識モード切り替え処理部26は、雑音検出結果が、所定レベル以上の雑音が検出されていることを示している場合、特殊モードの音声認識処理を選択せずに、通常モードの音声認識処理を行わせる。
 ステップS16において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を行う条件が発生していないと判定した場合、処理はステップS17に進む。
 ステップS17において、音声認識モード切り替え処理部26は、入力音処理部22から供給される発話区間の音声情報を通常モード音声認識部27に供給し、通常モード音声認識部27は、通常モードの音声認識処理を行う。
 ステップS18において、通常モード音声認識部27は、例えば、音声情報から単語を認識するたびに、その単語を音声認識結果として音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、通常モードの音声認識処理により取得された音声認識結果であることを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、図6を参照して上述したようなユーザインタフェースが表示される。
 ステップS19において、音声認識モード切り替え処理部26は、通常モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部26は、ステップS16と同様に特殊モードの音声認識処理を行う条件が発生したか否かを常に監視しており、特殊モードの音声認識処理を行う条件が発生したときには、通常モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部26は、入力音処理部22から発話区間の音声情報の供給が停止したときにも、通常モードの音声認識処理を終了すると判定する。
 ステップS19において、音声認識モード切り替え処理部26が、通常モードの音声認識処理を終了しないと判定した場合、処理はステップS17に戻り、以下、同様の処理が繰り返される。一方、ステップS19において、音声認識モード切り替え処理部26が、通常モードの音声認識処理を終了すると判定した場合、処理はステップS20に進む。
 ステップS20において、通常モード音声認識部27は、通常モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、この時点において、通常モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。
 一方、ステップS16において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を行う条件が発生したと判定した場合、処理はステップS21に進む。
 ステップS21において、音声認識モード切り替え処理部26は、入力音処理部22から供給される発話区間の音声情報を特殊モード音声認識部28に供給し、特殊モード音声認識部28は、特殊モードの音声認識処理を行う。
 ステップS22において、特殊モード音声認識部28は、図3に示したような文字列数字変換テーブルを参照し、音声認識結果は数字であるか否かを判定する。
 ステップS22において、特殊モード音声認識部28が、音声認識結果は数字であると判定した場合、処理はステップS23に進み、特殊モード音声認識部28は、音声認識結果を数字に変換する。
 一方、ステップS22において、特殊モード音声認識部28が、音声認識結果が数字でないと判定した場合、処理はステップS24に進み、特殊モード音声認識部28は、音声認識結果を特殊文字に変更する。
 ステップS23またはS24の処理後、処理はステップS25に進み、特殊モード音声認識部28は、例えば、音声情報から数字または特殊文字を認識するたびに、その音声認識結果を音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、特殊モードの音声認識処理により取得された音声認識結果であることを、クライアント端末13のユーザに認識させるユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、図8および図11を参照して上述したようなユーザインタフェースが表示される。
 ステップS26において、音声認識モード切り替え処理部26は、特殊モードの音声認識処理を終了するか否かを判定する。例えば、音声認識モード切り替え処理部26は、ステップS16で発生した特殊モードの音声認識処理を行う条件が継続しているか否かを常に監視しており、特殊モードの音声認識処理を行う条件が継続しなくなったとき、特殊モードの音声認識処理を終了すると判定する。また、例えば、音声認識モード切り替え処理部26は、入力音処理部22から発話区間の音声情報の供給が停止したときにも、特殊モードの音声認識処理を終了すると判定する。
 ステップS26において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を終了しないと判定した場合、処理はステップS21に戻り、以下、同様の処理が繰り返される。一方、ステップS26において、音声認識モード切り替え処理部26が、特殊モードの音声認識処理を終了すると判定した場合、処理はステップS27に進む。
 ステップS27において、特殊モード音声認識部28は、特殊モードの音声認識処理を開始してから終了したときまでの音声認識結果を、音声認識結果出力処理部29に供給する。音声認識結果出力処理部29は、その音声認識結果をユーザに提示するユーザインタフェースを出力させる音声認識結果情報を生成して、通信部21に供給する。これにより、クライアント端末13では、この時点において、特殊モードの音声認識処理によって認識された音声認識結果を示すユーザインタフェースが表示される。
 ステップS20またはS27の処理後、処理はステップS28に進み、入力音処理部22は、クライアント端末13のユーザによる発話が終わったか否かを判定する。ステップS28において、入力音処理部22が、発話が終わっていないと判定した場合、処理はステップS13に戻り、以下、同様の処理が繰り返して行われる。
 一方、ステップS28において、入力音処理部22が、クライアント端末13のユーザによる発話が終わったと判定した場合、音声認識処理は終了される。
 以上のように、音声認識サーバ14は、発話特徴検出結果、特定無音期間、および雑音検出結果に基づいて、通常モードの音声認識処理と特殊モードの音声認識処理とを切り替えることができる。これにより、音声認識サーバ14は、通常の会話の途中に特殊文字が含まれる場合に、それぞれ適切な音声認識処理を行うことができ、より良好な音声入力を提供することができる。
 <日本語に対する音声認識処理>
 音声認識システム11は、日本語に対する音声認識処理に対応することができる。
 上述したように、英語に対する音声認識処理では、特殊モード音声認識部28において大文字変換モードが行われる。これに対し、日本語に対する音声認識処理では、例えば、特殊モード音声認識部28において平仮名または片仮名に変換する変換モードを行うことができる。
 例えば、特定無音期間検出部24により音声情報から特定無音期間が検出された場合、音声認識モード切り替え処理部26は、ユーザが1文字ずつの音声認識を求めていると判断し、特殊モード音声認識部28は、1文字モードの音声認識処理を行う。
 このとき、発話特徴検出部23により音声情報の音量レベルは通常時音量レベル以下であることが検出されると、特殊モード音声認識部28は、平仮名モードで音声認識処理を行う。その結果、図14のAに示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1文字」および平仮名モードの音声認識処理を示すマーク「かな」が表示される。
 一方、発話特徴検出部23により音声情報の音量レベルは通常時音量レベルを超えていることが検出されると、特殊モード音声認識部28は、片仮名モードで音声認識処理を行う。その結果、図14のBに示すように、アイコン51の下側には、特殊モードの音声認識処理のうち、1文字モードの音声認識処理を示すマーク「1文字」および片仮名モードの音声認識処理を示すマーク「カナ」が表示される。
 このように、音声認識システム11は、それぞれの言語に適した特殊モードの音声認識処理を行うことができる。
 <音声認識システムのAPI>
 図15には、音声認識システム11による音声認識処理を実現するAPI(Application Programming Interface)の一例が示されている。
 まず、クライアント端末13においてユーザの発話が始まったことが検出されると、クライアント端末13から音声認識サーバ14に、音声認識処理の開始を指示するスタートコマンド(start())が送信される。
 続いて、クライアント端末13から音声認識サーバ14に、クライアント送信データ(send Client Data(Data))が順次送信される。クライアント送信データには、例えば、上述したような音声情報「Let's start this battle」、音声情報「BTX」、および音声情報「505」がデータとして格納される。
 そして、音声認識サーバ14において音声認識処理が行われた後、音声認識サーバ14からクライアント端末13に、サーバ送信データ(send Server Data(result Data))が順次送信される。サーバ送信データには、例えば、上述したような音声認識結果「Let's start this battle」、音声認識結果「BTX」、および音声認識結果「505」がデータとして格納される。また、それぞれの音声認識結果には、データ番号(result_data_num)、テキスト(result_text)、および、モード情報(recognition_mode)が含まれている。
 このようなデータの送受信が、クライアント端末13および音声認識サーバ14の間で行われる。その後、クライアント端末13においてユーザの発話が終わったことが検出されると、クライアント端末13から音声認識サーバ14に、音声認識処理の終了を指示するストップコマンド(stop())が送信される。
 以上のようなAPIにより、音声認識システム11による音声認識処理を実現することができる。
 <音声認識結果の表示例>
 図16および図17を参照して、クライアント端末13における音声認識結果の表示例について説明する。
 図16に示すように、クライアント端末13では、例えば、チャットアプリケーションにおいて音声認識を採用することができる。図16には、ユーザ名「PSZ09」によるコメント「Are you ready?」に対して、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」が返信され、ユーザ名「BTX505」によるコメント「Yeeeeees」が行われる例が示されている。
 このとき、クライアント端末13には、チャットを行うユーザ名が登録されているフレンドリストが保持されており、例えば、ユーザ名「VVX99」のフレンドリストには、ユーザ名「PSZ09」やユーザ名「BTX505」などが登録されている。そこで、クライアント端末13は、フレンドリストに登録されているユーザ名が音声認識結果として得られた場合、そのユーザ名を強調表示することができる。
 図16に示す例では、ユーザ名「VVX99」によるコメント「Let's start this battle BTX505」のうちユーザ名「BTX505」が太字で強調されるような装飾が施されている。
 同様に、図17には、表示フィールド52において、ユーザ名「BTX505」がハイライト表示により強調されている例が示されている。
 このように、クライアント端末13により、フレンドリストに登録されているユーザ名を強調表示することにより、ユーザは、音声認識結果がユーザ名であることを容易に視認することができる。なお、このようなユーザ名の強調表示は、例えば、音声認識結果出力処理部29が、音声認識結果情報により指定し、クライアント端末13に実行させてもよい。
 また、ユーザ名と同様に、クライアント端末13は、特殊モード音声認識部28による特殊モードの音声認識処理が行われて得られる音声認識結果に対して強調表示を行うことで、音声認識結果が略称や数字などの特殊文字であることをユーザに認識させる際の補助とすることができる。このように、ユーザが一目で特殊文字を認識することで、コミュニケーションを円滑に行ったり、本来の作業に集中し易くなったりする。
 その他、クライアント端末13は、例えば、文字色を変えたり、サイズを変えたり、ハイライト表示にしたりするなど、様々な方法により音声認識結果を強調することができる。なお、クライアント端末13は、合成音声により音声認識結果を出力する場合には、通常モードの音声認識処理による音声認識結果は、通常の音量で出力し、特殊モードの音声認識処理による音声認識結果は、通常よりも大きな音量で出力することができる。または、特殊モードの音声認識処理による音声認識結果を出力する際の音質を変更してもよい。これにより、特殊文字などを、ユーザに容易に認識させることができる。
 このように、音声認識結果出力処理部29は、通常モードの音声認識処理による音声認識結果と、特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更させる音声認識結果情報を生成することができる。
 なお、例えば、音声認識モード切り替え処理部26は、通常モードの音声認識処理を複数回繰り返しても、同様の音声情報が供給される場合、即ち、ユーザが同じ発話を繰り返している場合、音声認識結果が間違っているものと判断して、特殊モードの音声認識処理を行うようにしてもよい。また、ユーザが、同じ音声認識結果に対する音声入力を全削除する操作を行ったという情報が供給された場合、音声認識結果が間違っていたと判断することができる。従って、この場合、音声認識モード切り替え処理部26は、例えば、通常モードの音声認識処理を3回行っても、音声入力の全削除が繰り返して行われると、その次に供給される音声情報に対しては、特殊モードの音声認識処理を行うようにすることができる。
 また、例えば、音声認識モード切り替え処理部26は、音声入力を行う対象となるテキストフィールドの属性によって、特殊モードの音声認識処理の選択を決定することができる。例えば、郵便番号を入力するテキストフィールドでは、数字のみを入力する属性であることより、音声認識モード切り替え処理部26は、特殊モードの音声認識処理において数字変換モードを行うように決定することができる。
 ところで、特殊モード音声認識部28は、上述したようなユーザ名「BTX505」に対する音声認識結果「BTX」および音声認識結果「505」のうち、一方の音声認識結果の信頼度が低い場合、いずれか一方の音声認識結果だけを表示させることができる。即ち、このようなユーザ名に対しては、一部が間違った音声認識結果が表示されるよりも、ユーザは、正しい音声認識結果が一部だけ表示された場合の方が、滞りなくユーザ名であることを認識することができる。
 また、例えば、クライアント端末13において特殊モードの音声認識処理を指示するような操作が行われた場合、音声認識モード切り替え処理部26は、その操作に従って、特殊モードの音声認識処理にモードを切り替えることができる。
 さらに、音声認識システム11では、1台の音声認識サーバ14だけを接続するのではなく、例えば、複数台の音声認識サーバ14を接続して、同一の音声情報に対して同時にそれぞれの音声認識サーバ14で音声認識処理を行うことができる。この場合、複数の音声認識結果に対して信頼度が付けられて提示され、ユーザにより選択できるようなユーザインタフェースとすることができる。
 なお、上述のフローチャートを参照して説明した各処理は、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含むものである。また、プログラムは、1のCPU(Central Processing Unit)により処理されるものであっても良いし、複数のCPUによって分散処理されるものであっても良い。
 また、上述した一連の処理(情報処理方法)は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラムが記録されたプログラム記録媒体からインストールされる。
 図18は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。
 ここで、図18に示すコンピュータ101は、例えば、図1のクライアント端末13に対応し、ネットワーク12を介して処理を行うことなく、クライアント端末13単体で処理を行うことができる構成例が示されている。
 コンピュータ101は、音声情報取得装置102、映像出力装置103、音声出力装置104、CPU105、メモリ106、記憶装置107、ネットワーク入出力装置108を備えて構成される。さらに、コンピュータ101は、図2に示した音声認識サーバ14と同様に、通信部21、入力音処理部22、発話特徴検出部23、特定無音期間検出部24、雑音検出部25、音声認識モード切り替え処理部26、通常モード音声認識部27、特殊モード音声認識部28、および音声認識結果出力処理部29を備える。
 例えば、音声情報取得装置102はマイクロホンにより構成され、映像出力装置103はディスプレイにより構成され、音声出力装置104はスピーカにより構成される。また、ネットワーク入出力装置108は、図2の通信部21に対応し、例えば、LAN(Local Area Network)の規格に従った通信を行うことができる。
 そして、コンピュータ101では、CPU105が、記憶装置107に記憶されているプログラムをメモリ106に読み出して実行することにより、上述した一連の処理が行われる。
 なお、CPU105が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアに記録して提供したり、ネットワーク入出力装置108を利用して、有線または無線の伝送媒体を介して提供することができる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
 前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
 前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
 前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
 を備える情報処理装置。
(2)
 前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
 上記(1)に記載の情報処理装置。
(3)
 前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
 上記(2)に記載の情報処理装置。
(4)
 前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
 前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
 上記(3)に記載の情報処理装置。
(5)
 前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
 前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
 上記(3)または(4)に記載の情報処理装置。
(6)
 前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
 前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
 上記(3)から(5)までのいずれかに記載の情報処理装置。
(7)
 前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
 上記(2)から(6)までのいずれかに記載の情報処理装置。
(8)
 前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが1文字ごとに大文字に変換されて出力される
 上記(2)から(7)までのいずれかに記載の情報処理装置。
(9)
 前記特殊モードの音声認識処理では、音声認識により認識した1文字ごとに片仮名に変換されて出力される
 上記(2)から(8)までのいずれかに記載の情報処理装置。
(10)
 前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
 前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
 上記(2)から(9)までのいずれかに記載の情報処理装置。
(11)
 前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
 上記(2)から(10)までのいずれかに記載の情報処理装置。
(12)
 ネットワークを介して他の装置と通信を行う通信部と、
 前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
 をさらに備え、
 前記通信部は、
  前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
  前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
 上記(1)から(11)までのいずれかに記載の情報処理装置。
(13)
 ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
 前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
 前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
 選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
 ステップを含む情報処理方法。
(14)
 ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
 前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
 前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
 選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
 ステップを含む情報処理をコンピュータに実行させるプログラム。
 なお、本実施の形態は、上述した実施の形態に限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。
 11 音声認識システム, 12 ネットワーク, 13 クライアント端末, 14 音声認識サーバ, 21 通信部, 22 入力音処理部, 23 発話特徴検出部, 24 特定無音期間検出部, 25 雑音検出部, 26 音声認識モード切り替え処理部, 27 通常モード音声認識部, 28 特殊モード音声認識部, 29 音声認識結果出力処理部, 51 アイコン, 52 表示フィールド, 101 コンピュータ, 102 音声情報取得装置, 103 映像出力装置, 104 音声出力装置, 105 CPU, 106 メモリ, 107 記憶装置, 108 ネットワーク入出力装置

Claims (14)

  1.  ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出する発話特徴検出部と、
     前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出する特定無音期間検出部と、
     前記発話特徴検出部により前記音声情報から検出された前記発話の特徴、および、前記特定無音期間検出部により前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択する選択部と、
     前記選択部により選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する出力処理部と
     を備える情報処理装置。
  2.  前記選択部は、前記音声情報に対して行われる音声認識処理として、通常の文字列を認識する通常モードの音声認識処理、および、特殊な文字列を認識する特殊モードの音声認識処理のいずれかを選択する
     請求項1に記載の情報処理装置。
  3.  前記選択部は、前記発話特徴検出部により前記音声情報から特定の特徴が検出されたと判定し、かつ、前記特定無音期間検出部により前記音声情報から所定の間隔で前記特定無音期間が繰り返して検出されたと判定した場合、前記特殊モードの音声認識処理を選択する
     請求項2に記載の情報処理装置。
  4.  前記発話特徴検出部は、前記音声情報に基づく音声の音量レベルを前記発話の特徴として検出し、
     前記選択部は、前記音声の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記音声情報から前記特定の特徴が検出されたと判定する
     請求項3に記載の情報処理装置。
  5.  前記発話特徴検出部は、前記音声情報に基づく音声の入力速度を前記発話の特徴として検出し、
     前記選択部は、前記発話特徴検出部により検出される音声の入力速度が、相対的に遅くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
     請求項3に記載の情報処理装置。
  6.  前記発話特徴検出部は、前記音声情報に基づく音声の周波数を前記発話の特徴として検出し、
     前記選択部は、前記発話特徴検出部により検出される音声の周波数が、相対的に高くなる変化が発生した場合、前記音声情報から前記特定の特徴が検出されたと判定する
     請求項3に記載の情報処理装置。
  7.  前記特殊モードの音声認識処理では、音声認識により認識した単語が数字に変換されて出力される
     請求項2に記載の情報処理装置。
  8.  前記特殊モードの音声認識処理では、音声認識により認識したアルファベットが1文字ごとに大文字に変換されて出力される
     請求項2に記載の情報処理装置。
  9.  前記特殊モードの音声認識処理では、音声認識により認識した1文字ごとに片仮名に変換されて出力される
     請求項2に記載の情報処理装置。
  10.  前記音声情報に含まれている雑音の音量レベルを検出する雑音検出部をさらに備え、
     前記選択部は、前記雑音の音量レベルが、予め設定されている所定の音量レベルを超えている場合、前記特殊モードの音声認識処理の選択を回避する
     請求項2に記載の情報処理装置。
  11.  前記出力処理部は、前記通常モードの音声認識処理による音声認識結果と、前記特殊モードの音声認識処理による音声認識結果とで、ユーザインタフェースの表現を変更する
     請求項2に記載の情報処理装置。
  12.  ネットワークを介して他の装置と通信を行う通信部と、
     前記音声情報に音声が含まれている発話区間を検出する処理を行う入力音処理部と
     をさらに備え、
     前記通信部は、
      前記ネットワークを介して前記他の装置から送信されてくる前記音声情報を取得して前記入力音処理部に供給し、
      前記出力処理部から出力される前記音声認識結果情報を、前記ネットワークを介して前記他の装置に送信する
     請求項1に記載の情報処理装置。
  13.  ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
     前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
     前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
     選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
     ステップを含む情報処理方法。
  14.  ユーザの発話により得られる音声情報を取得して、前記音声情報から発話の特徴を検出し、
     前記音声情報に音声が含まれている発話区間を検出する処理においては無音期間と判定されない特定の短い無音期間である特定無音期間を検出し、
     前記音声情報から検出された前記発話の特徴、および、前記音声情報から検出された前記特定無音期間に基づいて、前記音声情報に対して行われる音声認識処理を選択し、
     選択された音声認識処理で認識された音声認識結果とともに、その音声認識結果が得られた音声認識処理を示す音声認識結果情報を出力する
     ステップを含む情報処理をコンピュータに実行させるプログラム。
PCT/JP2017/029492 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム WO2018043138A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP2018537117A JPWO2018043138A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム
CN201780051273.0A CN109643551A (zh) 2016-08-31 2017-08-17 信息处理装置、信息处理方法和程序
US16/305,328 US20200320976A1 (en) 2016-08-31 2017-08-17 Information processing apparatus, information processing method, and program
EP17846146.3A EP3509062B1 (en) 2016-08-31 2017-08-17 Audio recognition device, audio recognition method, and program

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2016170307 2016-08-31
JP2016-170307 2016-08-31

Publications (1)

Publication Number Publication Date
WO2018043138A1 true WO2018043138A1 (ja) 2018-03-08

Family

ID=61300546

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2017/029492 WO2018043138A1 (ja) 2016-08-31 2017-08-17 情報処理装置および情報処理方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20200320976A1 (ja)
EP (1) EP3509062B1 (ja)
JP (1) JPWO2018043138A1 (ja)
CN (1) CN109643551A (ja)
WO (1) WO2018043138A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110166816A (zh) * 2019-05-29 2019-08-23 上海乂学教育科技有限公司 用于人工智能教育的基于语音识别的视频编辑方法和系统
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム
JP2021530749A (ja) * 2018-11-16 2021-11-11 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化
JP2022529691A (ja) * 2019-04-16 2022-06-23 グーグル エルエルシー 組み合わせで行うエンドポイント決定と自動音声認識

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6048099A (ja) * 1983-08-26 1985-03-15 松下電器産業株式会社 音声認識装置
JP2000347684A (ja) 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP2003295884A (ja) * 2002-03-29 2003-10-15 Univ Waseda 音声入力モード変換システム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4624008A (en) * 1983-03-09 1986-11-18 International Telephone And Telegraph Corporation Apparatus for automatic speech recognition
US4870686A (en) * 1987-10-19 1989-09-26 Motorola, Inc. Method for entering digit sequences by voice command
US5794196A (en) * 1995-06-30 1998-08-11 Kurzweil Applied Intelligence, Inc. Speech recognition system distinguishing dictation from commands by arbitration between continuous speech and isolated word modules
US6076056A (en) * 1997-09-19 2000-06-13 Microsoft Corporation Speech recognition system for recognizing continuous and isolated speech

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6048099A (ja) * 1983-08-26 1985-03-15 松下電器産業株式会社 音声認識装置
JP2000347684A (ja) 1999-06-02 2000-12-15 Internatl Business Mach Corp <Ibm> 音声認識システム
JP2003295884A (ja) * 2002-03-29 2003-10-15 Univ Waseda 音声入力モード変換システム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3509062A4

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021530749A (ja) * 2018-11-16 2021-11-11 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化
JP2021193464A (ja) * 2018-11-16 2021-12-23 グーグル エルエルシーGoogle LLC 自動音声認識のためのコンテキスト非正規化
JP7230145B2 (ja) 2018-11-16 2023-02-28 グーグル エルエルシー 自動音声認識のためのコンテキスト非正規化
US11676607B2 (en) 2018-11-16 2023-06-13 Google Llc Contextual denormalization for automatic speech recognition
JP2022529691A (ja) * 2019-04-16 2022-06-23 グーグル エルエルシー 組み合わせで行うエンドポイント決定と自動音声認識
JP7336537B2 (ja) 2019-04-16 2023-08-31 グーグル エルエルシー 組み合わせで行うエンドポイント決定と自動音声認識
CN110166816A (zh) * 2019-05-29 2019-08-23 上海乂学教育科技有限公司 用于人工智能教育的基于语音识别的视频编辑方法和系统
JP2020096373A (ja) * 2020-03-05 2020-06-18 株式会社オープンエイト サーバおよびプログラム、動画配信システム

Also Published As

Publication number Publication date
EP3509062A4 (en) 2019-08-07
JPWO2018043138A1 (ja) 2019-06-24
CN109643551A (zh) 2019-04-16
EP3509062B1 (en) 2020-05-27
US20200320976A1 (en) 2020-10-08
EP3509062A1 (en) 2019-07-10

Similar Documents

Publication Publication Date Title
CN110049270B (zh) 多人会议语音转写方法、装置、系统、设备及存储介质
JP4902617B2 (ja) 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
US9031839B2 (en) Conference transcription based on conference data
US8818801B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
WO2018043138A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
WO2006054724A1 (ja) 音声認識装置及び方法ならびにプログラム
JP2008077601A (ja) 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
JPH096390A (ja) 音声認識対話処理方法および音声認識対話装置
WO2008084476A2 (en) Vowel recognition system and method in speech to text applications
JP2017003611A (ja) 音声認識装置、音声認識システム、当該音声認識システムで使用される端末、および、話者識別モデルを生成するための方法
WO2017175351A1 (ja) 情報処理装置
JP2011504624A (ja) 自動同時通訳システム
CN114385800A (zh) 语音对话方法和装置
US10216732B2 (en) Information presentation method, non-transitory recording medium storing thereon computer program, and information presentation system
JP2007328283A (ja) 対話装置、プログラム、及び対話方法
US20200279570A1 (en) Speaker determination apparatus, speaker determination method, and control program for speaker determination apparatus
WO2018079294A1 (ja) 情報処理装置及び情報処理方法
JP4103085B2 (ja) 異言語間対話処理方法およびその装置、ならびにそのプログラムと記録媒体
CA2597826C (en) Method, software and device for uniquely identifying a desired contact in a contacts database based on a single utterance
JP2015143866A (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
WO2018043139A1 (ja) 情報処理装置および情報処理方法、並びにプログラム
US20220399030A1 (en) Systems and Methods for Voice Based Audio and Text Alignment
JP2001013992A (ja) 音声理解装置
JP2000242295A (ja) 音声認識装置および音声対話装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 17846146

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2018537117

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2017846146

Country of ref document: EP

Effective date: 20190401