WO2015098109A1 - 音声認識処理装置、音声認識処理方法、および表示装置 - Google Patents

音声認識処理装置、音声認識処理方法、および表示装置 Download PDF

Info

Publication number
WO2015098109A1
WO2015098109A1 PCT/JP2014/006449 JP2014006449W WO2015098109A1 WO 2015098109 A1 WO2015098109 A1 WO 2015098109A1 JP 2014006449 W JP2014006449 W JP 2014006449W WO 2015098109 A1 WO2015098109 A1 WO 2015098109A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
voice
unit
utterance
recognition
Prior art date
Application number
PCT/JP2014/006449
Other languages
English (en)
French (fr)
Inventor
小沼 知浩
智弘 小金井
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to EP14875013.6A priority Critical patent/EP3089158B1/en
Priority to US15/023,384 priority patent/US9767795B2/en
Priority to JP2015554574A priority patent/JPWO2015098109A1/ja
Priority to CN201480051019.7A priority patent/CN105556594B/zh
Publication of WO2015098109A1 publication Critical patent/WO2015098109A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Definitions

  • the present disclosure relates to a speech recognition processing device, a speech recognition processing method, and a display device that operate by recognizing speech uttered by a user.
  • Patent Document 1 discloses a voice input device having a voice recognition function.
  • the voice input device receives voice uttered by the user, analyzes the received voice, recognizes a command indicated by the user's voice (voice recognition), and controls the device according to the voice-recognized command. It is configured. That is, the voice input device of Patent Document 1 can recognize a voice arbitrarily generated by a user, and can control the device according to a command (command) that is a result of the voice recognition.
  • the hypertext displayed on the browser is displayed.
  • the text can be selected using the voice recognition function of the voice input device.
  • the user can also perform a search on a website (search site) that provides a search service by using this voice recognition function.
  • Triggerless recognition may be performed in order to improve user convenience.
  • “Triggerless recognition” is a state in which a voice input device always performs voice collection and voice recognition on the collected voice without any restriction on the period for receiving voice input for voice recognition. It is. However, when triggerless recognition is performed with this voice input device, whether the collected voice is uttered by a user for the purpose of voice recognition or not for voice recognition of conversation between users or user's monologue. Since it is difficult to distinguish between voices, voices that are not intended for voice recognition may be erroneously recognized (erroneously recognized).
  • This disclosure provides a speech recognition processing device and a speech recognition processing method that reduce misrecognition and improve user operability.
  • the speech recognition processing device includes a speech acquisition unit, a first speech recognition unit, a storage unit, and a recognition result determination unit.
  • the voice acquisition unit is configured to acquire voice uttered by the user and output voice information.
  • the first voice recognition unit is configured to convert voice information into first information.
  • the storage unit stores in advance a dictionary in which an exclusive vocabulary is registered.
  • the recognition result determination unit compares the first information with the exclusive vocabulary and determines whether or not the first information includes a word that matches the exclusive vocabulary. Then, when the first information includes a word that matches the exclusive vocabulary, the recognition result determination unit determines that the first information is information to be rejected, and the first information matches the exclusive vocabulary. Is not included, the first information is determined to be information to be executed.
  • a speech recognition processing method includes a step of acquiring speech uttered by a user and converting it into speech information, a step of converting speech information into first information, a step of converting speech information into second information, The step of selecting either one of the information and the second information, the selected information and the exclusive vocabulary registered in the dictionary are compared, and whether the selected information includes a word that matches the exclusive vocabulary Determining whether or not the selected information includes a word that matches the exclusive vocabulary, and determining if the selected information is information to be rejected and exclusive to the selected information Determining that the selected information is information to be executed when a word that matches the vocabulary is not included.
  • the display device includes a voice acquisition unit, a first voice recognition unit, a storage unit, a recognition result determination unit, a processing unit, and a display unit.
  • the voice acquisition unit is configured to acquire voice uttered by the user and output voice information.
  • the first voice recognition unit is configured to convert voice information into first information.
  • the storage unit stores in advance a dictionary in which an exclusive vocabulary is registered.
  • the recognition result determination unit compares the first information with the exclusive vocabulary, determines whether the first information includes a word that matches the exclusive vocabulary, and should the first information be rejected based on the determination? It is configured to determine whether to execute.
  • the processing unit is configured to execute processing based on the first information determined to be executed by the recognition result determination unit. Then, when the first information includes a word that matches the exclusive vocabulary, the recognition result determination unit determines that the first information is information to be rejected, and the first information matches the exclusive vocabulary. Is not included, the first information is determined to be information to be executed.
  • the voice recognition processing device can improve operability when the user performs voice operation.
  • FIG. 1 is a diagram schematically showing a speech recognition processing system according to the first embodiment.
  • FIG. 2 is a block diagram illustrating a configuration example of the speech recognition processing system according to the first embodiment.
  • FIG. 3 is a block diagram illustrating a configuration example of the recognition result determination unit of the speech recognition processing device according to the first embodiment.
  • FIG. 4 is a flowchart illustrating an operation example of the speech recognition processing apparatus according to the first embodiment.
  • FIG. 5 is a block diagram illustrating a configuration example of the speech recognition processing system according to the second embodiment.
  • FIG. 6 is a block diagram illustrating a configuration example of a recognition result determination unit of the speech recognition processing apparatus according to the second embodiment.
  • FIG. 7 is a flowchart illustrating an operation example of the recognition result determination unit according to the second embodiment.
  • FIG. 8A is a block diagram illustrating a configuration example of a recognition result determination unit in another embodiment.
  • FIG. 8B is a block diagram illustrating a configuration example of a recognition result determination
  • a television receiver (television) 10 is cited as an example of a display device including a voice recognition processing device, but the display device is not limited to the television 10 at all.
  • the display device may be a PC, a tablet terminal, a portable terminal, or the like.
  • the voice recognition processing system 11 shown in the present embodiment performs triggerless recognition
  • the present disclosure is not limited to triggerless recognition at all, and the voice recognition is started by the user 700 starting operation. It is also applicable to systems where recognition is started.
  • FIG. 1 schematically shows a speech recognition processing system 11 according to the first embodiment.
  • a speech recognition processing device is built in the television 10 which is an example of a display device.
  • the voice recognition processing system 11 in the present embodiment includes a television 10 that is an example of a display device, and a voice recognition server 50.
  • the display unit 140 of the television 10 displays the sound recognition icon 203 and the volume of the collected sound along with the video based on the input video signal, the received broadcast signal, and the like.
  • An indicator 202 is displayed. This is to indicate to the user 700 that the operation of the television 10 based on the voice of the user 700 (hereinafter referred to as “voice operation”) is possible and to prompt the user 700 to speak.
  • the television 10 When the user 700 utters a sound toward the built-in microphone 130 included in the television 10, the sound is collected by the built-in microphone 130, and the collected sound is recognized by the sound recognition processing device built in the television 10. The In the television 10, the television 10 is controlled according to the result of the voice recognition.
  • the television 10 may be configured to include a remote controller or a portable terminal configured to collect sound uttered by the user 700 with a built-in microphone and wirelessly transmit it to the television 10.
  • the television 10 is connected to the voice recognition server 50 via the network 40. Communication between the television 10 and the voice recognition server 50 is possible.
  • FIG. 2 is a block diagram showing a configuration example of the speech recognition processing system 11 according to the first embodiment.
  • the television 10 includes a voice recognition processing device 100, a display unit 140, a transmission / reception unit 150, a tuner 160, a storage unit 171, and a built-in microphone 130.
  • the voice recognition processing device 100 is configured to acquire a voice uttered by the user 700 and analyze the acquired voice. And the instruction
  • the built-in microphone 130 is a microphone configured to collect sound mainly coming from a direction facing the display surface of the display unit 140. That is, the built-in microphone 130 has a sound collection direction set so as to collect the sound emitted by the user 700 facing the display unit 140 of the television 10, and can collect the sound emitted by the user 700. Is possible.
  • the built-in microphone 130 may be provided in the casing of the television 10 or may be installed outside the casing of the television 10 as shown as an example in FIG.
  • the display unit 140 is, for example, a liquid crystal display, but may be a plasma display, an organic EL (ElectroLuminescence) display, or the like.
  • the display unit 140 is controlled by a display control unit (not shown), and displays an image based on an externally input video signal, a broadcast signal received by the tuner 160, or the like.
  • the transmission / reception unit 150 is connected to the network 40 and configured to communicate with an external device (for example, the voice recognition server 50) connected to the network 40 through the network 40.
  • an external device for example, the voice recognition server 50
  • the tuner 160 is configured to receive a terrestrial broadcast or satellite broadcast television broadcast signal via an antenna (not shown).
  • the tuner 160 may be configured to receive a television broadcast signal transmitted via a dedicated cable.
  • the storage unit 171 is, for example, a nonvolatile semiconductor memory, but may be a volatile semiconductor memory, a hard disk, or the like.
  • the storage unit 171 stores information (data), a program, and the like used for controlling each unit of the television 10.
  • the network 40 is, for example, the Internet, but may be another network.
  • the voice recognition server 50 is an example of a “second voice recognition unit”.
  • the voice recognition server 50 is a server (a dictionary server on the cloud) connected to the television 10 via the network 40.
  • the voice recognition server 50 includes a recognition dictionary 55 and is configured to receive voice information transmitted from the television 10 via the network 40.
  • the recognition dictionary 55 is a database for associating voice information with a voice recognition model. Then, the voice recognition server 50 collates the received voice information with the voice recognition model of the recognition dictionary 55, and the received voice information includes voice information corresponding to the voice recognition model registered in the recognition dictionary 55. Check if it exists. If the received speech information includes speech information corresponding to the speech recognition model registered in the recognition dictionary 55, the character string indicated by the speech recognition model is selected.
  • the received voice information is converted into a character string.
  • the character string may be a plurality of characters or a single character.
  • the voice recognition server 50 transmits character string information indicating the converted character string to the television 10 via the network 40 as a result of the voice recognition.
  • This character string information is an example of “second information”.
  • the voice recognition processing device 100 includes a voice acquisition unit 101, a voice recognition unit 102, a recognition result acquisition unit 103, a recognition result determination unit 104, a command processing unit 106, and a storage unit 170.
  • the storage unit 170 is, for example, a non-volatile semiconductor memory, and can arbitrarily write and read data.
  • the storage unit 170 may be a volatile semiconductor memory, a hard disk, or the like.
  • the storage unit 170 also stores information (for example, a recognition dictionary 175) that is referred to by the voice recognition unit 102 and the recognition result determination unit 104.
  • the recognition dictionary 175 is an example of a “dictionary”.
  • the recognition dictionary 175 is a database for associating voice information with a voice recognition model. Also, an exclusion target list is registered in the recognition dictionary 175. Details of the exclusion target list will be described later. Note that the storage unit 170 and the storage unit 171 may be configured integrally.
  • the voice acquisition unit 101 acquires a voice signal based on a voice uttered by the user 700, converts it into voice information, and outputs the voice information to the voice recognition unit 102.
  • the voice recognition unit 102 is an example of a “first voice recognition unit”.
  • the voice recognition unit 102 converts the voice information into character string information, and outputs the character string information to the recognition result acquisition unit 103 as a result of voice recognition.
  • This character string information is an example of “first information”.
  • the voice recognition unit 102 transmits the voice information acquired from the voice acquisition unit 101 from the transmission / reception unit 150 to the voice recognition server 50 via the network 40.
  • the voice recognition server 50 recognizes the voice information received from the television 10 by referring to the recognition dictionary 55 and returns the result of the voice recognition to the television 10.
  • the recognition result acquisition unit 103 is an example of a “selection unit”. Upon receiving the speech recognition result (first information) output from the speech recognition unit 102 and the speech recognition result (second information) returned from the speech recognition server 50, the recognition result acquisition unit 103 receives these results. And select one of them. Then, the recognition result acquisition unit 103 outputs the selected one to the recognition result determination unit 104.
  • the recognition result determination unit 104 determines whether to reject or execute (accept) the voice recognition result output from the recognition result acquisition unit 103. Details of this will be described later. Based on the determination, the result of voice recognition is output to the command processing unit 106 or the voice acquisition unit 201.
  • the command processing unit 106 performs command processing (for example, control of the television 10, etc.) based on the output from the recognition result determination unit 104 (result of speech recognition determined to be executed).
  • the command processing unit 106 is an example of “processing unit”, and this command processing is an example of “processing”.
  • FIG. 3 is a block diagram illustrating a configuration example of the recognition result determination unit 104 of the speech recognition processing apparatus 100 according to the first embodiment.
  • the recognition result determination unit 104 includes an exclusive vocabulary rejection unit 1042 and an acceptance rejection transmission unit 1045. Details of these operations will be described later.
  • FIG. 3 is a flowchart showing an operation example of the speech recognition processing apparatus 100 according to the first embodiment.
  • the voice acquisition unit 101 acquires a voice signal based on voice generated by the user 700 from the built-in microphone 130 of the television 10 (step S101).
  • the voice acquisition unit 101 acquires a voice signal from a microphone built in a remote controller (not shown) or a microphone built in a portable terminal (not shown) via a wireless communication unit (not shown). May be.
  • the voice acquisition unit 101 converts the voice signal into voice information that can be used for various processes in the subsequent stage, and outputs the voice information to the voice recognition unit 102.
  • the audio signal is a digital signal
  • the audio acquisition unit 101 may use the audio signal as it is as audio information.
  • the voice recognition unit 102 converts the voice information acquired from the voice acquisition unit 101 into character string information. Then, the character string information is output to the recognition result acquisition unit 103 as a result of speech recognition. Further, the voice recognition server 50 converts voice information acquired from the television 10 via the network 40 into character string information, and returns the character string information to the television 10 as a result of voice recognition (step S102).
  • the voice recognition unit 102 refers to the reception target list in the recognition dictionary 175 stored in advance in the storage unit 170 based on the voice information acquired from the voice acquisition unit 101. Then, the speech information is compared with the speech recognition model registered in the acceptance target list.
  • the voice recognition model is information for associating voice information with character string information.
  • each of a plurality of speech recognition models is compared with speech information, and one speech recognition model that matches or resembles speech information is selected.
  • the character string information associated with the voice recognition model is the result of voice recognition for the voice information.
  • the acceptance target list includes, for example, instructions to the television 10 (for example, channel change, volume change, etc.), functions of the television 10 (for example, network connection function, etc.), names of each part of the television 10 (for example, power supply, channel, etc.) , Etc.), voice recognition models related to operations of the television 10 such as instructions (for example, enlargement, reduction, scrolling, etc.) for content displayed on the screen of the television 10 are registered.
  • an exclusion target list (not shown in FIG. 2) described later is also registered.
  • the voice recognition unit 102 collates the voice information with the voice recognition model registered in the acceptance target list. If the speech information acquired from the speech acquisition unit 101 includes information corresponding to the speech recognition model registered in the acceptance target list, the character string information associated with the speech recognition model is speech-recognized. Is output to the recognition result acquisition unit 103.
  • the speech recognition unit 102 calculates a recognition score when collating speech information with a speech recognition model.
  • the recognition score is a numerical value indicating the likelihood (yudo), and is an index indicating how much the speech information matches or resembles the speech recognition model. The larger the numerical value, the higher the similarity.
  • the speech recognition unit 102 collates speech information with a speech recognition model, and selects a plurality of speech recognition models as candidates. At this time, the speech recognition unit 102 calculates a recognition score for each speech recognition model.
  • the recognition score calculation method may be a generally known method. Then, a speech recognition model having a highest recognition score that is equal to or higher than a preset threshold value is selected, and character string information corresponding to the speech recognition model is output as a speech recognition result.
  • the voice recognition unit 102 may output a recognition score related to the character string information to the recognition result acquisition unit 103 together with the character string information.
  • the voice recognition unit 102 converts voice information into character string information.
  • the voice recognition unit 102 may convert voice information into information other than character string information and output the information.
  • the speech recognition unit 102 may output information indicating that speech recognition is impossible if there is no speech recognition model having a recognition score equal to or greater than the threshold.
  • the voice recognition unit 102 transmits the voice information acquired from the voice acquisition unit 101 from the transmission / reception unit 150 to the voice recognition server 50 via the network 40.
  • the voice recognition server 50 refers to the recognition dictionary 55 based on the voice information received from the television 10. Then, the voice information is collated with the voice recognition model in the recognition dictionary 55 and converted into character string information.
  • the voice recognition server 50 calculates a recognition score when comparing the received voice information with the voice recognition model in the recognition dictionary 55.
  • This recognition score is a numerical value indicating the same likelihood as the recognition score calculated by the speech recognition unit 102, and is calculated by the same method as when the recognition score is calculated by the speech recognition unit 102.
  • the speech recognition server 50 selects a plurality of speech recognition models as candidates based on the received speech information, and selects one speech recognition model from the candidates based on the recognition score. Then, the speech recognition server 50 returns character string information associated with the speech recognition model to the television 10 as a result of speech recognition.
  • the voice recognition server 50 may transmit a recognition score related to the character string information to the television 10 together with the character string information.
  • the voice recognition server 50 is configured to collect various terms through the network 40 and register these terms in the recognition dictionary 55. Therefore, the voice recognition server 50 can have more voice recognition models than the recognition dictionary 175 provided in the television 10. Therefore, in the voice recognition server 50, when the user 700 speaks a word (for example, conversation between users or self-speaking) that is not related to the function of the TV 10 or the instruction to the TV 10, the voice recognition of the voice is performed. The recognition score is likely to be higher than when the voice recognition unit 102 of the television 10 performs similar voice recognition.
  • the transmission / reception unit 150 that has received the speech recognition result from the speech recognition server 50 via the network 40 outputs the speech recognition result to the recognition result acquisition unit 103.
  • the recognition result acquisition unit 103 When the recognition result acquisition unit 103 receives the result of the speech recognition from each of the speech recognition unit 102 and the speech recognition server 50, the recognition result acquisition unit 103 selects one of the speech recognition results according to the determination rule (step S103).
  • the determination rule compares the recognition score associated with the speech recognition result received from the speech recognition unit 102 with the recognition score associated with the speech recognition result received from the speech recognition server 50, and the recognition score is The higher speech recognition result may be selected.
  • the recognition result acquisition unit 103 outputs the selected speech recognition result to the recognition result determination unit 104.
  • the recognition result acquisition unit 103 can receive the result of the speech recognition from only one of the speech recognition unit 102 and the speech recognition server 50, the recognition result acquisition unit 103 skips the process of step S103 and performs the received speech recognition.
  • the result may be output as it is.
  • the exclusive vocabulary rejection unit 1042 of the recognition result determination unit 104 shown in FIG. 3 matches the vocabulary (exclusive vocabulary) registered in the exclusion target list as a result of the speech recognition output from the recognition result acquisition unit 103. It is determined whether or not there is (step S104).
  • the exclusion target list is a list in which words (vocabulary) determined not to be used for voice operation of the television 10 are registered as exclusive vocabularies.
  • An exclusive vocabulary is a vocabulary except the vocabulary registered into the recognition dictionary 175 of the memory
  • the exclusion target list is registered in advance in the recognition dictionary 175 of the storage unit 170, but may be configured so that a new exclusive vocabulary can be arbitrarily added. If a vocabulary that is similar in pronunciation to the words spoken by the user 700 when operating the TV 10 and that is not related to the audio operation of the TV 10 is registered in the exclusion target list as an exclusive vocabulary, The accuracy of voice recognition can be improved.
  • step S ⁇ b> 104 the exclusive vocabulary rejection unit 1042 obtains the exclusion target list in the recognition dictionary 175 stored in the storage unit 170 and the character string information that is the result of speech recognition output from the recognition result acquisition unit 103. Collation is performed to check whether there is character string information that matches the exclusive vocabulary included in the exclusion target list. Then, the exclusive vocabulary rejection unit 1042 determines that the character string information matching the exclusive vocabulary is information to be rejected, adds a flag, and outputs the flag to the acceptance rejection transmission unit 1045 (Yes).
  • the acceptance rejection transmission unit 1045 outputs the character string information to the voice acquisition unit 101 as rejection information.
  • the voice acquisition unit 101 that has received the rejection information prepares for voice acquisition in preparation for the next voice recognition (step S106). Therefore, the command processing unit 106 does not perform any processing on the character string information (rejection information) to which the flag is assigned.
  • step S104 the exclusive vocabulary rejection unit 1042 determines that the character string information that does not match the exclusive vocabulary is information to be accepted (executed), and outputs it to the acceptance rejection transmission unit 1045 without assigning a flag (No). ).
  • the acceptance rejection transmission unit 1045 outputs the character string information to the command processing unit 106.
  • the command processing unit 106 executes command processing based on the instruction represented by the character string information received from the acceptance rejection transmitting unit 1045 (step S105).
  • the command processing unit 106 causes the television 10 to execute an operation corresponding to the command information. Then, an instruction is given to a control unit (not shown) of the television 10.
  • step S105 the command processing unit 106 transmits a signal indicating that the command processing has been completed to the voice acquisition unit 101.
  • the voice acquisition unit 101 prepares for voice acquisition in preparation for the next voice recognition (step S106).
  • the speech recognition processing apparatus 100 includes the speech acquisition unit 101, the speech recognition unit 102 that is an example of the first speech recognition unit, the storage unit 170, the recognition result determination unit 104, It has.
  • the voice acquisition unit 101 is configured to acquire voice generated by the user 700 and output voice information.
  • the voice recognition unit 102 is configured to convert voice information into character string information which is an example of first information.
  • the storage unit 170 stores in advance a recognition dictionary 175 in which an exclusive vocabulary is registered.
  • the recognition dictionary 175 is an example of a dictionary.
  • the recognition result determination unit 104 compares the character string information and the exclusive vocabulary, and determines whether or not the character string information includes a word that matches the exclusive vocabulary.
  • the recognition result determination unit 104 determines that the character string information is information to be rejected, and the character string information matches the exclusive vocabulary. When a word is not included, the character string information is determined as information to be executed.
  • the speech recognition processing apparatus 100 may further include a speech recognition server 50 that is an example of a second speech recognition unit, and a recognition result acquisition unit 103 that is an example of a selection unit.
  • the voice recognition server 50 is configured to convert the voice information into character string information which is an example of the second information.
  • the recognition result acquisition unit 103 is configured to select and output either character string information output from the speech recognition unit 102 or character string information output from the speech recognition server 50. Then, the recognition result determination unit 104 determines whether to reject or execute the character string information selected by the recognition result acquisition unit 103.
  • the voice recognition server 50 which is an example of the second voice recognition unit, may be installed on the network 40.
  • the speech recognition processing apparatus 100 may include a transmission / reception unit 150 configured to communicate with the speech recognition server 50 via the network 40.
  • the voice generated by the user 700 for voice operation and the voice generated by the conversation between the users 700 or in a single word are accurately discriminated, and erroneous recognition is reduced.
  • the accuracy of voice recognition can be improved.
  • the speech recognition unit 102 is likely to output the character string information registered in the acceptance target list as a result of speech recognition based on the speech (that is, erroneous recognition).
  • the speech recognition server 50 having the recognition dictionary 55 that is considered that registered contents are updated through the network 40 and more speech recognition models (vocabulary) than the recognition dictionary 175 are registered There is a high probability that correct speech recognition will be performed.
  • the voice that is likely to be misrecognized is attached to the character string information that the voice recognition server 50 recognizes and outputs the voice, rather than the recognition score that accompanies the character string information that the voice recognition unit 102 recognizes and outputs.
  • the recognition score has a larger numerical value, and it is considered that the character string information output from the speech recognition server 50 is likely to be selected by the recognition result acquisition unit 103.
  • the exclusive vocabulary rejection unit 1042 determines that the character string information is information to be rejected.
  • the accuracy of speech recognition for speech that is erroneously recognized by the speech recognition unit 102 is improved, and erroneous command processing due to erroneous recognition is performed by the command processing unit 106. Can be prevented.
  • the recognition dictionary 175 of the voice recognition unit 102 is configured so that the registered contents can be updated through the network 40 or the like, as in the recognition dictionary 55 of the voice recognition server 50, voice recognition is performed only on the television 10.
  • the voice recognition processing system 11 may be configured to do so. Even with such a configuration, the recognition result determination unit 104 can reduce the misrecognition and increase the accuracy of the speech recognition.
  • Embodiment 2 Next, Embodiment 2 will be described with reference to FIGS.
  • a method for improving the accuracy of speech recognition for words that are likely to be spoken by the user 700 for example, words related to the operation and functions of the television 10.
  • FIG. 5 is a block diagram illustrating a configuration example of the speech recognition processing system 21 according to the second embodiment.
  • the voice recognition processing system 21 in the present embodiment includes a television 20 that is an example of a display device, and a voice recognition server 50. Since the voice recognition server 50 is substantially the same as the voice recognition server 50 described in the first embodiment, a description thereof will be omitted.
  • the television 20 includes a voice recognition processing device 200, a display unit 140, a transmission / reception unit 150, a tuner 160, a storage unit 171, and a built-in microphone 130.
  • the speech recognition processing device 200 includes a speech acquisition unit 201, a speech recognition unit 102, a recognition result acquisition unit 103, a recognition result determination unit 204, a command processing unit 106, and a storage unit 270.
  • the voice recognition processing device 200 according to the second embodiment is different from the voice recognition processing device 100 described in the first embodiment in the operations of the voice acquisition unit 201 and the recognition result determination unit 204.
  • the voice acquisition unit 201 acquires a voice signal based on a voice uttered by the user 700 from the built-in microphone 130, similarly to the voice acquisition unit 101 described in the first embodiment. However, unlike the voice acquisition unit 101 shown in the first embodiment, the voice acquisition unit 201 creates utterance time length information and utterance style information based on the acquired voice signal.
  • the utterance time length information is information indicating the length of time that the user 700 has spoken.
  • the voice acquisition unit 201 can create utterance time length information, for example, by measuring the length of time that voices having a volume equal to or higher than a preset threshold value are continuously generated.
  • the voice acquisition unit 201 may create the utterance time length information by another method.
  • the utterance style information is information indicating the length of time that can be regarded as silent or substantially silent before and after the user 700 speaks.
  • the voice acquisition unit 201 can create utterance style information by measuring the length of a silent period that occurs before and after the utterance by setting a state where the volume is lower than a preset threshold value as silent. it can.
  • the voice acquisition unit 201 may create the utterance style information by other methods.
  • the voice acquisition unit 201 adds utterance time length information and utterance style information to the voice information, and outputs them to the voice recognition unit 102.
  • the vocabulary registered in the acceptance target list may be included in conversations between a plurality of users 700, the self-speaking of the user 700, and the like.
  • the voice is collected by the built-in microphone 130 and voice information based on the voice is input to the voice recognition unit 102.
  • voice recognition unit 102 erroneous voice recognition based on the voice information is performed by the voice recognition unit 102, and the erroneous command processing based on the misrecognition is performed even though the user 700 does not intend to operate the television 20 by voice.
  • the processing unit 106 There is a possibility that it will be performed by the processing unit 106.
  • speech recognition using “utterance time length information” and “utterance style information” in addition to the exclusion target list described in the first embodiment. I do.
  • the voice recognition unit 102 transmits the voice information to which the utterance time length information and the utterance style information are added to the voice recognition server 50 via the transmission / reception unit 150 and the network 40.
  • FIG. 6 is a block diagram illustrating a configuration example of the recognition result determination unit 204 of the speech recognition processing apparatus 200 according to the second embodiment.
  • the recognition result determination unit 204 includes an exclusive vocabulary rejection unit 1042, an utterance time length determination unit 2043, an utterance style determination unit 2044, and an acceptance rejection transmission unit 1045.
  • FIG. 7 is a flowchart showing an operation example of the recognition result determination unit 204 in the second embodiment.
  • the recognition result acquisition unit 103 receives one of the speech recognition results from each of the speech recognition unit 102 and the speech recognition server 50, and recognizes one of the speech recognitions according to the determination rule. A result is selected (step S103).
  • This discrimination rule is substantially the same as the discrimination rule described in the first embodiment.
  • the exclusive vocabulary rejection unit 1042 of the recognition result determination unit 204 uses the vocabulary (registered in the exclusion target list) in the speech recognition result output from the recognition result acquisition unit 103, as in step S104 described in the first embodiment. It is determined whether or not there is a match with the exclusive vocabulary (step S104).
  • step S104 the exclusive vocabulary rejection unit 1042 and the exclusion target list in the recognition dictionary 175 stored in the storage unit 270 and the recognition result acquisition unit 103 are the same as the exclusive vocabulary rejection unit 1042 described in the first embodiment. Is compared with the character string information that is the result of speech recognition output from, and the presence / absence of character string information that matches the exclusive vocabulary included in the exclusion target list is checked. Then, the exclusive vocabulary rejection unit 1042 determines that the character string information matching the exclusive vocabulary is information to be rejected, adds a flag, and outputs the information to the acceptance rejection transmission unit 1045 (Yes).
  • the acceptance rejection transmission unit 1045 outputs the character string information to which the flag is added to the voice acquisition unit 201 as rejection information, similarly to the acceptance rejection transmission unit 1045 described in the first embodiment.
  • the voice acquisition unit 201 that has received the rejection information prepares for voice acquisition in preparation for the next voice recognition (step S106).
  • step S104 the exclusive vocabulary rejection unit 1042 outputs the character string information that does not match the exclusive vocabulary as it is to the utterance time length determination unit 2043 without assigning a flag (No).
  • the utterance time length determination unit 2043 again determines whether to reject or accept (execute) the character string information to which the flag input from the exclusive vocabulary rejection unit 1042 is not assigned based on the utterance time length ( Step S200).
  • the utterance time length is the length of utterance time.
  • control utterance an utterance that the user 700 performs for voice operation of the TV 20
  • an utterance that is not intended for voice operation of the TV 20 such as a conversation between the users 700 or a self-speaking user 700.
  • Conversation utterance ".
  • utterance time length data (data indicating the length of time required for utterance) corresponding to each vocabulary to be accepted included in the acceptance target list registered in the recognition dictionary 175 is stored in the storage unit 270 in advance. It is remembered. Thereby, the utterance time length determination unit 2043 can calculate the utterance time length of the vocabulary to be accepted selected as a result of the speech recognition. Note that it is desirable that the utterance time length data has a width (range) in consideration of individual differences in the utterance speed.
  • control utterances are often composed of one or two words.
  • all of these words are acceptance target vocabularies registered in the acceptance target list. Therefore, when the “control utterance” is recognized by speech, the utterance time length based on the utterance time length data of the vocabulary to be accepted selected as a result of the speech recognition is indicated by the utterance time length information created by the speech acquisition unit 201. There is a high possibility of approximating the utterance time length of “control utterance”.
  • the utterance time length is calculated based on the utterance time length data corresponding to the plurality of acceptance target vocabularies.
  • “conversational utterances” are often composed of a plurality of words, and there is a possibility that those words (vocabulary) include words corresponding to the acceptance target vocabulary registered in the acceptance target list. Low. Therefore, when the speech for “conversation utterance” is recognized by speech, the utterance time length based on the utterance time length data of the vocabulary to be accepted selected as the speech recognition result is indicated by the utterance time length information created by the speech acquisition unit 201. There is a high possibility that it will be shorter than the utterance time length of the “utterance for conversation”.
  • the speech duration based on the speech duration data of the vocabulary to be accepted selected as a result of speech recognition by the speech recognition unit 102 and the speech time created by the speech acquisition unit 201.
  • the speech time length determination part 2043 performs the determination.
  • step S200 the utterance time length determination unit 2043 reads, from the storage unit 270, utterance time length data associated with the acceptance target vocabulary based on the acceptance target vocabulary output from the recognition result acquisition unit 103 as a result of speech recognition. . If there are a plurality of vocabulary to be accepted, the utterance time length determination unit 2043 reads the utterance time length data for all of them from the storage unit 270. Then, the utterance time length is calculated based on the read utterance time length data. Then, the calculation result is compared with the utterance time length indicated by the utterance time length information created by the voice acquisition unit 201.
  • the utterance time length determination unit 2043 may directly compare the calculated utterance time length with the utterance time length indicated by the utterance time length information, but the range for determination based on the calculated utterance time length. May be set. Here, an example will be described in which a range is set for comparison.
  • step S200 if the utterance time length indicated by the utterance time length information created by the voice acquisition unit 201 is outside the range set based on the calculated utterance time length (No), the utterance time length determination unit 2043
  • the character string information to which the flag output from the exclusive vocabulary rejection unit 1042 is not attached is based on the “utterance for conversation” and is determined to be information to be rejected, and a flag is assigned to the character string information.
  • the acceptance rejection transmission unit 1045 outputs the character string information to the voice acquisition unit 201 as rejection information.
  • the voice acquisition unit 201 that has received the rejection information prepares for voice acquisition in preparation for the next voice recognition (step S106).
  • step S200 if the utterance time length indicated by the utterance time length information created by the voice acquisition unit 201 is within the range set based on the calculated utterance time length (Yes), the utterance time length determination unit 2043 determines that the character string information to which the flag output from the exclusive vocabulary rejection unit 1042 is not attached is based on the “control utterance”, and does not add the flag to the character string information, and the utterance format as it is The data is output to the determination unit 2044.
  • the utterance time length determination unit 2043 may set the range for determination by multiplying the calculated utterance time length by a predetermined time (for example, 1.5 times), for example. This numerical value is merely an example, and other numerical values may be used. Alternatively, the utterance time length determination unit 2043 may set a range for determination by adding a preset numerical value to the calculated utterance time length, or may set the range by other methods. May be.
  • the utterance style determination unit 2044 again determines whether to reject or accept (execute) the character string information to which the flag input from the utterance time length determination unit 2043 is not assigned, based on the utterance style (step). S201).
  • the “utterance style” used in the speech style determination unit 2044 will be described.
  • the “speech style” refers to a period of time immediately before the user 700 speaks or a period that can be regarded as substantially silent (hereinafter referred to as a “pause period”), and immediately after the user 700 finishes speaking. This is the pause period that occurs.
  • control utterance there is a long pause period before and after the user 700 utters, compared to “conversation utterance”.
  • the pause period that occurs immediately before the user 700 speaks is a period for preparing for speech.
  • the pause period that occurs immediately after the user 700 finishes speaking is a period of waiting for the start of an action (an action based on a voice operation) corresponding to the spoken content.
  • the speech style determination part 2044 performs the determination.
  • step S201 the utterance style determination unit 2044 reads, from the storage unit 270, utterance style data associated with the acceptance target vocabulary based on the acceptance target vocabulary output from the utterance time length determination unit 2043.
  • This utterance style data is data indicating the length of each pause period that occurs before and after the utterance of the vocabulary to be accepted.
  • utterance style data associated with the vocabulary to be accepted is stored in advance in the storage unit 270.
  • the speech style determination unit 2044 generates speech style information (created by the voice acquisition unit 201) added to the speech style data read from the storage unit 270 and the character string information input from the speech time length determination unit 2043. Utterance style information).
  • the utterance style determination unit 2044 includes the length of the pause period before and after the utterance indicated by the utterance style information created by the voice acquisition unit 201 and the before and after utterances indicated by the utterance style data read from the storage unit 270. Compare the length of each pause period. Note that the utterance style determination unit 2044 may directly compare the utterance style information created by the voice acquisition unit 201 with the utterance style data read from the storage unit 270, but is read from the storage unit 270. A range for determination may be set based on the utterance style data.
  • the utterance style determination unit 2044 may read the utterance style data for all of them from the storage unit 270 and select one having a larger numerical value. Alternatively, one having a smaller numerical value may be selected, or an average value or an intermediate value may be calculated.
  • step S201 at least one of the lengths of the pause periods before and after the utterance indicated by the utterance style information created by the voice acquisition unit 201 is the length of the pause period before and after the utterance indicated by the utterance style data read from the storage unit 270. If it is less than (No), the utterance style determination unit 2044 determines that the character string information to which the flag output from the utterance time length determination unit 2043 is not attached is based on the “utterance for conversation”. A flag is assigned to the character string information and output to the acceptance rejection transmitting unit 1045.
  • the acceptance rejection transmission unit 1045 outputs the character string information to the voice acquisition unit 201 as rejection information.
  • the voice acquisition unit 201 that has received the rejection information prepares for voice acquisition in preparation for the next voice recognition (step S106).
  • the length of the pause period before and after the utterance indicated by the utterance style information created by the voice acquisition unit 201 is the length of the pause period before and after the utterance indicated by the utterance style data read from the storage unit 270. If it is equal to or greater than (Yes), the utterance style determination unit 2044 determines that the character string information to which the flag output from the utterance time length determination unit 2043 is not attached is based on the “control utterance”. The character string information is output to the acceptance rejection transmission unit 1045 without adding a flag.
  • the character string information to which the flag that the acceptance rejection transmitting unit 1045 receives is not assigned is the character that has not been given the flag in any of the exclusive vocabulary rejection unit 1042, the utterance time length determination unit 2043, and the utterance style determination unit 2044. It becomes column information. In other words, if the flag is not added to the character string information input to the acceptance rejection transmission unit 1045, the character string information is any of the exclusive vocabulary rejection unit 1042, the utterance time length determination unit 2043, and the utterance style determination unit 2044. Is character string information determined to be accepted (command processing should be executed).
  • the acceptance rejection transmitting unit 1045 outputs the character string information without the flag as it is to the command processing unit 106 as character string information to be accepted (executed).
  • the command processing unit 106 executes command processing based on the instruction indicated by the character string information received from the acceptance rejection transmitting unit 1045 (step S105).
  • step S105 the command processing unit 106 transmits a signal indicating that the command processing has ended to the voice acquisition unit 201.
  • the voice acquisition unit 201 prepares for voice acquisition in preparation for the next voice recognition (step S106).
  • step S106 the character string information provided with the flag is output from the acceptance rejection transmission unit 1045 to the voice acquisition unit 201 as rejection information.
  • the voice acquisition unit 201 that has received the rejection information prepares for voice acquisition in preparation for the next voice recognition.
  • step S200 or step S201 may be executed first.
  • the speech recognition processing apparatus 200 includes the speech acquisition unit 201, the recognition result determination unit 204, and the storage unit 270.
  • the voice acquisition unit 201 measures the length of time the user 700 uttered and creates utterance time length information.
  • the voice acquisition unit 201 creates utterance style information by measuring the length of the silent period that occurs before and after the user 700 utters based on the acquired voice.
  • the storage unit 270 stores in advance utterance time length data that represents the time required for utterance and utterance style data that represents the length of the silent period that occurs before and after the utterance.
  • the recognition result determination unit 204 reads utterance time length data from the storage unit 270 for character string information that is determined to be executed without including a word that matches the exclusive vocabulary, and the read utterance time length data; The speech time length information created by the voice acquisition unit 201 is compared, and it is determined again whether to reject or execute based on the comparison. Then, with respect to the character string information determined to be executed, the utterance style data is read from the storage unit 270, and the read utterance style data is compared with the utterance style information created by the voice acquisition unit 201. The decision whether to reject or execute based on the above is performed again.
  • This character string information is an example of first information.
  • the speech recognition processing device 200 configured as described above, if a flag is not added to the character string information input to the acceptance rejection transmission unit 1045, it is determined that the exclusive vocabulary rejection unit 1042, the utterance time length determination unit 2043, and the utterance In any of the style determination units 2044, the character string information is determined to be accepted (command processing should be performed). On the other hand, if a flag is given to the character string information input to the acceptance rejection transmission unit 1045, it is determined that the rejection information and the utterance time length determination unit 2043 and the utterance style determination unit 2044 are the same as the rejection information. It is the character string information determined.
  • the character string information received by the recognition result acquisition unit 103 as a result of speech recognition is converted into the exclusive vocabulary rejection unit 1042, the utterance time length determination unit 2043, and the utterance style determination unit 2044, respectively.
  • Judge whether to accept (command processing) or reject is rejected. Then, any one of which is determined to be rejected is rejected, and only the character string information determined to be accepted is command-processed.
  • the speech recognition processing device 200 can accurately determine whether the speech to be recognized is based on the “control utterance” or the “conversation utterance”. It is possible to reduce misrecognition and improve the accuracy of speech recognition.
  • Embodiments 1 and 2 have been described as examples of the technology disclosed in the present application. However, the technology in the present disclosure is not limited to this, and can also be applied to embodiments in which changes, replacements, additions, omissions, and the like are performed. Moreover, it is also possible to combine each component demonstrated in the said Embodiment 1, 2 and it can also be set as a new embodiment.
  • the recognition result determination unit 204 includes the utterance time length determination unit 2043 and the utterance style determination unit 2044 in addition to the exclusive vocabulary rejection unit 1042 has been described.
  • the recognition result determination unit can improve the accuracy of speech recognition even when the exclusive vocabulary rejection unit 1042 is provided with a combination of one of the utterance time length determination unit 2043 and the utterance style determination unit 2044.
  • FIG. 8A is a block diagram illustrating a configuration example of the recognition result determination unit 304 according to another embodiment.
  • FIG. 8B is a block diagram illustrating a configuration example of the recognition result determination unit 404 according to another embodiment.
  • the recognition result determination unit 304 shown in FIG. 8A includes an exclusive vocabulary rejection unit 1042, an utterance time length determination unit 2043, and an acceptance rejection transmission unit 1045, and does not include the utterance style determination unit 2044.
  • the speech recognition apparatus including the recognition result determination unit 304 illustrated in FIG. 8A operates as follows.
  • a voice acquisition unit (not shown) measures the length of time that the user 700 uttered based on the acquired voice and creates utterance time length information.
  • the storage unit 370 stores in advance utterance time length data representing the time required for utterance.
  • the utterance time length information and the utterance time length data are substantially the same as the utterance time length information and the utterance time length data described in the second embodiment.
  • the recognition result determination unit 304 reads the utterance time length data from the storage unit 370 for the character string information determined by the exclusive vocabulary rejection unit 1042 that a word matching the exclusive vocabulary is not included and should be executed.
  • the utterance time length data is compared with the utterance time length information created by the voice acquisition unit, and it is determined again whether to discard or execute based on the comparison.
  • This character string information is an example of first information.
  • the recognition result determination unit 304 operates as follows.
  • the utterance time length determination unit 2043 again determines whether to reject or accept (execute) the character string information to which the flag input from the exclusive vocabulary rejection unit 1042 is not assigned based on the utterance time length.
  • the operation of the utterance time length determination unit 2043 is substantially the same as that of the utterance time length determination unit 2043 described in the second embodiment, and a description thereof will be omitted.
  • the utterance time length determination unit 2043 does not add a flag to the character string information determined to be based on the “control utterance”, and outputs it to the acceptance rejection transmission unit 1045 as it is.
  • the acceptance rejection transmitting unit 1045 outputs the character string information to which the flag is not given to the command processing unit 106 as it is as character string information to be accepted (executed).
  • the recognition result determination unit 404 shown in FIG. 8B includes an exclusive vocabulary rejection unit 1042, an utterance style determination unit 2044, and an acceptance rejection transmission unit 1045, and does not include an utterance time length determination unit 2043.
  • the speech recognition apparatus including the recognition result determination unit 404 shown in FIG. 8B operates as follows.
  • the voice acquisition unit (not shown) measures the length of the silent period that occurs before and after the user 700 utters based on the acquired voice and creates utterance style information.
  • the storage unit 470 stores in advance utterance style data representing the length of the silent period that occurs before and after the utterance.
  • the speech style information and speech style data are substantially the same as the speech style information and speech style data described in the second embodiment.
  • the recognition result determination unit 404 reads the utterance style data from the storage unit 470 for the character string information determined by the exclusive vocabulary rejection unit 1042 that the exclusive vocabulary does not contain a word that matches the exclusive vocabulary, and the read utterance
  • the form data is compared with the utterance form information created by the voice acquisition unit, and it is determined again whether to reject or execute based on the comparison.
  • This character string information is an example of first information.
  • the recognition result determination unit 404 specifically operates as follows.
  • the utterance style determination unit 2044 again determines whether to reject or accept (execute) the character string information to which the flag input from the exclusive vocabulary rejection unit 1042 is not assigned, based on the utterance style.
  • the operation of the utterance style determination unit 2044 is substantially the same as that of the utterance style determination unit 2044 described in Embodiment 2, and thus the description thereof is omitted.
  • the utterance style determination unit 2044 does not add a flag to the character string information determined to be based on the “control utterance”, and outputs it to the acceptance rejection transmission unit 1045 as it is.
  • the acceptance rejection transmitting unit 1045 outputs the character string information to which the flag is not given to the command processing unit 106 as it is as character string information to be accepted (executed).
  • the recognition result determination unit can improve the accuracy of speech recognition. Is possible.
  • the voice recognition server 50 may be provided in the voice recognition processing device 100.
  • the voice recognition server 50 may not be provided, and the voice recognition unit 102 alone may perform voice recognition.
  • 2, 3, 5, 6, 8 ⁇ / b> A, and 8 ⁇ / b> B may be configured as independent circuit blocks, and programmed to realize the operation of each block.
  • the software may be configured to be executed by a processor.
  • This disclosure is applicable to a device that executes a processing operation instructed by a voice by a user.
  • the present disclosure is applicable to portable terminal devices, television receivers, personal computers, set-top boxes, video recorders, game machines, smartphones, tablet terminals, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)
  • Signal Processing (AREA)

Abstract

 音声操作の操作性を向上する。そのために、音声認識処理装置(100)において、音声取得部(101)は、ユーザが発する音声を取得して音声情報を出力するように構成されている。音声認識部(102)は、音声情報を第1情報に変換するように構成されている。記憶部(170)は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部(104)は、第1情報と排他語彙とを比較し、排他語彙に一致する言葉が第1情報に含まれているときは、第1情報を棄却すべき情報と判定し、排他語彙に一致する言葉が第1情報に含まれていないときは、第1情報を実行すべき情報と判定する。

Description

音声認識処理装置、音声認識処理方法、および表示装置
 本開示は、ユーザが発した音声を認識して動作する音声認識処理装置、音声認識処理方法、および表示装置に関する。
 特許文献1は、音声認識機能を有する音声入力装置を開示する。この音声入力装置は、ユーザが発した音声を受信し、受信した音声を解析することによりユーザの音声が示す命令を認識(音声認識)し、音声認識した命令に応じて機器を制御するように構成されている。すなわち、特許文献1の音声入力装置は、ユーザが任意に発した音声を音声認識し、その音声認識した結果である命令(コマンド)に応じて機器を制御することができる。
 例えば、この音声入力装置を使用するユーザは、テレビジョン受像機(以下、「テレビ」と記す)やPC(Personal Computer)などでブラウザを操作しているときに、ブラウザ上に表示されているハイパーテキストの選択を、この音声入力装置の音声認識機能を利用して行うことができる。また、ユーザは、検索サービスを提供するウェブサイト(検索サイト)上での検索を、この音声認識機能を利用して行うこともできる。
 また、この音声入力装置においては、ユーザの利便性を高めるために、「トリガーレス認識」が行われることがある。「トリガーレス認識」とは、音声入力装置において、音声認識のための音声入力を受け付ける期間に制限を設けず、音声の集音と集音された音声に対する音声認識とが常に行われる状態のことである。しかしながら、この音声入力装置でトリガーレス認識を行うと、集音された音声が、音声認識を目的としてユーザが発声したものなのか、ユーザ同士の会話やユーザの独り言等の音声認識を目的としない音声なのか、を区別することが困難なため、音声認識を目的としない音声を誤って音声認識(誤認識)することがある。
日本国特許第4812941号公報
 本開示は、誤認識を低減し、ユーザの操作性を向上する音声認識処理装置および音声認識処理方法を提供する。
 本開示における音声認識処理装置は、音声取得部と、第1音声認識部と、記憶部と、認識結果判定部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第1音声認識部は、音声情報を第1情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第1情報と排他語彙とを比較し、第1情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部は、第1情報に、排他語彙に一致する言葉が含まれているときは、第1情報を棄却すべき情報と判定し、第1情報に、排他語彙に一致する言葉が含まれていないときは、第1情報を実行すべき情報と判定する。
 本開示における音声認識処理方法は、ユーザが発する音声を取得して音声情報に変換するステップと、音声情報を第1情報に変換するステップと、音声情報を第2情報に変換するステップと、第1情報と第2情報のいずれか一方を選択するステップと、選択された情報と、辞書に登録された排他語彙とを比較し、選択された情報に排他語彙と一致する言葉が含まれているか否かを判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれているときは、選択された情報を棄却すべき情報と判定するステップと、選択された情報に、排他語彙に一致する言葉が含まれていないときは、選択された情報を実行すべき情報と判定するステップと、を備える。
 本開示における表示装置は、音声取得部と、第1音声認識部と、記憶部と、認識結果判定部と、処理部と、表示部と、を備えている。音声取得部は、ユーザが発する音声を取得して音声情報を出力するように構成されている。第1音声認識部は、音声情報を第1情報に変換するように構成されている。記憶部は、排他語彙が登録された辞書をあらかじめ記憶している。認識結果判定部は、第1情報と排他語彙とを比較し、第1情報に排他語彙と一致する言葉が含まれているか否かを判定し、その判定にもとづき、第1情報を棄却すべきか実行すべきかを判定するように構成されている。処理部は、認識結果判定部において実行すべきと判定された第1情報にもとづく処理を実行するように構成されている。そして、認識結果判定部は、第1情報に、排他語彙に一致する言葉が含まれているときは、第1情報を棄却すべき情報と判定し、第1情報に、排他語彙に一致する言葉が含まれていないときは、第1情報を実行すべき情報と判定する。
 本開示における音声認識処理装置は、ユーザが音声操作するときの操作性を向上することができる。
図1は、実施の形態1における音声認識処理システムを概略的に示す図である。 図2は、実施の形態1における音声認識処理システムの一構成例を示すブロック図である。 図3は、実施の形態1における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。 図4は、実施の形態1における音声認識処理装置の一動作例を示すフローチャートである。 図5は、実施の形態2における音声認識処理システムの一構成例を示すブロック図である。 図6は、実施の形態2における音声認識処理装置の認識結果判定部の一構成例を示すブロック図である。 図7は、実施の形態2における認識結果判定部の一動作例を示すフローチャートである。 図8Aは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。 図8Bは、他の実施の形態における認識結果判定部の一構成例を示すブロック図である。
 以下、適宜図面を参照しながら、実施の形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明や実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。
 なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
 (実施の形態1)
 以下、図1~図4を用いて、実施の形態1を説明する。なお、本実施の形態では、音声認識処理装置を備えた表示装置の一例としてテレビジョン受像機(テレビ)10を挙げているが、表示装置は何らテレビ10に限定されるものではない。例えば、PCやタブレット端末、携帯端末等であってもよい。
 また、本実施の形態に示す音声認識処理システム11は、トリガーレス認識を行うものとするが、本開示は何らトリガーレス認識に限定されるものではなく、ユーザ700による音声認識の開始操作によって音声認識が開始されるシステムにも適用可能である。
 [1-1.構成]
 図1は、実施の形態1における音声認識処理システム11を概略的に示す図である。本実施の形態では、表示装置の一例であるテレビ10に音声認識処理装置が内蔵されている。
 本実施の形態における音声認識処理システム11は、表示装置の一例であるテレビ10と、音声認識サーバ50と、を備える。
 テレビ10で音声認識処理装置が起動すると、テレビ10の表示部140には、入力映像信号や受信された放送信号等にもとづく映像とともに、音声認識アイコン203と、集音されている音声の音量を示すインジケータ202と、が表示される。これは、ユーザ700の音声にもとづくテレビ10の操作(以下、「音声操作」と記す)が可能な状態になったことをユーザ700に示すとともに、ユーザ700に発話を促すためである。
 テレビ10が備える内蔵マイク130に向かってユーザ700が音声を発すると、その音声は、内蔵マイク130で集音され、集音された音声はテレビ10に内蔵された音声認識処理装置で音声認識される。テレビ10では、その音声認識の結果に応じてテレビ10の制御が行われる。
 テレビ10は、ユーザ700が発話した音声が内蔵されたマイクで集音されてテレビ10に無線送信されるように構成されたリモートコントローラまたは携帯端末、を備えた構成にすることも可能である。
 また、テレビ10は、ネットワーク40を介して音声認識サーバ50に接続されている。そして、テレビ10と音声認識サーバ50との間で通信することができる。
 図2は、実施の形態1における音声認識処理システム11の一構成例を示すブロック図である。
 テレビ10は、音声認識処理装置100と、表示部140と、送受信部150と、チューナ160と、記憶部171と、内蔵マイク130と、を有する。
 音声認識処理装置100は、ユーザ700が発する音声を取得し、取得した音声を解析するように構成されている。そして、その音声が示す指示を認識し、認識した結果に応じてテレビ10の制御を行うように構成されている。音声認識処理装置100の具体的な構成については後述する。
 内蔵マイク130は、主に表示部140の表示面に対向する方向から来る音声を集音するように構成されたマイクである。すなわち、内蔵マイク130は、テレビ10の表示部140に対面しているユーザ700が発する音声を集音できるように集音方向が設定されており、ユーザ700が発した音声を集音することが可能である。内蔵マイク130は、テレビ10の筐体内に設けられていてもよく、図1に一例を示したようにテレビ10の筐体外に設置されていてもよい。
 表示部140は、例えば液晶ディスプレイであるが、プラズマディスプレイ、または有機EL(ElectroLuminescence)ディスプレイ等であってもよい。表示部140は、表示制御部(図示せず)によって制御され、外部からの入力映像信号やチューナ160で受信された放送信号等にもとづく画像が表示される。
 送受信部150は、ネットワーク40に接続されており、ネットワーク40に接続された外部機器(例えば、音声認識サーバ50)と、ネットワーク40を通して通信を行うように構成されている。
 チューナ160は、地上放送や衛星放送のテレビジョン放送信号をアンテナ(図示せず)を介して受信するように構成されている。チューナ160は、専用ケーブルを介して送信されるテレビジョン放送信号を受信するように構成されていてもよい。
 記憶部171は、例えば不揮発性の半導体メモリであるが、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部171は、テレビ10の各部の制御に用いられる情報(データ)やプログラム等を記憶している。
 ネットワーク40は、例えばインターネットであるが、他のネットワークであってもよい。
 音声認識サーバ50は、「第2音声認識部」の一例である。音声認識サーバ50は、ネットワーク40を介してテレビ10と接続されるサーバ(クラウド上の辞書サーバ)である。音声認識サーバ50は、認識辞書55を備えており、テレビ10からネットワーク40を介して送信されてくる音声情報を受信するように構成されている。認識辞書55は、音声情報と音声認識モデルとを対応付けるためのデータベースである。そして、音声認識サーバ50は、受信した音声情報と認識辞書55の音声認識モデルとを照合し、受信した音声情報に、認識辞書55に登録された音声認識モデルに対応する音声情報が含まれているか否かを確認する。そして、受信した音声情報に、認識辞書55に登録された音声認識モデルに対応する音声情報が含まれていれば、その音声認識モデルが示す文字列を選択する。こうして、受信した音声情報を文字列に変換する。なお、この文字列は、複数の文字であってもよく、1文字であってもよい。そして、音声認識サーバ50は、変換後の文字列を示す文字列情報を、音声認識の結果として、ネットワーク40を介してテレビ10に送信する。この文字列情報は、「第2情報」の一例である。
 音声認識処理装置100は、音声取得部101と、音声認識部102と、認識結果取得部103と、認識結果判定部104と、コマンド処理部106と、記憶部170と、を有する。
 記憶部170は、例えば不揮発性の半導体メモリであり、任意にデータの書き込みと読み出しが可能である。記憶部170は、揮発性の半導体メモリ、またはハードディスク、等であってもよい。記憶部170は、音声認識部102や認識結果判定部104により参照される情報(例えば、認識辞書175)等も記憶している。認識辞書175は、「辞書」の一例である。認識辞書175は、音声情報と音声認識モデルとを対応付けるためのデータベースである。また、認識辞書175には排他対象リストも登録されている。排他対象リストの詳細は後述する。なお、記憶部170と記憶部171とは、一体に構成されていてもよい。
 音声取得部101は、ユーザ700が発した音声による音声信号を取得して音声情報に変換し、音声認識部102に出力する。
 音声認識部102は、「第1音声認識部」の一例である。音声認識部102は、音声情報を文字列情報に変換し、その文字列情報を音声認識の結果として認識結果取得部103に出力する。この文字列情報は、「第1情報」の一例である。また、音声認識部102は、音声取得部101から取得した音声情報を、送受信部150からネットワーク40を介して音声認識サーバ50に送信する。
 音声認識サーバ50は、テレビ10から受信した音声情報を、認識辞書55を参照して音声認識し、その音声認識の結果をテレビ10に返信する。
 認識結果取得部103は、「選択部」の一例である。認識結果取得部103は、音声認識部102から出力される音声認識の結果(第1情報)と、音声認識サーバ50から返信される音声認識の結果(第2情報)と、を受け取ると、それらを比較していずれか一方を選択する。そして、認識結果取得部103は、選択した方を認識結果判定部104へ出力する。
 認識結果判定部104は、認識結果取得部103から出力される音声認識の結果に対して、棄却すべきか実行(受理)すべきかの判定を行う。この詳細は後述する。そして、その判定にもとづき、音声認識の結果をコマンド処理部106または音声取得部201に出力する。
 コマンド処理部106は、認識結果判定部104からの出力(実行すべきと判定された音声認識の結果)にもとづき、コマンド処理(例えば、テレビ10の制御、等)を行う。コマンド処理部106は、「処理部」の一例であり、このコマンド処理は、「処理」の一例である。
 図3は、実施の形態1における音声認識処理装置100の認識結果判定部104の一構成例を示すブロック図である。
 認識結果判定部104は、排他語彙棄却部1042と、受理棄却送信部1045と、を備えている。これらの動作の詳細は後述する。
 [1-2.動作]
 次に、本実施の形態におけるテレビ10の音声認識処理装置100の動作について説明する。
 図3は、実施の形態1における音声認識処理装置100の一動作例を示すフローチャートである。
 音声取得部101は、ユーザ700が発した音声による音声信号を、テレビ10の内蔵マイク130から取得する(ステップS101)。
 音声取得部101は、リモートコントローラ(図示せず)に内蔵されたマイク、または携帯端末(図示せず)に内蔵されたマイクから、無線通信部(図示せず)を介して音声信号を取得してもよい。
 そして、音声取得部101は、その音声信号を、後段での各種処理に用いることができる音声情報に変換し、音声認識部102に出力する。なお、音声取得部101は、音声信号がデジタル信号であれば、その音声信号をそのまま音声情報として用いてもよい。
 音声認識部102は、音声取得部101から取得した音声情報を文字列情報に変換する。そして、音声認識の結果としてその文字列情報を認識結果取得部103に出力する。また、音声認識サーバ50は、テレビ10からネットワーク40を介して取得した音声情報を文字列情報に変換し、その文字列情報を音声認識の結果としてテレビ10に返信する(ステップS102)。
 具体的には、音声認識部102は、音声取得部101から取得した音声情報にもとづき、予め記憶部170に記憶されている認識辞書175内の受理対象リストを参照する。そして、その音声情報と、受理対象リストに登録された音声認識モデルとを比較する。
 音声認識モデルとは、音声情報と文字列情報とを対応付けるための情報である。音声認識を行う際には、複数の音声認識モデルのそれぞれと音声情報とが比較され、音声情報に合致または類似する1つの音声認識モデルが選択される。そして、その音声認識モデルに対応付けられた文字列情報が、その音声情報に対する音声認識の結果となる。受理対象リストには、例えば、テレビ10に対する指示(例えば、チャンネル変更や音量変更、等)、テレビ10の機能(例えば、ネットワーク接続機能、等)、テレビ10の各部の名称(例えば、電源、チャンネル、等)、テレビ10の画面に表示されるコンテンツに対する指示(例えば、拡大、縮小、スクロール、等)、等のテレビ10の操作に関連する音声認識モデルが登録されている。
 なお、記憶部170に記憶されている認識辞書175には、受理対象リストに加え、後述する排他対象リスト(図2には示さず)も登録されている。
 音声認識部102は、音声情報と受理対象リストに登録された音声認識モデルとを照合する。そして、音声取得部101から取得した音声情報に、受理対象リストに登録された音声認識モデルに対応するものが含まれていれば、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果として認識結果取得部103に出力する。
 音声認識部102は、音声情報と音声認識モデルとの照合時に、認識スコアを算出する。認識スコアとは、尤度(ゆうど)を示す数値であり、音声情報がその音声認識モデルにどの程度合致または類似しているかを示す指標であって、数値が大きいほど類似度が高い。音声認識部102は、音声情報と音声認識モデルとを照合し、複数の音声認識モデルを候補として選択する。このとき、音声認識部102は、それぞれの音声認識モデルに対して、認識スコアを算出する。なお、この認識スコアの算出手法は、一般的に知られた手法でかまわない。そして、あらかじめ設定された閾値以上で、かつ最も高い認識スコアの音声認識モデルを選択し、その音声認識モデルに対応する文字列情報を、音声認識の結果として出力する。なお、音声認識部102は、その文字列情報とともに、その文字列情報に関連する認識スコアを認識結果取得部103に出力してもよい。
 こうして、音声認識部102は、音声情報を文字列情報に変換する。なお、音声認識部102は、音声情報を文字列情報以外の情報に変換して出力してもよい。また、音声認識部102は、閾値以上の認識スコアの音声認識モデルがなければ、音声認識不能を示す情報を出力してもよい。
 また、音声認識部102は、音声取得部101から取得した音声情報を、送受信部150からネットワーク40を介して音声認識サーバ50に送信する。
 音声認識サーバ50は、テレビ10から受信した音声情報にもとづき、認識辞書55を参照する。そして、その音声情報を、認識辞書55内の音声認識モデルと照合して、文字列情報に変換する。
 音声認識サーバ50は、受信した音声情報を認識辞書55内の音声認識モデルと比較するときに、認識スコアを算出する。この認識スコアは、音声認識部102で算出される認識スコアと同様の尤度を示す数値であり、音声認識部102で認識スコアを算出するときと同様の手法で算出される。音声認識サーバ50は、音声認識部102と同様に、受信した音声情報にもとづき複数の音声認識モデルを候補として選択し、その候補の中から認識スコアにもとづき1つの音声認識モデルを選択する。そして、音声認識サーバ50は、その音声認識モデルに対応付けられた文字列情報を、音声認識の結果としてテレビ10に返信する。音声認識サーバ50は、その文字列情報とともに、その文字列情報に関連する認識スコアをテレビ10に送信してもよい。
 音声認識サーバ50は、ネットワーク40を通していろいろな用語を収集し、それらの用語を認識辞書55に登録することができるように構成されている。そのため、音声認識サーバ50は、テレビ10が備える認識辞書175と比較して、より多くの音声認識モデルを備えることができる。したがって、音声認識サーバ50では、テレビ10の機能やテレビ10への指示とは関係ない言葉(例えば、ユーザ同士の会話や独り言、等)をユーザ700が発話したときに、その音声に対する音声認識の認識スコアが、テレビ10の音声認識部102が同様の音声認識を行ったときと比較して、高くなる可能性が高い。
 音声認識サーバ50からネットワーク40を介して音声認識の結果を受け取った送受信部150は、その音声認識の結果を認識結果取得部103に出力する。
 認識結果取得部103は、音声認識部102と音声認識サーバ50とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する(ステップS103)。
 この判別ルールは、例えば、音声認識部102から受け取った音声認識の結果に付随する認識スコアと、音声認識サーバ50から受け取った音声認識の結果に付随する認識スコアとを互いに比較し、認識スコアが高い方の音声認識結果を選択する、といったものでも良い。認識結果取得部103は、選択した音声認識結果を認識結果判定部104へ出力する。
 なお、認識結果取得部103は、音声認識部102と音声認識サーバ50とのいずれか一方からしか音声認識の結果を受け取ることができないときは、ステップS103の処理をスキップし、受け取った音声認識の結果をそのまま出力してもよい。
 図3に示す認識結果判定部104の排他語彙棄却部1042は、認識結果取得部103から出力される音声認識の結果に、排他対象リストに登録された語彙(排他語彙)に一致しているものがあるか否かを判定する(ステップS104)。
 排他対象リストとは、テレビ10の音声操作には用いられないと判断された言葉(語彙)を排他語彙として登録したリストである。排他語彙は、例えば、記憶部170の認識辞書175に受理対象リストとして登録された語彙を除く語彙である。この排他対象リストは、記憶部170の認識辞書175にあらかじめ登録されているが、新規の排他語彙を任意に追加できるように構成されていてもよい。なお、テレビ10を音声操作する際にユーザ700が発話する言葉に発音が似ていて、かつ、テレビ10の音声操作とは関係がない語彙を排他語彙として排他対象リストに登録しておけば、音声認識の精度を向上させることができる。
 ステップS104では、排他語彙棄却部1042は、記憶部170に記憶されている認識辞書175内の排他対象リストと、認識結果取得部103から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部1042は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部1045に出力する(Yes)。
 受理棄却送信部1045は、排他語彙棄却部1042から入力される文字列情報にフラグが付与されていれば、その文字列情報を、棄却情報として音声取得部101へ出力する。棄却情報を受け取った音声取得部101は、次の音声認識に備えて音声取得の準備をする(ステップS106)。したがって、コマンド処理部106は、フラグが付与された文字列情報(棄却情報)に関しては、何ら処理を行わない。
 ステップS104において、排他語彙棄却部1042は、排他語彙に一致しない文字列情報は、受理(実行)すべき情報であると判定し、フラグを付与せずに受理棄却送信部1045に出力する(No)。
 受理棄却送信部1045は、排他語彙棄却部1042から入力される文字列情報にフラグが付与されていなければ、その文字列情報をコマンド処理部106へ出力する。コマンド処理部106は、受理棄却送信部1045から受け取った文字列情報が表す指示にもとづきコマンド処理を実行する(ステップS105)。
 例えば、文字列情報に、チャンネル変更や音量変更等のテレビ10の制御に関するコマンド情報が含まれていれば、コマンド処理部106は、そのコマンド情報に対応した動作がテレビ10で実行されるように、テレビ10の制御部(図示せず)に指示を出す。
 ステップS105の終了後、コマンド処理部106は、音声取得部101に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部101は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
 [1-3.効果等]
 以上のように本実施の形態において、音声認識処理装置100は、音声取得部101と、第1音声認識部の一例である音声認識部102と、記憶部170と、認識結果判定部104と、を備えている。音声取得部101は、ユーザ700が発する音声を取得して音声情報を出力するように構成されている。音声認識部102は、音声情報を、第1情報の一例である文字列情報に変換するように構成されている。記憶部170は、排他語彙が登録された認識辞書175をあらかじめ記憶している。認識辞書175は辞書の一例である。認識結果判定部104は、文字列情報と排他語彙とを比較し、文字列情報に排他語彙と一致する言葉が含まれているか否かを判定する。そして、認識結果判定部104は、文字列情報に、排他語彙に一致する言葉が含まれているときは、文字列情報を棄却すべき情報と判定し、文字列情報に、排他語彙に一致する言葉が含まれていないときは、文字列情報を実行すべき情報と判定する。
 また、音声認識処理装置100は、第2音声認識部の一例である音声認識サーバ50と、選択部の一例である認識結果取得部103と、をさらに備えていてもよい。この場合、音声認識サーバ50は、音声情報を、第2情報の一例である文字列情報に変換するように構成されている。認識結果取得部103は、音声認識部102が出力する文字列情報と、音声認識サーバ50が出力する文字列情報との、いずれか一方を選択して出力するように構成されている。そして、認識結果判定部104は、認識結果取得部103において選択された方の文字列情報に対して、棄却すべきか実行すべきかの判定を行う。
 第2音声認識部の一例である音声認識サーバ50はネットワーク40上に設置されていてもよい。音声認識処理装置100は、ネットワーク40を介して音声認識サーバ50と通信を行うように構成された送受信部150を備えていてもよい。
 このように構成された音声認識処理装置100では、ユーザ700が音声操作のために発する音声と、ユーザ700同士での会話や独り言による音声と、を精度よく判別し、誤認識を低減して、音声認識の精度を向上することができる。
 例えば、テレビ10を音声操作する際に発話される言葉に発音が似ていて、かつ、テレビ10の音声操作とは関係がない言葉を、ユーザ700が発話したとする。このとき、音声認識部102は、その音声にもとづく音声認識の結果として、受理対象リストに登録された文字列情報を出力する(すなわち、誤認識をする)可能性が高い。
 一方、ネットワーク40を通して登録内容が更新され認識辞書175よりも多くの音声認識モデル(語彙)が登録されていると考えられる認識辞書55を有する音声認識サーバ50では、そのような音声に対して、より正しい音声認識が行われる可能性が高い。
 したがって、誤認識されやすい音声を音声認識部102が誤認識して出力する文字列情報に付随する認識スコアよりも、その音声を音声認識サーバ50が音声認識して出力する文字列情報に付随する認識スコアの方が数値が大きく、音声認識サーバ50から出力される文字列情報が認識結果取得部103で選択される可能性は高いと考えられる。
 そして、この文字列情報に対応する語彙が排他語彙として認識辞書175内の排他対象リストに登録されていれば、排他語彙棄却部1042では、その文字列情報は棄却すべき情報と判断される。
 このように、本実施の形態によれば、音声認識部102で誤って音声認識されるような音声に対する音声認識の精度を高め、誤認識による誤ったコマンド処理がコマンド処理部106でなされることを防止することができる。
 また、ユーザ700が発話する音声が十分な大きさでなかったり、雑音が多いとき等も、音声認識部102で誤認識が生じる可能性が高いが、そのような場合も音声認識の精度を高めることができる。
 なお、音声認識部102が有する認識辞書175が、音声認識サーバ50の認識辞書55と同様に、ネットワーク40等を通して登録内容を更新できるように構成されていれば、テレビ10だけで音声認識を実施するように音声認識処理システム11を構成してもよい。このような構成であっても、認識結果判定部104の働きにより、誤認識を低減して音声認識の精度を高めることができる。
 (実施の形態2)
 次に、図5~図7を用いて、実施の形態2を説明する。実施の形態2では、ユーザ700が発話する可能性の高い言葉(例えば、テレビ10の動作や機能等に関する言葉)に対する音声認識の精度を高める手法について説明する。
 [2-1.構成]
 図5は、実施の形態2における音声認識処理システム21の一構成例を示すブロック図である。
 本実施の形態における音声認識処理システム21は、表示装置の一例であるテレビ20と、音声認識サーバ50と、を備える。この音声認識サーバ50は、実施の形態1で説明した音声認識サーバ50と実質的に同じものであるので、説明を省略する。
 テレビ20は、音声認識処理装置200と、表示部140と、送受信部150と、チューナ160と、記憶部171と、内蔵マイク130と、を有する。音声認識処理装置200は、音声取得部201と、音声認識部102と、認識結果取得部103と、認識結果判定部204と、コマンド処理部106と、記憶部270と、を有する。
 なお、実施の形態1で説明したテレビ10が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態1と同じ符号を付与し、説明を省略する。
 また、記憶部270内の認識辞書175には、実施の形態1で説明した受理対象リストおよび排他対象リストと同様の受理対象リストおよび排他対象リストが登録されているものとする。
 実施の形態2における音声認識処理装置200は、実施の形態1で説明した音声認識処理装置100とは、音声取得部201および認識結果判定部204における動作に差異がある。
 音声取得部201は、実施の形態1で説明した音声取得部101と同様に、ユーザ700が発した音声による音声信号を、内蔵マイク130から取得する。ただし、音声取得部201は、実施の形態1に示した音声取得部101とは異なり、取得した音声信号にもとづき、発話時間長情報と発話様式情報とを作成する。
 発話時間長情報とは、ユーザ700が発話した時間の長さを示す情報のことである。音声取得部201は、例えば、あらかじめ設定したしきい値以上の音量の音声が連続して生じる時間の長さを測定することで、発話時間長情報を作成することができる。音声取得部201は、他の手法により発話時間長情報を作成してもよい。
 発話様式情報とは、ユーザ700の発話の前後に生じる無音声または実質的に無音声と見なせる時間の長さを示す情報のことである。音声取得部201は、例えば、音量があらかじめ設定したしきい値未満になる状態を無音声とし、発話の前後に生じる無音声期間の長さを測定することで、発話様式情報を作成することができる。音声取得部201は、他の手法により発話様式情報を作成してもよい。
 音声取得部201は、音声情報に発話時間長情報と発話様式情報とをそれぞれ付加し、音声認識部102に出力する。
 複数のユーザ700同士の会話やユーザ700の独り言等に、受理対象リストに登録された語彙(受理対象語彙)が含まれることがある。そして、その音声が内蔵マイク130に集音されてその音声にもとづく音声情報が音声認識部102に入力されることがある。そのような場合、その音声情報にもとづく誤った音声認識が音声認識部102で行われ、ユーザ700にテレビ20を音声操作する意図がないにも関わらず、誤認識にもとづく誤ったコマンド処理がコマンド処理部106で行われてしまう可能性がある。本実施の形態では、そのような誤認識の発生を低減するために、実施の形態1で説明した排他対象リストに加え、「発話時間長情報」と「発話様式情報」とを用いた音声認識を行う。
 発話時間長情報と発話様式情報との詳細は後述する。また、音声認識部102は、発話時間長情報と発話様式情報とを付加した音声情報を、送受信部150およびネットワーク40を介して音声認識サーバ50に送信する。
 [2-2.動作]
 次に、本実施の形態におけるテレビ20の音声認識処理装置200が有する認識結果判定部204の構成および動作を図6と図7を用いて説明する。
 図6は、実施の形態2における音声認識処理装置200の認識結果判定部204の一構成例を示すブロック図である。
 認識結果判定部204は、排他語彙棄却部1042と、発話時間長判定部2043と、発話様式判定部2044と、受理棄却送信部1045と、を備えている。
 図7は、実施の形態2における認識結果判定部204の一動作例を示すフローチャートである。
 認識結果取得部103は、実施の形態1で説明したステップS103と同様に、音声認識部102と音声認識サーバ50とのそれぞれから音声認識の結果を受け取ると、判別ルールに従ってどちらか一方の音声認識結果を選択する(ステップS103)。この判別ルールは実施の形態1で説明した判別ルールと実質的に同じものである。
 認識結果判定部204の排他語彙棄却部1042は、実施の形態1で説明したステップS104と同様に、認識結果取得部103から出力される音声認識の結果に、排他対象リストに登録された語彙(排他語彙)と一致しているものがあるか否かを判定する(ステップS104)。
 ステップS104では、排他語彙棄却部1042は、実施の形態1で説明した排他語彙棄却部1042と同様に、記憶部270に記憶されている認識辞書175内の排他対象リストと、認識結果取得部103から出力される音声認識の結果である文字列情報と、を照合し、排他対象リストに含まれた排他語彙に一致する文字列情報の有無を調べる。そして、排他語彙棄却部1042は、排他語彙に一致する文字列情報は、棄却すべき情報であると判定し、フラグを付与して受理棄却送信部1045へ出力する(Yes)。
 受理棄却送信部1045は、実施の形態1で説明した受理棄却送信部1045と同様に、フラグが付与された文字列情報を、棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
 一方、ステップS104において、排他語彙棄却部1042は、排他語彙に一致しない文字列情報は、フラグを付与せずにそのまま発話時間長判定部2043へ出力する(No)。
 発話時間長判定部2043は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話時間長にもとづき、再度行う(ステップS200)。
 ここで、発話時間長判定部2043で使用する「発話時間長」について説明する。発話時間長とは、発話の時間の長さのことである。ここでは、ユーザ700がテレビ20を音声操作するために行う発話を「制御用発話」と記し、テレビ20の音声操作を目的としない発話(ユーザ700同士の会話やユーザ700の独り言等)を「会話用発話」と記す。
 本実施の形態では、認識辞書175に登録された受理対象リストに含まれる受理対象語彙のそれぞれに対応する発話時間長データ(発話に要する時間の長さを示すデータ)が、あらかじめ記憶部270に記憶されている。これにより、発話時間長判定部2043は、音声認識の結果として選択された受理対象語彙の発話時間長を算出することができる。なお、この発話時間長データには、発話速度の個人差等を加味して、幅(レンジ)を持たせておくことが望ましい。
 「制御用発話」は、1単語もしくは2単語程度で構成されることが多いことが確認されている。また、それらの単語(語彙)の全てが、受理対象リストに登録された受理対象語彙である可能性は高い。したがって、「制御用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部201で作成された発話時間長情報が示す「制御用発話」の発話時間長に近似する可能性が高い。なお、音声認識の結果として複数の受理対象語彙が選択されたときは、それら複数の受理対象語彙に対応する発話時間長データにもとづき発話時間長が算出されるものとする。
 一方、「会話用発話」は、複数の単語で構成されることが多く、また、それらの単語(語彙)に、受理対象リストに登録された受理対象語彙に対応するものが含まれる可能性は低い。したがって、「会話用発話」を音声認識すると、音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長は、音声取得部201で作成された発話時間長情報が示す「会話用発話」の発話時間長よりも短くなる可能性が高い。
 これらのことから、音声認識処理装置200では、音声認識部102で音声認識の結果として選択された受理対象語彙の発話時間長データにもとづく発話時間長と、音声取得部201で作成された発話時間長情報にもとづく発話時間長とを比較することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態2では、その判定を発話時間長判定部2043が行う。
 ステップS200では、発話時間長判定部2043は、音声認識の結果として認識結果取得部103から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話時間長データを記憶部270から読み出す。発話時間長判定部2043は、受け取る受理対象語彙が複数であれば、それら全てに関する発話時間長データを記憶部270から読み出す。そして、読み出された発話時間長データにもとづき発話時間長を算出する。そして、その算出結果と、音声取得部201で作成された発話時間長情報が示す発話時間長とを比較する。なお、発話時間長判定部2043は、算出された発話時間長と、発話時間長情報が示す発話時間長とをそのまま比較してもよいが、算出された発話時間長にもとづき判定のための範囲を設定してもよい。ここでは、範囲を設定して比較を行う例を説明する。
 ステップS200では、音声取得部201で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲外であれば(No)、発話時間長判定部2043は、排他語彙棄却部1042から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであり、棄却すべき情報であると判定し、この文字列情報にフラグを付与して受理棄却送信部1045へ出力する。
 受理棄却送信部1045は、発話時間長判定部2043から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
 一方、ステップS200では、音声取得部201で作成された発話時間長情報が示す発話時間長が、算出された発話時間長にもとづき設定される範囲内であれば(Yes)、発話時間長判定部2043は、排他語彙棄却部1042から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま発話様式判定部2044へ出力する。
 なお、発話時間長判定部2043は、例えば、算出された発話時間長を所定倍(例えば、1.5倍)して、判定のための範囲を設定してもよい。この数値は単なる一例に過ぎず、他の数値であってもよい。あるいは、発話時間長判定部2043は、あらかじめ設定された数値を、算出された発話時間長に加算する等して、判定のための範囲を設定してもよく、その他の手法で範囲を設定してもよい。
 発話様式判定部2044は、発話時間長判定部2043から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話様式にもとづき、再度行う(ステップS201)。
 ここで、発話様式判定部2044で使用する「発話様式」について説明する。この「発話様式」とは、ユーザ700が発話する直前に発生する無音声または実質的に無音声とみなせる期間(以下、「ポーズ期間」と記す)、および、ユーザ700が発話し終えた直後に発生するポーズ期間、のことである。
 「制御用発話」と「会話用発話」とを比較した結果、発話様式に関して差異があることが確認された。
 「制御用発話」の場合は、ユーザ700が発話する前後に、「会話用発話」と比較して長いポーズ期間が存在する。ユーザ700が発話する直前に生じるポーズ期間は、発話の準備のための期間である。ユーザ700が発話し終えた直後に生じるポーズ期間は、発話した内容に対応する動作(音声操作にもとづく動作)が開始されるのを待つ期間である。
 一方、「会話用発話」の場合は、ユーザ700の発話の前後に、このようなポーズ期間は、相対的に少ない。
 したがって、発話の前後におけるポーズ期間の長さを検出することで、音声認識の対象となる音声が、「制御用発話」によるものなのか、それとも「会話用発話」によるものなのか、を判定することができる。そして、本実施の形態2では、音声取得部201が作成した発話様式情報にもとづき、発話様式判定部2044がその判定を行う。
 ステップS201では、発話様式判定部2044は、発話時間長判定部2043から出力される受理対象語彙にもとづき、その受理対象語彙に関連付けられた発話様式データを記憶部270から読み出す。この発話様式データとは、その受理対象語彙の発話の前後に生じる各ポーズ期間の長さを示すデータのことである。本実施の形態では、受理対象語彙に関連付けられた発話様式データが、あらかじめ記憶部270に記憶されている。そして、発話様式判定部2044は、記憶部270から読み出された発話様式データと、発話時間長判定部2043から入力される文字列情報に付加されている発話様式情報(音声取得部201で作成された発話様式情報)とを比較する。
 具体的には、発話様式判定部2044は、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さと、記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さとをそれぞれ比較する。なお、発話様式判定部2044は、音声取得部201で作成された発話様式情報と、記憶部270から読み出された発話様式データとをそのまま比較してもよいが、記憶部270から読み出された発話様式データにもとづき、判定のための範囲を設定してもよい。なお、発話様式判定部2044は、受け取る受理対象語彙が複数であれば、それら全てに関する発話様式データを記憶部270から読み出し、いずれか数値の大きいものを選択してもよい。あるいは、いずれか数値の小さいものを選択してもよく、または平均値や中間値を算出してもよい。
 ステップS201では、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さの少なくとも一方が、記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さ未満であれば(No)、発話様式判定部2044は、発話時間長判定部2043から出力されるフラグが付与されていない文字列情報は「会話用発話」にもとづくものであると判定し、この文字列情報にフラグを付与して受理棄却送信部1045へ出力する。
 受理棄却送信部1045は、発話様式判定部2044から入力される文字列情報にフラグが付与されていれば、その文字列情報を棄却情報として音声取得部201へ出力する。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
 一方、ステップS201では、音声取得部201で作成された発話様式情報が示す発話前後のポーズ期間の長さが、ともに記憶部270から読み出された発話様式データが示す発話前後のポーズ期間の長さ以上であれば(Yes)、発話様式判定部2044は、発話時間長判定部2043から出力されるフラグが付与されていない文字列情報は「制御用発話」にもとづくものであると判定し、この文字列情報にフラグを付与せず、そのまま受理棄却送信部1045へ出力する。
 これにより、受理棄却送信部1045が受け取るフラグが付与されていない文字列情報は、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいてもフラグが付与されなかった文字列情報となる。言い換えると、受理棄却送信部1045に入力される文字列情報にフラグが付与されていなければ、その文字列情報は、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいても受理すべき(コマンド処理を実行すべき)と判断された文字列情報である。一方、受理棄却送信部1045に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれかにおいて棄却情報と判断された文字列情報である。
 受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
 コマンド処理部106は、受理棄却送信部1045から受け取った文字列情報が示す指示にもとづきコマンド処理を実行する(ステップS105)。
 ステップS105の終了後、コマンド処理部106は、音声取得部201に、コマンド処理が終了したことを示す信号を送信する。その信号を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする(ステップS106)。
 ステップS106では、フラグが付与された文字列情報は、棄却情報として受理棄却送信部1045から音声取得部201へ出力される。棄却情報を受け取った音声取得部201は、次の音声認識に備えて音声取得の準備をする。
 なお、ステップS200とステップS201とはどちらが先に実行されてもかまわない。
 [2-3.効果等]
 以上のように本実施の形態において、音声認識処理装置200は、音声取得部201と、認識結果判定部204と、記憶部270と、を備える。音声取得部201は、取得した音声にもとづき、ユーザ700が発話した時間の長さを測定して発話時間長情報を作成する。また、音声取得部201は、取得した音声にもとづき、ユーザ700の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部270には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データと、があらかじめ記憶されている。認識結果判定部204は、排他語彙に一致する言葉が含まれておらず実行すべきと判定された文字列情報に関して、発話時間長データを記憶部270から読み出し、読み出した発話時間長データと、音声取得部201で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。そして、実行すべきと判定された文字列情報に関して、発話様式データを記憶部270から読み出し、読み出した発話様式データと、音声取得部201で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
 このように構成された音声認識処理装置200では、受理棄却送信部1045に入力される文字列情報にフラグが付与されていなければ、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれにおいても、受理すべき(コマンド処理すべき)と判断された文字列情報である。一方、受理棄却送信部1045に入力される文字列情報にフラグが付与されていれば、それは、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のいずれかにおいて棄却情報と判断された文字列情報である。このように、本実施の形態では、音声認識の結果として認識結果取得部103が受け取った文字列情報を、排他語彙棄却部1042、発話時間長判定部2043および発話様式判定部2044のそれぞれで、受理(コマンド処理)すべきか棄却すべきかを判定する。そして、いずれか1つでも棄却すべきと判定されたものは棄却され、全てにおいて受理すべきと判定された文字列情報だけがコマンド処理される。
 これにより、音声認識処理装置200では、音声認識される音声が、「制御用発話」にもとづくものなのか、それとも「会話用発話」にもとづくものなのか、を精度よく判定することができるので、誤認識を低減し、音声認識の精度をより向上することができる。
 (他の実施の形態)
 以上のように、本出願において開示する技術の例示として、実施の形態1、2を説明した。しかしながら、本開示における技術は、これに限定されず、変更、置き換え、付加、省略等を行った実施の形態にも適用できる。また、上記実施の形態1、2で説明した各構成要素を組み合わせて、新たな実施の形態とすることも可能である。
 そこで、以下、他の実施の形態を例示する。
 実施の形態2では、認識結果判定部204に、排他語彙棄却部1042に加えて、発話時間長判定部2043と発話様式判定部2044を備え、音声認識の精度を高める構成を説明した。しかし、認識結果判定部は、排他語彙棄却部1042に、発話時間長判定部2043と発話様式判定部2044のいずれか一方を組み合わせて備える構成であっても音声認識の精度を高めることができる。
 図8Aは、他の実施の形態における認識結果判定部304の一構成例を示すブロック図である。図8Bは、他の実施の形態における認識結果判定部404の一構成例を示すブロック図である。
 なお、実施の形態1、2で説明したテレビ10、20が備える構成要素と実質的に同じ動作をする構成要素に関しては、実施の形態1、2と同じ符号を付与し、説明を省略する。
 図8Aに示す認識結果判定部304は、排他語彙棄却部1042と、発話時間長判定部2043と、受理棄却送信部1045と、を備え、発話様式判定部2044は備えない構成である。
 図8Aに示す認識結果判定部304を備えた音声認識装置は、次のように動作する。
 音声取得部(図示せず)は、取得した音声にもとづき、ユーザ700が発話した時間の長さを測定して発話時間長情報を作成する。記憶部370には、発話に要する時間を表す発話時間長データがあらかじめ記憶されている。この発話時間長情報および発話時間長データは、実施の形態2で説明した発話時間長情報および発話時間長データと実質的に同じものである。
 認識結果判定部304は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部1042で判定された文字列情報に関して、発話時間長データを記憶部370から読み出し、読み出した発話時間長データと、音声取得部で作成された発話時間長情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
 認識結果判定部304は、具体的には次のように動作する。
 発話時間長判定部2043は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話時間長にもとづき、再度行う。
 発話時間長判定部2043の動作は、実施の形態2で説明した発話時間長判定部2043と実質的に同じであるので、説明を省略する。
 発話時間長判定部2043は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部1045へ出力する。受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
 図8Bに示す認識結果判定部404は、排他語彙棄却部1042と、発話様式判定部2044と、受理棄却送信部1045と、を備え、発話時間長判定部2043は備えない構成である。
 図8Bに示す認識結果判定部404を備えた音声認識装置は、次のように動作する。
 音声取得部(図示せず)は、取得した音声にもとづき、ユーザ700の発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成する。記憶部470には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶されている。この発話様式情報および発話様式データは、実施の形態2で説明した発話様式情報および発話様式データと実質的に同じものである。
 認識結果判定部404は、排他語彙に一致する言葉が含まれておらず実行すべきと排他語彙棄却部1042で判定された文字列情報に関して、発話様式データを記憶部470から読み出し、読み出した発話様式データと、音声取得部で作成された発話様式情報とを比較し、その比較にもとづき棄却すべきか実行すべきかの判定を再度行う。この文字列情報は第1情報の一例である。
 認識結果判定部404は、具体的には次のように動作する。
 発話様式判定部2044は、排他語彙棄却部1042から入力されたフラグが付与されていない文字列情報に関して、棄却すべきか受理(実行)すべきかの判定を、発話様式にもとづき、再度行う。
 発話様式判定部2044の動作は、実施の形態2で説明した発話様式判定部2044と実質的に同じであるので、説明を省略する。
 発話様式判定部2044は、「制御用発話」にもとづくものであると判定した文字列情報にはフラグを付与せず、そのまま受理棄却送信部1045へ出力する。受理棄却送信部1045は、フラグが付与されていない文字列情報を、受理(実行)すべき文字列情報として、そのままコマンド処理部106へ出力する。
 認識結果判定部は、例えば図8A、図8Bに示すような、発話時間長判定部2043と発話様式判定部2044のいずれか一方のみを備える構成であっても、音声認識の精度を向上することが可能である。
 なお、本実施の形態では、音声認識サーバ50がネットワーク40上に配置された例を説明したが、音声認識サーバ50は音声認識処理装置100に備えられていてもよい。あるいは、音声認識サーバ50を備えず、音声認識部102だけで音声認識を行う構成とすることも可能である。
 なお、図2、図3、図5、図6、図8A、図8Bに示した各ブロックは、それぞれが独立した回路ブロックとして構成されてもよく、各ブロックの動作を実現するようにプログラムされたソフトウエアをプロセッサで実行する構成であってもよい。
 本開示は、ユーザが音声で指示する処理動作を実行する機器に適用可能である。具体的には、携帯端末機器、テレビジョン受像機、パーソナルコンピュータ、セットトップボックス、ビデオレコーダ、ゲーム機、スマートフォン、タブレット端末、等に本開示は適用可能である。
10,20  テレビジョン受像機
11,21  音声認識処理システム
40  ネットワーク
50  音声認識サーバ
55,175  認識辞書
100,200  音声認識処理装置
101,201  音声取得部
102  音声認識部
103  認識結果取得部
104,204,304,404  認識結果判定部
106  コマンド処理部
130  内蔵マイク
140  表示部
150  送受信部
160  チューナ
170,171,270,370,470  記憶部
202  インジケータ
203  音声認識アイコン
700  ユーザ
1042  排他語彙棄却部
1045  受理棄却送信部
2043  発話時間長判定部
2044  発話様式判定部

Claims (8)

  1. ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
    前記音声情報を第1情報に変換するように構成された第1音声認識部と、
    排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
    前記第1情報と前記排他語彙とを比較し、前記第1情報に前記排他語彙と一致する言葉が含まれているか否かを判定する認識結果判定部と、
    を備え、
    前記認識結果判定部は、
    前記第1情報に、前記排他語彙に一致する言葉が含まれているときは、前記第1情報を棄却すべき情報と判定し、
    前記第1情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第1情報を実行すべき情報と判定する、
    音声認識処理装置。
  2. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成し、
    前記記憶部には、発話に要する時間を表す発話時間長データがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話時間長データを前記記憶部から読み出し、
    読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  3. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
    前記記憶部には、発話の前後に生じる無音声期間の長さを表す発話様式データがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話様式データを前記記憶部から読み出し、
    読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  4. 前記音声取得部は、取得した前記音声にもとづき、前記ユーザが発話した時間の長さを測定して発話時間長情報を作成するとともに、前記ユーザの発話の前後に生じる無音声期間の長さを測定して発話様式情報を作成し、
    前記記憶部には、発話に要する時間を表す発話時間長データと、発話の前後に生じる無音声期間の長さを表す発話様式データとがあらかじめ記憶され、
    前記認識結果判定部は、
    前記排他語彙に一致する言葉が含まれておらず実行すべきと判定された前記第1情報に関して、
    前記発話時間長データを前記記憶部から読み出し、
    読み出した前記発話時間長データと、前記音声取得部で作成された前記発話時間長情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行い、実行すべきと判定された前記第1情報に関して、
    前記発話様式データを前記記憶部から読み出し、
    読み出した前記発話様式データと、前記音声取得部で作成された前記発話様式情報とを比較し、前記比較にもとづき棄却すべきか実行すべきかの判定を再度行う、
    請求項1に記載の音声認識処理装置。
  5. 前記音声情報を第2情報に変換するように構成された第2音声認識部と、
    前記第1情報と前記第2情報とのいずれか一方を選択して出力するように構成された選択部と、をさらに備え、
    前記認識結果判定部は、
    前記選択部において選択された方の情報に対して、棄却すべきか実行すべきかの判定を行う、
    請求項1に記載の音声認識処理装置。
  6. 前記第2音声認識部はネットワーク上に設置され、
    前記ネットワークを介して、前記第2音声認識部と通信を行うように構成された送受信部を備えた、
    請求項5に記載の音声認識処理装置。
  7. ユーザが発する音声を取得して音声情報に変換するステップと、
    前記音声情報を第1情報に変換するステップと、
    前記音声情報を第2情報に変換するステップと、
    前記第1情報と前記第2情報のいずれか一方を選択するステップと、
    前記選択された情報と、辞書に登録された排他語彙とを比較し、前記選択された情報に前記排他語彙と一致する言葉が含まれているか否かを判定するステップと、
    前記選択された情報に、前記排他語彙に一致する言葉が含まれているときは、前記選択された情報を棄却すべき情報と判定するステップと、
    前記選択された情報に、前記排他語彙に一致する言葉が含まれていないときは、前記選択された情報を実行すべき情報と判定するステップと、
    を備えた音声認識処理方法。
  8. ユーザが発する音声を取得して音声情報を出力するように構成された音声取得部と、
    前記音声情報を第1情報に変換するように構成された第1音声認識部と、
    排他語彙が登録された辞書をあらかじめ記憶させた記憶部と、
    前記第1情報と前記排他語彙とを比較し、前記第1情報に前記排他語彙と一致する言葉が含まれているか否かを判定し、前記判定にもとづき、前記第1情報を棄却すべきか実行すべきかを判定するように構成された認識結果判定部と、
    前記認識結果判定部において実行すべきと判定された前記第1情報にもとづく処理を実行するように構成された処理部と、
    表示部と、
    を備え、
    前記認識結果判定部は、
    前記第1情報に、前記排他語彙に一致する言葉が含まれているときは、前記第1情報を棄却すべき情報と判定し、
    前記第1情報に、前記排他語彙に一致する言葉が含まれていないときは、前記第1情報を実行すべき情報と判定する、
    表示装置。
PCT/JP2014/006449 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置 WO2015098109A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
EP14875013.6A EP3089158B1 (en) 2013-12-26 2014-12-25 Speech recognition processing
US15/023,384 US9767795B2 (en) 2013-12-26 2014-12-25 Speech recognition processing device, speech recognition processing method and display device
JP2015554574A JPWO2015098109A1 (ja) 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置
CN201480051019.7A CN105556594B (zh) 2013-12-26 2014-12-25 声音识别处理装置、声音识别处理方法以及显示装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013-268670 2013-12-26
JP2013268670 2013-12-26

Publications (1)

Publication Number Publication Date
WO2015098109A1 true WO2015098109A1 (ja) 2015-07-02

Family

ID=53478005

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/006449 WO2015098109A1 (ja) 2013-12-26 2014-12-25 音声認識処理装置、音声認識処理方法、および表示装置

Country Status (5)

Country Link
US (1) US9767795B2 (ja)
EP (1) EP3089158B1 (ja)
JP (1) JPWO2015098109A1 (ja)
CN (1) CN105556594B (ja)
WO (1) WO2015098109A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157782A1 (ja) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
JP2019207329A (ja) * 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP2022547418A (ja) * 2019-09-04 2022-11-14 エーアイ スピーチ カンパニー リミテッド 全二重による音声対話の方法

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014103099A1 (ja) * 2012-12-28 2014-07-03 パナソニック株式会社 音声認識付き機器及び音声認識方法
US9691413B2 (en) * 2015-10-06 2017-06-27 Microsoft Technology Licensing, Llc Identifying sound from a source of interest based on multiple audio feeds
CN107665708B (zh) * 2016-07-29 2021-06-08 科大讯飞股份有限公司 智能语音交互方法及系统
CN109643543A (zh) * 2016-09-02 2019-04-16 夏普株式会社 响应装置及其控制方法以及控制程序
US10409552B1 (en) * 2016-09-19 2019-09-10 Amazon Technologies, Inc. Speech-based audio indicators
CN111611575A (zh) * 2016-10-13 2020-09-01 创新先进技术有限公司 基于虚拟现实场景的业务实现方法及装置
US10467510B2 (en) 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Intelligent assistant
US11010601B2 (en) 2017-02-14 2021-05-18 Microsoft Technology Licensing, Llc Intelligent assistant device communicating non-verbal cues
US11100384B2 (en) 2017-02-14 2021-08-24 Microsoft Technology Licensing, Llc Intelligent device user interactions
JP2019200394A (ja) * 2018-05-18 2019-11-21 シャープ株式会社 判定装置、電子機器、応答システム、判定装置の制御方法、および制御プログラム
JP7403129B2 (ja) * 2018-05-23 2023-12-22 パナソニックIpマネジメント株式会社 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム
JP7231342B2 (ja) * 2018-07-09 2023-03-01 シャープ株式会社 コンテンツ表示システム及び表示装置
CN109147780B (zh) * 2018-08-15 2023-03-03 重庆柚瓣家科技有限公司 自由聊天场景下的语音识别方法及系统
JP2020064197A (ja) * 2018-10-18 2020-04-23 コニカミノルタ株式会社 画像形成装置、音声認識装置、及びプログラム
US11176939B1 (en) 2019-07-30 2021-11-16 Suki AI, Inc. Systems, methods, and storage media for performing actions based on utterance of a command
JP7248564B2 (ja) * 2019-12-05 2023-03-29 Tvs Regza株式会社 情報処理装置及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2011170274A (ja) * 2010-02-22 2011-09-01 Chugoku Electric Power Co Inc:The 事故復旧訓練装置
JP4812941B2 (ja) 1999-01-06 2011-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注目期間を有する音声入力装置

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3477751B2 (ja) 1993-09-07 2003-12-10 株式会社デンソー 連続単語音声認識装置
US7899671B2 (en) * 2004-02-05 2011-03-01 Avaya, Inc. Recognition results postprocessor for use in voice recognition systems
US7813482B2 (en) * 2005-12-12 2010-10-12 International Business Machines Corporation Internet telephone voice mail management
US7949536B2 (en) 2006-08-31 2011-05-24 Microsoft Corporation Intelligent speech recognition of incomplete phrases
JP4845118B2 (ja) * 2006-11-20 2011-12-28 富士通株式会社 音声認識装置、音声認識方法、および、音声認識プログラム
US20130018895A1 (en) 2011-07-12 2013-01-17 Harless William G Systems and methods for extracting meaning from speech-to-text data
EP2665059B1 (en) * 2011-10-25 2016-02-10 Olympus Corporation Endoscope operation system
CN103247291B (zh) * 2013-05-07 2016-01-13 华为终端有限公司 一种语音识别设备的更新方法、装置及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11311994A (ja) * 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
JP2000020089A (ja) * 1998-07-07 2000-01-21 Matsushita Electric Ind Co Ltd 音声認識方法及びその装置、並びに音声制御システム
JP4812941B2 (ja) 1999-01-06 2011-11-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 注目期間を有する音声入力装置
JP2005227686A (ja) * 2004-02-16 2005-08-25 Sharp Corp 音声認識装置、音声認識プログラムおよび記録媒体。
JP2010085536A (ja) * 2008-09-30 2010-04-15 Fyuutorekku:Kk 音声認識システム、音声認識方法、音声認識クライアントおよびプログラム
JP2010103751A (ja) * 2008-10-23 2010-05-06 Yahoo Japan Corp 禁止語発信防止方法、禁止語発信防止電話、禁止語発信防止サーバ
JP2011170274A (ja) * 2010-02-22 2011-09-01 Chugoku Electric Power Co Inc:The 事故復旧訓練装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See also references of EP3089158A4

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016157782A1 (ja) * 2015-03-27 2016-10-06 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
JPWO2016157782A1 (ja) * 2015-03-27 2018-01-25 パナソニックIpマネジメント株式会社 音声認識システム、音声認識装置、音声認識方法、および制御プログラム
JP2019207329A (ja) * 2018-05-29 2019-12-05 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP7096707B2 (ja) 2018-05-29 2022-07-06 シャープ株式会社 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
JP2022547418A (ja) * 2019-09-04 2022-11-14 エーアイ スピーチ カンパニー リミテッド 全二重による音声対話の方法
JP7341323B2 (ja) 2019-09-04 2023-09-08 エーアイ スピーチ カンパニー リミテッド 全二重による音声対話の方法

Also Published As

Publication number Publication date
US9767795B2 (en) 2017-09-19
EP3089158A1 (en) 2016-11-02
US20160217783A1 (en) 2016-07-28
EP3089158B1 (en) 2018-08-08
CN105556594B (zh) 2019-05-17
CN105556594A (zh) 2016-05-04
EP3089158A4 (en) 2016-11-02
JPWO2015098109A1 (ja) 2017-03-23

Similar Documents

Publication Publication Date Title
WO2015098109A1 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
CN112216281B (zh) 用于登记用户命令的显示装置和方法
CN109343819B (zh) 在语音识别系统中控制显示装置的显示装置和方法
US10448115B1 (en) Speech recognition for localized content
JP4705023B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP3039531B1 (en) Display apparatus and controlling method thereof
JP5706384B2 (ja) 音声認識装置、音声認識システム、音声認識方法および音声認識プログラム
JP6244560B2 (ja) 音声認識処理装置、音声認識処理方法、および表示装置
CN113327609B (zh) 用于语音识别的方法和装置
US10553206B2 (en) Voice keyword detection apparatus and voice keyword detection method
US9691389B2 (en) Spoken word generation method and system for speech recognition and computer readable medium thereof
US20190189124A1 (en) Speech processing apparatus, information processing apparatus, speech processing method, and information processing method
KR20140089836A (ko) 대화형 서버, 디스플레이 장치 및 그 제어 방법
US8126715B2 (en) Facilitating multimodal interaction with grammar-based speech applications
US20160012819A1 (en) Server-Side ASR Adaptation to Speaker, Device and Noise Condition via Non-ASR Audio Transmission
CN112489691A (zh) 电子装置及其操作方法
US11948567B2 (en) Electronic device and control method therefor
US11437046B2 (en) Electronic apparatus, controlling method of electronic apparatus and computer readable medium
JP2006189730A (ja) 音声対話方法および音声対話装置
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
US11626107B1 (en) Natural language processing
CN113077793B (zh) 一种语音识别方法、装置、设备及存储介质
JP2009116277A (ja) 音声認識装置
KR20120083025A (ko) 서로 다른 적어도 2개 이상의 데이터베이스를 이용하여 음성 인식 서비스를 제공하는 멀티미디어 디바이스 및 그 제어 방법
KR102449181B1 (ko) 전자장치 및 그 제어방법

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201480051019.7

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14875013

Country of ref document: EP

Kind code of ref document: A1

REEP Request for entry into the european phase

Ref document number: 2014875013

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2014875013

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2015554574

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 15023384

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE