WO2014103099A1 - 音声認識付き機器及び音声認識方法 - Google Patents

音声認識付き機器及び音声認識方法 Download PDF

Info

Publication number
WO2014103099A1
WO2014103099A1 PCT/JP2013/004813 JP2013004813W WO2014103099A1 WO 2014103099 A1 WO2014103099 A1 WO 2014103099A1 JP 2013004813 W JP2013004813 W JP 2013004813W WO 2014103099 A1 WO2014103099 A1 WO 2014103099A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
sound
voice recognition
command
unit
Prior art date
Application number
PCT/JP2013/004813
Other languages
English (en)
French (fr)
Inventor
宮阪 修二
一任 阿部
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201380067993.8A priority Critical patent/CN104956436B/zh
Priority to JP2014554069A priority patent/JP6225920B2/ja
Publication of WO2014103099A1 publication Critical patent/WO2014103099A1/ja
Priority to US14/750,647 priority patent/US9792902B2/en
Priority to US15/703,594 priority patent/US10262653B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L15/222Barge in, i.e. overridable guidance for interrupting prompts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech

Definitions

  • the present invention relates to a device with speech recognition and a speech recognition method.
  • TV TV (television)
  • voice for example, a keyword that indicates volume increase / decrease or channel selection
  • the voice recognition function recognizes the keyword, it issues a command associated with the keyword to the television to operate the television by voice.
  • the keyword happens to be output by the TV itself, for example, if the voice “10 channels” is a keyword that instructs to change the TV channel to 10 channels, it will happen by accident.
  • the sound “10 channels” is output from the TV speaker, which is picked up by the microphone and recognized by the microphone, and the TV is switched to 10 channels. It can happen.
  • Patent Document 1 and Patent Document 2 are known as techniques for preventing such malfunction caused by sound generated by the device itself.
  • This invention is made in view of said subject, and aims at providing the apparatus with a speech recognition etc. which can suppress malfunctioning by the audio
  • a device with speech recognition is a device with speech recognition that recognizes a user's speech, a speaker that emits sound in a space, a microphone that collects sound in the space, and the microphone
  • a first voice recognition unit for recognizing the voice picked up in the step
  • a command issuing unit for issuing a command for controlling the device with voice recognition based on the voice recognized by the first voice recognition unit
  • a control unit that prohibits the command issuing unit from issuing the command using the sound output from the speaker.
  • the present invention can provide a device with voice recognition that can suppress malfunction caused by voice generated by the device itself.
  • FIG. 1 is a block diagram illustrating a configuration of a device with speech recognition according to the first embodiment.
  • FIG. 2 is a flowchart showing the operation of the device with voice recognition.
  • FIG. 3 is a block diagram illustrating a configuration of a device with speech recognition according to the second embodiment.
  • FIG. 4 is a flowchart showing the operation of the device with voice recognition.
  • FIG. 5 is a block diagram illustrating a configuration of a device with speech recognition according to a modification of the second embodiment.
  • FIG. 6 is a block diagram illustrating a configuration of a device with speech recognition including a downsampler that downsamples the output of the microphone.
  • FIG. 7 is a block diagram illustrating another example of the configuration of the device with speech recognition according to the first embodiment.
  • FIG. 1 is a block diagram illustrating a configuration of a device with speech recognition according to the first embodiment.
  • FIG. 2 is a flowchart showing the operation of the device with voice recognition.
  • FIG. 3 is
  • FIG. 8 is a flowchart showing an example of the operation of the device with speech recognition shown in FIG.
  • FIG. 9 is a block diagram illustrating another example of the configuration of the device with speech recognition according to the second embodiment.
  • FIG. 10 is a flowchart showing an example of the operation of the device with speech recognition shown in FIG.
  • FIG. 11A is a block diagram illustrating a configuration of a device with speech recognition according to Comparative Example 1.
  • FIG. 11B is a block diagram illustrating a configuration of a device with speech recognition according to a modification of Comparative Example 1.
  • FIG. 12A is a block diagram illustrating an example of a configuration of a device with speech recognition according to Comparative Example 2.
  • FIG. 12B is a block diagram illustrating another example of the configuration of the device with speech recognition according to the second comparative example.
  • the device with voice recognition is a device with voice recognition that recognizes the user's voice, and outputs the voice to the space.
  • a sound speaker, a microphone that picks up sound in the space, a first sound recognition unit that recognizes sound picked up by the microphone, and a sound recognized by the first sound recognition unit A command issuing unit that issues a command for controlling the device with voice recognition, and a control unit that prohibits the command issuing unit from issuing the command using the sound output from the speaker.
  • control unit includes a second voice recognition unit for recognizing a voice output from the speaker, and whether the voice recognized by the second voice recognition unit is the same as a predetermined keyword. If it is the same, it may be prohibited to issue the command by the command issuing unit.
  • a device with speech recognition is a device with speech recognition that recognizes a user's speech, and stores at least one speaker that emits sound in the space and the sound in the space.
  • a voice signal which is an electrical signal of voice output from the speaker
  • an echo component that is a sound collected by the microphone is estimated from the sound output from the speaker, and the estimated echo component is collected by the microphone.
  • an echo canceller for removing the echo component from the received speech, and the speech recognition unit receives the echo component by the echo canceller.
  • the down sampler may down-sample the input audio signal to (1 / N) ⁇ 0.5 or less when the number of speakers is N (N is an integer of 2 or more).
  • the audio signal produced by the device itself can be reproduced with the amount of calculation that is less than the amount of calculation when the speaker is compatible with a monaural channel. It is possible to recognize the voice accurately without being disturbed.
  • the voice recognition unit further includes a command issuing unit that issues a command for controlling the device with voice recognition based on the voice recognized by the voice recognition unit, and the voice recognition unit removes the echo component by the echo canceller.
  • the command issuing unit may be prohibited from issuing the command based on the echo component by recognizing the received voice.
  • a recording medium recording medium such as a system, method, integrated circuit, computer program, or computer-readable CD-ROM, and the system, method, integrated circuit, You may implement
  • a Water Mark signal is inserted into the sound signal that is an electrical signal of the sound output from the speaker as in the technique described in Patent Document 1. Configuration is conceivable.
  • FIG. 11A is a block diagram showing a configuration of a device with speech recognition according to Comparative Example 1 of the present invention.
  • a Water Mark signal is inserted before the sound received from the speaker 801 with respect to the sound received by the TV reception display unit 800.
  • the voice signal of the voice collected by the microphone 802 is subjected to the Water Mark detection function, and the voice component from which the Water Mark signal is detected is controlled not to be subject to voice recognition, and then the first voice recognition unit At 803, voice recognition is performed. Then, the recognition result information is converted into a command for the TV reception display unit 800.
  • FIG. 11B is a block diagram illustrating a configuration of a device with speech recognition according to a modification of Comparative Example 1 in which the technique described in Patent Document 2 is applied to Comparative Example 1 described above.
  • the second speech recognition unit 804 recognizes the speech before being output from the speaker 801.
  • the voice collected by the microphone 802 is recognized by the first voice recognition unit 803, and the recognition results of the two recognition units (the first voice recognition unit 803 and the second voice recognition unit 804) are compared in the removal unit 805.
  • the recognition result of the second speech recognition unit 804 is removed from the recognition result of the first speech recognition unit 803, and the recognition result after the removal is converted into a command for the TV reception display unit 800.
  • 12A and 12B are block diagrams showing the configuration of a device with speech recognition according to Comparative Example 2 of the present invention having such an echo canceling function.
  • the basic idea of echo cancellation is that the sound output from the speaker 901 and picked up by the microphone 902 is regarded as “echo”, and the echo canceller 904 mounted on the device with voice recognition is The voice is recognized after removing the echo. Thereby, the user's voice can be recognized without being disturbed by the voice generated by the device with voice recognition itself, and the recognition result can be converted into a command for the TV reception display unit 900.
  • the Water Mark signal multiplexed before being output from the speaker 801 may be erased by various noises in the space after being output from the speaker 801. To do. Therefore, it is substantially difficult to exclude on the microphone side the sound produced by a device with speech recognition (for example, a television).
  • the configuration of the modified example of the first comparative example requires a complicated process of changing (removing) the voice recognition result itself after analyzing and comparing the two voice recognition results.
  • the amount of computation of the echo canceller 904 becomes enormous. This is because the calculation amount of the echo canceller 904 increases in proportion to the square of the frequency band of the input audio signal input from the microphone 902. Specifically, considering that the audio signal of the television is in the 24 kHz band and the frequency band of the audio signal to be recognized is at most 8 kHz, the amount of computation necessary for the echo canceller 904 is essentially necessary. This is because the amount of computation is 9 times (that is, (24/8) ⁇ 2 times) the amount of computation (reasonable), and the amount of computation is further doubled in stereo.
  • the device with speech recognition recognizes the sound output from the speaker, and issues a command for controlling the device with speech recognition when the recognized speech is the same as a predetermined keyword. Is prohibited. Thereby, the malfunctioning by the audio
  • FIG. 1 is a block diagram illustrating a configuration of a device with speech recognition according to the first embodiment.
  • the device with speech recognition 1 according to the present embodiment an example in which a speech recognition function is mounted on a television will be described. That is, the device with voice recognition 1 according to the present embodiment is a television equipped with a voice recognition function.
  • the device with speech recognition 1 shown in FIG. 1 receives a TV signal and generates a sound signal, a TV receiving unit 100, a speaker 101 that emits the sound signal as sound to the space, and the sound in the space as sound signal.
  • a TV receiving unit 100 receives the sound signal and generates a sound signal
  • a TV receiving unit 100 receives the sound signal as sound to the space
  • a speaker 101 that emits the sound signal as sound to the space
  • the sound in the space as sound signal.
  • the first speech recognition unit 103 that recognizes the sound collected by the microphone 102
  • the second speech recognition unit 104 that recognizes the sound output from the speaker 101
  • a command control unit 105 that converts output information into a command to the TV receiving unit 100 and a switch 106 are provided.
  • the configuration of the device 1 with voice recognition will be specifically described.
  • the TV receiving unit 100 is, for example, a tuner that receives a television signal including a video signal and an audio signal transmitted from the outside of the device 1 with voice recognition.
  • the TV receiving unit 100 outputs an audio signal among the received television signals to the speaker 101 and outputs a video signal to an image display unit (not shown) such as a liquid crystal panel. Further, the TV receiving unit 100 performs an operation such as switching the reception channel, for example, in accordance with a command output from the command control unit 105.
  • the speaker 101 generates sound that is air vibration by converting a sound signal that is an electrical signal output from the TV receiver 100 into physical vibration. That is, the sound corresponding to the sound signal is output to the space.
  • the microphone 102 generates an audio signal that is an electrical signal by converting sound into a physical signal. That is, the voice is collected.
  • the first voice recognition unit 103 recognizes the voice collected by the microphone 102. Specifically, the sound collected by the microphone 102 is recognized by analyzing the sound signal output from the microphone 102. Then, information indicating the recognized voice is output to the command control unit 105.
  • the second speech recognition unit 104 recognizes the sound output from the speaker 101 by analyzing the sound signal before being output from the speaker 101.
  • the switch 106 is turned off. That is, issue of a command from the command control unit 105 to the TV receiving unit 100 is prohibited.
  • the second voice recognition unit 104 has a storage unit that holds a keyword registered by the user, and when the recognized voice is held in the storage unit, the recognized voice is determined as a predetermined keyword. It is determined that they match, and the switch 106 is turned off.
  • the command control unit 105 generates a command corresponding to the voice recognized by the first voice recognition unit 103. That is, the voice recognized by the first voice recognition unit 103 is converted into a command. Specifically, when the voice recognized by the first voice recognition unit 103 is a predetermined keyword, the command control unit 105 generates a command associated with the keyword and switches the generated command to the switch. It is issued to the TV receiver 100 via 106.
  • the command control unit 105 includes a storage unit that holds a command and information indicating a predetermined keyword associated with the command, and the speech recognized by the first speech recognition unit 103 is stored in the storage unit. If it matches any of the keywords held in, the command associated with the matched keyword is issued.
  • the switch 106 switches between issuing and not issuing the command converted by the command control unit 105 to the TV receiving unit 100 by turning on or off according to the instruction of the second voice recognition unit 104. Specifically, the switch 106 is turned off when the voice recognized by the second voice recognition unit 104 matches a predetermined keyword, and turned on when the voice does not match. That is, the second voice recognition unit 104 and the switch 106 prohibit the command control unit 105 from issuing a command using the voice output from the speaker 101.
  • FIG. 2 is a flowchart showing the operation of the device 1 with voice recognition according to the present embodiment.
  • the TV receiving unit 100 receives a television signal and generates an audio signal from the received television signal (S101).
  • the sound signal thus generated is output to the space by the speaker 101 (S102).
  • the speaker 101 converts the sound signal generated by the TV receiving unit 100 into sound that is air vibration and outputs the sound in the space.
  • the sound signal in the space including the sound signal output from the speaker 101 to the space is picked up by the microphone 102 (S103).
  • the microphone 102 converts sound that is air vibrations in space into a sound signal that is an electrical signal. That is, it picks up sound.
  • the voice signal collected by the microphone 102 is recognized by the first voice recognition unit 103 (S104). Specifically, the first voice recognition unit 103 recognizes the voice collected by the microphone 102 by analyzing the voice signal output from the microphone. Then, information indicating the recognition result is output to the command control unit 105.
  • the sound signal before being output from the speaker 101 is recognized by the second sound recognition unit 104 (S105).
  • the command control unit 105 is configured to issue a predetermined command to the TV receiving unit 100 based on the output information of the first voice recognition unit 103.
  • the control unit including the second voice recognition unit 104 and the switch 106 issues a command from the command control unit 105 to the TV reception unit 100. Control so that it is not.
  • the second voice recognition unit 104 matches the voice output from the speaker 101 with a predetermined keyword. Whether or not (S106). If they match (Yes in S106), the switch 106 is turned off to prohibit the command control unit 105 from issuing a command to the TV receiving unit 100 (S107). On the other hand, if they do not match (No in S106), the switch 106 is continuously turned on to issue a command from the command control unit 105 to the TV receiving unit 100 (S108). That is, command issuance from the command control unit 105 to the TV receiving unit 100 is permitted.
  • the command designated by the keyword is not issued from the command control unit 105 to the TV receiving unit 100. Thereby, the malfunction by the audio
  • the command control unit 105 issues a command for switching the reception channel to 10 channels to the TV reception unit 100.
  • the term “10 channels” is a keyword for issuing a command for switching the reception channel to 10 channels.
  • the performer of the TV program being received happens to say “10 channels”
  • an audio signal “10 channels” is output from the speaker 101, and the keyword is picked up by the microphone 102.
  • the first speech recognition unit 103 recognizes the keyword.
  • the second voice recognition unit 104 recognizes the voice signal output from the speaker 101
  • the second voice recognition unit 104 also recognizes the keyword “10 channels”.
  • the keyword “10 channels” recognized by the first voice recognition unit 103 recognizes the voice output from the speaker 101 and can be determined not to be a voice instruction from the user. Therefore, the device 1 with voice recognition does not switch the channel to 10 channels.
  • the second speech recognition unit 104 when the keyword “10 channels” is recognized by the second speech recognition unit 104, that is, the recognition result of the second speech recognition unit 104 and the recognition result of the first speech recognition unit 103 are the same.
  • the second speech recognition unit 104 operates as follows. Specifically, the second speech recognition unit 104 prohibits the command control unit 105 from issuing a command to the TV receiving unit 100 by turning off the switch 106. Therefore, a command for instructing the TV receiver 100 to switch the channel to 10 channels is not issued to the TV receiver 100.
  • the second speech recognition unit 104 when the keyword “10 channels” is not recognized by the second speech recognition unit 104, that is, the recognition result of the second speech recognition unit 104 is the same as the recognition result of the first speech recognition unit 103. If they are not the same, the second speech recognition unit 104 operates as follows. Specifically, the second voice recognition unit 104 allows the command control unit 105 to issue a command to the TV reception unit 100 by keeping the switch 106 turned on. Therefore, a command for instructing the TV receiving unit 100 to switch the channel to 10 channels is issued from the command control unit 105 to the TV receiving unit 100. Therefore, the device 1 with voice recognition switches the channel to 10 channels.
  • the device 1 with voice recognition recognizes the same keyword by the second voice recognition unit 104 even when the first voice recognition unit 103 recognizes the keyword associated with the command. If the keyword is recognized, it is determined that the keyword recognized by the first voice recognition unit 103 is not a voice instruction of the user, and the operation corresponding to the command corresponding to the keyword is not performed. On the other hand, when the keyword recognized by the first voice recognition unit 103 is not recognized by the second voice recognition unit 104, the keyword recognized by the first voice recognition unit 103 is a voice instruction from the user. Therefore, the operation corresponding to the command corresponding to the keyword is performed.
  • the second voice recognition unit 104 prohibits the command control unit 105 from issuing a command to the TV receiving unit 100 by turning off the switch 106 when the recognition result is the same as a predetermined keyword. To do. As a result, when the keyword recognized by the second speech recognition unit 104 matches a predetermined keyword, the device with speech recognition 1 does not operate according to the command specified by the keyword.
  • the issued command may not be a command directed to the TV receiving unit 100.
  • the command may be a command directed to an image display unit that displays an image corresponding to an image signal of a television signal received by the TV receiving unit 100. That is, using “brighter”, “darker”, and the like as keywords, the command control unit 105 may issue a command for controlling the image display unit in accordance with such keywords. Also, “volume high”, “volume low”, etc. may be used as keywords, and a command for controlling the speaker 101 may be issued in accordance with such keywords.
  • the audio signal input to the second audio recognition unit 104 does not have to be a signal immediately before being output from the speaker 101, and the audio signal received and reproduced by the TV receiving unit 100 is output by the speaker 101. It may be an audio signal at any stage until sound is output. Needless to say, if the voice signal is an analog signal, it is converted into a digital signal by an AD (Analog to Digital) converter at any stage until it is input to the second voice recognition unit 104.
  • AD Analog to Digital
  • the device with speech recognition 1 includes the speaker 101 that emits sound in a space, the microphone 102 that collects sound in the space, and the sound collected by the microphone 102. Based on the voice recognized by the first voice recognition unit 103, the second voice recognition unit 104 that recognizes the voice output from the speaker 101, and the voice recognized by the first voice recognition unit.
  • a command control unit 105 that issues a command for controlling the device 1, a second voice recognition unit 104 that prohibits command issuance by the command control unit 105 using a voice output from the speaker 101, and a switch 106 are provided.
  • the command control unit 105 corresponds to a command issuing unit
  • the second voice recognition unit 104 and the switch 106 correspond to a control unit.
  • the command related to the keyword is issued to the TV receiving unit 100, and the second When the voice recognition unit 104 matches a specific keyword, a command related to output information that is a voice recognition result in the first voice recognition unit 103 is not issued.
  • the second voice recognition unit 104 recognizes the voice output from the speaker 101, determines whether or not the recognized voice is the same as a predetermined keyword, and if they are the same, Turning off the switch 106 prohibits the command control unit 105 from issuing a command to the TV receiving unit 100.
  • the second speech recognition unit 104 when the speech recognition result in the second speech recognition unit 104 matches a predetermined keyword, the second speech recognition unit 104 turns off the switch 106 to control the command.
  • the issue of the command issued by the unit 105 to the TV receiving unit 100 is prohibited, the method of prohibiting the issue of the command to the TV receiving unit 100 is not limited to this.
  • the device with voice recognition 1 does not include the switch 106 and stops the command generation in the command control unit 105 when the voice recognition result in the second voice recognition unit 104 matches a predetermined keyword. Accordingly, the issue of a command to the TV receiving unit 100 may be prohibited.
  • the device with speech recognition down-samples an audio signal, which is an electrical signal of the audio output from the speaker, to a narrow band, and is output from the speaker using the down-sampled audio signal.
  • the echo component which is the sound collected by the microphone is removed from the sound collected by the microphone.
  • FIG. 3 is a block diagram showing a configuration of a device with speech recognition according to the second embodiment.
  • the device 2 with voice recognition according to the present embodiment an example in which a voice recognition function is mounted on a television will be described.
  • the device with speech recognition 2 shown in FIG. 1 includes a TV receiving unit 200 that receives a television signal and generates an audio signal, a speaker 201 that outputs a wide-band audio signal in a space, and a microphone 202 that collects the audio signal in the space.
  • An audio recognition unit 203 that recognizes an audio signal collected by the microphone 202, an echo that removes an echo component that is an audio output from the speaker 201 and collected by the microphone 202 from the audio collected by the microphone 202
  • a canceller 204 a downsampler 205 that downsamples a voice signal output from the speaker 201 into a narrowband signal
  • a command control unit 206 that issues a command for controlling the device based on output information of the voice recognition unit 203.
  • the TV receiver 200, the speaker 201, the microphone 202, the voice recognition unit 203, and the command control unit 206 are the TV receiver 100, the speaker 101, the microphone 102, the first voice recognition unit 103 in FIG. This is the same as the command control unit 105.
  • the device with speech recognition 2 is an electrical signal of sound output from the speaker 201 instead of the control unit, as compared with the device 1 with speech recognition according to the first embodiment.
  • a downsampler 205 that downsamples a certain audio signal to a narrow band and an echo component that is a sound collected by the microphone 202 out of the sound output from the speaker 201 is estimated using the downsampled audio signal.
  • an echo canceller 204 that removes the estimated echo component from the sound collected by the microphone 202.
  • the voice recognition unit 203 recognizes the user's voice by recognizing the voice from which the echo component has been removed by the echo canceller.
  • FIG. 4 is a flowchart showing the operation of the device 2 with voice recognition according to the present embodiment.
  • the TV receiving unit 200 receives a television signal and generates an audio signal from the received television signal (S201).
  • the audio signal reproduction band of a television signal is a wideband signal of about 24 kHz.
  • the sound signal thus generated is output to the space by the speaker 201 (S202). That is, the frequency band of the sound output in the space is about 24 kHz.
  • the sound in the space including the sound output from the speaker 201 to the space is picked up by the microphone 202 (S203).
  • the microphone 202 samples and collects the sound in the space at a sampling frequency of 8 kHz, for example. That is, the frequency band of the audio signal output from the microphone 202 to the echo canceller 204 is 8 kHz. In other words, the audio signal collected by the microphone 202 is down-sampled to a frequency band of 8 kHz.
  • the wideband audio signal output from the speaker 201 is further input to the down sampler 205 and converted into a narrowband signal. That is, the down sampler 205 down-samples the audio signal output from the speaker 201 (S204). Specifically, the downsampler 205 narrows the audio signal output from the speaker 201 by removing signals in the frequency band that are unnecessary for audio recognition from the audio signal output from the speaker 201. To do. More specifically, since the frequency band necessary for voice recognition is at most 8 kHz, for example, when the frequency band of the voice signal output from the speaker 201 is 24 kHz, the downsampler 205 receives the input voice signal. Is down-sampled to 8 kHz, which is a 1/3 frequency band, and output to the echo canceller 204.
  • the audio signal input to the down sampler 205 does not need to be a signal immediately before being output from the speaker 201, and the audio signal received and reproduced by the TV receiver 200 is output by the speaker 201.
  • Any audio signal may be used at any stage.
  • it goes without saying that it is converted into a digital signal by the AD converter at any stage until it is input to the downsampler 205.
  • the audio signal collected by the microphone 202 and the output signal of the downsampler 205 are input to the echo canceller 204.
  • the echo canceller 204 removes the echo component output from the speaker 201 and collected by the microphone 202 from the audio signal collected by the microphone 202. That is, echo cancellation is performed (S205).
  • the echo canceller 204 estimates an echo component that is a sound collected by the microphone 202 out of the sound output from the speaker 201 using the sound signal down-sampled by the down sampler 205, The estimated echo component is removed from the sound collected by the microphone 202. That is, the sound signal of the echo component is removed from the sound signal output from the microphone 202, and the sound signal after the removal is output to the sound recognition unit 203.
  • the echo canceller used in the echo canceller 204 may be any known echo canceller.
  • the output signal of the echo canceller 204 is input to the voice recognition unit 203 for voice recognition.
  • the command control unit 206 issues a command for controlling the device in accordance with the output information from the voice recognition unit 203. That is, the voice recognition unit 203 recognizes the echo-cancelled voice signal (S206), and the command control unit 206 sends to the TV reception unit 200 according to output information that is a voice recognition result in the voice recognition unit 203. A command is issued (S207).
  • the down sampler 205 down-samples the audio signal, which is an electrical signal of the sound output from the speaker 201, to a narrow band.
  • the echo canceller 204 collects an echo component, which is a sound collected by the microphone 202, out of the sound output from the speaker 201 using the sound signal down-sampled by the down sampler 205. Remove from recorded audio.
  • the device 2 with speech recognition according to the present embodiment can be expected to have the following effects by using the echo canceller 204.
  • the word “10 channels” is a keyword for issuing a command for switching the TV reception channel to 10 channels.
  • the user pronounces “10 channels” and instructs the channel switching by voice, and if the TV itself is outputting the sound of the TV program with a loud sound, the “10 channels” emitted by the user And the sound of the television program are mixed and picked up by the microphone 202.
  • the voice recognition unit 203 receives the mixed voice signal. As a result, the speech recognition unit 203 is prevented from correctly recognizing the keyword “10 channels”.
  • the device 2 with voice recognition includes an echo canceller 204, so that the echo component picked up by the microphone 202 and picked up by the microphone 202 is picked up by the microphone 202. It can be removed from the signal.
  • the device with speech recognition 2 according to the present embodiment can accurately perform speech recognition of speech uttered by the user.
  • the audio signal input to the echo canceller 204 is a narrower band signal than the signal output from the speaker 201 to the space. That is, the audio signal input from the speaker 201 side and the audio signal input from the microphone 202 side to the echo canceller 204 are narrower than the audio signal output from the speaker 201. Thereby, the following effects can be expected.
  • the calculation amount in the echo canceller 204 is nine times the original calculation amount required for voice recognition (that is, ( 24/8) ⁇ 2)).
  • the device with speech recognition 2 includes a downsampler 205 and a microphone 202 for downsampling, thereby narrowing the frequency bandwidth of any speech signal input to the echo canceller 204. To do. Thereby, the calculation amount in the echo canceller 204 can be reduced.
  • the method of narrowing the audio signal input to the echo canceller 204 from the microphone 202 side may use the microphone 202 having a narrow frequency band that can be processed as in the present embodiment, or once the broadband microphone. This may be realized by down-sampling the audio signal collected by the above to a narrow-band signal.
  • the down sampler 205 down-samples an audio signal, which is an electrical signal of audio output from the speaker 201, into a frequency band that is a target of speech recognition by the speech recognition unit 203. Thereby, a decrease in the speech recognition rate in the speech recognition unit 203 is suppressed.
  • the device with speech recognition 2 is a device with speech recognition that recognizes the user's speech, and the speaker 201 that emits a wideband sound in the space and the sound in the space.
  • the downsampler 205 and the downsampled audio signal are used to estimate an echo component that is a sound collected by the microphone 202 out of the sound output from the speaker 201, and the estimated echo component is estimated by the microphone 202.
  • an echo canceller 204 for removing the collected voice, and the voice recognition unit 203 has an echo canceller. By recognizing the speech echo component is removed by 204 recognizes the user's voice.
  • the echo canceller 204 estimates and removes the echo component based on the output signal of the downsampler 205, so that the user's intention is not disturbed by the voice signal emitted by the voice recognition-equipped device 2 itself. Voice can be accurately recognized.
  • the speech recognition unit 203 does not decrease the speech recognition rate of the user, and the echo canceller 204
  • the amount of computation in can be greatly reduced. This is because, as described above, the calculation amount of the echo canceller 204 is proportional to the square of the reproduction band of the input signal.
  • the device with speech recognition 2 according to the present embodiment can realize accurate speech recognition with a small amount of calculation.
  • the device with speech recognition 2 includes a command control unit 206 that issues a command for controlling the device 2 with speech recognition based on the speech recognized by the speech recognition unit 203, and includes a speech recognition unit.
  • 203 recognizes the voice from which the echo component has been removed by the echo canceller 204, thereby prohibiting the command control unit 206 from issuing a command based on the echo component.
  • the device with speech recognition 2 according to the present exemplary embodiment can utter the sound that the device 2 with speech recognition itself accidentally uttered regardless of the user's intention. It is possible to suppress an unintended operation due to recognition.
  • the audio signal generated from the television which is the device 2 with speech recognition
  • the audio signal is a monaural signal.
  • 5.1 channel multi-channel broadcasting has begun.
  • a device with voice recognition when a signal generated from a television is multi-channel will be described as a modification of the second embodiment, taking, for example, a case where the number of channels is 2ch.
  • FIG. 5 is a block diagram showing the configuration of a device with speech recognition according to this modification.
  • the device with speech recognition 3 shown in the figure is different from the device 2 with speech recognition according to the second embodiment in that the sound signal output from the speaker is multichannel.
  • the TV receiving unit 300, the microphone 302, the voice recognition unit 303, and the command control unit 306 are the same as the TV receiving unit 200, the microphone 202, the voice recognition unit 203, and the command control unit 206 in FIG. Is the same.
  • the device with speech recognition 3 according to the present modified example is different from the device with speech recognition 2 according to the second embodiment in that the speaker 201, the downsampler 205, and the echo provided for monaural speech signals are used.
  • the canceller 204 a stereo speaker 301, a stereo downsampler 305, and a stereo echo canceller 304 provided for stereo audio signals are provided.
  • the stereo speaker 301 has a speaker corresponding to each of the stereo audio signals of the television signal, converts each of the stereo audio signals into sound, and outputs the sound into the space.
  • the stereo echo canceller 304 has two echo cancellers corresponding to the respective stereo audio signals.
  • the stereo echo canceller 304 receives each of the stereo audio signals downsampled by the stereo downsampler 305 and inputs stereo signals from the signals collected by the microphone 302. Echo components output from the speaker 301 are removed.
  • the method may be any conventionally known method.
  • the stereo downsampler 305 downsamples the wideband audio signal of each channel output from the stereo speaker 301 and converts it to a narrowband audio signal.
  • the input audio signal is downsampled to (1 / N) ⁇ 0.5 or less. It is desirable to do. That is, when the number of speakers is N (N is an integer of 2 or more), the stereo downsampler 305 desirably downsamples the input audio signal to (1 / N) ⁇ 0.5 or less. Thereby, the following effects can be expected from the device 3 with voice recognition according to the present modification.
  • the device with speech recognition 3 according to the present modification example downsamples the audio signal to (1 / N) ⁇ 0.5 in the stereo downsampler 305, so that even if the audio signal is multi-channel, With a calculation amount equal to or less than the calculation amount in the case of a monaural channel, it is possible to accurately recognize the voice uttered by the user without being disturbed by the voice signal produced by the device 3 with voice recognition.
  • the device with speech recognition 3 according to this modification including the stereo speaker 301 that outputs a stereo sound signal includes the speaker 201 that outputs a monaural sound signal according to the second embodiment. Compared with 2, the voice uttered by the user can be accurately recognized without increasing the amount of calculation.
  • the audio signal is a stereo (2.0 ch) signal
  • the channel of the audio signal is not limited to this, and a stereo (2.0 ch) signal is used. There may be more channels, for example 5.1ch.
  • the device with voice recognition according to one or more aspects has been described based on the embodiment and the modification, but the present invention is not limited to the embodiment and the modification. Unless departing from the gist of the present invention, various modifications conceived by those skilled in the art have been made in the present embodiment and modifications, and there are also one forms constructed by combining components in different embodiments and modifications. Alternatively, it may be included within the scope of a plurality of embodiments.
  • a television has been described as an example of a device with voice recognition.
  • the device with voice recognition is not limited to this, and may be a recording / playback device that records a television broadcast.
  • devices that emit audio such as DVD (Digital Versatile Disc) player, BD (Blu-Ray (registered trademark) Disk) player, CD (Compact Disc) player, etc., which play media with movie content and music content recorded in advance If it is.
  • the signal is branched from the path toward the speaker 201 and input to the echo canceller 204.
  • the audio signal input to the echo canceller 204 from the microphone 202 does not appear to be downsampled
  • the audio signal input to the echo canceller 204 does not appear to be downsampled.
  • the sampling frequency is the same frequency as the sampling frequency of the output signal of the downsampler 205. That is, in Embodiment 2, the audio signal input from the microphone 202 to the echo canceller 204 is downsampled by the microphone 202.
  • the frequency band of the audio signal after being downsampled by the microphone 202 and the downsampler 205 is not limited to the above 8 kHz.
  • the sampling frequency of the audio signal output from the speaker 201 is 48 kHz
  • the sampling frequency of the microphone 202 is 16 kHz
  • the downsampler 205 downsamples the frequency band of the input audio signal to 1/3.
  • the frequency band of the output signal of the sampler 205 may be 16 kHz.
  • the sampling frequency of the microphone 202 is 16 kHz, which is the same as the frequency band of the output signal of the downsampler 205.
  • the sampling frequency of the microphone 202 matches the sampling frequency of the downsampler 205, but the sampling frequency of the microphone 202 may be higher than the sampling frequency of the downsampler 205.
  • the sampling frequency of the microphone 202 may be 24 kHz
  • the sampling frequency of the downsampler 205 may be 16 kHz. In this case, as shown in FIG.
  • the device with speech recognition further includes a downsampler 207 that downsamples the output signal of the microphone 202, and the audio signal collected by the microphone 202 by the downsampler 207 is 24 kHz Downsampling to 16 kHz, the frequency band of the output signal of the downsampler 205 and the sampling frequency of the microphone 202 (that is, the frequency band of the sound signal collected by the microphone 202) may be matched.
  • each of the above devices may be realized as an LSI that is typically an integrated circuit. These may be individually made into one chip, or may be made into one chip so as to include a part or all of them.
  • LSI is used, but depending on the degree of integration, it may be called IC, system LSI, super LSI, or ultra LSI.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connection and setting of circuit cells inside the LSI may be used.
  • the configuration of the device with voice recognition according to the first embodiment is not limited to the configuration shown in FIG. 1, and may be at least the configuration shown in FIG. That is, the device with speech recognition 4 is a device with speech recognition that recognizes the user's speech, and includes a speaker 401 that emits sound in a space, a microphone 402 that collects sound in the space, and the microphone 402. A first voice recognition unit 403 that recognizes the collected voice, and a command issue unit 405 that issues a command for controlling the device with voice recognition based on the voice recognized by the first voice recognition unit 403. And a control unit 404 that prohibits the command issuing unit 405 from issuing the command using the sound output from the speaker 401.
  • the device 4 with voice recognition can suppress malfunction due to the sound generated by the device 4 with voice recognition, like the device 1 with voice recognition shown in FIG.
  • the device with speech recognition 4 is a speech recognition method for recognizing a user's speech, and a sound output step (S401) for generating sound in space and the sound output step (S401)
  • the sound collection step (S402) for collecting the sound of the space
  • the speech recognition step (S403) for recognizing the sound collected in the sound collection step (S402)
  • the command issuing unit 405 Based on the voice recognized in the voice recognition step (S403), a command issuance step (S404) for issuing a command for controlling the device with voice recognition, and the voice outputted in the sound output step (S401).
  • a speech recognition method including a prohibiting step (S405) of prohibiting the command issuing unit 405 from issuing the command is executed.
  • the configuration of the device with speech recognition according to the second embodiment is not limited to the configuration shown in FIG. 3, and may be at least the configuration shown in FIG. That is, the device with speech recognition 5 is a device with speech recognition that recognizes the user's speech, and includes at least one speaker 501 that emits sound in the space, the microphone 502 that collects sound in the space, A voice recognition unit 503 for recognizing the user's voice out of the voice picked up by the microphone 502; a downsampler 505 for downsampling a voice signal, which is an electric signal of a voice outputted from the speaker 501, into a narrow band; Then, using the down-sampled sound signal, an echo component that is a sound picked up by the microphone 502 is estimated from the sound output from the speaker 501, and the estimated echo component is collected by the microphone 502. An echo canceller 504 for removing the sound from the sound, and the speech recognition unit 503 By recognizing speech in which the echo component is removed by the echo canceller 504 may be a recognized structure
  • the device 5 with voice recognition like the device 2 with voice recognition shown in FIG. 3, is disturbed by the voice uttered by the device 5 with voice recognition. And can recognize the voice accurately. Further, as with the device 2 with voice recognition, accurate voice recognition can be realized with a small amount of calculation.
  • the device with speech recognition 5 is a speech recognition method for recognizing a user's speech, and a sound output step (S501) for outputting sound in space and the sound output step (S501).
  • a sound collecting step (S502) for collecting the sound in the space
  • a sound recognition step (S505) for recognizing the user's sound among the sounds collected in the sound collecting step (S502)
  • a down-sampling step (S503) for down-sampling the audio signal, which is an electrical signal of the sound output in the sound output step (S501), to a narrow band
  • the echo component that is the sound collected in the sound collection step (S502) is estimated from the sound output in S501), and the estimated echo component is And an echo cancellation step (S504) for removing the sound collected in the sound step (S502).
  • the speech recognition step (S505) the speech from which the echo component has been removed by the echo cancellation step (S504)
  • each component may be configured by dedicated hardware or may be realized by executing a software program suitable for each component.
  • Each component may be realized by a program execution unit such as a CPU or a processor reading and executing a software program recorded on a recording medium such as a hard disk or a semiconductor memory.
  • the software that realizes the device with voice recognition according to each of the above embodiments is the following program.
  • a program for realizing the device with voice recognition according to the first embodiment causes a computer to execute a voice recognition method as shown in FIG.
  • the program for realizing the device with voice recognition according to the second embodiment causes the computer to execute the voice recognition method as shown in FIG.
  • the device with voice recognition according to the present invention can accurately perform voice recognition without being disturbed by the sound generated by the device itself, such a device that emits sound, such as a television, a recording / playback device, and a DVD / BD / CD player. Can be widely applied to.
  • Voice recognition devices 100, 200, 300 TV receivers 101, 201, 401, 501, 801, 901 Speakers 102, 202, 302, 402, 502, 802, 902 Microphones 103, 403 First voice recognition unit 104 Second voice recognition unit 105, 206, 306 Command control unit 203, 303, 503 Voice recognition unit 204, 504, 904 Echo canceller 205, 505, 207 Downsampler 301 Stereo speaker 304 Stereo echo canceller 305 Stereo downsampler 800, 900 TV reception display unit 803 First voice recognition unit 804 Second voice recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephonic Communication Services (AREA)

Abstract

 ユーザーの音声を認識する音声認識付き機器(1)であって、空間に音声を出音するスピーカ(101)と、当該空間の音声を収音するマイクロホン(102)と、前記マイクロホン(102)で収音された音声を認識する第1の音声認識部(103)と、前記第1の音声認識部(103)で認識された音声に基づいて、前記音声認識付き機器(1)を制御するコマンドを発行するコマンド制御部(105)と、前記スピーカ(101)から出音される音声を用いて、前記コマンド制御部(105)による前記コマンドの発行を禁止する制御部とを備える。

Description

音声認識付き機器及び音声認識方法
 本発明は、音声認識付き機器及び音声認識方法に関する。
 近年、音声認識機能を搭載した電子機器が開発されている。例えば、2012年初頭に、Samsung電子が、音声認識操作可能なテレビを発表した。
 これは、テレビ(以下、TV(Television)と記載する場合あり)に対してユーザーが音声で、例えば、ボリュームの上げ下げや、チャンネルの選択を指示するキーワードを発音し、それに対し、テレビに搭載された音声認識機能が当該キーワードを認識した場合、当該キーワードに紐付けられているコマンドをテレビに対して発行することでテレビの操作を音声で行うものである。
 この場合、当該キーワードを、たまたまTV自身が出音してしまった場合、例えば、「10チャンネル」という音声が、テレビのチャンネルを10チャンネルに設定変更することを命じるキーワードである場合に、偶然テレビ番組の出演者が「10チャンネル」と発音した場合、テレビのスピーカから「10チャンネル」という音声が出音され、それがマイクロホンで収音され、音声認識されてしまい、テレビが10チャンネルに切り替わってしまう、ということが起こりえる。
 このような、機器自身が発する音声による誤作動を阻止する技術として、例えば、特許文献1及び特許文献2に記載の技術が知られている。
 また、ユーザーが発音したキーワードにより、機器が当該キーワードに紐付けられたコマンドを発行する場合、ユーザーの発声した音声を正確に認識することが必要であり、例えば、特許文献3に記載の技術が知られている。
特開2003-44069号公報 特開2006-171077号公報 特許第4554044号公報
 しかしながら、機器自身が発する音声による誤作動を、より確実に抑止することが望まれている。
 本願発明は上記の課題に鑑みてなされたものであり、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供することを目的とする。
 本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第1の音声認識部と、前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。
 これにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作を抑止することができる。つまり、機器自身が発する音声による誤作動を抑止することができる。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本発明は、機器自身が発する音声による誤作動を抑止することができる音声認識付き機器等を提供できる。
図1は、実施の形態1に係る音声認識付き機器の構成を示すブロック図である。 図2は、音声認識付き機器の動作を示すフローチャートである。 図3は、実施の形態2に係る音声認識付き機器の構成を示すブロック図である。 図4は、音声認識付き機器の動作を示すフローチャートである。 図5は、実施の形態2の変形例に係る音声認識付き機器の構成を示すブロック図である。 図6は、マイクロホンの出力をダウンサンプルするダウンサンプラを備える音声認識付き機器の構成を示すブロック図である。 図7は、実施の形態1に係る音声認識付き機器の構成の他の一例を示すブロック図である。 図8は、図7に示す音声認識付き機器の動作の一例を示すフローチャートである。 図9は、実施の形態2に係る音声認識付き機器の構成の他の一例を示すブロック図である。 図10は、図9に示す音声認識付き機器の動作の一例を示すフローチャートである。 図11Aは、比較例1に係る音声認識付き機器の構成を示すブロック図である。 図11Bは、比較例1の変形例に係る音声認識付き機器の構成を示すブロック図である。 図12Aは、比較例2に係る音声認識付き機器の構成の一例を示すブロック図である。 図12Bは、比較例2に係る音声認識付き機器の構成の他の一例を示すブロック図である。
 上述したような機器自身が発する音声による誤作動を抑止するために、本発明の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声を認識する第1の音声認識部と、前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える。
 これにより、機器自身が発する音声による誤作動を抑止することができる。
 また、前記制御部は、前記スピーカから出音される音声を認識する第2の音声認識部を備え、前記第2の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止してもよい。
 これにより、スピーカから出音される音声が予め定められてキーワードである場合に、機器自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた言葉をキーワードとすることにより、機器自身がユーザーの意図によらず偶然発した音声を認識することによる誤動作をより確実に抑止することができる。
 また、本発明の他の一態様に係る音声認識付き機器は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも1つのスピーカと、当該空間の音声を収音するマイクロホンと、前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する。
 これにより、ユーザーの発声した音声を、機器自身が出音した音声に邪魔されることなく、正確に音声認識できる。さらに、ダウンサンプラをエコーキャンセラの前段に設けることにより、エコーキャンセラにおける演算量を削減することができる。つまり、正確な音声認識を少ない演算量で実現できる。
 また、前記ダウンサンプラは、前記スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングしてもよい。
 これにより、機器のスピーカがマルチチャネル対応のスピーカの場合であっても、スピーカがモノラルチャネル対応の場合の演算量以下の演算量で、ユーザーの発声した音声を、機器自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。
 また、さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止してもよい。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータ読み取り可能なCD-ROMなどの記録媒体記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムまたは記録媒体の任意な組み合わせで実現されてもよい。
 まず、各実施の形態に係る音声認識付き機器について説明する前に、本発明の比較例1及び比較例2に係る音声認識付き機器について説明する。
 上述したような機器自身が発する音声による誤作動を抑止するために、特許文献1に記載の技術のように、スピーカから出音される音声の電気信号である音声信号にWater Mark信号を挿入する構成が考えられる。
 図11Aは、本発明の比較例1に係る音声認識付き機器の構成を示すブロック図である。
 同図に示すように、比較例1に係る音声認識付き機器では、TV受信表示部800で受信された音声に対して、スピーカ801から出音される前にWater Mark信号が挿入される。一方、マイクロホン802で収音された音声の音声信号は、Water Mark検出機能にかけられ、Water Mark信号が検出された音声成分は音声認識の対象としないように制御した上で、第1音声認識部803で音声認識する。そして、当該認識結果の情報をTV受信表示部800に対するコマンドに変換する。
 また、このような比較例1に係る音声認識付き機器に、特許文献2に記載の技術を応用することも考えられる。
 図11Bは、上述の比較例1に特許文献2に記載の技術を応用した、比較例1の変形例に係る音声認識付き機器の構成を示すブロック図である。
 同図に示すように、比較例1の変形例に係る音声認識付き機器では、スピーカ801から出音される前の音声を第2音声認識部804で認識する。一方、マイクロホン802で収音された音声を第1音声認識部803で認識し、当該2つの認識部(第1音声認識部803及び第2音声認識部804)の認識結果を除去部805において比較し、第1音声認識部803の認識結果から第2音声認識部804での認識結果を除去した上で、除去後の認識結果をTV受信表示部800に対するコマンドに変換する。
 また、音声認識率を向上させる技術として、特許文献3に記載のエコーキャンセルの技術が考案されている。
 図12A及び図12Bは、このようなエコーキャンセルの機能を有する、本発明の比較例2に係る音声認識付き機器の構成を示すブロック図である。
 同図に示すように、エコーキャンセルの基本的なアイデアは、スピーカ901から出音されマイクロホン902で収音される音声を「エコー」ととらえ、音声認識付き機器に搭載されたエコーキャンセラ904で当該エコーを除去した上で音声認識するものである。これにより、音声認識付き機器自身が発した音声に邪魔されずにユーザーの音声を認識することができ、当該認識結果をTV受信表示部900に対するコマンドに変換することができる。
 但し、TV受信表示部900から出音される音声信号がステレオ信号の場合、モノラルのエコーキャンセラでエコーを除去することが困難なため、図12Aに示すように、音声認識するモードの場合はスピーカから出音する信号をモノラル化する、又は、図12Bに示したようにエコーキャンセラをステレオ化する、という対策が必要である。
 しかしながら、上記比較例1の構成では、スピーカ801で出音される前に多重化されたWater Mark信号が、スピーカ801で出音された後、空間で各種のノイズによってかき消されるおそれが多分に存在する。よって、音声認識付き機器(例えばテレビ)が出音した音声をマイクロホン側で除外することが実質的に困難である。
 また、上記比較例1の変形例の構成では、2つの音声認識結果を分析して比較した上で、音声認識結果自体を変更させる(除去する)という煩雑な処理が必要となる。
 また、上記比較例2の構成では、スピーカ901から出音する信号をモノラル化する場合(図12Aの場合)、音声認識するモードでは本来の音質が損なわれる。一方、スピーカ901から出音する音声をステレオ化のままとし、エコーキャンセラ904をステレオ化した場合(図12Bの場合)、エコーキャンセラ904の演算量が膨大となる。これは、エコーキャンセラ904の演算量は、マイクロホン902から入力された入力音声信号の周波数帯域の二乗に比例して増加するためである。具体的には、テレビの音声信号は24kHz帯域であり、音声認識の対象となる音声信号の周波数帯域が高々8kHz帯域であることを考えれば、エコーキャンセラ904に必要な演算量は、本来必要な(妥当な)演算量に対して、9倍(つまり、(24/8)^2倍)の演算量になり、ステレオ化でさらに2倍の演算量となるからである。
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 なお、以下で説明する実施の形態は、いずれも包括的または具体的な例を示すものである。以下の実施の形態で示される数値、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序などは、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 (実施の形態1)
 本実施の形態に係る音声認識付き機器は、スピーカから出音される音声を認識し、認識した音声が予め定められたキーワードと同じである場合は、当該音声認識付き機器を制御するコマンドの発行を禁止する。これにより、音声認識付き機器自身が発する音声による誤作動を抑止することができる。
 以下、実施の形態1に係る音声認識付き機器について図面を参照しながら説明する。
 図1は、実施の形態1に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器1では、テレビに音声認識機能を搭載する例について述べる。つまり、本実施の形態に係る音声認識付き機器1は、音声認識機能が搭載されたテレビである。
 同図に示す音声認識付き機器1は、テレビ信号を受信し音声信号を生成するTV受信部100、空間に対して音声信号を音声として出音するスピーカ101、当該空間の音声を音声信号として収音するマイクロホン102、マイクロホン102で収音された音声を認識する第1の音声認識部103、スピーカ101から出音する音声を認識する第2の音声認識部104、第1の音声認識部103の出力情報をTV受信部100へのコマンドに変換するコマンド制御部105、及び、スイッチ106を備える。以下、音声認識付き機器1の構成について、具体的に説明する。
 TV受信部100は、音声認識付き機器1の外部から送信された映像信号及び音声信号を含むテレビ信号を受信する、例えばチューナーである。このTV受信部100は、受信したテレビ信号のうち、音声信号をスピーカ101へ出力し、映像信号を、例えば液晶パネルといった画像表示部(図示せず)へ出力する。また、TV受信部100は、コマンド制御部105から出力されるコマンドに応じて、例えば受信チャンネルを切り替える、といった動作をする。
 スピーカ101は、TV受信部100から出力された電気信号である音声信号を物理振動に変換することにより、空気の振動である音声を生成する。つまり、音声信号に対応する音声を、空間に出音する。
 マイクロホン102は、音声を物理信号に変換することにより、電気信号である音声信号を生成する。つまり、音声を収音する。
 第1の音声認識部103は、マイクロホン102で収音された音声を認識する。具体的には、マイクロホン102から出力された音声信号を解析することにより、マイクロホン102で収音された音声を認識する。そして、認識した音声を示す情報をコマンド制御部105に出力する。
 第2の音声認識部104は、スピーカ101から出音される前の音声信号を解析することにより、スピーカ101から出音される音声を認識する。そして、認識した音声が予め定められたキーワードと一致する場合に、スイッチ106をオフする。つまり、コマンド制御部105からTV受信部100へのコマンドの発行を禁止する。例えば、第2の音声認識部104は、ユーザーによって登録されたキーワードを保持する記憶部を有し、認識した音声が当該記憶部に保持されている場合、認識した音声が予め定められたキーワードと一致していると判断し、スイッチ106をオフする。
 コマンド制御部105は、第1の音声認識部103で認識された音声に応じたコマンドを生成する。つまり、第1の音声認識部103で認識された音声をコマンドに変換する。具体的には、コマンド制御部105は、第1の音声認識部103で認識された音声が予め定められたキーワードである場合、当該キーワードに対応付けられたコマンドを生成し、生成したコマンドをスイッチ106を介してTV受信部100へ発行する。例えば、コマンド制御部105は、コマンドと、コマンドに対応付けられた予め定められたキーワードを示す情報とを保持する記憶部を有し、第1の音声認識部103で認識された音声が記憶部に保持されたいずれかのキーワードと一致する場合に、一致したキーワードに対応付けられたコマンドを発行する。
 スイッチ106は、第2の音声認識部104の指示に応じて、オン又はオフすることにより、コマンド制御部105で変換されたコマンドをTV受信部100へ発行する又は発行しない、を切り替える。具体的には、スイッチ106は、第2の音声認識部104で認識された音声が予め定められたキーワードと一致する場合にオフし、一致しない場合にオンする。つまり、第2の音声認識部104及びスイッチ106は、スピーカ101から出音される音声を用いて、コマンド制御部105によるコマンドの発行を禁止する。
 次に、以上のように構成された音声認識付き機器1の動作について説明する。
 図2は、本実施の形態に係る音声認識付き機器1の動作を示すフローチャートである。
 まず、TV受信部100は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する(S101)。
 そのように生成された音声信号は、スピーカ101により空間に出音される(S102)。具体的には、スピーカ101は、TV受信部100で生成された音声信号を空気振動である音声に変換して空間に出音する。
 スピーカ101から空間に出音された音声信号を含む当該空間の音声信号はマイクロホン102によって収音される(S103)。具体的には、マイクロホン102は、空間の空気振動である音声を電気信号である音声信号に変換する。つまり、収音する。
 マイクロホン102で収音された音声信号は、第1の音声認識部103によって音声認識される(S104)。具体的には、第1の音声認識部103は、マイクロホンから出力された音声信号を解析することにより、マイクロホン102で収音された音声を認識する。そして、認識結果を示す情報をコマンド制御部105へ出力する。
 一方で、スピーカ101から出音される前の音声信号は、第2の音声認識部104で音声認識される(S105)。
 ここで、上述したように、コマンド制御部105は、第1の音声認識部103の出力情報に基づいて、予め定められたコマンドをTV受信部100に発行するように構成されているが、第2の音声認識部104の出力情報が特定のキーワードに合致した場合、第2の音声認識部104及びスイッチ106を含む制御部は、コマンド制御部105からTV受信部100に対して、コマンドが発行されないように制御する。
 具体的には、第2の音声認識部104は、スピーカ101から出力される音声の音声認識処理の後(S105の後)、スピーカ101から出音される音声が予め定められたキーワードと一致するか否かを判断する(S106)。そして、一致した場合(S106でYes)、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する(S107)。一方、一致しなかった場合(S106でNo)、スイッチ106を引き続きオンすることにより、コマンド制御部105からTV受信部100へのコマンドを発行させる(S108)。つまり、コマンド制御部105からTV受信部100へのコマンド発行を許可する。
 このように、音声認識付き機器1自身が発する音声が予め定められたキーワードと一致する場合、コマンド制御部105からTV受信部100に対して、当該キーワードで指示されるコマンドは発行されない。これにより、音声認識付き機器1自身が発する音声による誤作動を低減できる。
 例えば、第1の音声認識部103により「10チャンネル」という言葉が音声認識された場合、コマンド制御部105がTV受信部100に対し、受信チャンネルを10チャンネルに切り替えるようなコマンドを発行するように設定されているとする。つまり、「10チャンネル」という言葉は、受信チャンネルを10チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。
 ここで、仮に、受信しているテレビ番組の出演者がたまたま「10チャンネル」と発声した場合、スピーカ101から、「10チャンネル」という音声信号が出音され、マイクロホン102によって当該キーワードが収音され、第1の音声認識部103によって当該キーワードが認識される。このとき、第2の音声認識部104は、スピーカ101に出音する音声信号を音声認識しているので、第2の音声認識部104でも、「10チャンネル」というキーワードが音声認識される。この場合、第1の音声認識部103で認識した「10チャンネル」というキーワードは、スピーカ101から出音された音声を認識したものであり、ユーザーからの音声指示ではないと判断できる。よって、音声認識付き機器1は10チャンネルへのチャンネルの切り替えを実施しない。
 言い換えると、第2の音声認識部104により「10チャンネル」というキーワードが音声認識されている場合、つまり第2の音声認識部104の認識結果と第1の音声認識部103の認識結果とが同じ場合、第2の音声認識部104は次のように動作する。具体的には、第2の音声認識部104はスイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。したがって、10チャンネルへのチャンネルの切り替えをTV受信部100に命じるコマンドは、TV受信部100に対して発行されない。
 これに対して、第2の音声認識部104により「10チャンネル」というキーワードが音声認識されていない場合、つまり第2の音声認識部104の認識結果が第1の音声認識部103の認識結果と同じでない場合、第2の音声認識部104は次のように動作する。具体的には、第2の音声認識部104はスイッチ106をオンのままにすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を許可する。したがって、10チャンネルへのチャンネルの切り替えをTV受信部100に命じるコマンドが、コマンド制御部105からTV受信部100へと発行される。よって、音声認識付き機器1は10チャンネルへのチャンネルの切り替えを実施する。
 このように、音声認識付き機器1は、第1の音声認識部103がコマンドに対応づけられたキーワードを認識している場合であっても、第2の音声認識部104により同一のキーワードが認識されている場合には、第1の音声認識部103によって認識されたキーワードはユーザーの音声指示ではないと判断し、当該キーワードに対応するコマンドに応じた動作をしない。一方、第1の音声認識部103により認識されたキーワードが第2の音声認識部104では認識されていない場合には、第1の音声認識部103によって認識されたキーワードは、ユーザーからの音声指示であると判断できるので、当該キーワードに対応するコマンドに応じた動作をする。
 つまり、第2の音声認識部104は、認識結果が予め定められたキーワードと同じである場合は、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。これにより、音声認識付き機器1は、第2の音声認識部104で音声認識されたキーワードが予め定められたキーワードと一致する場合に、当該キーワードにより指示されるコマンドによる動作をしない。
 なお、上述の「10チャンネル」というキーワードは一例に過ぎず、どのようなキーワードであってもよいし、発行されるコマンドは、TV受信部100に向けられるコマンドでなくてもよい。例えば、TV受信部100が受信したテレビ信号の画像信号に応じた画像を表示する画像表示部へ向けられるコマンドであってもよい。すなわち、「明るく」、「暗く」などをキーワードとし、コマンド制御部105は、そのようなキーワードに応じて画像表示部を制御するコマンドを発行してもよい。また、「音量大」、「音量小」などをキーワードとし、そのようなキーワードに応じてスピーカ101を制御するコマンドを発行してもよい。
 なお、第2の音声認識部104へ入力される音声信号は、スピーカ101から出音される直前の信号である必要はなく、TV受信部100で受信されて再生された音声信号がスピーカ101によって出音されるまでのいずれの段階の音声信号であってもよい。その音声信号がアナログ信号である場合は、第2の音声認識部104に入力されるまでのいずれかの段階でAD(Analog to Digital)変換器によってデジタル信号に変換されることは言うまでもない。
 以上のように、本実施の形態に係る音声認識付き機器1は、空間に音声を出音するスピーカ101と、当該空間の音声を収音するマイクロホン102と、前記マイクロホン102で収音した音声を認識する第1の音声認識部103と、スピーカ101から出音する音声を認識する第2の音声認識部104と、前記第1の音声認識部で認識された音声に基づいて、当該音声認識付き機器1を制御するコマンドを発行するコマンド制御部105と、スピーカ101から出音される音声を用いて、コマンド制御部105によるコマンドの発行を禁止する第2の音声認識部104及びスイッチ106を備える。なお、コマンド制御部105はコマンド発行部に相当し、第2の音声認識部104及びスイッチ106は制御部に相当する。
 これにより、音声認識付き機器1自身が発する音声による誤作動を抑止することができる。
 具体的には、第2の音声認識部104における音声認識結果である出力情報が特定のキーワードに合致していない場合は、TV受信部100に当該キーワードに関連したコマンドを発行し、第2の音声認識部104が特定のキーワードに合致した場合は、第1の音声認識部103における音声認識結果である出力情報に関連したコマンドを発行しないようにする。言い換えると、第2の音声認識部104は、スピーカ101から出音される音声を認識し、認識した音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、スイッチ106をオフすることにより、コマンド制御部105によるTV受信部100へのコマンドの発行を禁止する。
 これにより、スピーカ101から出音される音声が予め定められてキーワードである場合に、音声認識付き機器1自身を制御するコマンドは発行されない。したがって、コマンドに対応付けられた音声をキーワードとすることにより、音声認識付き機器1自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。つまり、誤動作をより確実に抑止することができる。
 なお、本実施の形態では、第2の音声認識部104での音声認識結果が予め定められたキーワードと一致する場合に、第2の音声認識部104がスイッチ106をオフすることにより、コマンド制御部105で発行されたコマンドのTV受信部100への発行を禁止していたが、TV受信部100へのコマンドの発行を禁止する方法はこれに限らない。例えば、音声認識付き機器1は、スイッチ106を備えず、第2の音声認識部104での音声認識結果が予め定められたキーワードと一致する場合に、コマンド制御部105におけるコマンドの生成を停止させることにより、TV受信部100へのコマンドの発行を禁止してもよい。
 (実施の形態2)
 本実施の形態に係る音声認識付き機器は、スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプルし、ダウンサンプルされた音声信号を用いて、スピーカから出音された音声のうちマイクロホンで収音された音声であるエコー成分を、マイクロホンで収音された音声から除去する。これにより、少ない演算量で、音声認識付き機器自身が出音した音声信号に邪魔されずに音声認識できる。
 以下、実施の形態2に係る音声認識付き機器について図面を参照しながら説明する。
 図3は、本実施の形態2に係る音声認識付き機器の構成を示すブロック図である。本実施の形態に係る音声認識付き機器2では、テレビに音声認識機能を搭載する例について述べる。
 同図に示す音声認識付き機器2は、テレビ信号を受信し音声信号を生成するTV受信部200、空間に広帯域の音声信号を出音するスピーカ201、当該空間の音声信号を収音するマイクロホン202、マイクロホン202で収音された音声信号を認識する音声認識部203、スピーカ201から出音されマイクロホン202で収音された音声であるエコー成分を、マイクロホン202で収音された音声から除去するエコーキャンセラ204、スピーカ201から出音される音声信号を狭帯域の信号にダウンサンプリングするダウンサンプラ205、及び、音声認識部203の出力情報に基づいて機器を制御するコマンドを発行するコマンド制御部206を備える。
 なお、同図において、TV受信部200、スピーカ201、マイクロホン202、音声認識部203、コマンド制御部206は、図1におけるTV受信部100、スピーカ101、マイクロホン102、第1の音声認識部103、コマンド制御部105と同じものである。
 このように、本実施の形態に係る音声認識付き機器2は、実施の形態1に係る音声認識付き機器1と比較して、制御部に代わり、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ205と、ダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去するエコーキャンセラ204とを備える。また、音声認識部203は、エコーキャンセラによってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。
 次に、以上のように構成された音声認識付き機器2の動作について説明する。
 図4は、本実施の形態に係る音声認識付き機器2の動作を示すフローチャートである。
 まず、TV受信部200は、テレビ信号を受信し、受信したテレビ信号から音声信号を生成する(S201)。近年ではテレビ信号の音声の再生帯域は24kHz程度の広帯域信号である。そのように生成された音声信号は、スピーカ201により空間に出音される(S202)。つまり、空間に出音された音声の周波数帯域は24kHz程度である。
 スピーカ201から空間に出音された音声を含む当該空間の音声はマイクロホン202によって収音される(S203)。具体的には、マイクロホン202は、空間の音声を、例えばサンプリング周波数8kHzでサンプリングして収音する。つまり、マイクロホン202からエコーキャンセラ204へ出力される音声信号の周波数帯域は8kHzである。言い換えると、マイクロホン202で収音された音声信号は周波数帯域が8kHzにダウンサンプリングされている。
 ところで、スピーカ201で出音される広帯域の音声信号は、さらに、ダウンサンプラ205に入力され、狭帯域信号に変換される。つまり、ダウンサンプラ205は、スピーカ201で出音される音声信号をダウンサンプルする(S204)。具体的には、ダウンサンプラ205は、スピーカ201で出音される音声信号のうち、音声認識において不要な周波数帯域の信号を除去することで、スピーカ201で出音される音声信号を狭帯域化する。より具体的には、音声認識に必要な周波数帯域は高々8kHz帯域であるので、例えば、スピーカ201から出音される音声信号の周波数帯域が24kHzの場合、ダウンサンプラ205は、入力された音声信号の周波数帯域を1/3の周波数帯域である8kHzにダウンサンプルしてエコーキャンセラ204へ出力する。
 ここで、ダウンサンプラ205に入力される音声信号は、スピーカ201から出音される直前の信号である必要はなく、TV受信部200で受信されて再生された音声信号がスピーカ201によって出音されるまでのいずれの段階の音声信号であればよい。それがアナログ信号である場合は、ダウンサンプラ205に入力されるまでのいずれかの段階でAD変換器によってデジタル信号に変換されることは言うまでもない。
 次に、マイクロホン202で収音された音声信号と、ダウンサンプラ205の出力信号とが、エコーキャンセラ204に入力される。エコーキャンセラ204では、スピーカ201から出音されマイクロホン202で収音されるエコー成分を、マイクロホン202で収音された音声信号から除去する。つまり、エコーキャンセルする(S205)。具体的には、エコーキャンセラ204は、ダウンサンプラ205によってダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去する。つまり、マイクロホン202から出力された音声信号からエコー成分の音声信号を除去し、除去後の音声信号を音声認識部203へ出力する。
 なお、エコーキャンセラ204で用いられるエコーキャンセラの方式は従来から知られているどのような方式のエコーキャンセラでもよい。
 最後に、エコーキャンセラ204の出力信号は、音声認識部203に入力され音声認識される。コマンド制御部206では、音声認識部203の出力情報に応じて、機器を制御するコマンドを発行する。つまり、音声認識部203は、エコーキャンセルされた音声信号を音声認識し(S206)、コマンド制御部206は、音声認識部203での音声認識結果である出力情報に応じて、TV受信部200へコマンドを発行する(S207)。
 このように、本実施の形態に係る音声認識付き機器2において、ダウンサンプラ205は、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプルする。そして、エコーキャンセラ204は、ダウンサンプラ205でダウンサンプルされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を、マイクロホン202で収音された音声から除去する。
 このように、本実施の形態に係る音声認識付き機器2はエコーキャンセラ204を用いることで、下記のような効果が期待できる。
 例えば、「10チャンネル」という言葉が、テレビの受信チャンネルを10チャンネルに切り替えるコマンドを発行するためのキーワードであるとする。このとき、ユーザーが「10チャンネル」と発音してチャンネルの切り替えを音声で指示したと同時に、テレビ自身が大きな音でテレビ番組の音声を出音していた場合、ユーザーが発した「10チャンネル」という言葉と、テレビ番組の音声とが混合されてマイクロホン202で収音される。
 もし、ここでエコーキャンセラ204がなかった場合、音声認識部203には、当該混合された音声信号が入力される。その結果、音声認識部203が正しく「10チャンネル」というキーワードを認識することが阻害される。
 これに対して、本実施の形態に係る音声認識付き機器2は、エコーキャンセラ204を備えることにより、スピーカ201から出音されマイクロホン202で収音されるエコー成分を、マイクロホン202で収音した音声信号から除去することができる。その結果、本実施の形態に係る音声認識付き機器2は、ユーザーが発した音声の音声認識を正確に実施できる。
 また、上述したように、エコーキャンセラ204に入力される音声信号は、いずれも、スピーカ201から空間に出音される信号より狭帯域の信号である。つまり、エコーキャンセラ204に対して、スピーカ201側から入力される音声信号、及び、マイクロホン202側から入力される音声信号は、スピーカ201から出音される音声信号より狭帯域化されている。これにより、下記のような効果が期待できる。
 エコーキャンセラ204に入力される音声信号が狭帯域化されていない場合、当該入力される音声信号は24kHz帯域となるが、音声認識の対象となる音声信号の周波数帯域は高々8kHz帯域である。よって、エコーキャンセラ204に入力される音声信号が狭帯域化されていない場合、エコーキャンセラ204における演算量は、音声認識のために要求される本来の演算量に対して、9倍(つまり、(24/8)^2倍)の演算量になってしまう。
 これに対して、本実施の形態に係る音声認識付き機器2は、ダウンサンプラ205及びダウンサンプリングするマイクロホン202を備えることにより、エコーキャンセラ204に入力されるいずれの音声信号の周波数帯域も狭帯域化する。これにより、エコーキャンセラ204における演算量を低減することができる。
 なお、マイクロホン202側からエコーキャンセラ204に入力される音声信号を狭帯域化する方法は、本実施の形態のように処理できる周波数帯域が狭いマイクロホン202を用いてもよいし、一旦、広帯域のマイクロホンにより収音された音声信号を狭帯域の信号にダウンサンプリングすることにより実現してもよい。
 また、ダウンサンプラ205は、スピーカ201から出音される音声の電気信号である音声信号を、音声認識部203での音声認識の対象となる周波数帯域にダウンサンプリングする。これにより、音声認識部203における音声認識率の低下を抑制する。
 以上のように、本実施の形態に係る音声認識付き機器2は、ユーザーの音声を認識する音声認識付き機器であって、空間に広帯域の音声を出音するスピーカ201と、当該空間の音声を収音するマイクロホン202と、マイクロホン202で収音された音声のうちユーザーの音声を認識する音声認識部203と、スピーカ201から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ205と、ダウンサンプリングされた音声信号を用いて、スピーカ201から出音された音声のうちマイクロホン202で収音された音声であるエコー成分を推定し、推定したエコー成分をマイクロホン202で収音された音声から除去するエコーキャンセラ204とを備え、音声認識部203は、エコーキャンセラ204によってエコー成分が除去された音声を認識することにより、ユーザーの音声を認識する。
 このように、エコーキャンセラ204において、ダウンサンプラ205の出力信号に基づいてエコー成分を推定し除去するようにすることで、音声認識付き機器2自身が発する音声信号に邪魔されずに、ユーザーの意図した音声を正確に音声認識できる。
 また、ダウンサンプラ205をエコーキャンセラ204の前段に設けて、音声認識において不要な周波数帯域の信号を除去することで、音声認識部203におけるユーザーの音声の認識率の低下なく、かつ、エコーキャンセラ204における演算量を大幅に削減することができる。なぜなら、上述したように、エコーキャンセラ204の演算量は、入力信号の再生帯域の二乗に比例するからである。
 つまり、本実施の形態に係る音声認識付き機器2は、正確な音声認識を少ない演算量で実現できる。
 また、本実施の形態に係る音声認識付き機器2は、音声認識部203で認識された音声に基づいて、音声認識付き機器2を制御するコマンドを発行するコマンド制御部206を備え、音声認識部203は、エコーキャンセラ204によってエコー成分が除去された音声を認識することにより、コマンド制御部206による、エコー成分に基づくコマンドの発行を禁止する。
 これにより、本実施の形態に係る音声認識付き機器2は、実施の形態1に係る音声認識付き機器1と同様に、音声認識付き機器2自身がユーザーの意図によらず偶然発した音声を音声認識してしまって意図しない動作になることを抑制できる。
 (実施の形態2の変形例)
 上記実施の形態2では、音声認識付き機器2であるテレビから生成される音声信号をモノラル信号としたが、近年では、音声信号がステレオ信号であることが普通となった。さらに、5.1chのマルチチャネル放送なども始まっている。このように、テレビから生成される信号がマルチチャネルとなった場合の音声認識つき機器について、例えばチャネル数が2chの場合を例に、実施の形態2の変形例として説明する。
 図5は、本変形例に係る音声認識付き機器の構成を示すブロック図である。同図に示す音声認識付き機器3は、実施の形態2に係る音声認識付き機器2と比較して、スピーカから出音される音声信号がマルチチャネルとなっている点が異なる。なお、図5において、TV受信部300、マイクロホン302、音声認識部303、及び、コマンド制御部306は、図3における、TV受信部200、マイクロホン202、音声認識部203、及び、コマンド制御部206と同じものである。
 このように、本変形例に係る音声認識付き機器3は、実施の形態2に係る音声認識付き機器2と比較して、モノラルの音声信号のために設けられたスピーカ201、ダウンサンプラ205及びエコーキャンセラ204に代わり、ステレオの音声信号のために設けられたステレオスピーカ301、ステレオダウンサンプラ305及びステレオエコーキャンセラ304を備える。
 具体的には、ステレオスピーカ301はテレビ信号のステレオ音声信号のそれぞれに対応するスピーカを有し、ステレオ音声信号のそれぞれを音声に変換して空間に出音する。ステレオエコーキャンセラ304は、ステレオ音声信号のそれぞれに対応する2つのエコーキャンセラを有し、ステレオダウンサンプラ305によりダウンサンプルされたステレオ音声信号のそれぞれを入力とし、マイクロホン302で収音された信号からステレオスピーカ301で出音されるエコー成分を除去する。その方法は従来から知られているどのような方法であってもよい。ステレオダウンサンプラ305は、ステレオスピーカ301から出音されるそれぞれのチャンネルの広帯域な音声信号をダウンサンプリングし狭帯域な音声信号に変換する。
 ここで、ステレオダウンサンプラ305でダウンサンプルする比率は、チャネル数をN(本変形例ではN=2)とした場合、入力された音声信号を(1/N)^0.5以下にダウンサンプリングすることが望ましい。つまり、ステレオダウンサンプラ305は、スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングすることが望ましい。これにより、本変形例に係る音声認識付き機器3は下記のような効果が期待できる。
 ステレオエコーキャンセラ304が有する各エコーキャンセラの演算量は、入力された音声信号の再生帯域の二乗に比例する。よって、ステレオダウンサンプラ305において音声信号を(1/N)^0.5にダウンサンプリングすることで、ステレオエコーキャンセラ304の演算量は、チャネルあたり((1/N)^0.5)^2=1/Nとなり、全体で1/N*N=1となる。言い換えると、ステレオエコーキャンセラ304の各エコーキャンセラの演算量は1/Nとなり、ステレオエコーキャンセラ304の演算量は1/N*N=1となる。つまり、チャネル数が増えても、ステレオエコーキャンセラ304に割り当てる演算量を一定以下に押さえることができる。
 すなわち、本変形例に係る音声認識付き機器3は、ステレオダウンサンプラ305において音声信号を(1/N)^0.5にダウンサンプリングすることにより、音声信号がマルチチャネルの場合であっても、モノラルチャネルの場合の演算量以下の演算量で、ユーザーの発声した音声を、音声認識付き機器3自身が出音した音声信号に邪魔されることなく、正確に音声認識できる。具体的には、ステレオ音声信号を出音するステレオスピーカ301を備える本変形例に係る音声認識付き機器3は、モノラル音声信号を出音するスピーカ201を備える実施の形態2に係る音声認識付き機器2と比較して、演算量を増やすことなく、ユーザーの発声した音声を正確に音声認識できる。
 なお、本変形例では音声認識付き機器3を音声信号がステレオ(2.0ch)信号の場合を例に挙げて説明したが、音声信号のチャネルはこれに限らず、ステレオ(2.0ch)信号よりも多くのチャンネルを有する、例えば5.1chであってもよい。
 以上、一つまたは複数の態様に係る音声認識付き機器について、実施の形態及び変形例に基づいて説明したが、本発明は、この実施の形態及び変形例に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を本実施の形態及び変形例に施したものや、異なる実施の形態及び変形例における構成要素を組み合わせて構築される形態も、一つまたは複数の態様の範囲内に含まれてもよい。
 例えば、上記各実施の形態及び変形例では、音声認識付き機器としてテレビを例にあげて説明したが、音声認識付き機器はこれに限らず、テレビ放送を録画した録画再生機器であってもよいし、あらかじめ映画コンテンツや音楽コンテンツが記録されたメディアを再生する、DVD(Digital Versatile Disc)プレーヤ、BD(Blu-Ray(登録商標) Disk)プレーヤ、CD(Compact Disc)プレーヤなど、音声を発する機器であればよい。
 また、図3に示した実施の形態2に係る音声認識付き機器2において、エコーキャンセラ204に入力される2系統の音声信号のうち、スピーカ201へ向かう経路から分岐してエコーキャンセラ204に入力される音声信号はダウンサンプリングされているのに対し、マイクロホン202からエコーキャンセラ204に入力される音声信号はダウンサンプリングされていないように見えるが、上記実施の形態2で述べたように、マイクロホン202のサンプリング周波数は、ダウンサンプラ205の出力信号のサンプリング周波数と同じ周波数である。つまり、実施の形態2では、マイクロホン202からエコーキャンセラ204へ入力される音声信号は、マイクロホン202によってダウンサンプリングされている。
 なお、マイクロホン202及びダウンサンプラ205でダウンサンプラされた後の音声信号の周波数帯域は、上記の8kHzに限らない。例えば、スピーカ201から出音される音声信号のサンプリング周波数が48kHz、マイクロホン202のサンプリング周波数が16kHz、ダウンサンプラ205は入力された音声信号の周波数帯域を1/3にダウンサンプルするものであり、ダウンサンプラ205の出力信号の周波数帯域は16kHzであってもよい。この場合も、マイクロホン202のサンプリング周波数は16kHzとなり、ダウンサンプラ205の出力信号の周波数帯域と同一である。
 また、上記実施の形態2に係る音声認識付き機器2では、マイクロホン202のサンプリング周波数はダウンサンプラ205のサンプリング周波数と一致したが、マイクロホン202のサンプリング周波数がダウンサンプラ205のサンプリング周波数より高くてもよい。例えば、マイクロホン202のサンプリング周波数が24kHz、ダウンサンプラ205のサンプリング周波数が16kHzであってもよい。この場合は、音声認識付き機器は、図6に示すように、さらに、マイクロホン202の出力信号をダウンサンプルするダウンサンプラ207を備え、ダウンサンプラ207によりマイクロホン202で収音された音声信号を、24kHzから16kHzにダウンサンプリングすることにより、ダウンサンプラ205の出力信号の周波数帯域と、マイクロホン202のサンプリング周波数(すなわち、マイクロホン202で収音された音声信号の周波数帯域)とを一致させてもよい。
 また、例えば、上記の各装置を構成する構成要素の一部または全部は典型的には集積回路であるLSIとして実現されてもよい。これらは個別に1チップ化されても良いし、一部又は全てを含むように1チップ化されてもよい。
 ここでは、LSIとしたが、集積度の違いにより、IC、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
 また、集積回路化の手法はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)や、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適応等が可能性としてありえる。
 また、上記実施の形態1に係る音声認識付き機器の構成は図1に示す構成に限らず、少なくとも図7に示す構成であればよい。すなわち、音声認識付き機器4は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音するスピーカ401と、当該空間の音声を収音するマイクロホン402と、前記マイクロホン402で収音された音声を認識する第1の音声認識部403と、前記第1の音声認識部403で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部405と、前記スピーカ401から出音される音声を用いて、前記コマンド発行部405による前記コマンドの発行を禁止する制御部404とを備える構成であればよい。
 このような構成であっても、音声認識付き機器4は、図1に示す音声認識付き機器1と同様に、音声認識付き機器4自身が発する音声による誤作動を抑止することができる。
 この音声認識付き機器4は、図8に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ(S401)と、前記出音ステップ(S401)の後、当該空間の音声を収音する収音ステップ(S402)と、前記収音ステップ(S402)で収音された音声を認識する音声認識ステップ(S403)と、コマンド発行部405が、前記音声認識ステップ(S403)で認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップ(S404)と、前記出音ステップ(S401)で出音される音声を用いて、前記コマンド発行部405による前記コマンドの発行を禁止する禁止ステップ(S405)とを含む音声認識方法を実行する。
 また、上記実施の形態2に係る音声認識付き機器の構成は図3に示す構成に限らず、少なくとも図9に示す構成であればよい。すなわち、音声認識付き機器5は、ユーザーの音声を認識する音声認識付き機器であって、空間に音声を出音する少なくとも1つのスピーカ501と、当該空間の音声を収音するマイクロホン502と、前記マイクロホン502で収音された音声のうち前記ユーザーの音声を認識する音声認識部503と、前記スピーカ501から出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラ505と、ダウンサンプリングされた前記音声信号を用いて、前記スピーカ501から出音された音声のうち前記マイクロホン502で収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホン502で収音された音声から除去するエコーキャンセラ504とを備え、前記音声認識部503は、前記エコーキャンセラ504によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する構成であればよい。
 このような構成であっても、音声認識付き機器5は、図3に示す音声認識付き機器2と同様に、ユーザーの発声した音声を、音声認識付き機器5自身が出音した音声に邪魔されることなく、正確に音声認識できる。また、音声認識付き機器2と同様に、正確な音声認識を少ない演算量で実現できる。
 この音声認識付き機器5は、図10に示すように、ユーザーの音声を認識する音声認識方法であって、空間に音声を出音する出音ステップ(S501)と、前記出音ステップ(S501)の後、当該空間の音声を収音する収音ステップ(S502)と、前記収音ステップ(S502)で収音された音声のうち前記ユーザーの音声を認識する音声認識ステップ(S505)と、前記出音ステップ(S501)で出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップ(S503)と、ダウンサンプリングされた前記音声信号を用いて、前記出音ステップ(S501)で出音された音声のうち前記収音ステップ(S502)で収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップ(S502)で収音された音声から除去するエコーキャンセルステップ(S504)とを含み、前記音声認識ステップ(S505)では、前記エコーキャンセルステップ(S504)によって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する音声認識方法を実行する。
 また、上記各実施の形態において、各構成要素は、専用のハードウェアで構成されるか、各構成要素に適したソフトウェアプログラムを実行することによって実現されてもよい。各構成要素は、CPUまたはプロセッサなどのプログラム実行部が、ハードディスクまたは半導体メモリなどの記録媒体に記録されたソフトウェアプログラムを読み出して実行することによって実現されてもよい。ここで、上記各実施の形態の音声認識付き機器などを実現するソフトウェアは、次のようなプログラムである。
 すなわち、上記実施の形態1に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図8に示すような音声認識方法を実行させる。
 また、上記実施の形態2に係る音声認識付き機器などを実現するプログラムは、コンピュータに、図10に示すような音声認識方法を実行させる。
 本発明に係る音声認識付き機器は、当該機器自身が発する音声に邪魔されずに音声認識を正確に行うことができるので、テレビや録画再生機器、DVD/BD/CDプレーヤなど、音声を発する機器に幅広く応用できる。
1、2、3、4、5  音声認識付き機器
100、200、300  TV受信部
101、201、401、501、801、901  スピーカ
102、202、302、402、502、802、902  マイクロホン
103、403  第1の音声認識部
104  第2の音声認識部
105、206、306  コマンド制御部
203、303、503  音声認識部
204、504、904  エコーキャンセラ
205、505、207  ダウンサンプラ
301  ステレオスピーカ
304  ステレオエコーキャンセラ
305  ステレオダウンサンプラ
800、900  TV受信表示部
803  第1音声認識部
804  第2音声認識部

Claims (7)

  1.  ユーザーの音声を認識する音声認識付き機器であって、
     空間に音声を出音するスピーカと、
     当該空間の音声を収音するマイクロホンと、
     前記マイクロホンで収音された音声を認識する第1の音声認識部と、
     前記第1の音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部と、
     前記スピーカから出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する制御部とを備える
     音声認識付き機器。
  2.  前記制御部は、
     前記スピーカから出音される音声を認識する第2の音声認識部を備え、
     前記第2の音声認識部で認識された音声が予め定められたキーワードと同じであるか否かを判断し、同じである場合は、前記コマンド発行部による前記コマンドの発行を禁止する
     請求項1記載の音声認識付き機器。
  3.  ユーザーの音声を認識する音声認識付き機器であって、
     空間に音声を出音する少なくとも1つのスピーカと、
     当該空間の音声を収音するマイクロホンと、
     前記マイクロホンで収音された音声のうち前記ユーザーの音声を認識する音声認識部と、
     前記スピーカから出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプラと、
     ダウンサンプリングされた前記音声信号を用いて、前記スピーカから出音された音声のうち前記マイクロホンで収音された音声であるエコー成分を推定し、推定したエコー成分を前記マイクロホンで収音された音声から除去するエコーキャンセラとを備え、
     前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
     音声認識付き機器。
  4.  前記ダウンサンプラは、前記スピーカの数がN(Nは2以上の整数)の場合、入力された前記音声信号を(1/N)^0.5以下にダウンサンプリングする
     請求項3記載の音声認識付き機器。
  5.  さらに、前記音声認識部で認識された音声に基づいて、前記音声認識付き機器を制御するコマンドを発行するコマンド発行部を備え、
     前記音声認識部は、前記エコーキャンセラによって前記エコー成分が除去された音声を認識することにより、前記コマンド発行部による、前記エコー成分に基づく前記コマンドの発行を禁止する
     請求項3又は4記載の音声認識付き機器。
  6.  ユーザーの音声を認識する音声認識方法であって、
     空間に音声を出音する出音ステップと、
     前記出音ステップの後、当該空間の音声を収音する収音ステップと、
     前記収音ステップで収音された音声を認識する音声認識ステップと、
     コマンド発行部が、前記音声認識ステップで認識された音声に基づいて、音声認識付き機器を制御するコマンドを発行するコマンド発行ステップと、
     前記出音ステップで出音される音声を用いて、前記コマンド発行部による前記コマンドの発行を禁止する禁止ステップとを含む
     音声認識方法。
  7.  ユーザーの音声を認識する音声認識方法であって、
     空間に音声を出音する出音ステップと、
     前記出音ステップの後、当該空間の音声を収音する収音ステップと、
     前記収音ステップで収音された音声のうち前記ユーザーの音声を認識する音声認識ステップと、
     前記出音ステップで出音される音声の電気信号である音声信号を狭帯域にダウンサンプリングするダウンサンプルステップと、
     ダウンサンプリングされた前記音声信号を用いて、前記出音ステップで出音された音声のうち前記収音ステップで収音された音声であるエコー成分を推定し、推定したエコー成分を前記収音ステップで収音された音声から除去するエコーキャンセルステップとを含み、
     前記音声認識ステップでは、前記エコーキャンセルステップによって前記エコー成分が除去された音声を認識することにより、前記ユーザーの音声を認識する
     音声認識方法。
PCT/JP2013/004813 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法 WO2014103099A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201380067993.8A CN104956436B (zh) 2012-12-28 2013-08-09 带有语音识别功能的设备以及语音识别方法
JP2014554069A JP6225920B2 (ja) 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法
US14/750,647 US9792902B2 (en) 2012-12-28 2015-06-25 Device including speech recognition function and method of recognizing speech
US15/703,594 US10262653B2 (en) 2012-12-28 2017-09-13 Device including speech recognition function and method of recognizing speech

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2012287724 2012-12-28
JP2012-287724 2012-12-28

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/750,647 Continuation US9792902B2 (en) 2012-12-28 2015-06-25 Device including speech recognition function and method of recognizing speech

Publications (1)

Publication Number Publication Date
WO2014103099A1 true WO2014103099A1 (ja) 2014-07-03

Family

ID=51020242

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2013/004813 WO2014103099A1 (ja) 2012-12-28 2013-08-09 音声認識付き機器及び音声認識方法

Country Status (4)

Country Link
US (2) US9792902B2 (ja)
JP (1) JP6225920B2 (ja)
CN (1) CN104956436B (ja)
WO (1) WO2014103099A1 (ja)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017161841A (ja) * 2016-03-11 2017-09-14 パイオニア株式会社 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体
JP2019039965A (ja) * 2017-08-22 2019-03-14 アルパイン株式会社 音声認識システム
JP2019045532A (ja) * 2017-08-29 2019-03-22 アルパイン株式会社 音声認識装置、車載システム及びコンピュータプログラム
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム
JP2019184809A (ja) * 2018-04-10 2019-10-24 シャープ株式会社 音声認識装置、音声認識方法
JP2019184679A (ja) * 2018-04-03 2019-10-24 シャープ株式会社 ネットワークシステム、サーバ、および情報処理方法
JP2020511682A (ja) * 2017-06-05 2020-04-16 グーグル エルエルシー 記録メディアのホットワードトリガ抑制
WO2020128552A1 (ja) * 2018-12-18 2020-06-25 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
US11348575B2 (en) * 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus
US11600270B2 (en) 2017-09-15 2023-03-07 Saturn Licensing Llc Information processing apparatus and information processing method

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102332729B1 (ko) * 2014-07-28 2021-11-30 삼성전자주식회사 발음 유사도를 기반으로 한 음성 인식 방법 및 장치, 음성 인식 엔진 생성 방법 및 장치
DE102015222105A1 (de) * 2015-11-10 2017-05-11 Volkswagen Aktiengesellschaft Audiosignalverarbeitung in einem Fahrzeug
US10091545B1 (en) * 2016-06-27 2018-10-02 Amazon Technologies, Inc. Methods and systems for detecting audio output of associated device
US10079015B1 (en) * 2016-12-06 2018-09-18 Amazon Technologies, Inc. Multi-layer keyword detection
US10134396B2 (en) 2016-12-07 2018-11-20 Google Llc Preventing of audio attacks
US10242673B2 (en) * 2016-12-07 2019-03-26 Google Llc Preventing of audio attacks using an input and an output hotword detection model
US10276175B1 (en) * 2017-11-28 2019-04-30 Google Llc Key phrase detection with audio watermarking
JP6962158B2 (ja) * 2017-12-01 2021-11-05 ヤマハ株式会社 機器制御システム、機器制御方法、及びプログラム
FR3075442B1 (fr) * 2017-12-19 2019-11-22 Sagemcom Broadband Sas Dispositif et procede d'assistance vocale
CN110312093A (zh) * 2018-03-27 2019-10-08 晨星半导体股份有限公司 电子装置及相关的信号处理方法
US10692496B2 (en) * 2018-05-22 2020-06-23 Google Llc Hotword suppression
CN110718223B (zh) 2019-10-28 2021-02-12 百度在线网络技术(北京)有限公司 用于语音交互控制的方法、装置、设备和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JP2000200099A (ja) * 1998-10-26 2000-07-18 Sony Corp エコ―消去装置及び方法、並びに音声再生装置
JP2001100785A (ja) * 1999-07-28 2001-04-13 Matsushita Electric Ind Co Ltd Av機器用音声認識装置
JP2001154694A (ja) * 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2008178087A (ja) * 2006-12-18 2008-07-31 Harman Becker Automotive Systems Gmbh 低複雑性のエコー補償

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2874176B2 (ja) 1989-03-16 1999-03-24 アイシン精機株式会社 音声信号処理装置
US6665645B1 (en) 1999-07-28 2003-12-16 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus for AV equipment
US6526382B1 (en) * 1999-12-07 2003-02-25 Comverse, Inc. Language-oriented user interfaces for voice activated services
EP1305791A1 (en) * 2000-07-21 2003-05-02 Koninklijke Philips Electronics N.V. Speech control over a plurality of devices
KR100368289B1 (ko) * 2001-02-20 2003-01-24 (주)성우테크노 음성인식장치를 위한 음성명령식별기
KR100552468B1 (ko) * 2001-07-19 2006-02-15 삼성전자주식회사 음성인식에 따른 오동작을 방지 및 음성인식율을 향상 할수 있는 전자기기 및 방법
US20050114141A1 (en) * 2003-09-05 2005-05-26 Grody Stephen D. Methods and apparatus for providing services using speech recognition
KR101567603B1 (ko) * 2009-05-07 2015-11-20 엘지전자 주식회사 멀티 음성 시스템의 동작 제어 장치 및 방법
US20100308999A1 (en) * 2009-06-05 2010-12-09 Chornenky Todd E Security and monitoring apparatus
US9953643B2 (en) * 2010-12-23 2018-04-24 Lenovo (Singapore) Pte. Ltd. Selective transmission of voice data
US20120253493A1 (en) * 2011-04-04 2012-10-04 Andrews Christopher C Automatic audio recording and publishing system
WO2015098109A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03160499A (ja) * 1989-11-20 1991-07-10 Sanyo Electric Co Ltd 音声認識装置
JP2000200099A (ja) * 1998-10-26 2000-07-18 Sony Corp エコ―消去装置及び方法、並びに音声再生装置
JP2001100785A (ja) * 1999-07-28 2001-04-13 Matsushita Electric Ind Co Ltd Av機器用音声認識装置
JP2001154694A (ja) * 1999-09-13 2001-06-08 Matsushita Electric Ind Co Ltd 音声認識装置及び方法
JP2006171077A (ja) * 2004-12-13 2006-06-29 Nissan Motor Co Ltd 音声認識装置および音声認識方法
JP2008178087A (ja) * 2006-12-18 2008-07-31 Harman Becker Automotive Systems Gmbh 低複雑性のエコー補償

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017161841A (ja) * 2016-03-11 2017-09-14 パイオニア株式会社 再生制御装置、再生制御システム、並びに再生制御方法、プログラム及び記録媒体
JP2020511682A (ja) * 2017-06-05 2020-04-16 グーグル エルエルシー 記録メディアのホットワードトリガ抑制
JP2019039965A (ja) * 2017-08-22 2019-03-14 アルパイン株式会社 音声認識システム
JP2019045532A (ja) * 2017-08-29 2019-03-22 アルパイン株式会社 音声認識装置、車載システム及びコンピュータプログラム
JP2019053143A (ja) * 2017-09-13 2019-04-04 アルパイン株式会社 音声認識システム及びコンピュータプログラム
US11600270B2 (en) 2017-09-15 2023-03-07 Saturn Licensing Llc Information processing apparatus and information processing method
JP2019184679A (ja) * 2018-04-03 2019-10-24 シャープ株式会社 ネットワークシステム、サーバ、および情報処理方法
JP7197992B2 (ja) 2018-04-10 2022-12-28 シャープ株式会社 音声認識装置、音声認識方法
JP2019184809A (ja) * 2018-04-10 2019-10-24 シャープ株式会社 音声認識装置、音声認識方法
JPWO2020128552A1 (ja) * 2018-12-18 2021-11-18 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
JP7105320B2 (ja) 2018-12-18 2022-07-22 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
WO2020128552A1 (ja) * 2018-12-18 2020-06-25 日産自動車株式会社 音声認識装置、音声認識装置の制御方法、コンテンツ再生装置、及びコンテンツ送受信システム
US11922953B2 (en) 2018-12-18 2024-03-05 Nissan Motor Co., Ltd. Voice recognition device, control method of voice recognition device, content reproducing device, and content transmission/reception system
US11348575B2 (en) * 2019-12-11 2022-05-31 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus
US20220366902A1 (en) * 2019-12-11 2022-11-17 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus
US11763805B2 (en) 2019-12-11 2023-09-19 Samsung Electronics Co., Ltd. Speaker recognition method and apparatus

Also Published As

Publication number Publication date
US20180005627A1 (en) 2018-01-04
US20150294666A1 (en) 2015-10-15
CN104956436B (zh) 2018-05-29
US9792902B2 (en) 2017-10-17
CN104956436A (zh) 2015-09-30
JPWO2014103099A1 (ja) 2017-01-12
JP6225920B2 (ja) 2017-11-08
US10262653B2 (en) 2019-04-16

Similar Documents

Publication Publication Date Title
JP6225920B2 (ja) 音声認識付き機器及び音声認識方法
US9336793B2 (en) Controller for audio device and associated operation method
US10950214B2 (en) Active noise cancelation with controllable levels
JP5562309B2 (ja) エコーキャンセラ
WO2018208721A1 (en) Combined reference signal for acoustic echo cancellation
US9854358B2 (en) System and method for mitigating audio feedback
US20100191527A1 (en) Echo suppressing system, echo suppressing method, recording medium, echo suppressor, sound output device, audio system, navigation system and mobile object
JP2010154389A (ja) 帯域分割装置
JP6887139B2 (ja) 音響処理装置、音響処理方法、およびプログラム
JP2019049599A (ja) カラオケユニット
JP6355049B2 (ja) 音響信号処理方法、及び音響信号処理装置
US10425731B2 (en) Audio processing apparatus, audio processing method, and program
US10360922B2 (en) Noise reduction device and method for reducing noise
KR20180036032A (ko) 영상처리장치 및 기록매체
WO2023149015A1 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム
US11894013B2 (en) Sound collection loudspeaker apparatus, method and program for the same
CN112243191B (zh) 音响处理装置及音响处理方法
JP5333786B2 (ja) カラオケ装置及びカラオケ装置用プログラム
JP5051235B2 (ja) エコー抑圧システム、エコー抑圧方法、エコー抑圧プログラム、エコー抑圧装置及び音出力装置
JP4985562B2 (ja) 録音装置、方法及びプログラム
JP2007288408A (ja) 2ヶ国語音声識別システム
TW202131308A (zh) 用於聲學回聲消除的時間延遲校準方法及電視裝置
WO2018025398A1 (ja) 通信機器、車載ハンズフリー装置及び音声出力装置
JP2006053435A (ja) 音響制御装置及び音響制御方法
JP2012151608A (ja) 音声処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13867485

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2014554069

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13867485

Country of ref document: EP

Kind code of ref document: A1