WO2015029296A1 - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置 Download PDF

Info

Publication number
WO2015029296A1
WO2015029296A1 PCT/JP2014/003459 JP2014003459W WO2015029296A1 WO 2015029296 A1 WO2015029296 A1 WO 2015029296A1 JP 2014003459 W JP2014003459 W JP 2014003459W WO 2015029296 A1 WO2015029296 A1 WO 2015029296A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound source
voice
point sound
speech recognition
unit
Prior art date
Application number
PCT/JP2014/003459
Other languages
English (en)
French (fr)
Inventor
剛樹 西川
Original Assignee
パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ filed Critical パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ
Priority to JP2015533945A priority Critical patent/JP6433903B2/ja
Publication of WO2015029296A1 publication Critical patent/WO2015029296A1/ja
Priority to US14/923,912 priority patent/US9818403B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Definitions

  • the present disclosure relates to a speech recognition method and a speech recognition apparatus that recognize speech spoken by a user.
  • Patent Document 1 discloses a voice recognition device provided with a reflection type sensor having a light emitting unit and a light receiving unit.
  • Patent Document 2 describes a voice input device including an angle detection unit that detects an angle of a voice input unit, and a distance detection unit that detects a distance between a voice input unit and a user.
  • One aspect of the present disclosure provides a speech recognition method and a speech recognition apparatus capable of preventing erroneous operation of speech recognition with an inexpensive configuration.
  • a voice recognition method is a voice recognition method for recognizing a voice for operating a device, comprising: voice information acquisition step of acquiring voice information from a microphone disposed in a predetermined space; A space sound pressure distribution detecting step of detecting a space sound pressure distribution indicating a distribution of sound pressure in the space based on the sound information acquired in the sound information acquiring step; and detected in the space sound pressure distribution detecting step A point sound source detection step of detecting a point sound source in the space based on the spatial sound pressure distribution; and the point sound source acquired in the sound information acquisition step when the point sound source is detected in the point sound source detection step And a voice recognition control step of determining that voice recognition processing is to be performed on voice information.
  • FIG. 1 is a diagram showing a configuration of a speech recognition system in a first embodiment of the present disclosure. It is a figure which shows the structure of the apparatus of the speech recognition system in Embodiment 1 of this indication. It is a figure which shows the structure of the speech recognition part in Embodiment 1 of this indication. It is a flowchart for demonstrating the operation
  • FIG. 1 is a diagram showing the configuration of a speech recognition system according to a first embodiment of the present disclosure.
  • the speech recognition system shown in FIG. 1 includes an apparatus 1 and a server 2.
  • the device 1 includes, for example, a home electric device disposed in a home.
  • the device 1 is communicably connected to the server 2 via the network 3.
  • the network 3 is, for example, the Internet.
  • the server 2 is configured of a known server computer or the like, and is communicably connected to the device 1 via the network 3.
  • FIG. 2 is a diagram showing the configuration of the device of the speech recognition system in the first embodiment of the present disclosure.
  • the device 1 in the first embodiment includes a communication unit 11, a control unit 12, a memory 13, a microphone 14, a speaker 15, and a display unit 16.
  • a part of these configurations of the device 1 may be applied, or other configurations may be provided.
  • the communication unit 11 transmits information to the server 2 via the network 3 and receives information from the server 2 via the network 3.
  • the control unit 12 includes, for example, a CPU (central processing unit), and controls the entire device 1.
  • the control unit 12 includes a voice recognition unit 100.
  • the voice recognition unit 100 recognizes the user's voice.
  • the control unit 12 operates the device 1 according to the recognized voice.
  • FIG. 3 is a diagram showing the configuration of the speech recognition unit in the first embodiment of the present disclosure.
  • the speech recognition unit 100 in the first embodiment includes a speech acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a speech recognition control unit 204, and a speech recognition processing unit 205.
  • the voice acquisition unit 201 obtains voice information from the microphone 14 disposed in a predetermined space. Specifically, the microphone 14 converts voice, which is an analog signal, into voice information, which is a digital signal, and the voice acquisition unit 201 acquires voice information converted into a digital signal from the microphone 14.
  • prescribed space is the room in which the apparatus is installed, for example.
  • the space sound pressure distribution detection unit 202 detects a space sound pressure distribution indicating the distribution of sound pressure in the space based on the sound information acquired by the sound acquisition unit 201.
  • the space sound pressure distribution indicates, for example, the distribution of sound pressure at predetermined angles when the position of the device 1 (microphone 14) is used as a reference.
  • the spatial sound pressure distribution may indicate, for example, the distribution of sound pressure at predetermined angles and at predetermined distances with reference to the position of the device 1 (microphone 14). Specific examples of the spatial sound pressure distribution will be described later in the present embodiment and the second embodiment.
  • the point sound source detection unit 203 detects a point sound source in the space based on the space sound pressure distribution detected by the space sound pressure distribution detection unit 202. Specifically, among the spatial sound pressure distribution detected by the spatial sound pressure distribution detection unit 202, the point sound source detection unit 203 first acquires an angular range of a sound source whose sound pressure is equal to or higher than a predetermined threshold. And the sound source whose width of the acquired angle range is below a predetermined width is judged as a point sound source in space.
  • the mouth of a person who speaks can be regarded as a point sound source, and devices such as an air conditioner that emits noise have a wider sound source than the human mouth, and can also be regarded as a plane sound source because they are diffuse. . Therefore, by detecting a point sound source in the space, it can be determined whether or not it is a voice emitted by a human.
  • the speech recognition control unit 204 determines that the speech recognition process is to be performed on the speech information acquired by the speech acquisition unit 201.
  • the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201 when the speech recognition control unit 204 determines that speech recognition processing is to be performed.
  • FIG. 4 is a flowchart for explaining the operation of the speech recognition system according to the first embodiment of the present disclosure.
  • the sound acquisition unit 201 acquires sound information from the microphone 14 provided in the device 1.
  • the microphone 14 includes, for example, two microphone units, and outputs audio information acquired from the two microphone units to the audio acquisition unit 201.
  • the number of microphone units included in the microphone 14 is not limited to two, and three or more microphone units may be included.
  • step S2 the space sound pressure distribution detection unit 202 detects a space sound pressure distribution indicating the distribution of sound pressure in the space based on the sound information acquired by the sound acquisition unit 201.
  • the microphone 14 includes a plurality of microphone units
  • the beam direction of the directivity is shaken (scanned) for every predetermined angle. Sound pressure distribution can be detected.
  • beam operation relating to the distance of the sound source becomes possible, and detection of sound pressure distribution at predetermined distances becomes possible.
  • FIG. 24A is a view schematically showing a space in which the device 1 and a plurality of sound sources (the sound source 241, the sound source 242, the sound source 243, the sound source 244) exist, and FIG. It is the figure which showed the space sound pressure distribution which the space sound pressure distribution detection part 202 detected in the space shown.
  • the microphone 14 of the device 1 shown in FIG. 24A includes a microphone unit 14a and a microphone unit 14b which are different in position in the horizontal direction. Further, as shown in FIG. 24A, it is assumed that a plurality of sound sources (a sound source 241, a sound source 242, a sound source 243, a sound source 244) exist in the space. Since the microphones 14 including a plurality of microphone units can provide directivity to the sound collection range as described above, each of the plurality of regions in the space can be changed by scanning (scanning) the directional beam direction. The presence or absence of a sound source can be detected. By this, the space sound pressure distribution as shown in FIG. 24 (B) can be detected. The spatial sound pressure distribution shown in FIG. 24B indicates the distribution of sound pressure at each angle in the range of ⁇ 90 ° to 90 ° when the position of the device 1 is 0 °.
  • the microphone 14 When the microphone 14 includes two microphone units whose positions are different in the horizontal direction, the spatial sound pressure distribution on the horizontal surface can be detected as shown in FIG. When the microphone 14 includes two microphone units whose positions are different in the vertical direction, the spatial sound pressure distribution on the vertical surface can be detected. In addition, when the microphone 14 includes three microphone units whose positions are different in the horizontal and vertical directions, it is possible to detect the distribution of sound pressure levels in a three-dimensional coordinate space having the position of the microphone 14 as an origin.
  • the point sound source detection unit 203 detects a point sound source in the space based on the space sound pressure distribution detected by the space sound pressure distribution detection unit 202.
  • the width of the point sound source is narrower than the width of the surface sound source.
  • the area of the point sound source is smaller than the area of the surface sound source. Therefore, the point sound source detection unit 203 first acquires an angular range of a sound source whose sound pressure is equal to or greater than a predetermined threshold value among the space sound pressure distribution detected by the space sound pressure distribution detection unit 202. And the sound source whose width of the acquired angle range is below a predetermined width is judged as a point sound source in space.
  • a specific example in which the point sound source detection unit 203 specifies a point sound source in the space will be described with reference to FIG.
  • the point sound source detection unit 203 first specifies an angular range in which the sound pressure is equal to or greater than the predetermined threshold value 245 in the space sound pressure distribution shown in FIG. As a result, the sound source to be determined as to whether or not it is a point sound source is specified.
  • the sound source 241 is within the range of -90 ° to 45 °
  • the sound source 242 is within the range of -45 ° to 0 °
  • the sound source 243 is within the range of 0 ° to 45 °.
  • the sound source 244 is specified as a sound source to be determined whether it is a point sound source or not.
  • the spatial sound pressure distribution detection unit 202 acquires the angular range A of the sound source 241, the angular range B of the sound source 242, the angular range C of the sound source 243, and the angular range D of the sound source 244.
  • the point sound source detection unit 203 is a sound source having an angular range equal to or less than a predetermined width among the angular ranges A to D of the sound source 241, the sound source 242, the sound source 243, and the sound source 244 specified as the target sound source.
  • the sound sources 242 and 244 corresponding to the angular ranges B and D which are equal to or less than a predetermined width are determined to be point sound sources.
  • the method of determining whether the point sound source detection unit 203 is a point sound source is not limited to the method described above.
  • the point sound source detection unit 203 is all about the acquired sound source, such as the magnitude of the sound pressure, the width of the sound pressure (that is, the specified angle range of the sound source), the feature of the sound wave, the area of the sound pressure (described in the second embodiment) It is determined whether it is a point sound source by acquiring one or more pieces of information among the information.
  • step S4 the voice recognition control unit 204 determines whether or not the point sound source is detected by the point sound source detection unit 203.
  • the voice recognition control unit 204 determines that voice recognition processing is to be performed, and the process proceeds to step S5.
  • the voice recognition control unit 204 determines that the voice recognition process is not performed, and returns to the process of step S1.
  • the point sound source detection unit 203 detects the point sound source 242 and the point sound source 244
  • the process proceeds to step S5.
  • the voice recognition control unit 204 determines only the sound source 242 which is a sound source located within a predetermined angular range (for example, -45 ° to 45 °) from the microphone 14 among the sound sources 242 and 244 as the sound source to be controlled. .
  • a predetermined angular range for example, -45 ° to 45 °
  • the predetermined angle range determined by the voice recognition control unit 204 to be a point sound source may be a preset angle or may be set by the user.
  • step S5 when the speech recognition control unit 204 determines that the speech recognition processing is to be performed, the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201. Further, when it is determined that the speech recognition control unit 204 does not perform the speech recognition process, the speech recognition processing unit 205 does not perform the speech recognition process on the speech information acquired by the speech acquisition unit 201.
  • the speech recognition process is performed, and when the point sound source is not detected, the speech recognition process is not performed. Therefore, it may be easily determined whether the speech recognition process is performed. it can. In addition, since a sensor for detecting the presence of human beings is not necessary, malfunction of voice recognition can be prevented with an inexpensive configuration.
  • microphone 14 includes two microphone units in the present embodiment, the present disclosure is not particularly limited thereto, and microphone 14 may include three or more microphone units. In this case, the detection accuracy of the space sound pressure distribution can be improved. This is also applicable to the other embodiments.
  • the spatial sound pressure distribution is detected using the microphone 14 provided in the device 1, but the present disclosure is not particularly limited thereto, and the spatial sound pressure distribution detection unit 202 is configured to receive the device 1.
  • the spatial sound pressure distribution may be detected using a microphone provided in another device arranged in the same space as the device 1.
  • the positions of the microphones of the other devices are preferably stored in advance in the space sound pressure distribution detection unit 202. This is also applicable to the other embodiments.
  • the device 1 includes the voice recognition unit 100 in the present embodiment
  • the present disclosure is not particularly limited thereto, and the server 2 may include the voice recognition unit 100.
  • the voice information acquired by the microphone 14 of the device 1 is transmitted to the server 2 via the network 3, and the voice recognition unit 100 of the server 2 executes the processing of steps S1 to S5 of FIG.
  • the server 2 transmits an operation instruction of the device 1 based on the result of the voice recognition process to the device 1, and the device 1 operates according to the operation instruction from the server 2. This is also applicable to the other embodiments.
  • the device 1 includes the voice recognition unit 100, but the present disclosure is not particularly limited thereto, and the other devices disposed in the same home as the device 1 are the voice recognition unit 100. May be provided.
  • the home controller that controls a plurality of devices disposed in the home may include the voice recognition unit 100. This is also applicable to the other embodiments.
  • FIG. 5 is a diagram showing the configuration of the speech recognition unit in the second embodiment of the present disclosure.
  • the voice recognition unit 101 in the second embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, and a point sound source position identification unit 206.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 101.
  • the same components as those of the first embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • the point sound source position specifying unit 206 specifies the position of the detected point sound source in the space.
  • the memory 13 stores in advance the positions of a plurality of microphone units included in the microphone provided in the device 1.
  • the point sound source position specifying unit 206 specifies the position of a point sound source in a three-dimensional space by a three-point survey method using the positions of a plurality of microphone units.
  • the voice recognition control unit 204 determines that the speech recognition processing is to be performed, and the distance between the position of the point sound source and the device 1 is at least a predetermined distance. If there is, it is determined that the speech recognition process is not to be performed.
  • FIG. 6 is a flowchart for explaining the operation of the speech recognition system according to the second embodiment of the present disclosure.
  • steps S11 to S14 in FIG. 6 are the same as the processes in steps S1 to S4 in FIG.
  • the point sound source position specifying unit 206 specifies the position in the space of the point sound source detected by the point sound source detection unit 203 in step S15. Do. The point sound source position specifying unit 206 specifies the position of the point sound source detected by the point sound source detection unit 203 out of the space sound pressure distribution detected by the space sound pressure distribution detection unit 202.
  • the spatial sound pressure distribution represents, for example, the distribution of sound pressure levels in a two-dimensional (or three-dimensional) coordinate space with the position of the microphone 14 as the origin.
  • the memory 13 stores in advance the positions of a plurality of microphone units included in the microphone 14 provided in the device 1. Also, the plurality of microphone units are arranged at predetermined intervals. The time it takes for the sound output from the point sound source to reach each microphone unit is different. Therefore, the point sound source position specifying unit 206 generates a two-dimensional (three-dimensional) space based on the respective positions of the plurality of microphone units and the time required for the voice to reach the plurality of microphone units from the detected point sound source. The position (the distance from the microphone 14) of the point sound source in the inside is specified.
  • the method of specifying the position of the point sound source is not limited to this.
  • it may be specified using a feature through which the sound wave travels.
  • the position of the point sound source (the distance from the microphone 14) may be specified.
  • the space sound pressure distribution detection unit detects the sound pressure distribution detected in step S12 at a predetermined angle based on the device 1 and the sound pressure for each predetermined distance.
  • the distribution may be updated.
  • FIG. 25 (A) is a view schematically showing a space in which the device 1 and a plurality of sound sources (the sound source 251, the sound source 252, the sound source 253, the sound source 254) exist, and FIG. It is the figure which showed the space sound pressure distribution for every distance and the angle which the space sound pressure distribution detection part 202 detected in the space shown.
  • FIG. 25 (B) when the position of the device 1 is the origin, two-dimensional coordinates are constructed as the horizontal axis: angle, the vertical axis: distance, and the detected sound source is arranged on the coordinates. Also, the area of each sound source (the width of the angle range and the width in the depth direction) is represented by the size of a circle.
  • each sound source can be calculated as an area by considering the width in the depth direction in addition to the width of the angular range of each sound source described in the first embodiment. In this way, the point sound source may be identified as one whose area is smaller than a predetermined threshold.
  • the sound source 251 is within the range of -90 ° to 45 °
  • the sound source 252 is within the range of -45 ° to 0 °
  • the sound source 253 is within the range of 0 ° to 45 °.
  • the sound sources 254 are respectively detected as sound sources within the range of 45 ° to 90 °, and among these sound sources, the sound sources 252, 253 and 254 which are sound sources smaller than a predetermined area are specified as point sound sources It shall be.
  • step S16 the voice recognition control unit 204 determines whether the distance between the position of the point sound source and the device 1 is smaller than a predetermined distance.
  • the voice recognition control unit 204 stores in advance the position of the device 1 in a three-dimensional coordinate space whose origin is the position of the microphone 14. Therefore, the voice recognition control unit 204 can calculate the distance between the position coordinates of the point sound source specified by the point sound source position specifying unit 206 and the position coordinate of the device 1, and the calculated distance is a predetermined distance. Determine if it is closer.
  • the point sound source detection unit 203 determines that the sound source 252, the sound source 253, and the sound source 254 are point sound sources as described above.
  • the point sound source 252, the point sound source 253, and the point sound source 254 located within the threshold value 255 (3 m in this case) which is a predetermined distance have a predetermined distance to the device 1. It is determined that the sound source is within the range.
  • prescribed distance is the range which a user can operate the apparatus 1, for example.
  • the predetermined distance is a range that can be viewed by the user.
  • the predetermined distance is three, four or five times the distance from the microphone unit at one end of the plurality of microphone units to the microphone unit at the other end. Is preferred.
  • step S16 when it is determined that the distance between the position of the point sound source and the device 1 is smaller than the predetermined distance (YES in step S16), the voice recognition control unit 204 determines that the voice recognition process is to be performed. Transfer to processing. On the other hand, when it is determined that the distance between the position of the point sound source and the device 1 is not closer than the predetermined distance (NO in step S16), the voice recognition control unit 204 determines that voice recognition processing is not performed, and step S11 Return to the processing of
  • step S17 when the speech recognition control unit 204 determines that the speech recognition processing is to be performed, the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201. Further, when it is determined that the speech recognition control unit 204 does not perform the speech recognition process, the speech recognition processing unit 205 does not perform the speech recognition process on the speech information acquired by the speech acquisition unit 201.
  • a point sound source when a point sound source is detected, it is determined whether the distance between the position of the point sound source and the device 1 is smaller than a predetermined distance.
  • voice recognition processing is performed, and it is determined that the distance between the position of the point sound source and the device 1 is not smaller than the predetermined distance. If it is, speech recognition processing is not performed.
  • the user may speak at a location near the device 1 to operate the device 1, or the device It is possible to determine whether the user speaks at a place away from the device 1 regardless of the operation 1 and it is possible to prevent malfunction of voice recognition with an inexpensive configuration.
  • the position of the speaker can be specified without using an expensive device, and the speech recognition process can be controlled based on the position of the speaker.
  • FIG. 7 is a diagram showing the configuration of the speech recognition unit in the third embodiment of the present disclosure.
  • the voice recognition unit 102 in the third embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A directivity control unit 207 is provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 102.
  • the same components as those of the first embodiment and the second embodiment are denoted by the same reference numerals, and the description thereof is omitted.
  • the directivity control unit 207 controls the direction of the directivity of the microphone 14 toward the position of the point sound source specified by the point sound source position specifying unit 206.
  • the directivity control unit 207 performs signal processing on the audio information acquired by the audio acquisition unit 201 so as to enhance the sensitivity in the direction toward the position of the point sound source specified by the point sound source position specification unit 206. Thereby, the directivity of the microphone 14 is controlled in the direction toward the point sound source.
  • FIG. 8 is a diagram showing the configuration of the speech recognition unit in the fourth embodiment of the present disclosure.
  • the voice recognition unit 103 in the fourth embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A directivity control unit 207, an output sound generation unit 208, and an echo removal unit 209 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 103.
  • the same components as those in the first to third embodiments are given the same reference numerals, and the description will be omitted.
  • the output sound generation unit 208 generates output sound information output from the speaker 15 of the device 1.
  • the output sound generation unit 208 generates output sound information for prompting the user to perform an operation, output sound information for responding to the user's operation, and the like, and outputs the output sound information to the speaker 15 and the echo removal unit 209.
  • the output sound generation unit 208 reads output sound information corresponding to the operation status of the device 1 from the memory 13 and generates output sound information.
  • the output sound generation unit 208 may read a plurality of sound information corresponding to the operation status of the device 1 from the memory 13 and generate output sound information by combining the read sound information.
  • the output audio information generated by the output audio generation unit 208 includes audio information or recording (recording or recording) of the received broadcast content. It may include audio information of the content.
  • the speaker 15 outputs the output sound information generated by the output sound generation unit 208 as an output sound.
  • the echo removing unit 209 acquires the output audio information generated by the output audio generating unit 208, and removes the acquired output audio information as an echo component from the audio information acquired by the audio acquiring unit 201.
  • the audio information acquired by the audio acquisition unit 201 includes not only the audio emitted by the user but also the audio output from the speaker 15 as an echo component. Therefore, when voice recognition is performed based on voice information including an echo component, there is a possibility that voice recognition may not be performed correctly. Therefore, the output speech information generated by the output speech generation unit 208 is removed from the speech information acquired by the speech acquisition unit 201 as an echo component. As a result, voice information from the point sound source can be reliably acquired, and malfunction in voice recognition can be prevented.
  • FIG. 9 is a diagram showing the configuration of the speech recognition unit in the fifth embodiment of the present disclosure.
  • the voice recognition unit 104 in the fifth embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A direct arrival point sound source identification unit 210 is provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 104.
  • the same components as those in the first to fourth embodiments are denoted by the same reference numerals, and the description will be omitted.
  • the direct arrival point sound source identification unit 210 specifies, among the point sound sources whose positions are specified by the point sound source position identification unit 206, the direct arrival point sound source where the emitted voice directly arrives at the microphone 14. Note that among the point sound sources whose positions are specified by the point sound source position specifying unit 206, it is possible to specify the direct arrival point sound source where the emitted sound directly arrives at the microphone 14 by a known method. The method of specifying the direct incoming sound source will be described later with reference to FIG.
  • the voice recognition control unit 204 determines that voice recognition processing is to be performed when the direct arrival point sound source identification unit 210 directly identifies the incoming point sound source, and the direct arrival point sound source identification unit 210 does not directly identify the incoming point sound source It is determined that the speech recognition process is not performed.
  • FIG. 10 is a flowchart for explaining the operation of the speech recognition system according to the fifth embodiment of the present disclosure.
  • steps S21 to S25 in FIG. 10 are the same as the processes in steps S11 to S15 in FIG.
  • step S26 the direct arrival point sound source identification unit 210 specifies, among the point sound sources whose positions are specified by the point sound source position identification unit 206, the direct arrival point sound source where the emitted voice directly arrives at the microphone 14.
  • step S27 the voice recognition control unit 204 determines whether or not the direct arrival point sound source identification unit 210 directly identifies the arrival point sound source.
  • the voice coming from the point sound source to the microphone 14 is not only voice coming directly to the microphone 14 but also voice reflected from the wall and then coming to the microphone 14 or voice passing through the wall and then coming to the microphone 14 There is also.
  • the voice recognition processing unit 205 in the fifth embodiment performs voice recognition when the emitted voice comes directly to the microphone 14, and performs voice recognition when the emitted voice does not directly come to the microphone 14. Absent.
  • FIG. 26 is a diagram schematically showing the sound source in the space measured at time t and the sound source in the space measured at time t + 1.
  • the point sound source detection unit 203 detects the point sound source 261 at time t. Further, at time t, the point sound source position specifying unit 206 specifies that the position of the point sound source 261 is the position of the distance x from the device 1. At time t + 1, the point sound source detection unit 203 detects the point sound source 262 and the point sound source 263. Further, at time t + 1, the point sound source position specifying unit 206 specifies that the position of the point sound source 262 is the position of the distance y from the device 1 and the position of the point sound source 263 is the position of the distance x from the device 1. In addition, the point sound source position specifying unit 206 specifies that the point sound source 261 and the point sound source 263 are at the same position (two-dimensional coordinates).
  • the direct arrival sound source identification unit 210 first determines that the point sound source 261 and the point sound source 263 occurring at the same position (two-dimensional coordinates) at different times are the sounds emitted from the same sound source.
  • the direct arrival sound source identification unit 210 compares the sound characteristics of the point sound source 261 and the point sound source 262 that are not determined as the sound emitted from the same sound source among the sound sources detected at different times.
  • the feature of sound means, for example, the correlation between the sound when directivity is directed to point sound source 261 at time t and the sound when directivity is directed to point sound source 262 or point sound source 263 at time t + 1. There is no particular limitation including independence and the like.
  • the direct arrival sound source identification unit 210 determines that the point sound source 261 and the point sound source 262 have substantially the same sound characteristics, the point sound source 262 is not a direct arrival sound source, that is, the point sound source 261 is reflected to the wall It is judged that it is a reflected sound source generated by doing. Then, since the sound source 261 and the sound source 263 are also not likely to be sound sources emitted toward the device 1, it is determined that they are not direct sound sources.
  • the direct arrival sound source identification unit 210 detects a plurality of sound sources having substantially the same sound characteristics among a plurality of sound sources detected at different times and having different detection positions (detection regions on the sound source distribution), A sound source whose detected time is later is determined as a sound that is not a direct arrival sound.
  • the values indicating the features of the sounds of a plurality of sound sources are compared, and when the degree of coincidence of the respective values is equal to or more than a predetermined value It may be considered that they are identical.
  • the identification method of a direct arrival sound source is not restricted to this.
  • the sound source far from the device may be determined as a sound that is not a direct arrival sound.
  • the direct arrival sound source identification unit 210 is based on the distance to each device 1 of each sound source, the position, the characteristics of the sound, etc. It may be determined whether or not it is a direct incoming sound.
  • step S27 if the direct arrival point sound source identification unit 210 determines that the direct arrival point sound source is specified (YES in step S27), the speech recognition control unit 204 determines that the speech recognition process is to be performed, and the process of step S28 Transition to On the other hand, when it is determined that the direct arrival point sound source identification unit 210 does not directly specify the direct arrival point sound source (NO in step S27), the voice recognition control unit 204 determines that the voice recognition process is not to be performed, and the process of step S21.
  • step S28 when the speech recognition control unit 204 determines that the speech recognition process is to be performed, the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201. Further, when it is determined that the speech recognition control unit 204 does not perform the speech recognition process, the speech recognition processing unit 205 does not perform the speech recognition process on the speech information acquired by the speech acquisition unit 201.
  • FIG. 11 is a diagram showing the configuration of the speech recognition unit in the sixth embodiment of the present disclosure.
  • the voice recognition unit 105 in the sixth embodiment includes a voice acquisition unit 201, a spatial sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A directivity control unit 207 and a direct arrival point sound source identification unit 210 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 105.
  • the same components as those of the first to fifth embodiments are denoted by the same reference numerals, and the description thereof will be omitted.
  • the direct arrival point sound source identification unit 210 specifies, among the point sound sources whose positions are specified by the point sound source position identification unit 206, the direct arrival point sound source where the emitted voice directly arrives at the microphone 14.
  • the directivity control unit 207 directs the direction of the directivity of the microphone 14 toward the position of the point sound source identified by the point sound source position identification unit 206. Control.
  • FIG. 12 is a diagram showing the configuration of the speech recognition unit in the seventh embodiment of the present disclosure.
  • the voice recognition unit 106 in the seventh embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A directivity control unit 207, an output speech generation unit 208, an echo removal unit 209, and a direct arrival point sound source identification unit 210 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 106.
  • the same components as those in the first to sixth embodiments are denoted by the same reference numerals, and the description will be omitted.
  • the echo removing unit 209 acquires the output audio information generated by the output audio generating unit 208, and removes the acquired output audio information as an echo component from the audio information acquired by the audio acquiring unit 201.
  • the direct arrival point sound source identification unit 210 specifies, among the point sound sources whose positions are specified by the point sound source position identification unit 206, the direct arrival point sound source where the emitted voice directly arrives at the microphone 14.
  • the directivity control unit 207 directs the direction of the directivity of the microphone 14 toward the position of the point sound source identified by the point sound source position identification unit 206. Control.
  • the output audio information generated by the output audio generation unit 208 is removed as an echo component from the audio information acquired by the audio acquisition unit 201, the audio information from the point sound source can be reliably acquired. Malfunction of voice recognition can be prevented.
  • FIG. 13 is a diagram showing the configuration of the speech recognition unit in the eighth embodiment of the present disclosure.
  • the voice recognition unit 107 in the eighth embodiment includes a voice acquisition unit 201, a spatial sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, A direct arrival point sound source identification unit 210 and a voice identification unit 211 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 107.
  • the same components as those in the first to seventh embodiments are denoted by the same reference numerals, and the description will be omitted.
  • the speech identification unit 211 identifies whether or not the directly arriving speech is a speech uttered by a human.
  • the voice recognition control unit 204 determines that the voice recognition process is to be performed when the voice recognition unit 211 recognizes that the voice directly received is a voice uttered by a human, and the voice recognition unit 211 directly receives the voice If it is determined that the voice is not a voice uttered by a human, it is determined that the voice recognition process is not to be performed.
  • the human mouth is a point source, but there are noises that are point sources among various noises. Therefore, it is prevented that the speech recognition processing is performed on the noise emitted from the device other than human by identifying whether or not the directly arriving voice is the voice uttered by human.
  • FIG. 14 is a flowchart for explaining the operation of the speech recognition system according to the eighth embodiment of the present disclosure.
  • steps S31 to S37 in FIG. 14 are the same as the processes in steps S21 to S27 in FIG.
  • step S38 when the direct arrival point sound source identification unit 210 directly identifies the arrival point sound source, the voice identification unit 211 identifies whether the directly arrived voice is a voice uttered by a human.
  • the memory 13 stores in advance a waveform pattern of human voice.
  • the voice identification unit 211 compares the acquired waveform pattern of voice information with the waveform pattern of human voice stored in advance in the memory 13. If the waveform pattern of the acquired voice information substantially matches the waveform pattern of human voice stored in advance in the memory 13, the voice identification unit 211 identifies that the voice that has arrived directly is voice uttered by a human. Do. On the other hand, when the waveform pattern of the acquired voice information does not substantially match the waveform pattern of the human voice stored in advance in the memory 13, the voice recognition unit 211 does not directly receive the voice as a voice uttered by a human. Identify as
  • step S38 when the voice that directly arrived is identified as voice uttered by a human (YES in step S38), the voice recognition control unit 204 determines that the voice recognition process is to be performed, and the process proceeds to step S39. Do. On the other hand, when it is determined that the voice that directly arrived is not voice uttered by human (NO in step S38), the voice recognition control unit 204 determines that the voice recognition process is not to be performed, and returns to the process of step S31. .
  • step S39 when the speech recognition control unit 204 determines that the speech recognition processing is to be performed, the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201. Further, when it is determined that the speech recognition control unit 204 does not perform the speech recognition process, the speech recognition processing unit 205 does not perform the speech recognition process on the speech information acquired by the speech acquisition unit 201.
  • the voice identification unit 211 may identify the speaker. There is no limitation on the method of identifying the speaker.
  • the voice identification unit 211 may identify personal information such as the rough age or gender of a speaker who is producing a voice, or may identify an individual using a voice database registered in advance. Thus, for example, it is possible to prevent the voice recognition process from being performed on the voice generated from the outside and passing through the wall and arriving at the microphone 14 or the voice generated by other than the family registered in the voice database. it can.
  • FIG. 15 is a diagram showing the configuration of the speech recognition unit in the ninth embodiment of the present disclosure.
  • the voice recognition unit 108 in the ninth embodiment includes a voice acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a voice recognition control unit 204, a voice recognition processing unit 205, a point sound source position identification unit 206, The directivity control unit 207, the direct arrival point sound source identification unit 210, and the voice identification unit 211 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 108.
  • the same components as those of the first to eighth embodiments are denoted by the same reference numerals, and the description thereof will be omitted.
  • the speech identification unit 211 identifies whether or not the directly arriving speech is a speech uttered by a human.
  • the directivity control unit 207 determines the point sound source position identification unit 206.
  • the direction of the directivity of the microphone 14 is controlled toward the position of the point sound source specified by.
  • the direction of the directivity of the microphone 14 is controlled toward the position of the point sound source identified as a human, voice information from the user can be reliably acquired, and voice recognition malfunctions. It can be prevented.
  • FIG. 16 is a diagram showing the configuration of the speech recognition unit in the tenth embodiment of the present disclosure.
  • the speech recognition unit 109 includes a speech acquisition unit 201, a space sound pressure distribution detection unit 202, a point sound source detection unit 203, a speech recognition control unit 204, a speech recognition processing unit 205, and a point sound source position identification unit 206.
  • a directivity control unit 207, an output speech generation unit 208, an echo removal unit 209, a direct arrival point sound source identification unit 210, and a speech identification unit 211 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes a voice recognition unit 109.
  • the same components as those in the first to ninth embodiments will be assigned the same reference numerals and descriptions thereof will be omitted.
  • the speech identification unit 211 identifies whether or not the directly arriving speech is a speech uttered by a human.
  • the directivity control unit 207 determines the point sound source position identification unit 206.
  • the direction of the directivity of the microphone 14 is controlled toward the position of the point sound source specified by.
  • directivity control section 207 performs signal processing on voice information from which echo components have been removed by echo removal section 209 so as to have directivity in the direction toward the position of point sound source. .
  • voice information from the point sound source can be reliably acquired, and malfunction in voice recognition can be prevented.
  • FIG. 17 is a diagram showing the configuration of the speech recognition unit in the eleventh embodiment of the present disclosure.
  • the speech recognition unit 110 in the eleventh embodiment includes a speech acquisition unit 201, a spatial sound pressure distribution detection unit 202, a point sound source detection unit 203, a speech recognition control unit 204, a speech recognition processing unit 205, a point sound source position identification unit 206 and A speech recognition word display control unit 212 is provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 110.
  • the same components as those in the first to tenth embodiments will be assigned the same reference numerals and descriptions thereof will be omitted.
  • the speech recognition word display control unit 212 operates the device from the memory 13 storing in advance a plurality of speech recognition words used for the speech recognition process.
  • the at least one speech recognition word related to is read out, and the read out at least one speech recognition word is displayed on the display unit 16.
  • the speech recognition word is a word capable of speech recognition.
  • the speech recognition words are "volume up”, “volume down”, “channel up”, “channel down”, “program guide”, “search”, “moving image” and " Includes power off.
  • FIG. 18 is a diagram showing an example of a display screen displayed on the display unit in the eleventh embodiment of the present disclosure.
  • the speech recognition word 301 shown in FIG. 18 is displayed on the display screen 300 of the display unit 16.
  • the speech recognition word display control unit 212 includes “volume up”, “volume down”, “channel up”, “channel down”, “program guide”, “search”, “moving image”
  • the speech recognition word 301 “power off” is displayed on the display unit 16.
  • the speech recognition word 301 displayed by the speech recognition word display control unit 212 is not limited to this.
  • the user can confirm the displayed speech recognition word and reliably operate the device by speech.
  • the speech recognition words 301 are displayed as a list at the lower part of the display screen 300, but the present disclosure is not particularly limited thereto, and the upper part, the central part, the left end part or the display screen 300 is displayed.
  • the speech recognition word 301 may be displayed as a list at the right end. Further, the speech recognition word 301 may be scrolled in the lower part of the display screen 300.
  • not all the speech recognition words stored in the memory 13 may be displayed, but some of the speech recognition words stored in the memory 13 may be displayed. Also, a speech recognition word that is frequently used by the user may be displayed. Further, the speech recognition word set by the user may be stored in the memory 13.
  • the memory 13 may store speech recognition words related to operations of a plurality of types of devices, and the speech recognition word display control unit 212 reads out the speech recognition words related to the devices operated by the user from the memory 13 , And may be displayed on the display unit 16.
  • the server 2 includes a voice recognition unit, information for specifying a device operated by the user is transmitted to the server 2, and a word for voice recognition is read from the memory based on the information.
  • the speech recognition word display control unit 212 is added to the configuration of the speech recognition unit of the second embodiment, but the present disclosure is not particularly limited thereto.
  • the speech recognition word display control unit 212 may be added to the configurations of the speech recognition units 3 to 10.
  • FIG. 19 is a diagram showing the configuration of the speech recognition unit in the twelfth embodiment of the present disclosure.
  • the speech recognition unit 111 according to the twelfth embodiment includes a speech acquisition unit 201, a spatial sound pressure distribution detection unit 202, a point sound source detection unit 203, a speech recognition control unit 204, a speech recognition processing unit 205, a point sound source position identification unit 206 and A luminance control unit 213 is provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 111.
  • the same components as those in the first to eleventh embodiments will be assigned the same reference numerals and descriptions thereof will be omitted.
  • the luminance control unit 213 displays the luminance of the display unit 16 when it is determined that the voice recognition control unit 204 is to perform voice recognition processing, and the display unit when it is determined that the voice recognition control unit 204 does not perform voice recognition processing Improving the brightness than 16.
  • FIG. 20 (A) is a diagram showing an example of a display screen displayed on the display unit when speech recognition processing is performed in the twelfth embodiment of the present disclosure
  • FIG. 20 (B) is a diagram of the present disclosure.
  • Embodiment 12 it is a figure which shows an example of the display screen displayed on a display part when speech recognition processing is not performed.
  • FIGS. 20A and 20B show an example of the display screens 311 and 312 displayed on the display unit 16 when the device 1 is a television.
  • the difference in luminance is expressed by the presence or absence of hatching.
  • the speech recognition control unit 204 performs the speech recognition process. This is higher than the luminance of the display unit 16 when it is determined not to be performed.
  • the luminance control unit 213 differentiates the luminance of the entire display screen when speech recognition processing is performed and the luminance of the whole display screen when speech recognition processing is not performed.
  • the present disclosure is not particularly limited to this, and the brightness control unit 213 is a part of the brightness of the display screen when the speech recognition process is performed, and one of the display screens when the speech recognition process is not performed.
  • the brightness of the part may be different.
  • the brightness control unit 213 may make the brightness of the outer edge portion of the display screen when the voice recognition process is performed different from the brightness of the outer edge portion of the display screen when the voice recognition process is not performed.
  • the luminance control unit 213 is added to the configuration of the speech recognition unit according to the second embodiment, but the present disclosure is not particularly limited thereto.
  • a luminance control unit 213 may be added to the configuration of the voice recognition unit.
  • FIG. 21 is a diagram showing the configuration of the speech recognition unit in the thirteenth embodiment of the present disclosure.
  • the speech recognition unit 112 in the thirteenth embodiment includes a speech acquisition unit 201, a spatial sound pressure distribution detection unit 202, a point sound source detection unit 203, a speech recognition control unit 204, a speech recognition processing unit 205, a point sound source position identification unit 206, An output sound generation unit 208 and an agent image display control unit 214 are provided.
  • the configuration of the device 1 is the same as that of the first embodiment, and the control unit 12 includes the voice recognition unit 111.
  • the same components as those in the first to eleventh embodiments will be assigned the same reference numerals and descriptions thereof will be omitted.
  • the output speech generation unit 208 generates an output speech according to the determination as to whether or not the speech recognition control unit 204 performs speech recognition processing, and outputs the generated speech from the speaker 15. For example, when it is determined by the voice recognition control unit 204 that voice recognition is not to be performed, the output voice generation unit 208 generates voice information that urges the user to move to a position where voice recognition is possible.
  • the agent image display control unit 214 causes the display unit 16 to display an agent image (animation image) according to the determination as to whether or not the speech recognition control unit 204 performs speech recognition processing. For example, when it is determined by the voice recognition control unit 204 that voice recognition is not to be performed, the agent image display control unit 214 displays an agent image prompting the user to move to a position where voice recognition is possible.
  • the agent image display control unit 214 may control the display of the agent image in conjunction with the output audio.
  • the memory 13 may store an agent image in advance, and the agent image display control unit 214 reads the agent image from the memory 13 according to the determination as to whether or not the voice recognition control unit 204 performs voice recognition processing. , And may be displayed on the display unit 16.
  • FIG. 22 is a sequence diagram for explaining the operation of the speech recognition system in the thirteenth embodiment of the present disclosure.
  • step S51 the microphone 14 acquires audio information.
  • step S52 the microphone 14 outputs the acquired voice information to the voice recognition unit 112.
  • step S53 the voice acquisition unit 201 obtains the voice information output by the microphone 14.
  • step S54 the space sound pressure distribution detection unit 202 detects a space sound pressure distribution indicating the distribution of sound pressure in space based on the sound information acquired by the sound acquisition unit 201.
  • step S55 the point sound source detection unit 203 detects a point sound source in the space based on the space sound pressure distribution detected by the space sound pressure distribution detection unit 202.
  • the point sound source position specifying unit 206 specifies the position of the point sound source detected by the point sound source detection unit 203 in the space.
  • the point sound source position specifying unit 206 specifies the position in the space of the point sound source detected by the point sound source detection unit 203, and it is determined that the point sound source is not detected. In this case, the point sound source position specifying unit 206 does not specify the position of the point sound source detected by the point sound source detection unit 203 in the space.
  • step S57 the voice recognition control unit 204 determines whether the distance between the position of the point sound source and the device 1 is closer than a predetermined distance.
  • step S58 the agent image display control unit 214 reads from the memory 13 an agent image according to the determination as to whether or not the voice recognition control unit 204 performs voice recognition processing.
  • step S59 the agent image display control unit 214 outputs the read agent image to the display unit 16.
  • step S60 the display unit 16 displays the agent image output by the agent image display control unit 214.
  • step S61 the output speech generation unit 208 generates output speech information according to the determination as to whether or not the speech recognition control unit 204 performs speech recognition processing.
  • step S62 the output sound generation unit 208 outputs the generated output sound information to the speaker 15.
  • step S63 the speaker 15 outputs the output audio information output by the output audio generation unit 208.
  • step S64 when the speech recognition control unit 204 determines that the speech recognition processing is to be performed, the speech recognition processing unit 205 performs speech recognition processing on the speech information acquired by the speech acquisition unit 201. Further, when it is determined that the speech recognition control unit 204 does not perform the speech recognition process, the speech recognition processing unit 205 does not perform the speech recognition process on the speech information acquired by the speech acquisition unit 201.
  • FIG. 23 is a diagram showing an example of a display screen displayed on the display unit in the thirteenth embodiment of the present disclosure.
  • FIG. 23 shows an example of a display screen 400 displayed on the display unit 16 when the device 1 is a television.
  • the agent image display control unit 214 displays an agent image 401 imitating a human face on the display screen 400 of the display unit 16.
  • the agent image 401 moves as if it were speaking according to the sound to be output.
  • the output sound generation unit 208 reads from the memory 13 output sound information corresponding to the determination as to whether or not the sound recognition control unit 204 is to perform the sound recognition process, and outputs the read sound information to the speaker 15.
  • the agent image display control unit 214 reads an agent image from the memory 13 according to the determination as to whether or not the speech recognition control unit 204 performs speech recognition processing, and outputs the read agent image to the speaker 15. At this time, the output voice information and the agent image are stored in association with each other, and the agent image linked to the output voice information is displayed.
  • the agent image (animation image) corresponding to the determination as to whether or not the voice recognition process is performed in the voice recognition control unit 204 is displayed on the display unit 16, it is determined whether the voice recognition process is possible or not. The user can be notified.
  • an agent image imitating a human face is displayed, but the present disclosure is not particularly limited thereto.
  • the agent image display control unit 214 may display an agent image that moves in response to the user's voice operation.
  • the agent image 401 is displayed at the lower part of the display screen 400.
  • the present disclosure is not particularly limited to this, and the upper, central, left, or right end of the display screen 400 is displayed.
  • An agent image 401 may be displayed.
  • the output speech generation unit 208 and the agent image display control unit 214 are added to the configuration of the speech recognition unit of the second embodiment, but the present disclosure is not particularly limited thereto.
  • the output speech generation unit 208 and the agent image display control unit 214 may be added to the configuration of the speech recognition unit according to any one of the first and third to twelfth aspects.
  • a voice recognition method is a voice recognition method for recognizing a voice for operating a device, comprising: voice information acquisition step of acquiring voice information from a microphone disposed in a predetermined space; A space sound pressure distribution detecting step of detecting a space sound pressure distribution indicating a distribution of sound pressure in the space based on the sound information acquired in the sound information acquiring step; and detected in the space sound pressure distribution detecting step A point sound source detection step of detecting a point sound source in the space based on the spatial sound pressure distribution; and the point sound source acquired in the sound information acquisition step when the point sound source is detected in the point sound source detection step And a voice recognition control step of determining that voice recognition processing is to be performed on voice information.
  • the speech recognition process is performed on the acquired voice information, and when the point sound source is not detected, the speech recognition process is not performed. It is possible to easily determine whether or not it is possible, and malfunction of voice recognition can be prevented with an inexpensive configuration.
  • the voice recognition control further includes a position specifying step of specifying the position of the detected point sound source in the space when the point sound source is detected in the point sound source detection step, the voice recognition control
  • the step determines that the voice recognition process is to be performed, and the distance between the position of the point sound source and the device is equal to or more than a predetermined distance In this case, it is preferable to determine that the voice recognition process is not performed.
  • the user determines whether the user speaks at a location near the device to operate the device by determining whether the distance between the position of the point sound source and the device is smaller than a predetermined distance, or Regardless of the operation of the device, it can be determined whether the user speaks at a place away from the device, and an erroneous configuration of voice recognition can be prevented with an inexpensive configuration.
  • the voice recognition method further includes a directivity control step of controlling the direction of the directivity of the microphone toward the position of the point sound source specified in the position specifying step.
  • the output speech information generated in the output speech generation step is acquired, and the acquired output speech information is removed as an echo component from the speech information acquired in the speech information acquisition step.
  • Voice information can be reliably acquired, and malfunction of voice recognition can be prevented.
  • the method when the point sound source is detected in the point sound source detection step, a position specifying step for specifying a position in the space of the detected point sound source, and a position in the position specifying step
  • the method further includes a direct arrival point sound source identification step of specifying a direct arrival point sound source from which the emitted sound comes directly to the microphone among the point sound sources for which the i.
  • the direct sound source for which the emitted sound comes directly to the microphone is specified, so that the user moves in the direction of the device to operate the device. It can be determined whether you are speaking or whether the user is speaking in a direction different from the direction of the device regardless of the operation of the device.
  • the voice recognition control step determines that the voice recognition process is to be performed when the direct arrival point sound source is identified in the direct arrival point sound source identification step, and the direct arrival point sound source is determined.
  • the direct arrival point sound source is not identified in the identification step, it is preferable to determine that the speech recognition process is not performed.
  • voice recognition is performed when the emitted voice directly arrives at the microphone, and voice recognition is not performed when the emitted voice does not directly arrive at the microphone. Therefore, it is determined whether the user speaks in the direction of the device to operate the device or whether the user speaks in a direction different from the direction of the device regardless of the operation of the device It is possible to prevent false operation of voice recognition with an inexpensive configuration.
  • a direct arrival point sound source specifying step for specifying a direct arrival point sound source where emitted speech directly arrives at the microphone
  • the directivity control step may further include directivity of the microphone toward the position of the point sound source identified in the position identification step when the direct arrival point sound source is identified in the direct arrival point sound source identification step. It is preferable to control the direction of
  • the direction of the directivity of the microphone is controlled toward the position of the direct arrival point sound source where the emitted voice comes directly to the microphone, so that voice information from the point sound source can be reliably acquired. It is possible to prevent voice recognition malfunctions.
  • the method further includes a step, wherein the voice recognition control step determines that the voice recognition process is to be performed when the voice directly arriving in the voice identification step is identified as a voice uttered by a human, and the voice identification is performed. If it is determined in the step that the voice that directly arrived is not voice uttered by a human, it is preferable to determine that the voice recognition process is not performed.
  • the words are read out from a storage unit that stores in advance words used for the speech recognition process. It is preferable to further include a voice recognition word display step of displaying a word on the display unit.
  • the user since the speech recognition word used in the speech recognition process is displayed, the user can confirm the displayed speech recognition word and reliably operate the device by speech.
  • the voice recognition process is not performed in the voice recognition control step for the luminance of the display unit when it is determined that the voice recognition process is performed in the voice recognition control step. It is preferable to further include a brightness control step of improving the brightness of the display unit in the case.
  • the user can determine whether the voice recognition process is possible. Can be notified.
  • the animation image corresponding to the determination as to whether or not to perform the speech recognition process is displayed on the display unit, so that it is possible to notify the user whether or not the speech recognition process is possible.
  • a speech recognition apparatus is a speech recognition apparatus that recognizes speech for operating a device, and includes a speech information acquisition unit that acquires speech information from a microphone disposed in a predetermined space; A space sound pressure distribution detection unit for detecting a space sound pressure distribution indicating a distribution of sound pressure in the space based on the sound information acquired by the sound information acquisition unit; and detected by the space sound pressure distribution detection unit A point sound source detection unit that detects a point sound source in the space based on the spatial sound pressure distribution, and the sound information acquisition unit acquires the point sound source when the point sound source detection unit detects the point sound source And a voice recognition control unit that determines that voice recognition processing is to be performed on the voice information.
  • the speech recognition process is performed on the acquired voice information, and when the point sound source is not detected, the speech recognition process is not performed. It is possible to easily determine whether or not it is possible, and malfunction of voice recognition can be prevented with an inexpensive configuration.
  • the speech recognition method and speech recognition apparatus can prevent malfunction of speech recognition with an inexpensive configuration, and are useful as a speech recognition method and speech recognition apparatus for recognizing speech for operating a device.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

 機器を動作させるための音声を認識する音声認識方法は、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップと、検出された空間音圧分布に基づいて、空間内における点音源を検出する点音源検出ステップと、点音源が検出された場合、取得された音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含む。

Description

音声認識方法及び音声認識装置
 本開示は、ユーザが発話した音声を認識する音声認識方法及び音声認識装置に関するものである。
 音声認識の誤動作を防止する技術が検討されている。
 特許文献1では、発光部と受光部とを有する反射式センサを備えた音声認識装置が開示されている。
 特許文献2では、音声入力部の角度を検出する角度検出部と、音声入力部とユーザとの距離を検出する距離検出部とを備えた音声入力装置が記載されている。
特開平7-64595号公報 特開2010-217754号公報
 本開示の一態様は、安価な構成で音声認識の誤動作を防止することができる音声認識方法及び音声認識装置を提供する。
 本開示の一局面に係る音声認識方法は、機器を動作させるための音声を認識する音声認識方法であって、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報に基づいて、前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップと、前記空間音圧分布検出ステップにおいて検出された前記空間音圧分布に基づいて、前記空間内における点音源を検出する点音源検出ステップと、前記点音源検出ステップにおいて前記点音源が検出された場合、前記音声情報取得ステップにおいて取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含む。
 なお、これらの包括的または具体的な態様は、システム、方法、集積回路、コンピュータプログラム、または、記録媒体で実現されてもよく、システム、装置、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
 本開示によれば、安価な構成で音声認識の誤動作を防止することができる。
本開示の実施の形態1における音声認識システムの構成を示す図である。 本開示の実施の形態1における音声認識システムの機器の構成を示す図である。 本開示の実施の形態1における音声認識部の構成を示す図である。 本開示の実施の形態1における音声認識システムの動作を説明するためのフローチャートである。 本開示の実施の形態2における音声認識部の構成を示す図である。 本開示の実施の形態2における音声認識システムの動作を説明するためのフローチャートである。 本開示の実施の形態3における音声認識部の構成を示す図である。 本開示の実施の形態4における音声認識部の構成を示す図である。 本開示の実施の形態5における音声認識部の構成を示す図である。 本開示の実施の形態5における音声認識システムの動作を説明するためのフローチャートである。 本開示の実施の形態6における音声認識部の構成を示す図である。 本開示の実施の形態7における音声認識部の構成を示す図である。 本開示の実施の形態8における音声認識部の構成を示す図である。 本開示の実施の形態8における音声認識システムの動作を説明するためのフローチャートである。 本開示の実施の形態9における音声認識部の構成を示す図である。 本開示の実施の形態10における音声認識部の構成を示す図である。 本開示の実施の形態11における音声認識部の構成を示す図である。 本開示の実施の形態11において、表示部に表示される表示画面の一例を示す図である。 本開示の実施の形態12における音声認識部の構成を示す図である。 (A)は、本開示の実施の形態12において、音声認識処理が行われる場合に表示部に表示される表示画面の一例を示す図であり、(B)は、本開示の実施の形態12において、音声認識処理が行われない場合に表示部に表示される表示画面の一例を示す図である。 本開示の実施の形態13における音声認識部の構成を示す図である。 本開示の実施の形態13における音声認識システムの動作を説明するためのシーケンス図である。 本開示の実施の形態13において、表示部に表示される表示画面の一例を示す図である。 (A)は、本開示の実施の形態1において、機器1と複数の音源が存在する空間を模式的に表した図であり、(B)は、本開示の実施の形態1において、空間音圧分布検出部202が検出した空間音圧分布を示した図である。 (A)は、本開示の実施の形態2において、機器1と複数の音源が存在する空間を模式的に表した図であり、(B)は、本開示の実施の形態2において、空間音圧分布検出部202が検出した空間音圧分布を示した図である。 本開示の実施の形態5において、時刻tにおいて測定された空間内の音源と、時刻t+1において測定された空間内の音源を模式的に示した図である。
 (本開示の基礎となった知見)
 従来、音声によって端末を制御する機能又は音声によってキーワード検索する機能が検討されている。これらの機能を実現する上で、従来、端末を操作するためのリモートコントローラに搭載されたマイクロフォンにより音声を収音していた。近年では、さらなる利便性の向上を目的として、端末がマイクロフォンを内蔵し、端末から離れた場所においてユーザが発話しても端末を動作させることができる音響処理技術が検討されている。
 しかしながら、ユーザが端末から離れた場所において発話する場合、ユーザとマイクロフォンが離れるので、ユーザの発話と周囲の不要な音との音量差がなくなるため、音声認識装置が正しく発話内容を認識することが困難になる。そこで、音声認識装置は、ユーザが端末に対して発した音声か、そうでない音声(例えば、離れたところでの雑談、独り言、又は周辺に存在する家電などが発する音)か、を区別する必要がある。このような課題を解決する手段として、音声入力状態のオン/オフを切り替える手段が検討されている。
 例えば、特許文献1では、音声認識装置は、発光部と受光部とを有する反射式センサを備え、人がいる場合に受光した反射光のレベルと人がいない場合に受光した反射光のレベルとの違いを利用して、ユーザの位置を検出し、音声認識の誤動作を防止している。
 一方、特許文献2では、音声入力装置は、音声入力部の角度を検出する角度検出部と、音声入力部とユーザとの距離を検出する距離検出部とを備える。角度検出部としては、加速度センサ、又は機械式の傾斜センサ等の角度検出器が用いられる。距離検出部としては、位置検出素子、電荷結合素子、又は相補型金属酸化膜半導体等の受光素子を利用した光学センサ、又は超音波センサが用いられる。この従来の音声入力装置では、検出された角度と、検出された距離とに基づいて、音声入力部のオン/オフが制御され、音声認識の誤動作を防止している。
 すなわち、従来、音声認識装置を構成する上で、誤動作を防止するためには、別途センサを設ける必要があり、これらのセンサを設けることはコストアップに繋がるという課題がある。
 以上の考察により、本発明者らは本開示の各態様を想到するに至った。
 以下添付図面を参照しながら、本開示の実施の形態について説明する。なお、以下の実施の形態は、本開示を具体化した一例であって、本開示の技術的範囲を限定するものではない。
 (実施の形態1)
 図1は、本開示の実施の形態1における音声認識システムの構成を示す図である。図1に示す音声認識システムは、機器1及びサーバ2を備える。
 機器1は、例えば家庭内に配置される家電機器を含む。機器1は、ネットワーク3を介してサーバ2と通信可能に接続される。ネットワーク3は、例えばインターネットである。
 なお、機器1には、ネットワーク3と接続可能な機器(例えば、スマートフォン、パーソナルコンピュータ又はテレビ等)もあれば、それ自身ではネットワーク3と接続不可能な機器(例えば、照明機器、洗濯機又は冷蔵庫等)も存在する。それ自身ではネットワーク3と接続不可能な機器であっても、ホームゲートウェイを介してネットワーク3と接続可能となる機器が存在してもよい。ネットワーク3と接続可能な機器は、ホームゲートウェイを介さず、直接サーバ2と接続してもよい。
 サーバ2は、公知のサーバコンピュータ等から構成され、ネットワーク3を介して機器1と通信可能に接続されている。
 図2は、本開示の実施の形態1における音声認識システムの機器の構成を示す図である。本実施の形態1における機器1は、通信部11、制御部12、メモリ13、マイクロフォン14、スピーカ15及び表示部16を備える。なお、機器1のこれらの構成のうち一部の構成がかけていてもよいし、他の構成を備えていてもよい。
 通信部11は、ネットワーク3を介してサーバ2へ情報を送信するとともに、ネットワーク3を介してサーバ2から情報を受信する。制御部12は、例えばCPU(中央演算処理装置)で構成され、機器1の全体を制御する。制御部12は、音声認識部100を備える。音声認識部100は、ユーザの音声を認識する。制御部12は、認識した音声に応じて機器1を動作させる。
 メモリ13は、例えばROM(リードオンリメモリ)又はRAM(ランダムアクセスメモリ)で構成され、情報を記憶する。マイクロフォン14は、音声を電気信号に変換し、音声情報として出力する。マイクロフォン14は、2つのマイクユニット含むマイクロフォンアレイで構成され、機器1が配置されている空間内の音声を収音する。スピーカ15は、音声を出力する。表示部16は、例えば液晶表示装置で構成され、種々の情報を表示する。
 図3は、本開示の実施の形態1における音声認識部の構成を示す図である。本実施の形態1における音声認識部100は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204及び音声認識処理部205を備える。
 音声取得部201は、所定の空間に配置されたマイクロフォン14から音声情報を取得する。具体的には、マイクロフォン14は、アナログ信号である音声をデジタル信号である音声情報に変換し、音声取得部201は、デジタル信号に変換された音声情報をマイクロフォン14から取得する。なお、所定の空間は、例えば機器が設置されている部屋であることが好ましい。
 空間音圧分布検出部202は、音声取得部201によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。ここで空間音圧分布とは例えば、機器1(マイクロフォン14)の位置を基準とした際の、所定角度ごとの音圧の分布を示すものである。また空間音圧分布とは例えば、機器1(マイクロフォン14)の位置を基準とした際の、所定角度および所定距離ごとの音圧の分布を示すものであってもよい。空間音圧分布の具体例については本実施の形態および実施の形態2にて後述する。
 点音源検出部203は、空間音圧分布検出部202によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。具体的には、点音源検出部203は、まず空間音圧分布検出部202によって検出された空間音圧分布のうち、音圧が所定の閾値以上である音源の角度範囲を取得する。そして、取得した角度範囲の幅が所定の幅以下である音源を、空間内における点音源と判断する。発話する人間の口は点音源であると見なすことができ、騒音を発するエアコンなどの機器は人間の口よりも音源に幅があったり、拡散性もあり、面音源であると見なすことができる。そのため、空間内における点音源を検出することで、人間が発した音声であるか否かを判断することができる。
 音声認識制御部204は、点音源検出部203によって点音源が検出された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行うと判断する。
 音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。
 ここで、本開示の実施の形態1における音声認識システムの動作について説明する。図4は、本開示の実施の形態1における音声認識システムの動作を説明するためのフローチャートである。
 まず、ステップS1において、音声取得部201は、機器1に設けられたマイクロフォン14から音声情報を取得する。本実施の形態1において、マイクロフォン14は、例えば2つのマイクユニットを含み、2つのマイクユニットから取得された音声情報を音声取得部201に出力する。なおマイクロフォン14に含まれるマイクユニットは2つに限らず、3つ以上含まれていてもよい。
 次に、ステップS2において、空間音圧分布検出部202は、音声取得部201によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。
 例えば、マイクロフォン14が複数のマイクユニットを含む場合、既知のビームフォーミング技術などによって収音範囲に指向性を持たせることができるので、指向性のビーム方向を振る(走査させる)ことによって所定角度ごとの音圧分布を検出できる。さらに、音波が球面波であるという音波の特徴を利用することで、音源の距離に関するビーム操作も可能となり、所定の距離ごとの音圧分布の検出も可能となる。
 図24(A)は機器1と複数の音源(音源241、音源242、音源243、音源244)が存在する空間を模式的に示した図であり、図24(B)は図24(A)に示した空間において空間音圧分布検出部202が検出した空間音圧分布を示した図である。
 図24(A)に示す機器1のマイクロフォン14は、水平方向に位置の異なるマイクユニット14aとマイクユニット14bとを含む。また図24(A)に示すように空間内に複数の音源(音源241、音源242、音源243、音源244)が存在するものとする。複数のマイクユニットを含むマイクロフォン14は上記のように収音範囲に指向性を持たせることができるので、指向性のビーム方向を振る(走査させる)ことによって空間内の複数の領域に対してそれぞれ音源の存在の有無を検出することが出来る。これによって、図24(B)に示すような空間音圧分布を検出することが出来る。図24(B)に示す空間音圧分布は、機器1の位置を0°とした際に、-90°~90°における角度ごとの音圧の分布を示すものである。
 なお、マイクロフォン14が水平方向に位置の異なる2つのマイクユニットを含む場合は、図24に示すように水平面上での空間音圧分布を検出することが出来る。また、マイクロフォン14が垂直方向に位置の異なる2つのマイクユニットを含む場合は、垂直面上での空間音圧分布を検出することが出来る。また、マイクロフォン14が水平・垂直方向に位置が異なる3つのマイクユニットを含む場合、マイクロフォン14の位置を原点とする3次元座標空間における音圧レベルの分布を検出することが出来る。
 次に、ステップS3において、点音源検出部203は、空間音圧分布検出部202によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。点音源の幅は面音源の幅よりも狭い。また、点音源の面積は、面音源の面積よりも小さい。そのため、点音源検出部203は、まず空間音圧分布検出部202によって検出された空間音圧分布のうち、音圧が所定の閾値以上である音源の角度範囲を取得する。そして、取得した角度範囲の幅が所定の幅以下である音源を、空間内における点音源と判断する。以下図24を用いて点音源検出部203が空間内における点音源を特定する具体例を説明する。
 点音源検出部203は、まず図24(B)に示す空間音圧分布のうち、音圧が所定の閾値245以上である角度範囲を特定する。これにより点音源か否かを判断する対象となる音源を特定する。図24(B)の下部には-90°~45°の範囲内に音源241が、-45°~0°の範囲内に音源242が、0°~45°の範囲内に音源243が、45°~90°の範囲内に音源244が、それぞれ点音源か否かを判断する対象となる音源として特定されている。また空間音圧分布検出部202は、音源241の角度範囲A、音源242の角度範囲B、音源243の角度範囲C、音源244の角度範囲Dをそれぞれ取得している。
 そして点音源検出部203は、対象となる音源として特定した音源241、音源242、音源243、音源244のそれぞれの角度範囲A~Dの幅のうち、所定の幅以下である角度範囲を持つ音源を特定し、特定した音源を点音源として判断する。ここでは例えば所定の幅以下である角度範囲BおよびDに対応する音源242・音源244を、点音源であると判断する。これによって図24(A)に示す空間内には点音源242・点音源244が存在することを判断することができる。
 なお、点音源検出部203が点音源であるか否かを判断する方法は、上で説明した方法に限られない。点音源検出部203は取得した音源に関する、音圧の大小や、音圧の幅(すなわち特定した音源の角度範囲)、音波の特徴、音圧の面積(実施の形態2で説明)などのあらゆる情報のうち一または複数の情報を取得することで点音源であるか否かを判断する。
 次に、ステップS4において、音声認識制御部204は、点音源検出部203によって点音源が検出されたか否かを判断する。ここで、点音源が検出されたと判断された場合(ステップS4でYES)、音声認識制御部204は、音声認識処理を行うと判断し、ステップS5の処理へ移行する。一方、点音源が検出されていないと判断された場合(ステップS4でNO)、音声認識制御部204は、音声認識処理を行わないと判断し、ステップS1の処理へ戻る。図24の例では、点音源検出部203は点音源242・点音源244を検出しているので、ステップS5の処理へ移行する。
 なお図24(B)のように、所定角度ごとの音圧分布を検出している場合は、マイクロフォン14から所定の角度範囲内に位置する音源のみを制御対象の音源と判断してもよい。例えば音声認識制御部204は、音源242・音源244のうち、マイクロフォン14から所定の角度範囲(例えば-45°~45°)内に位置する音源である音源242のみを制御対象の音源と判断する。これによって、音声認識装置(システム)が音声コマンドを受け付ける音源領域を制限することが出来る。なお、音声認識制御部204が点音源と判断する所定の角度範囲に関しては、予め設定されている角度でもよいし、ユーザが設定出来てもよい。
 次に、ステップS5において、音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部205は、音声認識制御部204によって音声認識処理を行わないと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行わない。
 このように、点音源が検出された場合、音声認識処理が行われ、点音源が検出されない場合、音声認識処理が行われないので、音声認識処理を行うか否かを容易に判断することができる。また、人間の存在を検知するためのセンサが不要であるので、安価な構成で音声認識の誤動作を防止することができる。
 なお、本実施の形態において、マイクロフォン14は、2つのマイクユニットを含んでいるが、本開示は特にこれに限定されず、マイクロフォン14は、3つ以上のマイクユニットを含んでもよい。この場合、空間音圧分布の検出精度を向上させることができる。このことは、他の実施の形態でも適用可能である。
 また、本実施の形態において、機器1が備えるマイクロフォン14を利用して空間音圧分布が検出されるが、本開示は特にこれに限定されず、空間音圧分布検出部202は、機器1が備えるマイクロフォン14に加えて、機器1と同一空間内に配置された他の機器が備えるマイクロフォンを利用して空間音圧分布を検出してもよい。この場合、他の機器のマイクロフォンの位置は、空間音圧分布検出部202に予め記憶されていることが好ましい。このことは、他の実施の形態でも適用可能である。
 また、本実施の形態において、機器1が音声認識部100を備えているが、本開示は特にこれに限定されず、サーバ2が音声認識部100を備えてもよい。この場合、機器1のマイクロフォン14で取得された音声情報が、ネットワーク3を介してサーバ2へ送信され、サーバ2の音声認識部100が図4のステップS1~S5の処理を実行する。そして、サーバ2は、音声認識処理を行った場合、音声認識処理結果に基づく機器1の動作指示を機器1へ送信し、機器1は、サーバ2からの動作指示に応じて動作する。このことは、他の実施の形態でも適用可能である。
 また、本実施の形態において、機器1が音声認識部100を備えているが、本開示は特にこれに限定されず、機器1と同一の家庭内に配置された他の機器が音声認識部100を備えてもよい。また、家庭内に配置された複数の機器を制御するホームコントローラが音声認識部100を備えてもよい。このことは、他の実施の形態でも適用可能である。
 (実施の形態2)
 図5は、本開示の実施の形態2における音声認識部の構成を示す図である。本実施の形態2における音声認識部101は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205及び点音源位置特定部206を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部101を備える。実施の形態2において、実施の形態1と同一の構成については同一の符号を付し、説明を省略する。
 点音源位置特定部206は、点音源検出部203によって点音源が検出された場合、検出された点音源の空間内における位置を特定する。なお、メモリ13は、機器1に設けられたマイクロフォンに含まれる複数のマイクユニットの位置を予め記憶している。点音源位置特定部206は、複数のマイクユニットの位置を用いた3点測量法により3次元空間内における点音源の位置を特定する。
 音声認識制御部204は、点音源の位置と機器1との距離が所定の距離より近い場合、音声認識処理を行うと判断し、点音源の位置と機器1との距離が所定の距離以上である場合、音声認識処理を行わないと判断する。
 ここで、本開示の実施の形態2における音声認識システムの動作について説明する。図6は、本開示の実施の形態2における音声認識システムの動作を説明するためのフローチャートである。
 なお、図6のステップS11~S14の処理は、図4のステップS1~S4の処理と同じであるので説明を省略する。
 ステップS14において点音源が検出されたと判断された場合(ステップS4でYES)、ステップS15において、点音源位置特定部206は、点音源検出部203によって検出された点音源の空間内における位置を特定する。点音源位置特定部206は、空間音圧分布検出部202によって検出された空間音圧分布の中から、点音源検出部203によって検出された点音源の位置を特定する。
 空間音圧分布は、例えば、マイクロフォン14の位置を原点とする2次元(もしくは3次元)座標空間における音圧レベルの分布を表している。メモリ13は、機器1に設けられたマイクロフォン14に含まれる複数のマイクユニットの位置を予め記憶している。また、複数のマイクユニットは、所定の間隔で配置されている。点音源から出力された音声が各マイクユニットに到達するまでの時間は、それぞれ異なる。そのため、点音源位置特定部206は、複数のマイクユニットのそれぞれの位置と、検出された点音源から複数のマイクユニットに音声が到達するまでの時間とに基づいて、2次元(3次元)空間内における点音源の位置(マイクロフォン14からの距離)を特定する。
 ここで、点音源の位置(マイクロフォン14からの距離)を特定する方法は、これに限られない。例えば音波が伝わる特徴を利用して特定してもよい。例えば音の伝播が球面波であるという特徴を利用することで距離方向の音圧分布を測定することが出来るので、これにより点音源の位置(マイクロフォン14からの距離)を特定してもよい。
 ここで、ステップS15にて、点音源の位置を特定した場合、空間音圧分布検出部は、ステップS12にて検出した音圧分布を機器1を基準にした所定角度および所定距離ごとの音圧分布を示すものに更新してもよい。
 図25(A)は機器1と複数の音源(音源251、音源252、音源253、音源254)が存在する空間を模式的に示した図であり、図25(B)は図25(B)に示した空間において空間音圧分布検出部202が検出した距離と角度ごとの空間音圧分布を示した図である。図25(B)に示す空間音圧分布は、機器1の位置を原点とした際に、横軸:角度、縦軸:距離として2次元座標を構築し、検出した音源を座標上に配置し、また各音源の面積(角度範囲の幅および奥行き方向の幅)を円の大きさにて表したものである。
 ステップS15にて音源の位置(距離)を特定しているので、各音源に対して機器1から見た奥行き方向の幅を検出することが出来る。よって、ステップS13にて、実施の形態1で説明した各音源の角度範囲の幅に加えて、奥行き方向の幅を考慮することで、各音源を面積として算出できる。これによりこの面積が所定の閾値よりも小さいものを点音源として特定してもよい。
 図25(B)に示す例では、-90°~45°の範囲内に音源251が、-45°~0°の範囲内に音源252が、0°~45°の範囲内に音源253が、45°~90°の範囲内に音源254が、それぞれ音源として検出されており、これらの音源のうち所定の面積よりも小さい音源である音源252、音源253、音源254が点音源と特定されているものとする。
 次に、ステップS16において、音声認識制御部204は、点音源の位置と機器1との距離が所定の距離より近いか否かを判断する。音声認識制御部204は、マイクロフォン14の位置を原点とする3次元座標空間における機器1の位置を予め記憶している。そのため、音声認識制御部204は、点音源位置特定部206によって特定された点音源の位置座標と、機器1の位置座標との間の距離を算出することができ、算出した距離が所定の距離より近いか否かを判断する。
 ここで図25(B)を用いて、音声認識制御部204が点音源の位置と機器1との距離が所定の距離より近いか否かを判断する例について説明する。
 図25(B)の例では上記したように点音源検出部203が音源252、音源253、音源254、を点音源であると判断したとする。この場合、点音源252・点音源253・点音源254のうち、所定の距離である閾値255(この場合3m)内に位置する点音源252・点音源254が、機器1との距離が所定の範囲内に納まる音源であると判断する。
 なお、所定の距離とは、例えば、ユーザが機器1を操作可能な範囲であることが好ましい。例えば、機器1がテレビである場合、所定の距離は、ユーザが視聴可能な範囲であることが好ましい。また、マイクユニットの検出感度を考慮した場合、所定の距離とは、複数のマイクユニットのうちの一方端のマイクユニットから他方端のマイクユニットまでの距離の3倍、4倍又は5倍であることが好ましい。
 ここで、点音源の位置と機器1との距離が所定の距離より近いと判断された場合(ステップS16でYES)、音声認識制御部204は、音声認識処理を行うと判断し、ステップS17の処理へ移行する。一方、点音源の位置と機器1との距離が所定の距離より近くないと判断された場合(ステップS16でNO)、音声認識制御部204は、音声認識処理を行わないと判断し、ステップS11の処理へ戻る。
 次に、ステップS17において、音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部205は、音声認識制御部204によって音声認識処理を行わないと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行わない。
 このように、点音源が検出された場合、点音源の位置と機器1との距離が所定の距離より近いか否かが判断される。そして、点音源の位置と機器1との距離が所定の距離より近いと判断された場合、音声認識処理が行われ、点音源の位置と機器1との距離が所定の距離より近くないと判断された場合、音声認識処理が行われない。したがって、点音源の位置と機器1との距離が所定の距離より近いか否かを判断することにより、機器1を操作するためにユーザが機器1に近い場所で発話しているのか、又は機器1の操作とは関係なくユーザが機器1から離れた場所で発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。
 また、高価な装置を用いることなく話者の位置を特定し、話者の位置に基づいて音声認識処理を制御することができる。
 (実施の形態3)
 図7は、本開示の実施の形態3における音声認識部の構成を示す図である。本実施の形態3における音声認識部102は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206及び指向性制御部207を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部102を備える。実施の形態3において、実施の形態1及び実施の形態2と同一の構成については同一の符号を付し、説明を省略する。
 指向性制御部207は、点音源位置特定部206によって特定された点音源の位置に向けてマイクロフォン14の指向性の方向を制御する。指向性制御部207は、点音源位置特定部206によって特定された点音源の位置に向かう方向の感度を高めるように、音声取得部201によって取得された音声情報に対して信号処理を施す。これにより、マイクロフォン14の指向性が、点音源に向かう方向に制御される。
 このように、点音源の位置に向けてマイクロフォン14の指向性の方向を制御することにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態4)
 図8は、本開示の実施の形態4における音声認識部の構成を示す図である。本実施の形態4における音声認識部103は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、指向性制御部207、出力音声生成部208及びエコー除去部209を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部103を備える。実施の形態4において、実施の形態1~実施の形態3と同一の構成については同一の符号を付し、説明を省略する。
 出力音声生成部208は、機器1のスピーカ15から出力される出力音声情報を生成する。出力音声生成部208は、ユーザに対して操作を促すための出力音声情報、又はユーザの操作に対して応答するための出力音声情報などを生成し、スピーカ15及びエコー除去部209へ出力する。出力音声生成部208は、機器1の動作状況に応じた出力音声情報をメモリ13から読み出し、出力音声情報を生成する。あるいは、出力音声生成部208は、機器1の動作状況に応じた複数の音声情報をメモリ13から読み出し、読み出した複数の音声情報を組み合わせることにより出力音声情報を生成してもよい。なお、例えば機器1がテレビ、ラジオ又は音楽再生用のオーディオなどである場合、出力音声生成部208が生成する出力音声情報としては、受信した放送コンテンツの音声情報又は記録(録画又は録音)されたコンテンツの音声情報を含んでいてもよい。
 スピーカ15は、出力音声生成部208によって生成された出力音声情報を出力音声として出力する。
 エコー除去部209は、出力音声生成部208によって生成された出力音声情報を取得し、音声取得部201によって取得された音声情報から、取得した出力音声情報をエコー成分として除去する。
 すなわち、スピーカ15から音声が出力される場合、音声取得部201によって取得された音声情報には、ユーザが発した音声だけでなく、当該スピーカ15から出力された音声がエコー成分として含まれる。そのため、エコー成分が含まれる音声情報を基に音声認識が行われた場合、正確に音声認識が行われないおそれがある。そこで、音声取得部201によって取得された音声情報から、出力音声生成部208によって生成された出力音声情報をエコー成分として除去する。これにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態5)
 図9は、本開示の実施の形態5における音声認識部の構成を示す図である。本実施の形態5における音声認識部104は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206及び直接到来点音源特定部210を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部104を備える。実施の形態5において、実施の形態1~実施の形態4と同一の構成については同一の符号を付し、説明を省略する。
 直接到来点音源特定部210は、点音源位置特定部206によって位置が特定された点音源のうち、発せられた音声がマイクロフォン14に直接到来する直接到来点音源を特定する。なお、点音源位置特定部206によって位置が特定された点音源のうち、発せられた音声がマイクロフォン14に直接到来する直接到来点音源は、周知の方法で特定することが可能である。直接到来音源の特定方法に関しては図26を用いて後述する。音声認識制御部204は、直接到来点音源特定部210で直接到来点音源が特定された場合、音声認識処理を行うと判断し、直接到来点音源特定部210で直接到来点音源が特定されない場合、音声認識処理を行わないと判断する。
 ここで、本開示の実施の形態5における音声認識システムの動作について説明する。図10は、本開示の実施の形態5における音声認識システムの動作を説明するためのフローチャートである。
 なお、図10のステップS21~S25の処理は、図6のステップS11~S15の処理と同じであるので説明を省略する。
 ステップS26において、直接到来点音源特定部210は、点音源位置特定部206によって位置が特定された点音源のうち、発せられた音声がマイクロフォン14に直接到来する直接到来点音源を特定する。
 次に、ステップS27において、音声認識制御部204は、直接到来点音源特定部210によって直接到来点音源が特定されたか否かを判断する。
 点音源からマイクロフォン14に到来する音声には、直接マイクロフォン14に到来する音声だけでなく、壁などに反射してからマイクロフォン14に到来する音声又は壁などを通過してからマイクロフォン14に到来する音声もある。
 通常、ユーザは、機器の方向を向いた状態で機器を操作する。そのため、壁などに反射してからマイクロフォン14に到来する音声又は壁などを通過してからマイクロフォン14に到来する音声は、ユーザが機器の方向を向いていない状態で発せられた音声である可能性が高く、機器に対する操作指示ではない可能性が高い。そこで、本実施の形態5における音声認識処理部205は、発せられた音声がマイクロフォン14に直接到来する場合、音声認識を行い、発せられた音声がマイクロフォン14に直接到来しない場合、音声認識を行わない。
 以下図26を用いて、直接到来音源特定部210が直接到来音か直接到来音でない音(反射音)かを判断する方法を説明する。図26は、時刻tにおいて測定された空間内の音源と、時刻t+1において測定された空間内の音源を模式的に示した図である。
 図26の例では、点音源検出部203は、時刻tにおいて点音源261を検出している。また時刻tにおいて、点音源位置特定部206は点音源261の位置が、機器1から距離xの位置であることを特定している。また時刻t+1において、点音源検出部203は、点音源262を、点音源263をそれぞれ検出している。また時刻t+1において、点音源位置特定部206は点音源262の位置が機器1から距離yの位置であり、点音源263の位置が機器1から距離xの位置であることを特定している。また、点音源位置特定部206は点音源261と点音源263が同じ位置(2次元座標)にあることを特定している。
 この場合、まず直接到来音源特定部210は、異なる時刻に同じ位置(2次元座標)に発生している点音源261と点音源263を同じ音源から発せられた音と判断する。
 そして次に直接到来音源特定部210は、異なる時刻に検出された音源のうち、同じ音源から発せられた音と判断されていない点音源261と点音源262との音の特徴を比較する。ここで、音の特徴とは例えば、時刻tにおいて点音源261に指向性を向けた際の音声と時刻t+1において点音源262、もしくは点音源263に指向性を向けた際の音声との相関や独立性などを含み、特に限定しない。そして直接到来音源特定部210は、点音源261と点音源262が略同一の音の特徴を有していると判断した場合、点音源262を直接到来音源でない、すなわち点音源261が壁に反射することによって発生している反射音源であると判断する。そして音源261、音源263に関しても、機器1に向かって発されている音源ではない可能性が高いので、直接到来音源ではないと判断する。
 すなわち直接到来音源特定部210は、異なる時刻に検出され検出位置(音源分布上の検出領域)が異なる複数の音源のうち、略同一の音の特徴を有する複数の音源を検出した際に、少なくとも検出した時刻が後である音源を直接到来音でない音と判断する。
 ここで音の特徴が略同一であるか否かの判断の方法としては、例えば複数の音源の音の特徴を示す値を比較し、それぞれの値の一致度が所定値以上である場合に略同一として判断するなどが考えられる。
 なお、直接到来音源の特定方法はこれに限られない。例えば、同一時刻に音の特徴が略同一である複数の音源を特定した際に、機器からの距離が遠い音源を直接到来音ではない音と判断してもよい。
 すなわち、直接到来音源特定部210は時間的に異なる(もしくは時間的に同一の)複数の音源が存在する場合に、各々の音源の機器1に対する距離や、位置、音の特徴、などに基づいて直接到来音であるか否かを判断すればよい。
 ここで、直接到来点音源特定部210によって直接到来点音源が特定されたと判断された場合(ステップS27でYES)、音声認識制御部204は、音声認識処理を行うと判断し、ステップS28の処理へ移行する。一方、直接到来点音源特定部210によって直接到来点音源が特定されないと判断された場合(ステップS27でNO)、音声認識制御部204は、音声認識処理を行わないと判断し、ステップS21の処理へ戻る。
 次に、ステップS28において、音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部205は、音声認識制御部204によって音声認識処理を行わないと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行わない。
 このように、発せられた音声がマイクロフォン14に直接到来する場合、音声認識が行われ、発せられた音声がマイクロフォン14に直接到来しない場合、音声認識が行われないので、機器1を操作するためにユーザが機器1の方向に向かって発話しているのか、又は機器1の操作とは関係なくユーザが機器1の方向とは異なる方向に向かって発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。
 (実施の形態6)
 図11は、本開示の実施の形態6における音声認識部の構成を示す図である。本実施の形態6における音声認識部105は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、指向性制御部207及び直接到来点音源特定部210を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部105を備える。実施の形態6において、実施の形態1~実施の形態5と同一の構成については同一の符号を付し、説明を省略する。
 直接到来点音源特定部210は、点音源位置特定部206によって位置が特定された点音源のうち、発せられた音声がマイクロフォン14に直接到来する直接到来点音源を特定する。
 指向性制御部207は、直接到来点音源特定部210によって直接到来点音源が特定された場合、点音源位置特定部206によって特定された点音源の位置に向けてマイクロフォン14の指向性の方向を制御する。
 このように、発せられた音声がマイクロフォン14に直接到来する直接到来点音源の位置に向けてマイクロフォン14の指向性の方向が制御されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態7)
 図12は、本開示の実施の形態7における音声認識部の構成を示す図である。本実施の形態7における音声認識部106は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、指向性制御部207、出力音声生成部208、エコー除去部209及び直接到来点音源特定部210を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部106を備える。実施の形態7において、実施の形態1~実施の形態6と同一の構成については同一の符号を付し、説明を省略する。
 エコー除去部209は、出力音声生成部208によって生成された出力音声情報を取得し、音声取得部201によって取得された音声情報から、取得した出力音声情報をエコー成分として除去する。
 直接到来点音源特定部210は、点音源位置特定部206によって位置が特定された点音源のうち、発せられた音声がマイクロフォン14に直接到来する直接到来点音源を特定する。
 指向性制御部207は、直接到来点音源特定部210によって直接到来点音源が特定された場合、点音源位置特定部206によって特定された点音源の位置に向けてマイクロフォン14の指向性の方向を制御する。
 このように、発せられた音声がマイクロフォン14に直接到来する直接到来点音源の位置に向けてマイクロフォン14の指向性の方向が制御されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 また、音声取得部201によって取得された音声情報から、出力音声生成部208によって生成された出力音声情報がエコー成分として除去されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態8)
 図13は、本開示の実施の形態8における音声認識部の構成を示す図である。本実施の形態8における音声認識部107は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、直接到来点音源特定部210及び音声識別部211を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部107を備える。実施の形態8において、実施の形態1~実施の形態7と同一の構成については同一の符号を付し、説明を省略する。
 音声識別部211は、直接到来点音源特定部210によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。
 音声認識制御部204は、音声識別部211によって直接到来した音声が人間によって発話された音声であると識別された場合、音声認識処理を行うと判断し、音声識別部211によって直接到来した音声が人間によって発話された音声ではないと識別された場合、音声認識処理を行わないと判断する。
 人間の口は点音源であるが、様々な雑音の中には点音源である雑音も存在する。そのため、直接到来した音声が人間によって発話された音声であるか否かを識別することにより、人間以外の機器から発せられる雑音に対して音声認識処理が行われることを防止する。
 ここで、本開示の実施の形態8における音声認識システムの動作について説明する。図14は、本開示の実施の形態8における音声認識システムの動作を説明するためのフローチャートである。
 なお、図14のステップS31~S37の処理は、図10のステップS21~S27の処理と同じであるので説明を省略する。
 ステップS38において、音声識別部211は、直接到来点音源特定部210によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。メモリ13は、人間の音声の波形パターンを予め記憶している。音声識別部211は、取得した音声情報の波形パターンと、メモリ13に予め記憶されている人間の音声の波形パターンとを比較する。取得した音声情報の波形パターンが、メモリ13に予め記憶されている人間の音声の波形パターンと略一致する場合、音声識別部211は、直接到来した音声が人間によって発話された音声であると識別する。一方、取得した音声情報の波形パターンが、メモリ13に予め記憶されている人間の音声の波形パターンと略一致しない場合、音声識別部211は、直接到来した音声が人間によって発話された音声ではないと識別する。
 ここで、直接到来した音声が人間によって発話された音声であると識別された場合(ステップS38でYES)、音声認識制御部204は、音声認識処理を行うと判断し、ステップS39の処理へ移行する。一方、直接到来した音声が人間によって発話された音声ではないと識別された場合(ステップS38でNO)、音声認識制御部204は、音声認識処理を行わないと判断し、ステップS31の処理へ戻る。
 次に、ステップS39において、音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部205は、音声認識制御部204によって音声認識処理を行わないと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行わない。
 このように、点音源から直接到来した音声が人間の音声である場合、音声認識が行われ、点音源から直接到来した音声が人間の音声ではない場合、音声認識が行われないので、人間以外の機器から発せられる音声に対して音声認識処理が行われることを防止することができる。
 なお、音声識別部211は、直接到来点音源特定部210によって直接到来点音源が特定された場合、話者を識別してもよい。話者を識別する方法については限定しない。音声識別部211は、音声を発している話者の大まかな年齢又は性別などの個人情報を特定してもよいし、予め登録されている音声データベース等を用いて個人を特定してもよい。これによって、例えば室外から発生して壁を通過してマイクロフォン14に到来した音声、又は音声データベースに登録されている家族以外が発した音声に対して音声認識処理が行われることを防止することができる。
 (実施の形態9)
 図15は、本開示の実施の形態9における音声認識部の構成を示す図である。本実施の形態9における音声認識部108は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、指向性制御部207、直接到来点音源特定部210及び音声識別部211を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部108を備える。実施の形態9において、実施の形態1~実施の形態8と同一の構成については同一の符号を付し、説明を省略する。
 音声識別部211は、直接到来点音源特定部210によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。
 指向性制御部207は、直接到来点音源特定部210によって直接到来点音源が特定されるとともに、直接到来した音声が人間によって発話された音声であると識別された場合、点音源位置特定部206によって特定された点音源の位置に向けてマイクロフォン14の指向性の方向を制御する。
 このように、人間であると識別された点音源の位置に向けてマイクロフォン14の指向性の方向が制御されるので、ユーザからの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態10)
 図16は、本開示の実施の形態10における音声認識部の構成を示す図である。本実施の形態10における音声認識部109は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、指向性制御部207、出力音声生成部208、エコー除去部209、直接到来点音源特定部210及び音声識別部211を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部109を備える。実施の形態10において、実施の形態1~実施の形態9と同一の構成については同一の符号を付し、説明を省略する。
 音声識別部211は、直接到来点音源特定部210によって直接到来点音源が特定された場合、直接到来した音声が人間によって発話された音声であるか否かを識別する。
 指向性制御部207は、直接到来点音源特定部210によって直接到来点音源が特定されるとともに、直接到来した音声が人間によって発話された音声であると識別された場合、点音源位置特定部206によって特定された点音源の位置に向けてマイクロフォン14の指向性の方向を制御する。
 特に、本実施の形態では、指向性制御部207は、エコー除去部209によってエコー成分が除去された音声情報に対して、点音源の位置に向かう方向に指向性を有するように信号処理を施す。
 これにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 (実施の形態11)
 図17は、本開示の実施の形態11における音声認識部の構成を示す図である。本実施の形態11における音声認識部110は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206及び音声認識用単語表示制御部212を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部110を備える。実施の形態11において、実施の形態1~実施の形態10と同一の構成については同一の符号を付し、説明を省略する。
 音声認識用単語表示制御部212は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声認識処理に用いられる複数の音声認識用単語を予め記憶するメモリ13から、機器の操作に関する少なくとも1つの音声認識用単語を読み出し、読み出した少なくとも1つの音声認識用単語を表示部16に表示する。
 音声認識用単語は、音声認識が可能な単語である。例えば、機器1がテレビである場合、音声認識用単語は、“音量大”、“音量小”、“チャンネルアップ”、“チャンネルダウン”、“番組表”、“検索”、“動画”及び“電源オフ”を含む。
 図18は、本開示の実施の形態11において、表示部に表示される表示画面の一例を示す図である。
 機器1がテレビである場合、表示部16の表示画面300には、図18に示す音声認識用単語301が表示される。図18に示すように、音声認識用単語表示制御部212は、“音量大”、“音量小”、“チャンネルアップ”、“チャンネルダウン”、“番組表”、“検索”、“動画”及び“電源オフ”という音声認識用単語301を表示部16に表示する。なお、音声認識用単語表示制御部212によって表示される音声認識用単語301はこれに限られない。
 このように、音声認識処理に用いられる音声認識用単語が表示されるので、ユーザは表示された音声認識用単語を確認し、確実に音声により機器を操作することができる。
 なお、本実施の形態11では、表示画面300の下部に音声認識用単語301が一覧表示されているが、本開示は特にこれに限定されず、表示画面300の上部、中央部、左端部又は右端部に音声認識用単語301が一覧表示されてもよい。また、表示画面300の下部に音声認識用単語301がスクロール表示されてもよい。
 また、メモリ13に記憶されている全ての音声認識用単語が表示されるのではなく、メモリ13に記憶されている音声認識用単語のうちの一部が表示されてもよい。また、ユーザの使用頻度が高い音声認識用単語が表示されてもよい。また、ユーザによって設定された音声認識用単語がメモリ13に記憶されてもよい。
 また、メモリ13は、複数種類の機器の操作に関する音声認識用単語を記憶してもよく、音声認識用単語表示制御部212は、ユーザによって操作される機器に関する音声認識用単語をメモリ13から読み出し、表示部16に表示してもよい。なお、サーバ2が音声認識部を備える場合、ユーザによって操作される機器を特定するための情報がサーバ2に送信され、当該情報に基づいて音声認識用単語がメモリから読み出される。
 また、本実施の形態11では、実施の形態2の音声認識部の構成に音声認識用単語表示制御部212を付加しているが、本開示は特にこれに限定されず、実施の形態1,3~10の音声認識部の構成に音声認識用単語表示制御部212を付加してもよい。
 (実施の形態12)
 図19は、本開示の実施の形態12における音声認識部の構成を示す図である。本実施の形態12における音声認識部111は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206及び輝度制御部213を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部111を備える。実施の形態12において、実施の形態1~実施の形態11と同一の構成については同一の符号を付し、説明を省略する。
 輝度制御部213は、音声認識制御部204によって音声認識処理を行うと判断された場合の表示部16の輝度を、音声認識制御部204によって音声認識処理を行わないと判断された場合の表示部16の輝度よりも向上させる。
 図20(A)は、本開示の実施の形態12において、音声認識処理が行われる場合に表示部に表示される表示画面の一例を示す図であり、図20(B)は、本開示の実施の形態12において、音声認識処理が行われない場合に表示部に表示される表示画面の一例を示す図である。なお、図20(A)及び図20(B)は、機器1がテレビである場合に表示部16に表示される表示画面311,312の一例を示している。また、図20(A)及び図20(B)では、ハッチングの有無により、輝度の違いを表現している。
 図20(A)及び図20(B)に示すように、音声認識制御部204によって音声認識処理を行うと判断された場合の表示部16の輝度は、音声認識制御部204によって音声認識処理を行わないと判断された場合の表示部16の輝度よりも高くなる。
 このように、音声認識処理が行われる場合の表示部16の輝度と、音声認識処理が行われない場合の表示部16の輝度とを異ならせることにより、音声認識処理が可能であるか否かをユーザに報知することができる。
 なお、本実施の形態11では、輝度制御部213は、音声認識処理が行われる場合の表示画面の全体の輝度と、音声認識処理が行われない場合の表示画面の全体の輝度とを異ならせているが、本開示は特にこれに限定されず、輝度制御部213は、音声認識処理が行われる場合の表示画面の一部の輝度と、音声認識処理が行われない場合の表示画面の一部の輝度とを異ならせてもよい。例えば、輝度制御部213は、音声認識処理が行われる場合の表示画面の外縁部分の輝度と、音声認識処理が行われない場合の表示画面の外縁部分の輝度とを異ならせてもよい。
 また、本実施の形態12では、実施の形態2の音声認識部の構成に輝度制御部213を付加しているが、本開示は特にこれに限定されず、実施の形態1,3~11の音声認識部の構成に輝度制御部213を付加してもよい。
 (実施の形態13)
 図21は、本開示の実施の形態13における音声認識部の構成を示す図である。本実施の形態13における音声認識部112は、音声取得部201、空間音圧分布検出部202、点音源検出部203、音声認識制御部204、音声認識処理部205、点音源位置特定部206、出力音声生成部208及びエージェント画像表示制御部214を備える。なお、機器1の構成は、実施の形態1と同じであり、制御部12が音声認識部111を備える。実施の形態12において、実施の形態1~実施の形態11と同一の構成については同一の符号を付し、説明を省略する。
 出力音声生成部208は、音声認識制御部204における音声認識処理を行うか否かの判断に応じた出力音声を生成し、スピーカ15から出力する。例えば、音声認識制御部204によって音声認識を行わないと判断された場合、出力音声生成部208は、ユーザに音声認識が可能な位置への移動を促すような音声情報を生成する。
 エージェント画像表示制御部214は、音声認識制御部204における音声認識処理を行うか否かの判断に応じたエージェント画像(アニメーション画像)を表示部16に表示する。例えば、音声認識制御部204によって音声認識を行わないと判断された場合、エージェント画像表示制御部214は、ユーザに音声認識が可能な位置への移動を促すようなエージェント画像を表示する。
 エージェント画像表示制御部214は、出力音声生成部208によって生成された出力音声情報が出力される際に、出力される音声に連動してエージェント画像の表示を制御してもよい。また、メモリ13は、エージェント画像を予め記憶してもよく、エージェント画像表示制御部214は、音声認識制御部204における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ13から読み出し、表示部16に表示してもよい。
 ここで、本開示の実施の形態13における音声認識システムの動作について説明する。図22は、本開示の実施の形態13における音声認識システムの動作を説明するためのシーケンス図である。
 まず、ステップS51において、マイクロフォン14は、音声情報を取得する。
 次に、ステップS52において、マイクロフォン14は、取得した音声情報を音声認識部112へ出力する。
 次に、ステップS53において、音声取得部201は、マイクロフォン14によって出力された音声情報を取得する。
 次に、ステップS54において、空間音圧分布検出部202は、音声取得部201によって取得された音声情報に基づいて、空間内における音圧の分布を示す空間音圧分布を検出する。
 次に、ステップS55において、点音源検出部203は、空間音圧分布検出部202によって検出された空間音圧分布に基づいて、空間内における点音源を検出する。
 次に、ステップS56において、点音源位置特定部206は、点音源検出部203によって検出された点音源の空間内における位置を特定する。なお、点音源が検出されたと判断された場合、点音源位置特定部206は、点音源検出部203によって検出された点音源の空間内における位置を特定し、点音源が検出されないと判断された場合、点音源位置特定部206は、点音源検出部203によって検出された点音源の空間内における位置を特定しない。
 次に、ステップS57において、音声認識制御部204は、点音源の位置と機器1との距離が所定の距離より近いか否かを判断する。
 次に、ステップS58において、エージェント画像表示制御部214は、音声認識制御部204における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ13から読み出す。
 次に、ステップS59において、エージェント画像表示制御部214は、読み出したエージェント画像を表示部16へ出力する。
 次に、ステップS60において、表示部16は、エージェント画像表示制御部214によって出力されたエージェント画像を表示する。
 次に、ステップS61において、出力音声生成部208は、音声認識制御部204における音声認識処理を行うか否かの判断に応じた出力音声情報を生成する。
 次に、ステップS62において、出力音声生成部208は、生成した出力音声情報をスピーカ15へ出力する。
 次に、ステップS63において、スピーカ15は、出力音声生成部208によって出力された出力音声情報を出力する。
 次に、ステップS64において、音声認識処理部205は、音声認識制御部204によって音声認識処理を行うと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行う。また、音声認識処理部205は、音声認識制御部204によって音声認識処理を行わないと判断された場合、音声取得部201によって取得された音声情報に対して音声認識処理を行わない。
 図23は、本開示の実施の形態13において、表示部に表示される表示画面の一例を示す図である。なお、図23は、機器1がテレビである場合に表示部16に表示される表示画面400の一例を示している。
 図23に示すように、エージェント画像表示制御部214は、人間の顔を模したエージェント画像401を表示部16の表示画面400に表示する。
 エージェント画像401は、出力される音声に合わせて、あたかも話しているかのように動く。出力音声生成部208は、音声認識制御部204における音声認識処理を行うか否かの判断に応じた出力音声情報をメモリ13から読み出し、スピーカ15へ出力する。エージェント画像表示制御部214は、音声認識制御部204における音声認識処理を行うか否かの判断に応じたエージェント画像をメモリ13から読み出し、スピーカ15へ出力する。このとき、出力音声情報とエージェント画像とは対応付けて記憶されており、出力音声情報に連動したエージェント画像が表示される。
 このように、音声認識制御部204における音声認識処理を行うか否かの判断に応じたエージェント画像(アニメーション画像)が表示部16に表示されるので、音声認識処理が可能であるか否かをユーザに報知することができる。
 なお、本実施の形態13では、人間の顔を模したエージェント画像が表示されるが、本開示は特にこれに限定されない。
 また、エージェント画像表示制御部214は、音声認識制御部204によって音声認識を行うと判断された場合、ユーザの音声操作に応じて動くエージェント画像を表示してもよい。
 また、本実施の形態13では、表示画面400の下部にエージェント画像401が表示されているが、本開示は特にこれに限定されず、表示画面400の上部、中央部、左端部又は右端部にエージェント画像401が表示されてもよい。
 また、本実施の形態13では、実施の形態2の音声認識部の構成に出力音声生成部208及びエージェント画像表示制御部214を付加しているが、本開示は特にこれに限定されず、実施の形態1,3~12の音声認識部の構成に出力音声生成部208及びエージェント画像表示制御部214を付加してもよい。
 なお、上述した具体的実施形態には以下の構成を有する開示が主に含まれている。
 本開示の一局面に係る音声認識方法は、機器を動作させるための音声を認識する音声認識方法であって、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、前記音声情報取得ステップにおいて取得された前記音声情報に基づいて、前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップと、前記空間音圧分布検出ステップにおいて検出された前記空間音圧分布に基づいて、前記空間内における点音源を検出する点音源検出ステップと、前記点音源検出ステップにおいて前記点音源が検出された場合、前記音声情報取得ステップにおいて取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含む。
 この構成によれば、点音源が検出された場合、取得された音声情報に対して音声認識処理が行われ、点音源が検出されない場合、音声認識処理が行われないので、音声認識処理を行うか否かを容易に判断することができるとともに、安価な構成で音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップをさらに含み、前記音声認識制御ステップは、前記点音源の位置と前記機器との距離が所定の距離より近い場合、前記音声認識処理を行うと判断し、前記点音源の位置と前記機器との距離が所定の距離以上である場合、前記音声認識処理を行わないと判断することが好ましい。
 この構成によれば、点音源の位置と機器との距離が所定の距離より近いか否かを判断することにより、機器を操作するためにユーザが機器に近い場所で発話しているのか、又は機器の操作とは関係なくユーザが機器から離れた場所で発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御する指向性制御ステップをさらに含むことが好ましい。
 この構成によれば、点音源の位置に向けてマイクロフォンの指向性の方向を制御することにより、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、スピーカから出力される出力音声情報を生成する出力音声生成ステップと、前記出力音声生成ステップにおいて生成された前記出力音声情報を出力音声として前記スピーカから出力する音声出力ステップと、前記出力音声生成ステップにおいて生成された前記出力音声情報を取得し、前記音声情報取得ステップにおいて取得された前記音声情報から、取得した前記出力音声情報をエコー成分として除去するエコー除去ステップとを含むことが好ましい。
 この構成によれば、出力音声生成ステップにおいて生成された出力音声情報が取得され、音声情報取得ステップにおいて取得された音声情報から、取得した出力音声情報がエコー成分として除去されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップと、前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含むことが好ましい。
 この構成によれば、位置が特定された点音源のうち、発せられた音声がマイクロフォンに直接到来する直接到来点音源が特定されるので、機器を操作するためにユーザが機器の方向に向かって発話しているのか、又は機器の操作とは関係なくユーザが機器の方向とは異なる方向に向かって発話しているのかを判断することができる。
 また、上記の音声認識方法において、前記音声認識制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記音声認識処理を行うと判断し、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定されない場合、前記音声認識処理を行わないと判断することが好ましい。
 この構成によれば、発せられた音声がマイクロフォンに直接到来する場合、音声認識が行われ、発せられた音声がマイクロフォンに直接到来しない場合、音声認識が行われない。そのため、機器を操作するためにユーザが機器の方向に向かって発話しているのか、又は機器の操作とは関係なくユーザが機器の方向とは異なる方向に向かって発話しているのかを判断することができ、安価な構成で音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含み、前記指向性制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御することが好ましい。
 この構成によれば、発せられた音声がマイクロフォンに直接到来する直接到来点音源の位置に向けてマイクロフォンの指向性の方向が制御されるので、点音源からの音声情報を確実に取得することができ、音声認識の誤動作を防止することができる。
 また、上記の音声認識方法において、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記直接到来した音声が人間によって発話された音声であるか否かを識別する音声識別ステップをさらに含み、前記音声認識制御ステップは、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声であると識別された場合、前記音声認識処理を行うと判断し、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声ではないと識別された場合、前記音声認識処理を行わないと判断することが好ましい。
 この構成によれば、点音源から直接到来した音声が人間の音声である場合、音声認識が行われ、点音源から直接到来した音声が人間の音声ではない場合、音声認識が行われないので、人間以外の機器から発せられる音声に対して音声認識処理が行われることを防止することができる。
 また、上記の音声認識方法において、前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合、前記音声認識処理に用いられる単語を予め記憶する記憶部から前記単語を読み出し、読み出した前記単語を表示部に表示する音声認識単語表示ステップをさらに含むことが好ましい。
 この構成によれば、音声認識処理に用いられる音声認識用単語が表示されるので、ユーザは表示された音声認識用単語を確認し、確実に音声により機器を操作することができる。
 また、上記の音声認識方法において、前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合の表示部の輝度を、前記音声認識制御ステップにおいて前記音声認識処理を行わないと判断された場合の表示部の輝度よりも向上させる輝度制御ステップをさらに含むことが好ましい。
 この構成によれば、音声認識処理が行われる場合の表示部の輝度と、音声認識処理が行われない場合の表示部の輝度とが異なるので、音声認識処理が可能であるか否かをユーザに報知することができる。
 また、上記の音声認識方法において、前記音声認識制御ステップにおける前記音声認識処理を行うか否かの判断に応じたアニメーション画像を表示部に表示するアニメーション画像表示ステップをさらに含むことが好ましい。
 この構成によれば、音声認識処理を行うか否かの判断に応じたアニメーション画像が表示部に表示されるので、音声認識処理が可能であるか否かをユーザに報知することができる。
 本開示の他の局面に係る音声認識装置は、機器を動作させるための音声を認識する音声認識装置であって、所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得部と、前記音声情報取得部によって取得された前記音声情報に基づいて、前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出部と、前記空間音圧分布検出部によって検出された前記空間音圧分布に基づいて、前記空間内における点音源を検出する点音源検出部と、前記点音源検出部によって前記点音源が検出された場合、前記音声情報取得部によって取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御部とを備える。
 この構成によれば、点音源が検出された場合、取得された音声情報に対して音声認識処理が行われ、点音源が検出されない場合、音声認識処理が行われないので、音声認識処理を行うか否かを容易に判断することができるとともに、安価な構成で音声認識の誤動作を防止することができる。
 なお、開示を実施するための形態の項においてなされた具体的な実施態様または実施例は、あくまでも、本開示の技術内容を明らかにするものであって、そのような具体例にのみ限定して狭義に解釈されるべきものではなく、本開示の精神と特許請求事項との範囲内で、種々変更して実施することができるものである。
 本開示に係る音声認識方法及び音声認識装置は、安価な構成で音声認識の誤動作を防止することができ、機器を動作させるための音声を認識する音声認識方法及び音声認識装置として有用である。
 1 機器
 11 通信部
 12 制御部
 13 メモリ
 14 マイクロフォン
 15 スピーカ
 16 表示部
 100 音声認識部
 201 音声取得部
 202 空間音圧分布検出部
 203 点音源検出部
 204 音声認識制御部
 205 音声認識処理部

Claims (15)

  1.  機器を動作させるための音声を認識する音声認識方法であって、
     所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得ステップと、
     前記音声情報取得ステップにおいて取得された前記音声情報に基づいて、前記空間内における点音源を検出する点音源検出ステップと、
     前記点音源検出ステップにおいて前記点音源が検出された場合、前記音声情報取得ステップにおいて取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御ステップとを含むことを特徴とする音声認識方法。
  2.  前記音声情報に基づいて前記空間内における音圧の分布を示す空間音圧分布を検出する空間音圧分布検出ステップをさらに含み、
     前記点音源検出ステップでは、前記空間音圧分布に基づいて前記点音源を検出する、
    請求項1に記載の音声認識方法。
  3. 前記空間音圧分布検出ステップにて検出する前記空間音圧分布は、所定角度ごとの音圧分布であり、
    前記点音源検出ステップでは前記音圧分布のうち、前記音声情報における音圧の大きさが所定の閾値よりも高い、一または複数の音源の角度範囲を特定し、
    特定した前記音源の角度範囲の幅が所定の幅以下である音源を、点音源として特定する、
    請求項2に記載の音声認識方法。
  4.  前記音声認識制御ステップは、前記空間音圧分布に基づいて、前記マイクロフォンから所定の角度内の領域において検出された音源に対しては音声認識処理を行うと判断し、前記マイクロフォンから所定の角度外の領域において検出された音源に対しては音声認識処理を行わないと判断する、
    請求項3に記載の音声認識方法。
  5.  前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップをさらに含み、
     前記音声認識制御ステップは、前記点音源の位置と前記機器との距離が所定の距離より近い場合、前記音声認識処理を行うと判断し、前記点音源の位置と前記機器との距離が所定の距離以上である場合、前記音声認識処理を行わないと判断することを特徴とする請求項1~4のいずれかに記載の音声認識方法。
  6.  前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御する指向性制御ステップをさらに含むことを特徴とする請求項5記載の音声認識方法。
  7.  スピーカから出力される出力音声情報を生成する出力音声生成ステップと、
     前記出力音声生成ステップにおいて生成された前記出力音声情報を出力音声として前記スピーカから出力する音声出力ステップと、
     前記出力音声生成ステップにおいて生成された前記出力音声情報を取得し、前記音声情報取得ステップにおいて取得された前記音声情報から、取得した前記出力音声情報をエコー成分として除去するエコー除去ステップとを含むことを特徴とする請求項1~6のいずれかに記載の音声認識方法。
  8.  前記点音源検出ステップにおいて前記点音源が検出された場合、検出された前記点音源の前記空間内における位置を特定する位置特定ステップと、
     前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含むことを特徴とする請求項1記載の音声認識方法。
  9.  前記音声認識制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記音声認識処理を行うと判断し、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定されない場合、前記音声認識処理を行わないと判断することを特徴とする請求項8記載の音声認識方法。
  10.  前記位置特定ステップにおいて位置が特定された前記点音源のうち、発せられた音声が前記マイクロフォンに直接到来する直接到来点音源を特定する直接到来点音源特定ステップをさらに含み、
     前記指向性制御ステップは、前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記位置特定ステップにおいて特定された前記点音源の位置に向けて前記マイクロフォンの指向性の方向を制御することを特徴とする請求項6記載の音声認識方法。
  11.  前記直接到来点音源特定ステップにおいて前記直接到来点音源が特定された場合、前記直接到来した音声が人間によって発話された音声であるか否かを識別する音声識別ステップをさらに含み、
     前記音声認識制御ステップは、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声であると識別された場合、前記音声認識処理を行うと判断し、前記音声識別ステップにおいて前記直接到来した音声が人間によって発話された音声ではないと識別された場合、前記音声認識処理を行わないと判断することを特徴とする請求項8記載の音声認識方法。
  12.  前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合、前記音声認識処理に用いられる複数の単語を予め記憶する記憶部から、前記機器の操作に関する少なくとも1つの単語を読み出し、読み出した前記少なくとも1つの単語を表示部に表示する音声認識単語表示ステップをさらに含むことを特徴とする請求項1~11のいずれかに記載の音声認識方法。
  13.  前記音声認識制御ステップにおいて前記音声認識処理を行うと判断された場合の表示部の輝度を、前記音声認識制御ステップにおいて前記音声認識処理を行わないと判断された場合の表示部の輝度よりも向上させる輝度制御ステップをさらに含むことを特徴とする請求項1~12のいずれかに記載の音声認識方法。
  14.  前記音声認識制御ステップにおける前記音声認識処理を行うか否かの判断に応じたアニメーション画像を表示部に表示するアニメーション画像表示ステップをさらに含むことを特徴とする請求項1~13のいずれかに記載の音声認識方法。
  15.  機器を動作させるための音声を認識する音声認識装置であって、
     所定の空間に配置されたマイクロフォンから音声情報を取得する音声情報取得部と、
     前記音声情報取得部によって取得された前記音声情報に基づいて、前記空間内における点音源を検出する点音源検出部と、
     前記点音源検出部によって前記点音源が検出された場合、前記音声情報取得部によって取得された前記音声情報に対して音声認識処理を行うと判断する音声認識制御部とを備えることを特徴とする音声認識装置。
PCT/JP2014/003459 2013-08-29 2014-06-30 音声認識方法及び音声認識装置 WO2015029296A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2015533945A JP6433903B2 (ja) 2013-08-29 2014-06-30 音声認識方法及び音声認識装置
US14/923,912 US9818403B2 (en) 2013-08-29 2015-10-27 Speech recognition method and speech recognition device

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201361871544P 2013-08-29 2013-08-29
US61/871,544 2013-08-29
US201361910193P 2013-11-29 2013-11-29
US61/910,193 2013-11-29

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/923,912 Continuation US9818403B2 (en) 2013-08-29 2015-10-27 Speech recognition method and speech recognition device

Publications (1)

Publication Number Publication Date
WO2015029296A1 true WO2015029296A1 (ja) 2015-03-05

Family

ID=52585896

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2014/003459 WO2015029296A1 (ja) 2013-08-29 2014-06-30 音声認識方法及び音声認識装置

Country Status (3)

Country Link
US (1) US9818403B2 (ja)
JP (1) JP6433903B2 (ja)
WO (1) WO2015029296A1 (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180542A (ja) * 2017-04-14 2018-11-15 ネイバー コーポレーションNAVER Corporation ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2020080062A (ja) * 2018-11-13 2020-05-28 シャープ株式会社 情報処理装置、制御方法及びプログラム
CN111383634A (zh) * 2018-12-28 2020-07-07 百度(美国)有限责任公司 根据基于声音的机制停用智能显示设备的显示器的方法及系统
JP2021520141A (ja) * 2018-04-13 2021-08-12 ボーズ・コーポレーションBose Corporation マイクロフォンアレイ内のインテリジェントビームステアリング
US11325605B2 (en) * 2019-03-27 2022-05-10 Honda Motor Co., Ltd. Information providing device, information providing method, and storage medium

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10825469B2 (en) * 2017-07-19 2020-11-03 Insoundz Ltd. System and method for voice activity detection and generation of characteristics respective thereof
EP3467819B1 (en) * 2017-10-05 2024-06-12 Harman Becker Automotive Systems GmbH Apparatus and method using multiple voice command devices
CN108377605A (zh) * 2018-04-03 2018-08-07 海盐瑞科光电科技有限公司 一种浴室语音控制智能开关
CN110931041B (zh) * 2019-11-21 2022-08-30 北京地平线机器人技术研发有限公司 一种声源确定方法及装置
US12087283B2 (en) 2020-11-12 2024-09-10 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20220064768A (ko) * 2020-11-12 2022-05-19 삼성전자주식회사 전자 장치 및 이의 제어 방법

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JP2002034092A (ja) * 2000-07-17 2002-01-31 Sharp Corp 収音装置
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
JP2006058395A (ja) * 2004-08-17 2006-03-02 Spectra:Kk 音響信号入出力装置
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
WO2012058229A1 (en) * 2010-10-25 2012-05-03 Qualcomm Incorporated Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0764595A (ja) 1993-08-27 1995-03-10 Toshiba Corp 音声認識装置
JPH1115490A (ja) * 1997-06-23 1999-01-22 Hitachi Microcomput Syst Ltd マイクロフォン装置および音声認識システム
JP3514714B2 (ja) * 2000-08-21 2004-03-31 日本電信電話株式会社 収音方法およびその装置
JP2003044089A (ja) * 2001-07-26 2003-02-14 Matsushita Electric Works Ltd 音声認識装置及び音声認識方法
US20090055180A1 (en) * 2007-08-23 2009-02-26 Coon Bradley S System and method for optimizing speech recognition in a vehicle
US8249867B2 (en) * 2007-12-11 2012-08-21 Electronics And Telecommunications Research Institute Microphone array based speech recognition system and target speech extracting method of the system
JP4982807B2 (ja) * 2008-03-06 2012-07-25 独立行政法人産業技術総合研究所 操作方法およびそのための操作装置、プログラム
JP5452158B2 (ja) * 2009-10-07 2014-03-26 株式会社日立製作所 音響監視システム、及び音声集音システム
JP2011227199A (ja) * 2010-04-16 2011-11-10 Nec Casio Mobile Communications Ltd 雑音抑圧装置、雑音抑圧方法及びプログラム
JP5158174B2 (ja) * 2010-10-25 2013-03-06 株式会社デンソー 音声認識装置
KR20130133629A (ko) * 2012-05-29 2013-12-09 삼성전자주식회사 전자장치에서 음성명령을 실행시키기 위한 장치 및 방법
US9847082B2 (en) * 2013-08-23 2017-12-19 Honeywell International Inc. System for modifying speech recognition and beamforming using a depth image

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH09251299A (ja) * 1996-03-15 1997-09-22 Toshiba Corp マイクロホンアレイ入力型音声認識装置及び方法
JP2002034092A (ja) * 2000-07-17 2002-01-31 Sharp Corp 収音装置
WO2005048239A1 (ja) * 2003-11-12 2005-05-26 Honda Motor Co., Ltd. 音声認識装置
JP2006058395A (ja) * 2004-08-17 2006-03-02 Spectra:Kk 音響信号入出力装置
JP2008092193A (ja) * 2006-09-29 2008-04-17 Japan Science & Technology Agency 音源選択装置
JP2009071510A (ja) * 2007-09-12 2009-04-02 National Institute Of Advanced Industrial & Technology 点音源検出方法
JP2010217754A (ja) * 2009-03-18 2010-09-30 Toshiba Corp 音声入力装置、音声認識システム及び音声認識方法
WO2012058229A1 (en) * 2010-10-25 2012-05-03 Qualcomm Incorporated Method, apparatus and machine-readable storage medium for decomposing a multichannel audio signal

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YOKO SASAKI ET AL.: "Point Sound Source Detection using the Main-Lobe Model of a Microphone Array", JOURNAL OF THE ROBOTICS SOCIETY OF JAPAN, vol. 27, no. 3, 15 April 2009 (2009-04-15), pages 325 - 333 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180542A (ja) * 2017-04-14 2018-11-15 ネイバー コーポレーションNAVER Corporation ネットワークに連結した音響機器とのマルチモーダルインタラクション方法およびシステム
JP7119117B2 (ja) 2018-04-13 2022-08-16 ボーズ・コーポレーション マイクロフォンアレイ内のインテリジェントビームステアリング
JP2021520141A (ja) * 2018-04-13 2021-08-12 ボーズ・コーポレーションBose Corporation マイクロフォンアレイ内のインテリジェントビームステアリング
WO2019202966A1 (ja) * 2018-04-16 2019-10-24 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP7279710B2 (ja) 2018-04-16 2023-05-23 ソニーグループ株式会社 信号処理装置および方法、並びにプログラム
JPWO2019202966A1 (ja) * 2018-04-16 2021-04-22 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP2020080062A (ja) * 2018-11-13 2020-05-28 シャープ株式会社 情報処理装置、制御方法及びプログラム
JP7193312B2 (ja) 2018-11-13 2022-12-20 シャープ株式会社 情報処理装置、制御方法及びプログラム
CN111383634A (zh) * 2018-12-28 2020-07-07 百度(美国)有限责任公司 根据基于声音的机制停用智能显示设备的显示器的方法及系统
JP7190982B2 (ja) 2018-12-28 2022-12-16 バイドゥ ユーエスエイ エルエルシー 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム
JP2020109608A (ja) * 2018-12-28 2020-07-16 バイドゥ・ユーエスエイ・リミテッド・ライアビリティ・カンパニーBaidu USA LLC 音声ベースのメカニズムに基づくスマート表示装置のディスプレイ停止の方法及びシステム
CN111383634B (zh) * 2018-12-28 2024-04-02 百度(美国)有限责任公司 根据基于声音的机制停用智能显示设备的显示器的方法及系统
US11325605B2 (en) * 2019-03-27 2022-05-10 Honda Motor Co., Ltd. Information providing device, information providing method, and storage medium

Also Published As

Publication number Publication date
US9818403B2 (en) 2017-11-14
JPWO2015029296A1 (ja) 2017-03-02
US20160049150A1 (en) 2016-02-18
JP6433903B2 (ja) 2018-12-05

Similar Documents

Publication Publication Date Title
WO2015029296A1 (ja) 音声認識方法及び音声認識装置
US9939896B2 (en) Input determination method
US10075791B2 (en) Networked speaker system with LED-based wireless communication and room mapping
US11348581B2 (en) Multi-modal user interface
EP3413303B1 (en) Information processing device, information processing method, and program
US9854362B1 (en) Networked speaker system with LED-based wireless communication and object detection
KR102469753B1 (ko) 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US20050234729A1 (en) Mobile unit and method of controlling a mobile unit
CN107205202B (zh) 用于产生音频的系统、方法和设备
CN108292504A (zh) 基于位置信息来确定音频事件
JP2005284492A (ja) 音声利用操作装置
KR20180042376A (ko) 응답을 제공하기 위한 디바이스 선택
KR102115222B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP6675527B2 (ja) 音声入出力装置
US9924286B1 (en) Networked speaker system with LED-based wireless communication and personal identifier
US10616684B2 (en) Environmental sensing for a unique portable speaker listening experience
JP6678315B2 (ja) 音声再生方法、音声対話装置及び音声対話プログラム
JP6719434B2 (ja) 機器制御装置、機器制御方法及び機器制御システム
KR102136461B1 (ko) 스마트 디바이스 및 그 제어 방법
KR102168812B1 (ko) 사운드를 제어하는 전자 장치 및 그 동작 방법
JP6842489B2 (ja) 電子機器、制御方法およびプログラム
KR20210071664A (ko) 전자장치 및 그 제어방법
KR102632388B1 (ko) 전자장치 및 그 제어방법
KR20200012406A (ko) 스마트 디바이스 및 그 제어 방법
US11789525B1 (en) Multi-modal interactive apparatus

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14840978

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2015533945

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14840978

Country of ref document: EP

Kind code of ref document: A1