WO2012096074A1 - 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム - Google Patents

音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム Download PDF

Info

Publication number
WO2012096074A1
WO2012096074A1 PCT/JP2011/077997 JP2011077997W WO2012096074A1 WO 2012096074 A1 WO2012096074 A1 WO 2012096074A1 JP 2011077997 W JP2011077997 W JP 2011077997W WO 2012096074 A1 WO2012096074 A1 WO 2012096074A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphone
noise
mixed
sound
signal
Prior art date
Application number
PCT/JP2011/077997
Other languages
English (en)
French (fr)
Inventor
隆行 荒川
昭彦 杉山
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2012552643A priority Critical patent/JP5939161B2/ja
Priority to US13/979,596 priority patent/US9299360B2/en
Publication of WO2012096074A1 publication Critical patent/WO2012096074A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/34Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means
    • H04R1/342Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by using a single transducer with sound reflecting, diffracting, directing or guiding means for microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2410/00Microphones
    • H04R2410/05Noise reduction with a separate noise microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Definitions

  • the present invention relates to a technique for acquiring pseudo sound from mixed sound in which desired sound and noise are mixed.
  • Patent Document 1 discloses a technique for suppressing noise from outside the vehicle with respect to the sound inside the vehicle.
  • the outside noise is suppressed using an adaptive filter based on the output signal of the microphone that picks up the in-vehicle sound and the output signal of the microphone that picks up the outside noise.
  • Patent Document 2 discloses a technique for clearly collecting a distant sound by combining sound collection using a parabolic reflector and sound collection by a super-directional microphone.
  • Patent Document 1 is intended to suppress noise in a sound space (here, outside the vehicle) different from the sound space in which the desired sound exists. For this reason, it has been impossible to suppress noise generated from a plurality of noise sources in a sound space where a desired voice exists.
  • the noise input microphone needs to input noise from as wide a range as possible in the sound space. 1 has no ingenuity for collecting a wide range of noise.
  • a parabolic reflector is used to pick up the sound at the focal point. However, the sound is picked up by a desired sound for clearly picking up sound from a distance by cooperation with a super-directional microphone. It is not intended to pick up noise.
  • An object of the present invention is to provide a technique for solving the above-described problems.
  • an apparatus provides: A first microphone that inputs a first mixed sound in which desired voice and noise are mixed and outputs a first mixed signal;
  • the boundary surface is open to the same sound space as the first microphone, and is disposed at a focal position of a boundary surface that is a quadric surface that forms part of the boundary of the sound space or a pseudo curved surface that approximates a quadric surface.
  • the second mixed signal is inputted by inputting a second mixed sound including the desired voice reflected by the noise and the noise reflected by the boundary surface in which the desired voice and the noise are mixed at a rate different from that of the first mixed sound.
  • a second microphone that outputs A noise suppression circuit that suppresses an estimated noise signal based on the first mixed signal and the second mixed signal and outputs a pseudo voice signal; It is characterized by providing.
  • an apparatus provides: A vehicle equipped with the voice processing device, The first microphone is arranged at a position where a first mixed sound including a voice uttered by an occupant in the vehicle that is the sound space is input, The second microphone is arranged at a position where noise generated from a noise source in the vehicle is reflected by the boundary surface of the vehicle and collected by the second microphone.
  • an apparatus provided with the voice processing apparatus,
  • the first microphone is disposed at a position of the information processing apparatus where a first mixed sound including a desired voice uttered by an operator is input.
  • the second microphone is arranged at a position where noise generated from a noise source in the room using the information processing apparatus is reflected by a wall and collected by the second microphone.
  • a system comprising the audio processing device according to any one of claims 1 to 7, A speech recognition device for recognizing a desired speech from the pseudo speech signal output by the speech processing device; An information processing device that processes information according to a desired voice recognized by the voice recognition device; It is characterized by providing.
  • the method according to the present invention comprises: A first microphone that inputs a first mixed sound in which desired voice and noise are mixed and outputs a first mixed signal; A second microphone that is open to the same sound space as the first microphone, inputs a second mixed sound in which the desired sound and the noise are mixed at a different ratio from the first mixed sound, and outputs a second mixed signal.
  • a noise suppression circuit that suppresses an estimated noise signal based on the first mixed signal and the second mixed signal and outputs a pseudo voice signal;
  • a method for controlling a speech processing apparatus comprising: Obtaining parameters of the noise suppression circuit; According to the parameters of the noise suppression circuit, the position of the second microphone is a focal position of a quadric surface that forms a part of the boundary of the sound space or a pseudo curved surface that approximates a quadric surface. And notifying whether or not it is a position for collecting noise generated inside the sound space; It is characterized by including.
  • a storage medium provides: A first microphone that inputs a first mixed sound in which desired voice and noise are mixed and outputs a first mixed signal; A second microphone that is open to the same sound space as the first microphone, inputs a second mixed sound in which the desired sound and the noise are mixed at a different ratio from the first mixed sound, and outputs a second mixed signal.
  • a noise suppression circuit that suppresses an estimated noise signal based on the first mixed signal and the second mixed signal and outputs a pseudo voice signal
  • a storage medium for storing a control program of a voice processing device comprising: Obtaining parameters of the noise suppression circuit; According to the parameters of the noise suppression circuit, the position of the second microphone is a focal position of a quadric surface that forms a part of the boundary of the sound space or a pseudo curved surface that approximates a quadric surface. And notifying whether or not it is a position for collecting noise generated inside the sound space; A control program for causing a computer to execute is stored.
  • the present invention by collecting noise from a plurality of noise sources including an echo of a desired voice uttered by a speaker in the same sound space in which desired voice and noise from a plurality of noise sources are mixed, The pseudo sound close to the desired sound can be restored by accurately estimating the noise.
  • the audio processing device 100 includes a first microphone 101, a second microphone 103, and a noise suppression circuit 106.
  • the first microphone 101 inputs a first mixed sound 108 in which desired voice and noise are mixed and outputs a first mixed signal 102.
  • the second microphone 103 is open to the same sound space 110 as the first microphone 101, and the focal point of the boundary surface of the quadric surface shape 111 forming a part of the boundary of the sound space 110 or the pseudo curved surface shape 112 approximating the quadric surface. Placed in position.
  • the second mixed sound 109 including the desired sound 121 reflected on the boundary surface and the noise 122 reflected on the boundary surface and mixed with the desired sound and noise at a different ratio from the first mixed sound 108 is input,
  • the second mixed signal 104 is output.
  • the noise suppression circuit 106 suppresses the estimated noise signal based on the first mixed signal 102 and the second mixed signal 104 and outputs a pseudo audio signal 107.
  • the present embodiment by collecting noise from a plurality of noise sources including echoes of the desired speech uttered by the speaker in the same sound space where the desired speech and noise from the plurality of noise sources are mixed. Then, it is possible to accurately estimate the noise and restore the pseudo voice close to the desired voice.
  • the second embodiment is an example in which the sound processing device of the present invention is applied to a vehicle as an information processing system, and noise is accurately estimated in a sound space inside the vehicle to restore a pseudo sound close to a desired sound.
  • the first microphone and the second microphone are arranged on the dashboard as an integrated voice input unit. According to this embodiment, even if there are a plurality of noise sources inside the vehicle, the noise can be collected over a wide range by the second microphone, so that the noise can be accurately estimated to restore the pseudo sound close to the desired sound. Can do. Furthermore, it is possible to suppress the echo of the desired voice uttered by the speaker.
  • FIG. 2 is a block diagram illustrating a configuration of a voice processing system 200 including the voice processing apparatus according to the present embodiment.
  • the sound processing apparatus includes a first microphone 201, a second microphone 203, a microphone support member 205, and a noise suppression circuit 206.
  • the voice processing system 200 includes a voice processing device, a voice recognition device 208, and a car navigation device 209.
  • the microphone support member 205 is preferably a sound insulator, and the first microphone 201, the second microphone 203, and the microphone support member 205 may be provided as an integrated audio input unit.
  • the surface of the sound insulator is preferably a hard material, but the inside of the sound insulator is preferably a soft material. Since hard materials are easy to reflect sound, using hard materials on the surface of the sound insulation can collect sound reflected directly by the sound insulation in addition to the sound directly entering the microphone. Since a soft material is easy to absorb sound, unnecessary penetration of sound can be prevented by using a soft material on the inner surface of the sound insulator. Moreover, it is better that the material on the surface on the first microphone side and the material on the surface on the second microphone side are separated without a continuous structure. If the structure is continuous, the sound propagates through the surface material and penetrates the sound insulation, so it has a three-layer structure, and a soft material is sandwiched between the hard materials on both surfaces. It is desirable that
  • a sound space 210 is a space in the vehicle.
  • a part of the sound space 210 in FIG. 2 is defined by the windshield 230 and the ceiling 240.
  • the configuration and operation of the second embodiment will be described by taking as an example a case where the occupant 220 operates the car navigation device 209 by voice in a sound space 210 in which noise from a plurality of noise sources such as an air conditioner is mixed. . It is assumed that the air conditioner is in the dashboard 216.
  • the noise source is not limited to the air conditioner, and other devices and other occupants arranged at other positions are also noise sources.
  • the voice of the passenger 220 is not limited to the operation of the car navigation device 209.
  • the first microphone 201, the second microphone 203, and the microphone support member 205 are disposed on the dashboard 216 in the front of the vehicle.
  • the first microphone 201 is disposed at a portion of the microphone support member 205 attached to the dashboard 216
  • the second microphone is disposed at a portion protruding from the dashboard 216 at an acute angle into the vehicle interior.
  • the angle of the projection of the microphone support member 205 is selected according to the structure in the car, the shape and position of the windshield, the structure and position of the dashboard, the seat position, the height of the passenger, the position of the noise source, etc. It is not limited to an acute angle.
  • the microphone support member 205 is desirably located at a position where the voice uttered by the occupant 220 can be collected.
  • the position of the first microphone 201 is not limited to this example.
  • the second microphone 203 is attached to a position where the reflected noise 213 by the windshield 230 of noise from the air conditioner of the dashboard 216 and other noise sources in the vehicle is input. That is, the second microphone 203 is attached so as to be arranged at the focal position of a quadric surface formed by the windshield 230 or a pseudo-curved surface that approximates the quadratic surface.
  • the reflected noise 213 includes a reflected voice of the voice uttered by the occupant 220.
  • the reflected sound reflected from the target sound source by the wall or glass the sound that is delayed for a certain period of time (for example, 20 milliseconds or more) compared to the direct sound has an adverse effect on the speech recognition. It is necessary to suppress it.
  • the voice reflected by the wall or glass is uniformly suppressed as noise, not only the noise source but also the echo of the voice uttered by such an occupant can be suppressed.
  • the microphone support member 205 blocks the input of air propagation noise from the air conditioner or the like to the first microphone 201. At the same time, the microphone support member 205 blocks the input of the air propagation sound 211 uttered by the occupant 220 to the second microphone 203. For this reason, the voice uttered by the occupant 220 is mainly input to the first microphone 201, and the reflected noise of the noise generated by a plurality of noise sources including the echo of the voice uttered by the occupant is input to the second microphone 203. 213 is mainly input.
  • the microphone support member 205 does not form a closed space, air propagation noise 214 that has entered the microphone support member 205 is mixed into the first microphone 201. Further, the air propagation sound 212 that has entered the microphone support member 205 is mixed into the second microphone 203.
  • the first microphone 201 converts the first mixed sound in which the air propagation sound 211 and the circulated air propagation noise 214 are mixed into the first mixed signal 202 in which the sound signal and the noise signal are mixed, and a noise suppression circuit. 206.
  • the second microphone 203 receives the second mixed sound in which the reflected noise 213 and the circulated air propagation sound 212 are mixed at a different rate from the first mixed sound.
  • the second microphone 203 converts the second mixed sound into a second mixed signal 204 in which an audio signal and a noise signal are mixed at a different ratio from the first mixed signal, and transmits the second mixed signal 204 to the noise suppression circuit 206.
  • the noise suppression circuit 206 outputs a pseudo audio signal 207 based on the transmitted first mixed signal 202 and second mixed signal 204.
  • the pseudo voice signal 207 is recognized by the voice recognition device 208 and is processed as a voice operation by the occupant 220 in the car navigation device 209.
  • the sound indicating the operation to the car navigation device 209 uttered by the occupant 220 is different between the first microphone 201 and the second microphone 203. Input as mixed sound with mixed ratio. Then, based on the first mixed signal from the first microphone 201 and the second mixed signal from the second microphone 203, the pseudo voice signal is restored by the noise suppression circuit 206, and the restored pseudo voice signal is recognized by the voice recognition. Recognized at device 208.
  • the car navigation device 209 is operated by the recognized voice.
  • a signal line for transmitting the first and second mixed signals 202 and 204 may transmit a return signal such as a ground power source and a power source for operating the microphone.
  • the noise suppression circuit 206 may be attached to the microphone support member 205.
  • the pseudo voice signal is transmitted from the noise suppression circuit 206 to the voice recognition device 208 through the signal line.
  • voice recognition and car navigation are described.
  • the present invention is not limited to this, and accurate restoration of the voice uttered by the occupant 220 is also useful in other processes. For example, it can be applied to a car phone or a vehicle operation that does not directly lead to driving.
  • FIG. 3 is used for the quadric surface
  • FIG. 4 is used for a pseudo-surface approximating the quadratic surface.
  • 3 and 4 illustrate ideal quadratic curved surfaces and pseudo curved surfaces, but in the vehicle sound space, curved surfaces similar to the quadric curved surfaces and pseudo curved surfaces such as the windshield of FIG. 2 are used. .
  • FIG. 3 is a diagram for explaining noise collection on the second microphone 203 by the windshield 230 having a quadric surface according to the present embodiment.
  • the line segments indicated by 306 and 308 are tangent lines of the quadric surface 305.
  • Noise 321 from a plurality of noise sources is reflected at the same angles ⁇ 1 and ⁇ 2 with respect to normals 307 and 309 perpendicular to the line segments 306 and 308 at the point of contact with the quadric surface 305, respectively.
  • the desired sound 311 from the sound source is similarly reflected.
  • the plurality of noises 321 and the desired sound 311 are collected by the second microphone 203 located at the focal point of the secondary curved surface 305.
  • FIG. 4 is a diagram for explaining noise collection to the second microphone 203 when the pseudo curved surface 405 according to the present embodiment is provided.
  • the pseudo curved surface 405 is a set of planes extending in the tangential direction of the quadric curved surface 305.
  • the line segments indicated by 406 and 408 are the surface of the pseudo curved surface 405.
  • noise 421 from multiple noise sources reflects at the same angles ⁇ 1 and ⁇ 2.
  • the desired sound 411 from the sound source is similarly reflected.
  • the plurality of noises 421 and the desired sound 411 are collected by the second microphone 203 located at the focal point of the pseudo curved surface 405 of the secondary curved surface 305.
  • FIG. 5 is a diagram showing a configuration of the noise suppression circuit 206 according to the present embodiment.
  • the noise suppression circuit 206 includes a subtracter 501 that subtracts the estimated noise signal Y1 estimated to be mixed in the first mixed signal 202 from the first mixed signal 202.
  • a subtracter 503 that subtracts the estimated audio signal Y2 estimated to be mixed in the second mixed signal 204 from the second mixed signal 204 is provided.
  • it has an adaptive filter NF502 that is an estimated noise signal generation unit that generates the estimated noise signal Y1 from the pseudo noise signal E2 that is the output signal of the subtractor 503.
  • an adaptive filter XF504 which is an estimated audio signal generation unit that generates the estimated audio signal Y2 from the pseudo audio signal E1 (207) that is the output signal of the subtractor 503, is provided.
  • a specific example of the adaptive filter XF504 is described in International Publication No. 2005/024787. Even when the target sound wraps around and is input to the second microphone 203 and the sound signal is mixed in the second mixed signal 204, the adaptive filter XF 504 uses the subtractor 501 to convert the sound signal of the wraparound sound into the first mixed signal. It is possible to prevent accidental removal from 202.
  • the subtractor 501 subtracts the estimated noise signal Y1 from the first mixed signal 202 transmitted from the first microphone 201, and outputs a pseudo audio signal E1 (207).
  • the estimated noise signal Y1 is generated by the adaptive filter NF502 using a parameter that changes the pseudo noise signal E2 based on the pseudo audio signal E1 (207).
  • the pseudo noise signal E2 is a signal obtained by subtracting the estimated audio signal Y2 by the subtractor 503 from the second mixed signal 204 transmitted from the second microphone 203 through the signal line.
  • the estimated sound signal Y2 is generated by the adaptive filter XF504 using parameters that change the pseudo sound signal E1 (207) based on the estimated sound signal Y2.
  • the noise suppression circuit 206 may be an analog circuit, a digital circuit, or a mixed circuit thereof. If the noise suppression circuit 206 is an analog circuit, the pseudo audio signal E1 (207) is converted into a digital signal by an A / D converter when used for digital control. On the other hand, if the noise suppression circuit 206 is a digital circuit, the signal from the microphone is converted into a digital signal by the A / D converter before entering the noise suppression circuit 206.
  • the subtracters 501 and 503 may be configured by analog circuits
  • the adaptive filter NF 502 and the adaptive filter XF 504 may be configured by analog circuits controlled by the digital circuit. Conceivable. Further, the noise suppression circuit 206 in FIG.
  • the adaptive filter XF 504 of FIG. 5 can be replaced with a circuit that outputs a constant level in order to filter the spread sound.
  • the subtracters 501 and / or 503 can be replaced with an integrator by representing the estimated noise signal Y1 and the estimated speech signal Y2 by coefficients that are integrated with the first mixed signal 202 and the second mixed signal 204, respectively. is there.
  • the voice input unit in which the first microphone and the second microphone are integrated is arranged on the dashboard.
  • the noise reflected by the windshield cannot always collect the vehicle interior noise.
  • the second microphone is separated from the first microphone and the rear tray panel is arranged.
  • FIG. 6 is a block diagram showing a configuration of a speech processing system 600 provided with the speech processing apparatus according to the present embodiment.
  • the speech processing apparatus includes a first microphone 201 (not shown), a first microphone support member (not shown), a second microphone 603, a second microphone support member 605, and noise suppression.
  • Circuit 206 (similar to FIG. 2).
  • the voice processing system 200 includes a voice processing device, and a voice recognition device 208 and a car navigation device 209 as in FIG.
  • the second microphone support member 605 is preferably a sound insulator.
  • a sound space 210 is a space in the vehicle.
  • a part of the sound space 210 in FIG. 6 is defined by a ceiling 240 and a rear glass 650.
  • the configuration and operation of the third embodiment will be described by taking as an example a case where the occupant 220 operates the car navigation device 209 by voice in the sound space 210 in which noises from a plurality of noise sources are mixed. Assume that the rear tray panel 616 has one of noise sources. Further, the voice of the passenger 220 is not limited to the operation of the car navigation device 209.
  • the second microphone 603 and the second microphone support member 605 are disposed on the rear tray panel 616 at the rear in the vehicle.
  • a second microphone 603 is disposed on a portion of the second microphone support member 605 attached to the rear tray panel 616.
  • the angle of the protrusion of the second microphone support member 605 may be an appropriate angle depending on the structure in the vehicle, the shape and position of the rear glass, the structure and position of the rear tray panel, the seat position, the height of the occupant, the position of the noise source, and the like. Selected.
  • the arrangement of the first microphone and the first microphone support member is not limited as long as it is a position where the voice uttered by the occupant 220 can be collected.
  • the second microphone 603 is attached at a position where the reflected noise 613 by the rear glass 650 of noise from the noise source of the rear tray panel 616 and other noise sources in the vehicle is input. That is, the second microphone 603 is attached so as to be arranged at the focal position of a quadratic curved surface formed by the rear glass 650 or a pseudo curved surface approximating the quadratic curved surface.
  • the reflected noise 613 includes a reflected sound of the voice uttered by the occupant 220.
  • the reflected sound reflected from the target sound source by the wall or glass the sound that is delayed for a certain period of time (for example, 20 milliseconds or more) compared to the direct sound has an adverse effect on the speech recognition. It is necessary to suppress it.
  • the voice reflected by the wall or glass is uniformly suppressed as noise, not only the noise source but also the echo of the voice uttered by such an occupant can be suppressed.
  • the second microphone support member 605 When the second microphone support member 605 is a sound insulator, the second microphone support member 605 blocks in-vehicle noise to the second microphone 603 and direct input of the air propagation sound 611 uttered by the occupant 220. For this reason, the second microphone 603 mainly receives reflected noise 213 of noise generated by a plurality of noise sources, including echoes of voices uttered by the occupant. However, since the second microphone support member 605 does not form a closed space, the air propagation sound 612 that has entered the second microphone support member 605 is mixed into the second microphone 603.
  • the first microphone 201 (not shown) receives the first mixed signal in which the input air propagation sound 211 and the sneak in air propagation noise 214 are mixed, and the first mixed signal in which the sound signal and the noise signal are mixed. 202 is transmitted to the noise suppression circuit 206.
  • the second microphone 603 receives the second mixed sound in which the reflected noise 613 and the circulated air propagation sound 612 are mixed at a different rate from the first mixed sound.
  • the second microphone 603 converts the second mixed sound into a second mixed signal 604 in which an audio signal and a noise signal are mixed at a different ratio from the first mixed signal, and transmits the second mixed signal 604 to the noise suppression circuit 206.
  • the noise suppression circuit 206 outputs the pseudo audio signal 207 based on the transmitted first mixed signal 202 and the second mixed signal 604 equivalent to the second mixed signal 204.
  • the pseudo voice signal 207 is recognized by the voice recognition device 208 and is processed as a voice operation by the occupant 220 in the car navigation device 209.
  • the sound indicating the operation to the car navigation device 209 uttered by the occupant 220 is different between the first microphone 201 and the second microphone 603. Input as mixed sound with mixed ratio. Then, based on the first mixed signal 202 from the first microphone 201 and the second mixed signal 604 from the second microphone 603, the pseudo audio signal is restored by the noise suppression circuit 206, and the restored pseudo audio signal is Recognized by the speech recognition device 208.
  • the car navigation device 209 is operated by the recognized voice.
  • the signal line for transmitting the second mixed signal 604 may transmit a return signal such as a ground power source or a power source for operating the microphone.
  • voice recognition and car navigation are described.
  • the present invention is not limited to this, and accurate restoration of the voice uttered by the occupant 220 is also useful in other processes. For example, it can be applied to a car phone or a vehicle operation that does not directly lead to driving.
  • movement were demonstrated about the vehicle which arrangement
  • an audio processing device for determining an appropriate arrangement of the first microphone and the second microphone, particularly the second microphone, in a vehicle having various structures.
  • the sound processing device can be disposed at a position where noise can be accurately estimated and pseudo sound close to the desired sound can be restored.
  • FIG. 7 is a block diagram illustrating a configuration of a voice processing system including the voice processing device according to the present embodiment.
  • FIG. 7 is a combination of FIGS. 2 and 6, and the second microphone is arranged on the dashboard (see FIG. 2) or the rear tray parel (see FIG. 6), respectively. It is a figure which shows the mode of arrangement position determination. Therefore, the difference from FIGS. 2 and 6 is only the addition of the position determination unit 710, and other detailed description is omitted.
  • the position determination unit 710 acquires the pseudo audio signal 207 and the parameter 707 from the noise suppression circuit 206. Then, information indicating whether or not the current arrangement of the first microphone and the second microphone is a position where noise can be accurately estimated and pseudo sound close to the desired sound can be restored is sent to the voice recognition device 208 or the car navigation device 209. Output. The voice recognition device 208 or the car navigation device 209 notifies whether or not it is a position where noise can be accurately estimated and a pseudo voice close to the desired voice can be restored.
  • FIG. 7 as an example of the microphone arrangement, a state where the voice input unit in which the first microphone 201 and the second microphone 203 are integrated as shown in FIG. 2 is arranged on the dashboard 216 and the second microphone 603 are separated. The state arrange
  • FIG. 8 is a block diagram showing a hardware configuration of the speech processing apparatus 800 according to this embodiment.
  • FIG. 8 shows a voice recognition device 208 and a car navigation device 209 connected to the voice processing device 800.
  • a CPU 810 is a processor for arithmetic control, and realizes a control unit of the speech processing apparatus 800 by executing a program.
  • the ROM 820 stores initial data and fixed data such as programs and programs.
  • the communication control unit 830 exchanges information between the voice processing device 800, the voice recognition device 208, and the car navigation device 209. Such communication may be wired or wireless.
  • the noise suppression circuit 206 is illustrated as a unique functional component, but part or all of the processing of the noise suppression circuit 206 may be realized by processing by the CPU 810.
  • the RAM 840 is a random access memory that the CPU 810 uses as a work area for temporary storage.
  • the RAM 840 has an area for storing data necessary for realizing the present embodiment.
  • Each area stores digital data 841 of a pseudo audio signal 207 that is an output from the noise suppression circuit 206 and a parameter 842 used in the noise suppression circuit 206.
  • the second microphone arrangement position 843 and the microphone position evaluation result 844 that evaluates the noise input to the second microphone from the strength of the voice signal, the ratio of voice to noise, parameters, and the like are stored.
  • the storage 850 is a mass storage device that stores a database, various parameters, and a program executed by the CPU 810 in a nonvolatile manner.
  • the storage 850 stores the following data or programs necessary for realizing the present embodiment.
  • a signal / parameter storage unit 851 that stores the second microphone position, the strength of the voice signal, the ratio of voice to noise, the parameters, and the microphone position evaluation result in association with each other is stored (see FIG. 9).
  • a microphone position evaluation program 852 for evaluating noise input to the second microphones arranged at various positions is stored as a program.
  • the input interface 860 is an interface for inputting control signals and data necessary for control by the CPU 810.
  • the pseudo speech signal 207 that is an output from the noise suppression circuit 206 and the parameters 707 such as the adaptive filter NF 502 and the adaptive filter XF 504 or the estimated noise signal Y1 are input.
  • the parameter 707 is used for position evaluation of the second microphone.
  • FIG. 8 shows only data and programs essential to the present embodiment, and general-purpose data and programs such as OS are not shown. Further, the CPU 810 in FIG. 8 may also use the control of the voice recognition device 208 and the car navigation device 209.
  • FIG. 9 is a diagram showing a configuration of the signal / parameter storage unit 851 according to the present embodiment.
  • the signal / parameter storage unit 851 stores the following information in association with the second microphone position 901.
  • the pseudo audio signal 902, the estimated noise signal 903, the pseudo noise signal 904, the estimated audio signal 905, the parameter 906 of the adaptive filter NF, and the parameter 907 of the adaptive filter XF acquired from the noise suppression circuit 206 are stored.
  • a microphone position evaluation 908 is stored in association with such a condition.
  • “good” represents a position suitable for noise suppression
  • “good” represents a position that is not good, but is not limited to this.
  • FIG. 10 is a flowchart showing a processing procedure of microphone position evaluation according to the present embodiment.
  • the flowchart in FIG. 10 is executed by the CPU 810 in FIG. 8 using the RAM 840, and implements the position determination unit 710 in FIG.
  • This flowchart is executed at the time of initialization or at the timing of installation or removal of a new device. It may also be executed when the speech recognition of the speech recognition device becomes defective or when it is determined that the noise input has become smaller from the parameters of the pseudo noise signal E2 and the adaptive filter NF in the noise suppression circuit. .
  • step S1001 it is determined whether or not to start evaluating the position of the second microphone. If the first microphone and the second microphone are arranged and the noise input measurement of the second microphone is started, parameters are acquired from the noise suppression circuit 206 in step S1003. In step S ⁇ b> 1005, the position of the second microphone is evaluated based on the pseudo audio signal and parameters from the noise suppression circuit 206. Subsequently, in step S1007, the position evaluation result of the second microphone is stored in association with the second microphone position.
  • step S1009 it is determined whether or not the evaluation of the position where the first microphone and the second microphone can be arranged has been completed. If there is no instruction to end the measurement, the process returns to step S1001, waits for the next arrangement of the first microphone and the second microphone, and repeats the processes of steps S1003 to S1007. If there is an instruction to end the measurement, the most desirable position or the information at that time is output to the voice recognition device 208 or the car navigation device 209 from the position evaluation results of the second microphone accumulated so far.
  • FIG. 11 is a block diagram showing a configuration including a notebook PC 1130 which is a voice processing system 1100 provided with a voice processing device according to the present embodiment.
  • description of the original function of the notebook PC is omitted, and a configuration related to sound collection on the first microphone 1101 and the second microphone 1103, which is a feature of the present embodiment, will be described.
  • the notebook PC 1130 includes a display unit having a display screen and a keyboard unit including a keyboard.
  • a first microphone 1101 and a second microphone 1103 are arranged on the display unit.
  • the first microphone 1101 is disposed on the operator side of the display unit, and the second microphone 1103 is disposed on the opposite side of the display unit operator.
  • the first microphone 1101 may be in the keyboard portion.
  • the first microphone 1101 receives the first mixed sound in which the voice 1111 uttered by the operator 1121 and the circulated air propagation noise (not shown) are mixed.
  • the first microphone 1101 converts the first mixed sound into a first mixed signal in which an audio signal and a noise signal are mixed, and transmits the first mixed signal to a noise suppression circuit 206 (not shown).
  • second microphone 1103 has a second mixed sound in which reflected noise 1113 and wraparound sound 1112 reflected by quadratic curved surface 1120 or a pseudo-surface approximating the quadratic curved surface are mixed at a different rate from the first mixed sound. Entered.
  • the reflected noise 1113 includes an echo reflected from the quadric surface 1120 of the voice generated by the operator 1121 and a reflected voice reflected from the quadric surface 1120 of the voice generated by another person 1122.
  • the sound that is delayed for a certain period of time (for example, 20 milliseconds or more) compared to the direct sound has an adverse effect on the speech recognition. It is necessary to suppress it.
  • the voice reflected by the wall or glass is uniformly suppressed as noise, not only the noise source but also the echo of the voice uttered by such an occupant can be suppressed.
  • the second microphone 1103 converts the second mixed sound into a second mixed signal in which an audio signal and a noise signal are mixed at a different ratio from the first mixed signal, and transmits the second mixed signal to a noise suppression circuit 206 (not shown).
  • the following processing is the same as in the second to fourth embodiments, and the noise suppression circuit 206 is based on the first mixed signal and the second mixed signal transmitted from the first microphone 1101 and the second microphone 1103, respectively.
  • the pseudo audio signal 207 is output.
  • the pseudo voice signal 207 is recognized by the voice recognition device 208 and processed as a voice operation by the operator 1121 or a voice input of data in the notebook PC 1130.
  • the voice and room noise to the notebook PC 1130 uttered by the operator 1121 are input to the first microphone 301 and the reflected noise including the voice reflected sound.
  • the second microphone 303 are input as mixed sounds having different mixing ratios with the second microphone 303.
  • the pseudo audio signal is restored by the noise suppression circuit 206, and the restored pseudo audio signal is recognized by the voice recognition. Recognized at device 208.
  • the recognized voice is processed by the notebook PC 1130.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention with a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server that downloads the control program are also included in the scope of the present invention. include.

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Quality & Reliability (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

 本発明の装置は、所望音声と雑音とが混在する混在音から擬似音声を取得する音声処理装置である。この音声処理装置は、所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、第1マイクと同じ音空間に開放され、音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、境界面で反射された所望音声及び境界面で反射された雑音を含み所望音声と雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して、第2混在信号を出力する第2マイクと、第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、を備えることを特徴とする。

Description

音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム
 本発明は、所望音声と雑音とが混在する混在音から擬似音声を取得する技術に関する。
  上記技術分野において、特許文献1には、車両において車内音声に対する車外からの雑音を抑圧する技術が開示されている。特許文献1では、車内音声を拾うマイクの出力信号と車外雑音を拾うマイクの出力信号とに基づいて、適応フィルタを使って車外雑音を抑圧する。また、特許文献2では、パラボラリフレクタを使った収音と超指向性マイクによる収音とを組み合わせて、遠方の音声を明瞭に収音する技術が開示されている。
特開平2-246599号公報 特開平10-224882号公報
  しかしながら、上記特許文献1の技術は、所望音声が存在する音空間とは異なる音空間(ここでは車外)の雑音の抑圧を目的としている。そのため、所望音声が存在する音空間において複数の雑音源から発生した雑音の抑圧を行なうことができなかった。同じ音空間内に複数の雑音源がある場合に所望音声に近い擬似音声を得るためには、雑音入力用のマイクはできるだけ音空間内の広い範囲から雑音を入力する必要があるが、特許文献1には、広範囲の雑音を集めるための工夫は無い。また、特許文献2は、パラボラリフレクタを使って焦点位置の音を収音するが、収音するのは超指向性マイクとの協働により遠方から明瞭に収音するための所望音声であって、雑音を収音することを目的とするものではない。
 本発明の目的は、上述の課題を解決する技術を提供することにある。
 上記目的を達成するため、本発明に係る装置は、
 所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
 前記第1マイクと同じ音空間に開放され、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、前記境界面で反射された所望音声及び前記境界面で反射された雑音を含み前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して、第2混在信号を出力する第2マイクと、
 前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
 を備えることを特徴とする。
 上記目的を達成するため、本発明に係る装置は、
 上記音声処理装置を備えた車両であって、
 前記第1マイクは、前記音空間である車内の乗員が発声する音声を含む第1混在音が入力される位置に配置され、
 前記第2マイクは、前記車内の雑音源から発生する雑音が前記車両の前記境界面によって反射され前記第2マイクに集音される位置に配置されていることを特徴とする。
 上記目的を達成するため、本発明に係る装置は、
 上記音声処理装置を備えた情報処理装置であって、
 前記第1マイクは、前記情報処理装置の、操作者が発声する所望音声を含む第1混在音が入力される位置に配置され、
 前記第2マイクは、前記情報処理装置を使用する室内の雑音源から発生する雑音が壁によって反射され前記第2マイクに集音される位置に配置されていることを特徴とする。
 上記目的を達成するため、本発明に係るシステムは、
 請求項1乃至7のいずれか1項に記載の音声処理装置を備えた情報処理システムであって、
 前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
 前記音声認識装置が認識した所望音声にしたがって情報を処理する情報処理装置と、
 を備えることを特徴とする。
 上記目的を達成するため、本発明に係る方法は、
 所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
 前記第1マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して第2混在信号を出力する第2マイクと、
 前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
 を備える音声処理装置の制御方法であって、
 前記雑音抑圧回路のパラメータを取得するステップと、
 前記雑音抑圧回路のパラメータにしたがって、前記第2マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
 を含むことを特徴とする。
 上記目的を達成するため、本発明に係る記憶媒体は、
 所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
 前記第1マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して第2混在信号を出力する第2マイクと、
 前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
 を備える音声処理装置の制御プログラムを記憶する記憶媒体であって、
 前記雑音抑圧回路のパラメータを取得するステップと、
 前記雑音抑圧回路のパラメータにしたがって、前記第2マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
 をコンピュータに実行させる制御プログラムを格納したことを特徴とする。
 本発明によれば、所望音声と複数の雑音源からの雑音とが混在する同じ音空間において、話者の発声した所望音声のエコーを含む複数の雑音源からの雑音を集音することにより、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。
本発明の第1実施形態に係る音声処理装置の構成を示すブロック図である。 本発明の第2実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。 本発明の第2実施形態に係る二次曲面による雑音の集音を説明する図である。 本発明の第2実施形態に係る擬似曲面による雑音の集音を説明する図である。 本発明の第2実施形態に係る雑音抑圧回路の構成を示す図である。 本発明の第3実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。 本発明の第4実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。 本発明の第4実施形態に係る音声処理装置のハードウエア構成を示すブロック図である。 本発明の第4実施形態に係る信号/パラメータ蓄積部の構成を示す図である。 本発明の第4実施形態に係るマイク位置評価の処理手順を示すフローチャートである。 本発明の第5実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。
 以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。
 [第1実施形態]
 本発明の第1実施形態としての音声処理装置100について、図1を用いて説明する。 図1に示すように、音声処理装置100は、第1マイク101と、第2マイク103と、雑音抑圧回路106と、を含む。第1マイク101は、所望音声と雑音とが混在した第1混在音108を入力して第1混在信号102を出力する。第2マイク103は、第1マイク101と同じ音空間110に開放され、音空間110の境界の一部を成す二次曲面状111あるいは二次曲面を近似する擬似曲面状112の境界面の焦点位置に配置されている。そして、境界面で反射された所望音声121及び境界面で反射された雑音122を含み所望音声と雑音とが第1混在音108とは異なる割合で混在した第2混在音109を入力して、第2混在信号104を出力する。雑音抑圧回路106は、第1混在信号102と第2混在信号104とに基づいて推定雑音信号を抑圧し、擬似音声信号107を出力する。
 本実施形態によれば、所望音声と複数の雑音源からの雑音とが混在する同じ音空間において、話者の発声した所望音声のエコーを含む複数の雑音源からの雑音を集音することにより、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。
 [第2実施形態]
 第2実施形態は、本発明の音声処理装置を情報処理システムとしての車両に適用し、車両内部の音空間において雑音を正確に推定して所望音声に近い擬似音声を復元する例である。第2実施形態では、第1マイク及び第2マイクは一体の音声入力ユニットとしてダッシュボードに配置されている。本実施形態によれば、車両内部に複数の雑音源があっても、それら雑音を第2マイクで広範囲に集音できるので、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。さらに、話者の発声した所望音声のエコーも抑圧することが可能となる。
 《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
 図2は、本実施形態に係る音声処理装置を備えた音声処理システム200の構成を示すブロック図である。なお、図2において、音声処理装置は、第1マイク201と、第2マイク203と、マイク支持部材205と、雑音抑圧回路206とを含む。また、音声処理システム200は、音声処理装置と、さらに、音声認識装置208と、カーナビゲーション装置209とを含む。なお、マイク支持部材205は遮音体であることが望ましく、第1マイク201と、第2マイク203と、マイク支持部材205とは、一体の音声入力ユニットとして提供されてよい。
 遮音体としては、質量が大きく、密度が高い物質が望ましい。このような物質は、振動するのにより多くのエネルギーを必要とするため、音の貫通を防ぐことができる。また、遮音体の表面は硬い材質が望ましいが、遮音体の内部は柔らかい材質が望ましい。硬い材質は音を反射しやすいため、硬い材質を遮音体の表面に使うことで直接マイクに入る音に加えて遮音体で反射した音も集音できる。柔らかい材質は音を吸収しやすいため、柔らかい材質を遮音体の内面に使うことで不要な音の貫通を防ぐことができる。また、第1マイク側の表面の素材と第2マイク側の表面の素材とは、構造が連続せずに分かれていた方が良い。構造が連続していると表面の素材を伝わって音が伝搬して遮音体を貫通してしまうため、三層構造になっていて、両表面の硬い材質の素材間に柔らかい材質の素材が挟まれていることが望ましい。
 図2において、音空間210は車両内の空間である。図2の音空間210は、その一部をフロントガラス230と天井240とにより画定されている。以下、空調機などの複数の雑音源からの雑音が混在する音空間210内で、乗員220がカーナビゲーション装置209を音声により操作する場合を例に、第2実施形態の構成と動作を説明する。なお、空調機はダッシュボード216内にあるものとする。雑音源は空調機のみに限らず、他の位置に配置された他の機器や他の乗員も雑音源となる。また、乗員220の音声はカーナビゲーション装置209の操作に限定されるものではない。
 本実施形態の音声処理装置において、第1マイク201、第2マイク203及びマイク支持部材205は、車内前方のダッシュボード216に配置されている。マイク支持部材205のダッシュボード216に取り付けられた部分に第1マイク201が配置され、ダッシュボード216から鋭角を成して車内に突起した部分に第2マイクが配置されている。マイク支持部材205の突起部の角度は、車内の構造や、フロントガラスの形状や位置、ダッシュボードの構造や位置、座席位置、乗員の身長、また、雑音源の位置などによって適切な角度が選択され、鋭角に限らない。なお、マイク支持部材205は、乗員220の発声する音声を集音できる位置が望ましく、たとえばハンドル215の後方部に設置してもよい。なお、第1マイク201の位置は本例に限らない。
 図2では、第2マイク203は、ダッシュボード216の空調機や車内の他の雑音源からの雑音のフロントガラス230による反射雑音213を入力する位置に取り付けられている。すなわち、第2マイク203は、フロントガラス230が形成する二次曲面あるいは二次曲面に近似する擬似曲面の焦点位置に配置されるように取り付けられる。ここで、反射雑音213には、乗員220が発声した音声の反射音声も含む。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上(たとえば20ミリ秒以上)遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。
 マイク支持部材205が遮音体である場合は、マイク支持部材205が第1マイク201への空調機などからの空気伝播雑音の入力を遮っている。同時に、マイク支持部材205は、第2マイク203への乗員220が発声した空気伝播音声211の入力を遮っている。このため、第1マイク201には、乗員220が発声した音声が主に入力され、第2マイク203には、乗員の発声した音声のエコーを含む、複数の雑音源が発生した雑音の反射雑音213が主に入力されことになる。しかしながら、マイク支持部材205は閉空間を形成してないため、第1マイク201へはマイク支持部材205を回り込んだ空気伝播雑音214が混入する。また、第2マイク203へはマイク支持部材205を回り込んだ空気伝播音声212が混入する。
 第1マイク201は、入力される空気伝播音声211と回り込み空気伝播雑音214とが混在した第1混在音を、音声信号と雑音信号とが混在した第1混在信号202に変換し、雑音抑圧回路206に伝達する。一方、第2マイク203には、反射雑音213と回り込み空気伝播音声212とが第1混在音と異なる割合で混在した第2混在音が入力される。第2マイク203は、かかる第2混在音を、音声信号と雑音信号とが第1混在信号と異なる割合で混在した第2混在信号204に変換し、雑音抑圧回路206に伝達する。
 雑音抑圧回路206は、伝達された第1混在信号202と第2混在信号204とに基づいて、擬似音声信号207を出力する。擬似音声信号207は、音声認識装置208で認識されて、カーナビゲーション装置209においては乗員220による音声での操作として処理される。
 このように、所望音声と車内雑音とが混在した車両内の音空間210において、乗員220が発声したカーナビゲーション装置209への操作を示す音声が、第1マイク201と第2マイク203とで異なる混在割合の混在音として入力される。そして、第1マイク201からの第1混在信号と、第2マイク203からの第2混在信号とに基づいて、雑音抑圧回路206で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置208において認識される。認識された音声によりカーナビゲーション装置209が操作される。
 なお、第1及び第2混在信号202、204を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、雑音抑圧回路206は、マイク支持部材205に取り付けられてもよい。その場合には、擬似音声信号が信号線で雑音抑圧回路206から音声認識装置208に送信されることになる。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員220の発声する音声の正確な復元は、他の処理においても有用である。たとえば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。
 《本実施形態に係る雑音の集音の説明》
 以下、二次曲面あるいは二次曲面を近似した擬似曲面が、その焦点位置に集音することを、二次曲面については図3を使って、二次曲面を近似した擬似曲面については図4を使って説明する。なお、図3及び図4は理想的な二次曲面や擬似曲面を説明するが、車両の音空間では、図2のフロントガラスのような二次曲面や擬似曲面に類似する曲面が使用される。
 (二次曲面による雑音の集音)
 図3は、本実施形態に係る二次曲面のあるフロントガラス230による第2マイク203への雑音の集音を説明する図である。
 図3において、306及び308で示す線分は、二次曲面305の接線である。線分306及び308に対し、それぞれ二次曲面305のとの接点で垂直に交わる法線307及び309に対して、複数の雑音源からの雑音321は同じ角度θ1及びθ2で反射する。また、音源からの所望音声311も同様に反射する。そして、複数の雑音321及び所望音声311は、二次曲面305の焦点に位置する第2マイク203に集音される。
 (擬似曲面の集音部による集音)
 図4は、本実施形態に係る擬似曲面405を有する場合の第2マイク203への雑音の集音を説明する図である。擬似曲面405とは、二次曲面305の接線方向に延びる平面の集合体である。
 図4において、406及び408で示す線分は、擬似曲面405の表面である。線分406及び408に対して垂直に交わる法線407及び409に対して、複数の雑音源からの雑音421は同じ角度θ1及びθ2で反射する。また、音源からの所望音声411も同様に反射する。そして、複数の雑音421及び所望音声411は、二次曲面305の擬似曲面405の焦点に位置する第2マイク203に集音される。
 《雑音抑圧回路の構成》
 図5は、本実施形態に係る雑音抑圧回路206の構成を示す図である。
 雑音抑圧回路206は、第1混在信号202に混在すると推定される推定雑音信号Y1を、第1混在信号202から減算する減算器501を有する。また、第2混在信号204に混在すると推定される推定音声信号Y2を、第2混在信号204から減算する減算器503を有する。また、推定雑音信号Y1を減算器503の出力信号である擬似雑音信号E2から生成する推定雑音信号生成部である適応フィルタNF502を有する。また、推定音声信号Y2を減算器503の出力信号である擬似音声信号E1(207)から生成する推定音声信号生成部である適応フィルタXF504を有する。適応フィルタXF504の具体例は国際公開第2005/024787号公報に記載されている。対象とする音声が回り込んで第2マイク203に入力され、第2混在信号204に音声信号が混在する場合でも、適応フィルタXF504は回り込んだ音声の音声信号を減算器501において第1混在信号202から誤って除去するのを防ぐことができる。
 かかる構成により、減算器501は、第1マイク201から伝達された第1混在信号202から推定雑音信号Y1を減算して、擬似音声信号E1(207)を出力する。
 ここで、推定雑音信号Y1は、擬似雑音信号E2を擬似音声信号E1(207)に基づき変化するパラメータを使って適応フィルタNF502によって生成される。擬似雑音信号E2は、信号線により第2マイク203から伝達された第2混在信号204から、減算器503で推定音声信号Y2を減算した信号である。
 この推定音声信号Y2は、擬似音声信号E1(207)を推定音声信号Y2に基づき変化するパラメータを使って適応フィルタXF504によって生成される。
 なお、雑音抑圧回路206は、アナログ回路であっても、デジタル回路であっても、その混在回路であってもよい。雑音抑圧回路206がアナログ回路であれば、擬似音声信号E1(207)はデジタル制御に使用される場合にはA/D変換器でデジタル信号に変換される。一方、雑音抑圧回路206がデジタル回路であれば、マイクからの信号は雑音抑圧回路206に入る前にA/D変換器でデジタル信号に変換される。また、アナログ回路とデジタル回路とが混在する場合には、たとえば、減算器501や503をアナログ回路で構成し、適応フィルタNF502や適応フィルタXF504をデジタル回路により制御されるアナログ回路で構成することが考えられる。また、図5の雑音抑圧回路206は本実施形態に好適な回路例の1つであり、第1混在信号から推定雑音信号を減算して擬似音声信号を出力する既存の回路が使用可能であり、本実施形態の雑音を集める第2マイクの配置により雑音抑圧が可能になる。たとえば、図5の適応フィルタXF504は、拡散した音声をフィルタするために一定レベルを出力する回路への代替も可能である。また、減算器501及び/又は503は、推定雑音信号Y1や推定音声信号Y2を第1混在信号202や第2混在信号204にそれぞれ積算する係数で表わすことで積算器に代替することも可能である。
 [第3実施形態]
 第2実施形態においては、第1マイク及び第2マイクが一体となった音声入力ユニットとしてダッシュボードに配置されていた。しかしながら、フロントガラスによる反射雑音が常に車内雑音を集音できるとは限らない。たとえば、車内後方で発生する雑音が大きい構造の場合には、ダッシュボードに配置された第2マイクでは雑音を集音できない場合がある。本実施形態では、第2マイクを第1マイクから分離して、リアトレイパネルの配置した例を説明する。本実施形態によれば、車内後方で発生する雑音が大きい構造の場合においても、雑音を第2マイクで広範囲に集音できるので、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。さらに、話者の発声した所望音声のエコーも抑圧することが可能である。
 なお、以下の説明では、第2実施形態と同様の処理については説明を省略し、その相違点のみを説明する。
 《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
 図6は、本実施形態に係る音声処理装置を備えた音声処理システム600の構成を示すブロック図である。なお、図6において、音声処理装置は、第1マイク201(図示せず)と、第1マイク支持部材(図示せず)と、第2マイク603と、第2マイク支持部材605と、雑音抑圧回路206(図2と同様)とを含む。また、音声処理システム200は、音声処理装置と、さらに、図2と同様に、音声認識装置208と、カーナビゲーション装置209とを含む。なお、第2マイク支持部材605は遮音体であることが望ましい。
 図6において、音空間210は車両内の空間である。図6の音空間210は、その一部を天井240とリアガラス650とにより画定されている。以下、複数の雑音源からの雑音が混在する音空間210内で、乗員220がカーナビゲーション装置209を音声により操作する場合を例に、第3実施形態の構成と動作を説明する。なお、リアトレイパネル616に雑音源の1つがあるものとする。また、乗員220の音声はカーナビゲーション装置209の操作に限定されるものではない。
 本実施形態の音声処理装置において、第2マイク603及び第2マイク支持部材605は、車内後方のリアトレイパネル616に配置されている。第2マイク支持部材605のリアトレイパネル616に取り付けられた部分に第2マイク603が配置されている。第2マイク支持部材605の突起部の角度は、車内の構造や、リアガラスの形状や位置、リアトレイパネルの構造や位置、座席位置、乗員の身長、また、雑音源の位置などによって適切な角度が選択される。なお、本実施形態では、第1マイク及び第1マイク支持部材の配置は、乗員220の発声する音声を集音できる位置であればよく、限定はしない。
 図6では、第2マイク603は、リアトレイパネル616の雑音源や車内の他の雑音源からの雑音のリアガラス650による反射雑音613を入力する位置に取り付けられている。すなわち、第2マイク603は、リアガラス650が形成する二次曲面あるいは二次曲面に近似する擬似曲面の焦点位置に配置されるように取り付けられる。ここで、反射雑音613には、乗員220が発声した音声の反射生も含む。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上(たとえば20ミリ秒以上)遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。
 第2マイク支持部材605が遮音体である場合は、第2マイク支持部材605が、第2マイク603への車内雑音や乗員220が発声した空気伝播音声611の直接の入力を遮っている。このため、第2マイク603には、乗員の発声した音声のエコーを含む、複数の雑音源が発生した雑音の反射雑音213が主に入力されことになる。しかしながら、第2マイク支持部材605は閉空間を形成してないため、第2マイク603へは第2マイク支持部材605を回り込んだ空気伝播音声612が混入する。
 図示しない第1マイク201は、図2と同様に、入力される空気伝播音声211と回り込み空気伝播雑音214とが混在した第1混在音を、音声信号と雑音信号とが混在した第1混在信号202に変換し、雑音抑圧回路206に伝達する。一方、第2マイク603には、反射雑音613と回り込み空気伝播音声612とが第1混在音と異なる割合で混在した第2混在音が入力される。第2マイク603は、かかる第2混在音を、音声信号と雑音信号とが第1混在信号と異なる割合で混在した第2混在信号604に変換し、雑音抑圧回路206に伝達する。
 図2と同様に、雑音抑圧回路206は、伝達された第1混在信号202と、第2混在信号204と同等の第2混在信号604とに基づいて、擬似音声信号207を出力する。擬似音声信号207は、音声認識装置208で認識されて、カーナビゲーション装置209においては乗員220による音声での操作として処理される。
 このように、所望音声と車内雑音とが混在した車両内の音空間210において、乗員220が発声したカーナビゲーション装置209への操作を示す音声が、第1マイク201と第2マイク603とで異なる混在割合の混在音として入力される。そして、第1マイク201からの第1混在信号202と、第2マイク603からの第2混在信号604とに基づいて、雑音抑圧回路206で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置208において認識される。認識された音声によりカーナビゲーション装置209が操作される。
 なお、第2混在信号604を伝達する信号線が、接地電源などのリターン信号やマイクを動作させる電源を伝達してもよい。また、本実施形態では、音声認識とカーナビゲーションを説明するが、これに限定されず乗員220の発声する音声の正確な復元は、他の処理においても有用である。たとえば、自動車電話への適用や、運転に直接つながらない車両操作への適用も可能である。
 [第4実施形態]
 第2及び第3実施形態では、既に第1マイク及び第2マイクの配置が完了した車両について、その構成と動作を説明した。第4実施形態では、多種多様な構造を有する車両において、適切な第1マイク及び第2マイク、特に第2マイクの配置を決定するための音声処理装置を説明する。本実施形態によれば、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置に、音声処理装置を配置することができる。
 《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
 図7は、本実施形態に係る音声処理装置を備えた音声処理システムの構成を示すブロック図である。なお、図7は、図2と図6とを組み合わせて、第2マイクの位置をダッシュボード(図2参照)あるいはリアトレイパレル(図6参照)にそれぞれ配置して、本実施形態の第2マイクの配置位置決定の様子を示す図である。したがって、図2及び図6との相違点は、位置判別部710の追加のみであるので、他の詳細な説明は省略する。
 位置判別部710は、雑音抑圧回路206から擬似音声信号207及びパラメータ707を取得する。そして、現在の第1マイク及び第2マイクの配置が、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置か否かを示す情報を、音声認識装置208あるいはカーナビゲーション装置209に出力する。音声認識装置208あるいはカーナビゲーション装置209により、雑音を正確に推定して所望音声に近い擬似音声を復元できる位置か否かが報知される。図7にはマイクの配置例として、図2のような第1マイク201及び第2マイク203が一体となった音声入力ユニットをダッシュボード216へ配置した状態と、第2マイク603を分離してリアトレイパネル616に配置した状態とが例示されている。
 《本実施形態に係る音声処理装置のハードウエア構成》
 図8は、本実施形態に係る音声処理装置800のハードウエア構成を示すブロック図である。なお、図8には、音声処理装置800に接続する音声認識装置208とカーナビゲーション装置209とを図示する。
 図8において、CPU810は演算制御用のプロセッサであり、プログラムを実行することで音声処理装置800の制御部を実現する。ROM820は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部830は、音声処理装置800と、音声認識装置208及びカーナビゲーション装置209間の情報交換を行なう。かかる通信は有線であっても無線であっても良い。なお、図8では、雑音抑圧回路206を独自の機能構成部として図示したが、雑音抑圧回路206の処理の一部あるいは全部をCPU810による処理で実現してもよい。
 RAM840は、CPU810が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM840には、本実施形態の実現に必要なデータを記憶する領域が確保されている。各領域には、雑音抑圧回路206からの出力である擬似音声信号207のデジタルデータ841と、雑音抑圧回路206内で使用されるパラメータ842とが記憶される。また、第2マイクの配置位置843と、音声信号の強さや音声と雑音との比やパラメータなどから第2マイクへの雑音入力を評価したマイク位置評価結果844とが記憶される。
 ストレージ850は、データベースや各種のパラメータ、CPU810が実行するプログラムを、不揮発に記憶する大容量記憶装置である。ストレージ850には、本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。データの記憶部としては、第2マイク位置と、音声信号の強さや音声と雑音との比やパラメータ及びマイク位置評価結果とを対応付けて蓄積する信号/パラメータ蓄積部851が格納される(図9参照)。また、本実施形態では、プログラムとして、様々な位置に配置された第2マイクへの雑音入力を評価するためのマイク位置評価プログラム852を格納する。
 入力インタフェース860は、CPU810による制御に必要な制御信号及びデータを入力するインタフェースである。本実施形態では、雑音抑圧回路206からの出力である擬似音声信号207と、適応フィルタNF502や適応フィルタXF504のパラメータ、あるいは推定雑音信号Y1などのパラメータ707とを入力する。パラメータ707は、第2マイクの位置評価に使用される。
 なお、図8には、本実施形態に必須なデータやプログラムのみが示されており、OSなどの汎用のデータやプログラムは図示されていない。また、図8のCPU810が、音声認識装置208やカーナビゲーション装置209の制御を兼用しても構わない。
 (信号/パラメータ蓄積部の構成)
 図9は、本実施形態に係る信号/パラメータ蓄積部851の構成を示す図である。
 信号/パラメータ蓄積部851は、第2マイク位置901に対応付けて以下の情報を記憶する。雑音抑圧回路206から取得した擬似音声信号902、推定雑音信号903、擬似雑音信号904、推定音声信号905、適応フィルタNFのパラメータ906、適応フィルタXFのパラメータ907を記憶する。かかる条件に対応付けて、マイク位置評価908が記憶されている。ここで、"良"は雑音抑圧に適切な位置、"可"は良好とは言えないが可能な位置を表わしているが、これに限定されない。
 《本実施形態に係るマイク位置評価の処理手順》
 図10は、本実施形態に係るマイク位置評価の処理手順を示すフローチャートである。図10のフローチャートは、図8のCPU810がRAM840を使用して実行し、図7の位置判別部710を実現する。なお、このフローチャートは、初期化時や、新たな機器の設置や取り外しなどのタイミングで実行される。また、音声認識装置の音声認識が不良になった時、あるいは、雑音抑圧回路中の擬似雑音信号E2や適応フィルタNFのパラメータから雑音入力が小さくなったと判断された時などにも実行されてよい。
 まず、ステップS1001において、第2マイクの位置の評価を開始するか否かを判定する。第1マイク及び第2マイクを配置して第2マイクの雑音入力測定開始をすれば、ステップS1003において、雑音抑圧回路206からパラメータを取得する。ステップS1005においては、雑音抑圧回路206からの擬似音声信号やパラメータなどから第2マイクの位置評価を行なう。続いて、ステップS1007において、第2マイクの位置評価結果を、第2マイク位置に対応付けて記憶する。
 ステップS1009においては、第1マイク及び第2マイクの配置が可能な位置の評価が終了したかの指示を判断する。測定が終了した指示が無ければ、ステップS1001に戻って、第1マイク及び第2マイクの次の配置を待って、ステップS1003~S1007の処理を繰り返す。測定が終了した指示が有れば、今まで蓄積した第2マイクの位置評価結果から最も望ましい位置あるいはそのときの情報などを、音声認識装置208あるいはカーナビゲーション装置209に出力する。
 [第5実施形態]
 第2乃至第4実施形態では、本発明の音声処理装置を車両に適用する場合の例を説明した。第5実施形態では、本発明の音声処理装置を情報処理装置、たとえばノート型パーソナルコンピュータ(以下、ノート型PC)に適用した例を説明する。本実施形態によれば、ノート型PCを室内で使用する場合の、室内の機器などの雑音や他の人の音声、あるいは自身の音声のエコーなどを含む雑音を広範囲に集音して、雑音を正確に推定して所望音声に近い擬似音声を復元することができる。
 《本実施形態に係る音声処理装置を備えた音声処理システムの構成》
 図11は、本実施形態に係る音声処理装置を備えた音声処理システム1100であるノート型PC1130を含む構成を示すブロック図である。なお、図11には、ノート型PCの本来の機能などについては説明を省略し、本実施形態の特徴である第1マイク1101及び第2マイク1103への集音に関連する構成を説明する。
 図11において、ノート型PC1130は、表示画面を有するディスプレイ部とキーボードを含むキーボード部とを備えるが、本実施形態ではディスプレイ部に第1マイク1101及び第2マイク1103が配置された例を説明する。第1マイク1101はディスプレイ部の操作者側に配置され、第2マイク1103はディスプレイ部の操作者とは反対側に配置されている。しかし、第1マイク1101がキーボード部にあっても構わない。
 第1マイク1101には、操作者1121が発声した音声1111と回り込み空気伝播雑音(図示せず)とが混在した第1混在音が入力される。第1マイク1101は、かかる第1混在音を、音声信号と雑音信号とが混在した第1混在信号に変換し、不図示の雑音抑圧回路206に伝達する。一方、第2マイク1103には、二次曲面1120あるいは二次曲面を近似する擬似局面により反射された反射雑音1113と回り込み音声1112とが第1混在音と異なる割合で混在した第2混在音が入力される。この反射雑音1113には、操作者1121の発生した音声が二次曲面1120で反射したエコーや他の人1122が発生した音声が二次曲面1120で反射した反射音声も含まれる。一般に対象音源から発せられた音声が壁若しくはガラスなどで反射した反射音声のうち、直接音と較べて一定時間以上(たとえば20ミリ秒以上)遅延したものは、音声認識に悪影響を与えるため、雑音とみなして抑圧する必要がある。本実施形態では、壁若しくはガラスなどで反射した音声をも雑音として一律に抑圧の対象とするため、雑音源だけでなく、このような乗員の発声した音声のエコーも抑圧することができる。第2マイク1103は、かかる第2混在音を、音声信号と雑音信号とが第1混在信号と異なる割合で混在した第2混在信号に変換し、不図示の雑音抑圧回路206に伝達する。
 以下の処理は第2乃至第4実施形態と同様であり、雑音抑圧回路206は、第1マイク1101及び第2マイク1103からそれぞれ伝達された第1混在信号と第2混在信号とに基づいて、擬似音声信号207を出力する。擬似音声信号207は、音声認識装置208で認識されて、ノート型PC1130において操作者1121による音声操作あるいはデータの音声入力として処理される。
 このように、所望音声と室内雑音とが混在した音空間において、操作者1121が発声したノート型PC1130への音声及び室内雑音が、第1マイク301と、音声の反射音を含む反射雑音を入力する第2マイク303とで異なる混在割合の混在音として入力される。そして、第1マイク301からの第1混在信号と、第2マイク303からの第2混在信号とに基づいて、雑音抑圧回路206で擬似音声信号が復元され、復元された擬似音声信号が音声認識装置208において認識される。認識された音声がノート型PC1130で処理される。
 [他の実施形態]
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。また、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2011年1月13日に出願された日本国特許出願 特願2011-005317号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (13)

  1.  所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
     前記第1マイクと同じ音空間に開放され、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置に配置されて、前記境界面で反射された所望音声及び前記境界面で反射された雑音を含み前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して、第2混在信号を出力する第2マイクと、
     前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
     を備えることを特徴とする音声処理装置。
  2.  前記擬似曲面は、前記二次曲面の接線方向に延びる平面の集合体を含むことを特徴とする請求項1に記載の音声処理装置。
  3.  前記第1マイクと前記第2マイクとは、一体の音声入力ユニットであることを特徴とする請求項1又は2に記載の音声処理装置。
  4.  前記第1マイクと前記第2マイクとの間に配置された遮音体をさらに備えることを特徴とする請求項1乃至3のいずれか1項に記載の音声処理装置。
  5.  前記遮音体は、前記第2マイクに前記所望音声及び前記雑音が前記境界面で反射せず直接に入力するのを遮る位置に配置されていることを特徴とする請求項4に記載の音声処理装置。
  6.  前記雑音抑圧回路の擬似音声信号、推定雑音信号又はパラメータに基づいて、前記第2マイクの位置が前記音空間の内部で発生する雑音を集音する位置であるか否かの情報を出力する出力手段をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の音声処理装置。
  7.  前記雑音抑圧回路は、
      前記第1混在信号に混在すると推定される前記推定雑音信号を、前記第1混在信号から減算する第1減算手段と、
      前記第2混在信号に混在すると推定される推定音声信号を、前記第2混在信号から減算する第2減算手段と、
      前記推定雑音信号を前記第2減算手段の出力信号から生成する推定雑音信号生成手段と、
      前記推定音声信号を前記第1減算手段の出力信号から生成する推定音声信号生成手段と、
     を有し、
     前記擬似音声信号は、前記第1減算手段の出力信号であることを特徴とする請求項1乃至6のいずれか1項に記載の音声処理装置。
  8.  請求項1乃至7のいずれか1項に記載の音声処理装置を備えた車両であって、
     前記第1マイクは、前記音空間である車内の乗員が発声する音声を含む第1混在音が入力される位置に配置され、
     前記第2マイクは、前記車内の雑音源から発生する雑音が前記車両の前記境界面によって反射され前記第2マイクに集音される位置に配置されていることを特徴とする車両。
  9.  前記境界面は、前記車両のフロントガラス又はリアガラスを含むことを特徴とする請求項8に記載の車両。
  10.  請求項1乃至7のいずれか1項に記載の音声処理装置を備えた情報処理装置であって、
     前記第1マイクは、前記情報処理装置の、操作者が発声する所望音声を含む第1混在音が入力される位置に配置され、
     前記第2マイクは、前記情報処理装置を使用する室内の雑音源から発生する雑音が壁によって反射され前記第2マイクに集音される位置に配置されていることを特徴とする情報処理装置。
  11.  請求項1乃至7のいずれか1項に記載の音声処理装置を備えた情報処理システムであって、
     前記音声処理装置の出力する前記擬似音声信号から所望音声を認識する音声認識装置と、
     前記音声認識装置が認識した所望音声にしたがって情報を処理する情報処理装置と、
     を備えることを特徴とする情報処理システム。
  12.  所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
     前記第1マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して第2混在信号を出力する第2マイクと、
     前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
     を備える音声処理装置の制御方法であって、
     前記雑音抑圧回路のパラメータを取得するステップと、
     前記雑音抑圧回路のパラメータにしたがって、前記第2マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
     を含むことを特徴とする音声処理装置の制御方法。
  13.  所望音声と雑音とが混在した第1混在音を入力して第1混在信号を出力する第1マイクと、
     前記第1マイクと同じ音空間に開放され、前記所望音声と前記雑音とが前記第1混在音とは異なる割合で混在した第2混在音を入力して第2混在信号を出力する第2マイクと、
     前記第1混在信号と前記第2混在信号とに基づいて推定雑音信号を抑圧し、擬似音声信号を出力する雑音抑圧回路と、
     を備える音声処理装置の制御プログラムを格納した記憶媒体であって、
     前記雑音抑圧回路のパラメータを取得するステップと、
     前記雑音抑圧回路のパラメータにしたがって、前記第2マイクの位置が、前記音空間の境界の一部を成す二次曲面状あるいは二次曲面を近似する擬似曲面状の境界面の焦点位置であって、前記音空間の内部で発生する雑音を集音する位置であるか否かを報知するステップと、
     をコンピュータに実行させる制御プログラムを格納したことを特徴とする記憶媒体。
PCT/JP2011/077997 2011-01-13 2011-12-03 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム WO2012096074A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2012552643A JP5939161B2 (ja) 2011-01-13 2011-12-03 音声処理装置及びその制御方法とその制御プログラム、情報処理システム
US13/979,596 US9299360B2 (en) 2011-01-13 2011-12-03 Speech processing apparatus, control method thereof, storage medium storing control program thereof, and vehicle, information processing apparatus, and information processing system including the speech processing apparatus

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-005317 2011-01-13
JP2011005317 2011-01-13

Publications (1)

Publication Number Publication Date
WO2012096074A1 true WO2012096074A1 (ja) 2012-07-19

Family

ID=46506988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/077997 WO2012096074A1 (ja) 2011-01-13 2011-12-03 音声処理装置及びその制御方法とその制御プログラムを格納した記憶媒体、該音声処理装置を備えた車両、情報処理装置及び情報処理システム

Country Status (3)

Country Link
US (1) US9299360B2 (ja)
JP (1) JP5939161B2 (ja)
WO (1) WO2012096074A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302729A (zh) * 2016-04-15 2017-10-27 美律电子(深圳)有限公司 录音模组

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106427830B (zh) * 2016-08-26 2018-12-28 东风汽车公司 语音拾取系统及其方法
KR102327441B1 (ko) * 2019-09-20 2021-11-17 엘지전자 주식회사 인공지능 장치

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07231495A (ja) * 1994-02-18 1995-08-29 Hokkaido Univ 集音器
JP2004215066A (ja) * 2003-01-07 2004-07-29 Nissan Motor Co Ltd 自動車用音声入力装置
JP2004279241A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 音源位置取得システム、音源位置取得方法、該音源位置取得システムに使用するための音反射要素および該音反射要素の形成方法
JP2006108986A (ja) * 2004-10-04 2006-04-20 Glory Ltd 集音装置
WO2009051132A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 信号処理システムと、その装置、方法及びそのプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US1732722A (en) * 1924-01-02 1929-10-22 Westinghouse Electric & Mfg Co Directive-reception microphone
US3502811A (en) * 1967-12-11 1970-03-24 Bell Telephone Labor Inc Directional microphone with frequency independent beamwidth
JP2680401B2 (ja) 1989-03-20 1997-11-19 三菱電機株式会社 雑音抑制マイクロホンシステム
US5452364A (en) * 1993-12-07 1995-09-19 Bonham; Douglas M. System and method for monitoring wildlife
JPH10224882A (ja) 1997-02-05 1998-08-21 Nippon Hoso Kyokai <Nhk> ハイブリッド・パラボラ収音装置
US5850060A (en) * 1997-04-08 1998-12-15 Gerber; Allen Acoustic lens device
US6420975B1 (en) * 1999-08-25 2002-07-16 Donnelly Corporation Interior rearview mirror sound processing system
US6438238B1 (en) * 2000-07-14 2002-08-20 Thomas F. Callahan Stethoscope
US20040047476A1 (en) * 2002-09-05 2004-03-11 Shinichi Sato Method and system for improved sound quality of automotive audio
WO2004103773A2 (en) * 2003-05-19 2004-12-02 Gentex Corporation Rearview mirror assemblies incorporating hands-free telephone components
KR100806769B1 (ko) * 2003-09-02 2008-03-06 닛본 덴끼 가부시끼가이샤 신호 처리 방법 및 장치
EP1634479B1 (en) * 2004-05-19 2011-10-26 Harman International Industries, Incorporated Vehicle loudspeaker array
US7720232B2 (en) * 2004-10-15 2010-05-18 Lifesize Communications, Inc. Speakerphone
US8112272B2 (en) * 2005-08-11 2012-02-07 Asashi Kasei Kabushiki Kaisha Sound source separation device, speech recognition device, mobile telephone, sound source separation method, and program
US8090116B2 (en) * 2005-11-18 2012-01-03 Holmi Douglas J Vehicle directional electroacoustical transducing
DE102006027673A1 (de) * 2006-06-14 2007-12-20 Friedrich-Alexander-Universität Erlangen-Nürnberg Signaltrenner, Verfahren zum Bestimmen von Ausgangssignalen basierend auf Mikrophonsignalen und Computerprogramm
JP2008035356A (ja) * 2006-07-31 2008-02-14 Ricoh Co Ltd ノイズキャンセラ、ノイズキャンセラを有する集音装置及びノイズキャンセラを有する携帯電話機
US8537977B2 (en) * 2007-04-10 2013-09-17 Sk Telecom. Co., Ltd Apparatus and method for voice processing in mobile communication terminal
US20080273711A1 (en) * 2007-05-01 2008-11-06 Broussard Scott J Apparatus, system and method of integrating wireless telephones in vehicles
US9302630B2 (en) * 2007-11-13 2016-04-05 Tk Holdings Inc. System and method for receiving audible input in a vehicle
US8229126B2 (en) * 2009-03-13 2012-07-24 Harris Corporation Noise error amplitude reduction

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07231495A (ja) * 1994-02-18 1995-08-29 Hokkaido Univ 集音器
JP2004215066A (ja) * 2003-01-07 2004-07-29 Nissan Motor Co Ltd 自動車用音声入力装置
JP2004279241A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 音源位置取得システム、音源位置取得方法、該音源位置取得システムに使用するための音反射要素および該音反射要素の形成方法
JP2006108986A (ja) * 2004-10-04 2006-04-20 Glory Ltd 集音装置
WO2009051132A1 (ja) * 2007-10-19 2009-04-23 Nec Corporation 信号処理システムと、その装置、方法及びそのプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107302729A (zh) * 2016-04-15 2017-10-27 美律电子(深圳)有限公司 录音模组

Also Published As

Publication number Publication date
US9299360B2 (en) 2016-03-29
US20130297303A1 (en) 2013-11-07
JP5939161B2 (ja) 2016-06-22
JPWO2012096074A1 (ja) 2014-06-09

Similar Documents

Publication Publication Date Title
JP5936070B2 (ja) 音声処理装置及びその制御方法とその制御プログラム、該音声処理装置を備えた車両、情報処理装置及び情報処理システム
JP6889989B2 (ja) 音声認識性能を向上させるためのアクティブノイズキャンセレーション装置及び方法
JP5936069B2 (ja) 音声処理装置及びその制御方法とその制御プログラム、該音声処理装置を備えた車両、情報処理装置及び情報処理システム
JP4225430B2 (ja) 音源分離装置、音声認識装置、携帯電話機、音源分離方法、及び、プログラム
CN109286875B (zh) 用于定向拾音的方法、装置、电子设备和存储介质
KR101337695B1 (ko) 강력한 노이즈 저감을 위한 마이크로폰 어레이 서브세트 선택
US9615171B1 (en) Transformation inversion to reduce the effect of room acoustics
JP3780516B2 (ja) ロボット聴覚装置及びロボット聴覚システム
JP5323995B2 (ja) マルチチャネル信号の残響除去のためのシステム、方法、装置、およびコンピュータ可読媒体
CN103295579B (zh) 用于一致性检测的系统、方法和设备
US8116478B2 (en) Apparatus and method for beamforming in consideration of actual noise environment character
JP7447796B2 (ja) 音声信号処理装置、雑音抑圧方法
CN110970010A (zh) 噪音消除方法、装置、存储介质及设备
JP5939161B2 (ja) 音声処理装置及びその制御方法とその制御プログラム、情報処理システム
JP2016126022A (ja) 音声処理装置
CN116158090A (zh) 用于抑制回声的音频信号处理方法和系统
Athanasopoulos et al. Robust speaker localization for real-world robots
KR101634494B1 (ko) 모바일 음향 기기의 소음 제거 방법 및 장치
WO2019155660A1 (ja) 車載用音響装置
CN113556652B (zh) 语音处理方法、装置、设备及系统
CN204362254U (zh) 防啸叫装置以及使用该装置的麦克风
JP6361360B2 (ja) 残響判定装置及びプログラム
JP4906787B2 (ja) 能動型振動騒音制御装置
JP2010107884A (ja) 仮想遮音壁形成ユニット及びマイク・スピーカユニット
CN104602143A (zh) 防啸叫装置以及使用该装置的麦克风

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11855325

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2012552643

Country of ref document: JP

Kind code of ref document: A

WWE Wipo information: entry into national phase

Ref document number: 13979596

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11855325

Country of ref document: EP

Kind code of ref document: A1