WO2012165657A1 - 音声処理システム、音声処理装置、音声処理方法およびそのプログラム - Google Patents

音声処理システム、音声処理装置、音声処理方法およびそのプログラム Download PDF

Info

Publication number
WO2012165657A1
WO2012165657A1 PCT/JP2012/064611 JP2012064611W WO2012165657A1 WO 2012165657 A1 WO2012165657 A1 WO 2012165657A1 JP 2012064611 W JP2012064611 W JP 2012064611W WO 2012165657 A1 WO2012165657 A1 WO 2012165657A1
Authority
WO
WIPO (PCT)
Prior art keywords
microphone
signal
voice
input
noise
Prior art date
Application number
PCT/JP2012/064611
Other languages
English (en)
French (fr)
Inventor
隆行 荒川
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Publication of WO2012165657A1 publication Critical patent/WO2012165657A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Definitions

  • the present invention relates to a voice processing system, a voice processing device, a voice processing method, and a program for processing voice acquired from a speaker.
  • Patent Literature 1 when the distance between the user and the display device is measured, and the distance is within a predetermined range, and it is determined that the user stays within the predetermined range for a predetermined time, an input from a microphone is made A technique for initiating speech recognition is described. Japanese Patent Application Laid-Open No.
  • Patent Document 3 discloses a technique for removing ambient noise from a desired sound based on an audio signal acquired by a microphone for collecting sound and an audio signal acquired by a microphone for collecting noise. be written.
  • the driver may speak while performing a driving operation. It is dangerous for the driver who performs the driving operation to move the line of sight to the mobile phone or the electronic device in order to speak. Therefore, the driver instructs the electronic device to start utterance with a simple operation that does not interfere with the driving operation, and starts utterance after confirming permission to start utterance.
  • Cellular phones or electronic devices are required to have a function of notifying the driver of permission to start speaking.
  • a function for notifying the driver of the direction of the microphone, that is, to which microphone the driver speaks is required.
  • Patent Document 1 only determines the start time of voice recognition based on the distance between the user and the display device, and cannot respond to a request for the utterance time by the user.
  • Patent Document 2 only describes a visual display for notifying the arrival of a call signal, and does not describe control of the time of speech.
  • Patent Document 3 only describes a process for removing noise based on two audio signals, and does not describe control of a user's speech timing.
  • a speech processing system is provided at a position different from a first microphone that generates a first input speech signal based on speech from a speaker, and the first microphone.
  • a second microphone that generates a second input voice signal; and a noise signal included in the first input voice signal is estimated based on the second input voice signal to generate an estimated noise signal;
  • Noise suppression means for suppressing the noise signal based on the above, a notification means for informing the speaker of the direction and timing of the utterance, and an activation means for controlling the notification processing by the notification means and the noise suppression processing by the noise suppression means.
  • a speech processing method includes a step of generating a first input speech signal based on speech from a speaker by a first microphone and a position different from that of the first microphone.
  • a step of generating a second input audio signal by a second microphone provided; and a step of generating an estimated noise signal by estimating a noise signal included in the first input audio signal based on the second input audio signal
  • a suppression step for suppressing the noise signal based on the estimated noise signal a notification step for notifying the speaker of the direction and timing of the utterance, and an activation step for controlling activation of the suppression step and the notification step.
  • a speech processing apparatus uses a first microphone to generate a noise signal contained in a first input speech signal generated based on speech from a speaker by a first microphone.
  • a noise suppression unit that estimates based on a second input speech signal generated by a second microphone provided at a different position, generates an estimated noise signal, and suppresses the noise signal based on the estimated noise signal
  • an output means for outputting a notification signal for notifying the speaker of the direction and timing of the utterance, and an activation means for controlling the noise signal output processing and the noise suppression processing by the noise suppression means.
  • an audio processing program is provided at a position different from the process of generating a first input audio signal based on audio from a speaker by a first microphone and the first microphone.
  • Processing, suppression processing for suppressing the noise signal based on the estimated noise signal, notification processing for informing the speaker of the direction and timing of the utterance, and startup processing for controlling the activation of the suppression processing and the notification processing are performed on the computer It is characterized by making it.
  • a user-friendly voice processing system voice processing apparatus, voice processing method, and program for notifying the user of the timing and direction of voice input are provided.
  • FIG. 1 shows a configuration of a voice processing system according to a first embodiment of the present invention.
  • the structure of the outline of the speech processing system which concerns on the 2nd Embodiment of this invention is shown.
  • voice processing system which concerns on the 2nd Embodiment of this invention is shown.
  • the 1st structure of the noise suppression circuit which concerns on the 2nd Embodiment of this invention is shown.
  • 2 shows a second configuration of a noise suppression circuit according to a second embodiment of the present invention.
  • 8 shows a third configuration of the noise suppression circuit according to the second embodiment of the present invention.
  • positions where components can be arranged are shown.
  • FIG. 2 shows a hardware configuration of a voice processing system according to a second embodiment of the present invention. It is a flowchart which shows the procedure of the process in the audio
  • the structure of the speech processing system which concerns on the 3rd Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 4th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 5th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 6th Embodiment of this invention is shown.
  • FIG. 9 shows a configuration of a noise suppression circuit according to a sixth embodiment of the present invention.
  • the structure of the speech processing system which concerns on the 7th Embodiment of this invention is shown.
  • voice input control part which concerns on the 7th Embodiment of this invention is shown.
  • voice input control part which concerns on the 7th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 8th Embodiment of this invention is shown.
  • the structure of the recognition output control part which concerns on the 8th Embodiment of this invention is shown.
  • movement of the recognition output control part which concerns on the 8th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 9th Embodiment of this invention is shown.
  • the structure of the starting part which concerns on the 9th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 10th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 11th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 12th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 13th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on the 14th Embodiment of this invention is shown.
  • the structure of the speech processing system which concerns on 15th Embodiment of this invention is shown.
  • a speech processing system 100 according to a first embodiment of the present invention will be described with reference to FIG.
  • the speech processing system 100 includes a first microphone 101, a second microphone 102, a noise suppression unit 120, a notification unit 110, and an activation unit 130.
  • Voice from the speaker 140 is input to the first microphone 101, and a first input voice signal 101a is output.
  • the second microphone 102 is provided at a position different from that of the first microphone 101, and outputs a second input audio signal 102a.
  • the noise suppression unit 120 is estimated to be mixed in the first input audio signal 101 a output from the first microphone 101 based on the second input audio signal 102 a output from the second microphone 102. Generate a noise signal.
  • the noise suppression unit 120 suppresses the noise signal in the first input audio signal output from the first microphone 101 based on the generated estimated noise signal.
  • the notification unit 110 is provided in the direction of the first microphone 101 when viewed from the speaker 140 and visually notifies the speaker 140 of the direction and timing of the speech.
  • the activation unit 130 starts the notification process in the notification unit 110 and the noise suppression process in the noise suppression unit 120 when the activation condition held in the activation condition holding unit 130a is satisfied.
  • a user-friendly voice processing system that notifies the user who is a speaker of the timing and direction in which voice should be input.
  • a speech processing system according to the second embodiment of the present invention will be described with reference to FIGS.
  • the present embodiment relates to a voice acquisition system that acquires voice uttered by a passenger in a driver's seat of a vehicle.
  • a switch when a switch is operated by requesting processing of voice spoken by the driver, a lamp in the direction of the first microphone to which the spoken voice is input is turned on. Simultaneously with the lighting, noise suppression processing by the first microphone and the second microphone is started.
  • FIG. 2 shows a schematic configuration of the speech processing system 200 according to the present embodiment.
  • FIG. 2 is a view of the front of the vehicle viewed from the driver's seat of the vehicle.
  • the speech processing system according to the present embodiment includes a speech processing device 210 having a noise suppression circuit.
  • a first microphone 201 for inputting a desired audio signal to the noise suppression circuit of the audio processing device 210 is disposed in the vicinity of the meters behind the handle.
  • a second microphone 202 for inputting a noise signal to the noise suppression circuit of the voice processing device 210 is arranged on the dashboard.
  • the activation unit includes a switch 221.
  • the switch 221 is disposed within a range that the driver's finger can reach in a state where the driver holds the steering wheel.
  • the switch 221 instructs the processing unit 210 to perform the processing request.
  • the lamp 231 is arranged in the same direction as the first microphone 201 as viewed from the driver, that is, at a position where it can be easily observed by the driver. The lamp 231 informs that the speech processing device 210 is performing speech processing including noise suppression processing, and informs the driver of the direction of speech.
  • the driver when the driver requests a conversation by communication with the outside, the driver operates the switch 221.
  • the voice processing device 210 detects the operation of the switch 221 by the driver, activates the noise suppression circuit, and lights the lamp 231 provided behind the first microphone 201.
  • the driver visually confirms that the lamp 231 is turned on and speaks in the direction of the lamp 231.
  • the driver's mouth, the first microphone 201, and the lamp 231 are arranged so as to be substantially in a straight line. For this reason, the driver's desired voice is reliably input to the first microphone 201.
  • the second microphone 202 that acquires noise used for noise suppression in the noise suppression circuit is arranged on the dashboard and receives noise such as engine sound and air conditioner operating sound.
  • the driver speaks in the direction of the lamp 231, the driver's voice input to the second microphone 202 is relatively small.
  • noise is subtracted from the input audio signal from the first microphone 201, and noise suppression processing is performed. Since the driver's voice does not enter the second microphone 202, accurate noise suppression processing is performed.
  • FIG. 3 is a block diagram illustrating a functional configuration of the voice processing system 200 according to the present embodiment.
  • the speech processing device 210 of the speech processing system 200 of this embodiment includes a noise suppression circuit 310 and an activation unit 320 having a switch 221.
  • the first input sound signal 201 a is input to the noise suppression circuit 310 from the first microphone 201
  • the second input sound signal 202 a is input to the noise suppression circuit 310 from the second microphone 202.
  • the audio signal whose noise is suppressed by the noise suppression circuit 310 is input to the audio transmission / reception unit 340.
  • the audio transmission / reception unit 340 transmits the desired audio input from the first microphone 201 to the outside via the antenna 350.
  • the sound received by the sound transmitting / receiving unit 340 via the antenna 350 is output by the speaker 360 (or earphone).
  • a conversation with the outside is realized by the above voice processing.
  • the activation signal 320a is output from the activation unit 320.
  • the activation signal 320a is not output, that is, when the switch 221 is not operated, the noise suppression circuit 310 and the voice transmission / reception unit 340 do not operate.
  • the noise suppression circuit 310 does not perform noise suppression processing.
  • the activation signal 320a activates the noise suppression circuit 310.
  • the activation signal 320a is transmitted as a notification signal to the notification unit 330, and the lamp 231 is turned on. The lighting of the lamp 231 prompts the driver to speak in the direction of the first microphone 201.
  • the first configuration 310-1 of the noise suppression circuit includes a subtractor 401 and an adaptive filter NF402.
  • the subtracter 401 subtracts the estimated noise signal Y1 estimated to be mixed in the first input audio signal 201a from the first input audio signal 201a.
  • the adaptive filter NF402 generates an estimated noise signal Y1 based on the second input speech signal 202a.
  • the subtractor 401 subtracts the estimated noise signal Y1 from the first input audio signal 201a transmitted from the first microphone 201, and the pseudo audio signal E1 (310a). Is output.
  • FIG. 4B shows a second configuration 310-2 of the noise suppression circuit 310 according to the present embodiment.
  • the 4B includes subtractors 401 and 403, an adaptive filter NF402, and an adaptive filter XF404.
  • the subtracter 401 subtracts the estimated noise signal Y1 estimated to be mixed in the first input audio signal 201a from the first input audio signal 201a.
  • the subtractor 403 subtracts the estimated audio signal Y2 estimated to be mixed in the second input audio signal 202a from the second input audio signal 202a.
  • the adaptive filter NF402 is an estimated noise signal generation unit that generates an estimated noise signal Y1 from the pseudo noise signal E2 that is an output signal of the subtractor 403.
  • the adaptive filter XF 404 is an estimated sound signal generation unit that generates an estimated sound signal Y2 from the pseudo sound signal E1 (310b) that is an output signal of the subtractor 403.
  • a specific example of the adaptive filter XF404 is described in International Publication No. WO 2005/024787.
  • the adaptive filter XF 404 prevents the subtracter 401 from erroneously removing the audio signal from the circulated audio from the first input audio signal 201a.
  • the subtractor 401 subtracts the estimated noise signal Y1 from the first input audio signal 201a transmitted from the first microphone 201, and outputs a pseudo audio signal E1 (310b).
  • the estimated noise signal Y1 is generated from the pseudo noise signal E2 in the adaptive filter NF402 using a parameter that changes based on the pseudo audio signal E1 (310b).
  • the pseudo noise signal E2 is obtained by subtracting the estimated audio signal Y2 from the second input audio signal 202a transmitted from the second microphone 202 via the signal line in the subtractor 403.
  • This estimated speech signal Y2 is generated from the pseudo speech signal E1 (310b) in the adaptive filter XF404 using parameters that change based on the estimated speech signal Y2.
  • the second configuration 310-2 of the noise suppression circuit 310 when the activation signal 320a from the activation unit 320 is OFF, the operations of the adaptive filter NF402 and the adaptive filter XF404 are stopped.
  • the estimated noise signal Y1 is not input to the subtractor 401, and the estimated sound signal Y2 is not input to the subtractor 403. Therefore, the first input audio signal that is not subjected to noise suppression processing is output as it is as the pseudo audio signal E1.
  • the operation of the noise suppression circuit 310 may stop when the activation signal 320a is OFF.
  • the noise suppression circuit may be an analog circuit, a digital circuit, or a circuit in which an analog circuit and a digital circuit are mixed.
  • the noise suppression circuit is an analog circuit and the pseudo audio signal E1 (310a, 310b) is used for digital control, conversion to a digital signal is performed by an analog-to-digital (A / D) converter.
  • the noise suppression circuit when the noise suppression circuit is a digital circuit, the signal output from the microphone is converted into a digital signal by the A / D converter before being input to the noise suppression circuit.
  • the noise suppression circuit in which the analog circuit and the digital circuit are mixed includes, for example, subtractors 401 and 403 that are analog circuits, and an adaptive filter NF402 and an adaptive filter XF404 that are analog circuits controlled by the digital circuit.
  • the noise suppression circuit shown in the figure is one preferable example of the circuit in the present embodiment.
  • the adaptive filter XF 404 may be replaced with a circuit that maintains the output signal at a predetermined level with respect to the input signal.
  • FIG. 4C shows a third configuration 310-3 of the noise suppression circuit 310 according to the present embodiment.
  • 4C is particularly suitable for a hands-free call configuration and includes two adaptive filters 402, 412.
  • the third configuration 310-3 shown in FIG. 4C is disclosed in Japanese Patent Application Laid-Open No. 2011-022604 and the document “Shigeji Ikeda and Akihiko SIGYAMA,” “AdaptiveNiseIsNeSNRC”. , VOL. 47, NO. 3, 1999, pp. 665-674 ”and will not be described here.
  • the configurations and operations of the subtractor 401 and the adaptive filter NF 402 are the same as those in 4A and 4B.
  • 4C includes an SNR estimation circuit 405 that estimates a signal-to-noise ratio SNR (Signal-to-Noise Ratio) based on a pseudo speech signal and an estimated noise signal, and an SNR estimation circuit 405. And a step size control circuit 406 for controlling the coefficient update in the adaptive filter 402 based on the output of.
  • SNR estimation circuit 405 estimates a signal-to-noise ratio SNR (Signal-to-Noise Ratio) based on a pseudo speech signal and an estimated noise signal
  • a step size control circuit 406 for controlling the coefficient update in the adaptive filter 402 based on the output of.
  • FIGS. 5A and 5B show the recommended location of the first microphone and the second microphone based on the results.
  • the above arrangement position is not limited to FIGS. 5A and 5B, for example, in order to eliminate unnecessary wiring.
  • the horizontal microphone pattern is the recommended placement position of the first microphone
  • the vertical stripe pattern is the recommended placement position of the second microphone
  • the white circle mark is This is the position of the lamp.
  • FIG. 5A is a view of the front as viewed from the driver's seat, as in FIG.
  • the recommended first microphone placement positions are near the meter behind the handle, near the center console 512 (in the center “3 cm” region in the figure), the occupant side of the sun visor 515, the occupant side of the door 513, and the like. Is illustrated. Although not shown, the position may be on the passenger side of the rearview mirror, the passenger side of the steering wheel, the inside of the windshield with a transparent wiring, or the like. On the other hand, the rear side of the sun visor 515 and the dashboard 516 are shown as recommended placement positions of the second microphone. Although not shown, the rear side of the rearview mirror may be used.
  • FIG. 5B is a view of the driver's seat as seen from the vicinity of the door on the opposite side. The description of the arrangement position illustrated in FIG.
  • FIG. 5A is omitted.
  • the second microphone is illustrated in the vicinity of the rear board 523 of the driver's seat or the room light 522.
  • the arrangement positions of the first microphone and the second microphone shown in FIGS. 5A and 5B will be described as follows.
  • a microphone arranged inside the front view of the occupant of the vehicle is a first microphone
  • a microphone arranged outside the front view of the occupant is a second microphone.
  • the first microphone and the second microphone are arranged at a distance such that the input voice signal level with respect to the voice from the speaker at a predetermined position has a difference that the noise suppression means can suppress noise.
  • FIG. 6 is a block diagram showing a hardware configuration of the voice processing apparatus 210 according to the present embodiment.
  • the noise suppression circuit and the control unit excluding the components arranged away from the control unit such as a microphone and a lamp are the voice processing device 210.
  • the audio processing device 210 may include any configuration. Data is output / input to / from the voice processing device 210 via the input / output interface 660. In FIG.
  • a CPU (Central Processing Unit) 610 is a processor for arithmetic control that realizes each functional component of FIG. 3 by executing a program.
  • a ROM (Read-Only Memory) 620 stores fixed data such as initial data and a program.
  • the communication control unit 630 communicates with an external processing unit and an internal processing unit. The communication may be wireless or wired.
  • a RAM (Random Access Memory) 640 is a random access memory used by the CPU 610 as a work area for temporary storage. In the RAM 640, an area for storing data necessary for audio processing according to the present embodiment is secured.
  • Reference numeral 641 denotes an activation flag indicating that the activation condition for activating the noise suppression circuit 310 is satisfied by turning on the lamp 231.
  • Reference numeral 642 denotes pseudo audio signal data output from the audio suppression circuit 310.
  • Reference numeral 643 denotes transmission voice data transmitted via the communication control unit 630.
  • Reference numeral 644 denotes reception voice data received via the communication control unit 630.
  • Reference numeral 645 denotes output audio data output from the speaker 360, for example.
  • the storage 650 stores a database, various parameters, or the following data or programs necessary for audio processing according to the present embodiment.
  • Reference numeral 651 denotes an activation condition that is a condition for turning on the activation flag 641. This condition is the operation of the switch 221 in this embodiment.
  • the storage 650 stores the following programs.
  • Reference numeral 652 denotes a voice processing program for controlling the entire processing.
  • FIG. 6 is a flowchart showing a processing procedure of the speech processing apparatus 210 according to the second embodiment of the present invention. This flowchart is executed using the RAM 640 by the CPU 610 of FIG. If it is neither step S711 nor S721, other processing is performed in step S731. First, in step S711, it is determined whether the activation condition is satisfied. This condition is ON of the switch 221 in this embodiment.
  • step S721 it is determined whether the stop condition is satisfied. This condition is that the switch 221 is OFF in this embodiment. If the activation condition is satisfied, the process proceeds to step S713, and the noise suppression circuit 310 is activated. Next, in step S715, voice transmission / reception processing by the voice transmission / reception unit 340 is activated. In step S717, the lamp 231 arranged in the direction of the first microphone is turned on to notify activation. If the stop condition is satisfied, the process proceeds to step S723, the lamp 231 is turned off, and the stop is notified. Next, in step S725, the voice transmission / reception process by the voice transmission / reception unit 340 stops. In step S727, the noise suppression circuit 310 is stopped.
  • FIG. 8 is a block diagram showing a functional configuration of the voice processing system 800 according to the present embodiment.
  • FIG. 8 shows a configuration in which the audio transmission / reception unit 340 is replaced with the recording unit 840 in FIG. 3 of the second embodiment.
  • the audio signal is digitized and compressed. Furthermore, the audio signal may be encrypted. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the speech processing system according to the present embodiment and the second and third embodiments is that the activation condition of the activation unit is not a switch operation but a “call” or “command” of the speaker. is there.
  • FIG. 9 is a block diagram showing a functional configuration of the voice processing system 900 according to the present embodiment.
  • FIG. 9 shows a configuration in which the activation unit 320 is replaced with the activation unit 920 in FIG. 3 of the second embodiment. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the activation unit 920 registers in advance the voice that the speaker calls or the voice of the command or command in the voice registration unit 922.
  • FIG. 9 illustrates “Hello” and “Start” as examples.
  • the comparison unit 921 compares the first input audio signal 201a from the first microphone 201 with the audio signal registered in the audio registration unit 922. If the two signals match, the activation condition is satisfied. The lamp 231 of the notification unit 330 is turned on, and the noise suppression circuit 310 is activated. Note that the audio signal in the activation unit 920 may be an analog signal or digital data.
  • a speech recognition device when installed, a variety of sentences can be processed by comparison based on the result of speech recognition for a simple word without noise suppression instead of processing a speech signal.
  • voice signal processing if a person's voice signal such as a driver is registered in advance, a person can be specified based on the voice signal.
  • FIG. 10 is a block diagram showing a functional configuration of the voice processing system 1000 according to the present embodiment.
  • the car navigation device 1010 includes a first microphone 201, a switch (call button 1011), a lamp (display 1012 during a call), and a speaker 1013.
  • the activation unit 1020 does not include a switch. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • the utterance direction and the utterance timing are visually notified by the display on the screen of the car navigation device, but the present invention is not limited to this. For example, an image may be projected on the windshield, and the utterance direction and the utterance timing may be visually notified. [Sixth Embodiment] Next, a speech processing system according to the sixth embodiment of the present invention will be described.
  • FIG. 11 is a block diagram showing a functional configuration of the voice processing system 1100 according to the present embodiment.
  • the pseudo speech signal output from the noise suppression circuit 310 is recognized by the speech recognition unit 1120.
  • the recognition result data is sent to the data processing unit 1140 and processed.
  • the above data processing may include transmission / reception and storage.
  • the data may be transferred to the car navigation device and used as an instruction for car navigation.
  • FIG. 12 shows a fourth configuration 310-4 of the noise suppression circuit 310 according to the present embodiment.
  • the circuits shown in FIGS. 4A to 4C may be employed as the noise suppression circuit 310 in FIG. 11, the configuration 310-4 shown in FIG. 12 is suitable for highly accurate speech recognition.
  • the configurations and operations of the subtractor 401 and the adaptive filter NF 402 are the same as those in 4A to 4B, and a description thereof will be omitted.
  • a noise estimation unit 1201 that employs a weight estimation method (WiNE) that uses a noise estimation method that follows a changing noise by utilizing the property that the noise slowly varies.
  • the noise suppression circuit employs MBW (Model-Based Wiener Filter) which is a speech enhancement method that performs filtering so that the speech recognition output resembles a known speech signal pattern based on the output of the noise estimation unit 1201.
  • MBW Model-Based Wiener Filter
  • the MBW is described in detail in Japanese Patent Application Laid-Open No. 2007-033920.
  • a speech processing system according to the seventh embodiment of the present invention will be described.
  • speech processing system according to the present embodiment during activation of the noise suppression circuit 310 or the speech recognition unit, speech by a speaker in a direction different from that of the first microphone, particularly speech in the direction of the second microphone.
  • the direction of the speaker is recognized from the difference between the input sound signals of the first microphone and the second microphone, and control is performed so that noise suppression and speech recognition processing are interrupted.
  • FIG. 13 is a block diagram showing a functional configuration of the voice processing system 1300 according to the present embodiment.
  • the audio input control unit 1320 is being activated based on the difference between the first input audio signal 201a from the first microphone 201 and the second input audio signal 202a from the second microphone.
  • the processing of the noise suppression circuit 310 and the speech recognition unit 1120 is interrupted. This embodiment can also be applied to a configuration in which the voice processing system 1300 does not include the voice recognition unit 1120.
  • FIG. 14A is a block diagram illustrating a configuration of the voice input control unit 1320 according to the present embodiment.
  • a difference value 1421 a between the first input audio signal 201 a from the first microphone 201 and the second input audio signal 202 a from the second microphone input by the subtractor 1421. Is acquired.
  • the difference value 1421a is compared with the threshold value Th1 in the comparison unit 1422. If the difference value 1421a is equal to or less than the threshold value TH1, a Low output signal 1422a is output.
  • the AND gate 1423 the activation signal from 320a is blocked when the output signal 1422a is Low, and the output control signal 1320a of the audio input control unit 1320 becomes Low. Therefore, as shown in FIG. 13, the processing of the noise suppression circuit 310 and the speech recognition unit 1120 is interrupted while the output signal 1422a is Low.
  • FIG. 14B is a timing chart showing the operation 1400 of the voice input control unit 1320 according to this embodiment.
  • the activation signal 320a from the activation unit 320 by the switch 221 is shown in the uppermost part of FIG.
  • a difference value 1421a and a threshold value Th1 are shown in the second level.
  • the output signal 1422a of the comparison unit 1422 shown in the third row is Low when the difference value 1421a does not exceed the threshold value Th1. Therefore, even if the activation signal 320a is High, if the difference between the first input audio signal level and the second input signal level is less than or equal to the threshold, or if the sign of the difference is inverted, the audio input control unit 1320 Output control signal 1320a becomes Low, and the processing is interrupted.
  • FIG. 15 is a block diagram showing a functional configuration of the voice processing system 1500 according to the present embodiment. As shown in FIG.
  • the speech processing system 1500 includes a recognition data buffer 1530 that buffers a speech recognition result that is an output of the speech recognition unit 1120.
  • the recognition output control unit 1520 performs speech recognition based on a difference between average values of the first input audio signal 201a from the first microphone 201 and the second input audio signal 202a from the second microphone in a predetermined period.
  • the erroneous recognition result by the unit 1120 is discarded from the recognition data buffer 1530.
  • the subsequent processing unit 1540 performs processing such as voice transmission / reception of the first to sixth embodiments as in FIG. Since other configurations and operations are the same as those of the second embodiment, the same configurations and operations are denoted by the same reference numerals, and detailed description thereof is omitted.
  • FIG. 16A is a block diagram illustrating a configuration of the recognition output control unit 1520 according to the present embodiment.
  • the first buffer 1621 and the first averaging unit 1622 output the average value 1622a of the first input audio signal 201a input from the first microphone 201 for a predetermined period. Is done.
  • the second buffer 1623 and the second averaging unit 1624 output an average value 1624a of the second input audio signal 202a input from the second microphone 202 for a predetermined period.
  • the comparison unit 1625 compares the average value 1622a of the first input audio signal 201a for a predetermined period with the average value 1624a of the second input audio signal 202a for a predetermined period.
  • FIG. 16B is a timing chart showing an operation 1600 of the recognition output control unit 1520 according to the present embodiment.
  • An activation signal 320a from the activation unit 320 by the switch 221 is shown in the uppermost part of FIG. 16B.
  • an average value 1622a of the first input audio signal 201a and an average value 1624a of the second input audio signal 202a are shown.
  • the output signal 1625a of the comparison unit 1625 shown in the third stage is Low when the average value 1624a is larger than the average value 1622a. Therefore, even if the activation signal 320a is High, when the average value of the first input audio signal level for a predetermined period is smaller than the average value of the second input signal level for a predetermined period, the output control of the recognition output control unit 1520 Signal 1520a goes low.
  • the activation unit does not generate the activation signal by the activation operation of the speaker as in the above embodiment, but is triggered by the input to the first microphone and the second microphone.
  • the activation unit automatically generates an activation signal.
  • the stop process is automatically performed based on the input to the first microphone and the second microphone.
  • the audio processing system 1700 shown in FIG. 17 includes an audio signal buffer 1730 provided in the previous stage of the noise suppression circuit 310.
  • the activation unit 1720 receives the first input audio signal 201a from the first microphone 201 and the second input audio signal 202a from the second microphone 202, and generates an activation signal 1720a.
  • the audio signal buffer 1730 buffers the audio signal corresponding to the delay time of the processing of the activation unit 1720 so that the necessary audio signal is not lost due to the delay of the processing of the activation unit 1720.
  • the subsequent processing unit 1740 performs processing such as voice transmission / reception of the first to sixth embodiments, similarly to FIG.
  • FIG. 18 is a block diagram illustrating a functional configuration of the activation unit 1720 according to the present embodiment.
  • the third buffer 1821 and the third average unit 1822 output the average value 1822a of the first input audio signal 201a input from the first microphone 201 for a predetermined period.
  • the fourth buffer 1823 and the fourth average unit 1824 output an average value 1824a of the second input audio signal 202a input from the second microphone 202 for a predetermined period.
  • the subtractor 1825 calculates a difference value 1825a between the average value 1822a and the average value 1824a.
  • the comparison unit 1826 compares the difference value 1825a with the threshold value Th2, and if the difference value 1825a is larger than the threshold value Th2, the output signal 1826a is set to High. That is, it is determined that the speaker is facing the first microphone 201. Then, a set / reset flip-flop (hereinafter referred to as RS-F / F) 1827 is set, and an activation signal 1720 a is output from the activation unit 1720. On the other hand, if the difference value 1825a is smaller than the threshold Th2, the output signal 1826a is set to Low. That is, it is determined that the speaker is not facing the first microphone 201 or is not speaking.
  • RS-F / F set / reset flip-flop
  • the sound processing system includes a selection unit that selects a first microphone and a second microphone from a plurality of microphones provided at different positions according to a predetermined selection condition.
  • the predetermined selection condition is a microphone selection operation of the speaker.
  • the selection means selects the first microphone and the second microphone according to the microphone selection operation of the speaker.
  • a voice in which in-vehicle noise is suppressed is input.
  • an example in which a microphone that inputs desired sound is designated from two microphones is shown, but the number of microphones is not limited to two.
  • FIG. 19 is a block diagram showing a functional configuration of a voice processing system 1900 according to the present embodiment.
  • the voice processing system 1900 is provided in the driver's seat and is operated when the driver speaks, and the passenger seat switch that is provided in the passenger's seat and operated when the passenger in the passenger seat speaks.
  • the voice processing system 1900 according to the present embodiment includes an activation unit 1920, a notification unit 1930, and a microphone selection in addition to the configuration of the voice processing system according to the second embodiment shown in FIG. Part 1940 and a switch circuit 1950.
  • the activation unit 1920 includes a driver seat switch 1921 and a passenger seat switch 1922, and an OR gate 1923 that calculates a logical sum of outputs by operating the two switches.
  • An activation signal 1920a from the activation unit 1920 is an output from the OR gate 1923, and becomes High when either the driver seat switch 1921 or the passenger seat switch 1922 is operated.
  • the activation signal 1920a also activates the subsequent processing unit 1960.
  • the notification unit 1930 includes a driver seat microphone lamp 1931 and a passenger seat microphone lamp 1932 corresponding to the driver seat switch 1921 and the passenger seat switch 1922, respectively.
  • the notification unit 1930 notifies the driver's seat passenger and the passenger seat passenger of the position of each first microphone.
  • the microphone selection unit 1940 includes an RS-F / F 1941.
  • Operation signals of the driver seat switch 1921 and the passenger seat switch 1922 are input to the set terminal (S) and the reset terminal (R) of the RS-F / F 1941.
  • the output signal 1940a from the true value (Q) of the RS-F / F 1941 is input to the switch circuit 1950 provided in the previous stage of the noise suppression circuit 310, and the switch position is switched.
  • the switch position in the switch circuit 1950 shown in FIG. 19 is such that the first input audio signal 201a is input to the audio input terminal (upper) of the noise suppression circuit 310 and the second is input to the noise input terminal (lower) of the noise suppression circuit 310.
  • the input audio signal 202a is input.
  • the second input audio signal 202a is input to the audio input terminal (upper) of the noise suppression circuit 310, as indicated by a broken line in FIG.
  • the first input audio signal 201a is input to the noise input terminal (downward) of the noise suppression circuit 310.
  • the second microphone 202 is used for voice input and the first microphone 201 is used for noise input.
  • the passenger seat microphone lamp 1932 is lit so that the passenger in the passenger seat speaks toward the second microphone 202.
  • the second microphone 202 is provided in the dashboard in front of the passenger seat in FIGS. 5A and 5B, but is not limited thereto. As described above, if a plurality of microphones can be arranged at various positions, a switch, a microphone, and a lamp may be installed in each seat. [Eleventh embodiment] Next, a speech processing system according to the eleventh embodiment of the present invention will be described.
  • the first microphone and the second microphone are not determined according to the instructions of the speaker as in the tenth embodiment, but the first microphone and the second microphone are determined.
  • the two microphones are automatically switched.
  • the voice in which the in-vehicle noise is suppressed is input.
  • a microphone that inputs desired sound is automatically selected from two microphones, but the number of microphones is not limited to two.
  • a microphone for voice input may be automatically selected from a plurality of microphones.
  • FIG. 20 is a block diagram showing a functional configuration of the voice processing system 2000 according to the present embodiment. In FIG.
  • the configuration of the switch circuit 1950 is the same as that of the tenth embodiment.
  • an audio signal buffer 2050 is provided between the switch circuit 1950 and the noise suppression circuit 310.
  • the audio signal buffer 2050 prevents a necessary audio signal from being lost due to processing delay of the activation unit 2020.
  • the audio processing system 2000 shown in FIG. 20 includes a buffer and an average unit, and generates an activation signal 2020a based on an average value of the first input audio signal 201a and the second input audio signal 202a over a predetermined period.
  • An activation unit 2020 is generated.
  • the activation signal 2020a also activates the subsequent processing unit 2060.
  • the sound processing system 2000 further includes a microphone selection unit 2040 that has a buffer and an average unit, and generates a switching signal 2040a for switching the switch circuit 1950 and switching the lighting lamp of the notification unit 2030.
  • the operations of the activation unit 2020 and the microphone selection unit 2040 shown in FIG. 20 are apparent from the description in the above embodiment. In order to avoid complexity, detailed description is omitted here.
  • a speech processing system according to the twelfth embodiment of the present invention will be described.
  • the trigger for starting the notification unit 330, the noise suppression circuit 310, and the like is not an instruction of a speaker or an input voice signal from a microphone.
  • FIG. 21 is a block diagram showing a functional configuration of the voice processing system 2100 according to the present embodiment. The difference between the audio processing system according to this embodiment and the above-described embodiment is that, as shown in FIG. Part 2120.
  • the activation unit 2120 determines that the line of sight of the speaker is facing the microphone based on the line-of-sight determination result of the line-of-sight determination unit 2121, the activation unit 2120 outputs an activation signal 2120 a.
  • the activation signal 2120a activates the noise suppression circuit 310, the speech recognition unit 1120, and the subsequent processing unit 2150. Since the processing of the line-of-sight determination unit 2121 is known, detailed description thereof is omitted.
  • an activation signal for activating the activation unit is generated based on the line of sight of the speaker acquired from the video from the camera.
  • the speech processing system even when the speech processing system is being activated, the activation is interrupted based on the line of sight of the speaker.
  • speech produced by a speaker in a direction different from that of the first microphone during activation of the noise suppression circuit or the speech recognition unit is dealt with.
  • control is performed so that the line of sight of the speaker is recognized from the video imaged by the camera, and the processing of noise suppression and voice recognition is interrupted.
  • the speaker is turned in a different direction from the first microphone during activation of the noise suppression unit or the like, the in-vehicle noise is appropriately suppressed, and the noise-reduced voice can be accurately detected.
  • FIG. 22 is a block diagram showing a functional configuration of the voice processing system 2200 according to this embodiment.
  • the difference between the voice processing system according to the present embodiment and the above-described embodiment is that, as shown in FIG. 22, in the AND gate 2221 of the voice input control unit 2220, the activation signal 320a from the activation unit 320 is the camera 2140. Is gated by the output of the line-of-sight determination unit 2230 that determines the line of sight of the speaker based on the video from According to the above configuration, even when the activation signal 320a from the activation unit 320 is High and the lamp 231 of the notification unit 330 is lit, it is determined that the line of sight of the speaker is not facing the direction of the microphone.
  • a speech processing system according to the fourteenth embodiment of the present invention will be described.
  • the configuration and operation of the voice processing system have been described for the processing of voice spoken by a passenger in the vehicle.
  • an application example of the present invention to a room such as a conference room will be described.
  • a voice input microphone (first microphone) and a noise input microphone (second microphone) among a plurality of microphones arranged on the table in the room are instructed by the speaker. Alternatively, it is automatically selected and the first microphone is notified by lighting of a lamp or the like.
  • FIG. 23 is a block diagram illustrating a functional configuration of the voice processing system 2300 according to the present embodiment.
  • five speakers 2301 to 2305 sit around the table 2320 and have a conversation.
  • the conversation is not shown, but may be a video conference.
  • the table 2320 is provided with a first microphone 201 and a second microphone 202.
  • a lamp 2331 for notifying that the first microphone 201 is for voice input is disposed on the first microphone 201 side.
  • a lamp 2332 for notifying that the second microphone 202 is for voice input is arranged on the second microphone 202 side.
  • a switch in which a speaker instructs a voice input microphone may be arranged near each microphone.
  • the voice processing device 2310 according to this embodiment has the same configuration as that of the above-described embodiment, particularly the tenth embodiment or the eleventh embodiment. That is, the audio processing device 2310 includes a noise suppression circuit, an activation unit, a microphone selection unit, and a lamp selection unit. In the voice processing device 2310, when the speakers 2301 and 2302 speak, the lamp 2331 is turned on, the first microphone 201 is set for voice input, and the second microphone 202 is set for noise input.
  • the voice processing system includes a second microphone for noise input arranged on the ceiling of a room and an audio arranged in each household appliance in an environment where operation of the household appliance is realized by uttering the household appliance.
  • a first microphone for input and a notification lamp are included. The instruction to each home appliance is operated so as to be accurately recognized.
  • FIG. 24 is a block diagram showing a functional configuration of the voice processing system 2400 according to the present embodiment.
  • an air conditioner air conditioner
  • a television a personal computer (PC)
  • a telephone are installed in the room.
  • a microphone 201-1 and a lamp 2401-1 are disposed in the air conditioner.
  • a microphone 201-2 and a lamp 2401-2 are arranged on the television.
  • a microphone 201-3 and a lamp 2401-3 are arranged.
  • the telephone is provided with a microphone 201-4 and a lamp 2401-4.
  • a second microphone 202 for noise input is disposed on the ceiling of the room.
  • Input audio signals from the microphones 201-1 to 201-4 are input to the microphone selection unit 2410.
  • the microphone selection unit 2410 selects, as the first microphone, a microphone that outputs an input audio signal having an audio signal level equal to or higher than a predetermined value (threshold value) from the input audio signal level from the second microphone 202.
  • the first input audio signal selected by the microphone selection unit 2410 and the second input audio signal of the second microphone 202 are input to the noise suppression circuit 310.
  • the first microphone ID for identifying the microphone that has output the first input audio signal is output to the lamp selection unit 2420.
  • the lamp selection unit 2420 lights a lamp arranged together with the microphone selected as the first microphone for voice input corresponding to the first microphone ID.
  • the pseudo speech signal output from the noise suppression circuit 310 is recognized by the speech recognition unit 1120 and processed by the data processing unit 1140.
  • the data processing unit 1140 for example, temperature or air volume setting for an air conditioner, channel or volume setting for a television, digital communication control, PC connection to the Internet or download processing control, etc. Automatic dialing or conversation is performed on the telephone by voice.
  • the present embodiment only the indoor configuration is shown, but the present invention is not limited to this.
  • the present invention can also be applied to outdoor guidance, consultation terminals, digital signage, and the like.
  • this invention was demonstrated with reference to embodiment, this invention is not limited to the said embodiment.
  • Various changes that can be understood by those skilled in the art can be made to the configuration and details of the present invention within the scope of the present invention.
  • a system or apparatus that combines the features included in each embodiment is also included in the scope of the present invention.
  • the present invention may be applied to a system composed of a plurality of devices, or may be applied to a single device.
  • the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to implement the functions of the present invention on a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server on which the control program is downloaded are also included in the present invention. Included in the category.
  • This application claims the priority on the basis of Japanese application Japanese Patent Application No. 2011-125545 for which it applied on June 3, 2011, and takes in those the indications of all here.
  • the present invention can be suitably applied to electronic devices controlled by voice.
  • the present invention is particularly suitable for a voice processing system that is installed in a driver's seat or a meeting room of a vehicle, removes noise from voices uttered by a speaker, and generates a control signal used to control an electronic device. Is done.
  • Audio processing system 101 First microphone 101a First input audio signal 102 Second microphone 102a Second input audio signal 110, 330, 1930, 2030 Notification unit 120
  • Activation unit 130a Activation condition holding unit 140, 2301, 2302, 2303, 2304 2305
  • Speaker 201 First microphone 202 Second microphone 210, 2310 Audio processing device 221 Switch 231, 231, 2332, 2401-1, 2401-2, 2401-1, 2401-4, Lamp 201a First input audio signal 202a Second input audio signal 310, 310-1, 310-2, 310-3, 310-4
  • Noise suppression circuits 310a, 310b, 310c Pseudo audio signals 320a, 1720a, 1920a, 2020a 2120a
  • Activation signal 340 Audio transmission / reception unit 350 Antenna 360

Abstract

ユーザに、音声を入力するタイミングと方向を報知する音声処理システムを提供する。音声処理システムは、発話者からの音声を元に第1の入力音声信号を生成する第1のマイクロホンと、第1のマイクロホンとは異なる位置に設けられ第2の入力音声信号を生成する第2のマイクロホンと、第2の入力音声信号を元に第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知手段と、報知手段による報知処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。

Description

音声処理システム、音声処理装置、音声処理方法およびそのプログラム
 本発明は、発話者から取得した音声を処理する、音声処理システム、音声処理装置、音声処理方法及びそのプログラムに関する。
 携帯電話機の普及により、電話での通話による通信の自由度は大きくなってきている。また、最近は、電子機器へ入力方法の一つとして、ユーザから発せられた音声が電子機器により認識され、制御に利用される。
 音声の認識及び利用においては、音声の取得時に同時に混入するノイズと信号との弁別が行われる。近年、携帯電話の通話或いは音声認識はさまざまな環境で行われ、混入するノイズの除去がますます重要になっている。
 特許文献1には、ユーザと表示装置との距離を測定し、該距離が所定範囲内であり、かつ、ユーザが該所定範囲内に所定時間滞在すると判定される場合に、マイクロホンから入力された音声の認識を開始する技術が記載される。
 また、特許文献2には、通信のための呼び出し信号の受信時に、表示手段の動作により、乗り物の運転者または同乗者に、外部からの着信を視覚的に認識させる技術が記載される。
 さらに、特許文献3には、集音用のマイクロホンにより取得された音声信号と、ノイズ集音用のマイクロホンにより取得された音声信号とに基づいて、所望の音から周囲のノイズを除去する技術が記載される。
特開2003−044089号公報 特開2003−087359号公報 特開2008−035356号公報
 例えば、携帯電話或いは音声認識処理により制御される電子機器が自動車に搭載され、運転者がユーザとして発話する場合、該運転者は運転操作をしながら発話することがある。運転操作をする運転者が、発話するために、視線を携帯電話または該電子機器に移動させることは危険である。
 このため、運転者は、運転操作に支障のない単純な操作で、発話開始を電子機器に指示し、発話開始の許可を確認した後に発話を開始する。
 携帯電話或いは電子機器には、運転者に発話開始許可を通知する機能が要求される。さらに、マイクロホンの方向、すなわち、運転者がどのマイクロホンに発話するか、を運転者に通知する機能が要求される。
 特許文献1は、ユーザと表示装置との距離を元に音声認識の開始時期が判断されるのみであり、ユーザによる発話時期の要求には対応できない。
 特許文献2は、呼び出し信号の着信を通知する視覚的表示を記載するのみであり、発話の時期の制御を記載しない。
 特許文献3は、2つの音声信号に基づいて、ノイズを除去する処理を記載するのみであり、ユーザの発話の時期の制御を記載しない。
 本発明の目的は、上述の課題を解決する音声処理システム、音声処理装置、音声処理方法及びそのプログラムを提供することにある。
 上記目的を達成するため、本発明に係る音声処理システムは、発話者からの音声を元に第1の入力音声信号を生成する第1のマイクロホンと、第1のマイクロホンとは異なる位置に設けられ第2の入力音声信号を生成する第2のマイクロホンと、第2の入力音声信号を元に第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知手段と、報知手段による報知処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。
 上記目的を達成するため、本発明に係る音声処理方法は、第1のマイクロホンによって発話者からの音声を元に第1の入力音声信号を生成するステップと、第1のマイクロホンとは異なる位置に設けられる第2のマイクロホンによって第2の入力音声信号を生成するステップと、第2の入力音声信号を元に第1の入力音声信号に含まれる雑音信号を推定して推定雑音信号を生成するステップと、推定雑音信号を元に雑音信号を抑圧する抑圧ステップと、発話者に発話の方向及びタイミングを報知する報知ステップと、抑圧ステップと報知ステップの起動を制御する起動ステップとを含む。
 上記目的を達成するため、本発明に係る音声処理装置は、第1のマイクロホンによって発話者からの音声を元に生成された第1の入力音声信号に含まれる雑音信号を、第1のマイクロホンとは異なる位置に設けられた第2のマイクロホンによって生成された第2の入力音声信号を元に推定して、推定雑音信号を生成し、推定雑音信号を元に雑音信号を抑圧する、雑音抑圧手段と、発話者に発話の方向及びタイミングを報知する報知信号を出力する出力手段と、報知信号の出力処理と雑音抑圧手段による雑音抑圧処理を制御する起動手段とを備える。
 上記目的を達成するため、本発明に係る音声処理プログラムは、第1のマイクロホンによって発話者からの音声を元に第1の入力音声信号を生成する処理と、第1のマイクロホンとは異なる位置に設けられる第2のマイクロホンによって第2の入力音声信号を生成する処理と、第2の入力音声信号を元に第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成する処理と、推定雑音信号を元に雑音信号を抑圧する抑圧処理と、発話者に発話の方向及びタイミングを報知する報知処理と、抑圧処理と報知処理の起動を制御する起動処理とをコンピュータに行わせることを特徴とする。
 本発明によれば、音声を入力する時期と方向とをユーザに報知する、使い勝手の良い、音声処理システム、音声処理装置、音声処理方法及びプログラムが提供される。
本発明の第1の実施形態に係る音声処理システムの構成を示す。 本発明の第2の実施形態に係る音声処理システムの概略の構成を示す。 本発明の第2の実施形態に係る音声処理システムの構成を示す。 本発明の第2の実施形態に係る雑音抑圧回路の第1の構成を示す。 本発明の第2の実施形態に係る雑音抑圧回路の第2の構成を示す。 本発明の第2の実施形態に係る雑音抑圧回路の第3の構成を示す。 本発明の第2の実施形態に係る音声処理システムにおいて、構成要素を配置可能な位置を示す。 本発明の第2の実施形態に係る音声処理システムにおいて、構成要素を配置可能な位置を示す。 本発明の第2の実施形態に係る音声処理システムのハードウェアの構成を示す。 本発明の第2の実施形態に係る音声処理装置における処理の手順を示すフローチャートである。 本発明の第3の実施形態に係る音声処理システムの構成を示す。 本発明の第4の実施形態に係る音声処理システムの構成を示す。 本発明の第5の実施形態に係る音声処理システムの構成を示す。 本発明の第6の実施形態に係る音声処理システムの構成を示す。 本発明の第6の実施形態に係る雑音抑圧回路の構成を示す。 本発明の第7の実施形態に係る音声処理システムの構成を示す。 本発明の第7の実施形態に係る音声入力制御部の構成を示す。 本発明の第7の実施形態に係る音声入力制御部の動作を示す。 本発明の第8の実施形態に係る音声処理システムの構成を示す。 本発明の第8の実施形態に係る認識出力制御部の構成を示す。 本発明の第8の実施形態に係る認識出力制御部の動作を示す。 本発明の第9の実施形態に係る音声処理システムの構成を示す。 本発明の第9の実施形態に係る起動部の構成を示す。 本発明の第10の実施形態に係る音声処理システムの構成を示す。 本発明の第11の実施形態に係る音声処理システムの構成を示す。 本発明の第12の実施形態に係る音声処理システムの構成を示す。 本発明の第13の実施形態に係る音声処理システムの構成を示す。 本発明の第14の実施形態に係る音声処理システムの構成を示す。 本発明の第15の実施形態に係る音声処理システムの構成を示す。
 以下、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載される構成要素は単なる例示であり、本発明の技術範囲はそれらのみに限定されない。
 [第1の実施形態]
 本発明の第1の実施形態に係る音声処理システム100について、図1を参照して説明する。
 図1に示されるように、音声処理システム100は、第1のマイクロホン101と、第2のマイクロホン102と、雑音抑圧部120と、報知部110と、起動部130とを含む。第1のマイクロホン101には、発話者140からの音声が入力され、第1の入力音声信号101aが出力される。第2のマイクロホン102は、第1のマイクロホン101とは異なる位置に設けられ、第2の入力音声信号102aを出力する。雑音抑圧部120は、第2のマイクロホン102により出力された第2の入力音声信号102aを元に、第1のマイクロホン101から出力された第1の入力音声信号101a中に混在すると推定される推定雑音信号を生成する。雑音抑圧部120は、生成された推定雑音信号に基づいて、第1のマイクロホン101から出力された第1の入力音声信号中の雑音信号を抑圧する。報知部110は、発話者140から見て第1のマイクロホン101の方向に設けられ、発話者140に対して発話方向および発話タイミングを視覚的に報知する。起動部130は、起動条件保持部130aに保持された起動条件が満たされたときに、報知部110における報知処理と雑音抑圧部120における雑音抑圧処理とを開始する。
 本実施形態によれば、発話者であるユーザに対して音声を入力すべきタイミングと方向とを報知する、ユーザフレンドリーな音声処理システムが提供される。
 [第2の実施形態]
 次に、本発明の第2の実施形態に係る音声処理システムについて、図2乃至7を参照して説明する。
 本実施形態は、車両の運転席における乗員が発声する音声を取得する音声取得システムに関する。本実施形態に係る音声処理システムにおいて、運転者が発話した音声の処理を要求してスイッチが操作されると、発話した音声が入力される第1のマイクロホンの方向のランプが点灯する。点灯と同時に、第1のマイクロホンと第2のマイクロホンとによる雑音抑圧処理が開始する。雑音抑圧処理が行われた音声は、外部との通信による会話に使用される。本実施形態によれば、運転者が点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が外部に送信される。
 図2は、本実施形態に係る音声処理システム200の概略の構成を示す。
 図2は、車両の運転席から車両の前方を見た光景である。本実施形態に係る音声処理システムは、雑音抑圧回路を有する音声処理装置210を含む。音声処理装置210の雑音抑圧回路に所望の音声の信号を入力するための第1のマイクロホン201が、ハンドル後方のメータ類の近傍に配置される。一方、音声処理装置210の雑音抑圧回路に雑音の信号を入力するための第2のマイクロホン202が、ダッシュボード上に配置される。また、起動部は、スイッチ221を含む。該スイッチ221は、運転者がハンドルを握った状態で、運転者の指が到達する範囲内に配置される。運転者が発話した音声の処理を要求する場合、該スイッチ221は、該処理要求を音声処理装置210に指示する。また、ランプ231が、運転者から見て第1のマイクロホン201と同じ方向、つまり、運転者から容易に観察し得る位置に配置される。ランプ231は、音声処理装置210が雑音抑圧処理を含む音声処理を実行していることを報知し、運転者に発話の方向を報知する。
 上述の構成を有する音声処理システムにおいて、運転者が外部との通信による会話を要求する場合、運転者はスイッチ221を操作する。音声処理装置210は、運転者によるスイッチ221の操作を検知して、雑音抑圧回路を起動し、第1のマイクロホン201の後方に備えられたランプ231を点灯する。運転者は、ランプ231の点灯を目視により確認して、ランプ231の方向に発話する。
 本実施形態に係る音声処理システムにおいては、運転者の口と第1のマイクロホン201とランプ231とは、ほぼ直線上にあるように配置される。このため、運転者の所望の音声は第1のマイクロホン201に確実に入力される。一方、雑音抑圧回路において雑音の抑圧に使用される雑音を取得する第2のマイクロホン202は、ダッシュボード上に配置され、エンジン音や空調機の稼動音などの雑音が入力される。しかしながら、運転者がランプ231の方向に発話するので、第2のマイクロホン202に入力される運転者の音声は比較的小さい。第2のマイクロホン202からの入力音声信号を用いて、第1のマイクロホン201からの入力音声信号から雑音が差し引かれ、雑音抑圧処理が行われる。第2のマイクロホン202へは運転者の音声が回り込むことがないので、正確な雑音抑圧処理が行われる。
 図3は、本実施形態に係る音声処理システム200の機能の構成を示すブロック図である。
 本実施形態の音声処理システム200の音声処理装置210は、雑音抑圧回路310と、スイッチ221を有する起動部320を含む。第1のマイクロホン201からは第1の入力音声信号201aが雑音抑圧回路310に入力され、第2のマイクロホン202からは第2の入力音声信号202aが雑音抑圧回路310に入力される。雑音抑圧回路310において雑音が抑圧された音声信号は、音声送受信部340に入力される。音声送受信部340は、第1のマイクロホン201から入力された所望の音声を、アンテナ350を介して外部に送信する。一方、アンテナ350を介して音声送受信部340で受信された音声は、スピーカ360(あるいはイヤホン)により出力される。上述の音声処理により、外部との会話が実現する。
 起動部320のスイッチ221が操作されると、起動部320から起動信号320aが出力される。起動信号320aが出力されない場合、すなわち、スイッチ221が操作されない場合は、雑音抑圧回路310および音声送受信部340は動作しない。あるいは、雑音抑圧回路310は雑音抑圧処理を行わない。起動信号320aは、雑音抑圧回路310を起動する。これと同時に、起動信号320aは報知信号として報知部330に伝送され、ランプ231を点灯する。ランプ231の点灯は、運転者に第1のマイクロホン201の方向へ発話するよう促す。
 図4Aは、本実施形態に係る雑音抑圧回路310の第1の構成310−1を示す。
 図4Aに示されるように、雑音抑圧回路の第1の構成310−1は、減算器401及び適応フィルタNF402を含む。減算器401は、第1の入力音声信号201aから、第1の入力音声信号201aに混在すると推定される推定雑音信号Y1を減算する。適応フィルタNF402は、第2の入力音声信号202aを元に、推定雑音信号Y1を生成する。本実施形態に係る雑音抑圧回路310−1において、減算器401は、第1のマイクロホン201から伝送された第1の入力音声信号201aから推定雑音信号Y1を減算し、擬似音声信号E1(310a)を出力する。
 本実施形態に係る雑音抑圧回路310の第1の構成310−1において、起動部320からの起動信号320aがOFFの場合、適応フィルタNF402の動作が停止する。このとき、減算器401へは推定雑音信号Y1が入力されない。したがって、雑音抑圧の処理が行われない第1の入力音声信号は、そのまま擬似音声信号E1として出力される。なお、起動信号320aがOFFの場合に、雑音抑圧回路310の動作が停止してもよい。
 図4Bは、本実施形態に係る雑音抑圧回路310の第2の構成310−2を示す。
 図4Bに示される、雑音抑圧回路の第2の構成310−2は、減算器401、403、適応フィルタNF402及び適応フィルタXF404を含む。減算器401は、第1の入力音声信号201aから、第1の入力音声信号201aに混在すると推定される推定雑音信号Y1を減算する。減算器403は、第2の入力音声信号202aから、第2の入力音声信号202aに混在すると推定される推定音声信号Y2を減算する。適応フィルタNF402は、減算器403の出力信号である擬似雑音信号E2から、推定雑音信号Y1を生成する、推定雑音信号生成部である。適応フィルタXF404は、減算器403の出力信号である擬似音声信号E1(310b)から、推定音声信号Y2を生成する、推定音声信号生成部である。適応フィルタXF404の具体例は、国際公開第2005/024787号公報に記載される。
 例えば、対象とする音声が、2つのマイクロホンの境界を回り込んで、第2のマイクロホン202に入力されると、第2の入力音声信号204に音声信号が混在する。この場合、適応フィルタXF404は、減算器401において、回り込んだ音声からの音声信号が、第1の入力音声信号201aから誤って除去されるのを防ぐ。
 上記の構成において、減算器401は、第1のマイクロホン201から伝達された第1の入力音声信号201aから推定雑音信号Y1を減算し、擬似音声信号E1(310b)を出力する。
 ここで、推定雑音信号Y1は、適応フィルタNF402において、擬似音声信号E1(310b)に基づき変化するパラメータを使って、擬似雑音信号E2から生成される。擬似雑音信号E2は、減算器403において、信号線により第2のマイクロホン202から伝達された第2の入力音声信号202aから、推定音声信号Y2を減算することにより得られる。この推定音声信号Y2は、適応フィルタXF404において、推定音声信号Y2に基づき変化するパラメータを使って、擬似音声信号E1(310b)から生成される。
 本実施形態に係る雑音抑圧回路310の第2の構成310−2において、起動部320からの起動信号320aがOFFの場合、適応フィルタNF402および適応フィルタXF404の動作が停止する。このとき、減算器401へは推定雑音信号Y1が入力されず、減算器403へは推定音声信号Y2が入力されない。したがって、雑音抑圧の処理が行われない第1の入力音声信号は、そのまま擬似音声信号E1として出力される。なお、起動信号320aがOFFの場合に、雑音抑圧回路310の動作が停止してもよい。
 なお、雑音抑圧回路は、アナログ回路でもよいし、デジタル回路でもよいし、アナログ回路とデジタル回路が混在した回路でもよい。雑音抑圧回路がアナログ回路であり、擬似音声信号E1(310a、310b)がデジタル制御に使用される場合は、アナログデジタル(A/D)変換器により、デジタル信号への変換が行われる。一方、雑音抑圧回路がデジタル回路である場合、マイクロホンから出力された信号は、雑音抑圧回路に入力される前に、A/D変換器によりデジタル信号に変換される。アナログ回路とデジタル回路とが混在する雑音抑圧回路は、たとえば、アナログ回路である減算器401、403、及び、デジタル回路により制御されるアナログ回路である適応フィルタNF402及び適応フィルタXF404を含む。
 図に示される雑音抑圧回路は、本実施形態おける回路の一つの好適な例である。たとえば、適応フィルタXF404は、入力信号に対して、出力信号を所定のレベルに維持する回路に代替してもよい。このような回路は、発話者の音声が拡散して入力音声信号のレベルが低下した場合に、雑音信号をフィルタしても、出力される擬似音声信号の強度を低下させない。
 さらに、減算器401及び403の少なくとも一つを、積算器に代替してもよい。このような積算器は、推定雑音信号Y1または推定音声信号Y2を、所定の係数を乗じて、第1の入力音声信号201aまたは第2の入力音声信号202aのそれぞれに積算する。
 図4Cは、本実施形態に係る雑音抑圧回路310の第3の構成310−3を示す。図4Cに示される第3の構成310−3は、特に、ハンズフリー通話の構成に好適であり、2つの適応フィルタ402、412を含む。図4Cに示される第3の構成310−3については、特開2011−022604号公報及び文献『Shigeji Ikeda and Akihiko Sugiyama,″An Adaptive Noise Canceller with Low Signal Distortion for Speech Codec,″IEEE TRANSACTIONS ON SIGNAL PROCESSING,VOL.47,NO.3,1999,pp.665−674』において詳しく説明されるので、ここでは説明が省略される。
 減算器401および適応フィルタNF402の構成及び動作は、第4Aおよび図4Bと同様である。図4Cに示される雑音抑圧回路には、音声と雑音の比であるSNR(Signal−to−Noise Ratio)を擬似音声信号と推定雑音信号を元に推定するSNR推定回路405と、SNR推定回路405の出力に基づいて適応フィルタ402における係数更新を制御するステップサイズ制御回路406とが付加される。上記の構成により、音声と雑音とが混在する環境においても雑音除去により音質の良い信号が得られる。
 図5Aおよび図5Bは、本実施形態に係る音声処理システム200において構成要素を配置可能な位置を示す。車両内にマイクロホンを配置して入力音声信号レベルを測定することにより、第1のマイクロホンの配置場所および第2のマイクロホンの配置場所が検討された。図5Aおよび図5Bは、その結果に基づいた推奨される第1のマイクロホンと第2のマイクロホンの配置場所を示す。なお、他の電気部品の配置なども考慮すると、上記の配置位置は、例えば、余分な配線を無くすため、図5Aおよび図5Bに限定されない。なお、図5Aおよび図5Bにおいて、横縞模様の丸印が推奨される第1のマイクロホンの配置位置であり、縦縞模様の丸印が推奨される第2のマイクロホンの配置位置であり、白丸印がランプの配置位置である。
 図5Aは、図2と同様に、運転席から前方を見た光景である。特に、推奨される第1のマイクロホンの配置位置として、ハンドル奥のメータ付近、センターコンソール512付近(図中の中央の「3cm」の領域)、サンバイザー515の乗員側、ドア513の乗員側などが図示される。なお、図示されないが、該位置は、ルームミラーの乗員側やハンドルの乗員側、透明配線によるフロントガラスの車内側などでもよい。一方、第2のマイクロホンの配置推奨位置として、サンバイザー515の裏側やダッシュボード516が図示される。なお、図示されないが、ルームミラーの裏側でもよい。
 図5Bは、運転席を反対側のドア付近から見た光景である。図5Aに図示される配置位置の説明は省略される。図5Aに図示されない配置位置として、第2のマイクロホンが運転席の後部ボード523、あるいはルームライト522付近が図示される。
 図5Aおよび図5Bに示される第1のマイクロホンと第2のマイクロホンとの配置位置について、以下のように説明される。例えば、車両の乗員の前方視界の内側に配置されたマイクロホンが第1のマイクロホンであり、乗員の前方視界の外側に配置されたマイクロホンが第2のマイクロホンである。あるいは、第1のマイクロホンと第2のマイクロホンとは、所定位置の発話者からの音声に対する入力音声信号レベルが、雑音抑圧手段が雑音抑圧可能な差を有するような距離だけ離れて配置される。あるいは、第1のマイクロホンと第2のマイクロホンの一方が、所定位置の発話者からの音声が直接入力される位置に配置され、他方が、所定位置の発話者からの音声が、音声遮蔽部を介して入力される位置に配置される。
 図6は、本実施形態に係る音声処理装置210のハードウェアの構成を示すブロック図である。本実施形態においては、図2で示されるように、マイクロホンやランプなどの制御部から離れて配置される構成要素を除いた、雑音抑圧回路と制御部とを音声処理装置210とするが、これに限定されない。音声処理装置210は、いずれの構成を含んでもよい。音声処理装置210から/へ、入出力インタフェース660を介して、データが出力/入力される。
 図6において、CPU(Central Processing Unit)610は、プログラムの実行により図3の各機能構成部を実現する演算制御用のプロセッサである。ROM(Read−Only Memory)620は、初期データなどの固定データおよびプログラムを記憶する。通信制御部630は、外部の処理部及び内部の処理部と通信する。なお、通信は、無線でもよいし、有線でもよい。
 RAM(Random Access Memory)640は、CPU610が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM640には、本実施形態にかかる音声処理に必要なデータを記憶する領域が確保される。641は、ランプ231を点灯することにより、雑音抑圧回路310を起動するための起動条件が満足されたことを示す起動フラグである。642は、音声抑圧回路310から出力された擬似音声信号データである。643は、通信制御部630を介して送信される送信音声データである。644は、通信制御部630を介して受信された受信音声データである。645は、例えばスピーカ360から出力される出力音声データである。
 ストレージ650は、データベースや各種のパラメータ、あるいは本実施形態にかかる音声処理に必要な以下のデータまたはプログラムが記憶される。651は、起動フラグ641をONにする条件である起動条件である。該条件は、本実施形態では、スイッチ221の操作である。ストレージ650には、以下のプログラムが格納される。652は、全体の処理を制御する音声処理プログラムである。653は、音声処理プログラム652において、起動処理を行う起動処理モジュールである。654は、音声処理プログラム652において、音声の送受信を制御する音声送受信モジュールである。
 なお、図6には、本実施形態に必須なデータやプログラムのみが示され、OSなどの汎用のデータ及びプログラムは図示されない。
 図7は、本発明の第2の実施形態に係る音声処理装置210の処理手順を示すフローチャートである。このフローチャートは、図6のCPU610によりRAM640を使用して実行される。ステップS711とS721のいずれでもない場合は、ステップS731において、その他の処理が行われる。
 まず、ステップS711において、起動条件が満足されるかどうかが判定される。該条件は、本実施形態では、スイッチ221のONである。ステップS721において、停止条件が満足されたかどうかが判定される。該条件は、本実施形態では、スイッチ221のOFFである。
 起動条件が満足されると、処理はステップS713に進み、雑音抑圧回路310が起動する。次に、ステップS715において、音声送受信部340による音声送受信処理が起動する。そして、ステップS717において、第1のマイクロホン方向に配置されたランプ231が点灯して起動が報知される。
 停止条件が満足されると、処理はステップS723に進み、ランプ231が消灯して停止が報知される。次に、ステップS725において、音声送受信部340による音声送受信処理が停止する。そして、ステップS727において、雑音抑圧回路310が停止する。なお、上述したように、雑音抑圧をせずに第1のマイクロホンからの音声の入力を続けてもよい。
 [第3の実施形態]
 次に、本発明の第3の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第2の実施形態との差異は、雑音抑圧回路310で雑音抑圧された擬似音声信号が録音されることである。本実施形態によれば、運転者は点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が録音される。
 図8は、本実施形態に係る音声処理システム800の機能構成を示すブロック図である。
 図8は、第2の実施形態の図3において、音声送受信部340が、録音部840に置き換えられた構成を示す。図示されないが、音声信号はデジタル化されて圧縮されることが望ましい。さらに、音声信号は暗号化されてもよい。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付されて、詳しい説明が省略される。
 [第4の実施形態]
 次に、本発明の第4の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第2および第3の実施形態との差異は、起動部の起動条件がスイッチの操作でなく、発話者の“呼びかけ”或いは“コマンド”であることである。本実施形態によれば、運転者は手による操作無しに、点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
 図9は、本実施形態に係る音声処理システム900の機能構成を示すブロック図である。
 図9は、第2の実施形態の図3において、起動部320が、起動部920に置き換えられた構成を示す。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
 起動部920は、発話者が呼び掛ける言葉、あるいは命令またはコマンドの音声を、あらかじめ音声登録部922に登録する。図9には、例として、“もしもし”及び“スタート”が図示される。比較部921において、第1のマイクロホン201からの第1の入力音声信号201aと音声登録部922に登録された音声信号とが比較され、2つの信号が合致すれば、起動条件が満足されたとして、報知部330のランプ231が点灯し、雑音抑圧回路310が起動する。
 なお、起動部920での音声信号は、アナログ信号でもよいし、デジタルデータでもよい。また、音声認識装置が搭載される場合は、音声信号の処理の代わりに、単純な単語に対する、雑音抑圧なしに音声認識した結果に基づいた比較により、さらに多様な文章の処理が可能になる。一方、音声信号の処理であれば、あらかじめ運転者など個人の音声信号を登録すれば、音声信号に基づいて人物の特定が可能である。
 [第5の実施形態]
 次に、本発明の第5の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第2乃至第4の実施形態との差異は、第1のマイクロホンやスイッチ、ランプ、スピーカなどがカーナビゲーション装置で代行されることである。本実施形態によれば、発話者はカーナビゲーション装置に注目して発話すると、車内雑音が抑圧された音声が入力される。
 図10は、本実施形態に係る音声処理システム1000の機能構成を示すブロック図である。
 図10において、カーナビゲーション装置1010は、第1のマイクロホン201と、スイッチ(通話ボタン1011)と、ランプ(通話中の表示1012)と、スピーカ1013とを含む。起動部1020はスイッチを含まない。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作については同じ符号を付し、詳しい説明が省略される。本実施形態では、カーナビゲーション装置の画面上の表示により、発話方向および発話タイミングが視覚的に報知されるが、これに限定されない。例えば、フロントガラスに画像が投影され、発話方向および発話タイミングが視覚的に報知されてもよい。
 [第6の実施形態]
 次に、本発明の第6の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムと、上記第2乃至第5の実施形態との差異は、雑音抑圧回路で雑音抑圧された擬似音声信号が、音声認識に使用されることである。本実施形態によれば、発話者は点灯したランプの方向を向いて発話すると、車内雑音の抑圧された音声による正確な音声認識とデータ処理が行われる。
 図11は、本実施形態に係る音声処理システム1100の機能構成を示すブロック図である。
 図11において、雑音抑圧回路310から出力される擬似音声信号が、音声認識部1120で認識される。認識結果のデータは、データ処理部1140に送られ、処理される。上記のデータ処理は、送受信や記憶などを含んでもよい。また、該データは、カーナビゲーション装置に転送され、カーナビゲーションの指示として使用されてもよい。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
 図12は、本実施形態に係る雑音抑圧回路310の第4の構成310−4を示す。図11の雑音抑圧回路310には、図4A乃至図4Cに示される回路が採用されてもよいが、高い精度の音声認識には、図12に示される構成310−4が好適である。
 減算器401および適応フィルタNF402の構成や動作は、第4A乃至図4Bと同様であるので、説明は省略される。図12の雑音抑圧回路は、雑音がゆっくり変動するという性質を利用して、変化する雑音に追従する雑音推定方法であるWiNE(Weighted Noise Estimation)が採用される雑音推定部1201を有する。さらに、雑音抑圧回路は、雑音推定部1201の出力に基づいて、音声認識出力が既知の音声信号のパターンに類似するようにフィルタリングを行う音声強調方法であるMBW(Model−Based Wiener Filter)が採用される音声強調部1202を有する。上記の構成により、音声認識向けの雑音抑圧処理に加えて、雑音除去及び音声強調が行われ、擬似音声信号310cが出力される。WiNEについて、特開2002−204175号公報及び特開2006−337415号公報に詳しく説明される。MBWについて、特開2007−033920号公報に詳しく説明される。
 [第7の実施形態]
 次に、本発明の第7の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、雑音抑圧回路310、または、音声認識部の起動中に、発話者による第1のマイクロホンとは異なる方向への発声、特に第2のマイクロホンの方向への発声に対処する。本実施形態において、第1のマイクロホンと第2のマイクロホンとの入力音声信号の差から、発話者の向きが認識され、雑音抑圧や音声認識の処理が中断するよう制御される。本実施形態によれば、音声認識部の起動中に発話者が所定の方向とは異なる方向に発話する場合でも、車内雑音の抑圧が適切に行なわれ、雑音抑圧された音声による正確な音声認識とデータ処理が行われる。
 図13は、本実施形態に係る音声処理システム1300の機能構成を示すブロック図である。
 図13において、音声入力制御部1320は、第1のマイクロホン201からの第1の入力音声信号201aと第2のマイクロホンからの第2の入力音声信号202aとの差に基づいて、起動中であっても、雑音抑圧回路310や音声認識部1120などの処理を中断する。本実施形態は、音声処理システム1300が音声認識部1120を含まない構成にも適用できる。このため、図13において、音声認識部1120は破線で示される。また、後続処理部1340は、第1乃至第6の実施形態における音声送受信などの処理を含む。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
 図14Aは、本実施形態に係る音声入力制御部1320の構成を示すブロック図である。
 図14Aの音声入力制御部1320において、減算器1421により、入力した第1のマイクロホン201からの第1の入力音声信号201aと第2のマイクロホンからの第2の入力音声信号202aとの差分値1421aが取得される。差分値1421aは、比較部1422において閾値Th1と比較され、閾値TH1以下であれば、Lowの出力信号1422aが出力される。ANDゲート1423において、320aからの起動信号は、出力信号1422aがLowの場合には阻止され、音声入力制御部1320の出力制御信号1320aはLowになる。したがって、図13に示されるように、雑音抑圧回路310や音声認識部1120の処理は、出力信号1422aがLowの間、中断する。
 図14Bは、本実施形態に係る音声入力制御部1320の動作1400を示すタイミングチャートである。
 図14Bの最上段に、スイッチ221による起動部320からの起動信号320aが示される。2段目に、差分値1421aと閾値Th1が示される。3段目に示される、比較部1422の出力信号1422aは、差分値1421aが閾値Th1を越えない場合に、Lowとなる。したがって、起動信号320aがHighであっても、第1の入力音声信号レベルと第2の入力信号レベルとの差分が閾値以下の場合、あるいは差分の符号が反転する場合は、音声入力制御部1320の出力制御信号1320aがLowとなり、処理は中断する。
 [第8の実施形態]
 次に、本発明の第8の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、起動部が雑音抑圧回路310、または、音声認識部を起動中に、発話者が第1のマイクロホンとは異なる方向への発声するとき、特に第2のマイクロホンの方向への発声するときの、音声認識の間違いに対処する。本実施形態において、第1のマイクロホンと第2のマイクロホンとの入力音声信号の差から、発話者の向きが異なることが認識され、その間の音声認識の結果を破棄するように制御される。本実施形態によれば、音声認識部の起動中に発話者が所定の方向とは異なる方向に発話したときの間違った音声認識が防止される。
 図15は、本実施形態に係る音声処理システム1500の機能構成を示すブロック図である。
 図15に示されるように、音声処理システム1500は、音声認識部1120の出力である音声認識結果をバッファリングする認識データバッファ1530を含む。認識出力制御部1520は、第1のマイクロホン201からの第1の入力音声信号201aと第2のマイクロホンからの第2の入力音声信号202aの所定期間での平均値の差分に基づいて、音声認識部1120による誤った認識結果を、認識データバッファ1530から破棄する。なお、後続処理部1540は、図13と同様に、第1乃至第6の実施形態の音声送受信などの処理が行われる。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
 図16Aは、本実施形態に係る認識出力制御部1520の構成を示すブロック図である。
 図16Aの認識出力制御部1520において、第1のバッファ1621と第1の平均部1622とによって、第1のマイクロホン201から入力された第1の入力音声信号201aの所定期間の平均値1622aが出力される。第2のバッファ1623と第2の平均部1624とによって、第2のマイクロホン202から入力された第2の入力音声信号202aの所定期間の平均値1624aが出力される。比較部1625は、第1の入力音声信号201aの所定期間の平均値1622aと第2の入力音声信号202aの所定期間の平均値1624aとを比較する。第1のマイクロホン201からの平均値1622aが大きければ、発話者は第1のマイクロホン201に向いていると判断され、出力信号1625aがHighとされる。第1のマイクロホン201からの平均値1622aが小さければ、発話者が第1のマイクロホンの方向とは異なる方向を見ると判断され、出力信号1625aがLowとされる。ANDゲート1626において、認識データバッファ1530への出力制御信号1520aがLowとされ、認識データバッファ1530にバッファされた、所定期間での認識結果が破棄される。
 図16Bは、本実施形態に係る認識出力制御部1520の動作1600を示すタイミングチャートである。
 図16Bの最上段に、スイッチ221による起動部320からの起動信号320aが示される。2段目に、第1の入力音声信号201aの平均値1622aと、第2の入力音声信号202aの平均値1624aが示される。3段目に示される、比較部1625の出力信号1625aは、平均値1622aよりも平均値1624aが大きい場合にLowとなる。したがって、起動信号320aがHighであっても、第1の入力音声信号レベルの所定期間の平均値が第2の入力信号レベルの所定期間の平均値より小さいとき、認識出力制御部1520の出力制御信号1520aがLowになる。このとき、認識データバッファ1530の認識結果が破棄される。
 [第9の実施形態]
 次に、本発明の第9の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記の実施形態のように起動部が発話者の起動操作により起動信号を生成するのではなく、第1のマイクロホン及び第2のマイクロホンへの入力をトリガとして自動的に起動部が起動信号を生成する。さらに、停止処理も第1のマイクロホン及び第2のマイクロホンへの入力に基づいて自動的に行われる。本実施形態によれば、発話者は、特別な操作をすることなく、点灯したランプの方向に発話すると、車内雑音が抑圧された音声が入力される。
 図17は、本実施形態に係る音声処理システム1700の機能構成を示すブロック図である。
 図17に示される音声処理システム1700は、雑音抑圧回路310の前段に設けられた音声信号バッファ1730を含む。起動部1720には、第1のマイクロホン201からの第1の入力音声信号201aと第2のマイクロホン202からの第2の入力音声信号202aとが入力され、それらから起動信号1720aが生成される。音声信号バッファ1730は、起動部1720の処理の遅延により、必要な音声信号が消失しないよう、起動部1720の処理の遅延時間分の音声信号をバッファする。後続処理部1740は、図15と同様に、第1乃至第6の実施形態の音声送受信などの処理が行われる。その他の構成および動作は、第2の実施形態と同様であるため、同じ構成および動作には同じ符号が付され、詳しい説明が省略される。
 図18は、本実施形態に係る起動部1720の機能構成を示すブロック図である。
 図18において、第3のバッファ1821と第3の平均部1822とによって、第1のマイクロホン201から入力された第1の入力音声信号201aの所定期間での平均値1822aが出力される。また、第4のバッファ1823と第4の平均部1824とによって、第2のマイクロホン202から入力された第2の入力音声信号202aの所定期間の平均値1824aが出力される。減算器1825は、平均値1822aと平均値1824aとの差分値1825aを算出する。比較部1826は差分値1825aを閾値Th2と比較し、差分値1825aが閾値Th2より大きければ、出力信号1826aをHighにする。すなわち、発話者が第1のマイクロホン201の方向を向いていると判断する。そして、セット/リセットのフリップフロップ(以下、RS−F/F)1827がセットされ、起動部1720から起動信号1720aが出力される。一方、差分値1825aが閾値Th2より小さければ、出力信号1826aがLowにされる。すなわち、発話者が第1のマイクロホン201の方向を向いていない、あるいは発話していないと判断される。そして、RS−F/F1827がリセットされ、起動部1720からの起動信号1720aがOFFになる。
 したがって、第1のマイクロホン201からの平均値1822aが第2のマイクロホン202からの平均値1824aより大きくなると、雑音抑圧回路310などが起動する。一方、第1のマイクロホン201からの平均値1822aが第2のマイクロホン202からの平均値1824aより小さくなると、雑音抑圧回路310などの起動が停止する。
 [第10の実施形態]
 次に、本発明の第10の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記実施形態とは異なり、音声入力用のマイクロホンと雑音入力用のマイクロホンとが指定されない。本実施形態に係る音声処理システムは、所定の選択条件に従って、異なる位置に設けられた複数のマイクロホンから第1のマイクロホンと第2のマイクロホンとを選択する選択手段を含む。本実施形態において、上記の所定の選択条件は、該発話者のマイクロホン選択操作である。選択手段は、発話者のマイクロホン選択操作に従って第1のマイクロホンと第2のマイクロホンとを選択する。本実施形態によれば、特定の位置の発話者ばかりでなく、指示をした発話者が点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
 なお、本実施形態においては、2つのマイクロホンから所望音声を入力するマイクロホンを指示する例を示すが、マイクロホンの数は2に限定されない。3以上のマイクロホンから音声入力用のマイクロホンが指示されてもよい。
 図19は、本実施形態に係る音声処理システム1900の機能構成を示すブロック図である。図19では、音声処理システム1900が、運転席に備えられる、運転者が発話する場合に操作する運転席スイッチと、助手席に備えられる、助手席の乗員が発話する場合に操作する助手席スイッチとを含む例について説明するが、これに限定されない。
 図19に示されるように、本実施形態に係る音声処理システム1900は、図3に示される第2の実施形態に係る音声処理システムの構成に加えて、起動部1920、報知部1930、マイクロホン選択部1940、およびスイッチ回路1950を備える。
 起動部1920は、運転席スイッチ1921および助手席スイッチ1922と、2つのスイッチの操作による出力の論理和を求めるORゲート1923を有する。起動部1920からの起動信号1920aは、ORゲート1923からの出力であり、運転席スイッチ1921と助手席スイッチ1922とのいずれかが操作されるとHighとなる。起動信号1920aは、後続処理部1960も起動する。報知部1930は、運転席スイッチ1921と助手席スイッチ1922のそれぞれ対応する、運転席用マイクロホンランプ1931と助手席用マイクロホンランプ1932とを有する。報知部1930は、運転席の乗員と助手席の乗員とに、それぞれの第1のマイクロホンの位置を報知する。
 マイクロホン選択部1940は、RS−F/F1941を備える。運転席スイッチ1921と助手席スイッチ1922との操作信号は、RS−F/F1941のセット端子(S)とリセット端子(R)とに入力される。RS−F/F1941の真値(Q)からの出力信号1940aは、雑音抑圧回路310の前段に設けられるスイッチ回路1950に入力され、スイッチ位置を切替える。図19に示されるスイッチ回路1950におけるスイッチ位置は、雑音抑圧回路310の音声入力端子(上方)に第1の入力音声信号201aが入力され、雑音抑圧回路310の雑音入力端子(下方)に第2の入力音声信号202aが入力される状態である。マイクロホン選択部1940からの出力信号1940aの変化により、スイッチが切替えられると、図19において破線で示されるように、雑音抑圧回路310の音声入力端子(上方)に第2の入力音声信号202aが入力され、雑音抑圧回路310の雑音入力端子(下方)に第1の入力音声信号201aが入力される状態になる。
 上記の構成によれば、運転席スイッチ1921を運転席の乗員が操作すると、第1のマイクロホン201が音声入力用となり第2のマイクロホン202が雑音入力用になる。第1のマイクロホン201に向かって運転席の乗員が発話するように、運転席用マイクロホンランプ1931が点灯する。一方、助手席スイッチ1922を助手席の乗員が操作すると、第2のマイクロホン202が音声入力用となり第1のマイクロホン201が雑音入力用になる。第2のマイクロホン202に向かって助手席の乗員が発話するように、助手席用マイクロホンランプ1932が点灯する。
 なお、第2のマイクロホン202は、図5Aおよび図5Bでは、助手席前のダッシュボードに備えられるが、これに限定されない。前述のように、複数のマイクロホンが様々な位置に配置可能であれば、それぞれの座席にスイッチ、マイクロホン、ランプを設置されてよい。
 [第11の実施形態]
 次に、本発明の第11の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上記の第10の実施形態のように、発話者の指示に従って第1のマイクロホンと第2のマイクロホンとが決定されるのではなく、第1のマイクロホンと第2のマイクロホンとが自動的に切り替わる。本実施形態によれば、どの発話者も点灯したランプの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
 なお、本実施形態において、2つのマイクロホンから所望音声を入力するマイクロホンが自動的に選択される例を示すが、マイクロホンの数は2に限定されない。複数のマイクロホンから音声入力用のマイクロホンが自動的に選択されてもよい。
 図20は、本実施形態に係る音声処理システム2000の機能構成を示すブロック図である。
 図20において、スイッチ回路1950の構成は、第10の実施形態と同様である。本実施形態においては、スイッチ回路1950と雑音抑圧回路310との間に音声信号バッファ2050が設けられる。該音声信号バッファ2050は、起動部2020の処理の遅延による、必要な音声信号の消失を防止する。
 図20に示される音声処理システム2000は、バッファと平均部とを有し、第1の入力音声信号201aと第2の入力音声信号202aの所定期間での平均値に基づいて、起動信号2020aを生成する起動部2020を含む。起動信号2020aは、後続処理部2060をも起動する。音声処理システム2000はさらに、バッファと平均部とを有し、スイッチ回路1950の切替えおよび報知部2030の点灯ランプの切替えを行う、切替え信号2040aを生成するマイクロホン選択部2040を含む。
 図20に示される起動部2020およびマイクロホン選択部2040の動作については、上述の実施形態における説明から明白である。煩雑さを避けるため、ここでは詳細な説明は省略される。
 [第12の実施形態]
 次に、本発明の第12の実施形態に係る音声処理システムについて説明する。本実施形態に係る音声処理システムは、上述の実施形態とは異なり、報知部330及び雑音抑圧回路310などの起動のトリガは、発話者の指示或いはマイクロホンからの入力音声信号ではない。本実施形態では、カメラなどの撮像装置によって発話者の黒目の位置から視線を検出し、発話者の視線に従って起動信号を制御する。本実施形態によれば、所望のマイクロホンの方向を向いて発話すると、車内雑音が抑圧された音声が入力される。
 図21は、本実施形態に係る音声処理システム2100の機能構成を示すブロック図である。
 本実施形態に係る音声処理システムと、上述の実施形態との差異は、図21に示されるように、カメラ2140と、カメラ2140からの映像を元に視線を判定する視線判定部2121を有する起動部2120とである。起動部2120は、視線判定部2121の視線判定結果に基づいて、発話者の視線がマイクロホンの方向を向いていると判定すると、起動信号2120aを出力する。起動信号2120aは、雑音抑圧回路310、音声認識部1120、後続処理部2150を起動する。視線判定部2121の処理は既知であるので、詳細な説明は省略される。
 [第13の実施形態]
 次に、本発明の第13の実施形態に係る音声処理システムについて説明する。第12の実施形態において、カメラによる映像から取得された発話者の視線に基づいて、起動部を起動する起動信号が生成される。本実施形態に係る音声処理システムでは、起動中であっても、発話者の視線に基づいて起動が中断する。
 本実施形態においては、第7の実施形態に係る音声処理システムと同様に、雑音抑圧回路或いは音声認識部の起動中における、発話者による第1のマイクロホンとは異なる方向への発声に対処する。本実施形態においては、カメラにより撮像された映像から発話者の視線が認識され、雑音抑圧や音声認識の処理が中断するよう制御される。本実施形態によれば、雑音抑圧部などの起動中に、発話者が第1のマイクロホンとは異なる方向を向いた場合でも、車内雑音の抑圧が適切に行われ、雑音抑圧された音声による正確な音声認識とデータ処理が行われる。
 図22は、本実施形態に係る音声処理システム2200の機能構成を示すブロック図である。
 本実施形態に係る音声処理システムと、上述の実施形態との差異は、図22に示されるように、音声入力制御部2220のANDゲート2221において、起動部320からの起動信号320aが、カメラ2140からの映像により発話者の視線を判定した視線判定部2230の出力によりゲートされることである。上記の構成によれば、起動部320からの起動信号320aがHighで、報知部330のランプ231が点灯している場合であっても、発話者の視線がマイクロホンの方向を向いていないと判定されると、起動が停止する。
 [第14の実施形態]
 次に、本発明の第14の実施形態に係る音声処理システムについて説明する。上述の実施形態においては、車両内における乗員が発話した音声の処理について、音声処理システムの構成と動作が説明された。本実施形態においては、会議室などの部屋への本発明の適用例が説明される。
 本実施形態においては、部屋のテーブルに配置された複数のマイクロホンの中から、音声入力用マイクロホン(第1のマイクロホン)と雑音入力用マイクロホン(第2のマイクロホン)とが、発話者の指示により、あるいは自動的に、選択されて、第1のマイクロホンがランプの点灯などで報知される。本実施形態によれば、会議室などの部屋においても、発話者が点灯したランプの方向を向いて発話すると、室内雑音が抑圧された音声が入力される。
 図23は、本実施形態に係る音声処理システム2300の機能構成を示すブロック図である。
 図23において、テーブル2320の回りに5人の発話者2301乃至2305が着席して、会話をする。該会話は、図示されないが、テレビ会議でもよい。テーブル2320には、第1のマイクロホン201と第2のマイクロホン202とが設置される。また、第1のマイクロホン201の側には第1のマイクロホン201が音声入力用であると報知するランプ2331が配置される。一方、第2のマイクロホン202の側には第2のマイクロホン202が音声入力用であると報知するランプ2332が配置される。なお、図示されないが、第10の実施形態のように、発話者が音声入力用マイクロホンを指示するスイッチがそれぞれのマイクロホン付近に配置されてよい。
 本実施形態に係る音声処理装置2310は、上述の実施形態、特に第10の実施形態または第11の実施形態と同様の構成を有する。すなわち、音声処理装置2310は、雑音抑圧回路、起動部、マイクロホン選択部、ランプ選択部を有する。音声処理装置2310は、発話者2301および2302が発話する場合は、ランプ2331が点灯して第1のマイクロホン201が音声入力用に設定され、第2のマイクロホン202は雑音入力用に設定される。一方、発話者2302乃至2305が発話する場合は、ランプ2332が点灯して第2のマイクロホン202が音声入力用に設定され、第2のマイクロホン201は雑音入力用に設定される。
 [第15の実施形態]
 次に、本発明の第15の実施形態に係る音声処理システムについて説明する。本実施形態においては、ユビキタス環境への本発明の適用例が説明される。
 本実施形態に係る音声処理システムは、家電に対する発声により、室内の家電の操作を実現する環境において、部屋の天井に配置された雑音入力用の第2のマイクロホンと、各家電に配置された音声入力用の第1のマイクロホンと報知ランプとを含む。各家電への指示は、正確に認識されるよう操作される。本実施形態によれば、発話者が点灯したランプの方向を向いて発話すると、室内雑音が抑圧された音声により各家電が操作される。
 図24は、本実施形態に係る音声処理システム2400の機能構成を示すブロック図である。
 図24に示されるように、室内に、空調機(エアコン)と、テレビと、パーソナルコンピュータ(PC)と、電話機とが設置される。エアコンには、マイクロホン201−1とランプ2401−1とが配置される。テレビには、マイクロホン201−2とランプ2401−2とが配置される。PCには、マイクロホン201−3とランプ2401−3とが配置される。電話機には、マイクロホン201−4とランプ2401−4とが配置される。部屋の天井には、雑音入力用の第2のマイクロホン202が配置される。
 マイクロホン201−1乃至201−4からの入力音声信号は、マイクロホン選択部2410に入力される。マイクロホン選択部2410は、第2のマイクロホン202からの入力音声信号レベルから、所定の値(閾値)以上の音声信号レベルを有する入力音声信号を出力したマイクロホンを、第1のマイクロホンとして選択する。マイクロホン選択部2410で選択された第1の入力音声信号と、第2のマイクロホン202の第2の入力音声信号とは、雑音抑圧回路310に入力される。入力と同時に、第1の入力音声信号を出力したマイクロホンを識別する第1のマイクロホンIDがランプ選択部2420に出力される。ランプ選択部2420は、第1のマイクロホンIDに対応して音声入力用の第1のマイクロホンに選択されたマイクロホンと共に配置されたランプを点灯する。
 雑音抑圧回路310から出力された擬似音声信号は、音声認識部1120で認識されて、データ処理部1140で処理される。本実施形態において、例えば、エアコンに対して温度或いは風量の設定など、テレビに対してチャネル或いは音量の設定、或いはデジタル通信の制御など、PCに対してインターネットへの接続或いはダウンロード処理の制御など、電話機に対して自動ダイヤル或いは会話などが、音声により行われる。
 なお、本実施形態においては、室内での構成のみが示されるが、これに限定されない。本発明は、屋外での案内、相談ターミナル、デジタルサイネージなどにも適用が可能である。
 以上、実施形態を参照して本発明を説明したが、本発明は上記実施形態に限定されない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。それぞれの実施形態に含まれる特徴を組み合わせたシステムまたは装置も、本発明の範疇に含まれる。
 また、本発明は、複数の機器から構成されるシステムに適用されてもよいし、単体の装置に適用されてもよい。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムがダウンロードされるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。
 この出願は、2011年6月3日に出願された日本出願特願2011−125545を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明は、音声により制御される電子機器に好適に適用可能である。本発明は特に、車両の運転席或いは会議室などに設置され、発話者から発せられた音声からノイズを除去し、電子機器の制御に使用される制御信号を生成する音声処理システムに好適に適用される。
 100、200、800、900、1000、1100、1300、1500、1700、1900、2000、2100、2200、2300、2400 音声処理システム
 101 第1のマイクロホン
 101a 第1の入力音声信号
 102 第2のマイクロホン
 102a 第2の入力音声信号
 110、330、1930、2030 報知部
 120 雑音抑圧部
 130、320、920、1020、1720、1920、2020、2120 起動部
 130a 起動条件保持部
 140、2301、2302、2303、2304、2305 発話者
 201 第1のマイクロホン
 202 第2のマイクロホン
 210、2310 音声処理装置
 221 スイッチ
 231、2331、2332、2401−1、2401−2、2401−3、2401−4、 ランプ
 201a 第1の入力音声信号
 202a 第2の入力音声信号
 310、310−1、310−2、310−3、310−4 雑音抑圧回路
 310a、310b、310c 擬似音声信号
 320a、1720a、1920a、2020a、2120a 起動信号
 340 音声送受信部
 350 アンテナ
 360 スピーカ(イヤホン)
 401、403、1421、1825 減算器
 402、404、412 適応フィルタ
 405 SNR推定回路
 406 ステップサイズ制御回路
 512 センターコンソール
 513 ドア
 515 サンバイザー
 516 ダッシュボード
 522 ルームライト
 523 後部ボード
 610 CPU
 620 ROM
 630 通信制御部
 640 RAM
 641 起動フラグ
 642 擬似音声信号データ
 643 送信音声データ
 644 受信音声データ
 645 出力音声データ
 650 ストレージ
 651 起動条件
 652 音声処理プログラム
 653 起動処理モジュール
 654 音声送受信モジュール
 660 入出力インタフェース
 840 録音部
 921、1422、1625、1826 比較部
 922 音声登録部
 1011 通話ボタン
 1012 表示
 1013 スピーカ
 1120 音声認識部
 1140 データ処理部
 1201 雑音推定部
 1202 音声強調部
 1320、2220 音声入力制御部
 1320a 出力制御信号
 1340、1540、1740、1960、2060、2150 後続処理部
 1400、1600 動作
 1421a、1825a 差分値
 1422a、1625a 出力信号
 1423、1626、2221 ANDゲート
 1520 認識出力制御部
 1530 認識データバッファ
 1621 第1のバッファ
 1622 第1の平均部
 1622a、1624a、1822a、1824a 平均値
 1623 第2のバッファ
 1624 第2の平均部
 1625a、1826a、1940a 出力信号
 1730、2050 音声信号バッファ
 1821 第3のバッファ
 1822 第3の平均部
 1823 第4のバッファ
 1824 第4の平均部
 1827、1941 RS−F/F
 1921 運転席スイッチ
 1922 助手席スイッチ
 1923 ORゲート
 1931 運転席用マイクロホンランプ
 1932 助手席用マイクロホンランプ
 1940、2040、2410 マイクロホン選択部
 1950 スイッチ回路
 2040a 切替え信号
 2121、2230 視線判定部
 2140 カメラ
 2320 テーブル
 201−1、201−2、201−3、201−4 マイクロホン
 2420 ランプ選択部

Claims (21)

  1.  発話者からの音声を元に、第1の入力音声信号を生成する、第1のマイクロホンと、
     前記第1のマイクロホンとは異なる位置に設けられ、第2の入力音声信号を生成する、第2のマイクロホンと、
     前記第2の入力音声信号を元に、前記第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成し、前記推定雑音信号を元に前記雑音信号を抑圧する、雑音抑圧手段と、
     前記発話者に、発話の方向及びタイミングを報知する、報知手段と、
     前記報知手段による報知処理と、前記雑音抑圧手段による雑音抑圧処理を制御する、起動手段とを備えることを特徴とする、音声処理システム。
  2.  前記報知手段は、前記発話者から見て前記第1のマイクロホンの方向に設けられ、前記発話者に視覚的に前記発話の方向及びタイミングを報知することを特徴とする、請求項1に記載の音声処理システム。
  3.  前記音声処理システムは車両内に設置され、
     前記第1のマイクロホンは、前記車両の乗員の前方視界の内側に配置され、前記第2のマイクロホンは、前記前方視界の外側に配置されることを特徴とする請求項1または2に記載の音声処理システム。
  4.  前記第1のマイクロホン及び前記第2のマイクロホンは、前記第1の入力音声信号と前記第2の入力音声信号が、前記雑音抑圧手段による雑音抑圧処理が可能なレベル差を有するように、配置されることを特徴とする請求項1または2に記載の音声処理システム。
  5.  前記第1のマイクロホン及び前記第2のマイクロホンの一つは、所定の位置にある前記発話者からの音声が直接入力されるような位置に配置され、
     他方は、前記発話者からの音声が、音声遮蔽手段を介して入力される位置に配置されることを特徴とする請求項1乃至4のいずれか1項に記載の音声処理システム。
  6.  所定の選択条件に従って、複数のマイクロホンから前記第1のマイクロホンと前記第2のマイクロホンを選択する選択手段をさらに備えることを特徴とする請求項1乃至5のいずれか1項に記載の音声処理システム。
  7.  前記選択手段は、前記発話者によるマイクロホン選択操作に従って前記第1のマイクロホンと前記第2のマイクロホンとを選択することを特徴とする請求項6に記載の音声処理システム。
  8.  前記所定の選択条件は、前記複数のマイクロホンからの入力音声信号レベルの差であり、
     前記選択手段は、前記複数のマイクロホンからの入力音声信号レベルの間の差分を取得し、前記差分が第1の閾値を超えるとき、より大きい入力音声信号レベルを出力するマイクロホンを前記第1のマイクロホンとして選択することを特徴とする請求項6に記載の音声処理システム。
  9.  前記起動手段は、前記発話者による起動操作に従って、前記報知手段による報知と前記雑音抑圧手段による雑音抑圧処理とを起動することを特徴とする請求項1乃至8のいずれか1項に記載の音声処理システム。
  10.  前記起動手段は、前記発話者が発声した音声に応じて前記報知手段による報知と前記雑音抑圧手段による雑音抑圧処理とを起動することを特徴とする請求項9に記載の音声処理システム。
  11.  前記起動手段は、音声信号を記憶する記憶手段を有し、前記発話者が発声した音声が前記記憶手段に記憶される音声信号に対応するとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項10に記載の音声処理システム。
  12.  前記起動手段は、前記第1の入力音声信号のレベルと前記第2の入力音声信号のレベルとの差が、第2の閾値を超えるとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項1乃至8のいずれか1項に記載の音声処理システム。
  13.  前記第1のマイクロホンの近傍に配置され、前記発話者を撮像する撮像手段をさらに備え、
     前記起動手段は、前記撮像手段が撮像した前記発話者の映像を元に、前記発話者の視線が前記第1のマイクロホンの方向を向いていると判定されるとき、前記報知手段による報知処理と前記雑音抑圧手段による雑音抑圧処理とを開始することを特徴とする請求項1乃至8のいずれか1項に記載の音声処理システム。
  14.  前記雑音抑圧手段によって前記第1の入力音声信号に含まれる雑音信号が抑圧された音声信号を送信する、音声送信手段をさらに備えることを特徴とする請求項1乃至13のいずれか1項に記載の音声処理システム。
  15.  前記雑音抑圧手段によって前記第1の入力音声信号に含まれる雑音信号が抑圧された音声信号を記憶する、録音手段をさらに備えることを特徴とする請求項1乃至13のいずれか1項に記載の音声処理システム。
  16.  前記雑音抑圧手段によって前記第1の入力音声信号に含まれる雑音信号が抑圧された音声信号に基づいて、音声を認識する音声認識手段をさらに有し、
     前記起動手段は、前記報知手段と、前記雑音抑圧手段と、前記音声認識手段を起動することを特徴とする請求項1乃至15のいずれか1項に記載の音声処理システム。
  17.  前記第1の入力音声信号のレベルと前記第2の入力音声信号のレベルとの差が第3の閾値より小さいとき、または前記差の符号が反転するとき、前記雑音抑圧手段による前記雑音抑圧処理および音声認識手段による音声認識処理を停止する中断手段をさらに備えることを特徴とする請求項16に記載の音声処理システム。
  18.  前記第1の入力音声信号のレベルの所定期間での平均値と前記第2の入力音声信号のレベルの前記所定期間での平均値との差が第4の閾値より小さいとき、または前記差の符号が反転するとき、前記音声認識手段による認識処理の結果を破棄する破棄手段をさらに備えることを特徴とする請求項16に記載の音声処理システム。
  19.  第1のマイクロホンによって、発話者からの音声を元に、第1の入力音声信号を生成するステップと、
     前記第1のマイクロホンとは異なる位置に設けられる第2のマイクロホンによって、第2の入力音声信号を生成するステップと、
     前記第2の入力音声信号を元に、前記第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成するステップと、
     前記推定雑音信号を元に、前記雑音信号を抑圧する抑圧ステップと、
     前記発話者に、発話の方向及びタイミングを報知する報知ステップと、
     前記抑圧ステップと前記報知ステップの起動を制御する起動ステップとを含むことを特徴とする、音声処理方法。
  20.  第1のマイクロホンによって発話者からの音声を元に生成された第1の入力音声信号に含まれる雑音信号を、前記第1のマイクロホンとは異なる位置に設けられた第2のマイクロホンによって生成された第2の入力音声信号を元に推定して、推定雑音信号を生成し、前記推定雑音信号を元に前記雑音信号を抑圧する、雑音抑圧手段と、
     前記発話者に、発話の方向及びタイミングを報知する報知信号を出力する、出力手段と、
     前記報知信号の出力処理と、前記雑音抑圧手段による雑音抑圧処理を制御する、起動手段とを備えることを特徴とする、音声処理装置。
  21.  第1のマイクロホンによって、発話者からの音声を元に、第1の入力音声信号を生成する処理と、
     前記第1のマイクロホンとは異なる位置に設けられる第2のマイクロホンによって、第2の入力音声信号を生成する処理と、
     前記第2の入力音声信号を元に、前記第1の入力音声信号に含まれる雑音信号を推定して、推定雑音信号を生成する処理と、
     前記推定雑音信号を元に、前記雑音信号を抑圧する抑圧処理と、
     前記発話者に、発話の方向及びタイミングを報知する報知処理と、
     前記抑圧処理と前記報知処理の起動を制御する起動処理とをコンピュータに行わせることを特徴とする、音声処理プログラム。
PCT/JP2012/064611 2011-06-03 2012-05-31 音声処理システム、音声処理装置、音声処理方法およびそのプログラム WO2012165657A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-125545 2011-06-03
JP2011125545A JP2014178339A (ja) 2011-06-03 2011-06-03 音声処理システム、発話者の音声取得方法、音声処理装置およびその制御方法と制御プログラム

Publications (1)

Publication Number Publication Date
WO2012165657A1 true WO2012165657A1 (ja) 2012-12-06

Family

ID=47259497

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/064611 WO2012165657A1 (ja) 2011-06-03 2012-05-31 音声処理システム、音声処理装置、音声処理方法およびそのプログラム

Country Status (2)

Country Link
JP (1) JP2014178339A (ja)
WO (1) WO2012165657A1 (ja)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014125860A1 (ja) * 2013-02-12 2014-08-21 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
JP2014186184A (ja) * 2013-03-25 2014-10-02 Panasonic Corp 音声入力選択装置及び音声入力選択方法
WO2014188735A1 (ja) * 2013-05-23 2014-11-27 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
CN105739941A (zh) * 2014-12-30 2016-07-06 Gn奈康有限公司 操作计算机的方法和计算机
JPWO2014125669A1 (ja) * 2013-02-12 2017-02-02 日本電気株式会社 音声入力装置、音声処理方法、音声処理プログラム、天井部材ならびに車両
EP3163573A1 (en) * 2015-10-27 2017-05-03 Panasonic Intellectual Property Management Co., Ltd. Speech collector in car cabin
CN107146603A (zh) * 2017-04-12 2017-09-08 奇瑞汽车股份有限公司 汽车座椅的语音控制系统及其控制方法
CN107427622A (zh) * 2015-03-27 2017-12-01 弗雷塞尼斯医疗保健控股公司 调节医学装置上的声音
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
WO2019035427A1 (ja) * 2017-08-14 2019-02-21 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN112153505A (zh) * 2019-06-28 2020-12-29 中强光电股份有限公司 降噪系统及降噪方法
WO2021192410A1 (ja) * 2020-03-25 2021-09-30 株式会社Jvcケンウッド 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP7424156B2 (ja) 2020-03-25 2024-01-30 株式会社Jvcケンウッド コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
JP7443877B2 (ja) 2020-03-25 2024-03-06 株式会社Jvcケンウッド 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP7447602B2 (ja) 2020-03-25 2024-03-12 株式会社Jvcケンウッド コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016127300A (ja) * 2014-12-26 2016-07-11 アイシン精機株式会社 音声処理装置
JP2017107482A (ja) * 2015-12-11 2017-06-15 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP6513749B2 (ja) 2017-08-09 2019-05-15 レノボ・シンガポール・プライベート・リミテッド 音声アシストシステム、サーバ装置、その音声アシスト方法、及びコンピュータが実行するためのプログラム
JP2019079083A (ja) * 2017-10-19 2019-05-23 アイシン精機株式会社 運転支援装置
US11854566B2 (en) 2018-06-21 2023-12-26 Magic Leap, Inc. Wearable system speech processing
CN113748462A (zh) 2019-03-01 2021-12-03 奇跃公司 确定用于语音处理引擎的输入
US11328740B2 (en) 2019-08-07 2022-05-10 Magic Leap, Inc. Voice onset detection
US11917384B2 (en) 2020-03-27 2024-02-27 Magic Leap, Inc. Method of waking a device using spoken voice commands

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11109987A (ja) * 1997-10-03 1999-04-23 Nec Home Electron Ltd 音声認識装置
JP2008129084A (ja) * 2006-11-16 2008-06-05 Toshiba Tec Corp 音声入力装置及び音声入力方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11109987A (ja) * 1997-10-03 1999-04-23 Nec Home Electron Ltd 音声認識装置
JP2008129084A (ja) * 2006-11-16 2008-06-05 Toshiba Tec Corp 音声入力装置及び音声入力方法

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9847091B2 (en) 2013-02-12 2017-12-19 Nec Corporation Speech processing apparatus, speech processing method, speech processing program, method of attaching speech processing apparatus, ceiling member, and vehicle
WO2014125860A1 (ja) * 2013-02-12 2014-08-21 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
JPWO2014125860A1 (ja) * 2013-02-12 2017-02-02 日本電気株式会社 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
JPWO2014125669A1 (ja) * 2013-02-12 2017-02-02 日本電気株式会社 音声入力装置、音声処理方法、音声処理プログラム、天井部材ならびに車両
US9972336B2 (en) 2013-02-12 2018-05-15 Nec Corporation Speech input apparatus, speech processing method, speech processing program, ceiling member, and vehicle
JP2014186184A (ja) * 2013-03-25 2014-10-02 Panasonic Corp 音声入力選択装置及び音声入力選択方法
WO2014188735A1 (ja) * 2013-05-23 2014-11-27 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
JPWO2014188735A1 (ja) * 2013-05-23 2017-02-23 日本電気株式会社 音声処理システム、音声処理方法、音声処理プログラム、音声処理システムを搭載した車両、および、マイク設置方法
US9905243B2 (en) 2013-05-23 2018-02-27 Nec Corporation Speech processing system, speech processing method, speech processing program, vehicle including speech processing system on board, and microphone placing method
CN105739941B (zh) * 2014-12-30 2020-03-06 Gn奈康有限公司 操作计算机的方法和计算机
CN105739941A (zh) * 2014-12-30 2016-07-06 Gn奈康有限公司 操作计算机的方法和计算机
CN107427622A (zh) * 2015-03-27 2017-12-01 弗雷塞尼斯医疗保健控股公司 调节医学装置上的声音
US9953641B2 (en) 2015-10-27 2018-04-24 Panasonic Intellectual Property Management Co., Ltd. Speech collector in car cabin
EP3163573A1 (en) * 2015-10-27 2017-05-03 Panasonic Intellectual Property Management Co., Ltd. Speech collector in car cabin
CN107146603A (zh) * 2017-04-12 2017-09-08 奇瑞汽车股份有限公司 汽车座椅的语音控制系统及其控制方法
US11566401B2 (en) 2017-08-14 2023-01-31 Sumitomo Construction Machinery Co., Ltd. Shovel and assist device to work together with shovel
CN110462142A (zh) * 2017-08-14 2019-11-15 住友建机株式会社 挖土机及与挖土机协同工作的支援装置
WO2019035427A1 (ja) * 2017-08-14 2019-02-21 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
JPWO2019035427A1 (ja) * 2017-08-14 2020-11-19 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
JP7344117B2 (ja) 2017-08-14 2023-09-13 住友建機株式会社 ショベル、及び、ショベルと協働する支援装置
CN108621981A (zh) * 2018-03-30 2018-10-09 斑马网络技术有限公司 基于座椅的语音识别系统及其识别方法
WO2019235229A1 (ja) * 2018-06-06 2019-12-12 ソニー株式会社 情報処理装置および方法、並びにプログラム
CN112153505A (zh) * 2019-06-28 2020-12-29 中强光电股份有限公司 降噪系统及降噪方法
WO2021192410A1 (ja) * 2020-03-25 2021-09-30 株式会社Jvcケンウッド 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP7424156B2 (ja) 2020-03-25 2024-01-30 株式会社Jvcケンウッド コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム
JP7443877B2 (ja) 2020-03-25 2024-03-06 株式会社Jvcケンウッド 音声出力制御装置、音声出力システム、音声出力制御方法およびプログラム
JP7447602B2 (ja) 2020-03-25 2024-03-12 株式会社Jvcケンウッド コンテンツ出力制御装置、コンテンツ出力システム、コンテンツ出力制御方法およびプログラム

Also Published As

Publication number Publication date
JP2014178339A (ja) 2014-09-25

Similar Documents

Publication Publication Date Title
WO2012165657A1 (ja) 音声処理システム、音声処理装置、音声処理方法およびそのプログラム
JP4311190B2 (ja) 車載機器用インターフェース
JP6515764B2 (ja) 対話装置及び対話方法
CN210129283U (zh) 基于车辆的远程控制系统
CN102030008B (zh) 情绪咨询系统
US9330684B1 (en) Real-time wind buffet noise detection
US20160127827A1 (en) Systems and methods for selecting audio filtering schemes
US9437181B2 (en) Off-axis audio suppression in an automobile cabin
KR20120072243A (ko) 음향/음성 인식을 위한 잡음 제거 장치 및 그 방법
JP2007235943A (ja) 音声信号取得のためのハンドフリーシステム
US11089404B2 (en) Sound processing apparatus and sound processing method
JP6473972B2 (ja) 音声処理装置、音声処理方法、音声処理プログラムおよび音声処理装置の取り付け方法、天井部材、ならびに車両
WO2018167949A1 (ja) 車内通話制御装置、車内通話システムおよび車内通話制御方法
US20240096343A1 (en) Voice quality enhancement method and related device
CN113486760A (zh) 对象说话检测方法及装置、电子设备和存储介质
JP2004354930A (ja) 音声認識システム
WO2014125669A1 (ja) 音声入力装置、音声処理方法、音声処理プログラム、天井部材ならびに車両
EP2551849A1 (en) Off-axis audio suppression in an automobile cabin
JP5979303B2 (ja) 音声制御システム、音声制御方法、音声制御用プログラムおよび耐雑音音声出力用プログラム
JPH11352987A (ja) 音声認識装置
US20220189450A1 (en) Audio processing system and audio processing device
WO2019169272A1 (en) Enhanced barge-in detector
JP6031777B2 (ja) 音声入力装置、通信装置、状態通知方法
CN113763940A (zh) 一种用于ar眼镜的语音信息处理方法及系统
JP6388256B2 (ja) 車両用通話システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12792502

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12792502

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP