WO2022059214A1 - 車載装置及び車載システム - Google Patents
車載装置及び車載システム Download PDFInfo
- Publication number
- WO2022059214A1 WO2022059214A1 PCT/JP2020/035642 JP2020035642W WO2022059214A1 WO 2022059214 A1 WO2022059214 A1 WO 2022059214A1 JP 2020035642 W JP2020035642 W JP 2020035642W WO 2022059214 A1 WO2022059214 A1 WO 2022059214A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- acoustic signal
- vehicle
- speaker
- volume
- unit
- Prior art date
Links
- 238000000034 method Methods 0.000 claims abstract description 99
- 230000008569 process Effects 0.000 claims abstract description 96
- 230000001629 suppression Effects 0.000 claims description 67
- 230000004044 response Effects 0.000 claims description 37
- 230000004913 activation Effects 0.000 claims description 13
- 238000004891 communication Methods 0.000 description 21
- 230000006854 communication Effects 0.000 description 21
- 230000006870 function Effects 0.000 description 20
- 241001591005 Siga Species 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 230000005540 biological transmission Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000008054 signal transmission Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000012905 input function Methods 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000007175 bidirectional communication Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011946 reduction process Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/10—Speech classification or search using distance or distortion measures between unknown speech and reference templates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/20—Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
Definitions
- the present invention relates to an in-vehicle device and an in-vehicle system.
- the speaker gives various instructions or inquiries to the in-vehicle device by utterance.
- the in-vehicle device executes a process of responding to an instruction or an inquiry through voice recognition. For example, if there is an utterance "Set ABC station as destination", the in-vehicle device will make a voice response saying "OK, set ABC station as destination” and set ABC station as the destination. Perform the navigation operation set to.
- a function echo canceller for canceling an echo caused by the output sound of an in-vehicle speaker returning to a microphone for voice input is generally provided.
- a plurality of in-vehicle devices for example, an in-vehicle device that functions as a head unit and an in-vehicle device that functions as a rear seat entertainment device
- a plurality of speakers associated with the plurality of in-vehicle devices may be provided in the vehicle. Acoustic signals with different contents may be reproduced by a plurality of speakers.
- the output sound component from the speaker whose output is directly controlled by the in-vehicle device responsible for voice input processing can be removed from the output acoustic signal of the microphone by the function of the echo canceller.
- the echo canceller does not work effectively for the output sound of the other speaker, and the output sound of the other speaker is used for speech recognition. It becomes the noise of.
- voice recognition and voice input processing based on voice recognition do not operate correctly.
- An object of the present invention is to provide an in-vehicle device and an in-vehicle system that contribute to the execution of normal voice input processing.
- the in-vehicle device is an in-vehicle device installed in a vehicle, and includes a speaker and a volume control unit for controlling the output volume of the speaker, and the volume control unit is an other in-vehicle device.
- the voice input process is executed by the occupant of the vehicle, and the content of the target acoustic signal to be output by the speaker is output by the other in-vehicle device to the other speaker in the vehicle.
- the volume control unit is used when the voice input process is not executed by the other in-vehicle device, or the content of the target acoustic signal is the same as that of the other acoustic signal.
- the output volume is set to a volume based on the given volume setting information
- the voice input process is executed by the other in-vehicle device
- the content of the target acoustic signal is the content.
- the output volume is lowered from the volume based on the volume setting information, the output volume is set to the predetermined volume regardless of the volume setting information, or the speaker is muted. It may be a configuration to make it (second configuration).
- voice recognition for the content of the utterance is executed based on the input acoustic signal to the microphone that receives the sound of the utterance, and the voice input process is performed. Is executed based on the result of the voice recognition, and the voice recognition is a configuration (third configuration) executed after suppressing the components of the other acoustic signals in the input acoustic signal to the microphone. Is also good.
- the in-vehicle system according to the present invention has a configuration (fourth configuration) including an in-vehicle device according to any one of the first to third configurations and another in-vehicle device.
- the other in-vehicle device is an in-vehicle device installed in a vehicle, which includes a microphone that receives a sound generated by a occupant of the vehicle, and a voice recognition unit that performs voice recognition for the content of the speech.
- a voice input activation unit that activates the voice input process by the utterance
- a response processing unit that responds to the content of the utterance based on the result of the voice recognition when the voice input process is executed
- an acoustic signal is provided with an acoustic signal processing unit that outputs sound to a speaker in the vehicle and another device control unit that transmits a control signal to another in-vehicle device installed in the vehicle.
- an echo suppression unit that generates a suppressed acoustic signal based on the input acoustic signal by suppressing a component of the target acoustic signal included in the input acoustic signal to the microphone is further provided.
- the voice recognition unit may be configured to execute the voice recognition based on the suppressed acoustic signal (sixth configuration).
- the other in-vehicle system according to the present invention has a configuration (seventh configuration) including the in-vehicle device according to the fifth or sixth configuration and another in-vehicle device.
- Is a partial functional block diagram of the main processing unit shown in FIG. Is a partial functional block diagram of the main processing unit shown in FIG.
- Is a partial functional block diagram of the main processing unit shown in FIG. Is a diagram for explaining a volume suppression command signal generated by a rear seat unit according to an embodiment of the present invention.
- FIG. 1 schematically shows the inside of the vehicle CR according to the embodiment of the present invention.
- FIG. 2 shows the overall configuration of the in-vehicle system SYS according to the embodiment of the present invention.
- the inside of the vehicle or the inside of the vehicle refers to the interior of the vehicle CR.
- a vehicle autonomousmobile or the like
- the vehicle CR may be any kind of vehicle.
- Multiple occupants can board the vehicle CR.
- Seats ST1 to ST3 are provided in the vehicle CR.
- the seat ST1 is a driver's seat on which the driver of the vehicle CR sits.
- the occupant PS1 represents the driver of the vehicle CR.
- the occupant PS1 may be referred to as the driver PS1.
- occupants other than the driver may be referred to as passengers.
- the direction from the driver's seat ST1 toward the steering wheel STR of the vehicle CR is defined as "forward", and the direction from the steering wheel STR of the vehicle CR toward the driver's seat ST1 is defined as "rear”.
- the terms left and right refer to the left and right as seen from the driver PS1 who sits facing forward in the driver's seat ST1 unless otherwise specified.
- Seat ST2 (passenger seat) is installed on the left side of seat ST1, and seat ST3 (hereinafter, may be referred to as rear seat ST3) is provided behind seats ST1 and ST2.
- Crew members that is, passengers
- the seat ST3 is a wide seat in which a plurality of occupants can sit.
- the occupant PS2 is a passenger sitting in the rear seat ST3.
- Crew members other than the occupants PS1 and PS2 may be further on board the vehicle CR, but here, only the occupants PS1 and PS2 are focused on.
- the in-vehicle system SYS is a system mounted on the vehicle CR, and is an electronic device for the driver PS1 and the front seat unit 10 and an electronic device for a occupant sitting in the rear seat ST3. It includes a rear seat unit 20 which is an apparatus, and an in-vehicle speaker SP1. The units 10 and 20 and the in-vehicle speaker SP1 are installed in the vehicle of the vehicle CR.
- the front seat unit 10 is installed in front of the driver's seat ST1 so that the driver PS1 can easily see the display unit provided on the front seat unit 10.
- the rear seat unit 20 is on the rear side of the seats ST1 and ST2 and is a seat so that the occupant (here, the occupant PS2) sitting on the rear seat ST3 can easily see the display unit provided on the rear seat unit 20. It is installed on the front side of ST3.
- the housing of the rear seat unit 20 may be supported by the top plate of the vehicle CR.
- the front seat unit 10 may function as a so-called headset device
- the rear seat unit 20 may function as a so-called rear seat entertainment (RSE) device.
- RSE rear seat entertainment
- the in-vehicle speaker SP1 is installed in a suitable place in the vehicle CR.
- a single speaker is shown as an in-vehicle speaker SP1, but an in-vehicle speaker SP1 may be configured by a plurality of speakers.
- the units 10 and 20 are wirelessly or wiredly connected to each other through a local area network formed in the vehicle CR so that bidirectional communication is possible, and the front seat unit 10 and the in-vehicle speaker SP1 are wireless.
- a signal can be transmitted from the front seat unit 10 to the in-vehicle speaker SP1 by being connected by wire.
- FIG. 3 shows the internal configuration of the front seat unit 10.
- the front seat unit 10 communicates with a display unit 11 that can be visually recognized by the driver PS1, an operation unit 12 that receives various operations from the driver PS1, a main processing unit 13, and any device other than the front seat unit 10. It includes a communication unit 14 for performing the operation, and a microphone 15 that converts the sound picked up by itself into an acoustic signal and outputs the sound.
- the other party device for communication using the communication unit 14 includes a rear seat unit 20 and an in-vehicle speaker SP1.
- the communication unit 14 may be connectable to an information communication network including the Internet via a predetermined mobile communication line, and in this case, bidirectionally with any device connected to the information communication network. Communication is possible.
- the main processing unit 13 includes a microcomputer, a memory, a signal processing circuit including a DSP (Digital Signal Processor), and the like.
- the memory includes a ROM (Read Only Memory) and a RAM (Random Access Memory), and various functions are realized by executing a program stored in the memory on a microcomputer.
- the functions realized by the main processing unit 13 include a navigation function that supports the movement of the vehicle CR to the destination, a driving support function that supports the driving operation of the vehicle CR, and a moving image reproduction that reproduces the provided moving image.
- It includes functions, an audio function that reproduces an acoustic signal from an arbitrary sound source, and a voice input function that accepts input from the speaker's utterance and responds to the speaker's utterance content.
- Voice input processing is included in the processing for realizing the voice input function.
- FIG. 4 shows the configuration of the voice input unit 110 involved in the voice input process.
- the voice input unit 110 is provided in the main processing unit 13.
- the voice input unit 110 includes a front end 111, an ECNR 112 (echo suppression unit), a voice recognition unit 113, a response processing unit 114, and a voice input activation unit 115.
- the microphone 15 picks up its own ambient sound, converts the picked up sound into an acoustic signal Sig01, and outputs it.
- the acoustic signal Sig01 is input to the front end 111.
- the acoustic signal Sig01 is an analog acoustic signal.
- the front end 111 has an amplifier and an analog / digital converter. At the front end 111, the analog acoustic signal Sig01 is amplified by the amplifier, and the amplified analog acoustic signal Sig01 is converted into the digital acoustic signal Sig02 by the analog / digital converter.
- the microphone 15 receives the sound produced by the speaker and mainly collects the sound of the speaker's utterance.
- the speaker functions as an operator who operates the front seat unit 10 by utterance, and can voice-input an arbitrary instruction or inquiry to the front seat unit 10 by utterance.
- the speaker here is one of the occupants of the vehicle CR.
- the speaker may be a occupant other than the driver PS1, but here, it is assumed that the speaker is the driver PS1. That is, the sound pick-up target of the microphone 15 is mainly the voice of the driver PS1's utterance.
- sounds other than the utterance sound directly emitted from the speaker hereinafter referred to as noise
- Echo is the main noise.
- the echo here refers to the output sound from the echo target speaker, which is picked up by the microphone 15.
- the echo target speaker includes the in-vehicle speaker SP1.
- the ECNR112 executes a process (echo cancellation and noise reduction process) for generating an acoustic signal Sigma03 by removing noise contained in the acoustic signal Sigma02.
- the noise to be removed includes the above-mentioned echo, and noise other than the echo is also removed by the ECNR 112.
- the ECNR 112 is an acoustic signal in which echo is suppressed by referring to the reference signal Sig_ref corresponding to the output sound from the echo target speaker and removing the component of the reference signal Sig_ref from the acoustic signal Sig02.
- the acoustic signal Sig03 is generated.
- the reference signal Sig_ref estimates the acoustic signal that will be included in the output acoustic signal of the microphone 15 based on the output sound from the echo target speaker when the output sound from the echo target speaker is input to the microphone 15. be. Therefore, by removing the component of the reference signal Sig_ref from the acoustic signal Sig02, the component of the acoustic signal representing the output sound of the echo target speaker is removed from the acoustic signal Sig02. It should be noted that the removal here means a complete removal as well as a concept including a partial removal, and the removal may be read as a reduction. Since the signal processing itself for suppressing echo is known, detailed description of the processing content will be omitted.
- the voice recognition unit 113 executes a voice recognition process for recognizing the utterance content of the speaker (here, the driver PS1) based on the acoustic signal Sig03. Recognition of the utterance content of the speaker by voice recognition processing is also referred to as voice recognition.
- the utterance content of the speaker is converted into text data (character string data) by voice recognition.
- the response processing unit 114 understands the intention of the speaker based on the text data obtained by voice recognition, and executes the response process in response to the utterance content of the driver PS1 in the voice input process.
- the response process is executed only when the voice input process is executed, and the response process is not executed when the voice input process is not executed.
- the voice input activation unit 115 controls whether or not the voice input process is activated.
- the control of whether or not the voice input process is started is equivalent to the control of whether or not the voice input process is executed. It is assumed that the voice input process is not activated (that is, it is not executed) in the initial state of the front seat unit 10.
- the voice input activation unit 115 activates the voice input process when a predetermined activation condition is satisfied.
- the voice input process is activated, the state in which the voice input process is not executed is changed to the state in which the voice input process is executed.
- the voice produced by the speaker is received as an input operation to the front seat unit 10 and a response to the input operation is performed.
- the activation condition is satisfied when the wake-up keyword is spoken by the speaker.
- the wake-up keyword is a keyword registered in advance for the voice input unit 110. More specifically, for example, the voice input activation unit 115 determines whether or not the text data obtained by the voice recognition unit 113 contains a wakeup keyword, and the text data includes the wakeup keyword. If so, start voice input processing.
- the activation condition may be satisfied when a predetermined activation operation is input to the operation unit 12.
- the voice input start unit 115 After the start of the voice input process, when the predetermined end condition is satisfied, the voice input start unit 115 returns to the state where the voice input process is not executed.
- the termination condition is arbitrary. For example, when it is determined that the response processing to the series of utterance contents of the speaker (here, the driver PS1) is completed (the subject of this determination may be the response processing unit 114 or the voice input activation unit 115), the process ends. The condition may be satisfied, or the end condition may be satisfied when a predetermined end operation is input to the operation unit 12.
- the speaker (here, the driver PS1 is assumed) can operate the front seat unit 10 by voice.
- the response in the response process may include at least one of a voice response and a display response to the speaker.
- the voice response is realized by the voice output from the response speaker.
- the response speaker may typically be the in-vehicle speaker SP1, but is different from any of the in-vehicle speaker SP1 and the rear seat speaker SP2 (see FIG. 6) described later, and is different from other speakers (not) provided in the front seat unit 10. (Fig.) May be used.
- the other speakers are also included in the echo target speaker, and the acoustic signal due to the voice response is included in the reference signal Sigma_ref.
- the display response is realized by displaying characters and images on the display unit 11 of the front seat unit 10.
- the response processing information such as weather information, news, stores or tourist spots is provided to the speaker by voice response or display response according to the utterance content of the speaker (here, driver PS1).
- driver PS1 voice response or display response according to the utterance content of the speaker
- the instruction is given in the response processing.
- a planned travel route from the current location of the vehicle CR to the destination is set, and an image in which the planned travel route is superimposed on the map image is displayed on the display unit 11.
- the main processing unit 13 may have a function of controlling the controlled target device, and in this case, the response process may include the control of the controlled target device.
- the control target device is a device mounted on the vehicle CR (however, different from the units 10 and 20 and the in-vehicle speaker SP1), and the operation is controlled by the main processing unit 13.
- an exterior lighting device headlights, etc.
- an interior lighting device that illuminates the interior of the vehicle
- a wiper for wiping water and dirt adhering to the windshield of the vehicle CR and adjusting the temperature and humidity inside the vehicle.
- the air conditioner to be controlled may correspond to the device to be controlled.
- the response processing unit 114 will output the voice "OK” as the response processing.
- the wiper is activated.
- An operation mode setting unit (not shown) for setting the operation mode of the main processing unit 13 to any one of a plurality of modes including a non-voice input mode and a voice input mode is provided in the main processing unit 13, and the operation of the main processing unit 13 is performed.
- the voice input process is not executed, and when the operation mode of the main processing unit 13 is set to the voice input mode, the voice input process is executed. That is, it can be considered that the voice input start unit 115 corresponds to the operation mode setting unit, and when the predetermined start condition is satisfied when the operation mode of the main processing unit 13 is the non-voice input mode, the operation of the main processing unit 13 is performed.
- the response processing unit 114 executes response processing in response to the utterance content of the speaker based on the result of voice recognition in the voice input mode.
- FIG. 5 shows a partial functional block diagram related to the acoustic signal output in the main processing unit 13.
- the main processing unit 13 is provided with an acoustic signal processing unit 120 and an RSE volume interference unit 130 (other device control unit).
- the acoustic signal Sig11 is input to the acoustic signal processing unit 120.
- the acoustic signal processing unit 120 performs predetermined signal processing on the acoustic signal Sig11, and outputs the acoustic signal Sig11 after the signal processing as the acoustic signal Sig12.
- the acoustic signals Sig11 and Sig12 may be the same signal to each other.
- the acoustic signals Sig11 and Sig12 are signals having substantially the same contents (the amplitudes thereof may be different).
- the acoustic signal Sig12 is output to the in-vehicle speaker SP1.
- the in-vehicle speaker SP1 outputs the acoustic signal Sig12 as sound (sound wave). Since the in-vehicle speaker SP1 is included in the echo target speaker as described above, the acoustic signal Sig11 or Sig12 itself representing the output sound from the in-vehicle speaker SP1 or the signal based on the acoustic signal Sig11 or Sig12 is the reference signal Sig_ref ( (See FIG. 4). The in-vehicle speaker SP1 may be included in the components of the front seat unit 10.
- the RSE volume interference unit 130 has a function of interfering with the output sound of the speaker provided in the rear seat unit 20 (rear seat speaker SP2: see FIG. 6 described later), the details of which will be described later.
- FIG. 6 shows the internal configuration of the rear seat unit 20.
- the rear seat unit 20 communicates with a display unit 21 that can be visually recognized by the occupant PS2, an operation unit 22 that receives various operations from the occupant PS2, a main processing unit 23, and any device other than the rear seat unit 20.
- the communication unit 24 and the rear seat speaker SP2 are provided.
- the other party device for communication using the communication unit 24 includes at least the front seat unit 10.
- the communication unit 24 may be connectable to an information communication network including the Internet via a predetermined mobile communication line, and in this case, bidirectionally with any device connected to the information communication network. Communication is possible.
- the description of the communication unit 14 or 24 may be omitted in the following description relating to the signal transmission / reception.
- the main processing unit 23 includes a microcomputer, a memory, a signal processing circuit including a DSP (Digital Signal Processor), and the like.
- the memory includes a ROM (Read Only Memory) and a RAM (Random Access Memory), and various functions are realized by executing a program stored in the memory on a microcomputer.
- FIG. 7 shows a partial functional block diagram of the main processing unit 23 related to the output control of the rear seat speaker SP2.
- the main processing unit 23 includes an acoustic signal processing unit 210, a volume control unit 220, and a volume suppression command unit 230.
- the acoustic signal Sig21 is input to the acoustic signal processing unit 210.
- the acoustic signal Sig21 may be an acoustic signal received from the front seat unit 10, an acoustic signal acquired from a device other than the front seat unit 10 or a recording medium, or may be generated in the main processing unit 23. It may be an acoustic signal.
- the acoustic signal processing unit 210 performs predetermined signal processing on the acoustic signal Sig21, and outputs the acoustic signal Sig21 after the signal processing as the acoustic signal Sig22.
- the acoustic signal Sig22 is output to the rear seat speaker SP2.
- the rear seat speaker SP2 outputs the acoustic signal Sig22 as sound (sound wave).
- the volume of the output sound from the rear seat speaker SP2 (sometimes referred to as the output volume of the rear seat speaker SP2) is controlled by the volume control unit 220.
- the acoustic signal processing unit 210 can execute an amplitude adjusting process for adjusting the amplitude of the acoustic signal Sigma 21 under the control of the volume control unit 220, and the acoustic obtained by performing the amplitude adjusting process on the acoustic signal Sigma 21.
- the signal (that is, the acoustic signal Sig21 after the amplitude adjustment by the amplitude adjustment processing) is output as the acoustic signal Sig22.
- the output volume of the rear seat speaker SP2 also increases as the amplitude of the acoustic signal Sig22 increases, and the amplitude of the acoustic signal Sig22 also increases.
- the smaller the value the smaller the output volume of the rear-seat speaker SP2.
- the acoustic signal processing unit 210 generates the acoustic signal Sigma 22 by multiplying the amplitude of the acoustic signal Sigma 21 by k AMP in the amplitude adjustment processing. Therefore, as the coefficient k AMP increases, the output volume of the rear seat speaker SP2 also increases.
- the volume control unit 220 controls the output volume of the rear seat speaker SP2 based on the volume setting information VOL * and the volume suppression command signal MT * .
- the volume control unit 220 can control the output volume of the rear seat speaker SP2 by designating the value of the coefficient k AMP .
- the volume suppression command signal MT * is a binarized signal that takes an active signal state (for example, high level) or an inactive signal state (for example, low level).
- the volume setting information VOL * shall be any value of an integer of 1 or more and n or less, and the value of the coefficient k AMP shall increase as the value of the volume setting information VOL * increases.
- n is any integer greater than or equal to 2.
- the volume suppression command signal MT * when the volume suppression command signal MT * is in the inactive signal state, assuming that the acoustic signal Sig21 is constant, the larger the value of the volume setting information VOL * , the larger the coefficient k AMP , and the rear-seat speaker SP2.
- the output volume of the rear-seat speaker SP2 also decreases as the value of the volume setting information VOL * decreases, and the coefficient k AMP decreases.
- the value of the volume setting information VOL * may be determined based on the input operation to the operation unit 22 of the rear seat unit 20.
- the operation unit 22 may be realized by a remote controller or an arbitrary terminal device connected to the rear seat unit 20 by wire or wirelessly.
- the touch panel When the touch panel is formed on the display unit 21, the touch panel may function as the operation unit 22.
- the value of the volume setting information VOL * may be determined based on the input operation to the operation unit 12 of the front seat unit 10.
- the rear seat unit 20 may have a display speaker function that outputs sound by vibrating the display (display screen for displaying an image) on the display unit 21.
- the display in the display unit 21 functions as the rear seat speaker SP2
- the display vibrates based on the acoustic signal Sig22, so that the sound based on the acoustic signal Sig22 is output from the display.
- the rear seat speaker SP2 may be a speaker provided separately from the display unit 21.
- the rear seat speaker SP2 may be a speaker provided outside the rear seat unit 20.
- volume control unit 220 executes the volume suppression process.
- the volume suppression process may be the following first voice suppression process.
- the volume control unit 220 sets a predetermined value k LOW to the value of the coefficient k AMP regardless of the volume setting information VOL * .
- the predetermined value k LOW is the minimum value (for example, 1) of the variable range of the coefficient k AMP .
- the volume setting information VOL * takes the minimum value of the variable range of the volume setting information VOL * , and therefore the value of the coefficient k AMP is variable of the coefficient k AMP .
- the output volume of the rear seat speaker SP2 becomes the minimum volume of the variable range of the output volume of the rear seat speaker SP2. Therefore, the output volume of the rear seat speaker SP2 when the first voice suppression process is executed is the minimum volume (predetermined volume) in the variable range of the output volume of the rear seat speaker SP2. Therefore, when the first voice suppression process is executed when the value of the volume setting information VOL * is 2 or more, the output volume of the rear seat speaker SP2 becomes smaller than when the first voice suppression process is not executed ( In other words, the output volume of the rear seat speaker SP2 is smaller than the volume based on the volume setting information VOL * ).
- the predetermined value k LOW may have a value larger than the minimum value of the variable range of the coefficient k AMP (however, at least smaller than the maximum value of the variable range of the coefficient k AMP ). That is, for example, if the value of the coefficient k AMP is set to any of n kinds of values when the volume suppression command signal MT * is in the inactive signal state (n is assumed to be 3 or more). In the first voice suppression process, the value of the coefficient k AMP may be the second smallest value among the n kinds of values.
- the volume suppression process may be the following second voice suppression process.
- the volume control unit 220 sets the value of the coefficient k AMP based on the volume setting information VOL * and the volume suppression command signal MT * .
- the volume control unit 220 has a value smaller than the value of the volume setting information VOL * (for example, “VOL * -1””.
- the output volume of the rear seat speaker SP2 becomes smaller than that when the second voice suppression process is not executed ( In other words, the output volume of the rear seat speaker SP2 is smaller than the volume based on the volume setting information VOL * ).
- the value of the coefficient k AMP becomes smaller than the predetermined lower limit value (here, 1).
- the value of the volume setting information VOL * is 1.
- the volume suppression process may be the following third voice suppression process.
- the volume control unit 220 stops the output of the acoustic signal Sig22 to the rear seat speaker SP2. Therefore, when the third voice suppression process is executed, the output volume of the rear seat speaker SP2 becomes zero (that is, the rear seat speaker SP2 is muted).
- the volume suppression command unit 230 outputs the volume suppression command signal MT * to the volume control unit 220.
- the state control of the volume suppression command signal MT * will be described with reference to FIG.
- the waveform 611 represents the execution / non-execution state of the voice input process in the front seat unit 10.
- the waveform 612 represents the identity between the acoustic signal Sig_SP1 to be output by the in-vehicle speaker SP1 and the acoustic signal Sig_SP2 to be output by the rear-seat speaker SP2.
- the waveform 613 represents the signal state of the volume suppression command signal MT * .
- the acoustic signal Sig_SP2 to be output by the rear seat speaker SP2 is the acoustic signal Sig21 or Sig22 (see FIG. 7).
- the acoustic signal Sig22 does not exist, so that the acoustic signal Sig_SP2 is understood to be the acoustic signal Sig21.
- the first or second voice suppression process is executed as the voice suppression process, it may be considered that the acoustic signal Sig_SP2 to be output by the rear seat speaker SP2 is the acoustic signal Sig21 or Sig22.
- the acoustic signal Sig21 is the acoustic signal Sig_SP2 in consideration of the fact that the third voice suppression process can be executed as the voice suppression process.
- the other acoustic signal whose identity is evaluated, that is, the acoustic signal Sig_SP1 to be output by the in-vehicle speaker SP1 is the acoustic signal Sig11 or Sig12 (see FIG. 5), but here, the acoustic signal Sig11 is mainly acoustic.
- the signal Sig_SP1 is the acoustic signal Sig11 or Sig12 (see FIG. 5), but here, the acoustic signal Sig11 is mainly acoustic.
- the volume suppression command unit 230 sets the volume suppression command signal MT * to the active signal state in the target period, and sets the volume suppression command signal MT * to the inactive signal state in the non-target period different from the target period.
- the period during which the voice input process is being executed in the main processing unit 13 of the front seat unit 10 and the content of the acoustic signal Sig_SP1 and the content of the acoustic signal Sig_SP2 are different corresponds to the target period.
- the period during which the voice input process is not executed in the main processing unit 13 of the front seat unit 10 belongs to the non-target period regardless of the same / different contents of the acoustic signals Sig_SP1 and Sig_SP2. Even during the period in which the voice input processing is being executed in the main processing unit 13 of the front seat unit 10, if the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are the same during the period, the period is concerned.
- the period during which the voice input process is executed in the main processing unit 13 corresponds to the period during which the operation mode of the main processing unit 13 is set to the voice input mode.
- the period during which the voice input process is not executed in the main processing unit 13 corresponds to a period in which the operation mode of the main processing unit 13 is set to the non-voice input mode.
- the fact that the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are the same means that the sound sources that are the sources of the acoustic signals Sig_SP1 and Sig_SP2 are the same, and therefore, when the acoustic signal Sig_SP1 is input to the in-vehicle speaker SP1. It means that the content of the output sound of the in-vehicle speaker SP1 and the content of the output sound of the rear seat speaker SP2 when the acoustic signal Sig_SP2 is input to the rear seat speaker SP2 are the same as each other.
- the amplitude of the acoustic signal Sig_SP1 and the amplitude of the acoustic signal Sig_SP2 are different from each other, if the waveform of the acoustic signal Sig_SP1 and the waveform of the acoustic signal Sig_SP2 are similar to each other, the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are mutually similar. It is understood that they are the same.
- the sound source does not refer to an object that generates sound waves, but to a source of an acoustic signal (electrical signal of sound).
- a common acoustic signal based on a common sound source is input to the acoustic signal processing unit 120 (see FIG. 5) of the front seat unit 10 as the acoustic signal Sigma 11, and at the same time, the acoustic signal processing unit 210 of the rear seat unit 20 as the acoustic signal Sigma 21.
- the content of the acoustic signal Sig_SP1 and the content of the acoustic signal Sig_SP2 are the same as each other.
- the moving image of the movie recorded on the magnetic disk is reproduced on the display unit 21, and the acoustic signal accompanying the moving image (the acoustic signal of the inserted song in the movie, etc.) is the rear speaker.
- the contents of the acoustic signal Sig_SP2 are the same as each other. Reproduction of an acoustic signal through a speaker means that the acoustic signal is output as sound by the speaker.
- the first acoustic signal based on the first sound source is input to the acoustic signal processing unit 120 (see FIG. 5) of the front seat unit 10 as the acoustic signal Sig11, while the second acoustic signal based on the second sound source is rear as the acoustic signal Sig21.
- the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are different from each other (however, the first and second sound sources are different from each other, and the first And the second acoustic signal shall be different from each other).
- a moving image of a movie recorded on a recording medium such as an optical disk is reproduced on the display unit 21, and an acoustic signal accompanying the moving image (an acoustic signal of an inserted song in the movie, etc.) is generated.
- an acoustic signal accompanying the moving image an acoustic signal of an inserted song in the movie, etc.
- the acoustic signal of the music based on the radio broadcast is input to the in-vehicle speaker SP1 and reproduced in the in-vehicle speaker SP1 when it is input to the rear-seat speaker SP2 and reproduced in the rear-seat speaker SP2
- the acoustic signal Sig_SP1 And the content of the acoustic signal Sig_SP2 are different from each other.
- the output sound of the in-vehicle speaker SP1 and the output sound of the rear seat speaker SP2 are also input to the microphone 15.
- the main processing unit 13 in the front seat unit 10 recognizes the acoustic signal Sig_SP1 to be output by the in-vehicle speaker SP1. Therefore, by processing ECNR112 in which the acoustic signal Sig_SP1 (for example, Sig11 or Sig12) is included in the reference signal Sig_ref (see FIG. 4), the component of the acoustic signal Sig_SP1 can be removed from the acoustic signal Sig02, and the subsequent speech recognition can be performed. On the other hand, the component of the acoustic signal Sig_SP1 has almost no effect.
- the component of the acoustic signal Sig_SP2 is removed from the acoustic signal Sig02 at the same time as the component of the acoustic signal Sig_SP1 by the processing of ECNR112 (see FIG. 4). ..
- the component of the acoustic signal Sig_SP2 has almost no effect on the subsequent speech recognition, and accurate speech recognition is expected.
- the component of the acoustic signal Sig_SP2 cannot be removed from the acoustic signal Sig02 by the processing of ECNR112.
- the voice input process based on the result of the voice recognition is executed, the output sound of the rear seat speaker SP2 may hinder accurate voice recognition and the voice input process.
- the voice input process is executed in the front seat unit 10 and the content of the acoustic signal Sig_SP2 is different from the content of the acoustic signal Sig_SP1 (that is, in the above-mentioned target period), the voice is heard.
- the suppression process one of the first to third sound suppression processes
- the output volume of the rear seat speaker SP2 is lowered as compared with the case where it is not, and the output volume of the rear seat speaker SP2 is set to a predetermined volume (typically). For example, it is set to, for example, the minimum volume in the variable range of the output volume of the rear seat speaker SP2), or the rear seat speaker SP2 is muted (see FIG. 8).
- the accuracy of voice recognition is ensured, and the voice input processing can be performed correctly (the output sound of the rear seat speaker SP2 can be suppressed from obstructing the voice input processing).
- the main processing unit 13 of the front seat unit 10 may have an acoustic signal transmission unit 150 that transmits an acoustic signal from an arbitrary sound source to the rear seat unit 20 by using the communication unit 14.
- the acoustic signal Siga from the sound source ASA is transmitted to the rear seat unit 20 through the acoustic signal transmission unit 150.
- the acoustic signal Siga is received by the communication unit 24 of the rear seat unit 20 and input to the acoustic signal processing unit 210 as the acoustic signal Sig21.
- the acoustic signal Siga is set as the acoustic signal Sig 11 and the acoustic signal processing unit 120 (see also FIG. 5). ) May be entered.
- FIG. 9 shows the flow of the acoustic signal in the first case.
- the acoustic signal Siga from the sound source ASA is simultaneously reproduced by the speakers SP1 and SP2 (for the sake of simplicity of explanation, the delay due to communication or the like is ignored).
- the content of the acoustic signal Sig_SP1 (content of the acoustic signal Sig11) and the content of the acoustic signal Sig_SP2 (content of the acoustic signal Sig21) are the same.
- the acoustic signal Siga from the sound source ASa is input to the acoustic signal processing unit 120 of the front seat unit 10 as the acoustic signal Sig11, while the acoustic signal Sigb from the sound source ASb is an acoustic signal. It is transmitted from the transmission unit 150 to the rear seat unit 20 through the communication unit 14. Then, in the rear seat unit 20, the acoustic signal Sigb is input to the acoustic signal processing unit 210 as the acoustic signal Sig21.
- the acoustic signal Siga from the sound source ASa is reproduced by the in-vehicle speaker SP1 and at the same time the acoustic signal Sigb from the sound source ASb is reproduced by the rear seat speaker SP2.
- the sound sources ASa and ASb are different from each other, and therefore the acoustic signals Siga and Sigb are also different from each other. Therefore, in the second case, the content of the acoustic signal Sig_SP1 (content of the acoustic signal Sig11) and the content of the acoustic signal Sig_SP2 (content of the acoustic signal Sig21) are different from each other.
- the RSE volume interference unit 130 (see FIG. 5) of the front seat unit 10 determines whether or not the sound source of the output sound of the in-vehicle speaker SP1 and the sound source of the output sound of the rear seat speaker SP2 are the same. In the case where the common acoustic signal from the common sound source is reproduced by the in-vehicle speaker SP1 and transmitted to the rear seat unit 20 as in the first case of FIG. 9, the sound source of the output sound of the in-vehicle speaker SP1 and the rear seat speaker SP2 It is determined that the sound sources of the output sounds of are the same as each other.
- the sound source of the output sound of the in-vehicle speaker SP1 and the rear seat speaker SP2 It is determined that the sound sources of the output sounds of are different from each other. Whether or not the sound source of the output sound of the in-vehicle speaker SP1 and the sound source of the output sound of the rear seat speaker SP2 are the same is determined by whether or not the content of the acoustic signal Sig_SP1 and the content of the acoustic signal Sig_SP2 are the same. Equivalent to judgment.
- the RSE volume interference unit 130 can recognize and set the target period and the non-target period (that is, any timing can be the target period and the target period and the non-target period. You can determine which of the non-target periods it belongs to).
- the RSE volume interference unit 130 (see FIG. 5) of the front seat unit 10 transmits to the rear seat unit 20 a first control signal instructing that the signal state of the volume suppression command signal MT * becomes active during the target period.
- a second control signal instructing that the signal state of the volume suppression command signal MT * becomes inactive during the non-target period is transmitted to the rear seat unit 20.
- the volume suppression command unit 230 (see FIG. 7) sets the signal state of the volume suppression command signal MT * to be active or inactive based on the first or second control signal received from the RSE volume interference unit 130.
- the sound source of the output sound of the in-vehicle speaker SP1 and the sound source of the output sound of the rear seat speaker SP2 are the same, that is, the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are the same. Therefore, in the first case of FIG. 9, the first control signal is not transmitted to the rear seat unit 20 regardless of whether or not the voice input process is executed, and as a result, the volume suppression process is executed in the rear seat unit 20. Not done.
- the sound source of the output sound of the in-vehicle speaker SP1 and the sound source of the output sound of the rear seat speaker SP2 are different, that is, the contents of the acoustic signal Sig_SP1 and the contents of the acoustic signal Sig_SP2 are different. Therefore, the period during which the voice input process is executed in the second case of FIG. 10 corresponds to the target period, and the first control signal is transmitted to the rear seat unit 20 in the target period, whereby the rear seat unit 20 is described. Volume suppression processing is executed.
- Sound sources AS1 and AS2 may be arbitrary sound sources.
- the sound source include a recording medium such as an optical disk on which an acoustic signal is recorded, and a broadcast wave including an acoustic signal.
- the acoustic signal acquired by the unit 10 or 20 through the information communication network including the Internet may be the acoustic signal Siga or Sigb.
- the method on the premise that the acoustic signal reproduced by the rear seat speaker SP2 is provided from the front seat unit 10 to the rear seat unit 20 has been described above, but the rear seat unit does not depend on the front seat unit 10.
- the acoustic signal acquired by the unit 20 alone may be generated by the rear seat speaker SP2.
- the acoustic signal Sig21 is transmitted from the rear seat unit 20 to the front seat unit 10, and the sound received with the acoustic signal Sig11 to be reproduced by the in-vehicle speaker SP1 in the RSE volume interference unit 130 of the front seat unit 10.
- the content of the acoustic signal Sig_SP1 (content of the acoustic signal Sig11) and the content of the acoustic signal Sig_SP2 (content of the acoustic signal Sig21) are the same.
- Second Example it is determined on the rear seat unit 20 side whether or not the content of the acoustic signal Sig_SP1 and the content of the acoustic signal Sig_SP2 are the same.
- the acoustic signal Sig11 to be reproduced by the in-vehicle speaker SP1 is transmitted from the front seat unit 10 to the rear seat unit 20.
- the volume suppression command unit 230 (see FIG. 7) of the rear seat unit 20
- the contents of the acoustic signal Sig_SP1 are compared with the acoustic signal Sig21 to be reproduced by the rear seat speaker SP2 and the received acoustic signal Sig11. It may be determined whether or not (the content of the acoustic signal Sig11) and the content of the acoustic signal Sig_SP2 (the content of the acoustic signal Sig21) are the same.
- the RSE volume interference unit 130 of the front seat unit 10 transmits a notification signal indicating whether or not the voice input process is currently being executed to the rear seat unit 20 as a control signal.
- a specific notification signal may be transmitted to the rear seat unit 20 as a control signal only when the voice input process is currently being executed.
- the volume suppression command unit 230 determines whether the content of the acoustic signal Sig_SP1 and the content of the acoustic signal Sig_SP2 are the same, and the target period and the non-target period based on the control signal as the received notification signal. (That is, determine whether any timing belongs to the target period or the non-target period). Then, the volume suppression command unit 230 may make the signal state of the volume suppression command signal MT * active in the target period and inactive in the non-target period.
- the in-vehicle device (hereinafter, referred to as an in-vehicle device WRSE for convenience) is an in-vehicle device (20) installed in a vehicle, and controls a speaker (SP2) and the output volume of the speaker.
- the volume control unit (220) is provided, and the volume control unit is executed by another in-vehicle device (10) to perform voice input processing by the occupant of the vehicle, and the speaker (SP2).
- the content of the target acoustic signal (Sig_SP2) to be output in the above is the content of the other acoustic signal (Sig_SP1) to be output by the other speaker (SP1) in the vehicle by the other in-vehicle device.
- the output volume is lowered as compared with the case where the output volume is not set, the output volume is set to a predetermined volume, or the speaker is muted.
- the output sound of the speaker (SP2) is suppressed from interfering with the voice input processing in the other in-vehicle device, and the voice input processing can be correctly performed in the other in-vehicle device.
- the volume control unit (220) is used when the voice input process is not executed by the other vehicle-mounted device (10), or the target acoustic signal (Sig_SP2).
- the output volume is set to a volume based on the given volume setting information (VOL * ), and the other in-vehicle device (10)
- VOL * volume setting information
- the output volume is lowered from the volume based on the volume setting information. It is preferable to set the output volume to the predetermined volume or mute the speaker regardless of the volume setting information.
- the output volume of the speaker (SP2) is basically based on the volume setting information.
- the volume is lowered or the like to ensure the accurate execution of the voice input processing.
- voice recognition for the content of the utterance is executed based on the input acoustic signal to the microphone (15) that receives the sound of the utterance.
- the voice input process may be executed based on the result of the voice recognition, and the voice recognition may be executed after suppressing the component of the other acoustic signal (Sig_SP1) in the input acoustic signal to the microphone. ..
- Sig_SP1 By suppressing the components of other acoustic signals (Sig_SP1), so-called echo cancellation is realized, and accurate speech recognition is ensured.
- the component of the target acoustic signal (Sig_SP2) is also suppressed by echo cancellation, so accurate speech recognition is expected. ..
- echo cancellation does not function for the target acoustic signal (Sig_SP2), and accurate speech recognition may be impaired.
- the rear seat unit 20 is an example of the in-vehicle device WRS E. Alternatively, it can be said that the rear seat unit 20 includes the in-vehicle device WRS E.
- SYS in-vehicle system
- WRSE in-vehicle device
- 10 another in-vehicle device
- the output sound of the speaker (SP2) is suppressed from interfering with the voice input processing in the other in-vehicle device, and the voice input processing can be correctly performed in the other in-vehicle device.
- the in-vehicle device (hereinafter, referred to as an in-vehicle device WHU for convenience) is an in-vehicle device (10) installed in a vehicle, and is a microphone that receives a sound from a speaker of the vehicle.
- a voice recognition unit (113) that executes voice recognition for the content of the speech
- a voice input activation unit (115) that activates the voice input processing by the speech
- the voice input processing are executed.
- a response processing unit (114) that responds to the content of the speech based on the result of the voice recognition
- an acoustic signal processing unit that outputs sound to the speaker (SP1) in the vehicle by supplying an acoustic signal.
- the content of the target acoustic signal (Sig_SP1) to be output by the speaker (SP1) in the vehicle is output to the other speaker (SP2) in the other in-vehicle device (20).
- a control signal that lowers the output volume of the other speaker when different from the content of the other acoustic signal (Sig_SP2), a control signal that sets the output volume to a predetermined volume, or the other A control signal for muting the speaker is transmitted to the other in-vehicle device (20).
- the accuracy of voice recognition required in the voice input process is ensured by lowering the volume of the other speaker (SP2). As a result, it becomes possible to correctly perform voice input processing in the in-vehicle device WHU .
- the suppressed acoustic signal ( Sig03 ) based on the input acoustic signal is obtained by suppressing the component of the target acoustic signal (Sigma_SP1) included in the input acoustic signal to the microphone. It is preferable to further provide an echo suppression unit (112) to be generated, and the voice recognition unit may execute the voice recognition based on the suppressed acoustic signal.
- the component of the target acoustic signal (Sig_SP1) that is, by suppressing the component of the acoustic signal to be output by the speaker (SP1)
- so-called echo cancellation is realized, and accurate voice recognition is ensured.
- the content of the acoustic signal (Sig_SP1) to be output by the speaker (SP1) is the same as the content of the other acoustic signal (Sig_SP2) to be output by the other speaker (SP2)
- the other is performed by echo cancellation. Since the component of the acoustic signal (Sig_SP2) of is also suppressed, accurate voice recognition is expected.
- the front seat unit 10 is an example of the in-vehicle device W HU .
- the front seat unit 10 includes the in-vehicle device W HU .
- the RSE volume interference unit 130 in FIG. 5 is an example of another device control unit.
- ECNR112 in FIG. 4 is an example of an echo suppression unit.
- SYS in-vehicle system
- W HU in-vehicle device
- 20 another in-vehicle device
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
車載装置(20)は、スピーカ(SP2)と、スピーカ(SP2)の出力音量を制御する音量制御部と、を備える。音量制御部は、他の車載装置(10)にて車両の乗員の発話による音声入力処理が実行されており、且つ、スピーカ(SP2)での出力対象とされる対象音響信号の内容が、他の車載装置(10)により車両内の他のスピーカ(SP1)での出力対象とされる他の音響信号の内容と相違するとき、そうでないときと比べてスピーカ(SP2)の出力音量を低下させる、スピーカ(SP2)の出力音量を所定音量に設定する、又は、スピーカ(SP2)を消音させる。
Description
本発明は、車載装置及び車載システムに関する。
音声入力処理により音声操作が可能な車載装置が提案されている。発話者(運転手等)は発話により様々な指示又は問い合わせ等を車載装置に行う。車載装置では、音声認識を通じ、指示又は問い合わせ等に応答する処理を実行する。例えば、「ABC駅を目的地に設定して」という発話があった場合、車載装置は「了解しました。ABC駅を目的地に設定します」という音声応答を行うと共に、ABC駅を目的地に設定したナビゲーション動作を行う。この種の車載装置では、一般に、車内スピーカの出力音が音声入力用のマイクロホンに戻ることによるエコーをキャンセルする機能(エコーキャンセラ)が設けられる。
他方、車内には複数の車載装置(例えばヘッドユニットとして機能する車載装置とリアシートエンタテイメント機器として機能する車載装置)、及び、複数の車載装置に対応付けられた複数のスピーカが設けられることもあり、複数のスピーカにて互いに異なる内容の音響信号が再生されることがある。
音声入力処理を担う車載装置が直接出力制御を行うスピーカからの出力音成分は、エコーキャンセラの機能により、マイクロホンの出力音響信号から除去することができる。しかしながら、他のスピーカが別個の音響信号を再生出力している場合などにあっては、他のスピーカの出力音に対してエコーキャンセラが有効に働かず、他のスピーカの出力音が音声認識にとっての雑音になる。この際、音声認識及び音声認識に基づく音声入力処理が正しく動作しないことが懸念される。
本発明は、正常な音声入力処理の実行に寄与する車載装置及び車載システムを提供することを目的とする。
本発明に係る車載装置は、車両に設置される車載装置であって、スピーカと、前記スピーカの出力音量を制御する音量制御部と、を備え、前記音量制御部は、他の車載装置にて前記車両の乗員の発話による音声入力処理が実行されており、且つ、前記スピーカでの出力対象とされる対象音響信号の内容が、前記他の車載装置により前記車両内の他のスピーカでの出力対象とされる他の音響信号の内容と相違するとき、そうでないときと比べて前記出力音量を低下させる、前記出力音量を所定音量に設定する、又は、前記スピーカを消音させる構成(第1の構成)である。
上記第1の構成に係る車載装置において、前記音量制御部は、前記他の車載装置にて前記音声入力処理が実行されていないとき、又は、前記対象音響信号の内容が前記他の音響信号の内容と同一であるとき、前記出力音量を、与えられた音量設定情報に基づく音量に設定し、前記他の車載装置にて前記音声入力処理が実行されており且つ前記対象音響信号の内容が前記他の音響信号の内容と相違するとき、前記出力音量を前記音量設定情報に基づく音量より低下させる、前記音量設定情報に関わらず前記出力音量を前記所定音量に設定する、又は、前記スピーカを消音させる構成(第2の構成)であっても良い。
上記第1又は第2の構成に係る車載装置において、前記他の車載装置では、前記発話による音を受けるマイクロホンへの入力音響信号に基づき前記発話の内容に対する音声認識を実行し、前記音声入力処理は前記音声認識の結果に基づいて実行され、前記音声認識は、前記マイクロホンへの入力音響信号における前記他の音響信号の成分を抑制してから実行される構成(第3の構成)であっても良い。
本発明に係る車載システムは、上記第1~第3の構成の何れかに係る車載装置と、他の車載装置と、を備えた構成(第4の構成)である。
本発明に係る他の車載装置は、車両に設置される車載装置であって、前記車両の乗員の発話による音を受けるマイクロホンと、前記発話の内容に対して音声認識を実行する音声認識部と、前記発話による音声入力処理を起動させる音声入力起動部と、前記音声入力処理が実行されているとき、前記音声認識の結果に基づき前記発話の内容に対して応答する応答処理部と、音響信号の供給により前記車両内のスピーカに音を出力させる音響信号処理部と、前記車両に設置された他の車載装置に対し制御信号を送信する他装置制御部と、を備え、前記他装置制御部は、前記音声入力処理が実行されており、且つ、前記車両内のスピーカでの出力対象となる対象音響信号の内容が前記他の車載装置における他のスピーカでの出力対象となる他の音響信号の内容と相違するとき、そうでないときと比べて前記他のスピーカの出力音量を低下させる制御信号、前記出力音量を所定音量に設定する制御信号、又は、前記他のスピーカを消音させる制御信号を、前記他の車載装置に送信する構成(第5の構成)である。
上記第5の構成に係る車載装置において、前記マイクロホンへの入力音響信号に含まれる前記対象音響信号の成分を抑制することで前記入力音響信号に基づく抑制後音響信号を生成するエコー抑制部を更に備え、前記音声認識部は、前記抑制後音響信号に基づいて前記音声認識を実行する構成(第6の構成)であっても良い。
本発明に係る他の車載システムは、上記第5又は第6の構成に係る車載装置と、他の車載装置と、を備えた構成(第7の構成)である。
本発明によれば、正常な音声入力処理の実行に寄与する車載装置及び車載システムを提供することが可能である。
以下、本発明の実施形態の例を、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。尚、本明細書では、記述の簡略化上、情報、信号、物理量又は部材等を参照する記号又は符号を記すことによって、該記号又は符号に対応する情報、信号、物理量又は部材等の名称を省略又は略記することがある。例えば、後述の“10”によって参照される前席ユニットは(図1参照)、前席ユニット10と表記されることもあるし、ユニット10と略記されることもあり得るが、それらは全て同じものを指す。
図1に本発明の実施形態に係る車両CRの車内の様子を概略的に示す。図2に本発明の実施形態に係る車載システムSYSの全体構成を示す。車内又は車両内とは車両CRの車室内を指す。ここでは、車両CRとして路面上を走行可能な車両(自動車等)を主として想定するが、車両CRは任意の種類の車両であって良い。車両CRに対し複数の乗員が搭乗できる。車両CRの車内には座席ST1~ST3が設けられる。座席ST1は車両CRの運転手が座る運転席である。図1において乗員PS1は車両CRの運転手を表す。このため、乗員PS1は運転手PS1と称されることがある。また、運転手以外の乗員は同乗者と称されることがある。運転席ST1から車両CRのステアリングホイールSTRに向かう向きを「前方」と定義し、車両CRのステアリングホイールSTRから運転席ST1に向かう向きを「後方」と定義する。また、本実施形態において左、右とは、特に記述なき限り、運転席ST1に前を向いて座る運転手PS1から見た左、右を指す。
座席ST1の左側に座席ST2(助手席)が設置され、座席ST1及びST2の後方に座席ST3(以下、後部座席ST3と称することがある)が設けられる。座席ST2及びST3の夫々に運転手PS1以外の乗員(即ち同乗者)が座ることができる。図1の例において、座席ST3は複数の乗員が座ることのできる幅広座席となっている。図1において乗員PS2は後部座席ST3に座る同乗者である。車両CRに乗員PS1及びPS2以外の乗員が更に乗車していても良いが、ここでは乗員PS1及びPS2にのみ注目する。
本実施形態に係る車載システムSYSは(図2参照)、車両CRに搭載されるシステムであって、運転手PS1用の電子機器である前席ユニット10と、後部座席ST3に座る乗員用の電子機器である後席ユニット20と、車内スピーカSP1と、を備える。ユニット10及び20並びに車内スピーカSP1は車両CRの車内に設置される。
前席ユニット10に設けられた表示部を運転手PS1が容易に視認可能となるように、前席ユニット10は運転席ST1の前方に設置される。後席ユニット20に設けられた表示部を後部座席ST3に座る乗員(ここでは乗員PS2)が容易に視認可能となるように、後席ユニット20は座席ST1及びST2の後方側であって且つ座席ST3の前方側に設置される。例えば、後席ユニット20の筐体は車両CRの天板に支持されて良い。車載システムSYSにおいて、前席ユニット10は所謂ヘッドセット機器として機能するものであって良く、後席ユニット20は所謂リアシートエンターテイメント(RSE)機器として機能するものであって良い。
車内スピーカSP1は車両CRの車内の適所に設置される。図1では、単体のスピーカが車内スピーカSP1として示されているが、複数のスピーカにて車内スピーカSP1が構成されていても良い。
車両CR内に形成されたローカルエリアネットワークを通じて、図2に示す如く、ユニット10及び20は無線又は有線接続されて互いに双方向通信が可能であり、且つ、前席ユニット10及び車内スピーカSP1は無線又は有線接続されて前席ユニット10から車内スピーカSP1への信号送信が可能である。
図3に前席ユニット10の内部構成を示す。前席ユニット10は、運転手PS1が視認可能な表示部11と、運転手PS1からの各種操作を受ける操作部12と、主処理部13と、前席ユニット10以外の任意の機器と通信を行うための通信部14と、自身が収音した音を音響信号に変換して出力するマイクロホン15と、を備える。通信部14を用いた通信の相手側機器には後席ユニット20及び車内スピーカSP1が含まれる。更に、通信部14は、所定の移動体通信回線を介してインターネットを含む情報通信網に接続可能であっても良く、この場合、情報通信網に接続された任意の装置との間で双方向通信が可能である。
主処理部13は、マイクロコンピュータ、メモリ、及び、DSP(Digital Signal Processor)を含む信号処理回路等からなる。主処理部13において、メモリはROM(Read Only Memory)及びRAM(Random Access Memory)を含み、メモリに格納されたプログラムをマイクロコンピュータにて実行することで各種の機能を実現する。主処理部13にて実現される機能には、車両CRによる目的地までの移動を支援するナビゲーション機能、車両CRの運転操作を支援する運転支援機能、提供された動画像を再生する動画像再生機能、任意の音源からの音響信号を再生するオーディオ機能、発話者の発話による入力を受け付けて発話者の発話内容に対して応答する音声入力機能などが含まれる。音声入力機能を実現するための処理に音声入力処理が含まれる。
図4に、音声入力処理に関与する音声入力部110の構成を示す。音声入力部110は主処理部13に設けられる。音声入力部110は、フロントエンド111、ECNR112(エコー抑制部)、音声認識部113、応答処理部114及び音声入力起動部115を備える。
マイクロホン15は、自身の周辺音を収音し、収音した音を音響信号Sig01に変換して出力する。音響信号Sig01はフロントエンド111に入力される。音響信号Sig01はアナログの音響信号である。フロントエンド111はアンプ及びアナログ/デジタル変換器を有する。フロントエンド111において、アンプによりアナログの音響信号Sig01を増幅し、増幅後のアナログの音響信号Sig01をアナログ/デジタル変換器によりデジタルの音響信号Sig02に変換する。
マイクロホン15は、発話者の発話による音を受け、主として発話者の発話内容を収音する。音声入力処理において、発話者は、発話によって前席ユニット10を操作する操作者として機能し、発話により前席ユニット10に対し任意の指示又は問い合わせ等を音声入力することができる。ここにおける発話者は車両CRの何れかの乗員である。発話者は運転手PS1以外の乗員であっても良いが、ここでは、発話者は運転手PS1であるとする。即ち、マイクロホン15の収音対象は主として運転手PS1の発話の音声である。しかしながら、発話者から直接発せられる発話音以外の音(以下、雑音と称する)もマイクロホン15に到達することがある。主だった雑音としてエコーがある。ここにおけるエコーとは、マイクロホン15にて収音される、エコー対象スピーカからの出力音を指す。エコー対象スピーカは車内スピーカSP1を含む。
ECNR112は、音響信号Sig02に含まれる雑音を除去することで音響信号Sig03を生成する処理(エコーキャンセル及びノイズリダクション処理)を実行する。除去の対象となる雑音は上述のエコーを含み、エコー以外の雑音もECNR112で除去される。より具体的には、ECNR112は、エコー対象スピーカからの出力音に応じたリファレンス信号Sig_refを参照し、音響信号Sig02からリファレンス信号Sig_refの成分を除去することで、エコーが抑制された音響信号である音響信号Sig03を生成する。リファレンス信号Sig_refは、エコー対象スピーカからの出力音がマイクロホン15に入力されたときに、エコー対象スピーカからの出力音に基づきマイクロホン15の出力音響信号に含まれることになる音響信号を推測したものである。故に、音響信号Sig02からリファレンス信号Sig_refの成分を除去することで、音響信号Sig02からエコー対象スピーカの出力音を表す音響信号の成分が除去される。尚、ここにおける除去とは、完全なる除去を意味する他、部分的な除去も含む概念であり、除去を低減と読み替えても良い。エコーを抑制する信号処理自体は公知であるので、その処理内容の詳細な説明は省略する。
音声認識部113は、音響信号Sig03に基づき発話者(ここでは運転手PS1)の発話内容を認識する音声認識処理を実行する。音声認識処理による発話者の発話内容の認識を音声認識とも称する。音声認識により発話者の発話内容がテキストデータ(文字列データ)に変換される。
応答処理部114は、音声認識にて得られたテキストデータに基づいて発話者の意図を理解し、音声入力処理において、運転手PS1の発話内容に応答する応答処理を実行する。音声入力処理が実行されている場合にのみ応答処理が実行され、音声入力処理が実行されていない場合には応答処理は実行されない。
音声入力起動部115は、音声入力処理の起動の有無を制御する。音声入力処理の起動の有無の制御は、音声入力処理を実行させるか否かの制御と等価である。前席ユニット10の初期状態では音声入力処理は起動していないものとする(即ち実行されていないものとする)。音声入力起動部115は、所定の起動条件が成立したときに音声入力処理を起動させる。音声入力処理が起動されることで、音声入力処理が実行されていない状態から音声入力処理が実行されている状態へと遷移する。音声入力処理では、発話者の発話による音声を前席ユニット10への入力操作として受け付けて入力操作に対する応答を行う。
例えば、発話者によるウェイクアップキーワードの発話があったときに起動条件が成立する。ウェイクアップキーワードは音声入力部110に対して予め登録されたキーワードである。より具体的には例えば、音声入力起動部115は、音声認識部113にて得られたテキストデータにウェイクアップキーワードが含まれているか否かを判定し、当該テキストデータにウェイクアップキーワードが含まれている場合に音声入力処理を起動させる。或いは例えば、操作部12に対して所定の起動操作が入力されたときに起動条件が成立するようにしても良い。
音声入力処理の起動後、所定の終了条件が成立すると、音声入力起動部115により音声入力処理が実行されていない状態に戻される。終了条件は任意である。例えば、発話者(ここでは運転手PS1)の一連の発話内容に対する応答処理が完了したと判断されたとき(この判断の主体は応答処理部114又は音声入力起動部115であって良い)、終了条件が成立しても良いし、操作部12に対して所定の終了操作が入力されたとき、終了条件が成立しても良い。
音声入力処理の起動後、発話者(ここでは運転手PS1を想定)は前席ユニット10を音声操作することができる。応答処理における応答は、発話者に対する音声応答及び表示応答の少なくとも一方を含んでいて良い。音声応答は、応答用スピーカからの音声出力により実現される。応答用スピーカは典型的には車内スピーカSP1であって良いが、車内スピーカSP1及び後述の後席スピーカSP2(図6参照)の何れとも異なる、前席ユニット10に備え付けられた他のスピーカ(不図示)であっても良い。この場合、音声応答によるエコーを抑制するべく、上記他のスピーカも上記エコー対象スピーカに含められ、音声応答による音響信号がリファレンス信号Sig_refに含められる。表示応答は、前席ユニット10の表示部11での文字や画像の表示により実現される。
例えば、応答処理では、発話者(ここでは運転手PS1)の発話内容に応じて、天候情報、ニュース、店舗又は観光地などの情報を音声応答又は表示応答により発話者に提供する。また例えば、主処理部13がナビゲーション動作を実行可能に構成されている場合において、発話者(ここでは運転手PS1)が目的地の設定を指示する発話を行ったとき、応答処理では、当該指示に従いナビゲーション動作での目的地を設定する。ナビゲーション動作では、車両CRの現在地から目的地までの走行予定ルートを設定し、地図画像上に走行予定ルートを重畳した画像を表示部11に表示する。
更に例えば、主処理部13は制御対象機器の制御を行う機能を有していても良く、この場合、応答処理は制御対象機器の制御を含み得る。制御対象機器は、車両CRに搭載された機器(但しユニット10及び20並びに車内スピーカSP1とは異なる)であって、主処理部13により動作が制御される機器である。例えば、車外を照らす車外用照明装置(ヘッドライト等)、車室内を照らす車内用照明装置、車両CRのフロントガラスに付着した水や汚れを払拭するためのワイパー、車室内の温度及び湿度を調整するエアコンディショナが、制御対象機器に該当しうる。ワイパーを例にとれば、音声入力処理の起動後、発話者から「ワイパーをオンにして」という発話があった場合、応答処理部114は、応答処理として、「了解しました」という音声出力による音声応答を行うと共に(この際、表示応答も行っても良い)、ワイパーを作動させる。
以下のように考えることもできる。主処理部13の動作モードを非音声入力モード及び音声入力モードを含む複数のモードの何れかに設定する動作モード設定部(不図示)が主処理部13に設けられ、主処理部13の動作モードが非音声入力モードに設定されているときには音声入力処理は非実行とされ、主処理部13の動作モードが音声入力モードに設定されているときには音声入力処理が実行される。つまり、音声入力起動部115が動作モード設定部に相当すると考えることができ、主処理部13の動作モードが非音声入力モードであるときにおいて所定の起動条件が成立すると、主処理部13の動作モードを非音声入力モードから音声入力モードに切り替える。その後、所定の終了条件が成立すると、主処理部13の動作モードを非音声入力モードに戻す。このように考えた場合、応答処理部114は、音声入力モードにおいて、音声認識の結果に基づき発話者の発話内容に対して応答する応答処理を実行する、と言える。
図5に主処理部13における音響信号出力に関わる一部機能ブロック図を示す。主処理部13には音響信号処理部120及びRSE音量干渉部130(他装置制御部)が設けられる。
音響信号処理部120には音響信号Sig11が入力される。音響信号処理部120は、音響信号Sig11に対して所定の信号処理を施し、該信号処理後の音響信号Sig11を音響信号Sig12として出力する。但し、音響信号Sig11及びSig12は互いに同じ信号であっても構わない。ここでは、音響信号Sig11及びSig12は実質的に同じ内容を有した信号であるとする(それらの振幅は異なり得る)。音響信号Sig12は車内スピーカSP1に出力される。
車内スピーカSP1は音響信号Sig12を音(音波)として出力する。上述の如く車内スピーカSP1はエコー対象スピーカに含まれているため、車内スピーカSP1からの出力音を表す音響信号Sig11又はSig12そのものが、或いは、音響信号Sig11又はSig12に基づく信号が、リファレンス信号Sig_ref(図4参照)に含められる。尚、車内スピーカSP1は前席ユニット10の構成要素に含まれていても良い。
RSE音量干渉部130は、後席ユニット20に設けられるスピーカ(後述の後席スピーカSP2:図6参照)の出力音に干渉する機能を持つが、詳細は後述される。
図6に後席ユニット20の内部構成を示す。後席ユニット20は、乗員PS2が視認可能な表示部21と、乗員PS2からの各種操作を受ける操作部22と、主処理部23と、後席ユニット20以外の任意の機器と通信を行うための通信部24と、後席スピーカSP2と、を備える。通信部24を用いた通信の相手側機器には、少なくとも前席ユニット10が含まれる。更に、通信部24は、所定の移動体通信回線を介してインターネットを含む情報通信網に接続可能であっても良く、この場合、情報通信網に接続された任意の装置との間で双方向通信が可能である。ユニット10及び20間の任意の信号の送受信は通信部14及び24を用いて実現されるが、以下の信号送受信に関わる説明では、通信部14又は24の記述が省略されることがある。
主処理部23は、マイクロコンピュータ、メモリ、及び、DSP(Digital Signal Processor)を含む信号処理回路等からなる。主処理部23において、メモリはROM(Read Only Memory)及びRAM(Random Access Memory)を含み、メモリに格納されたプログラムをマイクロコンピュータにて実行することで各種の機能を実現する。
図7に、後席スピーカSP2の出力制御に関わる、主処理部23の一部機能ブロック図を示す。主処理部23は、音響信号処理部210、音量制御部220、及び、音量抑制指令部230を備える。音響信号処理部210には音響信号Sig21が入力される。音響信号Sig21は、前席ユニット10から受信した音響信号であっても良いし、前席ユニット10以外の装置又は記録媒体から取得した音響信号であっても良いし、主処理部23内で生成された音響信号であっても良い。音響信号処理部210は、音響信号Sig21に対して所定の信号処理を施し、該信号処理後の音響信号Sig21を音響信号Sig22として出力する。音響信号Sig22は後席スピーカSP2に出力される。後席スピーカSP2は音響信号Sig22を音(音波)として出力する。
後席スピーカSP2からの出力音の音量(後席スピーカSP2の出力音量と称することがある)は音量制御部220により制御される。音響信号処理部210は、音量制御部220の制御の下で、音響信号Sig21の振幅を調整する振幅調整処理を実行可能であり、音響信号Sig21に対して振幅調整処理を施すことで得られる音響信号(即ち、振幅調整処理による振幅調整後の音響信号Sig21)を音響信号Sig22として出力する。
音響信号Sig22は、後席スピーカSP2から出力されるべき音を電気信号で表したものであるので、音響信号Sig22の振幅が大きくなるほど後席スピーカSP2の出力音量も大きくなり、音響信号Sig22の振幅が小さくなるほど後席スピーカSP2の出力音量も小さくなる。ここでは、音響信号処理部210は、振幅調整処理において音響信号Sig21の振幅をkAMP倍することで音響信号Sig22を生成するものとする。故に、係数kAMPが大きくなるほど後席スピーカSP2の出力音量も大きくなる。
音量制御部220は音量設定情報VOL*と音量抑制指令信号MT*とに基づき、後席スピーカSP2の出力音量を制御する。音量制御部220は、係数kAMPの値を指定することで後席スピーカSP2の出力音量を制御することができる。音量抑制指令信号MT*は、アクティブの信号状態(例えばハイレベル)又はノンアクティブの信号状態(例えばローレベル)をとる二値化信号である。
音量抑制指令信号MT*がノンアクティブの信号状態にあるとき、音量抑制指令信号MT*は無効であり、音量制御部220は音量設定情報VOL*のみに基づいて係数kAMPの値を設定する(故に、後席スピーカSP2の出力音量は音量設定情報VOL*に基づく音量に設定される)。音量設定情報VOL*は1以上n以下の整数の何れかの値とるものとし、音量設定情報VOL*の値が増大するほど係数kAMPの値が増大するものとする。nは2以上の任意の整数である。故に、音量抑制指令信号MT*がノンアクティブの信号状態にある場合、音響信号Sig21が一定であると仮定すれば、音量設定情報VOL*の値が大きくなるほど係数kAMPの増大を通じて後席スピーカSP2の出力音量も大きくなり、音量設定情報VOL*の値が小さくなるほど係数kAMPの低下を通じて後席スピーカSP2の出力音量も小さくなる。
音量設定情報VOL*の値は後席ユニット20の操作部22に対する入力操作に基づいて決定されて良い。操作部22は、後席ユニット20に対して有線又は無線で接続されたリモートコントローラや任意の端末装置にて実現されても良い。表示部21にてタッチパネルが形成される場合、タッチパネルが操作部22として機能しても良い。或いは、前席ユニット10の操作部12に対する入力操作に基づいて音量設定情報VOL*の値が決定されるようにしても良い。
尚、後席ユニット20は、表示部21におけるディスプレイ(映像を表示する表示画面)を振動させることで音を出力するディスプレイスピーカ機能を有していて良い。この場合、表示部21におけるディスプレイが後席スピーカSP2として機能し、音響信号Sig22に基づいてディスプレイが振動することで音響信号Sig22に基づく音がディスプレイから出力される。勿論、後席スピーカSP2は表示部21とは別個独立に設けられたスピーカであっても良い。後席スピーカSP2は後席ユニット20の外部に設けられたスピーカであっても良い。
音量抑制指令信号MT*がアクティブの信号状態にあるとき、音量制御部220は、音量抑制処理を実行する。
音量抑制処理は以下の第1音声抑制処理であって良い。第1音声抑制処理において、音量制御部220は、音量設定情報VOL*に関わらず係数kAMPの値に所定値kLOWを設定する。所定値kLOWは係数kAMPの可変範囲の最小値(例えば1)である。音量抑制指令信号MT*がノンアクティブの信号状態にある場合において、音量設定情報VOL*が音量設定情報VOL*の可変範囲の最小値をとり、故に、係数kAMPの値が係数kAMPの可変範囲の最小値(例えば1)と一致するとき、後席スピーカSP2の出力音量は後席スピーカSP2の出力音量の可変範囲の最小音量となる。故に、第1音声抑制処理が実行されたときの後席スピーカSP2の出力音量は、後席スピーカSP2の出力音量の可変範囲の最小音量(所定音量)となる。従って、音量設定情報VOL*の値が2以上である場合において第1音声抑制処理が実行されたとき、第1音声抑制処理が実行されない場合と比べて後席スピーカSP2の出力音量は小さくなる(換言すれば音量設定情報VOL*に基づく音量よりも後席スピーカSP2の出力音量は小さくなる)。但し、音量設定情報VOL*の値が1である場合において第1音声抑制処理が実行されたときには、第1音声抑制処理が実行されない場合と比べて後席スピーカSP2の出力音量は小さくならない(“VOL*=1”である時点で後席スピーカSP2の出力音量が最小音量となっているため)。何れにせよ、第1音声抑制処理が実行されたときには、音量設定情報VOL*に関わらず後席スピーカSP2の出力音量が所定値kLOWに応じた所定音量に設定される。
尚、所定値kLOWは係数kAMPの可変範囲の最小値より大きい値(但し、少なくとも係数kAMPの可変範囲の最大値よりは小さい)を有していても良い。即ち例えば、音量抑制指令信号MT*がノンアクティブの信号状態にあるときにおいて係数kAMPの値がn種類の値の何れかに設定されるのであれば(nは3以上であるとする)、第1音声抑制処理において係数kAMPの値は、n種類の値の内、2番目に小さい値であっても良い。
音量抑制処理は以下の第2音声抑制処理であっても良い。第2音声抑制処理において、音量制御部220は、音量設定情報VOL*及び音量抑制指令信号MT*に基づいて係数kAMPの値を設定する。説明の具体化のため、音量抑制指令信号MT*がノンアクティブの信号状態にある場合、音量設定情報VOL*の値がそのまま係数kAMPの値に設定されることを想定する(即ち“VOL*=kAMP”と想定する)。この場合において、音量抑制指令信号MT*がアクティブの信号状態にあるとき、第2音声抑制処理において、音量制御部220は、音量設定情報VOL*の値より小さな値(例えば“VOL*-1”)を係数kAMPの値に設定する。そうすると、音量設定情報VOL*の値が2以上である場合において第2音声抑制処理が実行されたとき、第2音声抑制処理が実行されない場合と比べて後席スピーカSP2の出力音量は小さくなる(換言すれば音量設定情報VOL*に基づく音量よりも後席スピーカSP2の出力音量は小さくなる)。
但し、係数kAMPの値が所定の下限値(ここでは1)より小さくなることが禁止されていても良く、この場合にあっては、音量設定情報VOL*の値が1である場合において第2音声抑制処理が実行されたとき、第2音声抑制処理が実行されない場合と比べて後席スピーカSP2の出力音量は小さくならない。即ち、第1音声抑制処理が実行されたときと同様、結果として、後席スピーカSP2の出力音量は後席スピーカSP2の出力音量の可変範囲の最小音量(所定音量)となる。
音量抑制処理は以下の第3音声抑制処理であっても良い。第3音声抑制処理において、音量制御部220は、後席スピーカSP2への音響信号Sig22の出力を停止させる。従って、第3音声抑制処理が実行されたとき、後席スピーカSP2の出力音量はゼロとなる(即ち、後席スピーカSP2は消音される)。
音量抑制指令部230は、音量制御部220に対して音量抑制指令信号MT*を出力する。図8を参照して音量抑制指令信号MT*の状態制御を説明する。図8において、波形611は前席ユニット10における音声入力処理の実行/非実行の状態を表す。図8において、波形612は、車内スピーカSP1での出力対象となる音響信号Sig_SP1と、後席スピーカSP2での出力対象となる音響信号Sig_SP2との同一性を表す。図8において、波形613は音量抑制指令信号MT*の信号状態を表す。
同一性が評価される一方の音響信号、即ち、後席スピーカSP2での出力対象となる音響信号Sig_SP2は音響信号Sig21又はSig22である(図7参照)。但し、第3音声抑制処理が実行される場合にあっては、音響信号Sig22が存在しなくなるので、音響信号Sig_SP2は音響信号Sig21であると解される。音声抑制処理として第1又は第2音声抑制処理が実行される場合にあっては、後席スピーカSP2での出力対象となる音響信号Sig_SP2は音響信号Sig21又はSig22である、と考えて良い。以下では、音声抑制処理として第3音声抑制処理が実行されうることを考慮して、音響信号Sig21が音響信号Sig_SP2であると考える。
同一性が評価される他方の音響信号、即ち、車内スピーカSP1での出力対象となる音響信号Sig_SP1は音響信号Sig11又はSig12であるが(図5参照)、ここでは主に、音響信号Sig11が音響信号Sig_SP1であると考える。
音量抑制指令部230は、対象期間において音量抑制指令信号MT*をアクティブの信号状態とし、対象期間と異なる非対象期間において音量抑制指令信号MT*をノンアクティブの信号状態とする。
前席ユニット10の主処理部13において音声入力処理が実行されている期間であって、且つ、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが相違する期間が、対象期間に相当する。前席ユニット10の主処理部13において音声入力処理が実行されていない期間は、音響信号Sig_SP1及びSig_SP2の内容の同一/相違に関係なく、非対象期間に属する。前席ユニット10の主処理部13において音声入力処理が実行されている期間であっても、当該期間中における音響信号Sig_SP1の内容と音響信号Sig_SP2の内容が互いに同じである場合には、当該期間は非対象期間に属する。尚、主処理部13において音声入力処理が実行されている期間とは、換言すれば、主処理部13の動作モードが音声入力モードに設定されている期間に相当する。主処理部13において音声入力処理が実行されていない期間とは、換言すれば、主処理部13の動作モードが非音声入力モードに設定されている期間に相当する。
音響信号Sig_SP1の内容と音響信号Sig_SP2の内容が互いに同じであるとは、音響信号Sig_SP1及びSig_SP2の元となる音源が同じであることを指し、故に、音響信号Sig_SP1を車内スピーカSP1に入力したときの車内スピーカSP1の出力音の内容と、音響信号Sig_SP2を後席スピーカSP2に入力したときの後席スピーカSP2の出力音の内容が互いに同じであることを意味する。音響信号Sig_SP1の振幅と音響信号Sig_SP2の振幅が互いに相違していたとしても音響信号Sig_SP1の波形と音響信号Sig_SP2の波形が互いに相似であれば、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに同じであると解される。即ち、音響信号Sig_SP1に基づく車内スピーカSP1の出力音の音量と音響信号Sig_SP2に基づく後席スピーカSP2の出力音の音量とが相違していたとしても、音響信号Sig_SP1を車内スピーカSP1に入力したときの車内スピーカSP1の出力音の内容と音響信号Sig_SP2を後席スピーカSP2に入力したときの後席スピーカSP2の出力音の内容が互いに同じであれば、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに同じであると解される。尚、本実施形態において、音源とは、音波を発生する物体を指すのではなく、音響信号(音の電気信号)の発生源を指す。
共通の音源に基づく共通の音響信号が、音響信号Sig11として前席ユニット10の音響信号処理部120(図5参照)に入力されると同時に音響信号Sig21として後席ユニット20の音響信号処理部210(図7参照)に入力されたとき、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに同じとなる。より具体的には例えば、磁気ディスクに記録された映画の動画像が表示部21にて再生されると共に当該動画像に付随する音響信号(映画上の挿入歌の音響信号等)が後席スピーカSP2に入力されて後席スピーカSP2で再生されており、これと同時に、当該動画像に付随する音響信号が車内スピーカSP1に入力されて車内スピーカSP1でも再生されているとき、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに同じとなる。音響信号のスピーカでの再生とは、音響信号をスピーカにて音として出力することを指す。
第1音源に基づく第1音響信号が音響信号Sig11として前席ユニット10の音響信号処理部120(図5参照)に入力され、一方、第2音源に基づく第2音響信号が音響信号Sig21として後席ユニット20の音響信号処理部210(図75参照)に入力されたとき、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに相違する(但し、第1及び第2音源は互いに異なり、第1及び第2音響信号は互いに異なるものとする)。より具体的には例えば、光ディスク等の記録媒体に記録された映画の動画像が表示部21にて再生されると共に当該動画像に付随する音響信号(映画上の挿入歌の音響信号等)が後席スピーカSP2に入力されて後席スピーカSP2で再生されており、この際、ラジオ放送に基づく楽曲の音響信号が車内スピーカSP1に入力されて車内スピーカSP1で再生されているとき、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容は互いに相違する。
マイクロホン15には、音声入力処理の対象となる発話者の発話による音に加えて、車内スピーカSP1の出力音及び後席スピーカSP2の出力音も入力される。前席ユニット10における主処理部13は、車内スピーカSP1での出力対象となる音響信号Sig_SP1を認識している。このため、音響信号Sig_SP1(例えばSig11又はSig12)をリファレンス信号Sig_refに含めたECNR112の処理によって(図4参照)、音響信号Sig_SP1の成分を音響信号Sig02から除去することができ、その後の音声認識に対して音響信号Sig_SP1の成分は殆ど影響を与えない。
また、音響信号Sig_SP2の内容が音響信号Sig_SP1の内容と同じであるならば、ECNR112の処理によって(図4参照)、音響信号Sig_SP1の成分と同時に音響信号Sig_SP2の成分も音響信号Sig02から除去される。結果、その後の音声認識に対して音響信号Sig_SP2の成分も殆ど影響を与えず、正確な音声認識が期待される。
但し、音響信号Sig_SP2の内容が音響信号Sig_SP1の内容と相違する場合、ECNR112の処理によって音響信号Sig_SP2の成分を音響信号Sig02から除去することができない。この場合において音声認識の結果に基づく音声入力処理を実行した場合、後席スピーカSP2の出力音が正確な音声認識及び音声入力処理を阻害しうる。これを考慮し、本実施形態では、前席ユニット10にて音声入力処理が実行されており且つ音響信号Sig_SP2の内容が音響信号Sig_SP1の内容と相違するとき(即ち上述の対象期間において)、音声抑制処理(第1~第3音声抑制処理の何れか)を実行することで、そうでないときと比べて後席スピーカSP2の出力音量を低下させる、後席スピーカSP2の出力音量を所定音量(典型的には例えば後席スピーカSP2の出力音量の可変範囲の最小音量)に設定する、又は、後席スピーカSP2を消音させる(図8参照)。
これにより、音声認識の正確性が担保され、音声入力処理を正しく行うことが可能となる(後席スピーカSP2の出力音が音声入力処理を阻害することを抑制できる)。
以下、複数の実施例の中で、幾つかの具体的な動作例、応用技術、変形技術等を説明する。本実施形態にて上述した事項は、特に記述無き限り且つ矛盾無き限り、以下の各実施例に適用される。各実施例において、上述の事項と矛盾する事項がある場合には、各実施例での記載が優先されて良い。また矛盾無き限り、以下に示す複数の実施例の内、任意の実施例に記載した事項を、他の任意の実施例に適用することもできる(即ち複数の実施例の内の任意の2以上の実施例を組み合わせることも可能である)。
<<第1実施例>>
第1実施例を説明する。図9に示す如く、前席ユニット10の主処理部13は、通信部14を用い任意の音源からの音響信号を後席ユニット20に送信する音響信号送信部150を有していて良い。図9の例では、音源ASaからの音響信号Sigaが音響信号送信部150を通じて後席ユニット20に送信される。この場合、音響信号Sigaが後席ユニット20の通信部24にて受信されて音響信号Sig21として音響信号処理部210に入力される。音響信号Sigaの後席ユニット20への送信とは別に、前席ユニット10の主処理部13では、図9に示す如く、音響信号Sigaを音響信号Sig11として音響信号処理部120(図5も参照)に入力しても良い。
第1実施例を説明する。図9に示す如く、前席ユニット10の主処理部13は、通信部14を用い任意の音源からの音響信号を後席ユニット20に送信する音響信号送信部150を有していて良い。図9の例では、音源ASaからの音響信号Sigaが音響信号送信部150を通じて後席ユニット20に送信される。この場合、音響信号Sigaが後席ユニット20の通信部24にて受信されて音響信号Sig21として音響信号処理部210に入力される。音響信号Sigaの後席ユニット20への送信とは別に、前席ユニット10の主処理部13では、図9に示す如く、音響信号Sigaを音響信号Sig11として音響信号処理部120(図5も参照)に入力しても良い。
音響信号Sigaを後席ユニット20に送信すると同時に音響信号Sigaを音響信号Sig11として音響信号処理部120に入力する第1ケースを考える。図9は第1ケースにおける音響信号の流れを表している。第1ケースでは、音源ASaからの音響信号SigaがスピーカSP1及びSP2の夫々にて同時に再生される(説明の簡単化のため、通信等による遅延を無視)。第1ケースでは、音響信号Sig_SP1の内容(音響信号Sig11の内容)と音響信号Sig_SP2の内容(音響信号Sig21の内容)が互いに同じとなる。
一方、図10に示す第2ケースでは、音源ASaからの音響信号Sigaが音響信号Sig11として前席ユニット10の音響信号処理部120に入力される一方で、音源ASbからの音響信号Sigbが音響信号送信部150より通信部14を通じて後席ユニット20に送信される。そうすると、後席ユニット20では音響信号Sigbが音響信号Sig21として音響信号処理部210に入力される。結果、第2ケースでは、音源ASaからの音響信号Sigaが車内スピーカSP1にて再生されると同時に音源ASbからの音響信号Sigbが後席スピーカSP2にて再生される。音源ASa及びASbは互いに異なり、故に音響信号Siga及びSigbも互いに異なる。故に、第2ケースでは、音響信号Sig_SP1の内容(音響信号Sig11の内容)と音響信号Sig_SP2の内容(音響信号Sig21の内容)が互いに相違する。
前席ユニット10のRSE音量干渉部130(図5参照)は、車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源とが同じであるか否かを判定する。図9の第1ケースの如く、共通の音源からの共通の音響信号を車内スピーカSP1にて再生し且つ後席ユニット20に送信するケースでは、車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源は互いに同じであると判定される。図10の第2ケースの如く、互いに異なる音源からの互いに異なる音響信号を車内スピーカSP1にて再生し且つ後席ユニット20に送信するケースでは、車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源は互いに異なると判定される。車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源とが同じであるか否かの判定は、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが同じであるか否かの判定と等価である。この判定の結果と音声入力処理が現在実行されているか否かに基づき、RSE音量干渉部130は、対象期間及び非対象期間を認識及び設定することができる(即ち、任意のタイミングが対象期間及び非対象期間の何れに属するかを判断できる)。
前席ユニット10のRSE音量干渉部130(図5参照)は、対象期間において音量抑制指令信号MT*の信号状態がアクティブとなることを指示する第1制御信号を後席ユニット20に送信し、非対象期間において音量抑制指令信号MT*の信号状態がノンアクティブとなることを指示する第2制御信号を後席ユニット20に送信する。音量抑制指令部230(図7参照)は、RSE音量干渉部130から受信した第1又は第2制御信号に基づき音量抑制指令信号MT*の信号状態をアクティブ又はノンアクティブに設定する。
図9の第1ケースでは、車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源とが同じである、即ち音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが同じである。故に、図9の第1ケースでは音声入力処理が実行されているか否かに関わらず上記第1制御信号は後席ユニット20に送信されず、結果、後席ユニット20において上記音量抑制処理は実行されない。
図10の第2ケースでは、車内スピーカSP1の出力音の音源と後席スピーカSP2の出力音の音源とが相違する、即ち音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが相違する。故に、図10の第2ケースにおいて音声入力処理が実行されている期間は対象期間に相当し、対象期間において上記第1制御信号が後席ユニット20に送信されることで後席ユニット20において上記音量抑制処理が実行される。
音源AS1及びAS2は任意の音源であって良い。音源として、音響信号が記録された光ディスク等の記録媒体、音響信号を含む放送波が挙げられる。また、インターネットを含む情報通信網を通じてユニット10又は20にて取得される音響信号が音響信号Siga又はSigbであっても良い。
尚、後席スピーカSP2にて再生される音響信号が前席ユニット10から後席ユニット20に提供されることを前提とした方法を上述したが、前席ユニット10に依存することなく、後席ユニット20単体にて取得される音響信号が後席スピーカSP2にて生成されても良い。この場合には、音響信号Sig21を後席ユニット20から前席ユニット10に送信し、前席ユニット10のRSE音量干渉部130において、車内スピーカSP1にて再生されるべき音響信号Sig11と受信した音響信号Sig21とを比較することにより、音響信号Sig_SP1の内容(音響信号Sig11の内容)と音響信号Sig_SP2の内容(音響信号Sig21の内容)とが同じであるか否かを判定すれば良い。
<<第2実施例>>
第2実施例を説明する。第2実施例では、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが同じであるか否かの判定を後席ユニット20側で行う。この場合には、車内スピーカSP1にて再生されるべき音響信号Sig11を前席ユニット10から後席ユニット20に送信する。そして、後席ユニット20の音量抑制指令部230(図7参照)において、後席スピーカSP2にて再生されるべき音響信号Sig21と受信した音響信号Sig11とを比較することにより、音響信号Sig_SP1の内容(音響信号Sig11の内容)と音響信号Sig_SP2の内容(音響信号Sig21の内容)とが同じであるか否かを判定すれば良い。
第2実施例を説明する。第2実施例では、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが同じであるか否かの判定を後席ユニット20側で行う。この場合には、車内スピーカSP1にて再生されるべき音響信号Sig11を前席ユニット10から後席ユニット20に送信する。そして、後席ユニット20の音量抑制指令部230(図7参照)において、後席スピーカSP2にて再生されるべき音響信号Sig21と受信した音響信号Sig11とを比較することにより、音響信号Sig_SP1の内容(音響信号Sig11の内容)と音響信号Sig_SP2の内容(音響信号Sig21の内容)とが同じであるか否かを判定すれば良い。
一方で、前席ユニット10のRSE音量干渉部130は、音声入力処理が現在実行されているか否かを示す通知信号を制御信号として、後席ユニット20に送信する。例えば、音声入力処理が現在実行されているときのみ特定の通知信号を制御信号として後席ユニット20に送信すれば良い。音量抑制指令部230は、音響信号Sig_SP1の内容と音響信号Sig_SP2の内容とが同じであるか否かの判定の結果と、受信した通知信号としての制御信号と、に基づき対象期間及び非対象期間を認識及び設定する(即ち、任意のタイミングが対象期間及び非対象期間の何れに属するかを判断する)。そして、音量抑制指令部230は、音量抑制指令信号MT*の信号状態を、対象期間においてアクティブとし、非対象期間においてノンアクティブとすれば良い。
<<第3実施例>>
第3実施例を説明する。第3実施例では、本発明の一側面に係る装置又はシステムについて考察する。
第3実施例を説明する。第3実施例では、本発明の一側面に係る装置又はシステムについて考察する。
本発明の一側面に係る車載装置(以下、便宜上、車載装置WRSEと称する)は、車両に設置される車載装置(20)であって、スピーカ(SP2)と、前記スピーカの出力音量を制御する音量制御部(220)と、を備え、前記音量制御部は、他の車載装置(10)にて前記車両の乗員の発話による音声入力処理が実行されており、且つ、前記スピーカ(SP2)での出力対象とされる対象音響信号(Sig_SP2)の内容が、前記他の車載装置により前記車両内の他のスピーカ(SP1)での出力対象とされる他の音響信号(Sig_SP1)の内容と相違するとき、そうでないときと比べて前記出力音量を低下させる、前記出力音量を所定音量に設定する、又は、前記スピーカを消音させる。
これにより、スピーカ(SP2)の出力音が他の車載装置での音声入力処理を阻害することが抑制され、他の車載装置において音声入力処理を正しく行うことが可能となる。
具体的には例えば、車載装置WRSEにおいて、前記音量制御部(220)は、前記他の車載装置(10)にて前記音声入力処理が実行されていないとき、又は、前記対象音響信号(Sig_SP2)の内容が前記他の音響信号(Sig_SP1)の内容と同一であるとき、前記出力音量を、与えられた音量設定情報(VOL*)に基づく音量に設定し、前記他の車載装置(10)にて前記音声入力処理が実行されており且つ前記対象音響信号(Sig_SP2)の内容が前記他の音響信号(Sig_SP1)の内容と相違するとき、前記出力音量を前記音量設定情報に基づく音量より低下させる、前記音量設定情報に関わらず前記出力音量を前記所定音量に設定する、又は、前記スピーカを消音させると良い。
これにより、基本的にはスピーカ(SP2)の出力音量が音量設定情報に基づくものとされる。スピーカの出力音が音声入力処理を阻害する可能性があるときに音量低下等が行われて、音声入力処理の正確な実行が担保される。
また具体的には例えば、車載装置WRSEに関し、前記他の車載装置(10)では、前記発話による音を受けるマイクロホン(15)への入力音響信号に基づき前記発話の内容に対する音声認識を実行し、前記音声入力処理は前記音声認識の結果に基づいて実行され、前記音声認識は、前記マイクロホンへの入力音響信号における前記他の音響信号(Sig_SP1)の成分を抑制してから実行されると良い。
他の音響信号(Sig_SP1)の成分の抑制により所謂エコーキャンセルが実現され、正確な音声認識が担保される。対象音響信号(Sig_SP2)の内容が他の音響信号(Sig_SP1)の内容と同一であるきには、エコーキャンセルにより対象音響信号(Sig_SP2)の成分も抑制されるので、正確な音声認識が期待される。一方、それらが相違するときには、対象音響信号(Sig_SP2)に対してエコーキャンセルが機能せず、正確な音声認識が阻害されるおそれがある。しかし、車載装置WRSEでは、他の車載装置(10)にて音声入力処理が実行されており且つ対象音響信号(Sig_SP2)の内容が他の音響信号(Sig_SP1)の内容と相違するとき、スピーカ(SP2)の出力音量の低下等が図られるため、音声認識の正確性が担保され、結果、音声入力処理の正確な実行が担保される。
尚、後席ユニット20は車載装置WRSEの例である。或いは、後席ユニット20は車載装置WRSEを内包すると言える。
そして例えば、上記の車載装置WRSE(20)と、他の車載装置(10)を備えた車載システム(SYS)を構成すると良い。
これにより、スピーカ(SP2)の出力音が他の車載装置での音声入力処理を阻害することが抑制され、他の車載装置において音声入力処理を正しく行うことが可能となる。
本発明の他の一側面に係る車載装置(以下、便宜上、車載装置WHUと称する)は、車両に設置される車載装置(10)であって、前記車両の乗員の発話による音を受けるマイクロホン(15)と、前記発話の内容に対して音声認識を実行する音声認識部(113)と、前記発話による音声入力処理を起動させる音声入力起動部(115)と、前記音声入力処理が実行されているとき、前記音声認識の結果に基づき前記発話の内容に対して応答する応答処理部(114)と、音響信号の供給により前記車両内のスピーカ(SP1)に音を出力させる音響信号処理部(120)と、前記車両に設置された他の車載装置(20)に対し制御信号を送信する他装置制御部(130)と、を備え、前記他装置制御部は、前記音声入力処理が実行されており、且つ、前記車両内のスピーカ(SP1)での出力対象となる対象音響信号(Sig_SP1)の内容が前記他の車載装置(20)における他のスピーカ(SP2)での出力対象となる他の音響信号(Sig_SP2)の内容と相違するとき、そうでないときと比べて前記他のスピーカの出力音量を低下させる制御信号、前記出力音量を所定音量に設定する制御信号、又は、前記他のスピーカを消音させる制御信号を、前記他の車載装置(20)に送信する。
他のスピーカ(SP2)の音量低下等により、音声入力処理において必要な音声認識の正確性が担保される。結果、車載装置WHUにおいて音声入力処理を正しく行うことが可能となる。
具体的には例えば、車載装置WHUにおいて、前記マイクロホンへの入力音響信号に含まれる前記対象音響信号(Sig_SP1)の成分を抑制することで前記入力音響信号に基づく抑制後音響信号(Sig03)を生成するエコー抑制部(112)を更に設け、前記音声認識部は、前記抑制後音響信号に基づいて前記音声認識を実行すると良い。
対象音響信号(Sig_SP1)の成分の抑制により、即ちスピーカ(SP1)での出力対象となる音響信号の成分の抑制により所謂エコーキャンセルが実現され、正確な音声認識が担保される。スピーカ(SP1)での出力対象となる音響信号(Sig_SP1)の内容が他のスピーカ(SP2)での出力対象となる他の音響信号(Sig_SP2)の内容と同一であるきには、エコーキャンセルにより他の音響信号(Sig_SP2)の成分も抑制されるので、正確な音声認識が期待される。一方、それらが相違するときには、他の音響信号(Sig_SP2)に対してエコーキャンセルが機能せず、正確な音声認識が阻害されるおそれがある。しかし、車載装置WHUでは、音声入力処理が実行されており且つスピーカ(SP1)での出力対象となる音響信号(対象音響信号)の内容が他のスピーカ(SP2)での出力対象となる他の音響信号の内容と相違するとき、他のスピーカ(SP2)の出力音量の低下等が図られるため、音声認識の正確性が担保され、結果、音声入力処理の正確な実行が担保される。
尚、前席ユニット10は車載装置WHUの例である。或いは、前席ユニット10は車載装置WHUを内包すると言える。図5のRSE音量干渉部130は他装置制御部の例である。図4のECNR112はエコー抑制部の例である。
そして例えば、上記の車載装置WHU(10)と、他の車載装置(20)を備えた車載システム(SYS)を構成すると良い。
これにより、スピーカ(SP2)の出力音が車載装置WHUでの音声入力処理を阻害することが抑制され、車載装置WHUにおいて音声入力処理を正しく行うことが可能となる。
本発明の実施形態は、特許請求の範囲に示された技術的思想の範囲内において、適宜、種々の変更が可能である。以上の実施形態は、あくまでも、本発明の実施形態の例であって、本発明ないし各構成要件の用語の意義は、以上の実施形態に記載されたものに制限されるものではない。上述の説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。
CR 車両
SYS 車載システム
SP1 車内スピーカ
SP2 後席スピーカ
10 前席ユニット
15 マイクロホン
20 後席ユニット
110 音声入力部
111 フロントエンド
112 ECNR
113 音声認識部
114 応答処理部
115 音声入力起動部
120 音響信号処理部
130 RSE音量干渉部
210 音響信号処理部
220 音量制御部
230 音量抑制指令部
SYS 車載システム
SP1 車内スピーカ
SP2 後席スピーカ
10 前席ユニット
15 マイクロホン
20 後席ユニット
110 音声入力部
111 フロントエンド
112 ECNR
113 音声認識部
114 応答処理部
115 音声入力起動部
120 音響信号処理部
130 RSE音量干渉部
210 音響信号処理部
220 音量制御部
230 音量抑制指令部
Claims (7)
- 車両に設置される車載装置であって、
スピーカと、
前記スピーカの出力音量を制御する音量制御部と、を備え、
前記音量制御部は、他の車載装置にて前記車両の乗員の発話による音声入力処理が実行されており、且つ、前記スピーカでの出力対象とされる対象音響信号の内容が、前記他の車載装置により前記車両内の他のスピーカでの出力対象とされる他の音響信号の内容と相違するとき、そうでないときと比べて前記出力音量を低下させる、前記出力音量を所定音量に設定する、又は、前記スピーカを消音させる
、車載装置。 - 前記音量制御部は、
前記他の車載装置にて前記音声入力処理が実行されていないとき、又は、前記対象音響信号の内容が前記他の音響信号の内容と同一であるとき、前記出力音量を、与えられた音量設定情報に基づく音量に設定し、
前記他の車載装置にて前記音声入力処理が実行されており且つ前記対象音響信号の内容が前記他の音響信号の内容と相違するとき、前記出力音量を前記音量設定情報に基づく音量より低下させる、前記音量設定情報に関わらず前記出力音量を前記所定音量に設定する、又は、前記スピーカを消音させる
、請求項1に記載の車載装置。 - 前記他の車載装置では、前記発話による音を受けるマイクロホンへの入力音響信号に基づき前記発話の内容に対する音声認識を実行し、前記音声入力処理は前記音声認識の結果に基づいて実行され、前記音声認識は、前記マイクロホンへの入力音響信号における前記他の音響信号の成分を抑制してから実行される
、請求項1又は2に記載の車載装置。 - 請求項1~3の何れかに記載の車載装置と、
他の車載装置と、を備えた
、車載システム。 - 車両に設置される車載装置であって、
前記車両の乗員の発話による音を受けるマイクロホンと、
前記発話の内容に対して音声認識を実行する音声認識部と、
前記発話による音声入力処理を起動させる音声入力起動部と、
前記音声入力処理が実行されているとき、前記音声認識の結果に基づき前記発話の内容に対して応答する応答処理部と、
音響信号の供給により前記車両内のスピーカに音を出力させる音響信号処理部と、
前記車両に設置された他の車載装置に対し制御信号を送信する他装置制御部と、を備え、
前記他装置制御部は、前記音声入力処理が実行されており、且つ、前記車両内のスピーカでの出力対象となる対象音響信号の内容が前記他の車載装置における他のスピーカでの出力対象となる他の音響信号の内容と相違するとき、そうでないときと比べて前記他のスピーカの出力音量を低下させる制御信号、前記出力音量を所定音量に設定する制御信号、又は、前記他のスピーカを消音させる制御信号を、前記他の車載装置に送信する
、車載装置。 - 前記マイクロホンへの入力音響信号に含まれる前記対象音響信号の成分を抑制することで前記入力音響信号に基づく抑制後音響信号を生成するエコー抑制部を更に備え、
前記音声認識部は、前記抑制後音響信号に基づいて前記音声認識を実行する
、請求項5に記載の車載装置。 - 請求項6又は7に記載の車載装置と、
他の車載装置と、を備えた
、車載システム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/035642 WO2022059214A1 (ja) | 2020-09-18 | 2020-09-18 | 車載装置及び車載システム |
JP2022550330A JP7557542B2 (ja) | 2020-09-18 | 2020-09-18 | 車載装置及び車載システム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/035642 WO2022059214A1 (ja) | 2020-09-18 | 2020-09-18 | 車載装置及び車載システム |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2022059214A1 true WO2022059214A1 (ja) | 2022-03-24 |
Family
ID=80776778
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2020/035642 WO2022059214A1 (ja) | 2020-09-18 | 2020-09-18 | 車載装置及び車載システム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP7557542B2 (ja) |
WO (1) | WO2022059214A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091756A (ja) * | 2000-06-15 | 2002-03-29 | Internatl Business Mach Corp <Ibm> | 多数の音響情報源を同時に提供するためのシステム及び方法 |
JP2011227199A (ja) * | 2010-04-16 | 2011-11-10 | Nec Casio Mobile Communications Ltd | 雑音抑圧装置、雑音抑圧方法及びプログラム |
WO2017090115A1 (ja) * | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
-
2020
- 2020-09-18 JP JP2022550330A patent/JP7557542B2/ja active Active
- 2020-09-18 WO PCT/JP2020/035642 patent/WO2022059214A1/ja active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002091756A (ja) * | 2000-06-15 | 2002-03-29 | Internatl Business Mach Corp <Ibm> | 多数の音響情報源を同時に提供するためのシステム及び方法 |
JP2011227199A (ja) * | 2010-04-16 | 2011-11-10 | Nec Casio Mobile Communications Ltd | 雑音抑圧装置、雑音抑圧方法及びプログラム |
WO2017090115A1 (ja) * | 2015-11-25 | 2017-06-01 | 三菱電機株式会社 | 音声対話装置および音声対話方法 |
Also Published As
Publication number | Publication date |
---|---|
JPWO2022059214A1 (ja) | 2022-03-24 |
JP7557542B2 (ja) | 2024-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9978355B2 (en) | System and method for acoustic management | |
US8214219B2 (en) | Speech communications system for a vehicle and method of operating a speech communications system for a vehicle | |
US6363156B1 (en) | Integrated communication system for a vehicle | |
US8019454B2 (en) | Audio processing system | |
KR100774519B1 (ko) | 통신장치 및 그 통화방법 | |
US20080021706A1 (en) | Speech distribution system | |
US20140094228A1 (en) | Vehicle hands free telephone system with active noise cancellation | |
JP2001056693A (ja) | 騒音低減装置 | |
US10410618B2 (en) | In-vehicle noise control system and control method thereof | |
JP7186375B2 (ja) | 音声処理装置、音声処理方法および音声処理システム | |
JP2007208828A (ja) | 車両用音声入出力制御装置 | |
KR20200033617A (ko) | 차량용 음성 인식 장치 및 그 제어 방법 | |
TW200922272A (en) | Automobile noise suppression system and method thereof | |
CN101431706A (zh) | 车用噪声抑制系统及其方法 | |
CN111613201A (zh) | 车内声音管理装置及方法 | |
JP2006293145A (ja) | 能動振動制御装置及び能動振動制御方法 | |
JP2000231399A (ja) | 騒音低減装置 | |
WO2022059214A1 (ja) | 車載装置及び車載システム | |
JPH09330089A (ja) | 音声制御装置 | |
JP7493875B2 (ja) | 音声処理装置および音声処理方法 | |
JP2001119470A (ja) | 電話音声処理装置 | |
US20240205604A1 (en) | Audio system for a motor vehicle and motor vehicle with such an audio system | |
CN116325796A (zh) | 音频信号处理装置和方法 | |
ZA200204452B (en) | Speech distribution system. | |
JPH10207474A (ja) | 車載用音響機器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 20954199 Country of ref document: EP Kind code of ref document: A1 |
|
ENP | Entry into the national phase |
Ref document number: 2022550330 Country of ref document: JP Kind code of ref document: A |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 20954199 Country of ref document: EP Kind code of ref document: A1 |