WO2021100670A1 - 音響クロストーク抑圧装置および音響クロストーク抑圧方法 - Google Patents

音響クロストーク抑圧装置および音響クロストーク抑圧方法 Download PDF

Info

Publication number
WO2021100670A1
WO2021100670A1 PCT/JP2020/042674 JP2020042674W WO2021100670A1 WO 2021100670 A1 WO2021100670 A1 WO 2021100670A1 JP 2020042674 W JP2020042674 W JP 2020042674W WO 2021100670 A1 WO2021100670 A1 WO 2021100670A1
Authority
WO
WIPO (PCT)
Prior art keywords
speaker
filter
crosstalk
unit
signal
Prior art date
Application number
PCT/JP2020/042674
Other languages
English (en)
French (fr)
Inventor
正成 宮本
慎一 杠
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Priority to CN202080080996.5A priority Critical patent/CN114730565A/zh
Priority to US17/778,299 priority patent/US20230026003A1/en
Publication of WO2021100670A1 publication Critical patent/WO2021100670A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles

Definitions

  • the present disclosure relates to an acoustic crosstalk suppression device and an acoustic crosstalk suppression method.
  • Patent Document 1 an arrangement pattern of occupants is assumed in advance as a situation in the vehicle interior, sound transmission characteristics are measured for each arrangement pattern, and each transmission characteristic obtained by the measurement and stored in a memory or the like is described.
  • a sound removing device that estimates and removes sound contained in a sound signal output from a speaker is disclosed. According to this sound removal device, sound can be removed or suppressed as long as the arrangement of the occupants satisfies any of the arrangement patterns.
  • Patent Document 1 only one microphone is arranged in front of the driver for the purpose of collecting the voice of the driver, for example, the voice of each occupant is collected in front of the other occupants. There is no microphone intended to do this. It is quite possible that there are multiple occupants in the passenger compartment, so if not only the driver but also other occupants speak at almost the same time as the driver, the driver's microphone will also contain the utterances of other occupants other than the driver. The sound is picked up. Therefore, in the configuration of Patent Document 1, it is not possible to suppress the crosstalk component based on the utterances of other occupants included in the voice signal picked up by the driver's microphone. This is because it is difficult for the driver's microphone to collect clear voices spoken by other occupants, and it is not possible to learn the filter coefficient of the adaptive filter for suppressing the uttered voices of other occupants as a crosstalk component.
  • the present disclosure is devised in view of the above-mentioned conventional situation, and is an acoustic cross that can be included in the utterance voice of the main speaker according to the speaker situation of a plurality of occupants existing in a closed space such as a passenger compartment. It is an object of the present invention to provide an acoustic crosstalk suppression device and an acoustic crosstalk suppression method that adaptively suppress a talk component and improve the sound quality of the spoken voice of the main speaker.
  • the present disclosure analyzes the speaker situation in the closed space based on each voice signal picked up by each of a plurality of microphones arranged in a closed space having a plurality of people including the main speaker.
  • a person analysis unit and a filter for generating a suppression signal of a crosstalk component due to a speech of another speaker included in the voice signal of the main speaker, and parameters of the filter for suppressing the crosstalk component can be obtained.
  • the filter update unit that updates and holds the update result in the memory, and the parameter of the filter held in the memory when it is determined that the analysis result of the speaker situation has been switched from the previous speaker situation.
  • the filter update unit includes a reset unit for resetting and a crosstalk suppression unit that suppresses the crosstalk component included in the voice signal of the main speaker by using the suppression signal generated by the filter.
  • a crosstalk suppression unit that suppresses the crosstalk component included in the voice signal of the main speaker by using the suppression signal generated by the filter.
  • an acoustic crosstalk suppressor that updates the parameters of the filter based on the voice signal of the other speaker after the parameters of the filter are reset.
  • the present disclosure analyzes the speaker situation in the closed space based on each voice signal picked up by each of the plurality of microphones arranged in the closed space having a plurality of people including the main speaker.
  • the cross included in the voice signal of the main speaker by using the filter update unit that updates the parameters and holds the update result in the memory in association with the speaker status and the suppression signal generated by the filter.
  • the filter update unit includes a crosstalk suppression unit that suppresses the talk component, and when it is determined that the analysis result of the speaker situation has been switched from the immediately preceding speaker situation, the filter update unit determines the analysis result of the speaker situation.
  • a crosstalk suppression unit that suppresses the talk component, and when it is determined that the analysis result of the speaker situation has been switched from the immediately preceding speaker situation, the filter update unit determines the analysis result of the speaker situation.
  • an acoustic crosstalk suppression device that generates the suppression signal by the filter using the parameters of the corresponding filter.
  • the present disclosure is an acoustic crosstalk suppression method executed by an acoustic crosstalk suppression device, and the sound is picked up by each of a plurality of microphones arranged in a closed space having a plurality of people including the main speaker.
  • the parameter of the filter that analyzes the speaker situation in the closed space and generates a suppression signal of the crosstalk component due to the speech of another speaker included in the voice signal of the main speaker is set. It is updated, the update result is held in the memory, and when it is determined that the analysis result of the speaker situation is switched from the previous speaker situation, the parameter of the filter held in the memory is reset and the said.
  • the suppression signal generated by the filter is used to suppress the crosstalk component contained in the voice signal of the main speaker, and the update of the parameter is performed after the parameter of the filter is reset.
  • an acoustic crosstalk suppression method executed based on a person's voice signal.
  • the present disclosure is an acoustic crosstalk suppression method executed by an acoustic crosstalk suppression device, and the sound is picked up by each of a plurality of microphones arranged in a closed space having a plurality of people including the main speaker.
  • the parameter of the filter that analyzes the speaker situation in the closed space and generates a suppression signal of the crosstalk component due to the speech of another speaker included in the voice signal of the main speaker is set. It is updated, the update result is stored in the memory in association with the speaker situation, and the crosstalk component included in the voice signal of the main speaker is suppressed by using the suppression signal generated by the filter.
  • the generation of the suppression signal is executed by using the parameters of the filter corresponding to the analysis result of the speaker situation when it is determined that the analysis result of the speaker situation is switched from the immediately preceding speaker situation. Provide a method for suppressing acoustic crosstalk.
  • the present disclosure it is possible to adaptively suppress the acoustic cross-talk component that may be included in the utterance voice of the main speaker according to the speaker situation of a plurality of occupants existing in a closed space such as a passenger compartment.
  • the sound quality of the speaker's spoken voice can be improved.
  • FIG. 1 A block diagram showing a functional configuration example of the acoustic crosstalk suppression device according to the first embodiment.
  • Graph showing an example of time change of filter coefficient when the amount of change is small Graph showing an example of time change of filter coefficient when the amount of change is small
  • Graph showing an example of time change of filter coefficient when the amount of change is large Graph showing an example of time change of filter coefficient when the amount of change is large
  • a block diagram showing a functional configuration example of the acoustic crosstalk suppression device according to the second embodiment A flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device according to the second embodiment.
  • a block diagram showing a functional configuration example of the acoustic crosstalk suppression device according to the modified example of the first embodiment A flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device according to the modified example of the first embodiment.
  • a block diagram showing a functional configuration example of the acoustic crosstalk suppression device according to the modified example of the second embodiment A flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device according to the modified example of the second embodiment.
  • a block diagram showing a functional configuration example of the acoustic crosstalk suppression device according to the third embodiment A flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device according to the third embodiment.
  • FIG. 1 is a diagram showing an example of arrangement of a occupant and a microphone in the passenger compartment 108z of a vehicle 108 on which the acoustic crosstalk suppression device 105 according to the first embodiment is mounted.
  • the vehicle 108 is a minivan for up to 7 to 8 passengers in the passenger compartment 108z, including, for example, a driver's seat, a passenger seat, a second row rear seat, and a third row rear seat.
  • the vehicle 108 is not limited to a minivan having a maximum capacity of 7 to 8 people, and is not limited to a passenger car or a bus having a maximum capacity of 7 to 8 people, and is not particularly limited in the number of people or a vehicle type.
  • the microphone mA is arranged in front of the driver's seat in which the occupant A corresponding to the driver of the vehicle 108 is seated.
  • the microphone mD is placed in front of the left side of the rear seat in the third row in which the occupant D is seated.
  • the number and arrangement of occupants and the number and arrangement of microphones can be changed arbitrarily.
  • the number of microphones may be four by arranging the microphones in front of the passenger seat and in front of the right side of the rear seat in the third row, respectively.
  • the microphone mA is a microphone mainly for collecting the voice spoken by the occupant A.
  • the microphone mD is a microphone for collecting the sound mainly spoken by the occupant D.
  • FIG. 1 for the sake of clarity, an example in which the occupant is not seated is shown on the right side of the passenger seat, the rear seat in the second row, and the rear seat in the third row. An occupant may be seated in each seat.
  • the microphones mA and mD may be, for example, either a directional microphone or an omnidirectional microphone. Further, the microphones mA and mD may be composed of, for example, a single high-quality sound compact electret condenser microphone (ECM), a microphone array composed of a plurality of ECMs, or the like.
  • ECM electret condenser microphone
  • the microphones mA and mD are connected to the acoustic crosstalk suppression device 105, but the wiring between the microphones mA and mD and the acoustic crosstalk suppression device 105 is omitted in order to avoid complication of FIG.
  • the acoustic crosstalk suppression device 105 has a housing for accommodating various electronic components, and is arranged inside, for example, a dashboard in the passenger compartment 108z of the vehicle 108.
  • the acoustic crosstalk suppression device 105 suppresses the voice (so-called crosstalk component) spoken by an occupant other than the occupant who is the target of voice recognition among the voices picked up by the microphone mA or the microphone mD.
  • the voice spoken by a non-target occupant is a cross-talk component included in the voice to be voice-recognized with respect to the voice spoken by the occupant who is the target of voice recognition.
  • the crosstalk component contained in the sound picked up by the microphone mA for picking up the voice spoken by the occupant A is picked up by the microphone mA. This is the voice spoken by the occupant D.
  • FIG. 2 is a block diagram showing a functional configuration example of the acoustic crosstalk suppression device 105 according to the first embodiment.
  • the acoustic crosstalk suppression device 105 convolves the voice signal of the voice picked up by the microphone mD, which is included in the voice signal of the voice spoken by the occupant A who wants to recognize the voice, and which is picked up by the microphone mA.
  • a cross talk suppression signal (an example of the suppression signal) that reproduces the cross talk component due to the utterance of the occupant D picked up by the microphone mA is generated.
  • the acoustic crosstalk suppression device 105 generates an audio signal after crosstalk suppression by suppressing (specifically, removing or subtracting) the crosstalk suppression signal of the occupant D from the audio signal picked up by the microphone mA.
  • the voice signal from the utterance of the main occupant to be voice-recognized by the acoustic crosstalk suppression device 105 is referred to as a main signal, and the original voice signal from which the crosstalk suppression signal is generated (that is, the utterance of the crosstalk component).
  • a voice signal uttered by an occupant other than the main occupant, which is the source, is referred to as a reference signal.
  • the acoustic crosstalk suppression device 105 is composed of, for example, a DSP 110 (Digital Signal Processor) and memories 150 and 152 as a hardware configuration.
  • the acoustic crosstalk suppression device 105 may be configured to include microphones mA and mD in addition to the DSP 110 and the memories 150 and 152.
  • the acoustic crosstalk suppression device 105 for the microphone mA is illustrated here, the same applies to the acoustic crosstalk suppression device 105 for the microphone mD. That is, the audio signal of the main occupant A picked up by the microphone mA is used as the main signal, and the audio signal of the sub occupant D picked up by the microphone mD is illustrated as a reference signal. The audio signal of the main occupant D picked up by the microphone mA may be used as the main signal, and the audio signal of the sub occupant A picked up by the microphone mA may be used as the reference signal.
  • the memory 150 includes a RAM (Random Access Memory) as a work memory of the acoustic crosstalk suppression device 105 and a ROM (Read Only Memory) for storing a program related to the processing of the acoustic crosstalk suppression device 105.
  • the memory 150 holds, for example, an audio signal of the voice produced by the sub-occupant D picked up by the microphone mD as a reference signal.
  • the memory 152 stores the voice recognition result (including, for example, voice recognition data and the score value) by the voice recognition unit 146 and the filter coefficient updated by the filter update unit 125.
  • the voice recognition data is, for example, text data in which the content of the voice produced by the main occupant A (an example of the main speaker) is converted into text.
  • the score value is an evaluation value indicating the reliability (accuracy) of the text data which is the processing result of the voice recognition performed by the voice recognition unit 146.
  • the DSP 110 is a processor that suppresses the cross-talk component of the voice due to the utterance of the sub occupant D from the voice signal of the voice uttered by the main occupant A, for example, picked up by the microphone mA.
  • the DSP 110 performs voice recognition processing of the voice signal after crosstalk suppression.
  • a DSP is used as the processor, but for example, a CPU (Central Processing Unit), a GPU (Graphical Processing Unit), or the like may be used.
  • a reconfigurable electronic circuit such as a dedicated electronic circuit designed by an ASIC (Application Specific Integrated Circuit) or the like or an FPGA (Field Programmable Gate Array) may be used.
  • the DSP 110 includes an adder 122, a filter update unit 125, a delay 129, a sound pressure analysis unit 142, a suppression amount analysis unit 143, a speaker analysis unit 144, a filter reset unit 145, and a voice recognition unit 146.
  • the adder 122 as an example of the cross-talk suppression unit subtracts the cross-talk suppression signal generated by the filter update unit 125 from the voice signal of the voice produced by the main occupant A picked up by the microphone mA. , Suppresses the crosstalk component contained in the voice of the main occupant A picked up by the microphone mA.
  • the process performed by the adder 122 is strictly subtraction, but even in the process of subtracting the crosstalk suppression signal, the crosstalk suppression signal is inverted and then added by the adder 122. It can be considered to be substantially equivalent to processing. Therefore, in the present specification, the suppression processing of the crosstalk component is described as the processing performed by the adder 122.
  • the cross-talk component suppressed by the acoustic cross-talk suppression device 105 is, for example, a microphone in which the voice spoken by another occupant D is arranged in front of the occupant A when the main speaker to be voice-recognized is the occupant A. This is the voice that has reached mA. This voice reaches the microphone mA via the transmission path in the passenger compartment 108z. Therefore, the voice picked up by the microphone mA is a voice mixed with the voice uttered by the occupant A with a deviation of the time required for the voice uttered by the occupant D to pass through the transmission path (so-called delay time). ..
  • the filter update unit 125 is included in the sound picked up by the microphone mA based on the sound signal after cross talk suppression picked up by the microphone mA and the reference signal picked up by the microphone mD and deviated by the delay time.
  • a crosstalk suppression signal for suppressing (subtracting) the crosstalk component is generated.
  • the filter update unit 125 includes a convolution signal generation unit 123, a filter coefficient monitoring unit 141, an update amount calculation unit 126, a non-linear conversion unit 127, and a norm calculation unit 128.
  • the convolution signal generation unit 123 as an example of the filter is configured by, for example, an adaptive filter, performs convolution processing on the reference signal using the filter coefficient (an example of the parameter) calculated by the update amount calculation unit 126, and obtains the reference signal. It is used to perform a process of generating a crosstalk suppression signal.
  • an adaptive filter for example, an FIR (Finite Impulse Response) filter described in Patent Document 1 or Japanese Patent Application Laid-Open No. 2007-19595 is used.
  • the adaptive filter reproduces the transmission characteristics between the microphone mA and the microphone mD and processes the reference signal to generate a crosstalk suppression signal. However, since the transmission characteristics in the passenger compartment 108z are not steady, it is necessary to change the characteristics of the adaptive filter at any time.
  • the characteristics of the adaptive filter are changed so as to approach the latest transmission characteristics between the microphone mA and the microphone mD.
  • the update of the adaptive filter may be referred to as learning.
  • the sound of the sub occupant D picked up by the microphone mA is delayed by the time transmitted from the microphone mD to the microphone mA with respect to the sound of the sub occupant D picked up by the microphone mD. Since the reference signal is picked up by the microphone mD and held in the memory 150, the delay time from the microphone mD to the microphone mA is not reflected. Therefore, in the first embodiment, the delay 129 as a delayer absorbs this time difference. That is, the delay 129 applies delay processing to the reference signal by the amount of the time difference described above (in short, the time required for the audio transmission path from the microphone mD to the microphone mA) and outputs the delay processing to the filter update unit 125.
  • the filter update unit 125 can obtain a reference signal that matches the timing picked up by the microphone mA.
  • the value of the delay 129 can be obtained by approximately measuring the distance between the microphone mD and the microphone mA and dividing it by the speed of sound. For example, when the speed of sound based on the temperature in the passenger compartment 108z is 340 m / s and the distance between the microphone mD and the microphone mA is about 3.4 m, the value of the delay 129 is about 10 msec.
  • the delay value differs for each reference signal and is calculated as follows. For example, it is assumed that the microphone mA is arranged in front of the occupant A and the microphone mD is arranged in the passenger compartment 108z arranged in front of the occupant D. When the occupant D is speaking and the voice of the occupant D included in the microphone mA is suppressed, if the voice picked up by the microphone mD is used as a reference signal, the delay value is from the mouth of the occupant D to the microphone mD. It is calculated from the difference between the distance and the distance from the mouth of the occupant D to the microphone mA.
  • the delay value is the microphone mA from the mouth of the occupant A. It is calculated from the difference between the distance to the microphone and the distance from the mouth of the occupant A to the microphone mD.
  • Non-linear conversion unit 127 performs non-linear conversion on the audio signal after suppressing the crosstalk component. This non-linear conversion is a process of converting the suppressed audio signal of the crosstalk component into information indicating the direction (positive or negative) to be updated of the adaptive filter. The non-linear conversion unit 127 outputs the signal after the non-linear conversion to the update amount calculation unit 126.
  • the norm calculation unit 128 calculates the norm of the voice signal of the voice picked up by the microphone mD.
  • the norm of the audio signal is the sum of the magnitudes of the audio signals in the past predetermined time, and is a value indicating the degree of the magnitude of the signal within this time.
  • the update amount calculation unit 126 uses a norm to normalize the influence of the volume of the sound picked up by the microphone mD in the past. In general, the louder the volume, the larger the update amount of the adaptive filter is calculated. Therefore, if normalization is not performed, the characteristics of the adaptive filter are excessively affected by the characteristics of the large voice.
  • the update amount of the adaptive filter is stabilized by normalizing the audio signal output from the delay 129 using the norm calculated by the norm calculation unit 128.
  • the update amount calculation unit 126 uses the signals received from the nonlinear conversion unit 127, the norm calculation unit 128, and the delay 129 to update the adaptive filter characteristics of the convolution signal generation unit 123 (specifically, the coefficient or tap of the adaptive filter). Calculate the number update amount).
  • the update amount calculation unit 126 normalizes the voice signal of the voice picked up by the microphone mD via the delay 129 based on the norm calculated by the norm calculation unit 128.
  • the update amount calculation unit 126 determines the update amount by adding positive or negative information based on the information obtained from the nonlinear conversion unit 127 to the result of normalizing the voice signal of the voice picked up by the microphone mD. To do.
  • the update amount calculation unit 126 calculates the update amount of the filter characteristics by the ICA (Independent Component Analysis) algorithm.
  • the update amount calculation unit 126 shows the case where the coefficient of the adaptive filter (hereinafter referred to as the filter coefficient) is updated, but the number of taps may be updated instead of the filter coefficient or together with the filter coefficient.
  • the filter update unit 125 transmits the characteristics of the convolution signal generation unit 123 between the microphone mD and the microphone mA by executing the processes of the update amount calculation unit 126, the nonlinear conversion unit 127, and the norm calculation unit 128 at any time. Get closer to the characteristics.
  • the filter coefficient monitoring unit 141 monitors the filter coefficient (for example, the fluctuation range of the filter coefficient) of the convolution signal generation unit 123 calculated by the update amount calculation unit 126, and outputs it to the speaker analysis unit 144.
  • the speaker analysis unit 144 monitors the amount of change in the filter coefficient, for example, the fluctuation range of the filter coefficient over a certain time on the time axis, and this amount of change corresponds to the value of the amount of change when the speaker is switched. When one threshold is exceeded, it is determined that the speaker has been switched.
  • the sound pressure analysis unit 142 inputs the sound picked up by the microphone mA and the sound picked up by the microphone mD, and outputs these sound pressures to the speaker analysis unit 144.
  • the speaker analysis unit 144 corresponds to the value of the amount of change when at least one speaker of the sound pressure of the voice picked up by the microphone mA and the sound pressure of the voice picked up by the microphone mD is switched. 2 When the change exceeds the threshold value, it is determined that the speaker has been switched.
  • the suppression amount analysis unit 143 calculates the difference between the suppressed voice signal of the crosstalk component output from the adder 122 and the voice signal of the voice picked up by the microphone mA as the suppression amount. , Output to speaker analysis unit 144.
  • the speaker analysis unit 144 retains the suppression amount data for a predetermined period of time, and the newly calculated suppression amount changes beyond the third threshold value indicating that the speaker situation has been switched from the suppression amount for the past. If so, determine that a speaker switch has occurred. This judgment is based on the fact that when the speaker switches, the amount of crosstalk suppression decreases with the filter coefficient used immediately before that moment.
  • the speaker analysis unit 144 determines the switching of speakers, that is, the change in the speaker situation, based on at least one input from the filter coefficient monitoring unit 141, the sound pressure analysis unit 142, and the suppression amount analysis unit 143. The determination result is output to the filter reset unit 145.
  • the speaker analysis unit 144 may input an image captured by a camera (not shown) in the passenger compartment 108z that images the occupant.
  • the speaker analysis unit 144 may perform face recognition on the captured image, identify, for example, an occupant with an open mouth as a speaker, and determine that a speaker switch has occurred. Further, the speaker analysis unit 144 uses the speaker switching information based on the captured image, and at least one speaker input from the filter coefficient monitoring unit 141, the sound pressure analysis unit 142, and the suppression amount analysis unit 143. In combination with the switching information, it may be possible to comprehensively judge that the speaker switching has occurred. Further, when the speaker switching information based on the captured image is used, all or at least one of the filter coefficient monitoring unit 141, the sound pressure analysis unit 142, and the suppression amount analysis unit 143 may be omitted.
  • the filter reset unit 145 as an example of the reset unit resets the filter coefficient of the convolution signal generation unit 123 to the initial value (for example, value 0) when the speaker analysis unit 144 inputs the determination result of switching the speaker.
  • the filter update unit 125 resumes learning of the convolution signal generation unit 123, which has been reset to the initial value after being reset by the filter reset unit 145.
  • the voice recognition unit 146 performs voice recognition based on the voice signal after suppression of the crosstalk component output from the adder 122, and voice recognition data (for example, text data) and evaluation value (score value) as the voice recognition result. Is output and stored in the memory 152. For example, when the voice recognition unit 146 is connected to a monitor (not shown, for example, a display of a car navigation device mounted on a vehicle 108), the voice recognition result is displayed on the screen as text. When the voice recognition unit 146 is connected to the communication device, the voice recognition result is transmitted as communication data. When the voice recognition unit 146 is connected to the speaker, the voice recognition result is output as voice.
  • voice recognition data for example, text data
  • evaluation value evaluation value
  • the acoustic crosstalk suppression device 105 is provided with a communication unit that can be connected to a network instead of being provided with a voice recognition unit 146, and the voice after suppression of the crosstalk component is provided to a cloud server (not shown) via this network.
  • the voice data based on the signal may be transmitted, the cloud server may perform voice recognition, and the voice recognition result may be received from the cloud server and output to a monitor, a speaker, or the like.
  • 3A and 3B are graphs showing an example of time change of the filter coefficient when the amount of change AR1 is small.
  • the vertical axis of the graph shows the filter coefficient, and the horizontal axis shows the time (in other words, the tap length of the adaptive filter constituting the convolution signal generation unit 123).
  • the filter coefficient of the convolution signal generation unit 123 calculated by the update amount calculation unit 126 is monitored by the filter coefficient monitoring unit 141. For example, when the voice signal of the occupant A picked up by the microphone mA is the main signal, the voice of the occupant D picked up by the microphone mA becomes a crosstalk component of the voice picked up by the microphone mA.
  • 3A and 3B is based on the sound of the occupant D picked up by the microphone mD as a cross-talk component of the sound picked up by the microphone mA, and the sound of the occupant D picked up by the microphone mA. Represents the filter coefficient at the time (t ⁇ t) for subtracting the voice.
  • the characteristic g1 shown in FIGS. 3A and 3B is based on the sound of the occupant D picked up by the microphone mD as a cross-talk component of the sound picked up by the microphone mA, and the sound of the occupant D picked up by the microphone mA. Represents the filter coefficient at time t for subtracting audio. That is, in FIGS.
  • both the characteristics g1 and g2 are waveforms of the filter coefficient during the period from the time when the update of the filter coefficient is started to the time when the update of the filter coefficient is converged (in other words, for the reverberation time). It is shown that the values on the time axis match. Note that ⁇ t is a fixed time as a set value, and indicates, for example, the time required for updating the filter coefficient of the adaptive filter at least once, and the same applies hereinafter.
  • the amount of change AR1 of the filter coefficient between the time (t ⁇ t) and t is smaller than the first threshold value when the speaker is switched. Since the change amount AR1 of the filter coefficient is smaller than the first threshold value, the speaker analysis unit 144 indicates that the speaker has not been switched, that is, the occupant D has not spoken and the speaker situation has not changed. I can judge.
  • FIGS. 4A and 4B are graphs showing an example of time change of the filter coefficient when the amount of change AR2 is large.
  • the vertical axis of the graph shows the filter coefficient
  • the horizontal axis shows the time (in other words, the tap length of the adaptive filter constituting the convolution signal generation unit 123).
  • the characteristic g4 shown in FIGS. 4A and 4B is based on the sound of the occupant D picked up by the microphone mD as a cross-talk component of the sound picked up by the microphone mA, and the sound of the occupant D picked up by the microphone mA. Represents the filter coefficient at the time (t ⁇ t) for subtracting the voice.
  • both the characteristics g3 and g4 are waveforms of the filter coefficient during the period from the time when the update of the filter coefficient is started to the time when the update of the filter coefficient is converged (in other words, for the reverberation time). It is shown that the values on the time axis match.
  • the amount of change AR2 of the filter coefficient between the characteristics g3 and g4 between the time (t ⁇ t) and t is the characteristic between g1 and g2 between the time (t ⁇ t) and t shown in FIG. 3B.
  • the amount of change in the filter coefficient of AR1 is larger than the first threshold value. Since the change amount AR2 of the filter coefficient is larger than the first threshold value, the speaker analysis unit 144 uses the cross-talk component of the voice picked up by the microphone mA when the speaker is switched, that is, when the occupant D speaks. It can be determined that the amount of change in the filter coefficient for subtracting the voice of the occupant D has increased. Therefore, the speaker analysis unit 144 can determine that the speaker situation has changed.
  • the voice uttered by the occupant A, who is the main speaker, picked up by the microphone mA is targeted for voice recognition, and the voice uttered by the sub occupant D, which is picked up by the microphone mA, is crossed.
  • the voice uttered by the occupant D picked up by the microphone mD may be the target of voice recognition, and the voice uttered by the occupant A picked up by the microphone mD may be cross-talk.
  • a button for instructing which occupant's utterance voice is the voice recognition target may be arranged in the vehicle 108, and in addition, for example, a dedicated device installed on a smartphone or tablet terminal owned by the occupant.
  • the occupant to be voice-recognized may be designated by performing an operation of instructing the occupant to be voice-recognized.
  • FIG. 5 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105 according to the first embodiment.
  • the process of FIG. 5 is executed by the DSP 110 constituting the acoustic crosstalk suppressor 105, and is repeatedly executed for each sample of the audio signal of the voice collected by the microphone mA and input to the acoustic crosstalk suppressor 105.
  • DSP 110 constituting the acoustic crosstalk suppressor 105
  • FIG. 5 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105 according to the first embodiment.
  • the process of FIG. 5 is executed by the DSP 110 constituting the acoustic crosstalk suppressor 105, and is repeatedly executed for each sample of the audio signal of the voice collected by the microphone mA and input to the acoustic crosstalk suppressor 105.
  • the DSP 110 acquires the voice signal of the voice of the main occupant A picked up by the microphone mA as the main signal to be voice-recognized (S101).
  • the sound pressure analysis unit 142 inputs the main signal of the microphone mA and outputs the sound pressure level of the main signal to the speaker analysis unit 144.
  • the DSP 110 acquires the voice signal of the voice produced by the sub-occupant D picked up by the microphone mD as a reference signal (S102).
  • the DSP 110 stores the voice data picked up by the microphone mD in the memory 150.
  • the sound pressure analysis unit 142 inputs the reference signal of the microphone mD and outputs the sound pressure level of the reference signal to the speaker analysis unit 144.
  • the speaker analysis unit 144 compares the sound pressure level of the main signal with the second threshold value (see above), and also compares the sound pressure level of the reference signal with the second threshold value (see above), and the speaker situation. Is analyzed (S103).
  • the filter coefficient monitoring unit 141 acquires the filter coefficient of the convolution signal generation unit 123 calculated by the update amount calculation unit 126 (S104).
  • the speaker analysis unit 144 determines whether or not the speaker has been switched based on the speaker status analyzed in step S103 and the filter coefficient acquired in step S104 (S105).
  • the filter reset unit 145 resets the filter coefficient of the convolution signal generation unit 123 to the initial value (S106).
  • DSP110 proceeds to the process of step S107 as it is.
  • the convolution signal generation unit 123 generates a crosstalk suppression signal by performing convolution processing using a reference signal that has been delayed for the delay time by the delay 129 using the filter coefficient calculated by the update amount calculation unit 126. (S107).
  • the adder 122 subtracts the crosstalk suppression signal generated by the convolution signal generation unit 123 from the voice signal of the voice of the main occupant A picked up by the microphone mA, and picks up the main sound by the microphone mA. Suppresses the cross-talk component contained in the voice of the occupant A.
  • the acoustic crosstalk suppression device 105 determines whether or not the filter learning period is in effect (S108).
  • the filter learning period for example, someone other than the main speaker, occupant A, is speaking in order to learn the filter coefficient for suppressing the crosstalk component contained in the voice of the main speaker, occupant A. It will be a period. Further, the period other than the filter learning period is a period in which no occupant other than the occupant A speaks.
  • the filter update unit 125 updates the filter coefficient of the convolution signal generation unit 123 with the filter coefficient calculated by the update amount calculation unit 126, and stores the update result in the memory 152. (S109).
  • the acoustic crosstalk suppression device 105 ends the process of FIG. 5 as it is.
  • the acoustic crosstalk suppression device 105 When it is determined that the speaker has switched in the environment inside the vehicle 108, the acoustic crosstalk suppression device 105 according to the first embodiment resets the filter coefficient to the initial value (for example, value 0) at that timing, and the filter coefficient Relearn and use. As a result, the filter coefficient according to the new speaker situation can be relearned, the crosstalk component can be suppressed with high accuracy according to the speaker situation, and the voice produced by the main speaker (for example, occupant A) can be suppressed. The sound quality can be improved. Further, depending on the environment inside the vehicle 108 and the speaker situation, the filter coefficient learned before the speaker is switched can be used continuously while learning even after the speaker is switched, as compared with the case where the speaker is switched.
  • the initial value for example, value 0
  • the acoustic crosstalk suppression device 105 can adaptively suppress the crosstalk component generated by the utterance of another occupant (for example, occupant D) included in the utterance of the main speaker (for example, occupant A), and is a voice recognition target.
  • the sound quality of the output voice of the occupant A can be improved.
  • the acoustic crosstalk suppression device 105 has two microphones mA and mD arranged in the passenger compartment 108z (in a closed space) where there are a plurality of occupants (plural people) including the occupant A who is the main speaker. Based on each voice signal picked up by each of the above, the speaker analysis unit 144 analyzes the speaker situation in the passenger compartment 108z.
  • the acoustic crosstalk suppression device 105 includes a convolution signal generation unit 123 that generates a suppression signal (that is, a crosstalk suppression signal) of a crosstalk component due to the speech of another occupant D included in the voice signal of the occupant A who is the main speaker.
  • the filter coefficient of the convolution signal generation unit 123 for suppressing the crosstalk component is updated, and the update result is held in the memory 152 in the filter update unit 125.
  • the acoustic crosstalk suppression device 105 resets the filter coefficient held in the memory 152 by the filter reset unit 145 when it is determined that the analysis result of the speaker situation has been switched from the immediately preceding speaker situation.
  • the acoustic crosstalk suppression device 105 suppresses the crosstalk component included in the voice signal of the occupant A in the adder 122 by using the suppression signal of the crosstalk component generated by the convolution signal generation unit 123.
  • the filter update unit 125 updates the filter coefficient based on the voice signal of the occupant D.
  • the acoustic crosstalk suppression device 105 can be included in the utterance voice of the occupant A who is the main speaker, depending on the speaker situation of a plurality of occupants (for example, occupants A and D) in the passenger compartment 108z.
  • Cross-talk component can be suppressed adaptively, and the sound quality of the utterance voice of occupant A can be improved.
  • the filter coefficient is continuously used without resetting, by resetting the filter coefficient every time it is determined that the speaker situation is switched, it can be expected that the filter coefficient will converge faster due to the update.
  • the convolution signal generation unit 123 uses the latest filter coefficient held in the memory 150 when it is determined that the analysis result of the speaker situation has not been switched from the immediately preceding speaker situation, and the crosstalk component is used. Generates a suppression signal of.
  • the acoustic crosstalk suppression device 105 can continuously obtain the adaptive crosstalk component already calculated according to the speaker situation when the same speaker situation continues. The crosstalk component contained in the speaker's spoken voice can be effectively suppressed.
  • the speaker analysis unit 144 compares the sound pressure level of each voice signal picked up by the two microphones mA and mD with the second threshold value (an example of the threshold value) in the passenger compartment 108z (an example of the threshold value). Analyze whether or not the speaker situation has changed in a closed space).
  • the acoustic crosstalk suppression device 105 considers the arrangement location of the microphones mA and mD and the position of the occupant in the vehicle 108, and determines the magnitude of each audio signal picked up by each of the microphones mA and mD. Correspondingly, not only whether the speaker situation has changed, but also the main speaker can be estimated with high accuracy.
  • the speaker analysis unit 144 analyzes whether or not the speaker situation is changed in the passenger compartment 108z based on the amount of fluctuation on the time axis of the filter coefficient of the convolution signal generation unit 123.
  • the filter coefficient is significantly changed due to a new utterance (in other words, the utterance of the main speaker under the switched new speaker situation) (for example, the time of the filter coefficient).
  • the fluctuation range over a certain period of time on the axis exceeds the first threshold value), it can be determined with high accuracy that the speaker has changed.
  • the speaker analysis unit 144 changes the speaker situation in the passenger compartment 108z according to the comparison between the suppression amount of the crosstalk component contained in the voice signal of the occupant A and the third threshold value (an example of the threshold value). Analyze the presence or absence of. As a result, in the acoustic crosstalk suppression device 105, the amount of suppression of the crosstalk component is reduced by a new utterance (in other words, the utterance of the main speaker under the new speaker situation that has been switched) (in other words, so far. The crosstalk suppression signal is not effective), and it can be determined with high accuracy that the speaker has changed.
  • the third threshold value an example of the threshold value
  • the learned filter coefficient is reset at the timing when it is determined that the speaker has switched, and the filter coefficient is relearned from the initial value and used.
  • the filter coefficient corresponding to the speaker situation after the speaker is switched is read from the memory and used.
  • FIG. 6 is a block diagram showing a functional configuration example of the acoustic crosstalk suppression device 105A according to the second embodiment.
  • the same components as those of the acoustic crosstalk suppression device 105 according to the first embodiment are used with the same reference numerals to simplify or omit the description.
  • the acoustic crosstalk suppression device 105A according to the second embodiment is similarly configured by the DSP 110A. Compared with the acoustic crosstalk suppression device 105 according to the first embodiment, the acoustic crosstalk suppression device 105A omits the filter reset unit 145 and has a filter coefficient reading unit 151. Further, the filter update unit 125A further includes a filter coefficient convergence determination unit 154 and a filter coefficient storage unit 153 as compared with the filter update unit 125.
  • the filter coefficient convergence determination unit 154 determines whether or not the filter coefficient has converged, which is calculated by the update amount calculation unit 126.
  • the filter coefficient is determined to be converged, for example, when the fluctuation range of the filter coefficient in a certain period is within a predetermined value.
  • the acoustic crosstalk suppression device 105A can determine that the filter coefficient has converged when the fluctuation of the filter coefficient has subsided, and can grasp the convergence of the filter coefficient at an appropriate timing.
  • the filter coefficient may be determined to be converged when the score value exceeds the threshold value as a result of the voice recognition unit 146 performing voice recognition on the voice after suppressing the crosstalk component.
  • the filter coefficient storage unit 153 as an example of the memory stores the filter coefficient determined to be converged by the filter coefficient convergence determination unit 154 in association with the speaker situation.
  • the filter coefficient storage unit 153 is composed of, for example, a cache memory.
  • the filter coefficient storage unit 153 stores four types of filter coefficients.
  • the filter coefficient reading unit 151 reads the filter coefficient corresponding to the speaker situation analyzed by the speaker analysis unit 144 from the filter coefficient storage unit 153, and sets it as the value of the filter coefficient that is sequentially updated by the filter update unit 125.
  • FIG. 7 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105A according to the second embodiment.
  • the same processing as the operation of the acoustic crosstalk suppression device 105 according to the first embodiment is given the same step number to simplify or omit the description, and different contents will be described. ..
  • the filter coefficient reading unit 151 is stored in the filter coefficient storage unit 153. Read the filter coefficient corresponding to the speaker situation (S106A).
  • the convolution signal generation unit 123 performs convolution processing on the reference signal using the filter coefficient corresponding to the speaker situation read in step S106A, and generates a crosstalk suppression signal.
  • the adder 122 subtracts the crosstalk suppression signal generated by the convolution signal generation unit 123 from the voice signal of the voice of the main occupant A picked up by the microphone mA, and picks up the main sound by the microphone mA.
  • the cross-talk component here, the voice of occupant D included in the voice uttered by occupant A is suppressed.
  • the filter coefficient of the convolution signal generation unit 123 is updated in step S109, and then the filter coefficient convergence determination unit 154 determines whether or not the updated filter coefficient has converged (S110). As a result of the determination, the filter coefficient convergence determination unit 154 determines whether or not the filter coefficient has converged (S111). When the filter coefficients have converged (S111, YES), the filter coefficient storage unit 153 stores the filter coefficient corresponding to the updated speaker situation (S112). The filter coefficient is saved by overwriting, but it may be additionally saved instead of overwriting. On the other hand, when the filter coefficients have not converged (S111, NO), the filter coefficient storage unit 153 does not store the filter coefficients. After this, the DSP 110 ends the process of FIG.
  • the acoustic crosstalk suppression device 105A Immediately after the speaker is switched, the acoustic crosstalk suppression device 105A according to the second embodiment reads the filter coefficient learned in the past in association with the speaker situation after the switch, and uses it as the filter coefficient of the convolution signal generation unit 123. use. As a result, it can be expected that the crosstalk component will be suppressed to some extent immediately after the speaker is switched. Further, when the filter coefficient converges, such as when the fluctuation range of the filter coefficient is equal to or less than a predetermined value for a certain period of time, the acoustic crosstalk suppressor 105A uses the converged filter coefficient as a candidate for the filter coefficient to be read next time. It is stored in the storage unit 153.
  • the acoustic crosstalk suppression device 105A can register the filter coefficient stored in the filter coefficient storage unit 153 as the latest learned filter coefficient corresponding to the speaker situation. Therefore, the suppression of the crosstalk component can be expected even more immediately after the speaker is switched.
  • the acoustic crosstalk suppression device 105A has two microphones mA and mD arranged in the passenger compartment 108z (in a closed space) where there are a plurality of occupants (plural people) including the occupant A who is the main speaker. Based on each voice signal picked up by each of the above, the speaker analysis unit 144 analyzes the speaker situation in the passenger compartment 108z.
  • the acoustic crosstalk suppression device 105A includes a convolution signal generation unit 123 that generates a suppression signal (that is, a crosstalk suppression signal) of a crosstalk component due to the speech of another occupant D included in the voice signal of the occupant A who is the main speaker.
  • the filter coefficient of the convolution signal generation unit 123 for suppressing the crosstalk component is updated, and the update result is held in the filter coefficient storage unit 153 in association with the speaker situation in the filter update unit 125A.
  • the acoustic crosstalk suppression device 105A uses the suppression signal of the crosstalk component generated by the convolution signal generation unit 123 when it is determined that the analysis result of the speaker situation has been switched from the previous speaker situation, and the occupant A
  • the crosstalk component contained in the voice signal of is suppressed by the adder 122.
  • the filter update unit 125A crosstalks by the convolution signal generation unit 123 using the filter coefficient corresponding to the analysis result of the speaker situation. Generates a component suppression signal.
  • the acoustic crosstalk suppression device 105A can be included in the utterance voice of the occupant A who is the main speaker, depending on the speaker situation of a plurality of occupants (for example, occupants A and D) in the passenger compartment 108z.
  • Cross-talk component can be suppressed adaptively, and the sound quality of the utterance voice of occupant A can be improved.
  • the filter coefficient according to the speaker situation is used as compared with the case where the same filter coefficient is continuously updated regardless of the speaker situation. It is expected that the sound quality of the uttered voice of the main speaker will be improved, and that the updated filter coefficients will converge faster.
  • the filter update unit 125A determines the convergence of the update of the filter coefficient based on the voice signal of the other occupant D
  • the filter update unit 125A updates the filter coefficient in association with the current speaker situation from the speaker analysis unit 144.
  • the convergence result is held in the filter coefficient storage unit 153.
  • the acoustic crosstalk suppression device 105A can suppress the crosstalk component in real time by using the converged filter coefficient when the same speaker situation occurs next time.
  • the filter coefficient convergence determination unit 154 determines whether or not the update of the filter coefficient has converged based on the fluctuation range of the filter coefficient in a certain period on the time axis. As a result, the acoustic crosstalk suppression device 105A can determine the convergence of the filter coefficient at an appropriate timing when the fluctuation of the filter coefficient is settled.
  • the filter coefficient is always reset when the speaker is switched, but it may be better not to reset the filter coefficient depending on the speaker situation in a closed space such as a vehicle 108. is assumed. For example, in a speaker situation in which the voice of occupant A is the voice recognition target and the voice of occupant D is a crosstalk component, another occupant C may join in a quiet voice. When there is such a change in the speaker situation, in the modified example of the first embodiment, it is possible to suppress the crosstalk component by using the filter coefficient before the change in the speaker situation without resetting the filter coefficient. Is.
  • FIG. 8 is a block diagram showing a functional configuration example of the acoustic crosstalk suppression device 105B according to the modified example of the first embodiment.
  • the same components as the acoustic crosstalk suppression device 105 according to the first embodiment are designated by the same reference numerals to simplify the description thereof. Alternatively, it will be omitted and different contents will be described.
  • the acoustic crosstalk suppression device 105B according to the modified example of the first embodiment is similarly configured by the DSP 110B.
  • the acoustic crosstalk suppression device 105B further includes an adder 222, a filter update unit 225, and an output selection unit 230, in addition to the functional configuration of the DSP 110 according to the first embodiment.
  • the adder 222 as an example of the cross talk suppression unit has a cross talk generated by the filter update unit 225 from the voice signal of the voice of the main occupant A picked up by the microphone mA. By subtracting the suppression signal, the cross talk component (for example, the voice of the occupant D) included in the voice of the main occupant A picked up by the microphone mA is suppressed.
  • the cross talk component for example, the voice of the occupant D
  • the filter update unit 225 converts the sound picked up by the microphone mA into the sound picked up by the microphone mA based on the sound signal after cross talk suppression picked up by the microphone mA and the reference signal picked up by the microphone mD and deviated by the delay time. A crosstalk suppression signal for suppressing (subtracting) the included crosstalk component is generated.
  • the filter update unit 225 includes a convolution signal generation unit 223, an update amount calculation unit 226, a non-linear conversion unit 227, and a norm calculation unit 228.
  • the functions of the convolution signal generation unit 223, the update amount calculation unit 226, the nonlinear conversion unit 227, and the norm calculation unit 228 are the convolution signal generation unit 123, the update amount calculation unit 126, the nonlinear conversion unit 127, and the norm calculation unit 128, respectively. Since the same is true, each description will be omitted. However, the filter update unit 225 is used without resetting the filter coefficient of the convolution signal generation unit 223 even when it is determined that the speaker has been switched.
  • the output selection unit 230 is a voice signal after crosstalk suppression, which is suppressed by using the crosstalk suppression signal generated by the filter update unit 125 or the filter update unit 225 when it is determined that the speaker has not been switched. Select. When it is determined that the speaker has been switched, the output selection unit 230 resets the filter coefficient based on the speaker situation after the switch.
  • the crosstalk component using the filter update unit 125 according to the first embodiment.
  • the suppressed audio signal or the suppressed audio signal of the crosstalk component using the filter update unit 225 that does not reset the filter coefficient is selected.
  • the output selection unit 230 uses the filter update unit 225 to suppress the crosstalk component and the filter update unit 125 based on a predetermined determination criterion. Select one of the voice signals after suppressing the crosstalk component using. For example, the output selection unit 230 may select the voice signal after suppressing the crosstalk component having the higher score value as a result of voice recognition by the voice recognition unit 146. Further, the output selection unit 230 may select the audio signal after suppressing the crosstalk component, which has a shorter time until the filter coefficient converges.
  • the output selection unit 230 includes a voice signal after suppressing the crosstalk component using the filter update unit 225 and a voice signal after suppressing the crosstalk component using the filter update unit 125 according to the switching operation of the user. Any of the above may be selected in advance.
  • the output selection unit 230 may select the audio signal after suppressing the crosstalk component depending on the speaker situation. For example, in a speaker situation where the voice of occupant A is the voice recognition target and the voice of occupant D is crosstalk, when another occupant C joins in a quiet voice, the output selection unit 230 may use the filter update unit 225. The voice signal after suppression of the crosstalk component, which is suppressed by using the crosstalk suppression signal generated in, is selected. On the other hand, when there is no large difference in the volume of the voices of the occupant C and the occupant D, the output selection unit 230 suppresses the crosstalk component by using the crosstalk suppression signal generated by the filter update unit 125, after the suppression of the crosstalk component. Select an audio signal.
  • FIG. 9 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105B according to the modified example of the first embodiment.
  • the description of FIG. 9 for the same processing as the operation of the acoustic crosstalk suppression device 105 according to the first embodiment, the description is simplified or omitted by assigning the same step number, and different contents will be described. ..
  • the acoustic crosstalk suppression device 105B executes a series of processes of steps S104 to S109 as in the first embodiment. .. That is, the acoustic crosstalk suppression device 105B resets the filter coefficient to the initial value when it is determined that the speaker situation has changed (switched), and relearns the filter coefficient according to the switched speaker situation.
  • the convolution signal generation unit 123 is used to suppress the crosstalk component from the audio signal (main signal) picked up by the microphone mA.
  • the acoustic crosstalk suppression device 105B performs the processes of steps S121 to S124 in parallel with the series of processes of steps S104 to S109. That is, the acoustic crosstalk suppression device 105B performs the convolution signal generation unit 223 while learning the filter coefficient as necessary without resetting the filter coefficient even when it is determined that the speaker situation has changed (switched). It is used to suppress the crosstalk component from the audio signal (main signal) picked up by the microphone mA.
  • the filter update unit 225 acquires the filter coefficient of the convolution signal generation unit 223 calculated by the update amount calculation unit 226 (S121).
  • the convolution signal generation unit 223 performs a convolution process on the reference signal using the filter coefficient calculated by the update amount calculation unit 226 to generate a crosstalk suppression signal (S122).
  • the adder 222 suppresses (subtracts) the crosstalk suppression signal generated by the convolution signal generation unit 223 from the audio signal of the sound picked up by the microphone mA, and the cross included in the sound picked up by the microphone mA. Suppress the talk component.
  • the acoustic crosstalk suppression device 105B determines whether or not the filter learning period is in effect (S123).
  • the filter learning period for example, someone other than the main speaker, occupant A, is speaking in order to learn the filter coefficient for suppressing the crosstalk component contained in the voice of the main speaker, occupant A. It will be a period. Further, the period other than the filter learning period is a period in which no occupant other than the occupant A speaks.
  • the filter update unit 225 updates the filter coefficient of the convolution signal generation unit 223 with the filter coefficient calculated by the update amount calculation unit 226, and stores the update result in the memory 152. (S124).
  • the acoustic crosstalk suppression device 105B does not update the filter coefficient of the convolution signal generation unit 223.
  • the output selection unit 230 selects either an audio signal after suppressing the crosstalk component using the convolution signal generation unit 123 or an audio signal after suppressing the crosstalk component using the convolution signal generation unit 223 ( S125). After this, the acoustic crosstalk suppression device 105B ends the operation shown in FIG.
  • the acoustic crosstalk suppression device 105B is either a voice signal after crosstalk suppression using the filter update unit 225 or a voice signal after crosstalk suppression using the filter update unit 125. Can be selected. Therefore, for example, the acoustic crosstalk suppression device 105B can increase the voice recognition rate by selecting the voice signal after crosstalk suppression, which has a higher score value, as a result of voice recognition by the voice recognition unit 146. The sound quality of spoken voice is improved. Further, the acoustic crosstalk suppression device 105B can shorten the time until the sound quality of the target voice stabilizes by selecting the voice signal after crosstalk suppression, which has a shorter time until the filter coefficient converges. ..
  • the acoustic crosstalk suppression device 105B is a convolution signal generation unit 223 (an example of a second suppression signal of the crosstalk component) that generates a crosstalk suppression signal (an example of a second suppression signal of the crosstalk component) by the utterance of the occupant D included in the voice signal of the occupant A. It has a second filter (an example), updates the filter coefficient of the convolution signal generation unit 223 for suppressing the crosstalk component, and outputs the update result to the memory 152 in the filter update unit 225 (an example of the second filter update unit). Hold on.
  • the acoustic crosstalk suppression device 105B uses the crosstalk suppression signal generated by the convolution signal generation unit 223 to add the crosstalk component contained in the voice signal of the occupant A to the adder 222 (an example of the second crosstalk suppression unit). Suppress in.
  • the acoustic crosstalk suppression device 105B includes a voice signal after crosstalk suppression from the adder 122 (an example of a first output signal) and a voice signal after crosstalk suppression from the adder 222 (an example of a second output signal). One of them is selected by the output selection unit 230 and output.
  • the acoustic crosstalk suppression device 105B uses the filter coefficient reset when the speaker situation changes to suppress the crosstalk component, and the voice signal after crosstalk suppression and when the speaker situation changes. It is possible to select and output a crosstalk-suppressed audio signal in which the crosstalk component is suppressed by using a filter coefficient that is not reset. Therefore, the acoustic crosstalk suppression device 105B can select, for example, the voice signal after crosstalk suppression, whichever has the better sound quality of the voice of the occupant A.
  • the output selection unit 230 selects and outputs the voice signal after the crosstalk is suppressed based on the result of voice recognition of the voice signal of the occupant A in which the crosstalk component is suppressed.
  • the acoustic crosstalk suppression device 105B can select the signal having the higher voice recognition score value. Therefore, the sound quality of the uttered voice of the occupant A is improved.
  • Modified Example of Embodiment 2 In the modified example of the second embodiment, as in the modified example of the first embodiment, when it is determined that the speaker has been switched depending on the speaker situation in the closed space such as the vehicle 108, the speaker is switched.
  • the acoustic crosstalk suppression device 105C does not read the filter coefficient corresponding to the speaker situation after the change from the filter coefficient storage unit 153B (see FIG. 12), and uses the filter coefficient before the change in the speaker situation to use the crosstalk component. It is also possible to suppress.
  • FIG. 10 is a block diagram showing a functional configuration example of the acoustic crosstalk suppression device 105C according to the modified example of the second embodiment.
  • the acoustic crosstalk suppressor 105C according to the modified example of the second embodiment has the same configuration as the acoustic crosstalk suppressor 105A according to the second embodiment and the acoustic crosstalk suppressor 105B according to the modified example of the first embodiment.
  • the acoustic crosstalk suppression device 105C according to the modified example of the second embodiment is similarly configured by the DSP110C.
  • the acoustic crosstalk suppression device 105C further includes an adder 222, a filter update unit 225, and an output selection unit 230, as in the modification of the first embodiment, in addition to the functional configuration of the DSP 110A according to the second embodiment. ..
  • the output selection unit 230 uses the same method as in the modified example of the first embodiment, after suppressing the crosstalk component using the filter update unit 225 and after suppressing the crosstalk component using the filter update unit 125A. Select one of the audio signals of.
  • the output selection unit 230 sets the audio signal after suppressing the crosstalk component using the filter update unit 225 and the audio signal after suppressing the crosstalk component using the filter update unit 125A based on a predetermined determination criterion. Select one. For example, the output selection unit 230 may select the voice signal after suppressing the crosstalk component having the higher score value as a result of voice recognition by the voice recognition unit 146. Further, the output selection unit 230 may select the audio signal after suppressing the crosstalk component, which has a shorter time until the filter coefficient converges. Further, the output selection unit 230 may select the audio signal after suppressing the crosstalk component depending on the speaker situation, as in the modification of the first embodiment.
  • the output selection unit 230 includes a voice signal after suppressing the crosstalk component using the filter update unit 225 and a voice signal after suppressing the crosstalk component using the filter update unit 125A according to the switching operation of the user. Any of the above may be selected in advance.
  • FIG. 11 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105C according to the modified example of the second embodiment.
  • the same step number is used for the same processing as the operation of the acoustic crosstalk suppression device 105A according to the second embodiment or the operation of the acoustic crosstalk suppression device 105B according to the modified example of the first embodiment.
  • the acoustic crosstalk suppression device 105C executes a series of processes of steps S104 to S112 as in the second embodiment. To do. That is, the acoustic crosstalk suppression device 105C reads the filter coefficient learned in the past when it is determined that the speaker situation has changed (switched), and suppresses the crosstalk component using the convolution signal generation unit 123. I do. Further, the acoustic crosstalk suppression device 105C performs a series of processes of steps S121 to S124 in parallel with the series of processes of steps S104 to S112, as in the modified example of the first embodiment. That is, the acoustic crosstalk suppression device 105C suppresses the crosstalk component by using the convolution signal generation unit 223 without reading the filter coefficient learned in the past.
  • step S125 the output selection unit 230 selects either an audio signal after suppressing the crosstalk component using the filter update unit 125A or an audio signal after suppressing the crosstalk component using the filter update unit 225. To do.
  • the acoustic crosstalk suppression device 105C has a voice signal after suppression of the crosstalk component using the filter update unit 125A and a voice after suppression of the crosstalk component using the filter update unit 225. You can choose either signal. Therefore, for example, the acoustic crosstalk suppression device 105C can increase the voice recognition rate by selecting the voice signal after suppression of the crosstalk component having the higher score value as a result of voice recognition by the voice recognition unit 146. It can improve the sound quality of spoken voice.
  • the acoustic crosstalk suppression device 105C selects the voice signal after suppression of the crosstalk component, which has a shorter time until the filter coefficient converges, so that the main speaker (for example, occupant A) to be voice-recognized. It is possible to shorten the time until the sound quality of the voice is stabilized by the utterance of.
  • the acoustic crosstalk suppression device 105C is a convolution signal generation unit 223 (an example of a second suppression signal of the crosstalk component) that generates a crosstalk suppression signal (an example of a second suppression signal of the crosstalk component) by the utterance of the occupant D included in the voice signal of the occupant A. It has an example of a second filter), updates the filter coefficient of the convolution signal generation unit 223 for suppressing the crosstalk component, and holds the update result in the memory 152 in the filter update unit 225.
  • the acoustic crosstalk suppression device 105C uses the crosstalk suppression signal generated by the convolution signal generation unit 223 to suppress the crosstalk component included in the voice signal of the occupant A in the adder 222.
  • the acoustic crosstalk suppression device 105C includes a voice signal after crosstalk suppression from the adder 122 (an example of a first output signal) and a voice signal after crosstalk suppression from the adder 222 (an example of a second output signal). One of them is selected by the output selection unit 230 and output.
  • the acoustic crosstalk suppression device 105C suppresses the crosstalk component by using the filter coefficient corresponding to the speaker situation held in the filter coefficient storage unit 153 (for example, the cache memory) when the speaker situation changes. It is possible to select and output the voice signal after crosstalk suppression and the voice signal after crosstalk suppression in which the crosstalk component is suppressed by using a filter coefficient that is not read when the speaker situation changes. Therefore, the acoustic crosstalk suppression device 105C can select, for example, the voice signal after crosstalk suppression, whichever has the better sound quality of the voice of the occupant A.
  • the output selection unit 230 selects and outputs the voice signal after the crosstalk is suppressed based on the result of voice recognition of the voice signal of the occupant A in which the crosstalk component is suppressed.
  • the acoustic crosstalk suppression device 105C can select the signal having the higher voice recognition score value. Therefore, the sound quality of the uttered voice of the occupant A is improved.
  • FIG. 12 is a block diagram showing a functional configuration example of the acoustic crosstalk suppression device 105D according to the third embodiment.
  • the acoustic crosstalk suppression device 105D further includes an output selection unit 230 in addition to the functional configurations of the acoustic crosstalk suppression device 105 according to the first embodiment and the acoustic crosstalk suppression device 105A according to the second embodiment.
  • the same components as the acoustic crosstalk suppression device 105 according to the first embodiment and the acoustic crosstalk suppression device 105A according to the second embodiment are designated by the same reference numerals.
  • the adder 122 of the second embodiment and the adder 122B of the third embodiment have the same configuration.
  • the filter update unit 125A of the second embodiment and the filter update unit 125B of the third embodiment have the same configuration. The same applies to the other parts, and the description thereof will be omitted.
  • the output selection unit 230 sets the audio signal after suppressing the crosstalk component using the filter update unit 125 and the audio signal after suppressing the crosstalk component using the filter update unit 125B based on a predetermined determination criterion. Select one. For example, the output selection unit 230 may select the voice signal after crosstalk suppression, which has a higher score value as a result of voice recognition by the voice recognition unit 146. Further, the output selection unit 230 may select the audio signal after suppressing the crosstalk component, which has a shorter time until the filter coefficient converges. Further, the output selection unit 230 may select the audio signal after suppressing the crosstalk component depending on the speaker situation, as in the modification of the first embodiment.
  • the output selection unit 230 includes a voice signal after suppressing the crosstalk component using the filter update unit 125 and a voice signal after suppressing the crosstalk component using the filter update unit 125B according to the switching operation of the user. Any of the above may be selected in advance.
  • FIG. 13 is a flowchart showing an example of an operation procedure of the acoustic crosstalk suppression device 105D according to the third embodiment.
  • the same step number shall be assigned to the same processing as the operation of the acoustic crosstalk suppression device 105 according to the first embodiment or the operation of the acoustic crosstalk suppression device 105A according to the second embodiment. So, the explanation will be simplified or omitted, and different contents will be explained.
  • the acoustic crosstalk suppression device 105D executes a series of processes of steps S104 to S109 of the first embodiment. That is, the acoustic crosstalk suppression device 105D uses the convolution signal generation unit 123 while resetting the filter coefficient to the initial value and relearning the file coefficient when it is determined that the speaker situation has changed (switched). The crosstalk component is suppressed. Further, the acoustic crosstalk suppression device 105D executes a series of processes of steps S104B to S112B in parallel with the series of processes of steps S104 to S109, as in the second embodiment. That is, the acoustic crosstalk suppression device 105D reads the filter coefficient learned in the past when it is determined that the speaker situation has changed (switched), and suppresses the crosstalk component using the convolution signal generation unit 123B. I do.
  • step S125 the output selection unit 230 uses the convolution signal generation unit 123 to suppress the crosstalk component of the first embodiment, and the convolution signal generation unit 123B to use the crosstalk of the second embodiment. Select one of the voice signal after suppressing the talk component.
  • the acoustic crosstalk suppression device 105D selects either the voice signal after the suppression of the crosstalk component of the first embodiment or the voice signal after the suppression of the crosstalk component of the second embodiment. It can. Therefore, for example, the acoustic crosstalk suppression device 105D can increase the voice recognition rate by selecting the voice signal after suppression of the crosstalk component having the higher score value, and the sound quality of the spoken voice is improved. Further, the acoustic crosstalk suppression device 105D selects the voice signal after suppression of the crosstalk component, which has a shorter time until the filter coefficient converges, so that the time until the sound quality of the target voice stabilizes can be set. Can be shortened.
  • the acoustic crosstalk suppression device 105D is a convolution signal generation unit 123B (an example of a second suppression signal of the crosstalk component) that generates a crosstalk suppression signal (an example of a second suppression signal of the crosstalk component) by the utterance of the occupant D included in the voice signal of the occupant A. It has a second filter), updates the filter coefficient of the convolution signal generation unit 123B for suppressing the crosstalk component, and associates the update result with the speaker status in the filter update unit 125B, and the filter coefficient storage unit 153B (second filter). 2 Hold in an example of memory).
  • the acoustic crosstalk suppression device 105D uses the crosstalk suppression signal generated by the convolution signal generation unit 123B to add the crosstalk component included in the voice signal of the occupant A to the adder 122B (an example of the second crosstalk suppression unit). Suppress in.
  • the acoustic crosstalk suppression device 105D includes a voice signal after crosstalk suppression from the adder 122 (an example of a first output signal) and a voice signal after crosstalk suppression from the adder 122B (an example of a second output signal). One of them is selected by the output selection unit 230 and output.
  • the filter update unit 125B uses the filter coefficient of the convolution signal generation unit 123B corresponding to the analysis result of the speaker situation to generate a convolution signal.
  • the generation unit 123B generates a crosstalk suppression signal.
  • the acoustic crosstalk suppressor 105D uses the filter coefficient reset when the speaker situation changes to suppress the crosstalk component, and the voice signal after crosstalk suppression and when the speaker situation changes. It is possible to select and output a crosstalk-suppressed audio signal in which the crosstalk component is suppressed by using a filter coefficient corresponding to the speaker situation held in the cache memory. Therefore, the acoustic crosstalk suppression device 105D can select, for example, the voice signal after crosstalk suppression, whichever has the better sound quality of the voice of the occupant A.
  • the output selection unit 230 selects and outputs the voice signal after the crosstalk is suppressed based on the result of voice recognition of the voice signal of the occupant A in which the crosstalk component is suppressed.
  • the acoustic crosstalk suppression device 105D can select the signal having the higher voice recognition score value. Therefore, the sound quality of the uttered voice of the occupant A is improved.
  • the acoustic crosstalk suppression devices 105, 105A, 105B, 105C, and 105D include as many delay and filter update units as there are microphones, excluding the microphones that input the main signal.
  • the acoustic crosstalk suppression devices 105, 105A, 105B, 105C, and 105D are provided with a configuration corresponding to a combination of three sets of delay and filter update units.
  • an acoustic crosstalk component that can be included in the speech voice of the main speaker is adaptively applied according to the speaker situation of a plurality of occupants existing in a closed space such as a vehicle interior. It is useful as an acoustic cross-talk suppression device and an acoustic cross-talk suppression method that suppresses the sound quality and improves the sound quality of the spoken voice of the main speaker.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

音響クロストーク抑圧装置は、閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、閉空間内での話者状況を分析する話者分析部と、メイン話者の音声信号に含まれるクロストーク成分の抑圧信号を生成するフィルタを有し、フィルタのパラメータを更新し、メモリに保持するフィルタ更新部と、話者状況の分析結果が切り替わったと判定された場合にフィルタのパラメータをリセットするリセット部と、抑圧信号を用いてクロストーク成分を抑圧するクロストーク抑圧部と、を備える。

Description

音響クロストーク抑圧装置および音響クロストーク抑圧方法
 本開示は、音響クロストーク抑圧装置および音響クロストーク抑圧方法に関する。
 特許文献1には、車室内の状況として乗員の配置パターンを予め想定し、各配置パターンそれぞれに対して音の伝達特性を測定し、その測定により得られメモリ等に記憶された各伝達特性を用いて、スピーカから出力される音声信号に含まれる音響を推定して除去する音響除去装置が開示されている。この音響除去装置によれば、乗員の配置が配置パターンのいずれかを満たす限り、音響の除去または抑圧が可能である。
日本国特開2009-216835号公報
 特許文献1の構成では、ドライバーの発話音声を収音することを目的としたマイクがドライバーの前に1つ配置されているだけであり、例えば他の乗員の前に各乗員の声を収音することを目的としたマイクが配置されていない。車室内には複数人の乗員が存在することが十分に考えられるため、ドライバーだけでなく他の乗員がドライバーとほぼ同時に発話した場合、ドライバーのマイクにはドライバー以外の他の乗員の発話音声も収音される。したがって、特許文献1の構成では、ドライバーのマイクが収音した音声信号に含まれる他の乗員の発話に基づくクロストーク成分を抑圧することはできない。これは、ドライバーのマイクでは他の乗員の発話するクリアな音声の収音が難しく、その他の乗員の発話音声をクロストーク成分として抑圧するための適応フィルタのフィルタ係数の学習ができないためである。
 本開示は、上述した従来の状況に鑑みて案出され、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音響クロストーク抑圧装置および音響クロストーク抑圧方法を提供することを目的とする。
 本開示は、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新する、音響クロストーク抑圧装置を提供する。
 また、本開示は、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持するフィルタ更新部と、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、前記フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより前記抑圧信号を生成する、音響クロストーク抑圧装置を提供する。
 また、本開示は、音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行される、音響クロストーク抑圧方法を提供する。
 また、本開示は、音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持し、前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、前記抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて実行される、音響クロストーク抑圧方法を提供する。
 本開示によれば、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、メイン話者の発話音声の音質を改善できる。
実施の形態1に係る音響クロストーク抑圧装置が搭載される車両の車室内の乗員およびマイクの配置例を示す図 実施の形態1に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 変化量が小さい場合におけるフィルタ係数の時間変化例を示すグラフ 変化量が小さい場合におけるフィルタ係数の時間変化例を示すグラフ 変化量が大きい場合におけるフィルタ係数の時間変化例を示すグラフ 変化量が大きい場合におけるフィルタ係数の時間変化例を示すグラフ 実施の形態1に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート 実施の形態2に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態2に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート 実施の形態1の変形例に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態1の変形例に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート 実施の形態2の変形例に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態2の変形例に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート 実施の形態3に係る音響クロストーク抑圧装置の機能的構成例を示すブロック図 実施の形態3に係る音響クロストーク抑圧装置の動作手順例を示すフローチャート
 以下、適宜図面を参照しながら、本開示に係る音響クロストーク抑圧装置および音響クロストーク抑圧方法を具体的に開示した実施形態を詳細に説明する。但し、必要以上に詳細な説明は省略する場合がある。例えば、既によく知られた事項の詳細説明および実質的に同一の構成に対する重複説明を省略する場合がある。これは、以下の説明が不必要に冗長になるのを避け、当業者の理解を容易にするためである。なお、添付図面および以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより特許請求の範囲に記載の主題を限定することは意図されていない。
(実施の形態1)
 図1は、実施の形態1に係る音響クロストーク抑圧装置105が搭載される車両108の車室108z内の乗員およびマイクの配置例を示す図である。車両108は、車室108z内において、例えば、運転席、助手席、2列目の後部座席および3列目の後部座席を含む、最大7~8人乗りのミニバンである。なお、車両108は、最大7~8人乗りのミニバンに限定されず、例えば5人乗りの乗用車あるいはバス等、特に積載人数あるいは車種は限定されない。
 図1では、車両108のドライバーに相当する乗員Aが着座する運転席の前方にマイクmAが配置される。乗員Dが着座する3列目の後部座席の左側前方にマイクmDが配置される。なお、乗員の数と配置およびマイクの数と配置は、任意に変更可能である。例えば図1において、助手席の前方および3列目の後部座席の右側前方等にマイクがそれぞれ配置されることでマイクの数は4個であってもよい。
 マイクmAは、主に乗員Aが発話する音声を収音するためのマイクである。マイクmDは、主に乗員Dが発話する音声を収音するためのマイクである。なお、図1では、説明を分かり易くするために、助手席、2列目の後部座席、および3列目の後部座席の右側には、乗員が着座していない例が示されているが、それぞれの座席に乗員が着座していても構わない。
 マイクmA,mDは、例えば指向性マイクおよび無指向性マイクのうちいずれでもよい。また、マイクmA,mDは、例えば高音質小型エレクトレットコンデンサーマイクロホン(ECM:Electret Condenser Microphone)の単体、複数のECMで構成されるマイクアレイ等で構成されてもよい。マイクmA,mDは、音響クロストーク抑圧装置105に接続されるが、図1の複雑化を避けるためにマイクmA,mDと音響クロストーク抑圧装置105との配線の図示を省略している。
 音響クロストーク抑圧装置105は、各種の電子部品を収容する筐体を有し、例えば車両108の車室108z内のダッシュボードの内側に配置される。音響クロストーク抑圧装置105は、マイクmAあるいはマイクmDで収音される音声のうち、音声認識の対象となる乗員以外の乗員が発話する音声(いわゆるクロストーク成分)を抑圧する。音声認識の対象となる乗員が発話している音声に対し、対象外の乗員が発話する音声は、音声認識の対象となる音声に含まれるクロストーク成分となる。例えば、乗員Aが発話する音声を認識する必要がある場合に、乗員Aが発話する音声を収音するためのマイクmAで収音される音に含まれるクロストーク成分は、マイクmAで収音された乗員Dが発話する音声である。
(音響クロストーク抑圧装置の構成)
 図2は、実施の形態1に係る音響クロストーク抑圧装置105の機能的構成例を示すブロック図である。音響クロストーク抑圧装置105は、マイクmAで収音される、音声認識したい乗員Aが発話する音声の音声信号に含まれる、マイクmDで収音された乗員Dが発話する音声の音声信号を畳み込み処理することで、マイクmAで収音される乗員Dの発話によるクロストーク成分を再現したクロストーク抑圧信号(抑圧信号の一例)を生成する。音響クロストーク抑圧装置105は、マイクmAで収音された音声信号から乗員Dのクロストーク抑圧信号を抑圧(具体的には、除去あるいは減算)することで、クロストーク抑圧後の音声信号を生成する。ここで、音響クロストーク抑圧装置105が音声認識する対象となるメインの乗員の発話による音声信号を主信号と称し、クロストーク抑圧信号が生成される元の音声信号(つまり、クロストーク成分の発声源となるメインの乗員以外の他の乗員の発話による音声信号)を参照信号と称する。
 音響クロストーク抑圧装置105は、ハードウェア構成として、例えばDSP110(Digital Signal Processor)およびメモリ150,152により構成される。なお、音響クロストーク抑圧装置105は、DSP110およびメモリ150,152の他、マイクmA,mDを含んで構成されてもよい。また、ここでは、マイクmAに対する音響クロストーク抑圧装置105を例示するが、マイクmDに対する音響クロストーク抑圧装置105についても同様である。つまり、マイクmAで収音されるメインの乗員Aの音声信号を主信号とし、マイクmDで収音されるサブの乗員Dの音声信号を参照信号として例示して説明するが、反対にマイクmDで収音されるメインの乗員Dの音声信号を主信号とし、マイクmAで収音されるサブの乗員Aの音声信号を参照信号としてもよい。
 メモリ150は、音響クロストーク抑圧装置105のワークメモリとしてのRAM(Random Access Memory)と、音響クロストーク抑圧装置105の処理に関するプログラムを格納するROM(Read Only Memory)とを含む。メモリ150は、例えばマイクmDで収音されたサブの乗員Dの発話による音声の音声信号を参照信号として保持する。また、メモリ152は、音声認識部146による音声認識結果(例えば音声認識データおよびスコア値を含む)、フィルタ更新部125で更新されるフィルタ係数を記憶する。音声認識データは、例えばメインの乗員A(メイン話者の一例)の発話による音声の内容をテキスト化したテキストデータである。スコア値は、音声認識部146で行われた音声認識の処理結果であるテキストデータの信頼度(精度)を示す評価値である。
 DSP110は、例えばマイクmAで収音されたメインの乗員Aの発話による音声の音声信号から、サブの乗員Dの発話による音声のクロストーク成分を抑圧する処理を行うプロセッサである。また、DSP110は、クロストーク抑圧後の音声信号の音声認識処理を行う。ここでは、プロセッサとして、DSPを用いるが、例えばCPU(Central Processing Unit)、GPU(Graphical Processing Unit)等が用いられてもよい。また、ASIC(Application Specific Integrated Circuit)等で設計された専用の電子回路あるいはFPGA(Field Programmable Gate Array)等、再構成可能に設計された電子回路が用いられてもよい。
 DSP110は、加算器122、フィルタ更新部125、ディレイ129、音圧分析部142、抑圧量分析部143、話者分析部144、フィルタリセット部145、および音声認識部146を有する。
 クロストーク抑圧部の一例としての加算器122は、マイクmAで収音されたメインの乗員Aの発話による音声の音声信号から、フィルタ更新部125で生成されたクロストーク抑圧信号を減算することで、マイクmAで収音されたメインの乗員Aの発話による音声に含まれるクロストーク成分を抑圧する。なお、上述したとおり、加算器122が行う処理は厳密には減算であるが、クロストーク抑圧信号を減算する処理であっても、クロストーク抑圧信号を反転させた上で加算器122において加算する処理と実質的に等価と考えることができる。このため、本明細書では、このクロストーク成分の抑圧処理は、加算器122が行う処理として記載する。
 フィルタ更新部125の処理を詳細に説明する。音響クロストーク抑圧装置105が抑圧するクロストーク成分は、例えば音声認識の対象となるメイン話者が乗員Aである場合に、他の乗員Dが発話した声が乗員Aの前方に配置されたマイクmAに到達した音声である。この音声は、車室108z内の伝達経路を経由して、マイクmAに到達する。したがって、マイクmAが収音する音声は、乗員Dが発話した声が伝達経路を通過するために要した時間(いわゆる遅延時間)分ずれて、乗員Aが発話する声と混合される音声である。
 フィルタ更新部125は、マイクmAで収音されたクロストーク抑圧後の音声信号とマイクmDで収音されて遅延時間分ずれた参照信号とに基づいて、マイクmAで収音された音声に含まれるクロストーク成分を抑圧(減算)するためのクロストーク抑圧信号を生成する。フィルタ更新部125は、畳み込み信号生成部123、フィルタ係数監視部141、更新量計算部126、非線形変換部127およびノルム算出部128を有する。
 フィルタの一例としての畳み込み信号生成部123は、例えば適応フィルタにより構成され、更新量計算部126で計算されるフィルタ係数(パラメータの一例)を用いて参照信号に対し畳み込み処理を行い、参照信号を用いてクロストーク抑圧信号を生成する処理を行う。この適応フィルタには、例えば、特許文献1あるいは特開2007-19595号公報等に記載されているFIR(Finite Impulse Response)フィルタが用いられる。適応フィルタは、マイクmAとマイクmDとの間の伝達特性を再現し、参照信号を処理することによりクロストーク抑圧信号を生成する。ただし、車室108z内の伝達特性は定常的なものではないため、適応フィルタの特性も随時変化させる必要がある。実施の形態1では、適応フィルタの係数またはタップ数を制御することによって、適応フィルタの特性が、マイクmAとマイクmDの間の最新の伝達特性に近づくよう変化させる。以下、適応フィルタの更新を、学習と表現することもある。
 マイクmAで収音されるサブの乗員Dの音声は、マイクmDで収音されるサブの乗員Dの音声に対し、マイクmDからマイクmAに伝わる時間分遅延する。参照信号は、マイクmDで収音されてメモリ150に保持されるので、マイクmDからマイクmAまでの遅延時間が反映されていない。このため、実施の形態1では、遅延器としてのディレイ129がこの時間差を吸収する。つまり、ディレイ129が前述した時間差(要は、マイクmDからマイクmAまでの音声の伝達経路に要する時間)の分だけ、参照信号に遅延処理を施してフィルタ更新部125に出力する。これにより、フィルタ更新部125は、マイクmAで収音されたタイミングに合致する参照信号を得ることができる。ディレイ129の値は、概ねマイクmDとマイクmAの間の距離を実測し、それを音速で除算することによって得ることができる。例えば、車室108z内での温度に基づく音速を340m/sとし、かつマイクmDとマイクmAの間の距離が3.4m程度である場合、ディレイ129の値は約10msecである。
 より正確には、ディレイの値(遅延時間)は、参照信号ごとに異なり、次のように求められる。例えば、マイクmAが乗員Aの正面に配置され、マイクmDが乗員Dの正面に配置された車室108z内を想定する。乗員Dが発話しており、マイクmAに含まれる乗員Dの音声を抑圧する場合、マイクmDで収音される音声を参照信号とすると、ディレイの値は、乗員Dの口元からマイクmDまでの距離と、乗員Dの口元からマイクmAまでの距離との差分から計算される。一方、乗員Aが発話しており、マイクmDに含まれる乗員Aの音声を抑圧する場合、マイクmAで収音される音声を参照信号とすると、ディレイの値は、乗員Aの口元からマイクmAまでの距離と、乗員Aの口元からマイクmDまでの距離との差分から計算される。
 非線形変換部127は、クロストーク成分の抑圧後の音声信号に対して非線形変換を行う。この非線形変換は、クロストーク成分の抑圧後の音声信号を適応フィルタの更新すべき方向(正か負)を指し示す情報へと変換する処理である。非線形変換部127は、非線形変換した後の信号を更新量計算部126に出力する。
 ノルム算出部128は、マイクmDで収音された音声の音声信号のノルムを算出する。音声信号のノルムとは、過去の所定時間内の音声信号の大きさの総和であり、この時間内の信号の大きさの度合いを示す値である。更新量計算部126は、過去にマイクmDで収音された音声の音量の影響を正規化するためにノルムを用いる。一般に、音量が大きいほど適応フィルタの更新量も大きく算出されてしまうため、正規化を行わなくては、適応フィルタの特性が大きな音声の特性に過剰に影響されてしまう。実施の形態1では、ディレイ129から出力された音声信号を、ノルム算出部128が算出したノルムを用いて正規化することで適応フィルタの更新量を安定させている。
 更新量計算部126は、非線形変換部127、ノルム算出部128およびディレイ129から受け取る信号を用いて、畳み込み信号生成部123の適応フィルタ特性の更新量(具体的には、適応フィルタの係数またはタップ数の更新量)を計算する。更新量計算部126は、ディレイ129を経由した、マイクmDで収音された音声の音声信号をノルム算出部128で算出したノルムに基づき正規化する。更新量計算部126は、マイクmDで収音された音声の音声信号を正規化した結果に、非線形変換部127から得られた情報に基づき正または負の情報を付加することで更新量を決定する。実施の形態1では、更新量計算部126は、ICA(Independent Component Analysis、独立成分解析)アルゴリズムによりフィルタ特性の更新量を計算する。なお、ここでは、更新量計算部126は、適応フィルタの係数(以下、フィルタ係数という)を更新する場合を示すが、フィルタ係数の代わりに、あるいはフィルタ係数と共にタップ数を更新してもよい。
 フィルタ更新部125は、更新量計算部126、非線形変換部127およびノルム算出部128の処理を随時実行していくことで、畳み込み信号生成部123の特性を、マイクmDとマイクmAの間の伝達特性に近づける。
 フィルタ係数監視部141は、更新量計算部126で計算される、畳み込み信号生成部123のフィルタ係数(例えばフィルタ係数の変動幅)を監視し、話者分析部144に出力する。話者分析部144は、フィルタ係数の変化量、例えばフィルタ係数の時間軸上の一定時間における変動幅を監視し、この変化量が、話者が切り替わった場合の変化量の値に相当する第1閾値を超えた場合、話者の切り替わりが起きたことを判断する。
 音圧分析部142は、マイクmAで収音される音声、およびマイクmDで収音される音声を入力し、これらの音圧を話者分析部144に出力する。話者分析部144は、マイクmAで収音される音声の音圧、およびマイクmDで収音される音声の音圧の少なくとも一方の話者が切り替わった場合の変化量の値に相当する第2閾値を超えて変化した場合、話者の切り替わりが起きたことを判断する。
 抑圧量分析部143は、加算器122から出力されるクロストーク成分の抑圧後の音声信号と、マイクmAで収音された音声の音声信号とを基に、これらの差分を抑圧量として算出し、話者分析部144に出力する。話者分析部144は、抑圧量のデータを所定期間保持しておき、新たに算出された抑圧量が過去分の抑圧量から、話者状況が切り替わったことを示す第3閾値を超えて変化した場合、話者の切り替わりが起きたことを判断する。この判断は、話者が切り替わると、その瞬間から直前に使用していたフィルタ係数では、クロストークの抑圧量が下がることに基づく。
 話者分析部144は、フィルタ係数監視部141、音圧分析部142および抑圧量分析部143からの少なくも1つの入力を基に、話者の切り替わり、つまり話者状況の変化を判断し、その判断結果をフィルタリセット部145に出力する。
 ここで、話者状況(シーン)の数は、車室108z内に配置されるマイクの数が2つである場合、4(=2)通りである。音声認識の対象となる乗員Aが発話しているシーンに限ると、他の乗員による話者状況の数は、乗員Dが発話している場合と乗員Dが発話していない場合の2(=2)通りである。
 なお、話者分析部144には、乗員を撮像する車室108z内のカメラ(図示略)による撮像画像が入力されてもよい。話者分析部144は、この撮像画像に対し、顔認識を行い、例えば口を開けている乗員を話者と識別し、話者の切り替わりが起きたことを判断してもよい。また、話者分析部144は、この撮像画像に基づく話者の切り替わり情報と、フィルタ係数監視部141、音圧分析部142および抑圧量分析部143から入力した少なくも1つ以上の話者の切り替わり情報とを組み合わせて、話者の切り替わりが起きたことを総合的に判断してもよい。また、撮像画像に基づく話者の切り替わり情報を用いる場合、フィルタ係数監視部141、音圧分析部142および抑圧量分析部143の全てあるいは少なくとも1つが省かれてもよい。
 リセット部の一例としてのフィルタリセット部145は、話者分析部144から話者の切り替わりの判断結果を入力すると、畳み込み信号生成部123のフィルタ係数を初期値(例えば値0)にリセットする。フィルタ更新部125は、フィルタリセット部145によるリセット後に、初期値にリセットされた、畳み込み信号生成部123の学習を再開する。
 音声認識部146は、加算器122から出力されるクロストーク成分の抑圧後の音声信号を基に、音声認識を行い、音声認識結果として音声認識データ(例えばテキストデータ)および評価値(スコア値)を出力し、メモリ152に記憶する。例えば、音声認識部146がモニタ(図示略、例えば車両108に搭載されているカーナビゲーション装置のディスプレイ)に接続される場合、音声認識結果は、テキストとして画面に表示される。また、音声認識部146が通信装置に接続される場合、音声認識結果は、通信データとして送信される。また、音声認識部146がスピーカに接続される場合、音声認識結果は、音声として出力される。
 なお、音響クロストーク抑圧装置105は、音声認識部146を備える代わりに、ネットワークに接続可能な通信部を備え、このネットワークを介してクラウドサーバ(図示略)に対しクロストーク成分の抑圧後の音声信号に基づく音声データを送信し、クラウドサーバが音声認識を行い、クラウドサーバから音声認識結果を受信してモニタ、スピーカ等に出力してもよい。
 図3Aおよび図3Bは、変化量AR1が小さい場合におけるフィルタ係数の時間変化例を示すグラフである。グラフの縦軸はフィルタ係数を示し、横軸は時間(言い換えると、畳み込み信号生成部123を構成する適応フィルタのタップ長)を示す。更新量計算部126で計算される、畳み込み信号生成部123のフィルタ係数は、フィルタ係数監視部141によって監視される。例えば、マイクmAで収音される乗員Aの音声信号が主信号である場合、マイクmAで収音される乗員Dの音声は、マイクmAで収音される音声のクロストーク成分となる。図3Aおよび図3Bに示す特性g2は、マイクmAで収音される音声のクロストーク成分として、マイクmDで収音される乗員Dの音声を基に、マイクmAで収音される乗員Dの音声を減算するための時刻(t-Δt)でのフィルタ係数を表す。図3Aおよび図3Bに示す特性g1は、マイクmAで収音される音声のクロストーク成分として、マイクmDで収音される乗員Dの音声を基に、マイクmAで収音される乗員Dの音声を減算するための時刻tでのフィルタ係数を表す。つまり、図3Aおよび図3Bでは、特性g1,g2はともに、フィルタ係数の更新が開始された時点からフィルタ係数の更新が収束した時点までの期間(言い換えると、残響時間分)のフィルタ係数の波形として時間軸の値が一致するように示されている。なお、Δtは、設定値としての一定時間であり、例えば、少なくとも1回分の適応フィルタのフィルタ係数の更新に要する時間を示し、以下同様とする。
 図3Bでは、時刻(t-Δt)~tの間において、フィルタ係数の変化量AR1は、話者の切り替わりがあった場合の第1閾値よりも小さい。話者分析部144は、フィルタ係数の変化量AR1が第1閾値より小さいことから、話者が切り替わっておらず、つまり乗員Dが発話しておらず、話者状況は変化していないことを判断できる。
 図4Aおよび図4Bは、変化量AR2が大きい場合におけるフィルタ係数の時間変化例を示すグラフである。グラフの縦軸はフィルタ係数を示し、横軸は時間(言い換えると、畳み込み信号生成部123を構成する適応フィルタのタップ長)を示す。図4Aおよび図4Bに示す特性g4は、マイクmAで収音される音声のクロストーク成分として、マイクmDで収音される乗員Dの音声を基に、マイクmAで収音される乗員Dの音声を減算するための時刻(t-Δt)でのフィルタ係数を表す。図4Aおよび図4Bに示す特性g3は、マイクmAで収音される音声のクロストーク成分として、マイクmDで収音される乗員Dの音声を基に、マイクmAで収音される乗員Dの音声を減算するための時刻tでのフィルタ係数を表す。つまり、図4Aおよび図4Bでは、特性g3,g4はともに、フィルタ係数の更新が開始された時点からフィルタ係数の更新が収束した時点までの期間(言い換えると、残響時間分)のフィルタ係数の波形として時間軸の値が一致するように示されている。
 図4Bでは、時刻(t-Δt)~tの間における特性g3,g4間のフィルタ係数の変化量AR2は、図3Bに示される時刻(t-Δt)~tの間における特性g1,g2間のフィルタ係数の変化量AR1と比べ、第1閾値を超えて大きい。話者分析部144は、フィルタ係数の変化量AR2が第1閾値より大きいことから、話者が切り替わった、つまり乗員Dが発話したことで、マイクmAで収音される音声のクロストーク成分である、乗員Dの音声を減算するためのフィルタ係数の変化量が大きくなったと判断できる。したがって、話者分析部144は、話者状況が変化したと判断できる。
(音響クロストーク抑圧装置の動作)
 次に、実施の形態1に係る音響クロストーク抑圧装置105の動作を説明する。
 ここでは、前述したように、マイクmAで収音されるメイン話者である乗員Aが発話する音声を音声認識の対象とし、マイクmAで収音されるサブの乗員Dが発話する音声をクロストーク成分とする場合を例示して説明する。なお、マイクmDで収音される乗員Dが発話する音声を音声認識の対象とし、マイクmDで収音される乗員Aが発話する音声をクロストークとしてもよい。また、どの乗員の発話音声が音声認識対象であるかを指示するためのボタンが車両108内に配置されてよいし、他には、例えば乗員が所持するスマートフォンあるいはタブレット端末等にインストールされた専用のアプリケーションにおいて、音声認識対象の乗員を指示する操作が行われることで、音声認識対象の乗員が指定されても構わない。
 図5は、実施の形態1に係る音響クロストーク抑圧装置105の動作手順例を示すフローチャートである。図5の処理は、音響クロストーク抑圧装置105を構成するDSP110により実行され、マイクmAで収音されて音響クロストーク抑圧装置105に入力される音声の音声信号の1サンプルごとに繰り返して実行される。
 図5において、DSP110は、マイクmAで収音されたメインの乗員Aの発話による音声の音声信号を、音声認識したい主信号として取得する(S101)。音圧分析部142は、マイクmAの主信号を入力し、主信号の音圧レベルを話者分析部144に出力する。
 DSP110は、マイクmDで収音されたサブの乗員Dの発話による音声の音声信号を、参照信号として取得する(S102)。DSP110は、マイクmDで収音された音声のデータをメモリ150に記憶する。また、音圧分析部142は、マイクmDの参照信号を入力し、参照信号の音圧レベルを話者分析部144に出力する。
 話者分析部144は、主信号の音圧レベルと第2閾値(上述参照)とを比較し、また、参照信号の音圧レベルと第2閾値(上述参照)とを比較し、話者状況を分析する(S103)。
 フィルタ係数監視部141は、更新量計算部126で計算される、畳み込み信号生成部123のフィルタ係数を取得する(S104)。
 話者分析部144は、ステップS103で分析された話者状況とステップS104で取得されたフィルタ係数とを基に、話者が切り替わったか否かを判別する(S105)。話者が切り替わっている場合(S105、YES)、フィルタリセット部145は、畳み込み信号生成部123のフィルタ係数を初期値にリセットする(S106)。一方、S105で話者状況が切り替わっていない場合(S105、NO)、DSP110は、そのままステップS107の処理に進む。
 畳み込み信号生成部123は、更新量計算部126で計算されるフィルタ係数を用いてディレイ129により遅延時間分の遅延処理が施された参照信号を用いて畳み込み処理を行い、クロストーク抑圧信号を生成する(S107)。加算器122は、マイクmAで収音されたメインの乗員Aの発話による音声の音声信号から、畳み込み信号生成部123により生成されたクロストーク抑圧信号を減算し、マイクmAで収音されたメインの乗員Aの発話による音声に含まれるクロストーク成分を抑圧する。
 続けて、音響クロストーク抑圧装置105は、フィルタ学習期間であるか否かを判別する(S108)。フィルタ学習期間は、例えば、メイン話者である乗員Aの音声に含まれるクロストーク成分を抑圧するためのフィルタ係数を学習するために、メイン話者である乗員A以外の誰かが発話している期間となる。また、フィルタ学習期間でない期間は、乗員A以外の乗員が誰も発話していない期間である。フィルタ学習期間である場合(S108、YES)、フィルタ更新部125は、更新量計算部126で計算されるフィルタ係数で畳み込み信号生成部123のフィルタ係数を更新し、その更新結果をメモリ152に記憶する(S109)。一方、フィルタ学習期間でない場合(S108、NO)、音響クロストーク抑圧装置105は、そのまま図5の処理を終了する。
 実施の形態1に係る音響クロストーク抑圧装置105は、車両108内の環境において話者が切り替わったと判定された場合に、そのタイミングでフィルタ係数を初期値(例えば値0)にリセットし、フィルタ係数を再学習して使用する。これにより、新しい話者状況に応じたフィルタ係数を再学習でき、その話者状況に応じたクロストーク成分の抑圧を高精度に行うことができ、メイン話者(例えば乗員A)の発話による音声の音質が改善可能となる。また、車両108内の環境と話者状況とによっては、話者の切り替わる前に学習していたフィルタ係数を、話者の切り替わり後においても学習しながら継続使用する場合と比べ、話者の切り替わり後のフィルタ係数が収束するまでの時間が短くなることが期待できる。したがって、音響クロストーク抑圧装置105は、メイン話者(例えば乗員A)の発話音声に含まれる、他の乗員(例えば乗員D)の発話によって生じるクロストーク成分を適応的に抑圧でき、音声認識対象となる乗員Aの出力音声の音質を向上できる。
 このように、音響クロストーク抑圧装置105は、メイン話者である乗員Aを含む複数の乗員(複数人)がいる車室108z内(閉空間内)に配置された2個のマイクmA,mDのそれぞれにより収音された各音声信号に基づいて、車室108z内での話者状況を話者分析部144において分析する。音響クロストーク抑圧装置105は、メイン話者である乗員Aの音声信号に含まれる他の乗員Dの発話によるクロストーク成分の抑圧信号(つまりクロストーク抑圧信号)を生成する畳み込み信号生成部123を有し、クロストーク成分を抑圧するための畳み込み信号生成部123のフィルタ係数を更新し、その更新結果をフィルタ更新部125においてメモリ152に保持する。音響クロストーク抑圧装置105は、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、メモリ152に保持されているフィルタ係数をフィルタリセット部145においてリセットする。音響クロストーク抑圧装置105は、畳み込み信号生成部123により生成されたクロストーク成分の抑圧信号を用いて、乗員Aの音声信号に含まれるクロストーク成分を加算器122において抑圧する。フィルタ更新部125は、畳み込み信号生成部123のフィルタ係数がリセットされた後、乗員Dの音声信号に基づいてフィルタ係数を更新する。
 これにより、音響クロストーク抑圧装置105は、車室108z内にいる複数の乗員(例えば乗員A,D)の話者状況に応じて、メイン話者である乗員Aの発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、乗員Aの発話音声の音質を改善できる。また、リセットすることなくフィルタ係数を継続して使用する場合と比べ、話者状況が切り替わったと判定される度にフィルタ係数をリセットすることで、更新によるフィルタ係数の収束が早まることが期待できる。
 また、畳み込み信号生成部123は、話者状況の分析結果が直前の話者状況から切り替わっていないと判定された場合に、メモリ150に保持されている最新のフィルタ係数を用いて、クロストーク成分の抑圧信号を生成する。これにより、音響クロストーク抑圧装置105は、同様の話者状況が継続する場合には、その話者状況に応じて既に算出された適応的なクロストーク成分を継続して求めることができるのでメイン話者の発話音声に含まれるクロストーク成分を効果的に抑圧できる。
 また、話者分析部144は、2個のマイクmA,mDのそれぞれにより収音された各音声信号の音圧レベルと第2閾値(閾値の一例)との比較に応じて、車室108z(閉空間内)での話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置105は、マイクmA,mDの配置箇所と車両108内の乗員の位置とを考慮して、マイクmA,mDのそれぞれにより収音された各音声信号の大きさに応じて、話者状況が切り替わったかだけでなく、メイン話者を高精度に推定できる。
 また、話者分析部144は、畳み込み信号生成部123のフィルタ係数の時間軸上の変動量に基づいて、車室108zでの話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置105は、新たな発話(言い換えると、切り替わった新しい話者状況下でのメイン話者の発話)によりフィルタ係数が大きく変化している場合(例えば、フィルタ係数の時間軸上の一定時間における変動幅が第1閾値を超えた場合)、話者の切り替わりが起きたことを高精度に判断できる。
 また、話者分析部144は、乗員Aの音声信号に含まれるクロストーク成分の抑圧量と第3閾値(閾値の一例)との比較に応じて、車室108z内での話者状況の変更の有無を分析する。これにより、音響クロストーク抑圧装置105は、新たな発話(言い換えると、切り替わった新しい話者状況下でのメイン話者の発話)によりクロストーク成分の抑圧量が下がっている(言い換えると、これまでのクロストーク抑圧信号が効果的ではない)として、話者の切り替わりが起きたことを高精度に判断できる。
(実施の形態2)
 実施の形態1では、話者が切り替わったと判断されたタイミングで学習済みのフィルタ係数をリセットしフィルタ係数を初期値から再学習して使用した。実施の形態2では、話者の切り替わり後の話者状況に対応するフィルタ係数をメモリから読み出して使用する例を説明する。
(音響クロストーク抑圧装置の構成)
 図6は、実施の形態2に係る音響クロストーク抑圧装置105Aの機能的構成例を示すブロック図である。実施の形態2に係る音響クロストーク抑圧装置105Aにおいて、実施の形態1に係る音響クロストーク抑圧装置105と同一の構成要素については同一の符号を用いることで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 実施の形態2に係る音響クロストーク抑圧装置105Aは、同様にDSP110Aにより構成されている。音響クロストーク抑圧装置105Aは、実施の形態1に係る音響クロストーク抑圧装置105と比べ、フィルタリセット部145を省き、フィルタ係数読込部151を有する。また、フィルタ更新部125Aは、フィルタ更新部125と比べ、フィルタ係数収束判定部154およびフィルタ係数保存部153を更に含む。
 フィルタ係数収束判定部154は、更新量計算部126で計算される、フィルタ係数が収束しているか否かを判定する。フィルタ係数は、例えば一定期間におけるフィルタ係数の変動幅が所定値以内に収まっている場合、収束していると判定される。これにより、音響クロストーク抑圧装置105Aは、フィルタ係数の変動が収まった段階でフィルタ係数が収束したと判定でき、適切なタイミングでフィルタ係数の収束を把握できる。なお、フィルタ係数は、音声認識部146がクロストーク成分の抑圧後の音声に対して音声認識を行った結果、スコア値が閾値を超える場合に収束していると判定されてもよい。
 メモリの一例としてのフィルタ係数保存部153は、フィルタ係数収束判定部154によって収束していると判定されたフィルタ係数を、話者状況と関連付けて記憶する。フィルタ係数保存部153は、例えばキャッシュメモリにより構成される。ここで、乗員の前に配置されるマイクの数が2個である場合、話者状況(シーン)の数は4通りである。したがって、フィルタ係数保存部153は、4通りのフィルタ係数を記憶する。
 フィルタ係数読込部151は、話者分析部144によって分析された話者状況に対応するフィルタ係数をフィルタ係数保存部153から読み込み、フィルタ更新部125で逐次更新されるフィルタ係数の値とする。
(音響クロストーク抑圧装置の動作)
 次に、実施の形態2に係る音響クロストーク抑圧装置105Aの動作を説明する。
 図7は、実施の形態2に係る音響クロストーク抑圧装置105Aの動作手順例を示すフローチャートである。図7の説明において、実施の形態1に係る音響クロストーク抑圧装置105の動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 図7において、ステップS104の後、話者分析部144によって話者状況が変化していると判別された場合(S105、YES)、フィルタ係数読込部151は、フィルタ係数保存部153に記憶されている、話者状況に対応するフィルタ係数を読み込む(S106A)。
 ステップS106Aの後、畳み込み信号生成部123は、ステップS106Aにおいて読み込まれた話者状況に対応するフィルタ係数を用いて、参照信号に畳み込み処理を行い、クロストーク抑圧信号を生成する。加算器122は、マイクmAで収音されたメインの乗員Aの発話による音声の音声信号から、畳み込み信号生成部123により生成されたクロストーク抑圧信号を減算し、マイクmAで収音されたメインの乗員Aの発話による音声に含まれるクロストーク成分(ここでは、乗員Dの音声)を抑圧する。
 クロストーク成分の抑圧後、ステップS109において畳み込み信号生成部123のフィルタ係数が更新された後、フィルタ係数収束判定部154は、更新されたフィルタ係数の収束の有無を判定する(S110)。フィルタ係数収束判定部154は、判定の結果、フィルタ係数が収束しているか否かを判別する(S111)。フィルタ係数が収束している場合(S111、YES)、フィルタ係数保存部153は、更新された話者状況に対応するフィルタ係数を保存する(S112)。フィルタ係数は、上書きで保存されるが、上書きでなく追加的に保存されてもよい。一方、フィルタ係数が収束していない場合(S111、NO)、フィルタ係数保存部153は、フィルタ係数を保存しない。この後、DSP110は、図7の処理を終了する。
 実施の形態2に係る音響クロストーク抑圧装置105Aは、話者が切り替わった直後、切り替わった後の話者状況に関連付けて過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部123のフィルタ係数として使用する。これにより、話者の切り替わり直後から、ある程度のクロストーク成分の抑圧が期待できる。また、一定期間、フィルタ係数の変動幅が所定値以下である場合等、フィルタ係数が収束すると、音響クロストーク抑圧装置105Aは、次回、読み込まれるフィルタ係数の候補として、収束したフィルタ係数をフィルタ係数保存部153に保存する。これにより、音響クロストーク抑圧装置105Aは、フィルタ係数保存部153に保存されるフィルタ係数を、話者状況に対応する最新の学習済みのフィルタ係数として登録できる。したがって、話者の切り替わり直後から、クロストーク成分の抑圧がより一層期待できる。
 このように、音響クロストーク抑圧装置105Aは、メイン話者である乗員Aを含む複数の乗員(複数人)がいる車室108z内(閉空間内)に配置された2個のマイクmA,mDのそれぞれにより収音された各音声信号に基づいて、車室108z内での話者状況を話者分析部144において分析する。音響クロストーク抑圧装置105Aは、メイン話者である乗員Aの音声信号に含まれる他の乗員Dの発話によるクロストーク成分の抑圧信号(つまりクロストーク抑圧信号)を生成する畳み込み信号生成部123を有し、クロストーク成分を抑圧するための畳み込み信号生成部123のフィルタ係数を更新し、その更新結果をフィルタ更新部125Aにおいて話者状況と関連付けてフィルタ係数保存部153に保持する。音響クロストーク抑圧装置105Aは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、畳み込み信号生成部123により生成されたクロストーク成分の抑圧信号を用いて、乗員Aの音声信号に含まれるクロストーク成分を加算器122において抑圧する。フィルタ更新部125Aは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、話者状況の分析結果に対応するフィルタ係数を用いて、畳み込み信号生成部123によりクロストーク成分の抑圧信号を生成する。
 これにより、音響クロストーク抑圧装置105Aは、車室108z内にいる複数の乗員(例えば乗員A,D)の話者状況に応じて、メイン話者である乗員Aの発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧でき、乗員Aの発話音声の音質を改善できる。また、話者状況に対応するフィルタ係数をキャッシュメモリから読み込むことで、話者状況に拘わらずに同一のフィルタ係数を継続して更新する場合と比べ、話者状況に応じたフィルタ係数の使用によりメイン話者の発話音声の音質の改善が期待され、更に、更新されるフィルタ係数の収束が早まることが期待できる。
 また、フィルタ更新部125Aは、他の乗員Dの音声信号に基づいてフィルタ係数の更新の収束を判定した場合に、話者分析部144からの現在の話者状況と関連付けてフィルタ係数の更新の収束結果をフィルタ係数保存部153に保持する。これにより、音響クロストーク抑圧装置105Aは、次回、同じ話者状況となった場合、収束しているフィルタ係数を用いてクロストーク成分をリアルタイムに抑圧できる。
 また、フィルタ係数収束判定部154は、フィルタ係数の時間軸上の一定期間における変動幅に基づいて、フィルタ係数の更新の収束の有無を判定する。これにより、音響クロストーク抑圧装置105Aは、フィルタ係数の変動が収まった適切なタイミングでフィルタ係数の収束を判断できる。
(実施の形態1の変形例)
 実施の形態1では、話者が切り替わった場合、必ずフィルタ係数をリセットしたが、車両108等の閉空間内の環境下での話者状況によっては、フィルタ係数を必ずしもリセットしない方が良い場合が想定される。例えば、乗員Aの声が音声認識対象であり、乗員Dの声がクロストーク成分となる話者状況において、別の乗員Cが小声で加わった場合等が挙げられる。このような話者状況の変化があった場合、実施の形態1の変形例では、フィルタ係数をリセットすることなく、話者状況が変化する前のフィルタ係数を用いてクロストーク成分の抑圧が可能である。
(音響クロストーク抑圧装置の構成)
 図8は、実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの機能的構成例を示すブロック図である。実施の形態1の変形例に係る音響クロストーク抑圧装置105Bにおいて、実施の形態1に係る音響クロストーク抑圧装置105と同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 実施の形態1の変形例に係る音響クロストーク抑圧装置105Bは、同様にDSP110Bにより構成される。音響クロストーク抑圧装置105Bは、実施の形態1に係るDSP110の機能的構成の他に、加算器222、フィルタ更新部225、および出力選択部230を更に有する。
 クロストーク抑圧部の一例としての加算器222は、加算器122と同様に、マイクmAで収音されたメインの乗員Aの発話による音声の音声信号から、フィルタ更新部225で生成されたクロストーク抑圧信号を減算することで、マイクmAで収音されたメインの乗員Aの発話による音声に含まれるクロストーク成分(例えば乗員Dの音声)を抑圧する。
 フィルタ更新部225は、マイクmAで収音されたクロストーク抑圧後の音声信号と、マイクmDで収音されて遅延時間分ずれた参照信号とに基づいて、マイクmAで収音された音声に含まれるクロストーク成分を抑圧(減算)するためのクロストーク抑圧信号を生成する。フィルタ更新部225は、畳み込み信号生成部223、更新量計算部226、非線形変換部227、およびノルム算出部228を有する。
 畳み込み信号生成部223、更新量計算部226、非線形変換部227、およびノルム算出部228の機能は、それぞれ畳み込み信号生成部123、更新量計算部126、非線形変換部127、およびノルム算出部128と同様であるため、それぞれの説明を省略する。ただし、フィルタ更新部225は、話者の切り替わりがあったと判定された場合でも、畳み込み信号生成部223のフィルタ係数をリセットすることなく使用する。
 出力選択部230は、話者が切り替わっていないと判定された場合に、フィルタ更新部125またはフィルタ更新部225で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク抑圧後の音声信号を選択する。出力選択部230は、話者が切り替わったと判定された場合に、切り替わった後の話者状況を基に、フィルタ係数をリセットする実施の形態1に係るフィルタ更新部125を用いたクロストーク成分の抑圧後の音声信号、またはフィルタ係数をリセットしないフィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号を選択する。
 クロストーク成分の抑圧後の音声信号を選択する際、出力選択部230は、所定の判断基準を基に、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部230は、音声認識部146による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部230は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部230は、ユーザの切替操作にしたがい、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125を用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。
 また、出力選択部230は、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。例えば、乗員Aの声が音声認識対象であり、乗員Dの声がクロストークである話者状況において、別の乗員Cが小声で加わった場合等では、出力選択部230は、フィルタ更新部225で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク成分の抑圧後の音声信号を選択する。一方、乗員Cと乗員Dの声の音量に大きな差が無い場合、出力選択部230は、フィルタ更新部125で生成されるクロストーク抑圧信号を用いて抑圧された、クロストーク成分の抑圧後の音声信号を選択する。
(音響クロストーク抑圧装置の動作)
 図9は、実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの動作手順例を示すフローチャートである。図9の説明において、実施の形態1に係る音響クロストーク抑圧装置105の動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 図9において、ステップS102の後、話者分析部144によって話者状況が分析されると、音響クロストーク抑圧装置105Bは、実施の形態1と同様、ステップS104~S109の一連の処理を実行する。つまり、音響クロストーク抑圧装置105Bは、話者状況が変化した(切り替わった)と判定された場合にフィルタ係数を初期値にリセットし、切り替わった話者状況に応じてフィルタ係数を再学習しながら畳み込み信号生成部123を使用してマイクmAで収音された音声信号(主信号)からクロストーク成分の抑圧を行う。
 また、音響クロストーク抑圧装置105Bは、ステップS104~S109の一連処理と並行してステップS121~S124の処理を行う。つまり、音響クロストーク抑圧装置105Bは、話者状況が変化した(切り替わった)と判定された場合でも、フィルタ係数をリセットすることなくフィルタ係数を必要に応じて学習しながら畳み込み信号生成部223を使用してマイクmAで収音された音声信号(主信号)からクロストーク成分の抑圧を行う。
 具体的には、フィルタ更新部225は、更新量計算部226で計算される、畳み込み信号生成部223のフィルタ係数を取得する(S121)。畳み込み信号生成部223は、更新量計算部226で計算されるフィルタ係数を用いて参照信号に畳み込み処理を行い、クロストーク抑圧信号を生成する(S122)。加算器222は、マイクmAで収音された音声の音声信号から、畳み込み信号生成部223により生成されたクロストーク抑圧信号を抑圧(減算)し、マイクmAで収音された音声に含まれるクロストーク成分を抑圧する。
 続けて、音響クロストーク抑圧装置105Bは、フィルタ学習期間であるか否かを判別する(S123)。フィルタ学習期間は、例えば、メイン話者である乗員Aの音声に含まれるクロストーク成分を抑圧するためのフィルタ係数を学習するために、メイン話者である乗員A以外の誰かが発話している期間となる。また、フィルタ学習期間でない期間は、乗員A以外の乗員が誰も発話していない期間である。フィルタ学習期間である場合(S123、YES)、フィルタ更新部225は、更新量計算部226で計算されるフィルタ係数で畳み込み信号生成部223のフィルタ係数を更新し、その更新結果をメモリ152に記憶する(S124)。一方、フィルタ学習期間でない場合(S123、NO)、音響クロストーク抑圧装置105Bは、畳み込み信号生成部223のフィルタ係数を更新しない。
 出力選択部230は、畳み込み信号生成部123を使用したクロストーク成分の抑圧後の音声信号と、畳み込み信号生成部223を使用したクロストーク成分の抑圧後の音声信号とのいずれかを選択する(S125)。この後、音響クロストーク抑圧装置105Bは、図9の動作を終了する。
 実施の形態1の変形例に係る音響クロストーク抑圧装置105Bは、フィルタ更新部225を用いたクロストーク抑圧後の音声信号と、フィルタ更新部125を用いたクロストーク抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置105Bは、音声認識部146による音声認識の結果、スコア値が高い方のクロストーク抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置105Bは、フィルタ係数が収束するまでの時間が短い方のクロストーク抑圧後の音声信号を選択することで、対象となる音声の音質が安定するまでの時間を短縮できる。
 このように、音響クロストーク抑圧装置105Bは、乗員Aの音声信号に含まれる乗員Dの発話によるクロストーク抑圧信号(クロストーク成分の第2抑圧信号の一例)を生成する畳み込み信号生成部223(第2フィルタの一例)を有し、クロストーク成分を抑圧するための畳み込み信号生成部223のフィルタ係数を更新し、その更新結果をフィルタ更新部225(第2フィルタ更新部の一例)においてメモリ152に保持する。音響クロストーク抑圧装置105Bは、畳み込み信号生成部223により生成されたクロストーク抑圧信号を用いて、乗員Aの音声信号に含まれるクロストーク成分を加算器222(第2クロストーク抑圧部の一例)において抑圧する。音響クロストーク抑圧装置105Bは、加算器122からのクロストーク抑圧後の音声信号(第1出力信号の一例)と加算器222からのクロストーク抑圧後の音声信号(第2出力信号の一例)とのうちいずれかを出力選択部230において選択して出力する。
 これにより、音響クロストーク抑圧装置105Bは、話者状況が変化した時にリセットされたフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時にリセットされないフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号とを選択して出力できる。したがって、音響クロストーク抑圧装置105Bは、例えば、乗員Aの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。
 また、出力選択部230は、クロストーク成分が抑圧された乗員Aの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置105Bは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Aの発話音声の音質が高くなる。
(実施の形態2の変形例)
 実施の形態2の変形例では、実施の形態1の変形例と同様、車両108等の閉空間内の環境下での話者状況によっては、話者の切り替わりがあったと判定された場合に、音響クロストーク抑圧装置105Cは、変化後の話者状況に対応したフィルタ係数をフィルタ係数保存部153B(図12参照)から読み込むことなく、話者状況の変化前のフィルタ係数を用いてクロストーク成分を抑圧することも可能である。
(音響クロストーク抑圧装置の構成)
 図10は、実施の形態2の変形例に係る音響クロストーク抑圧装置105Cの機能的構成例を示すブロック図である。実施の形態2の変形例に係る音響クロストーク抑圧装置105Cにおいて、実施の形態2に係る音響クロストーク抑圧装置105A、および実施の形態1の変形例に係る音響クロストーク抑圧装置105Bと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 実施の形態2の変形例に係る音響クロストーク抑圧装置105Cは、同様にDSP110Cにより構成される。音響クロストーク抑圧装置105Cは、実施の形態2に係るDSP110Aの機能的構成の他に、実施の形態1の変形例と同様、加算器222、フィルタ更新部225、および出力選択部230を更に有する。
 出力選択部230は、実施の形態1の変形例と同様の方法で、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125Aを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。
 出力選択部230は、所定の判断基準を基に、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125Aを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部230は、音声認識部146による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部230は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部230は、実施の形態1の変形例と同様、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部230は、ユーザの切替操作にしたがい、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125Aを用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。
(音響クロストーク抑圧装置の動作)
 図11は、実施の形態2の変形例に係る音響クロストーク抑圧装置105Cの動作手順例を示すフローチャートである。図11の説明において、実施の形態2に係る音響クロストーク抑圧装置105Aの動作あるいは実施の形態1の変形例に係る音響クロストーク抑圧装置105Bの動作と同一の処理については、同一のステップ番号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 図11において、ステップS102の後、話者分析部144によって話者状況が分析されると、音響クロストーク抑圧装置105Cは、実施の形態2と同様に、ステップS104~S112の一連の処理を実行する。つまり、音響クロストーク抑圧装置105Cは、話者状況が変化した(切り替わった)と判定された場合に過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部123を使用してクロストーク成分の抑圧を行う。また、音響クロストーク抑圧装置105Cは、ステップS104~S112の一連の処理と並行し、実施の形態1の変形例と同様に、ステップS121~S124の一連の処理を行う。つまり、音響クロストーク抑圧装置105Cは、過去に学習済みのフィルタ係数を読み込むことなく、畳み込み信号生成部223を使用してクロストーク成分の抑圧を行う。
 ステップS125において、出力選択部230は、フィルタ更新部125Aを用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。
 実施の形態2の変形例に係る音響クロストーク抑圧装置105Cは、フィルタ更新部125Aを用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部225を用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置105Cは、音声認識部146による音声認識の結果、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置105Cは、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識対象となるメイン話者(例えば乗員A)の発話による音声の音質が安定するまでの時間を短縮できる。
 このように、音響クロストーク抑圧装置105Cは、乗員Aの音声信号に含まれる乗員Dの発話によるクロストーク抑圧信号(クロストーク成分の第2抑圧信号の一例)を生成する畳み込み信号生成部223(第2フィルタの一例)を有し、クロストーク成分を抑圧するための畳み込み信号生成部223のフィルタ係数を更新し、その更新結果をフィルタ更新部225においてメモリ152に保持する。音響クロストーク抑圧装置105Cは、畳み込み信号生成部223により生成されたクロストーク抑圧信号を用いて、乗員Aの音声信号に含まれるクロストーク成分を加算器222において抑圧する。音響クロストーク抑圧装置105Cは、加算器122からのクロストーク抑圧後の音声信号(第1出力信号の一例)と加算器222からのクロストーク抑圧後の音声信号(第2出力信号の一例)とのうちいずれかを出力選択部230において選択して出力する。
 これにより、音響クロストーク抑圧装置105Cは、話者状況が変化した時にフィルタ係数保存部153(例えばキャッシュメモリ)に保持された話者状況に対応するフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時に読み込まれないフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号とを選択して出力できる。したがって、音響クロストーク抑圧装置105Cは、例えば乗員Aの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。
 また、出力選択部230は、クロストーク成分が抑圧された乗員Aの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置105Cは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Aの発話音声の音質が高くなる。
(実施の形態3)
 実施の形態3では、実施の形態1に示した、話者が切り替わった場合にフィルタ係数を初期値にリセットして再学習する方法と、実施の形態2に示した、過去に学習済みのフィルタ係数を読み込む方法とを、音響クロストーク抑圧装置が選択可能である場合を示す。
(音響クロストーク抑圧装置の構成)
 図12は、実施の形態3に係る音響クロストーク抑圧装置105Dの機能的構成例を示すブロック図である。音響クロストーク抑圧装置105Dは、実施の形態1に係る音響クロストーク抑圧装置105および実施の形態2に係る音響クロストーク抑圧装置105Aの機能的構成の他に、出力選択部230を更に有する。音響クロストーク抑圧装置105Dにおいて、実施の形態1に係る音響クロストーク抑圧装置105および実施の形態2に係る音響クロストーク抑圧装置105Aと同一の構成要素については、同一の符号を付すことで、その説明を簡略化あるいは省略し、異なる内容について説明する。例えば、実施の形態2の加算器122と、実施の形態3の加算器122Bとは、同一の構成である。また、実施の形態2のフィルタ更新部125Aと、実施の形態3のフィルタ更新部125Bとは、同一の構成である。その他の各部においても同様であるとして説明を省略する。
 出力選択部230は、所定の判断基準を基に、フィルタ更新部125を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125Bを用いたクロストーク成分の抑圧後の音声信号とのいずれかを選択する。例えば、出力選択部230は、音声認識部146による音声認識の結果、スコア値が高い方のクロストーク抑圧後の音声信号を選択してもよい。また、出力選択部230は、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択してもよい。また、出力選択部230は、実施の形態1の変形例と同様、話者状況によってクロストーク成分の抑圧後の音声信号を選択してもよい。なお、出力選択部230は、ユーザの切替操作にしたがい、フィルタ更新部125を用いたクロストーク成分の抑圧後の音声信号と、フィルタ更新部125Bを用いたクロストーク成分の抑圧後の音声信号とのいずれかを事前に選択してもよい。
(音響クロストーク抑圧装置の動作)
 図13は、実施の形態3に係る音響クロストーク抑圧装置105Dの動作手順例を示すフローチャートである。図13の説明において、実施の形態1に係る音響クロストーク抑圧装置105の動作あるいは実施の形態2に係る音響クロストーク抑圧装置105Aの動作と同一の処理については、同一のステップ番号を付することで、その説明を簡略化あるいは省略し、異なる内容について説明する。
 図13において、ステップS102の後、話者分析部144によって話者状況が分析されると、音響クロストーク抑圧装置105Dは、実施の形態1のステップS104~S109の一連の処理を実行する。つまり、音響クロストーク抑圧装置105Dは、話者状況が変化した(切り替わった)と判定された場合にフィルタ係数を初期値にリセットしてファイル係数を再学習しながら畳み込み信号生成部123を使用してクロストーク成分の抑圧を行う。また、音響クロストーク抑圧装置105Dは、ステップS104~S109の一連の処理と並行し、実施の形態2と同様に、ステップS104B~S112Bの一連の処理を実行する。つまり、音響クロストーク抑圧装置105Dは、話者状況が変化した(切り替わった)と判定された場合に過去に学習済みのフィルタ係数を読み込み、畳み込み信号生成部123Bを使用してクロストーク成分の抑圧を行う。
 ステップS125において、出力選択部230は、畳み込み信号生成部123を使用した、実施の形態1のクロストーク成分の抑圧後の音声信号と、畳み込み信号生成部123Bを使用した、実施の形態2のクロストーク成分の抑圧後の音声信号とのいずれかを選択する。
 実施の形態3に係る音響クロストーク抑圧装置105Dは、実施の形態1のクロストーク成分の抑圧後の音声信号と、実施の形態2のクロストーク成分の抑圧後の音声信号とのいずれかを選択できる。したがって、例えば、音響クロストーク抑圧装置105Dは、スコア値が高い方のクロストーク成分の抑圧後の音声信号を選択することで、音声認識率を高めることができ、発話音声の音質が向上する。また、音響クロストーク抑圧装置105Dは、フィルタ係数が収束するまでの時間が短い方のクロストーク成分の抑圧後の音声信号を選択することで、対象となる音声の音質が安定するまでの時間を短縮できる。
 このように、音響クロストーク抑圧装置105Dは、乗員Aの音声信号に含まれる乗員Dの発話によるクロストーク抑圧信号(クロストーク成分の第2抑圧信号の一例)を生成する畳み込み信号生成部123B(第2フィルタ)を有し、クロストーク成分を抑圧するための畳み込み信号生成部123Bのフィルタ係数を更新し、その更新結果をフィルタ更新部125Bにおいて話者状況と関連付けてフィルタ係数保存部153B(第2メモリの一例)に保持する。音響クロストーク抑圧装置105Dは、畳み込み信号生成部123Bにより生成されたクロストーク抑圧信号を用いて、乗員Aの音声信号に含まれるクロストーク成分を加算器122B(第2クロストーク抑圧部の一例)において抑圧する。音響クロストーク抑圧装置105Dは、加算器122からのクロストーク抑圧後の音声信号(第1出力信号の一例)と加算器122Bからのクロストーク抑圧後の音声信号(第2出力信号の一例)とのうちいずれかを出力選択部230において選択して出力する。フィルタ更新部125Bは、話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、話者状況の分析結果に対応する畳み込み信号生成部123Bのフィルタ係数を用いて、畳み込み信号生成部123Bによりクロストーク抑圧信号を生成する。
 これにより、音響クロストーク抑圧装置105Dは、話者状況が変化した時にリセットされたフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、話者状況が変化した時にキャッシュメモリに保持された話者状況に対応するフィルタ係数を使用してクロストーク成分が抑圧されたクロストーク抑圧後の音声信号と、を選択して出力できる。したがって、音響クロストーク抑圧装置105Dは、例えば、乗員Aの音声の音質が良い方のクロストーク抑圧後の音声信号を選択可能である。
 また、出力選択部230は、クロストーク成分が抑圧された乗員Aの音声信号を音声認識した結果を基に、クロストーク抑圧後の音声信号を選択して出力する。これにより、音響クロストーク抑圧装置105Dは、音声認識のスコア値が高い方の信号を選択できる。したがって、乗員Aの発話音声の音質が高くなる。
 以上、図面を参照しながら各種の実施の形態について説明したが、本開示はかかる例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例、修正例、置換例、付加例、削除例、均等例に想到し得ることは明らかであり、それらについても当然に本開示の技術的範囲に属するものと了解される。また、発明の趣旨を逸脱しない範囲において、上述した各種の実施の形態における各構成要素を任意に組み合わせてもよい。
 例えば、上述した実施の形態では、車室内に配置されるマイクの数が2個である場合を示したが、3個以上の数のマイクが車室内に配置されてもよい。この場合、音響クロストーク抑圧装置105,105A,105B,105C,105Dは、主信号を入力するマイクを除く、マイクの数だけディレイおよびフィルタ更新部の組を備える。例えば、マイクの数が4個である場合、音響クロストーク抑圧装置105,105A,105B,105C,105Dには、3組のディレイおよびフィルタ更新部の組み合わせに相当する構成が設けられる。
 なお、本出願は、2019年11月21日出願の日本特許出願(特願2019-210689)に基づくものであり、その内容は本出願の中に参照として援用される。
 本開示は、音響クロストーク抑圧装置において、車室等の閉空間に存在する複数の乗員の話者状況に応じて、メイン話者の発話音声に含まれ得る音響的なクロストーク成分を適応的に抑圧し、メイン話者の発話音声の音質を改善する音響クロストーク抑圧装置および音響クロストーク抑圧方法として有用である。
105、105A、105B、105C、105D 音響クロストーク抑圧装置
108 車両
108z 車室
122、222 加算器
123、123B、223 畳み込み信号生成部
125、125A、125B、225 フィルタ更新部
126、126B、226 更新量計算部
127、127B、227 非線形変換部
128、128B、228 ノルム算出部
129 ディレイ
141、141B フィルタ係数監視部
142 音圧分析部
143 抑圧量分析部
144 話者分析部
145 フィルタリセット部
146 音声認識部
150、152 メモリ 
151、151B フィルタ係数読込部
153 フィルタ係数保存部
154、154B フィルタ係数収束判定部
230 出力選択部
mA、mD マイク

Claims (14)

  1.  メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
     前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果をメモリに保持するフィルタ更新部と、
     前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットするリセット部と、
     前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
     前記フィルタ更新部は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて前記フィルタのパラメータを更新する、
     音響クロストーク抑圧装置。
  2.  前記フィルタは、前記話者状況の分析結果が前記直前の話者状況から切り替わっていないと判定された場合に、前記メモリに保持されている最新の前記フィルタのパラメータを用いて、前記抑圧信号を生成する、
     請求項1に記載の音響クロストーク抑圧装置。
  3.  メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析する話者分析部と、
     前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタを有し、前記クロストーク成分を抑圧するための前記フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持するフィルタ更新部と、
     前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧するクロストーク抑圧部と、を備え、
     前記フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて、前記フィルタにより前記抑圧信号を生成する、
     音響クロストーク抑圧装置。
  4.  前記フィルタ更新部は、前記他の話者の音声信号に基づいて前記フィルタのパラメータの更新の収束を判定した場合に、前記話者分析部からの現在の話者状況と関連付けて前記パラメータの更新の収束結果を前記メモリに保持する、
     請求項3に記載の音響クロストーク抑圧装置。
  5.  前記フィルタ更新部は、前記パラメータの時間軸上の一定期間における変動幅に基づいて、前記パラメータの更新の収束の有無を判定する、
     請求項4に記載の音響クロストーク抑圧装置。
  6.  前記話者分析部は、前記複数のマイクのそれぞれにより収音された各音声信号のレベルと閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
     請求項1に記載の音響クロストーク抑圧装置。
  7.  前記話者分析部は、前記フィルタのパラメータの時間軸上の変動量に基づいて、前記閉空間内での話者状況の変更の有無を分析する、
     請求項1に記載の音響クロストーク抑圧装置。
  8.  前記話者分析部は、前記メイン話者の音声信号に含まれる前記クロストーク成分の抑圧量と閾値との比較に応じて、前記閉空間内での話者状況の変更の有無を分析する、
     請求項1に記載の音響クロストーク抑圧装置。
  9.  前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果をメモリに保持する第2フィルタ更新部と、
     前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
     前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備える、
     請求項1に記載の音響クロストーク抑圧装置。
  10.  前記メイン話者の音声信号に含まれる前記他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果をメモリに保持する第2フィルタ更新部と、
     前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
     前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備える、
     請求項3に記載の音響クロストーク抑圧装置。
  11.  前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の第2抑圧信号を生成する第2フィルタを有し、前記クロストーク成分を抑圧するための前記第2フィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けて第2メモリに保持する第2フィルタ更新部と、
     前記第2フィルタにより生成された前記第2抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧する第2クロストーク抑圧部と、
     前記クロストーク抑圧部からの第1出力信号と前記第2クロストーク抑圧部からの第2出力信号とのうちいずれかを選択して出力する出力選択部と、を備え、
     前記第2フィルタ更新部は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記第2フィルタのパラメータを用いて、前記第2フィルタにより前記第2抑圧信号を生成する、
     請求項1に記載の音響クロストーク抑圧装置。
  12.  前記出力選択部は、前記クロストーク成分が抑圧された前記メイン話者の音声信号を音声認識した結果を基に、前記第1出力信号または前記第2出力信号を選択して出力する、
     請求項9~11のうちいずれか一項に記載の音響クロストーク抑圧装置。
  13.  音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
     メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
     前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果をメモリに保持し、
     前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記メモリに保持されている前記フィルタのパラメータをリセットし、
     前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
     前記パラメータの更新は、前記フィルタのパラメータがリセットされた後、前記他の話者の音声信号に基づいて実行される、
     音響クロストーク抑圧方法。
  14.  音響クロストーク抑圧装置により実行される音響クロストーク抑圧方法であって、
     メイン話者を含む複数人がいる閉空間内に配置された複数のマイクのそれぞれにより収音された各音声信号に基づいて、前記閉空間内での話者状況を分析し、
     前記メイン話者の音声信号に含まれる他の話者の発話によるクロストーク成分の抑圧信号を生成するフィルタのパラメータを更新し、その更新結果を前記話者状況と関連付けてメモリに保持し、
     前記フィルタにより生成された前記抑圧信号を用いて、前記メイン話者の音声信号に含まれる前記クロストーク成分を抑圧し、
     前記抑圧信号の生成は、前記話者状況の分析結果が直前の話者状況から切り替わったと判定された場合に、前記話者状況の分析結果に対応する前記フィルタのパラメータを用いて実行される、
     音響クロストーク抑圧方法。
PCT/JP2020/042674 2019-11-21 2020-11-16 音響クロストーク抑圧装置および音響クロストーク抑圧方法 WO2021100670A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202080080996.5A CN114730565A (zh) 2019-11-21 2020-11-16 声响串扰抑制装置和声响串扰抑制方法
US17/778,299 US20230026003A1 (en) 2019-11-21 2020-11-16 Sound crosstalk suppression device and sound crosstalk suppression method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2019-210689 2019-11-21
JP2019210689A JP7486145B2 (ja) 2019-11-21 2019-11-21 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Publications (1)

Publication Number Publication Date
WO2021100670A1 true WO2021100670A1 (ja) 2021-05-27

Family

ID=75965095

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/042674 WO2021100670A1 (ja) 2019-11-21 2020-11-16 音響クロストーク抑圧装置および音響クロストーク抑圧方法

Country Status (4)

Country Link
US (1) US20230026003A1 (ja)
JP (1) JP7486145B2 (ja)
CN (1) CN114730565A (ja)
WO (1) WO2021100670A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2023012772A (ja) * 2021-07-14 2023-01-26 アルプスアルパイン株式会社 車内コミュニケーション支援システム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039108A (ja) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> 特定話者音声出力装置及び特定話者判定プログラム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2015014675A (ja) * 2013-07-04 2015-01-22 株式会社日立システムズ 音声認識装置、方法、プログラム、システム及び端末
WO2017064840A1 (ja) * 2015-10-16 2017-04-20 パナソニックIpマネジメント株式会社 音源分離装置および音源分離方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6674864B1 (en) * 1997-12-23 2004-01-06 Ati Technologies Adaptive speaker compensation system for a multimedia computer system
JP4561222B2 (ja) * 2004-07-30 2010-10-13 日産自動車株式会社 音声入力装置
JP4649905B2 (ja) * 2004-08-02 2011-03-16 日産自動車株式会社 音声入力装置
JP2006173871A (ja) * 2004-12-14 2006-06-29 Matsushita Electric Ind Co Ltd 音響エコーキャンセラとそれを用いたハンズフリー電話及び音響エコーキャンセル方法
JP5386936B2 (ja) * 2008-11-05 2014-01-15 ヤマハ株式会社 放収音装置
JP5251808B2 (ja) * 2009-09-24 2013-07-31 富士通株式会社 雑音除去装置
US9100734B2 (en) * 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
US9641934B2 (en) * 2012-01-10 2017-05-02 Nuance Communications, Inc. In-car communication system for multiple acoustic zones
US10542154B2 (en) * 2015-10-16 2020-01-21 Panasonic Intellectual Property Management Co., Ltd. Device for assisting two-way conversation and method for assisting two-way conversation
US10002601B2 (en) * 2015-12-30 2018-06-19 Qualcomm Incorporated In-vehicle communication signal processing
US10446171B2 (en) * 2016-12-23 2019-10-15 Synaptics Incorporated Online dereverberation algorithm based on weighted prediction error for noisy time-varying environments
US9881632B1 (en) * 2017-01-04 2018-01-30 2236008 Ontario Inc. System and method for echo suppression for in-car communications
JP6635394B1 (ja) * 2019-01-29 2020-01-22 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006039108A (ja) * 2004-07-26 2006-02-09 Nippon Hoso Kyokai <Nhk> 特定話者音声出力装置及び特定話者判定プログラム
JP2011248025A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> チャネル統合方法、チャネル統合装置、プログラム
JP2015014675A (ja) * 2013-07-04 2015-01-22 株式会社日立システムズ 音声認識装置、方法、プログラム、システム及び端末
WO2017064840A1 (ja) * 2015-10-16 2017-04-20 パナソニックIpマネジメント株式会社 音源分離装置および音源分離方法

Also Published As

Publication number Publication date
CN114730565A (zh) 2022-07-08
US20230026003A1 (en) 2023-01-26
JP2021081654A (ja) 2021-05-27
JP7486145B2 (ja) 2024-05-17

Similar Documents

Publication Publication Date Title
Luo et al. Real-time single-channel dereverberation and separation with time-domain audio separation network.
US9264807B2 (en) Multichannel acoustic echo reduction
JP5444472B2 (ja) 音源分離装置、音源分離方法、及び、プログラム
US11676617B2 (en) Acoustic noise suppressing apparatus and acoustic noise suppressing method
US20220415337A1 (en) Acoustic crosstalk suppression device and acoustic crosstalk suppression method
WO2021100670A1 (ja) 音響クロストーク抑圧装置および音響クロストーク抑圧方法
JP6650607B2 (ja) 音響エコー抑圧装置及び音響エコー抑圧方法
US7085685B2 (en) Device and method for filtering electrical signals, in particular acoustic signals
JP2020134566A (ja) 音声処理システム、音声処理装置及び音声処理方法
CN114402630B (zh) 声音处理系统和声音处理装置
US12039965B2 (en) Audio processing system and audio processing device
JP7486153B2 (ja) 音声処理装置および音声処理方法
JP7493158B2 (ja) 音声処理装置および音声処理方法
JP2021135311A (ja) 音声処理装置および音声処理方法
JP6956929B2 (ja) 情報処理装置、制御方法、及び制御プログラム
US20240196145A1 (en) Acoustic interference suppression through speaker-aware processing
JP2022026270A (ja) 音声処理システム、音声処理装置、及び音声処理方法
US20210233552A1 (en) Sound collection loudspeaker apparatus, method and program for the same

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20890169

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20890169

Country of ref document: EP

Kind code of ref document: A1