WO2023149015A1 - 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム - Google Patents

音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム Download PDF

Info

Publication number
WO2023149015A1
WO2023149015A1 PCT/JP2022/037014 JP2022037014W WO2023149015A1 WO 2023149015 A1 WO2023149015 A1 WO 2023149015A1 JP 2022037014 W JP2022037014 W JP 2022037014W WO 2023149015 A1 WO2023149015 A1 WO 2023149015A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
audio
unit
speech
level
Prior art date
Application number
PCT/JP2022/037014
Other languages
English (en)
French (fr)
Inventor
智史 山梨
南生也 持木
裕 番場
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2023149015A1 publication Critical patent/WO2023149015A1/ja
Priority to US18/651,162 priority Critical patent/US20240282325A1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • the present disclosure relates to an audio processing device, an audio processing method, an audio processing program, and an audio processing system.
  • a speech processing system processes speech recognition commands based on speech uttered by a speaker.
  • the first speech recognition unit recognizes the sound picked up by the microphone
  • the second speech recognition unit recognizes the sound output from the speaker.
  • a configuration is disclosed that stops recognition by the first speech recognition unit when the speech recognized by the second speech recognition unit includes a speech recognition command (for example, see Patent Document 1).
  • An object of the present disclosure is to provide a speech processing device, a speech processing method, a speech processing program, and a speech processing system that can suppress erroneous detection of speech recognition.
  • a speech processing device includes a speech acquisition unit, a determination unit, a speech processing unit, and a switching unit.
  • the audio acquisition unit acquires an audio signal from a microphone that picks up spatial audio.
  • the determination unit determines whether or not the level of a reference signal, which is a reproduction signal reproduced from a speaker emitting sound in the space, is equal to or higher than a threshold.
  • the speech processing unit outputs a removal signal obtained by removing the speech component of the reference signal from the speech signal to the speech recognition unit as an output signal.
  • the switching unit outputs a replacement signal, which is at least one of comfort noise and a mute signal, as the output signal to the speech recognition unit in place of the removal signal when the level of the reference signal is determined to be equal to or higher than the threshold.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a speech processing system according to this embodiment.
  • FIG. 2 is a hardware configuration diagram of an example of the audio processing device.
  • FIG. 3 is a block diagram showing an example of the configuration of the audio processing device.
  • FIG. 4 is a flowchart showing an example of the flow of information processing executed by the speech processing device of this embodiment.
  • FIG. 1 is a diagram showing an example of a schematic configuration of a speech processing system 1 of this embodiment.
  • the speech processing system 1 is a system for recognizing speech in space.
  • the space is the space in the vehicle interior of the vehicle 2
  • a form in which the voice processing system 1 is mounted in the vehicle 2 will be described as an example. Note that the space is not limited to the interior of the vehicle 2 .
  • the voice processing system 1 includes a microphone MC, a speaker SP, a voice processing device 10, a sound source device 30, a voice recognition section 40, an electronic device 50, and a display 60.
  • Microphone MC, speaker SP, speech recognition unit 40, display 60, and speech processing device 10 are communicably connected.
  • the voice processing system 1 may be configured to include at least the microphone MC, the speaker SP, the voice processing device 10, and the voice recognition section 40.
  • the microphone MC picks up the sound of the space.
  • the microphone MC picks up at least the sound of the space inside the vehicle 2 .
  • the microphone MC is provided in the vicinity of the driver's seat, which is the seat of the driver hm1 of the vehicle 2 . Therefore, in the present embodiment, the microphone MC picks up the voice including at least the voice component uttered by the driver hm1.
  • the vehicle 2 may have a configuration in which a plurality of microphones MC are provided. In this case, it is preferable that these multiple microphones MC are arranged at mutually different positions in the cabin of the vehicle 2 . Specifically, for example, the microphones MC may be arranged near the seats of the driver hm1, the passenger hm2, the passenger hm3, and the passenger hm3 of the vehicle 2, respectively. In the present embodiment, a mode in which one microphone MC is provided in the vehicle 2 will be described as an example.
  • the microphone MC may be either a directional microphone or an omnidirectional microphone.
  • the microphone MC may be either a small MEMS (Micro Electro Mechanical Systems) microphone or an ECM (Electret Condenser Microphone).
  • Microphone MC may be a beamforming microphone.
  • the microphone MC may be a microphone array that has directivity in a specific direction and is capable of picking up sound in the directional direction.
  • the microphone MC outputs an audio signal of the collected audio to the audio processing device 10 .
  • the voice processing device 10 is provided in association with the microphone MC. Therefore, when the audio processing system 1 is configured to include multiple microphones MC, the audio processing system 1 may be configured to include multiple audio processing devices 10 corresponding to each of the multiple microphones MC. In this embodiment, an example will be described in which the audio processing system 1 includes one microphone MC and one audio processing device 10 communicably connected to the microphone MC.
  • the speaker SP emits sound into the same space as the sound pickup target space of the microphone MC. In this embodiment, the speaker SP emits sound at least to the space inside the vehicle 2 .
  • a mode in which four speakers SP, namely speakers SP1 to SP4, are arranged in the vehicle interior of the vehicle 2 will be described as an example.
  • the audio processing system 1 may be configured to include at least one speaker SP, and the number and arrangement positions of the speakers SP are not limited.
  • a speaker SP1, a speaker SP2, a speaker SP3, and a speaker SP4 are arranged near the seats of the driver hm1, the passenger hm2, the passenger hm3, and the passenger hm3 in the cabin of the vehicle 2, respectively.
  • the form will be described as an example. Note that when these speakers SP1 to SP4 are collectively described, they are simply referred to as the speaker SP.
  • the speaker SP is electrically connected to the sound source device 30.
  • the speaker SP emits sound represented by the reproduction signal received from the sound source device 30 .
  • a reproduction signal is a signal output from the sound source device 30 to the speaker SP.
  • the speaker SP emits sound corresponding to the reproduction signal received from the sound source device 30 .
  • the speaker SP emits sound with a volume corresponding to the level of the reproduction signal received from the sound source device 30 . That is, in this embodiment, the level means the level of a signal, and specifically means the volume of sound represented by the signal.
  • the sound source device 30 is, for example, a radio receiving device, a television broadcasting device, an audio device, or the like.
  • the radio receiver receives a radio broadcast signal, generates a reproduced signal from the received radio broadcast signal, and outputs the reproduced signal to the speaker SP.
  • the reproduced signal is, for example, a radio audio signal of radio audio.
  • the television broadcasting apparatus receives a television broadcasting signal, generates a reproduction signal from the received television broadcasting signal, and outputs it to the speaker SP.
  • the reproduced signal is, for example, a television audio signal of television audio.
  • the audio device outputs a reproduced signal such as an audio signal recorded in a memory or the like to the speaker SP.
  • the reproduced signal is, for example, an audio signal.
  • the sound source device 30 generates 4-channel reproduction signals in order to use the 4 speakers SP (speakers SP1 to speakers SP4) and outputs them as reference signals to each of the 4 speakers SP. Specifically, the sound source device 30 outputs a reference signal 1, which is a reproduced signal, to the speaker SP1, outputs a reference signal 2, which is a reproduced signal, to the speaker SP2, and outputs a reference signal 3, which is a reproduced signal, to the speaker SP3. , the reference signal 4, which is a reproduced signal, is output to the speaker SP4.
  • These reference signals 1 to 4 are reproduction signals output to each of the plurality of speakers SP. When the reference signals 1 to 4 are collectively described, they will simply be referred to as reference signals.
  • the speech processing device 10 outputs to the speech recognition unit 40 an output signal based on the reference signal, which is the audio signal received from the microphone MC and the reproduction signal reproduced from the speaker SP.
  • the reference signal which is the audio signal received from the microphone MC and the reproduction signal reproduced from the speaker SP.
  • the speech recognition unit 40 recognizes speech represented by the output signal received from the speech processing device 10 and outputs a signal representing the speech recognition result to the electronic device 50 .
  • the voice recognition unit 40 recognizes voice commands represented by output signals and outputs them to the electronic device 50 .
  • a voice command is a signal for causing the electronic device 50 to execute various processes.
  • Voice commands may also be referred to as voice recognition commands, keywords, wake-up words, and the like.
  • the electronic device 50 executes processing according to the voice command, which is a signal representing the voice recognition result received from the voice recognition unit 40 .
  • the electronic device 50 executes processing for opening and closing windows, processing for driving the vehicle 2, processing for changing the temperature of the air conditioner, processing for changing the volume of the audio device, and the like, based on the voice command.
  • the electronic device 50 is, for example, a car navigation device, an air conditioner, a panel meter, a television, a mobile terminal, a driving device that drives each part of the vehicle 2, and the like.
  • the display 60 is a display device that displays various information.
  • the display 60 is, for example, various displays provided in the vehicle 2, a head-up display, a display of a car navigation system, a multi-information display provided in a meter of the vehicle 2, a center display capable of accepting audio operations, etc. is.
  • information is displayed on the display 60 by the audio processing device 10, which will be described later.
  • the display 60 may function as an example of the electronic device 50 .
  • the audio processing device 10 will be explained in detail. First, an example of the hardware configuration of the audio processing device 10 will be described.
  • FIG. 2 is a hardware configuration diagram of an example of the audio processing device 10. As shown in FIG.
  • the audio processing device 10 has a CPU (Central Processing Unit) 11A, a ROM (Read Only Memory) 11B, a RAM 11C, and an I/F 11D, etc., which are interconnected via a bus 11E. It's becoming
  • CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • I/F I/F
  • the CPU 11A is an arithmetic device that controls the speech processing device 10 of this embodiment.
  • the ROM 11B stores programs and the like for realizing various processes by the CPU 11A.
  • the RAM 11C stores data required for various processes by the CPU 11A.
  • I/F 11D is an interface for transmitting and receiving data.
  • a program for executing information processing executed by the speech processing device 10 of the present embodiment is pre-installed in the ROM 11B or the like and provided.
  • the program executed by the sound processing device 10 of the present embodiment is a file in a format that can be installed in the sound processing device 10 or in a format that can be executed on CD-ROM, flexible disk (FD), CD-R, DVD ( It may be configured to be recorded on a computer-readable recording medium such as Digital Versatile Disk) and provided.
  • FIG. 3 is a block diagram showing an example of the configuration of the speech processing device 10. As shown in FIG. For the sake of explanation, FIG.
  • the audio processing device 10 includes an audio acquisition unit 20 , a determination unit 22 , an audio processing unit 24 , a switching unit 26 , a generation unit 28 and an output control unit 29 .
  • Some or all of the voice acquisition unit 20, the determination unit 22, the voice processing unit 24, the switching unit 26, the generation unit 28, and the output control unit 29 cause a processing device such as the CPU 11A to execute a program, that is, It may be realized by software, by hardware such as an IC (Integrated Circuit), or by using both software and hardware.
  • a processing device such as the CPU 11A to execute a program
  • At least one of the voice acquisition unit 20, the determination unit 22, the voice processing unit 24, the switching unit 26, the generation unit 28, and the output control unit 29 is communicably connected to the voice processing device 10 via a network or the like. Alternatively, it may be installed in an external information processing device.
  • the audio acquisition unit 20 acquires audio signals from the microphone MC.
  • the audio acquisition unit 20 outputs the acquired audio signal to the audio processing unit 24 .
  • the determination unit 22 determines whether the level of the reference signal, which is the reproduction signal reproduced from the speaker SP, is equal to or higher than the threshold.
  • the level of the reference signal represents the loudness of the sound represented by the reproduced signal, which is the reference signal.
  • the speaker SP emits sound with a volume corresponding to the level of the reproduced signal received from the sound source device 30 . Therefore, the higher the level of the reference signal, which is the reproduced signal, the higher the volume of the sound emitted from the speaker SP.
  • the threshold value is equal to or lower than, and close to, the level of the reproduced signal when the level of the reproduced signal is gradually increased and distortion begins to occur in the sound output from the speaker SP according to the reproduced signal.
  • a value may be determined in advance.
  • the threshold value may be a value that coincides with the level of the reproduced signal when the level of the reproduced signal is gradually increased and distortion begins to occur in the sound emitted from the speaker SP according to the reproduced signal. good. Distortion of the sound output from the speaker SP is sometimes referred to as sound distortion.
  • the determination unit 22 determines a threshold that satisfies the above conditions for each of the plurality of speakers SP1 to SP4.
  • the determination unit 22 determines that at least one of the levels of the reference signals 1 to 4 received from each of the plurality of speakers SP1 to SP4 is equal to or higher than the threshold value corresponding to each of the speakers SP1 to SP4. Determine whether or not there is
  • the determination unit 22 sets the minimum value, the average value, or the maximum value of the threshold values that satisfy the above conditions for each of the plurality of speakers SP1 to SP4 as a common threshold value for the plurality of speakers SP1 to SP4. good too. Then, the determination unit 22 determines whether at least one of the levels of the reference signals 1 to 4 received from each of the plurality of speakers SP1 to SP4 is equal to or higher than the threshold set as a common threshold. It may be determined whether
  • the determination unit 22 determines that at least one of the levels of the reference signals 1 to 4 received from each of the plurality of speakers SP1 to SP4 corresponds to each of the speakers SP1 to SP4.
  • a form of determining whether or not it is equal to or greater than a threshold will be described as an example.
  • threshold values corresponding to each of the plurality of speakers SP1 to SP4 may be stored in advance in the memory of the determination unit 22 or the like. Further, the threshold value corresponding to each of the plurality of speakers SP1 to SP4 is appropriately changed according to the type and installation position of the speaker SP provided in the audio processing system 1 within the range that satisfies the above conditions by an operation instruction or the like by the user. It may be possible.
  • the audio processing unit 24 generates a removed signal by removing the audio component of the reference signal from the audio signal received from the audio acquisition unit 20 .
  • the audio processing unit 24 removes the audio component of the reference signal, which is the reproduced signal, included in the audio signal received from the audio acquisition unit 20 .
  • the audio processing unit 24 may remove the audio component of the reference signal included in the audio signal using at least one of a known echo canceller and crosstalk canceller.
  • the audio processing unit 24 has an adaptive filter F, an adaptive filter control unit 24A, and a subtraction unit 24B.
  • the adaptive filter F is a filter with a function of changing the characteristics of the reference signal.
  • the adaptive filter F includes adaptive filters F1 to F4.
  • the number of adaptive filters F is appropriately set based on the number of input reference signals and the like.
  • the adaptive filter control section 24A sets the filter coefficients of the adaptive filters F1 to F4 by a known method according to the removal signal output from the subtraction section 24B.
  • the adaptive filters F1 to F4 output passing signals based on the respective received reference signals 1 to 4 and the set filter coefficients to the subtraction section 24B as subtraction signals. For this reason, in the subtraction unit 24B, a signal obtained by adding the reference signals 1 to 4 output from the adaptive filters F1 to F4 and the passing signals based on the set filter coefficients A subtraction signal is output.
  • the subtraction unit 24B subtracts the subtraction signal from the audio signal received from the audio acquisition unit 20, thereby executing a removal process of removing the audio component of the reference signal from the audio signal.
  • the subtraction unit 24B outputs the removal signal obtained by the removal processing, that is, the removal signal obtained by removing the audio component of the reference signal from the audio signal to the adaptive filter control unit 24A and the switching unit 26.
  • the switching unit 26 converts the replacement signal, which is at least one of the comfort noise and the mute signal, into the output signal instead of the removal signal received from the audio processing unit 24, and converts it into the output signal. 40.
  • the switching unit 26 replaces the removal signal received from the speech processing unit 24 with the replacement signal received from the generation unit 28 for speech recognition. Switch to output to unit 40 .
  • the generation unit 28 generates a replacement signal that is at least one of the comfort noise and the mute signal, and outputs it to the switching unit 26 .
  • a mute signal is a signal whose sound level is "0".
  • a mute signal in other words, is a signal representing a silence, mute, or no signal (MUTE).
  • the generation unit 28 can generate the comfort noise at a level corresponding to the noise level included in the audio signal at the timing just before the determination unit 22 determines that the noise is equal to or greater than the threshold.
  • the audio acquisition unit 20 outputs audio signals acquired from the microphone MC to the audio processing unit 24 and the generation unit 28 .
  • the generation unit 28 identifies, by a known method, the noise level included in the audio signal received from the audio acquisition unit 20 at the timing immediately before the determination unit 22 determines that the noise level is equal to or greater than the threshold.
  • the generator 28 generates comfort noise of a level corresponding to the specified noise level.
  • the generation unit 28 generates comfort noise representing the same level of noise level as the specified noise level, that is, the same level of volume.
  • the level of the output signal output to the speech recognition unit 40 is generated by the generation unit 28 generating, as a replacement signal, comfort noise having a level corresponding to the noise level included in the audio signal at the timing immediately before it is determined to be equal to or greater than the threshold. is suppressed from rapidly changing. For example, when the spatial sound environment fluctuates according to a change in the traveling environment of the vehicle 2 or the like, comfort noise having a level corresponding to the fluctuation of the spatial sound environment is output to the speech recognition unit 40 as a substitution signal. Therefore, when the output signal output to the speech recognition unit 40 switches from the replacement signal to the removal signal or from the removal signal to the replacement signal, the level of the output signal is suppressed from fluctuating abruptly. Therefore, it is possible to suppress deterioration of the speech recognition performance of the speech recognition unit 40 due to sudden changes in the level of the output signal.
  • the generation unit 28 may generate a replacement signal that includes both the comfort noise and the mute signal and output it to the switching unit 26 .
  • the generator 28 generates a replacement signal in which comfort noise and mute signals are alternately arranged.
  • the generator 28 preferably generates an output signal whose level is adjusted so that the level changes gradually when the comfort noise and the mute signal are switched.
  • the generation unit 28 may always generate the replacement signal, but it is preferable to generate the replacement signal and output it to the switching unit 26 when the determination unit 22 determines that the level of the reference signal is equal to or higher than the threshold. . Then, when the determination unit 22 determines that the level of the reference signal is less than the threshold, the generation unit 28 may stop the replacement signal generation process.
  • the generation unit 28 stops the replacement signal generation process, thereby reducing the amount of processing computation of the speech processing device 10 .
  • the switching unit 26 replaces the removal signal received from the voice processing unit 24 with the replacement signal received from the generation unit 28 as an output signal to the voice recognition unit. 40. Therefore, when the determination unit 22 determines that the level of the reference signal is equal to or higher than the threshold value, the replacement signal is output to the speech recognition unit 40 instead of the removal signal.
  • the switching unit 26 may output the replacement signal as an output signal to the speech recognition unit 40 instead of the removal signal during the period in which the determination unit 22 determines that the level of the reference signal is equal to or higher than the threshold. Then, the switching unit 26 may output the removal signal received from the speech processing unit 24 to the speech recognition unit 40 as an output signal during the period when the determination unit 22 determines that the level of the reference signal is less than the threshold value.
  • the replacement signal is output to the speech recognition unit 40 as an output signal.
  • the removal signal is output to the speech recognition section 40 as an output signal.
  • the switching unit 26 outputs the replacement signal instead of the removal signal as an output signal to the speech recognition unit 40 continuously for a predetermined first period of time. good too.
  • the first time should be determined in advance. For example, at the first time, the output signal output to the speech recognition unit 40 is repeatedly switched between the removal signal and the replacement signal in a short time, and the performance of the speech recognition unit 40 is degraded. A time longer than the continuous output time of the replacement signal to 40 may be determined. Also, for example, for the first time, a value that is equal to or longer than the average utterance period required for uttering one voice command and less than the average utterance period when two voice commands are continuously uttered is set. may Also, the first time may be changed as appropriate according to an operation instruction or the like by the user.
  • the replacement signal is output as the output signal to the speech recognition unit 40 continuously for at least the first time from the timing when the level of the reference signal becomes equal to or higher than the threshold. Then, after the first time has elapsed, the removal signal is output to the speech recognition section 40 as an output signal.
  • the switching unit 26 outputs the replacement signal instead of the removal signal as the output signal to the voice recognition unit 40 . You can output to
  • the second time should be determined in advance. For example, at the second time, the output signal output to the speech recognition unit 40 is repeatedly switched between the removal signal and the replacement signal in a short time, and the performance of the speech recognition unit 40 is degraded. A time longer than the continuous output time of the removal signal or the replacement signal to 40 may be determined. Also, for example, for the second time, a value that is equal to or longer than the average utterance period required for uttering one voice command and less than the average utterance period when two voice commands are continuously uttered is set. may Also, the second time may be changed as appropriate according to an operation instruction or the like by the user.
  • the replacement signal is output to the speech recognition unit 40 as an output signal.
  • the removal signal is output to the speech recognition section 40 as an output signal.
  • the audio processing unit 24 may always perform removal processing for removing the audio component of the reference signal from the audio signal, but if the determination unit 22 determines that the level of the reference signal is equal to or higher than the threshold, the removal processing is stopped. You may For example, when determining that the level of the reference signal is equal to or higher than the threshold, the determination unit 22 controls the audio processing unit 24 to stop the removal processing.
  • the audio processing unit 24 stops the removal processing, thereby reducing the amount of processing computation of the audio processing device 10 .
  • the output control unit 29 When the level of the reference signal is determined to be equal to or higher than the threshold, the output control unit 29 outputs information indicating that speech recognition is being stopped.
  • the output control unit 29 outputs, for example, information indicating that speech recognition is stopped to the display 60 .
  • the replacement signal when the level of the reference signal is equal to or higher than the threshold, the replacement signal is output to the speech recognition section 40 as an output signal. Since the replacement signal is at least one of comfort noise and a mute signal, the speech recognition unit 40 does not perform speech recognition while the replacement signal is being accepted. For this reason, for example, in a situation where sound is being emitted in the space inside the vehicle 2 by the loudspeaker SP in accordance with the level of the reproduced signal equal to or higher than the threshold, if the driver hm1 or the like utters a voice command or the like, Even then, the speech recognition unit 40 does not perform speech recognition.
  • the output control unit 29 outputs information indicating that the speech recognition is stopped so that the user can hear the speech of the speech recognition unit 40.
  • the situation of recognition can be presented easily.
  • the information output target by the output control unit 29 is not limited to the display 60 .
  • the output control unit 29 may transmit information indicating that the voice recognition is stopped to an information processing device such as a mobile terminal managed by the pre-registered driver hm1. Further, the output control unit 29 may output information indicating that speech recognition is stopped from the speaker SP. In this case, the level of the reproduced signal of the information indicating that the speech recognition is stopped may be set to a level less than the above threshold.
  • FIG. 4 is a flowchart showing an example of the flow of information processing executed by the speech processing device 10 of this embodiment.
  • the voice acquisition unit 20 acquires a voice signal from the microphone MC (step S100).
  • the determination unit 22 determines whether the level of the reference signal, which is the reproduction signal reproduced from the speaker SP, is equal to or higher than the threshold (step S102). If it is determined that the reference signal level is greater than or equal to the threshold (step S102: Yes), the process proceeds to step S104.
  • step S104 the determination unit 22 controls the audio processing unit 24 to stop the removal process.
  • the audio processing unit 24 stops the removal process.
  • the generation unit 28 generates a replacement signal that is at least one of the comfort noise and the mute signal, and outputs it to the switching unit 26 (step S106).
  • the switching unit 26 outputs the replacement signal generated by the generating unit 28 to the speech recognition unit 40 as an output signal (step S108). Since the replacement signal is comfort noise and/or a mute signal, the replacement signal does not include voice commands. Therefore, the voice recognition unit 40 does not recognize voice commands while the replacement signal is being accepted.
  • the output control unit 29 outputs information indicating that speech recognition is stopped to the display 60 (step S110).
  • the speech processing device 10 determines whether or not to end the process (step S112). For example, the sound processing device 10 makes the determination in step S112 by determining whether or not an instruction to cut off power supply to the sound processing device 10 has been given by an operation instruction or the like by the user. If an affirmative determination is made in step S112 (step S112: Yes), the speech processing device 10 ends this routine. When the voice processing device 10 makes a negative determination in step S112 (step S112: No), the process returns to step S100.
  • step S102 determines whether the level of the reference signal, which is the reproduction signal reproduced from the speaker SP, is less than the threshold (step S102: No). If it is determined in step S102 that the level of the reference signal, which is the reproduction signal reproduced from the speaker SP, is less than the threshold (step S102: No), the process proceeds to step S114.
  • step S ⁇ b>114 the audio processing unit 24 performs removal processing to generate a removed signal by removing the audio component of the reference signal from the audio signal received from the audio acquisition unit 20 . Note that when the removal process by the audio processing unit 24 has been stopped by the process of step S104, after the determination unit 22 controls the audio processing unit 24 to cancel the stop of the removal process, the audio processing unit 24 should execute the removal process of step S114.
  • the switching unit 26 outputs the removal signal generated by the speech processing unit 24 to the speech recognition unit 40 as an output signal (step S116). Since the removed signal is a signal obtained by removing the reproduced signal, which is the reference signal, from the audio signal, the removed signal may include a voice command. For this reason, the voice recognition unit 40 is in a state in which voice commands can be recognized during a period in which the removal signal is accepted as an output signal. Then, the process proceeds to step S112.
  • the speech processing device 10 of this embodiment includes the speech acquisition unit 20, the determination unit 22, the speech processing unit 24, and the switching unit 26.
  • the audio acquisition unit 20 acquires an audio signal from a microphone MC that picks up spatial audio.
  • the determination unit 22 determines whether or not the level of the reference signal, which is the reproduction signal reproduced from the speaker SP that emits sound in space, is equal to or higher than a threshold.
  • the speech processing unit 24 outputs a removal signal obtained by removing the speech component of the reference signal from the speech signal to the speech recognition unit 40 as an output signal.
  • the switching unit 26 outputs a replacement signal, which is at least one of comfort noise and a mute signal, to the speech recognition unit 40 as an output signal instead of the removal signal.
  • the first speech recognition unit recognizes the sound picked up by the microphone
  • the second speech recognition unit recognizes the sound output from the speaker
  • the second speech recognition unit recognizes the sound emitted from the speaker.
  • a configuration is disclosed that stops recognition by a first speech recognition unit when a speech recognized by a includes a speech recognition command.
  • the voice picked up by the microphone contains noise components such as residual echo components that cannot be removed by an echo canceller or the like, erroneous detection of voice recognition may occur. That is, in the prior art, it was sometimes difficult to suppress erroneous detection of voice recognition.
  • the audio processing apparatus 10 of the present embodiment when it is determined that the level of the reference signal, which is the reproduced signal, is equal to or higher than the threshold, the audio signal obtained from the microphone MC is replaced with a removed signal obtained by removing the audio component of the reference signal. , the replacement signal, which is at least one of the comfort noise and the mute signal, is output to the speech recognition unit 40 as an output signal. Since the replacement signal is comfort noise and/or a mute signal, the replacement signal does not include voice commands. Therefore, the voice recognition unit 40 does not recognize voice commands while the replacement signal is being accepted.
  • the level of the reproduced signal reproduced from the speaker SP is high, and the audio signal picked up by the microphone MC contains components that cannot be completely canceled by the removal processing. However, it is possible to suppress erroneous detection of voice recognition due to the reproduced signal.
  • the speech processing device 10 of the present embodiment can suppress erroneous detection of speech recognition.
  • the determination unit 22 determines whether or not the level of the reproduced signal reproduced from the speaker SP, not the level of the audio signal acquired from the microphone MC, is equal to or higher than the threshold. . Therefore, in the speech processing apparatus 10 of the present embodiment, regardless of the level of the speech uttered by the user, if the level of the reproduced signal is less than the threshold, the speech component of the user picked up by the microphone MC can be output to the speech recognition unit 40 as a speech recognition target. Therefore, in addition to the effects described above, the speech processing apparatus 10 of the present embodiment can efficiently perform speech recognition of speech signals including voice commands uttered by the user.
  • the speech processing system 1 of the present embodiment since speech recognition by the speech recognition unit 40 is not performed on the reproduced signal of the speaker SP, in addition to the above effect, the amount of processing computation of the speech processing system 1 is reduced. reduction can be achieved. Further, in the present embodiment, since speech recognition is not performed on the reproduced signal, erroneous detection of speech recognition can be suppressed regardless of the speech recognition accuracy of the speech recognition unit 40 .
  • the voice processing system 1 has been described as being mounted on the vehicle 2 as an example.
  • the voice processing system 1 is not limited to being mounted on the vehicle 2 as long as it is arranged in an arbitrary space for voice processing.
  • Speech processing system 10 Speech processing device 20 Speech acquisition unit 22 Judgment unit 24 Speech processing unit 26 Switching unit 28 Generation unit 40 Speech recognition unit 50 Electronic device 60 Display MC Microphone SP Speaker

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

音声処理装置(10)は、音声取得部(20)と、判定部(22)と、音声処理部(24)と、切替部(26)と、を備える。音声取得部(20)は、空間の音声を収音するマイク(MC)から音声信号を取得する。判定部(22)は、空間に出音するスピーカ(SP)から再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部(24)は、音声信号から参照信号の音声成分を除去した除去信号を出力信号として音声認識部(40)へ出力する。切替部(26)は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部(40)へ出力する。

Description

音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム
 本開示は、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムに関する。
 発話者により発話された音声に基づいて、音声認識コマンドを処理する音声処理システムが知られている。例えば、マイクロホンで収音された音声を第1の音声認識部で認識し、スピーカから出音される音声を第2の音声認識部で認識する。そして、第2の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第1の音声認識部による認識を停止させる構成が開示されている(例えば、特許文献1参照)。
特許第6225920号公報
 しかしながら、従来技術では、マイクロホンで収音された音声にエコーキャンセラでは除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。
 本開示は、音声認識の誤検出を抑制することができる、音声処理装置、音声処理方法、音声処理プログラム、および音声処理システムを提供することを目的とする。
 本開示の一態様に係る音声処理装置は、音声取得部と、判定部と、音声処理部と、切替部と、を備える。音声取得部は、空間の音声を収音するマイクから音声信号を取得する。判定部は、前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部は、前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する。切替部は、前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する。
 本開示によれば、音声認識の誤検出を抑制することができる。
図1は、本実施形態の音声処理システムの概略構成の一例を示す図である。 図2は、音声処理装置の一例のハードウェア構成図である。 図3は、音声処理装置の構成の一例を示すブロック図である。 図4は、本実施形態の音声処理装置で実行される情報処理の流れの一例を表すフローチャートである。
 以下、適宜図面を参照しながら、本開示の実施形態を詳細に説明する。ただし、必要以上に詳細な説明は省略する場合がある。なお、添付図面及び以下の説明は、当業者が本開示を十分に理解するために提供されるのであって、これらにより請求の範囲に記載の主題を限定することは意図されていない。
 図1は、本実施形態の音声処理システム1の概略構成の一例を示す図である。
 音声処理システム1は、空間内の音声を認識するためのシステムである。本実施形態では、空間が車両2の車室内の空間である場合を一例として説明する。また、本実施形態では、音声処理システム1が車両2に搭載された形態を一例として説明する。なお、空間は、車両2の車室内に限定されない。
 音声処理システム1は、マイクMC、スピーカSP、音声処理装置10、音源装置30、音声認識部40、電子機器50、およびディスプレイ60を備える。マイクMC、スピーカSP、音声認識部40、およびディスプレイ60と、音声処理装置10とは、通信可能に接続されている。音声処理システム1は、マイクMC、スピーカSP、音声処理装置10、および音声認識部40を少なくとも備える構成であればよい。
 マイクMCは、空間の音声を収音する。本実施形態では、マイクMCは、少なくとも車両2の車室内の空間の音声を収音する。本実施形態では、マイクMCが車両2の運転者hm1の座席である運転席の近傍に設けられた形態を一例として説明する。このため、本実施形態では、マイクMCは、運転者hm1によって発話された音声成分を少なくとも含む音声を収音する。
 車両2には、複数のマイクMCが設けられた構成であってもよい。この場合、これらの複数のマイクMCは、車両2の車室内における互いに異なる位置に配置されていることが好ましい。詳細には、例えば、車両2の運転者hm1、乗員hm2、乗員hm3、および乗員hm3の各々の座席の近傍に、それぞれマイクMCが配置されていてもよい。本実施形態では、車両2には、1つのマイクMCが設けられた形態を一例として説明する。
 マイクMCは、指向性マイク、無指向性マイク、の何れであってもよい。マイクMCは、小型のMEMS(Micro Electro Mechanical Systems)マイク、ECM(Electret Condenser Microphone)の何れであってもよい。マイクMCは、ビームフォーミング可能なマイクであってもよい。例えば、マイクMCは、特定の方向に指向性を有し、指向方向の音声を収音可能なマイクアレイでもよい。
 マイクMCは、収音した音声の音声信号を音声処理装置10へ出力する。音声処理装置10は、マイクMCに対応付けて設けられている。このため、音声処理システム1が複数のマイクMCを備えた構成である場合、音声処理システム1は、複数のマイクMCの各々に対応する複数の音声処理装置10を備えた構成であればよい。本実施形態では、音声処理システム1が、1つのマイクMCと、該マイクMCに通信可能に接続された1つの音声処理装置10と、を備える形態を一例として説明する。
 スピーカSPは、マイクMCによる収音対象の空間と同じ空間に出音する。本実施形態では、スピーカSPは、少なくとも車両2の車室内の空間に出音する。
 本実施形態では、車両2の車室内にスピーカSP1~スピーカSP4の4つのスピーカSPが配置された形態を一例として説明する。なお、音声処理システム1は、少なくとも1つのスピーカSPを備えた構成であればよく、スピーカSPの数および配置位置は限定されない。本実施形態では、車両2の車室内の運転者hm1、乗員hm2、乗員hm3、および乗員hm3の各々の座席の近傍に、それぞれ、スピーカSP1、スピーカSP2、スピーカSP3、およびスピーカSP4が配置された形態を一例として説明する。なお、これらのスピーカSP1~スピーカSP4を総称して説明する場合には、単にスピーカSPと称して説明する。
 スピーカSPは、音源装置30に電気的に接続されている。スピーカSPは、音源装置30から受付けた再生信号によって表される音を出音する。再生信号とは、音源装置30からスピーカSPに出力される信号である。スピーカSPは、音源装置30から受付けた再生信号に応じた音を出音する。詳細には、スピーカSPは、音源装置30から受付けた再生信号のレベルに応じた音量の音を出音する。すなわち、本実施形態では、レベルとは、信号のレベルを意味し、具体的には、信号によって表される音の大きさを意味する。
 音源装置30は、例えば、ラジオ受信装置、テレビ放送装置、オーディオ機器、などである。ラジオ受信装置は、ラジオ放送信号を受信し、受信したラジオ放送信号から再生信号を生成してスピーカSPに出力する。この場合、再生信号は、例えば、ラジオ音声のラジオ音声信号である。テレビ放送装置は、テレビ放送信号を受信し、受信したテレビ放送信号から再生信号を生成してスピーカSPに出力する。この場合、再生信号は、例えば、テレビ音声のテレビ音声信号である。オーディオ機器は、メモリ等に記録されたオーディオ信号などの再生信号をスピーカSPに出力する。この場合、再生信号は、例えば、オーディオ信号、などである。
 本実施形態では、音源装置30は、4つのスピーカSP(スピーカSP1~スピーカSP4)を利用するために4チャンネルの再生信号を生成し、参照信号として4つのスピーカSPの各々に出力する。詳細には、音源装置30は、スピーカSP1に再生信号である参照信号1を出力し、スピーカSP2に再生信号である参照信号2を出力し、スピーカSP3に再生信号である参照信号3を出力し、スピーカSP4に再生信号である参照信号4を出力する。これらの参照信号1~参照信号4は、複数のスピーカSPの各々に出力される再生信号である。参照信号1~参照信号4を総称して説明する場合には、単に参照信号と称して説明する。
 音声処理装置10は、マイクMCから受付けた音声信号およびスピーカSPから再生される再生信号である参照信号に基づいた出力信号を、音声認識部40へ出力する。音声処理装置10の詳細は後述する。
 音声認識部40は、音声処理装置10から受付けた出力信号によって表される音声を認識し、音声認識結果を表す信号を電子機器50へ出力する。例えば、音声認識部40は、出力信号によって表される音声コマンドを認識し、電子機器50へ出力する。音声コマンドは、電子機器50に各種の処理を実行させるための信号である。音声コマンドは、音声認識コマンド、キーワード、ウェイクアップワード、等と称される場合がある。
 電子機器50は、音声認識部40から受付けた音声認識結果を表す信号である音声コマンドに応じた処理を実行する。例えば、電子機器50は、音声コマンドに基づいて、窓を開閉する処理、車両2の運転に関する処理、エアコンの温度を変更する処理、オーディオ機器のボリュームを変更する処理、等を実行する。電子機器50は、例えば、カーナビゲーション装置、エアコンディショナ、パネルメータ、テレビ、携帯端末、車両2の各部を駆動する駆動装置、等である。
 ディスプレイ60は、各種の情報を表示する表示装置である。ディスプレイ60は、例えば、車両2に設けられた各種のディスプレイ、ヘッドアップディスプレイ、カーナビゲーションシステムのディスプレイ、車両2のメータ内に設けられたマルチインフォメーションディスプレイ、オーディオ操作等を受付け可能なセンターディスプレイ、等である。本実施形態では、ディスプレイ60には後述する音声処理装置10によって情報が表示される。なお、ディスプレイ60は、電子機器50の一例として機能してもよい。
 音声処理装置10について詳細に説明する。まず、音声処理装置10のハードウェア構成の一例を説明する。
 図2は、音声処理装置10の一例のハードウェア構成図である。
 音声処理装置10は、CPU(Central Processing Unit)11A、ROM(Read Only Memory)11B、RAM11C、およびI/F11D等がバス11Eにより相互に接続されており、通常のコンピュータを利用したハードウェア構成となっている。
 CPU11Aは、本実施形態の音声処理装置10を制御する演算装置である。ROM11Bは、CPU11Aによる各種の処理を実現するプログラム等を記憶する。RAM11Cは、CPU11Aによる各種の処理に必要なデータを記憶する。I/F11Dは、データを送受信するためのインタフェースである。
 本実施形態の音声処理装置10で実行される情報処理を実行するためのプログラムは、ROM11B等に予め組み込んで提供される。なお、本実施形態の音声処理装置10で実行されるプログラムは、音声処理装置10にインストール可能な形式又は実行可能な形式のファイルでCD-ROM、フレキシブルディスク(FD)、CD-R、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録されて提供するように構成してもよい。
 次に、音声処理装置10の構成について詳細に説明する。
 図3は、音声処理装置10の構成の一例を示すブロック図である。図3には説明のために、音声処理装置10に加えて、マイクMC、音源装置30、音声認識部40、電子機器50、およびディスプレイ60を示す。
 音声処理装置10は、音声取得部20と、判定部22と、音声処理部24と、切替部26と、生成部28と、出力制御部29と、を備える。
 音声取得部20、判定部22、音声処理部24、切替部26、生成部28、および出力制御部29の一部または全ては、例えば、CPU11Aなどの処理装置にプログラムを実行させること、すなわち、ソフトウェアにより実現してもよいし、IC(Integrated Circuit)などのハードウェアにより実現してもよいし、ソフトウェアおよびハードウェアを併用して実現してもよい。また、音声取得部20、判定部22、音声処理部24、切替部26、生成部28、および出力制御部29の少なくとも1つを、ネットワークなどを介して音声処理装置10と通信可能に接続された外部の情報処理装置に搭載した構成としてもよい。
 音声取得部20は、マイクMCから音声信号を取得する。音声取得部20は、取得した音声信号を音声処理部24へ出力する。
 判定部22は、スピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。参照信号のレベルとは、参照信号である再生信号によって表される音の大きさを表す。上述したように、スピーカSPは、音源装置30から受付けた再生信号のレベルに応じた音量の音を出音する。このため、再生信号である参照信号のレベルが大きいほど、スピーカSPから出音される音の音量は大きくなる。
 閾値は、再生信号のレベルを徐々に大きくし、該再生信号に応じてスピーカSPから出音される音に歪みが発生し始めたときの該再生信号のレベル以下であり、且つ該レベルに近い値を予め定めればよい。また、閾値は、再生信号のレベルを徐々に大きくし、再生信号に応じてスピーカSPから出音される音に歪みが発生し始めたときの該再生信号のレベルと一致する値であってもよい。スピーカSPから出音される音の歪みは、音割れと称される場合もある。
 例えば、判定部22は、複数のスピーカSP1~スピーカSP4の各々ごとに、上記条件を満たす閾値を定める。
 そして、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、それぞれのスピーカSP1~スピーカSP4に対応する閾値以上であるか否かを判定する。
 また、判定部22は、複数のスピーカSP1~スピーカSP4の各々の、上記条件を満たす閾値の最低値、平均値、または最大値を、複数のスピーカSP1~スピーカSP4に共通する閾値として設定してもよい。そして、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、共通する閾値として設定した該閾値以上であるか否かを判定してもよい。
 本実施形態では、判定部22は、複数のスピーカSP1~スピーカSP4の各々から受付けた参照信号1~参照信号4の各々のレベルの内の少なくとも1つが、それぞれのスピーカSP1~スピーカSP4に対応する閾値以上であるか否かを判定する形態を一例として説明する。
 なお、複数のスピーカSP1~スピーカSP4の各々に対応する閾値は、判定部22のメモリ等に予め記憶しておけばよい。また、複数のスピーカSP1~スピーカSP4の各々に対応する閾値は、音声処理システム1に設けられるスピーカSPの種類や設置位置等に応じて、ユーザによる操作指示等によって上記条件を満たす範囲で適宜変更可能としてもよい。
 音声処理部24は、音声取得部20から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。
 音声処理部24は、音声取得部20から受付けた音声信号に含まれる、再生信号である参照信号の音声成分を除去する。音声処理部24は、公知のエコーキャンセラ、および、クロストークキャンセラの少なくとも一方の方式を用いて、音声信号に含まれる参照信号の音声成分を除去すればよい。
 例えば、音声処理部24は、適応フィルタFと、適応フィルタ制御部24Aと、減算部24Bと、を有する。
 適応フィルタFは、参照信号の特性を変化させる機能を備えたフィルタである。本実施形態では、適応フィルタFは、適応フィルタF1~適応フィルタF4を含む。適応フィルタFの数は、入力される参照信号の数等に基づいて適宜設定される。
 適応フィルタ制御部24Aは、減算部24Bから出力される除去信号に応じて、公知の方法で適応フィルタF1~適応フィルタF4の各々のフィルタ係数を設定する。適応フィルタF1~適応フィルタF4は、それぞれで受け付けた参照信号1~参照信号4の各々および設定されたフィルタ係数に基づいた通過信号を、減算信号として減算部24Bへ出力する。このため、減算部24Bには、適応フィルタF1~適応フィルタF4の各々から出力された、参照信号1~参照信号4の各々および設定されたフィルタ係数に基づいた通過信号を足し合わせた信号である減算信号が出力される。
 減算部24Bは、音声取得部20から受付けた音声信号から上記減算信号を減算することで、音声信号から参照信号の音声成分を除去する除去処理を実行する。減算部24Bは、除去処理によって得られた除去信号、すなわち音声信号から参照信号の音声成分を除去した除去信号を、適応フィルタ制御部24Aおよび切替部26へ出力する。
 切替部26は、参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。
 詳細には、切替部26は、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に変えて、生成部28から受付けた置換信号を音声認識部40へ出力するように切り替える。
 生成部28は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部26へ出力する。ミュート信号は、音のレベルが”0”である信号である。ミュート信号は、言い換えると、無音状態、消音状態、または無信号(MUTE)を表す信号である。
 生成部28は、コンフォートノイズを置換信号として生成する場合には、判定部22によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを生成することが好ましい。例えば、音声取得部20は、マイクMCから取得した音声信号を、音声処理部24および生成部28に出力する。生成部28は、音声取得部20から受付けた音声信号における、判定部22によって閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルを公知の方法で特定する。そして、生成部28は、特定したノイズレベルに応じたレベルのコンフォートノイズを生成する。例えば、生成部28は、特定したノイズレベルと同じレベル、すなわち同じレベルの音量を表すコンフォートノイズを生成する。
 生成部28が、閾値以上と判定される直前のタイミングの音声信号に含まれるノイズレベルに応じたレベルのコンフォートノイズを置換信号として生成することで、音声認識部40に出力される出力信号のレベルが急激に変動することが抑制される。例えば、車両2の走行環境の変化等に応じて空間の音環境が変動する場合、空間の音環境の変動に応じたレベルのコンフォートノイズが置換信号として音声認識部40に出力される。このため、音声認識部40に出力される出力信号が置換信号から除去信号へ又は除去信号から置換信号に切り替わるときに、出力信号のレベルが急激に変動することが抑制される。このため、出力信号のレベルの急激な変動による、音声認識部40の音声認識性能の低下を抑制することができる。
 また、生成部28は、コンフォートノイズおよびミュート信号の双方を含む置換信号を生成し、切替部26へ出力してもよい。例えば、生成部28は、コンフォートノイズとミュート信号とを交互に配列した置換信号を生成する。この場合、生成部28は、コンフォートノイズとミュート信号とが切り替わるときのレベルが徐々に変化するようにレベルを調整した出力信号を生成することが好ましい。
 なお、生成部28は、置換信号を常時生成してもよいが、判定部22によって参照信号のレベルが閾値以上と判定された場合に、置換信号を生成し切替部26へ出力することが好ましい。そして、生成部28は、判定部22によって参照信号のレベルが閾値未満と判定された場合には、置換信号の生成処理を停止してもよい。
 判定部22によって参照信号のレベルが閾値未満と判定された場合、生成部28が置換信号の生成処理を停止することで、音声処理装置10の処理演算量の削減を図ることができる。
 切替部26は、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声処理部24から受付けた除去信号に変えて、生成部28から受付けた置換信号を出力信号として音声認識部40へ出力する。このため、判定部22によって参照信号のレベルが閾値以上と判定された場合、音声認識部40には除去信号に変えて置換信号が出力される。
 なお、切替部26は、判定部22によって参照信号のレベルが閾値以上と判定されている期間、除去信号に換えて置換信号を出力信号として音声認識部40へ出力してよい。そして、切替部26は、判定部22によって参照信号のレベルが閾値未満と判定されている期間には、音声処理部24から受付けた除去信号を出力信号として音声認識部40へ出力してよい。
 この場合、参照信号のレベルが閾値以上である期間は、音声認識部40には置換信号が出力信号として出力される。また、参照信号のレベルが閾値未満である期間は、音声認識部40には除去信号が出力信号として出力される。
 また、切替部26は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として、予め定めた第1の時間継続して音声認識部40へ出力してもよい。
 第1の時間は、予め定めればよい。例えば、第1の時間には、音声認識部40へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部40の性能低下が発生するときの、音声認識部40への置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第1の時間には、1つの音声コマンドの発話に要する平均発話期間以上であり、且つ、2つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第1の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。
 この場合、参照信号のレベルが閾値以上となったタイミングから少なくとも第1の時間継続して、置換信号が出力信号として音声認識部40へ出力される。そして、該第1の時間経過後に、除去信号が出力信号として音声認識部40へ出力される。
 また、切替部26は、判定部22によって参照信号のレベルが予め定めた第2の時間以上継続して閾値以上と判定された場合、除去信号に換えて置換信号を出力信号として音声認識部40へ出力してもよい。
 第2の時間は、予め定めればよい。例えば、第2の時間には、音声認識部40へ出力される出力信号が除去信号と置換信号とに短時間で繰り返し切り替わることで音声認識部40の性能低下が発生するときの、音声認識部40への除去信号または置換信号の継続出力時間より長い時間を定めればよい。また、例えば、第2の時間には、1つの音声コマンドの発話に要する平均発話期間以上であり、且つ、2つの音声コマンドが連続して発話されたときの平均発話期間未満の値などを定めてもよい。また、第2の時間は、ユーザによる操作指示等に応じて適宜変更可能としてもよい。
 この場合、参照信号のレベルが閾値以上である状態が第2の時間継続した場合に、置換信号が出力信号として音声認識部40へ出力される。そして、参照信号のレベルが閾値未満または該レベルが閾値以上である状態の継続時間が第2の時間未満である場合、除去信号が出力信号として音声認識部40へ出力される。
 なお、音声処理部24は、音声信号から参照信号の音声成分を除去する除去処理を常時行ってもよいが、判定部22によって参照信号のレベルが閾値以上と判定された場合、除去処理を停止してもよい。例えば、判定部22は、参照信号のレベルが閾値以上と判定した場合、除去処理を停止するように音声処理部24を制御する。
 参照信号のレベルが閾値以上と判定された場合、音声処理部24が除去処理を停止することで、音声処理装置10の処理演算量の削減を図ることができる。
 出力制御部29は、参照信号のレベルが閾値以上と判定された場合、音声認識停止中であることを表す情報を出力する。出力制御部29は、例えば、音声認識停止中であることを表す情報をディスプレイ60に出力する。
 上述したように、参照信号のレベルが閾値以上である場合、音声認識部40には置換信号が出力信号として出力される。置換信号は、コンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号を受付けている期間、音声認識部40は音声認識を行わない。このため、例えば、車両2の車室内の空間にスピーカSPによって閾値以上のレベルの再生信号に応じた音量の音が出音されている状況では、運転者hm1などが音声コマンドなどを発話した場合であっても、音声認識部40による音声認識が行われない状態となる。そこで、再生信号である参照信号のレベルが閾値以上と判定された場合、出力制御部29が音声認識停止中であることを表す情報を出力することで、ユーザに対して音声認識部40の音声認識の状況を容易に提示することができる。
 なお、出力制御部29による情報の出力対象は、ディスプレイ60に限定されない。例えば、出力制御部29は、音声認識停止中であることを表す情報を、予め登録された運転者hm1によって管理される携帯端末などの情報処理装置へ送信してもよい。また、出力制御部29は、音声認識停止中であることを表す情報を、スピーカSPから出力してもよい。この場合、音声認識停止中であることを表す情報の再生信号のレベルは、上記閾値未満のレベルとすればよい。
 次に、本実施形態の音声処理装置10で実行される情報処理の流れの一例を説明する。
 図4は、本実施形態の音声処理装置10で実行される情報処理の流れの一例を表すフローチャートである。
 音声取得部20が、マイクMCから音声信号を取得する(ステップS100)。
 判定部22は、スピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する(ステップS102)。参照信号のレベルが閾値以上であると判定された場合(ステップS102:Yes)、処理がステップS104へ進む。
 ステップS104では、判定部22は、除去処理を停止するように音声処理部24を制御する。ステップS104の処理によって、音声処理部24は除去処理を停止する。
 生成部28は、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を生成し、切替部26へ出力する(ステップS106)。
 切替部26は、生成部28で生成された置換信号を出力信号として音声認識部40へ出力する(ステップS108)。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部40は、音声コマンドの認識を行わない状態となる。
 出力制御部29は、音声認識停止中であることを表す情報をディスプレイ60に出力する(ステップS110)。
 次に、音声処理装置10は、処理を終了するか否かを判断する(ステップS112)。例えば、音声処理装置10は、ユーザによる操作指示等によって音声処理装置10への電力供給の遮断が指示されたか否かを判別することで、ステップS112の判断を行う。ステップS112で肯定判断すると(ステップS112:Yes)、音声処理装置10は本ルーチンを終了する。音声処理装置10がステップS112で否定判断すると(ステップS112:No)、処理が上記ステップS100へ戻る。
 一方、上記ステップS102において、スピーカSPから再生される再生信号である参照信号のレベルが閾値未満であると判定されると(ステップS102:No)、処理がステップS114へ進む。
 ステップS114では、音声処理部24が除去処理を実行し、音声取得部20から受付けた音声信号から参照信号の音声成分を除去した除去信号を生成する。なお、上記ステップS104の処理によって音声処理部24による除去処理が停止されている場合には、判定部22が除去処理の停止を解除するように音声処理部24を制御した後に、音声処理部24がステップS114の除去処理を実行すればよい。
 切替部26は、音声処理部24で生成された除去信号を出力信号として音声認識部40へ出力する(ステップS116)。除去信号は、音声信号から参照信号である再生信号を除去した信号であるため、除去信号には音声コマンドが含まれる場合がある。このため、除去信号を出力信号として受付けつけている期間、音声認識部40は、音声コマンドの認識を行うことが可能な状態となる。そして、処理が上記ステップS112へ進む。
 以上説明したように、本実施形態の音声処理装置10は、音声取得部20と、判定部22と、音声処理部24と、切替部26と、を備える。音声取得部20は、空間の音声を収音するマイクMCから音声信号を取得する。判定部22は、空間に出音するスピーカSPから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する。音声処理部24は、音声信号から参照信号の音声成分を除去した除去信号を出力信号として音声認識部40へ出力する。切替部26は、参照信号のレベルが閾値以上と判定された場合、除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。
 ここで、従来技術には、マイクロホンで収音された音声を第1の音声認識部で認識し、スピーカから出音される音声を第2の音声認識部で認識し、第2の音声認識部で認識された音声に音声認識コマンドが含まれる場合、第1の音声認識部による認識を停止させる構成が開示されている。しかし、従来技術では、マイクロホンで収音された音声にエコーキャンセラ等では除去しきれない残エコー成分等のノイズ成分が含まれる場合には、音声認識の誤検出が発生する場合があった。すなわち、従来技術では、音声認識の誤検出を抑制することが困難となる場合があった。また、従来技術では、第2の音声認識部の性能等によって、第1の音声認識部による音声認識に誤検出が発生する場合があった。
 一方、本実施形態の音声処理装置10では、再生信号である参照信号のレベルが閾値以上と判定された場合、マイクMCから取得した音声信号から参照信号の音声成分を除去した除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を出力信号として音声認識部40へ出力する。置換信号はコンフォートノイズおよびミュート信号の少なくとも一方であるため、置換信号には音声コマンドが含まれない。このため、置換信号を受付けつけている期間、音声認識部40は、音声コマンドの認識を行わない状態となる。
 このため、本実施形態の音声処理装置10では、例えばスピーカSPから再生される再生信号のレベルが大きく、マイクMCで収音された音声信号に除去処理によってキャンセルしきれない成分が残存する音環境であっても、再生信号に起因する音声認識の誤検出を抑制することができる。
 従って、本実施形態の音声処理装置10は、音声認識の誤検出を抑制することができる。
 また、本実施形態の音声処理装置10では、判定部22は、マイクMCから取得した音声信号のレベルではなく、スピーカSPから再生される再生信号のレベルが閾値以上であるか否かを判断する。このため、本実施形態の音声処理装置10では、ユーザによって発話された音声のレベルの大小に拘わらず、再生信号のレベルが閾値未満である場合、マイクMCによって収音された該ユーザの音声成分を含む除去信号を音声認識対象として音声認識部40へ出力することができる。よって、本実施形態の音声処理装置10は、上記効果に加えて、ユーザによって発話された音声コマンド等を含む音声信号を、効率よく音声認識可能とすることができる。
 また、本実施形態の音声処理システム1では、スピーカSPの再生信号に対しては音声認識部40による音声認識が行われないことから、上記効果に加えて、音声処理システム1の処理演算量の削減を図ることができる。また、本実施形態では、再生信号に対しては音声認識が行われないため、音声認識部40の音声認識精度に拘わらず、音声認識の誤検出を抑制することができる。
 なお、本実施形態では、音声処理システム1は、車両2に搭載された形態を一例として説明した。しかし、音声処理システム1は、音声処理対象の任意の空間に配置された構成であればよく、車両2に搭載された形態に限定されない。
 なお、上記には実施形態を説明したが、上記実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。上記新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。上記実施形態は、発明の範囲または要旨に含まれるとともに、請求の範囲に記載された発明とその均等の範囲に含まれる。
1 音声処理システム
10 音声処理装置
20 音声取得部
22 判定部
24 音声処理部
26 切替部
28 生成部
40 音声認識部
50 電子機器
60 ディスプレイ
MC マイク
SP スピーカ

Claims (10)

  1.  空間の音声を収音するマイクから音声信号を取得する音声取得部と、
     前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
     前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力する音声処理部と、
     前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
     を備える音声処理装置。
  2.  前記判定部は、
     前記参照信号のレベルが前記閾値以上と判定した場合、前記音声信号から前記参照信号の音声成分を除去する除去処理を停止するように、前記音声処理部を制御する、
     請求項1に記載の音声処理装置。
  3.  前記置換信号を生成する生成部を更に備え、
     前記生成部は、
     前記閾値以上と判定される直前の前記音声信号に含まれるノイズレベルに応じた前記コンフォートノイズである前記置換信号を生成する、
     請求項1または請求項2に記載の音声処理装置。
  4.  前記切替部は、
     前記参照信号のレベルが前記閾値以上と判定されている期間、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、
     請求項1~請求項3の何れか1項に記載の音声処理装置。
  5.  前記切替部は、
     前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として、予め定めた第1の時間継続して前記音声認識部へ出力する、
     請求項1~請求項3の何れか1項に記載の音声処理装置。
  6.  前記切替部は、
     前記参照信号のレベルが予め定めた第2の時間以上継続して前記閾値以上と判定された場合、前記除去信号に換えて前記置換信号を前記出力信号として前記音声認識部へ出力する、請求項1~請求項3の何れか1項に記載の音声処理装置。
  7.  前記参照信号のレベルが前記閾値以上と判定された場合、音声認識停止中であることを表す情報を出力する出力制御部、
     を更に備える請求項1~請求項6の何れか1項に記載の音声処理装置。
  8.  音声処理装置で実行される音声処理方法であって、
     空間の音声を収音するマイクから音声信号を取得するステップと、
     前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
     前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
     前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
     を含む音声処理方法。
  9.  空間の音声を収音するマイクから音声信号を取得するステップと、
     前記空間に出音するスピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定するステップと、
     前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として音声認識部へ出力するステップと、
     前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力するステップと、
     をコンピュータに実行させるための音声処理プログラム。
  10.  音声処理装置と、空間の音声を収音するマイクと、前記空間に出音するスピーカと、音声を認識する音声認識部と、を備えた音声処理システムであって、
     前記音声処理装置は、
     前記マイクから音声信号を取得する音声取得部と、
     前記スピーカから再生される再生信号である参照信号のレベルが閾値以上であるか否かを判定する判定部と、
     前記音声信号から前記参照信号の音声成分を除去した除去信号を出力信号として前記音声認識部へ出力する音声処理部と、
     前記参照信号のレベルが前記閾値以上と判定された場合、前記除去信号に換えて、コンフォートノイズおよびミュート信号の少なくとも一方である置換信号を前記出力信号として前記音声認識部へ出力する切替部と、
     を備える音声処理システム。
PCT/JP2022/037014 2022-02-03 2022-10-03 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム WO2023149015A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US18/651,162 US20240282325A1 (en) 2022-02-03 2024-04-30 Audio processing apparatus, audio processing method, and recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022015324A JP2023113171A (ja) 2022-02-03 2022-02-03 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム
JP2022-015324 2022-02-03

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US18/651,162 Continuation US20240282325A1 (en) 2022-02-03 2024-04-30 Audio processing apparatus, audio processing method, and recording medium

Publications (1)

Publication Number Publication Date
WO2023149015A1 true WO2023149015A1 (ja) 2023-08-10

Family

ID=87552043

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/037014 WO2023149015A1 (ja) 2022-02-03 2022-10-03 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム

Country Status (3)

Country Link
US (1) US20240282325A1 (ja)
JP (1) JP2023113171A (ja)
WO (1) WO2023149015A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181025A (ja) * 2008-01-31 2009-08-13 Mitsubishi Electric Corp 車載用音声認識装置
JP2013142903A (ja) * 2012-01-09 2013-07-22 Samsung Electronics Co Ltd 映像装置及びその制御方法
JP2019176431A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置
JP2021057807A (ja) * 2019-09-30 2021-04-08 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理装置
JP2021096482A (ja) * 2020-03-12 2021-06-24 北京百度網訊科技有限公司 信号処理方法、装置、電子機器及びコンピュータプログラム製品

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009181025A (ja) * 2008-01-31 2009-08-13 Mitsubishi Electric Corp 車載用音声認識装置
JP2013142903A (ja) * 2012-01-09 2013-07-22 Samsung Electronics Co Ltd 映像装置及びその制御方法
JP2019176431A (ja) * 2018-03-29 2019-10-10 トヨタ自動車株式会社 音声認識装置
JP2021057807A (ja) * 2019-09-30 2021-04-08 パナソニックIpマネジメント株式会社 音声処理システム及び音声処理装置
JP2021096482A (ja) * 2020-03-12 2021-06-24 北京百度網訊科技有限公司 信号処理方法、装置、電子機器及びコンピュータプログラム製品

Also Published As

Publication number Publication date
US20240282325A1 (en) 2024-08-22
JP2023113171A (ja) 2023-08-16

Similar Documents

Publication Publication Date Title
US9002028B2 (en) Noisy environment communication enhancement system
US9978355B2 (en) System and method for acoustic management
JP5694063B2 (ja) 車両用キャビンのための屋内通信システム
CN106664473B (zh) 信息处理装置、信息处理方法和程序
JP4792156B2 (ja) マイクロホンアレイを有するボイス制御システム
JP6225920B2 (ja) 音声認識付き機器及び音声認識方法
CN108141663B (zh) 集音装置以及集音装置的控制方法
JP2005195895A (ja) 雑音除去装置、及び音声認識装置、並びにカーナビゲーション装置
US10339951B2 (en) Audio signal processing in a vehicle
US10932042B2 (en) Conversation assist apparatus and conversation assist method
EP2482566B1 (en) Method for generating an audio signal
KR20200033617A (ko) 차량용 음성 인식 장치 및 그 제어 방법
WO2023149015A1 (ja) 音声処理装置、音声処理方法、音声処理プログラム、および音声処理システム
US12039965B2 (en) Audio processing system and audio processing device
JP7493875B2 (ja) 音声処理装置および音声処理方法
EP3833046A1 (en) Sound collecting/amplifying device, method therefor, and program
JP2009015209A (ja) 音声明瞭度改善システム及び音声明瞭度改善方法
US20230096846A1 (en) Controlling playback of audio data
JP2003099100A (ja) 音声認識装置およびその方法
JP2023036332A (ja) 音響システム
JP2007295347A (ja) 音声処理装置
JP2022026270A (ja) 音声処理システム、音声処理装置、及び音声処理方法
CN112153505A (zh) 降噪系统及降噪方法
JPH0380298A (ja) 音声信号処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22924920

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE