WO2018105077A1 - 音声強調装置、音声強調方法、及び音声処理プログラム - Google Patents

音声強調装置、音声強調方法、及び音声処理プログラム Download PDF

Info

Publication number
WO2018105077A1
WO2018105077A1 PCT/JP2016/086502 JP2016086502W WO2018105077A1 WO 2018105077 A1 WO2018105077 A1 WO 2018105077A1 JP 2016086502 W JP2016086502 W JP 2016086502W WO 2018105077 A1 WO2018105077 A1 WO 2018105077A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
filter
speech
speech enhancement
ear
Prior art date
Application number
PCT/JP2016/086502
Other languages
English (en)
French (fr)
Inventor
訓 古田
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2016/086502 priority Critical patent/WO2018105077A1/ja
Priority to US16/343,946 priority patent/US10997983B2/en
Priority to JP2017520547A priority patent/JP6177480B1/ja
Priority to CN201680091248.0A priority patent/CN110024418B/zh
Publication of WO2018105077A1 publication Critical patent/WO2018105077A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0364Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude for improving intelligibility
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/07Synergistic effects of band splitting and sub-band processing

Definitions

  • the present invention relates to a speech enhancement device, a speech enhancement method, and a speech processing program that generate a first speech signal for one ear and a second speech signal for the other ear from an input signal.
  • ADAS advanced driving support system
  • auditory masking a phenomenon called auditory masking that makes it difficult to hear sound that is normally clearly audible is masked (interfered) with another sound is known.
  • auditory masking frequency masking that makes it difficult to hear by masking a sound of a certain frequency component with a loud sound of another frequency component having a nearby frequency, and masking a subsequent sound by a preceding sound
  • time masking that makes it difficult to hear.
  • elderly people are easily affected by auditory masking and tend to have a reduced ability to hear vowels and subsequent sounds.
  • Non-Patent Document 1 and Patent Document 1 As a countermeasure, a hearing aid method for a person whose auditory frequency resolution and temporal resolution have been reduced has been proposed (for example, see Non-Patent Document 1 and Patent Document 1).
  • these hearing aid methods in order to reduce the influence of auditory masking (simultaneous masking), the input signal is divided on the frequency axis, and the two signals generated by the division are different signals for the left ear and the right ear, respectively.
  • a hearing aid method called binaural separation hearing aid is used in which a single sound is perceived in the brain of a user (listener) by presenting with characteristics.
  • the binaural hearing aid increases the intelligibility of speech for the user. This is because the acoustic signal in the frequency band to be masked (or the acoustic signal in the time domain) and the acoustic signal in the frequency band to be masked (or the acoustic signal in the time domain) are presented to different ears, respectively. This is considered to be because it becomes easier to perceive the masked voice.
  • the conventional hearing aid method described above is applied to an earphone-equipped hearing aid for the hearing impaired, and is not considered for application to devices other than the earphone-equipped hearing aid. That is, the conventional hearing aid method is not considered for application in a loudspeaker system. For example, in a system that listens to a loudspeaker sound using a two-channel stereo speaker, the sound emitted from the left and right speakers is transmitted to the left and right ears. There are cases where the time to reach each of the earphones differs slightly and the effect of binaural separation hearing aid is reduced.
  • the present invention has been made to solve the above-described problems, and provides a speech enhancement device, a speech enhancement method, and a speech processing program capable of generating a speech signal that outputs a clear and easy-to-understand speech.
  • the purpose is to provide.
  • the speech enhancement apparatus receives an input signal, and from the input signal, a first speech signal for a first ear and a second speech signal for a second ear opposite to the first ear.
  • a first band component of a predetermined frequency band including a fundamental frequency of the voice is extracted from the input signal, and the first band component is used as a first filter signal.
  • a first band to be output and a second band component of a predetermined frequency band including a first formant of speech are extracted from the input signal, and the second band component is output as a second filter signal.
  • a third filter for extracting a third band component of a predetermined frequency band including a second formant of speech from the second filter and the input signal, and outputting the third band component as a third filter signal;
  • the filter A first mixing unit that outputs a first mixed signal by mixing one filter signal and the second filter signal; and mixing the first filter signal and the third filter signal.
  • a second mixing unit that outputs a second mixed signal and a first mixing unit that generates the first audio signal by delaying the first mixed signal by a predetermined first delay amount.
  • the speech enhancement method receives an input signal, and from the input signal, a first speech signal for a first ear and a second speech signal for a second ear opposite to the first ear.
  • a first band component of a predetermined frequency band including a fundamental frequency of the voice is extracted from the input signal, and the first band component is used as a first filter signal.
  • FIG. 2A is an explanatory diagram illustrating the frequency characteristics of the first filter
  • FIG. 2B is an explanatory diagram illustrating the frequency characteristics of the second filter
  • FIG. 2C is a diagram illustrating the frequency characteristics of the third filter.
  • FIG. 2 (d) is an explanatory diagram showing the relationship between the fundamental frequency and each formant when the frequency characteristics of all the filters are superimposed.
  • FIG. 3A is an explanatory diagram showing the frequency characteristics of the first mixed signal
  • FIG. 3B is an explanatory diagram showing the frequency characteristics of the second mixed signal.
  • FIG. 4 is a flowchart illustrating an example of a speech enhancement process (speech enhancement method) executed by the speech enhancement apparatus according to Embodiment 1.
  • 3 is a block diagram schematically showing a hardware configuration (when an integrated circuit is used) of the speech enhancement apparatus according to Embodiment 1.
  • FIG. 2 is a block diagram schematically showing a hardware configuration of a speech enhancement device according to Embodiment 1 (in the case of using a program executed by a computer).
  • FIG. It is a figure which shows schematic structure of the audio
  • FIG. 10 is a flowchart illustrating an example of a voice enhancement process (speech enhancement method) executed by the voice enhancement device according to the fifth embodiment.
  • FIG. 1 is a functional block diagram showing a schematic configuration of a speech enhancement apparatus 100 according to Embodiment 1 of the present invention.
  • the speech enhancement apparatus 100 is an apparatus that can implement the speech enhancement method according to the first embodiment and the speech processing program according to the first embodiment.
  • the speech enhancement apparatus 100 includes a signal input unit 11, a first filter 21, a second filter 22, a third filter 23, and a first mixing unit as main components.
  • Unit 31 second mixing unit 32, first delay control unit 41, and second delay control unit 42.
  • 10 is an input terminal
  • 51 is a first output terminal
  • 52 is a second output terminal.
  • the speech enhancement apparatus 100 receives an input signal via the input terminal 10, and from this input signal, a first audio signal for one (first) ear and a second audio signal for the other (second) ear. And the first audio signal is output from the first output terminal 51, and the second audio signal is output from the second output terminal 52.
  • the input signal of the voice emphasizing device 100 is, for example, an acoustic signal such as voice, music, noise or the like taken in through an acoustic transducer such as a microphone (not shown) and a sound wave vibration sensor (not shown), or a wireless telephone, wired
  • an acoustic signal such as voice, music, noise or the like taken in through an acoustic transducer such as a microphone (not shown) and a sound wave vibration sensor (not shown), or a wireless telephone, wired
  • an acoustic signal such as voice, music, noise or the like taken in through an acoustic transducer such as a microphone (not shown) and a sound wave vibration sensor (not shown), or a wireless telephone, wired
  • an audio signal collected by a 1-channel (monaural) microphone will be exemplified and described as an example of an acoustic signal.
  • the signal input unit 11 performs A / D (analog / digital) conversion on an acoustic signal included in the input signal, and then performs a sampling process at a predetermined sampling frequency (for example, 16 kHz), and a predetermined frame interval (for example, 10 ms). And output to the first filter 21, the second filter 22, and the third filter 23 as input signals x n (t) which are discrete signals in the time domain.
  • n is a frame number assigned for each frame when the input signal is divided into frames
  • t is a discrete time number (integer of 0 or more) in sampling.
  • FIG. 2A is an explanatory diagram showing the frequency characteristics of the first filter 21
  • FIG. 2B is an explanatory diagram showing the frequency characteristics of the second filter 22
  • FIG. 2D is an explanatory diagram showing the relationship between the fundamental frequency and each formant when the frequency characteristics of all the filters are superimposed.
  • the first filter 21 receives the input signal x n (t), of the fundamental frequency of the speech from the input signal x n (t) (also referred to as pitch frequency) predetermined frequency band including the F0 (passband) first One band component is extracted, and the first band component is output as the first filter signal y1 n (t).
  • the first filter 21 passes the first band component of the frequency band including the fundamental frequency F0 of the sound in the input signal x n (t) and does not pass the frequency components other than the first band component.
  • the first filter signal y1 n (t) is output.
  • the first filter 21 is configured by, for example, a band-pass filter having characteristics as shown in FIG. In FIG.
  • fc0 is a cutoff frequency at the lower limit of the pass band of the band pass filter constituting the first filter 21, and fc1 is an upper limit cutoff frequency of the pass band.
  • F0 schematically represents a spectral component of the fundamental frequency.
  • the band-pass filter for example, a FIR (Finite Impulse Response) filter, an IIR (Infinite Impulse Response) filter, or the like can be used.
  • the second filter 22 receives the input signal x n (t), the second band components of a predetermined frequency band including the first formant F1 of the audio from the input signal x n (t) (the pass band)
  • the second band component is extracted and output as the second filter signal y2 n (t).
  • the second filter 22 passes the second band component of the frequency band including the first formant F1 of the sound in the input signal x n (t) and passes the frequency component other than the second band component. Otherwise, the second filter signal y2 n (t) is output.
  • the second filter 22 is configured by, for example, a band pass filter having characteristics as shown in FIG. In FIG.
  • fc1 is a lower limit cutoff frequency of the pass band of the band pass filter constituting the second filter 22, and fc2 is an upper limit cutoff frequency of the pass band.
  • F1 schematically represents the spectrum component of the first formant.
  • the band-pass filter for example, an FIR filter, an IIR filter, or the like can be used.
  • the third filter 23 receives the input signal x n (t), the third band components of a predetermined frequency band including the second formant F2 of the speech from the input signal x n (t) (the pass band)
  • the third band component is extracted and output as the third filter signal y3 n (t).
  • the third filter 23 passes the third band component of the frequency band including the second formant F2 of the sound in the input signal x n (t) and passes the frequency component other than the third band component. Otherwise, the third filter signal y3 n (t) is output.
  • the third filter 23 is configured by a band-pass filter having characteristics as shown in FIG. In FIG.
  • fc 2 is a lower limit cutoff frequency of the pass band of the band pass filter constituting the third filter 23.
  • the third filter 23 uses a frequency component equal to or higher than the cutoff frequency fc2 as a pass band.
  • the third filter 23 may be a band pass filter having an upper limit cutoff frequency.
  • F2 schematically represents the spectrum component of the second formant.
  • the band-pass filter for example, an FIR filter, an IIR filter, or the like can be used.
  • the fundamental frequency F0 of voice is distributed in the band of approximately 125 Hz to 400 Hz
  • the first formant F1 is distributed in the band of approximately 500 Hz to 1200 Hz
  • the second formant F2 is It is known that it is distributed in a band of approximately 1500 Hz to 3000 Hz.
  • fc0 50 Hz
  • fc1 450 Hz
  • fc2 1350 Hz.
  • these values are not limited to the above examples, and can be adjusted according to the state of the audio signal included in the input signal.
  • the number of filter taps is about 96.
  • the filter is a filter having a sixth-order Butterworth characteristic.
  • the first filter 21, the second filter 22, and the third filter 23 are not limited to these examples, and the first and second output terminals 51 of the speech enhancement apparatus 100 according to the first embodiment. , 52 can be appropriately adjusted according to the audibility characteristics of an external device such as a speaker connected to the user and the user (listener).
  • the band component including the fundamental frequency F0, the band component including the first formant F1, and the band component including the second formant F2 can be separated.
  • FIG. 3A is an explanatory diagram illustrating the frequency characteristics of the first mixed signal s1 n (t)
  • FIG. 3B is an explanatory diagram illustrating the frequency characteristics of the second mixed signal s2 n (t). is there.
  • ⁇ and ⁇ are constants (coefficients) determined in advance for performing auditory volume correction of the mixed signal.
  • ⁇ and ⁇ are constants (coefficients) determined in advance for performing auditory volume correction of the mixed signal.
  • the first mixed signal s1 n (t) since the second formant component F2 is attenuated, it is desirable to correct the lack of volume in the high frequency with the constants ⁇ and ⁇ .
  • the values of the constants ⁇ and ⁇ are not limited to the above example, and external such as a speaker connected to the first and second output terminals 51 and 52 of the speech enhancement apparatus 100 according to the first embodiment. It is possible to adjust appropriately according to the audibility characteristics of the device and the user.
  • the second mixing unit 32 mixes the first filter signal y1 n (t) and the third filter signal y3 n (t), thereby generating a second filter as shown in FIG. A mixed signal s2 n (t) is generated.
  • the second mixing unit 32 includes the first filter signal y1 n (t) output from the first filter 21 and the third filter signal y3 n output from the third filter 23. (T) is received, the first filter signal y1 n (t) and the third filter signal y3 n (t) are mixed according to the following equation (2), and the second mixed signal s2 n (t) Is output.
  • s2 n (t) ⁇ ⁇ y1 n (t) + ⁇ ⁇ y3 n (t) (2) 0 ⁇ t ⁇ 160
  • ⁇ and ⁇ are preset constants for performing auditory volume correction of the mixed signal.
  • the constants ⁇ and ⁇ in the formula (2) may be different from those in the formula (1).
  • the second formant component F2 is attenuated in the second mixed signal s2 n (t).
  • the values of the constants ⁇ and ⁇ are not limited to the above example, and external such as a speaker connected to the first and second output terminals 51 and 52 of the speech enhancement apparatus 100 according to the first embodiment. It is possible to adjust appropriately according to the audibility characteristics of the device and the user.
  • First delay control section 41 a first delay amount which is determined a first mixed signal s1 n (t) in advance, by delaying, for generating a first audio signal s ⁇ 1 n (t) .
  • the first delay control unit 41 controls the first delay amount that is the delay amount of the first mixed signal s1 n (t) output from the first mixing unit 31, that is, the first delay
  • the time delay of the mixed signal s1 n (t) is controlled.
  • the first delay control unit 41 outputs the first audio signal s ⁇ 1 n (t) to which a time delay is added by D 1 samples, for example, according to the following equation (3).
  • Second delay control section 42 a second delay amount which is determined a second mixed signal s2 n (t) in advance, by delaying, for generating a second audio signal s ⁇ 2 n (t) .
  • the second delay control unit 42 controls the second delay amount that is the delay amount of the second mixed signal s2 n (t) output from the second mixing unit 32, that is, the second delay control unit 42
  • the time delay of the mixed signal s2 n (t) is controlled.
  • the second delay control unit 42 outputs a second audio signal s ⁇ 2 n (t) to which a time delay is added by D 2 samples, for example, according to the following equation (4).
  • the first audio signal s ⁇ 1 n (t) output from the first delay control unit 41 is output to the external device via the first output terminal 51, and the second delay is performed.
  • the second audio signal s ⁇ 2 n (t) output from the control unit 42 is output to the external device via the second output terminal 52.
  • the external device is, for example, a sound / acoustic processing device provided in a television receiver, a hands-free call device, or the like.
  • the audio-acoustic processing apparatus is an apparatus including a signal amplification device such as a power amplifier and an audio output unit such as a speaker.
  • the enhanced audio signal is output to a recording device such as an IC (integrated circuit) recorder and recorded, the recorded audio signal is output by another audio acoustic processing device. Is also possible.
  • the first delay amount D 1 (D 1 sample) is a time equal to or greater than 0, the second delay amount D 2 (D 2 sample) is a time equal to or greater than 0, and the first delay amount D 1 and it may be a different value from the second delay amount D 2.
  • the roles of the first delay control unit 41 and the second delay control unit 42 are from the first speaker (for example, the left speaker) connected to the first output terminal 51 to the user's first ear (for example, the left).
  • the second speaker connected to the second output terminal 52 (for example, the right speaker) to the user's second ear (the ear on the opposite side of the first ear), for example, the right in the case where the distance to the ear) is different, a second delay amount of the first delay amount of the first audio signal s ⁇ 1 n (t) D 1 and the second audio signal s ⁇ 2 n (t) it is to control the D 2.
  • FIG. 4 is a flowchart illustrating an example of a speech enhancement process (speech enhancement method) executed by the speech enhancement apparatus 100 according to the first embodiment.
  • the first filter 21 receives the input signal x n (t), is passed through only the first band component of the frequency band including the fundamental frequency F0 of the speech in the input signal x n (t) (low frequency component) Then, the first filter processing for outputting the first filter signal y1 n (t) is executed (step ST2).
  • the second filter 22 receives the input signal x n (t), passes through only the second band component of the frequency band including the first formant F1 speech in the input signal x n (t) (component midrange) Then, the second filter processing for outputting the second filter signal y2 n (t) is executed (step ST3).
  • the third filter 23 receives the input signal x n (t), passes only the third band component of the frequency band including the second formant F2 of the speech in the input signal x n (t) (high-frequency component) Then, the third filter processing for outputting the third filter signal y3 n (t) is executed (step ST4).
  • the order of the first to third filter processes is not limited to the above order, and may be in any order.
  • the first to third filter processes (steps ST2, ST3, and ST4) may be performed simultaneously in parallel, or the second and third filters may be performed before the first filter process (step ST2).
  • Processing (step ST3 or ST4) may be executed.
  • first and second mixing processes are not limited to the above example, and may be in any order.
  • first and second mixing processes may be performed simultaneously in parallel, or the second mixing process (step ST5A and ST5B) may be performed before the first mixing process (steps ST5A and ST5B).
  • ST6A and ST6B may be executed.
  • Second delay control section 42 a second control a delay amount D 2 of the second mixed signal s2 n outputted from the second mixing section 32 (t), i.e., to control the time delay of the signal.
  • steps ST7A and ST8A may be executed simultaneously in parallel, or steps ST8A and ST8B may be executed before execution of steps ST7A and ST7B.
  • step ST9 If the speech enhancement process is continued after the processes of steps ST7A and ST8A (YES in step ST9), the process returns to step ST1A. On the other hand, when the voice enhancement process is not continued (NO in step ST9), the voice enhancement process ends.
  • the hardware configuration of the speech enhancement apparatus 100 is, for example, a computer with a CPU (Central Processing Unit) such as a workstation, mainframe, personal computer, or a microcomputer embedded in a device. It is feasible.
  • the hardware configuration of the speech enhancement apparatus 100 may be an LSI (Large Realized Gate Array) such as a DSP (Digital Signal Processor), an ASIC (Application Specific Integrated Circuit), or an FPGA (Field-Programmable Gate Array). Good.
  • LSI Large Realized Gate Array
  • DSP Digital Signal Processor
  • ASIC Application Specific Integrated Circuit
  • FPGA Field-Programmable Gate Array
  • FIG. 5 is a block diagram schematically showing a hardware configuration (when an integrated circuit is used) of the speech enhancement apparatus 100 according to the first embodiment.
  • FIG. 5 shows an example of a hardware configuration of the speech enhancement apparatus 100 configured using an LSI such as a DSP, ASIC, or FPGA.
  • the speech enhancement apparatus 100 includes an acoustic transducer 101, a signal input / output unit 112, a signal processing circuit 111, a recording medium 114 that stores information, and a signal path 115 such as a bus.
  • the signal input / output unit 112 is an interface circuit that realizes a connection function between the acoustic transducer 101 and the external device 102.
  • the acoustic transducer 101 for example, a device that captures acoustic vibration such as a microphone or a sound wave vibration sensor and converts it into an electrical signal can be used.
  • the signal input unit 11 the first filter 21, the second filter 22, the third filter 23, the first mixing unit 31, the second mixing unit 32, the first delay control unit 41,
  • Each function of the second delay control unit 42 can be realized by the signal processing circuit 111 and the recording medium 114.
  • the recording medium 114 is used for storing various data such as various setting data and signal data of the signal processing circuit 111.
  • a volatile memory such as SDRAM (Synchronous DRAM) or a non-volatile memory such as HDD (Hard Disk Drive) or SSD (Solid State Drive) can be used.
  • the initial state and various setting data can be stored.
  • First and second speech signals s ⁇ 1 n the enhancement process performed by the speech enhancement apparatus 100 is performed (t), s ⁇ 2 n (t) is sent to the external device 102 through the signal input unit 112 .
  • the external device 102 is, for example, a sound / acoustic processing device provided in a television receiver or a hands-free call device.
  • the audio-acoustic processing apparatus is an apparatus including a signal amplification device such as a power amplifier and an audio output unit such as a speaker.
  • FIG. 6 is a block diagram schematically showing a hardware configuration (when using a program executed by a computer) of the speech enhancement apparatus 100 according to the first embodiment.
  • FIG. 6 shows an example of a hardware configuration of the speech enhancement apparatus 100 configured using an arithmetic device such as a computer.
  • the speech enhancement apparatus 100 includes a signal input / output unit 122, a processor 120 including a CPU 121, a memory 123, a recording medium 124, and a signal path 125 such as a bus.
  • the signal input / output unit 122 is an interface circuit that realizes a connection function between the acoustic transducer 101 and the external device 102.
  • the memory 123 is a program memory that stores various programs for realizing the speech enhancement processing according to the first embodiment, a work memory that is used when the processor performs data processing, and a ROM that is used as a memory that develops signal data. (Read Only Memory) and RAM (Random Access Memory).
  • the signal input unit 11 the first filter 21, the second filter 22, the third filter 23, the first mixing unit 31, the second mixing unit 32, the first delay control unit 41,
  • Each function of the second delay control unit 42 can be realized by the processor 120 and the recording medium 124.
  • the recording medium 124 is used for storing various data such as various setting data and signal data of the processor 120.
  • a volatile memory such as SDRAM, an HDD, or an SSD can be used.
  • a program including an OS (operating system), various setting data, and various data such as acoustic signal data such as an internal state of the filter can be stored. Note that the data in the memory 123 can be stored in the recording medium 124.
  • the processor 120 uses the RAM in the memory 123 as a working memory, and operates according to the computer program (speech processing program according to the first embodiment) read from the ROM in the memory 123.
  • Signal input unit 11, first filter 21, second filter 22, third filter 23, first mixing unit 31, second mixing unit 32, first delay control unit 41, and second Signal processing similar to that of the delay control unit 42 can be executed.
  • First and second speech signals s ⁇ 1 n of the speech enhancement process is performed (t), s ⁇ 2 n (t) is sent to the external device 102 through the signal input unit 112 or 122.
  • the external device for example, various audio signal processing devices such as a hearing aid device, an audio storage device, and a hands-free call device are equivalent.
  • the first and second audio signals s ⁇ 1 n the speech enhancement process is performed (t), s ⁇ to record 2 n (t), first and second audio signals s ⁇ 1 that this recording It is also possible to output n (t), s ⁇ 2 n (t) by another audio output device.
  • the speech enhancement apparatus 100 according to the first embodiment can also be realized by executing it as a software program together with the other apparatuses.
  • the speech processing program for executing the speech enhancement apparatus 100 according to Embodiment 1 may be stored in a storage device inside the computer that executes the software program, or a CD-ROM (optical information recording medium) or the like. A format distributed on a storage medium may be used. It is also possible to acquire a program from another computer through a wireless or wired network such as a LAN (Local Area Network). Furthermore, regarding the acoustic transducer 101 and the external device 102 connected to the speech enhancement apparatus 100 according to the first embodiment, various data may be transmitted and received through a wireless and wired network.
  • ⁇ 1-5 Effect As described above, according to the speech enhancement apparatus 100, speech enhancement method, and speech processing program according to the first embodiment, the fundamental frequency F0 of speech is presented to both ears while Since ear-separated hearing aids can be performed, it is possible to generate the first and second audio signals s ⁇ 1 n (t) and s ⁇ 2 n (t) that output clear and easy-to-hear voices.
  • the first mixed signal is obtained by mixing the first filter signal and the second filter signal at an appropriate ratio.
  • the first filter signal and the third filter signal are mixed at an appropriate ratio to form a second mixed signal, and the first audio signal s 1 n (t) based on the first mixed signal is Audio can be output from the left speaker and the right speaker by the second audio signal s ⁇ 2 n (t) based on the second mixed signal. For this reason, it is possible to prevent a sound from being biased to one side or to cause a sense of incongruity due to an unbalanced audible balance between the left and right, and to provide a high-quality sound that is clear and easy to hear.
  • the first and second delay amounts D 1 and D 2 can be controlled to align the arrival times of the sounds output from the plurality of speakers to the user's ears. It is possible to eliminate a sense of incongruity due to the audible balance between the left and right sides, such as being heard twice, and it is possible to provide high-quality sound that is clear and easy to hear.
  • the binaural separation hearing aid method can be realized, and the high-quality speech enhancement apparatus 100 can be provided.
  • FIG. 7 is a diagram showing a schematic configuration of a speech enhancement apparatus 200 (when applied to a car navigation system) according to Embodiment 2 of the present invention.
  • the speech enhancement apparatus 200 is an apparatus that can implement the speech enhancement method according to the second embodiment and the speech processing program according to the second embodiment.
  • the speech enhancement apparatus 200 according to the second embodiment includes a car navigation system 600 that provides an input signal to the signal input unit 11 via the input terminal 10, and the left speaker 61. And the point which has the right speaker 62 differs from the audio
  • FIG. 600 the speech enhancement apparatus 200 according to the second embodiment includes a car navigation system 600 that provides an input signal to the signal input unit 11 via the input terminal 10, and the left speaker 61.
  • the point which has the right speaker 62 differs from the audio
  • the speech enhancement apparatus 200 processes the voice of a car navigation system having an in-vehicle hands-free call function and a voice guide function.
  • the car navigation system 600 includes a telephone 601 and a voice guide device 602 that provides a voice message to the driver.
  • the second embodiment is the same as the first embodiment.
  • the telephone 601 is, for example, a device built in the car navigation system 600 or an external device connected by wire or wireless.
  • the voice guide device 602 is a device built in the car navigation system 600, for example.
  • the car navigation system 600 outputs the received voice output from the telephone 601 or the voice guide device 602 to the input terminal 10.
  • the voice guide device 602 outputs a guide voice such as map guidance information to the input terminal 10.
  • the first audio signal s ⁇ 1 n (t) output from the first delay control unit 41 is supplied to the L (left) speaker 61 via the first output terminal 51, and the L speaker 61 The sound based on the audio signal s ⁇ 1 n (t) is output.
  • the second audio signal s ⁇ 2 n (t) output from the second delay control unit 42 is supplied to the R (right) speaker 62 via the second output terminal 52, and the R speaker 62 The sound based on the two audio signals s ⁇ 2 n (t) is output.
  • the user is sitting in the driver's seat of the left-hand drive vehicle, and the shortest distance between the left ear of the user sitting in the driver's seat and the L speaker 61 is about 100 cm.
  • the distance difference between the L speaker 61 and the R speaker 62 is about 34 cm.
  • the sound speed at room temperature is about 340 m / sec, the sound output from the L speaker 61 and the R speaker 62, that is, the incoming call sound or guide sound, is delayed by delaying the sound output from the L speaker 61 by 1 msec.
  • the time to reach the left ear can coincide with the time to reach the right ear.
  • the first delay amount D 1 of the first audio signal s ⁇ 1 n (t) provided from the first delay control unit 41 is set to 1 msec, and is provided from the second delay control unit 42.
  • second the second delay amount D 2 of the speech signal s ⁇ 2 n (t) may be set to 0 msec (no delay) that.
  • the first delay amount D 1 and a second value of the delay amount D 2 is not limited to the examples described above, according to the usage conditions such as the position of the L speaker 61 and R speaker 62 relative to the position of the user's ear Can be changed as appropriate.
  • the distance from the speaker 61 to the left ear and the distance from the R speaker 62 to the right ear can be changed as appropriate according to usage conditions.
  • the first and second speech signals s ⁇ 1 n (t), s ⁇ 2 n Since the first and second delay amounts D 1 and D 2 in (t) can be controlled to align the arrival times of sounds output from a plurality of speakers to the user's ear, the sound is biased to one side. It is possible to eliminate a sense of incongruity due to the audible balance between the left and right auditory senses, such as hearing or sound being heard twice, and providing high-quality sound that is clear and easy to hear.
  • the second embodiment is the same as the first embodiment.
  • FIG. 8 is a diagram showing a schematic configuration of a speech enhancement apparatus 300 (when applied to a television receiver) according to Embodiment 3 of the present invention.
  • the speech enhancement apparatus 300 is an apparatus that can implement the speech enhancement method according to the third embodiment and the speech processing program according to the third embodiment.
  • the speech enhancement apparatus 300 according to Embodiment 3 includes a television receiver 701 and a pseudo monauralization unit 702 that provide an input signal to the signal input unit 11 via the input terminal 10.
  • the television receiver 701 is composed of an L channel signal and an R channel signal using, for example, an external video recorder that receives broadcast waves or video content recorded by a video recorder built in the television receiver. Outputs a stereo signal.
  • TV audio is not limited to a two-channel stereo signal, but may be a multi-stereo signal having three or more channels.
  • a case of a two-channel stereo signal will be described.
  • the pseudo-monaural unit 702 receives a stereo signal output from the television receiver 701, and, for example, adds a (LR) signal with an antiphase signal of the (LR) signal to the stereo signal by, for example, a stereo signal. Extract only the sound of the announcer localized in the center.
  • the (L + R) signal is a pseudo monaural signal obtained by adding the L channel signal and the R channel signal
  • the (LR) signal is a signal obtained by subtracting the R channel signal from the L channel signal, in other words, at the center. This is a pseudo monaural signal obtained by attenuating the localization signal.
  • the announcer audio extracted by the pseudo monaural unit 702 is input to the input terminal 10 and the same processing as described in Embodiment 1 is performed, and the L channel signal and the R channel signal output from the television receiver 701 are added. After that, the sound obtained by the binaural separation hearing aid process is output from the L speaker 61 and the R speaker 62. With such a configuration, it is possible to emphasize only the voice of the announcer localized in the center of the stereo signal while maintaining the conventional stereo sound.
  • a two-channel stereo signal is illustrated for the sake of simplification.
  • the method of the third embodiment is also applied to a multi-stereo signal having three or more channels such as 5.1 channel stereo, for example. This is possible, and the same effect as described in the third embodiment is achieved.
  • the L speaker 61 and the R speaker 62 are described as external devices of the television receiver 701.
  • a speaker built in the television receiver or an acoustic device such as headphones may be used.
  • the pseudo-monauralization unit 702 has been described as a process before being input to the input terminal 10, a stereo signal output from the television receiver 701 is input to the input terminal 10, and then the pseudo-monaural process is performed. May be.
  • both ears that emphasize the voice of an announcer localized in the center even for a stereo signal.
  • a separate hearing aid method can be realized.
  • the third embodiment is the same as the first embodiment.
  • Embodiment 4 In the first to third embodiments, the first audio signal s 1 n (t) and the second audio signal s 2 n (t) are directly output to the L speaker 61 and the R speaker 62.
  • the speech enhancement apparatus 400 according to Embodiment 4 performs crosstalk cancellation processing on the first speech signal s ⁇ 1 n (t) and the second speech signal s ⁇ 2 n (t).
  • a talk canceller 70 is provided.
  • FIG. 9 is a functional block diagram showing a schematic configuration of the speech enhancement apparatus 400 according to the fourth embodiment.
  • the speech enhancement apparatus 400 is an apparatus that can implement the speech enhancement method according to the fourth embodiment and the speech processing program according to the fourth embodiment.
  • speech enhancement apparatus 400 according to Embodiment 4 is different from speech enhancement apparatus 100 according to Embodiment 1 in that two crosstalk cancellers (CTC) 70 are provided.
  • CTC crosstalk cancellers
  • the fourth embodiment is the same as the first embodiment.
  • the first audio signal s ⁇ 1n (t) is an L channel audio (audio to be presented only to the left ear) signal
  • the second audio signal s ⁇ 2n (t) is an R channel audio (only to the right ear).
  • the L channel sound is a sound that is desired to reach only the left ear, but in reality, the crosstalk component of the L channel sound also reaches the right ear.
  • the R channel sound is sound that is desired to reach only the right ear, but in reality, the crosstalk component of the R channel sound also reaches the left ear.
  • the crosstalk canceller 70 subtracts a signal corresponding to the crosstalk component of the L channel sound from the first sound signals s to 1n (t), and outputs a signal corresponding to the crosstalk component of the R channel sound to the second. By subtracting from the audio signal s ⁇ 2n (t), the crosstalk component is canceled.
  • the crosstalk cancellation process for canceling the crosstalk component is a known method such as an adaptive filter.
  • the speech enhancement apparatus 400 As described above, according to the speech enhancement apparatus 400, the speech enhancement method, and the speech processing program according to the fourth embodiment, the process of canceling the crosstalk component of the signal output from the first and second output terminals. Therefore, it is possible to enhance the effect of separating the two sounds that reach both ears. For this reason, when applied to a loudspeaker, the binaural separation hearing aid effect can be further enhanced, and a higher quality speech enhancement device 400 can be provided.
  • Embodiment 5 In the fourth embodiment, the case where the binaural separation hearing process is performed regardless of the state of the input signal has been described. However, in the fifth embodiment, the input signal is analyzed, and the binaural contents according to the result of the analysis are analyzed. A case where the separate hearing aid processing is performed will be described. The speech enhancement apparatus according to Embodiment 5 performs binaural separation hearing aid processing when the input signal is a vowel.
  • FIG. 10 is a functional block diagram showing a schematic configuration of the speech enhancement apparatus 500 according to the fifth embodiment. 10, components that are the same as or correspond to the components shown in FIG. 9 are given the same reference numerals as those shown in FIG.
  • the speech enhancement apparatus 500 is an apparatus that can implement the speech enhancement method according to the fifth embodiment and the speech processing program according to the fifth embodiment.
  • the speech enhancement apparatus 500 according to the fifth embodiment is different from the speech enhancement apparatus 400 according to the fourth embodiment in that a signal analysis unit 80 is provided.
  • the signal analysis unit 80 determines whether the input signal indicates a vowel by a known analysis method such as autocorrelation coefficient analysis for the input signal x n (t) output from the signal input unit 11 or It is analyzed whether the signal indicates a sound other than a vowel (consonant or noise). As a result of the analysis of the input signal, when the input signal is a signal indicating consonant or noise, the signal analysis unit 80 stops the outputs of the first mixing unit 31 and the second mixing unit 32 (that is, performs the filtering process). The output of the performed signal is stopped), and the input signal x n (t) is directly input to the first delay control unit 41 and the second delay control unit 42. Regarding configurations and operations other than those described above, the fifth embodiment is the same as the fourth embodiment.
  • a known analysis method such as autocorrelation coefficient analysis for the input signal x n (t) output from the signal input unit 11 or It is analyzed whether the signal indicates a sound other than a vowel (consonant or noise
  • FIG. 11 is a flowchart showing an example of a speech enhancement process (speech enhancement method) executed by the speech enhancement apparatus 500 according to the fifth embodiment.
  • speech enhancement processing executed by speech enhancement apparatus 500 according to Embodiment 5 includes a step ST51 for determining whether or not the input signal is a vowel speech signal, and when the input signal is not a vowel speech signal
  • step ST7A is different from the process of the first embodiment. Except for this point, the processing in the fifth embodiment is the same as the processing in the first embodiment.
  • the first filter 21, the second filter 22, and the third filter 23 perform the filtering process on the time axis.
  • each of the first filter 21, the second filter 22, and the third filter 23 includes an FFT unit (fast Fourier transform unit), a filter processing unit that performs filter processing on the frequency axis, and an IFFT unit ( It is also possible to configure with an inverse fast Fourier transform unit.
  • each of the filter processing unit of the first filter 21, the filter processing unit of the second filter 22, and the filter processing unit of the third filter 23 sets the gain of the spectrum of the passband to 1 and attenuates it. This can be realized by setting the gain of the spectrum of the band to be set to zero.
  • the sampling frequency is 16 kHz.
  • the sampling frequency is not limited to this value.
  • the sampling frequency can be set to other frequencies such as 8 kHz or 48 kHz.
  • the speech enhancement device is applied to a car navigation system and a television receiver.
  • the speech enhancement apparatus according to Embodiments 1 to 5 is a system or apparatus other than the car navigation system and the television receiver, and can be applied to a system or apparatus including a plurality of speakers.
  • the voice emphasis device according to Embodiments 1 to 5 can be applied to, for example, a voice guide system in an exhibition hall, a video conference system, a voice guide system in a train, and the like.
  • the speech enhancement apparatus, speech enhancement method, and speech processing program according to Embodiments 1 to 5 are applicable to speech communication systems, speech storage systems, and speech enhancement systems.
  • the speech communication system When applied to a speech communication system, the speech communication system receives a signal output from the speech enhancement device in addition to the speech enhancement device of any one of the first to fifth embodiments, and is input to the transmission and speech enhancement device.
  • a communication device for receiving the signal When applied to a speech communication system, the speech communication system receives a signal output from the speech enhancement device in addition to the speech enhancement device of any one of the first to fifth embodiments, and is input to the transmission and speech enhancement device.
  • a communication device for receiving the signal for receiving the signal.
  • the speech storage system When applied to a speech storage system, the speech storage system includes a storage device that stores information in addition to the speech enhancement device according to any one of Embodiments 1 to 5, and a first output from the speech enhancement device.
  • the speech enhancement system When applied to a speech enhancement system, the speech enhancement system is amplified by an amplification circuit that amplifies a signal output from the speech enhancement device, in addition to any of the speech enhancement devices of the first to fifth embodiments. And a plurality of speakers for outputting sounds based on the first and second audio signals s ⁇ 1 n (t) and s ⁇ 2 n (t).
  • the speech enhancement device, speech enhancement method, and speech processing program according to Embodiments 1 to 5 are applicable to a car navigation system, a mobile phone, an interphone, a television receiver, a hands-free telephone system, and a TV conference system.
  • Two audio signals s ⁇ 2 n (t) are generated.
  • the user of the system or apparatus to which the first to fifth embodiments are applied can perceive clear sound.

Landscapes

  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Neurosurgery (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Stereophonic System (AREA)
  • Telephone Function (AREA)

Abstract

音声強調装置は、入力信号から音声の基本周波数(F0)を含む成分を抽出し、第1のフィルタ信号として出力する第1のフィルタ(21)と、入力信号から音声の第1フォルマント(F1)を含む成分を抽出し、第2のフィルタ信号として出力する第2のフィルタ(22)と、入力信号から音声の第2フォルマント(F2)を含む成分を抽出し、第3のフィルタ信号として出力する第3のフィルタ(23)と、第1のフィルタ信号と第2のフィルタ信号とを混合して第1の混合信号を出力する第1の混合部(31)と、第1のフィルタ信号と第3のフィルタ信号とを混合して第2の混合信号を出力する第2の混合部(32)と、第1の混合信号を第1の遅延量(D1)遅延させて第1の音声信号を生成する第1の遅延制御部(41)と、第2の混合信号を第2の遅延量(D2)遅延させて第2の音声信号を生成する第2の遅延制御部(42)とを有する。

Description

音声強調装置、音声強調方法、及び音声処理プログラム
 本発明は、入力信号から一方の耳用の第1の音声信号と他方の耳用の第2の音声信号とを生成する音声強調装置、音声強調方法、及び音声処理プログラムに関する。
 近年、自動車の運転補助に供するADAS(先進運転支援システム)の研究が進められている。ADASの重要機能として、例えば、高齢運転者にも明瞭で聴き取り易い案内音声を提供する機能、及び高騒音下でも快適なハンズフリー通話を供する機能がある。また、テレビ受信機の分野では、高齢者がテレビを視聴する際にテレビから流れる放送音声の聴き取り易さを改善するための研究も進められている。
 ところで、聴覚心理において、通常であれば明瞭に聞こえる音が、別の音でマスク(妨害)されることで聞き取りにくくなる聴覚マスキングという現象が知られている。聴覚マスキングとして、ある周波数成分の音が、近傍の周波数を持つ他の周波数成分の大きな音によってマスクされることで聞き取りにくくなる周波数マスキングと、後続する音が、先行する音によってマスクされることで聞き取りにくくなる時間マスキングとがある。特に、高齢者は、聴覚マスキングの影響を受け易く、母音及び後続音を聞き取る能力が低下している傾向がある。
 この対策として、聴覚の周波数分解能及び時間分解能が低下した人のための補聴方法が提案されている(例えば、非特許文献1及び特許文献1参照)。これらの補聴方法では、聴覚マスキング(同時マスキング)の影響を低減させるために、入力信号を周波数軸上において分割し、分割によって生成された2つの信号を、左耳と右耳のそれぞれに異なる信号特性で提示することで、ユーザ(聞く人)の脳内で一つの音が知覚されるようにする両耳分離補聴という補聴方法が用いられる。
 両耳分離補聴により、ユーザにとって、音声の明瞭度が高くなることが報告されている。これは、マスクする周波数帯域の音響信号(又は時間領域の音響信号)と、マスクされる周波数帯域の音響信号(又は時間領域の音響信号)とを、それぞれ別の耳に提示することで、ユーザは、マスクされていた音声を知覚しやすくなるためであると考えられる。
D.S. Chaudhari and P.C. Pandey, "Dichotic Presentation of Speech Signal Using Critical Filter Bank for Bilateral Sensorineural Hearing Impairment", Proc.16th ICA, Seattle Washington USA, June 1998, vol.1, pp.213-214
特許第5351281号公報(第8~12頁、図7)
 しかしながら、上記従来の補聴方法では、音声の基本周波数の成分であるピッチ周波数成分が両耳へ提示されていないため、この方法が適用された補聴器を軽度の難聴者又は聴覚が健常である者が使用すると、一方の耳側に音声が偏って聴こえたり、音声が二重に聴こえたりするなど、左耳と右耳との間の聴感的なバランスの崩れによって音声が聞き取りにくくなるという課題がある。
 また、上記従来の補聴方法は、聴覚障害者向けのイヤホン装着型の補聴器に適用されるものであり、イヤホン装着型の補聴器以外の装置への適用は考慮されていない。つまり、上記従来の補聴方法は、拡声音声システムでの適用は考慮されておらず、例えば、2チャンネルのステレオスピーカを用いて拡声音声を受聴させるシステムでは、左右スピーカが放出した音が左右の耳にそれぞれ到達する時間が僅かに異なり両耳分離補聴の効果が低減する場合がある。
 本発明は、上記のような課題を解決するためになされたものであり、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる音声強調装置、音声強調方法、及び音声処理プログラムを提供することを目的とする。
 本発明に係る音声強調装置は、入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調装置であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の第1の帯域成分を抽出し、前記第1の帯域成分を第1のフィルタ信号として出力する第1のフィルタと、前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する第2のフィルタと、前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する第3のフィルタと、前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する第1の混合部と、前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する第2の混合部と、前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する第1の遅延制御部と、前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する第2の遅延制御部とを有するものである。
 本発明に係る音声強調方法は、入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調方法であって、前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の第1の帯域成分を抽出し、前記第1の帯域成分を第1のフィルタ信号として出力するステップと、前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力するステップと、前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力するステップと、前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力するステップと、前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力するステップと、前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成するステップと、前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成するステップとを有するものである。
 本発明によれば、明瞭で聞き取りやすい拡声音声を出力させる音声信号を生成することができる。
本発明の実施の形態1に係る音声強調装置の概略構成を示す機能ブロック図である。 図2(a)は、第1のフィルタの周波数特性を示す説明図、図2(b)は、第2のフィルタの周波数特性を示す説明図、図2(c)は、第3のフィルタの周波数特性を示す説明図、図2(d)は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。 図3(a)は、第1の混合信号の周波数特性を示す説明図、図3(b)は、第2の混合信号の周波数特性を示す説明図である。 実施の形態1に係る音声強調装置によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。 実施の形態1に係る音声強調装置のハードウェア構成(集積回路を用いる場合)を概略的に示すブロック図である。 実施の形態1に係る音声強調装置のハードウェア構成(コンピュータにより実行されるプログラムを用いる場合)を概略的に示すブロック図である。 本発明の実施の形態2に係る音声強調装置(カーナビシステムに適用された場合)の概略構成を示す図である。 本発明の実施の形態3に係る音声強調装置(テレビ受信機に適用された場合)の概略構成を示す図である。 本発明の実施の形態4に係る音声強調装置の概略構成を示す機能ブロック図である。 本発明の実施の形態5に係る音声強調装置の概略構成を示す機能ブロック図である。 実施の形態5に係る音声強調装置によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。
 以下に、本発明の実施の形態を添付の図面を参照しながら説明する。なお、図面全体において同一符号を付された構成要素は、同一構成及び同一機能を有するものとする。
《1》実施の形態1.
《1-1》構成
 図1は、本発明の実施の形態1に係る音声強調装置100の概略構成を示す機能ブロック図である。音声強調装置100は、実施の形態1に係る音声強調方法及び実施の形態1に係る音声処理プログラムを実施することができる装置である。
 図1に示されように、音声強調装置100は、主要な構成として、信号入力部11と、第1のフィルタ21と、第2のフィルタ22と、第3のフィルタ23と、第1の混合部31と、第2の混合部32と、第1の遅延制御部41と、第2の遅延制御部42とを備える。図1において、10は、入力端子、51は、第1の出力端子、52は、第2の出力端子である。
 音声強調装置100は、入力端子10を介して入力信号を受け取り、この入力信号から一方(第1)の耳用の第1の音声信号と他方(第2)の耳用の第2の音声信号とを生成し、第1の音声信号を第1の出力端子51から出力し、第2の音声信号を第2の出力端子52から出力する。
 音声強調装置100の入力信号は、例えば、マイクロホン(図示せず)及び音波振動センサ(図示せず)などの音響トランスデューサを通じて取り込まれた音声、音楽、雑音などの音響信号、又は、無線電話機、有線電話機、テレビ受像機などの外部機器から出力される電気的な音響信号を、ラインケーブルなどを通じて取り込んだ信号である。ここでは、1チャンネル(モノラル)のマイクロホンで集音された音声信号を音響信号の一例をとして例示し説明する。
 以下に、図1に基づいて、実施の形態1に係る音声強調装置100の動作原理を説明する。
 信号入力部11は、入力信号に含まれる音響信号をA/D(アナログ/デジタル)変換した後、所定のサンプリング周波数(例えば、16kHz)でサンプリング処理を行い、所定のフレーム間隔(例えば、10ms)で取り込み、時間領域の離散信号である入力信号x(t)として第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23へそれぞれ出力する。ここで、nは、入力信号をフレーム分割したときにフレーム毎に割り当てられたフレーム番号、tは、サンプリングにおける離散時間番号(0以上の整数)を示す。
 図2(a)は、第1のフィルタ21の周波数特性を示す説明図、図2(b)は、第2のフィルタ22の周波数特性を示す説明図、図2(c)は、第3のフィルタ23の周波数特性を示す説明図、図2(d)は、全てのフィルタの周波数特性を重ね合わせた場合において、基本周波数と各フォルマントとの関係を示す説明図である。
 第1のフィルタ21は、入力信号x(t)を受け取り、入力信号x(t)から音声の基本周波数(ピッチ周波数とも言う)F0を含む予め決められた周波数帯域(通過帯域)の第1の帯域成分を抽出し、第1の帯域成分を第1のフィルタ信号y1(t)として出力する。言い換えれば、第1のフィルタ21は、入力信号x(t)中の音声の基本周波数F0を含む周波数帯域の第1の帯域成分を通過させ、第1の帯域成分以外の周波数成分を通過させないことで第1のフィルタ信号y1(t)を出力する。第1のフィルタ21は、例えば、図2(a)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(a)において、fc0は、第1のフィルタ21を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、fc1は、通過帯域の上限のカットオフ周波数である。また、図2(a)において、F0は、基本周波数のスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR(Finite Impulse Responce)型フィルタ、IIR(Infinite Impulse Responce)型フィルタなどを用いることが可能である。
 第2のフィルタ22は、入力信号x(t)を受け取り、入力信号x(t)から音声の第1フォルマントF1を含む予め決められた周波数帯域(通過帯域)の第2の帯域成分を抽出し、第2の帯域成分を第2のフィルタ信号y2(t)として出力する。言い換えれば、第2のフィルタ22は、入力信号x(t)中の音声の第1フォルマントF1を含む周波数帯域の第2の帯域成分を通過させ、第2の帯域成分以外の周波数成分を通過させないことで第2のフィルタ信号y2(t)を出力する。第2のフィルタ22は、例えば、図2(b)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(b)において、fc1は、第2のフィルタ22を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数であり、fc2は、通過帯域の上限のカットオフ周波数である。また、図2(b)において、F1は、第1フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR型フィルタ、IIR型フィルタなどを用いることが可能である。
 第3のフィルタ23は、入力信号x(t)を受け取り、入力信号x(t)から音声の第2フォルマントF2を含む予め決められた周波数帯域(通過帯域)の第3の帯域成分を抽出し、第3の帯域成分を第3のフィルタ信号y3(t)として出力する。言い換えれば、第3のフィルタ23は、入力信号x(t)中の音声の第2フォルマントF2を含む周波数帯域の第3の帯域成分を通過させ、第3の帯域成分以外の周波数成分を通過させないことで第3のフィルタ信号y3(t)を出力する。第3のフィルタ23は、例えば、図2(c)に示されるような特性を持つ帯域通過型フィルタで構成される。図2(c)において、fc2は、第3のフィルタ23を構成する帯域通過型フィルタの通過帯域の下限のカットオフ周波数である。図2(c)の例では、第3のフィルタ23は、カットオフ周波数fc2以上の周波数成分を通過帯域としている。ただし、第3のフィルタ23は、上限のカットオフ周波数を持つ帯域通過フィルタとすることも可能である。また、図2(c)において、F2は、第2フォルマントのスペクトル成分を模式的に表している。帯域通過型フィルタとしては、例えば、FIR型フィルタ、IIR型フィルタなどを用いることが可能である。
 性差及び個人差により若干の違いがあるが、音声の基本周波数F0は、概ね125Hz~400Hzの帯域に分布し、第1フォルマントF1は、概ね500Hz~1200Hzの帯域に分布し、第2フォルマントF2は、概ね1500Hz~3000Hzの帯域に分布することが知られている。このため、実施の形態1における好適な一例では、fc0=50Hz、fc1=450Hz、fc2=1350Hzである。ただし、これらの値は、上記例示に限定されることはなく、入力信号に含まれる音声信号の状態に応じて、調整することが可能である。また、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23の遮断特性について、実施の形態1における好適な例としては、FIR型フィルタの場合では、フィルタタップ数が96程度のフィルタであり、IIR型フィルタの場合では、6次のバタワース(Butterworth)特性を持つフィルタである。ただし、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23は、これらの例示に限定されず、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及び、ユーザ(聞く人)の聴感特性に合わせて、適宜調整することが可能である。
 以上のように、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23を用いることで、図2(d)に示されるように、入力信号x(t)から、音声の基本周波数F0を含む帯域成分、第1フォルマントF1を含む帯域成分、第2フォルマントF2含む帯域成分をそれぞれ分離することができる。
 図3(a)は、第1の混合信号s1(t)の周波数特性を示す説明図、図3(b)は、第2の混合信号s2(t)の周波数特性を示す説明図である。
 第1の混合部31は、第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合することによって、図3(a)に示されるような、第1の混合信号s1(t)を生成する。具体的に言えば、第1の混合部31は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第2のフィルタ22から出力される第2のフィルタ信号y2(t)とを受け取り、次式(1)に従って第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合して、第1の混合信号s1(t)を出力する。
s1(t)=α・y1(t)+β・y2(t)     (1)
0≦t<160
 式(1)において、α及びβは、混合信号の聴感的な音量補正を行うために予め決められた定数(係数)である。第1の混合信号s1(t)では、第2フォルマント成分F2が減衰しているため、定数α及びβにより高域の音量不足を補正することが望ましい。実施の形態1における好適な一例では、α=1.0、β=1.2である。つまり、第1の混合部31は、予め決められた第1の混合割合(すなわち、α:β)で第1のフィルタ信号y1(t)と第2のフィルタ信号y2(t)とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。
 第2の混合部32は、第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合することによって、図3(b)に示されるような、第2の混合信号s2(t)を生成する。具体的に言えば、第2の混合部32は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第3のフィルタ23から出力される第3のフィルタ信号y3(t)とを受け取り、次式(2)に従って第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合して、第2の混合信号s2(t)を出力する。
s2(t)=α・y1(t)+β・y3(t)       (2)
0≦t<160
 式(2)において、α及びβは、混合信号の聴感的な音量補正を行うための予め設定された定数である。式(2)における定数α及びβは、式(1)におけるものと異なる値であってもよい。第1の混合信号s1(t)と同様に、第2の混合信号s2(t)では、第2フォルマント成分F2が減衰しているため、この2つの定数により高域の音量不足を補正する。実施の形態1における好適な一例としては、α=1.0、β=1.2である。つまり、第2の混合部32は、予め決められた第2の混合割合(すなわち、α:β)で第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合する。ただし、定数α及びβの値は、上記例に限定されることはなく、実施の形態1に係る音声強調装置100の第1及び第2の出力端子51,52に接続されるスピーカなどの外部装置、及びユーザの聴感特性に合わせて、適宜調整することが可能である。
 第1の遅延制御部41は、第1の混合信号s1(t)を予め決められた第1の遅延量、遅延させることによって、第1の音声信号s~1(t)を生成する。言い換えれば、第1の遅延制御部41は、第1の混合部31から出力される第1の混合信号s1(t)の遅延量である第1の遅延量を制御し、すなわち、第1の混合信号s1(t)の時間遅れを制御する。具体的には、第1の遅延制御部41は、例えば、次式(3)に従って、Dサンプルだけ時間遅れを追加した第1の音声信号s~1(t)を出力する。
Figure JPOXMLDOC01-appb-M000001
 第2の遅延制御部42は、第2の混合信号s2(t)を予め決められた第2の遅延量、遅延させることによって、第2の音声信号s~2(t)を生成する。言い換えれば、第2の遅延制御部42は、第2の混合部32から出力される第2の混合信号s2(t)の遅延量である第2の遅延量を制御し、すなわち、第2の混合信号s2(t)の時間遅れを制御する。具体的には、第2の遅延制御部42は、例えば、次式(4)に従って、Dサンプルだけ時間遅れを追加した第2の音声信号s~2(t)を出力する。
Figure JPOXMLDOC01-appb-M000002
 実施の形態1では、第1の遅延制御部41から出力される第1の音声信号s~1(t)は、第1の出力端子51を介して外部装置に出力され、第2の遅延制御部42から出力される第2の音声信号s~2(t)は、第2の出力端子52を介して外部装置に出力される。外部装置は、例えば、テレビ受像機、ハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。また、強調処理が行われた音声信号を、IC(集積回路)レコーダなどの録音装置へ出力して録音した場合には、録音された音声信号を、別の音声音響処理装置にて出力することも可能である。
 なお、第1の遅延量D(Dサンプル)は、0以上の時間であり、第2の遅延量D(Dサンプル)は、0以上の時間であり、第1の遅延量Dと第2の遅延量Dとは異なる値であることができる。第1の遅延制御部41と第2の遅延制御部42の役割は、第1の出力端子51に接続される第1のスピーカ(例えば、左スピーカ)からユーザの第1の耳(例えば、左耳)までの距離と、第2の出力端子52に接続される第2のスピーカ(例えば、右スピーカ)からユーザの第2の耳(第1の耳の反対側の耳であり、例えば、右耳)までの距離とが異なる場合において、第1の音声信号s~1(t)の第1の遅延量Dと第2の音声信号s~2(t)の第2の遅延量Dを制御することである。実施の形態1では、ユーザが第1の耳で第1の音声信号s~1(t)に基づく音を聞く時刻と、第2の耳で第2の音声信号s~2n(t)に基づく音を聞く時刻とを近づけるように(望ましくは一致するように)、第1の遅延量Dと第2の遅延量Dとを調整することが可能である。
《1-2》動作
 次に、音声強調装置100の動作(アルゴリズム)の例について説明する。図4は、実施の形態1に係る音声強調装置100によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。
 信号入力部11は、音響信号を所定のフレーム間隔で取り込み(ステップST1A)、時間領域の信号である入力信号x(t)として第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23へ出力する処理を実行する。サンプル番号tが、予め決められた値T以下の場合(ステップST1BにおいてYES)、ステップST1Aの処理をサンプル番号tが値Tになるまで繰り返す。例えば、T=160である。ただし、Tは160以外の値に設定することも可能である。
 第1のフィルタ21は、入力信号x(t)を受け取り、入力信号x(t)中の音声の基本周波数F0を含む周波数帯域の第1の帯域成分(低域成分)のみを通過させて、第1のフィルタ信号y1(t)を出力する第1のフィルタ処理を実行する(ステップST2)。
 第2のフィルタ22は、入力信号x(t)を受け取り、入力信号x(t)中の音声の第1フォルマントF1を含む周波数帯域の第2の帯域成分(中域成分)のみを通過させて、第2のフィルタ信号y2(t)を出力する第2のフィルタ処理を実行する(ステップST3)。
 第3のフィルタ23は、入力信号x(t)を受け取り、入力信号x(t)中の音声の第2フォルマントF2を含む周波数帯域の第3の帯域成分(高域成分)のみを通過させて、第3のフィルタ信号y3(t)を出力する第3のフィルタ処理を実行する(ステップST4)。
 第1から第3のフィルタ処理の順番は、上記順番に限定されず、順不同でよい。例えば、第1から第3のフィルタ処理(ステップST2、ST3、及びST4)が同時並列に実行されてもよいし、第1のフィルタ処理(ステップST2)の実行前に第2及び第3のフィルタ処理(ステップST3又はST4)が実行されてもよい。
 第1の混合部31は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第2のフィルタ22から出力される第2のフィルタ信号y2(t)とを受け取り、第1のフィルタ信号y1(t)と第2のフィルタ22とを混合して、第1の混合信号s1(t)を出力する第1の混合処理を実行する(ステップST5A)。サンプル番号tが値T以下の場合(ステップST5BにおいてYES)、ステップST5Aの処理を、サンプル番号tがT=160になるまで繰り返す。
 第2の混合部32は、第1のフィルタ21から出力される第1のフィルタ信号y1(t)と第3のフィルタ23から出力される第3のフィルタ信号y3(t)とを受け取り、第1のフィルタ信号y1(t)と第3のフィルタ信号y3(t)とを混合して、第2の混合信号s2(t)を出力する処理を実行する(ステップST6A)。サンプル番号tが値T以下の場合(ステップST6BにおいてYES)、ステップST6Aの処理を、サンプル番号tがT=160になるまで繰り返す。
 上記第1及び第2の混合処理の順番は、上記例に限定されず、順不同でよい。例えば、上記第1及び第2の混合処理(ステップST5A及びST6A)が同時並列に実行されてもよいし、第1の混合処理(ステップST5A及びST5B)の実行前に第2の混合処理(ステップST6A及びST6B)が実行されてもよい。
 第1の遅延制御部41は、第1の混合部31から出力される第1の混合信号s1(t)の第1の遅延量Dを制御、すなわち、信号の時間遅れを制御する。具体的には、第1の遅延制御部41は、第1の混合信号s1(t)にDサンプルだけ時間遅れを追加した第1の音声信号s~1(t)を出力する処理を実行する(ステップST7A)。サンプル番号tが値T以下の場合(ステップST7BにおいてYES)、ステップST7Aの処理をサンプル番号tがT=160になるまで繰り返す。
 第2の遅延制御部42は、第2の混合部32から出力される第2の混合信号s2(t)の第2の遅延量Dを制御、すなわち、信号の時間遅れを制御する。具体的には、第2の遅延制御部42は、第2の混合信号s2(t)にDサンプルだけ時間遅れを追加した第2の音声信号s~2(t)を出力する処理を実行する(ステップST8A)。サンプル番号tが値T以下の場合(ステップST8BにおいてYES)、ステップST8Aの処理をサンプル番号tがT=160になるまで繰り返す。
 なお、上述の2つの遅延制御処理の順番は順不同でよい。例えば、ステップST7A及びST8Aが同時並列に実行されてもよいし、ステップST7A及びST7Bの実行前にステップST8A及びST8Bが実行されてもよい。
 ステップST7A及びST8Aの処理後、音声強調処理が続行される場合(ステップST9におけるYES)、処理は、ステップST1Aに戻る。一方、音声強調処理が続行されない場合(ステップST9におけるNO)、音声強調処理は終了する。
《1-3》ハードウェア構成
 音声強調装置100のハードウェア構成は、例えば、ワークステーション、メインフレーム、パーソナルコンピュータ、又は機器組み込み用途のマイクロコンピュータなどのような、CPU(Central Processing Unit)内蔵のコンピュータで実現可能である。或いは、音声強調装置100のハードウェア構成は、DSP(Digital Signal Processor)、ASIC(Application  Specific Integrated Circuit)、又はFPGA(Field-Programmable Gate Array)などのLSI(Large Scale Integrated circuit)により実現されてもよい。
 図5は、実施の形態1に係る音声強調装置100のハードウェア構成(集積回路を用いる場合)を概略的に示すブロック図である。図5は、DSP、ASIC又はFPGAなどのLSIを用いて構成される音声強調装置100のハードウェア構成の一例を示す。図5の例では、音声強調装置100は、音響トランスデューサ101、信号入出力部112、信号処理回路111、情報を記憶する記録媒体114、及びバスなどの信号路115により構成されている。信号入出力部112は、音響トランスデューサ101及び外部装置102との接続機能を実現するインタフェース回路である。音響トランスデューサ101としては、例えば、マイクロホン又は音波振動センサなどの音響振動を捉えて電気信号へ変換する装置を使用することができる。
 図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42の各機能は、信号処理回路111及び記録媒体114で実現することができる。
 記録媒体114は、信号処理回路111の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体114としては、例えば、SDRAM(Synchronous DRAM)などの揮発性メモリ、HDD(ハードディスクドライブ)又はSSD(ソリッドステートドライブ)などの不揮発性メモリを使用することが可能であり、これに各フィルタの初期状態及び各種設定データを記憶しておくことができる。
 音声強調装置100による強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)は、信号入出力部112を経て外部装置102に送出される。外部装置102としては、例えば、テレビ受像機又はハンズフリー通話装置などに具備される音声音響処理装置である。音声音響処理装置は、パワーアンプなどの信号増幅装置及びスピーカなどの音声出力部を備えた装置である。
 図6は、実施の形態1に係る音声強調装置100のハードウェア構成(コンピュータにより実行されるプログラムを用いる場合)を概略的に示すブロック図である。図6は、コンピュータなどの演算装置を用いて構成される音声強調装置100のハードウェア構成の一例を示す。図6の例では、音声強調装置100は、信号入出力部122、CPU121を内蔵するプロセッサ120、メモリ123、記録媒体124及びバスなどの信号路125により構成される。信号入出力部122は、音響トランスデューサ101及び外部装置102との接続機能を実現するインタフェース回路である。メモリ123は、実施の形態1の音声強調処理を実現するための各種プログラムを記憶するプログラムメモリ、プロセッサがデータ処理を行う際に使用するワークメモリ、及び信号データを展開するメモリなどとして使用するROM(Read Only Memory)及びRAM(Random Access Memory)などの記憶手段である。
 図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42の各機能は、プロセッサ120及び記録媒体124で実現することができる。
 記録媒体124は、プロセッサ120の各種設定データ及び信号データなどの各種データを蓄積するために使用される。記録媒体124としては、例えば、SDRAMなどの揮発性メモリ、HDD又はSSDを使用することが可能である。OS(オペレーティングシステム)を含むプログラム及び、各種設定データ、フィルタの内部状態など音響信号データなどの各種データを蓄積することができる。なお、この記録媒体124に、メモリ123内のデータを蓄積しておくこともできる。
 プロセッサ120は、メモリ123中のRAMを作業用メモリとして使用し、メモリ123中のROMから読み出されたコンピュータプログラム(実施の形態1に係る音声処理プログラム)に従って動作することにより、図1に示される信号入力部11、第1のフィルタ21、第2のフィルタ22、第3のフィルタ23、第1の混合部31、第2の混合部32、第1の遅延制御部41、及び第2の遅延制御部42と同様の信号処理を実行することができる。
 上記音声強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)は、信号入出力部112又は122を経て外部装置102に送出される。外部装置としては、例えば、補聴装置、音声蓄積装置、ハンズフリー通話装置などの各種音声信号処理装置が相当する。また、音声強調処理が行われた第1及び第2の音声信号s~1(t),s~2(t)を録音し、この録音した第1及び第2の音声信号s~1(t),s~2(t)を別の音声出力装置で出力することも可能である。なお、実施の形態1に係る音声強調装置100は、上記他の装置と共にソフトウエアプログラムとして実行することで実現することも可能である。
 実施の形態1に係る音声強調装置100を実行する音声処理プログラムは、ソフトウエアプログラムを実行するコンピュータ内部の記憶装置に記憶していてもよいし、CD-ROM(光学式情報記録媒体)などの記憶媒体にて配布される形式でもよい。また、LAN(Local Area Network)などの無線及び有線ネットワークを通じて他のコンピュータからプログラムを取得することも可能である。さらに、実施の形態1に係る音声強調装置100に接続される音響トランスデューサ101及び外部装置102に関しても、無線及び有線ネットワークを通じて各種データを送受信してもよい。
《1-5》効果
 以上に説明したように、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、音声の基本周波数F0を両耳へ提示しつつ、両耳分離補聴を行うことができるので、明瞭で聞き取りやすい拡声音声を出力させる第1及び第2の音声信号s~1(t),s~2(t)を生成することができる。
 また、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、第1のフィルタ信号と第2のフィルタ信号とを適切な割合で混合して第1の混合信号とし、第1のフィルタ信号と第3のフィルタ信号とを適切な割合で混合して第2の混合信号とし、第1の混合信号に基づく第1の音声信号s~1(t)と、第2の混合信号に基づく第2の音声信号s~2(t)とにより左スピーカと右スピーカとからそれぞれ音声を出力させることができる。このため、片側に音声が偏って聴こえたり、左右の聴感的なバランスが崩れて違和感が生じたりすることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
 また、実施の形態1に係る音声強調装置100、音声強調方法、及び音声処理プログラムによれば、第1及び第2の音声信号s~1(t),s~2(t)の第1及び第2の遅延量D,Dを制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
 さらに、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少ない上、スピーカなどを用いるような拡声装置に適用した場合であっても両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置100を提供可能となる。
《2》実施の形態2.
 図7は、本発明の実施の形態2に係る音声強調装置200(カーナビゲーションシステムに適用された場合)の概略構成を示す図である。図7において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置200は、実施の形態2に係る音声強調方法及び実施の形態2に係る音声処理プログラムを実施することができる装置である。図7に示されるように、実施の形態2に係る音声強調装置200は、入力端子10を介して信号入力部11に入力信号を提供しているカーナビゲーションシステム600を有する点と、左スピーカ61及び右スピーカ62を有する点において、実施の形態1に係る音声強調装置100と相違する。
 実施の形態2に係る音声強調装置200は、車内ハンズフリー通話機能と、音声ガイド機能とを有するカーナビゲーションシステムの音声を処理する。図7に示されるように、カーナビゲーションシステム600は、電話機601と、運転者に音声メッセージを提供する音声ガイド装置602とを有する。その他の構成については、実施の形態2は、実施の形態1と同様である。
 電話機601は、例えば、カーナビゲーションシステム600に内蔵されている装置、又は、有線若しくは無線により接続された外付けの装置である。音声ガイド装置602は、例えば、カーナビゲーションシステム600に内蔵されている装置である。カーナビゲーションシステム600は、電話機601又は音声ガイド装置602から出力された受話音声を入力端子10へ出力する。
 また、音声ガイド装置602は、地図案内情報などのガイド音声を入力端子10へ出力する。第1の遅延制御部41から出力される第1の音声信号s~1(t)は、第1の出力端子51を介してL(左)スピーカ61に供給され、Lスピーカ61は第1の音声信号s~1(t)に基づく音を出力する。第2の遅延制御部42から出力される第2の音声信号s~2(t)は、第2の出力端子52を介してR(右)スピーカ62に供給され、Rスピーカ62は、第2の音声信号s~2(t)に基づく音を出力する。
 図7において、例えば、ユーザ(運転者)は、左ハンドル車の運転席に座っており、運転席に座るユーザの左耳とLスピーカ61との最短距離が約100cm、同ユーザの右耳とRスピーカ62との最短距離が約134cmである場合、Lスピーカ61とRスピーカ62との距離差は、約34cmである。常温での音速は、約340m/秒であるから、Lスピーカ61からの音の出力を1msec遅らせることで、Lスピーカ61とRスピーカ62から出力される音、つまり、電話の受話音声或いはガイド音声が、左耳に到達する時刻と右耳に到達する時刻とを一致させることができる。具体的には、第1の遅延制御部41から提供される第1の音声信号s~1(t)の第1の遅延量Dを1msecとし、第2の遅延制御部42から提供される第2の音声信号s~2(t)の第2の遅延量Dを0msec(遅延無し)とすればよい。なお、第1の遅延量D及び第2の遅延量Dの値は、上述の例に限定されず、ユーザの耳の位置に対するLスピーカ61とRスピーカ62の位置などの利用状況に応じて適宜変更することができる。具体的には、スピーカ61から左耳までの距離とRスピーカ62から右耳までの距離などの利用状況に応じて、適宜変更することができる。
 以上に説明したように、実施の形態2に係る音声強調装置200、音声強調方法、及び音声処理プログラムによれば、第1及び第2の音声信号s~1(t),s~2(t)の第1及び第2の遅延量D,Dを制御して複数のスピーカから出力される音のユーザの耳への到達時刻を揃えることができるため、片側に音声が偏って聴こえたり、音声が二重に聴こえたりするなどの左右の聴感的なバランスが崩れて違和感が生ずることをなくすることができ、明瞭で聞き取りやすい高品質な音声を提供することができる。
 また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置200を提供可能となる。上記以外の点に関して、実施の形態2は、実施の形態1と同じである。
《3》実施の形態3.
 図8は、本発明の実施の形態3に係る音声強調装置300(テレビ受像機に適用された場合)の概略構成を示す図である。図8において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置300は、実施の形態3に係る音声強調方法及び実施の形態3に係る音声処理プログラムを実施することができる装置である。図8に示されるように、実施の形態3に係る音声強調装置300は、入力端子10を介して信号入力部11に入力信号を提供しているテレビ受信機701及び疑似モノラル化部702を有する点と、左スピーカ61及び右スピーカ62を有する点と、テレビ受信機701のステレオ音声のL(左)チャンネル信号がLスピーカ61に供給されステレオ音声のR(右)チャンネル信号がRスピーカ62に供給される点において、実施の形態1に係る音声強調装置100と相違する。
 テレビ受信機701は、例えば、放送波を受信する外付けのビデオレコーダ、又は、テレビ受信機に内蔵されるビデオレコーダで録画されたビデオコンテンツを用い、Lチャンネル信号とRチャンネル信号から構成されるステレオ信号を出力する。テレビの音声は、一般に2チャンネルのステレオ信号に限らず、3チャンネル以上のマルチステレオ信号の場合もあるが、ここでは、説明を簡略化するため、2チャンネルのステレオ信号の場合を説明する。
 疑似モノラル化部702は、テレビ受信機701から出力されたステレオ信号を受け取り、(L+R)信号に(L-R)信号の逆位相信号を加算するなどの公知の手法により、例えば、ステレオ信号の中央に定位するアナウンサの音声だけを抽出する。ここで、(L+R)信号とは、Lチャンネル信号とRチャンネル信号を加算した疑似モノラル信号、(L-R)信号とは、Lチャンネル信号からRチャンネル信号を減算した信号、言い換えると、中央に定位する信号を減衰させた疑似モノラル信号である。
 疑似モノラル化部702で抽出したアナウンサの音声を入力端子10に入力し、実施の形態1で述べたと同様の処理を行い、テレビ受信機701から出力されるLチャンネル信号及びRチャンネル信号をそれぞれ加算した後、Lスピーカ61及びRスピーカ62から両耳分離補聴処理を行った音を出力する。このような構成をなすことで、従来のステレオ音声を維持したまま、ステレオ信号の中央に定位するアナウンサの声だけを強調することが可能となる。
 実施の形態3では、説明の簡略化のために2チャンネルのステレオ信号で例示したが、実施の形態3の方法は、例えば、5.1チャンネルステレオなどの3チャンネル以上のマルチステレオ信号にも適用可能であり、実施の形態3で述べたのと同様の効果を奏功する。
 実施の形態3では、Lスピーカ61及びRスピーカ62をテレビ受信機701の外部装置として説明しているが、例えば、テレビ受信機が内蔵するスピーカ或いは、ヘッドホンなどの音響装置を用いてもよい。また、疑似モノラル化部702を入力端子10に入力する前の処理として説明しているが、テレビ受信機701から出力されるステレオ信号を入力端子10に入力し、その後に疑似モノラル化処理を行ってもよい。
 以上に説明したように、実施の形態3に係る音声強調装置300、音声強調方法、及び音声処理プログラムによれば、ステレオ信号であっても中央に定位するアナウンサの声を強調するような両耳分離補聴方法を実現することができる。
 また、通常の難聴者だけでなく、軽度の難聴者及び健常者が利用しても違和感が少なく、両耳分離補聴効果が低減することがない両耳分離補聴方法を実現することができ、高品質な音声強調装置300を提供可能となる。上記以外の点に関して、実施の形態3は、実施の形態1と同じである。
《4》実施の形態4.
 上記実施の形態1から3では、第1の音声信号s~1(t)と第2の音声信号s~2(t)とがLスピーカ61とRスピーカ62とに直接出力される場合を説明した。これに対し、実施の形態4に係る音声強調装置400は、第1の音声信号s~1(t)及び第2の音声信号s~2(t)に、クロストークキャンセル処理を行うクロストークキャンセラ70を備えている。
 図9は、実施の形態4に係る音声強調装置400の概略構成を示す機能ブロック図である。図9において、図1に示される構成要素と同一又は対応する構成要素には、図1に示される符号と同じ符号が付される。音声強調装置400は、実施の形態4に係る音声強調方法及び実施の形態4に係る音声処理プログラムを実施することができる装置である。図9に示されるように、実施の形態4に係る音声強調装置400は、2つのクロストークキャンセラ(CTC)70が備えられている点において、実施の形態1に係る音声強調装置100と相違する。その他の構成については、実施の形態4は実施の形態1と同様である。
 例えば、第1の音声信号s~1n(t)がLチャンネル音声(左耳だけに提示したい音声)信号であり、第2の音声信号s~2n(t)がRチャンネル音声(右耳だけに提示したい音声)信号である場合を考える。Lチャンネル音声は、左耳だけに到達させたい音声であるが、実際には、Lチャンネル音声のクロストーク成分が右耳にも到達する。また、Rチャンネル音声は、右耳だけに到達させたい音声であるが、実際には、Rチャンネル音声のクロストーク成分が左耳にも到達する。そこで、クロストークキャンセラ70は、Lチャンネル音声のクロストーク成分に相当する信号を第1の音声信号s~1n(t)から減算し、Rチャンネル音声のクロストーク成分に相当する信号を第2の音声信号s~2n(t)から減算することで、クロストーク成分を打ち消している。クロストーク成分をキャンセルするためのクロストークキャンセル処理は、適応フィルタなどの公知の方法である。
 以上に説明したように、実施の形態4に係る音声強調装置400、音声強調方法、及び音声処理プログラムによれば、第1及び第2の出力端子から出力される信号のクロストーク成分を打ち消す処理を行うので、両耳に届く2つの音の相互の分離効果を高めることができる。このため、拡声装置に適用した場合に両耳分離補聴効果を更に高めることができ、更に高品質な音声強調装置400を提供可能となる。
《5》実施の形態5.
 上記実施の形態4では、入力信号の様態によらず両耳分離補聴処理を行う場合を説明したが、実施の形態5では、入力信号を分析し、この分析の結果に応じた内容の両耳分離補聴処理を行う場合を説明する。実施の形態5に係る音声強調装置は、入力信号が母音の場合に両耳分離補聴処理を行う。
 図10は、実施の形態5に係る音声強調装置500の概略構成を示す機能ブロック図である。図10において、図9に示される構成要素と同一又は対応する構成要素には、図9に示される符号と同じ符号が付される。音声強調装置500は、実施の形態5に係る音声強調方法及び実施の形態5に係る音声処理プログラムを実施することができる装置である。実施の形態5に係る音声強調装置500は、信号分析部80を備える点において、実施の形態4に係る音声強調装置400と相違する。
 信号分析部80は、信号入力部11から出力される入力信号x(t)に対し、例えば、自己相関係数分析などの公知の分析手法により、入力信号が母音を示す信号であるか又は母音以外の音(子音又は雑音)を示す信号であるかどうかの分析を行う。入力信号の分析の結果、入力信号が子音又は雑音を示す信号である場合、信号分析部80は、第1の混合部31と第2の混合部32の出力を停止させ(すなわち、フィルタ処理を行った信号の出力を停止し)、第1の遅延制御部41及び第2の遅延制御部42に入力信号x(t)を直接入力する。上記以外の構成及び動作に関して、実施の形態5は、実施の形態4と同じである。
 図11は、実施の形態5に係る音声強調装置500によって実行される音声強調処理(音声強調方法)の一例を示すフローチャートである。図11において、図4と同一の処理ステップには、図4に示されるステップ番号と同じステップ番号が付される。実施の形態5に係る音声強調装置500によって実行される音声強調処理は、入力信号が母音の音声信号であるか否かの判断ステップST51を有する点、及び、入力信号が母音の音声信号でない場合に、処理をステップST7Aに進める点が、実施の形態1の処理と異なる。この点を除いて、実施の形態5における処理は、実施の形態1における処理と同じである。
 以上に説明したように、実施の形態5に係る音声強調装置500、音声強調方法、及び音声処理プログラムによれば、入力信号の様態に応じて両耳分離補聴処理を行うことができるので、補聴の必要のない子音及び雑音などを不要に強調することがなくなり、更に高品質な音声強調装置500を提供可能となる。
《6》変形例
 上記実施の形態1から5では、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23は、時間軸上におけるフィルタ処理を実行している。しかし、第1のフィルタ21、第2のフィルタ22、及び第3のフィルタ23の各々を、FFT部(高速フーリエ変換部)と、周波数軸上におけるフィルタ処理を行うフィルタ処理部と、IFFT部(逆高速フーリエ変換部)とで構成することも可能である。この場合には、第1のフィルタ21のフィルタ処理部、第2のフィルタ22のフィルタ処理部、及び第3のフィルタ23のフィルタ処理部の各々は、通過帯域のスペクトルのゲインを1とし、減衰させる帯域のスペクトルのゲインを0とすることで実現することができる。
 上記実施の形態1から5では、サンプリング周波数が16kHzである場合を説明したが、サンプリング周波数はこの値に限定されない。例えば、サンプリング周波数を、8kHz又は48kHzのような他の周波数に設定することも可能である。
 上記実施の形態2及び3では、音声強調装置がカーナビゲーションシステム及びテレビ受信機に適用された例を説明した。しかし、実施の形態1から5に係る音声強調装置は、カーナビゲーションシステム及びテレビ受信機以外のシステム又は装置であって、複数のスピーカを備えるシステム又は装置に適用可能である。実施の形態1から5に係る音声強調装置は、例えば、展示会場などにおける音声ガイドシステム、テレビ会議システム、及び列車内における音声案内システムなどに適用可能である。
 上記実施の形態1から5は、本発明の範囲内において、構成要素の種々の変形、構成要素の追加及び省略が可能である。
 上記実施の形態1から5に係る音声強調装置、音声強調方法、及び音声処理プログラムは、音声通信システム、音声蓄積システム、及び音声拡声システムに適用可能である。
 音声通信システムに適用される場合には、音声通信システムは、実施の形態1から5のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を送信及び音声強調装置に入力される信号を受信するための通信装置を備える。
 音声蓄積システムに適用される場合には、音声蓄積システムは、実施の形態1から5のいずれかの音声強調装置に加えて、情報を記憶する記憶装置と、音声強調装置から出力された第1及び第2の音声信号s~1(t),s~2(t)を記憶装置に記憶させる書き込み装置と、記憶装置から第1及び第2の音声信号s~1(t),s~2(t)を読み出して音声強調装置に入力させる読み出し装置とを備える。
 音声拡声システムに適用される場合には、音声拡声システムは、実施の形態1から5のいずれかの音声強調装置に加えて、音声強調装置から出力された信号を増幅する増幅回路と、増幅された第1及び第2の音声信号s~1(t),s~2(t)に基づく音を出力する複数のスピーカとを備える。
 また、実施の形態1から5に係る音声強調装置、音声強調方法、及び音声処理プログラムは、カーナビゲーションシステム、携帯電話、インターフォン、テレビ受像機、ハンズフリー電話システム、TV会議システムに適用可能である。これらのシステム又は装置に適用される場合には、これらのシステム又は装置から出力される音声信号から、一方の耳用の第1の音声信号s~1(t)と他方の耳用の第2の音声信号s~2(t)とが生成される。実施の形態1から5が適用されたシステム又は装置のユーザは、明瞭な音声を知覚することができる。
 10 入力端子、 11 信号入力部、 21 第1のフィルタ、 22 第2のフィルタ、 23 第3のフィルタ、 31 第1の混合部、 32 第2の混合部、 41 第1の遅延制御部、 42 第2の遅延制御部、 51 第1の出力端子、 52 第2の出力端子、 61 Lスピーカ、 62 Rスピーカ、 100,200,300,400,500 音声強調装置、 101 音響トランスデューサ、 111 信号処理回路、 112 信号入出力部、 114 記録媒体、 115 信号路、 120 プロセッサ、 121 CPU、 122 信号入出力部、 123 メモリ、 124 記録媒体、 125 信号路、 600 カーナビゲーションシステム、 601 電話機、 602 音声ガイド装置、 701 テレビ受信機、 702 疑似モノラル化部。

Claims (9)

  1.  入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調装置であって、
     前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の第1の帯域成分を抽出し、前記第1の帯域成分を第1のフィルタ信号として出力する第1のフィルタと、
     前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する第2のフィルタと、
     前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する第3のフィルタと、
     前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する第1の混合部と、
     前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する第2の混合部と、
     前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する第1の遅延制御部と、
     前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する第2の遅延制御部と
     を有することを特徴とする音声強調装置。
  2.  前記第1の混合部は、予め決められた第1の混合割合で前記第1のフィルタ信号と前記第2のフィルタ信号とを混合し、
     前記第2の混合部は、予め決められた第2の混合割合で前記第1のフィルタ信号と前記第3のフィルタ信号とを混合する
     ことを特徴とする請求項1に記載の音声強調装置。
  3.  前記第1の遅延量は、0以上の時間であり、
     前記第2の遅延量は、0以上の時間であり、
     前記第1の遅延量と前記第2の遅延量とは異なる
     ことを特徴とする請求項1又は2に記載の音声強調装置。
  4.  前記第1の音声信号に基づく音を出力する第1のスピーカと、
     前記第2の音声信号に基づく音を出力する第2のスピーカと、
     をさらに有し、
     前記第1の遅延量及び前記第2の遅延量は、前記第1のスピーカから前記第1の耳までの距離と前記第2のスピーカから前記第2の耳までの距離とに基づいて、予め決定される
     ことを特徴とする請求項1から3のいずれか1項に記載の音声強調装置。
  5.  前記第1の音声信号に基づく音を出力する第1のスピーカと、
     前記第2の音声信号に基づく音を出力する第2のスピーカと、
     前記第2のスピーカから前記第1の耳に到達する前記第2の音声信号に基づく音のクロストーク成分と、前記第1のスピーカから前記第2の耳に到達する前記第1の音声信号に基づく音のクロストーク成分とを打ち消すクロストークキャンセラと
     をさらに有することを特徴とする請求項1から3のいずれか1項に記載の音声強調装置。
  6.  前記入力信号の状態を分析する信号分析部をさらに有し、
     前記信号分析部による分析の結果に応じて、前記第1及び第2の遅延制御部にそれぞれ入力される信号を、前記第1及び第2の混合信号から前記入力信号に切り替える
     ことを特徴とする請求項1から5のいずれか1項に記載の音声強調装置。
  7.  前記信号分析部は、前記入力信号が母音を示す信号でない場合に、前記第1及び第2の遅延制御部にそれぞれ入力される信号を、前記第1及び第2の混合信号から前記入力信号に切り替える
     ことを特徴とする請求項6に記載の音声強調装置。
  8.  入力信号を受け取り、前記入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する音声強調方法であって、
     前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の第1の帯域成分を抽出し、前記第1の帯域成分を第1のフィルタ信号として出力するステップと、
     前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力するステップと、
     前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力するステップと、
     前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力するステップと、
     前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力するステップと、
     前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成するステップと、
     前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成するステップと
     を有することを特徴とする音声強調方法。
  9.  コンピュータに、
     入力信号から第1の耳用の第1の音声信号と前記第1の耳の反対側の第2の耳用の第2の音声信号とを生成する処理を実行するために、
     前記入力信号から音声の基本周波数を含む予め決められた周波数帯域の第1の帯域成分を抽出し、前記第1の帯域成分を第1のフィルタ信号として出力する処理と、
     前記入力信号から音声の第1フォルマントを含む予め決められた周波数帯域の第2の帯域成分を抽出し、前記第2の帯域成分を第2のフィルタ信号として出力する処理と、
     前記入力信号から音声の第2フォルマントを含む予め決められた周波数帯域の第3の帯域成分を抽出し、前記第3の帯域成分を第3のフィルタ信号として出力する処理と、
     前記第1のフィルタ信号と前記第2のフィルタ信号とを混合することによって第1の混合信号を出力する処理と、
     前記第1のフィルタ信号と前記第3のフィルタ信号とを混合することによって第2の混合信号を出力する処理と、
     前記第1の混合信号を予め決められた第1の遅延量、遅延させることによって、前記第1の音声信号を生成する処理と、
     前記第2の混合信号を予め決められた第2の遅延量、遅延させることによって、前記第2の音声信号を生成する処理と
     を実行させるための音声処理プログラム。
PCT/JP2016/086502 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム WO2018105077A1 (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
PCT/JP2016/086502 WO2018105077A1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム
US16/343,946 US10997983B2 (en) 2016-12-08 2016-12-08 Speech enhancement device, speech enhancement method, and non-transitory computer-readable medium
JP2017520547A JP6177480B1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム
CN201680091248.0A CN110024418B (zh) 2016-12-08 2016-12-08 声音增强装置、声音增强方法和计算机可读取的记录介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2016/086502 WO2018105077A1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム

Publications (1)

Publication Number Publication Date
WO2018105077A1 true WO2018105077A1 (ja) 2018-06-14

Family

ID=59559182

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2016/086502 WO2018105077A1 (ja) 2016-12-08 2016-12-08 音声強調装置、音声強調方法、及び音声処理プログラム

Country Status (4)

Country Link
US (1) US10997983B2 (ja)
JP (1) JP6177480B1 (ja)
CN (1) CN110024418B (ja)
WO (1) WO2018105077A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10997983B2 (en) * 2016-12-08 2021-05-04 Mitsubishi Electric Corporation Speech enhancement device, speech enhancement method, and non-transitory computer-readable medium
WO2019063547A1 (en) * 2017-09-26 2019-04-04 Sony Europe Limited METHOD AND ELECTRONIC DEVICE FOR ATTENUATION / AMPLIFICATION OF FORMER
WO2019106742A1 (ja) * 2017-11-29 2019-06-06 株式会社ソシオネクスト 信号処理装置
CN115206142B (zh) * 2022-06-10 2023-12-26 深圳大学 一种基于共振峰的语音训练方法及系统
CN115460516A (zh) * 2022-09-05 2022-12-09 中国第一汽车股份有限公司 单声道转立体声的信号处理方法、装置、设备及介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328798A (ja) * 1991-03-27 1992-11-17 Hughes Aircraft Co パブリックアドレス明瞭度強調システム
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH08146974A (ja) * 1994-11-15 1996-06-07 Yamaha Corp 音像音場制御装置
JPH1117778A (ja) * 1997-06-23 1999-01-22 Sony Corp 音声信号の処理回路
JP2010028515A (ja) * 2008-07-22 2010-02-04 Nec Saitama Ltd 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
WO2011064950A1 (ja) * 2009-11-25 2011-06-03 パナソニック株式会社 補聴システム、補聴方法、プログラムおよび集積回路
JP2013137385A (ja) * 2011-12-28 2013-07-11 Yamaha Corp 音声明瞭化装置

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4443859A (en) * 1981-07-06 1984-04-17 Texas Instruments Incorporated Speech analysis circuits using an inverse lattice network
WO2004097799A1 (en) * 2003-04-24 2004-11-11 Massachusetts Institute Of Technology System and method for spectral enhancement employing compression and expansion
KR101393298B1 (ko) * 2006-07-08 2014-05-12 삼성전자주식회사 적응적 부호화/복호화 방법 및 장치
JP5564743B2 (ja) * 2006-11-13 2014-08-06 ソニー株式会社 ノイズキャンセル用のフィルタ回路、ノイズ低減信号生成方法、およびノイズキャンセリングシステム
EP2190217B1 (en) * 2008-11-24 2012-02-22 Oticon A/S Method to reduce feedback in hearing aids and corresponding apparatus and corresponding computer program product
KR101337806B1 (ko) * 2009-07-15 2013-12-06 비덱스 에이/에스 보청기 시스템에서의 적응적 바람 잡음 억제를 위한 방법 및 처리 장치와 보청기 시스템
WO2011044395A1 (en) * 2009-10-09 2011-04-14 National Acquisition Sub, Inc. An input signal mismatch compensation system
JP6296219B2 (ja) * 2012-07-13 2018-03-20 パナソニックIpマネジメント株式会社 補聴装置
US10997983B2 (en) * 2016-12-08 2021-05-04 Mitsubishi Electric Corporation Speech enhancement device, speech enhancement method, and non-transitory computer-readable medium
GB2563687B (en) * 2017-06-19 2019-11-20 Cirrus Logic Int Semiconductor Ltd Audio test mode

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04328798A (ja) * 1991-03-27 1992-11-17 Hughes Aircraft Co パブリックアドレス明瞭度強調システム
JPH06289897A (ja) * 1993-03-31 1994-10-18 Sony Corp 音声信号処理装置
JPH08146974A (ja) * 1994-11-15 1996-06-07 Yamaha Corp 音像音場制御装置
JPH1117778A (ja) * 1997-06-23 1999-01-22 Sony Corp 音声信号の処理回路
JP2010028515A (ja) * 2008-07-22 2010-02-04 Nec Saitama Ltd 音声強調装置、携帯端末、音声強調方法および音声強調プログラム
WO2011064950A1 (ja) * 2009-11-25 2011-06-03 パナソニック株式会社 補聴システム、補聴方法、プログラムおよび集積回路
JP2013137385A (ja) * 2011-12-28 2013-07-11 Yamaha Corp 音声明瞭化装置

Also Published As

Publication number Publication date
US10997983B2 (en) 2021-05-04
JPWO2018105077A1 (ja) 2018-12-06
CN110024418B (zh) 2020-12-29
US20190287547A1 (en) 2019-09-19
CN110024418A (zh) 2019-07-16
JP6177480B1 (ja) 2017-08-09

Similar Documents

Publication Publication Date Title
JP6177480B1 (ja) 音声強調装置、音声強調方法、及び音声処理プログラム
US9681246B2 (en) Bionic hearing headset
US8611554B2 (en) Hearing assistance apparatus
JP3670562B2 (ja) ステレオ音響信号処理方法及び装置並びにステレオ音響信号処理プログラムを記録した記録媒体
JP5593852B2 (ja) 音声信号処理装置、音声信号処理方法
EP3020212B1 (en) Pre-processing of a channelized music signal
US20100303245A1 (en) Diffusing acoustical crosstalk
EP2984857B1 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
CN107039029B (zh) 头盔中具有有源噪声控制的声音再现
US9191755B2 (en) Spatial enhancement mode for hearing aids
US20090180626A1 (en) Signal processing apparatus, signal processing method, and storage medium
JP2000059893A (ja) 音声聴取補助装置および方法
US9794678B2 (en) Psycho-acoustic noise suppression
US20230319492A1 (en) Adaptive binaural filtering for listening system using remote signal sources and on-ear microphones
JP2011010246A (ja) 音声変調器および音声データ変調器
WO2015157827A1 (en) Retaining binaural cues when mixing microphone signals
Liski Adaptive hear-through headset
KR100693702B1 (ko) 음성 출력 장치의 음성 출력 방법
JP2015065551A (ja) 音声再生システム
JP2007221445A (ja) サラウンドシステム
Hongo et al. Two-input two-output speech enhancement with binaural spatial information using a soft decision mask filter
JP2016148774A (ja) 音信号処理装置及び音信号処理プログラム

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref document number: 2017520547

Country of ref document: JP

Kind code of ref document: A

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16923621

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16923621

Country of ref document: EP

Kind code of ref document: A1