WO2014163231A1 - 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 - Google Patents

복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 Download PDF

Info

Publication number
WO2014163231A1
WO2014163231A1 PCT/KR2013/004042 KR2013004042W WO2014163231A1 WO 2014163231 A1 WO2014163231 A1 WO 2014163231A1 KR 2013004042 W KR2013004042 W KR 2013004042W WO 2014163231 A1 WO2014163231 A1 WO 2014163231A1
Authority
WO
WIPO (PCT)
Prior art keywords
signal
noise
audio
speech
frequency
Prior art date
Application number
PCT/KR2013/004042
Other languages
English (en)
French (fr)
Inventor
김승영
조정권
Original Assignee
주식회사 금영
주식회사 시그테크
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 금영, 주식회사 시그테크 filed Critical 주식회사 금영
Publication of WO2014163231A1 publication Critical patent/WO2014163231A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02165Two microphones, one receiving mainly the noise signal and the other one mainly the speech signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Definitions

  • the present invention relates to a method of extracting a voice signal and an apparatus for extracting a voice signal in an environment in which a plurality of sound sources are output. Specifically, the present invention relates to a voice input to be used for song search or control commands in an environment such as karaoke. The present invention relates to a method for extracting a speech signal and an apparatus for extracting a speech signal to be used for speech recognition under an environment in which a plurality of sound sources are outputted in consideration of noise.
  • speech recognition technology has been widely used to reach a level that can be utilized in smart phones, etc., and usually provides a certain level of speech recognition rate in a personal environment.
  • the noise is excessive outside the smartphone, the noise cannot be easily distinguished from the user's voice for speech recognition, and the conventional speech recognition technology does not provide satisfactory speech recognition rate.
  • a karaoke environment in which a user selects a song and can sing a song is an environment in which voice recognition technology is naturally applied by providing a plurality of microphones used by the user.
  • this karaoke environment is a speaker and song accompaniment device that is connected to a song accompaniment device and a song accompaniment device capable of playing a selected song and outputs the audio signal decoded from the song accompaniment device to the user It is connected to the display and outputs a lyrics image to the user.
  • the karaoke environment also has one or more microphones so that the song accompaniment device synthesizes the voice signals received from the microphones into the decoded audio signals and outputs them to the speaker.
  • the karaoke environment includes a remote control that allows you to select songs on the song accompaniment device, or a song finder that searches for songs built into the song accompaniment device and delivers the selected songs to the song accompaniment device according to the selection of the found songs. There may be more.
  • Such a karaoke environment is such that the user's voice signal is received through a microphone to sing along with the selected song as the selected song is played, and furthermore, the audio file or MIDI selected in response to the voice signal and the selected song or in a standby state.
  • This is an environment where a high level of noise that is decoded and output to a speaker is generated.
  • the karaoke environment that provides a commercial service has a microphone and the like, but provides a natural application environment of speech recognition technology.
  • a song search apparatus using voice recognition technology in a karaoke environment and its method (Publication Number: 10-2010-0086457, July 30, 2010, Republic of Korea Patent Office) in the microphone
  • a noise signal is estimated from an input user's voice to remove the estimated noise signal and search for a song name.
  • the present invention estimates whether it is noise or voice on one microphone, and accordingly, a high level of noise, such as a karaoke environment, is generated and echoes are generated according to the sound generated by the voice or by the playback in a song accompaniment device.
  • a high level of noise such as a karaoke environment
  • echoes are generated according to the sound generated by the voice or by the playback in a song accompaniment device.
  • speech recognition is performed under an environment in which a plurality of sound sources are output, which effectively removes noise to enable speech recognition in a situation where the noise level is high, such as a karaoke environment, and the noise dynamically changes due to various kinds of noise.
  • a method of extracting a speech signal and an apparatus for extracting a speech signal.
  • the song accompaniment apparatus has limited resources.
  • the song accompaniment apparatus has a two-channel analog-to-digital converter (ADC) for converting an external microphone signal into a digital signal or a processor having limited performance.
  • ADC analog-to-digital converter
  • the speech signal is to be extracted for the voice recognition under the environment where a plurality of sound sources are output.
  • a method and an apparatus for extracting voice signals are required.
  • the present invention has been made to solve the above-described problem, and the present invention provides a plurality of signals that can easily remove a noise signal by using signal differences between a plurality of microphones, and can remove a noise signal regardless of the type of noise.
  • An object of the present invention is to provide a method for extracting a speech signal and an apparatus for extracting a speech signal, which are to be used for speech recognition under an environment in which a sound source is output.
  • the present invention also easily estimates a noise section and a target section for speech recognition from signals of a plurality of microphones, and continuously updates the filter coefficients used for extracting the noise signal from the estimated noise section, thereby making the speech to be used for speech recognition.
  • Another object of the present invention is to provide a method of extracting a speech signal and an apparatus for extracting a speech signal, which are used for speech recognition under an environment in which a plurality of sound sources are output, so that the speech recognition rate of the signal is improved.
  • the present invention is applicable to a variety of existing hardware structures, such as song accompaniment apparatus, etc. and to reduce the use of resources such as performance performance, a method of extracting a speech signal to be used for speech recognition under the environment that the plurality of sound sources are output
  • another object of the present invention is to provide an apparatus for extracting an audio signal.
  • a method of extracting a speech signal to be used for speech recognition under an environment in which a plurality of sound sources are output includes: a first audio signal received through one microphone and one or more microphones different from the one microphone; Estimating whether the noise section or the target section in which the voice signal is received is estimated based on the second audio signal received through the step, and when the estimation in the estimating step is the noise section, applies to the noise signal to be estimated from the second audio signal. Updating the filter coefficients to be used and estimating a noise signal from the second audio signal using the updated filter coefficients for extraction of the speech signal to be used for speech recognition, wherein the filter coefficients Is updated.
  • a method of extracting a speech signal and a speech signal extractor to be used for speech recognition under an environment in which a plurality of sound sources are output and easily removes a noise signal by using signal differences between a plurality of microphones, and makes noise. There is an effect to remove the noise signal regardless of the type of.
  • the voice signal extraction method and the voice signal extraction apparatus to be used for speech recognition under the environment in which the plurality of sound sources according to the present invention are output the noise section and the target section for speech recognition easily from the signal of the plurality of microphones It is effective to improve the speech recognition rate for the speech signal to be used for speech recognition by continuously updating the filter coefficients used to extract the noise signal in the estimated noise section.
  • the speech signal extraction method and the speech signal extraction apparatus to be used for speech recognition under the environment in which a plurality of sound sources are output as described above are applicable to various existing hardware structures such as a song accompaniment apparatus and perform performance. This has the effect of reducing the use of resources such as
  • FIG. 1 is a diagram illustrating a karaoke environment including a plurality of devices.
  • FIG. 2 is a diagram showing a first exemplary hardware block diagram of a speech signal extraction apparatus.
  • FIG. 3 is a diagram showing a second exemplary hardware block diagram of a speech signal extraction apparatus.
  • FIG. 4 is a diagram illustrating a third exemplary hardware block diagram of the speech signal extraction apparatus.
  • FIG. 5 is a diagram illustrating an exemplary functional block diagram of a speech signal extraction apparatus.
  • FIG. 6 is a diagram illustrating a control flow for extracting a speech signal to be used for speech recognition performed by the speech signal extraction apparatus.
  • Audio ADC 111 Audio DAC
  • analog synthesizer 203 analog-to-digital converter
  • destination signal generator 211 voice signal generator
  • section estimator 215 coefficient updater
  • FIG. 2 is a diagram showing a first exemplary hardware block diagram of a speech signal extraction apparatus.
  • the apparatus for extracting a voice signal includes an input interface 101, a memory 105, an audio ADC 109, a processor 113, a wireless interface 127, a noise microphone terminal 117, and voice recognition.
  • the voice signal extracting apparatus may be a remote controller or a song finder that is connected to the song accompaniment apparatus and wirelessly communicates with the song accompaniment apparatus.
  • the voice signal extracting apparatus extracts a voice signal for voice recognition easily by using a difference between audio signals such as voice signals received from the noise microphone terminal 117 and the voice recognition microphone terminal 119. Then, the extracted voice signal may be wirelessly transmitted to the song accompaniment apparatus, or control data determined from the voice signal may be wirelessly transmitted.
  • the input interface 101 is an interface for receiving an input from a user who uses a voice signal extraction apparatus and includes a numeric button, a function key button, or the like, or a touch panel.
  • the input interface 101 receives a function number or a function key (for example, "reservation”, “start”, “end”, etc.) to be used in the song accompaniment device, or is performed on the voice signal extraction device. And so on.
  • the memory 105 includes a nonvolatile memory such as NOR Flash or Nand Flash, and further includes a volatile memory such as DRAM.
  • the memory 105 may store various programs executed on the processor 113 and further temporarily store data used in the various programs.
  • the noise microphone terminal 117 is a terminal for receiving noise generated outside the voice signal extraction apparatus.
  • the noise microphone terminal 117 for example, to collect audio or voice generated outside the voice signal extraction device.
  • the noise microphone terminal 117 is connected to a handheld microphone connected to the outside of the voice signal extraction device, or to a microphone embedded in an instrument such as a case of the voice signal extraction device.
  • the microphone terminal 119 for voice recognition is a terminal for receiving a voice signal to be used for voice recognition, such as a voice command for retrieving a content such as a predetermined voice command or an arbitrary song.
  • the microphone terminal 119 for voice recognition is connected to a handheld microphone connected to the outside of the voice signal extraction device, or to a microphone embedded in an instrument such as a case of the voice signal extraction device.
  • each of the noise microphone terminal 117 and the voice recognition microphone terminal 119 may be previously designated.
  • the voice or noise received from the two microphone terminals it is possible to easily extract the voice signal to be used for voice recognition.
  • the audio ADC 109 is connected to the noise microphone terminal 117 and the voice recognition microphone terminal 119 to convert an analog signal according to a specified sampling rate of a specified bit size (for example, 16 bits). Convert to a digital signal.
  • the wireless interface 127 is an interface for wirelessly connecting to a device such as a song accompaniment device provided outside the voice signal extracting device such as a remote controller or a music finder.
  • the air interface 127 may be, for example, used to connect to a short-range wireless communication network such as a light emitting diode that enables IRDA (Infrared Data Association) communication or Bluetooth, Zigbee, or WiFi. It includes an antenna or modulator / demodulator.
  • a short-range wireless communication network such as a light emitting diode that enables IRDA (Infrared Data Association) communication or Bluetooth, Zigbee, or WiFi. It includes an antenna or modulator / demodulator.
  • the processor 113 controls each hardware block of the speech signal extraction apparatus.
  • the processor 113 may be, for example, a digital signal processor (DSP), a central processing unit (CPU), a micro processor unit (MPU), dedicated logic, or the like, or a combination thereof.
  • DSP digital signal processor
  • CPU central processing unit
  • MPU micro processor unit
  • the processor 113 may operate differently according to the type of each processor 113, and may preferably control the respective hardware blocks using a program stored in the memory 105.
  • the processor 113 wirelessly transmits the control command or the voice signal itself according to the voice signal transmitted through the wireless interface 127 or the input received through the input interface 101 or recognized through the audio ADC 109. The transmission may be made through the interface 127.
  • a method of extracting a speech signal to be used for speech recognition which is performed on the processor 113 or on the hardware block diagram of FIG. 2, will be described in detail with reference to FIGS. 5 and 6.
  • FIG. 3 is a diagram showing a second exemplary hardware block diagram of a speech signal extraction apparatus.
  • the audio signal extracting apparatus includes an input interface 101, a video output interface 103, a memory 105, a mass storage medium 107, an audio ADC 109, an audio DAC 111, and a processor ( 113), a microphone terminal 115 for singing, a microphone terminal 117 for noise, a microphone terminal 119 for voice recognition, a left speaker output terminal 121, a right speaker output terminal 123, and a system bus / control bus ( 125 and air interface 127.
  • the apparatus for extracting a voice signal may be a song accompaniment apparatus which decodes a MIDI file or an audio file corresponding to the selected song and further synthesizes the user's voice into the decoded audio signal and outputs the same to the speaker.
  • Such a speech signal extracting apparatus can extract a speech signal for speech recognition easily by using a difference between audio signals, and then select a song or search a song using the extracted speech signal, or according to a specified control command.
  • Signal extraction apparatus can be controlled.
  • the input interface 101 is an interface for receiving an input from a user who uses a voice signal extraction device such as a song accompaniment device, and includes a numeric button, a function key button, and the like. .
  • This input interface 101 allows receiving a song number or function key (for example, “reservation”, “start”, “end”, etc.).
  • the video output interface 103 outputs a video signal in a video format designated for a display connected to this audio signal extraction device.
  • This video output interface 103 may include a video encoder capable of encoding digital video data into a designated video format.
  • the memory 105 includes a nonvolatile memory such as NOR Flash or Nand Flash, and further includes a volatile memory such as DRAM.
  • the memory 105 includes an initialization program necessary for booting the voice signal extraction apparatus and can store temporary data and the like used in various programs executed on the processor 113.
  • the mass storage medium 107 is a storage medium capable of storing a plurality of audio contents, a plurality of video contents, and various programs, and may be, for example, a hard disk, a digital versatile disc, a blue ray disc, or the like. have.
  • the mass storage medium 107 may further include a database for selecting a song, which is a content that can be selected by the audio signal extraction apparatus, or a search for a song, and the database corresponds to a MIDI corresponding to the song number. It is possible to identify a file or a compressed audio file, and further identify a summary information such as a singer, lyrics, composer, songwriter, release date or popularity corresponding to each song number.
  • the database may also include feature vectors to be used for speech recognition for each song.
  • the feature vector for each song may correspond to summary information such as lyrics, singer, composer, or the like, or correspond to a song number.
  • the database may further include a feature vector corresponding to a control command for controlling this speech signal extraction device, such as a song accompaniment device.
  • a feature vector corresponding to a control command for controlling this speech signal extraction device, such as a song accompaniment device.
  • the feature vector may be information extracted on the time domain or the frequency domain, for example, LPCC (Linear Prediction Cepstral Coefficient) or MFCC (Mel Frequency Cepstral Coefficient).
  • LPCC Linear Prediction Cepstral Coefficient
  • MFCC Mel Frequency Cepstral Coefficient
  • the singing microphone terminal 115 is a terminal used by a user to sing a song using this audio signal extracting device such as a song accompaniment device. This singing microphone terminal 115 allows the user to pick up the voice spoken and further to pick up a small amount of external noise. This singing microphone terminal 115 is connected to a handheld microphone, for example.
  • the noise microphone terminal 117 is a terminal for receiving noise generated outside the voice signal extraction apparatus.
  • the noise microphone terminal 117 may be configured to be connected to a microphone that is connected to a handheld microphone or embedded in an apparatus such as a case of a voice signal extraction device.
  • the microphone terminal 119 for speech recognition is a terminal for receiving a speech signal to be used for speech recognition in order to search for content such as a word of a predetermined speech command or an arbitrary tune.
  • the microphone terminal 119 for voice recognition may be configured to be connected to a handheld microphone connected to an external voice signal extraction device.
  • the voice signal through the noise microphone terminal 117 includes noise such as a voice voice or a performance sound for singing a user's song generated in a karaoke environment, and a low power input through the microphone terminal 119 for voice recognition.
  • the voice of the level may include.
  • the voice signal through the voice recognition microphone terminal 119 may further include noise as well as voice to be used for voice recognition.
  • Eliminating this noise can increase the recognition rate of the speech recognition, thereby allowing the control of the song accompaniment device through the speech recognition even in a noisy karaoke environment.
  • each of the singing microphone terminal 115, the noise microphone terminal 117, and the voice recognition microphone terminal 119 may be previously designated.
  • the audio ADC 109 is connected to the singing microphone terminal 115, the noise microphone terminal 117, and the voice recognition microphone terminal 119 to convert an analog signal according to a specified sampling rate (bit rate). For example, 16 bits).
  • the audio ADC 109 may have a limited number of input signals, and for example, may process only two input signals as shown in FIG. 3. Accordingly, the analog signals from the at least one singing microphone terminal 115 and the noise microphone terminal 117 are first synthesized at an analog level so that one synthesized analog signal is input to the audio ADC 109 and the remaining voice recognition signal is input.
  • the analog signal of the microphone terminal 119 may be configured to be input to the audio ADC 109.
  • the audio ADC 109 may be configured to process only three input signals, in which one or more singing microphone terminals 115 are connected to one input synthesized at the analog level and the other input is used for noise.
  • the microphone terminal 117 may be connected and the microphone terminal 119 for voice recognition may be connected to the last one input.
  • the microphone signal input through the audio ADC 109 is mixed with several sound source sources, and thus it is necessary to extract the voice to be used for speech recognition from the mixed analog signal efficiently and with a high speech recognition rate.
  • the audio DAC 111 generates and outputs a digital audio stream generated under the control of the processor 113 as an analog audio signal.
  • the audio DAC 111 receives, for example, a digital audio stream through an I2S format and outputs it as a signal of analog levels of two channels.
  • the analog signal output here may include, for example, a performance sound output according to decoding of a MIDI file or an audio file or a voice received through a singing microphone terminal 115.
  • the left speaker output terminal 121 is a terminal for outputting an analog signal of the left channel from the audio DAC 111 to the speaker.
  • the right speaker output terminal 123 is a terminal for outputting an analog signal of the right channel from the audio DAC 111 to the speaker.
  • this audio signal extraction device is configured to include one output terminal or more than two output terminals. May be
  • the wireless interface 127 is an interface for wirelessly connecting to a remote controller, a music finder, or the like in order to transmit and receive data with a remote controller, a music finder, and the like.
  • the air interface 127 includes an antenna or a modulator / demodulator for connecting to a light-receiving element or a short-range wireless communication network, for example, capable of receiving data from IRDA (Infrared Data Association) communication.
  • IRDA Infrared Data Association
  • the system bus / control bus 125 may transmit data or control signals generated in the blocks of FIG. 3 to other blocks.
  • This system bus / control bus 125 may be a parallel bus or a serial bus.
  • the processor 113 controls each hardware block of the speech signal extraction apparatus.
  • the processor 113 may be, for example, a digital signal processor (DSP), a central processing unit (CPU), a micro processor unit (MPU), dedicated logic, or the like, or a combination thereof.
  • DSP digital signal processor
  • CPU central processing unit
  • MPU micro processor unit
  • the processor 113 may operate differently according to the type of each processor 113, and may preferably control the respective hardware blocks using a program stored in the memory 105.
  • the processor 113 decodes the MIDI file or the audio file corresponding to the selected song according to the input or data received through the input interface 101 or the wireless interface 127 and outputs them to the speaker. It may output through the video output interface 103.
  • the processor 113 removes noise from the noise microphone terminal 117 and / or the singing microphone terminal 115 in the voice received through the voice recognition microphone terminal 119 and requests the user from the noise.
  • the search and function of the song can be performed using the database.
  • the processor 113 may search for a song or perform a corresponding function by using a database according to a digital voice signal received from a remote controller or a music finder.
  • a method of extracting a speech signal to be used for speech recognition which is performed on the processor 113 or on the hardware block diagram of FIG. 3, will be described in detail with reference to FIGS. 5 and 6.
  • FIG. 4 is a diagram illustrating a third exemplary hardware block diagram of the speech signal extraction apparatus.
  • the audio signal extracting apparatus includes an input interface 101, a video output interface 103, a memory 105, a mass storage medium 107, an audio ADC 109, an audio DAC 111, and a processor ( 113, a singing microphone terminal 115, a voice recognition microphone terminal 119, a left speaker output terminal 121, a right speaker output terminal 123, a system bus / control bus 125 and a wireless interface 127 It includes.
  • the voice signal extracting apparatus may be a song accompaniment apparatus as in FIG. 3.
  • the apparatus for extracting a voice signal extracts a voice signal for voice recognition easily by using a difference between audio signals from a singing microphone terminal 115 and a voice recognition microphone terminal 119 and then extracts a voice.
  • the audio signal extracting apparatus can be controlled by selecting a song, searching for a song, or specifying a control command using a signal.
  • the audio ADC 109 of FIG. 4 has two inputs, one of which is connected to a singing microphone terminal 115 at an analog level and the other of which is a microphone terminal 119 for speech recognition. do.
  • the processor 113 receives a digital audio stream output from the audio DAC 111 according to the decoding of the MIDI file or the audio file corresponding to the tune selected from the singing microphone terminal 115 of the audio ADC 109. Synthesized at the digital level and the digital audio stream, and the difference between the synthesized digital audio stream and the digital audio stream received from the microphone terminal 119 for speech recognition of the audio ADC 109 is used for speech recognition. It is possible to extract the voice signal to be used.
  • the processor 113 may digitally synthesize this playing sound and the like into an audio signal through the singing microphone terminal 115 to extract an accurate voice signal. Make it possible.
  • the audio ADC 109 and the audio DAC 111 are shown separately. However, the audio ADC 109 and the audio DAC 111 are represented by one hardware block (for example, an audio codec). It may be integrated.
  • one hardware block for example, an audio codec
  • a method of extracting a speech signal to be used for speech recognition which is performed on the processor 113 or on the hardware block diagram of FIG. 4, will be described in detail with reference to FIGS. 5 and 6.
  • FIG. 5 is a diagram illustrating an exemplary functional block diagram of a speech signal extraction apparatus.
  • the apparatus for extracting a voice signal includes an analog synthesizer 201, a plurality of analog-digital converters 203, a plurality of time-frequency converters 205, a noise signal estimator 207, and a target signal. It includes a generator 209, a speech signal generator 211, an interval estimator 213, a coefficient updater 215, a gain determiner 217, a speech recognizer 219, and a function controller 221. .
  • the apparatus for extracting voice signals according to FIG. 5 may be implemented on the hardware block diagrams of FIGS. 2 to 4 and under the control of the processor 113, preferably under the control of a program executed in the processor 113. .
  • the analog synthesizing unit 201 synthesizes analog signals from at least one singing microphone terminal 115 and also a noise microphone terminal 117 at an analog level.
  • the analog synthesizing unit 201 may include, for example, an RLC circuit, a chipset for synthesizing a plurality of analog signals into a single analog signal, or a circuit for synthesizing analog signals. Such an analog synthesizing unit 201 may be omitted according to the embodiment of the hardware block diagram (for example, FIG. 2).
  • the analog-digital converter 203 converts an input analog signal into a digital signal having a specified bit size according to a designated sampling period and outputs the digital signal as a digital audio stream.
  • This analog-to-digital converter 203 may be implemented, for example, on the audio ADC 109.
  • One analog-to-digital converter 203 is connected to the analog synthesizer 201 to convert the analog signal of the singing microphone terminal 115 and the noise microphone terminal 117 into a digital audio signal and the other analog
  • the digital converter 203 converts the analog signal from the voice recognition microphone terminal 119 into a digital audio signal.
  • an amplifier (not shown) for amplifying the analog signal to the power level required by the analog-digital converter 203 may be provided at the front or the rear of the analog-digital converter 203 or the analog synthesizer 201. It may further include.
  • the output of the analog-digital converter 203 may be configured to synthesize the digital audio stream of the performance sound generated by the song accompaniment apparatus or the like to provide the digital audio stream to the time-frequency converter 205.
  • the time-frequency converter 205 is a constant number (eg, 216 or 512 consecutive samples) of digital audio streams (hereinafter referred to as 'audio frames') in the time domain received from the analog-to-digital converter 203. Is converted into a frequency signal in the frequency domain.
  • the time-frequency transform unit 205 may be implemented through a fast Fourier transform (FFT) such as, for example, a Discrete Fourier Transform (DFT), for example, on the processor 113.
  • FFT fast Fourier transform
  • DFT Discrete Fourier Transform
  • each of the successive audio frames can be converted into a frequency signal in the frequency domain, and the frequency signal is a frequency band of the frequency signal (for example, a voice band of 300 Hz to 4000 Hz, etc.). ) Is expressed in the form of coefficients corresponding to the specified frequencies (e.g., designated frequencies such as 256 or 512).
  • the frequency signal (hereinafter referred to as 'first audio signal') of the audio frame of one time-frequency converter 205 is provided to the target signal generator 209 and the coefficient updater 215, and the other time-
  • the frequency signal (hereinafter referred to as a 'second audio signal') of the audio frame of the frequency converter 205 is provided to the noise signal estimator 207 and the coefficient updater 215.
  • the noise signal estimator 207 estimates a signal obtained by multiplying a filter coefficient by a second audio signal, which is a currently received and converted frequency signal, as a noise signal.
  • the noise signal estimator 207 may be, for example, an adaptive digital filter applied on the frequency domain, and may be implemented on the processor 113.
  • the noise signal on the frequency domain output from the noise signal estimator 207 may be expressed as a product of a second audio signal and a filter coefficient as shown in Equation 1 below.
  • R '(l) is the l-th and the noise signal to be outputted to the audio frame
  • W (l) is the filter coefficient in effect for the l-th audio frame
  • R (l) is the second audio signal of the l- th audio frame input to the noise signal estimator 207
  • the filter coefficients may be coefficients applied to respective frequency components expressed in the second audio signal.
  • the noise signal estimator 207 estimates the noise signal from the second audio signal input through the singing microphone terminal 115 or the noise microphone terminal 117 using the filter coefficients, and then the noise signal estimating unit 207 estimates the noise signal from the first audio signal.
  • the speech signal to be used for speech recognition can be extracted.
  • the noise signal estimator 207 needs to estimate a noise signal common to the first audio signal and the second audio signal and further minimize the power of the signal obtained by subtracting the noise signal from the first audio signal. Accordingly, it is necessary to tune the filter coefficient in consideration of an environment in which a plurality of sound sources such as karaoke are output.
  • the object signal generator 209 may extract a voice signal to be used for speech recognition by subtracting a noise signal, which is a frequency signal estimated by the noise signal estimator 207, from a first audio signal that is a frequency signal of a current audio frame. Can be implemented and preferably implemented on the processor 113.
  • This destination signal primarily enables the removal of noise signals from the singing microphone terminal 115 and / or the noise microphone terminal 117.
  • the speech signal generator 211 generates a speech signal to be used for speech recognition from a target signal from which noise is firstly removed, and is preferably implemented on the processor 113.
  • the voice signal generator 211 may be configured to additionally remove noise with respect to a target signal from which noise is primarily removed. To this end, the speech signal generator 211 generates a speech signal by applying (for example, multiplying) the gain received through the gain determiner 217 to the received target signal.
  • the gain may be a gain determined for each frequency component represented in the frequency signal or a gain determined according to an average of all frequency components, and preferably, a gain determined for each frequency component. And this gain can have a value between 0 and 1, for example.
  • the interval estimator 213 determines whether the audio frame received based on the first audio signal and the second audio signal, which are frequency signals of the audio frame, is a noise section in which only noise exists or a voice to be used for speech recognition as well as external noise. It is estimated whether the target section is receiving the signal.
  • the interval estimator 213 is preferably implemented on the processor 113.
  • the section estimator 213 determines whether the noise section is a noise section based on a co-relation between the target signal generated by the target signal generator 209 and the noise signal estimated by the noise signal estimator 207. Or it may be estimated whether the target section.
  • the interval estimator 213 may calculate a correlation coefficient between the target signal and the estimated noise signal as shown in Equation 2 below.
  • Cor is the correlation coefficient
  • l is l and the number (1 ⁇ n) of the second audio frame
  • T (l) is the target signal that is generated for the l-th audio frame
  • R '(l) is the l-th audio frame Is the noise signal output.
  • This correlation coefficient has a value between 0 and 1/2, and as this correlation coefficient approaches 0, it can be seen that a voice signal for speech recognition exists through the microphone terminal 119 for speech recognition. As it approaches / 2, the voice signals of the voice recognition microphone terminal 119 and the singing microphone terminal 115 and / or the noise microphone terminal 117 bear the same type of signal, indicating that only noise exists. have.
  • the interval estimator 213 estimates that the correlation coefficient is a target interval in which a speech signal for speech recognition exists when the correlation coefficient is less than (or less than) the specified threshold, and only noise exists when the correlation coefficient is greater than (or exceeds) the specified threshold. It can be estimated by the noise interval.
  • the correlation coefficient may be an averaged coefficient after obtaining a correlation coefficient for each frequency for each frequency component of the target signal and the estimated noise signal, and the specified threshold may be a value calculated through an experiment or the like.
  • the filter coefficient is continuously estimated in the noise section by estimating whether it is the target section or the noise section, and then the filter coefficient tuned to remove the noise signal in the target section where the voice signal is received Accurately remove noise signals so that voice signals can be extracted.
  • the correlation coefficient may be used as a correlation of the ratio of power between the first audio signal and the second audio signal output through the time-frequency converter 205 (not shown in FIG. 5). Can be calculated for each audio frame.
  • This power ratio is for example the power between the frequency signal components of a specified frequency band (e.g., a low frequency band of 1 KHz or less and / or a medium frequency band of 1 to 3 KHz, for example) of the frequency components of the frequency signal. It can be calculated according to the ratio.
  • Equation 3 is an exemplary equation for calculating a correlation coefficient for a frequency signal of a specific audio frame (first audio frame) by using a power ratio between signals.
  • Rat (l) is the l-th audio frames represents the power ratio between the first audio signal and second audio signal for a given frequency band
  • M is the number of the given audio frame of the previous l-th audio frame.
  • Rat (l) represents a ratio of power and may be expressed as a ratio of the square (power) of the frequency coefficients of the first audio signal to the square (power) of the frequency coefficients of the second audio signal. As the Rat (l) approaches 1, only the noise signal exists in the first audio signal and the second audio signal, and when the Rat (l) exceeds 1, the voice is recognized in the first audio signal through the microphone terminal 119 for voice recognition. There is a voice signal for.
  • Equation 3 means how much the power ratio of the currently received audio frame changes (variance) than the average of the past power ratio during the M audio frame.
  • the correlation coefficient may be estimated as a target section in which a speech signal for speech recognition exists, and when it is below (or below) a threshold, it may be estimated as a noise section in which only noise exists.
  • the correlation coefficient allows the user to know which section of the audio signal is the audio signal from the current audio frame. Accordingly, the filter coefficient can be continuously updated during the noise period to efficiently remove the noise signal.
  • the coefficient updater 215 may update the filter coefficients to be used by the noise signal estimator 207 according to the estimation by the interval estimator 213, and may be preferably implemented on the processor 113.
  • the coefficient updating unit 215 may apply the filter coefficients to be applied in the next audio frame l + 1 when the estimation in the interval estimating unit 213 is a noise interval, and the current filter coefficients and the frequency signals of the first audio signals. It determines according to the relationship between the frequency signal of a target signal, and the frequency signal of a 2nd audio signal.
  • Equation 4 is an exemplary equation for calculating the filter coefficient to be updated.
  • l and l + 1 is the second of the l-th audio frame is inputted to the l and the number (1 ⁇ n) of the next l + 1-th audio frame of which the first
  • R (l) is the noise signal estimator 207 and an audio signal
  • W (l) and W (l + 1) is a filter coefficient, which is applied to l + 1-th audio frame that follows the l-th
  • l (l) is inputted to the target signal generating unit 209 the first audio signal of the l th audio frame
  • the subscript H is the hermitian indication
  • T (l) is the destination signal generated for the l th audio frame
  • ⁇ (l) is the frequency component of the frequency signal. Convergence constant to be multiplied.
  • This filter coefficient may be updated for each audio frame and may be updated repeatedly during the noise period.
  • the filter coefficient may be calculated for each frequency component of the frequency signal.
  • the object signal generated by the object signal generator 209 may be generated during the subsequent object period. Minimize the frequency signal (e.g., minimize the power) to effectively eliminate the noise signal.
  • the noise filter can be stably eliminated by using the updated final filter coefficient in the subsequent target period.
  • the gain determiner 217 determines a gain to be used in the voice signal generator 211. This gain may be determined for each frequency component of the frequency signal. The gain determiner 217 generates this gain based on the power ratio between the frequency signal of the target signal and the frequency signal of the estimated noise signal.
  • the gain determiner 217 calculates power at each frequency component of the noise signal estimated during the noise period.
  • the power ratio between the calculated power (preferably the final calculated power of each frequency component) and each frequency component of the frequency signal of each target signal may be determined as a gain to be applied during the subsequent target period.
  • Equation 5 is an exemplary equation for calculating the gain for each frequency of the frequency signal. The gain for each frequency may then be multiplied for each frequency of the target signal and output as a voice signal.
  • Ps is the power of the specified frequency component of the target signal (square of the frequency coefficient) and Pn is the frequency component corresponding to the noise signal of the corresponding audio frame when the correlation coefficient of Equation 2 or 3 is estimated as the noise interval. It's power.
  • the speech recognizer 219 extracts a feature vector to be used for speech recognition from the speech signal generated by the speech signal generator 211 and compares the feature vector with the feature vector to be used for speech search. It can be implemented in. This feature vector can be extracted on the time domain or on the frequency domain.
  • the voice recognition unit 219 generates a search result through voice or determines a control command according to the voice by comparing the extracted feature vector with a feature vector stored in a database or the like.
  • the speech recognition unit 219 may be performed during the target section or during the noise section. Preferably, the speech recognition unit 219 is configured to reduce the load of the processor and reduce unnecessary speech recognition.
  • the function controller 221 may output a search result generated by the speech recognizer 219 through the video output interface 103 or perform a function according to a control command, and may be implemented on the processor 113.
  • the functional block diagram of FIG. 5 makes it possible to easily and accurately extract a voice signal for voice search or command in a karaoke environment in which various various sound sources are scattered.
  • FIG. 6 is a diagram illustrating a control flow for extracting a speech signal to be used for speech recognition performed by the speech signal extraction apparatus.
  • the voice signal extraction apparatus may be, for example, a remote controller used in a karaoke room, a music finder, or a song accompaniment device.
  • this control flow can be performed using a program implemented on the hardware block diagrams of FIGS. 2-4 and preferably driven by the processor 113.
  • This control flow of FIG. 6 begins by receiving a function key requesting to start speech recognition either automatically as the speech signal extraction device is driven or via the input interface 101 of the speech signal extraction device.
  • This control flow is also terminated by receiving a function key requesting the end of speech recognition either automatically as the driving of the speech signal extraction apparatus is terminated or via the input interface 101 of the speech signal extraction apparatus.
  • step S101 analog audio signals received through a plurality of microphone terminals are converted into audio frames each composed of a specified number using the audio ADC 109.
  • a first audio signal and a second audio signal which are converted into a frequency signal in the frequency domain for each audio frame are generated.
  • Such a frequency signal may have frequency coefficient values of a plurality of frequency components within a designated frequency band.
  • the second audio signal is a frequency domain of a digital audio frame on a time domain generated after mixing analog audio signals of a plurality of singing microphone terminals 115 and / or noise microphone terminals 117 at an analog level. It may be a frequency signal converted to.
  • the second audio signal converts analog audio signals of the plurality of song microphone terminals 115 into audio frames, and then digital audio frames such as performance sounds generated inside a voice signal extraction device such as a song accompaniment device. It may be a signal that is digitally synthesized and then converted into a frequency domain.
  • step S105 the calculated (if noise interval) or already calculated for the audio frame preceding the second audio signal from the singing microphone terminal 115 and / or the noise microphone terminal 117 converted to the frequency signal
  • the estimated noise signal to be used for the extraction of the speech signal is applied by applying the filter coefficients (if the target interval).
  • step S107 a noise signal estimated from the first audio signal from the voice recognition microphone terminal 119 converted into a frequency signal is subtracted to generate a target signal.
  • step S109 it is estimated whether the current audio frame is a noise section or a target section based on the first audio signal and the second audio signal.
  • Such an estimate may be determined by a correlation coefficient determined between the target signal and the estimated noise signal, and if the correlation coefficient is less than or equal to the specified threshold, the estimation may be made in the target interval, and in case of exceeding the specified threshold, the noise interval may be estimated. Can be.
  • the estimation may determine whether it is a target section or a noise section according to the power ratio of the first audio signal and the second audio signal converted in step S103.
  • the estimation may be performed on a plurality of consecutively received audio frames. It can be determined according to the power ratio between the frequency signals.
  • step S111 Thereafter, if the section estimation is estimated as the noise section in step S111, the process shifts to step S113, and otherwise, the process shifts to step S117.
  • the filter coefficient to be applied to the noise signal to be estimated from the second audio signal is updated in step S113. This filter coefficient may be applied to audio frames after the current audio frame.
  • step S115 the power for each frequency component of the noise signal in the noise section is determined. This power is then used for the calculation of the gain to be used in the target section (see step S117).
  • step S115 the process transitions to step S101, and iterates on subsequent audio frames and accordingly the filter coefficients updated in step S113 are used to estimate the noise signal from the second audio signal again in step S105.
  • the gain to be applied to the target signal generated in step S107 is determined in step S117. This gain may be determined for each frequency component and is applied to the frequency signal of the target signal generated for the current audio frame and the frequency signal of the noise signal using the power of each frequency component of the noise signal determined in step S115 performed in the noise section. The power ratio may be determined for each frequency component.
  • step S119 the determined gain is used to generate a voice signal to be used for voice recognition from the target signal, and then transitions to step S101.
  • step S117 and step S119 need not be performed only within the target section, but may be configured to be performed regardless of the target section or the noise section.

Abstract

본 발명은, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는 단계와 추정 단계에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신되는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법에 관한 것이다. 본 발명을 이용함으로써, 경제적으로 높은 음성 인식률을 제공할 수 있도록 한다.

Description

복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치
본 발명은 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치에 관한 것으로서, 구체적으로는 노래방 등과 같은 환경하에서 곡 검색이나 제어 명령에 이용될 음성 입력을 잡음을 고려하여 효율적으로 추출할 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치에 관한 것이다.
최근에 이르러 음성 인식 기술은 널리 보편화되어 스마트 폰 등에 활용될 수 있는 수준에 이르렀고 보통 개인적인 환경하에서 일정 수준의 음성 인식율을 제공한다. 그러나 스마트 폰 외부에 잡음이 심한 경우에는 이 잡음과 음성 인식을 위한 사용자의 음성을 용이하게 구별하지 못해서 기존의 음성 인식 기술은 만족할만한 음성 인식률을 제공하지 못한다.
한편 사용자가 노래를 선곡하고 노래를 부를 수 있는 노래방 환경은 사용자가 이용하는 마이크를 다수 구비하여 음성 인식 기술이 자연스럽게 적용될 수 있는 환경이다.
도 1에서 알 수 있는 바와 같이, 이 노래방 환경은 선곡된 곡을 재생할 수 있는 노래 반주 장치와 노래 반주 장치에 연결되어 노래 반주 장치로부터 디코딩되어 출력된 오디오 신호를 사용자에게 출력하는 스피커와 노래 반주 장치에 연결되어 사용자에게 가사 이미지 등을 출력하는 디스플레이를 구비하고 있다.
또한 이 노래방 환경은 하나 이상의 마이크를 구비하여, 노래 반주 장치가 이 마이크로부터 수신된 음성 신호를 디코딩된 오디오 신호에 합성하여 스피커로 출력한다.
이 외에도 이 노래방 환경은 노래 반주 장치에 곡을 선곡할 수 있도록 하는 리모콘이나, 노래 반주 장치에 내장되어 있는 곡들을 검색하고 검색된 곡에 대한 선택에 따라 선택된 곡을 노래 반주 장치로 전달하는 곡목 검색기 등이 더 있을 수 있다.
이와 같은 노래방 환경은, 선곡된 곡이 재생됨에 따라 선곡된 곡을 따라 부르기 위해 마이크를 통해 사용자의 음성 신호가 수신되고 나아가 이러한 음성 신호와 선곡된 곡에 대응하는 또는 대기 상태에서 선택된 오디오 파일이나 미디 파일 등이 디코딩되어 스피커로 출력되는 높은 수준의 잡음이 발생하는 환경이다.
이에 따라 상용적인 서비스를 제공하는 노래방 환경은 마이크 등이 구비되어 비록 자연스러운 음성 인식 기술의 적용 환경을 제공하지만 잡음에 따른 음성 인식율의 저하로 적용이 불가능한 문제점이 있다.
이러한 기존의 문제점을 해결하기 위한 방법으로서, "노래방 환경에서 음성 인식기술을 이용한 곡목 검색 장치 및 그 방법"(공개 번호 : 10-2010-0086457, 2010년 7월 30일, 대한민국특허청)에서는 마이크에서 입력된 사용자의 음성에서 잡음 신호를 추정하여 이 추정된 잡음 신호를 제거하여 곡명 등을 검색할 수 있도록 한다.
하지만 이 발명은, 하나의 마이크 상에서 잡음인지 혹은 음성인지를 추정하고 이에 따라 노래방 환경과 같이 높은 수준의 잡음이 발생하고 음성에 따른 또는 노래 반주 장치에서의 재생에 따라 발생하는 연주음 등에 따른 또는 에코(echo) 현상에 따른 여러 종류의 잡음이 동적으로 발생하는 환경하에서 효율적으로 잡음을 제거할 수 없고 이에 따라 음성 인식률을 효과적으로 올릴 수 없어 노래 반주 장치와 같은 상용 제품에 적용하기에는 문제가 있다.
따라서, 노래방 환경과 같은 잡음의 수준이 높은 상황에서 그리고 여러 종류의 잡음으로 인해 동적으로 잡음이 변화하는 상황에서 잡음을 효과적으로 제거하여 음성 인식이 가능하도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치가 필요하다.
나아가 노래 반주 장치는 제한된 리소스(resources)를 구비하고 있다. 예를 들어 노래 반주 장치는 외부의 마이크 신호를 디지털 신호로 변환하기 위한 2 채널의 ADC(Analog-Digital Converter)를 구비하거나 제한된 수행 성능을 가진 프로세서(processor)를 구비하고 있다.
이에 따라 2 채널의 ADC를 고려하여 동적으로 음성 인식이 가능하도록 하고 나아가 프로세서의 수행 성능에 부하가 되지 않도록 하는 간단한 구조로 된, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치가 필요하다.
본 발명은, 상술한 문제점을 해결하기 위해서 안출한 것으로서, 복수 마이크 사이의 신호 차이를 이용하여 용이하게 잡음 신호를 제거할 수 있도록 하고 잡음의 종류에 상관없이 잡음 신호를 제거할 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 그 목적이 있다.
또한 본 발명은, 복수 마이크의 신호로부터 용이하게 잡음 구간과 음성 인식을 위한 목적 구간을 추정하여 추정된 잡음 구간에서 잡음 신호 추출을 위해서 이용되는 필터 계수를 지속적으로 갱신하여, 음성 인식에 이용될 음성 신호에 대한 음성 인식률이 개선되도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 또 다른 목적이 있다.
또한 본 발명은, 노래 반주 장치 등과 같은 기존의 다양한 하드웨어 구조에 적용가능하고 수행 성능과 같은 리소스의 사용을 줄일 수 있도록 하는, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치를 제공하는 데 또 다른 목적이 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법은, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는 단계와 추정 단계에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신된다.
또한 상기와 같은 목적을 달성하기 위한, 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 장치는, 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 이 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 음성 신호가 수신되는 목적 구간인지를 추정하는, 구간 추정부와 구간 추정부에서의 추정이 잡음 구간인 경우에, 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는, 계수 갱신부와 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는, 잡음 신호 추정부를 포함하고, 필터 계수는, 잡음 구간인 동안에 갱신된다.
상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 복수 마이크 사이의 신호 차이를 이용하여 용이하게 잡음 신호를 제거하고 잡음의 종류에 상관없이 잡음 신호를 제거할 수 있도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 복수 마이크의 신호로부터 용이하게 잡음 구간과 음성 인식을 위한 목적 구간을 추정하여 추정된 잡음 구간에서 잡음 신호 추출을 위해서 이용되는 필터 계수를 지속적으로 갱신하여, 음성 인식에 이용될 음성 신호에 대한 음성 인식률이 개선되도록 하는 효과가 있다.
또한 상기와 같은 본 발명에 따른 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치는, 노래 반주 장치 등과 같은 기존의 다양한 하드웨어 구조에 적용가능하고 수행 성능과 같은 리소스의 사용을 줄일 수 있도록 하는 효과가 있다.
본 발명에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은, 다수의 장치를 포함하는 노래방 환경을 도시한 도면이다.
도 2는, 음성 신호 추출 장치의 제 1의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 3은, 음성 신호 추출 장치의 제 2의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 4는, 음성 신호 추출 장치의 제 3의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 5는, 음성 신호 추출 장치의 예시적인 기능 블록도를 도시한 도면이다.
도 6은, 음성 신호 추출 장치에서 이루어지는 음성 인식에 이용될 음성 신호를 추출하기 위한 제어 흐름을 도시한 도면이다.
[부호의 설명]
101 : 입력 인터페이스 103 : 비디오 출력 인터페이스
105 : 메모리 107 : 대용량 저장 매체
109 : 오디오 ADC 111 : 오디오 DAC
113 : 프로세서 115 : 노래용 마이크 단자
117 : 잡음용 마이크 단자 119 : 음성 인식용 마이크 단자
121 : 좌측 스피커 출력 단자 123 : 우측 스피커 출력 단자
125 : 시스템 버스/제어 버스 127 : 무선 인터페이스
201 : 아날로그 합성부 203 : 아날로그-디지털 변환부
205 : 시간-주파수 변환부 207 : 잡음 신호 추정부
209 : 목적 신호 생성부 211 : 음성 신호 생성부
213 : 구간 추정부 215 : 계수 갱신부
217 : 게인 결정부 219 : 음성 인식부
221 : 기능 제어부
상술한 목적, 특징 및 장점은 첨부된 도면을 참조하여 상세하게 후술 되어 있는 상세한 설명을 통하여 더욱 명확해 질 것이며, 그에 따라 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 것이다. 또한, 본 발명을 설명함에 있어서 본 발명과 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에 그 상세한 설명을 생략하기로 한다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
이하, 첨부된 도면을 참조하여 본 발명에 따른 바람직한 실시 예를 상세히 설명하기로 한다.
도 2는, 음성 신호 추출 장치의 제 1의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 2에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 메모리(105)와 오디오 ADC(109)와 프로세서(113)와 무선 인터페이스(127)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)를 포함한다. 이러한 음성 신호 추출 장치는, 노래 반주 장치에 연결되어 노래 반주 장치와 무선 통신할 수 있는 리모콘이거나 곡목 검색기 등일 수 있다.
이와 같은 음성 신호 추출 장치는, 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)로부터 수신된 음성 신호들과 같은 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 무선으로 노래 반주 장치로 전송하거나 혹은 이 음성 신호로부터 결정된 제어 데이터를 무선으로 전송할 수 있다.
도 2의 각 블록들에 대해서 간단히 살펴보면, 입력 인터페이스(101)는, 음성 신호 추출 장치를 사용하는 사용자로부터 입력을 수신하기 위한 인터페이스로서, 숫자 버튼이나 기능키 버튼 등이나 터치 패널을 포함한다. 이러한 입력 인터페이스(101)는 노래 반주 장치에서 이용될 곡 번호 등이나 기능 키(예를 들어 "예약", "시작", "종료" 등)등을 수신하거나 이 음성 신호 추출 장치상에서 수행되는 기능 키 등을 수신할 수 있도록 한다.
메모리(105)는, 노어 플래쉬(Nor Flash)나 낸드 플래쉬(Nand Flash) 등과 같은 비휘발성 메모리를 포함하고 나아가 디램(DRAM)과 같은 휘발성 메모리를 포함한다.
이러한 메모리(105)는, 프로세서(113)상에서 수행되는 각종 프로그램을 저장하고 나아가 각종 프로그램에서 이용되는 데이터를 임시로 저장할 수 있도록 한다.
잡음용 마이크 단자(117)는, 음성 신호 추출 장치 외부에서 발생한 잡음을 수신하기 위한 단자이다. 이러한 잡음용 마이크 단자(117)는 예를 들어 음성 신호 추출 장치 외부에서 발생한 오디오나 음성을 집음할 수 있도록 한다. 이러한 잡음용 마이크 단자(117)는, 이 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되거나 혹은 이 음성 신호 추출 장치의 케이스(case)와 같은 기구물에 내장된 마이크에 연결된다.
음성 인식용 마이크 단자(119)는, 미리 지정된 음성 명령이나 임의의 곡과 같은 콘텐츠를 검색하기 위한 음성 검색 명령 등과 같이 음성 인식에 이용될 음성 신호를 수신하기 위한 단자이다. 이러한 음성 인식용 마이크 단자(119)는, 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되거나 혹은 음성 신호 추출 장치의 케이스와 같은 기구물에 내장된 마이크에 연결된다.
여기서 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119) 각각은 바람직하게는 미리 지정되어 있을 수 있다. 그리고 이 두 마이크 단자로부터 수신된 음성이나 잡음의 차이를 활용해서 용이하게 음성 인식에 이용될 음성 신호를 추출 가능하도록 한다.
오디오 ADC(109)는, 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)에 연결되어 지정된 샘플링 주기(sample rate)에 따라 아날로그 신호를 지정된 비트 크기(예를 들어 16 비트 등)의 디지털 신호로 변환한다.
무선 인터페이스(127)는, 리모콘이나 곡목 검색기와 같은 이 음성 신호 추출 장치 외부에 구비된 노래 반주 장치와 같은 장치에 무선으로 연결하기 위한 인터페이스이다.
이러한 무선 인터페이스(127)는, 예를 들어 IRDA(Infrared Data Association) 통신이 가능하도록 하는 발광 다이오드나 블루투스(Bluetooth)나 지그비(Zigbee)나 무선랜(WiFi)과 같은 근거리 무선 통신 네트워크에 연결하기 위한 안테나나 변복조기(modulator/demodulator)를 포함한다.
프로세서(113)는, 음성 신호 추출 장치의 각 하드웨어 블록들을 제어한다. 이러한 프로세서(113)는 예를 들어 DSP(Digital Signal Processor), CPU(Central Processing Unit), MPU(Micro Processor Unit), 전용 로직(dedicated logic) 등이거나 이의 조합일 수 있다.
이러한 프로세서(113)는, 각 프로세서(113)의 타입에 따라 상이하게 동작할 수 있고 바람직하게는 메모리(105) 등에 저장되어 있는 프로그램을 이용하여 각 하드웨어 블록들을 제어할 수 있다.
그리고 이 프로세서(113)는, 입력 인터페이스(101)를 통해 수신된 입력을 무선 인터페이스(127)를 통해 송출하거나 오디오 ADC(109)를 통해 인식된 음성 신호에 따르는 제어 명령이나 이 음성 신호 자체를 무선 인터페이스(127)를 통해 송출할 수 있다.
이 프로세서(113)상에서 또는 도 2의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.
도 3은, 음성 신호 추출 장치의 제 2의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 3에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 비디오 출력 인터페이스(103)와 메모리(105)와 대용량 저장 매체(107)와 오디오 ADC(109)와 오디오 DAC(111)와 프로세서(113)와 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)와 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)와 시스템 버스/제어 버스(125)와 무선 인터페이스(127)를 포함한다.
이러한 음성 신호 추출 장치는, 선곡된 곡에 대응하는 미디 파일이나 오디오 파일을 디코딩하고 나아가 사용자의 음성을 디코딩된 오디오 신호에 합성하여 스피커로 출력할 수 있도록 하는 노래 반주 장치일 수 있다.
이와 같은 음성 신호 추출 장치는, 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 이용하여 곡을 선곡하거나 곡을 검색하거나 지정된 제어 명령에 따라 이 음성 신호 추출 장치를 제어할 수 있다.
도 3의 각 블록들에 대해서 간단히 살펴보면, 입력 인터페이스(101)는, 노래 반주 장치와 같은 음성 신호 추출 장치를 사용하는 사용자로부터 입력을 수신하기 위한 인터페이스로서, 숫자 버튼이나 기능키 버튼 등을 포함한다. 이러한 입력 인터페이스(101)는 곡 번호나 기능 키(예를 들어 "예약", "시작", "종료" 등)등을 수신할 수 있도록 한다.
비디오 출력 인터페이스(103)는, 이 음성 신호 추출 장치에 연결된 디스플레이에 지정된 비디오 포맷으로 비디오 신호를 출력한다. 이러한 비디오 출력 인터페이스(103)는 디지털의 비디오 데이터를 지정된 비디오 포맷으로 인코딩할 수 있는 비디오 인코더(encoder)를 포함할 수 있다.
메모리(105)는, 노어 플래쉬(Nor Flash)나 낸드 플래쉬(Nand Flash) 등과 같은 비휘발성 메모리를 포함하고 나아가 디램(DRAM)과 같은 휘발성 메모리를 포함한다.
이러한 메모리(105)는, 이 음성 신호 추출 장치의 부팅시에 필요한 초기화 프로그램을 포함하고 프로세서(113)상에서 수행되는 각종 프로그램에서 이용되는 임시 데이터 등을 저장할 수 있도록 한다.
대용량 저장 매체(107)는, 다수의 오디오 콘텐츠와 다수의 비디오 콘텐츠와 각종 프로그램을 저장할 수 있는 저장 매체로서, 예를 들어 하드 디스크이거나 DVD(Digital Versatile Disc)이거나 블루레이(Blue Ray) 디스크 등일 수 있다.
또한 이 대용량 저장 매체(107)는, 음성 신호 추출 장치에서 선택할 수 있는 콘텐츠인 곡에 대한 선택이나 곡에 대한 검색을 위한 데이터 베이스를 더 구비할 수 있고, 이러한 데이터 베이스는 곡 번호에 대응하는 미디 파일이나 압축된 오디오 파일을 식별할 수 있도록 하고, 나아가 각 곡 번호에 대응하는 가수나 가사나 작곡가나 작사가나 발매일이나 인기도 등과 같은 요약 정보를 더 식별할 수 있도록 한다.
그리고 이 데이터 베이스는 또한 각 곡별로 음성 인식에 이용될 특징 벡터를 포함할 수 있다. 이러한 각 곡별 특징 벡터는 가사나 가수나 작곡가 등과 같은 요약 정보에 대응하거나 곡 번호에 대응할 수 있다.
또한 이 데이터 베이스는, 노래 반주 장치와 같은 이 음성 신호 추출 장치를 제어하기 위한 제어 명령에 대응하는 특징 벡터를 더 포함할 수 있다. 이러한 특징 벡터를 이용하여 용이하게 음성으로 곡에 대한 검색이나 노래 반주 장치의 제어가 이루어질 수 있다.
여기서 이 특징 벡터는, 시간 도메인 상이나 주파수 도메인 상에서 추출된 정보로서 예를 들어 LPCC(Linear Prediction Cepstral Coefficient) 나 MFCC(Mel Frequency Cepstral Coefficient) 등일 수 있다. 이러한 특징 벡터를 이용하여 용이하게 음성으로부터 대응하는 가사 등이나 제어 명령을 알 수 있도록 한다.
노래용 마이크 단자(115)는, 노래 반주 장치와 같은 이 음성 신호 추출 장치를 이용하여 사용자가 노래를 부르기 위해서 이용되는 단자이다. 이러한 노래용 마이크 단자(115)는 사용자가 발성한 음성을 집음할 수 있도록 하고 나아가 소량의 외부 잡음을 또한 집음할 수 있도록 한다. 이러한 노래용 마이크 단자(115)는 예를 들어 손잡이형 마이크에 연결된다.
잡음용 마이크 단자(117)는, 음성 신호 추출 장치 외부에서 발생한 잡음을 수신하기 위한 단자이다. 이러한 잡음용 마이크 단자(117)는, 손잡이형 마이크에 연결되거나 음성 신호 추출 장치의 케이스(case)와 같은 기구물에 내장된 마이크에 연결되도록 구성될 수 있다.
음성 인식용 마이크 단자(119)는, 미리 지정된 음성 명령의 단어나 임의의 곡과 같은 콘텐츠를 검색하기 위해 음성 인식에 이용될 음성 신호를 수신하기 위한 단자이다. 이러한 음성 인식용 마이크 단자(119)는, 음성 신호 추출 장치 외부에 연결된 손잡이형 마이크에 연결되도록 구성될 수 있다.
이와 같은 잡음용 마이크 단자(117)를 통한 음성 신호에는 노래방 환경하에서 발생하는 사용자의 노래를 부르기 위한 음성 목소리나 연주음과 같은 잡음이 포함하고 음성 인식용 마이크 단자(119)를 통해 입력된 낮은 파워 레벨의 음성이 포함할 수 있다. 그리고 음성 인식용 마이크 단자(119)를 통한 음성 신호에는 음성 인식에 이용될 음성 뿐아니라 잡음이 더 포함할 수 있다.
이러한 잡음을 제거하는 것은 음성 인식의 인식률을 높일 수 있고 이에 따라 시끄러운 노래방 환경에서도 음성 인식을 통한 노래 반주 장치의 제어가 가능하도록 한다.
여기서 노래용 마이크 단자(115)나 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119) 각각은 바람직하게는 미리 지정되어 있을 수 있다. 그리고 이 여러 마이크 단자로부터 수신된 음성이나 잡음의 차이를 활용해서 용이하게 음성 인식에 이용될 음성 신호를 추출 가능하도록 한다.
오디오 ADC(109)는, 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)와 음성 인식용 마이크 단자(119)에 연결되어 지정된 샘플링 주기(sample rate)에 따라 아날로그 신호를 지정된 비트 크기(예를 들어 16 비트 등)의 디지털 신호로 변환한다.
여기서 이 오디오 ADC(109)는, 한정된 입력 신호의 개수를 가질 수 있고, 예를 들어 도 3과 같이 2 개의 입력 신호만을 처리할 수 있다. 이에 따라 하나 이상의 노래용 마이크 단자(115)와 잡음용 마이크 단자(117)로부터의 아날로그 신호는 아날로그 레벨에서 먼저 합성되어 하나의 합성된 아날로그 신호가 이 오디오 ADC(109)로 입력되고 나머지 음성 인식용 마이크 단자(119)의 아날로그 신호가 오디오 ADC(109)로 입력되도록 구성될 수 있다.
혹은 이 오디오 ADC(109)는 3개의 입력 신호만을 처리하도록 구성될 수도 있고, 이 때에는 하나의 입력에 하나 이상의 노래용 마이크 단자(115)가 아날로그 레벨에서 합성되어 연결되고 나머지 하나의 입력에 잡음용 마이크 단자(117)가 연결되고 마지막 하나의 입력에 음성 인식용 마이크 단자(119)가 연결되도록 구성될 수 있다.
이와 같이 오디오 ADC(109)를 통해 입력되는 마이크 신호에는 여러 음원 소스가 혼재되어 있고 이에 따라 혼재되어 있는 아날로그 신호로부터 효율적으로 그리고 음성 인식률이 높아지도록 음성 인식에 이용될 음성을 추출할 필요가 있다.
오디오 DAC(111)는, 프로세서(113)의 제어에 따라 생성된 디지털의 오디오 스트림을 아날로그의 오디오 신호로 생성하여 출력한다. 이러한 오디오 DAC(111)는 예를 들어 I2S 포맷 등을 통해 디지털의 오디오 스트림을 수신하여 이를 두 개 채널의 아날로그 레벨의 신호로 출력한다.
여기서 출력되는 아날로그 신호는 예를 들어 미디 파일이나 오디오 파일의 디코딩에 따라 출력되는 연주음이거나 노래용 마이크 단자(115)를 통해 수신된 음성을 포함할 수 있다.
좌측 스피커 출력 단자(121)는, 오디오 DAC(111)로부터 좌측 채널의 아날로그 신호를 스피커로 출력하기 위한 단자이다.
우측 스피커 출력 단자(123)는, 오디오 DAC(111)로부터 우측 채널의 아날로그 신호를 스피커로 출력하기 위한 단자이다.
비록 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)로 분리하여 설명하고 있으나 이에 국한될 필요는 없고 하나의 출력 단자로 혹은 2를 초과하는 출력 단자를 포함하도록 이 음성 신호 추출 장치가 구성될 수도 있다.
무선 인터페이스(127)는, 리모콘이나 곡목 검색기 등과 데이터 등을 송수신하기 위해 리모콘이나 곡목 검색기 등에 무선으로 연결하기 위한 인터페이스이다.
이러한 무선 인터페이스(127)는, 예를 들어 IRDA(Infrared Data Association) 통신으로부터 데이터를 수신 가능하도록 하는 수광 소자나 근거리 무선 통신 네트워크에 연결하기 위한 안테나나 변복조기(modulator/demodulator)를 포함한다.
시스템 버스/제어 버스(125)는, 도 3의 각 블록들에서 생성되는 데이터나 제어 신호를 다른 블록으로 전송할 수 있도록 한다. 이러한 시스템 버스/제어 버스(125)는 병렬 버스이거나 시리얼(serial) 버스일 수 있다.
프로세서(113)는, 음성 신호 추출 장치의 각 하드웨어 블록들을 제어한다. 이러한 프로세서(113)는 예를 들어 DSP(Digital Signal Processor), CPU(Central Processing Unit), MPU(Micro Processor Unit), 전용 로직(dedicated logic) 등이거나 이의 조합일 수 있다.
이러한 프로세서(113)는, 각 프로세서(113)의 타입에 따라 상이하게 동작할 수 있고 바람직하게는 메모리(105) 등에 저장되어 있는 프로그램을 이용하여 각 하드웨어 블록들을 제어할 수 있다.
그리고 이 프로세서(113)는, 입력 인터페이스(101)나 무선 인터페이스(127)를 통해 수신된 입력이나 데이터에 따라 선택된 곡에 대응하는 미디 파일이나 오디오 파일을 디코딩하여 스피커로 출력하도록 하고 나아가 가사 등을 비디오 출력 인터페이스(103)를 통해 출력할 수 있다.
또한 이 프로세서(113)는, 음성 인식용 마이크 단자(119)를 통해 수신된 음성에서 잡음용 마이크 단자(117) 및/또는 노래용 마이크 단자(115)로부터의 잡음을 제거하여 이로부터 사용자가 요구하는 곡의 검색이나 기능을 데이터 베이스를 이용하여 수행할 수 있다.
또는 이 프로세서(113)는 리모콘이나 곡목 검색기 등으로부터 수신된 디저털의 음성 신호에 따라 데이터 베이스를 이용하여 곡을 검색하거나 대응하는 기능을 수행할 수도 있다.
이 프로세서(113)상에서 또는 도 3의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.
도 4는, 음성 신호 추출 장치의 제 3의 예시적인 하드웨어 블록도를 도시한 도면이다.
도 4에 따르면 이 음성 신호 추출 장치는, 입력 인터페이스(101)와 비디오 출력 인터페이스(103)와 메모리(105)와 대용량 저장 매체(107)와 오디오 ADC(109)와 오디오 DAC(111)와 프로세서(113)와 노래용 마이크 단자(115)와 음성 인식용 마이크 단자(119)와 좌측 스피커 출력 단자(121)와 우측 스피커 출력 단자(123)와 시스템 버스/제어 버스(125)와 무선 인터페이스(127)를 포함한다.
이러한 음성 신호 추출 장치는, 도 3과 동일하게 노래 반주 장치일 수 있다.
이와 같은 음성 신호 추출 장치는, 노래용 마이크 단자(115)와 음성 인식용 마이크 단자(119) 등으로부터의 오디오 신호들 간의 차이를 이용하여 용이하게 음성 인식을 위한 음성 신호를 추출하고 이후 추출된 음성 신호를 이용하여 곡을 선곡하거나 곡을 검색하거나 지정된 제어 명령에 따라 이 음성 신호 추출 장치를 제어할 수 있다.
이미 도 3을 통해서 유사한 하드웨어 블록도를 상세히 살펴보았으므로 여기서는 도 3과 차별화되는 점만 간단히 살펴보도록 한다.
도 4의 오디오 ADC(109)는 두 개의 입력을 구비하고, 하나의 입력에는 노래용 마이크 단자(115)가 아날로그 레벨에서 합성되어 연결되고 나머지 하나의 입력에는 음성 인식용 마이크 단자(119)가 연결된다.
그리고 프로세서(113)는, 선곡된 곡에 대응하는 미디 파일이나 오디오 파일의 디코딩에 따라 오디오 DAC(111)로 출력되는 디지털의 오디오 스트림을 오디오 ADC(109)의 노래용 마이크 단자(115)로부터 수신된 디지털의 오디오 스트림과 디지털 레벨에서 합성하고, 이 합성된 디지털의 오디오 스트림과 오디오 ADC(109)의 음성 인식용 마이크 단자(119)로부터 수신된 디지털의 오디오 스트림 사이의 차이를 이용하여 음성 인식에 이용될 음성 신호를 추출하도록 할 수 있다.
비록 잡음용 마이크 단자(117)를 구비하지 못한 경우라도, 프로세서(113)에 의해서 이 연주음 등을 디지털적으로 노래용 마이크 단자(115)를 통한 오디오 신호에 합성하여 이후 정확한 음성 신호의 추출이 가능하도록 한다.
이상의 도 3과 도 4에서는 오디오 ADC(109)와 오디오 DAC(111)가 각각 개별적으로 도시하였으나, 이 오디오 ADC(109)와 오디오 DAC(111)는 하나의 하드웨어 블록(예를 들어 오디오 CODEC)으로 통합될 수도 있다.
이 프로세서(113)상에서 또는 도 4의 하드웨어 블록도 상에서 이루어지는, 음성 인식에 이용될 음성 신호의 추출 방법은 도 5와 도 6을 통해 상세히 살펴보도록 한다.
도 5는, 음성 신호 추출 장치의 예시적인 기능 블록도를 도시한 도면이다.
도 5에 따르면 이 음성 신호 추출 장치는, 아날로그 합성부(201)와 복수의 아날로그-디지털 변환부(203)와 복수의 시간-주파수 변환부(205)와 잡음 신호 추정부(207)와 목적 신호 생성부(209)와 음성 신호 생성부(211)와 구간 추정부(213)와 계수 갱신부(215)와 게인 결정부(217)와 음성 인식부(219)와 기능 제어부(221)를 포함한다.
이러한 도 5에 따르는 음성 신호 추출 장치는, 도 2 내지 도 4의 하드웨어 블록도 상에서 구현되고 프로세서(113)의 제어하에, 바람직하게는 프로세서(113)에서 수행되는 프로그램의 제어하에, 구현될 수 있다.
도 5의 각 기능 블록들을 살펴보면, 아날로그 합성부(201)는, 하나 이상의 노래용 마이크 단자(115) 나아가 잡음용 마이크 단자(117)로부터의 아날로그 신호를 아날로그 레벨에서 합성한다. 이러한 아날로그 합성부(201)는 예를 들어 RLC 회로로 구성되거나 복수의 아날로그 신호를 단일의 아날로그 신호로 합성하기 위한 칩셋으로 구성되거나 아날로그 신호들을 합성하기 위한 회로로 구성될 수 있다. 이러한 아날로그 합성부(201)는 그 하드웨어 블록도의 실시 형태(예를 들어 도 2)에 따라 생략될 수도 있다.
아날로그-디지털 변환부(203)는, 입력되는 아날로그 신호를 지정된 샘플링 주기에 따라 지정된 비트 크기의 디지털 신호로 변환하여 디지털의 오디오 스트림으로 출력한다. 이러한 아날로그-디지털 변환부(203)는 예를 들어 오디오 ADC(109) 상에서 구현될 수 있다.
하나의 아날로그-디지털 변환부(203)는 아날로그 합성부(201)에 연결되어 노래용 마이크 단자(115) 나아가 잡음용 마이크 단자(117)의 아날로그 신호를 디지털의 오디오 신호로 변환하고 나머지 하나의 아날로그-디지털 변환부(203)는 음성 인식용 마이크 단자(119)로부터의 아날로그 신호를 디지털의 오디오 신호로 변환한다.
이와 같은 구성을 통해 오디오 ADC(109) 또는 CODEC의 입력 채널이 한정되는 경우에도 한정되는 입력 채널을 고려하여 효과적으로 잡음 신호 등을 추정하고 나아가 음성 인식이 가능하도록 한다.
여기서 아날로그-디지털 변환부(203) 전단 또는 아날로그 합성부(201)의 전단이나 후단에는 아날로그 신호를 아날로그-디지털 변환부(203)에서 요구되는 전원 레벨로 증폭하기 위한 증폭부(도면 미도시)를 더 포함할 수도 있다.
또한 아날로그-디지털 변환부(203)의 출력은 노래 반주 장치 등에 의해서 생성된 연주음의 디지털의 오디오 스트림과 합성되어 시간-주파수 변환부(205)로 디지털의 오디오 스트림을 제공하도록 구성될 수도 있다.
시간-주파수 변환부(205)는, 아날로그-디지털 변환부(203)로부터 수신되는 시간 도메인 상의 일정한 갯수(예를 들어 연속적인 216개나 512개의 샘플)의 디지털 오디오 스트림(이하에서는 '오디오 프레임'이라 지칭한다)을 주파수 도메인 상의 주파수 신호로 변환한다.
이러한 시간-주파수 변환부(205)는 예를 들어 DFT(Discrete Fourier Transform)과 같은 FFT(fast Fourier transform)를 통해 구현될 수 있고 예를 들어 프로세서(113) 상에서 구현될 수 있다.
이와 같은 시간-주파수 변환부(205)에 의해서, 연속적인 오디오 프레임 각각이 주파수 도메인 상의 주파수 신호로 변환될 수 있고, 주파수 신호는, 주파수 신호의 주파수 대역(예를 들어 음성 대역인 300Hz ~ 4000Hz 등)에서의 지정된 주파수(예를 들어 256개 혹은 512 개 등의 지정된 주파수)와 대응하는 계수의 형태로 표현된다.
하나의 시간-주파수 변환부(205)의 오디오 프레임의 주파수 신호(이하 '제 1 오디오 신호'라 한다)는 목적 신호 생성부(209)와 계수 갱신부(215)에 제공되고 나머지 하나의 시간-주파수 변환부(205)의 오디오 프레임의 주파수 신호(이하 '제 2 오디오 신호'라 한다.)는 잡음 신호 추정부(207)와 계수 갱신부(215)에 제공된다.
잡음 신호 추정부(207)는, 현재 수신되어 변환된 주파수 신호인 제 2 오디오 신호에 필터의 계수가 곱해진 신호를 잡음 신호로 추정한다.
이러한 잡음 신호 추정부(207)는, 예를 들어 주파수 도메인 상에서 적용되는 적응형 디지털 필터(Adaptive Digital Filter)일 수 있고, 프로세서(113)상에서 구현될 수 있다.
그리고 이 잡음 신호 추정부(207)에서 출력되는 주파수 도메인 상의 잡음 신호는, 아래의 수학식 1과 같이 제 2 오디오 신호와 필터 계수의 곱으로 표현될 수 있다.
수학식 1
Figure PCTKR2013004042-appb-M000001
여기서 l l 번째 오디오 프레임의 번호(1 ~ n)이고, R'(l) l 번째 오디오 프레임에 대해 출력되는 잡음 신호이고, W(l) l 번째 오디오 프레임에 대해 적용되는 필터 계수이고, R(l) 은 잡음 신호 추정부(207)에 입력되는 l 번째 오디오 프레임의 제 2 오디오 신호이다,
여기서 필터 계수는, 제 2 오디오 신호에 표현된 각각의 주파수 성분에 대해서 각각 적용되는 계수일 수 있다.
그리고 잡음 신호 추정부(207)는, 필터 계수를 이용하여 노래용 마이크 단자(115)나 잡음용 마이크 단자(117)를 통해 입력되는 제 2 오디오 신호로부터 잡음 신호를 추정하고 이후 제 1 오디오 신호로부터 음성 인식에 이용될 음성 신호를 추출할 수 있도록 한다.
이러한 잡음 신호 추정부(207)는, 제 1 오디오 신호와 제 2 오디오 신호에 공통되는 잡음 신호를 추정하고 나아가 이 잡음 신호를 제 1 오디오 신호에서 차감한 신호의 파워가 최소로 되도록 하는 것이 필요하고 이에 따라 필터 계수를 노래방과 같은 다수의 음원이 출력되는 환경을 고려하여 튜닝할 필요가 있다.
목적 신호 생성부(209)는, 현재 오디오 프레임의 주파수 신호인 제 1 오디오 신호에서 잡음 신호 추정부(207)에서 추정된 주파수 신호인 잡음 신호를 차감하여 음성 인식에 이용될 음성 신호를 추출할 수 있는 목적 신호를 생성하고 바람직하게는 프로세서(113)상에서 구현될 수 있다.
이러한 목적 신호는 일차적으로 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)로부터의 잡음 신호를 제거할 수 있도록 한다.
음성 신호 생성부(211)는, 일차적으로 잡음이 제거된 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하고 바람직하게는 프로세서(113)상에서 구현된다. 이러한 음성 신호 생성부(211)는, 일차적으로 잡음이 제거된 목적 신호에 대해서 추가적으로 잡음을 제거하도록 구성될 수 있다. 이를 위해 음성 신호 생성부(211)는 게인 결정부(217)를 통해 수신된 게인(gain)을 수신된 목적 신호에 적용하여(예를 들어 곱하여) 음성 신호를 생성한다.
여기서, 이 게인은 주파수 신호에 표현된 주파수 성분별로 결정된 게인이거나 혹은 모든 주파수 성분에 대해서 평균에 따라 결정된 게인일 수 있고 바람직하게는 주파수 성분별로 결정된 게인일 수 있다. 그리고 이 게인은 예를 들어 0 에서 1 사이의 값을 가질 수 있다.
구간 추정부(213)는, 오디오 프레임의 주파수 신호인 제 1 오디오 신호와 제 2 오디오 신호에 기초하여 수신된 이 오디오 프레임이 잡음 만이 존재하는 잡음 구간인지 혹은 외부 잡음뿐 아니라 음성 인식에 이용될 음성 신호가 수신되고 있는 목적 구간 인지를 추정한다. 그리고 이 구간 추정부(213)는 바람직하게는 프로세서(113)상에서 구현된다.
이를 위해 이 구간 추정부(213)는, 목적 신호 생성부(209)에서 생성되는 목적 신호와 잡음 신호 추정부(207)에서 추정되는 잡음 신호 사이의 상관 관계(co-relation)에 따라 잡음 구간인지 혹은 목적 구간 인지를 추정할 수 있다.
예를 들어 이 구간 추정부(213)는, 아래의 수학식 2와 같이 목적 신호와 추정된 잡음 신호 사이의 상관 계수를 계산할 수 있다.
수학식 2
Figure PCTKR2013004042-appb-M000002
여기서 Cor 은 상관 계수이고, l l 번째 오디오 프레임의 번호(1 ~ n)이고, T(l) l 번째 오디오 프레임에 대해 생성되는 목적 신호이고, R'(l) l 번째 오디오 프레임에 대해 출력되는 잡음 신호이다.
이러한 상관 계수는 0에서 1/2 사이의 값을 가지고, 이 상관 계수가 0에 가까워 짐에 따라 음성 인식용 마이크 단자(119)를 통해 음성 인식을 위한 음성 신호가 존재하는 것을 알 수 있고, 1/2에 가까워짐에 따라 음성 인식용 마이크 단자(119)와 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)의 음성 신호가 동일한 유형의 신호를 띠게 되어 잡음 만이 존재하는 것임을 알 수 있다.
이에 따라 구간 추정부(213)는 이 상관 계수가 지정된 임계치 이하(또는 미만)인 경우에는 음성 인식을 위한 음성 신호가 존재하는 목적 구간으로 추정하고 지정된 임계치 이상(또는 초과)인 경우에는 잡음 만이 존재하는 잡음 구간으로 추정할 수 있다.
그리고 이 상관 계수는 바람직하게는 목적 신호와 추정된 잡음 신호의 각 주파수 성분에 대해서 각 주파수별 상관 계수를 구한 후에 평균화된 계수일 수 있고 이 지정된 임계치는 실험 등을 통해 산출된 값일 수 있다.
이러한 상관 계수를 이용하여 목적 구간인지 잡음 구간인지를 추정하여 잡음 구간 내에서 지속적으로 필터 계수가 갱신하도록 하여 이후 음성 신호가 수신된 목적 구간에서 잡음 신호를 제거할 수 있도록 튜닝된 필터 계수를 활용하여 정확히 잡음 신호를 제거하여 음성 신호를 추출할 수 있도록 한다.
혹은 이 상관 계수를 시간-주파수 변환부(205)를 통해 출력된 제 1 오디오 신호와 제 2 오디오 신호 사이의 파워의 비(Ratio of Power)의 상관 관계(도 5에서 연결관계 미도시)를 이용하여 각 오디오 프레임별로 계산할 수도 있다. 이러한 파워 비는 예를 들어 주파수 신호의 주파수 성분들 중 지정된 주파수 대역(예를 들어 1 KHz 이하의 저주파수 대역 및/또는 예를 들어 1 ~ 3 KHz 사이의 중주파수 대역의)의 주파수 신호 성분간의 파워 비에 따라서 산출될 수 있다.
아래 수학식 3은 신호 사이의 파워 비를 이용하여 특정 오디오 프레임(l번째 오디오 프레임)의 주파수 신호에 대한 상관 계수를 계산할 수 있도록 하는 예시적인 수학식이다.
수학식 3
Figure PCTKR2013004042-appb-M000003
여기서, Rat(l) l 번째 오디오 프레임의 지정된 주파수 대역에 대한 제 1 오디오 신호와 제 2 오디오 신호 사이의 파워 비를 나타내고, M l 번째 오디오 프레임 이전의 지정된 오디오 프레임의 개수를 나타낸다.
그리고 Rat(l) 은, 파워 비(ratio of power)를 나타내고, 제 2 오디오 신호의 주파수 계수의 제곱(파워)에 대한 제 1 오디오 신호의 주파수 계수의 제곱(파워)의 비로 표현될 수 있다. 이 Rat(l) 이 1에 가까워짐에 따라 제 1 오디오 신호와 제 2 오디오 신호에는 잡음 신호만이 존재하게 되고 1을 초과함에 따라 음성 인식용 마이크 단자(119)를 통한 제 1 오디오 신호에 음성 인식을 위한 음성 신호가 존재하게 된다.
그리고 수학식 3의 상관 계수는, 현재 수신된 오디오 프레임의 파워 비가 M 오디오 프레임 동안의 과거 파워 비의 평균보다 얼마나 변화하는 것(분산(variance))인지를 의미한다.
이 상관 계수가 지정된 임계치 이상(또는 초과)인 경우에는 음성 인식을 위한 음성 신호가 존재하는 목적 구간으로 추정하고 지정된 임계치 이하(또는 미만)인 경우에는 잡음 만이 존재하는 잡음 구간으로 추정할 수 있다.
이와 같이 상관 계수는 현재의 오디오 프레임으로부터 이 오디오 프레임이 어떤 구간의 음성 신호인지를 알 수 있도록 하고 이에 따라 필터 계수를 잡음 구간 동안에 지속적으로 갱신하여 효율적으로 잡음 신호를 제거할 수 있도록 한다.
계수 갱신부(215)는, 구간 추정부(213)에서의 추정에 따라 잡음 신호 추정부(207)에서 이용될 필터 계수를 갱신하고 바람직하게는 프로세서(113)상에서 구현될 수 있다. 이 계수 갱신부(215)는 구간 추정부(213)에서의 추정이 잡음 구간인 경우에 다음 오디오 프레임(l+1)에서 적용할 필터 계수를 현재의 필터 계수와 제 1 오디오 신호의 주파수 신호와 목적 신호의 주파수 신호와 제 2 오디오 신호의 주파수 신호의 관계에 따라 결정한다.
아래 수학식 4는 갱신될 필터 계수를 계산하기 위한 예시적인 수학식이다.
수학식 4
Figure PCTKR2013004042-appb-M000004
여기서 l l+1 l 번째와 후속하는 l+1 번째의 오디오 프레임의 번호(1 ~ n)이고, R(l) 은 잡음 신호 추정부(207)에 입력되는 l 번째 오디오 프레임의 제 2 오디오 신호이고, W(l) W(l+1) l 번째와 후속하는 l+1 번째 오디오 프레임에 대해 적용되는 필터 계수이고, L(l) 은 목적 신호 생성부(209)로 입력되는 l 번째 오디오 프레임의 제 1 오디오 신호이고, 첨자 H 는 허미션(hermitian) 표시이고, T(l) l 번째 오디오 프레임에 대해 생성되는 목적 신호이고, μ(l) 은 주파수 신호의 주파수 성분에 곱해지는 수렴 상수이다.
이러한 필터 계수는 각 오디오 프레임별로 갱신될 수 있고 잡음 구간 동안에 반복적으로 갱신될 수 있다. 그리고 이 필터 계수는 주파수 신호의 각 주파수 성분 별로 계산될 수 있다.
이와 같이 추정된 잡음 구간 동안에 제 1 오디오 신호와 제 2 오디오 신호의 주파수 신호의 성분이 일치되도록 지속적으로 필터 계수를 갱신함에 따라, 목적 신호 생성부(209)에서 생성되는 목적 신호는 이후 목적 구간 동안에 주파수 신호가 최소가되록(예를 들어 파워가 최소가 되도록) 하여 잡음 신호를 효과적으로 제거할 수 있도록 한다.
그리고 이 필터 계수는 잡음 구간 동안에 지속적으로 갱신됨에 따라 이후 목적 구간에서는 이 갱신된 최종의 필터 계수를 활용하여 안정적으로 잡음 신호를 제거할 수 있도록 한다.
게인 결정부(217)는, 음성 신호 생성부(211)에서 이용될 게인(gain)을 결정한다. 이러한 게인은 주파수 신호의 각 주파수 성분별로 결정될 수 있다. 그리고 이 게인 결정부(217)는 목적 신호의 주파수 신호와 추정된 잡음 신호의 주파수 신호 사이의 파워 비에 기초하여 이러한 게인을 생성한다.
이를 위해 게인 결정부(217)는, 잡음 구간 동안에 추정된 잡음 신호의 각 주파수 성분에서의 파워를 계산한다. 그리고 이 계산된 파워(바람직하게는 최종적으로 계산된 각 주파수 성분의 파워)와 각 목적 신호의 주파수 신호의 각 주파수 성분 사이의 파워 비를 이후 목적 구간 동안에 적용할 게인으로 결정할 수 있다.
아래 수학식 5는 주파수 신호의 각 주파수별로 게인을 계산하기 위한 예시적인 수학식이다. 이러한 각 주파수 별 게인은 이후 목적 신호의 각 주파수별로 곱해져서 음성 신호로 출력될 수 있다.
수학식 5
Figure PCTKR2013004042-appb-M000005
여기서, Ps 는 목적 신호의 지정된 주파수 성분의 파워(주파수 계수의 제곱)이고 Pn 은 수학식 2 또는 수학식 3의 상관 계수가 잡음 구간으로 추정시의 해당 오디오 프레임의 잡음 신호에 대응하는 주파수 성분의 파워이다.
이와 같은 게인과 잡음 신호의 잡음 구간 동안의 갱신으로 인해, 안정적으로 잡음 구간 동안에 필터 계수와 게인을 갱신할 수 있고 이후 이를 이용해서 음성 인식에 이용될 음성 신호를 추출할 수 있고 나아가 간단한 구조로 이러한 잡음 신호의 추출이 이루어질 수 있다.
음성 인식부(219)는, 음성 신호 생성부(211)에서 생성된 음성 신호에 음성 인식에 이용될 특징 벡터를 추출하고 이로부터 음성 검색에 이용될 특징 벡터와 비교하며 바람직하게는 프로세서(113)상에서 구현될 수 있다. 이러한 특징 벡터는 시간 도메인 상이나 주파수 도메인 상에서 추출될 수 있다.
이와 같은 음성 인식부(219)는 추출된 특징 벡터를 데이터 베이스 등에 저장된 특징 벡터와의 비교로 음성을 통한 검색 결과를 생성하거나 혹은 음성에 따른 제어 명령을 결정한다.
그리고 이 음성 인식부(219)는, 목적 구간 동안에 또는 잡음 구간 동안에 수행될 수 있으나, 바람직하게는 목적 구간 동안에 수행되는 것이 프로세서의 부하를 줄이도록 구성되고 불필요한 음성 인식을 줄일 수 있도록 한다.
기능 제어부(221)는, 음성 인식부(219)에서 생성된 검색 결과를 비디오 출력 인터페이스(103)를 통해 출력하거나 제어 명령에 따라 기능을 수행하며 바람직하게는 프로세서(113) 상에서 구현될 수 있다.
이와 같은 도 5의 기능 블록도에 의해서 여러 다양한 음원이 산재하는 노래방 환경하에서 음성 검색이나 명령을 위한 음성 신호를 용이하게 그리고 정확하게 추출할 수 있도록 한다.
도 6은, 음성 신호 추출 장치에서 이루어지는 음성 인식에 이용될 음성 신호를 추출하기 위한 제어 흐름을 도시한 도면이다. 이러한 음성 신호 추출 장치는 예를 들어 노래방에서 이용되는 리모콘이거나 곡목 검색기이거나 노래 반주 장치일 수 있다. 그리고 이 제어 흐름은 도 2 내지 도 4의 하드웨어 블록도 상에서 구현되고 바람직하게는 프로세서(113)에 구동되는 프로그램을 이용하여 수행될 수 있다.
이러한 도 6의 제어 흐름은, 음성 신호 추출 장치가 구동됨에 따라 자동으로 혹은 음성 신호 추출 장치의 입력 인터페이스(101)를 통해 음성 인식을 시작하도록 요청하는 기능 키를 수신함으로써 시작한다.
또한 이 제어 흐름은, 음성 신호 추출 장치의 구동이 종료됨에 따라 자동으로 혹은 음성 신호 추출 장치의 입력 인터페이스(101)를 통해 음성 인식의 종료를 요청하는 기능 키를 수신함으로써 종료한다.
제어 흐름에 대응하는 도 5의 기능 블록도 상에서 이미 상세히 살펴보았으므로, 여기서는 간단히 살펴보도록 한다.
먼저 단계 S101에서, 복수의 마이크 단자를 통해 수신된 아날로그 오디오 신호를 오디오 ADC(109)를 이용하여 지정된 개수로 구성된 오디오 프레임으로 각각 변환한다.
이후 단계 S103에서, 이 각각의 오디오 프레임에 대해서 주파수 도메인에서 의 주파수 신호로 변환되는 제 1 오디오 신호와 제 2 오디오 신호를 생성한다. 이러한 주파수 신호는 지정된 주파수 대역 내에서의 복수의 주파수 성분의 주파수 계수 값을 가질 수 있다.
여기서 이 제 2 오디오 신호는, 복수의 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)의 아날로그 오디오 신호를 아날로그 레벨에서 믹싱한 후에 생성되는 시간 도메인 상의 디지털의 오디오 프레임을 주파수 도메인으로 변환한 주파수 신호일 수 있다.
혹은 이 제 2 오디오 신호는, 복수의 노래용 마이크 단자(115)의 아날로그 오디오 신호를 오디오 프레임으로 변환하고, 이후 노래 반주 장치 등과 같은 음성 신호 추출 장치 내부에서 생성된 연주음과 같은 디지털의 오디오 프레임을 디지털 적으로 합성한 후에 주파수 도메인으로 변환된 신호일 수 있다.
이후 단계 S105에서, 주파수 신호로 변환된 노래용 마이크 단자(115) 및/또는 잡음용 마이크 단자(117)로부터의 제 2 오디오 신호에 앞선 오디오 프레임에 대해서 계산된(잡음 구간인 경우) 또는 이미 계산되어 있는(목적 구간인 경우) 필터 계수를 적용하여 음성 신호의 추출에 이용될 잡음 신호를 추정한다.
이후 단계 S107에서, 주파수 신호로 변환된 음성 인식용 마이크 단자(119)로부터의 제 1 오디오 신호에서 추정된 잡음 신호를 차감하여 목적 신호를 생성한다.
이후 단계 S109에서, 제 1 오디오 신호와 제 2 오디오 신호에 기초하여 현재의 오디오 프레임이 잡음 구간인지 혹은 목적 구간인지를 추정한다.
이러한 추정은, 목적 신호와 추정된 잡음 신호 사이에서 결정되는 상관 계수에 의해서 결정될 수 있고, 만일 이 상관 계수가 지정된 임계치 이하인 경우에는 목적 구간으로 추정하고 지정된 임계치를 초과하는 경우에는 잡음 구간으로 추정할 수 있다.
혹은 이러한 추정은, 단계 S103에서 변환된 제 1 오디오 신호와 제 2 오디오 신호의 파워 비에 따라 목적 구간인지 혹은 잡음 구간인지를 결정할 수 있고, 예를 들어 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비에 따라 결정될 수 있다.
이후 단계 S111에서 구간 추정이 잡음 구간으로 추정된 경우에는 단계 S113으로 전이하고 그렇지 않은 경우에는 단계 S117로 전이한다.
잡음 구간으로 추정된 경우에는, 단계 S113에서 제 2 오디오 신호로부터 추정될 잡음 신호에 적용될 필터 계수를 갱신한다. 이러한 필터 계수는 현재 오디오 프레임 이후의 오디오 프레임에 대해서 적용될 수 있다.
그리고 이후 단계 S115에서 잡음 구간에서의 잡음 신호의 각 주파수 성분에 대한 파워를 결정한다. 이러한 파워는 이후 목적 구간(단계 S117 참조)에서 이용될 게인의 계산에 이용된다.
이 단계 S115 이후에, 단계 S101로 전이하여, 이후 오디오 프레임에 대해서 반복하고 이에 따라 단계 S113에서 갱신된 필터 계수는 단계 S105에서 다시 제 2 오디오 신호로부터 잡음 신호를 추정하는 데 이용된다.
만일 음성 인식에 이용될 음성 신호가 존재하는 목적 구간인 경우에는, 단계 S117에서 단계 S107에서 생성된 목적 신호에 적용할 게인을 결정한다. 이러한 게인은 각 주파수 성분별로 결정될 수 있고 잡음 구간에서 수행되는 단계 S115에서 결정된 잡음 신호의 각 주파수 성분의 파워를 이용하여 현재 오디오 프레임에 대해 생성된 목적 신호의 주파수 신호와 잡음 신호의 주파수 신호에 대한 파워 비를 통해 각 주파수 성분 별로 결정될 수 있다.
이후 단계 S119에서 이 결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하고 이후 단계 S101로 전이한다.
한편 이 단계 S117과 단계 S119는, 목적 구간 내에서만 수행될 필요는 없고 목적 구간이나 잡음 구간에 상관없이 수행되도록 구성할 수도 있다.
이러한 제어 흐름을 통해서, 잡음 구간과 목적 구간의 구분과 잡음 구간에서의 필터 계수의 안정적인 갱신으로 인해 이후 목적 구간에서의 신호 간의 차이가 발생하더라도 안정적으로 음성 신호를 추출할 수 있도록 하고 나아가 간단한 구조로 이러한 추출이 이루어질 수 있도록 한다.
이상에서 설명한 본 발명은, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 있어 본 발명의 기술적 사상을 벗어나지 않는 범위 내에서 여러 가지 치환, 변형 및 변경이 가능하므로 전술한 실시 예 및 첨부된 도면에 의해 한정되는 것이 아니다.

Claims (10)

  1. 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법으로서,
    (a) 하나의 마이크를 통해 수신되는 제 1 오디오 신호와 상기 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 상기 음성 신호가 수신되는 목적 구간인지를 추정하는 단계;
    (b) 상기 단계 (a)에서의 추정이 잡음 구간인 경우에, 상기 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는 단계; 및
    (c) 음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는 단계;를 포함하며,
    상기 필터 계수는, 잡음 구간인 동안에 갱신되는,
    음성 신호의 추출 방법.
  2. 제1항에 있어서,
    (d) 제 1 오디오 신호에서 상기 추정된 잡음 신호를 차감하여 목적 신호를 생성하는 단계;를 더 포함하며,
    상기 단계 (a)는, 생성된 목적 신호와 추정된 잡음 신호 사이에 계산되는 상관 계수가, 지정된 임계치 이하인 경우에 목적 구간으로 추정하고, 지정된 임계치를 초과하는 경우에 잡음 구간으로 추정하는,
    음성 신호의 추출 방법.
  3. 제1항에 있어서,
    상기 단계 (a)는, 제 1 오디오 신호와 제 2 오디오 신호의 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비(ratio of power)에 따라 목적 구간인지 잡음 구간인지를 추정하는,
    음성 신호의 추출 방법.
  4. 제2항에 있어서,
    목적 신호의 주파수 신호와 상기 잡음 신호의 주파수 신호에 대한 파워(power)의 비에 기초하여, 목적 신호에 적용할 게인(gain)을 결정하는 단계; 및
    결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하는 단계;를 더 포함하며,
    상기 잡음 신호의 주파수 신호에 대한 파워는, 상기 잡음 구간인 동안에 결정되는,
    음성 신호의 추출 방법.
  5. 제1항에 있어서,
    상기 음성 신호 추출 방법은, 노래 반주 장치에서 수행되며,
    상기 제 2 오디오 신호는, 복수의 마이크로부터 각각 수신된 아날로그 오디오 신호를 믹싱한 후에 생성되는 시간 도메인 상의 디지털의 오디오 프레임을 주파수 도메인으로 변환한 주파수 신호이거나, 상기 하나의 마이크와 상이한 복수의 마이크로부터 수신된 오디오 신호와 상기 노래 반주 장치에서 생성되어 출력되는 재생 음원의 오디오 신호를 합성한 후에 주파수 도메인으로 변환된 신호인,
    음성 신호의 추출 방법.
  6. 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 장치로서,
    하나의 마이크를 통해 수신되는 제 1 오디오 신호와 상기 하나의 마이크와 상이한 하나 이상의 마이크를 통해 수신되는 제 2 오디오 신호에 기초하여 잡음 구간인지 상기 음성 신호가 수신되는 목적 구간인지를 추정하는, 구간 추정부;
    상기 구간 추정부에서의 추정이 잡음 구간인 경우에, 상기 제 2 오디오 신호로부터 추정될 잡음 신호에 적용되는 필터 계수를 갱신하는, 계수 갱신부; 및
    음성 인식에 이용될 음성 신호의 추출을 위해, 갱신된 필터 계수를 이용하여 제 2 오디오 신호로부터 잡음 신호를 추정하는, 잡음 신호 추정부를 포함하며,
    상기 필터 계수는, 잡음 구간인 동안에 갱신되는,
    음성 신호의 추출 장치.
  7. 제6항에 있어서
    제 1 오디오 신호에서 상기 추정된 잡음 신호를 차감하여 목적 신호를 생성하는 목적 신호 생성부;를 더 포함하며,
    상기 구간 추정부는, 생성된 목적 신호와 추정된 잡음 신호 사이에 계산되는 상관 계수가, 지정된 임계치 이하인 경우에 목적 구간으로 추정하고, 지정된 임계치를 초과하는 경우에 잡음 구간으로 추정하며,
    상기 필터 계수는, 목적 신호의 주파수 신호가 최소가 되도록, 제 1 오디오 신호의 주파수 신호와 목적 신호의 주파수 신호와 제 2 오디오 신호의 주파수 신호의 관계에 따라 결정되는,
    음성 신호의 추출 장치.
  8. 제7항에 있어서,
    목적 신호의 주파수 신호와 상기 잡음 신호의 주파수 신호에 대한 파워의 비(ratio of power)에 기초하여, 목적 신호에 적용할 게인(gain)을 결정하는, 게인 결정부; 및
    결정된 게인을 이용하여 목적 신호로부터 음성 인식에 이용될 음성 신호를 생성하는, 음성 신호 생성부;를 더 포함하며,
    상기 잡음 신호의 주파수 신호에 대한 파워는, 상기 잡음 구간인 동안에 결정되는,
    음성 신호의 추출 장치.
  9. 제6항에 있어서,
    상기 하나의 마이크와 상이한 복수의 마이크로부터 각각 수신된 아날로그 오디오 신호를 합성하는 아날로그 합성부;
    합성된 아날로그 오디오 신호로부터 디지털의 오디오 신호로 변환하기 위한 아날로그-디지털 변환부; 및
    변환된 디지털의 오디오 신호를 주파수 도메인의 주파수 신호로 변환하여 상기 제 2 오디오 신호를 생성하기 위한 시간-주파수 변환부;를 더 포함하며,
    상기 음성 신호의 추출 장치는, 노래 반주 장치인,
    음성 신호의 추출 장치.
  10. 제6항에 있어서,
    상기 구간 추정부는, 제 1 오디오 신호와 제 2 오디오 신호의 연속적으로 수신된 복수의 오디오 프레임에 대하여 변환된 주파수 신호 사이의 파워 비(ratio of power)에 따라 목적 구간인지 잡음 구간인지를 추정하는,
    음성 신호의 추출 장치.
PCT/KR2013/004042 2013-04-05 2013-05-08 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치 WO2014163231A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020130037214A KR101312451B1 (ko) 2013-04-05 2013-04-05 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치
KR10-2013-0037214 2013-04-05

Publications (1)

Publication Number Publication Date
WO2014163231A1 true WO2014163231A1 (ko) 2014-10-09

Family

ID=49456888

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/004042 WO2014163231A1 (ko) 2013-04-05 2013-05-08 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치

Country Status (2)

Country Link
KR (1) KR101312451B1 (ko)
WO (1) WO2014163231A1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105095A (zh) * 2017-04-25 2017-08-29 努比亚技术有限公司 一种声音处理方法及移动终端
CN113808605A (zh) * 2021-09-29 2021-12-17 睿云联(厦门)网络通讯技术有限公司 一种基于楼宇对讲系统的语音增强方法和装置以及设备
CN114979734A (zh) * 2022-05-17 2022-08-30 歌尔科技有限公司 一种语音控制遥控器及其降噪方法和电视机

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210062475A (ko) 2019-11-21 2021-05-31 삼성전자주식회사 전자 장치 및 그 제어 방법
US11398241B1 (en) * 2021-03-31 2022-07-26 Amazon Technologies, Inc. Microphone noise suppression with beamforming
US11741934B1 (en) 2021-11-29 2023-08-29 Amazon Technologies, Inc. Reference free acoustic echo cancellation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090083112A (ko) * 2008-01-29 2009-08-03 한국과학기술원 잡음 제거 장치 및 방법
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
KR20100040664A (ko) * 2008-10-10 2010-04-20 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
KR20120098211A (ko) * 2011-02-28 2012-09-05 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090083112A (ko) * 2008-01-29 2009-08-03 한국과학기술원 잡음 제거 장치 및 방법
JP2010054728A (ja) * 2008-08-27 2010-03-11 Hitachi Ltd 音源抽出装置
KR20100040664A (ko) * 2008-10-10 2010-04-20 삼성전자주식회사 잡음 추정 장치 및 방법과, 이를 이용한 잡음 감소 장치
KR20120098211A (ko) * 2011-02-28 2012-09-05 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107105095A (zh) * 2017-04-25 2017-08-29 努比亚技术有限公司 一种声音处理方法及移动终端
CN113808605A (zh) * 2021-09-29 2021-12-17 睿云联(厦门)网络通讯技术有限公司 一种基于楼宇对讲系统的语音增强方法和装置以及设备
CN113808605B (zh) * 2021-09-29 2023-09-12 睿云联(厦门)网络通讯技术有限公司 一种基于楼宇对讲系统的语音增强方法和装置以及设备
CN114979734A (zh) * 2022-05-17 2022-08-30 歌尔科技有限公司 一种语音控制遥控器及其降噪方法和电视机
CN114979734B (zh) * 2022-05-17 2024-04-02 歌尔科技有限公司 一种语音控制遥控器及其降噪方法和电视机

Also Published As

Publication number Publication date
KR101312451B1 (ko) 2013-09-27

Similar Documents

Publication Publication Date Title
WO2014163231A1 (ko) 복수의 음원이 출력되는 환경하에서 음성 인식에 이용될 음성 신호의 추출 방법 및 음성 신호의 추출 장치
WO2020060325A1 (ko) 전자 장치, 시스템 및 음성 인식 서비스 이용 방법
WO2020231230A1 (en) Method and apparatus for performing speech recognition with wake on voice
WO2020231181A1 (en) Method and device for providing voice recognition service
EP3479376A1 (en) Speech recognition method and apparatus based on speaker recognition
WO2021003955A1 (zh) 耳机播放状态的控制方法、装置、移动终端及存储介质
WO2016032021A1 (ko) 음성 명령 인식을 위한 장치 및 방법
WO2020050509A1 (en) Voice synthesis device
WO2020085794A1 (en) Electronic device and method for controlling the same
WO2021049795A1 (en) Electronic device and operating method thereof
WO2019151802A1 (en) Method of processing a speech signal for speaker recognition and electronic apparatus implementing same
WO2020116930A1 (en) Electronic device for outputting sound and operating method thereof
WO2020218650A1 (ko) 전자기기
WO2020138662A1 (ko) 전자 장치 및 그의 제어 방법
WO2016080660A1 (en) Content processing device and method for transmitting segment of variable size
WO2009123412A1 (ko) 노이지 음성 신호의 처리 방법과 이를 위한 장치 및 컴퓨터 판독 가능한 기록매체
WO2022158912A1 (ko) 심화 신경망을 이용한 다채널 기반의 잡음 및 에코 신호 통합 제거 장치
WO2021025515A1 (en) Method for processing multi-channel audio signal on basis of neural network and electronic device
EP3841460A1 (en) Electronic device and method for controlling the same
WO2023085584A1 (en) Speech synthesis device and speech synthesis method
WO2020096218A1 (en) Electronic device and operation method thereof
WO2022158914A1 (ko) 어텐션 메커니즘을 이용한 음성 신호 추정 방법 및 장치
WO2020075998A1 (ko) 전자 장치 및 그 제어 방법
WO2019041186A1 (zh) 一种音频变声方法、智能设备及存储介质
WO2020122271A1 (ko) 디스플레이 장치

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13880918

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 25/02/2016)

122 Ep: pct application non-entry in european phase

Ref document number: 13880918

Country of ref document: EP

Kind code of ref document: A1