KR101357381B1 - Apparatus and method for robust detecting speech end point - Google Patents

Apparatus and method for robust detecting speech end point Download PDF

Info

Publication number
KR101357381B1
KR101357381B1 KR1020120050478A KR20120050478A KR101357381B1 KR 101357381 B1 KR101357381 B1 KR 101357381B1 KR 1020120050478 A KR1020120050478 A KR 1020120050478A KR 20120050478 A KR20120050478 A KR 20120050478A KR 101357381 B1 KR101357381 B1 KR 101357381B1
Authority
KR
South Korea
Prior art keywords
speech recognition
recognition target
section
target section
voice
Prior art date
Application number
KR1020120050478A
Other languages
Korean (ko)
Other versions
KR20130126379A (en
Inventor
고한석
문성규
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to KR1020120050478A priority Critical patent/KR101357381B1/en
Publication of KR20130126379A publication Critical patent/KR20130126379A/en
Application granted granted Critical
Publication of KR101357381B1 publication Critical patent/KR101357381B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Telephone Function (AREA)
  • Cable Transmission Systems, Equalization Of Radio And Reduction Of Echo (AREA)

Abstract

음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치 및 방법이 제공된다. 상기 신호 처리 장치는, 입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 음성 추출부, 상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 반향 제거부, 및 상기 제1 음성 인식 대상 구간과 상기 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 연산부를 포함한다.Provided are a signal processing apparatus and a method for detecting a speech recognition target section for speech recognition. The signal processing apparatus may include: a speech extracting unit configured to extract noise from an input signal to extract a first speech recognition target section, and to remove a section including an echo associated with the signal processing apparatus from the input signal to a second speech recognition target section; And an echo canceling unit for extracting the first and second operation units for determining an overlapping section between the first speech recognition target section and the second speech recognition target section as the speech recognition target section for speech recognition.

Description

강인한 음성 검출을 위한 신호 처리 장치 및 방법{APPARATUS AND METHOD FOR ROBUST DETECTING SPEECH END POINT}Signal processing apparatus and method for robust voice detection {APPARATUS AND METHOD FOR ROBUST DETECTING SPEECH END POINT}

음성 검출 장치 및 방법에 연관되며, 보다 특정하게는 반향 환경에서 동시통화검출기를 본래의 목적에 추가적으로 음성 검출과정에서 사용하는 장치 및 방법에 연관된다.The present invention relates to a voice detection apparatus and method, and more particularly, to an apparatus and method for using a simultaneous call detector in an echo environment in addition to an original purpose in a voice detection process.

높은 성능의 음성 인식을 위해서는 마이크 입력 신호 중 음성인식의 시작과 끝을 알릴 음성구간의 시작점과 종료점 검출이 필수적이다. 음성신호 시작점과 종료점을 검출하는 음성 끝점검출(End Point Detection, EPD)을 통해 비음성 구간의 잡음이 음성 인식의 성능을 하락시키는 것을 방지하고, 필요한 구간만을 입력 받으므로 음성 인식에 소요되는 시간을 단축시킬 수 있다.For high performance speech recognition, it is essential to detect the start point and end point of the voice section that will indicate the start and end of voice recognition. Voice End Point Detection (EPD), which detects the start and end points of a voice signal, prevents noise in the non-voice section from degrading the performance of the voice recognition, and receives only the necessary section, thus reducing the time required for the voice recognition. It can be shortened.

반면에, 정확하지 않은 끝점검출은 음성 구간을 비음성 구간으로 간주하여 음성정보를 무시하기 때문에, 인식성능을 저하시킬 수 있으므로 정확한 끝점검출이 요구된다. 음성 끝점검출의 성능을 하락시키는 주된 요인은 잡음이다. 마이크에서 잡음을 제거하여 시스템 사용자의 음성만을 깨끗하게 입력 받기 위해서는, 일반적 잡음 외에 스피커 출력신호가 다시 마이크로 들어가는 회귀신호, 즉 반향(Echo)의 제거가 필요하다.On the other hand, inaccurate endpoint detection requires accurate endpoint detection because speech information is ignored as speech sections are regarded as non-voice sections. Noise is the main factor that degrades the performance of voice endpoint detection. In order to remove noise from the microphone so that only the voice of the system user can be inputted cleanly, it is necessary to remove the reverberation signal, that is, the echo, in which the speaker output signal is returned to the microphone in addition to the general noise.

그러나 신호 대 반향비(Signal to Echo Ratio, SER)가 -5dB 이하가 될 만큼 시스템의 스피커와 마이크가 가까이 있는 경우, 반향제거가 제대로 이루어지지 않아 마이크에 반향이 들어가게 되어, 잔여반향이 발생하게 된다. 음성검출기(EPD)는 잡음 제거에는 강하지만, 잔여반향을 음성으로 오검출하게 되고, 이 경우 정확한 음성 인식이 이루어질 수 없다.However, if the speaker and the microphone of the system are close enough that the signal to echo ratio (SER) is less than -5 dB, the echo cancellation will not be performed properly and the echo will enter the microphone, resulting in residual echo. . The voice detector (EPD) is strong in noise removal, but incorrectly detects residual echo as voice, in which case accurate speech recognition cannot be achieved.

음성 인식과는 별개로, 반향 제거를 위해 스피커 출력 신호와 사용자의 음성이 동시에 마이크에 입력되는 구간의 검출이 필요하며, 이를 위하여 동시통화검출기(Double Talk Detector, DTD)가 사용된다. 그러나 동시통화검출기 (DTD)는 잔여반향에는 강하지만 반향이 아닌 다른 잡음에는 취약하므로, 동시통화검출 결과만을 음성 인식에 사용하기에는 한계가 있다.Independent of speech recognition, the speaker output signal and the user's voice are input to the microphone at the same time for echo cancellation. For this purpose, a double talk detector (DTD) is used. However, since the DTD is strong in the residual echo but vulnerable to noise other than the echo, there is a limitation in using only the simultaneous call detection result for speech recognition.

잡음 및 반향 모두에 강인한 음성 검출을 수행하는 신호 처리 장치 및 방법이 제공된다.A signal processing apparatus and method are provided for performing speech detection robust to both noise and echo.

반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 음성 끝점 검출 방법과 비교 연산하여, 잡음이나 반향 환경에서도 강인한 음성 끝점검출을 수행하는 신호 처리 장치 및 방법이 제공된다.Provided are a signal processing apparatus and a method for performing robust voice endpoint detection in a noise or echo environment by comparing and calculating the results of simultaneous call detection with good performance in reverberation interval discrimination.

본 발명의 일측에 따르면, 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치에 있어서, 입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 음성 추출부, 상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 반향 제거부, 및 상기 제1 음성 인식 대상 구간과 상기 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 연산부를 포함하는 신호 처리 장치가 제공된다.According to an aspect of the present invention, in the signal processing apparatus for detecting a speech recognition target section for speech recognition, a speech extractor for extracting a first speech recognition target section by removing noise from an input signal, the signal from the input signal An echo canceller for extracting a second speech recognition target section by removing a section including echoes associated with a processing device, and an overlapping section of the first speech recognition target section and the second speech recognition target section for the speech recognition. Provided is a signal processing apparatus including an operation unit configured to determine a speech recognition target section.

본 발명의 일 실시예에 따르면, 상기 신호 처리 장치는, 상기 제2 음성 인식 대상 구간에 대해 시간 도메인 평탄화 처리를 수행한 평탄화된 제2 음성 인식 대상 구간을 상기 연산부에 제공하는 필터부를 더 포함하고, 상기 연산부는 상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 신호 처리 장치가 제공된다.According to an embodiment of the present disclosure, the signal processing apparatus may further include a filter unit configured to provide the computing unit with a flattened second voice recognition target section in which time domain planarization processing is performed on the second voice recognition target section. The operation unit is provided with a signal processing apparatus for determining an overlapping section between the first speech recognition target section and the flattened second speech recognition target section as the speech recognition target section for the speech recognition.

본 발명의 다른 일측에 따르면, 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 방법에 있어서, 입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 단계, 상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 단계, 및 상기 제1 음성 인식 대상 구간과 상기 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 단계를 포함하는 신호 처리 방법이 제공된다.According to another aspect of the present invention, in the signal processing method for detecting a speech recognition target section for speech recognition, extracting a first speech recognition target section by removing noise from an input signal, the signal processing from the input signal Extracting a second speech recognition target section by removing a section including echoes associated with a device; and overlapping sections of the first speech recognition target section and the second speech recognition target section as the speech recognition target for the speech recognition; A signal processing method is provided that includes determining a section.

또한, 상기 신호 처리 방법은, 상기 제2 음성 인식 대상 구간에 대해 시간 도메인 평탄화 처리를 수행한 평탄화된 제2 음성 인식 대상 구간을 연산부에 제공하는 단계를 더 포함하고, 상기 제1 음성 인식 대상 구간과 상기 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 단계는 상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 신호 처리 방법이 제공된다.The signal processing method may further include providing a second flattened voice recognition target section in which a time domain planarization process is performed on the second voice recognition target section to a calculator, and the first voice recognition target section. And determining an overlapping section of the second speech recognition target section as the speech recognition target section for the speech recognition, wherein the overlapping section of the first speech recognition target section and the flattened second speech recognition target section is the voice recognition section. Provided is a signal processing method for determining a speech recognition target section.

본 발명의 실시예에 의하면, 반향 구간 판별에 좋은 성능을 보이는 동시통화검출의 결과를 음성 끝점 검출 방법과 비교 연산함으로써, 잡음과 반향 모두에 강인한 음성 끝점검출을 수행할 수 있다.According to the exemplary embodiment of the present invention, the voice endpoint detection robust to both the noise and the echo can be performed by comparing and calculating the result of the simultaneous call detection which shows the good performance in the echo section discrimination with the voice endpoint detection method.

도 1은 본 발명의 일 실시예에 따라 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치를 도시하는 블록도이다.
도 2는 본 발명의 일 실시예에 따른 신호 처리 장치의 동작을 나타내는 블록도이다.
도 3은 본 발명의 일 실시예에 따른 반향 환경에서의 음성인식 시스템을 도시하는 블록도이다.
도 4는 잔여 반향과 잡음, 음성이 존재하는 경우에 대하여 검출 결과 신호의 파형을 나타낸다.
도 5는 잔여 반향과 음성이 중첩되는 경우의 검출 결과 신호에 대한 파형을 나타낸다.
도 6은 본 발명의 일 실시예에 따라 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 방법을 도시하는 흐름도이다.
1 is a block diagram illustrating a signal processing apparatus for detecting a speech recognition target section for speech recognition according to an embodiment of the present invention.
2 is a block diagram illustrating an operation of a signal processing apparatus according to an embodiment of the present invention.
3 is a block diagram illustrating a speech recognition system in an echo environment according to an embodiment of the present invention.
4 shows the waveform of the detection result signal for the case where residual echo, noise, and voice are present.
5 shows a waveform of a detection result signal when the residual echo and the voice overlap.
6 is a flowchart illustrating a signal processing method of detecting a voice recognition target section for voice recognition according to an embodiment of the present invention.

이하 상기의 목적을 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 설명한다. 이때 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Hereinafter, preferred embodiments of the present invention will be described with reference to the accompanying drawings. The structure and operation of the present invention shown in the drawings and described by the drawings are described as at least one embodiment, and the technical ideas and the core structure and operation of the present invention are not limited thereby.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 관례, 새로운 기술의 출현 등에 따라 달라질 수 있다.The terms used in the present invention have been selected as general terms widely used as possible in consideration of functions in the present invention, but may vary according to the intention or custom of the person skilled in the art, the emergence of new technologies, and the like.

또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 본 발명의 설명 부분에서 상세한 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 이해되어야 한다.In addition, in certain cases, there is a term arbitrarily selected by the applicant, and in this case, the meaning thereof will be described in detail in the corresponding description of the present invention. Therefore, the terms used in the present invention should be understood based on the meanings of the terms and the general contents of the present invention rather than the names of the simple terms.

명세서 전체에서 제1 음성 인식 대상 구간은 음성검출기(EPD)에 의하여 검출된 음성 구간을 말하는 것으로, 입력 신호로부터 노이즈를 제거하여 음성 인식 대상인 객체의 음성 또는 이와 연관된 반향 중 적어도 하나를 포함하는 구간을 의미한다.In the entire specification, a first speech recognition target section refers to a speech section detected by a voice detector (EPD), and removes noise from an input signal to include a section including at least one of a voice of an object to be speech recognition or an associated echo thereof. it means.

또한, 명세서 전체에서 제2 음성 인식 대상 구간은 동시통화검출기(DTD)에 의하여 검출된 음성 구간으로, 입력 신호로부터 반향이 존재하는 구간은 제거하여 추출한 구간을 말한다.Also, in the entire specification, the second speech recognition target section is a speech section detected by the simultaneous call detector DTD, and a section in which echo exists from the input signal is removed and extracted.

도 1은 본 발명의 일 실시예에 따라 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치(100)를 도시하는 블록도이다.1 is a block diagram illustrating a signal processing apparatus 100 for detecting a speech recognition target section for speech recognition according to an embodiment of the present invention.

상기 신호 처리 장치(100)는 음성 추출부(110), 반향 제거부(120), 필터부(130), 및 연산부(140)를 포함하여 구성된다.The signal processing device 100 includes a voice extractor 110, an echo canceller 120, a filter 130, and a calculator 140.

상기 음성 추출부(110)는 마이크 등의 음성 신호 입력 장치를 통해 입력받는 입력 신호로부터 노이즈를 제거한 제1 음성 인식 대상 구간을 추출한다. 상기 음성 추출부(110)는 상기 입력 신호로부터 음성 신호의 시작점과 종료점을 검출하여 인식해야 할 음성구간을 추출하는 음성 끝점검출기(EPD)를 사용한다.The voice extractor 110 extracts a first voice recognition target section from which noise is removed from an input signal received through a voice signal input device such as a microphone. The voice extractor 110 detects a start point and an end point of the voice signal from the input signal and uses a voice endpoint detector (EPD) for extracting a voice section to be recognized.

또한, 상기 음성 추출부(110)는 상기 입력 신호의 영교차율, 엔트로피, 하모닉 성분 중 적어도 하나를 이용하여 상기 제1 음성 인식 대상 구간을 추출한다.The voice extractor 110 extracts the first speech recognition target section using at least one of a zero crossing rate, an entropy, and a harmonic component of the input signal.

상기 제1 음성 인식 대상 구간은 상기 입력 신호로부터 음성 인식의 대상인 객체의 음성, 또는 상기 신호 처리에 연관된 반향 중 적어도 하나가 포함된 구간을 분리하여 추출한 구간을 의미한다.The first speech recognition target section refers to a section obtained by separating and extracting a section including at least one of a voice of an object that is a speech recognition target or an echo associated with the signal processing from the input signal.

반향 제거부(120)는 상기 입력 신호로부터 상기 신호 처리 장치(100)에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출한다. 상기 반향 제거부(120)는 상기 신호 처리 장치(100)에 연관된 반향이 존재하는 구간을 식별하고, 상기 반향이 존재하는 구간을 상기 입력 신호로부터 제거하는 동시통화검출기(DTD)를 사용한다.The echo remover 120 extracts a second speech recognition target section by removing a section including an echo associated with the signal processing apparatus 100 from the input signal. The echo removing unit 120 identifies a section in which an echo associated with the signal processing apparatus exists and removes a section in which the echo exists from the input signal.

상기 제2 음성 인식 대상 구간은 상기 입력 신호로부터 반향이 존재하는 구간은 제거하여 추출한 구간으로, 음성 인식의 대상인 객체의 음성 외에 노이즈 등의 다른 잡음들을 포함할 수 있다.The second speech recognition target section is a section extracted by removing a section in which an echo exists from the input signal, and may include other noises, such as noise, in addition to the voice of the object that is the object of speech recognition.

연산부(140)는 상기 음성 추출부(110)에서 추출된 제1 음성 인식 대상 구간과 상기 반향 제거부(120)에서 추출된 제2 음성 인식 대상 구간을 비교 연산하여 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정한다.The calculator 140 compares the first speech recognition target section extracted by the speech extractor 110 and the second speech recognition target section extracted by the echo canceller 120 to calculate an overlapping section for the speech recognition. Determined as the speech recognition target section.

본 발명의 신호 처리 장치(100)는 상기와 같이 음성 추출부(110), 반향 제거부(120) 및 연산부(140)를 포함하는 기본 구성에, 필터부(130)를 더 포함하여 구성될 수 있다.The signal processing apparatus 100 of the present invention may further include a filter unit 130 in a basic configuration including the voice extractor 110, the echo canceller 120, and the calculator 140 as described above. have.

상기 필터부(130)는 상기 반향 제거부(120)에서 추출된 제2 음성 인식 대상 구간에 대하여 시간 도메인 평탄화 처리를 수행하여, 평탄화된 제2 음성 인식 대상 구간을 상기 연산부(140)에 제공한다. 이 경우, 상기 연산부(140)는 상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간을 비교 연산하고, 연산 결과 서로 중첩된 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정한다.The filter unit 130 performs a time domain planarization process on the second speech recognition target section extracted by the echo canceller 120 to provide the flattening second speech recognition target section to the calculator 140. . In this case, the operation unit 140 compares the first voice recognition target section with the flattened second voice recognition target section and determines the overlapping sections as the voice recognition target section for the voice recognition. .

상기 필터부(130)는 상기 평탄화된 제2 음성 인식 대상 구간의 신호가 미리 지정된 수준을 초과하는 경우 마진 값 M - 상기 M은 자연수 - 을 주어, 상기 제2 음성 인식 대상 구간을 재설정하는 역할도 수행한다. 상기 제2 음성 인식 대상 구간의 재설정은 상기 필터부(130)에서 수행된 평탄화 처리에 대한 보상 차원에서 이루어진다.When the signal of the flattened second voice recognition target section exceeds a predetermined level, the filter unit 130 may provide a margin value M, where M is a natural number, to reset the second voice recognition target section. To perform. The resetting of the second voice recognition target section is performed to compensate for the planarization process performed by the filter unit 130.

도 2는 본 발명의 일 실시예에 따른 신호 처리 장치(100)의 동작의 흐름을 나타내는 블록도이다.2 is a block diagram showing the flow of operation of the signal processing apparatus 100 according to an embodiment of the present invention.

마이크 등의 음성 신호 입력 장치를 통해 입력되는 입력 신호는 음성 추출부(110) 및 반향 제거부(120)로 전달된다.An input signal input through a voice signal input device such as a microphone is transmitted to the voice extractor 110 and the echo canceller 120.

상기 음성 추출부(110)는 상기 입력 신호로부터 노이즈 등의 기타 잡음을 제거하여 제1 음성 인식 대상 구간을 추출한다. 이 때, 상기 제1 음성 인식 대상 구간은 상기 입력 신호의 영교차율, 엔트로피, 하모닉 성분 중 적어도 하나를 이용하여 추출될 수 있다.The voice extractor 110 extracts a first voice recognition target section by removing other noise such as noise from the input signal. In this case, the first speech recognition target section may be extracted using at least one of a zero crossing rate, an entropy, and a harmonic component of the input signal.

프레임 에너지 기반에 영교차율을 고려한 음성 구간 검출은 조용한 환경에서 가장 효과적으로 사용하는 방법으로, 일반적으로 에너지 값이 음성 구간에서는 크고 비음성 구간에서는 작게 나타나는 성질을 이용하여 문턱 값과 비교하여 음성, 비음성 구간을 구별한다.The detection of speech section considering the zero crossing rate based on the frame energy is the most effective method in the quiet environment. In general, the energy value is large in the speech section and small in the non-voice section. Distinguish intervals.

영교차율은 프레임 구간 안에서 신호 파형이 0의 값을 통과하는 횟수를 말하며, 모음이나 유성음 구간에서 상대적으로 비음성 구간에 비해 작은 값을 나타낸다. 실제 에너지만으로 음성 및 비음성 구간을 구분하기 힘든 마찰음이나 파열음의 경우, 영교차율이 유성음보다 크다는 사실을 바탕으로 프레임 에너지에 의해 검출된 결과에 영교차율을 이용하여 결과를 보정한다.The zero crossing rate refers to the number of times a signal waveform passes a zero value within a frame section, and is relatively smaller than a non-voice section in a vowel or voiced section. In the case of frictional or ruptured sound, which is difficult to distinguish between voice and non-voice sections using only real energy, the zero crossing rate is corrected using the zero crossing rate based on the fact that the zero crossing rate is larger than the voiced sound.

상기한 영교차율을 이용한 방법은 비교적 수학적 계산이 간단하고 음성의 기본적인 특징인 에너지를 잘 표현하는 장점이 있으나, 잡음 환경에서 프레임 에너지와 영교차율만을 이용한 음성 구간 검출은 상대적으로 좋은 성능을 야기하지 못한다. 잡음 환경에서는 비음성 구간에서도 높은 에너지 값을 가지는 경우가 있어 정확한 문턱 값을 찾기가 힘들며, 에너지 값의 편차가 커서 음성과 비음성 구간의 구분이 어렵기 때문이다.The method using the zero crossing rate has a relatively simple mathematical calculation and expresses energy which is a basic feature of speech well. However, in a noisy environment, a speech section detection using only frame energy and zero crossing rate does not cause relatively good performance. This is because in a noisy environment, it is difficult to find an accurate threshold value because the energy value may be high even in the non-speech section.

스펙트럼 엔트로피 기반의 음성 구간 검출은 음성과 잡음의 주파수 대역에서 다르게 나타나는 데이터 분포 형태를 바탕으로 그 엔트로피를 계산하여 음성 및 잡음으로부터 음성을 구분하는 방법을 이용한다. 이 방법에서는 음성과 잡음의 엔트로피가 다르게 나타나도록, 주파수 대역을 일정한 간격으로 마스킹 하여 주파수 대역별로 분리한 후, 엔트로피를 구한다. 음악 소리와 같이 사람의 음성과 유사하게 넓은 대역에 에너지가 분포하는 경우에는 음성 검출이 어렵다는 단점이 있지만, 잡음과 같이 특정 대역에 에너지가 집중된 경우에는 그 에너지 크기에 상관없이 강인하게 음성 구간을 검출할 수 있다.Spectral entropy-based speech section detection uses a method of distinguishing speech from speech and noise by calculating its entropy based on a data distribution form that appears differently in the frequency band of speech and noise. In this method, the frequency bands are masked at regular intervals to separate the entropy of speech and noise, and then the entropy is calculated. When energy is distributed in a wide band similar to human voice, such as music sounds, voice detection is difficult.However, when energy is concentrated in a specific band such as noise, the voice section is robustly detected regardless of its energy level. can do.

상기 반향 제거부(120)는 상기 입력 신호로부터 상기 신호 처리 장치(100)에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출한다.The echo removing unit 120 extracts a second speech recognition target section by removing a section including an echo associated with the signal processing apparatus 100 from the input signal.

상기 반향 제거부(120)에서 추출된 제2 음성 인식 대상 구간은, 필터부(130)를 통해 시간 도메인 평탄화 처리된다. 또한, 상기 필터부(130)는 상기 평탄화된 제2 음성 인식 대상 구간의 신호가 미리 지정된 수준인 문턱 값을 초과하는 경우 적절한 프레임 마진 값 M을 주어, 상기 제2 음성 인식 대상 구간을 재설정하기도 한다.The second speech recognition target section extracted by the echo remover 120 is time-domain planarized by the filter 130. In addition, the filter unit 130 may reset the second voice recognition target section by giving an appropriate frame margin value M when the signal of the flattened second voice recognition target section exceeds a threshold value which is a predetermined level. .

상기 음성 추출부(110)에서 추출된 제1 음성 인식 대상 구간과, 상기 반향 제거부(120)에서 추출되어 상기 필터부(130)에서 평탄화 처리 및 재설정된 제2 음성 인식 대상 구간은 연산부(140)를 통해 연산된다.The first speech recognition subject section extracted by the speech extractor 110 and the second speech recognition subject section extracted by the echo canceller 120 and flattened and reset by the filter unit 130 are calculated by the calculator 140. Is computed through

상기 연산부(140)는 상기 제1 음성 인식 대상 구간과 상기 평탄화 및 재설정된 제2 음성 인식 대상 구간을 비교 연산하고, 상기 연산 결과 중첩된 구간을 음성 인식 대상 구간으로 결정한다.The calculator 140 compares the first voice recognition target section with the flattened and reset second voice recognition target section, and determines the overlapping section as the voice recognition target section.

상기 연산부(140)에서 결정된 음성 인식 대상 구간은 상기 신호 처리 장치(100)의 음성 인식에 대한 최종 결과로서 사용자에 제공된다.The speech recognition target section determined by the calculator 140 is provided to the user as a final result of the speech recognition of the signal processing apparatus 100.

도 3은 본 발명의 일 실시예에 따른 반향 환경에서의 음성인식 시스템을 도시하고 있다.3 illustrates a voice recognition system in an echo environment according to an embodiment of the present invention.

마이크 등의 입력 장치를 통해 입력되는 입력 신호는 사용자의 음성이나 일반적인 잡음 외에, 스피커의 출력 신호가 다시 입력 장치로 들어가는 회귀 신호 즉 반향(Echo)을 포함한다.The input signal input through an input device such as a microphone includes a regression signal, or echo, in which the output signal of the speaker enters the input device, in addition to the user's voice or general noise.

이러한 반향을 제거하기 위해 반향의 오리지널 소스라 할 수 있는 스피커 출력 신호와 마이크 등 입력 장치의 입력 신호의 비교를 통해 음성 구간을 추출하는 동시통화검출기(DTD)를 사용한다.In order to eliminate such echo, a simultaneous call detector (DTD) is used to extract a speech section by comparing a speaker output signal, which is an original source of echo, and an input signal of an input device such as a microphone.

상기 동시통화검출기(DTD)가 추출하는 동시통화 구간은 입력 장치로부터 입력되는 입력 신호에 사용자의 음성과 반향이 함께, 혹은 반향 없이 음성만 존재하는 구간을 말한다.The simultaneous call section extracted by the simultaneous call detector (DTD) refers to a section in which only a voice is present with or without echo of a user's voice in an input signal input from an input device.

상기 동시통화 구간의 경우, 적응 필터의 Desired Signal(마이크 입력 신호)에 사용자 음성이 존재하는데, 반향 관련 성분만을 포함하는 Reference Signal(스피커 출력 전 신호)로 반향 경로를 추정 시 수렴 속도에 문제가 생기거나 필터 결과가 발산할 수 있다. 따라서 동시통화검출기(DTD)를 통해 동시통화 구간을 검출하고, 상기 동시통화 구간 동안에는 적응 필터의 갱신을 중지시켜야 한다.In the simultaneous call interval, a user voice exists in the desired signal of the adaptive filter, but there is a problem in convergence speed when estimating the echo path using a reference signal including only echo components. Filter results may diverge. Therefore, the simultaneous call interval is detected through the simultaneous call detector (DTD), and the update of the adaptive filter must be stopped during the concurrent call interval.

동시통화 검출은 검출 방식에 따라, 스피커 출력 신호와 마이크 입력 신호의 에너지를 기반으로 한 알고리즘과, 두 신호의 상호상관 기반으로 한 알고리즘으로 크게 나뉘어 각각 널리 쓰이고 있다. 두 종류의 알고리즘 중 대표적인 알고리즘은 다음과 같다. 여기서,

Figure 112012037962510-pat00001
는 스피커 출력 신호이고,
Figure 112012037962510-pat00002
는 마이크 입력 신호이다.Simultaneous call detection is widely divided into algorithms based on the energy of the speaker output signal and the microphone input signal and algorithms based on the cross-correlation of the two signals. The representative algorithms of the two types of algorithms are as follows. here,
Figure 112012037962510-pat00001
Is the speaker output signal,
Figure 112012037962510-pat00002
Is the microphone input signal.

먼저, Geigel 알고리즘은 마이크 입력에 반향되어 돌아오는 신호보다 사용자의 음성이 더해진 신호의 에너지가 크다는 성질을 기반으로 하며, 다음의 수학식 1로 나타낼 수 있다.First, the Geigel algorithm is based on the property that the energy of the signal added by the user's voice is greater than the signal reflected back to the microphone input, and can be represented by Equation 1 below.

Figure 112012037962510-pat00003
Figure 112012037962510-pat00003

상기 수학식 1에서 k는 실험적으로 설정된 상수 값이다. 여기서, 사용자의 음성이 더해지면,

Figure 112012037962510-pat00004
값은 커지게 되고, 따라서
Figure 112012037962510-pat00005
값도 커진다. 상기
Figure 112012037962510-pat00006
값이 일정 문턱 값을 넘으면 동시통화 구간으로 판단한다.In Equation 1, k is an experimentally set constant value. Here, when the user's voice is added,
Figure 112012037962510-pat00004
The value becomes large, so
Figure 112012037962510-pat00005
The value also increases. remind
Figure 112012037962510-pat00006
If the value exceeds a certain threshold, it is determined as a simultaneous call interval.

한편, 상호상관 알고리즘은 스피커 출력 신호와 마이크를 통해 입력되는 반향 신호의 상관성을 이용한 알고리즘으로, 수학식 2와 같이 표현된다.On the other hand, the cross-correlation algorithm is an algorithm using the correlation between the speaker output signal and the echo signal input through the microphone, it is expressed as Equation 2.

Figure 112012037962510-pat00007
Figure 112012037962510-pat00007

스피커 출력 신호

Figure 112012037962510-pat00008
과 사용자 음성이 입력되지 않은 반향 신호
Figure 112012037962510-pat00009
은 서로 상관성이 높은 신호이다. 만약
Figure 112012037962510-pat00010
에 사용자 음성이 포함된다면, 그 부분에서 상관성이 갑자기 떨어지게 되는 성질을 이용하고 있다.Speaker output signal
Figure 112012037962510-pat00008
Echo signal with no voice input
Figure 112012037962510-pat00009
Is a highly correlated signal. if
Figure 112012037962510-pat00010
If the user's voice is included, the correlation is suddenly dropped.

상기 수학식 2에서 분자 부분이 상호상관 부분에 해당하고, 분모 부분은 정규화를 위한 성분이다. i는 delay에 해당하는 변수로, i를 변화시키면서 최대가 되는 값을 찾는다.In Equation 2, the molecular part corresponds to the cross-correlation part, and the denominator part is a component for normalization. i is the variable corresponding to delay, which changes i to find the maximum value.

동시통화가 발생하는 경우

Figure 112012037962510-pat00011
의 값은 작아지게 되고,
Figure 112012037962510-pat00012
이 일정 문턱 값 이하로 떨어지면 동시통화 구간으로 판단한다.When a concurrent call occurs
Figure 112012037962510-pat00011
Becomes smaller,
Figure 112012037962510-pat00012
If it falls below a certain threshold value, it is determined as a simultaneous call section.

다시 말해, 도 3의 AEC 시스템(Acoustic Echo Cancellation)은 반향 제거를 위하여 스피커부터 마이크까지의 반향 경로(Echo Path) h를 추정하여, 추정된 반향 경로를 적응적으로 갱신한다. 스피커 출력 전 신호를 추정된 반향 경로에 통과시켜서 추정 반향을 구하고, 추정 반향을 마이크 입력 신호에서 차감하는 방식으로 반향을 제거한다. 그러나, 일반적으로 적응 필터 차수가 실제 반향 경로의 Room Response보다 짧아서 반향 경로 추정이 완벽하게 이루어지지 못하고, 잔여 반향(Residual Echo)이 남는다.In other words, the AEC system (Acoustic Echo Cancellation) of FIG. 3 estimates an echo path h from the speaker to the microphone for echo cancellation, and adaptively updates the estimated echo path. The estimated echo is obtained by passing the signal before the speaker output through the estimated echo path, and the echo is removed by subtracting the estimated echo from the microphone input signal. However, in general, the adaptive filter order is shorter than the room response of the actual echo path, so that the echo path estimation is not perfect, and residual echo remains.

잔여 반향의 크기가 사용자의 음성의 크기와 비슷하거나 더 큰 수준인 경우, 안정적인 음성 검출이 어려워진다. 에너지에서 음성과 잔여 반향의 차이가 없고, 반향이 음성 신호이므로 신호의 특성이 사용자의 음성과 차이가 없어, 음성검출기(EPD)를 통한 음성 끝점검출이 어렵게 된다.When the magnitude of the residual echo is at or near the level of the user's voice, stable voice detection becomes difficult. Since there is no difference between voice and residual echo in the energy, and the echo is a voice signal, the characteristics of the signal are not different from the user's voice, which makes it difficult to detect the voice endpoint through the voice detector (EPD).

잔여 반향(Residual Echo)을 여전히 제거하지 못하는 AEC 시스템을 보완하기 위하여, 도 3의 본 발명에서는 상기 AEC에서 사용되는 필터의 안정성과 정확한 수렴을 위한 동시통화검출기(DTD)의 결과를 음성검출기(EPD)에 사용한다.In order to complement an AEC system that still cannot remove residual echo, the present invention of FIG. 3 shows the results of a simultaneous call detector (DTD) for the stability and accurate convergence of the filter used in the AEC. ) Is used.

상기 동시통화검출기(DTD)는 스피커 출력 신호와 마이크 입력 신호의 비교를 통해 음성 구간을 찾기 때문에, 이를 이용하면 앞선 방법들보다 반향에 강인하게 음성 구간을 검출할 수 있다.Since the simultaneous call detector DTD finds a voice section by comparing the speaker output signal and the microphone input signal, the simultaneous call detector DTD can detect the voice section more robustly to the echoes than the previous methods.

상기 동시통화검출기(DTD)를 음성 검출에 사용하기 전에, 순간적인 동시통화검출기(DTD)의 오검출 값에 대한 영향을 줄이기 위해서 DTD 결과에 수학식 3과 같은 Smoothing 연산을 수행한다.Before the simultaneous call detector DTD is used for voice detection, a smoothing operation as shown in Equation 3 is performed on the DTD result in order to reduce the influence on the instantaneous false detection value of the simultaneous call detector DTD.

Figure 112012037962510-pat00013
Figure 112012037962510-pat00013

수학식 3에서 DTD(n)은 n번째(DTD 알고리즘에 따른 n번째 샘플)의 DTD 결과이고, λ는 0에서 1사이의 값을 갖는 mixing parameter이다. 상기 수학식 3의 Smoothing 연산은 입력 신호로부터 반향이 포함된 구간이 제거된 동시통화 검출기(DTD)의 출력에 대하여 시간 도메인 평탄화 처리로 이해될 수 있다.In Equation 3, DTD (n) is the DTD result of the n th (n th sample according to the DTD algorithm), and λ is a mixing parameter having a value between 0 and 1. The smoothing operation of Equation 3 may be understood as a time domain smoothing process for the output of the simultaneous call detector DTD from which the section including the echo is removed from the input signal.

Figure 112012037962510-pat00014
Figure 112012037962510-pat00014

수학식 4에서 볼 수 있듯이, 시작점에 margin을 주기 위해 수학식 3에서 smoothing된 DTD 결과인 DTDsmooth(n)가 문턱 값 Tup을 넘으면 적절한 프레임 margin 값 M을 주어 해당 프레임에서 M번째 이전 프레임부터 DTDresult에 1의 값을 부여한다. 그리고 그 외의 프레임에는 DTDresult에 0의 값을 준다. 본 발명에서 상기 M, λ 값은 반복실험을 통해 최적값을 찾아 사용하였다.As shown in Equation 4, when the DTD smooth (n), which is the result of DTD smoothed in Equation 3, exceeds the threshold value T up to give a margin to the starting point, the appropriate frame margin value M is given to the M frame from the previous frame. Give the DTD result a value of 1. In other frames, the DTD result is assigned a value of 0. In the present invention, the M and λ values were used to find the optimum values through repeated experiments.

상기 수학식 4를 통해 얻어진 평탄화된 동시통화검출기(DTD)의 출력과 음성검출기(EPD)의 결과를 연산하는 과정은 수학식 5와 같이 나타낸다.The process of calculating the output of the flattened simultaneous call detector DTD and the result of the voice detector EPD obtained through Equation 4 is expressed by Equation 5.

Figure 112012037962510-pat00015
Figure 112012037962510-pat00015

상기 수학식 5와 같이, 동시통화검출기(DTD)의 출력 DTDresult(n)과 음성검출기(EPD)의 결과 EPD(n)을 AND 연산함으로써, 최종적으로 제안하는 음성 끝점검출 결과인 EPDDTD(n)을 얻을 수 있다.As shown in Equation 5, by performing an AND operation on the output DTD result (n) of the simultaneous call detector (DTD) and the result EPD (n) of the voice detector (EPD), the EPD DTD (n), which is the final voice end point detection result, is proposed. ) Can be obtained.

상기의 연산 과정을 통해 얻은 음성 끝점검출 결과가 잡음 및 반향 모두에 강인하다는 것은 도 4 및 도 5를 통해 확인할 수 있다.It can be seen from FIGS. 4 and 5 that the voice endpoint detection result obtained through the above calculation process is robust to both noise and echo.

도 4 및 도 5는 잔여 반향과 잡음, 음성이 존재하는 경우에 대하여 검출 결과 신호의 파형을 나타낸 그래프이다.4 and 5 are graphs showing waveforms of a detection result signal when residual echo, noise, and voice are present.

도 4는 잔여 반향과 음성, 순간 잡음이 동시에 발생하지 않고 개별적으로 존재하는 경우를, 도 5는 잔여 반향과 음성이 같은 시간에 입력되는 경우의 AEC 출력 신호에 대한 동시통화검출기(DTD) 및 음성검출기(EPD)의 검출 결과 신호에 대한 파형을 각각 나타내고 있다.FIG. 4 shows a case where residual echo, voice, and instantaneous noise do not occur simultaneously, but exists separately. FIG. 5 shows a simultaneous call detector (DTD) and voice on an AEC output signal when residual echo and voice are input at the same time. The waveform of the detection result signal of the detector EPD is shown, respectively.

도 4(b)에서 볼 수 있듯이, 음성검출기(EPD)는 순간 잡음에 대하여는 강인하지만 잔여 반향을 사용자 음성처럼 검출한다.As shown in FIG. 4 (b), the voice detector (EPD) is robust against instantaneous noise but detects residual echoes as user voice.

동시통화검출기(DTD)는 스피커 출력 신호와 마이크 입력 신호를 비교하기 때문에 도 4(c)의 결과와 같이 잔여 반향은 동시통화 구간으로 검출하지 않고, 순간 잡음과 사용자 음성을 동시통화 구간으로 검출한다.Since the simultaneous call detector (DTD) compares the speaker output signal with the microphone input signal, the residual echoes are not detected in the simultaneous call section, as shown in the result of FIG. .

도 5의 (b), (c)와 같이 사용자 음성과 잔여 반향이 같은 시간에 중첩되어 입력되는 경우에도, 음성검출기(EPD)가 사용자 음성과 잔여 반향을 모두 검출한 것에 비해, 동시통화검출기(DTD)는 사용자 음성 구간만을 검출한 것을 확인할 수 있다.Even when the user's voice and the residual echo are inputted at the same time as shown in FIGS. 5 (b) and 5 (c), the voice detector (EPD) detects both the user's voice and the residual echo. DTD) may confirm that only the user voice section is detected.

도 4 및 도 5의 결과에서 볼 수 있듯이, 사용자의 음성 구간을 검출하는 데 있어, 음성검출기(EPD)는 잡음에 강인하지만 반향을 사용자 음성으로 오검출하고, 동시통화검출기(DTD)는 반향에 강인하지만 잡음을 오검출하는 경우가 많다.As can be seen from the results of Figs. 4 and 5, in detecting the user's voice interval, the voice detector (EPD) is robust against noise but incorrectly detects the echo as the user's voice, and the simultaneous call detector (DTD) It is robust but often detects noise.

본 발명에 따른 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치(100)의 검출 결과 신호는 도 4 및 도 5의 (d)에서 볼 수 있다.The detection result signal of the signal processing apparatus 100 for detecting a speech recognition target section for speech recognition according to the present invention can be seen in FIGS. 4 and 5 (d).

수학식 4를 통해 얻어진 평탄화된 동시통화검출기(DTD)의 출력 DTDresult(n)과 음성검출기(EPD)의 결과 EPD(n)을 AND 연산함으로써, 최종적으로 제안하는 음성 끝점검출 결과인 EPDDTD(n)을 얻을 수 있다. 이 결과를 통해, 본 발명의 신호 처리 장치는 음성검출기(EPD)와 동시통화검출기(DTD)를 각각 개별적으로 사용하여 얻은 도 4 및 도 5의 (b), (c) 출력에 비해, 반향 및 순간 잡음 모두에 강인하다는 것을 확인할 수 있다.By performing an AND operation on the output DTD result (n) of the flattened simultaneous call detector (DTD) obtained through the equation (4) and the result EPD (n) of the voice detector (EPD), the EPD DTD ( n) can be obtained. Through this result, the signal processing apparatus of the present invention has a reverberation and a comparison with the outputs of FIGS. It can be seen that it is robust to both instantaneous noise.

따라서, 본 발명의 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치는 음성인식 TV나 음성 기반의 자동차 인터페이스, 대화형 로봇, 대화형 전자제품 등 스피커와 마이크가 동시에 존재하는 음성 인식 시스템에서 특히 효과적으로 활용될 것을 기대할 수 있다.Accordingly, the signal processing apparatus for detecting a speech recognition target section for speech recognition of the present invention is a speech recognition system in which a speaker and a microphone are present at the same time, such as a speech recognition TV, a speech-based car interface, an interactive robot, and an interactive electronic product. In particular, it can be expected to be used effectively.

도 6은 본 발명의 일 실시예에 따라 음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 방법을 시계열적으로 도시하는 흐름도이다.6 is a flowchart illustrating a signal processing method for detecting a speech recognition target section for speech recognition in time series according to an embodiment of the present invention.

단계(610)에서 음성 추출부(110)는 입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출한다.In operation 610, the speech extractor 110 extracts a first speech recognition target section by removing noise from an input signal.

상기 음성 추출부(110)는 상기 입력 신호의 영교차율, 엔트로피, 하모닉 성분 중 적어도 하나를 이용하여 상기 제1 음성 인식 대상 구간을 추출하며, 상기 입력 신호로부터 음성 신호의 시작점과 종료점을 검출하여 인식해야 할 음성구간을 추출하는 음성 끝점검출기(EPD)를 사용한다.The voice extractor 110 extracts the first speech recognition target section using at least one of a zero crossing rate, an entropy, and a harmonic component of the input signal, and detects a start point and an end point of the speech signal from the input signal. Use a voice endpoint detector (EPD) to extract the voice segment that needs to be done.

상기 제1 음성 인식 대상 구간은 상기 입력 신호로부터 음성 인식의 대상인 객체의 음성, 또는 상기 신호 처리에 연관된 반향 중 적어도 하나가 포함된 구간을 분리하여 추출한 구간을 말한다.The first speech recognition target section refers to a section obtained by separating and extracting a section including at least one of a voice of an object that is a speech recognition object or an echo associated with the signal processing from the input signal.

단계(620)에서 반향 제거부(120)는 상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출한다.In operation 620, the echo remover 120 extracts a second speech recognition target section by removing a section including an echo associated with the signal processing device from the input signal.

상기 반향 제거부(120)는 상기 신호 처리 장치(100)에 연관된 반향이 존재하는 구간을 식별하고, 상기 반향이 존재하는 구간을 상기 입력 신호로부터 제거하는 동시통화검출기(DTD)를 사용한다.The echo removing unit 120 identifies a section in which an echo associated with the signal processing apparatus exists and removes a section in which the echo exists from the input signal.

상기 제2 음성 인식 대상 구간은 상기 입력 신호로부터 반향이 존재하는 구간은 제거하여 추출한 구간으로, 음성 인식의 대상인 객체의 음성 외에 노이즈 등의 다른 잡음들을 포함할 수 있다.The second speech recognition target section is a section extracted by removing a section in which an echo exists from the input signal, and may include other noises, such as noise, in addition to the voice of the object that is the object of speech recognition.

단계(630)에서 필터부(130)는 상기 반향 제거부(120)에서 추출된 상기 제2 음성 인식 대상 구간에 대하여 시간 도메인 평탄화 처리를 수행하고, 상기 평탄화된 제2 음성 인식 대상 구간을 연산부(140)에 제공한다.In operation 630, the filter unit 130 performs a time domain planarization process on the second voice recognition target section extracted by the echo canceller 120, and calculates the flattened second voice recognition target section. 140).

상기 필터부(130)는 상기 평탄화된 제2 음성 인식 대상 구간의 신호가 미리 지정된 수준을 초과하는 경우 마진 값 M을 주어, 상기 제2 음성 인식 대상 구간을 재설정한다. 상기 제2 음성 인식 대상 구간의 재설정은 상기 필터부(130)에서 수행된 평탄화 처리에 대한 보상으로 볼 수 있다.The filter unit 130 resets the second voice recognition target section by giving a margin value M when the signal of the flattened second voice recognition target section exceeds a predetermined level. The resetting of the second voice recognition target section may be regarded as a compensation for the planarization process performed by the filter unit 130.

단계(640)에서 연산부(140)는 상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정한다.In operation 640, the calculator 140 determines an overlapping section between the first speech recognition target section and the flattened second speech recognition target section as the speech recognition target section for speech recognition.

본 발명의 일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.The method according to an embodiment of the present invention can be implemented in the form of a program command which can be executed through various computer means and recorded in a computer-readable medium. The computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination. The program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software. Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like. Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like. The hardware devices described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.

이상과 같이 본 발명은 비록 한정된 실시예와 도면에 의해 설명되었으나, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상의 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.As described above, the present invention has been described by way of limited embodiments and drawings, but the present invention is not limited to the above embodiments, and those skilled in the art to which the present invention pertains various modifications and variations from such descriptions. This is possible.

그러므로, 본 발명의 범위는 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등한 것들에 의해 정해져야 한다.Therefore, the scope of the present invention should not be limited to the described embodiments, but should be determined by the equivalents of the claims, as well as the claims.

100: 음성 인식을 위한 신호 처리 장치
110: 음성 추출부
120: 반향 제거부
130: 필터부
140: 연산부
100: signal processing device for speech recognition
110:
120: echo cancellation unit
130: filter unit
140: operation unit

Claims (12)

음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 장치에 있어서,
입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 음성 추출부;
상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 반향 제거부;
상기 제2 음성 인식 대상 구간에 대해 시간 도메인 평탄화 처리를 수행한 평탄화된 제2 음성 인식 대상 구간을 제공하는 필터부; 및
상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 연산부
를 포함하는 신호 처리 장치.
A signal processing apparatus for detecting a speech recognition target section for speech recognition,
A voice extracting unit extracting a first speech recognition target section by removing noise from an input signal;
An echo canceller configured to extract a second speech recognition target section by removing a section including an echo associated with the signal processing device from the input signal;
A filter unit configured to provide a flattened second speech recognition target section in which a time domain planarization process is performed on the second speech recognition target section; And
A calculator configured to determine an overlapping section between the first speech recognition target section and the flattened second speech recognition target section as the speech recognition target section for speech recognition;
And a signal processing unit.
삭제delete 제1항에 있어서,
상기 필터부는,
상기 평탄화된 제2 음성 인식 대상 구간의 신호가 미리 지정된 수준을 초과하면 마진 값 M - 상기 M은 자연수 - 을 주어, 상기 제2 음성 인식 대상 구간을 재설정하는 신호 처리 장치.
The method of claim 1,
The filter unit includes:
And when the signal of the flattened second speech recognition target section exceeds a predetermined level, the margin value M, wherein M is a natural number, to reset the second speech recognition target section.
제1항에 있어서,
상기 음성 추출부는,
상기 입력 신호의 영교차율, 엔트로피, 하모닉 성분 중 적어도 하나를 이용하여 상기 제1 음성 인식 대상 구간을 추출하는 신호 처리 장치.
The method of claim 1,
The voice extraction unit,
And extracting the first speech recognition target section using at least one of a zero crossing rate, an entropy, and a harmonic component of the input signal.
제1항에 있어서,
상기 음성 추출부는,
상기 입력 신호로부터 음성 신호의 시작점과 종료점을 검출하여 상기 제1 음성 인식 대상 구간을 추출하는 끝점 검출기인 신호 처리 장치.
The method of claim 1,
The voice extraction unit,
And an end point detector for detecting a start point and an end point of a voice signal from the input signal and extracting the first speech recognition target section.
제1항에 있어서,
상기 제1 음성 인식 대상 구간은,
상기 입력 신호로부터 음성 인식의 대상인 객체의 음성, 또는 상기 신호 처리에 연관된 반향 중 적어도 하나가 포함된 구간을 분리하여 추출한 구간인 신호 처리 장치.
The method of claim 1,
The first voice recognition target section,
And a section obtained by separating and extracting a section including at least one of a voice of an object that is an object of speech recognition or an echo associated with the signal processing from the input signal.
제1항에 있어서,
상기 반향 제거부는,
상기 신호 처리 장치에 연관된 반향이 존재하는 구간을 식별하여 상기 입력 신호로부터 상기 반향이 존재하는 구간을 제거하는 동시통화검출기인 신호 처리 장치.
The method of claim 1,
The echo removing unit,
And a simultaneous call detector for identifying a section in which an echo associated with the signal processing apparatus exists and removing the section in which the echo exists from the input signal.
음성 인식을 위한 음성 인식 대상 구간을 검출하는 신호 처리 방법에 있어서,
입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 단계;
상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 단계;
상기 제2 음성 인식 대상 구간에 대해 시간 도메인 평탄화 처리를 수행한 평탄화된 제2 음성 인식 대상 구간을 제공하는 단계; 및
상기 제1 음성 인식 대상 구간과 상기 평탄화된 제2 음성 인식 대상 구간의 중첩 구간을 상기 음성 인식을 위한 음성 인식 대상 구간으로 결정하는 단계
를 포함하는 신호 처리 방법.
In the signal processing method for detecting a speech recognition target section for speech recognition,
Extracting a first speech recognition target section by removing noise from an input signal;
Extracting a second speech recognition target section by removing a section including an echo associated with the signal processing device from the input signal;
Providing a flattened second speech recognition target section in which a time domain planarization process is performed on the second speech recognition target section; And
Determining an overlapping section of the first speech recognition target section and the flattened second speech recognition target section as the speech recognition target section for the speech recognition;
/ RTI >
삭제delete 제8항에 있어서,
상기 입력 신호로부터 노이즈를 제거하여 제1 음성 인식 대상 구간을 추출하는 단계는,
상기 입력 신호의 영교차율, 엔트로피, 하모닉 성분 중 적어도 하나를 이용하여 상기 제1 음성 인식 대상 구간을 추출하는 끝점 검출기에 의해 수행되는 신호 처리 방법.
9. The method of claim 8,
Extracting a first speech recognition target section by removing noise from the input signal,
And an endpoint detector extracting the first speech recognition target section using at least one of a zero crossing rate, an entropy, and a harmonic component of the input signal.
제8항에 있어서,
상기 입력 신호로부터 상기 신호 처리 장치에 연관된 반향이 포함된 구간을 제거하여 제2 음성 인식 대상 구간을 추출하는 단계는,
상기 신호 처리 장치에 연관된 반향이 존재하는 구간을 식별하여 상기 입력 신호로부터 상기 반향이 존재하는 구간을 제거하는 동시통화검출기에 의해 수행되는 신호 처리 방법.
9. The method of claim 8,
The step of extracting the second speech recognition target section by removing the section including the echo associated with the signal processing device from the input signal,
And performing a simultaneous call detector for identifying a section in which an echo associated with the signal processing apparatus exists and removing the section in which the echo exists from the input signal.
제8항, 제10항 및 제11항 중 어느 한 항의 신호 처리 방법을 수행하는 프로그램을 수록한 컴퓨터 판독 가능 기록매체.A computer-readable recording medium containing a program for performing the signal processing method of any one of claims 8, 10 and 11.
KR1020120050478A 2012-05-11 2012-05-11 Apparatus and method for robust detecting speech end point KR101357381B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020120050478A KR101357381B1 (en) 2012-05-11 2012-05-11 Apparatus and method for robust detecting speech end point

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120050478A KR101357381B1 (en) 2012-05-11 2012-05-11 Apparatus and method for robust detecting speech end point

Publications (2)

Publication Number Publication Date
KR20130126379A KR20130126379A (en) 2013-11-20
KR101357381B1 true KR101357381B1 (en) 2014-02-05

Family

ID=49854490

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120050478A KR101357381B1 (en) 2012-05-11 2012-05-11 Apparatus and method for robust detecting speech end point

Country Status (1)

Country Link
KR (1) KR101357381B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842606B2 (en) 2015-09-15 2017-12-12 Samsung Electronics Co., Ltd. Electronic device, method of cancelling acoustic echo thereof, and non-transitory computer readable medium

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
논문1 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9842606B2 (en) 2015-09-15 2017-12-12 Samsung Electronics Co., Ltd. Electronic device, method of cancelling acoustic echo thereof, and non-transitory computer readable medium

Also Published As

Publication number Publication date
KR20130126379A (en) 2013-11-20

Similar Documents

Publication Publication Date Title
CN109643552B (en) Robust noise estimation for speech enhancement in variable noise conditions
JP5666444B2 (en) Apparatus and method for processing an audio signal for speech enhancement using feature extraction
JP5870476B2 (en) Noise estimation device, noise estimation method, and noise estimation program
JP5752324B2 (en) Single channel suppression of impulsive interference in noisy speech signals.
JP2004272201A (en) Method and device for detecting speech end point
JP2010102204A (en) Noise suppressing device and noise suppressing method
CN103440872A (en) Transient state noise removing method
EP3411876A1 (en) Babble noise suppression
US10431243B2 (en) Signal processing apparatus, signal processing method, signal processing program
KR20170032603A (en) Electric device, acoustic echo cancelling method of thereof and non-transitory computer readable recording medium
CN109246548B (en) Blasting noise control system, method and computing device
US9002030B2 (en) System and method for performing voice activity detection
JP4965891B2 (en) Signal processing apparatus and method
CN108053834B (en) Audio data processing method, device, terminal and system
US11183172B2 (en) Detection of fricatives in speech signals
KR101357381B1 (en) Apparatus and method for robust detecting speech end point
JP2009276365A (en) Processor, voice recognition device, voice recognition system and voice recognition method
KR20070061216A (en) Voice enhancement system using gmm
Mayer et al. Improved phase reconstruction in single-channel speech separation.
JP4510539B2 (en) Specific speaker voice output device and specific speaker determination program
US10497380B2 (en) Medium for voice signal processing program, voice signal processing method, and voice signal processing device
JP2016080767A (en) Frequency component extraction device, frequency component extraction method and frequency component extraction program
JP2009069305A (en) Sound echo canceler and in-vehicle device
JP2023542927A (en) adaptive noise estimation
KR100523905B1 (en) Dual Speech Detection Method of The Startpoint and The Endpoint in Speech Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20170109

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20180108

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20190114

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20200120

Year of fee payment: 7