KR101737083B1 - Method and apparatus for voice activity detection - Google Patents

Method and apparatus for voice activity detection Download PDF

Info

Publication number
KR101737083B1
KR101737083B1 KR1020100098828A KR20100098828A KR101737083B1 KR 101737083 B1 KR101737083 B1 KR 101737083B1 KR 1020100098828 A KR1020100098828 A KR 1020100098828A KR 20100098828 A KR20100098828 A KR 20100098828A KR 101737083 B1 KR101737083 B1 KR 101737083B1
Authority
KR
South Korea
Prior art keywords
signal
voice
frame signal
value
frame
Prior art date
Application number
KR1020100098828A
Other languages
Korean (ko)
Other versions
KR20120010076A (en
Inventor
조남국
김은경
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to US13/099,891 priority Critical patent/US8762144B2/en
Publication of KR20120010076A publication Critical patent/KR20120010076A/en
Application granted granted Critical
Publication of KR101737083B1 publication Critical patent/KR101737083B1/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Abstract

Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하고, 특징 파라미터를 복수의 비교 신호들의 모델 파라미터들과 각각 비교하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하고, 프레임 신호가 음성 신호라고 판단되는 경우 프레임 신호를 출력하는 음성 활동 감지 방법 및 장치가 개시된다.A method for detecting a voice activity performed in a Continuously Listening environment, the method comprising the steps of: extracting a feature parameter from a frame signal; comparing feature parameters with model parameters of a plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; A method and apparatus for detecting a voice activity for outputting a frame signal when a frame signal is determined to be a voice signal.

Description

음성 활동 감지 방법 및 장치{Method and apparatus for voice activity detection}[0001] The present invention relates to a method and apparatus for detecting voice activity,

본 발명은 음성 활동 감지 방법 및 장치에 대한 것으로, 보다 구체적으로 입력 신호를 다양한 종류의 노이즈 신호들에 대한 모델 파라미터들과 비교하여 입력 신호에서 노이즈 신호를 제거하는 방법 및 장치에 대한 것이다. The present invention relates to a method and apparatus for detecting voice activity, and more particularly, to a method and apparatus for removing noise signals from an input signal by comparing the input signal with model parameters for various kinds of noise signals.

음성 신호를 이용하여 각종 기계를 제어하는 음성 인식 기술이 발달하고 있다. 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템이 음성 신호를 입력으로 하여 언어적 의미 내용을 인식하고 그에 따른 동작을 수행하는 기술을 말한다. Speech recognition technology for controlling various machines using speech signals is being developed. Speech recognition technology refers to a technique in which a hardware or software device or system recognizes the meaning of a linguistic meaning by inputting a voice signal and performs an operation according to the input.

본 발명은 다양한 종류의 노이즈 신호를 제거하는 음성 활동 감지 방법 및 장치를 제공하기 위한 것이다. SUMMARY OF THE INVENTION The present invention is directed to a method and apparatus for voice activity detection that removes various types of noise signals.

상기 과제를 해결하기 위해 발명의 일 측면에 따르면, Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계; 및 상기 프레임 신호가 음성 신호라고 판단되는 경우, 상기 프레임 신호를 출력하는 단계를 포함하는 음성 활동 감지 방법을 제공할 수 있다.According to an aspect of the present invention, there is provided a method for detecting a voice activity performed in a Continuously Listening environment, the method comprising: extracting a feature parameter from a frame signal; Comparing the feature parameter with a model parameter of each of the plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; And outputting the frame signal when it is determined that the frame signal is a voice signal.

바람직한 실시 예에서, 상기 방법은 상기 프레임 신호의 에너지 값을 구하는 단계를 더 포함하고, 상기 특징 파라미터를 추출하는 단계는 상기 프레임 신호의 에너지 값이 기준치보다 크거나 같은 경우 상기 프레임 신호로부터 상기 특징 파라미터를 추출하는 단계를 포함할 수 있다. In a preferred embodiment, the method further comprises the step of obtaining an energy value of the frame signal, wherein the step of extracting the feature parameter comprises: if the energy value of the frame signal is greater than or equal to a reference value, And extracting the extracted data.

또한, 상기 에너지 값이 상기 기준치보다 작은 경우, 상기 프레임 신호가 무음 신호라고 판단하고, 상기 프레임 신호를 출력하지 않는 단계를 더 포함할 수 있다. The method may further include determining that the frame signal is a silent signal and outputting the frame signal if the energy value is smaller than the reference value.

또한, 상기 특징 파라미터를 추출하는 단계는 상기 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출하는 단계를 포함할 수 있다.The extracting of the feature parameter may further include extracting a short-time energy feature, a zero crossing rate, a spectral centroid, a spectral rolloff, , Spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC). The method may further include extracting at least one of a spectral flux, spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC).

또한, 상기 비교 신호들은 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호, 및 음성 신호를 포함하고, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 단계를 포함할 수 있다.The comparison signals may include a first noise signal, an n-th (n is a natural number of 2 or more) noise signal, and a voice signal, wherein the step of determining whether the frame signal is a voice signal or a noise signal includes: A likelihood value M1 to Mn indicating a degree of similarity between a parameter modeled on the characteristic of each of the n < th > noise signals and the characteristic parameter, and a parameter modeled on the characteristic of the voice signal, And obtaining a Reagan hood value Mn + 1 indicating a degree of similarity.

또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 M1부터 Mn+1 중 상기 Mn+1이 가장 큰 경우, 상기 Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 상기 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구하고, 상기 비가 임계치보다 큰 경우 상기 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 상기 비가 상기 임계치보다 작거나 같은 경우 상기 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성하는 단계를 포함할 수 있다. The step of determining whether the frame signal is a voice signal or a noise signal may comprise the step of determining a difference value between the Mn + 1 and the Ricci hood value, which is higher in order than the Mn + 1, And a ratio of a difference between the Ricci hood value and the third largest Ricci hood value in the subordinate order is calculated. When the ratio is greater than the threshold value, the first speech signal display labeling information is generated for the frame signal, And generating second audio signal display labeling information for the frame signal if the ratio is less than or equal to the threshold value.

또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 M1부터 Mn+1 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 상기 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal may include determining whether a frame signal is a speech signal or a noise signal, And generating signal marking labeling information.

또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 레이블링 정보를 이용하여 상기 프레임 신호가 노이즈 신호인지, 음성 신호인지, 또는 불확실 음성 신호인지를 표시하는 인덱스 값을 생성하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal includes generating an index value indicating whether the frame signal is a noise signal, a speech signal, or an uncertain speech signal using the labeling information .

또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 인덱스 값이 상기 프레임 신호가 불확실 음성 신호임을 표시하는 경우, 상기 프레임 신호의 이전 및 이후 프레임 신호 중 하나 이상에 대한 인덱스 값을 참조하여 상기 프레임 신호에 대한 인덱스 값을 보정하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal may further comprise the step of determining an index value of at least one of a previous frame signal and a subsequent frame signal of the frame signal when the index value indicates that the frame signal is an uncertain voice signal And correcting an index value of the frame signal with reference to the frame signal.

또한, 상기 프레임 신호를 출력하는 단계는 상기 인덱스 값이 상기 프레임 신호가 음성 신호임을 표시하는 경우, 상기 프레임 신호를 출력하는 단계를 포함할 수 있다.The step of outputting the frame signal may include outputting the frame signal when the index value indicates that the frame signal is a voice signal.

또한, 상기 프레임 신호를 출력하는 단계는 상기 인덱스 값을 참조하여 음성의 시작점과 끝점을 검출하는 단계를 포함할 수 있다.The step of outputting the frame signal may include detecting a start point and an end point of the speech by referring to the index value.

본 발명의 다른 측면에 따르면, Continuously Listening 환경에서 동작하는 음성 활동 감지 장치에 있어서, 프레임 신호로부터 특징 파라미터를 추출하고, 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호에 대한 레이블링 정보를 생성하는 클래시파이어 모듈; 및 상기 레이블링 정보를 참조하여 상기 프레임 신호가 노이즈 신호인지 음성 신호인지를 판단하고, 상기 프레임 신호가 음성 신호라고 판단되면 상기 프레임 신호를 출력하는 음성 검출부를 포함하는 음성 활동 감지 장치를 제공할 수 있다.According to another aspect of the present invention, there is provided a voice activity sensing apparatus operating in a Continuously Listening environment, the apparatus comprising: a feature extraction unit for extracting feature parameters from a frame signal and comparing the feature parameters with model parameters of each of a plurality of comparison signals, A classifier module for generating labeling information about the labeling information; And a voice detection unit for determining whether the frame signal is a noise signal or a voice signal by referring to the labeling information and outputting the frame signal if the frame signal is determined to be a voice signal, .

본 발명의 또 다른 측면에 따르면, Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계; 및 상기 프레임 신호가 음성 신호라고 판단되는 경우, 상기 프레임 신호를 출력하는 단계를 포함하는 음성 활동 감지 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록 매체를 제공할 수 있다.According to another aspect of the present invention, there is provided a method of detecting a voice activity performed in a Continuously Listening environment, the method comprising: extracting a feature parameter from a frame signal; Comparing the feature parameter with a model parameter of each of the plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; And outputting the frame signal when the frame signal is judged to be a voice signal. The computer readable recording medium stores the program for executing the voice activity sensing method.

이와 같이 발명의 실시 예에 따르면, 입력 신호에서 다양한 종류의 노이즈 신호를 제거하여 음성 신호만이 출력되도록 할 수 있다. As described above, according to the embodiment of the present invention, various types of noise signals can be removed from the input signal, and only the voice signal can be output.

도 1은 발명의 일 실시 예에 따른 음성 활동 감지 장치(100)의 블록도이다.
도 2는 도 1의 윈도윙부(110)의 내부 블록도이다.
도 3은 클래시파이어 모듈(120)의 내부 블록도이다.
도 4는 발명의 실시 예에 따라, 음성 검출부(130)가 프레임 신호에 대한 인덱스 값을 생성 및 보정하는 것을 설명하기 위한 도면이다.
도 5는 발명의 일 실시 예에 따른 음성 활동 감지 방법을 도시한 순서도이다.
도 6은 도 5의 단계 520의 일 실시 예를 도시한 순서도이다.
1 is a block diagram of a voice activity sensing apparatus 100 according to an embodiment of the present invention.
2 is an internal block diagram of the windowing unit 110 of FIG.
3 is an internal block diagram of the classifier module 120. As shown in FIG.
4 is a diagram for explaining how the voice detection unit 130 generates and corrects index values for a frame signal according to an embodiment of the present invention.
5 is a flowchart illustrating a voice activity sensing method according to an embodiment of the present invention.
FIG. 6 is a flow chart illustrating one embodiment of step 520 of FIG.

음성 인식 시스템에서, 사용자는 키보드, 마우스, 터치 패드, 터치스크린 또는 마이크로폰과 같은 물리적 유저 인터페이스를 이용하여 음성 인식 시스템을 활성화한 후, 원하는 명령어를 음성 신호로 입력한다. 음성 인식 시스템은 유저 인터페이스를 통한 사용자로부터의 활성화 명령에 따라 활성화되어 그때부터 입력되는 신호를 감시한다. 음성 인식 시스템은 입력되는 신호 중 사람의 음성 신호를 인식하고 그에 따라 동작하게 된다.In a speech recognition system, a user activates a speech recognition system using a physical user interface such as a keyboard, a mouse, a touch pad, a touch screen, or a microphone, and inputs a desired command as a speech signal. The speech recognition system is activated according to an activation command from the user through the user interface and monitors the input signal from then on. The speech recognition system recognizes a human voice signal among input signals and operates accordingly.

그러나 음성 인식 시스템과 사용자와의 거리가 일정 거리 이상인 경우 등과 같이 사용자가 물리적 유저 인터페이스를 이용하여 음성 인식 시스템을 활성화하지 못하는 경우가 있을 수 있다.However, there are cases where the user can not activate the voice recognition system using the physical user interface, such as when the distance between the voice recognition system and the user is a certain distance or more.

본 발명에서는 이와 같은 환경을 고려해, 사용자가 물리적인 인터페이스를 조작하는 대신 음성 신호를 이용하여 음성 인식 시스템을 활성화하는 방법 및 그러한 방법을 수행하는 장치에 대해 살펴보기로 한다. In the present invention, a method of activating a voice recognition system by using a voice signal instead of a user operating a physical interface, and a device performing such a method will be described in consideration of such circumstances.

편의상, 본 발명에서는 물리적 유저 인터페이스 조작 없이 음성으로 음성 인식 시스템을 자동으로 동작시키는 환경을 Continuously Listening 환경이라 부르기로 한다. Continuously Listening 환경에서는 음성 발화의 시작과 종료 시점을 예측할 수 없기 때문에 음성 인식 시스템이 계속해서 입력되는 신호를 감시해야 한다. 따라서 음성이 아닌 다양한 종류의 노이즈로 인해 음성 인식 시스템이 활성화되거나 오동작을 일으킬 수 있다. 따라서 입력 신호가 음성 신호인지 노이즈 신호인지를 판단하는 것이 무엇보다 중요하다. For convenience, in the present invention, an environment in which a voice recognition system automatically operates without a physical user interface operation is called a Continuously Listening environment. In the Continuously Listening environment, since the start and end points of the speech utterance can not be predicted, the speech recognition system must continuously monitor the input signals. Therefore, various kinds of noise other than voice may cause the voice recognition system to be activated or malfunction. Therefore, it is important to determine whether the input signal is a voice signal or a noise signal.

Continuously Listening 환경에서 동작하는 음성 인식 시스템은 음성 활동 감지 (VAD, Voice activity detection) 장치 및 음성 인식기를 포함할 수 있다. A speech recognition system operating in a Continuously Listening environment may include a voice activity detection (VAD) device and a speech recognizer.

VAD 장치는 음성 인식기 앞에 위치하여 음성 인식의 전처리를 수행한다. VAD 장치는 입력 신호에서 음성 활동 구간을 검출하고, 검출된 음성 신호를 음성 인식기로 보낸다. VAD 장치는 음성 신호만이 음성 인식기로 입력 되도록 함으로써 음성 신호가 아닌 노이즈 신호에 의해 음성 인식기가 오작동하는 것을 막는다. The VAD device is located in front of the speech recognizer and performs preprocessing of speech recognition. The VAD device detects a voice activity interval in the input signal and sends the detected voice signal to the voice recognizer. The VAD device allows only the voice signal to be input to the voice recognizer, thereby preventing the voice recognizer from malfunctioning due to the noise signal, not the voice signal.

음성 인식기는 VAD 장치로부터 음성 신호를 받고, 이를 분석하여 음성 신호에 따른 각종 동작을 수행한다. The voice recognizer receives a voice signal from the VAD device, analyzes it, and performs various operations according to the voice signal.

음성 인식 시스템은 음성 인식기 앞에 오토 활성화기(Auto Activation module)를 더 포함할 수도 있다. 오토 활성화기는 신호로부터 특징 파라미터를 추출하고, 추출된 특징 파라미터를 기 등록되어 있는 화자 개개인의 음성 파라미터나 특정 키워드와 비교한다. 오토 활성화기는 추출된 특징 파라미터가 기 등록된 음성 파라미터나 특정 키워드와 매칭되는 경우 활성화되어 신호를 음성 인식기로 전달한다. The speech recognition system may further include an auto activation module in front of the speech recognizer. The auto activator extracts feature parameters from the signal, and compares the extracted feature parameters with the speech parameters or specific keywords of the individual speakers that have been registered. The auto activator is activated when the extracted feature parameter matches the previously registered voice parameter or a specific keyword and delivers the signal to the voice recognizer.

이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명하기로 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.

도 1은 발명의 일 실시 예에 따른 음성 활동 감지 장치(100)의 블록도이다. 1 is a block diagram of a voice activity sensing apparatus 100 according to an embodiment of the present invention.

도 1의 음성 활동 감지 장치(100)는 Enhanced VAD장치의 일종으로, 입력 신호에서 음성 활동 구간을 검출하는 기능을 수행한다. 음성 활동 감지 장치(100)는 음성 인식기(미도시) 앞에 위치하여 입력 신호로부터 음성 구간을 검출하고, 검출된 음성 신호만을 음성 인식기로 전달할 수 있다. The voice activity sensing apparatus 100 of FIG. 1 is a kind of an enhanced VAD apparatus and performs a function of detecting a voice activity interval in an input signal. The voice activity sensing apparatus 100 is located in front of a voice recognizer (not shown), detects a voice section from an input signal, and can transmit only the detected voice signal to the voice recognizer.

음성 활동 감지 장치(100)와 음성 인식기 사이에 오토 활성화기(미도시)가 위치한 경우, 음성 활동 감지 장치(100)는 입력 신호로부터 음성 구간을 검출한 후 검출된 음성 신호를 오토 활성화기로 보내고, 오토 활성화기는 음성 활동 감지 장치(100)로부터 입력된 신호를 이용하여 화자/키워드 인식 등을 수행한 후, 화자/키워드가 인식된 신호만을 음성 인식기로 전달할 수도 있다.When the auto-activator (not shown) is located between the voice activity sensing apparatus 100 and the voice recognizer, the voice activity sensing apparatus 100 detects the voice interval from the input signal, and sends the detected voice signal to the auto- The auto activator may perform a speaker / keyword recognition using the signal input from the voice activity sensing apparatus 100, and may then transmit only the speaker / keyword recognition signal to the voice recognizer.

또는 음성 활동 감지 장치(100)는 오토 활성화기와 음성 인식기 사이에 위치할 수도 있다. 이 경우 음성 활동 감지 장치(100)는 오토 활성화기로부터 화자 또는 키워드가 인식된 신호를 받고, 이 신호에 노이즈 신호가 포함되어 있는지를 판단하여 노이즈 신호를 제거하는 기능을 수행할 수 있다. 음성 활동 감지 장치(100)는 오토 활성화기로부터 받은 신호에서 음성 신호만을 검출하여 이를 음성 인식기로 보냄으로써, 음성 신호가 아닌 노이즈 신호에 의해 음성 인식기가 활성화되는 것을 막을 수 있다.Or the voice activity sensing apparatus 100 may be located between the auto activator and the voice recognizer. In this case, the voice activity sensing apparatus 100 may receive a signal from the auto activator that recognizes a speaker or a keyword, determine whether the signal includes a noise signal, and remove the noise signal. The voice activity sensing apparatus 100 detects only a voice signal from a signal received from the auto activator and sends it to a voice recognizer so that the voice recognizer can be prevented from being activated by a noise signal other than a voice signal.

발명의 실시 예에서, 음성 활동 감지 장치(100)는 윈도윙(windowing)부(110), 클래시파이어 모듈(classifier module) (120) 및 음성 검출부(130)를 포함한다. The voice activity sensing apparatus 100 includes a windowing unit 110, a classifier module 120, and a voice detection unit 130. The voice activity detection apparatus 100 includes a windowing unit 110, a classifier module 120,

윈도윙부(110)는 입력 신호(IN1)를 소정 프레임 단위로 나눈다. 발명의 실시 예에서, 소정 프레임 단위는 130ms 단위일 수 있다. 윈도윙부(110)는 프레임 단위로 입력 신호를 나누어 프레임 신호를 생성하고, 프레임 신호를 클래시파이어 모듈 (120) 및 음성 검출부(130)로 각각 전송한다.The windowing unit 110 divides the input signal IN1 by a predetermined frame unit. In an embodiment of the invention, the predetermined frame unit may be a unit of 130 ms. The windowing unit 110 generates a frame signal by dividing the input signal into frames, and transmits the frame signal to the classifier module 120 and the voice detector 130, respectively.

발명의 실시 예에서, 윈도윙부(110)는 프레임 신호의 에너지를 구하고, 프레임 신호의 에너지 크기가 일정 기준치 이상인 경우에만, 프레임 신호를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송할 수 있다. The windowing unit 110 may obtain the energy of the frame signal and may transmit the frame signal to the classifier module 120 and the voice detection unit 130 only when the energy level of the frame signal is equal to or greater than a predetermined reference value have.

클래시파이어 모듈(120)은 윈도윙부(110)로부터 프레임 신호를 받고, 프레임 신호로부터 특징을 추출한다. 클래시파이어 모듈(120)은 입력 신호로부터 다양한 지각적 특성(perceptual feature) 및/또는 MFCC (Mel-Frequency Cepstral Coefficients)등을 추출할 수 있다. The classifier module 120 receives the frame signal from the windowing unit 110 and extracts the feature from the frame signal. The classifier module 120 may extract various perceptual features and / or Mel-Frequency Cepstral Coefficients (MFCC) from the input signal.

클래시파이어 모듈(120)은 다양한 종류의 비교 신호들에 대한 모델 파라미터들을 이용하여, 프레임 신호가 비교 신호들 중 어느 신호와 가장 가까운지를 판단한다. 이를 위해 클래시파이어 모듈(120)은 다양한 종류의 비교 신호들에 대한 데이터 베이스를 이용하여 각 노이즈 신호들의 모델 파라미터들을 학습한다. The classifier module 120 uses model parameters for various kinds of comparison signals to determine which of the comparison signals the frame signal is closest to. For this purpose, the classifier module 120 learns model parameters of each noise signal using a database of various types of comparison signals.

발명의 실시 예에서, 비교 신호는 다양한 종류의 노이즈 신호들을 포함할 수 있다. 다양한 종류의 노이즈 신호들은 전 주파수 대역에 걸쳐 분포하는 백색 잡음이나 배블(babble) 잡음이거나, 또는 특정 구간에 일시적으로 존재하는 돌발 잡음들이 될 수 있다. In an embodiment of the invention, the comparison signal may comprise various kinds of noise signals. Various kinds of noise signals may be white noise or babble noise distributed over the whole frequency band, or sudden noise temporarily present in a certain section.

입력 신호가 음성 신호인지를 보다 정확히 판단하기 위해, 발명의 실시 예에서 비교 신호는 노이즈 신호 외에 음성 신호를 더 포함할 수도 있다.In order to more accurately determine whether the input signal is a speech signal, the comparison signal may further include a speech signal in addition to the noise signal.

클래시파이어 모듈(120)은 Gaussian Mixture Model(GMM), Support Vector Machine(SVM), Hidden Markov Model(HMM) 등 다양한 패턴 분류 기술을 이용할 수 있다.The classifier module 120 may use various pattern classification techniques such as a Gaussian Mixture Model (GMM), a Support Vector Machine (SVM), and a Hidden Markov Model (HMM).

클래시파이어 모듈(120)은 프레임 신호로부터 추출한 특징을 기 학습된 각종 비교 신호들의 모델 파라미터들과 패턴 매칭하여, 프레임 신호가 비교 신호들 중 어느 신호와 가장 가까운지를 판단하고 이를 표시하는 레이블링 정보를 생성한다. 클래시파이어 모듈(120)은 레이블링 정보를 음성 검출부(130)로 보낸다. The classifier module 120 performs pattern matching of the feature extracted from the frame signal with the model parameters of the learned various comparison signals to determine which frame signal is closest to which of the comparison signals, and outputs labeling information . The classifier module 120 sends the labeling information to the voice detector 130.

음성 검출부(130)는 윈도윙부(110)로부터 실시간으로 프레임 신호를 입력 받고, 클래시파이어 모듈(120)로부터 프레임 신호에 대한 레이블링 정보를 입력 받는다. 음성 검출부(130)는 레이블링 정보를 참조하여 프레임 신호가 노이즈 신호인지, 음성 신호인지 또는 불확실한 음성 신호인지를 표시하는 인덱스 값을 생성한다. The voice detection unit 130 receives the frame signal in real time from the windowing unit 110 and receives labeling information for the frame signal from the classifier module 120. The voice detector 130 refers to the labeling information to generate an index value indicating whether the frame signal is a noise signal, a voice signal, or an uncertain voice signal.

발명의 실시 예에서, 음성 검출부(130)는 현재 프레임 이전 및 이후 프레임들 중 하나 이상을 이용하여 현재 프레임에 대한 인덱스 값을 보정할 수 있다. In an embodiment of the invention, the speech detector 130 may use one or more of the current and previous frames to correct the index value for the current frame.

음성 검출부(130)는 인덱스 값이 프레임 신호가 음성 신호임을 표시하는 경우 프레임 신호를 출력 신호(OUT1)로 출력하고, 인덱스 값이 현재 프레임 신호가 음성 신호가 아니라고 표시하는 경우 프레임 신호를 출력하지 않는다.The voice detector 130 outputs the frame signal as the output signal OUT1 when the index value indicates that the frame signal is a voice signal and does not output the frame signal when the index value indicates that the current frame signal is not a voice signal .

이와 같이, 발명의 실시 예에 의하면, 입력 신호로부터 특징을 추출하고, 이 특징을 비교 신호들의 특징 파라미터들과 비교하여 입력 신호가 어느 비교 신호와 가장 가까운지를 판단할 수 있다. Thus, according to an embodiment of the invention, it is possible to extract features from an input signal and compare this feature with the feature parameters of the comparison signals to determine which comparison signal is closest to the input signal.

또한, 발명의 실시 예에 의하면, 입력 신호가 음성 신호라고 판단되는 경우에만 그 신호를 음성 인식기 또는 오토 활성화기로 출력함으로써, Continuously Listening 환경에서 음성 인식기가 노이즈 신호에 의해 오동작하는 것을 막을 수 있다. Further, according to the embodiment of the present invention, only when the input signal is determined as a voice signal, the signal is output to the voice recognizer or auto activator, thereby preventing malfunction of the voice recognizer due to the noise signal in the Continuously Listening environment.

도 2는 도 1의 윈도윙부(110)의 내부 블록도이다. 도 2를 참조하면, 윈도윙부(110)는 신호 분리부(210) 및 ESD(Energy-based sound detector) (220)를 포함할 수 있다. 2 is an internal block diagram of the windowing unit 110 of FIG. 2, the windowing unit 110 may include a signal separation unit 210 and an energy-based sound detector (ESD) 220.

신호 분리부(210)는 입력 신호(IN1)를 소정 프레임 단위의 신호로 분리하여 프레임 신호를 생성한다. 신호 분리부(210)는 프레임 신호를 ESD(220)로 보낸다. The signal separator 210 separates the input signal IN1 into signals of a predetermined frame unit to generate a frame signal. The signal separator 210 sends a frame signal to the ESD 220.

ESD(220)는 프레임 신호의 에너지 값을 기준치와 비교한다. 예컨대, i 번째 프레임 신호를 X(t)라고 할 때, ESD(220)는 ?Xi(t)^2?를 구하고, ?Xi(t)^2? 값이 기 설정된 기준치를 넘는지를 판단한다. ESD(220)는 ?Xi(t)^2?이 기 설정된 기준치보다 크거나 같은 경우, 프레임 신호 Xi(t)를 출력 신호(OUT 2)로 클래시파이어 모듈(120) 및 음성 검출부(130)로 각각 전송한다.The ESD 220 compares the energy value of the frame signal with a reference value. For example, when the i-th frame signal is X (t), the ESD 220 obtains Xi (t) ^ 2 ?, and Xi (t) ^ 2? And determines whether the value exceeds a predetermined reference value. The ESD 220 outputs the frame signal Xi (t) as an output signal OUT 2 to the classifier module 120 and the voice detector 130 when? Xi (t)? 2? Respectively.

?Xi(t)^2?이 기 설정된 기준치보다 작은 경우, 그 프레임 신호는 무음(silence)일 가능성이 높으므로, ESD(220)는 프레임 신호 Xi(t)를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송하는 대신, Xi(t)가 무음 신호라는 것을 표기하는 정보를 생성하고 생성된 정보만을 음성 검출부(130)로 전송할 수 있다.Since ESD 220 is more likely to silence the frame signal if? Xi (t)? 2? Is smaller than the preset reference value, the ESD 220 transmits the frame signal Xi (t) to the classifier module 120 and Instead of transmitting to the voice detection unit 130, information indicating that Xi (t) is a silent signal may be generated, and only the generated information may be transmitted to the voice detection unit 130. [

이와 같이, 발명의 실시 예에 의하면, 프레임 신호의 에너지 값이 기준치 이상인 경우에만 그 프레임 신호를 처리함으로써 무음으로 판단된 프레임에 대한 신호 처리를 생략할 수 있다. As described above, according to the embodiment of the invention, only when the energy value of the frame signal is equal to or higher than the reference value, the signal processing for the frame determined as silent can be omitted by processing the frame signal.

도 3은 클래시파이어 모듈(120)의 내부 블록도이다. 클래시파이어 모듈(120)은 특징 추출부(310), 비교 신호 데이터베이스(320), 및 패턴 매칭부(330)를 포함한다. 3 is an internal block diagram of the classifier module 120. As shown in FIG. The classifier module 120 includes a feature extraction unit 310, a comparison signal database 320, and a pattern matching unit 330.

도 3에는 비교 신호 데이터베이스(320)가 클래시파이어 모듈(120) 내부에 포함되어 있는 것으로 도시되어 있으나, 발명이 이에 한정되는 것은 아니며, 비교 신호 데이터베이스(320)는 클래시파이어 모듈(120)과 별개로 클래시파이어 모듈(120) 외부에 위치할 수도 있다. 이 경우 비교 신호 데이터베이스(320)는 클래시파이어 모듈(120)과 유선 또는 무선 통신망을 통해 연결되어 있을 수 있다.3, the comparison signal database 320 is included in the classifier module 120, but the invention is not limited thereto. The comparison signal database 320 may include a classifier module 120, But may be located outside the classifier module 120 separately. In this case, the comparison signal database 320 may be connected to the classifier module 120 via a wired or wireless communication network.

특징 추출부(310)는 윈도윙부(110)로부터 프레임 신호를 입력 신호(IN2)로 받고, 입력 신호로부터 특징 파라미터를 추출한다. The feature extraction unit 310 receives a frame signal from the windowing unit 110 as an input signal IN2 and extracts a feature parameter from the input signal.

특징 추출부(310)는 프레임 신호로부터 다양한 지각적 특징들(perceptual features)을 나타내는 특징 파라미터들을 추출할 수 있다. 다양한 지각적 특징 파라미터들은, 신호를 주파수 영역으로 표현하였을 때 주파수 성분들의 중심 값을 나타내는 스펙트럴 센트로이드(Spectral Centroid), 주파수 성분들의 85%를 포함하는 주파수 범위를 나타내는 스펙트럴 롤오프(Spectral Rolloff), 에너지가 주파수 대역에 얼마나 퍼져 있는지를 나타내는 스펙트럴 플랫니스(spectral flatness), 현재 프레임과 현재 프레임의 앞 또는 뒤로 인접한 프레임의 주파수 성분 간 차이를 나타내는 스펙트럴 플럭스(Spectral Flux) 중 하나 이상을 포함할 수 있다. The feature extraction unit 310 may extract feature parameters representing various perceptual features from the frame signal. The various perceptual feature parameters include a spectral centroid that represents the center value of the frequency components when the signal is expressed in the frequency domain, a spectral rolloff that represents the frequency range including 85% of the frequency components, Spectral flatness indicating how far the energy is spread in the frequency band, spectral flux representing the difference between the current frame and the frequency components of the frame preceding or following the current frame (Spectral Flux) can do.

또는, 지각적 특징 파라미터들은, 소정 시간 동안의 신호의 에너지 크기, 시간 도메인 상에서 신호의 값이 양수와 음수로 교차되는 정도를 나타내는 제로 크로싱 레이트(Zero Crossing Rate) 중 하나 이상을 포함할 수 있다. Alternatively, perceptual feature parameters may include one or more of an energy magnitude of a signal for a predetermined time, and a zero crossing rate, which indicates the degree to which the value of the signal crosses in a positive and negative number on the time domain.

또는, 특징 추출부(310)는 입력 신호로부터 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients)를 특징 파라미터로 추출할 수도 있다. 멜프리컨시 캡스트럴 계수는 FFT에 기초하여 인간의 청각 특성을 나타내는 특징 벡터이다. Alternatively, the feature extraction unit 310 may extract Mel-Frequency Cepstral Coefficients as feature parameters from the input signal. The mel-priced capstral coefficient is a feature vector that represents the human auditory characteristics based on the FFT.

특징 추출부(310)는 프레임 신호로부터 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 특징 파라미터로 추출하고, 추출한 특징 파라미터들을 패턴 매칭부(330)로 보낸다. The feature extractor 310 extracts spectral centroid, spectral rolloff, spectral flux, spectral flatness, short- a zero crossing rate, a mel-frequency cepstral coefficient (MFCC), and sends the extracted characteristic parameters to the pattern matching unit 330 .

비교 신호 데이터베이스(320)는 복수의 비교 신호들에 대한 모델 파라미터들을 분류하여 저장한다. The comparison signal database 320 classifies and stores model parameters for a plurality of comparison signals.

복수의 비교 신호들은 복수의 노이즈 신호 및 음성 신호를 포함할 수 있다. 노이즈 신호는 특정 구간에 일시적으로 존재하는 돌발성 잡음을 포함할 수 있다. 돌발성 잡음은 예컨대, 문 소리, 책상 소리, 의자 소리, 키보드 조작 소리, 벨이나 진동 소리, 기침소리, 음악 소리 등이 있을 수 있다. The plurality of comparison signals may include a plurality of noise signals and voice signals. The noise signal may include a sudden noise temporarily present in a certain section. The sudden noise may include, for example, a door sound, a desk sound, a chair sound, a keyboard operation sound, a bell or vibration sound, a cough sound, and a music sound.

노이즈 신호는 돌발 잡음 외에도 전 주파수 대역에 걸쳐 분포하는 백색 잡음이나 배블 잡음 등을 포함할 수 있다. The noise signal may include white noise or bubble noise distributed over the entire frequency band in addition to the sudden noise.

비교 신호 데이터베이스(320)는 Gaussian Mixture Model(GMM), Support Vector Machine(SVM), Hidden Markov Model(HMM) 등과 같은 다양한 패턴 클래시피케이션 기술을 이용하여 복수의 비교 신호들에 대한 패턴을 모델링할 수 있다. The comparison signal database 320 can model patterns for a plurality of comparison signals using various pattern classification techniques such as a Gaussian Mixture Model (GMM), a Support Vector Machine (SVM), and a Hidden Markov Model have.

패턴 매칭부(330)는 비교 신호 데이터베이스(320)로부터 비교 신호 각각의 모델 파라미터들을 받고, 이를 프레임 신호의 특징 파라미터와 비교하여 프레임 신호가 어느 비교 신호와 유사한지를 판단한다. The pattern matching unit 330 receives model parameters of each of the comparison signals from the comparison signal database 320 and compares the model parameters with characteristic parameters of the frame signal to determine which comparison signal is similar to the frame signal.

보다 구체적으로, 패턴 매칭부(330)는 프레임 신호와 복수의 비교 신호들 간의 유사 정도를 구하기 위해 최대 우도(Maximum Likelihood) 검출을 수행할 수 있다. 패턴 매칭부(330)는 프레임 신호의 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터들과 비교하여 패턴 매칭을 수행하고 유사 정도를 나타내는 라이클리후드 값(likelihood value)들의 집합을 구한다. More specifically, the pattern matching unit 330 may perform maximum likelihood detection to obtain similarity between a frame signal and a plurality of comparison signals. The pattern matching unit 330 compares the feature parameter of the frame signal with the model parameters of each of the plurality of comparison signals to perform pattern matching and obtains a set of likelihood values indicating similarity.

발명의 실시 예에서, 비교 신호 데이터베이스(320)에는 n(n은 2 이상의 자연수)개의 노이즈 신호, 및 하나의 음성 신호 각각의 패턴이 저장되어 있다고 가정한다. In the embodiment of the present invention, it is assumed that the comparison signal database 320 stores patterns of n (n is a natural number of 2 or more) noise signals and one voice signal, respectively.

패턴 매칭부(330)는 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호 각각의 특성을 모델링한 파라미터와, 특징 추출부(310)로부터 받은 프레임 신호의 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 M1부터 Mn을 구하고, 음성 신호의 특성을 모델링한 파라미터와 프레임 신호의 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구한다. The pattern matching unit 330 compares the degree of similarity between the parameter modeling the characteristic of each of the first noise signal to the nth (n is the natural number of 2 or more) noise signals and the characteristic parameter of the frame signal received from the characteristic extracting unit 310 And a Richey hood value Mn + 1 indicating the degree of similarity between the parameter modeling the characteristic of the speech signal and the characteristic parameter of the frame signal is obtained.

패턴 매칭부(330)는 라이클리후드 값을 이용하여 프레임 신호가 어떤 종류의 신호인지를 표시하는 레이블링 정보를 생성한다. 이를 위해 패턴 매칭부(330)는 M1부터 Mn+1 중 가장 큰 값을 구한다. M1부터 Mn+1 중 가장 큰 값이 Mn+1인 경우, 즉, 프레임 신호의 특징 파라미터가 음성 신호의 모델 파라미터와 가장 유사한 경우, 패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값 및 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값을 각각 구한다. The pattern matching unit 330 generates labeling information indicating a type of the frame signal using the Ricci hood value. For this, the pattern matching unit 330 obtains the largest value among M1 to Mn + 1. In the case where the largest value among M1 to Mn + 1 is Mn + 1, that is, when the characteristic parameter of the frame signal is most similar to the model parameter of the speech signal, the pattern matching unit 330 outputs The difference between the value of the difference between the difference value and the difference between the difference value and the difference value between the difference value and the difference value between the difference value and the third difference value, respectively.

패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값의, 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값의 비를 구하고, 비가 임계치보다 큰지를 판단한다. 패턴 매칭부(330)는 비가 임계치보다 큰 경우 프레임 신호가 음성 신호라는 것을 표시하는 제1 음성 신호 표시 레이블링 정보를 생성한다. The pattern matching unit 330 obtains the ratio of the difference between the difference between the value of the difference between the value of Mn + 1 and the value of the larger Rikkill hood value in order of the difference between the larger Rikkyd hood value and the third largest Rikley hood value , And determines whether the ratio is larger than the threshold value. The pattern matching unit 330 generates first voice signal display labeling information indicating that the frame signal is a voice signal when the ratio is larger than the threshold.

패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값의, 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값의 비가 임계치보다 작거나 같은 경우 프레임 신호가 음성 신호인지, 또는 노이즈 신호인지가 확실하지 않다는 것을 표시하기 위해, 제2 음성 신호 표시 레이블링 정보를 생성한다. The pattern matching unit 330 compares the difference between the value of the difference between the value of Mn + 1 and the value of the Richelieu hood larger in the order of the difference from the value of the difference between the larger Richelieu value and the third largest Ricci hood value, The second voice signal display labeling information is generated to indicate that the frame signal is a voice signal or a noise signal is uncertain.

패턴 매칭부(330)는 M1부터 Mn+1 중 가장 큰 값이 Mn+1이 아닌 Mk(k는 n보다 작거나 같은 자연수)인 경우, 프레임 신호가 k번째 노이즈 신호임을 표시하는 제 k 노이즈 신호 표시 레이블링 정보를 생성한다. The pattern matching unit 330 outputs a kth noise signal indicating that the frame signal is the kth noise signal when Mk (k is a natural number less than or equal to n), which is the largest among M1 to Mn + 1, is not Mn + And generates label labeling information.

패턴 매칭부(330)는 각각의 프레임 신호에 대해, 제1 음성 신호 표시 레이블링 정보, 제2 음성 신호 표시 레이블링 정보 및 제 k 노이즈 신호 표시 레이블링 정보 중 하나를 생성하고 이를 출력 신호(OUT3)로 하여 음성 검출부(130)로 보낸다. The pattern matching unit 330 generates one of the first audio signal display labeling information, the second audio signal display labeling information, and the kth noise signal display labeling information for each frame signal and outputs it as an output signal OUT3 And sends it to the voice detection unit 130.

이와 같이, 발명의 실시 예에 의하면, 프레임 신호의 특징 파라미터와 다양한 종류의 비교 신호들 각각의 모델 파라미터들을 비교함으로써 프레임 신호가 어느 비교 신호와 가장 유사한지를 판단하고 그에 따라 레이블링 정보를 생성할 수 있다.As described above, according to the embodiment of the present invention, by comparing the feature parameters of the frame signal and the model parameters of the various types of comparison signals, it is possible to determine which of the comparison signals the frame signal most resembles, and generate labeling information accordingly .

도 4는 발명의 실시 예에 따라, 음성 검출부(130)가 프레임 신호에 대한 인덱스 값을 생성 및 보정하는 것을 설명하기 위한 도면이다. 4 is a diagram for explaining how the voice detection unit 130 generates and corrects index values for a frame signal according to an embodiment of the present invention.

도 4의 (a)는 입력 신호의 파형을 시간 축 상에서 도시한 도면이다. 도 4의 (a)에서 최 좌측에 있는 파형은 노이즈 신호이고, 노이즈 신호 뒤로 그려진 파형은 음성 신호를 나타낸다. 4 (a) is a diagram showing the waveform of the input signal on the time axis. The waveform at the leftmost side in FIG. 4 (a) is a noise signal, and the waveform drawn after the noise signal represents a voice signal.

윈도윙부(110)는 도 4의 (a)의 입력 신호를 소정 프레임 단위, 예컨대 130ms 단위로 나누고, 제일 좌측에 있는 프레임 단위 신호부터 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송한다. The windowing unit 110 divides the input signal of FIG. 4 (a) by a predetermined frame unit, for example, 130 ms, and transmits the frame unit signal from the leftmost unit to the classifier module 120 and the voice detection unit 130 .

발명의 실시 예에서, 윈도윙부(110)는 프레임 신호의 에너지 값을 구하고, 프레임 신호의 에너지 값이 기준치 이상인 경우에만 프레임 신호를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송할 수도 있다. The windowing unit 110 may calculate the energy value of the frame signal and transmit the frame signal to the classifier module 120 and the voice detection unit 130 only when the energy value of the frame signal is equal to or higher than the reference value .

발명의 실시 예에서, 음성 검출부(130)에는 도 4의 (b)에 도시한 바와 같은 신호 버퍼 및 도 4의 (c)에 도시된 바와 같은 인덱스 버퍼가 포함되어 있다. 인덱스 버퍼와 신호 버퍼는 동일한 칸수를 가지고 있다. 신호 버퍼에는 윈도윙부(110)로부터 받은 프레임 신호가 버퍼의 왼쪽, 즉, 1번 칸부터 채워지고, 130ms 시간 단위마다 프레임 신호가 한 칸씩 오른쪽으로 이동한다. 인덱스 버퍼에는 프레임 신호에 대한 인덱스 값이 그 프레임 신호가 채워진 신호 버퍼의 칸에 대응하는 칸에 채워진다.In the embodiment of the invention, the voice detector 130 includes a signal buffer as shown in FIG. 4 (b) and an index buffer as shown in FIG. 4 (c). The index buffer and the signal buffer have the same number of spaces. In the signal buffer, the frame signal received from the windowing unit 110 is filled in from the left side of the buffer, that is, the first frame, and the frame signal moves to the right by one frame every 130 ms time unit. In the index buffer, the index value for the frame signal is filled in a column corresponding to the frame of the signal buffer filled with the frame signal.

음성 검출부(130)는 클래시파이어 모듈(120)로부터 레이블링 정보를 받고, 레이블링 정보에 대응하는 인덱스 값을 생성하여 이를 인덱스 버퍼에 저장한다. The voice detector 130 receives labeling information from the classifier module 120, generates an index value corresponding to the labeling information, and stores the index value in the index buffer.

편의상 한 예로, 프레임 신호가 음성 신호임을 표시하는 인덱스 값을 1, 프레임 신호가 노이즈 신호이거나 또는 무음임을 표시하는 인덱스 값을 0, 프레임 신호가 음성 신호인지 노이즈 신호인지가 확실하지 않다는 것을 표시하는 인덱스 값, 즉, 불확실한 음성 신호를 표시하는 인덱스 값을 -2로 정하기로 한다.For example, an index indicating that the frame signal is a voice signal is 1, an index value indicating that the frame signal is a noise signal or silence is 0, an index indicating that the frame signal is a voice signal or a noise signal Value, that is, an index value indicating an uncertain voice signal is set to -2.

음성 검출부(130)는 레이블링 정보가 제1 음성 신호 표시 레이블링 정보인 경우, 프레임 신호가 음성 신호임을 표시하는 인덱스 값 1을 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. When the labeling information is the first voice signal display labeling information, the voice detector 130 stores an index value 1 indicating that the frame signal is a voice signal in an index buffer cell corresponding to a signal buffer cell in which the frame signal is stored.

음성 검출부(130)는 레이블링 정보가 제2 음성 신호 표시 레이블링 정보인 경우, 프레임 신호가 음성 신호인지 노이즈 신호인지 확실하지 않다는 것을 표시하는 인덱스 값 -2를 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. When the labeling information is the second voice signal display labeling information, the voice detector 130 stores an index value -2 indicating that the frame signal is not a voice signal or a noise signal and stores the index value -2 corresponding to the signal buffer space in which the frame signal is stored It is stored in the index buffer column.

마찬가지로, 음성 검출부(130)는 레이블링 정보가 제k 노이즈 신호 표시 레이블링 정보인 경우, 프레임 신호가 노이즈 신호임을 표시하는 인덱스 값 0을 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. Similarly, when the labeling information is the kth noise signal display labeling information, the voice detector 130 stores the index value 0 indicating that the frame signal is a noise signal in the index buffer cell corresponding to the signal buffer cell in which the frame signal is stored .

발명의 실시 예에서, 프레임 신호의 에너지 크기가 기준치보다 작아 윈도윙부(110)가 음성 검출부(130)에 프레임 신호 대신 프레임 신호가 무음 신호라는 정보만을 전송한 경우, 음성 검출부(130)는 입력되지 않은 프레임이 채워져야 할 신호 버퍼 한 칸을 비워두고, 신호 버퍼에 대응하는 인덱스 버퍼의 칸에 프레임 신호가 무음임을 표시하는 인덱스 값 0을 채울 수 있다. In an embodiment of the present invention, when the energy level of the frame signal is smaller than the reference value, and the windowing unit 110 transmits only the silence signal instead of the frame signal to the voice detection unit 130, the voice detection unit 130 does not One frame of the signal buffer to be filled in may be left empty and an index value of 0 indicating that the frame signal is silent may be filled in the column of the index buffer corresponding to the signal buffer.

음성 검출부(130)는 레이블링 정보를 이용하여 인덱스 값을 생성한 후, 인접 프레임 신호의 인덱스 값을 참조하여 인덱스 버퍼에 저장된 인덱스 값을 여러 단계에 걸쳐 보정할 수 있다. The voice detector 130 may generate the index value using the labeling information, and then may refer to the index value of the adjacent frame signal to correct the index value stored in the index buffer through various steps.

우선, 음성 검출부(130)는 인덱스 값이 -2인 프레임 신호, 즉, 프레임 신호가 음성 신호인지 노이즈 신호인지 확실하지 않은 프레임 신호에 대해 소프트 디시젼(soft decesion)을 수행하여 프레임 신호가 음성 신호인지 여부를 한번 더 판단하고 그에 따라 인덱스 값을 보정할 수 있다. First, the voice detection unit 130 performs a soft decryption on a frame signal having an index value of -2, that is, a frame signal that is not sure whether the frame signal is a voice signal or a noise signal, And the index value can be corrected accordingly.

예컨대, 음성 신호가 무성음인 경우, 무성음은 신호의 에너지가 작아서 패턴 매칭부(330)가 무성음에 해당하는 프레임 신호를 음성 신호가 아닌 노이즈 신호로 판단하는 경우가 있을 수 있다. 음성 검출부(130)는 이러한 오류를 막기 위해 소프트 디시젼을 수행해 인덱스 값을 보정한다.For example, if the voice signal is unvoiced, the unvoiced sound may have a small signal energy, so that the pattern matching unit 330 may determine that the frame signal corresponding to the unvoiced sound is a noise signal instead of a voice signal. The voice detection unit 130 performs a soft decision to correct the index value to prevent such errors.

일 예로, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 1, -2인 경우, 음성 검출부(130)는 단어의 첫 음절에 해당하는 프레임 신호가 무성음이라고 판단하고, 1, 1, -2를 1, 1, 1로 보정할 수 있다. For example, if the index values stored in the index buffer are 1, 1, and -2 in the order of the first to third columns of the index buffer, the voice detector 130 determines that the frame signal corresponding to the first syllable of the word is unvoiced And 1, 1, and -2 can be corrected to 1, 1, and 1, respectively.

다른 예로, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 -2, 1, 1인 경우, 음성 검출부(130)는 단어의 끝 음절에 해당하는 프레임 신호가 무성음이라고 판단하고, -2, 1, 1을 1, 1, 1로 보정할 수 있다.As another example, when the index values stored in the index buffer are -2, 1, and 1 in the order of the first to third columns of the index buffer, the voice detector 130 determines that the frame signal corresponding to the end syllable of the word is unvoiced , And can correct -2, 1, and 1 to 1, 1, and 1, respectively.

사람이 발성을 하면 에너지가 높은 구간과 낮은 구간이 교대로 생기므로, 음성 신호라고 판단된 프레임 신호 사이에 음성 신호인지 노이즈 신호인지가 확실하지 않은 신호가 있는 경우, 음성 검출부(130)는 그 프레임 신호를 음성 신호라고 판단할 수 있다. 즉, 인덱스 버퍼의 1번 칸부터 4번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, -2, -2, 1인 경우, 음성 검출부(130)는 음성 신호 사이에 포함된 프레임 신호 또한 음성 신호라고 판단하고 1, -2, -2, 1을 1, 1, 1, 1로 보정할 수 있다.When a person speaks, a high-energy section and a low-section alternate with each other. Therefore, when there is a signal that is not sure whether a voice signal or a noise signal exists between frame signals determined to be a voice signal, It can be determined that the signal is a voice signal. That is, when the index values stored in the index buffer are 1, -2, -2, 1 in the order of the first to fourth columns of the index buffer, the voice detection unit 130 detects the frame signal included in the voice signals as the voice signal And 1, -2, -2, and 1 can be corrected to 1, 1, 1, and 1, respectively.

음성 검출부(130)는 소프트 디시젼을 수행하여 인덱스 값을 보정한 후, 스무딩(smoothing)을 수행하여 인덱스 값을 재 보정할 수 있다. The voice detector 130 may perform soft decision to correct the index value, and then perform smoothing to recalculate the index value.

음성 신호는 갑자기 변하는 게 아니므로 음성 신호 사이에 노이즈 신호나 무음 신호가 포함될 확률이 극히 낮다는 점에 착안하여 음성 검출부(130)는 스무딩을 수행하여1의 값을 갖는 인덱스 값들 사이에 1이 아닌 다른 인덱스 값이 있는 경우, 가운데 있는 다른 인덱스 값을 1로 보정할 수 있다. 예컨대, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 0, 1인 경우, 음성 검출부(130)는 음성 신호라고 판단된 프레임들 가운데 있는 프레임 신호 또한 음성 신호라고 판단하고 1, 0, 1을 1, 1, 1로 보정할 수 있다.Since the voice signal is not suddenly changed, the voice detecting unit 130 performs smoothing on the fact that the probability that a noise signal or a silence signal is included between the voice signals is extremely low, so that the voice detecting unit 130 performs smoothing If there is another index value, the other index value in the middle can be corrected to 1. For example, when the index values stored in the index buffer are 1, 0, and 1 in the order of the first to third columns of the index buffer, the voice detector 130 detects that the frame signal among the frames determined as voice signals is also a voice signal And 1, 0, and 1 can be corrected to 1, 1, and 1, respectively.

음성 검출부(130)는 소정 개수만큼의 인덱스 값들을 이용하여 스피치가 시작된 구간인지 또는 스피치가 종료되는 구간인지를 판단할 수 있다. The voice detection unit 130 may determine whether the speech is started or terminated by using a predetermined number of index values.

예컨대, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 1, 0인 경우, 즉, 무음 뒤에 음성 신호가 연속하여 두 번 입력되는 경우, 음성 검출부(130)는 스피치가 발생했다고 판단하고, 1, 1, 0을 1, 1, 1로 보정할 수 있다. For example, when the index values stored in the index buffer are 1, 1, 0 in the order of the first to third columns of the index buffer, that is, when the voice signal is input twice successively after the silence, It is judged that speech has occurred, and 1, 1, and 0 can be corrected to 1, 1, and 1.

프레임 신호가 스피치 종료를 표시하는 경우의 인덱스 값을 2라고 정의하면, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 0, 0, 1인 경우, 즉, 음성 신호라고 판단된 프레임 신호 뒤로 무음 또는 노이즈 신호라고 판단된 프레임 신호가 연속하여 두 번 입력되는 경우, 음성 검출부(130)는 스피치가 종료되었다고 판단하고, 0, 0, 1을 2, 1, 1로 보정할 수 있다. If the index value when the frame signal indicates the end of speech is 2, if the index value stored in the index buffer is 0, 0, 1 in the order of the first to third columns of the index buffer, that is, If the frame signal determined to be a silent or noise signal after the determined frame signal is input twice consecutively, the speech detector 130 determines that the speech has ended and corrects 0, 0, 1 to 2, 1, .

음성 검출부(130)는 인덱스 버퍼의 마지막 칸에 위치한 인덱스 값에 따라, 신호 버퍼의 마지막 칸, 즉, 도 4에서 5번 칸에 저장된 프레임 신호의 출력을 제어한다. The voice detector 130 controls the output of the last field of the signal buffer, i.e., the frame signal stored in column 5 in FIG. 4, according to the index value located in the last column of the index buffer.

음성 검출부(130)는 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 1인 경우, 인덱스 값에 대응하는 프레임 신호가 음성 신호라고 판단하고, 신호 버퍼의 5번 칸에 위치한 프레임 신호를 출력 신호(OUT 1)로 출력한다. 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 0인 경우, 음성 검출부(130)는 인덱스 값에 대응하는 프레임 신호가 무음 신호 또는 노이즈 신호라고 판단하고, 프레임 신호를 출력하지 않는다. 또한, 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 2인 경우, 음성 검출부(130)는 스피치가 종료되었다고 판단할 수 있다. 음성 검출부(130)는 시간 축 상에서 음성의 시작점과 끝점을 검출하고, 시작점과 끝점 사이의 프레임 신호만 선택해서 이를 출력하게 된다. The voice detector 130 determines that the frame signal corresponding to the index value is a voice signal when the index value located in the fifth column of the index buffer is 1 and outputs the frame signal located at the fifth column of the signal buffer to the output signal OUT 1). If the index value located in the fifth column of the index buffer is 0, the voice detector 130 determines that the frame signal corresponding to the index value is a silent signal or a noise signal, and does not output the frame signal. If the index value of the index buffer located at the fifth column is 2, the voice detector 130 may determine that the speech is terminated. The voice detection unit 130 detects the start and end points of the voice on the time axis and selects only the frame signal between the start and end points and outputs the selected frame signal.

음성 검출부(130)는 인덱스 값을 참조하여 스피치가 시작되었는지 또는 스피치가 종료되었는지를 판단하고, 스피치 발화 시작 및/또는 종료 지점에 대한 정보, 예컨대, 타임 스탬프를 생성하여 이를 프레임 신호와 함께 출력할 수도 있다. The speech detector 130 determines whether the speech has been started or terminated by referring to the index value, and generates information on the start and / or end of the speech utterance such as a time stamp and outputs it together with the frame signal It is possible.

이와 같이, 발명의 실시 예에 의하면 음성 검출부(130)는 인덱스 값을 참조하여 노이즈 신호나 무음 신호라고 판단된 프레임 신호는 출력을 억제하고 음성 신호라고 판단된 프레임 신호만을 출력할 수 있다. As described above, according to the embodiment of the present invention, the voice detector 130 can suppress the output of a frame signal determined as a noise signal or a silent signal by referring to an index value, and output only a frame signal determined as a voice signal.

또한, 음성 검출부(130)는 인덱스 값에 따라 음성 발화 시작 및/또는 종료 지점을 판단하고 이에 대한 정보를 생성하여 출력할 수 있다. Also, the voice detector 130 may determine the start and / or end point of the voice utterance according to the index value, and may generate and output information about the voice utterance start / end point.

도 5는 발명의 일 실시 예에 따른 음성 활동 감지 방법을 도시한 순서도이다. 도 5를 참조하면, 음성 활동 감지 장치(100)는 프레임 신호로부터 특징 파라미터를 추출한다(단계 510). 음성 활동 감지 장치(100)는 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출할 수 있다.5 is a flowchart illustrating a voice activity sensing method according to an embodiment of the present invention. Referring to FIG. 5, the voice activity sensing apparatus 100 extracts a feature parameter from a frame signal (step 510). The voice activity sensing apparatus 100 may extract a short-time energy feature, a zero crossing rate, a spectral centroid, a spectral rolloff, One or more of spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC) can be extracted.

음성 활동 감지 장치(100)는 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단한다(단계 520).The voice activity sensing apparatus 100 compares the feature parameter with the model parameter of each of the plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal (step 520).

음성 활동 감지 장치(100)는 프레임 신호가 음성 신호라고 판단되는 경우, 프레임 신호를 출력하고(단계 530), 프레임 신호가 노이즈 신호이거나 무음 신호라고 판단되는 경우, 프레임 신호를 출력하지 않는다.If it is determined that the frame signal is a voice signal, the voice activity sensing apparatus 100 outputs a frame signal (step 530). If the frame signal is determined to be a noise signal or a silent signal, the voice activity sensing apparatus 100 does not output the frame signal.

도 6은 도 5의 단계 520의 일 실시 예를 도시한 순서도이다. 도 6을 참조하면, 음성 활동 감지 장치(100)는 노이즈 신호들 및 음성 신호의 특성을 모델링한 파라미터들과, 프레임 신호로부터 추출한 특징 파라미터를 일대일로 패턴 매칭한다. FIG. 6 is a flow chart illustrating one embodiment of step 520 of FIG. Referring to FIG. 6, the voice activity sensing apparatus 100 pattern-matched one-to-one patterns of parameters modeled with characteristics of noise signals and voice signals and feature parameters extracted from a frame signal.

음성 활동 감지 장치(100)는 노이즈 신호들 및 음성 신호의 특성을 모델링한 파라미터들과, 특징 파라미터와의 유사 정도를 각각 나타내는 라이클리후드 값을 구한다(단계 610). 음성 활동 감지 장치(100)는 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 음성 신호의 특성을 모델링한 파라미터와 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구한다.The voice activity sensing apparatus 100 obtains a Leaky's hood value that indicates the degree of similarity between the parameters that model the characteristics of the noise signals and the voice signal and the characteristic parameters (step 610). The voice activity sensing apparatus 100 includes likelihood values M1 to Mn indicating the degree of similarity between the first noise signal and the nth noise signal, And a Rikley hood value Mn + 1 indicating the degree of similarity between the modeled model parameter and the feature parameter.

음성 활동 감지 장치(100)는 라이클리후드 값을 이용하여 프레임 신호에 대한 레이블링 정보를 생성한다(단계 620).The voice activity sensing apparatus 100 generates labeling information for the frame signal using the Leaky's hood value (step 620).

음성 활동 감지 장치(100)는 라이클리후드 값들 중 가장 큰 값이 Mn+1인 경우, Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구한다. 음성 활동 감지 장치(100)는 비가 임계치보다 큰 경우 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 비가 상기 임계치보다 작거나 같은 경우 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성한다. When the largest value among the Leaky's hood values is Mn + 1, the voice activity sensing apparatus 100 measures the difference between the value of the difference between the value of Mn + 1 and the larger Leaky's hood value in order, And the ratio of the difference with the value of the large Richelieu hood. The voice activity sensing apparatus 100 generates the first voice signal display labeling information for the frame signal when the ratio is larger than the threshold value and generates the second voice signal display labeling information for the frame signal when the ratio is smaller than or equal to the threshold value .

음성 활동 감지 장치(100)는 라이클리후드 값들 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성한다. The voice activity sensing apparatus 100 generates the kth noise signal display labeling information for the frame signal when the largest value among the Leaky hood values is Mk (k is a natural number less than or equal to n).

음성 활동 감지 장치(100)는 레이블링 정보를 이용하여 프레임 신호에 대한 인덱스 값을 생성한다(단계 630). 음성 활동 감지 장치(100)는 레이블링 정보가 제1 음성 신호 표시 레이블링 정보인 경우 인덱스 값 1을 생성하고, 레이블링 정보가 제2 음성 신호 표시 레이블링 정보인 경우 인덱스 값 -2를 생성하고, 레이블링 정보가 제k 노이즈 신호 표시 레이블링 정보인 경우 인덱스 값 0을 생성한다. The voice activity sensing apparatus 100 generates an index value for the frame signal using the labeling information (step 630). The voice activity sensing apparatus 100 generates an index value 1 when the labeling information is the first voice signal display labeling information, generates the index value -2 when the labeling information is the second voice signal display labeling information, K < th > noise signal display labeling information, an index value of 0 is generated.

음성 활동 감지 장치(100)는 인덱스 값을 보정한다(단계 640). 음성 활동 감지 장치(100)는 인덱스 값들에 대해 소프트 디시젼, 스무딩 등을 수행하여 인덱스 값들을 보정한다.The voice activity sensing apparatus 100 corrects the index value (step 640). The voice activity sensing apparatus 100 performs soft decision, smoothing, and the like on the index values to correct the index values.

음성 활동 감지 장치(100)는 보정된 인덱스 값을 참조하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단한다(단계 650).The voice activity sensing apparatus 100 determines whether the frame signal is a speech signal or a noise signal by referring to the corrected index value (step 650).

이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다. The present invention has been described with reference to the preferred embodiments. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.

Claims (25)

음성 활동 감지 방법에 있어서,
프레임 신호로부터 특징 파라미터를 추출하는 단계; 및
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하는 단계;
상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하는 단계; 및
상기 복수의 차이 값들에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법.
A method for detecting a voice activity,
Extracting feature parameters from the frame signal; And
Determining whether the frame signal is a speech signal or a noise signal,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Obtaining a plurality of Ricci hood values indicating a degree of similarity between the feature parameter and model parameters of the plurality of comparison signals;
Obtaining a plurality of difference values between the plurality of Rikley hood values; And
And determining whether the frame signal is a speech signal or a noise signal based on the plurality of difference values.
제1 항에 있어서,
상기 특징 파라미터를 추출하는 단계는, 상기 프레임 신호의 에너지 값을 구하여 상기 프레임 신호의 에너지 값이 기준치보다 크거나 같은 경우에만 상기 프레임 신호로부터 상기 특징 파라미터를 추출하는 것을 특징으로 하는 음성 활동 감지 방법.
The method according to claim 1,
Wherein the extracting of the feature parameter comprises extracting the feature parameter from the frame signal only when the energy value of the frame signal is greater than or equal to a reference value.
제2 항에 있어서, 상기 에너지 값이 상기 기준치보다 작은 경우, 상기 프레임 신호가 무음 신호라고 판단하고, 상기 프레임 신호를 출력하지 않는 것을 특징으로 하는 음성 활동 감지 방법.The method according to claim 2, wherein when the energy value is smaller than the reference value, the frame signal is determined to be a silent signal and the frame signal is not output. 제1 항에 있어서, 상기 특징 파라미터를 추출하는 단계는 상기 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출하는 단계를 포함하는 음성 활동 감지 방법.2. The method of claim 1, wherein extracting the feature parameter comprises: extracting from the frame signal a short-time energy feature, a zero crossing rate, a spectral centroid, extracting at least one of spectral rolloff, spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC). . 제1 항에 있어서, 상기 복수의 비교 신호들은 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호, 및 음성 신호를 포함하고,
상기 복수의 라이클리후드 값들을 구하는 단계는 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 단계를 포함하는 음성 활동 감지 방법.
The apparatus as claimed in claim 1, wherein the plurality of comparison signals include a first noise signal to an nth (n is a natural number of 2 or more) noise signal, and a voice signal,
The obtaining of the plurality of Rician hood values may include calculating a likelihood value M1 to Mn representing the degree of similarity between the first noise signal to the n-th noise signal and the characteristic parameter, And obtaining a Leaky's hood value Mn + 1 indicating a similarity between the parameter modeled the characteristics of the speech signal and the feature parameter.
제5 항에 있어서, 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하는 단계 는 상기 M1부터 Mn+1 중 상기 Mn+1이 가장 큰 경우, 상기 Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 상기 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구하고, 상기 비가 임계치보다 큰 경우 상기 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 상기 비가 상기 임계치보다 작거나 같은 경우 상기 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성하는 단계를 포함하는 음성 활동 감지 방법.6. The method as claimed in claim 5, wherein the step of obtaining a plurality of difference values between the plurality of Ricci hood values comprises: when the Mn + 1 is the largest among M1 to Mn + 1, A ratio of a difference value between the first and second largest Rycry hood values to a difference value between the first Ricci hood value and the third Ricci hood value of the difference value of the first speech signal, And generating second speech signal display labeling information for the frame signal if the ratio is less than or equal to the threshold value. 제5 항에 있어서, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 M1부터 Mn+1 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 상기 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성하는 단계를 포함하는 음성 활동 감지 방법.The method as claimed in claim 5, wherein the step of determining whether the frame signal is a speech signal or a noise signal comprises the steps of: when the largest value among M1 to Mn + 1 is Mk (k is a natural number less than or equal to n) And generating kth noise signal indicating labeling information for the kth noise signal indicating labeling information. 제6항 또는 제7 항에 있어서, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 레이블링 정보를 이용하여 상기 프레임 신호가 노이즈 신호인지, 음성 신호인지, 또는 불확실 음성 신호인지를 표시하는 인덱스 값을 생성하는 단계를 포함하는 음성 활동 감지 방법.The method of claim 6 or 7, wherein the step of determining whether the frame signal is a voice signal or a noise signal includes displaying the frame signal as a noise signal, a voice signal, or an uncertain voice signal using the labeling information And generating an index value for the voice activity. 제8 항에 있어서, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 인덱스 값이 상기 프레임 신호가 불확실 음성 신호임을 표시하는 경우, 상기 프레임 신호의 이전 및 이후 프레임 신호 중 하나 이상에 대한 인덱스 값을 참조하여 상기 프레임 신호에 대한 인덱스 값을 보정하는 단계를 포함하는 음성 활동 감지 방법.The method as claimed in claim 8, wherein the step of determining whether the frame signal is a voice signal or a noise signal comprises the steps of: when the index value indicates that the frame signal is an uncertain voice signal, And correcting the index value for the frame signal by referring to the index value for the frame signal. 제9 항에 있어서, 상기 인덱스 값이 상기 프레임 신호가 음성 신호임을 표시하는 경우, 상기 프레임 신호를 출력하는 단계를 더 포함하는 음성 활동 감지 방법.10. The method according to claim 9, further comprising outputting the frame signal when the index value indicates that the frame signal is a voice signal. 제9 항에 있어서, 상기 프레임 신호가 음성 신호로 판단되면 상기 프레임 신호를 출력하는 단계를 더 포함하고,
상기 프레임 신호를 출력하는 단계는 상기 인덱스 값을 참조하여 음성의 시작점과 끝점을 검출하는 단계를 포함하는 음성 활동 감지 방법.
The method of claim 9, further comprising outputting the frame signal if the frame signal is determined to be a voice signal,
Wherein the step of outputting the frame signal comprises detecting a start point and an end point of a voice with reference to the index value.
음성 활동 감지 장치에 있어서,
프레임 신호로부터 특징 파라미터를 추출하고, 상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하고, 상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하고, 상기 복수의 차이 값들에 기초하여 상기 프레임 신호에 대한 레이블링 정보를 생성하는 클래시파이어 모듈; 및
상기 레이블링 정보를 참조하여 상기 프레임 신호가 노이즈 신호인지 음성 신호인지를 판단하는 음성 검출부를 포함하는 음성 활동 감지 장치.
A voice activity sensing device comprising:
Extracting feature parameters from the frame signal, obtaining a plurality of Ricci hood values indicating similarity between the feature parameters and model parameters of the plurality of comparison signals, obtaining a plurality of difference values between the plurality of Ricci hood values, A classifier module for generating labeling information for the frame signal based on a plurality of difference values; And
And a voice detector for referring to the labeling information and determining whether the frame signal is a noise signal or a voice signal.
제12 항에 있어서, 상기 프레임 신호의 에너지 값을 구하는 ESD(Energy based sound detector)를 더 포함하고, 상기 ESD는 상기 프레임 신호의 에너지 값이 기준치보다 크거나 같은 경우 상기 프레임 신호를 상기 클래시파이어 모듈 및 상기 음성 검출부로 전송하는 음성 활동 감지 장치.13. The apparatus of claim 12, further comprising an energy based sound detector (ESD) for obtaining an energy value of the frame signal, wherein the ESD is configured to, if the energy value of the frame signal is greater than or equal to a reference value, Module and the voice activity detection unit. 제13 항에 있어서, 상기 ESD는 상기 에너지 값이 상기 기준치보다 작은 경우, 상기 프레임 신호가 무음 신호임을 표시하는 정보를 생성하여 상기 음성 검출부로 전송하는 음성 활동 감지 장치.14. The voice activity detection apparatus of claim 13, wherein the ESD generates information indicating that the frame signal is a silent signal and transmits the information to the voice detection unit when the energy value is smaller than the reference value. 제12 항에 있어서, 상기 클래시파이어 모듈은 상기 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출하는 음성 활동 감지 장치.13. The method of claim 12, wherein the classifier module receives a short-time energy feature, a zero crossing rate, a spectral centroid, a spectral rolloff, and a mel-frequency cepstral coefficient (MFCC), the spectral flatness, and the mel-frequency cepstral coefficient (MFCC). 제12항에 있어서, 상기 복수의 비교 신호들은 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호, 및 음성 신호를 포함하고,
상기 클래시파이어 모듈은 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 음성 활동 감지 장치.
The apparatus as claimed in claim 12, wherein the plurality of comparison signals include a first noise signal to an nth (n is a natural number of 2 or more) noise signal, and a voice signal,
Wherein the classifier module calculates likelihood values M1 to Mn representing the similarity between the first noise signal to the nth noise signal and the characteristic parameter, And obtaining a Leaky's hood value Mn + 1 indicating a degree of similarity between the parameter modeled as the characteristic and the characteristic parameter.
제16 항에 있어서, 상기 클래시파이어 모듈은 상기 M1부터 Mn+1 중 상기 Mn+1이 가장 큰 경우, 상기 Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 상기 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구하고, 상기 비가 임계치보다 큰 경우 상기 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 상기 비가 상기 임계치보다 작거나 같은 경우 상기 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성하는 음성 활동 감지 장치.17. The semiconductor device according to claim 16, wherein the classifier module has a difference value of the difference between the value of Mn + 1 and the value of the Richeed hood larger in order of magnitude than Mn + 1, A ratio of a Ricci hood value to a difference value between a Ricci hood value and a third largest Ricci hood value is obtained, and when the ratio is greater than a threshold value, the first voice signal display labeling information is generated for the frame signal, And generates second audio signal display labeling information for the frame signal when the size of the audio signal is smaller than or equal to the first audio signal display labeling information. 제16 항에 있어서, 상기 클래시파이어 모듈은 상기 M1부터 Mn+1 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 상기 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성하는 음성 활동 감지 장치.17. The apparatus of claim 16, wherein the classifier module generates kth noise signal indicating labeling information for the frame signal when Mk (where k is a natural number less than or equal to n) Generating voice activity sensing device. 제17항 또는 제18 항에 있어서, 상기 음성 검출부는 상기 레이블링 정보를 이용하여 상기 프레임 신호가 노이즈 신호인지, 음성 신호인지, 또는 불확실 음성 신호인지를 표시하는 인덱스 값을 생성하는 음성 활동 감지 장치.The voice activity sensing apparatus according to claim 17 or 18, wherein the voice detecting unit generates an index value indicating whether the frame signal is a noise signal, a voice signal, or an uncertain voice signal using the labeling information. 제19 항에 있어서, 상기 음성 검출부는 상기 인덱스 값이 상기 프레임 신호가 불확실 음성 신호임을 표시하는 경우, 상기 프레임 신호의 이전 및 이후 프레임 신호 중 하나 이상에 대한 인덱스 값을 참조하여 상기 프레임 신호에 대한 인덱스 값을 보정하는 음성 활동 감지 장치.The apparatus of claim 19, wherein, when the index value indicates that the frame signal is an uncertain voice signal, the voice detector refers to an index value of at least one of previous and subsequent frame signals of the frame signal, A voice activity detection device that corrects the index value. 제20 항에 있어서, 상기 음성 검출부는 상기 인덱스 값이 상기 프레임 신호가 음성 신호임을 표시하는 경우, 상기 프레임 신호를 출력하는 음성 활동 감지 장치.21. The voice activity sensing apparatus of claim 20, wherein the voice detection unit outputs the frame signal when the index value indicates that the frame signal is a voice signal. 제20 항에 있어서, 상기 음성 검출부는 상기 인덱스 값을 참조하여 음성의 시작점과 끝점을 검출하는 음성 활동 감지 장치.21. The voice activity detection apparatus of claim 20, wherein the voice detection unit detects a start point and an end point of a voice by referring to the index value. 음성 활동 감지 방법에 있어서,
프레임 신호로부터 특징 파라미터를 추출하는 단계; 및
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하는 단계;
상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하는 단계; 및
상기 복수의 차이 값들에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록 매체.
A method for detecting a voice activity,
Extracting feature parameters from the frame signal; And
Determining whether the frame signal is a speech signal or a noise signal,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Obtaining a plurality of Ricci hood values indicating a degree of similarity between the feature parameter and model parameters of the plurality of comparison signals;
Obtaining a plurality of difference values between the plurality of Rikley hood values; And
And determining whether the frame signal is a speech signal or a noise signal based on the plurality of difference values. ≪ Desc / Clms Page number 20 >
제1항에 있어서,
상기 복수의 차이값들을 구하는 단계는,
상기 복수의 라이클리후드 값들 간의 복수의 차이 값들에 기초하여 비를 구하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 비를 임계 값과 비교하는 단계; 및
상기 비교 결과에 기초하여 레이블링 정보를 생성하는 단계를 포함하는 음성 활동 감지 방법.
The method according to claim 1,
Wherein the obtaining of the plurality of difference values comprises:
And obtaining a ratio based on a plurality of difference values between the plurality of Rikley hood values,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Comparing the ratio with a threshold value; And
And generating labeling information based on the comparison result.
제24항에 있어서, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 레이블링 정보에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법.
25. The method of claim 24, wherein determining whether the frame signal is a speech signal or a noise signal comprises:
And determining whether the frame signal is a speech signal or a noise signal based on the labeling information.
KR1020100098828A 2010-07-21 2010-10-11 Method and apparatus for voice activity detection KR101737083B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/099,891 US8762144B2 (en) 2010-07-21 2011-05-03 Method and apparatus for voice activity detection

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36627310P 2010-07-21 2010-07-21
US61/366,273 2010-07-21

Publications (2)

Publication Number Publication Date
KR20120010076A KR20120010076A (en) 2012-02-02
KR101737083B1 true KR101737083B1 (en) 2017-05-29

Family

ID=45834748

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100098828A KR101737083B1 (en) 2010-07-21 2010-10-11 Method and apparatus for voice activity detection

Country Status (1)

Country Link
KR (1) KR101737083B1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device

Also Published As

Publication number Publication date
KR20120010076A (en) 2012-02-02

Similar Documents

Publication Publication Date Title
US8762144B2 (en) Method and apparatus for voice activity detection
US11887582B2 (en) Training and testing utterance-based frameworks
US10269346B2 (en) Multiple speech locale-specific hotword classifiers for selection of a speech locale
US10923137B2 (en) Speech enhancement and audio event detection for an environment with non-stationary noise
US10074363B2 (en) Method and apparatus for keyword speech recognition
US7949523B2 (en) Apparatus, method, and computer program product for processing voice in speech
US20140156276A1 (en) Conversation system and a method for recognizing speech
JP6501259B2 (en) Speech processing apparatus and speech processing method
KR101616112B1 (en) Speaker separation system and method using voice feature vectors
CN110675866B (en) Method, apparatus and computer readable recording medium for improving at least one semantic unit set
CN106782508A (en) The cutting method of speech audio and the cutting device of speech audio
US11935523B2 (en) Detection of correctness of pronunciation
Këpuska Wake-up-word speech recognition
Reich et al. A real-time speech command detector for a smart control room
Hamidi et al. Emotion recognition from Persian speech with neural network
Hou et al. Domain adversarial training for improving keyword spotting performance of esl speech
KR101737083B1 (en) Method and apparatus for voice activity detection
CN110853669A (en) Audio identification method, device and equipment
KR20120046627A (en) Speaker adaptation method and apparatus
JP6786065B2 (en) Voice rating device, voice rating method, teacher change information production method, and program
JP5196114B2 (en) Speech recognition apparatus and program
Suo et al. Using SVM as back-end classifier for language identification
US9928832B2 (en) Method and apparatus for classifying lexical stress
WO2011030372A1 (en) Speech interaction device and program
KR20130043817A (en) Apparatus for language learning and method thereof

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant