KR101737083B1 - Method and apparatus for voice activity detection - Google Patents
Method and apparatus for voice activity detection Download PDFInfo
- Publication number
- KR101737083B1 KR101737083B1 KR1020100098828A KR20100098828A KR101737083B1 KR 101737083 B1 KR101737083 B1 KR 101737083B1 KR 1020100098828 A KR1020100098828 A KR 1020100098828A KR 20100098828 A KR20100098828 A KR 20100098828A KR 101737083 B1 KR101737083 B1 KR 101737083B1
- Authority
- KR
- South Korea
- Prior art keywords
- signal
- voice
- frame signal
- value
- frame
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Abstract
Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하고, 특징 파라미터를 복수의 비교 신호들의 모델 파라미터들과 각각 비교하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하고, 프레임 신호가 음성 신호라고 판단되는 경우 프레임 신호를 출력하는 음성 활동 감지 방법 및 장치가 개시된다.A method for detecting a voice activity performed in a Continuously Listening environment, the method comprising the steps of: extracting a feature parameter from a frame signal; comparing feature parameters with model parameters of a plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; A method and apparatus for detecting a voice activity for outputting a frame signal when a frame signal is determined to be a voice signal.
Description
본 발명은 음성 활동 감지 방법 및 장치에 대한 것으로, 보다 구체적으로 입력 신호를 다양한 종류의 노이즈 신호들에 대한 모델 파라미터들과 비교하여 입력 신호에서 노이즈 신호를 제거하는 방법 및 장치에 대한 것이다. The present invention relates to a method and apparatus for detecting voice activity, and more particularly, to a method and apparatus for removing noise signals from an input signal by comparing the input signal with model parameters for various kinds of noise signals.
음성 신호를 이용하여 각종 기계를 제어하는 음성 인식 기술이 발달하고 있다. 음성 인식 기술은 하드웨어 또는 소프트웨어 장치나 시스템이 음성 신호를 입력으로 하여 언어적 의미 내용을 인식하고 그에 따른 동작을 수행하는 기술을 말한다. Speech recognition technology for controlling various machines using speech signals is being developed. Speech recognition technology refers to a technique in which a hardware or software device or system recognizes the meaning of a linguistic meaning by inputting a voice signal and performs an operation according to the input.
본 발명은 다양한 종류의 노이즈 신호를 제거하는 음성 활동 감지 방법 및 장치를 제공하기 위한 것이다. SUMMARY OF THE INVENTION The present invention is directed to a method and apparatus for voice activity detection that removes various types of noise signals.
상기 과제를 해결하기 위해 발명의 일 측면에 따르면, Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계; 및 상기 프레임 신호가 음성 신호라고 판단되는 경우, 상기 프레임 신호를 출력하는 단계를 포함하는 음성 활동 감지 방법을 제공할 수 있다.According to an aspect of the present invention, there is provided a method for detecting a voice activity performed in a Continuously Listening environment, the method comprising: extracting a feature parameter from a frame signal; Comparing the feature parameter with a model parameter of each of the plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; And outputting the frame signal when it is determined that the frame signal is a voice signal.
바람직한 실시 예에서, 상기 방법은 상기 프레임 신호의 에너지 값을 구하는 단계를 더 포함하고, 상기 특징 파라미터를 추출하는 단계는 상기 프레임 신호의 에너지 값이 기준치보다 크거나 같은 경우 상기 프레임 신호로부터 상기 특징 파라미터를 추출하는 단계를 포함할 수 있다. In a preferred embodiment, the method further comprises the step of obtaining an energy value of the frame signal, wherein the step of extracting the feature parameter comprises: if the energy value of the frame signal is greater than or equal to a reference value, And extracting the extracted data.
또한, 상기 에너지 값이 상기 기준치보다 작은 경우, 상기 프레임 신호가 무음 신호라고 판단하고, 상기 프레임 신호를 출력하지 않는 단계를 더 포함할 수 있다. The method may further include determining that the frame signal is a silent signal and outputting the frame signal if the energy value is smaller than the reference value.
또한, 상기 특징 파라미터를 추출하는 단계는 상기 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출하는 단계를 포함할 수 있다.The extracting of the feature parameter may further include extracting a short-time energy feature, a zero crossing rate, a spectral centroid, a spectral rolloff, , Spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC). The method may further include extracting at least one of a spectral flux, spectral flux, spectral flatness, and Mel Frequency Cepstral Coefficient (MFCC).
또한, 상기 비교 신호들은 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호, 및 음성 신호를 포함하고, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 단계를 포함할 수 있다.The comparison signals may include a first noise signal, an n-th (n is a natural number of 2 or more) noise signal, and a voice signal, wherein the step of determining whether the frame signal is a voice signal or a noise signal includes: A likelihood value M1 to Mn indicating a degree of similarity between a parameter modeled on the characteristic of each of the n < th > noise signals and the characteristic parameter, and a parameter modeled on the characteristic of the voice signal, And obtaining a Reagan hood value Mn + 1 indicating a degree of similarity.
또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 M1부터 Mn+1 중 상기 Mn+1이 가장 큰 경우, 상기 Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 상기 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구하고, 상기 비가 임계치보다 큰 경우 상기 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 상기 비가 상기 임계치보다 작거나 같은 경우 상기 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성하는 단계를 포함할 수 있다. The step of determining whether the frame signal is a voice signal or a noise signal may comprise the step of determining a difference value between the Mn + 1 and the Ricci hood value, which is higher in order than the Mn + 1, And a ratio of a difference between the Ricci hood value and the third largest Ricci hood value in the subordinate order is calculated. When the ratio is greater than the threshold value, the first speech signal display labeling information is generated for the frame signal, And generating second audio signal display labeling information for the frame signal if the ratio is less than or equal to the threshold value.
또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 M1부터 Mn+1 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 상기 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal may include determining whether a frame signal is a speech signal or a noise signal, And generating signal marking labeling information.
또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 레이블링 정보를 이용하여 상기 프레임 신호가 노이즈 신호인지, 음성 신호인지, 또는 불확실 음성 신호인지를 표시하는 인덱스 값을 생성하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal includes generating an index value indicating whether the frame signal is a noise signal, a speech signal, or an uncertain speech signal using the labeling information .
또한, 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는 상기 인덱스 값이 상기 프레임 신호가 불확실 음성 신호임을 표시하는 경우, 상기 프레임 신호의 이전 및 이후 프레임 신호 중 하나 이상에 대한 인덱스 값을 참조하여 상기 프레임 신호에 대한 인덱스 값을 보정하는 단계를 포함할 수 있다.The step of determining whether the frame signal is a speech signal or a noise signal may further comprise the step of determining an index value of at least one of a previous frame signal and a subsequent frame signal of the frame signal when the index value indicates that the frame signal is an uncertain voice signal And correcting an index value of the frame signal with reference to the frame signal.
또한, 상기 프레임 신호를 출력하는 단계는 상기 인덱스 값이 상기 프레임 신호가 음성 신호임을 표시하는 경우, 상기 프레임 신호를 출력하는 단계를 포함할 수 있다.The step of outputting the frame signal may include outputting the frame signal when the index value indicates that the frame signal is a voice signal.
또한, 상기 프레임 신호를 출력하는 단계는 상기 인덱스 값을 참조하여 음성의 시작점과 끝점을 검출하는 단계를 포함할 수 있다.The step of outputting the frame signal may include detecting a start point and an end point of the speech by referring to the index value.
본 발명의 다른 측면에 따르면, Continuously Listening 환경에서 동작하는 음성 활동 감지 장치에 있어서, 프레임 신호로부터 특징 파라미터를 추출하고, 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호에 대한 레이블링 정보를 생성하는 클래시파이어 모듈; 및 상기 레이블링 정보를 참조하여 상기 프레임 신호가 노이즈 신호인지 음성 신호인지를 판단하고, 상기 프레임 신호가 음성 신호라고 판단되면 상기 프레임 신호를 출력하는 음성 검출부를 포함하는 음성 활동 감지 장치를 제공할 수 있다.According to another aspect of the present invention, there is provided a voice activity sensing apparatus operating in a Continuously Listening environment, the apparatus comprising: a feature extraction unit for extracting feature parameters from a frame signal and comparing the feature parameters with model parameters of each of a plurality of comparison signals, A classifier module for generating labeling information about the labeling information; And a voice detection unit for determining whether the frame signal is a noise signal or a voice signal by referring to the labeling information and outputting the frame signal if the frame signal is determined to be a voice signal, .
본 발명의 또 다른 측면에 따르면, Continuously Listening 환경에서 수행되는 음성 활동 감지 방법에 있어서, 프레임 신호로부터 특징 파라미터를 추출하는 단계; 상기 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계; 및 상기 프레임 신호가 음성 신호라고 판단되는 경우, 상기 프레임 신호를 출력하는 단계를 포함하는 음성 활동 감지 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록 매체를 제공할 수 있다.According to another aspect of the present invention, there is provided a method of detecting a voice activity performed in a Continuously Listening environment, the method comprising: extracting a feature parameter from a frame signal; Comparing the feature parameter with a model parameter of each of the plurality of comparison signals to determine whether the frame signal is a speech signal or a noise signal; And outputting the frame signal when the frame signal is judged to be a voice signal. The computer readable recording medium stores the program for executing the voice activity sensing method.
이와 같이 발명의 실시 예에 따르면, 입력 신호에서 다양한 종류의 노이즈 신호를 제거하여 음성 신호만이 출력되도록 할 수 있다. As described above, according to the embodiment of the present invention, various types of noise signals can be removed from the input signal, and only the voice signal can be output.
도 1은 발명의 일 실시 예에 따른 음성 활동 감지 장치(100)의 블록도이다.
도 2는 도 1의 윈도윙부(110)의 내부 블록도이다.
도 3은 클래시파이어 모듈(120)의 내부 블록도이다.
도 4는 발명의 실시 예에 따라, 음성 검출부(130)가 프레임 신호에 대한 인덱스 값을 생성 및 보정하는 것을 설명하기 위한 도면이다.
도 5는 발명의 일 실시 예에 따른 음성 활동 감지 방법을 도시한 순서도이다.
도 6은 도 5의 단계 520의 일 실시 예를 도시한 순서도이다.1 is a block diagram of a voice activity sensing
2 is an internal block diagram of the
3 is an internal block diagram of the
4 is a diagram for explaining how the
5 is a flowchart illustrating a voice activity sensing method according to an embodiment of the present invention.
FIG. 6 is a flow chart illustrating one embodiment of
음성 인식 시스템에서, 사용자는 키보드, 마우스, 터치 패드, 터치스크린 또는 마이크로폰과 같은 물리적 유저 인터페이스를 이용하여 음성 인식 시스템을 활성화한 후, 원하는 명령어를 음성 신호로 입력한다. 음성 인식 시스템은 유저 인터페이스를 통한 사용자로부터의 활성화 명령에 따라 활성화되어 그때부터 입력되는 신호를 감시한다. 음성 인식 시스템은 입력되는 신호 중 사람의 음성 신호를 인식하고 그에 따라 동작하게 된다.In a speech recognition system, a user activates a speech recognition system using a physical user interface such as a keyboard, a mouse, a touch pad, a touch screen, or a microphone, and inputs a desired command as a speech signal. The speech recognition system is activated according to an activation command from the user through the user interface and monitors the input signal from then on. The speech recognition system recognizes a human voice signal among input signals and operates accordingly.
그러나 음성 인식 시스템과 사용자와의 거리가 일정 거리 이상인 경우 등과 같이 사용자가 물리적 유저 인터페이스를 이용하여 음성 인식 시스템을 활성화하지 못하는 경우가 있을 수 있다.However, there are cases where the user can not activate the voice recognition system using the physical user interface, such as when the distance between the voice recognition system and the user is a certain distance or more.
본 발명에서는 이와 같은 환경을 고려해, 사용자가 물리적인 인터페이스를 조작하는 대신 음성 신호를 이용하여 음성 인식 시스템을 활성화하는 방법 및 그러한 방법을 수행하는 장치에 대해 살펴보기로 한다. In the present invention, a method of activating a voice recognition system by using a voice signal instead of a user operating a physical interface, and a device performing such a method will be described in consideration of such circumstances.
편의상, 본 발명에서는 물리적 유저 인터페이스 조작 없이 음성으로 음성 인식 시스템을 자동으로 동작시키는 환경을 Continuously Listening 환경이라 부르기로 한다. Continuously Listening 환경에서는 음성 발화의 시작과 종료 시점을 예측할 수 없기 때문에 음성 인식 시스템이 계속해서 입력되는 신호를 감시해야 한다. 따라서 음성이 아닌 다양한 종류의 노이즈로 인해 음성 인식 시스템이 활성화되거나 오동작을 일으킬 수 있다. 따라서 입력 신호가 음성 신호인지 노이즈 신호인지를 판단하는 것이 무엇보다 중요하다. For convenience, in the present invention, an environment in which a voice recognition system automatically operates without a physical user interface operation is called a Continuously Listening environment. In the Continuously Listening environment, since the start and end points of the speech utterance can not be predicted, the speech recognition system must continuously monitor the input signals. Therefore, various kinds of noise other than voice may cause the voice recognition system to be activated or malfunction. Therefore, it is important to determine whether the input signal is a voice signal or a noise signal.
Continuously Listening 환경에서 동작하는 음성 인식 시스템은 음성 활동 감지 (VAD, Voice activity detection) 장치 및 음성 인식기를 포함할 수 있다. A speech recognition system operating in a Continuously Listening environment may include a voice activity detection (VAD) device and a speech recognizer.
VAD 장치는 음성 인식기 앞에 위치하여 음성 인식의 전처리를 수행한다. VAD 장치는 입력 신호에서 음성 활동 구간을 검출하고, 검출된 음성 신호를 음성 인식기로 보낸다. VAD 장치는 음성 신호만이 음성 인식기로 입력 되도록 함으로써 음성 신호가 아닌 노이즈 신호에 의해 음성 인식기가 오작동하는 것을 막는다. The VAD device is located in front of the speech recognizer and performs preprocessing of speech recognition. The VAD device detects a voice activity interval in the input signal and sends the detected voice signal to the voice recognizer. The VAD device allows only the voice signal to be input to the voice recognizer, thereby preventing the voice recognizer from malfunctioning due to the noise signal, not the voice signal.
음성 인식기는 VAD 장치로부터 음성 신호를 받고, 이를 분석하여 음성 신호에 따른 각종 동작을 수행한다. The voice recognizer receives a voice signal from the VAD device, analyzes it, and performs various operations according to the voice signal.
음성 인식 시스템은 음성 인식기 앞에 오토 활성화기(Auto Activation module)를 더 포함할 수도 있다. 오토 활성화기는 신호로부터 특징 파라미터를 추출하고, 추출된 특징 파라미터를 기 등록되어 있는 화자 개개인의 음성 파라미터나 특정 키워드와 비교한다. 오토 활성화기는 추출된 특징 파라미터가 기 등록된 음성 파라미터나 특정 키워드와 매칭되는 경우 활성화되어 신호를 음성 인식기로 전달한다. The speech recognition system may further include an auto activation module in front of the speech recognizer. The auto activator extracts feature parameters from the signal, and compares the extracted feature parameters with the speech parameters or specific keywords of the individual speakers that have been registered. The auto activator is activated when the extracted feature parameter matches the previously registered voice parameter or a specific keyword and delivers the signal to the voice recognizer.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예들을 상세히 설명하기로 한다. Hereinafter, preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings.
도 1은 발명의 일 실시 예에 따른 음성 활동 감지 장치(100)의 블록도이다. 1 is a block diagram of a voice activity sensing
도 1의 음성 활동 감지 장치(100)는 Enhanced VAD장치의 일종으로, 입력 신호에서 음성 활동 구간을 검출하는 기능을 수행한다. 음성 활동 감지 장치(100)는 음성 인식기(미도시) 앞에 위치하여 입력 신호로부터 음성 구간을 검출하고, 검출된 음성 신호만을 음성 인식기로 전달할 수 있다. The voice
음성 활동 감지 장치(100)와 음성 인식기 사이에 오토 활성화기(미도시)가 위치한 경우, 음성 활동 감지 장치(100)는 입력 신호로부터 음성 구간을 검출한 후 검출된 음성 신호를 오토 활성화기로 보내고, 오토 활성화기는 음성 활동 감지 장치(100)로부터 입력된 신호를 이용하여 화자/키워드 인식 등을 수행한 후, 화자/키워드가 인식된 신호만을 음성 인식기로 전달할 수도 있다.When the auto-activator (not shown) is located between the voice
또는 음성 활동 감지 장치(100)는 오토 활성화기와 음성 인식기 사이에 위치할 수도 있다. 이 경우 음성 활동 감지 장치(100)는 오토 활성화기로부터 화자 또는 키워드가 인식된 신호를 받고, 이 신호에 노이즈 신호가 포함되어 있는지를 판단하여 노이즈 신호를 제거하는 기능을 수행할 수 있다. 음성 활동 감지 장치(100)는 오토 활성화기로부터 받은 신호에서 음성 신호만을 검출하여 이를 음성 인식기로 보냄으로써, 음성 신호가 아닌 노이즈 신호에 의해 음성 인식기가 활성화되는 것을 막을 수 있다.Or the voice
발명의 실시 예에서, 음성 활동 감지 장치(100)는 윈도윙(windowing)부(110), 클래시파이어 모듈(classifier module) (120) 및 음성 검출부(130)를 포함한다. The voice
윈도윙부(110)는 입력 신호(IN1)를 소정 프레임 단위로 나눈다. 발명의 실시 예에서, 소정 프레임 단위는 130ms 단위일 수 있다. 윈도윙부(110)는 프레임 단위로 입력 신호를 나누어 프레임 신호를 생성하고, 프레임 신호를 클래시파이어 모듈 (120) 및 음성 검출부(130)로 각각 전송한다.The
발명의 실시 예에서, 윈도윙부(110)는 프레임 신호의 에너지를 구하고, 프레임 신호의 에너지 크기가 일정 기준치 이상인 경우에만, 프레임 신호를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송할 수 있다. The
클래시파이어 모듈(120)은 윈도윙부(110)로부터 프레임 신호를 받고, 프레임 신호로부터 특징을 추출한다. 클래시파이어 모듈(120)은 입력 신호로부터 다양한 지각적 특성(perceptual feature) 및/또는 MFCC (Mel-Frequency Cepstral Coefficients)등을 추출할 수 있다. The
클래시파이어 모듈(120)은 다양한 종류의 비교 신호들에 대한 모델 파라미터들을 이용하여, 프레임 신호가 비교 신호들 중 어느 신호와 가장 가까운지를 판단한다. 이를 위해 클래시파이어 모듈(120)은 다양한 종류의 비교 신호들에 대한 데이터 베이스를 이용하여 각 노이즈 신호들의 모델 파라미터들을 학습한다. The
발명의 실시 예에서, 비교 신호는 다양한 종류의 노이즈 신호들을 포함할 수 있다. 다양한 종류의 노이즈 신호들은 전 주파수 대역에 걸쳐 분포하는 백색 잡음이나 배블(babble) 잡음이거나, 또는 특정 구간에 일시적으로 존재하는 돌발 잡음들이 될 수 있다. In an embodiment of the invention, the comparison signal may comprise various kinds of noise signals. Various kinds of noise signals may be white noise or babble noise distributed over the whole frequency band, or sudden noise temporarily present in a certain section.
입력 신호가 음성 신호인지를 보다 정확히 판단하기 위해, 발명의 실시 예에서 비교 신호는 노이즈 신호 외에 음성 신호를 더 포함할 수도 있다.In order to more accurately determine whether the input signal is a speech signal, the comparison signal may further include a speech signal in addition to the noise signal.
클래시파이어 모듈(120)은 Gaussian Mixture Model(GMM), Support Vector Machine(SVM), Hidden Markov Model(HMM) 등 다양한 패턴 분류 기술을 이용할 수 있다.The
클래시파이어 모듈(120)은 프레임 신호로부터 추출한 특징을 기 학습된 각종 비교 신호들의 모델 파라미터들과 패턴 매칭하여, 프레임 신호가 비교 신호들 중 어느 신호와 가장 가까운지를 판단하고 이를 표시하는 레이블링 정보를 생성한다. 클래시파이어 모듈(120)은 레이블링 정보를 음성 검출부(130)로 보낸다. The
음성 검출부(130)는 윈도윙부(110)로부터 실시간으로 프레임 신호를 입력 받고, 클래시파이어 모듈(120)로부터 프레임 신호에 대한 레이블링 정보를 입력 받는다. 음성 검출부(130)는 레이블링 정보를 참조하여 프레임 신호가 노이즈 신호인지, 음성 신호인지 또는 불확실한 음성 신호인지를 표시하는 인덱스 값을 생성한다. The
발명의 실시 예에서, 음성 검출부(130)는 현재 프레임 이전 및 이후 프레임들 중 하나 이상을 이용하여 현재 프레임에 대한 인덱스 값을 보정할 수 있다. In an embodiment of the invention, the
음성 검출부(130)는 인덱스 값이 프레임 신호가 음성 신호임을 표시하는 경우 프레임 신호를 출력 신호(OUT1)로 출력하고, 인덱스 값이 현재 프레임 신호가 음성 신호가 아니라고 표시하는 경우 프레임 신호를 출력하지 않는다.The
이와 같이, 발명의 실시 예에 의하면, 입력 신호로부터 특징을 추출하고, 이 특징을 비교 신호들의 특징 파라미터들과 비교하여 입력 신호가 어느 비교 신호와 가장 가까운지를 판단할 수 있다. Thus, according to an embodiment of the invention, it is possible to extract features from an input signal and compare this feature with the feature parameters of the comparison signals to determine which comparison signal is closest to the input signal.
또한, 발명의 실시 예에 의하면, 입력 신호가 음성 신호라고 판단되는 경우에만 그 신호를 음성 인식기 또는 오토 활성화기로 출력함으로써, Continuously Listening 환경에서 음성 인식기가 노이즈 신호에 의해 오동작하는 것을 막을 수 있다. Further, according to the embodiment of the present invention, only when the input signal is determined as a voice signal, the signal is output to the voice recognizer or auto activator, thereby preventing malfunction of the voice recognizer due to the noise signal in the Continuously Listening environment.
도 2는 도 1의 윈도윙부(110)의 내부 블록도이다. 도 2를 참조하면, 윈도윙부(110)는 신호 분리부(210) 및 ESD(Energy-based sound detector) (220)를 포함할 수 있다. 2 is an internal block diagram of the
신호 분리부(210)는 입력 신호(IN1)를 소정 프레임 단위의 신호로 분리하여 프레임 신호를 생성한다. 신호 분리부(210)는 프레임 신호를 ESD(220)로 보낸다. The
ESD(220)는 프레임 신호의 에너지 값을 기준치와 비교한다. 예컨대, i 번째 프레임 신호를 X(t)라고 할 때, ESD(220)는 ?Xi(t)^2?를 구하고, ?Xi(t)^2? 값이 기 설정된 기준치를 넘는지를 판단한다. ESD(220)는 ?Xi(t)^2?이 기 설정된 기준치보다 크거나 같은 경우, 프레임 신호 Xi(t)를 출력 신호(OUT 2)로 클래시파이어 모듈(120) 및 음성 검출부(130)로 각각 전송한다.The
?Xi(t)^2?이 기 설정된 기준치보다 작은 경우, 그 프레임 신호는 무음(silence)일 가능성이 높으므로, ESD(220)는 프레임 신호 Xi(t)를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송하는 대신, Xi(t)가 무음 신호라는 것을 표기하는 정보를 생성하고 생성된 정보만을 음성 검출부(130)로 전송할 수 있다.Since
이와 같이, 발명의 실시 예에 의하면, 프레임 신호의 에너지 값이 기준치 이상인 경우에만 그 프레임 신호를 처리함으로써 무음으로 판단된 프레임에 대한 신호 처리를 생략할 수 있다. As described above, according to the embodiment of the invention, only when the energy value of the frame signal is equal to or higher than the reference value, the signal processing for the frame determined as silent can be omitted by processing the frame signal.
도 3은 클래시파이어 모듈(120)의 내부 블록도이다. 클래시파이어 모듈(120)은 특징 추출부(310), 비교 신호 데이터베이스(320), 및 패턴 매칭부(330)를 포함한다. 3 is an internal block diagram of the
도 3에는 비교 신호 데이터베이스(320)가 클래시파이어 모듈(120) 내부에 포함되어 있는 것으로 도시되어 있으나, 발명이 이에 한정되는 것은 아니며, 비교 신호 데이터베이스(320)는 클래시파이어 모듈(120)과 별개로 클래시파이어 모듈(120) 외부에 위치할 수도 있다. 이 경우 비교 신호 데이터베이스(320)는 클래시파이어 모듈(120)과 유선 또는 무선 통신망을 통해 연결되어 있을 수 있다.3, the
특징 추출부(310)는 윈도윙부(110)로부터 프레임 신호를 입력 신호(IN2)로 받고, 입력 신호로부터 특징 파라미터를 추출한다. The
특징 추출부(310)는 프레임 신호로부터 다양한 지각적 특징들(perceptual features)을 나타내는 특징 파라미터들을 추출할 수 있다. 다양한 지각적 특징 파라미터들은, 신호를 주파수 영역으로 표현하였을 때 주파수 성분들의 중심 값을 나타내는 스펙트럴 센트로이드(Spectral Centroid), 주파수 성분들의 85%를 포함하는 주파수 범위를 나타내는 스펙트럴 롤오프(Spectral Rolloff), 에너지가 주파수 대역에 얼마나 퍼져 있는지를 나타내는 스펙트럴 플랫니스(spectral flatness), 현재 프레임과 현재 프레임의 앞 또는 뒤로 인접한 프레임의 주파수 성분 간 차이를 나타내는 스펙트럴 플럭스(Spectral Flux) 중 하나 이상을 포함할 수 있다. The
또는, 지각적 특징 파라미터들은, 소정 시간 동안의 신호의 에너지 크기, 시간 도메인 상에서 신호의 값이 양수와 음수로 교차되는 정도를 나타내는 제로 크로싱 레이트(Zero Crossing Rate) 중 하나 이상을 포함할 수 있다. Alternatively, perceptual feature parameters may include one or more of an energy magnitude of a signal for a predetermined time, and a zero crossing rate, which indicates the degree to which the value of the signal crosses in a positive and negative number on the time domain.
또는, 특징 추출부(310)는 입력 신호로부터 멜프리컨시 캡스트럴 계수(Mel-Frequency Cepstral Coefficients)를 특징 파라미터로 추출할 수도 있다. 멜프리컨시 캡스트럴 계수는 FFT에 기초하여 인간의 청각 특성을 나타내는 특징 벡터이다. Alternatively, the
특징 추출부(310)는 프레임 신호로부터 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 특징 파라미터로 추출하고, 추출한 특징 파라미터들을 패턴 매칭부(330)로 보낸다. The
비교 신호 데이터베이스(320)는 복수의 비교 신호들에 대한 모델 파라미터들을 분류하여 저장한다. The
복수의 비교 신호들은 복수의 노이즈 신호 및 음성 신호를 포함할 수 있다. 노이즈 신호는 특정 구간에 일시적으로 존재하는 돌발성 잡음을 포함할 수 있다. 돌발성 잡음은 예컨대, 문 소리, 책상 소리, 의자 소리, 키보드 조작 소리, 벨이나 진동 소리, 기침소리, 음악 소리 등이 있을 수 있다. The plurality of comparison signals may include a plurality of noise signals and voice signals. The noise signal may include a sudden noise temporarily present in a certain section. The sudden noise may include, for example, a door sound, a desk sound, a chair sound, a keyboard operation sound, a bell or vibration sound, a cough sound, and a music sound.
노이즈 신호는 돌발 잡음 외에도 전 주파수 대역에 걸쳐 분포하는 백색 잡음이나 배블 잡음 등을 포함할 수 있다. The noise signal may include white noise or bubble noise distributed over the entire frequency band in addition to the sudden noise.
비교 신호 데이터베이스(320)는 Gaussian Mixture Model(GMM), Support Vector Machine(SVM), Hidden Markov Model(HMM) 등과 같은 다양한 패턴 클래시피케이션 기술을 이용하여 복수의 비교 신호들에 대한 패턴을 모델링할 수 있다. The
패턴 매칭부(330)는 비교 신호 데이터베이스(320)로부터 비교 신호 각각의 모델 파라미터들을 받고, 이를 프레임 신호의 특징 파라미터와 비교하여 프레임 신호가 어느 비교 신호와 유사한지를 판단한다. The
보다 구체적으로, 패턴 매칭부(330)는 프레임 신호와 복수의 비교 신호들 간의 유사 정도를 구하기 위해 최대 우도(Maximum Likelihood) 검출을 수행할 수 있다. 패턴 매칭부(330)는 프레임 신호의 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터들과 비교하여 패턴 매칭을 수행하고 유사 정도를 나타내는 라이클리후드 값(likelihood value)들의 집합을 구한다. More specifically, the
발명의 실시 예에서, 비교 신호 데이터베이스(320)에는 n(n은 2 이상의 자연수)개의 노이즈 신호, 및 하나의 음성 신호 각각의 패턴이 저장되어 있다고 가정한다. In the embodiment of the present invention, it is assumed that the
패턴 매칭부(330)는 제1 노이즈 신호부터 제n (n은 2 이상의 자연수) 노이즈 신호 각각의 특성을 모델링한 파라미터와, 특징 추출부(310)로부터 받은 프레임 신호의 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 M1부터 Mn을 구하고, 음성 신호의 특성을 모델링한 파라미터와 프레임 신호의 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구한다. The
패턴 매칭부(330)는 라이클리후드 값을 이용하여 프레임 신호가 어떤 종류의 신호인지를 표시하는 레이블링 정보를 생성한다. 이를 위해 패턴 매칭부(330)는 M1부터 Mn+1 중 가장 큰 값을 구한다. M1부터 Mn+1 중 가장 큰 값이 Mn+1인 경우, 즉, 프레임 신호의 특징 파라미터가 음성 신호의 모델 파라미터와 가장 유사한 경우, 패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값 및 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값을 각각 구한다. The
패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값의, 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값의 비를 구하고, 비가 임계치보다 큰지를 판단한다. 패턴 매칭부(330)는 비가 임계치보다 큰 경우 프레임 신호가 음성 신호라는 것을 표시하는 제1 음성 신호 표시 레이블링 정보를 생성한다. The
패턴 매칭부(330)는 Mn+1과 차 순위로 큰 라이클리후드 값과의 차이 값의, 차 순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값의 비가 임계치보다 작거나 같은 경우 프레임 신호가 음성 신호인지, 또는 노이즈 신호인지가 확실하지 않다는 것을 표시하기 위해, 제2 음성 신호 표시 레이블링 정보를 생성한다. The
패턴 매칭부(330)는 M1부터 Mn+1 중 가장 큰 값이 Mn+1이 아닌 Mk(k는 n보다 작거나 같은 자연수)인 경우, 프레임 신호가 k번째 노이즈 신호임을 표시하는 제 k 노이즈 신호 표시 레이블링 정보를 생성한다. The
패턴 매칭부(330)는 각각의 프레임 신호에 대해, 제1 음성 신호 표시 레이블링 정보, 제2 음성 신호 표시 레이블링 정보 및 제 k 노이즈 신호 표시 레이블링 정보 중 하나를 생성하고 이를 출력 신호(OUT3)로 하여 음성 검출부(130)로 보낸다. The
이와 같이, 발명의 실시 예에 의하면, 프레임 신호의 특징 파라미터와 다양한 종류의 비교 신호들 각각의 모델 파라미터들을 비교함으로써 프레임 신호가 어느 비교 신호와 가장 유사한지를 판단하고 그에 따라 레이블링 정보를 생성할 수 있다.As described above, according to the embodiment of the present invention, by comparing the feature parameters of the frame signal and the model parameters of the various types of comparison signals, it is possible to determine which of the comparison signals the frame signal most resembles, and generate labeling information accordingly .
도 4는 발명의 실시 예에 따라, 음성 검출부(130)가 프레임 신호에 대한 인덱스 값을 생성 및 보정하는 것을 설명하기 위한 도면이다. 4 is a diagram for explaining how the
도 4의 (a)는 입력 신호의 파형을 시간 축 상에서 도시한 도면이다. 도 4의 (a)에서 최 좌측에 있는 파형은 노이즈 신호이고, 노이즈 신호 뒤로 그려진 파형은 음성 신호를 나타낸다. 4 (a) is a diagram showing the waveform of the input signal on the time axis. The waveform at the leftmost side in FIG. 4 (a) is a noise signal, and the waveform drawn after the noise signal represents a voice signal.
윈도윙부(110)는 도 4의 (a)의 입력 신호를 소정 프레임 단위, 예컨대 130ms 단위로 나누고, 제일 좌측에 있는 프레임 단위 신호부터 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송한다. The
발명의 실시 예에서, 윈도윙부(110)는 프레임 신호의 에너지 값을 구하고, 프레임 신호의 에너지 값이 기준치 이상인 경우에만 프레임 신호를 클래시파이어 모듈(120) 및 음성 검출부(130)로 전송할 수도 있다. The
발명의 실시 예에서, 음성 검출부(130)에는 도 4의 (b)에 도시한 바와 같은 신호 버퍼 및 도 4의 (c)에 도시된 바와 같은 인덱스 버퍼가 포함되어 있다. 인덱스 버퍼와 신호 버퍼는 동일한 칸수를 가지고 있다. 신호 버퍼에는 윈도윙부(110)로부터 받은 프레임 신호가 버퍼의 왼쪽, 즉, 1번 칸부터 채워지고, 130ms 시간 단위마다 프레임 신호가 한 칸씩 오른쪽으로 이동한다. 인덱스 버퍼에는 프레임 신호에 대한 인덱스 값이 그 프레임 신호가 채워진 신호 버퍼의 칸에 대응하는 칸에 채워진다.In the embodiment of the invention, the
음성 검출부(130)는 클래시파이어 모듈(120)로부터 레이블링 정보를 받고, 레이블링 정보에 대응하는 인덱스 값을 생성하여 이를 인덱스 버퍼에 저장한다. The
편의상 한 예로, 프레임 신호가 음성 신호임을 표시하는 인덱스 값을 1, 프레임 신호가 노이즈 신호이거나 또는 무음임을 표시하는 인덱스 값을 0, 프레임 신호가 음성 신호인지 노이즈 신호인지가 확실하지 않다는 것을 표시하는 인덱스 값, 즉, 불확실한 음성 신호를 표시하는 인덱스 값을 -2로 정하기로 한다.For example, an index indicating that the frame signal is a voice signal is 1, an index value indicating that the frame signal is a noise signal or silence is 0, an index indicating that the frame signal is a voice signal or a noise signal Value, that is, an index value indicating an uncertain voice signal is set to -2.
음성 검출부(130)는 레이블링 정보가 제1 음성 신호 표시 레이블링 정보인 경우, 프레임 신호가 음성 신호임을 표시하는 인덱스 값 1을 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. When the labeling information is the first voice signal display labeling information, the
음성 검출부(130)는 레이블링 정보가 제2 음성 신호 표시 레이블링 정보인 경우, 프레임 신호가 음성 신호인지 노이즈 신호인지 확실하지 않다는 것을 표시하는 인덱스 값 -2를 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. When the labeling information is the second voice signal display labeling information, the
마찬가지로, 음성 검출부(130)는 레이블링 정보가 제k 노이즈 신호 표시 레이블링 정보인 경우, 프레임 신호가 노이즈 신호임을 표시하는 인덱스 값 0을 그 프레임 신호가 저장된 신호 버퍼 칸에 대응하는 인덱스 버퍼 칸에 저장한다. Similarly, when the labeling information is the kth noise signal display labeling information, the
발명의 실시 예에서, 프레임 신호의 에너지 크기가 기준치보다 작아 윈도윙부(110)가 음성 검출부(130)에 프레임 신호 대신 프레임 신호가 무음 신호라는 정보만을 전송한 경우, 음성 검출부(130)는 입력되지 않은 프레임이 채워져야 할 신호 버퍼 한 칸을 비워두고, 신호 버퍼에 대응하는 인덱스 버퍼의 칸에 프레임 신호가 무음임을 표시하는 인덱스 값 0을 채울 수 있다. In an embodiment of the present invention, when the energy level of the frame signal is smaller than the reference value, and the
음성 검출부(130)는 레이블링 정보를 이용하여 인덱스 값을 생성한 후, 인접 프레임 신호의 인덱스 값을 참조하여 인덱스 버퍼에 저장된 인덱스 값을 여러 단계에 걸쳐 보정할 수 있다. The
우선, 음성 검출부(130)는 인덱스 값이 -2인 프레임 신호, 즉, 프레임 신호가 음성 신호인지 노이즈 신호인지 확실하지 않은 프레임 신호에 대해 소프트 디시젼(soft decesion)을 수행하여 프레임 신호가 음성 신호인지 여부를 한번 더 판단하고 그에 따라 인덱스 값을 보정할 수 있다. First, the
예컨대, 음성 신호가 무성음인 경우, 무성음은 신호의 에너지가 작아서 패턴 매칭부(330)가 무성음에 해당하는 프레임 신호를 음성 신호가 아닌 노이즈 신호로 판단하는 경우가 있을 수 있다. 음성 검출부(130)는 이러한 오류를 막기 위해 소프트 디시젼을 수행해 인덱스 값을 보정한다.For example, if the voice signal is unvoiced, the unvoiced sound may have a small signal energy, so that the
일 예로, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 1, -2인 경우, 음성 검출부(130)는 단어의 첫 음절에 해당하는 프레임 신호가 무성음이라고 판단하고, 1, 1, -2를 1, 1, 1로 보정할 수 있다. For example, if the index values stored in the index buffer are 1, 1, and -2 in the order of the first to third columns of the index buffer, the
다른 예로, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 -2, 1, 1인 경우, 음성 검출부(130)는 단어의 끝 음절에 해당하는 프레임 신호가 무성음이라고 판단하고, -2, 1, 1을 1, 1, 1로 보정할 수 있다.As another example, when the index values stored in the index buffer are -2, 1, and 1 in the order of the first to third columns of the index buffer, the
사람이 발성을 하면 에너지가 높은 구간과 낮은 구간이 교대로 생기므로, 음성 신호라고 판단된 프레임 신호 사이에 음성 신호인지 노이즈 신호인지가 확실하지 않은 신호가 있는 경우, 음성 검출부(130)는 그 프레임 신호를 음성 신호라고 판단할 수 있다. 즉, 인덱스 버퍼의 1번 칸부터 4번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, -2, -2, 1인 경우, 음성 검출부(130)는 음성 신호 사이에 포함된 프레임 신호 또한 음성 신호라고 판단하고 1, -2, -2, 1을 1, 1, 1, 1로 보정할 수 있다.When a person speaks, a high-energy section and a low-section alternate with each other. Therefore, when there is a signal that is not sure whether a voice signal or a noise signal exists between frame signals determined to be a voice signal, It can be determined that the signal is a voice signal. That is, when the index values stored in the index buffer are 1, -2, -2, 1 in the order of the first to fourth columns of the index buffer, the
음성 검출부(130)는 소프트 디시젼을 수행하여 인덱스 값을 보정한 후, 스무딩(smoothing)을 수행하여 인덱스 값을 재 보정할 수 있다. The
음성 신호는 갑자기 변하는 게 아니므로 음성 신호 사이에 노이즈 신호나 무음 신호가 포함될 확률이 극히 낮다는 점에 착안하여 음성 검출부(130)는 스무딩을 수행하여1의 값을 갖는 인덱스 값들 사이에 1이 아닌 다른 인덱스 값이 있는 경우, 가운데 있는 다른 인덱스 값을 1로 보정할 수 있다. 예컨대, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 0, 1인 경우, 음성 검출부(130)는 음성 신호라고 판단된 프레임들 가운데 있는 프레임 신호 또한 음성 신호라고 판단하고 1, 0, 1을 1, 1, 1로 보정할 수 있다.Since the voice signal is not suddenly changed, the
음성 검출부(130)는 소정 개수만큼의 인덱스 값들을 이용하여 스피치가 시작된 구간인지 또는 스피치가 종료되는 구간인지를 판단할 수 있다. The
예컨대, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 1, 1, 0인 경우, 즉, 무음 뒤에 음성 신호가 연속하여 두 번 입력되는 경우, 음성 검출부(130)는 스피치가 발생했다고 판단하고, 1, 1, 0을 1, 1, 1로 보정할 수 있다. For example, when the index values stored in the index buffer are 1, 1, 0 in the order of the first to third columns of the index buffer, that is, when the voice signal is input twice successively after the silence, It is judged that speech has occurred, and 1, 1, and 0 can be corrected to 1, 1, and 1.
프레임 신호가 스피치 종료를 표시하는 경우의 인덱스 값을 2라고 정의하면, 인덱스 버퍼의 1번 칸부터 3번 칸 순서로 인덱스 버퍼에 저장된 인덱스 값이 0, 0, 1인 경우, 즉, 음성 신호라고 판단된 프레임 신호 뒤로 무음 또는 노이즈 신호라고 판단된 프레임 신호가 연속하여 두 번 입력되는 경우, 음성 검출부(130)는 스피치가 종료되었다고 판단하고, 0, 0, 1을 2, 1, 1로 보정할 수 있다. If the index value when the frame signal indicates the end of speech is 2, if the index value stored in the index buffer is 0, 0, 1 in the order of the first to third columns of the index buffer, that is, If the frame signal determined to be a silent or noise signal after the determined frame signal is input twice consecutively, the
음성 검출부(130)는 인덱스 버퍼의 마지막 칸에 위치한 인덱스 값에 따라, 신호 버퍼의 마지막 칸, 즉, 도 4에서 5번 칸에 저장된 프레임 신호의 출력을 제어한다. The
음성 검출부(130)는 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 1인 경우, 인덱스 값에 대응하는 프레임 신호가 음성 신호라고 판단하고, 신호 버퍼의 5번 칸에 위치한 프레임 신호를 출력 신호(OUT 1)로 출력한다. 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 0인 경우, 음성 검출부(130)는 인덱스 값에 대응하는 프레임 신호가 무음 신호 또는 노이즈 신호라고 판단하고, 프레임 신호를 출력하지 않는다. 또한, 인덱스 버퍼의 5번 칸에 위치한 인덱스 값이 2인 경우, 음성 검출부(130)는 스피치가 종료되었다고 판단할 수 있다. 음성 검출부(130)는 시간 축 상에서 음성의 시작점과 끝점을 검출하고, 시작점과 끝점 사이의 프레임 신호만 선택해서 이를 출력하게 된다. The
음성 검출부(130)는 인덱스 값을 참조하여 스피치가 시작되었는지 또는 스피치가 종료되었는지를 판단하고, 스피치 발화 시작 및/또는 종료 지점에 대한 정보, 예컨대, 타임 스탬프를 생성하여 이를 프레임 신호와 함께 출력할 수도 있다. The
이와 같이, 발명의 실시 예에 의하면 음성 검출부(130)는 인덱스 값을 참조하여 노이즈 신호나 무음 신호라고 판단된 프레임 신호는 출력을 억제하고 음성 신호라고 판단된 프레임 신호만을 출력할 수 있다. As described above, according to the embodiment of the present invention, the
또한, 음성 검출부(130)는 인덱스 값에 따라 음성 발화 시작 및/또는 종료 지점을 판단하고 이에 대한 정보를 생성하여 출력할 수 있다. Also, the
도 5는 발명의 일 실시 예에 따른 음성 활동 감지 방법을 도시한 순서도이다. 도 5를 참조하면, 음성 활동 감지 장치(100)는 프레임 신호로부터 특징 파라미터를 추출한다(단계 510). 음성 활동 감지 장치(100)는 프레임 신호로부터 단시간 에너지 특징(short-time energy feature), 제로 크로싱 레이트(Zero Crossing Rate), 스펙트럴 센트로이드(spectral centroid), 스펙트럴 롤오프(spectral rolloff), 스펙트럴 플럭스(spectral flux), 스펙트럴 플랫니스(spectral flatness), 멜프리퀀시 캡스트럴 계수(MFCC, Mel Frequency Cepstral Coefficient) 중 하나 이상을 추출할 수 있다.5 is a flowchart illustrating a voice activity sensing method according to an embodiment of the present invention. Referring to FIG. 5, the voice
음성 활동 감지 장치(100)는 특징 파라미터를 복수의 비교 신호들 각각의 모델 파라미터와 비교하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단한다(단계 520).The voice
음성 활동 감지 장치(100)는 프레임 신호가 음성 신호라고 판단되는 경우, 프레임 신호를 출력하고(단계 530), 프레임 신호가 노이즈 신호이거나 무음 신호라고 판단되는 경우, 프레임 신호를 출력하지 않는다.If it is determined that the frame signal is a voice signal, the voice
도 6은 도 5의 단계 520의 일 실시 예를 도시한 순서도이다. 도 6을 참조하면, 음성 활동 감지 장치(100)는 노이즈 신호들 및 음성 신호의 특성을 모델링한 파라미터들과, 프레임 신호로부터 추출한 특징 파라미터를 일대일로 패턴 매칭한다. FIG. 6 is a flow chart illustrating one embodiment of
음성 활동 감지 장치(100)는 노이즈 신호들 및 음성 신호의 특성을 모델링한 파라미터들과, 특징 파라미터와의 유사 정도를 각각 나타내는 라이클리후드 값을 구한다(단계 610). 음성 활동 감지 장치(100)는 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 음성 신호의 특성을 모델링한 파라미터와 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구한다.The voice
음성 활동 감지 장치(100)는 라이클리후드 값을 이용하여 프레임 신호에 대한 레이블링 정보를 생성한다(단계 620).The voice
음성 활동 감지 장치(100)는 라이클리후드 값들 중 가장 큰 값이 Mn+1인 경우, Mn+1과 차순위로 큰 라이클리후드 값과의 차이 값의, 차순위로 큰 라이클리후드 값과 세 번째로 큰 라이클리후드 값과의 차이 값에 대한 비를 구한다. 음성 활동 감지 장치(100)는 비가 임계치보다 큰 경우 프레임 신호에 대해 제1 음성 신호 표시 레이블링 정보를 생성하고, 비가 상기 임계치보다 작거나 같은 경우 프레임 신호에 대해 제2 음성 신호 표시 레이블링 정보를 생성한다. When the largest value among the Leaky's hood values is Mn + 1, the voice
음성 활동 감지 장치(100)는 라이클리후드 값들 중 가장 큰 값이 Mk(k는 n보다 작거나 같은 자연수)인 경우, 프레임 신호에 대해 제 k 노이즈 신호 표시 레이블링 정보를 생성한다. The voice
음성 활동 감지 장치(100)는 레이블링 정보를 이용하여 프레임 신호에 대한 인덱스 값을 생성한다(단계 630). 음성 활동 감지 장치(100)는 레이블링 정보가 제1 음성 신호 표시 레이블링 정보인 경우 인덱스 값 1을 생성하고, 레이블링 정보가 제2 음성 신호 표시 레이블링 정보인 경우 인덱스 값 -2를 생성하고, 레이블링 정보가 제k 노이즈 신호 표시 레이블링 정보인 경우 인덱스 값 0을 생성한다. The voice
음성 활동 감지 장치(100)는 인덱스 값을 보정한다(단계 640). 음성 활동 감지 장치(100)는 인덱스 값들에 대해 소프트 디시젼, 스무딩 등을 수행하여 인덱스 값들을 보정한다.The voice
음성 활동 감지 장치(100)는 보정된 인덱스 값을 참조하여 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단한다(단계 650).The voice
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다. The present invention has been described with reference to the preferred embodiments. It will be understood by those skilled in the art that various changes in form and details may be made therein without departing from the spirit and scope of the invention as defined by the appended claims. Therefore, the disclosed embodiments should be considered in an illustrative rather than a restrictive sense. The scope of the present invention is defined by the appended claims rather than by the foregoing description, and all differences within the scope of equivalents thereof should be construed as being included in the present invention.
Claims (25)
프레임 신호로부터 특징 파라미터를 추출하는 단계; 및
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하는 단계;
상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하는 단계; 및
상기 복수의 차이 값들에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법.A method for detecting a voice activity,
Extracting feature parameters from the frame signal; And
Determining whether the frame signal is a speech signal or a noise signal,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Obtaining a plurality of Ricci hood values indicating a degree of similarity between the feature parameter and model parameters of the plurality of comparison signals;
Obtaining a plurality of difference values between the plurality of Rikley hood values; And
And determining whether the frame signal is a speech signal or a noise signal based on the plurality of difference values.
상기 특징 파라미터를 추출하는 단계는, 상기 프레임 신호의 에너지 값을 구하여 상기 프레임 신호의 에너지 값이 기준치보다 크거나 같은 경우에만 상기 프레임 신호로부터 상기 특징 파라미터를 추출하는 것을 특징으로 하는 음성 활동 감지 방법.The method according to claim 1,
Wherein the extracting of the feature parameter comprises extracting the feature parameter from the frame signal only when the energy value of the frame signal is greater than or equal to a reference value.
상기 복수의 라이클리후드 값들을 구하는 단계는 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 단계를 포함하는 음성 활동 감지 방법.The apparatus as claimed in claim 1, wherein the plurality of comparison signals include a first noise signal to an nth (n is a natural number of 2 or more) noise signal, and a voice signal,
The obtaining of the plurality of Rician hood values may include calculating a likelihood value M1 to Mn representing the degree of similarity between the first noise signal to the n-th noise signal and the characteristic parameter, And obtaining a Leaky's hood value Mn + 1 indicating a similarity between the parameter modeled the characteristics of the speech signal and the feature parameter.
상기 프레임 신호를 출력하는 단계는 상기 인덱스 값을 참조하여 음성의 시작점과 끝점을 검출하는 단계를 포함하는 음성 활동 감지 방법.The method of claim 9, further comprising outputting the frame signal if the frame signal is determined to be a voice signal,
Wherein the step of outputting the frame signal comprises detecting a start point and an end point of a voice with reference to the index value.
프레임 신호로부터 특징 파라미터를 추출하고, 상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하고, 상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하고, 상기 복수의 차이 값들에 기초하여 상기 프레임 신호에 대한 레이블링 정보를 생성하는 클래시파이어 모듈; 및
상기 레이블링 정보를 참조하여 상기 프레임 신호가 노이즈 신호인지 음성 신호인지를 판단하는 음성 검출부를 포함하는 음성 활동 감지 장치.A voice activity sensing device comprising:
Extracting feature parameters from the frame signal, obtaining a plurality of Ricci hood values indicating similarity between the feature parameters and model parameters of the plurality of comparison signals, obtaining a plurality of difference values between the plurality of Ricci hood values, A classifier module for generating labeling information for the frame signal based on a plurality of difference values; And
And a voice detector for referring to the labeling information and determining whether the frame signal is a noise signal or a voice signal.
상기 클래시파이어 모듈은 상기 제1 노이즈 신호부터 상기 제n 노이즈 신호 각각의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드(likelihood) 값 M1부터 Mn, 및 상기 음성 신호의 특성을 모델링한 파라미터와 상기 특징 파라미터와의 유사 정도를 나타내는 라이클리후드 값 Mn+1을 구하는 음성 활동 감지 장치.The apparatus as claimed in claim 12, wherein the plurality of comparison signals include a first noise signal to an nth (n is a natural number of 2 or more) noise signal, and a voice signal,
Wherein the classifier module calculates likelihood values M1 to Mn representing the similarity between the first noise signal to the nth noise signal and the characteristic parameter, And obtaining a Leaky's hood value Mn + 1 indicating a degree of similarity between the parameter modeled as the characteristic and the characteristic parameter.
프레임 신호로부터 특징 파라미터를 추출하는 단계; 및
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 특징 파라미터와 복수의 비교 신호들의 모델 파라미터 간의 유사 정도를 나타내는 복수의 라이클리후드 값들을 구하는 단계;
상기 복수의 라이클리후드 값들 간의 복수의 차이값들을 구하는 단계; 및
상기 복수의 차이 값들에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법을 실행하기 위한 프로그램을 저장한 컴퓨터로 판독 가능한 기록 매체.A method for detecting a voice activity,
Extracting feature parameters from the frame signal; And
Determining whether the frame signal is a speech signal or a noise signal,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Obtaining a plurality of Ricci hood values indicating a degree of similarity between the feature parameter and model parameters of the plurality of comparison signals;
Obtaining a plurality of difference values between the plurality of Rikley hood values; And
And determining whether the frame signal is a speech signal or a noise signal based on the plurality of difference values. ≪ Desc / Clms Page number 20 >
상기 복수의 차이값들을 구하는 단계는,
상기 복수의 라이클리후드 값들 간의 복수의 차이 값들에 기초하여 비를 구하는 단계를 포함하고,
상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계는,
상기 비를 임계 값과 비교하는 단계; 및
상기 비교 결과에 기초하여 레이블링 정보를 생성하는 단계를 포함하는 음성 활동 감지 방법. The method according to claim 1,
Wherein the obtaining of the plurality of difference values comprises:
And obtaining a ratio based on a plurality of difference values between the plurality of Rikley hood values,
Wherein the step of determining whether the frame signal is a voice signal or a noise signal includes:
Comparing the ratio with a threshold value; And
And generating labeling information based on the comparison result.
상기 레이블링 정보에 기초하여 상기 프레임 신호가 음성 신호인지 노이즈 신호인지를 판단하는 단계를 포함하는 음성 활동 감지 방법.25. The method of claim 24, wherein determining whether the frame signal is a speech signal or a noise signal comprises:
And determining whether the frame signal is a speech signal or a noise signal based on the labeling information.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/099,891 US8762144B2 (en) | 2010-07-21 | 2011-05-03 | Method and apparatus for voice activity detection |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36627310P | 2010-07-21 | 2010-07-21 | |
US61/366,273 | 2010-07-21 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120010076A KR20120010076A (en) | 2012-02-02 |
KR101737083B1 true KR101737083B1 (en) | 2017-05-29 |
Family
ID=45834748
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020100098828A KR101737083B1 (en) | 2010-07-21 | 2010-10-11 | Method and apparatus for voice activity detection |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR101737083B1 (en) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
-
2010
- 2010-10-11 KR KR1020100098828A patent/KR101737083B1/en active IP Right Grant
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10311874B2 (en) | 2017-09-01 | 2019-06-04 | 4Q Catalyst, LLC | Methods and systems for voice-based programming of a voice-controlled device |
Also Published As
Publication number | Publication date |
---|---|
KR20120010076A (en) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8762144B2 (en) | Method and apparatus for voice activity detection | |
US11887582B2 (en) | Training and testing utterance-based frameworks | |
US10269346B2 (en) | Multiple speech locale-specific hotword classifiers for selection of a speech locale | |
US10923137B2 (en) | Speech enhancement and audio event detection for an environment with non-stationary noise | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
US7949523B2 (en) | Apparatus, method, and computer program product for processing voice in speech | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
JP6501259B2 (en) | Speech processing apparatus and speech processing method | |
KR101616112B1 (en) | Speaker separation system and method using voice feature vectors | |
CN110675866B (en) | Method, apparatus and computer readable recording medium for improving at least one semantic unit set | |
CN106782508A (en) | The cutting method of speech audio and the cutting device of speech audio | |
US11935523B2 (en) | Detection of correctness of pronunciation | |
Këpuska | Wake-up-word speech recognition | |
Reich et al. | A real-time speech command detector for a smart control room | |
Hamidi et al. | Emotion recognition from Persian speech with neural network | |
Hou et al. | Domain adversarial training for improving keyword spotting performance of esl speech | |
KR101737083B1 (en) | Method and apparatus for voice activity detection | |
CN110853669A (en) | Audio identification method, device and equipment | |
KR20120046627A (en) | Speaker adaptation method and apparatus | |
JP6786065B2 (en) | Voice rating device, voice rating method, teacher change information production method, and program | |
JP5196114B2 (en) | Speech recognition apparatus and program | |
Suo et al. | Using SVM as back-end classifier for language identification | |
US9928832B2 (en) | Method and apparatus for classifying lexical stress | |
WO2011030372A1 (en) | Speech interaction device and program | |
KR20130043817A (en) | Apparatus for language learning and method thereof |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |