KR100737358B1

KR100737358B1 - 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치

Info

Publication number: KR100737358B1
Application number: KR1020050069041A
Authority: KR
Inventors: 김갑기; 이성주; 정호영; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2004-12-08
Filing date: 2005-07-28
Publication date: 2007-07-09
Also published as: KR20060064494A

Abstract

본 발명이 이루고자 하는 기술적 과제는 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성 신호를 음성 신호로 판단하고 음성인식함으로써 발생하는 음성인식의 오류를 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.

본 발명은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.

Description

음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치{Method for verifying speech/non-speech and voice recognition apparatus using the same}

도 1은 종래기술에 의한 음성 인식 장치를 나타내는 도면이다.

도 2는 본 발명의 실시예에 의한 음성 인식 장치를 나타내는 도면이다.

도 3은 도 2의 음성 인식 장치가 네트워크적으로 연결된 경우의 일례를 설명하기 위한 도면이다.

도 4는 도 2의 음성/비음성 검증부(22)에서 수행되는 음성/비음성 검증 방법을 설명하기 위한 도면이다.

도 5는 도 4의 도면부호 S43에 해당하는 단계에서 사용되는 음성/비음성 모델의 초기 모델링 방법을 설명하기 위한 도면이다.

본 발명은 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치에 관한 발명으로서, 보다 상세하게는 많은 연산을 필요로 하는 음성 인식부의 부하를 줄일수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치에 관한 발명이다.

도 1은 종래기술에 의한 음성 인식 장치를 나타내는 도면이다. 도 1을 참조하면 종래기술에 의한 음성 인식 장치는 음성 끝점 검출부(11) 및 음성 인식부(12)를 포함한다. 음성 끝점 검출부(11)는 음성 신호 구간의 시작점 및 끝점을 검출하는 기능을 수행하며, 일례로 음성신호의 단시간 에너지(short-time energy) 및 영교차율(zero crossing rate)를 이용하여 음성 구간을 검출한다. 음성 인식부(12)는 음성 끝점 검출부(11)에서 출력되는 음성 구간 내에서 음성을 인식하는 기능을 수행한다.

이와 같은 구성을 가지는 종래기술에 의한 음성 인식 장치에 있어서, 음성 끝점 검출부(11)는 음성 신호와 비음성 신호를 구분하는데 한계가 있었다. 특히 기계음, 음악 등 주변에서 흔히 접할 수 있는 생활 잡음을 음성 신호화 잘 구분하지 못한다는 문제점이 있었다. 이와 같이, 음성 끝점 검출부(11)가 음성 신호와 비음성 신호를 잘 구분하지 못하고 대부분 음성 신호로 인식하여 출력하는 경우에, 음성 인식부(12)는 많은 양의 연산을 수행해야 한다는 문제점이 있다. 특히, 로봇에 응용되는 경우에는, 버튼을 누른 후에 말을 하는 방식 즉 푸쉬-버튼(push-button) 방식과 달리 항상 대기 상태에서 듣는 소리가 음성인지 비음성인지를 판단하여야 한다. 따라서, 음성과 비음성을 잘 구분하지 못하는 경우에, 음성 인식부(12)의 잦은 연산에 의하여 로봇의 충전지가 빨리 소모되는 문제점이 있다. 또한, 비음성인 신호를 입력받았음에도 불구하고, 음성으로 판단하여, 음성 인식을 수행함으로써 음성 인식의 오류가 발생하는 문제점이 있다.

따라서, 본 발명이 이루고자 하는 기술적 과제는 상기한 문제점들을 해결하기 위한 것으로서, 음성과 비음성을 보다 명확히 구분함으로써, 음성 인식부의 부하를 낮출 수 있고, 비음성인 신호를 입력받아 인식의 오류를 일으키는 것을 줄일 수 있는 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치를 제공하는 것이다.

상술한 목적을 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면은 입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및 상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되, 상기 음성/비음성 검증부는, 상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며, 상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치를 제공한다.

또한, 본 발명의 제 2 측면은 (a) 프레임 단위의 음성 데이터로부터 특징 벡터를 추출하는 단계; (b) 음성/비음성 모델을 이용하여 프레임 단위로 음성/비음성 결정을 수행하는 단계; (c) 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하는 단계; 및 (d) 창 단위로 음성/비음성 결정을 내리는 단계를 포함하며, 상기 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법을 제공한다.

이하, 첨부한 도면들을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다. 그러나, 본 발명의 실시예들은 여러가지 형태로 변형될 수 있으며, 본 발명의 범위가 아래에서 상술하는 실시예들로 인하여 한정되는 식으로 해석되어 져서는 안된다. 본 발명의 실시예들은 당업계에서 평균적 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해 제공되는 것이다.

도 2는 본 발명의 실시예에 의한 음성 인식 장치를 나타내는 도면이다. 도 2를 참조하면, 음성 인식 장치는 음성 끝점 검출부(21), 음성/비음성 검증부(22) 및 음성 인식부(23)를 포함한다.

음성 끝점 검출부(21)는 음성 신호 구간의 시작점 및 끝점을 검출하는 기능을 수행하며, 일례로 음선신호의 단시간 에너지(short-time energy) 및 영교차율(zero crossing rate)을 이용하여 음성 구간을 검출한다. 음성 끝점 검출부(21)는 선택적 구성요소로서, 음성/비음성 검증부(22) 및 음성 인식부(23)만으로 구성된 음성 인식 장치만으로도 본 발명의 목적을 달성할 수 있다. 다만, 음성 끝점 검출부(21)를 추가적으로 포함하는 경우 음성/비음성 검증부(22)의 부하를 감소시킬 수 있다는 장점이 있다.

음성/비음성 검증부(22)는 음성 끝점 검출부에서 출력되는 음성 구간의 데이터에 대하여 특징 벡터를 이용하여 음성 구간과 비음성 구간을 검증하여 최종적으로 음성 구간을 검출하는 기능을 수행한다.

음성/비음성 검증부(22)에서 추출되는 특징 벡터의 예로서 필터 뱅크 에너 지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등이 있다. 음성/비음성 검증부(22)는 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분한다. 음성/비음성 검증부(22)는 음성 구간을 검출하면, 음성 구간에 해당하는 음성 데이터, 및 음성 구간에 해당하는 특징 벡터 중 적어도 어느 하나를 음성 인식부(23)로 출력한다. 만일 음성/비음성 검증부(22)가 특징 벡터를 음성 인식부(23)로 출력하고, 음성 인식부(23)가 이를 이용하여 음성 인식을 수행하는 경우에는, 음성 인식부(23)는 특징 벡터를 추출하기 위한 별도의 구성 요소를 포함하지 않아도 된다는 장점이 있다.

음성 인식부(23)는 음성/비음성 검증부(22)에서 출력되는 음성 데이터 및 특징 벡터 중 적어도 어느 하나를 이용하여 음성 구간 내에서 음성을 인식하는 기능을 수행한다.

도 3은 도 2의 음성 인식 장치가 네트워크로 연결된 경우의 일례를 설명하기 위한 도면이다. 도 3을 참조하면, 음성 인식 장치는 음성 인식 서버(31) 및 적어도 하나의 클라이언트(32A, 32B, 32C)를 포함한다.

음성 인식 서버(31)는 통신을 통하여 적어도 하나의 클라이언트(32A, 32B, 32C)와 접속되며, 적어도 음성 인식부(23)를 포함한다.

각 클라이언트(32A, 32B, 32C)는 통신을 통하여 음성 인식 서버(31)와 접속되며, 마이크(33A, 33B, 33C), 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C)를 포함한다. 클라이언트(32A, 32B, 32C)는 바람직하게 로봇일 수 있다.

도면에 표현된 음성 인식 장치에 있어서, 마이크(33A, 33B, 33C)는 클라이언트(32A, 32B, 32C)에 위치하여야 하며, 음성 인식부(23)는 음성 인식 서버(31)에 위치하여야 하나, 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C)는 도면과 같이 클라이언트(32A, 32B, 32C)에 위치할 수도 있으며, 음성 끝점 검출부(21A, 21B, 21C)는 클라이언트(32A, 32B, 32C)에 위치하고 음성/비음성 검증부(22A, 22B, 22C)는 음성 인식 서버(31)에 위치할 수도 있으며, 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C) 모두 음성 인식 서버(31)에 위치할 수도 있다. 음성 끝점 검출부(21A, 21B, 21C)가 음성 인식 서버(31)에 위치하는 경우, 각 클라이언트(32A, 32B, 32C)별로 별도의 음성 끝점 검출부를 둘 수도 있고, 복수의 클라이언트(32A, 32B, 32C)에 대하여 하나의 음성 끝점 검출부를 둘 수도 있다. 또한, 음성/비음성 검증부(22A, 22B, 22C)가 음성 인식 서버(31)에 위치하는 경우, 각 클라이언트(32A, 32B, 32C)별로 별도의 음성/비음성 검증부를 둘 수도 있고, 복수의 클라이언트(32A, 32B, 32C)에 대하여 하나의 음성/비음성 검증부를 둘 수도 있다. 마이크(33A, 33B, 33C)만이 클라이언트(32A, 32B, 32C)에 위치하는 경우에는 클라이언트(32A, 32B, 32C)는 항상 또는 빈번하게 음성 인식 서버(31)과 통신을 수행하여야 하므로, 통신에 많은 부하를 준다는 문제점이 있다. 특히 푸쉬-버튼 방식으로 동작하지 아니하는 로봇 등의 응용에 있어서, 이 문제는 더욱 심각하다. 따라서, 음성 끝점 검출부(21A, 21B, 21C)가 클라이언트 (32A, 32B, 32C)에 위치하고 음성/비음성 검증부(22A, 22B, 22C)가 음성 인식 서버(31)에 위치하거나, 도면과 같이 음성 끝점 검출부(21A, 21B, 21C) 및 음성/비음성 검증부(22A, 22B, 22C) 모두가 클라이언트(32A, 32B, 32C)에 위치하는 것이 통신 부하를 줄일 수 있으므로 보다 바람직하다. 만일 음성 끝점 검출부(22A, 22B, 22C)가 사용되지 아니하는 경우에는 음성/비음성 검증부(22A, 22B, 22C)가 클라이언트(32A, 32B, 32C)에 위치하는 것이 통신 부하를 줄일 수 있으므로 보다 바람직하다.

도 4는 도 2의 음성/비음성 검증부(22)에서 수행되는 음성/비음성 검증 방법을 설명하기 위한 도면이다. 도 4를 참조하면, 음성/비음성 검증 방법은 제 1 버퍼링 단계(S41), 특징 벡터 추출 단계(S42), 모델 개선 단계(S43), 프레임 분류 단계(S44), 제 2 버퍼링 단계(S45) 및 창 분류 단계(S46)를 포함한다.

제 1 버퍼링 단계(S41)에서는 입력 음성 데이터를 버퍼링한 후에 한 프레임 단위로 출력하는 동작이 이루어진다. 프레임의 길이는 특징 벡터를 추출하기에 적합한 길이로써, 일례로 20ms일 수 있으며, 앞 프레임과 뒷 프레임은 10ms씩 겹쳐지는 방식으로 프레임이 구하여질 수 있다.

특징 벡터 추출 단계(S42)에서는 일례로 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등의 특징 벡터 중 적어도 하나를 추출한다. 필터 뱅크 에너지는 음성 데이터의 주파수 대역에서 중에서 필요한 주파수 대역들의 에너지를 구한 값을 의미한다. 필요한 주파수 대역만을 추출할 때 사용하는 것이 필터이고, 필 터 뱅크는 필터들의 집합이다. 필터 뱅크 에너지는 필터별로 하나의 실수 값의 형태로 표현된다. 프레임내에 필터 뱅크간 에너지 값의 변화량은 한 프레임 내에서 필터 뱅크간의 에너지 차의 양을 의미하며 필터의 수보다 하나 작은 수의 개수로 표현된다. 프레임간의 필터 뱅크 에너지 값의 변화량은 시간의 흐름에 따른 프레임 열들 중에 인접한 프레임간의 같은 필터에서 나온 에너지 값의 차를 의미한다. 멜 필터 뱅크 계수는 MFCC(Mel Frequency Cepstrum Coefficient)로도 호칭되며, 주파수 대역에서 멜(Mel) 주파수 대역으로 바꾼 것의 필터를 이용하여 에너지 값을 얻고 그것을 다시 역 고속 프리에 변환(Inverse Fast Fourier Transform)을 취하여 얻은 값이다.

모델 개선 단계(S43)에서는 음성/비음성 모델의 재모델링이 이루어지며, 적응 기술을 사용하여 최적화된 모델로 재모델링이 이루어진다. 적응 기법으로 고유 음성(Eigen Voice), MLLR(Maximum Likelihood Linear Regression), MAP(Maximum A-Posterior) 등의 방법 중 적어도 하나가 사용될 수 있다. 또한, 음성/비음성 모델을 개선함에 있어서, 온-라인(on-line) 상에서 재모델링이 이루어질 수 있다. 이와 같이 음성/비음성 모델이 개선되면, 음성/비음성 결정이 더욱 정확해질 수 있다. 모델 개선 단계(S43)은 선택적인 단계로서, 필요에 따라 수행될 수 있다.

프레임 분류 단계(S44)에서 음성/비음성 모델을 이용하여 프레임 단위의 음성/비음성 결정을 내린다. 음성/비음성의 결정을 수행함에 있어서, 통계적 방법의 모델링을 사용한 경우에는 GMM(Gaussian Mixture Model), HMM(Hidden Markov Model), SVM(Support Vector Machine), NN(Neural Network) 등의 방법 중 적어도 하나의 방법을 이용하여 음성/비음성의 결정을 하고, 규칙 기반의 방법으로 모델링을 한 경우는 규칙을 이용하여 프레임에 대한 음성/비음성의 결정을 한다. 음성/비음성 결정 값을 출력함에 있어서, 하드(hard) 결정 방식 즉 단순히 음성에 해당하는 값 및 비음성에 해당하는 값 중 어느 하나를 출력하는 방식에 의하여 결정 값이 출력될 수 있으며, 소프트(soft) 결정 방식 즉 음성 또는 비음성에 가까운 정도를 실수로써 출력하는 방식에 의하여 결정 값이 출력될 수도 있다.

제 2 버퍼링 단계(S45)에서, 연속하는 프레임에 대하여 창(window)의 길이만큼 프레임 분류 단계(S44)에서 수행된 음성/비음성에 대한 결정 값을 버퍼링한다. 창은 연속하는 프레임의 집합으로 300ms ~ 1000ms 등 필요에 따른 적정한 크기를 사용한다. 제 2 버퍼링 단계(S45)에서 특징 벡터 추출 단계(S42)에서 추출된 특징 벡터도 추가적으로 버퍼링 할 수도 있다.

창 분류 단계(S46)에서, 최종적으로 창 단위의 음성/비음성 결정을 내린다. 음성/비음성 결정을 수행함에 있어서, 규칙에 기반한 방법 즉 임계치를 이용하여 결정할 수도 있고, 또는 통계적인 방법 즉 분류기인 GMM, HMM, SVM, NN등을 이용하여 결정할 수도 있다.

이와 같은 단계를 수행하면, 입력되는 데이터가 음성인지 비음성인지를 결정할 수 있으며, 이에 대응하여 음성 구간을 정하여 그에 대응하는 데이터(음성 신호 및/또는 특징 벡터)를 전달할 수 있다. 특히, 음성/비음성을 결정함에 있어서, 특징 벡터를 사용함으로써, 단시간 에너지(short-time energy) 및/또는 영교차율(zero crossing rate)을 사용하는 음성 끝점 검출부에 비하여 보다 정확히 음성/비 음성을 결정할 수 있다.

도 5는 도 4의 도면부호 S43에 해당하는 단계에서 사용되는 음성/비음성 모델의 초기 모델링 방법을 설명하기 위한 도면이다. 음성/비음성 모델의 초기 모델링 방법은 도 4에 표현된 음성/비음성 검증 방법 이전에 수행되며, 수행된 이후에 얻어지는 음성/비음성 모델이 음성/비음성 검증 방법에 사용된다. 모델링 과정은 바람직하게 오프-라인(Off-line)에서 음성/비음성에 대한 특징 벡터들을 이용하여 각각의 모델을 정교하게 만드는 것이다. 도 5를 참조하면, 음성/비음성 모델의 초기 모델링 방법은 버퍼링 단계(S51), 특징 벡터 추출 단계(S52) 및 음성/비음성 모델링 단계(S53)를 포함한다.

버퍼링 단계(S51)에서는 입력 음성 데이터를 버퍼링한 후에 한 프레임 단위로 출력하는 동작이 이루어진다. 프레임의 길이는 특징 벡터를 추출하기에 적합한 길이로써, 도 4의 제 1 버퍼링 단계에서 사용되는 프레임 길이와 같을 수 있다.

특징 벡터 추출 단계(S52)에서는 일례로 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 등의 특징 벡터를 추출한다.

음성/비음성 모델링 단계(S53)에서, 모델을 만드는 방법으로 통계적인 방법이 사용될 수 있고, 또는 규칙 기반의 모델을 위한 규칙을 정하는 방식이 사용될 수 있고, 두 가지 방법의 하이브리드 방식이 사용될 수 있다. 통계적인 방법으로 벡터 양자화 방법, 가우시안 모델링을 기반한 방법등이 있으며, 이들에 대한 변별 력을 향상하기 위해 변별 학습 기능이 사용될 수 있다.

아래에 표현된 표 1 및 2는 본 발명의 실시예에 의한 음성 인식 장치와 종래 기술에 의한 음성 인식 장치의 성능을 비교하기 위한 표이다.

발성	인식오류	입력거부	에러율
359	359	0	100%

발성	인식오류	입력거부	에러율
359	62	297	17%

표 1은 음성이 아닌 잡음을 입력하였을 때 종래기술에 의한 음성인식 장치가 이를 음성으로 인식하여 오류가 발생하는 정도를 나타내는 도면이다. 표 1에서 알 수 있듯이, 359 회의 잡음을 입력하는 경우, 비음성으로 인식하여 입력거부를 한 경우는 없으며, 모두 음성으로 인식하여 인식오류가 발생하였다. 따라서, 에러율은 100%에 해당한다.

표 2는 음성이 아닌 잡음을 입력하였을 때 본발명에 의한 음성인식 장치가 이를 음성으로 인식하여 오류가 발생하는 정도를 나타내는 도면이다. 표 2에서 알 수 있듯이, 359 회의 잡음을 입력하는 경우, 비음성으로 인식하여 입력거부를 한 경우가 297회이고, 음성으로 인식하여 인식오류가 발생하는 경우가 62회였다. 따라서, 에러율은 17%로, 본 발명에 의한 음성인식 장치가 비음성인 잡음을 제거함으로써, 음성 인식 오류를 감소시키는 개선된 효과가 있음을 명확히 알 수 있다.

본 발명에 의한 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치는 종래기술에 비하여 음성 구간과 비음성 구간을 명확히 구분함으로써, 많은 연산을 필요로 하는 음성 인식부의 부하와 음성 인식에 소요되는 시간을 줄이고, 비음성인 신호를 입력받아 인식의 오류를 일으키는 것을 줄인다는 장점이 있다.

또한, 본 발명에 의한 음성/비음성 검증 방법 및 이를 이용한 음성 인식 장치는 복수의 클라이언트(가정에 있는 로봇 등)에서 발생하는 음성 신호를 음성 인식 서버에서 음성 인식하는 경우에 음성 인식 서버의 부하 또는 수를 줄일 수 있고, 그 인식 성능을 향상 시킬 수 있다는 있다는 장점이 있다.

Claims

입력되는 음성 데이터로부터 특징 벡터를 추출하고, 음성/비음성 모델을 이용하여 특징 벡터가 음성에 해당하는 것인지 비음성에 해당하는 것인지 구분하는 음성/비음성 검증부; 및

상기 음성/비음성 검증부가 음성으로 판단한 구간에 대응하는 데이터로부터 음성을 인식하는 음성 인식부를 포함하되,

상기 음성/비음성 검증부는,

상기 입력되는 음성 데이터를 프레임 단위로 나누어 상기 프레임 단위의 음성 데이터로부터 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나의 특징 벡터를 추출하며,

상기 음성/비음성 모델을 이용하여 상기 프레임 단위의 음성 데이터에 대하여 음성/비음성 결정을 수행한 후, 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하여 창 단위로 음성/비음성 결정을 내리는 것을 특징으로 하는 음성 인식 장치.
삭제
제 1 항에 있어서,

상기 음성으로 판단한 구간에 대응하는 데이터는 특징 벡터 및 음성 데이터 중 적어도 어느 하나인 음성 인식 장치.
삭제
제 1항 또는 제 3항에 있어서,

단시간 에너지 및 영교차율 중 적어도 어느 하나를 이용하여 음성 구간을 검출하여 음성 구간에 대응하는 데이터를 상기 음성/비음성 검증부로 전달하는 음성 끝점 검출부를 더 포함하는 음성 인식 장치.
삭제
(a) 프레임 단위의 음성 데이터로부터 특징 벡터를 추출하는 단계;

(b) 음성/비음성 모델을 이용하여 프레임 단위로 음성/비음성 결정을 수행하는 단계;

(c) 연속하는 복수의 프레임의 음성/비음성 결정 값을 창의 길이만큼 버퍼링하는 단계; 및

(d) 창 단위로 음성/비음성 결정을 내리는 단계를 포함하며,

상기 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법.
삭제
제 7 항에 있어서,

상기 (b) 단계에서 음성/비음성을 결정함에 있어서, 통계적 방법 및 규칙 기반의 방법 중 적어도 어느 한 방법을 이용하여 결정하는 음성/비음성 검증 방법.
제 7 항에 있어서,

상기 (c) 단계에서 상기 특징 벡터도 추가적으로 버퍼링을 수행하는 음성/비음성 검증 방법.
제 7 항에 있어서,

상기 (d) 단계에서 음성/비음성을 결정함에 있어서, 통계적 방법 및 규칙 기반의 방법 중 적어도 어느 한 방법을 이용하여 결정하는 음성/비음성 검증 방법.
삭제
제 7항에 있어서,

상기 (a) 단계 이후에 수행되는

(f) 상기 특징 벡터를 이용하여 상기 음성/비음성 모델을 적응기법을 사용하여 재모델링 하는 단계를 더 포함하는 음성/비음성 검증 방법.
제 7항에 있어서,

상기 (a) 단계 이전에 수행되는

(g) 음성/비음성 모델 초기화 단계를 더 포함하는 음성/비음성 검증 방법.
제 14 항에 있어서,

상기 (g) 단계는

초기화를 위한 입력 음성 데이터를 프레임 단위로 버퍼링하는 단계;

버퍼링된 상기 프레임 단위의 초기화를 위한 입력 음성 데이터로부터 초기화를 위한 특징 벡터를 추출하는 단계; 및

상기 초기화를 위한 특징 벡터를 이용하여 음성/비음성 모델을 만드는 단계를 포함하며,

상기 초기화를 위한 특징 벡터는 필터 뱅크 에너지, 피치, 프레임내에 필터 뱅크간의 에너지 값의 변화량, 프레임간의 필터뱅크 에너지 값의 변화량 및 멜 필터 뱅크 계수 중 적어도 어느 하나인 음성/비음성 검증 방법.