KR100571831B1

KR100571831B1 - 음성 식별 장치 및 방법

Info

Publication number: KR100571831B1
Application number: KR1020040008739A
Authority: KR
Inventors: 쉬얀얀; 이영범; 이재원
Original assignee: 삼성전자주식회사
Priority date: 2004-02-10
Filing date: 2004-02-10
Publication date: 2006-04-17
Also published as: US20050187761A1; US8078455B2; KR20050080648A; CN1655234B; CN1655234A

Abstract

음성 식별 장치 및 방법이 개시된다. 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 영교차율과 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.

Description

음성 식별 장치 및 방법{Apparatus and method for distinguishing between vocal sound and other sound}

도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다.

도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다.

도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다.

도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다.

도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다.
도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다.

본 발명은 음성 식별 장치 및 방법에 관한 것으로, 특히 주변 환경의 여러 소리들로부터 음성을 식별하는 장치 및 방법에 관한 것이다.

음성 식별은 소리 인식(sound recognition) 분야에서 해결되어야하는 분야로서, 현재 연구가 활발히 진행되고있는 분야이다. 소리 인식은 주변 환경에서 발생 하는 소리, 예를 들어 인간으로부터 발생하는 소리, 주변 또는 자연에서 발생하는 소리 등을 포함한 소리의 의미를 자동으로 "이해하고자" 하는 것이다. 즉, 소리 인식은 음원이 무엇인지, 예를 들어 사람의 음성인지 또는 유리가 바닥에 부딪혀서 깨지는 것와 같은 충격음인지 등을 식별하는 것이다. 음원 식별을 기반으로하여 사람이 소리를 이해하는 것과 같은 시맨틱(semantic) 의미를 이해할 수 있게 된다. 따라서 소리 인식을 위해 음원을 식별하는 것이 중요하다.

소리 인식은 음성 인식보다 더 넓은 범위의 소리 분야를 다룬다. 왜냐하면 누구도 세상에 얼마만큼의 소리의 종류가 존재하는지를 알 수 없기 때문이다. 따라서 소리 인식은 응용분야 또는 개발될 소리 인식 시스템의 기능들과 밀접하게 관련되는 음원으로만 제한하여 다루게된다.

인식 대상의 소리에는 여러가지가 있다. 집에서 발생할 수 있는 소리를 예로 들면, 막대로 유리를 두드리는 소리에서부터 폭발음, 바닥에 동전 떨어지는 소리, 사람이 말하는 것과 같은 구두음(verbal sound), 사람의 웃음, 울음 또는 비명과 같은 비구두음(non-verbal sound), 사람의 움직임에 의해 발생되는 소리, 부엌, 화장실, 침실, 또는 각종 전기기기로부터 발생되는 소리까지 다양하게 존재한다.

이렇게 다양한 소리중에서 사람의 성대를 통해 발생되는 음성을 식별하는 장치 및 방법이 필요하다.

본 발명이 이루고자하는 기술적 과제는 입력 오디오 신호로부터 피치 컨투어(pitch contour) 정보 및 피치 컨투어 정보의 진폭 스펙트럼으로부터 여러 파라미터들을 추출하고, 추출된 파라미터들을 이용하여 음성과 비음성을 식별하는 장치 및 방법을 제공하는데 있다.

상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 장치는 입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부; 각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부; 각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부; 상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및 상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로한다.

상기 기술적 과제를 이루기위한, 본 발명의 음성 식별 방법은 입력 신호를 소정 길이의 프레임 단위로 분리하는 단계; 각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계; 각 프레임별로 프레임내에서의 영교차율을 계산하는 단계; 상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및 상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로한다.

이하에서 첨부된 도면을 참조하여 본 발명을 보다 상세하게 설명하기로한다.

도 1은 본 발명에 따른 음성 식별 장치에 대한 블록도를 도시한 것이다. 도시된 바에 따른 음성 식별 장치는 프레이밍(framing)부(11), 피치(pitch) 추출부(11), 영교차율(zero-cross rate) 계산부(12), 파라미터 계산부(13) 및 분류기(14)를 포함한다.

파라미터 계산부(13)는 스펙트럴 파라미터 계산부(131), 피치 컨투어(pitch contour) 정보 계산부(132) 및 유성음 프레임/무성음 프레임의 시간 길이 비(Voiced frame/Unvoiced frame time length ratio)계산부(133)를 구비한다.

프레이밍부(11)는 입력되는 오디오 신호를 프레임 단위로 분할한다. 여기서, 프레임은 짧은 구간 프레임(short-term frame)으로, 윈도우 처리되는 데이터 세그먼트를 말한다. 프레임의 윈도우 길이는 10ms~30ms이고, 적절하게는 20ms 정도이며 둘 이상의 피치 구간(pitch period)을 포함하는 정도의 길이이다. 프레이밍 과정은 프레임 길이의 50%~100% 범위의 프레임 스텝(frame step)으로 윈도우를 쉬프트(shift)하면서 이루어진다. 본 실시예에서의 프레임 스텝은 프레임 길이의 50%, 즉 10ms를 사용한다.

피치 추출부(11)는 프레임별로 피치를 추출한다. 피치 추출은 기존의 어떠한 종류의 피치 추출 방법도 사용할 수 있으며, 본 발명에서는 기존의 10차 선형 예측 부호화(Linear Predictive Coding, LPC10) 방법의 피치 트래커(pitch tracker)를 단순화하여 적용하였다. 이를 간단히 설명하면 다음과 같다. 도 2는 LPC10 장치에 대한 상세 블록도를 도시한 것이다. 먼저, 신호의 프레임에 해밍 윈도우(Hamming window, 21)가 적용된다. 대역통과 필터(22)는 해밍 윈도우(21)의 출력신호중 60~900Hz 대역의 신호를 통과시킨다. LPC 역변환 필터(LPC inverse filter, 23)는 대역통과된 신호에 대한 LPC 나머지 신호(residual sigal)를 출력한다. 자기상관부(auto-correlator, 24)는 나머지 신호를 자기상관하고, 자기상관 결과중 5개의 피크값들을 선택한다. V/U 결정부(25)는 대역통과 신호, 자기 상관 결과들 및 프레임별 나머지 신호의 피크값들을 이용하여 현재 프레임이 유성음 프레임인지 무성음 프레임인지를 결정한다. 피치 트래킹부(26)는 프레임에 대한 V/U결정 결과와 5개의 피크값들을 기반으로하여 동적 프로그래밍(dynamic programming) 방법으로 이전 3프레임에서부터 기본 주파수(fundamental frequency), 즉 피치를 트래킹한다. 최종적으로 유성음 프레임에서의 피치 트래킹 결과와 무성음 구간에 대해서는 피치를 0으로하여 연접(concatenation)함으로써 피치 컨투어를 추출한다.

영교차율 계산부(12)는 각 프레임별로 프레임에서의 영교차율을 계산한다.

파라미터 계산부(13)는 추출된 피치 컨투어를 기반으로하여 특징값들을 출력한다. 스펙트럴 파라미터 계산부(131)는 피치 추출부(11)에서 출력되는 피치 컨투어의 진폭 스펙트럼으로부터 스펙트럴 특징들을 계산한다. 스펙트럴 파라미터 계산부(131)는 피치 컨투어에 대해 매 0.3초마다 32-포인트 FFT를 수행하여 피치 컨투어의 진폭 스펙트럼으로부터 중심벡터(centroid), 대역폭 및 롤오프(roll-off) 주파수를 계산한다. 여기서, 롤오프 주파수는 피치 컨투어의 진폭 스펙트럼이 최대 파워에서 85%이하로 떨어지는 주파수를 나타낸다.

f(u)가 피치 컨투어의 진폭 스펙트럼에 대한 32-포인트 FFT 스펙트럼을 나타 낼 때, 중심벡터 C, 대역폭 B 및 롤오프 주파수 SRF는 각각 다음 식과 같이 계산될 수 있다.

피치 컨투어 정보 계산부(132)는 피치 컨투어의 평균(mean)과 분산(variance)을 계산한다. 피치 컨투어 정보는 새로운 신호가 입력될 때마다 또는 이전 신호가 종료되었을 때마다 초기화된다. 평균의 초기값은 첫번 째 프레임의 피치값으로 설정되고, 분산의 초기값은 첫번째 프레임의 피치값의 제곱으로 설정된다.

피치 컨투어 정보 계산부(132)는 초기화가 이루어지면, 피치 컨투어의 평균과 분산을 프레임 단위로 매 프레임 스텝, 본 실시예에서는 매 10ms 마다 다음 식과 같이 갱신한다.

여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 나타낸다. Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무성음 프레임이면 0이다.

V/U 시간 길이 비 계산부(133)는 국부 V/U 시간 길이 비와 전체 V/U 시간 길이 비를 계산한다. 국부 V/U 시간 길이 비는 하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비를 구하는 것이고, 전체 V/U 시간 길이 비는 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비를 구하는 것이다.

V/U 시간 길이 비 계산부(133)는 전체 V/U 시간 길이 비의 계산을 위해 유성음 프레임 및 무성음 프레임을 각각 누적하여 카운팅하는 전체 프레임 카운터(미도시)와 국부 V/U 시간 길이 비의 계산을 위해 각 프레임에 대해 유성음 프레임 및 무성음 프레임을 각각 카운팅하는 국부 프레임 카운터(미도시)를 구비한다.

전체 V/U 시간 길이 비는 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 전체 프레임 카운터를 리셋하여 초기화되고, 프레임 단위로 갱신된다. 여기서, 신호 세그먼트는 지속기간의 제한이 없이 배경음보다 큰 에너지를 갖는 신호를 말한다.

국부 V/U 시간 길이 비는 유성음 프레임이 종료되고 다음 무성음 프레임이 시작될 때, 국부 프레임 카운터를 리셋하여 초기화된다. 초기화가 이루어지면, 국부 V/U 시간 길이 비는 유성음 프레임과 유성음+무성음 프레임의 비에 의해 계산된다. 또한 국부 V/U 시간 길이 비는 유성음 프레임으로부터 무성음 프레임으로 전이(transfer)될 때마다 갱신된다.

도 6은 유성음 프레임과 무성음 프레임이 혼합되어있는 경우 국부 V/U 시간 길이 비를 갱신하는 시간을 도시한 것이다. 도시된 바에 따르면, V는 유성음 프레임이고, U는 무성음 프레임을 나타낸다. 참조번호 60은 국부 V/U 시간 길이 비가 갱신되는 시점, 즉, 유성음 프레임에서 무성음 프레임으로 전이되는 시점을 나타낸다. 참조번호 61은 무성음 시간 길이가 갱신되는 시점을 나타내고, 62는 유성음 시간 길이를 카운트하기를 기다리는 시점을 나타낸다.

V/U의 전체 V/U 시간 길이 비인 V/U_GTLR는 다음 식과 같이 구해진다.

여기서, N_V는 유성음 프레임 수, N_U는 무성음 프레임 수이다.

분류기(14)는 스펙트럴 파라미터 계산부(131), 피치 컨투어 정보 계산부(132), V/U 시간 길이 비 계산부(133) 및 영교차율 계산부(12)에서 출력되는 각종 파라미터들을 입력으로하여 입력 오디오 신호가 최종적으로 음성인지 아닌지를 판정한다.

이 때, 분류기(14)는 입력측에 동기화부(미도시)를 더 구비할 수도 있다. 동기화부는 분류기에 입력되는 파라미터들을 동기화시킨다. 동기화는 각 파라미터들이 갱신되는 시간이 서로 다르기 때문에 필요할 수 있다. 예를 들어, 영교차율, 피치 컨투어의 평균 및 분산값, 그리고 전체 V/U 시간 길이 비는 매 10ms마다 갱신되고, 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 파라미터들은은 매 0.3초마다 갱신된다. 국부 V/U 시간 길이 비는 유성음 프레임에서 무성음 프레임으로 전이될 때마다 랜덤하게 갱신된다. 따라서 현재 분류기의 입력측에 새로운 값이 갱신되지않았다면, 대기모드 상태에서 이전 값들이 입력값으로 제공되고 새로운 값이 들어오면 각 파라미터의 동기를 맞추어서 새로운 입력값으로 제공한다.

분류기(14)로는 신경망(neural network)이 적절하다. 본 실시예에서는 입력 뉴론이 9개이고 출력 뉴론이 1개인 피드 포워드 다층 퍼셉트론(feed-forward multi-layer perceptron)이 사용된다. 중간층들은, 예를 들어 첫번째 층은 5개의 뉴론, 두번째 층은 2개의 뉴론들을 구비하는 것으로 선택될 수 있다. 신경회로망은 이미 알고있는 유성음 신호로부터 추출된 9개의 파라미터들을 입력으로하여 유성음 신호로 분류하도록 미리 학습한다. 학습이 완료되면, 식별하고자하는 오디오 신호로부터 추출된 9개의 파라미터들을 입력으로하여, 오디오 신호가 유성음인지의 여부를 판별한다. 신경망의 출력값은 현재 신호가 유성음인지 아닌지에 대한 사후 확률(posterior probability)을 나타낸다. 예를 들어서 사후 확률에 대한 평균 결정 값을 0.5라고 한다면, 0.5보다 크거나 같은 사후확률에 대해서는 유성음으로 작은 사후확률에 대해서는 유성음이 아닌 다른 소리로 판단한다.

표 1 21개의 21개의 소리 효과(sound effect) CD들과 RWCP(Real World Computing Partnership) 데이터베이스로부터 수집한 주변 환경 소리 인식 데이터베이스를 기초로 실험한 결과를 나타낸 것이다. 데이터 세트의 조건은 모노 톤이고, 샘플링 비는 16이며 데이터 크기는 16비트이다. 영어, 불어, 스페인어, 러시아어 등을 포함한 다양한 언어로 대화, 읽기, 방송 등을 포함한 남자의 말소리에 대해 단어 하나에서부터 수 분에 달하는 긴 독백까지 200개 이상의 토큰(token)을 얻은 것이다.

내용		토큰
방송		50
불어 방송		10
대화	영어	50
	불어	20
	스페인어	10
	이탈리아어	5
	일본어	2
	독일어	2
	러시아어	2
	헝가리어	2
	유대어	2
	광동어	2
말소리		60

여기서, 방송은 뉴스, 날씨, 교통, 상업광고, 스포츠 등을 포함하고, 불어 방송은 뉴스와 날씨를 포함한 것이다. 말소리는 법정, 교회, 경찰서, 병원, 카지노, 영화, 간호, 교통 등과 관련한 상황에서 발생하는 것들을 포함한다.

표 2는 여자의 말소리에 대해 얻은 200개 이상의 토큰을 도시한 것이다.

내용		토큰
방송		30
다른 언어로 뉴스 방송		16
대화	영어	70
	이탈리아어	10
	스페인어	20
	러시아어	7
	불어	8
	스웨덴어	2
	독일어	2
	중국어(Mandarin)	3
	일본어	2
	아랍어	1
말소리		50

여기서,뉴스 방송언어로는 이탈리아어, 중국어, 스페인어, 러시아어 등을 포함한 것이고, 말소리는 경찰서, 영화, 교통, 콜 센터(call center) 등과 관련한 상황에서 발생하는 것들을 포함한다.

사람의 소리가 아닌 다른 소리들은 가정에서의 가구, 전자기기, 실용품(utilities) 등을 포함한 음원으로부터 발생하거나 각종 충격음 또는 발소리나 사지 운동(limb movement) 등에 의해 발생되는 소리들을 포함한다.

다음 표는 실험 사용된 데이터의 전체 크기를 나타낸 것이다.

	남자 말소리	여자 말소리	다른 소리
토큰	217	221	4000
프레임	9e4	9e4	8e5
시간	1h	1h	8h

실험은 학습 세트(training set)와 테스트 세트(test set)를 서로 다르게 하여 진행되었다. 도 3a 및 도 3b는 12회의 테스트에 사용된 각 학습 세트 및 테스트 세트를 표로 나타낸 것이다. 도면에서 신경망 크기는 중간층을 두 층으로 하였을 때의 입력 뉴론 수, 첫번째 중간층 뉴론 수, 두번째 중간 층 뉴론 수 및 출력 뉴론 수를 나타낸다.

도 4는 도 3a 및 도 3b에 도시된 바에 따라 실험한 결과를 표로 나타낸 것이다. 도면에서 오경보율은 테스트 신호가 음성이 아닌데 음성으로 판별한 경우를 말한다.

도시된 바에 따르면, 7번의 테스트가 가장 좋은 성능을 보임을 알 수 있다. 1번 테스트에서는 1000개의 사람의 음성 샘플과 2000개의 다른 소리 샘플로 신경망을 학습시킨 결과 충분치 못한 음성 식별 성능을 보임을 알 수 있다. 학습 샘플이 10000 내지 80000개 정도인 다른 테스트 결과들은 비슷한 유성 식별 성능을 보임을 알 수 있다.

도 5는 신경망에 입력되는 9개의 입력 특징들중 각각에 대한 식별 성능을 도시한 것이다. 도면에서 ZCR은 영교차율, PIT는 프레임의 피치, PIT_MEA는 피치 컨투어의 평균, PIT_VAR은 피치 컨투어의 분산, PIT_VTR은 전체 V/U 시간 길이 비, PIT_ZKB는 국부 V/U 시간 길이 비, PIT_SPE_CEN은 피치 컨투어의 진폭 스펙트럼의 중심 벡터, PIT_SPEC_BAN은 피치 컨투어의 진폭 스펙트럼의 대역폭, PIT_SPEC_ROF는 피치 컨투어의 진폭 스펙트럼의 롤오프 주파수를 나타낸다. 도시된 바에 따르면, PIT와 PIT_VTR에 대해 가장 좋은 성능을 보임을 알 수 있다.

본 발명에 따르면, 피치 컨투어 정보외에 피치 컨투어 정보의 진폭 스펙트럼으로부터 중심벡터, 대역폭 및 롤오프 주파수를 추출하여 분류기의 입력으로 사용함으로써 스피치 뿐 만 아니라 웃음, 울음과 같이 성대를 통해 생성되는 음성에 대해 보다 향성된 식별 성능을 얻을 수 있다. 따라서 사무실, 가정 등의 보안 시스템에 사용할 수 있고, 음성 인식의 경우 피치 정보를 사용하여 스피치의 시작을 감지하는 전처리에 사용할 수도 있다. 또한 통신에서 음성과 다른 소리를 식별하는 음성 교환기로 사용할 수도 있다.

Claims

입력 신호를 소정 길이의 프레임 단위로 분리하는 프레이밍부;

각 프레임별로 유성음 프레임인지 무성음 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 피치 추출부;

각 프레임별로 프레임내에서의 영교차율을 계산하는 영교차율 계산부;

상기 피치 추출부에서 결정된 유성음 프레임과 무성음 프레임의 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 파라미터 계산부; 및

상기 영교차율과 상기 파라미터 계산부에서 출력되는 파라미터들을 입력으로하여 상기 입력 신호가 음성인지의 여부를 판별하는 분류기를 포함함을 특징으로하는 음성 식별 장치.
제1항에 있어서, 상기 파라미터 계산부는

상기 유성음 프레임의 시간 길이 및 무성음 프레임의 시간 길이를 각각 구하고, 그 비를 계산하는 유성음 프레임/무성음 프레임의 시간 길이 비 계산부;

상기 피치 컨투어에 대한 평균 및 분산을 포함하는 통계적인 정보를 계산하는 피치 컨투어 정보 계산부; 및

상기 피치 컨투어의 진폭 스펙트럼에 대한 스펙트럴 특징들을 계산하는 스펙트럴 파라미터 계산부를 포함함을 특징으로하는 음성 식별 장치.
제2항에 있어서, 상기 유성음 프레임/무성음 프레임의 시간 길이 비 계산부는

하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 구하는 기능을 구비함을 특징으로하는 음성 식별 장치.
제3항에 있어서, 상기 유성음 프레임/무음성 프레임의 시간 길이 비 계산부는

전체 프레임 카운터 및 국부 프레임 카운터를 구비하고, 새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 프레임 카운터를 리셋하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 프레임 카운터를 리셋하는 기능을 구비함을 특징으로하는 음성 식별 장치
제3항에 있어서, 상기 음성 프레임/무음성 프레임의 시간 길이 비 계산부는

매 프레임마다 전체 유성음/무성음 시간 길이 비를 갱신하고, 유성음 프레임에서 무성음 프레임으로 전이될 때마다 국부 유성음/무성음 시간 길이 비를 갱신하는 것을 특징으로하는 음성 식별 장치.
제2항에 있어서, 상기 피치 컨투어 정보 계산부는

새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산을 초기화하는 기능을 구비함을 특징으로하는 음성 식별 장치.
제6항에 있어서, 상기 피치 컨투어 정보 계산부는

상기 피치 컨투어의 평균 및 분산의 초기화를 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 수행하는 기능을 구비함을 특징으로하는 음성 식별 장치.
제6항에 있어서, 상기 피치 컨투어 정보 계산부는

상기 피치 컨투어의 평균과 분산을 초기화한 후, 다음 식

여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레 임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 각각 나타내고, Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무음성 프레임이면 0임

과 같이 갱신하는 기능을 구비함을 특징으로하는 음성 식별 장치.
제2항에 있어서, 상기 스펙트럴 파라미터 계산부는

상기 피치 컨투어의 진폭 스펙트럼을 고속 푸리에 변환하고, 그 결과인 f(u)에 대해 중심 벡터 C, 대역폭 B, 또는 롤오프 주파수 SRF를 각각 다음 식

과 같이 구하는 기능을 구비함을 특징으로하는 음성 식별 장치.
제1항에 있어서, 상기 분류기는

복수의 층과 각 층에 복수의 뉴론을 구비하여 음성신호를 판별하도록 미리 학습한 결과를 기반으로하여, 상기 영교차율 계산부 및 상기 파라미터 계산부로부터 출력되는 파라미터들로부터 상기 입력신호가 음성인지의 여부를 판별하는 신경 망임을 특징으로하는 음성 식별 장치.
제11항에 있어서, 상기 분류기는

상기 파라미터들의 동기를 맞추기위한 동기화부를 입력측에 더 구비함을 특징으로하는 음성 식별 장치.
입력 신호를 소정 길이의 프레임 단위로 분리하는 단계;

각 프레임별로 유성음 프레임인지 무음성 프레임인지의 여부를 결정하고, 상기 프레임에 대해 피치 컨투어를 추출하는 단계;

각 프레임별로 프레임내에서의 영교차율을 계산하는 단계;

상기 단계에서 결정된 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 상기 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 계산하는 단계; 및

상기 단계들에서 출력되는 각종 파라미터들로부터 상기 입력 신호가 음성인지의 여부를 판별하는 단계를 포함함을 특징으로하는 음성 식별 방법.
제12항에 있어서, 상기 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비의 계산은

하나의 유성음 프레임에 대한 하나의 무성음 프레임의 시간 길이 비인 국부 유성음 프레임/무성음 프레임 시간 길이 비와 전체 유성음 프레임들에 대한 전체 무성음 프레임들의 시간 길이 비인 전체 유성음 프레임/무성음 프레임 시간 길이 비를 계산하는 것을 특징으로하는 음성 식별 방법.
제13항에 있어서,

새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료될 때마다 상기 전체 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋하고,

유성음 프레임에서 무성음 프레임으로 전이될 때마다 상기 국부 유성음/무성음 프레임 시간 길이 비의 계산을 위해 누적되어 카운팅되는 유성음 프레임 및 무성음 프레임 수를 리셋함을 특징으로하는 음성 식별 방법.
제14항에 있어서,

상기 전체 유성음/무성음 시간 길이 비를 매 프레임마다 갱신하고, 상기 국부 유성음/무성음 시간 길이 비를 유성음 프레임에서 무성음 프레임으로 전이될 때마다 갱신함을 특징으로하는 음성 식별 방법.
제12항에 있어서, 상기 피치 컨투어 정보는

새로운 신호가 입력될 때마다 또는 이전 신호 세그먼트가 종료되었을 때마다 상기 피치 컨투어의 평균과 분산이 초기화됨을 특징으로하는 음성 식별 방법.
제16항에 있어서,

상기 피치 컨투어의 평균 및 분산의 초기화는 각각 첫번 째 프레임의 피치값과 첫번째 프레임의 피치값을 제곱하여 이루어짐을 특징으로하는 음성 식별 방법.
제17항에 있어서, 상기 피치 컨투어의 평균 및 분산은 다음 식

여기서, u(Pt, t)는 t시간의 피치 컨투어에 대한 평균, N은 카운트되는 프레임 수, u2(Pt,t)는 평균의 제곱값, var(Pt,t)는 t시간의 피치 컨투어에 대한 분산을 각각 나타내고, Pt는 피치 컨투어로 유성음 프레임이면 피치값을 갖고, 무음성 프레임이면 0임

과 같이 갱신됨을 특징으로하는 음성 식별 방법.
제12항에 있어서, 상기 스펙트럴 특징들은

상기 피치 컨투어의 진폭 스펙트럼에 대한 중심 벡터, 대역폭 또는 롤오프 주파수를 포함하고,

상기 피치 컨투어의 진폭 스펙트럼을 고속 푸리에 변환하는 단계; 및

상기 고속 푸리에 변환 결과인 f(u)에 대해 상기 중심 벡터 C, 대역폭 B, 또 는 롤오프 주파수 SRF를 각각 다음 식

과 같이 계산하는 단계를 수행하여 구하는 것을 특징으로하는 음성 식별 방법.
제12항에 있어서, 상기 음성으로 판별하는 단계는

소정 음성신호들로부터 상기 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;

추출된 파라미터들을 소정 크기의 신경망의 입력으로하여 음성신호로 분류하도록 상기 신경망을 학습시키는 단계;

상기 입력 신호에 대한 영교차율, 유성음 프레임 및 무성음 프레임에 대한 시간 길이의 비, 피치 컨투어에 대한 통계적인 정보 및 스펙트럴 특징들을 포함하는 파라미터들을 추출하는 단계;

추출된 파라미터들을 학습이 완료된 신경망에 입력하는 단계; 및

상기 신경망의 출력을 소정 기준값과 비교하여 상기 입력신호가 음성인지를 판별하는 단계를 구비함을 특징으로하는 음성 식별 방법.
제12항에 있어서, 상기 음성으로 판별하는 단계는

상기 각종 파라미터들의 동기를 맞추는 단계를 더 구비함을 특징으로하는 음성 식별 방법.