KR100304665B1

KR100304665B1 - 피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법

Info

Publication number: KR100304665B1
Application number: KR1019990007255A
Authority: KR
Inventors: 김경선; 공병구
Original assignee: 윤종용; 삼성전자 주식회사
Priority date: 1999-03-05
Filing date: 1999-03-05
Publication date: 2001-09-26
Also published as: KR20000059560A

Abstract

본 발명은 한글 연속 숫자음 인식 성능의 향상과 단음절 음성의 모음 인식, 화자 식별을 위한 인식 방법 및 장치, 그리고 피치 웨이브 특징을 추출하는 방법 및 장치에 관한 내용이다. 본 발명은 피치 웨이브 특징 추출기, 피치 웨이브 코퍼스 생성기, 피치 웨이브 인식기, 피치 웨이브 화자 식별기로 구성되어 있다.

피치 웨이브 특징 추출기는 입력 음성의 모음 부분을 선별해서 피치를 계산한 다음 피치 웨이브를 끄집어 내어 최대 피크치 값으로 피치 웨이브를 정규화시킨다. 피치 웨이브를 끄집어 내는 과정은 전체 단음절 입력 음성에 대해서 수행되며 정규화된 피치 웨이브들은 피치 웨이브 코퍼스를 선정하기 위한 데이타베이스로 사용된다. 피치 웨이브 코퍼스 생성기는 각 클래스별로 특정 개수 만큼의 코퍼스를 피치 웨이브 데이터베이스 중에서 DTW 방식을 이용하여 생성하는 일을 수행한다. 피치 웨이브 인식기는 단음절 입력 음성으로부터 피치 웨이브 특징을 추출한 후 저장되어 있는 각 클래스별 다수 개의 피치 웨이브 코퍼스들과 비교해서 결정 규칙에 의해 가장 가까운 클래스 식별자를 출력한다. 피치 웨이브 화자 식별기는 각 화자별로 미리 정해진 단어 발성으로 코퍼스 인덱스를 구해 화자 식별용 데이터베이스로 저장하고, 화자 식별 데이터베이스를 이용해 해당 코퍼스간의 유사도 합을 이용해서 등록 화자 여부와 화자 식별자를 결정한다.

Description

피치 웨이브 특성을 이용한 음성 인식 장치 및 그 방법{Apparatus and method of speech recognition using pitch-wave feature}

본 발명은 음성 인식 및 화자 식별장치 및 그 방법에 관한 것으로서, 특히 피치 웨이브 특성을 이용한 음성 인식장치 및 화자 식별장치, 그리고 그 방법들에 관한 것이다.

도 1은 종래의 기술에 의한 음성 인식장치의 구성을 도시한 것이다. 도 1에 의하면, 스펙트럼 특징 추출기(10)는 테스트 음성으로부터 스펙트럼 특징을 추출하고, 히든 마코프 모델(Hidden Markov Model:이하에서 HMM이라 한다) 또는 동적 시간 워핑(Dynamic Time Warping:이하에서 DTW라 한다) 방식의 인식기(12)는 추출된 스펙트럼 특징을 이용하여 테스트 음성이 속하는 클래스의 식별자를 출력한다.

그런데, 한국어 숫자음은 타 언어의 숫자음과는 달리 단음절로만 구성되어 있어 종래의 기술에 의한 음성 인식장치에 의해서는 인식 성능의 정확성이 현저히 떨어진다. 예를 들면, “오(5)”음과 “구(9)”음의 경우 초성이 다르긴 하지만 그 길이가 짧아, 약간의 잡음 성분만 첨가되더라도 초성의 유무가 혼돈될 여지가 많다. 더우기, “오(5)”음은 연속 숫자음으로 발성되는 경우 “고”, “로” 또는 “모” 등으로 발성되는 경우도 있는데, 이러한 경우 초성음에 해당되는 특징 벡터의 일관성이 떨어뜨려 “오(5)”음과 “구(9)”음을 구별함에 있어 나쁜 영향을 주게 된다. 이런 이유로 해서, “오(5)”음과 “구(9)”음의 인식은 초성 성분이 아니라 주로 모음 성분으로 결정된다. 그런데, 이때 인식 특징으로 사용되는 “오(5)”음과 “구(9)”음의 스펙트럼 정보가 유사하여 HMM이나 DTW 등을 이용한 기존의 음성 인식 방법으로는 좋은 결과를 얻기가 어렵다.

본 발명은 상기의 문제점을 해결하기 위해 창작된 것으로서, 음성 인식장치 및 화자 식별장치에서 사용되는 피치 웨이브를 정확히 추출하는 피치 웨이브 추출장치 및 그 방법을 제공함을 제1목적 및 제2목적으로 한다.

또한, 상기 피치 웨이브를 이용하여 피치 웨이브 코퍼스를 생성하는 피치 웨이브 코퍼스 생성장치 및 그 방법을 제공함을 제3목적 및 제4목적으로 한다.

또한, 피치 웨이브 특성을 이용함으로써 모음을 보다 정확히 인식할 수 있는 피치 웨이브 특성을 이용한 음성 인식장치 및 그 방법을 제공함을 제5목적 및 제6목적으로 한다.

또한, 모음을 정확히 구별함으로써 화자를 정확히 식별할 수 있는 피치 웨이브 특성을 이용한 화자 식별장치 및 그 방법을 제공함을 제7목적 및 제8목적으로 한다.

또한, 상기 음성 인식장치를 이용하여 한국어의 연속 숫자음을 정확히 인식할 수 있는 음성 인식장치 및 그 방법을 제공함을 제9목적 및 제10목적으로 한다.

도 1은 종래 기술에 의한 연속 숫자음 인식을 위한 음성 인식장치의 구성을 도시한 블록도이다.

도 2는 본 발명에 의한 피치 웨이브 추출기의 일실시예의 구성 및 각 구성요소에 의해 생성되는 파형을 도시한 도면이다.

도 3은 본 발명에 의한 피치 웨이브 코퍼스 생성기의 일실시예의 구성을 도시한 블록도이다.

도 4a는 본 발명에 의한 클래스별 피치 웨이브 코퍼스 과정을 도시한 순서도이다.

도 4b는 대표 피치 웨이브와 종속 피치 웨이브의 관계를 도시한 도면이다.

도 5는 본 발명에 의한 피치 웨이브를 이용한 음성 인식장치의 일실시예에서 피치 웨이브 코퍼스를 등록하는 과정을 도시한 도면이다.

도 6은 본 발명에 의한 피치 웨이브를 이용한 음성 인식장치의 일실시예에서 테스트 음성을 인식하는 과정을 도시한 도면이다.

도 7은 본 발명에 의한 피치 웨이브를 이용한 화자 식별장치의 일실시예에서 피치 웨이브 화자를 등록하는 과정을 도시한 도면이다.

도 8은 본 발명에 의한 피치 웨이브를 이용한 화자 식별장치의 일실시예에서 화자를 식별하는 과정을 도시한 도면이다.

도 9는 본 발명에 의한 피치 웨이브 음성 인식장치를 이용한 연속 숫자음 인식장치의 구성을 도시한 블록도이다.

상기의 제1목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브 추출장치의 일실시예는 입력음을 소정의 샘플 크기로 나누어 각 프레임별 에너지를 구하는 프레임 에너지 계산부; 상기 입력음에 대한 전체 프레임에서 최대 에너지 프레임, 최대 에너지 프레임의 직전 프레임 및 최대 에너지 프레임의 직전 프레임으로 구성되는 최대 프레임 에너지 구간을 선정하는 최대 프레임 에너지 선정부; 상기 최대 에너지 구간에서 피치를 계산하여, 하나의 피치 구간 내의 샘플을 추출하는 프레임 내 피치 검출기; 및 상기 하나의 피치 구간 내의 샘플을 최대 양수 피크값으로 나누어 피치 웨이브를 생성하는 피치 웨이브 생성부를 포함함을 특징으로 한다.

상기의 제2목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브 추출방법의 일실시예는 (a) 입력음을 소정의 샘플 크기로 나누어 각 프레임별 에너지를 구하는 단계; (b) 입력음에 대한 전체 프레임에서 최대 에너지 프레임, 최대 에너지 프레임의 직전 프레임 및 최대 에너지 프레임의 직전 프레임으로 구성되는 최대 프레임 에너지 구간을 선정하는 단계; (c) 상기 최대 에너지 구간에서 피치를 계산하여, 하나의 피치 구간 내의 샘플을 추출하는 단계; 및 (d) 상기 하나의 피치 구간 내의 샘플을 최대 양수 피크값으로 나누어 피치 웨이브를 생성하는 단계를 포함함을 특징으로 한다.

상기의 제3목적을 달성하기 위하여, 본 발명에 의한 다수의 피치 웨이브를 입력받아 피치 웨이브 코퍼스를 생성하는 장치의 일실시예는 다수의 피치 웨이브들을 차례로 입력받아, 입력된 피치 웨이브와 기존의 대표 피치 웨이브의 유사도가소정의 문턱값 이상이면 상기 기존의 대표 피치 웨이브의 종속 피치 웨이브 리스트에 등록하고, 소정의 문턱값보다 작으면 새로운 대표 피치 웨이브 리스트에 등록하는 피치 웨이브 구별부; 상기 피치 웨이브 구별부에 제어를 받아 피치 웨이브들간의 유사도를 계산하는 유사도 계산부; 및 각 대표 피치 웨이브에 대응하는 종속 피치 웨이브들을 샘플 길이별로 분류하고, 가장 빈도수가 많은 샘플 길이에 대응하는 종속 피치 웨이브의 평균을 구하여 피치 웨이브 코퍼스로 설정하는 피치 웨이브 코퍼스 생성부를 포함함을 특징으로 한다.

상기의 제4목적을 달성하기 위하여, 본 발명에 의한 다수의 피치 웨이브를 입력받아 피치 웨이브 코퍼스를 생성하는 방법의 일실시예는 (a) 다수의 피치 웨이브들을 차례로 입력받아, 입력된 피치 웨이브와 기존의 대표 피치 웨이브의 유사도가 소정의 문턱값 이상이면 상기 기존의 대표 피치 웨이브의 종속 피치 웨이브로, 소정의 문턱값보다 작으면 새로운 대표 피치 웨이브로 구별하는 단계; 및 (b) 각 대표 피치 웨이브에 대응하는 종속 피치 웨이브들을 샘플 길이별로 분류하고, 가장 빈도수가 많은 샘플 길이에 대응하는 종속 피치 웨이브의 평균을 구하여 피치 웨이브 코퍼스로 설정하는 단계를 포함함을 특징으로 한다.

상기의 제5목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브를 이용한 음성 인식장치의 일실시예는 입력음으로부터 피치 웨이브를 추출하는 피치 웨이브 추출기; 각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스; 상기 피치 웨이브 코퍼스 데이터베이스에 저장된 피치 웨이브 코퍼스별로 상기 피치 웨이브 추출기에 의해 추출된 피치 웨이브와 상기 피치 웨이브 코퍼스의 유사도를 계산하는 코퍼스별 유사도 계산기; 및 상기 유사도가 가장 큰 피치 웨이브 코퍼스, 상기 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값을 이용하여 클래스 식별자를 결정하는 클래스 결정부를 포함함을 특징으로 한다.

상기의 제6목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브를 이용한 음성 인식방법은 (a) 입력음으로부터 피치 웨이브를 추출하는 단계; (b) 각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스에 저장된 피치 웨이브 코퍼스별로 상기 피치 웨이브와 상기 피치 웨이브 코퍼스의 유사도를 계산하는 단계; 및 (c) 유사도가 가장 큰 피치 웨이브 코퍼스를 포함하는 제1클래스를 상기 입력음의 클래스로 결정하되, 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수가 가장 많은 제2클래스 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값이 가장 큰 제3클래스가 모두 상기 제1클래스와 다르고 제2클래스와 제3클래스가 동일한 경우에는 제2클래스를 상기 입력음의 클래스로 결정하는 단계를 포함함을 특징으로 한다.

상기의 제7목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브를 이용한 화자 식별장치의 일실시예는 클래스가 정해진 입력음으로부터 피치 웨이브를 추출하는 피치 웨이브 추출기; 각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스; 다수의 화자에 대하여 각 클래스별로 상기 피치 웨이브 코퍼스 데이터베이스에서 최대 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스 및 최소 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스를 저장하는 화자식별용 코퍼스리스트 데이터베이스; 상기 화자식별용 코퍼스리스트 데이터베이스 및 상기 피치 웨이브 코퍼스 데이터베이스를 이용하여 상기 입력음에 대응하는 클래스의 화자별 최대 유사도를 갖는 피치 웨이브 코퍼스 및 최소 유사도를 갖는 피치 웨이브 코퍼스를 액세스하여, 화자별로 상기 피치 웨이브와 상기 최대 유사도를 갖는 피치 웨이브 코퍼스의 제1유사도 및 상기 피치 웨이브와 상기 최소 유사도를 갖는 피치 웨이브 코퍼스의 제2유사도를 계산하는 화자별 유사도 계산기; 및 상기 제1유사도가 소정의 제1문턱치보다 크고, 상기 제2유사도가 소정의 제2문턱치보다 작은 화자들 중 상기 제1유사도가 가장 큰 화자를 상기 입력음의 화자로 결정하여 결정된 화자의 식별자를 출력하는 화자 결정부를 포함함을 특징으로 한다.

상기의 제8목적을 달성하기 위하여, 본 발명에 의한 피치 웨이브를 이용한 화자 식별방법의 일실시예는 (a) 클래스가 정해진 입력음으로부터 피치 웨이브를 추출하는 단계; (b) 화자식별용 코퍼스리스트 데이터베이스 및 피치 웨이브 코퍼스 데이터베이스를 이용하여 상기 입력음에 대응하는 클래스의 화자별 최대 유사도를 갖는 피치 웨이브 코퍼스 및 최소 유사도를 갖는 피치 웨이브 코퍼스를 액세스하여, 화자별로 상기 피치 웨이브와 상기 최대 유사도를 갖는 피치 웨이브 코퍼스의 제1유사도 및 상기 피치 웨이브와 상기 최소 유사도를 갖는 피치 웨이브 코퍼스의 제2유사도를 계산하는 단계; 및 (c) 상기 제1유사도가 소정의 제1문턱치보다 크고, 상기 제2유사도가 소정의 제2문턱치보다 작은 화자들 중 상기 제1유사도가 가장 큰 화자를 상기 입력음의 화자로 결정하여 결정된 화자의 식별자를 출력하는 단계를 포함함을 특징으로 한다.

이하에서 첨부된 도면을 참조하여 본 발명을 상세히 설명한다.

피치 웨이브는 하나의 피치 내의 샘플 값들을 그 피치 내의 최대 양수 피크 값으로 나누어 -1.0 과 1.0 사이의 수로 정규화한 피치 파형을 의미한다. 도 2(a)는 연속 숫자음 음성에서 “오(5)”발성에 해당되는 피치 웨이브 추출장치의 일실시예를 도시한 것이고, 도 2(b)는 도 2(a)의 각 구성요소에서 출력하는 파형을 나타낸 것이다. 도 2(a)에 의하면, 본 발명에 의한 피치 웨이브 추출장치의 일실시예는 프레임 에너지 계산부(20), 최대 프레임 에너지 선정부(22), 프레임 내 피치 검출기(24) 및 피치 웨이브 생성부(26)를 포함하여 구성된다.

프레임 에너지 계산부(20)는 입력 숫자음을 160 샘플 크기로 나누어 각 프레임별 에너지를 구하고, 최대 프레임 에너지 선정부(22)는 전체 프레임에서 최대 프레임 에너지 구간을 선정한다. 이 구간은 최대 에너지 프레임과 이웃하는 프레임으로 구성된다. 바람직하게, 이 구간은 최대 에너지 프레임, 최대 에너지 프레임의 직전 프레임 및 최대 에너지 프레임의 직후 프레임으로 구성된다. 프레임 내 피치 검출기(24)는 480 샘플로 구성된 최대 에너지 구간에서 피치를 계산한다. 본 실시예에서 프레임 내 피치 검출기(24)는 자기상관(Autocorrelation)을 이용한 시간영역 피치 결정 알고리듬(Time Doamin Pitch Determination Algorithm)을 이용하여 피치를 계산한다. 피치가 구해지면 하나의 피치 구간 내의 샘플을 추출한다. 이때, 최대 양수 피크값이 제일 앞에 오도록 한다. 피치 웨이브 생성부(26)는 하나의 피치 구간 내의 샘플을 최대 양수 피크값으로 나누어 피치 웨이브를 생성한다. 이러한 피치 웨이브 추출은 전체 음성에 대해서 각 클래스 별로 수행하여 클래스 별 피치 웨이브 데이터베이스(28)를 생성한다. 본 발명의 일실시예에서는 클래스를 한글 모음 17개에 의해 분류한다.

피치 웨이브 코퍼스는 클래스별 대표 피치 웨이브를 의미한다. 도 3에 의하면, 본 발명에 의한 다수의 피치 웨이브를 입력받아 피치 웨이브 코퍼스를 생성하는 피치 웨이브 코퍼스 생성장치의 일실시예는 피치 웨이브 구별부(30), 유사도 계산부(32) 및 피치 웨이브 코퍼스 생성부(34)를 포함하여 구성된다.

피치 웨이브 구별부(30)는 피치 웨이브를 차례로 입력받아, 입력된 피치 웨이브와 기존의 대표 피치 웨이브의 유사도가 소정의 문턱값 이상이면 기존의 대표 피치 웨이브의 종속 피치 웨이브 리스트에 등록하고, 소정의 문턱값보다 작으면 새로운 대표 피치 웨이브 리스트에 등록한다. 유사도 계산부(32)는 피치 웨이브 구별부(30)에 제어를 받아 피치 웨이브들간의 유사도를 DTW 방식에 의해 계산한다. 그리고, 피치 웨이브 코퍼스 생성부(34)는 각 대표 피치 웨이브에 대응하는 종속 피치 웨이브들을 샘플 길이별로 분류하고, 가장 빈도수가 많은 샘플 길이에 대응하는 종속 피치 웨이브의 평균을 구하여 피치 웨이브 코퍼스로 설정한다.

도 4a는 클래스별 피치 웨이브 코퍼스 생성 과정을 설명해 주는데, 이는 클래스별로 저장되어 있는 피치 웨이브 데이터베이스에서 대표 피치 웨이브와 종속 피치 웨이브를 선정한 다음 클래스별 피치 웨이브 코퍼스를 생성하는 과정으로 이루어진다. 대표 피치 웨이브와 종속 피치 웨이브를 선정하는 방법은 입력 피치 웨이브가 현 시점의 대표 피치 웨이브들과 유사도를 계산하여(400 단계), 유사한 정도가 크면 특정 대표 피치 웨이브의 종속 피치 웨이브로 선정된다(410, 420 단계). 한편, 유사한 정도가 작으면 대표 피치 웨이브 리스트에 추가된다(410, 430 단계). 이 과정은 마지막 피치 웨이브까지 동일하게 수행되며, 매 피치 웨이브 마다 대표피치 웨이브 리스트나 종속 피치 웨이브 리스트가 갱신된다(440 단계). 여기서 피치 웨이브 간의 유사도를 구하는 방법은 피치값의 차이나 피치 파형의 미세한 시간 왜곡에 의한 영향을 최소화하기 위해서 DTW방식을 이용한다. 마지막 피치 웨이브가 처리된 후, 생성된 대표 피치 웨이브와 거기에 종속된 종속 피치 웨이브를 이용하여 피치 웨이브 코퍼스를 생성한다(450 단계). 즉, 종속 피치 웨이브 중 샘플 길이별 피치 웨이브 수가 가장 많은 샘플 길이에 대응하는 종속 피치 웨이브들의 평균을 구해 피치 웨이브 코퍼스를 생성한다. 도 4b는 대표 피치 웨이브와 종속 피치 웨이브의 관계를 도시한다. 도 4b에서 사각형은 대표 피치 웨이브를 나타내고, 원형은 종속 피치 웨이브를 나타낸다.

도 5 및 도 6에 의하면, 본 발명에 의한 피치 웨이브를 이용한 음성 인식장치의 일실시예는 피치 웨이브 추출기(50), 피치 웨이브 코퍼스 생성기(52), 피치 웨이브 코퍼스 데이터베이스(54), 코퍼스별 유사도 계산기(60) 및 클래스 결정부(62)를 포함하여 구성된다. 피치 웨이브 추출기(50)는 입력음으로부터 피치 웨이브를 추출하고, 피치 웨이브 코퍼스 생성기(52)는 피치 웨이브 추출기(50)에 의해 추출된 피치 웨이브를 이용하여 피치 웨이브 코퍼스를 생성하여 피치 웨이브 코퍼스 데이터베이스(54)에 저장한다. 따라서, 피치 웨이브 코퍼스 데이터베이스(54)는 각 클래스별로 피치 웨이브 코퍼스들을 저장한다. 코퍼스 별 유사도 계산기(60)는 피치 웨이브 코퍼스 데이터베이스(54)에 저장된 피치 웨이브 코퍼스별로 피치 웨이브 추출기(50)에 의해 추출된 피치 웨이브와의 유사도를 계산한다. 클래스 결정부(62)는 유사도가 가장 큰 피치 웨이브 코퍼스, 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값을 이용하여 클래스 식별자를 결정한다. 즉, 클래스 결정부(62)는 유사도가 가장 큰 피치 웨이브 코퍼스를 포함하는 제1클래스를 입력음의 클래스로 결정한다. 그러나, 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수가 가장 많은 제2클래스 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값이 가장 큰 제3클래스가 모두 제1클래스가 다르고, 제2클래스와 제3클래스가 동일한 경우에는, 제2클래스를 입력음의 클래스로 결정한다. 이 방식은 최대 유사도를 갖는 피치 웨이브 코퍼스만으로 클래스 식별자를 결정하는 방식보다 좀더 결과의 안정성이 있다.

도 5에 의하면, 피치 웨이브 코퍼스 등록과정은 피치 웨이브 추출기(50)와 클래스별 피치 웨이브 코퍼스 생성기(52)에 의해 이루어진다. 이때, 모든 클래스에 대해 일정한 유사도 문턱치를 가지고 유사도 여부를 결정하기 때문에, 코퍼스 수는 클래스마다 달라진다. 유사도 문턱치는 최소 코퍼스 수가 32이상이 되도록 실험적으로 구한다. 이러한 방식에 의하면, 참조 음성의 추가에 따라 쉽게 피치 웨이브 코퍼스를 생성시킬 수 있다. 전체 피치 웨이브 코퍼스의 수는 각 클래스별 피치 웨이브 코퍼스 수의 합으로서, 500개에서 1000개 정도가 바람직하다.

도 6은 피치 웨이브 인식 과정으로 피치 웨이브 추출기(50), 코퍼스별 유사도 계산기(60) 및 클래스 결정부(62)에 의해 이루어진다.

도 7 및 도 8에 의하면, 본 발명에 의한 피치 웨이브를 이용한 화자 식별장치의 일실시예는 피치 웨이브 추출기(70), 피치 웨이브 코퍼스 데이터베이스(54),코퍼스별 유사도 계산기(72), 화자식별용 코퍼스리스트 생성부(74), 화자식별용 코퍼스리스트 데이터베이스(76), 화자별 유사도 계산기(80) 및 화자 결정부(82)를 포함하여 구성된다.

피치 웨이브 추출기(70)는 클래스가 정해진 입력음으로부터 피치 웨이브를 추출한다. 피치 웨이브 코퍼스 데이터베이스(54)는 각 클래스별로 피치 웨이브 코퍼스들을 저장한다. 코퍼스별 유사도 계산기(72)는 피치 웨이브 코퍼스 데이터베이스(54) 에서 입력음의 클래스에 대응하는 피치 웨이브 코퍼스들과 피치 웨이브의 유사도를 계산하여 최대 유사도를 갖는 제1 피치 웨이브 코퍼스 및 최소 유사도를 갖는 제2 피치 웨이브 코퍼스를 선정한다. 화자식별용 코퍼스리스트 생성부(74)는 피치 웨이브 코퍼스 데이터베이스(54)에서의 제1 피치 웨이브 코퍼스의 인덱스 및 제2 피치 웨이브 코퍼스의 인덱스를 화자식별용 코퍼스리스트 데이터베이스(76) 내의 입력음을 발성한 화자에 대한 입력음의 클래스에 저장한다. 화자식별용 코퍼스리스트 데이터베이스(76)는 다수의 화자에 대하여 각 클래스별로 피치 웨이브 코퍼스 데이터베이스(54)에서 최대 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스 및 최소 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스를 저장한다. 화자별 유사도 계산기(80)는 화자식별용 코퍼스리스트 데이터베이스(76) 및 피치 웨이브 코퍼스 데이터베이스(54)를 이용하여 입력음에 대응하는 클래스의 화자별 최대 유사도를 갖는 피치 웨이브 코퍼스 및 최소 유사도를 갖는 피치 웨이브 코퍼스를 액세스하여, 피치 웨이브와 최대 유사도를 갖는 피치 웨이브 코퍼스의 제1유사도 및 피치 웨이브와 최소 유사도를 갖는 피치 웨이브 코퍼스의 제2유사도를 계산한다. 화자 결정부(82)는 제1유사도가 소정의 제1문턱치보다 크고, 제2유사도가 소정의 제2문턱치보다 작은 화자들 중 제1유사도가 가장 큰 화자를 입력음의 화자로 결정하여 결정된 화자의 식별자를 출력한다.

도 7은 피치 웨이브 화자 등록 과정으로 피치 웨이브 추출기(70)와 코퍼스별 유사도 계산기(72) 및 화자식별용 코퍼스리스트 생성부(74)에 의해 이루어진다. 각 클래스별로 코퍼스 유사도가 계산된 후, 최대 유사도 값을 가지는 피치 웨이브 코퍼스의 인덱스와 최소 유사도 값을 가지는 피치 웨이브 코퍼스 인덱스를 구한다. 이것을 각 화자별로 화자식별용 코퍼스리스트 데이터베이스(76)에 저장한다.

도 8은 피치 웨이브 화자 식별 과정으로 피치 웨이브 추출기(70), 화자별 유사도 계산기(80), 화자 결정부(82)에 의해 이루어진다. 화자별 유사도 계산 과정에서는 화자식별용 코퍼스리스트 데이터베이스를 이용하여 해당 피치 웨이브 코퍼스들과 입력 피치 웨이브들간의 유사도를 구한다. 이러한 과정은 정해진 단어에 포함된 모든 음에 대하여 반복되며, 각 음에 대하여 화자별로 최대 유사도 코퍼스 리스트에 의해 구해진 유사도는 제1유사도에 합하여지고, 최소 유사도 코퍼스 리스트를 이용해서 구해진 유사도는 제2유사도에 합하여진다. 이와같이 계산된 각 화자별 제1유사도 및 제2유사도를 이용하여 등록 화자 여부와 화자 식별자를 결정한다.

도 9에 의하면, 본 발명에서는 한글 숫자음 인식 성능 향상을 위해 도 6에 도시된 피치 웨이브 인식기(94)를 스펙트럼 특징 추출기(90) 및 HMM 또는 DTW 방식의 인식기(92)로 구성된 기존 인식기의 후단에 설치할 수 있다. 이런 방식은 피치웨이브 인식기가 모음 성분을 정확히 인식하여 “오(5)”,“구(9)” 발성에 대한 인식 성능을 향상시키는 결과를 얻게 된다.

본 발명에 의한 피치 웨이브 인식 방법은 기존의 방법보다 작은 계산량으로 모음 인식을 가능케 한다. 그 이유는 본 발명에 의한 피치 웨이브 추출 방법이 스펙트럼 도메인으로의 전환을 필요로 하지 않으며, 피치 웨이브 특징 벡터가 기존 방식에서 사용되는 스펙트럼 특징 벡터의 요소 수보다 적기 때문이다.

Claims

입력음을 소정의 샘플 크기로 나누어 각 프레임별 에너지를 구하는 프레임 에너지 계산부;

상기 입력음에 대한 전체 프레임에서의 최대 에너지 프레임과 그 이웃하는 소정수의 프레임들로 구성된 최대 프레임 에너지 구간을 선정하는 최대 프레임 에너지 선정부;

상기 최대 에너지 구간에서 피치를 계산하여, 하나의 피치 구간 내의 샘플을 추출하는 프레임 내 피치 검출기; 및

상기 하나의 피치 구간 내의 샘플을 최대 양수 피크값으로 나누어 피치 웨이브를 생성하는 피치 웨이브 생성부를 포함함을 특징으로 하는 피치 웨이브 추출장치.
제1항에 있어서, 상기 프레임 내 피치 검출기는

자기상관을 이용한 시간영역 피치 결정 알고리듬을 이용하여 피치를 계산하는 것을 특징으로 하는 피치 웨이브 추출장치.
제1항에 있어서, 상기 프레임 내 피치 검출기는

최대 피크 값을 가지는 샘플을 피치 웨이브의 제일 앞단에 오게 하여 샘플을 추출하는 것을 특징으로 하는 피치 웨이브 추출장치.
다수의 피치 웨이브를 입력받아 피치 웨이브 코퍼스를 생성하는 장치에 있어서,

다수의 피치 웨이브들을 차례로 입력받아, 입력된 피치 웨이브와 기존의 대표 피치 웨이브의 유사도가 소정의 문턱값 이상이면 상기 기존의 대표 피치 웨이브의 종속 피치 웨이브 리스트에 등록하고, 소정의 문턱값보다 작으면 새로운 대표 피치 웨이브 리스트에 등록하는 피치 웨이브 구별부;

상기 피치 웨이브 구별부에 제어를 받아 피치 웨이브들간의 유사도를 계산하는 유사도 계산부; 및

각 대표 피치 웨이브에 대응하는 종속 피치 웨이브들을 샘플 길이별로 분류하고, 가장 빈도수가 많은 샘플 길이에 대응하는 종속 피치 웨이브의 평균을 구하여 피치 웨이브 코퍼스로 설정하는 피치 웨이브 코퍼스 생성부를 포함함을 특징으로 하는 피치 웨이브 코퍼스 생성장치.
제4항에 있어서, 상기 유사도 계산부는

동적 시간 워핑 방식을 이용하여 유사도를 계산함을 특징으로 하는 피치 웨이브 코퍼스 생성장치.
입력음으로부터 피치 웨이브를 추출하는 피치 웨이브 추출기;

각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스;

상기 피치 웨이브 코퍼스 데이터베이스에 저장된 피치 웨이브 코퍼스별로 상기 피치 웨이브 추출기에 의해 추출된 피치 웨이브와 상기 피치 웨이브 코퍼스의 유사도를 계산하는 코퍼스별 유사도 계산기; 및

상기 유사도가 가장 큰 피치 웨이브 코퍼스, 상기 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값을 이용하여 클래스 식별자를 결정하는 클래스 결정부를 포함함을 특징으로 하는 피치 웨이브를 이용한 음성 인식장치.
제6항에 있어서,

상기 피치 웨이브 추출기에 의해 추출된 피치 웨이브를 이용하여 피치 웨이브 코퍼스를 생성하여 상기 피치 웨이브 코퍼스 데이터베이스에 저장하는 피치 웨이브 코퍼스 생성기를 더 포함함을 특징으로 하는 피치 웨이브를 이용한 음성 인식장치.
제6항에 있어서, 상기 클래스 결정부는

상기 유사도가 가장 큰 피치 웨이브 코퍼스를 포함하는 제1클래스를 상기 입력음의 클래스로 결정하되, 상기 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수가 가장 많은 제2클래스 및 클래스별로 유사도가 큰 상위 3개의 피치 웨이브 코퍼스의 유사도 평균값이 가장 큰 제3클래스가 모두 상기 제1클래스와 다르고 제2클래스와 제3클래스가 동일한 경우에는 제2클래스를 상기 입력음의 클래스로 결정하는 것을 특징으로 하는 피치 웨이브를 이용한 음성 인식장치.
클래스가 정해진 입력음으로부터 피치 웨이브를 추출하는 피치 웨이브 추출기;

각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스;

다수의 화자에 대하여 각 클래스별로 상기 피치 웨이브 코퍼스 데이터베이스에서 최대 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스 및 최소 유사도를 갖는 피치 웨이브 코퍼스에 대한 인덱스를 저장하는 화자식별용 코퍼스리스트 데이터베이스;

상기 화자식별용 코퍼스리스트 데이터베이스 및 상기 피치 웨이브 코퍼스 데이터베이스를 이용하여 상기 입력음에 대응하는 클래스의 화자별 최대 유사도를 갖는 피치 웨이브 코퍼스 및 최소 유사도를 갖는 피치 웨이브 코퍼스를 액세스하여, 화자별로 상기 피치 웨이브와 상기 최대 유사도를 갖는 피치 웨이브 코퍼스의 제1유사도 및 상기 피치 웨이브와 상기 최소 유사도를 갖는 피치 웨이브 코퍼스의 제2유사도를 계산하는 화자별 유사도 계산기; 및

상기 제1유사도가 소정의 제1문턱치보다 크고, 상기 제2유사도가 소정의 제2문턱치보다 작은 화자들 중 상기 제1유사도가 가장 큰 화자를 상기 입력음의 화자로 결정하여 결정된 화자의 식별자를 출력하는 화자 결정부를 포함함을 특징으로 하는 피치 웨이브를 이용한 화자 식별장치.
제9항에 있어서,

상기 피치 웨이브 코퍼스 데이터베이스에서 상기 입력음의 클래스에 대응하는 피치 웨이브 코퍼스들과 상기 피치 웨이브의 유사도를 계산하여 최대 유사도를 갖는 제1 피치 웨이브 코퍼스 및 최소 유사도를 갖는 제2 피치 웨이브 코퍼스를 선정하는 코퍼스별 유사도 계산기; 및

상기 피치 웨이브 코퍼스 데이터베이스에서의 상기 제1 피치 웨이브 코퍼스의 인덱스 및 제2 피치 웨이브 코퍼스의 인덱스를 상기 화자식별용 코퍼스리스트 데이터베이스 내의 상기 입력음을 발성한 화자에 대한 상기 입력음의 클래스에 저장하는 화자식별용 코퍼스리스트 생성부를 더 포함함을 특징으로 하는 피치 웨이브를 이용한 화자 식별장치.
(a) 입력음을 소정의 샘플 크기로 나누어 각 프레임별 에너지를 구하는 단계;

(b) 입력음에 대한 전체 프레임에서의 최대 에너지 프레임과 그 이웃하는 소정수의 프레임들로 구성된 최대 프레임 에너지 구간을 선정하는 단계;

(c) 상기 최대 에너지 구간에서 피치를 계산하여, 하나의 피치 구간 내의 샘플을 추출하는 단계; 및

(d) 상기 하나의 피치 구간 내의 샘플을 최대 양수 피크값으로 나누어 피치 웨이브를 생성하는 단계를 포함함을 특징으로 하는 피치 웨이브 추출방법.
제11항에 있어서, 상기 (c) 단계는

자기상관을 이용한 시간영역 피치 결정 알고리듬을 이용하여 피치를 계산하는 것을 특징으로 하는 피치 웨이브 추출방법.
제11항에 있어서, 상기 (c) 단계는

최대 피크값을 가지는 샘플을 피치 웨이브의 제일 앞단에 오게 하여 샘플을 추출하는 것을 특징으로 하는 피치 웨이브 추출장치.
다수의 피치 웨이브를 입력받아 피치 웨이브 코퍼스를 생성하는 방법에 있어서,

(a) 다수의 피치 웨이브들을 차례로 입력받아, 입력된 피치 웨이브와 기존의 대표 피치 웨이브의 유사도가 소정의 문턱값 이상이면 상기 기존의 대표 피치 웨이브의 종속 피치 웨이브로, 소정의 문턱값보다 작으면 새로운 대표 피치 웨이브로 구별하는 단계; 및

(b) 각 대표 피치 웨이브에 대응하는 종속 피치 웨이브들을 샘플 길이별로 분류하고, 가장 빈도수가 많은 샘플 길이에 대응하는 종속 피치 웨이브의 평균을 구하여 피치 웨이브 코퍼스로 설정하는 단계를 포함함을 특징으로 하는 피치 웨이브 코퍼스 생성방법.
제14항에 있어서, 상기 (a) 단계에서

동적 시간 워핑 방식을 이용하여 유사도를 계산함을 특징으로 하는 피치 웨이브 코퍼스 생성방법.
(a) 입력음으로부터 피치 웨이브를 추출하는 단계;

(b) 각 클래스별로 피치 웨이브 코퍼스들을 저장하는 피치 웨이브 코퍼스 데이터베이스에 저장된 피치 웨이브 코퍼스별로 상기 피치 웨이브와 상기 피치 웨이브 코퍼스의 유사도를 계산하는 단계; 및

(c) 유사도가 가장 큰 피치 웨이브 코퍼스를 포함하는 제1클래스를 상기 입력음의 클래스로 결정하되, 유사도가 소정의 문턱값보다 큰 클래스별 피치 웨이브 코퍼스의 수가 가장 많은 제2클래스 및 클래스별로 유사도가 큰 상위 3개의 피치웨이브 코퍼스의 유사도 평균값이 가장 큰 제3클래스가 모두 상기 제1클래스와 다르고 제2클래스와 제3클래스가 동일한 경우에는 제2클래스를 상기 입력음의 클래스로 결정하는 단계를 포함함을 특징으로 하는 피치 웨이브를 이용한 음성 인식방법.
(a) 클래스가 정해진 입력음으로부터 피치 웨이브를 추출하는 단계;

(b) 화자식별용 코퍼스리스트 데이터베이스 및 피치 웨이브 코퍼스 데이터베이스를 이용하여 상기 입력음에 대응하는 클래스의 화자별 최대 유사도를 갖는 피치 웨이브 코퍼스 및 최소 유사도를 갖는 피치 웨이브 코퍼스를 액세스하여, 화자별로 상기 피치 웨이브와 상기 최대 유사도를 갖는 피치 웨이브 코퍼스의 제1유사도 및 상기 피치 웨이브와 상기 최소 유사도를 갖는 피치 웨이브 코퍼스의 제2유사도를 계산하는 단계; 및

(c) 상기 제1유사도가 소정의 제1문턱치보다 크고, 상기 제2유사도가 소정의 제2문턱치보다 작은 화자들 중 상기 제1유사도가 가장 큰 화자를 상기 입력음의 화자로 결정하여 결정된 화자의 식별자를 출력하는 단계를 포함함을 특징으로 하는 피치 웨이브를 이용한 화자 식별방법.
제17항에 있어서, 상기 (a) 단계 및 상기 (b) 단계는

미리 정해진 단어에 포함된 각 음에 대하여 반복되어 수행되며, 화자별로 각 음에 대하여 상기 피치 웨이브와 상기 최대 유사도를 갖는 피치 웨이브 코퍼스의 유사도는 제1유사도에 합하여지고, 상기 피치 웨이브와 상기 최소 유사도를 갖는피치 웨이브 코퍼스의 유사도는 상기 제2유사도에 합하여지는 것을 특징으로 하는 피치 웨이브를 이용한 화자 식별방법.