KR100770896B1

KR100770896B1 - 음성 신호에서 음소를 인식하는 방법 및 그 시스템

Info

Publication number: KR100770896B1
Application number: KR1020060021352A
Authority: KR
Inventors: 김현수
Original assignee: 삼성전자주식회사
Priority date: 2006-03-07
Filing date: 2006-03-07
Publication date: 2007-10-26
Also published as: KR20070091789A; US20070225981A1; US7747439B2

Abstract

본 발명은 음성 신호에서 음소를 정확하게 인식할 수 있도록 하는 기능을 구현한다. 이를 위해 본 발명에서는 일단 각 음소들 간의 시작점과 끝점을 나타내는 경계를 결정하여 음소를 정확하게 분절한 후, 그 분절된 음소가 실제 어떤 음소를 나타내는지를 음소인식 표준 테이블을 참조하여 해당 음소를 정확하게 찾을 수 있도록 하는 방법을 제시한다. 이와 같은 음소 인식 방법은 계산량을 현저히 줄일 수 있을 뿐만 아니라, 각 음소들간의 확률적 거리의 계산으로 해당 음소를 간단하게 찾아낼 수 있는 이점이 있다.

음소, 인식

Description

음성 신호에서 음소를 인식하는 방법 및 그 시스템{METHOD OF RECOGNIZING PHONEME IN A VOCAL SIGNAL AND THE SYSTEM THEREOF}

도 1은 본 발명의 실시 예에 따른 음소 인식을 수행하는 시스템에 대한 블록구성도,

도 2는 본 발명의 실시 예에 따라 음소를 인식하기 위한 과정을 도시한 도면,

도 3은 본 발명의 실시 예에 따른 N차 오더 피크 정의 과정에 대한 도면,

도 4는 본 발명의 실시 예에 따라 2차 오더 피크를 선택한 경우를 도시한 도면,

도 5 내지 도 7은 본 발명의 실시 예에 따른 히스토그램 생성 방법에 의한 신호 출력 예시도,

도 8은 본 발명의 실시 예에 따라 피크 정보를 이용한 음소 분절의 예시도,

도 9는 본 발명의 실시 예에 따라 음소 간의 확률 거리를 계산하기 위하여 사용되는 각 차수의 피크 통계표.

본 발명은 음성 신호에서 음소를 인식하는 방법 및 그 시스템에 관한 것으로, 특히 음성 인식 시스템에 사용하기 위한 음성 신호에서 음소를 인식하는 방법 및 그 시스템에 관한 것이다.

음성 신호를 이용한 다양한 기술들이 음성 인식 시스템 등 다양한 시스템에 적용되고 있는데, 그 중에서도 음성 신호가 입력되었을 때 얼마만큼 정확하게 음성 신호의 시작점과 끝점을 검출하여 정확한 음성을 해당 시스템에 입력할 수 있느냐가 중요한 관건이다.

특히 음성 신호의 인식을 위해서는 먼저 음소(Phoneme)를 구분할 수 있는 방법에 대한 연구가 기본적으로 진행되어야 하는데, 기존에는 음소의 위치를 파악하여 음소 분절이 이루어지면, 그 분절된 각 음소를 구분하고 그 내용을 알아내는 방법이 각각 매우 복잡한 과정을 통해서 이루어졌으며, 대부분 통계적인 방식과 여러 개의 특징 추출법의 조합으로 이루어진 방법들이다.

이러한 방법들 중에서 가장 흔히 쓰이는 방법으로는 여러 켑스트럼(cepstral or perceptual linear predictive coding) 계수를 조합하여 사용하는 방법이 있다. 하지만 이 방법도 선형 예측(linear prediction) 방법이 가지는 근원적인 한계를 내포하고 있다.

이를 상세히 설명하면, 음성 신호 분석에서 많이 사용되는 선형 예측 방법은 선형 예측의 차수(order)에 따라 성능이 좌우되며, 성능을 높이기 위해 차수를 높이게 되면 계산량이 많아질 뿐만 아니라 어느 정도 이상으로는 성능이 좋아지지 않 게 된다. 이러한 선형 예측 방법은 짧은 시간 동안에는 신호가 변동이 없다는(Short-time stationary) 가정과 성도 전송 함수(Vocal tract transfer function)가 선형 모든 폴 모델(linear all pole model)에 의해 모델링될 수 있다는 가정하에서만 동작한다.

또한, 선형 예측 방법에서 포르만트 센터(Formant center) 주파수는 LPC polynomial 의 root 계산으로 인해 계산량이 많으며, 스펙트럼 포락선의 피크 피킹(peak picking)에서 피크가 강하지 않을 때가 발생하기도 한다.

또한, 선형 예측 방법은 데이터 윈도윙(Data Windowing)을 적용하는데, 데이터 윈도윙 선택 시 시간 축과 주파수 축 레졸루션(resolution) 간의 균형이 유지되지 않으면 스펙트럼 포락선(Spectrum envelope) 검출이 어렵게 된다. 예를 들어, 매우 높은 피치를 가지는 음성의 경우, 선형 예측 분석 방법으로는 하모닉들의 넓은 간격 때문에 개별적인 하모닉들을 따라가게 된다. 따라서, 여성이나 어린이 화자의 경우에는 성능이 저하되는 경향이 발생하게 된다.

상기한 바와 같이 종래의 방법으로는 계산량이 많아 음소를 구분하여 음소를 인식하기에는 여러모로 불편하였다. 이에 따라 계산량을 줄이면서도 보다 정확한 음소 인식 방법이 요구된다.

따라서 본 발명은 보다 정확하고 계산량을 현저히 줄일 수 있도록 하는 음성 인식 시스템에 사용하기 위한 음성 신호에서 음소를 인식하는 방법 및 그 시스템을 제공한다.

이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

이러한 기능이 구현된 음소 인식을 수행하는 시스템의 구성 요소 및 그 동작에 대해 도 1을 참조하여 살펴보기로 한다. 도 1은 본 발명의 실시 예에 따른 음소 인식을 수행하는 시스템에 대한 블록구성도이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 음소 인식 시스템은 음성 신호 입력부(100), 음소 분절부(110), 피크 차수 선택부(120), 프레임 길이 결정부(130), 피크 통계치 산출부(140), 음소 확률거리 계산부(150), 음소 인식부(160)를 포함하여 구성된다.

먼저, 음성신호 입력부(100)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 및 음향 신호를 포함한 음성 신호를 입력받는다.

음소 분절부(110)는 음성신호 입력부(100)로부터 입력되는 음성 신호에서 각 음소들 간의 시작점과 끝점을 나타내는 경계를 결정하여 음소를 분절한다. 본 발명의 실시 예에서는 하이오더 피크(high order peak)에 대한 개념(theorem)을 이용하여 음소 분절을 수행하는 경우를 예로 들어 설명하나, 각 음소들 간의 시작점과 끝점을 정확하게 구분할 수 있는 방법이면 모두 적용가능함은 물론이다.

이하, 하이오더 피크를 이용하는 경우 음소 분절부(110)의 구체적인 동작을 살펴보기로 한다. 음소 분절부(110)는 일단 입력된 음성 신호에서 1차 피크 정보를 추출한 후, 현재 차수에서의 피크 특징값을 시스템에 따라 최적화된 기준값(threshold) 즉, 미리 결정된 임계 피크 특징값과 비교하여 몇 번째 차수의 피크를 사용할 것인지를 결정한다. 이때, 비교 과정에서의 기준으로 각각에 대한 분산의 감소량(variance reduction)을 사용한다. 일단 N번째 차수(N-th order)의 피크를 사용할 경우, 그보다 높은 차수의 피크 추출은 더 이상 필요하지 않게 된다. 이때, 디폴트로는 2차 피크를 사용하며, 일반적인 시스템에서는 1차 피크를 사용하는 것도 가능하다.

상기한 바와 같은 방식으로 피크 차수가 결정되면, 음소 분절부(110)는 피크 통계치 산출 시 적용할 프레임의 길이를 결정한 후, 각 프레임에서 한 포인트씩 업데이트한 후, 슬라이드와 애드(slide & add) 연산을 통해 누적 그래프를 생성한다.

이어, 음소 분절부(110)는 그 누적 그래프를 이용하여 정해진 차수 피크의 통계치 즉, 평균과 표준편차를 계산하고, 임계값으로 사용할 통계치를 결정하는데 디폴트로 1 표준 편차를 사용한다. 이후, 음소 분절부(110)는 임계값 이상의 값들 중, 주변 값보다 20%이상 높은 값들을 최대치(maxima)로 정하고, 이들 최대치 사이의 낮은 계곡점 즉, 밸리를 음소의 경계(boundary)로 결정함으로써 음소 분절을 수행하게 된다.

이와 같이 음소 분절이 이루어지면, 각 분절된 음소가 어떤 음소를 나타내는지를 찾아야한다. 이를 위해 우선 피크 차수 선택부(120)는 각 분절된 음소에서 1차 피크 정보를 추출한 후, 의미있는 데이터 즉, 특징 정보를 추출하기 위한 하이오더 피크에 대한 개념을 이용하여 각 차수의 피크(peak) 정보를 추출한다. 즉, 분절된 음소에서 피크 정보를 추출하여 추출된 피크 정보를 근거로 피크 차수를 결정한다.

구체적으로 피크 차수 선택부(120)는 추출된 각 피크들 각각의 차수를 정의하고, 현재 차수에서의 피크 특징값을 시스템에 따라 최적화된 기준값(threshold) 즉, 미리 결정된 임계 피크 특징값과 비교하여 몇 번째 차수의 피크를 사용할 것인지를 결정한다.

나머지 구성 요소를 설명하기에 앞서, 본 발명에서 이용되는 하이오더 피크에 대해 간략하게 설명하기로 한다. 일반적인 개념의 피크를 1차 피크(1st order peak)라고 할 경우 본 발명에서는 도 3에 도시된 바와 같이 1차 오더 피크로 구성된 신호들 중에서의 피크들을 2차 오더 피크라고 정의한다. 이와 마찬가지로 3차 피크(3rd order peak)는 2차 피크(2nd order peak)로 이루어진 신호들의 피크인 것 이다. 이러한 개념으로 하이오더 피크를 정의하게 된다.

따라서, 제 2차 피크를 찾기 위해서는 단순히 1차 피크들을 새로운 타임 시리즈(time series)로 보고 그 타임 시리즈들의 피크를 찾으면 되는 것이다. 이와 마찬가지로 하이오더 최소값(higher order minima) 또는 밸리(valley)도 정의할 수 있다. 이에 따라 2차 오더 밸리(2nd order valley)는 1차 오더 밸리(1st order valley)로 이루어진 타임 시리즈들의 로컬 최소값(local minima)이 된다. 이러한 하이오더 피크 또는 밸리는 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값으로 이용될 수 있다.

특히 시간과 주파수 축에서의 여러 차수의 피크 성격(peak characteristics) 분석을 통해서 많은 정보를 얻어낼 수 있다. 그 중에서도 히스토그램(histogram) 분석, 평균 및 표준 편차와 같은 기본 통계(basic statistics), 그 기본 통계의 비율로 얻어지는 제 2의 통계(secondary statistics)들로 유용한 특징(measure)들을 추출할 수 있는 것이다. 이를 이용한 주기적 특징(periodicity measure)이나 유성음의 정도(voicing)에 대한 특징은 매우 유용한 정보들이며, 이러한 특징 추출을 위해 정확한 피크 차수(correct peak order)를 알아야 한다.

본 발명에서 제시하는 하이오더 피크의 특성으로는 차수의 레벨의 경우 낮은 차수의 피크들이 평균적으로 낮은 레벨(level)을 가지고, 차수가 높을수록 적은 빈도로 나타나게 된다. 예컨대, 2차 피크는 1차 피크보다 레벨이 높으며, 피크 개수는 1차 피크보다 적다.

각 차수 피크들이 나타나는 비율은 음성, 오디오 신호 특징 추출에 매우 유 용하게 쓰일 수 있는데, 특히 2차와 3차 피크들은 피치 추출 정보를 가지고 있게 된다.

한편, 하이 오더 피크들에 대한 법칙은 다음과 같다.

1. 연속적인 피크(밸리(valley))들 사이에는 단하나의 밸리(피크)만이 존재할 수 있다.

2. 상기 법칙 1은 각 차수의 피크(밸리)에 적용된다.

3. 하이 오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 적게 존재하며, 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리)의 부분 집합(subset)에 존재한다.

4. 어떠한 두개의 연속적인 하이 오더 피크(밸리)사이에도 항상 하나 이상의 더 낮은 오더의 피크(밸리)가 존재한다.

5. 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 평균적으로 더 높은(낮은) 레벨(level)을 가진다.

6. 특정 기간의 신호 동안(예컨대 한 프레임 동안), 단 하나의 피크와 밸 리가 존재하는(예컨대 한 프레임 내의 최대, 최소값) 오더가 존재한다.

상기한 하이 오더 피크들에 대한 법칙에 따라 피크 차수 선택부(120)는 각 분절된 음소에서의 피크들을 추출하여 1차 피크로 정의한 후, 그 1차 피크에 대한 표준편차와 평균값을 확인하여 임계값보다 주기성이 높을 경우 현재의 차수를 선택하고, 주기성이 낮으면 차수를 높인다. 즉, 각 차수에서의 표준편치와 평균값을 이용하여 몇번째 차수를 사용할 것인지를 결정하는 것이다. 여기서, 임계값은 시스템 을 최적화시키는데 필요한 임계값이다.

이와 같이 피크 차수 선택부(120)에 의해 어느 하나의 차수가 결정되면, 프레임 길이 결정부(130)는 피크 통계치 산출 시 적용할 프레임의 길이를 결정하는데, 본 발명의 실시 예에 따라 프레임 길이 결정부(130)는 디폴트로 512 포인트 프레임을 사용한다.

이와 같이 프레임 길이가 결정되면, 피크 통계치 산출부(140)는 각 프레임당 피크 통계치를 산출하는데, 프레임 길이 결정부(130)에서 결정된 프레임 길이와 음소 인식을 위한 임계값을 기준으로 각 프레임당 피크 통계치를 산출한다. 이때, signal-plus-noise 피크에 대한 확률밀도함수(Probability Density Function: PDF)의 표준편차를 음소 인식을 위한 임계값으로 사용하며, 각 프레임의 512포인트의 48개의 음소에 대한 1, 2, 3차 피크의 통계적 정보를 나타내고 있는 도 9에 도시된 바와 같은 값들을 음소 인식을 위한 표준 음소 테이블로 사용할 수 있다. 도 9에 대한 설명은 하기에서 상세하게 설명하기로 한다.

이와 같이 프레임당 피크 통계치인 평균과 표준편차가 산출되면, 음소 확률 거리 계산부(150)는 해당 프레임에서 구해진 평균과 표준편차가 도 9에 도시된 음소 테이블의 어느 음소에 해당하는지를 찾는다. 이를 위해 음소 확률 거리 계산부(150)는 해당 프레임의 인식하려는 음소와 음소 테이블의 각각의 음소에 대하여 확률 거리를 계산하게 된다. 이 확률 거리 계산법은 다음과 같다. 먼저, 음소 테이블의 특정 음소를 'A'라고 하고, 인식하려는 음소를 'B'라고 가정해보기로 한다. 음소 간 확률 거리를 계산하기 위해서는 일단 음소 확률거리 계산부(150)는 피크 통 계치 산출부(140)에서 구한 피크 통계치를 이용하여 하기 수학식 1에서와 같이 표준 편차에 대한 평균을 계산한다.

표준편차에 대한 평균 = (A 표준편차 + B 표준편차) / 2

상기 수학식 1에서, A 표준편차는 음소 테이블의 A 음소에 대한 표준편차이며, B 표준편차는 해당 프레임에서 구해진 표준편차이다.

상기와 같은 수학식 1을 이용하여 음소 확률거리 계산부(150)는 해당 프레임에서 구해진 피크 통계치 중 표준편차와 음소 테이블의 특정 음소인 'A'에 대한 피크 통계치 중 표준 편차를 이용하여 표준 편차에 대한 평균을 계산한다.

그리고나서 음소 확률거리 계산부(150)는 확률 거리를 하기 수학식 2를 이용하여 계산한다.

(A 평균 - B 평균) / (표준편차에 대한 평균)

상기 수학식 2에서, A 평균은 음소 테이블의 A 음소에 대한 평균이며, B 평균은 해당 프레임에서 구해진 평균이며, 표준편차에 대한 평균은 A 표준편차와 B 표준편차 간의 평균이고, 그 단위는 표준 편차(standard deviation)이다.

상기와 같은 수학식 2를 이용하여 음소 확률거리 계산부(150)는 해당 프레임에서 구해진 피크 통계치 중 평균과 음소 테이블의 특정 음소인 'A'에 대한 피크 통계치 중 평균 간의 차를 수학식 1을 통해 얻어진 표준 편차에 대한 평균으로 나누어 확률 거리를 계산하는데, 이를 특징 분리의 측정값으로 사용한다. 이와 같이 음소 확률거리 계산부(150)는 해당 프레임의 음소가 음소 테이블의 어느 음소에 해당하는지를 찾아내기 위해 해당 프레임의 인식하려는 음소와 음소 테이블의 각 음소들 간의 확률 거리를 계산한다.

실제로는 음소 간의 확률 거리가 카테고리(category)로 나누어질 수 있으므로, 음소 확률거리 계산부(150)는 클러스터링(clustering)을 하여 각 클러스터(cluster)의 대표 음소를 이용하여 확률 거리를 계산하고, 그 중 가장 가까운 클러스터에 대하여 주위 음소를 하나씩 자세히 계산하는 방식을 이용할 수 있다. 이에 따라 음소 확률거리 계산부(150)는 음소 테이블의 모든 음소에 대해 확률 거리를 계산할 필요가 없게 되므로 계산량을 보다 줄일 수 있게 된다.

음소 인식부(160)는 음소 확률거리 계산부(150)로부터 확률 거리 계산값을 전달받아 그 중에서 최소 확률 거리 계산값을 판단하고, 그 최소 확률 거리 계산값을 가지는 음소 테이블의 음소를 해당 음소로 인식하게 된다. 즉, 계산된 확률 거리가 최소인 음소가 인식 결과로 결정되는 것이다.

이하, 본 발명이 적용되는 구체적인 예를 상세히 설명하기 위해 상기한 바와 같은 각 구성 요소의 동작 과정을 도 2를 참조하여 설명하면 다음과 같다. 도 2는 본 발명의 실시 예에 따라 음소를 인식하기 위한 과정을 도시한 도면이다.

도 2를 참조하면, 음소 인식 시스템은 200단계에서 마이크 등을 통해 음성 신호를 입력받아 205단계에서 음소 분절을 수행한다. 이때, 본 발명의 실시 예에서는 음소 분절을 위해 하이오더 피크 개념을 이용할 수 있다. 피크는 잡음의 위에 존재하므로 잡음 속에 파묻히게 되는 제로크로싱(zero crossing)보다는 훨씬 잡음 에 강인한 특징을 보이므로 본 발명을 적용하는 것이 가능하다.

그리고나서 음소 인식 시스템은 210단계에서 분절된 음소에서 우선 1차 피크 정보를 추출하고, 최적화된 기준값과 1차 피크 정보와의 비교 과정을 몇 차의 피크를 사용할지를 결정한다. 여기서, 최적화된 기준값은 음성 신호가 이용되는 다양한 시스템별로 다른 값을 가지며, 그 시스템을 최적화시킬 수 있는 기준값을 의미한다. 따라서 본 발명의 실시 예에서의 최적화된 기준값은 음소 인식 시스템의 성능이 최상이 되도록 하는 값으로, 이러한 기준값은 반복적인 실험을 통해 변경될 수 있다.

이어, 음소 인식 시스템은 215단계에서 피크 차수가 결정되었는지의 여부를 판단하고, 만일 현재 1차 피크 정보가 상기 기준값을 충족시키지 않는 경우 음소 인식 시스템은 210단계로 되돌아가 1차 피크 사이에 높은 피크를 2차 피크로 새로 정의한다. 즉, 시간에 따라 순차적인 타임 시리즈로 나타나는 1차 피크들의 피크를 2차 피크로 정의한다.

이를 구체적으로 설명하면, 본 발명에서는 도 3에 도시된 바와 같이 1차 피크로 구성된 신호에서 찾아낸 새로운 피크를 2차 피크로 정의한다.

도 3은 본 발명의 실시 예에 따른 N차 피크 정의 과정에 대한 도면이다. 도 3을 참조하면, 도 3의 (a)는 1차 피크에 대한 도면이다. 피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 추출된 각 피크들을 도 3의 (a)에 도시된 바와 같이 1차 피크(P₁)로 정의한다. 그리고 도 3의 (b)에 도시된 바와 같이 각 1차 피크(P₁) 들을 연결했을 때 피크가 되는 피크(P₂)를 검출한다. 그리고 검출된 피크를 도 3의 (c)에 도시된 바와 같이 2차 피크(P₂)로 정의한다.

도 3의 (a) 내지 도 3의 (c)에는 시간 도메인 상의 음성 신호로부터 의미있는 데이터를 추출하는데 필요한 각 차수의 피크들이 도시되어 있다. 도 3의 (a)를 보면 신호의 특징이 갑자기 바뀌는 영역이 P₁ 에 의해 지시되는 바와 같은 피크로 나타나는데, 이와 같이 신호의 특징이 바뀌는 부분으로는 유성음과 무성음 사이 및 음성 신호의 시작과 끝 부분 예컨대, 단어 사이가 이에 해당한다.

그리고 본 발명의 실시 예에 따라 도 3에서의 가로축은 위치값을 나타내고 세로축은 높이값을 나타내는데, 하이오더 피크의 개념을 나타낸 도 3에서의 각 차수의 피크에 대해 높이값에 대한 분산과 평균값을 이용한다면 몇번째 차수를 사용할지를 결정할 수 있게 된다. 일반적으로 분산은 위치값을 가지고 평균값은 높이값을 가지고 산출하게 되는데, 유성음의 경우 분산은 무성음에 비해 상대적으로 낮지만 평균값은 상대적으로 높은 특징을 갖는다. 무성음의 경우는 이와 반대의 특징을 갖는데, 통상적으로 주기성이 없는 것이 분산이 높다.

한편, 피크 차수가 선택되면 음소 인식 시스템은 220단계에서 피크 통계치 산출을 위한 프레임 길이를 결정한다. 그리고나서 음소 인식 시스템은 225단계에서 결정된 프레임 내에서 피크 통계치를 산출한다. 이어, 음소 인식 시스템은 230단계에서 음소 테이블을 참조하여 음소 확률 거리를 계산한다. 이와 같이 확률 거리가 계산되면, 235단계에서 확률 거리가 최소인 음소가 인식 결과로 결정된다.

이와 같이 최소의 확률 거리를 가지는 음소 테이블의 음소를 해당 프레임의 음소로 인식하는 근거를 도 9를 참조하여 예를 들어 설명한다. 도 9는 각 음소에 대한 표준 피크 통계치를 도시하고 있는데, 이하 1차 피크 정보만을 사용하여 해당 프레임의 피크 통계치 중 평균이 71.6이며 표준편차가 4.7로 나왔을 경우를 예로 들어 설명하기로 한다. 만일 평균이 71.6이며 표준편차가 4.7로 나왔을 경우 그 프레임은 음소 테이블의 'T'음소에 해당한다. 이 프레임의 피크 통계치와 음소 테이블의 'UW'음소의 피크 통계치 간의 표준편차에 대한 평균 및 확률 거리를 계산해보면 다음과 같다. 먼저 표준편차에 대한 평균은 (2.4 + 4.7) /2 = 3.6이 되고, 확률 거리는 (71.6 - 24.7) /3.6 = 13가 된다. 즉, 그 프레임에서 인식하려는 음소인 'T'음소와 음소 테이블의 'UW'음소는 13 표준 편차(standard deviations)만큼 떨어져있다는 것을 알 수 있다. 이와 같이 매우 큰 차이를 보이는 특징 분리의 거리를 근거로 두 음소를 잘못 구분할 확률은 매우 희박하다. 왜냐하면 가우시안 밀도((Gaussian density)에서 볼 때, 확률 거리가 3 이상이 되면 잘못 구분할 확률은 0.0013이하로 떨어지게 되기 때문에 매우 정확한 음소 인식이 가능한 것이다.

또 다른 예를 살펴보면, 기존의 방법을 이용할 경우 매우 비슷하게 인식될 수 있는 음소 'CH'와 'ZH'를 비교해볼 수 있다. 위와 동일한 방법으로 확률 거리를 계산할 경우 두 음소는 (75.1-22.6)/5.95= 8.8 표준 편차만큼 떨어져 있으며, 본 발명의 방법을 적용할 경우에는 두 음소를 잘못 인식할 확률은 거의 없음을 알 수 있다. 위의 예에서 보여준 1차 피크 정보 뿐만 아니라 고차워 피크에서도 본 발명의 방법이 동일하게 적용될 수 있으므로 본 발명의 방법은 보다 정확한 음소 인식 이 가능한 것이다. 일반적으로 알고리즘의 계산량은 메모리 필요량과 동작 횟수(operation count)에 의해 특징지어질 수 있는데, 특히 본 발명에서 사용하는 피크 정보 추출은 정수형 동작(interger operation)만으로 이루어지므로 플로팅 포인트 (floating point)알고리즘의 합산 계산에서 많이 일어나는 런-오프(run-off) 에러 문제를 벗어날 수 있다.

한편, 전술한 바와 같이 1차 피크를 선택한 경우의 음소 테이블의 음소와 인식하려는 음소 간의 확률 거리 계산은 간단히 양 옆 데이터 포인트에서의 두 개의 비교 연산만으로 이루어지는 매우 간단한 계산이다. 하지만 본 발명에 따른 음소 인식 방법은 2차 이상의 고차원 피크를 선택한 경우에도 매우 간단한 계산 방법이다. 예를 들어, 도 4에 도시된 바와 같이 2차 피크를 선택할지라도 그 2차 피크도 입력 데이터가 피크들로 이루어져 있을 뿐이다. 도 4는 본 발명의 실시 예에 따라 2차 피크를 선택한 경우를 도시하고 있다. 도 4는 가우시안 노이즈(Gaussian noise)에서 200Hz 연속(sinusoid) 신호를 도시하고 있으며, 신호 파형에서 동그라미 부분이 선택된 2차 피크이다. 도 4에 도시된 바와 같이 2차 이상의 고차원 피크 추출 역시 입력 데이터가 피크들로 이루어져 있을 뿐 1차 피크 추출 시와 동일한 비교 연산이 적용이므로, 본 발명의 계산량은 차수에 상관없이 현저히 작다.

한편, 음소 분절 수행을 위한 구체적인 예는 도 5 내지 7과 같다. 도 5 내지 도 7은 본 발명의 실시 예에 따른 히스토그램 생성 방법에 의한 신호 출력 예시도이다. 이때, 도 5는 200 Hz 사인파 플러스 노이즈(sine wave plus noise)대한 크기(magnitude)와 1차 피크에 대한 히스토그램을 도시하고 있으며, 도 6은 800 Hz 사 인파 플러스 노이즈에 대한 크기와 1차 피크에 대한 히스토그램을 나타내고 있으며, 도 7은 200 Hz 사인파 플러스 노이즈에 대한 크기와 2차 피크의 히스토그램이다. 본 발명에서는 이러한 피크 정보 추출한 기반한 히스토그램 분석에 기반하여 음소의 시작점과 끝점을 검출하여 음소 분절을 하게 되며, 각 차수의 피크 정보에 대한 피크 통계치를 이용하여 각 음소에 대한 확률 거리 계산을 통해 분절된 각각의 음소가 어떠한 음소인지를 알아내게 되는 것이다.

이어서, 본 발명이 적용되는 구체적인 예를 상세히 설명하기 위해 도 8을 참조한다. 도 8은 본 발명의 실시 예에 따라 피크 정보를 이용한 음소 인식의 예시도로, 단어 'zero' 와 'nine'에 대해 본 발명의 실시 예에 따른 음소 인식 방법을 적용할 경우에 관련한다.

도 8에서는 음소로 인정되는 최대치를 결정하는데 필요한 임계값 이상을 가지면서 1차 피크 정보에 대해 발생 빈도를 기반으로 한 경우를 예시하고 있으나, 이는 단지 예시일 뿐 본 발명에서 사용 가능한 피크 특징 정보는 이에 한정되지 않는다. 즉, 본 발명의 실시 예에 따라 음소를 분절하는데 사용되는 피크 특징 정보는 발성의 주파수, 크기에 따라서 결정된다. 이에 따라 1차 피크 정보 뿐만 아니라 고차원 피크의 통계적 정보도 역시 특징 추출에 매우 유용하게 사용될 수 있다.

도 8은 디폴트로 프레임의 길이가 512 포인트 프레임인 경우 각 프레임이 한 포인트씩 매번 업데이트 되면서 발성을 통과할 때, 표준 편차를 임계값(threshold)으로 하는 1차 피크 정보를 이용하여 만들어진 그래프로써, 각 음소들의 분절을 경계선으로 표시하고 있다. 이러한 경계선 즉, 분절하는 위치를 결정하기 위해서는 먼저 최고점(dominant maxima)들을 찾아내고, 그 최고점 사이의 밸리에 경계(boundary)를 그을 수 있다.

또한, 각 음소에 따라 피크 특징 정보가 도 8의 (a)에 도시된 바와 같이 각 최대치 간의 밸리로 나타나므로, 각 밸리 간을 하나의 음소로 간주할 경우에는 음소 인식에도 유용하게 사용될 수 있다. 즉, 각 밸리 사이의 구간이 어느 음소에 해당하는지를 분석할 경우에는 음소 인식이 보다 용이하게 이루어질 수 있다. 이와 같이 본 발명에 따르면 도 8에 도시된 바와 같이 각 음소의 시작점 및 끝점이 각 최대치 간의 밸리를 경계로 구분 가능하므로 모든 음소들의 차이점을 구분하는 것이 가능하게 된다.

도 8(a) 및 도 8(b)는 각 밸리로 경계지어져 분절된 음소들이 본 발명의 방법에 의해 확률 거리 계산을 거친 후 최소 확률 거리를 가진 음소로 인식된 결과를 도시한 것이다. 도 8(a)는 각 분절된 음소가 각각 Z-IY-R-OW 음소에 각각 대응함을 도시한 것이며, 도 8(b)는 각 분절된 음소가 각각 N-AY-N 음소에 각각 대응함을 도시한 것이다.

한편, 도 9는 본 발명의 실시 예에 따라 음소 간의 확률 거리를 계산하기 위하여 사용되는 각 차수의 피크 통계표를 도시하고 있다. 도 9는 512포인트로 이루어지는 프레임에서의 48 개의 음소에 대한 1, 2, 3차 피크 통계치를 나타낸 것이다. 그 피크 통계표는 각 분절된 음소에 대하여 각 프레임의 피크 평균 및 표준 편차를 근거로 표 1과 대비하여 확률 거리를 계산하는데 이용되는데, 이러한 확률 거리 계산 결과 그 확률 거리가 최소인 것이 해당 음소로써 인식된다.

상기한 바와 같이 본 발명에 따르면, 기존의 방법이 신호, 시스템, 동작 환경 등의 여러 가장하에 동작할 경우에 발생하는 문제점 해결할 수 있으며, 별도의 가정이 필요치 않으므로 적은 계산 부하(Computational load)로 다양한 시스템 적용이 가능한 이점이 있다.

또한, 본 발명에 따른 음소 인식 방법은 모든 음성 신호를 사용하는 시스템 (인식, 코딩, 합성, 강화 등)에 적용 가능한 범용성과 실용성이 있으며, 음성 신호의 음소 인식(phoneme recognition)을 하는 원천적 기술로 모든 음성 신호를 사용하는 시스템에서 사용할 수 있다.

또한, 본 발명에 따른 음소 인식 방법은 매우 간단한 확률적 거리 계산에 의해 가장 가까운 확률 거리를 가진 음소를 찾아내는 방법으로, 정확하고 효율적인 음소 인식 성능을 가지게 된다.

Claims

음성 신호에서 음소를 인식하는 방법에 있어서,

입력되는 음성 신호에서 각 음소 간 경계를 결정하여 음소를 분절하는 과정과,

상기 분절된 음소에서 피크 통계치 산출을 위한 프레임 길이를 결정하여 결정된 프레임 내에서 피크 통계치를 산출하는 과정과,

각 음소에 대한 표준 피크 통계치를 나타낸 음소 테이블 내의 피크 통계치를 참조하여 상기 결정된 프레임의 피크 통계치와의 확률 거리를 계산하는 과정과,

상기 계산 결과 최소의 확률 거리를 가지는 상기 음소 테이블의 음소를 해당 음소로 인식하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 1항에 있어서, 상기 결정된 프레임의 피크 통계치는 상기 결정된 프레임에서 인식하려는 음소에 대한 평균과 표준 편차를 포함하고, 상기 음소 테이블 내의 피크 통계치는 각 피크 차수별 48 개의 음소에 대한 평균과 표준편차를 포함하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 1항에 있어서, 상기 확률 거리는

하기 수학식 3과 같이 표현되는 것임을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.

(A 평균 - B 평균) / (표준편차에 대한 평균)

상기 수학식 3에서, A 평균은 상기 음소 테이블의 A 음소에 대한 평균이며, B 평균은 상기 결정된 프레임에서 구해진 평균이며, 상기 표준편차에 대한 평균은 상기 음소 테이블의 A 음소에 대한 표준편차인 A 표준편차와 상기 결정된 프레임에서 구해진 표준편차인 B 표준편차 간의 평균임.
제 1항에 있어서,

상기 분절된 음소에서 피크 정보를 추출하여 피크 차수를 결정하는 과정과,

상기 피크 차수가 결정되면 상기 결정된 피크 차수에서 피크 통계치 산출을 위한 프레임 길이를 결정하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 4항에 있어서, 상기 피크 차수를 결정하는 과정은,

시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,

상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,

상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 5항에 있어서,

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 1항에 있어서, 상기 프레임의 길이는

디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
제 1항에 있어서, 상기 음소를 분절하는 과정은,

입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정과,

상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과,

상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정임을 특징으로 하는 음성 신호에서 음소를 인식하는 방법.
음성 신호에서 음소를 인식하는 시스템은,

입력되는 음성 신호에서 각 음소 간 경계를 결정하여 음소를 분절하는 음소 분절부와,

상기 분절된 음소에서 피크 통계치 산출을 위한 프레임 길이를 결정하는 프레임 길이 결정부와,

상기 결정된 프레임 내에서 피크 통계치를 산출하는 피크 통계치 산출부와,

각 음소에 대한 표준 피크 통계치를 나타낸 음소 테이블 내의 피크 통계치를 참조하여 상기 결정된 프레임의 피크 통계치와의 확률 거리를 계산하는 음소 확률 거리 계산부와,

상기 계산 결과 최소의 확률 거리를 가지는 상기 음소 테이블의 음소를 해당 음소로 인식하는 음소 인식부를 포함함을 특징으로 하는 음성 신호에서 음소를 인 식하는 시스템.
제 9항에 있어서,

상기 결정된 프레임의 피크 통계치는 상기 결정된 프레임에서 인식하려는 음소에 대한 평균과 표준 편차를 포함하고, 상기 음소 테이블 내의 피크 통계치는 각 피크 차수별 48 개의 음소에 대한 평균과 표준편차를 포함하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 9항에 있어서, 상기 확률 거리는

하기 수학식 3과 같이 표현되는 것임을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.

[수학식 3]

(A 평균 - B 평균) / (표준편차에 대한 평균)

상기 수학식 3에서, A 평균은 상기 음소 테이블의 A 음소에 대한 평균이며, B 평균은 상기 결정된 프레임에서 구해진 평균이며, 상기 표준편차에 대한 평균은 상기 음소 테이블의 A 음소에 대한 표준편차인 A 표준편차와 상기 결정된 프레임에서 구해진 표준편차인 B 표준편차 간의 평균임.
제 9항에 있어서,

상기 분절된 음소에서 피크 정보를 추출하여 상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 선택부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 12항에 있어서, 상기 피크 통계치 산출부는

상기 결정된 피크 차수의 해당 프레임 내에서 피크 통계치를 산출하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 12항에 있어서, 상기 피크 차수 선택부는

상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 14항에 있어서, 상기 피크 차수 결정부는

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 9항에 있어서, 상기 프레임의 길이는

디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.
제 9항에 있어서, 상기 음소 분절부는,

상기 입력되는 음성 신호로부터 피크 정보를 추출하여 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하고, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 것을 특징으로 하는 음성 신호에서 음소를 인식하는 시스템.