KR100744288B1

KR100744288B1 - 음성 신호에서 음소를 분절하는 방법 및 그 시스템

Info

Publication number: KR100744288B1
Application number: KR1020050131964A
Authority: KR
Inventors: 김현수
Original assignee: 삼성전자주식회사
Priority date: 2005-12-28
Filing date: 2005-12-28
Publication date: 2007-07-30
Also published as: US20070150277A1; KR20070069631A; US8849662B2

Abstract

본 발명은 음성 신호에서 음소 분절의 정확성을 향상시킬 수 있도록 하는 기능을 구현한다. 이를 위해 본 발명에서는 하이오더 피크의 개념을 적용하여 해당 차수의 피크 분포 정도를 나타내는 히스토그램을 생성하고, 그 히스토그램을 근거로 피크 통계치를 산출하여 각 음소들간의 시작점과 끝점을 나타내는 경계를 결정함으로써 음소를 정확하게 분절할 수 있도록 하는 방법을 제시한다. 이와 같은 음소 분절 방법은 계산량을 현저히 줄일 수 있을 뿐만 아니라 음성 코딩, 인식, 합성, 강화 수행 시의 모든 음성 신호 시스템에 적용 가능한 이점이 있다.

음성 신호, 음소, 분절

Description

음성 신호에서 음소를 분절하는 방법 및 그 시스템{METHOD OF SEGMENTING PHONEME IN A VOCAL SIGNAL AND THE SYSTEM THEREOF}

도 1은 본 발명의 실시 예에 따른 음소 분절을 수행하는 시스템에 대한 블록구성도,

도 2는 본 발명의 실시 예에 따라 음소를 분절하기 위한 과정을 도시한 도면,

도 3은 본 발명의 실시 예에 따른 N차 오더 피크 정의 과정에 대한 도면,

도 4는 본 발명의 실시 예에 따라 2차 오더 피크를 선택한 경우를 도시한 도면,

도 5 내지 도 7은 본 발명의 실시 예에 따른 히스토그램 생성 방법에 의한 신호 출력 예시도,

도 8은 본 발명의 실시 예에 따라 피크 정보를 이용한 음소 분절의 예시도.

본 발명은 음성 신호에서 음소를 분절하는 방법 및 그 시스템에 관한 것으 로, 특히 음성 인식 시스템에 사용하기 위한 음성 신호에서 음소를 분절하는 방법 및 그 시스템에 관한 것이다.

음성 신호를 이용한 다양한 기술들이 음성 인식 시스템 등 다양한 시스템에 적용되고 있는데, 그 중에서도 음성 신호가 입력되었을 때 얼마만큼 정확하게 음성 신호의 시작점과 끝점을 검출하여 정확한 음성을 해당 시스템에 입력할 수 있느냐가 중요한 관건이다.

특히 음성 신호의 인식을 위해서는 먼저 음소(Phoneme)를 구분할 수 있는 방법에 대한 연구가 기본적으로 진행되어야 하는데, 기존에는 음소의 위치를 파악하여 음소 분절이 이루어지면, 그 분절된 각 음소를 구분하고 그 내용을 알아내는 방법에 각각 매우 복잡한 과정을 통해서 이루어졌으며, 대부분 통계적인 방식과 여러 개의 특징 추출법의 조합으로 이루어진 방법들이다.

이와 같은 방법들은 계산량이 많으며 음성뿐만 아니라 음성과 비슷한 수준의 비음성 잡음도 검출할 수 있기 때문에 잡음의 포함 여부에 민감하게 된다. 게다가 이러한 방법들은 통계적인 방식에 의한 확률 계산이 많아 그 정확도 또한 저하될 수 있다.

이러한 방법들 중에서 가장 흔히 쓰이는 방법으로는 여러 켑스트럼(cepstral or perceptual linear predictive coding) 계수를 조합하여 사용하는 방법이 있다. 하지만 이 방법도 선형 예측(linear prediction) 방법이 가지는 근원적인 한계를 내포하고 있다.

이를 상세히 설명하면, 음성 신호 분석에서 많이 사용되는 선형 예측 방법은 선형 예측의 차수(order)에 따라 성능이 좌우되며, 성능을 높이기 위해 차수를 높이게 되면 계산량이 많아질 뿐만 아니라 어느 정도 이상으로는 성능이 좋아지지 않게 된다. 이러한 선형 예측 방법은 짧은 시간 동안에는 신호가 변동이 없다는(Short-time stationary) 가정과 성도 전송 함수(Vocal tract transfer function)가 선형 모든 폴 모델(linear all pole model)에 의해 모델링될 수 있다는 가정하에서만 동작한다.

또한, 선형 예측 방법에서 포르만트 센터(Formant center) 주파수는 LPC polynomial 의 root 계산으로 인해 계산량이 많으며, 스펙트럼 포락선의 피크 피킹(peak picking)에서 피크가 강하지 않을 때가 발생하기도 한다.

또한, 선형 예측 방법은 데이터 윈도윙(Data Windowing)을 적용하는데, 데이터 윈도윙 선택 시 시간 축과 주파수 축 레졸루션(resolution) 간의 균형이 유지되지 않으면 스펙트럼 포락선(Spectrum envelope) 검출이 어렵게 된다. 예를 들어, 매우 높은 피치를 가지는 음성의 경우, 선형 예측 분석 방법으로는 하모닉들의 넓은 간격 때문에 개별적인 하모닉들을 따라가게 된다. 따라서, 여성이나 어린이 화자의 경우에는 성능이 저하되는 경향이 발생하게 된다.

상술한 바와 같이 종래의 방법으로는 음소들의 시작점과 끝점을 정확하게 구분하기 어려울 뿐만 아니라 그 계산량이 많아 실용적으로 사용하기에는 여러모로 불편하였다. 이에 따라 음소들의 시작점과 끝점을 정확하게 구분할 수 있으며 동시 에 계산량도 줄일 필요성이 요구된다.

따라서 본 발명에서는 보다 정확하게 음소 분절을 수행할 수 있도록 하는 음성 인식 시스템에 사용하기 위한 음성 신호에서 음소를 분절하는 방법 및 그 시스템을 제공한다.

상술한 바를 달성하기 위한 본 발명은 음성 신호에서 음소를 분절하는 방법에 있어서, 입력되는 음성 신호로부터 피크 정보를 추출하는 과정과, 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 과정과, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과, 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정을 포함함을 특징으로 한다.

또한 본 발명에 따른 음성 신호에서 음소를 분절하는 시스템은, 입력되는 음성 신호로부터 피크 정보를 추출하는 피크 정보 추출부와, 상기 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는 피크 통계치 산출부와, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 음소를 분절할 수 있도록 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하는 경계 결정부를 포함함을 특징으로 한다.

이하 본 발명의 바람직한 실시 예들을 첨부한 도면을 참조하여 상세히 설명한다. 또한 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능 및 구성에 대한 상세한 설명은 생략한다.

이러한 기능이 구현된 음소 분절을 수행하는 시스템의 구성 요소 및 그 동작에 대해 도 1을 참조하여 살펴보기로 한다. 도 1은 본 발명의 실시 예에 따른 음소 분절을 수행하는 시스템에 대한 블록구성도이다.

도 1을 참조하면, 본 발명의 실시 예에 따른 음소 분절 시스템은 음성 신호 입력부(100), 피크 정보 추출부(110), 피크 차수 결정부(120), 프레임 길이 결정부(130), 히스토그램 생성부(140), 피크 통계치 산출부(150), 경계 결정부(160), 음소 분절부(170)를 포함하여 구성된다.

먼저, 음성신호 입력부(110)는 마이크(MIC:Microphone) 등으로 구성될 수 있으며 음성 및 음향 신호를 포함한 음성 신호를 입력받는다.

피크 정보 추출부(110)는 음성신호 입력부(110)로부터 신호를 입력받아 피크 정보를 추출한다. 이때, 피크 정보 추출부(110)는 먼저 입력 신호에서 우선 1차 피크 정보를 추출한 후, 의미있는 데이터를 추출하기 위한 하이오더 피크(high order peak)에 대한 법칙(theorem)를 이용하여 각 차수의 피크(peak) 정보를 추출한다.

피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 추출된 각 피크들 각각의 차수를 정의하고, 현재 차수에서의 피크 특징값을 시스템에 따라 최적화된 기준값(threshold) 즉, 미리 결정된 임계 피크 특징값과 비교하여 몇 번째 차수의 피크를 사용할 것인지를 결정한다. 이때, 비교 과정에서의 기준으로 각각에 대한 분산의 감소량(variance reduction)을 사용한다. 일단 N번째 차수(N-th order)의 피크를 사용할 경우, 그보다 높은 차수의 피크 추출은 더 이상 필요하지 않게 된다.

나머지 구성 요소를 설명하기에 앞서, 본 발명에서 이용되는 하이오더 피크에 대해 간략하게 설명하기로 한다. 일반적인 개념의 피크를 1차 피크(1st order peak)라고 할 경우 본 발명에서는 도 3에 도시된 바와 같이 1차 오더 피크로 구성된 신호들 중에서의 피크들을 2차 오더 피크라고 정의한다. 이와 마찬가지로 3차 피크(3rd order peak)는 2차 피크(2nd order peak)로 이루어진 신호들의 피크인 것이다. 이러한 개념으로 하이오더 피크를 정의하게 된다.

따라서, 제 2차 피크를 찾기 위해서는 단순히 1차 피크들을 새로운 타임 시리즈(time series)로 보고 그 타임 시리즈들의 피크를 찾으면 되는 것이다. 이와 마찬가지로 하이오더 최소값(higher order minima) 즉, 밸리(valley)도 정의할 수 있다. 이에 따라 2차 오더 밸리(2nd order valley)는 1차 오더 밸리(1st order valley)로 이루어진 타임 시리즈들의 로컬 최소값(local minima)이 된다.

이러한 하이오더 피크 또는 밸리들은 음성, 오디오 신호의 특징 추출에서 매우 효과적인 통계값으로 이용될 수 있으며, 특히 각 오더 피크들 중 2차 피크들과 3차 피크들은 음성, 오디오 신호의 피치(pitch) 정보를 가지고 있다. 또한 2차 피크와 3차 피크들 사이의 시간이나 샘플링 포인트 개수가 음성, 신호 특징 추출에 대한 많은 정보를 가지고 있다. 따라서, 피크 차수 결정부(120)는 피크 정부 추출부(110)에 의해 추출된 각 피크들 중 2차 또는 3차 피크를 선택하는 것이 바람직하다.

특히 시간과 주파수 축에서의 여러 차수의 피크 성격(peak characteristics) 분석을 통해서 많은 정보를 얻어낼 수 있다. 그 중에서도 히스토그램(histogram) 분석, 평균 및 표준 편차와 같은 기본 통계(basic statistics), 그 기본 통계의 비율로 얻어지는 제 2의 통계(secondary statistics)들로 유용한 특징(measure)들을 추출할 수 있는 것이다. 이를 이용한 주기적 특징(periodicity measure)나 유성음의 정도(voicing)에 대한 특징은 매우 유용한 정보들이며, 이러한 특징 추출을 위해 정확한 피크 차수(correct peak order)를 알아야 한다.

본 발명에서 제시하는 하이오더 피크의 특성으로는 차수의 레벨의 경우 낮은 차수의 피크들이 평균적으로 낮은 레벨(level)을 가지고, 차수가 높을수록 적은 빈도로 나타나게 된다. 예컨대, 2차 피크는 1차 피크보다 레벨이 높으며, 피크 개수는 1차 피크보다 적다.

각 차수 피크들이 나타나는 비율은 음성, 오디오 신호 특징 추출에 매우 유용하게 쓰일 수 있는데, 특히 2차와 3차 피크들은 피치 추출 정보를 가지고 있게 된다.

한편, 하이 오더 피크들에 대한 법칙은 다음과 같다.

1. 연속적인 피크(밸리(valley))들 사이에는 단하나의 밸리(피크)만이 존재할 수 있다.

2. 상기 법칙 1은 각 차수의 피크(밸리)에 적용된다.

3. 하이 오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 적게 존재하며, 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리)의 부분 집합(subset)에 존재한다.

4. 어떠한 두개의 연속적인 하이 오더 피크(밸리)사이에도 항상 하나 이상의 더 낮은 오더의 피크(밸리)가 존재한다.

5. 하이오더 피크(밸리)는 더 낮은 오더의 피크(밸리) 보다는 평균적으로 더 높은(낮은) 레벨(level)을 가진다.

6. 특정 기간의 신호 동안(예컨대 한 프레임 동안), 단 하나의 피크와 밸 리가 존재하는(예컨대 한 프레임 내의 최대, 최소값) 오더가 존재한다.

상기한 하이 오더 피크들에 대한 법칙에 따라 피크 차수 결정부(120)는 피크 정보 추출부(110)에 추출된 각 피크들을 1차 피크(first order peak)로 정의할 수 있게 된다. 그러면 피크 차수 결정부(120)는 1차 피크에 대한 표준편차와 평균값을 확인하여 기준값보다 주기성이 높을 경우 현재의 차수를 선택하고, 주기성이 낮으면 차수를 높인다. 즉, 각 차수에서의 표준편치와 평균값을 이용하여 몇번째 차수를 사용할 것인지를 결정하는 것이다. 여기서, 기준값은 시스템을 최적화시키는데 필요한 임계값이다.

만일 일반적인 시스템에서 항상 1차 피크만이 사용된다면 피크 차수를 결정 하는 과정을 생략할 수 있어 피크 차수를 선택하는 것을 부가적인 옵션으로 설정할 수도 있지만, 본 발명의 실시 예에 따라 피크 차수 결정부(120)는 디폴트(default)로 2차 피크를 사용한다.

이와 같이 피크 차수 결정부(120)에 의해 어느 하나의 차수가 결정되면, 프레임 길이 결정부(130)는 피크 통계치 산출 시 적용할 프레임의 길이를 결정하는데, 본 발명의 실시 예에 따라 프레임 길이 결정부(130)는 디폴트로 512 포인트 프레임을 사용한다. 이와 같이 프레임 길이가 결정되면 히스토그램 생성부(140)는 각 프레임에서 한 포인트씩 업데이트한 후, 슬라이드와 애드(slide & add) 연산을 통해 피크 차수 결정부(120)에 의해 정해진 차수의 피크값에 대한 누적 그래프를 생성한다. 즉, 히스토그램 생성부(140)는 각 프레임당 피크가 얼마만큼의 밀도로 분포되어 있는지를 나타내는 피크 분포 정보에 대한 히스토그램을 생성한다. 예컨대, 히스토그램은 기둥 그래프라고 하는데, 본 발명의 실시 예에 따라 가로축에는 시간 간격을 나타낸 점이 표시되고, 그 시간 간격에 대한 구간 위에는 피크 분포 정도에 비례하는 높이의 기둥이 세워진다. 이러한 히스토그램은 의미있는 데이터 즉, 피크 정보들이 얼마만큼 자주 있는지를 판단할 수 있는 기준이 된다.

피크 통계치 산출부(150)는 1차 피크만을 사용할 경우에는 추출된 피크 정보를 근거로 각 프레임당 피크 통계치를 산출하는데, 만일 1차 피크 이외의 피크를 사용할 경우에는 상기 히스토그램을 이용하여 해당 차수의 피크 통계치를 산출한다. 여기서, 피크 통계치는 상기 히스토그램에서의 평균과 표준편차 연산을 통해 산출된다. 그리고 피크 통계치 산출부(150)는 임계값으로 사용할 통계치도 결정하 는데, 본 발명의 실시 예에서는 디폴트로 1 표준 편차를 사용한다. 여기서, 임계값은 피크 통계치 중에서 어느 부분 이상을 음소로 인정할 것인지를 결정하기 위한 값으로 즉, 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 값을 의미한다.

경계 결정부(160)는 히스토그램에서 상기 피크 통계치 산출부(150)에서 결정된 임계값을 기준으로 그 임계값 이상을 가지는 값들 중에서 최대치(maxima)를 정하고, 이들 최대치 사이의 낮은 계곡점 즉, 밸리를 음소의 경계(boundary)로 결정하게 된다. 이와 같이 경계 결정부(160)에 의해 음소의 경계가 결정되면, 음소 분절부(170)에서는 그 음소의 경계를 근거로 한 각 음소의 시작점과 끝점을 검출함으로써 음소 분절(phoneme segmentation)을 하는 것이다.

상기한 바와 같이 구성된 본 발명의 실시 예에 따른 음소 분절 시스템에서는 해당 차수의 피크 분포 정도를 이용하여 피크 통계치를 산출하고, 산출된 피크 통계치를 통해 얻어지는 최대치 간의 밸리를 음소 간의 경계로 결정한다. 이어 음소 간의 경계를 이용하여 음소의 시작점 및 끝점을 검출함으로써 음소 분절을 수행한다. 이와 같은 본 발명에 따르면, 시간축 피크 정보 추출을 이용하여 음성 신호의 음소를 분절함으로써 계산량을 현저히 줄일 수 있을 뿐만 아니라, 각 음소 간의 경계에 대한 정확성을 향상시킬 수 있게 된다.

이하, 본 발명이 적용되는 구체적인 예를 상세히 설명하기 위해 상기한 바와 같은 각 구성 요소의 동작 과정을 도 2를 참조하여 설명하면 다음과 같다. 도 2는 본 발명의 실시 예에 따라 음소를 분절하기 위한 과정을 도시한 도면이다.

도 2를 참조하면, 음소 분절 시스템은 200단계에서 마이크 등을 통해 음성 신호를 입력받아 205단계에서 우선 1차 피크 정보를 추출한다. 피크는 잡음의 위에 존재하므로 잡음 속에 파묻히게 되는 제로크로싱(zero crossing)보다는 훨씬 잡음에 강인한 특징을 보이므로 본 발명을 적용하는 것이 가능하다.

이어, 음소 분절 시스템은 최적화된 기준값과 1차 피크 정보와의 비교 과정을 통해 몇차의 피크를 사용할지를 결정한다. 여기서, 최적화된 기준값은 음성 신호가 이용되는 다양한 시스템별로 다른 값을 가지며, 그 시스템을 최적화시킬 수 있는 기준값을 의미한다. 따라서 본 발명의 실시 예에서의 최적화된 기준값은 음소 분절 시스템의 성능이 최상이 되도록 하는 값으로, 이러한 기준값은 반복적인 실험을 통해 변경될 수 있다.

이어, 비교 과정 수행 후 210단계에서 피크 차수가 결정되었는지의 여부를 판단하고, 만일 현재 1차 피크 정보가 상기 기준값을 충족시키지 않는 경우 음소 분절 시스템은 205단계로 되돌아가 1차 피크 사이에 높은 피크를 2차 피크로 새로 정의한다. 즉, 시간에 따라 순차적인 타임 시리즈로 나타나는 1차 피크들의 피크를 2차 피크로 정의한다.

이를 구체적으로 설명하면, 본 발명에서는 도 3에 도시된 바와 같이 1차 피크로 구성된 신호에서 찾아낸 새로운 피크를 2차 피크로 정의한다.

도 3은 본 발명의 실시 예에 따른 N차 피크 정의 과정에 대한 도면이다. 도 3을 참조하면, 도 3의 (a)는 1차 피크에 대한 도면이다. 피크 차수 결정부(120)는 피크 정보 추출부(110)에 의해 추출된 각 피크들을 도 3의 (a)에 도시된 바와 같이 1차 피크(P₁)로 정의한다. 그리고 도 3의 (b)에 도시된 바와 같이 각 1차 피크(P₁)들을 연결했을 때 피크가 되는 피크(P₂)를 검출한다. 그리고 검출된 피크를 도 3의 (c)에 도시된 바와 같이 2차 피크(P₂)로 정의한다.

도 3의 (a) 내지 도 3의 (c)에는 시간 도메인 상의 음성 신호로부터 의미있는 데이터를 추출하는데 필요한 각 차수의 피크들이 도시되어 있다. 도 3의 (a)를 보면 신호의 특징이 갑자기 바뀌는 영역이 P₁ 에 의해 지시되는 바와 같은 피크로 나타나는데, 이와 같이 신호의 특징이 바뀌는 부분으로는 유성음과 무성음 사이 및 음성 신호의 시작과 끝 부분 예컨대, 단어 사이가 이에 해당한다.

그리고 본 발명의 실시 예에 따라 도 3에서의 가로축은 위치값을 나타내고 세로축은 높이값을 나타내는데, 하이오더 피크의 개념을 나타낸 도 3에서의 각 차수의 피크에 대해 높이값에 대한 분산과 평균값을 이용한다면 몇번째 차수를 사용할지를 결정할 수 있게 된다. 일반적으로 분산은 위치값을 가지고 평균값은 높이값을 가지고 산출하게 되는데, 유성음의 경우 분산은 무성음에 비해 상대적으로 낮지만 평균값은 상대적으로 높은 특징을 갖는다. 무성음의 경우는 이와 반대의 특징을 갖는데, 통상적으로 주기성이 없는 것이 분산이 높다.

한편, 음성 신호의 시작과 끝부분도 상기한 바와 같은 특징을 가지므로, 피크 차수 결정부(120)에서는 피크 정보 추출부(110)로부터의 피크 정보를 근거로 현재 차수의 피크 정보가 주기성이 낮은지 높은지의 여부를 판단함으로써 몇번째 차수를 사용할 것인지를 결정할 수 있게 되는 것이다. 즉, 피크 차수 결정부(120)는 현재 차수에서의 주기성이 기준값보다 낮으면 높은 차수를 정의하게 되는 것이다.

한편, 피크 차수 결정부(120)에서는 디폴트로 2차 피크를 사용하는데, 도 4는 본 발명의 실시 예에 따라 2차 피크를 선택한 경우를 도시하고 있다. 도 4를 참조하면, 가우시안 노이즈(Gaussian noise)에서 200Hz 연속(sinusoid) 신호를 도시하고 있으며, 신호 파형에서 동그라미 부분이 선택된 2차 피크이다.

이와 같이 210단계에서 피크 차수가 결정된 경우 음소 분절 시스템은 215단계로 진행하여 피크 통계치 산출을 위한 프레임 길이를 결정한다. 그리고나서 음소 분절 시스템은 220단계에서 각 프레임당 피크 분포 정도를 나타내는 히스토그램을 생성한다. 이 히스토그램 생성은 음소 분절 시스템에서 각 프레임에서 한 포인트씩 업데이트한 후, 슬라이드와 애드 연산을 통해 결정된 차수의 피크값에 대한 누적 그래프를 구함으로써 이루어진다. 이러한 본 발명이 적용된 구체적인 예는 도 5 내지 7과 같다. 도 5 내지 도 7에서는 본 발명의 실시 예에 따른 히스토그램 생성 방법에 의한 신호 출력 예시도이다. 이때, 도 5는 200 Hz 사인파 플러스 노이즈(sine wave plus noise)대한 크기(magnitude)와 1차 피크에 대한 히스토그램을 도시하고 있으며, 도 6은 800 Hz 사인파 플러스 노이즈에 대한 크기와 1차 피크에 대한 히스토그램을 나타내고 있으며, 도 7은 200 Hz 사인파 플러스 노이즈에 대한 크기와 2차 피크의 히스토그램이다.

이어, 음소 분절 시스템은 225단계에서 상기 히스트로그램을 이용하여 피크 통계치를 산출하고, 230단계에서 산출된 피크 통계치와 피크 통계치 산출부(150)에 의해 미리 설정된 임계값 간의 비교를 통해 최대치(maxima)를 선택한다. 즉, 히스 토그램에서 임계값 이상에 해당하는 부분 중에서 최대치를 얻을 수 있게 된다. 이때, 임계값 이상에 해당하는 부분 중 현재 샘플링 단위의 전후 기울기가 미리 설정된 기울기 이상을 가질 때의 꼭지점이 최대치에 해당할 수 있는데, 본 발명의 실시 예에서는 보다 정확한 최대치를 얻을 수 있도록 주변보다 20%이상 높은 부분에 해당하는 값들을 최대치로 선택한다.

그리고나서 음소 분절 시스템은 235단계에서 각 최대치 사이의 낮은 밸리를 음소의 경계로 결정하고, 240단계에서 그 음소의 경계에 근거하여 음소의 시작점과 끝점을 검출함으써 음소 분절을 수행하는 것이다.

본 발명에서는 시간축 피크 정보 추출을 통해 히스토그램 분석을 수행하고, 이를 기반으로 음소의 시작점과 끝점을 검출하여 음소 분절을 하게 되며, 각 차수의 피크 정보에 대한 통계치 예컨대, 평균 및 표준 편차를 이용하여 각 음소에 대한 확률적 거리 계산을 통해 분절된 각각의 음소가 어떠한 음소인지를 알아낼 수 있게 된다.

전술한 바와 같이 음소 분절(Segmentation)을 수행하는데 있어서, 가장 중요한 관건은 각 음소 사이의 어디에 경계(boundary)를 정할 것인가를 결정하느냐에 달려있다고 볼 수 있다. 본 발명에서는 시간축 피크 정보 예컨대, 피크 주파수(peak frequency) 정보와 피크 진폭(peak amplitude) 정보를 조합함으로써 단어의 내재적 음성 구조(underlying phonetic structure)에 대해 구분해내는 정확성을 향상시킬 수 있도록 하는 분절 통계치를 찾아낸다. 이는 음소를 구분하기 이전의 제 1차 분절 단계(first segmentation stage)에 해당한다.

이어서, 본 발명이 적용되는 구체적인 예를 상세히 설명하기 위해 도 8을 참조한다. 도 8은 본 발명의 실시 예에 따라 피크 정보를 이용한 음소 분절의 예시도로, 단어 'zero' 와 'nine'에 대해 본 발명의 실시 예에 따른 음소 분절을 적용할 경우에 관련한다.

도 8에서는 음소로 인정되는 최대치를 결정하는데 필요한 임계값 이상을 가지면서 1차 피크 정보에 대해 발생 빈도를 기반으로 한 경우를 예시하고 있으나, 이는 단지 예시일 뿐 본 발명에서 사용 가능한 피크 특징 정보는 이에 한정되지 않는다. 즉, 본 발명의 실시 예에 따라 음소를 분절하는데 사용되는 피크 특징 정보는 발성의 주파수, 크기에 따라서 결정된다. 이에 따라 1차 피크 정보 뿐만 아니라 고차원 피크의 통계적 정보도 역시 특징 추출에 매우 유용하게 사용될 수 있다.

도 8은 디폴트로 프레임의 길이가 512 포인트 프레임인 경우 각 프레임이 한 포인트씩 매번 업데이트 되면서 발성을 통과할 때, 표준 편차를 임계값(threshold)으로 하는 1차 피크 정보를 이용하여 만들어진 그래프로써, 각 음소들의 분절을 경계선으로 표시하고 있다. 이러한 경계선 즉, 분절하는 위치를 결정하기 위해서는 먼저 최고점(dominant maxima)들을 찾아내고, 그 최고점 사이의 밸리에 경계(boundary)를 그을 수 있다.

또한, 각 음소에 따라 피크 특징 정보가 도 8의 (a)에 도시된 바와 같이 각 최대치 간의 밸리로 나타나므로, 각 밸리 간을 하나의 음소로 간주할 경우에는 음소 인식에도 유용하게 사용될 수 있다. 즉, 각 밸리 사이의 구간이 어느 음소에 해당하는지를 분석할 경우에는 음소 인식이 보다 용이하게 이루어질 수 있다. 이와 같이 본 발명에 따르면 도 8에 도시된 바와 같이 각 음소의 시작점 및 끝점이 각 최대치 간의 밸리를 경계로 구분 가능하므로 모든 음소들의 차이점을 구분하는 것이 가능하게 된다.

상기한 바와 같이 본 발명에 따른 음소 분절 방법을 이용한다면, 블록(block) 단위의 음소 분절 방법에 비해 훨씬 더 정확하게 음소 분절을 할 수 있는 이점이 있다. 또한, 본 발명에서 사용하는 피크 정보 추출은 정수배 동작(interger operation)만으로 이루어지므로 유동적인 포인트(floating point) 알고리듬의 합산 계산에서 많이 일어나는 round-off 에러 문제를 벗어 날 수 있다. 게다가 1차 피크 추출은 양쪽 데이터 포인트에서의 두 개의 비교 연산만으로 이루어지는 매우 간단한 계산이며, 2차 이상의 고차원 피크 추출 또한 입력 데이터가 피크들로 이루져 있다는 것을 제외하고는 동일한 비교 연산이 수행되는 것이므로, 계산량이 매우 작은 이점이 있다.

또한, 본 발명에서는 기존의 방법이 신호, 시스템, 동작 환경 등의 여러 가장하에 동작할 경우에 발생하는 문제점 해결할 수 있으며, 별도의 가정이 필요치 않으므로 적은 계산 부하(Computational load)로 다양한 시스템 적용이 가능한 이점이 있다.

또한, 본 발명에 따른 음소 분절 방법은 모든 음성 신호를 사용하는 시스템 (인식, 코딩, 합성, 강화 등)에 적용 가능한 범용성과 실용성이 있으며, 음성 신호 의 음소 분절(phoneme segmentation)을 하는 원천적 기술로 모든 음성 신호를 사용하는 시스템에서 사용할 수 있다.

Claims

음성 신호에서 음소를 분절하는 방법에 있어서,

입력되는 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보를 근거로 각 프레임당 상기 피크 정보의 분포 정도 나타내는 히스토그램을 생성하는 과정과,

상기 히스토그램을 이용하여 피크 통계치를 산출하는 과정과,

상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정과,

상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하여 음소를 분절하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
삭제
제 1항에 있어서, 상기 히스토그램을 생성하는 과정은,

상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 과정과,

상기 피크 차수가 결정되면 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 과정과,

상기 결정된 프레임에 대해 상기 추출된 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 1항에 있어서, 상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하는 과정은,

상기 산출된 피크 통계치와 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하는 과정과,

상기 임계값 이상인 피크 통계치 중에서 최대치를 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 1항에 있어서, 상기 추출된 피크 정보는,

피크 차수가 1차 피크로 정의된 상태에서 추출된 것임을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 3항에 있어서, 상기 피크 차수는

2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 3항에 있어서, 상기 프레임의 길이는

디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 3항에 있어서, 상기 피크 차수를 결정하는 과정은,

시간 도메인 상의 음성 신호로부터 피크 정보를 추출하는 과정과,

상기 추출된 피크 정보에 대한 피크 차수를 정의하는 과정과,

상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하는 과정과,

상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정하는 과정을 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
제 8항에 있어서,

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행하는 과정을 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 방법.
음성 신호에서 음소를 분절하는 시스템은,

입력되는 음성 신호로부터 피크 정보를 추출하는 피크 정보 추출부와,

상기 추출된 피크 정보를 근거로 각 프레임당 상기 피크 정보의 분포 정도를 나타내는 히스토그램을 생성하는 히스토그램 생성부와,

상기 생성된 히스토그램을 이용하여 피크 통계치를 산출하는 피크 통계치 산출부와,

상기 각 프레임당 산출된 피크 통계치 중 최대치를 결정하고, 음소를 분절할 수 있도록 상기 최대치 사이의 밸리를 각 음소 간 경계로 결정하는 경계 결정부를 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 10항에 있어서,

상기 추출된 피크 정보를 근거로 상기 피크 통계치를 산출하는데 필요한 프레임의 길이를 결정하는 프레임 길이 결정부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
삭제
제 10항에 있어서, 상기 경계 결정부는

상기 최대치 결정 시 상기 피크 통계치 산출부에서 산출된 피크 통계치와 상기 상기 피크 통계치 중에서 음소로 인정되는 최대치를 선택하기 위해 미리 결정된 임계값을 비교하고, 상기 임계값 이상인 피크 통계치 중에서 최대치를 결정함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 11항에 있어서, 상기 프레임의 길이는

디폴트(default)로 512 포인트 프레임을 가지는 것을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 11항에 있어서,

상기 추출된 피크 정보를 근거로 피크 차수를 결정하는 피크 차수 결정부를 더 포함함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 14항에 있어서, 상기 피크 차수는

2차 피크 또는 3차 피크 중 어느 하나인 것을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 15항에 있어서, 상기 피크 차수 결정부는

상기 피크 정보 추출부에 의해 시간 도메인 상의 음성 신호로부터 피크 정보가 추출되면 상기 추출된 피크 정보에 대한 피크 차수를 정의하고, 상기 정의된 현재 피크 차수에서의 피크 특징값을 미리 결정된 임계 피크 특징값과 비교하여 상기 피크 특징값이 임계 피크 특징값 이상인 경우 상기 현재 피크 차수를 상기 피크 차수로 결정함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.
제 17항에 있어서, 상기 피크 차수 결정부는

상기 피크 특징값이 임계 피크 특징값 이하인 경우 상기 현재 피크 차수를 증가시켜 새로운 피크 차수를 정의하고, 상기 새로운 피크 차수에서의 피크 특징값을 상기 임계 피크 특징값과 비교하여 상기 임계 피크 특징값 이상이 되지 않는 한 상기 피크 차수를 결정하는 과정을 반복적으로 수행함을 특징으로 하는 음성 신호에서 음소를 분절하는 시스템.