KR100363251B1

KR100363251B1 - 음성 끝점 판별 방법

Info

Publication number: KR100363251B1
Application number: KR1019960051468A
Authority: KR
Inventors: 오광철; 김동국
Original assignee: 삼성전자 주식회사
Priority date: 1996-10-31
Filing date: 1996-10-31
Publication date: 2003-01-24
Also published as: KR19980031903A

Abstract

실시간으로 음성의 끝점을 판별하는 방법에 관한 것이다.

본 발명에 따른 음성의 끝점 판별 방법은 유성음의 안정 구간 이후의 어떤 관찰 시점에서 음성의 종료 여부를 판별하는 방법에 있어서, 피치의 변화율 ΔFO 및 정규화된 피치 변화율 α를 구하는 과정; 상기 정규화된 피치 변화율 α의 크기가 소정의 임계치 THP의 크기보다 그 이후 에너지가 낮은 임계치 THL이하로 내려가는 시점을 음성의 끝점으로 판단하는 과정; 및 상기 정규화된 피치 변화율 α의 크기가 임계치 THP의 크기보다 작으면 관찰 시점 이후 소정의 시간 동안 음성의 에너지와 묵음구간의 에너지를 비교하고, 소정의 시간동안 지속적으로 음성의 에너지가 묵음구간의 에너지보다 작으면 관찰 시점을 음성의 끝점으로 판단하는 과정을 포함함을 특징으로 한다.

본 발명에 따른 음성 끝점 검출 방법을 이용하면 실시간 음성 인식 시스템에 내재된 시간 지연이 줄어드는 잇점이 있다.

Description

음성 끝점 판별 방법

본 발명은 음성 구간 판별 인식 방법에 관한 것으로서 더욱 상세하게는 실시간으로 시간 지연 없이 음성의 끝점을 판별하는 방법에 관한 것이다.

음성 인식 시스템이 음성 신호를 처리하기 위해서는 연속적으로 입력되는 신호 중에서 음성 구간만을 찾아내는 작업이 필요하다.

음성 구간 검출 방식은 연속적으로 들어오는 입력 신호로부터 특정한 파라미터를 구하고, 그 파라미터와 미리 설정된 임계치를 비교하여 음성 신호를 비음성 신호와 구분해 내는 일련의 과정으로 구성된다. 또한, 입력 신호를 처리하는 방법에 따라 사후 처리 방식과 진행 처리 방식으로 구분된다.

사후 처리 방식은 미리 정해 놓은 일정한 시간동안 입력 신호를 받아 버퍼에 쌓아 놓은 후 음성 구간을 찾는 방법이다. 이 방법은 신호를 처리하기가 용이하고 간단히 구현할 수 있는 반면에 실시간 음성 인식에는 적절하지 않다. 또한 입력 시간을 미리 정해 놓기 때문에 그 시간 내에 음성을 발성해야 하는 번거로움이 있다. 만약 주어진 시간이 짧아서 시간내에 발성을 하지 못하면 입력 단어가 끊기게 되고, 반대로 너무 길면 발성이 끝난 후 불필요하게 기다리는 시간이 많아지게 된다. 더욱이, 입력 시간을 적절하게 설정했다 하더라도 시스템의 음답 시간이 느려지는 단점이 있다.

반면 진행 처리 방식은 계속적으로 신호의 입력을 받아 들이면서 현재까지 들어온 정보만으로 음성 구간을 결정하는 방식이다. 이 방식은 현재까지 입력된 정보만을 사용하기 때문에 정확도가 떨어질 수 있고, 따라서 상당히 복잡한 알고리즘으로 구현된다. 그러나, 사용자의 입장에서는 발성 시간에 대한 제약이 없어서 편리하고, 시스템의 입장에서는 처리 능력을 최대한 발휘할 수 있어서 처리 시간상으로 매우 유리하다. 따라서, 현재 대부분의 음성 인식 시스템은 진행 처리 방성을 사용한다.

통상적으로 음성 신호는 도 1에 도시된 바와 같이 묵음, 음성의 전반부, 음성의 중앙부, 음성의 후반부, 음성후 상태로 나타내어 지는 5가지 상태를 가지게 된다. 묵음은 음성의 에너지가 미리 성정되어 있는 임계치보다 작은 경우이다. 보통의 경우 임계치는 낮은 임계치와 높은 임계치 두 개를 가진다.

음성의 전반부는 음성 신호의 에너지가 높아지기 시작하여 이 두 개의 임계치 사이에 있는 상태이고, 음성의 중앙부는 유성음이 안정화되는 상태로서 음성의 에너지가 높은 임계치보다도 큰 상태이고, 음성의 후반부는 음성의 중앙부 이후에 음성의 에너지가 낮아지기 시작하여 두 개의 임계치 사이에 있게되는 상태이다.

음성후 상태는 음성 구간의 종료 여부를 결정하기 위하여 음성 후반부 이후의 일정 기간 머무르는 상태로서 Dpost라 하며, 통상 300msec에서 500msec 정도이다. 결국 발성후 최소 300msec 에서 500msec 정도 지나서 검출된 음성 구간을 얻을 수 있다.

도 1은 종래의 음성 구간 검출 시스템의 동작을 보이는 상태 천이도이다. 도 1에 도시된 장치의 동작 상태는 현재 입력되는 음성 신호의 상태에 따라 도 1에 도시된 5가지의 상태로 변화한다. 먼저 입력되는 음성 신호의 에너지(E)가 낮은 임계치(THL)와 높은 임계치(THH) 사이에 있게 되면 묵음 상태에서 음성의 전반부 상태로 이동한다. 음성 에너지가 높은 임계치보다도 커지면 음성의 중앙부 상태로 천이한다. 음성의 중앙부 상태를 지난 후 입력 신호의 에너지가 높은 임계치보다 작아지면 음성의 후반부 상태로, 그리고 낮은 임계치보다도 작아지면 음성후 상태로 변한다.

음성후 상태를 묵음 상태와 구별하는 이유는 도 1에 도시된 바와 같이 음성후 상태를 지나서 다시 음성의 중앙부로 이동(예를 들면, 유성음후에 받침이 발음되는 경우)할 수 있기 때문이다. 따라서, 음성 입력이 마첬음을 결정하기 위하여 음성후 상태에서 일정 기간 머물러 있어야 한다.

이와 같이 종래의 음성 구간 검출 시스템은 발성이 끝난 후 최소 300msec 내지 최대 500msec정도 기다려야 검출 결과가 나온다. 이 시간은 실시간 음성 인식 시스템에서의 일반적인 시간 지연 40msec보다 훨씬 크므로 인식 시스템의 실용화에 문제가 있었다.

본 발명은 상기의 문제점을 해결하기 위하여 창출된 것으로서 실시간으로 시간 지연 없이 음성의 종료 여부를 인식할 수 있는 음성 끝점 판별 방법을 제공하는 것을 그 목적으로 한다.

도 1은 음성 구간과 에너지의 관계를 도식적으로 보이는 그래프이다.

도 2는 종래 방법에 의한 음성 구간 검출 시스템의 상태 변화를 보이는 상태 천이도이다.

도 3은 평서문에서 음성과 피치와의 관계를 보이는 그래프이다.

도 4는 의문문에서 음성과 피치와의 관계를 보이는 그래프이다.

도 5는 본 발명에 의한 음성 끝점 판별 방법을 적용한 음성 구간 검출 시스템의 상태 변화를 상태 천이도이다.

상기의 목적을 달성하는 본 발명에 따른 음성의 끝점 판별 방법은 유성음의 안정 구간 이후의 어떤 관찰 시점에서 음성의 종료 여부를 판별하는 방법에 있어서, 하기의 식으로 표현되는 피치의 변화율 ΔFO 및 정규화된 피치 변화율 α를 구하는 과정;

α = ΔFO/FOs

ΔFO = FO - FOs

(여기서, FOs는 유성음의 안정 구간에서의 피치이고, FO는 관찰 시점에서의 피치)

상기 정규화된 피치 변화율 α의 크기가 소정의 임계치 THP의 크기보다 크면 그 이후 에너지가 낮은 임계치 THL 이하로 내려가는 시점을 음성의 끝점으로 판단하는 과정; 및 상기 정규화된 피치 변화율 α의 크기가 임계치 THP의 크기보다 작으면 관찰 시점 이후 소정의 시간 동안 음성의 에너지와 묵음구간의 에너지를 비교하고, 소정의 시간동안 지속적으로 음성의 에너지가 묵음구간의 에너지보다 작으면 관찰 시점을 음성의 끝점으로 판단하는 과정을 포함함을 특징으로 한다.

이하 첨부된 도면을 참조하여 본 발명의 구성 및 동작을 상세히 설명한다.

일반적으로 사람이 음성을 발성할 때 일정 시간에 발성을 잠시 멈추게 된다. 특히 음성 인식에서 사용하는 격리 단어의 경우에 단어마다 발성이 멈추게 된다.

이때 발성음 중에서 유성음은 그 기본 주파수인 피치 성분을 포함하게 된다. 피치에는 발성자의 음성의 높낮이나 발성 상태의 심리적 상태를 알 수 있는 운율 정보를 가지고 있다.

운율 정보 속에는 발성이 일시적으로 멈춰졌을 때 특이한 현상을 가지게 된다. 즉, 평서문의 경우 도 3에 도시된 바와 같이 발성의 마지막부로 가면서 주로 유성음의 피치값이 낮아지게 되고, 반면 의문문의 경우는 도 4에 도시된 바와 같이 올라가게 된다. 따라서, 이 정보를 이용하면 음성 발성이 끝난 후 200msec에서 500msec까지 기다리지 않아도 음성 발성이 마쳤는 지의 여부를 판별할 수 있다.

본 발명에 따른 음성 끝점 검출 방법을 상세히 설명한다.

먼저 유성음의 안정 구간 즉 음성의 중앙부에서의 피치 FOs를 구한다. 유성음의 안정 구간 이후의 어떤 관찰 시점에서의 피치를 구하여 FO라고 놓으면 피치의 변화율 ΔFO는 다음과 같다.

ΔFO = FO -FOs

이 변화율을 FOs로 정규화한 값을 α라 하면,

α= ΔFO/FOs이다.

이 값이 미리 설정된 피치 변화 임계치(±THP)를 넘으면 발성의 마치는 지점으로 가는 것으로 보고 이후 에너지가 THL 아래로 낮아지게 되면 음성 구간 검출이 끝났다고 결정한다.

만일 α가 ±THP를 벗어나지 않고 에너지가 THL보다 작아지면 현재 발성음 다음에 받침이 오는 경우이므로 이때는 기존 방식에서와 마찬가지로 이후 200msec정도의 에너지를 비교한다.

발성음이 평서문일 경우는 FO가 FOs보다 작으므로 ΔFO가 음수가 되므로 α가 -THP보다 낮아지게 되고 의문문의 경우는 반대로 FO가 FOs보다 커져서 α가 +THP보다 커지게 된다.

도 5는 본 발명에 따른 음성 끝점 판별 방법을 적용한 음성 구간 검출 방법을 보이는 상태 천이도이다. 도 2에 도시된 것과 비교할 때 음성후 구간이 없어지고, 피치 변화에 따른 파라미터 α를 음성 중앙부 상태에서 구해놓고, 음성 에너지가 임계치보다 낮아질 때 이 파라미터의 피치변화 임계치 THP를 비교하여 파라미터의 절대값이 임계치보다 크면 음성 발성이 종료된 것으로 결정하고 임계치보다 작으면 연속된 발성이 있을 것으로 결정하여 다시 음성의 전반부 상태로 돌아간다.

따라서, 음성 구간 검출 시스템은 묵음, 음성의 전반부, 음성의 중앙부, 음성의 후반부 모두 4가지 상태를 가지게 된다. 묵음 상태는 에너지가 미리 설정되어 있은 THL보다 작은 경우이다. 보통의 입력 신호의 에너지가 THL과 THH 두 개의 임계치 사이에 있게 되면 음성 의 전반부 상태로 이동한다. 에너지가 높은 임계치보다도 커지면 음성 구간 검출 시스템은 음성의 중앙부 상태로 천이한다. 이 상태에서 음성이 안정된 구간에서의 위치를 구하고 이후 피치값의 변화에 따라 피치변화 파라미터 α를 구한다. 음성의 중앙부 상태를 지난 후 입력 신호의 에너지가 높은 임계치보다 작아지면 음성의 후반부 상태로, 그리고 낮은 임계치보다도 작아지면 음성 구간 상태에서 구한 파라미터 α의 절대값을 피치 변화 임계치 THP와 비교하여 임계치보다 크면 음성 발성이 끝난 것으로 결정하여 음성 구간을 출력한다. 반면 피치 변화 파라미터가 임계치보다 작으면 연속적인 음성 발성이 있을 것으로 보고 음성 전반부 상태로 돌아간다.

이와 같이 본 발명에 따른 음성 끝점 검출 방법에 의하면 음성 후반부 이후의 시간 지연이 없어지게 된다.

상술한 바와 같이 본 발명에 따른 음성 끝점 검출 방법을 이용하면 실시간 음성 인식 시스템의 구현이 수월해지고, 또한 디지털 음성 부호화, 화자 인식, 화자 식별 시스템에 유용하게 사용될 수 있다.

Claims

유성음의 안정 구간 이후의 어떤 관찰 시점에서 음성의 종료 여부를 판별하는 방법에 있어서,

하기의 식으로 표현되는 피치의 변화율 ΔFO 및 정규화된 피치 변화율 α를 구하는 과정;

α = ΔFO/FOs

ΔFO = FO - FOs

(여기서, FOs는 유성음의 안정 구간에서의 피치이고, FO는 관찰 시점에서의 피치)

상기 정규화된 피치 변화율 α의 크기가 소정의 임계치 THP의 크기보다 크면 그 이후 에너지가 낮은 임계치 THL 이하로 내려가는 시점을 음성의 끝점으로 판단하는 과정; 및

상기 정규화된 피치 변화율 α의 크기가 임계치 THP의 크기보다 작으면 관찰 시점 이후 소정의 시간 동안 음성의 에너지와 묵음구간의 에너지를 비교하고, 소정의 시간동안 지속적으로 음성의 에너지가 묵음구간의 에너지보다 작으면 관찰 시점을 음성의 끝점으로 판단하는 과정을 포함하는 음성 끝점 판별 방법.