KR20040100592A

KR20040100592A - 이동 기기에서의 실시간 화자독립가변어 음성인식 방법

Info

Publication number: KR20040100592A
Application number: KR1020030033006A
Authority: KR
Inventors: 김정희
Original assignee: 엘지전자 주식회사
Priority date: 2003-05-23
Filing date: 2003-05-23
Publication date: 2004-12-02

Abstract

본 발명은 음성인식 방법에 관한 것으로, 특히 휴대폰과 같은 저성능 프로세서에서의 실시간 가변어 음성인식 방법에 관한 것이다.

본 발명의 음성인식방법은 a) 음성을 입력하는 단계; b) 상기 입력된 음성데이터를 프레임 단위로 나누고 상기 프레임중 실제 음성구간만을 분리하는 단계; c) 실제 음성구간의 프레임의 특징벡터를 추출하고 추출된 특징벡터를 이용하여 가우시안 확률분포로 모델링 한 후 확률분포상에 표시된 확률값을 계산하여 소정의 방식으로 구성된 인식네트워크와 비교하여 입력된 음성을 인식하는 단계; 및 d) 현재 프레임의 특징벡터와 이전프레임의 특징벡터의 유사도를 측정하여 현재 프레임의 특징벡터가 이전프레임의 특징벡터와 유사하면 이전프레임의 확률값을 사용하여 현재프레임의 음성을 인식하는 단계를 포함한다.

Description

이동 기기에서의 실시간 화자독립가변어 음성인식 방법{Speech Recognition Method of Real-time Speaker Independent Variable Word in Mobile System}

본 발명은 음성인식 방법에 관한 것으로 특히 휴대폰과 같은 저성능 프로세서에서의 실시간 가변어 음성인식 방법에 관한 것이다.

음성인식 기술은 일상적으로 사용하는 많은 전기, 전자 기기 들을 음성으로 동작시킬 수 있게 하는데 이용된다. 특히, 이동전화, PDA등 마땅한 입력 수단이 없거나, 기존 입력방법이 불편을 주는 모바일 환경에서 활용될 경우 사용상에 많은 편리함을 얻을 수 있다.

음성인식 기술 중 가장 간단한 것은 화자종속 고립단어 인식기술이다. 이에 의하면 훈련시킨 사람의 목소리만을 인식할 수 있다.

화자종속방법으로 사용자가 음성으로 기기를 동작시키기 위해서는 먼저, 원하는 명령어를 등록한 후 해당 명령어를 사용자의 음성으로 한번 또는 두 번 이상 발성하여 기기를 훈련시키는 과정이 필요하다.

그러나, 이러한 훈련과정은 사용자에게 매우 불편함을 느끼게 할 뿐만 아니라, 많은 양의 명령어가 필요한 기기의 경우, 예를 들어 PDA의 메뉴, 혹은 휴대폰의 전화번호에서 인명검색 등의 경우에는 많은 단어를 모두 훈련시켜 특징을 저장하기란 불가능하다. 따라서, 훈련과정이 필요 없고 사용자마다 인식대상 어휘가 달라져도 인식이 가능한 음성인식 전화기의 필요성이 증대되고 있다.

훈련과정 없이 모든 단어에 대해 음성인식 기능을 수행하기 위해서는 화자독립가변어 음성인식기술이 필요하다. 이 기술은 인식대상단어의 문자정보를 입력하면 이 문자정보에 해당하는 인식네트워크를 생성하여 필요한 음향 모델과 매칭하여 주므로, 사용자는 문자 정보만 입력함으로써 원하는 대상 단어에 대한 음성 인식을 수행할 수 있다.

이와 같이 되면, 사용자는 음성인식 기능을 사용하기 위해 별도의 훈련과정 없이, 단말기에서 키패드를 이용하여 명령어를 등록함으로써 음성인식을 통해 기기를 동작시키는 것이 가능하다.

그러나, 화자독립가변어인식기는 임의의 문자정보에 대한 인식네트워크를 형성하기 위하여 한국어의 모든 음소정보에 대한 데이터를 저장하고 있어야 하므로 휴대폰 혹은 PDA와 같은 이동기기의 한정된 하드웨어에 탑재하기에는 메모리와 인식 속도 등에서 어려움이 많다.

특히, 휴대폰의 경우 탑재되어 있는 프로세서가 일반 컴퓨터의 그것에 비해 성능이 현저하게 떨어지므로 음성 인식의 속도가 실시간에 비해 많이 저하된다.

그러나, 모바일 환경의 경우 빠른 응답속도를 요구하는 경우가 대부분이라 할 수 있다.

현재까지 화자독립형 음성인식이 산업계에 잘 적용되지 않은 원인도 일정 부분 느린 응답속도에 기인한 것이라 할 수 있다.

또한, 기존의 화자독립 인식 알고리즘에서 HMM(Hidden Markov Model; 이하 'HMM'이라 함)의 확률계산부분에서 일반적으로 계산시간의 문제로 인해, 연속 은닉 마르코브 모델(Continuous Hidden Markov Model)은 임베디드 시스템에서는 잘 쓰이지 않으며, 이산 은닉 마르코프 모델(Discrete Hidden Markov Model)의 경우는 인식 성능의 저하로 인해 잘 쓰이지 않는다.

현재, 이러한 이유로 인해 화자 독립가변어 인식기는 주로 반연속 은닉 마르코프 모델(Semi-Continuous Hidden Markov Model, 이하 'SCHMM'이라 한다)이 사용 되고 있다. 그러나, 위 SCHMM의 경우에도 각 음성 프레임 마다 매번 구해둔 코드북(codebook) 개수 만큼의 가우시안(Gaussian) 확률 값을 구해야 한다. 이로 인해, 임베디드 시스템에 쓰이는 저성능 프로세서에 있어서는 상당히 많은 양의 계산을 요구하게 되어 실시간 계산을 이루지 못하는 경우가 대부분이다.

본 발명의 목적은 상기와 같은 종래 기술의 문제점을 해결하기 위하여 안출된 것으로, 그 목적은 저성능의 프로세서에서도 실시간으로 동작할 수 있는 음성인식 방법을 제공하는데 있다.

도 1은 본 발명의 일 실시예에 따른 음성인식방법을 나타내는 플로우차트이다.

도 2는 본 발명의 일 실시예에 따른 음성인식방법 중 발생확률계산과정을 나타내는 플로우차트이다.

도 3은 본 발명의 일 실시예에 따른 음성인식방법 중 음성인식과정을 나타내는 플로우차트이다.

상기 목적을 달성하기 위하여 본 발명의 음성인식 방법은 a) 음성을 입력하는 단계; b) 상기 입력된 음성데이터를 프레임 단위로 나누고 상기 프레임 중 실제 음성구간만을 분리하는 단계; c) 실제 음성구간의 프레임의 특징벡터를 추출하고 추출된 특징벡터를 이용하여 가우시안 확률분포로 모델링 한 후 확률분포상에 표시된 확률값을 계산하여 소정의 방식으로 구성된 인식네트워크와 비교하여 입력된 음성을 인식하는 단계; 및 d) 현재 프레임의 특징벡터와 이전프레임의 특징벡터의 유사도를 측정하여 현재 프레임의 특징벡터가 이전프레임의 특징벡터와 유사하면 이전프레임의 확률값을 사용하여 현재프레임의 음성을 인식하는 단계를 포함한다.

본 발명의 음성인식 네트워크는 바람지하게는 가우시안 코드북(Gaussian Codebook)들을 소정의 개수의 클러스터(Cluster)로 나누고, 상기의 나누어진 클러스터 중 유사한 클러스터를 분류하고, 상기 분류하여 선택된 클러스터만을 계산하는 과정을 포함한다.

이하 첨부한 도면을 참조하여 본 발명을 보다 상세하게 설명하고자 한다.

도 1은 본 발명의 일 실시예에 따른 음성인식과정을 나타내는 플로우차트이다.

상기 실시예에서 음성인식과정은 음성입력안내단계, 음성입력단계, 음성구간검출단계, 음성특징검출단계, 인식단계, 인식성공여부를 판단하는 단계, 명령실행단계를 포함한다.

단계 101은 음성입력안내단계이다. 이동기기에서는 사용자에게 음성을 입력하라는 신호를 보내게 된다.

단계 102는 음성입력단계이다. 단계 101에서 안내신호를 청취한 사용자는 원하는 명령어나 이름 등을 발음한다.

단계 103은 음성구간을 검출하는 단계이다. 상기 단계에서는 입력된 신호 중에서 실제로 발성된 구간, 즉 음성 구간만을 검출하는 단계이다. 음성구간을 검출하기 위해서 입력된 음성신호는 짧은 구간(frame)으로 분할되어 각각의 프레임단위로 계산된다. 상기 분할된 프레임으로부터 계산에 의해서 선형스펙트럼정보(LSP), 코드북 이득(codebook gain) 등이 출력된다. 이 때 음성에너지를 이용하여 음성구간만을 검출하도록 한다.

단계 104는 음성특징을 검출하는 단계이다. 선형스펙트럼정보(LSP)와 음성에너지를 이용하여 발음한 음성의 특징벡터를 추출한다.

단계 105와 106은 음성인식단계이다. 상기 단계 104에서 음성특징이 검출되면 소정의 방식으로 음성을 인식하게 된다. 이에 관한 자세한 내용은 후술한다.

단계 107은 명령을 실행하는 단계이다. 상기 단계 106에서 음성인식에 성공한 경우 해당 명령을 수행하는 단계이다.

도 2는 본 발명의 일 실시예에 따른 음성인식과정 중 발생확률계산과정을 나타내는 플로우차트이다. 상기 실시예에서는 프레임의 계산 과정을 보여주고 있다.

음성이 입력되면 음성을 분석하여 매 프레임별로 특징(feature)을 추출한다. 그러나 각 프레임은 일반적으로 10ms정도의 짧은 시간 간격을 가지고 있다. 따라서 인접한 프레임의 특징은 발음이 급격하게 변화하는 구간을 제외하고는 유사한 특징을 가지기가 쉬우므로 이러한 특징의 발생확률을 일일이 구하고자 매 프레임마다 확률을 계산하는 것은 계산량의 낭비를 초래한다. 따라서, 이전 프레임과 현재 프레임의 특징을 비교하여 현저히 차이가 날 때 독립적인 확률계산을 하고 이 이외의 경우에는 이전 프레임의 정보만을 이용한다면 그 계산량을 현저히 줄일 수 있을 뿐만 아니라, 인식 성능에는 거의 영향을 주지 않게 된다.

단계 201과 단계 202는 입력된 음성을 프레임 단위로 나누고 이를 이전 프레임과 비교하는 단계이다.

대부분의 음성인식 시스템은 일반적으로 각 프레임을 20ms 구간의 길이로 하고 10ms의 오버랩을 두어 사용한다. 즉, 1초의 음성일 경우에 100개의 프레임에 대한 계산을 하여야 한다. 그러나, 오버랩된 구간은 실제로 정보량이 다른 프레임에 비해 현저히 떨어지며, 이들 프레임에 의해 단어 인식의 성능이 크게 좌우되지 않는다. 하지만 상기의 예에서와 같이 이들의 프레임을 배제하고 1초에 50 프레임만을 가지고 계산한다면 HMM의 특성상 짧은 발음의 경우 인식률이 현저히 떨어질 수있다.

이를 보완하고자, 본 발명에서는 오버랩된 프레임에 대해 어떠한 특징 추출이나 확률 계산을 하지 않고 이전 프레임과 이후 프레임에서 계산된 확률값을 이용함으로서 1초에 100프레임을 계산하여야 할 양을 50프레임 정도로 하여 그 양이 대폭 줄어들게 된다.

이는 확률값의 계산을 반으로 줄이는 것뿐만 아니라 HMM시스템에서 단어를 검색하는 과정에서도 영향을 미친다. HMM에서 프레임 별로 확률값을 참조하여 단어를 검색하게 되는데, 이 때 오버랩된 프레임을 사용하지 않고, 이전 이후 프레임의 정보를 사용하게 되면, 검색시간 역시 줄어들게 된다.

음성이 입력되면 당해 입력된 음성을 포함한 데이터는 프레임 단위로 나뉘게 된다. 나뉘어진 각각의 프레임은 프레임 별로 특징 벡터가 입력된다. 일반적으로 12차에서 39차 정도의 다차원 벡터를 이용할 수 있다. 각각 입력된 프레임의 특징은 유클리디안 디스턴스를 이용하여 현재프레임과 비교되어진다.

단계 203은 상기의 유클리디안 디스턴스값과 미리 주어진 임계값(Threshold)과 비교하는 과정이다. 임계값은 원하는 계산량의 감소분과 인식 성능을 비교하여 실험을 통해 결정한다. 즉 임계값이 크면 많은 프레임이 유사한 것으로 여겨져 속도는 많이 개선되어질 수 있지만 지나칠 경우 성능의 저하가 우려된다.

단계 204는 상기에서 값을 비교한 후 프레임간의 특징이 유사하다고 판별될 경우, 이전 프레임의 정보를 사용하는 단계이다. 특징이 유사하므로 이전 프레임에서 사용되었던 확률 함수를 이용하여 확률을 구할 경우 독립적으로 구한 것과 비슷한 값을 얻을 수 있다.

단계 205는 상기에서 비교한 값이 유사하지 않을 경우 독립적인 확률계산을 수행하는 단계이다.

도 3은 본 발명의 일 실시예에 따른 음성인식방법중 음성인식과정을 나타내는 플로우차트이다. 상기 도 2에서 보여진 바와 같이 이전 프레임 정보와 현재 프레임의 정보가 차이가 나는 경우 독립적인 확률계산을 수행하게 된다.

상기 단계 201에서 단계 205까지를 거친 후 HMM을 통하여 음성을 인식하게 된다.

우선 HMM방식으로 대규모 음성 데이터베이스를 이용해 해당하는 트라이폰(triphone)을 훈련시킨다. 상기 트라이폰은 3개의 상태(state)를 갖는다. 전체 음향 모델의 크기를 줄이기 위해 상태들 간의 유사도를 측정하여 유사한 상태들끼리는 서로 묶어주는 클러스터링을 수행한다.

즉, 미리 가우시안 코드북(Gaussian Codebook)들을 적절한 몇개의 클러스터(Cluster)로 나누고 그 중 몇 개의 클러스터(Cluster)만을 계산함으로써 그 양을 실시간 계산이 가능한 정도로 줄일 수 있다.

예를 들어 설명하면 다음과 같다. 가우시안 코드북(Gaussian Codebook)이 256개라고 할 경우 이를 다 계산하지 않고, 이들을 미리 약 32개 정도의 클러스터(Cluster)들로 분류한 후 클러스터들과 특징을 비교하여 비슷하다고 판단되어지는 10개의 클러스터들만 계산한다. 이 경우 평균 80개 정도의 가우시안만 계산하면 되며, 인식 성능의 저하는 거의 없다. 즉 인식 성능은 확률값이 정확한 상위 몇 개의 가우시안에 의해 좌우되며, 확률값이 낮은 가우시안에 의해서는 영향이 거의 없기 때문이다.

상기와 같이 계산하는 경우 프레임당 256개의 가우시안을 계산하여야 할 것을 클러스터 32개, 가우시안 80개를 더하여 평균 112개 정도의 계산만으로 인식 성능의 저하 없이 50%이상의 계산량을 줄일 수 있다.

단계 301은 발음을 검색하는 단계이다. 인식된 음성을 실행하기 위해서는 인식 네트워크의 구성이 중요하다. 상기 인식 네트워크는 전화번호부에 등록된 이름들의 문자정보를 발음규칙에 따라 트라이폰 정보로 변환하여 구성한다. 상기에서 구해진 상태들의 클러스터링 정보를 함께 이용하여 발생위치가 같은 트라이폰은 인식네트워크에서 공유되도록 한다.

상기 같은 정보의 트라이폰들을 인식네트워크에서 공유시킴으로써 메모리와 인식 시간을 절약할 수 있다. 만일, 전화번호부의 내용이 바뀌면 실시간으로 네트워크를 재구성한다.

단계 302는 프레임의 마지막을 검사하는 단계이다. 입력된 음성신호프레임이 마지막일 경우 음성인식을 종료시키며 그렇지 않은 경우 다시 확률 계산과 검색을 되풀이한다.

이상에서와 같이 본 발명은 화자독립 가변어 음성 인식기의 계산 속도를 개선함으로써 이동기기에 실시간으로 음성 명령을 내릴 수 있게 함으로써 사용자가음성 명령을 이용함에 있어 많은 편리함을 줄 수 있다.

또한, 본 발명은 이동기기와 같이 메모리와 프로세서의 제약이 많은 조건에서도 동작할 수 있도록 사용메모리를 절약하고 인식속도를 향상시킴으로써 이와 유사한 저성능의 하드웨어 조건을 갖춘 사전기기 등에 적용함으로써 음성 인식 기능을 다양한 분야에 적용할 수 있도록 하여 준다.

상술한 바와 같이, 본 발명의 바람직한 실시예를 참조하여 설명하였지만 해당 기술 분야의 숙련된 당업자라면 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.

Claims

이동기기에서 화자의 음성인식 방법에 있어서

a) 음성을 입력하는 단계;

b) 상기 입력된 음성데이터를 프레임 단위로 나누고 상기 프레임 중 실제 음성구간만을 분리하는 단계;

c) 실제 음성구간의 프레임의 특징벡터를 추출하고 추출된 특징벡터를 이용하여 가우시안 확률분포로 모델링 한 후 확률분포상에 표시된 확률값을 계산한 후 소정의 방식으로 구성된 인식네트워크와 비교하여 입력된 음성을 인식하는 단계; 및

d) 현재 프레임의 특징벡터와 이전프레임의 특징벡터의 유사도를 측정하여 현재 프레임의 특징벡터가 이전프레임의 특징벡터와 유사하면 이전프레임의 확률값을 사용하여 현재프레임의 음성을 인식하는 단계를 포함하는 것을 특징으로 하는 음성인식 방법.
제 1항에 있어서, 음성인식 네트워크는 가우시안 코드북(Gaussian Codebook)들을 소정의 개수의 클러스터(Cluster)로 나누고, 상기의 나누어진 클러스터중 유사한 클러스터를 분류하고, 상기 분류하여 선택된 클러스터만을 계산하는 것을 특징으로 하는 음성인식 방법.