KR20060067107A

KR20060067107A - 조음모델을 이용한 연속음성인식 장치 및 그 방법

Info

Publication number: KR20060067107A
Application number: KR1020050039412A
Authority: KR
Inventors: 박경현
Original assignee: 한국전자통신연구원
Priority date: 2004-12-14
Filing date: 2005-05-11
Publication date: 2006-06-19

Abstract

본 발명은 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다. 이와 같은 본 발명은 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부와, 상기 특징 추출부에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하여, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색부와, 상기 탐색부에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부로 구성된다.

조음특징, 연속음성인식, 발성유형, 조음위치, 조음방법, 전사문

Description

조음모델을 이용한 연속음성인식 장치 및 그 방법{CONTINUOUS SPEECH RECOGNITION APPARATUS USING ARTICULATORY MODEL AND METHOD THEREOF}

도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 구성을 나타낸 기능 블럭도,

도 2는 도 1에서의 탐색부의 구성을 나타낸 상세 기능 블럭도,

도 3은 도 2에서의 조음모델 생성부의 구성을 나타낸 상세 기능 블럭도,

도 4는 도 3에서의 조음특징 검출부의 구성을 나타낸 상세 기능 블럭도,

도 5는 도 3에서의 조합부의 구성을 나타낸 상세 기능 블럭도,

도 6은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식방법을 나타낸 동작 플로우챠트,

도 7은 도 6의 조합과정을 상세하게 나타낸 동작 플로우챠트이다.

<도면의 주요 부분에 대한 부호의 설명>

101 : 특징 추출부 102 : 탐색부

103 : 인식결과 출력부 104 : 조음모델 DB

105 : 발음사전 DB 106 : 언어모델 DB

본 발명은 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것으로, 특히 연속음성을 인식하는데 있어서 기존의 음향모델을 사용하지 않고 조음특징값(articulatory features)을 이용한 조음모델(articulatory model)을 사용하여 음성인식을 수행하는 조음모델을 이용한 연속음성인식 장치 및 그 방법에 관한 것이다.

종래의 연속음성인식 장치는 음성신호를 시간-주파수 영역에서 특징값들을 추출하여 생성한 음향모델을 이용하여 음성인식을 수행한다. 이러한 연속음성인식 장치는 음향모델의 크기가 커서 음성인식 과정에서 많은 계산량을 요구하고 잡음이 없는 깨끗한 환경하에서는 좋은 인식성능을 보이지만 자동차내에서와 같이 잡음이 존재하는 환경이나 훈련된 음향모델의 환경과 다른 환경하에서는 인식성능이 현저히 떨어지는 문제점이 있었다.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위해 이루어진 것으로, 본 발명의 목적은 음성을 인식하는 방법에 있어서 음성생성정보를 포함하는 조음정보를 이용함으로써 조음모델을 생성하고 그 조음모델을 인식과정에서 사용함으로써 모델의 크기를 줄이고 잡음환경과 같이 훈련환경과 다른 환경하에서 연속음성인식 장치의 인식성능을 높일 수 있는 조음모델을 이용한 연속음성인식 장치 및 그 방법을 제공하는 데 있다.

상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과, 상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과, 상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단을 포함하여 구성되는 것을 특징으로 한다.

상기와 같은 목적을 달성하기 위한 본 발명의 조음모델을 이용한 연속음성인식 방법은, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와, 상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와, 상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계를 포함하여 이루지는 것을 특징으로 한다.

이하, 본 발명의 일 실시예에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.

도 1은 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치의 기능 블럭도를 도시한 것이다.

도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치는, 입력되는 음성신호에서 특징벡터를 추출하는 특징 추출부(101)와, 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB(104)를 구축하여, 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색부(102)와, 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력부(103)로 구성된다.

도 2는 도 1에서의 탐색부의 상세 기능 블럭도를 도시한 것이다.

도 2에 도시된 바와 같이, 상기 탐색부(102)는 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축하는 조음모델 생성부(201)와, 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하는 탐색기(202)로 구성된다.

도 3은 도 2에서의 조음모델 생성부의 상세 기능 블럭도를 도시한 것이다.

도 3에 도시된 바와 같이, 상기 조음모델 생성부(201)는 상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음 특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부(301)와, 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시키는 조합부(302)로 구성된다.

도 4는 도 3에서의 조음특징 검출부의 상세 기능 블럭도를 도시한 것이다.

도 4에 도시된 바와 같이, 상기 조음특징 검출부(301)는 상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기(401)와, 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출하는 제2 조음특징 검출기(402)로 구성된다.

상기 제1 조음특징 검출기(401)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기(401a)와, 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기(401b)와, 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기(401c)로 구성된다.

상기 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기(402a)와, 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기(402b)와, 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기(402c)로 구성된다.

도 5는 도 3에서의 조합부의 상세 기능 블럭도를 도시한 것이다.

도 5에 도시된 바와 같이, 상기 조합부(302)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부(501)와, 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 저장시키는 조음특징 클러스터링부(502)로 구성된다.

그러면, 상기와 같은 구성을 가지는 본 발명의 일 실시예에 따른 조음모델을 이용한 연속음성인식장치 및 그 방법에 대해 도 6 및 도 7를 참조하여 설명하기로 한다.

먼저, 특징 추출부(101)는 입력되는 음성신호에서 특징벡터를 추출한다(S501). 탐색부(102)는 상기 특징 추출부(102)에서 추출된 특징벡터에서 조음특징들을 추출하고(S502), 그 조음특징들을 조합하여 조음모델을 생성한 후, 그 생성된 조음모델을 조음모델 DB(104)에 저장시킨다(S503). 이후, 탐색부(102)는 그 조음모델 DB(104)에서 상기 음성신호에서 해당되는 음소를 탐색한 후(S504), 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색한다(S505). 인식 결과 출력부(103)는 상기 탐색부(102)에서 탐색된 최종 단어열을 음성 인식 결과로 출력한다(S506).

상기 탐색부(102)의 상세한 동작을 도 2 내지 도 5를 참조하여 설명한다.

먼저, 상기 탐색부(102)의 조음모델 생성부(201)는 상기 특징 추출부(101)에 서 추출된 특징벡터로부터 조음모델을 생성하여 조음 모델 DB(104)를 구축한다.

즉, 상기 조음모델 생성부(201)의 조음특징 검출부(301)는 상기 특징벡터로부터 조음특징을 검출한다. 상기 조음특징 검출부(301)의 제1 조음특징 검출기(401)는 특징벡터가 자음인 경우, 그 자음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제1 조음특징 검출기(401)의 발성 유형 검출기(401a)는 상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출한다. 상기 제1 조음특징 검출기(401)의 조음방법 검출기(401b)는 상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출한다. 상기 제1 조음특징 검출기(401)의 조음위치 검출기(401c)는 상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하게 되는 것이다.

이어서, 상기 조음특징 검출부(301)의 제2 조음특징 검출기(402)는 상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DB(104)에서 검출한다. 상기 제2 조음특징 검출기(402)의 입술모양 검출기(402a)는 상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출한다. 상기 조음특징 검출부(301)의 혀의 고저 검출기(402b)는 상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하게 된다. 상기 조음특징 검출부(301)의 혀의 전후 검출기(402c)는 상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하게 되는 것이다.

이와같은 조음특징 정보는 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 구할 수 있는데, 전사문의 각 음소에 해당되는 조음특징 정보 로부터 음소-조음특징 매핑테이블을 참조함으로써 조음정보 기술문을 얻을 수 있다.

일반적으로, 한국의 말소리는 크게 자음과 모음으로 구분된다. 자음은 다시 발성유형, 조음방법, 그리고 조음위치에 따라 구분되고, 모음은 입술모양, 혀의고저, 그리고 혀의 전후에 따라 구분 되어진다. 예를 들어, 자음인 [b]음성을 입력으로 받았을 경우, 발성유형 검출기(401a)는 유성음임을 검출하고, 조음방법 검출기(401b)는 폐쇄음을 검출한다. 그리고 조음위치 검출기(401c)는 양순음임을 검출한다. 입술모양 검출기(402a), 혀의 고저 검출기(402b), 그리고 혀의 전후 검출기(401c)는 [b]음성과 관련된 조음특징 정보가 없기 때문에 어떤 조음특징 정보도 추출하지 못한다. 만약, 모음인 [i]음성을 입력으로 받았다면, [b]음성과는 반대로 발성유형 검출기(401a), 조음방법 검출기(401b), 그리고 조음위치 검출기(401c)는 어떤 조음정보도 추출하지 못한다. 하지만, 입술모양 검출기(402a)는 평순음을 검출하고 혀의 고저 검출기(402b)는 고모음을 검출한다. 마지막으로 혀의 전후 검출기(402c)는 전설음을 검출한다.

이후, 상기 조음모델 생성부(201)의 조합부(302)는 상기 조음특징 검출부(301)에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB(104)에 저장시킨다. 즉, 상기 조합부(302)의 조음특징 레이블링부(501)는 상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하게 된다(S701). 상기 조합부(302)의 조음특징 클러스터링부(502)는 상기 조음특징 레이블링부(501)에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB(104)에 업데이트시킨다(S702-S704). 이와 같은 과정(S701-S704)은 종료조건이 만족할 때 까지 수행된다(S705).

이후, 탐색기(202)는 상기 조음모델 생성부(201)에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB(105)와 언어모델 DB(106)를 이용하여 최종 단어열을 탐색하게 되는 것이다.

이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위내에서 다양하게 변형실시될 수 있다.

상술한 바와 같이 본 발명에 의한 조음모델을 이용한 연속음성인식 장치 및 그 방법에 의하면, 본 발명은 음성신호로부터 조음특징값을 추출하여 조음모델을 생성하고 이를 이용하여 음성인식을 수행한다. 조음특징값은 음성의 생성(speech production)에 대한 정보를 포함하고 있기 때문에 음향정보와 비교하여 볼 때 잡음등에 상대적으로 덜 민감하고 조음모델의 크기도 작기 때문에, 음성 인식시 계산량이 상대적으로 적게 요구되는 효과가 있다.

또한, 본 발명은 음성인식을 수행하는데 있어 조음특징 정보를 이용함으로써 인식시 계산량을 줄이고 잡음환경에서의 음성인식률을 향상시킬 수 있는 효과가 있다.

Claims

입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 수단과;

상기 특징 추출 수단에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 수단과;

상기 탐색 수단에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 수단

을 포함하여 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 1 항에 있어서,

상기 탐색 수단은 상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성부와;

상기 조음모델 생성부에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색기

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 2 항에 있어서, 상기 조음모델 생성부는

상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출부와;

상기 조음특징 검출부에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합부

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 3 항에 있어서, 상기 조음특징 검출부는

상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출기와;

상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출기

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 4 항에 있어서, 상기 제1 조음특징 검출기는

상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출기와;

상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출기와;

상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출기

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 4 항에 있어서, 상기 제2 조음특징 검출기는

상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출기와;

상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출기와;

상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출기

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 장치.
제 3 항에 있어서, 상기 조합부는

상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링부와;

상기 조음특징 레이블링부에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링부

로 구성되는 것을 특징으로 하는 조음모델을 이용한 연속음성인식장치.
입력되는 음성신호에서 특징벡터를 추출하는 특징 추출 단계와;

상기 특징 추출 단계에서 추출된 특징벡터에서 조음모델을 생성한 후, 조음모델 DB를 구축하고, 그 조음모델 DB에서 상기 음성신호에서 해당되는 음소를 탐색하여 최종 단어열을 탐색하는 탐색 단계와;

상기 탐색 단계에서 탐색된 최종 단어열을 음성 인식 결과로 출력하는 인식 결과 출력 단계

를 포함하여 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 8 항에 있어서, 상기 탐색 단계는

상기 특징벡터로부터 조음모델을 생성하여 조음 모델 DB를 구축하는 조음모델 생성 과정과;

상기 조음모델 생성 과정에서 생성된 조음모델을 이용하여 상기 음성신호에 해당되는 음소를 탐색한 후, 기 구축된 발음사전 DB와 언어모델 DB를 이용하여 최종 단어열을 탐색하는 탐색 과정

으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 9 항에 있어서, 상기 조음모델 생성 과정은

상기 음성신호에 해당되는 전사문과 음소-조음특징 매핑테이블을 이용하여 상기 특징벡터로부터 조음특징 정보을 검출하고, 그 음소-조음특징 매핑테이블을 참조하여 조음특징 정보로터 조음정보 기술문을 얻는 조음특징 검출 과정과;

상기 조음특징 검출 과정에서 검출된 조음특징을 조합하여 조음모델을 생성하여 상기 조음모델 DB에 저장시키는 조합 과정

으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 10 항에 있어서, 상기 조음특징 검출 과정은

상기 특징벡터가 자음인 경우 그 자음에 해당하는 조음특징을 상기 조음모델 DB에서 검출하는 제1 조음특징 검출 서브과정과;

상기 특징벡터가 모음인 경우 그 모음에 해당하는 조음특징을 상기 조음모델 DBD에서 검출하는 제2 조음특징 검출 서브과정

으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 11 항에 있어서, 상기 제1 조음특징 검출 서브과정은

상기 특징벡터가 자음인 경우 그 자음의 발성 유형을 검출하는 발성 유형 검출 과정과;

상기 특징벡터가 자음인 경우 그 자음의 조음방법을 검출하는 조음방법 검출과정과;

상기 특징벡터가 자음인 경우 그 자음의 조음위치를 검출하는 조음위치 검출과정

으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 11 항에 있어서, 상기 제2 조음특징 검출 서브과정은

상기 특징벡터가 모음인 경우 입술모양에 따른 조음 특징을 검출하는 입술모양 검출 과정과;

상기 특징벡터가 모음인 경우, 혀의 고저 위치에 따른 조음 특징을 검출하는 혀의 고저 검출 과정과;

상기 특징벡터가 모음인 경우, 혀의 전후 위치에 따른 조음 특징을 검출하는 혀의 전후 검출 과정

으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.
제 10 항에 있어서, 상기 조합 과정은

상기 특징벡터, 조음정보 기술문 및 기 생성된 조음모델을 이용하여 조음특징 레이블링을 수행하는 조음특징 레이블링 과정과;

상기 조음특징 레이블링 과정에서 레이블링된 각 조음정보별 특징벡터를 클러스터링하여 조음모델을 생성하여 조음모델 DB에 저장시키는 조음특징 클러스터링과정으로 이루어지는 것을 특징으로 하는 조음모델을 이용한 연속음성인식 방법.