KR101971696B1

KR101971696B1 - 음향모델 생성 장치 및 방법

Info

Publication number: KR101971696B1
Application number: KR1020160158129A
Authority: KR
Inventors: 강병옥; 박전규; 오유리; 이성주; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2016-11-25
Filing date: 2016-11-25
Publication date: 2019-04-25
Also published as: KR20180059031A

Abstract

본 발명은 기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부, 비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 state와 유사한 state를 제2 음향모델부(200)에서 검색하고, 상기 원어민 발성 음성 DB, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련함으로써, 보다 성능이 우수한 외국어 음향모델을 생성할 수 있다.

Description

음향모델 생성 장치 및 방법{APPARATUS AND METHOD FOR CREATING OPTIMUM ACOUSTIC MODEL}

본 발명은 비원어민 대상 외국어 음성인식 성능 향상을 위한 음향모델 생성장치 및 방법에 관한 것이다.

음성 인식 기술은 발전을 거듭하여 현재 상용화 단계에 접어들었으며 다양한 분야에 적용되고 있다. 그 중 타언어로 서비스되는 음성인식 및 외국어 학습의 분야에서는 비원어민이 외국어를 발성하여 음성인식을 수행해야 하는 경우가 증가되고 있다.

보다 구체적으로, 한국인과 같은 비원어민을 대상으로 한 외국어 음성인식 분야가 증가되고 있다.

한국인 발성 외국어 음성인식과 같은 비원어민을 대상으로 한 외국어 음성인식은 해당 언어의 원어민을 대상으로 한 경우에 비해 대체로 음성인식 성능이 저하된다. 음성인식 성능 저하의 가장 큰 원인은 입력된 음성과 음성인식 시스템을 구성하는 음향모델에 저장된 데이터가 불일치하는 것이다.

세부적으로, 입력되는 음성과 음향모델 사이의 불일치는 하기 3가지 원인으로 요약될 수 있다.

첫째, 영어의 F, X, V음과 같이, 비원어민(한국인)의 모국어(한글)에는 없지만 외국어(영어)에는 있는 특정 단어가 원인이다.

둘째, 원어민에 비해 부정확한 비원어민의 발음이 원인이다.

셋째, 음향모델에 저장된 외국어의 비원어민 및 원어민 발성 음성 DB의 부족이 원인이다.

이와 관련하여, 한국공개특허공보 제2014-0135358 호(발명의 명칭: 타국인 발화 음성을 위한 음성 인식 장치)는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 음성 인식 장치를 개시하고 있다.

본 발명의 일 실시예는 비원어민의 자국어 음향모델과 를 이용하여, 원어민에 비해 부정확한 비원어민의 발음 특성을 개선할 수 있고, 음향모델의 DB의 부족을 개선할 수 있는 음향모델 생성 장치 및 방법을 제공하고자 한다.

다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.

상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 음향모델 생성 장치는, 기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부, 비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 state와 유사한 state를 제2 음향모델부에서 검색하여 맵핑 관계를 형성하고, 상기 를 대상으로 state 단위의 시간 정렬을 수행하고, 프레임단위의 비원어민의 자국어 음성 구간을 추출하고, 상기 원어민 발성 음성 DB, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련하여 최종 외국어 음향모델을 생성하는 음향모델 생성부를 포함하는 포함한다.

전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 원어민 발성 음성 DB, 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB를 보강하여 기준 외국어 음향모델을 훈련함으로써, 최종적으로 기준 외국어 음향모델보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.

더하여, 본 발명에서는 원어민 또는 비원어민의 외국어 발성 DB 뿐만 아니라 비원어민의 자국어 발성 음성 DB를 보강하여 음향모델을 훈련함으로써, 보다 풍부하고 다양한 음성 데이터를 보유하여 음향모델의 DB 부족을 해소할 수 있다.

도 1 은 본 발명의 일 실시예에 따른 음향모델 생성 장치의 구성도이다.
도 2는 도1의 제1음향모델부의 구성도이다.
도 3은 도 1의 제2 음향모델부의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 음향모델 생성방법을 나타내는 도면이다.

아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.

이하에서는, 도면을 참조하여 본 발명의 일 실시예에 따른 문장 재구성 장치 및 그 방법에 대하여 상세히 설명하도록 한다.

도 1 은 본 발명의 일 실시예에 따른 음향모델 생성 장치의 구성도이고, 도 2는 도 1의 제1음향모델부(100)의 구성도이고, 도 3은 도 1의 제2 음향모델부(200)의 구성도이다.

도 1에 도시된 바와 같이, 본 발명의 음향모델 생성 장치는 제1 음향모델부(100), 제2 음향모델부(200) 및 음향모델 생성부(300)를 포함한다.

도 2에 도시된 바와 같이, 제1 음향모델부(100)는 기준 외국어 음향모델(110), 원어민 발성 음성 DB(Date Base)(120) 및 비원어민 외국어 발성 음성 DB(130)를 포함한다.

제1 음향모델부(100)의 기준 외국어 음향모델(110)은 원어민 발성 음성 DB(120)와 비원어민 외국어 발성 음성 DB(130)를 이용하여 가우시안 혼합 모델(GMM, Gaussian Mixture Model) 및 은닉 마코브 모델(HMM, Hidden Markov Model) 기반의 음성인식용 외국어 음향모델로 훈련된다.

이때, 기준 외국어 음향모델(110)은 결정트리 기반 혹은 데이터 기반의 스테이트 타잉(state tying)과정을 거쳐 생성된 스테이트 세트(state set)를 가지고 있으며, 각 state는 단일 혹은 다수의 GMM으로 구성될 수 있다.

도 3에 도시된 바와 같이, 제2 음향모델부(200)는 비원어민의 자국어 음향모델(210) 및 비원어민의 자국어 발성 음성 DB(220)를 포함한다.

제2 음향모델부(200)의 비원어민의 자국어 음향모델(210)은 (220)를 이용하여 GMM 및 HMM 기반의 비원어민의 자국어 음성인식용 음향모델로 훈련될 수 있다.

본 발명의 비원어민의 자국어 음향모델(210)은 기존에 훈련된 비원어민의 자국어 음성인식용 음향모델을 활용할 수도 있다.

이때, 비원어민의 자국어 음향모델(110)은 결정트리 기반 혹은 데이터 기반의 스테이트 타잉(state tying)과정을 거쳐 생성된 스테이트 세트(state set)를 가지고 있으며, 각 state는 단일 혹은 다수의 GMM으로 구성될 수 있다. State는 음향모델을 구성하는 최소단위이다.

음향모델 생성부(300)는 제1 음향모델부(100)를 기준으로, 제1 음향모델부(100)의 각 state와 유사한 state를 제2 음향모델부(200)에서 검색하여 mapping pair관계를 찾아낸다. 그리고, (220)를 대상으로 state 단위의 시간 정렬(time alignment)를 수행하고, 프레임(frame)단위의 비원어민의 자국어 음성 구간을 추출한다.

음향모델 생성부(300)는 원어민 발성 음성 DB(110), 비원어민 외국어 발성 음성 DB(120) 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB(210)를 보강하여 기준 외국어 음향모델(110)을 훈련함으로써, 최종적으로 기준 외국어 음향모델(100)보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.

도 4는 본 발명의 일 실시예에 따른 음향모델 생성방법을 나타내는 도면으로, 도 4를 참조하여 음향모델 생성부(300)을 동작을 보다 구체적으로 설명한다.

도 4에 도시된 바와 같이, 음향모델 생성부(300)는 제1 음향모델부(100)를 기준으로, 제1 음향모델부(100)의 각 state와 유사하다고 판단되는 제2 음향모델부(200)의 state를 검색하여 mapping pair 관계를 찾아낸다(S410).

보다 구체적으로, 기준 외국어 음향모델(110)의 각 state에 매핑될 수 있는 유사한 비원어민의 자국어 음향모델(210)의 state를 결정하는 클러스터링 과정에서는 2가지 기준이 사용될 수 있다.

첫번째, 2개의 state 각각의 로그 우도(log likelihood)의 합과 결합된 log likelihood의 차이가 일정 기준보다 작을 경우, 두 상태는 관측데이터 관점에서 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로, 클러스터링이 가능하다.

논리식으로 표현하면 하기 수학식1과 같으며, L은 log likelihood 함수이다.

[수학식 1]

두번째, state tying 과정을 통해 결정된 2개의 state가 공유하는 로지컬 트리-폰(logical tri-phone)의 집합이 같을 경우 두 상태는 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로 클러스터링이 가능하다.

두 집합이 완전히 동일하지 않더라도, 어느 한 집합이 다른 집합을 포함하는 관계에 있고, 포함되는 상태를 공유하는 다른 logical tri-phone이 없을 경우 두 상태는 결합이 가능하다. 논리식으로 표현하면 하기 수학식 2와 같으며, T는 logical tri-phone 함수이다.

[수학식 2]

다음으로, 음향모델 생성부(300)는 비원어민의 자국어 발성 음성 DB(220)를 대상으로 state 단위의 time alignment를 수행하고(S420), time alignment를 통해 각 state 학습에 사용되는 frame 단위의 음성 구간을 찾아낸다(S430).

이와 같이, 음향모델 생성부(300)는 단계(S410)에서 생성한 각 state pair 의 학습에 사용될 수 있는 frame 단위의 비원어민의 자국어 음성 구간을 추출할 수 있다.

마지막으로, 음향모델 생성부(300)는 원어민 발성 음성 DB(110), 비원어민 외국어 발성 음성 DB(120) 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB(210)를 보강하여 기준 외국어 음향모델(110)을 훈련한다(S440). 이로 인해, 음향모델 생성부(300)는 기준 외국어 음향모델(100)보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.

본 발명의 일 실시예에 따른 음향모델 생성장치에서의 운영 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.

본 발명의 방법 및 장치는 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.

전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.

본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

100: 제1 음향모델부
110: 기준 외국어 음향모델
120: 원어민 발성 음성 DB
130: 비원어민 외국어 발성 음성 DB
200: 제2음향모델부
210: 비원어민의 자국어 음향모델
220: 비원어민의 자국어 발성 음성 DB
300: 음향모델 생성부

Claims

음향모델 생성 장치에 있어서,
기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부,
비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 및
상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 상태(state)와 유사한 것으로 판단된 상태를 제2 음향모델부에서 검색하여 맵핑 관계를 형성하고, 상기 비원어민의 자국어 발성 음성 DB를 대상으로 상태 단위의 시간 정렬을 수행하고, 프레임단위의 비원어민의 자국어 음성 구간을 추출하고, 상기 원어민 발성 음성 DB 및, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 상태에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련하여 최종 외국어 음향모델을 생성하는 음향모델 생성부를 포함하는 음향모델 생성 장치.
제 1 항에 있어서,
상기 기준 외국어 음향모델은 상기 원어민 발성 음성 DB 및 상기 비원어민 외국어 발성 DB를 이용하여 가우시안 혼합 모델 및 은닉 마코브 모델 기반의 음성인식용 외국어 음향모델로 훈련되는 것인 음향모델 생성 장치.
제 1 항에 있어서,
상기 비원어민 자국어 음향모델은 상기 비원어민의 자국어 발성 음성 DB를 이용하여 GMM 및 HMM 기반의 자국어 음성인식용 음향모델로 훈련되는 것인 음향모델 생성 장치.
제 1 항에 있어서,
상기 기준 외국어 음향모델 및 상기 비원어민 자국어 음향모델은 결정트리 기반 또는 데이터 기반의 상태 공유(state tying) 과정을 통해 생성된 상태 세트(state set)를 포함하는 것인 음향모델 생성 장치.
제 1 항에 있어서,
상기 음향모델 생성부는 상기 제 2 음향모델부의 각 상태 중 두 개의 상태 각각의 로그 우도의 합과, 상기 두 개의 상태가 결합된 로그 우도의 차이가 일정 기준보다 작은 경우에 대응하는 상태를 검색하여 상기 맵핑 관계를 형성하는 것인 음향모델 생성 장치.
제 1 항에 있어서,
상기 제 2 음향모델부의 각 상태 중 두 개의 상태에 대응되는 논리적 트라이폰 집합이 동일한 경우, 상기 두 개의 상태를 클러스터링하는 것인 음향모델 생성 장치.
제 1 항에 있어서,
상기 제 2 음향모델부의 각 상태 중 두 개의 상태의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 상태와 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 상기 두 상태를 결합하는 것인 음향모델 생성 장치.