KR101729972B1

KR101729972B1 - 타국인 발화 음성을 위한 음성 인식 장치

Info

Publication number: KR101729972B1
Application number: KR1020130055449A
Authority: KR
Inventors: 오유리; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2013-05-16
Filing date: 2013-05-16
Publication date: 2017-04-25
Also published as: KR20140135358A

Abstract

본 발명에 따른 음성 인식 장치는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 것을 특징으로 한다.

Description

타국인 발화 음성을 위한 음성 인식 장치{Speech recognition apparatus for utterance speech of foreigners}

본 발명은 음성 인식 기술에 관한 것으로 보다 상세하게는 타국인이 발화하는 음성을 보다 효과적으로 인식할 수 있는 음성 인식 장치에 관한 것이다.

일반적으로 자연어 처리 분야의 음성인식 시스템은 원어민의 음성으로 학습되기 때문에 원어민 음성에 대하여만 주로 최적화되어 있다. 따라서 원어민에 대한 음석인식 성능은 좋지만 타 언어권 화자, 즉 타국인이 발화하는 음성에 대한 음성인식 성능은 좋지 않다.

종래에 타국인 발화 음성에 대한 음성인식 성능을 개선하기 위한 방법으로, 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 변이 발음을, 원어민의 발음을 기반으로 구축된 발음 모델에 추가하는 방식이 있다.

타국인은 모국어의 자음/모음 체계로 인한 변이 발음을 발화할 뿐만 아니라, 음성인식 대상 언어와 타국인의 모국어의 서로 다른 문법 체계로 인하여 잘못된 문법을 사용함으로써 발음 오류를 발생시킬 수 있다.

따라서, 타국인 발화 음성에 대한 음성인식 성능을 개선하기 위한 상기와 같은 방식은, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여는 좋은 음성인식 성능이 발휘될 수 없는 문제점이 있다.

이에 본 발명이 이루고자 하는 기술적 과제는, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여 음성인식 성능을 개선할 수 있는 음성 인식 장치를 제공하는 데 있다.

상기 기술적 과제를 해결하기 위한 본 발명에 따른 음성 인식 장치는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 것을 특징으로 한다.

상기 문법오류는 단복수 오류 및 시제 오류를 포함하는 것이 바람직하다.

상기 단복수 오류는 불규칙 복수형으로 인한 오류일 수 있다.

상기 시제 오류는 불규칙 시제변화로 인한 오류일 수 있다.

상기된 본 발명에 의하면, 타국인이 범하는 문법오류에 의해 발생하는 변이발음을 원어민의 발음모델에 추가함으로써, 타국인이 문법 오류를 범할 경우에 발생하는 발화 음성에 대하여 음성인식 성능을 개선할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타낸다.
도 2는 본 발명의 일 실시예에 의한 타국인 발화 음성을 위한 발음 모델을 생성하는 방법을 나타낸다.

이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다. 이하 설명 및 첨부된 도면들에서 실질적으로 동일한 구성요소들은 각각 동일한 부호들로 나타냄으로써 중복 설명을 생략하기로 한다. 또한 본 발명을 설명함에 있어 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략하기로 한다.

도 1은 본 발명의 일 실시예에 따른 음성 인식 장치의 구성을 나타낸다. 본 실시예에 따른 음성 인식 장치는, 특징추출부(101), 탐색부(102), 인식결과 출력부(103), 음향모델 데이터베이스(104), 발음모델 데이터베이스(105), 언어모델 데이터베이스(106)를 포함하여 이루어진다.

특징추출부(101)는 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환한다.

탐색부(102)는 학습과정에서 미리 구해진 음향모델 데이터베이스(104)와 발음모델 데이터베이스(105), 그리고 언어모델 데이터베이스(106)를 이용하여 가장 확률이 높은 단어열을 예컨대 비터비 알고리즘을 이용하여 찾는다.

인식 결과 출력부(103)는 탐색부(102)의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공한다.

상기 음향모델 데이터베이스(104)는 소정의 음향모델을 저장하고, 상기 언어모델 데이터베이스(106)는 소정의 언어모델을 저장한다. 여기서 음향모델과 언어모델은 종래 기술을 따르는 바, 구체적인 설명은 생략하기로 한다.

상기 발음모델 데이터베이스(105)는 기존의 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이발음이 더욱 포함된 발음모델을 저장한다. 즉, 상기 발음모델 데이터베이스(105)는 원어민의 발음을 기반으로 구축된 원어민 발음 모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음들이 추가된 발음모델이다. 필요에 따라, 상기 발음모델 데이터베이스(105)는 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 변이 발음들을 더 포함할 수도 있다.

여기서, 타국인이 범할 수 있는 문법오류로는, 단복수 오류 및 시제 오류 등이 있을 수 있다.

단복수 오류의 예로, 영어의 불규칙 복수형으로 인한 오류가 있다. 예컨대 "woman"의 올바른 복수형은 "women"인데, 불규칙 복수형에 익숙하지 않은 타국인은 "woman"의 복수형을 "womans"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "women"의 변이 발음으로 "womans"에 대응하는 발음을 포함한다. 다른 예로, "mouse"의 올바른 복수형은 "mice"인데, 타국인은 "mouse"의 복수형을 "mouses"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "mice"의 변이 발음으로 "mouses"에 대응하는 발음을 포함한다.

시제 오류의 예로, 영어의 불규칙 시제변화로 인한 오류가 있다. 예컨대 "forbid"의 올바른 과거형은 "forbade"인데, 불규칙 시제변화에 익숙하지 않은 타국인은 "forbid"의 과거형을 "forbided"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "forbade"의 변이 발음으로 "forbided"에 대응하는 발음을 포함한다. 다른 예로, "hold"의 올바른 과거형은 "held"인데, 타국인은 "hold"의 과거형을 "holded"로 잘못 발화할 수 있다. 따라서 상기 발음모델 데이터베이스(105)는 "held"의 변이 발음으로 "holded"에 대응하는 발음을 포함한다.

도 2는 본 발명의 일 실시예에 의한 타국인 발화 음성을 위한 발음 모델을 생성하는 방법을 나타낸다.

210단계에서, 타국인이 범할 수 있는 문법 오류에 의한 변이 발음들을 생성한다. 이러한 변이 발음들의 생성은, 음성학 등의 지식을 이용하거나, 타국인의 음성인식 대상 언어의 사용 데이터를 통계적으로 분석하여 얻어진 타국인의 문법 오류 규칙을 이용할 수 있다. 예컨대 210단계에서는, 위와 같이 "women"의 변이 발음으로 "womans"에 대응하는 발음을 생성하고, "mice"의 변이 발음으로 "mouses"에 대응하는 발음을 생성하고, "forbade"의 변이 발음으로 "forbided"에 대응하는 발음을 생성하고, "held"의 변이 발음으로 "holded"에 대응하는 발음을 생성한다.

220단계에서, 원어민의 발음을 기반으로 구축된 원어민 발음 모델에 상기 210단계에서 생성된 변이 발음들을 추가함으로써, 타국인 발화 음성을 위한 발음 모델이 생성된다.

한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다. 상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등)와 같은 저장매체를 포함한다.

이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

Claims

음성 인식 장치에 있어서,
입력된 음성으로부터 특징벡터를 추출하는 특징추출부;
소정의 음향모델을 저장하는 음향모델 데이터베이스;
소정의 언어모델을 저장하는 언어모델 데이터베이스;
원어민의 발음모델에 변이 발음이 추가된 발음모델을 저장하는 발음모델 데이터베이스;
상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및
상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부;를 포함하되
상기 발음모델 데이터베이스는,
타국인이 범할 수 있는 문법 오류에 의한 상기 변이 발음을 생성하고,
원어민의 발음 모델에 상기 변이 발음을 추가하여 생성된 발음 모델을 저장하는 것
을 특징으로 하는 음성 인식 장치.
제1 항에 있어서,
상기 탐색부는 비터비 알고리즘을 통해 상기 가장 확률이 높은 단어열을 찾는 것을 특징으로 하는 음성 인식 장치.
삭제
제1 항에 있어서,
상기 변이 발음은 음성학 또는 타국인의 음성인식 대상 언어의 사용 데이터를 통계적으로 분석하여 획득한 문법 오류 규칙에 따라 생성하는 것을 특징으로 하는 음성 인식 장치.
제4 항에 있어서,
상기 변이 발음은 타국인의 모국어에 존재하는 자음과 모음의 체계를 반영하는 발음을 더 포함할 수 있는 것을 특징으로 하는 음성 인식 장치.