KR20150030337A

KR20150030337A - 음성인식을 위한 언어모델 생성 장치 및 방법

Info

Publication number: KR20150030337A
Application number: KR20130109428A
Authority: KR
Inventors: 김정세; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2013-09-12
Filing date: 2013-09-12
Publication date: 2015-03-20
Also published as: KR101747873B1; US20150073796A1

Abstract

음성인식을 위한 언어모델 생성 장치 및 방법을 공개한다. 본 발명은 음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스, 문장 코퍼스로부터 복수개의 문장 중 적어도 하나의 문장을 획득하고, 획득된 문장을 기설정된 인식 단위로 구분하는 인식단위 구분부, 인식단위로 구분된 문장의 구문을 분석하는 구문 분석부, 음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스, 구문 분석부에 의해 분석된 구문을 이용하여 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하고, 획득된 끊어읽기 규칙에 따라 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 끊어어읽기 삽입부, 언어모델이 저장되는 언어모델 데이터베이스, 및 끊어읽기 삽입부에서 끊어읽기 표시가 삽입된 문장을 수신하여 기설정된 방식으로 언어모델로 생성하여 언어모델 데이터베이스에 저장하는 언어모델 생성부를 포함한다.

Description

음성인식을 위한 언어모델 생성 장치 및 방법{APPARATUS AND FOR BUILDING LANGUAGE MODEL FOR SPEECH RECOGNITION}

본 발명은 언어모델 생성 방법에 관한 것으로, 특히 연속어 음성 인식에서 끊어읽기 정보를 반영하는 언어모델 생성 방법에 관한 것이다.

끊어읽기(Break) 정보란 끊어읽기의 단위를 추출한 것으로, 발화자가 말할 때 숨을 들이쉬기 위해 잠깐 멈추는 구간을 의미하며, 신호적으로는 묵음(pause)으로 표시된다. 음성합성 기법에서는 합성음의 자연성 및 이해도를 높이기 위해 끊어읽기 처리 기술이 이전부터 연구되어 왔다.

한편 음성인식 방법은 발성의 행태에 따라 몇 가지 방법으로 구분되며, 대표적으로 고립어 단어 인식(isolated word recognition), 연결 단어 인식(connected word recognition), 연속어 인식(continuous speech recognition), 핵심어 인식(keyword spotting) 등의 방법이 알려져 있다. 이들 중에서 개별적인 단어를 인식하는 고립어 단어 인식과 달리, 연속어 인식은 음성신호에 해당하는 문장 또는 연속된 단어열을 찾는 방식으로서 어휘사전의 단어수가 증가할수록 문장을 구성하는 단어열의 가짓수가 크게 증가하게 되며, 단어와 단어 사이의 발음변이로 인해 단어 개수가 많을수록 비슷한 발음의 단어들로 오인식될 확률도 늘어나게 된다.

음성인식에서의 언어모델은 사용자가 발성한 문장이 올바른 문장으로 인식되도록 단어들간의 연결성을 텍스트 코퍼스(Text corpus)로부터 통계적인 방법으로 수집하여 구축한 모델을 일컫는다. 언어모델에는 유니그램(1-gram), 바이그램(2-gram), 트라이그램(3-gram)이 많이 사용된다. 유니그램은 단어의 확률을 사용하는 것으로서 바로 앞에 위치한 과거의 단어는 사용하지 않는다. 바이그램과 트라이그램은 각각 바로 앞 하나와 두 개의 단어에 의존하는 확률을 사용한다. 이와 같은 언어모델의 사용은 문법적으로 유효한 단어열이 인식되도록 하며, 단어나 문장의 탐색공간을 최소화시켜 인식 성능을 높이고 탐색 시간을 단축시킬 수 있도록 한다.

종래에 일반적인 언어모델을 생성하기 위해서는 인식단위를 선정하고, 선정된 인식 단위에 대응하는 언어모델 툴을 만들어서 활용함으로써 언어모델을 생성한다.

그리고 이러한 언어 모델을 사용하는 기존의 음성인식기는 단어간에 존재하는 묵음 여부를 선택적(optional)으로 처리하고 있다. 즉 음성인식 엔진이 디코딩을 수행할 때, 묵음구간이 있는 경우와 없는 경우를 모두 계산하여 최종 스코어에 따라 인식 문장을 결정하도록 하고 있다. 그러나 상기한 방식은 통계적으로 묵음 여부를 결정할 때, 묵음 구간이 음성구간으로도 인식되거나, 음성 구간이 묵음 구간으로도 인식되는 경우가 빈번히 발생하여, 실제 음성인식엔진에서는 묵음을 선택적으로 처리하는 것보다, 오히려 모든 발화 사이에는 묵음이 없다고 가정하고 처리하는 것이 가장 좋은 성능을 내고 있다. 이에 대부분의 음성인식 엔진이 묵음이 없는 것으로 가정하고 음성인식을 수행하고 있으나, 이는 실제 묵음이 있는 경우를 처리할 수 없으므로 성능의 희생을 감수해야 하는 방안이라는 한계가 있다.

본 발명의 목적은 끊어읽기가 존재하는 위치를 예측하고, 예측된 끊어읽기 정보를 반영하여 음성인식 성능을 향상 시킬 수 있는 언어모델 생성 장치를 제공하는데 있다.

본 발명의 다른 목적은 언어모델 생성 방법을 제공하는데 있다.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 언어모델 생성 장치는 음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스; 상기 문장 코퍼스로부터 상기 복수개의 문장 중 적어도 하나의 문장을 획득하고, 획득된 상기 문장을 기설정된 인식 단위로 구분하는 인식단위 구분부; 상기 인식단위로 구분된 문장의 구문을 분석하는 구문 분석부; 음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스; 상기 구문 분석부에 의해 분석된 구문을 이용하여 상기 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하고, 획득된 끊어읽기 규칙에 따라 상기 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 끊어어읽기 삽입부; 언어모델이 저장되는 언어모델 데이터베이스; 및 상기 끊어읽기 삽입부에서 끊어읽기 표시가 삽입된 문장을 수신하여 기설정된 방식으로 언어모델로 생성하여 상기 언어모델 데이터베이스에 저장하는 언어모델 생성부; 를 포함한다.

상기 끊어읽기 규칙 데이터베이스는 상기 음성 합성을 위해 설정된 복수개의 끊어읽기 규칙 중 기실험적으로 설정된 발화자가 실제로 끊어읽는 확률이 기준 끊어읽기 확률 이상인 끊어읽기 규칙을 저장하는 것을 특징으로 한다.

상기 끊어읽기 생성부는 상기 끊어읽기 표시가 삽입된 문장과 상기 인식단위로 구분된 문장을 모두 상기 언어모델로 변환하여 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 한다.

상기 끊어읽기 생성부는 상기 끊어읽기 표시가 삽입된 문장 중 상기 끊어읽기 표시와 상기 끊어읽기 표시를 기준으로 전후로 기설정된 개수의 단어와 상기 인식단위로 구분된 문장을 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 한다.

상기 언어모델 생성부는 상기 인식단위 구분부로부터 상기 인식단위로 구분된 문장을 수신하여 제1 언어모델을 생성하는 제1 언어모델 생성부; 상기 끊어어읽기 삽입부로부터 상기 끊어읽기 표시가 삽입된 문장을 수신하여 제2 언어모델을 생성하는 제2 언어모델 생성부; 및 상기 제1 언어모델 및 상기 제2 언어모델을 보간하여 상기 언어모델을 생성하고, 생성된 언어모델을 상기 언어모델 데이터베이스에 저장하는 보간부; 를 포함하는 것을 특징으로 한다.

상기 목적을 달성하기 위한 본 발명의 일 예에 따른 언어모델 생성 방법은 음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스와 음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스를 포함하는 언어모델 생성 장치의 언어모델 생성 방법에 있어서, 상기 언어모델 생성 장치가, 상기 문장 코퍼스로부터 상기 복수개의 문장 중 적어도 하나의 문장을 획득하는 단계; 상기 획득된 상기 문장을 기설정된 인식 단위로 구분하는 단계; 상기 인식단위로 구분된 문장의 구문을 분석하고, 상기 분석된 구문을 이용하여 상기 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하는 단계; 상기 획득된 끊어읽기 규칙에 따라 상기 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 단계; 상기 끊어읽기 표시가 삽입된 문장을 기설정된 방식으로 언어모델로 생성하는 단계; 및 상기 언어모델을 언어모델 데이터베이스에 저장하는 단계; 를 포함한다.

따라서, 본 발명의 음성인식을 위한 언어모델 생성 장치 및 방법은 기존에 끊어읽기에 대응하는 묵음을 선택적으로 인식하거나 무시하여 성능 저하가 발생하는 음성인식 기법을 개선하기 위해 이미 생성된 합성음 생성 기법에서 기사용 중인 끊어읽기 정보를 음성인식을 위한 언어모델에 적용한다. 그러므로, 끊어읽기를 위한 정보를 별도로 생성하지 않고도, 언어모델에서 끊어읽기에 대응하는 묵음의 위치를 예측할 수 있으므로, 음성인식기가 음성인식 시에 용이하게 묵음을 검출할 수 있다. 결과적으로 저비용으로 음성인식 성능을 대폭 개선할 수 있다.

도1 은 본 발명의 일 실시예에 따른 언어모델 생성 장치를 나타낸다.
도2 는 도1 의 언어모델 생성 장치를 이용한 언어모델 생성 방법의 일 예를 나타낸다.
도3 은 본 발명의 다른 실시예에 따른 언어모델 생성 장치를 나타낸다.
도4 는 도3 의 언어모델 생성 장치를 이용한 언어모델 생성 방법의 다른예를 나타낸다.

본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로서, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

도1 은 본 발명의 일 실시예에 따른 언어모델 생성 장치를 나타낸다.

도1 을 참조하면, 본 발명의 언어모델 생성 장치(100)는 인식단위 설정부(110), 인식단위 구분부(120), 문장 코퍼스(130), 구문 분석부(140), 끊어읽기 삽입부(150), 끊어읽기 규칙 데이터베이스(160), 언어모델 생성부(170) 및 언어모델 데이터베이스(180)를 포함한다.

인식단위 설정부(110)는 외부로부터 사용자 명령(in)을 인가받아 인식단위를 설정한다. 인식 단위는 음절 단위, 단어 단위 및 어절 단위 등 다양하게 설정될 수 있으며, 상기한 음성인식 방법 중 연속어 음성 방법에 대한 인식 단위로서 유니그램(1-gram), 바이그램(2-gram), 트라이그램(3-gram)과 같은 엔그램(N-gram)의 형태로도 설정될 수 있다. 여기서는 일예로 단어 단위로 설정되는 것으로 가정한다.

상기에서는 인식단위 설정부(110)가 사용자 명령(in)을 인가받아 인식단위를 설정하는 것으로 설명하였으나, 인식단위 설정부(110)는 사용자 명령(in)을 인가받지 않고, 기저장된 인식단위를 이용하여 인식단위를 설정할 수도 있다. 음성인식에서 인식단위를 변경되는 경우가 매우 드물다. 이에 인식단위 설정부(110)는 인식단위가 변경되지 않는 것으로 가정하고, 미리 저장된 인식단위를 이용하여 인식단위를 설정할 수 있다.

인식단위가 설정되면, 인식단위 구분부(120)는 문장 코퍼스(130)에 분석할 문장을 획득하고, 획득된 문장을 설정된 인식 단위에 기초하여 구분한다. 인식단위 설정부(110)에서 단어를 인식단위로 설정한 것으로 가정하였으므로, 인식단위 구분부(120)는 문장 코퍼스(130)에서 획득된 문장을 단어 단위로 구분한다. 예를 들어, 획득된 문장이 한국어인 경우에는 인식단위인 단어 단위로 명사와 조사를 구분할 수 있다. 그리고 획득된 문장이 영어 문장과 같이 단어 단위와 띄어쓰기 단위가 동일한 경우에는 띄어쓰기 단위가 동일하므로, 인식 단위 설정부(110)가 인식단위를 띄어쓰기 단위로 설정하고, 인식단위 구분부(120)가 인식단위인 띄어쓰기 단위로 문장을 구분할 수도 있다.

문장 코퍼스(130)는 음성 인식을 위해 미리 수집된 실제 언어 또는 실제 언어에 대한 샘플링의 집합으로 데이터베이스의 형태로 구현된다. 즉 문장 코퍼스(130)는 일종의 언어모델 데이터베이스로서 인식될 언어에 대한 언어 모델을 저장한다.

구문 분석부(140)는 인식단위 구분부(130)에서 인식단위 별로 구분된 문장에 대해 구문을 분석한다. 구문 분석부(130)는 인식단위 구분부(120)에서 전송된 문장에 대한 구문을 분석하여 문장에서 각 단어의 품사와 문장을 구성하는 구, 절을 판별한다.

끊어읽기 삽입부(150)는 구문 분석부(140)에서 분석된 문장의 구성에 기초하여 끊어읽기 규칙 데이터베이스(160)에서 끊어읽기 규칙을 검색하여 획득하고, 획득된 끊어읽기 규칙에 따라 끊어읽기 표기를 추가한다. 여기서 끊어읽기 표기는 문자, 기호 등으로 다양하게 설정될 수 있으나, 본 발명에서는 일예로 "shortpause"를 끊어읽기 표기로 사용하는 것으로 가정한다.

끊어읽기 규칙 데이터베이스(160)는 다양한 문장 구성에 대응하는 끊어읽기 규칙이 저장된다. 끊어읽기 규칙 데이터베이스(160)에 저장되는 끊어읽기 규칙은 기존에 활용되는 음성 합성기에서 적용하는 끊어읽기 규칙을 기초로 생성될 수 있다. 기존의 음성 합성기는 상기한 바와 같이 합성음의 자연성과 화자의 이해를 높이기 위해 끊어읽기 규칙이 계속적으로 연구되어 왔으며, 실제로 적용되어 사용되고 있다. 이에 본 발명에서는 음성 인식 성능 향상을 위한 끊어읽기 규칙을 기존에 개발되어 음성 합성기에 적용된 끊어읽기 규칙을 활용하도록 하여 끊어읽기 규칙을 생성하기 위한 비용을 절감할 수 있도록 한다.

다만 음성인식에서의 끊어읽기는 발화자의 문법, 발성스타일, 단어의 길이, 발화속도 등 여러 가지 요인에 의해 결정되기 때문에 같은 문장이라도 끊어읽기 유형이 사람에 따라 다르게 나타날 수 있다는 문제가 있다. 즉 합성음을 생성하여 출력하는 음성 합성과 달리 음성 인식에서는 말하는 사람에 따라 끊어읽기의 차이가 크게 발생하여 끊어읽기를 명확하게 규정하기 어렵다는 문제가 있다. 그러나 각 나라별로 언어의 문법적, 운율적 특성상 반드시 끊어읽기를 해야 하는 위치가 문장 내에 존재한다. 이는 문장에서 모든 끊어읽기에 대한 정의를 정확하게 규정할 수는 없으나, 일부 한정된 상태에서의 끊어읽기에 대해서는 높은 수준의 정확도로 규정할 수 있음을 의미한다.

그러므로 본 발명의 끊어읽기 규칙 데이터베이스(160)는 음성 합성 기술에 사용되는 모든 끊어읽기 규칙을 활용하는 것이 아니라, 문장의 언어적 운율적 특성을 고려하여, 끊어읽기가 확실시 되는 부분에 대해서만 끊어읽기 규칙을 규정할 수 있다. 예를 들어, 언어모델을 생성하고자 하는 언어를 사용하는 사람들이 특정 문장 구조에 대해 기설정된 기준 끊어읽기 확률(예를 들면 98%) 이상으로 끊어읽기를 하는 것으로 판단되면, 판단된 위치에 대해서만 끊어읽기 규칙으로 설정할 수 있다.

끊어읽기 삽입부(150)는 끊어읽기 표기가 추가하고, 끊어읽기 표기가 추가된 문장을 언어모델 생성부(170)로 전송한다. 언어모델 생성부(170)는 끊어읽기 삽입부(150)에서 끊어읽기 표기가 추가된 문장을 인가받아 기설정된 방식으로 언어모델로 생성하고, 생성된 언어모델을 언어모델 데이터베이스(180)에 저장한다. 여기서 언어모델 생성부(170)은 CMU Sphinx toolkit 나 HMM toolkit 과 같이 언어모델을 생성하기 위해 기존에 개발된 툴을 활용할 수 있으며, 설정된 인식 단위에 대응하는 다른 종류의 언어모델 툴을 사용할 수도 있다.

일 예로 "3일 뒤에 뉴욕을 떠나 일본으로 가요"라는 문장이 문장 코퍼스(130)에서 획득되는 경우, 인식단위 구분부(120)는 인식단위인 단어 단위로 문장을 구분하여 "3일 뒤 에 뉴욕 을 떠나 일본 으로 가요"로 문장을 구분한다. 그리고 구문 분석부(140)는 구분된 각 단어의 품사와 문장의 구 및 절을 분석하여 문장 구조를 획득한다. 구분된 문장과 분석된 문장 구조를 끊어읽기 삽입부(150) 로 전송한다.

끊어읽기 삽입부(150)는 수신된 문장과 문장 구조를 이용하여 끊어읽기 규칙 데이터베이스(160)에 문장 구조에 대응하는 끊어읽기 규칙이 존재하는지 검색한다. "3일 뒤 에 뉴욕 을 떠나 일본 으로 가요"의 문장은 일반적인 음성 합성기에서는 구문 분석을 통해 "3일 뒤 에", "뉴욕 을 떠나" 및 "일본 으로 가요"로 크개 3개로 분류할 수 있다. 그리고 끊어읽기 규칙 데이터베이스(160)에 '명사 조사 동사 명사 조사 동사'로 이루어진 문장 구조에 대해서는 동사 뒤에 끊어읽기를 수행하라는 규칙이 저장되어 있다면, 끊어읽기 삽입부(150)는 수신된 문장을 "3일 뒤 에 뉴욕 을 떠나"와 "일본 으로 가요"으로 끊어읽을 수 있도록 끊어읽기 표기인 "shortpause"를 "떠나"와 "일본"사이에 삽입한다. 즉 끊어읽기가 삽입된 문장인 "3일 뒤 에 뉴욕 을 떠나 shortpause 일본 으로 가요"의 문장을 생성한다.

언어모델 생성부(170)는 끊어읽기 삽입부(130)에서 끊어읽기 표기가 삽입된 "3일 뒤 에 뉴욕 을 떠나 shortpause 일본 으로 가요"를 언어모델로 생성하여 언어모델 데이터베이스(180)에 저장한다.

그리고 이렇게 끊어읽기 표기가 삽입된 언어모델이 저장된 언어모델 데이터베이스(180)을 이용하여 음성 인식을 수행하게 되면, 기존의 음성인식에서 선택적으로 처리하거나 무시하는 묵음에 대한 인식이 가능하게 되어 음성 인식의 성능을 크게 향상할 수 있다. 다만 발화자가 끊어읽기 표기에 대응하는 위치에서 끊어읽지 않는 경우에 음성 인식 성능을 떨어뜨릴 수 있다. 이를 대비하여 본 발명에서는 모든 끊어읽기 위치에 대해 끊어읽기 표시를 추가하는 것이 아니라, 발화자가 끊어읽기를 수행할 확률이 기준 끊어읽기 확률(예를 들면 98%) 이상인 끊어읽기 위치에 대해서만 끊어읽기 표시를 삽입하도록 하여 음성인식의 성능을 개선하도록 한다. 기준 끊어읽기 확률은 사용자에 따라 다양하게 설정될 수 있으나, 만일 기준 끊어읽기 확률이 90% 정도로 낮은 수준에서 설정된다면, 묵음에 대한 처리 성능은 개선되지만, 오류가 발생할 확률 또한 상대적으로 증가하게 된다. 한편 기준 끊어읽기 확률이 99.9% 정도로 높은 수준으로 설정된다면, 실질적으로 끊어읽기 표시가 삽입될 수 없는 경우가 대부분이 된다. 이는 상기한 끊어읽기 표시 삽입 작업 자체를 무의미하게 한다. 그러므로, 기준 끊어읽기 확률은 음성인식 성능의 개선률과 오류 발생률을 고려한 경험적 방식으로 선택되는 것이 바람직하다.

도1 에서는 설명의 편의를 위하여 끊어읽기 표기가 추가된 언어모델을 저장하는 언어모델 데이터베이스(180)와 문장 코퍼스(130)를 별도로 구분하여 도시하였으나, 상기한 바와 같이 문장 코퍼스(130) 또한 언어모델 데이터베이스이므로, 언어모델 생성 장치(100)는 언어모델 데이터베이스(180)와 문장 코퍼스(130)을 별도로 구비하지 않고, 문장 코퍼스(130)에서 획득된 문장을 언어모델 생성부(170)에서 생성한 언어모델로 대체하여 저장할 수도 있다. 즉 언어모델 데이터베이스(180)와 문장 코퍼스(130)는 통합되어 구현될 수 있다. 또한 문장 코퍼스(130)에 기저장된 문장을 그대로 유지한 채로, 언어모델 생성부(170)에서 생성한 언어모델을 추가로 저장할 수도 있다.

또한 상기에서는 설명의 편의를 위하여 인식단위 설정부(110)와 인식단위 구분부(120)를 별도로 도시하였으나, 인식단위 설정부(110)와 인식단위 구분부(120)는 통합되어 구현되어도 무방하다. 마찬가지로 구문 분석부(140)와 끊어읽기 삽입부(150) 또한 통합되어 구현되어도 무방하다.

도2 는 도1 의 언어모델 생성 장치를 이용한 언어모델 생성 방법의 일 예를 나타낸다.

도1 을 참조하여 도2 의 언어모델 생성 방법을 설명하면, 먼저 인식단위 설정부(110)가 문장의 인식단위를 설정한다(S110). 상기한 바와 같이, 인식단위 설정부(110)는 외부로부터 사용자 명령을 수신하여 인식단위를 설정할 수도 있으며, 인식단위가 미리 설정되어 저장될 수도 있다.

인식단위가 설정되면, 인식단위 구분부(120)는 문장 코퍼스(130)에서 분석할 문장을 획득한다(S120). 그리고 획득된 문장을 설정된 인식단위로 구분한다(S130). 인식단위로 구분된 문장에 대해 구문 분석부(140)가 구문 분석을 수행하고, 끊어읽기 삽입부(150)는 끊어읽기 규칙 데이터베이스에서 분석된 구문에 대응하는 끊어읽기 규칙을 획득한다(S140). 그리고 획득된 끊어읽기 규칙에 따라 문장에 끊어읽기 표시를 삽입한다(S150). 끊어읽기 규칙이 삽입된 문장은 언어모델 생성부(170)에서 언어 모델로 생성된다(S160). 생성된 언어모델은 언어모델 데이터베이스(180)에 저장된다(S170). 이때 언어모델 데이터베이스(180)에는 끊어읽기 표시가 삽입되어 생성된 언어모델만 저장될 수도 있으며, 인식 단위 구분부(120)에서 인식단위로 구분된 문장이 함께 저장될 수도 있다.

예를 들어 언어모델 데이터베이스(180)에 인식단위로 구분된 문장인 "3일 뒤 에 뉴욕 을 떠나 일본 으로 가요"와 끊어읽기 표시가 삽입된 문장 "3일 뒤 에 뉴욕 을 떠나 shortpause 일본 으로 가요"가 함께 매칭되어 저장될 수 있다.

만일 끊어읽기 표시가 삽입되어 생성된 언어모델과 인식 단위 구분부(120)에서 인식단위로 구분된 문장이 함께 언어모델 데이터베이스(180)에 저장되면, 음성 인식 수행 시에 발화자가 끊어읽기 표시가 삽입된 부분을 끊어읽거나 끊어읽지 안거나 양쪽 모두에 대응할 수 있다는 장점을 갖게 된다. 그러나 본 발명에서는 모든 끊어읽기 위치에 끊어읽기 표시를 삽입하는 것이 아니라, 기준 끊어읽기 확률 이상으로 끊어읽기 가능성이 높은 위치에만 끊어읽기 표시를 삽입하므로, 기준 끊어읽기 확률이 충분히 높게 설정되어 있다면, 끊어읽기 표시가 삽입되지 않은 인식단위로 구분된 문장은 불필요한 데이터로서 언어모델의 크기만을 증가시키게 되는 단점도 존재한다. 그러므로 기준 끊어읽기 확률을 경험적 또는 실험적 기법에 따라 적절하게 설정하는 것이 매우 중요하다.

한편, 끊어읽기 표시가 삽입되어 생성된 언어모델과 인식단위로 구분된 문장이 함께 언어모델 데이터베이스(180)에 저장되어 언어모델의 크기가 증가되는 단점을 최소화하기 위한 방법으로 끊어읽기 표시가 삽입 문장의 전체가 아닌 끊어읽기 표시가 삽입된 위치의 구문만을 인식단위로 구분된 문장과 함께 언어모델 데이터베이스(180)에 저장할 수도 있다. 예를 들어, "3일 뒤 에 뉴욕 을 떠나 일본 으로 가요"와 "떠나 shortpause 일본"을 매칭하여 함께 언어모델 데이터베이스(180)에 저장할 수도 있다.

도3 은 본 발명의 다른 실시예에 따른 언어모델 생성 장치를 나타낸다.

도3 의 언어 모델 생성 장치(200)는 인식단위 설정부(210), 인식 단위 구분부(220), 문장 코퍼스(230), 끊어읽기 삽입부(250), 끊어읽기 규칙 데이터베이스(260), 제1 언어모델 생성부(270), 제2 언어모델 생성부(275), 보간부(290) 및 언어모델 데이터베이스(280)을 구비한다. 도3 의 언어모델 생성 장치(200)에서 인식단위 설정부(210), 인식 단위 구분부(220), 문장 코퍼스(230), 끊어읽기 삽입부(250), 끊어읽기 규칙 데이터베이스(260) 및 언어모델 데이터베이스(280)는 도1 의 인식단위 설정부(110), 인식 단위 구분부(120), 문장 코퍼스(130), 끊어읽기 삽입부(150), 끊어읽기 규칙 데이터베이스(160) 및 언어모델 데이터베이스(180)과 동일한 구성 요소로서 도3 에서는 별도로 설명하지 않는다.

그리고 도3 에서 제1 언어모델 생성부(270)와 제2 언어모델 생성부(275)는 도1 의 언어모델 생성부(170)에 대응하는 구성이다. 그러나 도3 에서는 도시된 바와 같이 언어모델 생성부가 제1 및 제2 언어모델 생성부(270, 275)의 2개로 구분되어 구비된다. 도1 에서는 하나의 언어모델 생성부(170)는 끊어읽기 표시가 삽입된 문장 및 인식 단위로 구분된 문장을 언어모델로 생성하였다. 그리고 생성된 언어모델을 그대로 언어모델 데이터베이스(180)에 저장하였다. 그러나 도3 의 언어모델 생성 장치(200)에서는 인식단위 구분부(220)에서 인식단위로 구분된 문장은 제1 언어모델 생성부(270)가 제1 언어모델로 생성하고, 끊어읽기 삽입부(250)에 의해 끊어읽기 표시가 삽입된 문장은 제2 언어모델 생성부(275)가 별도로 제2 언어모델로 생성한다.

보간부(290)는 도1 의 언어모델 생성 장치(100)과 달리 도3 의 언어모델 생성 장치(200)에서 추가된 구성으로서, 제1 언어모델 생성부(270)로부터 제1 언어모델을 수신하고, 제2 언어모델 생성부(275)로부터 제2 언어모델을 수신하여 보간(interpolation)한다. 그리고 보간되어 생성된 언어모델을 언어모델 데이터베이스(280)에 저장한다. 제1 및 제2 언어모델의 보간 기법은 다양하게 설정될 수 있으나, 일예로는 인식단위로 구분된 문장인 제1 언어모델에 끊어읽기 표시가 삽입된 제2 언어모델의 끊어읽기 표시 위치를 포함하는 기법이 적용될 수 있다. 이런 경우, 기존의 음성 인식에서 사용되는 것과 동일한 제1 언어모델을 그대로 유지한 채로 간단하게 끊어읽기가 표시될 위치 정보만을 추가로 언어모델 데이터베이스(280)에 저장함으로써, 음성인식의 유연성을 확장할 수 있을 뿐만 아니라, 언어모델의 크기를 최소화할 수 있다.

도4 는 도3 의 언어모델 생성 장치를 이용한 언어모델 생성 방법의 다른예를 나타낸다.

도4 의 언어모델 생성 방법 또한 먼저 인식단위 설정부(210)가 문장의 인식단위를 설정한다(S210). 그리고 인식단위 구분부(220)는 문장 코퍼스(230)에서 분석할 문장을 획득한다(S220). 이후 획득된 문장을 설정된 인식단위로 구분한다(S230). 문장이 인식단위로 구분되면, 도3 의 언어모델 생성 장치(200)는 제1 언어모델 생성부(270)가 인식단위로 구분된 문장을 제1 언어모델로 생성한다(S240). 한편, 구문 분석부(240)는 인식단위로 구분된 문장에 대해 구문 분석을 수행하고, 끊어읽기 삽입부(250)는 끊어읽기 규칙 데이터베이스에서 분석된 구문에 대응하는 끊어읽기 규칙을 획득한다(S250). 그리고 획득된 끊어읽기 규칙에 따라 문장에 끊어읽기 표시를 삽입한다(S260). 끊어읽기 규칙이 삽입된 문장은 제2 언어모델 생성부(170)에서 제2 언어 모델로 생성된다(S270). 이에 보간부(290)는 제1 언어모델과 제2 언어모델을 수신하여 보간한다(S280). 그리고 보간하여 생성된 언어모델은 언어모델 데이터베이스(280)에 저장된다(S290).

상기에서는 설명의 편의를 위하여 도3 이 제1 및 제2 언어모델 생성부(270, 275)와 보간부(290)를 구비하는 것으로 도시하였으나, 도1 의 언어모델 생성부(170)가 제1 및 제2 언어모델 생성부(270, 275)와 보간부(290)의 동작을 모두 수행하도록 구현되어도 무방하다.

상기한 바와 같이 본 발명에 따른 음성인식을 위한 언어모델 생성 장치 및 방법은 기존에 끊어읽기에 대응하는 묵음을 선택적으로 인식하거나 무시하여 성능 저하가 발생하는 음성인식 기법을 개선하기 위해 이미 생성된 합성음 생성 기법에서 기사용 중인 끊어읽기 정보를 음성인식을 위한 언어모델에 적용한다. 특히 언어의 특성에 따라 높은 확률로 끊어읽기는 수행하는 부분에 대해서만 한정적으로 끊어읽기 표시를 삽입하여 언어모델을 생성함으로써, 언어모델에서 끊어읽기에 대응하는 묵음의 위치를 예측할 수 있도록 한다. 그러므로 음성인식기가 음성인식 시에 용이하게 묵음을 검출할 수 있다.

본 발명에 따른 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.

본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.

따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.

Claims

음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스;
상기 문장 코퍼스로부터 상기 복수개의 문장 중 적어도 하나의 문장을 획득하고, 획득된 상기 문장을 기설정된 인식 단위로 구분하는 인식단위 구분부;
상기 인식단위로 구분된 문장의 구문을 분석하는 구문 분석부;
음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스;
상기 구문 분석부에 의해 분석된 구문을 이용하여 상기 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하고, 획득된 끊어읽기 규칙에 따라 상기 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 끊어어읽기 삽입부;
언어모델이 저장되는 언어모델 데이터베이스; 및
상기 끊어읽기 삽입부에서 끊어읽기 표시가 삽입된 문장을 수신하여 기설정된 방식으로 언어모델로 생성하여 상기 언어모델 데이터베이스에 저장하는 언어모델 생성부; 를 포함하는 언어모델 생성 장치.
제1 항에 있어서, 상기 끊어읽기 규칙 데이터베이스는
상기 음성 합성을 위해 설정된 복수개의 끊어읽기 규칙 중 기실험적으로설정된 발화자가 실제로 끊어읽는 확률이 기준 끊어읽기 확률 이상인 끊어읽기 규칙을 저장하는 것을 특징으로 하는 언어모델 생성 장치.
제1 항에 있어서, 상기 끊어읽기 생성부는
상기 끊어읽기 표시가 삽입된 문장과 상기 인식단위로 구분된 문장을 모두 상기 언어모델로 변환하여 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 하는 언어모델 생성 장치.
제1 항에 있어서, 상기 끊어읽기 생성부는
상기 끊어읽기 표시가 삽입된 문장 중 상기 끊어읽기 표시와 상기 끊어읽기 표시를 기준으로 전후로 기설정된 개수의 단어와 상기 인식단위로 구분된 문장을 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 하는 언어모델 생성 장치.
제1 항에 있어서, 상기 문장 코퍼스는
상기 언어모델 데이터베이스와 동일한 데이터베이스로 구현되는 것을 특징으로 하는 언어모델 생성 장치.
제1 항에 있어서, 언어모델 생성 장치는
외부로부터 사용자 명령을 수신하고, 수신된 사용자 명령에 응답하여 상기 인식단위를 설정하여 상기 인식단위 구분부로 전송하는 인식단위 설정부; 를 더 포함하는 것을 특징으로 하는 언어모델 생성 장치.
제1 항에 있어서, 상기 언어모델 생성부는
상기 인식단위 구분부로부터 상기 인식단위로 구분된 문장을 수신하여 제1 언어모델을 생성하는 제1 언어모델 생성부;
상기 끊어어읽기 삽입부로부터 상기 끊어읽기 표시가 삽입된 문장을 수신하여 제2 언어모델을 생성하는 제2 언어모델 생성부; 및
상기 제1 언어모델 및 상기 제2 언어모델을 보간하여 상기 언어모델을 생성하고, 생성된 언어모델을 상기 언어모델 데이터베이스에 저장하는 보간부; 를 포함하는 것을 특징으로 하는 언어모델 생성 장치.
제7 항에 있어서, 상기 보간부는
상기 제1 언어모델과 상기 제2 언어모델의 차이를 비교하여, 상기 제2 언어모델에서 상기 끊어읽기 표시가 삽입된 위치 정보를 상기 제1 언어모델에 삽입하는 것을 특징으로 하는 언어모델 생성 장치.
음성 인식을 위해 미리 수집된 복수개의 문장이 저장된 문장 코퍼스와 음성 합성을 위해 기설정된 끊어읽기 규칙을 기초로 설정되는 끊어읽기 규칙이 기저장된 끊어읽기 규칙 데이터베이스를 포함하는 언어모델 생성 장치의 언어모델 생성 방법에 있어서, 상기 언어모델 생성 장치가
상기 문장 코퍼스로부터 상기 복수개의 문장 중 적어도 하나의 문장을 획득하는 단계;
상기 획득된 상기 문장을 기설정된 인식 단위로 구분하는 단계;
상기 인식단위로 구분된 문장의 구문을 분석하고, 상기 분석된 구문을 이용하여 상기 복수개의 끊어읽기 규칙 중 대응하는 끊어읽기 규칙을 검색하여 획득하는 단계;
상기 획득된 끊어읽기 규칙에 따라 상기 인식단위로 구분된 문장에 기설정된 끊어읽기 표시를 삽입하는 단계;
상기 끊어읽기 표시가 삽입된 문장을 기설정된 방식으로 언어모델로 생성하는 단계; 및
상기 언어모델을 언어모델 데이터베이스에 저장하는 단계; 를 포함하는 언어모델 생성 방법.
제9 항에 있어서, 상기 끊어읽기 규칙 데이터베이스는
상기 음성 합성을 위해 설정된 복수개의 끊어읽기 규칙 중 기실험적으로설정된 발화자가 실제로 끊어읽는 확률이 기준 끊어읽기 확률 이상인 끊어읽기 규칙을 저장하는 것을 특징으로 하는 언어모델 생성 방법.
제9 항에 있어서, 상기 언어모델로 생성하는 단계는
상기 인식단위로 구분된 문장 또한 상기 언어모델로 생성하는 것을 특징으로 하는 언어모델 생성 방법.
제11 항에 있어서, 상기 언어모델 데이터베이스에 저장하는 단계는
상기 끊어읽기 표시가 삽입된 문장과 상기 인식단위로 구분된 문장을 모두 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 하는 언어모델 생성 방법.
제11 항에 있어서, 상기 언어모델 데이터베이스에 저장하는 단계는
상기 끊어읽기 표시가 삽입된 문장 중 상기 끊어읽기 표시와 상기 끊어읽기 표시를 기준으로 전후로 기설정된 개수의 단어와 상기 인식단위로 구분된 문장을 상기 언어모델 데이터베이스에 저장하는 것을 특징으로 하는 언어모델 생성 방법.
제9 항에 있어서, 상기 언어모델로 생성하는 단계는
상기 인식단위로 구분된 문장을 수신하여 제1 언어모델을 생성하는 단계;
상기 끊어읽기 표시가 삽입된 문장을 수신하여 제2 언어모델을 생성하는 단계; 및
상기 제1 언어모델 및 상기 제2 언어모델을 보간하여 상기 언어모델을 생성하는 단계; 를 포함하는 것을 특징으로 하는 언어모델 생성 방법.
제9 항 내지 제14 항 중 어느 한 항에 따른 상기 언어모델 생성 방법을 수행하기 위한 컴퓨터로 판독가능한 프로그램을 기록한 기록 매체.