KR20160098910A

KR20160098910A - 음성 인식 데이터 베이스 확장 방법 및 장치

Info

Publication number: KR20160098910A
Application number: KR1020150021162A
Authority: KR
Inventors: 김윤주; 김주엽; 김태중
Original assignee: 한국전자통신연구원
Priority date: 2015-02-11
Filing date: 2015-02-11
Publication date: 2016-08-19
Also published as: US20160232892A1

Abstract

본 발명의 실시 예들은, 음성 인식에 이용되는 음성 인식 데이터 베이스를 확장하기 위한 방법 및 장치에 관한 것으로, 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법은, 말뭉치로부터 발음 텍스트를 생성하는 단계; 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계; 상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계를 포함한다. 본 발명의 실시 예들에 따르면, 인프라가 부족한 자립형 음성 인식기에서 보다 다양한 음성을 인식할 수 있다.

Description

음성 인식 데이터 베이스 확장 방법 및 장치{Expansion method of speech recognition database and apparatus thereof}

본 발명의 실시 예들은, 음성 인식에 이용되는 음성 인식 데이터 베이스를 확장하기 위한 방법 및 장치에 관한 것이다.

클라우드 네트워크를 기반으로 증가된 처리 용량을 갖는 네트워크 환경, 프로세서와 메모리 등의 하드웨어 성능의 향상 및 다양한 사용자 인터페이스 기술의 필요성 증대로 인하여, 음성 인식이 다양한 응용 분야에서 각광받고 있다.

특히, 최근 들어 대용량의 자연어를 고속으로 처리하기 위하여 클라우드 네트워크를 기반으로 하는 음성 인식 기술들이 활발히 개발되고 있다. 하지만, 인프라가 부족하거나 응용이 제한적인 분야, 특히 네트워크를 사용하지 않는 디바이스 레벨에서의 음성 인식 기술은 여전히 제한적으로 이용되고 있다.

한편, 음성 인식률 향상을 위해 데이터 베이스의 학습 및 운용 등과 관련한 다양한 기술적 접근이 이루어지고 있다.

종래의 일반적인 음성 인식 데이터 베이스 학습 과정은, 하나의 언어, 그 언어 내에서 사용되는 단어, 단어의 발음 뭉치 및 그 언어 내에서 사용되는 언어 규칙에 따른 단어들의 연결 관계를 기반으로 각 발음 뭉치들이 음성 신호로서 어떤 특징을 지니고 있는지에 대한 학습 데이터를 필요로 한다. 그리고 이러한 데이터를 모두 사용한 학습 과정 및 학습 결과에 대한 분석이 한번 이상 이루어져야, 음성 인식의 기준으로 적용될 수 있는 발음 사전, 음향 모델 및 언어 모델 등이 생성될 수 있다.

따라서, 외래어나 신조어와 같은 새로운 단어들을 음성 인식 대상에 포함시키고자 한다면 복잡한 음성 인식 데이터 베이스의 학습 과정이 매번 요구된다. 이를 도 1의 (a) 및 (b)를 참조하여 설명한다. 도 1의 (a) 및 (b)는 종래 기술에 의한 음성 인식 데이터 베이스 구축 방법을 설명하기 위한 예시도이다.

예를 들어 도 1의 (a)에 도시된 바와 같이, 음성 말뭉치를 기반으로 학습을 수행하여 음성 인식 데이터 베이스가 구축된 상황을 가정하자. 이러한 경우 임의의 추가 말뭉치에 대한 음성 인식 데이터 베이스를 추가하고자 하는 경우, 도 1의 (b)에 도시된 바와 같이, 기존의 음성 말뭉치와 새로운 추가 말뭉치 모두에 대한 새로운 학습을 수행하여 음성 인식 데이터 베이스를 새로 구축해야 한다.

본 발명의 실시 예들은, 새로운 인식 단위가 음성 인식의 대상에 포함될 수 있도록 기 구축된 음성 인식 데이터 베이스를 확장하는 방안을 제공한다.

본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법은, 말뭉치로부터 발음 텍스트를 생성하는 단계; 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계; 상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계를 포함한다.

일 실시 예에서, 상기 방법은, 상기 미등록 단어의 발음 텍스트를 상기 발음 사전에 추가하는 단계를 더 포함할 수 있다.

일 실시 예에서, 상기 방법은, 상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 음소들의 연결 확률을 결정하는 단계; 및 상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하는 단계를 더 포함할 수 있다.

일 실시 예에서, 상기 인접 음소들의 연결 확률을 결정하는 단계는, 상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 음소들의 연결 확률로 결정하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접하는 단어들 중 뒤에 위치하는 단어를 추가하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 어휘 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 인접 단어들의 연결 확률을 결정하는 단계는, 상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 방법은, 상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하는 단계; 상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하는 단계; 및 상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 언어 모델 정보를 생성하는 단계는, 상기 인접 단어들을 단어 연결 단위군으로 정의하는 단계를 포함할 수 있다.

일 실시 예에서, 상기 언어 모델 정보를 생성하는 단계는, 상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계를 포함할 수 있다.

본 발명의 일 실시 예에 따른 프로세서 및 메모리를 포함하는 음성 인식 데이터 베이스 확장 장치는, 상기 메모리에 음성 인식 데이터 베이스를 확장하기 위한 명령어들이 저장되며, 상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 말뭉치로부터 발음 텍스트를 생성하고, 상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하며, 상기 확인 결과 미등록 단어가 있는 경우 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하고, 상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하도록 하는 명령어들을 포함할 수 있다.

본 발명의 실시 예들에 따르면, 인프라가 부족한 자립형 음성 인식기에서 보다 다양한 음성을 인식할 수 있다.

본 발명의 실시 예들에 따르면, 기 구축된 음성 인식 데이터 베이스의 성능 열화 없이, 새로운 인식 단위를 음성 인식의 대상에 추가할 수 있다.

도 1의 (a) 및 (b)는 종래 기술에 의한 음성 인식 데이터 베이스 구축 방법을 설명하기 위한 예시도,
도 2는 음성 인식 데이터 베이스 학습 과정을 설명하기 위한 흐름도,
도 3은 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 개념도,
도 4는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 흐름도,
도 5는 본 발명의 일 실시 예에 따른 발음 텍스트 처리 방법을 설명하기 위한 예시도,
도 6의 (a) 내지 도 6의 (c)는 본 발명의 일 실시 예에 따른 미등록 단어에 대한 음향 모델 처리 방법을 설명하기 위한 예시도,
도 7의 (a) 내지 도 7의 (d)는 본 발명의 일 실시 예에 따른 어휘 모델 처리 방법을 설명하기 위한 예시도
도 8은 HMM 기반의 음성 인식 데이터 베이스에 포함되는 정보들을 설명하기 위한 예시도,
도 9는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 장치를 설명하기 위한 블록도.

이하에서, 본 발명의 실시 예들을 설명함에 있어, 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략한다.

본 발명의 실시 예들은, 새로운 인식 단위(음소, 음절, 단어 또는 문장일 수 있다)를 음성 인식의 대상에 포함시키기 위하여, 기 구축된 음성 인식 데이터 베이스를 수정하거나 새로운 음성 인식 데이터 베이스를 추가하는 방안을 제공한다.

본 발명의 실시 예들은, 음성 인식 알고리즘으로서 Hidden Markov Model(HMM)이라는 통계적 방법을 사용하는 음성 인식 시스템에 적용될 수 있다.

이하, 본 발명의 실시 예들을 설명함에 있어, 음성 인식 데이터 베이스는, 발음 사전, 음향 모델, 어휘 모델 및 언어 모델 중 적어도 하나를 포함하는 의미로 사용한다.

이하, 본 발명의 실시 예들을 설명함에 있어, 인식 단위는 단어인 것을 가정하여 설명하나, 전술한 바와 같이, 인식 단위는, 음소, 음절 또는 문장일 수도 있다.

이하, 첨부되는 도면을 참조하여 본 발명의 실시 예들을 설명한다.

도 2는 음성 인식 데이터 베이스 학습 과정을 설명하기 위한 흐름도이다.

단계(201)에서, 학습 데이터의 준비가 이루어진다.

구체적으로, 단계(201)에서, 학습하고자 하는 학습 대상 단어가 선정되고, 선정된 단어들을 포함하는 단어 목록이 생성된다. 그리고, 단어 목록에 포함된 각각의 학습 대상 단어가 음소(phoneme) 단위로 표기되고, 모든 학습 대상 단어를 포함하는 발음 사전이 구성된다. 그리고, 각 음소에 대한 음성 데이터가 해당 음소에 대응하여 기록된다.

또한, 문법에 맞게 학습 대상 단어들 간의 네트워크 목록이 생성된다. 네트워크 목록에는, 학습 대상 단어들 간의 연결 관계가 규정된다. 예를 들어, 임의의 단어를 기준으로 해당 단어의 이전 또는 이후에 올 수 있는 단어들이 어떤 단어인지가 규정된다.

단계(203)에서, 학습이 수행된다.

구체적으로, 단계(203)에서, 발음 사전, 음성 데이터 및 음성 데이터로부터 추출된 특징 벡터들을 기반으로 음향 모델(acoustic model)이 생성된다.

또한, 학습 대상 단어들이 문법에 맞게 인식될 수 있도록 단어들이 연결될 연결 확률을 포함하는 어휘 모델 및 언어 모델이 생성된다.

단계(205)에서, 단계(203)에서 생성된 음향 모델, 어휘 모델 및 언어 모델을 사용하여 테스트 음성이 인식되고, 인식 결과의 분석을 통하여 음향 모델, 어휘 모델 및 언어 모델의 신뢰도가 평가된다.

더 좋은 인식 결과를 얻기 위하여 단계(201) 내지 단계(205)의 과정들이 반복될 수 있으며, 이에 따라 생성되는 음향 모델들 어휘 모델들 및 언어 모델들 중 최종적으로 사용될 모델들이 결정된다.

도 3은 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 개념도이다.

본 발명의 일 실시 예에 따르면, 음성 인식의 범위에 새로운 단어 또는 새로운 문장을 추가하고자 하는 경우, 추가하고자 하는 단어 또는 문장(이하, 추가 말뭉치라 함)과 기 구축된 음성 인식 데이터 베이스를 기반으로 새로운 음향 모델 정보, 어휘 모델 정보 및 언어 모델 정보가 생성될 수 있다. 그리고, 생성된 모 모델 정보들을 이용하여 기 구축된 음성 인식 데이터 베이스가 확장될 수 있다. 도 3을 참조하면, 기 구축된 음성 인식 데이터 베이스(302)에 새로운 모델 정보(304)가 반영되었음을 알 수 있다.

도 1의 (b)를 참조하여 설명한 종래의 방법과 비교할 때, 전체 말뭉치를 대상으로 하는 복잡한 학습 방법 없이 간편하게 음성 인식의 범위를 확장할 수 있다.

도 4는 본 발명의 일 실시 예에 따른 음성 인식 데이터 베이스 확장 방법을 설명하기 위한 흐름도이다. 실시 예에 따라, 단계(401) 내지 단계(425) 중 적어도 하나의 단계는, 생략될 수 있다. 실시 예에 따라, 단계(401) 내지 단계(425) 중 적어도 하나의 단계는, 다른 하나의 단계 이전에 수행되거나 다른 하나의 단계 이후에 수행될 수 있다.

단계(401)에서, 음성 인식 데이터 베이스 확장 장치는, 음성 인식 데이터 베이스 확장에 이용되는 추가 말뭉치를 입력 받는다. 추가 말뭉치는, 텍스트 형태일 수 있다.

단계(403)에서, 음성 인식 데이터 베이스 확장 장치는, 입력되는 추가 말뭉치에 대한 발음 텍스트 처리를 수행한다.

예를 들어, 입력되는 추가 말뭉치가 한국어로 이루어진 경우, 음성 인식 데이터 베이스 확장 장치는, 해당 말뭉치를 발음나는 대로 표기한 한국어 발음 텍스트를 생성한다. 그리고, 한국어 발음 텍스트를 영어 발음 텍스트로 변환한다. 만약, 추가 말뭉치가 영어인 경우, 음성 인식 데이터 베이스 확장 장치는, 추가 말뭉치로부터 영어 발음 텍스트를 직접 생성한다. 이하에서, 설명의 편의를 위하여, 영어 발음 텍스트를 발음 텍스트라 한다. 발음 텍스트 처리 과정을 도 5를 참조하여 살펴본다.

도 5는 본 발명의 일 실시 예에 따른 발음 텍스트 처리 방법을 설명하기 위한 예시도이다.

도 5를 참조하여 설명하는 실시 예에서, 설명의 편의를 위하여, 영어로 이루어진 추가 말뭉치"dial zero"가 입력되는 경우를 가정한다.

음성 인식 데이터 베이스 확장 장치는, 추가 말뭉치가 입력되면 해당 추가 말뭉치에 포함된 단어들의 발음 텍스트를 생성한다. 도 5를 참조하면, 추가 말뭉치 "dial zero"로부터 발음 텍스트 "day_axl zia_row"가 생성되었음을 알 수 있다. 발음 텍스트 생성에는 종래 이용되는 다양한 방법을 이용할 수 있으며, 여기서는 상세한 설명은 생략한다.

다시 도 4를 참조하여 설명하면, 단계(405)에서, 음성 인식 데이터 베이스 확장 장치는, 발음 사전에 등록되지 않은 미등록 단어가 발음 텍스트 처리된 추가 말뭉치에 포함되어 있는지 여부를 확인한다. 만약, 발음 사전에 등록되지 않은 미등록 단어가 있는 경우 단계(407)로 진행하고, 그렇지 않으면 단계(421)로 진행한다.

단계(407)에서, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어와 해당 미등록 단어의 발음 텍스트를 매핑하여 발음 사전에 추가한다.

예를 들어, 발음 텍스트 "day_axl zia_row" 중에서 "day_axl" 및 "zia_row" 로 표기되는 단어들이 발음 사전에 등록되어 있지 않은 경우를 가정한다. 이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 "dial"과 해당 미등록 단어의 발음 텍스트 "day_axl"를 매핑하여 발음 사전에 추가한다. 마찬가지로, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 "zero"와 해당 미등록 단어의 발음 텍스트 "zia_row"를 매핑하여 발음 사전에 추가한다.

단계(409)에서, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어에 대한 음향 모델 처리를 수행한다.

미등록 단어에 대한 음향 모델 처리를 수행한다는 것은, 예를 들어 기 구축된 음향 모델의 공유 상태 정보를 수정하는 것을 포함할 수 있다. 이를 도 6의 (a) 내지 도 6의 (c)를 참조하여 설명한다.

도 6의 (a) 내지 도 6의 (c)는 본 발명의 일 실시 예에 따른 미등록 단어에 대한 음향 모델 처리 방법을 설명하기 위한 예시도이다.

도 6의 (a)에 도시된 바와 같이, 기 구축된 음향 모델에 음소 1에 대한 후보 음소로서 음소 2 및 음소 3이 존재하고, 음소 4에 대한 후보 음소로서 음소 5 및 음소 6이 존재한다고 가정한다.

이러한 상황에서 도 6의 (b)에 도시된 바와 같이 음소 1-음소 4-음소 5로 구성된 미등록 단어가 입력된 경우, 음성 인식 데이터 베이스 확장 장치는, 음소 1에 대한 후보 음소로서 음소 4가 포함되도록 음소 1의 공유 상태 정보를 수정할 수 있다.

이를 위하여, 음성 인식 데이터 베이스 확장 장치는, 음소 1 이후에 음소 4가 올 연결 확률을 결정할 수 있다. 연결 확률은, 후보 그룹{(음소 1-음소 2), (음소 1-음소 3), (음소 4-음소5), (음소 4-음소 6)}이 갖는 연결 확률을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.

후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 음소 4가 음소 1에 대한 후보 음소로서 인식될 확률을 높이기 위하여 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 선택하고, 선택된 연결 확률을 음소 4에 대한 연결 확률로 결정할 수 있다.

예를 들어, 후보 그룹이 갖는 연결 확률들(pp2, pp3, pp5, pp6) 중 pp6가 가장 크다고 가정할 때, 음성 인식 데이터 베이스 확장 장치는, 도 6의 (c)에 도시된 바와 같이 음소 4에 대한 연결 확률을 pp6로 결정할 수 있다. 그리고, 결정된 확률에 따라 음소 1의 공유 상태 정보를 수정할 수 있다. 공유 상태 정보는, 발산 확률(emission probability) 계산에 필요한 평균 값 또는 분산 값을 포함하고 있다. 따라서, 음성 인식 데이터 베이스 확장 장치는, 결정된 연결 확률에 따라 공유 상태 정보에 포함된 평균 값 또는 분산 값을 수정할 수 있다.

본 발명의 실시 예들에서, 후보 그룹이란, 특정 음소에 연결 가능한 음소들의 집합 또는 특정 단어에 연결 가능한 단어들의 집합을 의미할 수 있다. 특정 음소에 대한 후보 그룹은, 해당 후보 그룹에 포함되지 않은 음소들에 비하여 해당 특정 음소에 연결될 확률이 높은 음소들로 이루어질 수 있다. 특정 단어에 대한 후보 그룹은, 해당 후보 그룹에 포함되지 않은 단어들에 비하여 해당 특정 단어에 연결될 확률이 높은 단어들로 이루어질 수 있다. 예를 들어, 주어-술어 구조의 문장에서 주어에 해당하는 단어의 후보 그룹에는, 명사형 단어들이 포함되지 않고 동사형 단어들만 포함될 수 있다.

후보 그룹은, 도 2를 참조하여 설명한 학습 데이터 준비 과정에서 사용자에 의하여 정의되거나, 도 2를 참조하여 설명한 학습 과정의 반복에 따라 추론될 수 있다.

다시 도 4를 참조하여 설명하면, 단계(411)에서, 음성 인식 데이터 베이스 확장 장치는, 인접 단어들에 대한 어휘 모델 처리를 수행한다.

인접 단어들에 대한 어휘 모델 처리를 수행한다는 것은, 예를 들어 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하고, 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 것을 포함할 수 있다. 인접 단어들에 대한 어휘 모델 정보를 생성한다는 것은, 예를 들어, 해당 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군(group of next estimated words)에, 해당 인접 단어들 중 뒤에 위치하는 단어를 추가하는 것을 포함할 수 있다. 다음 예정 단어군은, 해당 단어의 뒤에 위치할 수 있는 단어들의 집합을 의미한다.

어휘 모델 정보는, 예를 들어 단어, 각 단어를 구성하는 음소 개수, 해당 단어를 구성하는 음소열 및 해당 단어의 다음에 올 수 있는 다음 예정 단어군 중 적어도 하나를 포함할 수 있다. 어휘 모델 처리 방법에 대하여 도 7의 (a) 내지 도 7의 (d)를 참조하여 살펴본다.

도 7의 (a) 내지 도 7의 (d)는 본 발명의 일 실시 예에 따른 어휘 모델 처리 방법을 설명하기 위한 예시도이다.

먼저, 도 7의 (a) 및 도 7의 (b)에 도시된 바와 같이, 단어들 "call" 및 "phone"을 포함하는 음소열 네트워크(word network)가 존재하는 상황을 가정한다. 음소열 네트워크는, 단어(W), 각 단어의 인덱스(I), 단어와 단어 사이의 전이를 나타내는 연결선(arc) 및 각 연결선에 대한 확률 정보를 포함한다.

이러한 상황에서, 새로운 미등록 단어들 "dial" 및 "zero"가 입력된 상황을 가정하자. 이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 도 7의 (c) 및 도 7의 (d)에 도시된 바와 같이, 해당 미등록 단어들을 음소열 네트워크에 추가한다.

그리고, 음성 인식 데이터 베이스 확장 장치는, 앞에 위치한 단어 "dial"에 대한 어휘 모델 정보 중 다음 예정 단어군에, 뒤에 위치한 단어 "zero"를 추가한다.

그리고, 음성 인식 데이터 베이스 확장 장치는, 미등록 단어 간 연결 확률을 결정하고, 결정된 연결 확률을 음소열 네트워크에 추가한다. 미등록 단어 간 연결 확률은, 후보 그룹이 갖는 확률 값을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.

후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 뒤에 위치하는 단어 "zero"가 앞에 위치하는 단어 "dial"에 대한 후보 단어로서 인식될 확률을 높이기 위하여 후보 그룹 내에 존재하는 연결 확률 중 가장 높은 연결 확률을 선택할 수 있다. 그리고, 선택된 연결 확률을 단어 "zero"에 대한 단어 "dial"의 연결 확률, 즉 단어 "dial" 이후에 단어 "zero"가 올 확률로 결정할 수 있다.

예를 들어, 하나의 후보 그룹 내에 존재하는 연결 확률들 pj1 및 pj2 중 가장 높은 연결 확률이 pj2라고 가정할 때, 음성 인식 데이터 베이스 확장 장치는, 도 7의 (c) 및 도 7의 (d)에 도시된 바와 같이 단어 "zero"에 대한 단어 "dial"의 연결 확률을 pj2로 결정할 수 있다.

한편, 연결 확률은, 음성 인식이 진행되어 가는 과정에서 얻어진 통계적 특성에 따라 갱신될 수 있다. 예를 들어, 음성 인식이 계속하여 진행되면서 단어 "dial" 이후에 올 수 있는 후보 단어들이 추가되는 경우, 각 후보 단어들에 대한 단어 "dial"의 연결 확률은 정규화될 수 있다. 그리고, 정규화 과정에서 각 후보 단어들에 대한 단어"dial"의 연결 확률은 갱신될 수 있다.

예를 들어, 단어 "dial" 이후에 올 수 있는 후보 단어가 "zero"만 있고, 후보 단어 "zero"에 대한 단어 "dial"의 연결 확률이 0.2인 상황을 가정하자. 그리고, 음성 인식이 추가적으로 진행되어 단어 "dial" 이후에 올 수 있는 후보 단어로서 단어 "one" 및 단어 "two"가 추가되었으며, 후보 단어 "one"에 대한 단어 "dial"의 연결 확률이 0.5, 후보 단어 "two"에 대한 단어 "dial"의 연결 확률이 0.8로 결정되었다고 가정하자.

이러한 경우, 음성 인식 데이터 베이스 확장 장치는, 후보 단어들에 대한 단어 "dial"의 연결 확률을 정규화할 수 있다. 따라서, 후보 단어 "zero"에 대한 단어 "dial"의 연결 확률은 1.333으로, 후보 단어 "one"에 대한 단어 "dial"의 연결 확률은 3.333으로, 후보 단어 "two"에 대한 단어 "dial"의 연결 확률은 5.333으로 갱신될 수 있다.

연결 확률의 정규화와 갱신은, 앞서 설명한 음소 간의 연결 확률에도 동일하게 적용될 수 있으며, 이후에 설명할 단어 연결 단위군으로 정의된 인접 단어들의 연결 확률에도 동일하게 적용될 수 있다.

한편, 도 7을 참조하여 설명한 실시 예에서 인접 단어들이 모두 미등록 단어인 경우의 예를 설명하였으나, 인접 단어들 중 어느 하나가 등록 단어인 경우에도 본 발명의 실시 예들은 동일하게 적용될 수 있다.

다시 도 4를 참조하여 설명하면, 단계(421)에서, 음성 인식 데이터 베이스 확장 장치는, 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들 간의 관계가 발음 텍스트 처리된 추가 말뭉치에 존재하는지 판단한다. 만약, 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들 간의 관계가 발음 텍스트 처리된 추가 말뭉치에 존재하는 경우 단계(423)로 진행한다.

단계(423)에서, 음성 인식 데이터 베이스 확장 장치는, 서로 간의 관계가 기 구축된 언어 모델에 반영되어 있지 않은 인접 단어들에 대한 언어 모델 처리를 수행한다.

언어 모델 처리를 수행한다는 것은, 예를 들어 해당 인접 단어 간의 관계를 나타내는 언어 모델 정보를 생성하고, 생성된 언어 모델 정보를 기 구축된 언어 모델에 추가하는 것을 포함할 수 있다.

언어 모델 정보는, 예를 들어 단어 연결 단위군(the connection group　of words), 이전 예정 단어(previous estimated words), 다음 예정 단어(next estimated words) 및 각 단어 간 연결 확률 중 적어도 하나를 포함할 수 있다.

단어 연결 단위군은, 학습 또는 음성 인식이 진행되어 가는 과정에서 연결 빈도가 높은 것으로 나타나는 인접 단어들의 집합을 의미한다.

이전 예정 단어는, 해당 단어의 앞에 위치할 수 있는 단어를 의미한다.

다음 예정 단어는, 해당 단어의 뒤에 위치할 수 있는 단어를 의미한다.

음성 인식 데이터 베이스 확장 장치는, 인접 단어들을 단어 연결 단위군으로 정의하고, 해당 인접 단어들 간의 연결 확률을 결정할 수 있다. 해당 인접 단어들 간의 연결 확률은, 후보 그룹이 갖는 확률 값을 기반으로 결정되거나, 미리 설정된 일정한 값으로 결정될 수 있다.

후보 그룹이 갖는 확률 값을 기반으로 결정되는 경우, 음성 인식 데이터 베이스 확장 장치는, 인접 단어들 중 뒤에 위치하는 단어가 해당 인접 단어들 중 앞에 위치하는 단어에 대한 후보 단어로서 인식될 확률을 높이기 위하여, 후보 그룹이 갖는 연결 확률 중에서 가장 높은 값을 선택하고, 선택된 연결 확률을 해당 인접 단어에 대한 연결 확률로 결정할 수 있다.

도 8은 HMM 기반의 음성 인식 데이터 베이스에 포함되는 정보들을 설명하기 위한 예시도이다.

음향 모델(510)은, 음소, 각 음소에 대한 공유 상태 천이 확률(shared state transition probability), 공유 상태 정보 및 HMM 파라미터 등을 포함한다.

어휘 모델(520)은, 단어, 각 단어를 구성하는 구성 음소 개수, 각 단어를 구성하는 음소열 및 다음 예정 단어군 정보 등을 포함한다.

언어 모델(530)은, 단어 연결 단위군, 이전 예정 단어, 다음 예정 단어 및 단어와 단어가 연결될 확률을 포함한다.

본 발명의 실시 예들은, 컴퓨터 시스템 내에, 예를 들어, 컴퓨터 판독가능 기록 매체로 구현될 수 있다. 도 9에 도시된 바와 같이, 컴퓨터 시스템(900)은 하나 이상의 프로세서(910), 메모리(920), 저장부(930), 사용자 인터페이스 입력부(940) 및 사용자 인터페이스 출력부(950) 중 적어도 하나 이상의 요소를 포함할 수 있으며, 이들은 버스(960)를 통해 서로 통신할 수 있다. 또한, 컴퓨터 시스템(900)은 네트워크에 접속하기 위한 네트워크 인터페이스(970)를 또한 포함할 수 있다. 프로세서(910)는 메모리(920) 및/또는 저장소(930)에 저장된 처리 명령어를 실행시키는 CPU 또는 반도체 소자일 수 있다. 메모리(920) 및 저장부(930)는 다양한 유형의 휘발성/비휘발성 기억 매체를 포함할 수 있다. 예를 들어, 메모리는 ROM(924) 및 RAM(925)을 포함할 수 있다.

이에 따라, 본 발명의 실시 예들은 컴퓨터로 구현되는 방법 또는 컴퓨터 실행 가능 명령어들이 저장된 비휘발성 컴퓨터 기록 매체로 구현될 수 있다. 상기 명령어들은 프로세서에 의해 실행될 때 본 발명의 적어도 일 실시 예에 따른 방법을 수행할 수 있다.

Claims

말뭉치로부터 발음 텍스트를 생성하는 단계;
상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하는 단계;
상기 확인 결과 미등록 단어가 있는 경우, 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하는 단계; 및
상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 1 항에 있어서,
상기 미등록 단어의 발음 텍스트를 상기 발음 사전에 추가하는 단계
를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
제 1 항에 있어서,
상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 음소들의 연결 확률을 결정하는 단계; 및
상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하는 단계
를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
제 3 항에 있어서, 상기 인접 음소들의 연결 확률을 결정하는 단계는,
상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 음소들의 연결 확률로 결정하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 1 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 5 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접하는 단어들 중 뒤에 위치하는 단어를 추가하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 6 항에 있어서, 상기 어휘 모델 정보를 생성하는 단계는,
상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 7 항에 있어서, 상기 인접 단어들의 연결 확률을 결정하는 단계는,
상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 1 항에 있어서,
상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하는 단계;
상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하는 단계; 및
상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하는 단계
를 더 포함하는 음성 인식 데이터 베이스 확장 방법.
제 9 항에 있어서, 상기 언어 모델 정보를 생성하는 단계는,
상기 인접 단어들을 단어 연결 단위군으로 정의하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 10 항에 있어서, 상기 언어 모델 정보를 생성하는 단계는,
상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로, 상기 인접 단어들의 연결 확률을 결정하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
제 11 항에 있어서, 상기 인접 단어들의 연결 확률을 결정하는 단계는,
상기 후보 그룹에 존재하는 연결 확률 중 가장 높은 연결 확률을 상기 인접 단어들의 연결 확률로 결정하는 단계
를 포함하는 음성 인식 데이터 베이스 확장 방법.
프로세서 및 메모리를 포함하는 음성 인식 데이터 베이스 확장 장치로서,
상기 메모리에 음성 인식 데이터 베이스를 확장하기 위한 명령어들이 저장되며,
상기 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금,
말뭉치로부터 발음 텍스트를 생성하고,
상기 발음 텍스트에 포함된 단어들 중 발음 사전에 등록되지 않은 미등록 단어가 있는지 확인하며,
상기 확인 결과 미등록 단어가 있는 경우 기 구축된 음향 모델을 참조하여 해당 미등록 단어에 대한 어휘 모델 정보를 생성하고,
상기 생성된 어휘 모델 정보를 기 구축된 어휘 모델에 추가하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 13 항에 있어서, 상기 명령어들은,
상기 미등록 단어에 포함된 인접 음소들 중 앞에 위치한 음소에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 음소들의 연결 확률을 결정하고, 상기 결정된 연결 확률을 기반으로 상기 기 구축된 음향 모델을 수정하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 13 항에 있어서, 상기 명령어들은,
상기 발음 텍스트 상에서 미등록 단어와 등록 단어가 서로 인접하거나 미등록 단어와 미등록 단어가 서로 인접하는 경우, 해당 인접 단어들 간의 관계를 기반으로 해당 인접 단어들에 대한 어휘 모델 정보를 생성하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 15 항에 있어서, 상기 명령어들은,
상기 인접 단어들 중 앞에 위치하는 단어의 다음 예정 단어군에, 상기 인접 단어들 중 뒤에 위치하는 단어를 추가하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 16 항에 있어서, 상기 명령어들은,
상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 단어들의 연결 확률을 결정하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 13 항에 있어서, 상기 명령어들은,
상기 발음 텍스트에 포함된 등록 단어들 중 서로 인접하는 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있는지 확인하고,
상기 인접 단어들 간의 관계가 상기 기 구축된 언어 모델에 반영되어 있지 않는 경우, 상기 인접 단어들 간의 관계를 나타내는 언어 모델 정보를 생성하며,
상기 생성된 언어 모델 정보를 상기 기 구축된 언어 모델에 추가하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 18 항에 있어서, 상기 명령어들은,
상기 인접 단어들을 단어 연결 단위군으로 정의하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.
제 19 항에 있어서, 상기 명령어들은,
상기 인접 단어들 중 앞에 위치하는 단어에 대한 후보 그룹이 갖는 확률 값을 기반으로 상기 인접 단어들의 연결 확률을 결정하도록 하는 명령어들을 포함하는
음성 인식 데이터 베이스 확장 장치.