KR20100069555A

KR20100069555A - 음성 인식 시스템 및 방법

Info

Publication number: KR20100069555A
Application number: KR1020090077752A
Authority: KR
Inventors: 가쿠토 구라타; 노부야스 이토; 마사후미 니시무라
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2008-12-15
Filing date: 2009-08-21
Publication date: 2010-06-24
Also published as: JP2010139963A; JP4808764B2

Abstract

본 발명은, 발음 변동을 고려함으로써 인식 성능을 향상시키고, 또한 실용적인 음성 인식을 위한 시스템 등을 제공한다.

음성 인식 장치(200)와, 음성 인식 장치(200)에 의한 음성 인식 처리에 이용되는 인식 그래프를 작성하는 전처리 장치(100)를 구비한다. 전처리 장치(100)는, 언어 모델을 추정하는 언어 모델 추정부(110)와, 단어와 그 표기대로의 음소열 및 발음 변동을 표현한 음소열의 정보의 대응 정보를 유지하는 인식 단어 사전부(130)와, 언어 모델 추정부(110)에 의해 추정된 언어 모델 및 이 언어 모델에 포함되는 단어에 관한 인식 단어 사전부(130)에 유지된 대응 정보에 기초하여, 인식 그래프를 작성하는 인식 그래프 작성부(140)를 구비한다. 그리고, 인식 그래프 작성부(140)는, 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어에 대해 그 단어에 관한 발음 변동을 고려한 음소열을 적용하여, 인식 그래프를 작성한다.

Description

음성 인식 시스템 및 방법{SPEECH RECOGNITION SYSTEM AND METHOD}

본 발명은, 발음의 변동에 대응하여 음성을 인식하는 시스템 및 방법에 관한 것이다.

오늘날, 컴퓨터를 이용한 음성 인식은, 각종의 해석 등에 널리 이용되고 있다. 여기서, 처리 대상의 음성이 회화 등의 자유 발화인 경우, 발음의 변동이 크다. 그 때문에, 이러한 종류의 음성 인식에 있어서는, 발음 변동에 대응하는지의 여부는, 인식 성능에 크게 영향을 준다. 그래서, 종래로부터, 발음 변동을 고려하여 음성 인식을 수행하는 기술이 제안되어 있다(예컨대, 비특허 문헌 1, 2 참조).

비특허 문헌 1에 기재된 종래 기술은, 단어의 표준 읽기(예측)에 기초하는 음소열로부터, 변동이 발생하는 음소열 패턴과 변동 확률을 고려한 음소열을 얻어, 발음 사전에 반영시키는 기술이다. 또한, 비특허 문헌 2에 기재된 종래 기술은, 실제의 발음에 의거하여 발음이 상이한 것은 별개의 단어로 취급하여 언어 모델의 학습을 수행하고, 발음 변동을 고려한 정밀한 모델링을 수행하는 기술이다.

[비특허 문헌 1] 아키타 유우야, 카와하라 타츠야, "구어 음성 인식을 위한 범용적인 통계적 발음 변동 모델", 전자 정보 통신 학회 논문지, Vol. J88-D-2, No. 9, pp. 1780-1789

[비특허 문헌 2] 츠츠미 료우스케, 카도 쇼우지, 고사카 테쓰오, 코우타 마사키, "발음 변형 의존 모델을 이용한 강연 음성 인식", 전자 정보 통신 학회 논문지, Vol. J89-D-2, No.2, pp.305-313

상기한 바와 같이, 발음 변동을 고려하여 음성 인식을 수행하는 것은 종래로부터 제안되어 있지만, 여러 가지 발음 변동을 단순히 적용하여 발음 사전이나 언어 모델을 구축한 경우, 변동된 발음이 다른 단어의 발음과 매치하게 되어, 오인식이 발생할 가능성이 커진다고 하는 문제가 있었다. 상기한 비특허 문헌 2에서는, 발음 변동이 생기기 쉬운 문맥을 고려하는 것이 표시되어 있지만, 이 방법을 실장하기 위해서는, 대량의 음소 레벨에서의 쓰기 코퍼스가 필요해지기 때문에, 실용적이라고는 말하기 어려웠다.

본 발명은, 이러한 과제를 감안하여 이루어진 것으로, 발음 변동을 고려하고, 또한 실용적인 음성 인식 처리를 수행하기 위한 인식 그래프를 작성하는 시스템 등을 제공하는 것을 목적으로 한다.

상기한 목적을 달성하기 위해, 본 발명은, 다음과 같은 시스템으로서 실현된다. 이 시스템은, 음성 인식 처리에 이용되는 인식 그래프를 작성하는 시스템으로서, 언어 모델을 추정하는 추정부와, 단어와 그 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열의 정보의 대응 정보를 유지하는 사전부와, 추정부에 의해 추정된 언어 모델과 그 언어 모델에 포함되는 단어에 관한 사전부에 유지된 대응 정보에 기초하여, 인식 그래프를 작성하는 인식 그래프 작성부를 구비한다. 그리고, 인식 그래프 작성부는, 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어에 대해 그 단어에 관한 발음 변동을 표현한 음소열을 적용하여, 인식 그래프를 작성한다.

보다 상세하게는, 인식 그래프 작성부는, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 이 단어에 관한 발음 변동을 표현한 음소열을 적용하여, 인식 그래프를 작성한다.

또는, 인식 그래프 작성부는, 언어 모델을 추정하기 위해 참조되는 코퍼스 내에서의 출현 빈도가 일정 이상의 단어열에 포함되는 단어이고, 또한 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 발음 변동을 표현한 음소열을 적용하여, 인식 그래프를 작성한다.

또는, 인식 그래프 작성부는, 대상 단어의 직전에 무음 구간이 허용되지 않는 경우에 있어서, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 발음 변동을 표현한 음소열을 적용하여, 인식 그래프를 작성한다.

또는, 인식 그래프 작성부는, 미리 정해진 조건에 기초하여, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 이 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열의 양쪽을 적용하고, 그 밖의 단어에 대해, 발음 변동을 표현한 음소열을 적용하지 않고서, 인식 그래프를 작성한다.

또한, 본 발명은, 음성 인식 처리에 이용되는 인식 그래프를 작성하는 방법으로서도 실현된다. 이 방법은, 학습용 코퍼스에 기초하여 언어 모델을 추정하는 단계와, 추정된 언어 모델에 포함되는 단어에 대해, 이 단어와 단어의 표기대로의 음소열을 적용하고, 또한 추정된 언어 모델에 포함되는 단어 중 일정 이상의 단어 수로 구성되는 단어열에 포함되는 단어에 대해, 이 단어에 관한 발음 변동을 표현한 음소열을 적용하여, 인식 그래프를 작성하는 단계와, 작성된 상기 인식 그래프를, 음성 인식 장치가 액세스 가능한 기억 장치에 저장하는 단계를 포함한다.

또한 본 발명은, 컴퓨터를 제어하여 상기한 음성 인식 시스템의 각 기능을 실현시키는 프로그램, 혹은 컴퓨터에 상기 방법에 있어서의 각 단계에 대응하는 처리를 실행시키는 프로그램으로서도 실현된다. 이 프로그램은, 광 디스크나 자기 디스크, 반도체 메모리, 그 밖의 기억 매체에 저장하여 배포하거나, 네트워크를 통해 전송함으로써 제공된다.

이상과 같이 구성된 본 발명에 따르면, 발음 변동을 고려하고, 또한 실용적인 음성 인식 처리를 수행하기 위한 인식 그래프를 작성하는 시스템 등을 제공할 수 있다.

이하, 첨부 도면을 참조하여, 본 발명의 실시형태에 대해 상세하게 설명한다.

자유 발화에 있어서, 발음 변동은, 자주 사용되는 표현이나 익숙하게 말하는 표현에서 특히 생기기 쉽다고 생각된다. 이러한 표현은, 음성 인식을 위한 언어 모델의 구축에 이용되는 학습용 코퍼스에도 많이 출현된다고 생각된다. 단어 n-gram 모델에서는, 고차의 모델으로 예측되는 표현이라고 할 수 있다. 그래서, 본 실시형태에서는, 일정 이상의 고차의 n-gram으로 예측되는 표현에 대해, 한정적으로, 발 음 변동을 표현한 음성 인식을 수행한다.

<시스템 구성>

도 1은 본 실시형태에 따른 음성 인식 시스템의 구성예를 도시하는 도면이다.

도 1에 도시하는 본 실시형태의 음성 인식 시스템은, 음성 인식에 이용되는 인식 그래프를 작성하기 위한 전처리 장치(100)와, 음성 인식을 수행하는 음성 인식 장치(200)와, 학습용의 데이터(텍스트 데이터)를 저장한 학습용 코퍼스(300)를 구비한다.

도 1에 도시하는 본 실시형태의 전처리 장치(100)는, 학습용의 데이터에 기초하여 언어 모델을 추정하는 언어 모델 추정부(110)와, 언어 모델 추정부(110)에 의해 추정된 언어 모델을 저장하는 언어 모델 저장부(120)와, 인식 단어 사전부(발음 사전)(130)를 구비한다. 또한, 이 전처리 장치(100)는, 음성 인식 처리에 이용되는 인식 그래프를 작성하는 인식 그래프 작성부(140)와, 작성된 인식 그래프를 저장하는 인식 그래프 저장부(150)를 구비한다.

음성 인식 장치(200)는, 처리 대상의 음성 데이터에 대한 음성 인식 처리를 실행한다. 상세하게는 후술하지만, 전처리 장치(100)에 의해 작성되는 인식 그래프의 데이터 구조는 기존의 것이기 때문에, 음성 인식의 처리의 내용은 기존의 음성 인식 기술에 있어서의 처리와 동일하다.

즉, 음성 인식 장치(200)의 음성 인식 엔진으로서는, 기존의 엔진을 적용할 수 있다.

학습용 코퍼스(300)에는, 음성 인식에 이용되는 언어 모델을 구축하기 위해 이용되는 학습용의 데이터가 축적되어 있다. 이 학습용의 데이터는, 음성 인식 적용 대상 분야의 텍스트 데이터이다.

도 2는 도 1의 음성 인식 시스템에 있어서의 전처리 장치(100) 및 음성 인식 장치(200)를 실현하는 컴퓨터의 하드웨어 구성예를 도시하는 도면이다.

도 2에 도시하는 컴퓨터(10)는, 연산 수단인 CPU(Central Processing Unit)(10a)와, 기억 수단인 메인 메모리(10c) 및 자기 디스크 장치(HDD: Hard Disk Drive)(10g)를 구비한다. 또한, 네트워크를 통해 외부 장치에 접속하기 위한 네트워크 인터페이스 카드(10f)와, 표시 출력을 수행하기 위한 비디오 카드(10d) 및 표시 장치(10j)와, 음성 출력을 수행하기 위한 음성 기구(10h)를 구비한다. 또한, 키보드나 마우스 등의 입력 디바이스(10i)를 구비한다.

도 2에 도시하는 바와 같이, 메인 메모리(10c) 및 비디오 카드(10d)는, 시스템 컨트롤러(10b)를 통해 CPU(10a)에 접속되어 있다. 또한, 네트워크 인터페이스 카드(10f), 자기 디스크 장치(10g), 음성 기구(10h) 및 입력 디바이스(10i)는, I/O 컨트롤러(10e)를 통해 시스템 컨트롤러(10b)와 접속되어 있다. 각 구성 요소는, 시스템 버스나 입출력 버스 등의 각종의 버스에 의해 접속된다. 예컨대, CPU(10a)와 메인 메모리(10c) 사이는, 시스템 버스나 메모리 버스에 의해 접속된다. 또한, CPU(10a)와 자기 디스크 장치(10g), 네트워크 인터페이스 카드(10f), 비디오 카드(10d), 음성 기구(10h), 입력 디바이스(10i) 등과의 사이는, PCI(Peripheral Components lnterconnect), PCI Express, 직렬 ATA(AT Attachment), USB(Universal Serial Bus). AGP(Accelerated Graphics Port) 등의 입출력 버스에 의해 접속된다.

또, 도 2는 본 실시형태가 적용되기에 적합한 컴퓨터의 하드웨어 구성을 예시하는 것에 지나지 않고, 실제의 각 서버는 도시된 구성에 한정되지 않는 것은 물론이다.

예컨대, 비디오 카드(10d)를 설치하는 대신에, 비디오 메모리만을 탑재하고, CPU(10a)에서 이미지 데이터를 처리하는 구성으로 하여도 좋다. 또한, 음성 기구(10h)를 독립된 구성으로 하지 않고, 시스템 컨트롤러(10b)나 I/O 컨트롤러(10e)를 구성하는 칩 세트의 기능으로서 구비하도록 하여도 좋다. 또한, 보조 기억 장치로서 자기 디스크 장치(10g) 이외에, 각종의 광학 디스크나 플렉시블 디스크를 미디어로 하는 드라이브를 설치하여도 좋다. 표시 장치(10j)로서는, 주로 액정 디스플레이가 이용되지만, 그 외, CRT 디스플레이나 플라즈마 디스플레이 등, 임의의 방식의 디스플레이를 이용하여도 좋다.

도 1에 도시한 전처리 장치(100)가 도 2의 컴퓨터에 의해 실현되는 경우, 언어 모델 추정부(110) 및 인식 그래프 작성부(140)는, 예컨대 메인 메모리(10c)에서 읽어들인 프로그램을 CPU(10a)가 실행함으로써 실현된다. 또한, 언어 모델 저장부(120), 인식 단어 사전부(130), 인식 그래프 저장부(150)는, 메인 메모리(10c)나 자기 디스크 장치(10g) 등의 기억 수단에 의해 실현된다.

언어 모델 추정부(110)는, 학습용 코퍼스에 축적된 학습용의 데이터에 기초하여, 언어 모델을 추정한다. 언어 모델이란, 단어(형태소)의 연결 쪽을, 확률 등을 이용하여 나타낸, 언어의 수학적 모델이다. 학습용의 데이터에 대응하는 언어 모델을 추정하는 수법으로서는, 최우 추정법이나 EM 알고리즘 등에 의한 기존의 수법을 이용할 수 있다.

언어 모델 저장부(120)는, 언어 모델 추정부(110)에 의해 추정된 언어 모델을 저장한다. 저장되는 언어 모델의 데이터 구조로서는, 기존의 임의의 데이터 구조를 이용하여도 좋다. 이하, 본 실시형태에서는, 언어 모델로서 WFST(Weighted Finite State Transducer)를 이용한 경우를 예로 들어 설명한다.

도 3은 WFST을 이용한 언어 모델의 데이터 구성예를 도시하는 도면이다.

도 3에 도시하는 바와 같이, WFST는, 단어 이력을 표시하는 노드와, 출현하는 단어와 그 출현 확률을 표시하는 아크로 이루어진다. 도시의 예에서는, 2개의 단어 이력이 노드에 기록되는 것으로 한다. 구체적으로는, 좌단의 노드로부터 순서대로, 단어(w1)의 출현에 의해 단어 이력이 「w1」이 되고, 계속해서 단어(w2)의 출현에 의해 단어 이력이 「w1, w2」이 되며, 계속해서 단어(w3)의 출현에 의해 단어 이력이 「w2, w3」이 되는 형태를 나타내고 있다. 또, 도시하고 있지는 않지만, 각 아크에는, 직전의 노드에 기록된 단어 이력에 있어서 현재의 단어가 출현하는 출현 확률의 정보(예컨대, 도면의 좌측으로부터 2번째의 노드와 3번째의 노드 사이의 아크에 대해서는, 확률 p(w2｜w1)가 부여되어 있다.

인식 단어 사전부(130)는, 단어(형태소)와 그 읽기(예측)의 음성(음소열)의 대응 정보를 유지하고 있다. 본 실시형태에서는, 인식 단어 사전부(130)는, 음소열을 수리하여 단어열을 출력하는 WFST를 이용하여 실현되는 것으로 한다. 인식 단어 사전부(130)에 있어서의 단어의 읽기(예측)로서는, 표기대로의 음소열에 부가하여, 발음 변동을 표현한 음소열이 등록된다. 발음 변동을 표현한 음소열을 포함하는 인식 단어 사전부(130)의 작성 방법에 대해서는, 기존의 기술을 이용하여도 좋다.

도 4는 인식 단어 사전부(130)에 유지되는 단어와 음소열의 대응 정보의 예를 도시한다.

도 4에 도시하는 예에서는, 단어 「ございます」에 대해, 4종류의 음소열을 대응시킬 수 있다. 이들의 음소열 중, 최상단의 「gozaimasu」가 표기대로의 음소열이고, 2번째단 이후의 3종류가 발음 변동을 표현한 음소열이다. 이하, 도 4에 도시하는 바와 같이, 표기대로의 음소열을 음소열(pn)로 하고, 발음 변동을 표현한 음소열을 음소열(pv)로 한다. 또, 도 4에서는, 3개의 음소열(pv)에 각각 첨자를 붙여, 「음소열(pv)(1)」, 「음소열(pv)(2)」, 「음소열(pv)(3)」으로 기재하고 있다.

일반적으로, 어떤 단어에 있어서 발음 변동이 발생하는지의 여부는, 단어의 종류나, 다른 단어와 연속하고 있는지의 여부, 어떠한 단어와 어떻게 연속하고 있는가라고 하는, 단어가 이용되는 방법 등에 따라 여러 가지이다. 또한, 발음 변동의 방법은, 도 4에 예시한 바와 같은 음소의 탈락 외에, 촉음화, 탁음화, 발음화, 장음화, 단음화 등, 여러 가지이다. 따라서, 인식 단어 사전부(130)에 있어서, 어떤 단어에 대해, 어떠한 음소열(pv)을 등록하는가는, 기존의 여러 가지의 룰 베이스를 적용함으로써 임의로 선택할 수 있다. 실제로는, 개개의 시스템에 요구되는 정밀도나 처리 능력에 따라, 룰 베이스를 적용하고, 음소열(pv)을 포함하는 인식 단어 사전부(130)를 작성하면 좋다. 또, 도 4에 있어서는, 3종류의 음소열(pv)을 나타내고 있지만, 음소열(pv)로서 등록되는 음소열의 종류는 도면에 도시하는 3종류에 한정되지 않는 것은 물론이다.

인식 그래프 작성부(140)는, 언어 모델과 인식 단어 사전부(130)의 대응 정보를 합성하여, 음성 인식 처리에 이용되는 인식 그래프를 작성한다. 인식 그래프는, 언어 모델을 음소 레벨로 기술한 것으로, 언어 모델에, 이 언어 모델에 포함되는 단어에 관한 인식 단어 사전부(130)의 대응 정보를 적용하여 작성된다. 인식 그래프의 작성 수법은, 기존의 수법을 이용하면 좋다. 즉, 작성되는 인식 그래프의 데이터 구조체는, 기존의 음성 인식 기술에 있어서 작성되는 인식 그래프와 동일하다. 단, 본 실시형태에서는, 미리 정해진 조건에 기초하여, 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어, 보다 상세하게는, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 표현에 있어서의 단어에 대해, 음소열(pn)과 발음 변동을 표현한 음소열(pv)을 적용하여 인식 그래프를 작성한다. 그리고, 그 외의 단어에 대해서는, 음소열(pn)만을 적용하여 인식 그래프를 작성한다.

도 5는 도 3에 도시한 언어 모델에 기초하여, 인식 그래프를 작성하는 형태를 도시하는 도면이다.

도 5에 도시하는 예에서는, 3-gram으로 예측되는 단어에 대해서만 발음 변동을 허용하는 것으로 한다. 즉, 언어 모델의 각 노드가 단어 이력을 표시하는 것을 이용하여, 2개의 단어 이력을 갖는 노드로부터의 아크에 대해서만, 인식 단어 사전부(130)의 pn:w와 pv:w의 양쪽의 변환을 수행한다. 그리고, 그 외의 아크에 대해서는, pnw의 변환만을 수행한다.

또한, 도 5에 있어서, 단어(wi)(i=1, 2, 3)의 표기대로의 음소열을 pin으로 표기하고, 발음 변동을 표현한 음소열을 piv로 표기하고 있다.

따라서, 도 5의 인식 그래프를 참조하면, 좌단의 노드와 2번째의 노드의 사이에는 p1n:w1이라는 아크가 연장되고, 2번째의 노드와 3번째의 노드의 사이에는 p2n:w2라는 아크가 연장되어 있다. 그리고, 3번째의 노드와 우단의 노드 사이에는, p3n:w3이라는 아크와 p3v:w3이라고 하는 아크의 2개의 아크가 연장되어 있다.

이 인식 그래프를 이용함으로써, 1-gram으로 예측되는 단어에서는, 음소열 p1n만으로부터의 단어(w1)가 인식되고, 2-gram으로 예측되는 단어에서는, 음소열 p2n만으로부터의 단어(w2)가 인식되며, 3-gram으로 예측되는 단어에서는, 음소열 p3n과 p3v의 어느쪽에서도 단어(w3)가 인식되게 된다.

인식 그래프 저장부(150)는, 상기한 바와 같이하여 인식 그래프 작성부(140)에 의해 작성된 인식 그래프를 저장한다. 음성 인식 장치(200)가 음성 인식을 수행할 때에는, 이 인식 그래프가 이용된다. 이에 따라, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 표현에 있어서의 단어에 관해서는, 발음 변동이 고려된 음성 인식이 행해지는 것이 된다. 상기한 바와 같이, 인식 그래프의 데이터 구성 자체는, 기존의 인식 그래프와 동일하기 때문에, 음성 인식 장치(200)는, 기존의 장치를 그대로 이용할 수 있다.

<음성 인식 시스템의 동작>

도 6은 전처리 장치(100)의 동작을 도시하는 흐름도이다.

도 6에 도시하는 바와 같이, 전처리 장치(100)의 언어 모델 추정부(110)가 학습용 코퍼스로부터 음성 데이터를 취득하고(단계 601), 언어 모델을 추정한다(단계 602). 그리고, 인식 그래프 작성부(140)가, 언어 모델 추정부(110)에 의해 추정된 언어 모델을 언어 모델 저장부(120)로부터 취득하고(단계 603), 인식 단어 사전부(130)를 참조하여 인식 그래프 작성 처리를 수행한다(단계 604). 인식 그래프 작성 처리에 의해 작성된 인식 그래프는, 인식 그래프 저장부(150)에 저장된다(단계 605).

이상과 같이 하여, 전처리 장치(100)에 의해 인식 그래프가 준비된다. 그 후, 음성 인식 장치(200)에 의해 음성 인식 처리가 행해질 때에는, 인식 그래프 저장부(150)에 저장되어 있는 인식 그래프가 이용된다.

도 7은 도 6의 단계 604에 나타내는 인식 그래프 작성 처리의 상세를 도시하는 흐름도이다.

도 7에 도시하는 바와 같이, 인식 그래프 작성부(140)는, 언어 모델에 포함되는 개개의 단어에 순차적으로 착안하여, 단어 이력(WFST에 있어서의 노드에 기록된 정보)에 기초하여, 착안한 단어(이하, 대상 단어)에 선행하는 단어(선행 단어)를 조사한다(단계 701). 그리고, 대상 단어가 미리 정한 차수(n)에 의한 n-gram에서 예측된 단어인지의 여부를 판단한다(단계 702). 도 7에 도시하는 예에서는, n=3으로 하고 있다. 따라서, 인식 그래프 작성부(140)는, 인식 그래프를 작성하기 위해, 1 gram 또는 2 gram에서 예측된 대상 단어에 대해서는(단계 702에서 No), 단어의 표기대로의 음소열(pn)을 적용한다(단계 703). 한편, 3 gram에서 예측된 대상 단어에 대해서는(단계 702에서 Yes), 단어의 표기대로의 음소열(pn) 및 발음 변동 을 표현한 음소열(pv)을 적용한다(단계 704). 이상의 처리를 언어 모델에 포함되는 각 단어에 대해 실행하고, 미처리의 단어가 없어졌으면, 작성한 인식 그래프를 인식 그래프 저장부(150)에 저장하여 처리를 종료한다(단계 705).

이상, 본 실시형태에서는, 미리 정한 규칙에 따라, 일정 이상의 고차의 n-gram(상기한 예에서는, 3 gram)으로 예측되는 단어에 대해, 발음 변동을 고려하여 인식 그래프를 작성함으로써, 발음 변동을 고려하는 대상을 제한하고 있다. 실제의 시스템에 있어서, 몇 gram 이상으로 예측되는 단어에 대해 발음 변동을 고려할지는, 개개의 시스템에 요구되는 정밀도나 처리 능력에 따라, 적절하게 설정하면 좋다. 또한, 발음 변동을 표현한 음소열(pv)을 적용하는 조건으로서, 추가 조건을 더 부여할 수도 있다. 추가 조건으로서는, 예컨대,

·음소열(pv)을 작성하기 위해 이용된 학습용 코퍼스에서의 출현 빈도에 따라 n-gram의 차수(n)를 결정한다.

·대상 단어의 직전에 무음 구간이 허용되지 않는 경우에만 적용한다.

등이 생각된다.

도 8은 인식 그래프 작성 처리의 다른 예를 도시하는 흐름도이다.

도 8에 도시하는 처리에서는, 발음 변동을 표현한 음소열(pv)을 적용하기 위한 조건으로서, 학습용 코퍼스에서의 출현 빈도를 추가하고 있다. 구체적으로는, 인식 그래프 작성부(140)는, 우선, 언어 모델에 포함되는 개개의 단어에 순차적으로 착안하고, 단어 이력에 기초하여, 착안한 대상 단어의 선행 단어를 조사한다(단계 801). 다음으로, 대상 단어와 선행 단어로 이루어지는 단어열의 학습용 코퍼스 에 있어서의 출현 빈도를 조사한다(단계 802). 출현 빈도가 미리 정해진 임계값(s) 미만인 경우(단계 803에서 Yes), 인식 그래프 작성부(140)는, 발음 변동을 표현한 음소열(pv)을 적용하는 n-gram의 차수(n)를 n=3으로 한다. 즉, 1 gram 또는 2 gram에서 예측된 단어에 대해 음소열(pn)을 적용하고, 3 gram에서 예측된 단어에 대해 음소열(pn) 및 음소열(pv)을 적용하여 인식 그래프를 작성한다(단계 804, 805, 806).

한편, 출현 빈도가 미리 정해진 임계값(s) 이상인 경우(단계 803에서 No), 인식 그래프 작성부(140)는, 발음 변동을 표현한 음소열(pv)을 적용하는 n-gram의 차수(n)를 n=2로 한다. 즉, 1 gram에서 예측된 단어에 대해 음소열(pn)을 적용하고, 2 gram 및 3 gram에서 예측된 단어에 대해 음소열(pn) 및 음소열(pv)을 적용하여 인식 그래프를 작성한다(단계 807, 808, 809). 이와 같이 대상 단어를 포함하는 단어열의 학습용 코퍼스에 있어서의 출현 빈도에 따라 음소열(pv)을 적용하는 n-gram의 차수(n)를 변경하는 것은, 출현 빈도가 큰 단어열은 발화에 있어서 다용되는 표현이고, 보다 발음 변동이 생기기 쉽다고 하는 생각에 기초한다.

인식 그래프 작성부(140)는, 이상의 처리를 언어 모델에 포함되는 각 단어에 대해 실행하고, 미처리의 단어가 없어졌으면, 작성한 인식 그래프를 인식 그래프 저장부(150)에 저장하여 처리를 종료한다(단계 810).

도 9는 인식 그래프 작성 처리의 또 다른 예를 도시하는 흐름도이다. 도 9에 도시하는 처리에서는, 발음 변동을 표현한 음소열(pv)을 적용하기 위한 조건으로서, 무음 구간의 유무를 추가하고 있다. 구체적으로는, 인식 그래프 작성부(140) 는, 우선, 언어 모델에 포함되는 개개의 단어에 순차적으로 착안하고, 단어 이력에 기초하여, 착안한 대상 단어의 선행 단어를 조사한다(단계 901). 그리고, 대상 단어가 3 gram에서 예측된 단어인지의 여부를 판단하고(단계 902), 1 gram 또는 2 gram에서 예측된 단어에 대해(단계 902에서 No), 단어의 표기대로의 음소열(pn)을 적용하여 인식 그래프를 작성한다(단계 903).

한편, 3 gram에서 예측된 단어에 대해(단계 902에서 Yes), 인식 그래프 작성부(140)는, 대상 단어의 직전에 무음 구간의 존재가 허용되는지를 조사한다. 그리고, 무음 구간의 존재가 허용되지 않으면(단계 904에서 No), 단어의 표기대로의 음소열(pn) 및 발음 변동을 표현한 음소열(pv)을 적용하여 인식 그래프를 작성한다 (단계 905). 이에 대해, 무음 구간의 존재가 허용되면(단계 904에서 Yes). 단어의 표기대로의 음소열(pn)을 적용하여 인식 그래프를 작성한다(단계 906). 이와 같이, 발음 변동을 표현한 음소열(pv)의 적용 조건으로서 발화에 무음 구간이 존재하는지의 여부를 판단하는 것은, 무음 구간은 발화의 이음매이고, 그 직후의 단어에서는 발음 변동이 생기기 어렵다는 생각에 기초한다.

인식 그래프 작성부(140)는, 이상의 처리를 언어 모델에 포함되는 각 단어에 대해 실행하고, 미처리의 단어가 없어졌으면, 작성한 인식 그래프를 인식 그래프 저장부(150)에 저장하여 처리를 종료한다(단계 907)

<구체예>

다음으로, 구체적인 언어 모델에 대한 본 실시형태의 적용예에 대해 설명한다. 도 10은 학습용 코퍼스에 포함되는 단어열의 예를 도시한다. 도 11은 이 단어 열에 대응하는 언어 모델의 예, 도 12는 이 단어열에 포함되는 단어에 관한 인식 단어 사전부(130)에 등록된 대응 정보의 예를 도시한다. 도 13은 도 11의 언어 모델 및 도 12의 대응 정보 등을 이용하여 작성되는 인식 그래프의 예를 도시한다.

또, 도 10의 단어열은, 단어열을 구성하는 각 단어를 공백으로 구획지어 나타내고 있다. 또한, 도 11의 언어 모델, 도 12의 대응 정보, 도 13의 인식 그래프는, 어느쪽도 WFST가 아니라, 표 형식으로 나타내고 있다. 또한, 이 적용예에서는, 도 7에 도시한 인식 그래프 작성 처리에 의해 인식 그래프가 작성된 것으로 한다.

도 11의 언어 모델에 있어서, 선행 단어의 항목에 있어서의 「*」라고 기재된 란은, 선행 단어를 조건붙이지 않는 경우를 나타낸다. 즉, 선행 2단어가 함께 「*」인 예측 단어(착안한 단어)의 출현 확률은 1 gram 확률을 나타내고, 선행 1단어가 「*」인 예측 단어의 출현 확률은 2 gram 확률을 나타낸다. 예컨대, 도 10의 3번째의 단어열 「お電話ありがとうございます」에 대한 언어 모델은, 예측 단어 「お電話」가 1 gram에서 예측되고, 출현 확률이 0.003이다. 또한, 예측 단어 「ありがとう」가 2 gram에서 예측되며, 출현 확률이 0.2이다. 또한, 예측 단어 「ございます」가 3 gram에서 예측되고, 출현 확률이 0.5이다.

도 12에 도시하는 대응 정보는, 인식 단어 사전부(130)에 등록된 대응 정보의 일부이고, 「ございます」, 「IBM」, 「おはよう」이라고 하는 3단어에 대해, 음소열(도 12에서는 「발음」으로 기재)과의 대응 정보가 예시되어 있다. 도 12의 대응 정보를 참조하면, 단어 「ございます」, 단어 「lBM」, 단어 「おはよう」에, 각각 3종류의 음소열(pv)이 등록되어 있다. 또, 도 12에는 예시로서, 상기한 3에 대해서만 대응 정보가 기재되어 있지만, 실제로는, 인식 단어 사전부(130)의 각 단어에 관해 동일한 대응 정보[음소열(pv)에 대한 대응 정보를 포함함]가 등록되어 있다.

도 13의 인식 그래프에는, 도 11의 언어 모델에 인식 단어 사전부(130)로부터 취득된 음소열(발음)이 부가되어 있다. 단어열 「お電話ありがとうございます」에 대한 인식 그래프를 참조하면, 1 gram에서 예측된 「お電話」 및 2 gram에서 예측된 「ありがとう」에 대해서는, 표기대로의 음소열(pn)만이 부가되어 있다. 한편, 3 gram에서 예측된 「ございます」에서는, 음소열(pn)인 「gozaimasu」와 함께, 발음 변동을 표현한 3종류의 음소열(pv)이 부가되어 있다. 따라서, 음성 인식 장치(200)에 의한 인식 처리에 있어서는, 단어열 「お電話ありがとうございます」에 대응하는 음성 데이터에 있어서, 단어 「ございます」에 대응하는 부분의 발음이 변동하고 있었던 경우(예컨대 「ozaimasu」)라도, 정확하게 「ございます」라고 인식할 수 있다.

이상, 본 실시형태에 대해 설명했지만, 본 발명의 기술적 범위는 상기 실시형태에 기재한 범위에는 한정되지 않는다. 예컨대, 상기 실시형태에서는, 인식 단어 사전부(130)에 발음 변동을 표현한 음소열(pv)을 등록하기 위해, 그 음소열(pv)이 발생하는 확률 p(pv｜w)을 고려하지 않지만, 이 확률을 고려하여 등록하는지의 여부를 제어하여도 좋다. 또한 본 실시형태는, 상기한 바와 같이 처리 대상의 음성 데이터에 대한 음성 인식에서 이용되는 외에, 음향 모델의 학습에 있어서도 이용 가능하다. 음향 모델 구축 시에는, 음성 데이터 단어 레벨에서의 쓰기 데이터 및 단어와 음소열의 대응을 이용하여, 음성 데이터에 대해 음소 레벨에서의 얼라이먼트를 수행한다. 여기서, 단어 레벨에서의 쓰기 데이터에 대해, 본 실시형태를 적용함으로써, 고차의 단어 n-gram에서 예측할 수 있는 문맥(context)에서 출현하는 단어를 선택할 수 있다. 얼라이먼트 실행 시에, 고차의 단어 n-gram에서 예측할 수 있는 문맥에서 출현하는 단어에 대해서는, 표기대로의 음소열(pn)과 발음 변동을 표현한 음소열(pv)의 양쪽을 이용하여, 그 이외의 단어에 대해서는, 음소열(pn)만을 이용함으로써, 보다 정확한 음소 얼라이먼트를 얻을 수 있다. 이 결과로서, 보다 정치(精緻)한 음향 모델의 구축을 기대할 수 있다. 그 외, 상기 실시형태에, 여러 가지의 변경 또는 개량을 가한 것도, 본 발명의 기술적 범위에 포함되는 것은, 특허청구의 범위의 기재로부터 명확하다.

도 1은 본 실시형태에 따른 음성 인식 시스템의 구성예를 도시하는 도면.

도 2는 도 1의 음성 인식 시스템을 실현하는 컴퓨터의 하드웨어 구성예를 도시하는 도면.

도 3은 WFST를 이용한 언어 모델의 데이터 구성예를 도시하는 도면.

도 4는 본 실시형태의 인식 단어 사전부에 유지되는 단어와 음소열의 대응 정보의 예를 도시하는 도면.

도 5는 도 3에 도시한 언어 모델에 기초하여, 본 실시형태에 따른 인식 그래프를 작성하는 형태를 도시하는 도면.

도 6은 본 실시형태의 음성 인식 시스템의 동작을 도시하는 흐름도.

도 7은 도 6의 단계 604에 도시하는 인식 그래프 작성 처리의 상세를 도시하는 흐름도.

도 8은 도 6의 단계 604에 도시하는 인식 그래프 작성 처리의 다른 예를 도시하는 흐름도.

도 9는 도 6의 단계 604에 도시하는 인식 그래프 작성 처리의 또 다른 예를 도시하는 흐름도.

도 10은 학습용 코퍼스에 포함되는 단어열의 예를 도시하는 도면.

도 11은 도 10의 단어열에 대응하는 언어 모델의 예를 도시하는 도면.

도 12는 도 10의 단어열에 포함되는 단어에 관한 인식 단어 사전부에 등록된 대응 정보의 예를 도시하는 도면.

도 13은 도 11의 언어 모델 및 도 12의 대응 정보 등을 이용하여 작성되는 인식 그래프의 예를 도시하는 도면.

<도면의 주요 부분에 대한 부호의 설명>

10a: CPU

10c: 메인 메모리

10g: 자기 디스크 장치

100: 전처리 장치

110: 언어 모델 추정부

120: 언어 모델 저장부

130: 인식 단어 사전부

140: 인식 그래프 작성부

150: 인식 그래프 저장부

200: 음성 인식 장치

300: 학습용 코퍼스

Claims

음성 인식 처리에 이용되는 인식 그래프를 작성하는 시스템으로서,

언어 모델을 추정하는 추정부와,

단어와 상기 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열의 정보의 대응 정보를 유지하는 사전부와,

상기 추정부에 의해 추정된 상기 언어 모델과 상기 언어 모델에 포함되는 단어에 관한 상기 사전부에 유지된 상기 대응 정보에 기초하여, 인식 그래프를 작성하는 인식 그래프 작성부를 구비하고,

상기 인식 그래프 작성부는, 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어에 대해 상기 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 인식 그래프 작성부는, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 상기 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 인식 그래프 작성부는, 언어 모델을 추정하기 위해 참조되는 코퍼스에서의 출현 빈도가 일정 이상인 단어열에 포함되는 단어이고, 또한 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 발음 변동을 표현 한 상기 음소열을 적용하여, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
제1항에 있어서, 상기 인식 그래프 작성부는, 대상 단어의 직전에 무음 구간이 허용되지 않는 경우에 있어서, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 발음 변동을 표현한 상기 음소열을 적용하여, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
음성 인식 처리에 이용되는 인식 그래프를 작성하는 시스템으로서,

언어 모델을 추정하는 추정부와,

단어와 상기 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열의 정보의 대응 정보를 유지하는 사전부와,

상기 추정부에 의해 추정된 상기 언어 모델과 상기 언어 모델에 포함되는 단어에 관한 상기 사전부에 유지된 상기 대응 정보에 기초하여, 인식 그래프를 작성하는 인식 그래프 작성부를 구비하고,

상기 인식 그래프 작성부는, 미리 정해진 조건에 기초하여, 일정 이상의 차수(n)에 의해 n-gram으로 예측되는 단어에 대해, 상기 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열 모두를 적용하며, 그 밖의 단어에 대해서는, 발음 변동을 표현한 해당 음소열을 적용하지 않고서, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
음성 데이터를 취득하여 음성 인식 처리를 수행하는 시스템으로서,

음성 인식 처리에 이용되는 인식 그래프를 작성하는 전처리 장치와,

상기 전처리 장치에 의해 작성된 상기 인식 그래프를 이용하여 음성 인식 처리를 수행하는 음성 인식 장치를 구비하고,

상기 전처리 장치는,

언어 모델을 추정하는 추정부와,

단어와 상기 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열의 정보의 대응 정보를 유지하는 사전부와,

상기 추정부에 의해 추정된 상기 언어 모델과 상기 언어 모델에 포함되는 단어에 관한 상기 사전부에 유지된 상기 대응 정보에 기초하여, 인식 그래프를 작성하는 인식 그래프 작성부를 구비하며,

상기 인식 그래프 작성부는, 미리 정해진 조건에 기초하여, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 해당 단어의 표기대로의 음소열 및 발음 변동을 표현한 음소열 모두를 적용하고, 그 밖의 단어에 대해서는, 발음 변동을 표현한 해당 음소열을 적용하지 않고서, 상기 인식 그래프를 작성하는 것을 특징으로 하는 시스템.
컴퓨터가 음성 인식 처리에 이용되는 인식 그래프를 작성하는 방법으로서,

학습용 코퍼스에 기초하여 언어 모델을 추정하는 단계와,

추정된 상기 언어 모델에 포함되는 단어에 대해, 해당 단어 및 해당 단어의 표기대로의 음소열을 적용하고, 또한 상기 언어 모델에 포함되는 단어 중 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어에 대해, 해당 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 인식 그래프를 작성하는 단계와,

음성 인식 장치가, 작성된 상기 인식 그래프를, 액세스 가능한 기억 장치에 저장하는 단계를 포함하는 것을 특징으로 하는 방법.
제7항에 있어서, 상기 인식 그래프를 작성하는 단계에서는, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 해당 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 상기 인식 그래프를 작성하는 것을 특징으로 하는 방법.
컴퓨터로 하여금,

학습용 코퍼스에 기초하여 언어 모델을 추정하는 처리와,

추정된 상기 언어 모델에 포함되는 단어에 대해, 해당 단어 및 해당 단어의 표기대로의 음소열을 적용하고, 또한 상기 언어 모델에 포함되는 단어 중 일정 이상의 단어수로 구성되는 단어열에 포함되는 단어에 대해, 해당 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 인식 그래프를 작성하는 처리와,

작성된 상기 인식 그래프를, 음성 인식 장치가 액세스 가능한 기억 장치에 저장하는 처리

를 실행시키게 하는 것을 특징으로 하는 프로그램.
제9항에 있어서, 상기 인식 그래프를 작성하는 처리에서는, 일정 이상의 차수(n)에 의한 n-gram으로 예측되는 단어에 대해, 해당 단어에 관한 발음 변동을 표현한 상기 음소열을 적용하여, 상기 인식 그래프를 상기 컴퓨터에 작성시키는 것을 특징으로 하는 프로그램.