KR101134455B1

KR101134455B1 - 음성 인식 장치 및 그 방법

Info

Publication number: KR101134455B1
Application number: KR1020090057093A
Authority: KR
Inventors: 김정세; 김승희; 박준; 이수종; 윤승; 이일빈; 김상훈
Original assignee: 한국전자통신연구원
Priority date: 2009-06-25
Filing date: 2009-06-25
Publication date: 2012-04-13
Also published as: KR20100138520A

Abstract

본 발명은 음성 인식 장치 및 그 방법에 관한 것으로, 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다. 또한, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있다.

음성 인식, 언어 모델, 계층별 n-gram, 형태소 분석, 구문 분석

Description

음성 인식 장치 및 그 방법{SPEECH RECOGNITION APPARATUS AND ITS METHOD}

본 발명은 음성 인식 장치 및 그 방법에 관한 것으로, 보다 상세하게는 계층별 인식단어 엔 그램(n-gram)을 이용하여 언어모델 기반의 음성인식을 수행하도록 하는 장치 및 방법에 관한 것이다.

본 발명은 지식경제부의 IT성장동력기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2008-S-019-02, 과제명: 휴대형 한/영 자동통역 기술개발].

주지된 바와 같이, 음성 인식 장치는 언어 모델을 사용함에 있어서 현재 가장 많이 사용되고 있으며 음성인식 산업의 표준처럼 사용되고 있는 n-gram의 경우, 학습 데이터의 영역에 따라 매우 다른 결과가 나올 수 있으며, 인식하고자 하는 음성의 영역과 언어모델 학습 데이터의 영역이 일치할 때 가장 나은 성능을 기대할 수 있다.

또한, 언어모델 적응 기술은 음성인식의 중간 결과로부터 음성의 영역 정보를 추출하고, 이를 바탕으로 대용량의 학습 데이터에서 유사한 텍스트 문장을 검색 하여 해당 영역만으로 구성된 적응 데이터를 구성하며, 이 적응 데이터를 이용하여 적응 언어모델을 생성한다.

이때, 적은 양의 텍스트만을 사용하여 구성된 언어모델의 약점을 보완하기 위하여 기존의 대용량 코퍼스로부터 생성된 언어모델과 병합하여 최종적인 적응 언어모델을 생성하는 방법이 널리 사용되었다.

그러나, 상술한 바와 같이 언급된 종래 기술에서의 n-gram을 사용하는 음성 인식 장치는 n개의 인식 단어 후보열에 대해서만 한정된 확률값을 이용하기 때문에 원거리의 음성인식 오류에 대하여 해결하지 못하였다. 이러한 점을 해결하기 위하여 언어 처리에서 사용되는 구문분석이나 의미분석 혹은 대화모델링 등을 적용함으로써, 원거리의 음성인식 오류에 대하여 해결하려고 시도는 하였지만 여전히 원거리 인식단어에 대한 오류를 해결하기 보다는 문법의 오류나 단어 간의 의미 오류 등을 해결할 수 밖에 없음에 따라 n개의 확률로 제한되어 음성인식을 수행할 수 밖에 없는 문제점이 있다.

이에, 본 발명의 기술적 과제는 상술한 바와 같은 문제점을 해결하기 위해 안출한 것으로, 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 원거리 음성인식의 오류, 즉 문법 오류나 단어간 의 의미 오류 등을 줄일 수 있는 음성 인식 장치 및 그 방법을 제공한다.

본 발명의 일 관점에 따른 음성 인식 장치는, 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 음성신호에 대해 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하며, 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 음성 인식부와, 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하고, 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어(score)를 생성하며, 음향모델확률 및 언어모델확률에 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 계층별 n-gram 적용부를 포함한다.

또한, 본 발명의 다른 관점에 따른 음성 인식 방법은, 음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하는 단계와, 음성신호에 대해 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하는 단계와, 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 단계와, 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하는 단계와, 계층별 단어 리스트 에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 단계와, 음향모델확률 및 언어모델확률에 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 단계를 포함한다.

본 발명은 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다.

또한, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있는 이점이 있다.

이하, 첨부된 도면을 참조하여 본 발명의 동작 원리를 상세히 설명한다. 하기에서 본 발명을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 장치에 대한 블록 구성도로서, 음성 인식부(10) 및 계층별 n-gram 적용부(20) 등을 포함할 수 있다.

음성 인식부(10)는 도 2에 도시된 바와 같이 특징 추출부(11)와 음향 모델부(12)와 발음 사전부(13)와 언어 모델부(14)와 탐색부(15) 등을 포함할 수 있다.

특징 추출부(11)는 외부로부터 입력된 음성신호로부터 음성인식에 사용되는 음성 특징을 추출하고, 이 추출된 음성 특징을 탐색부(15)에 제공한다.

음향 모델부(12)는 음성인식 탐색시 사용되는 음향모델들을 저장한다.

발음 사전부(13)는 단어 탐색에 해당하는 음향모델을 구축할 때 이용되는 발음열 정보들을 수록한다.

언어 모델부(14)는 인식단어의 n-gram 모델을 사용하는 블록으로서, 외부로부터 입력된 음성신호에 대해 음향 모델부(12)에 저장된 음향모델들과 발음 사전부(13)에 수록된 발음열 정보들 간의 비교방식(예컨대, 입력된 음성신호와 음향모델들 및 발음열 정보들 간을 각각 비교하는 방식)을 통해 확률적으로 가장 가까운 단어열들을 선택하여 자체적으로 저장한다.

탐색부(15)는 특징 추출부(11)로부터 입력되는 음성 특징과 음향 모델부(12)에 저장된 음향 모델들과 발음 사전부(13)에 구축된 발음열 정보들간의 비교방식으로 음향모델확률을 생성하고, 입력된 음성 특징과 언어 모델부(14)에 저장된 단어열들간의 비교방식으로 언어모델확률을 생성하며, 이 생성된 음향모델확률 및 언어 모델확률을 수학식 1

(여기서, α와 β는 어느 확률값을 높게 줄 것인가에 대한 상수값을 의미한다.)

에 적용하여 음성인식확률을 생성하여 계층별 n-gram 적용부(20)내 계산부(27)에 제공하며, 이 생성된 음성인식확률을 기반으로 음성신호와 가장 일치한 단어열을 인식결과로 추출하여 계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에 제공한다.

계층별 n-gram 적용부(20)는 도 3에 도시된 바와 같이 형태소 품사 태깅부(21)와 텍스트 DB(22)와 구문 분석부(23)와 계층별 단어 리스트 생성부(24)와 계층 n-gram 적용부(25)와 계층별 n-gram DB(26)와 계산부(27) 등을 포함할 수 있다.

형태소 품사 태깅부(21)는 음성 인식부(10)내 탐색부(15)로부터 입력되는 인식결과로 추출된 단어열에 대하여 텍스트 DB(22)에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅하고, 태깅 결과를 구문 분석부(23)에 제공한다.

텍스트 DB(22)는 형태소 품사를 태깅하기 위한 대용량의 텍스트들을 저장한다.

구문 분석부(23)는 형태소 품사 태깅부(21)로부터 입력되는 태깅 결과를 이용하여 구문 분석을 수행하여 계층구조를 생성하고, 이 구문 분석 결과인 계층구조를 계층별 단어 리스트 생성부(24)에 제공한다.

계층별 단어 리스트 생성부(24)는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하여 계층별 n-gram DB(26)에 저장하고, 또한 이 생성된 계층별 단어 리스트를 계층 n-gram 적용부(25)에 제공한다.

계층 n-gram 적용부(25)는 계층별 단어 리스트 생성부(24)로부터 입력되는 계층별 단어 리스트에 대하여 기 구축된 계층별 n-gram DB(26)에 저장된 계층별 n-gram 단어 리스트를 이용함에 있어서, 일 예로, bi-gram으로 한정될 경우 수학식 2

(여기서, score(W_i,k)는 W_i,k에 대한 스코어 계산값을 의미하고, W_i,k는 i번째 계층의 k번째 단어를 의미하며,

은 W_i _,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, W_i _+1, _m 까지의 확률이며,

은 W_i,k를 부모로 가진 단어들 m개의 집합 다음에 W_i,k가 나올 확률이며,

는 같은 계층에서 W_i,k-1 까지의 n-gram 확률이며,

는 같은 계층에서 W_i,k이전 단어 k개의 집합 다음에 W_i,k가 나올 확률인 것을 의미한다.)

에 적용하여 계층 n-gram 스코어(score)를 생성하고, 이 생성된 계층 n-gram 스코어를 계산부(27)에 제공한다.

여기서, 계층 n-gram 스코어 생성은 상위 i의 자식 노드(node)인 하위 계층 i+1의 계층 내 n-gram 확률값에 대해 통상적인 언어모델 확률값을 계산하는 방식으로 적용하는데, 단지 i+1계층과 그 상위 계층 부모 노드인 i계층의 연결을 필요로 하기 때문에 그 상위 계층의 부모 노드인 i계층의 시작 단어를 포함하여 생성한다. 또한, 각 계층별 n-gram 스코어를 모두 곱하는데 여기에 계층i별 상수값(δ_i)을 곱한다. 이 상수값은 계층별 중요도를 나타내는 것으로 최상위 계층인 주어와 용언 그리고 목적어 등의 핵심어에 높은 값을 주고, 그 아래 계층으로 갈수록 낮은 값을 준다는 의미 즉, 원거리에 있는 문장을 구성하는 핵심어에 대한 중요도를 높게 주어 인식의 성능을 높이고자 하는 것이다.

예컨대, '나는 구조가 아름다운 집을 보았다' 에 대해 어절 bi-gram을 예를 들어 설명한다.

즉, n-gram 모델에서 문장의 확률을 계산하면,

P(나는)×

P(구조가|나는)×

P(아름다운|구조가)×

P(집을|아름다운)×

P(보았다|집을)

즉, P(나는)는 문장의 처음이므로 “나는”에 대한 unigram을 적용받고, 그 이후 “나는”다음에 “구조가”가 나올 확률, “구조가”다음에 “아름다운”이 나올 확률,… 즉 이전 단어에 다음단어가 나타날 확률을 계속 곱한다.

하지만, 계층 n-gram 스코어는 형태소 품사 태깅부(21)와 구문 분석부(23)를 거치게 되고 그 구문분석결과는, 다음과 같이 해석된다.

즉,

나는

구조가

아름다운

집을

보았다

상술한 구문분석결과를 살펴보면, “구조가”는 “아름다운”과 다른 계층에 위치하고, "아름다운”은 “집을”과 다른 계층에 위치하는데 반하여 “나는”과 “집을”은 같은 계층에 위치하는 것으로 해석된다.

다음으로, 계층별 단어리스트 생성부(24)는 상술한 구문분석결과에 해당하는 계층별 단어 리스트를 출력하는데 그 결과는 다음과 같다.

(나는)

(구조가)

(구조가, 아름다운)

(아름다운, 집을)

(나는, 집을),

(집을, 보았다)

즉, 출력된 구문분석결과인 계층별 단어 리스트를 상술한 수학식 2에 적용하면, W_i,k가 “집을”일 경우, W_i+1,m은 “아름다운”이고, W_i,k-1은 “나는”이 된다. 즉, “아름다운” 다음에 “집을”을 나타날 확률과 “나는”다음에 “집을”이 나타날 확률을 곱하는 것이다.

즉 “집을”에 대한 스코어는 "스코어(score)(집을)=P(집을|아름다운)×δ₃×P(집을|나는)×δ₂" 와 같이 표현된다.

다음으로, 전체문장에 대한 스코어는 다음과 같다.

스코어 = (P(나는)×δ₂)×

(P(구조가)×δ₄)×

(P(아름다운|구조가)×δ₄)×

(P(집을|아름다운) ×δ₃)×

(P(집을|나는)×δ₂)×

(P(보았다|집을)×δ₂)

계층별 n-gram DB(26)는 계층별 단어 리스트 생성부(24)에 의해 생성된 계층별 단어 리스트, 즉 형태소 품사 태깅부(21)에 의해 형태소 품사가 태깅되고, 구문 분석부(23)에 의해 구문분석된 구문분석결과의 계층별로 부모 노드에 대한 첫 단어 까지의 리스트가 생성되는데, 즉 현재의 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드에 대한 첫 단어까지의 리스트가 생성되며, 이렇게 생성된 리스트를 입력받아 계층별 n-gram 단어 리스트를 생성하여 저장한다.

계산부(27)는 탐색부(15)로부터 입력되는 음성인식확률에 포함된 음향모델확률 및 언어모델확률에 계층 n-gram 적용부(25)로부터 입력되는 계층 n-gram 스코어를 가산(add)한 다음에, 탐색부(15)에 의해 탐색된 다수의 인식결과들 중에 하나를 선택하기 위해 수학식 3

(여기서, α와 β 그리고 γ은 어느 확률값을 높게 줄 것인가에 대한 상수값을 의미한다.)

에 적용하여 생성된 음성인식스코어, 즉 최적의 음성인식결과를 출력한다.

따라서, 본 발명은 구문분석의 계층구조를 이용한 계층별 인식단어 n-gram을 이용하여 근거리의 단어열뿐만 아니라 계층구조에 의한 원거리의 단어열에 대하여 언어모델 기반의 음성인식을 수행함으로써, 기존 n개의 확률로 제한되어 음성인식을 수행하던 것을 계층구조에 의해 원거리의 n-gram을 적용하여 원거리 음성인식의 오류를 줄일 수 있다.

다음에, 상술한 바와 같은 구성을 갖는 본 발명의 일 실시예에서 계층별 n-gram을 이용한 음성 인식 과정에 대하여 설명한다.

도 4는 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 방법에 대하여 순차적으로 도시한 흐름도이다.

먼저, 음성신호가 외부로부터 입력될 경우, 음성 인식부(10)내 특징 추출부(11)에서는 입력된 음성신호로부터 음성인식에 사용되는 음성 특징을 추출(S401)하고, 이 추출된 음성 특징은 탐색부(15)에 제공(S403)된다.

이때, 언어 모델부(14)에서는 외부로부터 입력된 음성신호에 대해 음향 모델부(12)에 저장된 음향모델들과 발음 사전부(13)에 수록된 발음열 정보 간의 비교방식을 통해 확률적으로 가장 가까운 단어열들을 선택하여 자체적으로 저장(S405)한다.

이후, 탐색부(15)에서는 특징 추출부(11)로부터 입력되는 음성 특징과 음향 모델부(12)에 저장된 음향 모델들과 발음 사전부(13)에 구축된 발음열 정보들간의 비교방식으로 음향모델확률을 생성(S407)하고, 입력되는 음성 특징과 언어 모델부(14)에 저장된 단어열들간의 비교방식으로 언어모델확률을 생성(S409)하며, 이 생성된 음향모델확률 및 언어모델확률을 상술한 수학식 1에 적용시켜 생성된 음성인식확률(S411)이 계층별 n-gram 적용부(20)내 계산부(27)에 제공(S413)되며, 또한 이 생성된 음성인식확률을 기반으로 음성신호와 가장 일치한 단어열을 인식결과로 추출(S415)하고, 추출된 인식결과는 계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에 제공(S417)된다.

계층별 n-gram 적용부(20)내 형태소 품사 태깅부(21)에서는 음성 인식부(10)내 탐색부(15)로부터 입력되는 인식결과로 추출된 단어열에 대하여 텍스트 DB(22) 에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅(S419)하고, 태깅 결과가 구문 분석부(23)에 제공(S421)된다.

구문 분석부(23)에서는 형태소 품사 태깅부(21)로부터 입력되는 태깅 결과를 이용하여 구문 분석을 수행하여 계층구조를 생성(S423)하고, 이 생성된 구문 분석 결과인 계층구조는 계층별 단어 리스트 생성부(24)에 제공(S425)된다.

계층별 단어 리스트 생성부(24)에서는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하여 계층별 n-gram DB(26)에 저장(S429)한다.

또한, 계층별 단어 리스트 생성부(24)에서는 구분 분석부(23)로부터 입력되는 구문 분석 결과인 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성(S427)하고, 이 생성된 계층별 단어 리스트는 계층 n-gram 적용부(25)에 제공(S431)된다. 여기서, 계층별 단어 리스트는 해당 계층의 부모 노드에 대한 첫 단어까지의 리스트를 생성하는데, 즉 현재 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드의 첫 단어까지에 대한 리스트를 생성한다. 이는 구문분석의 하위 계층은 상위 계층의 부모 노드에 의존관계가 있기 때문이다.

계층 n-gram 적용부(25)는 계층별 단어 리스트 생성부(24)로부터 입력되는 계층별 단어 리스트에 대하여 기 구축된 계층별 n-gram DB(26)에 저장된 계층별 n-gram 단어 리스트를 이용함에 있어서, 일 예로, bi-gram으로 한정될 경우 상술한 수학식 2에 적용하여 계층 n-gram 스코어(score)를 생성(S433)하고, 이 생성된 계층 n-gram 스코어는 계산부(27)에 제공(S435)된다.

계층별 n-gram DB(26)에서는 계층별 단어 리스트 생성부(24)에 의해 생성된 계층별 단어 리스트, 즉 형태소 품사 태깅부(21)에 의해 형태소 품사가 태깅되고, 구문 분석부(23)에 의해 구문분석된 구문분석결과의 계층별로 부모 노드에 대한 첫 단어까지의 리스트가 생성되는데, 즉 현재의 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드에 대한 첫 단어까지의 리스트가 생성되며, 이렇게 생성된 리스트가 입력되어 계층별 n-gram 단어 리스트가 생성되어 저장된다. 여기서, 계층별 n-gram 단어 리스트는, 구문분석결과중 음성인식 단위를 부사구, 감탄사구 등을 제외한 명사나 용언이 포함된 다수의 핵심 단어로 구성되도록 하며, 계층의 상대값을 활용함에 따라 계층별로 n-gram 단어 리스트의 부족함을 해결할 수 있다.

계산부(27)에서는 탐색부(15)로부터 입력되는 음성인식확률에 포함된 음향모델확률 및 언어모델확률에 계층 n-gram 적용부(25)로부터 입력되는 계층 n-gram 스코어를 가산(add)한 다음에, 탐색부(15)에 의해 탐색된 다수의 인식결과들 중에 하나를 선택하기 위해 상술한 수학식 3에 적용하여 생성된 음성인식스코어, 즉 최적의 음성인식결과가 출력(S437)된다.

본 발명에 의한 음성 인식 방법은 컴퓨터 프로그램으로 작성 가능하다. 이 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 당해 분야의 컴퓨터 프로그래머에 의하여 용이하게 추론될 수 있다. 또한, 해당 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 정보저장매체(computer readable media)에 저장되고, 컴퓨터에 의하여 읽혀지고 실행됨으로써 계층별 n-gram을 이용한 음성 인식 방법을 구현한다. 정보저장매체는 자기 기록매체, 광 기록매체 및 캐리어 웨이브 매체를 포함한 다.

이상에서와 같이, 본 발명은 원거리 단어에 대한 n-gram이 적용된 음성 인식 장치 및 그 방법을 제공함으로써, 음성 인식의 성능을 극대화시킬 수 있다.

지금까지 본 발명에 대하여 그 일부 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.

도 1은 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 장치에 대한 블록 구성도,

도 2는 도 1에 도시된 음성 인식부에 대한 상세 블록 구성도,

도 3은 도 1에 도시된 계층별 n-gram 적용부에 대한 상세 블록 구성도,

도 4는 본 발명의 일 실시예에 따른 계층별 n-gram을 이용한 음성 인식 방법에 대하여 순차적으로 도시한 흐름도.

<도면의 주요부분에 대한 부호의 설명>

10 : 음성 인식부 11 : 특징 추출부

12 : 음향 모델부 13 : 발음 사전부

14 : 언어 모델부 15 : 탐색부

20 : 계층별 n-gram 적용부 21 : 형태소 품사 태깅부

22 : 텍스트 DB 23 : 구문 분석부

24 : 계층별 단어 리스트 생성부

25 : 계층 n-gram 적용부

26 : 계층별 n-gram DB 27 : 계산부

Claims

음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하며, 상기 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 음성 인식부와,

상기 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하고, 상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어(score)를 생성하며, 상기 음향모델확률 및 언어모델확률에 상기 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 계층별 n-gram 적용부

를 포함하는 음성 인식 장치.
제 1 항에 있어서,

상기 음성 인식부는,

상기 음성신호의 음성 특징을 추출하는 특징 추출부와,

음향 모델들을 저장하는 음향 모델부와,

발음열 정보들이 수록되어 있는 발음 사전부와,

상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 동일한 단어열을 선택하는 언어 모델부와,

상기 음성 특징과 상기 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하고, 상기 음성 특징과 상기 선택된 단어열간을 비교하여 언어모델확률을 생성하며, 상기 음향모델확률 및 언어모델확률을 통해 음성인식확률을 생성하며, 상기 음성인식확률을 기반으로 상기 음성신호와 일치하는 단어열을 탐색하는 탐색부

를 포함하는 음성 인식 장치.
제 2 항에 있어서,

상기 음성인식확률은,

수학식

(여기서, α와 β는 상수값)

에 의해 생성되는 음성 인식 장치.
제 1 항에 있어서,

상기 계층별 n-gram 적용부는,

상기 단어열에 대하여 텍스트 DB에 저장된 텍스트들을 통해 검색 비교하면서 형태소 품사를 태깅하는 형태소 품사 태깅부와,

상기 태깅된 형태소 품사를 이용하여 구문 분석을 수행하여 계층구조를 생성하는 구분 분석부와,

상기 생성된 계층구조를 이용하여 인식 단어에 대해 상기 계층별 단어 리스트를 생성하는 계층별 단어 리스트 생성부와,

상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축되어 저장된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 계층 n-gram 적용부와,

상기 음향모델확률 및 언어모델확률에 상기 생성된 계층 n-gram 스코어를 가산하여 상기 음성 인식부에서 생성한 단어열 중에 하나가 선택된 음성인식스코어를 생성하는 계산부

를 포함하는 음성 인식 장치.
제 4 항에 있어서,

상기 계층 n-gram 스코어는,

수학식

(여기서, score(W_i,k)는 W_i,k에 대한 스코어 계산값을 의미하고, W_i,k는 i번째 계층의 k번째 단어를 의미하며,
은 W_i,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, W_i+1,m 까지의 확률이며,
은 W_i,k를 부모로 가진 단어들 m개의 집합 다음에 W_i,k가 나올 확률이며,
는 같은 계층에서 W_i,k-1 까지의 n-gram 확률이며,
는 같은 계층에서 W_i,k이전 단어 k개의 집합 다음에 W_i,k가 나올 확률인 것을 의미한다.)

에 의해 생성되는 음성 인식 장치.
제 4 항에 있어서,

상기 음성인식스코어는,

수학식

(여기서, α와 β 그리고 γ은 상수값)

에 의해 생성되는 음성인식결과인 음성 인식 장치.
음성신호에서 추출된 음성 특징과 음향모델들 및 발음열 정보들간을 비교하여 음향모델확률을 생성하는 단계와,

상기 음성신호에 대해 상기 음향모델들 및 발음열 정보들 간의 비교를 통해 선택된 단어열을 기반으로 언어모델확률을 생성하는 단계와,

상기 음향모델확률과 언어모델확률을 가산하여 생성된 음성인식확률을 기반으로 단어열을 생성하는 단계와,

상기 생성된 단어열에 대하여 형태소 품사 태깅과 구문 분석을 통해 생성된 계층구조를 이용하여 인식 단어에 대해 계층별 단어 리스트를 생성하는 단계와,

상기 계층별 단어 리스트에 대하여 계층별 n-gram DB에 기구축된 계층별 n-gram 단어 리스트를 이용하여 계층 n-gram 스코어를 생성하는 단계와,

상기 음향모델확률 및 언어모델확률에 상기 계층 n-gram 스코어를 가산시켜 음성인식결과를 생성하는 단계

를 포함하는 음성 인식 방법.
제 7 항에 있어서,

상기 계층별 단어 리스트는, 댑스(depth)의 시작 인식 단어부터 그 상위 계층인 부모 노드의 첫 단어까지에 대한 리스트를 생성하는 음성 인식 방법.
제 7 항에 있어서,

상기 계층별 n-gram 단어 리스트는, 구문분석결과 중에서 명사나 용언이 포함된 다수의 단어인 음성 인식 방법.
제 7 항에 있어서,

상기 계층 n-gram 스코어는,

W_i _,k를 부모로 가진 단어들 m개의 리스트에서 m번째까지의 n-gram 확률로서, W_i+1,m 까지의 확률을 갖는
와 상기 W_i _,k를 부모로 가진 단어들 m개의 집합 다음에 W_i _,k가 나올 확률을 갖는
와 계층에서 W_i _,k- ₁ 까지의 n-gram 확률을 갖는
와 계층에서 W_i _,k이전 단어 k개의 집합 다음에 W_i _,k가 나올 확률을 갖는
을 곱셈연산을 통해 생성하는 음성 인식 방법.