KR100930714B1

KR100930714B1 - 음성인식 장치 및 방법

Info

Publication number: KR100930714B1
Application number: KR1020070130950A
Authority: KR
Inventors: 훈 정; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2007-12-14
Filing date: 2007-12-14
Publication date: 2009-12-09
Also published as: US20090157403A1; US8185393B2; KR20090063546A

Abstract

음성인식 장치는 상기 음성 신호에 대응하는 특징벡터열을 생성하고, 음소에 해당하는 음향 및 언어 모델을 이용하여 특징 벡터열에 대응하는 음소열을 인지한다. 그리고 음성인식 장치는 인지한 음소열에 대응하는 어휘를 인지한다. 이때 음소 언어모델은 음소들간의 연결관계를 나타내며 음소의 시변 특성에 따라 모델링한 것이다.

음성 인식, n-그램, 시변 특성, 편집거리

Description

음성인식 장치 및 방법{Apparatus and Method of Human Speech Recognition}

본 발명은 음성인식 장치 및 방법에 관한 것이다. 특히, 본 발명은 HSR(Human Speech Recognition) 방식의 음성인식에 관한 것이다.

본 발명은 정보통신부 및 정보통신연구진흥원의 IT신성장동력핵심기술개발사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: 2006-S-036-02, 과제명: 신성장동력산업용 대용량 대화형 분산 처리 음성인터페이스 기술개발].

음성인식(Speech Recognition)은 컴퓨터가 음향학적 신호(acoustic speech signal)을 텍스트(text)로 정렬시키는 기술이다. 즉, 마이크나 전화를 통하여 얻어진 음성 신호를 단어, 단어집합 또는 문장등으로 변환하는 것을 의미한다. 이와 같은 음성인식으로부터 얻어진 결과값은 기계에 대하여 명령, 제어, 데이터 입력, 문서 준비 등의 응용분야에서 사용될 수 있으며, 음성이해와 같은 분야에서 언어처리과정의 입력으로도 사용될 수 있다.

이와 같은 음성 인식에 대하여 인식대상이 되는 실제 단어와의 일치도가 높아질 수 있는 방법 및 실시간으로 인식가능하도록 음성 인식 속도를 향상시킬 수 있는 방법 등이 연구되고 있다.

본 발명이 이루고자 하는 기술적 과제는 기존의 HSR(Human Speech Recognition)에 비해 음성인식 성능 및 음성인식 속도를 향상시킬 수 있는 음성인식 장치 및 방법을 제공하는 것이다.

이와 같은 과제를 해결하기 위한 본 발명의 특징에 따른 음성신호로부터 어휘를 인식하는 방법은 상기 음성 신호에 대응하는 특징벡터열을 생성하는 단계; 음소들간의 연결관계를 나타내며 임의의 어휘에서 음소 각각이 배열되는 위치를 고려하여 모델링한 음소 언어모델을 이용하여, 상기 특징벡터열에 대응하는 음소열을 인지하는 단계 및 상기 음소열에 대응하는 어휘를 인지하는 단계를 포함한다.

상기 음소 언어모델은 임의의 시간에 인지되는 복수의 음소 각각에 대하여, 이전 (n-1)개의 음소를 인식한 상태에서 상기 복수의 음소 중 어느 하나의 음소를 인식하는 경우의 확률이다.

상기 음소열을 인지하는 단계는 복수의 음소 각각으로부터 도출되는 특징 벡터열을 관측하는 경우의 확률인 음소조건을 이용하여 상기 음소열을 인지하는 단계를 포함한다. 그리고 상기 음소열을 인지하는 단계는 상기 음소조건 및 상기 음소 언어 모델로부터 상기 특징 벡터열과 최대 사후 확률이 되도록 하는 음소열을 인지하는 단계를 더 포함한다.

상기 어휘를 인지하는 단계는 임의의 어휘의 발생 횟수를 나타내는 어휘조 건, 상기 임의의 어휘를 발음 변환한 비교음소열 및 편집 거리로부터 상기 음소열과 최대 사후확률이 되도록 하는 비교어휘를 검색하는 단계를 포함한다. 여기서 상기 어휘를 인지하는 단계는 상기 비교음소열의 음소 각각과 상기 음소열의 음소 각각에 의한 탐색 공간에서 상기 편집거리를 인지하는 단계를 더 포함한다. 또한 상기 어휘를 인지하는 단계는 상기 비교음소열을 연속하는 복수의 연결음소로 구분하는 단계; 상기 음소열을 연속하는 복수의 연결음소로 구분하는 단계; 상기 비교 음소열의 연결음소 각각과 상기 음소열의 연결음소 각각에 의한 탐색 공간에서 상기 편집거리를 인지하는 단계를 더 포함한다. 이때 상기 복수의 연결음소는 적어도 한 개의 모음을 포함한다.

본 발명의 다른 특징에 따른 음성신호로부터 어휘를 인식하는 장치는 상기 음성신호에 대응하는 특징벡터열을 생성하는 특징벡터열 생성부; 음소들간의 연결관계를 나타내며 임의의 어휘에서 음소 각각이 배열되는 위치를 고려하여 모델링한 음소 언어모델을 이용하여 상기 특징벡터열에 대응하는 음소열을 도출하는 음소인식부 및 상기 음소열에 대응하는 어휘를 도출하는 어휘인식부를 포함한다.

상기 음소 언어모델은 임의의 시간에 인지되는 복수의 음소 각각에 대하여 이전 (n-1)개의 음소를 인식한 상태에서 상기 복수의 음소 중 어느 하나의 음소를 인식하는 경우의 확률이다.

상기 음소 인식부는 복수의 음소 각각으로부터 임의의 특징벡터열을 관측하는 경우의 확률과 상기 음소 언어모델을 이용하여 상기 특징벡터열과 최대 사후확률이 되도록 하는 음소열을 인지한다.

상기 어휘 인식부는 임의의 어휘의 발생 횟수를 나타내는 어휘조건, 상기 임의의 어휘를 발음 변환한 비교 음소열, 상기 비교 음소열과 상기 음소열의 편집거리를 이용하여 상기 음소열과 최대 사후확률이 되도록 하는 어휘를 도출한다. 여기서 상기 어휘 인식부는 상기 비교 음소열의 음소 각각과 상기 음소열의 음소 각각에 의한 탐색 공간에서 상기 편집 거리를 인지한다.

또한 상기 어휘 인식부는 상기 비교 음소열을 분할한 복수의 연결 음소 각각과 상기 음소열을 분할한 복수의 연결 음소 각각에 의한 탐색 공간에서 상기 편집 거리를 인지한다. 이때 상기 연결 음소는 적어도 한 개의 모음을 포함한다.

본 발명에 따르면, 더욱 정교하게 모델링한 음소 언어모델을 이용하여 음소 디코딩을 수행하므로, 실제 영역과의 일치도가 향상될 수 있다. 또한 음절 단위의 어휘 디코딩을 수행하므로 음성 인식 속도를 향상시킬 수 있다.

아래에서는 첨부한 도면을 참고로 하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.

명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부", "…기", "모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

기계 장치에 의해 음성을 인식하는 기술은 ASR(Automatic Speech Recognition)방식 또는 HSR (Human Speech Recognition)방식 등이 있다. 본 발명은 본 발명에서는 HSR 방식의 음성인식에서 인식 성능 및 속도를 향상시키기 위한 방법에 관한 것이다.

이하에서는 본 발명의 실시예에 따른 음성인식 장치 및 방법을 첨부한 도면을 참고하여 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 음성인식 장치의 블록도를 나타낸 도면이다.

도 1에 도시한 바와 같이, 본 발명의 실시예에 따른 음성인식 장치는 특징벡터열 생성부(100), 음소 인식부(200) 및 어휘 인식부(300)를 포함한다.

도 2는 본 발명의 실시예에 따른 음성인식 장치의 순서도를 나타낸 도면이다.

도 2에 도시한 바와 같이, 특징 벡터열 생성부(100)는 음성 신호를 입력받아서(S100), 시간 영역의 음성신호를 주파수 영역으로 변환하고, 음성 신호의 분석에 적절하도록 변형된 음성신호의 주파수 스펙트럼에 대한 특징 벡터의 집합인 특징 벡터열을 생성한다(S200).

음소 인식부(200)는 특징 벡터열에 대응하는 음소열을 인지한다(S300). 수학식 1은 음소열을 인지하는 과정을 나타낸 수식이다.

수학식 1에서, P^*는 음소 인식부(200)가 특징벡터열에 대응하는 것으로 인지한 음소열로써, 소정의 오류를 포함한 상태이다. X는 특징 벡터열을 의미한다. 수학식 1에 나타낸 바와 같이, 음소 인식부(100)는 특징 벡터열(X)에 대응하여 최대 사후확률을 나타내는 음소열(P)을 검색한다. 그런데 음성 신호는 사람의 발음 특성에 따라 매우 복잡하게 나타나므로, Pr(P|X)는 매우 많은 경우의 수로 발생된다. 따라서 특징 벡터열(X)과 임의의 음소열(P)의 최대 사후 확률을 계산하는 것은 매우 어려운 일이다. 이에 따라 아래의 수학식 2에 나타낸 바와 같이, 수학식 1을 근사화하여 음소열을 인식한다.

수학식 2에서, P는 P^*과 동일한 인지한 음소열을 나타낸다. 그리고 Pr(X|P)는 음소열(P)가 특징 벡터열(X)로 관측되는 경우의 확률(이하, "음소 조건"이라 함)을 나타낸다. 여기서 음소 조건은 hidden Markov model을 이용하여 모델링할 수 있다. 그리고 Pr(P)는 어휘를 구성하는 음소들간의 통계적 출현횟수로써, 음소들간의 연결관계에 대한 확률값(이하, "음소 언어모델"이라 함)을 나타낸다.

수학식 3은 음소 언어모델을 나타내는 식이다.

수학식 3에서, 조건부 확률(Pr(p_i|p_i-1,p_i-2,…p₁))을 모두 추정하는 것은 매우 어려운 일이다. 이에 따라 현재의 음소가 이전(또는, 과거) (n-1)개의 음소에 의해서만 영향을 받는다고 가정하여, 음소 언어모델을 수학식 4와 같이 근사화할 수 있다.

수학식 4에 나타낸 음소 언어모델은 n개만의 음소 사이의 연결관계를 나타낸 것이므로 이하에서 n-그램으로 지칭한다. 수학식 4에서, n은 2 또는 3이 될 수 있다. 즉, n이 2인 경우, n-그램은 이전 1개의 음소가 도출된 상태에서 해당 음소가 도출될 확률을 음소 각각에 대하여 정의한 것을 의미한다. 또는, n이 3인 경우, n- 그램은 이전 2개의 음소가 도출된 상태에서 해당 음소가 도출될 확률을 음소 각각에 대하여 정의한 것을 의미한다.

다음, 도 2에 도시한 바와 같이, 어휘 인식부(300)는 음소열에 대응하는 어휘를 인지한다(S400). 수학식 5는 어휘의 인지 과정을 나타내는 수식이다.

수학식 5에 나타낸 바와 같이, 어휘 인식부(300)는 음소 인식부(200)의 출력 신호인 음소열(P^*)에 대해 최대 사후확률을 가지는 어휘(W)를 검색한다. 그런데 Pr(W|P^*)는 매우 많은 경우의 수로 발생되므로, 음소열(P^*)과 임의의 어휘(W)의 최대 사후 확률을 계산하는 것은 매우 어려운 일이다. 따라서, 수학식 5는 아래의 수학식 6과 같이 근사화될 수 있다.

수학식 6에서, C는 발음 규칙 또는 발음 사전을 이용하여 어휘(W)를 발음 변환한 음소열을 나타낸다. Pr(P^*|C)는 음소열(C)의 음성 신호가 음소열(P^*)로 인식되는 경우의 확률(이하, "편집거리"라 함)을 의미하고, P(C|W)는 어휘(W)가 음소열(C)로 변환되는 경우의 확률을 나타내며, P(W)는 어휘(W)의 발생 횟수를 나타내 는 어휘조건을 나타낸다.

한편, 수학식 6에서, 편집거리는 아래의 수학식 7로 나타낼 수 있다.

수학식 7에 나타낸 바와 같이 편집거리는 c₁, c₂, …, c_N으로 구성되는 음소열(C)가 p^* ₁, p^* ₂, …, p^* _M으로 구성되는 음소열(P^*)로 인식되는 경우의 확률을 의미한다. 이와 같은 편집거리(Pr(P^*|C))는 매우 많은 경우의 수로 발생되므로, 직접 계산하는 것은 현실적으로 불가능하다. 따라서 음소들간의 오류는 서로 독립한다고 가정하여 수학식 7은 아래의 수학식 8과 같이 근사화할 수 있다.

수학식 8에 나타낸 바와 같이, 편집거리(Pr(P^*|C))는 음소열(C)의 음소(c_i)에 대하여 음소열(P^*)의 음소(p^* _i)로 인식되는 경우 각각의 확률을 곱한 값으로 나타낼 수 있다. 이때, 음소열(C)와 음소열(P^*) 중에서 최소 누적거리를 갖는 음소(c_i)와 음소(p^* _i) 사이의 확률을 구한다.

최소 누적거리는 음소열(P^*)과 음소열(C)에 의해 구성되는 탐색 공간에서 동적 프로그램을 이용하여 검색한다.

도 3은 본 발명의 제1 실시예에 따른 탐색 공간의 예시를 나타낸 도면이다. 도 3은 음소열(C="greater")의 음성 신호에 대하여 음소 인식부(200)가 오류를 포함하는 음소열(P^*="header")를 출력한 경우를 예시로 나타낸 것이다.

제1 실시예에 따르면, 음소열(P^*)과 음소열(C)의 탐색 공간은 음소 단위로 구성된다.

즉, 도 3에 나타낸 바와 같이, 음소열(P^*="header")과 음소열(C="greater")의 탐색 공간은 7(NULL, h, e, a, d, e, r)x7(g, r, e, a, t, e, r)에 해당하는 42개의 탐색점를 포함한다.

이와 같은 음소열(P^*)와 음소열(C)의 탐색 공간에서 최소 누적거리가 되도록 탐색점을 연결한다. 이때, 최소 누적거리를 구성하는 탐색점들의 연결을 최적의 탐색 노드라 지칭한다.

도 4는 본 발명의 제1 실시예에 따른 도 3의 탐색 공간에 대하여 일부의 탐색 노드를 나타낸 도면이다.

도 4에 도시한 바와 같이, 음소열(P^*)의 음소(d, e, r)과 음소열(C)의 음소(t, e, r)사이의 탐색 공간에서 서로 다른 16개의 탐색 노드가 존재한다. 즉, 음 소(t)와 음소(d)의 탐색점과 연결되는 탐색노드(1), 탐색노드(3), 탐색노드(4) 중에서 최소 누적거리를 갖는 탐색 노드를 검색한다. 그리고 탐색노드(4)가 최소 누적거리인 경우, 탐색노드(4)를 통해 음소(e)와 음소(e)의 탐색점이 선택되며, 음소(e)와 음소(e)의 탐색점과 연결되는 탐색노드(9), 탐색노드(12), 탐색노드(13) 중에서 최소 누적거리를 갖는 탐색 노드를 검색한다.

음소열(P^*)와 음소열(C)의 탐색 공간에서 최소 누적거리는 아래의 수학식 9와 같이 계산할 수 있다.

수학식 9에서, Q(x,y)는 최소 누적거리를 나타내며, C(c_x,t_y)는 음소(c_x)가 음소(t_y)으로 대체 오류가 발생한 경우에 대한 코스트(cost)함수를 나타낸다. 그리고 C(c_x,e)는 음소(c_x)에 대해 삭제 오류가 발생한 경우의 코스트 함수를 나타내고, C(e,t_y)는 음소(t_y)의 삽입 오류가 발생한 경우의 코스트 함수를 나타낸다.

대체 오류, 삭제 오류 및 삽입 오류 각각의 코스트 함수는, 음소열(P^*)의 음소 각각과 음소열(C)의 음소 각각 사이의 오류 확률로써, 아래의 수학식 10과 같이 나타낼 수 있다.

수학식 10에 나타낸 바와 같이, 코스트 함수 각각은 Pr(p^* _i|c_i)에 대한 음의 로그함수로 나타낼 수 있다.

이상과 같이, 최적의 탐색 노드를 구성하는 탐색 노드를 검색한 후, 수학식 8에 나타낸 바와 같이, 최소 누적거리를 갖는 음소(p^* _i)와 음소(c_i)의 확률을 계산하여 음소열(P^*)와 음소열(C)의 편집거리를 계산한다.

도 5는 본 발명의 제1 실시예에 따른 도 3의 예시에서의 편집 거리를 나타낸 도면이다.

도 5에 나타낸 바와 같이, 편집거리(Pr(P^*|C))는 수학식 7을 이용하여, P(Null|g)*P(h|r)*P(e|e)*P(a|a)*P(d|t)*P(e|e)*P(r|r)으로 계산할 수 있다.

여기서 확률값을 계산하는 음소열(P^*)의 음소와 음소열(C)의 음소의 조합 각각은 최적의 탐색 노드를 구성하는 탐색점들이다.

이상과 같이, 제1 실시예에 따르면 음소열(P^*)과 음소열(C)에 의해 음소 단위로 구성되는 탐색 공간에서 최소 누적거리를 구성하는 탐색점의 확률값을 계산함 으로써 편집거리를 계산한다.

한편, 도 5 및 수학식 9에 나타낸 바와 같이, 최적의 탐색 노드를 구하기 위하여, 음소열(C)와 음소열(P^*)에 의한 탐색 공간에서 한 개의 탐색점에 대응하여 3개의 탐색 노드가 발생하고, 3개의 탐색 노드 중 최소 누적거리를 갖는 탐색 노드를 검색한다. 이에 따라 탐색 공간의 탐색점을 감소시키면 누적 거리를 계산하는 횟수를 감소시킬 수 있다.

본 발명의 제2 실시예에 따르면, 연속하는 두 개의 음소들로 구성되는 연결음소 단위로 독립적인 오류가 발생한다고 가정하여 수학식 7의 편집 거리를 아래의 수학식 11과 같이 근사화할 수 있다.

수학식 11에 나타낸 바와 같이, 제2 실시예에 따르면, 편집거리는 음소열(C)의 연결음소(c_i-1, c_i)에 대하여 음소열(P^*)의 연결음소(p^* _i-1, p^* _i)로 인식되는 경우 각각의 확률을 곱한 값으로 나타낼 수 있다.

또는, 연속하는 세 개의 음소들로 구성되는 연결음소 단위로 독립적인 오류가 발생한다고 가정하여 수학식 7의 편집거리를 아래의 수학식 12와 같이 근사화할 수 있다.

수학식 12에 나타낸 바와 같이, 제2 실시예에 따르면, 편집거리는 음소열(C)의 연결음소(c_i-2, c_i-1, c_i)에 대하여 음소열(P^*)의 연결음소(p^* _i-2, p^* _i-1, p^* _i)로 인식되는 경우 각각의 확률을 곱한 값으로 나타낼 수도 있다.

이하의 설명에서는, 음소열(P^*) 및 음소열(C)가 연속하는 세 개의 음소들로 구성되는 연결 음소 단위로 분할된다고 가정한다. 이때 연결 음소를 구성하는 음소 중 NULL이 있을 수 있다. NULL 음소는 소리가 발생하지 않는다고 가정한 가상의 음소로 음소의 추가 및 삭제오류를 표현하기 위해 사용된다.

제2 실시예에 따르면, 최적의 탐색 노드를 구하기 위한 음소열(C)와 음소열(P)의 탐색 공간에서 한 개 이상의 음소를 포함하는 연결음소 단위로 탐색점을 설정한다.

도 6은 본 발명의 제2 실시예에 따른 탐색 공간의 예시를 나타낸 도면이다.

도 6은 도 3에서와 마찬가지로 음소열(C="greater")의 음성 신호에 대하여 음소 인식부(200)가 오류를 포함하는 음소열(P^*="header")를 출력한 경우를 예시로 나타낸 것이다.

음소열(P^*="header")은 연결음소(h e NULL), 연결음소(NULL NULL a), 연결음 소(d e r)으로 구분할 수 있고, 음소열(C="greater")은 연결음소(g r e), 연결음소(NULL NULL a), 연결음소(t e r)으로 구분할 수 있다.

이에 따라 도 6에 도시한 바와 같이, 제2 실시예에 따른 음소열(C)와 음소열(P^*)에 의한 탐색 공간은 연결 음소 단위의 탐색점으로 구성되며, 3x3에 해당하는 9개의 탐색점을 포함한다.

동일 예시인 도 3과 도 6을 비교해보면, 도 3의 탐색 공간은 42개의 탐색점으로 구성되고 도 6의 탐색 공간은 9개의 탐색점으로 구성되므로, 도 6의 탐색 공간은 도 3의 탐색 공간에 비해 약 1/5으로 감소되는 것을 확인할 수 있다.

한편, 제2 실시예에 따른 연결음소 단위의 탐색 공간을 이용하는 경우, 제1 실시예에 따른 탐색 공간을 이용하는 경우보다 최적의 탐색노드를 구하지 못할 가능성이 있다.

도 7은 본 발명의 제2 실시예에 따른 도 6의 탐색 공간에서 일부의 탐색 노드를 나타낸 도면이다.

도 7에 도시한 바와 같이, 음소열(C)의 연결음소(t e r) 과 음소열(P^*)의 연결음소(d e r) 에 의한 탐색점에 의해 2개의 탐색 노드가 발생하며, 이와 같은 2개의 탐색 노드 중에서 최소 누적거리를 갖는 탐색 노드를 검색한다.

반면, 도 4를 살펴보면, 음소열(C)의 음소(t e r) 과 음소열(P^*)의 음소(d e r) 에 의한 9개의 탐색점에 의해 16개의 서로 다른 탐색 노드가 발생하며, 이와 같은 16개의 탐색 노드 중에서 최적의 탐색 노드를 구하게 된다.

즉, 제2 실시예에 따르면, 연결 음소를 구성하는 음소사이에서는 선형 매칭을 수행하고, 연결 음소와 연결음소 사이에서는 동적 매칭을 수행한다. 반면 제1 실시예에 따르면, 음소와 음소 사이의 모든 경우에서 동적 매칭을 수행한다. 이에 따라 제2 실시예는 제1 실시예에 비해 최적의 편집거리를 구하지 못할 수 있으므로 어휘 인식 성능의 저하가 발생할 수 있다.

이와 같은 어휘 인식 성능의 저하를 방지하기 위하여, 제2 실시예에 따르면, 음소열을 연결 음소로 구분함에 있어서, 음성학적인 정보를 이용한 제약을 설정한다.

즉, 단어는 음소의 결합으로 이루어지는 반면, 소리는 음절을 기준으로 발성한다. 여기서 음절은 하나의 모음과 앞뒤의 자음이 연속한 음소열을 의미한다. 즉, 음절 규칙이 반영되어 하나의 모음을 기준으로 앞뒤에 자음이 연동되는 발성을 통해 음성 신호가 생성된다.

이와 같은 음성학적인 정보에 따라, 연결 음소를 구성하는 음소는 반드시 한 개의 모음 음소를 포함해야만 한다. 즉, 수학식 12에서, 음소열(P^*)의 연결음소를 구성하는 음소(p^* _i-2), 음소(p^* _i-1) 및 음소(p^* _i) 중 적어도 한 개의 음소는 모음이어야 하며, 음소열(C)의 연결음소를 구성하는 음소(c_i-2), 음소(c_i-1) 및 음소(c_i) 중 적어도 한 개의 음소는 모음이어야 한다. 또한 수학식 11에서, 수학식 12와 마찬가지로 음소열(P^*)의 연결음소를 구성하는 음소(p^* _i-1) 및 음소(p^* _i) 중 적어도 한 개의 음소는 모음이어야 하고, 음소열(C)의 연결음소를 구성하는 음소(c_i-1) 및 음소(c_i) 중 적어도 한 개의 음소는 모음이어야 한다.

이와 같이 하면, 음성 인식의 어휘 인식 과정에서 중요한 정보를 나타내는 모음끼리는 정렬을 맞출 수 있으므로, 어휘 인식 성능의 저하를 방지할 수 있다.

이상과 같이, 본 발명의 제2 실시예에 따르면, 두 개 이상의 음소로 구성된 연결 음소 단위로 탐색 공간의 탐색점을 구성함으로써, 어휘 인식 속도를 향상시킬 수 있다. 또한 연결음소는 반드시 모음을 포함함으로써, 탐색점의 감소로 인한 어휘 인식 성능의 저하를 방지할 수 있다.

한편, 음소와 음소가 연속할 경우에 대한 확률인 음소전이 확률은 연속하는 음소간의 경계에서 발생된다. 그리고 서로 다른 음소간의 경계에서는 서로 다른 음소전이 확률이 발생된다. 예를 들면 제1 음소와 제2 음소 사이의 음소전이 확률은 제2 음소와 제3 음소 사이의 음소전이 확률과 다르게 발생된다. 또한 제1 음소와 제2 음소 사이의 음소전이 확률이라 할지라도, 임의의 어휘에서 제2 음소가 배열된 위치에 의해 음소전이 확률은 다르게 발생된다.

도 8은 본 발명의 제3 실시예를 설명하기 위한 음소전이 확률의 예시를 나타낸 도면이다.

이상과 같이, 동일한 음소전이 확률이라도 해당 음소가 음소열에서 어느 위치에 존재하느냐에 따라 다른 값으로 나타날 수 있으므로, 본 발명의 제3 실시예에 따르면, 음소의 시간에 대한 변수에 따라 음소 언어모델을 다르게 모델링한다. 그리고, 음소 인식부(200)는 임의의 어휘에서 해당 음소의 위치를 나타내는 변수(이하 "위치 변수"이라고 함)를 고려하여 모델링한 음소 언어모델을 이용하여 음소열을 인지한다.

제3 실시예에 따르면, 수학식 3은 아래의 수학식 13과 같이 근사화할 수 있다.

수학식 13에 나타낸 바와 같이, 제3 실시예에 따르면, 음소 언어모델(Pr(p₁,…p_t))은 위치변수(i-n)을 고려하여 설계한다.

도 9는 본 발명의 제3 실시예에 따른 음소 언어모델의 적용 예시를 나타낸 도면이다. 도 9는 n이 2인 n-그램을 나타낸 것이다.

도 9에 도시한 바와 같이, 이전 음소가 검출되지 않은 상태에서 음소 인식 부(200)는 수학식 2에 n-그램(910, Pr(p_i|p_i-1,1))을 적용하여 음소열에 첫번째 위치한 음소를 검출한다. 다음, 첫번째 음소를 검출한 상태에서 음소 인식부(200)는 수학식 2에 n-그램(920, Pr(p_i|p_i-1,2))을 적용하여 음소열에 두번째 위치한 음소를 검출한다. 그리고 두번째 음소를 검출한 상태에서 음소 인식부(200)는 수학식 2에 n-그램(930, Pr(p_i|p_i-1,3))을 적용하여 음소열에 세번째 위치한 음소를 검출한다. 이와 마찬가지로 (N-1)개의 음소를 검출한 상태에서 음소 인식부(200)는 수학식 3에 n-그램(940, Pr(p_i|p_i-1,N))을 적용하여 음소열에 N번째 위치한 음소를 검출한다.

이상과 같이, 제3 실시예에 따르면 위치 변수(i-n)를 고려하여 모델링한 시변특성을 갖는 음소 언어모델을 이용하여 음소열을 인지한다. 이에 따라 음소 인식부(200)가 음소열을 인지함에 있어서, 임의의 어휘에서 해당 음소의 위치에 따라 가변하는 음소 전이 확률을 반영할 수 있다. 따라서 더욱 정확하게 음소열을 인지할 수 있으므로 음성 인식의 성능이 향상될 수 있다.

이상에서 설명한 본 발명의 실시예는 장치 및 방법을 통해서만 구현이 되는 것은 아니며, 본 발명의 실시예의 구성에 대응하는 기능을 실현하는 프로그램 또는 그 프로그램이 기록된 기록 매체를 통해 구현될 수도 있으며, 이러한 구현은 앞서 설명한 실시예의 기재로부터 본 발명이 속하는 기술분야의 전문가라면 쉽게 구현할 수 있는 것이다.

이상에서 본 발명의 실시예에 대하여 상세하게 설명하였지만 본 발명의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 발명의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 발명의 권리범위에 속하는 것이다.

도 2는 본 발명의 실시예에 따른 음성인식 방법의 순서도를 나타낸 도면이다.

도 3은 본 발명의 제1 실시예에 따른 탐색 공간의 예시를 나타낸 도면이다.

도 9는 본 발명의 제3 실시예에 따른 음소 언어모델의 적용 예시를 나타낸 도면이다.

Claims

음성신호로부터 어휘를 인식하는 방법에 있어서,

상기 음성신호에 대응하는 특징벡터열을 생성하는 단계;

각 음소가 임의의 어휘에서 배열되는 위치에 따라 가변되는 음소 전이 확률이 반영된 음소 언어모델을 이용하여 상기 특징벡터열에 대응하는 음소열을 인지하는 단계 및

상기 음소열에 대응하는 어휘를 인지하는 단계

를 포함하는 음성 인식 방법.
제1항에 있어서,

상기 음소 언어모델은

임의의 시간에 인지되는 각 음소가 적어도 하나의 이전 음소에 이어 도출될 확률을 정의한 것인 음성인식 방법.
제1항에 있어서,

상기 특징벡터열에 대응하는 음소열을 인지하는 단계는,

각 음소로부터 임의의 특징벡터열이 관측될 확률에 해당하는 음소조건을 이용하여 상기 음소열을 인지하는 단계

를 포함하는 음성인식 방법.
제3항에 있어서,

상기 특징벡터열에 대응하는 음소열을 인지하는 단계는,

상기 음소조건 및 상기 음소 언어모델을 이용하여 상기 음성신호에 대응하는 특징베터열에 대해 최대 사후 확률을 보이는 상기 음소열을 인지하는 단계

를 더 포함하는 음성인식 방법.
제1항에 있어서,

상기 어휘를 인지하는 단계는,

복수의 어휘 각각에 대한 어휘 발생 횟수에 해당하는 어휘조건, 상기 복수의 어휘 각각을 발음 변환한 복수의 비교음소열 및 편집 거리를 토대로 상기 음소열과 최대 사후 확률을 보이는 비교어휘를 상기 복수의 어휘 중에서 검색하는 단계

를 포함하는 음성인식 방법.
제5항에 있어서,

상기 어휘를 인지하는 단계는,

상기 비교음소열에 포함된 각 음소와 상기 음소열에 포함된 각 음소에 의한 탐색 공간에서 상기 편집거리를 인지하는 단계

를 더 포함하는 음성인식 방법.
제5항에 있어서,

상기 어휘를 인지하는 단계는,

상기 비교음소열을 연속하는 복수의 연결음소로 구분하는 단계;

상기 음소열을 연속하는 복수의 연결음소로 구분하는 단계; 및

상기 비교음소열에 포함된 각 연결음소와 상기 음소열에 포함된 각 연결음소에 의한 탐색 공간에서 상기 편집거리를 인지하는 단계

를 더 포함하는 음성인식 방법.
제7항에 있어서,

상기 비교음소열 및 상기 음소열에 포함된 각 연결음소는 적어도 한 개의 모음을 포함하는 음성인식 방법.
음성신호로부터 어휘를 인식하는 장치에 있어서,

상기 음성신호에 대응하는 특징벡터열을 생성하는 특징벡터열 생성부;

각 음소가 임의의 어휘에서 배열되는 위치에 따라 가변되는 음소 전이 확률이 반영된 음소 언어모델을 이용하여 상기 특징벡터열에 대응하는 음소열을 인지하는 음소인식부 및

상기 음소열에 대응하는 어휘를 인지하는 어휘인식부

를 포함하는 음성인식 장치.
제9항에 있어서,

상기 음소 언어모델은 임의의 시간에 인지되는 각 음소가 이전 (n-1)개의 음소가 인지된 상태에서 인지될 확률을 나타내며, 상기 n은 자연수인 음성인식 장치.
제9항에 있어서,

상기 음소 인식부는,

각 음소로부터 임의의 특징벡터열이 관측될 확률과 상기 음소 언어모델을 이용하여 상기 음성신호에 대응하는 특징벡터열과 최대 사후 확률이 되는 상기 음소열을 인지하는 음성인식 장치.
제9항에 있어서,

상기 어휘 인식부는,

복수의 어휘 각각에 대한 어휘 발생 횟수에 해당하는 어휘조건, 상기 복수의 어휘 각각을 발음 변환한 복수의 비교음소열 및 편집 거리를 토대로 상기 음소열과 최대 사후 확률을 보이는 어휘를 상기 음소열에 대응하는 어휘로 인지하는 음성인식 장치.
제12항에 있어서,

상기 어휘 인식부는,

상기 비교음소열 및 상기 음소열에 포함된 음소 각각에 의한 탐색 공간에서 상기 편집 거리를 인지하는 음성인식 장치.
제12항에 있어서,

상기 어휘 인식부는

상기 비교음소열 및 상기 음소열을 분할한 복수의 연결음소 각각에 의한 탐색 공간에서 상기 편집 거리를 인지하는 음성인식 장치.
제14항에 있어서,

상기 연결음소는 적어도 한 개의 모음을 포함하는 음성인식 장치.