KR20130011574A

KR20130011574A - 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법

Info

Publication number: KR20130011574A
Application number: KR1020110072813A
Authority: KR
Inventors: 정의석; 이윤근; 송화전; 전형배; 정호영
Original assignee: 한국전자통신연구원
Priority date: 2011-07-22
Filing date: 2011-07-22
Publication date: 2013-01-30
Also published as: KR101444409B1

Abstract

음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법이 제시된다. 제시된 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.

Description

한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법{APPARATUS FOR RESCORING A CONFUSION NETWORK FOR CONTINUOUS VOICE RECOGNITION OF KOREAN, AND METHOD FOR GENERATING AND RESCORING A CONFUSION NETWORK USING THE SAME}

본 발명은 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법에 관한 것으로, 더욱 상세하게는 한국어 연속어 음성 인식기에서 생성된 워드 래티스를 컨퓨젼 네트워크로 효과적으로 변형하고, 컨퓨젼 네트워크를 기반으로 리스코어링하는 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법에 관한 것이다.

음성인식(Voice Recognition) 기술은 입력 음성신호를 음성신호처리 기술에 의해 문자열로 변환하는 기술로서, 음성합성과 더불어 음성신호처리의 가장 핵심적인 기술 분야 가운데 하나이다. 음성인식 기술은 수십 단어 규모의 독립적으로 발성된 단어를 인식하는 고립 단어 인식에서부터 연속 단어 인식, 연속적인 문장에서 핵심어만 검출하고 인식하는 핵심어 검출(keyword spotting), 그리고 문장단위의 발화를 인식하는 연속음성인식 등으로 발전되어 왔으며, 최근에는 사람과 사람 사이의 자연스럽게 발성하는 대화체 음성을 인식할 수 있도록 하는 대화체 인식 기술이 활발히 연구되고 있다.

일반적인 음성인식 방법에서는 음성신호를 주파수분석 또는 선형예측분석을 통한 변환처리를 통해 십수차원의 특징벡터(feature vector)계열로 변환한다. 변환된 특징벡터를 근거로 음성의 대략적인 특징을 이용하여 음성신호를 일정한 물리적 성질을 지닌 부분으로 분할하고, 각 구간을 각각 하나의 단위로 하여 모음 및 자음을 인식한다. 이때, 음운인식의 결과를 1차원적인 음운 기호 열로 나타내기는 곤란하므로, 몇몇 가능성을 남긴 음운 래티스(phoneme lattice)로 변환한다. 단어의 음형(音形；音韻變形)이 기술되어 있는 단어사전을 이용하여 음운 래티스를 단어 래티스(Word Lattice)로 변환한다.

이때, 음성인식 결과로 생성된 단어 래티스(Word Lattice)는 그 복잡성으로 인해 n-best 추출 이외의 용도로 활용되기는 쉽지 않다. 따라서, 그 형태를 변형하여 접근하여야 하는데, 그 방법 중 하나가 컨퓨젼 네트워크(Confusion Network)가 될 수 있다. 컨퓨젼 네트워크는 워드 래티스의 모든 패스를 포함하고, 인식 워드 별 n-best 도출을 가능하게 해주는 형태로, 워드 래티스로부터 휴리스틱 접근 방법으로 유도될 수 있다. 컨퓨젼 네트워크를 이용한 음성인식 방법의 예로는 2000년에 논문 발표된 "Finding consensus in speech recognition: word error minimization and other applications of confusion networks,"(Lidia Mangu, Eric Brill, Andreas Stolcke, Computer Speech and Language, vol. 14(4), pp. 373-400, 2000., 이하, 종래기술)이 있다.

종래기술에서는 WER(word error rate)에 기반한 평가 기준과 MAP 디코딩 접근 방법의 간극을 채우고자, 워드 래티스로부터 최상위 사후 확률을 갖는 워드 셋의 시퀀스를 추출하는 시도를 하였고, 워드 래티스의 단순화된 형태인 워드 단위 컨퓨젼들의 시퀀스를 생성하여, WER 성능 향상시킨다. 이때, 래티스를 컨퓨젼 네트워크로 변환과정은 래티스 상에서의 링크의 순서를 유지하며, 구성 어휘의 발음 유사성과 어휘 확률에 기반한 시간 중복 링크들의 클러스터링 작업으로 진행된다.

하지만, 종래기술에서는 래티스를 컨퓨젼 네트워크로 변환하는 과정에서 래티스 상에서의 링크 순서를 유지하면서 시간 중복 링크들의 클러스터링을 수행하기 때문에 생산속도가 저하되고, 유실되는 정보량이 증가하는 문제점이 있다.

본 발명은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정하여 컨퓨젼 네트워크의 생성 속도를 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법을 제공함에 있다.

본 발명의 다른 목적은 래티스 구조에서 변환된 컨퓨젼 네트워크 및 다양한 언어정보를 이용한 후처리 과정을 통해 음성인식 성능을 향상시키도록 한 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법을 제공함에 있다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법은, 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계; 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계; 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계; 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함한다.

사후 확률을 연산하는 단계에서는, 각 래티스에 포함된 링크를 지나가는 모든 패스 확률의 합을 산출하고, 전체 패스의 확률로 정규화한다.

동치류로 할당하는 단계는, 컨퓨젼 네트워크 리스코어링 장치는첫 번째 노드 n₀를 첫 번째 동치류 N₀로 할당하는 단계; 다음 노드 n_i와 다음 동치류 N_j의 링크가 존재하면 래티스의 i번째 노드(n_i)를 j+1번째 동치류(N_j+1)로 할당하는 단계; 및 다음 노드 n_i와 다음 동치류 N_j의 링크가 존재하지 않으면 래티스의 i번째 노드(n_i)를 i번째 동치류(N_i)로 할당하는 단계를 포함한다.

컨퓨젼 세트를 생성하는 단계에서는, 래티스에 포함된 링크의 선행노드와 후행노드가 속한 동치류의 일련 번호에 따라 링크를 컨퓨젼 세트로 분류한다.

컨퓨젼 세트를 생성하는 단계에서는, 대용량의 SLF파일의 경우 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 컨퓨젼 세트에 포함된 링크의 확률(P(a))이 기준값(th) 이상되는 링크들만 유사도 확률을 구성한다.

컨퓨젼 세트를 생성하는 단계는, 분류된 컨퓨젼 세트의 링크 확률값을 정규화하는 단계; 및 널 링크를 추가한 후에 정규화된 값의 나머지 확률값을 할당하는 단계를 포함한다.

컨퓨젼 세트를 생성하는 단계에서는, 널 링크의 확률값이 다른 링크의 확률값을 초과하면 해당 컨퓨젼 세트를 음성인식 결과에서 배제한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 리스코어링 방법은, 래티스 파일을 로드하는 단계; 래티스 파일을 이용하여 컨퓨젼 네트워크를 생성하는 단계; 생성된 컨퓨젼 네트워크를 근거로 청크 단위 컨퓨젼 네트워크를 생성하는 단계; 및 생성된 청크 단위 컨퓨젼 네트워크를 이용하여 의존관계/공기 정보 기반 리스코어링을 수행하는 단계를 포함한다.

청크 단위 컨퓨젼 네트워크를 생성하는 단계는, 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용하여 출력하는 단계; 어절 통합 규칙을 적용하여 컨퓨젼 세트들을 어절 단위로 통합하는 단계; 및 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성하는 단계를 포함한다.

리스코어링을 수행하는 단계는, 어절 단위로 확장된 컨퓨젼 네트워크를 입력받는 단계; 입력된 컨퓨젼 네트워크를 근거로 컨퓨젼 세트 단위 의존 관계 및 어절의 컨텐츠 워드별 공기 관계를 파악하는 단계; 기존 사후 확률과 의존 관계에 의한 확률값 파악한 공기 관계에 의한 확률값을 통합하는 단계; 및 통합된 확률값을 적용하여 n-best를 추출하는 단계를 포함한다.

본 발명에 의하면, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정함으로써, 컨퓨젼 네트워크의 생성 속도를 향상시키고, 래티스 푸루닝(lattice pruning)을 통해 유실되는 정보량을 최소화할 수 있는 효과가 있다.

또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 컨퓨젼 네트워크의 생성 속도를 향상시켜 래티스 푸루닝 과정에서 유실되는 정보량을 최소화함으로써, 후처리 과정에 보다 많은 정보를 전달할 수 있는 효과가 있다.

또한, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 래티스 구조에서 변환된 컨퓨젼 네트워크 및 다양한 언어정보를 이용한 후처리를 수행함으로써, 컨퓨젼 네트워크의 활용도를 높이고, 다양한 언어지식 활용을 가능하게 하는 효과가 있다.

도 1은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 설명하기 위한 블록도.
도 2는 도 1의 컨퓨젼 네트워크를 설명하기 위한 도면.
도 3은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 설명하기 위한 도면.
도 4는 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 설명하기 위한 흐름도.
도 5는 도 4의 청크 단위 컨퓨젼 네트워크 생성 단계를 설명하기 위한 흐름도.
도 6은 도 4의 컨퓨젼 네트워크 리스코어링 단계를 설명하기 위한 흐름도.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 설명하기 위한 블록도이고, 도 2는 도 1의 컨퓨젼 네트워크를 설명하기 위한 도면이다.

도 1에 도시된 바와 같이, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치는 입력부(100), 저장부(200), 컨퓨젼 네트워크 생성부(300), 리스코어링부(400)를 포함하여 구성된다.

입력부(100)는 래티스를 입력받는다. 즉, 입력부(100)는 음성인식을 통해 감지된 음성신호를 변환처리하여 생성되는 단어 래티스를 입력받는다. 이때, 입력부(100)는 외부의 음성인식장치(미도시)에서 생성된 단어 래티스를 입력받거나, 자체에서 단어 래티스를 생성할 수도 있다.

저장부(200)는 입력부(100)를 통해 입력된 래티스를 저장한다. 즉, 저장부(200)는 음성인식에 따라 입력부(100)로 입력되는 복수의 단어 래티스를 저장한다.

컨퓨젼 네트워크 생성부(300)는 저장부(200)에 저장된 복수의 래티스에 대한 사후 확률을 연산한다. 즉, 컨퓨젼 네트워크 생성부는 래티스가 저장부(200)에 로드된 이후 래티스 상 각 링크의 사후　확률(posterior probability)을 연산한다. 이때, 컨퓨젼 네트워크 생성부는 해당 링크를 지나가는 모든 패스 확률의 합을 전체 패스의 확률로 정규화한다. 여기서, 도 2에 도시된 바와 같이, 래티스 파일은 HTK 표준 래티스 포맷(SLF; Standard Lattice Format)이다. 즉, 래티스 파일은 음성인식 결과를 그래프 형태로 기술한 것으로 텍스트 형태로 출력이 가능하다. N은 래티스를 구성하는 노드의 수이고, L 은 래티스를 구성하는 링크의 수이다. 즉, 래티스는 노드와 링크로 구성된 그래프 형태를 갖는다. I는 노드 인덱스(identifier), t는 발화 시작 시간, W는 word, J는 링크의 인덱스(identifier), S는 링크의 시작 노드 인덱스, E는 링크의 종료 노드 인덱스, a는 링크 단어의 음향 모델 값, l은 링크 단어의 언어모델 값이다. 컨퓨젼 네트워크는 해당 그래프로 구성된 래티스 파일을 특정 단위별 (단어) 이형태의 묶음으로 구성하는 것이다.

컨퓨젼 네트워크 생성부는 래티스의 노드를 동치류(Equivalence Class)로 할당한다. 즉, SLF를 입력으로 가정하면 각 노드와 링크는 시간 순으로 정렬되어 있으므로, 컨퓨젼 네트워크 생성부(300)는 첫 번째 노드 n₀를 첫 번째 동치류(equivalence class) N₀로 할당한다.

컨퓨젼 네트워크 생성부(300)는 n_i _-1이 N_j에 포함되어 있고 N_j와 n_i간 링크가 없으면 n_i는 N_j에 할당한다. 컨퓨젼 네트워크 생성부(300)는 n_i _-1이 N_j에 포함되어 있고 N_j와 n_i간 링크가 있으면 N_j ₊₁을 생성하고, n_i는 N_j ₊₁에 할당한다. 컨퓨젼 네트워크 생성부(300)는 모든 래티스의 노드들을 동치류에 할당한다.

컨퓨젼 네트워크 생성부(300)는 래티스의 링크를 컨퓨젼 세트(Confusion Set)로 할당한다. 이때, 컨퓨젼 네트워크 생성부(300)는 해당 링크의 선행노드 u 와 후행노드 n의 소속 동치류의 일련 번호에 따라 분류한다. 즉, 컨퓨젼 네트워크 생성부(300)는 링크 e(u->n_i)에서 u∈N_s 및 n_i∈N_t을 만족하는 경우 링크의 시작 노드 인덱스(s)와 발화 시작 시간(t)을 이용하여 컨퓨젼 세트를 분류한다. 컨퓨젼 네트워크 생성부(300)는 발화 시작 시간이 다음 링크의 시작 노드 인덱스(s+1)와 같으면(즉, 연속된 동치류의 경우) 해당 링크를 CS(N_s, N_t) 로 분류한다. 컨퓨젼 네트워크 생성부(300)는 발화 시작 시간이 다음 링크의 시작 노드 인덱스(s+1)보다 크면(즉, 연속된 동치류가 아닌 경우) 다음 k 값에 따라 해당 링크를 CS(N_k, N_k ₊₁)로 분류한다. 여기서, k는 하기의 수학식 1 내지 수학식 2로 표현할 수 있다.

이때, sim(w(a), w(e))은 단어의 발음열(levenshtein distance; 또는, 단어 문자열)을 의미하고, overlap(CS,e)은 컨퓨젼 세트(Confusion set(CS))와 링크 e간의 시간 중복(time overlap)을 의미하고, |CS|는 컨퓨젼 세트의 길이를 의미한다.

컨퓨젼 네트워크 생성부(300)는 대용량의 SLF파일의 경우 해당 변환 과정이 많은 연산이 요구되므로, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 p(a)가 특정 th값 이상되는 링크들만 비교 대상으로 하여, 유사도 확률을 구성한다.

여기서, P(a)는 컨퓨젼 세트에 포함된 링크의 확률값을 의미한다. 기준값(th)은 경험적으로 구해지는 값으로 변경 및 설정이 가능하다.

컨퓨젼 네트워크 생성부(300)는 컨퓨젼 세트에서 링크 확률값을 정규화한다. 컨퓨젼 네트워크 생성부(300)는 null 링크를 추가하고, 정규화된 값의 나머지 확률값을 할당한다. 이때, 컨퓨젼 네트워크 생성부(300)는 null링크의 확률값이 다른 링크의 확률값보다 클 경우, 해당 컨퓨젼 세트를 음성인식 결과에서 제외할 수도 있다.

리스코어링부(400)는 컨퓨젼 네트워크 생성부(300)에서 생성된 컨퓨젼 네트워크를 이용하여 청크 단위 컨퓨젼 네트워크를 생성한다. 즉, 리스코어링부(400)는 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용한다. 리스코어링부(400)는 품사 태깅 출력과, 어절 통합 규칙을 적용하여, 컨퓨젼 셋들을 어절 단위로 통합한다. 리스코어링부(400)는 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성한다. 여기서, 청크란 어절단위로 기술되고 있으나, 다양한 범위로 확장할 수 있다. 예를 들면, 숫자 표현이나 날짜 표현 등을 청크 단위로 확장할 수도 있다.

리스코어링부(400)는 어절 단위로 확장된 컨퓨젼 네트워크를 입력으로 컨퓨젼 셋 단위 의존 관계를 파악한다. 리스코어링부(400)는 어절의 컨텐츠 워드별 공기 관계를 파악한다. 리스코어링부(400)는 기존 사후 확률(posterior probability)과 의존 관계에 의한 확률값 공기 관계에 의한 확률값을 통합하여 리스코어링한다. 리스코어링부(400)는 통합된 값을 적용하여 n-best를 추출한다.

이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 3은 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 생성 방법을 설명하기 위한 도면이다.

먼저, 컨퓨젼 네트워크 리스코어링 장치는 음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는다(S105). 컨퓨젼 네트워크 리스코어링 장치는 입력된 래티스들을 저장부(200) 상에 저장한다.

컨퓨젼 네트워크 리스코어링 장치는 저장부(200)에 저장되는 래티스들의 사후 확률(posterior probability)을 연산한다(S110). 이때, 컨퓨젼 네트워크 리스코어링 장치는 각 래티스에 포함된 링크를 지나가는 모든 패스 확률의 합을 산출하고, 전체 패스의 확률로 정규화한다.

SLF(Standard Lattice Format)가 입력되면(S115; YES), 컨퓨젼 네트워크 리스코어링 장치는첫 번째 노드 n₀를 첫 번째 동치류 N₀로 할당한다(310). 컨퓨젼 네트워크 리스코어링 장치는 SLF는 각 노드와 링크는 시간 순으로 정렬되어 있기 때문에 첫 번째 노드를 첫 번째 동치류로 할당한다.

다음 노드 ni와 다음 동치류 Nj의 링크가 존재하면(S125; YES), 컨퓨젼 네트워크 리스코어링 장치는 래티스의 i번째 노드(ni)를 j+1번째 동치류(Nj+1)로 할당한다(S130).

다음 노드 n_i와 다음 동치류 N_j의 링크가 존재하지 않으면, 컨퓨젼 네트워크 리스코어링 장치는 래티스의 i번째 노드(n_i)를 i번째 동치류(N_i)로 할당한다(S135).

래티스에 포함된 모든 노드들에 대한 동치류 할당이 완료되면(S140; YES), 컨퓨젼 네트워크 리스코어링 장치는 래티스의 발화 시작 시간과 링크의 시작 노드 인덱스를 근거로 컨퓨젼 세트의 분류를 수행한다. 이때, 컨퓨젼 네트워크 리스코어링 장치는 링크를 특정 컨퓨젼 세트로 할당할 때, 해당 링크의 선행노드 u 와 후행노드 n의 소속 동치류의 일련 번호에 따라 링크를 컨퓨젼 세트로 분류한다. 이때, 컨퓨젼 네트워크 리스코어링 장치는 대용량의 SLF파일의 경우 해당 변환 과정이 많은 연산이 요구되므로, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하는 과정에서 컨퓨젼 세트에 포함된 링크의 확률(P(a))이 기준값(th) 이상되는 링크들만 비교 대상으로 하여, 유사도 확률을 구성한다.

링크 e(u-> ni)에서 선행노드(u)가 동치류(N_s)에 포함되고 후행노드(n)이 동치류(N_t)에 포함되고 연속되는 동치류이면(S145; YES; 즉, t=s+1을 만족하면), 컨퓨젼 네트워크 리스코어링 장치는 링크 e(u-> ni)을 컨퓨젼 세트 CS(N_s, N_t)로 분류한다(S150).

링크 e(u-> ni)에서 선행노드(u)가 동치류(N_s)에 포함되고 후행노드(n)이 동치류(N_t)에 포함되고 연속되지 않은 동치류이면(즉, t>s+1이면), 컨퓨젼 네트워크 리스코어링 장치는 링크 e(u-> ni)을 컨퓨젼 세트 CS(N_k, N_k ₊₁)로 분류한다(s155). 즉, 컨퓨젼 네트워크 리스코어링 장치는 연속된 동치류가 아닐 경우 몇 가지 후보의 컨퓨젼 세트를 생성하고, 해당 링크와 가장 근접한 컨퓨젼 세트를 선택하여 해당 링크를 분류한다.

이후, 컨퓨젼 네트워크 리스코어링 장치는 추출된 컨퓨젼 세트의 시퀀스에서 링크 확률값을 정규화하고(S160), Null 링크를 추가한 후에 정규화된 값의 나머지 확률값을 할당한다(S165). 이때, Null 링크의 확률값이 다른 링크의 확률값을 초과하면(S170; YES), 컨퓨젼 네트워크 리스코어링 장치는 해당 컨퓨젼 세트를 음성인식 결과에서 배제한다(S175).

이하, 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 4는 본 발명의 실시예에 따른 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 방법을 설명하기 위한 흐름도이다. 도 5는 도 4의 청크 단위 컨퓨젼 네트워크 생성 단계를 설명하기 위한 흐름도이고, 도 6은 도 4의 컨퓨젼 네트워크 리스코어링 단계를 설명하기 위한 흐름도이다.

먼저, 컨퓨젼 네트워크 리스코어링 장치는 래티스 파일을 로드하고(S220), 컨퓨젼 네트워크를 생성한다(S240).

컨퓨젼 네트워크 리스코어링 장치는 컨퓨젼 네트워크로부터 청크 단위 컨퓨젼 네트워크를 생성한다(S260). 이를 위해, 컨퓨젼 네트워크 리스코어링 장치는 컨퓨젼 네트워크의 1-best 시퀀스에 대하여 품사 태깅을 적용하고(S262), 품사 태깅을 출력한다(S264). 컨퓨젼 네트워크 리스코어링 장치는 어절 통합 규칙을 적용하여 컨퓨젼 세트들을 어절 단위로 통합한다(S266). 컨퓨젼 네트워크 리스코어링 장치는 통합된 컨퓨젼 세트로 하나의 어절단위 컨퓨젼 세트를 구성한다(S268). 여기서 청크란 어절단위로 기술되고 있으나, 다양한 범위로 확장 가능할 수 있으리라 본다. 이를테면, 숫자 표현이나 날짜 표현 등을 청크 단위로 확장할 수도 있다.

컨퓨젼 네트워크 리스코어링 장치는 생성한 청크 단위 컨퓨젼 네트워크를 이용하여 의존관계/공기 정보 기반 리스코어링을 수행한다(S280). 이를 위해, 컨퓨젼 네트워크 리스코어링 장치는 어절 단위로 확장된 컨퓨젼 네트워크를 입력으로 컨퓨젼 세트 단위 의존 관계를 파악하고(S282), 컨퓨젼 네트워크 리스코어링 장치는 어절의 컨텐츠 워드별 공기 관계를 파악한다(S284). 컨퓨젼 네트워크 리스코어링 장치는 기존 사후 확률과 의존 관계에 의한 확률값 공기 관계에 의한 확률값을 통합하고(S286). 통합된 확률값을 적용하여 n-best를 추출한다(S288).

상술한 바와 같이, 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치 및 이를 이용한 컨퓨젼 네트워크 생성 방법 및 리스코어링 방법은 음성인식으로 생성되는 래티스 구조를 컨퓨젼 네트워크 구조로 변환하는 과정에서 래티스 링크 확률의 한계치를 설정함으로써, 컨퓨젼 네트워크의 생성 속도를 향상시키고, 래티스 푸루닝(lattice pruning)을 통해 유실되는 정보량을 최소화할 수 있는 효과가 있다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

100: 입력부 200: 저장부
300: 컨퓨젼 네트워크 생성부 400: 리스코어링부

Claims

음성인식을 통해 생성되는 하나 이상의 래티스를 입력받는 단계;
상기 입력받은 하나 이상의 래티스들 각각의 사후 확률을 연산하는 단계;
상기 연산한 사후 확률을 근거로 래티스에 포함된 노드를 복수의 동치류로 할당하는 단계;
상기 복수의 동치류를 이용하여 컨퓨젼 세트를 생성하는 단계; 및
상기 생성된 컨퓨젼 세트를 근거로 컨퓨젼 네트워크를 생성하는 단계를 포함하는 것을 특징으로 하는 한국어 연속 음성인식을 위한 컨퓨젼 네트워크 리스코어링 장치를 이용한 컨퓨젼 네트워크 생성 방법.