KR20080018622A

KR20080018622A - 휴대용 단말기의 음성 인식 시스템

Info

Publication number: KR20080018622A
Application number: KR1020060081027A
Authority: KR
Inventors: 정훈; 이윤근
Original assignee: 한국전자통신연구원
Priority date: 2006-08-25
Filing date: 2006-08-25
Publication date: 2008-02-28
Also published as: US20080059185A1; US7856356B2; KR100845428B1

Abstract

본 발명은 음성이 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 발성된다고 가정하고(전통적인 음성인식에서는 1개의 잡음채널로 음성이 발성된다고 가정함), 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하기 위한 것으로, 이를 위한 본 발명은, 입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과, 1차 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단을 포함한다. 그리고, 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재할 수 있어 저장매체 사용량을 최소화할 수 있는 효과가 있다.

음성, 변이 음소열, 단어 음소열, 음향 변이 채널, 발음 변이 채널

Description

휴대용 단말기의 음성 인식 시스템{SPEECH RECOGNITION SYSTEM OF MOBILE TERMINAL}

도 1은 HMM 기반의 1-패스(Pass) 음성인식 시스템을 도시한 도면,

도 2는 인식대상어휘 모델 예제 및 저장매체 구조를 도시한 도면,

도 3은 본 발명에 따른 휴대용 단말기의 음성 인식 시스템에 대한 블록 구성도,

도 4는 도 3에 도시된 음향 변이 채널에 대한 상세 블록 구성도,

도 5는 도 3에 도시된 발음 변이 채널에 대한 상세 블록 구성도,

도 6은 본 발명에 따른 발음 변이 채널에 의해 정의되는 문맥 종속 발음 변이 모델의 예제를 도시한 도면,

도 7은 본 발명에 따른 문맥 종속 음소를 모델링하는 DHMM의 구조도면,

도 8은 본 발명에 따른 발음 변이 채널에서의 복호화 과정 시 탐색 공간을 구성하게 되는 구체적인 저장매체의 구조에 대한 도면,

도 9는 본 발명에 따른 발음 변이 채널에서의 탐색 공간 데이터를 생성하는 과정을 도시한 도면,

도 10은 본 발명에 따른 바이너리 이미지로 변환된 탐색 공간 데이터를 도시한 도면,

도 11은 본 발명에 따른 비터비 디코딩중 현재의 음소 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 도시한 도면.

<도면의 주요부분에 대한 부호의 설명>

301 : 음향 변이 채널 3011 : 끝점 검출부

3013 : 특징 추출부 3015, 3031 : 비터비 디코딩부

3017 : 저장매체 30171 : CHMM 기반 문맥 독립 음소 모델

30173 : 음소 3-gram 30175 : 음소 지속시간 모델

303 : 발음 변이 채널 3033 : DHMM 기반 문맥 종속 오류 모델

본 발명은 휴대용 단말기의 음성 인식 시스템에 관한 것으로, 보다 상세하게는 2개의 독립적인 잡음 채널 및 동적 탐색 공간 적재 방식을 사용하여 시스템 자원이 제한된 휴대용 단말기에서의 대규모 음성 어휘를 고속으로 인식하도록 하여 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재하여 저장매체 사용량을 최소화할 수 있는 시스템에 관한 것이다.

주지된 바와 같이, HMM(Hidden Markov Model) 기반의 음성인식은 도 1의 시스템 구성에 의해 이루어진다.

즉, 도 1은 HMM 기반의 1-패스(Pass) 음성인식 시스템을 도시한 도면으로서, 끝점 검출부(101)와, 특징 추출부(103)와, 비터비 디코딩부(105)와, 저장매체(107)를 포함한다.

끝점 검출부(101)는 주변 잡음 환경의 변화에 대하여 음성 구간만을 정확히 검출하기 위한 블록으로서, 음성과 비음성을 구분 짓는 다양한 파라메타를 사용하여 컴퓨터로부터 입력되는 신호 중 음성신호 구간을 분리 검출하여 특징 추출부(103)에 제공한다.

특징 추출부(103)는 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)를 주로 사용하는 것으로, 끝점 검출부(101)로부터 제공된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하여 비터비 디코딩부(105)에 제공한다.

비터비 디코딩부(105)는 저장매체(107)로부터 인가되는 인식 대상 어휘들 및 단어인, HMM 기반 단어 모델(1071)과, 음향 모델(1073) 및 발음 모델(1075)와, 단어기반 언어 모델(1077)의 연결 구조와 특징 추출부(103)로부터 제공된 특징 파라메타 열로 구성되는 탐색 공간에서 가장 높은 유사도를 지나는 단어 혹은 단어 음소열의 경로를 구한다.

예컨대, 도 2를 참조하면, 도 2는 인식대상어휘 모델 예제 및 저장매체 구조를 도시한 도면으로서, "고려개발"과 "고려기원" 이라는 2단어를 인식대상어휘로 하는 단어를 구성하는 음소 노드와 노드간의 연결 상태를 표현하는 ARC로 정의함에 따라 기 세팅된 해당 모델들 전체를 적재하기 위한 저장매체(예컨대, 메모리)(201) 인 것이다. 이 저장매체(201)는 인식대상어휘를 표현하는데 사용되는 전체 음소의 수 × (HMM을 표현하는데 필요한 저장매체 + ARC 정의하는데 필요한 저장매체) 만큼의 용량이 요구되며, 비터비 디코딩을 위한 알고리즘에서는 수학식 1과 같은 동적 프로그램을 통해 최적 경로에 대한 유사도 값을 구하게 된다.

여기서, 수학식 1에서 N은 인식 대상 어휘를 구성하는 HMM의 상태(State)들의 개수이며, T는 입력된 특징 벡터의 프레임 개수가 된다.

한편, N과 T의 곱으로 구성되는 탐색공간을 검색하여 최적 경로를 찾는데 필요한 연산량 C는 수학식 2와 같이 recursion 연산에 필요한 계산량 C_r로 정의가 가능하다.

이에, 대부분의 고속 인식과 관련된 방식들은 회기(recursion) 연산 중 관측확률 연산 b_j(x_t)의 계산량만을 줄이기 위한 방식과 페스트 매치(fast match) 및 디테일드 매치(detailed match)로 구성된 2단계 탐색이 있다.

그러나, 상술한 바와 같은 2단계 탐색 중 탐색 공간을 줄이기 위한 페스트 매치(fast match)는 결국은 관측확률 연산 b_j(x_t)를 줄임으로써 전체 인식 속도를 빠르게 하는 것 일뿐 탐색 공간을 줄이는 방식이 아니기 때문에 페스트 매치(fast match) 역시 인식 대상 어휘가 증가하게 되면 그 속도가 현저하게 느려지게 되는 문제점을 여전히 갖게 된다.

따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출한 것으로, 그 목적은 음성이 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 발성된다고 가정하고(전통적인 음성인식에서는 1개의 잡음채널로 음성이 발성된다고 가정함), 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하여 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식 을 사용해 연산에 필요한 부분만을 저장매체 상에 적재할 수 있어 저장매체 사용량을 최소화할 수 있는 휴대용 단말기의 음성 인식 시스템을 제공함에 있다.

이러한 목적을 달성하기 위한 본 발명에 따른 휴대용 단말기의 음성 인식 시스템은 입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과, 1차 디코딩된 변이 음소열과, 기세팅되어 분리된(Discrete)된 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단을 포함하는 것을 특징으로 한다.

이하, 본 발명의 실시 예는 다수개가 존재할 수 있으며, 이하에서 첨부한 도면을 참조하여 바람직한 실시 예에 대하여 상세히 설명하기로 한다. 이 기술 분야의 숙련자라면 이 실시 예를 통해 본 발명의 목적, 특징 및 이점들을 잘 이해하게 될 것이다.

도 3은 본 발명에 따른 휴대용 단말기의 음성 인식 시스템에 대한 블록 구성도로서, 서로 독립적인 2개의 잡음 채널인 음향 변이 채널(301) 및 발음 변이 채널(303)을 포함한다.

음향 변이 채널(301)은 개별 철자가 실제로 발음되어질 때 사람의 발음 특성 및 주변 잡음의 영향으로 왜곡되는 현상을 반영하는 블록으로서, 도 4에 도시된 바 와 같이 끝점 검출부(3011)와, 특징 추출부(3013)와, 비터비 디코딩부(3015)와, 저장매체(예컨대, 메모리)(3017)를 포함한다.

끝점 검출부(3011)는 주변 잡음 환경의 변화에 대하여 음성 구간만을 정확히 검출하기 위한 블록으로서, 음성과 비음성을 구분 짓는 다양한 파라메타를 사용하여 입력수단(예컨대, 컴퓨터나, 혹은 마이크)으로부터 입력되는 신호 중 음성신호 구간만을 분리 검출하여 특징 추출부(3013)에 제공한다.

특징 추출부(3013)는 MFCC나 PLPCC를 주로 사용하는 블록으로서, 끝점 검출부(3011)로부터 제공된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하여 비터비 디코딩부(3015)에 제공한다.

비터비 디코딩부(3015)는 저장매체(3017)에서 인출한 기설정된 해당 모델들(예컨대, CHMM 기반 문맥 독립 음소 모델(30171)과, 음소 3-gram(30173) 및 음소 지속 시간 모델(30175))중 해당 모델과, 특징 추출부(3013)로부터 제공되는 특징 파라메타를 수학식 3의 복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 구한다.

여기서, X는 입력된 음성신호에 대한 특징 파라메타인 벡터열이고, T는 음소열임에 따라

는 입력수단(예컨대, 컴퓨터나 혹은 마이크) 으로부터 입력되는 음성 신호를 음소열로 복호화하는 과정이다.

그러나, 수학식 3과 같이 사후확률을 구하는 것은 현실적으로 불가능하기 때문에 베이어의 규칙을 적용해 수학식 4와 같이 사전 확률과 조건부 확률의 곱이 최대로 하는 음소열을 구할 수 있는데, 이 음소열을 구하는 과정에서 3가지 형태의 오류(예컨대, insertion, deletion, substitution)가 발생하게 되는데 이중 deletion 오류는 복원할 단어에 대한 정보의 손실을 의미하는 것으로, 발음 변이 채널(303)에 의한 복호화 과정에 치명적인 문제를 발생시키므로 가급적 deletion 오류를 줄여야 함에 따라 저장 매체(3017)내에 저장된 음소 지속 시간 모델(30175)을 인출하여 비터비 디코딩부(3015)에 포함시킨 다음에 수학식 4로부터 수학식 5를 유도하여 구한 변이 음소열을 발음 변이 채널(303)에 제공한다.

여기서, P(S＼T)는 음소 지속 시간 모델(30175)로 음소가 입력 프레임을 점유할 확률로서, 지속 시간 및 주파수 변이의 함수로 모델링 한다.

발음 변이 채널(303)은 발음하고자 하는 단어의 철자가 실제로 사람의 지역적 특색이나 성향에 의해 변이가 발생하게 되는데 이를 반영하여 단어 음소열을 구하기 위한 블록으로서, 도 5에 도시된 바와 같이, 비터비 디코딩부(3031) 및 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델(3033)을 포함한다.

비터비 디코딩부(3031)는 음향 변이 채널(301)에 의해 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM 기반 문맥종속 오류 모델(3033)을 수학식 6의 복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 구한다.

여기서, T는 변이 음소열이고, W는 단어 음소열임에 따라

는 음향 변이 채널(301)에서 제공되는 변이 음소열을 단어 음소열로 복호화하는 과정이다.

그러나, 수학식 6과 같이 사후확률을 구하는 것은 현실적으로 불가능하기 때문에 베이어의 규칙을 적용해 수학식 7과 같이 사전 확률과 조건부 확률의 곱이 최대로 하는 단어 음소열로 복호화할 수 있는데, 이 과정에서는 단어모델 W 에 대한 발음 변이 모델(P(T＼W)이 필요하게 되는데 현실적으로 이 조건부 확률을 추정하기는 어렵기 때문에, 모든 음소 사이의 오류가 독립적으로 발생한다는 가정하에, 수학식 8과 같이 근사화한 후에 probabilistic minimum edit distance 알고리즘이라는 일종의 동적 프로그램을 수행하여 서로 다른 음소열간의 유사도를 측정할 수 있다.

여기서, 도 6은 본 발명에 따른 발음 변이 채널(303)에 의해 정의되는 문맥 종속 발음 변이 모델의 예제를 도시한 도면으로서, 도 6을 참조하면, 각 단어(예컨 대, 학생(ㅎ,ㅏ,ㄱ,ㅅ,ㅐ,ㅇ)과 학쌩(ㅎ,ㅏ,ㄱ,ㅆ,ㅐ,ㅇ))에서는 음소의 열인 C_i로 구성되어 있으며, 각 음소는 주변의 음소인 C_i _-1C_i ₊₁ 영향에 의해 발음 변이가 t_i 만큼 발생할 수 있으므로 수학식 9와 같은 문맥 종속 발음 변환 모델을 정의한다.

또한, 발음 변이 채널(303)은 음향 변이 채널(301)로부터 제공된 변이 음소열이 다른 길이를 갖는 음소열일 경우, 이 다른 길이를 갖는 변이 음소열에 대하여 수학식 9의

에 적용시키고, DHMM 기반 문맥 종속 오류 모델(3033)을 통해 모델링 하였을 때, 3가지 형태의 오류(예컨대, insertion cost, deletion cost, substitution cost)가 도 7의 상태 구조 도면에 도시된 DHMM 기반의 토폴로지(topology)와 같이 모델링되어 진다.

한편, 도 8은 본 발명에 따른 발음 변이 채널(303)에서의 복호화 과정 시 탐색 공간을 구성하게 되는 구체적인 저장매체의 구조에 대한 도면이다.

즉, 도 8을 참조하면, 음향 변이 채널(301)로부터 입력되는 변이 음소열인 "고려개발"과 "고려기원" 2단어를 인식하기 위해 저장매체 상에 적재되어야 할 탐색 공간용 데이터는 다음과 같이 문맥 종속 cost function(801)과 ARC 정보(803) 2가지이다.

첫 번째, 문맥 종속 cost function(801)은 음소의 문맥 종속 변이 채널과 동일한 의미를 지니며 수학식 9의

를 모델링한 것으로 특정음소 Ci가 주변문맥 Ci-1, Ci+1 에서 ti^*으로 인식될 확률값으로 매트릭스(matrix) 형태의 데이터 구조체로 표현이 가능하다.

두 번째, ARC 정보(803)는 현재의 음소 다음에 위치하는 음소에 대한 정보를 저장한 ARC로 인식 대상 단어의 발음 변이 채널이 개별 음소의 발음 변이 채널의 연결로 구성되어 있으므로 어떤 음소들이 어떤 순서로 연결되어 단어를 구성하는지에 대한 정보를 포함하고 있다.

결국, 탐색 공간 데이터란 단어를 구성하는 모든 음소에 대한 문맥 종속 cost function(801)을 표현하기 위한 매트릭스(matrix)와 연결되는 음소를 표현하는 ARC 정보(803)이다.

더불어, 도 9는 본 발명에 따른 발음 변이 채널(303)에서의 탐색 공간 데이터를 생성하는 과정을 도시한 도면이다.

즉, 발음 변이 채널(303)내 임베디드 시스템에서 전체 탐색 공간 데이터를 저장매체(3033)에 적재하는 것이 불가능함에 따라 도 9에 도시된 바와 같이 외부 PC 환경(901)하에서 전체 탐색 공간 데이터를 구성한 후에 동적으로 탐색 공간 데이터를 적재하기에 적합한 형태의 바이너리 이미지로 변환한다.

이후, 변환된 바이너리 이미지는 발음 변이 채널(303)내 임베디드 시스템에 의해 제어되는 저장매체(3033)인 ROM이나 FLASH영역에 저장시킨 후에 비터비 디코딩부(3031)에 의해 필요한 탐색 공간 데이터만이 동적으로 적재된다.

그리고, 바이너리 이미지로 변환된 탐색 공간 데이터는 도 10에 도시된 바와 같이 음소별 위치 정의 이미지 구조(1001)와 탐색 공간 데이터 구조(1003)로 구분되며, 단어를 구성하는 각 음소(1st 음소,...,Nth 음소)에 대한 문맥종속 cost function과 ARC 정보에 해당하는 음소가 탐색 공간 데이터 파일내의 어느 위치에 존재하는지에 대한 정보를 포함한 테이블로 구성된다.

마지막으로, 도 11은 본 발명에 따른 비터비 디코딩중 현재의 음소 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 도시한 도면으로서, 현재 음소가 활성화되고 최적 경로가 될 가능성이 있으면 음소의 ARC 정보를 참조하여 현재의 음소에 따라 오는 음소에 대한 탐색 공간 데이터와 ARC 정보를 저장매체 상에 로드한다. 만일 현재의 음소가 현재의 최적 경로로부터 멀리 떨어져 있다면 현재의 음소를 비활성화하고 다음번에 나오는 음소들은 저장매체 상에 로딩하지 않는다.

따라서, 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 음성이 발성될 경우, 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하며, 또한 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간 데이터를 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재 함으로써 저장매체 사용량을 최소화할 수 있다.

또한, 본 발명의 사상 및 특허청구범위 내에서 권리로서 개시하고 있으므로, 본원 발명은 일반적인 원리들을 이용한 임의의 변형, 이용 및/또는 개작을 포함할 수도 있으며, 본 명세서의 설명으로부터 벗어나는 사항으로서 본 발명이 속하는 업계에서 공지 또는 관습적 실시의 범위에 해당하고 또한 첨부된 특허청구범위의 제한 범위 내에 포함되는 모든 사항을 포함한다.

상기에서 설명한 바와 같이, 본 발명은 서로 독립적인 2개의 잡음 채널인 음향 변이 채널과 발음 변이 채널을 통해 음성이 발성될 경우, 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 할 수 있으며, 또한 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간 데이터를 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재함으로써 저장매체 사용량을 최소화할 수 있는 효과가 있다.

Claims

휴대용 단말기의 음성 인식 시스템으로서,

입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 상기 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과,

상기 1차 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단

을 포함하는 휴대용 단말기의 음성 인식 시스템.
제 1 항에 있어서,

상기 음향 변이 채널 수단은,

상기 입력수단으로부터 입력되는 신호 중 음성과 비음성을 구분 짓는 파라메타를 사용하여 음성신호 구간만을 분리 검출하는 끝점 검출수단과,

상기 끝점 검출수단에 의해 검출된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하는 특징 추출수단과,

CHMM 기반 문맥 독립 음소 모델과, 음소 3-gram 및 음소 지속 시간 모델을 저장하는 저장매체와,

상기 저장매체에 기설정된 모델들 중 해당 모델과, 상기 변환된 특징 파라메타를 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 구하는 비터비 디코딩 수단

을 포함하는 휴대용 단말기의 음성 인식 시스템.
제 1 항 또는 제 2 항에 있어서,

상기 제1복호화 과정 식은,

수학식 3

(여기서, X는 입력된 음성신호에 대한 특징 파라메타인 벡터열이고, T는 음소열이다.)

에 의해 음소열로 복호화되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 3 항에 있어서,

상기 수학식 3에 베이어 규칙을 적용시켜

수학식 4

와 같이 사전 확률과 조건부 확률의 곱이 최대로 되는 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 4 항에 있어서,

상기 수학식 4에 음소 지속 시간 모델을 포함시켜

수학식 5

(여기서, P(S＼T)는 음소 지속 시간 모델로 음소가 입력 프레임을 점유할 확률로서, 지속 시간 및 주파수 변이의 함수로 모델링한다.)

와 같이 deletion 오류를 조정시킨 변이 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 1 항에 있어서,

상기 발음 변이 채널 수단은,

DHMM 기반 문맥종속 오류 모델을 저장하는 저장매체와,

상기 음향 변이 채널에 의해 1차 디코딩된 변이 음소열과, 상기 저장매체에 저장된 DHMM 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 구하는 비터비 디코딩 수단을

포함하는 휴대용 단말기의 음성 인식 시스템.
제 1 항 또는 제 6 항에 있어서,

상기 제2복호화 과정 식은,

수학식 6

(여기서, T는 변이 음소열이고, W는 단어 음소열이다.)

에 의해 단어 음소열로 복호화되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 7 항에 있어서,

상기 수학식 6에 베이어 규칙을 적용시켜

수학식 7

과 같이 사전 확률과 조건부 확률의 곱이 최대로 되는 단어 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 1 항에 있어서,

상기 발음 변이 채널에 의한 문맥 종속 발음 변이 모델은,

수학식 9

에 의해 정의되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 9 항에 있어서,

상기 문맥 종속 발음 변이 모델은, DHMM 기반 문맥 종속 오류 모델을 통해 모델링하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 6 항에 있어서,

상기 발음 변이 채널 수단 내 저장 매체는, 문맥 종속 cost function과 ARC 정보인 탐색 공간용 데이터를 적재하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 11 항에 있어서,

상기 문맥 종속 cost function은, 음소의 문맥 종속 변이 채널과 동일한 의미를 지니며 상기 수학식 9 내
를 모델링한 것으로 특정음소 Ci가 주변문맥 Ci-1, Ci+1 에서 ti^*으로 인식될 확률값으로 매트릭스(matrix) 형태의 데이터 구조체로 표현하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 11 항에 있어서,

상기 ARC 정보는, 음소 다음에 위치하는 음소에 대한 정보를 저장한 ARC로 인식 대상 단어의 발음 변이 채널이 개별 음소의 발음 변이 채널의 연결로 구성되어 해당 음소들의 연결되는 단어 구성 정보인 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 11 항에 있어서,

상기 탐색 공간용 데이터는, 단어를 구성하는 모든 음소에 대한 문맥 종속 cost function을 표현하기 위한 매트릭스(matrix)와 연결되는 음소를 표현하는 정보인 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 14 항에 있어서,

상기 탐색 공간 데이터는, 외부 PC에서 전체 탐색 공간 데이터를 구성한 후에 동적으로 탐색 공간 데이터를 적재하기에 적합한 형태의 바이너리 이미지로 변환되어 상기 발음 변이 채널 내 저장매체에 저장되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 15 항에 있어서,

상기 바이너리 이미지로 변환된 탐색 공간 데이터는, 음소별 위치 정의 이미지 구조와 탐색 공간 데이터 구조로 구분되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 6 항에 있어서,

상기 발음 변이 채널내 비터비 디코딩 수단은,

상기 음향 변이 채널로부터 제공된 변이 음소열의 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 사용하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
제 17 항에 있어서,

상기 의사 코드는, 현재 음소가 활성화되고 최적 경로가 될 가능성이 있으면 음소의 ARC 정보를 참조하여 현재의 음소에 따라 오는 음소에 대한 탐색 공간 데이터와 ARC 정보를 발음 변이 채널 내 저장매체에 로드하며, 상기 음소가 최적 경로로부터 멀리 떨어져 있다면 현재의 음소를 비활성화하고 다음번에 나오는 음소들은 저장매체 상에 로딩하지 않는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.