KR20080018622A - 휴대용 단말기의 음성 인식 시스템 - Google Patents

휴대용 단말기의 음성 인식 시스템 Download PDF

Info

Publication number
KR20080018622A
KR20080018622A KR1020060081027A KR20060081027A KR20080018622A KR 20080018622 A KR20080018622 A KR 20080018622A KR 1020060081027 A KR1020060081027 A KR 1020060081027A KR 20060081027 A KR20060081027 A KR 20060081027A KR 20080018622 A KR20080018622 A KR 20080018622A
Authority
KR
South Korea
Prior art keywords
phoneme
recognition system
equation
channel
portable terminal
Prior art date
Application number
KR1020060081027A
Other languages
English (en)
Other versions
KR100845428B1 (ko
Inventor
정훈
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020060081027A priority Critical patent/KR100845428B1/ko
Priority to US11/642,132 priority patent/US7856356B2/en
Publication of KR20080018622A publication Critical patent/KR20080018622A/ko
Application granted granted Critical
Publication of KR100845428B1 publication Critical patent/KR100845428B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/285Memory allocation or algorithm optimisation to reduce hardware requirements
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Abstract

본 발명은 음성이 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 발성된다고 가정하고(전통적인 음성인식에서는 1개의 잡음채널로 음성이 발성된다고 가정함), 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하기 위한 것으로, 이를 위한 본 발명은, 입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과, 1차 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단을 포함한다. 그리고, 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재할 수 있어 저장매체 사용량을 최소화할 수 있는 효과가 있다.
음성, 변이 음소열, 단어 음소열, 음향 변이 채널, 발음 변이 채널

Description

휴대용 단말기의 음성 인식 시스템{SPEECH RECOGNITION SYSTEM OF MOBILE TERMINAL}
도 1은 HMM 기반의 1-패스(Pass) 음성인식 시스템을 도시한 도면,
도 2는 인식대상어휘 모델 예제 및 저장매체 구조를 도시한 도면,
도 3은 본 발명에 따른 휴대용 단말기의 음성 인식 시스템에 대한 블록 구성도,
도 4는 도 3에 도시된 음향 변이 채널에 대한 상세 블록 구성도,
도 5는 도 3에 도시된 발음 변이 채널에 대한 상세 블록 구성도,
도 6은 본 발명에 따른 발음 변이 채널에 의해 정의되는 문맥 종속 발음 변이 모델의 예제를 도시한 도면,
도 7은 본 발명에 따른 문맥 종속 음소를 모델링하는 DHMM의 구조도면,
도 8은 본 발명에 따른 발음 변이 채널에서의 복호화 과정 시 탐색 공간을 구성하게 되는 구체적인 저장매체의 구조에 대한 도면,
도 9는 본 발명에 따른 발음 변이 채널에서의 탐색 공간 데이터를 생성하는 과정을 도시한 도면,
도 10은 본 발명에 따른 바이너리 이미지로 변환된 탐색 공간 데이터를 도시한 도면,
도 11은 본 발명에 따른 비터비 디코딩중 현재의 음소 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 도시한 도면.
<도면의 주요부분에 대한 부호의 설명>
301 : 음향 변이 채널 3011 : 끝점 검출부
3013 : 특징 추출부 3015, 3031 : 비터비 디코딩부
3017 : 저장매체 30171 : CHMM 기반 문맥 독립 음소 모델
30173 : 음소 3-gram 30175 : 음소 지속시간 모델
303 : 발음 변이 채널 3033 : DHMM 기반 문맥 종속 오류 모델
본 발명은 휴대용 단말기의 음성 인식 시스템에 관한 것으로, 보다 상세하게는 2개의 독립적인 잡음 채널 및 동적 탐색 공간 적재 방식을 사용하여 시스템 자원이 제한된 휴대용 단말기에서의 대규모 음성 어휘를 고속으로 인식하도록 하여 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재하여 저장매체 사용량을 최소화할 수 있는 시스템에 관한 것이다.
주지된 바와 같이, HMM(Hidden Markov Model) 기반의 음성인식은 도 1의 시스템 구성에 의해 이루어진다.
즉, 도 1은 HMM 기반의 1-패스(Pass) 음성인식 시스템을 도시한 도면으로서, 끝점 검출부(101)와, 특징 추출부(103)와, 비터비 디코딩부(105)와, 저장매체(107)를 포함한다.
끝점 검출부(101)는 주변 잡음 환경의 변화에 대하여 음성 구간만을 정확히 검출하기 위한 블록으로서, 음성과 비음성을 구분 짓는 다양한 파라메타를 사용하여 컴퓨터로부터 입력되는 신호 중 음성신호 구간을 분리 검출하여 특징 추출부(103)에 제공한다.
특징 추출부(103)는 MFCC(Mel-Frequency Cepstrum Coefficient)나 PLPCC(Perceptual Linear Prediction Cepstrum Coefficient)를 주로 사용하는 것으로, 끝점 검출부(101)로부터 제공된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하여 비터비 디코딩부(105)에 제공한다.
비터비 디코딩부(105)는 저장매체(107)로부터 인가되는 인식 대상 어휘들 및 단어인, HMM 기반 단어 모델(1071)과, 음향 모델(1073) 및 발음 모델(1075)와, 단어기반 언어 모델(1077)의 연결 구조와 특징 추출부(103)로부터 제공된 특징 파라메타 열로 구성되는 탐색 공간에서 가장 높은 유사도를 지나는 단어 혹은 단어 음소열의 경로를 구한다.
예컨대, 도 2를 참조하면, 도 2는 인식대상어휘 모델 예제 및 저장매체 구조를 도시한 도면으로서, "고려개발"과 "고려기원" 이라는 2단어를 인식대상어휘로 하는 단어를 구성하는 음소 노드와 노드간의 연결 상태를 표현하는 ARC로 정의함에 따라 기 세팅된 해당 모델들 전체를 적재하기 위한 저장매체(예컨대, 메모리)(201) 인 것이다. 이 저장매체(201)는 인식대상어휘를 표현하는데 사용되는 전체 음소의 수 × (HMM을 표현하는데 필요한 저장매체 + ARC 정의하는데 필요한 저장매체) 만큼의 용량이 요구되며, 비터비 디코딩을 위한 알고리즘에서는 수학식 1과 같은 동적 프로그램을 통해 최적 경로에 대한 유사도 값을 구하게 된다.
Figure 112006061040584-PAT00001
여기서, 수학식 1에서 N은 인식 대상 어휘를 구성하는 HMM의 상태(State)들의 개수이며, T는 입력된 특징 벡터의 프레임 개수가 된다.
한편, N과 T의 곱으로 구성되는 탐색공간을 검색하여 최적 경로를 찾는데 필요한 연산량 C는 수학식 2와 같이 recursion 연산에 필요한 계산량 Cr로 정의가 가능하다.
Figure 112006061040584-PAT00002
이에, 대부분의 고속 인식과 관련된 방식들은 회기(recursion) 연산 중 관측확률 연산 bj(xt)의 계산량만을 줄이기 위한 방식과 페스트 매치(fast match) 및 디테일드 매치(detailed match)로 구성된 2단계 탐색이 있다.
그러나, 상술한 바와 같은 2단계 탐색 중 탐색 공간을 줄이기 위한 페스트 매치(fast match)는 결국은 관측확률 연산 bj(xt)를 줄임으로써 전체 인식 속도를 빠르게 하는 것 일뿐 탐색 공간을 줄이는 방식이 아니기 때문에 페스트 매치(fast match) 역시 인식 대상 어휘가 증가하게 되면 그 속도가 현저하게 느려지게 되는 문제점을 여전히 갖게 된다.
따라서, 본 발명은 상술한 문제점을 해결하기 위해 안출한 것으로, 그 목적은 음성이 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 발성된다고 가정하고(전통적인 음성인식에서는 1개의 잡음채널로 음성이 발성된다고 가정함), 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하여 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간을 필요한 부분만을 예측하는 동적 적재 방식 을 사용해 연산에 필요한 부분만을 저장매체 상에 적재할 수 있어 저장매체 사용량을 최소화할 수 있는 휴대용 단말기의 음성 인식 시스템을 제공함에 있다.
이러한 목적을 달성하기 위한 본 발명에 따른 휴대용 단말기의 음성 인식 시스템은 입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과, 1차 디코딩된 변이 음소열과, 기세팅되어 분리된(Discrete)된 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단을 포함하는 것을 특징으로 한다.
이하, 본 발명의 실시 예는 다수개가 존재할 수 있으며, 이하에서 첨부한 도면을 참조하여 바람직한 실시 예에 대하여 상세히 설명하기로 한다. 이 기술 분야의 숙련자라면 이 실시 예를 통해 본 발명의 목적, 특징 및 이점들을 잘 이해하게 될 것이다.
도 3은 본 발명에 따른 휴대용 단말기의 음성 인식 시스템에 대한 블록 구성도로서, 서로 독립적인 2개의 잡음 채널인 음향 변이 채널(301) 및 발음 변이 채널(303)을 포함한다.
음향 변이 채널(301)은 개별 철자가 실제로 발음되어질 때 사람의 발음 특성 및 주변 잡음의 영향으로 왜곡되는 현상을 반영하는 블록으로서, 도 4에 도시된 바 와 같이 끝점 검출부(3011)와, 특징 추출부(3013)와, 비터비 디코딩부(3015)와, 저장매체(예컨대, 메모리)(3017)를 포함한다.
끝점 검출부(3011)는 주변 잡음 환경의 변화에 대하여 음성 구간만을 정확히 검출하기 위한 블록으로서, 음성과 비음성을 구분 짓는 다양한 파라메타를 사용하여 입력수단(예컨대, 컴퓨터나, 혹은 마이크)으로부터 입력되는 신호 중 음성신호 구간만을 분리 검출하여 특징 추출부(3013)에 제공한다.
특징 추출부(3013)는 MFCC나 PLPCC를 주로 사용하는 블록으로서, 끝점 검출부(3011)로부터 제공된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하여 비터비 디코딩부(3015)에 제공한다.
비터비 디코딩부(3015)는 저장매체(3017)에서 인출한 기설정된 해당 모델들(예컨대, CHMM 기반 문맥 독립 음소 모델(30171)과, 음소 3-gram(30173) 및 음소 지속 시간 모델(30175))중 해당 모델과, 특징 추출부(3013)로부터 제공되는 특징 파라메타를 수학식 3의 복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 구한다.
Figure 112006061040584-PAT00003
여기서, X는 입력된 음성신호에 대한 특징 파라메타인 벡터열이고, T는 음소열임에 따라
Figure 112006061040584-PAT00004
는 입력수단(예컨대, 컴퓨터나 혹은 마이크) 으로부터 입력되는 음성 신호를 음소열로 복호화하는 과정이다.
그러나, 수학식 3과 같이 사후확률을 구하는 것은 현실적으로 불가능하기 때문에 베이어의 규칙을 적용해 수학식 4와 같이 사전 확률과 조건부 확률의 곱이 최대로 하는 음소열을 구할 수 있는데, 이 음소열을 구하는 과정에서 3가지 형태의 오류(예컨대, insertion, deletion, substitution)가 발생하게 되는데 이중 deletion 오류는 복원할 단어에 대한 정보의 손실을 의미하는 것으로, 발음 변이 채널(303)에 의한 복호화 과정에 치명적인 문제를 발생시키므로 가급적 deletion 오류를 줄여야 함에 따라 저장 매체(3017)내에 저장된 음소 지속 시간 모델(30175)을 인출하여 비터비 디코딩부(3015)에 포함시킨 다음에 수학식 4로부터 수학식 5를 유도하여 구한 변이 음소열을 발음 변이 채널(303)에 제공한다.
Figure 112006061040584-PAT00005
Figure 112006061040584-PAT00006
여기서, P(S\T)는 음소 지속 시간 모델(30175)로 음소가 입력 프레임을 점유할 확률로서, 지속 시간 및 주파수 변이의 함수로 모델링 한다.
발음 변이 채널(303)은 발음하고자 하는 단어의 철자가 실제로 사람의 지역적 특색이나 성향에 의해 변이가 발생하게 되는데 이를 반영하여 단어 음소열을 구하기 위한 블록으로서, 도 5에 도시된 바와 같이, 비터비 디코딩부(3031) 및 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델(3033)을 포함한다.
비터비 디코딩부(3031)는 음향 변이 채널(301)에 의해 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM 기반 문맥종속 오류 모델(3033)을 수학식 6의 복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 구한다.
Figure 112006061040584-PAT00007
여기서, T는 변이 음소열이고, W는 단어 음소열임에 따라
Figure 112006061040584-PAT00008
는 음향 변이 채널(301)에서 제공되는 변이 음소열을 단어 음소열로 복호화하는 과정이다.
그러나, 수학식 6과 같이 사후확률을 구하는 것은 현실적으로 불가능하기 때문에 베이어의 규칙을 적용해 수학식 7과 같이 사전 확률과 조건부 확률의 곱이 최대로 하는 단어 음소열로 복호화할 수 있는데, 이 과정에서는 단어모델 W 에 대한 발음 변이 모델(P(T\W)이 필요하게 되는데 현실적으로 이 조건부 확률을 추정하기는 어렵기 때문에, 모든 음소 사이의 오류가 독립적으로 발생한다는 가정하에, 수학식 8과 같이 근사화한 후에 probabilistic minimum edit distance 알고리즘이라는 일종의 동적 프로그램을 수행하여 서로 다른 음소열간의 유사도를 측정할 수 있다.
Figure 112006061040584-PAT00009
Figure 112006061040584-PAT00010
여기서, 도 6은 본 발명에 따른 발음 변이 채널(303)에 의해 정의되는 문맥 종속 발음 변이 모델의 예제를 도시한 도면으로서, 도 6을 참조하면, 각 단어(예컨 대, 학생(ㅎ,ㅏ,ㄱ,ㅅ,ㅐ,ㅇ)과 학쌩(ㅎ,ㅏ,ㄱ,ㅆ,ㅐ,ㅇ))에서는 음소의 열인 Ci 로 구성되어 있으며, 각 음소는 주변의 음소인 Ci -1 Ci +1 영향에 의해 발음 변이가 ti 만큼 발생할 수 있으므로 수학식 9와 같은 문맥 종속 발음 변환 모델을 정의한다.
Figure 112006061040584-PAT00011
또한, 발음 변이 채널(303)은 음향 변이 채널(301)로부터 제공된 변이 음소열이 다른 길이를 갖는 음소열일 경우, 이 다른 길이를 갖는 변이 음소열에 대하여 수학식 9의
Figure 112006061040584-PAT00012
에 적용시키고, DHMM 기반 문맥 종속 오류 모델(3033)을 통해 모델링 하였을 때, 3가지 형태의 오류(예컨대, insertion cost, deletion cost, substitution cost)가 도 7의 상태 구조 도면에 도시된 DHMM 기반의 토폴로지(topology)와 같이 모델링되어 진다.
한편, 도 8은 본 발명에 따른 발음 변이 채널(303)에서의 복호화 과정 시 탐색 공간을 구성하게 되는 구체적인 저장매체의 구조에 대한 도면이다.
즉, 도 8을 참조하면, 음향 변이 채널(301)로부터 입력되는 변이 음소열인 "고려개발"과 "고려기원" 2단어를 인식하기 위해 저장매체 상에 적재되어야 할 탐색 공간용 데이터는 다음과 같이 문맥 종속 cost function(801)과 ARC 정보(803) 2가지이다.
첫 번째, 문맥 종속 cost function(801)은 음소의 문맥 종속 변이 채널과 동일한 의미를 지니며 수학식 9의
Figure 112006061040584-PAT00013
를 모델링한 것으로 특정음소 Ci가 주변문맥 Ci-1, Ci+1 에서 ti*으로 인식될 확률값으로 매트릭스(matrix) 형태의 데이터 구조체로 표현이 가능하다.
두 번째, ARC 정보(803)는 현재의 음소 다음에 위치하는 음소에 대한 정보를 저장한 ARC로 인식 대상 단어의 발음 변이 채널이 개별 음소의 발음 변이 채널의 연결로 구성되어 있으므로 어떤 음소들이 어떤 순서로 연결되어 단어를 구성하는지에 대한 정보를 포함하고 있다.
결국, 탐색 공간 데이터란 단어를 구성하는 모든 음소에 대한 문맥 종속 cost function(801)을 표현하기 위한 매트릭스(matrix)와 연결되는 음소를 표현하는 ARC 정보(803)이다.
더불어, 도 9는 본 발명에 따른 발음 변이 채널(303)에서의 탐색 공간 데이터를 생성하는 과정을 도시한 도면이다.
즉, 발음 변이 채널(303)내 임베디드 시스템에서 전체 탐색 공간 데이터를 저장매체(3033)에 적재하는 것이 불가능함에 따라 도 9에 도시된 바와 같이 외부 PC 환경(901)하에서 전체 탐색 공간 데이터를 구성한 후에 동적으로 탐색 공간 데이터를 적재하기에 적합한 형태의 바이너리 이미지로 변환한다.
이후, 변환된 바이너리 이미지는 발음 변이 채널(303)내 임베디드 시스템에 의해 제어되는 저장매체(3033)인 ROM이나 FLASH영역에 저장시킨 후에 비터비 디코딩부(3031)에 의해 필요한 탐색 공간 데이터만이 동적으로 적재된다.
그리고, 바이너리 이미지로 변환된 탐색 공간 데이터는 도 10에 도시된 바와 같이 음소별 위치 정의 이미지 구조(1001)와 탐색 공간 데이터 구조(1003)로 구분되며, 단어를 구성하는 각 음소(1st 음소,...,Nth 음소)에 대한 문맥종속 cost function과 ARC 정보에 해당하는 음소가 탐색 공간 데이터 파일내의 어느 위치에 존재하는지에 대한 정보를 포함한 테이블로 구성된다.
마지막으로, 도 11은 본 발명에 따른 비터비 디코딩중 현재의 음소 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 도시한 도면으로서, 현재 음소가 활성화되고 최적 경로가 될 가능성이 있으면 음소의 ARC 정보를 참조하여 현재의 음소에 따라 오는 음소에 대한 탐색 공간 데이터와 ARC 정보를 저장매체 상에 로드한다. 만일 현재의 음소가 현재의 최적 경로로부터 멀리 떨어져 있다면 현재의 음소를 비활성화하고 다음번에 나오는 음소들은 저장매체 상에 로딩하지 않는다.
따라서, 서로 독립적인 2개의 잡음 채널(음향 변이 채널 및 발음 변이 채널)을 통해 음성이 발성될 경우, 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 하며, 또한 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간 데이터를 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재 함으로써 저장매체 사용량을 최소화할 수 있다.
또한, 본 발명의 사상 및 특허청구범위 내에서 권리로서 개시하고 있으므로, 본원 발명은 일반적인 원리들을 이용한 임의의 변형, 이용 및/또는 개작을 포함할 수도 있으며, 본 명세서의 설명으로부터 벗어나는 사항으로서 본 발명이 속하는 업계에서 공지 또는 관습적 실시의 범위에 해당하고 또한 첨부된 특허청구범위의 제한 범위 내에 포함되는 모든 사항을 포함한다.
상기에서 설명한 바와 같이, 본 발명은 서로 독립적인 2개의 잡음 채널인 음향 변이 채널과 발음 변이 채널을 통해 음성이 발성될 경우, 이 발성된 음성을 개별적으로 복호화함으로써 인식 대상 어휘가 증가하게 될 경우에도 고속으로 음성 인식을 가능하게 할 수 있으며, 또한 제한된 저장매체 환경에서도 대규모 어휘에 대한 탐색 공간 데이터를 필요한 부분만을 예측하는 동적 적재 방식을 사용해 연산에 필요한 부분만을 저장매체 상에 적재함으로써 저장매체 사용량을 최소화할 수 있는 효과가 있다.

Claims (18)

  1. 휴대용 단말기의 음성 인식 시스템으로서,
    입력수단으로부터 입력되는 신호 중 음성신호만을 검출하여 특징 파라메타로 변환하고, 상기 변환된 특징 파라메타와 기설정된 해당 모델들을 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 산출하는 음향 변이 채널 수단과,
    상기 1차 디코딩된 변이 음소열과, 기세팅되어 분리된 DHMM(Discreate Hidden Markov Model) 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 산출하는 발음 변이 채널 수단
    을 포함하는 휴대용 단말기의 음성 인식 시스템.
  2. 제 1 항에 있어서,
    상기 음향 변이 채널 수단은,
    상기 입력수단으로부터 입력되는 신호 중 음성과 비음성을 구분 짓는 파라메타를 사용하여 음성신호 구간만을 분리 검출하는 끝점 검출수단과,
    상기 끝점 검출수단에 의해 검출된 음성 신호의 구간을 인식에 적합한 특징 파라메타로 변환하는 특징 추출수단과,
    CHMM 기반 문맥 독립 음소 모델과, 음소 3-gram 및 음소 지속 시간 모델을 저장하는 저장매체와,
    상기 저장매체에 기설정된 모델들 중 해당 모델과, 상기 변환된 특징 파라메타를 이용하여 제1복호화 과정 식에 적용 및 1차 비터비 디코딩시켜 변이 음소열을 구하는 비터비 디코딩 수단
    을 포함하는 휴대용 단말기의 음성 인식 시스템.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 제1복호화 과정 식은,
    수학식 3
    Figure 112006061040584-PAT00014
    (여기서, X는 입력된 음성신호에 대한 특징 파라메타인 벡터열이고, T는 음소열이다.)
    에 의해 음소열로 복호화되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  4. 제 3 항에 있어서,
    상기 수학식 3에 베이어 규칙을 적용시켜
    수학식 4
    Figure 112006061040584-PAT00015
    와 같이 사전 확률과 조건부 확률의 곱이 최대로 되는 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  5. 제 4 항에 있어서,
    상기 수학식 4에 음소 지속 시간 모델을 포함시켜
    수학식 5
    Figure 112006061040584-PAT00016
    (여기서, P(S\T)는 음소 지속 시간 모델로 음소가 입력 프레임을 점유할 확률로서, 지속 시간 및 주파수 변이의 함수로 모델링한다.)
    와 같이 deletion 오류를 조정시킨 변이 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  6. 제 1 항에 있어서,
    상기 발음 변이 채널 수단은,
    DHMM 기반 문맥종속 오류 모델을 저장하는 저장매체와,
    상기 음향 변이 채널에 의해 1차 디코딩된 변이 음소열과, 상기 저장매체에 저장된 DHMM 기반 문맥종속 오류 모델을 이용하여 제2복호화 과정 식에 적용 및 2차 비터비 디코딩시켜 단어 음소열을 구하는 비터비 디코딩 수단을
    포함하는 휴대용 단말기의 음성 인식 시스템.
  7. 제 1 항 또는 제 6 항에 있어서,
    상기 제2복호화 과정 식은,
    수학식 6
    Figure 112006061040584-PAT00017
    (여기서, T는 변이 음소열이고, W는 단어 음소열이다.)
    에 의해 단어 음소열로 복호화되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  8. 제 7 항에 있어서,
    상기 수학식 6에 베이어 규칙을 적용시켜
    수학식 7
    Figure 112006061040584-PAT00018
    과 같이 사전 확률과 조건부 확률의 곱이 최대로 되는 단어 음소열을 구하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  9. 제 1 항에 있어서,
    상기 발음 변이 채널에 의한 문맥 종속 발음 변이 모델은,
    수학식 9
    Figure 112006061040584-PAT00019
    에 의해 정의되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  10. 제 9 항에 있어서,
    상기 문맥 종속 발음 변이 모델은, DHMM 기반 문맥 종속 오류 모델을 통해 모델링하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  11. 제 6 항에 있어서,
    상기 발음 변이 채널 수단 내 저장 매체는, 문맥 종속 cost function과 ARC 정보인 탐색 공간용 데이터를 적재하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  12. 제 11 항에 있어서,
    상기 문맥 종속 cost function은, 음소의 문맥 종속 변이 채널과 동일한 의미를 지니며 상기 수학식 9 내
    Figure 112006061040584-PAT00020
    를 모델링한 것으로 특정음소 Ci가 주변문맥 Ci-1, Ci+1 에서 ti*으로 인식될 확률값으로 매트릭스(matrix) 형태의 데이터 구조체로 표현하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  13. 제 11 항에 있어서,
    상기 ARC 정보는, 음소 다음에 위치하는 음소에 대한 정보를 저장한 ARC로 인식 대상 단어의 발음 변이 채널이 개별 음소의 발음 변이 채널의 연결로 구성되어 해당 음소들의 연결되는 단어 구성 정보인 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  14. 제 11 항에 있어서,
    상기 탐색 공간용 데이터는, 단어를 구성하는 모든 음소에 대한 문맥 종속 cost function을 표현하기 위한 매트릭스(matrix)와 연결되는 음소를 표현하는 정보인 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  15. 제 14 항에 있어서,
    상기 탐색 공간 데이터는, 외부 PC에서 전체 탐색 공간 데이터를 구성한 후에 동적으로 탐색 공간 데이터를 적재하기에 적합한 형태의 바이너리 이미지로 변환되어 상기 발음 변이 채널 내 저장매체에 저장되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  16. 제 15 항에 있어서,
    상기 바이너리 이미지로 변환된 탐색 공간 데이터는, 음소별 위치 정의 이미지 구조와 탐색 공간 데이터 구조로 구분되는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  17. 제 6 항에 있어서,
    상기 발음 변이 채널내 비터비 디코딩 수단은,
    상기 음향 변이 채널로부터 제공된 변이 음소열의 상태에 따라 다음번 음소에 해당하는 탐색 공간 데이터를 동적으로 로딩할지를 결정하는 의사 코드를 사용하는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
  18. 제 17 항에 있어서,
    상기 의사 코드는, 현재 음소가 활성화되고 최적 경로가 될 가능성이 있으면 음소의 ARC 정보를 참조하여 현재의 음소에 따라 오는 음소에 대한 탐색 공간 데이터와 ARC 정보를 발음 변이 채널 내 저장매체에 로드하며, 상기 음소가 최적 경로로부터 멀리 떨어져 있다면 현재의 음소를 비활성화하고 다음번에 나오는 음소들은 저장매체 상에 로딩하지 않는 것을 특징으로 하는 휴대용 단말기의 음성 인식 시스템.
KR1020060081027A 2006-08-25 2006-08-25 휴대용 단말기의 음성 인식 시스템 KR100845428B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020060081027A KR100845428B1 (ko) 2006-08-25 2006-08-25 휴대용 단말기의 음성 인식 시스템
US11/642,132 US7856356B2 (en) 2006-08-25 2006-12-20 Speech recognition system for mobile terminal

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020060081027A KR100845428B1 (ko) 2006-08-25 2006-08-25 휴대용 단말기의 음성 인식 시스템

Publications (2)

Publication Number Publication Date
KR20080018622A true KR20080018622A (ko) 2008-02-28
KR100845428B1 KR100845428B1 (ko) 2008-07-10

Family

ID=39153035

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020060081027A KR100845428B1 (ko) 2006-08-25 2006-08-25 휴대용 단말기의 음성 인식 시스템

Country Status (2)

Country Link
US (1) US7856356B2 (ko)
KR (1) KR100845428B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013085613A1 (en) * 2011-12-08 2013-06-13 Noguar, L.C. Apparatus, system, and method for distinguishing voice in a communication stream
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101217524B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 고립어 엔베스트 인식결과를 위한 발화검증 방법 및 장치
US8949125B1 (en) * 2010-06-16 2015-02-03 Google Inc. Annotating maps with user-contributed pronunciations
US11195057B2 (en) 2014-03-18 2021-12-07 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US11074495B2 (en) 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
US8873813B2 (en) 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
US9916538B2 (en) 2012-09-15 2018-03-13 Z Advanced Computing, Inc. Method and system for feature detection
US11914674B2 (en) 2011-09-24 2024-02-27 Z Advanced Computing, Inc. System and method for extremely efficient image and pattern recognition and artificial intelligence platform
KR20130134620A (ko) * 2012-05-31 2013-12-10 한국전자통신연구원 디코딩 정보를 이용한 끝점 검출 장치 및 그 방법
US10957310B1 (en) 2012-07-23 2021-03-23 Soundhound, Inc. Integrated programming framework for speech and text understanding with meaning parsing
US11295730B1 (en) 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
KR102396983B1 (ko) 2015-01-02 2022-05-12 삼성전자주식회사 문법 교정 방법 및 장치
US20170069309A1 (en) * 2015-09-03 2017-03-09 Google Inc. Enhanced speech endpointing
KR20180087942A (ko) * 2017-01-26 2018-08-03 삼성전자주식회사 음성 인식 방법 및 장치
US11282512B2 (en) * 2018-10-27 2022-03-22 Qualcomm Incorporated Automatic grammar augmentation for robust voice command recognition
US11151979B2 (en) * 2019-08-23 2021-10-19 Tencent America LLC Duration informed attention network (DURIAN) for audio-visual synthesis

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5625749A (en) * 1994-08-22 1997-04-29 Massachusetts Institute Of Technology Segment-based apparatus and method for speech recognition by analyzing multiple speech unit frames and modeling both temporal and spatial correlation
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
US5822729A (en) * 1996-06-05 1998-10-13 Massachusetts Institute Of Technology Feature-based speech recognizer having probabilistic linguistic processor providing word matching based on the entire space of feature vectors
KR100353858B1 (ko) 1999-06-29 2002-09-26 주식회사 케이티 음성인식을 위한 문맥 종속 유사 음소의 생성 방법
JP5118280B2 (ja) * 1999-10-19 2013-01-16 ソニー エレクトロニクス インク 自然言語インターフェースコントロールシステム
KR20030097347A (ko) 2002-06-20 2003-12-31 삼성전자주식회사 휴대용 단말기의 음성인식을 이용한 문자메시지 전송 방법
KR20040061070A (ko) * 2002-12-30 2004-07-07 주식회사 케이티 음성인식시스템에서의 음성인식장치 및 그 방법
KR100486733B1 (ko) * 2003-02-24 2005-05-03 삼성전자주식회사 음소 결합정보를 이용한 연속 음성인식방법 및 장치
KR100554442B1 (ko) 2003-10-06 2006-02-22 주식회사 팬택앤큐리텔 음성인식 기능을 가진 이동 통신 단말기, 및 이를 위한음소 모델링 방법 및 음성 인식 방법
US7403941B2 (en) 2004-04-23 2008-07-22 Novauris Technologies Ltd. System, method and technique for searching structured databases
JP4364220B2 (ja) * 2006-06-23 2009-11-11 シャープ株式会社 画像処理システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645139B2 (en) 2009-06-03 2014-02-04 Samsung Electronics Co., Ltd. Apparatus and method of extending pronunciation dictionary used for speech recognition
WO2013085613A1 (en) * 2011-12-08 2013-06-13 Noguar, L.C. Apparatus, system, and method for distinguishing voice in a communication stream

Also Published As

Publication number Publication date
US20080059185A1 (en) 2008-03-06
US7856356B2 (en) 2010-12-21
KR100845428B1 (ko) 2008-07-10

Similar Documents

Publication Publication Date Title
KR100845428B1 (ko) 휴대용 단말기의 음성 인식 시스템
US11664020B2 (en) Speech recognition method and apparatus
US9934777B1 (en) Customized speech processing language models
JP6550068B2 (ja) 音声認識における発音予測
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
US9640175B2 (en) Pronunciation learning from user correction
JP3782943B2 (ja) 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
JP4528535B2 (ja) テキストから単語誤り率を予測するための方法および装置
KR100651957B1 (ko) 음성 인식에서 무음을 사용한 시스템
EP1575030A1 (en) New-word pronunciation learning using a pronunciation graph
US20050159949A1 (en) Automatic speech recognition learning using user corrections
JP2011180596A (ja) 音声プロセッサ、音声処理方法および音声プロセッサの学習方法
JP5175325B2 (ja) 音声認識用wfst作成装置とそれを用いた音声認識装置と、それらの方法とプログラムと記憶媒体
JP2005165272A (ja) 多数の音声特徴を利用する音声認識
JP2017167188A (ja) 情報処理装置、情報処理方法、プログラムおよび認識システム
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP5688761B2 (ja) 音響モデル学習装置、および音響モデル学習方法
Lamel et al. Speech recognition
JP5184467B2 (ja) 適応化音響モデル生成装置及びプログラム
JP4283133B2 (ja) 音声認識装置
JP6852029B2 (ja) ワード検出システム、ワード検出方法及びワード検出プログラム
JP3917880B2 (ja) 音声認識装置、音声認識方法及び音声認識プログラム
KR20230064466A (ko) 음성 인식 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130624

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20140630

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20150629

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170627

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20180627

Year of fee payment: 11