KR20080052248A - 고속 음성 인식 방법 및 시스템 - Google Patents

고속 음성 인식 방법 및 시스템 Download PDF

Info

Publication number
KR20080052248A
KR20080052248A KR1020070059710A KR20070059710A KR20080052248A KR 20080052248 A KR20080052248 A KR 20080052248A KR 1020070059710 A KR1020070059710 A KR 1020070059710A KR 20070059710 A KR20070059710 A KR 20070059710A KR 20080052248 A KR20080052248 A KR 20080052248A
Authority
KR
South Korea
Prior art keywords
gaussian
probability
speech
feature vector
state
Prior art date
Application number
KR1020070059710A
Other languages
English (en)
Other versions
KR100915638B1 (ko
Inventor
정훈
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to US11/881,961 priority Critical patent/US20080140399A1/en
Publication of KR20080052248A publication Critical patent/KR20080052248A/ko
Application granted granted Critical
Publication of KR100915638B1 publication Critical patent/KR100915638B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 고속 음성 인식 방법 및 시스템에 관한 것으로, 가우시안 혼합 모델(Gaussian Mixture Model)을 관측 확률로 사용하는 CDHMM(Continuous Density Hidden Markov Model)에서, 입력된 특징 벡터에 대하여 상태별 관측 확률에 기여도가 높은 K개만의 가우시안 성분만을 더해 상태별 관측 확률로 사용함으로써, 인식률 측면에서는 상태별 관측 확률의 근사도를 높여 음성 인식 성능 저하를 최소화하는 한편, 연산량 측면에서는 입력된 특징 벡터의 모든 가우시안 확률값을 더해 상태별 관측 확률로 사용하는 종래의 음성 인식에 비하여 관측 확률 계산에 필요한 덧셈의 횟수를 줄여 음성인식에 소요되는 전체 연산량을 줄일 수 있는 것을 특징으로 한다.
음성 인식, 비터비 알고리즘, HMM, K-NEAREST NEIGHBOR, GMM

Description

고속 음성 인식 방법 및 시스템{The method and system for high-speed voice recognition}
도 1은 본 발명에 따른 고속 음성 인식 시스템의 구성을 나타낸 블록도이다.
도 2는 본 발명에 따른 고속 음성 인식 방법의 흐름도이다.
*도면의 주요부분에 대한 부호의 설명*
110: 전처리부 130: 특징 벡터 추출부
150: 가우시안 확률 계산부 170: 상태 기반의 근사화부
190: 음성 인식부
본 발명은 고속 음성 인식 방법 및 시스템에 관한 것으로, 더 자세하게는 음성의 특징 벡터에 대한 관측 확률을 계산할 때 관측 확률에 대한 기여도가 높은 K개의 가우시안 확률값만을 더하여 상태별 관측 확률을 계산함으로써, 관측 확률 계산에 소요되는 전체 연산량을 최소화하여 고속으로 음성 인식이 가능하면서도 음성 인식 성능을 향상시킬 수 있는 기술에 관한 것이다.
음성 인식(Voice Recognition)이란, 음성에 포함된 음향학적 정보로부터 음 운, 언어적 정보를 추출하여 이를 기계가 인지하고 반응하게 하는 일련의 과정이다.
음성 인식 알고리즘으로는 동적 정합법(Dynamic Time Warping), 신경 회로망(Neural Network) 및 은닉 마르코프 모델(Hidden Markov Model, 이하 'HMM'이라 함) 등이 있으며, 그 중 HMM은 음성의 단위(음운, 단어)를 통계적으로 모델화한 것으로서, 음성 신호에 대한 강력한 모델링 능력과 높은 인식 정확도를 갖기 때문에 음성 인식 분야에서 널리 사용되고 있다.
상기 HMM은 음성 신호의 시간적인 통계적 특성을 이용하여 훈련 데이터로부터 이들을 대표하는 모델을 구성한 후 실제 음성 신호와 유사도가 높은 확률 모델을 인식 결과로 채택하는 알고리즘으로, 단독음이나 연결음, 연속음 인식에까지 구현이 용이하며 좋은 인식 성능을 나타내어 여러 가지 응용 분야에 많이 이용되고 있다.
이와 같은 HMM을 이용한 음성 인식 방법은 전처리 단계 및 인식(또는 탐색) 단계로 나누어진다. 각 단계에 사용되는 방법을 예를 들어 설명하면 먼저, 전처리 단계는 음성 신호로부터 발음 특징(utterance feature)을 표현하는 특징 파라미터를 추출하며, 이를 위해 시간 정렬(time alignment)과 정규화(normalization)와 끝점 검출 절차(end-point detection process)를 갖는 선형 예측 부호화(LPC:Linear Predictive Coding) 및 필터 뱅크 프론트 엔드 절차(filter bank front-end procedure)로 구성된다. 그 다음, 음성 인식의 핵심 처리 단계인 인식 단계에서는 비터비(Viterbi) 디코딩 알고리즘을 기반으로 상기 추출된 발음의 특징 파라미터와 학습(training) 단계를 통해 발음 사전에 저장된 단어의 특징 파라미터를 비교하여 가장 잘 매칭된 발음열(utterance sequence)을 찾는다.
상기 HMM은 사용되는 관측 확률의 종류에 따라 3가지 형태, discrete HMM, semi-continuous HMM, continuous density HMM으로 나뉘는데, 이중 각 상태의 관측 확률 모델로 가우시안 혼합 모델인 GMM(Gaussian Mixture model)을 사용하는 CDHMM이 높은 인식 성능으로 인해 널리 사용되고 있다.
하지만, CDHMM에서 각 상태별 관측 확률인 GMM을 이용하여 입력된 특징 벡터에 대한 모든 관측확률값을 구하는 것은 매우 많은 연산량이 소요되므로 이를 줄이기 위한 일반적인 방식으로 GS(Gaussian Selection)가 제안되었다.
상기 GS는 입력된 특징 벡터에 근접한 위치에 있는 가우시안 성분에 대해서만 확률값을 직접 구하고 멀리 떨어져 있는 가우시안 성분들에 대해서는 미리 정의된 상수값을 대체하여 사용하는 방식이다.
그러나, 이와 같은 GS방식은 입력된 특징 벡터와 멀리 떨어져 있는 가우시안 성분들에 대해서 그 근접도에 상관없이 모두 동일한 상수값이 할당되기 때문에, 관측 확률값간의 변별력을 떨어뜨려 결과적으로는 인식 성능의 저하를 초래하는 한계점이 있다.
본 발명은 상기한 문제점들을 해결하기 위해 안출된 것으로, 본 발명의 목적은 인식 성능이 저하되지 않으면서도 연산량을 최소화함으로써 고속의 음성 인식이 가능한 음성 인식 방법 및 시스템을 제공하는 것이다.
상기 과제를 이루기 위하여 본 발명에 따른 고속 음성 인식 시스템은, 입력된 음성 신호에서 음성 구간을 추출하는 전처리부; 상기 추출된 음성 구간에서 음성의 특징 벡터를 추출하는 특징 벡터 추출부; 상기 추출된 음성의 특징 벡터에 대한 가우시안 확률값을 계산하는 가우시안 확률 계산부; 상기 계산된 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 이용하여 상태별 관측 확률을 계산하는 상태 기반의 근사화부; 및 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 음성 인식부를 포함하는 것을 특징으로 한다.
한편, 상기 과제를 이루기 위하여 본 발명에 따른 고속 음성 인식 방법은, 입력된 음성 신호에서 음성 구간을 추출하는 단계; 상기 추출된 음성 구간에서 음성의 특징 벡터를 추출하는 단계; 상기 추출된 음성의 특징 벡터에 대한 각 가우시안 확률값을 계산하는 단계; 상기 계산된 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 이용하여 상태별 관측 확률을 계산하는 단계; 및 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명한다.
도 1은 본 발명에 따른 고속 음성 인식 시스템의 구성을 나타낸 블록도이다.
도 1에 도시된 바와 같이, 본 발명의 음성 인식 시스템은, 입력된 음성 신호에서 음성 구간을 추출하는 전처리부(110), 상기 추출된 음성 구간에서 음성의 특징 벡터를 추출하는 특징 벡터 추출부(130), 상기 음성의 특징 벡터에 대한 가우시안 확률값을 계산하는 가우시안 확률 계산부(150), 상기 계산된 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 이용하여 상태별 관측 확률을 계산하는 상태 기반의 근사화부(170), 음성 인식을 위한 음향 모델(180), 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 음성 인식부(190)로 이루어져 있다.
상기 전처리부(110)는 입력된 음성 신호에서 끝점을 검출하여 음성 구간을 추출하며, 이와 같은 음성 구간 추출 방법은 종래 기술에 공지되어 있으므로, 여기에서 상세한 설명을 생략하여도 본 기술분야의 당업자에 의해 쉽게 이해될 수 있을 것이다.
상기 특징 벡터 추출부(130)는 상기 음성 구간에 포함된 음성 신호의 특징 벡터를 추출하는데, 예를 들어, 선형 예측 부호화(LPC; Linear Predictive Coding), 인지 선형 예측 켑스트럼 계수(PLPCC; Perceptual Linear Prediction Cepstrum Coefficient) 특징 추출 방식, 멜 주파수 켑스트럼 계수(MFCC; Mel-Frequency Cepstrum Coefficients) 특징 추출 방식 중 적어도 하나를 이용하여 음성 신호의 특징 벡터를 추출할 수 있다.
본 발명은 GMM을 상태의 관측 확률로 사용하는 CDHMM(Continuous Density HMM) 기반의 음성 인식 시스템에 있어서, 다음에 설명하는 바와 같이 추출된 특징 벡터에 대한 관측 확률을 계산할 때 근접도에 따른 상태 기반의 근사화를 이용하여 음성 인식 성능이 저하되지 않으면서도 연산량을 최소화하는 것에 가장 큰 특징이 있으며, 먼저 본 발명의 이해를 돕기 위해 GMM에 대해 개략적으로 설명하면 다음과 같다.
GMM은 M개의 가우시안 확률 밀도(Gaussian probability density)가 결합되어 있는 모델로, 길이 T개의 동등하고 독립적으로 분포된 특징 벡터(O)가 주어진 경우, 특징 벡터(O)에 대한 GMM 확률값(P(O))은 다음의 수학식 1과 같이 표현할 수 있다.
Figure 112007044119796-PAT00001
상기 수학식 1에 있어서, O는 음성의 특징 벡터, M은 전체 가우시안 성분의 개수,
Figure 112007044119796-PAT00002
은 m번째 가우시안 성분의 가중치,
Figure 112007044119796-PAT00003
은 평균(
Figure 112007044119796-PAT00004
)과 분산(
Figure 112007044119796-PAT00005
)을 갖는 다변수 가우시안(Multivariate Gaussian) 분포를 각각 의미한다.
즉, GMM이 M개의 가우시안으로 구성된 경우 가우시안 확률의 덧셈이 총 M번 이루어지게 되며, 여기에서 m번째까지 가우시안 확률값이 더해진 값을
Figure 112007044119796-PAT00006
라 하면,
Figure 112007044119796-PAT00007
는 다음의 수학식 2와 같이 나타낼 수 있다.
Figure 112007044119796-PAT00008
상기 수학식 2에 있어서,
Figure 112007044119796-PAT00009
은 m-1번째까지 가우시안 확률값이 더해진 값을 나타내고,
Figure 112007044119796-PAT00010
은 m번째 가우시안 확률값을 나타낸다.
그러나, 실제 음성 인식 시스템에서 상기 수학식 2에 의해 GMM의 관측 확률을 계산하면 그 확률값이 너무 작아서 언더플로우(underflow)가 발생할 우려가 있기 때문에, 이를 방지하기 위해 다음의 수학식 3과 같이 로그 영역에서 관측 확률을 계산한다.
Figure 112007044119796-PAT00011
상기 수학식 3에서, 상기
Figure 112007044119796-PAT00012
는 다변수 가우시안 분포로 다음의 수학식 4와 같이 정의된다.
Figure 112007044119796-PAT00013
(여기에서, n은 특징 벡터열의 차원임)
하지만, 상기 수학식 4의
Figure 112007044119796-PAT00014
가 exp() 함수의 형식으로 되어 있으므로, 계산의 편의를 위해 상기 수학식 3에 자연로그를 취하면 상기 수학식 3은 다음의 수학식 5와 같이 나타낼 수 있다.
Figure 112007044119796-PAT00015
상기 수학식 5에 있어서, a는
Figure 112007044119796-PAT00016
를 나타내며, b는
Figure 112007044119796-PAT00017
를 나타낸다.
즉, 음성의 특징 벡터에 대한 GMM의 관측 확률을 로그 영역에서 계산하는 경우, 상기 수학식 5와 같이 가우시안 분포로 구성된 GMM을 M번 로그 덧셈 연산하는 과정이 필요할 뿐만 아니라, 상기 수학식 3에서와 같이 원하는 최종값은 log를 한번 취한 GMM 확률값인데, 상기 수학식 5에 의하면 자연 로그까지 취해진 확률값이 구해지므로, 이를 다시 exp()로 변경하여 log()를 취하는 과정을 반복해야 한다. 따라서, 이로 인해 비터비 디코딩 알고리즘을 이용한 인식 단계에서 불필요하게 연산량이 증가되어 음성 인식 시간이 길어지게 된다.
따라서, 본 발명에서는 연산량 감소를 위해 다음과 같이 음성의 특징 벡터에 대한 가우시안 확률값을 구한 후 그 중에서 가장 관측 확률에 기여도가 높은 K개의 가우시안 성분만을 더하여 상태별 관측 확률을 계산함으로써, 상기와 같은 로그 덧셈 연산량을 줄여 관측 확률 계산에 소요되는 전체 연산량을 줄여 고속의 음성 인식이 가능하도록 하며, 이하의 설명에서 이와 관련한 상태 기반의 근사화를 이용한 관측 확률 계산 방식에 대하여 보다 상세히 설명한다.
우선, 본 발명에 따른 상태 기반의 근사화를 이용한 관측 확률 계산은, (1) 음성의 특징 벡터에 대하여 각 가우시안 확률값을 계산하는 제 1 단계와, (2) 상기 계산된 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 더하여 상태별 관측 확률을 계산하는 제 2 단계와, (3) 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 제 3 단계로 이루어지며, 각 단계에 대하여 더 자세히 설명하면 다음과 같다.
(1) 음성의 특징 벡터에 대한 가우시안 확률값 계산
먼저, 제 1 단계로, 상기 가우시안 확률 계산부(150)에서는 상기 수학식 4를 이용하여 음성의 특징 벡터(O)에 대한 각 가우시안 확률값을 계산한다.
(2) 상태 기반의 근사화를 이용하여 상태별 관측 확률 계산
제 2 단계로, 상기 상태 기반의 근사화부(170)에서는 다음의 수학식 6에 의해 상기 계산된 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 선택한 후 선택된 가우시안 성분들을 더하여 상태별 관측 확률을 계산한다.
Figure 112007044119796-PAT00018
상기 수학식 6에 있어서, Ks ,m은 상태 S에서의 m번째 가우시안 성분에 근접한 K개의 근접 가우시안 성분의 집합을 나타내며, arg mini(k)는 상태 S에서 주어진 거리 측정 함수 δ(i,j)에 따라 m번째 가우시안 성분 Ns(m)에 근접한 K개의 가우시안 성분들을 선택하는 것을 나타낸다.
즉, 가장 높은 확률을 갖는 가우시안 성분에 근접한 K개의 가우시안 성분을 구하는 방법으로, 모든 가우시안 확률값을 크기순으로 정렬(sorting)하여 그 중에서 상위 K개의 가우시안 확률값을 구하는 방법을 생각해볼 수 있는데, 이 방법은 정렬 연산에 의해 계산량이 많아지게 되는 문제점이 있다.
이를 위해, 본 발명에서는 상기 수학식 6에서와 같이 음성 인식 이전에 미리 모든 가우시안 성분에 대해 각 가우시안 성분과 근접한 거리에 위치한 K개의 가우시안에 대한 정보를 구하여 이들을 집합으로 구성해놓은 것이다.
따라서, 입력된 특징 벡터에 대한 가장 높은 확률을 갖는 가우시안 성분은 정렬 연산을 하지 않고도 간단하게 구할 수 있으므로, 가장 높은 확률을 갖는 가우시안 성분이 구해지면 이에 따라 미리 구성된 집합에서 K개의 근접한 거리에 위치 한 가우시안 성분들을 바로 선택할 수 있게 된다.
이 때, 상기 수학식 6에서 어떤 거리 측정 함수가 사용되느냐에 따라 개별 가우시안과 근접한 K개의 가우시안 성분이 다르게 선택될 수 있는데, 본 발명에서는 다음의 수학식 7과 같은 유클리디언 거리(euclidean distance) 함수, 가중 유클리디언 거리(weighted euclidean distance) 함수, 바타챠랴 거리(Bhattacharyya distance) 함수를 이용하여 가우시안 분포간의 거리를 측정한다.
Figure 112007044119796-PAT00019
상기 수학식 7에 있어서, δe(N(i),N(j))는 유클리디언 거리(euclidean distance) 함수, δw(N(i),N(j))는 가중 유클리디언 거리(weighted euclidean distance) 함수, δb(N(i),N(j))는 바타챠랴 거리(Bhattacharyya distance) 함수를 각각 나타낸다.
즉, 상태별 GMM을 구성하는 각 개별 가우시안 성분에 대하여 그에 근접한 거리에 있는 K개의 가우시안 성분에 대한 정보가 미리 집합으로 구성되어 있는 상태에서, 상기 가우시안 확률 계산부(150)를 통해 음성의 특징 벡터에 대한 각 가우시 안 확률값이 계산되면, 상기 상태 기반의 근사화부(170)에서는 상기 계산된 가우시안 확률값 중 가장 관측확률이 높은 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 더하여 상태별 관측 확률을 계산한다.
따라서, 관측확률이 가장 높은 가우시안 성분과 그에 근접한 K개의 가우시안 성분은 항상 상태별 관측 확률 계산에 포함되므로, 입력된 특징 벡터와 멀리 떨어져 있는 가우시안 성분들에 대하여 모두 동일한 상수값이 할당되는 GS 방식에 비하여, 상태별 관측 확률의 근사도를 높일 수 있으며 이에 따라 음성 인식 성능 저하를 최소화할 수 있다. 또한, 연산량에 있어서도 상기 GS 방식은 M번의 가우시안 확률값을 더하는 연산이 필요한 반면, 본 발명에서는 단지 K개의 가우시안 성분을 더하는 연산만이 필요하므로 M-K만큼의 연산량 감소를 기대할 수 있다.
(3) 상태별 관측 확률을 이용한 음성 인식
제 3 단계로, 상기 음성 인식부(190)에서는 비터비 디코딩 알고리즘을 기반으로 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행한다.
이와 같이, 본 발명의 음성 인식 시스템에서는 음성의 특징 벡터에 대한 상태 관측 확률을 계산할 때 음성의 특징 벡터에 대한 개별 가우시안 확률값을 구한 후 그 중에서 가장 관측 확률에 기여도가 높은 K개의 가우시안 성분만을 더하여 상태별 관측 확률을 계산함으로써, 관측 확률 계산에 소요되는 전체 연산량을 줄여 고속의 음성 인식이 가능하도록 하면서도 음성 인식 성능을 향상시킬 수 있다.
이하, 본 발명에 따른 고속 음성 인식 방법에 대하여 첨부된 도면을 참조하여 상세히 설명한다.
도 2는 본 발명에 따른 고속 음성 인식 방법의 흐름도이다.
먼저, 음성 신호가 입력되면(S210), 입력된 음성 신호에서 끝점을 검출하여 음성 구간을 추출한다(S220).
다음으로, 상기 음성 구간에 포함된 음성 신호의 특징 벡터를 추출하는데(S230), 음성의 특징 벡터 추출 방법으로는 전술한 바와 같이 선형 예측 부호화(LPC; Linear Predictive Coding), 인지 선형 예측 켑스트럼 계수(PLPCC; Perceptual Linear Prediction Cepstrum Coefficient) 특징 추출 방식, 멜 주파수 켑스트럼 계수(MFCC; Mel-Frequency Cepstrum Coefficients) 특징 추출 방식을 사용할 수 있다.
다음으로, 상기 추출된 음성의 특징 벡터에 대하여 가우시안 확률값을 계산한 후(S240), 상기 계산된 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 선택한다(S250).
여기에서, 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 선택하는 것에 관하여는 상기 수학식 6과 관련된 설명에서 자세히 설명하였으므로, 이에 대한 자세한 설명은 생략한다.
다음으로, 상기 선택된 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 더하여 상태별 관측 확률을 계산한 후(S260), 비터비 디코딩 알고리즘을 기반으로 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행한다(S270).
즉, 본 발명의 음성 인식 방법은 추출된 음성 특징 벡터에 대하여 상태별 GMM을 구성하는 여러개의 가우시안 확률값 중 가장 관측 확률에 기여도가 높은 K개의 가우시안 성분만을 더하여 관측 확률을 계산함으로써, 관측 확률 계산에 소요되는 전체 연산량을 최소화하여 고속의 음성 인식을 가능하게 하면서도 음성 인식 성능이 저하되지 않도록 한다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드디스크 등), 광학적 판독 매체(예를 들면, 씨디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
상술한 바와 같이, 본 발명에 따르면, 관측 확률 계산에 소요되는 전체 연산량을 최소화하여 고속의 음성 인식이 가능하면서도 음성 인식 성능을 향상시킬 수 있는 효과가 있다.

Claims (10)

  1. 입력된 음성 신호에서 음성 구간을 추출하는 전처리부;
    상기 추출된 음성 구간에서 음성의 특징 벡터를 추출하는 특징 벡터 추출부;
    상기 추출된 음성의 특징 벡터에 대한 각 가우시안 확률값을 계산하는 가우시안 확률 계산부;
    상기 계산된 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 이용하여 상태별 관측 확률을 계산하는 상태 기반의 근사화부; 및
    상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 음성 인식부를 포함하는 것을 특징으로 하는 고속 음성 인식 시스템.
  2. 제 1항에 있어서, 상기 상태 기반의 근사화부는,
    상기 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분을 선택하고, 상태별로 거리 측정 함수에 따라 상기 선택된 가장 높은 확률을 갖는 가우시안 성분에 근접한 K개의 가우시안 성분을 선택한 후, 상기 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 더하여 상기 음성의 특징 벡터에 대한 상태별 관측 확률을 계산하는 것을 특징으로 하는 고속 음성 인식 시스템.
  3. 제 2항에 있어서, 상기 상태 기반의 근사화부는,
    유클리디언 거리(euclidean distance) 함수, 가중 유클리디언 거리(weighted euclidean distance) 함수, 바타챠랴 거리(Bhattacharyya distance) 함수 중 어느 하나의 거리 측정 함수에 따라 상기 가장 높은 확률을 갖는 가우시안 성분에 근접한 K개의 가우시안 성분을 선택하는 것을 특징으로 하는 고속 음성 인식 시스템.
  4. 제 1항 내지 제 3항 중 어느 한 항에 있어서,
    가우시안 혼합 모델(GMM)을 구성하는 각 개별 가우시안 성분에 대하여 그에 근접한 거리에 있는 K개의 가우시안 성분에 대한 정보가 미리 집합으로 구성된 것을 특징으로 하는 고속 음성 인식 시스템.
  5. 입력된 음성 신호에서 음성 구간을 추출하는 단계;
    상기 추출된 음성 구간에서 음성의 특징 벡터를 추출하는 단계;
    상기 추출된 음성의 특징 벡터에 대한 각 가우시안 확률값을 계산하는 단계;
    상기 계산된 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 이용하여 상태별 관측 확률을 계산하는 단계; 및
    상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하여 음성 인식을 수행하는 단계를 포함하는 것을 특징으로 하는 고속 음성 인식 방법.
  6. 제 5 항에 있어서, 상기 입력된 음성 신호에서 음성 구간을 추출하는 단계 이전에,
    가우시안 혼합 모델(GMM)을 구성하는 각 개별 가우시안 성분에 대하여 그에 근접한 거리에 있는 K개의 가우시안 성분에 대한 정보를 미리 집합으로 구성하는 단계를 더 포함하는 것을 특징으로 하는 고속 음성 인식 방법.
  7. 제 5항에 있어서, 상기 추출된 음성의 특징 벡터에 대한 각 가우시안 확률값을 계산하는 단계에서,
    상기 추출된 음성의 특징 벡터에 대한 각 가우시안 확률값은,
    Figure 112007044119796-PAT00020
    (여기에서, O는 음성의 특징 벡터,
    Figure 112007044119796-PAT00021
    은 m번째 가우시안 성분의 가중치,
    Figure 112007044119796-PAT00022
    은 평균(
    Figure 112007044119796-PAT00023
    )과 분산(
    Figure 112007044119796-PAT00024
    )을 갖는 다변수 가우시안(Multivariate Gaussian) 분포, n은 특징 벡터열의 차원을 각각 의미함)
    에 의해 계산되는 것을 특징으로 하는 고속 음성 인식 방법.
  8. 제 5항에 있어서, 상기 상태별 관측 확률을 계산하는 단계에서,
    상기 계산된 음성의 특징 벡터에 대한 가우시안 확률값 중 가장 높은 확률을 갖는 가우시안 성분을 선택하는 단계;
    상태별로 거리 측정 함수에 따라 상기 가장 높은 확률을 갖는 가우시안 성분에 근접한 K개의 가우시안 성분을 선택하는 단계; 및
    상기 선택된 가장 높은 확률을 갖는 가우시안 성분과 그에 근접한 K개의 가우시안 성분을 더하여 상기 음성의 특징 벡터에 대한 상태별 관측 확률을 계산하는 단계를 더 포함하는 것을 특징으로 하는 고속 음성 인식 방법.
  9. 제 8항에 있어서,
    상기 거리 측정 함수는 유클리디언 거리(euclidean distance) 함수, 가중 유클리디언 거리(weighted euclidean distance) 함수, 바타챠랴 거리(Bhattacharyya distance) 함수 중 어느 하나인 것을 특징으로 하는 고속 음성 인식 방법.
  10. 제 5항에 있어서, 상기 음성 인식 수행 단계에서,
    비터비 디코딩 알고리즘을 기반으로 상기 계산된 상태별 관측 확률을 이용하여 유사도를 계산하는 단계를 더 포함하는 것을 특징으로 하는 고속 음성 인식 방법.
KR1020070059710A 2006-12-06 2007-06-19 고속 음성 인식 방법 및 시스템 KR100915638B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US11/881,961 US20080140399A1 (en) 2006-12-06 2007-07-30 Method and system for high-speed speech recognition

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20060123153 2006-12-06
KR1020060123153 2006-12-06

Publications (2)

Publication Number Publication Date
KR20080052248A true KR20080052248A (ko) 2008-06-11
KR100915638B1 KR100915638B1 (ko) 2009-09-04

Family

ID=39807093

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070059710A KR100915638B1 (ko) 2006-12-06 2007-06-19 고속 음성 인식 방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100915638B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101217525B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
KR101250668B1 (ko) * 2011-05-23 2013-04-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
KR20160076909A (ko) * 2014-12-23 2016-07-01 주식회사 케이티 음성 인식의 속도를 개선하는 방법, 장치 및 컴퓨터 판독가능 매체

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111949003B (zh) * 2020-07-17 2021-09-03 浙江浙能技术研究院有限公司 一种基于SFA与Hellinger距离的闭环控制回路性能评价方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101217525B1 (ko) * 2008-12-22 2013-01-18 한국전자통신연구원 비터비 디코더와 이를 이용한 음성 인식 방법
KR101250668B1 (ko) * 2011-05-23 2013-04-03 수원대학교산학협력단 Gmm을 이용한 응급 단어 인식 방법
KR20160076909A (ko) * 2014-12-23 2016-07-01 주식회사 케이티 음성 인식의 속도를 개선하는 방법, 장치 및 컴퓨터 판독가능 매체

Also Published As

Publication number Publication date
KR100915638B1 (ko) 2009-09-04

Similar Documents

Publication Publication Date Title
US9536525B2 (en) Speaker indexing device and speaker indexing method
CN106875936B (zh) 语音识别方法及装置
JP5229478B2 (ja) 統計モデル学習装置、統計モデル学習方法、およびプログラム
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
JP4322785B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
CN105654940B (zh) 一种语音合成方法和装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
CN107093422B (zh) 一种语音识别方法和语音识别系统
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
Itoh et al. N-best entropy based data selection for acoustic modeling
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
JP4769098B2 (ja) 音声認識信頼度推定装置、その方法、およびプログラム
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
KR101122591B1 (ko) 핵심어 인식에 의한 음성 인식 장치 및 방법
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
US20080140399A1 (en) Method and system for high-speed speech recognition
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
Bhati et al. Unsupervised segmentation of speech signals using kernel-gram matrices
Becerra et al. A comparative case study of neural network training by using frame-level cost functions for automatic speech recognition purposes in Spanish
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
CN113990325A (zh) 流式语音识别方法及装置、电子设备、存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 4

FPAY Annual fee payment

Payment date: 20130729

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20140728

Year of fee payment: 6

FPAY Annual fee payment

Payment date: 20150728

Year of fee payment: 7

LAPS Lapse due to unpaid annual fee