KR20060072504A - 음성 인식 방법 및 장치 - Google Patents

음성 인식 방법 및 장치 Download PDF

Info

Publication number
KR20060072504A
KR20060072504A KR1020040111164A KR20040111164A KR20060072504A KR 20060072504 A KR20060072504 A KR 20060072504A KR 1020040111164 A KR1020040111164 A KR 1020040111164A KR 20040111164 A KR20040111164 A KR 20040111164A KR 20060072504 A KR20060072504 A KR 20060072504A
Authority
KR
South Korea
Prior art keywords
length
phonemes
speech
scores
input voice
Prior art date
Application number
KR1020040111164A
Other languages
English (en)
Other versions
KR100682909B1 (ko
Inventor
한익상
정상배
김정수
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040111164A priority Critical patent/KR100682909B1/ko
Priority to US11/315,182 priority patent/US7684986B2/en
Publication of KR20060072504A publication Critical patent/KR20060072504A/ko
Application granted granted Critical
Publication of KR100682909B1 publication Critical patent/KR100682909B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 입력 음성의 특징과 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하고, 이 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정함으로써, 음성 인식률이 매우 높아지고, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)이 대폭 감소된다.

Description

음성 인식 방법 및 장치{Method and apparatus for recognizing speech}
도 1은 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템의 구성도이다.
도 2는 도 1에 도시된 스코어 재계산부(13)의 상세 구성도이다.
도 3은 정규 상관 계수를 계산하는 일례를 도시한 도면이다.
도 4는 도 1에 도시된 제 2 음성 훈련 장치(3)의 상세 구성도이다.
도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 6은 도 5에 도시된 52 단계의 상세 흐름도이다.
도 7은 도 5에 도시된 57 단계의 상세 흐름도이다.
도 8은 도 1에 도시된 음성 인식 시스템에서의 실험 결과를 나타낸 표이다.
본 발명은 음성 인식 장치 및 방법에 관한 것으로써, 보다 상세하게는 HMM(Hidden Markov Model) 모델에 기초한 음성 인식 장치 및 방법에 관한 것이다.
최근의 음성 인식 기술들은 대부분 IBM(International Business Machines)에 의해 개발된 HMM 모델을 기반으로 한다. HMM 모델은 음성의 단위, 즉 음소 (phoneme) 또는 음절(syllable)을 통계적으로 모델화한 것이다. HMM 모델에 기초한 종래의 음성 인식 기술은 음성의 특징을 나타내기 위하여 MFCC(Mel Frequency Cepstral Coefficient) 계수들을 사용하였는데, 이 MFCC 계수들만을 사용해서는 동일 음소 또는 동일 음절이 중첩되는 경우를 식별하기 어렵다는 문제점이 있었다.
또한, 종래의 음성 인식 기술들 중 음소의 절대적 길이를 이용하여 음성을 인식하는 방식도 있는데, 음소의 절대적 길이를 이용하였기 때문에 화자의 발화 속도 대처에 미흡하다는 문제점이 있었다.
본 발명이 이루고자 하는 기술적 과제는 동일 음소 또는 동일 음절의 중첩 여부를 식별할 수 있고, 화자의 발화 속도에 유연하게 대처할 수 있는 음성 인식 장치들 및 방법들을 제공하는데 있다. 또한, 상기 방법들을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공하는데 있다.
상기 기술적 과제를 해결하기 위한 본 발명에 따른 음성 인식 방법은 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 상기 입력 음성의 특징과 상기 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하는 단계; 및 상기 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 상기 입력 음성에 대한 인식 음성으로 결정하는 단계를 포함한다.
상기 다른 기술적 과제를 해결하기 위한 본 발명에 따른 음성 인식 장치는 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 상기 입력 음성의 특징과 상기 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하는 제 1 스코어 계산부; 및 상기 제 1 스코어 계산부에 의해 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 상기 입력 음성에 대한 인식 음성으로 결정하는 인식 음성 결정부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 음성 인식 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 스코어 계산 방법은 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들 각각의 길이의 유사 정도를 나타내는 상관 계수들을 계산하는 단계; 및 상기 계산된 상관 계수들을 이용하여 상기 입력 음성의 특징과 상기 후보 음성들 각각의 특징의 유사 정도를 나타내는 스코어들을 계산하는 단계를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위한 본 발명에 따른 스코어 계산 장치는 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들 각각의 길이의 유사 정도를 나타내는 상관 계수들을 계산하는 상관 계수 계산부; 및 상기 상관 계수 계산부에 의해 계산된 상관 계수들을 이용하여 상기 입력 음성의 특징과 상기 후보 음성들 각각의 특징의 유사 정도를 나타내는 스코어들을 계산하는 스코어 계산부를 포함한다.
상기 또 다른 기술적 과제를 해결하기 위하여, 본 발명은 상기된 스코어 계 산 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록 매체를 제공한다.
이하에서는 도면을 참조하여 본 발명의 바람직한 실시예들을 상세히 설명한다.
도 1은 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템의 구성도이다.
도 1을 참조하면, 본 실시예에 따른 음성 인식 시스템은 음성 인식 장치(1), 제 1 음성 훈련 장치(2), 및 제 2 음성 훈련 장치(3)로 구성된다. 일반적으로, 음성 인식 장치(1)는 음성 인식 기능을 구비한 제품들, 예를 들면 휴대폰 등에 탑재되고, 제 1 음성 훈련 장치(2) 및 제 2 음성 훈련 장치(3)는 음성 인식 기능을 구비한 제품들을 제작하는 공정에 사용되는 장비들에 탑재된다.
음성 인식 장치(1)는 특징 추출부(11), 스코어 계산부(12), 스코어 재계산부(13), 인식 음성 결정부(14), 음성 모델 데이터베이스(15), 평균 길이 데이터베이스(16), 및 가중치 데이터베이스(17)로 구성된다.
특징 추출부(11)는 입력 음성의 MFCC(Mel Frequency Cepstral Coefficient) 계수들을 성분으로 하는 특징 벡터를 추출한다. MFCC 계수들은 인간의 귀에서의 주파수 특성을 모델링한 것으로써, 입력 음성을 디지털 신호로 변환하고, 이 디지털 신호를 FFT(Fast Fourier Transform) 변환하고, 이 FFT 변환에 의해 주파수 영역으로 변환된 신호들을 여러 개의 필터 뱅크들로 분할하고, 이 뱅크들 각각에서의 에너지에 로그를 취한 후, DCT(Discrete Cosine Transform) 변환함으로써 추출된다.
음성 모델 데이터베이스(15)는 제 1 음성 훈련 장치(2)에 의해 구축된다.
제 1 음성 훈련 장치(2)는 HMM(Hidden Markov Model) 모델에 기초하여 대량의 훈련 음성들을 이용하여 음성 모델들을 생성한다. 보다 상세하게 설명하면, 제 1 음성 훈련 장치(2)는 HMM 모델에서 제시한 방식에 따라 다수의 화자들로부터 대량의 훈련 음성들을 수집하고, 이 훈련 음성들을 이용한 훈련 과정을 통해 음소 또는 음절 단위의 통계적 확률 모델인 음성 모델들을 생성한다.
스코어 계산부(12)는 특징 추출부(11)에 의해 추출된 입력 음성의 특징 벡터와 음성 모델 데이터베이스(15)에 저장된 음성 모델들 각각의 특징 벡터를 이용하여 HMM 모델에서 제시한 방식에 따라 스코어를 계산한다.
스코어 재계산부(13)는 스코어 계산부(12)에 의해 계산된 스코어들 중 소정 순위 이상 높은 스코어들을 갖는 후보 음성들 중 일부가 연속된 동일 음소들을 포함하고, 입력 음성에 임계값 이상의 묵음 구간이 존재하지 않으면, 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 스코어들을 재계산한다. 여기에서, 입력 음성에 임계값 이상의 묵음 구간이 존재하는지 여부를 고려하는 것은 입력 음성이 단일 음성인지 또는 복수 음성들인지를 구별하기 위한 것이다.
다만, 입력 음성이 숫자음인 경우, 음소 대신 음절을 이용하며, 이하 동일하다. 이 경우, 스코어 재계산부(13)는 스코어 계산부(12)에 의해 계산된 스코어들 중 소정 순위 이상 높은 스코어들을 갖는 후보 음성들 중 일부가 연속된 동일 음절들을 포함하고, 입력 음성에 임계값 이상의 묵음 구간이 존재하지 않으면, 입력 음 성에 포함된 음절들 각각의 길이와 후보 음성들 각각에 포함된 음절들의 길이의 유사 정도에 기초하여 스코어들을 재계산한다.
예를 들면, 스코어 재계산부(13)는 스코어 계산부(12)에 의해 계산된 스코어들 중 제 1 순위 및 제 2 순위의 스코어들을 갖는 2개의 후보 음성들 중 어느 하나가 연속된 동일 음소들을 포함하고, 입력 음성에 임계값 이상의 묵음 구간이 존재하지 않으면, 입력 음성에 포함된 음소들 각각의 길이와 2개의 후보 음성들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 스코어들을 재계산한다. 다시 말하면, 스코어 재계산부(13)에 의해 후보 음성들의 스코어들이 재계산되며, 이로 인해 스코어 순위가 변동될 수 있다.
도 2는 도 1에 도시된 스코어 재계산부(13)의 상세 구성도이다.
도 2를 참조하면, 스코어 재계산부(13)는 길이 추출부(131), 정규 상관 계수 계산부(132), 최종 스코어 계산부(133), 평균 길이 데이터베이스(134), 및 가중치 데이터베이스(135)로 구성된다.
길이 추출부(131)는 입력 음성에 포함된 음소들 각각의 길이를 추출한다. 다만, 입력 음성이 숫자음인 경우, 길이 추출부(131)는 입력 음성에 포함된 음절들 각각의 길이를 추출한다. 길이 추출부(131)는 입력 음성의 MFCC 계수 값을 비터비(Viterbi) 알고리즘을 사용하여 정렬하고, 이 정렬에 따라 획득된 음성 모델 구간들의 길이를 검출함으로써 입력 음성에 포함된 음소들 각각의 길이를 추출할 수 있다.
정규 상관 계수 계산부(32)는 입력 음성에 포함된 음소들 각각의 길이와 후 보 음성들 각각에 포함된 음소들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다. 후보 음성들 각각에 포함된 음소들 각각의 평균 길이는 평균 길이 데이터베이스(134)에 저장되어 있다. 이 평균 길이 데이터베이스(134)는 다수의 화자들로부터 발화된 대량의 훈련 음성들을 수집하고, 이 훈련 음성들 각각에 포함된 음소들의 다양한 길이들을 평균한 값들을 이 평균 길이 데이터베이스(134)에 기록함으로써 구축된다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(32)는 입력 음성에 포함된 음절들 각각의 길이와 후보 음성들 각각에 포함된 음절들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다. 또한, 후보 음성들 각각에 포함된 음절들 각각의 평균 길이는 평균 길이 데이터베이스(134)에 저장되어 있다.
정규 상관 계수(Normalized Correlation Coefficient, NCC)란 두 변량간의 상관 관계를 숫자로 표현하고, 다시 이것을 정규화한 것이다. 일반적으로, 다음과 같은 수학식 1을 이용하여 정규 상관 계수를 계산한다.
Figure 112004060929925-PAT00001
NCC =
수학식 1에서, x는 입력 음성에 포함된 음소들 각각의 길이를 성분으로 하는 벡터이고, y는 후보 음성들 각각의 길이 벡터는 후보 음성들 각각에 포함된 음소들 각각의 길이를 성분으로 하는 벡터이다. 다만, 입력 음성이 숫자음인 경우, x는 입 력 음성에 포함된 음절들 각각의 길이를 성분으로 하는 벡터이고, y는 후보 음성들 각각의 길이 벡터는 후보 음성들 각각에 포함된 음절들 각각의 길이를 성분으로 하는 벡터이다.
즉, 정규 상관 계수 계산부(132)는 입력 음성의 길이 벡터와 후보 음성들 각각의 길이 벡터의 스칼라 곱을 입력 음성의 길이 벡터의 크기와 후보 음성들 각각의 길이 벡터의 크기의 곱으로 나눔으로써 정규 상관 계수를 계산한다. 여기에서, 입력 음성의 길이 벡터는 입력 음성에 포함된 음소들 각각의 길이를 성분으로 하는 벡터이고, 후보 음성들 각각의 길이 벡터는 후보 음성들 각각에 포함된 음소들 각각의 길이를 성분으로 하는 벡터이다. 다만, 입력 음성이 숫자음인 경우, 입력 음성의 길이 벡터는 입력 음성에 포함된 음절들 각각의 길이를 성분으로 하는 벡터이고, 후보 음성들 각각의 길이 벡터는 후보 음성들 각각에 포함된 음절들 각각의 길이를 성분으로 하는 벡터이다.
도 3은 정규 상관 계수를 계산하는 일례를 도시한 도면이다.
도 3을 참조하면, 입력 음성의 길이 벡터는 (3, 9, 6)이고, 2개의 후보 음성들 각각의 길이 벡터는 (2, 9, 7), (2, 4, 7)이다. 여기에서, (2, 9, 7)는 "칠이이삼"의 평균 길이 벡터이고, (2, 4, 7)는 "칠이삼"의 평균 길이 벡터이다.
정규 상관 계수 계산부(132)는 수학식 1에 입력 음성의 길이 벡터의 성분 값들과 후보 음성들 각각의 길이 벡터의 성분 값들을 대입함으로써 계산할 수 있다. 도 3으로부터 정규 상관 계수는 입력 음성의 길이 벡터와 후보 음성의 길이 벡터가 이루는 각의 코사인 값임을 알 수 있다.
입력 음성의 길이 벡터 (3, 9, 6)와 후보 음성 중 어느 하나의 길이 벡터 (2, 9, 7)의 정규 상관 계수는 0.993이고, 입력 음성의 길이 벡터 (3, 9, 6)와 후보 음성 중 다른 하나의 길이 벡터 (2, 4, 7)의 정규 상관 계수는 0.882이다. 이 결과로부터 입력 음성은 "칠이삼"보다는 "칠이이삼"에 보다 가까움을 알 수 있다. 대량의 훈련 음성들을 이용하여 실험한 결과, 일반적으로 정답은 대부분 0.95 이상이고, 오답은 0.9 이하이다.
정규 상관 계수 계산부(132)는 보다 정확하게 정규 상관 계수를 계산하기 위하여 입력 음성에 포함된 음소들 각각의 앞뒤 컨텍스트 정보를 참조하여 정규 상관 계수들을 계산할 수 있다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 음절들 각각의 앞뒤 컨텍스트 정보를 참조하여 정규 상관 계수들을 계산한다.
예를 들면, 입력 음성이 "칠이삼"인 경우, 정규 상관 계수 계산부(132)는 "칠이삼"에 포함된 음절들 각각, 즉 "칠, 이, 삼"의 앞뒤 컨텍스트 정보를 참조하지 않고 정규 상관 계수를 계산할 수도 있다. 즉, 정규 상관 계수 계산부(132)는 "칠이삼" 각각이 독립적으로 발화된 경우와 "칠이삼"이 연속적으로 발화된 경우를 구분하지 않고 정규 상관 계수를 계산할 수 있다.
그러나, "칠이삼" 각각이 독립적으로 발화된 경우와 "칠이삼"이 연속적으로 발화된 경우를 비교해보면, 입력 음성에 포함된 음절들 각각의 길이가 다르다. 이것은 입력 음성에 포함된 음절들 각각의 길이는 그 음절들 앞뒤에 어떤 컨텍스트가 배치되는가에 따라 달라진다는 발화 현상에 기인한다. 즉, "칠"이 독립적으로 발화 된 경우와 "묵음-칠+이"과 같이 발화된 경우를 비교해보면, "칠"의 길이가 서로 다르다. 또한, "이"가 독립적으로 발화된 경우와 "칠-이+삼"과 발화된 연속적으로 발화된 경우를 비교해보면, "이"의 길이가 서로 다르다. 또한, "삼"이 독립적으로 발화된 경우와 "이-삼+묵음"과 같이 발화된 경우를 비교해보면, "삼"의 길이가 서로 다르다.
정규 상관 계수 계산부(132)는 다음과 같은 여러 가지 방식들로 정규 상관 계수를 계산할 수 있다. 일반적으로, 계산량이 많은 방식을 선택할 경우에 보다 정확한 정규 상관 계수를 얻을 수 있으나, 음성 인식 시스템 설계자는 자신이 구현하고자 하는 음성 인식 시스템의 사양을 고려하여야 한다.
정규 상관 계수 계산부(132)는 입력 음성에 포함된 모든 음소들의 길이와 후보 음성들 각각에 포함된 모든 음소들의 길이를 이용하여 정규 상관 계수들을 계산할 수 있다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(32)는 입력 음성에 포함된 모든 음절들의 길이와 후보 음성들 각각에 포함된 모든 음절들의 길이를 이용하여 정규 상관 계수들을 계산할 수 있다.
또한, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 핵심 음소 및 핵심 음소의 앞 음소의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 연속된 동일 음소들의 앞 음소의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다. 여기에서, 핵심 음소란 연속된 동일 음소들과 동일한 음소로 추정되는 음소를 말하며, 이하 동일하다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 핵심 음절 및 핵심 음절의 앞 음절의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음절들 및 연속된 동일 음절들의 앞 음절의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다.
또한, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 핵심 음소 및 핵심 음소의 뒤 음소의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 연속된 동일 음소들의 뒤 음소의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 핵심 음절 및 핵심 음절의 뒤 음절의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음절들 및 연속된 동일 음절들의 뒤 음절의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다.
또한, 정규 상관 계수 계산부(132)는 입력 음성에 포함된 핵심 음소 및 핵심 음소의 앞뒤 음소들의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 연속된 동일 음소들의 앞뒤 음소들의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(32)는 입력 음성에 포함된 핵심 음절 및 핵심 음절의 앞뒤 음절들의 길이와 후보 음성들 중 일부에 포함된 연속된 동일 음절들 및 연속된 동일 음절들의 앞뒤 음절들의 길이를 이용하여 정규 상관 계수들을 계산할 수도 있다.
최종 스코어 계산부(133)는 정규 상관 계수 계산부(132)에 의해 계산된 정규 상관 계수들 및 가중치 데이터베이스(135)에 저장된 가중치들을 이용하여 최종 스코어들을 계산한다. 즉, 최종 스코어 계산부(133)는 다음 수학식 2를 이용하여 최종 스코어들을 계산한다.
최종 스코어 = S + W x S x (1-NCC)
수학식 2에서, S는 스코어 계산부(12)에 의해 계산된 스코어, 즉 HMM 모델에 기초한 스코어(Score)를 의미하고, W는 가중치(Weight)를 의미한다.
즉, 최종 스코어 계산부(132)는 HMM 모델에 기초한 스코어에 가중치, HMM 모델에 기초한 스코어, 및 1과 정규 상관 계수의 차의 곱을 합함으로써 최종 스코어를 계산한다. 여기에서, 가중치란 최종 스코어들을 시험한 결과에 기초하여 결정된 값이며, 가중치 데이터베이스(135)는 제 2 음성 훈련 장치(3)에 의해 구축된다.
도 4는 도 1에 도시된 제 2 음성 훈련 장치(3)의 상세 구성도이다.
도 4를 참조하면, 도 1에 도시된 제 2 음성 훈련 장치(3)는 길이 추출부(31), 정규 상관 계수 계산부(32), 가중치 계산부(33), 및 평균 길이 데이터베이스(34)로 구성된다.
길이 추출부(31)는 스코어 재계산부(13)의 길이 추출부(131)와 동일한 기능을 수행한다. 즉, 길이 추출부(31)는 훈련 음성들에 포함된 음소들 각각의 길이를 추출한다. 다만, 훈련 음성이 숫자음인 경우, 길이 추출부(31)는 훈련 음성들에 포함된 음절들 각각의 길이를 추출한다.
정규 상관 계수 계산부(32)는 스코어 재계산부(13)의 정규 상관 계수 계산부(132)와 동일한 기능을 수행한다. 즉, 정규 상관 계수 계산부(32)는 길이 추출부(31)에 의해 추출된 음소들 각각의 길이와 평균 길이 데이터베이스(34)에 저장된 음소들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다. 다만, 입력 음성이 숫자음인 경우, 정규 상관 계수 계산부(32)는 훈련 음성들에 포함된 음절들 각각의 길이와 평균 길이 데이터베이스(34)에 저장된 음절들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다.
가중치 계산부(33)는 정규 상관 계수 계산부(32)에 의해 계산된 정규 상관 계수 및 제 1 음성 훈련 장치(2)에 의해 계산된 스코어, 즉 HMM 모델에 기초한 스코어를 이용하여 가중치들을 계산한다. 도 1에 도시된 음성 인식 시스템을 설계하고자 하는 자는 훈련 음성들에 포함된 음소들 각각 및 그들의 조합 형태를 고려하여 훈련 음성에 가장 적합한 최종 스코어를 미리 결정한다. 가중치 계산부(33)는 이와 같이 미리 결정된 최종 스코어를 수학식 2에 대입함으로써 가중치들을 계산할 수 있다.
다시 도 1을 참조하면, 인식 음성 결정부(14)는 스코어 계산부(12) 및 스코어 재계산부(13)에 의해 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정한다.
도 5는 본 발명의 바람직한 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 5를 참조하면, 본 실시예에 따른 음성 인식 방법은 다음과 같은 단계들로 구성된다. 본 음성 인식 방법은 도 1에 도시된 음성 인식 시스템에서 시계열적으로 처리되는 단계들로 구성된다. 따라서, 이하 생략된 내용이라 하더라도 음성 인식 시스템에 관하여 이상에서 기술된 내용은 본 음성 인식 방법에도 적용된다.
51 단계에서 음성 인식 시스템은 HMM 모델에 기초하여 대량의 훈련 음성들을 이용하여 음성 모델들을 생성한다.
52 단계에서 음성 인식 시스템은 대량의 훈련 음성들에 포함된 음소들 각각의 길이와 이 음소들 각각의 평균 길이의 유사 정도에 기초하여 훈련 음성들에 가장 적합한 스코어들을 얻기 위한 가중치들을 계산한다. 다만, 훈련 음성들이 숫자음인 경우에는 대량의 훈련 음성들에 포함된 음절들 각각의 길이와 이 음절들 각각의 평균 길이의 유사 정도에 기초하여 훈련 음성들에 가장 적합한 스코어들을 얻기 위한 가중치들을 계산한다.
도 6은 도 5에 도시된 52 단계의 상세 흐름도이다.
도 6을 참조하면, 도 5에 도시된 52 단계는 다음과 같은 단계들로 구성된다.
521 단계에서 음성 인식 시스템은 훈련 음성들에 포함된 음소들 각각의 길이를 추출한다. 다만, 훈련 음성이 숫자음인 경우에는 훈련 음성들에 포함된 음절들 각각의 길이를 추출한다.
522 단계에서 음성 인식 시스템은 521 단계에서 추출된 음소들 각각의 길이와 이 음소들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다. 다만, 입력 음성이 숫자음인 경우에는 훈련 음성들에 포함된 음절들 각각의 길이와 이 음절들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다.
523 단계에서 음성 인식 시스템은 522 단계에서 계산된 정규 상관 계수 및 51 단계에서 계산된 스코어, 즉 HMM 모델에 기초한 스코어를 이용하여 가중치들을 계산한다.
다시 도 5를 참조하면, 53 단계에서 음성 인식 시스템은 입력 음성의 MFCC 계수들을 성분으로 하는 특징 벡터를 추출한다.
54 단계에서 음성 인식 시스템은 53 단계에서 추출된 입력 음성의 특징 벡터와 51 단계에서 생성된 음성 모델들 각각의 특징 벡터를 이용하여 HMM 모델에서 제시한 방식에 따라 스코어를 계산한다.
55 단계에서 음성 인식 시스템은 54 단계에서 계산된 스코어들 중 소정 순위 이상 높은 스코어들을 갖는 후보 음성들 중 일부가 연속된 동일 음소들을 포함하는지를 판단한다. 다만, 입력 음성이 숫자음인 경우에는 54 단계에서 계산된 스코어들 중 소정 순위 이상 높은 스코어들을 갖는 후보 음성들 중 일부가 연속된 동일 음절들을 포함하면,
55 단계에서 후보 음성들 중 일부가 연속된 동일 음소들을 포함하는 것으로 판단되면, 56 단계에서 음성 인식 시스템은 입력 음성에 임계값 이상의 묵음 구간이 존재하는 지를 판단한다.
56 단계에서 임계값 이상의 묵음 구간이 존재하지 않는 것으로 판단되면, 57 단계에서 음성 인식 시스템은 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 스코어들을 재계산한다. 다만, 입력 음성이 숫자음인 경우에는 입력 음성에 포함된 음절들 각각의 길이와 후보 음성들 각각에 포함된 음절들의 길이의 유사 정도에 기초하여 스코어들을 재계산한다.
도 7은 도 5에 도시된 57 단계의 상세 흐름도이다.
도 7을 참조하면, 도 5에 도시된 57 단계는 다음과 같은 단계들로 구성된다.
571 단계에서 음성 인식 시스템은 입력 음성에 포함된 음소들 각각의 길이를 추출한다. 다만, 입력 음성이 숫자음인 경우에는 입력 음성에 포함된 음절들 각각의 길이를 추출한다.
572 단계에서 음성 인식 시스템은 571 단계에서 추출된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다. 다만, 입력 음성이 숫자음인 경우에는 입력 음성에 포함된 음절들 각각의 길이와 후보 음성들 각각에 포함된 음절들 각각의 평균 길이의 유사 정도를 나타내는 정규 상관 계수들을 계산한다.
573 단계에서 음성 인식 시스템은 572 단계에서 계산된 정규 상관 계수들 및 52 단계에서 계산된 가중치들을 이용하여 최종 스코어들을 계산한다.
다시 도 5를 참조하면, 58 단계에서 음성 인식 시스템은 54 단계 및 572 단계에서 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 입력 음성에 대한 인식 음성으로 결정한다.
도 8은 도 1에 도시된 음성 인식 시스템에서의 실험 결과를 나타낸 표이다.
본 실험에서는 100명으로부터 수집한 훈련 음성들을 이용하여 음성 인식 시스템을 훈련시키고, 12명에 발화된 "이이","오오"를 포함하는 입력 음성 478개를 테스트하였다. 또한, 본 실험에서는 음성들의 특징 벡터로써 39차 MFCC 특징 벡터를 사용하였다. 39차 MFCC 특징 벡터는 12차 MFCC 계수, 12차 델타(delta) MFCC 계수, 12차 델타-델타 MFCC 계수, 에너지 계수, 델타 에너지 계수, 및 델타-델타 에너지 계수로 구성된다.
또한, 본 실험에서는 숫자음들 각각의 구성을 헤드 7개, 바디 1개, 테일 7개, 총 15개로 하였고, 숫자음의 종류를 11개(영~구, 공)로 하였다. 그 결과, 본 실험에서는 훈련 모델로써 2개의 묵음 모델들을 포함하여 15x11+2=167개의 HBT(Head Body Tail) CHMM(Continuous HMM) 모델을 사용하였다. 또한, 본 실험에서는 남성, 여성의 성별을 구분함으로써 성별에 관계없는 2개의 묵음 모델들을 포함하여 총 15x11x2+2=332개의 음성 모델들을 생성하였다.
도 8을 참조하면, 상기된 바와 같은 실험 환경에서 본 실시예에 의한 인식률은 종래 기술의 인식률 62.6%로부터 70.2%로 상승하였고, 특히, 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER(Word Error Rate)는 종래 기술보다 20.4%만큼 감소하였다.
한편, 상술한 본 발명의 실시예들은 컴퓨터에서 실행될 수 있는 프로그램으로 작성가능하고, 컴퓨터로 읽을 수 있는 기록매체를 이용하여 상기 프로그램을 동작시키는 범용 디지털 컴퓨터에서 구현될 수 있다.
상기 컴퓨터로 읽을 수 있는 기록매체는 마그네틱 저장매체(예를 들면, 롬, 플로피 디스크, 하드 디스크 등), 광학적 판독 매체(예를 들면, 시디롬, 디브이디 등) 및 캐리어 웨이브(예를 들면, 인터넷을 통한 전송)와 같은 저장매체를 포함한다.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
본 발명에 따르면, 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 평균 길이의 유사 정도에 기초하여 음성을 인식함으로써 음성 인식률이 매우 높고, 특히 입력 음성이 연속된 동일 음소들을 포함하는 경우에 WER이 대폭 감소된다는 효과가 있다.
또한, 본 발명에 따르면, 음소들 각각의 절대적 길이를 이용하지 않고, 음소들 각각의 길이와 이 음소들의 평균 길이의 상대적인 유사 정도에 기초하여 음성을 인식함으로써 화자의 발화 속도에 유연하게 대처할 수 있고, 이로 인해 보다 뚜렷한 워터마크(watermark)를 확보할 수 있다는 효과가 있다. 결론적으로, 한국어 숫자음과 같이 연속된 동일 음절을 많이 포함하는 언어의 인식률을 획기적으로 개선할 수 있게 된다.

Claims (20)

  1. (a) 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 상기 입력 음성의 특징과 상기 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하는 단계; 및
    (b) 상기 (a) 단계에서 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 상기 입력 음성에 대한 인식 음성으로 결정하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
  2. 제 1 항에 있어서,
    (c) 상기 입력 음성의 특징과 상기 음성 모델들 각각의 특징을 이용하여 상기 스코어들을 계산하는 단계를 더 포함하고,
    상기 (a) 단계는 상기 (c) 단계에서 계산된 스코어들을 이용하여 상기 스코어들을 재계산하는 것을 특징으로 하는 음성 인식 방법.
  3. 제 2 항에 있어서,
    상기 (a) 단계는 상기 (c) 단계에 의해 계산된 스코어들 중 소정 순위 이상 높은 스코어들을 갖는 후보 음성들 중 일부가 연속된 동일 음소들을 포함하면, 상기 입력 음성에 포함된 음소들 각각의 길이와 상기 후보 음성들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 상기 스코어들을 재계산하는 것을 특징으로 하는 음성 인식 방법.
  4. 제 3 항에 있어서,
    상기 (c) 단계는 HMM(Hidden Markov Model) 모델에 기초하여 상기 스코어들을 계산하는 것을 특징으로 하는 음성 인식 방법.
  5. 제 3 항에 있어서,
    상기 입력 음성의 MFCC(Mel Frequency Cepstral Coefficient) 계수들을 성분으로 하는 특징 벡터를 추출하는 단계를 더 포함하고,
    상기 (c) 단계는 상기 입력 음성의 특징 벡터와 상기 음성 모델들 각각의 특징 벡터를 이용하여 상기 스코어를 계산하는 것을 특징으로 하는 음성 인식 방법.
  6. 제 1 항에 있어서, 상기 입력 음성이 숫자음인 경우,
    상기 (a) 단계는 상기 입력 음성에 포함된 음절들 각각의 길이와 음성 모델들 각각에 포함된 음절들의 길이의 유사 정도에 기초하여 상기 입력 음성의 특징과 상기 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하는 것을 특징으로 하는 음성 인식 방법.
  7. 입력 음성에 포함된 음소들 각각의 길이와 음성 모델들 각각에 포함된 음소들의 길이의 유사 정도에 기초하여 상기 입력 음성의 특징과 상기 음성 모델들의 특징의 유사 정도를 나타내는 스코어들을 계산하는 제 1 스코어 계산부; 및
    상기 제 1 스코어 계산부에 의해 계산된 스코어들 중, 최고 스코어를 갖는 음성 모델을 상기 입력 음성에 대한 인식 음성으로 결정하는 인식 음성 결정부를 포함하는 것을 특징으로 하는 음성 인식 장치.
  8. 제 1 항 내지 제 6 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
  9. (a) 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들 각각의 길이의 유사 정도를 나타내는 상관 계수들을 계산하는 단계; 및
    (b) 상기 (a) 단계에서 계산된 상관 계수들을 이용하여 상기 입력 음성의 특징과 상기 후보 음성들 각각의 특징의 유사 정도를 나타내는 스코어들을 계산하는 단계를 포함하는 것을 특징으로 하는 스코어 계산 방법.
  10. 제 9 항에 있어서,
    상기 (a) 단계는 상기 입력 음성에 포함된 음소들 각각의 앞뒤 컨텍스트 정보를 참조하여 상기 상관 계수들을 계산하는 것을 특징으로 하는 스코어 계산 방법.
  11. 제 9 항에 있어서,
    상기 (b) 단계는 상기 상관 계수들과 함께 상기 스코어들에 대한 시험 결과에 기초한 가중치들을 이용하여 상기 스코어를 계산하는 것을 특징으로 하는 스코어 계산 방법.
  12. 제 11 항에 있어서,
    상기 (b) 단계는 HMM(Hidden Markov Model) 모델에 기초한 스코어에 상기 가중치, 상기 HMM 모델에 기초한 스코어, 및 소정의 값과 상기 상관 계수의 차의 곱을 합함으로써 상기 스코어를 계산하는 것을 특징으로 하는 스코어 계산 방법.
  13. 제 9 항에 있어서,
    상기 (a) 단계는 상기 입력 음성에 포함된 모든 음소들의 길이와 상기 후보 음성들 각각에 포함된 모든 음소들의 길이를 이용하여 상기 상관 계수들을 계산하는 것을 특징으로 하는 스코어 계산 방법.
  14. 제 9 항에 있어서,
    상기 (a) 단계는 상기 입력 음성에 포함된 핵심 음소 및 상기 핵심 음소의 앞 음소의 길이와 상기 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 상기 연속된 동일 음소들의 앞 음소의 길이를 이용하여 상기 상관 계수들을 계산하고,
    상기 핵심 음소는 상기 연속된 동일 음소들과 동일한 음소로 추정되는 음소인 것을 특징으로 하는 스코어 계산 방법.
  15. 제 9 항에 있어서,
    상기 (a) 단계는 상기 입력 음성에 포함된 핵심 음소 및 상기 핵심 음소의 뒤 음소의 길이와 상기 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 상기 연속된 동일 음소들의 뒤 음소의 길이를 이용하여 상기 상관 계수들을 계산하고,
    상기 핵심 음소는 상기 연속된 동일 음소들과 동일한 음소로 추정되는 음소인 것을 특징으로 하는 스코어 계산 방법.
  16. 제 9 항에 있어서,
    상기 (a) 단계는 상기 입력 음성에 포함된 핵심 음소 및 상기 핵심 음소의 앞뒤 음소들의 길이와 상기 후보 음성들 중 일부에 포함된 연속된 동일 음소들 및 상기 연속된 동일 음소들의 앞뒤 음소들의 길이를 이용하여 상기 상관 계수들을 계산하고,
    상기 핵심 음소는 상기 연속된 동일 음소들과 동일한 음소로 추정되는 음소인 것을 특징으로 하는 스코어 계산 방법.
  17. 제 9 항에 있어서,
    상기 상관 계수는 상기 입력 음성에 포함된 음소들 각각의 길이를 성분으로 하는 길이 벡터와 상기 후보 음성들 각각에 포함된 음소들 각각의 길이를 성분으로 하는 길이 벡터들의 정규 상관 계수이고,
    상기 상관 계수 계산부는 상기 입력 음성의 길이 벡터와 상기 후보 음성들 각각의 길이 벡터의 스칼라 곱을 상기 입력 음성의 길이 벡터의 크기와 상기 후보 음성들 각각의 길이 벡터의 크기의 곱으로 나눔으로써 상기 정규 상관 계수를 계산하는 것을 특징으로 하는 스코어 계산 방법.
  18. 제 9 항에 있어서, 상기 입력 음성이 숫자음인 경우,
    상기 (a) 단계는 상기 입력 음성에 포함된 음절들 각각의 길이와 후보 음성들 각각에 포함된 음절들 각각의 길이의 유사 정도를 나타내는 상관 계수들을 계산하는 것을 특징으로 하는 스코어 계산 방법.
  19. 입력 음성에 포함된 음소들 각각의 길이와 후보 음성들 각각에 포함된 음소들 각각의 길이의 유사 정도를 나타내는 상관 계수들을 계산하는 상관 계수 계산부; 및
    상기 상관 계수 계산부에 의해 계산된 상관 계수들을 이용하여 상기 입력 음성의 특징과 상기 후보 음성들 각각의 특징의 유사 정도를 나타내는 스코어들을 계산하는 스코어 계산부를 포함하는 것을 특징으로 하는 스코어 계산 장치.
  20. 제 9 항 내지 제 18 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.
KR1020040111164A 2004-12-23 2004-12-23 음성 인식 방법 및 장치 KR100682909B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040111164A KR100682909B1 (ko) 2004-12-23 2004-12-23 음성 인식 방법 및 장치
US11/315,182 US7684986B2 (en) 2004-12-23 2005-12-23 Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040111164A KR100682909B1 (ko) 2004-12-23 2004-12-23 음성 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20060072504A true KR20060072504A (ko) 2006-06-28
KR100682909B1 KR100682909B1 (ko) 2007-02-15

Family

ID=36612884

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040111164A KR100682909B1 (ko) 2004-12-23 2004-12-23 음성 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US7684986B2 (ko)
KR (1) KR100682909B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776729B1 (ko) * 2006-08-29 2007-11-19 울산대학교 산학협력단 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법
KR100776730B1 (ko) * 2006-08-29 2007-11-19 울산대학교 산학협력단 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
KR20160023424A (ko) * 2014-08-22 2016-03-03 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8255216B2 (en) * 2006-10-30 2012-08-28 Nuance Communications, Inc. Speech recognition of character sequences
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US9659559B2 (en) * 2009-06-25 2017-05-23 Adacel Systems, Inc. Phonetic distance measurement system and related methods
US20110213610A1 (en) * 2010-03-01 2011-09-01 Lei Chen Processor Implemented Systems and Methods for Measuring Syntactic Complexity on Spontaneous Non-Native Speech Data by Using Structural Event Detection
US8595005B2 (en) * 2010-05-31 2013-11-26 Simple Emotion, Inc. System and method for recognizing emotional state from a speech signal
US9240184B1 (en) * 2012-11-15 2016-01-19 Google Inc. Frame-level combination of deep neural network and gaussian mixture models
CN103336679B (zh) * 2013-06-18 2016-05-18 北京百度网讯科技有限公司 语音数据的连续输入方法及装置
KR102215579B1 (ko) * 2014-01-22 2021-02-15 삼성전자주식회사 대화형 시스템, 디스플레이 장치 및 그 제어 방법
JP2017508188A (ja) 2014-01-28 2017-03-23 シンプル エモーション, インコーポレイテッドSimple Emotion, Inc. 適応型音声対話のための方法
US10121471B2 (en) * 2015-06-29 2018-11-06 Amazon Technologies, Inc. Language model speech endpointing
US10134425B1 (en) * 2015-06-29 2018-11-20 Amazon Technologies, Inc. Direction-based speech endpointing
CN113421556B (zh) * 2021-06-30 2024-02-13 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE3711342A1 (de) * 1987-04-03 1988-10-20 Philips Patentverwaltung Verfahren zum erkennen zusammenhaengend gesprochener woerter
JPH0675589A (ja) * 1992-03-11 1994-03-18 Matsushita Electric Ind Co Ltd 音声認識方法
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5864809A (en) * 1994-10-28 1999-01-26 Mitsubishi Denki Kabushiki Kaisha Modification of sub-phoneme speech spectral models for lombard speech recognition
JPH08248983A (ja) * 1995-03-09 1996-09-27 Mitsubishi Electric Corp 音声認識装置
JP3171107B2 (ja) * 1996-04-26 2001-05-28 日本電気株式会社 音声認識装置
US5857173A (en) * 1997-01-30 1999-01-05 Motorola, Inc. Pronunciation measurement device and method
JPH11311994A (ja) 1998-04-30 1999-11-09 Sony Corp 情報処理装置および方法、並びに提供媒体
KR100316776B1 (ko) * 1999-03-31 2001-12-12 윤종용 연속 숫자음 인식 장치 및 그 방법
JP2001255888A (ja) 2000-03-08 2001-09-21 Ricoh Co Ltd 音声認識装置、音声認識方法およびその方法を実施するためのプログラムを記憶した記憶媒体
US7752045B2 (en) * 2002-10-07 2010-07-06 Carnegie Mellon University Systems and methods for comparing speech elements

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100776729B1 (ko) * 2006-08-29 2007-11-19 울산대학교 산학협력단 결정 트리 기반의 상태 군집화 방법을 사용하는 비핵심어모델링부를 포함하는 화자독립 가변어휘 핵심어 검출시스템 및 그 방법
KR100776730B1 (ko) * 2006-08-29 2007-11-19 울산대학교 산학협력단 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
KR20160023424A (ko) * 2014-08-22 2016-03-03 현대자동차주식회사 음성 인식 장치, 그를 포함하는 차량, 및 그 차량의 제어 방법
US9756161B2 (en) 2014-08-22 2017-09-05 Hyundai Motor Company Voice recognition apparatus, vehicle having the same, and method of controlling the vehicle

Also Published As

Publication number Publication date
US7684986B2 (en) 2010-03-23
US20060143010A1 (en) 2006-06-29
KR100682909B1 (ko) 2007-02-15

Similar Documents

Publication Publication Date Title
US7684986B2 (en) Method, medium, and apparatus recognizing speech considering similarity between the lengths of phonemes
CN108986824B (zh) 一种回放语音检测方法
Becker et al. Forensic speaker verification using formant features and Gaussian mixture models.
CN108922541B (zh) 基于dtw和gmm模型的多维特征参数声纹识别方法
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
Sahoo et al. Silence removal and endpoint detection of speech signal for text independent speaker identification
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Fukuda et al. Detecting breathing sounds in realistic Japanese telephone conversations and its application to automatic speech recognition
Nanavare et al. Recognition of human emotions from speech processing
US20110218802A1 (en) Continuous Speech Recognition
Mehrabani et al. Dialect distance assessment method based on comparison of pitch pattern statistical models
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP7107377B2 (ja) 音声処理装置、音声処理方法、およびプログラム
JP2011033879A (ja) サンプルを用いずあらゆる言語を識別可能な識別方法
JP2010060846A (ja) 合成音声評価システム及び合成音声評価方法
JP3493849B2 (ja) 音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Morales-Cordovilla et al. On the use of asymmetric windows for robust speech recognition
US7454337B1 (en) Method of modeling single data class from multi-class data
Phoophuangpairoj et al. Two-Stage Gender Identification Using Pitch Frequencies, MFCCs and HMMs
Mandal et al. Word boundary detection based on suprasegmental features: A case study on Bangla speech
Musaev et al. Advanced feature extraction method for speaker identification using a classification algorithm
Chang et al. Improving wordspotting performance with artificially generated data
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130130

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20140128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20150129

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20160128

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee