KR100664960B1 - 음성 인식 장치 및 방법 - Google Patents

음성 인식 장치 및 방법 Download PDF

Info

Publication number
KR100664960B1
KR100664960B1 KR1020050094068A KR20050094068A KR100664960B1 KR 100664960 B1 KR100664960 B1 KR 100664960B1 KR 1020050094068 A KR1020050094068 A KR 1020050094068A KR 20050094068 A KR20050094068 A KR 20050094068A KR 100664960 B1 KR100664960 B1 KR 100664960B1
Authority
KR
South Korea
Prior art keywords
waveform
probability distribution
node
single waveform
similarity
Prior art date
Application number
KR1020050094068A
Other languages
English (en)
Inventor
정상배
김남훈
한익상
김정수
최인정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020050094068A priority Critical patent/KR100664960B1/ko
Priority to US11/475,963 priority patent/US8140334B2/en
Application granted granted Critical
Publication of KR100664960B1 publication Critical patent/KR100664960B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)

Abstract

본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 음성의 소정 단위에 대한 특징 파라미터를 표현하는 은닉 마르코프 모델(Hidden Markov Model)의 상태에 대한 스코어를 근사화된 단일 파형 확률 분포로 평가하고, 그 중 높은 스코어를 갖는 은닉 마르코프 모델 상태에 대해서만 복수 파형 확률 분포로 스코어를 다시 계산하는 음성 인식 장치 및 방법에 관한 것이다.
본 발명의 실시예에 따른 음성 인식 장치는 입력된 음성 신호를 소정의 단위 영역으로 분할하여 상기 분할된 단위 영역에 대응되는 특징 벡터를 추출하는 특징 벡터 추출부와, 적어도 하나 이상의 노드로 구성된 소정의 네트워크를 참조하여 상기 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출하는 예상 노드 추출부와, 상기 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 상기 특징 벡터를 대입하여 상기 제 1 노드와 상기 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 단일 파형 유사도 산출부와, 상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 상기 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 복수 파형 유사도 산출부 및 상기 산출된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 출력부를 포함한다.
노드, 네트워크, 은닉 마르코프 모델 상태, 단일 파형 확률 분포, 복수 파형 확률 분포, 가우스 분포

Description

음성 인식 장치 및 방법{Apparatus and method for recognizing voice}
도 1은 종래의 은닉 마르코프 모델의 상태를 나타낸 도면이다.
도 2는 종래의 은닉 마르코프 모델을 이용한 어휘 탐색 네트워크를 나타낸 도면이다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치를 나타낸 블록도이다.
도 4는 본 발명의 실시예에 따른 확률 분포 생성부의 세부 구성을 나타낸 블록도이다.
도 5는 본 발명의 실시예에 따른 복수 파형 확률 분포를 단일 파형 확률 분포로 변환하는 것을 나타낸 예시도이다.
도 6은 본 발명의 실시예에 따른 음성 인식 과정을 나타낸 흐름도이다.
도 7은 본 발명의 실시예에 따른 확률 분포 생성 과정을 나타낸 흐름도이다.
도 8은 본 발명의 실시예에 따른 그룹의 개수 별 실험 결과를 나타낸 테이블이다.
도 9는 본 발명의 실시예에 따른 실험 결과와 다른 알고리즘에 의한 실험 결과를 비교한 테이블이다.
<도면의 주요 부분에 관한 부호의 설명>
310 : 확률 분포 생성부 315 : 단일 파형 유사도 산출부
320 : 복수 파형 유사도 산출부 325 : 음성 수신부
330 : 특징 벡터 추출부 335 : 제어부
340 : 출력부 345 : 저장부
350 : 예상 노드 추출부 355 : 통신부
본 발명은 음성 인식 장치 및 방법에 관한 것으로서, 더욱 상세하게는 음성의 소정 단위에 대한 특징 파라미터를 표현하는 은닉 마르코프 모델의 상태에 대한 스코어를 근사화된 단일 파형 확률 분포로 평가하고, 그 중 높은 스코어를 갖는 은닉 마르코프 모델 상태에 대해서만 복수 파형 확률 분포로 스코어를 다시 계산하는 음성 인식 장치 및 방법에 관한 것이다.
음성 인식(Voice Recognition)이란, 음성에 포함된 음향학적 정보로부터 음운, 언어적 정보를 추출하여 이를 기계가 인지하고 반응하게 하는 일련의 과정이다.
음성 인식 알고리즘으로는 동적 정합법(Dynamic Time Warping), 신경 회로망(Neural Network) 및 은닉 마르코프 모델(Hidden Markov Model) 등이 있다.
그 중 은닉 마르코프 모델은 음성의 단위(음운, 단어)를 통계적으로 모델화한 것으로서, 1980년대 후반부터 성행된 음성 인식 기술 알고리즘의 하나이다. HMM은 음성 신호의 변동을 확률적으로 취급하기 때문에 동적 프로그래밍 정합(Dynamic Programming Matching)에 비하여 입력 음성의 흔들림 등을 잘 표현할 수 있는 장점이 있다. 또한, HMM은 대량의 음성 데이터로부터 모델의 파라미터(확률 계산용의 계수)를 학습할 수 있고, 어느 정도 양질의 데이터 집합을 부여함으로써 보다 좋은 모델을 생성할 수 있는 특징이 있다.
HMM을 이용하여 모델링 되는 각 모델은 하나의 음소를 대표하는데, 이는 일반적으로 3개의 상태로 구성된다.
도 1은 종래의 은닉 마르코프 모델의 상태를 나타낸 도면으로서, 하나의 음소가 3개의 상태(11, 12, 13)로 구성된 것을 나타내고 있다.
여기서, 각 상태는 다른 상태로 천이하는데, 이는 확률에 의하여 결정되며 좌에서 우로의 상태 천이만 허용된다. 예를 들어, S1(11)은 그 입력 조건에 따라 S2(12)로 상태 천이하거나 자기 자신으로 복귀할 수 있는 것이다.
HMM의 각 상태는 입력된 음성 신호 중 하나의 음소를 복수 개로 분할한 경우의 분할된 상태로서 안정 상태 및 불안정 상태로 구분될 수 있다. 이때, 하나의 음소가 도시된 바와 같이 3개의 상태(11, 12, 13)로 분할된 경우 첫 번째 상태(11)는 불안정 상태, 두 번째 상태(12)는 안정 상태, 세 번째 상태(13)는 불안정 상태가 된다.
즉, 첫 번째 상태(11)는 그 이전 상태에 영향을 받고, 세 번째 상태(13)는 그 이후 상태에 영향을 받기 때문에 불안정 상태이고, 두 번째 상태(12)는 첫 번째 상태(11) 및 세 번째 상태(13)에 대한 영향을 거의 받지 않기 때문에 안정 상태이다.
실제로, 음소를 복수 개의 상태로 분할함에 있어서 천이 구조의 디자인에 따라 다른 인식률을 보이고, 각 음소마다 다른 수의 상태로 분할하는 것이 인식률 증가에 유리하지만, 인위적으로 상태의 수를 조작하는 것에 한계가 있으므로 일반적으로 3개로 분할된 상태로 음소를 대표한다.
도 2는 종래의 은닉 마르코프 모델을 이용한 어휘 탐색 네트워크를 나타낸 도면으로서, 입력된 음성 신호에 따라 최적의 어휘를 추적해가는 과정을 나타낸 도면이다. 네트워크에서 각 노드에 대응되어 표시된 숫자는 은닉 마르코프 모델 상태를 나타내는 인덱스이다.
이러한 어휘 탐색 네트워크는 인식 대상 어휘의 발음 사전적 특징을 반영하여 최적화되므로 어휘 사전 트리(Lexical Tree)(20)라고도 한다.
임의로 입력된 음성 신호로부터 추출된 특징 벡터는 어휘 탐색 네트워크 상에서 최적의 경로가 탐색되는데, 그 진행 방향은 확률로써 결정될 수 있다.
여기서, 진행 방향을 결정하기 위한 확률 값은 각 상태에서의 확률 분포를 통해 추출될 수 있다. 즉, 어휘 탐색 네트워크에서 분기 가능한 노드를 검출하고 그에 대응하는 은닉 마르코프 모델 스테이트의 확률 값을 계산할 수 있는 것으로서 그 중 가장 높은 값을 갖는 노드로 진행하는 것이다.
일본 공개 특허 2001-125589는 화자의 음성 데이터와 학습 알고리즘을 이용하여 단일 가우시안 분포의 음향 모델을 생성하며, 각 상태에서의 분기 수를 줄일 수 있도록 HMM 모델을 변환하여 음성을 인식하는 음성 인식 장치를 개시하고 있다. 그러나, 개시된 장치는 단순히 단일 가우시안만을 이용하므로 처리 속도의 향상은 있으나 인식률의 저하에 대한 대책은 마련되어 있지 않았다.
따라서, 처리 속도와 인식률을 동시에 향상시킬 수 있는 음성 인식 기술의 등장이 요구된다.
본 발명은 음성의 소정 단위에 대한 특징 파라미터를 표현하는 은닉 마르코프 모델(Hidden Markov Model) 상태를 단일 파형 확률 분포로 계산하여 스코어를 산출하고 그 중 높은 스코어를 가진 상태에 대해서만 다시 복수 파형 확률 분포로 계산하여 스코어를 산출하는데 그 목적이 있다.
본 발명의 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해되어질 수 있을 것이다.
상기 목적을 달성하기 위하여, 본 발명의 실시예에 따른 음성 인식 장치는 입력된 음성 신호를 소정의 단위 영역으로 분할하여 상기 분할된 단위 영역에 대응되는 특징 벡터를 추출하는 특징 벡터 추출부와, 적어도 하나 이상의 노드로 구성된 소정의 네트워크를 참조하여 상기 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출하는 예상 노드 추출부와, 상기 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 상기 특징 벡터를 대입하여 상기 제 1 노드와 상기 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 단일 파형 유사도 산출부와, 상기 단일 파형 유사도 중 기 설정된 범위에 포 함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 상기 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 복수 파형 유사도 산출부 및 상기 산출된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 출력부를 포함한다.
본 발명의 실시예에 따른 음성 인식 방법은 입력된 음성 신호를 소정의 단위 영역으로 분할하여 상기 분할된 단위 영역에 대응되는 특징 벡터를 추출하는 단계와, 적어도 하나 이상의 노드로 구성된 소정의 네트워크를 참조하여 상기 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출하는 단계와, 상기 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 상기 특징 벡터를 대입하여 상기 제 1 노드와 상기 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 단계와, 상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 상기 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 단계 및 상기 산출된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 단계를 포함한다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발 명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.
도 3은 본 발명의 실시예에 따른 음성 인식 장치를 나타낸 블록도로서, 음성 인식 장치(300)는 저장부(345), 예상 노드 추출부(350), 음성 수신부(325), 특징 벡터 추출부(330), 확률 분포 생성부(310), 제어부(335), 출력부(340), 단일 파형 유사도 산출부(315), 복수 파형 유사도 산출부(320) 및 통신부(355)를 포함하여 구성된다.
저장부(345)는 적어도 하나 이상의 노드로 구성된 소정의 네트워크, 각 노드에 대응되는 기능 수행 신호 및 특징 벡터를 저장하는 역할을 한다. 여기서, 노드는 시간 축에 대하여 다음에 위치한 노드로의 천이 여부에 대한 확률 값을 갖는 것으로서, 은닉 마르코프 모델 상태(Hidden Markov Model State)를 포함하며, 이하 노드라 함은 은닉 마르코프 모델 상태로 이해될 수 있다. 여기서, 네트워크는 비가역적 진행으로 소정의 음성 신호를 구현하는 노드의 계층적인 구조를 포함하는데, 네트워크를 구성하는 각 노드의 진행 방향에 따라 특정 어휘가 구현되므로, 네트워크는 어휘 사전 트리(Lexical Tree)를 포함하며 이하 네트워크라 함은 어휘 사전 트리로 이해될 수 있다.
네트워크에 포함된 노드에는 단지 고유 번호만이 설정되어 있고, 실제 노드에 대응되는 확률 값 등의 정보는 별도로 저장되어 있을 수 있는데, 네트워크가 참조되는 경우 노드의 고유 번호가 참조되고, 그에 대응되는 노드의 정보가 별도로 추출될 수 있다.
기능 수행 신호는 음성 인식 장치(300)에 기 구비된 기능 및 사용자에 의해 생성된 기능 중 적어도 하나를 포함하는 기능을 수행하게 하는 신호를 포함한다.
예를 들어, 음성 인식 장치(300)가 휴대 전화인 경우 메뉴 디스플레이, 주소록 디스플레이 및 단축 번호 통화 등 음성 인식 장치(300)에 기 구비된 기능을 수행하게 하는 기능 수행 신호가 저장부(345)에 저장될 수 있고, 음성 인식 장치(300)에 기 구비된 복수 개의 기능을 조합한 별도의 기능인 사용자에 의해 생성된 기능을 수행하게 하는 기능 수행 신호가 저장부(345)에 저장될 수 있다. 복수 개의 기능이 조합된 기능에 대한 기능 수행 신호는 각 기능에 대한 기능 수행 신호의 조합일 수 있다.
특징 벡터는 특징 벡터 추출부(330)에 의해 추출되는 음성 주파수 정보로서 단일 파형 확률 분포 스코어링 또는 복수 파형 확률 분포 스코어링을 수행할 때 사용된다.
저장부(345)는 하드 디스크(Hard Disk), 플래시 메모리(Flash Memory), CF 카드(Compact Flash Card), SD 카드(Secure Digital Card), SM 카드(Smart Media Card), MMC 카드(Multimedia Card) 또는 메모리 스틱(Memory Stick) 등 정보의 입 출력이 가능한 모듈로서 음성 인식 장치(300)의 내부에 구비되어 있을 수도 있고, 별도의 장치에 구비되어 있을 수도 있다.
음성 수신부(325)는 음성 신호를 수신하는 역할을 한다. 즉, 음향 에너지를 전기 에너지로 변환시키는 역할을 하는 것으로서, 일반적으로 마이크로폰(microphone)이 음성 수신부(325)의 역할을 수행할 수 있다.
따라서, 음성 수신부(325)는 음압을 이용하여 전기 저항을 변화시키는 전기 저항 변화형, 피에조 효과에 따라 음압을 이용하여 전압을 변화시키는 압전형, 얇은 금속박의 진동에 따라 전압이 발생하고 이에 따라 자기를 변화시키는 자기 변화형, 원통형 자석의 둘레에 가동 코일을 놓고 이 코일을 진동판으로 동작시켜 코일에 발생하는 전류를 이용한 다이나믹형 및 금속박으로 만든 진동판을 고정 전극과 마주시켜 콘덴서를 형성하고, 소리에 의해 진동판이 움직이면서 콘덴서의 용량을 변화시키는 정전 용량형 방식 중 적어도 하나의 방식을 통하여 음성 신호를 전기 에너지로 변환할 수 있다. 전기 에너지로 변환된 음성 신호는 특징 벡터 추출부(330)로 전달된다.
특징 벡터 추출부(330)는 음성 신호에 포함된 특징 벡터(Feature Vector)를 추출하는 역할을 한다. 이를 위하여, 특징 벡터 추출부(330)에는 아날로그 음성 신호를 디지털로 변환하는 아날로그-디지털 변환 수단이 구비되어 있을 수 있는데, 디지털로 변환된 음성 신호는 약 10ms의 간격을 두고 분절된다.
그리고, 특징 벡터 추출부(330)는 분절된 음성 신호의 특징을 추출하는데 예를 들어, 선형 예측 부호화(LPC; Linear Predictive Coding), 선형 예측 부호화에 의한 켑스트럼(LPC derived Cepstrum), 인지 선형 예측(PLP; Perceptive Linear Prediction), 청각 모델(audio model) 특징 추출 및 멜 주파수 켑스트럼 계수(MFCC; Mel-Frequency Cepstrum Coefficients) 특징 추출 방식 중 적어도 하나를 이용하여 분절된 음성 신호의 특징을 추출할 수 있다. 추출된 특징 벡터는 제어부(335)로 전달된다.
제어부(335)는 전달 받은 특징 벡터가 정보 검색을 위한 것인지 정보 저장을 위한 것인지를 판단한다. 즉, 사용자는 음성 인식 장치(300)에 구비된 버튼 등과 같은 입력 수단을 이용하여 음성 인식 장치(300)에 저장된 정보 또는 기능 수행을 위한 검색을 하거나 새로운 음성 정보를 저장할 수 있는데, 제어부(335)는 입력 수단을 통해 입력된 사용자의 명령에 따라 전달 받은 특징 벡터가 정보 검색을 위한 것인지 정보 저장을 위한 것인지 판단하는 것이다.
전달된 특징 벡터가 정보 저장을 위한 학습으로 판단되는 경우, 제어부(335)는 확률 분포 생성부(310)로 하여금 해당 단위 영역에 대한 확률 분포를 생성하게 한다. 여기서, 확률 분포는 해당 단위 영역의 음성 신호에 대한 평균 및 분산으로 구성된 가우스 분포일 수 있으며, 하나의 단위 영역에 대한 가우스 분포는 하나 또는 복수 개일 수 있다. 확률 분포 생성에 대한 자세한 설명은 도 4를 통하여 후술하기로 한다.
그리고, 제어부(335)는 생성된 확률 분포를 저장부(345)에 저장된 네트워크에 삽입하여 입력된 음성 신호에 대한 학습을 완료한다. 즉, 새로운 노드를 생성하여 네트워크에 삽입하거나 기존의 노드 배치를 수정하는 것이다.
한편, 전달된 특징 벡터가 정보 검색 또는 기능 수행을 위한 검색으로 판단되는 경우, 제어부(335)는 추출된 특징 벡터를 예상 노드 추출부(350)로 전달한다.
이에 따라, 예상 노드 추출부(350)는 저장부(345)에 저장된 네트워크를 참조하여 전달 받은 특징 벡터에 대응되는 노드(이하 제 1 노드라 한다)로의 진행이 예상되는 노드(이하 제 2 노드라 한다)의 리스트를 추출한다. 다시 말해, 네트워크에서 현재 위치한 제 2 노드에 연결되어 있고, 진행 가능한 제 2 노드의 리스트를 추출하는 것이다. 이에 대하여 도 2를 참조하여 설명하면, 현재 위치한 제 2 노드의 고유 번호가 2번일 때, 2번 노드(22)에 연결된 노드는 15, 6 및 7번 노드(21, 23, 24)이고, 그 중 2번 노드(22)에서 진행 가능한 노드는 6번 및 7번 노드(23, 24)이므로 6번 및 7번에 해당하는 제 2 노드(23, 24)가 추출되는 것이다.
즉, 예상 노드 추출부(350)는 리스트에 포함된 제 2 노드의 고유 번호를 추출하는 것이다. 그리고, 제 2 노드가 포함된 리스트는 단일 파형 유사도 산출부(315)로 전달된다.
단일 파형 유사도 산출부(315)는 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 전달 받은 특징 벡터를 대입하여 제 1 노드와 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 역할을 한다.
여기서, 단일 파형 확률 분포는 제 2 노드에 대응되는 음성 신호를 구성하는 하나의 파형에 대한 확률 분포를 그 유사도에 따라 그룹화하고, 그룹화된 확률 분포를 대표하는 하나의 파형으로 표현한 가우스 분포일 수 있는데 여기서, 하나의 파형에 대한 확률 분포는 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상의 혼합된 파형의 확률 분포를 하나의 파형으로 표현한 가우스 분포일 수 있다.
제 2 노드의 그룹화 및 그룹화된 제 2 노드를 대표하는 하나의 파형을 생성하는 것은 확률 분포 생성부(310)에 의해 수행되는데, 이에 대한 자세한 설명은 도 4를 통하여 후술하기로 한다.
단일 파형 확률 분포의 유사도 비교 결과는 복수 파형 유사도 산출부(320)로 전달되는데, 복수 파형 유사도 산출부(320)는 단일 파형 유사도 산출부(315)에 의해 산출된 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 전달 받은 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 역할을 한다.
여기서, 복수 파형 확률 분포는 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 파형의 가우스 분포일 수 있다.
단일 파형 유사도 산출부(315)는 유사도에 따라 그룹화된 제 2 노드를 대표하는 단일 파형 확률 분포를 이용하여 입력된 음성 신호에 대한 네트워크의 경로 검색을 수행하는 것인데 이에 따라, 전체 제 2 노드에 대한 단일 파형 확률 분포를 이용하는 것보다 적은 연산량으로 네트워크의 경로 검색을 수행할 수 있게 된다.
예를 들어, 네트워크를 구성하는 제 2 노드가 2,000개인 경우 전체 제 2 노드에 대한 단일 파형 확률 분포를 이용하게 되면 입력된 음성 신호에 대하여 최대 2,000번의 연산을 수행하여야 한다. 그러나, 제 2 노드를 100개로 그룹화하고, 각 그룹을 대표하는 단일 파형 확률 분포를 이용하게 되면 최대 100번의 연산으로 경 로를 검색할 수 있게 된다.
이때, 각 그룹을 대표하는 단일 파형 확률 분포를 이용하여 경로를 검색하는 것에 따라 오차의 폭이 넓어질 수 있는데, 이를 보상하기 위하여 복수 파형 유사도 산출부(320)는 단일 파형 유사도 산출부(315)의 비교 결과 중 선별된 제 2 노드에 대한 복수 파형 확률 분포의 유사도 비교를 수행한다. 즉, 복수 파형 유사도 산출부(320)는 입력된 음성 신호에 대한 세밀한 검색을 수행하는 것이다.
결국, 본 발명은 단일 파형 유사도 산출부(315)에 의한 개략적인 검색으로 연산량 및 응답 시간을 감소시키며, 복수 파형 유사도 산출부(320)에 의한 세밀한 검색으로 개략적인 검색에 의한 오차를 보상한다.
복수 파형 유사도 산출부(320)의 비교 결과는 제어부(335)로 전달되고, 제어부(335)는 출력부(340)로 하여금 가장 높은 유사도를 가진 제 2 노드에 대응되는 기능 수행 신호를 출력하게 한다. 이에 따라, 음성 인식 장치(300)는 해당 기능을 수행하거나 특정 정보를 출력하게 된다.
한편, 단일 파형 유사도 산출부(315)에 의해 산출된 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우가 발생할 수도 있는데 이 때, 제어부(335)는 통신부(355)로 하여금 전달 받은 특징 벡터를 별도의 대용량 음성 인식 장치(미도시)로 송신하게 한다.
이에 따라, 특징 벡터를 수신한 대용량 음성 인식 장치(미도시)는 수신된 정보를 이용하여 복수 파형 유사도를 산출하고, 산출된 복수 파형 유사도를 송신한 다.
그리고, 통신부(355)는 대용량 음성 인식 장치(미도시)로부터 복수 파형 유사도를 수신하고 이를 제어부(335)로 전달하는데, 결국 제어부(335)는 복수 파형 유사도 산출부(320)가 아닌 대용량 음성 인식 장치(미도시)에 의해 산출된 음성 인식 결과를 이용하여 출력부(340)로 하여금 해당 기능 수행 신호를 출력하게 하는 것이다.
이에 따라, 복수 파형 유사도 산출의 연산량이 적은 경우에만 음성 인식 장치(300)에 의해 수행되도록 하고, 연산량이 많은 경우에는 대용량 음성 인식 장치(미도시)에 의해 수행되도록 함으로써 음성 인식 장치(300)의 연산량을 줄이는 효과가 발생한다.
또한, 단일 파형 유사도 산출부(315)에 의해 산출된 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우, 음성 인식 장치(300)에 통신부(355)가 구비되어 있지 않거나 음성 인식 결과를 빠르게 검출할 수 있는 대용량 음성 인식 장치(미도시)가 없는 경우 제어부(335)는 출력부(340)를 통하여 오류 메시지가 출력되도록 할 수도 있다. 여기서, 단일 파형 확률 분포의 개수가 임계치를 초과하는 것은 입력된 음성 신호가 비등록 어휘이기 때문에 발생할 수도 있는 것이므로, 오류 메시지는 입력된 음성 신호가 비등록 어휘임을 알리는 메시지일 수 있다.
통신부(355)에 의한 통신 방식은 이더넷, USB, IEEE 1394, 직렬 통신(serial communication) 및 병렬 통신(parallel communication)과 같은 유선 통신 방식이 사용될 수 있으며, 적외선 통신, 블루투스, 홈 RF 및 무선 랜과 같은 무선 통신 방식이 사용될 수도 있다.
제어부(335)는 저장부(345), 예상 노드 추출부(350), 음성 수신부(325), 음성 단위 추출부(335), 특징 벡터 추출부(330), 확률 분포 생성부(310), 출력부(340), 단일 파형 유사도 산출부(315), 복수 파형 유사도 산출부(320), 통신부(355) 및 음성 인식 장치(300)의 전반적인 제어를 수행한다.
도 4는 본 발명의 실시예에 따른 확률 분포 생성부의 세부 구성을 나타낸 블록도로서, 확률 분포 생성부(310)는 변환부(410), 비교부(420), 그룹화부(430) 및 생성부(440)를 포함하여 구성된다.
확률 분포 생성부(310)는 음성 인식에 사용될 기 정의된 음소들의 은닉 마르코프 모델 및 그것들의 각 상태가 가지는 복수 파형 확률 분포를 생성하고, 제 2 노드의 그룹화 및 그룹화된 제 2 노드를 대표하는 하나의 파형을 생성하는 역할을 한다. 이를 위하여 확률 분포 생성부(310)는 우선 각 제 2 노드에 대한 확률 분포를 생성한다. 여기서, 확률 분포는 제 2 노드에 대응되는 음성 신호에 대한 평균 및 분산으로 구성된 가우스 분포일 수 있으며, 하나의 제 2 노드에 대한 가우스 분포는 하나 또는 복수 개일 수 있다. 따라서, 제 2 노드에 대응되는 확률 분포는 음성 인식에 사용될 기 정의된 음소의 은닉 마르코프 모델 및 그의 상태가 될 수 있다.
변환부(410)는 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 복수 파형 확률 분포를 단일 파형 확률 분포로 변환하는 역할을 한 다.
제 2 노드에 대응되는 소정 영역의 음성 신호는 화자 변이, 환경 변이 등을 모델링하기 위하여 적어도 하나 이상으로 혼합된 파형의 확률 분포로 구성될 수 있는데, 변환부(410)는 혼합된 파형의 확률 분포를 하나의 파형의 확률 분포로 변환하는 것이다. 여기서, 확률 분포는 가우스 분포를 포함한다.
변환된 단일 파형의 확률 분포는 네트워크를 구성하는 각 제 2 노드에 대응되어 저장부(345)에 저장된다.
비교부(420)는 제 2 노드 각각에 대응되어 변환된 단일 파형 확률 분포의 유사도를 비교한다. 즉, 각각의 단일 파형 확률 분포를 구성하는 평균 및 분산을 비교하는 것으로서, 제 2 노드 각각에 대응되는 복수 파형 확률 분포를 구성하는 평균 및 분산을 비교할 수도 있다.
2개의 단일 파형 확률 분포의 유사도를 비교하는 것은 가우시안 분포에 대한 것인 경우 다음 수학식에 의해 표현될 수 있다.
Figure 112005056625665-pat00001
여기서,
Figure 112005056625665-pat00002
는 단일 파형 확률 분포의 평균 벡터이고,
Figure 112005056625665-pat00003
는 공분산 행렬(covariance matrix)을 의미한다.
참고적으로, 수학식 1에 의해 산출된 값은 2개의 단일 파형 확률 분포의 차 이로서 비교부(420)는 산출된 값이 작은 단일 파형 확률 분포의 쌍을 찾기 위한 연산을 수행한다.
비교 결과는 그룹화부(430)로 전달되고, 그룹화부(430)는 비교 결과에 따라 제 2 노드를 그룹화한다. 즉, 평균 및 분산이 유사한 단일 파형 확률 분포 별로 제 2 노드의 그룹을 형성하는 것이다.
여기서, 그룹화부(430)는 사전에 설정된 개수만큼의 그룹을 형성하거나 사전에 설정된 개수만큼의 단일 파형 확률 분포를 포함하는 그룹을 형성할 수 있다. 즉, 임의의 개수의 단일 파형 확률 분포를 포함하는 특정 개수의 그룹을 형성하거나 특정 개수의 단일 파형 확률 분포를 포함하는 임의 개수의 그룹을 형성할 수 있다.
예를 들어, 단일 파형 확률 분포의 수가 1,000개이고 설정된 그룹의 수가 10이면, 그룹화부(430)는 89, 111, 130, 56, 140, 115, 102, 74, 86, 97개의 단일 파형 확률 분포를 포함하는 10개의 그룹을 형성한다(89 + 111 + 130 + 56 + 140 + 115 + 102 + 74 + 86 + 97 = 1000).
이와 같은 과정을 통하여 그룹이 형성되면 생성부(440)는 그룹화된 제 2 노드를 대표하는 단일 파형 확률 분포를 생성한다. 즉, 대표 단일 파형 확률 분포를 생성하는 것으로서, 이를 위하여 생성부(440)는 변환부(410)와 유사한 작업을 수행할 수 있다. 다시 말해, 복수 개의 단일 파형 확률 분포를 하나의 단일 파형 확률 분포로 변환하는 것으로서, 복수 개의 단일 파형 확률 분포를 구성하는 평균 및 분산이 반영된 하나의 단일 파형 확률 분포를 생성하는 것이다.
도 5는 본 발명의 실시예에 따른 복수 파형 확률 분포를 단일 파형 확률 분 포로 변환하는 것을 나타낸 예시도이다.
전술한 바와 같이, 음성 인식을 위한 특징 벡터는 그 확률 분포가 복수 개의 파형으로 구성되며 각 파형은 가우스 분포와 같은 확률 분포로 표현될 수 있다. 이때, 복수 개의 파형에 대한 확률 분포를 모두 연산하는 것은 음성 인식의 정확도를 증가시키나 연산량 과다로 인하여 연산 속도의 저하를 가져올 수 있다. 따라서, 본 발명에서는 복수 개의 파형에 대한 확률 분포를 하나의 파형에 대한 확률 분포로 변환하고, 변환된 하나의 파형에 의한 확률 분포를 이용한 연산을 수행한다.
도 5에 도시된 것은 복수 파형 확률 분포를 단일 파형 확률 분포로 변환한 것을 예시한 것으로서, 가는 곡선 및 굵은 곡선은 각각 복수 파형 확률 분포(510) 및 단일 파형 확률 분포(520)를 나타낸다.
복수 파형 확률 분포(510)를 단일 파형 확률 분포(520)로 변환하는 것은 그 분포가 가우시안인 경우 다음 수학식에 의해 표현될 수 있다.
Figure 112005056625665-pat00004
여기서,
Figure 112005056625665-pat00005
는 단일 파형 확률 분포(520)를 나타내고,
Figure 112005056625665-pat00006
는 복수 파형 확률 분포(510)에 포함된 각 단일 파형 확률 분포를 나타낸다. 그리고,
Figure 112005056625665-pat00007
Figure 112005056625665-pat00008
는 각각 평균 및 분산을 나타내고
Figure 112005056625665-pat00009
는 복수 파형 확률 분포(510)에 포함된 각 단일 파형 확률 분포의 가중치를 나타내며,
Figure 112005056625665-pat00010
은 복수 파형 확률 분포(510) 에 포함된 단일 파형 확률 분포의 개수를 나타낸다.
여기서, 확률 분포가 가우시안이고, M개의 단일 파형을 갖는 복수 파형 확률 분포를 단일 파형 확률 분포로 근사화하는 방법은 후술하는 수학식 3 및 수학식 4로 표현될 수 있다.
Figure 112005056625665-pat00011
Figure 112005056625665-pat00012
는 근사화된 단일 파형 확률 분포의 평균 및 분산이다. T는 복수 파형 확률 분포의 추정된 총 표본(sample)의 수,
Figure 112005056625665-pat00013
는 복수 파형 확률 분포 내에서 k번째 단일 파형 확률 분포가 차지하는 비율, 그리고
Figure 112005056625665-pat00014
는 복수 파형 확률 분포 내에서 k번째 단일 파형 확률 분포를 생성하는데 사용된 q번째 표본이다.
Figure 112005056625665-pat00015
Figure 112005056625665-pat00016
Figure 112005056625665-pat00017
한편, 특징 벡터가 음성 인식에서 널리 사용되는 켑스트럼(cepstrum)인 경우, 각 차원 간의 상관 관계(correlation)는 무시할 수 있으므로, 위 수학식을 이용하여 각 차원 별 평균 및 분산을 추정할 수 있다.
참고적으로, 확률 분포 생성부(310)의 생성부(440)는 변환부(410)와 유사한 작업을 수행하여 그룹을 대표하는 단일 파형 확률 분포를 생성하는데, 1/(그룹에 포함된 단일 파형 확률 분포의 개수)를 가중치
Figure 112005056625665-pat00018
에 대입함으로써 단일 파형 확률 분포를 생성할 수 있다.
도 6은 본 발명의 실시예에 따른 음성 인식 과정을 나타낸 흐름도이다.
음성 인식을 수행하기 위하여 음성 수신부(325)는 우선 음성 신호를 수신한다(S610). 음성 신호 수신은 마이크로폰과 같은 음성 수신 수단을 통하여 수행될 수 있는데, 마이크로폰은 입력된 음향 에너지를 전기 에너지로 변환한다.
이에 따라, 특징 벡터 추출부(330)는 전기 에너지로 변환된 음성 신호에 포함된 특징 벡터를 추출한다(S620). 즉, 아날로그 음성 신호를 디지털로 변환한 후에 변환된 음성 신호를 소정 간격을 두고 분절하고, 분절된 음성 신호의 특징을 추출하는 것이다.
그리고, 제어부(335)는 입력된 사용자 명령을 확인하여(S630) 추출된 특징 벡터가 검색을 위한 것인지 학습을 위한 것인지를 판단한다.
그리하여, 학습을 위한 것으로 판단된 경우, 확률 분포 생성부(310)는 음성 신호의 해당 소정 영역에 대한 확률 분포를 생성한다(S640). 여기서, 확률 분포는 해당 영역의 음성 신호에 대한 평균 및 분산으로 구성된 가우스 분포일 수 있으며, 하나의 영역에 대한 가우스 분포는 하나 또는 복수 개일 수 있다.
그리고, 제어부(335)는 생성된 확률 분포를 저장부(345) 저장하여(S635) 입력된 음성 신호의 소정 영역에 대한 학습을 완료한다.
한편, 입력된 사용자 명령이 검색인 경우, 예상 노드 추출부(350)는 저장부(345)에 저장된 네트워크를 참조하여 전달 받은 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출한다(S660).
추출된 제 2 노드의 리스트는 단일 파형 유사도 산출부(315)로 전달되고, 단일 파형 유사도 산출부(315)는 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 전달 받은 특징 벡터를 대입하여 제 1 노드와 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출한다(S670). 단일 파형 유사도 산출은 그 분포가 가우시안인 경우 수학식 1을 응용하여 수행될 수 있다.
여기서, 단일 파형 확률 분포는 제 2 노드에 대응되는 음성 신호를 구성하는 하나의 파형에 대한 확률 분포를 그 유사도에 따라 그룹화하고, 그룹화된 확률 분포를 대표하는 하나의 파형으로 표현한 가우스 분포일 수 있는데 여기서, 하나의 파형에 대한 확률 분포는 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상의 혼합된 파형의 확률 분포를 하나의 파형으로 표현한 가우스 분포일 수 있다.
단일 파형 확률 분포의 유사도 비교 결과는 복수 파형 유사도 산출부(320)로 전달되고, 복수 파형 유사도 산출부(320)는 단일 파형 유사도 산출부(315)에 의해 산출된 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 전달 받은 특징 벡터를 대입하여 복수 파형 유사도를 산출한다(S680).
한편, 단일 파형 유사도 산출부(315)에 의해 산출된 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우가 발생할 수도 있는데 이 때, 제어부(335)는 통신부(355)로 하여금 전달 받은 특징 벡터 및 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포를 송신하게 하거나 출력부(340)로 하여금 오류 메시지를 출력하도록 할 수도 있다.
특징 벡터를 수신한 별도의 대용량 음성 인식 장치(미도시)는 별도의 어휘 탐색망에서 특징 벡터와 유사도가 가장 큰 어휘를 검출하여 통신부(355)로 송신한다.
그리고, 대용량 음성 인식 장치(미도시)에 의해 검출된 어휘는 통신부(355)에 의해 수신되고, 이는 제어부(335)로 전달된다.
또한, 단일 파형 확률 분포의 개수가 임계치를 초과하는 것은 입력된 음성 신호가 비등록 어휘이기 때문에 발생할 수도 있는 것이므로, 오류 메시지는 입력된 음성 신호가 비등록 어휘임을 알리는 메시지일 수 있다.
복수 파형 확률 분포의 유사도 비교 결과는 제어부(335)로 전달된다. 제어부(335)는 전달된 비교 결과에 해당되는 제 2 노드를 임시 저장한 후에 이와 같은 과정을 반복하여 추출된 각 제 2 노드를 연결하여 네트워크의 경로 검색을 완료하고, 출력부(340)로 하여금 검색 완료된 음성 정보에 해당하는 기능 수행 신호를 출력하게 한다. 그리하여, 음성 인식 장치(300)는 최종 결과에 대응되는 작업을 수행한다(S690). 즉, 음성 인식에 따른 해당 기능을 수행하거나 특정 정보를 출력하는 것이 다.
도 7은 본 발명의 실시예에 따른 확률 분포 생성 과정을 나타낸 흐름도이다.
음성 인식 장치(300)는 네트워크를 구성하는 제 2 노드를 그 유사도에 따라 그룹화하고, 각 그룹을 대표하는 단일 파형 확률 분포를 생성한다.
이를 위하여, 변환부(410)는 우선 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 복수 파형 확률 분포를 단일 파형 확률 분포로 변환한다(S710). 단일 파형 확률 분포로의 변환은 그 분포가 가우시안인 경우 수학식 2 내지 수학식 4를 이용하여 수행될 수 있다.
그리고, 비교부(420)는 제 2 노드 각각에 대응되어 변환된 단일 파형 확률 분포의 유사도를 비교한다(S720). 즉, 각각의 단일 파형 확률 분포를 구성하는 평균 및 분산을 비교하는 것으로서, 제 2 노드 각각에 대응되는 복수 파형 확률 분포를 구성하는 평균 및 분산을 비교할 수도 있다. 단일 파형 확률 분포의 유사도 비교는 그 분포가 가우시안인 경우 수학식 1을 이용하여 수행될 수 있다.
그리고, 그룹화부(430)는 유사도 비교 결과에 따라 제 2 노드를 그룹화한다(S730). 여기서, 그룹화는 사전에 설정된 개수만큼의 그룹을 형성하거나 사전에 설정된 개수만큼의 단일 파형 확률 분포를 포함하는 그룹을 형성하는 것일 수 있다.
그리고, 생성부(440)는 그룹화된 제 2 노드를 대표하는 단일 파형 확률 분포를 생성한다(S740). 즉, 단일 파형 확률 분포를 생성하는 것으로서, 이를 위하여 음성 인식 장치(300)는 그 분포가 가우시안인 경우 수학식 1을 이용할 수 있다.
그리고, 음성 인식 장치(300)는 이렇게 생성된 단일 파형 확률 분포를 저장 하고, 차후에 입력되는 음성 신호의 소정 영역을 분석하기 위하여 단일 파형 확률 분포를 이용한다.
도 8은 본 발명의 실시예에 따른 그룹의 개수 별 실험 결과를 나타낸 테이블(810, 820, 830)로서, 각각 64, 88 및 128개로 제 2 노드의 그룹을 생성한 경우의 음성 인식 결과이다.
네트워크를 구성하는 각 제 2 노드는 다음과 같은 환경에 따라 형성되었다.
학습되어 저장된 데이터 베이스는 남녀 총 157명에 의해 형성된 63982개의 고립어(isolated word)가 사용되었다. 여기서, 63982개의 고립어는 한국어 관심 지역(Point Of Interest), 지명, 인명을 포함한다.
신호 대 잡음비(Signal-to-Noise Ratio)는 20dB이상이고, 잡음 환경은 고려하지 않았다.
39차 특징 벡터가 사용되었는데, 이는 기본(12차 cepstrum + 1 log energy) 및 그것의 속도 및 가속도 성분이 사용되었다.
한국어에서 발생 가능한 트라이폰(triphone) 은닉 마르코프 모델과 그 상태를 공유가 가능한 1000개의 복수 가우시안 확률 분포로 학습하여 사용되었으며, 각 확률 분포당 가우시안의 개수는 총 8개이다.
테이블(810, 820, 830)에서 스코어의 범위(850)는 단일 파형 확률 분포의 유사도 비교 결과 중 복수 파형 확률 분포의 유사도 비교 대상을 선택하기 위하여 설정된 임의의 수로서, 단일 파형 확률 분포의 유사도 비교 결과 중 가장 높은 스코어를 기준으로 테이블에 명시된 스코어의 범위(850) 내의 스코어를 가진 대상에 한 하여 복수 파형 확률 분포의 유사도 비교를 수행하기 위하여 사용된다.
테이블(810, 820, 830)에 명시된 바와 같이 스코어의 범위(850)가 높을수록 인식률이 증가되는 것을 알 수 있는데, 이는 보다 많은 대상에 대한 복수 파형 확률 분포에 대한 유사도 분석을 수행하기 때문이다. 그러나, 많은 대상에 대한 복수 파형 확률 분포에 대한 유사도 분석을 수행함에 따라 연산 시간의 증가도 수반됨을 알 수 있다.
도 9는 본 발명의 실시예에 따른 실험 결과와 다른 알고리즘에 의한 실험 결과를 비교한 테이블로서, 본 발명의 비교 대상인 알고리즘으로는 BBI 가우시안 선택(BBI Gaussian Selection) 알고리즘(910)과 CI 은닉 마르코프 모델을 이용한 상태 선택(State selection by CI HMM) 알고리즘(920)이 사용되었다.
테이블(900)은 단어 오차율(Word Error Rate) 및 음성 인식률에 따라 BBI 가우시안 선택 알고리즘(910), CI 은닉 마르코프 모델을 이용한 상태 선택 알고리즘(920) 및 본 발명의 실시예에 따른 알고리즘(930)에 의한 응답 시간을 나타내고 있다.
즉, 테이블(900)에 명시된 바와 같이 전반적으로 본 발명의 실시예에 따른 알고리즘(930)에 의한 응답 시간이 다른 알고리즘(910, 920)에 의한 응답 시간보다 작은 것을 알 수 있으며 그 중 88개의 그룹으로 분류한 경우에 가장 높은 효율을 나타냄을 알 수 있다.
이상 첨부된 도면을 참조하여 본 발명의 실시예를 설명하였지만, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수 적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
상기한 바와 같은 본 발명의 음성 인식 장치 및 방법에 따르면 음성의 소정 단위에 대한 특징 파라미터를 표현하는 은닉 마르코프 모델(Hidden Markov Model) 상태를 단일 파형 확률 분포로 근사화하고, 그 중 높은 스코어를 가진 상태에 대해서만 복수 파형 확률 분포를 이용하여 스코어를 다시 계산함으로써 인식률의 저하를 줄인 상태로 처리 속도를 향상시키는 장점이 있다.

Claims (26)

  1. 입력된 음성 신호를 소정의 단위 영역으로 분할하여 상기 분할된 단위 영역에 대응되는 특징 벡터를 추출하는 특징 벡터 추출부;
    적어도 하나 이상의 노드로 구성된 소정의 네트워크를 참조하여 상기 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출하는 예상 노드 추출부;
    상기 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 상기 특징 벡터를 대입하여 상기 제 1 노드와 상기 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 단일 파형 유사도 산출부;
    상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 상기 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 복수 파형 유사도 산출부; 및
    상기 산출된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 출력부를 포함하는 음성 인식 장치.
  2. 제 1항에 있어서,
    상기 노드는 시간 축에 대하여 다음에 위치한 노드로의 천이 여부에 대한 확률 값을 갖는 음성 인식 장치.
  3. 제 1항에 있어서,
    상기 네트워크는 비가역적 진행으로 소정의 음성 신호를 구현하는 상기 제 2 노드의 계층적인 구조를 포함하는 음성 인식 장치.
  4. 제 3항에 있어서,
    상기 네트워크는 어휘 사전 트리(Lexical Tree)를 포함하는 음성 인식 장치.
  5. 제 2항 또는 제 3항에 있어서,
    상기 노드, 제 1 노드 및 제 2 노드는 은닉 마르코프 모델 상태(Hidden Markov Model State)를 포함하는 음성 인식 장치.
  6. 제 1항에 있어서,
    상기 단일 파형 확률 분포는 상기 제 2 노드에 대응되는 음성 신호를 구성하는 하나의 파형에 대한 확률 분포를 그 유사도에 따라 그룹화하고, 상기 그룹화된 확률 분포를 대표하는 하나의 파형으로 표현한 가우스 분포를 포함하는 음성 인식 장치.
  7. 제 6항에 있어서,
    상기 하나의 파형에 대한 확률 분포는 상기 제 2 노드에 대응되는 음성 신호 를 구성하는 적어도 하나 이상으로 혼합된 파형의 확률 분포를 하나의 파형으로 표현한 가우스 분포를 포함하는 음성 인식 장치.
  8. 제 1항에 있어서,
    상기 단일 파형 확률 분포를 생성하는 확률 분포 생성부를 더 포함하는 음성 인식 장치.
  9. 제 8항에 있어서,
    상기 확률 분포 생성부는
    상기 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 파형에 대한 확률 분포를 하나의 파형에 대한 확률 분포로 변환하는 변환부;
    상기 제 2 노드 각각에 대응되어 변환된 상기 하나의 파형에 대한 확률 분포의 유사도를 비교하는 비교부;
    상기 비교 결과에 따라 상기 하나의 파형에 대한 확률 분포를 그룹화하는 그룹화부; 및
    상기 그룹화된 하나의 파형에 대한 확률 분포를 대표하는 단일 파형 확률 분포를 생성하는 생성부를 포함하는 음성 인식 장치.
  10. 제 1항에 있어서,
    상기 복수 파형 확률 분포는 상기 제 2 노드에 대응되는 음성 신호를 구성하 는 적어도 하나 이상으로 혼합된 파형의 가우스 분포를 포함하는 음성 인식 장치.
  11. 제 1항에 있어서,
    상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우, 상기 특징 벡터를 송신하는 통신부를 더 포함하는 음성 인식 장치.
  12. 제 11항에 있어서,
    상기 출력부는 상기 송신에 대한 응답으로 수신된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 출력부를 포함하는 음성 인식 장치.
  13. 제 1항에 있어서,
    상기 출력부는 상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우, 오류 메시지를 출력하는 음성 인식 장치.
  14. 입력된 음성 신호를 소정의 단위 영역으로 분할하여 상기 분할된 단위 영역에 대응되는 특징 벡터를 추출하는 단계;
    적어도 하나 이상의 노드로 구성된 소정의 네트워크를 참조하여 상기 특징 벡터에 대응되는 제 1 노드로의 진행이 예상되는 제 2 노드의 리스트를 추출하는 단계;
    상기 제 2 노드에 대응되는 음성 신호를 구성하는 단일 파형 확률 분포에 상기 특징 벡터를 대입하여 상기 제 1 노드와 상기 리스트에 포함된 제 2 노드 간의 단일 파형 유사도를 산출하는 단계;
    상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포를 구성하는 복수 파형 확률 분포에 상기 특징 벡터를 대입하여 복수 파형 유사도를 산출하는 단계; 및
    상기 산출된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 단계를 포함하는 음성 인식 방법.
  15. 제 14항에 있어서,
    상기 노드는 시간 축에 대하여 다음에 위치한 노드로의 천이 여부에 대한 확률 값을 갖는 음성 인식 방법.
  16. 제 14항에 있어서,
    상기 네트워크는 비가역적 진행으로 소정의 음성 신호를 구현하는 상기 제 2 노드의 계층적인 구조를 포함하는 음성 인식 방법.
  17. 제 16항에 있어서,
    상기 네트워크는 어휘 사전 트리(Lexical Tree)를 포함하는 음성 인식 방법.
  18. 제 15항 또는 제 16항에 있어서,
    상기 노드, 제 1 노드 및 제 2 노드는 은닉 마르코프 모델 상태(Hidden Markov Model State)를 포함하는 음성 인식 방법.
  19. 제 14항에 있어서,
    상기 단일 파형 확률 분포는 상기 제 2 노드에 대응되는 음성 신호를 구성하는 하나의 파형에 대한 확률 분포를 그 유사도에 따라 그룹화하고, 상기 그룹화된 확률 분포를 대표하는 하나의 파형으로 표현한 가우스 분포를 포함하는 음성 인식 방법.
  20. 제 19항에 있어서,
    상기 하나의 파형에 대한 확률 분포는 상기 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 파형의 확률 분포를 하나의 파형으로 표현한 가우스 분포를 포함하는 음성 인식 방법.
  21. 제 14항에 있어서,
    상기 단일 파형 확률 분포를 생성하는 단계를 더 포함하는 음성 인식 방법.
  22. 제 21항에 있어서,
    상기 단일 파형 확률 분포를 생성하는 단계는
    상기 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 파형에 대한 확률 분포를 하나의 파형에 대한 확률 분포로 변환하는 단계;
    상기 제 2 노드 각각에 대응되어 변환된 상기 하나의 파형에 대한 확률 분포의 유사도를 비교하는 단계;
    상기 비교 결과에 따라 상기 하나의 파형에 대한 확률 분포를 그룹화하는 단계; 및
    상기 그룹화된 하나의 파형에 대한 확률 분포를 대표하는 단일 파형 확률 분포를 생성하는 단계를 포함하는 음성 인식 방법.
  23. 제 14항에 있어서,
    상기 복수 파형 확률 분포는 상기 제 2 노드에 대응되는 음성 신호를 구성하는 적어도 하나 이상으로 혼합된 파형의 가우스 분포를 포함하는 음성 인식 방법.
  24. 제 14항에 있어서,
    상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우, 상기 특징 벡터를 송신하는 단계를 더 포함하는 음성 인식 방법.
  25. 제 24항에 있어서,
    상기 기능 수행 신호를 출력하는 단계는 상기 송신에 대한 응답으로 수신된 복수 파형 유사도 중 가장 높은 값을 산출하게 한 복수 파형 확률 분포에 대응되는 기능 수행 신호를 출력하는 단계를 포함하는 음성 인식 방법.
  26. 제 14항에 있어서,
    상기 기능 수행 신호를 출력하는 단계는 상기 단일 파형 유사도 중 기 설정된 범위에 포함되는 단일 파형 유사도를 산출하게 한 단일 파형 확률 분포의 개수가 소정의 임계치를 초과하는 경우, 오류 메시지를 출력하는 단계를 포함하는 음성 인식 방법.
KR1020050094068A 2005-10-06 2005-10-06 음성 인식 장치 및 방법 KR100664960B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020050094068A KR100664960B1 (ko) 2005-10-06 2005-10-06 음성 인식 장치 및 방법
US11/475,963 US8140334B2 (en) 2005-10-06 2006-06-28 Apparatus and method for recognizing voice

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020050094068A KR100664960B1 (ko) 2005-10-06 2005-10-06 음성 인식 장치 및 방법

Publications (1)

Publication Number Publication Date
KR100664960B1 true KR100664960B1 (ko) 2007-01-04

Family

ID=37866970

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050094068A KR100664960B1 (ko) 2005-10-06 2005-10-06 음성 인식 장치 및 방법

Country Status (2)

Country Link
US (1) US8140334B2 (ko)
KR (1) KR100664960B1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374869B2 (en) 2008-12-22 2013-02-12 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word N-best recognition result

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010098209A1 (ja) * 2009-02-26 2010-09-02 国立大学法人豊橋技術科学大学 音声検索装置および音声検索方法
US20130158996A1 (en) * 2011-12-19 2013-06-20 Spansion Llc Acoustic Processing Unit
KR102697424B1 (ko) 2016-11-07 2024-08-21 삼성전자주식회사 대표 파형 제공 장치 및 방법
JP6907553B2 (ja) * 2017-01-23 2021-07-21 富士フイルムビジネスイノベーション株式会社 咳検知装置及びプログラム
US11568863B1 (en) * 2018-03-23 2023-01-31 Amazon Technologies, Inc. Skill shortlister for natural language processing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125589A (ja) 1999-10-28 2001-05-11 Atr Interpreting Telecommunications Res Lab 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2002268675A (ja) 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2004109590A (ja) 2002-09-19 2004-04-08 Seiko Epson Corp 音響モデル作成方法および音声認識装置
KR20040081393A (ko) * 2003-03-13 2004-09-21 마이크로소프트 코포레이션 다차원 가우스 분포의 압축 방법
KR20040092572A (ko) * 2003-04-24 2004-11-04 주식회사 케이티 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5794198A (en) * 1994-10-28 1998-08-11 Nippon Telegraph And Telephone Corporation Pattern recognition method
US6064958A (en) * 1996-09-20 2000-05-16 Nippon Telegraph And Telephone Corporation Pattern recognition scheme using probabilistic models based on mixtures distribution of discrete distribution
US8589156B2 (en) * 2004-07-12 2013-11-19 Hewlett-Packard Development Company, L.P. Allocation of speech recognition tasks and combination of results thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001125589A (ja) 1999-10-28 2001-05-11 Atr Interpreting Telecommunications Res Lab 音響モデル学習装置、音響モデル変換装置及び音声認識装置
JP2002268675A (ja) 2001-03-13 2002-09-20 Nec Corp 音声認識装置
JP2004109590A (ja) 2002-09-19 2004-04-08 Seiko Epson Corp 音響モデル作成方法および音声認識装置
KR20040081393A (ko) * 2003-03-13 2004-09-21 마이크로소프트 코포레이션 다차원 가우스 분포의 압축 방법
KR20040092572A (ko) * 2003-04-24 2004-11-04 주식회사 케이티 연속 음성인식 시스템에서의 묵음 모델 처리를 통한음성인식 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8374869B2 (en) 2008-12-22 2013-02-12 Electronics And Telecommunications Research Institute Utterance verification method and apparatus for isolated word N-best recognition result

Also Published As

Publication number Publication date
US20070083371A1 (en) 2007-04-12
US8140334B2 (en) 2012-03-20

Similar Documents

Publication Publication Date Title
EP3424044B1 (en) Modular deep learning model
Gaikwad et al. A review on speech recognition technique
US8543399B2 (en) Apparatus and method for speech recognition using a plurality of confidence score estimation algorithms
JP5768093B2 (ja) 音声処理システム
JP5059115B2 (ja) 音声キーワードの特定方法、装置及び音声識別システム
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
JP2559998B2 (ja) 音声認識装置及びラベル生成方法
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
CN110706714B (zh) 说话者模型制作系统
Sacchi et al. Open-vocabulary keyword spotting with audio and text embeddings
JP2002366187A (ja) 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
US11282495B2 (en) Speech processing using embedding data
US10199037B1 (en) Adaptive beam pruning for automatic speech recognition
KR100664960B1 (ko) 음성 인식 장치 및 방법
JP4270732B2 (ja) 音声認識装置、音声認識方法、及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
JP5315976B2 (ja) 音声認識装置、音声認識方法、および、プログラム
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
Sawakare et al. Speech recognition techniques: a review
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Sidiq et al. Design and implementation of voice command using MFCC and HMMs method
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance
Gujral et al. Various Issues In Computerized Speech Recognition Systems
Pai et al. Application of HMM-based chinese speech recognition on internet of things for smart home systems [J]
Kulkarni et al. Comparison between SVM and other classifiers for SER

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20121129

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20131128

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20141127

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20151127

Year of fee payment: 10

LAPS Lapse due to unpaid annual fee