KR20170090815A - 음성 인식 장치 및 이의 동작방법 - Google Patents

음성 인식 장치 및 이의 동작방법 Download PDF

Info

Publication number
KR20170090815A
KR20170090815A KR1020160011637A KR20160011637A KR20170090815A KR 20170090815 A KR20170090815 A KR 20170090815A KR 1020160011637 A KR1020160011637 A KR 1020160011637A KR 20160011637 A KR20160011637 A KR 20160011637A KR 20170090815 A KR20170090815 A KR 20170090815A
Authority
KR
South Korea
Prior art keywords
probability
cumulative
syllable
words
states
Prior art date
Application number
KR1020160011637A
Other languages
English (en)
Inventor
김주엽
김윤주
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160011637A priority Critical patent/KR20170090815A/ko
Publication of KR20170090815A publication Critical patent/KR20170090815A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/081Search algorithms, e.g. Baum-Welch or Viterbi

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)

Abstract

입력된 음성과 음성 탐색 네트워크에서 상태들로 이루어진 단어들 사이의 최대 유사도를 찾는 음성 인식 장치는, 상기 입력된 음성을 기초로 MFCC(Mel-Frequency Cepstrum Coefficient) 데이터를 생성하는 MFCC 생성부와, 상기 MFCC 데이터를 이용하여 상기 상태들 각각에서 관찰될 수 있는 관찰확률을 계산하는 관찰확률 계산부와, 상기 관찰확률과 상기 상태들 각각의 천이확률을 합하여 상기 상태들 각각의 누적확률을 계산하고, 상기 상태들 각각의 상기 누적확률 중에서 최대 누적값을 상기 최대 유사도로 결정하는 비터비 디코더 계산부를 포함하고, 상기 비터비 디코더 계산부는 상기 단어들 중에서 적어도 한 음절이 동일한 유사 단어들을 선별하여 상기 적어도 한 음절의 공유 음절 누적확률을 계산하고, 상기 공유 음절 누적확률을 이용하여 상기 유사 단어들의 나머지 음절의 누적확률을 계산한다.

Description

음성 인식 장치 및 이의 동작방법{SPEECH RECOGNITION DEVICE AND OPERATING METHOD THEREOF}
본 발명의 개념에 따른 실시 예는 음성 인식 장치 및 이의 동작방법에 관한 것이다.
일반적으로 알려진 음성 인식 방법으로 HMM(Hidden Markov Model) 알고리즘을 사용하는 방법이 있다. HMM 알고리즘을 이용한 음성 인식 방법은 음성 인식을 위한 기본 단위를 모델링하는 방법이다.
HMM 알고리즘을 기반으로 하고 있는 음성 인식 장치는 음성 신호로부터 일정한 시간 단위로 MFCC(Mel-Frequency Cepstrum Coefficient) 데이터를 추출한다. 일정 시간 단위로 추출된 MFCC 데이터는 음성 인식 장치의 디코더에 전달되어, HMM 알고리즘에 따라 음성 인식 디코딩을 수행한다.
이때, HMM 알고리즘을 기반으로 하고 있는 음성 인식 장치는 MFCC 데이터를 HMM 알고리즘을 통해 확률적으로 모델링하고, 비터비 탐색 알고리즘을 이용하여 HMM 알고리즘으로 구성된 트리구조를 따라 입력 특징벡터의 관찰확률을 계산한다.
그리고, HMM 알고리즘을 기반으로 하고 있는 음성 인식 장치는 인식 대상후보 단어들에 대한 HMM과 현재 입력된 음성의 특징들과의 차이를 비교하여 가장 유력한 후보 단어를 결정한다.
본 발명이 이루고자 하는 기술적인 과제는 음성 인식을 수행할 때 중복되는 누적확률 계산량을 줄여서 빠른 음성인식 동작 속도를 갖는 음성 인식 장치 및 이의 구동 방법을 제공하는데 있다.
본 발명의 실시 예에 따른 입력된 음성과 음성 탐색 네트워크에서 상태들로 이루어진 단어들 사이의 최대 유사도를 찾는 음성 인식 장치는, 상기 입력된 음성을 기초로 MFCC(Mel-Frequency Cepstrum Coefficient) 데이터를 생성하는 MFCC 생성부와, 상기 MFCC 데이터를 이용하여 상기 상태들 각각에서 관찰될 수 있는 관찰확률을 계산하는 관찰확률 계산부와, 상기 관찰확률과 상기 상태들 각각의 천이확률을 합하여 상기 상태들 각각의 누적확률을 계산하고, 상기 상태들 각각의 상기 누적확률 중에서 최대 누적값을 상기 최대 유사도로 결정하는 비터비 디코더 계산부를 포함하고, 상기 비터비 디코더 계산부는 상기 단어들 중에서 적어도 한 음절이 동일한 유사 단어들을 선별하여 상기 적어도 한 음절의 공유 음절 누적확률을 계산하고, 상기 공유 음절 누적확률을 이용하여 상기 유사 단어들의 나머지 음절의 누적확률을 계산한다.
본 발명의 실시 예에 따른 음성 인식 장치에 의하면, 비터비 디코더 계산부를 이용하여 적어도 한 음절이 동일한 단어들을 공유 음절로 선별하여 누적확률을 계산할 수 있고, 공유 음절의 누적확률을 이용하여 나머지 음절의 누적확률을 계산하면, 공유 음절에 대한 누적확률의 중복계산을 회피할 수 있다. 따라서, 본 발명의 실시 예에 의한 음성 인식 장치는 공유 음절을 설정함으로써 빠르게 음성인식 결과를 도출할 수 있다.
도 1은 본 발명의 실시 예에 따른 음성 인식 장치의 개략적인 블록도이다.
도 2는 도 1에 도시된 비터비 디코더 계산부의 개략적인 블록도이다.
도 3은 본 발명의 실시 예에 따른 음성 인식 장치의 동작 방법을 설명하기 위한 개념도이다.
도 4는 본 발명의 실시 예에 따른 음성 인식 장치의 동작 방법을 설명하기 위한 흐름도이다.
본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 또는 기능적 설명은 단지 본 발명의 개념에 따른 실시 예들을 설명하기 위한 목적으로 예시된 것으로서, 본 발명의 개념에 따른 실시 예들은 다양한 형태들로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되지 않는다.
본 발명의 개념에 따른 실시 예들은 다양한 변경들을 가할 수 있고 여러 가지 형태들을 가질 수 있으므로 실시 예들을 도면에 예시하고 본 명세서에서 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예들을 특정한 개시 형태들에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물, 또는 대체물을 포함한다.
제1 또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 벗어나지 않은 채, 제1구성 요소는 제2구성 요소로 명명될 수 있고 유사하게 제2구성 요소는 제1구성 요소로도 명명될 수 있다.
어떤 구성 요소가 다른 구성 요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성 요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성 요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성 요소가 다른 구성 요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는 중간에 다른 구성 요소가 존재하지 않는 것으로 이해되어야 할 것이다. 구성 요소들 간의 관계를 설명하는 다른 표현들, 즉 "~사이에"와 "바로 ~사이에" 또는 "~에 이웃하는"과 "~에 직접 이웃하는" 등도 마찬가지로 해석되어야 한다.
본 명세서에서 사용한 용어는 단지 특정한 실시 예를 설명하기 위해 사용된 것으로서, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 본 명세서에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성 요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 나타낸다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
도 1은 본 발명의 실시 예에 따른 음성 인식 장치의 개략적인 블록도이다.
도 1을 참조하면, 본 발명의 실시 예에 따른 음성 인식 장치(100)는 MFCC(Mel-Frequency Cepstrum Coefficient) 생성부(110), 음향학 모델 데이터 베이스(130), 관찰확률 계산부(120), 언어 모델 데이터 베이스(150), 및 비터비 디코더 계산부(140)를 포함한다.
MFCC 생성부(110)는 입력받은 음성 데이터(S_DAT)를 기초로 MFCC 데이터(MFCC_DAT)를 생성할 수 있다.
음향학 모델 데이터 베이스(130)는 사전 학습 과정 중에 생성된 평균과 분산 값들을 저장할 수 있다.
관찰확률 계산부(120)는 음성 탐색 네트워크를 구성하는 모든 상태(state)들에 대한 현재 입력된 음성 패턴의 관찰확률을 계산할 수 있다. 즉, 관찰확률 계산부(120)는 MFCC 데이터(MFCC_DAT)를 기초로 음향학 모델 데이터 베이스(130)에 저장된 평균과 분산 값들을 이용하여 상태들 각각에서 관찰될 수 있는 확률을 계산할 수 있다.
여기서, 상태란 HMM 알고리즘을 이용하는 음성 탐색 네트워크의 구성요소이고, 직렬적으로 연결된 상태들의 집합은 단어를 형성할 수 있다. 그리고, 음성 탐색 네트워크는 상태들로 구성된 복수의 단어들을 병렬적으로 포함할 수 있다.
상태들 각각의 관찰확률을 기반으로 한 최적의 탐색 경로를 찾는 연산 플로우에 대한 상세한 설명은 도 3을 참조하여 설명될 것이다.
관찰확률 계산부(120)는 상태들 각각의 관찰확률을 계산하기 위해서 GMM(Gaussian Mixture Model) 알고리즘을 이용할 수 있다.
언어 모델 데이터베이스(150)는 사전 학습 과정에서 생성된 단어와 단어 사이의 천이확률을 저장할 수 있다. 여기서, 단어와 단어 사이의 천이확률은 직렬적으로 연결된 상태들에서 병렬적으로 연결된 다른 상태들로 천이될 확률을 의미할 수 있다.
비터비 디코더 계산부(140)는 단어의 내부를 구성하는 상태 각각의 관찰확률 값과 단어 간 천이확률을 합하여 가장 높은 누적확률 값을 갖는 경로의 단어를 음성인식 결과(RST)로 생성할 수 있다.
또한, 비터비 디코더 계산부(140)는 음향학 모델이 유사한 단어들에 대해 누적확률을 중복적으로 연산하는 것을 방지하기 위해 동일 발음의 음절에 대한 공유 음절 누적확률을 별도로 저장할 수 있다.
그리고, 비터비 디코더 계산부(140)는 동일 발음의 음절을 포함하는 단어들에 상응하는 공유 음절 누적확율 공유시킬 수 있다. 따라서, 비터비 디코더 계산부(140)는 단어들 각각에 대한 누적확률을 계산할 때, 동일 발음의 음절에 해당하는 상태의 누적확률의 연산 과정을 생략할 수 있다.
도 2는 도 1에 도시된 비터비 디코더 계산부의 개략적인 블록도이다.
도 2를 참조하면, 비터비 디코더 계산부(140)는 공유 음절 누적확률 저장부(142), 단어 누적확률 저장부(144), 및 누적확률 계산부(146)를 포함할 수 있다.
비터비 디코더 계산부(140)는 단어들 각각의 첫 글자의 음절 기반 누적확률을 미리 계산하여 공유 음절 누적확률 저장부(142)에 저장할 수 있다. 즉, 공유 음절 누적확률 저장부(142)는 특정 음절의 상태들에 대한 누적확률을 저장할 수 있다.
예컨대, 비터비 디코더 계산부(140)는 대표 단어를 설정하고, 대표 단어의 첫 글자의 음절의 상태들에 대한 누적확률을 저장할 수 있다.
공유 음절 누적확률 저장부(142)는 발음이 동일한 첫 글자의 음소 기반 누적 확률에 대한 대표단어를 먼저 계산하여 공유 음소들에 대한 누적 확률을 저장할 수 있다.
단어 누적확률 저장부(144)는 단어를 이루는 상태들에 대한 누적확률을 저장할 수 있다.
누적확률 계산부(146)는 관찰확률 계산부(120)로부터 전송된 상태들 각각의 관찰확률(OP)과 언어 모델 데이터 베이스(150)에 저장된 단어 간 천이확률(TP)을 합산하여 상태들 각각에 대한 누적확률을 계산할 수 있다.
이때, 누적확률 계산부(146)는 단어들 각각의 첫 음절의 상태들에 대한 누적확률을 계산하지 않고, 공유 음절 누적확률 저장부(142)로부터 해당 상태들에 대한 누적확률을 추출할 수 있다.
따라서, 누적확률 계산부(146)는 음성 데이터(S_DAT)가 음성 인식 장치(100)로 입력될 때마다, 동일한 첫 음절을 갖는 단어들의 누적확률을 중복적으로 계산하지 않을 수 있다.
또한, 누적확률 계산부(146)는 현재의 누적확률을 단어 누적확률 저장부(144)에 갱신하여 저장할 수 있다.
비터비 디코더 계산부(140)는 가장 큰 값의 누적확률을 갖는 상태들의 경로를 결정하고, 상기 경로를 포함하는 단어를 음성인식 결과(RST)로 출력할 수 있다.
도 3은 본 발명의 실시 예에 따른 비터비 디코더 계산부의 음성인식 결과를 생성하는 방법을 설명하기 위한 개념도이다.
도 3을 참조하면, 단어들은 직렬적으로 연결된 상태(ST)들의 집합으로 표현될 수 있다.
예컨대, 제1 상태들(200)은 "소"를 의미하는 집합일 수 있고, 제2 상태들(210)은 "설"을 의미하는 집합일 수 있고, 제3 상태들(220)은 "설책"을 의미하는 집합일 수 있고, 제4 상태들(230)은 "나기"를 의미하는 집합일 수 있다.
비터비 디코더 계산부(140)는 직렬적으로 연결된 상태(ST)들의 누적확률을 계산하여 음성인식 결과(RST)를 결정할 수 있다.
구체적으로, 비터비 디코더 계산부(140)는 음성 탐색 네트워크(NET)의 각 상태(ST)에 해당할 확률, 즉 관찰확률을 GMM(Gaussian Mixture Model) 함수를 통해 계산할 수 있다. 그리고, 비터비 디코더 계산부(140)는 각 상태의 관찰확률에 단어 간 천이확률을 더하여 누적확률을 계산할 수 있다.
이때, 비터비 디코더 계산부(140)는 이전 상태의 누적확률에 현재 상태의 관찰확률과 단어 간 천이확률을 더하여 현재 상태의 누적확률을 계산할 수 있다.
예컨대, 제2 상태의 누적확률은 제1 상태(ST-a)의 누적확률에 제2 상태(ST-a+1)의 관찰확률과 단어 간 천이확률을 더하여 구할 수 있다.
비터비 디코더 계산부(140)는 단어들 각각을 구성하는 상태(ST)들의 누적확률을 계산하여 최대값의 누적확률(Vmax)을 갖는 상태(ST)를 선정하고, 상기 상태(ST)를 포함하는 단어를 음성인식 결과(RST)로 결정할 수 있다.
예컨대, 단어들 각각의 최종 상태들(ST-i, ST-j, ST-k, ST-l, ST-m, 및 ST-n) 중에서 제3 상태들(220)의 최종 상태(ST-j)가 최대값의 누적확률(Vmax)을 가지면, 제1 상태들(200)과 제3 상태들(220)에 해당하는 음절의 단어를 음성인식 결과(RST)로 결정할 수 있다. 만약, 제1 상태들(200)에 해당하는 음절이 "소"이고, 제3 상태들(220)에 해당하는 음절이 "설책"이면, 음성인식 결과(RST)는 "소설책"으로 결정될 수 있다.
실시 예에 따라, 최대값의 누적확률(Vmax)이 기준 누적확률(Vref)보다 작다면, 각 상태(ST)들에 대한 누적확률 연산을 처음부터 다시 계산할 수 있다.
한편, 본 발명의 실시 예에 의한 비터비 디코더 계산부(140)는 누적확률의 중복계산을 피하기 위해, 첫 음절이 동일한 단어들의 첫 음절을 공유 음절로 설정하고, 공유 음절의 상태들에 대한 누적확률을 공유할 수 있다.
예컨대, 비터비 디코더 계산부(140)가 "소설", "소설책", 및 "소나기" 각각에 대한 상태들의 누적확률을 계산하는 경우, "소"에 대한 상태들의 누적확률 계산이 중복적으로 이루어질 수 있다. 여기서, 제1 상태들(200)은 "소"를 의미하는 집합이고, 제2 상태들(210)은 "설"을 의미하는 집합이고, 제3 상태들(220)은 "설책"을 의미하는 집합이고, 제4 상태들(230)은 "나기"를 의미하는 집합이라고 가정한다.
따라서, 본 발명의 실시 예에 의한 비터비 디코더 계산부(140)는 "소"를 공유 음절로 설정하고, "소"에 해당하는 제1 상태들(200)의 누적확률을 계산하여 공유 음절 누적확률 저장부(142)에 저장할 수 있다. 그리고, 비터비 디코더 계산부(140)는 "소"에 해당하는 누적확률을 이용하여 "설", "설책", 및 "나기"에 해당하는 상태들의 누적확률을 계산할 수 있다.
실시 예에 따라, 비터비 디코더 계산부(140)는 단어들 사이의 동일한 적어도 한 음절을 공유 음절로 설정할 수 있다.
실시 예에 따라, 비터비 디코더 계산부(140)는 공유 음절에 대한 문턱 값을 설정할 수 있다. 비터비 디코더 계산부(140)는 공유 음절의 상태(ST)들 중에 마지막 상태의 누적확률이 문턱 값보다 작으면 공유 음절의 상태(ST)들의 누적확률을 공유하는 상태(ST)들에 대한 누적확률 계산을 생략할 수 있다.
따라서, 공유 음절의 상태(ST)들 중에 마지막 상태(ST)의 누적확률이 문턱 값보다 작으면 음성 인식 장치(100)로 입력된 음성 데이터(S_DAT)가 해당 공유 음절과 매칭될 누적확률이 낮은 것으로 판단되고, 비터비 디코더 계산부(140)는 불필요하게 이후 음절에 대한 누적확률을 계산하는 것을 방지할 수 있다.
이와 같이, 본 발명의 실시 예에 의한 음성 인식 장치(100)는 비터비 디코더 계산부(140)를 이용하여 첫 음절이 동일한 단어들에 대한 누적확률의 중복 계산을 회피할 수 있다. 또한, 본 발명의 실시 예에 의한 음성 인식 장치(100)는 인식해야되는 단어의 수가 증가되더라도, 공유 음절을 설정하여 빠르게 음성인식 결과(RST)를 도출할 수 있다.
본 발명의 설명의 편의를 위해 첫 음절이 동일한 단어들 사이의 공유 음절 누적확률을 이용하는 방법을 개시하였지만, 이에 한정되지 않고 본 발명의 실시 예에 의한 음성 인식 장치(100)는 적어도 한 음절 이상이 동일한 단어들 사이의 공유 음절 누적확률을 생성하여 중복계산을 회피하는 방법에 이용될 수 있다.
도 4는 본 발명의 실시 예에 따른 음성 인식 장치의 동작 방법을 설명하기 위한 흐름도이다.
도 4를 참조하면, 음성 인식 장치(100)는 적어도 하나의 음절이 동일한 단어들을 분류(S100)하고, 분류된 단어들 중에서 동일한 적어도 하나의 음절을 공유 음절로 설정할 수 있다(S110).
음성 인식 장치(100)는 공유 음절의 상태들에 대한 누적확률을 계산할 수 있다(S120).
음성 인식 장치(100)는 공유 음절의 상태들에 대한 누적확률을 이용하여 단어의 나머지 음절의 상태들에 대한 누적확률을 계산할 수 있다(S130).
음성 인식 장치(100)는 단어들 각각의 누적확률을 비교하여 최대 누적확률을 갖는 단어를 음성인식 결과(RST)로 결정할 수 있다(140).
본 발명은 도면에 도시된 실시 예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시 예가 가능하다는 점을 이해할 것이다. 따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 등록청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 음성 인식 장치
110: MFCC 생성부
120: 관찰확률 계산부
130: 음향학 모델 데이터 베이스
140: 비터비 디코더 계산부
150: 언어 모델 데이터 베이스

Claims (1)

  1. 입력된 음성과 음성 탐색 네트워크에서 상태들로 이루어진 단어들 사이의 최대 유사도를 찾는 음성 인식 장치에 있어서,
    상기 입력된 음성을 기초로 MFCC(Mel-Frequency Cepstrum Coefficient) 데이터를 생성하는 MFCC 생성부;
    상기 MFCC 데이터를 이용하여 상기 상태들 각각에서 관찰될 수 있는 관찰확률을 계산하는 관찰확률 계산부; 및
    상기 관찰확률과 상기 상태들 각각의 천이확률을 합하여 상기 상태들 각각의 누적확률을 계산하고, 상기 상태들 각각의 상기 누적확률 중에서 최대 누적값을 상기 최대 유사도로 결정하는 비터비 디코더 계산부를 포함하고,
    상기 비터비 디코더 계산부는 상기 단어들 중에서 적어도 한 음절이 동일한 유사 단어들을 선별하여 상기 적어도 한 음절의 공유 음절 누적확률을 계산하고, 상기 공유 음절 누적확률을 이용하여 상기 유사 단어들의 나머지 음절의 누적확률을 계산하는 음성 인식 장치.
KR1020160011637A 2016-01-29 2016-01-29 음성 인식 장치 및 이의 동작방법 KR20170090815A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160011637A KR20170090815A (ko) 2016-01-29 2016-01-29 음성 인식 장치 및 이의 동작방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160011637A KR20170090815A (ko) 2016-01-29 2016-01-29 음성 인식 장치 및 이의 동작방법

Publications (1)

Publication Number Publication Date
KR20170090815A true KR20170090815A (ko) 2017-08-08

Family

ID=59653346

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160011637A KR20170090815A (ko) 2016-01-29 2016-01-29 음성 인식 장치 및 이의 동작방법

Country Status (1)

Country Link
KR (1) KR20170090815A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036385A (zh) * 2018-10-19 2018-12-18 北京旋极信息技术股份有限公司 一种语音指令识别方法、装置及计算机存储介质
KR20210011896A (ko) * 2019-07-23 2021-02-02 전성국 발음 교정 시스템의 구동 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109036385A (zh) * 2018-10-19 2018-12-18 北京旋极信息技术股份有限公司 一种语音指令识别方法、装置及计算机存储介质
KR20210011896A (ko) * 2019-07-23 2021-02-02 전성국 발음 교정 시스템의 구동 방법

Similar Documents

Publication Publication Date Title
KR20180071029A (ko) 음성 인식 방법 및 장치
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
Chen et al. Pronunciation and silence probability modeling for ASR.
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
KR20160069329A (ko) 언어 모델 학습 방법 및 장치, 음성 인식 방법 및 장치
WO2014025682A2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
JP4885160B2 (ja) 英語変異発音を識別するモジュールの構築方法、および、当該モジュールの構築を実現するプログラムを記憶したコンピュータが読み取り可能な記録媒体
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
Prabhavalkar et al. Discriminative articulatory models for spoken term detection in low-resource conversational settings
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
Zhang et al. Wake-up-word spotting using end-to-end deep neural network system
Rosdi et al. Isolated malay speech recognition using Hidden Markov Models
US20110218802A1 (en) Continuous Speech Recognition
Kosaka et al. Speaker-independent speech recognition based on tree-structured speaker clustering
JP4861912B2 (ja) 知識源を組込むための確率計算装置及びコンピュータプログラム
KR20170090815A (ko) 음성 인식 장치 및 이의 동작방법
Bacchiani et al. Design of a speech recognition system based on acoustically derived segmental units
KR100915638B1 (ko) 고속 음성 인식 방법 및 시스템
Zhu et al. Gaussian free cluster tree construction using deep neural network.
KR101229108B1 (ko) 단어별 신뢰도 문턱값에 기반한 발화 검증 장치 및 그 방법
KR20160000218A (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
Siohan CTC Training of Multi-Phone Acoustic Models for Speech Recognition.