KR20140082157A - 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 - Google Patents

다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 Download PDF

Info

Publication number
KR20140082157A
KR20140082157A KR1020120151688A KR20120151688A KR20140082157A KR 20140082157 A KR20140082157 A KR 20140082157A KR 1020120151688 A KR1020120151688 A KR 1020120151688A KR 20120151688 A KR20120151688 A KR 20120151688A KR 20140082157 A KR20140082157 A KR 20140082157A
Authority
KR
South Korea
Prior art keywords
speaker
data
classification
group
environment
Prior art date
Application number
KR1020120151688A
Other languages
English (en)
Inventor
김동현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020120151688A priority Critical patent/KR20140082157A/ko
Priority to US13/845,941 priority patent/US9378742B2/en
Publication of KR20140082157A publication Critical patent/KR20140082157A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation

Abstract

본 발명에 의한 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법이 개시된다.
본 발명에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database); 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단을 포함한다.

Description

다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법{APPARATUS FOR SPEECH RECOGNITION USING MULTIPLE ACOUSTIC MODEL AND METHOD THEREOF}
본 발명은 음성 인식 방법에 관한 것으로, 특히, 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 그 병렬 인식을 수행한 결과로 선택된 단어열을 출력하도록 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법에 관한 것이다.
음성인식이 핸드폰 모바일 네트웍을 이용한 온라인 서비스로 확대 됨에 따라, 음성인식 서버의 구성에 대한 연구도 많이 진행되고 있다. 특히 Google은 모바일 음성인식 검색 서비스를 도입하면서 Clustered 음향 모델 방법을 제안하였다. Google의 모델 분류 기준은 모델 state의 여러 Gaussian들이 실제 환경에서 점유된 가중치(weight)가 변한다는 가정에 있다. 그래서 수집한 음성 데이터를 먼저 인식을 통해 모델열로 변환하고, 모델 state의 Gaussian 가중치와 분류된 centroid들에 있는 모델 state의 Gaussian 가중치와의 거리값을 KL-divergence로 계산하여 가까운 centroid로 분류시키는 방법이다. 이를 vector quantization(VQ) 방법으로 반복하여 Clustered 음향 모델을 생성한다. 이 방법은 음향학적 조건에 따라 Gaussian 가중치가 달라진다는 점을 활용하는데, 인식과정에서 Clustered 음향모델을 활용하기 위해 먼저 인식을 하여 모델 state열을 결정하는 2-pass 시스템을 구성해야 하고, 상대적으로 화자 변이를 잘 표현하지 못하며, 데이터를 분류하여 Clustered 모델을 많이 생성할수록 모델링에 이용되는 데이터 양이 줄어드는 단점이 있다.
그리고 MS(Microsoft)에서도 음향모델을 분류하는 방법을 제안하였는데, 화자 적응 및 화자 인식에 사용되던 기술인 eigenVoice 벡터와 eigenChannel 벡터를 하나의 수식으로 통합하여 i-vector로 표현하였으며 화자 및 channel에 대한 분류를 하나의 행렬로 혼합하여 나타낼 수 있다고 제안하였다. 각 발화 별로 다르게 생성되는 i-vector 간의 차이를 이용하여 계층적으로 음향학적 특성을 분류하였는데, 화자 요인, 환경 요인, channel 특성 등을 한번의 수식으로 포괄하여 다루기에는 무리가 있고, Clustered 음향모델 효과가 단순 음향학적 차이를 구해서 나타난 것인지, 화자나 환경 잡음 등에 강인하게 나타난 것인지 등을 알아내기가 불분명하다. 그리고 이 방법 역시 분류모델을 선정하기 위해서는 i-vector 값을 구해야 하기 때문에 2-pass 인식 시스템을 구성해야 한다는 단점이 있다.
따라서 이러한 종래 기술의 문제점을 해결하기 위한 것으로, 본 발명의 목적은 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 트리기반 Gaussian mixture model(GMM) 유사도 검색을 빠르게 수행하여 GMM에 대응하는 hidden Markov model(HMM) 기반인 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법을 제공하는데 있다.
그러나 본 발명의 목적은 상기에 언급된 사항으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기 목적들을 달성하기 위하여, 본 발명의 한 관점에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database); 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단을 포함할 수 있다.
바람직하게, 상기 모델생성 수단은 수집된 상기 음성 데이터로부터 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성부; 추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류부; 생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류부; 및 생성된 상기 환경분류 데이터 그룹을 상기 화자분류 HMM 그룹에 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델인 음향모델 생성부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 화자 분류부는 추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며, 추출된 상기 스펙트럴 데이터를 같은 음성데이터에 대응하는 켑스트럴 화자분류 데이터 그룹에 따라 스펙트럴 화자분류 데이터 그룹을 생성하고, 생성된 상기 화자독립 HMM에 켑스트럴 화자분류 데이터 그룹으로 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고, 켑스트럴 화자분류 데이터 그룹으로 이진 트리 기반의 켑스트럴 화자분류 GMM 그룹을 생성하는 것을 특징으로 한다.
바람직하게, 상기 환경 분류부는 생성된 상기 캡스트럴 화자분류 HMM 그룹을 도메인 변환 연산을 통해 스펙트럴 화자분류 HMM 그룹으로 변환하고 상기 스펙트럴 화자분류 데이터 그룹을 같은 화자 분류로 대응하는 상기 스펙트럴 화자분류 HMM 그룹에 스펙트럴 환경적응하여 각 데이터 마다 변환 매개변수를 생성하고, 생성된 상기 변환 매개변수를 환경 기준으로 분류하여 그 분류한 결과로 같은 음성데이터에 대응하는 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 한다.
바람직하게, 상기 음향모델 생성부는 생성된 상기 화자분류 각각의 캡스트럴 환경분류 데이터 그룹을 같은 화자분류로 대응하는 캡스트럴 화자분류 HMM에 캡스트럴 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 한다.
바람직하게, 상기 음성인식 수단은 사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출부; 추출된 상기 특징 데이터와 기 저장된 상기 트리기반의 GMM 간의 유사도를 계산하여 그 계산한 결과에 따라 GMM에 대응하는 HMM 기반의 다중 모델을 선택하는 모델 선택부; 선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식부; 및 수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택부를 포함하는 것을 특징으로 한다.
바람직하게, 상기 모델 선택부는 상기 이진 트리 기반의 GMM인 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하여 대응하는 HMM 다중 모델을 선택하는 것을 특징으로 한다.
본 발명의 다른 한 관점에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법은 다양한 잡음 환경에서 수집된 음성 데이터를 음성 데이터 DB(Database)에 저장하는 단계; 수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 단계; 및 사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 단계를 포함할 수 있다.
바람직하게, 상기 모델생성 단계는 수집된 상기 음성 데이터로부터 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성단계; 추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류단계; 생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류단계; 및 생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 화자 분류단계는 추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며, 추출된 상기 스펙트럴 데이터를 같은 음성데이터에 대응하는 켑스트럴 화자분류 데이터 그룹에 따라 스펙트럴 화자분류 데이터 그룹을 생성하고, 생성된 상기 화자독립 HMM에 켑스트럴 화자분류 데이터 그룹으로 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고, 켑스트럴 화자분류 데이터 그룹으로 이진 트리 기반의 켑스트럴 화자분류 GMM 그룹을 생성하는 것을 특징으로 한다.
바람직하게, 상기 환경 분류단계는 생성된 상기 캡스트럴 화자분류 HMM 그룹을 도메인 변환 연산을 통해 스펙트럴 화자분류 HMM 그룹으로 변환하고 상기 스펙트럴 화자분류 데이터 그룹을 같은 화자 분류로 대응하는 상기 스펙트럴 화자분류 HMM 그룹에 스펙트럴 환경적응하여 각 데이터 마다 변환 매개변수를 생성하고, 생성된 상기 변환 매개변수를 환경 기준으로 분류하여 그 분류한 결과로 같은 음성데이터에 대응하는 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 한다.
바람직하게, 상기 음향모델 생성단계는 생성된 상기 화자분류 각각의 캡스트럴 환경분류 데이터 그룹을 같은 화자분류로 대응하는 캡스트럴 화자분류 HMM 에 캡스트럴 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 한다.
바람직하게, 상기 음성인식 단계는 사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출단계; 추출된 상기 특징 데이터와 기 저장된 상기 트리기반의 GMM 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택단계; 선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식단계; 및 수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택단계를 포함하는 것을 특징으로 한다.
바람직하게, 상기 모델 선택단계는 상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하여 대응하는 HMM 다중 모델을 선택하는 것을 특징으로 한다.
이를 통해, 본 발명은 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 함으로써, 기존에 하나의 모델을 이용하여 수행해야 했던 실시간 전처리와 적응 기법의 한계를 넘는 성능 향상을 기대할 수 있는 효과가 있다.
또한, 본 발명은 빠르게 다중 모델을 선택하여 병렬 인식 처리가 가능한 구성이기 때문에 현재 서비스 되는 모든 온라인 음성인식 시스템에 적용될 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 화자 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 3은 본 발명의 일 실시예에 따른 환경 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 4는 본 발명의 일 실시예에 따른 이진 트리로 구성된 음향 모델을 나타낸다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면을 나타낸다.
도 6은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법을 나타낸다.
이하에서는, 본 발명의 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법을 첨부한 도 1 내지 도 6을 참조하여 설명한다. 본 발명에 따른 동작 및 작용을 이해하는데 필요한 부분을 중심으로 상세히 설명한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 동일한 명칭의 구성 요소에 대하여 도면에 따라 다른 참조부호를 부여할 수도 있으며, 서로 다른 도면임에도 불구하고 동일한 참조부호를 부여할 수도 있다. 그러나, 이와 같은 경우라 하더라도 해당 구성 요소가 실시예에 따라 서로 다른 기능을 갖는다는 것을 의미하거나, 서로 다른 실시예에서 동일한 기능을 갖는다는 것을 의미하는 것은 아니며, 각각의 구성 요소의 기능은 해당 실시예에서의 각각의 구성요소에 대한 설명에 기초하여 판단하여야 할 것이다.
특히, 본 발명에서는 다양한 환경에서 수집된 음성 데이터를 기반으로 화자와 환경에 따른 계층 분류로 구성되는 Clustered 음향 모델을 생성한 후 사용자로부터 입력 받은 음성 데이터의 특징 데이터를 기반으로 기 생성된 음향 모델로부터 다중 모델을 선택하고 선택된 다중 모델을 기반으로 병렬 인식을 수행하여 수행한 결과로 선택된 단어열을 출력하도록 하는 새로운 음성 인식 방안을 제안한다.
도 1은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치를 나타낸다.
도 1에 도시한 바와 같이, 본 발명의 일 실시예에 따른 음성을 인식하기 위한 장치는 모델생성 수단(110), 음성 데이터 DB(database)(120), 음성인식 수단(130), 발음 모델 DB(140), 및 언어 모델 DB(150) 등을 포함하여 구성될 수 있다.
모델생성 수단(110)은 수집된 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 다중 음향 모델 예컨대, 화자 음향 모델과 환경 음향 모델 등을 생성할 수 있다. 여기서, 수집된 음성 데이터는 다양한 화자에 다양한 조건의 환경 잡음이 섞여 있는 데이터일 수 있다.
이러한 모델생성 수단(110)은 데이터 구성부(111), 화자 분류부(112), 환경 분류부(113), 음향모델 생성부(114) 등으로 이루어질 수 있는데, 도 2 내지 도3을 참조하여 설명한다.
도 2는 본 발명의 일 실시예에 따른 화자 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 2에 도시한 바와 같이, 데이터 구성부(111)는 수집된 음성 데이터에서 스펙트럴 데이터(Spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 특징 벡터 데이터를 추출할 수 있다.
화자 분류부(112)는 추출된 특징 벡터 데이터를 화자 기준으로 분류하여 화자 중심의 계층적 모델 즉, 이진 트리 기반의 화자분류 HMM(hidden Markov model) 그룹, 화자분류 GMM(hidden Markov model) 그룹, 및 화자분류 데이터 그룹을 생성할 수 있다.
구체적으로 설명하면 다음과 같다. 먼저 화자 분류부(112)는 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고, 생성된 화자독립 HMM에 켑스트럴 데이터를 화자 분류기로 분류한 화자분류 데이터 그룹으로 화자 적응을 수행하여 이진 트리 기반의 화자분류 HMM 그룹을 생성한다. 그리고, 켑스트럴 화자분류 데이터 그룹을 각각 직접 학습하여 이진 트리 기반의 화자분류 GMM 그룹을 생성하게 된다.
화자 분류부(112)는 캡스트럴 데이터를 기반으로 화자를 분류하여 화자분류 GMM 그룹을 생성하게 된다. 여기서 화자 분류부(112)는 예컨대, eigenVoice 기법 또는 GMM 화자 분류 기법 등을 이용하여 화자를 분류할 수 있다.
이때, 잘 알려진 eigenVoice 기법은 음성 데이터를 인덱스에 정의된 화자별로 화자 독립 모델을 이용하여 화자 적응된 HMM들을 생성한 뒤에, 각 HMM의 mean vector를 차수와 mixture 수, state 수를 곱한 supervector들의 행렬로 만들고 이 행렬의 co-variance 행렬을 이용한 PCA(Primary Component Analysis) 분석법으로 eigenvector 들을 도출할 수 있다.
이 eigenvector 들을 eigenVoice로 호칭하는데, 다음의 [수식 1]처럼 특정 화자의 s state, g 번째 Gaussian인 평균벡터
Figure pat00001
는 화자 독립 모델의 평균벡터 μ s,g와 K개의 eigenVoice e s ,g,k들의 가중치 wk 합으로 표현할 수 있다고 가정하는 방법이다.
[수학식 1]
Figure pat00002
여기서 모든 발화에 대한 가중치는 eigenVoice Decomposition 방법을 이용하여 구할 수 있는데, 다음의 [수학식 2]처럼 t 프레임 길이를 갖는 발화문의 특징벡터 x t를 화자 독립 모델의 평균 μ s,g 및 분산 Σs,g 값과 함께 표현된 보조함수
Figure pat00003
에 입력하여 가중치로 편미분한 수식으로부터 얻는다.
[수학식 2]
Figure pat00004
여기서,
Figure pat00005
는 t 프레임에서 s state, g 가우시안의 사후확률을 나타낸다.
이러한 가중치 분포 공간을 이진 분류 기법으로 나눠 화자 분류 데이터 트리를 형성하고, 각각 트리에 분류된 데이터를 화자 독립 모델에 적응하여 화자분류 HMM을 생성하고, 분류된 데이터로 화자분류 GMM을 생성한다. 이진 트리로 분류된 켑스트럴 데이터와 같은 음성데이터 인덱스인 스펙트럴 데이터의 이진 분류 트리도 생성한다.
도 3은 본 발명의 일 실시예에 따른 환경 분류 음향 모델을 생성하는 원리를 설명하기 위한 도면을 나타낸다.
도 3에 도시한 바와 같이, 환경 분류부(113)는 캡스트럴 화자분류 HMM 그룹, 및 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 캡스트럴 환경분류 데이터 그룹을 생성할 수 있다.
음향모델 생성부(114)는 생성된 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 이진 트리 기반의 환경 중심의 계층적 모델 즉, 캡스트럴 환경분류 GMM 그룹, 캡스트럴 환경분류 HMM 그룹을 생성하게 된다.
구체적으로 설명하면 다음과 같다. 먼저 환경 분류부(113)는 이진 트리로 분류된 켑스트럴 화자분류 HMM을 DCT-1(Inverse Discrete Cosine Transform) 역변환과 exponential(exp) 연산을 통해 스펙트럴 화자분류 HMM으로 생성하게 된다.
환경 분류부(113)는 생성된 스펙트럴 화자분류 HMM과 각 발화문인 스펙트럴 화자분류 데이터를 기반으로 스펙트럴 도메인에서 MLLR(Maximum Likelihood Linear Regression) 환경 적응을 수행하여 변환 매개변수를 생성하게 된다.
다음의 [수학식 3]처럼 스펙트럴 화자분류 HMM의 평균벡터 μ spec는 channel 잡음 요소 성분 A 행렬과 additive 잡음 요소 성분 b 벡터의 조합으로 잡음섞인 평균벡터
Figure pat00006
를 만드는 수식으로 표현할 수 있다. 이때 잡음섞인 평균벡터
Figure pat00007
는 잡음 요소 변환 행렬 W과 확장된 평균벡터 ξ의 수식으로 바꿔서 정리할 수 있다.
[수학식 3]
Figure pat00008
이와 같이 입력된 데이터의 잡음 특성을 알기 위해 입력 데이터와 가깝도록 모델의 변환 매개변수를 잡음 성분으로 설정하여 수식을 정리할 수 있다. 이 변환 매개변수를 구하기 위해서 다음의 [수학식 4]처럼 스펙트럴 도메인에서 likelihood가 꺼지는 방법과 유사하도록 이차함수인 보조함수
Figure pat00009
를 정의하여 사용할 수 있다. 모델의 평균값에만 영향을 준다는 가정을 하면 다음의 [수학식 4]와 같은 보조함수로 정리하여 변환 매개변수 W의 편미분을 통해 잡음 성분을 구할 수 있다.
[수학식 4]
Figure pat00010
또한 모델의 평균값과 분산값에 동시에 영향을 준다고 가정하면 다음의 [수학식 5]와 같이 정리하여 변환 매개변수의 편미분에 의해 잡음 성분을 구할 수 있다.
[수학식 5]
Figure pat00011
음향모델 생성부(114)는 이렇게 구한 잡음 성분으로 설정된 변환 매개변수로 하나의 긴 슈퍼벡터(super vector)를 구성하며, 그 구성된 슈퍼벡터를 기반으로 유클리디안 거리값과 이진분류 방식으로 트리 형태의 환경분류 데이터 그룹을 생성하게 된다.
이때, 기본적인 이진 분류는 다음과 같은 과정으로 진행되게 된다.
1)그룹 벡터들의 평균과 표준 편차를 구하고 평균에서 표준 편차만큼 두 centroid를 생성한다.
2)두 centroid를 기준으로 각 벡터들과의 유클리디안 거리값을 계산하여 가까운 쪽으로 그룹을 분류한다.
3)두 개의 그룹에서 각각 평균값을 구해 새로운 centroid로 정하고 새로운 centroid와 이전 centroid 차이가 기준값 이하일 때까지 앞의 2)항목의 과정을 반복한다.
4)이전 분류가 끝났으면 각각의 새로 생긴 그룹의 원소 개수가 분산분포에 대한 기준값보다 적을 때는 분류를 멈추고 그렇지 않을 때는 앞의 1)항목의 과정으로 넘어가 새로운 시작이다.
음향모델 생성부(114)는 트리 형태의 켑스트럴 환경분류 데이터 그룹과 켑스트럴 화자분류 HMM을 기반으로 환경 적응을 수행하여 켑스트럴 환경분류 HMM을 생성하고 환경분류 데이터 그룹을 직접 학습시켜 켑스트럴 환경분류 GMM을 생성하게 된다.
이때, 음향모델 생성부(114)는 MAP(Maximum A Posteriori) 또는 MAPLR(Maximum A Posteriori Linear Regression)을 이용하여 환경 적응을 수행하게 된다.
도 4는 본 발명의 일 실시예에 따른 이진 트리로 구성된 음향 모델을 나타낸다.
도 4에 도시한 바와 같이, 음향모델 생성부(114)는 이렇게 생성된 Clustered 음향 모델을 이진 트리로 구성하게 되는데, 루트 노드(root node)가 화자독립 모델이 된다.
그리고 하부 노드는 화자 분류 모델로 이진 분류되고, 화자분류 모델이 분류 기준값에 따라 더 이상 분류되지 않으면 환경 분류 모델로 이진 분류되어 하부 노드로 생성된다.
중간 노드에서 하부 노드로 분류되는 깊이는 분류 기준값에 따라 개별적으로 결정된다.
음성 데이터 DB(120)는 다양한 잡음 환경에서 수집된 음성 데이터를 저장하고 이렇게 수집된 음성 데이터를 기반으로 생성된 Clustered 음향 모델도 저장할 수 있다.
음성인식 수단(130)은 사용자로부터 음성 데이터를 입력 받으면 입력 받은 음성 데이터의 특징 데이터 추출하고 추출된 특징 데이터와 기 저장된 음향 모델을 기반으로 다중 모델을 선택하여 선택된 다중 모델을 기반으로 음성 데이터를 병렬 인식하며, 그 인식한 결과로 음성 데이터에 상응하는 단어열을 출력할 수 있다.
이러한 음성인식 수단(130)은 특징 추출부(131), 모델 선택부(132), 병렬 인식부(133), 인식 선택부(134) 등으로 이루어질 수 있는데, 도 5를 참조하여 설명한다.
도 5는 본 발명의 일 실시예에 따른 음성 인식 과정을 설명하기 위한 도면을 나타낸다.
도 5에 도시한 바와 같이, 특징 추출부(131)는 사용자로부터 음성 신호 또는 음성 데이터를 입력 받으면 그 입력 받은 음성 데이터의 특징 데이터를 추출할 수 있다.
모델 선택부(132)는 추출된 특징 데이터와 기 저장된 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 N 개의 다중 모델을 선택할 수 있다.
구체적으로 설명하면 다음과 같다. 먼저 모델 선택부(132)는 사용자로부터 입력된 데이터를 인식 처리하기 위해 적합한 N개의 다중 HMM 모델들을 선택하려면, HMM과 쌍을 이루는 트리 기반 GMM 모델들과 유사도 연산을 수행해야 한다. 본 발명에서는 이러한 인식 처리에 필요한 시간을 줄이기 위해 빠른 유사도 계산 방법을 제안한다.
유사도 계산 방법은 크게 두 가지가 있다. Top-down 방식은 도 4에서 보여지는 것처럼 다음과 같은 방법으로 진행된다.
1)루트 노드에서 시작하고, 중심 노드와 하부 두 노드의 유사도 계산을 동시에 진행하여 유사도가 높은 순으로 N-best 리스트에 올린다.
2)N-best 리스트가 부족하면 하부 노드에서 상기 1)의 과정을 반복한다. N-best리스트가 부족하지 않고 유사도 계산시 중심 노드가 유사도가 더 높으면 이후의 진행을 멈춘다. 반면 N-best 리스트가 부족하지 않고 하부 노드가 유사도가 더 높다면, N-best 리스트에 포함되는 하부 노드에서만 상기 1)의 과정을 반복하게 된다.
N-best 방법은 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 하부 노드로 탐색하면서 낮은 유사도의 모델은 빼고 높은 유사도 모델은 새로 집어 넣는 방법으로 진행된다. 이 Top-down 방법은 입력데이터의 전체 프레임을 이용하여 계산한다.
다른 방법인 Bottom-up 방식은 화자독립 모델을 포함한 트리 분류모델의 전체 모델들을 기준으로 매 프레임 마다 전체 모델에 대한 유사도를 계산하고 N-best 리스트에 올리고, N번째 리스트의 유사도값에서 일정 간격으로 낮춘 기준값 이하의 낮은 유사도 모델들을 버린다. 매 프레임에서 N-best 리스트를 갱신하며 기준값을 점차 N번째 유사도값 가까이 올린다. 그렇게 하여 최종 프레임에서 N-best 모델을 선택하는 방법이다.
병렬 인식부(133)는 선택된 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행할 수 있다.
인식 선택부(134)는 수행한 결과로 인식된 다중 단어열에서 비교 점수가 높은 단어열을 출력할 수 있다. 즉, 인식 선택부(134)는 언어모델 네트워크 즉, 발음 모델과 언어 모델을 기반으로 하는 병렬 인식에서 아크(arc)별 누적 비터비 점수를 비교하고 그 비교한 결과로 비터비 점수가 가장 높은 점수의 단어열을 출력하게 된다.
발음 모델 DB(140)는 발음 모델을, 언어 모델 DB(150)는 언어 모델을 저장할 수 있다.
도 6은 본 발명의 일 실시예에 따른 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법을 나타낸다.
도 6에 도시한 바와 같이, 본 발명에 따른 음성을 인식하기 위한 장치(이하 음성인식 장치라고 한다)는 사용자로부터 음성 데이터를 입력 받으면 입력 받은 음성 데이터의 특징 데이터 추출할 수 있다(S610).
다음으로, 음성인식 장치는 추출된 특징 데이터와 기 저장된 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 N 개의 다중 모델을 선택할 수 있다(S620).
다음으로, 음성인식 장치는 선택된 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행할 수 있다(S630).
다음으로, 음성인식 장치는 수행한 결과로 인식된 다중 단어열 각각의 비터비 점수를 비교하여 그 비교한 결과로 비터비 점수가 높은 단어열을 출력할 수 있다(S640).
한편, 이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성 요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 저장매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 저장매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
이상에서 설명한 실시예들은 그 일 예로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
110: 모델생성 수단
111: 데이터 구성부
112: 화자 분류부
113: 환경 분류부
114: 음향모델 생성부
120: 음성 데이터 DB
130: 음성인식 수단
131: 특징 추출부
132: 모델 선택부
133: 병렬 인식부
134: 인식 선택부
140: 발음 모델 DB
150: 언어 모델 DB

Claims (14)

  1. 다양한 잡음 환경에서 수집된 음성 데이터를 저장하는 음성 데이터 DB(Database);
    수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 수단; 및
    사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 수단;
    을 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  2. 제1 항에 있어서,
    상기 모델생성 수단은,
    수집된 상기 음성 데이터로부터 스펙트럴 데이터(spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성부;
    추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류부;
    생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류부; 및
    생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성부;
    를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  3. 제2 항에 있어서,
    상기 화자 분류부는,
    추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고 생성된 상기 화자독립 GMM, 상기 화자독립 HMM을 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고,
    상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며,
    생성된 상기 켑스트럴 화자분류 데이터 그룹과 같은 음성데이터에서 추출한 스펙트럴 데이터로 대응 분류한 스펙트럴 화자분류 데이터 그룹을 생성하고, 화자분류 데이터 그룹을 직접 학습하여 켑스트럴 화자분류 GMM 그룹을 생성하고, 화자독립 모델에 켑스트럴 화자분류 데이터를 화자 적응하여 켑스트럴 화자분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  4. 제3 항에 있어서,
    상기 환경 분류부는,
    생성된 상기 캡스트럴 화자분류 HMM 그룹과 상기 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  5. 제4 항에 있어서,
    상기 음향모델 생성부는,
    생성된 상기 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  6. 제1 항에 있어서,
    상기 음성인식 수단은,
    사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출부;
    추출된 상기 특징 데이터와 기 저장된 상기 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택부;
    선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식부; 및
    수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택부;
    를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  7. 제6 항에 있어서,
    상기 모델 선택부는,
    상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치.
  8. 다양한 잡음 환경에서 수집된 음성 데이터를 음성 데이터 DB(Database)에 저장하는 단계;
    수집된 상기 음성 데이터를 기반으로 화자와 환경별로 분류하여 그 분류한 결과로 이진 트리 구조의 음향 모델을 생성하는 모델생성 단계; 및
    사용자로부터 음성 데이터를 입력 받으면 입력 받은 상기 음성 데이터의 특징 데이터 추출하여 추출된 상기 특징 데이터를 기반으로 기 생성된 상기 음향 모델로부터 다중 모델을 선택하고 선택된 상기 다중 모델을 기반으로 음성 데이터를 병렬 인식하여 그 인식한 결과로 상기 음성 데이터에 상응하는 단어열을 출력하는 음성인식 단계;
    를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  9. 제8 항에 있어서,
    상기 모델생성 단계는,
    수집된 상기 음성 데이터로부터 스펙트럴 데이터(spectral data)와 켑스트럴 데이터(Cepstral data)의 2가지 형태로 상기 특징 벡터 데이터를 추출하는 데이터 구성단계;
    추출된 상기 특징 벡터 데이터를 화자 기준으로 분류하여 그 분류한 결과로 화자분류 HMM 그룹, 화자분류 GMM 그룹, 화자분류 데이터 그룹을 포함하는 이진 트리 기반의 화자 중심의 계층적 모델을 생성하는 화자 분류단계;
    생성된 상기 화자분류 HMM 그룹과 상기 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 환경분류 데이터 그룹을 생성하는 환경 분류단계; 및
    생성된 상기 환경분류 데이터 그룹과 상기 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 환경분류 HMM 그룹과 환경분류 GMM을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델 음향모델 생성단계;
    를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  10. 제9 항에 있어서,
    상기 화자 분류단계는,
    추출된 상기 캡스트럴 데이터를 기반으로 화자독립 GMM, 화자독립 HMM을 생성하고 생성된 상기 화자독립 GMM, 상기 화자독립 HMM을 화자 적응을 수행하여 그 수행한 결과로 이진 트리 기반의 켑스트럴 화자분류 HMM 그룹을 생성하고,
    상기 캡스트럴 데이터를 화자 기준으로 분류하여 그 분류한 결과로 켑스트럴 화자분류 데이터 그룹을 생성하며,
    생성된 상기 켑스트럴 화자분류 데이터 그룹과 같은 음성데이터에서 추출한 스펙트럴 데이터로 대응 분류한 스펙트럴 화자분류 데이터 그룹을 생성하고, 화자 분류 데이터 그룹을 직접 학습하여 켑스트럴 화자분류 GMM 그룹을 생성하고, 화자독립 모델에 켑스트럴 화자분류 데이터를 화자 적응하여 켑스트럴 화자분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  11. 제10 항에 있어서,
    상기 환경 분류단계는,
    생성된 상기 캡스트럴 화자분류 HMM 그룹과 상기 스펙트럴 화자분류 데이터 그룹을 환경 기준으로 분류하여 그 분류한 결과로 캡스트럴 환경분류 데이터 그룹을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  12. 제11 항에 있어서,
    상기 음향모델 생성단계는,
    생성된 상기 캡스트럴 환경분류 데이터 그룹과 캡스트럴 화자분류 HMM 그룹을 환경 적응을 수행하여 그 수행한 결과로 캡스트럴 환경분류 GMM 그룹과 캡스트럴 환경분류 HMM 그룹을 포함하는 이진 트리 기반의 환경 중심의 계층적 모델을 생성하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  13. 제8 항에 있어서,
    상기 음성인식 단계는,
    사용자로부터 입력 받은 상기 음성 데이터의 특징 데이터를 추출하는 특징 추출단계;
    추출된 상기 특징 데이터와 기 저장된 상기 음향 모델 간의 유사도를 계산하여 그 계산한 결과에 따라 다중 모델을 선택하는 모델 선택단계;
    선택된 상기 다중 모델과 기 저장된 발음 모델, 언어 모델을 기반으로 상기 음성 데이터에 대한 비터비(viterbi) 기반의 병렬 인식을 수행하는 병렬 인식단계; 및
    수행한 결과로 출력된 다중 단어열에서 점수가 가장 높은 단어열을 출력하는 인식 선택단계;
    를 포함하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
  14. 제13 항에 있어서,
    상기 모델 선택단계는,
    상기 이진 트리 기반의 음향 모델의 루트 노드로부터 하위 노드로 탐색하면서 유사도를 계산하고 그 계산한 결과로 유사도가 높은 순으로 최종 N개의 모델이 될 때까지 낮은 유사도의 모델은 빼고 높은 유사도 모델은 추가하는 과정을 반복하는 것을 특징으로 하는 다중 음향 모델을 이용하여 음성을 인식하기 위한 방법.
KR1020120151688A 2012-12-24 2012-12-24 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법 KR20140082157A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020120151688A KR20140082157A (ko) 2012-12-24 2012-12-24 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
US13/845,941 US9378742B2 (en) 2012-12-24 2013-03-18 Apparatus for speech recognition using multiple acoustic model and method thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020120151688A KR20140082157A (ko) 2012-12-24 2012-12-24 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법

Publications (1)

Publication Number Publication Date
KR20140082157A true KR20140082157A (ko) 2014-07-02

Family

ID=50975671

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020120151688A KR20140082157A (ko) 2012-12-24 2012-12-24 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법

Country Status (2)

Country Link
US (1) US9378742B2 (ko)
KR (1) KR20140082157A (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931013A (zh) * 2019-11-29 2020-03-27 北京搜狗科技发展有限公司 一种语音数据的处理方法及装置
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2021086130A1 (ko) * 2019-11-01 2021-05-06 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법

Families Citing this family (153)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
US9892733B2 (en) * 2013-05-20 2018-02-13 Speech Morphing Systems, Inc. Method and apparatus for an exemplary automatic speech recognition system
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
CN106471570B (zh) 2014-05-30 2019-10-01 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
KR102443087B1 (ko) 2015-09-23 2022-09-14 삼성전자주식회사 전자 기기 및 그의 음성 인식 방법
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
CN107564513B (zh) * 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10062385B2 (en) 2016-09-30 2018-08-28 International Business Machines Corporation Automatic speech-to-text engine selection
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10504518B1 (en) 2018-06-03 2019-12-10 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
WO2020199013A1 (en) * 2019-03-29 2020-10-08 Microsoft Technology Licensing, Llc Speaker diarization with early-stop clustering
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11302310B1 (en) * 2019-05-30 2022-04-12 Amazon Technologies, Inc. Language model adaptation
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
KR20210029354A (ko) * 2019-09-06 2021-03-16 삼성전자주식회사 전자장치 및 그 제어방법
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
CN110853633A (zh) * 2019-09-29 2020-02-28 联想(北京)有限公司 一种唤醒方法及装置
RU2757264C2 (ru) 2019-12-24 2021-10-12 Общество С Ограниченной Ответственностью «Яндекс» Способ и система для обработки пользовательского разговорного речевого фрагмента
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN111696526B (zh) * 2020-06-22 2021-09-10 北京达佳互联信息技术有限公司 语音识别模型的生成方法、语音识别方法、装置
CN111814876A (zh) * 2020-07-08 2020-10-23 重庆农村商业银行股份有限公司 一种票据识别方法、装置、设备及存储介质
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5497447A (en) * 1993-03-08 1996-03-05 International Business Machines Corporation Speech coding apparatus having acoustic prototype vectors generated by tying to elementary models and clustering around reference vectors
DE69833987T2 (de) * 1998-12-17 2006-11-16 Sony Corp. Halbüberwachte Sprecheradaptation
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
CA2785081C (en) * 2009-12-31 2021-03-30 Volt Delta Resources, Llc Method and system for processing multiple speech recognition results from a single utterance
US8438028B2 (en) * 2010-05-18 2013-05-07 General Motors Llc Nametag confusability determination
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
US8880399B2 (en) * 2010-09-27 2014-11-04 Rosetta Stone, Ltd. Utterance verification and pronunciation scoring by lattice transduction
KR20120056086A (ko) 2010-11-24 2012-06-01 한국전자통신연구원 음향모델 적응 방법 및 이를 이용하는 음성인식 장치
US9009049B2 (en) * 2012-06-06 2015-04-14 Spansion Llc Recognition of speech with different accents
WO2014176750A1 (en) * 2013-04-28 2014-11-06 Tencent Technology (Shenzhen) Company Limited Reminder setting method, apparatus and system

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2021086130A1 (ko) * 2019-11-01 2021-05-06 삼성전자 주식회사 사용자 발화를 처리하는 전자 장치와 그 동작 방법
CN110931013A (zh) * 2019-11-29 2020-03-27 北京搜狗科技发展有限公司 一种语音数据的处理方法及装置

Also Published As

Publication number Publication date
US9378742B2 (en) 2016-06-28
US20140180689A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
KR20140082157A (ko) 다중 음향 모델을 이용하여 음성을 인식하기 위한 장치 및 그 방법
JP5768093B2 (ja) 音声処理システム
JP4195428B2 (ja) 多数の音声特徴を利用する音声認識
JP5853029B2 (ja) 話者照合のためのパスフレーズ・モデリングのデバイスおよび方法、ならびに話者照合システム
EP0771461B1 (en) Method and apparatus for speech recognition using optimised partial probability mixture tying
KR100748720B1 (ko) 다중 계층 중심 어휘 목록에 기초하여 대규모 단어 음성인식 방법 및 그 장치
US20110218805A1 (en) Spoken term detection apparatus, method, program, and storage medium
JP2010504553A (ja) 音声キーワードの特定方法、装置及び音声識別システム
EP1457968B1 (en) Noise adaptation system of speech model, noise adaptation method, and noise adaptation program for speech recognition
Das et al. Bangladeshi dialect recognition using Mel frequency cepstral coefficient, delta, delta-delta and Gaussian mixture model
Sharma et al. Speech recognition in Kannada using HTK and julius: a comparative study
Beaufays et al. Unsupervised discovery and training of maximally dissimilar cluster models
KR100664960B1 (ko) 음성 인식 장치 및 방법
US7953594B2 (en) Speech recognition method and apparatus using lexicon group tree
CN111640423B (zh) 一种词边界估计方法、装置及电子设备
Norouzian et al. Zero resource graph-based confidence estimation for open vocabulary spoken term detection
CN102237082A (zh) 语音识别系统的自适应方法
Chung et al. Unsupervised discovery of structured acoustic tokens with applications to spoken term detection
JP2002091484A (ja) 言語モデル生成装置及びこれを用いた音声認識装置、言語モデル生成方法及びこれを用いた音声認識方法、並びに言語モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体及び音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
Mohammadi et al. Efficient implementation of GMM based speaker verification using sorted Gaussian mixture model
KR101890303B1 (ko) 가창 음성 생성 방법 및 그에 따른 장치
Ali et al. Spoken Web Search using an Ergodic Hidden Markov Model of Speech.
Gubka et al. Universal approach for sequential audio pattern search
Chien Decision tree state tying using cluster validity criteria
JP2008058679A (ja) 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid