KR20050082249A - 도메인 기반 대화 음성인식방법 및 장치 - Google Patents

도메인 기반 대화 음성인식방법 및 장치 Download PDF

Info

Publication number
KR20050082249A
KR20050082249A KR1020040010659A KR20040010659A KR20050082249A KR 20050082249 A KR20050082249 A KR 20050082249A KR 1020040010659 A KR1020040010659 A KR 1020040010659A KR 20040010659 A KR20040010659 A KR 20040010659A KR 20050082249 A KR20050082249 A KR 20050082249A
Authority
KR
South Korea
Prior art keywords
recognition
domain
unit
language model
sentences
Prior art date
Application number
KR1020040010659A
Other languages
English (en)
Other versions
KR100612839B1 (ko
Inventor
최인정
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020040010659A priority Critical patent/KR100612839B1/ko
Priority to US11/059,354 priority patent/US20050182628A1/en
Publication of KR20050082249A publication Critical patent/KR20050082249A/ko
Application granted granted Critical
Publication of KR100612839B1 publication Critical patent/KR100612839B1/ko

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/02Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor with one or more flat stamping surfaces having fixed images
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B41PRINTING; LINING MACHINES; TYPEWRITERS; STAMPS
    • B41KSTAMPS; STAMPING OR NUMBERING APPARATUS OR DEVICES
    • B41K1/00Portable hand-operated devices without means for supporting or locating the articles to be stamped, i.e. hand stamps; Inking devices or other accessories therefor
    • B41K1/36Details
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

도메인 기반 대화 음성인식방법 및 장치가 개시된다. 이 방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다. 이에 따르면, 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.

Description

도메인 기반 대화 음성인식방법 및 장치 {Method and apparatus for domain-based dialog speech recognition}
본 발명은 음성인식에 관한 것으로서, 특히 단어 오인식에 의해 야기되는 도메인 추출 오류가 최종 인식결과에 미치는 영향을 최소화할 수 있는 도메인 기반 대화 음성인식방법 및 장치에 관한 것이다.
음성인식이란 주어진 음성신호로부터 특징을 추출하고, 추출된 특징에 패턴인식 알고리즘을 적용시킨 후 화자가 어떤 음소열 또는 단어열을 발화시켜 발생된 음성신호인가를 역추적하는 것을 말한다. 최근 들어, 대화체 음성인식의 정확도를 높이기 위한 다양한 방법들이 제안되고 있는데, 그 중 하나는 한국특허번호 277690에 개시되어 있는 "화행정보를 이용한 음성인식방법"으로서, 1차 음성인식과정에서 얻어진 인식결과를 바탕으로 하여 화행을 추정한 다음, 추정된 화행에 특화된 언어모델을 이용하여 최종 인식결과를 탐색한다. 그런데 이 방법에 따르면 1차 음성인식과정에서 얻어진 인식결과에 수반되는 오류로 인하여 화행추정 오류가 발생하게 되면, 잘못된 최종 인식결과를 도출할 가능성이 높다.
다른 방법으로는 예를 들면, 날씨, 관광 등과 같은 주제(topic) 별로 다수의 도메인을 분류하고, 각 도메인에 대하여 특화된 음향모델과 언어모델을 생성한 다음, 이들을 이용하여 주어진 음성신호를 인식하는 도메인 기반 음성인식기술이 널리 사용되고 있다. 이 방법에 따르면, 음성신호가 입력되면 준비된 복수개의 도메인에 대하여 병렬적으로 음성인식을 수행하여 인식결과를 생성한 다음, 복수개의 인식결과 중 가장 신뢰도가 높은 인식결과를 최종적으로 선택한다. 이러한 경우, 도메인의 수 만큼 음성인식을 병렬적으로 수행해야 하므로 처리속도를 만족시키기 위해 대용량 서버를 필요로 한다.
이를 해결하기 위한 방법으로서, 먼저 발화문에 대하여 1차 음성인식을 수행하여 핵심어를 인식하고, 인식된 주제어에 해당하는 도메인에 대하여 2차 음성인식을 수행하는 방법이 제안되어 있다. 그런데, 1차 음성인식과정에서 오류가 생기는 경우에는, 오류를 복구할 별도의 기회가 없이 잘못 인식된 핵심어로 추출되는 도메인의 음향모델과 언어모델을 이용하여 2차 음성인식과정이 진행됨으로써 잘못된 인식결과를 도출해 내는 등, 음성인식의 정확도가 도메인 추출오류에 매우 민감한 문제점이 있다. 또한, 발화문이 적어도 두개의 도메인에 해당하는 핵심어를 포함할 경우에는 다수의 도메인 중 하나의 도메인을 식별하는 것이 어려운 단점이 있다.
본 발명이 이루고자 하는 기술적 과제는 단어 오인식에 의해 야기되는 도메인 추출 오류가 최종 인식결과에 미치는 영향을 최소화할 수 있는 도메인 기반 대화 음성인식방법 및 장치를 제공하는데 있다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 도메인 기반 대화 음성인식방법은 (a) 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장과 단어격자를 생성하는 단계; (b) 각 1차 인식문장에 포함된 신뢰도가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계; (c) 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 단어격자에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및 (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함한다.
상기 기술적 과제를 달성하기 위하여 본 발명에 따른 도메인 기반 대화 음성인식장치는 입력 음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 생성하는 제1 음성인식부; 상기 제1 음성인식부로부터 제공되는 상기 복수개의 1차 인식문장을 이용하여 복수개의 후보도메인을 선정하는 도메인 추출부; 상기 제1 음성인식부의 인식결과에 대하여 상기 도메인 추출부에서 선택된 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 제2 음성인식부; 및 상기 제1 음성인식부로부터 제공되는 상기 1차 인식문장과 제2 음성인식부로부터 제공되는 상기 2차 인식문장으로부터 복수개의 최종 인식문장을 선택하는 선택부를 포함한다.
상기 방법은 바람직하게는 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체로 구현할 수 있다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예에 대하여 상세하게 설명하기로 한다.
도 1은 본 발명에 따른 도메인 기반 대화 음성인식장치의 일실시예의 구성을 나타낸 블럭도로서, 제1 음성인식부(110), 도메인 추출부(120), 제2 음성인식부(130) 및 선택부(140)으로 이루어진다.
도 1을 참조하면, 제1 음성인식부(110)에서는 입력된 음성신호에 대하여 특징추출, 비터비탐색 및 후처리를 통해 음성인식을 수행하고, 그 결과 1차 인식결과를 생성한다. 비터비 탐색은 전체 트레이닝 세트로부터 구축된 일반화된 복수개의 언어모델 중 스위칭된 하나의 언어모델, 음향모델 및 발음사전을 참조하여 수행된다. 일반화된 언어모델로는 전체 도메인을 커버하는 글로벌 언어모델, 시스템 발화내용에 대한 화행 기반 언어모델(speech act specific LM) 및 프롬프트 기반 언어모델(prompt specifc LM) 등을 들 수 있으나, 여기에 한정되진 않는다. 음성인식시 초기에는 글로벌 언어모델을 사용하며, 대화가 진행됨에 따라서 글로벌 언어모델을 그대로 사용하거나 대화상황에 따라서 복수개의 언어모델 중 적합한 언어모델로 스위칭된다. 스위칭 기준으로는 사용자와 시스템 간의 대화 히스토리, 시스템 발화내용에 대한 화행정보나 프롬프트 범주에 대한 정보를 들 수 있다. 이러한 정보는 사용자와 시스템간의 음성대화시스템에서 대화관리부(미도시)로부터 제1 음성인식부(110)로 피드백되어진다.
제1 음성인식부(110)에서 생성된 1차 인식결과는 비터비 탐색결과 얻어지는 단어격자(word lattice)와 후처리결과 얻어지는 상위 N개의 인식문장이다. 단어격자 뿐만 아니라 단어격자를 압축한 단어 그래프가 더 생성될 수 있다. 한편, 음성인식 결과에 대한 신뢰도 측정을 위하여 음소인식과정을 추가할 경우 음소열이 1차 인식결과에 더 포함될 수 있다. 음소인식 대신에 상대적으로 인식 정확도가 높은 음절인식이 사용될 수 있다. 1차 인식결과 중 상위 N개의 인식문장은 도메인 추출부(120)와 선택부(140)로, 단어격자 혹은 단어그래프는 도메인 추출부(120)와 제2 음성인식부(130)로, 음소열은 도메인 추출부(120)로 각각 제공된다.
도메인 추출부(120)에서는 제1 음성인식부(110)에서 생성된 1차 인식결과 중 상위 N개의 인식문장과 단어격자 및 음소인식결과를 입력으로 하여 단어레벨로 신뢰도를 산출하고, 소정 문턱치 이상의 신뢰도를 갖는 단어들 중에서 도메인 핵심어들을 선택하고, 선택된 도메인 핵심어와 도메인 지식을 근거로 후보 도메인들을 추출한다. 후보 도메인의 선정에 사용되는 도메인 분류기는 핵심어의 도메인 확률을 사용하는 간단한 통계 기반의 분류기나 SVM(Support Vector Machine) 분류기이며, 가장 높은 도메인 식별점수에서 소정의 범위 내에 식별점수가 위치하는 모든 도메인을 후보 도메인으로 결정한다.
제2 음성인식부(130)에서는 도메인 추출부(120)에서 추출되는 각 후보도메인에 대응하는 음향모델과 언어모델을 이용하여 제1 음성인식부(110)로부터 제공되는 단어격자에 대해 재차 음성인식을 수행하고, 그 결과 복수개의 인식문장을 생성한다.
선택부(140)에서는 제1 음성인식부(110)에서 음성인식결과 얻어지는 상위 N개의 인식문장과 제2 음성인식부(130)에서 음성인식결과 얻어지는 복수개의 인식문장을 입력으로 하여, 그 중 복수개의 상위 인식문장을 선택하고, 상위 인식문장 각각에 대한 단어레벨 및 문장레벨의 신뢰점수, 및 각 인식문장의 도메인 등을 최종 인식결과로서 제공한다.
도 2는 도 1에 있어서 제1 음성인식부(110)의 세부적인 구성을 보여주는 블럭도로서, 특징추출부(210), 제1 탐색부(220), 후처리부(260) 및 음소인식부(270)로 이루어진다.
도 2를 참조하면, 특징추출부(210)에서는 음성신호를 입력받아, 멜주파수 켑스트럼 계수(Mel-Frequency Cepstral Coefficient)와 같은 음성인식에 유용한 특징벡터로 변환한다.
제1 탐색부(220)에서는 특징추출부(210)로부터 특징벡터들을 입력받아, 학습과정에서 미리 구해진 제1 음향모델(230), 발음사전(240), 및 제1 언어모델(250)을 이용하여, 제1 음향모델(230)과 제1 언어모델(250)이 상기 특징벡터열과 가장 잘 정합이 되는 단어열을 찾는다. 제1 음향모델(230)은 입력된 특징벡터와 은닉마코프모델(HMM) 스테이트와의 정합 스코어를 나타내는 음향모델 스코어의 계산에 적용되며, 제1 언어모델(250)은 이웃하는 단어들 사이의 문법적 결합 스코어의 계산에 적용되어, 결과적으로 입력 특징벡터열과 가장 정합이 잘 되는 N개의 인식문장을 탐색한다. 상기 N개의 인식문장을 찾기 위해 비터비 탐색 알고리즘이나 스텍 디코더(stack decoder)가 적용될 수 있다. 제1 탐색부(220)에서의 탐색 결과, 후단에서 더 정확한 인식결과를 얻기 위한 단어격자(word lattice)가 생성된다. 이때, 제1 언어모델(250)은 사용자에 의한 초기 발화 이후 사용자와 시스템 간의 대화 히스토리, 시스템 발화내용에 대한 화행정보나 도메인 정보, 시스템 프롬프트의 범주에 대한 정보에 따라서, 복수개의 일반화된 언어모델 중 하나가 선택된다. 예를 들어, 사용자의 초기 발화에 대해서는 모든 도메인을 커버할 수 있는 글로벌 언어모델이 적용되고, 초기 발화 이후부터는 글로벌 언어모델이 계속 적용되거나 대화의 상황에 따라서 적합한 언어모델이 선택되어 적용된다.
제1 음향모델(230)은 화자독립형 음향모델 또는 현재 사용자의 음성에 적응된 화자적응형 음향모델일 수 있다. 또한, 제1 언어모델(250)은 이전의 단어들로부터 다음 단어가 나타날 확률을 예측하기 위한 것으로서, 일반적으로 바로 이전에 나온 두개의 단어로부터 다음 단어가 나타날 확률을 예측하는 트라이그램이 사용되나, 여기에 한정되지 않는다.
후처리부(260)에서는 제1 탐색부(250)에서 얻어진 단어격자를 입력받아, 제1 음향모델(230)과 제1 언어모델(250)을 적용하여 최종 인식결과를 출력한다. 이때, 후처리부(260)에서는 더 상세한 음향모델과 언어모델이 적용되는데, 더 상세한 음향모델로는 단어간 트라이폰(tri-phone) 모델이나 퀸폰(quin-phone) 모델이 사용될 수 있으며, 더 상세한 언어모델로는 트라이그램이나 언어 의존적인 규칙들이 적용될 수 있다. 최종 인식결과는 상위 스코어를 갖는 N개의 인식문장이다.
음소인식부(270)에서는 특징추출부(210)로부터 특징벡터들을 입력받아, 학습과정에서 미리 구해진 제2 음향모델(280) 및 음소 문법모델(290)을 이용하여 가장 스코어가 높은 음소열을 인식하여 출력한다. 음소인식부(270)에서도 제1 음성인식부(210)에서와 동일한 인식 알고리즘이 사용된다.
도 3은 도 1에 있어서 도메인 추출부(120)의 세부적인 구성을 보여주는 블럭도로서, 제1 검증부(310), 도메인점수 산출부(320), 도메인 데이터베이스(330) 및 후보도메인 선택부(340)로 이루어진다.
도 3을 참조하면, 제1 검증부(310)에서는 제1 음성인식부(110)로부터 제공되는 상위 N개의 각 인식문장에 포함된 단어들에 대하여 단어레벨로 신뢰도 검증을 수행한다. 신뢰도 검증은 가설 검증에서 일반적으로 적용되는 LRT(Likelihood Ratio Test)에 의한 검증 방법에 의해 수행된다. 이때 유사도 비율에서 분자항은 인식된 단어에 대한 점수를, 분모항은 인식된 단어구간에서 음소인식부(270)에서의 음소인식결과에 대한 점수 또는 제1 음성인식부(110)에서 얻어진 단어격자에서 상기 인식된 단어와 동일한 음성구간에서 혼동되는 단어에 대한 점수를 나타낸다. 이외에도 현재의 인식문장에서의 신뢰점수가 나머지 (N-1)개 인식문장의 신뢰점수로부터 계산될 수 있다. 즉, 단어레벨의 신뢰점수 계산에 음소인식 결과나 단어격자 정보, N개 인식문장에 대한 결과가 이용되며, 더 정확한 신뢰점수의 계산을 위해 세가지 정보가 함께 적용될 수 있다. 제1 검증부(310)에서는 N개의 인식문장에 포함된 인식단어들에 대해 상기의 신뢰점수 측정과정을 거쳐 소정 문턱치 이상의 신뢰점수를 갖는 단어들을 결정하여 도메인 검출부(320)로 제공한다.
도메인 점수 산출부(320)에서는 제1 검증부(310)로부터 제공되는 검증된 단어들을 입력으로 하여, 도메인 데이터베이스(330)를 참조하면서 도메인 검출에 사용될 핵심어들을 먼저 추출한 다음, 이들 각 핵심어의 각 도메인에 대한 식별점수를 산출한다. 도메인 검출에 이용되는 핵심어는 통상 복수 개이나, 사용자의 발화내용이나 제1 검증부(310)의 검증결과에 따라서 도메인 핵심어가 하나도 없는 경우도 있다. 도메인 점수 산출을 위해서는 도메인 핵심어들에 대한 도메인 유니그램(unigram) 확률값을 이용한 간단한 통계기반 도메인 검출기나 SVM(Support Vector Machine) 분류기를 사용할 수 있다.
도메인 데이터베이스(330)에는 각 핵심어를 관광이나 날씨 등과 같은 의미적 카테고리 즉, 도메인으로 범주화하여, 각 핵심어별로 도메인 확률값을 추정하거나 도메인 분류에 필요한 파라미터들을 훈련한다. 이때, 도메인 핵심어에는 조사나 어미와 같은 기능어(function word)들은 제외된다.
후보도메인 선택부(340)에서는 도메인점수 산출부(320)로부터 제공되는 도메인별 식별점수를 입력으로 하여, 가장 높은 식별점수를 갖는 도메인을 식별하고, 가장 높은 식별점수와 소정 범위 이내의 식별점수를 갖는 모든 도메인들을 후보 도메인으로 선정한다. 도메인 식별에 적용되는 핵심어들이 하나도 없는 경우에는 모든 도메인들이 후보 도메인으로 선정된다.
도 4는 도 1에 있어서 제2 음성인식부(130)의 세부적인 구성을 보여주는 블럭도로서, 제2 탐색부(410), 리스코어링부(440) 및 제2 검증부(450)로 이루어진다.
도 4를 참조하면, 제2 탐색부(410)에서는 제1 음성인식부(110)로부터 제공되는 단어격자 또는 단어그래프를 입력받아, 도메인 데이터베이스(330)에 존재하는 도메인별로 학습하여 미리 구해진 도메인별 언어모델(430)과 각 도메인에 특화된 도메인별 음향모델(420)을 이용하여, 후보 도메인별로 N개의 인식문장을 탐색한다. 제2 탐색부(410)에서는 단어격자 또는 단어그래프에 한정하여 탐색과정을 진행함으로써 제1 음성인식부(110)의 제1 탐색부(210)에 비하여 그 계산량이 현저하게 줄어들게 된다.
리스코어링부(440)에서는 제2 탐색부(410)로부터 제공되는 복수개의 인식문장들에 대하여 단어간 트라이폰 음향모델과 트라이그램 언어모델을 이용하여 리스코어링을 수행하여, 상위 스코어를 갖는 복수개의 인식문장을 생성하여 제2 검증부(450)로 제공한다.
제2 검증부(450)에서는 리스코어링부(440)로부터 제공되는 상위 스코어를 갖는 복수개의 인식문장의 단어레벨 및 문장레벨의 신뢰 점수를 산출하여 선택부(140)로 제공한다.
도 5는 본 발명에 따른 도메인 기반 대화 음성인식방법의 동작을 설명하는 흐름도이다.
도 5를 참조하면, 510 단계에서는 사용자 발화문에 대하여 특징벡터를 추출한다. 특징벡터로는 예를 들면, 프레임당 12차 멜주파수 켑스트럼계수, 12차 델타 멜주파수 켑스트럼계수, 에너지 및 델타 에너지로 이루어지는 26차 특징벡터를 사용할 수 있다.
520 단계에서는 제1 음향모델(230)과 제1 언어모델(250)을 이용하여 음성인식을 수행하고, 1차 인식결과를 생성한다. 여기서, 1차 인식결과는 스코어가 상위인 N개의 인식문장, 인식된 모든 문장의 단어격자, 및 인식된 모든 문장의 음소열 중 적어도 하나 이상을 포함한다. 각 인식문장의 점수는 해당 문장을 구성하는 단어들의 음향모델의 로그점수와 언저모델의 로그점수의 합으로부터 구해진다. 설명을 돕기 위하여, 예를 들어, 사용자 발화가 "지금 기온이 몇이지?"인 경우, 상위 N개의 인식문장에 포함될 수 있는 상위 인식문장을 "지금 기온이 몇 시지"로 가정한다.
530 단계에서는 520 단계에서 얻어지는 상위 N개의 인식문장으로부터 도메인을 선정하는데 사용되는 핵심어를 결정한다. 상위 N개의 인식문장에 포함된 단어 중에서 신뢰점수가 소정의 문턱값 이상이면서 기능어가 아닌 내용어(content word)인 어휘들이 도메인 핵심어로 결정되며, 이때 도메인 핵심어들의 도메인 유니그램 확률값 또는 SVM 점수로부터 후보도메인들이 결정된다. 예를 들면, 상위 인식문장 "지금 기온이 몇 시지"는 각 품사 단위로 어휘가 정의되어 있으며, 각 품사별 어휘 즉, "지금/nc", "기온/nc", "이/jc", "몇/m", "시/nbu", "지/ef"에 대하여 다음 표 1과 같이 단어레벨 신뢰점수가 주어진다.
품사별 어휘 신뢰점수
지금/nc -0.20
기온/nc 0.74
이/jc 1.47
몇/m 0.48
시/nbu 0.12
지/ef 1.39
상기 표 1에서 신뢰점수가 0 이상이면서 내용어에 해당되는 기온/nc, 몇/nc, 시/nbu 등이 도메인 식별에 이용되는 도메인 핵심어에 해당되며, 520 단계에서 1차 음성인식결과로 얻어지는 나머지 상위 (N-1)개의 인식문장에 대해서도 이러한 핵심어 추출과정이 반복된다.
540 단계에서는 530 단계에서 결정된 상위 N개의 인식문장들로부터 추출된 도메인 핵심어들을 입력으로 이용하여 도메인 데이터베이스(330)로부터 복수개의 후보도메인을 추출한다. 예를 들어, 상기 예에서 결정된 도메인 핵심어 "기온/nc"는 날씨 도메인에 대한 확률값이 높고, "시/nbu"는 "날짜-시간" 도메인에 대한 확률값이 높다. 따라서, 상기 예의 경우에서는 "날씨"와 "날짜-시간" 도메인이 후보 도메인으로 선정된다.
550 단계에서는 540 단계에서 추출된 복수개의 후보도메인 각각에 특화된 음향모델과 언어모델을 이용하여 음성인식을 수행한다. 이때, 520 단계에서 얻어지는 단어격자 또는 단어격자를 압축한 단어 그래프에 대하여 음성인식이 수행된다. 상기 예에서 상위 인식문장 "지금 기온이 몇 시지"에 대하여 "날씨"에 대한 후보도메인에 특화된 언어모델과 음향모델을 적용하여 음성인식을 수행하여 2차 인식문장 즉, "지금 기온이 몇이지"를 생성하는 한편 이에 대한 스코어를 산출하고, "날짜-시간"에 대한 후보도메인에 특화된 언어모델과 음향모델을 적용하여 음성인식을 수행하여 2차 인식문장 즉 "지금 시간이 몇시지"를 생성하는 한편 이에 대한 스코어를 산출한다. 이와 같은 후보도메인에 기반한 음성인식과정은 상기 540 단계에서 추출된 모든 후보도메인에 대하여 수행된다. 이때, 후보도메인의 수는 최소 1개이며, 최대 전체 도메인의 수와 같다. 각 후보 도메인에 대해 음성인식이 수행될 때마다 해당 도메인에 특화된 언어모델로 스위칭되어 해당 하드웨어로부터 읽혀진다. 전체 도메인의 수가 적을 경우에는 모든 도메인의 언어모델이 프로그램에 적재되어 필요시마다 스위칭될 수 있다.
560 단계에서는 520 단계에서 얻어지는 상위 N개의 인식문장과 550 단계에서 얻어지는 복수개의 2차 인식문장의 스코어를 비교하여, 복수개의 최종 인식문장을 선택한다. 예로 든, 상위 인식문장 "지금 기온이 몇 시지"를 포함하는 상위 N개의 인식문장의 스코어와 "지금 기온이 몇이지"와 "지금 시간이 몇시지"를 포함하는 복수개의 도메인 기반 인식문장의 스코어를 비교하여, 가장 높은 스코어를 갖는 도메인 기반 인식문장 "지금 기온이 몇이지"를 포함하는 최종 인식문장으로 생성한다.
본 발명은 또한 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플라피디스크, 광데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현되는 것도 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
한편, 본 발명에 따른 음성인식방법의 성능을 평가하기 위한 모의실험을 다음과 같이 수행하였다. 사용된 음향모델 학습데이터로는 남자 249명과 여자 207명으로 구성된 총 456명이 발성한 낭독체 연속어 문장을 사용하였으며, 화자당 약 100 문장을 발성하였다. 사용된 언어모델 학습데이터로는 18개 도메인과 관련된 약 1800만 문장의 텍스트 데이터베이스를 이용하였다. 테스트 데이터로는 남자 15명과 여자 15명으로 구성된 총 30명이 발성한 3000 문장을 사용하였다. 사용된 특징벡터는 프레임당 12차 MFCC, 12차 델타 MFCC, 에너지 및 델타 에너지로 이루어지는 26차 특징벡터이다. 학습된 HMM 모델은 4,016개의 트라이폰 모델이며, 유사한 HMM 상태들은 서로 파라미터를 공유시켜 5,983개의 구별된 HMM 상태 수를 가지며, 각 HMM 상태는 음성학상 결합된 혼합모델(Phonetically-tied Mixture Model)에 기준하여 통계적인 분포가 특징지워진다. 1차 음성인식과정에서는 글로벌 언어모델을 이용하여 음성인식을 수행하였다. 비교대상은 3-레이어 계층구조의 언어모델을 사용한 방법, 유니그램 유사도에 기반하여 핵심어를 검출하는 방법, 복수의 도메인에 대하여 병렬로 음성인식을 수행하는 방법, 본 발명에 따른 음성인식방법이다. 본 발명에서는 음향모델로서 1차 음성인식과정과 2차 음성인식과정 모두 동일한 화자독립모델을 사용하였으며, 1차 음성인식과정에서는 글로벌 언어모델을 적용하고, 도메인 핵심어 선정시에 적용되는 인식결과에 대한 신뢰점수는 인식된 단어의 로그점수와 해당 단어의 음성구간에서 인식된 음소인식 로그점수의 차로 계산되며, 도메인 후보 선정시에는 도메인 핵심어의 도메인별 유니그램 확률을 이용한 도메인 식별점수가 최대 도메인 식별점수와 비교하여 소정 범위 이내에 있는 모든 도메인들을 후보로 선정하였다. 총 18개 도메인에 각각 대응하는 언어모델이 사용되었다.
먼저 도메인 검출 정확도에 대한 실험결과를 살펴보면, 평가에 사용된 텍스트로 판정한 경우 93.8%, 1차 음성인식과정에서 최상위 인식결과를 이용한 경우 88.2%, 1차 음성인식과정에서 신뢰된 결과만을 이용한 경우 90.3%, 2차 음성인식과정의 인식결과로부터 측정된 도메인 판별 정확도는 96.5%로 산출되었다. 2차 음성인식과정에서 탐색된 평균 도메인의 수는 3.9개였다. 이때 인식성능은 다음 표 2에 도시된 바와 같다.
WER (바이그램) WER (트라이그램)
베이스라인(글로벌 언어모델) 8.79 4.40
종래기술 1(계층적 언어모델) 7.57(+13.9) 4.08(+7.3)
종래기술 2(18개 도메인에 대한 병렬 음성인식) 5.73(+34.8) 3.70(+15.9)
본 발명 6.23(+29.1) 3.72(+15.5)
상기 표 2에서 WER은 단어 오인식률을 나타내며, () 안의 숫자는 단어 오인식률의 상대적인 개선률이다. 그리고, 성능평가에 적용된 언어모델은 각각 인접하는 두 단어와 세 단어 사이의 확률을 나타내는 바이그램과 트라이그램 언어모델이다.
상기 표 2를 살펴보면, 본 발명에 따른 음성인식방법은 글로벌 언어모델을 이용하는 방법과, 계층적 언어모델을 이용하는 방법에 비해서는 월등한 성능 향상을 보이며, 각각 특화된 언어모델을 가지고 있는 모든 도메인에 대하여 병렬적으로 음성인식을 수행하는 방법과 비교해 볼 때 대용량 서버가 필요없으면서 거의 동등한 성능을 보이며, 도메인의 수가 컴퓨터의 마이크로프로세서의 수보다 많은 경우에는 인식에 소요되는 속도가는 더 빠를 것으로 예상된다.
상술한 바와 같이 본 발명에 따르면, 제1 음성인식과정에서 대화의 상황에 적합한 언어모델을 선택적으로 적용함으로써 1차 인식결과에 대한 단어오인식률(Word Error Rate)을 줄일 수 있고, 그 결과 도메인 추출에 사용되는 정확한 핵심어를 결정할 수 있다. 또한, 제1 음성인식과정의 인식결과로서, 최상위 인식문장을 포함하는 복수개의 상위 인식문장을 생성함으로써 1차 인식결과의 오류가 후단으로 전파되는 것을 최소화할 수 있다. 또한, 각 상위 인식문장에서 결정된 핵심어에 기초하여 복수개의 후보도메인을 추출하고, 각 후보도메인에 특화된 언어모델을 이용하여 2차 음성인식을 수행하고, 1차 음성인식결과와 2차 음성인식결과로부터 최종 인식결과를 생성함으로써, 1차 음성인식과정에서의 단어 오인식으로 인한 도메인 추출 오류가 최종 인식결과를 선정하는데 미치는 영향을 최소화시킬 수 있다.
본 발명에 대해 상기 실시예를 참고하여 설명하였으나, 이는 예시적인 것에 불과하며, 본 발명에 속하는 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다. 따라서 본 발명의 진정한 기술적 보호범위는 첨부된 특허청구범위의 기술적 사상에 의해 정해져야 할 것이다.
도 1은 본 발명에 따른 도메인 기반 대화 음성인식장치의 일실시예의 구성을 나타낸 블럭도,
도 2는 도 1에 있어서 제1 음성인식부의 세부적인 구성을 보여주는 블럭도,
도 3은 도 1에 있어서 도메인 추출부의 세부적인 구성을 보여주는 블럭도,
도 4는 도 1에 있어서 제2 음성인식부의 세부적인 구성을 보여주는 블럭도, 및
도 5는 본 발명에 따른 도메인 기반 대화 음성인식방법의 동작을 설명하는 흐름도이다
*도면의 주요부분에 대한 부호의 설명
110 ... 제1 음성인식부 120 ... 도메인 추출부
130 ... 제2 음성인식부 140 ... 선택부

Claims (13)

  1. (a) 입력음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 포함하는 1차 인식결과를 생성하는 단계;
    (b) 각 1차 인식문장에 포함된 신뢰점수가 소정 문턱치 이상의 단어를 도메인 핵심어로 사용하여 복수개의 후보도메인을 선정하는 단계;
    (c) 상기 각 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 상기 (a) 단계에서의 1차 인식결과에 대하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 단계; 및
    (d) 상기 1차 인식문장과 상기 2차 인식문장으로부터 적어도 하나 이상의 최종 인식문장을 선택하는 단계를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  2. 제1 항에 있어서, 상기 제1 언어모델로서 글로벌 언어모델을 적용하는 것을 특징으로 하는 음성대화시스템에 있어서 도메인 기반 대화 음성인식방법.
  3. 제1 항에 있어서, 상기 제1 언어모델로서, 초기에는 글로벌 언어모델을 적용하고, 대화의 상황에 따라 일반화된 복수개의 언어모델 중 하나를 선택적으로 적용하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  4. 제1 항에 있어서, 상기 (b) 단계에서는 1차 인식문장에서 소정의 문턱치 이 상의 신뢰점수를 갖는 핵심어들을 이용하여 각 도메인에 대한 식별점수를 산출하고, 소정의 문턱치 이상의 식별점수를 갖는 도메인들을 후보 도메인으로 선정하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  5. 제1 항에 있어서, 상기 (b) 단계에서는 1차 인식문장에서 소정의 문턱치 이상의 신뢰점수를 갖는 핵심어가 존재하지 않는 경우 전체 도메인을 후보 도메인으로 선정하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  6. 제1 항에 있어서, 상기 (c) 단계에서는 상기 (a) 단계에서의 인식결과 중 단어격자와 단어그래프 중 어느 하나에 대하여 음성인식을 수행하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  7. 제1 항 내지 제6 항 중 어느 한 항에 기재된 방법을 실행할 수 있는 프로그램 시퀀스를 기록한 컴퓨터로 읽을 수 있는 기록매체.
  8. 입력 음성에 대하여 제1 언어모델을 이용하여 음성인식을 수행하고, 복수개의 1차 인식문장을 포함하는 인식결과를 생성하는 제1 음성인식부;
    상기 제1 음성인식부로부터 제공되는 상기 복수개의 1차 인식문장을 이용하여 복수개의 후보도메인을 선정하는 도메인 추출부;
    상기 제1 음성인식부의 인식결과에 대하여 상기 도메인 추출부에서 선택된 상기 후보도메인에 특화된 음향모델과 제2 언어모델을 이용하여 음성인식을 수행하고, 복수개의 2차 인식문장을 생성하는 제2 음성인식부; 및
    상기 제1 음성인식부로부터 제공되는 상기 1차 인식문장과 제2 음성인식부로부터 제공되는 상기 2차 인식문장으로부터 복수개의 최종 인식문장을 선택하는 선택부를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
  9. 제8 항에 있어서, 상기 제1 음성인식부에서는 상기 제1 언어모델로서 글로벌 언어모델을 적용하는 것을 특징으로 하는 음성대화시스템에 있어서 도메인 기반 대화 음성인식장치.
  10. 제8 항에 있어서, 상기 제1 음성인식부에서는 상기 제1 언어모델로서 초기에는 글로벌 언어모델을 적용하고, 대화의 상황에 따라 일반화된 복수개의 언어모델 중 하나를 선택적으로 적용하는 것을 특징으로 하는 도메인 기반 대화 음성인식방법.
  11. 제8 항에 있어서, 상기 도메인 추출부는
    상기 제1 음성인식부로부터 제공되는 복수개의 인식문장에 대하여 단어레벨로 신뢰도에 대한 검증을 수행하고, 각 인식문장에서 소정의 문턱치 이상의 신뢰점수를 갖는 단어를 추출하는 제1 검증부;
    상기 제1 검증부에서 제공되는 검증된 단어 중에서 도메인 데이터베이스를 참조하여 도메인 핵심어를 선택하고, 각 핵심어의 도메인 식별점수를 산출하여 가산함으로써 도메인별 식별점수를 산출하는 도메인점수 산출부; 및
    상기 도메인점수 산출부에서 제공되는 도메인별 식별점수 중 소정의 문턱치 이상의 식별점수를 갖는 도메인을 후보도메인으로 선택하는 후보도메인 선택부를 포함하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
  12. 제11 항에 있어서, 상기 제1 검증부는 상기 제1 음성인식부로터 제공되는 상기 복수개의 1차 인식문장, 단어격자, 단어격자를 압축한 단어 그래프 및 음소열 중 일부 혹은 전부를 이용하여, 상기 1차 인식문장의 단어레벨 신뢰도에 대한 검증을 수행하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
  13. 제8 항에 있어서, 상기 제2 음성인식부는 상기 제1 음성인식부로부터 제공되는 단어격자 및 단어그래프 중 어느 하나에 대하여, 상기 추출된 후보도메인에 특화된 언어모델 및 이에 적응된 음향모델을 이용하여 인식한 다음, 리스코어링하여 상기 2차 인식문장을 생성하는 것을 특징으로 하는 도메인 기반 대화 음성인식장치.
KR1020040010659A 2004-02-18 2004-02-18 도메인 기반 대화 음성인식방법 및 장치 KR100612839B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020040010659A KR100612839B1 (ko) 2004-02-18 2004-02-18 도메인 기반 대화 음성인식방법 및 장치
US11/059,354 US20050182628A1 (en) 2004-02-18 2005-02-17 Domain-based dialog speech recognition method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020040010659A KR100612839B1 (ko) 2004-02-18 2004-02-18 도메인 기반 대화 음성인식방법 및 장치

Publications (2)

Publication Number Publication Date
KR20050082249A true KR20050082249A (ko) 2005-08-23
KR100612839B1 KR100612839B1 (ko) 2006-08-18

Family

ID=34836803

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020040010659A KR100612839B1 (ko) 2004-02-18 2004-02-18 도메인 기반 대화 음성인식방법 및 장치

Country Status (2)

Country Link
US (1) US20050182628A1 (ko)
KR (1) KR100612839B1 (ko)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100738414B1 (ko) * 2006-02-06 2007-07-11 삼성전자주식회사 텔레매틱스 환경에서 음성 인식의 성능을 향상시키기 위한방법 및 상기 방법을 수행하는 장치
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR100835985B1 (ko) * 2006-12-08 2008-06-09 한국전자통신연구원 핵심어 인식 기반의 탐색 네트워크 제한을 이용한연속음성인식 장치 및 방법
KR20110012920A (ko) * 2009-07-31 2011-02-09 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
KR101283271B1 (ko) * 2011-10-21 2013-07-11 포항공과대학교 산학협력단 어학 학습 장치 및 어학 학습 방법
KR20140112360A (ko) * 2013-03-13 2014-09-23 삼성전자주식회사 음성 인식의 단어 통합 시스템 및 단어군 추가 방법
KR20150013294A (ko) * 2012-05-14 2015-02-04 터치타입 리미티드 디바이스를 동기화하는 메카니즘, 시스템 및 방법
KR20160010961A (ko) * 2014-07-21 2016-01-29 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
KR20190035454A (ko) * 2017-09-26 2019-04-03 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
WO2019208858A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 음성 인식 방법 및 이를 위한 장치
WO2020009297A1 (ko) * 2018-07-05 2020-01-09 미디어젠 주식회사 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치

Families Citing this family (191)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US20060143007A1 (en) * 2000-07-24 2006-06-29 Koh V E User interaction with voice information services
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
ATE457510T1 (de) 2005-12-08 2010-02-15 Nuance Comm Austria Gmbh Spracherkennungssystem mit riesigem vokabular
ATE449403T1 (de) * 2005-12-12 2009-12-15 Gregory John Gadbois Mehrstimmige spracherkennung
US8510109B2 (en) 2007-08-22 2013-08-13 Canyon Ip Holdings Llc Continuous speech transcription performance indication
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7873209B2 (en) * 2007-01-31 2011-01-18 Microsoft Corporation Segment-discriminating minimum classification error pattern recognition
US8542802B2 (en) 2007-02-15 2013-09-24 Global Tel*Link Corporation System and method for three-way call detection
US20080201158A1 (en) * 2007-02-15 2008-08-21 Johnson Mark D System and method for visitation management in a controlled-access environment
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US9973450B2 (en) 2007-09-17 2018-05-15 Amazon Technologies, Inc. Methods and systems for dynamically updating web service profile information by parsing transcribed message strings
US8010341B2 (en) * 2007-09-13 2011-08-30 Microsoft Corporation Adding prototype information into probabilistic models
US8595004B2 (en) * 2007-12-18 2013-11-26 Nec Corporation Pronunciation variation rule extraction apparatus, pronunciation variation rule extraction method, and pronunciation variation rule extraction program
WO2009081861A1 (ja) * 2007-12-21 2009-07-02 Nec Corporation 単語カテゴリ推定装置、単語カテゴリ推定方法、音声認識装置、音声認識方法、プログラム、および記録媒体
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8364481B2 (en) * 2008-07-02 2013-01-29 Google Inc. Speech recognition with parallel recognition tasks
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8630726B2 (en) 2009-02-12 2014-01-14 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
US9225838B2 (en) 2009-02-12 2015-12-29 Value-Added Communications, Inc. System and method for detecting three-way call circumvention attempts
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US20120309363A1 (en) 2011-06-03 2012-12-06 Apple Inc. Triggering notifications associated with tasks items that represent tasks to perform
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8682669B2 (en) * 2009-08-21 2014-03-25 Synchronoss Technologies, Inc. System and method for building optimal state-dependent statistical utterance classifiers in spoken dialog systems
JP5094804B2 (ja) * 2009-08-31 2012-12-12 シャープ株式会社 会議中継装置及びコンピュータプログラム
US8589163B2 (en) * 2009-12-04 2013-11-19 At&T Intellectual Property I, L.P. Adapting language models with a bit mask for a subset of related words
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9099087B2 (en) * 2010-09-03 2015-08-04 Canyon IP Holdings, LLC Methods and systems for obtaining language models for transcribing communications
US10224036B2 (en) * 2010-10-05 2019-03-05 Infraware, Inc. Automated identification of verbal records using boosted classifiers to improve a textual transcript
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US8630860B1 (en) * 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8700398B2 (en) * 2011-11-29 2014-04-15 Nuance Communications, Inc. Interface for setting confidence thresholds for automatic speech recognition and call steering applications
US9324323B1 (en) * 2012-01-13 2016-04-26 Google Inc. Speech recognition using topic-specific language models
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9620111B1 (en) * 2012-05-01 2017-04-11 Amazon Technologies, Inc. Generation and maintenance of language model
US10019991B2 (en) * 2012-05-02 2018-07-10 Electronics And Telecommunications Research Institute Apparatus and method for speech recognition
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
KR101309042B1 (ko) 2012-09-17 2013-09-16 포항공과대학교 산학협력단 다중 도메인 음성 대화 장치 및 이를 이용한 다중 도메인 음성 대화 방법
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US9449522B2 (en) * 2012-11-16 2016-09-20 Educational Testing Service Systems and methods for evaluating difficulty of spoken text
US9070366B1 (en) * 2012-12-19 2015-06-30 Amazon Technologies, Inc. Architecture for multi-domain utterance processing
DE112014000709B4 (de) 2013-02-07 2021-12-30 Apple Inc. Verfahren und vorrichtung zum betrieb eines sprachtriggers für einen digitalen assistenten
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10170114B2 (en) 2013-05-30 2019-01-01 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
WO2014194299A1 (en) * 2013-05-30 2014-12-04 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
US9818401B2 (en) 2013-05-30 2017-11-14 Promptu Systems Corporation Systems and methods for adaptive proper name entity recognition and understanding
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
EP3008641A1 (en) 2013-06-09 2016-04-20 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
WO2014200731A1 (en) 2013-06-13 2014-12-18 Apple Inc. System and method for emergency calls initiated by voice command
US9646606B2 (en) * 2013-07-03 2017-05-09 Google Inc. Speech recognition using domain knowledge
KR101749009B1 (ko) 2013-08-06 2017-06-19 애플 인크. 원격 디바이스로부터의 활동에 기초한 스마트 응답의 자동 활성화
CN104143328B (zh) 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
US9472188B1 (en) * 2013-11-15 2016-10-18 Noble Systems Corporation Predicting outcomes for events based on voice characteristics and content of a contact center communication
KR102297519B1 (ko) * 2014-02-25 2021-09-03 삼성전자주식회사 서버 및 이의 가이드 문장 생성 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
AU2015266863B2 (en) 2014-05-30 2018-03-15 Apple Inc. Multi-command single utterance input method
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9189514B1 (en) * 2014-09-04 2015-11-17 Lucas J. Myslinski Optimized fact checking method and system
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US9836452B2 (en) * 2014-12-30 2017-12-05 Microsoft Technology Licensing, Llc Discriminating ambiguous expressions to enhance user experience
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
KR102413067B1 (ko) * 2015-07-28 2022-06-24 삼성전자주식회사 문법 모델을 갱신하고, 문법 모델에 기초하여 음성 인식을 수행하는 방법 및 디바이스
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
KR102365757B1 (ko) * 2015-09-09 2022-02-18 삼성전자주식회사 인식 장치, 인식 방법 및 협업 처리 장치
FR3041140B1 (fr) * 2015-09-15 2017-10-20 Dassault Aviat Reconnaissance vocale automatique avec detection d'au moins un element contextuel, et application au pilotage et a la maintenance d'un aeronef
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US9858923B2 (en) * 2015-09-24 2018-01-02 Intel Corporation Dynamic adaptation of language models and semantic tracking for automatic speech recognition
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10896681B2 (en) 2015-12-29 2021-01-19 Google Llc Speech recognition with selective use of dynamic language models
US10475447B2 (en) * 2016-01-25 2019-11-12 Ford Global Technologies, Llc Acoustic and domain based speech recognition for vehicles
US20170229124A1 (en) * 2016-02-05 2017-08-10 Google Inc. Re-recognizing speech with external data sources
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US10572961B2 (en) 2016-03-15 2020-02-25 Global Tel*Link Corporation Detection and prevention of inmate to inmate message relay
US9609121B1 (en) 2016-04-07 2017-03-28 Global Tel*Link Corporation System and method for third party monitoring of voice and video calls
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11270686B2 (en) * 2017-03-28 2022-03-08 International Business Machines Corporation Deep language and acoustic modeling convergence and cross training
KR102388539B1 (ko) * 2017-04-30 2022-04-20 삼성전자주식회사 사용자 발화를 처리하는 전자 장치
US10027797B1 (en) 2017-05-10 2018-07-17 Global Tel*Link Corporation Alarm control for inmate call monitoring
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10225396B2 (en) 2017-05-18 2019-03-05 Global Tel*Link Corporation Third party monitoring of a activity within a monitoring platform
US11056104B2 (en) * 2017-05-26 2021-07-06 International Business Machines Corporation Closed captioning through language detection
US10860786B2 (en) 2017-06-01 2020-12-08 Global Tel*Link Corporation System and method for analyzing and investigating communication data from a controlled environment
US9930088B1 (en) 2017-06-22 2018-03-27 Global Tel*Link Corporation Utilizing VoIP codec negotiation during a controlled environment call
US10515625B1 (en) 2017-08-31 2019-12-24 Amazon Technologies, Inc. Multi-modal natural language processing
CN107515862A (zh) * 2017-09-01 2017-12-26 北京百度网讯科技有限公司 语音翻译方法、装置及服务器
CN107909996B (zh) * 2017-11-02 2020-11-10 威盛电子股份有限公司 语音辨识方法以及电子装置
KR102449181B1 (ko) * 2017-11-24 2022-09-29 삼성전자 주식회사 전자장치 및 그 제어방법
JP6969491B2 (ja) * 2018-05-11 2021-11-24 トヨタ自動車株式会社 音声対話システム、音声対話方法及びプログラム
CN108711422B (zh) * 2018-05-14 2023-04-07 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机可读存储介质和计算机设备
KR20210052563A (ko) * 2018-11-02 2021-05-10 주식회사 엘솔루 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
WO2020111676A1 (ko) * 2018-11-28 2020-06-04 삼성전자 주식회사 음성 인식 장치 및 방법
CN109712607B (zh) * 2018-12-30 2021-12-24 联想(北京)有限公司 一种处理方法、装置及电子设备
KR20200091797A (ko) * 2019-01-23 2020-07-31 삼성전자주식회사 음성 인식 장치 및 방법
WO2020153736A1 (en) 2019-01-23 2020-07-30 Samsung Electronics Co., Ltd. Method and device for speech recognition
JP7177348B2 (ja) * 2019-02-06 2022-11-24 日本電信電話株式会社 音声認識装置、音声認識方法およびプログラム
EP3888084A4 (en) 2019-05-16 2022-01-05 Samsung Electronics Co., Ltd. METHOD AND DEVICE FOR PROVIDING A VOICE RECOGNITION SERVICE
EP3980991B1 (en) * 2019-08-13 2024-01-03 Samsung Electronics Co., Ltd. System and method for recognizing user's speech
WO2021029643A1 (en) * 2019-08-13 2021-02-18 Samsung Electronics Co., Ltd. System and method for modifying speech recognition result
EP3931826A4 (en) 2019-08-13 2022-05-11 Samsung Electronics Co., Ltd. SERVER SUPPORTING VOICE RECOGNITION OF A DEVICE AND METHOD OF OPERATING THE SERVER
CN110808032B (zh) * 2019-09-20 2023-12-22 平安科技(深圳)有限公司 一种语音识别方法、装置、计算机设备及存储介质
WO2021137637A1 (en) 2020-01-02 2021-07-08 Samsung Electronics Co., Ltd. Server, client device, and operation methods thereof for training natural language understanding model

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5515475A (en) * 1993-06-24 1996-05-07 Northern Telecom Limited Speech recognition method using a two-pass search
US5689617A (en) * 1995-03-14 1997-11-18 Apple Computer, Inc. Speech recognition system which returns recognition results as a reconstructed language model with attached data values
JP2780676B2 (ja) * 1995-06-23 1998-07-30 日本電気株式会社 音声認識装置及び音声認識方法
US5712957A (en) * 1995-09-08 1998-01-27 Carnegie Mellon University Locating and correcting erroneously recognized portions of utterances by rescoring based on two n-best lists
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US7058573B1 (en) * 1999-04-20 2006-06-06 Nuance Communications Inc. Speech recognition system to selectively utilize different speech recognition techniques over multiple speech recognition passes
US7085716B1 (en) * 2000-10-26 2006-08-01 Nuance Communications, Inc. Speech recognition using word-in-phrase command
ATE297588T1 (de) * 2000-11-14 2005-06-15 Ibm Anpassung des phonetischen kontextes zur verbesserung der spracherkennung
US20030023437A1 (en) * 2001-01-27 2003-01-30 Pascale Fung System and method for context-based spontaneous speech recognition
JP3782943B2 (ja) * 2001-02-20 2006-06-07 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体
US8190436B2 (en) * 2001-12-07 2012-05-29 At&T Intellectual Property Ii, L.P. System and method of spoken language understanding in human computer dialogs
US7502737B2 (en) * 2002-06-24 2009-03-10 Intel Corporation Multi-pass recognition of spoken dialogue
US7184957B2 (en) * 2002-09-25 2007-02-27 Toyota Infotechnology Center Co., Ltd. Multiple pass speech recognition method and system
US7031915B2 (en) * 2003-01-23 2006-04-18 Aurilab Llc Assisted speech recognition by dual search acceleration technique

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8301450B2 (en) 2005-11-02 2012-10-30 Samsung Electronics Co., Ltd. Apparatus, method, and medium for dialogue speech recognition using topic domain detection
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR100738414B1 (ko) * 2006-02-06 2007-07-11 삼성전자주식회사 텔레매틱스 환경에서 음성 인식의 성능을 향상시키기 위한방법 및 상기 방법을 수행하는 장치
KR100835985B1 (ko) * 2006-12-08 2008-06-09 한국전자통신연구원 핵심어 인식 기반의 탐색 네트워크 제한을 이용한연속음성인식 장치 및 방법
US9269356B2 (en) 2009-07-31 2016-02-23 Samsung Electronics Co., Ltd. Method and apparatus for recognizing speech according to dynamic display
KR20110012920A (ko) * 2009-07-31 2011-02-09 삼성전자주식회사 동적 화면에 따라 음성을 인식하는 장치 및 방법
KR101283271B1 (ko) * 2011-10-21 2013-07-11 포항공과대학교 산학협력단 어학 학습 장치 및 어학 학습 방법
KR20150013294A (ko) * 2012-05-14 2015-02-04 터치타입 리미티드 디바이스를 동기화하는 메카니즘, 시스템 및 방법
KR20140112360A (ko) * 2013-03-13 2014-09-23 삼성전자주식회사 음성 인식의 단어 통합 시스템 및 단어군 추가 방법
KR20160010961A (ko) * 2014-07-21 2016-01-29 삼성전자주식회사 컨텍스트 정보를 이용하는 음성 인식 방법 및 장치
KR20190035454A (ko) * 2017-09-26 2019-04-03 주식회사 케이티 음성인식 서비스를 제공하는 단말, 서버 및 방법
WO2019208858A1 (ko) * 2018-04-27 2019-10-31 주식회사 시스트란인터내셔널 음성 인식 방법 및 이를 위한 장치
WO2020009297A1 (ko) * 2018-07-05 2020-01-09 미디어젠 주식회사 도메인 추출기반의 언어 이해 성능 향상장치및 성능 향상방법
WO2020096078A1 (ko) * 2018-11-06 2020-05-14 주식회사 시스트란인터내셔널 음성인식 서비스를 제공하기 위한 방법 및 장치
CN113016030A (zh) * 2018-11-06 2021-06-22 株式会社赛斯特安国际 提供语音识别服务的方法及装置

Also Published As

Publication number Publication date
KR100612839B1 (ko) 2006-08-18
US20050182628A1 (en) 2005-08-18

Similar Documents

Publication Publication Date Title
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
Singer et al. Acoustic, phonetic, and discriminative approaches to automatic language identification.
US8532991B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US6985861B2 (en) Systems and methods for combining subword recognition and whole word recognition of a spoken input
WO2015118645A1 (ja) 音声検索装置および音声検索方法
Campbell et al. Advanced language recognition using cepstra and phonotactics: MITLL system performance on the NIST 2005 language recognition evaluation
US20130289987A1 (en) Negative Example (Anti-Word) Based Performance Improvement For Speech Recognition
Qin Learning out-of-vocabulary words in automatic speech recognition
Lee et al. Real-time word confidence scoring using local posterior probabilities on tree trellis search
Parada et al. Learning sub-word units for open vocabulary speech recognition
JP4758919B2 (ja) 音声認識装置及び音声認識プログラム
Hieronymus et al. Spoken language identification using large vocabulary speech recognition
Zhang et al. Improved mandarin keyword spotting using confusion garbage model
Mizuochi et al. Spoken term detection of zero-resource language using posteriorgram of multiple languages
Hwang et al. Building a highly accurate Mandarin speech recognizer
JP4528540B2 (ja) 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体
JP4987530B2 (ja) 音声認識辞書作成装置および音声認識装置
Siniscalchi et al. An attribute detection based approach to automatic speech processing
Pranjol et al. Bengali speech recognition: An overview
JP3494338B2 (ja) 音声認識方法
Rúnarsdóttir Re-scoring word lattices from automatic speech recognition system based on manual error corrections
Lee et al. Combination of diverse subword units in spoken term detection.
Singh et al. The use of sense in unsupervised training of acoustic models for ASR systems.
Wang et al. Handling OOVWords in Mandarin Spoken Term Detection with an Hierarchical n‐Gram Language Model

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120730

Year of fee payment: 7

FPAY Annual fee payment

Payment date: 20130730

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20140730

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20150730

Year of fee payment: 10

FPAY Annual fee payment

Payment date: 20160728

Year of fee payment: 11

LAPS Lapse due to unpaid annual fee