KR20120066530A - 언어 모델 가중치 추정 방법 및 이를 위한 장치 - Google Patents

언어 모델 가중치 추정 방법 및 이를 위한 장치 Download PDF

Info

Publication number
KR20120066530A
KR20120066530A KR1020100127907A KR20100127907A KR20120066530A KR 20120066530 A KR20120066530 A KR 20120066530A KR 1020100127907 A KR1020100127907 A KR 1020100127907A KR 20100127907 A KR20100127907 A KR 20100127907A KR 20120066530 A KR20120066530 A KR 20120066530A
Authority
KR
South Korea
Prior art keywords
language model
weight
search
recognition result
score
Prior art date
Application number
KR1020100127907A
Other languages
English (en)
Inventor
전형배
이윤근
정의석
김종진
정훈
박전규
정호영
강병옥
박기영
이성주
강점자
송화전
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020100127907A priority Critical patent/KR20120066530A/ko
Priority to US13/324,414 priority patent/US8666739B2/en
Publication of KR20120066530A publication Critical patent/KR20120066530A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams

Landscapes

  • Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)

Abstract

연속어 음성 인식 결과에 따라 적응적으로 언어 모델 가중치를 추정하는 언어 모델 가중치 추정 방법 및 이를 위한 장치가 개시된다. 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하고, 단어 격자 및 단어 격자의 제 1 음향 스코어를 출력하는 제 1 탐색부, 음성 특징 벡터에 음향 모델을 적용하여 제 2 음향 스코어를 출력하는 음소 인식부, 제 1 음향 스코어 및 제 2 음향 스코어를 이용하여 상기 제 1 탐색부의 연속어 음성 인식 결과와 음소 인식부의 음소 인식 결과의 음향 스코어를 비교하여 상기 음성 인식 결과가 음소 인식 결과보다 음향 스코어가 좋은 경우 상기 제 1 언어 모델 가중치를 출력하는 가중치 추정부 및 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력하는 제2 탐색부를 포함하여 구성될 수 있다. 따라서, 제 1차 탐색에서 정답을 찾지 못한 경우에 대해서 상대적으로 낮은 언어 모델 가중치를 적용하여, 음향 스코어의 비중을 높여 정답을 찾을 가능성을 높이게 하고, 제 2차 탐색의 성능을 높여 연속어 음성인식 시스템의 성능향상을 기대할 수 있다.

Description

언어 모델 가중치 추정 방법 및 이를 위한 장치{METHOD OF ESTIMATING LANGUAGE MODEL WEIGHT AND APPARATUS FOR THE SAME}
본 발명은 언어 모델 가중치 추정 방법 및 이를 위한 장치에 관한 것으로, 더욱 상세하게는 연속어 음성 인식 결과에 따라 적응적으로 언어 모델 가중치를 추정하는 언어 모델 가중치 추정 방법 및 이를 위한 장치에 관한 것이다.
일반적으로, 연속 음성 인식에서는 언어 모델이 매우 중요한 역할을 하며, 음향 모델의 오류를 수정하고, 정확한 인식 결과를 나타내는데 사용되고 있다. 그러나, 현재 가장 많이 사용되고 있으며 음성 인식 산업의 표준처럼 사용되고 있는 N-gram의 경우, 학습 데이터의 영역에 따라 매우 다른 결과가 나올 수 있으며, 인식하고자 하는 음성의 영역과 언어모델 학습 데이터의 영역이 일치할 때 가장 나은 성능을 기대할 수 있다. 따라서, 방송 뉴스 인식과 같이 여러 영역을 다루는 음성 인식에서는 각 주체마다 언어모델의 영역을 적응하는 언어모델 적응 방법을 통해서 음성 인식의 정확도를 향상시킬 수 있다.
이러한 연속 음성 인식을 위한 연속 음성 인식 엔진에서 발화에 대해 여러 인식후보인 다중인식 후보열(N-best list)을 생성하는 과정은, 단어 간의 연결을 그래프 형태로 정의한 문법 네트워크에 따라 탐색을 시도하여 단어 격자(Word lattice) 등을 중간 인식 결과를 출력하고, 단어 간 연접(Collocation) 정보, 바이그램(bigram) 및 트라이그램(trigram) 확률 등의 통계적 언어모델 등의 정보나 A-STAR 알고리즘 등을 적용하여 단어 격자를 재평가하여 N-best 리스트를 생성한다.
이와 같이 N-best 인식 후보를 생성하는 과정에서, 언어 모델은 탐색 공간이 넓고 인식에 필요한 계산량이 많기 때문에 낮은 차수의 언어 모델을 제 1 차 탐색에 사용하여 제 1 차 탐색 결과로 단어 격자를 출력하고, 제 1차 탐색 결과인 단어 격자에 제1 차 탐색에 적용된 언어 모델보다 높은 차수의 언어 모델, 도메인 특화된 언어 모델을 적용하여 제 2 차 탐색을 수행한다.
제 2 차 탐색은 단어 격자의 주어진 단어들의 시작과 끝점은 고정하고 음향 스코어 또는 언어 모델 스코어만을 새로 계산하기 때문에 제 1 차 탐색에 비해 상대적으로 매우 적은 계산량을 필요로 한다. 이때, 제 2 차 탐색에서 언어 모델을 적용할 때 단어 격자 상의 음향 스코어에 대한 가중치는 실험을 통해 결정된 값을 고정하여 사용한다. 하지만, 제 2 차 탐색에 사용되는 가중치를 고정하여 사용할 경우 제 1 차 탐색 결과에 따라 적응적으로 제 2 차 탐색을 수행할 수 없다는 문제점이 있다. 즉, 1 차 탐색 결과 연속어 음성 인식 결과의 스코어가 낮아 정답을 찾지 못한 경우에도 동일한 가중치를 사용하여 제 2 차 탐색을 수행하기 때문에 정답을 찾을 가능성이 낮아 진다는 문제점이 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 1목적은, 연속어 음성 인식 결과에 따라 적응적으로 언어 모델 가중치를 추정하는 언어 모델 가중치 추정 장치를 제공하는데 있다.
상기와 같은 문제점을 해결하기 위한 본 발명의 제 2목적은, 연속어 음성 인식 결과에 따라 적응적으로 언어 모델 가중치를 추정하는 언어 모델 가중치 추정 방법을 제공하는데 있다.
상기한 본 발명의 제 1목적을 달성하기 위한 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 장치는, 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 상기 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하고, 단어 격자 및 단어 격자의 제 1 음향 스코어를 출력하는 제 1 탐색부, 상기 음성특징벡터에 음향 모델을 적용하여 제 2 음향 스코어를 출력하는 음소 인식부, 상기 제 1 음향 스코어 및 상기 제 2 음향 스코어를 이용하여 상기 제 1 탐색부의 연속어 음성 인식 결과와 음소 인식부의 음소 인식 결과의 음향스코어를 비교하여 상기 연속어 음성 인식 결과가 상기 음소 인식 결과보다 음향 스코어가 좋은 경우 상기 제 1 언어 모델 가중치를 출력하는 가중치 추정부 및 상기 출력된 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력하는 제2 탐색부를 포함하여 구성될 수 있다.
본 발명의 제 2 목적을 달성하기 위한 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 방법은, 음성 신호로부터 변환된 음성 특징 벡터를 제 1 탐색부가 수신하고, 상기 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하여 단어 격자 및 단어 격자의 제 1 음향 스코어를 가중치 추정부로 출력하는 단계, 상기 음성 특징 벡터에 음향 모델을 음소 인식부가 적용하여 제 2 음향 스코어를 계산하여 상기 가중치 추정부로 출력하는 단계, 상기 출력된 제 1 음향 스코어 및 상기 제 2 음향 스코어를 이용하여 상기 제 1 탐색부의 연속어 음성 인식 결과 음향 스코어 와 음소 인식부의 음소 인식 결과의 음향 스코어를 가중치 추정부가 비교하여 상기 연속어 음성 인식 결과 음향 스코어가 상기 음소 인식 결과 음향 스코어 보다 좋다면 상기 제 1 언어 모델 가중치를 제 2 탐색부로 출력하는 단계 및 상기 출력된 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 제 2 탐색부가 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력하는 단계를 포함하여 구성될 수 있다.
상기와 같은 본 발명에 따른 연속어 음성 인식 결과에 따라 적응적으로 언어 모델 가중치를 추정하는 언어 모델 가중치 추정 방법 및 이를 위한 장치를 이용할 경우에는 제 1 차 탐색에서 정답을 찾은 경우에 대해서 동일한 언어 모델 가중치를 적용하고, 제 1차 탐색에서 정답을 찾지 못한 경우에 대해서 상대적으로 낮은 언어 모델 가중치를 적용하여, 음향 스코어의 비중을 높여 정답을 찾을 가능성을 높이게 하고, 제 2차 탐색의 성능을 높여 연속어 음성인식 시스템의 성능향상을 기대할 수 있다.
도 1은 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 장치의 내부 구조를 개략적으로 도시한 도면이다.
도 2는 본 발명의 일 실시예에 따른 언어 모델 가중치 추정과정을 설명하기 위한 흐름도이다.
본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였다.
제1, 제2, A, B 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다. 예를 들어, 본 발명의 권리 범위를 벗어나지 않으면서 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소도 제1 구성요소로 명명될 수 있다. 및/또는 이라는 용어는 복수의 관련된 기재된 항목들의 조합 또는 복수의 관련된 기재된 항목들 중의 어느 항목을 포함한다.
어떤 구성요소가 다른 구성요소에 "연결되어" 있다거나 "접속되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다. 반면에, 어떤 구성요소가 다른 구성요소에 "직접 연결되어" 있다거나 "직접 접속되어" 있다고 언급된 때에는, 중간에 다른 구성요소가 존재하지 않는 것으로 이해되어야 할 것이다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 출원에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 장치의 내부 구조를 개략적으로 도시한 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 장치는 제 1 탐색부(101), 음소 인식부(102), 가중치 추정부(103) 및 제 2 탐색부(104)를 포함하여 구성될 수 있다.
제 1 탐색부(101)는 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하여 단어 격자(Word lattice)를 제 2 탐색부(104)로 출력하고, 단어 격자의 제 1 음향 스코어를 가중치 추정부(103)로 출력한다. 여기서, 단어 격자는 제 1 탐색부(101)에서 탐색된 복수개의 단어 조합을 단어간 연결 정보로 정의한 것으로, 제 1 탐색부(101)의 음성 인식 결과를 평가하는데 사용되는 정보, 예를 들어 제 1 탐색부(101)로부터 실행된 제 1 차 탐색에서 가능성이 높다고 추정되는 단어들의 제 1 음향 소코어, 언어 모델 스코어, 단어의 시작점 및 끝점, 각 단어의 이전 패스에 따른 언어 모델 스코어 정보 등의 정보를 포함하고 있다.
음소 인식부(102)는 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 수신된 음성 특징 벡터에 음향 모델을 적용하여 단어 격자의 제 2 음향 스코어를 출력한다. 본 발명의 일 실시예에 따르면, 음소 인식부(102)는 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 한국어의 "자음+모음+자음"으로 구성되는 음소 탐색 네트워크에 기반하여 음소 인식을 수행하여 단어 격자의 제 2 음향 스코어를 가중치 추정부(103)로 출력한다.
가중치 추정부(103)는 제 1 탐색부(101)에서 출력된 제 1 음향 스코어 및 음소 인식부(102)에서 출력된 제 2 음향 스코어를 수신하고, 수신된 제 1 음향 스코어와 제 2 음향 스코어를 <수학식 1>의 변환함수를 적용하여 가중치를 추정한다.
Figure pat00001
<수학식 1>을 참조하면, LLR(Log-Likelihood Ratio)는 가중치 추정부(103)에서 제 1 탐색부(101)에서 출력된 제 1 음향 스코어 및 음소 인식부(102)에서 출력된 제 2 음향 스코어를 이용하여 제 2 언어 모델의 가중치를 추정하기 위해서 사용되는 추정값으로 사용되는 로그 우도 율 값이다. 제 1 음향 스코어는 제 1 탐색부(101)에서 결정된 음성 인식 결과 1best 단어열의 음향 스코어의 로그(log)값을 나타내고, 제 2 음향 스코어는 음소 인식부(102)에서 결정된 음소 인식 결과 1best 음소열의 음향 스코어의 로그값을 나타낸다.
먼저, 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 상대적으로 좋다고 판단하여, 인식 결과의 신뢰가 높다고 예측함에 따라 가중치를 추정하는 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 가중치 추정부(103)는 제 1 탐색부(101)로부터 출력된 연속어 음성 인식 결과 및 음소 인식부(102)로부터 출력된 음소 인식 결과를 <수학식 1>에 적용하여 계산된 값과 임계값 1과 비교하여 계산된 값이 작다고 판단한 경우, 제1 탐색부(101)의 연속어 음성 인식 결과 음향 스코어가 음소 인식부(102)의 음소 인식 결과의 음향 스코어 보다 상대적으로 좋은 것이며, 인식결과 신뢰도가 높다고 예측하고, 제 1 탐색부(101)에서 사용한 언어 모델 가중치를 제 2 탐색부(104)로 출력한다.
둘째, 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 상대적으로 나쁘다고 판단하여, 인식 결과의 신뢰도가 낮다고 예측함에 따라 가중치를 추정하는 경우를 설명하기로 한다. 본 발명의 일 실시예에 따르면, 가중치 추정부(103)는 제 1 탐색부(101)로부터 출력된 연속어 음성 인식 결과 및 음소 인식부(102)로부터 출력된 음소 인식 결과를 <수학식 1> 에 적용하여 계산된 값과 임계값 2와 비교하여 계산된 값이 크다고 판단한 경우, 제1 탐색부(101)의 연속어 음성 인식 결과 음향스코어가 음소 인식부(102)의 음소 인식 결과 음향 스코어 보다 상대적으로 좋지 않은 것이며, 인식결과 신뢰도가 낮다고 예측하고, 제 1 탐색부(101)에서 사용한 언어 모델 가중치보다 낮은 가중치를 제 2 탐색부(104)로 출력한다.
셋째, 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 좋지도 않고 나쁘지도 않다고 판단한 경우, 제 1 언어 모델의 가중치와 제 2 언어 모델의 가중치의 중간값에 해당하는 가중치를 제 2 탐색부(104)로 출력한다.
제 2 탐색부(104)는 가중치 추정부(103)로부터 수신된 가중치를 제 2언어 모델에 적용하여 제 2 차 탐색을 수행한다. 먼저, 제 2 탐색부(104)는 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 상대적으로 좋다고 판단하여, 인식 결과의 신뢰가 높다고 예측함에 따라 제 1 탐색부(101)에서 사용된 언어 모델 가중치를 수신하고, 수신된 제 1 탐색부(101)에서 사용된 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 제 1 탐색부(101)로부터 출력된 단어 격자에 적용하여 제 2 차 탐색을 수행한다. 이때, 제 2 탐색부(104)는 제 1 탐색부(101)로부터 출력된 단어 격자의 음향 스코어를 고정하고, 가중치 추정부(103)로부터 수신된 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용한 경우의 언어 모델 스코어를 계산하여 전체 패스의 누적 스코어를 업데이트하여 가장 높은 스코어를 가진 인식 결과를 최종 인식 결과로 출력한다.
둘째, 제 2 탐색부(104)는 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 상대적으로 나쁘다고 판단하여, 인식 결과의 신뢰도가 낮다고 예측함에 따라 제 1 탐색부(101)에서 사용된 언어 모델 가중치보다 낮은 가중치를 수신하고, 수신된 제 1 탐색부(101)에서 사용된 언어 모델 가중치보다 낮은 제 2 언어 모델 가중치를 제 1 탐색부(101)로부터 출력된 단어 격자에 적용하여 제 2 차 탐색을 수행한다. 이때, 제 2 탐색부(104)는 제 1 탐색부(101)로부터 출력된 단어 격자의 음향 스코어를 고정하고, 가중치 추정부(103)로부터 수신된 제 1 언어 모델 가중치보다 낮은 제 2 언어 모델 가중치를 적용한 경우의 언어 모델 스코어를 계산하여 전체 패스의 누적 스코어를 업데이트하여 가장 높은 스코어를 가진 인식 결과를 최종 인식 결과로 출력한다.
셋째, 제 2 탐색부(104)는 가중치 추정부(103)가 제 1 음향 스코어와 제 2 음향 스코어를 이용하여 제 1 탐색부(101)의 연속어 음성 인식 결과인 제 1 음향 스코어가 음소 인식부(102)의 음소 인식 결과인 제 2 음향 스코어 보다 좋지도 않고 나쁘지도 않다고 판단함에 따라 제 1 탐색부(101)에서 사용된 제 1언어 모델 가중치와 제 1 언어 모델 보다 낮은 가중치인 제 2 언어 모델 가중치의 중값에 해당하는 가중치를 수신하고, 수신된 언어 모델 가중치를 적용하여 제 2 탐색을 수행한다. 그러면 이하에서는, 도 2를 참조하여 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 방법을 보다 구체적으로 설명하기로 한다.
도 2는 본 발명의 일 실시예에 따른 언어 모델 가중치 추정 방법을 설명하기 위한 흐름도이다.
도 2를 참조하면, 언어 모델 가중치 장치는 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하여 단어 격자 및 단어 격자의 제 1 음향 스코어를 출력한다(S201). 여기서, 단어 격자는 제 1 차 탐색에서 탐색된 복수개의 단어 조합을 단어간 연결 정보로 정의한 것으로, 연속어 음성 인식 결과를 평가하는데 사용되는 정보, 예를 들어 제 1 차 탐색에서 실행된 제 1 차 탐색에서 가능성이 높다고 추정되는 단어들의 제 1 음향 소코어, 언어 모델 스코어, 단어의 시작점 및 끝점, 각 단어의 이전 패스에 따른 언어 모델 스코어 정보 등의 정보를 포함하고 있다.
언어 모델 가중치 장치는 음성 특징 벡터에 음향 모델을 적용하여 제 2 음향 스코어를 계산하여 출력한다(S202). 본 발명의 일 실시예에 따르면, 언어 모델 가중치 장치는 음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 한국어의 자음+모음+자음으로 구성되는 음소 탐색 네트워크에 기반하여 음소 인식을 수행하여 음성 특징 벡터의 제 2 음향 스코어를 출력한다.
언어 모델 가중치 장치는 출력된 제 1 음향 스코어 및 제 2 음향 스코어를 이용하여 연속어 음성 인식 결과의 신뢰도를 측정한다(S203). 만약, 언어 모델 가중치 장치가 측정한 신로되가 임계값 1보다 작다고 판단한 경우(S204), 연속어 음성 인식 결과의 음향 스코어가 음소 인식 결과 음향 스코어 보다 상대적으로 좋은 것이며, 인식결과 신뢰도가 높다고 예측함에 따라 단어 격자에 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력(S206)한다.
반면, 언어 모델 가중치 장치가 측정한 신로되가 임계값 1보다 크다고 판단한 경우(S204), 언어 모델 가중치 장치는 측정된 신로도와 임계값 2를 비교한다(S206). 만약, 언어 모델 가중치 장치가 측정한 신로도가 임계값 2보다 크다고 판단한 경우(S206), 연속어 음성 인식 결과 음향 스코어가 음소 인식 결과 음향 스코어 보다 상대적으로 좋지 않은 것이며, 인식결과 신뢰도가 낮다고 예측함에 따라 단어 격자에 제 1 언어 모델 가중치보다 낮은 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력(S207)한다. 반면, 언어 모델 가중치 장치가 측정한 신로도가 임계값 2 보다 작다고 판단한 경우(S206), 연속어 음성 인식 결과 음향 스코어가 음소 인식 결과 음향 스코어 보다 상대적으로 좋지도 나쁘지도 않은 것이기 때문에, 임계값 1과 임계값 2 사이의 값에 대해서는 중간의 언어모델 가중치를 적용하여 최종 인식 결과를 출력(S208)한다.
상기에서는 본 발명의 바람직한 실시예를 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구의 범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있음을 이해할 수 있을 것이다.
101: 제 1 탐색부 102: 음소 인식부
103: 가중치 추정부 104: 제 2 탐색부

Claims (14)

  1. 언어 모델 가중치 추정 장치에 있어서,
    음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 상기 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하고, 단어 격자 및 단어 격자의 제 1 음향 스코어를 출력하는 제 1 탐색부;
    상기 음성 특징 벡터에 음향 모델을 적용하여 제 2 음향 스코어를 출력하는 음소 인식부;
    상기 제 1 음향 스코어 및 상기 제 2 음향 스코어를 이용하여 상기 제 1 탐색부의 연속어 음성 인식 결과와 음소 인식부의 음소 인식 결과의 음향 스코어를 비교하여 상기 음성 인식 결과가 음소 인식 결과보다 음향 스코어가 좋은 경우 상기 제 1 언어 모델 가중치를 출력하는 가중치 추정부; 및
    상기 단어 격자에 상기 출력된 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하여 최종 인식 결과를 출력하는 제2 탐색부를 포함하는 것을 특징으로 하는 가중치 추정 장치.
  2. 제 1 항에 있어서, 상기 가중치 추정부는,
    상기 연속어 음성 인식 결과가 상기 음소 인식 결과보다 음향 스코어가 좋지 않을 경우 상기 제 1 언어 모델 가중치보다 낮은 가중치를 출력하는 것을 특징으로 하는 가중치 추정 장치.
  3. 제 2 항에 있어서, 제2 탐색부는,
    상기 출력된 제 1 언어 모델 가중치보다 낮은 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하는 것을 특징으로 하는 가중치 추정 장치.
  4. 제 1 항에 있어서, 상기 가중치 추정부는,
    상기 연속어 음성 인식 결과가 상기 음소 인식 결과보다 음향 스코어가 좋지도 않고 나쁘지 않은 경우 상기 제 1 언어 모델 가중치 및 제 2 언어 모델 가중치 사이의 값에 해당하는 중간의 가중치를 출력하는 것을 특징으로 하는 가중치 추정 장치.
  5. 제 4 항에 있어서, 제 2 탐색부는,
    상기 출력된 제 1 언어 모델 가중치 및 제 2 언어 모델 가중치 사이의 값에 해당하는 언어모델 가중치를 적용하여 제 2 차 탐색을 수행하는 것을 특징으로 하는 가중치 추정 장치.
  6. 제 1 항에 있어서, 상기 단어 격자는,
    상기 제 1 탐색부에서 탐색된 복수개의 단어 조합을 단어간 연결 정보로 정의한 것을 특징으로 하는 가중치 추정 장치.
  7. 제 1 항에 있어서, 상기 단어 격자는,
    상기 제 1 탐색부의 연속어 음성 인식 결과를 평가하는데 사용되는 정보를 포함하는 것을 특징으로 하는 가중치 추정 장치.
  8. 언어 모델 가중치 추정 방법에 있어서,
    음성 신호로부터 변환된 음성 특징 벡터를 수신하고, 상기 수신된 음성 특징 벡터에 제 1 언어 모델을 적용하여 제 1 차 탐색을 수행하고, 단어 격자 및 단어 격자의 제 1 음향 스코어를 출력하는 단계;
    상기 음성 특징 벡터에 음향 모델을 적용하여 제 2 음향 스코어를 출력하는 단계;
    상기 제 1 음향 스코어 및 상기 제 2 음향 스코어를 이용하여 상기 제 1 탐색부의 연속어 음성 인식 결과와 음소 인식부의 음소 인식 결과의 음향 스코어를 비교하는 단계;
    상기 비교 결과 상기 음성 인식 결과가 음소 인식 결과보다 음향 스코어가 좋은 경우 상기 제 1 언어 모델 가중치를 출력하는 단계; 및
    상기 단어 격자에 상기 출력된 제 1 언어 모델 가중치와 동일한 제 2 언어 모델 가중치를 적용하여 제 2 차 탐색을 수행하는 단계를 포함하는 것을 특징으로 하는 가중치 추정 방법.
  9. 제 8 항에 있어서, 상기 가중치를 출력하는 단계는,
    상기 비교 결과 상기 음성 인식 결과가 음소 인식 결과보다 음향 스코어가 좋지 않은 경우 상기 제 1 언어 모델 가중치보다 낮은 가중치를 출력하는 것을 특징으로 하는 가중치 추정 방법.
  10. 제 9 항에 있어서, 제 2 차 탐색을 수행하는 단계는,
    상기 제 1 언어 모델 가중치보다 낮은 제 2 언어 모델 가중치를 적용하는 것을 특징으로 하는 가중치 추정 방법.
  11. 제 8 항에 있어서, 상기 가중치를 출력하는 단계는,
    상기 비교 결과 상기 음성 인식 결과가 음소 인식 결과보다 음향 스코어가 좋지도 않고 나쁘지 않은 경우 상기 제 1 언어 모델 가중치 및 제 2 언어 모델 가중치 사이의 값에 해당하는 중간의 가중치를 출력하는 것을 특징으로 하는 가중치 추정 방법.
  12. 제 11 항에 있어서, 제 2 차 탐색을 수행하는 단계는,
    상기 제 1 언어 모델 가중치 및 제 2 언어 모델 가중치 사이의 값에 해당하는 언어모델 가중치를 적용하여 제 2 차 탐색을 수행하는 것을 특징으로 하는 가중치 추정 방법.
  13. 제 8 항에 있어서, 상기 단어 격자는,
    상기 제 1 탐색에서 탐색된 복수개의 단어 조합을 단어간 연결 정보로 정의한 것을 특징으로 하는 가중치 추정 방법.
  14. 제 8 항에 있어서, 상기 단어 격자는,
    상기 제 1 탐색에서 연속어 음성 인식 결과를 평가하는데 사용되는 정보를 포함하는 것을 특징으로 하는 가중치 추정 방법.
KR1020100127907A 2010-12-14 2010-12-14 언어 모델 가중치 추정 방법 및 이를 위한 장치 KR20120066530A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100127907A KR20120066530A (ko) 2010-12-14 2010-12-14 언어 모델 가중치 추정 방법 및 이를 위한 장치
US13/324,414 US8666739B2 (en) 2010-12-14 2011-12-13 Method for estimating language model weight and system for the same

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100127907A KR20120066530A (ko) 2010-12-14 2010-12-14 언어 모델 가중치 추정 방법 및 이를 위한 장치

Publications (1)

Publication Number Publication Date
KR20120066530A true KR20120066530A (ko) 2012-06-22

Family

ID=46200236

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100127907A KR20120066530A (ko) 2010-12-14 2010-12-14 언어 모델 가중치 추정 방법 및 이를 위한 장치

Country Status (2)

Country Link
US (1) US8666739B2 (ko)
KR (1) KR20120066530A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140077780A (ko) 2012-12-14 2014-06-24 한국전자통신연구원 신호 대 잡음비를 이용한 언어 모델 스케일 적응 장치
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8965763B1 (en) * 2012-02-02 2015-02-24 Google Inc. Discriminative language modeling for automatic speech recognition with a weak acoustic model and distributed training
US8543398B1 (en) 2012-02-29 2013-09-24 Google Inc. Training an automatic speech recognition system using compressed word frequencies
US8374865B1 (en) 2012-04-26 2013-02-12 Google Inc. Sampling training data for an automatic speech recognition system based on a benchmark classification distribution
US8571859B1 (en) 2012-05-31 2013-10-29 Google Inc. Multi-stage speaker adaptation
US8805684B1 (en) 2012-05-31 2014-08-12 Google Inc. Distributed speaker adaptation
US8554559B1 (en) 2012-07-13 2013-10-08 Google Inc. Localized speech recognition with offload
US9123333B2 (en) 2012-09-12 2015-09-01 Google Inc. Minimum bayesian risk methods for automatic speech recognition
CN105632499B (zh) 2014-10-31 2019-12-10 株式会社东芝 用于优化语音识别结果的方法和装置
KR102305584B1 (ko) * 2015-01-19 2021-09-27 삼성전자주식회사 언어 모델 학습 방법 및 장치, 언어 인식 방법 및 장치
KR101988222B1 (ko) 2015-02-12 2019-06-13 한국전자통신연구원 대어휘 연속 음성 인식 장치 및 방법
JP6585022B2 (ja) * 2016-11-11 2019-10-02 株式会社東芝 音声認識装置、音声認識方法およびプログラム
JP6599914B2 (ja) * 2017-03-09 2019-10-30 株式会社東芝 音声認識装置、音声認識方法およびプログラム
US10410635B2 (en) * 2017-06-09 2019-09-10 Soundhound, Inc. Dual mode speech recognition
KR102458244B1 (ko) * 2017-11-23 2022-10-24 삼성전자주식회사 기계 번역 방법 및 장치
US10891940B1 (en) 2018-12-13 2021-01-12 Noble Systems Corporation Optimization of speech analytics system recognition thresholds for target word identification in a contact center
US10923117B2 (en) * 2019-02-19 2021-02-16 Tencent America LLC Best path change rate for unsupervised language model weight selection
WO2023181223A1 (ja) * 2022-03-23 2023-09-28 日本電信電話株式会社 音声認識方法、音声認識装置及び音声認識プログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100480790B1 (ko) 2003-01-28 2005-04-06 삼성전자주식회사 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
US8412521B2 (en) * 2004-08-20 2013-04-02 Multimodal Technologies, Llc Discriminative training of document transcription system
KR100704508B1 (ko) 2004-12-14 2007-04-09 한국전자통신연구원 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
WO2007027989A2 (en) * 2005-08-31 2007-03-08 Voicebox Technologies, Inc. Dynamic speech sharpening
US7716049B2 (en) * 2006-06-30 2010-05-11 Nokia Corporation Method, apparatus and computer program product for providing adaptive language model scaling
EP2135231A4 (en) * 2007-03-01 2014-10-15 Adapx Inc SYSTEM AND METHOD FOR DYNAMIC LEARNING
KR101095864B1 (ko) 2008-12-02 2011-12-21 한국전자통신연구원 연속 숫자의 음성 인식에 있어서 혼동행렬과 신뢰도치 기반의 다중 인식후보 생성 장치 및 방법
JP5530729B2 (ja) * 2009-01-23 2014-06-25 本田技研工業株式会社 音声理解装置
EP2339576B1 (en) * 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20140077780A (ko) 2012-12-14 2014-06-24 한국전자통신연구원 신호 대 잡음비를 이용한 언어 모델 스케일 적응 장치
US11100916B2 (en) 2018-11-21 2021-08-24 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
US11935516B2 (en) 2018-11-21 2024-03-19 Samsung Electronics Co., Ltd. Speech recognition method and appratus using weighted scores

Also Published As

Publication number Publication date
US8666739B2 (en) 2014-03-04
US20120150539A1 (en) 2012-06-14

Similar Documents

Publication Publication Date Title
KR20120066530A (ko) 언어 모델 가중치 추정 방법 및 이를 위한 장치
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
KR100612839B1 (ko) 도메인 기반 대화 음성인식방법 및 장치
KR101590724B1 (ko) 음성 인식 오류 수정 방법 및 이를 수행하는 장치
US9672815B2 (en) Method and system for real-time keyword spotting for speech analytics
Henderson et al. Discriminative spoken language understanding using word confusion networks
US9135237B2 (en) System and a method for generating semantically similar sentences for building a robust SLM
US8990086B2 (en) Recognition confidence measuring by lexical distance between candidates
US20110077943A1 (en) System for generating language model, method of generating language model, and program for language model generation
Wester Pronunciation modeling for ASR–knowledge-based and data-derived methods
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US7877256B2 (en) Time synchronous decoding for long-span hidden trajectory model
KR20180038707A (ko) 동적 가중치 값과 토픽 정보를 이용하는 음성인식 방법
CN101123090A (zh) 通过使用平方根折扣的统计语言的语音识别
JP2013125144A (ja) 音声認識装置およびそのプログラム
Jyothi et al. Discriminative language modeling using simulated ASR errors.
EP3309778A1 (en) Method for real-time keyword spotting for speech analytics
KR100480790B1 (ko) 양방향 n-그램 언어모델을 이용한 연속 음성인식방법 및장치
Errattahi et al. Towards a generic approach for automatic speech recognition error detection and classification
Huang et al. Discriminative training methods for language models using conditional entropy criteria
JP2002082690A (ja) 言語モデル生成方法、音声認識方法及びそのプログラム記録媒体
US20040148163A1 (en) System and method for utilizing an anchor to reduce memory requirements for speech recognition
KR20140051519A (ko) 연속어 음성인식 방법 및 연속어 음성인식 장치
Šilingas et al. Specifics of hidden Markov model modifications for large vocabulary continuous speech recognition

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid