KR20060067096A - N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법 - Google Patents

N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법 Download PDF

Info

Publication number
KR20060067096A
KR20060067096A KR1020050037093A KR20050037093A KR20060067096A KR 20060067096 A KR20060067096 A KR 20060067096A KR 1020050037093 A KR1020050037093 A KR 1020050037093A KR 20050037093 A KR20050037093 A KR 20050037093A KR 20060067096 A KR20060067096 A KR 20060067096A
Authority
KR
South Korea
Prior art keywords
gram
language model
network
speech recognition
grams
Prior art date
Application number
KR1020050037093A
Other languages
English (en)
Other versions
KR100704508B1 (ko
Inventor
최준기
이영직
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Publication of KR20060067096A publication Critical patent/KR20060067096A/ko
Application granted granted Critical
Publication of KR100704508B1 publication Critical patent/KR100704508B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60NSEATS SPECIALLY ADAPTED FOR VEHICLES; VEHICLE PASSENGER ACCOMMODATION NOT OTHERWISE PROVIDED FOR
    • B60N2/00Seats specially adapted for vehicles; Arrangement or mounting of seats in vehicles
    • B60N2/70Upholstery springs ; Upholstery
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B32LAYERED PRODUCTS
    • B32BLAYERED PRODUCTS, i.e. PRODUCTS BUILT-UP OF STRATA OF FLAT OR NON-FLAT, e.g. CELLULAR OR HONEYCOMB, FORM
    • B32B2307/00Properties of the layers or laminate
    • B32B2307/70Other properties
    • B32B2307/714Inert, i.e. inert to chemical degradation, corrosion
    • B32B2307/7145Rot proof, resistant to bacteria, mildew, mould, fungi

Landscapes

  • Engineering & Computer Science (AREA)
  • Aviation & Aerospace Engineering (AREA)
  • Transportation (AREA)
  • Mechanical Engineering (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 연속음성인식 과정에서 현재 인식 과정 중에 있는 음성의 주제 정보를 추정하고 이 정보를 이용하여 대규모 코퍼스에서 얻어진 N-gram 간의 의미적, 구문적 거리를 표시한 N-gram 네트워크를 검색하여 언어모델 적응을 수행하도록 하는 N-gram 네트워크를 이용하는 한국어 연속음성인식을 위한 언어모델 적응장치 및 그 방법에 관한 것이다. 이와 같은 본 발명은 대규모 텍스트 코퍼스 DB에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 네트워크 생성 모듈과, 상기 네트워크 생성 모듈에서 생성된 N-gram 네트워크를 저장하는 N-gram 네트워크 DB와, 음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 정보 추출 모듈과, 상기 정보 추출 모듈에서 추출된 N-gram들을 상기 N-gram 네트워크 DB에서 검색하는 검색 모듈과, 상기 검색 모듈에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 실시간 언어 모델 병합 모듈로 구성된다.
음성인식, 연속음성인식, 언어모델, 언어모델 적응, Speech Recognition, Continuous Speech Recognition, N-gram network, N-gram

Description

N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치 및 그 방법{LANGUAGE MODEL ADAPTATION APPARATUS FOR KOREAN CONTINUOUS SPEECH RECOGNITION USING N-GRAM NETWORK AND METHOD THEREFOR}
도 1은 본 발명의 일 실시예에 따른 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치의 구성을 나타낸 기능 블럭도,
도 2는 도 1에서의 네트워크 생성모듈의 상세 기능 블럭도,
도 3은 음성인식의 중간 단계에서 음향학적으로 안정된 단어를 기준으로 N-gram network에서 검색된 N-gram을 확장하는 방법을 설명하기 위한 도면,
도 4는 N-gram network를 구성하는 방법을 설명하기 위한 도면,
도 5는 본 발명의 일 실시예에 따른 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응방법을 나타낸 동작 플로우챠트,
도 6은 도 5에서의 네트워크 생성 과정의 상세 동작 플로우챠트이다.
<도면의 주요 부분에 대한 부호의 설명>
100 : 대규모 텍스트 코퍼스 DB 200 : 기본 언어모델 생성부
300 : 기본 언어모델 DB 400 : 네트워크 생성모듈
500 : N-gram 네트워크 DB 600 : 음향모델 DB
700 : 연속 음성 인식부 800 : 정보 추출모듈
900 : 검색모듈 1000 : 실시간 언어모델 병합모듈
본 발명은 N-gram 네트워크를 이용하는 한국어 연속음성인식을 위한 언어모델 적응장치 및 그 방법에 관한 것으로, 연속음성인식 과정에서 현재 인식 과정 중에 있는 음성의 주제 정보를 추정하고 이 정보를 이용하여 대규모 코퍼스에서 얻어진 N-gram 간의 의미적, 구문적 거리를 표시한 N-gram 네트워크를 검색하여 언어모델 적응을 수행하도록 하는 N-gram 네트워크를 이용하는 한국어 연속음성인식을 위한 언어모델 적응장치 및 그 방법에 관한 것이다.
일반적으로, 연속음성인식에서는 언어모델이 매우 중요한 역할을 하며, 음향모델의 오류를 수정하고, 정확한 인식 결과를 내는데 사용되고 있다. 그러나, 현재 가장 많이 사용되고 있으며 음성인식 산업의 표준처럼 사용되고 있는 N-gram의 경우, 학습 데이터의 영역에 따라 매우 다른 결과가 나올 수 있으며, 인식하고자 하는 음성의 영역과 언어모델 학습 데이터의 영역이 일치할 때 가장 나은 성능을 기대할 수 있다. 따라서, 방송 뉴스 인식과 같이 여러 영역을 다루는 음성인식에서는 각 주제마다 언어모델의 영역을 적응하는 언어모델 적응 방법을 통해서 음성인식의 정확도를 향상시킬 수 있다.
종래의 언어모델 적응 기술은 음성인식의 중간 결과로부터 음성의 영역 정보를 추출하고, 이를 바탕으로 대용량의 학습 데이터에서 유사한 텍스트 문장을 검색하여 해당 영역만으로 구성된 적응 데이터를 구성한다. 그리고 이 적응 데이터를 이용하여 적응 언어모델을 생성한다. 이때, 적은 양의 텍스트만을 사용하여 구성된 언어모델의 약점을 보완하기 위하여 기존의 대용량 코퍼스로부터 생성된 언어모델과 병합하여 최종적인 적응 언어모델을 생성하는 방법이 널리 사용되었다.
그러나, 위와 같은 종래의 기술의 경우 소규모의 적응 데이터를 이용하여 적응언어모델을 구하기 때문에 주제 정보가 포함된 문장의 일부분의 언어모델은 개선 될 수 있으나 적응 데이터의 주제 정보와 관련이 없는 부분은 왜곡된 결과를 가져올 수 있기 때문에 기존의 대용량 코퍼스에서 구한 안정적인 언어모델 점수가 불한해 지는 경우가 생기며, 따라서 성능 향상이 이루어지는 문장도 있으나 성능 향상이 이루어지지 않는 경우의 문장도 상당 부분 존재한다. 따라서 전체적으로 언어모델 적응을 통해서 얻을 수 있는 성능 향상이 그다지 크지 않는 문제점이 있었다.
따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 이루어 진 것으로서, 본 발명의 목적은 적응 텍스트 코퍼스를 N-gram network의 형태로 구현하여 하나의 N-gram이 검색되면 한 문장에서 발생할 수 있는 다른 N-gram을 순차적으로 호출하여 사용할 수 있도록 함으로써, 인식 성능의 저하 없이 모든 경우에 대해서 음성인식 성능을 향상 시킬 수 있는 N-gram 네트워크를 이용하는 한국어 연속 음성인식의 언어모델 적응장치 및 그 방법을 제공한 데 있다.
상기와 같은 목적을 달성하기 위한 본 발명의 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치는, N-gram 네트워크과 기본 언어모델을 생성하기 위한 대규모 텍스트 코퍼스를 저장하는 제1 저장 수단과, 상기 제1 저장 수단에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 네트워크 생성 수단과, 상기 네트워크 생성 수단에서 생성된 N-gram 네트워크를 저장하는 제2 저장 수단과, 음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 정보 추출 수단과, 상기 정보 추출 수단에서 추출된 N-gram들을 상기 제2 저장 수단에서 검색하는 검색 수단과, 상기 검색 수단에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 실시간 언어 모델 병합 수단을 포함하여 구성되는 것을 특징으로 한다.
또한, 상기와 같은 목적을 달성하기 위한 본 발명의 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응방법은, 대규모 텍스트 코퍼스에서 기본 언어모델을 추출하는 제1 단계와, 상기 구축된 대규모 텍스트 코퍼스 DB에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 제2 단계와, 상기 제2 단계에서 생성된 N-gram 네트워크를 저장하는 N-gram 네트워크 DB를 구축하는 제3 단계와, 음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 제4 단계와, 상기 제4 단계에서 추출된 N-gram들을 상기 구축된 N-gram 네트워크 DB에서 검색하는 제5 단계와, 상기 제5 단계에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 제6 단계를 포함하여 이루어지는 것을 특징으로 한다.
이하, 본 발명의 일 실시예에 의한 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치 및 그 방법에 대하여 첨부된 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치의 구성을 나타낸 기능 블럭도를 도시한 것이고, 도 2는 도 1에서의 네트워크 생성모듈의 상세 기능 블럭도를 도시한 것이다.
도 1에 도시된 바와 같이, 본 발명의 일 실시예에 따른 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치는, 기본 언어모델과 N-gram 네트워크를 만들기 위한 대규모 텍스트 코퍼스 DB(100)와, 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 텍스트 코퍼스를 이용하여 기본 언어모델을 생성하는 기본 언어모델 생성부(200)와, 상기 기본 언어모델 생성부(200)에서 생성된 기본 언어모델 을 저장하는 기본 언어모델 DB(300)와, 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 네트워크 생성 모듈(400)과, 상기 네트워크 생성 모듈(400)에서 생성된 N-gram 네트워크를 저장하는 N-gram 네트워크 DB(500)와, 상기 기본 언어모델 DB(300)에 저장된 기본 언어모델과 음향모델 DB(600)에 저장된 음향모델을 이용하여 연속 음성 인식을 수행하는 연속 음성 인식부(700)와, 상기 연속 음성 인식부(700)에서의 음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 정보 추출 모듈(800)과, 상기 정보 추출부(800)에서 추출된 N-gram들을 상기 N-gram 네트워크 DB(500)에서 검색하는 검색 모듈(900)과, 상기 검색 모듈(900)에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 실시간 언어 모델 병합 모듈(1000)로 구성된다.
도 2에 도시된 바와 같이, 상기 네트워크 생성모듈(400)은 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 대규모 텍스트 코퍼스에 존재하는 문서 간에 유사도를 이용하여 문서 간 클러스터링을 수행하는 문서 클러스터링부(401)와, 상기 문서 클러스터링부(401)에서 클러스터링된 문서 클러스터 별로 N-gram을 추출하는 문서 클러스터별 N-gram 추출부(402)와, 상기 문서 클러스터 별 N-gram 추출부(403)에서 추출된 N-gram을 결합하여 N-gram 네트워크를 생성하여 상기 N-gram 네트워크 DB(500)에 저장시키는 N-gram 결합부(403)로 구성된다.
그러면, 상기와 같은 구성을 가지는 본 발명의 일 실시예에 따른 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치 및 그 방법에 대해 도 3 내지 도 6을 참조하여 설명하기로 한다.
먼저 기본 언어모델을 생성하기 위한 대규모 텍스트 코퍼스 DB(100)fmf 구축한다. 이 대규모 코퍼스는 여러 주제와 영역을 커버할 다양한 문서를 포함하고 있어야 하며 다양한 문형을 가지고 있는 풍부한 문장들의 집합이다.
기본 언어모델 생성부(200)는 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 적응 텍스트 코퍼스를 이용하여 기본 언어모델을 생성한 후, 그 생성된 기본 언어모델을 기본 언어모델 DB(300)에 저장시켜, 기본 언어모델 DB(300)을 구축하게 된다(S102, S103).
한편, 네트워크 생성 모듈(400)은 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성한 후, 그 생성된 N-gram 네트워크를 N-gram 네트워크 DB(500)에 저장시켜, N-gram 네트워크 DB(500)을 구축하게 된다(S100, S101).
상기 N-gram 네트워크에는 2가지의 연결(link)가 있는데, 첫 번째 연결은 위치 연결 정보이다. 즉, 인접해 있는 단어들을 연결하는 방식으로 단어 연결 사이에 N-gram 확률값이 부여된다. 그리고 두 번째 연결은 영역 정보 연결로서 서로 영역이 비슷한 문서에서 발생하는 N-gram끼리 하나의 군을 이루는 연결이다. 이러한 영역 정보 연결을 생성하기 위해서 도 4에서 도시한 것처럼 대규모의 텍스트 코퍼스에 존재하는 문서 간에 유사도를 이용하여 문서 간 군집화(clustering)을 수행하고 군집화된 문서들을 이용하여 영역 연결을 구성한다.
이를 상세히 설명하면, 상기 네트워크 생성모듈(400)의 문서 클러스터링부(401)는 상기 대규모 텍스트 코퍼스 DB(100)에 저장된 대규모 텍스트 코퍼스에 존재하는 문서 간에 유사도를 이용하여 문서 간 클러스터링을 수행한다(S200). 문서 클러스터별 N-gram 추출부(402)는 상기 문서 클러스터링부(401)에서 클러스터링된 문서 클러스터 별로 N-gram을 추출한다(S201). N-gram 결합부(403)는 상기 문서 클러스터 별 N-gram 추출부(403)에서 추출된 N-gram을 결합하여 N-gram 네트워크를 생성하여 상기 N-gram 네트워크 DB(500)에 저장시킨다(S202).
연속 음성 인식부(700)는 상기 기본 언어모델 DB(300)에 저장된 기본 언어모델과 음향모델 DB(600)에 저장된 음향모델을 이용하여 연속 음성 인식을 수행하게 된다(S104).
정보 추출 모듈(800)은 상기 연속 음성 인식부(700)에서의 음성 인식 중간 결과를 추출하여(S105), 음향학적 안정 단어를 검출한 후(S106), 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하게 된다(S107).
이와 같이, 상기 정보 추출 모듈(800)은 음성인식의 중간 결과로부터 현재 인식 중인 음성의 영역 정보를 추출하는데, 일반적인 N-gram은 영역정보를 표현할 수 있는 방법이 없기 때문에 현재 인식 중인 음성의 정확한 영역을 아는 것이 매우 중요하다. 영역 정보는 한 문장에서 얻어지지 않고 동일한 주제를 다루고 있는 여러 문장에서 얻어지는 것이 바람직하다. 따라서, 방송뉴스의 경우 하나의 주제를 다루는 꼭지 기사 단위로 음성인식의 중간 결과를 검색한다. 음성인식의 중간 결과는 일반적으로 N-best list나 lattice 형태로 주어지는데, 이 중간 결과에서 음향학적으로 매우 안정된 단어를 검색할 수 있다. 이 단어들은 인간의 음성 인식 과정으로 말하자면 매우 잘 들리는 단어에 해당한다. 이러한 음향학적으로 안정된 단어는 N-best list에서 유사한 구간에서 동일하게 많이 출현하거나 lattice 구조에서 branch factor가 작아지는 부분에 해당한다. 이러한 음향학적으로 안정된 단어를 제외한 부분은 N-best list에서 해당 구간에 대해 후보 단어 열이 다양하게 생성된다. 이 때 음향학적으로 안정된 단어를 정확히 찾기 위해서 음향모델을 강건하게 작성해야 하며 상위 언어모델 보다 간단하고 단순한 하위 언어모델을 사용하여 음성인식의 첫 단계를 수행해야 한다.
음성인식의 중간 결과에서 음향학적으로 안정된 단어가 결정되고 나면, 상기 정보 추출 모듈(800)은 이 단어가 포함된 N-gram을 추출한다. 이때, 전체 언어모델을 trigram을 사용한다면 해당하는 단어가 포함된 unigram, bigram, trigram을 N-gram network 검색의 질의(query)로 사용하도록 한다.
검색 모듈(900)은 상기 정보 추출부(800)에서 추출된 N-gram들을 상기 N-gram 네트워크 DB(500)에서 검색하게 된다(S108, S109). 상기 검색 모듈(900)에서는 추출된 다량의 N-gram을 N-gram network를 통하여 검색하는 부분이다. 이 검색 모듈(900)에서는 일단 unigram이나 bigram을 이용하여 검색된 N-gram 들이 현재 인식 중인 음성의 영역과 얼마나 유사한지, 그리고 현재 문장 들이 얼마나 공통적인 영역정보를 가지고 있는지, 그리고 현재 인식 중인 문장이 얼마나 균일한 영역 정 보를 가지고 있는 지를 판단한다(S108). 이 판단 작업을 통해서 현재 인식 중인 문장에 영역정보를 포함한 언어모델로 갱신하였을 때 성능이 저하되는 경우를 막을 수 있다. 즉, 영역정보가 명확하지 않은 문장은 언어모델을 갱신하지 않거나 갱신의 가중치를 줄여서 인식 성능이 저하되는 상황을 막는다.
N-gram network를 검색할 때에는, 상기 검색 모듈(900)은 일단 음향학적으로 안정된 단어가 포함되어 있는 N-gram부터 검색하고 이 N-gram 간의 영역간 유사도를 이용하여 영역이 유사한 N-gram와 연결정보 보다 유사한 N-gram을 검색해서 적응 N-gram set를 작성한다. 도 4에서 도시된 바와 같이 N-gram network는 단어와 단어가 연결되는 형태로 구성되기 때문에 N-gram이 연결되어 나타날 수 있으며, 이 N-gram들은 큰 하나의 덩어리를 이루고 있다. 그리고 영역이 유사한 N-gram 간의 상관관계 연결이 있어서 서로 영역이 유사한 N-gram의 검색이 가능하다. 검색 시에는 위치 정보 유사도와 영역 정보 유사도를 같이 사용한다.
실시간 언어 모델 병합 모듈(1000)은 상기 검색 모듈(900)에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하게 된다(S110). 상기 실시간 언어모델 병합 모듈(1000)은 그 검색된 N-gram 들로 훈련 코퍼스를 작성할 수 있으며 영역에 대한 가중치를 구하여 새로운 언어모델 값을 부여할 수 있다. 따라서, 음향모델의 신뢰도가 낮은 구간에는 가급적 긴 언어모델과 강한 영역 가중치를 부여하며 음향모델의 신뢰도가 높은 구간이나 단어는 짧은 언어모델을 적용하여 언어모델을 재 계산하는 방법을 사용한다. 이 방법을 보다 강건하게 하기 위해서 발화검증(utterance verification)과 같은 방법 을 사용할 수 있다.
이와 같이, 도 3은 음성인식 중간 결과를 이용하여 음향학적으로 안정된 단어를 고르고, 그 단어에 대한 영역 테스트를 수행하고, 영역 정보를 사용할 수 있다는 확신이 들면 언어모델을 확장하여 새롭게 음성인식 결과를 수정하는 과정을 도시한 것이다.
이상에서 몇 가지 실시예를 들어 본 발명을 더욱 상세하게 설명하였으나, 본 발명은 반드시 이러한 실시예로 국한되는 것이 아니고 본 발명의 기술사상을 벗어나지 않는 범위 내에서 다양하게 변형실시될 수 있다.
상술한 바와 같이 본 발명에 의한 N-gram 네트워크를 이용하는 한국어 연속음성인식의 언어모델 적응장치 및 그 방법에 의하면, 본 발명은 연속 음성 인식에서 음성인식의 중간 결과를 이용하여 언어모델을 갱신하는 언어모델 적응 방법에 대해 N-gram network와 음향학적 안정 단어를 사용하였다. 위 방법을 사용하여 음성의 영역의 정확한 추정이 가능하며 영역 정보를 효율적으로 사용하여 언어모델을 효과적으로 적응할 수 있는 효과가 있다. 또한, 본 발명은 음성인식 성능의 일관된 향상을 가져올 수 있는 효과가 있다.

Claims (10)

  1. 기본 언어모델과 N-gram 네트워크를 생성하기 위한 대규모 텍스트 코퍼스를 저장하는 제1 저장 수단과;
    상기 제1 저장 수단에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 네트워크 생성 수단과;
    상기 네트워크 생성 수단에서 생성된 N-gram 네트워크를 저장하는 제2 저장 수단과;
    음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 정보 추출 수단과;
    상기 정보 추출 수단에서 추출된 N-gram들을 상기 제2 저장 수단에서 검색하는 검색 수단과;
    상기 검색 수단에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 실시간 언어 모델 병합 수단을 포함하여 구성되는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 장치.
  2. 제 1 항에 있어서,
    상기 네트워크 생성 수단은 상기 대규모 텍스트 코퍼스에 존재하는 문서 간에 유사도를 이용하여 문서 간 클러스터링을 수행하는 문서 클러스터링부와;
    상기 문서 클러스터링부에서 클러스터링된 문서 클러스터 별로 N-gram을 추출하는 문서 클러스터별 N-gram 추출부와;
    상기 N-gram 추출부에서 추출된 N-gram을 결합하여 N-gram 네트워크를 생성하는 N-gram 결합부로 구성되는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 장치.
  3. 제 1 항에 있어서,
    상기 검색 수단은 unigram이나 bigram을 이용하여 검색된 N-gram들이 현재 인식중인 음성의 영역정보와 얼마나 유사한 지, 현재 문장들이 얼마나 공통적인 영역정보를 가지고 있는 지, 그리고 현재 인식중인 문장이 얼마나 균일한 영역 정보를 가지고 있는 지를 판단하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 장치.
  4. 제 1 항에 있어서,
    상기 검색 수단은, N-gram을 네트워크를 검색할 때에는, 음향학적으로 안정된 단어가 포함된 N-gram부터 검색하고, 이 N-gram 간의 영역간 유사도를 이용하여 영역이 유사한 N-gram과 연결정보가 유사한 N-gram을 검색하여, 적응 N-gram 세트를 작성하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 장치.
  5. 제 1 항에 있어서,
    상기 실시간 언어모델 병합 수단은 음향 모델의 신뢰도가 낮은 구간에는 가급적 긴 언어모델과 강한 영역 가중치를 부여하고, 음향모델의 신뢰도가 낮은 구간이나 단어는 짧은 언어모델을 적용하여, 언어 모델을 재계산하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 장치.
  6. N-gram 네트워크로 이루어진 적응 텍스트 코퍼스를 저장하는 대규모 텍스트 코퍼스 DB를 구축하는 제1 단계와;
    상기 구축된 대규모 텍스트 코퍼스 DB에 저장된 대규모 텍스트 코퍼스에 존재하는 문서간에 유사도를 이용하여 N-gram 네트워크를 생성하는 제2 단계와;
    상기 제2 단계에서 생성된 N-gram 네트워크를 저장하는 N-gram 네트워크 DB를 구축하는 제3 단계와;
    음성 인식 중간 결과를 추출하여, 음향학적 안정 단어를 검출한 후, 현재 인식중인 음성의 영역 정보를 추출하고, 이 안정 단어가 포함한 N-gram을 추출하는 제4 단계와;
    상기 제4 단계에서 추출된 N-gram들을 상기 구축된 N-gram 네트워크 DB에서 검색하는 제5 단계와;
    상기 제5 단계에서 검색된 N-gram을 이용하여 실시간으로 언어 모델을 갱신하여 이 갱신된 언어 모델을 음성인식에 적용하는 제6 단계를 포함하여 이루어지는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 방법.
  7. 제 6 항에 있어서,
    상기 제2 단계는 상기 대규모 텍스트 코퍼스에 존재하는 문서 간에 유사도를 이용하여 문서 간 클러스터링을 수행하는 제1 과정과;
    상기 제1 과정에서 클러스터링된 문서 클러스터 별로 N-gram을 추출하는 제2 과정과;
    상기 제2 과정에서 추출된 N-gram을 결합하여 N-gram 네트워크를 생성하는 제3 과정으로 구성되는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연 속 음성 인식의 언어 모델 적응 방법.
  8. 제 6 항에 있어서,
    상기 제5 단계는 unigram이나 bigram을 이용하여 검색된 N-gram들이 현재 인식중인 음성의 영역정보와 얼마나 유사한 지, 현재 문장들이 얼마나 공통적인 영역정보를 가지고 있는 지, 그리고 현재 인식중인 문장이 얼마나 균일한 영역 정보를 가지고 있는 지를 판단하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 방법.
  9. 제 6 항에 있어서,
    상기 제 5 단계는 N-gram을 네트워크를 검색할 때에는, 음향학적으로 안정된 단어가 포함된 N-gram부터 검색하고, 이 N-gram 간의 영역간 유사도를 이용하여 영역이 유사한 N-gram과 연결정보가 유사한 N-gram을 검색하여, 적응 N-gram 세트를 작성하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 방법.
  10. 제 6 항에 있어서,
    상기 제6 단계는 음향 모델의 신뢰도가 낮은 구간에는 가급적 긴 언어모델과 강한 영역 가중치를 부여하고, 음향모델의 신뢰도가 낮은 구간이나 단어는 짧은 언어모델을 적용하여, 언어 모델을 재계산하는 것을 특징으로 하는 N-gram 네트워크을 이용하는 한국어 연속 음성 인식의 언어 모델 적응 방법.
KR1020050037093A 2004-12-14 2005-05-03 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법 KR100704508B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20040105505 2004-12-14
KR1020040105505 2004-12-14

Publications (2)

Publication Number Publication Date
KR20060067096A true KR20060067096A (ko) 2006-06-19
KR100704508B1 KR100704508B1 (ko) 2007-04-09

Family

ID=37161712

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020050037093A KR100704508B1 (ko) 2004-12-14 2005-05-03 N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법

Country Status (1)

Country Link
KR (1) KR100704508B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US8666739B2 (en) 2010-12-14 2014-03-04 Electronics And Telecommunications Research Institute Method for estimating language model weight and system for the same
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model
CN109427331A (zh) * 2017-08-16 2019-03-05 三星电子株式会社 语音识别方法及装置
KR20200091486A (ko) * 2012-06-21 2020-07-30 구글 엘엘씨 동적 언어 모델

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101079653B1 (ko) 2008-12-22 2011-11-04 한국전자통신연구원 네비게이션 기기에서 음성인식 대상 키워드의 생성장치 및 방법
KR102244298B1 (ko) 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0136425B1 (ko) * 1995-01-26 1998-05-15 조백제 의존문법을 후향 언어모델로 사용하는 한국어 연속음성 인식장치 및 방법과 그를 이용한 자동통역시스템
KR100423460B1 (ko) * 2001-07-19 2004-03-18 한국전자통신연구원 주제어 인식이 가능한 음성인식시스템 및 방법
KR20040051349A (ko) * 2002-12-12 2004-06-18 한국전자통신연구원 출현불가능한 어휘조합에 대한 정보를 반영한 연속 음성인식 방법
KR20040055417A (ko) * 2002-12-21 2004-06-26 한국전자통신연구원 대화체 연속음성인식 장치 및 방법
KR20040066440A (ko) * 2003-01-18 2004-07-27 엘지전자 주식회사 음성인식기의 언어모델 구축 방법
KR100576496B1 (ko) * 2003-04-30 2006-05-10 주식회사 팬택 한국어 방송 뉴스의 음성 인식을 위한 언어 모델 적응장치 및 그 방법

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100825690B1 (ko) * 2006-09-15 2008-04-29 학교법인 포항공과대학교 음성 인식 시스템에서의 인식 오류 수정 방법
US8666739B2 (en) 2010-12-14 2014-03-04 Electronics And Telecommunications Research Institute Method for estimating language model weight and system for the same
KR20200091486A (ko) * 2012-06-21 2020-07-30 구글 엘엘씨 동적 언어 모델
US9842588B2 (en) 2014-07-21 2017-12-12 Samsung Electronics Co., Ltd. Method and device for context-based voice recognition using voice recognition model
CN109427331A (zh) * 2017-08-16 2019-03-05 三星电子株式会社 语音识别方法及装置
CN109427331B (zh) * 2017-08-16 2024-02-27 三星电子株式会社 语音识别方法及装置

Also Published As

Publication number Publication date
KR100704508B1 (ko) 2007-04-09

Similar Documents

Publication Publication Date Title
US8719021B2 (en) Speech recognition dictionary compilation assisting system, speech recognition dictionary compilation assisting method and speech recognition dictionary compilation assisting program
US9361879B2 (en) Word spotting false alarm phrases
CN101326572B (zh) 具有巨大词汇量的语音识别系统
KR100704508B1 (ko) N-gram 네트워크를 이용하는 한국어 연속음성인식의언어모델 적응장치 및 그 방법
US6975985B2 (en) Method and system for the automatic amendment of speech recognition vocabularies
Chen et al. Lightly supervised and data-driven approaches to mandarin broadcast news transcription
KR100573870B1 (ko) 대화체 연속음성인식을 위한 의사형태소 기반다중발음사전 구축 방법 및 그 시스템과 이를 이용한대화체 음성인식 방법
Hori et al. Deriving disambiguous queries in a spoken interactive ODQA system
Palmer et al. Improving out-of-vocabulary name resolution
JP4764203B2 (ja) 音声認識装置及び音声認識プログラム
JP4595415B2 (ja) 音声検索システムおよび方法ならびにプログラム
JP2005257954A (ja) 音声検索装置、音声検索方法および音声検索プログラム
JP5124012B2 (ja) 音声認識装置及び音声認識プログラム
Lei et al. Data-driven lexicon expansion for Mandarin broadcast news and conversation speech recognition
JP6276516B2 (ja) 辞書作成装置、及び辞書作成プログラム
Lei et al. Development of the 2008 SRI Mandarin speech-to-text system for broadcast news and conversation.
Chung AUTOMATICALLY INCORPORATING UNKNOWN WORDS IN JUPITER ½
Choueiter Linguistically-motivated sub-word modeling with applications to speech recognition.
KR102182408B1 (ko) 형태소 발음변이를 고려한 음성인식 단위 생성 장치 및 방법
KR101388569B1 (ko) 연속어 음성인식 시스템에서 언어모델의 고유 명사 추가 장치 및 방법
Furui Selected topics from LVCSR research for Asian Languages at Tokyo Tech
Huang et al. Phrase-Level Class based Language Model for Mandarin Smart Speaker Query Recognition
JP4140248B2 (ja) データベース検索装置
Lyu et al. Modeling pronunciation variation for bi-lingual Mandarin/Taiwanese speech recognition
Coletti et al. A two-stage speech recognition method for information retrieval applications.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20110404

Year of fee payment: 5

LAPS Lapse due to unpaid annual fee