KR101727306B1 - 언어모델 군집화 기반 음성인식 장치 및 방법 - Google Patents

언어모델 군집화 기반 음성인식 장치 및 방법 Download PDF

Info

Publication number
KR101727306B1
KR101727306B1 KR1020140077326A KR20140077326A KR101727306B1 KR 101727306 B1 KR101727306 B1 KR 101727306B1 KR 1020140077326 A KR1020140077326 A KR 1020140077326A KR 20140077326 A KR20140077326 A KR 20140077326A KR 101727306 B1 KR101727306 B1 KR 101727306B1
Authority
KR
South Korea
Prior art keywords
language model
topic
speech recognition
best candidate
candidate list
Prior art date
Application number
KR1020140077326A
Other languages
English (en)
Other versions
KR20160000218A (ko
Inventor
정의석
전형배
김현우
박전규
이윤근
정호영
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020140077326A priority Critical patent/KR101727306B1/ko
Publication of KR20160000218A publication Critical patent/KR20160000218A/ko
Application granted granted Critical
Publication of KR101727306B1 publication Critical patent/KR101727306B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]

Abstract

언어모델 군집화 기반 음성인식 장치 및 그 방법이 개시된다. 본 발명의 일 면에 따른 언어모델 군집화 기반 음성인식 방법은 입력되는 음성 데이터에 대하여 제1 언어모델을 이용하여 음성인식을 수행함으로써, 제1 엔베스트 후보리스트를 출력하는 단계; 상기 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 각각의 언어모델 군집에 대한 믹스쳐 웨이트 값을 결정하는 단계; 상기 믹스쳐 웨이트 값에 기반하여 각각의 언어모델 군집을 인터폴레이션하는 단계; 및 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트를 리스코어링하는 단계를 포함한다.

Description

언어모델 군집화 기반 음성인식 장치 및 방법{LANGUANGE MODEL CLUSTERING BASED SPEECH RECOGNITION APPARATUS AND METHOD}
본 발명은 언어모델 군집화 기반 음성인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 언어모델 군집화 결과 생성된 토픽 언어모델 군집을 사용자 입력에 최적화된 믹스쳐 웨이트 값으로 인터폴레이션 한 결과에 기반으로 음성인식 결과를 리스코어링하는 음성인식 장치 및 그 방법에 관한 것이다.
본 발명은 언어모델 군집화 기반 음성인식 장치 및 그 방법에 관한 것으로서, 보다 상세하게는 언어모델 군집화 결과 생성된 토픽 언어모델 군집을 사용자 입력에 최적화된 믹스쳐 웨이트 값으로 인터폴레이션 한 결과에 기반으로 음성인식 결과를 리스코어링하는 음성인식 장치 및 그 방법에 관한 것이다.
본 발명이 해결하고자 하는 기술적 과제는, 언어모델 군집화 결과 생성된 토픽 언어모델 군집을 사용자 입력에 최적화된 믹스쳐 웨이트 값으로 인터폴레이션 한 결과에 기반으로 음성인식 결과를 리스코어링하는 음성인식 장치 및 그 방법을 제공하는 것이다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상술한 본 발명의 목적을 달성하기 위한 본 발명의 일 면에 따른 언어모델 군집화 기반 음성인식 방법은 입력되는 음성 데이터에 대하여 제1 언어모델을 이용하여 음성인식을 수행함으로써, 제1 엔베스트 후보리스트를 출력하는 단계; 상기 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 각각의 언어모델 군집에 대한 믹스쳐 웨이트 값을 결정하는 단계; 상기 믹스쳐 웨이트 값에 기반하여 각각의 언어모델 군집을 인터폴레이션하는 단계; 및 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트를 리스코어링하는 단계를 포함한다.
이상 상술한 바와 같은 본 발명에 따르면, 다수의 토픽 언어모델들을 군집화하여 음성인식 리스코어링에 적용함으로써, 음성인식 성능을 향상시킬 수 있다.
또한, 입력되는 음성 데이터에 대하여 음성인식을 수행한 결과에 기반하여 다수의 언어모델 군집 각각에 대한 믹스쳐 웨이트를 결정하고, 이 값에 기반하여 인터폴레이션에 이용될 언어모델 군집을 선정(Pruning)함으로써, 연산 효율성을 향상시킬 수 있다.
도 1은 본 발명의 실시예에 따른 언어모델 군집화 기반 음성인식 장치를 설명하기 위한 도면.
도 2는 본 발명의 실시예 따른 언어모델 군집화 기반 음성인식 방법을 설명하기 위한 도면.
도 3은 본 발명의 실시예에서 언어모델 군집을 생성하는 방법의 일 예를 설명하기 위한 도면.
도 4는 도 3의 언어모델 군집을 생성하는 방법에 이용되는 언어모델 군집화 알고리즘의 일 예를 설명하기 위한 도면.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 기재에 의해 정의된다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자 이외의 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가급적 동일한 부호를 부여하고 또한 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있는 경우에는 그 상세한 설명은 생략한다.
음성인식은 사용자 발화에 대한 음성신호를 분석하여 음성모델과 언어모델을 이용하여 인식을 진행한다. 여기서 인식된 결과는 래티스 형태의 그래프로 표현될 수 있고, 해당 래티스로부터 다수의 음성인식 후보를 생성할 수 있다. 생성된 음성인식 후보를 엔베스트(N-best)라고 한다. 엔베스트 각각은 일정한 점수를 갖고 있는데, 다수의 언어모델을 이용하여 해당 점수를 다시 계산할 수 있다. 이를 리스코어링(rescoring)이라고 한다.
한편, 다수의 언어모델을 통합하여 사용할 수 있는데, 이 과정을 언어모델 인터폴레이션이라 한다. 언어모델 인터폴레이션에서 하나 이상의 언어모델들이 각각 가중치를 갖고 합산된다. 이때, 모든 가중치들의 합은 1이 된다. 여기서, 가중치 값들을 인터폴레이션 웨이트라고도 하고, 믹스쳐 웨이트라고도 하고, 인터폴레이션 믹스쳐 웨이트라고도 한다.
한편, 클러스터링은 다수의 개체들을 서로 연관 있는 집합으로 분할 구성하는 것을 말한다. 군집화라고도 하는데, 본 명세서에서는 편의상 텍스트에 대하여는 클러스터링이란 용어를 사용하고, 언어모델에 대하여는 군집화라는 표현을 사용한다.
도 1을 참조하며 본 발명의 실시예에 따른 언어모델 군집화 기반 음성인식 장치를 설명한다. 도 1은 본 발명의 실시예에 따른 언어모델 군집화 기반 음성인식 장치를 설명하기 위한 도면이다.
도 1을 참조하면, 본 발명의 실시예에 따른 언어모델 군집화 기반 음성인식 장치는 음성 인식부(110), 리스코어링부(120), 제1 언어모델 생성부(130), 언어모델 인터폴레이션부(140), 토픽언어모델 생성부(150), 토픽언어모델 군집화부(160)를 포함한다.
전처리부(미도시)는 사용자 발화에 따른 음성이 입력되면, 잡음 처리 및 음성 구간 검출을 위한 끝점추출과 특징추출을 수행하여 잡음이 제거된 음성 데이터를 음성 인식부(110)로 전달한다.
음성 인식부(110)는 제1 언어모델 생성부(130)에 저장된 제1 언어모델에 기초하여 음성 인식을 수행하고, 그 결과 입력된 음성 데이터에 대응하는 제1 엔베스트 후보리스트를 출력하여 리스코어링부(120)에 전달한다.
제1 언어모델 생성부(130)는 음성 인식부(110)가 입력된 음성 데이터에 대한 음성 인식을 수행하기 위한 언어모델을 제공한다. 여기서, 언어모델은 기 생성되어 상기 제1 언어모델 생성부(130)에 저장되어 있을 수 있고, 다른 실시예로, 후술한 토픽언어모델 군집 데이터베이스(163)에 기초하여 상기 제1 언어모델 생성부(130)에서 생성된 것일 수도 있다.
리스코어링부(120)는 상기 음성 인식부(110)에서 전달된 제1 엔베스트 후보리스트 각각에 대한 점수를 재평가한다. 여기서, 상기 제1 엔베스트 후보리스트 각각이 갖는 점수는 음성 데이터에서 추출된 특징과 상기 언어모델에 포함되어 있는 음소, 단어 등 사이의 유사도를 측정한 확률 값을 의미할 수 있다.
한편, 상기 리스코어링부(120)는 상기 제1 엔베스트 후보리스트 각각에 대한 점수를 재평가하는데 있어서, 언어모델 인터폴레이션부(140)에서 수행된 언어모델 인터폴레이션 결과를 이용한다.
언어모델 인터폴레이션부(140)는 상기 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 후술할 토픽언어모델 군집 데이터베이스(163)에 저장된 토픽언어모델 군집 각각에 할당될 믹스쳐 웨이트 값을 결정한다. 여기서, 어느 하나의 인식 후보는 상기 제1 엔베스트 후보리스트 중에서 가장 점수가 높은, 즉 언어모델과의 유사도가 가장 큰 1-best 후보인 것이 바람직하다.
구체적으로, 언어모델 인터폴레이션부(140)는 상기 1-best 후보와 각 토픽언어모델 군집을 구성하는 다수의 토픽 언어모델 중에서 대표 언어모델을 이용하여 토픽언어모델 군집 각각에 할당될 믹스쳐 웨이트 값을 결정한다. 여기서, 토픽언어모델 군집은 하나의 토픽언어모델 부분집합을 의미하는데, 다수의 토픽언어모델로 구성된다. 토픽언어모델 군집을 구성하는 다수의 토픽언어모델은 해당 군집의 중심(centroid)과의 거리에 따라 정렬되는데, 중심과 가장 가까운 토픽언어모델을 대표 언어모델이라고 한다.
다른 한편으로, 상기 언어모델 인터폴레이션부(140)는 상기 1-best 후보와 각각의 대표 언어모델을 이용하여 결정된 믹스쳐 웨이트 값의 크기에 따라, 토픽언어모델 군집을 정렬하고, 상기 리스코어링부(120)는 정렬된 토픽언어모델 군집 중에서 상위의 토픽언어모델 군집만을 이용하여 리스코어링을 수행할 수 있다.
예컨대, A,B,C,D,E의 토픽언어모델 군집이 있고, 각 군집의 대표 언어모델과 상기 1-best 후보를 이용하여 결정된 믹스쳐 웨이트 값의 크기에 따라, B,C,E,A,D 순으로 정렬된 것으로 가정하자. 이 경우, 상기 리스코어링부(120)는 기 설정된 개수(예컨대, 3개)에 해당하는 B,C,E 토픽언어모델 군집만을 이용하여 리스코어링을 수행하고, 나머지 A,D는 리스코어링에서 제외한다.
다른 예로, 상기 리스코어링부(120)는 기 설정된 값 이상의 믹스쳐 웨이트 값을 가지는 B,C 토픽언어모델 군집만을 이용하여 리스코어링을 수행하고, 나머지 E,A,D는 리스코어링에서 제외할 수 있다.
이와 같이, 본 발명의 실시예에 따르면 일정 다수의 언어모델 사용에 대한 가지치기(pruning) 알고리즘을 포함함으로써, 연산 효율성을 향상시킬 수 있다.
각각의 토픽언어모델 군집에 대한 믹스쳐 웨이트 값이 결정되면, 상기 언어모델 인터폴레이션부(140)는 각 군집에서 구성 언어모델의 정렬된 위치에 따라 믹스쳐 웨이트 값을 차등적으로 분배한다. 여기서, 각 토픽언어모델 군집에 할당된 믹스쳐 웨이트 값의 합은 1이 되고, 각 군집에서 구성 언어모델에 차등적으로 배분된 값의 합은 해당 군집에 할당된 믹스쳐 웨이트 값과 동일하다.
각 군집에 할당된 믹스쳐 웨이트 값이 해당 군집의 구성 언어모델에 차등적으로 분배되면, 언어모델 인터폴레이션부(140)에서 각 토픽언어모델 군집에 대한 인터폴레이션 처리 과정을 완료된다.
상기 리스코어링부(120)는 상기 언어모델 인터폴레이션부(140)에서 각 토픽언어모델 군집에 대한 인터폴레이션 처리 결과를 이용하여 상기 제1 엔베스트 후보리스트 각각에 대한 점수를 재평가하고, 재평가된 점수에 따라 상기 제1 엔베스트 후보리스트는 재정렬되고, 음성인식 결과가 출력된다.
한편, 본 발명의 실시예는 리스코어링을 적용하여 음성인식 성능을 향상시키기 위한 방안으로 토픽언어모델 군집을 인터폴레이션하는 것을 특징으로 한다. 토픽언어모델의 군집화는 사용자 입력에 적합한 믹스쳐 웨이트 연산 및 실시간 언어모델 인터폴레이션의 연산량 축소에 그 목적이 있다. 이하에서는 도 3 및 도 4를 함께 참조하여 토픽언어모델 군집화에 대해 살펴본다.
도 3은 본 발명의 실시예에서 언어모델 군집을 생성하는 방법의 일 예를 설명하기 위한 도면이고, 도 4는 도 3의 언어모델 군집을 생성하는 방법에 이용되는 언어모델 군집화 알고리즘의 일 예를 설명하기 위한 도면이다.
도 1 및 도 3을 참조하면, 토픽언어모델 생성부(150)는 대용량 텍스트 코퍼스에 대한 텍스트 클러스터링을 통해 토픽이 유사한 텍스트들로 분할된 토픽 언어모델을 생성한다(S310). 이때, 상기 토픽언어모델 생성부(150)는 대용량 텍스트 코퍼스에 대한 데이터베이스가 구축된 대용량 텍스트 코퍼스 DB(155)를 이용할 수 있다.
상기 토픽언어모델 생성부(150)는 대용량 텍스트 코퍼스 DB(155)를 참조하여, 대용량 텍스트 코퍼스 데이터베이스에서 서로 토픽이 유사한 텍스트를 분할한다. 분할된 텍스트들 각각은 토픽 언어모델을 생성되는데 이용되고, 여기서 분할된 텍스트의 개수와 토픽 언어모델의 개수는 동일한 것이 바람직하다. 상기 토픽언어모델 생성부(150)에서 생성된 토픽언어모델은 토픽언어모델 DB(161)에 저장된다.
토픽언어모델 군집화부(160)는 각각의 토픽 언어모델로 구성된 토픽 언어모델 집합에서 서로 연관 있는 토픽언어모델로 구성된 부분집합인 토픽언어모델 군집을 생성한다(S320).
본 발명의 실시예에서 상기 토픽언어모델 DB(161)에 저장된 다수의 토픽언어모델은 하나의 집합을 형성하고, 토픽언어모델 군집화부(160)는 집합을 구성하는 다수의 토픽언어모델 중에서 서로 연관 있는 토픽언어모델로 구성된 적어도 하나 이상의 부분집합을 생성한다. 여기서, 각각의 부분집합은 토픽언어모델 군집이 되고, 이때 디벨롭먼트 셋트(Development Set)이 언어모델 군집화에 사용된다. 여기서, 디벨롭먼트 셋트는 언어모델 군집화 기준으로 사용되는 것으로서, 다수의 문장들로 구성된다. 이하에서는 도 4를 참조하여 토픽언어모델의 군집화 알고리즘(Language Model Clustering)에 대해 살펴본다.
도 4를 참조하면, 토픽언어모델 군집화에 필요한 파라미터는 두 가지로, 문장 si로 구성된 디벨롭먼트 셋트(D)와, 토픽 언어모델 lmi로 구성된 Topic LM 집합이 이에 해당한다.
라인 3에는 언어모델 군집화는 총 E회의 샘플링 과정과 언어모델 군집화 과정을 포함하는 것으로 기술되어 있다. 여기서 샘플링은 라인 4에 기술되어 있고, 언어모델 군집화는 라인 10에 기술되어 있다. 라인 4는 Constraint-Random-Sampling으로 디벨롭먼트 셋트으로부터 특정개수의 문장 목록을 랜덤하게 선택하는 기능을 한다.
본 알고리즘에서는 각 언어모델 lmi는 벡터 공간으로 표현되는데 각 벡터 공간의 차원 값은 랜덤 샘플링된 한 문장의 언어모델 퍼플렉시티(perplexity)로 표현된다. 예컨대, i번째 샘플링 과정에서 k번째 토픽 언어모델, j번째 차원 값은 ppj (k)(i)로 표현된다.
이 차원 값은 군집화 epoch에 따라, 갱신되는데, 라인 4의 LM패러미터는 이 갱신된 값이 적용된 LM 벡터 공간들을 이용하여 문장 샘플링을 진행하는 것을 의미한다.
라인 7은 토픽언어모델의 차원 값 갱신 과정을 보여 준다. 샘플링된 문장 중 j번째 문장은 특정 토픽 언어모델 k의 j번째 차원 값이 되는데, 이 차원의 벡터 값은 해당 문장 sj와 토픽언어모델 lmk을 이용하여 퍼플렉시티 값 PPL(lmk,sj)와 이전 epoch의 값 ppj (k)(i-1)이 α비율로 합해져서 갱신된다. 모든 샘플링된 문장을 반영한 토픽 언어모델의 벡터 값이 갱신된 결과는 토픽 언어모델의 벡터 값의 목록이 되는데, 이 벡터 값들을 이용하여 언어모델 군집화가 라인 10을 통해 진행되고, 군집화된 결과는 LMC로 기술된다.
이하에서는, 도 1 및 도 2를 참조하여 본 발명의 실시예에 따른 언어모델 군집화 기반 음성인식 방법을 설명한다. 도 2는 본 발명의 실시예 따른 언어모델 군집화 기반 음성인식 방법을 설명하기 위한 도면이다.
단계 S210에서 음성 인식부(110)는 입력되는 음성 데이터에 대하여 제1 언어모델을 이용하여 음성인식을 수행함으로써, 제1 엔베스트 후보리스트를 출력한다.
단계 S220에서 언어모델 인터폴레이션부(140)는 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 각각의 언어모델 군집에 할당될 믹스쳐 웨이트 값을 결정한다.
앞서 살펴본 바와 같이, 본 발명의 실시예에서는 리스코어링을 적용하여 음성인식 성능을 향상시키기 위한 방안으로 토픽언어모델 군집을 인터폴레이션하는 것을 특징으로 한다. 여기서, 인터폴레이션의 대상이 되는 것은 대용량 텍스트 코퍼스에서 텍스트 클러스터링을 이용하여 생성된 언어모델 중에서 서로 연관 있는 하나 이상의 언어모델로 구성된 언어모델 군집이다.
예컨대, 상기 언어모델 인터폴레이션부(140)는 상기 1-best 후보와 각 토픽언어모델 군집을 구성하는 다수의 토픽 언어모델 중에서 대표 언어모델을 이용하여 토픽언어모델 군집 각각에 할당될 믹스쳐 웨이트 값을 결정할 수 있다. 그 구체적인 프로세스는 앞서 설명한 바와 동일하므로 이하에서는 그 설명을 생략하도록 한다.
단계 S230에서 상기 언어모델 인터폴레이션부(140)는 상기 믹스쳐 웨이트 값에 기초하여 기 설정된 개수의 상위 언어모델 군집을 선택한다.
단계 S240에서 상기 언어모델 인터폴레이션부(140)는 선택된 언어모델 군집의 구성 언어모델의 정렬 위치에 따라 할당될 믹스쳐 웨이트 값을 차등적으로 배분하고, 단계 S250에서 상기 언어모델 인터폴레이션부(140)는 배분된 믹스쳐 웨이트 값에 기초하여 각각의 언어모델 군집에 대한 인터폴레이션을 수행한다.
단계 S260에서 리스코어링부(120)는 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트에 대한 리스코어링을 수행한다.
본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명이 그 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 본 발명의 보호범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구의 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 입력되는 음성 데이터에 대하여 제1 언어모델을 이용하여 음성인식을 수행함으로써, 제1 엔베스트 후보리스트를 출력하는 단계;
    상기 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 각각의 언어모델 군집에 대한 믹스쳐 웨이트 값을 결정하는 단계;
    상기 믹스쳐 웨이트 값에 기반하여 상기 각각의 언어모델 군집을 인터폴레이션하는 단계; 및
    상기 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트를 리스코어링하는 단계를 포함하고,
    상기 인터폴레이션하는 단계는,
    상기 믹스쳐 웨이트 값에 기초하여 기설정된 개수의 상위 언어모델 군집을 선택하고, 선택된 상기 언어모델 군집의 구성 언어모델의 정렬 위치에 따라 상기 언어모델 군집 각각에 할당되는 믹스쳐 웨이트 값을 차등적으로 배분하는 것인 언어모델 군집화 기반 음성인식 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 어느 하나의 인식 후보는,
    상기 제1 엔베스트 후보리스트 중 언어모델과 유사도가 가장 큰 1-best 후보인 것
    인 언어모델 군집화 기반 음성인식 방법.
  4. 제1항에 있어서, 상기 리스코어링하는 단계는,
    상기 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트 각각에 대한 점수를 재평가하고, 재평가된 상기 점수에 따라 상기 제1 엔베스트 후보리스트를 재정렬하는 것
    인 언어모델 군집화 기반 음성인식 방법.
  5. 제1항에 있어서,
    기구축된 대용량 텍스트 코퍼스 DB를 참조하여, 대용량 텍스트 코퍼스에 대한 텍스트 클러스터링을 통해 토픽이 유사한 텍스트를 분할하고, 분할된 상기 텍스트들 각각을 이용하여 토픽 언어 모델을 생성하는 단계; 및
    생성된 상기 토픽 언어 모델들로 구성된 토픽 언어모델 집합에서 서로 연관있는 토픽언어모델로 구성된 적어도 하나 이상의 부분집합을 생성하여 토픽언어모델 군집을 생성하는 단계;
    를 더 포함하는 언어모델 군집화 기반 음성인식 방법.
  6. 입력되는 음성 데이터에 대하여 제1 언어모델을 이용하여 음성인식을 수행함으로써, 제1 엔베스트 후보리스트를 출력하는 음성 인식부;
    상기 제1 엔베스트 후보리스트 중 어느 하나의 인식 후보를 이용하여 각각의 언어모델 군집에 대한 믹스쳐 웨이트 값을 결정하고, 상기 믹스쳐 웨이트 값에 기반하여 상기 각각의 언어모델 군집을 인터폴레이션하는 언어모델 인터폴레이션부; 및
    상기 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트를 리스코어링하는 리스코어링부를 포함하고,
    상기 언어모델 인터폴레이션부는,
    상기 믹스쳐 웨이트 값에 기초하여 기설정된 개수의 상위 언어모델 군집을 선택하고, 선택된 상기 언어모델 군집의 구성 언어모델의 정렬 위치에 따라 상기 언어모델 군집 각각에 할당되는 믹스쳐 웨이트 값을 차등적으로 배분하는 것인 언어모델 군집화 기반 음성인식 장치.
  7. 삭제
  8. 제6항에 있어서, 상기 어느 하나의 인식 후보는,
    상기 제1 엔베스트 후보리스트 중 언어모델과 유사도가 가장 큰 1-best 후보인 것
    인 언어모델 군집화 기반 음성인식 장치.
  9. 제6항에 있어서, 상기 리스코어링부는,
    상기 각각의 언어모델 군집이 인터폴레이션된 결과를 이용하여 상기 제1 엔베스트 후보리스트 각각에 대한 점수를 재평가하고, 재평가된 상기 점수에 따라 상기 제1 엔베스트 후보리스트를 재정렬하는 것
    인 언어모델 군집화 기반 음성인식 장치.
  10. 제6항에 있어서,
    기구축된 대용량 텍스트 코퍼스 DB를 참조하여, 대용량 텍스트 코퍼스에 대한 텍스트 클러스터링을 통해 토픽이 유사한 텍스트를 분할하고, 분할된 상기 텍스트들 각각을 이용하여 토픽 언어 모델을 생성하는 토픽언어모델 생성부; 및
    생성된 상기 토픽 언어 모델들로 구성된 토픽 언어모델 집합에서 서로 연관있는 토픽언어모델로 구성된 적어도 하나 이상의 부분집합을 생성하여 토픽언어모델 군집을 생성하는 토픽언어모델 군집화부;
    를 더 포함하는 언어모델 군집화 기반 음성인식 장치.
KR1020140077326A 2014-06-24 2014-06-24 언어모델 군집화 기반 음성인식 장치 및 방법 KR101727306B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020140077326A KR101727306B1 (ko) 2014-06-24 2014-06-24 언어모델 군집화 기반 음성인식 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140077326A KR101727306B1 (ko) 2014-06-24 2014-06-24 언어모델 군집화 기반 음성인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20160000218A KR20160000218A (ko) 2016-01-04
KR101727306B1 true KR101727306B1 (ko) 2017-05-02

Family

ID=55164163

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140077326A KR101727306B1 (ko) 2014-06-24 2014-06-24 언어모델 군집화 기반 음성인식 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101727306B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977673A (zh) * 2017-11-15 2018-05-01 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111613219B (zh) * 2020-05-15 2023-10-27 深圳前海微众银行股份有限公司 语音数据识别方法、设备及介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977673A (zh) * 2017-11-15 2018-05-01 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
CN107977673B (zh) * 2017-11-15 2021-05-14 上海世脉信息科技有限公司 一种基于大数据的经济活动人口识别方法
US11631414B2 (en) 2019-10-22 2023-04-18 Samsung Electronics Co., Ltd. Speech recognition method and speech recognition apparatus

Also Published As

Publication number Publication date
KR20160000218A (ko) 2016-01-04

Similar Documents

Publication Publication Date Title
EP4018437B1 (en) Optimizing a keyword spotting system
US9653093B1 (en) Generative modeling of speech using neural networks
US20210312914A1 (en) Speech recognition using dialog history
Feng et al. End-to-End Speech Emotion Recognition Combined with Acoustic-to-Word ASR Model.
US20120221339A1 (en) Method, apparatus for synthesizing speech and acoustic model training method for speech synthesis
CN105654940B (zh) 一种语音合成方法和装置
US10255910B2 (en) Centered, left- and right-shifted deep neural networks and their combinations
US11158307B1 (en) Alternate utterance generation
JPH096386A (ja) 状態遷移モデルの設計方法及び該状態遷移モデルを用いた音声認識装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
US11705116B2 (en) Language and grammar model adaptation using model weight data
US11017763B1 (en) Synthetic speech processing
KR101727306B1 (ko) 언어모델 군집화 기반 음성인식 장치 및 방법
WO2012076895A1 (en) Pattern recognition
Zhu et al. Gaussian free cluster tree construction using deep neural network.
He et al. Fast model selection based speaker adaptation for nonnative speech
KR20230156425A (ko) 자체 정렬을 통한 스트리밍 asr 모델 지연 감소
Tasnia et al. An overview of bengali speech recognition: Methods, challenges, and future direction
Andra et al. Contextual keyword spotting in lecture video with deep convolutional neural network
JP5344396B2 (ja) 言語学習装置、言語学習プログラム及び言語学習方法
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition
JPH07104780A (ja) 不特定話者連続音声認識方法
CN113763939B (zh) 基于端到端模型的混合语音识别系统及方法
Ilyes et al. Statistical parametric speech synthesis for Arabic language using ANN
Nadungodage et al. Efficient use of training data for sinhala speech recognition using active learning

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant