KR101478146B1

KR101478146B1 - 화자 그룹 기반 음성인식 장치 및 방법

Info

Publication number: KR101478146B1
Application number: KR20110135919A
Authority: KR
Inventors: 박전규; 정훈; 전형배; 이윤근; 정의석; 박상규
Original assignee: 한국전자통신연구원
Priority date: 2011-12-15
Filing date: 2011-12-15
Publication date: 2015-01-02
Also published as: KR20130068624A

Abstract

특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하도록 한 화자 그룹 기반 음성인식 장치 및 방법이 제시된다. 제시된 화자 그룹 기반 음성인식 장치는 범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부; 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부; 및 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부를 포함한다.

Description

화자 그룹 기반 음성인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING SPEECH BASED ON SPEAKER GROUP}

본 발명은 화자 그룹 기반 음성인식 장치 및 방법에 관한 것으로, 더욱 상세하게는 음성인식 수행에 있어 화자 그룹의 공통 어휘 특성을 기반으로 하는 언어모델을 이용하여 음성인식 성능을 향상시키는 화자 그룹 기반 음성인식 장치 및 방법에 대한 것이다.

음성인식 기술에서 사용하는 가장 중요한 지식원인 언어모델은 특정 영역을 기반으로 작성되는 영역제한형의 모델과 한국어, 영어 등 대상 언어의 일반적인 어휘적 현상을 기반으로 작성되는 무제한 범용 언어모델의 두 가지가 있다. 한편, 음성인식 및 스마트미디어 기술의 진전에 따라 최근 범용 언어모델을 기반으로 하는 음성검색이 보편화되고 있기는 하지만 일반 대다수가 사용하는 모든 어휘적 특성을 포괄하여 언어모델을 구성하는 것은 여전히 기술적 제약이 있다.

이를 위해 종래에는 수집된 대규모 텍스트 코퍼스에 기반하여 범용 언어모델을 만들어 서비스를 우선 수행하고, 서비스 과정에서 일정기간 수집되는 소규모 텍스트 코퍼스를 당초 언어모델 구성에 사용한 대규모 코퍼스에 더하는 방식으로 점차 언어 모델의 규모를 확대하게 된다. 또는 하나의 범용 언어모델과 특정 영역을 대상으로 작성된 다수 개의 언어모델을 순차적으로 적용하거나 병렬로 적용하여 음성인식에 사용하기도 한다.

작성된 다수 개의 언어모델은 음성인식 과정에서 순차적으로 또는 병렬로 적용되기도 하는데, 순차적인 경우의 전형은 우선 1단계 탐색 시 범용 언어모델을 적용해서 1차 인식 결과를 구한 다음 이 인식 결과가 어느 영역에 가까운지를 판별하여 가장 적확한 영역의 언어모델을 선택하여 2단계 탐색을 수행하여 최종 인식 결과를 얻는 방법이다. 병렬 적용의 경우는 다수의 언어모델들을 동시에 다수의 탐색기를 동원하여 결과를 얻은 다음 이들을 후처리하여 최적의 인식 결과를 도출하는 방법이 있다.

상기의 방법들은 방법상 언어모델을 구성하는 전문가가 교사적으로(supervised) 단계마다 개입하여 언어모델을 구성해야 하며, 코퍼스가 존재하지 않거나 빈약한 영역을 별도로 언어모델화하는 데 많은 어려움이 있다는 점과, 확률적 언어 모델의 특성상 대규모 코퍼스에서 발생하는 어휘 및 어휘 패턴의 빈도와 소규모 코퍼스에서 발생하는 그것과 많은 차이가 있어서 인식 과정에서 실제 화자의 통계를 반영하도록 설계된 소규모 코퍼스를 추가하는 효과가 미미할 수가 있기 때문에 세밀한 최적화 노력이 필수적으로 수반되어야 하는 문제점이 있다.

본 발명은 상기한 종래의 문제점을 해결하기 위해 제안된 것으로, 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하도록 한 화자 그룹 기반 음성인식 장치 및 방법을 제공하는 것을 목적으로 한다. 즉, 본 발명은 불특정 다수가 사용하는 인터넷 공간에서 사용자가 음성 인식을 수행할 경우에 서버에 저장되는 누적된 인식 결과에 기반하여 사용자 및 사용자 그룹에 최적화된 음성인식용 지식베이스인 언어 모델을 학습하는 방법에 관한 것이다. 이는 특정 사용자에 의해 일정 기간 저장된 인식 결과들에 대해 유사한 어휘나 어휘 패턴을 사용하는 언어적 습관을 가진 사용자들의 그것과 그룹 지어 언어 모델을 구성하여 보다 향상된 인식 결과를 얻게 하는 것을 그 목적으로 한다.

본 발명의 다른 목적은 범용 음성 검색 등에 사용되는 언어모델의 구성 시 대규모 어휘 코퍼스에 기반해서 작성된 범용 언어모델에 대해 화자 경험에 기반하는 소규모 코퍼스 언어모델을 통합하여 모델링하는 비교사(unsupervised) 방식 언어모델 보간을 통해 음성인식의 성능을 향상시키는 화자 그룹 기반 음성인식 장치 및 방법을 제공함에 있다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치는, 범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부; 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부; 및 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부를 포함한다.

설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과를 화자 그룹별로 분류하는 화자 분류부를 더 포함한다.

화자 그룹별로 분류되어 저장된 복수의 화자별 최종 인식 결과를 근거로 화자 언어모델을 학습하는 언어모델 학습부를 더 포함한다.

복수의 화자 언어모델의 화자별 대표 키워드를 생성하는 화자 색인부를 더 포함한다.

복수의 범용 언어모델들, 복수의 화자 언어모델들, 복수의 화자별 최종 인식 결과들을 저장하는 음성인식 저장부; 및 복수의 화자 그룹으로 분할되어 화자별 최종 인식 결과를 화자 그룹별로 분류하여 저장하는 코퍼스 저장부를 더 포함한다.

상기한 목적을 달성하기 위하여 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법은, 제1디코더부에 의해, 범용 언어모델을 근거로 입력되는 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 단계; 언어모델 보간부에 의해, 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 단계; 및 제2디코더부에 의해, 생성된 보간 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 단계를 포함한다.

제2디코더부에 의해, 생성된 화자별 최종 인식 결과를 설정 기간 동안 누적하여 저장하는 단계를 더 포함한다.

화자 분류부에 의해, 설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과들을 화자 그룹별로 분류하여 저장하는 단계를 더 포함한다.

화자 그룹별로 저장된 복수의 화자별 최종 인식 결과들을 근거로 화자 언어모델을 학습하는 단계를 더 포함한다.

화자 색인부에 의해, 학습한 화자 언어모델에 화자별 대표 키워드를 매칭하여 저장하는 단계를 더 포함한다.

본 발명에 의하면, 화자 그룹 기반 음성인식 장치 및 방법은 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하고 이를 이용하여 음성인식을 수행함으로써, 음성인식 성능을 높일 수 있는 효과가 있다. 즉, 화자 그룹 기반 음성인식 장치 및 방법은 종래 음성인식을 위해 사용되는 가장 중요한 지식원의 하나인 언어모델에 대해 전문가가 개입되어 수행하던 언어모델의 누적 학습 과정에 대해, 특정 어휘 및 어휘 패턴을 공유하는 사용자 개인 및 사용자 그룹의 정보를 활용하여 비교사적인 학습을 자동화하고 동시에 음성인식 성능을 제고하는 효과가 있다.

도 1은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 설명하기 위한 블록도.
도 2는 도 1의 음성인식 저장부를 설명하기 위한 블록도.
도 3은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 설명하기 위한 흐름도.

이하, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자가 본 발명의 기술적 사상을 용이하게 실시할 수 있을 정도로 상세히 설명하기 위하여, 본 발명의 가장 바람직한 실시예를 첨부 도면을 참조하여 설명하기로 한다. 우선 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

먼저, 본 발명의 실시예를 설명하기에 앞서 본 발명의 특징을 요약하여 설명하면 아래와 같다.

즉, 음성인식 기술의 발전과 스마트폰 등의 보급에 따라 최근 모바일 환경에서 음성을 사용하여 인터넷상에서 검색을 수행하는 기술이 보편화되고 있다. 이때 음성인식 과정에서 사용되는 가장 중요한 지식원은 사람이 낸 소리 또는 음성으로부터 보편적인 특성을 추출해서 지식화한 음향모델과 어휘적인 보편적 특성을 추출해서 지식화한 언어모델이 된다.

한편, 언어모델은 음성인식의 대상이 되는 특정 언어를 대상으로 방대한 양의 텍스트 자원을 기반으로 학습을 거쳐 구축하는데, 실세계에서 획득 가능한 기사, 소설 등의 각종 서적, 연설문, 단문 메시지(SMS), 이메일, 보고서 등 전자적으로 활용 가능한 모든 텍스트 정보 또는 코퍼스를 수집하여 언어 모델을 구성하게 된다.

현재 일반적으로 사용되는 언어 모델의 근간은 인식의 기본 단위로서의 단어 집합을 대상으로 이들 간의 병치(collocation) 정보를 확률적으로 표현해서 사용하는 것이기 때문에 일반 대다수가 사용하는 용례를 많이 포함하면 할수록 음성인식의 성능이 높아질 수 있다. 반면 학습되지 않은 단어들의 조합이 많이 나타날수록 음성인식의 성능은 떨어지게 되는 데, 특히 실세계에서는 학습되지 않은 단어들 간의 도치 현상, 무한 생성되는 신조어, 화자들의 부정확한 발성 습관 등 많은 요인에 따라 관측되지 않은 단어들의 조합이 예측할 수 없을 정도로 많이 나타난다. 이때 일반적인 화자들은 구어적으로 구사하는 어휘의 개수나 패턴이 비교적 제약되어 있고 동일한 지식 영역, 사회 계층 또는 영역, 가족 및 지리적 구성원에 속하는 사람들 간에는 비교적 그 어휘나 어휘 패턴이 유사하게 나타나는 특성들을 보임이 잘 알려져 있다.

이러한 배경에서 본 발명에서는 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하여 음성인식의 성능을 높이고자 한다.

이하, 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 1은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 장치를 설명하기 위한 블록도이고, 도 2는 도 1의 음성인식 저장부를 설명하기 위한 블록도이다.

도 1에 도시된 바와 같이, 화자 그룹 기반 음성인식 장치(100)는 음성인식 저장부(110), 제1디코더부(120), 언어모델 보간부(130), 제2디코더부(140), 화자 분류부(150), 코퍼스 저장부(160), 언어모델 학습부(180), 화자 색인부(170)를 포함하여 구성된다.

음성인식 저장부(110)는 화자 음성입력에 대한 1차 음성인식에 사용되는 복수의 범용 언어모델들과, 언어모델 보간에 사용되는 복수의 화자 언어모델들, 및 화자 언어모델의 학습에 사용되는 복수의 화자별 최종 인식 결과들을 저장한다. 이를 위해, 도 2에 도시된 바와 같이, 음성인식 저장부(110)는 범용 언어모델 저장 모듈(112), 화자 색인 저장 모듈(114), 로그 텍스트 저장 모듈(116)을 포함하여 구성된다.

범용 언어모델 저장 모듈(112)은 제1디코더부(120)에서 화자 음성입력에 대한 1차 음성인식에 사용되는 복수의 범용 언어모델들을 저장한다.

화자 색인 저장 모듈(114)은 언어모델 보간부(130)에서 보간 언어모델의 생성을 위해 사용되는 복수의 화자 언어모델들을 저장한다. 이때, 화자 색인 저장 모듈(114)은 복수의 화자 언어모델들을 화자별 대표 키워드로 구별하여 저장한다.

로그 텍스트 저장 모듈(116)은 언어모델 학습부(180)에서 화자 언어모델의 학습에 사용되는 복수의 화자별 최종 인식 결과들을 저장한다. 이때, 로그 텍스트 저장 모듈(116)은 제2디코더부(140)에서 일정 기간(즉, 설정 기간) 동안 생성되는 화자별 최종 인식 결과를 로그 텍스트 저장 모듈(116)에 누적하여 저장하되, 복수의 화자별 최종 인식 결과들을 복수의 화자 그룹으로 분류하여 저장한다.

제1디코더부(120)는 음성인식 저장부(110)에 저장된 범용 언어모델을 이용하여 화자 음성입력에 대한 1차 음성인식을 수행한다. 즉, 제1디코더부(120)는 범용 언어모델 저장 모듈(112)에 저장된 복수의 범용 언어모델들 중에 적어도 하나의 범용 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성한다.

언어모델 보간부(130)는 제1디코더부(120)에서 생성된 1차 음성인식 결과와 음성인식 저장부(110)에 저장된 화자 언어모델을 이용하여 보간 언어모델을 생성한다. 즉, 언어모델 보간부(130)는 기생성된 1차 음성인식 결과를 근거로 화자 색인 저장 모듈(114)에 저장된 복수의 화자 언어모델들 중에서 적어도 하나의 화자 언어모델을 검출하여 보간 언어모델을 생성한다. 이때, 언어모델 보간부(130)는 화자 색인 저장 모듈(114)에 저장된 n개의 화자 언어모델 중 하나와 범용 언어모델에 대한 보간을 수행하여 보간 언어모델을 생성하게 되는데, 화자 개인식별이 가능할 경우 화자 색인 저장 모듈(114)에 해당하는 화자 언어모델을 검출한다. 언어모델 보간부(130)는 개인 식별이 불가능한 알려지지 않은 화자에 대해서는 화자 색인 저장 모듈(114)에 저장된 대표 키워드에 대한 정합(match)을 거쳐 최다 일치를 보이는 화자가 소속된 화자 언어모델을 검출한다.

제2디코더부(140)는 언어모델 보간부(130)에서 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 2차 음성인식을 수행한다. 즉, 제2디코더부(140)는 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 2차 음성인식 결과를 생성한다. 여기서, 2차 음성인식 결과는 화자별 최종 인식 결과이다.

제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성된 2차 음성인식 결과를 음성인식 저장부(110)에 저장한다. 즉, 제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성되는 화자별 최종 인식 결과를 로그 텍스트 저장 모듈(116)에 누적하여 저장한다.

화자 분류부(150)는 음성인식 저장부(110)에 저장된 화자별 최종 인식 결과를 화자 그룹별로 분류하여 코퍼스 저장부(160)에 저장한다. 즉, 화자 분류부(150)는 로그 텍스트 저장 모듈(116)에 누적되어 저장된 화자별 최종 인식 결과를 복수의 화자 그룹으로 분할된 코퍼스 저장부(160)에 분류하여 저장한다. 이때, 화자 분류부(150)는 화자가 소속되는 화자 그룹을 알 수 있도록 화자 그룹 및 화자 언어모델에 식별 번호를 참조할 수 있도록 저장된다. 여기서, 화자 분류부(150)는 화자별 최종 인식 결과에 포함된 개별 단어들에 대한 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어(function word)를 배제하고, 내용어(content word) 중에서 명사만을 추출하여 화자별 대표 키워드를 추출한다. 화자 분류부(150)는 추출한 화자별 대표 키워드를 사용하여 해당 화자별 최종 인식 결과가 소속될 화자 그룹을 설정한다.

코퍼스 저장부(160)는 복수의 화자 그룹으로 분할되어, 화자별 최종 인식 결과를 저장한다. 즉, 코퍼스 저장부(160)는 화자 분류부(150)에서 설정된 화자 그룹에 따라 화자별 최종 인식 결과를 화자 그룹별로 분류하여 저장한다.

언어모델 학습부(180)는 코퍼스 저장부(160)에 저장된 화자별 최종 인식 결과를 근거로 화자 언어모델을 학습하여 음성인식 저장부(110)에 저장한다. 즉, 언어모델 학습부(180)는 복수의 화자 그룹으로 분류되어 저장된 화자별 최종 인식 결과들에 대해 주기적으로 화자 언어모델로 학습하여 화자 색인 저장 모듈(114)에 분류하여 저장한다. 이때, 화자 색인 저장 모듈(114)에 분류되어 저장된 화자 언어모델은 언어모델 보간시 사용되며, 화자별 최종 인식 결과에 대한 학습 주기는 일별, 주별, 월별 등과 같이 임의로 설정할 수 있다.

화자 색인부(170)는 음성인식 저장부(110)에 저장되는 화자 언어모델의 화자별 대표 키워드를 생성한다. 이때, 화자 색인부(170)는 일반적인 자연어 치리 기법을 사용해 화자 언어모델의 화자별 대표 키워드를 생성한다. 즉, 화자 색인부(170)는 언어모델 학습부(180)에서 학습되는 화자 언어모델에 포함된 개별 단어의 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어를 배제하고, 내용어 중에서 명사만을 추출하여 화자별 대표 키워드의 형태로 형태소 리스트를 생성한다. 화자 색인부(170)는 생성한 형태소 리스트를 이용하여 생성된 화자 언어모델을 분류하여 음성인식 저장부(110; 즉, 화자 색인 저장 모듈(114))에 저장한다.

이하, 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 첨부된 도면을 참조하여 상세하게 설명하면 아래와 같다. 도 3은 본 발명의 실시예에 따른 화자 그룹 기반 음성인식 방법을 설명하기 위한 흐름도이다.

화자 음성입력이 입력되면(S100; 예), 제1디코더부(120)는 화상 음성입력에 대한 1차 음성인식을 수행하여 1차 음성인식 결과를 생성한다(S200). 이때, 제1디코더부(120)는 음성인식 저장부(110)에 저장된 복수의 범용 언어모델들 중에 적어도 하나의 범용 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성한다.

언어모델 보간부(130)는 제1디코더로부터의 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성한다(S300). 즉, 언어모델 보간부(130)는 기생성된 1차 음성인식 결과를 근거로 화자 색인 저장 모듈(114)에 저장된 복수의 화자 언어모델들 중에서 적어도 하나의 화자 언어모델을 검출하여 보간 언어모델을 생성한다. 이때, 언어모델 보간부(130)는 화자 색인 저장 모듈(114)에 저장된 n개의 화자 언어모델 중 하나와 범용 언어모델에 대한 보간을 수행하여 보간 언어모델을 생성하게 되는데, 화자 개인식별이 가능할 경우 화자 색인 저장 모듈(114)에 해당하는 화자 언어모델을 검출한다. 언어모델 보간부(130)는 개인 식별이 불가능한 알려지지 않은 화자에 대해서는 화자 색인 저장 모듈(114)에 저장된 대표 키워드에 대한 정합을 거쳐 최다 일치를 보이는 화자가 소속된 화자 언어모델을 검출한다.

제2디코더부(140)는 생성된 보간 언어모델을 이용하여 2차 음성인식을 수행하여 2차 음성인식 결과(즉, 화자별 최종 인식 결과)를 생성한다(S400). 즉, 제2디코더부(140)는 생성된 보간 언어모델을 이용하여 화자 음성입력에 대한 음성인식을 수행하여 2차 음성인식 결과인 화자별 최종 인식 결과를 생성한다. 이때, 제2디코더부(140)는 일정 기간(즉, 설정 기간) 동안 생성된 화자별 최종 인식 결과를 음성인식 저장부(110)에 누적하여 저장한다.

제2디코더부(140)는 생성된 화자별 최종 인식 결과를 누적하여 저장한다(S500). 즉, 제2디코더부(140)는 생성된 화자별 최종 인식 결과를 설정 기간 동안 음성인식 저장부(110)에 누적하여 저장한다.

설정 기간이 도래하면(S600; 예), 화자 분류부(150)는 누적 저장된 화자별 최종 인식 결과들을 화자 그룹별로 분류하여 저장한다(S700). 즉, 화자 분류부(150)는 음성인식 저장부(110)에 누적되어 저장된 화자별 최종 인식 결과를 복수의 화자 그룹으로 분할된 코퍼스 저장부(160)에 분류하여 저장한다. 이때, 화자 분류부(150)는 화자가 소속되는 화자 그룹을 알 수 있도록 화자 그룹 및 화자 언어모델에 식별 번호를 참조할 수 있도록 저장된다.

언어모델 학습부(180)는 화자 그룹별로 저장된 화자별 최종 인식 결과들을 근거로 화자 언어모델을 학습한다(S800). 즉, 언어모델 학습부(180)는 복수의 화자 그룹으로 분류되어 저장된 화자별 최종 인식 결과들에 대해 주기적으로 화자 언어모델로 학습한다.

화자 색인부(170)는 학습한 화자 언어모델에 화자별 대표 키워드를 매칭하여 저장한다(S900). 즉, 화자 색인부(170)는 일반적인 자연어 치리 기법을 사용해 화자 언어모델의 화자별 대표 키워드를 생성하고, 생성된 화자별 대표 키워드를 학습한 화자 언어모델과 매칭하여 저장한다. 이때, 화자 색인부(170)는 언어모델 학습부(180)에서 학습되는 화자 언어모델에 포함된 개별 단어의 형태소 해석을 수행하고, 형태소에 부착된 문법 태그를 참조하여 조사 등의 기능어를 배제하고, 내용어 중에서 명사만을 추출하여 화자별 대표 키워드의 형태로 형태소 리스트를 생성한다. 화자 색인부(170)는 생성한 형태소 리스트를 이용하여 생성된 화자 언어모델을 분류하여 음성인식 저장부(110; 즉, 화자 색인 저장 모듈(114))에 저장한다.

상술한 바와 같이, 화자 그룹 기반 음성인식 장치(100) 및 방법은 특정 관심사를 공유하는 화자 계층이나 그룹이 발성한 음성인식의 인식 결과를 대상으로 해당 화자 그룹을 자동으로 판별하여 화자 그룹 내에서 공통으로 나타나는 어휘적 현상을 기반으로 언어모델을 구성하고 이를 이용하여 음성인식을 수행함으로써, 음성인식 성능을 높일 수 있는 효과가 있다. 즉, 화자 그룹 기반 음성인식 장치(100) 및 방법은 종래 음성인식을 위해 사용되는 가장 중요한 지식원의 하나인 언어모델에 대해 전문가가 개입되어 수행하던 언어모델의 누적 학습 과정에 대해, 특정 어휘 및 어휘 패턴을 공유하는 사용자 개인 및 사용자 그룹의 정보를 활용하여 비교사적인 학습을 자동화하고 동시에 음성인식 성능을 제고하는 효과가 있다.

이상에서 본 발명에 따른 바람직한 실시예에 대해 설명하였으나, 다양한 형태로 변형이 가능하며, 본 기술분야에서 통상의 지식을 가진자라면 본 발명의 특허청구범위를 벗어남이 없이 다양한 변형예 및 수정예를 실시할 수 있을 것으로 이해된다.

100: 화자 그룹 기반 음성인식 장치 110: 음성인식 저장부
112: 범용 언어모델 저장 모듈 114: 화자 색인 저장 모듈
116: 로그 텍스트 저장 모듈 120: 제1디코더부
130: 언어모델 보간부 140: 제2디코더부
150: 화자 분류부 160: 코퍼스 저장부
170: 화자 색인부 180: 언어모델 학습부

Claims

범용 언어모델을 근거로 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 제1디코더부;
상기 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 언어모델 보간부;
상기 생성된 보간 언어모델을 근거로 상기 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 제2디코더부; 및
설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과를 화자 그룹별로 분류하는 화자 분류부를 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 장치.
삭제
청구항 1에 있어서,
화자 그룹별로 분류되어 저장된 복수의 화자별 최종 인식 결과를 근거로 화자 언어모델을 학습하는 언어모델 학습부를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 장치.
청구항 3에 있어서,
복수의 화자 언어모델의 화자별 대표 키워드를 생성하는 화자 색인부를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 장치.
청구항 3에 있어서,
복수의 범용 언어모델들, 복수의 화자 언어모델들, 복수의 화자별 최종 인식 결과들을 저장하는 음성인식 저장부; 및
복수의 화자 그룹으로 분할되어 화자별 최종 인식 결과를 화자 그룹별로 분류하여 저장하는 코퍼스 저장부를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 장치.
제1디코더부에 의해, 범용 언어모델을 근거로 입력되는 화자 음성입력에 대한 음성인식을 수행하여 1차 음성인식 결과를 생성하는 단계;
언어모델 보간부에 의해, 상기 생성된 1차 음성인식 결과 및 화자 언어모델을 이용하여 보간 언어모델을 생성하는 단계;
제2디코더부에 의해, 상기 생성된 보간 언어모델을 근거로 상기 화자 음성입력에 대한 음성인식을 수행하여 화자별 최종 인식 결과를 생성하는 단계; 및
상기 제2디코더부에 의해, 상기 생성된 화자별 최종 인식 결과를 설정 기간 동안 누적하여 저장하는 단계를 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 방법.
삭제
청구항 6에 있어서,
화자 분류부에 의해, 설정 기간 동안 누적되어 저장된 복수의 화자별 최종 인식 결과들을 화자 그룹별로 분류하여 저장하는 단계를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 방법.
청구항 8에 있어서,
화자 그룹별로 저장된 복수의 화자별 최종 인식 결과들을 근거로 화자 언어모델을 학습하는 단계를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 방법.
청구항 9에 있어서,
화자 색인부에 의해, 학습한 화자 언어모델에 화자별 대표 키워드를 매칭하여 저장하는 단계를 더 포함하는 것을 특징으로 하는 화자 그룹 기반 음성인식 방법.