WO2015102127A1

WO2015102127A1 - 음성 인식 시스템 및 방법

Info

Publication number: WO2015102127A1
Application number: PCT/KR2013/012415
Authority: WO
Inventors: 윤환식; 정규준; 이청안; 이수영; 김호경; 김유진
Original assignee: 엘지전자 주식회사; 한국과학기술원
Priority date: 2013-12-31
Filing date: 2013-12-31
Publication date: 2015-07-09

Abstract

음성 인식 시스템 및 방법이 개시된다. 음성 인식 시스템은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부, 상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부, 및 상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함할 수 있다.

Description

음성 인식 시스템 및 방법

본 발명은 음성 인식에 관한 것으로서, 더욱 상세하게는 음성 인식 성능을 점진적으로 향상시키는 음성 인식 시스템 및 방법에 관한 것이다.

음성 인식 기술은 프로세서의 고속화, 메모리 양의 증가, 병렬처리 기법, 음성언어 자원의 증가 등으로 인해 인식 성능이 지속적으로 향상되고 있다. 또, 음성 인식 시스템은 서버급 컴퓨터로부터 소형 휴대 단말기 또는 가전기기 등과 같이 다양한 하드웨어 플랫폼 상에 탑재가 되고 있다.

음성 인식이란 컴퓨터가 키보드나 마우스 등의 기계적인 조작이 아닌 인간의 음성을 듣고 실행을 하는 기술이다.

음성 인식은 흔히 가장 직관적인 사용자 인터페이스로 불린다. 생각을 표현함에 있어서 손이나 몸을 사용하는 것보다 목소리를 사용하는 것이 가장 자연스럽도록 진화된 인간의 신체적 특성에 기인함이다. 키보드나 마우스 등 기존의 많은 인터페이스들이 생각을 직접적으로 표현하기 이전에 문서용 언어로 혹은 미리 정의된 컴퓨터가 알 수 있는 명령으로 변환하는 과정을 거쳐야 하고 그것은 추가적인 사고과정과 더불어 기계에 익숙해지기 위한 추가적인 노력 또한 필요로 한다.

음성 인식 기술은 이러한 추가적인 노력을 최소로 줄이고 인간에게 보다 본질적이고 창의적인 사고에 집중할 수 있는 길을 열어 준다.

본 발명의 목적은 사용자의 음성 입력을 사용하여 음향 모델을 다시 학습함으로써, 음성 인식 성능을 점진적으로 향상시키는 음성 인식 시스템 및 방법을 제공함에 있다.

상기와 같은 목적을 달성하기 위한 본 발명에 따른 음성 인식 시스템은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부, 상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부, 및 상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함하는 것을 일 실시예로 한다.

상기 레이블링부는 상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 일 실시예로 한다.

상기 제1 데이터 선택부는 상기 레이블링부에서 선택되어 출력되는 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 일 실시예로 한다.

상기 시드 데이터를 저장하는 저장부를 더 구비하며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습부에서 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 일 실시예로 한다.

상기 제2 데이터 선택부는 상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 일 실시예로 한다.

상기 제1 데이터 선택부에서 선택되는 사용자 음성 데이터의 개수와 상기 제2 데이터 선택부에서 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 일 실시예로 한다.

본 발명에 따른 음성 인식 방법은 입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 출력하는 단계, 상기 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하는 단계, 상기 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택하는 단계, 이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하는 단계, 및 상기 2차로 선택된 사용자 음성 데이터와 상기 선택된 시드 데이터를 이용하여 음향 모델을 학습하는 단계를 포함하는 것을 일 실시예로 한다.

상기 1차 선택 단계는 상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 일 실시예로 한다.

상기 2차 선택 단계는 상기 1차로 선택된 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 일 실시예로 한다.

상기 2차 선택 단계는 상기 2차로 선택되는 사용자 음성 데이터에 대해 가중치 팩터를 적용하여 출력하는 단계를 더 포함하는 것을 일 실시예로 한다.

상기 시드 데이터는 저장부에 저장되며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 일 실시예로 한다.

상기 시드 데이터 선택 단계는 상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 일 실시예로 한다.

상기 2차로 선택되는 사용자 음성 데이터의 개수와 상기 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 일 실시예로 한다.

본 발명은 음향 모델 학습에 이용하였던 기존 데이터(Seed data)와 사용자의 음성 데이터를 모두 이용하여 음향 모델을 다시 학습함으로써, 음성 인식 성능을 점진적으로 향상시키는 효과가 있다.

특히 본 발명은 일정량의 사용자 음성 데이터가 모이면 자동적으로 음향 모델을 다시 학습하도록 함으로써, 음성 인식 성능을 점진적으로 향상시키는 효과와 함께 음향 모델을 학습하는 시간을 단축시킬 수 있다. 또한 사용자 음성 데이터 중 일부와 음향 모델 학습에 이용하였던 기존 데이터 중 일부를 선택하여 음향 모델 학습에 이용함으로써, 총 데이터 양을 유지하여 매번 학습 시 필요한 시간을 일정하게 유지할 수 있다.

도 1은 본 발명에 따른 음성 인식 장치의 일 실시예를 보인 구성 블록도

도 2는 본 발명에 따른 음성 인식 방법의 일 실시예를 보인 흐름도

이하 상기의 목적을 구체적으로 실현할 수 있는 본 발명의 바람직한 실시예를 첨부한 도면을 참조하여 상세히 설명한다. 이때 도면에 도시되고 또 이것에 의해서 설명되는 본 발명의 구성과 작용은 적어도 하나의 실시예로서 설명되는 것이며, 이것에 의해서 본 발명의 기술적 사상과 그 핵심 구성 및 작용이 제한되지는 않는다.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어를 선택하였으나, 이는 당분야에 종사하는 기술자의 의도 또는 관례 또는 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 함을 밝혀두고자 한다.

또한 본 명세서에 개시되어 있는 본 발명의 개념에 따른 실시 예들에 대해서 특정한 구조적 내지 기능적 설명들은 단지 본 발명의 개념에 따른 실시 예를 설명하기 위한 목적으로 예시된 것으로, 본 발명의 개념에 따른 실시 예들은 다양한 형태로 실시될 수 있으며 본 명세서에 설명된 실시 예들에 한정되는 것으로 해석되어서는 아니된다.

본 발명의 개념에 따른 실시 예는 다양한 변경을 가할 수 있고 여러 가지 형태를 가질 수 있으므로 특정 실시예들을 도면에 예시하고 본 명세서에 상세하게 설명하고자 한다. 그러나, 이는 본 발명의 개념에 따른 실시 예를 특정한 개시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

그리고 본 발명에서 제1 및/또는 제2 등의 용어는 다양한 구성 요소들을 설명하는데 사용될 수 있지만, 상기 구성 요소들은 상기 용어들에 의해 한정되어서는 안된다. 상기 용어들은 하나의 구성 요소를 다른 구성 요소로부터 구별하는 목적으로만, 예컨대 본 발명의 개념에 따른 권리 범위로부터 이탈되지 않은 채, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

또한 명세서 전체에서, 어떤 부분이 어떤 구성 요소를 “포함”한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성 요소를 제외하는 것이 아니라 다른 구성 요소를 더 포함할 수 있는 것을 의미한다. 그리고 명세서에 기재된 “…부” 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

일반적인 음성 인식 시스템에서는 음향 모델 학습에 사용된 음성 데이터의 녹음 환경과 실제 사용 환경이 달라 인식 성능 저하가 발생한다. 본 발명은 이를 개선하기 위해 사용자의 음성 데이터를 음향 모델 학습에 사용하는 것을 일 실시예로 한다. 하지만 사용자 음성 데이터는 시간이 지남에 따라 계속 추가되어 그 양이 방대해지기 때문에 본 발명은 일정량의 사용자 음성 데이터가 모이면 자동적으로 음향 모델을 다시 학습하는 것을 일 실시예로 한다. 이때 데이터를 많이 모을수록 성능은 좋아지지만 음향 모델을 학습하는데 시간이 많이 걸린다. 본 발명은 또한 이를 개선하기 위해 사용자의 음성 데이터에서 일부를 선정하고 기존 음향 모델 학습에 사용했던 시드 데이터(Seed data)에서 일부를 선정하여 음향 모델 학습에 사용하는 것을 일 실시예로 한다. 따라서 본 발명은 데이터 선별을 통해 총 데이터 양을 유지함으로써, 매번 음향 모델 학습 시 필요한 시간을 일정하게 유지할 수 있게 된다.

도 1은 본 발명에 따른 음성 인식 시스템의 일 실시예를 보인 구성 블록도로서, 자동 레이블링부(Labeling unit)(100), 제1 데이터 선택부(110), 저장부(120), 제2 데이터 선택부(130), 데이터 출력부(140), 및 음향 모델 학습부(150)를 포함하는 것을 일 실시예로 한다.

상기 자동 레이블링부(100)는 사용자 음성 데이터를 인식하고 인식된 사용자 음성 데이터에 레이블링 작업을 수행하는 음성 인식부(101), 상기 음성 인식부(101)에서 인식된 사용자 음성 데이터의 신뢰도(confidence measure)를 계산하는 신뢰도 측정부(102), 및 상기 신뢰도 측정부(102)의 계산 결과를 기반으로 신뢰도가 높은 사용자 음성 데이터를 선택하여 출력하는 선택부(103)를 포함하는 것을 일 실시예로 한다.

이와 같이 구성된 본 발명에서 상기 자동 레이블링부(100)는 사용자 음성 데이터에 대해 자동적으로 레이블링을 수행한다. 즉, 본 발명은 사람에 의한 레이블링이 아닌 자동 레이블링부(100)를 이용하여 기계적으로 레이블링을 수행한다. 다시 말해, 음향 모델 학습을 위해 사용자가 발성한 음성 데이터에 대한 텍스트 데이터가 필요하기 때문에 레이블링 작업이 필요하며, 본 발명은 점진 학습을 자동적으로 수행하기 위해서 음성 인식 결과를 사용하여 레이블링을 수행한다.

이를 위해 상기 자동 레이블링부(100)의 음성 인식부(101)는 사용자가 발성하는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대한 레이블링 작업을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 신뢰도 측정부(102)로 출력한다.

상기 신뢰도 측정부(102)는 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하여 데이터 선택부(103)로 출력하고, 상기 데이터 선택부(103)는 신뢰도가 높은 사용자 음성 데이터만을 선택한 후 음향 모델 학습을 위해 제1 데이터 선택부(110)로 출력한다.

예를 들어, 사용자가 “학교에 간다”라고 발성했을 때 음성 인식부(101)의 후보에 “학교에 간다”가 있으면 사용자가 발성한 음성 데이터에 “학교에 간다”라는 라벨이 붙는다. 그런데 상기 음성 인식부(101)의 후보에 “학교에 간다”가 없고 “전화해”가 있으면, 사용자는 “학교에 간다”라고 발성했어도 라벨은 “전화해”가 붙을 수 있다. 이것은 사용자 음성 데이터에 대한 레이블링 작업이 잘못 수행된 예이며, 이러한 사용자 음성 데이터가 음향 모델 학습에 이용되면 결국 인식 성능 저하가 발생하게 된다. 따라서 본 발명에서는 이를 해결하기 위해 신뢰도 측정부(102)와 선택부(103)가 추가되어 신뢰도가 높은 데이터를 선택하여 출력하는 과정이 추가로 수행된다. 즉, 상기 신뢰도 측정부(102)와 선택부(103)는 음성 인식부(101)에서 출력되는 라벨이 있는 사용자 음성 데이터 중 실제 사용자가 발성한 사용자 음성 데이터와 일치할 확률이 높은 사용자 음성 데이터만을 선택하여 출력하게 된다. 다시 말해, 상기 신뢰도 측정부(102)와 선택부(103)는 레이블링 작업이 제대로 수행된 사용자 음성 데이터만을 선별하여 출력하는 과정을 수행하게 된다.

상기 제1 데이터 선택부(110)는 자동 레이블링부(100)에서 출력되는 사용자 음성 데이터 중 일부를 음향 모델 학습에 이용하기 위해 선택하여 데이터 출력부(140)로 출력한다. 또한 상기 제2 데이터 선택부(130)는 상기 저장부(120)에 저장된 시드 데이터(seed data) 중 일부를 음향 모델 학습에 이용하기 위해 선택하여 상기 데이터 출력부(140)로 출력한다. 이때 상기 제1 데이터 선택부(110)와 제2 데이터 선택부(130)에서 선택하는 데이터 양을 일정하게 유지시킴으로써, 매번 음향 모델 학습시 필요한 시간을 일정하게 유지할 수 있게 된다.

일 예로, 상기 제1 데이터 선택부(110)는 음향 모델 성능 개선에 도움이 될거라고 예측되는 사용자 음성 데이터를 선택하여 음향 모델 학습에 반영한다.

이때, 제1 데이터 선택부(110)로 입력되는 사용자 음성 데이터는 발성(utterance) 단위로 되어있다고 가정한다. 그리고 발성 단위로 사용자 음성 데이터를 선택한다고 가정할 때 상기 제1 데이터 선택부(110)는 각 발성에 대해 다음의 수학식 1과 같이 신뢰도(confidence measure) 계산을 수행하여 음향 모델 학습부(150)로 출력할 데이터를 결정하게 된다.

수학식 1

상기 수학식 1에서 각 발성은 음소 단위로 세그먼트되어 있다고 가정할 때, f_k ^u 는 u번째 발성의 k번째 음소에 대한 특징 벡터(feature vector, 여기서 특징 벡터는 음성 데이터를 인식 및 학습에 적합하도록 변환한 값), θ_l은 l번째 클래스에 대한 음향 모델 파라미터를 의미한다. 따라서 h1^k 는 k번째 음소에 가장 적합한 클래스에 대한 확률 값이고, h2^k 는 k번째 음소에 두 번째로 적합한 클래스에 대한 확률 값이다. 결국 두 값의 차이인 J_k ^u가 작을수록 k번째 음소가 어느 클래스에 속하는지 구분하기 어려우며 인식 오류가 발생할 확률이 높다는 의미가 된다.

상기 수학식 1을 적용하여 한 발성에 속한 각 음소의 Jcs^u 값에 대한 절대값의 합계를 구해 그 발성을 선택할지 결정하게 된다.

즉, Jcs^u 값이 작은 데이터가 인식 오류가 발생할 확률이 높은 데이터이고, 이 데이터를 음향 모델 학습에 반영할 경우 기존 음향 모델의 취약한 부분을 개선시킬 수 있게 된다.

상기 수학식 1은 상기 제1 데이터 선택부(110)로 입력되는 사용자 음성 데이터에 라벨이 없다고 가정하고, 라벨이 있는 데이터와 라벨이 없는 데이터로 나누어 신뢰도 계산을 하고 있다.

이때 본 발명은 자동 레이블링부(100)에서 사용자 음성 데이터에 대해 레이블링 작업을 수행하였기 때문에 상기 제1 데이터 선택부(110)로 출력되는 데이터는 라벨 정보가 있는 데이터이다. 그러므로, 상기 제1 데이터 선택부(110)는 데이터를 선택할 때 하기 수학식 2와 같이 라벨 정보를 이용할 수 있다.

수학식 2

상기 수학식 2에서 e1^k는 k번째 음소에 가장 적합한 클래스에 대한 확률 값이고, e2^k 는 k번째 음소에 두 번째로 적합한 클래스에 대한 확률 값이다. 그리고 라벨(Label) 정보에 의해 k번째 음소가 어떤 클래스에 속하는지 이미 알고 있으므로 e1^k 을 구하는 방식이 상기 수학식 1과 다르며, 나머지 수식은 수학식 1과 동일하다.

상기 제2 데이터 선택부(130)는 상기 저장부(120)에 저장된 시드 데이터 중 일부를 선택하여 음향 모델 학습부(150)로 출력한다. 즉, 기존에 음향 모델의 학습에 사용되었던 시드 데이터를 모두 사용할 경우 데이터가 점점 늘어나기 때문에 본 발명은 일정한 수의 데이터를 선택하여 다음 음향 모델 학습에 사용한다. 다시 말해, 기존의 음향 모델 학습에 사용되었던 데이터는 레이블링 및 신뢰도 계산이 수행된 데이터이므로 많이 모을수록 음향 모델 성능을 더욱 높일 수 있지만 데이터가 많아질수록 음향 모델을 학습하는데 시간이 많이 걸린다. 그러므로, 제2 데이터 선택부(130)에서도 상기 저장부(120)에 저장된 데이터 중 일부를 선택하여 출력하는 과정을 수행한다.

상기 제2 데이터 선택부(130)에서도 수학식 1을 적용하여 데이터를 선택할 수 있다. 또한 상기 저장부(120)에 저장된 데이터는 이미 음향 모델 학습에 사용했던 데이터이므로, 각 데이터에 라벨 정보가 있다.

따라서 상기 제2 데이터 선택부(130)에서도 상기 수학식 2를 적용하여 데이터를 선택할 수 있다.

본 발명은 음향 모델 학습에 이용될 총 데이터 량을 일정하게 유지하기 위하여 상기 제1 데이터 선택부(110)에서 N개의 사용자 음성 데이터를 선택하였다면, 상기 제2 데이터 선택부(130)에서는 T-N개의 시드 데이터를 선택하는 것을 일 실시예로 한다. 여기서 T는 상기 저장부(120)에 저장된 시드 데이터의 개수이다.

이때 상기 제1 데이터 선택부(110)에서 선택되는 데이터는 기존 데이터의 양에 비해 상대적으로 작아 음향 모델 학습에 영향을 주기 어려울 수 있다. 이를 해결하기 위해 상기 제1 데이터 선택부(110)는 가중치 팩터(weighting factor)를 적용하여 제1 데이터 선택부(110)에서 출력되는 사용자 음성 데이터의 특성이 음향 모델에 잘 반영될 수 있도록 하는 것을 일 실시예로 한다. 이때 처음에는 가중치 팩터(weighting factor) 값을 크게 하고 반복(iteration)이 증가할수록 기존 데이터와 같은 영향력을 갖도록 가중치 팩터를 줄이는 것을 일 실시예로 한다.

상기 제1 데이터 선택부(110)에서 선택된 사용자 음성 데이터와 상기 제2 데이터 선택부(130)에서 선택된 시드 데이터는 데이터 출력부(140)에서 합성되어 음향 모델 학습부(150)와 저장부(120)로 출력된다. 상기 저장부(120)는 데이터 출력부(140)에서 출력되는 데이터로 기 저장된 시드 데이터를 업데이트한다.

상기 음향 모델 학습부(150)는 상기 데이터 출력부(140)에서 출력되는 데이터를 이용하여 음향 모델 학습을 수행한다. 이때 상기 음향 모델 학습부(150)는 상기 저장부(120)에 저장된 시드 데이터를 이용하여 초기 음향 모델을 학습한다. 초기 음향 모델을 학습한 이후에는 음향 모델이 수렴할 때까지 사용자 음성 데이터의 일부와 시드 데이터의 일부를 선택하여 음향 모델을 학습하고, 음향 모델 학습에 이용된 데이터로 시드 데이터를 업데이트하는 과정을 반복한다.

상기 음향 모델 학습부(150)는 dHMM(Discrete Hidden Markov Model) 알고리즘을 적용하여 음향 모델 학습을 수행하는 것을 일 실시예로 한다. 여기서 dHMM는 각 음소의 확률 분포를 이산적인 값으로 모델링한다. 상기 dHMM 알고리즘 대신 HMM 알고리즘이 사용될 수도 있다. 상기 HMM은 통계적 패턴 인식을 기반으로 하며 단어 단위 검색과 문장 단위 검색 과정이 하나의 최적화 과정으로 통합된 방식이다. 상기 dHMM 알고리즘과 HMM 알고리즘은 본 발명의 이해를 돕기 위한 실시예들이며, 음향 모델을 학습하기 위한 알고리즘은 어느 것이나 사용될 수 있다. 그리고 상기 음향 모델 학습부(150)에서 사용하는 알고리즘에 따라 자동 레이블링부(100), 제1 데이터 선택부(110), 및 제2 데이터 선택부(130)에서 신뢰도를 계산하는 방법이 달라질 수 있다.

도 2는 본 발명에 따른 음성 인식 방법의 일 실시예를 보인 흐름도이다. 즉, 사용자가 발성하는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 레이블링 작업을 수행한다(S201). 그리고 상기 레이블링 작업에 의해 라벨이 있는 사용자 음성 데이터의 신뢰도를 계산하고, 이 중 신뢰도가 높은 사용자 음성 데이터를 1차로 선택한다(S202). 상기 신뢰도는 수학식 1 및/또는 수학식 2를 적용하여 계산할 수 있다.

상기 단계 S202에서 1차로 선택된 사용자 음성 데이터에 대해 다시 신뢰도를 계산하고, 계산된 신뢰도를 이용하여 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택한다(S203).

또한 저장부(120)에 저장된 시드 데이터에 대해 신뢰도를 계산하고, 계산된 신뢰도를 이용하여 일부 시드 데이터를 선택한다(S205).

상기 단계 S203에서 선택된 사용자 음성 데이터와 상기 단계 S205에서 선택된 시드 데이터를 이용하여 음향 모델 학습을 수행한다(S206). 이때 상기 음향 모델 학습에 이용된 데이터는 단계 S204로 진행하여 상기 저장부(120)에 저장된 시드 데이터를 업데이트한다.

상기 단계들은 음향 모델이 수렴할 때까지 반복되며, 음향 모델이 수렴되면 음향 모델 학습 과정이 종료되는 것을 일 실시예로 한다. 이때 상기 음향 모델 학습 과정에서 음향 모델이 수렴하지 않는 경우는 학습 과정에서의 예외 사항이므로, 이 과정은 생략될 수도 있다.

지금까지 설명한 본 발명은 상술한 실시예에 한정되지 않으며, 첨부된 청구범위에서 알 수 있는 바와 같이 본 발명이 속한 분야의 통상의 지식을 가지 자에 의해 변형이 가능하고 이러한 변형은 본 발명의 범위에 속한다.

전술한 바와 같이, 상기 발명의 실시를 위한 최선의 형태에서, 관련된 사항을 기술하였다.

전술한 바와 같이, 본 발명은 음성 인식 기술을 적용하는 장치 및 단말기에 모두 적용될 수 있다.　

Claims

입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행한 후 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하여 출력하는 레이블링부;

상기 레이블링부에서 1차로 선택되어 출력되는 사용자 음성 데이터 중 일부를 2차로 선택하여 출력하는 제1 데이터 선택부;

이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하여 출력하는 제2 데이터 선택부; 및

상기 제1 데이터 선택부에서 2차로 선택되어 출력되는 사용자 음성 데이터와 상기 제2 데이터 선택부에서 선택되어 출력되는 시드 데이터를 이용하여 음향 모델을 학습하는 음향 모델 학습부를 포함하는 것을 특징으로 하는 음성 인식 시스템.
제 1 항에 있어서, 상기 레이블링부는

상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 특징으로 하는 음성 인식 시스템.
제 2 항에 있어서, 상기 제1 데이터 선택부는

상기 레이블링부에서 선택되어 출력되는 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 특징으로 하는 음성 인식 시스템.
제 3 항에 있어서,

상기 시드 데이터를 저장하는 저장부를 더 구비하며,

상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습부에서 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 특징으로 하는 음성 인식 시스템.
제 4 항에 있어서, 상기 제2 데이터 선택부는

상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 특징으로 하는 음성 인식 시스템.
제 5 항에 있어서,

상기 제1 데이터 선택부에서 선택되는 사용자 음성 데이터의 개수와 상기 제2 데이터 선택부에서 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 특징으로 하는 음성 인식 시스템.
입력되는 사용자 음성 데이터를 인식하고, 인식된 사용자 음성 데이터에 대해 자동 레이블링을 수행하여 라벨 정보가 있는 사용자 음성 데이터를 출력하는 단계;

상기 라벨 정보가 있는 사용자 음성 데이터 중 일부를 1차로 선택하는 단계;

상기 1차로 선택된 사용자 음성 데이터 중 일부를 2차로 선택하는 단계;

이전에 음향 모델 학습에 이용되었던 시드 데이터의 일부를 선택하는 단계; 및

상기 2차로 선택된 사용자 음성 데이터와 상기 선택된 시드 데이터를 이용하여 음향 모델을 학습하는 단계를 포함하는 것을 특징으로 하는 음성 인식 방법.
제 7 항에 있어서, 상기 1차 선택 단계는

상기 라벨 정보가 있는 사용자 음성 데이터의 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 상기 라벨 정보가 있는 사용자 음성 데이터의 일부를 1차로 선택하는 것을 특징으로 하는 음성 인식 방법.
제 8 항에 있어서, 상기 2차 선택 단계는

상기 1차로 선택된 사용자 음성 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 N (여기서 N은 1보다 큼)개의 사용자 음성 데이터를 2차로 선택하는 것을 특징으로 하는 음성 인식 방법.
제 9 항에 있어서, 상기 2차 선택 단계는

상기 2차로 선택되는 사용자 음성 데이터에 대해 가중치 팩터를 적용하여 출력하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 방법.
제 9 항에 있어서,

상기 시드 데이터는 저장부에 저장되며, 상기 저장부에 저장된 시드 데이터는 상기 음향 모델 학습에 사용된 데이터로 업데이트되는 것을 특징으로 하는 음성 인식 방법.
제 11 항에 있어서, 상기 시드 데이터 선택 단계는

상기 저장부에 저장된 시드 데이터의 라벨 정보를 이용하여 신뢰도를 계산하고, 계산된 신뢰도를 기반으로 M(여기서 M은 1보다 큼)개의 시드 데이터를 선택하는 것을 특징으로 하는 음성 인식 방법.
제 12 항에 있어서,

상기 2차로 선택되는 사용자 음성 데이터의 개수와 상기 선택되는 시드 데이터의 개수의 합은 상기 저장부에 저장된 시드 데이터의 개수와 같은 것을 특징으로 하는 음성 인식 방법.