KR20040008546A

KR20040008546A - 연속 음성인식 기기의 오인식 수정 방법

Info

Publication number: KR20040008546A
Application number: KR1020020042186A
Authority: KR
Inventors: 김훈
Original assignee: 엘지전자 주식회사
Priority date: 2002-07-18
Filing date: 2002-07-18
Publication date: 2004-01-31

Abstract

본 발명은 연속 음성인식을 이용한 기기에 관한 것으로 특히, 틀리게 인식된 음성 인식 결과를 쉽게 수정할 수 있도록 한 방법에 관한 것으로, 인식할 문장을 입력하는 단계와, 인식결과를 출력하는 단계와, 오인식된 단어를 선택하는 단계와, 상기 선택된 오인식단어를 수정할 후보단어(N-Best)를 디스플레이하는 단계와, 상기 디스플레이된 후보단어(N-Best)중에서 수정할 단어를 선택하는 단계와, 선택한 후보단어로 오인식단어를 수정하는 단계와, 수정된 결과에 따른 언어모델을 적용하여 후속 단어를 자동으로 수정하는 단계로 이루어지는 것을 특징으로 하며, 인식에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하므로써 오인식 단어에 대한 N-Best 결과를 선택할 수 있도록 하고 언어모델을 다시 적용함으로써 주변 결과들을 자동으로 수정하여 사용자의 오인식 수정에 필요한 시간과 노력을 줄여줌으로써 연속 음성 인식 기기의 사용상에 편리함을 주는 효과가 있는 것이다.

Description

연속 음성인식 기기의 오인식 수정 방법 { revision method of continuation voice recognition system }

본 발명은 연속 음성인식을 이용한 기기에 관한 것으로 특히, 틀리게 인식된 음성 인식 결과를 쉽게 수정할 수 있도록 한 방법에 관한 것이다.

일반적인 연속 음성 인식 기능은 워드프로세서(Dictation) 뿐만이 아니라 PDA등의 단말기, 전자 수첩, 기타 여러가지 정보 시스템의 문서 입력 기능으로 사용될 수 있다. 연속 음성 인식 알고리즘은 단어 인식 알고리즘 과는 달리 음성 신호의 음향학적 특성 뿐만 아니라 각 인식단위(단어, 형태소 음절등 : 앞으로는 '단어'라고 칭함)들이 어떤 결합확률을 갖는가에 대한 언어모델에 의해 음성 인식의 효율성을 높인다.

연속 음성 인식기는 음향학적 모델과 언어모델을 결합하여 가장 높은 확률을 갖는 단어들을 선택하여 출력하는데 이 결과에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하면 거의 대부분 원하는 결과가 N-Best에는 포함되어 있다.

음성인식의 경우 언어모델을 사용하므로 하나의 문장에 포함된 각각의 단어의 인식 결과는 주변 단어의 인식 결과에 영향을 미치게 된다. 즉 한 단어가 오인식 되면 주변 단어에 영향을 미쳐 음향학적 특성이 오인식 단어에 비해 정확하더라도 오인식이 될 확률이 높아지고 반대로 대상 단어의 주변 단어가 정확하게 인식 될 경우 대상 단어의 음향학적 특성이 다소 정확하지 않더라도 올바로 인식 될 수 있다. 음성 인식을 이용하여 문서를 작성하면서 오인식 된 단어가 발생하게 되면 사용자는 오인식 된 단어를 키보드나 키패드 등의 다른 입력수단을 이용하여 직접 타이핑해야 한다. 이렇게 오인식 결과를 수정할 경우 시간이 많이 소요되고 사용자가 불편을 느끼게 된다.

따라서 사용자가 오인식 결과를 직접 타이핑하여 수정하는 불편함을 줄여쉽게 오인식 결과를 수정하기 위해 N-Best후보를 선택하게 하고 이렇게 수정된 결과가 언어모델에 의해 주변단어까지 순차적으로 수정되도록 함으로써 사용자가 손쉽게 오인식 결과를 수정할 수 있는 것이다.

이러한 본말명의 목적을 이루기 위한 특징을 살펴보면 다음과 같다.

본 발명의 제 1 특징에 따르면 연속 음성 인식 기기는 음성 인식 모드과 오인식 수정 모드로 이루어지는 것을 특징으로 한다. 본 발명의 제 2 특징에 따르면, 제 1 특징의 음성 인식 모드에서는 음성 입력에 의해 문서를 작성하며 제 1 특징의 오인식 수정 모드에서는 작성된 문서의 오인식 단어를 선택하면 그 단어에 대한 N-best 결과를 보여주고 그 중에서 선택할 수 있도록 하는 것을 특징으로 한다.

본 발명의 제3특징에 따르면 수정모드의 N-Best 결과선택은 음성이나 키보드, 마우스, 키패드 등을 이용하는 것을 특징으로 하며, 본 발명의 제 4 특징에 따르면, 제 1 특징의 오인식 수정 모드는 음성 인식에서 사용하는 언어모델을 이용한다. 본 발명의 제 5 특징에 따르면, 제 1 특징의 오인식 수정 모드는 사용자가 음성 인식에 의해 입력된 문서를 수정해 나감에 따라 주변 단어의 인식 결과를 자동 수정해 주는 기능을 갖으며, 본 발명의 제 6 특징에 따르면, 제5 특징의 주변 단어 수정 기능은 수정된 단어에 의한 언어 모델을 재적용하여 주변단어 까지 수정함으로써 수정이 필요한 횟수를 줄이고 인식률을 향상시키는 것을 특징으로 한다.

본 발명의 다른 목적이나 특징은 이하 설명하는 바람직한 실시예에 의해서명백히 들어날 것이다.

도1은 일반적인 연속 음성인식 시스템의 구성도

도2는 본 발명의 오인식 수정과정을 나타낸 동작 플로우챠트

도3은 본 발명 실제 적용 사례를 설명한 도면임

********* 도면 주요 부분에 대한 부호의 설명 ********

10 : 특징 추출부 20 : 탐색부

30 : 후 처리부 40 : 음향모델 데이터베이스

50 : 발음사전 데이터베이스 60 : 언어모델 데이터베이스

이와같은 본 발명의 바람직한 실시예에 대하여 설명하면 다음과 같다.

도1은 일반적인 연속 음성인식 시스템의 구성 예시도로서 그 동작을 설명하면 다음과 같다. 입력된 음성은 특징 추출부(10)에서 인식에 필요한 정보만을 추출한 특징 벡터로 변환되고, 상기 특징 벡터로 부터 탐색부(20)에서 학습과정에서 미리 구해진 음향 모델 데이터베이스(40)와 발명 사전 데이터베이스(50), 언어 모델 데이터베이스(60)를 이용하여 가장 확률이 높은 단어열을 찾게 된다. 이때 대어휘 인식을 위하여 인식 대상 어휘들은 트리를 구성하고 있으며, 탐색부(20)에서 이러한 트리를 탐색하게 된다. 그 다음으로 후처리부 (30)에서는 탐색 결과로 부터 잡음 기호등을 제거하고, 음절단위로 모아쓰기를 하여 최종 인식 결과출력하는 것이다. 이러한 연속음성인식 시스템의 본 발명의 동작 이해를 돕기 위하여 설명한 것으로, 그 구성은 본 발명에서 그대로 적용될 수 있으며, 필요에 따라 어떠한 변경도 가능하다.

도2는 본 발명의 오식식 수정방법을 나타낸 것으로본 발명의 동작을 도2를 참조하여 보다 상세히 설명하면 다음과 같다.

먼저 사용자가 인식할 음성을 입력한다(S1). 그러면 도1과 같은 음성인식 시스템에서 음성을 인식하여 인식 결과를 출력하게된다(S2). 사용자는 출력된 음성인식 결과를 보고 오인식된 단어를 선택하게 된다(S3). 여기서 오인식된 단어를 선택하는 것은 PC의 경우 마우스를 해당 단어에 가져가던지, 키보드나 키패드 또는 음성으로 선택할 수 있으며 사용자의 어떠한 방법의 선택도 본 발명에서 동일하게 적용될 수 있다. 사용자가 오인식 단어를 선택하게 되면 음성인식 시스템에서 미리 저장되어진 N-Best 후보 단어를 사용자에게 보여주게 된다(S4). 시스템에서 N-Best 후보 단어를 사용자에게 보여주는 방법은 모니터에 디스플레이하거나, 음성을 통하여 N-Best 후보 단어를 사용자에게 들려줄 수 있다. 사용자는 음성인식 시스템이 사용자에게 보여주는 N-Best 후보 단어중에서 원하는 결과를 선택하도록 한다(S5). 이때 N-Best 후보 단어중에 원하는 단어가 없을 경우 사용자가 직접 입력하게 할 수도 있다. 음성인식 시스템은 사용자가 선택 또는 입력하는 N-Best 후보 단어로 오인식 결과를 수정하며(S6), 수정된 단어 이후의 결과들에 대해서는 수정 결과를 포함하여 언어모델을 다시 적용하여 오인식 부분이 자동으로 수정되도록 한다(S7)

도3은 본 발명이 적용된 실제 예를 보여주는 도면으로 "이와 같은 주문은 들어본 적이 없었다." 라는 인식할 문장을 입력하였을 경우(S11), 시스템에서 "이와 같은 트럭은 전혀 없었다" 라고 '들어본'과 '적이'를 '트럭은'과 '전혀'로 오식식한 결과를 보여주고 있다(S12). 사용자는 (S12)의 오인식 결과에서 '트럭은'이라는 오인식 단어를 선택하게 되고 시스템에서는 '트럭은'에 해당되는 N-Best 후보 단어를 사용자에게 출력하고, 사용자는 N-Best 후보 단어중에서 '들어본'을 선택하게 되는 것이다. 이때 원하는 후보 단어가 없을 경우 사용자가 직접 '들어본'을 입력할 수도 있다. 그러면 음성인식 시스템에서 '트럭은'을 '들어본'으로 수정하게 되고(S13), 그 뒷단에 있는 오인식 단어 '전혀'는 수정결과에 따른 언어모델을 적용하므로 '적이'로 자동으로 수정되게 되는 것이다(S14).

이와같이 하여 사용자는 원하는 인식결과를 얻을 수 있는 것이다.

이상에서와 같이 본 발명을 적용한 연속 음성인식 기기의 오인식 수정 방법은 연속 음성 인식 기기의 오인식 결과를 수정함에 있어서, 음향학적 모델과 언어모델을 결합하여 가장 높은 확률을 갖는 단어들을 선택하여 출력하는데 이 결과에 오류가 있더라고 두번째 세번째 등의 높은 확률을 갖는 N-Best 후보까지 고려하므로써 오인식 단어에 대한 N-Best 결과를 선택할 수 있도록 하고 언어모델을 다시 적용함으로써 주변 결과들을 자동으로 수정하여 사용자의 오인식 수정에 필요한 시간과 노력을 줄여줌으로써 연속 음성 인식 기기의 사용상에 편리함을 주는데 있다.

Claims

인식할 문장을 입력하는 단계와, 인식결과를 출력하는 단계와, 오인식된 단어를 선택하는 단계와, 상기 선택된 오인식단어를 수정할 후보단어(N-Best)를 디스플레이하는 단계와, 상기 디스플레이된 후보단어(N-Best)중에서 수정할 단어를 선택하는 단계와, 선택한 후보단어로 오인식단어를 수정하는 단계와, 수정된 결과에 따른 언어모델을 적용하여 후속 단어를 자동으로 수정하는 단계로 이루어지는 것을 특징으로 하는 연속 음성인식기기의 오인식 수정 방법.
제1항에 있어서, 상기 후보단어(N-Best)는 선택된 오인식 단어에 대하여 다음으로 높은 확율을 갖는 복수개의 단어들인것을 특징으로 하는 연속 음성인식기기의 오인식 수정 방법.