KR100677197B1

KR100677197B1 - 음성 인식 기술 방법

Info

Publication number: KR100677197B1
Application number: KR1020000003693A
Authority: KR
Inventors: 이윤근
Original assignee: 엘지전자 주식회사
Priority date: 2000-01-26
Filing date: 2000-01-26
Publication date: 2007-02-05
Also published as: KR20010076507A

Abstract

본 발명은 음성 인식 기술 방법에 관한 것으로, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 되는데, 이에 따라 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다. 따라서, 본 발명은 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어짐으로써 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.

Description

음성 인식 기술 방법{VOICE RECOGNIZING DICTATION METHOD}

도1은 종래의 일반적인 음성 인식 기술 장치의 개략적인 구성을 보인 블록도.

도2는 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도.

도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도.

본 발명은 음성 인식 기술(技術)에 관한 것으로, 특히 오인식 된 음성 인식 결과를 쉽게 수정할 수 있도록 하는 음성 인식 기술(記述) 방법에 관한 것이다.

최근, 음성 인식 기술(技術)이 발전하면서 음성 인식 기능을 채용한 다양한 기기들이 출시되고 있는데, 그 대표적인 방법의 예로 현재 국내에서 주로 사용되고 있는 고립 음성 인식 알고리즘과 국외 선진국에서 주로 사용하는 방법으로 연속 음성 인식 알고리즘이 있으며, 워드 프로세서의 음성 입력 방법으로 이미 상용화되어 있는 상황이다.

이와 같이, 음성 인식에 의한 문서 입력 기능은 워드 프로세서 뿐만 아니라 PDA 등의 단말기 및 전자수첩, 기타 여러 가지 정보 시스템에 다양하게 적용될 수 있는데 특히, 연속 음성 인식 알고리즘은 단어 인식 알고리즘과는 달리 음성 신호의 음향학적 특성 뿐만 아니라, 각 단어(또는 형태소 등 기타단위 : 이하 '단어'라고 칭함)의 결합 확률 모델(언어모델)에 의해 음성 인식의 효율성을 높일 수 있는 특징이 있다.

즉, 하나의 문장에 포함된 각 단어의 인식 결과가 주변 단어의 인식 결과에도 영향을 미치게 되는 것으로 만약, 한 단어가 오인식 되면 주변 단어가 오인식이 될 확률도 높아지고, 반대로 대상 단어의 주변 단어가 정확하게 인식될 경우 대상 단어의 음향학적 특성이 다소 정확하지 않더라도 올바로 인식될 수 있게 되는 것으로, 본 발명은 상기와 같은 특성을 이용한 것이다.

그런데, 종래의 음성 인식 기능이 적용된 워드 프로세서를 이용하여 문서를 작성할 경우 음성을 이용하여 입력한 문서에서 오인식 된 단어가 발생하게 될 경우 사용자는 그 오인식된 모든 단어를 다른 입력 수단(예를 들어, 키보드 또는 키패드 등)을 이용하여 하나하나 수정하게 된다.

이에 따라, 오인식된 단어가 많을 경우 사용자는 이를 수정하는데 오히려 입력 시간 보다 더 많은 시간을 소요하게 되는 문제점이 있었다.

따라서, 본 발명은 상기와 같은 종래의 문제점을 해결하기 위하여 창출한 것으로, 사용자가 음성 인식에 의해 입력된 문서를 수정해 나감에 따라 상기 수정된 단어에 의한 언어 모델을 연속된 단어에 재 적용하여 디코딩함으로써 자동 수정이 될 수 있도록 하는 음성 인식 기술 방법을 제공함에 그 목적이 있다.

이와 같은 목적을 달성하기 위한 본 발명은, 오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와; 상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와; 상기 수정된 언어 모델을 적용하여 상기 입력 문장(S)에서 상기 수정된 단어 이후의 문장부터 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때 까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 한다.

이하, 본 발명에 따른 일실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다.

일단, 도1은 종래의 일반적인 음성 인식 기술(記述) 장치의 개략적인 구성을 보인 블록도로서, 이에 도시한 바와 같이 화자의 음성을 입력받는 음성 입력부(1)와; 상기 음성 입력부(1)를 통해 입력받은 음성을 에이디 변환하는 에이디 변환부(2)와; 상기 에이디 변환된 음성 신호에서 특징 파라메터를 추출하여, 메모리(3)에 기 등록되어 있는 특징 파라메터를 참조하여 입력 단어를 인식하는 중앙처리부(4)와; 상기 인식된 단어를 모니터 또는 프린터를 통해 출력시키는 출력부(5)와; 사용자에 의해 오인식된 단어를 수정할 수 있도록 하는 키입력부(6)로 구성된다.

따라서, 종래에는 상기와 같이 구성된 음성 인식 기술 장치에서 오인식에 의한 잘못된 단어가 출력될 경우, 사용자에 의해 일일이 오인식 단어를 수정하였으나 본 발명에서는 오인식 단어 하나를 수정함에 의해 그 주변의 단어들이 연속적으로 재 인식되어 자동 수정될 수 있게 한 것으로 먼저, 음성 인식 기술 장치는 음성 인식 기술 모드와 오인식 단어 수정 모드로 이루어져 있으며, 그 중 도2에 도시한 바와 같이 본 발명에 의한 오인식 단어 수정 과정을 보인 순서도를 참조하여 보다 구체적으로 설명한다.

일단, 사용자는 오인식 수정모드를 설정하면 N개의 단어로 이루어진 입력 문장(S)에서 첫 번째 단어(W(k),k=1)부터 순차적으로 정확하게 입력되었는지를 검토하게 된다.

이에 따라, 첫 번째 단어(W(k),k=1)가 정확하게 입력되었을 경우는 다음 단어를 검사하고, 올바르게 입력되지 않았을 경우는 그 단어(W(k))를 수정 해 주게 된다.

상기와 같이 어느 한 단어(W(k))를 수정하게 되면 그에 따라 자동으로 상기 단어(W(k))가 포함된 문장(S)을 상기 단어(W(k))의 뒷 단어부터 다시 디코딩하여 문장을 수정하고, 상기 문장(S)에 포함된 모든 단어(W(N))가 검토되면 수정을 완료하게 된다.

즉, 도3은 본 발명에 의한 오인식 단어 수정예를 설명하기 위한 예시도로서, 이에 도시한 바와 같이 사용자가 "서울 지방의 내일 날씨입니다."라는 문장을 음성 인식 시켰을 경우 실제 음성 인식 기술 장치의 인식 결과가 "서울 지방의 라일락 씨입니다 ."로 되었다고 했을 때, 사용자가 " 라일락 "을 올바른 단어인 "내일"로 수정하게 되면 그 뒷부분의 단어는 디코딩 과정에 의해 자동으로 "날씨입니다."로 수정되는 것이다.

이때, 상기 입력문장(S)은 문장이 완료되지 않은 형태 또는 여러 문장의 경우도 가능하며, 검토되는 단어는 형태소 등의 단위가 가능하다.

이상에서 설명한 바와 같이 본 발명 음성 인식 기술 방법은 오인식 단어 수정에 의해 변화되는 언어모델을 디코딩에 적용함으로써, 수정 작업이 진행될수록 남아 있는 단어들이 자동으로 수정되어 오인식 결과가 초기 결과에 비해 줄어들게 되므로 수정 작업에 소요되는 노력과 시간을 절감시킬 수 있는 효과가 있다.

Claims

오인식 수정모드가 설정되고, 사용자에 의해 N개의 단어로 이루어진 입력 문장(S)에서 임의 번째의 단어(W(k))가 수정되었는지를 판단하는 제1단계와;

상기 수정된 단어에 근거해서 언어 모델을 수정하는 제2단계와;

상기 수정된 언어 모델을 적용하여 다시 디코딩하는 과정을 오인식 수정모드가 종료될 때까지 반복 수행하는 제3단계를 포함하여 이루어진 것을 특징으로 하는 음성 인식 기술 방법.
제1항에 있어서, 상기 디코딩 과정은 수정된 단어(W(k)의 다음 단어(W(k+1))부터 수행되는 것을 특징으로 하는 음성 인식 기술 방법.
제1항에 있어서, 상기 입력 문장은 완료되지 않은 형태 및 여러 문장이 포함된 형태를 모두 포함하는 것을 특징으로 하는 음성 인식 기술 방법.
제1항 또는 제2항에 있어서, 상기 디코딩에 의해 수정되는 단위는 단어 및 형태소 등의 기타 단위로 가변할 수 있는 것을 특징으로 하는 음성 인식 기술 방법.