KR100677224B1

KR100677224B1 - 안티워드 모델을 이용한 음성인식 방법

Info

Publication number: KR100677224B1
Application number: KR1020040114336A
Authority: KR
Inventors: 양태영; 김준석; 표현아
Original assignee: 엘지전자 주식회사
Priority date: 2004-12-28
Filing date: 2004-12-28
Publication date: 2007-02-02
Also published as: KR20060075533A

Abstract

본 발명은 안티워드 모델(anti-word model)을 이용하여 음성을 인식하는 기술에 관한 것이다. 이러한 본 발명은, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와, 상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와, 상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계에 의해 달성된다.

Description

안티워드 모델을 이용한 음성인식 방법{SPEECH RECOGNITION METHOD USING ANTI-WORD MODEL}

도 1은 본 발명에 의한 안티워드 모델을 이용한 음성인식 방법의 처리과정을 나타낸 신호 흐름도.

본 발명은 안티워드 모델(anti-word model)을 이용하여 음성을 인식하는 기술에 관한 것으로, 특히 안티워드 모델을 이용하여 리젝션(rejection) 기법의 성능을 향상시킬 수 있도록 한 안티워드 모델을 이용한 음성인식 방법에 관한 것이다.

음성인식이란 자동적 수단에 의하여 음성으로부터 언어적 의미 내용을 식별하는 것을 의미하는 것으로, 구체적으로 음성 파형을 입력하여 단어나 단어열을 식별하고 의미를 추출하는 처리 과정을 의미하고, 이는 크게 음성 분석, 음소 인식, 단어 인식, 문장 해석, 의미 추출의 5가지로 분류된다. 좁은 의미로는 음성 분석에서 단어 인식까지를 말하는 경우가 많다. 인간-기계 인터페이스 개선의 하나로 음성으로 정보를 입력하는 음성 인식과 음성으로 정보를 출력하는 음성 합성 기술의 연구 개발이 오랫동안 진행되어 왔다. 최근 들어, 음성인식 기술은 휴대폰 등의 IT 기술에 적용되어 사용자의 편리성을 증가시키는데 일익을 담당하고 있다.

종래 기술에 의한 음성인식 방식은 사용자의 입력 음성에 대해 미리 지정된 인식 가능 어휘들 중 가장 유사한 어휘를 인식 결과로 결정하는 방식이다. 그런데, 이와 같은 방식은 인식 대상이 아닌 어휘가 입력되었을 경우, 이를 구별하지 못하고 유사한 어휘로 오인식하게 된다.

한편, 리젝션 기술은 음성인식 대상이 아닌 어휘가 입력되었을 때와 같이 불문명한 입력 음성에 대해서는 인식 결과를 내지 않고 사용자에게 재발성을 요구하는 등 오인식을 방지하고자 하는 기술이다.

종래 기술에 의한 리젝션 방법은 주로 음성인식 계산 과정에서 구하는 확률값과 특징벡터의 거리차의 크고 작음을 기준으로 음성을 판단하게 되어 있다. 즉, 입력된 음성과 가장 유사한 인식 대상 어휘의 확률값이 일정한 임계값(threshold)보다 크면 인식결과로 채택하고, 작으면 리젝션하는 원리이다. 또는 가장 유사한 인식 대상의 어휘와 두 번째로 유사한 어휘와의 확률값의 차이가 일정한 임계값보다 크지 않으면 불분명한 인식 결과로 판단하여 리젝션하는 원리이다.

그러나, 이와 같은 종래 음성인식 기술에서 임계값을 이용하는 리젝션 방식은 사용자의 음색, 남녀 구분, 입력 음성의 차이, 주변 소음 등에 큰 영향을 받아 바람직한 리젝션 성능을 발휘하는데 어려움이 있었다. 그리고, 이와 같이 리젝션에 대한 정확한 판단을 내리기 힘든 기술적 한계로 인하여 현재 상용화된 음성인식 기술에 널리 적용하는데 어려움이 있었다.

따라서, 본 발명의 목적은 안티워드 모델을 생성하고, 이 안티워드 모델을 이용하여 임계값을 사용하는 리젝션 기법의 단점을 극복하는 음성인식 방법을 제공함에 있다.

본 발명의 제1특징에 따르면, 리젝션 기능을 구현하는데 임계값을 사용하지 않고 안티워드 모델을 사용한다.

본 발명의 제2특징에 따르면, 원래의 인식 대상 어휘와 안티워드 모델들이 음성인식의 인식 가능 모델이 된다.

본 발명의 제3특징에 따르면, 음성인식을 수행하여 원래의 인식 대상 어휘로 인식되면 정상적인 인식결과로 출력하고, 안티워드 모델들 중 하나로 인식되면 리젝션을 한다.

본 발명의 제4특징에 따르면, 안티워드 모델은 "아","오" 등의 대표모음의 조합으로 구성하며, 잡음 모델도 포함한다.

본 발명에 의한 안티워드 모델을 이용한 음성인식 방법은, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와, 상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와, 상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계로 이루어지는 것으로, 이와 같이 이루어지는 본 발명의 음성인식 처리과정을 첨부한 도 1을 참조하여 상세히 설명하면 다음과 같다.

먼저, 정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 결정한다.(S1)

예를 들어, 정상적인 인식 대상의 어휘가 "통화"인 경우, 이와 구분될 수 있는 "아","어","아이", "우아" 등의 어휘와 잡음 모델을 안티워드 모델로 선정한다.

이때, 상기 정상적인 인식 대상의 어휘가 "통화"와 모음 배열이 유사한 "오와","오아" 등의 모음 조합은 안티워드 모델에 포함시키지 않는다.

이후, 정상적인 인식 대상 어휘와 안티워드 모델을 전체 인식 대상 단어로 하는 음성인식기로 음성인식을 수행한다.(S2)

상기 인식 결과 정상적인 인식 대상 어휘가 가장 유사한 단어로 나오면, 이를 인식 결과로 출력하게 되지만, 안티워드 모델들 중 하나가 가장 유사한 단어로 선택되면 리젝션을 수행한다.(S3-S6)

상기 음성인식의 리젝션은 여러 가지로 구현할 수 있다. 예를 들어, 사용자에게 "다시 말씀하세요"와 같은 안내 메시지 또는 음성을 출력하여 사용자가 재 발성하도록 하거나, 인식기가 반응을 하지 않고 계속 다음 음성입력을 기다리는 방식으로 구현할 수 있다.

이상에서 상세히 설명한 바와 같이 본 발명은 안티워드 모델을 구축하고, 이를 이용하여 리젝션 기능의 성능을 향상시킴으로써, 음성인식을 보다 다양한 분야에 적용할 수 있는 효과가 있고, 음성인식에 대한 신뢰도가 향상되는 효과가 있다.

Claims

정상적인 인식 대상 어휘와 구분될 수 있는 모음 조합을 포함하는 안티워드 모델을 결정하는 제1단계와;

상기 정상적인 인식 대상 어휘와 상기 안티워드 모델을 전체 인식 대상 단어로 하여 음성인식기로 음성인식을 수행하는 제2단계와;

상기 음성인식 수행 결과에 대응하는 단어가 상기 안티워드 모델들 중 하나와 가장 유사한 단어로 선택되면 리젝션을 수행하는 제3단계를 포함하여 이루어지는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
제1항에 있어서, 제3단계는,

상기 음성인식 수행 결과에 대응하는 단어가 상기 정상적인 인식 대상 어휘와 가장 유사한 단어로 선택되면 상기 정상적인 인식대상 어휘를 출력하는 단계를 더 포함하여 이루어지는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
제1항에 있어서, 제3단계는,

상기 리젝션 수행시 상기 리젝션을 알리는 안내 메시지 또는 음성을 출력하는 것을 특징으로 하는 안티워드 모델을 이용한 음성인식 방법.
삭제