KR20050058598A

KR20050058598A - 음성 인식 시스템의 발화 검증 방법

Info

Publication number: KR20050058598A
Application number: KR1020030090531A
Authority: KR
Inventors: 정두경
Original assignee: 엘지전자 주식회사
Priority date: 2003-12-12
Filing date: 2003-12-12
Publication date: 2005-06-17
Also published as: KR100609521B1

Abstract

본 발명은 사용자로부터 음성 명령이 수신되면, 해당 음성의 끝점을 검출하여 음성이 존재하는 부분을 추출하고, 상기 추출된 음성 부분에서 음성 인식이 필요한 특징을 추출하여 비터비 탐색을 통하여 음성 인식을 수행하고, 상기 인식된 음성 데이터에 대해 신뢰도를 구하고, 상기 구해진 신뢰도가 미리 정해져 있는 임계치보다 큰지의 여부를 판단하고, 상기 판단결과 상기 신뢰도가 상기 임계치보다 크면, 상기 인식된 음성 데이터에 대하여 상기 사용자에게 확인 명령을 전송하고, 상기 사용자로부터 ACK 명령이 수신되지 않으면, 상기 임계치를 업데이트시키는 것으로서, 모든 대상 어휘의 임계값을 어느 특정한 값으로 가지는 것이 아니라 사용자의 발음 방법이나 발음 태도에 맞게끔 적용함으로 인해서 오인식된 결과가 제대로 인식이 되는 것을 막을 수 있다.

Description

음성 인식 시스템의 발화 검증 방법{Method for inspecting ignition of voice recognition system}

본 발명은 음성 인식 시스템에서 오인식 단어나 문장에 대하여 기각을 수행하는 음성 시스템에서 발화 검증 방법에 관한 것이다.

음성 인식 기술은 HCI의 핵심 기술로서 정보화의 진전과 더불어 그 필요성이 증대되고 있으며, 많은 응용분야에 사용되기 시작되고 있다.

산업측인 측면에서 볼때 정보통신 산업, 정보처리 산업, 가전산업, 자동차 산업등과 같은 다양한 산업 분야에서 음성 인식 기술은 차세대 사용자 인터페이스를 위한 기반 기술로 부각되고 있으며, 그 자체의 시장규모도 급속히 성장할 뿐만 아니라 타 산업분야의 부가가치 상승에 의한 산업적 효과는 엄청날 것으로 전망되고 있다.

음성 인식 기술의 실용화와 더불어 신뢰도 높은 음성 인식을 위한 핵심 기술로서 비인식 대상어휘를 기각시키고, 인식 대상 문장이라도 오인식 가능성이 높은 결과를 기각시키는 발화검증 기술의 중요성이 높아지고 있으며, 최근 이에 대한 연구가 활발해지고 있다. 국내에서도 음성 인식 연구의 일환으로 연결 숫자 인식 기술 및 발화 검증 기술에 대한 연구가 대학 및 기업체에서 이루어지고 있으나 선진국들에 비해서는 뒤떨어지는 상황이다.

현수순의 음성 이식의 성능이 100%가 되지 않기 때문에 오인식이 되는 결과가 종종 생기게 된다. 이런 오류를 허용할 시 음성 인식 시스템을 사용하는 사용자들은 기계에 대한 불만을 가지게 될 것이며 이는 결국 음성시장의 경쟁성이 떨어지는 것을 의미한다. 이런 문제를 해결하기 위해서 나온것이 발화검증 기술이다.

발화검증 기술은 음성 인식된 어떤 결과에 대해 그 인식 결과를 받아들일 것인지, 거절할 것인지를 어떤 신로도값을 사용하여 결정하는 방식이다. 여기서, 신뢰도는 음성인식 결과에 대해서 그 결과가 얼마나 믿을만한 것인가를 나타내는 척도로서 신로도값이 높으면 인식 결과를 신뢰할 수 있는 것으로 인식결과를 받아들여야하고, 반대로 낮으면 결과를 신뢰하기가 어렵다는 의미로 인식 결과를 거절하여야한다.

실제 음성 인식 테스트를 해보면 대부분의 오류는 사용자가 발음을 모호하게 함으로써 생기는 경우이다. 따라서 발화검증을 사용하지 않는 인식 시스템은 이런 모호한 발음을 할지라도 오인식된 결과를 그냥 내어 보내는 식으로 진행되어 왔다.

발화검증 기법을 사용한다는 말은 이런 오인식된 결과를 그냥 기계가 내어 보내는 식이 아니라 모종의 신뢰도 측정에 의해 음성 인식 시스템이 오인식된 것인지 제대로 인식된 것인지를 판단하고 제대로 인식이 되었다고 판단된 경우에 인식결과를 내어 주고 그렇지 않은 경우에 대해서는 기각을 시켜 버리는 메카니즘을 일컫는다.

발화 검증의 방법으로 패턴분류(pattern classification)와 통계적 가설 검증 방법이 있다. 이중 패턴분류의 목적은 임의의 관측치 가 주어진 경우 O가 어느 클래스에 속하는가 즉, 를 결정하는 것이다. 만약 조건부 확률 와 사전확률 가 알려져 있다고 가정하면, 분류오류를 최소로 하는 optimal class decision C(o)는 수학식 1과 같은 사후확률을 최대화하는 Bayes decision rule이 된다.

반면에, 통계적 가설 검증에서는 주어진 관측치 O가 잘못 인식되었다는 대립가설 에 대해서 O가 올바르게 인식되었다는 귀무가설 을 검증한다. 귀무가설과 대립가설의 확률이 정확히 알려져 있다고 가정하면 Neyman-Pearson Lemma에 의해 최적 검정법은 수학식 2일 때 귀무가설을 채택하는 유사도 테스트가 된다.

여기서 는 귀무가설의 확률밀도함수, 는 대립가설의 확률밀도함수이고, 는 critical threshold이다. HMM에 기반한 음성인식 시스템에서 는 정의하기에 따라 phone에서 문장 레벨까지의 클래스 를 나타내는 반면, 는 그와 다른 클래스 {}를 나타낸다. 여기서 클래스 의 파라미터 는 상태 천이 확률, 상태 관측치 확률, 그리고 상태 초기 확률을 의미한다.

발화검증을 HMM에 기반한 음성인식에 적용하기 위해서는 와 를 추정해야 하는데 이 확률들은 미리 설정한 가설의 분포와 조건부 확률 분포의 파라미터가 가정되어야 한다. 이러한 가정은 불충분한 데이터로 인해 참값과 추정된 분포사이의 오차를 유발하게 된다.

통계적 가설 검증은 대개 두가지의 오류율에 의해 성능이 평가된다. 그 하나는 귀무가설이 참일 때 그것을 기각하는 false rejection(Type I : )이고, 또 다른 하나는 귀무가설이 거짓일 때 그 가설을 채택하는 false acceptance(Type II 또는 false alarm : )이다. 와 를 어떻게 선택하느냐에 따라 도 달라진다. 의 값으로 =인 equal error rate(EER)를 선택할 수도 있고, 두 오류율의 합이 최소가 되는 +로 선택하기도 한다. 발화검증에서 적절한 는 도면 1과 같이 히스토그램을 그려봄으로써 찾을 수 있다.

도 1은 종래의 신뢰도 히스토그램을 나타낸 도면이다.

도 1을 참조하면, 두 히스토그램은 에 해당하는 모든 훈련 데이터에 의한 것과 에 해당하지 않는 모든 훈련 데이터에 의한 유사도의 히스토그램을 나타낸 것이다. 도면 1에서 의 오른쪽 부분(Type II)은 의 양을 나타내고, 그 왼쪽 부분(Type I)은 의 양을 나타낸다.

상기와 같이 신뢰도를 측정하고, 상기 측정된 신뢰도와 임계치를 비교하여 해당 음성의 오인식 여부를 판단하는 방법에 대하여 도 2를 참조하여 간단히 설명하기로 한다.

도 2는 종래의 음성 인식 방법을 나타낸 흐름도이다.

도 2를 참조하면, 사용자로부터 음성 인식 명령이 수신되면(S200), 음성 인식 시스템은 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출한다(S202).

그런다음 상기 음성 인식 시스템은 상기 추출된 음성 부분에서 음성 인식에 필요한 특징을 추출한 후(S204), 상기 추출된 음성 데이터에 대해 비터비 탐색 과정을 거쳐 음성 인식을 수행한다(S206).

그런다음 상기 음성인식 시스템은 상기 음성 인식된 음성 데이터에 대해 신뢰도를 구하여 발화 검증을 수행한다(S208).

그런다음 상기 음성 인식 시스템은 상기 구해진 신뢰도가 미리 정해져 있는 임계치보다 큰지의 여부를 판단한다(S210).

상기 판단결과 상기 신뢰도가 상기 임계치보다 크면, 상기 음성 인식 시스템은 해당 음성에 대한 인식을 성공했다고 판단한다(S212).

만약, 단계 210의 판단결과 상기 신뢰도가 상기 임계치보다 크지 않으면, 상기 음성 인식 시스템은 해당 음성의 인식 결과를 기각시킨다(S214).

그러나 상기와 같은 종래의 발화 검증 방식은 입력된 음성이 제대로 인식되었거나 오인식되었다고 판단하지만 이는 실제로 다양한 음성을 반영하기에 역부족일 뿐만 아니라 차량같은 잡음 환경에서는 성능을 보장할 수 없는 문제점이 있다.

또한, 발음이 모호한 경우 특정 기각률보다 낮게 나온다고 가정하면 오인식된 결과라 판단을 하고 기각시켜 버리지만 제대로 발음을 한 경우에도 오인식되었다고 판단할 수 있는 문제점이 있다.

따라서, 본 발명의 목적은 사용자로 하여금 인식 시스템의 성능에 구애받지 않고 불편함을 느끼지 않은 범위내에서 인식 시스템을 사용할 수 있는 음성 인식 시스템에서 발화 검증 방법을 제공하는데 있다.

본 발명의 다른 목적은 음성 인식 시스템에 플레이 백이라는 기능을 추가함으로서 음싱 인식을 할때마다 제대로 인식이 되었는지를 확인할 수 있는 음성 시스템에서 발화 검증 방법을 제공하는데 있다.

상기 목적들을 달성하기 위하여 본 발명의 일 측면에 따르면, 사용자로부터 음성 명령이 수신되면, 해당 음성의 끝점을 검출하여 음성이 존재하는 부분을 추출하고, 상기 추출된 음성 부분에서 음성 인식이 필요한 특징을 추출하여 비터비 탐색을 통하여 음성 인식을 수행하고, 상기 인식된 음성 데이터에 대해 신뢰도를 구하고, 상기 구해진 신뢰도가 미리 정해져 있는 임계치보다 큰지의 여부를 판단하고, 상기 판단결과 상기 신뢰도가 상기 임계치보다 크면, 상기 인식된 음성 데이터에 대하여 상기 사용자에게 확인 명령을 전송하고, 상기 사용자로부터 ACK 명령이 수신되지 않으면, 상기 임계치를 업데이트시키는 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법이 제공된다.

상기 사용자로부터 ACK 명령이 수신되면, 음성 인식이 성공했다고 판단한다.

상기 판단결과 상기 신뢰도가 상기 임계치보다 크지 않으면, 상기 사용자에게 음성 명령을 재요청한다.

상기 신뢰도는 에 의해서 구해진다.

상기 임계치를 업데이트할때, 상기 임계치는 (1+)*이전 임계치를 이용하여 업데이트하고, 상기 는 0과 1사이의 값이다.

이하 첨부된 도면을 참조하여 본 발명의 바람직한 실시예를 상세히 설명하기로 한다.

도 3은 본 발명의 바람직한 일 실시예에 따른 음성 인식 시스템의 구성을 개략적으로 나타낸 블럭도이다.

도 3을 참조하면, 음성 인식 시스템은 입력되는 음성 구간을 검출하는 음성 검출부(300), 상기 음성 검출부(300)로부터 특징을 추출하는 특징 추출부(310), 상기 특징 추출부(310)로부터의 신호와 발음 사전으로부터 비터비 탐색을 하는 비터비 탐색부(320), 상기 비터비 탐색부(320)로부터 핵심어를 인식하여 반음소 모델 데이터베이스(260)을 참조하여 발화를 검증하는 발화 검증부(350)를 포함한다.

즉, 음성이 입력되면, 음성 검출부(300)에서 음성의 앞뒤에 있는 묵음 구간을 제외한 음성 구간을 찾는다. 이후에 특징 추출부(310)에서 앞에서 찾은 음성 구간의 음성 신호로부터 음성의 특징을 추출한다.

그런다음 비터비 탐색부(320)에서 음소 모델 데이터베이스(340)로 구성된 발음사전(330)에 등록된 단어들에 대해 음성 특징값을 이용하여 유사도가 가장 유사한 단어를 선정한다.

그럼다음 발화 검증부(350)가 상기 비터비 탐색부(320)에서 선정된 단어를 이용하여 음소 단위로 특징 구간을 분할한 후에 반음소 모델(360)을 이용하여 음소 단위의 유사 신뢰도를 구한다.

가변 어휘 인식기에서 도메인으로 정한 네임태그의 발화검증시 각 음성의 모델 가 주어지면 귀무가설 와 대립가설 의 유사도 즉, 와 는 수학식3, 수학식4에 의해 각각 구한다.

이고, 여기서 이다.

여기서, N은 음소 모델의 총 개수로서, 대게는 46개 정도이다.

상기 k는 임의의 양수, 는 숫자 k에 할당된 프레임 수이다. k가 1일때는 반음소 모델의 개수가 45개, 즉, 자기자신을 제외한 나머지 음소들의 전체 개수이고, k가 무한대일때는 반음소 모델의 개수가 1개, 즉, 자기 자신의 음소와 가장 혼동가능성이 높은 음소를 나타낸다. 위와같이 계산된 유사도를 바탕으로 음소의 기각 여부를 판단하기 위해서 수학식 5과 같이 음소열 기반의 신뢰도를 사용해 발화검증을 수행한다.

수학식 5

여기서, 는 q번째 개별음송의 LLR이며, 는 k와 동일한 의미를 가지는 양의 상수이다.

그런다음 상기 발화 검증부는 상기 구해진 신뢰도를 임계치와 비교하여 상기 신뢰도 값이 상기 임계치보다 더 크면 인식된 언어에 대하여 사용자에게 확인 명령을 전송하고, 사용자로부터 ACK 응답이 수신되면 인식된 결과를 받아들인다. 여기서, 상기 사용자로부터 ACk 응답이 수신되지 않으면, 상기 발화검증부는 상기 임계치를 수학식 6을 이용하여 업데이트를 수행한다.

)이전 임계치

여기서, 는 0과 1사이의 값을 가진다. 상기 이전 임계치는 업데이트되기 전의 임계치를 나타내고, 새로운 임계치는 사용자가 음성 명령을 했을시 오인식된 결과가 나왔을때 업데이트된 후의 임계치를 의미한다.

상기와 같이 임계값을 업데이트하면, 도 5와 같이 acceptance error가 줄어드는 것을 알수 있다.

만약, 상기 신뢰도값이 상기 임계치보다 작으면, 상기 발화검증부는 상기 사용자에게 음성 명령을 재요청하여 인식된 결과를 거절한다.

도 4는 본 발명의 바람직한 일 실시예에 따른 발화 검증 방법을 나타낸 흐름도이다.

도 4를 참조하면, 사용자로부터 음성 인식 명령이 수신되면(S400), 음성 인식 시스템은 음성의 끝점을 검출하여 음성이 존재하는 부분만 추출한다(S402).

그런다음 상기 음성 인식 시스템은 상기 추출된 음성 부분에서 음성 인식에 필요한 특징을 추출한 후(S404), 상기 추출된 음성 데이터에 대해 비터비 탐색 과정을 거쳐 음성 인식을 수행한다(S406).

그런다음 상기 음성인식 시스템은 상기 음성 인식된 음성 데이터에 대해 신뢰도를 구하여 발화 검증을 수행한다(S408).

그런다음 상기 음성 인식 시스템은 상기 구해진 신뢰도가 미리 정해져 있는 임계치보다 큰지의 여부를 판단한다(S410).

단계 410의 판단결과 상기 신뢰도가 미리 정해져 있는 임계치보다 크면, 상기 음성 인식 시스템은 인식된 언어에 대하여 사용자에게 확인 명령을 전송한다(S412). 예를들면, 상기 음성 인식 시스템은 상기 사용자에게 'XXX가 맞습니까?'라는 형태로 해당 사용자에게 확인 명령을 전송한다.

상기 사용자는 상기 확인 명령에 상응하여 ACk, NAK등의 응답을 수행한다.

그러면, 상기 음성 인식 시스템은 상기 사용자로부터 ACK 응답이 수신되는지의 여부를 판단한다(S414).

단계 414의 판단결과 상기 사용자로로부터 ACK 응답이 수신되면, 상기 음성 인식 시스템은 음성 인식을 성공했다고 판단한다(S416).

만약, 단계 414의 판단결과 상기 사용자로부터 ACk 응답이 수신되지 않으면, 상기 음성 인식 시스템은 상기 임계치를 업데이트 시킨다(S418).

그런다음 상기 음성 인식 시스템은 상기 사용자에게 음성 명령을 재요청한다(S420). 그러면, 상기 음성 인식 시스템은 단계 400부터 다시 수행하게 된다.

예를 들어, 사용자가 '오디오'라고 명령을 했는데 음성 인식 시스템이 제대로 인식을 해서 '오디오 맞습니까?'라고 물어본다면 더이상의 임계값은 업데이트를 할 필요가 없다.

하지만 오인식된 경우 예를들어 '오디오'라고 명령을 했는데 상기 음성 인식 시스템이 '라디오 맞습니까?'라고 한 경우 음성 인식 시스템은 이 시스템을 사용하는 사용자에 의해 입력된 '오디오'가 '라디오'로 오인식이 잘 일어난다라고 판단하게 된다.

따라서, 상기 음성 인식 시스템은 상기 사용자에게 정확한 발음을 유도함과 동시에 오인식이 일어나지 않도록 임계값을 업데이트해서 기각률을 높이게 된다. 따라서 다음번에 음성명령을 하게되면 오인식된 언어에 대해서는 신뢰도값이 업데이트된 기각률보다 높아야 제대로 인식된 결과라 판단하게 될 것이다.

물론 사용자는 그 발음을 모호하게 함으로써 신뢰도값이 낮게 나왔기 때문에 그 발음에 대해서는 본능적으로 정확하게 발음을 할 것이며 그렇게 되면 자연적으로 신뢰도값이 높게 나오게 될 것이다. 그리고 기각률도 false acceprance error를 줄이기 위해 높아 졌기 때문에 오인식된 결과를 제거할 수 있는 큰 장점을 가지게 될 뿐만아니라, 어휘별로 그 임계값이 다 다르기 때문에 전체적으로 음성 인식 시스템이 사용자 측면에서 편리하고 익숙하게 사용된다.

도 5는 본 발명의 바람직한 일 실시예에 따른 false acceprance error를 표시하는 도면이다.

도 5를 참조하면, 검은색 부분이 false acceprance error에 해당한다.

상기에서 임계치를 크게 하면 acceprance error가 줄어든다.

본 발명은 상기 실시예에 한정되지 않으며, 많은 변형이 본 발명의 사상 내에서 당 분야에서 통상의 지식을 가진 자에 의하여 가능함은 물론이다.

상술한 바와 같이 본 발명에 따르면, 모든 대상 어휘의 임계값을 어느 특정한 값으로 가지는 것이 아니라 사용자의 발음 방법이나 발음 태도에 맞게끔 적용함으로 인해서 오인식된 결과가 제대로 인식이 되는 것을 막을 수 있는 음성 인식 시스템에서 발화 검증 방법을 제공할 수 있다.

또한, 본 발명에 따르면, 음성 인식 시스템을 사용하는 사용자가 음성인식 시스템을 사용할때 낮은 인식 성능 때문에 생길수 있는 불편함을 발화검증이란 방법으로 덜어줄 뿐 아니라 제품을 생산하고 테스트를 할 때에도 튜닝 파라메타가 자동으로 업데이트되기 때문에 기기마다 튜닝을 할 필요가 없어서 개발 단계에서도 탁월한 음성 인식 시스템에서 발화 검증 방법을 제공할 수 있다.

도 1은 종래의 신뢰도의 히스토그램을 나타낸 도면이다.

도 2는 종래의 음성 인식 방법을 나타낸 흐름도이다.

<도면의 주요 부분에 대한 부호의 설명>

300 : 음성 검출부 310 : 특징 추출부

320 : 비터비 탐색부 330 : 발음 사전

340 : 음소 모델 데이터베이스 350 : 발화 검증부

360 : 반음소 모델 데이터베이스

Claims

사용자로부터 음성 명령이 수신되면, 해당 음성의 끝점을 검출하여 음성이 존재하는 부분을 추출하는 단계;

상기 추출된 음성 부분에서 음성 인식이 필요한 특징을 추출하여 비터비 탐색을 통하여 음성 인식을 수행하는 단계;

상기 인식된 음성 데이터에 대해 신뢰도를 구하는 단계;

상기 구해진 신뢰도가 미리 정해져 있는 임계치보다 큰지의 여부를 판단하는 단계;

상기 판단결과 상기 신뢰도가 상기 임계치보다 크면, 상기 인식된 음성 데이터에 대하여 상기 사용자에게 확인 명령을 전송하는 단계;

상기 사용자로부터 ACK 명령이 수신되지 않으면, 상기 임계치를 업데이트시키는 단계;

를 포함하는 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법.
제1항에 있어서,

상기 사용자로부터 ACK 명령이 수신되면, 음성 인식이 성공했다고 판단하는 단계를 더 포함하는 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법.
제1항에 있어서,

상기 판단결과 상기 신뢰도가 상기 임계치보다 크지 않으면, 상기 사용자에게 음성 명령을 재요청하는 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법.
제1항에 있어서,

상기 신뢰도는 에 의해서 구해지는 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법.
제1항에 있어서,

상기 임계치를 업데이트할때, 상기 임계치는 (1+)*이전 임계치를 이용하여 업데이트하는 것을 특징으로하는 음성 인식 시스템에서 발화 검증 방법.
제5항에 있어서,

상기 는 0과 1사이의 값인 것을 특징으로 하는 음성 인식 시스템에서 발화 검증 방법.