KR20120012919A

KR20120012919A - 음성명령 인식 장치 및 음성명령 인식 방법

Info

Publication number: KR20120012919A
Application number: KR20100075038A
Authority: KR
Inventors: 박치연; 곽병관; 김정수; 조정미
Original assignee: 삼성전자주식회사
Priority date: 2010-08-03
Filing date: 2010-08-03
Publication date: 2012-02-13
Also published as: US9142212B2; US20120035935A1; KR101699720B1

Abstract

음성 대화형 사용자 인터페이스에서의 음성명령 인식 장치 및 방법이 제공된다. 음성명령 인식 장치는, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 생성된 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 명령의도 확률분포 업데이트부와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함한다.

Description

음성명령 인식 장치 및 음성명령 인식 방법{APPARATUS FOR VOICE COMMAND RECOGNITION AND METHOD THEREOF}

음성명령 인식 기술에 관한 것으로, 더욱 상세하게는, 음성 대화형 사용자 인터페이스에서의 음성명령 인식 장치 및 방법에 관한 것이다.

오늘날 음성 대화 인터페이스는 비행기 예약번호 입력, 기차 예매, 현금 지급기 사용 등과 같이 사용범위가 점차 확대되고 있다. 음성 대화 인터페이스를 이용한 시스템이 사용되기 위해서는 해당 시스템에 대화 모델이 설정되어야 한다. 음성명령을 인식하기 위한 대표적 모델 중 하나는 규칙 기반 대화 모델이다. 이는 음성 인식결과에 대해 하나의 가설을 바탕으로 대화를 이끌어 나간다. 그러나 시스템에 예상 가능한 모든 응답을 입력해야 하고, 음성 인식 오류에 대처하기 쉽지 않다.

음성명령을 인식하기 위한 또 다른 모델은 통계적 대화 모델이다. 이는 음성명령의 인식 결과를 여러 가지 가능성을 가지는 확률로 가정하고, 이 중 가장 적절한 대응을 결정하는 방법이다. 이는 규칙 기반 대화 모델과 달리 모든 가능한 대화 현상을 일일이 구성하지 않아도 되며, 인식 오류가 발생해도 재확인 과정을 거쳐 명령의도를 보다 안정적인 대화 모델을 구축할 수 있다.

그러나, 이러한 통계적 대화 모델도 실제 사용자와 시스템 간의 대화에서 사용자가 한 가지 명령이나 검색만을 이용하여 대화를 하지 않거나, 이전의 명령의 도메인과 다른 도메인의 명령을 내리는 경우 등 대화 흐름이 갑자기 변화하는 경우에는 적절하게 대응하기 어렵다. 이는 이전의 사용자 음셩명령 의도를 계속해서 누적 갱신하므로 사용자의 의도를 빠르게 따라가지 못하기 때문이다.

사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도가 변화하는 경우 명령의도 인식 성능을 향상시키기 위한 음성 인식 장치 및 방법이 제공된다.

일 실시예에 따른 음성명령 인식 장치는, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 생성된 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 명령의도 확률분포 업데이트부와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함한다.

일 실시예에 따른 음성명령 인식 장치는, 명령의도 확률분포 업데이트부가제2 음성명령의 명령의도를 인식하는 제2 음성명령 인식부와, 출력된 응답과 인식된 제2 음성명령의 명령의도를 비교하여 제1 음성명령의 명령의도의 변화 여부를 검출하는 명령의도 변화 검출부와, 검출된 명령의도의 변화 여부에 따라 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 확률분포 재설정부와, 재설정된 확률분포에 따라 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 업데이트 실행부를 포함한다.

일 실시예에 따른 음성명령 인식 방법은, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 단계와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 단계와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 단계와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 단계를 포함한다.

사용자의 음성명령의 명령의도가 갑자기 변화하는 경우에, 변화된 명령의도 인식을 보완할 수 있으며, 기존의 대화 인식 모델로 인하여 명령의도가 잘못 인식될 확률을 경감하여, 음성명령 인식 성능을 향상시킬 수 있다.

도 1은 일 실시예에 따른 음성명령 인식 장치의 구성도,
도 2a는 일 실시에에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 생성부에서 생성된 명령의도 확률분포의 예시도이고, 도 2b는 명령의도 확률분포 생성부에서 생성된 재확인 확률분포의 예시도,
도 3은 일 실시예에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 업데이트부의 구성도,
도 4는 일 실시예에 따른 음성명령 인식 방법의 순서도,
도 5a는 일 실시예에 따른 음성명령 인식 방법 중 대화에 따른 명령의도 확률분포의 엔트로피 변화 예시도, 도 5b는 명령의도 확률분포의 엔트로피를 이용한 명령의도 변화시점을 파악하는 예시도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 일 실시예에 따른 음성명령 인식 장치의 구성도이다.

도 1을 참조하면, 음성명령 인식 장치(100)는 명령의도 확률분포 생성부(110), 명령의도 확률분포 업데이트부(130), 명령의도 확률분포 선택부(150), 동작신호 출력부(170)를 포함할 수 있다. 명령의도 확률분포 생성부(110)와 명령의도 확률분포 업데이트부(130)는 명령의도 확률분포 데이터 저장부(191)와 연결될 수 있다. 명령의도 확률분포 업데이트부(130)와 동작신호 출력부(170)는 응답 데이터 저장부(193)와 연결될 수 있다.

명령의도 확률분포 생성부(110)는 1차로 입력된 음성명령인 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성한다. 명령의도 확률분포는 인식된 음성의 음성인식후보(N-Best)와 그 신뢰도 값을 이용하여 가능한 명령의도를 확률별로 나타낸 것이다. 이는 음성명령의 인식 결과에 따라 명령의도를 하나로 한정하지 않고, 여러 가지 가능성에 대해 확률적으로 표현하기 위함이다. 음성명령 인식 장치(100)는 생성된 명령의도 확률분포에서 높은 확률을 가지는 명령의도에 대응하는 응답을 생성할 수 있다.

또한, 명령의도 확률분포 생성부(110)는 명령의도 확률분포 데이터 저장부(191)와 연결될 수 있다. 이는 생성된 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장하기 위함이다. 명령의도 확률분포 데이터 저장부(191)에는 생성된 명령의도 확률분포뿐만 아니라 명령의도 확률분포를 정하는데 사용되는 데이터가 저장될 수 있다. 명령의도 확률분포 생성부(110)가 음성명령을 인식하면 명령의도 확률분포에 저장된 데이터를 추출하여 명령의도별 확률분포를 생성할 수 있다.

한편, 명령의도 확률분포 생성부(110)는 하나 이상의 상황별로 명령의도 확률분포를 생성할 수 있다. 여기서 상황이란 제1 음성명령으로 인한 응답이 출력되고, 그 응답에 대응하여 입력된 제2 음성명령의 명령의도가 유지되는 경우, 변경되는 경우 등 명령의도가 변화될 수 있는 상황을 말한다. 즉, 음성명령이 입력되고 다음 음성명령이 입력되기 전에 다음 음성명령의 명령의도가 이전과 어떻게 변할지를 미리 예상하여 다양한 명령의도 확률분포를 생성할 수 있다. 생성된 상황별 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장될 수 있다.

명령의도 확률분포 업데이트부(130)는 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트할 수 있다. 여기서 응답은 음성명령 인식 장치(100)가 제1 음성명령의 명령의도 확률분포 중 가장 적절한 응답을 선택하여 출력한 것으로, 이는 음성명령에 대한 최종적인 동작신호와는 다를 수 있다. 즉, 음성명령 인식 장치(100)는 인식된 명령의도의 확률이 충분히 높지 않은 경우에는 응답을 통해 명령의도를 구체적으로 특정할 수 있다.

제2 음성명령은 음성명령 인식 장치(100)로부터 출력된 응답에 대응하여 입력될 수 있다. 제2 음성명령이 입력되면 명령의도 확률분포 업데이트부(130)는 기존에 출력된 응답과 그 응답에 대응해 입력된 제2 음성명령을 비교하여 명령의도의 변화를 분석할 수 있다. 예를 들어, TV와 연결된 음성명령 인식 장치(100)에서 "채널 11번을 틀어봐"라는 제1 음성명령에 대응한 음성명령 인식 장치(100)의 응답은 "채널을 변경하였습니다"이고, 제2 음성명령이 "채널 7번"으로 입력된 경우, 채널을 변경했다는 응답과 채널의 변경을 요구하는 제2 음성명령을 비교하여 명령의도가 수정되었음을 인식할 수 있다.

이 경우, 명령의도 확률분포 생성부(110)는 예를 들어, 제1 음성명령에 대한 명령의도 확률분포를 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 생성할 수 있다. 명령의도 확률분포 업데이트부(130)는 명령의도 확률분포 데이터 저장부(191)에 저장된 제1 음성명령의 상황별 명령의도 확률분포들을 입력받을 수 있다. 명령의도 확률분포 업데이트부(130)는 단순히 명령의도가 수정된 경우의 명령의도 확률분포뿐만 아니라 명령의도가 유지되는 경우와 명령의도가 새로운 경우 모두에 대해 확률분포를 재설정하여 업데이트할 수 있다.

명령의도 확률분포 업데이트부(130)는 음성명령 인식 장치(100)가 음성명령에 대한 동작신호가 출력될 때까지 명령의도 확률분포를 계층적으로 업데이트 할 수 있다. 즉, 입력된 음성명령에 대해 상황별로 나누어 명령의도 확률분포가 생성되며, 각 명령의도 확률분포를 다시 상황별로 나누어 명령의도 확률분포를 생성함으로써, 명령의도 확률분포를 계층적으로 업데이트할 수 있다.

명령의도 확률분포 업데이트부(130)는 음성명령에 대한 엔트로피를 계산할 수 있다. 엔트로피는 명령의도 확률분포의 명령의도 중 하나의 명령의도를 추정할 경우의 부정확성을 나타내는 것이다. 따라서, 엔트로피가 높은 명령의도 확률분포에서 하나의 명령의도를 선택하면 잘못된 응답이나 동작신호가 출력될 확률이 높고, 엔트로피가 낮은 명령의도 확률분포에서 하나의 명령의도를 선택하면 정확한 응답이나 동작신호가 출력될 확률이 높을 수 있다.

또한, 명령의도 확률분포 생성부(110)도 명령의도 확률분포의 엔트로피를 계산할 수 있다. 명령의도 확률분포 생성부(110)는 음성명령이 입력되면 상황별 명령의도 확률분포를 생성하고, 각 명령의도 확률분포의 엔트로피를 계산하여 명령의도 확률분포 데이터 저장부(191)에 저장할 수 있다. 명령의도 확률분포 업데이트부(130)는 제2 음성명령이 입력에 대응하여 상황별 명령의도 확률분포를 업데이트하고, 새로 생성된 상황별 명령의도 확률분포의 엔트로피를 계산할 수 있다.

한편, 명령의도 확률분포 선택부(150)는 명령의도 확률분포 업데이트부(130)로부터 업데이트된 하나 이상의 명령의도 확률분포들의 정보를 입력받을 수 있다. 명령의도 확률분포 선택부(150)는 그 중 하나의 명령의도 확률분포를 선택할 수 있다. 음성명령 인식 장치(100)에서는 하나의 응답을 내야 하므로 음성명령에 대응한 가장 적합한 응답을 생성하기 위해 하나의 명령의도 확률분포를 선택해야 한다. 이 경우 명령의도 확률분포 선택부(150)는 최적의 명령의도 확률분포를 선택하기 위해 각 명령의도 확률분포의 엔트로피 값을 이용할 수 있다.

따라서, 명령의도 확률분포 선택부(150)는 상황별 명령의도 확률분포들 중에서 엔트로피가 가장 낮은 명령의도 확률분포를 선택할 수 있다. 엔트로피가 가장 낮은 명령의도 확률분포의 명령의도를 선택하여 음성명령 인식 오류의 위험을 감소시킬 수 있다. 명령의도가 중간에 바뀌는 경우에도 대화가 진행되면서 엔트로피가 가장 낮은 명령의도 확률분포를 선택함으로써 음성명령 인식 장치(100)는 최적의 응답 또는 동작신호를 출력할 수 있다.

또한, 명령의도 확률분포 선택부(150) 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하거나 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도 확률분포를 선택할 수도 있다. 예를 들어, 응답 중 재확인 응답이 최소인 경우에 그 확률분포에 가중치를 부여할 수 있다. 이에 따라, 최적의 명령의도 확률분포가 선택되고, 선택된 명령의도 확률분포는 동작신호 출력부(170)로 출력될 수 있다.

동작신호 출력부(170)는 선택된 명령의도 확률분포에서 가장 적합한 명령의도를 선택하여 응답을 출력하고 이를 응답 데이터 저장부(193)에 저장할 수 있다. 이는 음성명령 인식장치가 응답을 출력하여 그에 대응한 음성명령을 입력받아 음성명령의 명령의도를 정확하게 파악하기 위함이다. 동작신호 출력부(170)는 명령의도 확률분포 선택부(150)로부터 하나의 명령의도 확률분포를 입력받으며, 그 확률분포 중 하나의 명령의도를 선택하여 응답을 생성하고, 이를 출력할 수 있다.

응답 데이터 저장부(193)에는 동작신호 출력부(170)가 생성한 응답이나 동작신호뿐만 아니라 최적의 응답을 설정하는데 필요한 데이터가 저장될 수 있다. 따라서, 동작신호 출력부(170)는 하나의 명령의도를 선택하고, 그에 대응하는 응답을 응답 데이터 저장부(193)에서 선택하여 이를 출력할 수 있다.

한편, 동작신호 출력부(170)는 명령의도 확률분포 선택부(150)가 선택한 명령의도 확률분포에서 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력할 수 있다. 동작신호는 음성명령 인식 장치(100)와 연결될 모듈의 제어신호일 수 있다. 예를 들어, 음성명령이 명령의도가 "2010년 2월 20일에 서울에서 대전까지 KTX 좌석 2매를 예매하는 것"이라면, 음성명령 인식 장치(100)와 연결된 기차표 예매 시스템에 위와 같은 정보를 출력할 수 있다.

여기서, 최종 명령의도란 음성명령 인식 장치(100)가 더 이상 음성명령에 대응한 응답을 생성하지 않으면서 음성명령의 명령의도를 파악하여, 그와 연결된 기기에 동작신호를 출력할 수 있는 명령의도로 선택된 것을 말한다. 동작신호 출력부(170)는 명령의도 확률분포 중 예를 들어 95% 이상의 확률을 가지는 명령의도를 최종 명령의도로 선택할 수 있다. 또한, 하나의 명령의도 확률분포 중 가장 높은 확률분포를 가지는 두 가지의 명령의도를 기초하여 최종 명령의도를 결정할 수도 있다.

또한, 동작신호 출력부(170)는 Q-학습(Q-learning) 알고리즘을 이용하여 최종 명령의도를 선택할 수 있다. Q-학습은 특정상태에서 어떤 행동을 한 다음 최적의 방식으로 계속 응답을 진행하였을 때 미래에 얻게 될 총 보상의 기대값(Q)을 갱신하면서 실시간으로 명령의도에 적합한 행동을 파악하는 것이다. Q-학습 알고리즘은 수학식 1로 나타낼 수 있다.

Q(s, a)는 현재의 총 보상 기대값이며, Q(s', a')는 미래의 총 보상 기대값이며, R(s, a)은 응답(a)과 명령의도(s)에 따른 현재 동작신호의 출력에 대한 보상값을 나타낸다. 이 때, γ은 할인 계수(discount factor)를 나타낸다. 예를 들어, 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양(+)의 보상값을 적용하고, 명령의도에 부합하지 않는 동작신호가 출력되면 음(-)의 보상값을 적용하여, 보상값이 최대가 되는 명령의도에 대응하는 동작신호를 출력할 수 있다.

음성명령 인식 장치(100)는 각종 전화 예약 시스템뿐만 아니라, 텔레비전 및 휴대폰 등과 같은 멀티미디어 기기, 로봇, 키오스크(kiosk) 등 다양한 전자 제품에 탑재된 음성 대화형 사용자 인터페이스로 구현될 수 있다.

도 2a는 일 실시에에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 생성부에서 생성된 명령의도 확률분포의 예시도이고, 도 2b는 명령의도 확률분포 생성부에서 생성된 재확인 확률분포의 예시도이다. 도 2a를 참조하면, 일 실시예에 따른 명령의도 확률분포는 다수의 명령의도와 그에 대응하는 확률분포로 나타낼 수 있다. 예를 들어, 음성명령이 "KBS 1 틀어봐"였다면, 그 음성명령에 대해서는 채널 변경을 나타내는 명령의도의 확률분포가 놓게 나타난다. 그러나 이러한 확률 외에도 예약녹화나 기타일 경우에도 확률분포로 형성될 수도 있다.

도 2b를 참조하면, 일 실시예에 따른 명령의도 확률분포는 음성명령에 대한 재확인 응답 여부에 대한 확률분포 정보를 포함할 수 있다. 예를 들어, "11번 녹화해"라는 음성명령에 대해 "11번 녹화할까요?"라는 재확인 응답이 있었는지를 확률적으로 나타낼 수 있다. 이러한 재확인 응답도 있었는지에 대해 절대적으로 신뢰할 수 없기 때문에 확률분포로 나타낼 수 있다. 이에 따라, 특정 음성명령에 대해서 불필요하게 재확인 응답을 반복하는 것을 방지할 수 있다.

도 3은 일 실시예에 따른 음성명령 인식 장치(100)에 포함된 명령의도 확률분포 업데이트부(130)의 구성도이다. 도 3을 참조하면, 명령의도 확률분포 업데이트부(130)는 제2 음성명령 인식부(131), 명령의도 변화 검출부(133), 확률분포 재설정부(135) 및 업데이트 실행부(137)를 포함할 수 있다.

제2 음성명령 인식부(131)는 제1 음성명령의 응답에 대응하여 입력된 제2 음성명령의 명령의도를 인식할 수 있다. 제2 음성명령 인식부(131)는 명령의도 확률분포 생성부(110)를 통해 제2 음성명령을 입력받거나 직접 입력받을 수도 있다. 제2 음성명령 인식부(131) 입력된 제2 음성명령에 대한 음성인식후보(N-best)와 그 신뢰도값을 생성할 수 있다. 생성된 제2 음성명령에 대한 정보는 명령의도 확률분포 데이터 저장부(191)에 저장되고, 명령의도 변화 검출부(133)로 출력된다.

명령의도 변화 검출부(133)는 동작신호 출력부(170)에서 출력된 응답과 제2 음성명령 인시부로부터 입력된 제2 음성명령의 명령의도를 비교하여 제1 음성명령의 명령의도의 변화 여부를 검출할 수 있다. 명령의도 변화여부는 수학식 2, 수학식 3, 수학식 4와 같이 나타낼 수 있다.

수학식 2, 수학식 3, 수학식 4에서, P(s'|s,a)는 응답(a)에 따라서 이전 음성명령의 명령의도(s)가 현재의 음성명령의 명령의도(s')로 될 확률분포를 나타낸다. 수학식 2는 명령의도가 유지되는 경우를 나타내고, 수학식 3은 새로운 명령의도인 경우를 나타내며, 수학식 4는 명령의도가 수정된 경우를 나타낸다. 수학식 4에서 S_S는 특정 슬롯(slot)만이 이전 명령의도와 변경된 명령의도의 집합으로, 명령의도 중 일부가 수정되었음을 나타낼 수 있다.

명령의도 검출부(133)는 위와 같은 수학식을 이용하여 응답에 대응하여 입력된 음성명령의 현재 명령의도 상태를 파악할 수 있다. 명령의도 검출부(133)는 명령의도의 변경여부에 대한 정보를 확률분포 재설정부(135)로 출력할 수 있다.

확률분포 재설정부(135)는 검출된 명령의도의 변화 여부에 따라 제1 음성명령의 상황별 명령의도 확률분포를 재설정할 수 있다. 예를 들어, 명령의도가 유지되는 경우에는 상황별 명령의도 확률분포 중에서 명령의도가 유지될 것으로 예상되어 생성된 명령의도 확률분포내의 명령의도에 대한 확률은 높아지지만, 그 밖에 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 예상되어 생성된 명령의도 확률분포내의 명령의도에 대한 확률은 낮아질 수 있다. 이렇게 재설정된 확률분포로 구성된 명령의도 확률분포는 업데이트 실행부(137)로 출력될 수 있다.

업데이트 실행부(137)는 재설정된 확률분포에 따라 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행할 수 있다. 이는 수학식 5와 같이 나타낼 수 있다.

수학식 5에서, b(s')는 현재의 명령의도 확률분포이고, b(s)는 이전의 명령의도 확률분포를 나타낸다. P(o|s',a)는 응답(a)에 따라서 이전의 명령의도(s)가 현재의 명령의도(s')로 변화할 수 있는 확률분포를 나타낸다. P(s'|s,a)는 응답(a)에 따라서 이전 음성명령의 명령의도(s)가 현재의 음성명령의 명령의도(s')로 될 확률분포를 나타낸다.

P(o|s',a)는 예를 들어, 음성명령이 명령의도가 채널을 11번으로 바꾸고자 하는 경우, 음성명령 인식 장치(100)의 응답이 "무엇을 할까요?"였다면 이에 대응한 음성명령은 "11번으로 바꿔!"가 될 수 있다. 만약, 이전 응답이 "11번으로 채널을 바꿀까요?"라면 그 응답에 대응한 음성명령은 "그래"가 될 수 있다. 만약, 이전 응답이 "몇 번으로 채널을 바꿀까요?"라면 그 응답에 대응한 음성명령은 "11번"이 될 수 있다. 이처럼 하나의 명령의도를 갖는 음성명령에 대해 음성명령 인식 장치(100)의 응답에 따라서 그에 대응하여 입력되는 음성명령의 표현 방식이 다를 수 있다.

업데이트 실행부(137)는 상황별 명령의도 확률분포 각각을 예를 들어, 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 계층적으로 새로운 명령의도 확률분포를 생성하게 된다. 생성된 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장될 수 있다.

일 실시예에 따른 명령의도 업데이트부(130)는 엔트로피 계산부(도시되지 않음)를 추가적으로 포함할 수 있다. 엔트로피는 수학식 6을 이용하여 명령의도 확률분포의 엔트로피를 계산할 수 있다.

엔트로피 계산부는 입력된 음성명령의 모든 가능한 명령의도(s)에 대해 명령의도(s)의 발생 확률 값인 p(s)와 그 확률의 역수의 로그값의 곱의 합으로 엔트로피를 계산할 수 있다. 예를 들어, 대화가 진행될수록 명령의도 내의 확률분포가 일정하게 유지되는 경우에는 엔트로피가 0에 가까운 값으로 줄어들 수 있다. 반면, 인식 오류가 있어 명령의도가 새로운 경우 등에는 엔트로피가 증가할 수 있다.

도 4는 일 실시예에 따른 음성명령 인식 방법의 순서도이다.

도 4를 참조하면, 도 1의 음성명령 인식 장치(100)는 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성한다(410). 제1 음성명령을 인식하기 위해서는 음성인식후보(N-best)와 그 신뢰도값을 이용하여 명령의도별 확률분포를 생성할 수 있다. 이 경우, 다음 음성명령의 입력에 대비하여 명령의도 확률분포를 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 새로운 명령의도 확률분포를 생성할 수 있다.

다음으로, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트한다(430). 이는, 제1 음성명령에 대한 명령의도 확률분포 중 가장 적합한 명령의도에 대응하여 응답이 출력되고, 그 응답에 대응하여 입력된 제2 음성명령을 비교하여, 상황별로 명령의도 확률분포를 업데이트할 수 있다.

다음으로, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택한다(450). 명령의도 확률분포가 상황별로 업데이트되어 다수의 명령의도 확률분포가 생성되면, 그 중 최적의 명령의도 확률분포를 선택하게 된다. 이 경우, 각 명령의도 확률분포의 엔트로피를 계산하여 가장 낮은 엔트로피를 가지는 명령의도 확률분포를 선택할 수 있다. 이는 도 5a, 도 5b를 통해 설명하도록 한다.

도 5a는 일 실시예에 따른 음성명령 인식 방법 중 대화에 따른 명령의도 확률분포의 엔트로피 변화 예시도, 도 5b는 명령의도 확률분포의 엔트로피를 이용한 명령의도 변화시점을 파악하는 예시도이다.

도 5a를 참조하면, "11번에서 신데렐라 녹화해줘"라는 제1 음성명령에 대해 "녹화 하였습니다"라는 응답이 출력되고, 그 응답에 대응하여 "한번 7번 돌려볼래?"라는 제2 음성명령이 입력되는 경우, 이는 새로운 의도에 해당함을 알 수 있다. 즉, 제1 음성명령인 "11번에서 신데렐라 녹화해줘"의 명령의도 확률분포(111)는 1.219라는 엔트로피를 가지고, 응답에 대응한 제2 음성명령인 "한번 7번 돌려볼래?"의 경우, 명령의도가 유지되는 경우의 명령의도 확률분포(113)의 엔트로피는 1.929이고, 명령의도가 수정된 경우의 명령의도 확률분포(115)의 엔트로피는 1.496이고, 명령의도가 새로운 경우의 명령의도 확률분포(117)의 엔트로피는 0.619이다.

이 경우, 명령의도 선택부(150)는 업데이트된 명령의도 확률분포 중 엔트로피가 가장 낮은 명령의도가 새로운 경우의 명령의도 확률분포(117)를 선택할 수 있다.

도 5b를 참조하면, "11번에서 신데렐라 녹화해줘"라는 제1 음성명령에 대해 "녹화하였습니다"라는 응답이 출력되고, 그 응답에 대응하여 "7번 돌려볼래?"라는 제2 음성명령이 입력되는 경우, 이는 새로운 의도에 해당하나 엔트로피 값은 명령의도가 수정되는 경우의 명령의도 확률분포(115)가 가장 낮을 수 있다. 그러나 대화가 진행되면 "7번에서 녹화를 할까요?"라는 응답이 출력되고, "아니, 7번 틀라고"라는 제3 음성명령이 입력될 수 있다. 이 경우, 제2 음성명령의 명령의도 확률분포 중 명령의도가 새로운 경우(117)에서 업데이트된 제3 음성명령의 명령의도 확률분포(119) 중 명령의도가 유지된 경우의 명령의도 확률분포의 엔트로피 값이 가장 낮아지므로 변경된 음성명령의 명령의도를 선택할 수 있다.

다시, 도 4로 돌아가서, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력한다(470). 선택된 명령의도 확률분포에서 가장 높은 확률을 가지는 명령의도를 최종 명령의도로 선택하여, 그에 대응하는 동작신호를 출력할 수 있다.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.

100 : 음성명령 인식 장치
110 : 명령의도 확률분포 생성부
111 : 제1 음성명령의 명령의도 확률분포
113 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 유지되는 경우
115 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 수정되는 경우
117 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 새로운 경우
119 : 제3 음성명령의 명령의도 확률분포
130 : 명령의도 확률분포 업데이트부
131 : 제2 음성명령 인식부
133 : 명령의도 변화 검출부
135 : 확률분포 재설정부
137 : 업데이트 실행부
150 : 명령의도 확률분포 선택부
170 : 동작신호 출력부
191 : 명령의도 확률분포 데이터 저장부
193 : 응답 데이터 저장부

Claims

입력된 제1 음성명령을 인식하여, 기 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부;
상기 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 상기 생성된 명령의도 확률분포를 업데이트하는 명령의도 확률분포 업데이트부;
상기 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부;
상기 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함하는 음성명령 인식 장치.
제1항에 있어서,
상기 명령의도 확률분포 업데이트부는,
상기 제2 음성명령의 명령의도를 인식하는 제2 음성명령 인식부;
상기 출력된 응답과 상기 인식된 제2 음성명령의 명령의도를 비교하여 상기 제1 음성명령의 명령의도의 변화 여부를 검출하는 명령의도 변화 검출부;
상기 검출된 명령의도의 변화 여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 확률분포 재설정부; 및
상기 재설정된 확률분포에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 업데이트 실행부를 포함하는 음성명령 인식 장치.
제1항에 있어서,
상기 명령의도 확률분포 생성부는 상기 제1 음성명령에 대해 명령의도가 유지되는 경우, 명령의도가 수정되는 경우 및 명령의도가 새로운 경우의 상황별로 나누어 서로 다른 명령의도 확률분포를 동시에 생성하고,
상기 명령의도 확률분포 업데이트부는 상기 제2 음성명령의 명령의도 변화여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 다시 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우의 상황별로 나누어 계층적으로 업데이트하는 음성명령 인식 장치.
제1항에 있어서,
상기 명령의도 확률분포는,
상기 음성명령의 명령의도, 상기 음성명령에 대한 재확인 여부, 상기 응답 출력여부, 상기 동작신호 출력여부 중 적어도 하나의 정보를 포함하는 음성명령 인식 장치.
제1항에 있어서,
상기 명령의도 확률분포 업데이트부는,
상기 동작신호 출력부가 최종 명령의도를 선택할 때까지 상기 음성명령 확률분포를 업데이트하는 음성명령 인식 장치.
제1항에 있어서,
상기 명령의도 확률분포 선택부는,
상기 업데이트된 하나 이상의 명령의도 확률분포들 중 엔트로피가 가장 낮은 것을 하나의 명령의도 확률분포로 선택하는 음성명령 인식 장치.
제4항에 있어서,
상기 명령의도 확률분포 선택부는,
상기 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하나의 명령의도를 선택하는 음성명령 인식 장치.
제4항에 있어서,
상기 명령의도 확률분포 선택부는,
상기 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도로 선택하는 음성명령 인식 장치.
제1항에 있어서,
상기 동작신호 출력부는,
상기 선택된 명령의도 확률분포 중 가장 높은 확률을 가지는 하나 이상의 명령의도에 기초하여 최종의도를 선택하여 그에 대응하는 동작신호를 출력하는 음성명령 인식 장치.
제1항에 있어서,
상기 동작신호 출력부는,
상기 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양의 보상값을 적용하고, 상기 명령의도에 부합하지 않는 동작신호가 출력되면 음의 보상값을 적용하여, 상기 보상값이 최대가 되는 동작을 동작신호로 출력하는 음성명령 인식 장치.
입력된 제1 음성명령을 인식하여, 기 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 단계;
상기 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 상기 명령의도 확률분포를 업데이트하는 단계;
상기 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 단계;
상기 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 단계를 포함하는 음성명령 인식 방법.
제11항에 있어서,
상기 명령의도 확률분포 업데이트 단계는,
상기 제2 음성명령의 명령의도를 인식하는 단계;
상기 출력된 응답과 상기 인식된 제2 음성명령의 명령의도를 비교하여 상기 제1 음성명령의 명령의도의 변화 여부를 검출하는 단계;
상기 검출된 명령의도의 변화 여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 단계; 및
상기 재설정된 확률분포에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 단계를 포함하는 음성명령 인식 방법.
제11항에 있어서,
상기 명령의도 확률분포 생성단계는 상기 제1 음성명령에 대해 명령의도가 유지되는 경우, 명령의도가 수정되는 경우 및 명령의도가 새로운 경우의 상황별로 나누어 서로 다른 명령의도 확률분포를 동시에 생성하고,
상기 명령의도 확률분포 업데이트 단계는 상기 제2 음성명령의 명령의도 변화여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 다시 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우의 상황별로 나누어 계층적으로 업데이트하는 음성명령 인식 방법.
제11항에 있어서,
상기 명령의도 확률분포는,
상기 음성명령의 명령의도, 상기 음성명령에 대한 재확인 여부, 상기 응답 출력여부, 상기 동작신호 출력여부 중 적어도 하나의 정보를 포함하는 음성명령 인식 방법.
제11항에 있어서,
상기 명령의도 확률분포 업데이트 단계는,
상기 동작신호 출력부가 최종 명령의도를 선택할 때까지 상기 음성명령 확률분포를 업데이트하는 음성명령 인식 방법.
제11항에 있어서,
상기 명령의도 확률분포 선택 단계는,
상기 업데이트된 하나 이상의 명령의도 확률분포들 중 엔트로피가 가장 낮은 것을 하나의 명령의도 확률분포로 선택하는 음성명령 인식 방법.
제14항에 있어서,
상기 명령의도 확률분포 선택 단계는,
상기 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하나의 명령의도를 선택하는 음성명령 인식 방법.
제14항에 있어서,
상기 명령의도 확률분포 선택 단계는,
상기 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도로 선택하는 음성명령 인식 방법.
제11항에 있어서,
상기 동작신호 출력 단계는,
상기 선택된 명령의도 확률분포 중 가장 높은 확률을 가지는 하나 이상의 명령의도에 기초하여 최종의도를 선택하여 그에 대응하는 동작신호를 출력하는 음성명령 인식 방법.
제11항에 있어서,
상기 동작신호 출력 단계는,
상기 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양의 보상값을 적용하고, 상기 명령의도에 부합하지 않는 동작신호가 출력되면 음의 보상값을 적용하여, 상기 보상값이 최대가 되는 동작을 동작신호로 출력하는 음성명령 인식 방법.