KR20120079344A

KR20120079344A - 결합기반의 음성명령 인식 장치 및 그 방법

Info

Publication number: KR20120079344A
Application number: KR1020110000578A
Authority: KR
Inventors: 곽병관; 박치연; 김정수; 조정미
Original assignee: 삼성전자주식회사
Priority date: 2011-01-04
Filing date: 2011-01-04
Publication date: 2012-07-12
Also published as: KR101828273B1; US20120173244A1; US8954326B2

Abstract

사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다. 일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 처리부를 포함한다.

Description

결합기반의 음성명령 인식 장치 및 그 방법{APPARATUS AND METHOD FOR VOICE COMMAND RECOGNITION BASED ON COMBINATION OF DIALOG MODELS}

음성명령 인식 기술에 관한 것으로, 더욱 상세하게는 음성 대화형 사용자 인터페이스에서의 결합기반의 음성명령 인식 장치 및 그 방법에 관한 것이다.

오늘날 음성 대화 인터페이스는 비행기 예약번호 입력, 기차 예매, 현금 지급기 사용 등과 같이 사용범위가 점차 확대되고 있다. 음성 대화 인터페이스를 이용한 시스템이 사용되기 위해서는 해당 시스템에 대화 모델이 설정되어야 한다. 음성명령을 인식하기 위한 대표적 모델 중 하나는 규칙 기반 대화 모델이다. 이는 음성 인식결과에 대해 하나의 가설을 바탕으로 대화를 이끌어 나간다. 그러나 시스템에 예상 가능한 모든 응답을 입력해야 하고, 음성 인식 오류에 대처하기 쉽지 않다.

음성명령을 인식하기 위한 또 다른 모델은 통계적 대화 모델이다. 이는 음성명령의 인식 결과를 여러 가지 가능성을 가지는 확률로 가정하고, 이 중 가장 적절한 대응을 결정하는 방법이다. 이는 규칙 기반 대화 모델과 달리 모든 가능한 대화 현상을 일일이 구성하지 않아도 되며, 인식 오류가 발생해도 재확인 과정을 거쳐 명령의도를 파악하여 보다 안정적인 대화 모델을 구축할 수 있다.

사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다.

일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 수행 처리부를 포함한다.

일 실시예에 따른 결합기반의 음성명령 인식 방법은 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 단계와, 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 단계를 포함한다.

사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도에 대한 인식 오류는 통계적 대화 모델로 처리하고, 어플리케이션 요청에 대한 판단은 규칙 기반 대화 모델로 처리함으로써, 자연스럽고 다양한 오류 처리 및 빠른 대화 흐름의 제어가 가능하다.

도 1은 일 실시예에 따른 음성명령 인식장치의 내부 구성도,
도 2는 일 실시예에 따른 음성명령 인식장치 중 명령의도 판단부의 내부 구성도,
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도,
도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도,
도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도,
도 4a는 일 실시예에 따른 음성명령 인식장치 중 어플리케이션 수행 처리부의 내부 구성도,
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도,
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도,
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도,
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.

이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.

도 1은 일 실시예에 따른 음성명령 인식장치(100)의 내부 구성도이다.

도 1을 참조하면, 음성명령 인식장치(100)는 명령의도 판단부(110)와 어플리케이션 수행 처리부(130)를 포함한다. 명령의도 판단부(110)는 사용자의 음성명령에 대한 명령의도 확률분포를 생성한다. 명령의도 확률분포는 현재 대화 흐름의 상황이라고 예상되는 여러 가지 상황에 확률적 분포를 말한다. 또한, 명령의도 판단부(110)는 명령의도 확률분포를 통해 입력되는 음성명령의 인식 오류를 수정하고, 사용자 음성명령의 최종 명령의도를 판단한다. 명령의도 판단부(110)는 기본적으로 통계적 대화 모델링을 이용한다. 통계적 대화 모델은 예를 들어 POMDP(Partially Observable Markov Decision Process)로 모델링 된다.

어플리케이션 처리부(130)는 명령의도 판단부(110)에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인한다. 어플리케이션 처리부(130)는 지식 기반 대화 모델링을 이용한다. 어플리케이션 처리부(130)는 각 어플리케이션에 대한 어플리케이션 규칙을 적용하여 어플리케이션 내용에 대한 처리를 한다. 어플리케이션 처리부(130)는 최종 명령의도를 분석하여 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득한다. 어플리케이션 처리부(130)는 어플리케이션 규칙에 따라 해당 어플리케이션을 수행하는데 문제가 없는 경우에는 해당 어플리케이션 동작신호를 생성한다.

도 2는 일 실시예에 따른 음성명령 인식장치(100) 중 명령의도 판단부(110)의 내부 구성도이다.

도 2를 참조하면, 명령의도 판단부(110)는 명령의도 확률분포 갱신부(111), 명령의도 확률분포 저장부(112), 오류 판단부(113), 재입력 응답 생성부(114), 최종 명령 선택부, 선택 응답 생성부(116), 재확인 응답 생성부(117)를 포함한다. 명령의도 확률분포 갱신부(111)는 사용자의 음성명령에 대한 명령의도 확률분포를 대화를 진행하면서 갱신한다. 즉, 대화를 진행하면서 사용자의 음성명령의 인식의 정확도를 확률적으로 갱신한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 명령의도 확률분포 저장부(112)에 저장한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 오류 판단부(113)로 출력한다.

오류 판단부(113)는 명령의도 확률분포 갱신부(111)에 의해 갱신된 명령의도 확률분포를 통해, 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다. 오류 판단부(113)는 입력된 음성명령에 대한 명령의도가 명확한지를 판단한다. 만약, 입력된 음성명령 자체에 인식 오류가 없거나 명령의도가 불명확한 경우가 아니면 갱신된 확률분포를 최종 명령의도 선택부(115)로 출력한다. 그러나, 입력된 음성명령에 인식 오류가 발생하거나 명령의도가 불명확한 경우에는 재입력 응답 생성부(114)로 오류 정보를 출력한다.

재입력 응답 생성부(114)는 오류 판단부(113)의 판단 결과에서 음성명령에 오류가 있는 경우에는, 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다. 재입력 응답 생성부(114)의 응답에 대응하여 사용자가 음성명령을 재입력하면, 재입력된 음성명령에 의해 오류가 해소되었는지 여부를 판단한다. 이상과 같이, 오류 판단부(113)와 재입력 응답 생성부(114)의 오류 판단과정 및 응답 생성예와 관련해서는 도 3a를 참조하여 후술하도록 한다.

최종 명령의도 선택부(115)는 오류 판단부(113)의 판단 결과 오류가 없는 경우에는, 갱신된 명령의도 확률분포 중 최종 명령의도를 선택한다. 최종 명령의도 선택부(115)는 갱신된 명령의도 확률분포 중 임계치 이상의 확률을 가지는 명령의도를 최종 명령의도로 선택한다. 최종 명령의도 선택부(115)는 명령의도가 인식의 오류는 없으나, 그 의도가 불명확하여 최종 명령의도를 선택하기 어려운 경우, 사용자에게 음성명령을 명확히 해달라는 응답을 생성하도록 제어한다. 다만, 최종 명령의도가 명확한 경우에는 이를 어플리케이션 처리부(130)로 출력한다.

선택 응답 생성부(116)는 갱신된 명령의도 확률분포 중 비슷한 확률을 가지는 최종 명령의도 후보가 있는 경우, 사용자에게 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성한다. 선택 응답 생성부(116)에 의해 생성된 선택 요청 응답에 대응하여, 사용자로부터 선택된 음성명령이 입력됨으로써 보다 명확하게 최종 명령의도를 선택한다.

재확인 응답 생성부(117)는 갱신된 명령의도 확률분포 중 최종 명령의도를 재확인하도록 사용자에게 요청하는 응답을 생성한다. 재확인 응답 생성부(117)에서 생성된 응답에 대응하여, 사용자가 입력한 음성명령이 임력됨으로써 보다 명확하게 최종 명령의도를 선택한다. 이상과 같이, 최종 명령의도 선택부(115)에서의 최종 명령의도 선택과정과 선택 응답 생성부(116), 재확인 응답 생성부(117)의 응답예는 도 3b내지 도 3c를 참조하여 후술하도록 한다.

도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도, 도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도, 도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도이다.

도 3a를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "KBS에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 이어지는 음성명령이 "내일 날씨는 좋으려나"와 같이 이전의 주제와 다른 음성명령이 입력되는 경우에는 사용자 음성명령의 인식오류 또는 명령의도 오류로 판단한다. 이 경우, 재입력 응답 생성부(114)는 "다시 입력해 주십시오."와 같은 응답을 생성한다. 즉, 이전 까지는 채널검색에 관련된 대화가 이뤄지다가 갑자기 날씨검색에 대한 음성명령이 입력되면 사용자의 명령의도가 불명확하기 때문에 재입력 응답을 요청한다.

또한, 사용자의 음성명령이 설정되지 않은 외국어나 다른 어휘를 사용함으로써 음성명령 자체를 인식할 수 없는 경우에도 인식 오류가 발생한다. 따라서, 재입력 응답 생성부(114)는 재입력 요청 메시지를 생성한다. 사용자는 재입력 요청 메시에 대응하여 음성명령을 재입력하게 되고, 그 입력 결과를 기존의 명령의도 확률분포와 비교하여 사용자 명령의도를 명확히 확정할 수 있다.

도 3b를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "MBC에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 다음에 입력되는 사용자 음성명령이 "KBS 틀어봐"인 경우, 명령의도 확률분포 중 채널변경에 대한 확률이 증가한다. 다만, 시스템에 설정된 KBS 채널이 KBS 1, KBS 2인 경우에는, 사용자의 의도가 KBS 1으로 채널을 변경하라는 것인지 KBS 2로 채널을 변경하라는 것인지 불분명하게 된다. 따라서, 재입력 응답 생성부(114)는 "KBS 1과 KBS 2 중 어디로 채널을 바꿀까요?"와 같은 선택 요청 응답을 생성한다.

이 경우, 최종 명령의도 후보는 KBS 1, KBS 2가 될 수 있으며 각 경우에 따라 여러 후보가 발생할 수 있다. 최종 명령의도 후보 중 하나를 선택하라는 선택 요청 응답이 발생되고, 사용자는 그에 대응하여 하나의 채널을 선택하는 음성명령을 입력하게 된다. 따라서, 최종 명령의도 선택부(115)는 보다 정확한 최종 명령의도를 명확히 확정할 수 있다.

도 3c를 참조하면, 사용자의 음성명령이 "문화방송에서 뭐해?"인 경우, 명령의도 확률분포 중 채널검색의 확률이 가장 높게 된다. 다만, "문화방송"이 "MBC"와 같은 채널이므로, 이에 대한 재확인 과정을 필요로 한다. 따라서, 재확인 응답 생성부(117)는 "MBC 채널을 검색할까요?"와 같은 응답을 생성하게 된다. 따라서, 사용자는 자신이 말한 "문화방송"이 "MBC"인 경우에는 "그래", "MBC"가 아닌 경우에는 "아니"와 같은 음성명령을 입력하게 된다. 이에 따라, 최종 명령의도가 더욱 명확해진다.

도 4a는 일 실시예에 따른 음성명령 인식장치(100) 중 어플리케이션 처리부(130)의 내부 구성도이다.

도 4a를 참조하면, 어플리케이션 처리부(130)는 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137), 어플리케이션 규칙 저장부(139)를 포함한다.

입력인자 검사부(131)는 명령의도 판단부(110)로부터 입력된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사한다. 입력인자 검사부(131)는 어플리케이션 규칙 저장부(139)에 저장된 어플리케이션 규칙을 기준으로 어플리케이션 규칙을 만족하는지 판단한다. 예를 들어, TV 채널변경의 어플리케이션에서는 채널명이나 채널번호 등이 입력인자가 된다. 이러한, 입력인자 중 일부 또는 전부가 부족한 경우에는 어플리케이션 구동 신호를 생성하지 않고, 사용자에게 부족한 입력인자를 요청하게 된다.

사용자 의도 부가부(133)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 사용자에게 요청한다. 사용자 의도 부가부(133)는 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 어플리케이션 실행을 위한 입력인자 정보를 획득한다.

신뢰성 검사부(135)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 입력인자가 어플리케이션을 제공하기에 유효한 입력인지를 검사한다. 즉, 최종 명령의도에 포함된 입력인자가 어플리케이션을 오류없이 수행될 수 있는 유효한 입력인자인지에 대해 각 입력인자 값에 대한 신뢰도를 측정한다. 이 경우, 신뢰도는 언어해석 및 대화관리를 거치면서 입력인자 값에 대한 신뢰값으로 계산될 수 있다. 이러한 신뢰도가 일정 수준을 넘는 경우에는 어플리케이션을 제공하는 모듈(도시되지 않음)에 어플리케이션 구동 신호를 출력한다. 그러나, 신뢰도가 일정 수준을 넘지 않는 경우에는 사용자의 의도를 확인하게 된다.

사용자 의도 확인부(137)는 신뢰성 검사부(135)의 검사 결과에 따라 입력인자 중 유효하지 않은 입력인자가 포함된 경우, 유효하지 않은 입력인자에 대하여 사용자에게 재입력을 요청한다. 사용자 의도 확인부(137)는 사용자의 의도를 재확인하기 위해 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 시비스 실행을 위한 유효한 입력인자 정보를 획득한다.

이상과 같이, 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137)에 대한 구체적인 실시예는 도 5를 참조하여 후술하도록 한다.

도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도이다.

도 4b를 참조하면, 사용자 음성명령이 "채널을 바꿔봐"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)는 어플리케이션 규칙을 적용하여 어플리케이션 실행을 위한 입력인자를 모두 포함하는지를 판단한다. 이 경우, 구체적인 채널명에 대한 입력인자가 없기 때무에 사용자 의도 부가부(133)는 "어느 채널로 바꿀까요?"와 같은 응답을 생성한다. 사용자는 이에 대응하여 특정 채널명을 입력하게 되고, 입력인자인 특정 채널명이 입력됨으로써 어플리케이션 구동 신호를 출력하게 된다.

한편, 사용자 음성명령이 "EBS에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "EBS"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 EBS 채널로 변경하는 것이 유효한지 여부를 판단한다. 만약, 어플리케이션 규칙에 EBS 채널이 존재하지 않는 경우에는 사용자 의도 확인부(137)는 "죄송합니다. EBS는 지원하지 않는 채널입니다. 다른 채널을 선택하여 주십시오."와 같은 응답을 생성한다.

또한, 사용자 음성명령이 "MBC에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "MBC"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 MBC 채널로 변경하는 것이 유효한지 여부를 판단한다. 이 경우, 해당 어플리케이션 규칙에 MBC 채널이 존재하는 경우 이러한 음성명령은 유효한 것으로 판단된다. 이 경우, 사용자 의도 확인부(137)는 해당 어플리케이션를 실행한다는 것을 사용자에게 알리기 위해 "MBC로 채널을 변경하였습니다."와 같은 응답을 생성할 수 있다. 이를 통해, 사용자에게 해당 어플리케이션를 재확인할 수 있다.

도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도이다.

도 5를 참조하면, 휴대용 통신 기기(500)는 음성 인터페이스부(510), 음성명령 인식부(530), 구동부(550), 통신부(570)를 포함한다. 음성 인터페이스부(510)는 음성을 수신하는 마이크와 음성을 출력하는 스피커를 포함한다. 음성 인터페이스부(510)는 사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력한다.

음성명령 인식부(530)는 음성 인터페이스부(510)를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단한다. 또한, 음성명령 인식부(530)는 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 동작신호를 생성한다. 이는 앞서 설명한 음성명령 인식장치와 동일한 기능을 수행한다.

구동부(550)는 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행한다. 구동부(550)에는 각 어플리케이션과 관련된 구동모듈을 제어한다.

본 발명의 일 실시예에 따른 휴대용 통신 기기(500)는 통신부(570)를 더 포함한다. 통신부(570)는 웹 서버(300)와 유/무선 통신을 한다. 이 경우, 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 통신부(570)를 통해 웹 서버(300) 또는 또 다른 휴대용 기기(400)로부터 관련 정보를 다운받는다. 예를 들어, 사용자의 음성명령 신호가 음악 콘텐츠 웹 서버로부터 특정 가수의 음원을 다운받는 것이라면, 구동부(550)는 통신부(570)를 제어하여, 웹 서버(300)로부터 해당 음원을 다운받도록 하는 것이 가능하다.

또한, 본 발명의 휴대용 통신 기기(500)는 또 다른 통신 기기(400)로부터 음성명령을 입력받을 수 있다. 다른 통신 기기(400)의 사용자가 음성명령을 입력하면, 휴대용 통신 기기(500)는 해당 음성명령을 분석하여 그에 해당하는 어플리케이션을 실행하게 된다. 이러한 응용예는 학교, 소방서, 경찰서, 홈 네트워크 등에서 음성명령을 통한 원격제어가 가능하게 한다.

도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도이다.

도 6을 참조하면, 사용자의 음성명령을 입력받아 명령의도 확률분포를 계산하고, 대화를 진행함에 따다 명령의도 확률분포를 갱신한다(610). 이는 사용자 음성명령의 명령의도에 대한 통계적인 대화 모델링 방법을 적용한 것이다. 이에 따라, 사용자의 음성명령에 대한 하나의 가설이 아닌 여러 가설을 설정하여 관리함으로써 예상치 못한 음성명령 오류 등에 대처할 수 있다.

다음으로, 갱신된 명령의도 확률분포를 통해 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다(620). 음성명령 자체에 오류가 있어, 이를 명령으로 인식할 수 없거나 명령의도가 파악되지 않는 경우인지를 판단한다. 이 경우, 음성명령에 오류가 있는 경우에는 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다(630). 이러한, 부대화(sub-dialog)를 통해 사용자로부터 정확한 음성명령을 입력받음으로써, 인식 오류에 대해 적절히 대응할 수 있다.

오류를 판단하는 단계에서 오류가 없다고 판단한 경우에는 갱신된 명령의도 확률분포 중 최종 명령의도를 선택할 수 있는지 여부를 판단한다(640). 명령의도 확률분포 중 최종 명령의도 후보가 여러 개인 경우나 최종 명령의도 후보가 하나이나 재확인이 필요한 경우인지를 판단하는 것이다. 이 경우, 최종 명령의도 후보 중 최종 명령의도를 선택할 수 없는 경우에는 부대화(sub-dialog)를 통해 사용자로부터 최종 명령의도를 선택하는데 필요한 음성명령을 입력받는다(650). 그러나, 최종 명령의도의 선택이 가능하면, 선택된 최종 명령의도를 출력한다(660).

도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.

도 7을 참조하면, 최종 명령의도를 입력받아 해당 어플리케이션을 실행할 수 있을 정도로 필요한 입력인자를 포함하고 있는지를 판단한다(710). 입력인자는 해당 어플리케이션마다 달리 설정될 수 있으며, 이는 어플리케이션 규칙으로 제한된다. 이 경우, 어플리케이션을 실행할 수 있을만큼의 필요한 입력인자 중 일부가 없는 경우에는, 입력인자를 추가적으로 요청하는 응답을 생성한다(720). 이는 필요한 입력인자에 대한 요청을 하는 부대화(sub-dialog)를 통해, 사용자로부터 해당 입력인자를 포함한 음성명령을 입력받을 수 있다.

그러나, 최종 명령의도에 어플리케이션을 수행하는데 필요한 입력인자를 모두 포함하고 있는 경우에는, 입력인자가 해당 어플리케이션을 제공하기에 유효한 입력인지를 검사한다(730). 이 경우, 포함된 입력인자 중 유효하지 않은 입력인자가 있는 경우에는 입력인자의 재확인 요청 응답을 생성한다(740). 이는 부대화(sub-dialog)를 통해 해당 입력인자가 유효한지 여부를 재확인하고, 유효한 입력인자를 포함한 음성명령을 사용자로부터 입력받게 된다. 만약, 최종 명령의도에 포함된 입력인자가 모두 유효한 경우에는 해당 어플리케이션을 실행시킬 수 있는 어플리케이션 구동 신호를 출력한다(750).

한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.

컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.

이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.

100 : 음성명령 인식장치
110 : 명령의도 판단부
111 : 명령의도 확률분포 갱신부
112 : 명령의도 확률분포 저장부
113 : 오류 판단부
114 : 재입력 응답 생성부
115 : 최종 명령의도 선택부
116 : 선택 응답 생성부
117 : 재확인 응답 생성부
130 : 어플리케이션 처리부
131 : 입력인자 검사부
133 : 사용자 의도 부가부
135 : 신뢰성 검사부
137 : 사용자 의도 확인부
139 : 어플리케이션 규칙 저장부
300 : 웹 서버
400 : 통신 기기
500 : 휴대용 통신 기기
510 : 음성 인터페이스부
530 : 음성명령 인식부
550 : 구동부
570 : 통신부

Claims

사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 명령의도 판단부; 및
상기 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 어플리케이션 처리부;
를 포함하는 결합기반의 음성명령 인식 장치.
제1항에 있어서, 상기 명령의도 판단부는,
사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 명령의도 확률분포 갱신부와;
상기 명령의도 확률분포 갱신부에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 오류 판단부; 및
상기 오류 판단부의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 재입력 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치.
제2항에 있어서, 상기 명령의도 판단부는,
상기 오류 판단부의 판단 결과 오류가 없는 경우에는, 상기 갱신된 명령의도 확률분포 중 최종 명령의도를 선택하는 최종 명령의도 선택부;
를 더 포함하는 결합기반의 음성명령 인식 장치.
제3항에 있어서, 상기 명령의도 판단부는,
사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성하는 선택 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치.
제3항에 있어서, 상기 명령의도 판단부는,
사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 재확인하도록 요청하는 응답을 생성하는 재확인 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치.
제1항에 있어서, 상기 어플리케이션 처리부는,
상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 입력인자 검사부; 및
상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 사용자 의도 부가부;
를 포함하는 결합기반의 음성명령 인식 장치.
제6항에 있어서, 상기 어플리케이션 처리부는,
상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 신뢰성 검사부; 및
상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 사용자 의도 확인부;
를 더 포함하는 결합기반의 음성명령 인식 장치.
사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력하는 음성 인터페이스부와;
상기 음성 인터페이스부를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하고, 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 음성명령 인식부; 및
상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행하는 구동부;
를 포함하는 휴대용 통신 기기.
제8항에 있어서, 상기 휴대용 통신 기기는,
웹 서버와 유/무선 통신을 하는 통신부를 더 포함하며,
상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 상기 통신부를 통해 상기 웹 서버로부터 관련 정보를 다운받는 휴대용 통신 기기.
사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 단계; 및
상기 판단하는 단계에서 판단된 최종 명령의도가 해당 어플리에케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 실행 신호를 생성하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법.
제10항에 있어서, 상기 판단하는 단계는,
사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 단계와;
상기 갱신하는 단계에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 단계; 및
상기 오류를 판단하는 단계의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법.
제10항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 단계; 및
상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법.
제12항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 단계; 및
상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법.