KR20120079344A - 결합기반의 음성명령 인식 장치 및 그 방법 - Google Patents

결합기반의 음성명령 인식 장치 및 그 방법 Download PDF

Info

Publication number
KR20120079344A
KR20120079344A KR1020110000578A KR20110000578A KR20120079344A KR 20120079344 A KR20120079344 A KR 20120079344A KR 1020110000578 A KR1020110000578 A KR 1020110000578A KR 20110000578 A KR20110000578 A KR 20110000578A KR 20120079344 A KR20120079344 A KR 20120079344A
Authority
KR
South Korea
Prior art keywords
command
intention
input
user
application
Prior art date
Application number
KR1020110000578A
Other languages
English (en)
Other versions
KR101828273B1 (ko
Inventor
곽병관
박치연
김정수
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020110000578A priority Critical patent/KR101828273B1/ko
Priority to US13/245,032 priority patent/US8954326B2/en
Publication of KR20120079344A publication Critical patent/KR20120079344A/ko
Application granted granted Critical
Publication of KR101828273B1 publication Critical patent/KR101828273B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다. 일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 처리부를 포함한다.

Description

결합기반의 음성명령 인식 장치 및 그 방법{APPARATUS AND METHOD FOR VOICE COMMAND RECOGNITION BASED ON COMBINATION OF DIALOG MODELS}
음성명령 인식 기술에 관한 것으로, 더욱 상세하게는 음성 대화형 사용자 인터페이스에서의 결합기반의 음성명령 인식 장치 및 그 방법에 관한 것이다.
오늘날 음성 대화 인터페이스는 비행기 예약번호 입력, 기차 예매, 현금 지급기 사용 등과 같이 사용범위가 점차 확대되고 있다. 음성 대화 인터페이스를 이용한 시스템이 사용되기 위해서는 해당 시스템에 대화 모델이 설정되어야 한다. 음성명령을 인식하기 위한 대표적 모델 중 하나는 규칙 기반 대화 모델이다. 이는 음성 인식결과에 대해 하나의 가설을 바탕으로 대화를 이끌어 나간다. 그러나 시스템에 예상 가능한 모든 응답을 입력해야 하고, 음성 인식 오류에 대처하기 쉽지 않다.
음성명령을 인식하기 위한 또 다른 모델은 통계적 대화 모델이다. 이는 음성명령의 인식 결과를 여러 가지 가능성을 가지는 확률로 가정하고, 이 중 가장 적절한 대응을 결정하는 방법이다. 이는 규칙 기반 대화 모델과 달리 모든 가능한 대화 현상을 일일이 구성하지 않아도 되며, 인식 오류가 발생해도 재확인 과정을 거쳐 명령의도를 파악하여 보다 안정적인 대화 모델을 구축할 수 있다.
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다.
일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 수행 처리부를 포함한다.
일 실시예에 따른 결합기반의 음성명령 인식 방법은 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 단계와, 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 단계를 포함한다.
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도에 대한 인식 오류는 통계적 대화 모델로 처리하고, 어플리케이션 요청에 대한 판단은 규칙 기반 대화 모델로 처리함으로써, 자연스럽고 다양한 오류 처리 및 빠른 대화 흐름의 제어가 가능하다.
도 1은 일 실시예에 따른 음성명령 인식장치의 내부 구성도,
도 2는 일 실시예에 따른 음성명령 인식장치 중 명령의도 판단부의 내부 구성도,
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도,
도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도,
도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도,
도 4a는 일 실시예에 따른 음성명령 인식장치 중 어플리케이션 수행 처리부의 내부 구성도,
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도,
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도,
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도,
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 일 실시예에 따른 음성명령 인식장치(100)의 내부 구성도이다.
도 1을 참조하면, 음성명령 인식장치(100)는 명령의도 판단부(110)와 어플리케이션 수행 처리부(130)를 포함한다. 명령의도 판단부(110)는 사용자의 음성명령에 대한 명령의도 확률분포를 생성한다. 명령의도 확률분포는 현재 대화 흐름의 상황이라고 예상되는 여러 가지 상황에 확률적 분포를 말한다. 또한, 명령의도 판단부(110)는 명령의도 확률분포를 통해 입력되는 음성명령의 인식 오류를 수정하고, 사용자 음성명령의 최종 명령의도를 판단한다. 명령의도 판단부(110)는 기본적으로 통계적 대화 모델링을 이용한다. 통계적 대화 모델은 예를 들어 POMDP(Partially Observable Markov Decision Process)로 모델링 된다.
어플리케이션 처리부(130)는 명령의도 판단부(110)에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인한다. 어플리케이션 처리부(130)는 지식 기반 대화 모델링을 이용한다. 어플리케이션 처리부(130)는 각 어플리케이션에 대한 어플리케이션 규칙을 적용하여 어플리케이션 내용에 대한 처리를 한다. 어플리케이션 처리부(130)는 최종 명령의도를 분석하여 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득한다. 어플리케이션 처리부(130)는 어플리케이션 규칙에 따라 해당 어플리케이션을 수행하는데 문제가 없는 경우에는 해당 어플리케이션 동작신호를 생성한다.
도 2는 일 실시예에 따른 음성명령 인식장치(100) 중 명령의도 판단부(110)의 내부 구성도이다.
도 2를 참조하면, 명령의도 판단부(110)는 명령의도 확률분포 갱신부(111), 명령의도 확률분포 저장부(112), 오류 판단부(113), 재입력 응답 생성부(114), 최종 명령 선택부, 선택 응답 생성부(116), 재확인 응답 생성부(117)를 포함한다. 명령의도 확률분포 갱신부(111)는 사용자의 음성명령에 대한 명령의도 확률분포를 대화를 진행하면서 갱신한다. 즉, 대화를 진행하면서 사용자의 음성명령의 인식의 정확도를 확률적으로 갱신한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 명령의도 확률분포 저장부(112)에 저장한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 오류 판단부(113)로 출력한다.
오류 판단부(113)는 명령의도 확률분포 갱신부(111)에 의해 갱신된 명령의도 확률분포를 통해, 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다. 오류 판단부(113)는 입력된 음성명령에 대한 명령의도가 명확한지를 판단한다. 만약, 입력된 음성명령 자체에 인식 오류가 없거나 명령의도가 불명확한 경우가 아니면 갱신된 확률분포를 최종 명령의도 선택부(115)로 출력한다. 그러나, 입력된 음성명령에 인식 오류가 발생하거나 명령의도가 불명확한 경우에는 재입력 응답 생성부(114)로 오류 정보를 출력한다.
재입력 응답 생성부(114)는 오류 판단부(113)의 판단 결과에서 음성명령에 오류가 있는 경우에는, 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다. 재입력 응답 생성부(114)의 응답에 대응하여 사용자가 음성명령을 재입력하면, 재입력된 음성명령에 의해 오류가 해소되었는지 여부를 판단한다. 이상과 같이, 오류 판단부(113)와 재입력 응답 생성부(114)의 오류 판단과정 및 응답 생성예와 관련해서는 도 3a를 참조하여 후술하도록 한다.
최종 명령의도 선택부(115)는 오류 판단부(113)의 판단 결과 오류가 없는 경우에는, 갱신된 명령의도 확률분포 중 최종 명령의도를 선택한다. 최종 명령의도 선택부(115)는 갱신된 명령의도 확률분포 중 임계치 이상의 확률을 가지는 명령의도를 최종 명령의도로 선택한다. 최종 명령의도 선택부(115)는 명령의도가 인식의 오류는 없으나, 그 의도가 불명확하여 최종 명령의도를 선택하기 어려운 경우, 사용자에게 음성명령을 명확히 해달라는 응답을 생성하도록 제어한다. 다만, 최종 명령의도가 명확한 경우에는 이를 어플리케이션 처리부(130)로 출력한다.
선택 응답 생성부(116)는 갱신된 명령의도 확률분포 중 비슷한 확률을 가지는 최종 명령의도 후보가 있는 경우, 사용자에게 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성한다. 선택 응답 생성부(116)에 의해 생성된 선택 요청 응답에 대응하여, 사용자로부터 선택된 음성명령이 입력됨으로써 보다 명확하게 최종 명령의도를 선택한다.
재확인 응답 생성부(117)는 갱신된 명령의도 확률분포 중 최종 명령의도를 재확인하도록 사용자에게 요청하는 응답을 생성한다. 재확인 응답 생성부(117)에서 생성된 응답에 대응하여, 사용자가 입력한 음성명령이 임력됨으로써 보다 명확하게 최종 명령의도를 선택한다. 이상과 같이, 최종 명령의도 선택부(115)에서의 최종 명령의도 선택과정과 선택 응답 생성부(116), 재확인 응답 생성부(117)의 응답예는 도 3b내지 도 3c를 참조하여 후술하도록 한다.
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도, 도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도, 도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도이다.
도 3a를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "KBS에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 이어지는 음성명령이 "내일 날씨는 좋으려나"와 같이 이전의 주제와 다른 음성명령이 입력되는 경우에는 사용자 음성명령의 인식오류 또는 명령의도 오류로 판단한다. 이 경우, 재입력 응답 생성부(114)는 "다시 입력해 주십시오."와 같은 응답을 생성한다. 즉, 이전 까지는 채널검색에 관련된 대화가 이뤄지다가 갑자기 날씨검색에 대한 음성명령이 입력되면 사용자의 명령의도가 불명확하기 때문에 재입력 응답을 요청한다.
또한, 사용자의 음성명령이 설정되지 않은 외국어나 다른 어휘를 사용함으로써 음성명령 자체를 인식할 수 없는 경우에도 인식 오류가 발생한다. 따라서, 재입력 응답 생성부(114)는 재입력 요청 메시지를 생성한다. 사용자는 재입력 요청 메시에 대응하여 음성명령을 재입력하게 되고, 그 입력 결과를 기존의 명령의도 확률분포와 비교하여 사용자 명령의도를 명확히 확정할 수 있다.
도 3b를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "MBC에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 다음에 입력되는 사용자 음성명령이 "KBS 틀어봐"인 경우, 명령의도 확률분포 중 채널변경에 대한 확률이 증가한다. 다만, 시스템에 설정된 KBS 채널이 KBS 1, KBS 2인 경우에는, 사용자의 의도가 KBS 1으로 채널을 변경하라는 것인지 KBS 2로 채널을 변경하라는 것인지 불분명하게 된다. 따라서, 재입력 응답 생성부(114)는 "KBS 1과 KBS 2 중 어디로 채널을 바꿀까요?"와 같은 선택 요청 응답을 생성한다.
이 경우, 최종 명령의도 후보는 KBS 1, KBS 2가 될 수 있으며 각 경우에 따라 여러 후보가 발생할 수 있다. 최종 명령의도 후보 중 하나를 선택하라는 선택 요청 응답이 발생되고, 사용자는 그에 대응하여 하나의 채널을 선택하는 음성명령을 입력하게 된다. 따라서, 최종 명령의도 선택부(115)는 보다 정확한 최종 명령의도를 명확히 확정할 수 있다.
도 3c를 참조하면, 사용자의 음성명령이 "문화방송에서 뭐해?"인 경우, 명령의도 확률분포 중 채널검색의 확률이 가장 높게 된다. 다만, "문화방송"이 "MBC"와 같은 채널이므로, 이에 대한 재확인 과정을 필요로 한다. 따라서, 재확인 응답 생성부(117)는 "MBC 채널을 검색할까요?"와 같은 응답을 생성하게 된다. 따라서, 사용자는 자신이 말한 "문화방송"이 "MBC"인 경우에는 "그래", "MBC"가 아닌 경우에는 "아니"와 같은 음성명령을 입력하게 된다. 이에 따라, 최종 명령의도가 더욱 명확해진다.
도 4a는 일 실시예에 따른 음성명령 인식장치(100) 중 어플리케이션 처리부(130)의 내부 구성도이다.
도 4a를 참조하면, 어플리케이션 처리부(130)는 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137), 어플리케이션 규칙 저장부(139)를 포함한다.
입력인자 검사부(131)는 명령의도 판단부(110)로부터 입력된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사한다. 입력인자 검사부(131)는 어플리케이션 규칙 저장부(139)에 저장된 어플리케이션 규칙을 기준으로 어플리케이션 규칙을 만족하는지 판단한다. 예를 들어, TV 채널변경의 어플리케이션에서는 채널명이나 채널번호 등이 입력인자가 된다. 이러한, 입력인자 중 일부 또는 전부가 부족한 경우에는 어플리케이션 구동 신호를 생성하지 않고, 사용자에게 부족한 입력인자를 요청하게 된다.
사용자 의도 부가부(133)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 사용자에게 요청한다. 사용자 의도 부가부(133)는 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 어플리케이션 실행을 위한 입력인자 정보를 획득한다.
신뢰성 검사부(135)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 입력인자가 어플리케이션을 제공하기에 유효한 입력인지를 검사한다. 즉, 최종 명령의도에 포함된 입력인자가 어플리케이션을 오류없이 수행될 수 있는 유효한 입력인자인지에 대해 각 입력인자 값에 대한 신뢰도를 측정한다. 이 경우, 신뢰도는 언어해석 및 대화관리를 거치면서 입력인자 값에 대한 신뢰값으로 계산될 수 있다. 이러한 신뢰도가 일정 수준을 넘는 경우에는 어플리케이션을 제공하는 모듈(도시되지 않음)에 어플리케이션 구동 신호를 출력한다. 그러나, 신뢰도가 일정 수준을 넘지 않는 경우에는 사용자의 의도를 확인하게 된다.
사용자 의도 확인부(137)는 신뢰성 검사부(135)의 검사 결과에 따라 입력인자 중 유효하지 않은 입력인자가 포함된 경우, 유효하지 않은 입력인자에 대하여 사용자에게 재입력을 요청한다. 사용자 의도 확인부(137)는 사용자의 의도를 재확인하기 위해 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 시비스 실행을 위한 유효한 입력인자 정보를 획득한다.
이상과 같이, 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137)에 대한 구체적인 실시예는 도 5를 참조하여 후술하도록 한다.
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도이다.
도 4b를 참조하면, 사용자 음성명령이 "채널을 바꿔봐"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)는 어플리케이션 규칙을 적용하여 어플리케이션 실행을 위한 입력인자를 모두 포함하는지를 판단한다. 이 경우, 구체적인 채널명에 대한 입력인자가 없기 때무에 사용자 의도 부가부(133)는 "어느 채널로 바꿀까요?"와 같은 응답을 생성한다. 사용자는 이에 대응하여 특정 채널명을 입력하게 되고, 입력인자인 특정 채널명이 입력됨으로써 어플리케이션 구동 신호를 출력하게 된다.
한편, 사용자 음성명령이 "EBS에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "EBS"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 EBS 채널로 변경하는 것이 유효한지 여부를 판단한다. 만약, 어플리케이션 규칙에 EBS 채널이 존재하지 않는 경우에는 사용자 의도 확인부(137)는 "죄송합니다. EBS는 지원하지 않는 채널입니다. 다른 채널을 선택하여 주십시오."와 같은 응답을 생성한다.
또한, 사용자 음성명령이 "MBC에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "MBC"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 MBC 채널로 변경하는 것이 유효한지 여부를 판단한다. 이 경우, 해당 어플리케이션 규칙에 MBC 채널이 존재하는 경우 이러한 음성명령은 유효한 것으로 판단된다. 이 경우, 사용자 의도 확인부(137)는 해당 어플리케이션를 실행한다는 것을 사용자에게 알리기 위해 "MBC로 채널을 변경하였습니다."와 같은 응답을 생성할 수 있다. 이를 통해, 사용자에게 해당 어플리케이션를 재확인할 수 있다.
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도이다.
도 5를 참조하면, 휴대용 통신 기기(500)는 음성 인터페이스부(510), 음성명령 인식부(530), 구동부(550), 통신부(570)를 포함한다. 음성 인터페이스부(510)는 음성을 수신하는 마이크와 음성을 출력하는 스피커를 포함한다. 음성 인터페이스부(510)는 사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력한다.
음성명령 인식부(530)는 음성 인터페이스부(510)를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단한다. 또한, 음성명령 인식부(530)는 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 동작신호를 생성한다. 이는 앞서 설명한 음성명령 인식장치와 동일한 기능을 수행한다.
구동부(550)는 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행한다. 구동부(550)에는 각 어플리케이션과 관련된 구동모듈을 제어한다.
본 발명의 일 실시예에 따른 휴대용 통신 기기(500)는 통신부(570)를 더 포함한다. 통신부(570)는 웹 서버(300)와 유/무선 통신을 한다. 이 경우, 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 통신부(570)를 통해 웹 서버(300) 또는 또 다른 휴대용 기기(400)로부터 관련 정보를 다운받는다. 예를 들어, 사용자의 음성명령 신호가 음악 콘텐츠 웹 서버로부터 특정 가수의 음원을 다운받는 것이라면, 구동부(550)는 통신부(570)를 제어하여, 웹 서버(300)로부터 해당 음원을 다운받도록 하는 것이 가능하다.
또한, 본 발명의 휴대용 통신 기기(500)는 또 다른 통신 기기(400)로부터 음성명령을 입력받을 수 있다. 다른 통신 기기(400)의 사용자가 음성명령을 입력하면, 휴대용 통신 기기(500)는 해당 음성명령을 분석하여 그에 해당하는 어플리케이션을 실행하게 된다. 이러한 응용예는 학교, 소방서, 경찰서, 홈 네트워크 등에서 음성명령을 통한 원격제어가 가능하게 한다.
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도이다.
도 6을 참조하면, 사용자의 음성명령을 입력받아 명령의도 확률분포를 계산하고, 대화를 진행함에 따다 명령의도 확률분포를 갱신한다(610). 이는 사용자 음성명령의 명령의도에 대한 통계적인 대화 모델링 방법을 적용한 것이다. 이에 따라, 사용자의 음성명령에 대한 하나의 가설이 아닌 여러 가설을 설정하여 관리함으로써 예상치 못한 음성명령 오류 등에 대처할 수 있다.
다음으로, 갱신된 명령의도 확률분포를 통해 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다(620). 음성명령 자체에 오류가 있어, 이를 명령으로 인식할 수 없거나 명령의도가 파악되지 않는 경우인지를 판단한다. 이 경우, 음성명령에 오류가 있는 경우에는 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다(630). 이러한, 부대화(sub-dialog)를 통해 사용자로부터 정확한 음성명령을 입력받음으로써, 인식 오류에 대해 적절히 대응할 수 있다.
오류를 판단하는 단계에서 오류가 없다고 판단한 경우에는 갱신된 명령의도 확률분포 중 최종 명령의도를 선택할 수 있는지 여부를 판단한다(640). 명령의도 확률분포 중 최종 명령의도 후보가 여러 개인 경우나 최종 명령의도 후보가 하나이나 재확인이 필요한 경우인지를 판단하는 것이다. 이 경우, 최종 명령의도 후보 중 최종 명령의도를 선택할 수 없는 경우에는 부대화(sub-dialog)를 통해 사용자로부터 최종 명령의도를 선택하는데 필요한 음성명령을 입력받는다(650). 그러나, 최종 명령의도의 선택이 가능하면, 선택된 최종 명령의도를 출력한다(660).
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.
도 7을 참조하면, 최종 명령의도를 입력받아 해당 어플리케이션을 실행할 수 있을 정도로 필요한 입력인자를 포함하고 있는지를 판단한다(710). 입력인자는 해당 어플리케이션마다 달리 설정될 수 있으며, 이는 어플리케이션 규칙으로 제한된다. 이 경우, 어플리케이션을 실행할 수 있을만큼의 필요한 입력인자 중 일부가 없는 경우에는, 입력인자를 추가적으로 요청하는 응답을 생성한다(720). 이는 필요한 입력인자에 대한 요청을 하는 부대화(sub-dialog)를 통해, 사용자로부터 해당 입력인자를 포함한 음성명령을 입력받을 수 있다.
그러나, 최종 명령의도에 어플리케이션을 수행하는데 필요한 입력인자를 모두 포함하고 있는 경우에는, 입력인자가 해당 어플리케이션을 제공하기에 유효한 입력인지를 검사한다(730). 이 경우, 포함된 입력인자 중 유효하지 않은 입력인자가 있는 경우에는 입력인자의 재확인 요청 응답을 생성한다(740). 이는 부대화(sub-dialog)를 통해 해당 입력인자가 유효한지 여부를 재확인하고, 유효한 입력인자를 포함한 음성명령을 사용자로부터 입력받게 된다. 만약, 최종 명령의도에 포함된 입력인자가 모두 유효한 경우에는 해당 어플리케이션을 실행시킬 수 있는 어플리케이션 구동 신호를 출력한다(750).
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성명령 인식장치
110 : 명령의도 판단부
111 : 명령의도 확률분포 갱신부
112 : 명령의도 확률분포 저장부
113 : 오류 판단부
114 : 재입력 응답 생성부
115 : 최종 명령의도 선택부
116 : 선택 응답 생성부
117 : 재확인 응답 생성부
130 : 어플리케이션 처리부
131 : 입력인자 검사부
133 : 사용자 의도 부가부
135 : 신뢰성 검사부
137 : 사용자 의도 확인부
139 : 어플리케이션 규칙 저장부
300 : 웹 서버
400 : 통신 기기
500 : 휴대용 통신 기기
510 : 음성 인터페이스부
530 : 음성명령 인식부
550 : 구동부
570 : 통신부

Claims (13)

  1. 사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 명령의도 판단부; 및
    상기 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 어플리케이션 처리부;
    를 포함하는 결합기반의 음성명령 인식 장치.
  2. 제1항에 있어서, 상기 명령의도 판단부는,
    사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 명령의도 확률분포 갱신부와;
    상기 명령의도 확률분포 갱신부에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 오류 판단부; 및
    상기 오류 판단부의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 재입력 응답 생성부;
    를 포함하는 결합기반의 음성명령 인식 장치.
  3. 제2항에 있어서, 상기 명령의도 판단부는,
    상기 오류 판단부의 판단 결과 오류가 없는 경우에는, 상기 갱신된 명령의도 확률분포 중 최종 명령의도를 선택하는 최종 명령의도 선택부;
    를 더 포함하는 결합기반의 음성명령 인식 장치.
  4. 제3항에 있어서, 상기 명령의도 판단부는,
    사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성하는 선택 응답 생성부;
    를 포함하는 결합기반의 음성명령 인식 장치.
  5. 제3항에 있어서, 상기 명령의도 판단부는,
    사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 재확인하도록 요청하는 응답을 생성하는 재확인 응답 생성부;
    를 포함하는 결합기반의 음성명령 인식 장치.
  6. 제1항에 있어서, 상기 어플리케이션 처리부는,
    상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 입력인자 검사부; 및
    상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 사용자 의도 부가부;
    를 포함하는 결합기반의 음성명령 인식 장치.
  7. 제6항에 있어서, 상기 어플리케이션 처리부는,
    상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 신뢰성 검사부; 및
    상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 사용자 의도 확인부;
    를 더 포함하는 결합기반의 음성명령 인식 장치.
  8. 사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력하는 음성 인터페이스부와;
    상기 음성 인터페이스부를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하고, 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 음성명령 인식부; 및
    상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행하는 구동부;
    를 포함하는 휴대용 통신 기기.
  9. 제8항에 있어서, 상기 휴대용 통신 기기는,
    웹 서버와 유/무선 통신을 하는 통신부를 더 포함하며,
    상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 상기 통신부를 통해 상기 웹 서버로부터 관련 정보를 다운받는 휴대용 통신 기기.
  10. 사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 단계; 및
    상기 판단하는 단계에서 판단된 최종 명령의도가 해당 어플리에케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 실행 신호를 생성하는 단계;
    를 포함하는 결합기반의 음성명령 인식 방법.
  11. 제10항에 있어서, 상기 판단하는 단계는,
    사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 단계와;
    상기 갱신하는 단계에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 단계; 및
    상기 오류를 판단하는 단계의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 단계;
    를 포함하는 결합기반의 음성명령 인식 방법.
  12. 제10항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
    상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 단계; 및
    상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 단계;
    를 포함하는 결합기반의 음성명령 인식 방법.
  13. 제12항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
    상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 단계; 및
    상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 단계;
    를 포함하는 결합기반의 음성명령 인식 방법.
KR1020110000578A 2011-01-04 2011-01-04 결합기반의 음성명령 인식 장치 및 그 방법 KR101828273B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020110000578A KR101828273B1 (ko) 2011-01-04 2011-01-04 결합기반의 음성명령 인식 장치 및 그 방법
US13/245,032 US8954326B2 (en) 2011-01-04 2011-09-26 Apparatus and method for voice command recognition based on a combination of dialog models

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020110000578A KR101828273B1 (ko) 2011-01-04 2011-01-04 결합기반의 음성명령 인식 장치 및 그 방법

Publications (2)

Publication Number Publication Date
KR20120079344A true KR20120079344A (ko) 2012-07-12
KR101828273B1 KR101828273B1 (ko) 2018-02-14

Family

ID=46381540

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020110000578A KR101828273B1 (ko) 2011-01-04 2011-01-04 결합기반의 음성명령 인식 장치 및 그 방법

Country Status (2)

Country Link
US (1) US8954326B2 (ko)
KR (1) KR101828273B1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016129740A1 (ko) * 2015-02-10 2016-08-18 미디어젠 주식회사 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
CN108073600A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
KR20200012412A (ko) * 2018-07-27 2020-02-05 (주)휴맥스 스마트 디바이스 및 그 제어 방법
CN112002321A (zh) * 2020-08-11 2020-11-27 海信电子科技(武汉)有限公司 显示设备、服务器及语音交互方法

Families Citing this family (155)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
KR20130135410A (ko) * 2012-05-31 2013-12-11 삼성전자주식회사 음성 인식 기능을 제공하는 방법 및 그 전자 장치
US9734839B1 (en) * 2012-06-20 2017-08-15 Amazon Technologies, Inc. Routing natural language commands to the appropriate applications
US8831957B2 (en) * 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
KR101364774B1 (ko) * 2012-12-07 2014-02-20 포항공과대학교 산학협력단 음성 인식의 오류 수정 방법 및 장치
KR20140089863A (ko) 2013-01-07 2014-07-16 삼성전자주식회사 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법
KR102112742B1 (ko) * 2013-01-22 2020-05-19 삼성전자주식회사 전자장치 및 그 음성 처리 방법
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197334A2 (en) * 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR102160767B1 (ko) 2013-06-20 2020-09-29 삼성전자주식회사 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9653071B2 (en) * 2014-02-08 2017-05-16 Honda Motor Co., Ltd. Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages
US9837075B2 (en) 2014-02-10 2017-12-05 Mitsubishi Electric Research Laboratories, Inc. Statistical voice dialog system and method
US20150278370A1 (en) * 2014-04-01 2015-10-01 Microsoft Corporation Task completion for natural language input
US9860076B2 (en) * 2014-05-07 2018-01-02 Vivint, Inc. Home automation via voice control
US9966065B2 (en) * 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
RU2631975C2 (ru) * 2014-08-29 2017-09-29 Общество С Ограниченной Ответственностью "Яндекс" Способ и система для обработки входных команд пользователя
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9472196B1 (en) 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9740751B1 (en) 2016-02-18 2017-08-22 Google Inc. Application keywords
US9922648B2 (en) 2016-03-01 2018-03-20 Google Llc Developer voice actions system
CN105893345A (zh) * 2016-03-28 2016-08-24 联想(北京)有限公司 一种信息处理方法和电子设备
US11222633B2 (en) * 2016-05-20 2022-01-11 Nippon Telegraph And Telephone Corporation Dialogue method, dialogue system, dialogue apparatus and program
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US9691384B1 (en) 2016-08-19 2017-06-27 Google Inc. Voice action biasing system
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
WO2018147687A1 (en) 2017-02-10 2018-08-16 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
KR102068182B1 (ko) * 2017-04-21 2020-01-20 엘지전자 주식회사 음성 인식 장치, 및 음성 인식 시스템
WO2018198812A1 (ja) * 2017-04-27 2018-11-01 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10991369B1 (en) * 2018-01-31 2021-04-27 Progress Software Corporation Cognitive flow
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
CN108520746B (zh) * 2018-03-22 2022-04-01 北京小米移动软件有限公司 语音控制智能设备的方法、装置及存储介质
US11544303B1 (en) * 2018-03-23 2023-01-03 Amazon Technologies, Inc. Responding with unresponsive content
US11854040B1 (en) 2018-03-23 2023-12-26 Amazon Technologies, Inc. Responding with unresponsive content
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
WO2020111292A1 (en) * 2018-11-27 2020-06-04 Lg Electronics Inc. Multimedia device for processing voice command
US11211063B2 (en) 2018-11-27 2021-12-28 Lg Electronics Inc. Multimedia device for processing voice command
US10783901B2 (en) * 2018-12-10 2020-09-22 Amazon Technologies, Inc. Alternate response generation
WO2020139121A1 (en) * 2018-12-28 2020-07-02 Ringcentral, Inc., (A Delaware Corporation) Systems and methods for recognizing a speech of a speaker
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
KR20200117317A (ko) * 2019-04-03 2020-10-14 현대자동차주식회사 대화 시스템 및 대화 처리 방법
US11195532B2 (en) * 2019-04-26 2021-12-07 Oracle International Corporation Handling multiple intents in utterances
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
WO2021015801A1 (en) * 2019-07-19 2021-01-28 Google Llc Condensed spoken utterances for automated assistant control of an intricate application gui
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11289075B1 (en) * 2019-12-13 2022-03-29 Amazon Technologies, Inc. Routing of natural language inputs to speech processing applications
CN111128184B (zh) * 2019-12-25 2022-09-02 思必驰科技股份有限公司 一种设备间的语音交互方法和装置
US11810578B2 (en) 2020-05-11 2023-11-07 Apple Inc. Device arbitration for digital assistant-based intercom systems
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11935529B2 (en) 2021-06-15 2024-03-19 Motorola Solutions, Inc. System and method for virtual assistant execution of ambiguous command

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001517815A (ja) * 1997-09-24 2001-10-09 ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ 言語認識上の類似発声識別方法及び装置
US6269335B1 (en) * 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US6192337B1 (en) * 1998-08-14 2001-02-20 International Business Machines Corporation Apparatus and methods for rejecting confusible words during training associated with a speech recognition system
US8135413B2 (en) * 1998-11-24 2012-03-13 Tracbeam Llc Platform and applications for wireless location and other complex services
US8938688B2 (en) * 1998-12-04 2015-01-20 Nuance Communications, Inc. Contextual prediction of user words and user actions
US6968333B2 (en) * 2000-04-02 2005-11-22 Tangis Corporation Soliciting information based on a computer user's context
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7167832B2 (en) * 2001-10-15 2007-01-23 At&T Corp. Method for dialog management
US7293015B2 (en) * 2002-09-19 2007-11-06 Microsoft Corporation Method and system for detecting user intentions in retrieval of hint sentences
US7299181B2 (en) * 2004-06-30 2007-11-20 Microsoft Corporation Homonym processing in the context of voice-activated command systems
JP4604178B2 (ja) * 2004-11-22 2010-12-22 独立行政法人産業技術総合研究所 音声認識装置及び方法ならびにプログラム
US7949533B2 (en) * 2005-02-04 2011-05-24 Vococollect, Inc. Methods and systems for assessing and improving the performance of a speech recognition system
US8010343B2 (en) * 2005-12-15 2011-08-30 Nuance Communications, Inc. Disambiguation systems and methods for use in generating grammars
US8032375B2 (en) * 2006-03-17 2011-10-04 Microsoft Corporation Using generic predictive models for slot values in language modeling
US7752152B2 (en) * 2006-03-17 2010-07-06 Microsoft Corporation Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling
CN101467142A (zh) * 2006-04-04 2009-06-24 约翰逊控制技术公司 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法
US20090282114A1 (en) * 2008-05-08 2009-11-12 Junlan Feng System and method for generating suggested responses to an email
US8090738B2 (en) * 2008-05-14 2012-01-03 Microsoft Corporation Multi-modal search wildcards
US8311292B2 (en) * 2009-02-09 2012-11-13 Cisco Technology, Inc. Context aware, multiple target image recognition
JP2010224194A (ja) * 2009-03-23 2010-10-07 Sony Corp 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム
KR20110036385A (ko) * 2009-10-01 2011-04-07 삼성전자주식회사 사용자 의도 분석 장치 및 방법
US8175617B2 (en) * 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
US8121618B2 (en) * 2009-10-28 2012-02-21 Digimarc Corporation Intuitive computing methods and systems
US9171541B2 (en) * 2009-11-10 2015-10-27 Voicebox Technologies Corporation System and method for hybrid processing in a natural language voice services environment
US20110131040A1 (en) * 2009-12-01 2011-06-02 Honda Motor Co., Ltd Multi-mode speech recognition
WO2011091402A1 (en) * 2010-01-25 2011-07-28 Justin Mason Voice electronic listening assistant

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
WO2016129740A1 (ko) * 2015-02-10 2016-08-18 미디어젠 주식회사 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템
CN108073600A (zh) * 2016-11-11 2018-05-25 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
CN108073600B (zh) * 2016-11-11 2022-06-03 阿里巴巴集团控股有限公司 一种智能问答交互方法、装置以及电子设备
KR20200012412A (ko) * 2018-07-27 2020-02-05 (주)휴맥스 스마트 디바이스 및 그 제어 방법
CN112002321A (zh) * 2020-08-11 2020-11-27 海信电子科技(武汉)有限公司 显示设备、服务器及语音交互方法
CN112002321B (zh) * 2020-08-11 2023-09-19 海信电子科技(武汉)有限公司 显示设备、服务器及语音交互方法

Also Published As

Publication number Publication date
KR101828273B1 (ko) 2018-02-14
US20120173244A1 (en) 2012-07-05
US8954326B2 (en) 2015-02-10

Similar Documents

Publication Publication Date Title
KR101828273B1 (ko) 결합기반의 음성명령 인식 장치 및 그 방법
US11887604B1 (en) Speech interface device with caching component
CN107146606B (zh) 开发人员语音动作系统
KR101699720B1 (ko) 음성명령 인식 장치 및 음성명령 인식 방법
US9159317B2 (en) System and method for recognizing speech
KR20190046623A (ko) 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템
CN112970059B (zh) 用于处理用户话语的电子装置及其控制方法
US8700398B2 (en) Interface for setting confidence thresholds for automatic speech recognition and call steering applications
EP3791383B1 (en) On-device speech synthesis of textual segments for training of on-device speech recognition model
CN110288995B (zh) 基于语音识别的交互方法、装置、存储介质和电子设备
JP2008009153A (ja) 音声対話システム
US20220115000A1 (en) On-device personalization of speech synthesis for training of speech recognition model(s)
JP6675078B2 (ja) 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム
US11615788B2 (en) Method for executing function based on voice and electronic device supporting the same
KR20220143683A (ko) 전자 개인 비서 조정
US20230419964A1 (en) Resolving unique personal identifiers during corresponding conversations between a voice bot and a human
AU2021266674A1 (en) Systems and methods for adaptive assessment
US11756538B1 (en) Lower latency speech processing
KR101196976B1 (ko) 확인 대화가 가능한 확률 및 예제 기반의 음성 대화 시스템
KR20220114378A (ko) 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템
JP4537755B2 (ja) 音声対話システム
CN115662430B (zh) 输入数据解析方法、装置、电子设备和存储介质
JP2003228393A (ja) 音声対話装置及び方法、音声対話プログラム並びにその記録媒体
CN115910025A (zh) 语音处理方法、装置、电子设备和介质
KR20210059967A (ko) 비정상 잡음을 판단하는 전자 장치 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant