KR20120079344A - 결합기반의 음성명령 인식 장치 및 그 방법 - Google Patents
결합기반의 음성명령 인식 장치 및 그 방법 Download PDFInfo
- Publication number
- KR20120079344A KR20120079344A KR1020110000578A KR20110000578A KR20120079344A KR 20120079344 A KR20120079344 A KR 20120079344A KR 1020110000578 A KR1020110000578 A KR 1020110000578A KR 20110000578 A KR20110000578 A KR 20110000578A KR 20120079344 A KR20120079344 A KR 20120079344A
- Authority
- KR
- South Korea
- Prior art keywords
- command
- intention
- input
- user
- application
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다. 일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 처리부를 포함한다.
Description
음성명령 인식 기술에 관한 것으로, 더욱 상세하게는 음성 대화형 사용자 인터페이스에서의 결합기반의 음성명령 인식 장치 및 그 방법에 관한 것이다.
오늘날 음성 대화 인터페이스는 비행기 예약번호 입력, 기차 예매, 현금 지급기 사용 등과 같이 사용범위가 점차 확대되고 있다. 음성 대화 인터페이스를 이용한 시스템이 사용되기 위해서는 해당 시스템에 대화 모델이 설정되어야 한다. 음성명령을 인식하기 위한 대표적 모델 중 하나는 규칙 기반 대화 모델이다. 이는 음성 인식결과에 대해 하나의 가설을 바탕으로 대화를 이끌어 나간다. 그러나 시스템에 예상 가능한 모든 응답을 입력해야 하고, 음성 인식 오류에 대처하기 쉽지 않다.
음성명령을 인식하기 위한 또 다른 모델은 통계적 대화 모델이다. 이는 음성명령의 인식 결과를 여러 가지 가능성을 가지는 확률로 가정하고, 이 중 가장 적절한 대응을 결정하는 방법이다. 이는 규칙 기반 대화 모델과 달리 모든 가능한 대화 현상을 일일이 구성하지 않아도 되며, 인식 오류가 발생해도 재확인 과정을 거쳐 명령의도를 파악하여 보다 안정적인 대화 모델을 구축할 수 있다.
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도를 파악하기 위해, 규칙 기반의 대화 모델과 통계적 대화 모델을 결합한 음성명령 인식장치 및 그 인식방법에 관한 기술을 개시하고자 한다.
일 실시예에 따른 결합기반의 음성명령 인식 장치는 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 명령의도 판단부와, 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 어플리케이션 수행 처리부를 포함한다.
일 실시예에 따른 결합기반의 음성명령 인식 방법은 사용자의 음성명령에 대한 명령의도 확률분포를 통해 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단하는 단계와, 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 요청신호를 생성하는 단계를 포함한다.
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도에 대한 인식 오류는 통계적 대화 모델로 처리하고, 어플리케이션 요청에 대한 판단은 규칙 기반 대화 모델로 처리함으로써, 자연스럽고 다양한 오류 처리 및 빠른 대화 흐름의 제어가 가능하다.
도 1은 일 실시예에 따른 음성명령 인식장치의 내부 구성도,
도 2는 일 실시예에 따른 음성명령 인식장치 중 명령의도 판단부의 내부 구성도,
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도,
도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도,
도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도,
도 4a는 일 실시예에 따른 음성명령 인식장치 중 어플리케이션 수행 처리부의 내부 구성도,
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도,
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도,
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도,
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.
도 2는 일 실시예에 따른 음성명령 인식장치 중 명령의도 판단부의 내부 구성도,
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도,
도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도,
도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도,
도 4a는 일 실시예에 따른 음성명령 인식장치 중 어플리케이션 수행 처리부의 내부 구성도,
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도,
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도,
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도,
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 일 실시예에 따른 음성명령 인식장치(100)의 내부 구성도이다.
도 1을 참조하면, 음성명령 인식장치(100)는 명령의도 판단부(110)와 어플리케이션 수행 처리부(130)를 포함한다. 명령의도 판단부(110)는 사용자의 음성명령에 대한 명령의도 확률분포를 생성한다. 명령의도 확률분포는 현재 대화 흐름의 상황이라고 예상되는 여러 가지 상황에 확률적 분포를 말한다. 또한, 명령의도 판단부(110)는 명령의도 확률분포를 통해 입력되는 음성명령의 인식 오류를 수정하고, 사용자 음성명령의 최종 명령의도를 판단한다. 명령의도 판단부(110)는 기본적으로 통계적 대화 모델링을 이용한다. 통계적 대화 모델은 예를 들어 POMDP(Partially Observable Markov Decision Process)로 모델링 된다.
어플리케이션 처리부(130)는 명령의도 판단부(110)에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인한다. 어플리케이션 처리부(130)는 지식 기반 대화 모델링을 이용한다. 어플리케이션 처리부(130)는 각 어플리케이션에 대한 어플리케이션 규칙을 적용하여 어플리케이션 내용에 대한 처리를 한다. 어플리케이션 처리부(130)는 최종 명령의도를 분석하여 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득한다. 어플리케이션 처리부(130)는 어플리케이션 규칙에 따라 해당 어플리케이션을 수행하는데 문제가 없는 경우에는 해당 어플리케이션 동작신호를 생성한다.
도 2는 일 실시예에 따른 음성명령 인식장치(100) 중 명령의도 판단부(110)의 내부 구성도이다.
도 2를 참조하면, 명령의도 판단부(110)는 명령의도 확률분포 갱신부(111), 명령의도 확률분포 저장부(112), 오류 판단부(113), 재입력 응답 생성부(114), 최종 명령 선택부, 선택 응답 생성부(116), 재확인 응답 생성부(117)를 포함한다. 명령의도 확률분포 갱신부(111)는 사용자의 음성명령에 대한 명령의도 확률분포를 대화를 진행하면서 갱신한다. 즉, 대화를 진행하면서 사용자의 음성명령의 인식의 정확도를 확률적으로 갱신한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 명령의도 확률분포 저장부(112)에 저장한다. 또한, 명령의도 확률분포 갱신부(111)는 갱신된 명령의도 확률분포를 오류 판단부(113)로 출력한다.
오류 판단부(113)는 명령의도 확률분포 갱신부(111)에 의해 갱신된 명령의도 확률분포를 통해, 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다. 오류 판단부(113)는 입력된 음성명령에 대한 명령의도가 명확한지를 판단한다. 만약, 입력된 음성명령 자체에 인식 오류가 없거나 명령의도가 불명확한 경우가 아니면 갱신된 확률분포를 최종 명령의도 선택부(115)로 출력한다. 그러나, 입력된 음성명령에 인식 오류가 발생하거나 명령의도가 불명확한 경우에는 재입력 응답 생성부(114)로 오류 정보를 출력한다.
재입력 응답 생성부(114)는 오류 판단부(113)의 판단 결과에서 음성명령에 오류가 있는 경우에는, 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다. 재입력 응답 생성부(114)의 응답에 대응하여 사용자가 음성명령을 재입력하면, 재입력된 음성명령에 의해 오류가 해소되었는지 여부를 판단한다. 이상과 같이, 오류 판단부(113)와 재입력 응답 생성부(114)의 오류 판단과정 및 응답 생성예와 관련해서는 도 3a를 참조하여 후술하도록 한다.
최종 명령의도 선택부(115)는 오류 판단부(113)의 판단 결과 오류가 없는 경우에는, 갱신된 명령의도 확률분포 중 최종 명령의도를 선택한다. 최종 명령의도 선택부(115)는 갱신된 명령의도 확률분포 중 임계치 이상의 확률을 가지는 명령의도를 최종 명령의도로 선택한다. 최종 명령의도 선택부(115)는 명령의도가 인식의 오류는 없으나, 그 의도가 불명확하여 최종 명령의도를 선택하기 어려운 경우, 사용자에게 음성명령을 명확히 해달라는 응답을 생성하도록 제어한다. 다만, 최종 명령의도가 명확한 경우에는 이를 어플리케이션 처리부(130)로 출력한다.
선택 응답 생성부(116)는 갱신된 명령의도 확률분포 중 비슷한 확률을 가지는 최종 명령의도 후보가 있는 경우, 사용자에게 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성한다. 선택 응답 생성부(116)에 의해 생성된 선택 요청 응답에 대응하여, 사용자로부터 선택된 음성명령이 입력됨으로써 보다 명확하게 최종 명령의도를 선택한다.
재확인 응답 생성부(117)는 갱신된 명령의도 확률분포 중 최종 명령의도를 재확인하도록 사용자에게 요청하는 응답을 생성한다. 재확인 응답 생성부(117)에서 생성된 응답에 대응하여, 사용자가 입력한 음성명령이 임력됨으로써 보다 명확하게 최종 명령의도를 선택한다. 이상과 같이, 최종 명령의도 선택부(115)에서의 최종 명령의도 선택과정과 선택 응답 생성부(116), 재확인 응답 생성부(117)의 응답예는 도 3b내지 도 3c를 참조하여 후술하도록 한다.
도 3a는 일 실시예에 따른 음성명령 인식 오류시의 응답을 설명하기 위한 참조도, 도 3b는 일 실시예에 따른 명령의도 오류시의 선택적 응답을 설명하기 위한 참조도, 도 3c는 일 실시예에 따른 명령의도 불명확시 재확인 응답을 설명하기 위한 참조도이다.
도 3a를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "KBS에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 이어지는 음성명령이 "내일 날씨는 좋으려나"와 같이 이전의 주제와 다른 음성명령이 입력되는 경우에는 사용자 음성명령의 인식오류 또는 명령의도 오류로 판단한다. 이 경우, 재입력 응답 생성부(114)는 "다시 입력해 주십시오."와 같은 응답을 생성한다. 즉, 이전 까지는 채널검색에 관련된 대화가 이뤄지다가 갑자기 날씨검색에 대한 음성명령이 입력되면 사용자의 명령의도가 불명확하기 때문에 재입력 응답을 요청한다.
또한, 사용자의 음성명령이 설정되지 않은 외국어나 다른 어휘를 사용함으로써 음성명령 자체를 인식할 수 없는 경우에도 인식 오류가 발생한다. 따라서, 재입력 응답 생성부(114)는 재입력 요청 메시지를 생성한다. 사용자는 재입력 요청 메시에 대응하여 음성명령을 재입력하게 되고, 그 입력 결과를 기존의 명령의도 확률분포와 비교하여 사용자 명령의도를 명확히 확정할 수 있다.
도 3b를 참조하면, 사용자의 음성명령이 "지금 TV에서 뭐해?"와 "MBC에서는 뭐해?"와 같이 진행되는 경우, 명령의도 확률분포 갱신부(111)에서는 채널검색에 대한 명령의도 확률이 높게 설정된다. 그러나, 다음에 입력되는 사용자 음성명령이 "KBS 틀어봐"인 경우, 명령의도 확률분포 중 채널변경에 대한 확률이 증가한다. 다만, 시스템에 설정된 KBS 채널이 KBS 1, KBS 2인 경우에는, 사용자의 의도가 KBS 1으로 채널을 변경하라는 것인지 KBS 2로 채널을 변경하라는 것인지 불분명하게 된다. 따라서, 재입력 응답 생성부(114)는 "KBS 1과 KBS 2 중 어디로 채널을 바꿀까요?"와 같은 선택 요청 응답을 생성한다.
이 경우, 최종 명령의도 후보는 KBS 1, KBS 2가 될 수 있으며 각 경우에 따라 여러 후보가 발생할 수 있다. 최종 명령의도 후보 중 하나를 선택하라는 선택 요청 응답이 발생되고, 사용자는 그에 대응하여 하나의 채널을 선택하는 음성명령을 입력하게 된다. 따라서, 최종 명령의도 선택부(115)는 보다 정확한 최종 명령의도를 명확히 확정할 수 있다.
도 3c를 참조하면, 사용자의 음성명령이 "문화방송에서 뭐해?"인 경우, 명령의도 확률분포 중 채널검색의 확률이 가장 높게 된다. 다만, "문화방송"이 "MBC"와 같은 채널이므로, 이에 대한 재확인 과정을 필요로 한다. 따라서, 재확인 응답 생성부(117)는 "MBC 채널을 검색할까요?"와 같은 응답을 생성하게 된다. 따라서, 사용자는 자신이 말한 "문화방송"이 "MBC"인 경우에는 "그래", "MBC"가 아닌 경우에는 "아니"와 같은 음성명령을 입력하게 된다. 이에 따라, 최종 명령의도가 더욱 명확해진다.
도 4a는 일 실시예에 따른 음성명령 인식장치(100) 중 어플리케이션 처리부(130)의 내부 구성도이다.
도 4a를 참조하면, 어플리케이션 처리부(130)는 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137), 어플리케이션 규칙 저장부(139)를 포함한다.
입력인자 검사부(131)는 명령의도 판단부(110)로부터 입력된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사한다. 입력인자 검사부(131)는 어플리케이션 규칙 저장부(139)에 저장된 어플리케이션 규칙을 기준으로 어플리케이션 규칙을 만족하는지 판단한다. 예를 들어, TV 채널변경의 어플리케이션에서는 채널명이나 채널번호 등이 입력인자가 된다. 이러한, 입력인자 중 일부 또는 전부가 부족한 경우에는 어플리케이션 구동 신호를 생성하지 않고, 사용자에게 부족한 입력인자를 요청하게 된다.
사용자 의도 부가부(133)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 사용자에게 요청한다. 사용자 의도 부가부(133)는 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 어플리케이션 실행을 위한 입력인자 정보를 획득한다.
신뢰성 검사부(135)는 최종 명령의도가 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 입력인자가 어플리케이션을 제공하기에 유효한 입력인지를 검사한다. 즉, 최종 명령의도에 포함된 입력인자가 어플리케이션을 오류없이 수행될 수 있는 유효한 입력인자인지에 대해 각 입력인자 값에 대한 신뢰도를 측정한다. 이 경우, 신뢰도는 언어해석 및 대화관리를 거치면서 입력인자 값에 대한 신뢰값으로 계산될 수 있다. 이러한 신뢰도가 일정 수준을 넘는 경우에는 어플리케이션을 제공하는 모듈(도시되지 않음)에 어플리케이션 구동 신호를 출력한다. 그러나, 신뢰도가 일정 수준을 넘지 않는 경우에는 사용자의 의도를 확인하게 된다.
사용자 의도 확인부(137)는 신뢰성 검사부(135)의 검사 결과에 따라 입력인자 중 유효하지 않은 입력인자가 포함된 경우, 유효하지 않은 입력인자에 대하여 사용자에게 재입력을 요청한다. 사용자 의도 확인부(137)는 사용자의 의도를 재확인하기 위해 부대화(sub-dialog)를 생성하여 출력하고, 사용자는 그에 대응한 음성명령을 입력함으로써 시비스 실행을 위한 유효한 입력인자 정보를 획득한다.
이상과 같이, 입력인자 검사부(131), 사용자 의도 부가부(133), 신뢰성 검사부(135), 사용자 의도 확인부(137)에 대한 구체적인 실시예는 도 5를 참조하여 후술하도록 한다.
도 4b는 일 실시예에 따른 어플리케이션 수행 처리 중 상황별 응답을 설명하기 위한 참조도이다.
도 4b를 참조하면, 사용자 음성명령이 "채널을 바꿔봐"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)는 어플리케이션 규칙을 적용하여 어플리케이션 실행을 위한 입력인자를 모두 포함하는지를 판단한다. 이 경우, 구체적인 채널명에 대한 입력인자가 없기 때무에 사용자 의도 부가부(133)는 "어느 채널로 바꿀까요?"와 같은 응답을 생성한다. 사용자는 이에 대응하여 특정 채널명을 입력하게 되고, 입력인자인 특정 채널명이 입력됨으로써 어플리케이션 구동 신호를 출력하게 된다.
한편, 사용자 음성명령이 "EBS에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "EBS"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 EBS 채널로 변경하는 것이 유효한지 여부를 판단한다. 만약, 어플리케이션 규칙에 EBS 채널이 존재하지 않는 경우에는 사용자 의도 확인부(137)는 "죄송합니다. EBS는 지원하지 않는 채널입니다. 다른 채널을 선택하여 주십시오."와 같은 응답을 생성한다.
또한, 사용자 음성명령이 "MBC에선 뭐해?"이고, 최종 명령의도가 "채널변경"인 경우에, 입력인자 검사부(131)에서는 필요한 입력인자인 채널명 "MBC"가 입력되었으므로, 이를 신뢰성 검사부(135)로 출력한다. 신뢰성 검사부(135)는 입력된 최종 명령의도를 기초로, 어플리케이션 규칙을 적용하여 MBC 채널로 변경하는 것이 유효한지 여부를 판단한다. 이 경우, 해당 어플리케이션 규칙에 MBC 채널이 존재하는 경우 이러한 음성명령은 유효한 것으로 판단된다. 이 경우, 사용자 의도 확인부(137)는 해당 어플리케이션를 실행한다는 것을 사용자에게 알리기 위해 "MBC로 채널을 변경하였습니다."와 같은 응답을 생성할 수 있다. 이를 통해, 사용자에게 해당 어플리케이션를 재확인할 수 있다.
도 5는 일 실시예에 따른 음성명령 인식장치를 포함하는 휴대용 통신 기기의 구성도이다.
도 5를 참조하면, 휴대용 통신 기기(500)는 음성 인터페이스부(510), 음성명령 인식부(530), 구동부(550), 통신부(570)를 포함한다. 음성 인터페이스부(510)는 음성을 수신하는 마이크와 음성을 출력하는 스피커를 포함한다. 음성 인터페이스부(510)는 사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력한다.
음성명령 인식부(530)는 음성 인터페이스부(510)를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 음성명령의 최종 명령의도를 판단한다. 또한, 음성명령 인식부(530)는 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 입력인자가 부족한 경우에는 사용자로부터 입력인자와 관련된 정보를 획득하여, 최종 명령의도에 대한 어플리케이션 동작신호를 생성한다. 이는 앞서 설명한 음성명령 인식장치와 동일한 기능을 수행한다.
구동부(550)는 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행한다. 구동부(550)에는 각 어플리케이션과 관련된 구동모듈을 제어한다.
본 발명의 일 실시예에 따른 휴대용 통신 기기(500)는 통신부(570)를 더 포함한다. 통신부(570)는 웹 서버(300)와 유/무선 통신을 한다. 이 경우, 음성명령 인식부(530)에서 생성된 어플리케이션 동작신호에 따라 통신부(570)를 통해 웹 서버(300) 또는 또 다른 휴대용 기기(400)로부터 관련 정보를 다운받는다. 예를 들어, 사용자의 음성명령 신호가 음악 콘텐츠 웹 서버로부터 특정 가수의 음원을 다운받는 것이라면, 구동부(550)는 통신부(570)를 제어하여, 웹 서버(300)로부터 해당 음원을 다운받도록 하는 것이 가능하다.
또한, 본 발명의 휴대용 통신 기기(500)는 또 다른 통신 기기(400)로부터 음성명령을 입력받을 수 있다. 다른 통신 기기(400)의 사용자가 음성명령을 입력하면, 휴대용 통신 기기(500)는 해당 음성명령을 분석하여 그에 해당하는 어플리케이션을 실행하게 된다. 이러한 응용예는 학교, 소방서, 경찰서, 홈 네트워크 등에서 음성명령을 통한 원격제어가 가능하게 한다.
도 6은 일 실시예에 따른 음성명령 인식방법 중 명령의도 판단방법의 흐름도이다.
도 6을 참조하면, 사용자의 음성명령을 입력받아 명령의도 확률분포를 계산하고, 대화를 진행함에 따다 명령의도 확률분포를 갱신한다(610). 이는 사용자 음성명령의 명령의도에 대한 통계적인 대화 모델링 방법을 적용한 것이다. 이에 따라, 사용자의 음성명령에 대한 하나의 가설이 아닌 여러 가설을 설정하여 관리함으로써 예상치 못한 음성명령 오류 등에 대처할 수 있다.
다음으로, 갱신된 명령의도 확률분포를 통해 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단한다(620). 음성명령 자체에 오류가 있어, 이를 명령으로 인식할 수 없거나 명령의도가 파악되지 않는 경우인지를 판단한다. 이 경우, 음성명령에 오류가 있는 경우에는 사용자에게 음성명령의 재입력을 요청하는 응답을 생성한다(630). 이러한, 부대화(sub-dialog)를 통해 사용자로부터 정확한 음성명령을 입력받음으로써, 인식 오류에 대해 적절히 대응할 수 있다.
오류를 판단하는 단계에서 오류가 없다고 판단한 경우에는 갱신된 명령의도 확률분포 중 최종 명령의도를 선택할 수 있는지 여부를 판단한다(640). 명령의도 확률분포 중 최종 명령의도 후보가 여러 개인 경우나 최종 명령의도 후보가 하나이나 재확인이 필요한 경우인지를 판단하는 것이다. 이 경우, 최종 명령의도 후보 중 최종 명령의도를 선택할 수 없는 경우에는 부대화(sub-dialog)를 통해 사용자로부터 최종 명령의도를 선택하는데 필요한 음성명령을 입력받는다(650). 그러나, 최종 명령의도의 선택이 가능하면, 선택된 최종 명령의도를 출력한다(660).
도 7은 일 실시예에 따른 음성명령 인식방법 중 어플리케이션 수행 처리의 흐름도이다.
도 7을 참조하면, 최종 명령의도를 입력받아 해당 어플리케이션을 실행할 수 있을 정도로 필요한 입력인자를 포함하고 있는지를 판단한다(710). 입력인자는 해당 어플리케이션마다 달리 설정될 수 있으며, 이는 어플리케이션 규칙으로 제한된다. 이 경우, 어플리케이션을 실행할 수 있을만큼의 필요한 입력인자 중 일부가 없는 경우에는, 입력인자를 추가적으로 요청하는 응답을 생성한다(720). 이는 필요한 입력인자에 대한 요청을 하는 부대화(sub-dialog)를 통해, 사용자로부터 해당 입력인자를 포함한 음성명령을 입력받을 수 있다.
그러나, 최종 명령의도에 어플리케이션을 수행하는데 필요한 입력인자를 모두 포함하고 있는 경우에는, 입력인자가 해당 어플리케이션을 제공하기에 유효한 입력인지를 검사한다(730). 이 경우, 포함된 입력인자 중 유효하지 않은 입력인자가 있는 경우에는 입력인자의 재확인 요청 응답을 생성한다(740). 이는 부대화(sub-dialog)를 통해 해당 입력인자가 유효한지 여부를 재확인하고, 유효한 입력인자를 포함한 음성명령을 사용자로부터 입력받게 된다. 만약, 최종 명령의도에 포함된 입력인자가 모두 유효한 경우에는 해당 어플리케이션을 실행시킬 수 있는 어플리케이션 구동 신호를 출력한다(750).
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의해 용이하게 추론될 수 있다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성명령 인식장치
110 : 명령의도 판단부
111 : 명령의도 확률분포 갱신부
112 : 명령의도 확률분포 저장부
113 : 오류 판단부
114 : 재입력 응답 생성부
115 : 최종 명령의도 선택부
116 : 선택 응답 생성부
117 : 재확인 응답 생성부
130 : 어플리케이션 처리부
131 : 입력인자 검사부
133 : 사용자 의도 부가부
135 : 신뢰성 검사부
137 : 사용자 의도 확인부
139 : 어플리케이션 규칙 저장부
300 : 웹 서버
400 : 통신 기기
500 : 휴대용 통신 기기
510 : 음성 인터페이스부
530 : 음성명령 인식부
550 : 구동부
570 : 통신부
110 : 명령의도 판단부
111 : 명령의도 확률분포 갱신부
112 : 명령의도 확률분포 저장부
113 : 오류 판단부
114 : 재입력 응답 생성부
115 : 최종 명령의도 선택부
116 : 선택 응답 생성부
117 : 재확인 응답 생성부
130 : 어플리케이션 처리부
131 : 입력인자 검사부
133 : 사용자 의도 부가부
135 : 신뢰성 검사부
137 : 사용자 의도 확인부
139 : 어플리케이션 규칙 저장부
300 : 웹 서버
400 : 통신 기기
500 : 휴대용 통신 기기
510 : 음성 인터페이스부
530 : 음성명령 인식부
550 : 구동부
570 : 통신부
Claims (13)
- 사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 명령의도 판단부; 및
상기 명령의도 판단부에서 판단된 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 어플리케이션 처리부;
를 포함하는 결합기반의 음성명령 인식 장치. - 제1항에 있어서, 상기 명령의도 판단부는,
사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 명령의도 확률분포 갱신부와;
상기 명령의도 확률분포 갱신부에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 오류 판단부; 및
상기 오류 판단부의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 재입력 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치. - 제2항에 있어서, 상기 명령의도 판단부는,
상기 오류 판단부의 판단 결과 오류가 없는 경우에는, 상기 갱신된 명령의도 확률분포 중 최종 명령의도를 선택하는 최종 명령의도 선택부;
를 더 포함하는 결합기반의 음성명령 인식 장치. - 제3항에 있어서, 상기 명령의도 판단부는,
사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 후보 중 하나를 선택하도록 요청하는 응답을 생성하는 선택 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치. - 제3항에 있어서, 상기 명령의도 판단부는,
사용자에게 상기 갱신된 명령의도 확률분포의 최종 명령의도 재확인하도록 요청하는 응답을 생성하는 재확인 응답 생성부;
를 포함하는 결합기반의 음성명령 인식 장치. - 제1항에 있어서, 상기 어플리케이션 처리부는,
상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 입력인자 검사부; 및
상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 사용자 의도 부가부;
를 포함하는 결합기반의 음성명령 인식 장치. - 제6항에 있어서, 상기 어플리케이션 처리부는,
상기 최종 명령의도가 상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 신뢰성 검사부; 및
상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 사용자 의도 확인부;
를 더 포함하는 결합기반의 음성명령 인식 장치. - 사용자로부터 음성명령 신호를 입력받으며, 음성 응답을 출력하는 음성 인터페이스부와;
상기 음성 인터페이스부를 통해 입력된 음성명령 신호의 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하고, 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 동작신호를 생성하는 음성명령 인식부; 및
상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 해당 어플리케이션의 기능을 실행하는 구동부;
를 포함하는 휴대용 통신 기기. - 제8항에 있어서, 상기 휴대용 통신 기기는,
웹 서버와 유/무선 통신을 하는 통신부를 더 포함하며,
상기 음성명령 인식부에서 생성된 어플리케이션 동작신호에 따라 상기 통신부를 통해 상기 웹 서버로부터 관련 정보를 다운받는 휴대용 통신 기기. - 사용자의 음성명령에 대한 명령의도 확률분포를 통해 상기 음성명령의 인식 오류를 수정하고, 상기 음성명령의 최종 명령의도를 판단하는 단계; 및
상기 판단하는 단계에서 판단된 최종 명령의도가 해당 어플리에케이션의 수행에 필요한 입력인자를 포함하는지 확인하고, 상기 입력인자가 부족한 경우에는 상기 사용자로부터 상기 입력인자와 관련된 정보를 획득하여, 상기 최종 명령의도에 대한 어플리케이션 실행 신호를 생성하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법. - 제10항에 있어서, 상기 판단하는 단계는,
사용자의 음성명령에 대한 명령의도 확률분포를 갱신하는 단계와;
상기 갱신하는 단계에 의해 갱신된 명령의도 확률분포를 통해, 상기 음성명령의 인식 오류 또는 명령의도 파악 오류를 판단하는 단계; 및
상기 오류를 판단하는 단계의 판단 결과 오류가 있는 경우에는, 사용자에게 상기 음성명령의 재입력을 요청하는 응답을 생성하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법. - 제10항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
상기 최종 명령의도가 해당 어플리케이션의 수행에 필요한 입력인자를 모두 포함하고 있는지 검사하는 단계; 및
상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있지 않거나, 일부 입력인자를 포함하고 있지 않은 경우, 포함하고 있지 않은 입력인자에 대하여 상기 사용자에게 요청하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법. - 제12항에 있어서, 상기 어플리케이션 실행 신호를 생성하는 단계는,
상기 어플리케이션을 제공하기에 필요한 입력인자를 모두 포함하고 있는 경우, 상기 입력인자가 상기 어플리케이션을 제공하기에 유효한 입력인지를 검사하는 단계; 및
상기 입력인자가 유효하지 않은 입력인자가 포함된 경우, 상기 유효하지 않은 입력인자에 대하여 상기 사용자에게 재입력을 요청하는 단계;
를 포함하는 결합기반의 음성명령 인식 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110000578A KR101828273B1 (ko) | 2011-01-04 | 2011-01-04 | 결합기반의 음성명령 인식 장치 및 그 방법 |
US13/245,032 US8954326B2 (en) | 2011-01-04 | 2011-09-26 | Apparatus and method for voice command recognition based on a combination of dialog models |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110000578A KR101828273B1 (ko) | 2011-01-04 | 2011-01-04 | 결합기반의 음성명령 인식 장치 및 그 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20120079344A true KR20120079344A (ko) | 2012-07-12 |
KR101828273B1 KR101828273B1 (ko) | 2018-02-14 |
Family
ID=46381540
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110000578A KR101828273B1 (ko) | 2011-01-04 | 2011-01-04 | 결합기반의 음성명령 인식 장치 및 그 방법 |
Country Status (2)
Country | Link |
---|---|
US (1) | US8954326B2 (ko) |
KR (1) | KR101828273B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016129740A1 (ko) * | 2015-02-10 | 2016-08-18 | 미디어젠 주식회사 | 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템 |
US9953654B2 (en) | 2014-05-20 | 2018-04-24 | Samsung Electronics Co., Ltd. | Voice command recognition apparatus and method |
CN108073600A (zh) * | 2016-11-11 | 2018-05-25 | 阿里巴巴集团控股有限公司 | 一种智能问答交互方法、装置以及电子设备 |
KR20200012412A (ko) * | 2018-07-27 | 2020-02-05 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
CN112002321A (zh) * | 2020-08-11 | 2020-11-27 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
Families Citing this family (155)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8677377B2 (en) | 2005-09-08 | 2014-03-18 | Apple Inc. | Method and apparatus for building an intelligent automated assistant |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US10002189B2 (en) | 2007-12-20 | 2018-06-19 | Apple Inc. | Method and apparatus for searching using an active ontology |
US9330720B2 (en) | 2008-01-03 | 2016-05-03 | Apple Inc. | Methods and apparatus for altering audio output signals |
US20100030549A1 (en) | 2008-07-31 | 2010-02-04 | Lee Michael M | Mobile device having human language translation capability with positional feedback |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US8682667B2 (en) | 2010-02-25 | 2014-03-25 | Apple Inc. | User profiling for selecting user specific voice input processing information |
US9262612B2 (en) | 2011-03-21 | 2016-02-16 | Apple Inc. | Device access using voice authentication |
US10057736B2 (en) | 2011-06-03 | 2018-08-21 | Apple Inc. | Active transport based notifications |
US10134385B2 (en) | 2012-03-02 | 2018-11-20 | Apple Inc. | Systems and methods for name pronunciation |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
KR20130135410A (ko) * | 2012-05-31 | 2013-12-11 | 삼성전자주식회사 | 음성 인식 기능을 제공하는 방법 및 그 전자 장치 |
US9734839B1 (en) * | 2012-06-20 | 2017-08-15 | Amazon Technologies, Inc. | Routing natural language commands to the appropriate applications |
US8831957B2 (en) * | 2012-08-01 | 2014-09-09 | Google Inc. | Speech recognition models based on location indicia |
KR101364774B1 (ko) * | 2012-12-07 | 2014-02-20 | 포항공과대학교 산학협력단 | 음성 인식의 오류 수정 방법 및 장치 |
KR20140089863A (ko) | 2013-01-07 | 2014-07-16 | 삼성전자주식회사 | 디스플레이 장치, 및 이의 제어 방법, 그리고 음성 인식 시스템의 디스플레이 장치 제어 방법 |
KR102112742B1 (ko) * | 2013-01-22 | 2020-05-19 | 삼성전자주식회사 | 전자장치 및 그 음성 처리 방법 |
CN104969289B (zh) | 2013-02-07 | 2021-05-28 | 苹果公司 | 数字助理的语音触发器 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014197334A2 (en) * | 2013-06-07 | 2014-12-11 | Apple Inc. | System and method for user-specified pronunciation of words for speech synthesis and recognition |
WO2014197335A1 (en) | 2013-06-08 | 2014-12-11 | Apple Inc. | Interpreting and acting upon commands that involve sharing information with remote devices |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101959188B1 (ko) | 2013-06-09 | 2019-07-02 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
KR102160767B1 (ko) | 2013-06-20 | 2020-09-29 | 삼성전자주식회사 | 제스처를 감지하여 기능을 제어하는 휴대 단말 및 방법 |
US10296160B2 (en) | 2013-12-06 | 2019-05-21 | Apple Inc. | Method for extracting salient dialog usage from live data |
US9653071B2 (en) * | 2014-02-08 | 2017-05-16 | Honda Motor Co., Ltd. | Method and system for the correction-centric detection of critical speech recognition errors in spoken short messages |
US9837075B2 (en) | 2014-02-10 | 2017-12-05 | Mitsubishi Electric Research Laboratories, Inc. | Statistical voice dialog system and method |
US20150278370A1 (en) * | 2014-04-01 | 2015-10-01 | Microsoft Corporation | Task completion for natural language input |
US9860076B2 (en) * | 2014-05-07 | 2018-01-02 | Vivint, Inc. | Home automation via voice control |
US9966065B2 (en) * | 2014-05-30 | 2018-05-08 | Apple Inc. | Multi-command single utterance input method |
US9633004B2 (en) | 2014-05-30 | 2017-04-25 | Apple Inc. | Better resolution when referencing to concepts |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9430463B2 (en) | 2014-05-30 | 2016-08-30 | Apple Inc. | Exemplar-based natural language processing |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
RU2631975C2 (ru) * | 2014-08-29 | 2017-09-29 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система для обработки входных команд пользователя |
US9818400B2 (en) | 2014-09-11 | 2017-11-14 | Apple Inc. | Method and apparatus for discovering trending terms in speech requests |
US10074360B2 (en) | 2014-09-30 | 2018-09-11 | Apple Inc. | Providing an indication of the suitability of speech recognition |
US9668121B2 (en) | 2014-09-30 | 2017-05-30 | Apple Inc. | Social reminders |
US10127911B2 (en) | 2014-09-30 | 2018-11-13 | Apple Inc. | Speaker identification and unsupervised speaker adaptation techniques |
US10152299B2 (en) | 2015-03-06 | 2018-12-11 | Apple Inc. | Reducing response latency of intelligent automated assistants |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10567477B2 (en) | 2015-03-08 | 2020-02-18 | Apple Inc. | Virtual assistant continuity |
US9721566B2 (en) | 2015-03-08 | 2017-08-01 | Apple Inc. | Competing devices responding to voice triggers |
US9472196B1 (en) | 2015-04-22 | 2016-10-18 | Google Inc. | Developer voice actions system |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US10083688B2 (en) | 2015-05-27 | 2018-09-25 | Apple Inc. | Device voice control for selecting a displayed affordance |
US9578173B2 (en) | 2015-06-05 | 2017-02-21 | Apple Inc. | Virtual assistant aided communication with 3rd party service in a communication session |
US11025565B2 (en) | 2015-06-07 | 2021-06-01 | Apple Inc. | Personalized prediction of responses for instant messaging |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10049668B2 (en) | 2015-12-02 | 2018-08-14 | Apple Inc. | Applying neural network language models to weighted finite state transducers for automatic speech recognition |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US9740751B1 (en) | 2016-02-18 | 2017-08-22 | Google Inc. | Application keywords |
US9922648B2 (en) | 2016-03-01 | 2018-03-20 | Google Llc | Developer voice actions system |
CN105893345A (zh) * | 2016-03-28 | 2016-08-24 | 联想(北京)有限公司 | 一种信息处理方法和电子设备 |
US11222633B2 (en) * | 2016-05-20 | 2022-01-11 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
US11227589B2 (en) | 2016-06-06 | 2022-01-18 | Apple Inc. | Intelligent list reading |
US10049663B2 (en) | 2016-06-08 | 2018-08-14 | Apple, Inc. | Intelligent automated assistant for media exploration |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
US9691384B1 (en) | 2016-08-19 | 2017-06-27 | Google Inc. | Voice action biasing system |
US10474753B2 (en) | 2016-09-07 | 2019-11-12 | Apple Inc. | Language identification using recurrent neural networks |
US10043516B2 (en) | 2016-09-23 | 2018-08-07 | Apple Inc. | Intelligent automated assistant |
US11281993B2 (en) | 2016-12-05 | 2022-03-22 | Apple Inc. | Model and ensemble compression for metric learning |
US11204787B2 (en) | 2017-01-09 | 2021-12-21 | Apple Inc. | Application integration with a digital assistant |
WO2018147687A1 (en) | 2017-02-10 | 2018-08-16 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice-based interaction in internet of things network system |
KR102068182B1 (ko) * | 2017-04-21 | 2020-01-20 | 엘지전자 주식회사 | 음성 인식 장치, 및 음성 인식 시스템 |
WO2018198812A1 (ja) * | 2017-04-27 | 2018-11-01 | ソニー株式会社 | 情報処理装置、情報処理方法、およびプログラム |
DK201770383A1 (en) | 2017-05-09 | 2018-12-14 | Apple Inc. | USER INTERFACE FOR CORRECTING RECOGNITION ERRORS |
US10417266B2 (en) | 2017-05-09 | 2019-09-17 | Apple Inc. | Context-aware ranking of intelligent response suggestions |
US10395654B2 (en) | 2017-05-11 | 2019-08-27 | Apple Inc. | Text normalization based on a data-driven learning network |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770439A1 (en) | 2017-05-11 | 2018-12-13 | Apple Inc. | Offline personal assistant |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
US11301477B2 (en) | 2017-05-12 | 2022-04-12 | Apple Inc. | Feedback analysis of a digital assistant |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770427A1 (en) | 2017-05-12 | 2018-12-20 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770431A1 (en) | 2017-05-15 | 2018-12-20 | Apple Inc. | Optimizing dialogue policy decisions for digital assistants using implicit feedback |
DK201770432A1 (en) | 2017-05-15 | 2018-12-21 | Apple Inc. | Hierarchical belief states for digital assistants |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US10403278B2 (en) | 2017-05-16 | 2019-09-03 | Apple Inc. | Methods and systems for phonetic matching in digital assistant services |
US10311144B2 (en) | 2017-05-16 | 2019-06-04 | Apple Inc. | Emoji word sense disambiguation |
US10303715B2 (en) | 2017-05-16 | 2019-05-28 | Apple Inc. | Intelligent automated assistant for media exploration |
DK179560B1 (en) | 2017-05-16 | 2019-02-18 | Apple Inc. | FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES |
US10657328B2 (en) | 2017-06-02 | 2020-05-19 | Apple Inc. | Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling |
US10445429B2 (en) | 2017-09-21 | 2019-10-15 | Apple Inc. | Natural language understanding using vocabularies with compressed serialized tries |
US10755051B2 (en) | 2017-09-29 | 2020-08-25 | Apple Inc. | Rule-based natural language processing |
US10636424B2 (en) | 2017-11-30 | 2020-04-28 | Apple Inc. | Multi-turn canned dialog |
US10733982B2 (en) | 2018-01-08 | 2020-08-04 | Apple Inc. | Multi-directional dialog |
US10733375B2 (en) | 2018-01-31 | 2020-08-04 | Apple Inc. | Knowledge-based framework for improving natural language understanding |
US10991369B1 (en) * | 2018-01-31 | 2021-04-27 | Progress Software Corporation | Cognitive flow |
US10789959B2 (en) | 2018-03-02 | 2020-09-29 | Apple Inc. | Training speaker recognition models for digital assistants |
US10592604B2 (en) | 2018-03-12 | 2020-03-17 | Apple Inc. | Inverse text normalization for automatic speech recognition |
CN108520746B (zh) * | 2018-03-22 | 2022-04-01 | 北京小米移动软件有限公司 | 语音控制智能设备的方法、装置及存储介质 |
US11544303B1 (en) * | 2018-03-23 | 2023-01-03 | Amazon Technologies, Inc. | Responding with unresponsive content |
US11854040B1 (en) | 2018-03-23 | 2023-12-26 | Amazon Technologies, Inc. | Responding with unresponsive content |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US10909331B2 (en) | 2018-03-30 | 2021-02-02 | Apple Inc. | Implicit identification of translation payload with neural machine translation |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10984780B2 (en) | 2018-05-21 | 2021-04-20 | Apple Inc. | Global semantic word embeddings using bi-directional recurrent neural networks |
US11386266B2 (en) | 2018-06-01 | 2022-07-12 | Apple Inc. | Text correction |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
US10496705B1 (en) | 2018-06-03 | 2019-12-03 | Apple Inc. | Accelerated task performance |
US11010561B2 (en) | 2018-09-27 | 2021-05-18 | Apple Inc. | Sentiment prediction from textual data |
US10839159B2 (en) | 2018-09-28 | 2020-11-17 | Apple Inc. | Named entity normalization in a spoken dialog system |
US11170166B2 (en) | 2018-09-28 | 2021-11-09 | Apple Inc. | Neural typographical error modeling via generative adversarial networks |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11475898B2 (en) | 2018-10-26 | 2022-10-18 | Apple Inc. | Low-latency multi-speaker speech recognition |
WO2020111292A1 (en) * | 2018-11-27 | 2020-06-04 | Lg Electronics Inc. | Multimedia device for processing voice command |
US11211063B2 (en) | 2018-11-27 | 2021-12-28 | Lg Electronics Inc. | Multimedia device for processing voice command |
US10783901B2 (en) * | 2018-12-10 | 2020-09-22 | Amazon Technologies, Inc. | Alternate response generation |
WO2020139121A1 (en) * | 2018-12-28 | 2020-07-02 | Ringcentral, Inc., (A Delaware Corporation) | Systems and methods for recognizing a speech of a speaker |
US11638059B2 (en) | 2019-01-04 | 2023-04-25 | Apple Inc. | Content playback on multiple devices |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
KR20200117317A (ko) * | 2019-04-03 | 2020-10-14 | 현대자동차주식회사 | 대화 시스템 및 대화 처리 방법 |
US11195532B2 (en) * | 2019-04-26 | 2021-12-07 | Oracle International Corporation | Handling multiple intents in utterances |
US11475884B2 (en) | 2019-05-06 | 2022-10-18 | Apple Inc. | Reducing digital assistant latency when a language is incorrectly determined |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
US11423908B2 (en) | 2019-05-06 | 2022-08-23 | Apple Inc. | Interpreting spoken requests |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
US11289073B2 (en) | 2019-05-31 | 2022-03-29 | Apple Inc. | Device text to speech |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11496600B2 (en) | 2019-05-31 | 2022-11-08 | Apple Inc. | Remote execution of machine-learned models |
US11360641B2 (en) | 2019-06-01 | 2022-06-14 | Apple Inc. | Increasing the relevance of new available information |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
WO2021015801A1 (en) * | 2019-07-19 | 2021-01-28 | Google Llc | Condensed spoken utterances for automated assistant control of an intricate application gui |
US11488406B2 (en) | 2019-09-25 | 2022-11-01 | Apple Inc. | Text detection using global geometry estimators |
US11289075B1 (en) * | 2019-12-13 | 2022-03-29 | Amazon Technologies, Inc. | Routing of natural language inputs to speech processing applications |
CN111128184B (zh) * | 2019-12-25 | 2022-09-02 | 思必驰科技股份有限公司 | 一种设备间的语音交互方法和装置 |
US11810578B2 (en) | 2020-05-11 | 2023-11-07 | Apple Inc. | Device arbitration for digital assistant-based intercom systems |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11935529B2 (en) | 2021-06-15 | 2024-03-19 | Motorola Solutions, Inc. | System and method for virtual assistant execution of ambiguous command |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001517815A (ja) * | 1997-09-24 | 2001-10-09 | ルノー・アンド・オスピー・スピーチ・プロダクツ・ナームローゼ・ベンノートシャープ | 言語認識上の類似発声識別方法及び装置 |
US6269335B1 (en) * | 1998-08-14 | 2001-07-31 | International Business Machines Corporation | Apparatus and methods for identifying homophones among words in a speech recognition system |
US6192337B1 (en) * | 1998-08-14 | 2001-02-20 | International Business Machines Corporation | Apparatus and methods for rejecting confusible words during training associated with a speech recognition system |
US8135413B2 (en) * | 1998-11-24 | 2012-03-13 | Tracbeam Llc | Platform and applications for wireless location and other complex services |
US8938688B2 (en) * | 1998-12-04 | 2015-01-20 | Nuance Communications, Inc. | Contextual prediction of user words and user actions |
US6968333B2 (en) * | 2000-04-02 | 2005-11-22 | Tangis Corporation | Soliciting information based on a computer user's context |
US7200555B1 (en) * | 2000-07-05 | 2007-04-03 | International Business Machines Corporation | Speech recognition correction for devices having limited or no display |
US7167832B2 (en) * | 2001-10-15 | 2007-01-23 | At&T Corp. | Method for dialog management |
US7293015B2 (en) * | 2002-09-19 | 2007-11-06 | Microsoft Corporation | Method and system for detecting user intentions in retrieval of hint sentences |
US7299181B2 (en) * | 2004-06-30 | 2007-11-20 | Microsoft Corporation | Homonym processing in the context of voice-activated command systems |
JP4604178B2 (ja) * | 2004-11-22 | 2010-12-22 | 独立行政法人産業技術総合研究所 | 音声認識装置及び方法ならびにプログラム |
US7949533B2 (en) * | 2005-02-04 | 2011-05-24 | Vococollect, Inc. | Methods and systems for assessing and improving the performance of a speech recognition system |
US8010343B2 (en) * | 2005-12-15 | 2011-08-30 | Nuance Communications, Inc. | Disambiguation systems and methods for use in generating grammars |
US8032375B2 (en) * | 2006-03-17 | 2011-10-04 | Microsoft Corporation | Using generic predictive models for slot values in language modeling |
US7752152B2 (en) * | 2006-03-17 | 2010-07-06 | Microsoft Corporation | Using predictive user models for language modeling on a personal device with user behavior models based on statistical modeling |
CN101467142A (zh) * | 2006-04-04 | 2009-06-24 | 约翰逊控制技术公司 | 在车辆中从数字媒体存储设备提取元数据以用于媒体选择的系统和方法 |
US20090282114A1 (en) * | 2008-05-08 | 2009-11-12 | Junlan Feng | System and method for generating suggested responses to an email |
US8090738B2 (en) * | 2008-05-14 | 2012-01-03 | Microsoft Corporation | Multi-modal search wildcards |
US8311292B2 (en) * | 2009-02-09 | 2012-11-13 | Cisco Technology, Inc. | Context aware, multiple target image recognition |
JP2010224194A (ja) * | 2009-03-23 | 2010-10-07 | Sony Corp | 音声認識装置及び音声認識方法、言語モデル生成装置及び言語モデル生成方法、並びにコンピューター・プログラム |
KR20110036385A (ko) * | 2009-10-01 | 2011-04-07 | 삼성전자주식회사 | 사용자 의도 분석 장치 및 방법 |
US8175617B2 (en) * | 2009-10-28 | 2012-05-08 | Digimarc Corporation | Sensor-based mobile search, related methods and systems |
US8121618B2 (en) * | 2009-10-28 | 2012-02-21 | Digimarc Corporation | Intuitive computing methods and systems |
US9171541B2 (en) * | 2009-11-10 | 2015-10-27 | Voicebox Technologies Corporation | System and method for hybrid processing in a natural language voice services environment |
US20110131040A1 (en) * | 2009-12-01 | 2011-06-02 | Honda Motor Co., Ltd | Multi-mode speech recognition |
WO2011091402A1 (en) * | 2010-01-25 | 2011-07-28 | Justin Mason | Voice electronic listening assistant |
-
2011
- 2011-01-04 KR KR1020110000578A patent/KR101828273B1/ko active IP Right Grant
- 2011-09-26 US US13/245,032 patent/US8954326B2/en active Active
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9953654B2 (en) | 2014-05-20 | 2018-04-24 | Samsung Electronics Co., Ltd. | Voice command recognition apparatus and method |
WO2016129740A1 (ko) * | 2015-02-10 | 2016-08-18 | 미디어젠 주식회사 | 사용자 패턴에 기반한 오류 db모듈을 적용한 임베디드 음성인식 처리방법 및 시스템 |
CN108073600A (zh) * | 2016-11-11 | 2018-05-25 | 阿里巴巴集团控股有限公司 | 一种智能问答交互方法、装置以及电子设备 |
CN108073600B (zh) * | 2016-11-11 | 2022-06-03 | 阿里巴巴集团控股有限公司 | 一种智能问答交互方法、装置以及电子设备 |
KR20200012412A (ko) * | 2018-07-27 | 2020-02-05 | (주)휴맥스 | 스마트 디바이스 및 그 제어 방법 |
CN112002321A (zh) * | 2020-08-11 | 2020-11-27 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
CN112002321B (zh) * | 2020-08-11 | 2023-09-19 | 海信电子科技(武汉)有限公司 | 显示设备、服务器及语音交互方法 |
Also Published As
Publication number | Publication date |
---|---|
KR101828273B1 (ko) | 2018-02-14 |
US20120173244A1 (en) | 2012-07-05 |
US8954326B2 (en) | 2015-02-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101828273B1 (ko) | 결합기반의 음성명령 인식 장치 및 그 방법 | |
US11887604B1 (en) | Speech interface device with caching component | |
CN107146606B (zh) | 开发人员语音动作系统 | |
KR101699720B1 (ko) | 음성명령 인식 장치 및 음성명령 인식 방법 | |
US9159317B2 (en) | System and method for recognizing speech | |
KR20190046623A (ko) | 자기-학습 자연 언어 이해를 갖는 다이얼로그 시스템 | |
CN112970059B (zh) | 用于处理用户话语的电子装置及其控制方法 | |
US8700398B2 (en) | Interface for setting confidence thresholds for automatic speech recognition and call steering applications | |
EP3791383B1 (en) | On-device speech synthesis of textual segments for training of on-device speech recognition model | |
CN110288995B (zh) | 基于语音识别的交互方法、装置、存储介质和电子设备 | |
JP2008009153A (ja) | 音声対話システム | |
US20220115000A1 (en) | On-device personalization of speech synthesis for training of speech recognition model(s) | |
JP6675078B2 (ja) | 誤認識訂正方法、誤認識訂正装置及び誤認識訂正プログラム | |
US11615788B2 (en) | Method for executing function based on voice and electronic device supporting the same | |
KR20220143683A (ko) | 전자 개인 비서 조정 | |
US20230419964A1 (en) | Resolving unique personal identifiers during corresponding conversations between a voice bot and a human | |
AU2021266674A1 (en) | Systems and methods for adaptive assessment | |
US11756538B1 (en) | Lower latency speech processing | |
KR101196976B1 (ko) | 확인 대화가 가능한 확률 및 예제 기반의 음성 대화 시스템 | |
KR20220114378A (ko) | 텍스트 기반의 화자변경검출을 활용한 화자분할 보정 방법 및 시스템 | |
JP4537755B2 (ja) | 音声対話システム | |
CN115662430B (zh) | 输入数据解析方法、装置、电子设备和存储介质 | |
JP2003228393A (ja) | 音声対話装置及び方法、音声対話プログラム並びにその記録媒体 | |
CN115910025A (zh) | 语音处理方法、装置、电子设备和介质 | |
KR20210059967A (ko) | 비정상 잡음을 판단하는 전자 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A201 | Request for examination | ||
E902 | Notification of reason for refusal | ||
E902 | Notification of reason for refusal | ||
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |