KR20120012919A - 음성명령 인식 장치 및 음성명령 인식 방법 - Google Patents

음성명령 인식 장치 및 음성명령 인식 방법 Download PDF

Info

Publication number
KR20120012919A
KR20120012919A KR20100075038A KR20100075038A KR20120012919A KR 20120012919 A KR20120012919 A KR 20120012919A KR 20100075038 A KR20100075038 A KR 20100075038A KR 20100075038 A KR20100075038 A KR 20100075038A KR 20120012919 A KR20120012919 A KR 20120012919A
Authority
KR
South Korea
Prior art keywords
command
intention
probability distribution
voice
voice command
Prior art date
Application number
KR20100075038A
Other languages
English (en)
Other versions
KR101699720B1 (ko
Inventor
박치연
곽병관
김정수
조정미
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020100075038A priority Critical patent/KR101699720B1/ko
Priority to US13/093,919 priority patent/US9142212B2/en
Publication of KR20120012919A publication Critical patent/KR20120012919A/ko
Application granted granted Critical
Publication of KR101699720B1 publication Critical patent/KR101699720B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Abstract

음성 대화형 사용자 인터페이스에서의 음성명령 인식 장치 및 방법이 제공된다. 음성명령 인식 장치는, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 생성된 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 명령의도 확률분포 업데이트부와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함한다.

Description

음성명령 인식 장치 및 음성명령 인식 방법{APPARATUS FOR VOICE COMMAND RECOGNITION AND METHOD THEREOF}
음성명령 인식 기술에 관한 것으로, 더욱 상세하게는, 음성 대화형 사용자 인터페이스에서의 음성명령 인식 장치 및 방법에 관한 것이다.
오늘날 음성 대화 인터페이스는 비행기 예약번호 입력, 기차 예매, 현금 지급기 사용 등과 같이 사용범위가 점차 확대되고 있다. 음성 대화 인터페이스를 이용한 시스템이 사용되기 위해서는 해당 시스템에 대화 모델이 설정되어야 한다. 음성명령을 인식하기 위한 대표적 모델 중 하나는 규칙 기반 대화 모델이다. 이는 음성 인식결과에 대해 하나의 가설을 바탕으로 대화를 이끌어 나간다. 그러나 시스템에 예상 가능한 모든 응답을 입력해야 하고, 음성 인식 오류에 대처하기 쉽지 않다.
음성명령을 인식하기 위한 또 다른 모델은 통계적 대화 모델이다. 이는 음성명령의 인식 결과를 여러 가지 가능성을 가지는 확률로 가정하고, 이 중 가장 적절한 대응을 결정하는 방법이다. 이는 규칙 기반 대화 모델과 달리 모든 가능한 대화 현상을 일일이 구성하지 않아도 되며, 인식 오류가 발생해도 재확인 과정을 거쳐 명령의도를 보다 안정적인 대화 모델을 구축할 수 있다.
그러나, 이러한 통계적 대화 모델도 실제 사용자와 시스템 간의 대화에서 사용자가 한 가지 명령이나 검색만을 이용하여 대화를 하지 않거나, 이전의 명령의 도메인과 다른 도메인의 명령을 내리는 경우 등 대화 흐름이 갑자기 변화하는 경우에는 적절하게 대응하기 어렵다. 이는 이전의 사용자 음셩명령 의도를 계속해서 누적 갱신하므로 사용자의 의도를 빠르게 따라가지 못하기 때문이다.
사용자가 음성 대화형 인터페이스를 통하여 입력한 음성명령의 명령의도가 변화하는 경우 명령의도 인식 성능을 향상시키기 위한 음성 인식 장치 및 방법이 제공된다.
일 실시예에 따른 음성명령 인식 장치는, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 생성된 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 명령의도 확률분포 업데이트부와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함한다.
일 실시예에 따른 음성명령 인식 장치는, 명령의도 확률분포 업데이트부가제2 음성명령의 명령의도를 인식하는 제2 음성명령 인식부와, 출력된 응답과 인식된 제2 음성명령의 명령의도를 비교하여 제1 음성명령의 명령의도의 변화 여부를 검출하는 명령의도 변화 검출부와, 검출된 명령의도의 변화 여부에 따라 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 확률분포 재설정부와, 재설정된 확률분포에 따라 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 업데이트 실행부를 포함한다.
일 실시예에 따른 음성명령 인식 방법은, 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 단계와, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트하는 단계와, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 단계와, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 단계를 포함한다.
사용자의 음성명령의 명령의도가 갑자기 변화하는 경우에, 변화된 명령의도 인식을 보완할 수 있으며, 기존의 대화 인식 모델로 인하여 명령의도가 잘못 인식될 확률을 경감하여, 음성명령 인식 성능을 향상시킬 수 있다.
도 1은 일 실시예에 따른 음성명령 인식 장치의 구성도,
도 2a는 일 실시에에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 생성부에서 생성된 명령의도 확률분포의 예시도이고, 도 2b는 명령의도 확률분포 생성부에서 생성된 재확인 확률분포의 예시도,
도 3은 일 실시예에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 업데이트부의 구성도,
도 4는 일 실시예에 따른 음성명령 인식 방법의 순서도,
도 5a는 일 실시예에 따른 음성명령 인식 방법 중 대화에 따른 명령의도 확률분포의 엔트로피 변화 예시도, 도 5b는 명령의도 확률분포의 엔트로피를 이용한 명령의도 변화시점을 파악하는 예시도이다.
이하, 첨부된 도면들을 참조하여 본 발명의 실시예를 상세하게 설명한다. 사용되는 용어들은 실시예에서의 기능을 고려하여 선택된 용어들로서, 그 용어의 의미는 사용자, 운용자의 의도 또는 판례 등에 따라 달라질 수 있다. 그러므로 후술하는 실시예들에서 사용된 용어의 의미는, 본 명세서에 구체적으로 정의된 경우에는 그 정의에 따르며, 구체적인 정의가 없는 경우는 당업자들이 일반적으로 인식하는 의미로 해석되어야 할 것이다.
도 1은 일 실시예에 따른 음성명령 인식 장치의 구성도이다.
도 1을 참조하면, 음성명령 인식 장치(100)는 명령의도 확률분포 생성부(110), 명령의도 확률분포 업데이트부(130), 명령의도 확률분포 선택부(150), 동작신호 출력부(170)를 포함할 수 있다. 명령의도 확률분포 생성부(110)와 명령의도 확률분포 업데이트부(130)는 명령의도 확률분포 데이터 저장부(191)와 연결될 수 있다. 명령의도 확률분포 업데이트부(130)와 동작신호 출력부(170)는 응답 데이터 저장부(193)와 연결될 수 있다.
명령의도 확률분포 생성부(110)는 1차로 입력된 음성명령인 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성한다. 명령의도 확률분포는 인식된 음성의 음성인식후보(N-Best)와 그 신뢰도 값을 이용하여 가능한 명령의도를 확률별로 나타낸 것이다. 이는 음성명령의 인식 결과에 따라 명령의도를 하나로 한정하지 않고, 여러 가지 가능성에 대해 확률적으로 표현하기 위함이다. 음성명령 인식 장치(100)는 생성된 명령의도 확률분포에서 높은 확률을 가지는 명령의도에 대응하는 응답을 생성할 수 있다.
또한, 명령의도 확률분포 생성부(110)는 명령의도 확률분포 데이터 저장부(191)와 연결될 수 있다. 이는 생성된 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장하기 위함이다. 명령의도 확률분포 데이터 저장부(191)에는 생성된 명령의도 확률분포뿐만 아니라 명령의도 확률분포를 정하는데 사용되는 데이터가 저장될 수 있다. 명령의도 확률분포 생성부(110)가 음성명령을 인식하면 명령의도 확률분포에 저장된 데이터를 추출하여 명령의도별 확률분포를 생성할 수 있다.
한편, 명령의도 확률분포 생성부(110)는 하나 이상의 상황별로 명령의도 확률분포를 생성할 수 있다. 여기서 상황이란 제1 음성명령으로 인한 응답이 출력되고, 그 응답에 대응하여 입력된 제2 음성명령의 명령의도가 유지되는 경우, 변경되는 경우 등 명령의도가 변화될 수 있는 상황을 말한다. 즉, 음성명령이 입력되고 다음 음성명령이 입력되기 전에 다음 음성명령의 명령의도가 이전과 어떻게 변할지를 미리 예상하여 다양한 명령의도 확률분포를 생성할 수 있다. 생성된 상황별 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장될 수 있다.
명령의도 확률분포 업데이트부(130)는 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트할 수 있다. 여기서 응답은 음성명령 인식 장치(100)가 제1 음성명령의 명령의도 확률분포 중 가장 적절한 응답을 선택하여 출력한 것으로, 이는 음성명령에 대한 최종적인 동작신호와는 다를 수 있다. 즉, 음성명령 인식 장치(100)는 인식된 명령의도의 확률이 충분히 높지 않은 경우에는 응답을 통해 명령의도를 구체적으로 특정할 수 있다.
제2 음성명령은 음성명령 인식 장치(100)로부터 출력된 응답에 대응하여 입력될 수 있다. 제2 음성명령이 입력되면 명령의도 확률분포 업데이트부(130)는 기존에 출력된 응답과 그 응답에 대응해 입력된 제2 음성명령을 비교하여 명령의도의 변화를 분석할 수 있다. 예를 들어, TV와 연결된 음성명령 인식 장치(100)에서 "채널 11번을 틀어봐"라는 제1 음성명령에 대응한 음성명령 인식 장치(100)의 응답은 "채널을 변경하였습니다"이고, 제2 음성명령이 "채널 7번"으로 입력된 경우, 채널을 변경했다는 응답과 채널의 변경을 요구하는 제2 음성명령을 비교하여 명령의도가 수정되었음을 인식할 수 있다.
이 경우, 명령의도 확률분포 생성부(110)는 예를 들어, 제1 음성명령에 대한 명령의도 확률분포를 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 생성할 수 있다. 명령의도 확률분포 업데이트부(130)는 명령의도 확률분포 데이터 저장부(191)에 저장된 제1 음성명령의 상황별 명령의도 확률분포들을 입력받을 수 있다. 명령의도 확률분포 업데이트부(130)는 단순히 명령의도가 수정된 경우의 명령의도 확률분포뿐만 아니라 명령의도가 유지되는 경우와 명령의도가 새로운 경우 모두에 대해 확률분포를 재설정하여 업데이트할 수 있다.
명령의도 확률분포 업데이트부(130)는 음성명령 인식 장치(100)가 음성명령에 대한 동작신호가 출력될 때까지 명령의도 확률분포를 계층적으로 업데이트 할 수 있다. 즉, 입력된 음성명령에 대해 상황별로 나누어 명령의도 확률분포가 생성되며, 각 명령의도 확률분포를 다시 상황별로 나누어 명령의도 확률분포를 생성함으로써, 명령의도 확률분포를 계층적으로 업데이트할 수 있다.
명령의도 확률분포 업데이트부(130)는 음성명령에 대한 엔트로피를 계산할 수 있다. 엔트로피는 명령의도 확률분포의 명령의도 중 하나의 명령의도를 추정할 경우의 부정확성을 나타내는 것이다. 따라서, 엔트로피가 높은 명령의도 확률분포에서 하나의 명령의도를 선택하면 잘못된 응답이나 동작신호가 출력될 확률이 높고, 엔트로피가 낮은 명령의도 확률분포에서 하나의 명령의도를 선택하면 정확한 응답이나 동작신호가 출력될 확률이 높을 수 있다.
또한, 명령의도 확률분포 생성부(110)도 명령의도 확률분포의 엔트로피를 계산할 수 있다. 명령의도 확률분포 생성부(110)는 음성명령이 입력되면 상황별 명령의도 확률분포를 생성하고, 각 명령의도 확률분포의 엔트로피를 계산하여 명령의도 확률분포 데이터 저장부(191)에 저장할 수 있다. 명령의도 확률분포 업데이트부(130)는 제2 음성명령이 입력에 대응하여 상황별 명령의도 확률분포를 업데이트하고, 새로 생성된 상황별 명령의도 확률분포의 엔트로피를 계산할 수 있다.
한편, 명령의도 확률분포 선택부(150)는 명령의도 확률분포 업데이트부(130)로부터 업데이트된 하나 이상의 명령의도 확률분포들의 정보를 입력받을 수 있다. 명령의도 확률분포 선택부(150)는 그 중 하나의 명령의도 확률분포를 선택할 수 있다. 음성명령 인식 장치(100)에서는 하나의 응답을 내야 하므로 음성명령에 대응한 가장 적합한 응답을 생성하기 위해 하나의 명령의도 확률분포를 선택해야 한다. 이 경우 명령의도 확률분포 선택부(150)는 최적의 명령의도 확률분포를 선택하기 위해 각 명령의도 확률분포의 엔트로피 값을 이용할 수 있다.
따라서, 명령의도 확률분포 선택부(150)는 상황별 명령의도 확률분포들 중에서 엔트로피가 가장 낮은 명령의도 확률분포를 선택할 수 있다. 엔트로피가 가장 낮은 명령의도 확률분포의 명령의도를 선택하여 음성명령 인식 오류의 위험을 감소시킬 수 있다. 명령의도가 중간에 바뀌는 경우에도 대화가 진행되면서 엔트로피가 가장 낮은 명령의도 확률분포를 선택함으로써 음성명령 인식 장치(100)는 최적의 응답 또는 동작신호를 출력할 수 있다.
또한, 명령의도 확률분포 선택부(150) 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하거나 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도 확률분포를 선택할 수도 있다. 예를 들어, 응답 중 재확인 응답이 최소인 경우에 그 확률분포에 가중치를 부여할 수 있다. 이에 따라, 최적의 명령의도 확률분포가 선택되고, 선택된 명령의도 확률분포는 동작신호 출력부(170)로 출력될 수 있다.
동작신호 출력부(170)는 선택된 명령의도 확률분포에서 가장 적합한 명령의도를 선택하여 응답을 출력하고 이를 응답 데이터 저장부(193)에 저장할 수 있다. 이는 음성명령 인식장치가 응답을 출력하여 그에 대응한 음성명령을 입력받아 음성명령의 명령의도를 정확하게 파악하기 위함이다. 동작신호 출력부(170)는 명령의도 확률분포 선택부(150)로부터 하나의 명령의도 확률분포를 입력받으며, 그 확률분포 중 하나의 명령의도를 선택하여 응답을 생성하고, 이를 출력할 수 있다.
응답 데이터 저장부(193)에는 동작신호 출력부(170)가 생성한 응답이나 동작신호뿐만 아니라 최적의 응답을 설정하는데 필요한 데이터가 저장될 수 있다. 따라서, 동작신호 출력부(170)는 하나의 명령의도를 선택하고, 그에 대응하는 응답을 응답 데이터 저장부(193)에서 선택하여 이를 출력할 수 있다.
한편, 동작신호 출력부(170)는 명령의도 확률분포 선택부(150)가 선택한 명령의도 확률분포에서 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력할 수 있다. 동작신호는 음성명령 인식 장치(100)와 연결될 모듈의 제어신호일 수 있다. 예를 들어, 음성명령이 명령의도가 "2010년 2월 20일에 서울에서 대전까지 KTX 좌석 2매를 예매하는 것"이라면, 음성명령 인식 장치(100)와 연결된 기차표 예매 시스템에 위와 같은 정보를 출력할 수 있다.
여기서, 최종 명령의도란 음성명령 인식 장치(100)가 더 이상 음성명령에 대응한 응답을 생성하지 않으면서 음성명령의 명령의도를 파악하여, 그와 연결된 기기에 동작신호를 출력할 수 있는 명령의도로 선택된 것을 말한다. 동작신호 출력부(170)는 명령의도 확률분포 중 예를 들어 95% 이상의 확률을 가지는 명령의도를 최종 명령의도로 선택할 수 있다. 또한, 하나의 명령의도 확률분포 중 가장 높은 확률분포를 가지는 두 가지의 명령의도를 기초하여 최종 명령의도를 결정할 수도 있다.
또한, 동작신호 출력부(170)는 Q-학습(Q-learning) 알고리즘을 이용하여 최종 명령의도를 선택할 수 있다. Q-학습은 특정상태에서 어떤 행동을 한 다음 최적의 방식으로 계속 응답을 진행하였을 때 미래에 얻게 될 총 보상의 기대값(Q)을 갱신하면서 실시간으로 명령의도에 적합한 행동을 파악하는 것이다. Q-학습 알고리즘은 수학식 1로 나타낼 수 있다.
Figure pat00001
Q(s, a)는 현재의 총 보상 기대값이며, Q(s', a')는 미래의 총 보상 기대값이며, R(s, a)은 응답(a)과 명령의도(s)에 따른 현재 동작신호의 출력에 대한 보상값을 나타낸다. 이 때, γ은 할인 계수(discount factor)를 나타낸다. 예를 들어, 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양(+)의 보상값을 적용하고, 명령의도에 부합하지 않는 동작신호가 출력되면 음(-)의 보상값을 적용하여, 보상값이 최대가 되는 명령의도에 대응하는 동작신호를 출력할 수 있다.
음성명령 인식 장치(100)는 각종 전화 예약 시스템뿐만 아니라, 텔레비전 및 휴대폰 등과 같은 멀티미디어 기기, 로봇, 키오스크(kiosk) 등 다양한 전자 제품에 탑재된 음성 대화형 사용자 인터페이스로 구현될 수 있다.
도 2a는 일 실시에에 따른 음성명령 인식 장치에 포함된 명령의도 확률분포 생성부에서 생성된 명령의도 확률분포의 예시도이고, 도 2b는 명령의도 확률분포 생성부에서 생성된 재확인 확률분포의 예시도이다. 도 2a를 참조하면, 일 실시예에 따른 명령의도 확률분포는 다수의 명령의도와 그에 대응하는 확률분포로 나타낼 수 있다. 예를 들어, 음성명령이 "KBS 1 틀어봐"였다면, 그 음성명령에 대해서는 채널 변경을 나타내는 명령의도의 확률분포가 놓게 나타난다. 그러나 이러한 확률 외에도 예약녹화나 기타일 경우에도 확률분포로 형성될 수도 있다.
도 2b를 참조하면, 일 실시예에 따른 명령의도 확률분포는 음성명령에 대한 재확인 응답 여부에 대한 확률분포 정보를 포함할 수 있다. 예를 들어, "11번 녹화해"라는 음성명령에 대해 "11번 녹화할까요?"라는 재확인 응답이 있었는지를 확률적으로 나타낼 수 있다. 이러한 재확인 응답도 있었는지에 대해 절대적으로 신뢰할 수 없기 때문에 확률분포로 나타낼 수 있다. 이에 따라, 특정 음성명령에 대해서 불필요하게 재확인 응답을 반복하는 것을 방지할 수 있다.
도 3은 일 실시예에 따른 음성명령 인식 장치(100)에 포함된 명령의도 확률분포 업데이트부(130)의 구성도이다. 도 3을 참조하면, 명령의도 확률분포 업데이트부(130)는 제2 음성명령 인식부(131), 명령의도 변화 검출부(133), 확률분포 재설정부(135) 및 업데이트 실행부(137)를 포함할 수 있다.
제2 음성명령 인식부(131)는 제1 음성명령의 응답에 대응하여 입력된 제2 음성명령의 명령의도를 인식할 수 있다. 제2 음성명령 인식부(131)는 명령의도 확률분포 생성부(110)를 통해 제2 음성명령을 입력받거나 직접 입력받을 수도 있다. 제2 음성명령 인식부(131) 입력된 제2 음성명령에 대한 음성인식후보(N-best)와 그 신뢰도값을 생성할 수 있다. 생성된 제2 음성명령에 대한 정보는 명령의도 확률분포 데이터 저장부(191)에 저장되고, 명령의도 변화 검출부(133)로 출력된다.
명령의도 변화 검출부(133)는 동작신호 출력부(170)에서 출력된 응답과 제2 음성명령 인시부로부터 입력된 제2 음성명령의 명령의도를 비교하여 제1 음성명령의 명령의도의 변화 여부를 검출할 수 있다. 명령의도 변화여부는 수학식 2, 수학식 3, 수학식 4와 같이 나타낼 수 있다.
Figure pat00002
Figure pat00003
Figure pat00004
수학식 2, 수학식 3, 수학식 4에서, P(s'|s,a)는 응답(a)에 따라서 이전 음성명령의 명령의도(s)가 현재의 음성명령의 명령의도(s')로 될 확률분포를 나타낸다. 수학식 2는 명령의도가 유지되는 경우를 나타내고, 수학식 3은 새로운 명령의도인 경우를 나타내며, 수학식 4는 명령의도가 수정된 경우를 나타낸다. 수학식 4에서 SS는 특정 슬롯(slot)만이 이전 명령의도와 변경된 명령의도의 집합으로, 명령의도 중 일부가 수정되었음을 나타낼 수 있다.
명령의도 검출부(133)는 위와 같은 수학식을 이용하여 응답에 대응하여 입력된 음성명령의 현재 명령의도 상태를 파악할 수 있다. 명령의도 검출부(133)는 명령의도의 변경여부에 대한 정보를 확률분포 재설정부(135)로 출력할 수 있다.
확률분포 재설정부(135)는 검출된 명령의도의 변화 여부에 따라 제1 음성명령의 상황별 명령의도 확률분포를 재설정할 수 있다. 예를 들어, 명령의도가 유지되는 경우에는 상황별 명령의도 확률분포 중에서 명령의도가 유지될 것으로 예상되어 생성된 명령의도 확률분포내의 명령의도에 대한 확률은 높아지지만, 그 밖에 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 예상되어 생성된 명령의도 확률분포내의 명령의도에 대한 확률은 낮아질 수 있다. 이렇게 재설정된 확률분포로 구성된 명령의도 확률분포는 업데이트 실행부(137)로 출력될 수 있다.
업데이트 실행부(137)는 재설정된 확률분포에 따라 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행할 수 있다. 이는 수학식 5와 같이 나타낼 수 있다.
Figure pat00005
수학식 5에서, b(s')는 현재의 명령의도 확률분포이고, b(s)는 이전의 명령의도 확률분포를 나타낸다. P(o|s',a)는 응답(a)에 따라서 이전의 명령의도(s)가 현재의 명령의도(s')로 변화할 수 있는 확률분포를 나타낸다. P(s'|s,a)는 응답(a)에 따라서 이전 음성명령의 명령의도(s)가 현재의 음성명령의 명령의도(s')로 될 확률분포를 나타낸다.
P(o|s',a)는 예를 들어, 음성명령이 명령의도가 채널을 11번으로 바꾸고자 하는 경우, 음성명령 인식 장치(100)의 응답이 "무엇을 할까요?"였다면 이에 대응한 음성명령은 "11번으로 바꿔!"가 될 수 있다. 만약, 이전 응답이 "11번으로 채널을 바꿀까요?"라면 그 응답에 대응한 음성명령은 "그래"가 될 수 있다. 만약, 이전 응답이 "몇 번으로 채널을 바꿀까요?"라면 그 응답에 대응한 음성명령은 "11번"이 될 수 있다. 이처럼 하나의 명령의도를 갖는 음성명령에 대해 음성명령 인식 장치(100)의 응답에 따라서 그에 대응하여 입력되는 음성명령의 표현 방식이 다를 수 있다.
업데이트 실행부(137)는 상황별 명령의도 확률분포 각각을 예를 들어, 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 계층적으로 새로운 명령의도 확률분포를 생성하게 된다. 생성된 명령의도 확률분포는 명령의도 확률분포 데이터 저장부(191)에 저장될 수 있다.
일 실시예에 따른 명령의도 업데이트부(130)는 엔트로피 계산부(도시되지 않음)를 추가적으로 포함할 수 있다. 엔트로피는 수학식 6을 이용하여 명령의도 확률분포의 엔트로피를 계산할 수 있다.
Figure pat00006
엔트로피 계산부는 입력된 음성명령의 모든 가능한 명령의도(s)에 대해 명령의도(s)의 발생 확률 값인 p(s)와 그 확률의 역수의 로그값의 곱의 합으로 엔트로피를 계산할 수 있다. 예를 들어, 대화가 진행될수록 명령의도 내의 확률분포가 일정하게 유지되는 경우에는 엔트로피가 0에 가까운 값으로 줄어들 수 있다. 반면, 인식 오류가 있어 명령의도가 새로운 경우 등에는 엔트로피가 증가할 수 있다.
도 4는 일 실시예에 따른 음성명령 인식 방법의 순서도이다.
도 4를 참조하면, 도 1의 음성명령 인식 장치(100)는 입력된 제1 음성명령을 인식하여 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성한다(410). 제1 음성명령을 인식하기 위해서는 음성인식후보(N-best)와 그 신뢰도값을 이용하여 명령의도별 확률분포를 생성할 수 있다. 이 경우, 다음 음성명령의 입력에 대비하여 명령의도 확률분포를 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우로 나누어 새로운 명령의도 확률분포를 생성할 수 있다.
다음으로, 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 명령의도 확률분포를 설정된 하나 이상의 상황별로 업데이트한다(430). 이는, 제1 음성명령에 대한 명령의도 확률분포 중 가장 적합한 명령의도에 대응하여 응답이 출력되고, 그 응답에 대응하여 입력된 제2 음성명령을 비교하여, 상황별로 명령의도 확률분포를 업데이트할 수 있다.
다음으로, 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택한다(450). 명령의도 확률분포가 상황별로 업데이트되어 다수의 명령의도 확률분포가 생성되면, 그 중 최적의 명령의도 확률분포를 선택하게 된다. 이 경우, 각 명령의도 확률분포의 엔트로피를 계산하여 가장 낮은 엔트로피를 가지는 명령의도 확률분포를 선택할 수 있다. 이는 도 5a, 도 5b를 통해 설명하도록 한다.
도 5a는 일 실시예에 따른 음성명령 인식 방법 중 대화에 따른 명령의도 확률분포의 엔트로피 변화 예시도, 도 5b는 명령의도 확률분포의 엔트로피를 이용한 명령의도 변화시점을 파악하는 예시도이다.
도 5a를 참조하면, "11번에서 신데렐라 녹화해줘"라는 제1 음성명령에 대해 "녹화 하였습니다"라는 응답이 출력되고, 그 응답에 대응하여 "한번 7번 돌려볼래?"라는 제2 음성명령이 입력되는 경우, 이는 새로운 의도에 해당함을 알 수 있다. 즉, 제1 음성명령인 "11번에서 신데렐라 녹화해줘"의 명령의도 확률분포(111)는 1.219라는 엔트로피를 가지고, 응답에 대응한 제2 음성명령인 "한번 7번 돌려볼래?"의 경우, 명령의도가 유지되는 경우의 명령의도 확률분포(113)의 엔트로피는 1.929이고, 명령의도가 수정된 경우의 명령의도 확률분포(115)의 엔트로피는 1.496이고, 명령의도가 새로운 경우의 명령의도 확률분포(117)의 엔트로피는 0.619이다.
이 경우, 명령의도 선택부(150)는 업데이트된 명령의도 확률분포 중 엔트로피가 가장 낮은 명령의도가 새로운 경우의 명령의도 확률분포(117)를 선택할 수 있다.
도 5b를 참조하면, "11번에서 신데렐라 녹화해줘"라는 제1 음성명령에 대해 "녹화하였습니다"라는 응답이 출력되고, 그 응답에 대응하여 "7번 돌려볼래?"라는 제2 음성명령이 입력되는 경우, 이는 새로운 의도에 해당하나 엔트로피 값은 명령의도가 수정되는 경우의 명령의도 확률분포(115)가 가장 낮을 수 있다. 그러나 대화가 진행되면 "7번에서 녹화를 할까요?"라는 응답이 출력되고, "아니, 7번 틀라고"라는 제3 음성명령이 입력될 수 있다. 이 경우, 제2 음성명령의 명령의도 확률분포 중 명령의도가 새로운 경우(117)에서 업데이트된 제3 음성명령의 명령의도 확률분포(119) 중 명령의도가 유지된 경우의 명령의도 확률분포의 엔트로피 값이 가장 낮아지므로 변경된 음성명령의 명령의도를 선택할 수 있다.
다시, 도 4로 돌아가서, 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력한다(470). 선택된 명령의도 확률분포에서 가장 높은 확률을 가지는 명령의도를 최종 명령의도로 선택하여, 그에 대응하는 동작신호를 출력할 수 있다.
이상에서 본 발명은 도면을 참조하면서 기술되는 바람직한 실시예를 중심으로 설명되었지만 이에 한정되는 것은 아니다. 따라서 본 발명은 기재된 실시예로부터 도출 가능한 자명한 변형예를 포괄하도록 의도된 특허청구범위의 기재에 의해 해석되어져야 한다.
100 : 음성명령 인식 장치
110 : 명령의도 확률분포 생성부
111 : 제1 음성명령의 명령의도 확률분포
113 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 유지되는 경우
115 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 수정되는 경우
117 : 제2 음성명령의 명령의도 확률분포 중 명령의도가 새로운 경우
119 : 제3 음성명령의 명령의도 확률분포
130 : 명령의도 확률분포 업데이트부
131 : 제2 음성명령 인식부
133 : 명령의도 변화 검출부
135 : 확률분포 재설정부
137 : 업데이트 실행부
150 : 명령의도 확률분포 선택부
170 : 동작신호 출력부
191 : 명령의도 확률분포 데이터 저장부
193 : 응답 데이터 저장부

Claims (20)

  1. 입력된 제1 음성명령을 인식하여, 기 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 명령의도 확률분포 생성부;
    상기 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 상기 생성된 명령의도 확률분포를 업데이트하는 명령의도 확률분포 업데이트부;
    상기 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 명령의도 확률분포 선택부;
    상기 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 동작신호 출력부를 포함하는 음성명령 인식 장치.
  2. 제1항에 있어서,
    상기 명령의도 확률분포 업데이트부는,
    상기 제2 음성명령의 명령의도를 인식하는 제2 음성명령 인식부;
    상기 출력된 응답과 상기 인식된 제2 음성명령의 명령의도를 비교하여 상기 제1 음성명령의 명령의도의 변화 여부를 검출하는 명령의도 변화 검출부;
    상기 검출된 명령의도의 변화 여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 확률분포 재설정부; 및
    상기 재설정된 확률분포에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 업데이트 실행부를 포함하는 음성명령 인식 장치.
  3. 제1항에 있어서,
    상기 명령의도 확률분포 생성부는 상기 제1 음성명령에 대해 명령의도가 유지되는 경우, 명령의도가 수정되는 경우 및 명령의도가 새로운 경우의 상황별로 나누어 서로 다른 명령의도 확률분포를 동시에 생성하고,
    상기 명령의도 확률분포 업데이트부는 상기 제2 음성명령의 명령의도 변화여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 다시 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우의 상황별로 나누어 계층적으로 업데이트하는 음성명령 인식 장치.
  4. 제1항에 있어서,
    상기 명령의도 확률분포는,
    상기 음성명령의 명령의도, 상기 음성명령에 대한 재확인 여부, 상기 응답 출력여부, 상기 동작신호 출력여부 중 적어도 하나의 정보를 포함하는 음성명령 인식 장치.
  5. 제1항에 있어서,
    상기 명령의도 확률분포 업데이트부는,
    상기 동작신호 출력부가 최종 명령의도를 선택할 때까지 상기 음성명령 확률분포를 업데이트하는 음성명령 인식 장치.
  6. 제1항에 있어서,
    상기 명령의도 확률분포 선택부는,
    상기 업데이트된 하나 이상의 명령의도 확률분포들 중 엔트로피가 가장 낮은 것을 하나의 명령의도 확률분포로 선택하는 음성명령 인식 장치.
  7. 제4항에 있어서,
    상기 명령의도 확률분포 선택부는,
    상기 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하나의 명령의도를 선택하는 음성명령 인식 장치.
  8. 제4항에 있어서,
    상기 명령의도 확률분포 선택부는,
    상기 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도로 선택하는 음성명령 인식 장치.
  9. 제1항에 있어서,
    상기 동작신호 출력부는,
    상기 선택된 명령의도 확률분포 중 가장 높은 확률을 가지는 하나 이상의 명령의도에 기초하여 최종의도를 선택하여 그에 대응하는 동작신호를 출력하는 음성명령 인식 장치.
  10. 제1항에 있어서,
    상기 동작신호 출력부는,
    상기 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양의 보상값을 적용하고, 상기 명령의도에 부합하지 않는 동작신호가 출력되면 음의 보상값을 적용하여, 상기 보상값이 최대가 되는 동작을 동작신호로 출력하는 음성명령 인식 장치.
  11. 입력된 제1 음성명령을 인식하여, 기 설정된 하나 이상의 상황별로 명령의도 확률분포를 생성하는 단계;
    상기 제1 음성명령에 대응하여 출력된 응답과 그 응답에 대응하여 입력된 제2 음성명령을 이용하여 상기 명령의도 확률분포를 업데이트하는 단계;
    상기 업데이트된 하나 이상의 명령의도 확률분포들 중에서 하나의 명령의도 확률분포를 선택하는 단계;
    상기 선택된 명령의도 확률분포로부터 최종 명령의도를 선택하여 그에 대응하는 동작신호를 출력하는 단계를 포함하는 음성명령 인식 방법.
  12. 제11항에 있어서,
    상기 명령의도 확률분포 업데이트 단계는,
    상기 제2 음성명령의 명령의도를 인식하는 단계;
    상기 출력된 응답과 상기 인식된 제2 음성명령의 명령의도를 비교하여 상기 제1 음성명령의 명령의도의 변화 여부를 검출하는 단계;
    상기 검출된 명령의도의 변화 여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 재설정하는 단계; 및
    상기 재설정된 확률분포에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포의 업데이트를 수행하는 단계를 포함하는 음성명령 인식 방법.
  13. 제11항에 있어서,
    상기 명령의도 확률분포 생성단계는 상기 제1 음성명령에 대해 명령의도가 유지되는 경우, 명령의도가 수정되는 경우 및 명령의도가 새로운 경우의 상황별로 나누어 서로 다른 명령의도 확률분포를 동시에 생성하고,
    상기 명령의도 확률분포 업데이트 단계는 상기 제2 음성명령의 명령의도 변화여부에 따라 상기 제1 음성명령의 상황별 명령의도 확률분포를 다시 명령의도가 유지되는 경우, 명령의도가 수정되는 경우, 명령의도가 새로운 경우의 상황별로 나누어 계층적으로 업데이트하는 음성명령 인식 방법.
  14. 제11항에 있어서,
    상기 명령의도 확률분포는,
    상기 음성명령의 명령의도, 상기 음성명령에 대한 재확인 여부, 상기 응답 출력여부, 상기 동작신호 출력여부 중 적어도 하나의 정보를 포함하는 음성명령 인식 방법.
  15. 제11항에 있어서,
    상기 명령의도 확률분포 업데이트 단계는,
    상기 동작신호 출력부가 최종 명령의도를 선택할 때까지 상기 음성명령 확률분포를 업데이트하는 음성명령 인식 방법.
  16. 제11항에 있어서,
    상기 명령의도 확률분포 선택 단계는,
    상기 업데이트된 하나 이상의 명령의도 확률분포들 중 엔트로피가 가장 낮은 것을 하나의 명령의도 확률분포로 선택하는 음성명령 인식 방법.
  17. 제14항에 있어서,
    상기 명령의도 확률분포 선택 단계는,
    상기 업데이트된 하나 이상의 명령의도 확률분포들의 특정 정보 값을 기준으로 하나의 명령의도를 선택하는 음성명령 인식 방법.
  18. 제14항에 있어서,
    상기 명령의도 확률분포 선택 단계는,
    상기 업데이트된 하나 이상의 명령의도 확률분포의 특정 정보에 가중치를 부여하여 그 가중치의 평균값을 계산하여 하나의 명령의도로 선택하는 음성명령 인식 방법.
  19. 제11항에 있어서,
    상기 동작신호 출력 단계는,
    상기 선택된 명령의도 확률분포 중 가장 높은 확률을 가지는 하나 이상의 명령의도에 기초하여 최종의도를 선택하여 그에 대응하는 동작신호를 출력하는 음성명령 인식 방법.
  20. 제11항에 있어서,
    상기 동작신호 출력 단계는,
    상기 선택된 명령의도 확률분포의 명령의도 중 명령의도에 부합하는 동작신호가 출력되면 양의 보상값을 적용하고, 상기 명령의도에 부합하지 않는 동작신호가 출력되면 음의 보상값을 적용하여, 상기 보상값이 최대가 되는 동작을 동작신호로 출력하는 음성명령 인식 방법.
KR1020100075038A 2010-08-03 2010-08-03 음성명령 인식 장치 및 음성명령 인식 방법 KR101699720B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020100075038A KR101699720B1 (ko) 2010-08-03 2010-08-03 음성명령 인식 장치 및 음성명령 인식 방법
US13/093,919 US9142212B2 (en) 2010-08-03 2011-04-26 Apparatus and method for recognizing voice command

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020100075038A KR101699720B1 (ko) 2010-08-03 2010-08-03 음성명령 인식 장치 및 음성명령 인식 방법

Publications (2)

Publication Number Publication Date
KR20120012919A true KR20120012919A (ko) 2012-02-13
KR101699720B1 KR101699720B1 (ko) 2017-01-26

Family

ID=45556783

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020100075038A KR101699720B1 (ko) 2010-08-03 2010-08-03 음성명령 인식 장치 및 음성명령 인식 방법

Country Status (2)

Country Link
US (1) US9142212B2 (ko)
KR (1) KR101699720B1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013122310A1 (en) * 2012-02-17 2013-08-22 Lg Electronics Inc. Method and apparatus for smart voice recognition
KR20160085277A (ko) * 2013-11-13 2016-07-15 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 사용자 특유의 그래머를 사용하는 미디어 아이템 선택
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20180071931A (ko) * 2016-12-20 2018-06-28 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US10546574B2 (en) 2016-09-01 2020-01-28 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
WO2021040092A1 (ko) * 2019-08-29 2021-03-04 엘지전자 주식회사 음성 인식 서비스 제공 방법 및 장치

Families Citing this family (124)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9530405B2 (en) * 2012-11-30 2016-12-27 Mitsubishi Electric Corporation Intention estimating device and intention estimating method
CN104969289B (zh) 2013-02-07 2021-05-28 苹果公司 数字助理的语音触发器
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101959188B1 (ko) 2013-06-09 2019-07-02 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
KR102394485B1 (ko) * 2013-08-26 2022-05-06 삼성전자주식회사 음성 인식을 위한 전자 장치 및 방법
KR102023138B1 (ko) 2013-12-02 2019-09-19 후아웨이 테크놀러지 컴퍼니 리미티드 인코딩 방법 및 장치
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9837075B2 (en) * 2014-02-10 2017-12-05 Mitsubishi Electric Research Laboratories, Inc. Statistical voice dialog system and method
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9966065B2 (en) 2014-05-30 2018-05-08 Apple Inc. Multi-command single utterance input method
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
KR102261552B1 (ko) * 2014-06-30 2021-06-07 삼성전자주식회사 음성 명령어 제공 방법 및 이를 지원하는 전자 장치
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9472196B1 (en) * 2015-04-22 2016-10-18 Google Inc. Developer voice actions system
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105959761A (zh) * 2016-04-28 2016-09-21 京东方科技集团股份有限公司 一种支持语音控制osd菜单的显示器
US11222633B2 (en) * 2016-05-20 2022-01-11 Nippon Telegraph And Telephone Corporation Dialogue method, dialogue system, dialogue apparatus and program
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US11663535B2 (en) 2016-10-03 2023-05-30 Google Llc Multi computational agent performance of tasks
US10311856B2 (en) 2016-10-03 2019-06-04 Google Llc Synthesized voice selection for computational agents
US10853747B2 (en) 2016-10-03 2020-12-01 Google Llc Selection of computational agent for task performance
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
KR20180086032A (ko) 2017-01-20 2018-07-30 삼성전자주식회사 전자장치, 전자장치의 제어방법 및 기록매체
US10643609B1 (en) * 2017-03-29 2020-05-05 Amazon Technologies, Inc. Selecting speech inputs
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US10303715B2 (en) 2017-05-16 2019-05-28 Apple Inc. Intelligent automated assistant for media exploration
US10636428B2 (en) 2017-06-29 2020-04-28 Microsoft Technology Licensing, Llc Determining a target device for voice command interaction
KR102034220B1 (ko) 2017-10-12 2019-10-18 에스케이텔레콤 주식회사 인공지능 컴퓨팅 플랫폼 및 그 개인화 설정 방법
WO2019107145A1 (ja) * 2017-11-28 2019-06-06 ソニー株式会社 情報処理装置、及び情報処理方法
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10496705B1 (en) 2018-06-03 2019-12-03 Apple Inc. Accelerated task performance
CN111742539B (zh) * 2018-08-07 2022-05-06 华为技术有限公司 一种语音控制命令生成方法及终端
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
KR20200050373A (ko) 2018-11-01 2020-05-11 삼성전자주식회사 전자 장치 및 그의 제어 방법
WO2020091503A1 (en) 2018-11-01 2020-05-07 Samsung Electronics Co., Ltd. Electronic apparatus and control method thereof
KR20200082137A (ko) * 2018-12-28 2020-07-08 삼성전자주식회사 전자 장치 및 그의 제어 방법
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK201970510A1 (en) 2019-05-31 2021-02-11 Apple Inc Voice identification in digital assistant systems
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
US11488406B2 (en) 2019-09-25 2022-11-01 Apple Inc. Text detection using global geometry estimators
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11043220B1 (en) 2020-05-11 2021-06-22 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11620993B2 (en) * 2021-06-09 2023-04-04 Merlyn Mind, Inc. Multimodal intent entity resolver

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008514983A (ja) * 2004-09-27 2008-05-08 ロバート ボッシュ コーポレーション デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話
US20080247519A1 (en) * 2001-10-15 2008-10-09 At&T Corp. Method for dialog management

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3194719B2 (ja) 1998-07-17 2001-08-06 株式会社エイ・ティ・アール音声翻訳通信研究所 対話システム
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
WO2002060162A2 (en) * 2000-11-30 2002-08-01 Enterprise Integration Group, Inc. Method and system for preventing error amplification in natural language dialogues
US6826316B2 (en) 2001-01-24 2004-11-30 Eastman Kodak Company System and method for determining image similarity
EP1380153B1 (en) * 2001-04-19 2009-09-02 BRITISH TELECOMMUNICATIONS public limited company Voice response system
US20090164215A1 (en) * 2004-02-09 2009-06-25 Delta Electronics, Inc. Device with voice-assisted system
JP3923513B2 (ja) * 2004-06-08 2007-06-06 松下電器産業株式会社 音声認識装置および音声認識方法
US7620549B2 (en) * 2005-08-10 2009-11-17 Voicebox Technologies, Inc. System and method of supporting adaptive misrecognition in conversational speech
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US8681778B2 (en) * 2006-01-10 2014-03-25 Ingenio Llc Systems and methods to manage privilege to speak
US8996385B2 (en) * 2006-01-31 2015-03-31 Honda Motor Co., Ltd. Conversation system and conversation software
JP2009157905A (ja) 2007-12-07 2009-07-16 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
JP2010020273A (ja) 2007-12-07 2010-01-28 Sony Corp 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US8077836B2 (en) * 2008-07-30 2011-12-13 At&T Intellectual Property, I, L.P. Transparent voice registration and verification method and system
US8520808B2 (en) * 2008-10-08 2013-08-27 Synchronoss Technologies System and method for robust evaluation of the user experience in automated spoken dialog systems
US8140328B2 (en) 2008-12-01 2012-03-20 At&T Intellectual Property I, L.P. User intention based on N-best list of recognition hypotheses for utterances in a dialog
TWI420433B (zh) * 2009-02-27 2013-12-21 Ind Tech Res Inst 語音互動系統與方法
US20100332287A1 (en) * 2009-06-24 2010-12-30 International Business Machines Corporation System and method for real-time prediction of customer satisfaction
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US8509396B2 (en) * 2009-09-24 2013-08-13 International Business Machines Corporation Automatic creation of complex conversational natural language call routing system for call centers
KR101612788B1 (ko) * 2009-11-05 2016-04-18 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US8457968B2 (en) * 2009-12-08 2013-06-04 At&T Intellectual Property I, L.P. System and method for efficient tracking of multiple dialog states with incremental recombination
US8626511B2 (en) * 2010-01-22 2014-01-07 Google Inc. Multi-dimensional disambiguation of voice commands

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080247519A1 (en) * 2001-10-15 2008-10-09 At&T Corp. Method for dialog management
JP2008514983A (ja) * 2004-09-27 2008-05-08 ロバート ボッシュ コーポレーション デバイスの認知的に過負荷なユーザのインタラクティブ会話型対話

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013122310A1 (en) * 2012-02-17 2013-08-22 Lg Electronics Inc. Method and apparatus for smart voice recognition
US8793138B2 (en) 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
US8793136B2 (en) 2012-02-17 2014-07-29 Lg Electronics Inc. Method and apparatus for smart voice recognition
CN104169837A (zh) * 2012-02-17 2014-11-26 Lg电子株式会社 用于智能语音识别的方法和设备
US9229681B2 (en) 2012-02-17 2016-01-05 Lg Electronics Inc. Method and apparatus for smart voice recognition
KR20160085277A (ko) * 2013-11-13 2016-07-15 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 사용자 특유의 그래머를 사용하는 미디어 아이템 선택
US9953654B2 (en) 2014-05-20 2018-04-24 Samsung Electronics Co., Ltd. Voice command recognition apparatus and method
US10546574B2 (en) 2016-09-01 2020-01-28 Samsung Electronics Co., Ltd. Voice recognition apparatus and method
WO2018117608A1 (ko) * 2016-12-20 2018-06-28 삼성전자 주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
KR20180071931A (ko) * 2016-12-20 2018-06-28 삼성전자주식회사 전자 장치, 그의 사용자 발화 의도 판단 방법 및 비일시적 컴퓨터 판독가능 기록매체
US11367434B2 (en) 2016-12-20 2022-06-21 Samsung Electronics Co., Ltd. Electronic device, method for determining utterance intention of user thereof, and non-transitory computer-readable recording medium
WO2021040092A1 (ko) * 2019-08-29 2021-03-04 엘지전자 주식회사 음성 인식 서비스 제공 방법 및 장치
US11393470B2 (en) 2019-08-29 2022-07-19 Lg Electronics Inc. Method and apparatus for providing speech recognition service

Also Published As

Publication number Publication date
US20120035935A1 (en) 2012-02-09
KR101699720B1 (ko) 2017-01-26
US9142212B2 (en) 2015-09-22

Similar Documents

Publication Publication Date Title
KR20120012919A (ko) 음성명령 인식 장치 및 음성명령 인식 방법
US11776531B2 (en) Encoder-decoder models for sequence to sequence mapping
JP6538779B2 (ja) 音声対話システム、音声対話方法、および音声対話システムを適合させる方法
KR101828273B1 (ko) 결합기반의 음성명령 인식 장치 및 그 방법
EP3477638A2 (en) Dialog system with self-learning natural language understanding
EP3207507B1 (en) Augmenting neural networks with external memory
US11227581B2 (en) Systems and methods for generating a response based on task-independent conversational responses or task-specific responses
CN108922564B (zh) 情绪识别方法、装置、计算机设备及存储介质
US11170770B2 (en) Dynamic adjustment of response thresholds in a dialogue system
US11488067B2 (en) Training machine learning models using teacher annealing
US11514916B2 (en) Server that supports speech recognition of device, and operation method of the server
US10878337B2 (en) Assistance generation
EP3443450A1 (en) Two-stage training of a spoken dialogue system
KR20170016399A (ko) 향상된 음성 인식을 돕기 위한 시각적 컨텐츠의 변형
WO2023125002A1 (zh) 语音交互方法及其装置、模型训练方法、车辆和存储介质
KR20190113252A (ko) 시선 추적 방법 및 이를 수행하기 위한 단말
US11587571B2 (en) Electronic apparatus and control method thereof
US20210343175A1 (en) Systems and methods for adaptive assessment
US11694675B2 (en) Information processing apparatus, information processing system, and information processing method
CN112951222A (zh) 电子装置及其控制方法
CN112988992B (zh) 一种信息交互方法、装置及电子设备
Su et al. Dynamically context-sensitive time-decay attention for dialogue modeling
GB2573213A (en) A spoken dialogue system, a spoken dialogue method and a method of adapting a spoken dialogue system
US20240112673A1 (en) Identifying and correcting automatic speech recognition (asr) misrecognitions in a decentralized manner
CN117151114A (zh) 意图识别方法和装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20200218

Year of fee payment: 4