KR20070038132A - 사용자와 대화 통신을 수행하는 시스템을 위한 방법 - Google Patents

사용자와 대화 통신을 수행하는 시스템을 위한 방법 Download PDF

Info

Publication number
KR20070038132A
KR20070038132A KR1020077002607A KR20077002607A KR20070038132A KR 20070038132 A KR20070038132 A KR 20070038132A KR 1020077002607 A KR1020077002607 A KR 1020077002607A KR 20077002607 A KR20077002607 A KR 20077002607A KR 20070038132 A KR20070038132 A KR 20070038132A
Authority
KR
South Korea
Prior art keywords
user
candidate list
semantic
predefined
items
Prior art date
Application number
KR1020077002607A
Other languages
English (en)
Inventor
토마스 포텔레
홀저 숄
프랑크 자센샤이드트
옌스 프리이데만 마쉬너
Original Assignee
코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 코닌클리케 필립스 일렉트로닉스 엔.브이. filed Critical 코닌클리케 필립스 일렉트로닉스 엔.브이.
Publication of KR20070038132A publication Critical patent/KR20070038132A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 사용자(105)와 대화 통신을 수행하는 시스템(101)을 위한 방법에 관한 것이다. 상기 시스템에 의해 수행될 동작의 요청을 포함하는 사용자의 음성 신호(107)가 기록되고 분석된다. 분석 결과는 상기 시스템(101)에 정의된 미리 정의된 시맨틱(semantic) 항목(103)과 비교되고, 여기서 동작은 시맨틱 항목의 각각과 연관된다. 상기 비교를 기초로 해서, 상기 미리 정의된 시맨틱 항목(103)으로부터 선택된 제한된 개수의 시맨틱 항목(111, 113)을 식별하는 후보 목록(109)이 생성되고 사용자(105)에게 제시된다. 만약 사용자(105)가 상기 후보 목록(109)으로부터 다른 시맨틱 항목을 선택하지 않는다면, 상기 후보 목록(109) 내의 상기 시맨틱 항목 중의 하나와 연관된 동작이 미리 정의된 기준을 기초로 해서 수행된다.

Description

사용자와 대화 통신을 수행하는 시스템을 위한 방법{A METHOD FOR A SYSTEM OF PERFORMING A DIALOGUE COMMUNICATION WITH A USER}
본 발명은 사용자와 대화 통신을 수행하는 시스템을 위한 방법에 관한 것이다. 사용자의 음성 신호를 분석하여, 시맨틱(semantic) 항목의 후보 목록이 생성되고 사용자에게 제시된다. 만약 사용자가 후보 목록으로부터 다른 시맨틱 항목을 선택하지 않는다면, 후보 목록 내의 시맨틱 항목 중의 하나와 연관된 동작이 미리 정의된 기준에 기초해서 수행된다.
음성 인식이 100%의 정확도에 결코 이르지 못할 것이라는 것이 전문가들 내에서 폭넓게 받아들여진다. 그러므로, 에러와 불확실성을 다루기 위한 방법은 중요한 연구 분야이다. 이용 가능한 방법은 해당 시스템의 사용 시나리오에 의해 결정된다.
전화-기반의 시스템과 같은 음성-전용 대화 시스템은 주로 해명(clarification) 질문과 묵시적 도는 명시적 검증을 사용한다. 임의의 텍스트를 워드 프로세서로 구술하기 위해 주로 의도되고, 디스플레이가 변환된 텍스트를 보여주는 시스템은 음성 인식기에 의해 전달된 후보 목록으로부터 유도된 대안들을 제공할 수 있다. 이 동안에, 대안의 세트가 생성되는데, 이 세트는 종종 트리 그래프 (tree graph)로서 표현되고, 가능한 워드 시퀀스의 목록으로 변환될 수 있다. 이것은 종종 n-최적 후보 목록이라고 불린다. 구술(dictation) 시스템은 워드들 또는 워드 시퀀스의 일부의 후보 목록을 디스플레이할 수 있는데, 여기서 다른 대안들 간의 유사성이 충분히 높고, 그러므로 사용자는 키보드 명령어에 의해 최적의 대안을 선택할 수 있다. 하지만, 이 시스템은 사용자와 상호작용적 방식으로 통신하기 위해 적응되지는 않는다.
다양상(multomodal) 발성 대화 시스템, 즉, 음성과 추가적인 양상에 의해 제어되는 시스템에 대해, 사용자 명령어를 수행하는 결과는 일반적으로 후보 목록의 형태로 디스플레이된다. 예를 들면, 음성에 의해 제어되는 전자 프로그램 가이드는 질의에 관해 최적의 결과를 디스플레이한다. 자동차 내비게이션(navigation) 시스템에서 경로 계획을 위해 목적지를 입력하는 것과 같은, 대형 어휘와 매우 간단한 대화 구조를 갖는 특정 응용에 대해서, 후보 목록이 디스플레이상에 디스플레이된다. 종래 기술의 다양상 발성 대화 시스템의 문제점은, 후보 목록은 가능한 반응일뿐이고, 후보 목록에 기초해서는 대화를 계속하는 것이 가능하지 않다. 사용자와 시스템 간의 상호작용적 통신의 이러한 부족 때문에, 통신은 매우 사용자 비친화적(unfriendly)이게 된다.
본 발명의 목적은, 상호작용적이고 사용자 친화적인 방법과 사용자와 대화 통신을 수행하기 위한 디바이스를 제공함으로써 상기 언급된 문제점을 해결하는 것이다.
제1 양상에 따라, 본 발명은 사용자와 대화 통신을 수행하는 시스템을 위한 방법에 관한 것이며,
- 상기 시스템에 의해 수행될 동작의 요청을 포함하는 음성 신호를 기록하는 단계로서, 상기 음성 신호는 상기 사용자에 의해 생성되는, 단계,
- 음성 인식을 사용해서 상기 기록된 음성 신호를 분석하고, 상기 시스템에 정의된 미리 정의된 시맨틱(semantic) 항목과 상기 분석의 결과를 비교하는 단계로서, 동작은 상기 시맨틱 항목의 각각과 연관되는, 단계,
- 상기 비교를 기초로 해서 후보 목록(109)을 생성하는 단계로서, 상기 후보 목록은 상기 미리 정의된 시맨틱 항목으로부터 선택된 제한된 개수의 시맨틱 항목을 식별하는, 단계,
- 상기 후보 목록을 상기 사용자에 제시하는 단계, 및
- 상기 후보 목록에서 상기 시맨틱 항목 중의 하나와 연관된 동작을 수행하는 단계로서, 상기 사용자가 상기 후보 목록으로부터 다른 시맨틱 항목을 선택하지 않는다면, 상기 동작은 미리 정의된 기준에 따라 선택되는, 단계를 포함한다.
이에 따라, 후보 목록은 사용자와 시스템 간의 상호작용적 통신의 지속을 제공하는데, 이는 통신을 매우 사용자 친화적이 되게 한다. 또한, 사용자가 선택할 수 있는 시맨틱 항목의 제한 때문에, 에러 정정의 가능성은 크게 개선된다. 예로써, 사용자의 요청이 특정 곡을 재생하는 것을 포함하고, 이 곡의 정확한 매칭이 발견되지 않으면, 특정한 미리 정의된 수준까지 요청된 곡과 매칭하는, 유사한 발음을 가진, 곡의 목록이 디스플레이된다. 이 경우에, 사용자는 디스플레이되는 후보 목록에 기초하여 정정을 하는 가능성을 갖는다. 사용자의 선택이 후보 목록에만 기초해서 이루어지기 때문에, 이것은 에러의 위험성을 크게 감소시킨다. 다른 예에서, 사용자의 요청은 롤링 스톤즈에 의한 어떤 곡을 재생하는 것을 포함할 수 있다. 이 경우에, 생성된 후보 목록은 롤링 스톤즈의 모든 곡을 포함할 수 있다. 그러므로, 사용자는 상기 후보 목록, 즉, 롤링 스톤즈 곡에 기초해서 곡을 선택할 수 있거나, 만약 사용자가 디스플레이된 후보 목록에 응답하지 않는다면, 시스템은 무작위로 곡을 선택할 수 있다.
제1 실시예에서, 상기 제시된 후보 목록에서 상기 시맨틱 항목은 사용자의 요청과 다른 매칭에 기초하는 다양한 신뢰 수준을 포함한다.
이에 따라, 후보 목록을 사용자에게 제시할 때, 상기 시맨틱 항목과 연관된 다양한 동작이 정렬된 방식으로 사용자에게 제시될 수 있다. 예로서, 제1 후보는 사용자의 요청과 최적으로 매칭하는 목록이고, 제2 후보는 제2 최적 매칭하는 후보가 되는 식이다.
일 실시예에서, 최고 신뢰 수준을 가진 상기 후보 목록으로부터의 시맨틱 항목이 자동으로 선택되고, 한편 상기 후보 목록은 사용자에게 제시된다.
이에 따라, 최고 신뢰 수준을 가진 후보가 정확한 후보가 아닌 경우에만, 사용자가 시맨틱 항목을 선택하는 것을 필요로 한다. 그러므로, 상기 후보 목록의 실제 사용이 최소화되는데, 그 이유는 최고 신뢰 수준을 가진 시맨틱 항목이 정확한 후보라는 상대적으로 가능성이 있기 때문이다. 예로써, 사용자는 곡을 재생하기 위해 음악 쥬크박스를 요청할 수 있다. 이 경우에, 가능한 후보 목록은 요청된 곡과 유사한 발음(즉, 사용자의 음성 신호)을 가진 하나 이상의 곡을 포함한다. 요청된 곡과 가장 근접한 발음을 가진 곡, 즉, 최적의 매칭을 갖는 곡은 그러므로 최고 신뢰 수준을 갖는 대안이다. 명백히, 만약 사용자가 예를 들어 10%의 경우에서만 정정을 수행할 필요가 있다면, 통신은 크게 개선된다.
일 실시예에서, 만약 사용자가 상기 후보 목록에서 임의의 시맨틱 항목을 선택하지 않는다면, 최고 신뢰 수준을 가진 상기 후보 목록으로부터의 상기 시맨틱 항목이 자동으로 선택된다.
그러므로, 침묵은 승인과 동일하다. 최고 신뢰 수준을 가진 대안이 정확한 것이라는 것을, 후보 목록이 어떻게 제시되는가에 따라, 사용자가 보거나 들을 때, 사용자는 임의의 유형의 확인을 할 필요가 없다. 또한, 이것은 상기 후보 목록의 실제 사용을 최소화한다.
일 실시예에서, 상기 가능한 후보 목록은 미리 정의된 시간 간격 동안 상기 사용자에 제시된다.
따라서, 사용자를 위해 긴 시간 기간 동안 후보 목록을 제시하는 것이 필요하지 않으며, 따라서, 시스템과 사용자 간의 상호작용은 보다 많이 계속된다. 이전 실시예에서, 만약 사용자가 반응하지 않는다면, 시맨틱 항목이 예를 들어, 5초 이후에 자동으로 선택되는 것이 기술되어 있는데, 즉, 사용자는 다른 시맨틱 항목을 선택하기 위한 5초를 갖는다.
일 실시예에서, 상기 후보 목록을 사용자에게 제시하는 것은 사용자를 위해 상기 후보 목록을 디스플레이하는 것을 포함한다.
이에 따라, 하나의 편리한 대안이 사용자에게 후보 목록을 제시하기 위해 제공된다. 바람직하게, 디스플레이가 존재하는지 아닌지가 자동적으로 점검된다. 만약 디스플레이가 존재한다면, 이 디스플레이가 사용될 수 있다.
일 실시예에서, 상기 가능한 후보 목록을 상기 사용자에 제시하기 위해 상기 사용자를 위해 상기 가능한 후보 목록을 재생(play)하는 것을 포함한다.
이에 따라, 아무런 디스플레이도 사용자에게 후보 목록을 제시하는 것이 필요하지 않다. 만약 시스템이, 사용자가 운전 동안에 상호작용할 수 있는 자동차 내비게이션 시스템을 포함한다면, 이것은 큰 이점일 수 있다.
추가적인 양상에서, 본 발명은 처리 유닛으로 하여금 상기 방법을 수행하도록 유발시키기 위한 내장된 명령어를 갖는 컴퓨터 판독 가능한 매체와 관련이 있다.
다른 양상에 따라, 본 발명은 사용자와 대화 통신을 수행하기 위한 시스템에서 사용되기 위한 대화 디바이스와 관련이 있고, 상기 디바이스는,
- 상기 시스템에 의해 수행될 동작의 요청을 포함하는 음성 신호를 기록하기 위한 기록기로서, 여기서 상기 음성 신호는 상기 사용자에 의해 생성되는, 기록기,
- 음성 인식을 사용해서 상기 기록된 음성 신호를 분석하고, 상기 시스템에 정의된 미리 정의된 시맨틱(semantic) 항목과 상기 분석의 결과를 비교하기 위한 음성 인식기로서, 여기서 동작은 상기 시맨틱 항목의 각각과 연관되고, 상기 비교에 기초해서, 후보 목록이 생성되고, 상기 후보 목록은 상기 미리 정의된 시맨틱 항목으로부터 선택된 제한된 개수의 시맨틱 항목을 식별하는, 음성 인식기,
- 상기 후보 목록을 상기 사용자에 제시하기 위한 수단,
- 상기 후보 목록에서 상기 시맨틱 항목 중의 하나와 연관된 동작을 수행하기 위한 수단으로서, 상기 사용자가 상기 후보 목록으로부터 다른 시맨틱 항목을 선택하지 않는다면, 상기 동작은 미리 정의된 기준에 따라 선택되는, 수단을
포함한다.
이에 따라, 상기 사용자와 상기 시스템 간의 대화 통신을 개선하는 다양한 시스템 내에 집적될 수 있는 사용자 친화적인 디바이스가 제공된다.
일 실시예에서, 상기 후보 목록을 상기 사용자에 제시하기 위한 상기 수단은 디스플레이를 포함한다.
이 디바이스는, 디스플레이가 존재하는지를 점검하고, 디스플레이의 존재 여부에 기초해서 이 후보 목록이 사용자를 위해 디스플레이되어야 하는지를 점검하기 위해 바람직하게 적응된다. 예로써, 디스플레이에는 터치 스크린 등이 제공될 수 있어서, 만약 필요하다면, 사용자는 지시(pointing)에 의한 정정을 수행할 수 있다.
일 실시예에서, 상기 후보 목록을 상기 사용자에게 제시하기 위한 수단은 음향 디바이스를 포함한다.
이에 따라, 예를 들면, 디스플레이가 존재하지 않을 때, 후보 목록이 사용자를 위해 소리내어 재생될 수 있다. 물론, 이 시스템에는 디스플레이와 음향 디바이스 모두가 제공될 수 있어서, 사용자는 예를 들면 운전 중이므로 대화 방식으로, 또는 상기 디스플레이를 통해 통신하기 위해 시스템에 명령을 내릴 수 있다.
아래에서, 특히 바람직한 실시예들에서, 본 발명이 첨부된 도면과 연결해서 보다 상세히 설명될 것이다.
도 1은 본 발명에 따라, 사용자와 시스템간의 대화 통신을 설명한 도면.
도 2는 사용자와 대화 통신을 수행하는 시스템을 위한 방법의 실시예의 흐름도.
도 3은 사용자와 대화 통신을 수행하기 위한 대화 디바이스를 포함하는 시스템의 예들을 도시한 도면.
도 4는 사용자와 대화 통신을 수행하기 위한 시스템에서 사용될 본 발명에 따른 대화 디바이스를 도시한 도면.
도 1은 본 발명에 따라 사용자(105)와 시스템(101)간의 대화 통신을 도식적으로 설명한다. 상기 시스템(101)에 의해 수행될 동작의 요청을 포함하는 음성 신호(107)는 사용자에 의해 생성되고, 시스템(101)에 의해 기록된다. 음성 인식을 사용해서, 음성 신호가 분석되고, 분석 결과가 시스템(101)에서 정의된 미리 정의된 항목(103)과 비교된다. 만약 시스템(101)이 음악 쥬크박스라면, 이러한 시맨틱 항목은, 예를 들면 다른 곡들을 재생하는 것과 같은, 시스템에 의해 수행될 동작일 수 있다. 분석은 사용자의 요청과 미리 정의된 시맨틱 항목(103)간의 매칭을 발견하는 것을 포함할 수 있다. 분석에 기초해서, 제한된 개수의 시맨틱 항목(예, 111, 113)을 포함하는 후보 목록(109)이 생성되는데, 이 항목은 미리 정의된 시맨틱 항 목(103)을 가진 매칭 기준을 충족한다. 예로써, 매칭 기준은 80% 초과로 정확한 매칭일 가능성이 있는 매칭이 가능한 후보로서 고려될 모든 매칭을 포함할 수 있다. 이 후보 목록(109)이 사용자(105)에게 제시되고, 사용자(105)가 상기 후보 목록으로부터 다른 시맨틱 항목을 선택하지 않는다면, 후보 목록에서 시맨틱 항목(111, 113) 중의 하나와 연관된 동작이 미리 정의된 기준에 기초해서 수행된다. 미리 정의된 기준은 예로써, 최적 매칭을 갖는 시맨틱 항목, 즉, 최고 신뢰 수준을 갖는 항목과 연관된 동작을 자동으로 선택하는 것을 포함한다.
도 2는 사용자와 대화 통신을 수행하는 시스템을 위한 방법의 실시예의 흐름도를 설명한다. 이 실시예에서, 상기 시스템에 의해 수행될 동작의 요청을 포함하는 사용자의 음성 신호 또는 사용자의 입력(U_I)(201)은 음성 인식기에 의해 처리되고, 상기 음성 인식기는 이 시스템에서 미리 정의된 시맨틱 항목으로의 최적의 매칭에 기초해서 하나 이상의 대안 또는 후보 목록(C_L)(203)을 생성한다. 사용자의 음성 신호는 예로서, 음악 주크박스가 핑크 플로이드의 곡인 "wish you were here"를 재생하기 위한 요청을 포함할 수 있다. 사용자의 음성 신호(U_I)(201)에 기초해서, 시스템은 시스템에서 미리 정의된 시맨틱 항목으로의 최적의 매칭에 따라 정렬된 후보 목록을 만들고, 최적의 후보(S_O)(205)를 가지고 요구된 동작을, 즉, 곡명 "wish you were here"에 최적으로 매칭하는 후보를 재생하는 것을 자동으로 시작한다. 만약 후보 목록이 단지 이 하나의 후보(O_C?)(207)만을 포함한다면, 시스템의 정상 동작이 계속될 것인데, 즉, 디바이스가 음악 주크박스인 경우에, 정상 디스플레이가 계속된다(E)(217).
만약 후보 목록이 하나를 초과하는 후보(O_C?)(2070를 포함하면, 후보 목록은 예를 들면, 후보 엔트리(entry)(L_R_G)(209)를 가지고 인식 문법을 로딩(loading)함으로써 사용자를 위해 표현된다(211). 후보 목록은 예를 들면, 유사한 발음을 가진 음악가의 목록을 포함할 수 있다. 후보 목록은 특정하게 미리 정의된 시간 기간 동안 디스플레이될 수 있어서, 그 결과 사용자는 다른 후보 엔트리를 선택하기 위한 기회를 가져서, 정정을 수행한다. 만약 그러나 사용자가 반응하지 않는다면, 미리 정의된 시간 기간(T_O)(213) 이후에, 최적의 매칭을 가진 후보가 정확하고, 예를 들면, 제1이라고 열거된 후보라는 것이 가정된다. 양쪽 모든 경우에서, 후보 엔트리를 가진 인식 문법이 언로딩(unloading)되고(U_R_G)(215), 정상 디스플레이가 계속 진행된다(E)(217).
일 실시예에서, 만약 예를 들면, 형성될 예를 들면, 곡을 재생하는 것과 같은 동작에서, 하나의 후보가 매우 높은 신뢰 수준을 가진다면, 이 요청은 즉시로 시작되는데, 즉, 훨씬 더 낮은 신뢰 수준을 가진 가능한 후보 목록을 나타내지 않고 이 곡이 재생된다. 만약 하지만 이 곡이 정확하지 않다면, 사용자는 예를 들면 이 제목을 다시 반복하는 것을 지시할 수 있다. 이것은 바람직하게 사용자에 가능한 후보 목록을 나타냄으로써 디바이스에 의해 반응될 것이다.
만약 일 실시예에서, 비록 단지 하나의 합리적인 대안이 후보 목록에 포함되어 있어도, 후보 목록이 표현된다. 이것은 사용자의 입력에 대한 디바이스의 해석에 대한 피드백을 제공하기 위한 것이다. 일예로써, 만약 디바이스가 주크박스에 집적되면, 곡이 재생되는 동안에 곡명이 디스플레이된다.
일 실시예에서, 디바이스가 사용자에게 제시될 수 있는 항목을 디스플레이하기 위해 적응된다. 사용자의 입력이 롤링 스톤즈의 어떤 곡을 재생하는 예로써, 후보 목록은 롤링 스톤즈 곡들의 전부(또는 일부분)을 포함한다.
일 실시예에서, 사용자는 대안적인 후보의 이름을 발성함으로써, 또는 요구되는 대안을 직접적으로 명명함으로서, 또는 목록에서의 그 위치(예, "두 번째")에 의해 후보 엔트리를 선택한다. 후자의 경우에, 음성 인식기는 숫자에 대해 견고할 수 있다.
일 실시예에서, 사용자는 예를 들면, 터치 스크린, 원격 제어기 등과 같은 지적 양상(pointing modality)에 의해 후보 엔트리를 선택한다.
일 실시예에서, 사용자가 최적 후보를 정정을 위해 사용하지 않을 것이므로, 최적 후보는 인식 어휘로부터 배제될 수 있고, 최적 후보는 다른 후보와 혼동될 수 없다. 예로써, 사용자는: "비틀즈의 어떤 곡을 연주하라"고 말할 수 있고, 디바이스는 이러한 사용자 입력을 "이글스의 어떤 곡을 연주하라"라고 이해한다. 사용자가 이러한 오류를 인식하고, "비틀즈의 어떤 곡을 연주하라"를 반복할 때, 이 디바이스는 이글스의 곡을 배제하는데, 그 이유는 그것이 최초에 정확하지 않았기 때문이다. 이에 따라, 가능한 후보를 위한 선택은 "이글스"인 하나의 후보만큼 줄어든다.
일 실시예에서, 사용자에 제시 가능한 항목이 알려져 있는지를 전달한다. 예로써, 음악 주크박스 응용에서, 곡의 정확한 이름이 사용자에 의해 알려져 있지 않는데, 예를 들면, 사용자는 "Sergeant Peppers"라고 말할 수 있으며, 한편 데이터 베이스는 "Sergeant Pepper's lonely hearts"를 포함한다. 이에 따라 디바이스는 이러한 하나의 후보를 사용자에게 제안하거나 이 곡을 즉시로 연주하는 것을 시작할 것이다.
도 3은 사용자와 대화 통신을 수행하기 위한 대화 디바이스를 포함하는 시스템의 예를 도시한다. 사용자(301)는 대화 디바이스를 가진 TV(303)와 상호작용할 수 있다. 디바이스가 모니터의 존재를 감지할 때, 이 디바이스는 사용자(301)와 상호작용하기 위한 모니터를 자동적으로 사용할 수 있고, 이에 따라 후보 목록이 TV 모니터 상에 작동될 수 있고 디스플레이될 수 있고 소정의 시간, 예를 들면, 5초 후에 작동 해제될 수 있다. 물론, 상호작용은 또한 대화를 통해서 수행될 수 있다. 디폴트로(by default), TV(303)는, 예를 들면, 사용자(301)와 대화 디바이스 간의 상호작용 동안에 턴오프된다. 또한, 만약 예를 들면, 환경적 잡음의 수준이 갑자기 증가되거나, 시스템 내의 새로운 응용이 최초로 사용되기 때문에, 사용자(301)가 상호작용동안 문제에 직면하면, 사용자(301)는 TV(303)를 스위치온해서 그 디바이스가 이해한 것에 관한 피드백뿐만 아니라. 의도된 대안들을 선택하기 위한 가능성을 얻을 수 있다.
대화 디바이스는 인간과 같은 방식으로 사용자(301)와 상호작용하기 위해 적응된, 컴퓨터 또는 "가정용 대화 시스템(305)" 또는 유사한 시스템으로 또한 집적될 수 있다. 이 예에서, 예를 들면 카메라와 같은 추가적인 센서가 상호작용적인 주선자(agent)로서 더 사용된다. 또한, 대화 디바이스는 임의 종류의 휴대용 디바이스(307), 터치 패드 등과 같은 것에 집적될 수 있다. 이 디바이스를 사용하는 다 른 예는 자동차 내비게이션 시스템(309)이다. 모든 이러한 경우에서, 대화 디바이스는 대화 또는 독백(monologue)을 통해 사용자와 상호작용하는 방식을 감지하기 위해 적응된다.
도 4는 사용자(105)와 대화 통신을 수행하기 위한 시스템(101)에서 사용되기 위해 본 발명에 따른 대화 디바이스(400)를 도시하는데, 여기서 대화 디바이스(400)는 기록기(Rec)(401), 음성 인식기(S_R)(402), 디스플레이 디바이스(Disp)(403) 및/또는 음향 디바이스(Ac_D)(404)와 처리기(P)(405)를 포함한다.
기록기(Rec)(401)는 사용자(105)로부터 음성 신호(107)를 기록하는데, 여기서 음성 신호(107)는 예를 들면, 음악 주크박스가 곡을 재생하기 위한 요청을 포함할 수 있다. 그러면, 음성 인식기(S_R)(402)는 음성 인식을 사용해서 기록된 음성 신호(107)을 분석하고, 시스템(101)에서 정의되고/정의되거나 미리 저장된 미리 정의된 시맨틱 항목(103)과 분석으로부터의 결과를 비교한다. 만약 분석 결과가 가능한 후보의 다수의 대안을 포함한다면, 후보 목록은 시스템(101)에서 미리 정의된 시맨틱 항목(103)으로의 최적의 매칭에 기초해서 생성된다. 그 후, 디스플레이 디바이스(Disp)(403) 및/또는 음향 디바이스(Ac_D)(404)가 후보 목록(109)을 사용자(105)에게 제시한다. 이것은 예를 들면, TV 모니터 상에 후보 목록을 디스플레이하거나 후보 목록을 사용자를 위해 재생함으로써 수행될 수 있다. 만약 후보 목록이 하나를 초과하는 후보를 포함하는 일반적인 경우이다.
처리기(P)(405)는 예를 들면 미리 프로그래밍될 수 있어서, 미리 정의된 시간 이후에 최적의 매칭을 갖는 후보를 자동으로 선택하는데, 예를 들면, 제1이라고 열거된 후보가 재생된다. 또한, 후보 목록이 단지 하나의 후보를 포함하는 경우에서, 시스템의 정상 동작이 계속되는데, 예를 들면, 이 디바이스가 음악 주크박스인 경우에, 그 후보가 자동적으로 재생된다.
상기 언급된 실시예는 본 발명을 제한하는 것이 아니라는 것과, 당업자는 첨부된 청구항들의 범위로부터 벗어남이 없이 많은 대안적인 실시예들을 설계할 수 있다는 것이 주목되어야 한다. 청구항들에서, 괄호안에 놓인 임의의 참조 기호는 청구항을 제한하는 것으로 해석되지 말아야 한다. "포함하는"이란 용어는 청구항에 열거된 것이 아닌 다른 요소 또는 단계의 존재를 배제하지 않는다. 본 발명은 다수의 분리된 요소들을 포함하는 하드웨어에 의해, 그리고 적절히 프로그래밍된 컴퓨터에 의해 구현될 수 있다. 다수의 수단을 열거하는 디바이스 청구항에서, 다수의 이러한 수단은 하나의 동일한 하드웨어 항목에 의해 구현될 수 있다. 어떠한 조치가 상호 다른 종속항들에서 열거된다는 단순한 사실은 이러한 조치의 결합이 이익을 얻기 위해 사용될 수 없다는 것을 지시하지 않는다.
본 발명은 사용자와 대화 통신을 수행하는 시스템을 위한 방법에 이용 가능하다.

Claims (11)

  1. 사용자(105)와 대화 통신을 수행하는 시스템(101)을 위한 방법으로서:
    - 상기 시스템에 의해 수행될 동작의 요청을 포함하는 음성 신호(107)를 기록하는 단계로서, 상기 음성 신호(107)는 상기 사용자(105)에 의해 생성되는, 기록 단계,
    - 음성 인식을 사용해서 상기 기록된 음성 신호를 분석하고, 상기 시스템(101)에 정의된 미리 정의된 시맨틱(semantic) 항목과 상기 분석의 결과를 비교하는 단계로서, 동작은 상기 시맨틱 항목의 각각과 연관되는, 비교 단계,
    - 상기 비교를 기초로 해서 후보 목록(109)을 생성하는 단계로서, 상기 후보 목록(109)은 상기 미리 정의된 시맨틱 항목(103)으로부터 선택된 제한된 개수의 시맨틱 항목(111, 113)을 식별하는, 생성 단계,
    - 상기 후보 목록(109)을 상기 사용자(105)에 제시하는 단계, 및
    - 상기 후보 목록(109)에서 상기 시맨틱 항목(111, 113) 중의 하나와 연관된 동작을 수행하는 단계로서, 상기 사용자(105)가 상기 후보 목록(109)으로부터 다른 시맨틱 항목을 선택하지 않는다면, 상기 동작은 미리 정의된 기준에 따라 선택되는, 수행 단계를
    포함하는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  2. 제1항에 있어서, 상기 제시된 후보 목록(109)에서 상기 시맨틱 항목(111, 113)은 상기 사용자의 요청과 다른 매치(match)를 기초로 하는 다양한 신뢰 수준을 포함하는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  3. 제1항 또는 제2항에 있어서, 최고 신뢰 수준을 가진 상기 후보 목록(109)으로부터의 상기 시맨틱 항목(111, 113)은 자동으로 선택되고, 상기 후보 목록(109)은 상기 사용자(105)에게 제시되는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  4. 제1항 내지 제3항 중의 어느 한 항에 있어서, 만약 상기 사용자(105)가 상기 후보 목록(109)내의 임의의 시맨틱 항목을 선택하지 않는다면, 최고 신뢰 수준을 가진 상기 후보 목록(109)으로부터의 상기 시맨틱 항목(111, 113)은 자동으로 선택되는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  5. 제1항 내지 제4항 중의 어느 한 항에 있어서, 상기 후보 목록(109)은 미리 정의된 시간 간격 동안 상기 사용자에 제시되는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  6. 제1항 내지 제5항 중의 어느 한 항에 있어서, 상기 사용자(105)에게 상기 후보 목록(109)을 제시하는 단계는 상기 사용자(105)에 대해 상기 후보 목록(109)을 디스플레이하는 단계를 포함하는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  7. 제1항 내지 제6항 중의 어느 한 항에 있어서, 상기 후보 목록(109)을 상기 사용자(109)에 제시하는 단계는 상기 사용자(105)에 대해 상기 후보 목록(109)을 재생(play)하는 단계를 포함하는, 사용자와 대화 통신을 수행하는 시스템을 위한 방법.
  8. 처리 유닛이 제1항 내지 제7항에 기재된 방법을 실행하도록 하기 위한 명령어를 내장하는 컴퓨터 판독 가능한 매체.
  9. 사용자(105)와 대화 통신을 수행하기 위한 시스템(101)에서 사용되기 위한 대화 디바이스(400)로서:
    - 상기 시스템(101)에 의해 수행될 동작의 요청을 포함하는 음성 신호(107)를 기록하기 위한 기록기(401)로서, 여기서 상기 음성 신호(107)는 상기 사용자(105)에 의해 생성되는, 기록기(401),
    - 음성 인식을 사용해서 상기 기록된 음성 신호를 분석하고, 상기 시스템(101)에 정의된 미리 정의된 시맨틱(semantic) 항목(103)과 상기 분석의 결과를 비교하기 위한 음성 인식기(402)로서, 여기서 동작은 상기 시맨틱 항목(103)의 각각과 연관되고, 상기 비교에 기초해서, 후보 목록(109)이 생성되고, 상기 후보 목록(109)은 상기 미리 정의된 시맨틱 항목(103)으로부터 선택된 제한된 개수의 시맨틱 항목(111, 113)을 식별하는, 음성 인식기(402),
    - 상기 후보 목록(109)을 상기 사용자(105)에 제시하기 위한 수단(403, 404),
    - 상기 후보 목록(109)에서 상기 시맨틱 항목(111, 113) 중의 하나와 연관된 동작을 수행하기 위한 수단(405)으로서, 상기 사용자(105)가 상기 후보 목록(109)으로부터 다른 시맨틱 항목을 선택하지 않는다면, 상기 동작은 미리 정의된 기준에 따라 선택되는, 수단(405)을
    포함하는, 대화 디바이스.
  10. 제9항에 있어서, 상기 후보 목록(109)을 상기 사용자(105)에게 제시하기 위한 상기 수단은 디스플레이(403)를 포함하는, 대화 디바이스.
  11. 제9항에 있어서, 상기 후보 목록(109)을 상기 사용자(105)에게 제시하기 위한 상기 수단은 음향 디바이스(404)를 포함하는, 대화 디바이스.
KR1020077002607A 2004-08-06 2005-07-27 사용자와 대화 통신을 수행하는 시스템을 위한 방법 KR20070038132A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04103811 2004-08-06
EP04103811.8 2004-08-06

Publications (1)

Publication Number Publication Date
KR20070038132A true KR20070038132A (ko) 2007-04-09

Family

ID=35276506

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020077002607A KR20070038132A (ko) 2004-08-06 2005-07-27 사용자와 대화 통신을 수행하는 시스템을 위한 방법

Country Status (6)

Country Link
US (1) US20080275704A1 (ko)
EP (1) EP1776691A1 (ko)
JP (1) JP2008509431A (ko)
KR (1) KR20070038132A (ko)
CN (1) CN1993732A (ko)
WO (1) WO2006016308A1 (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9794348B2 (en) 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
KR100988397B1 (ko) * 2008-06-09 2010-10-19 엘지전자 주식회사 이동 단말기 및 그의 텍스트 수정방법
US9978365B2 (en) 2008-10-31 2018-05-22 Nokia Technologies Oy Method and system for providing a voice interface
US8374868B2 (en) * 2009-08-21 2013-02-12 General Motors Llc Method of recognizing speech
US8738377B2 (en) 2010-06-07 2014-05-27 Google Inc. Predicting and learning carrier phrases for speech input
CN103366743A (zh) * 2012-03-30 2013-10-23 北京千橡网景科技发展有限公司 操作语音命令的方法和装置
CN103077165A (zh) * 2012-12-31 2013-05-01 威盛电子股份有限公司 自然语言对话方法及其系统
US20150039312A1 (en) * 2013-07-31 2015-02-05 GM Global Technology Operations LLC Controlling speech dialog using an additional sensor
KR102357321B1 (ko) 2014-08-27 2022-02-03 삼성전자주식회사 음성 인식이 가능한 디스플레이 장치 및 방법
US10199041B2 (en) * 2014-12-30 2019-02-05 Honeywell International Inc. Speech recognition systems and methods for maintenance repair and overhaul
US10262654B2 (en) * 2015-09-24 2019-04-16 Microsoft Technology Licensing, Llc Detecting actionable items in a conversation among participants
US10824798B2 (en) 2016-11-04 2020-11-03 Semantic Machines, Inc. Data collection for a new conversational dialogue system
US10713288B2 (en) 2017-02-08 2020-07-14 Semantic Machines, Inc. Natural language content generator
US10586530B2 (en) 2017-02-23 2020-03-10 Semantic Machines, Inc. Expandable dialogue system
US11069340B2 (en) 2017-02-23 2021-07-20 Microsoft Technology Licensing, Llc Flexible and expandable dialogue system
EP3563375B1 (en) * 2017-02-23 2022-03-02 Microsoft Technology Licensing, LLC Expandable dialogue system
US10762892B2 (en) 2017-02-23 2020-09-01 Semantic Machines, Inc. Rapid deployment of dialogue system
US11132499B2 (en) 2017-08-28 2021-09-28 Microsoft Technology Licensing, Llc Robust expandable dialogue system
US10516637B2 (en) * 2017-10-17 2019-12-24 Microsoft Technology Licensing, Llc Smart communications assistant with audio interface
JP2021149267A (ja) * 2020-03-17 2021-09-27 東芝テック株式会社 情報処理装置、情報処理システム及びその制御プログラム
US11521597B2 (en) * 2020-09-03 2022-12-06 Google Llc Correcting speech misrecognition of spoken utterances
US11756544B2 (en) * 2020-12-15 2023-09-12 Google Llc Selectively providing enhanced clarification prompts in automated assistant interactions

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4866778A (en) * 1986-08-11 1989-09-12 Dragon Systems, Inc. Interactive speech recognition apparatus
US5850627A (en) * 1992-11-13 1998-12-15 Dragon Systems, Inc. Apparatuses and methods for training and operating speech recognition systems
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
JPH09292255A (ja) * 1996-04-26 1997-11-11 Pioneer Electron Corp ナビゲーション方法及び装置
US7200555B1 (en) * 2000-07-05 2007-04-03 International Business Machines Corporation Speech recognition correction for devices having limited or no display
US7194069B1 (en) * 2002-01-04 2007-03-20 Siebel Systems, Inc. System for accessing data via voice
KR100668297B1 (ko) * 2002-12-31 2007-01-12 삼성전자주식회사 음성인식방법 및 장치

Also Published As

Publication number Publication date
CN1993732A (zh) 2007-07-04
WO2006016308A1 (en) 2006-02-16
US20080275704A1 (en) 2008-11-06
JP2008509431A (ja) 2008-03-27
EP1776691A1 (en) 2007-04-25

Similar Documents

Publication Publication Date Title
KR20070038132A (ko) 사용자와 대화 통신을 수행하는 시스템을 위한 방법
US20220156039A1 (en) Voice Control of Computing Devices
JP4260788B2 (ja) 音声認識機器制御装置
US6314397B1 (en) Method and apparatus for propagating corrections in speech recognition software
EP1939860B1 (en) Interactive speech recognition system
US9466293B1 (en) Speech interface system and method for control and interaction with applications on a computing system
JP5193473B2 (ja) オーディオファイルをスピーチ駆動の選択するシステムおよび方法
US6675142B2 (en) Method and apparatus for improving speech recognition accuracy
EP1450349B1 (en) Vehicle-mounted control apparatus and program that causes computer to execute method of providing guidance on the operation of the vehicle-mounted control apparatus
EP1693827B1 (en) Extensible speech recognition system that provides a user with audio feedback
US6748361B1 (en) Personal speech assistant supporting a dialog manager
US7881938B2 (en) Speech bookmarks in a voice user interface using a speech recognition engine and acoustically generated baseforms
US20040128141A1 (en) System and program for reproducing information
US20050203740A1 (en) Speech recognition using categories and speech prefixing
US6591236B2 (en) Method and system for determining available and alternative speech commands
US20080215183A1 (en) Interactive Entertainment Robot and Method of Controlling the Same
US20080154596A1 (en) Solution that integrates voice enrollment with other types of recognition operations performed by a speech recognition engine using a layered grammar stack
JP3799280B2 (ja) 対話システムおよびその制御方法
JP2003022089A (ja) オーディオ専用インターフェースにおけるボイス・スペリング
US20060020471A1 (en) Method and apparatus for robustly locating user barge-ins in voice-activated command systems
JP2006189730A (ja) 音声対話方法および音声対話装置
US11416593B2 (en) Electronic device, control method for electronic device, and control program for electronic device
JP3837061B2 (ja) 音信号認識システムおよび音信号認識方法並びに当該音信号認識システムを用いた対話制御システムおよび対話制御方法
EP3704569A1 (en) Voice control of computing devices
JP2009025411A (ja) 音声認識装置およびプログラム

Legal Events

Date Code Title Description
WITN Application deemed withdrawn, e.g. because no request for examination was filed or no examination fee was paid