KR20020067590A

KR20020067590A - 개인 상호작용을 시뮬레이팅하는 환경-응답 유저인터페이스/엔터테인먼트 장치

Info

Publication number: KR20020067590A
Application number: KR1020027008631A
Authority: KR
Inventors: 에스헬만라리; 구타스리니바스; 밀란스키존; 스트루베휴고제이
Original assignee: 코닌클리케 필립스 일렉트로닉스 엔.브이.
Priority date: 2000-10-30
Filing date: 2001-10-24
Publication date: 2002-08-22
Also published as: WO2002037250A3; US6721706B1; EP1415218A2; DE60143994D1; EP1415218B1; ATE497614T1; WO2002037250A2; JP2004527809A

Abstract

채터보트(chatterbot)와 같은 상호작용 시뮬레이터는 종래 기술의 채터보트들보다 더 자연적이고 더 적절한 상호작용을 발생하기 위해 유저의 인식을 시뮬레이트할 수 있게 된다. 예를 들어, 그 장치는 존재하는 사람수 또는 유저의 활동을 검출하기 위해 기계 비전(machine vision)을 사용하고, 따라서 그 출력을 인터럽트하거나 유저가 접근할 때 대화 또는 다른 상호 작용을 청함으로써 응답할 수 있다. 상기 장치는 유저의 활동에 따라, 예를 들어 유저의 수면시 음악을 연주하고 다른 유저가 말할 때 소개를 요청함에 의해 응답을 변형할 수 있다. 상기 장치는 무엇이 상호작용을 자극하거나 새로운 응답을 발생하는 지를 물음으로써 구성안된 상황 변화에 또한 응답할 수 있다.

Description

개인 상호작용을 시뮬레이팅하는 환경-응답 유저 인터페이스/엔터테인먼트 장치{Environment-responsive user interface/entertainment device that simulates personal interaction}

기술이 복잡해짐에 따라, 많은 응용기기들과 관련된 다양한 가능한 특징들 및 옵션들이 기능을 발휘하지 못할 수 있다. 이 현상은 몇몇 경우들에 있어서 프로그램 선택수가 매우 많은 위성 및 케이블 TV에 의해 예시된다. 셀 폰들, 퍼스널 컴퓨터 애플리케이션들, 전자 상거래 시스템(e-trading system)들 등을 포함하는 많은 예들이 존재한다. 그러한 환경에서는, 압도적인 수의 옵션들 중에서 선택하지 않고 기계들이 얼마간의 주된 작업(routine work)을 취하는 것이 유용하다. 그러나, 종종 그 해결책들은 사람들이 처리하려는 문제들보다 훨씬 덜 힘든 것은 아니다. 예를 들어, 각 유저에 대한 고객 템플릿(custom templet)들을 사용하여 대다수의 선택들을 필터링하는 유저 인터페이스는 유저의 선호도들에 관해 익숙해져야 한다. 예를 들어, 유저는 자신의 호/불호(likes and dislikes)를 능동적으로 분류함으로써 자신의 선호도들을 입력할 수 있다("고객화(customization)"). 이것은 시간이 지나는 동안 유저에 의해 행해진 선택들을 컴퓨터 프로세스가 "관찰"하도록 함으로써 수동적으로 행해질 수도 있다("개인화(personalization)"). 그러한 시스템들은 Gemstar 및 Philips Electronics에 양도된 여러 특허 출원들에서 논의된다. 예를 들어, System And Method For Automatically Recording Television Programs In Television System With Tuners External To Video Recorders을 발명의 명칭으로 하는 미국 특허 제 5,515,173 호; Apparatus And Method For Channel Scanning by Theme을 발명의 명칭으로 하는 미국 특허 제 5,673,089 호; Apparatus And Method For Improved Parental Control Of Television Use를 발명의 명칭으로 하는 미국 특허 제 5,949,471 호가 있다. 또 다른 예는 미국 특허 제 5,223,924 호이다.

선호도들의 명세(specification)를 명시적으로 또는 수동적으로 허용하는 유저-인터페이스는 종종 흥미있고 직관적이기에 충분할 정도로 복잡하다. 점점더 많은 그러한 시스템들은 제어 패널들이라기 보다는 오히려 인간 도우미(helper) 처럼 보이도록 하는 외관상 "스마트" 시스템들을 향해 발전해왔다. 예를 들어, MicrosoftOffice와 같은 복잡한 소프트웨어 애플리케이션의 헬프 다이어로그들은 자연 언어 문장들을 받아들이고, 애니메이팅된 캐릭터들과 함께 준(準)-동기적으로(quasi-synchoronously) 텍스트 응답들을 제공한다. 자연 언어 질의들을 받아들이는 인터페이스의 또 다른 예는 인터넷용 검색 엔진인 AskJeeves이다.

일련의 단계들이 수행되고, 그중 마지막 단계가 소망하는 결과를 가져오는기능 지향 시스템들로부터, 결과들에 대한 즉각적인 피드백을 제공하여 사용자가 관심있는 주제를 다룰 수 있도록 하는 객체지향 인터페이스들로 유저 인터페이스들이 급격히 발전하고 있다. 이러한 사상의 궁극적인 실시예는 유저가 결과를 달성하기 위해 설정된 일련의 단계들을 수행하기 보다는 오히려 제어를 조작하고 그 결과를 경험하도록 하는 가상현실(virtual reality) 환경들과 같은 비명령 인터페이스(noncommand interface)들이다. 에이전트(agent)들은 또 다른 형태의 비명령 인터페이스이다. 몇몇 연구의 최후의 목표는 유저가 필요로 하는 것들 및 유저의 생활 양식에 대한 모든 것을 알고 있으며 언제든지 유저에게 요구된 정보를 정확하게 검색할 수 있는 매우 지능적인 에이전트들을 제공하는 것이다. 그러나, 그러한 비명령 인터페이스들의 실제적인 실시예들은 실제 제품들로의 도입을 전혀 준비하고 있지 않다. 문제들중 하나는 요구되는 소프트웨어 기술이 매우 복잡하고, 대량의 프로그래밍 및/또는 트레이닝을 요구한다는 것이다. 오늘날, 컴퓨터들은 여전히 무엇을 할것인지를 명령받아야 하고 실로 사용하기 쉬운, "스마트"한 인상을 주는 인터페이스들의 꿈(dream)은 대부분의 응용기기들의 경우 여전히 멀리 있다.

그러나, 실제로 스마트하지는 않고 스마트하게 보이는 컴퓨터들이 잠시동안 존재해왔다. 매우 다른 영역의 컴퓨터 소프트웨어 개발은, 얼마나 스마트하게 보이는지의 문제를 떠나서 유용성 없는 단순한 프로그램을 만들었던 MIT 컴퓨터 과학자 Joseph Weizenbaum에 의해 1960년대 중반에 시작되었다. 그 프로그램은 유저를 꾀어 말하게 하도록 시도하고, 유저가 계속해서 대화하도록 함으로써 Rogerian 정신요법의사(psychotherapist)의 역할을 흉내내었다. 이 프로그램은 ELIZA로 불리었다. 많은 유저들은 ELIZA가 매우 설득력 있음을 발견하였다. 심지어는 Weizenbaum의 비서도 프로그램에 상관하지 않을 것을 요구했다. 그러나, ELIZA의 대화는 Rogerian 정신요법의사의 매우 수동적인 대화 형태를 사람들이 기꺼이 받아들이는 한에서만 효과적인데, 그 대화에서 "치료학자(therapist)"는 통상 "환자"가 말했던 것의 일부를 반복하거나 "환자"가 방금 말했던 것에 대해 그에게 설명하거나 부연할 것을 요청함으로써 응답한다. ELIZA가 설득력있게 보이도록 만드는 것은 그것이 기계적 방식(rote manner)으로 대화를 행하지 않는 다는 것이다. 예를 들어, 유저가 그의 어머니를 말할 경우, ELIZA는 유저가 그의 가족에 대해 "그녀"에게 더 많은 것을 말하도록 요청할 수 있다.

이하에는 ELIZA로부터 재생된 샘플 대화이다.

유저: 사람들은 모두 같습니다.

ELIZA: 어떤 방식으로？

유저: 그들은 항상 어떤 것에 대해 나를 괴롭힙니다.

ELIZA: 특정예를 생각해볼 수 있습니까.

유저: 자, 내 남자친구가 나를 여기로 오게 했습니다.

ELIZA: 당신의 남자친구가 당신을 여기로 오게 했습니다.

유저: 그는 내가 오래동안 우울했다고 말합니다.

ELIZA: 당신이 우울하다고 하니 나는 유감스럽습니다.

유저: 사실입니다. 나는 불행합니다.

ELIZA: 여기로 오는 것이 당신을 불행하지 않도록 하는데 도움이 될 것이라고 생각합니까?

유저: 나는 약간의 도움이 필요합니다, 그것만은 확실합니다.

ELIZA: 당신이 도움을 받으면 당신에게 무슨 의미가 있습니까?

유저: 아마도 나는 나의 어머니와 사이좋게 지낼 수 있을 것입니다.

ELIZA: 너의 가족에 대해 더 많은 것을 말해주시오.

유저: 나의 어머니는 나를 돌봐 주십니다.

ELIZA: 당신의 가족 중 그밖에 누가 당신을 돌봐 줍니까?

유저: 나의 아버지.

ELIZA: 당신의 아버지.

유저: 당신은 몇가지 면에서 나의 아버지와 닮았습니다.

ELIZA: 당신이 보기에는 무엇이 닮았습니까?

지금까지, 실제로 이러한 모든 소위 대화 시뮬레이터들은 어떠한 실질적인 이해도 없이 템플릿-정합들(template-matches)(규칙들)에 기초하여 피상적인 응답들을 생성하는 기본 방법을 사용했다. 예를 들어, 템플릿: "나는 내가 <x>이기를 소망한다"(<x>는 임의의 일련의 단어들을 나타냄)는 유저의 진술: "나는 내가 키가 크기를 소망한다"와 정합한다. 상기 템플릿은 기계 응답: "당신은 왜 당신이 <x>이기를 소망합니까?"와 연관된다. 그 기계는 진술: "당신은 왜 당신이 키가 크기를 소망합니까?"로 응답한다. 하나의 대화 시뮬레이터를 또 하나의 대화 시뮬레이터와 구별하는 것은 대화 시뮬레이터의 정교함(sophistication) 및 복잡성(complexity)이라기 보다는 오히려 대화 시뮬레이터의 응답 데이터베이스의 크기 및가변성(variability)이다. 보다 정교화된 변화들은 ELIZA의 수동적이고 단조로운 응답들보다 사람들을 더 흥미있게 할 수 있는 변덕스러운 응답들을 포함하는 템플릿들 및 응답들의 더 큰 데이터베이스를 갖는다.

몇가지 대화 시뮬레이터들은 일반적인 대화 시뮬레이션보다는 특정 토픽들에 대한 정보를 제공한다. 예를 들어, 대화 시뮬레이터들은 특정 토픽에 관한 정보를 제공하는데 사용되어 왔다. 기본적으로, 그들의 응답들의 라이브러리(library)들은 몇가지 주제에 대한 질의들을 예상하고 "미리준비된(canned)" 응답을 제공한다. 몇가지 대화 시뮬레이터들은 마치 그들이 이야기할 인생 이야기를 갖는 것처럼 보이도록 프로그램되었다. 그들이 대화를 계속 유지하기 위한 양호한 템플릿 정합을 찾아 낼 수 없는 경우, 그들은 자신의 이야기에 대해 말할 것이다.

통상적인 대화 시뮬레이터는 2부분: 유저-인터페이스 쉘(interface shell) 및 데이터베이스를 갖는 것으로 기재될 수 있다. 유저-인터페이스는 인격 또는 정보 데이터 중 어느 것이 사용되는 지에 관계없이 본질적으로 일정하게 유지하는 컴퓨터 프로그램이다. 데이터베이스는 대화 시뮬레이터에 인격, 지식 등을 제공하는 것이다. 데이터베이스는 질의 템플릿들에 의해 함께 링크된 미리 정의된 대답들을 갖는다. 대화 시뮬레이터의 현실성(realisticness)은 데이터베이스의 생성자가 사람들이 물어볼 것같은 질의들 및 같은 대답을 갖는 질의들의 종들에 일반적인 패턴들을 얼마나 잘 예측하였는지에 의존한다. 유저-인터페이스는 사람으로부터 질의들을 받고, 템플릿들을 통해 검색하고, 질의에 대응하는 가장 적절한 대답(또는 가장 적절한 대답들 중 임의의 하나)을 리턴(return)시킨다. 상기 기술은 작가가 통상적인 데이터베이스를 생성할 것을 요구하고; 유저-인터페이스에는 자연 언어에 대한 어떠한 초기 지식도 없으며, 그 시스템들은 자체적으로는 학습할 수 없다. 그 시스템들은 완벽하지 않으며, 양호한 정합들을 발견할 수 없는 경우, 횡설수설(gibberish)하거나 단순히 손을 뗀다. 그러나, 이는 참을 만하다. 원칙적으로, 완벽한 데이터베이스는 생각할 수 있는 모든 경우에 대해 동작할 것이나, 질의의 80퍼센트가 적절히 처리된다면, 이것은 계속해서 사람들을 흥미있게 하기에 충분할 것으로 보인다.

대화-가능한 기계들에 대한 또 다른 접근은 더 복잡한 "스마트" 기술을 채용하지만, 앞서 논의된 바와 같이, 이것들은 대화 시뮬레이터에 대한 기초로 사용하기에는 너무 많은 복잡성 및/또는 트레이닝을 요구한다. Mega Hal과 같은 시도들은 사실상 엉터리라는 인상을 준다. 그러나, 스마트 기술은 그 용도가 있다. 인공 지능의 한 부분인 "계산 언어학"으로 불려지는 연구 영역은 언어의 알고리즘 묘사 또는 문법을 발전시키려고 시도한다. 이러한 기술은 문장들을 분석하는데 사용될 수 있고, 문장에서 가장 중요한 단어들을 식별하거나 직접 목적어(direct object) 및 동사(verb) 등을 식별하는 것과 같은 일을 한다. 사실, 연구는 훨씬 더 진행한다. 계산 언어학자들은 사람들이 말하고 있는 것을, 즉 사전적이고 구성적인 의미론(semantics)을 컴퓨터들이 정말로 이해하도록 하는데 요구되는 기술에 매우 관심이 있다. 이것은 단어들의 의미를 따로 분리해서 생각하면 음성(쓰여지고 말해지는)으로부터 결정되며, 좁고 넓은 문맥들에서 그들의 사용하는 것으로부터 결정된다. 그러나, 단어의 모호한 의미를 구별하도록 컴퓨터를 프로그래밍하는 것은 그다음에 컴퓨터가 적어도 언어적인 응답을 적절하게 대답하도록 하는데 요구되는 것보다 훨씬 부족하다.

대화 시뮬레이터에서 성공적으로 사용된 기술은 통상 유저의 입력을 템플릿 데이터베이스에 대해 정합시킴으로써 동작한다. 그들은, 유저의 진술에 "가장 양호하게" 정합하는 미리설정된 템플릿을 선택하고 템플릿과 연관된 응답 중 하나를 생성한다. 이러한 메커니즘을 보다 상세하게 설명하기 위해, 특정예를 사용하는 것이 도움이 될 것이다. 이 목적을 위해, 우리는 카네기 멜론 대학의 Duane Fields에 의해 만들어진 프로그램인 스플로치(Splotch)를 사용할 것이다. 상기 프로그램의 소스 코드는 CMU의 웹 사이트로부터 공개적으로 입수할 수 있다. "스플로치"는 "스포트(Spot)"의 한 변형인데, 이는 스플로치가 페트류의 일종, 즉, 잘못 정의된 스포트이기 때문에 그렇게 명명되었다.

이러한 류의 다른 프로그램들과 같이 스플로치는 템플릿-정합에 의해 동작한다. 유저의 입력이 템플릿의 데이터베이스와 비교된다. 정합하는 템플릿들 중에서 최고 순위의 템플릿이 선택되고, 템플릿의 관련 응답들중 하나가 출력으로서 선택된다. 템플릿은 단일 워드, 워드 결합 또는 구로 될 수 있다.

단일의 템플릿은 대안의 워드 또는 구를 포함할 수 있다. 예를 들어, "머니" 템플릿은 워드 "캐시"와도 정합할 수 있다. 대안을 명시할 수 있는 다른 방법: 동의어 사전이 있다. 유저의 입력이 스플로치의 템플릿에 대해 정합되기 전에, 입력 내에 있는 워드 및 구는 캐노니컬 형태(canonical form)로 변환된다. 이러한 변환은 상기 입력 내에 있는 워드 및 구를 동의어 사전 내에 있는 워드 및 구와 비교하여 모든 변형어들에 대해 양호한 형태로 대체함으로써 이루어진다. 많은 이들 변형어들은 잘못된 철자를 포함하는 대안적인 철자일 것이다. 예를 들어, "쿨(kool)"은 "쿨(cool)"로 및 "가터(gotta)"가 "겟투(got to)"로 변환된다. 이로 인해, 단일 템플릿이 각 템플릿에 대한 상기 대안을 특정함이 없이 동등물, 워드 또는 구를 제외한 다수의 대안과 정합할 수 있다.

템플릿내의 워드 또는 구는 필요한 포함 또는 배제에 관하여 표시될 수 있다. 워드 또는 구가 배제용으로 정합되면, 이 워드 또는 구가 존재할 때 이 특정한 템플릿 상에는 정합이 없다. 예를 들어, 만약 "너희들 중 아무도 없음"이란 구가 "！"가 선행함으로써(예컨대, "사업:! 너희들중 아무도 없음") 부재하여야 하는 것으로 표시된다면, 스플로치는 "사업"에 대해 정합하지 않을 것이다. 다른 한편으로, 워드 또는 구가 필요한 포함으로 표시될 때, 지정된 워드 또는 구가 없다면 정합은 실패한다. 예를 들어, "성별:성&무엇" 템플릿은 유저의 입력이 워드 "성별" 또는 "성"을 포함한다면 성공적으로 정합하나, 그것은 또한 워드 "무엇"을 포함할 때만이다.

또한, 템플릿은 변수를 가질수 있다. 예를 들어, "Do you like <x>" 템플릿이 4번째 항으로서 변수를 갖는다. 변수는 응답, 예를 들어 "No, I don't like <x>" 상으로 통과될 수 있다. 이경우, "Do you like" 이후의 모든 워드들은 상기 변수에 속할 것이다. 템플릿 "Men are <x> than women"에서 "are" 및 "than" 사이의 워드가 변수로 된다.

각 템플릿은 구현자-할당된(implementer-assigned) 등급을 갖는다. 스플로치가 모든 템플릿에 대해 유저의 응답을 정합시킨 후, 최고 순위를 갖는 템플릿을 선택하고 그후 템플릿으로 열거된 응답들 중 하나로 응답한다. 다음번에 상기 동일한 템플릿이 선택되면, 그것이 모든 열거된 응답들이 한번씩 다 선택될 때까지 다른 응답을 선택한다.

템플릿으로부터 전달된 변수외에도, 응답은 다른 유형의 "변수"들을 가질 수 있다. 이들은 대안의 워드 또는 구를 가리키는 위치 보유자(place holder)를 가리킨다. 예를 들어, 응답 "My favorite color is @color.w"은 색이 색 워드의 리스트를 포함하는 파일 color.w로부터 무작위로 선택될 것임을 표시한다. 이것은 템플릿과 연관된 응답이 효과적으로 다수의 대안 응답이 될 수 있게끔 허용한다. "@"파일 내의 구(phrase)들은 그들 자체적으로 다른 "@"파일들로의 포인터를 포함할 수 있다.

종래 기술의 대화 시뮬레이터들은 많은 수의 인스톨된 템플릿 파일을 포함하지 않으면 반복적으로 되는 경향이 있다. 많은 수의 템플릿 파일은 거대해질 수 있다. 또한, 많은 수의 대안적인 템플릿으로도 대화 시뮬레이터는 정적인 상태가 된다. 예를 들어, 실제 사람들은 USSR은 해체되었고 스파이 영화에서 한 때 그랬던 로맨틱한 음모는 더이상 존재하지 않는다는 것을 안다. 1989년 훨씬 이전에 프로그램된 대화 시뮬레이터는, 사람이 하기에는 이상하게 들릴법한 응답을 생성하는 많은 템플릿들을 포함할 것이다.

대부분의 종래 기술의 대화 시뮬레이터들은, 인격을 시뮬레이팅하는데 있어서, 그들이 그렇게 하고자 한다면, 기분 나쁘게 수행한다. 예를 들어, Hutchens의HeX는 풍자적이며 모욕적인 인격을 가졌기 때문에 성공적이었다. 확실히, 종래 기술의 대화 시뮬레이터는 어떤 심도 있는 인격의 느낌이 부족하다. 대화 시뮬레이터는, 신뢰하는 관계에서 사람들이 하는 방식으로 공유하는 것을 시뮬레이팅할 수 없는데, 이는, 인격의 모습(appearance)이 부족하다는 점 외에도, 공유할 역사나 경험이 없고 아울러 정체성(identity)의 모습이 일반적으로 부족하기 때문이다.

대화 시뮬레이터는 유저로 하여금 대화하게 하도록 설계된다. 확실하게 그것은 상기 프로그램 분류의 선구자인 ELIZA 뒤의 사상이다. 그러나, 유저로 하여금 대화하도록 하는데 사용된 트릭은 곧 귀찮고 예측가능하게 될 수 있다. 대화 시뮬레이터를 흥미있게 만드는 하나의 장치는 대화 시뮬레이터가 사실에 입각한 또는 오락적인 정보를 제공하도록 대화 시뮬레이터를 설계하는 것이다. 대화 시뮬레이터가 유저의 질문의 의미론을 이해할 수 없기 때문에, 사실에 입각한 질문 또는 발언에 응답하기 위한 시도는 종종 부적당한 대답을 발생시킨다. 또한, 사실을 단순히 인용하는 좌담가는 아는 체하는 사람 또는 따분한 사람으로 곧 인식된다. 가장 설득력있는 대화 시뮬레이터는 의견을 표현하고 유저의 의견이나 가치를(예컨대, 지지하는) 응답을 하여, 사실에 입각한 레벨보다는 정서적인 레벨에서 유저로 하여금 이야기하게 하고 응답하게 한다. 대화 시뮬레이터가 설득력있는 동안은 내용이 없다고 말할 필요가 없다. Hutchens는 소위 잡담에서 통상 발견되는 류의 정보를 Hex에 제공하는 것을 꽤 적절하게 해냈다.

대화 시뮬레이터의 다른 문제는 그들이 유저로부터의 간단한 대답에 의해 현재의 주제를 쉽게 벗어날 수 있다는 것이다. 그들은 문맥에 대한 감각을 갖지 않고문맥에 대한 감각의 시뮬레이션을 생성하는 것이 어렵다. 하나의 해결책은 주제, 예를 들어, 화제<x>에 관한 질문에 대해 유저로부터의 응답을 요청하는 템플릿을 사용해서 유저에 의해 제기된 오래된 화제를 내놓음으로써 영속 메카니즘을 제공한다. 그러나, 문맥에 민감하게 요청되는 일부의 대화 시뮬레이터는 유저가 주제를 변화시키길 원한다할지라도 그 주제에 고정될 것이다.

새로운 대화 내용을 과거 또는 샘플 대화에서 배울 수 있는 기계-학습 방식은 성공할 것 같지 않다. 그 방법은 새로운 응답을 생성하지만, 상기 응답들은 보통 의미가 없다. 문제는 상기 기술이 엄청난 양의 트레이닝 및 그결과에 있어서 예측불가능성의 허용을 동시에 필요로 하는 수많은 응답들중에서 선택하기 위해 수 많은 입력들을 이용하려 한다는 사실로부터 부분적으로 발생한다.

결국은 매우 설들력있는 대화 시뮬레이터조차도, 그들은 본질적으로 오락; 낭비 활동이다. 그들이 하는 것을 학습하자마자, 많은 사람들은 누군가가 대화 시뮬레이터에 시간을 소비하는데 애쓰는 이유를 묻는다. 처음에 흥미있어 했던 많은 사람들이 결국 싫증을 내게되고, 대화 시뮬레이터의 오락적 가치도 제한된다. 응답 템플릿의 여백에 채우는 잡담에서 모아진 정보를 사용하는 것을 제외하면, 즉 계산 언어학적 접근들이 아마도 새로운 구 구조 또는 사상을 사용하게 될 때, 유저에 의해 대화 시뮬레이터에 전달된 모든 데이터는 결국은 낭비되어 버린다. 그러므로, 모든 데이터는 더 많은 잡담을 이끌기는 하지만, 새로운 지식이 발생하지 않고 아무런 용도도 없다. 이는 실용적인 정당성은 거의 없는 흥미로운 실험이라는 점을 대화 시뮬레이터의 기본적 견해에 추가한다.

대화 시뮬레이터의 다른 문제는 그들을 사용하는 것이 별로 자발적이고 자연스러운 행동이 아니라는 점이다. 현재는, 언제 유저를 회의에 끌어들이기 위해 초청하고 또는 언제 주제를 중단하거나 중지하거나 변경할지를 알고 있는 상당한 분별력을 그의 행동으로 입증하는 대화 시뮬레이터는 존재하지 않는다. 대화 시뮬레이터가 이야기하는데 특히 유용한 어떤것을 가질자라도, 그러한 능력들을 대화 시뮬레이터에 제공하는 것에 대한 공지된 전략이나 제안도 없고 심지어 필요성도 없다.

컴퓨터 프로그램에서 일반적으로 사용될 수 있는 기술을 낳았던 연구 영역은 소위 "정서적 컴퓨팅(affective computing)"이다. 이는 보다 양호한 유저 인터페이스를 생성하기 위해 인간의 감정 및 인격에 반응하도록 하는 컴퓨터의 사용이다. 예를 들어, 미국 특허 제 5,987,415호는 유저의 감정 상태 및 인격의 망 모델이 추론되는 시스템 및 애플리케이션에 의해 생성될 수 있는 여러가지 대안적인 부연들 중에서 선택하는데 사용된 추론을 설명한다. 상기 방식은 유저가 스스로 문제를 진단 및 해결하는 데 도움을 주는 질문을 묻는 기계 시스템을 사용해서 컴퓨터의 사소한 고장과 같은 문제에 대한 정보를 얻도록 하는 고장 발견수의 시스템들에게 영감을 얻는다. 방식은 다음과 같이 요약할 수 있다. 우선, 시스템은 예측된 표현의 대안적인 부연을 링크하는 망 모델을 토대로 유저의 기분을 결정한다. 기분 및 인격은 유저에게 피드백을 발생하는 엔진의 바람직한 기분 및 인격과 상관된다. 기분 기술어는 유저의 기분을 추론하는데 사용되고, 상관 처리는 적절한 실재적인 응답의 대안적인 부연중에서 선택하기 위해 생성되고 사용되는 기분 기술어를 발생한다. 그래서, 컴퓨터에 의한 실재적인 응답중 2개의 가능한 부연(말하자면, "포기하라" 또는 "미안해, 나는 너를 도와줄 수 없다！")이 있다면, 애플리케이션은 프로그래머가 유저의 주어진 분위기/퍼스낼리티를 투영하는 것이 컴퓨터에게 바람직하다고 결정하였던 분위기 및 퍼스낼리티에 가장 양호하게 대응하는 것을 선택할 것이다. 요약해서, 유저의 응답에 의해 투영된 분위기 및 퍼스낼리티를 결정하는데 사용된 확률론적인 모델이 있고, 모델은 컴퓨터에 의해 투영될 바람직한 분위기 및 퍼스낼리티에 유저의 분위기 및 퍼스낼리티를 연결하는데 사용된다. 마침내, 바람직한 분위기 및 퍼스낼리티와 가장 양호하게 정합하는 응답의 부연이 선택 및 사용되어 동일한 확률론적인 모델을 역으로 사용해서 응답을 발생한다.

상기 유저 인터페이스는 분위기 및 퍼스낼리티를 내용과 분리한다. 또한, 확률론적인 모델은 트레인하기에 어려운 것으로 악명높다. 과거의 대화 시뮬레이터는 룰을 토대로한 시스템을 사용할 때 큰 파워 및 성공을 즐겼다.

유저의 태도를 컴퓨터에 전달하는 다른 기술적 방법은 수동적으로 설정가능한 유저-인터페이스이다. 유저는 예를 들어, 커서를 이동시켜 얼굴의 그래픽 이미지를 슬픈 얼굴에서 행복한 얼굴로 바꿈으로써 자신의 태도를 명확하게 표시할 수 있다. 유저 인터페이스를 생성하는 상기 방법이 미국 특허 제5,977,968호에 설명된다. 그러나, 그러한 인터페이스를 사용해서 전달될 수 있는 감정의 범위는 제한되며, 사람의 감정을 이런 방법으로 전달하는 것은 어렵고 부자연스럽다.

유저의 정서 상태가 컴퓨터에 의해 결정되는 다른 애플리케이션 영역은 의학 진단이다. 예를 들어, 미국 특허 제5,617,855호는 진단에 도움을 주는 뇌파도 및다른 진단 데이터와 함께 얼굴 및 음성의 특성을 분류하는 시스템을 설명한다. 상기 장치는 정신의학 및 신경학 분야를 목적으로 한다.

또 다른 애플리케이션 영역에서 기기는 기기-인가 및 인증 또는 편리성를 목적으로 유저의 존재 또는 유저의 특정 특성을 자동적으로 검출한다. 그 목적을 위해, 종래 기술의 시스템은 바이오메트릭 감지, 접근 검출기, 무선 주파수 식별 태그, 또는 다른 장치를 사용한다.

유저의 정서 상태를 입력하는 다른 시스템은 장치가 비디오 입력을 토대로 장면을 발생하는 JP10214024에서 설명된다. 유저의 정서 상태에 관한 정보가 인식 시스템에 의해 유저로부터 입력되고 이야기의 개선을 제어하기 위해 사용된다.

본 발명은 분위기에 동참하기(attending mood), 대화 능력, 인격 등을 가진 인간 존재의 인상을 생성하기 위해 광 맥동(light pulsation)들, 합성 음성(synthetic speech), 컴퓨터 생성 애니메이션들, 음향 등과 같은 다양한 출력 양식들을 통해 유저와의 개인 상호작용을 시뮬레이팅하는 장치에 관한 것이다.

도 1은 본 발명의 실시예를 실시하는 하드웨어 환경의 예시도.

도 2는 그 실시예에 따른 본 발명을 실시하기 위해 사용되는 소프트웨어 시스템에서 과정들간의 데이터 흐름을 예시하는 기능 다이어그램의 개략도.

도 3 내지 5는 도 2의 흐름도의 더 상세한 표시도.

도 6은 유저 수면시의 예시 상황 및 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

도 7은 다른 사람에 의해 인터럽트되는 유저의 예시 상황 및 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

도 8은 유저가 웃는 예시 상황 및 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

도 9는 관심있는 주제를 논의하는 유저의 예시 상황 및 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

도 10은 유저가 우울한 예시 상황 및 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

도 11은 유저가 관심을 나타내는 예시 상황 및 데이터를 외부 데이터 저장에서 증가함에 의해 그 상황에 응답하는 도 3 내지 5의 시스템의 예시도.

발명의 개요

상호작용 시뮬레이터는 대화 시뮬레이터와 유사하지만 더 넓은 범위의 가능한 입력 및 출력을 갖는다. 사람 및 기계들은 대화하는 것 이외에 다른 방법으로 스스로를 표현하는 것이 가능하다. 예를 들어, 사람은 제스처, 원격 제어, 눈 운동, 소리(손벽치기) 등을 사용할 수 있다. 기기는 빛을 번쩍이고, 컴퓨터로 생성된 애니메이션을 만들고, 기계 장치들로 움직이게 할 수 있다. 상호작용 시뮬레이터는 유저와 기계 사이의 표현적인 상호작용을 생성하는데 사용될 수 있었던 입력 및 출력의 모든 범위를 포함하는 더 일반적인 용어이다. 간단히, 본 발명은 종래 기술의 대화 시뮬레이터보다 사용의 더 큰 용이성을 제공하고 유저와 시뮬레이터 사이의 상호작용의 품질을 향상하고, 시뮬레이터와의 상호작용으로부터 도출된 실용성을증가시키는 상호작용 시뮬레이터이다. 본 발명은 또한 데이터 저장 및 검색용 유저 인터페이스의 분야에 상기 장점을 제공한다. 상기 목적을 위해, 본 발명은 그 자신을 특정 유저에 자동적으로 적응시킴으로써 각 개별적인 퍼스낼리티의 고유성에 응답하는 상호작용 시뮬레이터 주위에 실장된다. 또한, 상호작용 시뮬레이터에 의해 사용된 시스템 및 방법은 시뮬레이터에 의해 초기화된 상호작용이 유저의 상황에 응답하는 메커니즘을 제공한다. 예를 들어, 대화 시뮬레이터의 실시예는 유저의 독백을 방해하는 것을 피하기 위해 대화를 중단할 수 있고 유저가 잠들었다면 대화를 정지할 수 있다. 또한, 상호작용 시뮬레이터의 실용성은 유저와의 대화로부터 수집된 유용한 정보를 상기 정보로 이용할 수 있는 시스템에 수동적으로 집중시킴으로서 확장된다. 예를 들어, 전자 프로그램 가이드 선호도 데이터베이스는 대화로부터 호/불호를 추출하여 이를 데이터베이스에 적용시킴으로써 증대될 수 있다. 그러한 데이터는 데이터베이스의 필요성에 응답하여 유저로부터 유도될 수 있다. 또한, 상호작용 시뮬레이터 모델은 입력 및 출력 양식의 범위로 확대된다. 예를 들어, 오디오 출력 및 입력 능력을 갖는 텔레비젼은 이야기하는 텔레비전의 인상을 주도록 잡담에 동창하기 위해 텔레비전 캐비넷 내의 동기화된 빛이나색과 함게 도는 화면상의 동기화된 애니메이션과 함게 인공 음성을 생성할 수 있다. 유저의 표현은 제스처, 소리, 몸체 위치, 수동 제어 등에 의해 상호작용 시뮬레이터에 입력될 수 있다. 또한, 상호작용 시뮬레이터의 출력의 실질적인 내용이 규칙적으로 갱신된 데이터 소스 또는 생방송 데이터 공급으로부터 정보를 얻는 능력을 제공함으로써 향상된다. 그러한 정보의 추출은 대화 및/또는 다른 상호작용으로부터 시뮬레이터에 의해 수집된 데이터에 의해 가이드될 수 있다.

양호한 실시예들의 상세한 설명

본 발명은 대화 시뮬레이터 기술을 더 유용하게 하는 단계를 나타내는 구성의 결합을 포함하고 있다. 종래의 기술에서 대화 시뮬레이터가 상당히 납득할만하다는 것을 입증하였다. 본원에서 제안된 본 발명의 특성은 이러한 장점을 토대로 하며, 환경의 특성을 분류할 수 있는 기기-인식 시스템 등의 다른 입증된 기술로 그 장점을 증대시킨다. 그 결과는 더 많은 상식을 갖는 것처럼 보이며 그 행동이 보다 인간에 가깝고 보다 사용하기에 편리한 상호작용 시뮬레이터이다. 본 발명의 특성은 정보 상호교환을 유용한 방법으로 이용함으로써, 예를 들어, 교육이나 오락을 위해 인터넷과 같은 정보 자원으로부터 추가적인 정보에 접근하거나 선호도 데이터베이스를 증대시킴으로써 대화 시뮬레이터 기술의 설득력을 또한 기초로 한다. 본 발명의 특성에 대한 주요한 드라이버는 또한 해결되야하는 다른 문제를 야기한다. 예를 들어, 대화 시뮬레이터가 장래의 작업장 또는 전자 세대에서 유용한 상품(staple)으로 되면, 그것은 논쟁없이 적합해야한다. 그 문제는 초기에 해결된다.

대화 상대로 되기위해 대화 시뮬레이터는 언어를 통해 양호하게는 상호작용해야하고 유저에 의해 제공된 사회적 환경에서 응답할 수 있어야한다. 교제가 사회적 관계이므로, 대화 시뮬레이터는 사회적으로 올바른 동작을 보여줄 수 있어야한다. 일실시예에 따라, 이는 예의바른 모습을 제공하는 방법으로 사뮬레이터의 동작을 구속하는 특정 유저 및 규칙에 대한 정보를 상호작용 시뮬레이터에 공급함으로써 그리고 일관된 만족스러운 개성(consistent pleasing personality)을 대화 시뮬레이터에 제공함으로써 제공될 수 있다. 대화 시뮬레이터를 특정 유저에게 알맞게응답할 수 있도록, 대화 시뮬레이터는 대화 시뮬레이터로 하여금 시간이 지나는 동안 상이한 유저들 및 동일한 유저에 적응하게 하면서 개개인들을 인식하게 하는 시스템에 의해 증대될 수 있다.

양호하게는, 대화 시뮬레이터는 입력 및 출력용 수단으로서 가청 스피치를 사용해야 한다. 대부분의 다른 대화 시뮬레이터와 같이, 스플로치(splotch)는 타이핑된 텍스트를 통해 유저와 인터페이스한다. 텍스트로부터 출력된 스피치는 현재의 생성 장치의 음성이 평면적이라는 문제를 제외하고는 올바른 제안이다. 이 문제를 완화하는 몇가지의 방법이 제공될 수 있다. 먼저, 표준화된 문장 및 구(phrase)(응답 템플릿)를 간단한 텍스트로서 저장하고 이들을 텍스트 대 스피치 변환기를 통해 출력하는 대신에, 상기 응답 템플릿들에 대한 억양이 그들의 텍스트와 함께 저장될 수 있다. 억양 조절 방식은 또한 구 또는 문장에서 변수용 표시를 제공할 수 있다. 예를 들어, 템플릿 파일로부터 표준 문장 EX1 을 취한다:

EX1: Tell me, more'about,why"you,hate<x>

아포스트로피(')는 그 앞에 있는 단어가 강조되어 말하여진다는 것을 표시한다. 인용 부호(')는 더 강조한 것이고 콤마(')는 덜 강조한 것이다. 마크가 없는 것은 중간 정도의 강조를 표시한다.<x>로 표시된 변수는 유저가 말한 문장으로부터 있다. 상기 변수는 액센트 마크를 하지 않고 있는 데 왜냐하면 그것은 중간 정도의 강세로 반복되기 때문이다. 변수 구에 대한 강세는 표준 템플릿 응답과 연결되는 공식으로부터 도출될 수 있다. 상기 템플릿은 질문이고 통상 친근하고 민감한 특성의 정보를 유도해 낼 것으로 예측되기 때문에, 변수내의 단어들에 대한 강세는 끝에서하락한다. 만약 구가

going to school,

이라면, 강세는 마지막 음절에서 강세를 감소시키는 것으로 표시될 수 있다. 이는 동일한 변수 구가 템플릿 문장 EX2에서 사용되는 방법과 대비된다.

EX2: What？ You don't like <go"ing to school>

여기서 강세는 억양이 없이 강하게 강조된다. 소비자의 요구사항 및 우선 순위에 따라 시스템 설계자는 구획의 상세한 사항을 선택할 수 있으나, 양호하게는, 규칙을 관련 언어에 대한 스피치의 자연적인 인간 패턴을 따라야 할 것이다. 상기 예에서 미리 알 수 없는 변수 구에 대해서 조차 규칙을 정의하는 것이 가능하다. 변수 구에 대한 규칙은 예측불가능할 수 있다. 그러나, 규칙을 사용하는 템플릿 문장은 억양을 단순히 제공하는 표준 규칙보다 양호한 규칙을 형성할 수 있는 정보를 제공하고; 그러므로 EX1은 강세를 감소시키는 규칙이고 EX2는 억양이 없는 규칙이다. 상기 예에서 억양의 단지 하나의 특질만이 논의되었지만, 억양은 또한 피치, 소리의 세기, 타이밍 및 다른 특질도 역시 포함할 수 있다는 이해해야한다. 이들은 상기 특질을 독립적으로 다루기 위한 적절한 방식에 의해 제공될 수 있어서 각 음절은 대응하는 피치, 소리의 세기쌍을 갖는다.

고정된 템플릿으로부터 얻지 않은 말의 억양 문제를 해결하는 몇개의 다른 방법이 있다. 하나의 방법은 변수 구의 청각 기록을 유저에게 다시 플레이하는 것이다. 예를 들어, 유저가 "I think my English teacher is completely out of her mind"라고 말하면, 대화 시뮬레이터는 "Why do you think your"를 재생하고 이어서유저가 말한 "English teacher is completely out of her mind"의 기록을 재생할 수 있다. 목소리의 음색은 대화 시뮬레이터 인터페이스의 그것을 흉내내기 위해 디지털적으로 변형될 수 있다. 상기 방법의 결점은 상기 예에서 냉소적으로 들리기 쉽다는 것인데 왜냐하면, 유저의 문장과 대화 시뮬레이터의 문장이 상이한 억양 패턴을 요구하기 때문이다. 음성 데이터를 변형함으로써 억양 패턴을 변형하는 것이 가능하다. 다른 대안으로서 대화 시뮬레이터 인터페이스가 억양을 인식하고 그 자신의 스피치 생성기로 상기 억양을 재생하도록 시도(예를 들어, 유저의 선언보다는 오히려 질문을 형성하기 위해 동일하게 또는 변형하여)하는 것이다.

다른 문제들은 말의 이해와 관련해서 발생한다. 그중 한 문제는, 예상된 시간에 응답을 할 수 있도록 유저가 언제 말을 끝냈는지를 결정하는 문제와 관련이 있다. 종래 기술의 텍스트를 토대로 한 대화 시뮬레이터 시스템은 예를 들어 단일 또는 이중 캐리지 리턴을 입력하여 간단히 이를 나타냄으로써 응답이 예상되는 때를 결정한다. 말로하는 대화에서는 그러한 구체적인 지시자(indicator)가 정상적으로 이용될 수는 없다. 그러나, 적당한 이야기 상대인 대화 시뮬레이터는 유저가 언제 대화를 종료하는지 언제 참견을 회피하는지를 알아야 한다. 다른 한편으로, 대화 시뮬레이터가 말하고 있을 때 유저가 참견하면, 대화 시뮬레이터는 이를 인식하여 말을 멈추고 알맞게 응답할 수 있어야 한다. 몇개의 방법이 개별적으로 또는 함께 사용될 수 있다.

1) 시간의 문턱값 간격을 넘는 정지는 말의 끝을 나타내는데 사용될 수 있다.

a) 문턱값의 정지는 유저의 말하는 페이스에 따라 조절될 수 있다. 대화 시뮬레이터는 느린 대화자보다 빠른 대화자에게 더 빨리 응답한다.

b) 문턱값의 정지는 유저의 말과 억양 템플릿과의 비교에 따라 조절될 수 있다. 문장은 종종 끝에서 강세가 약해지기 때문에, 지연을 단축시키는데 이를 이용할 수 있다.

2) 대화 시뮬레이터는 상기 방식(또는 다른 방식)에 따라 간단히 가장 양호한 추측을 할 수 있고, 만약 유저에 의해 인터럽트되면, 간단히 물러나서 "청취"를 계속한다. 양호하게는, 대화 시뮬레이터는 응답을 시작하였다면 가능한한 빨리 철회하여야 한다.

3) 대화 시뮬레이터는 말할 예정이라는 것을 표시하기 위해 단어 "웰(well)" 또는 "음..." 또는 "흠..."과 같은 생각하는 음성을 발생시킬 수 있다. 유저가 말하기를 계속한다면, 그는 인터럽트할 것이다. 이는 대화 시뮬레이터가 실재로 응답하기 전에 대화 시뮬레이터를 정지시킬 것이다. 상기 비실재적인 음성은 대화 시뮬레이터가 실재적인 응답을 하기 시작하고 인터럽트된 경우 보다 해가 적은, 인터럽트가 이어지는, 스피치 패턴을 제공할 수 있다.

4) 인터럽션을 토대로한 방식을 사용하는 대화 시뮬레이터 프로그램은 인터럽트 피드백으로부터 학습하여 그의 정지 문터값을 조절할 수 있다. 상기 대화 시뮬레이터는 억양 및 타이밍 패턴, 몸짓이나 얼굴표현과 같은 시각적 단서, 기타 대화 시뮬레이터가 언제 말해야 할지에 대한 보다 신뢰성있는 표시를 대화 시뮬레이터에 줄 수 있는 입력들을 내부 기계-학습 프로세스에 제공함으로써 유저의 응답이끝났음을 나타내는 단서를 상기 특정 유저로부터 찾을 수 있다. 이들은 또한 명백하게 프로그램될 수 있다. 본원의 사상은 유저에 의한 인터럽션을 기계-학습 프로세스를 위한 피드백 메카니즘으로서 이용하는 것이다.

a) 각종의 입력들이 그러한 기계-학습 프로세스에 사용될 수 있다: 소리세기 패턴, 피치 패턴, 및 기타 억양 패턴, "well ...？"과 같은 특정 단어는 대화 시뮬레이터의 지연으로 참지 못할 때 특정한 유저에 의해 자주 사용될 수 있다.

b) 기계-학습 방식은 각 유저에 대해 개별적으로 개발 및 저장되야하는 데, 왜냐하면 한 유저의 패턴이 다른 유저의 패턴과 반드시 같지는 않기 때문이다.

c) 응시 정보는 사람의 주의력의 초점을 확인할 때 중요한 역할을 한다. 상기 정보는 본 발명에서 소통 단서들을 제공하는데 사용될 수 있다. 예를 들어, 상기 정보는 사람이 어디를 보고 있는지 및 사람이 무엇에 주의를 집중하고 있는지를 확인하는데 사용될 수 있다. 유저의 응시 방향은 2개의 요소, 즉 머리 방향 및 눈 방향에 의해 결정된다. 머리 방향이 전체적인 응시 방향을 결정하는 반면, 눈 방향은 정확한 응시 방향을 결정할 수 있으며 머리 방향에 의해 제한된다. 다른 단서들은 대화자의 앞부분(몸 자세), 얼굴 표현 및 정서 상태를 학습하여 도출될 수 있다. 대화자의 정서 상태는 대화 속도, 어조, 세기 등과 같은 청각적 운율적 특징으로부터 추정될 수 있다. 대화자의 정서 상태를 아는 것은 대화자가 대화를 종료할 때를 표시하는데 유용하다.

5) 대화 시뮬레이터가 언제 말해야 할지에 대한 단서는 유저의 말의 실제 내용에서 나올 수 있다. 예를 들어, 질문은 억양 패턴뿐만 아니라 유저의 말의 실제텍스트에 의해 식별될 수 있고 대화 시뮬레이터는 응답을 기대하는 표시로서 이를 의존한다. 소정의 문(statement) 또는 구는 유저가 우선 완료되고 응답을 원한다는 것을 표시하는 것으로 대화 시뮬레이터의 프로그래밍에 의해 분류될 수 있다. 예는 "What do you think？", "흠...！, "OK？"이다.

a) 단서는 간단히 분류된 구보다 더 포착하기 어려울 수 있다. 대화 시뮬레이터에 의해 인식된 어떤 문장은 다른 것들보다 간단히 더 최종으로 될 수 있다. 예를 들어, "I don't think so"는 "Yes, that is what i think"보다 덜 최종적이다. 왜냐하면 전자가 설명의 서문일 수 있는 반면, 후자는 대화 시뮬레이텅터에 의해 말해진 어떤 것에 대한 확인이기 때문이다.

대부분의 환경에서 대화 시뮬레이터가 흥미롭고 비반복적으로 되는 것이 양호하다. 이는 몇개의 방법으로 제공될 수 있다. 하나의 방법은 대화 시뮬레이터가 개성있는 모습을 발생하는 것이다. 이는 사실에 입각한 레벨뿐만 아니라 감정적인 레벨에 대해서도 응답하도록 대화 시뮬레이터를 프로그래밍함으로서 제공될 수 있다. 대화 시뮬레이터의 관심, 개성, 및 정서는 유저에 의해 지지되어야 한다. 이런 측면에서 사교적인 대화 시뮬레이터는 ELIZA와 같이 지지되어야 하지만, 그것은 또한 재미있어야 한다. 대개의 대화 시뮬레이터가 재미있거나(적어도 잠시동안만이라도) 또는 지지되기는 하지만, 둘다는 만족하지는 못하는 경향이 있다. 문제의 일부는 재미있는 응답들이 종종 유저가 말을 계속하도록 고무하지는 못한다는 것이다. 재미와 지지 모두의 결합을 제공하기 위한 하나의 방법은 이중 응답을 제공하는 것이다. 그것은 아마도 유저가 방금 말했던 것에 관련된 재치있는 의견이 될 것이며,그렇게 되면 유저가 대화를 지속하거나, 자세히 진술하도록 자원 및 고무시키게 될 것이다. 이는 감정, 느낌, 무드, 태도 등을 인식 및 응답하는 많은 수의 템플릿을 가진 사교성있는 대화 시뮬레이터를 필요로 할 것이다. 예를 들어, 유저가 "나는 회의를 싫어해"하고 말하면, 대화 시뮬레이터는 "나도 회의를 매우 싫어해. 그것은 너무 지겨워. 넌 회의할 때 어떤 점이 가장 싫니?"와 같은 응답을 가진 "나는 <x>를 싫어해"와 대응하는 템플릿을 필요로 한다.

이상적으로는, 대화 시뮬레이터의 억양 및 말이 그 응답의 내용뿐만 아니라 대화의 정서 분위기와 일치되어야 한다. 사려 깊음과 융통성은 유저의 최종 발언에 단지 응답하는 것을 초월할 것이다. 대화 시뮬레이터는 유저의 정서 상태를 인식하는 능력이 주어지고, 유저의 감정 상태의 변화에 따라 그 응답도 변화할 것이다. 예를 들어, 그것은 유저가 슬프거나 행복할 때 및 유저의 정서 상태가 슬픈 것에서 행복한 것으로 변화할 때 인식할 수 있다. 이는, 오디오의 각종 특성, 말투, 유저의 영상, 및 사람이 원격 제어기의 키버튼을 누르는 등과 같은 다른 입력들을 분류함에 의해 제공될 수 있다.

오디오 신호는 말에 포함되지 않은 유저에 대한 정보를 포함하고 있다. 예를 들어, 유저의 음성의 소리세기 및 피치는 유저의 정서 상태에 대한 유용한 단서를 제공한다. 행위를 나타내는 배경 잡음과 같이, 구체적으로 신경질적인 경련 또는 울음과 같은 반복 행위는 오디오 신호로부터 식별가능하다. 오디오 신호 분류기는 각 오디오 신호에 대응하는 분류 과정들을 포함하여, 이에 의해 그들이 겹쳐졌을 때 조차도 소정의 음성 특성을 식별할 능력을 갖는다. 비슷하게, 유저가 있는 장면의 비디오 이미지가 처리될 수 있고 비디오 이미지에서 식별가능한 객체 또는 사건이 유저와 함께 일어나는 일에 대한 정보를 공급하기 위해 분류될 수 있다. 예를 들어, 방 주위를 계속 반복하여 이동하는 것을 걱정을 표시할 수 있을 것이다. 최종적으로, 물론, 대화의 내용은 유저의 정서 상태에 대한 단서로 분석될 수 있다. 분위기 분류기의 텍스트 기반(text-based) 특성은 부정적인 또는 비판적인 상태를 표시하는 신호를 발생함에 의해 부정적인 특성의 단어의 빈번한 사용에 응답하도록 프로그램될 수 있다. 사전은 각 표제어에 대한 분위기 벡터로 제공될 수 있다. 분위기 벡터는 각 분위기 분류에 대해 가중치로서 정해질 수 있고, 그 가중치는 대응하는 단어 또는 문구의 사용에 의해 식별되는 분위기의 확률을 표시한다.

이 출력의 가중치는 분위기 분류의 확신 레벨을 표시하기 위해 제공될 수 있다. 이와같이, 다른 출력들은 대응하는 확신 레벨에 각각 관련될 수 있다. 분위기 분류기의 출력 신호는 다른 각각은 분위기 분류에 대해 확신 레벨을 갖는 벡터 형태로 될 수 있다. 분위기 분류가 하나의 문답 교환으로부터 다음 문답에서 급격히 바뀌지 않도록 분위기 분류에는 댐핑(damping) 특성이 주어진다. 예를 들어, 유저가 반시간동안 우울한 상태를 나타내나, 잠시 웃는 다면, 분위기 신호를 너무 갑작스럽게 변화시키는 것이 바람직하지 않을 것이다.

대화 시뮬레이터에 의해 사용된 각각의 응답 템플릿에 다양한 분위기에 대한 그 템플릿의 적합함을 표시하는 벡터가 제공될 수 있다. 다음 응답을 생성하도록 사용되어지기 위해 경합하는 각 대안의 템플릿의 총 점수는 분위기 분류 벡터 및 템플릿 벡터의 내적에 의해 가중될 수 있다. 분위기 표시가 출력 템플릿에 대한 선택를 변경하기 위해 사용하는 다른 어떤 방식도 사용될 수 있다. 대화 시뮬레이터 응답을 생성하는데 어느 출력 템플릿을 사용할 것인가의 최종 결정은 다른 분위기 신호에 의해 변경될 수 있다. 2개의 경합하는 분위기 분류들 사이에서 이기는 하나의 분위기가 존재하지 않더라도, 템플릿의 선택은 여전히 개선될 수 있다. 예를 들어, 분위기가 높은 정도의 모호성(즉, 2개의 분위기 분류가 거의 같음)으로 정의되더라도, 각각이 낮지만 충분한 확신 레벨을 가진 2개의 대안적인 분위기중 하나에 대응하는 템플릿은 양호한 선택을 나타낼 수 있다. 미국 특허 제5,987,415호의 방법은 분위기/개성을 분류하기 위해 사용될 수 있다.

다음의 테이블은 현재의 기술을 사용해서 개발될 수 있는 분위기 분류의 매우 개략적인 목록 및 표시의 예를 표시한다. 예를 들어, 장면에서 유저의 머리 위치를 식별 및 추적할 수 있는 비디오-트랙킹 시스템이 있다. 또한, 분위기 분류를 인식하기 위해 적응될 수 있는 생물학적 인증(bio-authentication)을 목적으로 한 비디오-기반 얼굴 인식을 수행할 수 있는 시스템이 있다. 사용할 수 있는 식별기의 종류는 많으며, 필수적으로 분위기의 식별기로 포함해야 하는 것이 아님을 유념하자. 예를 들어, 아마도 사람이 행복할 때만 공중으로 두 손을 들어올리지는 않겠으나 제스처의 발생시에는 제스처가 좌절 또는 행복과 관련될 가망성이 높다.

분위기 분류	표시기
침울/우울	비디오: 머리는 비교적 고정되고, 아래 방향을 보거나 주기적으로 이동한다. 오디오: 음성은 부드럽고, 피치가 높은 강세를 나타낸다. 말: 단어가 분위기를 표시한다.
들뜸	비디오: 반복 또는 갑작스런 이동, 어깨 흔듬.오디오: 빠른 말, 웃음. 말: 단어가 분위를 나타냄
집중/심각함	비디오: 가만히 있음, 가시적인 UI(예를들어, 애니메이션)이 있으면 대화 시뮬레이터를 똑바로 쳐다봄오디오: 정상적으로 일정한 간격의 말. 웃음 없다. 말: 단어가 분위기를 표시함
좌절/화가 남	비디오: 화가 남 또는 좌절의 제스처, 머리를 감싸 쥠.오디오: 말이 강조되고 폭발적이다. 말이 비정상적으로 모노톤이다. 말: 단어가 분위기를 표시함
행복/만족	비디오: 행복을 표시하는 체스처. 오디오: 노래하듯 말하고 단어수가 많다.

대화 시뮬레이터는 어느정도 유저의 개성을 인식해야 하고 그에 따라 그 응답을 조절해야 바람직하다. 예를 들어, 대화 시뮬레이터는 "담당하는" 개인과 상호작용하는 것을 좋아하는 사람으로 더 독단적이 되도록 프로그램될 수 있으며, 상호작용하는 것을 좋아하지 않는 사람으로 더 우유부단하게 되도록 프로그램될 수 있다. 개인 분류기는 처음에 각 세션에서 유저의 식별을 확정한 후, 대화 시뮬레이터에 대한 유저의 진술(statement) 및 그의 반응에서의 단서를 사용해서 각 세션 교환시의 구축에 의해 소정의 개인의 영구 모델을 구축할 수 있다.

많은 개성 유형학이 개발되어져 왔다. 많은 유형학들은 개인이 가진 유형을 결정하는 특성 시험과 관련된다. 예를 들어, Myers-Briggs는 16개의 독립적인 개성 분류를 갖는 4차원 모델이다. Big-Five 또는 Five-Factor 개성 모델은 5차원를 토대로 하는 다른 공지된 모델이다. 대화 시뮬레이터가 유저에게(유저가 즐길 수 있는 재미있는 대화를 제공하는)을 제공할 수도 있지만, 유저를 분류하기 위해 대화 시뮬레이터에 의해 사용될 수 있는 일반 대화속에 들어간 식별자가 있을 수 있다.전술한 바와 같이, 분류는 영구적일 수 있고; 대화 시뮬레이터가 다수의 세션을 통해 분류를 유지할 수 있고, 시간에 걸쳐 정보를 누적함으로써 그 결론을 변경만 할 수 있다. 비슷한 방법은 개성뿐만 아니라 유저의 관심을 결정하는 데 사용될 수 있을 것이다. 유저의 응답으로부터의 키워드는 표준 학습 기술을 사용해서 분류될 수 있어서 관심 및 인격의 분류를 지원한다. 예를들어, 강한 강조는 응답을 위한 검색을 형성할 때 다른 단어를 보다 더 키워드로 설정될 수 있다. 예를 들어, 소정의 응답은 상기 진술에 대한 유저의 응답이 유저의 인격 및 관심을 결정하는 특정 관계라는 것을 표시하기 위해 표시될 수 있다. 이러한 응답으로부터 기인하는 키워드는 가중치가 부여된다. 상기 키워드의 가중치는 그것들이 유저 응답(표시했듯이, 그것들을 이끌어낸 대화 시뮬레이터 응답을 고려해서)에서 얼마다 자주 나타나는지에 따라 증가될 수 있다.

또한, 개성에 더해져서, 출력 선택을 개선하기 위해 사용될 수 있는 객체 식별기 대화 시뮬레이터에 의해 사용될 수 있다. 예를 들어, 유저의 성별, 나이, 키, 민족성, 사회경제적 분류, 지능 등이 모두 정의될 수 있고 템플릿에 대한 선택에 있어 사용된다. 대화 시뮬레이터는 유저에 대한 다른 사실 정보로 또한 프로그램될 수 있다. 예를 들어, 그 사실 정보는 유저의 이름 및 유저가 무엇에 대해 대화하는 지를 알 수 있어서 주제에 머물게 할 수 있다. 상기 사실 정보는 이전 대화의 주제를 저장할 수도 있다. 또한, 그것은 유저에게 관심있는 주제를 유저에게 저장하기 위해 프로그램될 수 있고 대화가 소강 상태가 될 때 상기 주제를 제시하기 위한 능력이 주어질 수 있다. 또한, 그것들이 영구 변수이고, 유저의 이름을 묻거나성문(voice-print)과 같은 생물측정학적 방식을 하는 주체 확인 장치와 결합하여 사용되어 질 수 있다.

유저가 대화 시뮬레이터에 대해 자신의 감정 및 느낌을 기꺼이 이야기하게 하기 위해, 대화 시뮬레이터는 신뢰를 쌓아야 한다. 그것을 행하는 하나의 방법은, 대화 시뮬레이터가 자신을 드러내는 것, 즉 자신에 대해 밝히는 일, 특히 자신 "영향"을 주는 "경험"을 보여주도록 프로그램함에 의해 이루어진다. 그것은 자신에 관한 이야기를 들려줄 수 있는 배경 스토리를 대화 시뮬레이터에 설정함에 의해 행해질 수 있다. 이력을 갖는 대화 시뮬레이터는 더 설득력있고, 더 강하며, 실존적이며 동정심있는 "인격"를 갖는 것으로 보이게 될 것이다. 배경 스토리 기본 사상은 유명한 뢰브너(Loebner) 대회의 대화 시뮬레이터에서 사용되어졌다. 대화 시뮬레이터의 컨테스트에서 프로그래머인 Whalen이 심사관에 보이기 위해 자기의 대화 시뮬레이터용 스토리를 만들었다. 대화 시뮬레이터는 상기 이야기로 돌아오는 것을 유지하도록 프로그램되어, 심사관이 질문하도록 그들의 관심을 포착하는 것을 시도하였다. 상기 스토리는 자기의 직업을 잃은 대화 시뮬레이터에 대한 것이다. 그 종래 기술의 전략은 심사관으로 하여금 질의를 이끌어내는 것을 시도하는 트릭이다. 본 발명의 대화 시뮬레이터에 있어서는 배경 스토리는 친밀 및 믿음의 느낌을 생성하는 장치이다. 그러므로 후속 이야기가 동정심 또는 이해를 발생케하기위해 또는 유저로 하여금 대화 시뮬레이터를 "식별"하는 지원하도록 설계될 수 있다. 하나의 방식이 다수의 배경스토리를 정의하고 각기 다른 인격 분류에 대한 그 유용성을 정렬시키는 것이다. 그래서, 배경스토리가 대화에서의 즉각적인 흐름뿐만 아니라 유저의 개성에 기초하여 배경스토리들의 라이브러리로부터 인출될 수 있다.

대화 시뮬레이터가 유저의 말에 응답하는 능력을 일단 가지면, 사회적 환경이 더 중요하게 된다. 유저가 더 이상 키보드에 있을 필요가 없으므로, 대화 시뮬레이터는 유저에 응답하거나, 적절한 시간에 대화를 시작하도록 프로그램되어야 한다. 대화 시뮬레이터는 유저를 방해하는 것을 피하고 알맞은 때만 말하기 위해 연속적인 말에 끼어드는 유저의 경우에도 응답하도록 프로그램될 수 있다. 유저가 아이라면, 대화 시뮬레이터는 유저가 말참견하면 유저에게 더 좋은 품행을 가르치기 위해 실제로 프로그램될 수 있다. 양호하게는, 대화 시뮬레이터는 유저가 방을 들어가고 나갈때 등과 같은 유저의 존재 또는 부재에 응답해야 한다. 그러므로, 대화 시뮬레이터는 유저가 들어갈 때 유저에게 인사할 수 있고, 유저가 방을 나가거나 너무 멀어서 큰소리로 하지 않고는 대화할 수 없는 지점으로 이동할 때 말을 생성하는 것을 피한다. 대화 시뮬레이터는 유저가 있거나 이용가능한지에 대해 응답해야 한다.

사회적 규약을 따르는 외관을 상호동작 시뮬레이터에게 부여하기 위해, 다양한 입력 양식이 동시에 채용될 수 있다. 또한, 유저 태도의 다양한 분류는 비디오, 음성 및 스피치 데이터를 사용해서 식별될 수 있다. 하나의 예는 누운 위치가 변화가 없고 혹은 코골이와 같은 취침 상태와 일치하는 유저 몸의 위치 변화이다. 이러한 상황에서는 대화 시뮬레이터는 대화를 중단하도록 프로그램될 수 있다. 다른 예는 유저가 방을 나가는 것이다. 이것들은 알맞은 이미지 및 오디오 처리 알고리즘에 의해 인식될 수 있는 2개의 직접적인 예이다.

실존적으로 되기 위해, 대화 시뮬레이터는 일상의 지식을 갖는 형태로 설정될 수 있다. 예를 들어, 그것은 현재 시간, 기상 및 새로운 머리기사에 대응하는 가변 데이터로 제공될 수 있다. 이 데이터는 관련된 문장을 형성하기위해 출력 템플릿으로 사용될 수 있다. TV가 켜지면, TV 내 움직임에 반응하는 능력이 제공될 수 있다. 예를들면, 그것은 웃음 트랙과 함께 웃거나 배경 음악에서의 우울한 톤에 응답하여 더 무거운 분위기의 외관을 디스플레이할 수 있다. 그것은 예를 들어 불협화음의 음악과 같은 웃음-트랙의 음성을 인식하는 능력에 의해 제공될 수 있다.

대화 시뮬레이터는 새로운 템플릿에서 사용될 수 있는 데이터에 대한 인터페이스를 제공할 수 있다. 데이터 소스는 여러 방법으로 제공될 수 있다. 하나의 방법은 포맷된 소스로부터 공급된 생방송이다. 네트워크, 교환 라인, 전파 기반 통신 또는 다른 통신 리소스를 통한 연결이 대화 시뮬레이터 기기를 새로운 템플릿의 소스로 링크하기위해 제공될 수 있다. 템플릿은 현재의 뉴스, 증권 시세 표시기 데이터, 기상 및 저널 기사 등과 같은 새로운 정보를 토대로 생성될 수 있다. 그들은 가변 템플릿으로부터 수동으로 생성되거나 자동 생성될 수 있다. 새로운 템플릿은 서버상에 저장되고 대화 시뮬레이터 과정으로 주기적으로 전달되거나 그 과정에 의해 액세스된다. 템플릿은 라이브러리와 같이 구성되어 유저의 개인 프로필에 대한 정보가 템플릿에 액세스를 가이드하기위해 사용될 수 있어서, 가장 알맞은 새로운 템플릿은 설정된 대화 시뮬레이터 클라이언트에 의해 액세스된다. 템플릿은 전체적으로 저장될 필요는 없다. 가변 템플릿을 블랭크에 채워져 사용될 라이브러리 데이터로 형성하는 것이 가능하다. 예를 들어, 가변 템플릿은 문장 즉 "<x>를 들어본적이 있니?"로 구성된다. 가변 데이터는 어느 템플릿이 그것을 사용하는 지를 나타내는 표시와 함께 기록으로 저장될 수 있다. 대화 시뮬레이터 처리는 상기 정보를 얻고 그것을 사용해서 발언한다. 상기 기본 사상의 다른 변화는 당업자에게 가능한 것이며, 자명한 것이다.

갱신 템플릿에 대한 다른 방법은 포맷안된 소스로부터의 제공을 통한 것이다. 새로운 템플릿용으로 사용된 데이터는, 이 목적을 위해 사용되도록 의도된 구조와 조직을 가진 라이브러리로부터는 생성되는 것이 아니다. 예를 들어, 특정한 주제와 관련한 데이터를 위해 인터넷을 검색하는 에이젠트(agent)와 같은, 임의의 데이터 소스로부터 생성된다. 가령, 대화동안, 유저는 그가 어떤 작곡가를 특히 좋아하는 것을 표시한다. 대화 시뮬레이터 처리는 작곡가에 관해 인터넷상에서 정보를 탐색하는 에이젠트를 발생하기위해 프로그램될 수 있다. 데이터 분석기 및 필터는 작곡가에 관련한 비처리된 링크에서 문장을 식별할 수 있고, 대화중에 사용한 템플릿 문장("<x>를 너는 아느냐" 등)을 채운다. 데이터 분석기는 현 세대의 대화 시뮬레이터에서 사용된 바와 같은 비슷한 템플릿-매칭 알고리즘을 사용할 수 있다. 대안적으로, 그것은 특정 주제와 관련된 정보와, 특정 출력 패턴을 생성하기위해 사용될 수 있는 정보 모두를 추출하기 위해 컴퓨터 사용 언어 분야에서의 방법을 사용할 수 있다. 이러한 처리는 단순히 말에 있어서 한정되는 것이 아님을 유명하다. 대화 시뮬레이터는 그래픽, 음악 및 다른 매체를 얻을 수 있고 그들을 상호동작에서 사용한다. 이러한 사용의 한 예는, 대화 시뮬레이터를 대표하는 애니메이션 캐릭터에 의해 "연주되는" 그 작곡가의 음악의 디지털 클립이다. 이와 같은 말이아닌 멀티미디어 변화는 뒤에 이어지는 대화 시뮬레이터 시스템의 설명에서 보다 명백해진다.

대화 시뮬레이터를 매우 믿음직하게 하는 것은 그 응답의 품질이고, 품질은 템플릿(응답을 포함하는)의 데이터베이스의 크기에 따른다. 현재, 새로운 템플릿을 생성하는 것은 다소 성가신 처리이다. 변화를 지정하는 방법들이 있지만, 그것들은 아주 제한된다. 그러므로, 가능한 표현에서 대부분의 변화는 대안적인 템프릿으로서 표현될 필요가 있다. 예를 들어, "<x>"가 변수일 때 템플릿 "나는 <x>를 좋아한다"는 "나는 말(horses)을 좋아한다"와 맞으나 그것은 "나는 정말로 말을 좋아한다"와는 맞지 않는다. 분리된 템플릿은 "나는 <x>를 좋아한다" 를 생성시킬 수 있다. 물론, 이것은 매우 귀찮을 수 있다. 그러나, 그 문제는 간단히 비효율성만이 아니다. 많은 경우, 템플릿 구문(syntax)을 충분히 표현적이지 않다. 예를 들어, 템플릿은 단하나의 변수와 매칭할 수 있다. 유연성을 제공하는 어뢰목록이 요망된다.

템플릿 구문은 대안적인 필수 조건을 처리하기위한 능력을 제공할 수 있다. 예를 들어, 스플로치(splotch)에서, 현재, 부호 "&"을 전치시키는 필수 조건을 특정할 수 있다. 스플로치가 각 대안에 대해 분리된 템플릿을 생성하는 것을 제외하고는 어떤 조건에 대한 대안으로 지정하기위한 방법을 제공하지 않는 반면에, 템플릿 구문은 향상될 수 있어서 대안의 필요한 조건이 특정될 수 있다. 양자택일적인 용어를 식별하기 위해 라벨이 사용될 수 있고, 양호한 검색 엔진을 이용하여 정의될 수 있는 보잡한 논리 조건을 생성하기 위해, 분리 연결자, 괄호 등을 가진 그룹으로 이러한용어들을 구분할 수 있다. 양호한 에는 Lexis® 데이터베이스를 검색하는데 사용되는 방식이다. 예외는 비인접한 단어의 매칭을 지정하는 조건에 오류-매칭을 제거하기 위해 제공될 수 있어서, 상기 경우에 "나는 정말로 좋아한다"에서 처럼 무시될 수 있는 비-관련 단어를 허여 한다. 상기 구문은 단어 순서를 무시한다. 예를 들어, "나(I)" 및 "좋아한다(like)"가 매칭에 필수적이다고 지정함에 의해, 템플릿은 "나는 좋아한다(I like)", "나는 정말로 좋아한다(I really like)", 및 "나는 매우 좋아한다(I very much like)"에 매칭될 수 있으나, 그것은 "Like, I don,t think you are making sense" 에서 처럼 "Like I"에도 매칭할 수 있다. 템플릿 구문은 단어 순서를 무시함이 없이 비-관련된 단어가 무시될 수 있도록 강화될 수 있다. 예를 들어, "I" & "Like" 템플릿을 가진 생성 표현으로부터 "Like I"를 배제하도록(단어-순서 감지) 특정의 예외가 부가될 수 있다. 다른 하나의 가능한 방법은 단순히 필요한 조건이 순서대로 매칭되어야 하는 것을 지정하는 룰을 가지는 것이다. 또다른 가능한 방법은 그다지 중요하지 않은 단어를 제거하는, 유저의 입력에서의 변화를 표준의 동의어로 대체하는 "확장" 루틴("expand" routin)과같은, 루틴을 갖게 된다.

키 워드 추출은 템플릿-매칭 기술로 제한될 필요가 없다. 공지된 자연 언어 기술은 말하고 타이핑된 문장에서 키단어 및 구를 식별하기위해 사용될 수 있다.

유저가 질문중인지를 인식하는 것이 중요한 경우가 많은데, 왜냐하면 질문을 하는 경우에는 응답이 달라질 수 있기 때문이다. 질문중인지는 문장의 첫 단어로 종종 결정될 수 있고, 예를 들어, 그것은 "왜", "무엇", "어디", "어떻게" 등으로시작한다. 유저의 입력이 질문인지를 결정하기 위해 대화 시뮬레이터가 프로그램될 수 있다. 스플로치에서, 그것을 수행하는 하나의 방법은 상기의 확장 루틴과 다수 유사한 루틴을 생성하는 것이나, 그것은 동의어를 대신해서 질문을 인식한다. 이러한 처리는 어떠한 질문 식별자를 가진 유저입력을 템플릿을 매치시킬 수 있도록 "ggg"와 같은 부호로 수정하는 것이다. 이러한 처리는, 유일하게 매치하고 응답하는 템플릿을 기록하기 쉽게 한다. 말을 토대로한 시스템에서, 자연 언어 또는 템플릿-매칭 기술은 질문을 식별하기 위해 사용될 수 있다. 같은 기술(질문에서와 같이)은 정서를 포함한 단어와 사용되고: 루틴은 감정 및 태도의 단어가 상기 대화 시뮬레이터를 지향하는지 아니면 다른 주제를 지향하는지 결정한다. 시각적인 단서 및/또는 식별자(예를 들어, 명칭)는 유저가 참고로 하는 대상 또는 존재(대화 시뮬레이터 또는 그밖의 누군가/무언가)를 식별하기위해 사용될 수 있다. 그것은 응답 형태를 결정하는 중요한 정보이다.

템플릿은 단지 유저 대답에서 맞는 단어의 양호함 이상의 기준에 의해 우선순위화될 수 있다. 예를 들어, 스플로치는 2개의 같게 만족하는 대안간에 더 큰 만족도를 갖는 하나를 선택하기 위해 프로그램된다. 상기 매칭은 스플로치를 더 지능적으로 만드나, 그들은 대화-낭비자(conversation-killers)로 될 수 있다. 다른 한편으로, "더 말해"라고 대화를 계속하는 유저에게 용기를 주는 응답은 오히려 지루하고 반복적이다. 하나의 가능한 방법은 응답을 두가지 분류로 분할하는 것이다: 그것은 이해를 표시하는 응답(의견제시)와 대화를 계속하도록 지원하는 응답(대화 유발)이다. 출력은 이따금 2가지 형태의 응답, 예를 들어 적절한 여담과 계속적인대화의 고무를 결합하는 것으로 구성될 수 있다. 대다수의 응답은 유저가 얘기하는 것에 대한 의견제시와 유저의 계속적인 대화를 유발시키는 것 모두로 구성된 응답으로 구성될 수 있다. 예를 들어, 우리는 "그것은 재미있다. 더 말해라" 라고 항시 말할 수 있다. 그러나, 때때로 대화 유발 응답은 의견제시가 필요없을 만큼 충분히 구체적일 수 있다. 예를 들어, "왜"라는 질의는 응답을 유출하고 그것은 유저가 예를 들어 "왜 너는 네 언니에게 격노했느냐"라고 말하는 것을 대화 시뮬레이터가 "이해"하는 것으로 표시하기 위해 충분한 내용을 포함할 수 있다.

이 메카니즘을 실행하는 하나의 방법은, 의견제시(comment)의 응답을 갖는 것 및 유저로부터 다른 입력을 유발(elicit) 응답을 갖는 것으로 템플릿을 분할하는 것이다. 템플릿 정합기는 각 분류로부터 가장 어울리는 템플릿을 선택할 수 있고, 그것이 더 많은 정보를 유발하는 단일 응답 또는 이중 응답으로 대답하기에 적합한지를 결정한다. 대안적으로, 각 탬플릿은 그것에 첨부된 응답 분류를 둘다 갖고, 2개의 응답이 각 리스트로부터 하나를 선택할 수 있다. 후자의 방법은 응답을 결합하기 쉬운데, 왜냐하면 2개의 리스트상의 응답이 양립하기 때문이다. 그러나, 전자는 템플릿을 기록하는데 덜성가시며, 더 유연성을 갖는데 왜냐하면 우리가 모든 템플릿에 대한 두 가지의 형태의 응답을 제안하지 않기 때문이다.

우선순위를 선택하는 데 사용된 정보는 유저의 인격 분류, 사용기간(예를 들어, 템플릿에서 새로운 데이터의 공개일과 같은), 유저의 환경(예를 들어, 유저는 잠자고 있는 가？), 유저의 정서 상태 등을 포함한다. 물론 출력 생성이 후보 출력 템플릿들의 선택과, 그들 사이에 선택하는 2가지 다른 과정을 사용할 필요는 없다.

스플로치를 포함하는 대개의 대화 시뮬레이터는 전후 관계를 감지하지 않는다. 그들은 유저가 대개 최근의 응답에서 말하는 것이 무엇이든지간에 응답한다. 이 응답이 "예" 또는 "왜"와 같은 하나의 단어 응답이라면, 대화 시뮬레이터는 유저가 대화하는 것을 알지 못한다. 전후 관계를 추가하는 하나의 방법은 최종 몇개의 유저 응답에 매칭되었던 그 템플릿을 매칭된 템플릿의 리스트에 구비하는 것이다. 오래되고 높은 우선순위 템플릿이 전체적으로 대화를 독차지하는 것을 막기 위해, 이전에 매칭된 템플릿의 우선순위가 하향으로 일시 조절되어서 이전에 매칭된 템플릿은 유저가 말해서 그들을 되살리는 무언가가 없으면 대화로부터 결국 사라질 수 있다. 그것은 단 기간용 기억을 갖는 인상을 시스템에게 줄 수 있다. 유저의 인격을 분류하는 것과 연결되어 상기 논의했듯이, 시스템은 특정 유저의 인격 분류 및 다른 영구 특성과 연관된 템플릿 우선순위에 대해 더 영구적인 조절을 함에 의해 장기간용 기억이 주어질 수 있다.

상기 논의된 우선순위 조절 방식은, 부분적으로 특징 템플릿의 적합성을 결정하고, 인격 분류에 의해 논의의 현 대상을 유지하는 문맥에서 또한 사용될 수 있다. 템플릿의 기준(canonical) 키워드 색인어(descriptor)로 저장되고 탐색을 허여하는 것으로 색인을 넣게(index)된다. 탐색 벡터는 현재의 템플릿를 발견하기위해 키워드 및 분위기, 인격, 오디오 등과 같은 다른 현재의 분류로 형성될 수 있다. 탐색 벡터의 키워드부는 순서가 정해진 키워드 세트를 필요로 하지 않는다. 키워드부는 근접 연결자와 같은 연결자, 필요한 단어 및 대안의 단어를 포함할 수 있다.

유저가 어떠한 주제를 자주 발생시키면, 상기 주제에 의해 트리거되는 템플릿은 증가된 우선순위를 가져서 그들이 미래의 대화에서 더 선택될 것이다. 또한, 응답을 다양화하는 템플릿은 조절된 응답 우선순위를 가지고, 선호된 주제에 관련된 응답의 우선순위를 증가시킨다. 그러나, 추가의 메카니즘은 대화가 소강 상태가 사용될 수 있고 새로운 화제거리가 대화속에 삽입될 필요가 있다. 키워드를 갖는 매칭이 없다면, 이러한 템플릿들은 잠재성 템플릿의 리스트에 존재하지 않을 것이다. 하나의 교정수단은 특정한 유저에 대해 구축되었던 유저-프로파일 데이터베이스로부터의 정보를 주입하는 것이다. 이 데이터베이스는 이전의 대화로부터의 키워드를 포함할 수 있으며, 예를 들어 인터넷을 통해 액세스된 외부 데이터 리소스로부터의 데이터로서 증가될 수 있다. 예를 들어, "내가 가장 좋아하는 색은 ＠색.w이다"라는 응답은, 스플로치에게 색의 리스트로부터 색을 임의로 선택하라고 명령한다. 그 선택은 유저의 개성 또는 선호도를 토대로 우선순위화될 수 있다.

선택된 템플릿용 응답들간에 구별하는 어떤 메카니즘도 같은 응답을 반복하는 위험을 야기한다. 이것을 극복하기위해, 응답이 일단 선택되면 그것은 표시되어 그것이 당분간 다시 선택되지 않는다. 랜덤 변수의 경우에, 균일해지지 않도록 확률이 조절될 수 있을 것이다. 이와같이, 각 응답은 그것이 얼마나 최근에 선택되는지를 표시하는 표시기에 의해 표시될 수 있다. 그후 이 정보는 연속해서 응답이 반복되지 않도록(이것이 다소 무작위적 선택일지라도) 어떤 시간 주기 동안 재사용되지 않는 것을 보증하는데 사용될 수 있다.

우선순위를 조절하는 것은 감독 또는 무감독 학습을 사용할 수 있다. 새로운 템플릿을 생성하는 무감독 방법 - 과거 대화를 조사하고 새로운 템플릿을 생성하는방법 - 은 엉터리 응답을 생성하기 쉽다. 그러나, 새로운 템플릿에 대해서 무감독 방식으로 새로운 템플릿을 오래된 템플릿으로 학습하는 것이 가능하다. 새로운 템플릿을 학습하기위해 샘플 대화상의 대화 시뮬레이터를 트레이닝하는 대신에, 그 트레이닝이 새로운 응답을 학습하기위해 사용될 수 있을 것이다. 꽤 높은 정도의 명확함을 갖는 템플릿이 대화의 일부분과 매칭되었을 때마다, 그 나머지 사람의 응답이 이 템플릿의 응답에 추가될 수 있다. 물론, 기준은, 템플릿이 얼마나 명확해야 하는지 및 매칭이 얼마나 가까운지를 결정하기 위해 구체적일 필요가 있다.

현재, 매칭이 없으면, 스플로치는 "알았어"와 같은 무의미한 코멘트나 어떤 무관한 재치있는 발언의 응답을 가진 디폴트 템플릿을 선택한다. 상기 반응이 과거에 인기있었던 화제거리인 응답을 추가함에 의해 적응될 수 있다. 예를 들어, 응답 "영화에 대해서 이야기해볼래?"은 "영화"가 과거에 선호하는 주제라면 디폴트 템플릿에 추가될 수 있었다.

또한, 랜덤 변수(예를 들어, ＠색.w)를 포함하는 파일은 특정 질의에 대한 유저의 응답을 토대로 하여 새로운 변수가 추가되어질 수 있을 것이다. 또한, 데이터베이스로부터의 정보는 랜덤 변수를 채우는 데에 유용하다. 대개, 대화 시뮬레이터는 한계를 드러내는 것을 피하기 위해 복잡한 사실적인 질문에는 대답하지 않는다. 그 질의에 대답하는 것은 언어 이해에 너무 많이 의존하고, 어떤 경우에는 사실을 인용함에 의해 응답하려는 호사가들은 지루하게 인식될 것이다. 그러나, 데이터베이스는 관련 정보를 사용해서, 예를 들어 유저가 x를 좋아하므로, x 및 y가 모두 z이기 때문에 그가 y를 좋아하는 것을 알게 됨으로써 대화 시뮬레이터가 그 의견을 표시하는 것을 지원할 때 유용하다. 이 정보는 유저와 비슷한 취미를 갖는 대화 시뮬레이터가 사용할 수 있다.

사회적 환경에 민감하고 유저의 응답에 적응할 수 있는 대화 시뮬레이터는 대화 시뮬레이터의 완전한 이해를 필요로 하지 않기 때문에 그렇지 않은 것보다 신뢰감이 있을 수 있다. 그것은 유저가 얘기를 하게 끔 고무시키며, 이야기가 이해되고 있는 환상을 생성하도록 가끔식 응답함에 의해 대화를 유지시킬 수 있다. 유저가 단문으로 응답하면, 응답할 소수의 키단어만이 존재한다. 그러나, 유저가 긴 연설로 응답하면, 응답을 트리거하는 다수의 가능한 키단어가 존재한다. 잘못된 키단어에 응답하는 것은, 대화 시뮬레이터가 주의를 기울이지 않거나 더 심하게는 듣고 있는 말을 이해하지 못하는 인상을 줄 수 있다. 이것이 그 경우라면, 유저는 대부분의 대화를 꺼릴 수 있고, 그것이 정말로 주의를 기울이고 있는지를 알기 위해 대화 시뮬레이터에 질의를 시작한다.

진정한 스피치인식은 자연 언어 이해에 의존한다. 물론, 대화 시뮬레이터는, 그들이 지각할 수 있는 응답들을 생성하기 위해 규칙들을 사용하여 듣고 있는 말을 이해한다고 믿도록 유저를 속임으로서 확신하게 한다. 그러나, 자연 언어 기술은, 대화 시뮬레이터가 큰 문맥으로부터 단어의 특정한 의미를 인식하거나 문장을 문법적으로 분석하도록 하는데 있어 여전히 제한된 정도로 사용된다. 그러므로, 규칙 기반의 템플릿 접근법은 응답들간에 선택하는 것이 필요한 곳에서 사용될 수 있는 반면에 더 복잡한 트레이닝 - 집중(training-intensive)망 기술은 문장에서 변수들을 표시하는 올바른 캐노니컬 용어를 결정하고 문장을 분석하고, 예를 들어, 동사로부터 직접적인 대상을 구별하는데 사용될 수 있다. 생성하는 다수의 응답에 관한 최종 결정에서, 대화 시뮬레이터는 그것이 예측가능하고 꽤 복잡하지 않은 선택 규칙들에 의존하는 지를 가장 확신하게 된다.

도 1에서 대화 시뮬레이터는 제어기(100)상에 작동하는 프로그램으로서 동작한다. 제어기(100)는 각종 소스, 예를 들어, 연결된 노트북(195), 카메라(135 및 136)에 연결된 이미지 프로세서(305), 원격 제어부(150) 및 키보드(155) 등의 통상적인 유저 인터페이스 장치들로부터 입력을 수신할 수 있다. 다른 입력 장치는 마이크로폰(112), 스피커(114), 또는 온도 센서들, 위치 센서들, 안전 스위치들, 접근 센서들, 전기 부하 센서들, 주위 광 센서들 등의 각종 기기들(140), 및 마우스(별도로 도시되지 않음) 등의 대안적인 유저 인터페이스 장치를 포함할 수 있다. 데이터는 로컬 또는 광역(115) 또는 인터넷 망(115) 또는 안테나(170)를 통해 제어기(100)에 의해 수집될 수 있다. 로컬 망(115)에 연결된 장치는 스마트 응용기기들(130), 가정용 서버(household server)(120) 또는 출력 장치들(123)을 포함할 수 있고, 출력 장치(123)는 디스플레이들, 오디오 출력들, 무선 장치들(별도로 도시되지 않음) 등을 포함한다. 가정용 서버(120)는 썩기 쉬운 물품들 및 음식용 목록 데이터, 예술들 및 기술들 프로젝트에 사용되는 다른 공급품들, 취미들에 사용되는 재료 등의 데이터를 저장할 수 있다. 스마트 응용기기들(130)은 바 코드 판독기 및 디스플레이, 텔레비젼 세트, 스테레오(별도로 도시되지 않음) 등과 같은 인터페이스를 갖는 마이크로웨이브 오븐을 포함할 수 있다. 제어기(100)는 모니터(175)를 통해 직접 출력될 수 있다. 모니터는 캐비넷(190)의 외형이제어기(100)에 의해 변화될 수 있도록 하는 광 및 패턴 출력 요소를 갖는 캐비넷(190)을 포함할 수 있다. 인터넷 망(110)은 위성(103)을 경유해서 또는 서버(140)로부터 그 데이터를 수신할 수 있다.

도 2는 대화의 시뮬레이션을 포함하는 유저와의 상호작용을 생성하기위해 사용될 수 있는 이벤트로 구동되는 구조의 기능 블록다이어그램을 도시한다. 유저에 대한 정보는, 스피치로부터 유도된 텍스트, 오디오 비디오 등의 데이터를 키보드, 마우스, 핸드-헬드 제어기들 등의 제어 장치들에 의해 받아들이는, 입력 유저 인터페이스(400) 처리에 의해 수신된다. 입력 유저 인터페이스는 텍스트 및 원래(raw) 신호들을 분류기들(405)에 보낸다. 수신된 데이터는 응답 발생기(415)로부터 응답을 요청하는 이벤트를 식별하는 분류기(405)에 의해 분류된다. 입력 유저 인터페이스(400)에 의해 수신된 정보는 또한, 유저에 의해 발음되는 문장들과 같은 정보(intelligence)를 모으고, 그것을 분석 및 필터링하고, 이러한 정보를 응답 발생기(415)에 인가하는, 입력 분석기(input parser)(410)에 인가된다. 그 모아진 정보는 데이터베이스(435)에 저장된 다른 것중에 있다. 이벤트가 분류기(405)에 의해 신호될 때마다, 응답 발생기(415)는 유저의 분위기, 유저의 주의 레벨, 개성, 관심들과 같은 분류기(405)로부터의 상태 정보를 얻고 응답을 발생한다. 상태정보의 일부는 이전의 상태 정보에 의해 부분적으로 결정될 수 있다. 예를 들어, 유저의 개성이 그러한 상태일 것이다. 말해진 응답이 대화 시뮬레이터로부터 필요하다는 것을 분류기(405)가 표시하면, 응답 발생기(415)는 응답 데이터 저장부(440)로부터 알맞은 데이터를 선택하고 출력 유저 인터페이스(425)에게 상기 응답에 대응하는합성 스피치를 출력할 것을 신호한다. 이 데이터는 스위치, 플래싱 광 또는 다른 형태의 최종 출력 장치 또는 구동기와 동시에 애니메이션 구동기(260)에 명령할 수 있다. 응답 데이터 발생기(445)는 입력 분석기(410)로부터의 데이터 요청, 예를 들어, 유저의 선호하는 배우에 대한 정보 요청을 수신한다. 응답 데이터 발생기(445)는 월드 와이드 웹과 같은 데이터 리소스로부터 정보를 얻기 위해 에이젠트(205)를 발생하고, 응답 발생기(415)가 나중에 또는 요청과 동시에 사용될 응답을 발생할 수 있는 데이터 모듈을 생성한다. 이 응답 데이터는 응답 데이터 저장부(440)에 저장 또는 전달된다. 응답이 발생할 때, 응답 발생기(415)는 응답을 분석할 때 입력 분석기(410)에 도움을 주기 위해 (유저로부터) 컴퓨터의 응답으로의 대답에서 예측되는 것을 표시하도록 입력 분석기(410)에 선택적으로 신호한다. 그것은 대답을 인식할 때 입력 분석기(410)에 도움을 주는 템플릿 형태로 될 수 있다.

또한, 기능블록 다이어그램인 도3을 참조하면, 도 3에서는 기능 블록 다이어그램인 도 2의 분류기들(405) 및 입력 유저 인터페이스(400)이 더 상세히 도시된다. 다시 한번, 도 3의 다이어그램은 본 발명의 각종 특징들을 실행하는 데 사용될 수 있고 본 발명의 시스템의 범위내에서 상기 특징들을 성취하는 유일한 방법은 결코 아닌 기능적 구조를 나타낸다. 오디오 입력(245), 비디오 입력(255), 및 다른 유저 인터페이스 장치들(도시 안됨)는 각 분류기들에 인가되는 신호들을 발생한다. 마이크로폰(도시 안됨), 또는 음성 및 그것의 방향 모두를 표시하는 방향성 오디오 검출기(도시 안됨), 또는 다른 알맞은 오디오 변환기에 의해 수신될 수 있는 오디오 입력(245)은 오디오 분류기(210)에 인가된다. 후자의 데이터는 실시간 신호를형성하고, 오디오 분류기(210)가 알맞은 디지털 또는 아날로그 수단 또는 그 결합체에 의해 분류한다. 오디오 분류기(210)는 분위기/개성 분류기(290) 및 이벤트/클래스 프로세서에 인가하는 현재 상태 정보를 발생한다. 예를 들어, 오디오 분류기(210)는 발음(utterance)의 시작을 인식하도록 프로그램될 수 있고, 응답에서, 궁극적으로 대화 시뮬레이터에 의해 스피치 발생의 중지를 야기하는, 신호를 발생시켜, 대화 시뮬레이터로 하여금 유저를 인터럽트하지 못하게 한다. 오디오 분류기(210)는 광의 스위칭온의 소리, 코고는 소리, 라디오 소리, 다수의 사람이 동시에 말하는 소리, 등과 같은 소정의 소리들을 구별할 수 있다. 그것은 또한, 소리를 발생시키는 다수의 음성 소스들이 존재하는지여부, 그 소리가 스피치인지 여부, 그 소리가 진공 청소기와 같은 기계인지 또는 라디오 플레임 소리인지 여부를 결정할 수 있다. 이러한 이벤트들 및/또는 상태들 각각은, 경계를 정하는 타임 스탬프와 결합될 수 있고 그 결합된 신호가 이벤트/클래스 프로세서(207)에 인가된다. 이벤트/클래스 프로세서(207)는 유저를 포함하는 시스템의 환경의 현상태를 표시하는 환경/유저 상태 신호를 발생하기위해 다수의 분류기들로부터의 상태정보를 결합하고, 또한 소정의 이벤트가 분류기들에 의해 인식될 때 즉각적인 응답을 보장하기 위해 이벤트 신호들(인터럽트 신호들)을 발생한다. 이벤트들의 인식은 다수의 분류기들로부터 상태 정보를 필요로할수 있으며, 따라서 이벤트/클래스 프로세서(207)는 결합된 상태 신호 및 결합된 이벤트 신호를 발생하기위해 다수의 분류기들로부터의 상태 데이터를 결합한다. 환경/상태 신호는 각종의 분류기들은, 상기 각종 분류기들이 식별할 수 있는 모든 가능한 클래스들의 표시 또는 신뢰성 있는 임계 레벨을 초과하는 것들만의 표시를 포함할 수 있다.

비디오 이미지 분류기(240)는 비디오 입력(255)을 수신하고, 이미지 데이터를 분류하고, 분위기/개성 분류기(290) 및 이벤트/클래스 프로세서(207)에 인가되는 상태 정보 신호를 발생한다. 비디오 이미지 분류기(240)는 예를 들어, 유저가 지적하는 좌표들, 부호-언어 제스처들에 대응하는 표시들, 시야에 있는 사람수 계산, 유저의 아이덴티티 등을 제공하도록 프로그램될 수 있다. 인증, 기계의 제스처 제어 등과 같은 각종 분야들에서 비디오 처리 기술들은 시스템 설계자의 특정 목적에 따라 현재의 시스템에서 사용될 수 있다. 그외의 출력 장치들(도시 안됨)음 그들의 입력들을 그외의 UI 분류기들(235)에 인가하고, 그 분류기들은 그들의 출력 신호들을 이벤트/클래스 프로세서(207)에 인가한다. 상기 그외 분류기들(235)은 핸드-헬드 원격 제어, 마우스, 키보드들, 조이스틱 등과 같은 통상적인 컴퓨터 제어를 포함할 수 있다. 그들은 또한 주변 광 레벨, 날짜의 시간, 실내 온도, 빌딩의 안전 상태, 갈바닉 스킨(galvanic skin) 응답 센서, 심장 속도 센서, 키보드의 압력 감지 또는 원격 제어 키 등과 같은 환경을 모니터하는 수단을 포함할 수 있다. 직접적인 텍스트 입력(250)dmf 발생하는 유저 인터페이스 장치는 텍스트 데이터를 입력 분석기(410)에 인가할 수 있다. 텍스트 데이터는 스피치로부터 텍스트 변환기(215)로 또한 얻어지고, 그 변환기(215)는 오디오 입력(245)을 수신하여 그것을 텍스트에 변환한다. 오디오로부터 얻어질 때, 텍스트는 텍스트 변환기(215)로의 스피치에 의해 타임-스탬프될수 있다.

텍스트 변환기(215)로의 스피치는 자연 언어 탐색 엔진 또는 다른 알맞은 수단에서 사용되듯이, 종래 기술의 대화 시뮬레이터들에서 사용된 바와 같은 문법적이거나 구조적 규칙들을 사용해서 텍스트를 분석한다. 이 분석의 결과는 입력 텍스트(유저로부터의 구, 문장, 또는 발음)의 형태를 표시하는 데이터, 입력 텍스트로부터 추출될 수 있는 특정한 가변 데이터, 및 입력 텍스트에 대응하는 데이터 요청들의 추출이다. 입력 텍스트는, 종래 기술의 대화 시뮬레이터들에서 처럼, 직접적인(straightforward) 규칙 기반의 템플릿 정합을 선택적으로 사용해서 분석된다. 종래 기술의 대화 시뮬레이터들에서 처럼(비록 그것이 응답 발생기(415)가 어떻게 프로그램되는 지에 의존하는 궁극적인 결과일 수 있을지라도), 이런 형태를 특정 응답에 간단히 링크하느니보다, 텍스트 입력 템플릿이 입력 텍스트로부터 특정한 정보를 추출하기위해 사용된다. 이것은 본원에서 상세하게 기술된 규칙 기반의 템플릿 정합 방법의 견지에서 기술될 것이나, 다른 자연 언어 시스템들을 사용하여 행해질 수 있다. 예를 들어, 입력 텍스트가 특정한 텍스트 입력 템플릿에 대응하는 것이 발견되면, 이것은 응답 발생기(415)에 의해 사용되는 하나 이상의 출력 템플릿들에 대응할 수 있다. 텍스트 입력 템플릿은 외부 데이터 저장부로부터 정보를 얻거나 외부 데이터 저장부에 정보를 추가하는 데 사용되는 특정한 단어들 또는 구들을 또한 표시할 수 있다. 예를 들어, 규칙이, "나는 열렬한 세익스피어의 팬이다" 와 같은 응답에 적합하다는 것을 표시하도록 대화 시뮬레이터의 프로그래머에 의해 정의되었다고 가정하자. 그 규칙은 거짓의 포지티브 정합을 방지하기위해 소정의 배제 규칙들(exclusion rules)에 의해 "팬"에 대해 단어 "4"가 소정의 접근 관계에 있을 수 있다. 하나 이상의 추가적 규칙들이 "세익스피어"인 문장의 직접목적어를 식별하기위해 사용될 수 있다. 후자의 규칙 또는 규칙들은 텍스트 입력 템플릿들의 정합을 위해 특별시 정의되거나, 또는 일반적인 규칙들 또는 다른 방법일 수 있다. 정합하는 텍스트 입력 템플릿은, 입력 분석기(410)가 발생시키는 데이터 요청에 대응한다. 세익스피어의 예에서, 데이터 요청은 세익스피어에 대한 추가 정보에 대한 요청일 수 있다. 이 요청은 새로운 출력 템플릿을 형성하기위해 응답 데이터 발생기(445)에 의해 사용된 이러한 데이터와 외부 소스로부터의 데이터를 얻을 수 있는 응답 데이터 발생기(445)(도 2에 도시되고 하기에 더 상세하게 논의됨)에 인가될 수 있다. 이 처리는 도 4와 연결하여 더 상세하게 논의된다.

분위기/개성 분류기(290)는 각종 분류기들로부터 신호를 수신하고 그것들을 처리하여 분위기/개성 상태 신호를 발생한다. 분위기/개성 분류기(290)는 트레이닝된 신경망, 베이시안(Bayesian) 망, 간단한 규칙 기반의 시스템, 또는 다수의 다른 입력을 취하여 유저가 소정의 정서 상태에 있고 소정의 개성을 갖을 확률을 예측할 수 있는 다른 형태의 분류기가 될 수 있다. 양호하게는 상기 개성 신호는 거동에 대한 많은 관찰들의 결과이고 시간동안 지속하는 경향이 있을 것이다. 각종의 개성 및 분위기 토폴로지들은 간단한 것에서부터 복잡한 것에 걸쳐 사용될 수 있다. 유저를 지루함으로 분류하기 위한 규칙들 세트의 일에는:

·적은 문장/구 단어 카운트(유저의 문장들은 수개의 단어들을 포함)(입력

분석기(410)는 응답 단어 카운트를 표시하여 신호함),

· 최상급과 같은 열광을 제시하는 단어들의 낮은 발생율(입력 분석기는

형용사들을 표시하여 신호함)

·음성에서 조용한 평탄한 톤(오디오 분류기(210)는 변조 억양 강도를

밀도를 표시하여 신호함)

·물리적인 이동의 부족(비디오 이미지 분류기(240)는 그외 등등을

표시하면서 신호함)

·원격 키들 상의 낮은 압력

·헤드 또는 몸체의 적은 이동

·한숨 쉬는 소리 등

·시계를 보는 것

·대화 시뮬레이터로에 의해 식별된 대상(예를 들어, 음성-동기화된 만화 캐릭터)과의 눈 접촉의 부족

이것들 각각은 표시된 분류기에 의해 분류될 수 있다. 유저 옷의 색, 유저 음성의 피치, 유저가 방을 들어가고 나가는 횟수, 유저가 제스처하는 방법 등은 모두 유저의 정서 상태 및/또는 개성에 단서를 제공할 수 있다. 미국특허 제 5,987,415 호에 제시된 "빅 파이브" 개성 토폴로지 또는 매우 간단한 밸런스/강도 정서 상태 토폴로지 또는 다른 알맞은 토폴로지가 사용될 수 있다.

또한, 즉각적인 정신 상태들에 대하여, 임의의 알맞는 프레임워크가 사용될 수 있다. 다음의 테이블은 Myers-Briggs 토폴로지의 진화된 파생물인 빅 파이브를 요약한다. 정서 상태들 및 개성들을 모델링하는 주제에 대해 많은 학술 논문들이 존재하고, 그들 중 다수는 음성(voice), 얼굴 표정, 몸체 자세 및 다수의 다른 기계-입력을 토대로한 기계 분류의 이슈들을 역설한다. 인터넷을 통한 에이전트를 사용해서 또는 일상적인 일광과 같은 기본적인 날씨 데이터를 측정하는 기기를 통해서 얻어지는 날씨조차도 정신적인 정서 상태를 추론하기위해 사용될 수 있다.

연속적 계열(Continuum)로된 2개의 극단에 대한 앵커들(anchors)을 갖는 부정적인 정서(Emotionality)의 6개 측면(Costa & McCrae,1992에서 개조됨)

부정적인 정서의 6개 측면	원상 회복(RESILENT) R+	반작용(REACTIVE) R-
걱정(Worry)	편히 쉼; 조용함	걱정함; 불안함
화가 남(Anger)	침착함; 화를 누그러뜨림	성급하게 화를 느낌
단념(discouragement)	천천히 단념	쉽게 단념
자의식(self-consciousness)	거의 당황하지 않음	아주 쉽게 당황함
충동성(Impulsiveness)	쉽게 충돌들에 저항	쉽게 유혹됨
취약성(vulnerability)	쉽게 스트레스 처리	대처하기 어려움

연속적 계열(Continuum)로된 2개의 극단들에 대한 앵커들을 갖는 외향성(Extraversion)의 6개 측면(Costa & McCrae,1992에서 개조됨)

외향성의 6개 측면	내향성(INTROVERT) E-	외향성(EXTRAVERT) E+
온정(Warmth)	쌀쌀함; 형식적임	자애로움; 친근함, 친밀함
사교성(Gregariousness)	동료를 좀처럼 찾지 않음	사교적, 동료를 좋아함
독단성(Assertivness)	뒤에 머뭄	독단적임; 크게 말하고; 선도함
활동성(Activity)	느긋한 페이스	정력적인 페이스
자극성(Excitement-Seeking)	스릴이 덜 필요함	자극을 갈망
포지티브 정서(Positive emotions)	덜 열광함	쾌활함; 낙관적임

연속적 계열(Continuum)로된 2개의 극단들에 대한 앵커들을 갖는 개방성(openness)의 6개 측면(Costa & McCrae,1992에서 개조됨)

개방성의 6개 측면	보존자(PRESERVER) O-	탐험자(EXPLORER) O+
상상(Fantasy)	여기 및 현재에 중점	상상함; 공상
미의식(Aesthetics)	예술에 무관심	예술 및 미를 높이 평가함
감정(Feelings)	감정을 무시 및 평가절하함	모든 정서를 높이 평가함
행동(Ideas)	익숙한 것을 선호함	다양성을 선호함; 새로운 것을 시도
사상(Ideas)	지적 중심을 보다 좁게 둠	지적 호기심이 광범위함
가치(Values)	독단적임;보수적임	가치들을 재평가하는데 개방적임

연속적 계열(Continuum)로된 2개의 극단들에 대한 앵커들을 갖는 적당성(Agreeableness)의 6개 측면(Costa & McCrae,1992에서 개조된)

적당성의 6개 측면	도전자(CHALLENGER) A-	적응자(ADAPTER) A+
확신(Trust)	냉소적: 회의적	다른 사람을 정직하고 선의로 봄
정직성(Staightforwardness)	신중함; 진실을 왜곡	정직함, 솔직함
이타주의(Altruism)	연루되길 꺼림	다른 사람을 기꺼이 도움
순종성(compliance)	침략적임; 경쟁적임	싸움중에는 양보; 존중
겸손성(Modesty)	다른 사람보다 우월하다고 느낌	표면에 나서지 않음; 겸손함
상냥함(Tender-Mindedness)	완고함; 이성적임	상냥함; 쉽게 감동함

연속적 계열(Continuum)로된 2개의 극단들에 대한 앵커들을 갖는 양심성(conscientiousness)의 6개 측면(Costa & McCrae,1992에서 개조된)

양심성의 6개 측면	(FLEXIBLE) C-	집중성 있음(FDCUSED) C+
반응성(Competence)	종종 준비되지 않다고 느낌	가능하고 효율적이라고 느낌
질서(order)	체계적이 아님; 비방법적임	체계적임; 깔끔하고 단정함
충실성(Dutifulness)	의무에 대해 무관심	양심에 의해 지배됨; 신뢰성있음
성취 분투(Achievement Striving)	성취에 대한 낮은 필요성	성공을 성취하도록 유도됨
자기-훈련(Self-Discipline)	늑장부림; 산만함	임무 완료에 중점둠
심사숙고(Deliberation)	임의적임; 성급함	동작전에 주의깊게 생각함

분위기/개성 분류기(290)는 다수의 자유도들을 가진 상태 벡터를 출력하고, 이 상태 벡터는 설계자에 의해 선택된 인격 및 정신 상태의 모델들에 대응한다. 분위기/개성 분류기(290)는 개성을 모델링하는데 있어서, 시간 기간동안 순간적인(instontaneous) 데이터를 축적할 수 있는 데, 왜냐하면 이것은 영속 상태이기 때문이다. 그 정신 상태는 더 휘발적인 요소들을 가질 것이다.

도 4에서 응답 발생기(415)는 분위기/개성 분류기(290) 및 입력 분석기(410)로부터 각각 분위기/개성 상태 벡터의 대답 데이터를 수신한다. 응답 발생기(415)는 또한 이벤트/분류 프로세서(207)로부터 환경/유저 상태 신호 및 이벤트들 신호를 수신한다. 응답 발생기(415)는 또한 데이터베이스(430)에 링크된 분석기/요청기(432)로부터 데이터 요청 신호를 수신한다. 응답 발생기(415)는 유저, 분위기/개성 상태, 환경/유저 상태, 및 이벤트들 신호로부터 분석된 대답을 기초로 하여 응답 데이터 저장부(440)로부터 응답을 선택한다.

분석기/요청기(432)는 3가지를 행한다: 갱신하기위해 데이터베이스 (430)에추가할 수 있는 정보에 대해 유저로부터의 분석된 대답들을 검토하고, 그것의 프로그래밍에 의해 표시된 바와 같은 주제에 대한 추가 정보를 위한 요청을 발생시키고, 데어터베이스(430)가 더 유용해지기 위해 어떤 데이터가 필요한지를 결정한다. 분석된 대답은 분석기/요청기(432)가 데이터베이스(430)갱신 시 유용한 것으로 인식하도록 프로그램되는 데이터를 제공하면, 그 데이터는 분석기/요청기(432)에 의해 추출되고 데이터베이스(430)에 추가될 수 있다. 예를 들어, 데이터베이스(430)가 텔레비젼 프로그래밍에 관련한 유저의 선호도를 포함하는 유저 프로파일이고 유저가 대화 시뮬레이터 세션동안 "나는 포크맨을 좋아한다" 말하면, 분서기/요청기(432)는 키단어 "포크맨"을 데이터베이스(430)에 추가할 수 있다. 분서기/요청기(432)는 또한 에이전트(205)를 예시함으로서 데이터 소스(리소스 데이터(450)로 표시됨)로부터 추가 정보에 대한 요청을 발생할 수 있다. 예를 들어, 에이전트(205)는 포크맨 캐릭터들의 명칭들을 표시하는 인터넷 사이트로부터 텍스트를 얻을 수 있다. 분서기/요청기(432)는 이들 캐릭터 문자 명칭들을 추출하고 데이터베이스(430)내의 프로파일에 그들을 추가할 수 있다.

데이터베이스(430)가 다량의 선호도 데이터를 축적하지만, 질문함으로서 명확해질 수 있는 모호성을 발견한다면, 분석기/요청기(432)는 데이터 요청을 발생하고 그것을 응답 발생기(415)에 인가시킬 수 있으며 그로인해 유저에게 명확히 하도록 요구함으로서 몇몇 지점에서 응답이 이루어질 수 있다. 예를 들어, 데이터베이스(430)는 스포츠 프로그램들이 자주 시청된다는 것을 표시할 수 있으나, 데이터는 어느 스포츠가 선호되는 지에 관하여 명백하지 않다. 데이터베이스(430)는 또한 대화 시뮬레이터로 하여금 간헐적으로 질의에 대답하게 함에 의해 시간동안 점진적으로 채워질 수 있는 표준 데이터 요청들을 포함할 수 있다. 이것은 양식의 여백을 채워 넣는 아날로그이나, 유저는 그것이 무엇이 발생시키고 있는 것인지를 결코 알 필요가 없다. 데이터베이스(430)가 EPG용 프로파일 데이터베이스인 예에서, 셋업 정보의 표준 세트가 있을 수 있고, 아마도 그렇치 않으면 고객 데이터의 양식의 여백을 채움으로써 처리된다. 이것은 관련 데이터를 요청하는 템플릿을 간단히 발생하고, 때때로 이들 템플릿중에서의 질의를 대화에 삽입하고 그 관련 데이터를 유저의 대답들로부터 검색함에 의해 대화 시뮬레이터에 의해 처리될 수 있다.

데이터베이스(430)의 다른 예는 사용자의 월간 수취인들(monthly payees)을 포함하는 (인터넷을 경유하여 링크된) 외부 데이터베이스 및 투자정보를 가진 스마트카드이며, 여기서 상호작용은 월간 청구서들이 정시에 지불되도록 한다. 스마트 카드는 예를 들어, 카드상에 저장된 활동 선호도 데이터(예를 들어, 오래된 교회를 방문하고 자전거를 타는)에 기초하여 활동을 추천하는 호텔 키오스크(kiosk)에 의해 사용된다. 스마트 카드를 대신해서, 같은 데이터가 무선 주파수 장치, 개인 디지털 어시스턴스 상에 또는 임의의 알맞은 수단에 의해 저장될 수 있다. 데이터베이스(430)는 제품 조사와 같은 조사를 수행하는 외부 데이터베이스로 될 수 있다. 데이터베이스(430)는 가정 망으로부터의 쇼핑 리스트가 될 수도 있고 쇼핑 리스트로부터 추가 및/또는 삭제하기는데 사용된 유저와 상호작용이 될 수도 있다. 다수의 다른 확율들은 본 발명의 범위내에 존재한다.

도 5에서, 예를 들어, 응답 데이터 저장부(440)는 템플릿들의 세트를 유지할수 있고 그 템플릿들 각각은 하나의 애니메이션들을 구동하도록 요구할 수 있다. 그러므로, 그러한 템플릿이 트리거될 때, 그 응답은 스피치 출력(소리 등)에 맞추어지고 임의의 다른 출력에 독립적인 애니메이션이다. 응답 발생기(415)는 도 5에 도시했듯이 출력 템플릿을 선택하고 그것을 애니메이션 구동기(260)에 송신할 수 있다. 표시 장치는 도 1에 도시했듯이 모니터(175)일 수 있다. 응답 발생기(415)는 텍스트를 포함하는 템플릿을 또한 선택한다. 응답 발생기(415)는 템플릿 텍스트에 텍스트를 추가할 수 있고 그것을 스피치 변환기(275)에 대한 텍스트로 송신하여 스피치출력을 발생할 수 있다. 템플릿 선택 및 가변 스피치 또는 가변 텍스트는 스플로치(splotch)와 같은 스피치 시뮬레이터의 종래 방법으로 처리된다. 응답 발생기(415)는 또한 컴퓨터 또는 모니터의 디스플레이와 같은 직접 텍스트 출력부(280)에 직접적으로 텍스트 데이터를 출력할 수 있다. 응답 발생기(415)는 또한 다른 출력 효과들(270)를 제공하는 템플릿들을 액세스할 수 있다. 출력 효과의 다른 예는 모니터(도 1참조)의 캐비넷(190)의 가변 예시를 포함하는 캐비넷 효과들 구동기(265)이고, 그것의 형태는 출력 명령들에 응답하여 변한다. 애니메이션 구동기(260)에 의해 제공된 애니메이션은 스피치 변환기(275)에 대한 텍스트에 의해 스피치 채널(80)과 동기화될 수 있어서 애니메이션상에 나타나는 캐릭터는 말하는 형태로 설정될 수 있다. 같은 동기화는 예를 들어 다른 효과들과 함께 발생할 수 있고, 텔레비젼의 캐비넷(190)은 캐비넷 효과 구동기(265)에 의해 구동될 수 있고 개성을 지닌 텔레비전 유저에 외형을 기증 받았다. 또한, 텔레비젼은 사람의 외형이 주어질 수 있다.

텍스트 변환기(215)로의 스피치 또는 직접적인 텍스트 입력부(250)에 의해 얻어지는 입력은 입력 분석기(410)에 의해 분석되고 그 분석된 대답이 응답 발생기(415)에 인가된다. 응답 발생기(415)는 분석된 대답, 분위기/개성 상태, 환경/유저 상태, 및 이벤트들 신호를 기초로 하여 응답 데이터 저장부(440)에서 가장 적합한 템플릿들을 선택한다. 응답 발생기(415)는 모든 관련된 신호를 기초로 하여 각 후보 템플릿에 대해 가장 알맞고 양호한 추정치를 계산할 수 있다. 예를 들어, 그 결과 응답 발생기(415)가 텍스트에 포함된 데이터의 견지에서 유저의 발음들뿐만 아니라 본원에서 논의된 다수의 다른 요소에 응답한다. 특히, 유저의 분류된 정서 상태 및 개성은 대화의 내용, 대화 시뮬레이터의 응답의 스타일(분위기)의 이동을 나타나게 한다.

비디오 입력(255)으로 시작하는 데이터 흐름을 추적할 때, 비디오 입력(255) 신호가 비디오 이미지 분류기(240)에 인가된다. 비디오 이미지 분류기(240)는 비디오 입력(255) 신호내의 각종의 다른 이미지 및 비디오-시퀀스 클래스들을 인식하도록 프로그램된다. 예를 들어, 사람을 들어올리고 내리는 것; 조용히 앉아있고 흥분해서 이동하거나 대화 시뮬레이터 시스템의 근처를 떠나는 것을 구별하는 것이 프로그램될 수 있다. 상기 클래스들 각각에 대한 확률은 신호로서 발생 및 출력 될 수 있다. 대안적으로, 단일의 가장 예상가능한 분류는 신호로서 발생 및 출력될 수 있다. 이 신호가 이벤트/클래스 처리기(207)에 인가되며, 그 처리기(207)는 환경/유저 상태 신호를 발생하기 위해 이 데이터를 다른 클래스 데이터와 결합한다. 이벤트/분류 처리기(207)가 예를 들어, 유저가 일어나 방을(들어오고) 나가는 것과같이 갑자기 중요한 것이 발생했다는 표시를 비디오 이미지 분류기(240)로부터 수신하면, 이벤트/분류 처리기(207)는 응답 발생기(415)에 의해 발생되는 출력을 동시에 인터럽트할 수 있다는 취지의 이벤트 신호를 발생한다. 기분(mood)/성격 분류기(290)는 유저가 동요하고 있는 것과 일치하는 방식으로 이동하는 것을 나타내는 신호를 비디오 이미지 분류기(240)로부터 수신하면, 그 기분/성격 분류기(290)는 이 정보를 다른 분류기 신호들과 결합해서 고조된 걱정의 감정 상태를 표시하는 분위기/성격 상태 벡터를 발생한다. 예를 들어, 오디오 분류기(210)는 화자의 음성이 보통보다 매우 높다는 것을 동시 표시할 수 있고, 입력 파서(paser)(410)는 가장 최근 응답의 단어 카운트가 보통과 달리 낮다는 것을 표시할 수 있다. 응답 발생기(415)에 의해 선택된 후보 응답 템플릿들의 선택은 기분/성격 상태에 의해, 예를 들어, 응답 발생기(415)가 그 상황에서 선택하기위해 프로그램되는 대화의 주제를 하나 이상으로 변화하도록 선택함에 의해 영향받게 된다.

현재의 클래스 또는 상태가 이전의 시간에으로부터의 변화를 나타내는 지를 시스템으로 하여금 결정하기위해, 이벤트/클래스 처리기(207) 및 기분/성격 분류기(290)에는 대응하는 히스토리가 다른 유저들을 위해 저장될 수 있도록 현재 유저를 결정하는 데이터 저장 능력 및 수단을 구비할 수 있다. 시스템은 유저 식별자(460)를 또한 구비할 수 있다. 후자는 비디오 이미지 분류기(240), 무선 주파수 식별 토큰, 스마트 카드, 음성 서명, 또는 유저로 하여금 자신을 엄지손가락 지문 또는 간단한 PIN 코드와 같은 바이오미트릭 표시기로 식별하도록 하는 간단한 유저 인터페이스에 의해 얼굴-인식과 같은 유저를 식별하기 위한 임의의 적절한 수단을 사용할 수 있다. 이러한 방법으로, 기분/성격 분류기(290) 및 이벤트/클래스 처리기(207)는 특정 유저와 히스토리 데이터를 각기 상관시킬 수 있고 응답 발생기(415)에 대해 경향을 식별하고 신호 전송할 때 그것을 사용한다.

각종 입력들로부터의 정보에 응답하는 응답 발생기(415)의 다른 예는 다음과 같다. 비디오 이미지 분류기(240)가 비디오 입력부(255)에 의해 수신되는 이미지를 한 사람이 수면중인 것으로 식별할 때, 대화 시뮬레이터 애플리케이션은 스피치를 발생하고 있다. 응답 발생기(415)는 대화를 정지하고 백색 잡음 또는 음악을 발생할 수 있다. 다른 예에서는 추가로 사람이 그 방에 들어가면, 응답 발생기(415)가 유저로 하여금 그 방에 방금 들어갔던 사람과 대화하도록 계속중인 대화에 들어가는 것을 중단할 수 있다. 대화 발생기(240)는 그 방에 방금 들어갔던 사람에게 소개하기를 요청하거나 스피치 또는 유저가 대화를 종결하고 싶어하는지를 물어보는 말을 주입할 수 있다. 또 다른 예에서 오디오 분류기(210)에 의해 변환된 오디오 입력(245)는 사람이 웃고 있는 것을 식별한다. 오디오 분류기(210)는 응답 발생기(415)가 농담을 포함하는 응답들에 의해 웃음이 뒤따르는 것을 표시하는 그 프로그래밍의 룰에 따라 대안의 응답 템플릿을 선택하는 신호를 발생할 수 있다.

입력 파서(410)는 유저에 의해 표시된 관심 또는 질문들에 대응하는 문장들의 특정 부분들을 분석할 수 있다. 예를 들어, 유저는 "가정용 에어컨을 수리하는 것이 어렵습니까?" 라고 물을 수 있거나 일본식 요리에 관심을 표시할 수 있다. 입력 파서(410)는 질문들 및 전술된 관심과 관련한 특정 심벌들 또는 텍스트 데이터를 추출하고 데이터 요청들을 발생하도록 프로그램될 수 있다. 응답 데이터발생기(445)는 근거리망 또는 인터넷("근거리 망/인터넷(200)"로 표시됨)과 같은 리소스 데이터(450)로부터 추가 정보를 얻기 위해 에이젠트(205)의 실례를 발생시킨다. 에이젠트(205)에 의해 검색된 데이터는 응답 데이터 발생기(445) 및 그로부터 발생된 새로운 템플릿에 의해 분석될 수 있다. 이것을 행하기위해, 응답 발생기(415)는 그 응답 데이터를 그것의 사용을 위한 룰들을 접속하도록 프로그램될 수 있다. 몇개의 예들이 가능하다는 것을 보여주기위해 논의된다. 첫째, 유저는 에어컨들에 관한 위의 질문을 묻는다. 응답 데이터 발생기(445)는 주제 및 특정 필요성을 표시하는 데이터 요구를 수신하고; 이 경우에 그 필요성이 정보에 대한 즉시 요구로 된다. 에이젠트(205)는 하나 또는 2개의 대답을 얻고, 응답 데이터 발생기(445)는 그 대답이 대화 시뮬레이터의 대화에서 높은 우선순위가 주어져야 한다는 표시 및 응답을 작성한다. 이 경우에 응답은 양호하게는 요청된 질문은 식별한다. 예를 들어, 응답은 "내가 수집할 수 있는 것으로부터, 가정용 에어컨을 수리하는 것이 쉬운가에 관한 당신의 질문에 대한 대답, <x>"로 될 수 있다. 심벌 "<x>"는 리소스 데이터(450)로부터 수집된 응답 데이터를 나타낸다. 둘째, 유저는 그 주제에 대한 정보에 대한 데이터 요구를 야기하는 일본식 요리에 대한 관심을 표현한다. 응답 데이터 발생기(445)는 관련된 정보를 검색하고 이것은 대화 시작 또는 주제 변화 유형의 응답이고, 그것은 표현된 유저의 관심과 직접적으로 관련되어 있다는 표시와 함께 "당신은 고급 일본 식당이 14번가에 있는 지를 알고 있었느냐?"를 몇 개의 템플릿을 형성한다. 그 검색된 데이터는 상호작용 시뮬레이터에 의해 나중의 "대화"에 도입되거나 즉시 전달될 수 있다.

입력 파서(410)는 문장술에서 특정 종류의 정보를 추출하기 위한 인식 템플릿들, 계산적 언어 기술들, 또는 다른 모델들을 사용해서 동작할 수 있다. 다른 예로서, 유저가 "내가 어제 보았던 포크맨이라는 텔레비젼 프로그램은 매우 재미있었다"과 같은 문장을 사용하면, 입력 파서(410)는 직접적인 대상인 "포크맨"을 추출할 수 있고, 그것을 데이터 요구로서 송신하는 데, 왜냐하면 그것은 소정의 인식 템플릿에 대응하거나, 자연 언어 기술들을 사용해서 직접적인 대상을 식별하는 것에 대응하기 때문이다. 인식 템플릿은 "나" 및 "좋아한다"의 접근성과 같은 룰을 사용할 수 있다. 자연 언어 장치는 보다 유연하나, 비슷한 결과를 발생할 수 있다. 템플릿들은 템플릿 문장 구조를 간단히 사용함으로서 싫어함과 좋아함, 선언과 질문 등은 구별하기위해 사용될 수 있다. 간단한 템플릿 방식은 유저의 발언에서 모든 데이터를 사용할 수 없으나 그것은 상대적으로 적은 룰들을 갖는 상당히 믿을 수 있는 대화 시뮬레이터를 제공할 수 있는 이지 투 프로그램(easy-to-program) 기술을 제공할 수 있다.

에이젠트(205)는 근거리망/인터넷(200)로 가서, 예를 들어 데이터 요청을 토대로한 탐색에 부합하는 웹 사이트들상에 나타나는 텍스트에 부가하여 추가 정보에 대한 링크들과 같은 데이터를 수집한다. 응답 데이터 발생기(445)는 에이젠트(205)로부터 얻어지는 텍스트 또는 다른 데이터를 필터링하고 분석한다. 유저로부터의 대답 텍스트 및 리소스 데이터(450)로부터의 원래의 텍스트로 작업중에는, 입력 파서(410) 및 응답 데이터 발생기(445)는 인식 템플릿 또는 다른 자연 언어 처리에 따라 특정 단어들 또는 구들을 선택할 수 있다. 다른 데이터와의 비교를 용이하게하기위해, 이 처리들은 그 선택된 텍스트를 표준 형태로 변환할 수 있다. 예를 들어, 응답 템플릿들을 나타내는 키단어들이 미리규정된 세트의 표준 용어들로 제한될 수 있다. 유저가 발언을 하면, 유저 자체의 단어들이 각종 응답 템플릿들을 특징지우는 키단어 벡터들과 비교하기 전에 표준 형태로 변환된다. 검색된 데이터를 탐색할 때, 표준 형태로의 변환에는 가능한 최고의 적중률을 얻기 위해 표준 용어의 변형들의 분리 리스트를 사용하는 탐색 질의의 발생이 수반될 수 있다.

도 6을 참조하면, 대화 시뮬레이터는 그의 동작이 알맞다는 것을 확정하기위해 유저의 동작 및 환경에 응답한다. 예를 들어, 도 6의 상황에서 유저는 수면중이다. 비디오 입력(255)은 비디오 이미지 분류기(240)에 인가되는 신호를 발생한다. 비디오 이미지 파서(240)는 구성 요소들의 리스트를 갖는 실시간 상태 벡터를 갖는다. 각 구성 요소는 대화 시뮬레이터의 "가시" 환경의 상태에 대한 정보를 가산한다. 예를 들어, 유저의 활동은 몇개의 다른 상태들간에 분류될 수 있었다. 여기서, 유저의 활동은 유저가 방 주위를 이동하지 않고 상대적으로 조용하다는 것을 의미하는 "진지"한 것으로 식별된다. 상태 벡터의 다른 구성요소는 방에 있는 개인들의 수가 될 수 있으며, 이 경우에는 하나이다.

비디오 이미지 파서(240)가 현재의 기술로 쉽게 식별할 수 있었던 다른 분류는 방에서 새로운 대상들의 수이다. 이전의 경우에 비디오 이미지 파서(240)는 그 환경을 간단한 스키마(schema)로 저장할 수 있다. 예를 들어, 그것은 첫번째 날에 환경 사진을 찍을 수 있고, 시스템이 두번째 날에 다시 나타나는 경우, 저장된 이미지에서의 대상들의 수는 현재의 이미지내에 식별된 대상들의 수와 비교될 수 있다. 그후에, 새로운 대상들의 수는 출력될 수 있으며, 이 정보는 대답들을 발생하는데 사용될 수 있다.

다른 분류는 예를 들어, 서있고, 엎드리고, 앉아있는 등과 같은 몸의 위치이다. 이 경우에 유저는 엎드린 위치에 있는 것으로 식별된다. 대화 시뮬레이터 시스템에 의해 또한 수신되는 오디오 신호는 2개의 처리, 즉, 스피치 텍스트 변환기(215) 및 오디오 분류기(210)에 인가된다. 입력 파서(410)는 스피치 텍스트 변환기(215)에 의해 출력된 텍스트와 가장 양호하게 정합하는 인식 템플릿들의 식별을 시도한다. 그래서, 예를 들어, 수면중인 사람의 코고는 소리에 대한 템플릿 정합은 어떠한 특정 인식 템플릿과도 양호하게 상관될 수 없다. 그러나, 오디오 분류기(210)를 갖고 있다는 부가 정보가 코고는 것을 나타내고, 유저의 활동을 나타내는 비디오 이미지 분류기(240)는 대화 시뮬레이터의 출력된 스피치가 부적당하다는 상황을 응답 발생기(415)로 하여금 식별하게 하고, 그 대신에 템플릿/저장부(225)가 백색 소리(또는 음악, 소리 없음 또는 광의 저하)를 발생한다.

이벤트/클래스 처리기(207)는 필터 및 데이터 컨솔리데이터(consolidator)로서 동작한다. 그것은 다수의 분류기로부터의 클래스 데이터를 결합하고, 더 높은 레벨의 클래스 정보를 출력할 수 있다. 도 6의 예에서, 이벤트/클래스 처리기(207)는 유저의 활동, 즉 수면에 대응하는 고레벨 클래스("메타 클래스(metaclass)")를 발생하기 위해 오디오 및 비디오 분류기들(210,240)로부터의 입력을 통합한다. 오디오 분류기(210)는 소리를 입력하고, 그것을 그것이 인식되도록 훈련되는 클래스로 식별하는 것을 시도한다. 이벤트/클래스 처리기(207)는 오디오 분류기(210) 및 다른 분류기들로부터 클래스 정보를 수신하고, 그것들을 그것이 인식되도록 훈련된 메타클래스로 이들은 식별하도록 시도한다. 물론, 본원에서 설명된 구조는 본 발명의 각종 특징을 구현하는 유일한 방법이 아니며, 이벤트/클래스 처리기(207)는 간단히 생략될 수 있었고, 그것의 기능은 응답 발생기(415)에 의해 인계될 수 있다. 그러나, 기능을 분리하는 하나의 장점은 이벤트/클래스 처리기(207)가 응답 발생기(415)에 의해 사용된 것과는 다른 형태의 분류기를 사용할 수 있다는 것이다. 예를 들어, 응답 발생기(415)는 스플로치(splotch)에 의해 사용된 바와 같은 룰을 토대로한 템플릿 정합기(rule-based template matcher)를 사용할 수 있는 반면에, 이벤트/분류 처리기(207)가 훈련된 신경망 형태의 분류기를 사용할 수 있다. 기능의 이러한 할당은 더 적합할 수 있는 데, 왜냐하면 이벤트/분류 처리기(207)(또는 나머지의 분류기)가 인식하기위해 훈련되는 클래스들의 수보다 응답 발생기(415)의 출력들의 수가 훨씬 더 많게 되기 때문이다. 그것은 망형 분류기들(신경망 및 베이시안 망 분류기들 등)이 많은 수의 가능한 출력 상태들을 가질 때에는 훈련시키기 어렵기로 악명높다는 사실에 따른 것이다.

도 6의 구성은 종래 기술의 대화 시뮬레이터와는 실질적으로 다르다. 종래 기술의 대화 시뮬레이터가 스피치 패턴만에 기초하여 최상의 템플릿을 선택하는 반면에, 현재의 시스템은 유저의 환경에 관련한 다른 정보를 고려하고, 그 정보에 응답하여 대화를 구동시킨다. 오디오 분류기(210) 및 비디오 이미지 분류기(240)로부터의 추가 정보는 사용되어 보다 양호한 응답을 발생하는데 사용된다. 이 추가 정보 및 가장 가능성 있는 출력을 제공하기 위해 그것을 사용하는 효과는 이 대화 시뮬레이터로서의 시스템을 실제 사람에 보다 유사하게 행동하게 하는 것이다.

도 7을 참조하면, 비슷한 환경에서, 비디오 입력부(255) 및 오디오 입력(245)을 통해 얻어진 추가 정보가 스피치 텍스트에 부가해서, 대화 시뮬레이터에 의해 출력을 발생하는데 사용된다. 이 예에서, 오디오 분류기(210)는 3개의 지표(indicaton)를 즉, 유저 이외의 누군가가 말하는 것을 표시하는 것을 출력하고, 제2의 음성이 있다는 것, 및 계속해서 침묵의 기간을 출력한다. 스피치-텍스트 변환기(215)는: 안녕 밥！잘 지내?라는 텍스트를 발생한다. 입력 파서(410)는 그 텍스트를 "밥"을 향한 인사 및 질문의 표준 양식으로 분류한다. 즉,"잘 지내？"는 "어떻게 지내십니까？"에 의해 표현되는 표준 양식으로서 입력 파서(410)의 출력에서 표시된다. 같은 데이터가 기분/성격 분류기(290)에 인가된다. 비디오 이미지 분류기(240)에는 누군가가 느리게 걷고 있고, 시야에서 2명의 사람들(310)이 있고, 새로운 대상이 없고, 개인들 몸의 위치가 서있다는 것을 표시하고 있다. 기분/성격 분류기(290)는 유저에 관한 성격 데이터를 저장하고 이전의 대화들로부터 유저의 기분을 검출한다. 그것들은 이벤트/클래스 처리기(207)에 인가된 출력 신호에 표시된다.

이벤트/클래스 처리기(207)는 2개의 음성이 있다는 것을 표시하는 오디오 분류를 유저의 이름이 텍스트에서 사용되었다는 사실 및 방에는 2명의 사람이 있으며, 한명은 방금들어왔다는 사실과 결합한다. 그 정보의 결합은 인터럽트되지 말아야 될 상황으로서 이벤트/클래스 처리기(207)에 의해 인식될 수 있다. 그것은 정지를 삽입하여, 즉시 스피치로 출력하는 것을 중단하는 응답 발생기(415)에 인가되는 이벤트 신호를 발생한다. 응답 발생기(415)는 분류기들로부터의 다른 데이터를 사용하여, 도입되어야 한다고 제시하는 템플릿을 식별한다. 기분/성격 분류기(290)로부터의 성격 정보는 이러한 선택을 할 때 사용되며, 프로그래머는 더많은 간섭주의자의 대화 시뮬레이터가 사회적 환경에서 조용한 내향적인 형태에 어울린다고 가정한다. 응답 발생기(415)는 정지를 삽입하고, 그 다음에, "미안해, 나는 밥을 모른다"라는 표현을 약간 나중에 발생한다. 단어 "밥"은 입력 파서(410)로부터 이벤트/처리기(207)를 경유해서 오게 된다.

비디오 이미지 분류기(240)가 장면(scene)에서 각각 식별된 개인에 대한 분리된 활동, 몸 위치 등의 분류를 포함할 수 있다. 이들 각각 비디오 이미지 분류기(240)에 의해 식별된 각각의 사람에 대한 단일 벡터와 분리해서 출력될 수 있다. 오디오 분류기(210)가 방향성 능력을 가질 수 있어서, 그것은 소리가 각각으로부터 나오는 사람들간을 또한 구별할 수 있다. 예를 들어, 도 7의 시나리오에서, 오디오 분류기(210)가 말하는 특정 화자, 상대방 A를 식별하고 그 출력에서 그것을 표시한다. 말하는 개인과 함께 입력 파서(410)에 의해 분석되었던 텍스트를 상관시키기위해, 모든 출력들은 시간적으로 태그(time tag)될 수 있다. 예를 들어, 오디오 분류기(210)는 각각의 소리 신호를 시간적으로 태그할 수 있고 그것이 오는 방향을 표시한다. 오디오 분류기(210)는 소리의 음성 프린트를 식별하기위한 능력이 주어질 수 있다. 이 정보를 사용해서, 이벤트/클래스 처리기(207)는 텍스트를 시간적으로 태그할 수 있고, 응답 발생기(415)로 하여금 소리 방향 및 음성-프린트의좌표들을 텍스트와 상관시킨다. 텍스트는 말하는 개인과 상관될 수 있다.

도 8에서, 비디오 출력부(255)의 시야에서 앉아있는 아이(315)에 의해 비디오 이미지 분류기(240)의 벡터가 발생하게 된다. 후자는 유저가 앉아있고, 그 유저가 아이이며, 개인들의 수는 1이고, 유저의 호라동레벨은 휴식 상태라는 것을 나타낸다. 오디오 입력부(245)는 텍스트 변환기(215) 및 오디오 분류기(210)에 스피치로 다시 인가된다. 텍스트-스피치 변환기(215)는 그 아이의 웃음에서 인식된 텍스트를 입력 파서(410)에 인가한다. 입력 파서(410)는 유저가 웃고 있다는 것을 표시하는 벡터를 발생한다. 오디오 분류기(210)는 소리의 동일 클래스를 식별한다.

비디오 이미지 분류기(240)는 휴식중이고 앉아있는 것으로 유저를 분류하고 새로운 대상들이 없고, 하나의 개인이 있다는 것을 표시한다. 이벤트/클래스 처리기(207)는 유저가 응답 발생기(415)에 대해 웃는 다는 것을 표시한다. 응답 발생기(415)는 웃음이 익살맞은 선언 또는 조크에 수발되어야 한다는 간단한 룰로 프로그램된다. 그것은 스피치 변환기(275)에 대한 텍스트에 인가하는 조크를 랜덤하게 선택한다. 그것은 텔레비젼 캐비넷 효과(television cabinet effects) 구동기(265)를 통해 동기화된 광 효과 및 에니메이션 구동기(260)을 통해 웃는 에니메이션에 의해 수반된 조크에 동기화된 에니메이션은 또한 발생한다.

도 9를 참조하면, 유저(325)와의 대화에서 유도된 데이터는 새로운 대화 데이터를 발생하기 위해 분석하고 사용된다. 유저의 말에서 변환된 스피치는 워크 "포크맨" 및 "좋아한다"를 밀접하게 포함하고 입력 파서(410)는 이것에서 식별하고 주제 "포크맨"에서 관심을 표현한다. 그것은 "포크맨"의 주제에 다른 데이터에 대한 요청을 발생하여 그 요청을 표시하는 신호를 응답 데이터 발생기(445)에 인가한다. 응답 데이터 발생기(445)는 월드 와이드 웹 사이트와 같은 리소스 데이터(450)에 교대로 링크되는 근거리망/인터넷(200)로부터 데이터를 얻는 에이젠트(205)의 실례를 생성한다. 추가 정보가 응답 데이터 저장부(440)에서 하나 이상의 응답 템플릿들의 형태로 분석 및 저장된다. 비디오 이미지 분류기(240)는 유저를 아기로서 분류하고 유저가 흥분하거나 동요되어 있다는 것을 표시한다. 이벤트/클래스 처리기(207)는 유저의 말 내용 및 대상인 "포크맨"에 관한 유저의 관심을 나타내고 심어하는 메타클래스 상태를 표시한다. 응답 발생기(415)가 응답 데이터 저장부(440)에서 "포크맨" 템플릿을 발견하자 마자, 정보를 얻은 에이젠트(205)를 포함하는 응답을 발생하고, 응답 데이터 발생기(445)에 의해 응답으로 분석 및 형성된다.

도 10을 참조하면, 대화 시뮬레이터는 유저의 슬픈 기분을 검출하고, 동정적인 응답을 발생한다. 그것은 프로파일 데이터베이스에서 선호도 데이터를 또한 사용하여 제시를 한다. 비디오 입력부(255)는 유저(345)의 얼굴을 포함하고 있다. 비디오 이미지 분류기(240)는 유저의 얼굴 표현을 슬프다고 분류한다. 유저의 대답은 슬픈 기분을 표시하는 다른 단어들은 포함하고 있다. 오디오 분류기(210)는 피치에서 약하고 낮은 것으로 유저의 음성을 분류한다. 기분/성격 분류기(290)는 이러한 분류들은 결합하여 우울한 상태인 유저의 기분의 메타클래시피케이션(metaclacsification)을 발생하고, 그것의 출력 상태 벡터는 이것을 표현한다. 응답 발생기(415)는 유저의 말의 요지를 수신하고, 기분 분류와 함께 그것에 응답하고, 동전적인 응답에 대응하는 템플릿을 발견해서 그것을 출력한다. 응답 데이터 발생기(445)는 유저에 관한 프로파일 데이터를 저장할 수 있는 데이터베이스(430)로부터 좋아하는 텔레비젼 쇼, 취미 관심과 같은 것들은 표시하는 프로파일 데이터를 이전에 수신한다. 응답시, 응답 데이터 발생기(445)는 리소스 데이터(450) 및 발생된 응답 템플릿들로부터의 전자 프로그램가이드로부터 프로그래밍 정보를 얻고, 그것은 응답 데이터 저장부(440)에 저장된다. 결과적으로, 응답 발생기는 동정적인 전술에 수반하여 유저가 좋아하는 프로그램이 오늘밤에 방송되고 있다는 것을 유저하게 상기시키는 격력하는 전술은 발생한다.

도 11에서, 단어 "포크맨"이 도 9를 참고로 논의했듯이 추출된다. 그러나, 도 9에서처럼 새로운 응답 템플릿들을 만들 목적으로 외부 데이터 소스로부터 단순히 정보를 얻는 대신에, 데이터는 데이터베이스(430)를 증가시키기위해 사용된다. 본 예에서, 데이터베이스(430)는 유저의 선호도에 따라 EPG의 내용을 필터링하고 분류하기위해 사용된다. 파서/리퀘스터(432)는 입력 파서(410)로부터 분석된 대답을 수신하고 에이젠트(205)의 실례를 선택적으로 발생하여 추가 정보를 얻는다. 에이젠트(205)는 포크맨에 관한 새로운 데이터를 복귀시키고, 이것이 분석되고, 그 일부가 데이터베이스에 부가될 수 있다. 예를 들어, 포크맨 문자들의 명칭은 에이젠트(205)에 의해 유도되고, 이 데이터는 유저가 포크맨에 대해 선호도를 갖다는 정보와 함께 데이터베이스(430)에 부가할 수 있다.

포로파일 데이터(데이터베이스(430)에 저장된 예에서)는 국부적으로 또는 원격 서버상에 저장될 수 있다. 프로파일 데이터는 새로운 템플릿들을 만드는 소스로서 뿐만 아니라 성격 분류 또는 그렇치 않으면 의인화된 응답들을 형성하는 정보의소스로서 사용될 수 있다.

응답 데이터 저장부(440)는 템플릿들로 꽉찬 데이터베이스일 수 있다. 그것들은 반드시 영구적인 템플릿들일 필요는 없다. 그들중 다수는 인터넷에서 "라이브(live)" 데이터를 얻고 새로운 템플릿들을 만드는 처리에 의해 부가될 수 있다. 응답 데이터 발생기(445)에 의해 인터넷 또는 근거리망 또는 데이터 소스로부터 추출되고, 새로운 템플릿에서 결합되는 정보는 텍스트, 링크 또는 모니터(175)상에 표시될 수 있는 그래픽과 같은 다른 종류의 데이터 정보를 포함할 수 있다.

대화 시뮬레이터의 구현된 다른 장치로 하여금 스피치 작동 오더페이스로서 그것에 의해 구동되게 된다. 예를 들어, 대화 시뮬레이터는 "새로운 포크맨 게임을 다운로드 하겠습니까？" 라고 말할 수 있고, 스피치-텍스트 변환기는 전술 "예"를 명령으로 전달할 수 있고, 그 명령은 응답 데이터 발생기(445)에 의해 얻어지는 링크를 생기게 하고, 그 링크에 액세스하는데 사용된다.

위의 예가 나타낸 바와 같이, 대화 시뮬레이션에 대해 사용된 템플릿은 대화를 통해 유저로부터 정보만을 검색하는 전적인 정보 세트로 될 필요는 없다. 오히려, 그것은 외부 소스들로부터의 정보를 사용해서 템플릿들을 실제로 만들 수 있다. 외부 소스들은 시스템의 초기화에 액세스될 수 있거나 그들이 위의 예에서 처럼 입력 파서(410)에 의해 식별된 트리거 용어들 또는 트리거 템플릿들에 의해 액세스될 수 있다. 예를 들어, 단어 "포크맨이"이 "나는 좋아한다"와 함께 문장에서 사용되는 경우, 이것은 나가서 에이전트(205)로 하여금 포크맨과 관련된 데이터 사실들에 대한 추가 정보 및 링크 등을 찾도록 하는 이벤트를 트리거한다.

비디오 이미지 분류기(240)가 비디오 정보를 수신하는 카메라(비디오 입력부(255)로 표시됨)를 제어하는 능력을 포함할 수 있다. 비디오 이미지 분류기(240)는 개인들이거나 개인들이 아닐 수 있는 방에서 대상들을 구별하고, 그러한 개인들이 여러 특징들에 관한 줌을 정규적으로 시도하는 처리를 포함할 수 있다. 예를 들어, 비디오 이미지 분류기가 새로운 개인을 식별할 때 마다, 그 이미지 분류기는 그 얼굴이 시야에 있는 곳을 식별하고, 그 개인은 식별하거나 그 개인의 기분을 식별하는데 사용될 수 있는 얼굴 표현 정보를 얻기위해 시야에서 식별된 각각의 개인의 얼굴에 정규적으로 줌을 하게 된다.

본 발명은 상술된 양호한 실시예들과 관련하여 설명되었지만, 당업자에게 명백하듯이 각종의 변화가 그 실시예들에서 이루어질 수 있고 각종의 등가물들이 발명의 사상 및 범위를 벗어남이 없이 대체될 수 있다.

Claims

유저와의 대화 상호작용을 시뮬레이팅하기 위한 대화 시뮬레이터에 있어서,

제 1, 제 2 및 제 3 유저 입력들을 수신하도록 프로그램된 제어기(100)로서, 상기 각 입력은 상기 제어기로부터의 적어도 하나의 응답에 의해 연대순으로 (chronologically) 분리된, 상기 제어기(100)와,

질의(query) 또는 명령(command)과는 구별되는 것과 같은 자연 언어 선언(nature language declaration)을 각각 포함하는 상기 제 1, 제 2 및 제 3 유저 입력들과,

상기 대응하는 응답들을 출력하기 위해 상기 제어기에 접속된 출력 장치와,

상기 제어기에 상기 제 1, 제 2 및 제 3 유저 입력들을 인가하기 위해 접속된 제 1 입력 장치, 및

상기 유저의 환경을 나타내는 환경 데이터를 수신하기 위한 적어도 하나의 제 2 입력 장치를 포함하고,

상기 제어기는 클래스 데이터를 생산하기 위해서 상기 환경 데이터에 응답하여 상기 유저의 상기 환경을 분류하도록 프로그램되어 있고,

상기 제어기(100)는 상기 제 1, 제 2 및 제 3 유저 입력들 및 상기 클래스 데이터 중 대응하는 하나에 응답하여 상기 적어도 하나의 응답을 생성하도록 프로그램되어 있는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 환경 데이터는 이미지 및 오디오 데이터 중 적어도 하나를 포함하는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 클래스 데이터는 상기 유저의 물리적인 위치(physical location)의 표시기를 포함하는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 클래스 데이터는 상기 유저의 몸체 위치(body position)의 표시기를 포함하는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 클래스 데이터는 상기 유저와는 다른 사람의 존재를 나타내는 데이터를 포함하는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 클래스 데이터는 상기 유저의 활동을 나타내는 데이터를 포함하는, 대화 시뮬레이터.
제 1 항에 있어서,

상기 제 2 입력 장치는 비디오 카메라 및 오디오 탐지기 중 적어도 하나를 포함하는, 대화 시뮬레이터.
대화 시뮬레이터에서 다이얼로그 응답을 생성하는 방법에 있어서,

유저로부터 자연 언어 선언을 수신하는 단계와,

상기 유저의 환경의 조건을 결정하는 단계와,

상기 결정하는 단계의 결과 및 상기 선언의 내용에 응답하여 상기 선언에 대한 응답을 발생시키는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 8 항에 있어서,

상기 수신하는 단계는 오디오 변환기를 통해 음성을 입력하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 8 항에 있어서,

상기 결정하는 단계는 카메라로부터의 이미지 데이터를 분류하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 8 항에 있어서,

상기 결정하는 단계는 카메라로부터의 이미지 데이터를 분류하는 단계와, 오디오 변환기로부터의 오디오 데이터를 분류하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 8 항에 있어서, 상기 결정하는 단계는,

카메라로부터의 이미지 데이터를 분류하는 단계와,

오디오 변환기로부터의 오디오 데이터를 분류하는 단계와,

상기 조건을 결정하기 위해 상기 제 1 및 제 2 분류 단계의 결과를 결합하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 12 항에 있어서,

상기 수신하는 단계는 오디오 변환기를 통해 음성을 입력하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 12 항에 있어서,

상기 결정하는 단계는 이미지 및 오디오 데이터 중 적어도 하나를 분류하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 12 항에 있어서,

상기 결정하는 단계는 입력 데이터를 분류하는 단계 및 상기 입력 데이터에 응답하여 상기 유저의 물리적인 위치를 결정하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 12 항에 있어서,

상기 결정하는 단계는 입력 데이터를 분류하는 단계 및 상기 입력 데이터에 응답하여 상기 유저의 활동을 결정하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
대화 시뮬레이터에서 다이얼로그 응답을 생성하는 방법에 있어서,

유저로부터 입력을 수신하는 단계와,

상기 유저의 환경의 조건을 결정하는 단계와,

상기 결정하는 단계의 결과 및 상기 입력의 내용에 응답하여 상기 선언에 대한 조건부 응답(conditional response)을 생성하는 단계로서, 상기 조건부 응답의 조건이 상기 결정하는 단계의 상기 결과가 되는, 다이얼로그 응답 생성 방법.
제 17 항에 있어서,

상기 결정하는 단계는 이미지 및 오디오 데이터 중 적어도 하나를 분류하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 17 항에 있어서,

상기 결정하는 단계는 입력 데이터를 분류하는 단계 및 상기 입력 데이터에응답하여 상기 유저의 물리적인 위치를 결정하는 단계를 포함하는, 다이얼로그 응답 생성 방법.
제 17 항에 있어서,

상기 결정하는 단계는 입력 데이터를 분류하는 단계 및 상기 입력 데이터에 응답하여 상기 유저의 활동을 결정하는 단계를 포함하는, 다이얼로그 응답 생성 방법.