KR20170027705A

KR20170027705A - 로봇과의 대화를 핸들링하는 방법 및 시스템

Info

Publication number: KR20170027705A
Application number: KR1020167032134A
Authority: KR
Inventors: 브루노 매이종니어; 다비드 호신; 레미 파타일롯; 가브리엘 바르비에리
Original assignee: 소프트뱅크 로보틱스 유럽
Priority date: 2014-04-17
Filing date: 2015-04-17
Publication date: 2017-03-10
Also published as: US20170125008A1; CN106663219A; BR112016023920A2; SG11201608254VA; RU2016144802A; AU2018202162A1; AU2015248796A1; HK1216407A1; JP6655552B2; RU2016144802A3; CN106663219B; AU2018202162B2; EP2933070A1; WO2015158878A1; CA2946069A1; JP2017517028A; US10008196B2; RU2668062C2; KR102054042B1; CA2946069C

Abstract

로봇과의 대화를 핸들링하는 방법 및 시스템
로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계; 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며; 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함하며. 기재된 형태는 대화 내용 및/또는 대화 음성 스킨을 수정하는 것, (예를 들어 로봇에 의해 지각되는 환경에 따라 달라지는) 대화 실행 규칙을 이용하는 것, 및 대화 내용을 수정하는 것을 포함한다.

Description

로봇과의 대화를 핸들링하는 방법 및 시스템{METHODS AND SYSTEMS OF HANDLING A DIALOG WITH A ROBOT}

이 특허는 디지털 데이터 처리 분야와 관련되며, 더 구체적으로 로봇과 인간 사용자 간 대화의 특정 맥락에서, 음성 합성 및 상호 대화를 핸들링하는 것과 관련된다.

동반자 로봇(companion robot)은 인간과 감정 관계를 쌓을 수 있다. 음성을 통한 대화 또는 대화 스킨(dialog skin)의 동적 적응이 풍부한 상호 대화(interaction)를 가능하게 할 수 있다.

음성 합성을 위한 기존 시스템은 대부분 수동적이고 균일하다: 몇 가지 옵션, 가령, 남성 또는 여성 음성 선택 외에, 음성 발생 엔진의 톤이 다소 중성적이다. 더욱이, 제공되는 응답에는 문화적 참조(cultural reference)가 부족하다. 산업용 또는 대중 시장용 음성 대답 시스템의 목적은 정교하게 보편적으로 수용되는 대답을 제공하는 것이다, 즉, 가능한 널리 이해되는 대답을 제공하는 것이다. 이는 어떠한 맥락적 및 심지어 문화 참조를 피함을 의미한다. 음성 명령어는 일반적으로 특정 맥락에 한정된다. 예를 들면, 음성 받아쓰기 소프트웨어가 독립형 소프트웨어 (가령, 워드 프로세싱 소프트웨어)의 맥락에서 사용된다. 현대의 운영 체제에 의해 점점 더 제공되는 일부 액세스 가능성 특징에 따르면, 사용자는 특정 동작(가령, 애플리케이션 런칭, 복사 및 붙여 넣기 등)을 수행하기 위해 음성 명령어를 이용할 수 있다. 이들 지정 동작은 다소 제한적이다. 이러한 시각적 또는 오디오 대화 모드는 일반적으로 수동적이다(가령, 사용자는 능동적으로 주문하고 기계가 주문을 실행한다). 최근 컴퓨터 대화 모델, 가령, 대답 시스템에서 구현되는 컴퓨터 대화 모델의 경우에도, 기계에서 사용자로 제한된 대화가 발생한다.

동반자 휴머노이드 로봇의 맥락에서, 인간 사용자와의 대화 모델은 개인 컴퓨터(및 이들의 상이한 형태)와의 대화 모델과 비교할 때 상당히 다르다. 로봇과의 인지 상호대화(cognitive interaction)가 태블릿 PC 또는 스마트 폰과의 인지 상호대화와 근본적으로 상이하다. 특히, 관련 데이터를 수집하고 로봇 또는 연결된 장치에 의해 렌더링되는 서비스를 개선할 수 있게 하는, 풍부한 대화(rich interaction)의 단서가 없을 때 로봇의 음성 합성을 변조할 수 있는 능력이 유리할 수 있다.

음성 합성(형식) 및 연관된 상호 대화(실체)를, 특히, 로봇과 인간 사용자 간 대화의 특정 맥락에서, 핸들링하는 방법 및 시스템이 요구된다.

로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계; 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며; 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함한다.

하나의 형태에서, 방법은 상기 선택된 수정된 대화 모드를 실행하는 단계를 더 포함한다.

하나의 형태에서, 수정된 대화 모드는 현재 대화의 현재 대화 내용 및 현재 대화 음성 스킨 중 적어도 하나를 수정함으로써 획득된다.

하나의 형태에서, 현재 대화 내용을 수정하는 단계는 대화 내용의 단어의 동의어를 이용하고, 대화 내용의 하나 이상의 단어의 삽입 또는 반복 또는 치환을 포함하는 구문 수정을 적용하는 단계를 포함한다.

하나의 형태에서, 현재 대화 음성 스킨을 수정하는 단계는 현재 대화 음성 스킨의 주파수, 톤, 속도 및 음높이 중 적어도 하나를 수정하는 단계를 포함한다.

하나의 형태에서, 수정된 대화 모드는 지정된 대화 모드를 활성화함으로써 획득되고, 상기 지정 대화는 하나 이상의 대화 실행 규칙에 의해 선택되며 상기 지정 대화 모드는 지정 대화 내용 및 지정 대화 음성 스킨 중 적어도 하나를 포함한다.

하나의 형태에서 대화 모드 실행 규칙은 로봇에 의해 지각되는 환경에 따라 달라진다.

하나의 형태에서, 대화 모드 실행 규칙은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호 대화 히스토리, 사용자 선호, 로봇 및/또는 사용자의 공간 변위, 로봇 및/또는 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터를 포함한다.

하나의 형태에서, 대화 모드 실행 규칙은 인터넷으로부터 동적으로 불러와 지거나 및/또는 사용자-구성 가능하다.

하나의 형태에서, 하나 이상의 대화 내용 또는 이의 선택은 하나 이상의 필터의 적용에 의해 수정되며, 상기 필터는 하나 이상의 단어의 블랙리스트, 하나 이상의 단어의 화이트리스트, 및/또는 대화 모드 실행 규칙을 포함한다.

하나의 형태에서, 대화 내용 및/또는 대화 음성 스킨이 음성 명령어 또는 사용자 요청에 의해 선택된다.

하나의 형태에서, 상기 방법은 소실 대화 모드를 식별하는 단계, 사용자와의 대화 동안 로봇에서 상기 소실 대화 모드를 불러오고 설치하는 단계를 더 포함한다. 하나의 형태에서, 상기 방법은 선택된 대화 모드를 실행하기 전에 사용자의 확인을 수신하는 단계를 더 포함한다. 하나의 형태에서, 상기 방법은 수정된 대화 모드의 실행 후 사용자의 피드백을 수신하는 단계를 더 포함한다. 하나의 형태에서, 방법의 단계들은 반복될 수 있다(가령, 대화 모드가 더 수정될 수 있다).

적합한 컴퓨터 장치 또는 로봇 장치 상에서 실행될 때 방법의 하나 이상의 단계를 수행하기 위한 명령을 포함하는 컴퓨터 프로그램이 개시된다. 방법의 하나 이상의 단계들을 수행하기에 적합한 수단을 포함하는 시스템이 개시된다.

일반적으로 동반자 로봇(companion)이 멀티모드이다. 음성 대화가 개인 컴퓨터 및 이의 쇠퇴와 대조적으로 로봇을 특징화하는 운동과 함께 사용자와의 상호 대화의 핵심 부분을 구성한다. 사용자와 로봇 간 대화가 상호대화를 보강 또는 개인화하며 사용자 경험을 세밀하게 개선한다. 하나의 실시예에서, 로봇은 이의 대화 모드의 적응을 통해 현재 지각되는 맥락에 스스로를 적응시킨다. 예를 들어 로봇은 외국인에게 "Mister"라고 말하거나 개인의 성을 이용할 수 있고, 과거에 허용된 바가 있는 경우, 사용자 및/또는 상황에 따라 더 또는 덜 공식적으로 말할 수 있다. 또한 특정 단어가 사용자, 히스토리, 피드백, 기분, 위치, 날짜 및 시각(예시)에 따라 필터링될 수 있다. 사람이 문장을 이해하지 못할 때, 요청된 대로 또는 스스로의 계획에 따라 로봇은 천천히 반복하거나 및/또는 동의어로 반복할 수 있다. 또한 로봇은 사용자의 기분을 향상시키기 위해 사용자의 선호도(어느 단어를 사용하여 천천히 말할지 또는 빨리 말할지)를 학습할 수 있다.

바람직하게는, 로봇은 언어 범위를 구현할 수 있으며, 각각의 로봇을 고유하게 만들고, 긍정적인 감정을 시작하며, 따라서 인간과 로봇의 관계를 강화시킬 수 있다.

바람직하게는, 일부 실시예에 따라, 인간-기계 대화가 능동적이며 더는 수동적이지 않다: 인간 관점에서 로봇은 임의의 계획을 가질 수 있다(가령, 로봇이 명확화 목적으로 질문을 할 수 있다). 덧붙여, 개인화된 또는 그 밖의 다른 방시긍로 관련되는 방식으로 표현되는 적응된 대화 내용 또는 패턴을 이용해, 인간-기계 상호 대화이 더 최적화된다.

바람직하게는, 상호 대화의 대화 모드(conversational mode)에 의해, 사용자와의 더 "친밀한" "관계", 적어도 더 "자연스러운" 상호 대화이 가능해진다. 이러한 더 우수한 사용자 경험이 기계에 의한 인간 사용자의 증가된 "이해"를 이끌 가능성이 높다. 관련 음성 스킨 및/또는 대화 문장에 의해 전달되고 보강되는 기계와의 연관된 "근접성"이 사용자로부터의 그리고 사용자에 대한 데이터의 수집을 촉진시킬 수 있다. 사용자와 로봇 모두 더 "표현적(expressive)"일 수 있다. 용어 "표현성(expressivity)"은 인간-기계 상호 대화이 (더) 자연스럽기 때문에, 사용자는 더 많은 데이터를 로봇에게 전달하며, 그 후 로봇은 사용자에 대한 더 많은 데이터를 알고 저장할 수 있어서, 추가 상호 대화을 풍부하게 만드는 선순환을 발생시킨다. 이는 개인 컴퓨터의 경우에는 해당되지 않는다. 태블릿(tablet)이 가령, 퀴즈 또는 문제의 형태로 음성 합성으로 "질문"을 하려 시도할 수 있지만, 태블릿이 (자율적으로) 스스로 이동하고 물체를 이동시키거나, 인간을 따르는 "동반자"로 여겨지지 않기 때문에, 잔류 바이어스가 존재할 것이다. 캡처될 수 있는 데이터의 양이 동반자 로봇과 비교될 때 더 작을 것이다. 동반자 로봇은 재밌는 또는 그 밖의 다른 방식으로 관련성 있는 음성 스킨 또는 대화 패턴을 이용해 데이터를 캡처할 수 있는 능력을 보강할 수 있다.

사용자에 대해 능동적으로 또는 수동적으로 수집되는 정보(가령, 사용자 프로파일링 또는 사용자가 선언한 선호)가 상태를 런칭하기 위한 입력으로 사용될 수 있다(가령, 음성 스킨 또는 대화 패턴은 사용자가 "Bienvenue chez les Ch'tis"를 선호하는 경우에만 런칭되어야 한다). 머신 러닝 메커니즘이 수행될 수 있다: 시스템에 의해 런칭되거나 실행되는 음성 스킨 또는 대화 패턴이 사용자에 대해 학습되는 바에 따라 전개될 것이다.

본 발명의 실시예가 첨부된 도면을 참조하여 예시로서 기재될 것이며, 여기서 유사한 도면부호가 유사한 요소를 지칭하며, 이때:
도 1은 본 발명의 전역적 기술적 환경을 도시한다.
도 2는 방법의 실시예의 일부 양태를 상세히 도시한다.

"대화(dialog)"는 사전 조립된 문장을 포함한다. 대화는 사전 조립된 문장, 가령, 질문에 대한 응답의 모음이다. 복수의 질문에 대한 예상 응답이 하나의 대화를 구성한다.

"대화 모드(dialog mode)"는 계획된 문장의 실체("대화 패턴" 및 "대화 내용")와 형식("음성 스킨" 또는 "음성 렌더링") 모두에 영향을 미치는 하나 이상의 수정 동작을 포함한다. 다시 말하면, "대화 모드"는 실체적 측면(가령, 메시지가 전달하는 사실 내용 또는 정보) 및 형식적 측면(가령, 구어체의 표현성 또는 감정 또는 톤)과 연관된다. 대화 모드는 다운로드 가능한 소프트웨어 프로그램으로 구현될 수 있고, 상기 프로그램은 적합한 로봇 장치 상에서 실행될 때 상기 로봇 장치로 하여금 프로그램된 대화 모드(대화 내용 및/또는 음성 스킨)를 포함하는 특정 물리적 동작을 수행하게 하는 명령을 포함한다. 소프트웨어 프로그램은 "확장 모듈" 또는 "플러그-인" 또는 "애드-온(add-on)"으로서 제공될 수 있다. 추가 대화 모드는 로봇의 디폴트 대화 내용 및 음성 스킨에 조합, 추가, 또는 대체될 수 있다. 하나의 실시예에서, 대화 모드는 로봇에 설치되는 그 밖의 다른 소프트웨어 애플리케이션을 위한 서비스라고 지칭될 수 있다. 예를 들어, 날씨 애플리케이션이 특정 맥락에서(가령, 보름달에) 다스 베이더(Dark Vador)의 음성을 이용할 수 있다. 대화 모드 및/또는 연관된 실행 규칙이 네트워크를 통해 액세스되거나 로컬하게 액세스될 수 있다. 일부 실시예에서, 이들은 네트워크로의 액세스 및 원격 지식 베이스(knowledge base)에 의해 보충된다.

"대화 내용" 또는 "대화 패턴" 또는 "대화 주제"가 지정 문장의 모음을 지칭하며, 문장은 질문 및 가령, 특정 테마 또는 주제 또는 관심 영역에 대한 (예상 또는 예측된 또는 가능한) 대답에 대응한다(그러나 반드시 그런 것은 아니지만, 일반적인 범위의 문장이 고려될 수 있다). 구문 변형이 로봇에 설치된 기존 대화 내용의 실체를 변경할 수 있다(가령, 최상급 표현, 가령, '수퍼(super)'의 삽입, 단어의 반복 등). 대화 내용 또는 패턴이 검열될 특정 단어(가령, 양자 택일 또는 확률이나 임계치에 따라 결정된 단어의 사용이 금지될 수 있음)를 얻을 수 있고, 그 밖의 다른 단어가 허용되거나 일부 단어의 사용이 권장될 수 있다(편향). 구체적으로 대화 내용 또는 패턴이 실질적 내용 및 그 밖의 다른 문화적 참조를 포함(또는 수정된 경우, 추가)할 수 있다. 단어의 선택은 맥락에 따라 달라질 수 있고 암시나 문화적 참조를 포함할 수 있다. 따라서 대화는 하나 이상의 대화 콘텐츠(문장으로 구성된 사전 조립된 대화)를 포함한다. 예를 들어, 단지 상업적 명칭 대신, 게임 애플리케이션은 로봇에 의해 "새와 녹색 돼지의 게임" 또는 "타깃으로 새를 던져야 하는 게임"이라고 알려질 수 있다. 문장, 가능한 질문 및 대답으로 구성된 이들 메타-설명(meta-description)이 대화 내용을 구성한다. 이러한 대화 내용은 로봇이 사용자와 대화할 수 있게 한다. 예를 들어, 사용자가 "새와 놀고 싶다(I would like to play with the birds)"라고 요청한 경우, 로봇은 "놀고 싶은 것이 실제 새인지 또는 가상의 새인지"라고 더 질문할 수 있다. 사용자가 "가상의 새"라고 응답하는 경우, 로봇은 "그렇다면 게임을 하고 싶은 건가?"라고 확인을 위해 질문할 수 있다. 사용자가 "예"라고 응답하는 경우, 로봇은 여전히 추가 확인을 요청할 수 있는데, 가령, "나한테 새를 녹색 돼지를 향해 던지는 게임이 있다"라고 질문할 수 있다.

"대화 스킨" 또는 "음성 스킨"은 오디오 렌더링 수정을 지칭한다. 이러한 오디오 렌더링 수정이 "형식"(가령, 주파수, 속도, 음높이 및 톤)에 영향을 미친다. 다시 말하면, 대화 스킨의 적용이 기본적인 사전 조립된 문장을 수정하지 않고 로봇의 표현성을 근본적으로 변경할 수 있다. 로봇과의 음성 대화의 수정의 영향이 서로 다른 레벨에서, 가령, 내용별(실체) 및/또는 형식(톤 등)으로 평가될 수 있다. 음성 스킨은 특정 음성을 모방하기 위한 파라미터를 포함할 수 있다. 음성 파라미터의 다양성이 음성 합성을 관리하도록 핸들링될 수 있다. 음성 파라미터는 주파수(로봇이 더 고음 또는 저음으로 말할지 여부를 결정), 속도(로봇이 말하는 속도), 톤(예를 들어, 배우 실베스터 스텔론과 배역 마스터 요다가 동일한 속도 및 주파수로 말하는 경우, 동일한 톤을 갖지 않는다). 하나의 실시예에서, 사용자는 자신의 동반자 로봇이 마스터 요다 또는 실베스터 스텔론 처럼 말할 것을 요구할 수 있다. 지정된 값으로 음성 파라미터를 적절하게 수정함으로써, 근접한 결과가 획득될 수 있다. "즉석" 모방은 그럴듯하며(오디오 발췌를 기록, 파라미터 추론 및 관련 수정을 적용) 로봇이 하나 이상의 사용자를 모방할 수 있게 한다. 하나의 실시예에서, 복수의 음성 스킨이 조합될 수 있다. 일부 음성 스킨이 조합에 호환되지 않을 수 있다(상호 배타적). 그 밖의 다른 일부 음성 스킨은 어느 정도까지 조합될 수 있다. 그 밖의 다른 일부 음성 스킨은 첨가적일 수 있다.

"대화 실행 규칙"이 하나 이상의 음성 스킨 및/또는 대화 내용 또는 패턴의 적용을 통제하는 실행 규칙을 지칭한다. "실행 규칙"은 스크립트, 프로그램 코드 또는 그 밖의 다른 경우 로봇이 말할 수 있는 구문을 적응(어휘, 문장의 종료 전에 또는 종료 시에 일부 표현의 추가 등)시킬 수 있는 부울 표현(Boolean expression) 또는 로직 규칙을 포함할 수 있다. (가령, 로봇이 질문에 대답하거나 상황을 명확화하려 시도하는 중이기 때문에) 로봇이 인간 사용자에게 무엇인가 말하려고 할 때마다, 로봇의 계획된 문장이 하나 또는 복수의 대화 실행 스킨 규칙에 매칭되는 경우, 문장은 이들 규칙에 따라 수정될 것이고 따라서 로봇이 이를 말할 것이다. 하나의 실시예에서, 하나 이상의 대화 실행 규칙이 하나 이상의 문장(즉, 로봇에 의해 말해지도록 계획된 문장)에 적용될 수 있다. 하나의 실시예에서, 상기 규칙은 로봇에 의해 말해질 각각의 문장에 적용될 수 있다. 하나의 실시예에서, 규칙은 문장의 서브세트, 가령, 지정 단어 또는 표현을 포함하는 것에 적용될 수 있다. 대화 실행 규칙이 지정될 수 있다. 대화 실행 규칙은 또한 인터넷으로부터 동적으로 불러와질 수 있다. 일부 규칙이 상호 배타적일 수 있는 동안 다른 일부 규칙은 추가될 수 있다. 예를 들어, 실행 규칙은 연령 제한을 포함(가령, 인코딩)할 수 있다. 누적 실행 규칙이 사용 또는 적용될 수 있다. 예를 들어, 12세 초과 사용자 앞에서 및/또는 특정 상황(시간대,측정된 청자의 감정 등)에 따라 특정 음성 스킨이 인가될 수 있다. 일부 실행 규칙이 사용자에 의해(가령, 부모 제어) 설정될 수 있다.

예를 들어, 문장 "나는 지금 춤을 출 수 있다"는 (로봇 메모리에 써진) 표준 지정 구문에 대응한다. "나는 지금 춤을 출 수 있다 hein biloute"는 "Ch'tis"라고 불리는 대화 패턴의 적용 후 로봇에 의해 표현되는 구문에 대응한다. 오디오 렌더링 또는 음성 스킨 "Ch'tis"는 (선택사항으로서) 적절한 소리 변조를 더 제공할 수 있다. 형식 및 실체가 다양하게 수정될 수 있다: 특정 악센트 또는 억양(가령, 북 프랑스 형식)이 추가될 수 있고, 로봇에 의해 사용되는 어휘가 풍부해질 수 있으며, 새 대화 주제(가령, 질문 및 대답의 모델)가 추가될 수 있다.

대화 모드(대화 내용 및/또는 대화 스킨)가 소프트웨어 편집자에 의해 정의 또는 프로그램될 수 있는 소프트웨어 패키지로 구현될 수 있다. 이러한 소프트웨어는 수정 가능하거나 그렇지 않을 수 있다. 다시 말하면, 대화 모드(가령, 음성 피부)가 완전히 결정될 수 있다(가령, 어떠한 추가 파라미터화도 공식적으로 허용될 수 없다). 대안적으로, 대화 모드가 부분적으로만 결정될 수 있다. 예를 들어, 일부(가령, 유한 개수의) 로컬 파라미터가 최종 사용자의 제어 하에서 유지될 수 있지만, (가령, 음성 스킨의 전체 무결성을 유지하기 위해) 대부분의 설정이 변경되지 않을 수 있다.

다시 말하면, 소프트웨어 애플리케이션은, 문자적 의미 이상으로, 대화 내용(가령, 지정 문장의 집합, 가령, 예상되는 질문에 대한 응답) 및/또는 대화 스킨(대화 내용외에, 즉, 실행 규칙, 가령, 환경, 머리의 운동과 동기화, 조명의 활성화의 기능으로서 적응 프로그래밍) 및 이의 조합(가령, 춤추면서 대화하기)일 수 있다(연관될 수 있다). 소프트웨어 애플리케이션들은 상호의존적일 수 있다. 멀티모드 출력의 결과로서, 소프트웨어 애플리케이션은 더 조합될 수 있다(출력 레벨에서 또는 더 낮은 레벨에서, 가령, 변수 또는 파라미터 또는 스크립트가 소프트웨어 애플리케이션들 간에 공유되거나 수정될 수 있다). 예를 들어, 로봇은 외부가 춥다는 것을 상징하는 제스처들의 조합과 함께 "외부는 -10°C이다"라고 말할 수 있다.

소프트웨어 애플리케이션은, 즉, 사용자와의 ("자연스러운(natural)") 대화의 동작 과정 중에 대화 인터페이스를 통해 사용자에게 표시될 수 있다. 다시 말하면, 대화 시스템은 사용자가 하나 이상의 애플리케이션을 런칭 또는 실행할 때 "병목"과 같이 동작할 수 있다.

도 1은 본 발명의 전역적 기술적 환경을 도시한다. 로봇(130)은 센서 및 액추에이터를 포함한다. 로직 또는 "마인드"(100)이 로봇 내에서 구현되거나 (예를 들어 원격으로) 로봇과 연관되며 소프트웨어(110) 및 하드웨어 구성요소(120)의 모음을 포함한다. 로봇(130)은 (양방향 통신(140), 가령, 하나 이상의 대화 세션을 통해) 하나 이상의 사용자(150)와 대화한다. 상기 하나 이상의 사용자는 (서버의 클라우드 및/또는 다른 로봇 또는 연결된 객체 무리와 통신하는 등) 연결된 장치일 수 있는 다른 컴퓨팅 장치(160)(가령, 개인 컴퓨터, 가령, 웨어러블 컴퓨터 또는 스마트폰 또는 태블릿)를 액세스할 수 있다. 특히, 연결된 장치는 웨어러블 컴퓨터(가령, 시계, 안경, 몰입형 헬멧(immersive helmet) 등)일 수 있다.

도면 상의 특정 로봇(130)이 본 발명이 구현될 수 있는 휴머노이드 로봇의 예시로서 간주된다. 도면 상의 로봇의 하지는 보행 기능을 하지 않고, 표면 상에서 구르는 베이스를 갖고 임의의 방향으로 이동할 수 있다. 본 발명은 보행에 적합한 로봇에서 쉽게 구현될 수 있다.

본 발명의 일부 실시예에서, 로봇은 다양한 유형의 센서를 포함할 수 있다. 이들 중 일부가 로봇의 위치 및 운동을 제어하도록 사용된다. 이는, 예를 들어, 로봇의 몸통에 위치하는 관성 유닛(inertial unit)이 3축 자이로미터 및 3축 가속도계를 포함하는 경우이다. 로봇은 또한 자신의 이마 상에 (상부 및 하부) 2개의 2D 컬러 RGB 카메라를 포함할 수 있다. 또한 3D 센서가 로봇의 눈 뒤에 포함될 수 있다. 상기 로봇은 또한 선택사항으로서, 예를 들어, 머리 및 이의 베이스에 레이저 라인 생성기를 포함하여, 주위에 존재하는 물체/생물체에 대한 자신의 상대적 위치를 감지할 수 있다. 로봇은 또한 주위의 소리를 감지할 수 있는 마이크로폰을 포함할 수 있다. 본 발명의 로봇은 또한, 자신의 베이스의 전면 및 후면에 위치할 수 있는 초음파 센서를 더 포함하여, 주위의 물체/인간까지의 거리를 측정할 수 있다. 로봇은 자신의 머리와 손 상에 촉각 센서(tactile sensor)를 더 포함하여, 인간과의 대화를 가능하게 할 수 있다. 로봇은 자신의 베이스 상에 범퍼를 더 포함하여 로봇이 자신의 경로 중에 마주치는 장애물을 감지할 수 있다. 로봇의 감정을 해석하고 주위 인간과 소통하기 위해, 본 발명의 로봇은, 가령, 로봇의 눈, 귀, 및 어깨에 LED와 (가령, 귀에 위치하는) 확성기를 더 포함할 수 있다. 로봇은 기지국, 그 밖의 다른 연결된 장치, 또는 그 밖의 다른 로봇과 다양한 네트워크(3G, 4G/LTE, Wifi, BLE, 메시(mesh) 등)를 통해 통신할 수 있다. 로봇은 배터리 또는 에너지 공급원을 포함한다. 상기 로봇은 자신이 포함하는 배터리의 유형에 적합한 충전 스테이션을 액세스할 수 있다. 로봇의 위치/운동이 센서의 측정 관점에서, 각 사지와 각 사지의 끝부분에서 형성된 효과기(effector)에 의해 형성된 체인을 활성화하는 알고리즘을 이용해 이의 모터에 의해 제어된다.

특정 실시예에서, 본 발명의 로봇은 메시지(오디오, 비디오, 웹 페이지)를 이의 주위 환경으로 통신하거나, 태블릿의 촉각 인터페이스를 통해 사용자로부터의 입력 값을 수신할 수 있는 태블릿을 가진다. 또 다른 실시예에서, 로봇은 스크린을 내장하거나 제공하지 않고, 데이터 또는 정보가 로봇 근방의 표면 상에 영사될 수 있도록 하는 비디오 영사기를 가진다. 상기 표면은 평면이거나(가령, 바닥) 평면이 아닐 수 있다(가령, 영사 표면의 왜곡이 보상되어 충분히 평면인 영사가 획득될 수 있다). 두 실시예 모두(스크린 및/또는 영상기를 갖는 실시예), 본 발명의 실시예가 유효하다: 본 발명의 대화 모델이 시각 대화 수단에 의해 보충 또는 보완된다. 어느 경우라도, 그래픽 수단이 고장나거나 비활성화될 경우, 종래의 대화 모드가 유지된다.

하나의 실시예에서, 로봇은 이러한 그래픽 사용자 인터페이스 수단을 포함하지 않는다. 기존 휴머노이드 로봇에는 일반적으로 진보된 음성 능력이 제공되지만, GUI는 제공되지 않는다. 점점 더 많은 수의 사용자가 선택적으로 및/또는 필수적으로(어린이, 장애인, 실시 상황 등 때문에) 로봇과 통신하기 위해 그래픽 수단(가령, 태블릿, 스마트폰)을 - 심지어 보조도구로서도 - 사용하지 않을 것이다.

소프트웨어(110)의 모음(전부는 아니지만)은 서로 대화하는 소프트웨어 모듈 또는 객체 또는 소프트웨어 코드 부분, 가령, "추출기(extractor)"(111), "활동 제안"(112), "마인드 우선순위화"(113), "패키지 관리자"(114), "사용자 히스토리 데이터"(115), "집중 자율 활동"(116) 및 "집중 대화 주제"(117) 및 "건강 모니터링 서비스"(118)을 포함한다.

일반적으로 "추출기 서비스"(111)는 로봇의 내부 또는 외부에 있는 무언가를 감지 또는 지각하고 로봇의 메모리로 단기 데이터를 제공한다. 추출기 서비스는 로봇 센서로부터 입력 판독물을 수신하며, 이들 센서 판독물이 사전처리되어, 로봇의 위치, 주위 물체/인간의 신원, 상기 물체/인간의 거리,인간이 발음한 단어 또는 감정과 관련된 데이터를 추출할 수 있다. 추출기 서비스는, 특히, 안면 인식, 인간 지각, 체결 구역(engagement zone), 손 흔듦 검출(waving detection), 미소 검출, 시선 검출, 감정 검출, 음성 분석, 음성 인식, 소리 위치 찾기, 운동 검출, 파노라마 나침반, 로봇 포즈, 로봇 건강 진단, 배터리, QR 코드 핸들링, 홈 자동화, 부족(tribe), 시각 및 스케줄을 포함한다.

"액추에이터 서비스"에 의해 로봇(130)이 동작을 물리적으로 수행할 수 있다. 모션 추적기, LED, 행동 관리자가 "액추에이터 서비스"이다.

"데이터 서비스"가 장기 저장된 데이터를 제공한다. 데이터 서비스의 예시는 사용자 데이터 및 로봇에 의해 수행된 것의 히스토리를 저장하는 사용자 세션 서비스(115), 및 하이 레벨 정의, 런칭 조건 및 태그를 갖고 로봇에 의해 실행되는 절차의 확장 가능한 저장소를 제공하는 패키지 관리자 서비스(114)이다. 특히, "패키지 관리자"는 활동 및 대화, 및 매니페스트(Manifest)의 확장 가능한 저장소를 제공한다. "매니페스트"은 메타데이터, 가령, 런칭 조건, 태그 및 하이 레벨 기술을 포함한다.

"마인드 서비스"(가령, 서비스 마인드 우선순위화(113))는 로봇이 동작을 개시할 때 로봇의 중앙 "마인드"에 의해 제어될 것들이다. "마인드 서비스"는 "액추에이터 서비스"(130), "추출기 서비스"(111) 및 "데이터 서비스"(115)를 함께 묶는다. 기본 의식이 "마인드 서비스"이다. 이는 "추출기 서비스", 가령, 사람 지각, 운동 검출, 및 소리 위치 찾기를 이용해 모션 서비스에게 움직일 것을 명령할 수 있다. "마인드"(113)가 상황을 기초로 기본 의식(Basic Awareness)의 행동을 구성한다. 그 밖의 다른 때, 기본 의식은 스스로 동작하거나, 러닝 활동(Running Activity)에 의해 설정된다.

"자율 생활부(Autonomous Life)"는 마인드 서비스이다. 이는 행동 활동을 실행한다. 상황의 맥락을 기초로, 마인드부(Mind)는 자율 생활 부에게 집중할 활동("집중 자율 활동"(116))이 무엇인지를 알려줄 수 있다. 매니페스트의 메타데이터가 이 정보를 마인드 부로 연결한다. 임의의 활동이 운영 체제 API 중 하나 이상을 액세스할 수 있다. 활동부가 집중할 활동을 자율 생활부에게 직접 말하거나, 집중할 주제를 대화 서비스에게 말할 수 있다.

"대화" 서비스는 마인드 서비스로서 구성될 수 있다. 이는 음성 인식 추출기를 이용하고 말하기 위해 "애니메이션된 음성 액추에이터 서비스"를 이용할 수 있다. 상황 맥락을 기초로, 마인드부가 집중할 주제("대화 주제(Dialog Topic)")를 대화부(Dialog)에게 말할 수 있다. "대화" 서비스는 또한 대화를 관리하기 위한 알고리즘을 가지며, 일반적으로 스스로 동작한다. 대화 서비스의 한 가지 구성요소는 "집중 대화 주제" 서비스(117)일 수 있다. 프로그램에 따라 대화 주제는 언제라도 상이한 활동 또는 대화 주제로 초점을 전환하도록 마인드에게 말할 수 있다. 대화 주제를 결정하기 위한 가능한 방법의 한 가지 예시는 다음을 포함할 수 있다: 대화 주제 또는 활동의 런칭 조건이 참 또는 거짓이 되는 순간, 순간에 대한 모든 가능한 활동 또는 대화 주제의 목록이 마인드부로 전송되며, 목록은 활동 우선순위화에 따라 필터링되고, 목록 순서가 랜덤화되며, 목록이 정렬(또는 점수 부여)되어 "고유"하며 덜 빈번하게 시작되는 활동 또는 대화 주제에 우선순위를 부여하고, 이 목록의 상위 대화 주제 또는 활동이 실행된 이전 활동과 동일한 활동이 아님을 확실시하기 위해 특수 체크가 이뤄진다. 목록은 사용자의 선호에 따라 다시 정렬되고 필터링될 수 있다.

로봇이 "건강 모니터링" 서비스(118)를 구현할 수 있다. 이러한 서비스는 데이몬(daemon) 또는 "와치독(watchdog)"으로서 동작하여, 로봇의 서로 다른 우선순위를 검토 또는 제어 또는 규정할 수 있다. 이러한 서비스는 (연속적으로, 간헐적으로 또는 주기적으로) 로봇의 내부 구성요소의 상태를 모니터링하고 하드웨어 고장을 측정 또는 예상 또는 예측 또는 수정할 수 있다. 하나의 형태에서, 로봇의 플릿(fleet)(가령, 설치된 베이스)이 모니터링된다. 내장된 서비스가 연속으로 오류 상황을 검출하고 (예를 들어 1분마다) "클라우드" 서비스와 동기화시킬 수 있다.

하드웨어 구성요소(120)는 처리 수단(121), 메모리 수단(122), 입/출력 I/O 수단(123), 대량 저장 수단(124) 및 네트워크 액세스 수단(125)을 포함하고, 상기 수단은 서로 대화한다(캐싱, 스와핑, 분산 컴퓨팅, 로드 밸런싱 등). 처리 수단(121)은 CPU(멀티코어 또는 매니코어(manycore)) 또는 FPGA일 수 있다. 메모리 수단(122)는 플래시 메모리 또는 랜덤 액세스 메모리 중 하나 이상을 포함한다. I/O 수단(123)은 스크린(가령, 터치 스크린), 조명 또는 LED, 햅틱 피드백, 가상 키보드, 마우스, 트랙볼, 조이스틱 또는 영사기(가령, 레이저 영사기) 중 하나 이상을 포함할 수 있다. 저장 수단(124)은 하드 드라이브 또는 SSD 중 하나 이상을 포함할 수 있다. 네트워크 액세스 수단은 하나 이상의 네트워크, 가령, 3G, 4G/LTE, Wifi, BLE 또는 메시 네트워크로의 액세스를 제공할 수 있다. 네트워크 트래픽은 암호화될 수 있다(가령, 터널, SSL 등).

하나의 실시예에서, 컴퓨팅 자원(계산부, 메모리, I/O 수단, 저장부 및 연결부)이, 예를 들어, (로봇 자체에서 이용 가능한) 로컬 자원의 보조로서 원격으로 액세스될 수 있다. 예를 들어, 추가 CPU 유닛이 음성 인식 컴퓨팅 작업을 위한 클라우드를 통해 액세스될 수 있다. 컴퓨팅 자원이 또한 공유될 수 있다. 특히, 복수의 로봇이 자원을 공유할 수 있다. 로봇 근방의 연결된 장치가 또한, 가령, 보안 프로토콜을 통해 어느 정도까지 자원을 공유할 수 있다. 디스플레이 수단이 또한 공유될 수 있다. 예를 들어, 텔레비전이 로봇에 의해 추가 디스플레이로서 사용될 수 있다.

도 2는 방법의 실시예의 일부 양태를 상세히 도시한다. 로봇(130)은 인간 사용자(150)와 상호 대화한다(가령, 대화(dialog), 제스처(gesture), 명령어(command)). 상호 대화의 일부분은 문장(대답, 질문, 주문, 주장, 코멘트 등)을 포함하는 대화(140)이다. 일반적으로 로봇은 자신의 디폴트 표준 음성 스킨(형식)을 이용하고 표준적이며 지정된 대화 내용(실체)을 출력한다. 예를 들어, 로봇은 대화 문장(141)을 말한다. 특정 파라미터(사용자 요청 또는 환경 파라미터)에 따라, 로봇은 또 다른 음성 스킨 및/또는 또 다른 대화 콘텐츠, 가령, (142)로 전환할 수 있다. 로봇은 또한 초기 또는 디폴트 음성으로 다시 전환될 수 있다. 더 구체적으로, 디폴트 음성 스킨 및 대화 내용(200)(또는 초기/수정된 음성 스킨 및/또는 수정된 대화 내용)으로 시작하여, 대화 실행 규칙(220)이 대화가 수정될지 여부 및 어느 정도까지 수정될지를 결정한다.

대화 실행 규칙(220)이 예를 들어, 사용자 요청(221)에 의해 및/또는 (예를 들어, 센서 또는 로봇을 통해 결정되거나, 추출기에 의해 필터링되거나, 로봇의 마인드(Mind)에 구현된 로직에 관해 기재된 실시예에 따르는) 지각된 환경(222)에 의해 영향 받거나 결정된다. 예를 들어, 환경 파라미터는, 근접한 곳의 한 명 이상의 사용자의 연령 그룹(아이, 성인), 근접한 곳의 한 명 이상의 사용자의 성별, 근접한 곳의 사용자의 총 명수, 현재 위치, 현재 날짜 및 시각, 한 명 이상의 사용자의 현재 기분(가령, 미소지음, 웃기, 울기 등)을 포함한다. 사용자 요청(221)은 새로운 대화 모드의 활성화의 "요구(on demand)" 모드에 대응한다(예를 들어 사용자는 "즉시 다스 베이더를 흉내내라"라고 말할 수 있다). 지각된 환경을 통한 결정이 새 대화 모드의 활성화의 "자동 트리거" 모드를 강조한다. 로봇은 사전적으로(proactively) 대화 모드의 하나 이상의 파라미터를 활성화 또는 비활성화할 수 있다(음성 스킨을 감쇠 또는 과장하고, 대화 내용을 적응시키는 등). 2개의 활성화 모드(또는 비활성화 모드)가 조합될 수 있다, 즉, 사용자 요청에 의해 부분적으로 그리고 환경에 의해 부분적으로 새 대화 모드의 트리거가 결정될 수 있다. 예를 들어, 사용자 요청이 있으면, 환경 파라미터가 대화 모드의 변화를 확인 또는 금지할 수 있다. 또는, 자동 스위치가 활성화되도록 사용자에 의한 확인 또는 인가를 필요로 할 수 있다. 일반적으로 대화 모드는 어느 때라도 활성화 또는 비활성화될 수 있다. 하나의 실시예에서, 로봇은 복수의 대화 모드를 오고 갈 수 있다. 선택사항으로서, (사용자 포화 상태를 피하거나 로봇이 제정신이 아니라는 인상을 주기 위해) 변경 횟수의 제한이 구현될 수 있다.

대화 실행 규칙(220)이 실체 및/또는 형식에 대해 작용하며, 이는 독립적으로 핸들링된다. 규칙이 새로운 대화 내용(210)(예를 들어, 잘 알려진 문장을 표현함으로써 영화 언급)의 로딩을 결정하고, 오디오 렌더링 변경(230)을 제어할 수 있다. 어떠한 대화 콘텐츠도 선택되지 않는 경우(211)라도, 새 음성 스킨이 적용될 수 있다(230). 새로운 또는 수정된 대화 콘텐츠가 또한 새로운 음성 스킨(231) 없이 적용될 수 있다. 결정된 파라미터가 대화 모드에 적용된다(또는 새로운 대화 모드가 로딩되거나 롭소에 의해 사용되는 현재 대화 모드에 치환된다). 예를 들어, "Ch'tis"라고 불리는 대화 모드가 적용되며 문장(142)이 발음된다. 전체적으로 또는 부분적으로, 대화 내용 및/또는 음성 스킨 파라미터가 인터넷 또는 클라우드(223)로부터 불러와질 수 있다.

대화 모드의 예시(구체적으로 대화 내용 및 음성 스킨)가 지금부터 기재된다.

하나의 실시예에서, "유틸리티" 대화 모드(가령, 대화 내용의 수정)는 하나 이상의 사전(또는 관련어 사전(thesaurus))을 이용하여 로봇이 특정 문장을 여러 다른 방식으로 말할 수 있다. 예를 들어, 동의어가 사용될 수 있다. 바람직하게는, 이러한 실시예가 로봇이 단어를 반복하는 것을 피하게 한다. (사전 조립된 대화 문장을 편집하는) 언어학자가 많은 대화 내용 또는 주제를 기입하여, 로봇이 많은 것들에 대해 말할 수 있게 할 수 있다. 인간이 여러 다른 단어를 함께 사용할 때 동의어의 사용이 로봇의 표현의 다양성을 증가시킨다. 대화 모드가 대화 문장을 상이하게 만들 수 있다, 예를 들어, "the weather is nice today"를 반복하는 대신, 로봇은 "the weather is lovely today"를 말할 수 있을 것이다.

하나의 실시예에서, "로컬" 적응화는 복수의 파라미터, 가령, 지리적 위치(geolocation)에 따라 대화 내용 및/또는 음성 스킨을 커스텀화 또는 개인화할 수 있다. 예를 들어, 일부 지리적 영토의 일부 언어적 특징 - 가령, 로봇이 상용화될 경우 - 이 적절한 음성 스킨의 적용에 의해 핸들링될 수 있다. 이러한 실시예에서, 특정 단어의 발음이, 가령, 지리적 위치를 기초로 적응될 수 있다. 예를 들어, 음성 스킨의 트리거링 조건이 지리적 위치 파라미터를 포함할 수 있다. 실제로, 프랑스 남부에서 상용화된 로봇이 남 프랑스 악센트를 자동으로 로딩할 수 있고, 반대로 프랑스 북부의 경우 북부 악센트가 자동으로 로딩할 수 있다. 관용구 표현이 또한 적용될 수 있다.

하나의 실시예에서, "교육적" 대화 모드가 구현 또는 실행될 수 있다. 일반적으로 말하면, 실체적 내용의 추가가 대화 모드의 적용의 일부일 수 있기 때문에, 일부 교육적 범위가 고려될 수 있다. 이러한 모드에서, (가령, 선행학습, 목표의 정의, 교육적 콘텐츠, 동화의 검증 단계에 의해) 교육적 대화 모드가 구현될 수 있다. 사용자는 동반자 로봇에 의해 외국어를 학습할 수 있다. 이들은 또한 모국어의 측면을 더 발견할 수 있다. 예를 들어, 서로 다른 언어 스타일이 어린 사용자들에게 교수될 수 있다(프랑스어 "soutenu", 프랑스어 "Verlan", 프랑스어 "argot" 등). 또한 대화 모드가 특정 전문 용어(의료, 법률 등)를 구현할 수 있다.

하나의 실시예에서, "놀이" 대화 모드가 구현될 수 있다. 예를 들어 로봇은 최근 개봉한 영화를 흉내내거나 참조할 수 있다. 예를 들어, 음성 스킨이 "다스 베이더" 또는 "마스터 요다" 스킨일 수 있다(요다 캐릭터는 종종 동사와 주어를 바꿔 넣고, 다스 베이더는 문장의 끝에 "I am your father"와 잡음 섞인 숨소리를 추가할 수 있다.

하나의 형태에서, 영화의 개봉이, 로봇에 로딩될 때 로봇이 특정 대화 모드를 (대화 내용 및/또는 음성 스킨 표현성의 측면에서) 구현할 수 있는 다운로드 가능한 프로그램과 연관된다. 예를 들어, 영화 "Bienvenue chez les Ch'tis"의 개봉 후, 대응하는 대화 모드가 "goodies" 또는 파생 산물로 이용 가능해질 수 있다. 하나의 실시예에서, DVD 자켓의 후면 또는 영화표 상에서 이용 가능한 QR 코드가 이미지 획득 수단에 의해 판독될 수 있고 대응하는 대화 모드를 구현하는 대응하는 소프트웨어 프로그램이 다운로드되고 추가 설치될 수 있다. 선택사항으로서, 이러한 소프트웨어 프로그램의 효과 지속시간이 제한적일 수 있다(가령, 2주). 또 다른 실시예에서, 유명한 스타 또는 셀러브리티 또는 영화주인공이 이들 디지털 대화 모드의 상대를 가질 수 있다. 예를 들어, Claude Francois(프랑스의 유명 가수)의 팬이 로봇에서 대응하는 음성 스킨(가령, 음성 흉내, 억양) 및/또는 대화 내용(가령, 모사, 인용, 인터뷰 정확한 응답 또는 재구성 등)을 구현할 수 있다. 멀티모드 목적으로, 기재된 대화 모드에 추가로(및 선택적으로), 예를 들어, 로봇이 Claude Francois처럼 춤을 추거나 (적용 가능한 경우 저작권 양태와 관련하여) 가수의 기록된 지난 인터뷰의 실제 발췌본으로 대답할 수 있다.

하나의 실시예에서, 로봇은 사용자와의 대화로부터 장기간 동화에 도달할 수 있다. 예를 들어, 개인화되고 영속적인 대화 모델이 특정 로봇과 점진적으로 연관될 수 있다. 장기간 특질의 선택 및 유지가 로봇과 연관된 "캐릭터"의 고유성을 형성하는 데 도움이 될 수 있다. 예를 들어, 특정 표현, 가령, "vin de diouss"이 스킨의 특정 형태가 영구적으로 구현될 정도로 특정 사용자를 따라 충분히 높은 수락률을 표시할 수 있다. 스킨이 거듭될수록, 특히 음성 스킨의 서로 다른 대화 모드의 서로 다른 특성들을 혼합하여, 로봇의 "인격"이 통합될 수 있다.

언어 상호 대화이 로봇과 사용자 모두에 대한 학습 곡선을 보일 수 있다. 이러한 상호 대화은 참가자들 중 한 명이 로봇인 경우에도 "사회적 상호 대화"으로 지칭될 수 있다. 예를 들어, 격려(확정)에 의해 종료되는 반복적인 언어 상호대화가 학습 활동을 촉진시킬 수 있다. 일반적으로 대화 상호 대화이 "활용"과 "학습" 단계 간 간격을 감소시킨다. 동반자 로봇이 가령 인간의 표현을 다시 사용하거나, 및/또는 유사한 음성 속도를 이용해 자신의 "교육자"를 흉내내기 시작할 수 있다. 로봇과 상호 대화이 많을수록, 지식 베이스가 풍부해지고, 교차-체크되기 때문에, 일반적으로 더 높은 관련성의 상호 대화을 의미한다.

대화 모드의 트리거(가령, 실행 규칙에 의한 대화 내용 및/또는 대화 스킨의 활성화 또는 비활성화)의 예시가 이하에서 기재된다.

대화 모드(가령, 음성 스킨)가 하나 이상의 실행 규칙과 연관될 수 있다. 대화 모드는 이러한 실행 규칙에 따라 트리거(활성화 또는 비활성화)될 수 있다. 이하에서 여러 다른 실시예가 기재된다. 인간 사용자와 로봇 간 문장을 포함하는 대화 동안 대화 콘텐츠 및 대화 음성 스킨을 포함하는 대화 모드의 런칭 또는 실행을 트리거하기 위한 몇 가지 방식이 존재한다. 하나 이상의 대화 모드의 런칭 또는 실행을 트리거하기 위한 (특히, 이하에서 기재되는) 이들 서로 다른 방식이 서로 독립적일 수 있고 추가로 조합될 수 있다.

하나의 실시예에서, 하나 이상의 소프트웨어 애플리케이션의 런칭 또는 실행이 사용자와의 대화(사용자와의 상호 대화) 동안 트리거된다. 오디오 신호가 캡처되고, 선택사항으로서 필터링 및 개선되며, (로봇 상에 로컬하게 및/또는 클라우드 상에 원격으로) 음성-텍스트 동작(speech-to-text operation)이 수행되며, 획득된 텍스트가 분석되고 패턴과의 하나 이상의 비교가 수행된다. 하나 이상의 매칭이 존재하면, 선택사항으로서 임계치를 이용해, 로봇 상에 설치된 것들 중에서 하나 이상의 대화 모드가 선택된다. 따라서 하나 이상의 대화 모드가 실행된다.

하나의 실시예에서, 대화 모드의 런칭이 완전 자동화된다, 즉, 사용자의 동의 또는 확인 없이 런칭될 수 있다. 하나의 형태에서, 사용자 또는 수퍼-사용자(가령, 부모)가 대화 모드의 실행을 중단, 유예, 또는 종료시킬 수 있다. 또 다른 실시예에서, 대화 모드의 런칭이 사용자에 의한 명시적 확인을 필요로 한다. 로봇은 특정 대화 모드를 런칭하기 위한 자신의 의도를 선언할 수 있지만, 계속하기 전에 확인을 기다릴 것이다. 예를 들어, 로봇은 "다스 베이더처럼 말할까요"라고 선언할 수 있고 사용자는 "나중에"라고 대답할 수 있다.

하나의 실시예에서, 대화 모드는 런칭 조건 또는 파라미터에 따라 실행될 수 있다. 이들 조건 또는 파라미터는 사실 또는 규칙일 수 있고, 둘 모두(사실에 근거한 규칙)일 수 있다. 이들 사실의 예로는, 사용자의 유형 또는 카테고리, 하나 이상의 환경 값에 의해 특징지워지는 현재 맥락 또는 상황 또는 환경을 포함한다(가령, 현재 지역 날씨, 날짜 및 시각, 검출 감정, 사용자 수 등). 실행 규칙은 단순한 규칙에서 복잡한 규칙까지 다양하다. 실행 규칙은 조건적일 수 있다. 예를 들어, 하나의 실시예에서, 복수의 규칙이 대화 모드의 실행을 인증 또는 허용하기 위해 동시에 만족되어야 한다. 또 다른 실시예에서, 복수의 규칙이 순차적으로(가령, 특정 순서로 및/또는 시간 제한 또는 임계치 내에) 만족되어야 한다. 일부 실행 규칙이 지정될 수 있다. 그 밖의 다른 일부 실행 규칙이 동적으로 정의될 수 있다(가령, 일부 규칙이 인터넷으로부터 불러와질 수 있다).

하나의 실시예에서, 실행 규칙이 단순 규칙일 수 있다. 예를 들어, 실행 규칙은 연령 제한을 포함(가령, 인코딩)할 수 있다. 또 다른 실시예에서 복수의 실행 규칙이 누적 사용 또는 적용될 수 있다. 예를 들어, 12세 초과 사용자 앞에서 및/또는 특정 상황(시간대,측정된 청자의 감정 등)에 따라 특정 음성 스킨이 인가될 수 있다. 하나의 실시예에서, 지정 이벤트의 검출 후에 로봇에 의해 대화 음성 스킨 또는 대화 내용의 적용이 트리거되고, 상기 이벤트가 시간 기준(일정표, 하루 중 시간대 등)과 공간 기준(근접한 곳에서 검출된 사용자 수, 상기 사용자의 각각의 연령, 상기 사용자로부터 지각되는 감정적 태도, 가령, 미소짓고 있거나 그렇지 않음)의 특정 조합을 결정한다.

하나의 실시예에서, 일부 실행 규칙이 사용자에 의해(가령, 부모 제어) 설정될 수 있다. 그 밖의 다른 일부 실행 규칙은 지정될 수 있고, 또 다른 실행 규칙은 동적으로, 가령, 인터넷 및/또는 그 밖의 다른 로봇으로부터 불러와질 수 있다. 대화 모드가 동일한 대화 동안 활성화 또는 비활성화될 수 있으며: 이들 활성화 또는 비활성화는 동적일 수 있고, 가령, 서로 다른 방식으로 지각된 환경에 따라 달라질 수 있다.

하나의 실시예에서, 대화 모드가(즉, 대화 콘텐츠 및/또는 대화 스킨이 독립적으로) "태그"의 사용 및/또는 "조건"의 사용 및/또는"사전조건"의 사용을 포함하여 몇 가지 파라미터에 따라 활성화되거나 종료될 수 있다.

태그는 로봇이 말할 수 있는 하나 또는 복수의 표현에 연관될 수 있는 마커이다. 이들 태그는 동적으로 활성화 또는 비활성화되고 연관된 표현이 저장될 수 있는지 여부를 결정할 수 있다. 예를 들어, 로봇이 "요리에 대해 대화하는 걸 좋아하나요"라고 물은 후, 사용자가 "아니, 요리에 관심 없어"(또는 이와 유사한 답)을 응답할 때, 태그 "요리"가 비활성화된다. 로봇은 식별된 사용자와 연관된 대화 주제의 목록을 업데이트한다. 로봇은 마래에 상기 대화 주제를 피할 것이다.

"조건" 및 "상호 조건"이 지정 변수(가령, 사용자 선호)의 함수로서 로봇이 말하려는 것을 수정할 수 있다. 예를 들어 로봇에 의해 던져진 질문 "당신은 몇살입니까?"에 대해, 사용자는 "12살"이라고 대답할 수 있다. 이 경우, 로봇은 값 12를 식별된 사용자의 나이의 값으로 저장한다. 그 후, 로봇은 "오늘 밤에 무엇을 할 것입니까"라고 질문할 수 있다. 사용자가 "아무것도 안 해"라고 응답하는 경우, 로봇은 "저녁 활동"과 연관된 변주로서 응답을 저장한다. 연령 그룹 및 저녁 시간 대의 할 일의 부재로부터, 로봇의 사고(reasoning)가 저녁 시간에 "저랑 놀래요?"라고 제안할 수 있다.

하나의 실시예에서, 트리거링(즉, 대화 모드 또는 음성 스킨 또는 대화 내용의 활성화 또는 비활성화)이 맥락(가령, 환경, 날짜, 시, 위치 등)에 따라 구동될 수 있다. 하나의 실시예에서, 로봇은 하나 이상의 사용자 표현을 모니터링하고 기록할 수 있다. "atmosphere" 같은 단어의 검출이 있으면, 로봇은 ""atmosphere, atmosphere, est ce j'ai une gueule d'atmosphere?"라고 말할 수 있다. 이는 문화적 참조(cultural reference)의 하나의 예시이다. 그러나 대화는 훨씬 더 정교한 사실 및 규칙에 의해, 가령, 이른바 "이벤트" 검출에 의해, 트리거될 수 있다. 예를 들어, 특정 대화 모드 또는 스킨이 특정 연령 그룹의 존재 하에서는 허용되지 않을 수 있다. 실제로, 예를 들어, 로봇은 적어도 사용자가 12세 미만이라고 평가하고 대화 중에 단어 "French fries"를 검출하고, 특정 지정 스킨("Ch'tis")을 로딩할 수 있다. 사용자가 로봇의 머리를 건드릴 때 이벤트의 또 다른 예시가 발생한다. 이러한 경우, 특정 스킨이 로딩, 활성화 및 실행될 수 있다. 이벤트는 다음의 파라미터를 포함할 수 있다: 공간 배치, 제스처 또는 제스처 조합, 대화 콘텐츠(키워드 또는 키 표현), 연령 그룹 및 성별의 평가, 사용자 선호.

하나의 실시예에서, 하나 이상의 애플리케이션이 대화 동안 실행되고, 하나 이상의 실행 규칙의 수행(또는 검증 또는 만족)에 의해 트리거된다. 인간과 기계 간 대화가 모니터링되고 "패턴"이 (예를 들어) 연속적으로 대화 흐름으로부터 추출된다("협업적 대화" 모드). 하나의 실시예에서, 음성 흐름이 수신되고 연속적으로 분석된다. 추출은 마커("OK Glass, take a picture")가 있던 없던 음성 흐름에서의 음성 명령어(가령, 키 표현)의 단순 추출 이상이다. 특히, 사용자의 단어 또는 표현이 추출 및 비교되거나 지정 조건, 태그, 마커 또는 상호-조건에 대해 매칭된다.

또 다른 실시예에서, 하나 이상의 실행 규칙이 지정된다. 편집자 또는 퍼블리셔에 의해, 상기 대화 모드의 실행을 인거할 수 있도록 하는 실행 규칙의 목록을 포함하는 파일과 함께 소프트웨어 애플리케이션이 제공된다. 실행 규칙이 시험된다: 이들이 만족되거나 허용 또는 검증된 경우, 하나 이상의 대화 모드가 선택될 수 있다. 일부 규칙은 수행되기 최소한의 기준일 수 있다. 그 밖의 다른 일부 규칙 시간이 바람직한 런칭 또는 실행 조건을 정의할 수 있다. 예를 들어, 최소 실행 규칙은 "사용자가 12세 미만이고 22시 전인 경우, 다스 베이더 음성 스킨이 인가된다"일 수 있으며, 바람직한 규칙은 "3명의 사용자가 5분 내에 위치하고, 적어도 2명의 사용자가 12세 미만이며, 적어도 한 명이 웃고 있고, 다른 누구도 반대 표시를 하지 않는 경우, 조크와 다스 베이더 목소리를 제안한다"일 수 있다.

이하에서 다양한 실시예가 기재된다.

이하에서 반동 루프(retroaction loop) 및 관련성 피드백(relevance feedback)이 기재된다. 하나의 실시예에서, 인간 사용자의 관점에서 특정 대화 모드(가령, 음성 스킨)의 전체 성공 또는 실패는 수신 및/또는 정량화될 수 있다. 하나의 형태에서, 세밀한 입도로, 로봇의 각각의 언어 계획이 사용자에 의해(예를 들어, 제스처와 음성 명령어를 조합하는 복잡한 인간 행동으로부터 도출된 명시적 승인 또는 심지어 묵시적 승인을 검출함으로써) 확인 또는 부정될 수 있다. 덧붙여, 협업적 모델이 구현될 수 있다: 특정 표현의 검증 또는 비검증이 사용자/로봇의 무리들 중에서 통계적으로 수행될 수 있다. 예를 들어, 표현 "cha va biloute"이 설치된 베이스의 조각에 대해 75%보다 뛰어난 긍정적인 피드백을 수신하는 경우, 상기 표현은 전세계 규모로 검증될 수 있다. 반대로, 표현 "a l'arvoiure"이 지나치게 적은 긍정적인 피드백을 수신한 경우(또는 부정적인 피드백을 수신한 경우), 상기 표현은 특정 대화 모드 또는 모델로부터 영구적으로 제거될 수 있다.

하나의 형태에서, "스킨 적용된" 대화로 인간이 제공한 응답이 기록되고 추가로 활용될 수 있다. 하나의 실시예에서, 응답은 로봇 개입의 품질을 측정하기 위해 사용된다. 또 다른 실시예에서, 이의 응답의 실체가 추가로 사용되어 대화 모델을 더 풍부하게 할 수 있다. 예를 들어, 응답이 주기적으로 관측되는 경우, 응답이 대화 모드에서 추가로 재 사용된다(즉, 대화 내용).

기술적 사항을 포함하는 비지니스 양태와 관련하여, 하나의 실시예에서, 대화 모드(가령, 음성 스킨)가 전자 시장을 통해 분산된다. 일부 스킨은 자유롭게 다운로드될 수 있고, 또 다른 스킨은 지불을 필요로 할 수 있다. 일부 스킨은 시간, 지역 또는 그 밖의 다른 하드웨어 요건에서 제한적일 수 있다.

동반적 로봇이 이론적으로 인간이 말하는 모든 단어를 기록할 수 있는 경우라도, 프라이버시 측면에서 이러한 기록이 방지된다. 머신 러닝 기법을 이용함으로써, 하이-레벨 및 비-침입적 특징이 로봇에 의해 획득될 수 있다. 예를 들어, 머신 러닝 기법에 의해, 순환 패턴이 추출될 수 있다(어휘 유형, 선호되는 표현 등). 마찬가지로, 영화로부터의 제한적 추출이 자막의 분석으로부터 발생할 수 있다(마스터 요다의 예시에서, 이러한 분석으로부터 대화 내용이 결정될 수 있다). 톤 및 주파수의 양태와 관련하여, 제어된 러닝에 의해 로봇이 특정 지정 사람을 흉내 낼 수 있다. 예를 들어, 로봇은 말하기 시작할 수 있으며 특정 파라미터를 수정하도록 추가 요청받을 수 있다("조금 더 높게 말해줄래"). 하나의 실시예에서, 구현된 음성 스킨과 실제 오디오 발췌본 간 자동화된 비교가 수행되어, 개선 피드백 루프를 위한 기회를 제안할 수 있다.

이하에서 대화 내용의 저작이 기재된다. 서로 다른 개체가 대화 내용을 편집할 수 있다. 하나의 실시예에서, 조작자 또는 로봇 플랫폼이 대화 문장을 저작할 수 있다(가령, 언어학자가 대화 문장을 쓴다). 하나의 실시예에서, 제3자 회사(가령, 소프트웨어 개발자)에 의해 대화 내용이 써지고 상용화된다. 하나의 실시예에서, 사용자 또는 로봇의 소유자에 의해 대화 모드가 써진다. 예를 들어, 소프트웨어 툴("DJ-스킨") 또는 웹 플랫폼이 음성 스킨의 생성 또는 수정을 촉진시킬 수 있다. 사용자는 새로운 음성 스킨을 제출하거나, 온라인으로 편집하거나, 인기 있는 것에 대해 투표하거나 등급화할 수 있다. 편집이 지정 음성 스킨을 혼합 및/또는 사용자에게 일부 생성 제어를 제공하여 음성 스킨을 미세 조절할 수 있는 것 및/또는 소리 또는 기록된 문장을 업로드 및 공유하는 것, 또는 이들의 조합을 포함할 수 있다. 이용 가능한 스킨이 무료 또는 지불하도록 라이센스를 포함하거나 포함하지 않을 수 있다. 예를 들어 서로 다른 음성 스킨의 서로 다른 애플리케이션을 청취하고 하나 이상의 선호되는 스킨을 선택할 수 있는 로봇의 사용자에 의해 음성 스킨이 선택될 수 있다. 또 다른 실시예에서, 대화는 다양한 개체에 의해 공동-저작된다. 하나의 실시예에서, 대화가 로봇의 설치된 베이스 및 서로 다른 로봇의 소유주인 사용자의 응답으로부터 통합된다. 상기 통합은 초기 대화를 보조할 수 있다. 또 다른 실시예에서, 보조적으로 또는 대안적으로, 인터넷 콘텐츠에 대해 실시된 추출에 의해 대화 내용이 써진다(예를 들어, 감독되거나 감독되지 않는 방법이 질문 및 대답을 식별, 추출 및 사용할 수 있다). 이러한 실시예는 분산된 피드백을 수신하여 대화 내용의 빠른 개선을 가능하게 한다. 상기 개선은 설치된 베이스 간에 빠르게 전파될 수 있다. 예를 들어, 폐쇄-루프 머신 러닝을 이용함으로써, 인기 많은 음성 스킨이 전세계에 전파될 수 있다.

복수의 개체가 대화 모드의 정의에 기여할 수 있는 경우(즉, 대화 내용 및/또는 음성 스킨 및/또는 연관된 실행 규칙을 제공), 최종 구현이 로봇의 제공자에 의해 제어될 수 있다. 추가 제어 또는 규제 계층이 대화 모드의 사용을 수정 또는 필터링 또는 감쇠 또는 증폭 또는 증가 또는 격려 또는 감소 또는 금지 또는 제한 또는 금지할 수 있다. 특히, 기재된 바와 같이, 대화 모드의 사용이 실행 규칙에 의해 규제될 수 있다: 로봇의 제조업체 또는 제공자가 이들 규칙을 적어도 부분적으로 마스터링할 수 있다.

하나의 실시예에서, 로봇의 제공자가 최종 오디오 렌더링 장치, 즉, 유사한 복구 전 마지막 포인트를 제어할 수 있다. 즉, 선택된 대화 모드 또는 내용 또는 스킨의 대화의 사전 조립된 문장으로의 적용으로부터 도출되는 로봇의 계획된 오디오 표현이, 유효 오디오 복구 전에 필터링될 수 있다.

로봇은 어떠한 악성 단어도 발음하지 않을 것을 보장하기 위해, 인가된 단어의 화이트 리스트(white list) 또는 금지된 단어의 블랙 리스트(black list)뿐 아니라 그레이 리스트(grey list)(실제 맥락에 따라 인가되거나 인가되지 않을 수 있는 단어 또는 표현)가 구현될 수 있다. 이러한 경우, 대화 내용의 사전 조립된 문장에의 음성 스킨의 적용 결과가 이러한 리스트에 비교될 수 있다. 리스트의 사용 이상으로 복잡한 논리적 규칙이 역시 사용될 수 있다. 성공적이면, 인가 또는 허용되는 경우, 문장이 발음된다(및/또는 이에 따라 수정된다).

하나 이상의 대화 내용 및/또는 음성 스킨을 로봇에 의해 표현되는 최종 대화에 적용하기 위한 또 다른 규제 방법이 보안 부팅 방법의 사용을 포함할 수 있다. 예를 들어, 특정 대화 모드를 코딩하는 각각의 소프트웨어 패키지가 (이진 형태(binary form)로 된 프로그램의) 해시 값과 연관될 수 있다. 로봇에 설치된 소프트웨어 패키지의 해시 값의 검증에 의해 증명되는 상기 프로그램의 적절한 존재여부가, 성공적인 검증 후에, 로봇의 부팅업을 조건부로 (또는 기능에 일부 제한을 두고) 인가할 수 있다.

(일반적으로 로봇에 설치되는 소프트웨어 애플리케이션의) 대화 모드의 실행의 추가 규제로서, 로봇의 건강 모니터링 서비스가 실행 우선순위를 조절할 수 있다. 구체적으로, 소프트웨어 애플리케이션의 실행이 이러한 "건강 모니터링" 서비스를 고려할 수 있다. 즉, 더 높은 레벨의 우선순위 스킴이 소프트웨어 애플리케이션, 가령, 대화 모드의 실행을 더 규제할 수 있다. 하나의 실시예에서, 로봇이 사용자와 상호 대화 중이 아니다(즉, 누구와도 상호 대화 중이 아니다). 이러한 경우, 로봇은 자율 작업을 수행하거나 수행할 수 있다. 또 다른 실시예에서, 로봇이 위험에 직면할 수 있다(가령, "보호 모드(safeguard mode)", 배터리 레벨이 낮거나 임계치임, 장애물의 존재 또는 낙석 위험에 직면 등). 이러한 경우, 로봇의 우선순위가 (가령, 고유 작업을 수행하는 것보다) 자신의 문제를 핸들링하고 해결하는 것이다. 예를 들어, 배터리 레벨이 임계치인 경우, 로봇이 사용자와 대화를 중단하고 에너지 소스 베이스에 도달하려 시도할 수 있다. 사용자가 근접부에서 검출될 때 및/도는 로봇이 임계 상황에 있지 않을 때(로봇이 자신의 기본 기능을 수행할 수 없을 때) 대화 모드는 활성화될 수 있다. 반대로, 어떠한 사용자도 근접부에서 검출되지 않을 때 및/또는 로봇이 임계 상황에 있을 때 대화 모드 모듈은 비활성화될 수 있다.

개시된 방법이 완전 하드웨어 실시예(가령, FPGA)의 형태를 취할 수 있고, 완전 소프트웨어 실시예 또는 하드웨어 와 소프트웨어 요소를 포함하는 실시예의 형태를 취할 수 있다. 소프트웨어 실시예의 비제한적 예를 들면, 펌웨어, 레지던트 소프트웨어, 마이크로코드 등이 있다. 본 발명은 컴퓨터 또는 임의의 명령 실행 시스템에 의해 사용되기 위해 프로그램 코드를 제공하는 컴퓨터 이용 가능 또는 컴퓨터 판독 매체로부터 액세스 가능한 컴퓨터 프로그램 프로덕트의 형태를 가질 수 있다. 컴퓨터 이용 가능 또는 컴퓨터 판독형 매체는 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 이들과 함께 프로그램을 포함, 저장, 통신, 전파, 또는 전송할 수 있는 임의의 유형의 장치일 수 있다. 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템(또는 장치 또는 디바이스) 또는 전파 매체일 수 있다.

Claims

로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법으로서, 상기 방법은
상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계,
상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계 - 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며, 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며, 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함하며, 상기 하나 이상의 대화 내용 및 음성 스킨 중 하나 이상이 웹 플랫폼을 이용해 온라인으로 저작 또는 편집됨 - 를 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 하나 이상의 대화 내용 및 음성 스킨 중 적어도 하나를 편집하는 것은 지정 음성 스킨을 혼합하는 것, 웹 플랫폼 사용자에게 생성 제어권(creation control)을 제공하여 음성 스킨을 미세 조절(fine tune)하는 것, 및 소리 또는 녹음된 문장을 업로드 및 공유하는 것 중 하나 이상의 단계를 포함하는, 컴퓨터로 구현되는 방법.
제1항 또는 제2항에 있어서, 하나 이상의 지정 대화 내용 및 음성 스킨 중 적어도 하나가 복수의 개체에 의해 수정되는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 하나 이상의 지정 대화 내용이 인터넷으로부터 추출되는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 하나 이상의 대화 내용을 수정하는 단계, 하나 이상의 사용자 피드백을 수신하는 단계, 및 하나 이상의 수정된 대화 내용을 다른 로봇으로 전파하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 하나 이상의 대화 내용의 사용을 규제하는 단계를 더 포함하며, 상기 규제하는 단계는 하나 이상의 대화 내용 및 음성 스킨 및 연관된 실행 규칙 중 적어도 하나의 사용을 변조, 필터링, 감쇠, 증폭, 증가, 격려, 감소, 억제, 제한, 회피 또는 금지하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 로봇의 제조업체가 최종 오디오 렌더링 또는 아날로그 오디오 복구 전 가장 마지막 포인트에 대해 제어하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 선택된 수정된 대화 모드를 실행하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제1항 또는 제2항에 있어서, 수정된 대화 모드는 현재 대화의 현재 대화 내용 및 현재 대화 음성 스킨 중 적어도 하나를 수정함으로써 획득되는, 컴퓨터로 구현되는 방법.
제9항에 있어서, 현재 대화 내용을 수정하는 단계는 대화 내용의 단어의 동의어를 이용하고, 대화 내용의 하나 이상의 단어의 삽입 또는 반복 또는 치환을 포함하는 구문 수정을 적용하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
제9항에 있어서, 현재 대화 음성 스킨을 수정하는 단계는 현재 대화 음성 스킨의 주파수, 톤, 속도 및 음높이 중 적어도 하나를 수정하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 수정된 대화 모드는 지정된 대화 모드를 활성화함으로써 획득되고, 상기 지정 대화는 하나 이상의 대화 실행 규칙에 의해 선택되며 상기 지정 대화 모드는 지정 대화 내용 및 지정 대화 음성 스킨 중 적어도 하나를 포함하는, 컴퓨터로 구현되는 방법.
제1항 내지 제12항 중 어느 한 항에 있어서, 대화 모드 실행 규칙은 로봇에 의해 지각되는 환경에 따라 달라지는, 컴퓨터로 구현되는 방법.
제13항에 있어서, 대화 모드 실행 규칙은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호 대화 히스토리, 사용자 선호, 로봇 및/또는 사용자의 공간 변위, 로봇 및/또는 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터를 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 대화 모드 실행 규칙은 인터넷으로부터 동적으로 불러와지거나 및/또는 사용자-구성 가능한, 컴퓨터로 구현되는 방법.
제1항에 있어서, 하나 이상의 대화 내용 또는 이의 선택은 하나 이상의 필터의 적용에 의해 수정되며, 상기 필터는 하나 이상의 단어의 블랙리스트, 하나 이상의 단어의 화이트리스트, 및/또는 대화 모드 실행 규칙을 포함하는, 컴퓨터로 구현되는 방법.
제16항에 있어서, 로봇에 의해 표현되는 최종 대화에의 상기 하나 이상의 대화 내용 및/또는 음성 스킨의 사용의 규제는 보안 부팅 방법의 사용을 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 대화 내용 및/또는 대화 음성 스킨이 음성 명령어 또는 사용자 요청에 의해 선택되는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 소실 대화 모드를 식별하는 단계, 사용자와의 대화 동안 로봇에서 상기 소실 대화 모드를 불러오고 설치하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
제1항에 있어서, 선택된 대화 모드를 실행하기 전에 사용자의 확인을 수신하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
적합한 컴퓨터 장치 상에서 실행될 때 청구항 제1항 내지 제15항 중 어느 한 항에 따르는 방법의 단계들을 수행하기 위한 명령을 포함하는 컴퓨터 프로그램.
청구항 제1항 내지 제15항 중 어느 한 항에 따르는 방법의 단계들을 수행하도록 구성된 수단을 포함하는 시스템.