KR20170027705A - 로봇과의 대화를 핸들링하는 방법 및 시스템 - Google Patents

로봇과의 대화를 핸들링하는 방법 및 시스템 Download PDF

Info

Publication number
KR20170027705A
KR20170027705A KR1020167032134A KR20167032134A KR20170027705A KR 20170027705 A KR20170027705 A KR 20170027705A KR 1020167032134 A KR1020167032134 A KR 1020167032134A KR 20167032134 A KR20167032134 A KR 20167032134A KR 20170027705 A KR20170027705 A KR 20170027705A
Authority
KR
South Korea
Prior art keywords
conversation
robot
user
mode
voice
Prior art date
Application number
KR1020167032134A
Other languages
English (en)
Other versions
KR102054042B1 (ko
Inventor
브루노 매이종니어
다비드 호신
레미 파타일롯
가브리엘 바르비에리
Original Assignee
소프트뱅크 로보틱스 유럽
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소프트뱅크 로보틱스 유럽 filed Critical 소프트뱅크 로보틱스 유럽
Publication of KR20170027705A publication Critical patent/KR20170027705A/ko
Application granted granted Critical
Publication of KR102054042B1 publication Critical patent/KR102054042B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/033Voice editing, e.g. manipulating the voice of the synthesiser
    • G10L13/0335Pitch control
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/003Manipulators for entertainment
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/08Text analysis or generation of parameters for speech synthesis out of text, e.g. grapheme to phoneme translation, prosody generation or stress or intonation determination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)
  • Toys (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

로봇과의 대화를 핸들링하는 방법 및 시스템
로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계; 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며; 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함하며. 기재된 형태는 대화 내용 및/또는 대화 음성 스킨을 수정하는 것, (예를 들어 로봇에 의해 지각되는 환경에 따라 달라지는) 대화 실행 규칙을 이용하는 것, 및 대화 내용을 수정하는 것을 포함한다.

Description

로봇과의 대화를 핸들링하는 방법 및 시스템{METHODS AND SYSTEMS OF HANDLING A DIALOG WITH A ROBOT}
이 특허는 디지털 데이터 처리 분야와 관련되며, 더 구체적으로 로봇과 인간 사용자 간 대화의 특정 맥락에서, 음성 합성 및 상호 대화를 핸들링하는 것과 관련된다.
동반자 로봇(companion robot)은 인간과 감정 관계를 쌓을 수 있다. 음성을 통한 대화 또는 대화 스킨(dialog skin)의 동적 적응이 풍부한 상호 대화(interaction)를 가능하게 할 수 있다.
음성 합성을 위한 기존 시스템은 대부분 수동적이고 균일하다: 몇 가지 옵션, 가령, 남성 또는 여성 음성 선택 외에, 음성 발생 엔진의 톤이 다소 중성적이다. 더욱이, 제공되는 응답에는 문화적 참조(cultural reference)가 부족하다. 산업용 또는 대중 시장용 음성 대답 시스템의 목적은 정교하게 보편적으로 수용되는 대답을 제공하는 것이다, 즉, 가능한 널리 이해되는 대답을 제공하는 것이다. 이는 어떠한 맥락적 및 심지어 문화 참조를 피함을 의미한다. 음성 명령어는 일반적으로 특정 맥락에 한정된다. 예를 들면, 음성 받아쓰기 소프트웨어가 독립형 소프트웨어 (가령, 워드 프로세싱 소프트웨어)의 맥락에서 사용된다. 현대의 운영 체제에 의해 점점 더 제공되는 일부 액세스 가능성 특징에 따르면, 사용자는 특정 동작(가령, 애플리케이션 런칭, 복사 및 붙여 넣기 등)을 수행하기 위해 음성 명령어를 이용할 수 있다. 이들 지정 동작은 다소 제한적이다. 이러한 시각적 또는 오디오 대화 모드는 일반적으로 수동적이다(가령, 사용자는 능동적으로 주문하고 기계가 주문을 실행한다). 최근 컴퓨터 대화 모델, 가령, 대답 시스템에서 구현되는 컴퓨터 대화 모델의 경우에도, 기계에서 사용자로 제한된 대화가 발생한다.
동반자 휴머노이드 로봇의 맥락에서, 인간 사용자와의 대화 모델은 개인 컴퓨터(및 이들의 상이한 형태)와의 대화 모델과 비교할 때 상당히 다르다. 로봇과의 인지 상호대화(cognitive interaction)가 태블릿 PC 또는 스마트 폰과의 인지 상호대화와 근본적으로 상이하다. 특히, 관련 데이터를 수집하고 로봇 또는 연결된 장치에 의해 렌더링되는 서비스를 개선할 수 있게 하는, 풍부한 대화(rich interaction)의 단서가 없을 때 로봇의 음성 합성을 변조할 수 있는 능력이 유리할 수 있다.
음성 합성(형식) 및 연관된 상호 대화(실체)를, 특히, 로봇과 인간 사용자 간 대화의 특정 맥락에서, 핸들링하는 방법 및 시스템이 요구된다.
로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계; 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며; 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함한다.
하나의 형태에서, 방법은 상기 선택된 수정된 대화 모드를 실행하는 단계를 더 포함한다.
하나의 형태에서, 수정된 대화 모드는 현재 대화의 현재 대화 내용 및 현재 대화 음성 스킨 중 적어도 하나를 수정함으로써 획득된다.
하나의 형태에서, 현재 대화 내용을 수정하는 단계는 대화 내용의 단어의 동의어를 이용하고, 대화 내용의 하나 이상의 단어의 삽입 또는 반복 또는 치환을 포함하는 구문 수정을 적용하는 단계를 포함한다.
하나의 형태에서, 현재 대화 음성 스킨을 수정하는 단계는 현재 대화 음성 스킨의 주파수, 톤, 속도 및 음높이 중 적어도 하나를 수정하는 단계를 포함한다.
하나의 형태에서, 수정된 대화 모드는 지정된 대화 모드를 활성화함으로써 획득되고, 상기 지정 대화는 하나 이상의 대화 실행 규칙에 의해 선택되며 상기 지정 대화 모드는 지정 대화 내용 및 지정 대화 음성 스킨 중 적어도 하나를 포함한다.
하나의 형태에서 대화 모드 실행 규칙은 로봇에 의해 지각되는 환경에 따라 달라진다.
하나의 형태에서, 대화 모드 실행 규칙은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호 대화 히스토리, 사용자 선호, 로봇 및/또는 사용자의 공간 변위, 로봇 및/또는 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터를 포함한다.
하나의 형태에서, 대화 모드 실행 규칙은 인터넷으로부터 동적으로 불러와 지거나 및/또는 사용자-구성 가능하다.
하나의 형태에서, 하나 이상의 대화 내용 또는 이의 선택은 하나 이상의 필터의 적용에 의해 수정되며, 상기 필터는 하나 이상의 단어의 블랙리스트, 하나 이상의 단어의 화이트리스트, 및/또는 대화 모드 실행 규칙을 포함한다.
하나의 형태에서, 대화 내용 및/또는 대화 음성 스킨이 음성 명령어 또는 사용자 요청에 의해 선택된다.
하나의 형태에서, 상기 방법은 소실 대화 모드를 식별하는 단계, 사용자와의 대화 동안 로봇에서 상기 소실 대화 모드를 불러오고 설치하는 단계를 더 포함한다. 하나의 형태에서, 상기 방법은 선택된 대화 모드를 실행하기 전에 사용자의 확인을 수신하는 단계를 더 포함한다. 하나의 형태에서, 상기 방법은 수정된 대화 모드의 실행 후 사용자의 피드백을 수신하는 단계를 더 포함한다. 하나의 형태에서, 방법의 단계들은 반복될 수 있다(가령, 대화 모드가 더 수정될 수 있다).
적합한 컴퓨터 장치 또는 로봇 장치 상에서 실행될 때 방법의 하나 이상의 단계를 수행하기 위한 명령을 포함하는 컴퓨터 프로그램이 개시된다. 방법의 하나 이상의 단계들을 수행하기에 적합한 수단을 포함하는 시스템이 개시된다.
일반적으로 동반자 로봇(companion)이 멀티모드이다. 음성 대화가 개인 컴퓨터 및 이의 쇠퇴와 대조적으로 로봇을 특징화하는 운동과 함께 사용자와의 상호 대화의 핵심 부분을 구성한다. 사용자와 로봇 간 대화가 상호대화를 보강 또는 개인화하며 사용자 경험을 세밀하게 개선한다. 하나의 실시예에서, 로봇은 이의 대화 모드의 적응을 통해 현재 지각되는 맥락에 스스로를 적응시킨다. 예를 들어 로봇은 외국인에게 "Mister"라고 말하거나 개인의 성을 이용할 수 있고, 과거에 허용된 바가 있는 경우, 사용자 및/또는 상황에 따라 더 또는 덜 공식적으로 말할 수 있다. 또한 특정 단어가 사용자, 히스토리, 피드백, 기분, 위치, 날짜 및 시각(예시)에 따라 필터링될 수 있다. 사람이 문장을 이해하지 못할 때, 요청된 대로 또는 스스로의 계획에 따라 로봇은 천천히 반복하거나 및/또는 동의어로 반복할 수 있다. 또한 로봇은 사용자의 기분을 향상시키기 위해 사용자의 선호도(어느 단어를 사용하여 천천히 말할지 또는 빨리 말할지)를 학습할 수 있다.
바람직하게는, 로봇은 언어 범위를 구현할 수 있으며, 각각의 로봇을 고유하게 만들고, 긍정적인 감정을 시작하며, 따라서 인간과 로봇의 관계를 강화시킬 수 있다.
바람직하게는, 일부 실시예에 따라, 인간-기계 대화가 능동적이며 더는 수동적이지 않다: 인간 관점에서 로봇은 임의의 계획을 가질 수 있다(가령, 로봇이 명확화 목적으로 질문을 할 수 있다). 덧붙여, 개인화된 또는 그 밖의 다른 방시긍로 관련되는 방식으로 표현되는 적응된 대화 내용 또는 패턴을 이용해, 인간-기계 상호 대화이 더 최적화된다.
바람직하게는, 상호 대화의 대화 모드(conversational mode)에 의해, 사용자와의 더 "친밀한" "관계", 적어도 더 "자연스러운" 상호 대화이 가능해진다. 이러한 더 우수한 사용자 경험이 기계에 의한 인간 사용자의 증가된 "이해"를 이끌 가능성이 높다. 관련 음성 스킨 및/또는 대화 문장에 의해 전달되고 보강되는 기계와의 연관된 "근접성"이 사용자로부터의 그리고 사용자에 대한 데이터의 수집을 촉진시킬 수 있다. 사용자와 로봇 모두 더 "표현적(expressive)"일 수 있다. 용어 "표현성(expressivity)"은 인간-기계 상호 대화이 (더) 자연스럽기 때문에, 사용자는 더 많은 데이터를 로봇에게 전달하며, 그 후 로봇은 사용자에 대한 더 많은 데이터를 알고 저장할 수 있어서, 추가 상호 대화을 풍부하게 만드는 선순환을 발생시킨다. 이는 개인 컴퓨터의 경우에는 해당되지 않는다. 태블릿(tablet)이 가령, 퀴즈 또는 문제의 형태로 음성 합성으로 "질문"을 하려 시도할 수 있지만, 태블릿이 (자율적으로) 스스로 이동하고 물체를 이동시키거나, 인간을 따르는 "동반자"로 여겨지지 않기 때문에, 잔류 바이어스가 존재할 것이다. 캡처될 수 있는 데이터의 양이 동반자 로봇과 비교될 때 더 작을 것이다. 동반자 로봇은 재밌는 또는 그 밖의 다른 방식으로 관련성 있는 음성 스킨 또는 대화 패턴을 이용해 데이터를 캡처할 수 있는 능력을 보강할 수 있다.
사용자에 대해 능동적으로 또는 수동적으로 수집되는 정보(가령, 사용자 프로파일링 또는 사용자가 선언한 선호)가 상태를 런칭하기 위한 입력으로 사용될 수 있다(가령, 음성 스킨 또는 대화 패턴은 사용자가 "Bienvenue chez les Ch'tis"를 선호하는 경우에만 런칭되어야 한다). 머신 러닝 메커니즘이 수행될 수 있다: 시스템에 의해 런칭되거나 실행되는 음성 스킨 또는 대화 패턴이 사용자에 대해 학습되는 바에 따라 전개될 것이다.
본 발명의 실시예가 첨부된 도면을 참조하여 예시로서 기재될 것이며, 여기서 유사한 도면부호가 유사한 요소를 지칭하며, 이때:
도 1은 본 발명의 전역적 기술적 환경을 도시한다.
도 2는 방법의 실시예의 일부 양태를 상세히 도시한다.
"대화(dialog)"는 사전 조립된 문장을 포함한다. 대화는 사전 조립된 문장, 가령, 질문에 대한 응답의 모음이다. 복수의 질문에 대한 예상 응답이 하나의 대화를 구성한다.
"대화 모드(dialog mode)"는 계획된 문장의 실체("대화 패턴" 및 "대화 내용")와 형식("음성 스킨" 또는 "음성 렌더링") 모두에 영향을 미치는 하나 이상의 수정 동작을 포함한다. 다시 말하면, "대화 모드"는 실체적 측면(가령, 메시지가 전달하는 사실 내용 또는 정보) 및 형식적 측면(가령, 구어체의 표현성 또는 감정 또는 톤)과 연관된다. 대화 모드는 다운로드 가능한 소프트웨어 프로그램으로 구현될 수 있고, 상기 프로그램은 적합한 로봇 장치 상에서 실행될 때 상기 로봇 장치로 하여금 프로그램된 대화 모드(대화 내용 및/또는 음성 스킨)를 포함하는 특정 물리적 동작을 수행하게 하는 명령을 포함한다. 소프트웨어 프로그램은 "확장 모듈" 또는 "플러그-인" 또는 "애드-온(add-on)"으로서 제공될 수 있다. 추가 대화 모드는 로봇의 디폴트 대화 내용 및 음성 스킨에 조합, 추가, 또는 대체될 수 있다. 하나의 실시예에서, 대화 모드는 로봇에 설치되는 그 밖의 다른 소프트웨어 애플리케이션을 위한 서비스라고 지칭될 수 있다. 예를 들어, 날씨 애플리케이션이 특정 맥락에서(가령, 보름달에) 다스 베이더(Dark Vador)의 음성을 이용할 수 있다. 대화 모드 및/또는 연관된 실행 규칙이 네트워크를 통해 액세스되거나 로컬하게 액세스될 수 있다. 일부 실시예에서, 이들은 네트워크로의 액세스 및 원격 지식 베이스(knowledge base)에 의해 보충된다.
"대화 내용" 또는 "대화 패턴" 또는 "대화 주제"가 지정 문장의 모음을 지칭하며, 문장은 질문 및 가령, 특정 테마 또는 주제 또는 관심 영역에 대한 (예상 또는 예측된 또는 가능한) 대답에 대응한다(그러나 반드시 그런 것은 아니지만, 일반적인 범위의 문장이 고려될 수 있다). 구문 변형이 로봇에 설치된 기존 대화 내용의 실체를 변경할 수 있다(가령, 최상급 표현, 가령, '수퍼(super)'의 삽입, 단어의 반복 등). 대화 내용 또는 패턴이 검열될 특정 단어(가령, 양자 택일 또는 확률이나 임계치에 따라 결정된 단어의 사용이 금지될 수 있음)를 얻을 수 있고, 그 밖의 다른 단어가 허용되거나 일부 단어의 사용이 권장될 수 있다(편향). 구체적으로 대화 내용 또는 패턴이 실질적 내용 및 그 밖의 다른 문화적 참조를 포함(또는 수정된 경우, 추가)할 수 있다. 단어의 선택은 맥락에 따라 달라질 수 있고 암시나 문화적 참조를 포함할 수 있다. 따라서 대화는 하나 이상의 대화 콘텐츠(문장으로 구성된 사전 조립된 대화)를 포함한다. 예를 들어, 단지 상업적 명칭 대신, 게임 애플리케이션은 로봇에 의해 "새와 녹색 돼지의 게임" 또는 "타깃으로 새를 던져야 하는 게임"이라고 알려질 수 있다. 문장, 가능한 질문 및 대답으로 구성된 이들 메타-설명(meta-description)이 대화 내용을 구성한다. 이러한 대화 내용은 로봇이 사용자와 대화할 수 있게 한다. 예를 들어, 사용자가 "새와 놀고 싶다(I would like to play with the birds)"라고 요청한 경우, 로봇은 "놀고 싶은 것이 실제 새인지 또는 가상의 새인지"라고 더 질문할 수 있다. 사용자가 "가상의 새"라고 응답하는 경우, 로봇은 "그렇다면 게임을 하고 싶은 건가?"라고 확인을 위해 질문할 수 있다. 사용자가 "예"라고 응답하는 경우, 로봇은 여전히 추가 확인을 요청할 수 있는데, 가령, "나한테 새를 녹색 돼지를 향해 던지는 게임이 있다"라고 질문할 수 있다.
"대화 스킨" 또는 "음성 스킨"은 오디오 렌더링 수정을 지칭한다. 이러한 오디오 렌더링 수정이 "형식"(가령, 주파수, 속도, 음높이 및 톤)에 영향을 미친다. 다시 말하면, 대화 스킨의 적용이 기본적인 사전 조립된 문장을 수정하지 않고 로봇의 표현성을 근본적으로 변경할 수 있다. 로봇과의 음성 대화의 수정의 영향이 서로 다른 레벨에서, 가령, 내용별(실체) 및/또는 형식(톤 등)으로 평가될 수 있다. 음성 스킨은 특정 음성을 모방하기 위한 파라미터를 포함할 수 있다. 음성 파라미터의 다양성이 음성 합성을 관리하도록 핸들링될 수 있다. 음성 파라미터는 주파수(로봇이 더 고음 또는 저음으로 말할지 여부를 결정), 속도(로봇이 말하는 속도), 톤(예를 들어, 배우 실베스터 스텔론과 배역 마스터 요다가 동일한 속도 및 주파수로 말하는 경우, 동일한 톤을 갖지 않는다). 하나의 실시예에서, 사용자는 자신의 동반자 로봇이 마스터 요다 또는 실베스터 스텔론 처럼 말할 것을 요구할 수 있다. 지정된 값으로 음성 파라미터를 적절하게 수정함으로써, 근접한 결과가 획득될 수 있다. "즉석" 모방은 그럴듯하며(오디오 발췌를 기록, 파라미터 추론 및 관련 수정을 적용) 로봇이 하나 이상의 사용자를 모방할 수 있게 한다. 하나의 실시예에서, 복수의 음성 스킨이 조합될 수 있다. 일부 음성 스킨이 조합에 호환되지 않을 수 있다(상호 배타적). 그 밖의 다른 일부 음성 스킨은 어느 정도까지 조합될 수 있다. 그 밖의 다른 일부 음성 스킨은 첨가적일 수 있다.
"대화 실행 규칙"이 하나 이상의 음성 스킨 및/또는 대화 내용 또는 패턴의 적용을 통제하는 실행 규칙을 지칭한다. "실행 규칙"은 스크립트, 프로그램 코드 또는 그 밖의 다른 경우 로봇이 말할 수 있는 구문을 적응(어휘, 문장의 종료 전에 또는 종료 시에 일부 표현의 추가 등)시킬 수 있는 부울 표현(Boolean expression) 또는 로직 규칙을 포함할 수 있다. (가령, 로봇이 질문에 대답하거나 상황을 명확화하려 시도하는 중이기 때문에) 로봇이 인간 사용자에게 무엇인가 말하려고 할 때마다, 로봇의 계획된 문장이 하나 또는 복수의 대화 실행 스킨 규칙에 매칭되는 경우, 문장은 이들 규칙에 따라 수정될 것이고 따라서 로봇이 이를 말할 것이다. 하나의 실시예에서, 하나 이상의 대화 실행 규칙이 하나 이상의 문장(즉, 로봇에 의해 말해지도록 계획된 문장)에 적용될 수 있다. 하나의 실시예에서, 상기 규칙은 로봇에 의해 말해질 각각의 문장에 적용될 수 있다. 하나의 실시예에서, 규칙은 문장의 서브세트, 가령, 지정 단어 또는 표현을 포함하는 것에 적용될 수 있다. 대화 실행 규칙이 지정될 수 있다. 대화 실행 규칙은 또한 인터넷으로부터 동적으로 불러와질 수 있다. 일부 규칙이 상호 배타적일 수 있는 동안 다른 일부 규칙은 추가될 수 있다. 예를 들어, 실행 규칙은 연령 제한을 포함(가령, 인코딩)할 수 있다. 누적 실행 규칙이 사용 또는 적용될 수 있다. 예를 들어, 12세 초과 사용자 앞에서 및/또는 특정 상황(시간대,측정된 청자의 감정 등)에 따라 특정 음성 스킨이 인가될 수 있다. 일부 실행 규칙이 사용자에 의해(가령, 부모 제어) 설정될 수 있다.
예를 들어, 문장 "나는 지금 춤을 출 수 있다"는 (로봇 메모리에 써진) 표준 지정 구문에 대응한다. "나는 지금 춤을 출 수 있다 hein biloute"는 "Ch'tis"라고 불리는 대화 패턴의 적용 후 로봇에 의해 표현되는 구문에 대응한다. 오디오 렌더링 또는 음성 스킨 "Ch'tis"는 (선택사항으로서) 적절한 소리 변조를 더 제공할 수 있다. 형식 및 실체가 다양하게 수정될 수 있다: 특정 악센트 또는 억양(가령, 북 프랑스 형식)이 추가될 수 있고, 로봇에 의해 사용되는 어휘가 풍부해질 수 있으며, 새 대화 주제(가령, 질문 및 대답의 모델)가 추가될 수 있다.
대화 모드(대화 내용 및/또는 대화 스킨)가 소프트웨어 편집자에 의해 정의 또는 프로그램될 수 있는 소프트웨어 패키지로 구현될 수 있다. 이러한 소프트웨어는 수정 가능하거나 그렇지 않을 수 있다. 다시 말하면, 대화 모드(가령, 음성 피부)가 완전히 결정될 수 있다(가령, 어떠한 추가 파라미터화도 공식적으로 허용될 수 없다). 대안적으로, 대화 모드가 부분적으로만 결정될 수 있다. 예를 들어, 일부(가령, 유한 개수의) 로컬 파라미터가 최종 사용자의 제어 하에서 유지될 수 있지만, (가령, 음성 스킨의 전체 무결성을 유지하기 위해) 대부분의 설정이 변경되지 않을 수 있다.
다시 말하면, 소프트웨어 애플리케이션은, 문자적 의미 이상으로, 대화 내용(가령, 지정 문장의 집합, 가령, 예상되는 질문에 대한 응답) 및/또는 대화 스킨(대화 내용외에, 즉, 실행 규칙, 가령, 환경, 머리의 운동과 동기화, 조명의 활성화의 기능으로서 적응 프로그래밍) 및 이의 조합(가령, 춤추면서 대화하기)일 수 있다(연관될 수 있다). 소프트웨어 애플리케이션들은 상호의존적일 수 있다. 멀티모드 출력의 결과로서, 소프트웨어 애플리케이션은 더 조합될 수 있다(출력 레벨에서 또는 더 낮은 레벨에서, 가령, 변수 또는 파라미터 또는 스크립트가 소프트웨어 애플리케이션들 간에 공유되거나 수정될 수 있다). 예를 들어, 로봇은 외부가 춥다는 것을 상징하는 제스처들의 조합과 함께 "외부는 -10°C이다"라고 말할 수 있다.
소프트웨어 애플리케이션은, 즉, 사용자와의 ("자연스러운(natural)") 대화의 동작 과정 중에 대화 인터페이스를 통해 사용자에게 표시될 수 있다. 다시 말하면, 대화 시스템은 사용자가 하나 이상의 애플리케이션을 런칭 또는 실행할 때 "병목"과 같이 동작할 수 있다.
도 1은 본 발명의 전역적 기술적 환경을 도시한다. 로봇(130)은 센서 및 액추에이터를 포함한다. 로직 또는 "마인드"(100)이 로봇 내에서 구현되거나 (예를 들어 원격으로) 로봇과 연관되며 소프트웨어(110) 및 하드웨어 구성요소(120)의 모음을 포함한다. 로봇(130)은 (양방향 통신(140), 가령, 하나 이상의 대화 세션을 통해) 하나 이상의 사용자(150)와 대화한다. 상기 하나 이상의 사용자는 (서버의 클라우드 및/또는 다른 로봇 또는 연결된 객체 무리와 통신하는 등) 연결된 장치일 수 있는 다른 컴퓨팅 장치(160)(가령, 개인 컴퓨터, 가령, 웨어러블 컴퓨터 또는 스마트폰 또는 태블릿)를 액세스할 수 있다. 특히, 연결된 장치는 웨어러블 컴퓨터(가령, 시계, 안경, 몰입형 헬멧(immersive helmet) 등)일 수 있다.
도면 상의 특정 로봇(130)이 본 발명이 구현될 수 있는 휴머노이드 로봇의 예시로서 간주된다. 도면 상의 로봇의 하지는 보행 기능을 하지 않고, 표면 상에서 구르는 베이스를 갖고 임의의 방향으로 이동할 수 있다. 본 발명은 보행에 적합한 로봇에서 쉽게 구현될 수 있다.
본 발명의 일부 실시예에서, 로봇은 다양한 유형의 센서를 포함할 수 있다. 이들 중 일부가 로봇의 위치 및 운동을 제어하도록 사용된다. 이는, 예를 들어, 로봇의 몸통에 위치하는 관성 유닛(inertial unit)이 3축 자이로미터 및 3축 가속도계를 포함하는 경우이다. 로봇은 또한 자신의 이마 상에 (상부 및 하부) 2개의 2D 컬러 RGB 카메라를 포함할 수 있다. 또한 3D 센서가 로봇의 눈 뒤에 포함될 수 있다. 상기 로봇은 또한 선택사항으로서, 예를 들어, 머리 및 이의 베이스에 레이저 라인 생성기를 포함하여, 주위에 존재하는 물체/생물체에 대한 자신의 상대적 위치를 감지할 수 있다. 로봇은 또한 주위의 소리를 감지할 수 있는 마이크로폰을 포함할 수 있다. 본 발명의 로봇은 또한, 자신의 베이스의 전면 및 후면에 위치할 수 있는 초음파 센서를 더 포함하여, 주위의 물체/인간까지의 거리를 측정할 수 있다. 로봇은 자신의 머리와 손 상에 촉각 센서(tactile sensor)를 더 포함하여, 인간과의 대화를 가능하게 할 수 있다. 로봇은 자신의 베이스 상에 범퍼를 더 포함하여 로봇이 자신의 경로 중에 마주치는 장애물을 감지할 수 있다. 로봇의 감정을 해석하고 주위 인간과 소통하기 위해, 본 발명의 로봇은, 가령, 로봇의 눈, 귀, 및 어깨에 LED와 (가령, 귀에 위치하는) 확성기를 더 포함할 수 있다. 로봇은 기지국, 그 밖의 다른 연결된 장치, 또는 그 밖의 다른 로봇과 다양한 네트워크(3G, 4G/LTE, Wifi, BLE, 메시(mesh) 등)를 통해 통신할 수 있다. 로봇은 배터리 또는 에너지 공급원을 포함한다. 상기 로봇은 자신이 포함하는 배터리의 유형에 적합한 충전 스테이션을 액세스할 수 있다. 로봇의 위치/운동이 센서의 측정 관점에서, 각 사지와 각 사지의 끝부분에서 형성된 효과기(effector)에 의해 형성된 체인을 활성화하는 알고리즘을 이용해 이의 모터에 의해 제어된다.
특정 실시예에서, 본 발명의 로봇은 메시지(오디오, 비디오, 웹 페이지)를 이의 주위 환경으로 통신하거나, 태블릿의 촉각 인터페이스를 통해 사용자로부터의 입력 값을 수신할 수 있는 태블릿을 가진다. 또 다른 실시예에서, 로봇은 스크린을 내장하거나 제공하지 않고, 데이터 또는 정보가 로봇 근방의 표면 상에 영사될 수 있도록 하는 비디오 영사기를 가진다. 상기 표면은 평면이거나(가령, 바닥) 평면이 아닐 수 있다(가령, 영사 표면의 왜곡이 보상되어 충분히 평면인 영사가 획득될 수 있다). 두 실시예 모두(스크린 및/또는 영상기를 갖는 실시예), 본 발명의 실시예가 유효하다: 본 발명의 대화 모델이 시각 대화 수단에 의해 보충 또는 보완된다. 어느 경우라도, 그래픽 수단이 고장나거나 비활성화될 경우, 종래의 대화 모드가 유지된다.
하나의 실시예에서, 로봇은 이러한 그래픽 사용자 인터페이스 수단을 포함하지 않는다. 기존 휴머노이드 로봇에는 일반적으로 진보된 음성 능력이 제공되지만, GUI는 제공되지 않는다. 점점 더 많은 수의 사용자가 선택적으로 및/또는 필수적으로(어린이, 장애인, 실시 상황 등 때문에) 로봇과 통신하기 위해 그래픽 수단(가령, 태블릿, 스마트폰)을 - 심지어 보조도구로서도 - 사용하지 않을 것이다.
소프트웨어(110)의 모음(전부는 아니지만)은 서로 대화하는 소프트웨어 모듈 또는 객체 또는 소프트웨어 코드 부분, 가령, "추출기(extractor)"(111), "활동 제안"(112), "마인드 우선순위화"(113), "패키지 관리자"(114), "사용자 히스토리 데이터"(115), "집중 자율 활동"(116) 및 "집중 대화 주제"(117) 및 "건강 모니터링 서비스"(118)을 포함한다.
일반적으로 "추출기 서비스"(111)는 로봇의 내부 또는 외부에 있는 무언가를 감지 또는 지각하고 로봇의 메모리로 단기 데이터를 제공한다. 추출기 서비스는 로봇 센서로부터 입력 판독물을 수신하며, 이들 센서 판독물이 사전처리되어, 로봇의 위치, 주위 물체/인간의 신원, 상기 물체/인간의 거리,인간이 발음한 단어 또는 감정과 관련된 데이터를 추출할 수 있다. 추출기 서비스는, 특히, 안면 인식, 인간 지각, 체결 구역(engagement zone), 손 흔듦 검출(waving detection), 미소 검출, 시선 검출, 감정 검출, 음성 분석, 음성 인식, 소리 위치 찾기, 운동 검출, 파노라마 나침반, 로봇 포즈, 로봇 건강 진단, 배터리, QR 코드 핸들링, 홈 자동화, 부족(tribe), 시각 및 스케줄을 포함한다.
"액추에이터 서비스"에 의해 로봇(130)이 동작을 물리적으로 수행할 수 있다. 모션 추적기, LED, 행동 관리자가 "액추에이터 서비스"이다.
"데이터 서비스"가 장기 저장된 데이터를 제공한다. 데이터 서비스의 예시는 사용자 데이터 및 로봇에 의해 수행된 것의 히스토리를 저장하는 사용자 세션 서비스(115), 및 하이 레벨 정의, 런칭 조건 및 태그를 갖고 로봇에 의해 실행되는 절차의 확장 가능한 저장소를 제공하는 패키지 관리자 서비스(114)이다. 특히, "패키지 관리자"는 활동 및 대화, 및 매니페스트(Manifest)의 확장 가능한 저장소를 제공한다. "매니페스트"은 메타데이터, 가령, 런칭 조건, 태그 및 하이 레벨 기술을 포함한다.
"마인드 서비스"(가령, 서비스 마인드 우선순위화(113))는 로봇이 동작을 개시할 때 로봇의 중앙 "마인드"에 의해 제어될 것들이다. "마인드 서비스"는 "액추에이터 서비스"(130), "추출기 서비스"(111) 및 "데이터 서비스"(115)를 함께 묶는다. 기본 의식이 "마인드 서비스"이다. 이는 "추출기 서비스", 가령, 사람 지각, 운동 검출, 및 소리 위치 찾기를 이용해 모션 서비스에게 움직일 것을 명령할 수 있다. "마인드"(113)가 상황을 기초로 기본 의식(Basic Awareness)의 행동을 구성한다. 그 밖의 다른 때, 기본 의식은 스스로 동작하거나, 러닝 활동(Running Activity)에 의해 설정된다.
"자율 생활부(Autonomous Life)"는 마인드 서비스이다. 이는 행동 활동을 실행한다. 상황의 맥락을 기초로, 마인드부(Mind)는 자율 생활 부에게 집중할 활동("집중 자율 활동"(116))이 무엇인지를 알려줄 수 있다. 매니페스트의 메타데이터가 이 정보를 마인드 부로 연결한다. 임의의 활동이 운영 체제 API 중 하나 이상을 액세스할 수 있다. 활동부가 집중할 활동을 자율 생활부에게 직접 말하거나, 집중할 주제를 대화 서비스에게 말할 수 있다.
"대화" 서비스는 마인드 서비스로서 구성될 수 있다. 이는 음성 인식 추출기를 이용하고 말하기 위해 "애니메이션된 음성 액추에이터 서비스"를 이용할 수 있다. 상황 맥락을 기초로, 마인드부가 집중할 주제("대화 주제(Dialog Topic)")를 대화부(Dialog)에게 말할 수 있다. "대화" 서비스는 또한 대화를 관리하기 위한 알고리즘을 가지며, 일반적으로 스스로 동작한다. 대화 서비스의 한 가지 구성요소는 "집중 대화 주제" 서비스(117)일 수 있다. 프로그램에 따라 대화 주제는 언제라도 상이한 활동 또는 대화 주제로 초점을 전환하도록 마인드에게 말할 수 있다. 대화 주제를 결정하기 위한 가능한 방법의 한 가지 예시는 다음을 포함할 수 있다: 대화 주제 또는 활동의 런칭 조건이 참 또는 거짓이 되는 순간, 순간에 대한 모든 가능한 활동 또는 대화 주제의 목록이 마인드부로 전송되며, 목록은 활동 우선순위화에 따라 필터링되고, 목록 순서가 랜덤화되며, 목록이 정렬(또는 점수 부여)되어 "고유"하며 덜 빈번하게 시작되는 활동 또는 대화 주제에 우선순위를 부여하고, 이 목록의 상위 대화 주제 또는 활동이 실행된 이전 활동과 동일한 활동이 아님을 확실시하기 위해 특수 체크가 이뤄진다. 목록은 사용자의 선호에 따라 다시 정렬되고 필터링될 수 있다.
로봇이 "건강 모니터링" 서비스(118)를 구현할 수 있다. 이러한 서비스는 데이몬(daemon) 또는 "와치독(watchdog)"으로서 동작하여, 로봇의 서로 다른 우선순위를 검토 또는 제어 또는 규정할 수 있다. 이러한 서비스는 (연속적으로, 간헐적으로 또는 주기적으로) 로봇의 내부 구성요소의 상태를 모니터링하고 하드웨어 고장을 측정 또는 예상 또는 예측 또는 수정할 수 있다. 하나의 형태에서, 로봇의 플릿(fleet)(가령, 설치된 베이스)이 모니터링된다. 내장된 서비스가 연속으로 오류 상황을 검출하고 (예를 들어 1분마다) "클라우드" 서비스와 동기화시킬 수 있다.
하드웨어 구성요소(120)는 처리 수단(121), 메모리 수단(122), 입/출력 I/O 수단(123), 대량 저장 수단(124) 및 네트워크 액세스 수단(125)을 포함하고, 상기 수단은 서로 대화한다(캐싱, 스와핑, 분산 컴퓨팅, 로드 밸런싱 등). 처리 수단(121)은 CPU(멀티코어 또는 매니코어(manycore)) 또는 FPGA일 수 있다. 메모리 수단(122)는 플래시 메모리 또는 랜덤 액세스 메모리 중 하나 이상을 포함한다. I/O 수단(123)은 스크린(가령, 터치 스크린), 조명 또는 LED, 햅틱 피드백, 가상 키보드, 마우스, 트랙볼, 조이스틱 또는 영사기(가령, 레이저 영사기) 중 하나 이상을 포함할 수 있다. 저장 수단(124)은 하드 드라이브 또는 SSD 중 하나 이상을 포함할 수 있다. 네트워크 액세스 수단은 하나 이상의 네트워크, 가령, 3G, 4G/LTE, Wifi, BLE 또는 메시 네트워크로의 액세스를 제공할 수 있다. 네트워크 트래픽은 암호화될 수 있다(가령, 터널, SSL 등).
하나의 실시예에서, 컴퓨팅 자원(계산부, 메모리, I/O 수단, 저장부 및 연결부)이, 예를 들어, (로봇 자체에서 이용 가능한) 로컬 자원의 보조로서 원격으로 액세스될 수 있다. 예를 들어, 추가 CPU 유닛이 음성 인식 컴퓨팅 작업을 위한 클라우드를 통해 액세스될 수 있다. 컴퓨팅 자원이 또한 공유될 수 있다. 특히, 복수의 로봇이 자원을 공유할 수 있다. 로봇 근방의 연결된 장치가 또한, 가령, 보안 프로토콜을 통해 어느 정도까지 자원을 공유할 수 있다. 디스플레이 수단이 또한 공유될 수 있다. 예를 들어, 텔레비전이 로봇에 의해 추가 디스플레이로서 사용될 수 있다.
도 2는 방법의 실시예의 일부 양태를 상세히 도시한다. 로봇(130)은 인간 사용자(150)와 상호 대화한다(가령, 대화(dialog), 제스처(gesture), 명령어(command)). 상호 대화의 일부분은 문장(대답, 질문, 주문, 주장, 코멘트 등)을 포함하는 대화(140)이다. 일반적으로 로봇은 자신의 디폴트 표준 음성 스킨(형식)을 이용하고 표준적이며 지정된 대화 내용(실체)을 출력한다. 예를 들어, 로봇은 대화 문장(141)을 말한다. 특정 파라미터(사용자 요청 또는 환경 파라미터)에 따라, 로봇은 또 다른 음성 스킨 및/또는 또 다른 대화 콘텐츠, 가령, (142)로 전환할 수 있다. 로봇은 또한 초기 또는 디폴트 음성으로 다시 전환될 수 있다. 더 구체적으로, 디폴트 음성 스킨 및 대화 내용(200)(또는 초기/수정된 음성 스킨 및/또는 수정된 대화 내용)으로 시작하여, 대화 실행 규칙(220)이 대화가 수정될지 여부 및 어느 정도까지 수정될지를 결정한다.
대화 실행 규칙(220)이 예를 들어, 사용자 요청(221)에 의해 및/또는 (예를 들어, 센서 또는 로봇을 통해 결정되거나, 추출기에 의해 필터링되거나, 로봇의 마인드(Mind)에 구현된 로직에 관해 기재된 실시예에 따르는) 지각된 환경(222)에 의해 영향 받거나 결정된다. 예를 들어, 환경 파라미터는, 근접한 곳의 한 명 이상의 사용자의 연령 그룹(아이, 성인), 근접한 곳의 한 명 이상의 사용자의 성별, 근접한 곳의 사용자의 총 명수, 현재 위치, 현재 날짜 및 시각, 한 명 이상의 사용자의 현재 기분(가령, 미소지음, 웃기, 울기 등)을 포함한다. 사용자 요청(221)은 새로운 대화 모드의 활성화의 "요구(on demand)" 모드에 대응한다(예를 들어 사용자는 "즉시 다스 베이더를 흉내내라"라고 말할 수 있다). 지각된 환경을 통한 결정이 새 대화 모드의 활성화의 "자동 트리거" 모드를 강조한다. 로봇은 사전적으로(proactively) 대화 모드의 하나 이상의 파라미터를 활성화 또는 비활성화할 수 있다(음성 스킨을 감쇠 또는 과장하고, 대화 내용을 적응시키는 등). 2개의 활성화 모드(또는 비활성화 모드)가 조합될 수 있다, 즉, 사용자 요청에 의해 부분적으로 그리고 환경에 의해 부분적으로 새 대화 모드의 트리거가 결정될 수 있다. 예를 들어, 사용자 요청이 있으면, 환경 파라미터가 대화 모드의 변화를 확인 또는 금지할 수 있다. 또는, 자동 스위치가 활성화되도록 사용자에 의한 확인 또는 인가를 필요로 할 수 있다. 일반적으로 대화 모드는 어느 때라도 활성화 또는 비활성화될 수 있다. 하나의 실시예에서, 로봇은 복수의 대화 모드를 오고 갈 수 있다. 선택사항으로서, (사용자 포화 상태를 피하거나 로봇이 제정신이 아니라는 인상을 주기 위해) 변경 횟수의 제한이 구현될 수 있다.
대화 실행 규칙(220)이 실체 및/또는 형식에 대해 작용하며, 이는 독립적으로 핸들링된다. 규칙이 새로운 대화 내용(210)(예를 들어, 잘 알려진 문장을 표현함으로써 영화 언급)의 로딩을 결정하고, 오디오 렌더링 변경(230)을 제어할 수 있다. 어떠한 대화 콘텐츠도 선택되지 않는 경우(211)라도, 새 음성 스킨이 적용될 수 있다(230). 새로운 또는 수정된 대화 콘텐츠가 또한 새로운 음성 스킨(231) 없이 적용될 수 있다. 결정된 파라미터가 대화 모드에 적용된다(또는 새로운 대화 모드가 로딩되거나 롭소에 의해 사용되는 현재 대화 모드에 치환된다). 예를 들어, "Ch'tis"라고 불리는 대화 모드가 적용되며 문장(142)이 발음된다. 전체적으로 또는 부분적으로, 대화 내용 및/또는 음성 스킨 파라미터가 인터넷 또는 클라우드(223)로부터 불러와질 수 있다.
대화 모드의 예시(구체적으로 대화 내용 및 음성 스킨)가 지금부터 기재된다.
하나의 실시예에서, "유틸리티" 대화 모드(가령, 대화 내용의 수정)는 하나 이상의 사전(또는 관련어 사전(thesaurus))을 이용하여 로봇이 특정 문장을 여러 다른 방식으로 말할 수 있다. 예를 들어, 동의어가 사용될 수 있다. 바람직하게는, 이러한 실시예가 로봇이 단어를 반복하는 것을 피하게 한다. (사전 조립된 대화 문장을 편집하는) 언어학자가 많은 대화 내용 또는 주제를 기입하여, 로봇이 많은 것들에 대해 말할 수 있게 할 수 있다. 인간이 여러 다른 단어를 함께 사용할 때 동의어의 사용이 로봇의 표현의 다양성을 증가시킨다. 대화 모드가 대화 문장을 상이하게 만들 수 있다, 예를 들어, "the weather is nice today"를 반복하는 대신, 로봇은 "the weather is lovely today"를 말할 수 있을 것이다.
하나의 실시예에서, "로컬" 적응화는 복수의 파라미터, 가령, 지리적 위치(geolocation)에 따라 대화 내용 및/또는 음성 스킨을 커스텀화 또는 개인화할 수 있다. 예를 들어, 일부 지리적 영토의 일부 언어적 특징 - 가령, 로봇이 상용화될 경우 - 이 적절한 음성 스킨의 적용에 의해 핸들링될 수 있다. 이러한 실시예에서, 특정 단어의 발음이, 가령, 지리적 위치를 기초로 적응될 수 있다. 예를 들어, 음성 스킨의 트리거링 조건이 지리적 위치 파라미터를 포함할 수 있다. 실제로, 프랑스 남부에서 상용화된 로봇이 남 프랑스 악센트를 자동으로 로딩할 수 있고, 반대로 프랑스 북부의 경우 북부 악센트가 자동으로 로딩할 수 있다. 관용구 표현이 또한 적용될 수 있다.
하나의 실시예에서, "교육적" 대화 모드가 구현 또는 실행될 수 있다. 일반적으로 말하면, 실체적 내용의 추가가 대화 모드의 적용의 일부일 수 있기 때문에, 일부 교육적 범위가 고려될 수 있다. 이러한 모드에서, (가령, 선행학습, 목표의 정의, 교육적 콘텐츠, 동화의 검증 단계에 의해) 교육적 대화 모드가 구현될 수 있다. 사용자는 동반자 로봇에 의해 외국어를 학습할 수 있다. 이들은 또한 모국어의 측면을 더 발견할 수 있다. 예를 들어, 서로 다른 언어 스타일이 어린 사용자들에게 교수될 수 있다(프랑스어 "soutenu", 프랑스어 "Verlan", 프랑스어 "argot" 등). 또한 대화 모드가 특정 전문 용어(의료, 법률 등)를 구현할 수 있다.
하나의 실시예에서, "놀이" 대화 모드가 구현될 수 있다. 예를 들어 로봇은 최근 개봉한 영화를 흉내내거나 참조할 수 있다. 예를 들어, 음성 스킨이 "다스 베이더" 또는 "마스터 요다" 스킨일 수 있다(요다 캐릭터는 종종 동사와 주어를 바꿔 넣고, 다스 베이더는 문장의 끝에 "I am your father"와 잡음 섞인 숨소리를 추가할 수 있다.
하나의 형태에서, 영화의 개봉이, 로봇에 로딩될 때 로봇이 특정 대화 모드를 (대화 내용 및/또는 음성 스킨 표현성의 측면에서) 구현할 수 있는 다운로드 가능한 프로그램과 연관된다. 예를 들어, 영화 "Bienvenue chez les Ch'tis"의 개봉 후, 대응하는 대화 모드가 "goodies" 또는 파생 산물로 이용 가능해질 수 있다. 하나의 실시예에서, DVD 자켓의 후면 또는 영화표 상에서 이용 가능한 QR 코드가 이미지 획득 수단에 의해 판독될 수 있고 대응하는 대화 모드를 구현하는 대응하는 소프트웨어 프로그램이 다운로드되고 추가 설치될 수 있다. 선택사항으로서, 이러한 소프트웨어 프로그램의 효과 지속시간이 제한적일 수 있다(가령, 2주). 또 다른 실시예에서, 유명한 스타 또는 셀러브리티 또는 영화주인공이 이들 디지털 대화 모드의 상대를 가질 수 있다. 예를 들어, Claude Francois(프랑스의 유명 가수)의 팬이 로봇에서 대응하는 음성 스킨(가령, 음성 흉내, 억양) 및/또는 대화 내용(가령, 모사, 인용, 인터뷰 정확한 응답 또는 재구성 등)을 구현할 수 있다. 멀티모드 목적으로, 기재된 대화 모드에 추가로(및 선택적으로), 예를 들어, 로봇이 Claude Francois처럼 춤을 추거나 (적용 가능한 경우 저작권 양태와 관련하여) 가수의 기록된 지난 인터뷰의 실제 발췌본으로 대답할 수 있다.
하나의 실시예에서, 로봇은 사용자와의 대화로부터 장기간 동화에 도달할 수 있다. 예를 들어, 개인화되고 영속적인 대화 모델이 특정 로봇과 점진적으로 연관될 수 있다. 장기간 특질의 선택 및 유지가 로봇과 연관된 "캐릭터"의 고유성을 형성하는 데 도움이 될 수 있다. 예를 들어, 특정 표현, 가령, "vin de diouss"이 스킨의 특정 형태가 영구적으로 구현될 정도로 특정 사용자를 따라 충분히 높은 수락률을 표시할 수 있다. 스킨이 거듭될수록, 특히 음성 스킨의 서로 다른 대화 모드의 서로 다른 특성들을 혼합하여, 로봇의 "인격"이 통합될 수 있다.
언어 상호 대화이 로봇과 사용자 모두에 대한 학습 곡선을 보일 수 있다. 이러한 상호 대화은 참가자들 중 한 명이 로봇인 경우에도 "사회적 상호 대화"으로 지칭될 수 있다. 예를 들어, 격려(확정)에 의해 종료되는 반복적인 언어 상호대화가 학습 활동을 촉진시킬 수 있다. 일반적으로 대화 상호 대화이 "활용"과 "학습" 단계 간 간격을 감소시킨다. 동반자 로봇이 가령 인간의 표현을 다시 사용하거나, 및/또는 유사한 음성 속도를 이용해 자신의 "교육자"를 흉내내기 시작할 수 있다. 로봇과 상호 대화이 많을수록, 지식 베이스가 풍부해지고, 교차-체크되기 때문에, 일반적으로 더 높은 관련성의 상호 대화을 의미한다.
대화 모드의 트리거(가령, 실행 규칙에 의한 대화 내용 및/또는 대화 스킨의 활성화 또는 비활성화)의 예시가 이하에서 기재된다.
대화 모드(가령, 음성 스킨)가 하나 이상의 실행 규칙과 연관될 수 있다. 대화 모드는 이러한 실행 규칙에 따라 트리거(활성화 또는 비활성화)될 수 있다. 이하에서 여러 다른 실시예가 기재된다. 인간 사용자와 로봇 간 문장을 포함하는 대화 동안 대화 콘텐츠 및 대화 음성 스킨을 포함하는 대화 모드의 런칭 또는 실행을 트리거하기 위한 몇 가지 방식이 존재한다. 하나 이상의 대화 모드의 런칭 또는 실행을 트리거하기 위한 (특히, 이하에서 기재되는) 이들 서로 다른 방식이 서로 독립적일 수 있고 추가로 조합될 수 있다.
하나의 실시예에서, 하나 이상의 소프트웨어 애플리케이션의 런칭 또는 실행이 사용자와의 대화(사용자와의 상호 대화) 동안 트리거된다. 오디오 신호가 캡처되고, 선택사항으로서 필터링 및 개선되며, (로봇 상에 로컬하게 및/또는 클라우드 상에 원격으로) 음성-텍스트 동작(speech-to-text operation)이 수행되며, 획득된 텍스트가 분석되고 패턴과의 하나 이상의 비교가 수행된다. 하나 이상의 매칭이 존재하면, 선택사항으로서 임계치를 이용해, 로봇 상에 설치된 것들 중에서 하나 이상의 대화 모드가 선택된다. 따라서 하나 이상의 대화 모드가 실행된다.
하나의 실시예에서, 대화 모드의 런칭이 완전 자동화된다, 즉, 사용자의 동의 또는 확인 없이 런칭될 수 있다. 하나의 형태에서, 사용자 또는 수퍼-사용자(가령, 부모)가 대화 모드의 실행을 중단, 유예, 또는 종료시킬 수 있다. 또 다른 실시예에서, 대화 모드의 런칭이 사용자에 의한 명시적 확인을 필요로 한다. 로봇은 특정 대화 모드를 런칭하기 위한 자신의 의도를 선언할 수 있지만, 계속하기 전에 확인을 기다릴 것이다. 예를 들어, 로봇은 "다스 베이더처럼 말할까요"라고 선언할 수 있고 사용자는 "나중에"라고 대답할 수 있다.
하나의 실시예에서, 대화 모드는 런칭 조건 또는 파라미터에 따라 실행될 수 있다. 이들 조건 또는 파라미터는 사실 또는 규칙일 수 있고, 둘 모두(사실에 근거한 규칙)일 수 있다. 이들 사실의 예로는, 사용자의 유형 또는 카테고리, 하나 이상의 환경 값에 의해 특징지워지는 현재 맥락 또는 상황 또는 환경을 포함한다(가령, 현재 지역 날씨, 날짜 및 시각, 검출 감정, 사용자 수 등). 실행 규칙은 단순한 규칙에서 복잡한 규칙까지 다양하다. 실행 규칙은 조건적일 수 있다. 예를 들어, 하나의 실시예에서, 복수의 규칙이 대화 모드의 실행을 인증 또는 허용하기 위해 동시에 만족되어야 한다. 또 다른 실시예에서, 복수의 규칙이 순차적으로(가령, 특정 순서로 및/또는 시간 제한 또는 임계치 내에) 만족되어야 한다. 일부 실행 규칙이 지정될 수 있다. 그 밖의 다른 일부 실행 규칙이 동적으로 정의될 수 있다(가령, 일부 규칙이 인터넷으로부터 불러와질 수 있다).
하나의 실시예에서, 실행 규칙이 단순 규칙일 수 있다. 예를 들어, 실행 규칙은 연령 제한을 포함(가령, 인코딩)할 수 있다. 또 다른 실시예에서 복수의 실행 규칙이 누적 사용 또는 적용될 수 있다. 예를 들어, 12세 초과 사용자 앞에서 및/또는 특정 상황(시간대,측정된 청자의 감정 등)에 따라 특정 음성 스킨이 인가될 수 있다. 하나의 실시예에서, 지정 이벤트의 검출 후에 로봇에 의해 대화 음성 스킨 또는 대화 내용의 적용이 트리거되고, 상기 이벤트가 시간 기준(일정표, 하루 중 시간대 등)과 공간 기준(근접한 곳에서 검출된 사용자 수, 상기 사용자의 각각의 연령, 상기 사용자로부터 지각되는 감정적 태도, 가령, 미소짓고 있거나 그렇지 않음)의 특정 조합을 결정한다.
하나의 실시예에서, 일부 실행 규칙이 사용자에 의해(가령, 부모 제어) 설정될 수 있다. 그 밖의 다른 일부 실행 규칙은 지정될 수 있고, 또 다른 실행 규칙은 동적으로, 가령, 인터넷 및/또는 그 밖의 다른 로봇으로부터 불러와질 수 있다. 대화 모드가 동일한 대화 동안 활성화 또는 비활성화될 수 있으며: 이들 활성화 또는 비활성화는 동적일 수 있고, 가령, 서로 다른 방식으로 지각된 환경에 따라 달라질 수 있다.
하나의 실시예에서, 대화 모드가(즉, 대화 콘텐츠 및/또는 대화 스킨이 독립적으로) "태그"의 사용 및/또는 "조건"의 사용 및/또는"사전조건"의 사용을 포함하여 몇 가지 파라미터에 따라 활성화되거나 종료될 수 있다.
태그는 로봇이 말할 수 있는 하나 또는 복수의 표현에 연관될 수 있는 마커이다. 이들 태그는 동적으로 활성화 또는 비활성화되고 연관된 표현이 저장될 수 있는지 여부를 결정할 수 있다. 예를 들어, 로봇이 "요리에 대해 대화하는 걸 좋아하나요"라고 물은 후, 사용자가 "아니, 요리에 관심 없어"(또는 이와 유사한 답)을 응답할 때, 태그 "요리"가 비활성화된다. 로봇은 식별된 사용자와 연관된 대화 주제의 목록을 업데이트한다. 로봇은 마래에 상기 대화 주제를 피할 것이다.
"조건" 및 "상호 조건"이 지정 변수(가령, 사용자 선호)의 함수로서 로봇이 말하려는 것을 수정할 수 있다. 예를 들어 로봇에 의해 던져진 질문 "당신은 몇살입니까?"에 대해, 사용자는 "12살"이라고 대답할 수 있다. 이 경우, 로봇은 값 12를 식별된 사용자의 나이의 값으로 저장한다. 그 후, 로봇은 "오늘 밤에 무엇을 할 것입니까"라고 질문할 수 있다. 사용자가 "아무것도 안 해"라고 응답하는 경우, 로봇은 "저녁 활동"과 연관된 변주로서 응답을 저장한다. 연령 그룹 및 저녁 시간 대의 할 일의 부재로부터, 로봇의 사고(reasoning)가 저녁 시간에 "저랑 놀래요?"라고 제안할 수 있다.
하나의 실시예에서, 트리거링(즉, 대화 모드 또는 음성 스킨 또는 대화 내용의 활성화 또는 비활성화)이 맥락(가령, 환경, 날짜, 시, 위치 등)에 따라 구동될 수 있다. 하나의 실시예에서, 로봇은 하나 이상의 사용자 표현을 모니터링하고 기록할 수 있다. "atmosphere" 같은 단어의 검출이 있으면, 로봇은 ""atmosphere, atmosphere, est ce j'ai une gueule d'atmosphere?"라고 말할 수 있다. 이는 문화적 참조(cultural reference)의 하나의 예시이다. 그러나 대화는 훨씬 더 정교한 사실 및 규칙에 의해, 가령, 이른바 "이벤트" 검출에 의해, 트리거될 수 있다. 예를 들어, 특정 대화 모드 또는 스킨이 특정 연령 그룹의 존재 하에서는 허용되지 않을 수 있다. 실제로, 예를 들어, 로봇은 적어도 사용자가 12세 미만이라고 평가하고 대화 중에 단어 "French fries"를 검출하고, 특정 지정 스킨("Ch'tis")을 로딩할 수 있다. 사용자가 로봇의 머리를 건드릴 때 이벤트의 또 다른 예시가 발생한다. 이러한 경우, 특정 스킨이 로딩, 활성화 및 실행될 수 있다. 이벤트는 다음의 파라미터를 포함할 수 있다: 공간 배치, 제스처 또는 제스처 조합, 대화 콘텐츠(키워드 또는 키 표현), 연령 그룹 및 성별의 평가, 사용자 선호.
하나의 실시예에서, 하나 이상의 애플리케이션이 대화 동안 실행되고, 하나 이상의 실행 규칙의 수행(또는 검증 또는 만족)에 의해 트리거된다. 인간과 기계 간 대화가 모니터링되고 "패턴"이 (예를 들어) 연속적으로 대화 흐름으로부터 추출된다("협업적 대화" 모드). 하나의 실시예에서, 음성 흐름이 수신되고 연속적으로 분석된다. 추출은 마커("OK Glass, take a picture")가 있던 없던 음성 흐름에서의 음성 명령어(가령, 키 표현)의 단순 추출 이상이다. 특히, 사용자의 단어 또는 표현이 추출 및 비교되거나 지정 조건, 태그, 마커 또는 상호-조건에 대해 매칭된다.
또 다른 실시예에서, 하나 이상의 실행 규칙이 지정된다. 편집자 또는 퍼블리셔에 의해, 상기 대화 모드의 실행을 인거할 수 있도록 하는 실행 규칙의 목록을 포함하는 파일과 함께 소프트웨어 애플리케이션이 제공된다. 실행 규칙이 시험된다: 이들이 만족되거나 허용 또는 검증된 경우, 하나 이상의 대화 모드가 선택될 수 있다. 일부 규칙은 수행되기 최소한의 기준일 수 있다. 그 밖의 다른 일부 규칙 시간이 바람직한 런칭 또는 실행 조건을 정의할 수 있다. 예를 들어, 최소 실행 규칙은 "사용자가 12세 미만이고 22시 전인 경우, 다스 베이더 음성 스킨이 인가된다"일 수 있으며, 바람직한 규칙은 "3명의 사용자가 5분 내에 위치하고, 적어도 2명의 사용자가 12세 미만이며, 적어도 한 명이 웃고 있고, 다른 누구도 반대 표시를 하지 않는 경우, 조크와 다스 베이더 목소리를 제안한다"일 수 있다.
이하에서 다양한 실시예가 기재된다.
이하에서 반동 루프(retroaction loop) 및 관련성 피드백(relevance feedback)이 기재된다. 하나의 실시예에서, 인간 사용자의 관점에서 특정 대화 모드(가령, 음성 스킨)의 전체 성공 또는 실패는 수신 및/또는 정량화될 수 있다. 하나의 형태에서, 세밀한 입도로, 로봇의 각각의 언어 계획이 사용자에 의해(예를 들어, 제스처와 음성 명령어를 조합하는 복잡한 인간 행동으로부터 도출된 명시적 승인 또는 심지어 묵시적 승인을 검출함으로써) 확인 또는 부정될 수 있다. 덧붙여, 협업적 모델이 구현될 수 있다: 특정 표현의 검증 또는 비검증이 사용자/로봇의 무리들 중에서 통계적으로 수행될 수 있다. 예를 들어, 표현 "cha va biloute"이 설치된 베이스의 조각에 대해 75%보다 뛰어난 긍정적인 피드백을 수신하는 경우, 상기 표현은 전세계 규모로 검증될 수 있다. 반대로, 표현 "a l'arvoiure"이 지나치게 적은 긍정적인 피드백을 수신한 경우(또는 부정적인 피드백을 수신한 경우), 상기 표현은 특정 대화 모드 또는 모델로부터 영구적으로 제거될 수 있다.
하나의 형태에서, "스킨 적용된" 대화로 인간이 제공한 응답이 기록되고 추가로 활용될 수 있다. 하나의 실시예에서, 응답은 로봇 개입의 품질을 측정하기 위해 사용된다. 또 다른 실시예에서, 이의 응답의 실체가 추가로 사용되어 대화 모델을 더 풍부하게 할 수 있다. 예를 들어, 응답이 주기적으로 관측되는 경우, 응답이 대화 모드에서 추가로 재 사용된다(즉, 대화 내용).
기술적 사항을 포함하는 비지니스 양태와 관련하여, 하나의 실시예에서, 대화 모드(가령, 음성 스킨)가 전자 시장을 통해 분산된다. 일부 스킨은 자유롭게 다운로드될 수 있고, 또 다른 스킨은 지불을 필요로 할 수 있다. 일부 스킨은 시간, 지역 또는 그 밖의 다른 하드웨어 요건에서 제한적일 수 있다.
동반적 로봇이 이론적으로 인간이 말하는 모든 단어를 기록할 수 있는 경우라도, 프라이버시 측면에서 이러한 기록이 방지된다. 머신 러닝 기법을 이용함으로써, 하이-레벨 및 비-침입적 특징이 로봇에 의해 획득될 수 있다. 예를 들어, 머신 러닝 기법에 의해, 순환 패턴이 추출될 수 있다(어휘 유형, 선호되는 표현 등). 마찬가지로, 영화로부터의 제한적 추출이 자막의 분석으로부터 발생할 수 있다(마스터 요다의 예시에서, 이러한 분석으로부터 대화 내용이 결정될 수 있다). 톤 및 주파수의 양태와 관련하여, 제어된 러닝에 의해 로봇이 특정 지정 사람을 흉내 낼 수 있다. 예를 들어, 로봇은 말하기 시작할 수 있으며 특정 파라미터를 수정하도록 추가 요청받을 수 있다("조금 더 높게 말해줄래"). 하나의 실시예에서, 구현된 음성 스킨과 실제 오디오 발췌본 간 자동화된 비교가 수행되어, 개선 피드백 루프를 위한 기회를 제안할 수 있다.
이하에서 대화 내용의 저작이 기재된다. 서로 다른 개체가 대화 내용을 편집할 수 있다. 하나의 실시예에서, 조작자 또는 로봇 플랫폼이 대화 문장을 저작할 수 있다(가령, 언어학자가 대화 문장을 쓴다). 하나의 실시예에서, 제3자 회사(가령, 소프트웨어 개발자)에 의해 대화 내용이 써지고 상용화된다. 하나의 실시예에서, 사용자 또는 로봇의 소유자에 의해 대화 모드가 써진다. 예를 들어, 소프트웨어 툴("DJ-스킨") 또는 웹 플랫폼이 음성 스킨의 생성 또는 수정을 촉진시킬 수 있다. 사용자는 새로운 음성 스킨을 제출하거나, 온라인으로 편집하거나, 인기 있는 것에 대해 투표하거나 등급화할 수 있다. 편집이 지정 음성 스킨을 혼합 및/또는 사용자에게 일부 생성 제어를 제공하여 음성 스킨을 미세 조절할 수 있는 것 및/또는 소리 또는 기록된 문장을 업로드 및 공유하는 것, 또는 이들의 조합을 포함할 수 있다. 이용 가능한 스킨이 무료 또는 지불하도록 라이센스를 포함하거나 포함하지 않을 수 있다. 예를 들어 서로 다른 음성 스킨의 서로 다른 애플리케이션을 청취하고 하나 이상의 선호되는 스킨을 선택할 수 있는 로봇의 사용자에 의해 음성 스킨이 선택될 수 있다. 또 다른 실시예에서, 대화는 다양한 개체에 의해 공동-저작된다. 하나의 실시예에서, 대화가 로봇의 설치된 베이스 및 서로 다른 로봇의 소유주인 사용자의 응답으로부터 통합된다. 상기 통합은 초기 대화를 보조할 수 있다. 또 다른 실시예에서, 보조적으로 또는 대안적으로, 인터넷 콘텐츠에 대해 실시된 추출에 의해 대화 내용이 써진다(예를 들어, 감독되거나 감독되지 않는 방법이 질문 및 대답을 식별, 추출 및 사용할 수 있다). 이러한 실시예는 분산된 피드백을 수신하여 대화 내용의 빠른 개선을 가능하게 한다. 상기 개선은 설치된 베이스 간에 빠르게 전파될 수 있다. 예를 들어, 폐쇄-루프 머신 러닝을 이용함으로써, 인기 많은 음성 스킨이 전세계에 전파될 수 있다.
복수의 개체가 대화 모드의 정의에 기여할 수 있는 경우(즉, 대화 내용 및/또는 음성 스킨 및/또는 연관된 실행 규칙을 제공), 최종 구현이 로봇의 제공자에 의해 제어될 수 있다. 추가 제어 또는 규제 계층이 대화 모드의 사용을 수정 또는 필터링 또는 감쇠 또는 증폭 또는 증가 또는 격려 또는 감소 또는 금지 또는 제한 또는 금지할 수 있다. 특히, 기재된 바와 같이, 대화 모드의 사용이 실행 규칙에 의해 규제될 수 있다: 로봇의 제조업체 또는 제공자가 이들 규칙을 적어도 부분적으로 마스터링할 수 있다.
하나의 실시예에서, 로봇의 제공자가 최종 오디오 렌더링 장치, 즉, 유사한 복구 전 마지막 포인트를 제어할 수 있다. 즉, 선택된 대화 모드 또는 내용 또는 스킨의 대화의 사전 조립된 문장으로의 적용으로부터 도출되는 로봇의 계획된 오디오 표현이, 유효 오디오 복구 전에 필터링될 수 있다.
로봇은 어떠한 악성 단어도 발음하지 않을 것을 보장하기 위해, 인가된 단어의 화이트 리스트(white list) 또는 금지된 단어의 블랙 리스트(black list)뿐 아니라 그레이 리스트(grey list)(실제 맥락에 따라 인가되거나 인가되지 않을 수 있는 단어 또는 표현)가 구현될 수 있다. 이러한 경우, 대화 내용의 사전 조립된 문장에의 음성 스킨의 적용 결과가 이러한 리스트에 비교될 수 있다. 리스트의 사용 이상으로 복잡한 논리적 규칙이 역시 사용될 수 있다. 성공적이면, 인가 또는 허용되는 경우, 문장이 발음된다(및/또는 이에 따라 수정된다).
하나 이상의 대화 내용 및/또는 음성 스킨을 로봇에 의해 표현되는 최종 대화에 적용하기 위한 또 다른 규제 방법이 보안 부팅 방법의 사용을 포함할 수 있다. 예를 들어, 특정 대화 모드를 코딩하는 각각의 소프트웨어 패키지가 (이진 형태(binary form)로 된 프로그램의) 해시 값과 연관될 수 있다. 로봇에 설치된 소프트웨어 패키지의 해시 값의 검증에 의해 증명되는 상기 프로그램의 적절한 존재여부가, 성공적인 검증 후에, 로봇의 부팅업을 조건부로 (또는 기능에 일부 제한을 두고) 인가할 수 있다.
(일반적으로 로봇에 설치되는 소프트웨어 애플리케이션의) 대화 모드의 실행의 추가 규제로서, 로봇의 건강 모니터링 서비스가 실행 우선순위를 조절할 수 있다. 구체적으로, 소프트웨어 애플리케이션의 실행이 이러한 "건강 모니터링" 서비스를 고려할 수 있다. 즉, 더 높은 레벨의 우선순위 스킴이 소프트웨어 애플리케이션, 가령, 대화 모드의 실행을 더 규제할 수 있다. 하나의 실시예에서, 로봇이 사용자와 상호 대화 중이 아니다(즉, 누구와도 상호 대화 중이 아니다). 이러한 경우, 로봇은 자율 작업을 수행하거나 수행할 수 있다. 또 다른 실시예에서, 로봇이 위험에 직면할 수 있다(가령, "보호 모드(safeguard mode)", 배터리 레벨이 낮거나 임계치임, 장애물의 존재 또는 낙석 위험에 직면 등). 이러한 경우, 로봇의 우선순위가 (가령, 고유 작업을 수행하는 것보다) 자신의 문제를 핸들링하고 해결하는 것이다. 예를 들어, 배터리 레벨이 임계치인 경우, 로봇이 사용자와 대화를 중단하고 에너지 소스 베이스에 도달하려 시도할 수 있다. 사용자가 근접부에서 검출될 때 및/도는 로봇이 임계 상황에 있지 않을 때(로봇이 자신의 기본 기능을 수행할 수 없을 때) 대화 모드는 활성화될 수 있다. 반대로, 어떠한 사용자도 근접부에서 검출되지 않을 때 및/또는 로봇이 임계 상황에 있을 때 대화 모드 모듈은 비활성화될 수 있다.
개시된 방법이 완전 하드웨어 실시예(가령, FPGA)의 형태를 취할 수 있고, 완전 소프트웨어 실시예 또는 하드웨어 와 소프트웨어 요소를 포함하는 실시예의 형태를 취할 수 있다. 소프트웨어 실시예의 비제한적 예를 들면, 펌웨어, 레지던트 소프트웨어, 마이크로코드 등이 있다. 본 발명은 컴퓨터 또는 임의의 명령 실행 시스템에 의해 사용되기 위해 프로그램 코드를 제공하는 컴퓨터 이용 가능 또는 컴퓨터 판독 매체로부터 액세스 가능한 컴퓨터 프로그램 프로덕트의 형태를 가질 수 있다. 컴퓨터 이용 가능 또는 컴퓨터 판독형 매체는 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 이들과 함께 프로그램을 포함, 저장, 통신, 전파, 또는 전송할 수 있는 임의의 유형의 장치일 수 있다. 매체는 전자, 자기, 광학, 전자기, 적외선, 또는 반도체 시스템(또는 장치 또는 디바이스) 또는 전파 매체일 수 있다.

Claims (22)

  1. 로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법으로서, 상기 방법은
    상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계,
    상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 변조된 대화 모드를 선택하는 단계 - 대화 모드는 하나 이상의 대화 내용(dialog content) 및 하나 이상의 대화 음성 스킨(dialog voice skin)을 포함하며, 대화 내용은 지정 문장의 모음을 포함하며, 상기 모음은 질문 문장과 대답 문장을 포함하며, 대화 음성 스킨은 주파수(frequency), 톤(tone), 속도(velocity) 및 음높이(pitch)를 포함하는 음성 렌더링 파라미터를 포함하며, 상기 하나 이상의 대화 내용 및 음성 스킨 중 하나 이상이 웹 플랫폼을 이용해 온라인으로 저작 또는 편집됨 - 를 포함하는, 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서, 하나 이상의 대화 내용 및 음성 스킨 중 적어도 하나를 편집하는 것은 지정 음성 스킨을 혼합하는 것, 웹 플랫폼 사용자에게 생성 제어권(creation control)을 제공하여 음성 스킨을 미세 조절(fine tune)하는 것, 및 소리 또는 녹음된 문장을 업로드 및 공유하는 것 중 하나 이상의 단계를 포함하는, 컴퓨터로 구현되는 방법.
  3. 제1항 또는 제2항에 있어서, 하나 이상의 지정 대화 내용 및 음성 스킨 중 적어도 하나가 복수의 개체에 의해 수정되는, 컴퓨터로 구현되는 방법.
  4. 제1항에 있어서, 하나 이상의 지정 대화 내용이 인터넷으로부터 추출되는, 컴퓨터로 구현되는 방법.
  5. 제1항에 있어서, 하나 이상의 대화 내용을 수정하는 단계, 하나 이상의 사용자 피드백을 수신하는 단계, 및 하나 이상의 수정된 대화 내용을 다른 로봇으로 전파하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  6. 제1항에 있어서, 하나 이상의 대화 내용의 사용을 규제하는 단계를 더 포함하며, 상기 규제하는 단계는 하나 이상의 대화 내용 및 음성 스킨 및 연관된 실행 규칙 중 적어도 하나의 사용을 변조, 필터링, 감쇠, 증폭, 증가, 격려, 감소, 억제, 제한, 회피 또는 금지하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  7. 제1항에 있어서, 로봇의 제조업체가 최종 오디오 렌더링 또는 아날로그 오디오 복구 전 가장 마지막 포인트에 대해 제어하는, 컴퓨터로 구현되는 방법.
  8. 제1항에 있어서, 선택된 수정된 대화 모드를 실행하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  9. 제1항 또는 제2항에 있어서, 수정된 대화 모드는 현재 대화의 현재 대화 내용 및 현재 대화 음성 스킨 중 적어도 하나를 수정함으로써 획득되는, 컴퓨터로 구현되는 방법.
  10. 제9항에 있어서, 현재 대화 내용을 수정하는 단계는 대화 내용의 단어의 동의어를 이용하고, 대화 내용의 하나 이상의 단어의 삽입 또는 반복 또는 치환을 포함하는 구문 수정을 적용하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  11. 제9항에 있어서, 현재 대화 음성 스킨을 수정하는 단계는 현재 대화 음성 스킨의 주파수, 톤, 속도 및 음높이 중 적어도 하나를 수정하는 단계를 포함하는, 컴퓨터로 구현되는 방법.
  12. 제1항에 있어서, 수정된 대화 모드는 지정된 대화 모드를 활성화함으로써 획득되고, 상기 지정 대화는 하나 이상의 대화 실행 규칙에 의해 선택되며 상기 지정 대화 모드는 지정 대화 내용 및 지정 대화 음성 스킨 중 적어도 하나를 포함하는, 컴퓨터로 구현되는 방법.
  13. 제1항 내지 제12항 중 어느 한 항에 있어서, 대화 모드 실행 규칙은 로봇에 의해 지각되는 환경에 따라 달라지는, 컴퓨터로 구현되는 방법.
  14. 제13항에 있어서, 대화 모드 실행 규칙은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호 대화 히스토리, 사용자 선호, 로봇 및/또는 사용자의 공간 변위, 로봇 및/또는 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터를 포함하는, 컴퓨터로 구현되는 방법.
  15. 제1항에 있어서, 대화 모드 실행 규칙은 인터넷으로부터 동적으로 불러와지거나 및/또는 사용자-구성 가능한, 컴퓨터로 구현되는 방법.
  16. 제1항에 있어서, 하나 이상의 대화 내용 또는 이의 선택은 하나 이상의 필터의 적용에 의해 수정되며, 상기 필터는 하나 이상의 단어의 블랙리스트, 하나 이상의 단어의 화이트리스트, 및/또는 대화 모드 실행 규칙을 포함하는, 컴퓨터로 구현되는 방법.
  17. 제16항에 있어서, 로봇에 의해 표현되는 최종 대화에의 상기 하나 이상의 대화 내용 및/또는 음성 스킨의 사용의 규제는 보안 부팅 방법의 사용을 포함하는, 컴퓨터로 구현되는 방법.
  18. 제1항에 있어서, 대화 내용 및/또는 대화 음성 스킨이 음성 명령어 또는 사용자 요청에 의해 선택되는, 컴퓨터로 구현되는 방법.
  19. 제1항에 있어서, 소실 대화 모드를 식별하는 단계, 사용자와의 대화 동안 로봇에서 상기 소실 대화 모드를 불러오고 설치하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  20. 제1항에 있어서, 선택된 대화 모드를 실행하기 전에 사용자의 확인을 수신하는 단계를 더 포함하는, 컴퓨터로 구현되는 방법.
  21. 적합한 컴퓨터 장치 상에서 실행될 때 청구항 제1항 내지 제15항 중 어느 한 항에 따르는 방법의 단계들을 수행하기 위한 명령을 포함하는 컴퓨터 프로그램.
  22. 청구항 제1항 내지 제15항 중 어느 한 항에 따르는 방법의 단계들을 수행하도록 구성된 수단을 포함하는 시스템.
KR1020167032134A 2014-04-17 2015-04-17 로봇과의 대화를 핸들링하는 방법 및 시스템 KR102054042B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305579.6 2014-04-17
EP14305579.6A EP2933070A1 (en) 2014-04-17 2014-04-17 Methods and systems of handling a dialog with a robot
PCT/EP2015/058356 WO2015158878A1 (en) 2014-04-17 2015-04-17 Methods and systems of handling a dialog with a robot

Publications (2)

Publication Number Publication Date
KR20170027705A true KR20170027705A (ko) 2017-03-10
KR102054042B1 KR102054042B1 (ko) 2019-12-09

Family

ID=50628738

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167032134A KR102054042B1 (ko) 2014-04-17 2015-04-17 로봇과의 대화를 핸들링하는 방법 및 시스템

Country Status (13)

Country Link
US (1) US10008196B2 (ko)
EP (1) EP2933070A1 (ko)
JP (1) JP6655552B2 (ko)
KR (1) KR102054042B1 (ko)
CN (1) CN106663219B (ko)
AU (2) AU2015248796A1 (ko)
BR (1) BR112016023920A2 (ko)
CA (1) CA2946069C (ko)
HK (1) HK1216407A1 (ko)
MX (1) MX2016013015A (ko)
RU (1) RU2668062C2 (ko)
SG (1) SG11201608254VA (ko)
WO (1) WO2015158878A1 (ko)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
WO2019132092A1 (ko) * 2017-12-29 2019-07-04 수상에스티주식회사 음성인식 기능을 가진 봉제 인형 로봇
KR20190135457A (ko) * 2019-11-29 2019-12-06 네이버 주식회사 기계의 자동 활성을 위한 방법 및 시스템
US10800043B2 (en) 2018-09-20 2020-10-13 Electronics And Telecommunications Research Institute Interaction apparatus and method for determining a turn-taking behavior using multimodel information
WO2020256161A1 (ko) * 2019-06-17 2020-12-24 엘지전자 주식회사 인공지능 홈 로봇 및 그의 제어 방법
WO2021006363A1 (ko) * 2019-07-05 2021-01-14 엘지전자 주식회사 인공 지능을 이용하여, 안내 서비스를 제공하는 로봇 및 그의 동작 방법
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10157342B1 (en) * 2010-07-11 2018-12-18 Nam Kim Systems and methods for transforming sensory input into actions by a machine having self-awareness
US10866783B2 (en) * 2011-08-21 2020-12-15 Transenterix Europe S.A.R.L. Vocally activated surgical control system
US11561762B2 (en) * 2011-08-21 2023-01-24 Asensus Surgical Europe S.A.R.L. Vocally actuated surgical control system
US20190129941A2 (en) * 2013-05-21 2019-05-02 Happify, Inc. Systems and methods for dynamic user interaction for improving happiness
CN105474289A (zh) 2013-05-21 2016-04-06 本·珂奇·托马 用于提供在线服务的系统和方法
US10813584B2 (en) 2013-05-21 2020-10-27 Happify, Inc. Assessing adherence fidelity to behavioral interventions using interactivity and natural language processing
US10040201B2 (en) 2015-08-31 2018-08-07 Avaya Inc. Service robot communication systems and system self-configuration
US10124491B2 (en) * 2015-08-31 2018-11-13 Avaya Inc. Operational parameters
US10032137B2 (en) 2015-08-31 2018-07-24 Avaya Inc. Communication systems for multi-source robot control
US10350757B2 (en) 2015-08-31 2019-07-16 Avaya Inc. Service robot assessment and operation
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
JP2017144521A (ja) * 2016-02-18 2017-08-24 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
CN105643632A (zh) * 2016-03-24 2016-06-08 彭泽宸 一种远程真人模拟互动机器人
JP6713637B2 (ja) * 2016-03-28 2020-06-24 株式会社国際電気通信基礎技術研究所 サービス提供ロボットシステム
CN109416701A (zh) * 2016-04-26 2019-03-01 泰康机器人公司 多种交互人格的机器人
US11645444B2 (en) * 2016-05-10 2023-05-09 Trustees Of Tufts College Systems and methods enabling online one-shot learning and generalization by intelligent systems of task-relevant features and transfer to a cohort of intelligent systems
JP6844124B2 (ja) * 2016-06-14 2021-03-17 富士ゼロックス株式会社 ロボット制御システム
CN107590503A (zh) * 2016-07-07 2018-01-16 深圳狗尾草智能科技有限公司 一种机器人情感数据更新方法及系统
US20180061393A1 (en) * 2016-08-24 2018-03-01 Microsoft Technology Licensing, Llc Systems and methods for artifical intelligence voice evolution
US10272349B2 (en) * 2016-09-07 2019-04-30 Isaac Davenport Dialog simulation
JP6774018B2 (ja) * 2016-09-15 2020-10-21 富士ゼロックス株式会社 対話装置
JP2018067100A (ja) * 2016-10-18 2018-04-26 株式会社日立製作所 ロボット対話システム
US10192569B1 (en) * 2016-10-27 2019-01-29 Intuit Inc. Informing a support agent of a paralinguistic emotion signature of a user
US10135989B1 (en) 2016-10-27 2018-11-20 Intuit Inc. Personalized support routing based on paralinguistic information
US10220517B2 (en) * 2016-10-31 2019-03-05 International Business Machines Corporation System, method and computer program product for controlling a mission-oriented robot based on a user's emotional state
CA3043016A1 (en) * 2016-11-10 2018-05-17 Warner Bros. Entertainment Inc. Social robot with environmental control feature
CN108073804B (zh) * 2016-11-14 2022-11-29 百度在线网络技术(北京)有限公司 一种风险识别方法和装置
US10120386B2 (en) * 2016-11-18 2018-11-06 Robert Bosch Start-Up Platform North America, LLC, Series 1 Robotic creature and method of operation
US10331791B2 (en) 2016-11-23 2019-06-25 Amazon Technologies, Inc. Service for developing dialog-driven applications
US10891152B2 (en) 2016-11-23 2021-01-12 Amazon Technologies, Inc. Back-end task fulfillment for dialog-driven applications
US20180174577A1 (en) * 2016-12-19 2018-06-21 Microsoft Technology Licensing, Llc Linguistic modeling using sets of base phonetics
KR102616403B1 (ko) * 2016-12-27 2023-12-21 삼성전자주식회사 전자 장치 및 그의 메시지 전달 방법
JP2018126810A (ja) * 2017-02-06 2018-08-16 川崎重工業株式会社 ロボットシステム及びロボット対話方法
CN107016046A (zh) * 2017-02-20 2017-08-04 北京光年无限科技有限公司 基于视觉场景化的智能机器人对话方法及系统
JP6970413B2 (ja) * 2017-03-10 2021-11-24 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US11107472B2 (en) * 2017-03-31 2021-08-31 Intel Corporation Management of human-machine dialogue involving multiple parties
KR20230018538A (ko) * 2017-05-24 2023-02-07 모듈레이트, 인크 음성 대 음성 변환을 위한 시스템 및 방법
US10460728B2 (en) 2017-06-16 2019-10-29 Amazon Technologies, Inc. Exporting dialog-driven applications to digital communication platforms
US10569420B1 (en) * 2017-06-23 2020-02-25 X Development Llc Interfacing with autonomous devices
US10824870B2 (en) * 2017-06-29 2020-11-03 Accenture Global Solutions Limited Natural language eminence based robotic agent control
KR20190002073A (ko) * 2017-06-29 2019-01-08 네이버 주식회사 기계의 자동 활성을 위한 방법 및 시스템
US10311874B2 (en) 2017-09-01 2019-06-04 4Q Catalyst, LLC Methods and systems for voice-based programming of a voice-controlled device
JP2019053351A (ja) * 2017-09-12 2019-04-04 大日本印刷株式会社 応対装置、コンピュータプログラム及び応対方法
JP2019057093A (ja) * 2017-09-20 2019-04-11 富士ゼロックス株式会社 情報処理装置及びプログラム
CN107608674A (zh) * 2017-09-22 2018-01-19 深圳市创维软件有限公司 一种应用换肤方法、装置、计算机及存储介质
US10841249B2 (en) 2017-10-02 2020-11-17 Samsung Electronics Co., Ltd. System and method for bot platform
KR101969727B1 (ko) * 2017-10-24 2019-04-17 주식회사 로보스타 다관절 로봇을 조작하기 위한 장치 및 그 방법
JP6811158B2 (ja) * 2017-10-26 2021-01-13 株式会社日立ビルシステム ロボット制御システム、ロボット制御方法及び統合サーバー装置
CN107610705A (zh) * 2017-10-27 2018-01-19 成都常明信息技术有限公司 一种根据年龄智能音色语音机器人
US10621978B2 (en) 2017-11-22 2020-04-14 International Business Machines Corporation Dynamically generated dialog
KR102497042B1 (ko) * 2018-01-29 2023-02-07 삼성전자주식회사 사용자 행동을 바탕으로 반응하는 로봇 및 그의 제어 방법
CN112262024B (zh) * 2018-02-15 2024-05-03 暗物智能科技(广州)有限公司 用于增强数字体验的动态机器人配置的系统和方法
JP2019175432A (ja) * 2018-03-26 2019-10-10 カシオ計算機株式会社 対話制御装置、対話システム、対話制御方法及びプログラム
CN108765921A (zh) * 2018-04-04 2018-11-06 昆山市工研院智能制造技术有限公司 基于视觉语意分析应用于巡逻机器人的智能巡逻方法
US20190340527A1 (en) * 2018-05-07 2019-11-07 Microsoft Technology Licensing, Llc Graphical user interface features for updating a conversational bot
EP3576084B1 (de) * 2018-05-29 2020-09-30 Christoph Neumann Effiziente dialoggestaltung
CN108818531A (zh) * 2018-06-25 2018-11-16 珠海格力智能装备有限公司 机器人的控制方法和装置
CN108962217B (zh) * 2018-07-28 2021-07-16 华为技术有限公司 语音合成方法及相关设备
US11890747B2 (en) 2018-09-26 2024-02-06 Disney Enterprises, Inc. Interactive autonomous robot configured with in-character safety response protocols
JP2020056907A (ja) * 2018-10-02 2020-04-09 株式会社Tarvo クラウド音声変換システム
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
JP7119896B2 (ja) * 2018-10-24 2022-08-17 トヨタ自動車株式会社 コミュニケーションロボットおよびコミュニケーションロボットの制御プログラム
JP7067414B2 (ja) * 2018-10-24 2022-05-16 トヨタ自動車株式会社 コミュニケーションロボットおよびコミュニケーションロボットの制御プログラム
US11727218B2 (en) * 2018-10-26 2023-08-15 International Business Machines Corporation Dynamic modification of placeholder text in conversational interfaces
US11557297B2 (en) 2018-11-09 2023-01-17 Embodied, Inc. Systems and methods for adaptive human-machine interaction and automatic behavioral assessment
US20220059083A1 (en) * 2018-12-10 2022-02-24 Interactive-Ai, Llc Neural modulation codes for multilingual and style dependent speech and language processing
US10909328B2 (en) 2019-01-04 2021-02-02 International Business Machines Corporation Sentiment adapted communication
JP7120060B2 (ja) * 2019-02-06 2022-08-17 トヨタ自動車株式会社 音声対話装置、音声対話装置の制御装置及び制御プログラム
TWI714090B (zh) * 2019-02-26 2020-12-21 國際康健人壽保險股份有限公司 機器人電話行銷系統及其計算機裝置與回應訊息產生方法
US11159679B2 (en) 2019-02-26 2021-10-26 Cigna Taiwan Life Assurance Co. Ltd. Automated systems and methods for natural language processing with speaker intention inference
KR102615154B1 (ko) 2019-02-28 2023-12-18 삼성전자주식회사 전자 장치 및 전자 장치의 제어 방법
CN109976515B (zh) * 2019-03-11 2023-07-07 阿波罗智联(北京)科技有限公司 一种信息处理方法、装置、车辆及计算机可读存储介质
US11521114B2 (en) 2019-04-18 2022-12-06 Microsoft Technology Licensing, Llc Visualization of training dialogs for a conversational bot
EP3739396A1 (de) * 2019-05-15 2020-11-18 Siemens Aktiengesellschaft System zur bewegungsführung eines manipulators aufweisend einen ersten und einen zweiten prozessor
RU2708114C1 (ru) * 2019-07-10 2019-12-04 Общество с ограниченной ответственностью «Комплект-ОМ» Система и способ мониторинга и обучения детей с расстройствами аутистического спектра
US10850709B1 (en) * 2019-08-27 2020-12-01 Toyota Motor Engineering & Manufacturing North America, Inc. Facial recognition and object detection for vehicle unlocking scenarios
US20210104220A1 (en) * 2019-10-08 2021-04-08 Sarah MENNICKEN Voice assistant with contextually-adjusted audio output
US11948560B1 (en) 2019-11-07 2024-04-02 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
US11645479B1 (en) 2019-11-07 2023-05-09 Kino High Coursey Method for AI language self-improvement agent using language modeling and tree search techniques
US11594224B2 (en) 2019-12-04 2023-02-28 Samsung Electronics Co., Ltd. Voice user interface for intervening in conversation of at least one user by adjusting two different thresholds
WO2021153830A1 (ko) * 2020-01-31 2021-08-05 한국과학기술원 대화문 발화 성격 인식 방법 및 시스템
US12019993B2 (en) 2020-02-29 2024-06-25 Embodied, Inc. Systems and methods for short- and long-term dialog management between a robot computing device/digital companion and a user
CN111968632B (zh) * 2020-07-14 2024-05-10 招联消费金融股份有限公司 通话语音获取方法、装置、计算机设备和存储介质
CN111857880B (zh) * 2020-07-23 2022-12-13 中国平安人寿保险股份有限公司 对话配置项信息管理方法、装置、设备及存储介质
US11948019B1 (en) 2020-09-30 2024-04-02 Amazon Technologies, Inc. Customized configuration of multimodal interactions for dialog-driven applications
US11817091B1 (en) 2020-09-30 2023-11-14 Amazon Technologies, Inc. Fault-tolerance techniques for dialog-driven applications
US11252149B1 (en) 2020-09-30 2022-02-15 Amazon Technologies, Inc. Resource management techniques for dialog-driven applications
CN116670754A (zh) 2020-10-08 2023-08-29 调节公司 用于内容审核的多阶段自适应系统
TWI776296B (zh) * 2020-11-30 2022-09-01 中華電信股份有限公司 語音應答系統和語音應答方法
CN112712798B (zh) * 2020-12-23 2022-08-05 思必驰科技股份有限公司 私有化数据获取方法及装置
US20230274743A1 (en) * 2021-01-28 2023-08-31 Embodied, Inc. Methods and systems enabling natural language processing, understanding, and generation
US12008289B2 (en) * 2021-07-07 2024-06-11 Honeywell International Inc. Methods and systems for transcription playback with variable emphasis
KR20230079767A (ko) * 2021-11-29 2023-06-07 한국과학기술원 대화 상대방의 성격정보를 고려하여 신뢰도 증강을 위한 맞춤형 대화 생성 시스템 및 그 방법
CN114218424B (zh) * 2022-02-22 2022-05-13 杭州一知智能科技有限公司 一种基于wav2vec的语气词插入的语音交互方法及系统
CN117271155A (zh) * 2023-09-07 2023-12-22 广东保伦电子股份有限公司 一种基于ai聊天机器人的对话实现方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133852A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05165486A (ja) 1991-12-18 1993-07-02 Oki Electric Ind Co Ltd テキスト音声変換装置
JP3706758B2 (ja) * 1998-12-02 2005-10-19 松下電器産業株式会社 自然言語処理方法,自然言語処理用記録媒体および音声合成装置
US6321198B1 (en) * 1999-02-23 2001-11-20 Unisys Corporation Apparatus for design and simulation of dialogue
US6314402B1 (en) * 1999-04-23 2001-11-06 Nuance Communications Method and apparatus for creating modifiable and combinable speech objects for acquiring information from a speaker in an interactive voice response system
US20020042713A1 (en) * 1999-05-10 2002-04-11 Korea Axis Co., Ltd. Toy having speech recognition function and two-way conversation for dialogue partner
ATE306096T1 (de) * 1999-08-31 2005-10-15 Swisscom Ag Mobiler roboter und steuerverfahren für einen mobilen roboter
JP2002318594A (ja) * 2001-04-20 2002-10-31 Sony Corp 言語処理装置および言語処理方法、並びにプログラムおよび記録媒体
CN100357863C (zh) * 2002-05-14 2007-12-26 皇家飞利浦电子股份有限公司 用于电子设备的对话控制装置
JP3945356B2 (ja) 2002-09-17 2007-07-18 株式会社デンソー 音声対話装置及びプログラム
JP2004287016A (ja) * 2003-03-20 2004-10-14 Sony Corp 音声対話装置及び方法並びにロボット装置
CN100351789C (zh) * 2003-03-28 2007-11-28 索尼株式会社 信息提供设备、方法和信息提供系统
GB0325497D0 (en) * 2003-10-31 2003-12-03 Vox Generation Ltd Automated speech application creation deployment and management
US7349758B2 (en) * 2003-12-18 2008-03-25 Matsushita Electric Industrial Co., Ltd. Interactive personalized robot for home use
JP4629560B2 (ja) * 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US7930182B2 (en) * 2005-03-15 2011-04-19 Nuance Communications, Inc. Computer-implemented tool for creation of speech application code and associated functional specification
US8126716B2 (en) * 2005-08-19 2012-02-28 Nuance Communications, Inc. Method and system for collecting audio prompts in a dynamically generated voice application
JP4826275B2 (ja) * 2006-02-16 2011-11-30 株式会社豊田中央研究所 応答生成装置、方法及びプログラム
CN101017428A (zh) * 2006-12-22 2007-08-15 广东电子工业研究院有限公司 一种嵌入式语音交互装置及交互方法
US8438032B2 (en) * 2007-01-09 2013-05-07 Nuance Communications, Inc. System for tuning synthesized speech
US8725513B2 (en) * 2007-04-12 2014-05-13 Nuance Communications, Inc. Providing expressive user interaction with a multimodal application
US8131549B2 (en) * 2007-05-24 2012-03-06 Microsoft Corporation Personality-based device
US8555049B2 (en) * 2007-10-05 2013-10-08 Panasonic Corporation Secure boot terminal, secure boot method, secure boot program, recording medium, and integrated circuit
CN101187990A (zh) * 2007-12-14 2008-05-28 华南理工大学 一种会话机器人系统
US8374873B2 (en) * 2008-08-12 2013-02-12 Morphism, Llc Training and applying prosody models
FR2947923B1 (fr) * 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
US8473281B2 (en) * 2009-10-09 2013-06-25 Crisp Thinking Group Ltd. Net moderator
EP2568408B1 (en) * 2010-05-07 2016-05-18 Panasonic Intellectual Property Management Co., Ltd. Information processing device, information processing method, and program distribution system
KR101119030B1 (ko) * 2010-05-12 2012-03-13 (주) 퓨처로봇 지능형 로봇 장치의 서비스 시나리오 편집 방법, 그 방법을 실행하기 위한 프로그램을 기록한 컴퓨터 판독가능한 기록매체, 지능형 로봇 장치 및 지능형 로봇의 서비스 방법
FR2963132A1 (fr) * 2010-07-23 2012-01-27 Aldebaran Robotics Robot humanoide dote d'une interface de dialogue naturel, methode d'utilisation et de programmation de ladite interface
US8818556B2 (en) * 2011-01-13 2014-08-26 Microsoft Corporation Multi-state model for robot and user interaction
US20130110513A1 (en) * 2011-10-26 2013-05-02 Roshan Jhunja Platform for Sharing Voice Content
US9082402B2 (en) * 2011-12-08 2015-07-14 Sri International Generic virtual personal assistant platform
US8751042B2 (en) * 2011-12-14 2014-06-10 Toyota Motor Engineering & Manufacturing North America, Inc. Methods of robot behavior generation and robots utilizing the same
FR2989209B1 (fr) * 2012-04-04 2015-01-23 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
US9471872B2 (en) * 2012-06-29 2016-10-18 International Business Machines Corporation Extension to the expert conversation builder
US9141802B2 (en) * 2012-09-25 2015-09-22 Intel Corporation Computing device boot software authentication
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
US20140365068A1 (en) * 2013-06-06 2014-12-11 Melvin Burns Personalized Voice User Interface System and Method

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133852A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
JP2001162573A (ja) * 1999-12-08 2001-06-19 Fujitsu Ltd ロボット装置
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019125486A1 (en) * 2017-12-22 2019-06-27 Soundhound, Inc. Natural language grammars adapted for interactive experiences
US11900928B2 (en) 2017-12-23 2024-02-13 Soundhound Ai Ip, Llc System and method for adapted interactive experiences
WO2019132092A1 (ko) * 2017-12-29 2019-07-04 수상에스티주식회사 음성인식 기능을 가진 봉제 인형 로봇
US10800043B2 (en) 2018-09-20 2020-10-13 Electronics And Telecommunications Research Institute Interaction apparatus and method for determining a turn-taking behavior using multimodel information
WO2020256161A1 (ko) * 2019-06-17 2020-12-24 엘지전자 주식회사 인공지능 홈 로봇 및 그의 제어 방법
US11511410B2 (en) 2019-06-17 2022-11-29 Lg Electronics Inc. Artificial intelligence (AI) robot and control method thereof
WO2021006363A1 (ko) * 2019-07-05 2021-01-14 엘지전자 주식회사 인공 지능을 이용하여, 안내 서비스를 제공하는 로봇 및 그의 동작 방법
US11423877B2 (en) 2019-07-05 2022-08-23 Lg Electronics Inc. Robot for providing guidance service using artificial intelligence and method of operating the same
KR20190135457A (ko) * 2019-11-29 2019-12-06 네이버 주식회사 기계의 자동 활성을 위한 방법 및 시스템

Also Published As

Publication number Publication date
US20170125008A1 (en) 2017-05-04
CN106663219A (zh) 2017-05-10
BR112016023920A2 (pt) 2017-08-15
SG11201608254VA (en) 2016-10-28
RU2016144802A (ru) 2018-05-17
AU2018202162A1 (en) 2018-04-26
AU2015248796A1 (en) 2016-11-03
HK1216407A1 (zh) 2016-11-11
JP6655552B2 (ja) 2020-02-26
RU2016144802A3 (ko) 2018-05-17
CN106663219B (zh) 2020-04-21
AU2018202162B2 (en) 2020-01-16
EP2933070A1 (en) 2015-10-21
WO2015158878A1 (en) 2015-10-22
CA2946069A1 (en) 2015-10-22
JP2017517028A (ja) 2017-06-22
US10008196B2 (en) 2018-06-26
RU2668062C2 (ru) 2018-09-25
KR102054042B1 (ko) 2019-12-09
CA2946069C (en) 2020-08-18
MX2016013015A (es) 2017-05-23

Similar Documents

Publication Publication Date Title
AU2018202162B2 (en) Methods and systems of handling a dialog with a robot
RU2690071C2 (ru) Способы и системы для управления диалогами робота
US10617961B2 (en) Online learning simulator using machine learning
KR102001293B1 (ko) 로봇 상의 소프트웨어 애플리케이션 실행하기
US20160071302A1 (en) Systems and methods for cinematic direction and dynamic character control via natural language output
US20230274743A1 (en) Methods and systems enabling natural language processing, understanding, and generation
Nishida et al. History of Conversational System Development
Knierim et al. Prosody as a Teaching Signal for Agent Learning: Exploratory Studies and Algorithmic Implications
Gena et al. An end-user coding-based environment for programming an educational affective robot
Elmar Charting artificial intelligence in reality and fiction. A study of how the act of fictionalizing influences human perception of technology

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E90F Notification of reason for final refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant