KR102106193B1 - 로봇의 대화를 관리하기 위한 방법 및 시스템 - Google Patents

로봇의 대화를 관리하기 위한 방법 및 시스템 Download PDF

Info

Publication number
KR102106193B1
KR102106193B1 KR1020167032137A KR20167032137A KR102106193B1 KR 102106193 B1 KR102106193 B1 KR 102106193B1 KR 1020167032137 A KR1020167032137 A KR 1020167032137A KR 20167032137 A KR20167032137 A KR 20167032137A KR 102106193 B1 KR102106193 B1 KR 102106193B1
Authority
KR
South Korea
Prior art keywords
conversation
robot
user
audio
computer
Prior art date
Application number
KR1020167032137A
Other languages
English (en)
Other versions
KR20170027706A (ko
Inventor
제롬 몽샥스
귀나엘 가테
가브리엘 바르비에리
테일러 벨트롭
Original Assignee
소프트뱅크 로보틱스 유럽
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소프트뱅크 로보틱스 유럽 filed Critical 소프트뱅크 로보틱스 유럽
Publication of KR20170027706A publication Critical patent/KR20170027706A/ko
Application granted granted Critical
Publication of KR102106193B1 publication Critical patent/KR102106193B1/ko

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J19/00Accessories fitted to manipulators, e.g. for monitoring, for viewing; Safety devices combined with or specially adapted for use in connection with manipulators
    • B25J19/02Sensing devices
    • B25J19/026Acoustical sensing devices
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1656Programme controls characterised by programming, planning systems for manipulators
    • B25J9/1661Programme controls characterised by programming, planning systems for manipulators characterised by task planning, object-oriented languages
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1679Programme controls characterised by the tasks executed
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • G10L13/02Methods for producing synthetic speech; Speech synthesisers
    • G10L13/027Concept to speech synthesisers; Generation of natural phrases from machine-based concepts
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Abstract

로봇의 대화를 관리하기 위한 방법 및 시스템
로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 대화 주제를 결정하는 단계 - 상기 대화 주제는 대화 내용 및 대화 음성 스킨을 포함하고, 대화 내용은 복수의 문장을 포함함 - , 로봇에 의해 오디오로 렌더링될 문장을 결정하는 단계, 상기 결정된 대화 문장의 수정 요청을 수신하는 단계를 포함한다. 기재된 형태는 예를 들어, 서로 다른 규제 스킴(가령, 개방 루프 또는 폐쇄 루프), 변조 규칙의 사용(중앙집중식 또는 분산식) 및 로봇에 의해 지각되는 환경에 따라 달라지는 우선순위 레벨 및/또는 파라미터의 사용을 포함한다.

Description

로봇의 대화를 관리하기 위한 방법 및 시스템{METHODS AND SYSTEMS FOR MANAGING DIALOGS OF A ROBOT}
이 특허는 디지털 데이터 처리 분야와 관련되며, 더 구체적으로 로봇과 인간 사용자 간 대화의 특정 맥락에서, 음성 합성 및 상호 대화를 핸들링하는 것과 관련된다.
동반자 로봇(companion robot)은 인간과 감정 관계를 쌓을 수 있다. 대화의 동적 적응이 풍부한 상호작용(interaction)을 가능하게 할 수 있다.
음성 합성을 위한 기존 시스템은 대부분 수동적이고 균일하다: 몇 가지 옵션, 가령, 남성 또는 여성 음성 선택 외에, 음성 발생 엔진의 톤이 다소 중성적이다. 더욱이, 제공되는 응답에는 문화적 참조(cultural reference)가 부족하다. 산업용 또는 대중 시장용 음성 대답 시스템의 목적은 정교하게 보편적으로 수용되는 대답을 제공하는 것이다, 즉, 가능한 널리 이해되는 대답을 제공하는 것이다. 이는 어떠한 맥락적 및 심지어 문화 참조를 피함을 의미한다. 음성 명령어는 일반적으로 특정 맥락에 한정된다. 예를 들면, 음성 받아쓰기 소프트웨어가 독립형 소프트웨어 (가령, 워드 프로세싱 소프트웨어)의 맥락에서 사용된다. 현대의 운영 체제에 의해 점점 더 제공되는 일부 액세스 가능성 특징에 따르면, 사용자는 특정 동작(가령, 애플리케이션 런칭, 복사 및 붙여 넣기 등)을 수행하기 위해 음성 명령어를 이용할 수 있다. 이들 지정 동작은 다소 제한적이다. 이러한 시각적 또는 오디오 대화 모드는 일반적으로 수동적이다(가령, 사용자는 능동적으로 주문하고 기계가 주문을 실행한다). 최근 컴퓨터 대화 모델, 가령, 대답 시스템에서 구현되는 컴퓨터 대화 모델의 경우에도, 기계에서 사용자로 제한된 대화가 발생한다.
동반자 휴머노이드 로봇의 맥락에서, 인간 사용자와의 대화 모델은 개인 컴퓨터(및 이들의 상이한 형태)와의 대화 모델과 비교할 때 상당히 다르다. 로봇과의 인지 상호대화(cognitive interaction)가 태블릿 PC 또는 스마트 폰과의 인지 상호대화와 근본적으로 상이하다. 특히, 관련 데이터를 수집하고 로봇 또는 연결된 장치에 의해 렌더링되는 서비스를 개선할 수 있게 하는, 풍부한 대화(rich interaction)의 단서가 없을 때 로봇의 음성 합성을 변조할 수 있는 능력이 유리할 수 있다.
로봇과 인간 사용자 간 대화(dialog or conversation)를 관리하는 방법 및 시스템이 요구된다.
로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법이 개시되며, 상기 방법은 다음을 포함한다: 상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계; 상기 텍스트 데이터의 하나 이상의 대화 모드 실행 규칙의 검증에 응답하여, 대화 주제를 결정하는 단계 - 상기 대화 주제는 대화 내용 및 대화 음성 스킨을 포함하고, 대화 내용은 복수의 문장을 포함함 - , 로봇에 의해 오디오로 렌더링될 문장을 결정하는 단계, 상기 결정된 대화 문장의 수정 요청을 수신하는 단계를 포함한다.
로봇에 의해 표현되도록 계획된 문장(가령, 사용자의 질문에 대한 로봇에 의한 응답)이 "버퍼링"된다, 즉, 즉시 오디오로 렌더링되지 않는다. 이는 복수의 규제 방식(regulation scheme)을 위한 것인데, 가령, 누가 수정 요청을 전송할 수 있는지, 수정 요청을 수락 또는 거절하기 위해 어떤 기준이 적용되는지, 언제 오디오 렌더링이 발생하는지 등이 있다. 이러한 요청이 통신되는 이유에 대한 추가 고려사항이 기재될 수 있다.
하나의 형태에 있어서, 상기 방법은 상기 수정 요청을 거절하는 단계 및 결정된 대화 문장을 오디오로 반환하는 단계를 더 포함한다.
이 실시예에서, 로봇에 의해 제공되는 응답은 "디폴트" 응답, 즉, (예컨대) 로봇의 제조업체에 의해 정의된 응답일 수 있다. 이 실시예는 개방 루프 스킴에 대응한다: 즉, 실시간이 아니다. 이와 달리, 그 밖의 다른 방식이 이하에서 기재된다.
하나의 형태에 있어서, 상기 방법은 상기 수정 요청을 수락하는 단계 및 수정된 결정된 대화 문장을 오디오로 반환하는 단계를 더 포함한다.
이 실시예는 "폐쇄 루프" 스킴에 대응할 수 있다: 즉, 대화가 필요 시에 서로 다른 개체에 의해 변경될 수 있다. 이로 인해 추가 규제 또는 조정 수단이 또한 도입될 수 있다. 도입되는 대기시간은 일반적으로 관리될 수 있다.
하나의 형태에서, 수정 요청을 수락 또는 거절하는 것은 계획된 문장을 하나 이상의 조정 규칙과 비교하는 것을 포함한다. 하나의 형태에서, 하나 이상의 조정 규칙(moderation rule)이 지정된다. 이 실시예에서, 동작 조정 로직은 로봇의 제조업체 중 하나일 수 있다.
하나의 형태에서, 하나 이상의 조정 규칙(moderation rule)이 네트워크로부터 불러와진다. 또한 조정은 "집단-소싱"될 수 있다(예를 들어, 특정 문장에 대한 사용자의 나쁜 반응이 설치된 베이스 상에서 통합될 수 있고 조정 규칙이 클라우드에 유지되고 개별 로봇에 의해 적용될 수 있다).
하나의 형태에서, 하나 이상의 조정 규칙이 하나 이상의 필터를 포함할 수 있고, 상기 필터는 하나 이상의 단어의 블랙리스트 또는 하나 이상의 단어의 화이트리스트를 포함한다.
하나의 형태에서, 상기 수정 요청은 단일 파티(party)로부터 발생된다. 이 실시예에서, 대화는 하나의 파티(party), 가령, "기업" 저작에 대응하는 파티(가령, 소프트웨어 편집자 또는 로봇의 제조업체)에 의해 저작된다.
하나의 형태에서 상기 수정 요청은 복수의 파티의 투표이다. 이 실시예에서, 하나의 수정 소스가 존재하지만, 이 소스는 복수의 개체로부터의 결과를 응집시킬 수 있다. 특히, 개체는 로봇 내부(또는 클라우드 내) 소프트웨어 모듈 또는 레이어일 수 있다. 이들 개체는 또한 (예를 들어 대화를 협업적으로 편집할 수 있는) 인간 투표자(human voter)에 대응할 수 있다.
하나의 형태에서, 수정 요청이 우선순위 레벨과 연관된다. 이 실시예에서, 우선순위 레벨이 도입되고 조정 또는 규제에서 가능한 충돌을 핸들링할 수 있다.
하나의 형태에서, 수정 요청이 로봇에 의해 지각되는 환경에 따라 달라진다. 하나의 형태에서, 수정 요청은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호작용 히스토리, 사용자 선호, 로봇 및/또는 사용자의 공간 변위, 로봇 및/또는 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터에 따라 달라진다.
하나의 형태에서, 상기 방법은 수정된 결정 대화 문장을 오디오로 반환한 후 사용자의 피드백을 수신하는 단계를 더 포함한다.
적합한 컴퓨터 장치 또는 로봇 장치 상에서 실행될 때 방법의 하나 이상의 단계를 수행하기 위한 명령을 포함하는 컴퓨터 프로그램이 개시된다. 방법의 하나 이상의 단계들을 수행하기에 적합한 수단을 포함하는 시스템이 개시된다.
일반적으로 동반자 로봇(companion)이 멀티모드이다. 음성 대화가 개인 컴퓨터 및 이의 쇠퇴와 대조적으로 로봇을 특징화하는 운동과 함께 사용자와의 상호작용의 핵심 부분을 구성한다. 사용자와 로봇 간 대화가 상호대화를 보강 또는 개인화하며 사용자 경험을 세밀하게 개선한다. 하나의 실시예에서, 로봇은 이의 대화 모드의 적응을 통해 현재 지각되는 맥락에 스스로를 적응시킨다. 예를 들어 로봇은 외국인에게 "Mister"라고 말하거나 개인의 성을 이용할 수 있고, 과거에 허용된 바가 있는 경우, 사용자 및/또는 상황에 따라 더 또는 덜 공식적으로 말할 수 있다. 또한 특정 단어가 사용자, 히스토리, 피드백, 기분, 위치, 날짜 및 시각(예시)에 따라 필터링될 수 있다. 사람이 문장을 이해하지 못할 때, 요청된 대로 또는 스스로의 계획에 따라 로봇은 천천히 반복하거나 및/또는 동의어로 반복할 수 있다. 또한 로봇은 사용자의 기분을 향상시키기 위해 사용자의 선호도(어느 단어를 사용하여 천천히 말할지 또는 빨리 말할지)를 학습할 수 있다.
바람직하게는, 로봇은 언어 범위를 구현할 수 있으며, 각각의 로봇을 고유하게 만들고, 긍정적인 감정을 시작하며, 따라서 인간과 로봇의 관계를 강화시킬 수 있다.
바람직하게는, 일부 실시예에 따라, 인간-기계 대화가 능동적이며 더는 수동적이지 않다: 인간 관점에서 로봇은 임의의 계획을 가질 수 있다(가령, 로봇이 명확화 목적으로 질문을 할 수 있다). 덧붙여, 개인화된 또는 그 밖의 다른 방시긍로 관련되는 방식으로 표현되는 적응된 대화 내용 또는 패턴을 이용해, 인간-기계 상호작용이 더 최적화된다.
바람직하게는, 상호작용의 대화 모드(conversational mode)에 의해, 사용자와의 더 "친밀한" "관계", 적어도 더 "자연스러운" 상호작용이 가능해진다. 이러한 더 우수한 사용자 경험이 기계에 의한 인간 사용자의 증가된 "이해"를 이끌 가능성이 높다. 관련 음성 스킨 및/또는 대화 문장에 의해 전달되고 보강되는 기계와의 연관된 "근접성"이 사용자로부터의 그리고 사용자에 대한 데이터의 수집을 촉진시킬 수 있다. 사용자와 로봇 모두 더 "표현적(expressive)"일 수 있다. 용어 "표현성(expressivity)"은 인간-기계 상호작용이 (더) 자연스럽기 때문에, 사용자는 더 많은 데이터를 로봇에게 전달하며, 그 후 로봇은 사용자에 대한 더 많은 데이터를 알고 저장할 수 있어서, 추가 상호작용을 풍부하게 만드는 선순환을 발생시킨다. 이는 개인 컴퓨터의 경우에는 해당되지 않는다. 태블릿(tablet)이 가령, 퀴즈 또는 문제의 형태로 음성 합성으로 "질문"을 하려 시도할 수 있지만, 태블릿이 (자율적으로) 스스로 이동하고 물체를 이동시키거나, 인간을 따르는 "동반자"로 여겨지지 않기 때문에, 잔류 바이어스가 존재할 것이다. 캡처될 수 있는 데이터의 양이 동반자 로봇과 비교될 때 더 작을 것이다. 동반자 로봇은 재밌는 또는 그 밖의 다른 방식으로 관련성 있는 음성 스킨 또는 대화 패턴을 이용해 데이터를 캡처할 수 있는 능력을 보강할 수 있다.
사용자에 대해 능동적으로 또는 수동적으로 수집되는 정보(가령, 사용자 프로파일링 또는 사용자가 선언한 선호)가 상태를 런칭하기 위한 입력으로 사용될 수 있다(가령, 음성 스킨 또는 대화 패턴은 사용자가 "Bienvenue chez les Ch'tis"를 선호하는 경우에만 런칭되어야 한다). 머신 러닝 메커니즘이 수행될 수 있다: 시스템에 의해 런칭되거나 실행되는 음성 스킨 또는 대화 패턴이 사용자에 대해 학습되는 바에 따라 전개될 것이다.
본 발명의 실시예가 첨부된 도면을 참조하여 예시로서 기재될 것이며, 여기서 유사한 도면부호가 유사한 요소를 지칭하며, 이때:
도 1은 본 발명의 전역적 기술적 환경을 도시한다.
도 2는 방법의 실시예의 일부 양태를 상세히 도시한다.
용어 "대화", "대화 엔진", "대화 모드", "대화 주제", "대화 내용", "대화 음성 스킨"이 이하에서 정의된다.
"대화"는 한 명 이상의 사용자와의 전역 오디오 상호작용을 지시한다. "대화"는 사전 조립된 문장 및 이들 사전 조립된 문장을 표현 및 관리하기 위한 규칙을 포함한다. "대화"는 규칙 및 문장을 관리하는 로직에 대응하는 "대화 엔진"에 의해 규제된다. 더 상세히 말하면, "대화"는 (특정 오디오 렌더링에 의해 표현되는 서로 다른 문장의 조합의 결과, 가령, 톤 1 및 음높이 1로 표현되는 문장 A, 톤 1 및 음높이 2로 표현되는 문장 A, 속도 3으로 표현되는 문장 B 등에 대응하는) 복수의 "대화 모드"에 대응할 수 있다. "대화"는 "대화 주제"로 구성된다. "대화 주제"는 a) 데이터 및 b) 프로그램을 포함하는 동적 레포지토리이다. 데이터는 "대화 내용"(즉, 실체, 가령, 지정 문장들의 집합) 및 "대화 음성 스킨"(즉, 형식, 가령, 음성 파라미터, 가령, 속도, 톤, 주파수 및 음높이)을 포함한다. 프로그램(가령, 스크립트)은 대화 동적 상호작용을 관리하기 위한 논리적 규칙(가령, 주제 전환을 관리하기 위한 규칙, 주제 속성을 관리하기 위한 규칙, 폴백 상황을 위한 주제 등)을 포함한다.
"대화 주제"는 (정적) 데이터, 가령, 문장 및 (동적) 소프트웨어 프로그램(가령, 스크립트 또는 의사 코드, 가령, 추가로 해석 및 실행될 논리 규칙) 모두를 포함하는 레포지토리이다. 데이터는 지정 대화 문장(가령, 복수의 질문 및 가능한 또는 예상되는 대답) 및 소프트웨어 프로그램 또는 스크립트 또는 규칙(가령, 대화 주제 전환을 관리하기 위한 규칙 또는 폴백 상황을 관리하기 위한 규칙)에 대응한다.
따라서 대화 주제는, 1) 사용자가 주제에 들어가도록 하는 문장 및/또는 트리거링 규칙, 2) 로봇이 주제에 대해 말할 문장 및 제기할 질문의 제안, 3) 사용자 대답을 관리하기 위한 문장 및/또는 규칙, 4) 제주 전환을 명시적으로 관리하기 위한 문장 및/또는 규칙, 5) 폴백 상황을 관리하기 위한 문장 및/또는 규칙을 포함할 수 있다.
각각의 대화 주제는 a) 소프트웨어 애플리케이션을 런칭 또는 실행하기를 결정하는 데 주로 사용되는 의미 기술, b) 상황적 런칭 규칙(연령 그룹, 사람 수, 위치, 시간대), c) (복수의 애플리케이션이 실행 경쟁을 할 때) 충돌 관리 규칙(연관된 우선순위 레벨이 이러한 충돌을 해결할 수 있음), d) 충돌 또는 에러의 경우에 폴백 문장(가령, 폴백 문장은 "I feel tired now, why don't we do something else"일 수 있음), d) 기타, 가령, 지시자(값) 및/또는 규칙(부울 표현식)으로 표현되는 우선순위를 포함하는 메타데이터와 연관될 수 있다. 특히, 대화 주제는 우선순위와 연관될 수 있다. 대화 주제의 특정 부분이 하위 우선순위와 연관될 수 있다.
대화 주제는 지정 멀티모드 상호작용을 포함할 수 있다. 로봇에 설치된 대화 주제는 실행될 때 하나 이상의 방법 단계들을 수행할 수 있는 컴퓨터 프로그램 코드를 포함한다. 대화 주제(가령, 지정 문장의 집합, 가령, 예상 질문에 대한 응답)가 하나의 동작(가령, 춤 실행, 머리 움직임 또는 그 밖의 다른 임의의 물리적 동작) 및/또는 애니메이션(가령, 존재한다면 조명의 활성화 등) 및 이들의 조합(가령, 춤을 추면서 대화하기)과 연관될 수 있다.
대화 주제는 로봇에 설치된 소프트웨어 애플리케이션과 연관될 수 있다. 연관된 대화 주제의 예시는 지역 날씨 조건을 제공하기에 적합한 날씨 애플리케이션과 연관된 대화(가령, 추천 복장에 대한 대화, 지난 날씨에 대한 대화, 조크 또는 인용), 게임 애플리케이션과 연관된 대화(가령, 격려, 조크, 참조의 대화), 춤 애플리케이션과 연관된 대화를 포함한다.
일반적으로 롭소은 멀티모드이다(오디오 피드백, 시각적 피드백, 운동의 조합). 로봇에 설치된 소프트웨어 애플리케이션이 로봇의 물리적 동작(춤, 이동, 물체의 변위)의 세트를 이끌 수 있다. 스마트폰 또는 태블릿에 대한 소프트웨어 애플리케이션이 일반적으로 물리 세계에서의 실제 유형의 동작을 포함하지 않는다.
소프트웨어 애플리케이션들은 상호의존적일 수 있다. 예를 들어, 소프트웨어 애플리케이션은 복잡한 물체를 나타낼 수 있기 때문에, 선험적 구별되는 소프트웨어 애플리케이션(또는 대화 주제) 간 "전환"이 관측될 수 있다. 태블릿 컴퓨터 상에서, 드로잉 소프트웨어 애플리케이션이 드로잉 툴을 제공하고 날씨 소프트웨어 애플리케이션은 기상 데이터를 제공한다. 로봇 상에서, 로봇이 "바깥은 -10°C입니다"라고 말하거나 및/또는 종이에 눈사람을 그리는 것이 가능하다(및/또는 제스처의 조합에 의해 외부가 추움을 부호화함). 다시 말하면, 멀티모드 출력의 결과로서, 소프트웨어 애플리케이션 또는 대화 주제는 더 조합될 수 있다(출력 레벨에서 또는 더 낮은 레벨에서, 가령, 변수 또는 파라미터 또는 스크립트가 소프트웨어 애플리케이션들 간에 공유되거나 수정될 수 있다).
"대화 모드(dialog mode)"는 계획된 문장의 실체("대화 패턴" 및 "대화 내용")와 형식("음성 스킨" 또는 "음성 렌더링")의 조합에 대응한다. 다시 말하면, "대화 모드"는 실체적 측면(가령, 메시지가 전달하는 사실 내용 또는 정보) 및 형식적 측면(가령, 구어체의 표현성 또는 감정 또는 톤)과 연관된다.
"대화 내용" 또는 "대화 패턴"이 지정 문장의 모음을 지칭하며, 문장은 질문 및 가령, 특정 테마 또는 주제 또는 관심 영역에 대한 (예상 또는 예측된 또는 가능한) 대답에 대응한다(그러나 반드시 그런 것은 아니지만, 일반적인 범위의 문장이 고려될 수 있다).
"대화 스킨" 또는 "대화 음성 스킨"은 오디오 렌더링 수정을 지칭한다. 이러한 오디오 렌더링 수정이 "형식"(가령, 주파수, 속도, 음높이 및 톤)에 영향을 미친다. 다시 말하면, 대화 스킨의 적용이 기본적인 사전 조립된 문장을 수정하지 않고 로봇의 표현성을 근본적으로 변경할 수 있다. 로봇과의 음성 대화의 수정의 영향이 서로 다른 레벨에서, 가령, 내용별(실체) 및/또는 형식(톤 등)으로 평가될 수 있다. 음성 스킨은 특정 음성을 모방하기 위한 파라미터를 포함할 수 있다. 음성 파라미터의 다양성이 음성 합성을 관리하도록 핸들링될 수 있다. 음성 파라미터는 주파수(로봇이 더 고음 또는 저음으로 말할지 여부를 결정), 속도(로봇이 말하는 속도), 톤(예를 들어, 배우 실베스터 스텔론과 배역 마스터 요다가 동일한 속도 및 주파수로 말하는 경우, 동일한 톤을 갖지 않는다).
예를 들어 "대화 규칙"이 하나 이상의 음성 스킨 및/또는 대화 내용 또는 패턴의 적용을 통제하는 실행 규칙을 지칭한다. "실행 규칙"은 스크립트, 프로그램 코드 또는 그 밖의 다른 경우 로봇이 말할 수 있는 구문을 적응(어휘, 문장의 종료 전에 또는 종료 시에 일부 표현의 추가 등)시킬 수 있는 부울 표현(Boolean expression) 또는 로직 규칙을 포함할 수 있다. (가령, 로봇이 질문에 대답하거나 상황을 명확화하려 시도하는 중이기 때문에) 로봇이 인간 사용자에게 무엇인가 말하려고 할 때마다, 로봇의 계획된 문장이 하나 또는 복수의 대화 실행 스킨 규칙에 매칭되는 경우, 문장은 이들 규칙에 따라 수정될 것이고 따라서 로봇이 이를 말할 것이다. 하나의 실시예에서, 하나 이상의 대화 실행 규칙이 하나 이상의 문장(즉, 로봇에 의해 말해지도록 계획된 문장)에 적용될 수 있다. 하나의 실시예에서, 상기 규칙은 로봇에 의해 말해질 각각의 문장에 적용될 수 있다. 하나의 실시예에서, 규칙은 문장의 서브세트, 가령, 지정 단어 또는 표현을 포함하는 것에 적용될 수 있다. 대화 실행 규칙이 지정될 수 있다. 대화 실행 규칙은 또한 인터넷으로부터 동적으로 불러와 질 수 있다. 일부 규칙이 상호 배타적일 수 있는 동안 다른 일부 규칙은 추가될 수 있다. 예를 들어, 실행 규칙은 연령 제한을 포함(가령, 인코딩)할 수 있다. 누적 실행 규칙이 사용 또는 적용될 수 있다. 예를 들어, 12세 초과 사용자 앞에서 및/또는 특정 상황(시간대, 측정된 청자의 감정 등)에 따라 특정 음성 스킨이 인가될 수 있다. 일부 실행 규칙이 사용자에 의해(가령, 부모 제어) 설정될 수 있다.
도 1은 본 발명의 전역적 기술적 환경을 도시한다. 로봇(130)은 센서 및 액추에이터를 포함한다. 로직 또는 "마인드"(100)이 로봇 내에서 구현되거나 (예를 들어 원격으로) 로봇과 연관되며 소프트웨어(110) 및 하드웨어 구성요소(120)의 모음을 포함한다. 로봇(130)은 (양방향 통신(140), 가령, 하나 이상의 대화 세션을 통해) 하나 이상의 사용자(150)와 대화한다. 상기 하나 이상의 사용자는 (서버의 클라우드 및/또는 다른 로봇 또는 연결된 객체 무리와 통신하는 등) 연결된 장치일 수 있는 다른 컴퓨팅 장치(160)(가령, 개인 컴퓨터, 가령, 웨어러블 컴퓨터 또는 스마트폰 또는 태블릿)를 액세스할 수 있다. 특히, 연결된 장치는 웨어러블 컴퓨터(가령, 시계, 안경, 몰입형 헬멧(immersive helmet) 등)일 수 있다.
도면 상의 특정 로봇(130)이 본 발명이 구현될 수 있는 휴머노이드 로봇의 예시로서 간주된다. 도면 상의 로봇의 하지는 보행 기능을 하지 않고, 표면 상에서 구르는 베이스를 갖고 임의의 방향으로 이동할 수 있다. 본 발명은 보행에 적합한 로봇에서 쉽게 구현될 수 있다.
본 발명의 일부 실시예에서, 로봇은 다양한 유형의 센서를 포함할 수 있다. 이들 중 일부가 로봇의 위치 및 운동을 제어하도록 사용된다. 이는, 예를 들어, 로봇의 몸통에 위치하는 관성 유닛(inertial unit)이 3축 자이로미터 및 3축 가속도계를 포함하는 경우이다. 로봇은 또한 자신의 이마 상에 (상부 및 하부) 2개의 2D 컬러 RGB 카메라를 포함할 수 있다. 또한 3D 센서가 로봇의 눈 뒤에 포함될 수 있다. 상기 로봇은 또한 선택사항으로서, 예를 들어, 머리 및 이의 베이스에 레이저 라인 생성기를 포함하여, 주위에 존재하는 물체/생물체에 대한 자신의 상대적 위치를 감지할 수 있다. 로봇은 또한 주위의 소리를 감지할 수 있는 마이크로폰을 포함할 수 있다. 본 발명의 로봇은 또한, 자신의 베이스의 전면 및 후면에 위치할 수 있는 초음파 센서를 더 포함하여, 주위의 물체/인간까지의 거리를 측정할 수 있다. 로봇은 자신의 머리와 손 상에 촉각 센서(tactile sensor)를 더 포함하여, 인간과의 대화를 가능하게 할 수 있다. 로봇은 자신의 베이스 상에 범퍼를 더 포함하여 로봇이 자신의 경로 중에 마주치는 장애물을 감지할 수 있다. 로봇의 감정을 해석하고 주위 인간과 소통하기 위해, 본 발명의 로봇은, 가령, 로봇의 눈, 귀, 및 어깨에 LED와 (가령, 귀에 위치하는) 확성기를 더 포함할 수 있다. 로봇은 기지국, 그 밖의 다른 연결된 장치, 또는 그 밖의 다른 로봇과 다양한 네트워크(3G, 4G/LTE, Wifi, BLE, 메시(mesh) 등)를 통해 통신할 수 있다. 로봇은 배터리 또는 에너지 공급원을 포함한다. 상기 로봇은 자신이 포함하는 배터리의 유형에 적합한 충전 스테이션을 액세스할 수 있다. 로봇의 위치/운동이 센서의 측정 관점에서, 각 사지와 각 사지의 끝부분에서 형성된 효과기(effector)에 의해 형성된 체인을 활성화하는 알고리즘을 이용해 이의 모터에 의해 제어된다.
특정 실시예에서, 본 발명의 로봇은 메시지(오디오, 비디오, 웹 페이지)를 이의 주위 환경으로 통신하거나, 태블릿의 촉각 인터페이스를 통해 사용자로부터의 입력 값을 수신할 수 있는 태블릿을 가진다. 또 다른 실시예에서, 로봇은 스크린을 내장하거나 제공하지 않고, 데이터 또는 정보가 로봇 근방의 표면 상에 영사될 수 있도록 하는 비디오 영사기를 가진다. 상기 표면은 평면이거나(가령, 바닥) 평면이 아닐 수 있다(가령, 영사 표면의 왜곡이 보상되어 충분히 평면인 영사가 획득될 수 있다). 두 실시예 모두(스크린 및/또는 영상기를 갖는 실시예), 본 발명의 실시예가 유효하다: 본 발명의 대화 모델이 시각 대화 수단에 의해 보충 또는 보완된다. 어느 경우라도, 그래픽 수단이 고장나거나 비활성화될 경우, 종래의 대화 모드가 유지된다.
하나의 실시예에서, 로봇은 이러한 그래픽 사용자 인터페이스 수단을 포함하지 않는다. 기존 휴머노이드 로봇은 일반적으로 진보된 음성 능력을 구비하지만 일반적으로 GUI는 구비하지 않는다. 점점 더 많은 수의 사용자가 선택적으로 및/또는 필수적으로(어린이, 장애인, 실시 상황 등 때문에) 로봇과 통신하기 위해 그래픽 수단(가령, 태블릿, 스마트폰)을 - 심지어 보조도구로서도 - 사용하지 않을 것이다.
소프트웨어(110)의 모음(전부는 아니지만)은 서로 대화하는 소프트웨어 모듈 또는 객체 또는 소프트웨어 코드 부분, 가령, "추출기(extractor)"(111), "활동 제안"(112), "마인드 우선순위화부"(113), "패키지 관리자"(114), "사용자 히스토리 데이터"(115), "집중 자율 활동"(116) 및 "집중 대화 주제"(117) 및 "건강 모니터링 서비스"(118)을 포함한다.
일반적으로 "추출기 서비스"(111)는 로봇의 내부 또는 외부에 있는 무언가를 감지 또는 지각하고 로봇의 메모리로 단기 데이터를 제공한다. 추출기 서비스는 로봇 센서로부터 입력 판독물을 수신하며, 이들 센서 판독물이 사전처리되어, 로봇의 위치, 주위 물체/인간의 신원, 상기 물체/인간의 거리,인간이 발음한 단어 또는 감정과 관련된 데이터를 추출할 수 있다. 추출기 서비스는, 특히, 안면 인식, 인간 지각, 체결 구역(engagement zone), 웨이빙 검출(waving detection), 미소 검출, 시선 검출, 감정 검출, 음성 분석, 음성 인식, 소리 위치 찾기, 운동 검출, 파노라마 나침반, 로봇 포즈, 로봇 건강 진단, 배터리, QR 코드 핸들링, 홈 자동화, 트라이브(tribe), 시각 및 스케줄을 포함한다.
"액추에이터 서비스"에 의해 로봇(130)이 동작을 물리적으로 수행할 수 있다. 모션 추적기, LED, 행동 관리자가 "액추에이터 서비스"의 예시이다.
"데이터 서비스"가 장기 저장된 데이터를 제공한다. 데이터 서비스의 예시는 사용자 데이터 및 로봇에 의해 수행된 것의 히스토리를 저장하는 사용자 세션 서비스(115), 및 하이 레벨 정의, 런칭 조건 및 태그를 갖고 로봇에 의해 실행되는 절차의 확장 가능한 저장소를 제공하는 패키지 관리자 서비스(114)이다. 특히, "패키지 관리자"는 활동 및 대화, 및 매니페스트(Manifest)의 확장 가능한 저장소를 제공한다. "매니페스트"은 메타데이터, 가령, 런칭 조건, 태그 및 하이 레벨 기술을 포함한다.
"마인드 서비스"(가령, 서비스 마인드 우선순위화(113))는 로봇이 동작을 개시할 때 로봇의 중앙 "마인드"에 의해 제어될 것들이다. "마인드 서비스"는 "액추에이터 서비스"(130), "추출기 서비스"(111) 및 "데이터 서비스"(115)를 함께 묶는다. 기본 의식이 "마인드 서비스"이다. 이는 "추출기 서비스", 가령, 사람 지각, 운동 검출, 및 소리 위치 찾기를 이용해 모션 서비스에게 움직일 것을 명령할 수 있다. "마인드"(113)가 상황을 기초로 기본 의식(Basic Awareness)의 행동을 구성한다. 그 밖의 다른 때, 기본 의식은 스스로 동작하거나, 러닝 활동(Running Activity)에 의해 설정된다.
"자율 생활(Autonomous Life)"이 마인드 서비스이다. 이는 행동 활동을 실행한다. 상황의 맥락을 기초로, 마인드(Mind)는 자율 수명에게 집중할 활동이 무엇인지를 알려줄 수 있다("집중 자율 활동"(116)). 매니페스트의 메타데이터가 이 정보를 마인드에 묶는다. 임의의 활동이 운영 체제 API 중 하나 이상을 액세스할 수 있다. 활동이 집중할 활동을 자율 생활에게 직접 말하거나, 집중할 주제를 대화 서비스에게 말할 수 있다.
"대화" 서비스는 마인드 서비스로서 구성될 수 있다. 이는 음성 인식 추출기를 이용하고 말하기 위해 "애니메이션된 음성 액추에이터 서비스"를 이용할 수 있다. 상황 맥락을 기초로, 마인드부가 집중할 주제("대화 주제(Dialog Topic)")를 대화부(Dialog)에게 말할 수 있다. "대화" 서비스는 또한 대화를 관리하기 위한 알고리즘을 가지며, 일반적으로 스스로 동작한다. 대화 서비스의 한 가지 구성요소는 "집중 대화 주제" 서비스(117)일 수 있다. 프로그램에 따라 대화 주제는 언제라도 상이한 활동 또는 대화 주제로 초점을 전환하도록 마인드에게 말할 수 있다. 대화 주제를 결정하기 위한 가능한 방법의 한 가지 예시는 다음을 포함할 수 있다: 대화 주제 또는 활동의 런칭 조건이 참 또는 거짓이 되는 순간, 순간에 대한 모든 가능한 활동 또는 대화 주제의 목록이 마인드부로 전송되며, 목록은 활동 우선순위화에 따라 필터링되고, 목록 순서가 랜덤화되며, 목록이 정렬(또는 점수 부여)되어 "고유"하며 덜 빈번하게 시작되는 활동 또는 대화 주제에 우선순위를 부여하고, 이 목록의 상위 대화 주제 또는 활동이 실행된 이전 활동과 동일한 활동이 아님을 확실시하기 위해 특수 체크가 이뤄진다. 목록은 사용자의 선호에 따라 다시 정렬되고 필터링될 수 있다.
로봇이 "건강 모니터링" 서비스(118)를 구현할 수 있다. 이러한 서비스는 데이몬(daemon) 또는 "와치독(watchdog)"으로서 동작하여, 로봇의 서로 다른 우선순위를 검토 또는 제어 또는 규정할 수 있다. 이러한 서비스는 (연속적으로, 간헐적으로 또는 주기적으로) 로봇의 내부 구성요소의 상태를 모니터링하고 하드웨어 고장을 측정 또는 예상 또는 예측 또는 수정할 수 있다. 하나의 형태에서, 로봇의 플릿(fleet)(가령, 설치된 베이스)이 모니터링된다. 내장된 서비스가 연속으로 오류 상황을 검출하고 (예를 들어 1분마다) "클라우드" 서비스와 동기화시킬 수 있다.
하드웨어 구성요소(120)는 처리 수단(121), 메모리 수단(122), 입/출력 I/O 수단(123), 대량 저장 수단(124) 및 네트워크 액세스 수단(125)을 포함하고, 상기 수단은 서로 대화한다(캐싱, 스와핑, 분산 컴퓨팅, 로드 밸런싱 등). 처리 수단(121)은 CPU(멀티코어 또는 매니코어(manycore)) 또는 FPGA일 수 있다. 메모리 수단(122)는 플래시 메모리 또는 랜덤 액세스 메모리 중 하나 이상을 포함한다. I/O 수단(123)은 스크린(가령, 터치 스크린), 조명 또는 LED, 햅틱 피드백, 가상 키보드, 마우스, 트랙볼, 조이스틱 또는 영사기(가령, 레이저 영사기) 중 하나 이상을 포함할 수 있다. 저장 수단(124)은 하드 드라이브 또는 SSD 중 하나 이상을 포함할 수 있다. 네트워크 액세스 수단은 하나 이상의 네트워크, 가령, 3G, 4G/LTE, Wifi, BLE 또는 메시 네트워크로의 액세스를 제공할 수 있다. 네트워크 트래픽은 암호화될 수 있다(가령, 터널, SSL 등).
하나의 실시예에서, 컴퓨팅 자원(계산부, 메모리, I/O 수단, 저장부 및 연결부)이, 예를 들어, (로봇 자체에서 이용 가능한) 로컬 자원의 보조로서 원격으로 액세스될 수 있다. 예를 들어, 추가 CPU 유닛이 음성 인식 컴퓨팅 작업을 위한 클라우드를 통해 액세스될 수 있다. 컴퓨팅 자원이 또한 공유될 수 있다. 특히, 복수의 로봇이 자원을 공유할 수 있다. 로봇 근방의 연결된 장치가 또한, 가령, 보안 프로토콜을 통해 어느 정도까지 자원을 공유할 수 있다. 디스플레이 수단이 또한 공유될 수 있다. 예를 들어, 텔레비전이 로봇에 의해 추가 디스플레이로서 사용될 수 있다.
도 2는 본 발명의 전역적 기술적 환경을 도시한다. 대화는 하나 이상의 개체로부터 저작될 수 있다(220). 대화 주제는 모니터링될 수 있고(230) 사용성 통계치가 여러 다른 방식으로 사용될 수 있다: (가령, 설치된 로봇 베이스를 업데이트함으로써) 인간 분석 후에 또는 실시간으로 사용될 수 있다. 서로 다른 규제 방식(231), 구체적으로 조정(moderation)이 이하에서 기재된다.
대화의 협업적 저작(220)의 실시예가 이제 기재된다.
서로 다른 저작(220) 모델이 가능하다. 하나의 실시예에서, 대화는 로봇의 제작자에 의해 저작된다. 이로 인해, 가령, 디폴트로 로봇의 공개 행동의 특정 형태의 제어가 가능해진다.
하나의 실시예에서, 대화는 소프트웨어 저작자 또는 소프트웨어 제공자 또는 ISV(independent software vendor)에 의해 저작될 수 있다. 이 모델에 따를 경우, 해당 회사의 법적 책임이 연루된다. 소프트웨어 편집자는 로봇의 제조업자 또는 로봇 플랫폼 운영자에 의해 정의되는 규칙을 존중해야 한다(악의적 단어의 부재, 예의 바른 행동 등). 대화 주제의 예시는 대화 주제 "로봇", 대화 주제 "요리" 또는 대화 주제 "스포츠"를 포함한다. 각각의 대화 주제는 클라우드로, 가령, 하나 이상의 서버 상으로 전송되거나 및/또는 각각의 로봇 상에 위치할 수 있다. 선택사항으로서 주제는 하나의 고유 언어 모델의 구성요소가 될 수 있다(가령, 최적화 및/또는 연결 및/또는 동화될 수 있다). 하나의 실시예에서, 대화 주제가 로봇에 포함된다. 하나의 실시예에서, 로봇은 복수의 대화 주제를 설치할 수 있다. 따라서 각각의 로봇은 자신의 적절한 언어 모델을 가질 수 있다. 하나의 실시예에서, 대화 주제는 설치된 베이스의 서로 다른 로봇의 거울로서의 클라우드에 포함된다. 하나의 실시예에서, 대화 주제가 클라우드에 부분적으로 포함되고 로봇에 부분적으로 포함된다.
하나의 실시예에서, 대화는 전체적으로 또는 부분적으로 대중에 의해(즉, 집단-소싱 저작) 편집될 수 있다. 이러한 실시예에서, 대화의 "기업" 저작에 비교할 때 대화 내용 및/또는 규칙에 기여하는 사람의 수가 상당히 높을 수 있다. 대화를 편집하는 기술적 어려움이 최대의 사람이 대화 내용의 편집에 기여할 수 있는 지점까지로 낮아질 수 있다. 집단 소싱 모델 및 기법은 (이용 가능한 주제의 수의 측면에서, 그리고 또한 내용의 품질 측면에서) 커버리지가 폐쇄형(즉, 사설) 모델에 비교할 때 더 우수할 수 있다. 구성된 대화의 호환성의 제어가 다운스트림 소프트웨어 레이어(대화 중의 특정 단어 또는 표현을 검열하거나 금지하는 모듈)에서 핸들링 또는 관리될 수 있다. 바람직하게는, 공개 시스템이 대화 내용의 데이터베이스를 협업적으로 풍부하게 하는 데 사용된다. 바람직하게는 공개 시스템이 사용자 커뮤니티의 창의력을 활용하고, 결국엔 더 우수하고 더 방대한 지식 베이스를 생성할 수 있다. 실제로, 로봇은 요리 레시피에서 꽃에 대한 지식까지 다양한 주제를 액세스할 수 있다. 이 양태는 로봇이 (가령, 연결된 로봇에 의해) 대화 주제를 "필요에 따라" 불러오고 설치할 수 있다는 사실로 강화된다. 이러한 넓은 커버리지는 "폐쇄형" 형태에 의해서는 획득되기 어렵다. 제어 부담이 로봇에서 구현되는 규제 수단으로 전가된다.
하나의 실시예에서, 대화 내용은 지속적으로 진화한다("wiki 대화").
하나의 실시예에서, 대화 내용은 개별 소스들로부터 집성된다. 예를 들어, 대화는 "디폴트" 대화, 소프트웨어 제공자의 추가 대화 모듈 및 웹으로부터의 자동화된 추출의 집성물로부터 도출될 수 있다. 하나의 실시예에서, 포맷은 대화 데이터베이스를 핸들링하도록 정의된다. 포맷은 특정 구문을 가지며 특정 데이터 구조를 정의한다. 정의된 형식의 대화를 가짐으로써, 개별 소스들의 동화가 가능해지고, 개별 소스의 모음으로부터 온 가능성이 있는 것들의 충돌의 관리가 촉진된다.
지금부터 대화 주제의 모니터링(230) 실시에가 기재된다.
대화가 모니터링될 수 있다(230). 다양한 소프트웨어 애플리케이션 또는 대화 주제가 설치된 베이스의 각각의 로봇(또는 이의 일부) 상에 설치될 수 있기 때문에, 정량적 측정이 수행되어, 정량적 측정이 상기 대화 주제의 서로 다른 활동에 대해 수행될 수 있다. 예를 들어 이러한 메트릭은 특정 주제가 얼마나 자주, 얼마나 오래, 어느 지역에서 런칭되는지 또는 사용자의 반응이 무엇이었는지(가령, 감정, 미소, 기분, 대답)를 포함할 수 있다. 각각의 대화 주제는 특정 메트릭과 연관될 수 있다. 복수의 메트릭이 통합되거나 및/또는 집성되고 추가 분석될 수 있다.
대화 주제의 모니터링이 a) 로봇 플랫폼 운영자에게, 일반 목적으로, b) 대화 주제 제공자에게(내용을 개선하기 위해, 가령, "조크(joke)" 애플리케이션의 경우 조크의 내용을 개선하거나, 버그 또는 잘못되거나 최적화되지 않은 규칙을 바로잡거나 투자 반환, 소요 시간 등을 개선하기 위해), 및 c) 사용자 자신에게(더 우수한 사용자 경험 및 상호작용 등을 위해) 이로울 수 있다.
통합된 통계치의 지식이 로봇 플랫폼 운영자가 서로 다른 대화 주제의 런칭 확률을 미세 조정할 수 있게 할 수 있다. 로봇 플랫폼 운영자가 서로 다른 대화 주제의 등급을 유지할 수 있다. 상기 등급은 동적 및/또는 맥락적일 수 있다. 예를 들어, 대화 주제가 성공적이라고 밝혀진 경우, 상기 대화 주제는 다음 경우에서 런칭되는 것이 바람직할 수 있다. 일반적으로 말하면, 제조업체 또는 로봇 또는 로봇 플랫폼 운영자가 개별적 상호작용을 집성할 수 있고 전역(즉, 집성된, 통합된) 사회적 상호작용 모델(사용자, 복수의 사용자, 대표 사용자와의 대화 등)을 더 구성할 수 있다. 대화 주제 제공자에 대한 이점은, 대화 주제의 사용에 대한 국지적(좁은) 관점을 액세스함으로써 고려되는 애플리케이션의 연속 개선의 가능성을 포함한다. 대화 주제에 따라 소요되는 시간이 전역적으로 분석될 수 있다. 더 상세히 말하자면, 대화 주제의 런칭의 상황적 조건이 깊이 조사될 수 있다. 이러한 분석은 앱(app) 제공자가 런칭 및/또는 전환 조건을 개선하게 할 수 있다. 하나의 실시예에서, 라이센싱 모델 다운로드별 지불(pay-per-download)일 수 있지만, 또한 사용별 지불(pay-per-usage)(또는 사용별 수익(revenue-per-usage))일수도 있다.
하나의 실시예에서, 모니터링되는 활동이 파라미터 또는 값 또는 기준, 가령, 시간 및 빈도(가령, 1일, 1주일, 또는 1달당 실행 빈도, 대화 주제가 예를 들어 대부분 아침 또는 저녁에서, 또는 일요일 등에 런칭될 때 사용자 요청 빈도), 소요 시간(가령, 총 상호작용 시간), 지리적 위치(가령, 대화 주제가 더 성공적인 때를 분석), 에러(가령, 대화 주제 버그 또는 충돌, 잘못된 규칙, 들을 수 없는 문장, 사용자의 나쁜 리액션 등), 대화 주제 전환(가령, 대화 주제 전환을 가리키는 "마르코프(Markov)" 모델, 가령, 날씨 애플리케이션이 요리 앱과는 약하게 연결되면서 뉴스 앱과 강력하게 연결될 수 있고, 대화 브리지가 확립될 수 있다), 대화 주제 성과 통계치(가령, 에러 외에, 데이터가 불러와지고 대화 주제가 실행되는 속도 등), 사용자 만족도(가령, 수동적으로 또는 명백하게 캡처되는 지각되는 감정 또는 기분), 트리거링 조건(가령, 대화 주제가 런칭되는 이유 및 때를 이해할 수 있는 통계치), 상호작용하는 사용자(가령, 사용자의 프로파일, 성별, 연령 등)를 포함할 수 있다.
이하에서 대화의 관리의 실시예가 기재된다(231).
대화의 관리(231)(대화 주제 및/또는 대화 내용 및/또는 대화 스킨 및/또는 대화 규칙)이 소프트웨어 패키지로 구현될 수 있다. 예를 들어, 이러한 패키지는 로봇의 제조업체 또는 소프트웨어 편집자에 의해 저작되거나(220) 정의 또는 프로그램될 수 있다. 이러한 소프트웨어는 수정 가능하거나 그렇지 않을 수 있다. 예를 들어, 대화 주제(가령, 음성 피부)가 완전히 결정될 수 있다(가령, 어떠한 추가 파라미터화도 공식적으로 허용될 수 없다). 대안적으로, 대화 주제가 부분적으로만 결정될 수 있다. 예를 들어, 일부(가령, 유한 개수의) 로컬 파라미터가 최종 사용자의 제어 하에서 유지될 수 있지만, (가령, 음성 스킨의 전체 무결성을 유지하기 위해) 대부분의 설정이 변경되지 않을 수 있다.
소프트웨어 애플리케이션은 대화 주제(데이터 및/또는 프로그램)을 관리할 수 있다. 특히, 소프트웨어 애플리케이션은 대화 내용(가령, 지정 문장들의 모음, 가령, 예상 질문에 대한 응답) 및/또는 대화 스킨 및/또는 프로그램 및 규칙(가령, 대화 내용 외에, 즉, 실행 규칙, 가령, 환경에 따라 적응화, 머리 움직임과의 동기화, 조명의 활성화 등을 프로그래밍) 및 이들의 조합(가령, 춤 추면서 대화)을 관리할 수 있다.
소프트웨어 애플리케이션들은 상호의존적일 수 있다. 멀티모드 출력의 결과로서, 소프트웨어 애플리케이션은 더 조합될 수 있다(출력 레벨에서 또는 더 낮은 레벨에서, 가령, 변수 또는 파라미터 또는 스크립트가 소프트웨어 애플리케이션들 간에 공유되거나 수정될 수 있다). 예를 들어, 로봇은 외부가 춥다는 것을 상징하는 제스처들의 조합과 함께 "외부는 -10°C이다"라고 말할 수 있다.
소프트웨어 애플리케이션은, 즉, 사용자와의 ("자연스러운(natural)") 대화의 동작 과정 중에 대화 인터페이스를 통해 사용자에게 표시될 수 있다. 다시 말하면, 대화 시스템은 사용자가 하나 이상의 애플리케이션을 런칭 또는 실행할 때 "병목"과 같이 동작할 수 있다.
"대화 엔진"은 최종 결정 레벨을 동작시켜, 실시간으로 상황에 따라 서로 다른 대화 주제를 활성화 또는 비활성화할 수 있다. 다시 말하면, "대화 엔진" 모듈은 하나 이상의 대화 주제 전환을 감시한다(또는 제어 또는 규제 또는 동기화 또는 운영한다). 하나의 실시예에서, 설치된 주제만 활성화될 수 있다. 하나의 실시예에서, 대화 주제는 필요시 설치될 수 있다. 특히, 대화 엔진은 각각의 대화 주제의 활성화 "경쟁"에서 선언된 우선순위와 하위 우선순위를 중재한다. 상황에 따라서, 전역적 주제뿐 아니라 서로 다른 하위 주제가 정의된다. 계층적 모델이 시간에 따라 진화하고 대화 주제 후보자가 계속 정의된다. 휴리스틱을 이용함으로써 충돌의 관리가 해결될 수 있다. 제1 휴리스틱은 "가장 긴 규칙이 우선시된다"는 것이다. 2개의 주제로부터 발생되는 충돌이 동일한 문장을 도출하는 경우, 가장 긴 규칙이 항상 우선시되는데, 가령, "let's talk about robots"에 비해 "let's talk about humanoid robots"이 선택된다. 긴 문자열이 짧은 문자열보다 많은 정보를 전달한다고 간주될 수 있다. 제2 휴리스틱은 정보의 신선도와 연관된다. 규칙이 매우 동일한 경우 가장 최근 주제가 우선시될 수 있다. 예를 들어, 사용자가 주제 "요리"를 거쳐 "로봇", 그 후 "휴머노이드 로봇", 그 다음에 "개"의 주제를 거쳤다면, "휴머노이드 로봇"이 "로봇" 주제 대신 선택될 것이다. 어떠한 주제도 사용자와 대화되지 않고, 사용자가 기술(description)을 정의한 경우, 로봇은 사용자의 선택 주제에 대해 사용자에게 질문할 수 있다. 어떠한 기술도 지정되지 않은 경우, 주제가 랜덤하게 선택될 수 있다.
로봇과의 대화 또는 로봇에 의한 대화의 관리는 다운로드 가능한 소프트웨어 프로그램으로 구현될 수 있고, 상기 프로그램은 적합한 로봇 장치 상에서 실행될 때 상기 로봇 장치로 하여금 프로그램된 대화 모드(대화 내용 및/또는 음성 스킨)를 포함하는 특정 물리적 동작을 수행하게 하는 명령을 포함한다. 소프트웨어 프로그램은 "확장 모듈" 또는 "플러그-인" 또는 "애드-온(add-on)"으로서 제공될 수 있다. 추가 대화 모드는 로봇의 디폴트 대화 내용 및 음성 스킨에 조합, 추가, 또는 대체될 수 있다. 하나의 실시예에서, 대화 모드는 로봇에 설치되는 그 밖의 다른 소프트웨어 애플리케이션을 위한 서비스라고 지칭될 수 있다. 예를 들어, 날씨 애플리케이션이 특정 맥락에서(가령, 보름달에) 다스 베이더(Dark Vador)의 음성을 이용할 수 있다. 대화 모드 및/또는 연관된 실행 규칙이 네트워크를 통해 액세스되거나 로컬하게 액세스될 수 있다. 일부 실시예에서, 이들은 네트워크로의 액세스 및 원격 지식 베이스(knowledge base)에 의해 보충된다.
이하에서 대화의 "규제" (또는 "조정")의 실시예가 기재된다.
대화의 규제와 무관하게, 복수의 아키텍처가 가능하다(가령, 개방 루프 실시예, 반-개방 루프 실시예, 폐쇄 루프 실시예).
개방-루프 실시예에서, 인간 조정(가령, 관리 패널이 대화,가령, 특정 질문에 대한 응답 및 하나 이상의 인간에 대한 케이스별 피드백을 중앙집중함)에 의해 사용자 피드백이 제어되고, 대화 모델이 변경됐는지 여부가 판단된다. 하나의 실시예에서, 개방-루프 규제 수단이 구현된다. 데이터가 수집되고 추가 통계치가 상기 데이터로부터 유도된 후, 통계치의 인간 분석이 수행되고 추가 교정(가령, 소프트웨어 업데이트) 또는 동작(가령, 서비스의 재가공)이 취해질 수 있다. 바람직하게는, 상기 교정 및/또는 동작이 품질을 가질 수 있다(로봇의 변경이 즉각적이거나 신속하게 이뤄지지 않는 경우라도).
폐쇄-루프 실시예에서, 피드백 루프는 로컬 개선을 더 직접적으로 야기할 수 있다(가령, 로컬하게 고려된 로봇이 더 잘 말할 것이다). 다시 말하면, "모범 사례"가 설치된 로봇 베이스들 간에 전파될 수 있다. "나쁜 사례"는 전파될 수 있기 전에 필터링 제거될 가능성이 높다. 하나의 실시예에서, 폐쇄-루프 규제 수단이 구현된다. 앱 메트릭 및/또는 통계치가 소프트웨어 애플리케이션과 직접 연결된다. 바람직하게는, 버그 리포트 및 심지어 제로 데이(zero day)가 자동 및 "즉각적인" 업데이트 또는 패치를 트리거한다. 소프트웨어 애플리케이션에 의한 임의의 영향 레벨의 사용자 경험에서 변경이 전파될 수 있다. 예를 들어, 통계치가 날씨 앱이 뉴스 앱과 단단하게 연결되어 있음을 가리키는 경우, 체계적으로 날씨가 예보된 후 뉴스를 제어하도록 소프트웨어 업데이트가 로봇 군을 관리할 수 있다. 이러한 업데이트의 대기시간은 의도적으로 감소될 수 있다. 일부 경우, 로컬 규칙(가령, 사용자 프로파일 또는 선호)이 전역 업데이트에도 불구하고 이전 시스템을 유지할 수 있다. 애플리케이션의 실행 가능성이 증가할수록(신뢰할만한 데이터 및/또는 동적 및 체계적 행동), 폐쇄 루프 시스템이 구현될 수 있다.
하나의 실시예에서, 조정이 또한 집단 소싱(crowd-source)된다. 대화의 편집이 (어느 정도까지) 개방될 수 있으면, 조정도 개방될 수 있다는 것이다. 보고 있는 눈이 충분히 많으면 찾지 못할 버그가 없다(Given enough eyeballs all bugs are shallow): 충분히 많은 사람들 앞에서 발음된 나쁜 단어는 "사회적으로" 필터링 제거되기 쉽다.
대화의 조정과 관련하여, 하나 이상의 조정 규칙이 사용될 수 있다(즉, 로봇이 말하기로 계획된 문장이 하나 이상의 조정 규칙과 비교될 수 있다). 하나의 실시예에서, 규칙이 지정된다(동작 조정 로직은 로봇의 제조업체 중 하나일 수 있다). 하나의 실시예에서, 하나 이상의 조정 규칙이 네트워크로부터 불러와진다(조정은 또한 "집단 소싱"될 수 있다). 예를 들어, 특정 문장에 대한 사용자의 나쁜 반응이 설치된 베이스 상에서 통합될 수 있고 조정 규칙이 클라우드에 유지되고 개별 로봇에 의해 적용될 수 있다. 하나 이상의 조정 규칙이 하나 이상의 필터를 포함할 수 있고, 상기 필터는 하나 이상의 단어의 블랙리스트 또는 하나 이상의 단어의 화이트리스트를 포함한다. 특정 단어가 검열될 수 있다(가령, 양자 택일 또는 확률이나 임계치에 따라 결정된 단어의 사용이 금지될 수 있다). 이와 달리, 일부 다른 단어가 허용되거나 일부 단어의 사용이 권장될 수 있다(편향).
개시된 방법이 완전 하드웨어 실시예(가령, FPGA)의 형태를 취할 수 있고, 완전 소프트웨어 실시예 또는 하드웨어 와 소프트웨어 요소를 포함하는 실시예의 형태를 취할 수 있다. 소프트웨어 실시예의 비제한적 예를 들면, 펌웨어, 레지던트 소프트웨어, 마이크로코드 등이 있다. 본 발명은 컴퓨터 또는 임의의 명령 실행 시스템에 의해 사용되기 위해 프로그램 코드를 제공하는 컴퓨터 이용 가능 또는 컴퓨터 판독 매체로부터 액세스 가능한 컴퓨터 프로그램 프로덕트의 형태를 가질 수 있다. 컴퓨터 이용 가능 또는 컴퓨터 판독형 매체는 명령 실행 시스템, 장치, 또는 디바이스에 의해 또는 이들과 함께 프로그램을 포함 또는 저장할 수 있는 임의의 유형의 장치일 수 있다. 매체는 전자, 자기, 광학, 전자기, 또는 반도체 시스템(또는 장치 또는 디바이스) 매체일 수 있다.

Claims (18)

  1. 로봇과 인간 사용자 간 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법으로서, 상기 방법은
    상기 오디오 대화 동안, 오디오 데이터를 수신하고 상기 오디오 데이터를 텍스트 데이터로 변환하는 단계,
    상기 텍스트 데이터에 응답하여, 대화 주제를 결정하는 단계 - 상기 대화 주제는 대화 내용(dialog content) 및 대화 음성 스킨(dialog voice skin)을 포함하고, 대화 내용은 복수의 문장을 포함하고, 대화 음성 스킨은 오디오 렌더링 수정과 주파수, 속도 및 톤을 포함하는 음성 스킨 파라미터를 포함함 - ,
    로봇에 의해 오디오로 렌더링될 문장을 결정하는 단계,
    상기 결정된 대화 문장의 수정 요청을 수정하는 단계 - 상기 수정 요청은 복수의 파티의 투표임 - ,
    수정 요청을 수락하거나 거절하는 단계 - 상기 수정 요청을 수락하거나 거절하는 단계는 계획된 문장을 하나 이상의 조정 규칙과 비교하는 단계를 포함함 - ,
    상기 하나 이상의 조정 규칙은 하나 이상의 필터를 포함하고, 상기 필터는 하나 이상의 단어의 블랙리스트(blacklist) 또는 하나 이상의 단어의 화이트리스트(whitelist)를 포함하는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  2. 제1항에 있어서, 상기 수정 요청을 수락하는 단계 및 수정된 결정 대화 문장을 오디오로 반환하는 단계를 더 포함하는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  3. 제1항에 있어서, 하나 이상의 조정 규칙(moderation rule)이 지정되는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  4. 제3항에 있어서, 하나 이상의 조정 규칙이 네트워크로부터 불러와지는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  5. 제1항에 있어서, 상기 수정 요청은 단일 파티(party)로부터 발생되는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  6. 제1항에 있어서, 수정 요청은 우선순위 레벨과 연관되는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  7. 제1항에 있어서, 상기 수정 요청은 로봇에 의해 지각되는 환경에 따라 달라지는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  8. 제7항에 있어서, 수정 요청은 사용자의 연령, 사용자의 기분, 사용자의 감정, 사용자의 수, 사용자와의 상호작용 히스토리, 사용자 선호, 로봇 및 사용자의 공간 변위, 로봇 및 사용자의 제스처 또는 제스처 조합, 로봇의 주위에서 검출된 이벤트, 지역 날씨, 지리적 위치(geolocation), 날짜, 시간 및 이들의 조합으로 구성된 군 중에서 선택된 파라미터에 따라 달라지는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  9. 제2항에 있어서, 수정된 결정 대화 문장을 오디오로 반환한 후 사용자의 피드백을 수신하는 단계를 포함하는, 오디오 대화를 핸들링하는 컴퓨터로 구현되는 방법.
  10. 컴퓨터 장치 상에서 실행될 때, 청구항 제1항 내지 제9항 중 어느 한 항에 따르는 방법의 단계들을 수행하기 위한 명령을 포함하는 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록 매체.
  11. 청구항 제1항 내지 제9항 중 어느 한 항에 따르는 방법의 단계들을 수행하도록 구성된 수단을 포함하는 시스템.
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
KR1020167032137A 2014-04-17 2015-04-17 로봇의 대화를 관리하기 위한 방법 및 시스템 KR102106193B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305581.2A EP2933071A1 (en) 2014-04-17 2014-04-17 Methods and systems for managing dialogs of a robot
EP14305581.2 2014-04-17
PCT/EP2015/058361 WO2015158881A1 (en) 2014-04-17 2015-04-17 Methods and systems for managing dialogs of a robot

Publications (2)

Publication Number Publication Date
KR20170027706A KR20170027706A (ko) 2017-03-10
KR102106193B1 true KR102106193B1 (ko) 2020-04-29

Family

ID=50628740

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167032137A KR102106193B1 (ko) 2014-04-17 2015-04-17 로봇의 대화를 관리하기 위한 방법 및 시스템

Country Status (14)

Country Link
US (1) US10335954B2 (ko)
EP (1) EP2933071A1 (ko)
JP (1) JP6649896B2 (ko)
KR (1) KR102106193B1 (ko)
CN (1) CN106573375A (ko)
AU (3) AU2015248707A1 (ko)
BR (1) BR112016024007A2 (ko)
CA (1) CA2946043A1 (ko)
HK (1) HK1216408A1 (ko)
MX (1) MX2016013014A (ko)
NZ (1) NZ725145A (ko)
RU (1) RU2690071C2 (ko)
SG (1) SG11201608349TA (ko)
WO (1) WO2015158881A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220125850A (ko) * 2021-03-04 2022-09-15 신라대학교 산학협력단 의료서비스로봇의 인간과 면대면 상호작용 수행 방법 및 이를 이용한 원격 모니터링이 가능한 의료서비스 로봇 시스템

Families Citing this family (59)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10350757B2 (en) 2015-08-31 2019-07-16 Avaya Inc. Service robot assessment and operation
US10032137B2 (en) 2015-08-31 2018-07-24 Avaya Inc. Communication systems for multi-source robot control
US10040201B2 (en) 2015-08-31 2018-08-07 Avaya Inc. Service robot communication systems and system self-configuration
US10124491B2 (en) * 2015-08-31 2018-11-13 Avaya Inc. Operational parameters
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
JP2017162268A (ja) * 2016-03-10 2017-09-14 国立大学法人大阪大学 対話システムおよび制御プログラム
CN107293292A (zh) * 2016-03-31 2017-10-24 深圳光启合众科技有限公司 基于云端的设备及其操作方法
JP6844124B2 (ja) * 2016-06-14 2021-03-17 富士ゼロックス株式会社 ロボット制御システム
US10239205B2 (en) * 2016-06-29 2019-03-26 International Business Machines Corporation System, method, and recording medium for corpus curation for action manifestation for cognitive robots
JP2018001387A (ja) * 2016-07-08 2018-01-11 ロボットスタート株式会社 ロボット、プログラム、ロボットシステム及びサーバ
CN109643541A (zh) * 2016-08-09 2019-04-16 索尼公司 信息处理装置和信息处理方法
US10272349B2 (en) * 2016-09-07 2019-04-30 Isaac Davenport Dialog simulation
US10220517B2 (en) * 2016-10-31 2019-03-05 International Business Machines Corporation System, method and computer program product for controlling a mission-oriented robot based on a user's emotional state
CN106599124A (zh) * 2016-11-30 2017-04-26 竹间智能科技(上海)有限公司 主动引导用户持续对话的系统及方法
CN106599196B (zh) * 2016-12-14 2021-07-16 竹间智能科技(上海)有限公司 一种人工智能对话方法及系统
CN108319599B (zh) * 2017-01-17 2021-02-26 华为技术有限公司 一种人机对话的方法和装置
WO2018163645A1 (ja) * 2017-03-10 2018-09-13 日本電信電話株式会社 対話方法、対話システム、対話装置、およびプログラム
US10120866B1 (en) * 2017-04-28 2018-11-06 Microsoft Technology Licensing, Llc Conversational system user behavior identification
CN107301168A (zh) * 2017-06-01 2017-10-27 深圳市朗空亿科科技有限公司 智能机器人及其情绪交互方法、系统
US10569420B1 (en) * 2017-06-23 2020-02-25 X Development Llc Interfacing with autonomous devices
JP2019005842A (ja) * 2017-06-23 2019-01-17 カシオ計算機株式会社 ロボット、ロボットの制御方法及びプログラム
CN109119083A (zh) * 2017-06-26 2019-01-01 浙江金讯网络技术股份有限公司 一种高效广播式外呼系统
CN107492381A (zh) * 2017-08-29 2017-12-19 郑杰 一种聊天机器人的音色配置装置及其方法
KR101854576B1 (ko) * 2017-11-10 2018-05-03 베스핀글로벌 주식회사 챗봇 기반 클라우드 관리 시스템 및 그의 운영 방법
US10777198B2 (en) 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof
KR102147835B1 (ko) 2017-11-24 2020-08-25 한국전자통신연구원 인터랙티브 로봇의 발화 및 제스처 속성 결정 장치 및 방법
TWI651714B (zh) * 2017-12-22 2019-02-21 隆宸星股份有限公司 語音選項選擇系統與方法以及使用其之智慧型機器人
US10923101B2 (en) 2017-12-26 2021-02-16 International Business Machines Corporation Pausing synthesized speech output from a voice-controlled device
US10593318B2 (en) 2017-12-26 2020-03-17 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
US10657951B2 (en) 2017-12-26 2020-05-19 International Business Machines Corporation Controlling synthesized speech output from a voice-controlled device
CN107895579B (zh) * 2018-01-02 2021-08-17 联想(北京)有限公司 一种语音识别方法及系统
KR101933822B1 (ko) 2018-01-22 2019-03-29 숭실대학교산학협력단 얼굴인식 기반 지능형 스피커, 이를 이용한 능동적인 대화 제공 방법 및 이를 수행하기 위한 기록매체
US10832118B2 (en) * 2018-02-23 2020-11-10 International Business Machines Corporation System and method for cognitive customer interaction
CN108766416B (zh) * 2018-04-26 2021-06-25 Oppo广东移动通信有限公司 语音识别方法及相关产品
DE102018207513A1 (de) * 2018-05-15 2019-11-21 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines Roboters über einen Sprachdialog
US10969763B2 (en) * 2018-08-07 2021-04-06 Embodied, Inc. Systems and methods to adapt and optimize human-machine interaction using multimodal user-feedback
CN109278051A (zh) * 2018-08-09 2019-01-29 北京光年无限科技有限公司 基于智能机器人的交互方法及系统
US20200064986A1 (en) * 2018-08-22 2020-02-27 Caressa Corporation Voice-enabled mood improvement system for seniors
US11037557B2 (en) 2018-08-24 2021-06-15 International Business Machines Corporation Cognitive contextual conversation side topics
EP3859568A4 (en) * 2018-09-28 2021-09-29 Fujitsu Limited DIALOGUE DEVICE, DIALOGUE PROCEDURE AND DIALOGUE PROGRAM
KR102228866B1 (ko) * 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
US11222283B2 (en) * 2018-10-23 2022-01-11 International Business Machines Corporation Hierarchical conversational policy learning for sales strategy planning
US11557297B2 (en) 2018-11-09 2023-01-17 Embodied, Inc. Systems and methods for adaptive human-machine interaction and automatic behavioral assessment
US11501179B2 (en) * 2018-11-28 2022-11-15 International Business Machines Corporation Cognitive robotics system that requests additional learning content to complete learning process
CN109561225A (zh) * 2018-12-04 2019-04-02 合肥天骋电子商务有限公司 一种智能语音导航集中系统
WO2020130219A1 (ko) * 2018-12-21 2020-06-25 엘지전자 주식회사 로봇의 제어 방법
KR102221088B1 (ko) * 2019-01-09 2021-02-26 주식회사 솔트룩스 모듈형 대화 모델을 위한 시스템 및 방법
KR102192796B1 (ko) * 2019-03-27 2020-12-18 한국과학기술원 지식 학습을 위한 대화 에이전트의 대화 주도 방법 및 장치
WO2020197074A1 (ko) * 2019-03-27 2020-10-01 한국과학기술원 지식 학습을 위한 대화 에이전트의 대화 주도 방법 및 장치
CN110600002B (zh) * 2019-09-18 2022-04-22 北京声智科技有限公司 语音合成方法、装置及电子设备
KR20190116190A (ko) * 2019-09-23 2019-10-14 엘지전자 주식회사 로봇
US11444893B1 (en) 2019-12-13 2022-09-13 Wells Fargo Bank, N.A. Enhanced chatbot responses during conversations with unknown users based on maturity metrics determined from history of chatbot interactions
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
US20220176565A1 (en) * 2020-02-29 2022-06-09 Embodied, Inc. Systems and methods for authoring and modifying presentation conversation files for multimodal interactive computing devices / artificial companions
CN112382291B (zh) * 2020-11-23 2021-10-22 北京百度网讯科技有限公司 语音交互的处理方法、装置、电子设备及存储介质
CN112379780B (zh) * 2020-12-01 2021-10-26 宁波大学 多模态情感交互方法、智能设备、系统、电子设备及介质
CN114218424B (zh) * 2022-02-22 2022-05-13 杭州一知智能科技有限公司 一种基于wav2vec的语气词插入的语音交互方法及系统
CN115426265B (zh) * 2022-11-02 2023-04-18 之江实验室 一种多模态网络下交换资源分配优化方法及装置、介质
CN116595153B (zh) * 2023-07-11 2023-11-24 安徽淘云科技股份有限公司 智能交互设备的交互方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037458A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 応答システム、及び応答内容制御方法
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10133852A (ja) * 1996-10-31 1998-05-22 Toshiba Corp パーソナルコンピュータおよび音声属性パラメータの管理方法
US7085719B1 (en) * 2000-07-13 2006-08-01 Rockwell Electronics Commerce Technologies Llc Voice filter for normalizing an agents response by altering emotional and word content
JP2003044088A (ja) * 2001-07-27 2003-02-14 Sony Corp プログラム、記録媒体、並びに音声対話装置および方法
JP3925140B2 (ja) * 2001-10-09 2007-06-06 ソニー株式会社 情報提供方法及び情報提供装置、並びにコンピュータ・プログラム
JP4271193B2 (ja) * 2003-08-12 2009-06-03 株式会社国際電気通信基礎技術研究所 コミュニケーションロボット用制御システム
JP4629560B2 (ja) * 2004-12-01 2011-02-09 本田技研工業株式会社 対話型情報システム
US9811935B2 (en) * 2007-04-26 2017-11-07 Ford Global Technologies, Llc Emotive advisory system and method
US8594845B1 (en) * 2011-05-06 2013-11-26 Google Inc. Methods and systems for robotic proactive informational retrieval from ambient context
US8751042B2 (en) * 2011-12-14 2014-06-10 Toyota Motor Engineering & Manufacturing North America, Inc. Methods of robot behavior generation and robots utilizing the same

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009037458A (ja) * 2007-08-02 2009-02-19 Toyota Motor Corp 応答システム、及び応答内容制御方法
JP2010170033A (ja) * 2009-01-26 2010-08-05 Takao Hayashi インターネットシステムを用いた音声対話システムのビジネスモデル

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220125850A (ko) * 2021-03-04 2022-09-15 신라대학교 산학협력단 의료서비스로봇의 인간과 면대면 상호작용 수행 방법 및 이를 이용한 원격 모니터링이 가능한 의료서비스 로봇 시스템
KR102552174B1 (ko) * 2021-03-04 2023-07-06 신라대학교 산학협력단 의료서비스로봇의 인간과 면대면 상호작용 수행 방법 및 이를 이용한 원격 모니터링이 가능한 의료서비스 로봇 시스템

Also Published As

Publication number Publication date
MX2016013014A (es) 2017-05-23
AU2020201118A1 (en) 2020-03-05
AU2018202082A1 (en) 2018-04-19
US10335954B2 (en) 2019-07-02
AU2015248707A1 (en) 2016-11-03
CN106573375A (zh) 2017-04-19
US20170113353A1 (en) 2017-04-27
CA2946043A1 (en) 2015-10-22
JP2017514173A (ja) 2017-06-01
JP6649896B2 (ja) 2020-02-19
KR20170027706A (ko) 2017-03-10
BR112016024007A2 (pt) 2017-08-15
SG11201608349TA (en) 2016-11-29
RU2016144816A3 (ko) 2018-05-22
WO2015158881A1 (en) 2015-10-22
RU2016144816A (ru) 2018-05-22
HK1216408A1 (zh) 2016-11-11
EP2933071A1 (en) 2015-10-21
NZ725145A (en) 2018-04-27
RU2690071C2 (ru) 2019-05-30

Similar Documents

Publication Publication Date Title
KR102106193B1 (ko) 로봇의 대화를 관리하기 위한 방법 및 시스템
AU2018202162B2 (en) Methods and systems of handling a dialog with a robot
KR102306624B1 (ko) 지속적 컴패니언 디바이스 구성 및 전개 플랫폼
KR102001293B1 (ko) 로봇 상의 소프트웨어 애플리케이션 실행하기
KR20170027707A (ko) 로봇의 활동 모니터링
US20200257954A1 (en) Techniques for generating digital personas

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
E90F Notification of reason for final refusal
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant