KR20170003580A - 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇 - Google Patents

휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇 Download PDF

Info

Publication number
KR20170003580A
KR20170003580A KR1020167032132A KR20167032132A KR20170003580A KR 20170003580 A KR20170003580 A KR 20170003580A KR 1020167032132 A KR1020167032132 A KR 1020167032132A KR 20167032132 A KR20167032132 A KR 20167032132A KR 20170003580 A KR20170003580 A KR 20170003580A
Authority
KR
South Korea
Prior art keywords
user
robot
humanoid robot
word
events
Prior art date
Application number
KR1020167032132A
Other languages
English (en)
Other versions
KR101991163B1 (ko
Inventor
제롬 몽샥스
귀나엘 가테
다비드 호신
가브리엘 바르비에리
조슬린 마르탱
쟝 테스타드
일모 구르댕
Original Assignee
소프트뱅크 로보틱스 유럽
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 소프트뱅크 로보틱스 유럽 filed Critical 소프트뱅크 로보틱스 유럽
Publication of KR20170003580A publication Critical patent/KR20170003580A/ko
Application granted granted Critical
Publication of KR101991163B1 publication Critical patent/KR101991163B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/0015Face robots, animated artificial faces for imitating human expressions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/005Manipulators for mechanical processing tasks
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • G06F17/271
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units

Landscapes

  • Engineering & Computer Science (AREA)
  • Robotics (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇.
휴머노이드 로봇(R)과 적어도 하나의 사용자(U) 간 대화를 수행하는 방법으로서, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는 다음의 단계를 포함한다:
i) 각자의 센서(c1, c2)로부터 복수의 입력 신호(s1, s2)를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,
ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트(EVI)를 인식하는 단계 - 상기 이벤트(EVI)는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,
iii) 적어도 하나의 이벤트(EVO)를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트(EVO)는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택됨 - ,
iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계
단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
이러한 방법을 수행하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇

Description

휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇{METHOD OF PERFORMING MULTI-MODAL DIALOGUE BETWEEN A HUMANOID ROBOT AND USER, COMPUTER PROGRAM PRODUCT AND HUMANOID ROBOT FOR IMPLEMENTING SAID METHOD}
본 발명은 휴머노이드 로봇과 사용자, 즉, 보통 인간인 대화상대 간 이른바 "멀티모드" 대화를 수행하는 방법과 관련된다. 본 발명은 또한 이러한 방법의 구현을 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇과 관련된다.
"휴머노이드 로봇"은 인간의 외형 및 기능부의 특정 속성, 가령, 몸통, 머리, 팔, 다리, 음성-인식 및 음성 합성 등을 이용해 인간과 구두로 통신할 수 있는 능력을 갖는 로봇으로 정의될 수 있다. 이러한 유형의 로봇은 인간과 기계 간 인지 거리(cognitive distance)를 감소시키는 것을 목표로 한다. 휴머노이드 로봇의 가장 중요한 특성 중 하나는 인간 대화 상대와의 대화를 가능한 자연스럽게 지원할 수 있는 능력이다. 이 능력은 노인, 환자, 또는 단순히 외로운 사람들을 일상 속에서 돕고 이들에게 인간 개인 비서의 존재의 - 감정적 관점에서 - 수용 가능한 대체를 제공하기 위한 "동반자 로봇(companion robot)"의 개발에 핵심적이다. 이를 위해, 가능한 인간 행동과 가깝게 흉내 내는 방식으로 인간과 대화하기 위한 이러한 휴머노이드 로봇의 능력을 개발하는 것이 필수적이다. 특히, 로봇이 인간의 질문 또는 선언을 해석할 수 있고, 인간의 표현에 대응하는 표현을 이용하는 대화 모드 및 일반적으로 인간의 유형인 행동 및 감정과 상승작용을 하는 표현 모드에서 복제를 만들 수 있는 것이 필요하다.
이와 관련된 첫 번째 단계는 상용화된 Nao™ 휴머노이드 로봇을 프로그래밍하는 방법, 로봇 플레이어에 대한 국제 특허 출원 WO2012/000927 및 자연 인터페이스 대화 기능을 갖는 휴머노이드 로봇에 대한 국제 특허 출원 WO2012/010451에 개시된 바를 기초로 한다.
그러나 이들 문서에 개시된 로봇은 제한적이고 지정된 대화 요소만 수행할 수 있다.
국제 특허 출원 WO2013/150076은 대화 에이전트, 음성 인식 툴 및 대화 상대의 행동을 분석하기 위한 툴을 갖는 휴머노이드 로봇을 기술하며, 기존 로봇보다 더 풍부한 대화 능력을 보여준다.
본 발명은 인간 대화 상대와의 대화를 더 풍부하고 더 현실적으로 만드는 이러한 휴머노이드 로봇을 개선하는 데 목표를 둔다. 본 발명은, 특히, 사용자의 동작을 해석할 수 있는 능력을 갖는 로봇을 제공함으로써 인간-로봇 대화를 개선하는 것을 목표로 삼는 "Juliette"라고 일컬어지는 프로젝트를 포함한다.
본 발명의 목적은, 이러한 목표를 달성할 수 있게 하면서, 청구항 1항에 따르는 휴머노이드 로봇과 적어도 한 명의 사용자 간 대화를 수행하는 방법을 제공하는 것이며, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는 다음의 단계들을 포함한다:
i) 각자의 센서로부터 복수의 입력 신호를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,
ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트를 인식하는 단계 - 상기 이벤트는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,
iii) 적어도 하나의 이벤트를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택되며, 상기 결정하는 단계는 규칙의 세트를 적용함으로써 수행되고, 각각의 규칙은 입력 이벤트의 세트를 로봇의 응답에 연관시킴 - ,
iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계
단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아니다.
이러한 방법의 특정 실시예는 종속 청구항의 대상이 된다.
본 발명의 또 다른 대상은 휴머노이드 로봇에 내장된 적어도 하나의 프로세서에 의해 실행될 때, 상기 방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트이며, 상기 로봇은, 적어도 하나의 프로세서에 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 복수의 센서, 단어 또는 문장을 발언하도록 상기 프로세서에 의해 제어되는 음성 합성 모듈, 및 상기 프로세서에 의해 상기 로봇이 복수의 운동 또는 제스처를 수행하도록 구동되는 액추에이터의 세트를 포함한다.
본 발명의 또 다른 대상은 다음을 포함하는 휴머노이드 로봇이다:
적어도 하나의 내장된 프로세서, 및
- 상기 적어도 하나의 프로세서를 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 센서 조립체,
- 단어 또는 문장을 발언하도록 상기 프로세서에 의해 구동되는 음성 합성 모듈, 및
- 로봇이 복수의 운동 또는 제스처를 수행할 수 있게 하도록 상기 프로세서에 의해 구동된 액추에이터의 세트,
이때, 상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 프로그램 또는 구성된다.
이러한 휴머노이드 로봇은 적어도 하나의 원격 서버로 연결되기 위한 장치를 더 포함하며, 상기 적어도 하나의 프로세서는 본 발명의 실시예에 따르는 방법을 수행하도록 상기 원격 서버와 협업하도록 프로그램 또는 구성된다.
본 발명의 그 밖의 다른 특징, 세부사항 및 이점이 예시가 제공된 첨부된 도면을 참조하여 다음의 기재를 읽은 후 명백해질 것이다.
도 1은 본 발명을 구현하기에 적합한 휴머노이드 로봇의 물리적 아키텍처를 보여준다.
도 2는 본 발명의 실시예에 따르는 방법의 단계 및 이러한 구현을 위한 하드웨어 및 소프트웨어 수단의 배열을 도시한다.
도 3은 본 발명의 특정 실시예에 따르는 "선행적" 대화의 구현을 도시한다.
도 4는 본 발명의 실시예에 따르는 휴머노이드 로봇의 응답을 애니메이션화하는 단계를 도시하는 다이어그램이다.
도 5a, 5b, 및 5c는 애니메이션화될 하나 이상의 단어의 결정을 위해 문장의 구문 분석의 3가지 예시이다.
도 6은 본 발명의 실시예에 따르는 사용자에 대한 로봇의 위치의 서보-제어를 도시한다.
도 7은 본 발명의 하나의 실시예에 따르는 이벤트를 식별하는 단계를 도시하는 다이어그램이다.
도 8은 본 발명의 하나의 실시예에 따르는 표음 음성 인식의 단계를 도시한다.
도 1은 본 발명의 복수의 실시예에서 휴머노이드 로봇의 물리적 아키텍처를 디스플레이한다.
도면 상의 특정 로봇 R이 본 발명이 구현될 수 있는 휴머노이드 로봇의 예시로서 간주된다. 도면 상의 로봇의 하지는 보행 기능을 하지 않고, 표면 상에서 구르는 베이스 RB를 갖고 임의의 방향으로 이동할 수 있다. 본 발명은 보행에 적합한 로봇에서 쉽게 구현될 수 있다. 예를 들어, 이 로봇은 약 120cm일 수 있는 높이 H, 약 65cm인 깊이 D, 및 약 40cm인 폭 W을 가진다. 특정 실시예에서, 본 발명의 로봇은 메시지(오디오, 비디오, 웹 페이지)를 이의 주위 환경으로 통신하거나, 태블릿의 촉각 인터페이스를 통해 사용자로부터의 입력 값을 수신할 수 있는 태블릿 RT을 가진다. 태블릿의 프로세서에 추가로, 본 발명의 로봇은 또한 고유 마더보드의 프로세서를 이용하며, 상기 프로세서는 예를 들어 Intel™사의 ATOM™ Z530일 수 있다. 본 발명의 로봇은 또한 본 발명의 특정 실시예에서, 마더보드, 특히, 자기 회전 인코더(MRE)(Magnetic Rotary Encoder)를 포함하는 보드와 사지의 관절의 모터 및 로봇이 바퀴로서 사용하는 볼(ball)을 제어하는 센서 간 데이터 흐름의 핸들링에 특화된 프로세서를 포함할 수 있다. 모터는 확정적 관절을 위해 필요한 최대 토크(torque)의 크기에 따라 서로 다른 유형을 가질 수 있다. 예를 들어, e-minebea™ 사의 브러쉬 DC 코어리스 모터(가령, SE24P2CTCA)가 사용되거나, Maxon™ 사의 브러시리스 DC 모터(가령, SE24P2CTCA)가 사용될 수 있다. MRE는 일반적으로 12 또는 14비트 정밀도로 홀 효과(Hall effect)를 이용하는 유형인 것이 바람직하다.
본 발명의 실시예에서, 도 1에 도시된 로봇이 또한 다양한 유형의 센서를 포함한다. 이들 중 일부가 로봇의 위치 및 운동을 제어하도록 사용된다. 예를 들어, 이는, 로봇의 몸통에 위치하는 관성 유닛이 3-축 자이로미터 및 3-축 가속도계를 포함하는 경우에 해당한다. 또한 로봇은 시스템 온 칩(SOC) 유형이며, 초당 5 프레임에서 5메가픽셀의 해상도를 갖고 약 57°수평 및 44°수직의 시야(FOV)를 갖는 로봇(상부 및 하부)의 이미 상의 2개의 2D 컬러 RGB 카메라, 가령, Shenzen V-Vision Technology Ltd™ (OV5640)를 포함할 수 있다. 또한 하나의 3D 센서, 가령, 초당 20 프레임에서 0.3메가픽셀의 해상도를 갖고, 2D 카메라와 거의 동일한 FOV를 갖는 ASUS XTION™ SOC 센서가 로봇의 눈 뒤에 포함될 수 있다. 본 발명의 로봇에 레이저 라인 생성기(laser lines generator), 가령, 머리에 3개, 베이스에 3개가 구비되어, 환경에 속하는 물체/생물체에 대한 상대적 위치를 감지할 수 있다. 본 발명의 로봇은 이의 환경에서 소리를 감지할 수 있도록 마이크로폰을 더 포함할 수 있다. 하나의 실시예에서, 1kHz에서 300mV/Pa +/-3dB의 감도 및 300Hz 내지 12kHz의 주파수 범위(1kHz에 대한 -10dB)를 갖는 4개의 마이크로폰이 로봇의 머리 상에서 구현될 수 있다. 본 발명의 로봇은 또한, 로봇의 베이스의 전면 및 후면에 위치할 수 있는 2개의 초음파 센서를 포함하여, 로봇 주위의 물체/인간까지의 거리를 측정할 수 있다. 로봇은 자신의 머리와 손 상에 촉각 센서(tactile sensor)를 더 포함하여, 인간과의 대화를 가능하게 할 수 있다. 또한 자신의 베이스 상에 범퍼(bumper)를 더 포함하여, 자신의 경로 상에서 마주치는 장애물을 감지할 수 있다.
로봇의 감정을 번역하고 로봇 주위의 인간과 통신하기 위해, 본 발명의 로봇은 다음을 더 포함할 수 있다:
가령, 눈과 귀 및 어깨 상의 LED,
가령, 귀에 위치하는 2개의 확성기.
본 발명의 로봇은 RJ45 또는 WiFi 802.11 연결을 통해 기지국 또는 그 밖의 다른 로봇과 통신할 수 있다.
본 발명의 로봇은 약 400Wh의 에너지를 갖는 리튬 철 인산염 배터리에 의해 전력을 공급 받을 수 있다. 상기 로봇은 자신이 포함하는 배터리의 유형에 적합한 충전 스테이션을 액세스할 수 있다.
로봇의 위치/운동이 센서의 측정 관점에서, 각 사지와 각 사지의 끝부분에서 형성된 효과기(effector)에 의해 형성된 체인을 활성화하는 알고리즘을 이용해 이의 모터에 의해 제어된다.
도 2는 본 발명의 하나의 실시예에 따르는 대화 방법을 도시한다. 이러한 방법의 구현에 의해 획득되는 대화는 "멀티모드"라고 지칭될 수 있는데, 왜냐하면 로봇이, 자신의 응답을 공식화하기 위해, 질적으로 서로 다른 이벤트, 가령, 사용자(즉 대화 상대)에 의해 생성되는 말, 제스처, 태도, 표정 등의 조합을 고려한다. 앞서 언급된 국제 특허 출원 WO2013/150076은 또한 로봇이 제스처, 가령, 대화 상대의 손을 흔드는 제스처 - 그러나 공동 발생되는 언어적 그리고 비언어적 이벤트의 특정 조합에 한정되지 않음 - 에 반응하는 방법을 개시한다.
도 2의 방법의 제1 단계(i)에서, 각자의 센서 c1(마이크로폰) 및 c2(카메라)로부터의 입력 신호 s1, s2가 로봇에 의해 획득되고 추출기 모듈 군 EXT(이하, 내장 프로세서 또는 원격 센서에 의해 실행되는 소프트웨어 모듈을 지시하기 위해 용어 "모듈"이 사용되고, 하드웨어 또는 하드웨어-소프트웨어 하이브리드 구현예가 항상 가능하고 본 발명의 범위 내에 있음이 이해되어야 한다)에 의해 처리될 수 있다. 각각의 추출기 모듈은 입력 신호 또는 특정 유형의 복수의 신호를 수신하고 로봇의 그 밖의 다른 모듈에 의해 사용되도록 정보를 출력한다. 예를 들어, 도 2의 경우, 제1 추출기 모듈은, 인간 음성과 호환 가능한 것으로 식별된 소리 및 상기 음성의 억양을 나타내는 메타데이터 M(행복, 슬픔, 분노, 명령문, 의문문...)으로 변환함으로써, 마이크로폰 c1으로부터의 신호 s1을 처리하여 텍스트 출력 TXT를 제공할 수 있으며, 제2 및 제3 추출 모듈은 카메라 c2로부터의 신호 s2를 처리하여 상기 카메라의 시계에서의 사용자의 얼굴 및 팔의 관심 포인트를 나타내는 "비-텍스트 데이터" NTD를 생성할 수 있다.
추출기 군의 출력이 대화 엔진 모듈 DE의 입력으로서 제공된다. 이 모듈에 의해 수행되는 처리는 복잡하고 상당한 크기의 데이터베이스로의 액세스를 필요로 할 수 있다. 이러한 이유로, 이 처리는 인터넷 연결을 통해 액세스되는 하나 이상의 원격 서버 RS에 의해 부분적으로 수행될 수 있다.
대화 엔진 모듈은 데이터 TXT, MD, NTD를 입력으로서 수신하고 이들을 지정된 "입력 이벤트" EVI와 연관 짓는 인지 모듈(recognition module) REC을 포함한다. 예를 들어, 모듈 REC는 텍스트 데이터 TXT를 사전의 단어들과 연관시킬 수 있으며, 또한 사용자의 얼굴의 관심 포인트의 특정 구성을 미소와 연관시킬 수 있고, 심지어 수치 값을 상기 미소에 부여할 수 있으며(가령, 0 내지 5의 값, 이때 0은 웃지 않음을 의미하고 5는 매우 활짝 웃음을 의미함), 또한 사용자의 팔의 관심 포인트의 특정 구성을 제스처, 가령, 손 흔들기와 연관시킬 수 있다. 고려되는 특정 실시예에 따라, 인식 모듈의 작업이 추출기 모듈에 의해 수행될 수 있으며 - 가령, "미소 추출기"를 가질 수 있음 - 앞서 기재된 바와 같은 미소 값을 직접 제공하 ㄹ수 있다.
"대화 맥락" 또는 "주제", 로봇의 메모리에 저장된 파라미터 CTX가 인식 모듈의 결정에 영향을 미칠 수 있다. 실제로, 유사한 항목이 맥락에 따라 서로 다른 이벤트로 해석될 수 있는데, 예를 들어, 서로 다른 맥락에서 크게 벌어진 사용자의 입이 하품 또는 혼미함의 표현으로 해석될 수 있다. 이는 본 발명의 제2 단계(ii)에 대응한다.
본 발명의 제3 단계(iii)는 응답을 입력 이벤트 또는 입력 이벤트의 조합과 연관시키는 "규칙 적용" 모듈 RUL에 의해 수행된다. 응답은 로봇이 말한 단어 또는 구문, 로봇이 발산하는 소리, 로봇이 수행하는 제스처, 로봇의 "얼굴"의 표정 등일 수 있는 하나 이상의 "출력 이벤트" EVO에 의해 구성된다. 상기에서 언급된 국제 특허 출원 WO2012/010451은 본 발명에서 사용될 수 있는 규칙 적용 모듈을 주요한 수정과 함께 기술한다. 실제로, 본 발명에 따르면, 규칙 중 적어도 일부가 응답을 단일 입력 이벤트와 연관시키는 것이 아니라, 적어도 2개의 공동-생성된 이벤트(이 중 적어도 하나가 비-언어적(non-verbal)임(즉, 사용자의 단어 또는 문장으로 구성되지 않음))의 조합과 연관시킨다. 본 발명의 바람직한 실시예에 따르면, 규칙 중 적어도 일부, 특히 복수의 이벤트를 입력으로서 취하는 규칙 중 일부가, 적어도 일부가 비-언어적인 출력 이벤트의 조합으로 구성된 응답을 결정한다.
예를 들어, 가능한 규칙은 다음과 같을 수 있다:
IF (미소>2) AND [손 흔듦 or "안녕(hallo)" or "안녕(hi)"] THEN (미소=4) AND 손 흔듦 AND "안녕".
이는 사용자가 적어도 중간 정도로 미소 지으면서 손을 흔들고 "안녕"이라고 말하는 경우, 로봇은 큰 미소, 손 흔듦, 및 단어 "안녕"으로 응답함을 의미한다.
"공동으로 발생된" 이벤트는, 대화 목적으로 동시라고 간주될 충분히 가까운 시점에서의 둘 이상의 이벤트를 의미한다. 예를 들어, 사용자가 자신의 손을 흔들고 그 후 1초 후에 "안녕"이라고 말하는 경우, 2개의 이벤트는, 정확히 동시에 행해지지 않아도, 공동으로 발생한다고 간주된다.
매번, 적용 규칙은 대화 맥락 CTX에 따라 달라지며, 이는 이전에 적용된 규칙 및/또는 입력에 의해 결정된다. 일부 맥락 또는 주제와 관련된 규칙이 "대화"를 형성하며, 이는 국제 특허 출원 WO 2011/003628에 개시된 바와 같이 프로그래머에 의해 편집될 수 있다. 대화 주제의 예시는 "축구", "정치", "요리"일 수 있지만, 또한 사용자가 로봇과 대화를 개시하는 경우 "만남" 또는 사용자가 떠나거나 대화를 종료할 것을 표현할 때 "작별인사(bye)"일 수도 있다(또는 그 반대의 경우도 가능함).
덧붙여, 매번 적용 규칙은 로봇의 내부 상태 RIS에 따라 달라질 수 있으며, 이는 이전에 적용된 규칙 및/또는 입력에 의해 결정된다. 내부 상태의 예시로는 "행복", "슬픔", "피곤", "배터리 방전", 또는 "기계적 고장"이 있다.
예를 들어, 로봇이 사용자가 슬픈 표현을 함을 인식하는 경우, 이의 내부 상태는 "걱정"이 될 것이다. 그렇다면 사용자가 "오늘 별로 좋지 않아"라고 말하면, 대화 맥락이 (건강이 대화의 주제일 것임을 가리키는) 값 "건강"을 취할 것이며, 적절한 규칙의 세트를 결정한다.
입력 이벤트의 "생성"이 사용자에 의해 수행되는 동작을 반드시 필요로 하지 않음이 이해되어야 하는데, 예를 들어, 사용자가 화려한 색의 옷을 입었다는 사실이 "이벤트"일 수 있다. 특정 분류의 규칙, 이른바 "선행 규칙(proactive rule)"이 적용되어, 사용자가 말한 단어 또는 식별된 제스처를 포함하지 않는 이벤트 또는 이벤트들의 조합에 대한 응답을 결정할 수 있다. 다시 말하면, 로봇은 대화를 개시함으로써, 자극, 가령, 방 안에 있는 사람의 수, 말하지 않는 사용자의 표현, 옷의 색상 등에 반응한다. 본 발명의 특정 실시예에서, 일부 "수다(small talk)" 주제가 사전적인 것(proactive)이라고 라벨링되며, 이는 상기 주제와 관련된 모든 규칙이 선행적임을 의미한다. "수다" 주제의 예시로는 "미소"가 있고, 이는 사용자가 말 없이 미소 지을 때 적용되는 규칙을 포함한다. 더 구체적인 주제, 가령, "요리" 또는 "정치"는 일반적으로 선행적이 아니다.
도 3은 본 발명의 특정 실시예에 따르는 "선행적" 대화의 구현을 도시한다. 추출기 군 EXT은 장면의 서로 다른 요소의 색상을 인식하는 색상 추출기 COL, 미소 추출기 SML, 방 안의 사람의 수를 결정하는 추출기 모듈 NBP, 텍스트 추출기 TXTX, 및 제스처 추출기 GST를 포함한다. 특정 상황에서, 색상 추출기는 적색 셔츠를 식별하며, 미소 추출기는 사용자의 매우 큰 미소(미소=5)를 인식하며 NBP 모듈은 방 안의 2명의 사람을 세며, 모듈 TXTX 및 GST는 사용자가 말하지 않고 정의된 제스처를 수행하지도 않음을 나타낸다. 그 후 대화 엔진, 및 더 상세히는 규칙 적용 모듈 RUL이 대화 데이터베이스 DDB의 "수다" 주제를 포함하는 서브세트 PRO 내에서 이 상황에 적용 가능한 "선행적" 규칙을 검색할 것이다.
도 2의 방법은 또한, 로봇의 응답이 적어도 단어 또는 문장으로 구성될 때 로봇의 응답을 애니메이션화하는 선택적 단계(iii-a)를 포함한다. 애니메이션은 음성을 동반하는 로봇의 운동 및/또는 비-언어적 이벤트의 시퀀스(가령, 표정의 변화)이며, 이는 인간의 "몸짓"을 모방한 것이다. 애니메이션화된 응답은 음성 및 운동을 포함하는 멀티모드 응답과 구분되지 않을 수 있지만, 상이한 방식으로 생성될 수 있다. 멀티모드 응답은 앞서 언급된 바와 같이 규칙 적용 모듈에 의해 직접 결정되며, 대신, 애니메이션은 규칙 적용 모듈에 의해 입력으로서 발생된 특정 이벤트 EVO(즉, 언어적 이벤트, 즉, 말해진 단어)를 취하면서 전용 모듈 ANE에 의해 언어적 응답에 추가되며, 이는 도 4, 5a, 5b 및 5c를 참조하여 이하에서 설명될 것이다.
도 4에 도시된 바와 같이, 애니메이션 모듈, 또는 엔진, ANE가 구문 분석 모듈 SYNTA, 내장된 또는 로봇에 의해 액세스 가능한 메모리에 저장된 애니메이션 리스트 AST, 및 표현도 값(expressiveness value)을 계산하기 위한 2개의 모듈 1OX 및 FX을 포함한다. "표현도 값"은 움직임이 어느 정도까지 "과장되게" 또는 "단순하게" 이뤄져야 하는지를 결정하는 파라미터이다. "표현도 계수"는 표현도 값의 수정을 정의한다. 용어 "표현도"는 표현도 값과 표현도 계수 모두를 지칭한다.
구문 분석에 의해, 도 5a, 5b, 5c를 참조하며 차후 설명될 바와 같이, 애니메이션화될 단어 및 자체는 애니메이션화되지 않지만 애니메이션화될 단어의 표현에 영향을 미치는 관련 단어가 결정될 수 있다. 덧붙여, 구문 분석 모듈이, 텍스트 및/또는 로봇의 내부 상태 RIS에서 "감정 단어"의 빈도를 고려함으로써 말해진 텍스트의 "전체" 표현도를 결정할 수 있다. 애니메이션화될 각각의 단어는 자신 고유의 표현도를 가지며, 이 표현도는 모듈 1OX에 의해 관련 단어의 표현도와 조합되어 텍스트의 전체 표현도가 되며, 이는 이른바 "유일 표현도(one-off expressiveness)"라고 지칭되는 표현도 값을 출력한다.
애니메이션화될 각각의 단어는 "개념"과 연관된다. 개념 및 유일 표현도가 사용되어 애니메이션 리스트 ALST 내에서 하나의 애니메이션을 선택할 수 있다. 선태은 단어와 연관되는 개념에 따라 달라지고 모듈 1OX에 의해 계산되는 유일 표현에 따라 달라진다. 예를 들어, 리스트의 각각의 애니메이션은 하나 이상의 개념과 연관될 수 있고, 특정 표현도 값을 가질 수 있으며, 이 경우, 애니메이션은 애니메이션될 단어에 의해 표현되는 개념과 연관되고, 유일 표현도와 가장 가까운 특정 표현도 값을 갖는 애니메이션이 선택된다. 도 4의 예시에서, 선택된 애니메이션이 anim2라고 지칭되며 exp2의 특정 표현도를 가진다. 최종적으로, 모듈 FX는 선택된 애니메이션의 특정 표현도와 유일 표현도를 조합(가령, 평균 내기)하여 최종 표현도 expf을 계산할 수 있다. 애니메이션 엔진의 출력은 (애니메이션, 최종 표현도)의 쌍이다. 최종 표현도 값은, 가령, 애니메이션을 구성하는 제스처의 속도 및/또는 크기를 결정한다.
도 5a는 애니메이션될 문장의 구문 분석을 도시한다. "그는 초콜릿과 맥주를 사랑한다(He loves chocolate and beer)". 구문 트리(syntactical tree)가 명백하게 2개의 목적어를 연결하는 접속사 "AND"를 배치하며, 이는 열거를 나타낸다. 이 경우, 접속사가 애니메이션화될 단어이다. 이는 개념 "열거"와 연관되며, 이는 다시 "2개"라고 지칭되는 열거 목록과 연관되며, 이는 로봇이 자신의 손을 쥐고, 엄지와 중지를 펴는 제스처로 구성된다.
도 5b는 애니메이션화될 또 다른 문장의 구문 분석을 도시한다: "나는 너에게 동의해(I agree with you)". 이는 긍정적 형태의 동사, 주어 및 목적어를 갖는 단순한 문장이다. "with"를 제외한 모든 단어가 애니메이션화된다: "나(I)"는 로봇이 자신을 가리키는 "나 자신" 애니메이션에 의해, "동의한다(agree)"는 로봇이 끄덕이는 "yeah" 애니메이션으로서, 너(you)는 로봇에 의해 애니메이션화된다.
이들 두 가지 예시는 매우 단순한 것으로, 여기서 표현도는 어떠한 역할도 하지 않는다. 더 복잡한 예시가 도 5c에서 구문 트리가 도시된 문장 "나는 너에게 강력하게 반대해(I strongly disagree with you)"로서 들어진다. 이 경우, 동사가 부정 형태(문법적으로는 아니더라도 의미적으로)이고, 이러한 경우, 동사 자체가 애니메이션화되지만 주어와 목적어는 애니메이션화되지 않는다. 덧붙여, 반대함을 강조하는 부사("강력하게(strongly"))가 존재한다.
동사 "반대하다"가 개념 "반대함"과 연관되고 0내지 10 중에서 5의 값의 표현도를 가진다. 그러나 유일 표현은 부사 "강력하게"의 존재로 인해 5에서 8로 증가한다. 본 발명의 하나의 실시예에서, 로봇의 내부 상태 RIS는 유일 표현도 값을 변경할 수 있다.
개념 "반대"와 연관되는 3개의 애니메이션이 존재한다: 로봇의 표현의 변경만 포함하는 3의 특정 표현도를 갖는 "반대1", 각각 6 및 9의 특정 표현도를 가지며 또한 제스처를 포함하는 "반대2" 및 "반대3". 특정 표현도가 유일 표현도에 가장 가까운 애니메이션이 "반대3"이며, 이 것이 선택된다. 그러나 이의 최종 표현도가 특정 표현도와 유일 표현도의 평균에 대응하는 8.5로 축소된다. 이는 제스처가 "반대3"의 "표준" 버전에서보다 다소 느림 및/또는 덜 클 것임을 의미한다.
도 2를 다시 참조하면, 출력 이벤트 및/또는 애니메이션이 사용되어 응답을 "수행"하도록 로봇의 서로 다른 액추에이터를 구동시킬 수 있다. 도면의 예시적 실시예에서, 액추에이터는 확성기 A1, 표정 제어 액추에이터 A2, 및 사지-제어 액추에이터 A3이다. 이는 도 2의 방법의 단계(iv)이다.
로봇이 사용자 옆에 서서 그를 직접 응시하는 경우 휴머노이드 로봇과의 애니메이션화된 대화 및/또는 멀티모드 대화가 어색하고 부자연스럽게 인지될 수 있다. 덧붙여, 로봇이 사용자와 너무 가까운 경우, 애니메이션화된 또는 멀티모드 응답을 생성하기 위해 "손을 써서 말하는" 동안 사용자를 칠 수 있다. 또한 오작동의 경우 로봇이 사용자에게로 넘어지는 일반적인 위험이 존재한다. 이러한 이유로, 본 발명의 바람직한 실시예에 따르면, 로봇은 사용자와의 거리를 지정 범위 내로(가능하면 맥락에 따라) 유지하기 위해 서보-제어(servo-control)된다. 바람직하게는, 로봇의 일부, 가령, 허리와 사용자의 하체(허리까지의 하체) 간 거리가 측정되며, 이는 로봇을 뒤로 이동시키지 않으면서 사용자가 로봇에 기대고 로봇을 손으로 건드릴 수 있게 한다. 바람직하게는, 로봇이 또한 서보-제어되어 사용자에 대한 배향을 지정 범위 각도 내로(가능하면 맥락에 따라) 유지할 수 있다. 바람직하게는, 로봇은 이러한 거리 및 각도 범위 내에서 의사-랜덤 직선 운동 및/또는 회전 운동을 수행하여, 부자연스럽게 정적인 로봇에 의해 야기되는 느낌을 피할 수 있다.
도 6은 상기로부터 로봇 R과 사용자 U를 보여준다. 로봇을 중심으로 갖는 기준계(reference frame)에서, 사용자, 더 정확히는, 사용자의 하체가 거리 범위 [d1, d2] 및 각 범위 [-,]에 의해 정의되는 인가된 영역 AR 내에 유지될 것이 요구된다. 사용자가 이동하는 경우, 로봇 역시 이동하여 이 조건을 계속 만족시킨다. 또한, 앞서 언급된 바와 같이, 로봇은 사용자를 인가된 영역 내로 유지하면서 의사-랜덤 직선 운동 및/또는 회전 운동을 수행할 수 있다.
로봇의 "자연스러운" 행동을 얻기 위해, 대화 동안 활성 주제에 따라 거리 및 각 범위가 달라질 수 있다.
이미지 처리 모듈과 연결된 카메라, 레이저 라인 생성기 및/또는 초음파 센서를 이용함으로써 로봇에 대한 사용자의 위치가 결정될 수 있고, 휴머노이드 로봇의 물리적 구조에 대한 기재는 도 1을 참조하여 앞서 기재된 바 있다.
도 2를 다시 참조하면, 서로 다른 유형의, 가령, 언어적 또는 비-언어적 이벤트를 인식하기 위해 입력 신호를 해석하는 단계(ii)가 본 발명에 따르는 방법의 매우 중요한 단계이다. 이벤트를 인식하는 것은 휴머노이드 로봇의 메모리에 저장된 또는 로봇에 의해 액세스 가능한 예상 이벤트의 지정 리스트의 아이템에 입력 신호를 매칭하는 것을 의미한다. 바람직하게는, 대화 맥락 또는 주제에 따라, 복수의 리스트 중에서 예상 이벤트의 리스트가 선택된다.
예를 들어, 음성 인식이 센서에 의해 획득된 소리 신호를 사전(dictionary) 중 자연 언어 단어, 또는 맥락 특정적인 일련의 단어들과 매칭하는 것으로 구성된다. 보통, 각각의 매칭 결과가 신뢰도 점수와 연관되며, 이 점수가 높을수록, 매칭이 올바를 확률이 커진다. 일반적으로, 임계값이 사용되어 이벤트를 식별하는 데 "성공적인" 매칭과 실패한 시도를 구별할 수 있다.
인식될 특정 유형의 이벤트에 따른, 서로 다른 복잡도의 복수의 매칭 방법이 종래 기술에서 알려져 있다. 예를 들어, 음성 인식 분야에서 다음의 방법(또는 방법 군)이 알려져 있다:
- 완전 매칭: 이는 입력이 정확한 단어 또는 문장을 포함하는지 여부를 체크하는 유한 상태 머신을 이용하는 가장 단순하며, 가장 빠른 방법이다. 신뢰도 점수는 부울 수(Boolean)이며: 매칭이 확실(점수=1), 또는 식별 시도가 실패(점수=0)이다.
- 대략 매칭: 이 역시 유한 상태 머신을 기초로 하지만, 매칭 체인에서 특정 실수를 허용한다. 실수의 개수가 증가할수록 신뢰도 점수가 감소한다.
- 표음적 매칭(Phonetic matching)(음성 인식 전용): 이는 입력과 사전의 단어 또는 문장 간 표음적 거리의 결정을 기초로 한다.
- 의미 매칭(semantic matching): 가장 복잡한 방법이며 입력에서 관찰된 어휘와 각각의 대화 엔트리 내 어휘 간 거리의 계산을 기초로 한다. 거리는 상기 입력의 벡터 표현과 상기 엔트리의 코사인 측정치(consing measure)이다. 벡터는 TF-IDF(Term Frequency - Inverse Document Frequency), 가중화를 이용한 "단어 주머니" 분포 의미 표현에 따라 계산된다.
단일 매칭 방법을 이용하는 대신, 로봇은 가장 단순한 방법에서부터 시작하고 신뢰도 점수가 지정 임계값을 초과하는 경우 결과를 수락하고 그렇지 않은 경우 더 복잡한 방법으로 시도하는 계층구조적 접근법을 이용할 수 있으며, 가장 복잡한 매칭 방법(의미 매칭)을 이용해 획득된 신뢰도 점수가 여전히 임계값보다 낮은 경우, 검색이 실패한 것이다. 이 경우, 로봇은 (가령, 음성 인식이 실패한 경우 "미안한데, 뭐라고 했죠"라고 말함으로써) 입력을 무시하거나 명확화를 요구할 수 있다.
또한 계층구조가 요인들, 가령, 사용된 음성 인식 기법에 적합화될 수 있다. ASR(Automatic Speech Recognition)이 큰 언어 모델을 기초로 할 때 의미 매칭이 선호될 것이며, 반면에 표음적 매칭이 덜 강건한 임베디드 ASR 결과로부터 에러를 복원하는 데 도움이 될 것이다.
바람직하게는, 로봇은 서로 다른 파라미터에 따라, 특히, 대화 맥락 또는 주제에 따라, 매칭 방법의 서브세트를 선택할 수 있다. 진행 중인 대화가 단지 몇 개의 서로 다른 입력만 기대되는 "폐쇄된" 것인 경우, 정확한 매칭이 성공적으로 동작할 가능성이 높고 따라서 시도할 가치가 있다. 이와 달리, 많은 수의 가능한 입력 이벤트를 허용하는 매우 넓은 맥락의 경우, 완전 매칭 및 대략 매칭을 폐기하고 표음 방법 또는 심지어 의미 방법으로 바로 시작하는 것이 바람직할 수 있다. 도 7의 우측 부분에서, 계산 복잡도가 증가하는 매칭 방법 MM1 - MM4의 계층 체인이 도시된다. 각각의 매칭 방법에 대해, 두 가지 결과가 가능하다: 매칭이 성공적 - 이 경우, 입력 이벤트 EVI가 생성됨 - , 또는 매칭이 성공적이지 않음 - 이 경우 다음 매칭 방법이 시도됨(MM4의 경우 제외). 시도될 첫 번째 매칭 방법이 반드시 MM1인 것은 아니며, 대화 맥락 CTX 및 가능하면 그 밖의 다른 파라미터에 따라 매칭 전략 엔진(matching strategy engine) MSE에 의해 선택된다.
인터넷 연결이 이용 가능한 경우, 원격 서버에 의해 적어도 가장 복잡한 매칭 방법이 수행될 수 있다(도 2 참조).
도 7은 적절한 추출기에 의해 인간 음성으로서 인식된 소리를 변환함으로써 획득된 텍스트 TXT를 입력 신호로서 취하는 음성 인식의 경우를 지칭하며, 이 접근법은 더 일반적이다. "멀티모드" 대화의 경우에 한정되지 않는 것으로 이해될 것이다.
표음적 매칭을 기초로 하는 특정 음성-인식 방법이 도 8을 참조하여 기재될 것이다.
센서(마이크로폰) c1에 의해 획득되는 소리가 전사 모듈(transcription module)(TRSC)로의 입력으로서 제공되며, 여기서 텍스트로 변환된다. 그 후, (가령, 카메라 및 얼굴 인식 모듈에 의해 종래 방식으로 식별된 사용자의 신원에 따라 로봇에 의해 결정된 파라미터인) 대화의 언어의 특수성을 고려함으로써, 표음 변환 모듈 PHON에 의해 이 텍스트는 이의 표음적 등가물(phonetic equivalent)로 변환된다. 전사와 표음 변환은 공동으로 수행될 수도 있고, 이들은 함께 "표음 전사(phonetic transcription)"라고 지칭될 수 있다.
그 후 단순화 모듈 SIMP에 의해 표음 전사는 단순화되고 평활화된다.
"단순화(Simplifying)"는 서로 혼동될 가능성이 높은 서로 다른 음소, 예컨대, "d"와 "t" 또는 "k"와 "g"를 단일 음소로 표현하는 것을 포함한다.
"평활화(Smoothing)"는 이를 야기한 정보를 유지하면서 (인식 에러의 원인에서 종종 발생되는) 전사 모듈에 의해 제안되는 문장 분할을 무시하는 것을 포함한다. 이때, (전사 모듈에 의해 식별되는) 각각의 단어의 시작부분에서의 모음과 비음은 제외한 모음이 무시된다. INDEX에 포함된 예상 단어가 동일하거나 유사한 처리의 대상이 된다(바람직하게는 오프라인). 거리 컴퓨팅 모듈 DIST가 입력 소리의 단순화되고 평활화된 표음 전사와 인덱스의 평활화된 엔트리로서 단순화된 것 간 편집 거리를 결정한다. 그 후 선택 모듈 SEL이 가장 작은 편집 거리에 대응하는 엔트리를 선택한다.
예를 들어 사용자가 불어로 "A demain" (i.e. "내일 보자")라고 말하는 경우, 표음 전사는 "A DŒ MIN"일 것이고, 그 후 이는 "ATMN"로 단순환될 것이다("N"는 비모음(nasal vowel)을 나타냄).
편집 거리가 문자열을 또 다른 문자열로 변환하는 데 필요한 변경의 최소 횟수로 정의된다. 예를 들어, ADMN과 BDLNS 간 편집 거리는 3인데, 왜냐하면 다음과 같이 3번의 변경이 필요하기 때문이다:
- ADMN -> BDMN ("A"가 "B"로 변경);
- BDMN -> BDLN ("M"이 "L"로 변경)
- BDLN -> BDLNS ("S" 첨가).
본 발명은 멀티모드 대화, 애니메이션화된 음성, 로봇 위치의 서보-제어, 및 이벤트(및 더 구체적으로 음성) 인식의 특정 방법을 조합하는 특정 실시예를 고려하여 기재되었다. 이들이 상승 작용하면서 가장 잘 동작하더라도, 본 발명의 서로 다른 양태가 서로 독립적으로 구현될 수 있다.

Claims (26)

  1. 휴머노이드 로봇(R)과 적어도 하나의 사용자(U) 간 대화를 수행하는 방법으로서, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는,
    i) 각자의 센서(c1, c2)로부터 복수의 입력 신호(s1, s2)를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,
    ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트(EVI)를 인식하는 단계 - 상기 이벤트(EVI)는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,
    iii) 적어도 하나의 이벤트(EVO)를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트(EVO)는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택되며, 상기 결정하는 단계는 규칙의 세트를 적용함으로써 수행되고, 각각의 규칙은 입력 이벤트의 세트를 로봇의 응답에 연관시킴 - ,
    iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계
    를 포함하고,
    단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  2. 제1항에 있어서, 상기 단계 iii)에서 적용되는 규칙 중 적어도 일부는 상기 휴머노이드 로봇에 의해 공동으로 발생되는 적어도 2개의 이벤트를 포함하는 응답을 결정하고, 이들 이벤트 중 적어도 하나의 이벤트는 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  3. 제1항 또는 제2항에 있어서, 상기 단계 iii)에서, 휴머노이드 로봇의 응답은, 대화 맥락(CTX), 사용자의 신원, 상기 휴머노이드 로봇의 내부 상태(RIS) 중에서 선택된 적어도 하나의 파라미터를 기초로 결정되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  4. 제3항에 있어서, 상기 단계 ii)에서 인식되거나 단계 iii)에서 결정된 적어도 하나의 이벤트에 따라 적어도 하나의 파라미터의 값을 수정하는 단계를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서, 상기 단계 ii)는 획득된 신호와 상기 휴머노이드 로봇의 메모리에 저장된 또는 휴머노이드 로봇에 의해 액세스 가능한 예상 이벤트의 리스트에 속하는 이벤트 간 매칭을 검색하는 단계를 포함하고, 상기 검색하는 단계는, 지정 값보다 큰 신뢰도 점수를 갖는 이벤트가 인식될 때까지 또는 가장 높은 복잡도의 인식 방법이 사용된 후까지 복잡도를 증가시키면서 복수의 매칭 방법(MM1-MM4)을 연쇄적으로 이용함으로써, 수행되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  6. 제5항에 있어서, 사용되는 매칭 방법은 대화의 맥락에 따라 선택되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  7. 제5항 또는 제6항에 있어서, 상기 매칭 방법은, 복잡도 증가 순으로, 완전 매칭(exact match) 검색, 대략 매칭(approximate match) 검색, 표음 대응(phonetic correspondence) 검색, 및 의미 대응(semantic correspondence) 검색을 포함하며, 이때 표음 대응은 음성 인식의 경우에만 사용되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  8. 제7항에 있어서, 상기 표음 대응 검색 방법은,
    - 소리 센서에 의해 획득되는 소리의 세트를 표음 전사(phonetic transcription)하는 단계,
    - 최종 표음 전사를 단순화 및 평활화하는 단계,
    - 단순화 및 평활화된 표음 전사와 자연 언어의 단어의 지정 세트를 단순화하고 평활화함으로써 획득된 복수의 엔트리 간 편집 거리를 계산하는 단계, 및
    - 단순화되고 평활화된 표음 전자로부터 최저 편집 거리에 대응하는 엔트리에 대응하는 지정 세트의 자연 언어 단어를 선택하는 단계
    를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  9. 제8항에 있어서, 상기 단순화 및 평활화하는 단계는
    - 혼동되기 쉬운 음절들을 단일 음절로 대체하는 단계,
    - 단어의 시작 부분의 모음과 비모음(nasal vowel)을 제외하고 모음을 제거하는 단계, 및
    - 단어들 간 공백을 삭제하는 단계
    를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  10. 제5항 내지 제9항 중 어느 한 항에 있어서, 대화 맥락에 따라, 복수의 리스트 중에서 예상 이벤트 리스트가 선택되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  11. 제1항 내지 제10항 중 어느 한 항에 있어서, 상기 단계 iii)는, 선행적 규칙(proactive rule)의 지정 서브세트(PRO)에 속하는 규칙을 적용함으로써, 사용자에 의한 단어 발언 또는 식별된 제스처가 없는 이벤트의 세트에 대한 응답을 결정하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  12. 제1항 내지 제11항 중 어느 한 항에 있어서, 단계 iii) 동안 결정된 응답이 적어도 단어 또는 문장의 발언을 포함하는 경우, 발언될 단어 또는 문장의 언어적 분석을 수행하고 상기 분석의 함수로서 상기 응답을 동반하는 애니메이션을 결정하는 단계 iii-a)를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  13. 제12항에 있어서, 상기 단계 iii-a)는
    α) 애니메이션화될 응답의 적어도 하나의 단어를 식별하는 단계,
    β) 애니메이션화될 단어와 연관되는 개념(concept)과 유일 표현도(one-off expressiveness)인 표현도(expressiveness)를 결정하는 단계,
    γ) 개념 및 유일 표현도를 기초로, 휴머노이드 로봇의 메모리에 저장된 또는 휴머노이드 로봇에 의해 액세스 가능한 애니메이션의 리스트(ALST)로부터 하나의 애니메이션을 선택하는 단계
    를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  14. 제13항에 있어서, 상기 단계 α)는 상기 문장의 구조 내의 기능에 따라 애니메이션화될 단어를 결정하도록 발언될 문장의 구문 분석을 수행하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  15. 제13항 또는 제14항에 있어서, 상기 단계 β)에서, 상기 유일 표현도는 단어의 표현도, 상기 단어와 관련된 하나 이상의 다른 단어의 표현도, 및 전체 응답의 전체 표현도 중에서 선택되는 적어도 하나의 파라미터를 기초로 결정되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  16. 제13항 내지 제15항 중 어느 한 항에 있어서, 상기 리스트의 각각의 애니메이션은 하나 이상의 개념과 연관되고 특정 표현도를 가지며, 상기 단계 γ)는 상기 단계 β)에서 결정된 개념과 연관되고 상기 유일 표현도에 가장 가까운 특정 표현도를 갖는 애니메이션을 상기 리스트 내에서 선택하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  17. 제16항에 있어서,
    δ) 상기 특정 표현도 및 상기 유일 표현도를 기초로, 최종 표현도를 결정하는 단계
    를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  18. 제13항 내지 제17항 중 어느 한 항에 있어서, 상기 유일 표현도 또는 상기 최종 표현도가 상기 애니메이션의 적어도 하나의 제스처의 속도(speed) 및 크기(amplitude) 적어도 하나의 파라미터를 결정하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  19. 제1항 내지 제18항 중 어느 한 항에 있어서, 단계 i) 내지 iv)와 동시에 상기 로봇에 의해 반복적으로 구현되는,
    A) 상기 로봇(R)에 고정된 기준계에 대한 상기 사용자(U)의 신체의 적어도 일부분의 위치를 결정하는 단계,
    B) 상기 로봇 또는 로봇의 요소와 상기 사용자의 상기 신체의 적어도 일부분 간 거리를 지정 범위 값 내로 유지하도록 상기 로봇의 적어도 하나의 액추에이터를 구동시키는 단계
    를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  20. 제19항에 있어서, 상기 단계 B)는 상기 사용자에 대한 로봇의 배향을 지정 각 범위 내로 유지하도록 상기 로봇의 적어도 하나의 액추에이터를 구동시키는 단계를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  21. 제19항 또는 제20항에 있어서, 상기 방법은
    C) 상기 지정 범위 값 내로 상기 거리를 유지하면서 그리고 상기 지정 각 범위 내로 상기 배향을 유지하면서 로봇의 의사-랜덤(pseudo-random) 변위를 야기하도록 상기 액추에이터를 구동시키는 단계
    를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  22. 제19항 내지 제21항 중 어느 한 항에 있어서, 상기 방법은
    D) 상기 사용자와 상기 휴머노이드 로봇 간 진행 중인 대화의 의미 분석을 결정하는 단계 - 상기 분석에 따라, 상기 거리의 지정 범위 값을 변경하고, 지정된 각 범위를 변경함 - 를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  23. 제19항 내지 제22항 중 어느 한 항에 있어서, 상기 단계 A)는 상기 로봇에 고정된 기준 프레임에 대한 상기 사용자의 하체의 위치를 결정하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
  24. 휴머노이드 로봇(R)에 내장된 적어도 하나의 프로세서에 의해 실행될 때, 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트로서, 상기 로봇은, 적어도 하나의 프로세서에 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 복수의 센서(c1, c2), 단어 또는 문장을 발언하도록 상기 프로세서에 의해 제어되는 음성 합성 모듈, 및 상기 프로세서에 의해 상기 로봇이 복수의 운동 또는 제스처를 수행하도록 구동되는 액추에이터(A1, A2, A3)의 세트를 포함하는, 컴퓨터 프로그램 프로덕트.
  25. 휴머노이드 로봇(R)으로서, 상기 휴머노이드 로봇은
    적어도 하나의 내장된 프로세서, 및
    - 상기 적어도 하나의 프로세서를 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 센서 조립체(c1, c2),
    - 단어 또는 문장을 발언하도록 상기 프로세서에 의해 구동되는 음성 합성 모듈, 및
    - 로봇이 복수의 운동 또는 제스처를 수행할 수 있게 하도록 상기 프로세서에 의해 구동된 액추에이터(A1, A2, A3)의 세트
    를 포함하며,
    상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 프로그램 또는 구성되는, 휴머노이드 로봇.
  26. 제25항에 있어서, 적어도 하나의 원격 서버로 연결되기 위한 장치를 더 포함하며, 상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 상기 원격 서버와 협업하도록 프로그램 또는 구성되는, 휴머노이드 로봇.
KR1020167032132A 2014-04-17 2015-04-17 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇 KR101991163B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP14305583.8A EP2933067B1 (en) 2014-04-17 2014-04-17 Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
EP14305583.8 2014-04-17
PCT/EP2015/058373 WO2015158887A2 (en) 2014-04-17 2015-04-17 Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method

Publications (2)

Publication Number Publication Date
KR20170003580A true KR20170003580A (ko) 2017-01-09
KR101991163B1 KR101991163B1 (ko) 2019-06-19

Family

ID=50628742

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020167032132A KR101991163B1 (ko) 2014-04-17 2015-04-17 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇

Country Status (14)

Country Link
US (2) US10242666B2 (ko)
EP (1) EP2933067B1 (ko)
JP (2) JP6505748B2 (ko)
KR (1) KR101991163B1 (ko)
CN (2) CN110774285A (ko)
AU (2) AU2015248713B2 (ko)
BR (1) BR112016023928A2 (ko)
CA (1) CA2946056A1 (ko)
HK (1) HK1216405A1 (ko)
MX (1) MX2016013019A (ko)
NZ (1) NZ725307A (ko)
RU (1) RU2016144006A (ko)
SG (2) SG10201806415YA (ko)
WO (1) WO2015158887A2 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190038392A (ko) * 2017-04-13 2019-04-08 인하대학교 산학협력단 로봇의 발화 및 안면 구현을 위한 조음기관 물리 특성 기반의 발화-표정 데이터 맵핑 시스템

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9634855B2 (en) 2010-05-13 2017-04-25 Alexander Poltorak Electronic personal interactive device that determines topics of interest using a conversational agent
US9607609B2 (en) * 2014-09-25 2017-03-28 Intel Corporation Method and apparatus to synthesize voice based on facial structures
JP1573749S (ko) * 2016-01-29 2017-04-10
JP2017151517A (ja) * 2016-02-22 2017-08-31 富士ゼロックス株式会社 ロボット制御システム
SG11201809397TA (en) * 2016-04-26 2018-11-29 Taechyon Robotics Corp Multiple interactive personalities robot
US10239205B2 (en) 2016-06-29 2019-03-26 International Business Machines Corporation System, method, and recording medium for corpus curation for action manifestation for cognitive robots
JP6933455B2 (ja) * 2016-09-29 2021-09-08 株式会社東芝 関心維持システム及びサーバ
US10775880B2 (en) * 2016-11-30 2020-09-15 Universal City Studios Llc Animated character head systems and methods
US11443161B2 (en) 2016-12-12 2022-09-13 Microsoft Technology Licensing, Llc Robot gesture generation
CN106737745A (zh) * 2017-01-05 2017-05-31 珠海市横琴麒翔科技有限公司 智能机器人
JP2018126810A (ja) * 2017-02-06 2018-08-16 川崎重工業株式会社 ロボットシステム及びロボット対話方法
JP6841167B2 (ja) 2017-06-14 2021-03-10 トヨタ自動車株式会社 コミュニケーション装置、コミュニケーションロボットおよびコミュニケーション制御プログラム
CN107309880A (zh) * 2017-07-06 2017-11-03 优必选教育(深圳)有限公司 一种人形机器人装置、控制系统及其控制方法
CN117001687A (zh) 2017-09-11 2023-11-07 Groove X 株式会社 机器人和行为自主型机器人
CN109531564A (zh) * 2017-09-21 2019-03-29 富泰华工业(深圳)有限公司 机器人服务内容编辑系统及方法
WO2019071607A1 (zh) * 2017-10-09 2019-04-18 华为技术有限公司 一种语音信息处理方法、装置及终端
CN111194464A (zh) * 2017-10-11 2020-05-22 索尼公司 语音输入装置和方法以及程序
EP3486900A1 (en) * 2017-11-16 2019-05-22 Softbank Robotics Europe System and method for dialog session management
US10777198B2 (en) * 2017-11-24 2020-09-15 Electronics And Telecommunications Research Institute Apparatus for determining speech properties and motion properties of interactive robot and method thereof
US10783329B2 (en) * 2017-12-07 2020-09-22 Shanghai Xiaoi Robot Technology Co., Ltd. Method, device and computer readable storage medium for presenting emotion
US10593318B2 (en) * 2017-12-26 2020-03-17 International Business Machines Corporation Initiating synthesized speech outpout from a voice-controlled device
US10821602B2 (en) * 2017-12-28 2020-11-03 Aeolus Robotics Corporation Limited Carrier for robot and robot having the same
US11222632B2 (en) 2017-12-29 2022-01-11 DMAI, Inc. System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
US11504856B2 (en) 2017-12-29 2022-11-22 DMAI, Inc. System and method for selective animatronic peripheral response for human machine dialogue
CN111801730A (zh) * 2017-12-29 2020-10-20 得麦股份有限公司 用于人工智能驱动的自动伴侣的系统和方法
US11024294B2 (en) 2017-12-29 2021-06-01 DMAI, Inc. System and method for dialogue management
US11331807B2 (en) 2018-02-15 2022-05-17 DMAI, Inc. System and method for dynamic program configuration
WO2019160612A1 (en) * 2018-02-15 2019-08-22 DMAI, Inc. System and method for dynamic robot profile configurations based on user interactions
JP6886663B2 (ja) * 2018-02-19 2021-06-16 日本電信電話株式会社 動作指示生成システム、方法およびプログラム
CN110415688B (zh) * 2018-04-26 2022-02-08 杭州萤石软件有限公司 一种信息交互方法及机器人
FR3080926B1 (fr) * 2018-05-04 2020-04-24 Spoon Procede de commande d'une pluralite d'effecteurs d'un robot
DE102018207513A1 (de) * 2018-05-15 2019-11-21 Siemens Aktiengesellschaft Verfahren zum rechnergestützten Lernen eines Roboters über einen Sprachdialog
JP7201984B2 (ja) * 2018-07-09 2023-01-11 株式会社国際電気通信基礎技術研究所 アンドロイドのジェスチャ生成装置及びコンピュータプログラム
US11037557B2 (en) * 2018-08-24 2021-06-15 International Business Machines Corporation Cognitive contextual conversation side topics
KR102228866B1 (ko) 2018-10-18 2021-03-17 엘지전자 주식회사 로봇 및 그의 제어 방법
JP2020082246A (ja) * 2018-11-20 2020-06-04 大日本印刷株式会社 姿勢データ生成装置、学習器、コンピュータプログラム、学習データ、姿勢データ生成方法及び学習モデルの生成方法
CN109664307A (zh) * 2018-12-16 2019-04-23 哈尔滨理工大学 一种基于深度学习的对话机器人
CN110070870B (zh) * 2019-05-06 2022-02-08 阿波罗智联(北京)科技有限公司 车载系统的信号处理方法和系统
US11247738B2 (en) * 2019-05-24 2022-02-15 Disney Enterprises, Inc. Legged high-dexterity self-balancing capable robot actor
CN110473534A (zh) * 2019-07-12 2019-11-19 南京邮电大学 一种基于深度神经网络的老年人看护对话系统
CN110524559B (zh) * 2019-08-30 2022-06-10 成都未至科技有限公司 基于人员行为数据的智能人机交互系统及方法
JP7191793B2 (ja) * 2019-08-30 2022-12-19 株式会社東芝 信号処理装置、信号処理方法、及びプログラム
JP7330827B2 (ja) 2019-09-10 2023-08-22 株式会社日立製作所 データ処理装置、データ処理方法、およびデータ処理プログラム
US20210089908A1 (en) * 2019-09-25 2021-03-25 Deepmind Technologies Limited Modulating agent behavior to optimize learning progress
WO2020190362A2 (en) * 2020-01-17 2020-09-24 Futurewei Technologies, Inc. A social interaction robot
EP4111354A4 (en) * 2020-02-29 2024-04-03 Embodied Inc SYSTEMS AND METHODS FOR MANAGING SHORT AND LONG TERM DIALOGUE BETWEEN A ROBOTIC COMPUTER DEVICE/DIGITAL COMPANION AND A USER
CN113687712A (zh) * 2020-05-18 2021-11-23 阿里巴巴集团控股有限公司 控制方法及设备、电子设备
US11423206B2 (en) * 2020-11-05 2022-08-23 Adobe Inc. Text style and emphasis suggestions
CN114571473A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 足式机器人的控制方法、装置及足式机器人
JP2022146399A (ja) * 2021-03-22 2022-10-05 株式会社サイバーエージェント 制御システム、制御装置、制御方法及びコンピュータプログラム
IT202100014480A1 (it) * 2021-06-03 2022-12-03 Ivano Corradetti Sistema informativo, robotizzato, interagibile empaticamente con un interlocutore umano
CN113312086B (zh) * 2021-06-10 2022-08-12 重庆小易智联智能技术有限公司 基于指令集的软件机器人系统及机器人运行方法
CN114443202A (zh) * 2022-02-08 2022-05-06 北京课游工场数字科技有限公司 一种交互式答题操作及答题表现方法及系统
US20230298568A1 (en) * 2022-03-15 2023-09-21 Drift.com, Inc. Authoring content for a conversational bot

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060037228A (ko) * 2002-09-06 2006-05-03 보이스 시그널 테크놀로지스, 인코포레이티드. 음성인식을 위한 방법, 시스템 및 프로그램
JP2006187825A (ja) * 2005-01-05 2006-07-20 Yaskawa Electric Corp ロボット装置およびその制御方法
JP2008168375A (ja) * 2007-01-10 2008-07-24 Sky Kk ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
WO2013150076A1 (fr) * 2012-04-04 2013-10-10 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot
KR20140000189A (ko) * 2010-07-23 2014-01-02 알데바란 로보틱스 자연스러운 대화 인터페이스가 장착된 인간형 로봇, 이러한 로봇의 제어 방법 및 대응 프로그램

Family Cites Families (62)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4398720A (en) * 1981-01-05 1983-08-16 California R & D Center Robot computer chess game
JPS61156405A (ja) * 1984-12-28 1986-07-16 Nintendo Co Ltd 光感応制御装置
US6580369B1 (en) * 1995-10-11 2003-06-17 Motorola, Inc. Electronic tag assembly and method therefor
WO2000040377A1 (fr) * 1999-01-07 2000-07-13 Sony Corporation Appareil de type machine, procede d'actionnement de celui-ci et support enregistre
US6519506B2 (en) * 1999-05-10 2003-02-11 Sony Corporation Robot and control method for controlling the robot's emotions
US6347261B1 (en) * 1999-08-04 2002-02-12 Yamaha Hatsudoki Kabushiki Kaisha User-machine interface system for enhanced interaction
JP3615702B2 (ja) * 1999-11-25 2005-02-02 ソニー株式会社 脚式移動ロボットの動作制御装置及び動作制御方法、並びに、脚式移動ロボット
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
JP2001157976A (ja) * 1999-11-30 2001-06-12 Sony Corp ロボット制御装置およびロボット制御方法、並びに記録媒体
JP2001154685A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声認識装置および音声認識方法、並びに記録媒体
CN1151016C (zh) * 1999-11-30 2004-05-26 索尼公司 机器人设备及其控制方法,和机器人性格判别方法
EP1229471A4 (en) * 2000-02-10 2005-09-28 Sony Corp AUTOMATIC DEVICE, DEVICE PROVIDING INFORMATION, ROBOT, AND TRANSACTION METHOD
JP2001322079A (ja) * 2000-05-15 2001-11-20 Sony Corp 脚式移動ロボット及びその動作教示方法
JP2001357053A (ja) * 2000-06-12 2001-12-26 Matsushita Electric Ind Co Ltd 対話装置
JP2002307354A (ja) * 2000-11-07 2002-10-23 Sega Toys:Kk 電子玩具
JP2005500912A (ja) * 2001-02-27 2005-01-13 アンソロトロニックス インコーポレイテッド ロボット装置および無線通信システム
US6967455B2 (en) * 2001-03-09 2005-11-22 Japan Science And Technology Agency Robot audiovisual system
EP1262844A1 (en) * 2001-06-01 2002-12-04 Sony International (Europe) GmbH Method for controlling a man-machine-interface unit
US6560512B1 (en) * 2002-01-04 2003-05-06 Machine Consciousness, Inc. Relational robotic controller
JP3790816B2 (ja) * 2002-02-12 2006-06-28 国立大学法人 東京大学 人型リンク系の運動生成方法
JP2003255991A (ja) * 2002-03-06 2003-09-10 Sony Corp 対話制御システム、対話制御方法及びロボット装置
US7640164B2 (en) * 2002-07-04 2009-12-29 Denso Corporation System for performing interactive dialog
US6925357B2 (en) * 2002-07-25 2005-08-02 Intouch Health, Inc. Medical tele-robotic system
US20090030552A1 (en) * 2002-12-17 2009-01-29 Japan Science And Technology Agency Robotics visual and auditory system
JP2004283958A (ja) * 2003-03-20 2004-10-14 Sony Corp ロボット装置、その行動制御方法及びプログラム
JP2004302785A (ja) * 2003-03-31 2004-10-28 Honda Motor Co Ltd 移動ロボットの画像送信装置
US20050038647A1 (en) * 2003-08-11 2005-02-17 Aurilab, Llc Program product, method and system for detecting reduced speech
JP2005193331A (ja) * 2004-01-06 2005-07-21 Sony Corp ロボット装置及びその情動表出方法
JP4244812B2 (ja) * 2004-01-16 2009-03-25 ソニー株式会社 行動制御システム及びロボット装置の行動制御方法
WO2005076258A1 (ja) * 2004-02-03 2005-08-18 Matsushita Electric Industrial Co., Ltd. ユーザ適応型装置およびその制御方法
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US20060122837A1 (en) * 2004-12-08 2006-06-08 Electronics And Telecommunications Research Institute Voice interface system and speech recognition method
US20060136210A1 (en) * 2004-12-16 2006-06-22 Sony Corporation System and method for tying variance vectors for speech recognition
JP4204541B2 (ja) * 2004-12-24 2009-01-07 株式会社東芝 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
US20060257830A1 (en) * 2005-05-13 2006-11-16 Chyi-Yeu Lin Spelling robot
EP1941411B1 (en) * 2005-09-30 2011-09-14 iRobot Corporation Companion robot for personal interaction
US8484146B2 (en) * 2006-01-18 2013-07-09 Sony Corporation Interaction device implementing a bayesian's estimation
JP4186992B2 (ja) * 2006-01-31 2008-11-26 株式会社豊田中央研究所 応答生成装置、方法及びプログラム
ES2359430T3 (es) * 2006-04-27 2011-05-23 Mobiter Dicta Oy Procedimiento, sistema y dispositivo para la conversión de la voz.
WO2007138741A1 (ja) * 2006-05-26 2007-12-06 Nec Corporation 音声入力システム、対話型ロボット、音声入力方法、および、音声入力プログラム
CN101346758B (zh) * 2006-06-23 2011-07-27 松下电器产业株式会社 感情识别装置
US20080256008A1 (en) * 2007-03-31 2008-10-16 Mitchell Kwok Human Artificial Intelligence Machine
US20080281766A1 (en) * 2007-03-31 2008-11-13 Mitchell Kwok Time Machine Software
US7966093B2 (en) * 2007-04-17 2011-06-21 Yefim Zhuk Adaptive mobile robot system with knowledge-driven architecture
ATE555433T1 (de) * 2007-04-26 2012-05-15 Ford Global Tech Llc Emotives beratungssystem und verfahren
JP5386692B2 (ja) * 2007-08-31 2014-01-15 独立行政法人情報通信研究機構 対話型学習装置
US9165199B2 (en) * 2007-12-21 2015-10-20 Honda Motor Co., Ltd. Controlled human pose estimation from depth image streams
US7809664B2 (en) * 2007-12-21 2010-10-05 Yahoo! Inc. Automated learning from a question and answering network of humans
JP5075664B2 (ja) * 2008-02-15 2012-11-21 株式会社東芝 音声対話装置及び支援方法
KR20100086262A (ko) * 2009-01-22 2010-07-30 삼성전자주식회사 로봇 및 그 제어방법
JP5663201B2 (ja) * 2009-06-04 2015-02-04 本田技研工業株式会社 音源方向推定装置及び音源方向推定方法
US8930179B2 (en) * 2009-06-04 2015-01-06 Microsoft Corporation Recognition using re-recognition and statistical classification
FR2947923B1 (fr) 2009-07-10 2016-02-05 Aldebaran Robotics Systeme et procede pour generer des comportements contextuels d'un robot mobile
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8706298B2 (en) * 2010-03-17 2014-04-22 Raytheon Company Temporal tracking robot control system
FR2962048A1 (fr) * 2010-07-02 2012-01-06 Aldebaran Robotics S A Robot humanoide joueur, methode et systeme d'utilisation dudit robot
US8594845B1 (en) * 2011-05-06 2013-11-26 Google Inc. Methods and systems for robotic proactive informational retrieval from ambient context
JP5982840B2 (ja) * 2012-01-31 2016-08-31 富士通株式会社 対話装置、対話プログラムおよび対話方法
US8918208B1 (en) * 2012-02-07 2014-12-23 Ryan Hickman Projection of interactive map data
US9053708B2 (en) * 2012-07-18 2015-06-09 International Business Machines Corporation System, method and program product for providing automatic speech recognition (ASR) in a shared resource environment
US9302393B1 (en) * 2014-04-15 2016-04-05 Alan Rosen Intelligent auditory humanoid robot and computerized verbalization system programmed to perform auditory and verbal artificial intelligence processes

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060037228A (ko) * 2002-09-06 2006-05-03 보이스 시그널 테크놀로지스, 인코포레이티드. 음성인식을 위한 방법, 시스템 및 프로그램
JP2006187825A (ja) * 2005-01-05 2006-07-20 Yaskawa Electric Corp ロボット装置およびその制御方法
JP2008168375A (ja) * 2007-01-10 2008-07-24 Sky Kk ボディランゲージロボット、ボディランゲージロボットの制御方法及び制御プログラム
KR20140000189A (ko) * 2010-07-23 2014-01-02 알데바란 로보틱스 자연스러운 대화 인터페이스가 장착된 인간형 로봇, 이러한 로봇의 제어 방법 및 대응 프로그램
WO2013150076A1 (fr) * 2012-04-04 2013-10-10 Aldebaran Robotics Robot apte a integrer des dialogues naturels avec un utilisateur dans ses comportements, procedes de programmation et d'utilisation dudit robot

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Rainer 외 7인, Enabling Multimodal Human-Robot Interaction for the Karlsruhe Humanoid Robot, IEEE Transanctions on Robotics Vol.23. NO.5 (2007.10.)* *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190038392A (ko) * 2017-04-13 2019-04-08 인하대학교 산학협력단 로봇의 발화 및 안면 구현을 위한 조음기관 물리 특성 기반의 발화-표정 데이터 맵핑 시스템

Also Published As

Publication number Publication date
AU2015248713B2 (en) 2018-03-29
CN110774285A (zh) 2020-02-11
AU2018204246A1 (en) 2018-07-05
JP6505748B2 (ja) 2019-04-24
MX2016013019A (es) 2017-05-30
CN106457563A (zh) 2017-02-22
CN106457563B (zh) 2019-12-03
CA2946056A1 (en) 2015-10-22
RU2016144006A3 (ko) 2018-05-18
NZ725307A (en) 2018-03-23
US20170148434A1 (en) 2017-05-25
JP2019164352A (ja) 2019-09-26
AU2018204246B2 (en) 2020-05-14
KR101991163B1 (ko) 2019-06-19
BR112016023928A2 (pt) 2017-08-15
US20190172448A1 (en) 2019-06-06
WO2015158887A2 (en) 2015-10-22
EP2933067B1 (en) 2019-09-18
US10242666B2 (en) 2019-03-26
JP2017520782A (ja) 2017-07-27
HK1216405A1 (zh) 2016-11-11
SG10201806415YA (en) 2018-08-30
WO2015158887A3 (en) 2016-01-21
SG11201608205UA (en) 2016-10-28
RU2016144006A (ru) 2018-05-18
AU2015248713A1 (en) 2016-11-03
EP2933067A1 (en) 2015-10-21

Similar Documents

Publication Publication Date Title
KR101991163B1 (ko) 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇
US6509707B2 (en) Information processing device, information processing method and storage medium
US20200279553A1 (en) Linguistic style matching agent
Roy Grounded spoken language acquisition: Experiments in word learning
US10702991B2 (en) Apparatus, robot, method and recording medium having program recorded thereon
Rossi et al. An extensible architecture for robust multimodal human-robot communication
JP2005022065A (ja) 音声対話装置及び方法並びにロボット装置
CN114995657B (zh) 一种智能机器人的多模态融合自然交互方法、系统及介质
Attamimi et al. Learning novel objects using out-of-vocabulary word segmentation and object extraction for home assistant robots
US20230386461A1 (en) Voice user interface using non-linguistic input
JP2006123136A (ja) コミュニケーションロボット
JP2019175432A (ja) 対話制御装置、対話システム、対話制御方法及びプログラム
JP4600736B2 (ja) ロボット制御装置および方法、記録媒体、並びにプログラム
Rabie et al. Evaluation and discussion of multi-modal emotion recognition
André et al. Multimodal fusion in human-agent dialogue
Lin et al. Acoustical implicit communication in human-robot interaction
Lin et al. Nonverbal acoustic communication in human-computer interaction
Maskeliunas et al. ROBOSOFA-Low cost multimodal I/O fusion for smart furniture.
CN117765952A (zh) 人机交互的方法、装置和设备
CN117953902A (zh) 人机交互的方法、装置和设备
Rossiter Multimodal intent recognition for natural human-robotic interaction
Wickramaratne Experience based adaptive vocal interaction system for domestic service robots
JP2015125613A (ja) アニメーション生成装置、データフォーマット、アニメーション生成方法およびプログラム
Prado A new probabilistic methodology to support an emotive dialog between a human and a robot

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant