KR20170003580A

KR20170003580A - 휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇

Info

Publication number: KR20170003580A
Application number: KR1020167032132A
Authority: KR
Inventors: 제롬 몽샥스; 귀나엘 가테; 다비드 호신; 가브리엘 바르비에리; 조슬린 마르탱; 쟝 테스타드; 일모 구르댕
Original assignee: 소프트뱅크 로보틱스 유럽
Priority date: 2014-04-17
Filing date: 2015-04-17
Publication date: 2017-01-09
Also published as: AU2015248713B2; CN110774285A; AU2018204246A1; JP6505748B2; MX2016013019A; CN106457563A; CN106457563B; CA2946056A1; RU2016144006A3; NZ725307A; US20170148434A1; JP2019164352A; AU2018204246B2; KR101991163B1; BR112016023928A2; US20190172448A1; WO2015158887A2; EP2933067B1; US10242666B2; JP2017520782A

Abstract

휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇.
휴머노이드 로봇(R)과 적어도 하나의 사용자(U) 간 대화를 수행하는 방법으로서, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는 다음의 단계를 포함한다:
i) 각자의 센서(c1, c2)로부터 복수의 입력 신호(s1, s2)를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,
ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트(EVI)를 인식하는 단계 - 상기 이벤트(EVI)는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,
iii) 적어도 하나의 이벤트(EVO)를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트(EVO)는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택됨 - ,
iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계
단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
이러한 방법을 수행하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇

Description

휴머노이드 로봇과 사용자 간 멀티모드 대화를 수행하는 방법, 이러한 방법을 구현하기 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇{METHOD OF PERFORMING MULTI-MODAL DIALOGUE BETWEEN A HUMANOID ROBOT AND USER, COMPUTER PROGRAM PRODUCT AND HUMANOID ROBOT FOR IMPLEMENTING SAID METHOD}

본 발명은 휴머노이드 로봇과 사용자, 즉, 보통 인간인 대화상대 간 이른바 "멀티모드" 대화를 수행하는 방법과 관련된다. 본 발명은 또한 이러한 방법의 구현을 위한 컴퓨터 프로그램 프로덕트 및 휴머노이드 로봇과 관련된다.

"휴머노이드 로봇"은 인간의 외형 및 기능부의 특정 속성, 가령, 몸통, 머리, 팔, 다리, 음성-인식 및 음성 합성 등을 이용해 인간과 구두로 통신할 수 있는 능력을 갖는 로봇으로 정의될 수 있다. 이러한 유형의 로봇은 인간과 기계 간 인지 거리(cognitive distance)를 감소시키는 것을 목표로 한다. 휴머노이드 로봇의 가장 중요한 특성 중 하나는 인간 대화 상대와의 대화를 가능한 자연스럽게 지원할 수 있는 능력이다. 이 능력은 노인, 환자, 또는 단순히 외로운 사람들을 일상 속에서 돕고 이들에게 인간 개인 비서의 존재의 - 감정적 관점에서 - 수용 가능한 대체를 제공하기 위한 "동반자 로봇(companion robot)"의 개발에 핵심적이다. 이를 위해, 가능한 인간 행동과 가깝게 흉내 내는 방식으로 인간과 대화하기 위한 이러한 휴머노이드 로봇의 능력을 개발하는 것이 필수적이다. 특히, 로봇이 인간의 질문 또는 선언을 해석할 수 있고, 인간의 표현에 대응하는 표현을 이용하는 대화 모드 및 일반적으로 인간의 유형인 행동 및 감정과 상승작용을 하는 표현 모드에서 복제를 만들 수 있는 것이 필요하다.

이와 관련된 첫 번째 단계는 상용화된 Nao™ 휴머노이드 로봇을 프로그래밍하는 방법, 로봇 플레이어에 대한 국제 특허 출원 WO2012/000927 및 자연 인터페이스 대화 기능을 갖는 휴머노이드 로봇에 대한 국제 특허 출원 WO2012/010451에 개시된 바를 기초로 한다.

그러나 이들 문서에 개시된 로봇은 제한적이고 지정된 대화 요소만 수행할 수 있다.

국제 특허 출원 WO2013/150076은 대화 에이전트, 음성 인식 툴 및 대화 상대의 행동을 분석하기 위한 툴을 갖는 휴머노이드 로봇을 기술하며, 기존 로봇보다 더 풍부한 대화 능력을 보여준다.

본 발명은 인간 대화 상대와의 대화를 더 풍부하고 더 현실적으로 만드는 이러한 휴머노이드 로봇을 개선하는 데 목표를 둔다. 본 발명은, 특히, 사용자의 동작을 해석할 수 있는 능력을 갖는 로봇을 제공함으로써 인간-로봇 대화를 개선하는 것을 목표로 삼는 "Juliette"라고 일컬어지는 프로젝트를 포함한다.

본 발명의 목적은, 이러한 목표를 달성할 수 있게 하면서, 청구항 1항에 따르는 휴머노이드 로봇과 적어도 한 명의 사용자 간 대화를 수행하는 방법을 제공하는 것이며, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는 다음의 단계들을 포함한다:

i) 각자의 센서로부터 복수의 입력 신호를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,

ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트를 인식하는 단계 - 상기 이벤트는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,

iii) 적어도 하나의 이벤트를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택되며, 상기 결정하는 단계는 규칙의 세트를 적용함으로써 수행되고, 각각의 규칙은 입력 이벤트의 세트를 로봇의 응답에 연관시킴 - ,

iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계

단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아니다.

이러한 방법의 특정 실시예는 종속 청구항의 대상이 된다.

본 발명의 또 다른 대상은 휴머노이드 로봇에 내장된 적어도 하나의 프로세서에 의해 실행될 때, 상기 방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트이며, 상기 로봇은, 적어도 하나의 프로세서에 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 복수의 센서, 단어 또는 문장을 발언하도록 상기 프로세서에 의해 제어되는 음성 합성 모듈, 및 상기 프로세서에 의해 상기 로봇이 복수의 운동 또는 제스처를 수행하도록 구동되는 액추에이터의 세트를 포함한다.

본 발명의 또 다른 대상은 다음을 포함하는 휴머노이드 로봇이다:

적어도 하나의 내장된 프로세서, 및

- 상기 적어도 하나의 프로세서를 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 센서 조립체,

- 단어 또는 문장을 발언하도록 상기 프로세서에 의해 구동되는 음성 합성 모듈, 및

- 로봇이 복수의 운동 또는 제스처를 수행할 수 있게 하도록 상기 프로세서에 의해 구동된 액추에이터의 세트,

이때, 상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 프로그램 또는 구성된다.

이러한 휴머노이드 로봇은 적어도 하나의 원격 서버로 연결되기 위한 장치를 더 포함하며, 상기 적어도 하나의 프로세서는 본 발명의 실시예에 따르는 방법을 수행하도록 상기 원격 서버와 협업하도록 프로그램 또는 구성된다.

본 발명의 그 밖의 다른 특징, 세부사항 및 이점이 예시가 제공된 첨부된 도면을 참조하여 다음의 기재를 읽은 후 명백해질 것이다.
도 1은 본 발명을 구현하기에 적합한 휴머노이드 로봇의 물리적 아키텍처를 보여준다.
도 2는 본 발명의 실시예에 따르는 방법의 단계 및 이러한 구현을 위한 하드웨어 및 소프트웨어 수단의 배열을 도시한다.
도 3은 본 발명의 특정 실시예에 따르는 "선행적" 대화의 구현을 도시한다.
도 4는 본 발명의 실시예에 따르는 휴머노이드 로봇의 응답을 애니메이션화하는 단계를 도시하는 다이어그램이다.
도 5a, 5b, 및 5c는 애니메이션화될 하나 이상의 단어의 결정을 위해 문장의 구문 분석의 3가지 예시이다.
도 6은 본 발명의 실시예에 따르는 사용자에 대한 로봇의 위치의 서보-제어를 도시한다.
도 7은 본 발명의 하나의 실시예에 따르는 이벤트를 식별하는 단계를 도시하는 다이어그램이다.
도 8은 본 발명의 하나의 실시예에 따르는 표음 음성 인식의 단계를 도시한다.

도 1은 본 발명의 복수의 실시예에서 휴머노이드 로봇의 물리적 아키텍처를 디스플레이한다.

도면 상의 특정 로봇 R이 본 발명이 구현될 수 있는 휴머노이드 로봇의 예시로서 간주된다. 도면 상의 로봇의 하지는 보행 기능을 하지 않고, 표면 상에서 구르는 베이스 RB를 갖고 임의의 방향으로 이동할 수 있다. 본 발명은 보행에 적합한 로봇에서 쉽게 구현될 수 있다. 예를 들어, 이 로봇은 약 120cm일 수 있는 높이 H, 약 65cm인 깊이 D, 및 약 40cm인 폭 W을 가진다. 특정 실시예에서, 본 발명의 로봇은 메시지(오디오, 비디오, 웹 페이지)를 이의 주위 환경으로 통신하거나, 태블릿의 촉각 인터페이스를 통해 사용자로부터의 입력 값을 수신할 수 있는 태블릿 RT을 가진다. 태블릿의 프로세서에 추가로, 본 발명의 로봇은 또한 고유 마더보드의 프로세서를 이용하며, 상기 프로세서는 예를 들어 Intel™사의 ATOM™ Z530일 수 있다. 본 발명의 로봇은 또한 본 발명의 특정 실시예에서, 마더보드, 특히, 자기 회전 인코더(MRE)(Magnetic Rotary Encoder)를 포함하는 보드와 사지의 관절의 모터 및 로봇이 바퀴로서 사용하는 볼(ball)을 제어하는 센서 간 데이터 흐름의 핸들링에 특화된 프로세서를 포함할 수 있다. 모터는 확정적 관절을 위해 필요한 최대 토크(torque)의 크기에 따라 서로 다른 유형을 가질 수 있다. 예를 들어, e-minebea™ 사의 브러쉬 DC 코어리스 모터(가령, SE24P2CTCA)가 사용되거나, Maxon™ 사의 브러시리스 DC 모터(가령, SE24P2CTCA)가 사용될 수 있다. MRE는 일반적으로 12 또는 14비트 정밀도로 홀 효과(Hall effect)를 이용하는 유형인 것이 바람직하다.

본 발명의 실시예에서, 도 1에 도시된 로봇이 또한 다양한 유형의 센서를 포함한다. 이들 중 일부가 로봇의 위치 및 운동을 제어하도록 사용된다. 예를 들어, 이는, 로봇의 몸통에 위치하는 관성 유닛이 3-축 자이로미터 및 3-축 가속도계를 포함하는 경우에 해당한다. 또한 로봇은 시스템 온 칩(SOC) 유형이며, 초당 5 프레임에서 5메가픽셀의 해상도를 갖고 약 57°수평 및 44°수직의 시야(FOV)를 갖는 로봇(상부 및 하부)의 이미 상의 2개의 2D 컬러 RGB 카메라, 가령, Shenzen V-Vision Technology Ltd™ (OV5640)를 포함할 수 있다. 또한 하나의 3D 센서, 가령, 초당 20 프레임에서 0.3메가픽셀의 해상도를 갖고, 2D 카메라와 거의 동일한 FOV를 갖는 ASUS XTION™ SOC 센서가 로봇의 눈 뒤에 포함될 수 있다. 본 발명의 로봇에 레이저 라인 생성기(laser lines generator), 가령, 머리에 3개, 베이스에 3개가 구비되어, 환경에 속하는 물체/생물체에 대한 상대적 위치를 감지할 수 있다. 본 발명의 로봇은 이의 환경에서 소리를 감지할 수 있도록 마이크로폰을 더 포함할 수 있다. 하나의 실시예에서, 1kHz에서 300mV/Pa +/-3dB의 감도 및 300Hz 내지 12kHz의 주파수 범위(1kHz에 대한 -10dB)를 갖는 4개의 마이크로폰이 로봇의 머리 상에서 구현될 수 있다. 본 발명의 로봇은 또한, 로봇의 베이스의 전면 및 후면에 위치할 수 있는 2개의 초음파 센서를 포함하여, 로봇 주위의 물체/인간까지의 거리를 측정할 수 있다. 로봇은 자신의 머리와 손 상에 촉각 센서(tactile sensor)를 더 포함하여, 인간과의 대화를 가능하게 할 수 있다. 또한 자신의 베이스 상에 범퍼(bumper)를 더 포함하여, 자신의 경로 상에서 마주치는 장애물을 감지할 수 있다.

로봇의 감정을 번역하고 로봇 주위의 인간과 통신하기 위해, 본 발명의 로봇은 다음을 더 포함할 수 있다:

가령, 눈과 귀 및 어깨 상의 LED,

가령, 귀에 위치하는 2개의 확성기.

본 발명의 로봇은 RJ45 또는 WiFi 802.11 연결을 통해 기지국 또는 그 밖의 다른 로봇과 통신할 수 있다.

본 발명의 로봇은 약 400Wh의 에너지를 갖는 리튬 철 인산염 배터리에 의해 전력을 공급 받을 수 있다. 상기 로봇은 자신이 포함하는 배터리의 유형에 적합한 충전 스테이션을 액세스할 수 있다.

로봇의 위치/운동이 센서의 측정 관점에서, 각 사지와 각 사지의 끝부분에서 형성된 효과기(effector)에 의해 형성된 체인을 활성화하는 알고리즘을 이용해 이의 모터에 의해 제어된다.

도 2는 본 발명의 하나의 실시예에 따르는 대화 방법을 도시한다. 이러한 방법의 구현에 의해 획득되는 대화는 "멀티모드"라고 지칭될 수 있는데, 왜냐하면 로봇이, 자신의 응답을 공식화하기 위해, 질적으로 서로 다른 이벤트, 가령, 사용자(즉 대화 상대)에 의해 생성되는 말, 제스처, 태도, 표정 등의 조합을 고려한다. 앞서 언급된 국제 특허 출원 WO2013/150076은 또한 로봇이 제스처, 가령, 대화 상대의 손을 흔드는 제스처 - 그러나 공동 발생되는 언어적 그리고 비언어적 이벤트의 특정 조합에 한정되지 않음 - 에 반응하는 방법을 개시한다.

도 2의 방법의 제1 단계(i)에서, 각자의 센서 c1(마이크로폰) 및 c2(카메라)로부터의 입력 신호 s1, s2가 로봇에 의해 획득되고 추출기 모듈 군 EXT(이하, 내장 프로세서 또는 원격 센서에 의해 실행되는 소프트웨어 모듈을 지시하기 위해 용어 "모듈"이 사용되고, 하드웨어 또는 하드웨어-소프트웨어 하이브리드 구현예가 항상 가능하고 본 발명의 범위 내에 있음이 이해되어야 한다)에 의해 처리될 수 있다. 각각의 추출기 모듈은 입력 신호 또는 특정 유형의 복수의 신호를 수신하고 로봇의 그 밖의 다른 모듈에 의해 사용되도록 정보를 출력한다. 예를 들어, 도 2의 경우, 제1 추출기 모듈은, 인간 음성과 호환 가능한 것으로 식별된 소리 및 상기 음성의 억양을 나타내는 메타데이터 M(행복, 슬픔, 분노, 명령문, 의문문...)으로 변환함으로써, 마이크로폰 c1으로부터의 신호 s1을 처리하여 텍스트 출력 TXT를 제공할 수 있으며, 제2 및 제3 추출 모듈은 카메라 c2로부터의 신호 s2를 처리하여 상기 카메라의 시계에서의 사용자의 얼굴 및 팔의 관심 포인트를 나타내는 "비-텍스트 데이터" NTD를 생성할 수 있다.

추출기 군의 출력이 대화 엔진 모듈 DE의 입력으로서 제공된다. 이 모듈에 의해 수행되는 처리는 복잡하고 상당한 크기의 데이터베이스로의 액세스를 필요로 할 수 있다. 이러한 이유로, 이 처리는 인터넷 연결을 통해 액세스되는 하나 이상의 원격 서버 RS에 의해 부분적으로 수행될 수 있다.

대화 엔진 모듈은 데이터 TXT, MD, NTD를 입력으로서 수신하고 이들을 지정된 "입력 이벤트" EVI와 연관 짓는 인지 모듈(recognition module) REC을 포함한다. 예를 들어, 모듈 REC는 텍스트 데이터 TXT를 사전의 단어들과 연관시킬 수 있으며, 또한 사용자의 얼굴의 관심 포인트의 특정 구성을 미소와 연관시킬 수 있고, 심지어 수치 값을 상기 미소에 부여할 수 있으며(가령, 0 내지 5의 값, 이때 0은 웃지 않음을 의미하고 5는 매우 활짝 웃음을 의미함), 또한 사용자의 팔의 관심 포인트의 특정 구성을 제스처, 가령, 손 흔들기와 연관시킬 수 있다. 고려되는 특정 실시예에 따라, 인식 모듈의 작업이 추출기 모듈에 의해 수행될 수 있으며 - 가령, "미소 추출기"를 가질 수 있음 - 앞서 기재된 바와 같은 미소 값을 직접 제공하 ㄹ수 있다.

"대화 맥락" 또는 "주제", 로봇의 메모리에 저장된 파라미터 CTX가 인식 모듈의 결정에 영향을 미칠 수 있다. 실제로, 유사한 항목이 맥락에 따라 서로 다른 이벤트로 해석될 수 있는데, 예를 들어, 서로 다른 맥락에서 크게 벌어진 사용자의 입이 하품 또는 혼미함의 표현으로 해석될 수 있다. 이는 본 발명의 제2 단계(ii)에 대응한다.

본 발명의 제3 단계(iii)는 응답을 입력 이벤트 또는 입력 이벤트의 조합과 연관시키는 "규칙 적용" 모듈 RUL에 의해 수행된다. 응답은 로봇이 말한 단어 또는 구문, 로봇이 발산하는 소리, 로봇이 수행하는 제스처, 로봇의 "얼굴"의 표정 등일 수 있는 하나 이상의 "출력 이벤트" EVO에 의해 구성된다. 상기에서 언급된 국제 특허 출원 WO2012/010451은 본 발명에서 사용될 수 있는 규칙 적용 모듈을 주요한 수정과 함께 기술한다. 실제로, 본 발명에 따르면, 규칙 중 적어도 일부가 응답을 단일 입력 이벤트와 연관시키는 것이 아니라, 적어도 2개의 공동-생성된 이벤트(이 중 적어도 하나가 비-언어적(non-verbal)임(즉, 사용자의 단어 또는 문장으로 구성되지 않음))의 조합과 연관시킨다. 본 발명의 바람직한 실시예에 따르면, 규칙 중 적어도 일부, 특히 복수의 이벤트를 입력으로서 취하는 규칙 중 일부가, 적어도 일부가 비-언어적인 출력 이벤트의 조합으로 구성된 응답을 결정한다.

예를 들어, 가능한 규칙은 다음과 같을 수 있다:

IF (미소>2) AND [손 흔듦 or "안녕(hallo)" or "안녕(hi)"] THEN (미소=4) AND 손 흔듦 AND "안녕".

이는 사용자가 적어도 중간 정도로 미소 지으면서 손을 흔들고 "안녕"이라고 말하는 경우, 로봇은 큰 미소, 손 흔듦, 및 단어 "안녕"으로 응답함을 의미한다.

"공동으로 발생된" 이벤트는, 대화 목적으로 동시라고 간주될 충분히 가까운 시점에서의 둘 이상의 이벤트를 의미한다. 예를 들어, 사용자가 자신의 손을 흔들고 그 후 1초 후에 "안녕"이라고 말하는 경우, 2개의 이벤트는, 정확히 동시에 행해지지 않아도, 공동으로 발생한다고 간주된다.

매번, 적용 규칙은 대화 맥락 CTX에 따라 달라지며, 이는 이전에 적용된 규칙 및/또는 입력에 의해 결정된다. 일부 맥락 또는 주제와 관련된 규칙이 "대화"를 형성하며, 이는 국제 특허 출원 WO 2011/003628에 개시된 바와 같이 프로그래머에 의해 편집될 수 있다. 대화 주제의 예시는 "축구", "정치", "요리"일 수 있지만, 또한 사용자가 로봇과 대화를 개시하는 경우 "만남" 또는 사용자가 떠나거나 대화를 종료할 것을 표현할 때 "작별인사(bye)"일 수도 있다(또는 그 반대의 경우도 가능함).

덧붙여, 매번 적용 규칙은 로봇의 내부 상태 RIS에 따라 달라질 수 있으며, 이는 이전에 적용된 규칙 및/또는 입력에 의해 결정된다. 내부 상태의 예시로는 "행복", "슬픔", "피곤", "배터리 방전", 또는 "기계적 고장"이 있다.

예를 들어, 로봇이 사용자가 슬픈 표현을 함을 인식하는 경우, 이의 내부 상태는 "걱정"이 될 것이다. 그렇다면 사용자가 "오늘 별로 좋지 않아"라고 말하면, 대화 맥락이 (건강이 대화의 주제일 것임을 가리키는) 값 "건강"을 취할 것이며, 적절한 규칙의 세트를 결정한다.

입력 이벤트의 "생성"이 사용자에 의해 수행되는 동작을 반드시 필요로 하지 않음이 이해되어야 하는데, 예를 들어, 사용자가 화려한 색의 옷을 입었다는 사실이 "이벤트"일 수 있다. 특정 분류의 규칙, 이른바 "선행 규칙(proactive rule)"이 적용되어, 사용자가 말한 단어 또는 식별된 제스처를 포함하지 않는 이벤트 또는 이벤트들의 조합에 대한 응답을 결정할 수 있다. 다시 말하면, 로봇은 대화를 개시함으로써, 자극, 가령, 방 안에 있는 사람의 수, 말하지 않는 사용자의 표현, 옷의 색상 등에 반응한다. 본 발명의 특정 실시예에서, 일부 "수다(small talk)" 주제가 사전적인 것(proactive)이라고 라벨링되며, 이는 상기 주제와 관련된 모든 규칙이 선행적임을 의미한다. "수다" 주제의 예시로는 "미소"가 있고, 이는 사용자가 말 없이 미소 지을 때 적용되는 규칙을 포함한다. 더 구체적인 주제, 가령, "요리" 또는 "정치"는 일반적으로 선행적이 아니다.

도 3은 본 발명의 특정 실시예에 따르는 "선행적" 대화의 구현을 도시한다. 추출기 군 EXT은 장면의 서로 다른 요소의 색상을 인식하는 색상 추출기 COL, 미소 추출기 SML, 방 안의 사람의 수를 결정하는 추출기 모듈 NBP, 텍스트 추출기 TXTX, 및 제스처 추출기 GST를 포함한다. 특정 상황에서, 색상 추출기는 적색 셔츠를 식별하며, 미소 추출기는 사용자의 매우 큰 미소(미소=5)를 인식하며 NBP 모듈은 방 안의 2명의 사람을 세며, 모듈 TXTX 및 GST는 사용자가 말하지 않고 정의된 제스처를 수행하지도 않음을 나타낸다. 그 후 대화 엔진, 및 더 상세히는 규칙 적용 모듈 RUL이 대화 데이터베이스 DDB의 "수다" 주제를 포함하는 서브세트 PRO 내에서 이 상황에 적용 가능한 "선행적" 규칙을 검색할 것이다.

도 2의 방법은 또한, 로봇의 응답이 적어도 단어 또는 문장으로 구성될 때 로봇의 응답을 애니메이션화하는 선택적 단계(iii-a)를 포함한다. 애니메이션은 음성을 동반하는 로봇의 운동 및/또는 비-언어적 이벤트의 시퀀스(가령, 표정의 변화)이며, 이는 인간의 "몸짓"을 모방한 것이다. 애니메이션화된 응답은 음성 및 운동을 포함하는 멀티모드 응답과 구분되지 않을 수 있지만, 상이한 방식으로 생성될 수 있다. 멀티모드 응답은 앞서 언급된 바와 같이 규칙 적용 모듈에 의해 직접 결정되며, 대신, 애니메이션은 규칙 적용 모듈에 의해 입력으로서 발생된 특정 이벤트 EVO(즉, 언어적 이벤트, 즉, 말해진 단어)를 취하면서 전용 모듈 ANE에 의해 언어적 응답에 추가되며, 이는 도 4, 5a, 5b 및 5c를 참조하여 이하에서 설명될 것이다.

도 4에 도시된 바와 같이, 애니메이션 모듈, 또는 엔진, ANE가 구문 분석 모듈 SYNTA, 내장된 또는 로봇에 의해 액세스 가능한 메모리에 저장된 애니메이션 리스트 AST, 및 표현도 값(expressiveness value)을 계산하기 위한 2개의 모듈 1OX 및 FX을 포함한다. "표현도 값"은 움직임이 어느 정도까지 "과장되게" 또는 "단순하게" 이뤄져야 하는지를 결정하는 파라미터이다. "표현도 계수"는 표현도 값의 수정을 정의한다. 용어 "표현도"는 표현도 값과 표현도 계수 모두를 지칭한다.

구문 분석에 의해, 도 5a, 5b, 5c를 참조하며 차후 설명될 바와 같이, 애니메이션화될 단어 및 자체는 애니메이션화되지 않지만 애니메이션화될 단어의 표현에 영향을 미치는 관련 단어가 결정될 수 있다. 덧붙여, 구문 분석 모듈이, 텍스트 및/또는 로봇의 내부 상태 RIS에서 "감정 단어"의 빈도를 고려함으로써 말해진 텍스트의 "전체" 표현도를 결정할 수 있다. 애니메이션화될 각각의 단어는 자신 고유의 표현도를 가지며, 이 표현도는 모듈 1OX에 의해 관련 단어의 표현도와 조합되어 텍스트의 전체 표현도가 되며, 이는 이른바 "유일 표현도(one-off expressiveness)"라고 지칭되는 표현도 값을 출력한다.

애니메이션화될 각각의 단어는 "개념"과 연관된다. 개념 및 유일 표현도가 사용되어 애니메이션 리스트 ALST 내에서 하나의 애니메이션을 선택할 수 있다. 선태은 단어와 연관되는 개념에 따라 달라지고 모듈 1OX에 의해 계산되는 유일 표현에 따라 달라진다. 예를 들어, 리스트의 각각의 애니메이션은 하나 이상의 개념과 연관될 수 있고, 특정 표현도 값을 가질 수 있으며, 이 경우, 애니메이션은 애니메이션될 단어에 의해 표현되는 개념과 연관되고, 유일 표현도와 가장 가까운 특정 표현도 값을 갖는 애니메이션이 선택된다. 도 4의 예시에서, 선택된 애니메이션이 anim2라고 지칭되며 exp2의 특정 표현도를 가진다. 최종적으로, 모듈 FX는 선택된 애니메이션의 특정 표현도와 유일 표현도를 조합(가령, 평균 내기)하여 최종 표현도 expf을 계산할 수 있다. 애니메이션 엔진의 출력은 (애니메이션, 최종 표현도)의 쌍이다. 최종 표현도 값은, 가령, 애니메이션을 구성하는 제스처의 속도 및/또는 크기를 결정한다.

도 5a는 애니메이션될 문장의 구문 분석을 도시한다. "그는 초콜릿과 맥주를 사랑한다(He loves chocolate and beer)". 구문 트리(syntactical tree)가 명백하게 2개의 목적어를 연결하는 접속사 "AND"를 배치하며, 이는 열거를 나타낸다. 이 경우, 접속사가 애니메이션화될 단어이다. 이는 개념 "열거"와 연관되며, 이는 다시 "2개"라고 지칭되는 열거 목록과 연관되며, 이는 로봇이 자신의 손을 쥐고, 엄지와 중지를 펴는 제스처로 구성된다.

도 5b는 애니메이션화될 또 다른 문장의 구문 분석을 도시한다: "나는 너에게 동의해(I agree with you)". 이는 긍정적 형태의 동사, 주어 및 목적어를 갖는 단순한 문장이다. "with"를 제외한 모든 단어가 애니메이션화된다: "나(I)"는 로봇이 자신을 가리키는 "나 자신" 애니메이션에 의해, "동의한다(agree)"는 로봇이 끄덕이는 "yeah" 애니메이션으로서, 너(you)는 로봇에 의해 애니메이션화된다.

이들 두 가지 예시는 매우 단순한 것으로, 여기서 표현도는 어떠한 역할도 하지 않는다. 더 복잡한 예시가 도 5c에서 구문 트리가 도시된 문장 "나는 너에게 강력하게 반대해(I strongly disagree with you)"로서 들어진다. 이 경우, 동사가 부정 형태(문법적으로는 아니더라도 의미적으로)이고, 이러한 경우, 동사 자체가 애니메이션화되지만 주어와 목적어는 애니메이션화되지 않는다. 덧붙여, 반대함을 강조하는 부사("강력하게(strongly"))가 존재한다.

동사 "반대하다"가 개념 "반대함"과 연관되고 0내지 10 중에서 5의 값의 표현도를 가진다. 그러나 유일 표현은 부사 "강력하게"의 존재로 인해 5에서 8로 증가한다. 본 발명의 하나의 실시예에서, 로봇의 내부 상태 RIS는 유일 표현도 값을 변경할 수 있다.

개념 "반대"와 연관되는 3개의 애니메이션이 존재한다: 로봇의 표현의 변경만 포함하는 3의 특정 표현도를 갖는 "반대1", 각각 6 및 9의 특정 표현도를 가지며 또한 제스처를 포함하는 "반대2" 및 "반대3". 특정 표현도가 유일 표현도에 가장 가까운 애니메이션이 "반대3"이며, 이 것이 선택된다. 그러나 이의 최종 표현도가 특정 표현도와 유일 표현도의 평균에 대응하는 8.5로 축소된다. 이는 제스처가 "반대3"의 "표준" 버전에서보다 다소 느림 및/또는 덜 클 것임을 의미한다.

도 2를 다시 참조하면, 출력 이벤트 및/또는 애니메이션이 사용되어 응답을 "수행"하도록 로봇의 서로 다른 액추에이터를 구동시킬 수 있다. 도면의 예시적 실시예에서, 액추에이터는 확성기 A1, 표정 제어 액추에이터 A2, 및 사지-제어 액추에이터 A3이다. 이는 도 2의 방법의 단계(iv)이다.

로봇이 사용자 옆에 서서 그를 직접 응시하는 경우 휴머노이드 로봇과의 애니메이션화된 대화 및/또는 멀티모드 대화가 어색하고 부자연스럽게 인지될 수 있다. 덧붙여, 로봇이 사용자와 너무 가까운 경우, 애니메이션화된 또는 멀티모드 응답을 생성하기 위해 "손을 써서 말하는" 동안 사용자를 칠 수 있다. 또한 오작동의 경우 로봇이 사용자에게로 넘어지는 일반적인 위험이 존재한다. 이러한 이유로, 본 발명의 바람직한 실시예에 따르면, 로봇은 사용자와의 거리를 지정 범위 내로(가능하면 맥락에 따라) 유지하기 위해 서보-제어(servo-control)된다. 바람직하게는, 로봇의 일부, 가령, 허리와 사용자의 하체(허리까지의 하체) 간 거리가 측정되며, 이는 로봇을 뒤로 이동시키지 않으면서 사용자가 로봇에 기대고 로봇을 손으로 건드릴 수 있게 한다. 바람직하게는, 로봇이 또한 서보-제어되어 사용자에 대한 배향을 지정 범위 각도 내로(가능하면 맥락에 따라) 유지할 수 있다. 바람직하게는, 로봇은 이러한 거리 및 각도 범위 내에서 의사-랜덤 직선 운동 및/또는 회전 운동을 수행하여, 부자연스럽게 정적인 로봇에 의해 야기되는 느낌을 피할 수 있다.

도 6은 상기로부터 로봇 R과 사용자 U를 보여준다. 로봇을 중심으로 갖는 기준계(reference frame)에서, 사용자, 더 정확히는, 사용자의 하체가 거리 범위 [d1, d2] 및 각 범위 [-,]에 의해 정의되는 인가된 영역 AR 내에 유지될 것이 요구된다. 사용자가 이동하는 경우, 로봇 역시 이동하여 이 조건을 계속 만족시킨다. 또한, 앞서 언급된 바와 같이, 로봇은 사용자를 인가된 영역 내로 유지하면서 의사-랜덤 직선 운동 및/또는 회전 운동을 수행할 수 있다.

로봇의 "자연스러운" 행동을 얻기 위해, 대화 동안 활성 주제에 따라 거리 및 각 범위가 달라질 수 있다.

이미지 처리 모듈과 연결된 카메라, 레이저 라인 생성기 및/또는 초음파 센서를 이용함으로써 로봇에 대한 사용자의 위치가 결정될 수 있고, 휴머노이드 로봇의 물리적 구조에 대한 기재는 도 1을 참조하여 앞서 기재된 바 있다.

도 2를 다시 참조하면, 서로 다른 유형의, 가령, 언어적 또는 비-언어적 이벤트를 인식하기 위해 입력 신호를 해석하는 단계(ii)가 본 발명에 따르는 방법의 매우 중요한 단계이다. 이벤트를 인식하는 것은 휴머노이드 로봇의 메모리에 저장된 또는 로봇에 의해 액세스 가능한 예상 이벤트의 지정 리스트의 아이템에 입력 신호를 매칭하는 것을 의미한다. 바람직하게는, 대화 맥락 또는 주제에 따라, 복수의 리스트 중에서 예상 이벤트의 리스트가 선택된다.

예를 들어, 음성 인식이 센서에 의해 획득된 소리 신호를 사전(dictionary) 중 자연 언어 단어, 또는 맥락 특정적인 일련의 단어들과 매칭하는 것으로 구성된다. 보통, 각각의 매칭 결과가 신뢰도 점수와 연관되며, 이 점수가 높을수록, 매칭이 올바를 확률이 커진다. 일반적으로, 임계값이 사용되어 이벤트를 식별하는 데 "성공적인" 매칭과 실패한 시도를 구별할 수 있다.

인식될 특정 유형의 이벤트에 따른, 서로 다른 복잡도의 복수의 매칭 방법이 종래 기술에서 알려져 있다. 예를 들어, 음성 인식 분야에서 다음의 방법(또는 방법 군)이 알려져 있다:

- 완전 매칭: 이는 입력이 정확한 단어 또는 문장을 포함하는지 여부를 체크하는 유한 상태 머신을 이용하는 가장 단순하며, 가장 빠른 방법이다. 신뢰도 점수는 부울 수(Boolean)이며: 매칭이 확실(점수=1), 또는 식별 시도가 실패(점수=0)이다.

- 대략 매칭: 이 역시 유한 상태 머신을 기초로 하지만, 매칭 체인에서 특정 실수를 허용한다. 실수의 개수가 증가할수록 신뢰도 점수가 감소한다.

- 표음적 매칭(Phonetic matching)(음성 인식 전용): 이는 입력과 사전의 단어 또는 문장 간 표음적 거리의 결정을 기초로 한다.

- 의미 매칭(semantic matching): 가장 복잡한 방법이며 입력에서 관찰된 어휘와 각각의 대화 엔트리 내 어휘 간 거리의 계산을 기초로 한다. 거리는 상기 입력의 벡터 표현과 상기 엔트리의 코사인 측정치(consing measure)이다. 벡터는 TF-IDF(Term Frequency - Inverse Document Frequency), 가중화를 이용한 "단어 주머니" 분포 의미 표현에 따라 계산된다.

단일 매칭 방법을 이용하는 대신, 로봇은 가장 단순한 방법에서부터 시작하고 신뢰도 점수가 지정 임계값을 초과하는 경우 결과를 수락하고 그렇지 않은 경우 더 복잡한 방법으로 시도하는 계층구조적 접근법을 이용할 수 있으며, 가장 복잡한 매칭 방법(의미 매칭)을 이용해 획득된 신뢰도 점수가 여전히 임계값보다 낮은 경우, 검색이 실패한 것이다. 이 경우, 로봇은 (가령, 음성 인식이 실패한 경우 "미안한데, 뭐라고 했죠"라고 말함으로써) 입력을 무시하거나 명확화를 요구할 수 있다.

또한 계층구조가 요인들, 가령, 사용된 음성 인식 기법에 적합화될 수 있다. ASR(Automatic Speech Recognition)이 큰 언어 모델을 기초로 할 때 의미 매칭이 선호될 것이며, 반면에 표음적 매칭이 덜 강건한 임베디드 ASR 결과로부터 에러를 복원하는 데 도움이 될 것이다.

바람직하게는, 로봇은 서로 다른 파라미터에 따라, 특히, 대화 맥락 또는 주제에 따라, 매칭 방법의 서브세트를 선택할 수 있다. 진행 중인 대화가 단지 몇 개의 서로 다른 입력만 기대되는 "폐쇄된" 것인 경우, 정확한 매칭이 성공적으로 동작할 가능성이 높고 따라서 시도할 가치가 있다. 이와 달리, 많은 수의 가능한 입력 이벤트를 허용하는 매우 넓은 맥락의 경우, 완전 매칭 및 대략 매칭을 폐기하고 표음 방법 또는 심지어 의미 방법으로 바로 시작하는 것이 바람직할 수 있다. 도 7의 우측 부분에서, 계산 복잡도가 증가하는 매칭 방법 MM1 - MM4의 계층 체인이 도시된다. 각각의 매칭 방법에 대해, 두 가지 결과가 가능하다: 매칭이 성공적 - 이 경우, 입력 이벤트 EVI가 생성됨 - , 또는 매칭이 성공적이지 않음 - 이 경우 다음 매칭 방법이 시도됨(MM4의 경우 제외). 시도될 첫 번째 매칭 방법이 반드시 MM1인 것은 아니며, 대화 맥락 CTX 및 가능하면 그 밖의 다른 파라미터에 따라 매칭 전략 엔진(matching strategy engine) MSE에 의해 선택된다.

인터넷 연결이 이용 가능한 경우, 원격 서버에 의해 적어도 가장 복잡한 매칭 방법이 수행될 수 있다(도 2 참조).

도 7은 적절한 추출기에 의해 인간 음성으로서 인식된 소리를 변환함으로써 획득된 텍스트 TXT를 입력 신호로서 취하는 음성 인식의 경우를 지칭하며, 이 접근법은 더 일반적이다. "멀티모드" 대화의 경우에 한정되지 않는 것으로 이해될 것이다.

표음적 매칭을 기초로 하는 특정 음성-인식 방법이 도 8을 참조하여 기재될 것이다.

센서(마이크로폰) c1에 의해 획득되는 소리가 전사 모듈(transcription module)(TRSC)로의 입력으로서 제공되며, 여기서 텍스트로 변환된다. 그 후, (가령, 카메라 및 얼굴 인식 모듈에 의해 종래 방식으로 식별된 사용자의 신원에 따라 로봇에 의해 결정된 파라미터인) 대화의 언어의 특수성을 고려함으로써, 표음 변환 모듈 PHON에 의해 이 텍스트는 이의 표음적 등가물(phonetic equivalent)로 변환된다. 전사와 표음 변환은 공동으로 수행될 수도 있고, 이들은 함께 "표음 전사(phonetic transcription)"라고 지칭될 수 있다.

그 후 단순화 모듈 SIMP에 의해 표음 전사는 단순화되고 평활화된다.

"단순화(Simplifying)"는 서로 혼동될 가능성이 높은 서로 다른 음소, 예컨대, "d"와 "t" 또는 "k"와 "g"를 단일 음소로 표현하는 것을 포함한다.

"평활화(Smoothing)"는 이를 야기한 정보를 유지하면서 (인식 에러의 원인에서 종종 발생되는) 전사 모듈에 의해 제안되는 문장 분할을 무시하는 것을 포함한다. 이때, (전사 모듈에 의해 식별되는) 각각의 단어의 시작부분에서의 모음과 비음은 제외한 모음이 무시된다. INDEX에 포함된 예상 단어가 동일하거나 유사한 처리의 대상이 된다(바람직하게는 오프라인). 거리 컴퓨팅 모듈 DIST가 입력 소리의 단순화되고 평활화된 표음 전사와 인덱스의 평활화된 엔트리로서 단순화된 것 간 편집 거리를 결정한다. 그 후 선택 모듈 SEL이 가장 작은 편집 거리에 대응하는 엔트리를 선택한다.

예를 들어 사용자가 불어로 "A demain" (i.e. "내일 보자")라고 말하는 경우, 표음 전사는 "A DŒ MIN"일 것이고, 그 후 이는 "ATMN"로 단순환될 것이다("N"는 비모음(nasal vowel)을 나타냄).

편집 거리가 문자열을 또 다른 문자열로 변환하는 데 필요한 변경의 최소 횟수로 정의된다. 예를 들어, ADMN과 BDLNS 간 편집 거리는 3인데, 왜냐하면 다음과 같이 3번의 변경이 필요하기 때문이다:

- ADMN -> BDMN ("A"가 "B"로 변경);

- BDMN -> BDLN ("M"이 "L"로 변경)

- BDLN -> BDLNS ("S" 첨가).

본 발명은 멀티모드 대화, 애니메이션화된 음성, 로봇 위치의 서보-제어, 및 이벤트(및 더 구체적으로 음성) 인식의 특정 방법을 조합하는 특정 실시예를 고려하여 기재되었다. 이들이 상승 작용하면서 가장 잘 동작하더라도, 본 발명의 서로 다른 양태가 서로 독립적으로 구현될 수 있다.

Claims

휴머노이드 로봇(R)과 적어도 하나의 사용자(U) 간 대화를 수행하는 방법으로서, 상기 방법은 상기 휴머노이드 로봇에 의해 반복적으로 수행되는,
i) 각자의 센서(c1, c2)로부터 복수의 입력 신호(s1, s2)를 획득하는 단계 - 적어도 하나의 센서가 소리 센서이고 적어도 하나의 센서가 모션 또는 이미지 센서임 - ,
ii) 획득된 신호를 해석하여 상기 사용자에 의해 생성되는 복수의 이벤트(EVI)를 인식하는 단계 - 상기 이벤트(EVI)는 적어도 하나의 단어 또는 문장의 발언(utterance), 음성의 억양, 제스처, 자세(body posture), 표정으로 구성된 군 중에서 선택됨 - ,
iii) 적어도 하나의 이벤트(EVO)를 포함하는 상기 휴머노이드 로봇의 응답을 결정하는 단계 - 상기 이벤트(EVO)는 적어도 하나의 단어 또는 문장의 발언, 음성의 억양, 제스처, 자세, 표정으로 구성된 군 중에서 선택되며, 상기 결정하는 단계는 규칙의 세트를 적용함으로써 수행되고, 각각의 규칙은 입력 이벤트의 세트를 로봇의 응답에 연관시킴 - ,
iv) 휴머노이드 로봇에 의해, 각각의 이벤트를 생성하는 단계
를 포함하고,
단계 iii)에서 적용되는 상기 규칙의 일부는 응답을 상기 사용자에 의해 공동으로 발생되고 단계 ii)에서 인식되는 적어도 2개의 이벤트의 조합에 연관시키며, 이들 이벤트 중 적어도 하나의 이벤트는 상기 사용자에 의한 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항에 있어서, 상기 단계 iii)에서 적용되는 규칙 중 적어도 일부는 상기 휴머노이드 로봇에 의해 공동으로 발생되는 적어도 2개의 이벤트를 포함하는 응답을 결정하고, 이들 이벤트 중 적어도 하나의 이벤트는 단어 또는 문장의 발언이 아닌, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항 또는 제2항에 있어서, 상기 단계 iii)에서, 휴머노이드 로봇의 응답은, 대화 맥락(CTX), 사용자의 신원, 상기 휴머노이드 로봇의 내부 상태(RIS) 중에서 선택된 적어도 하나의 파라미터를 기초로 결정되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제3항에 있어서, 상기 단계 ii)에서 인식되거나 단계 iii)에서 결정된 적어도 하나의 이벤트에 따라 적어도 하나의 파라미터의 값을 수정하는 단계를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항 내지 제4항 중 어느 한 항에 있어서, 상기 단계 ii)는 획득된 신호와 상기 휴머노이드 로봇의 메모리에 저장된 또는 휴머노이드 로봇에 의해 액세스 가능한 예상 이벤트의 리스트에 속하는 이벤트 간 매칭을 검색하는 단계를 포함하고, 상기 검색하는 단계는, 지정 값보다 큰 신뢰도 점수를 갖는 이벤트가 인식될 때까지 또는 가장 높은 복잡도의 인식 방법이 사용된 후까지 복잡도를 증가시키면서 복수의 매칭 방법(MM1-MM4)을 연쇄적으로 이용함으로써, 수행되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제5항에 있어서, 사용되는 매칭 방법은 대화의 맥락에 따라 선택되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제5항 또는 제6항에 있어서, 상기 매칭 방법은, 복잡도 증가 순으로, 완전 매칭(exact match) 검색, 대략 매칭(approximate match) 검색, 표음 대응(phonetic correspondence) 검색, 및 의미 대응(semantic correspondence) 검색을 포함하며, 이때 표음 대응은 음성 인식의 경우에만 사용되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제7항에 있어서, 상기 표음 대응 검색 방법은,
- 소리 센서에 의해 획득되는 소리의 세트를 표음 전사(phonetic transcription)하는 단계,
- 최종 표음 전사를 단순화 및 평활화하는 단계,
- 단순화 및 평활화된 표음 전사와 자연 언어의 단어의 지정 세트를 단순화하고 평활화함으로써 획득된 복수의 엔트리 간 편집 거리를 계산하는 단계, 및
- 단순화되고 평활화된 표음 전자로부터 최저 편집 거리에 대응하는 엔트리에 대응하는 지정 세트의 자연 언어 단어를 선택하는 단계
를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제8항에 있어서, 상기 단순화 및 평활화하는 단계는
- 혼동되기 쉬운 음절들을 단일 음절로 대체하는 단계,
- 단어의 시작 부분의 모음과 비모음(nasal vowel)을 제외하고 모음을 제거하는 단계, 및
- 단어들 간 공백을 삭제하는 단계
를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제5항 내지 제9항 중 어느 한 항에 있어서, 대화 맥락에 따라, 복수의 리스트 중에서 예상 이벤트 리스트가 선택되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항 내지 제10항 중 어느 한 항에 있어서, 상기 단계 iii)는, 선행적 규칙(proactive rule)의 지정 서브세트(PRO)에 속하는 규칙을 적용함으로써, 사용자에 의한 단어 발언 또는 식별된 제스처가 없는 이벤트의 세트에 대한 응답을 결정하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항 내지 제11항 중 어느 한 항에 있어서, 단계 iii) 동안 결정된 응답이 적어도 단어 또는 문장의 발언을 포함하는 경우, 발언될 단어 또는 문장의 언어적 분석을 수행하고 상기 분석의 함수로서 상기 응답을 동반하는 애니메이션을 결정하는 단계 iii-a)를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제12항에 있어서, 상기 단계 iii-a)는
α) 애니메이션화될 응답의 적어도 하나의 단어를 식별하는 단계,
β) 애니메이션화될 단어와 연관되는 개념(concept)과 유일 표현도(one-off expressiveness)인 표현도(expressiveness)를 결정하는 단계,
γ) 개념 및 유일 표현도를 기초로, 휴머노이드 로봇의 메모리에 저장된 또는 휴머노이드 로봇에 의해 액세스 가능한 애니메이션의 리스트(ALST)로부터 하나의 애니메이션을 선택하는 단계
를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제13항에 있어서, 상기 단계 α)는 상기 문장의 구조 내의 기능에 따라 애니메이션화될 단어를 결정하도록 발언될 문장의 구문 분석을 수행하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제13항 또는 제14항에 있어서, 상기 단계 β)에서, 상기 유일 표현도는 단어의 표현도, 상기 단어와 관련된 하나 이상의 다른 단어의 표현도, 및 전체 응답의 전체 표현도 중에서 선택되는 적어도 하나의 파라미터를 기초로 결정되는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제13항 내지 제15항 중 어느 한 항에 있어서, 상기 리스트의 각각의 애니메이션은 하나 이상의 개념과 연관되고 특정 표현도를 가지며, 상기 단계 γ)는 상기 단계 β)에서 결정된 개념과 연관되고 상기 유일 표현도에 가장 가까운 특정 표현도를 갖는 애니메이션을 상기 리스트 내에서 선택하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제16항에 있어서,
δ) 상기 특정 표현도 및 상기 유일 표현도를 기초로, 최종 표현도를 결정하는 단계
를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제13항 내지 제17항 중 어느 한 항에 있어서, 상기 유일 표현도 또는 상기 최종 표현도가 상기 애니메이션의 적어도 하나의 제스처의 속도(speed) 및 크기(amplitude) 적어도 하나의 파라미터를 결정하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제1항 내지 제18항 중 어느 한 항에 있어서, 단계 i) 내지 iv)와 동시에 상기 로봇에 의해 반복적으로 구현되는,
A) 상기 로봇(R)에 고정된 기준계에 대한 상기 사용자(U)의 신체의 적어도 일부분의 위치를 결정하는 단계,
B) 상기 로봇 또는 로봇의 요소와 상기 사용자의 상기 신체의 적어도 일부분 간 거리를 지정 범위 값 내로 유지하도록 상기 로봇의 적어도 하나의 액추에이터를 구동시키는 단계
를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제19항에 있어서, 상기 단계 B)는 상기 사용자에 대한 로봇의 배향을 지정 각 범위 내로 유지하도록 상기 로봇의 적어도 하나의 액추에이터를 구동시키는 단계를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제19항 또는 제20항에 있어서, 상기 방법은
C) 상기 지정 범위 값 내로 상기 거리를 유지하면서 그리고 상기 지정 각 범위 내로 상기 배향을 유지하면서 로봇의 의사-랜덤(pseudo-random) 변위를 야기하도록 상기 액추에이터를 구동시키는 단계
를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제19항 내지 제21항 중 어느 한 항에 있어서, 상기 방법은
D) 상기 사용자와 상기 휴머노이드 로봇 간 진행 중인 대화의 의미 분석을 결정하는 단계 - 상기 분석에 따라, 상기 거리의 지정 범위 값을 변경하고, 지정된 각 범위를 변경함 - 를 더 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
제19항 내지 제22항 중 어느 한 항에 있어서, 상기 단계 A)는 상기 로봇에 고정된 기준 프레임에 대한 상기 사용자의 하체의 위치를 결정하는 단계를 포함하는, 휴머노이드 로봇과 적어도 하나의 사용자 간 대화를 수행하는 방법.
휴머노이드 로봇(R)에 내장된 적어도 하나의 프로세서에 의해 실행될 때, 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 실행하기 위한 프로그램 코드를 포함하는 컴퓨터 프로그램 프로덕트로서, 상기 로봇은, 적어도 하나의 프로세서에 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 복수의 센서(c1, c2), 단어 또는 문장을 발언하도록 상기 프로세서에 의해 제어되는 음성 합성 모듈, 및 상기 프로세서에 의해 상기 로봇이 복수의 운동 또는 제스처를 수행하도록 구동되는 액추에이터(A1, A2, A3)의 세트를 포함하는, 컴퓨터 프로그램 프로덕트.
휴머노이드 로봇(R)으로서, 상기 휴머노이드 로봇은
적어도 하나의 내장된 프로세서, 및
- 상기 적어도 하나의 프로세서를 동작 가능하게 연결되며 적어도 하나의 소리 센서 및 적어도 하나의 이미지 또는 운동 센서를 포함하여 각각의 입력 신호를 획득하는 센서 조립체(c1, c2),
- 단어 또는 문장을 발언하도록 상기 프로세서에 의해 구동되는 음성 합성 모듈, 및
- 로봇이 복수의 운동 또는 제스처를 수행할 수 있게 하도록 상기 프로세서에 의해 구동된 액추에이터(A1, A2, A3)의 세트
를 포함하며,
상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 프로그램 또는 구성되는, 휴머노이드 로봇.
제25항에 있어서, 적어도 하나의 원격 서버로 연결되기 위한 장치를 더 포함하며, 상기 적어도 하나의 프로세서는 청구항 제1항 내지 제23항 중 어느 한 항에 따르는 방법을 수행하도록 상기 원격 서버와 협업하도록 프로그램 또는 구성되는, 휴머노이드 로봇.