KR20190100348A

KR20190100348A - 로봇, 서버 및 인간-기계 상호 작용 방법

Info

Publication number: KR20190100348A
Application number: KR1020197022134A
Authority: KR
Inventors: 웬화 선; 지아리 후; 헝 랴오; 후이민 장
Original assignee: 후아웨이 테크놀러지 컴퍼니 리미티드
Priority date: 2016-12-31
Filing date: 2017-12-27
Publication date: 2019-08-28
Also published as: CN107053191B; WO2018121624A1; EP3563986A4; US11858118B2; JP6888096B2; CN107053191A; EP3563986B1; KR102328959B1; US20190337157A1; JP2020507835A; EP3563986A1

Abstract

본 발명의 실시 예는 인간-기계 상호 작용 방법을 제공하며, 상기 인간-기계 상호 작용 방법은, 로봇이 타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집하는 단계; 로봇이 감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하며, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 단계; 및 로봇이 시뮬레이션된 객체 데이터에 기반하여 컴패니언 객체를 시뮬레이션하는 단계를 포함한다.

Description

로봇, 서버 및 인간-기계 상호 작용 방법

본 발명은 인공 지능 디바이스에 관한 것으로, 특히 학습 능력(learning capability)을 가지는 교육 컴패니언(companion) 로봇에 관한 것이다.

업계의 기존 지능형 로봇은 사회적 감성 인지(emotion cognition) 및 표현 능력을 가지고 있으며, 클라우드 컴퓨팅, 로봇 학습 기술, 음성 인식 및 얼굴 인식(facial recognition)과 같은 기술을 사용하여 사람들의 특성과 감정을 학습하여, 사람과의 엔터테인먼트 상호 작용을 수행하고, 감정을 표현하며, 느낌을 교환하는 것 등을 한다. 인공 지능 개발 및 사회적 요건에는 아동 교육 로봇 및 컴패니언 로봇의 등장이 수반된다. 그러나 현재의 대부분의 아동 로봇(child robot)은 예를 들어, 간단한 이동(movement), 대화 또는 스토리텔링과 같은 단순한 음성 또는 행동(behavior) 상호 작용을 수행하며, 아이들이 관심 있는 객체에 대한 기계 학습을 수행할 수 없다. 로봇이 감정적으로 아이들과 상호 작용하고 성장에 도움이 되는 것은 어렵다.

본 발명의 실시 예는 컴패니언 로봇, 특히 아이들을 위한 교육용 로봇을 제공한다. 본 발명의 실시 예들에서 제공되는 로봇은 장시간 학습을 통해 아이(child)의 관심과 습관을 학습할 수 있으며, 성장하는 과정에서 끊임없이 변화하는 아이의 선호도에 기반하여 아이가 좋아하는 콘텐츠를 적응적으로 선택하여 아이와 상호 작용한다. 또한, 로봇은 부모 또는 보호자(guardian)에 의해 제어될 수 있으며, 부모에 의해 승인된 콘텐츠를 선택하여 아이와 상호 작용할 수 있다. 로봇은 아이 및 부모의 요건을 읽고, 아이의 성장을 도우며, 아이가 관심 있는 객체를 아이와 공유할 수 있다. 본 발명의 실시 예에서, 로봇에 의해 수반되는 객체는 또한 컴패니언 타깃 또는 타깃 객체로 지칭되며, 아이일 수도 있다. 실생활에서 타깃 객체(아이)의 돌보미(caregiver) 또는 보호자는 타깃 객체(아이)의 컴패니언 객체(companion object)라고 지칭된다. 본 발명의 실시 예에 따르면, 컴패니언 로봇은 이미지로부터 주변 이벤트 및 아이가 반응하는 컴패니언 객체를 추출하고, 적절한 데이터를 스크리닝(screens out)하고, 시뮬레이션된 객체 데이터를 분류한다. 시뮬레이션된 객체 데이터는 디지털 인간 또는 디지털 인적 자원(digital human resource)으로 지칭될 수 있다. 시뮬레이션된 객체 데이터는 컴패니언 객체를 시뮬레이션하거나 기술(describe)하는 데 사용된다. 로봇은 시뮬레이션된 객체 데이터를 사용하여 컴패니언 객체를 시뮬레이션하여 현실에서 아이의 보호자 또는 부모를 시뮬레이션하고 아이와 상호 작용한다. 본 발명의 실시 예의 컴패니언 로봇은 아이와 감정을 교환하고 성장 교육을 도울 수 있다.

본 발명의 실시 예에 따른 컴패니언 로봇은 타깃 객체의 컴패니언 객체의 센싱slensing) 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 먼저 검출하고 수집한다. 센서 모듈은 로봇 상에 배치된다. 센서 모듈은 카메라, 가속도 센서 및 자이로스코프와 같은 다양한 적절한 센서를 포함할 수 있다. 센서 모듈은 카메라 또는 다른 센서를 사용하여 컴패니언 객체의 이미지, 비디오 또는 사운드를 수집하여 컴패니언 객체의 센싱 정보를 획득할 수 있으며, 센싱 정보를 풍부하게 하기 위해 환경 이미지 또는 비디오를 더 수집할 수 있다. 센서 모듈은 카메라 또는 다른 센서를 사용하여 타깃 객체의 이미지 또는 비디오 등을 수집하여 타깃 객체의 감정 정보에 콘텐츠를 기록한다.

로봇은 감정 정보에 기반하여 감정 특징량(emotion feature quantity)을 추출하고, 감정 특징량에 기반하여컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여, 컴패니언 객체에서의 타깃 객체의 관심도(degree of interest)를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하고, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득한다. 시뮬레이션된 객체 데이터는 컴패니언 객체를 기술하는 데 사용된다.

가능한 구현에서, 타깃 객체(아이)가 컴패니언 객체(부모)와 상호 작용할 때, 로봇은 타깃 객체(아이)의 감정과 아이를 웃거나 화나게 등을 하는 부모의 행동 또는 음성을 획득할 수 있다. 로봇은 타깃 객체의 감정 정보를 사용하여 즐거움, 기쁨, 두려움, 혐오감 등 타깃의 감정 패턴을 결정할 수 있으며, 또한 분석을 통해 타깃 객체의 감정 변화 과정 등을 획득할 수 있다. 예를 들어, 로봇은 아이를 행복하게 만드는 행동 방식을 캡처하여 이 행동 방식의 행동 데이터를 획득할 수 있으며, 아이가 혐오감을 느끼게 하는 행동 방식을 캡처하여 이 행동 방식의 행동 데이터를 획득할 수 있고, 아이에게 약간의 반응을 일으키는 행동 방식을 캡처하여 이 행동 방식의 행동 데이터를 획득할 수 있다. 로봇은 관심 변화 과정이나 아이의 포괄적인 반응 태도에 기반하여, 사람, 사물(thing) 또는 행동에 대한 아이의 관심도를 결정한다. 로봇은 타깃 객체의 감정을 사용하여 타깃이 상호 작용 객체에 관심이 있는 지의 여부를 판정하고 관심도를 기록할 수 있다. 로봇은 관심도에 기반하여 컴패니언 객체의 행동 데이터로부터 행동 데이터를 스크리닝한다. 행동 데이터는 표현(expression), 바디 액션, 톤(tone) 등을 포함할 수 있다. 예를 들어, 로봇은 타깃 객체가 관심 있는 행동을 스크리닝하고, 행동을 기술하는 데 사용되는 행동 데이터를 사용하여 시뮬레이션된 객체 데이터를 생성할 수 있다. 이어서, 로봇은 가상의 시뮬레이션된 객체에 기반하여 상호 작용 객체를 시뮬레이션할 수 있다.

가능한 구현에서, 관심도에 기반하여 행동 데이터를 스크리닝할 필요가 없으며, 로봇은 감정 패턴에 기반한 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출한다. 이러한 방식으로, 아이가 특정 감정을 느끼게 하는 데 사용되는 시뮬레이션된 객체 데이터가 생성될 수 있다. 이런 방식으로 로봇은 사람이나 사물에 대한 아이의 관심도를 전반적으로 평가하지 않고, 대신에 로봇은 아이가 감정을 느끼게 하거나, 아이를 진정시키거나(pacify), 아이를 교육시키는 시뮬레이션된 객체 데이터를 직접 생성한다. 로봇은 시뮬레이션된 객체 데이터에 기반하여 현실에서 사람이나 사물을 시뮬레이션한다.

로봇은 시뮬레이션된 객체 데이터를 기반으로 컴패니언 객체를 시뮬레이션할 수 있으며, 예를 들어, 특히 아이의 어머니가 일시적으로 부재중일 때 아이의 어머니를 직접 시뮬레이션하여 아이와 상호작용할 수 있다. 다르게는, 아이가 특정 만화 인물(cartoon figure)에 특히 관심이 있는 경우, 로봇은 만화 인물에 대응하는 시뮬레이션된 객체 데이터를 생성하고, 만화 인물을 시뮬레이션하여 아이와 상호 작용할 수 있다. 다르게는, 로봇이 특정 작업(task)을 시뮬레이션하고, 아이와 상호 작용할 때 아이를 교육하며, 아이의 성장 또는 지식 학습을 도울 수 있다.

본 발명의 실시 예에 따른 컴패니언 로봇은 서버에 데이터 처리 파트를 더 배분할(apportion) 수 있다. 로봇은 타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 수집하여 센싱 정보 및 감정 정보를 서비스 서버에 송신한다. 서비스 서버는 정보 분석을 완료하여 시뮬레이션된 객체 데이터를 생성한다. 그런 다음, 시뮬레이션된 객체 데이터가 로봇에 송신된다. 시뮬레이션된 객체 데이터를 획득한 후, 로봇은 시뮬레이션된 객체 데이터를 기반으로 컴패니언 객체를 시뮬레이션하여 컴패니언 타깃과 상호 작용한다.

본 발명의 실시 예에서 로봇은 아이가 좋아하는 콘텐츠를 적응적으로 선택하여 아이와 상호 작용하며, 상호 작용 중 아이의 감정에 기반하여 적절한 컴패니언 객체를 선택하고 시뮬레이션할 수 있다.

다양한 적절한 구현에서, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것의 가능한 구현은, 행동 데이터를 스크리닝하여 행동 키(key) 특징을 추출하고, 키 특징을 사용하여 시뮬레이션된 객체 데이터를 생성하는 단계를 포함할 수 있으며, 행동 데이터가 바디 액션(body action)을 포함하고, 행동 키 특징은 바디 키 포인트(key point) 또는 바디 액션 유닛(unit)을 포함하며, 키 특징은 통계적 학습 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 표현을 포함하고, 행동 키 특징은 부분 얼굴 키 포인트 또는 얼굴 액션 유닛을 포함하며, 키 특징은 사전 사양(pre-specification) 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 톤(tone)을 포함하고, 행동 키 특징은 컴패니언 객체의 음성 입력에서의 음향 신호 특징을 포함하고, 키 특징은 사전 사양 또는 기계 학습을 통해 생성된다.

행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것의 가능한 구현은, 서비스, 보호자 또는 시스템이, 미리 시뮬레이션 제약 조건을 결정하고, 행동 데이터를 시뮬레이션 제약 조건과 매칭시키고, 시뮬레이션 제약 조건을 만족하는 행동 데이터를 사용하여 시뮬레이션된 객체 데이터를 생성하는 단계를 포함한다. 실제로, 아이가 관심 있거나 아이가 상호 작용하는 동안 상대적으로 행복하게 느끼게 하는 사물, 오디오/비디오 자료 등은 아이의 성장에 도움이 되지 않을 수 있으며, 따라서 아이가 데이터에 관심이 있어도 제거되어야 하는 일부 데이터가 제약 조건을 사용하여 스크리닝(screening)을 통해 제거된다. 다르게는, 아이가 행동 데이터에 극도로 관심을 두지 않을 수도 있지만, 그 데이터가 아이의 성장에 유익하거나 아이의 잘못된 인식을 바로 잡을 수 있으며, 따라서 아이의 관심도가 낮은 행동 데이터를 제약 조건을 사용하여, 시뮬레이션된 객체 데이터를 생성하기 위해 사용되는 소스 데이터에 넣을 수 있다. 보다 직접적인 방식으로, 행동 데이터가 데이터 단말에 송신되고, 데이터 단말의 선택 명령이 수신되며, 선택 명령에 기반하여 시뮬레이션된 객체 데이터가 생성된다. 데이터 단말은 스마트폰 또는 스마트폰 상의 애플리케이션일 수 있다. 부모 또는 보호자는 데이터 단말에 대한 작동을 직접 수행하고, 데이터 단말에 의해 송신된 선택 명령을 사용하여 시뮬레이션된 객체 데이터를 생성한다.

가능한 구현에서, 데이터 단말은 로봇과 통신할 수 있다. 데이터 단말은 로봇에 명령을 직접 송신하고, 아이와 상호 작용하도록 특정 객체 또는 방식을 시뮬레이션할 수 있다. 로봇이 명령을 수신하여 작업하는 모드가 입력된다. 이러한 방식으로, 데이터 단말 홀더(holder)(부모 또는 다른 보호자)는 보다 구체적인 요건에 기반하여, 로봇이 아이와 상호 작용을 하는 것을 가능하게 할 수 있다.

가능한 구현에서, 로봇은 시뮬레이션된 객체 데이터를 저장하고 시뮬레이션된 객체 데이터베이스를 생성할 수 있으며; 또는 시뮬레이션된 객체 데이터를 서비스 서버에 송신하고, 서비스 서버 상에 시뮬레이션된 객체 데이터베이스를 생성할 수 있다. 새로운 시뮬레이션된 데이터가 시뮬레이션된 객체 데이터베이스에 지속적으로 추가될 수 있다. 로봇이 특정 컴패니언 객체 물체를 시뮬레이션할 필요가 있을 때, 로봇은 시뮬레이션된 객체 데이터베이스로부터 적절한 또는 대응하는 시뮬레이션된 객체 데이터를 직접 선택하여 컴패니언 시뮬레이션을 수행할 수 있다.

로봇과 아이 사이의 상호 작용 동안, 현재의 시나리오 또는 요건에 기반하여 로봇은 사람 또는 사물을 시뮬레이션하기를 적응적으로 선택하거나, 오디오/비디오 자료를 능동적으로 재생하기를 적응적으로 선택할 수 있다. 즉, 로봇은 타깃 객체의 감정 정보를 다시 수집하거나, 아이의 현재 감정, 현재 환경 등을 지속적으로 수집하고, 현재의 상호 작용 시나리오를 결정하며, 현재의 상호 작용 시나리오에 기반하여 시뮬레이션된 객체 데이터베이스로부터 현재의 상호 작용에서 사용되는 시뮬레이션된 객체 데이터를 선택하고, 현재 상호 작용에서 사용된 시뮬레이션된 객체 데이터에 기반하여 대응하는 객체를 시뮬레이션하여 타깃 객체와 상호 작용할 수 있다.

본 발명의 실시 예는 서비스 서버를 더 제공한다. 서버는 전술한 솔루션에서 로봇과의 상호 작용에서의 각각의 방법 단계 또는 기능을 수행하기 위해, 처리 능력 및 처리 기능을 갖는 프로세서를 포함한다.

본 발명의 실시 예는 전술한 발명 콘텐츠에 기반한 컴패니언 로봇, 서버 및 인간-기계 상호 작용 방법을 제공한다. 로봇은 이미지로부터 컴패니언 타깃이 반응하는 주변 이벤트를 추출하고, 적절한 데이터를 스크리닝하며, 상호 작용을 위해 아이에게 적절한 데이터를 디스플레이하거나 재생하며, 감정적 지각(emotional perception)에 기반하여 콘텐츠를 스크리닝하여 타깃 객체와 상호 작용한다. 따라서, 보다 지능적인 컴패니언 객체 기능이 구현된다.

본 발명의 실시 예에서의 기술적 솔루션을 보다 명확하게 설명하기 위해, 실시 예 또는 종래 기술을 설명하기 위해 요구되는 첨부 도면을 간단히 설명한다. 명백하게, 다음의 설명에서 첨부 도면은 본 발명의 일부 실시 예를 도시하고, 당업자는 창조적인 노력 없이도 이들 도면으로부터 다른 도면을 유도할 수 있다.
도 1은 본 발명의 일 실시 예에 따른 사용 환경의 컴패니언 로봇 및 시스템 아키텍처의 개략도이다.
도 2는 본 발명의 일 실시 예에 따른 컴패니언 로봇의 제품 형상을 나타낸 개략도이다.
도 3은 본 발명의 일 실시 예에 따른 컴패니언 로봇의 구성 요소의 개략도이다.
도 4는 본 발명의 일 실시 예에 따른 인간-기계 상호 작용 방법의 흐름도이다.
도 5는 본 발명의 실시 예에 따른 서비스 서버의 개략적인 구조도이다.

본 발명의 실시 예들의 목적, 기술적 솔루션 및 장점들을 보다 명확하게 하기 위해, 본 발명의 실시 예들의 첨부된 도면들을 참조하여 본 발명의 실시 예의 기술적 솔루션을 더 상세하게 설명한다. 명백하게, 설명된 실시 예는 본 발명의 일부 실시 예에 불과하지만 전부는 아니다.

도 1은 본 발명의 사용 환경의 컴패니언 로봇 및 시스템 아키텍처를 도시한다. 도 1의 사용 환경은, 임의의 시나리오(예를 들어, 커뮤니티, 거리, 행정 구역(administrative district), 지방, 국가(country), 초국가적 시나리오(transnational scenario) 또는 글로벌 시나리오)에 적용할 수 있으며, 적어도 하나의 아이(303), 아이 상호 작용 로봇(child interaction robot)(302) 및 적어도 하나의 실내 무선 액세스 네트워크(304)를 포함하는 가족 또는 보육 기관(child-care institution)(301); 부모(306)(아버지 또는 어머니, 직계 가족(immediate family member), 다른 보호자 등) 및 부모의 휴대용 지능형 단말 (305); 지능형 단말(305)에 대한 원격 무선 네트워크 액세스 서비스를 제공하는 실외(outdoor) 무선 액세스 네트워크(307); 보육(child-care) 서비스에 대한 전문 데이터 서비스를 제공하고, 아이 성장(child-growth) 클라우드 서버, 아이 성장 모델 데이터베이스(308) 및 보육 지식 베이스(309)를 포함하는 보육 서비스 기관; 기상 예보, 의료기관 목록, 유행성 상황 정보(epidemic situation information), 응급 통지(emergency notice) 등을 포함하지만 이에 한정되지 않는, 보육 서비스에 대한 정부 공공 데이터 지원을 제공하는 사회 공공 서비스 기관(310) - 사회 공공 기관 서비스 기관(310)은 사회 공공 서비스 클라우드 서버(310) 및 사회 공공 서비스 클라우드 데이터베이스(311)를 포함함 -; 및 인스턴트 메시징, 보육 서비스 소셜 애플리케이션, 네트워크 오디오/비디오 서비스, 온라인 쇼핑, 지불 및 물류 추적 또는 커뮤니티 및 의료 기관(medical institution)에 대한 코멘트 및 투표와 같은 세련된 전문 네트워크 클라우드 데이터 서비스(refined professional network cloud data service)를 제공하고, 제3자 네트워크 클라우드 서비스 서버(314) 및 제3자 네트워크 서비스 클라우드 데이터베이스(315)를 포함하는 적어도 하나의 제3자 네트워크 클라우드 서비스 기관(312)의 유닛들을 포함한다. 사용 환경의 시스템 아키텍처는 네트워크 서비스를 제공하기 위해 네트워크 운영자에 의해 사용되는 인터넷(320)을 포함한다.

본 발명의 실시 예들에서 구현된 제품 형태는 도 2에서 400으로 도시되며, 그래픽 이미지 정보를 타깃 객체에 디스플레이하고 사용자로부터 터치 제어 신호를 수신하도록 구성된 터치 디스플레이 화면(401); 사운드 출력 신호를 타깃 객체에 제공하도록 구성된 스피커 모듈(407); 사운드, 표현, 또는 행동과 같은 타깃 객체의 특징을 검출하도록 구성된 마이크로폰 어레이 및 센서 모듈(402); 간단한 작동(operation) 명령을 타깃 객체에 제공하고 응급 상황(emergency case)에서 사용자의 인터럽트 명령에 응답하도록 구성된 시작/정지(pause)/비상 버튼(403); 및 마이크 어레이 및 센서 모듈(402)에 의해 입력된 사용자 상태 신호, 버튼(403)의 사용자 작동 명령, 네트워크로부터의 보호받는 아이의 보호자 요청 정보, 네트워크로부터의 보육 서비스 기관의 서비스 명령, 제3자 네트워크 클라우드 서비스 데이터 등에 기반하여 제어 명령을 계산하고 보육 로봇(child-care robot)에게 출력하도록 구성된 처리 및 작동 모듈(404)을 포함한다. 보육 로봇은 소리, 이미지, 바디 액션(body action) 및 움직임(movement) 등을 출력한다. 보육 로봇은 크롤러식/휠식 이동 기계 장치(crawler-type/wheel-type mobile mechanical apparatus)(405)와 기계식 암(arm)(406)을 더 포함한다.

본 발명에서, 실현 가능한 제품 형상은 로봇이다. 도 3은 메인 보드(510) 및 다른 주변 기능 구성 요소를 포함하는, 로봇의 핵심 구성 요소 "처리 및 작동 모듈"(404)의 실현 가능한 구현 예를 도시한다. 센서 모듈(501)과 버튼(502)이 모두 메인 보드(510)의 I/O 모듈에 연결된다. 마이크로폰 어레이(503)가 메인 보드(510)의 오디오/비디오 인코딩/디코딩 모듈에 연결된다. 메인 보드(510) 터치 디스플레이 컨트롤러는 터치 디스플레이 스크린(504)의 터치 입력을 수신하고, 디스플레이 구동 신호를 제공한다. 모터 서보(servo) 컨트롤러는 프로그램 명령에 기반하여 모터 및 인코더(507)를 구동하고, 크롤러식/휠식 이동 기계 장치(405) 및 기계식 암(406)을 구동하여 로봇의 움직임 및 바디 언어를 형성한다. 오디오/비디오 인코딩/디코딩 모듈의 출력이 전력 증폭기(power amplifier)를 사용하여 스피커(508)에 푸시된 후에 사운드가 획득된다. 하드웨어 시스템은 메인 보드(510) 상에 프로세서 및 메모리를 더 포함한다. 로봇의 알고리즘, 실행 프로그램 및 구성 파일 이외에, 메모리는 또한 로봇이 보살핌(caring)을 수행할 때 필요한 오디오, 비디오 및 이미지 파일 등을 기록하고, 프로그램 실행 중에 생성된 일부 임시 파일을 더 포함한다. 메인 보드(510)의 통신 모듈은 로봇과 외부 네트워크 간의 통신 기능을 제공하며, 블루투스 모듈 또는 WiFi 모듈과 같은 단거리 통신 모듈일 수 있다. 메인 보드(510)는 연결된 전원 시스템(power system)(505)을 사용하여 배터리 충전 및 방전 그리고 디바이스의 에너지 절약 관리를 구현하도록 구성된 전원 관리(power management) 모듈을 더 포함한다. 프로세서는 가장 핵심적인 구성 요소이며, 작동 및 처리 능력을 가지며, 다른 구성 요소와의 협력을 관리하고 제어한다.

로봇의 센서 모듈(501)은 타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집한다. 센싱 정보는 뷰(view) 정보 및 음성 정보 중 적어도 하나를 포함하고, 감정 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함한다. 오디오, 비디오 또는 이미지는 카메라에 의해 캡처될 수 있으며, 검출 및 수집은 다르게는 다른 센서에 의해 완료되거나 다른 센서와의 협력을 통해 완료될 수 있다. 프로세서는 감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용되는 감정 패턴을 결정하고, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하며, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하고, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하며, 시뮬레이션된 객체 데이터에 기반하여 액션 명령을 생성한다. 행동 실행 모듈은 프로세서의 액션 명령을 수신하고 타깃 객체와 상호 작용하도록 구성된다. 행동 실행 모듈은 크롤러식/휠식 이동 기계 장치(405), 기계식 암(406), 터치 디스플레이 스크린(401) 및 마이크로폰과 같이 외부와 상호 작용할 수 있은 구성 요소를 포함할 수 있다.

또한, 다른 구현에서, 로봇의 프로세서는 단순한 처리 기능만을 가지며, 시뮬레이션된 객체 데이터는 서비스 서버에 의해 처리된다. 통신 모듈은 로봇 상에 추가로 배치되고, 안테나 및 서비스 서버를 사용하여 지능형 단말 등과 통신한다. 통신 모듈은 타깃 객체의 컴패니언 객체의 센싱 정보와 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 서비스 서버로 송신하고, 서비스 서버에 의해 송신된 시뮬레이션된 객체 데이터를 수신한다. 그 다음에, 프로세서는 시뮬레이션된 객체 데이터를 획득하고, 시뮬레이션된 객체 데이터에 기반하여 액션 명령을 생성한다.

메모리가 로봇 상에 추가로 배치되고, 메모리는 시뮬레이션된 객체 데이터를 기록하기 위한 시뮬레이션된 객체 데이터베이스를 저장한다.

도 4를 참조하면, 도 4는 본 발명의 일 실시 예에 따른 로봇과 타깃 객체 간의 상호 작용 방법의 흐름도이다. 설명은 예제를 사용하여 제공된다. 예를 들어, 타깃 객체는 아이이다.

S101. 타깃 객체의 컴패니언 객체의 센싱 정보와 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집한다.

센싱 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함하고, 감정 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함한다. 카메라는 기계를 사용하여 시작되어 아이의 일상 생활을 모니터하고, 아이의 표현, 심장 박동, 눈 표현 등을 모니터하며, 아이의 감정을 결정하고, 감정에 대응하는 순간에 이미지를 추가로 캡처하여 아이의 감정 정보를 획득한다.

로봇은 아이 행동(표현, 액션 등)에 기반하여 현재 순간에 이미지 또는 비디오를 캡처할 수 있다. 캡처된 이미지는 하나의 이미지일 수 있거나, 여러 이미지, 일정 기간의 비디오 등일 수 있다. 이미지 콘텐츠는 아이 행동, 주변 환경, 아이가 관심 있는 이벤트 등을 포함할 수 있다. 캡처된 이미지는 로봇 상에 로컬로 저장되거나 클라우드 서버에 업로드될 수 있다.

S102. 감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용되는 감정 패턴을 결정하고, 감정 패턴에 기반하여 타깃 객체의 관심도를 결정하며, 타깃 객체의 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하고, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득한다.

시뮬레이션된 객체 데이터는 컴패니언 객체를 시뮬레이션하기 위해 로봇에 의해 사용되며, 시뮬레이션된 객체 데이터는 컴패니언 객체를 기술하는 데 사용된다. 시뮬레이션된 객체 데이터는 디지털 인간 데이터 또는 디지털 인적 자원인 것으로 고려될 수 있다. 시뮬레이션된 객체 데이터가 획득되는 경우, 데이터로부터 디지털 인간 이미지가 획득될 수 있다.

또한, 구현에서, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것은, 행동 데이터를 스크리닝하여 행동 키 특징을 추출하고, 키 특징을 사용하여 시뮬레이션된 객체 데이터를 생성하는 것일 수 있다. 행동 데이터가 바디 액션을 포함하고, 행동 키 특징은 바디 키 포인트 또는 바디 액션 유닛을 포함하고, 키 특징은 통계적 학습 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 표현을 포함하고, 행동 키 특징은 부분 얼굴 키 포인트 또는 얼굴 액션 유닛을 포함하고, 키 특징은 사전 사양(pre-specification) 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 톤을 포함하고, 행동 키 특징은 컴패니언 객체의 음성 입력에서의 음향 신호 특징을 포함하고, 키 특징은 사전 사양 또는 기계 학습을 통해 생성된다.

예를 들어, 센싱 정보(예를 들어, 비디오 또는 이미지)에서 시각적 특징을 추출하는 방법은 다음과 같다. 먼저, 얼굴의 83개의 키 특징 포인트가 제약을 가지는 베이즈식 형상 모델 방법(Bayesian shape model method)을 사용하여 추적되며, 그 다음에 최소 에너지 함수법(minimum energy function method)을 사용하여 머리의 3차원적인 강체 운동(rigid motion)과 3차원적인 유연한 얼굴 변형(facial deformation)이 추정된다. 형성된 3차원 그리드 이미지의 경우, 7개의 AUV(action unit vector)인, AUV6-눈 감음, AUV3- 눈썹 처짐(eyebrow drooping), AUV5- 외부 눈썹 올리기, AUV0- 상부 입술 올리기, AUV2- 입술 스트레칭 및 AUV14-입술 각도 처짐(labial angle drooping)가 사용된다. 각각의 AUV는 하나의 유닛의 모든 그리드 정점의 좌표 변위를 포함하는 컬럼 벡터이다. Candide-3 얼굴 모델을 사용하여 피팅(fitting)을 통해 비디오 시퀀스가 입력되는 동안, 이러한 AUV의 애니메이션 파라미터가 획득될 수도 있다. 따라서 비디오에서 각각의 이미지에 대해, 7차원 얼굴 애니메이션 파라미터가 시각적인 감정적 특징으로서 최종적으로 획득된다.

감정적 특징 차원 축소(Emotional feature dimension reduction)는 주성분 분석(principal component analysis, PCA) 및 선형 판별 분석(linear discriminant analysis, LDA)과 같은 선형 차원 축소 방법과 Isomap 및 로컬 선형 임베딩(local linear embedding, LLE)과 같은 비선형 매니폴드(manifold) 차원 축소 방법을 포함함으로써, 저차원 공간에서의 특징이 고차원 공간에서의 특징의 기하학적 관계를 보다 잘 유지한다.

연속 감정 묘사 공간(continuous emotion description space)의 이론적인 방법은 연속 감정 묘사에서 상이한 감정이 점진적으로 부드럽게 변하고, 감정적인 상태는 특정 수량의 차원을 가지는 공간 좌표 포인트와 일대일로 대응하는 것으로 간주된다. 상대적으로 공통 연속 감정 묘사 모델은 감정 휠(Emotion Wheel) 이론과 3차원 흥분-쾌감-제어도 묘사(three-dimensional arousal-pleasure-control degree description)를 포함한다. 감정 휠 이론은 감정이 원형 구조로 분포되어 있다고 간주한다. 구조 중심(structure center)은 자연적 기원, 즉 다양한 감정적인 요인이 있는 상태이다. 그러나 이 포인트에서 극도로 약한 세기로 인해 이러한 감정적 요인(factor)이 반영될 수 없다. 자연적 기원(natural origin)은 상이한 감정을 드러내기(manifest) 위해 상이한 방향으로 확장되며, 동일한 유형의 감정의 레벨이 추가로 감정적인 세기 변화로서 분류된다. 또한, 동일한 유형의 감정에서의 세기 변화(strength change)가 설명을 위해 3차원으로 사용되고, 감정 휠 개념이 3차원 공간으로 확장된다. 2차원(3차원) 감정 공간과 감정 휠의 묘사에 기반하여, 비디오에서 감정과 관련된 특징이 공간과 매칭됨으로써, 감정이 효과적으로 설명되거나 분류될 수 있다.

추출된 특징은 아이의 대응하는 감정적 특징을 식별하기 위해 Cohn-Kanade 비디오 감정 데이터베이스와 같은 시각적 감정 특징 데이터베이스와 매칭된다.

사물이 로봇에 의해 캡처된 이미지 또는 비디오로부터 추출되고, 아이가 관심 있는 객체가 감정적 특징을 사용하여 식별되어 시뮬레이션된 객체 데이터를 생성한다. 로봇은 시뮬레이션된 객체 데이터를 기반으로 객체에 대한 데이터를 시뮬레이션하고 그 다음에 아이와 상호 작용한다.

사물이 기존의 이미지/음성 인식 알고리즘을 사용하여 추출될 수 있다. 작동은 로봇에 의해 국부적으로 수행될 수 있거나, 이미지 또는 비디오가 서버에 업로드될 수 있으며 서버가 작동을 수행할 수 있다. 아이가 보고 있는 콘텐츠, 아이와 상호 작용하는 사람 등이 추출될 수 있다.

아이가 관심 있고 아이와 상호작용하는 사람의 표현, 음성, 액션 등이 추출된다. 로봇은 학습을 통해 적절한 데이터를 획득하여 아이와 상호 작용한다. 아이가 관심 있는 사람(컴패니언 객체 B)에 대하여, 로봇은 컴패니언 객체 B의 대화 콘텐츠, 바디 액션, 표현, 톤을 획득한다. 로봇은 컴패니언 객체 B의 바디 액션, 표현, 그리고 톤에 대해 수행되는 기계 학습 및 트레이닝을 통해, 아이와 상호 작용하기 위해 사용되는 모델을 생성한다.

표현 상호 작용이 예로서 사용되며, 구체적으로는, 아이 A가 관심을 보일 대 제1 객체의 표현을 수집하는 것; 아이가 관심이 있거나 관심이 없는 표현의 각각의 얼굴 액션을 추출하는 것; SVM, RF 또는 심층 학습과 같은 분류 알고리즘을 사용하여 얼굴 액션을 아이가 관심 있는 얼굴 액션 또는 아이가 관심이 없는 얼굴 액션으로 분류하는 것; 로봇의 표현 합성을 위해, 아이가 관심 있는 얼굴 액션을 선택하는 것; 및 로봇이 학습된 표현을 사용하여 아이와 상호 작용하는 것을 포함한다.

구체적으로, 얼굴 표현 데이터(facial expression data)가 추출되고 학습될 수 있다. 예를 들어 내부 눈썹 올리기, 외부 눈썹 올리기, 눈썹 처짐, 상부 눈꺼풀 올리기(upper eyelid raising), 뺨 올리기(cheek raising), 눈꺼풀 수축(eyelid contraction), 눈꺼풀 조이기(eyelid tightening), 코 올리기, 상부 입술 올리기, 구각 모으기(angulus oris pulling), 구각 수축, 하부 구각 올리기(lower angulus oris raising), 입 모으기(mouth pulling), 입 열기(mouth opening), 및 턱 처짐(chin drooping)을 포함하는 14가지 얼굴 액션 그룹이 있다.

음성 상호 작용이 일례로서 사용되며, 구체적으로, 아이 A가 관심을 보일 때 제1 물체의 음성 신호를 수집하는 것; 아이 A가 관심 있는 음성 신호의 각각의 음향 신호를 추출하는 것; 아이 A가 관심 있는 표현의 경우에 음향 신호의 특징에 관한 통계치를 수집하는 것; 아이 A가 관심 있는 음향 신호의 특징을 사용하여 로봇 음성을 합성하는 것; 및 로봇이 학습한 음성을 사용하여 아이와 상호 작용하는 것을 포함한다.

구체적으로는, 기본 주파수(fundamental frequency), 말하기 속도(speaking speed), 유성음에 대한 무성음의 비율과 같은 정보를 포함하는 음향 데이터가 추출되고 학습될 수 있다. 예를 들어, 기본 주파수 신호가 모든 음성 프레임의 기본 주파수의 합을 계산한 다음 그 합을 음성 프레임의 수량으로 나누는 것에 의해 획득된다. 상이한 감정적인 상태에서, 3가지 통계적 파라미터인 기본 주파수의 평균, 범위 및 분산은 매우 유사한 분포 경향을 가진다. 놀람(Surprise)은 가장 큰 기본 주파수 평균을 가지고, 기쁨(delight)과 분노(anger)가 뒤따르며, 슬픔(sadness)은 가장 낮은 기본 주파수 평균을 가진다. 유성음과 무성음의 비율은 유성음 구간과 무성음 구간의 시간 비(time ratio)이다. 기쁨, 분노 및 놀람은 평온보다 유성음과 유성음의 비율이 약간 높으며, 평온(calmness)은 두려움과 슬픔보다 무성음과 유성음의 비율이 약간 높다. 말하기 속도는 문장(sentence)에 대응하는 단어의 수량과 음성 신호 지속 기간(duration)의 비율로 표현된다. 분노와 놀람의 경우 말하기 속도가 가장 높고, 기쁨과 평온이 뒤따르며, 두려움과 슬픔의 경우 말하기 속도가 가장 낮다. 따라서, 전술한 음향 신호를 사용하여 상이한 감정들이 식별될 수 있다.

바디 액션 상호 작용이 예로서 사용되며 구체적으로, 아이 A가 관심을 보이거나 관심을 보이지 않을 때 제1 객체의 바디 액션을 수집하는 것; 아이가 관심 있거나 관심이 없는 표현의 경우 각각의 바디 액션 유닛(body action unit)을 추출하는 것; SVM, RF 또는 심층 학습과 같은 분류 알고리즘을 사용하여 바디 액션 유닛을 아이가 관심 있은 바디 액션 유닛 및 아이가 관심이 없는 바디 액션 유닛으로 분류하는 것; 로봇의 바디 액션 합성을 위해 아이가 관심 있는 바디 액션 유닛을 선택하는 것; 학습된 바디 액션을 사용하여 로봇과 아이가 상호 작용하는 것을 포함한다.

구체적으로, 바디 액션 데이터가 추출되고 학습될 수 있다. 예를 들어, 앞으로 몸을 기울이기(body leaning forward), 머리를 스윙하기, 끄덕이기, 머리를 흔들기, 손 올리기, 손 치기(hand clapping), 잡기(grabbing), 걷기, 쪼그리고 앉기(squatting) 등을 포함한 20개의 액션 유닛 그룹이 있다. 머리(4), 흉 복부 부분(thoracoabdominal part)(7), 팔(양쪽에 6개, 총 12개), 다리(양쪽에 6개, 총 12개) 등 35가지 키 포인트(key point)가 있다.

아이가 관심 있는 영화(film)의 픽처/비디오가 촬영된다. 로봇은 학습을 통해 적절한 데이터를 획득하여 아이와 상호 작용한다. 또한, 일상 생활에서 로봇은 아이의 행동 정보를 검출하고 수집하며, 여기서 사용된 방식은 아이의 감정 정보를 수집하는 전술한 방식과 동일할 수 있다. 구체적으로, 동일한 검출 및 수집 프로세스가 사용되거나 동일한 수집 소스가 있다. 아이의 감정을 결정하고, 아이의 컴패니언 객체에 대해 학습하는 것 이외에, 로봇은 추가로, 수집된 정보를 분석하여 아이의 현재 상태를 결정하고, 현재의 상호 작용 시나리오, 예를 들어, 아이가 현재 혼자 놀고 있거나 현재 부모가 동반하고 있는지를 결정한다. 로봇은 현재의 상호 작용 시나리오에 기반한 시뮬레이션된 객체 데이터베이스로부터 현재의 상호 작용에서 사용된 시뮬레이션된 객체 데이터를 선택하고, 현재의 상호 작용에서 사용된 시뮬레이션된 객체 데이터에 기반하여 대응하는 객체를 시뮬레이션하여 아이와 상호 작용할 수 있다. 예를 들어, 현재 아이가 자신의 엄마를 그리워하고 있지만 엄마가 없다고 아이가 말하면, 로봇은 이전의 엄마에 대한 학습을 통해 생성되고 엄마에 대응하는 시뮬레이션된 객체 데이터를 기반으로 엄마를 시뮬레이션하여 아이와 상호 작용할 수 있다. 다르게는, 아이가 부모와 상호 작용하는 과정에서, 아이가 특정 지식 또는 특정 현상에 대한 관심을 보여줄 때, 로봇은 관련된 시뮬레이션된 객체 데이터를 선택하여 대응하는 컴패니언 객체를 시뮬레이션하여 아이와 상호작용할 수 있다.

서버 또는 로봇은, 수신된 영화의 픽처/비디오에 기반한 분석을 통해, 아이가 본 영화의 제목을 획득하고, 아이의 액션 픽처/비디오/음성에 기반한 분석을 통해, 아이가 영화의 인물(figure)을 좋아하는지를 획득함으로써, 서버나 로봇이 아이가 보고 있는 영화의 제목, 아이의 아이돌(idole)의 이름, 그리고 심지어는 아이의 아이돌의 프래그먼트(fragment)를 획득한다. 예를 들어, 로봇은 분석을 통해 아이가 "겨울 왕국(Frozen)"을 보는 것을 발견하고 공주 엘사를 좋아하는 것을 획득한다. 서버는 영화 제목 및 아이돌 이름 정보를 기반으로 인터넷상에 아이돌 정보를 질의하여 아이돌 정보를 기반으로 아이돌을 모델링함으로써, 로봇이 아이가 관심 있는 아이돌을 시뮬레이션할 수 있다.

로봇에 의해 시뮬레이션된 객체의 데이터 처리 : 아이가 관심 있는 객체가 로봇의 로컬 데이터베이스에 저장될 수 있다. 아이가 관심이 없는 객체의 경우, 아이의 나이에 어울리는 긍정적인 사물이 선택되고 시청을 위해 아이에게 재생되거나 시뮬레이션된다.

아이의 상이한 표현에서 캡처된 이미지는 상이한 방식으로 운영된다. 아이가 기쁨, 놀람 등의 표현을 보여 주는 경우, 이는 아이가 현재의 사물에 관심이 있다는 것을 지시하지만, 현재의 사물이 반드시 아이에게 적합하지는 않다. 이 경우, 아이와의 상호 작용을 위해 적절한 데이터가 선택되어야 한다. 아이가 분노, 혐오감 등의 표현을 보여줄 때, 이는 아이가 현재의 사물을 좋아하지 않는다는 것을 지시하지만, 현재의 사물이 아이의 성장에 도움이 될 수 있다. 이 경우, 로봇은 사물의 데이터를 사용하여 아이의 성장을 인도하기 위해 아이와 상호 작용해야 한다. 예를 들어, 아이에게 관심이 있은 사물의 경우, 그 사물이 기록적으로(historically) 관심이 있는 지의 여부가 결정된다. 사물이 기록적으로 관심이 있다면, 로봇은 로컬 데이터베이스에서 관련 데이터를 직접 검색하고 아이의 나이와 매칭되는 데이터를 선택한 다음 아이와 상호 작용할 수 있다.

예를 들어, 이미지에서 아이가 "어린 왕자(The Little Prince)"를 읽는 것이 검출된 경우, 로봇은 로컬 데이터베이스에서 "어린 왕자"와 관련된 데이터를 검색한다. 로봇이 콘텐츠를 찾을 수 있다면, 이는 "어린 왕자"가 기록적으로 관심이 있는 것을 지시하며, 로봇은 로컬 데이터베이스에서 데이터("어린 왕자"의 삽화, 애니메이션 비디오, 이야기의 목소리(story voices) 등)를 직접 재생하거나 시뮬레이션할 수 있다.

사물이 처음으로 나타나면(로컬 데이터베이스에 관련 정보가 없음), 로봇은 사물에 의해 아이에게 가해진 영향(impact)을 결정하고 긍정적인 정보를 선택해야 한다. 구체적인 방법은, 네트워크 서버를 사용하여 검색을 통해 사물의 자료 또는 소개(introdution)를 획득하고 사물의 특징을 결정하는 것이다. 예를 들어, 이미지에서 아이가 애니메이션 영화 "코난(Conan)"을 보고 있는 것으로 검출되고, 로봇이 네트워크 서버를 사용하여 영화가 6세 이하의 아이에게 적합하지 않은 일부 폭력적인 콘텐츠를 가지고 있음을 발견한 경우, 로봇은 그 콘텐츠를 무시한다. 이미지에서 아이가 애니메이션 영화 "즐거운 염소와 큰 빅 울프(Pleasant Goat and Big Big Wolf)"를 보고 있는 것으로 검출되고 로봇이 네트워크 서버를 사용하여 이 영화가 5세 이하의 아이에게 적합하다는 것을 발견하는 경우, 로봇은 "즐거운 염소와 큰 빅 울프"와 관련된 데이터를 다운로드하여 언제든지 아이와 상호 작용할 수 있다.

로봇은 사물이 아이와 상호 작용하는 데 사용될 수 있는 지의 여부를 부모와 직접 확인한다. 부모로부터 승인을 획득한 후 로봇은 네트워크 서버에서 관련 데이터를 직접 다운로드하여 자녀와 상호 작용할 수 있다.

아이가 싫어하는 사물의 대해서, 사물이 아이의 성장에 유익한지의 여부가 결정된다. 결정 방식은 부모와 확인하거나 네트워크 서버를 사용하여 확인하는 것이다. 구체적인 방식은 전술한 단계와 유사하다. 사물이 아이의 성장에 유익한 것으로 결정되는 경우, 로봇은 점차적으로 아이와 상호 작용할 수 있다.

로봇은 사물(표현/오디오/액션 등)을 직접 재생하거나 시뮬레이션할 수 있으며 카메라를 사용하여 아이의 반응을 동시에 검출할 수 있다.

아이가 좋아하는 데이터(기쁨 표현 등)에 대해서 로봇은 관련 데이터를 로컬 데이터베이스에 저장한다. 아이가 싫어하는 데이터(혐오감 표현 등)에 대해서, 데이터가 로컬 데이터베이스에 저장되어 있으면 로봇이 로컬 데이터베이스에서 직접 데이터를 삭제하거나 부모와 확인한 후 데이터의 삭제 여부를 결정할 수 있으며, 데이터가 로컬 데이터베이스에 저장되어 있지 않으면 로봇이 직접 데이터를 저장하지 않거나, 부모와의 확인 후 데이터 저장 여부를 결정할 수 있다.

본 발명의 실시 예는 제3자 클라우드 서버, 아이 성장(child growth) 서버 또는 사회 공공 클라우드 서버일 수 있는 서비스 서버를 더 제공한다. 서버는 처리 및 계산 능력들 및 기능들을 가지는 프로세서를 포함하여 전술한 솔루션에서의 로봇과의 상호 작용을 위한 각각의 방법 단계 또는 기능을 수행한다. 도 5를 참조하면, 서버(70)는 프로세서(705), 다른 디바이스와 통신하는 신호 트랜시버(702) 및 데이터, 프로그램 등을 저장하는 메모리(706)를 포함한다. 서버(70)는 디스플레이(704) 및 입력/출력 디바이스(도시되지 않음)와 같은 다양한 적절한 구성 요소를 더 포함할 수 있다. 다양한 구성 요소는 버스(707)를 사용하여 연결되며, 프로세서에 의해 제어되고 관리된다.

서버는 로봇과 협력하고 로봇에 대한 시뮬레이션된 객체 데이터를 정렬하며 시뮬레이션된 객체 데이터베이스를 저장한다. 신호 트랜시버(702)는 타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 수신한다. 센싱 정보 및 감정 정보는 로봇에 의해 송신된다. 전술한 바와 같이, 센싱 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함한다. 신호 트랜시버(702)는 프로세서에 의해 생성된 시뮬레이션된 객체 데이터를 로봇에 송신한다. 프로세서(705)는 감정 정보로부터 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용되는 감정 패턴을 결정하고, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 추출하며고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하고, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득한다. 상술한 바와 같이, 시뮬레이션된 객체 데이터는 컴패니언 객체를 시뮬레이션하기 위해 로봇에 의해 사용되고, 가상의 시뮬레이션된 객체는 컴패니언 객체를 기술하는 데 사용된다. 서버상의 메모리는 시뮬레이션된 객체 데이터를 기록하기 위한 시뮬레이션된 객체 데이터베이스를 저장하도록 구성된다.

임의의 적절한 구현과 결합된 가능한 구현에서, 부모는 데이터 단말을 가지며, 데이터 단말 상에서 시뮬레이션 제약 조건을 직접 생성할 수 있다. 데이터를 획득한 후, 로봇 또는 서버는 시뮬레이션 제약 조건과 데이터를 매칭시키고, 시뮬레이션 제약 조건을 만족하는 행동 데이터를 사용하여 시뮬레이션된 객체 데이터를 생성한다. 다르게는, 부모는 데이터 단말 또는 서버를 사용하여 로봇의 행동을 직접 명령한다. 데이터 단말은 로봇과 매칭되는 원격 제어 디바이스일 수도 있고, 또는 연관된 애플리케이션이 설치된 지능형 단말일 수도 있다. 데이터 단말에 의해 송신된 선택 명령은 로봇의 트랜시버 또는 서버의 신호 트랜시버를 사용하여 수신될 수 있다.

기능들이 소프트웨어 기능 유닛의 형태로 구현되고 독립적인 제품으로서 판매되거나 사용되는 경우, 기능들은 컴퓨터 판독 가능 저장 매체에 저장될 수 있다. 이러한 이해에 기반하여, 본질적으로 본 발명의 기술적 솔루션 또는 종래 기술에 기여하는 부분 또는 기술적 솔루션의 일부는 소프트웨어 제품의 형태로 구현될 수 있다. 소프트웨어 제품은 저장 매체에 저장되며, 본 발명의 실시 예에서 설명된 방법의 단계의 전부 또는 일부를 수행하도록 컴퓨터 디바이스(개인용 컴퓨터, 서버 또는 네트워크 디바이스일 수 있음)에게 명령하기 위한 몇 가지 명령을 포함한다. 전술한 저장 매체는 USB 플래시 드라이브, 탈착식 하드 디스크, 판독 전용 메모리(ROM, Read-Only Memory), 랜덤 액세스 메모리(RAM, Random Access Memory), 자기 디스크 또는 광 디스크 등과 같은 프로그램 코드를 저장할 수 있은 임의의 매체를 포함한다.

Claims

인간-기계 상호 작용 방법(human-machine interaction method )으로서,
타깃 객체의 컴패니언 객체의 센싱(sensing) 정보 및 타깃 객체가 컴패니언 객체(companion object)와 상호 작용할 때 획득되는 타깃 객체의 감정(emotion) 정보를 검출하고 수집하는 단계 - 센싱 정보는 뷰(view) 정보 및 음성(voice) 정보 중 적어도 하나를 포함하고, 감정 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함함 -; 및
감정 정보에 기반하여 감정 특징량(feature quantity)을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도(degree of interest)를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동(behavior) 데이터를 추출하며, 행동 데이터를 스크리닝(screen)하여 시뮬레이션된 객체 데이터를 획득하는 단계 - 시뮬레이션된 객체 데이터는 컴패니언 객체를 시뮬레이션하기 위해 로봇에 의해 사용되며, 시뮬레이션된 객체 데이터는 컴패니언 객체를 기술하는(describe) 데 사용됨 -
를 포함하는 인간-기계 상호 작용 방법.
제1항에 있어서,
상기 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것은,
행동 데이터를 스크리닝하여 행동 키 특징(behavioral key feature)을 추출하고, 키 특징을 사용하여 시뮬레이션된 객체 데이터를 생성하는 단계
를 포함하고,
상기 행동 데이터가 바디 액션(body action)을 포함하고, 행동 키 특징은 바디 키 포인트(key point) 또는 바디 액션 유닛(unit)을 포함하며, 키 특징은 통계적 학습 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 표현(expression)을 포함하고, 행동 키 특징은 부분 얼굴 키 포인트 또는 얼굴 액션 유닛을 포함하며, 키 특징은 사전 사양(pre-specification) 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 톤(tone)을 포함하고, 행동 키 특징은 컴패니언 객체의 음성 입력에서의 음향 신호 특징을 포함하고, 키 특징은 사전 사양 또는 기계 학습을 통해 생성되는, 인간-기계 상호 작용 방법.
제1항에 있어서,
상기 인간-기계 상호 작용 방법은,
센싱 정보 및 감정 정보를 서비스 서버로 송신하는 단계
를 더 포함하고,
상기 감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하며, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 단계는,
서비스 서버로부터 시뮬레이션된 객체 데이터를 획득하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하며, 행동 데이터를 스크리닝하는 단계 - 시뮬레이션된 객체 데이터는 서버가 감정 정보에 기반하여 감정 특징량을 추출한 후에 획득됨 -
를 포함하는, 인간-기계 상호 작용 방법.
제1항 또는 제2항 또는 제3항에 있어서,
상기 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것은,
행동 데이터를 시뮬레이션 제약 조건과 매칭시키고, 시뮬레이션 제약 조건을 만족하는 행동 데이터를 사용하여 시뮬레이션 데이터를 생성하는 단계
를 포함하는, 인간-기계 상호 작용 방법.
제1항 또는 제2항 또는 제3항에 있어서,
상기 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하는 것은,
행동 데이터를 데이터 단말로 송신하고, 데이터 단말로부터 선택 명령을 수신하며, 선택 명령에 기반하여 시뮬레이션된 객체 데이터를 생성하는 단계
를 포함하는, 인간-기계 상호 작용 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 인간-기계 상호 작용 방법은,
로봇이 시뮬레이션된 객체 데이터를 저장하고, 시뮬레이션된 객체 데이터베이스를 생성하는 단계
를 더 포함하는 인간-기계 상호 작용 방법.
제1항 내지 제5항 중 어느 한 항에 있어서,
상기 인간-기계 상호 작용 방법은,
환경 정보를 검출하고 수집하거나 타깃 객체의 감정 정보를 다시 수집하고, 현재의 상호 작용 시나리오를 결정하는 단계;
현재의 상호 작용 시나리오에 기반한 시뮬레이션된 객체 데이터베이스로부터, 현재의 상호 작용에서 사용되는 시뮬레이션된 객체 데이터를 선택하는 단계; 및
현재의 상호 작용에서 사용되는 시뮬레이션된 객체 데이터에 기반하여 대응하는 컴패니언 객체를 시뮬레이션하여 타깃 객체와 상호 작용하는 단계
를 더 포함하는 인간-기계 상호 작용 방법.
제1항에 있어서,
상기 컴패니언 객체는 시청각(audiovisual) 데이터를 더 포함하고, 상기 센싱 정보는 시청각 데이터의 뷰(view)이고,
상기 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하는 것은,
감정 패턴에 기반하여, 시청각 데이터에서 영화(film) 및 텔레비전 역할(role) 또는 영화 및 텔레비전 사운드에 대한 관심도를 결정하는 것
을 포함하는, 인간-기계 상호 작용 방법.
제8항에 있어서,
상기 시뮬레이션된 객체 데이터는 시청각 데이터와 관련된 데이터를 더 포함하고, 타깃 객체에 대한 관련 데이터를 재생하기 위해 사용되는, 인간-기계 상호 작용 방법.
제1항 내지 제9항 중 어느 한 항에 있어서,
타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집하는 것은,
타깃 객체의 얼굴 이미지 또는 비디오를 검출하고 수집하는 단계
를 포함하고,
상기 감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하는 것은,
얼굴 이미지 또는 비디오로부터 시각적 특징을 추출하고, 얼굴 애니메이션(facial animation) 파라미터를 시각적 감정 특징으로서 획득하며, 추출된 시각적 특징을 시각적 감정 특징 데이터베이스와 매칭시켜 타깃 객체의 감정 특징을 식별하고 감정 패턴을 결정하는 단계
를 포함하는, 인간-기계 상호 작용 방법.
컴패니언 로봇으로서,
상기 컴패니언 로봇은,
타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집하도록 - 센싱 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함하고, 감정 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함함 - 구성된 센서 모듈;
감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하며, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하고, 시뮬레이션 객체 데이터에 기반하여 액션 명령을 생성하도록 구성된 프로세서; 및
상기 프로세서의 액션 명령을 수신하고 타깃 객체와 상호 작용하도록 구성된 행동 실행 모듈
을 포함하는 컴패니언 로봇.
제11항에 있어서,
상기 프로세서는 구체적으로,
행동 데이터를 스크리닝하여 행동 키 특징을 추출하고, 키 특징을 사용하여 시뮬레이션된 객체 데이터를 생성하도록 - 행동 데이터가 바디 액션을 포함하고, 행동 키 특징은 바디 키 포인트 또는 바디 액션 유닛을 포함하며, 키 특징은 통계적 학습 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 표현을 포함하고, 행동 키 특징은 부분 얼굴 키 포인트 또는 얼굴 액션 유닛을 포함하며, 키 특징은 사전 사양 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 톤을 포함하고, 행동 키 특징은 컴패니언 객체의 음성 입력에서의 음향 신호 특징을 포함하고, 키 특징은 사전 사양 또는 기계 학습을 통해 생성됨 - 구성되는, 컴패니언 로봇.
제11항 또는 제12항에 있어서,
상기 컴패니언 로봇은,
시뮬레이션된 객체 데이터를 기록하기 위한 시뮬레이션된 객체 데이터베이스를 저장하도록 구성된 메모리
를 더 포함하고,
상기 프로세서는 추가로,
현재의 상호 작용 시나리오에 기반하여 시뮬레이션된 객체 데이터베이스로부터 현재의 상호 작용에서 사용되는 시뮬레이션된 객체 데이터를 선택하고, 시뮬레이션된 객체 데이터에 기반하여 행동 실행 모듈을 제어하도록 구성되는, 컴패니언 로봇.
제11항 내지 제13항 중 어느 한 항에 있어서,
상기 컴패니언 로봇은,
타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 서비스 서버로 송신하고, 서비스 서버에 의해 송신된 시뮬레이션된 객체 데이터를 수신하도록 구성된 통신 모듈
을 더 포함하는 컴패니언 로봇.
제10항에 있어서,
상기 프로세서는 구체적으로,
행동 데이터를 시뮬레이션 제약 조건과 매칭시키는 것에 의해 행동 데이터를 스크리닝하고, 시뮬레이션 제약 조건을 만족하는 행동 데이터를 사용하여 시뮬레이션 데이터를 생성하도록 구성되는, 컴패니언 로봇.
제11항 또는 제12항에 있어서,
상기 통신 모듈은 추가로, 데이터 단말에 의해 송신된 선택 명령을 수신하도록 구성되고,
상기 프로세서는 추가로, 선택 명령을 획득하고 선택 명령에 기반하여 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 생성하도록 구성되는, 컴패니언 로봇.
제11항 또는 제12항에 있어서,
상기 센서 모듈은 추가로, 환경 정보를 검출하고 수집하도록 구성되고,
상기 프로세서는 추가로, 환경 정보와 감정 정보에 기반하여 현재의 상호 작용 시나리오를 결정하도록 구성되는, 컴패니언 로봇.
컴패니언 로봇으로서,
상기 컴패니언 로봇은,
타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 검출하고 수집하도록 - 센싱 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함함 - 구성된 센서 모듈;
타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 서비스 서버로 송신하고, 서비스 서버에 의해 송신된 시뮬레이션된 객체 데이터를 수신하도록 - 시뮬레이션된 객체 데이터는 센싱 정보와 감정 정보에 기반하여 서비스 서버에 의해 생성되고, 컴패니언 객체를 기술하는 데 사용됨 - 구성된 통신 모듈;
시뮬레이션된 객체 데이터를 획득하고 시뮬레이션된 객체 데이터에 기반하여 액션 명령을 생성하도록 구성된 프로세서; 및
상기 프로세서의 액션 명령을 수신하고 타깃 객체와 상호 작용하도록 구성된 행동 실행 모듈
을 포함하는 컴패니언 로봇.
제18항에 있어서,
상기 컴패니언 로봇은,
시뮬레이션된 객체 데이터를 기록하기 위한 시뮬레이션된 객체 데이터베이스를 저장하도록 구성된 메모리
를 더 포함하고,
상기 프로세서는 추가로,
현재의 상호 작용 시나리오에 기반하여 시뮬레이션된 객체 데이터베이스로부터 현재의 상호 작용에서 사용되는 시뮬레이션된 객체 데이터를 선택하고, 시뮬레이션된 객체 데이터에 기반하여 행동 실행 모듈을 제어하도록 구성되는, 컴패니언 로봇.
제18항 또는 제19항에 있어서,
상기 센서 모듈은 추가로, 환경 정보를 검출하고 수집하도록 구성되고,
상기 프로세서는 추가로, 환경 정보와 감정 정보에 기반하여 현재의 상호 작용 시나리오를 결정하도록 구성되는, 컴패니언 로봇.
서버로서,
상기 서버는,
타깃 객체의 컴패니언 객체의 센싱 정보 및 타깃 객체가 컴패니언 객체와 상호 작용할 때 획득되는 타깃 객체의 감정 정보를 수신하고, 시뮬레이션된 객체 데이터를 로봇에 송신하도록 - 센싱 정보와 감정 정보는 로봇에 의해 송신되며, 센싱 정보는 뷰 정보 및 음성 정보 중 적어도 하나를 포함하고, 시뮬레이션된 객체 데이터는 컴패니언 객체를 시뮬레이션하기 위해 로봇에 의해 사용되며, 가상의 시뮬레이션된 객체 데이터는 컴패니언 객체를 기술하는데 사용됨 - 구성된 신호 트랜시버; 및
감정 정보에 기반하여 감정 특징량을 추출하고, 감정 특징량에 기반하여 컴패니언 객체와 상호 작용하기 위해 타깃 객체에 의해 사용된 감정 패턴을 결정하며, 감정 패턴에 기반하여 컴패니언 객체에서의 타깃 객체의 관심도를 결정하고, 관심도에 기반하여 센싱 정보로부터 컴패니언 객체의 행동 데이터를 추출하며, 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하도록 구성된 프로세서
를 포함하는 서버.
제21항에 있어서,
상기 프로세서가 구체적으로 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 획득하도록 구성되는 것은,
행동 데이터를 스크리닝하여 행동 키 특징을 추출하고, 키 특징을 사용하여 시뮬레이션된 객체 데이터를 생성하는 것 - 행동 데이터가 바디 액션을 포함하고, 행동 키 특징은 바디 키 포인트 또는 바디 액션 유닛을 포함하며, 키 특징은 통계적 학습 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 표현을 포함하고, 행동 키 특징은 부분 얼굴 키 포인트 또는 얼굴 액션 유닛을 포함하며, 키 특징은 사전 사양 또는 기계 학습을 통해 생성되거나; 또는 행동 데이터가 톤을 포함하고, 행동 키 특징은 컴패니언 객체의 음성 입력에서의 음향 신호 특징을 포함하고, 키 특징은 사전 사양 또는 기계 학습을 통해 생성됨 -
을 포함하는, 서버.
제21항 또는 제22항에 있어서,
상기 서버는,
시뮬레이션된 객체 데이터를 기록하기 위한 시뮬레이션된 객체 데이터베이스를 저장하도록 구성된 메모리
를 더 포함하고,
상기 프로세서는 추가로, 시뮬레이션된 객체 데이터베이스로부터 현재 사용된 시뮬레이션된 객체 데이터를 획득하거나, 현재 사용된 시뮬레이션된 객체 데이터에 기반하여 액션 명령을 생성하도록 구성되고, 그리고
상기 신호 트랜시버는 추가로, 현재 사용된 시뮬레이션된 객체 데이터 또는 액션 명령을 로봇에 송신하도록 구성되는, 서버.
제21항 또는 제22항에 있어서,
상기 프로세서는 구체적으로,
행동 데이터를 시뮬레이션 제약 조건과 매칭시키는 것에 의해 행동 데이터를 스크리닝하고, 시뮬레이션 제약 조건을 만족하는 행동 데이터를 사용하여 시뮬레이션 데이터를 생성하도록 구성되는, 서버.
제21항 또는 제22항에 있어서,
상기 신호 트랜시버는 추가로, 데이터 단말에 의해 송신된 선택 명령을 수신하도록 구성되고,
상기 프로세서는 구체적으로, 선택 명령을 획득하고 선택 명령에 기반하여 행동 데이터를 스크리닝하여 시뮬레이션된 객체 데이터를 생성하도록 구성되는, 서버.