KR20180136387A - 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체 - Google Patents

커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체

Info

Publication number
KR20180136387A
KR20180136387A KR1020180066259A KR20180066259A KR20180136387A KR 20180136387 A KR20180136387 A KR 20180136387A KR 1020180066259 A KR1020180066259 A KR 1020180066259A KR 20180066259 A KR20180066259 A KR 20180066259A KR 20180136387 A KR20180136387 A KR 20180136387A
Authority
KR
South Korea
Prior art keywords
emotion
unit
response
utterance
information
Prior art date
Application number
KR1020180066259A
Other languages
English (en)
Inventor
미나 후나주쿠리
신타로 요시자와
와타루 가쿠
히토시 야마다
Original Assignee
도요타지도샤가부시키가이샤
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타지도샤가부시키가이샤 filed Critical 도요타지도샤가부시키가이샤
Publication of KR20180136387A publication Critical patent/KR20180136387A/ko
Priority to KR1020200091537A priority Critical patent/KR102355911B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/0059Measuring for diagnostic purposes; Identification of persons using light, e.g. diagnosis by transillumination, diascopy, fluorescence
    • A61B5/0077Devices for viewing the surface of the body, e.g. camera, magnifying lens
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/001Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/0015Face robots, animated artificial faces for imitating human expressions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J13/00Controls for manipulators
    • B25J13/003Controls for manipulators by means of an audio-responsive input
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L13/00Speech synthesis; Text to speech systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2560/00Constructional details of operational features of apparatus; Accessories for medical measuring apparatus
    • A61B2560/02Operational features
    • A61B2560/0242Operational features adapted to measure environmental factors, e.g. temperature, pollution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/01Indexing scheme relating to G06F3/01
    • G06F2203/011Emotion or mood input determined on the basis of sensed human body parameters such as pulse, heart rate or beat, temperature of skin, facial expressions, iris, voice pitch, brain activity patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/46Sensing device
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S901/00Robots
    • Y10S901/46Sensing device
    • Y10S901/47Optical

Abstract

캐릭터에 대한 유저의 발화를 취득하는 발화 취득부(101, 201)와, 발화와는 다른 정보를 취득하는 정보 취득부(102, 202)와, 발화 취득부(101, 201)가 취득한 발화의 내용에 기초하여 캐릭터가 발하는 응답 음성을 생성하는 음성 생성부(209, 210)와, 발화 취득부(101, 201)가 취득한 발화의 내용에 기초하여 캐릭터의 얼굴부에서 표현할 응답 표정을 생성하는 표정 생성부(205, 207)를 구비하고, 표정 생성부(205, 207)는, 정보 취득부(102, 202)로부터 정보를 취득한 경우에는, 취득하지 않는 경우에 비하여 생성하는 응답 표정이 상이할 수 있도록, 발화의 내용과 함께 당해 정보를 사용해서 응답 표정을 생성하는 커뮤니케이션 장치를 제공한다.

Description

커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체{COMMUNICATION DEVICE, COMMUNICATION ROBOT AND COMPUTER READABLE STORAGE MEDIUM}
본 발명은 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체에 관한 것이다.
유저의 음성 내용에 따라서, 응답문의 출력을 행함과 함께, 표정의 표출을 행하는 커뮤니케이션 장치가 알려져 있다(예를 들어, 일본 특허 공개 제2016-193466 참조).
일본 특허 공개 제2016-193466호
종래의 커뮤니케이션 장치에 의하면, 유저로부터 동일한 음성 내용이 입력된 경우에는, 동일한 응답문과 동일한 표정이 출력되므로, 커뮤니케이션 장치로서는 변화가 부족하여, 유저가 당해 장치에 대해서 애착을 갖기까지에 이르지는 못하는 경우가 많았다.
본 발명은, 이러한 문제를 해결하기 위해서 이루어진 것으로, 캐릭터가 나타내는 표정에 다양한 베리에이션을 부여하여, 동일한 말을 걸어도, 상황에 따라서 다양한 표정을 나타내는 커뮤니케이션 장치 등을 제공하는 것이다.
본 발명의 제1 양태에서의 커뮤니케이션 장치는, 캐릭터와 유저가 대화하기 위한 커뮤니케이션 장치에 관한 것이다. 커뮤니케이션 장치는 발화 취득부, 정보 취득부, 음성 생성부, 표정 생성부를 구비한다. 발화 취득부는 캐릭터에 대한 유저의 발화를 취득하도록 구성되어 있다. 정보 취득부는 발화와는 다른 정보를 취득하도록 구성되어 있다. 음성 생성부는 발화 취득부가 취득한 발화의 내용에 기초하여 캐릭터가 발하는 응답 음성을 생성하도록 구성되어 있다. 표정 생성부는 발화 취득부가 취득한 발화의 내용에 기초하여 캐릭터의 얼굴부에서 표현할 응답 표정을 생성하도록 구성되어 있다. 표정 생성부는, 정보 취득부로부터 정보를 취득한 경우에는, 취득하지 않는 경우에 비해서 생성하는 응답 표정이 상이할 수 있도록, 발화의 내용과 함께 당해 정보를 사용해서 응답 표정을 생성한다.
이렇게 구성함으로써, 예를 들어 유저의 표정으로부터 읽어낼 수 있는 감정을 고려한 경우와 그렇지 않은 경우에, 캐릭터가 얼굴부에서 표현하는 표정을 상 이하게 할 수 있다. 따라서, 유저의 발화가 동일해도, 캐릭터의 얼굴부가 나타내는 표정은 베리에이션이 풍부하여, 유저는, 대화에 질리지 않고, 캐릭터에 대한 애착도 증대하는 것을 기대할 수 있다.
또한, 제1 양태에 관한 상기 커뮤니케이션 장치는, 복수의 감정에 각각 대응지어진 응답 표정을 기억하도록 구성된 데이터베이스를 구비하고, 표정 생성부는, 발화의 내용에 기초하여 추정하는 제1 감정과 정보 취득부에서 취득한 정보에 기초하여 추정하는 제2 감정의 조합에 따라서 결정하는 제3 감정에 대응지어진 응답 표정을, 데이터베이스로부터 선택하도록 구성해도 된다. 이와 같이, 각각에서 추정된 감정을 조합함으로써, 유저의 감정을 고정밀도로 추정할 수 있다.
제1 양태에 관한 상기 커뮤니케이션 장치에 있어서, 데이터베이스는, 러셀의 원환도에 기초하여 복수의 감정과 각각의 응답 표정이 대응지어져 있고, 표정 생성부는, 원환도에 있어서 제1 감정에 대응하는 제1 벡터와 제2 감정에 대응하는 제2 벡터의 합에 기초하여 제3 감정을 결정하도록 구성할 수 있다. 이와 같은 구성에 의해, 유저의 감정을 보다 정량적으로 연산하는 것이 가능하게 된다.
제1 양태에 관한 상기 커뮤니케이션 장치에 있어서, 표정 생성부는, 제3 감정에 미리 정해진 범위에서 근사하는 제4 감정에 대응하는 응답 표정을 데이터베이스로부터 선택해도 된다. 결정되는 감정에 약간의 흔들림을 갖게함으로써, 얼굴부의 표정의 변화를 보다 풍부하게 할 수 있다.
제1 양태에 관한 상기 커뮤니케이션 장치에 있어서, 표정 생성부는, 2개의 응답 표정을 연속해서 생성할 경우에는, 상기 2개의 응답 표정의 사이에, 양자를 보간하는 적어도 1개의 보간 응답 표정을 함께 생성해도 된다. 예를 들어, 표시하려고 하는 표정이 크게 변화할 때, 중간의 표정을 삽입해서 표시하면, 유저는, 그 변화에 위화감을 느끼지 않는다.
제1 양태에 관한 상기 커뮤니케이션 장치에 있어서, 정보 취득부는, 유저를 촬상하는 촬상부를 포함할 수 있고, 또한 유저의 생체 정보를 취득하도록 구성된 생체 센서를 포함할 수 있으며, 나아가, 커뮤니케이션 장치의 주변 환경의 환경 정보를 취득하도록 구성된 환경 센서를 포함할 수 있다. 다양한 센서를 이용함으로써, 유저의 감정을 보다 고정밀도로 추정할 수 있다.
또한, 제1 양태에 관한 상기 커뮤니케이션 장치는, 캐릭터를 구현화하는 캐릭터 장치의 내부 상태를 취득하는 상태 취득부를 구비하고, 표정 생성부는, 발화의 내용과 정보 외에도, 상태 취득부가 취득한 내부 상태에 기초하여 응답 표정을 생성하도록 해도 된다. 이렇게 구성하면, 유저의 감정에 맞춰서 얼굴부가 나타내는 표정이 결정될 뿐만 아니라, 캐릭터가 자기의 감정을 나타내는 듯한 표정도 나타나므로, 유저는 캐릭터에 대하여 보다 애착을 가질 수 있게 된다.
본 발명의 제2 양태는, 커뮤니케이션 로봇은, 제1 양태에 관한 상기 커뮤니케이션 장치와, 표정 생성부가 생성한 응답 표정을 표현하는 얼굴부를 구비하는 캐릭터를 구현화한 로봇이다. 커뮤니케이션 장치를, 예를 들어 동물을 모방한 로봇으로서 구현화하면, 유저는, 애완 동물과 같이 느낄 수 있어, 보다 애착을 가질 수 있게 된다.
본 발명의 제3 양태에서의 컴퓨터가 판독 가능한 기록 매체는, 캐릭터와 유저가 대화하기 위한 커뮤니케이션 장치의 컴퓨터에서 실행되는 커뮤니케이션 제어 프로그램을 기억하도록 구성된 기억부를 포함한다. 컴퓨터에 의해서 상기 커뮤니케이션 제어 프로그램이 실행될 때, 컴퓨터는 발화 취득 스텝과, 정보 취득 스텝과, 음성 생성 스텝과, 표정 생성 스텝을 실행한다. 발화 취득 스텝에 있어서, 캐릭터에 대한 유저의 발화가 취득 된다. 정보 취득 스텝에 있어서 발화와는 다른 정보가 취득된다. 음성 생성 스텝에 있어서, 발화 취득 스텝에서 취득한 발화의 내용에 기초하여 캐릭터가 발하는 응답 음성이 생성된다. 정보 생성 스텝에 있어서, 발화 취득 스텝에서 취득한 발화의 내용에 기초하여 캐릭터의 얼굴부에서 표현할 응답 표정이 생성된다. 표정 생성 스텝에 있어서, 정보를 취득한 경우에는, 취득하지 않는 경우에 비해서 생성하는 응답 표정이 상이할 수 있도록, 발화의 내용과 함께 당해 정보를 사용해서 응답 표정이 생성된다.
이렇게 구성함으로써, 예를 들어 유저의 표정으로부터 읽어낼 수 있는 감정을 고려한 경우와 그렇지 않은 경우에, 캐릭터가 얼굴부에서 표현하는 표정을 상 이하게 할 수 있다. 따라서, 유저의 발화가 동일해도, 캐릭터의 얼굴부가 나타내는 표정은 베리에이션이 풍부하여, 유저는, 대화에 질리지 않고, 캐릭터에 대한 애착도 증대하는 것을 기대할 수 있다.
또한, 상기 발명의 개요는, 본 발명의 필요한 특징 모두를 열거한 것이 아니다. 또한, 이들 특징 군의 서브 콤비네이션도 또한 발명이 될 수 있다.
본 발명에 의해, 동일한 말을 걸어도, 상황에 따라서 다양한 표정을 나타내는 커뮤니케이션 장치 등을 제공할 수 있다.
도 1은 제1 실시예에 관한 로봇의 개관도이다.
도 2는 로봇의 시스템 구성도이다.
도 3은 우안의 구조를 도시하는 사시도이다.
도 4는 로봇의 표정과 러셀의 원환도의 관계를 도시하는 도면이다.
도 5는 공감 감정의 결정 방법에 관한 설명도이다.
도 6은 다른 예의 공감 감정의 결정 방법에 관한 설명도이다.
도 7은 또 다른 예의 공감 감정의 결정 방법에 관한 설명도이다.
도 8은 주체 감정을 조합하는 경우에 있어서의 감정의 결정 방법에 관한 설명도이다.
도 9는 감정의 전환에 수반하는 표시의 추이를 설명하는 도면이다.
도 10은 동작 처리의 수순을 나타내는 흐름도이다.
도 11은 제2 실시예에 관한 커뮤니케이션 시스템의 개관도이다.
도 12는 서버의 시스템 구성도이다.
도 13은 로봇의 시스템 구성도이다.
도 14는 제3 실시예에 관한 태블릿 단말기의 개관도이다.
이하, 발명의 실시 형태를 통해서 본 발명을 설명하는데, 특허 청구 범위에 관한 발명을 이하의 실시 형태에 한정하는 것은 아니다. 또한, 실시 형태에서 설명하는 구성 모두가 과제를 해결하기 위한 수단으로서 필수적이라고 할 수는 없다.
도 1은, 본 실시 형태의 제1 실시예에 관한 로봇(100)의 개관도이다. 로봇(100)은, 유저인 인간과 음성 대화를 행하는 커뮤니케이션 장치로서의 로봇이다. 로봇(100)은, 캐릭터를 구현화한 캐릭터 장치이며, 대화에 맞춰서 눈의 표정이 변화한다.
로봇(100)은, 외관으로서 동물을 모방하고 있고, 얼굴부(120)를 갖는다. 얼굴부(120)에는, 유저가 눈이라고 인식할 수 있는 위치에, 안부(122)(우안(122a), 좌안(122b))가 설치되어 있다. 눈부(122)의 구조에 대해서는 후에 상세하게 설명하는데, 우안(122a), 좌안(122b)의 각각의 배후에는, 예를 들어 액정 패널이나 유기 EL 패널인 표시 패널(106)이 설치되어 있다.
로봇(100)의 코의 위치에는, 카메라(102)가 눈에 띄지 않도록 배치되어 있다. 카메라(102)는, 예를 들어 CMOS 센서를 포함하여, 외부 환경을 인식하기 위한 화상을 취득하는 촬상부로서 기능한다. 로봇(100)의 입의 위치에는, 스피커(109)가 숨겨져서 배치되어 있다. 스피커(109)는, 로봇(100)이 생성한 음성을 발하는 발화 출력부로서 기능한다. 유저는, 입의 위치에서 출력되는 음성에, 로봇(100)이 말하고 있는 듯한 감각을 느낀다. 또한, 얼굴부(120)의 어느 한 위치에는, 마이크(101)가 숨겨져서 배치되어 있다. 마이크(101)는, 유저의 발화 음성 등을 집음하는 기능을 담당한다.
로봇(100)은, 배터리(111)로부터 공급되는 전력에 의해 작동한다. 배터리(111)는, 예를 들어 리튬 이온 전지이다. 배터리 감시부(112)는, 예를 들어 임피던스·트랙 방식에 의해 배터리(111)의 잔류 용량을 감시하는 회로 유닛이다.
도 2는, 로봇(100)의 시스템 구성도이다. 로봇(100)은, 주된 시스템 구성으로서, 마이크(101), 카메라(102), 표시 패널(106), 스피커(109), 배터리 감시부(112), 제어부(200), 응답 음성 DB(310) 및 응답 표정 DB(320)를 구비하고 있다. 제어부(200)는, 예를 들어 CPU에 의해 구성되어, 기능마다의 실행을 담당하는 기능 실행부로서도 동작하고, 주로, 발화 인식부(201), 표정 인식부(202), 제1 감정 추정부(203), 제2 감정 추정부(204), 공감 감정 결정부(205), 주체 감정 결정부(206), 표정 선택부(207), 눈 제어부(208), 음성 선택부(209) 및 발화 제어부(210)로서 동작한다.
마이크(101)는 주된 기능으로서, 로봇(100)이 대화하는 상대인 유저의 발화 음성을 집음한다. 마이크(101)는, 집음한 유저의 발화 음성을 음성 신호로 변환하여, 발화 인식부(201)에 전달한다. 카메라(102)는, 주된 기능으로서, 로봇(100)에 대치하는 유저의 얼굴을 촬영한다. 카메라(102)는, 촬상한 유저의 얼굴 화상을 화상 신호로 변환하여, 표정 인식부(202)에 전달한다.
스피커(109)는, 발화 제어부(210)에서 변환된 음성 신호를 수취하여, 응답 음성을 음성 출력한다. 표시 패널(106)은, 눈 제어부(208)에서 변환된 영상 신호를 수취하여, 응답 표정에 대응하는 무늬를 표시한다. 배터리 감시부(112)는, 배터리(111)의 잔류 용량을 검지해서 검지 신호를 주체 감정 결정부(206)에 전달한다. 배터리 감시부(112)는, 로봇(100)의 내부 상태를 취득하는 상태 취득부의 일 형태이다.
응답 음성 DB(310)는, 음성 선택부(209)에 접속되어 있는 응답 음성의 데이터베이스이며, 예를 들어 하드디스크 드라이브의 기록 매체에 의해 구성되어 있다. 응답 음성 DB(310)는, 예를 들어 코퍼스(corpus)로서 체계화되어 있고, 개개의 용어는, 재생 가능한 발화 데이터를 수반해서 저장되어 있다. 응답 표정 DB(320)는, 표정 선택부(207)에 접속되어 있는 응답 표정의 데이터베이스이며, 예를 들어 하드디스크 드라이브의 기록 매체에 의해 구성되어 있다. 응답 표정 DB(320)는, 예를 들어 러셀의 원환도로서 체계화되어 있으며, 구체적인 눈의 표정의 영상 데이터, 그 표정이 의미하는 감정, 및 그 감정의 정도가 서로 대응지어져 저장되어 있다. 구체적으로는 후술한다.
발화 인식부(201)는, 마이크(101)로부터 수취한 음성 신호를 해석해서 유저의 발화를 인식한다. 발화 인식부(201)는, 마이크(101)와 협동하여, 로봇(100)을 향해서 말을 거는 유저의 발화를 취득하는 발화 취득부로서의 기능을 담당한다. 발화 인식부(201)는, 구체적으로는, 일반적인 음성 인식 기술에 의해 유저의 발화 내용을 인식함과 함께, 발화의 운율 해석한다. 운율은, 발화를 음파로서 파악했을 경우의, 그 물리적 특징을 나타내는 것이며, 발화 인식부(201)는, 유저가 발하는 한 덩어리의 음파에 있어서, 예를 들어 중심 주파수, 주파수 대역, 진폭의 최댓값 및 평균값을 물리적 특징으로서 연산한다. 발화 인식부(201)는, 인식한 발화 내용을 음성 선택부(209)에 전달한다. 또한, 해석한 운율을 제1 감정 추정부(203)에 전달한다.
제1 감정 추정부(203)는, 발화 인식부(201)로부터 수취한 운율로부터 진폭 레벨의 변화나 어미의 억양 등을 추출하여, 유저의 감정의 종류와 그 정도를 추정한다. 추정되는 감정의 종류와 그 정도에 대해서는, 후에 상세하게 설명한다. 유저의 발화로부터 추정된 제1 감정의 종류와 그 정도는, 공감 감정 결정부(205)에 전달된다.
또한, 제1 감정 추정부(203)는, 발화된 단어의 속성을 고려하여, 유저의 감정의 종류와 그 정도를 수정해도 된다. 단어의 속성은, 그 단어가 어떤 감정을 표현하기 위해서 많이 사용되는 것인지를 나타낸다. 예를 들어, 「기쁘다」라는 단어는 「만족」이라는 속성을 가져, 유저가 「기쁘다」라고 발한 경우에는, 제1 감정 추정부(203)는, 추정하는 감정의 종류를 「만족」측으로 쏠리게 한다.
표정 인식부(202)는, 카메라(102)로부터 수취한 화상 신호를 해석해서 유저의 표정을 인식한다. 표정 인식부(202)는, 카메라(102)와 협동하여, 유저의 발화와는 다른 정보로서 유저의 표정을 취득하는 정보 취득부로서의 기능을 담당한다. 표정 인식부(202)는, 구체적으로는, 일반적인 얼굴 인식 기술에 의해 유저의 얼굴 화상으로부터 특징점을 추출하여, 그것들의 위치, 인접하는 특징점을 연결하는 선분의 기울기, 특징점의 수 등의 표정 특징량을 연산한다. 표정 인식부(202)는, 연산한 표정 특징량을 제2 감정 추정부(204)에 전달한다.
제2 감정 추정부(204)는, 표정 인식부(202)로부터 수취한 표정 특징량으로부터, 예를 들어 동공의 크기, 눈꼬리가 내려간 정도, 입꼬리가 올라간 정도, 발한의 유무, 주름이 잡힌 정도 등을 추출하여, 유저의 감정의 종류와 그 정도를 추정한다. 추정되는 감정의 종류와 그 정도에 대해서는, 후에 상세하게 설명한다. 유저의 표정으로부터 추정된 제2 감정의 종류와 그 정도는, 공감 감정 결정부(205)에 전달된다.
또한, 유저가 카메라(102)에 대치하고 있지 않거나 얼굴 화상이 어둡거나 하면, 표정 인식부(202)는, 표정 특징량을 연산할 수 없어, 제2 감정 추정부(204)는, 제2 감정의 종류와 그 정도를 추정할 수 없다. 이러한 경우에는, 제2 감정 추정부(204)는, 제2 감정을 생성할 수 없다는 취지를 나타내는 신호를 공감 감정 결정부(205)에 전달한다.
공감 감정 결정부(205)는, 제1 감정 추정부(203)로부터 수취한 제1 감정의 종류와 그 정도, 및 제2 감정 추정부(204)로부터 수취한 제2 감정의 종류와 그 정도를 조합하여, 로봇(100)이 나타내는 유저에 대한 공감 감정의 종류와 그 정도를 결정한다. 공감 감정의 종류와 그 정도의 구체적인 결정의 수순에 대해서는, 후에 상세하게 설명한다. 공감 감정의 종류와 그 정도는, 표정 선택부(207)에 전달된다. 또한, 공감 감정 결정부(205)는, 제2 감정을 생성할 수 없는 취지를 나타내는 신호를 제2 감정 추정부(204)로부터 수취했을 경우에는, 제1 감정의 종류와 그 정도를 공감 감정의 종류와 그 정도로서 결정한다.
주체 감정 결정부(206)는, 배터리 감시부(112)로부터 수취한 검지 신호의 레벨을, 대응지어진 로봇(100)의 주체 감정의 종류와 그 정도로 변환하여, 표정 선택부(207)에 전달한다. 주체 감정은, 로봇(100)의 상태를 나타내는 파라미터(여기서는 배터리 잔류 용량)를 의사적으로 어떤 감정에 대응지은 것이다. 로봇(100)은, 주체 감정의 종류와 그 정도에 따라 결정되는 표정을 표현함으로써, 자신의 상태를 간접적으로 외계에 나타낼 수 있다. 구체적인 파라미터와 감정의 대응짓기나 표정의 선택에 대해서는 후술한다.
표정 선택부(207)는, 공감 감정 결정부(205)로부터 수취한 공감 감정의 종류와 그 정도에 대응하는 표정의 영상 데이터를, 응답 표정 DB(320)로부터 취득한다. 이때 공감 감정 결정부(205)와 표정 선택부(207)는, 서로 협동하여, 유저의 발화 내용과 표정에 기초해서 얼굴부(120)에서 표현할 응답 표정을 생성하는 표정 생성부로서의 기능을 담당한다. 또한, 표정 선택부(207)는, 조건에 따라서는, 주체 감정 결정부(206)로부터 수취한 주체 감정의 종류와 그 정도를 공감 감정의 종류와 그 정도에 조합하여, 그 결과에 따른 표정의 영상 데이터를, 응답 표정 DB(320)로부터 취득한다. 또한, 유저가 발화하고 있지 않은 상황 등에 있어서는, 주체 감정 결정부(206)로부터 수취한 주체 감정의 종류와 그 정도에만 대응하는 표정의 영상 데이터를, 응답 표정 DB(320)로부터 취득한다. 표정 선택부(207)는, 응답 표정 DB(320)로부터 취득한 영상 데이터를 눈 제어부(208)에 전달한다. 눈 제어부(208)는, 표정 선택부(207)로부터 수취한 영상 데이터를 표시 패널(106)에서 표시할 수 있는 영상 신호로 변환해서 표시 패널(106)에 전달한다.
음성 선택부(209)는, 발화 인식부(201)에서 인식된 유저의 발화 내용에 대하여 대화로서 어울리는 센텐스를 선택하고, 선택한 센텐스에 따른 발화 데이터를 응답 음성 DB(310)로부터 수집하여, 발화 제어부(210)에 전달한다. 발화 제어부(210)는, 수취한 발화 데이터를 음성 신호로 변환해서 스피커(109)에 전달한다. 음성 선택부(209)와 발화 제어부(210)는, 서로 협동하여, 유저의 발화 내용에 기초하여 응답 음성을 생성하는 음성 생성부로서의 기능을 담당한다. 또한, 음성 선택부(209)는, 제1 감정 추정부(203)에서 추정된 감정을 가미하여, 선택하는 센텐스를 변경해도 된다. 예를 들어, 제1 감정 추정부(203)가 유저의 감정을 「슬프다」라고 추정했을 경우에는, 격려하는 내용의 센텐스로 변경한다. 이렇게 유저가 발화에 담은 감정도 고려하면, 더 깊은 커뮤니케이션을 기대할 수 있다. 단, 제2 감정 추정부(204)가 추정하는 감정은 고려하지 않는 것이 바람직하다. 후술하는 바와 같이, 로봇(100)이 발성하는 응답 음성은, 제2 감정 추정부(204)가 추정하는 감정을 고려하지 않는 것이, 응답 표정과의 조합에 있어서 베리에이션이 풍부해진다.
도 3은, 우안(122a)의 구조를 도시하는 사시도이다. 좌안(122b)도 우안(122a)과 마찬가지의 구조이며, 각각의 표시 패널(106)은, 모두 눈 제어부(208)에 의해 표시 제어된다.
우안(122a)은, 주로, 투광 커버(131), 광 파이버 다발(132) 및 표시 패널(106)로 이루어진다. 투광 커버(131)는, 예를 들어 투명한 폴리카르보네이트에 의해 성형되어, 얼굴부(120)의 외장재로서의 역할을 담당한다. 동물이나 사람을 모방한 로봇의 경우, 눈의 표면은 곡면인 것이 자연스러워서, 유저에게 받아들여지기 쉽다. 따라서, 본 실시 형태에서의 로봇(100)도, 눈의 표면에 상당하는 투광 커버(131)는, 외부를 향해서 볼록 형상의 곡면으로 성형되어 있다.
우안(122a)의 내측에는, 우안의 표정을 무늬화한 무늬를 표시하기 위한 표시 패널(106)이 설치되어 있다. 표시 패널(106)의 표시면은 평면이다. 또한, 표시면은, 투광 커버(131)의 외측 테두리 둘레를 포함하는 크기를 갖는다. 도 3에서는, 투광 커버(131)의 외측 테두리 둘레에 대응하는 크기의 흰자위에 편위해서 겹쳐진 검은 자위로 이루어지는 무늬인 표시 우안 영상(191a)이 표시되어 있는 모습을 나타낸다. 표시하는 각각의 무늬는, 영상 데이터로서 응답 표정 DB(320)에 저장되어 있고, 표정 선택부(207)에 의해 판독되어, 눈 제어부(208)에 의해 영상 신호로 변환되어 표시 패널(106)에 표시된다.
투광 커버(131)의 내곡면과 표시 패널(106)의 표면은, 광 파이버 다발(132)에 의해 접속된다. 광 파이버 다발(132)은, 표시 패널(106)에 표시된 표시 우안 영상(191a)을 투광 커버(131)까지 전달한다. 광 파이버 다발(132)은, 표시 패널(106)의 픽셀 각각에 일대일로 대응하는 광 파이버(132a)의 집합체이다. 도 3에서는 설명을 위해서 표시 패널(106)의 표면으로부터 띄워서 도시하고 있지만, 각각의 광 파이버(132a)의 일단부는, 표시 패널(106)의 표면에 도광계의 접착제에 의해 접착되어 있다. 각각의 광 파이버(132a)는, 집합체로서 그 외주면이 피복(132b)으로 덮여서 묶여 있다. 이와 같이 하여, 투광 커버(131), 광 파이버 다발(132) 및 표시 패널(106)은, 서로 접속되어 일체화된다.
표시 패널(106)에 표시된 표시 우안 영상(191a)의 광속은, 광 파이버(132a)의 일단부로부터 입사하여, 타단부로부터 출사한다. 광 파이버(132a)의 출사면인 타단부의 집합체는, 투광 커버(131)의 내곡면을 따르는 가상적인 스크린을 형성한다. 따라서, 표시 패널(106)에 표시된 표시 우안 영상(191a)은, 이 가상적인 스크린에 투영되어, 유저에게 관찰되는 투영 우안 영상(192a)으로 변환된다.
또한, 평면으로서 표시되는 표시 우안 영상(191a)이, 곡면으로서 투영되는 투영 우안 영상(192a)으로 변환되므로, 눈 제어부(105)는, 관찰되는 투영 우안 영상(192a)이 올바른 형상이 되도록, 표시하는 표시 우안 영상(191a)의 형상을 미리 조정하는 것이 바람직하다. 이 경우, 눈 제어부(208)는, 예를 들어 하나의 검은 자위의 무늬에서도, 가상적인 스크린의 어느 위치에 투영 우안 영상(192a)를 투영할지에 의해, 표시하는 표시 우안 영상(191a)의 위치와 형상을 조정한다.
도 4는, 로봇(100)이 표현하는 표정과 러셀의 원환도의 관계를 도시하는 도면이다. 도 4에서는 얼굴부(120)의 모습을 배열해서 도시하고 있지만, 본 실시예에서의 로봇(100)은, 표시 패널(106)에 표시하는 우안 영상과 좌안 영상으로 변화시킴으로써 얼굴부(120)의 전체로부터 유저가 받는 인상을 컨트롤하는 것이다. 따라서, 이하에 설명하는 각각의 감정의 종류와 그 정도에 대응지어져서 응답 표정 DB(320)에 저장되어 있는 영상 데이터는, 우안 영상과 좌안 영상에 대응하는 영상 데이터의 세트이다.
심리학의 분야에서 제창되고 있는 러셀의 원환도는, 모든 감정을 「쾌-불쾌」와 「놀람-불활성」을 축으로 하는 평면에 원환 형상으로 배치하는 모델이다. 구체적인 감정이 어느 위치에 배치될 수 있는지에 대해서는 여러 설이 있지만, 본 실시 형태에서는 도시한 바와 같이, 「놀람」에서부터 시계 방향으로 균등하게, 「경계」 「흥분」 「고양」 「행복」 「쾌」 「만족」 「유화」 「릴랙스」 「냉정」 「불활성」 「피로」 「무기력」 「우울」 「슬픔」 「불쾌」 「당황」 「스트레스」 「긴장」 「신경질」의 20개의 감정을 원주 상에 배치하였다. 따라서, 각 감정의 종류는, 「무표정」을 중심으로 방사 방향으로 정의되고, 중심으로부터의 거리는, 그 감정의 정도를 나타낸다. 도 4에는, 각각의 감정이 가장 강하게 표현되었을 때의 표정을 나타내는데, 점선으로 나타내는 방사선 상에는, 그 정도에 따른 중간적인 표정이 배치된다.
도시하는 러셀의 원환도에 있어서, 서로 인접하는 감정은 서로 비슷한 감정이다. 따라서, 그 표정도 서로 유사하다. 각각의 감정의 종류와 그 정도에 대응지어진 영상 데이터의 무늬는, 이러한 관계성을 갖고 미리 작성되어 있다.
다음으로 공감 감정을 결정할 때까지의 방법에 대해서 설명한다. 도 5는, 공감 감정의 결정 방법에 관한 설명도이며, 도 4의 러셀 원환도로부터 얼굴부(120)의 모습을 제거한 원환 좌표계를 나타내고 있다. 「무표정」을 나타내는 원의 중심을 「0」으로 하고, 각 감정의 최댓값을 「1」로 한다. 즉, 러셀의 원환도를, 반경 1의 원으로 표현한다.
여기서, 제1 감정 추정부(203)가, 유저의 발화로부터 추정한 감정(제1 감정)과 그 정도를 벡터 V1로 나타낸다. 도면의 예에서 벡터 V1은, 「쾌」의 방향으로 약 0.25의 길이를 갖는다. 또한, 제2 감정 추정부(204)가 유저의 표정으로부터 추정한 감정(제2 감정)과 그 정도를 벡터 V2로 나타낸다. 도면의 예에서 벡터 V2는, 「흥분」의 방향으로 약 0.5의 길이를 갖는다.
공감 감정 결정부(205)는, 러셀의 원환도 상에서 벡터 V1과 벡터 V2의 합을 구함으로써, 공감 감정을 나타내는 벡터 V3을 산출한다. 도면의 예에서 벡터 V3은, 「고양」의 방향으로 약 0.67의 길이를 갖는다. 따라서, 공감 감정 결정부(205)는, 도 5에서 별표의 좌표가 나타내는, 공감 감정의 종류=「고양」, 정도=0.67로 결정한다.
도 6은, 다른 예의 공감 감정의 결정 방법에 관한 설명도이다. 도 6도, 도 5와 마찬가지로 원환 좌표계를 나타내고 있다.
제1 감정 추정부(203)는, 벡터 V1로 나타내는 바와 같이, 제1 감정의 종류=「당황」, 정도=1로 추정하고, 제2 감정 추정부(204)는, 벡터 V2로 나타내는 바와 같이, 제2 감정의 종류=「놀람」, 정도=1로 추정했을 경우를 상정한다. 이 경우, 벡터 V1과 벡터 V2의 합을 구하면, 방향은 「긴장」인데, 그 크기는 1을 초과해버린다. 그래서, 공감 감정 결정부(205)는, 벡터 V3을, 도 6에서 별표의 좌표가 나타내는, 공감 감정의 종류=「긴장」, 정도=1로 결정한다.
이와 같이, 벡터 V3의 크기가 1을 초과한 경우에는 1로 하는 예외 규정을 둠으로써, 벡터 V1과 벡터 V2가 어떤 방향이나 크기이어도, 공감 감정의 종류와 그 정도를 결정할 수 있다.
또한, 본 실시 형태에서는, 제1 감정 추정부(203) 및 제2 감정 추정부(204)가 각각 감정과 함께 정도도 추정하는 구성이지만, 정도를 추정하지 않는 구성이어도, 이 방법에 의해 공감 감정의 종류를 결정할 수 있다. 즉, 제1 감정의 종류가 「당황」, 제2 감정의 종류가 「놀람」으로 추정되면, 각각의 정도를 고정값 「1」로 가정해서 벡터 연산을 행하고, 그 방향에 상당하는 감정인 「긴장」을 공감 감정의 종류로 결정할 수 있다.
도 7은, 또 다른 예의 공감 감정의 결정 방법에 관한 설명도이다. 도 7도, 도 5와 마찬가지로 원환 좌표계를 나타내고 있다.
제1 감정 추정부(203)는, 벡터 V1로 나타내는 바와 같이, 제1 감정의 종류=「행복」, 정도=0.50로 추정하고, 제2 감정 추정부(204)는, 벡터 V2로 나타내는 바와 같이, 제2 감정의 종류=「릴랙스」, 정도=0.25로 추정했을 경우를 상정한다. 이 경우, 벡터 V1과 벡터 V2의 합을 구하면, 벡터 V3은, 「쾌」와 「만족」의 사이의 방향으로 약 0.62의 길이를 갖는 벡터가 된다. 이와 같이, 산출된 벡터 V3이 2개의 감정의 사이를 향할 경우에는, 그 선단 좌표에 대응하는 영상 데이터가 응답 표정 DB(320)에 저장되어 있지 않으므로, 공감 감정 결정부(205)는, 2개의 감정의 방사선 중 가까운 쪽으로 수직선을 내려, 그 발을 공감 감정의 좌표로 결정한다. 도 7의 예에서는, 「쾌」의 방사선 상에 나타내는 별표의 좌표가 공감 감정의 좌표가 된다. 즉, 공감 감정 결정부(205)는, 공감 감정의 종류=「쾌」, 정도=0.61로 결정한다. 이와 같이, 공감 감정 결정부(205)는, 벡터 V3의 방향이 어느 하나의 감정의 방사선 상을 따르지 않아도, 공감 감정의 종류와 그 정도를 일의적으로 결정할 수 있다.
도 5 내지 도 7을 사용해서 설명한 공감 감정의 종류와 그 정도의 결정 방법은, 제2 감정 추정부(204)가 제2 감정의 종류와 그 정도를 추정했을 경우, 즉, 벡터 V2를 산출할 수 있는 경우에 관한 결정 방법이다. 제2 감정 추정부(204)가 제2 감정을 추정할 수 없었을 경우에는, V3=V1로 해서 공감 감정의 종류와 그 정도를 결정하면 된다.
표정 선택부(207)는, 주체 감정 결정부(206)가 결정하는 주체 감정을 고려하지 않을 경우에는, 러셀의 원환도에서의 공감 감정 결정부(205)가 결정한 공감 감정의 결정 좌표에 대응하는 눈의 표정의 영상 데이터를 응답 표정 DB(320)로부터 취득한다. 영상 데이터를 취득하면, 눈 제어부(208)에 전달하고, 눈 제어부(208)는, 수취한 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 표시함으로써, 얼굴부(120)에 결정한 공감 감정의 종류와 그 정도에 따른 표정을 만들어 낸다. 한편, 주체 감정 결정부(206)가 결정하는 주체 감정을 공감 감정 결정부(205)가 결정한 공감 감정과 조합하는 경우에는, 먼저, 공감 감정의 벡터와 주체 감정의 벡터의 벡터 연산을 행한다.
도 8은, 주체 감정을 조합하는 경우에 있어서의, 얼굴부(120)가 표현하는 조합 감정의 결정 방법에 관한 설명도이다. 도 8도, 도 5와 마찬가지로 원환 좌표계를 나타내고 있으며, 공감 감정 결정부(205)가 산출한 벡터 V3은, 도 5의 예와 동일하게 「고양」의 방향으로 약 0.67의 길이를 갖는 것으로 한다.
상술한 바와 같이, 주체 감정은, 로봇(100)의 상태를 나타내는 파라미터를 의사적으로 어떤 감정에 대응지은 것인데, 본 실시 형태에서는 배터리(111)의 잔류 용량을 「피로」에 대응짓는다. 즉, 로봇(100)이 주체 감정만을 표현할 경우에는, 배터리(111)의 잔류 용량이 줄어들수록 보다 피곤한 표정을 나타내는 것을 의미한다. 구체적으로는, 주체 감정을 「피로」의 방사선 상을 따르는 벡터 V4로 나타내고, 잔류 용량을 그 길이에 대응시킨다. 예를 들어, 배터리 감시부(112)로부터 수취한 검지 신호가 잔류 용량=100%를 나타내는 것이라면 길이를 「0」으로 하고, 50%를 나타내는 것이라면 「0.5」로 하고, 0%를 나타내는 것이라면 「1」로 한다. 도 8의 예에서는, 주체 감정 결정부(206)는, 벡터 V4를, 주체 감정의 종류=「피로」, 정도=0.5로 결정하고 있다.
표정 선택부(207)는, 상술한 공감 감정 결정부(205)와 마찬가지로, 벡터 V3과 벡터 V4의 합을 구함으로써, 조합 감정을 나타내는 벡터 V5를 산출한다. 도 8의 예에서 벡터 V5는, 「만족」의 방향으로 약 0.40의 길이를 갖는다. 따라서, 표정 선택부(207)는, 도 8에서 별표의 좌표가 나타내는, 조합 감정의 종류=「만족」, 정도=0.40으로 결정한다.
또한, 표정 선택부(207)는, 벡터 V3과 벡터 V4의 합의 산출에 있어서, 벡터 V5가 1을 초과하는 경우에는 도 6을 사용해서 설명한 바와 같이, 벡터 V5가 특정한 감정을 나타내는 방사선 상에 위치하지 않을 경우에는 도 7을 사용해서 설명한 바와 같이 대처한다. 또한, 본 실시 형태에서는, 주체 감정에 대응짓는 파라미터를 배터리(111)의 잔류 용량에 한해서 설명하지만, 다른 파라미터를 다른 감정에 대응지어도 상관없다. 예를 들어, 특정한 유저와 과거에 행한 대화의 횟수를 기록해 두면, 당해 횟수를 파라미터로 해서 「고양」에 대응지을 수 있다. 이렇게 대응지으면, 그 유저에게 있어서 대화의 횟수가 증가하면, 로봇(100)은, 다시 대화할 수 있게 된 것을 기뻐하고 있는 것처럼 주체 감정으로서 「고양」의 표정을 보다 강하게 나타내게 된다. 로봇(100)의 상태를 나타내는 복수의 파라미터를 각각 별도의 감정에 대응지을 경우에는, 주체 감정 결정부(206)는, 공감 감정 결정부(205)와 마찬가지로, 그 벡터들의 합을 산출하여, 하나의 주체 감정의 종류와 그 정도를 결정한다.
표정 선택부(207)는, 벡터 V5를 산출하여, 조합 감정의 종류와 그 정도를 결정하면, 러셀의 원환도에서의 결정 좌표에 대응하는 눈의 표정의 영상 데이터를 응답 표정 DB(320)로부터 취득한다. 영상 데이터를 취득하면, 눈 제어부(208)에 전달하고, 눈 제어부(208)는, 수취한 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 표시함으로써, 얼굴부(120)에 결정한 조합 감정의 종류와 그 정도에 따른 표정을 만들어 낸다.
표정 선택부(207)는, 미리 설정된 조건에 합치할 경우에는, 공감 감정을 조합하지 않고 주체 감정의 종류와 그 정도에 대응하는 눈의 표정의 영상 데이터를 응답 표정 DB(320)로부터 취득해도 된다. 예를 들어, 대화해야 할 유저가 근처에 존재하지 않는다고 판단했을 때는, 로봇(100)은, 「피로」의 표정을 나타냄으로써, 배터리(111)가 적어진 것을 주위에 어필할 수 있다. 또한, 유저와의 대화에 있어서, 로봇(100)의 상태에 관한 사항을 유저로부터 질문받았을 때는, 로봇(100)은, 보다 직접적으로 자신의 상태를 유저에게 지각시킬 수 있다.
이어서, 유저와의 대화가 진행됨에 따라서 감정이 순차 변화하는 경우의 처리에 대해서 설명한다. 도 9는, 감정의 전환에 수반하는 표시의 추이를 설명하는 도면이다. 도 9도, 도 5와 마찬가지로 원환 좌표계를 나타내고 있다.
유저와의 대화가 계속되고 있는 기간에 있어서, 표정 선택부(207)는, 상술한 벡터 연산의 결과, 시각 t1에서 표현하는 감정의 종류와 그 정도로서 벡터 Vt1을 얻었다고 하자. 벡터 Vt1이 나타내는 좌표 Ft1은, 감정의 종류=「고양」, 정도=0.67이다. 계속해서 그 후의 시각 t2에서 표현하는 감정의 종류와 그 정도로서 벡터 Vt2를 얻었다고 하자. 벡터 Vt2가 나타내는 좌표 Ft2는, 감정의 종류=「냉정」, 정도=1이다. 이와 같이, 연속하는 시각에 있어서 표현하는 감정이 크게 상이하면, 얼굴부(120)의 표정은 돌연 크게 변화하고, 유저는 위화감을 느끼는 경우가 있다.
그래서, 본 실시 형태에서는, 좌표 F1과 좌표 F2를 원활하게 곡선으로 접속하고, 그 곡선이 각 감정의 방사선과 교차하는 점에 보간 좌표를 설정한다. 도 9의 예에서는, 좌표 F1부터 좌표 F2까지는, 감정(「고양」에서 「냉정」까지)으로서 6개의 차가 있고, 정도의 변화로서는 1-0.67=0.33이므로, 하나 옆의 감정으로 옮겨갈 때마다 0.33/6=0.055씩 정도를 증가하도록 보간 좌표를 설정할 수 있다. 이와 같이, 곡선이 「행복」 「쾌」 「만족」 「유화」 「릴랙스」의 각 방사선과 교차하는 점에 각각 좌표 Ft11, 좌표 Ft12, 좌표 Ft13, 좌표 Ft14, 좌표 Ft15를 설정한다. 그리고, 표정 선택부(207)는, 눈 제어부(208)에, 좌표 Ft1에 대응하는 영상 데이터를 전달한 후, 좌표 Ft2에 대응하는 영상 데이터를 눈 제어부(208)에 전달할 때까지, 좌표 Ft11, Ft12, Ft13, Ft14, Ft15에 대응하는 영상 데이터를 연속적으로 전달한다. 눈 제어부(208)는, 시각 t1에서 좌표 Ft1에 대응하는 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 표시한 후, 시각 t2에 이르기까지의 동안에 연속해서, 좌표 Ft11, Ft12, Ft13, Ft14, Ft15에 대응하는 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 표시한다. 그리고, 시각 t2에서 좌표 Ft2에 대응하는 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 표시한다. 이와 같이, 시각 t1에서 표현한 표정과 시각 t1에 연속하는 시각 t2에서 표현하는 표정의 사이에 양자를 보간하는 표정을 삽입하면, 유저는, 얼굴부(120)의 변화가 매끄러워서 연속적이라는 인상을 받는다. 또한, 보간하는 표정의 수는, 시각 t1과 시각 t2의 기간이나, 좌표 Ft1과 좌표 Ft2의 가까움 등의 조건에 따라 변경해도 된다.
한편, 연속되는 시각에 있어서 표현하는 감정이 전혀 변하지 않으면, 얼굴부(120)의 표정은 변화하지 않아, 이 경우도 유저는 위화감을 느끼는 경우가 있다. 그래서, 공감 감정 결정부(205)는, 산출한 벡터 V3에 대하여, 미리 정해진 범위 내에서 근사하는 벡터 V3'로 변경해서 출력해도 된다. 예를 들어, 산출한 벡터 V3이 나타내는 감정에 대하여 러셀의 원환도 상에서 인접하는 감정까지의 범위를 미리 정해진 범위로 한다. 이와 같이, 공감 감정의 출력에 흔들림을 부여하면, 유저는, 보다 변화가 풍부한 표정을 즐길 수 있다.
이어서, 제어부(200)가 실행하는 동작 처리의 수순을 설명한다. 도 10은, 동작 처리의 수순을 나타내는 흐름도이다. 플로우는, 로봇(100)의 전원이 온으로 되어 개시된다.
발화 인식부(201)는, 스텝 S101에서, 로봇(100)에게 말을 거는 유저의 발화를, 마이크(101)를 통해서 취득한다. 스텝 S102로 진행하여, 음성 선택부(209)는, 취득한 유저의 발화 내용에 대하여 대화로서 어울리는 센텐스를 선택하고, 선택한 센텐스에 따른 발화 데이터를 응답 음성 DB(310)로부터 수집하여, 발화 제어부(210)에 전달한다. 스텝 S103으로 진행하여, 발화 제어부(210)는, 수취한 발화 데이터를 음성 신호로 변환하고, 스피커(109)로부터 음성으로서 발성시킨다. 제1 감정 추정부(203)는, 스텝 S104에서, 유저의 발화로부터 유저의 제1 감정의 종류와 그 정도를 추정한다.
표정 인식부(202)은, 스텝 S105에서, 로봇(100)에게 말을 거는 유저의 표정을 파악한 카메라 화상을, 카메라(102)로부터 취득한다. 스텝 S106으로 진행하여, 제2 감정 추정부(204)는, 표정 인식부(202)로부터 수취한 표정 특징량을 사용하여, 유저의 제2 감정의 종류와 그 정도를 추정한다.
공감 감정 결정부(205)는, 스텝 S107에서, 제1 감정의 종류와 그 정도를 나타내는 벡터 V1과, 제2 감정의 종류와 그 정도를 나타내는 벡터 V2의 합을 산출함으로써, 공감 감정의 종류와 그 정도를 결정한다. 또한, 스텝 S106에서, 제2 감정 추정부(204)가 제2 감정의 종류와 그 정도를 추정할 수 없었을 경우에는, 공감 감정 결정부(205)는, 제1 감정의 종류와 그 정도를, 공감 감정의 종류와 그 정도로서 결정한다.
한편, 주체 감정 결정부(206)는, 스텝 S108에서, 배터리 감시부(112)로부터 배터리(111)의 잔류 용량을 나타내는 검지 신호를 취득하고, 스텝 S109에서, 당해 검지 신호의 레벨을 대응지어진 로봇(100)의 주체 감정의 종류와 그 정도로 변환한다. 표정 선택부(207)는, 수취한 공감 감정의 종류와 주체 감정의 종류 및 각각의 정도로부터, 조합 감정의 종류와 그 정도를 산출하고, 그 결과에 따른 표정의 영상 데이터를, 응답 표정 DB(320)로부터 취득한다.
스텝 S111로 진행하여, 표정 선택부(207)는, 전회 취득한 영상 데이터가 대응하는 조합 감정과, 금회 취득한 영상 데이터가 대응하는 조합 감정의 차가, 미리 정해진 차 이상인지 여부를 판단한다. 미리 정해진 차는, 러셀의 원환도의 원주를 따라 배치된 감정에 있어서, 예를 들어 3개이다. 이 경우, 전회의 조합 감정에 대하여 금회의 조합 감정이 원주 방향으로 3개 이상 떨어진 감정이라면, "예"(스텝 S112)로 진행하고, 2개 이하라면 "아니오"(스텝 S113)로 진행한다.
스텝 S112로 진행했을 경우에는, 표정 선택부(207)는, 전회의 조합 감정과 금회의 조합 감정의 사이를 보간하는 중간 감정을 설정하고, 그 중간 감정에 대응하는 영상 데이터를 응답 표정 DB(320)로부터 취득한다. 그리고, 눈 제어부(208)는, 이들 영상 데이터를 영상 신호로 변환해서 표시 패널(106)에 순차 표시한다. 중간 감정에 대응하는 영상을 표시하면, 스텝 S113으로 진행한다.
표정 선택부(207)는, 스텝 S113에서, 스텝 S110의 처리에 의해 취득된 영상 데이터를 눈 제어부(208)에 전달하고, 눈 제어부(208)는, 이것을 영상 신호로 변환해서 표시 패널(106)에 표시한다. 그리고, 스텝 S114로 진행하여, 제어부(200)는, 로봇(100)의 전원이 오프로 되었는지 여부를 판단한다. 오프로 되어 있지 않으면, 스텝 S101로 돌아가서, 유저와의 커뮤니케이션을 반복한다. 오프로 되면, 일련의 처리를 종료한다.
또한, 스텝 S103의 응답 발성과, 스텝 S113의 결정 표정의 표시는, 서로 최적의 타이밍이 되도록 시간을 조정하면 된다. 또한, 유저의 발화에 관한 처리, 유저의 표정에 관한 처리, 배터리에 관한 처리는, 상술한 순서가 아니어도 되고, 또한 병렬로 처리되어도 된다.
이상 설명한 로봇(100)은, 캐릭터로서 유저가 대화하는 커뮤니케이션 장치이며, 유저의 발화로부터 추정되는 제1 감정과, 유저의 발화가 아닌 정보로서의 유저의 얼굴 화상 정보로부터 추정되는 제2 감정을 사용해서 응답 표정을 선택, 생성한다. 이때, 제2 감정을 사용하는 경우에는, 사용하지 않는 경우에 비하여 선택, 생성하는 응답 표정이 상이할 수 있다. 따라서, 유저의 발화가 동일해도, 로봇(100)의 얼굴부(120)가 나타내는 표정은 베리에이션이 풍부하여, 유저는, 대화에 질리지 않고, 로봇(100)에 대한 애착도 증대되는 것을 기대할 수 있다.
또한, 유저의 발화뿐만 아니라, 발화 외의 정보를 고려해서 얼굴부(120)의 표정을 만들어 내므로, 유저의 발화가 동일해도, 로봇(100)이 발하는 응답 음성과 얼굴부(120)의 응답 표정의 조합은 다양하게 변화한다. 따라서, 유저는 예상에 어긋나는 로봇(100)의 반응을 즐길 수 있다. 나아가서는, 로봇(100)에 대한 친근감을 더하는 것을 기대할 수 있다.
이어서, 제2 실시예에 대해서 설명한다. 도 11은, 제2 실시예에 관한 커뮤니케이션 시스템의 개관도이다. 제1 실시예에서는, 로봇(100)이 단독으로 유저와 커뮤니케이션을 취할 수 있도록, 주요한 기능 요소를 모두 본체에 구비하는 구성이었지만, 제2 실시예에서의 로봇(100')은, 연산에 관한 기능 요소를 서버(300)에 맡기는 구성을 채용한다.
예를 들어 유저가 로봇(100')에게 「야, 잘 있었니?」라고 말을 걸면, 로봇(100')의 마이크가 그 음성을 도입한다. 로봇(100')은, 도입한 음성을 음성 신호로 변환하여, 무선 통신에 의해 서버(300)에 송신한다. 또한, 로봇(100')에 내장된 카메라는 유저의 얼굴을 촬영한다. 로봇(100')은, 카메라의 출력 신호를 화상 신호로 변환하여, 무선 통신에 의해 서버(300)에 송신한다. 서버(300)는, 이들 정보를 사용하여, 응답 음성(도면의 예에서는 「네! 말 걸어줘서 기뻐요」)의 음성 데이터와, 응답 표정(도면의 예에서는 「쾌」라는 표정)의 영상 데이터를 선택하여, 로봇(100')에게 송신한다. 로봇(100')은, 수취한 음성 데이터에 대응하는 음성을 스피커로부터 발하고, 수취한 영상 데이터에 대응하는 무늬를 표시한다.
또한, 본 실시예에서는, 추가적으로 채용 가능한, 유저의 생체 정보를 취득하는 리스트 센서(500)에 대해서도 설명한다. 유저는, 리스트 센서(500)를 팔에 감아서 장착한다. 리스트 센서(500)는, 예를 들어 유저의 맥박, 발한 상태를 검출하여, 검출 결과를 서버(300)에 송신한다.
도 12는, 서버(300)의 시스템 구성도이다. 제1 실시예에서 설명한 요소와 원칙적으로 동일한 기능을 담당하는 요소에는 동일한 명칭을 붙이고, 특별히 언급하지 않는 한 그 기능에 관한 설명을 생략한다. 본 실시예에서는, 서버(300)가, 다양한 연산 등을 실행하는 커뮤니케이션 장치의 실체로서 기능한다.
서버(300)는, 주로, 연산 처리부(400), 통신 IF(490), 응답 음성 DB(310) 및 응답 표정 DB(320)를 구비한다. 연산 처리부(400)는, 예를 들어 CPU이며, 제1 실시예에서 설명한, 발화 인식부(201), 표정 인식부(202), 제1 감정 추정부(203), 제2 감정 추정부(204), 공감 감정 결정부(205), 주체 감정 결정부(206), 표정 선택부(207)의 각 기능 실행부로서도 동작한다. 또한, 연산 처리부(400)는, 기능 실행부로서 생체 정보 인식부(212)로서도 동작한다.
통신 IF(490)는, 로봇(100')과 제어 신호나 데이터의 수수를 행하기 위한 통신 인터페이스이며, 예를 들어 무선 LAN 유닛이다. 응답 음성 DB(310)는, 제1 실시예에서 설명한 응답 음성 DB(310)와 마찬가지의 구성이며, 음성 선택부(209)와 접속되어 있다. 또한, 응답 표정 DB(320)는, 동일하게 제1 실시예에서 설명한 응답 표정 DB(320)와 마찬가지의 구성이며, 표정 선택부(207)와 접속되어 있다.
발화 인식부(201)는, 통신 IF(490)를 통해서, 로봇(100')으로부터 음성 신호를 수취한다. 발화 인식부(201)는, 통신 IF(490)와 협동하여, 로봇(100)을 향해서 말을 거는 유저의 발화를 취득하는 발화 취득부로서의 기능을 담당한다. 또한, 표정 인식부(202)는, 통신 IF(490)를 통해서, 로봇(100')으로부터 화상 신호를 수취한다. 표정 인식부(202)는, 통신 IF(490)와 협동하여, 유저의 발화와는 다른 정보로서 유저의 표정을 취득하는 정보 취득부로서의 기능을 담당한다.
생체 정보 인식부(212)는, 통신 IF(490)를 통해서, 리스트 센서(500)로부터 유저의 생체 정보를 나타내는 생체 신호를 취득한다. 그리고, 맥박이나 발한 등의 해석 대상에 맞추어, 그 특징 신호를 취득한 생체 신호로부터 추출하여, 제2 감정 추정부(204)에 전달한다. 생체 정보 인식부(212)는, 통신 IF(490)와 협동하여, 유저의 발화와는 다른 정보로서 유저의 생체 정보를 취득하는 정보 취득부로서의 기능을 담당한다.
제2 감정 추정부(204)는, 유저의 표정으로부터 추정되는 감정과, 생체 정보로부터 추정되는 감정을 합성해서 제2 감정의 종류와 그 정도를 결정한다. 구체적으로는, 도 5 내지 도 7을 사용해서 설명한 방법과 마찬가지로, 각각의 감정을 벡터로 나타내어 벡터 합을 산출함으로써, 제2 감정의 벡터 V2를 결정한다.
표정 선택부(207)는, 통신 IF(490)를 통해서, 응답 표정 DB(320)로부터 취득한 영상 데이터를 로봇(100')에게 송신한다. 마찬가지로, 음성 선택부(209)는, 통신 IF(490)를 통해서, 선택한 센텐스에 따른 발화 데이터를 로봇(100')에게 송신한다.
도 13은, 로봇(100')의 시스템 구성도이다. 제1 실시예에서 설명한 요소와 원칙적으로 동일한 기능을 담당하는 요소에는 동일한 명칭을 붙이고, 특별히 언급하지 않는 한 그 기능에 관한 설명을 생략한다.
로봇(100')은, 주로, 마이크(101), 카메라(102), 표시 패널(106), 스피커(109), 배터리 감시부(112), 통신 IF(190) 및 제어부(200')를 구비하고 있다. 제어부(200')는, 예를 들어 CPU에 의해 구성되어, 기능마다의 실행을 담당하는 기능 실행부로서도 동작하고, 주로, 눈 제어부(208), 발화 제어부(210)로서 동작한다.
통신 IF(190)는, 서버(300)와 제어 신호나 데이터의 수수를 행하기 위한 통신 인터페이스이며, 예를 들어 무선 LAN 유닛이다. 제어부(200')는, 마이크(101)로부터 수취한 음성 신호와, 카메라(102)로부터 수취한 화상 신호를, 통신 IF(190)를 통해서 서버(300)에 송신한다. 또한, 눈 제어부(208)는, 통신 IF(190)를 통해서 표정 선택부(207)로부터 수취한 영상 데이터를, 표시 패널(106)에서 표시할 수 있는 영상 신호로 변환해서 표시 패널(106)에 전달한다. 발화 제어부(210)는, 통신 IF(190)를 통해서 음성 선택부(209)로부터 수취한 발화 데이터를, 음성 신호로 변환해서 스피커(109)에 전달한다.
이러한 제2 실시예의 시스템 구성이어도, 제1 실시예와 마찬가지로, 유저와의 커뮤니케이션을 실현할 수 있다. 또한, 연산에 관한 기능을 서버(300)에 집약함으로써, 로봇(100')의 구성을 용이하게 할 수 있고, 로봇(100')에 고성능의 제어 칩을 설치하지 않아도, 원활한 커뮤니케이션을 실현할 수 있다. 또한, 서버(300)가 연산에 관한 기능을 담당하는 것이라면, 복수의 로봇(100')으로부터의 연산 요청에 시퀀셜하게 부응할 수도 있으므로, 시스템 전체로서의 제조 비용을 경감할 수도 있다.
이어서, 제3 실시예에 대해서 설명한다. 도 14는, 제3 실시예에 관한 태블릿 단말기(700)의 개관도이다. 제1 실시예 및 제2 실시예에서는, 캐릭터를 구현화한 로봇(100, 100')을 유저가 대화하는 상대로 했지만, 제3 실시예에서는, 태블릿 단말기(700)에 표시한 영상 캐릭터(800)를 대화하는 상대로 한다. 캐릭터를 로봇으로서 실체화하면, 유저는, 애완 동물과 같이 느낄 수 있어, 보다 애착을 가질 수 있게 되지만, 태블릿 단말기(700)로 보다 간편하게 캐릭터를 표현할 수도 있다.
태블릿 단말기(700)의 시스템 구성은, 도 2를 사용해서 설명한 제1 실시예에서의 로봇(100)의 시스템 구성과 거의 공통된다. 공통되는 구성에 대해서는 그 설명을 생략하고, 상이한 구성에 대해서 이하에 설명한다.
태블릿 단말기(700)는, 표시 패널(710), 마이크(711), 스피커(712), 카메라(713)를 구비한다. 표시 패널(710)은, 예를 들어 액정 패널이며, 영상 캐릭터(800)를 표시한다. 따라서, 태블릿 단말기(700)는, 제1 실시예에서의 눈의 영상만을 표시하는 표시 패널(106)을 갖지 않는다.
마이크(711)는, 제1 실시예에서의 마이크(101)와 치환되는 요소이며, 유저의 발화 음성을 집음한다. 스피커(712)는, 제1 실시예에서의 스피커(109)와 치환되는 요소이며, 발화 제어부(210)에서 변환된 음성 신호를 수취하여, 응답 음성을 음성 출력한다. 카메라(713)는, 제1 실시예에서의 카메라(102)와 치환되는 요소이며, 태블릿 단말기(700)에 대치하는 유저의 얼굴을 촬영한다.
태블릿 단말기(700)는, 눈의 표정이 바뀔뿐만 아니라, 얼굴의 전체, 나아가 전신으로 감정을 표현하도록 해도 된다. 그 경우, 응답 표정 DB(320)는, 얼굴 전체, 전신에 대응하는 영상 데이터를 각 감정의 종류와 그 정도에 대응지어 저장하도록 구성하면 된다.
이렇게 태블릿 단말기(700)를 커뮤니케이션 장치로서 기능시키면, 커뮤니케이션 장치로서의 전용 하드웨어를 필요로 하지 않으므로, 유저는 보다 가볍게 캐릭터와의 대화를 즐길 수 있다. 또한, 태블릿 단말기(700)의 다른 애플리케이션에 연동시켜 영상 캐릭터(800)와 대화할 수 있도록 구성하면, 다양한 용도에 응용할 수 있다.
이어서, 약간의 변형예에 대해서 설명한다. 제1 실시예에서는, 실질적으로 모든 구성을 로봇(100)이 구비하고, 제2 실시예에서는, 주요한 연산을 서버(300)의 연산 처리부(400)가 담당하였다. 그러나, 로봇과 서버가 제휴하는 시스템에서는, 각각이 연산 처리부를 구비하여, 담당하는 기능을 분담할 수도 있다. 예를 들어, 경미한 연산은 로봇측의 연산 처리부가 담당하고, 해석을 필요로 하는 무거운 연산은 서버측의 연산 처리부가 담당하면 된다. 구체적으로는, 로봇측의 연산 처리부는, 수긍 동작이나 로봇측에서 발하는 질문문 선택을 담당하고, 서버측의 연산 처리부는, 유저의 개인 인증이나, 감정 추정, 대화 데이터의 축적 등을 담당하면 된다. 이렇게 구성하는 경우에는, 로봇과 서버가 제휴하는 시스템이 커뮤니케이션 장치가 된다.
또한, 로봇과 서버가 제휴하는 시스템에 한하지 않고, 제3 실시예에서 설명한 바와 같은 태블릿 단말기나 스마트폰과 서버가 제휴하는 시스템이어도 된다. 이러한 구성이어도, 경미한 연산은 태블릿 단말기나 스마트폰측의 연산 처리부가 담당하고, 해석을 필요로 하는 무거운 연산은 서버측의 연산 처리부가 담당하면 된다. 이렇게 구성하는 경우에는, 태블릿 단말기나 스마트폰과 서버가 제휴하는 시스템이 커뮤니케이션 장치가 된다.
이상 설명한 각 실시예에서는, 카메라는 대화하는 유저의 얼굴을 촬영했지만, 전신을 촬영하도록 화각을 조정해도 된다. 예를 들어, 뛰어 오르거나 등을 구부리거나 하는 전신의 모습을 관찰할 수 있으면, 제2 감정을 보다 고정밀도로 추정할 수 있다. 또한, 제2 감정을 추정하는 정보원으로서, 상기의 실시예에서는 대화하는 유저의 얼굴과 생체 정보의 예를 설명했지만, 이것에 제한하지 않는다. 유저의 발화 정보 이외의 다양한 정보는, 제2 감정을 추정하는 정보원이 될 수 있다. 예를 들어, 주변 환경으로부터의 집음 마이크를 구비하면, 대화하는 유저 이외의 인물이 갑자기 말을 거는 목소리를 집음할 수 있어, 제2 감정 추정부(204)는, 그 뜻하지 않은 정도에 의해 「놀람」의 감정을 추정할 수 있다.
주변 환경의 정보를 취득하는 센서로서는, 집음 마이크에 한하지 않고, 다른 센서를 채용할 수도 있다. 예를 들어, 온도 센서나 습도 센서를 주변 환경의 정보를 취득하는 센서로 하면, 제2 감정 추정부(204)는, 이들의 출력 신호를 유저의 불쾌 정도를 추정하는 정보로서 이용할 수 있다.
또한, 이상 설명한 각 실시예에서는, 공감 감정 등의 연산에 대해서, 러셀의 원환도를 이용하였다. 러셀의 원환도를 이용함으로써, 유저의 감정을 보다 정량적으로 연산하는 것이 가능하게 된다. 그러나, 공감 감정 등의 연산에 있어서는, 다른 다양한 공지 기술을 채용해도 상관없다.

Claims (11)

  1. 캐릭터와 유저가 대화하기 위한 커뮤니케이션 장치에 있어서,
    상기 캐릭터에 대한 유저의 발화를 취득하도록 구성되는 발화 취득부(101, 201)와,
    상기 발화와는 다른 정보를 취득하도록 구성되는 정보 취득부(102, 202)와,
    상기 발화 취득부(101, 201)가 취득한 상기 발화의 내용에 기초하여 상기 캐릭터가 발하는 응답 음성을 생성하도록 구성되는 음성 생성부(209, 210)와,
    상기 발화 취득부(101, 201)가 취득한 상기 발화의 내용에 기초하여 상기 캐릭터의 얼굴부에서 표현할 응답 표정을 생성하도록 구성되는 표정 생성부(205, 207)를 구비하고,
    상기 표정 생성부(205, 207)는, 상기 정보 취득부(102, 202)로부터 상기 정보를 취득한 경우에는, 취득하지 않는 경우에 비하여 생성하는 상기 응답 표정이 상이할 수 있도록, 상기 발화의 내용과 함께 상기 정보를 사용해서 상기 응답 표정을 생성하는, 커뮤니케이션 장치.
  2. 제1항에 있어서,
    복수의 감정에 각각 대응지어진 상기 응답 표정을 기억하도록 구성된 데이터베이스(320)를 구비하고,
    상기 표정 생성부(205, 207)는, 상기 발화의 내용에 기초하여 추정하는 제1 감정과 상기 정보 취득부(102, 202)에서 취득한 상기 정보에 기초하여 추정하는 제2 감정의 조합에 따라서 결정하는 제3 감정에 대응지어진 상기 응답 표정을, 상기 데이터베이스(320)로부터 선택하는, 커뮤니케이션 장치.
  3. 제2항에 있어서,
    상기 데이터베이스(320)는, 러셀의 원환도에 기초하여 상기 복수의 감정과 각각의 상기 응답 표정이 대응지어져 있고, 상기 표정 생성부(205, 207)는, 상기 원환도에 있어서 상기 제1 감정에 대응하는 제1 벡터와 상기 제2 감정에 대응하는 제2 벡터의 합에 기초하여 제3 감정을 결정하는, 커뮤니케이션 장치.
  4. 제2항 또는 제3항에 있어서,
    상기 표정 생성부(205, 207)는, 상기 제3 감정에 미리 정해진 범위에서 근사하는 제4 감정에 대응하는 상기 응답 표정을 상기 데이터베이스(320)로부터 선택하는, 커뮤니케이션 장치.
  5. 제1항 내지 제4항 중 어느 한 항에 있어서,
    상기 표정 생성부(205, 207)는, 2개의 응답 표정을 연속해서 생성할 경우에는, 상기 2개의 응답 표정의 사이에, 양자를 보간하는 적어도 1개의 보간 응답 표정을 함께 생성하는, 커뮤니케이션 장치.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 정보 취득부(102, 202)는, 상기 유저를 촬상하도록 구성된 촬상부를 포함하는, 커뮤니케이션 장치.
  7. 제1항 내지 제6항 중 어느 한 항에 있어서,
    상기 정보 취득부(102, 202)는, 상기 유저의 생체 정보를 취득하도록 구성된 생체 센서(500)를 포함하는, 커뮤니케이션 장치.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 정보 취득부(102, 202)는, 상기 커뮤니케이션 장치의 주변 환경의 환경 정보를 취득하도록 구성된 환경 센서를 포함하는, 커뮤니케이션 장치.
  9. 제1항 내지 제8항 중 어느 한 항에 있어서,
    상기 캐릭터를 구현화하는 캐릭터 장치의 내부 상태를 취득하도록 구성된 상태 취득부(112)를 구비하고,
    상기 표정 생성부(205, 207)는, 상기 발화의 내용과 상기 정보 외에도, 상기 상태 취득부(112)가 취득한 상기 내부 상태에 기초하여 상기 응답 표정을 생성하는, 커뮤니케이션 장치.
  10. 커뮤니케이션 로봇에 있어서,
    제1항 내지 제9항 중 어느 한 항에 기재된 커뮤니케이션 장치와,
    상기 표정 생성부(205, 207)가 생성한 상기 응답 표정을 표현하도록 구성되는 상기 얼굴부(120)를 구비하는 커뮤니케이션 로봇.
  11. 컴퓨터가 판독 가능한 기록 매체에 있어서,
    캐릭터와 유저가 대화하기 위한 커뮤니케이션 장치의 컴퓨터에서 실행되는 커뮤니케이션 제어 프로그램을 기억하도록 구성된 기억부를 구비하고,
    상기 커뮤니케이션 제어 프로그램이 실행되었을 때 이하의 스텝을 컴퓨터가 실행하는,
    스텝은,
    캐릭터에 대한 유저의 발화를 취득하는 발화 취득 스텝과,
    상기 발화와는 다른 정보를 취득하는 정보 취득 스텝과,
    상기 발화 취득 스텝에서 취득한 상기 발화의 내용에 기초하여 상기 캐릭터가 발하는 응답 음성을 생성하는 음성 생성 스텝과,
    상기 발화 취득 스텝에서 취득한 상기 발화의 내용에 기초하여 상기 캐릭터의 얼굴부에서 표현할 응답 표정을 생성하는 표정 생성 스텝을 구비하고,
    상기 표정 생성 스텝은, 상기 정보를 취득한 경우에는, 취득하지 않는 경우에 비하여 생성하는 상기 응답 표정이 상이할 수 있도록, 상기 발화의 내용과 함께 상기 정보를 사용해서 상기 응답 표정을 생성하는, 컴퓨터가 판독 가능한 기록매체.
KR1020180066259A 2017-06-14 2018-06-08 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체 KR20180136387A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200091537A KR102355911B1 (ko) 2017-06-14 2020-07-23 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JPJP-P-2017-116912 2017-06-14
JP2017116912A JP6841167B2 (ja) 2017-06-14 2017-06-14 コミュニケーション装置、コミュニケーションロボットおよびコミュニケーション制御プログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
KR1020200091537A Division KR102355911B1 (ko) 2017-06-14 2020-07-23 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체

Publications (1)

Publication Number Publication Date
KR20180136387A true KR20180136387A (ko) 2018-12-24

Family

ID=62783979

Family Applications (2)

Application Number Title Priority Date Filing Date
KR1020180066259A KR20180136387A (ko) 2017-06-14 2018-06-08 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체
KR1020200091537A KR102355911B1 (ko) 2017-06-14 2020-07-23 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체

Family Applications After (1)

Application Number Title Priority Date Filing Date
KR1020200091537A KR102355911B1 (ko) 2017-06-14 2020-07-23 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체

Country Status (7)

Country Link
US (1) US10733992B2 (ko)
EP (1) EP3418008A1 (ko)
JP (1) JP6841167B2 (ko)
KR (2) KR20180136387A (ko)
CN (1) CN109079805A (ko)
BR (1) BR102018011528A2 (ko)
RU (1) RU2696307C1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018097089A1 (ja) * 2016-11-24 2018-05-31 Groove X株式会社 瞳を変化させる自律行動型ロボット
JP2019101492A (ja) 2017-11-28 2019-06-24 トヨタ自動車株式会社 コミュニケーション装置
KR102570279B1 (ko) * 2018-01-05 2023-08-24 삼성전자주식회사 감정 인식을 위한 학습 방법, 감정을 인식하는 방법 및 장치
US11922934B2 (en) * 2018-04-19 2024-03-05 Microsoft Technology Licensing, Llc Generating response in conversation
KR20190141303A (ko) * 2018-06-14 2019-12-24 엘지전자 주식회사 이동 로봇의 동작 방법
JP7010193B2 (ja) * 2018-10-25 2022-01-26 トヨタ自動車株式会社 対話装置および対話装置の制御プログラム
JP6993314B2 (ja) * 2018-11-09 2022-01-13 株式会社日立製作所 対話システム、装置、及びプログラム
CN111383642B (zh) * 2018-12-27 2024-01-02 Tcl科技集团股份有限公司 基于神经网络的语音应答方法、存储介质以终端设备
JP2022051982A (ja) * 2019-02-15 2022-04-04 ソニーグループ株式会社 情報処理装置および情報処理方法
CN109920422A (zh) * 2019-03-15 2019-06-21 百度国际科技(深圳)有限公司 语音交互方法及装置、车载语音交互设备及存储介质
JP7385892B2 (ja) * 2019-05-14 2023-11-24 学校法人 芝浦工業大学 感情推定システム、および感情推定装置
JP7300335B2 (ja) * 2019-07-17 2023-06-29 日本信号株式会社 案内ロボット及び案内ロボット用のプログラム
KR20210020312A (ko) * 2019-08-14 2021-02-24 엘지전자 주식회사 로봇 및 그의 제어 방법
KR20210023367A (ko) * 2019-08-23 2021-03-04 엘지전자 주식회사 로봇 및 그의 제어 방법
CN110737335B (zh) * 2019-10-11 2021-03-23 深圳追一科技有限公司 机器人的交互方法、装置、电子设备及存储介质
CN111128190B (zh) * 2019-12-31 2023-03-21 恒信东方文化股份有限公司 一种表情匹配的方法及系统
US11386888B2 (en) * 2020-07-17 2022-07-12 Blue Ocean Robotics Aps Method of adjusting volume of audio output by a mobile robot device
KR102480556B1 (ko) * 2020-11-26 2022-12-23 주식회사 제페토로보틱스 교육용 로봇의 동작보정 시스템 및 동작보정 방법
CN112706177A (zh) * 2020-12-28 2021-04-27 浙江合众新能源汽车有限公司 一种语音触发机器人表情系统
CN112847369B (zh) * 2021-01-08 2023-04-07 深圳市注能科技有限公司 机器人情绪转变的方法、装置、机器人及存储介质
WO2023000310A1 (en) * 2021-07-23 2023-01-26 Huawei Technologies Co., Ltd. Methods, devices, and media for customizing and expressing personality of robot
KR102598435B1 (ko) * 2021-11-29 2023-11-07 한국과학기술연구원 사람의 감정 변화 패턴을 반영한 로봇의 감정 상태 결정 장치 및 방법

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS534232A (en) 1975-12-27 1978-01-14 Katsumi Miyake Heating device for fuel oil
US6570555B1 (en) * 1998-12-30 2003-05-27 Fuji Xerox Co., Ltd. Method and apparatus for embodied conversational characters with multimodal input/output in an interface device
JP2001188555A (ja) * 1999-12-28 2001-07-10 Sony Corp 情報処理装置および方法、並びに記録媒体
TWI221574B (en) * 2000-09-13 2004-10-01 Agi Inc Sentiment sensing method, perception generation method and device thereof and software
US6975970B2 (en) 2000-12-15 2005-12-13 Soliloquy, Inc. Method for designing an interactive system
FR2874724A1 (fr) * 2004-12-03 2006-03-03 France Telecom Procede d'animation temporelle d'un avatar tridimensionnel, dispositif, programme d'ordinateur, produit programme d'ordinateur et support d'enregistrement correspondants
DE602006009191D1 (de) * 2005-07-26 2009-10-29 Canon Kk Bildaufnahmegerät und -verfahren
US20080119959A1 (en) 2006-11-21 2008-05-22 Park Cheonshu Expression of emotions in robot
TWI332179B (en) 2007-04-13 2010-10-21 Univ Nat Taiwan Science Tech Robotic system and method for controlling the same
CN101298141A (zh) 2007-04-30 2008-11-05 林其禹 机器人系统及机器人系统的控制方法
US8046220B2 (en) * 2007-11-28 2011-10-25 Nuance Communications, Inc. Systems and methods to index and search voice sites
US20100020837A1 (en) * 2008-07-22 2010-01-28 Avago Technologies Fiber Ip (Singapore) Pte. Ltd. Semiconductor light emission device having an improved current confinement structure, and method for confining current in a semiconductor light emission device
CN101888439A (zh) * 2009-05-11 2010-11-17 北京三星通信技术研究有限公司 一种基于卡通形象整体化显示的手机装置及其方法
JP5499924B2 (ja) 2010-06-14 2014-05-21 富士通株式会社 ロボットの制御方法、ロボットの制御プログラムおよびロボット
JP2013239914A (ja) 2012-05-15 2013-11-28 Nikon Corp 撮像装置
JP5624100B2 (ja) 2012-10-03 2014-11-12 コリア インスティチュートオブ インダストリアル テクノロジー 人工感情学習装置及び方法
US9199122B2 (en) 2012-10-09 2015-12-01 Kc Holdings I Personalized avatar responsive to user physical state and context
US20150314454A1 (en) 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
EP2933067B1 (en) 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
JP6359478B2 (ja) * 2015-03-31 2018-07-18 シャープ株式会社 ロボット
CN106325112B (zh) 2015-06-25 2020-03-24 联想(北京)有限公司 一种信息处理方法及电子设备
RU2598050C1 (ru) * 2015-07-29 2016-09-20 Военный Институт (Физической Культуры) Военно-Медицинской Академии Им. С.М. Кирова Способ видео-компьютерной диагностики эмоционального состояния обучаемых и выработки решений на рациональное деление учебных групп
JP6436030B2 (ja) * 2015-09-17 2018-12-12 トヨタ自動車株式会社 ライフログ記録システム
JP6985005B2 (ja) * 2015-10-14 2021-12-22 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 感情推定方法、感情推定装置、及び、プログラムを記録した記録媒体
KR101864142B1 (ko) 2015-11-10 2018-06-05 (주)이산로봇 스마트 단말을 이용한 감성반응 스마트 로봇의 제어 시스템
CN105739688A (zh) * 2016-01-21 2016-07-06 北京光年无限科技有限公司 一种基于情感体系的人机交互方法、装置和交互系统
WO2019060889A1 (en) * 2017-09-25 2019-03-28 Ventana 3D, Llc ARTIFICIAL INTELLIGENCE (IA) CHARACTER SYSTEM CAPABLE OF NATURAL VERBAL AND VISUAL INTERACTIONS WITH A HUMAN BEING

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102045761B1 (ko) * 2019-09-26 2019-11-18 미디어젠(주) 캐릭터 발화 맥락에 따른 음성합성 모델 변경장치

Also Published As

Publication number Publication date
JP6841167B2 (ja) 2021-03-10
KR102355911B1 (ko) 2022-02-07
US10733992B2 (en) 2020-08-04
RU2696307C1 (ru) 2019-08-01
JP2019000937A (ja) 2019-01-10
EP3418008A1 (en) 2018-12-26
KR20200091839A (ko) 2020-07-31
CN109079805A (zh) 2018-12-25
US20180366121A1 (en) 2018-12-20
BR102018011528A2 (pt) 2019-01-15

Similar Documents

Publication Publication Date Title
KR20180136387A (ko) 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체
US11423909B2 (en) Word flow annotation
CN110688911B (zh) 视频处理方法、装置、系统、终端设备及存储介质
US20190206401A1 (en) System and method for intelligent initiation of a man-machine dialogue based on multi-modal sensory inputs
JP7020159B2 (ja) コミュニケーション装置およびその制御プログラム
WO2020148920A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
JP2016224554A (ja) 眼前装着型表示装置
CN109116981A (zh) 一种被动触觉反馈的混合现实交互系统
JP2021068404A (ja) アバターの顔の表情生成システムおよびアバターの顔の表情生成方法
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
CN110139021B (zh) 辅助拍摄方法及终端设备
JP2020126195A (ja) 音声対話装置、音声対話装置の制御装置及び制御プログラム
CN108960191B (zh) 一种面向机器人的多模态融合情感计算方法及系统
WO2023159536A1 (zh) 人机交互方法、装置以及终端设备
KR102490035B1 (ko) 감정 상태 추정을 이용한 vr 시뮬레이터 제어 방법
JP6583754B2 (ja) 情報処理装置、ミラーデバイス、プログラム
JP2019212325A (ja) 情報処理装置、ミラーデバイス、プログラム
JP7123028B2 (ja) 情報処理システム、情報処理方法、及びプログラム
JP2022092558A (ja) 手話補助システム、装着具、手話補助方法、及び手話補助プログラム。
JP2023117068A (ja) 音声認識装置、音声認識方法、音声認識プログラム、音声認識システム
CN111310530A (zh) 手语与语音转换的方法、装置、存储介质和终端设备

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination
J201 Request for trial against refusal decision
J301 Trial decision

Free format text: TRIAL NUMBER: 2020101001863; TRIAL DECISION FOR APPEAL AGAINST DECISION TO DECLINE REFUSAL REQUESTED 20200723

Effective date: 20210226