KR20190100853A - 커뮤니케이션 장치 및 그 제어 프로그램 - Google Patents

커뮤니케이션 장치 및 그 제어 프로그램 Download PDF

Info

Publication number
KR20190100853A
KR20190100853A KR1020190011937A KR20190011937A KR20190100853A KR 20190100853 A KR20190100853 A KR 20190100853A KR 1020190011937 A KR1020190011937 A KR 1020190011937A KR 20190011937 A KR20190011937 A KR 20190011937A KR 20190100853 A KR20190100853 A KR 20190100853A
Authority
KR
South Korea
Prior art keywords
image data
moving image
display
frame
moving
Prior art date
Application number
KR1020190011937A
Other languages
English (en)
Inventor
와타루 가쿠
신타로 요시자와
Original Assignee
도요타 지도샤(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 도요타 지도샤(주) filed Critical 도요타 지도샤(주)
Publication of KR20190100853A publication Critical patent/KR20190100853A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/203D [Three Dimensional] animation
    • G06T13/403D [Three Dimensional] animation of characters, e.g. humans, animals or virtual beings
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G3/00Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes
    • G09G3/20Control arrangements or circuits, of interest only in connection with visual indicators other than cathode-ray tubes for presentation of an assembly of a number of characters, e.g. a page, by composing the assembly by combination of individual elements arranged in a matrix no fixed position being assigned to or needed to be assigned to the individual characters or partial characters
    • AHUMAN NECESSITIES
    • A63SPORTS; GAMES; AMUSEMENTS
    • A63HTOYS, e.g. TOPS, DOLLS, HOOPS OR BUILDING BLOCKS
    • A63H3/00Dolls
    • A63H3/36Details; Accessories
    • A63H3/365Details; Accessories allowing a choice of facial features, e.g. to change the facial expression
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/001Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means with emotions simulating means
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J11/00Manipulators not otherwise provided for
    • B25J11/0005Manipulators having means for high-level communication with users, e.g. speech generator, face recognition means
    • B25J11/0015Face robots, animated artificial faces for imitating human expressions
    • BPERFORMING OPERATIONS; TRANSPORTING
    • B25HAND TOOLS; PORTABLE POWER-DRIVEN TOOLS; MANIPULATORS
    • B25JMANIPULATORS; CHAMBERS PROVIDED WITH MANIPULATION DEVICES
    • B25J9/00Programme-controlled manipulators
    • B25J9/16Programme controls
    • B25J9/1694Programme controls characterised by use of sensors other than normal servo-feedback from position, speed or acceleration sensors, perception control, multi-sensor controlled systems, sensor fusion
    • B25J9/1697Vision controlled systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T13/00Animation
    • G06T13/802D [Two Dimensional] animation, e.g. using sprites
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/02Improving the quality of display appearance
    • G09G2320/0261Improving the quality of display appearance in the context of movement of objects on the screen or movement of the observer relative to the screen
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2320/00Control of display operating conditions
    • G09G2320/10Special adaptations of display systems for operation with variable images
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/14Solving problems related to the presentation of information to be displayed
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2354/00Aspects of interface with display user
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2360/00Aspects of the architecture of display systems
    • G09G2360/04Display device controller operating with a plurality of display units
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2370/00Aspects of data communication
    • G09G2370/04Exchange of auxiliary data, i.e. other than image data, between monitor and graphics controller
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G5/00Control arrangements or circuits for visual indicators common to cathode-ray tube indicators and other visual indicators
    • G09G5/14Display of multiple viewports

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Mechanical Engineering (AREA)
  • Robotics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Hardware Design (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Processing Or Creating Images (AREA)
  • Toys (AREA)
  • Manipulator (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

감정을 표현하기 위한 복수의 프레임 화상으로 이루어지는 동화상 데이터에 대하여, 표시부에 의해 재생 표시하는 동화상 데이터를 제 1 동화상 데이터로부터 제 2 동화상 데이터로 전환하는 경우에, 표시 제어부는, 전환 직전에 재생 표시하는 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 제 2 동화상 데이터의 프레임 화상이 서로 유사하도록, 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하여 제 2 동화상 데이터를 재생 표시하는 커뮤니케이션 장치를 제공한다.

Description

커뮤니케이션 장치 및 그 제어 프로그램{COMMUNICATION APPARATUS AND CONTROL PROGRAM THEREOF}
본 개시는 커뮤니케이션 장치 및 그 제어 프로그램에 관한 것이다.
외부로부터의 정보 등에 따라서 표시부에 감정을 애니메이션으로 표현하는 커뮤니케이션 로봇이 알려져 있다(예를 들면, 일본 공개특허 특개2016-193466호 공보를 참조).
표정을 표현하는 애니메이션 동화상은, 통상, 그 표정의 1주기분의 변화를 연속하는 복수의 프레임 화상에 의해서 묘사하는 것이다. 따라서, 커뮤니케이션 로봇은, 계속해서 어떤 표정을 나타내는 경우에, 그 표정에 대응하는 애니메이션 동화상을 반복해서 재생한다. 표출하는 표정을 변화시키는 경우에는, 다음의 표정에 대응하는 애니메이션 동화상으로 전환하여 재생한다. 이 때, 지금까지의 커뮤니케이션 로봇은, 재생 중인 동화상을 도중에 중단하고 다음의 동화상의 재생을 개시하거나, 재생 중인 동화상의 1주기분의 재생을 끝내고 나서 다음의 동화상의 재생을 개시하고 있었다. 전자(前者)의 전환 수법은, 표정의 연속성을 잃어, 살아있는 인간이나 동물에게서는 있을 수 없는 위화감이 있는 변화를 생기게 하고 있었다. 후자의 전환 수법은, 예를 들면 유저와의 대화에 있어서의 감정의 전환 시점에 대하여 지연을 생기게 하여, 원활한 커뮤니케이션을 저해하는 요인으로 되고 있었다.
본 개시는, 표출하는 감정을 적절한 타이밍에 전환함과 함께, 전환시에 있어서의 표정의 연속성을 고려하여 유저의 위화감을 저감하는 커뮤니케이션 장치를 제공하는 것이다.
본 개시의 제 1 태양에 있어서의 커뮤니케이션 장치는, 표시부와, 감정을 표현하기 위한 복수의 프레임 화상으로 이루어지는 동화상 데이터를 데이터베이스로부터 취득하는 취득부와, 취득부에 의해 취득한 동화상 데이터를 표시부에 의해 재생 표시하는 표시 제어부와, 표시부에 의해 재생 표시하는 동화상 데이터를 현재 재생 표시하고 있는 제 1 동화상 데이터로부터 다음에 재생 표시하는 제 2 동화상 데이터로 전환하는 판단을 행하는 판단부를 구비하며, 표시 제어부는, 판단부가 표시부에 의해 재생 표시하는 동화상 데이터를 제 1 동화상 데이터로부터 제 2 동화상 데이터로 전환한다고 판단한 경우에, 전환 직전에 재생 표시하는 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 제 2 동화상 데이터의 프레임 화상이 서로 유사하도록, 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하여 제 2 동화상 데이터를 재생 표시한다.
이와 같은 표시 제어를 행하면, 제 1 동화상 데이터의 재생 표시에 있어서의 표정의 변화의 흐름을 이어받아 제 2 동화상 데이터의 재생 표시를 개시할 수 있으므로, 전환 시점에 있어서의 재생 화상의 연속성을 확보할 수 있다. 또, 제 1 동화상 데이터의 1주기분의 재생 완료를 기다리지 않고 제 2 동화상 데이터의 재생을 개시하므로, 전환해야 할 타이밍에 표정을 전환할 수 있다.
상기의 커뮤니케이션 장치에 있어서, 표시부는, 안구부의 변화를 나타내는 동화상 데이터를 표시하도록 마련되어 있고, 표시 제어부는, 전환 직전에 재생 표시하는 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 제 2 동화상 데이터의 프레임 화상의 프레임 화상 사이에서 안구부의 눈동자의 개폐 정도가 유사하도록, 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택해도 된다. 표정의 인상은 눈동자의 개폐 정도가 크게 기여하고 있고, 전환 시점에 있어서 눈동자의 개폐 정도가 불연속이면, 유저에게 강한 위화감을 생기게 한다. 그래서, 이와 같이 눈동자의 개폐 정도를 기준으로 하여 전환시의 프레임 화상을 선택하면, 표정의 천이에 있어서 유저에게 보다 부드러운 인상을 줄 수 있다.
또, 이와 같은 커뮤니케이션 장치에 있어서, 동화상 데이터는, 프레임 화상마다의 개폐 정도에 관한 정보를 부수 정보로서 갖고, 표시 제어부는, 부수 정보를 참조하여 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하도록 해도 된다. 이와 같은 정보가 미리 준비되어 있으면, 프레임 화상의 화상 해석 등을 행하지 않고 적절한 프레임 화상을 선택할 수 있으므로, 보다 적은 연산으로 재빨리 제 2 동화상 데이터의 재생 표시를 개시할 수 있다.
또, 동화상 데이터는, 눈동자의 개방 상태로부터 폐쇄 상태를 거쳐 다시 개방 상태가 될 때까지의 주기 정보를 부수 정보로서 갖고, 표시 제어부는, 부수 정보를 참조하여 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하도록 해도 된다. 동화상 데이터가 주기 정보를 갖고 있으면, 개방 상태로부터 폐쇄 상태로 변화되어 있는 것인지, 또는 폐쇄 상태로부터 개방 상태로 변화되어 있는 것인지에 맞추어, 제 2 동화상 데이터로부터 적절한 프레임 화상 데이터를 선택할 수 있다. 즉, 이음매 전후의 프레임 화상이 유사한 것에 그치지 않고, 이음매를 넘어 재생되는 동화상의 흐름으로 하더라도 매끄러워진다.
상기의 동화상 데이터는, 각각의 프레임 화상이 복수의 레이어를 갖고, 복수의 레이어는, 눈동자를 표현하는 눈동자 레이어를 포함하고, 표시 제어부는, 표시부에 대하여, 표현하는 시선 방향에 따라서 눈동자 레이어의 표시 위치를 조정하고, 그 외의 레이어의 표시를 고정 위치로 하도록 표시하면 된다. 프레임 화상을 이와 같은 레이어 구조로 하면, 표정을 안정적으로 표현할 수 있음과 함께, 간단한 연산으로 시선 방향을 조정할 수 있다. 유저는, 시선이 맞음으로써, 커뮤니케이션의 현실감을 향수할 수 있다.
본 개시의 제 2 태양에 있어서의 제어 프로그램은, 표시부에 감정을 표현하기 위한 복수의 프레임 화상으로 이루어지는 동화상 데이터를 재생 표시하는 커뮤니케이션 장치의 제어 프로그램으로서, 동화상 데이터 중의 제 1 동화상 데이터를 표시부에 표시 재생하는 제 1 표시 단계와, 표시부에 재생 표시하는 동화상 데이터를 제 1 동화상 데이터로부터 제 2 동화상 데이터로 전환하는 판단을 행하는 판단 단계와, 판단 단계에서 제 2 동화상 데이터로 전환한다고 판단한 경우에, 전환 직전에 재생 표시하는 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 제 2 동화상 데이터의 프레임 화상이 서로 유사하도록, 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하여 제 2 동화상 데이터를 재생 표시하는 제 2 표시 단계를 컴퓨터에 실행시킨다.
이와 같은 처리를 순차적으로 행하면, 제 1 동화상 데이터의 재생 표시에 있어서의 표정의 변화의 흐름을 이어받아 제 2 동화상 데이터의 재생 표시를 개시할 수 있으므로, 전환 시점에 있어서의 재생 화상의 연속성을 확보할 수 있다. 또, 제 1 동화상 데이터의 1주기분의 재생 완료를 기다리지 않고 제 2 동화상 데이터의 재생을 개시하므로, 전환해야 할 타이밍에 표정을 전환할 수 있다.
본 개시에 의하면, 표출하는 감정을 적절한 타이밍에 전환함과 함께, 전환시에 있어서의 표정의 연속성을 고려하여 유저의 위화감을 저감하는 커뮤니케이션 장치를 제공할 수 있다.
본 발명의 상기 및 다른 목적, 특징 및 장점은, 오직 예시를 위한 이하의 상세 설명과 첨부된 도면으로부터 보다 완전히 이해될 것이고, 따라서 본 발명을 제한한다고 볼 수 없다.
도 1은 제 1 실시예에 관련된 로봇의 개관도이다.
도 2는 로봇의 시스템 구성도이다.
도 3은 우안의 구조를 나타내는 사시도이다.
도 4는 로봇의 표정과 러셀의 원환도와의 관계를 나타내는 도면이다.
도 5는 동화상 데이터의 재생에 대하여 설명하는 도면이다.
도 6은 동화상 데이터의 헤더 정보를 설명하는 도면이다.
도 7은 제 1 동화상 데이터로부터 제 2 동화상 데이터로의 재생 전환을 설명하는 도면이다.
도 8은 제 1 동화상 데이터로부터 제 2 동화상 데이터로의 재생 전환을 설명하는 도면이다.
도 9는 제 1 동화상 데이터로부터 제 2 동화상 데이터로의 재생 전환을 설명하는 도면이다.
도 10은 프레임 화상의 레이어 구조를 설명하는 도면이다.
도 11은 동작 처리의 순서를 나타내는 플로우차트이다.
도 12는 제 2 실시예에 관련된 반송 로봇의 개관도이다.
도 13은 제 3 실시예에 관련된 태블릿 단말의 개관도이다.
도 1은 본 실시 형태의 제 1 실시예에 관련된 로봇(100)의 개관도이다. 로봇(100)은, 유저인 인간과 음성 대화를 행하는 커뮤니케이션 장치로서의 로봇이다. 로봇(100)은, 캐릭터를 구현화한 캐릭터 장치이며, 대화에 맞추어 눈의 표정이 변화된다.
로봇(100)은, 외관으로서 동물을 모방하고 있고 얼굴부(120)를 갖는다. 얼굴부(120)에는, 유저가 눈이라고 인식할 수 있는 위치에, 안구부(122)(우안(122a), 좌안(122b))가 마련되어 있다. 안구부(122)의 구조에 대해서는 나중에 상술하지만, 우안(122a), 좌안(122b)의 각각의 배후에는, 예를 들면, 액정 패널이나 유기 EL 패널인 표시 패널(106)이 설치되어 있다.
로봇(100)의 코의 위치에는, 카메라(102)가 눈에 띄지 않도록 배치되어 있다. 카메라(102)는, 예를 들면 CMOS 센서를 포함하고, 외부 환경을 인식하기 위한 화상을 취득하는 촬상부로서 기능한다. 로봇(100)의 입의 위치에는, 스피커(109)가 숨겨져 배치되어 있다. 스피커(109)는, 로봇(100)이 생성한 음성을 발하는 발화 출력부로서 기능한다. 유저는, 입의 위치로부터 출력되는 음성에, 로봇(100)이 이야기하고 있는 것 같은 감각을 느낀다. 또, 얼굴부(120)의 어느 위치에는, 마이크(101)가 숨겨져 배치되어 있다. 마이크(101)는 유저의 발화 음성 등을 집음(集音)하는 기능을 한다.
도 2는 로봇(100)의 시스템 구성도이다. 로봇(100)은, 주된 시스템 구성으로서, 마이크(101), 카메라(102), 표시 패널(106), 스피커(109), 제어부(200), 응답 음성 DB(310) 및 응답 표정 DB(320)를 구비하고 있다. 제어부(200)는, 예를 들면 CPU에 의해서 구성되고, 기능마다의 실행을 하는 기능 실행부로서도 동작하고, 주로 발화 인식부(201), 얼굴 인식부(202), 표출 판단부(203), 표정 취득부(204), 시선 결정부(205), 음성 선택부(206), 발화 제어부(207) 및 표시 제어부(210)로서 동작한다.
마이크(101)는, 주된 기능으로서, 로봇(100)이 대화하는 상대인 유저의 발화 음성을 집음한다. 마이크(101)는, 집음한 유저의 발화 음성을 음성 신호로 변환하여, 발화 인식부(201)에 넘겨준다.
발화 인식부(201)는, 마이크(101)로부터 수취한 음성 신호를 해석하여 유저의 발화를 인식한다. 발화 인식부(201)는, 마이크(101)와 협동하여, 로봇(100)을 향하여 말을 거는 유저의 발화를 취득하는 발화 취득부로서의 기능을 한다. 발화 인식부(201)는, 구체적으로는, 일반적인 음성 인식 기술에 의해 유저의 발화 내용을 인식한다. 발화 인식부(201)는, 인식한 발화 내용을 음성 선택부(206)에 넘겨준다.
음성 선택부(206)는, 발화 인식부(201)에 의해 인식된 유저의 발화 내용에 대하여 회화로서 적합한 문장을 선택하고, 선택한 문장에 따른 발화 데이터를 응답 음성 DB(310)로부터 수집하여, 발화 제어부(207)에 넘겨준다. 응답 음성 DB(310)는, 음성 선택부(206)에 접속되어 있는 응답 음성의 데이터베이스이며, 예를 들면, 하드디스크 드라이브의 기록 매체에 의해서 구성되어 있다. 응답 음성 DB(310)는, 예를 들면 코퍼스(corpus)로서 체계화되어 있고, 각각의 용어는, 재생 가능한 발화 데이터를 동반하여 저장되어 있다.
발화 제어부(207)는, 수취한 발화 데이터를 음성 신호로 변환하여 스피커(109)에 넘겨준다. 음성 선택부(206)과 발화 제어부(207)는, 서로 협동하여, 유저의 발화 내용에 기초하여 응답 음성을 생성하는 음성 생성부로서의 기능을 한다. 스피커(109)는, 발화 제어부(207)에서 변환된 음성 신호를 수취하여, 응답 음성을 음성 출력한다.
또, 발화 인식부(201)는, 수취한 음성 신호의 운율을 해석한다. 운율은, 발화를 음파로서 파악한 경우의, 그 물리적 특징을 나타내는 것이며, 발화 인식부(201)는, 유저가 발하는 한 덩어리의 음파에 있어서, 예를 들면, 중심 주파수, 주파수 대역, 진폭의 최대값 및 평균값을 물리적 특징으로서 연산한다. 발화 인식부(201)는, 해석한 운율을 표출 판단부(203)에 넘겨준다. 또, 발화 인식부(201)는, 수취한 음성 신호로부터 당해 음성의 출소(出所) 방향을 해석하고, 해석한 출소 방향을 시선 결정부(205)에 넘겨준다.
카메라(102)는, 주된 기능으로서, 로봇(100)과 커뮤니케이션을 취하는 유저를 촬영한다. 카메라(102)는, 촬영한 화상을 화상 신호로 변환하여, 얼굴 인식부(202)에 넘겨준다.
얼굴 인식부(202)는, 카메라(102)로부터 수취한 화상 신호를 해석하여 커뮤니케이션 대상인 유저의 얼굴을 인식한다. 얼굴 인식부(202)는, 인식한 얼굴 영역의 화상 신호를 표출 판단부(203)에 넘겨준다. 또, 얼굴 인식부(202)는, 얼굴 영역의 대표 좌표값을 시선 결정부(205)에 넘겨준다. 대표 좌표값은, 예를 들면, 인식한 얼굴의 양안(兩眼) 사이의 중점(中點) 좌표이다.
표출 판단부(203)는, 얼굴 인식부(202)로부터 수취한 얼굴 영역의 화상 신호, 및 발화 인식부(201)로부터 수취한 운율을 이용하여 유저의 감정을 추정한다. 구체적으로는, 표출 판단부(203)는, 일반적인 얼굴 인식 기술에 의해 유저의 얼굴 화상으로부터 특징점을 추출하고, 그들의 위치, 인접하는 특징점을 연결하는 선분의 기울기, 특징점의 수 등의 표정 특징량을 연산한다. 그리고, 표정 특징량으로부터 예를 들면, 동공의 크기, 눈꼬리가 내려간 상태, 구각(口角)이 올라간 상태, 발한(發汗)의 유무, 주름이 잡힌 상태 등을 추출하여, 유저의 감정을 추정하는 재료로 한다. 또, 표출 판단부(203)는, 운율로부터 진폭 레벨의 변화나 어미의 억양 등을 추출하여, 유저의 감정을 추정하는 재료로 한다. 표출 판단부(203)는, 이들 재료를 종합적으로 판단하여, 유저의 감정을 추정한다.
표출 판단부(203)는, 추정한 유저의 감정에 대응하여 로봇(100)이 표출해야 할 공감 감정을 판단한다. 표출 판단부(203)는, 판단한 공감 감정을 표정 취득부(204)에 넘겨준다. 표정 취득부(204)는, 수취한 공감 감정에 대응하는, 표시 패널(106)에 표시하기 위한 동화상 데이터를, 응답 표정 DB(320)로부터 취득한다.
응답 표정 DB(320)는, 표정 취득부(204)에 접속되어 있는 응답 표정의 데이터베이스이며, 예를 들면, 하드디스크 드라이브의 기록 매체에 의해서 구성되어 있다. 응답 표정 DB(320)는, 예를 들면, 러셀의 원환도에 대응하여 체계화되어 있고, 구체적인 눈의 표정의 동화상 데이터와, 그 표정이 의미하는 감정이 서로 대응지어져 저장되어 있다. 동화상 데이터는, 상세하게는 후술하지만, 안구부의 변화를 나타내는 복수의 프레임 화상에 의해서 구성되고, 그 프레임 화상의 묘화(描畵)나 묘화의 변화에 의해서 감정을 표현한다. 표정 취득부(204)는, 이와 같은 동화상 데이터를 데이터베이스인 응답 표정 DB로부터 취득하는 취득부로서의 기능을 한다. 표정 취득부(204)는, 취득한 동화상 데이터를 표시 제어부(210)에 넘겨준다.
시선 결정부(205)는, 발화 인식부(201)로부터 수취한 음성의 출소 방향, 및 얼굴 인식부(202)로부터 수취한 얼굴 영역의 대표 좌표값 중 적어도 어느 것을 이용하여 커뮤니케이션 대상인 유저의 방향을 연산한다. 그리고, 그 방향을 로봇(100)이 향해야 할 시선 방향이라고 결정한다. 시선 결정부(205)는, 목표로 하는 시선 방향을 표시 제어부(210)에 넘겨준다.
표시 제어부(210)는, 표정 취득부(204)로부터 수취한 동화상 데이터를 전개하고, 시선 결정부(205)로부터 수취한 시선 방향을 실현하도록 눈동자의 표시 위치를 조정하여, 표시 패널(106)에 재생 표시한다. 표시 제어부(210)는, 표정 취득부(204)로부터 새로운 동화상 데이터를 수취하면, 당해 새로운 동화상 데이터의 재생 표시를 개시한다. 구체적으로는 후술한다.
도 3은 우안(122a)의 구조를 나타내는 사시도이다. 좌안(122b)도 우안(122a)과 마찬가지의 구조이며, 각각의 표시 패널(106)은, 모두 표시 제어부(210)에 의해서 표시 제어된다.
우안(122a)은, 주로, 투광 커버(131), 광파이버 다발(132) 및 표시 패널(106)로 이루어진다. 투광 커버(131)는, 예를 들면, 투명한 폴리카보네이트에 의해서 성형되고, 얼굴부(120)의 외장재로서의 역할을 한다. 동물이나 사람을 모방한 로봇의 경우, 눈의 표면은 곡면인 것이 자연스럽고, 유저에게 받아들여지기 쉽다. 따라서, 본 실시 형태에 있어서의 로봇(100)도, 눈의 표면에 상당하는 투광 커버(131)는, 외부를 향하여 볼록 형상의 곡면으로 성형되어 있다.
우안(122a)의 안쪽에는, 우안의 눈동자 등을 도안화한 도안인 우안 화상(161a)을 표시하기 위한 표시 패널(106)이 설치되어 있다. 또, 표시면은, 투광 커버(131)의 외연(外緣) 가장자리를 포함하는 크기를 갖는다. 도면에 있어서는, 투광 커버(131)의 외연 가장자리에 대응하는 크기의 흰자위에 대하여 편위(偏位)한 위치에 우안 화상(161a)이 표시되어 있는 모습을 나타낸다.
또한, 본 실시 형태에 있어서 표시하는 눈동자는, 살아있는 인간이라면 홍채와 동공을 포함하는 각막에 상당하는 부분이지만, 도안화하여 표시하는 것이므로, 살아있는 인간의 눈동자에 대하여 부분적으로 생략되어 있거나, 변형되어 있거나 하는 것이어도 된다. 또, 살아있는 인간에게는 생길 수 없을 것 같은 장식이 실시되어 있어도 된다. 어느 것으로 하더라도, 커뮤니케이션 대상인 유저가, 눈의 표정으로서 인식할 수 있을 것 같은 도안이면 된다.
투광 커버(131)의 안쪽 곡면과 표시 패널(106)의 표면은, 광파이버 다발(132)에 의해서 접속된다. 광파이버 다발(132)은, 표시 패널(106)에 표시된 우안 화상(161a)을 투광 커버(131)까지 전달한다. 광파이버 다발(132)은, 표시 패널(106)의 픽셀의 각각에 일대일로 대응하는 광파이버(132a)의 집합체이다. 도면에서는 설명을 위하여 표시 패널(106)의 표면으로부터 띄워서 나타내고 있지만, 각각의 광파이버(132a)의 일단(一端)은, 표시 패널(106)의 표면에 도광계의 접착제에 의해 접착되어 있다. 각각의 광파이버(132a)는, 집합체로서 그 외주면이 피복(132b)으로 덮여 묶여 있다. 이와 같이 하여, 투광 커버(131), 광파이버 다발(132) 및 표시 패널(106)은, 서로 접속되어 일체화된다.
표시 패널(106)에 표시된 우안 화상(161a)의 광속(光束)은, 광파이버(132a)의 일단으로부터 입사하고, 타단(他端)으로부터 출사한다. 광파이버(132a)의 출사면인 타단의 집합체는, 투광 커버(131)의 안쪽 곡면을 따라가는 가상적인 스크린을 형성한다. 따라서, 표시 패널(106)에 표시된 우안 화상(161a)은, 이 가상적인 스크린에 있어서 유저에게 관찰된다.
도 4는 로봇(100)이 표현하는 표정과 러셀의 원환도와의 관계를 나타내는 도면이다. 도면에 있어서는 얼굴부(120)의 모습을 나란히 나타내고 있지만, 본 실시예에 있어서의 로봇(100)은, 표시 패널(106)에서 재생 표시하는 우안 동화상과 좌안 동화상에 의해 얼굴부(120)의 전체로부터 유저가 받는 인상을 컨트롤하는 것이다. 따라서, 이하에 설명하는 각각의 감정에 대응지어져 응답 표정 DB(320)에 저장되어 있는 동화상 데이터는, 우안 동화상 데이터와 좌안 동화상 데이터에 대응하는 동화상 데이터의 세트이다.
심리학의 분야에서 제창되고 있는 러셀의 원환도는, 모든 감정을 「유쾌-불쾌」와 「놀람-불활성」을 축으로 하는 평면에 원환상으로 배치하는 모델이다. 구체적인 감정이 어느 위치에 배치될 수 있는지에 대해서는 여러 설이 있지만, 본 실시 형태에 있어서는 도시한 바와 같이, 「놀람」부터 시계 방향으로 균등하게, 「경계」, 「흥분」, 「고양」, 「행복」, 「유쾌」, 「만족」, 「온화」, 「릴랙스」, 「냉정」, 「불활성」, 「피로」, 「무기력」, 「우울」, 「슬픔」, 「불쾌」, 「당황」, 「스트레스」, 「긴장」, 「신경질」의 20 감정을 원주 상에 배치하고 있다. 도시하는 러셀의 원환도에 있어서, 서로 인접하는 감정은 서로 비슷한 감정이다. 따라서, 그 표정도 서로 유사하다. 각각의 감정에 대응지어진 동화상 데이터의 도안은, 이와 같은 관계성을 갖고 미리 작성되어 있다.
다음으로, 동화상 데이터의 구조와 표시 제어에 대하여 설명한다. 상술한 바와 같이, 동화상 데이터는, 우안 동화상 데이터와 좌안 동화상 데이터의 세트로 관리되고 있지만, 이하에 있어서는 우안 동화상 데이터에 관하여 설명하고, 특별히 언급하는 경우를 제외하고, 좌안 동화상 데이터에 관한 마찬가지의 설명을 생략한다.
도 5는 우안 동화상 데이터의 재생에 대하여 설명하는 도면이다. 우안 동화상 데이터는, 도시한 바와 같이, 연속하는 복수의 프레임 화상에 의해서 구성되고, 각 프레임에는 우안의 모습이 그려져 있다. 도면의 예에서는, 우안 동화상 데이터는, 프레임 F01부터 프레임 F05까지의 5 프레임에 의해서 구성되어 있고, 이들 프레임을 번호순으로 순차적으로 재생하면, 눈동자가 개방된 상태로부터 일단 폐쇄되고 다시 개방될 때까지의 변화를 애니메이션으로서 표현할 수 있다. 또, 프레임 F05부터 프레임 F01로 되돌아가서 반복해서 재생하면, 일정한 표정을 반복해서 표현할 수 있다. 표시 제어부(210)는, 우안 동화상 데이터를 우안(122a)의 표시 패널(106)에, 예를 들면 초당 6 프레임 정도의 속도로 재생 표시한다.
도 6은 우안 동화상 데이터의 헤더 정보를 설명하는 도면이다. 헤더 정보는, 우안 동화상 데이터에 부가되어 있는 부가 정보이며, 헤더 영역에 기술되어 있다.
헤더 정보는, 표정 표시에 관한 정보로서 주로 「감정 분류」, 「프레임 수」, 「개폐 주기」 및 「개폐 정도」를 포함한다. 「감정 분류」는, 그 동화상 데이터가 어떠한 감정을 표현하는 것인지를 나타내는 정보이며, 상술의 러셀의 원환도에서 나타내어지는 하나의 감정이 대응지어져 있다. 도면의 예에서는 「릴랙스」인 것이 기술되어 있다. 표정 취득부(204)는, 이 「감정 분류」의 정보를 참조하여, 지정된 공감 감정의 동화상 데이터를 탐색한다.
「프레임 수」는, 그 동화상 데이터가 몇 개의 프레임 화상에 의해서 구성되어 있는지를 나타내고, 도면의 예에서는 5개의 프레임 화상에 의해서 구성되어 있는 것을 나타내고 있다. 표시 제어부(210)는, 동일한 감정을 계속해서 표현하는 경우에는, 이 「프레임 수」의 정보를 참조하여, 반복해서 재생을 원활하게 실행한다.
「개폐 주기」는, 개방 상태의 모습을 그린 프레임으로부터 폐쇄 상태의 모습을 그린 프레임을 거쳐, 다시 개방 상태의 모습을 그린 프레임으로 되돌아갈 때까지의 프레임 수를 나타내고, 도면의 예에서는 「프레임 수」와 동일한 5개의 프레임에 의해 1주기로 되어 있는 것을 나타내고 있다. 「개폐 정도」는, 각 프레임에 그려진 우안이 어느 정도 개방된 상태를 그린 것인지를 나타내는 값이며, 프레임마다 값이 정해져 있다. 여기서는, 개폐 정도를 「P0」으로부터 「P3」까지의 4단계로 나타내고, 가장 개방된 상태를 「P0」, 폐쇄된 상태를 「P3」이라고 하여, 그 중간을 「P1」(개방될 기미), 「P2」(폐쇄될 기미)라고 하고 있다. 도면에서는, 예를 들면, 프레임 F04에 대하여 P2가 규정되어 있다.
종전의 커뮤니케이션 로봇은, 표출하는 표정을 변화시키는 경우에는, 재생 중인 동화상을 도중에 중단하고 다음의 동화상을 선두부터 재생하거나, 재생 중인 동화상의 1주기분의 재생을 끝내고 나서 다음의 동화상의 재생을 개시하고 있었다. 전자의 전환 수법은, 표정의 연속성을 잃어, 살아있는 인간이나 동물에게서는 있을 수 없는 위화감이 있는 불연속적인 변화를 생기게 하였다. 후자의 전환 수법은, 유저와의 대화에 있어서의 감정의 전환 시점에 대하여 지연을 생기게 하여, 원활한 커뮤니케이션을 저해하는 요인으로 되고 있었다.
그래서, 본 실시예에 있어서의 로봇(100)에서는, 표출하는 감정을 적절한 타이밍에 전환함과 함께, 표정의 연속성을 고려하여 유저의 위화감을 저감하기 위하여, 제 1 동화상 데이터로부터 제 2 동화상 데이터로의 재생 전환을 고안한다. 이하에 재생 전환시에 있어서의 몇 가지의 표시 제어에 대하여 설명한다.
도 7은 현 시점에서 표시하고 있는 제 1 동화상 데이터로부터, 다음에 표시하는 제 2 동화상 데이터로 재생 표시를 전환하는 제 1 제어 예를 설명하는 도면이다. 현 시점에서 재생 표시하고 있는 제 1 동화상 데이터는 「릴랙스」를 표현하는 동화상 데이터이고, 이 동화상 데이터를 재생 표시하고 있는 어떤 타이밍에 있어서, 표출 판단부(203)는, 「만족」을 표현하는 동화상 데이터를 재생한다고 판단한 것으로 한다.
표시 제어부(210)는, 「만족」의 동화상 데이터를 수취하면, 표시를 전환하는 타이밍을 결정한다. 도면의 예에서는, 제 1 동화상 데이터의 프레임 F03의 표시 종료 시점을 전환 타이밍으로 하고 있다. 즉, 제 1 동화상 데이터의 프레임 F03은, 전환 직전에 재생 표시하는 제 1 동화상 데이터의 프레임 화상이다. 표시를 전환하는 타이밍은, 표출 판단부(203)가 공감 감정을 전환한다고 판단한 타이밍에 가능한 한 가까운 것이 바람직하다. 실제로는, 표정 취득부(204)가 응답 표정 DB(320)로부터 동화상 데이터를 판독하는 시간이나, 표시 제어부(210)가 연산 처리에 필요로 하는 시간 등을 고려하여 결정된다.
표시 제어부(210)는, 제 1 동화상 데이터의 프레임 F03을 현 재생 프레임 화상으로 하여, 그 다음의 프레임 화상인 프레임 F04를 비교 기준 프레임 화상이라고 정한다. 그리고, 표시 제어부(210)는, 비교 기준 프레임 화상인 프레임 F04의 개폐 정도 P를 헤더 정보로부터 검색한다. 표시 제어부(210)는, 프레임 F04의 개폐 정도가 P2인 것이 판명되면, 제 2 동화상 데이터를 구성하는 프레임 화상 중에서, 개폐 정도가 P2인 것을 추출한다. 도면의 예에서는, 제 2 동화상 데이터의 프레임 F02와 F04가 개폐 정도 P2로서 규정되어 있다.
비교 기준 프레임 화상과, 전환 후의 최초에 표시되는 전환 후 개시 프레임 화상의 각각의 개폐 정도가 동일한 값이면, 비교 기준 프레임 화상의 눈의 묘화와, 전환 후 개시 프레임 화상의 눈의 묘화는, 비교적 유사한 것이라고 할 수 있다. 따라서, 현 재생 프레임 화상에서 제 1 동화상 데이터의 재생 표시를 종료하고, 계속해서 그와 같은 전환 후 개시 프레임 화상으로부터 제 2 동화상 데이터의 재생 표시를 개시하면, 유저에게 위화감을 주지 않고 원활하게 양 화상 데이터의 재생 표시를 접속할 수 있다. 또, 제 1 동화상 데이터의 최종 프레임이 재생될 때까지 기다리는 일이 없으므로, 감정의 전환 타이밍에 지연을 취하는 부자연스러움도 대폭 경감된다.
전환 후 개시 프레임 화상은, 개폐 정도가 P2인 프레임 F02여도 되고 프레임 F03이어도 되지만, 본 실시예에서는, 추가로 개폐 주기 정보도 이용하여 전환 후 개시 프레임 화상을 결정한다. 즉, 비교 기준 프레임 화상이 프레임 F04이고, 제 1 동화상 데이터의 개폐 주기가 5이기 때문에, 현 시점에 있어서의 우안 화상의 변화는 폐쇄 상태로부터 개방 상태로 향하는 것이라고 판명되므로, 전환 후 개시 프레임 화상도 이 변화에 따르는 것 중에서 선택한다. 표시 제어부(210)는, 제 2 동화상 데이터의 개폐 주기를 읽어들이고, 비교 기준 프레임 화상 F04에 대응하는, 주기 후반의 프레임 화상을 전환 후 개시 프레임 화상의 후보로 한다.
표시 제어부(210)는, 상기와 같이 개폐 주기도 참조하여 제 2 동화상 데이터의 프레임 F04를 전환 후 개시 프레임 화상으로 결정한다. 즉, 표시 제어부(210)는, 제 1 동화상 데이터의 프레임 F03까지 표시하면, 제 2 동화상 데이터의 프레임 F04로 전환하여, 당해 프레임으로부터 제 2 동화상 데이터의 재생 표시를 개시한다. 이와 같이 양 화상 데이터의 재생 표시를 접속하면, 전환 전후의 변화도 계속하게 할 수 있으므로, 표출하는 감정의 전환으로서, 보다 부드러운 인상을 유저에게 줄 수 있다.
도 8은, 현 시점에서 표시하고 있는 제 1 동화상 데이터로부터, 다음에 표시하는 제 2 동화상 데이터로 재생 표시를 전환하는 제 2 제어 예를 설명하는 도면이다. 현 시점에서 재생 표시하고 있는 제 1 동화상 데이터는 「릴랙스」를 표현하는 동화상 데이터이며, 이 동화상 데이터를 재생 표시하고 있는 어떤 타이밍에 있어서, 표출 판단부(203)는, 「놀람」을 표현하는 동화상 데이터를 재생한다고 판단한 것으로 한다.
「놀람」을 표현하는 동화상 데이터인 제 2 동화상 데이터는, 프레임 수가 4이고, 개폐 주기가 2이다. 프레임 F01은 1주기째의 제 1 프레임(c1f1)이고, 프레임 F02는 1주기째의 제 2 프레임(c1f2)이고, 프레임 F03은 2주기째의 제 1 프레임(c2f1)이고, 프레임 F04는 2주기째의 제 2 프레임(c2f2)이다. 각각의 제 1 프레임에 그려진 우안은, 개방 상태 또는 그것에 가까운 상태이고, 각각의 제 2 프레임에 그려진 우안은, 폐쇄 상태 또는 그것에 가까운 상태이다.
여기서도 제 1 제어 예와 동일하게, 제 1 동화상 데이터의 프레임 F03을 현 재생 프레임 화상이라고 하고, 프레임 F04를 비교 기준 프레임 화상이라고 한다. 제 1 동화상 데이터의 개폐 주기는 5이므로, 비교 기준 프레임 화상인 프레임 F04는 주기 후반의 프레임 화상이다. 따라서, 표시 제어부(210)는, 제 2 동화상 데이터 중 각 주기의 제 1 프레임 쪽이 비교 기준 프레임 화상과 유사하고, 또한 변화의 흐름에 따르는 것이라고 판단한다. 또, 비교 기준 프레임 화상이 제 1 동화상 데이터의 주기 후반의 프레임 화상이므로, 제 2 동화상 데이터 중 후반의 개폐 주기인 2주기째로부터 제 1 프레임(c2f1)을 선택하여 전환 후 개시 프레임 화상으로 결정한다.
즉, 표시 제어부(210)는, 제 1 동화상 데이터의 프레임 F03까지 표시하면, 제 2 동화상 데이터의 프레임 F03으로 전환하여, 당해 프레임으로부터 제 2 동화상 데이터의 재생 표시를 개시한다. 이와 같이, 대상으로 하는 동화상 데이터에 따라서는, 개폐 정도의 정보를 사용하지 않고 주기 정보로부터 전환 후 개시 프레임 화상을 결정할 수 있다. 이와 같이 전환 후 개시 프레임 화상을 결정하더라도, 유저에게 위화감을 주지 않고 원활하게 양 화상 데이터의 재생 표시를 접속할 수 있다.
도 9는 현 시점에서 표시하고 있는 제 1 동화상 데이터로부터, 다음에 표시하는 제 2 동화상 데이터로 재생 표시를 전환하는 제 3 제어 예를 설명하는 도면이다. 현 시점에서 재생 표시하고 있는 제 1 동화상 데이터는 「무기력」을 표현하는 동화상 데이터이며, 이 동화상 데이터를 재생 표시하고 있는 어떤 타이밍에 있어서, 표출 판단부(203)는, 「냉정」을 표현하는 동화상 데이터를 재생한다고 판단한 것으로 한다.
「무기력」을 표현하는 동화상 데이터인 제 1 동화상 데이터는, 5개의 프레임 화상에 의해서 구성되어 있지만, 어느 우안도 개방된 상태(P0)로 그려져 있다. 한편으로, 「냉정」을 표현하는 동화상 데이터인 제 2 동화상 데이터는, 5개의 프레임 화상에 의해서 구성되어 있지만, 어느 우안도 폐쇄된 상태(P3)로 그려져 있다. 표시 제어부(210)는, 예를 들면, 제 1 동화상 데이터의 프레임 F03을 현 재생 프레임 화상이라고 하고, 비교 기준 프레임 화상을 프레임 F04라고 결정하더라도, 프레임 F04의 개폐 정도는 P0이므로, 동일한 개폐 정도의 프레임 화상을 제 2 동화상 데이터로부터 추출할 수 없다.
이와 같은 경우에는, 표시 제어부(210)는, 제 2 동화상 데이터의 프레임 F01을 전환 후 개시 프레임 화상으로 결정한다. 이와 같이, 제 1 동화상 데이터를 구성하는 각 프레임에 그려진 우안의 모습과, 제 2 동화상 데이터를 구성하는 각 프레임에 그려진 우안의 모습이 크게 다른 경우에는, 전환시에 오히려 불연속으로 된 쪽이 유저에게 임펙트를 주므로 바람직하다고 할 수 있다.
다음으로, 본 실시예에서 채용하는 동화상 데이터의 프레임 화상에 대하여 설명한다. 도 10은 프레임 화상의 레이어 구조를 설명하는 도면이다. 예를 들면, 「피로」를 표현하는 동화상 데이터가 있는 프레임 화상이, 좌측 위쪽에 나타낸 바와 같이 재생 표시되어 있다고 한다. 이 우안 화상(161a)은, 눈꺼풀을 표현하는 요소와, 눈동자를 표현하는 요소와, 모세혈관을 포함하는 흰자위를 표현하는 요소의 3개로 구성되어 있다. 프레임 화상은 이들 요소를 레이어마다 나누어 보지(保持)하고 있다.
즉, 도시한 바와 같이 레이어 1로서 눈꺼풀의 묘화를 보지하고, 레이어 2로서 눈동자의 묘화를 보지하고, 레이어 3으로서 모세혈관을 포함하는 흰자위의 묘화를 보지하고 있다. 환언하면 각 프레임 화상은 3층 구조를 갖고 있다. 표시 제어부(210)는, 이들 레이어 중, 레이어 1과 레이어 3은 표시 패널(106)에 대하여 소정의 위치에 표시한다. 한편, 레이어 2(눈동자 레이어)로 표현되는 눈동자는, 시선 결정부(205)로부터 수취한 시선 방향을 실현하도록, 표시 패널(106)에 대하여 표시 위치를 조정한다. 즉, 수취한 시선 방향을 실현하는 좌표에, 눈동자의 기준 위치를 이동시킨다.
이와 같이, 눈동자의 요소 이외의 요소를 고정하여 눈동자의 요소만을 이동시킴으로써 시선 방향의 조정을 행하면, 시선 방향의 변화로서 보다 자연스러운 인상을 줄 수 있다. 또, 그 외의 요소가 이동하여 얼굴 전체로서 부자연스러운 인상을 주는 일도 없다.
다음으로, 제어부(200)가 표정의 조정에 관하여 실행하는 동작 처리의 순서를 설명한다. 이하에 설명하는 동작 처리는, 제어부(200)가 시스템 메모리로부터 읽어들인 제어 프로그램을 실행함으로써 실행된다. 도 11은 동작 처리의 순서를 나타내는 플로우차트이다. 플로우는 로봇(100)의 전원이 온으로 되어 개시된다. 또한, 표정의 조정에 관한 처리 이외의 처리에 대한 설명은 생략한다.
단계 S101에서, 얼굴 인식부(202)는, 카메라(102)로부터 화상 신호를 취득하여, 커뮤니케이션 대상인 유저의 얼굴 영역을 인식한다. 또, 발화 인식부(201)는, 마이크(101)로부터 음성 신호를 취득하여 유저의 발화를 인식한다. 시선 결정부(205)는, 단계 S102에서, 이들 정보를 이용하여 안구부(122)의 시선 방향을 결정한다.
표출 판단부(203)는, 단계 S103에서, 얼굴 인식부(202)로부터의 정보 및 발화 인식부(201)로부터의 정보를 이용하여, 얼굴부(120)가 표출해야 할 표정을 판단한다. 그리고, 단계 S104에서, 지금까지 표출했던 표정에 대하여 표출해야 할 표정이 바뀌었는지 여부를 판단한다. 표출해야 할 표정이 바뀐 경우에는, 표시 패널(106)의 재생 표시를 전환하기 위하여, 단계 S105로 진행된다. 그렇지 않은 경우에는, 재생 표시를 전환할 필요가 없으므로, 단계 S107로 진행된다.
표정 취득부(204)는, 단계 S105에서, 표출 판단부(203)가 전환한다고 판단한 공감 감정에 대응하는 동화상 데이터를 응답 표정 DB(320)로부터 취득하고, 표시 제어부(210)에 넘겨준다. 표시 제어부(210)는, 단계 S106에서, 도 7 내지 도 9를 이용하여 설명한 바와 같이, 표정 취득부(204)로부터 수취한 동화상 데이터(제 2 동화상 데이터)의 프레임 화상 중에서 전환 후 개시 프레임 화상을 결정한다.
표정 취득부(204)는, 단계 S107에서, 도 10을 이용하여 설명한 바와 같이, 대상 프레임 화상에 있어서 눈동자의 기준 위치를 이동시킴으로써 시선 방향을 조정한다. 여기서, 대상 프레임 화상은, 동화상 데이터를 전환하는 경우(단계 S106으로부터 단계 S107로 진행된 경우)에는, 전환 후 개시 프레임 화상이고, 전환하지 않은 경우(단계 S104로부터 단계 S107로 진행된 경우)에는, 계속해서 재생 표시하는 다음의 프레임 화상이다. 표시 제어부(210)는, 단계 S108에서, 이와 같이 조정된 프레임 화상을 표시 패널(106)에 표시한다.
제어부(200)는, 단계 S109에서, 무(無)회화 상태에서 일정 시간이 경과하는 등, 유저와의 커뮤니케이션이 종료되었는지 여부를 판단한다. 아직 종료되어 있지 않다고 판단한 경우에는, 단계 S101로 되돌아간다. 종료되었다고 판단한 경우에는, 일련의 처리를 종료한다.
이상으로, 제 1 실시예에 관련된 로봇(100)에 대하여 설명하였지만, 표정의 조정에 관하여 실행하는 동작 처리는, 여러 가지 베리에이션이 존재할 수 있다. 상기의 예에서는, 우안으로서 재생 표시되는 동화상 데이터에 대하여, 전환 후 개시 프레임 화상을 결정하는 예를 설명하였다. 좌안으로서 재생 표시되는 동화상 데이터에 대해서는, 우안과 마찬가지의 처리를 독립적으로 행해도 되고, 우안의 전환 타이밍에 동기시켜 전환 처리를 행해도 된다. 물론 좌안으로서 재생 표시되는 동화상 데이터를 주로 하고, 우안의 전환 타이밍을 좌안의 타이밍에 동기시켜도 된다. 또, 재생하고 있는 동화상 데이터의 묘화 내용에 따라서, 우안의 동화상 데이터를 판단 대상으로 할지 좌안의 동화상 데이터를 판단 대상으로 할지를 결정해도 된다.
또, 상기의 실시예에 있어서는, 비교 기준 프레임 화상과 전환 후 개시 프레임 화상의 유사성은, 헤더에 기술된 프레임마다의 눈동자의 개폐 정도를 이용하거나, 주기 정보를 이용하거나 하여 판단하였다. 이와 같이 판단함으로써, 보다 간편하게 유사성을 판단할 수 있으므로, 재생 표시의 전환 타이밍을, 감정 변화의 타이밍에 가깝게 하는 것에 성공하고 있다. 그러나, 표시 제어부 등의 연산 능력이 높으면, 또는, 미리 헤더 정보에 그와 같은 정보가 준비되어 있지 않은 것이라면, 표시 제어부는, 비교 기준 프레임 화상의 묘화와, 제 2 동화상 데이터의 각 프레임 화상의 묘화를 화상 해석하여 유사 정도를 판단하면 된다.
다음으로, 본 실시 형태의 제 2 실시예에 대하여 설명한다. 도 12는 제 2 실시예에 관련된 로봇(400)의 개관도이다. 제 1 실시예에 관련된 로봇(100)은, 캐릭터를 구현화한 커뮤니케이션 로봇이었지만, 제 2 실시예에 관련된 로봇(400)은, 반송물을 파지하여 자율 이동하는 반송 로봇으로서의 기능도 갖는 커뮤니케이션 로봇이다. 최근의 반송 로봇은, 인간과 작업 공간을 공유하는 것이 늘어나고 있고, 인간과 커뮤니케이션을 취하면서 작업을 실행하는 것도 알려져 있다. 로봇(400)은, 반송 로봇이면서, 로봇(100)과 같은 커뮤니케이션을 실행할 수 있는 로봇이다.
로봇(400)은, 커뮤니케이션 기능에 관한 구성은 로봇(100)과 대략 마찬가지이므로, 주로 상위점에 대하여 설명한다. 반송 로봇과 같은 기능 로봇은, 얼굴부나 동체부가 반드시 인간이나 동물의 형태를 모방하는 것이 아니어도 된다. 로봇(400)은, 도시한 바와 같이, 얼굴부(420)가 대략 표시 패널(406)만으로 구성되어 있다. 표시 패널(406)에는, 눈 화상(461)과 입 화상(462)을 포함하는 얼굴 화상이 표시된다.
이와 같이 구성된 로봇(400)에 있어서도, 로봇(100)과 마찬가지로, 화상의 변화에 의해 공감 감정을 표출할 수 있다. 구체적으로는, 눈 화상(461)으로서, 각 감정에 대응하는 동화상 데이터가 준비되어 있고, 이것에 대응하여 입 화상(462)으로서도, 각 감정에 대응하는 동화상 데이터가 준비되어 있다. 그리고, 표정을 변화시키는 경우에는, 각각의 동화상 데이터의 전환 프레임 화상을 상술한 바와 같이 결정하면, 유저에게 위화감을 주지 않고 부드럽게 표정을 변화시킬 수 있다. 따라서, 로봇(400)이 인간이나 동물의 형태와는 동떨어진 외견이더라도, 로봇(400)과 작업하는 유저는, 로봇(100)과 같이 커뮤니케이션을 취할 수 있다.
다음으로, 본 실시 형태의 제 3 실시예에 대하여 설명한다. 도 13은 제 3 실시예에 관련된 태블릿 단말(500)의 개관도이다. 제 1 실시예 및 제 2 실시예에 있어서는 로봇을 유저가 대화하는 상대로 하였지만, 제 3 실시예에 있어서는, 태블릿 단말(500)에 표시한 영상 캐릭터(600)를 대화하는 상대로 한다. 캐릭터를 로봇으로서 실체화하면, 유저는 애완동물처럼 느낄 수 있어, 보다 애착을 가질 수 있게 되지만, 태블릿 단말(500)에서 보다 간편하게 캐릭터를 표현할 수도 있다.
태블릿 단말(500)은, 커뮤니케이션 기능에 관한 구성은 로봇(100)과 대략 마찬가지이므로, 주로 상위점에 대하여 설명한다. 태블릿 단말(500)은 마이크(501), 카메라(502), 표시 패널(506), 스피커(509)를 구비한다. 표시 패널(506)은 예를 들면 액정 패널이며, 영상 캐릭터(600)를 표시한다.
영상 캐릭터(600)의 얼굴부(620)는, 눈 화상(661)과 입 화상(662)의 변화에 의해서 공감 감정을 표현한다. 구체적으로는, 눈 화상(661)으로서, 각 감정에 대응하는 동화상 데이터가 준비되어 있고, 이것에 대응하여 입 화상(662)으로서도, 각 감정에 대응하는 동화상 데이터가 준비되어 있다. 그리고, 표정을 변화시키는 경우에는, 각각의 동화상 데이터의 전환 프레임 화상을 상술한 바와 같이 결정하면, 유저에게 위화감을 주지 않고 부드럽게 표정을 변화시킬 수 있다. 따라서, 영상 캐릭터(600)가 태블릿 단말(500)에서 표시되는 것이더라도, 로봇(100)과 같이 커뮤니케이션을 취할 수 있다.
이상으로 제 1 실시예 내지 제 3 실시예를 통하여 본 실시 형태를 설명하였지만, 커뮤니케이션 장치의 태양은 이들 실시예에 한정되지 않는다. 예를 들면, 환경 센서나 데이터베이스는 외부 장치에 구비되어 있어도 된다. 이 경우, 커뮤니케이션 장치는, 이들 외부 장치와 통신하기 위한 통신 IF를 구비하면 된다.
또, 상기의 실시예에서는, 양안을 구비하는 얼굴부를 설명하였지만, 단안(單眼)의 안구부나, 삼안(三眼) 이상의 안구부를 갖는 캐릭터여도 상관없다. 또, 상기의 예에서는, 광파이버 다발(132)을 개재시킨 안구부(122)를 설명하였지만, 광파이버 다발(132) 등을 개재시키지 않고, 곡면의 표시 패널을 안구부(122)로서 채용해도 된다. 또, 간이적으로는 평면의 표시 패널을 안구부(122)로서 채용해도 된다.
프로그램은 임의의 유형의 비일시적 컴퓨터 판독가능 매체를 사용하여 저장되고 컴퓨터에 제공될 수 있다. 비일시적 컴퓨터 판독가능 매체는 임의의 유형의 유형(有形) 저장 매체를 포함한다. 비일시적 컴퓨터 판독가능 매체의 예는 자기 저장 매체(예컨대, 플로피 디스크, 자기 테이프, 하드 디스크 드라이브 등), 광학 자기 저장 매체(예를 들어, 광자기 디스크), CD-ROM(compact disc read only memory), CD-R(compact disc recordable), CD-R/W(재기입가능 콤팩트 디스크), 및 반도체 메모리(예컨대, 마스크 ROM, PROM(programmable ROM), EPROM(erasable PROM), 플래시 ROM, RAM(random access memory) 등)를 포함한다. 프로그램은 임의의 유형의 일시적 컴퓨터 판독가능 매체를 사용하여 컴퓨터에 제공될 수 있다. 일시적 컴퓨터 판독가능 매체의 예는 전기 신호, 광학 신호, 및 전자기파를 포함한다. 일시적 컴퓨터 판독가능 매체는 유선 통신 라인(예를 들어, 전선 및 광섬유) 또는 무선 통신 라인을 통해 프로그램을 컴퓨터에 제공할 수 있다.
위와 같은 발명의 설명에 의해, 발명의 실시예가 다양한 방법으로 달라질 수 있음이 명백하다. 이러한 변형은 발명의 사상 및 범위에서 벗어나는 것으로 간주되어서는 안되고, 모든 그러한 변형은 다음의 청구범위 내에 포함되는 것이 당업자들에게 명백하다.

Claims (6)

  1. 표시부와,
    감정을 표현하기 위한 복수의 프레임 화상으로 이루어지는 동화상 데이터를 데이터베이스로부터 취득하는 취득부와,
    상기 취득부에 의해 취득한 상기 동화상 데이터를 상기 표시부에 의해 재생 표시하는 표시 제어부와,
    상기 표시부에 의해 재생 표시하는 상기 동화상 데이터를 현재 재생 표시하고 있는 제 1 동화상 데이터로부터 다음에 재생 표시하는 제 2 동화상 데이터로 전환하는 판단을 행하는 판단부를 구비하며,
    상기 표시 제어부는, 상기 판단부가 상기 표시부에 의해 재생 표시하는 상기 동화상 데이터를 상기 제 1 동화상 데이터로부터 상기 제 2 동화상 데이터로 전환한다고 판단한 경우에, 전환 직전에 재생 표시하는 상기 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 상기 제 2 동화상 데이터의 프레임 화상이 서로 유사하도록, 상기 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하여 상기 제 2 동화상 데이터를 재생 표시하는 커뮤니케이션 장치.
  2. 제 1 항에 있어서,
    상기 표시부는, 안구부의 변화를 나타내는 상기 동화상 데이터를 표시하도록 마련되어 있고,
    상기 표시 제어부는, 전환 직전에 재생 표시하는 상기 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 상기 제 2 동화상 데이터의 프레임 화상의 프레임 화상 사이에서 상기 안구부의 눈동자의 개폐 정도가 유사하도록, 상기 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하는 커뮤니케이션 장치.
  3. 제 2 항에 있어서,
    상기 동화상 데이터는, 프레임 화상마다의 상기 개폐 정도에 관한 정보를 부수 정보로서 갖고,
    상기 표시 제어부는, 상기 부수 정보를 참조하여 상기 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하는 커뮤니케이션 장치.
  4. 제 2 항 또는 제 3 항에 있어서,
    상기 동화상 데이터는, 상기 눈동자의 개방 상태로부터 폐쇄 상태를 거쳐 다시 개방 상태가 될 때까지의 주기 정보를 부수 정보로서 갖고,
    상기 표시 제어부는, 상기 부수 정보를 참조하여 상기 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하는 커뮤니케이션 장치.
  5. 제 2 항 내지 제 4 항 중 어느 한 항에 있어서,
    상기 동화상 데이터는, 각각의 프레임 화상이 복수의 레이어를 갖고, 상기 복수의 레이어는, 상기 눈동자를 표현하는 눈동자 레이어를 포함하고,
    상기 표시 제어부는, 상기 표시부에 대하여, 표현하는 시선 방향에 따라서 상기 눈동자 레이어의 표시 위치를 조정하고, 그 외의 레이어의 표시를 고정 위치로 하는 커뮤니케이션 장치.
  6. 표시부에 감정을 표현하기 위한 복수의 프레임 화상으로 이루어지는 동화상 데이터를 재생 표시하는 커뮤니케이션 장치의 제어 프로그램으로서,
    상기 동화상 데이터 중의 제 1 동화상 데이터를 상기 표시부에 표시 재생하는 제 1 표시 단계와,
    상기 표시부에 재생 표시하는 상기 동화상 데이터를 상기 제 1 동화상 데이터로부터 제 2 동화상 데이터로 전환하는 판단을 행하는 판단 단계와,
    상기 판단 단계에서 상기 제 2 동화상 데이터로 전환한다고 판단한 경우에, 전환 직전에 재생 표시하는 상기 제 1 동화상 데이터의 프레임 화상의 다음의 프레임 화상과 전환 직후에 재생 표시하는 상기 제 2 동화상 데이터의 프레임 화상이 서로 유사하도록, 상기 제 2 동화상 데이터로부터 재생 개시의 프레임 화상을 선택하여 상기 제 2 동화상 데이터를 재생 표시하는 제 2 표시 단계를 컴퓨터에 실행시키는 기록 매체에 저장된 제어 프로그램.
KR1020190011937A 2018-02-07 2019-01-30 커뮤니케이션 장치 및 그 제어 프로그램 KR20190100853A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018020119A JP7020159B2 (ja) 2018-02-07 2018-02-07 コミュニケーション装置およびその制御プログラム
JPJP-P-2018-020119 2018-02-07

Publications (1)

Publication Number Publication Date
KR20190100853A true KR20190100853A (ko) 2019-08-29

Family

ID=64901444

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190011937A KR20190100853A (ko) 2018-02-07 2019-01-30 커뮤니케이션 장치 및 그 제어 프로그램

Country Status (5)

Country Link
US (1) US20190240588A1 (ko)
EP (1) EP3525199A1 (ko)
JP (1) JP7020159B2 (ko)
KR (1) KR20190100853A (ko)
CN (1) CN110116413A (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USD898761S1 (en) * 2018-04-26 2020-10-13 Lg Electronics Inc. Display screen with graphical user interface
CN110136231B (zh) * 2019-05-17 2023-02-24 网易(杭州)网络有限公司 虚拟角色的表情实现方法、装置及存储介质
CN111050105A (zh) * 2019-12-14 2020-04-21 中国科学院深圳先进技术研究院 视频播放方法、装置、玩具机器人及可读存储介质
JP7399740B2 (ja) 2020-02-20 2023-12-18 株式会社国際電気通信基礎技術研究所 コミュニケーションロボット、制御プログラムおよび制御方法
USD980864S1 (en) * 2020-07-16 2023-03-14 Lg Electronics Inc. Display screen or a portion thereof with graphical user interface
US20240037828A1 (en) * 2022-07-29 2024-02-01 Ncr Corporation Secondary display to a primary display with an animated feedback interface

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3368967B2 (ja) * 1994-01-25 2003-01-20 任天堂株式会社 ゲーム機用変換装置
JPH11478A (ja) * 1997-06-11 1999-01-06 Fumiko Moriya 模型動物の動く瞳の構造
JPH11219445A (ja) * 1998-02-03 1999-08-10 Matsushita Electric Ind Co Ltd 画像表示装置、画像表示方法、および画像表示プログラム記録媒体
KR100437372B1 (ko) * 2001-04-18 2004-06-25 삼성광주전자 주식회사 이동통신망을 이용한 로봇 청소 시스템
JP3891413B2 (ja) 2002-06-14 2007-03-14 日本ビクター株式会社 ロボット装置
AU2003900809A0 (en) * 2003-02-24 2003-03-13 Aristocrat Technologies Australia Pty Ltd Gaming machine transitions
JP4812426B2 (ja) 2005-12-27 2011-11-09 富士通株式会社 ロボット制御装置
CN100460159C (zh) * 2007-07-12 2009-02-11 上海交通大学 工业机器人离线编程系统
US20150314454A1 (en) * 2013-03-15 2015-11-05 JIBO, Inc. Apparatus and methods for providing a persistent companion device
JP6359478B2 (ja) 2015-03-31 2018-07-18 シャープ株式会社 ロボット
JP2018008318A (ja) 2016-07-11 2018-01-18 森本 高広 ロボット用薄型弾性表皮
WO2018016461A1 (ja) 2016-07-20 2018-01-25 Groove X株式会社 スキンシップを理解する自律行動型ロボット
CN106113041A (zh) * 2016-07-20 2016-11-16 徐州木牛流马机器人科技有限公司 一种基于总线舵机控制的智能机器人控制系统

Also Published As

Publication number Publication date
EP3525199A1 (en) 2019-08-14
CN110116413A (zh) 2019-08-13
US20190240588A1 (en) 2019-08-08
JP2019136797A (ja) 2019-08-22
JP7020159B2 (ja) 2022-02-16

Similar Documents

Publication Publication Date Title
KR20190100853A (ko) 커뮤니케이션 장치 및 그 제어 프로그램
KR102355911B1 (ko) 커뮤니케이션 장치, 커뮤니케이션 로봇 및 컴퓨터가 판독 가능한 기록 매체
CN111145282B (zh) 虚拟形象合成方法、装置、电子设备和存储介质
EP3381175B1 (en) Apparatus and method for operating personal agent
US20190279642A1 (en) System and method for speech understanding via integrated audio and visual based speech recognition
CN111045582B (zh) 一种个性化虚拟人像活化互动系统及方法
KR102400398B1 (ko) 애니메이션 캐릭터 헤드 시스템 및 방법
JP7227395B2 (ja) インタラクティブ対象の駆動方法、装置、デバイス、及び記憶媒体
US11200902B2 (en) System and method for disambiguating a source of sound based on detected lip movement
JP6544333B2 (ja) コミュニケーション装置
KR102180576B1 (ko) 사용자의 플레잉에 기초하여 재프로그래밍되는 인터랙티브 콘텐츠 제공 방법 및 장치
JP2002351489A (ja) ゲーム情報、情報記憶媒体、及びゲーム装置
WO2020129959A1 (ja) コンピュータプログラム、サーバ装置、端末装置及び表示方法
KR101913811B1 (ko) 얼굴 표현 및 심리 상태 파악과 보상을 위한 얼굴 정보 분석 방법 및 얼굴 정보 분석 장치
CN110162598A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
US20200251110A1 (en) Voice conversation system, control system for voice conversation system, and control program, and control method
US20190232501A1 (en) Communication robot and control program therefor
CN110166844A (zh) 一种数据处理方法和装置、一种用于数据处理的装置
Barbulescu Generation of audio-visual prosody for expressive virtual actors
CN116977030A (zh) 一种基于人工智能的虚拟现实人体模型生成及交互方法
Prado A new probabilistic methodology to support an emotive dialog between a human and a robot
Czap et al. Improving Naturalness of Visual Speech Synthesis

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X601 Decision of rejection after re-examination