KR20210077683A

KR20210077683A - 정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템

Info

Publication number: KR20210077683A
Application number: KR1020217010884A
Authority: KR
Inventors: 요시하루 데와
Original assignee: 소니그룹주식회사
Priority date: 2018-10-29
Filing date: 2019-09-02
Publication date: 2021-06-25
Also published as: WO2020090215A1; JP7428134B2; EP3876547A1; KR102700436B1; US20220053241A1; JPWO2020090215A1; US11985390B2; EP3876547A4

Abstract

방송형의 동화상 콘텐츠에 관련하는 서비스를 제공하는 정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템을 제공한다. 정보 처리 장치는, 방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신부와, 상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하는 취득부와, 2차원 또는 3차원 표시 가능한 표시부와, 상기 취득부가 취득한 상기 정보에 기초하여, 상기 표시부를 사용하여 표시하는 상기 가상 캐릭터의 구동을 제어하는 제어부를 구비한다.

Description

정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템

본 명세서에서 개시하는 기술은, 방송형의 동화상 콘텐츠에 관련하는 서비스를 제공하는 정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템에 관한 것이다.

텔레비전 방송 서비스가 광범위하게 보급된지 오래이다. 또한 최근에는, IPTV(Internet Protocol TV)나 OTT(Over-The-Top) 등의, 네트워크를 이용한 방송형의 동화상 배신 서비스도 침투되고 있다.

한편, 구두 또는 텍스트 형식의 자연 언어 입력을 해석하여 유저의 의도를 추측하여, 유저와의 대화 등의 액션을 실행하는 시스템의 이용도 확장되고 있다. 이러한 종류의 대화 기능을 구비한 시스템은, 「에이전트」나 「어시스턴트」라고도 불리지만, 전용의 전자 기기나, 텔레비전이나 스마트폰 등의 정보 단말기 상에서 실행되는 애플리케이션으로서 실현된다. 또한, 이러한 종류의 시스템의 대화 기능은, AI(Artificial Intelligence) 기능이나, 인터넷 등을 통해 접속되는 백 엔드의 대화 엔진 등을 이용하여 실현된다.

예를 들어, 텔레비전이나 셋톱 박스에 접속하여, 미디어 재생이나 기타의 임의의 기능을 제어하는 가상 어시스턴트에 대하여 제안이 이루어져 있다(특허문헌 1을 참조).

일본 특허 공표 제2017-530567호 공보

본 명세서에서 개시하는 기술의 목적은, 방송형의 동화상 콘텐츠에 관련하는 서비스를 제공하는 정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템을 제공하는 데 있다.

본 명세서에서 개시하는 기술의 제1 측면은,

방송형의 동화상 콘텐츠를 수신하는 수신부와,

상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 제2 기기에 통지하는 통지부

를 구비하는 정보 처리 장치이다.

제1 측면에 관한 정보 처리 장치는, 예를 들어 방송파 또는 스트림 배신되는 상기 동화상 콘텐츠를 수신하는 텔레비전 수신기이고, StreamEvent 또는 WebSocket 등에 의해, 상기 이벤트의 트리거를 수신한다.

또한, 본 명세서에서 개시하는 기술의 제2 측면은,

방송형의 동화상 콘텐츠를 수신하는 수신 스텝과,

상기 동화상 콘텐츠를 표시부에 표시하는 표시 스텝과,

상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따라, 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 제2 기기에 통지하는 통지 스텝

을 갖는 정보 처리 방법이다.

또한, 본 명세서에서 개시하는 기술의 제3 측면은,

방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신부와,

상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하고, 취득한 상기 정보에 기초하여, 상기 가상 캐릭터의 구동을 제어하는 제어부

를 구비하는 정보 처리 장치이다.

제3 측면에 관한 정보 처리 장치는, 상기 방송형의 동화상 콘텐츠를 수신하는 텔레비전 수신기로서의 상기 제1 기기로부터 상기 통지를 수취하지만, 2차원 또는 3차원 표시 가능한 표시부에 표시하는 상기 가상 캐릭터의 구동을 제어한다.

또한, 본 명세서에서 개시하는 기술의 제4 측면은,

방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신 스텝과,

상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하는 취득 스텝과,

상기 취득 스텝에서 취득한 상기 정보에 기초하여, 가상 캐릭터의 구동을 제어하는 제어 스텝

을 갖는 정보 처리 방법이다.

또한, 본 명세서에서 개시하는 기술의 제5 측면은,

방송형의 동화상 콘텐츠를 수신하는 제1 기기와,

가상 캐릭터의 구동을 제어하는 제2 기기

를 구비하고,

상기 제1 기기는, 상기 이벤트의 트리거를 수신한 것에 응답하여, 상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 상기 제2 기기에 통지하고,

상기 제2 기기는, 상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하여, 상기 가상 캐릭터의 구동을 제어하는,

정보 처리 시스템이다.

단, 여기서 말하는 「시스템」이란, 복수의 장치(또는 특정 기능을 실현하는 기능 모듈)가 논리적으로 집합한 물건임을 의미하고, 각 장치나 기능 모듈이 단일의 하우징 내에 있는지 여부는 특별히 따지지 않는다.

본 명세서에서 개시하는 기술에 의하면, 방송형의 동화상 콘텐츠의 내용에 따라 가상 캐릭터를 자동 구동시키는 정보 처리 장치 및 정보 처리 장치, 그리고 정보 처리 시스템을 제공할 수 있다.

또한, 본 명세서에 기재된 효과는, 어디까지나 예시이지, 본 발명의 효과는 이것에 한정되는 것은 아니다. 또한, 본 발명이, 상기한 효과 이외에, 또한 부가적인 효과를 발휘하는 경우도 있다.

본 명세서에서 개시하는 기술의 또 다른 목적, 특징이나 이점은, 후술하는 실시 형태나 첨부하는 도면에 기초하는 더 상세한 설명에 의해 명확해질 것이다.

도 1은 대화 시스템(100)의 구성예를 모식적으로 나타낸 도면이다.
도 2는 표시 장치(110)의 구성예를 나타낸 도면이다.
도 3은 대화 장치(120)의 구성예를 모식적으로 나타낸 도면이다.
도 4는 대화 엔진 프론트 엔드(410)와 대화 엔진 백 엔드(420)의 기능적 구성예를 나타낸 도면이다.
도 5는 대화 시스템(100)에 있어서의 동작 시퀀스 예를 나타낸 도면이다.
도 6은 씬 기술 데이터의 일례를 나타낸 도면이다.
도 7은 씬 기술 데이터의 다른 예를 나타낸 도면이다.
도 8은 표시 장치(110)의 기본적인 동작예를 나타낸 흐름도이다.
도 9는 수신 상태의 대화 장치(120)가 실시할 처리 동작의 수순을 나타낸 흐름도이다.
도 10은 씬 추종 대화 모드 하에서의 대화 장치(120)의 처리 동작을 나타낸 흐름도이다.
도 11은 MR 디바이스에 의해 실내에 가상 캐릭터의 영상이 출현하고 있는 복합 현실 공간을 예시한 도면이다.
도 12는 방송 프로그램 본편을 표시하는 주 화면에 마련된 서브 화면에 가상 캐릭터가 표시되어 있는 모습을 나타낸 도면이다.
도 13은 애완동물형 로봇이, 유저와 함께 시청하고 있는 방송형 데이터 콘텐츠의 내용에 따라 자율 구동하고 있는 모습을 나타낸 도면이다.

이하, 도면을 참조하면서 본 명세서에서 개시하는 기술의 실시 형태에 대하여 상세하게 설명한다.

도 1에는, 본 명세서에서 개시하는 기술을 적용한 대화 시스템(100)의 구성예를 모식적으로 나타내고 있다. 도시의 대화 시스템(100)은, 표시 장치(110)와, 대화 장치(120)로 구성된다.

표시 장치(110)와 대화 장치(120)는, 기본적으로는, 동일한 유저에 의해 사용되는 것으로 한다. 예를 들어, 표시 장치(110)와 대화 장치(120)는, 거실 등 유저와 동일한 공간에 설치되어 있다. 표시 장치(110)는, 방송이나 스트리밍 배신된 콘텐츠를 표시하고, 유저는 표시 장치(110)가 표시하는 콘텐츠를 시청한다. 또한, 대화 장치(120)는, 유저와 대화하여, 유저로부터의 음성이나 제스처 등의 커맨드를 접수하거나, 유저에게 정보를 제시하거나 한다.

표시 장치(110)는, 예를 들어 라우터 경유로 인터넷 등의 외부 네트워크에 상호 접속되어 있다. 또한, 대화 장치(120)는, 실내에 설치된 액세스 포인트 경유로 인터넷 등의 외부 네트워크에 상호 접속되어 있다.

또한, 표시 장치(110)와 대화 장치(120)는, 도시하지 않은 통신 수단을 통해 접속되어 있는 것으로 한다. 통신 수단은, 유선 또는 무선의 어느 것이어도 된다. 예를 들어, 이더넷(등록 상표), Wi-Fi(등록 상표)나 Bluetooth(등록 상표) 등의 기존의 통신 규격에 기초하는 통신을 이용하여 표시 장치(110)와 대화 장치(120)가 접속되어도 되고, 독자 접속이어도 된다. 또한, 적외선 통신이나 기타의 간소한 통신 수단을 이용하여, 표시 장치(110)로부터 대화 장치(120)로의 일방향 통신뿐이어도 된다.

표시 장치(110)는, 방송형의 동화상 콘텐츠를 표시하는 대화면을 장비하고 있다. 표시 장치(110)는, 예를 들어 방송 신호를 선국 수신하는 텔레비전 수신기에 의해 구성되지만, 셋톱 박스에 접속된 디스플레이여도 된다. 방송 신호는, 지상파 및 위성파의 어느 것임을 따지지 않는다. 또한, 표시 장치(110)가 이용하는 방송 서비스는 텔레비전 방송에 한정되지 않고, 예를 들어 IPTV나 OTT와 같은 네트워크를 이용한 방송형의 동화상 배신 서비스도 포함할 수 있다. 후자의 경우, 표시 장치(110)는, 네트워크 인터페이스 카드를 장비한 디스플레이에 의해 구성할 수 있다. 물론, 이것들 이외의 푸시형 콘텐츠 배신 서비스에 의해 제공되는 동화상 콘텐츠를 포함해도 된다.

도 2에는, 표시 장치(110)의 구성예를 나타내고 있다. 표시 장치(110)는, 주제어부(201)와, 버스(202)와, 스토리지부(203)와, 통신 인터페이스(IF)부(204)와, 확장 인터페이스(IF)부(205)와, 튜너/복조부(206)와, 디멀티플렉서(DEMUX)(207)와, 영상 디코더(208)와, 음성 디코더(209)와, 문자 슈퍼 디코더(210)와, 자막 디코더(211)와, 자막 합성부(212)와, 데이터 디코더(213)와, 캐시부(214)와, 애플리케이션(AP) 제어부(215)와, 브라우저부(216)와, 음원부(217)와, 영상 합성부(218)와, 표시부(219)와, 음성 합성부(220)와, 음성 출력부(221)와, 조작 입력부(222)를 구비하고 있다.

주제어부(201)는, 예를 들어 CPU(Cetral Processing Unit)와 ROM(Read Only Memory) 및 RAM(Random Access Memory)으로 구성되어, 소정의 동작 프로그램에 따라 표시 장치(110) 전체를 제어한다. ROM은, 오퍼레이팅 시스템(OS) 등의 기본 동작 프로그램이나 기타의 동작 프로그램이 저장된 불휘발성 메모리이다. ROM 내에는, 표시 장치(110)의 동작에 필요한 동작 설정값이 기억되어도 된다. RAM은 OS나 기타의 동작 프로그램 실행 시의 워크 에어리어로 된다. 버스(202)는, 주제어부(201)와 표시 장치(110) 내의 각 부 사이에서 데이터 송수신을 행하기 위한 데이터 통신로이다. 또한, 본 실시 형태에서는, 방송 서비스(방송국 또는 스트림 배신 서버)측으로부터 동화상 콘텐츠 중의 이벤트에 동기한 트리거 배신이 행해지는 것을 상정하고 있지만(후술), 주제어부(201)는, 트리거 배신을 디코드한 결과를, 데이터 디코더(213)(후술)로부터 수취할 수 있다.

스토리지부(203)는, 플래시 ROM이나 SSD(Solid State Drive), HDD(Hard Disc Drive) 등의 불휘발성의 기억 디바이스로 구성된다. 스토리지부(203)는, 표시 장치(110)의 동작 프로그램이나 동작 설정값, 표시 장치(110)를 사용하는 유저의 개인 정보 등을 기억한다. 또한, 스토리지부(203)는, 인터넷을 통해 다운로드한 동작 프로그램이나 그 동작 프로그램으로 작성한 각종 데이터 등을 기억한다. 또한, 스토리지부(203)는, 방송파나 인터넷을 통해 취득한 동화상, 정지 화상, 음성 등의 콘텐츠도 기억 가능하다.

통신 인터페이스부(204)는, 라우터(전술) 등을 통해 인터넷과 접속되어, 인터넷 상의 각 서버 장치나 기타의 통신 기기와 데이터의 송수신을 행한다. 또한, 통신 인터페이스부(204)는, 통신 회선을 통해 전송되는 프로그램의 데이터 스트림의 취득도 행하는 것으로 한다. 라우터란, 이더넷(등록 상표) 등의 유선 접속, 혹은 Wi-Fi(등록 상표) 등의 무선 접속의 어느 것이어도 된다. 또한, 통신 인터페이스부(204)는, 대화 장치(120)와의 통신 수단을 포함하고 있어도 된다. 대화 장치(120)와의 통신 수단은, 대화 장치(120)로의 일방향 통신뿐이어도 된다.

튜너/복조부(206)는, 안테나(도시 생략)를 통해 지상파 방송 또는 위성 방송 등의 방송파를 수신하고, 주제어부(201)의 제어에 기초하여 유저가 원하는 서비스(방송국 등)의 채널에 동조(선국)한다. 또한, 튜너/복조부(206)는, 수신한 방송 신호를 복조하여 방송 데이터 스트림을 취득한다. 또한, 복수 화면 동시 표시나 타프로그램 녹화 등을 목적으로 하여, 표시 장치(110)가 복수의 튜너/복조부를 탑재하는 구성(즉, 다중 튜너)이어도 된다.

디멀티플렉서(207)는, 입력한 방송 데이터 스트림 중의 제어 신호에 기초하여 리얼타임 제시 요소인 영상 데이터 스트림, 음성 데이터 스트림, 문자 슈퍼 데이터 스트림, 자막 데이터 스트림을, 각각 영상 디코더(208), 음성 디코더(209), 문자 슈퍼 디코더(210), 자막 디코더(211)에 분배한다. 디멀티플렉서(207)에 입력되는 데이터는, 방송 서비스나, IPTV나 OTT 등의 배신 서비스에 의한 데이터를 포함한다. 전자는, 튜너/복조부(206)에서 선국 수신 및 복조된 후에 디멀티플렉서(207)에 입력되고, 후자는, 통신 인터페이스부(204)에서 수신된 후에 디멀티플렉서(207)에 입력된다.

또한, 디멀티플렉서(207)는, 멀티미디어 애플리케이션이나 그 구성 요소인 파일계 데이터를 재생하여, 애플리케이션 제어부(215)에 출력하거나, 또는 캐시부(214)에서 일시적으로 축적한다. 또한, 디멀티플렉서(207)는, 상기한 영상, 음성 및 자막 이외의 데이터의 제시를 행하는 플레이어에서 이용하는 데이터 혹은 애플리케이션에 대한 데이터의 스트리밍에 사용하기 위해, 범용 데이터를 추출하여 데이터 디코더(213)에 출력한다.

영상 디코더(208)는, 디멀티플렉서(207)로부터 입력한 영상 데이터 스트림을 복호하여 영상 정보를 출력한다. 또한, 음성 디코더(209)는, 디멀티플렉서(207)로부터 입력한 음성 데이터 스트림을 복호하여 음성 정보를 출력한다. 또한, 복수 종류의 영상 데이터 스트림 및 음성 데이터 스트림을 동시에 복호 처리하기 위해, 표시 장치(110)는 복수의 영상 디코더(208) 및 음성 디코더(143)를 구비해도 된다.

문자 슈퍼 디코더(210)는, 디멀티플렉서(207)로부터 입력한 문자 슈퍼 데이터 스트림을 복호하여 문자 슈퍼 정보를 출력한다. 자막 디코더(211)는, 디멀티플렉서(207)로부터 입력한 자막 데이터 스트림을 복호하여 자막 정보를 출력한다. 자막 합성부(212)는, 문자 슈퍼 디코더(210)로부터 출력된 문자 슈퍼 정보와, 자막 디코더(211)로부터 출력된 자막 정보는, 자막 합성부(212)를 합성 처리한다.

데이터 디코더(213)는, MPEG-2TS 스트림에 영상 및 음성과 함께 다중화되는 데이터 스트림을 디코드한다. 본 실시 형태에서는, 데이터 디코더(213)는, PSI(Program Specific Information) 테이블의 하나인 PMT(Program Map Table)의 기술자 영역에 저장된 범용 이벤트 메시지를 디코드한 결과를, 주제어부(201)에 통지한다. 또한, 데이터 디코더(213)는, WebSocket을 이용하여 전송된 데이터를 디코드하여, 주제어부(201)에 통지한다. 구체적으로는, StreamEvent나 WebSocket 등을 이용하여, 동화상 콘텐츠 중의 이벤트에 동기한 트리거 배신이 행해지지만, 데이터 디코더(213)는 트리거 배신을 디코드한 결과를, 주제어부(201)에 통지한다.

애플리케이션 제어부(215)는, 방송 데이터 스트림에 포함되는 제어 정보를 디멀티플렉서(207)로부터 입력하거나, 또는 통신 인터페이스부(204)를 통해 인터넷(200) 상의 서버 장치로부터 취득하여, 이들 제어 정보를 해석한다.

브라우저부(216)는, 캐시부(214) 혹은 통신 인터페이스부(204)를 통해 인터넷 상의 서버 장치로부터 취득한 멀티미디어 애플리케이션 파일이나 그 구성 요소인 파일계 데이터를, 애플리케이션 제어부(215)의 지시에 따라 제시한다. 여기서 말하는 멀티미디어 애플리케이션 파일은, 예를 들어 HTML(Hyper Text Markup Language) 문서나 BML(Broadcast Markup Language) 문서 등이다. 또한, 브라우저부(216)는, 음원부(217)에 작용하는 것에 의해, 애플리케이션의 음성 정보의 재생도 행하는 것으로 한다.

영상 합성부(218)는, 영상 디코더(208)로부터 출력된 영상 정보와, 자막 합성부(212)로부터 출력된 자막 정보와, 브라우저부(216)로부터 출력된 애플리케이션 정보를 입력하고, 적절히 선택하거나 또는 중첩하는 처리를 행한다. 영상 합성부(218)는 비디오 RAM(도시를 생략)을 구비하고, 이 비디오 RAM에 입력된 영상 정보에 기초하여 표시부(219)의 표시 구동이 실시된다. 또한, 영상 합성부(218)는, 주제어부(201)의 제어에 기초하여, 필요에 따라, EPG(Electronic Program Guide) 화면이나, 주제어부(201)가 실행하는 애플리케이션에 의해 생성된 그래픽 등의 화면 정보의 중첩 처리도 행한다.

표시부(219)는, 예를 들어 액정 디스플레이나 유기 EL(Electro-Luminescence) 디스플레이 등을 포함하는 표시 디바이스이고, 영상 합성부(218)에서 선택 또는 중첩 처리가 실시된 영상 정보를 유저에게 제시한다.

음성 합성부(220)는, 음성 디코더(209)로부터 출력된 음성 정보와, 음원부(217)에서 재생된 애플리케이션의 음성 정보를 입력하고, 적절히 선택 또는 합성 등의 처리를 행한다.

음성 출력부(221)는, 1대 또는 복수대의 스피커로 구성된다. 음성 출력부(221)는, 복수의 스피커를 조합한 스피커 어레이(다채널 스피커 혹은 초다채널 스피커)나, 패널 스피커여도 된다. 음성 출력부(221)는, 음성 합성부(220)에서 처리된 음성 정보를 유저에게 제시한다.

확장 인터페이스부(205)는, 표시 장치(110)의 기능을 확장하기 위한 인터페이스군이고, 예를 들어 아날로그 영상/음성 인터페이스나, USB(Universal SerialBus) 인터페이스, 메모리 인터페이스 등으로 구성된다. 확장 인터페이스부(205)는, DVI(Digital Visual Interface) 단자나 HDMI(등록 상표) 단자나 Display Port(등록 상표) 단자 등을 포함하는 디지털 인터페이스를 포함하고 있어도 된다.

조작 입력부(222)는, 유저가 표시 장치(110)에 대한 조작 지시의 입력을 행하는 지시 입력부이다. 조작 입력부(222)는, 예를 들어 리모컨(도시 생략)으로부터 송신되는 커맨드를 수신하는 리모컨 수신부와 버튼 스위치를 배열한 조작 키로 구성된다. 또한, 조작 입력부(222)는, 표시부(219)의 화면에 중첩된 터치 패널을 포함해도 된다. 또한, 조작 입력부(222)는, 확장 인터페이스부(205)에 접속된 키보드 등의 외부 부착 입력 디바이스를 포함해도 된다.

표시 장치(110)는, 텔레비전 수신기 외에, 블루레이(등록 상표) 디스크 레코더나 HDD 레코더 등의 디스크 드라이브 레코더, STB(Set Top Box), 디지털 방송 수신 기능이나 방송 통신 연계 기능을 구비한 퍼스널 컴퓨터(Personal Computer)나 타블렛 등의 다기능 정보 단말기, 내비게이션 장치, 게임기 등이어도 된다.

다시 도 1을 참조하면서 설명한다. 대화 장치(120)는, 구두 또는 텍스트 형식의 자연 언어 입력을 해석하여 유저의 의도를 추측하여 유저와의 인터랙션을 실현하는 디바이스이고, 소위 「에이전트」나 「어시스턴트」라고도 불리는 기능을 장비하고 있다.

대화 장치(120)는, 기본적으로는, 「에이전트」나 「어시스턴트」의 거동을 표출하는 가상 캐릭터를 표시하기 위한 서브 화면을 장비하고 있는 것을 상정하고 있다(도 1에는, 대화 장치(120)의 서브 화면에 가상 캐릭터의 영상을 표시하고 있는 모습을 나타내고 있음). 대화 장치(120)는, 유저와의 대화에 따라, 이 가상 캐릭터를 자율 구동시킨다. 서브 화면은, 예를 들어 라이트 필드 디스플레이와 같은 3D 표시 기능을 갖거나 또는 리얼한 영상 표현이 가능한 화면으로 구성되어, 가상 캐릭터를 3D 표시할 수 있는 것이 바람직하다. 또한, 라이트 필드(Light Field)는 관찰자의 시야의 범위에 있는 모든 광을 포함하는 가시 공간이고, 라이트 필드 디스플레이는, 이상적으로는, 관찰자의 눈에 들어가는 모든 광을 재현하는 표시 장치이다. 단, 대화 장치(120)의 서브 화면은, 2D 표시 기능밖에 갖지 않아도 된다.

혹은, 대화 장치(120)는, 헤드 마운트 디스플레이와 같은, 현실 공간 상에 가상 캐릭터의 영상을 복합적으로 표시하는 MR(Mixed Reality) 디바이스여도 된다. 도 11에는, MR 디바이스에 의해, 실내에 가상 캐릭터의 영상이 출현하고 있는 복합 현실 공간을 예시하고 있다.

혹은, 표시 장치(110)로서 이용되는 텔레비전 수신기에서, 유저와 대화하는 가상 캐릭터를 자율 구동하기 위한 애플리케이션을 기동하여, 표시부(219)의 화면 내에 자화면을 마련하여, 가상 캐릭터를 표시하도록 해도 된다. 도 12에는, 방송 프로그램 본편을 표시하는 주 화면에 마련된 서브 화면에 가상 캐릭터가 표시되어 있는 모습을 나타낸 도면이다.

혹은, 대화 장치(120)는, 가상 캐릭터를 3D 표시하는 서브 화면을 장비한 디바이스가 아니라, 애완동물형 로봇이어도 되고, 로봇의 관절 동작에 의해 「에이전트」나 「어시스턴트」로서의 거동을 표현하도록 해도 된다. 이 경우, 대화 장치(120)는, 유저와의 대화에 따라, 로봇은 관절 등의 가동부를 자율 구동시킨다. 도 13에는, 애완동물형 로봇이, 유저와 함께 시청하고 있는 방송형 데이터 콘텐츠의 내용에 따라 자율 구동하고 있는 모습을 나타내고 있다.

혹은, 유저가 소지하는 스마트폰이나 태블릿 등의 정보 단말기에서 「에이전트」나 「어시스턴트」의 애플리케이션을 기동하여, 대화 장치(120)로서 이용하는 것도 상정된다. 이 경우, 정보 단말기가 갖는 화면이나, 정보 단말기에 외부 접속된 디스플레이에 가상 캐릭터가 표시된다. 또한, 표시 장치(110)와 동일한 실내에 설치된 정보 가전에서 애플리케이션을 기동하여, 대화 장치(120)로서 이용하는 것도 상정된다.

요컨대, 대화 장치(120)는, 기본적으로는 3D 표시 기능을 장비한 디바이스이지만, 기타의 형태의 디바이스로 치환하는 것도 가능하다. 대화 장치(120)는, 어느 형태이든, 본 실시 형태에서는, 표시 장치(110)에서 표시하는 방송형의 동화상 콘텐츠를, 유저와 함께 시청하는 것으로 한다.

도 3에는, 대화 장치(120)의 구성예를 모식적으로 나타내고 있다. 단, 도 3에서는, 대화 장치(120)로서, 음성 에이전트와 같은 전용 디바이스를 상정하고 있다. 대화 장치(120)는, 처리부(301)와, 통신부(302)와, 표시부(303)와, 음성 입력부(304)와, 음성 출력부(305)와, 센서부(306)와, 기록부(307)를 구비하고 있다.

통신부(302)는, 이더넷(등록 상표) 등의 유선 통신 또는 Wi-Fi(등록 상표) 등의 무선 통신을 이용하여, 액세스 포인트(도 1을 참조) 경유로 인터넷 등의 외부 네트워크에 접속되어 있다. 또한, 통신부(302)는, 예를 들어 DLNA(등록 상표)(Digital Living Network Alliance) 등의 규격에 준하여, 홈 네트워크를 통해 가정 내의 각 CE 기기와 상호 접속되어 있어도 되고, IoT(Internet of Things) 디바이스와의 인터페이스 기능을 더 구비하고 있어도 된다.

표시부(303)는, 본 실시 형태에 관한 대화 시스템(100)에 있어서, 표시 장치(110)의 주 화면에 대한 「서브 화면」으로서 기능하고, 「에이전트」나 「어시스턴트」의 거동을 표출하는 가상 캐릭터를 표시하는 것을 상정하고 있다. 표시부(303)는, 보다 바람직하게는, 예를 들어 라이트 필드 디스플레이(전술)와 같은 3D 표시 기능을 갖거나 또는 리얼한 영상 표현이 가능한 화면으로 구성되어, 가상 캐릭터를 3D 표시할 수 있다. 물론, 표시부(303)는, 2D 표시 기능밖에 갖고 있지 않아도 된다. 단, 표시부(303)를, 대화 장치(120)에 외부 부착 접속된 MR 디바이스나 기타의 디스플레이로 구성할 수도 있다.

음성 입력부(304)는, 마이크 등의 수음 소자로 구성되어, 대화 장치(120)가 설치된 실내에서 발생하는 음성의 입력에 사용된다. 실내에서 발생하는 음성으로서, 텔레비전 프로그램의 시청자 혹은 음성 에이전트를 이용하는 유저에 의한 발화를 들 수 있다. 음성 입력부(304)는, 복수의 마이크를 조합한 마이크로폰 어레이를 구비하고 있어도 된다.

음성 출력부(305)는, 스피커 등의 음향 발생 소자로 구성된다. 콘형 스피커나 플랫 패널형 스피커 등을 음성 출력부(305)에 사용할 수 있다. 또한, 음성 출력부(305)는, 복수의 스피커를 조합한 스피커 어레이(다채널 스피커 혹은 초다채널 스피커)를 구비하고 있어도 된다. 음향 출력부(305)는, 음성 에이전트 기능의 합성 음성의 출력 등에 사용된다.

센서부(306)는, 예를 들어 대화 장치(120)가 설치되어 있는 실내의 환경 정보를 센싱한다. 센서부(306)의 구성, 즉 어느 센서 소자를 포함할지는 임의이다. 예를 들어, 센서부(306)는, 카메라나 물체 검출 센서, 심도 센서를 포함하고 있어도 된다. 또한, 센서부(306)는, 조도 센서나 온도 센서, 습도 센서 등의 환경 정보를 검출하는 환경 센서를 구비하고 있어도 된다. 또한, 센서부(306)는, 적외선 센서나 인체 감지 센서를 구비하고 있어도 된다. 또한, 센서부(306)는, 유저의 맥박이나 발한, 뇌파, 근전위, 호기 등을 검출하는 생체 센서를 구비하고 있어도 된다. 또한, 센서부(306)는, IMU(Inertial Measurement Unit) 등을 구비하여, 대화 장치(120) 본체의 자세 등을 검출하도록 해도 된다.

기록부(307)는, 예를 들어 HDD나 SSD 등의 대용량 기록 장치로 구성되어, 각종 데이터의 기록에 사용된다. 기록부(307)는, 대화 장치(120) 내에 배치되는 것 외에, USB 등의 인터페이스를 통해 대화 장치(120)에 외부 부착 접속되는 경우도 있다.

처리부(301)는, 프로세서 및 메모리를 포함하고, 메모리에 로드한 프로그램을 실행하여, 각종 처리를 실시하고, 대화 장치(120) 내의 동작을 통괄적으로 컨트롤한다. 처리부(301) 내에서는, 기본적으로는, OS가 제공하는 실행 환경 하에서, 다양한 애플리케이션이 실행된다. 예를 들어, 멀티프로세서가 이용 가능한 경우, 혹은 OS에 의해 멀티스레드 실행이 가능한 경우에 있어서는, 병렬 실행 가능한 처리 단위는 모두 메모리로 읽어들여 병렬 실행시킬 수 있다.

처리부(301)가 실행하는 애플리케이션 중에는, 음성 에이전트 등 유저와의 대화 기능을 실현하기 위한 대화 애플리케이션을 들 수 있다. 또한, 처리부(301)가 복수의 대화 애플리케이션을 병렬 실행함으로써, 대화 장치(120)가 복수의 에이전트 디바이스로서 기능하는 것도 가능하다. 본 실시 형태에서는, 대화 애플리케이션은, 가상 캐릭터를 표시부(303)에 제시하는 것을 상정하고 있다.

대화 장치(120)는, 유저와의 충실한 대화 기능을 실현하기 위해, AI 기능을 탑재하고 있어도 된다. 또한, 대화 장치(120)는, 도 1 등에 나타낸 바와 같은 스탠드얼론의 장치로서가 아니라, 대화 엔진의 프론트 엔드로서 구성되어, 인터넷 상의 서버나 클라우드로 구성되는 대화 엔진에 의한 백 엔드의 제어 하에서 동작하도록 해도 된다.

도 4에는, 대화 엔진 프론트 엔드(410)와 대화 엔진 백 엔드(420)의 기능적 구성예를 나타내고 있다.

대화 엔진 프론트 엔드(410)는, 로컬측(즉, 유저의 근방)에 배치되어, 대화 장치(120)가 실행하는 대화 애플리케이션이고, 대화 장치(120)가 장비하는 음성 입력부(304) 및 음성 출력부(305) 등의 각 기능 모듈을 활용할 수 있다.

한편, 클라우드측은, 대화 엔진 백 엔드(420)와, 복수의 외부 에이전트 서비스(430A, 430B, 430C, …)를 포함하고 있다. 대화 엔진 백 엔드(420) 및 외부 에이전트 서비스(430A, 430B, 430C, …)는 모두, 로컬측의 유저로부터의 문의에 회답하는 에이전트 서비스를 제공한다. 단, 전자는 대화 엔진 프론트 엔드(410)와 직접 연계하는 것에 비해, 후자는 대화 엔진 프론트 엔드(410)와는 직접적으로는 연계되지 않고, 대화 엔진 프론트 엔드(410)에 대하여 대화 엔진 백 엔드(420)의 개재에 의해 간접적으로 에이전트 서비스를 제공하는 점에서 「외부 에이전트 서비스」라고 칭하고, 대화 엔진 백 엔드(420)와는 구별하고 있다. 또한, 외부 에이전트 서비스(430A, 430B, 430C, …)의 적어도 일부(도 4에 나타내는 예에서는, 외부 에이전트 서비스(430C))는, 로컬측에 설치된 외부 에이전트 디바이스(440)와 직접 연계되어 있다.

대화 엔진 백 엔드(420)는, 음성 인식부(421)와, 의미 해석부(422)와, 음성 합성부(423)와, 제어부(424)를 구비하고 있다.

음성 인식부(421)는, 대화 엔진 프론트 엔드(410)측의 음성 입력부(304)에서 수음된 유저의 발화를 음성 인식하여, 텍스트 정보로 변환한다. 의미 해석부(332)는, 음성 인식된 텍스트 정보에 기초하여, 유저의 발화 데이터의 의미 해석을 행한다. 또한, 음성 합성부(423)는, 유저에 대한 회답 혹은 피드백이 되는 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는, 대화 엔진 프론트 엔드(410)로 보내지고, 음성 출력부(305)로부터 유저에 대하여 음성 출력된다. 또한, 대화 엔진 프론트 엔드(410)는, 음성 출력 이외에, 표시부(303)의 화면에 표시하는 가상 캐릭터의 동작이나 행위에 따라, 유저에게 피드백을 부여하도록 해도 된다.

제어부(424)는, 대화 엔진 프론트 엔드(410)의 유저와 대화하기 위한 처리를 실행한다. 예를 들어, 제어부(424)는, 유저가 문의한 정보를 검색하거나, 유저가 요구한 콘텐츠를 취득하거나, 상품의 주문을 행하거나 한다. 유저로부터의 문의에 대하여 더 우수한 회답을 실현하기 위해, 제어부(424)는, 학습 기능이나 AI 기능을 탑재하고 있어도 된다. 제어부(424)는, 표시부(303)의 화면에 표시할 가상 캐릭터를 생성하기 위한 처리의 일부(또는 전부)를 실행하도록 해도 된다.

또한, 제어부(424)는, 유저와 더 우수한 대화를 실현하기 위해, 또한 외부 에이전트 서비스(430A, 430B, 430C, …)의 리소스를 활용할 수 있다. 제어부(424)는, 이용 가능한 모든 외부 에이전트 서비스(430A, 430B, 430C, …)를 호출해도 되고, 어느 일부의 외부 에이전트 디바이스를 선택하여 호출하도록 해도 된다.

또한, 대화 엔진 백 엔드(420)로부터 외부 에이전트 서비스(430A, 430B, 430C, …)를 호출하는 방법은 몇 가지 생각된다. 예를 들어, 유저로부터의 문의를 의미 해석부(422)에서 의미 해석하여 얻은 텍스트 정보를, 외부 에이전트 서비스(430B)로 송신해도 되고, 그 텍스트 정보를 음성 합성부(423)에서 음성 합성한 음성 데이터를 외부 에이전트 서비스(430A)로 송신하여, 유저로부터의 음성 입력과 같은 형태로 문의해도 된다. 혹은, 대화 엔진 백 엔드(420)가 외부 에이전트 서비스(430C)에 요청하는 경우에는, 음성 합성부(423)에서 음성 합성한 음성 데이터를 대화 엔진 프론트 엔드(410)로 송신하고, 대화 장치(120)의 음성 출력부(305)로부터, 마치 유저가 문의하는 음성을 출력하여, 외부 에이전트 디바이스(440)를 통해 문의하도록 하는 것도 가능하다.

또한, 외부 리소스인 외부 에이전트 서비스(430A, 430B, 430C, …)로부터 에이전트 시스템(100)에 대하여 회답하는 방법도 몇 가지 생각된다. 예를 들어, 외부 에이전트 서비스(430B)는, 텍스트 정보 등을 포함하는(혹은, 음성 합성 전의) 처리 결과를 대화 엔진 백 엔드(420)로 보낸다. 또한, 외부 에이전트 서비스(430A 및 430C)는, 처리 결과를 음성 합성한 음성 데이터를 대화 엔진 백 엔드(420)로 보낸다. 대화 엔진 백 엔드(420)는, 외부 에이전트 서비스(430A 및 430C)로부터 보내져 온 음성 데이터를 음성 인식부(421)에 의해 음성 인식하고, 그 음성 인식 결과를 의미 해석부(422)에 의해 의미 해석한다.

그리고, 제어부(424)는, 각 외부 에이전트 서비스(430A, 430B, 430C, …)로부터의 회답을 의미 해석 결과의 레벨에서 집계하여, 유저에 대한 회답문을 생성한다. 복수의 회답을 집계하는 방법은 임의이다. 대화 엔진 백 엔드(420) 자신이 얻은 회답과 대조하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 다수결 등 소정의 선택 기준에 기초하여 특정 외부 에이전트 서비스로부터의 회답을 선택해도 되고, 복수의 외부 에이전트 서비스로부터의 회답을 합성하여 하나의 회답문을 생성하도록 해도 된다. 어쨋든, 음성 합성부(423)는, 제어부(424)에서 생성한 회답문을 음성 데이터로 변환하여, 대화 엔진 프론트 엔드(410)로 보낸다. 그리고, 대화 엔진 프론트 엔드(410)에서는, 유저에 대한 회답의 음성이, 음성 출력부(305)로부터 유저에 대하여 음성 출력된다.

각 외부 에이전트 서비스(430A, 430B, 430C, …)의 기능적 구성은 거의 마찬가지이다. 이하에는, 대표로, 외부 에이전트 서비스(430C)의 기능적 구성에 대하여 설명한다.

외부 에이전트 서비스(430C)는, 음성 인식부(431C)와, 의미 해석부(432C)와, 처리부(433C)와, 음성 합성부(434C)를 구비하고 있다.

음성 인식부(431C)는, 음성 에이전트 디바이스(440)의 음성 입력부(441)에서 수음된 발화를 음성 인식하여, 텍스트 정보로 변환한다. 또한, 음성 입력부(441)에서 수음하는 음성은, 유저의 발화 외에, 대화 엔진 프론트 엔드(410)의 음성 출력부(305)로부터 출력하는 음성인 경우도 상정된다.

의미 해석부(432C)는, 음성 인식된 텍스트 정보에 기초하여, 유저의 발화 데이터의 의미 해석을 행한다. 처리부(433C)는, 유저로부터의 문의에 회답하기 위한 처리를 실행한다. 예를 들어, 외부 에이전트 서비스(430C)를 지정하는 「기동 워드」가 유저로부터 음성 입력된 것을 의미 해석 결과에 의해 알 수 있다면, 처리부(433C)는 처리 실행을 개시한다.

음성 합성부(434C)는, 유저에 대한 회답이 되는 텍스트 정보를 음성 데이터로 변환한다. 음성 데이터는, 음성 에이전트 디바이스(440)로 보내져, 음성 출력부(442)로부터 유저에 대하여 음성 출력된다. 또한, 음성 합성부(434C)에서 생성한 음성 데이터는, 음성 에이전트 디바이스(440)로 송신하여 음성 출력되는 것 외에, 대화 엔진 백 엔드(420)로 송신되어, 음성 인식부(421)에 입력되는 경우도 상정된다.

B. 가상 캐릭터의 구체적 동작

본 실시 형태에 관한 대화 시스템(100)에서는, 방송형의 동화상 콘텐츠를 표시하는 표시 장치(110)를 주 화면으로 하여 위치 부여하는 한편, 대화 장치(120)가 장비하는 표시부(303)는 서브 화면에 위치 부여된다. 그리고, 대화 장치(120)는, 서브 화면으로서의 표시부(303) 상에서 가상 캐릭터를 자율 구동시킨다. 더 구체적으로는, 대화 장치(120)는, 유저와의 대화 기능을 갖지만, 표시 장치(110)의 주 화면에 표시하고 있는 방송형의 동화상 콘텐츠 유저와 함께 시청하고 있을 때, 그 방송형의 동화상 콘텐츠의 내용에 따라, 서브 화면 상의 가상 캐릭터가 자율 구동하여 자신의 표정이나 행위, 거동, 동작을 전환해 간다.

본 실시 형태에 관한 대화 시스템(100)은, 대화 장치(120)가, 유저와 함께 시청하고 있는 방송형의 동화상 콘텐츠의 내용에 따라, 서브 화면 상의 가상 캐릭터를 자율 구동시킨다는 점에 주된 특징이 있다.

또한, 본 실시 형태에 관한 대화 시스템(100)은, 가상 캐릭터의 자율 구동을 시사하기 위한 정보가 외부로부터 대화 장치(120)로 제공된다는 점에 다른 주된 특징이 있다. 본 명세서에서는, 가상 캐릭터의 자율 구동을 시사하는 정보를 「씬 기술 데이터」라고 칭한다. 예를 들어, 방송국 또는 스트림 배신 서버 등의 서비스측이, 방송 또는 배신하는 동화상 콘텐츠용의 씬 기술 데이터를 작성 또는 편집하여, 소정의 웹 사이트에 업로드해 두어도 된다.

예를 들어, 표시 장치(110)측에서 방송 채널을 전환할 때마다, 새롭게 제공되는 씬 기술 데이터에 기초하여, 대화 장치(120)는 표시할 가상 캐릭터를 전환한다. 구체적으로는, 대화 장치(120)는, 방송국별로, 서비스측에서 준비된 가상 캐릭터를 전환하도록 해도 된다.

또한, 방송 채널이 아니라, 방송 프로그램이 전환될 때마다, 새롭게 제공되는 씬 기술 데이터에 기초하여, 대화 장치(120)는, 프로그램 전용의 가상 캐릭터로 전환하도록 해도 된다.

또한, 대화 장치(120)는, 콘텐츠의 배신원을 전환하거나 수신할 스트리밍 콘텐츠를 전환하거나 할 때마다, 새롭게 제공되는 씬 기술 데이터에 기초하여, 배신 서비스측에서 준비된 가상 캐릭터를 전환하도록 해도 된다. 또한, 대화 장치(120)는, 배신원이 아니라, 배신 콘텐츠별로, 배신 서비스측에서 준비된 가상 캐릭터를 전환하도록 해도 된다.

또한, 대화 장치(120)는, 동일한 방송 프로그램 내 혹은 동일한 스트리밍 콘텐츠 내에서도, 동화상 콘텐츠의 씬이나 컨텍스트에 따라 새롭게 제공되는 씬 기술 데이터에 기초하여, 가상 캐릭터를 전환하거나, 가상 캐릭터가 표출하는 동작을 컨트롤하거나 하게 해도 된다.

예를 들어, 유저가 드라마 프로그램을 시청 중에 클라이막스 씬이 도래하면, 대화 장치(120)는, 새롭게 제공되는 씬 기술 데이터에 기초하여, 유저의 감정을 대변하거나 또는 유저에게 동조하는 가상 캐릭터의 동작을 표출하도록 해도 된다.

또한, 유저가 야구나 축구 등의 스포츠 프로그램을 시청 중에, 자군(유저가 응원하고 있는 팀)이 득점하거나 반대로 실점하거나 했을 때, 대화 장치(120)는, 새롭게 제공되는 씬 기술 데이터에 기초하여, 유저의 감정을 대변하거나 또는 유저에게 동조하는 가상 캐릭터의 동작을 표출하도록 해도 된다. 예를 들어, 대화 장치(120)는, 자군이 우세일 때는, 함께 기뻐하거나, 맞장구치거나 하고, 동화상 콘텐츠의 진행(게임의 경과 등)에 추종하여 추임새를 넣거나, 감정이나 표정을 바꾸거나 한다.

또한, 유저가 뉴스 프로그램을 시청 중에, 대화 장치(120)는, 코너마다 제공되는 씬 기술 데이터에 기초하여, 국내, 국제, 사회, 경제, 예능, 스포츠, 과학, 지역 등 중, 유저가 관심이 있는 장르를 소개하는 가상 캐릭터의 동작을 표출하도록 해도 된다.

또한, 대화 장치(120)는, 방송이나 스트리밍하는 프로그램 본편이 아니라, 프로그램 본편에 삽입되는 CM의 타이밍에 새롭게 제공되는 씬 기술 데이터에 기초하여, 가상 캐릭터가 해당하는 상품을 소개하는 동작을 표출하도록 해도 된다. 그때, 대화 장치(120)는, 유저의 프로파일과 상품의 매칭 처리 등을 행하여, 유저의 상품에 대한 흥미의 정도 등에 따라 가상 캐릭터에 의한 상품의 추천 방법을 변화시키도록 해도 된다.

또한, 어느 종류의 동화상 콘텐츠를 시청 중이든, 기본적으로는, 가상 캐릭터는, 유저로부터의 질문이나 잡담에는 응답하는 것으로 한다.

상기한 바와 같이 본 실시 형태에 관한 대화 시스템(100)에서는, 대화 장치(120)는, 순차 제공되는 씬 기술 데이터에 기초하여, 방송형의 동화상 콘텐츠별로 가상 캐릭터를 전환하거나, 동화상 콘텐츠의 씬별 가상 캐릭터의 감정 표현을 변화시키거나 한다. 따라서, 유저는, 대화 장치(120)와 함께 방송형의 동화상 콘텐츠를 시청함으로써, 혼자 시청하는 경우보다도 더 많이 콘텐츠를 즐길 수 있다.

대화 장치(120)는, 스탠드얼론으로 가상 캐릭터의 동작을 제어해도 되지만, 도 4에 나타낸 바와 같이, 대화 엔진 프론트 엔드(410)와 대화 엔진 백 엔드(420)의 협조 동작에 따라 가상 캐릭터의 동작을 제어하도록 해도 된다.

또한, 대화 장치(120)가, 외부로부터 제공된 씬 기술 데이터에 완전히 따라서 가상 캐릭터를 동작시키거나, 씬 기술 데이터의 기술 내용을 어느 정도 참고로 하여 가상 캐릭터를 동작시킬지, 혹은 씬 기술 데이터의 기술 내용에 구속되지 않고 완전히 자율적으로 가상 캐릭터를 동작시킬지는 임의이다. 예를 들어, 대화 장치(120)가 씬 기술 데이터를 따라야 할지 여부를 유저가 지정하도록 해도 된다.

도 5에는, 본 실시 형태에 관한 대화 시스템(100)에 있어서, 방송형의 동화상 콘텐츠의 시청 중에 대화 장치(120)가 감정 표현을 실시하기 위한 동작 시퀀스 예를 나타내고 있다.

방송국이나 스트림 배신 서버 등의 서비스측은, 방송형의 동화상 콘텐츠를 송신 기간 중에, 가상 캐릭터의 감정 표현 등을 실시하는 트리거가 될 수 있는 이벤트가 동화상 콘텐츠 내에서 발생한 것을 통지하는 트리거 배신을 축차 실행한다.

도 5에 나타내는 동작 시퀀스 예에서는, 방송국이나 스트림 배신 서버 등의 서비스측은, 방송형의 동화상 콘텐츠를 배신하고 있는 기간 중(SEQ501)에, 동화상 콘텐츠 내에서 이벤트가 발생할 때마다, 그 동화상 콘텐츠를 수신(선국 수신)하는 표시 장치(110)에 대하여, 트리거 배신을 축차 실시한다(SEQ511, SEQ512, …).

즉, 방송국 또는 스트림 배신 서버 등의 서비스측은, 방송형의 동화상 콘텐츠 내에서 트리거가 될 수 있는 이벤트가 발생한 것에 동기하여, 트리거 배신을 실시한다. 스트리밍 서비스의 경우, 동화상 콘텐츠 내에서 이벤트가 발생하고 나서 트리거 배신이 표시 장치(110)에 전해질 때까지 네트워크 지연 등의 지연 시간이 발생할 가능성이 있지만, 여기서는 지연 시간은 무시할 수 있는 것으로 한다.

본 실시 형태에서는, 서비스측은, 방송 서비스의 표준 규격이나 스트림 배신 서비스의 표준 규격에 의해 이미 규정되어 있는 수단을 사용하여 트리거 배신을 실시하는 것으로 된다.

예를 들어, 방송 서비스의 경우, 방송국측은, StreamEvent 등을 이용하여, 방송 프로그램을 선국 수신하는 표시 장치(110)에 대하여 트리거 배신을 실시할 수 있다. ARIB(Association of Radio Industries and Business: 전파 산업회)에서는, 영상 및 음성의 스트림이나 데이터 등의 콘텐츠와 함께 PSI 테이블을 다중화한 MPEG(Moving Picture Expers Group)-2TS(Transport Stream) 패킷을 방송 신호의 송신 형식으로 하여 규정하고 있다. PSI 테이블의 하나인 PMT의 기술자 영역에 범용 이벤트 메시지를 저장함으로써, StreamEvent를 이용한 트리거 배신을 실시할 수 있다.

또한, 콘텐츠 스트리밍 서비스의 경우, 스트림 배신 서버 등의 서비스측은, WebSocket 등을 이용하여, 콘텐츠 스트림을 수신하는 표시 장치(110)에 대하여 트리거 배신을 실시할 수 있다. WebSocket은, 서버와 클라이언트가 일단 커넥션을 행한 후에는, 필요한 통신을 모두 그 커넥션 상에서 전용의 프로토콜을 사용하여 행하는 것을 규정한, TCP(Transmission Control Protocol) 상에서 동작하는 프로토콜이다. WebSocket은, Web 서버와 클라이언트 사이에서, 헤더에 의한 오버헤드가 적어, 고효율의 전송을 실현할 수 있다. WebSocket은, RFC(Request for Comments) 6455, "The WebSocket Protocol"로서 규정되어 있다.

어느 방송 규격 또는 통신 규격에 기초하는 것이든, 방송국 또는 스트림 배신 서버 등의 서비스측은, 트리거 배신(SEQ511, SEQ512, …)에 있어서, 씬 기술 데이터(전술)의 소재 또는 취득 방법에 관한 정보를 포함한 트리거 데이터를, 표시 장치(110)로 송신한다. 씬 기술 데이터의 소재 또는 취득 방법은, 예를 들어 URI(Uniform Resource Ideitifier) 또는 URL(Unoform Resouce Locator)의 형식으로 기술할 수 있다.

표시 장치(110)는, 예를 들어 StreamEvent 또는 WebSocket 등의 형식으로 트리거 데이터를 수신하면, 필요에 따라 대화 장치(120)가 처리 가능한 데이터 형식으로 적절히 변환하여, 트리거 데이터를 대화 장치(120)로 전송한다(SEQ521, SEQ522, …).

트리거 데이터는, 씬 기술 데이터 자체를 포함하지 않고, 씬 기술 데이터의 소재 또는 취득 방법을 URI 또는 URL 등의 형식으로 지정하는, 간소하고 소용량의 데이터를 포함한다. 따라서, 표시 장치(110)와 대화 장치(120) 사이의 일방향 통신만의 간소한 통신 수단(전술)을 사용하여 트리거 데이터를 전송하는 것이 가능하다.

대화 장치(120)는, 표시 장치(110)로부터 트리거 데이터를 수신하면(SEQ521, SEQ522, …), 트리거 데이터 내에서 URI 또는 URL 등의 형식으로 지정된 소재 또는 취득 방법에 따라, 소정의 웹 사이트로부터 씬 기술 데이터를 취득한다(SEQ531, SEQ532, …).

그리고, 대화 장치(120)는, 취득한 씬 기술 데이터에 기초하여, 서브 화면(표시부(303))에 표시할 가상 캐릭터를 자율 구동시킨다(SEQ541, SEQ542, …).

또한, 표시 장치(110)가 트리거 데이터를 대화 장치(120)로 전송할 때(SEQ521, SEQ522, …), 서브 화면에서 표시할 가상 캐릭터의 데이터(이하, 「배신 캐릭터」라고도 함)를 함께 대화 장치(120)로 송신하도록 해도 된다. 가상 캐릭터의 데이터는, 방송국이나 스트림 배신 서버가, 동화상 콘텐츠에 부수하여, 멀티미디어 콘텐츠로서 배신한 것이어도 되고, 표시 장치(110)에 미리 장비되어 있는 것이어도 된다. 한편, 대화 장치(120)는, 미리 구비하고 있는 가상 캐릭터(이하, 「마이 캐릭터」라고도 함)도 갖고 있다. 대화 장치(120)는, 마이 캐릭터와 배신 캐릭터 중 어느 한쪽을 선택하여, 서브 화면에서 자율 구동시키는 것으로 한다.

예를 들어, 유저가 시청하고 있는 드라마 프로그램 중에서 클라이막스 씬 등의 이벤트가 발생하면, 서비스측으로부터 트리거 배신이 행해지고, 이것에 응답하여, 표시 장치(110)로부터 대화 장치(120)로 트리거 데이터가 전송된다. 그리고, 대화 장치(120)는, 새롭게 취득한 씬 기술 데이터에 기초하여, 유저의 감정을 대변하거나 또는 유저에게 동조하는 가상 캐릭터의 동작을 표출할 수 있다.

또한, 유저가 야구나 축구 등의 스포츠 프로그램을 시청 중에, 득점 혹은 실점, 파인 플레이 등의 이벤트가 발생하면, 서비스측으로부터 트리거 배신이 행해지고, 이것에 응답하여, 표시 장치(110)로부터 대화 장치(120)로 트리거 데이터가 전송된다. 그리고, 대화 장치(120)는, 새롭게 취득한 씬 기술 데이터에 기초하여, 자군의 득점이나 파인 플레이를 함께 기뻐하거나 맞장구치거나 하고, 자군의 실점이나 에러를 함께 슬퍼하거나 낙담하거나 하는 등, 게임의 경과 등에 추종한 가상 캐릭터의 동작을 표출할 수 있다.

또한, 유저가 뉴스 프로그램을 시청 중에, 국내, 국제, 사회, 경제, 예능, 스포츠, 과학, 지역 등의 코너마다 서비스측으로부터 트리거 배신이 행해지고, 이것에 응답하여, 표시 장치(110)로부터 대화 장치(120)로 트리거 데이터가 전송된다. 그리고, 대화 장치(120)는, 순차 취득한 씬 기술 데이터에 기초하여, 유저가 관심이 있는 장르를 소개하는 가상 캐릭터의 동작을 표출할 수 있다.

또한, 방송이나 스트리밍의 프로그램 본편에 삽입되는 CM의 타이밍에 서비스측으로부터 트리거 배신이 행해지고, 이것에 응답하여, 표시 장치(110)로부터 대화 장치(120)로 트리거 데이터가 전송된다. 그리고, 대화 장치(120)는, 유저의 프로파일과 상품의 매칭 처리 등을 행하여, 유저의 상품에 대한 흥미의 정도 등에 따라 가상 캐릭터에 의한 상품의 추천 방법을 변화시키도록 해도 된다.

또한, 어느 종류의 이벤트에 응답한 동작을 한창 실행하고 있는 중이더라도, 가상 캐릭터는, 유저로부터의 질문이나 잡담에는 응답하는 것으로 한다.

도 6에는, 씬 기술 데이터의 일례를 나타내고 있다. 동 도에서는, 축구의 골 씬이라는 이벤트에 관한, 이벤트의 개시 시간 및 종료 시간, 이벤트의 종별(「축구」), 이벤트의 내용(「득점했다」, 「팀명」, 「득점 상황」) 등을 포함하고 있다. 또한, 영상으로부터 씬을 표현하는 방법은 다양하고, 도 6에 나타낸 바와 같은 씬 기술 데이터를 기존의 방법에 기초하여 자동 생성할 수 있다.

도 7에는, 씬 기술 데이터의 다른 예를 나타내고 있다. 동 도에서는, 유저의 상황에 따른 감정의 표현의 전형을 기술하고 있다. 구체적으로는, 「축구」라는 이벤트 종별에 있어서, 「득점했다」라고 하는 이벤트가 발생했을 때, 「기뻐한다」 또는 「슬퍼한다」의 어느 감정을 표현하는 것을 기술하고 있다.

또한, 도 6에 나타낸 바와 같은, 씬에 관한 구체적인 정보를 기술하는 데이터와, 도 7에 나타낸 바와 같은, 씬에 대응한 감정 표현을 시사하는 데이터를 개별의 씬 기술 데이터 파일로 하고, 트리거 데이터에서는, 이것들과 같은 2개의 데이터 파일의 조합을, 이벤트에 대응한 씬 기술 데이터로서 지정하도록 해도 된다. 혹은, 도 6에 나타낸 바와 같은 데이터 부분과 도 7에 나타낸 바와 같은 데이터 부분을 모두 포함하는 하나의 씬 기술 데이터 파일로 하여 구성하도록 해도 된다.

또한, 씬 기술 데이터에서 사용하는 문서 구조 혹은 문법은 임의이고, 도 6 및 도 7은 일례를 나타낸 것에 지나지 않는다.

또한, 대화 장치(120)는, 가상 캐릭터를 자율 구동시킬 때, 시청 중인 동화상 콘텐츠 내에서 이벤트가 발생할 때마다 제공되는 씬 기술 데이터를 이용할지 안할지, 혹은 어느 정도 이용할지는 임의이다. 예를 들어, 대화 장치(120)는, 유저의 지시에 따라 씬 기술 데이터를 이용할지 안할지, 혹은 어느 정도 이용할지를 결정하도록 해도 된다. 또한, 씬 기술 데이터 중에서, 그 씬 기술 데이터의 기술 내용이 필수 또는 임의의 어느 것인지를 지정하도록 해도 된다.

도 8에는, 표시 장치(110)의 기본적인 동작예를 흐름도의 형식으로 나타내고 있다.

표시 장치(110)는, 주 전원이 투입되어, 기동을 개시하면, 페어로 되어 있는 대화 장치(120)가 기동하고 있는지 여부를 체크한다(스텝 S801).

그리고, 대화 장치(120)가 아직 기동하고 있지 않은 경우에는, 표시 장치(110)는, 대화 장치(120)에 기동을 지시하여(스텝 S802), 대화 장치(120)가 표시 장치(110)로부터 트리거 데이터 등을 수신 가능한 수신 상태로 하고(스텝 S803), 본 처리를 종료한다.

또한, 대화 장치(120)가 아니라, MR 디바이스나 애완동물형 로봇을 사용하여 유저와 대화하는 시스템 구성의 경우에는, 스텝 S801에서는, MR 디바이스나 애완동물형 로봇의 기동 상태의 체크를 행하고, 스텝 S802에서는 MR 디바이스나 애완동물형 로봇을 기동시켜, 수신 가능 상태로 한다. 또한, 표시 장치(110)의 화면에 자화면을 마련하여 가상 캐릭터를 표시하는 시스템 구성의 경우에는, 가상 캐릭터의 자동 구동용 애플리케이션의 기동 상태의 체크를 행하고, 스텝 S802에서는 이 애플리케이션을 수신 가능 상태로 한다.

도 9에는, 수신 상태의 대화 장치(120)가 실시하는 처리 동작의 수순을 흐름도의 형식으로 나타내고 있다.

대화 장치(120)는, 표시 장치(110)로부터 트리거 데이터가 배신되고 있는지 여부를 체크한다(스텝 S901).

표시 장치(110)로부터 트리거 데이터가 배신되고 있지 않을 때는(스텝 S901의 아니오), 대화 장치(120)는, 자율 회화 모드로 이행하여(스텝 S902), 표시 장치(110)의 화면에서 표시하고 있는 방송형의 동화상 콘텐츠의 내용(씬)에 따르지 않고, 가상 캐릭터를 자율적으로 유저와 대화시키면서, 트리거 데이터가 배신될 때까지 대기한다.

한편, 표시 장치(110)로부터 트리거 데이터가 배신되고 있을 때는(스텝 S901의 예), 대화 장치(120)는, 배신 캐릭터의 데이터도 표시 장치(110)로부터 배신되고 있는지 여부를 다시 체크한다(스텝 S903).

표시 장치(110)로부터 배신 캐릭터가 배신되고 있지 않은 경우에는(스텝 S903의 아니오), 대화 장치(120)는 마이 캐릭터를 선택한다(스텝 S904).

또한, 표시 장치(110)로부터 배신 캐릭터가 배신되고 있는 경우에는(스텝 S903의 예), 대화 장치(120)는, 선택 가능한(바꿔 말하면, 대화 장치(120) 상에서 자율 구동시키는 것이 가능한) 배신 캐릭터의 일람을 포함하는 캐릭터 선택 화면을 유저에게 제시한다(스텝 S905).

그리고, 유저가 캐릭터 일람 화면 중으로부터 어느 배신 콘텐츠를 선택하면(스텝 S906의 예), 대화 장치(120)는, 유저가 선택한 배신 캐릭터를 표시부(303)에 표시하여 자율 구동시키는 것을 선택한다(스텝 S907).

또한, 유저가 캐릭터 일람 화면 중으로부터 어느 배신 콘텐츠도 선택하지 않은 경우에는(스텝 S906의 아니오), 대화 장치(120)는, 마이 캐릭터를 선택하고(스텝 S904), 마이 캐릭터를 표시부(303)에 표시하여 자율 구동시키도록 한다.

그리고, 대화 장치(120)는, 상기와 같이 하여 마이 캐릭터 또는 배신 캐릭터의 어느 것을 선택하면, 씬 추종 회화 모드로 이행한다(스텝 S908). 이 씬 추종 대화 모드에서는, 대화 장치(120)는, 트리거 데이터로 지정되어 있는 소재 또는 취득 방법에 따라 취득한 씬 기술 데이터에 기초하여, 선택한 마이 캐릭터 또는 배신 캐릭터의 어느 것을 사용하여, 유저와의 대화를 행한다.

그 후, 대화 장치(120)는, 표시 장치(110)로부터 다음의 트리거 데이터가 배신될 때까지는, 선택한 마이 캐릭터 또는 배신 캐릭터를 사용하여, 유저와의 회화를 행한다.

도 10에는, 씬 추종 대화 모드 하에서 대화 장치(120)가 실시하는 처리 동작의 수순을 흐름도의 형식으로 나타내고 있다.

대화 장치(120)는, 표시 장치(110)로부터 트리거 데이터를 수신하면(스텝 S1001의 예), 트리거 데이터로 지정되어 있는 소재 또는 취득 방법에 따라, 씬 기술 데이터를 취득한다(스텝 S1002).

이어서, 대화 장치(120)는, 어느 감정 데이터를 선택하는 것이 가능한지 여부를 체크한다(스텝 S1003).

감정 데이터를 선택할 수 없을 때는(스텝 S1003의 아니오), 대화 장치(120)는, 씬 기술 데이터로 지정된, 추천의 감정 데이터에 기초한 표현을 행하도록 가상 캐릭터를 구동시킨다(스텝 S1004).

한편, 감정 데이터를 선택 가능한 경우에는(스텝 S1003의 예), 대화 장치(120)는, 감정 데이터의 카테고리에 적합한 유저 데이터가 있는지 여부를 다시 체크한다(스텝 S1005).

그리고, 감정 데이터의 카테고리에 적합한 유저 데이터가 있는 경우에는(스텝 S1005의 예), 대화 장치(120)는, 유저 데이터에 따른 감정 표현을 행하도록 가상 캐릭터를 구동시킨다(스텝 S1006).

또한, 감정 데이터의 카테고리에 적합한 유저 데이터가 없는 경우에는(스텝 S1005의 아니오), 대화 장치(120)는, 중립적인 감정 표현을 행하도록 가상 캐릭터를 구동시킨다(스텝 S1007).

이상, 특정 실시 형태를 참조하면서, 본 명세서에서 개시하는 기술에 대하여 상세하게 설명해 왔다. 그러나, 본 명세서에서 개시하는 기술의 요지를 일탈하지 않는 범위에서 당업자가 해당 실시 형태의 수정이나 대용을 이룰 수 있는 것은 자명하다.

본 명세서에서 개시하는 기술은, 방송형의 동화상 콘텐츠를 시청하는 시스템에 적합하게 적용할 수 있다. 본 명세서에서는, 주로 MPEG-2 시스템에 적용한 실시 형태를 중심으로 설명해 왔지만, 본 명세서에서 개시하는 기술의 적용 범위는 이것에 한정되는 것은 아니다. 예를 들어, MPEG-4나 MPEG-DASH(Dynamic Adaptive Streamingover HTTP) 등 다른 동화상 배신 시스템에도 마찬가지로 본 명세서에서 개시하는 기술을 적용할 수 있다.

요컨대, 예시라는 형태에 의해 본 명세서에서 개시하는 기술에 대하여 설명해 온 것이고, 본 명세서의 기재 내용을 한정적으로 해석해서는 안된다. 본 명세서에서 개시하는 기술의 요지를 판단하기 위해서는, 특허 청구범위를 참작해야 한다.

또한, 본 명세서의 개시의 기술은, 이하와 같은 구성을 취하는 것도 가능하다.

(1) 방송형의 동화상 콘텐츠를 수신하는 수신부와,

를 구비하는 정보 처리 장치.

(2) 상기 수신부는, 방송파 또는 스트림 배신되는 상기 동화상 콘텐츠를 수신하는,

상기 (1)에 기재된 정보 처리 장치.

(3) 상기 수신부가 상기 이벤트의 트리거를 수신한 것에 응답하여, 상기 통지부가 상기 제2 기기에 상기 데이터를 통지하는,

상기 (1) 또는 (2) 중 어느 한 항에 기재된 정보 처리 장치.

(4) 상기 수신부는, StreamEvent 또는 WebSocket에 의해, 상기 이벤트의 트리거를 수신하는,

상기 (3)에 기재된 정보 처리 장치.

(5) 상기 정보 처리 장치는, 상기 방송형의 동화상 콘텐츠를 표시하는 표시부를 구비한 텔레비전 수신기인,

상기 (1) 내지 (4) 중 어느 것에 기재된 정보 처리 장치.

(6) 방송형의 동화상 콘텐츠를 수신하는 수신 스텝과,

상기 동화상 콘텐츠를 표시부에 표시하는 표시 스텝과,

을 갖는, 정보 처리 방법.

(7) 방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신부와,

를 구비하는 정보 처리 장치.

(8) 상기 수신부는, 상기 방송형의 동화상 콘텐츠를 수신하는 텔레비전 수신기로서의 상기 제1 기기로부터 상기 통지를 수취하는,

상기 (7)에 기재된 정보 처리 장치.

(9) 2차원 또는 3차원 표시 가능한 표시부를 더 구비하고,

상기 제어부는, 상기 표시부를 사용하여 표시하는 상기 가상 캐릭터의 구동을 제어하는,

상기 (7) 또는 (8) 중 어느 한 항에 기재된 정보 처리 장치.

(10) 상기 제어부는, MR 디바이스를 사용하여 상기 가상 캐릭터를 표시하는,

상기 (7) 또는 (8) 중 어느 한 항에 기재된 정보 처리 장치.

(11) 상기 제어부는, 상기 방송형의 동화상 콘텐츠를 수신하는 텔레비전 수신기로서의 상기 제1 기기의 자화면에서 상기 가상 캐릭터를 표시하는,

상기 (7) 또는 (8) 중 어느 한 항에 기재된 정보 처리 장치.

(12) 상기 제어부는, 취득한 상기 정보에 기초하여, 애완동물형 로봇의 구동을 제어하는,

상기 (7) 또는 (8) 중 어느 한 항에 기재된 정보 처리 장치.

(13) 상기 제어부는, 상기 동화상 콘텐츠 중의 상기 이벤트의 위치 정보, 상기 이벤트의 종별, 상기 이벤트의 내용을 포함한 상기 데이터를 취득하는,

상기 (7) 내지 (12) 중 어느 것에 기재된 정보 처리 장치.

(14) 상기 제어부는, 상기 이벤트에 대한 상기 가상 캐릭터의 감정 표현에 관한 정보를 포함한 상기 데이터를 취득하는,

상기 (7) 내지 (13) 중 어느 것에 기재된 정보 처리 장치.

(15) 상기 수신부는, 상기 제1 기기로부터 상기 가상 캐릭터의 데이터를 추가로 수신하는,

상기 (7) 내지 (14) 중 어느 것에 기재된 정보 처리 장치.

(16) 방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신 스텝과,

을 갖는, 정보 처리 방법.

(17) 방송형의 동화상 콘텐츠를 수신하는 제1 기기와,

가상 캐릭터의 구동을 제어하는 제2 기기

를 구비하고,

정보 처리 시스템.

(18) 방송형의 동화상 콘텐츠를 수신하는 수신부,

로서 컴퓨터를 기능시키도록 컴퓨터 가독 형식으로 기술된 컴퓨터 프로그램.

(19) 방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신부,

상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하는 제어부,

취득한 상기 정보에 기초하여, 상기 가상 캐릭터의 구동을 제어하는 제어부

100: 대화 시스템
110: 표시 장치
120: 대화 장치
201: 제어부
202: 버스
203: 스토리지부
204: 통신 인터페이스(IF)부
205: 확장 인터페이스(IF)부
206: 튜너/복조부
207: 디멀티플렉서
208: 영상 디코더
209: 음성 디코더
210: 문자 슈퍼 디코더
211: 자막 디코더
212: 자막 합성부
213: 데이터 디코더
214: 캐시부
215: 애플리케이션(AP) 제어부
216: 브라우저부
217: 음원부
218: 영상 합성부
219: 표시부
220: 음성 합성부
221: 음성 출력부
222: 조작 입력부
301: 처리부
302: 통신부
303: 표시부
304: 음성 입력부
305: 음성 출력부
306: 센서부
307: 기록부
410: 대화 엔진 프론트 엔드
420: 대화 엔진 백 엔드
421: 음성 인식부
422: 의미 해석부
423: 음성 합성부
424: 제어부
430: 외부 에이전트 서비스
431: 음성 인식부
432: 의미 해석부
433: 처리부
434: 음성 합성부
440: 음성 에이전트 디바이스
441: 음성 입력부
442: 음성 출력부

Claims

방송형의 동화상 콘텐츠를 수신하는 수신부와,
상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 제2 기기에 통지하는 통지부
를 구비하는, 정보 처리 장치.
제1항에 있어서, 상기 수신부는, 방송파 또는 스트림 배신되는 상기 동화상 콘텐츠를 수신하는,
정보 처리 장치.
제1항에 있어서, 상기 수신부가 상기 이벤트의 트리거를 수신한 것에 응답하여, 상기 통지부가 상기 제2 기기에 상기 데이터를 통지하는,
정보 처리 장치.
제3항에 있어서, 상기 수신부는, StreamEvent 또는 WebSocket에 의해, 상기 이벤트의 트리거를 수신하는,
정보 처리 장치.
제1항에 있어서, 상기 정보 처리 장치는, 상기 방송형의 동화상 콘텐츠를 표시하는 표시부를 구비한 텔레비전 수신기인,
정보 처리 장치.
방송형의 동화상 콘텐츠를 수신하는 수신 스텝과,
상기 동화상 콘텐츠를 표시부에 표시하는 표시 스텝과,
상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따라, 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 제2 기기에 통지하는 통지 스텝
을 갖는, 정보 처리 방법.
방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신부와,
상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하고, 취득한 상기 정보에 기초하여, 상기 가상 캐릭터의 구동을 제어하는 제어부
를 구비하는, 정보 처리 장치.
제7항에 있어서, 상기 수신부는, 상기 방송형의 동화상 콘텐츠를 수신하는 텔레비전 수신기로서의 상기 제1 기기로부터 상기 통지를 수취하는,
정보 처리 장치.
제7항에 있어서, 2차원 또는 3차원 표시 가능한 표시부를 더 구비하고,
상기 제어부는, 상기 표시부를 사용하여 표시하는 상기 가상 캐릭터의 구동을 제어하는,
정보 처리 장치.
제7항에 있어서, 상기 제어부는, MR 디바이스를 사용하여 상기 가상 캐릭터를 표시하는,
정보 처리 장치.
제7항에 있어서, 상기 제어부는, 상기 방송형의 동화상 콘텐츠를 수신하는 텔레비전 수신기로서의 상기 제1 기기의 자화면에서 상기 가상 캐릭터를 표시하는,
정보 처리 장치.
제7항에 있어서, 상기 제어부는, 취득한 상기 정보에 기초하여, 애완동물형 로봇의 구동을 제어하는,
정보 처리 장치.
제7항에 있어서, 상기 제어부는, 상기 동화상 콘텐츠 중의 상기 이벤트의 위치 정보, 상기 이벤트의 종별, 상기 이벤트의 내용을 포함한 상기 데이터를 취득하는,
정보 처리 장치.
제7항에 있어서, 상기 제어부는, 상기 이벤트에 대한 상기 가상 캐릭터의 감정 표현에 관한 정보를 포함한 상기 데이터를 취득하는,
정보 처리 장치.
제7항에 있어서, 상기 수신부는, 상기 제1 기기로부터 상기 가상 캐릭터의 데이터를 추가로 수신하는,
정보 처리 장치.
방송형의 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터의 통지를 제1 기기로부터 수취하는 수신 스텝과,
상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하는 취득 스텝과,
상기 취득 스텝에서 취득한 상기 정보에 기초하여, 가상 캐릭터의 구동을 제어하는 제어 스텝
을 갖는, 정보 처리 방법.
방송형의 동화상 콘텐츠를 수신하는 제1 기기와,
가상 캐릭터의 구동을 제어하는 제2 기기
를 구비하고,
상기 제1 기기는, 상기 이벤트의 트리거를 수신한 것에 응답하여, 상기 동화상 콘텐츠 중에서 발생하는 이벤트에 따른 가상 캐릭터의 동작을 시사하는 정보의 소재 또는 취득 방법을 포함하는 데이터를 상기 제2 기기에 통지하고,
상기 제2 기기는, 상기 제1 기기로부터 통지된 상기 데이터에 기초하여 상기 정보를 취득하여, 상기 가상 캐릭터의 구동을 제어하는,
정보 처리 시스템.