KR20200128530A

KR20200128530A - 정보 처리 장치, 정보 처리 장치 및 프로그램

Info

Publication number: KR20200128530A
Application number: KR1020207024913A
Authority: KR
Inventors: 야스아키 야마기시
Original assignee: 소니 주식회사
Priority date: 2018-03-15
Filing date: 2019-03-01
Publication date: 2020-11-13
Also published as: EP3767964A4; US20230276105A1; US11689776B2; JP7237927B2; KR102659489B1; US20200396516A1; EP3767964A1; CN111837401B; JPWO2019176590A1; WO2019176590A1; CN111837401A

Abstract

본 발명의 정보 처리 장치는, 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 AV 디코더(41)와, 재생된 영상에 서비스 대상물을 유저에게 교시하기 위한 부가 화상을 부가하는 애플리케이션 실행 환경(43)을 구비한다. 부가 화상은, 서비스 대상물이 서비스에 있어서 음성 인식에 의해 일의적으로 판별될 수 있도록, 서비스 대상물마다 유니크한 시각적 특징을 갖는다.

Description

정보 처리 장치, 정보 처리 장치 및 프로그램

본 기술은, 영상을 포함하는 동화상 콘텐츠를 수신하고, 재생하기 위한 정보 처리를 행하는 정보 처리 장치, 정보 처리 장치 및 프로그램에 관한 것으로서, 특히 그 동화상 콘텐츠가 정보 처리 장치의 유저에 대해 음성 베이스에 의한 정보 서비스와 제휴하는 것인 경우 등에 적합한 정보 처리 장치, 정보 처리 방법 및 프로그램에 관한 것이다.

근년, 음성 AI 어시스턴트 서비스가 보급되어 있다. 이것은, 정보 처리 장치의 유저가 발한 음성에 의한 요구를, 서비스에 대응하는 단말기가 마이크 등에 의해 수음하고, 인식하여 데이터를 해석하고, 유저의 요구에 따른 서비스를 실행하여, 그 실행의 결과를 유저에게 음성 등으로 응답하는 정보 서비스이다(예를 들어, 특허문헌 1 참조). 현재는, 클라우드 베이스에 의한 음성 AI 어시스턴스 서비스로서, Amazon Echo(등록 상표)의 Alexa(등록 상표)가 알려져 있다.

일본 특허 공개 제2015-022310호 공보

상기와 같은 음성 AI 어시스턴트 서비스를, 영상을 포함하는 동화상 콘텐츠를 재생하는 환경에 있어서, 그 영상에 등장하는 인물이나 물품에 관한 정보를 수집하기 위한 수단으로서 이용하는 구조가 본 발명자들에 의해 검토되고 있다. 예를 들어, 동화상 콘텐츠 중에 등장하는 인물의 역할이나, 다른 등장 인물과의 관계, 나아가 그 인물을 연기하는 배우의 프로필과 같은 다양한 사항을 시청자인 유저가 그 자리에서 알고 싶은 경우에, 음성 AI 어시스턴트 서비스로부터 실시간으로 정보의 제공을 받을 수 있다.

그러나, 음성 AI 어시스턴트 서비스를, 영상을 포함하는 동화상 콘텐츠를 재생하는 환경에 있어서 그 영상에 등장하는 인물이나 물품에 관한 정보를 수집하기 위한 수단으로서 실제로 이용하게 되면, 음성 AI 어시스턴트 서비스의 특성을 살린 적합한 사용 방법이 아직 충분히 확립되어 있지 않은 등, 해결해야 할 과제는 산적되어 있다.

따라서 본 기술은, 재생 영상을 감상할 때 음성 AI 어시스턴트 서비스를 그 특성을 살려서 이용할 수 있는 정보 처리 장치, 정보 처리 장치 및 프로그램을 제공하는 것을 목적으로 하는 것이다.

상기한 과제를 해결하기 위해, 본 기술에 관한 정보 처리 장치는, 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 미디어 재생부와, 상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는 제어부를 구비한다.

상기 부가 화상은, 상기 서비스 대상물이 상기 서비스에 있어서 음성 인식에 의해 일의적으로 판별될 수 있도록, 상기 서비스 대상물마다 유니크한 시각적 특징을 갖는 것이면 된다.

상기 부가 화상은, 상기 서비스 대상물에 부수된 위치에 제시되어도 된다.

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라, 상기 부가 화상이 부가되는 상기 서비스 대상물을 제한하도록 구성된 것이어도 된다.

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 스킵 재생하도록 구성된 것이어도 된다.

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 제1 배속으로 재생하고, 상기 서비스 대상물이 등장하지 않는 기간의 영상을 상기 제1 배속보다 고속인 제2 속도로 재생하도록 구성된 것으로 해도 된다.

상기 제어부는, 상기 부가 정보를 생성하기 위한 메타 데이터를 취득하고, 상기 취득한 메타 데이터에 기초하여 상기 부가 정보를 부가하도록 구성된 것이어도 된다.

상기 제어부는, 상기 메타 데이터의 AdaptationSet를 포함하는 MPD 파일을 취득하고, 이 MPD 파일을 해석하여, 상기 영상 데이터 및 상기 메타 데이터를 각각 MPEG-DASH의 Media Segment로서 취득하고, 상기 영상 데이터와, 상기 메타 데이터에 기초하는 상기 부가 화상을 서로 동기시켜 제시하도록 구성된 것이어도 된다.

상기 제어부는, 상기 메타 데이터의 버전 정보에 기초하여, 시간적으로 전후하는 전방측의 메타 데이터와 후방측의 메타 데이터와의 내용 변화의 유무를 판별하고, 변화가 없는 경우, 상기 전방측의 메타 데이터에 기초하여 영상에 부가한 부가 화상을, 상기 후방측의 메타 데이터에 기초하는 부가 화상으로 하고, 상기 후방측의 메타 데이터에 동기하는 영상에 부가하도록 구성되어도 된다.

또한, 상기 부가 화상의 시각적 특징은, 상기 서비스 대상물에 관한 문자열, 색, 형상 또는 아이콘 중 어느 하나에 의해 부여된다고 해도 된다.

본 기술에 관한 다른 측면인 정보 처리 방법은, 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하고, 상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가한다고 하는 수순을 포함하는 것이다.

본 기술에 관한 또 다른 측면인 프로그램은, 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 컴퓨터에서 재생할 때, 상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하도록 컴퓨터를 기능시키는 프로그램이다.

이상과 같이, 본 기술에 의하면, 재생 영상을 감상할 때 음성 AI 어시스턴트 서비스를 그 특성을 살려서 이용할 수 있다.

도 1은 본 기술에 관한 제1 실시 형태의 정보 처리 장치(4)를 포함하는 정보 처리 시스템(100)의 전체 구성을 도시하는 블록도이다.
도 2는 도 1의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 1)을 도시하는 시퀀스도이다.
도 3은 도 1의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 2)을 도시하는 시퀀스도이다.
도 4는 도 1의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 3)을 도시하는 시퀀스도이다.
도 5는 부가 화상이 중첩된 영상의 예를 도시하는 도면이다.
도 6은 POI 메타 데이터의 구성을 도시하는 블록도이다.
도 7은 부가 화상이 중첩된 영상의 다른 예를 도시하는 도면이다.
도 8은 부가 화상의 제시 제한을 도시하는 도면이다.
도 9는 도 1의 정보 처리 시스템(100)에 있어서의, 부가 화상의 제시 제한을 포함하는 전체적 동작의 흐름(그 3)을 도시하는 시퀀스도이다.
도 10은 POI 메타 데이터에 기초하는 트릭 플레이 재생에 대해 설명하는 도면이다.
도 11은 POI 메타 데이터를 처리하는 애플리케이션 실행 환경(43)의 예를 도시하는 도면이다.
도 12는 POI 메타 데이터를 처리하는 애플리케이션 실행 환경(43)의 다른 예를 도시하는 도면이다.
도 13은 웹 애플리케이션과 POI 메타 데이터를 패키징하는 Multi-part MIME 포맷의 예를 나타내는 도면이다.
도 14는 MP4 파일의 포맷에 있어서의 Media Segment의 구성을 도시하는 도면이다.
도 15는 MPEG-DASH의 MPD의 데이터 구조를 도시하는 도면이다.
도 16은 MPEG-DASH 서버(15)와 정보 처리 장치(4) 사이에서의 네트워크 통신에 의한 주고받기를 도시하는 도면이다.
도 17은 MPEG-DASH 동화상 콘텐츠의 제시 제어의 흐름을 도시하는 도면이다.
도 18은 POI 메타 데이터의 AdaptationSet가 추가된 MPD의 구성을 도시하는 도면이다.
도 19는 POI 메타 데이터의 AdaptationSet가 추가된 MPD의 보다 구체적인 예를 도시하는 도면이다.
도 20은 MPD에 기초하는 영상 및 부가 화상의 제시 흐름을 도시하는 도면이다.
도 21은 서비스 대상물의 이동에 따라 부가 화상의 제시 위치를 이동시키는 경우의 POI 메타 데이터를 도시하는 도면이다.
도 22는 POI 메타 데이터의 복수 샘플 시간에 걸친 제시 갱신 제어를 설명하는 도면이다.

이하, 본 기술에 관한 실시 형태를 설명한다.

<본 실시 형태의 정보 처리 장치의 요지>

본 실시 형태의 정보 처리 장치(4)는,

유저로부터의 음성에 의한 요구를 처리하는 음성 AI 어시스턴트 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 AV 디코더(41)와,

상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는 애플리케이션 실행 환경(43)을 구비한다.

이에 의해, 본 실시 형태의 정보 처리 장치(4)는, 재생 영상에 있어서 음성 AI 어시스턴트 서비스의 서비스 대상물을 한눈에 판별할 수 있고, 서비스 대상물을 선택할 때 망설이는 것이 없어진다는 효과를 갖는다.

<제1 실시 형태>

다음에, 제1 실시 형태의 정보 처리 장치(4)를 포함하는 정보 처리 시스템(100)의 구성 및 그의 동작을 상세하게 설명한다.

(시스템 전체 구성)

도 1은 본 기술에 관한 제1 실시 형태의 정보 처리 장치(4)를 포함하는 정보 처리 시스템(100)의 전체 구성을 도시하는 블록도이다.

동 도면에 나타내는 바와 같이, 이 정보 처리 시스템(100)은, 서버군(1), 방송/넷 배신 시스템(2), 음성 AI 어시스턴트 서비스 단말기(3) 및 유저의 정보 처리 장치(4)를 포함한다.

(서버군(1)에 대하여)

서버군(1)은, 동화상 콘텐츠 서버(11), 애플리케이션 서버(12), POI 메타 데이터 서버(13) 및 음성 AI 어시스턴트 서비스 프로그램 서버(14)를 포함한다.

동화상 콘텐츠 서버(11)는, CM이나 프로그램 등의 동화상 콘텐츠의 데이터를 축적한다. 동화상 콘텐츠의 데이터는, 영상, 음성, 자막 등의 복수의 종류의 미디어 데이터로 구성되는 멀티미디어 데이터이면 된다. 본 기술은, 특히 영상 데이터에 적용할 수 있는 것이며, 음성, 자막 등의 다른 미디어 데이터의 유무는 따지지 않는다.

POI 메타 데이터 서버(13)는, 동화상 콘텐츠에 대응하는 POI 메타 데이터를 방송/넷 배신 시스템(2)을 통하여 정보 처리 장치(4)에 직접 배신한다. 혹은, 동화상 콘텐츠 서버(11)에 있어서, 적어도 동화상 콘텐츠의 데이터와 POI 메타 데이터를 소정의 데이터 구조로 수집하고 정보 처리 장치(4)로 배신하는 경우에는, POI 메타 데이터 서버(13)는 POI 메타 데이터를 방송/넷 배신 시스템(2)을 통하여 동화상 콘텐츠 서버(11)에 공급한다. POI 메타 데이터에 대해서는 후술한다.

애플리케이션 서버(12)는, 정보 처리 장치(4)에 있어서 POI 메타 데이터에 기초하는 처리를 실행하기 위한 애플리케이션을 방송/넷 배신 시스템(2)을 통하여 정보 처리 장치(4)에 직접 배신한다. 혹은, 동화상 콘텐츠 서버(11)에 있어서 동화상 콘텐츠의 데이터, POI 메타 데이터 및 애플리케이션을 소정의 데이터 구조로 수집하고 정보 처리 장치(4)로 배신하는 경우에는, 애플리케이션 서버(12)는 애플리케이션을 방송/넷 배신 시스템(2)을 통하여 동화상 콘텐츠 서버(11)에 공급한다.

음성 AI 어시스턴트 서비스 프로그램 서버(14)는, 방송/넷 배신 시스템(2)을 통하여 음성 AI 어시스턴트 서비스 단말기(3)에 음성 AI 어시스턴트 서비스 프로그램을 공급한다. 음성 AI 어시스턴트 서비스 프로그램은, 동화상 콘텐츠에 등장하는 특정의 인물이나 물품 등의 서비스 대상물에 대해 동화상 콘텐츠의 시청자인 유저 U로부터 부여된 서비스 요구에 대한 서비스 실행 결과를 생성하도록 구성된 프로그램이다.

방송/넷 배신 시스템(2)은, 동화상 콘텐츠의 데이터, 혹은 동화상 콘텐츠의 데이터와 POI 메타 데이터를 통합한 데이터 구조, 혹은 동화상 콘텐츠의 데이터와 POI 메타 데이터와 애플리케이션을 통합한 데이터 구조를, 방송 혹은 네트워크 통신에 의해 정보 처리 장치(4)로 배신하는 시스템이다. 또한, 방송/넷 배신 시스템(2)은, 동화상 콘텐츠 서버(11), 애플리케이션 서버(12), POI 메타 데이터 서버(13) 사이에서의 데이터 전송, 나아가 음성 AI 어시스턴트 서비스 프로그램 서버(14)와 음성 AI 어시스턴트 서비스 단말기(3) 사이의 데이터 전송에도 사용된다.

(정보 처리 장치(4)에 대하여)

정보 처리 장치(4)는, 하드웨어 요소로서, CPU(Central Processing Unit)와, RAM(Random Access Memory) 등의 메인 메모리와, HDD(Hard Disk Drive), SSD(Solid State Drive) 등의 스토리지 디바이스와, 유저 인터페이스와, 안테나 및 방송 튜너 등의 방송 수신부와, 네트워크 인터페이스 등의 통신 인터페이스를 구비한다. 정보 처리 장치(4)는, 구체적으로는 퍼스널 컴퓨터, 스마트 폰, 태블릿 단말기, 텔레비전, 게임기, HMD(Head Mounted Display) 등의 유저 장착 가능형 정보 단말기 등이어도 된다.

정보 처리 장치(4)는, 상기한 하드웨어 요소와 소프트웨어 요소에 의해 실현되는 기능적 요소로서, AV 디코더(41), POI 메타 데이터 처리 모듈(42), 애플리케이션 실행 환경(43), 렌더러(44)를 갖는다.

정보 처리 장치(4)는, 유저 인터페이스로서, 디스플레이(45)와 스피커(46)를구비한다. 또한, 정보 처리 장치(4)는, 기능적인 요소로서 유저 판별 모듈(47)을 구비한 것이어도 된다.

AV 디코더(41)는, 방송/넷 배신 시스템(2)을 통하여 동화상 콘텐츠 서버(11)로부터 취득한 동화상 콘텐츠의 멀티미디어 데이터(영상 데이터 및 음성 데이터 등)를 복호한다.

POI 메타 데이터 처리 모듈(42)은, 방송/넷 배신 시스템(2)을 통하여 동화상 콘텐츠 서버(11) 혹은 POI 메타 데이터 서버(13)로부터 취득한 POI 메타 데이터를 애플리케이션 실행 환경(43)에 공급한다.

「POI 메타 데이터」란, 정보 처리 장치(4)에 있어서 재생 중인 영상에, 당해 영상 중에서 음성 AI 어시스턴트 서비스가 할당된 특정의 서비스 대상물을, 정보 처리 장치(4)의 유저 U에게 교시하는 추가 화상을 추가하기 위한 메타 데이터이다. POI는 Point of Interest의 약어이다. 「특정의 서비스 대상물」은, 영상에 있어서 음성 AI 어시스턴트 서비스가 유저 U로부터의 서비스 요구에 대해 응답하는 것이 가능하게 된 등장 인물이나 물품 등이다.

애플리케이션 실행 환경(43)은, 네이티브 애플리케이션 또는 웹 애플리케이션을 CPU 및 메인 메모리를 사용하여 실행되는 환경이다. 애플리케이션 실행 환경(43)은, POI 메타 데이터 처리 모듈(42)로부터 부여된 POI 메타 데이터에 기초하여, 영상 중의 서비스 대상물에 부가해야 할 추가 화상을 생성한다. 「추가 화상」은 예를 들어, 영상 중의 서비스 대상물과의 관계를 알기 쉽도록, 예를 들어 「말풍선」으로서 생성된다. 그러나, 본 기술은 이에 한정되지 않고, 영상 중의 서비스 대상물과의 관계를 알기 쉬운 화상이라면 된다.

렌더러(44)는, AV 디코더(41)에 의해 복호된 영상 데이터로부터 디스플레이(45)에 출력하는 표시 신호를 생성하거나, AV 디코더(41)에 의해 복호된 음성 데이터를 스피커(46)에 출력한다. 또한, 렌더러(44)는, 애플리케이션 실행 환경(43)으로부터 추가 화상이 공급된 경우에는 이 추가 화상을 프로그램 영상 위에 합성한다.

디스플레이(45)는 유저 U에게 영상을 제시한다. 스피커(46)는 유저 U에게 음성을 제시한다.

(음성 AI 어시스턴트 서비스 단말기(3)에 대하여)

음성 AI 어시스턴트 서비스 단말기(3)는, 정보 처리 장치(4)의 유저 U에 대해, 음성에 의한 어시스턴트 서비스를 제공하는 단말기이다. 음성 AI 어시스턴트 서비스 단말기(3)는, 보다 구체적으로는, 영상 중에서 유저 U로부터 임의의 서비스 대상물에 관한 음성에 의한 서비스 요구를 접수하고, 그 서비스를 실행하고, 서비스의 실행 결과를 유저 U에게 음성 등으로 되돌려줄 수 있는 장치이다. 여기서, 유저 U로부터의 음성에 의한 서비스 요구는 예를 들어 질문 형식 등의 단어에 의해 주어지고, 서비스의 실행 결과는 예를 들어 회답 형식 등의 합성 음성에 의해 유저 U에게 되돌려준다.

음성 AI 어시스턴트 서비스 단말기(3)는, 어시스턴트 서비스용 마이크(31)와, 음성 인식 모듈(32)과, 음성 AI 어시스턴트 서비스용 스피커(33)와, 음성 생성 모듈(34)과, 음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)을 구비한다.

어시스턴트 서비스용 마이크(31)는, 정보 처리 장치(4)의 유저 U로부터의 음성에 의한 서비스 요구를 도입한다.

음성 인식 모듈(32)은, 어시스턴트 서비스용 마이크(31)에 의해 도입한 서비스 요구의 음성을 인식하여 요구 데이터를 음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)에 전달한다.

음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)은, 음성 AI 어시스턴트 서비스 프로그램 서버(14)로부터 취득한 음성 AI 어시스턴트 서비스 프로그램을 실행하는 환경이다. 음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)은, 음성 인식 모듈(32)로부터 공급된 요구 데이터에 대한 서비스의 실행 결과의 데이터를 생성하고, 음성 생성 모듈(34)에 공급한다.

음성 생성 모듈(34)은, 음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)으로부터 공급된 서비스 실행 결과의 데이터를 합성 음성으로 변환한다.

어시스턴트 서비스용 스피커(33)는, 음성 생성 모듈(34)로부터 공급된 합성 음성을 정보 처리 장치(4)의 유저 U에게 제시한다.

(정보 처리 시스템의 전체적 동작의 흐름(그 1))

도 2는, 본 실시 형태의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 1)을 도시하는 시퀀스도이다.

전제로서, 동화상 콘텐츠의 데이터, 애플리케이션 및 POI 메타 데이터가 각각 별개의 서버(동화상 콘텐츠 서버(11), 애플리케이션 서버(12), POI 메타 데이터 서버(13))로부터 배신되는 경우를 상정하고 있다.

우선, 애플리케이션 서버(12)로부터 정보 처리 장치(4)에 방송/넷 배신 시스템(2)을 통하여 애플리케이션이 배신된다(스텝 S101). 또한 동화상 콘텐츠 서버(11)로부터 정보 처리 장치(4)로 동화상 콘텐츠의 데이터가 방송/넷 배신 시스템(2)을 통하여 배신된다(스텝 S102). 정보 처리 장치(4)에 있어서, 수신된 동화상 콘텐츠의 데이터는 AV 디코더(41)에 의해 복호되고, 이 결과 얻어진 영상 데이터 및 음성 데이터가 렌더러(44)를 통하여 디스플레이(45) 및 스피커(46)에 각각 공급된다(스텝 S103).

또한, 애플리케이션 서버(12)로부터 정보 처리 장치(4)로 배신된 애플리케이션은 애플리케이션 실행 환경(43)에 도입되고, 애플리케이션이 실행된다(스텝 S104).

다음에, POI 메타 데이터 서버(13)로부터 정보 처리 장치(4)에 방송/넷 배신 시스템(2)을 통하여 동화상 콘텐츠에 대응하는 POI 메타 데이터가 배신된다(스텝 S105). 정보 처리 장치(4)에 있어서, POI 메타 데이터는 POI 메타 데이터 처리 모듈(42)에 의해 애플리케이션 실행 환경(43)에 공급된다. 애플리케이션 실행 환경(43)은, POI 메타 데이터에 기초하여, 영상 중의 서비스 대상물을 유저 U에게 교시하는 부가 화상을 생성하고, 렌더러(44)에 공급한다. 이에 의해, 프로그램의 영상 위에 부가 화상이 중첩된 합성 상(像)이 얻어지고, 디스플레이(45)에 표시된다(스텝 S106).

그 후, 유저 U는, 디스플레이(45)에 표시된 영상 중에서 부가 화상이 제시된 서비스 대상물에 관한 음성에 의한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 부여하고, 음성 AI 어시스턴트 서비스를 이용한다(스텝 S107).

(정보 처리 시스템의 전체적 동작의 흐름(그 2))

도 3은 본 실시 형태의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 2)을 도시하는 시퀀스도이다.

전술한 동작의 흐름(그 1)에서는, 동화상 콘텐츠의 데이터와 POI 메타 데이터가 각각 별개의 서버(동화상 콘텐츠 서버(11), POI 메타 데이터 서버(13))로부터 정보 처리 장치(4)로 배신되기 때문에, 정보 처리 장치(4)에 있어서 동화상 콘텐츠 데이터와 POI 메타 데이터와의 동기가 보증되지 않는다.

그래서, 도 3에 도시하는 동작의 흐름(그 2)에서는, 우선, POI 메타 데이터 서버(13)로부터 동화상 콘텐츠 서버(11)로 방송/넷 배신 시스템(2)을 통하여 POI 메타 데이터가 공급된다(스텝 S201). 다음에, 동화상 콘텐츠 서버(11)에서, POI 메타 데이터와 동화상 콘텐츠의 데이터가 소정의 데이터 구조로 수집되어 정보 처리 장치(4)에 방송/넷 배신 시스템(2)을 통하여 배신된다(스텝 S203).

정보 처리 장치(4)에서는, 수신된 데이터 구조로부터 동화상 콘텐츠의 데이터가 추출되고, 추출된 동화상 콘텐츠의 데이터는 AV 디코더(41)에 의해 복호되고, 이 결과 얻어진 영상 데이터 및 음성 데이터가 렌더러(44)를 통하여 디스플레이(45) 및 스피커(46)에 각각 공급된다(스텝 S204).

또한, 정보 처리 장치(4)에서는, 수신된 데이터 구조로부터 POI 메타 데이터 처리 모듈(42)에 의해 POI 메타 데이터가 추출되어(스텝 S205), 애플리케이션 실행 환경(43)에 공급된다. 애플리케이션 실행 환경(43)은, POI 메타 데이터에 기초하여, 영상 중의 서비스 대상물을 유저 U에게 교시하는 부가 화상을 생성하고, 렌더러(44)에 공급한다. 이에 의해, 프로그램의 영상 위에 부가 화상이 중첩된 합성 상이 얻어지고, 디스플레이(45)에 표시된다(스텝 S207).

그 후, 유저 U는, 디스플레이(45)에 표시된 영상 중에서 부가 화상이 제시된 서비스 대상물에 관한 음성에 의한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 부여하고, 음성 AI 어시스턴트 서비스를 이용한다(스텝 S208).

이와 같이, POI 메타 데이터와 동화상 콘텐츠의 데이터를 소정의 데이터 구조로 수집하고 동화상 콘텐츠 서버(11)로부터 정보 처리 장치(4)로 배신함으로써, 정보 처리 장치(4)에 있어서 동화상 콘텐츠의 데이터와 POI 메타 데이터를 서로 동기하여 처리할 수 있음이 보증된다. 이 때문에, 프로그램의 영상 중의 서비스 대상물에 항상 정확한 부가 화상을 부가할 수 있고, 안정된 음성 AI 어시스턴트 서비스를 유지할 수 있다.

또한, 이 동작의 흐름(그 2)에 있어서, 애플리케이션은, 애플리케이션 서버(12)로부터 정보 처리 장치(4)에 방송/넷 배신 시스템(2)을 통하여 배신되어(스텝 S202), 애플리케이션 실행 환경(43)에 도입되어 애플리케이션이 실행된다는(스텝 S206) 점은, 전술한 동작의 흐름(그 1)과 같다.

(정보 처리 시스템의 전체적 동작의 흐름(그 3))

도 4는 본 실시 형태의 정보 처리 시스템(100)에 있어서의 전체적 동작의 흐름(그 3)을 도시하는 시퀀스도이다.

이 동작의 흐름에서는, 동화상 콘텐츠 서버(11)로부터 정보 처리 장치(4)로, 동화상 콘텐츠의 데이터와 POI 메타 데이터와 이것을 처리하는 애플리케이션이 소정의 데이터 구조로 수집되고 배신되는 경우를 상정하고 있다.

우선, POI 메타 데이터 서버(13)로부터 동화상 콘텐츠 서버(11)로 POI 메타 데이터가 공급된다(스텝 S301). 또한, 애플리케이션 서버(12)로부터 동화상 콘텐츠 서버(11)로 애플리케이션이 공급된다(스텝 S302). POI 메타 데이터의 공급과 애플리케이션의 공급 순위는 반대여도 된다. 다음에, 동화상 콘텐츠 서버(11)에 의해, 동화상 콘텐츠의 데이터와 POI 메타 데이터와 애플리케이션이 소정의 데이터 구조로 수집되어 정보 처리 장치(4)에 방송/넷 배신 시스템(2)을 통하여 배신된다(스텝 S303).

정보 처리 장치(4)에서는, 수신된 데이터 구조로부터 동화상 콘텐츠의 데이터가 추출되고, 추출된 동화상 콘텐츠의 데이터는 AV 디코더(41)에 의해 복호되고, 이 결과 얻어진 영상 데이터 및 음성 데이터가 렌더러(44)를 통하여 디스플레이(45) 및 스피커(46)에 각각 공급된다(스텝 S304).

또한, 정보 처리 장치(4)에서는, 수신된 데이터 구조로부터 애플리케이션이 추출되어(스텝 S305), 애플리케이션 실행 환경(43)에 도입되어 애플리케이션이 실행된다(스텝 S306).

또한, 정보 처리 장치(4)에서는, 수신된 데이터 구조로부터 POI 메타 데이터 처리 모듈(42)에 의해 POI 메타 데이터가 추출되어(스텝 S307), 애플리케이션 실행 환경(43)에 공급된다. 애플리케이션 실행 환경(43)은, POI 메타 데이터에 기초하여, 영상 중의 서비스 대상물을 유저 U에게 교시하는 부가 화상을 생성하고, 렌더러(44)에 공급한다. 이에 의해, 프로그램의 영상 위에 부가 화상이 중첩된 합성 상이 얻어지고, 디스플레이(45)에 표시된다(스텝 S308).

그 후, 유저 U는, 디스플레이(45)에 표시된 영상 중에서 부가 화상이 제시된 서비스 대상물에 관한 음성에 의한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 부여하고, 음성 AI 어시스턴트 서비스를 이용한다(스텝 S309).

(부가 화상에 대하여)

다음에, POI 메타 데이터에 기초하여 생성되는 부가 화상에 대해 설명한다.

도 5는 부가 화상이 중첩된 영상의 예를 도시하는 도면이다.

동 도면에 나타내는 바와 같이, 부가 화상은, 예를 들어 영상 중의 음성 AI 어시스턴트 서비스의 서비스 대상물 J1, J2, J3에 각각 부수된 말풍선(51, 52, 53)으로서 제시되어도 된다.

말풍선(51, 52, 53)에는, 서비스 대상물 J1, J2, J3을 유저 U가 음성으로 음성 AI 어시스턴트 서비스 단말기(3)에 통지하는 경우에 이 서비스 대상물 J1, J2, J3이 음성 AI 어시스턴트 서비스 단말기(3)에 있어서 음성 인식에 의해 일의적으로 판별될 수 있도록, 서비스 대상물 J1, J2, J3마다 유니크한 시각적 특징이 부여된다. 이에 의해 유저 U는, 임의의 서비스 대상물의 특징을 표현하는 음성을 사용하고, 그 서비스 대상물에 관한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 부여할 수 있다.

예를 들어, 도 5의 예에서는, 말풍선(51, 52, 53) 중에 "Bill", "Fred", "Lucy"와 같은 서비스 대상물 J1, J2, J3인 등장 인물의 이름의 문자열이 시각적 특징으로서 표시된다. 이에 의해 유저 U는, 예를 들어 "Fred의 최근의 뉴스는?", "Bill은 몇살?"과 같이, 임의의 서비스 대상물의 이름을 사용하여 당해 서비스 대상물에 관한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 음성으로 부여할 수 있다. 한편, 음성 AI 어시스턴트 서비스 단말기(3)는 음성 인식 모듈(32)에 의해 인식된 이름으로부터 서비스 대상물을 특정할 수 있고, 특정한 서비스 대상물에 대해, 음성 AI 어시스턴트 서비스 프로그램 실행 환경(35)의 음성 AI 어시스턴트 서비스 프로그램에 따라 음성 AI 어시스턴트 서비스를 실행할 수 있다.

또한, 말풍선(51, 52, 53)에 배치되는 서비스 대상물마다 유니크한 시각적 특징에는, 등장 인물의 이름의 문자열 외에, 아이콘, 말풍선의 색, 말풍선의 디자인 등, 다양한 변형이 고려된다.

이상과 같이, 본 실시 형태에서는, 동화상 콘텐츠의 영상 중의 음성 AI 어시스턴트 서비스의 서비스 대상물에, 이것이 서비스 대상물인 것을 유저 U에게 교시하는 부가 화상을 생성하고, 동화상 콘텐츠의 영상에 중첩하여 제시하도록 하였으므로, 유저 U는 영상으로부터 서비스 대상물을 일의적으로 판별하고, 임의의 서비스 대상물에 관한 서비스 요구를 행할 수 있다. 이에 의해, 유저 U로부터 음성 AI 어시스턴트 서비스 단말기(3)로 서비스 대상물 이외의 물체에 대한 서비스 요구를 부여한다고 하는 불필요한 조작이 회피되어, 음성 AI 어시스턴트 서비스를 양호하게 이용할 수 있다.

또한, 서비스 대상물이 음성 AI 어시스턴트 서비스 단말기(3)에서의 음성 인식에 의해 일의로 인식될 수 있도록, 부가 화상에 서비스 대상물마다 유니크한 시각적 특징이 부여된 것에 의해, 유저 U는, 임의의 서비스 대상물의 특징을 표현하는 음성을 사용하고, 그 서비스 대상물에 관한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 음성으로 부여할 수 있다. 이에 의해, 유저 U는 서비스 대상물을 어떻게 표현하여 음성 AI 어시스턴트 서비스에 통지하는지를 망설이는 것이 없어짐과 함께, 음성 AI 어시스턴트 서비스 단말기(3)에 있어서 서비스 대상물이 확실하게 특정되므로, 양호한 음성 AI 어시스턴트 서비스가 실현된다.

다음에, POI 메타 데이터의 구조에 대해 설명한다.

(POI 메타 데이터의 구조)

도 6은 POI 메타 데이터의 구성을 도시하는 블록도이다.

POI 메타 데이터는, POI 아이콘 이미지, POI 제시 색, POI 제시 위치, POI 제시 텍스트, POI 필터링 정보를 포함한다.

POI 아이콘 이미지는, 부가 화상에 서비스 대상부의 시각적 특징으로 하여 아이콘을 제시하는 경우에 사용되는 아이콘 파일의 실체 혹은 아이콘 파일로의 참조 URL(Uniform Resource Locator)이다. POI 아이콘 이미지의 XML(Extensible Markup Language) 표현을 이하에 나타낸다.

POI 제시 색은, 부가 화상에 색에 의한 시각적 특징을 부여하는 경우에 사용된다. POI 제시 색의 정보에는, 예를 들어 CSS(Cascading Style Sheets)의 컬러 코드 등이 사용된다. POI 제시 색의 XML 표현을 이하에 나타낸다.

<POIColor>…(CSS color code)…</POIColor>

POI 제시 위치는, 부가 화상을 제시하는 대상 콘텐츠의 URI(Uniform Resource Identifier), POI 메타 데이터에 기초하여 부가 화상을 제시하는 처리를 행하는 애플리케이션의 URI, 부가 화상의 제시 시간, 부가 화상의 제시 위치 등의 정보를 포함한다. POI 제시 위치의 XML 표현을 이하에 나타낸다.

POI 제시 텍스트는, 부가 화상에 문자에 의한 시각적 특징을 부여하는 경우에 부가 화상에 제시되는 문자열이다. POI 제시 텍스트의 XML 표현을 이하에 나타낸다.

POI 필터링 정보는, 부가 화상의 유저 혹은 유저 속성에 따른 제시 제한을 행하는 경우에 사용된다. POI 필터링 정보는, 부가 화상을 제시하는 대상의 유저 U를 특정하기 위한 정보이며, 유저 데모그래픽 클래스의 식별명과 임의의 유저 식별 정보를 포함한다.

유저 데모그래픽 클래스는, 유저의 성별, 연령, 살고 있는 지역, 직업, 학력, 가족 구성 등의 속성을 바탕으로 유저 U를 분류하는 클래스이며, 유저 데모그래픽 클래스의 식별명에 의해 일의적으로 식별된다. 유저 데모그래픽 클래스의 식별명의 XML 표현을 이하에 나타낸다.

<POITargetUser demographicClass='true'>…(유저 데모그래픽 클래스 식별명)…</POITargetUser>

임의의 유저 식별 정보는, 예를 들어 방송국 관련 서비스의 어카운트명 등의 유저 식별 정보이다. 임의의 유저 식별 정보의 XML 표현을 이하에 나타낸다.

<POITargetUser privateAccount='true'>https…//…(서비스의 사용자 계정 식별 URL 등)…</POITargetUser>

또한, POI 아이콘 이미지, POI 제시 색 및 POI 제시 텍스트는, 적어도 어느 하나가 정의되면 된다. POI 필터링 정보는, 후술하는 부가 정보의 제시 제한을 도입하는 경우에 정의된다.

(부가 화상의 제시 제한에 대하여)

상기한 실시 형태에서는, 동화상 콘텐츠의 영상 중의 음성 AI 어시스턴트 서비스의 서비스 대상물에 부가 화상을 제시하기로 하였다. 그러나, 예를 들어 도 7에 도시하는 바와 같이, 하나의 씬에 다수의 서비스 대상물 J1-J5가 존재하는 경우에는 그것들의 서비스 대상물 J1-J5의 수분의 부가 화상 51-55가 제시되기 때문에, 이들 부가 화상 51-55에 의해 프로그램의 영상의 일부가 가려져 버려, 프로그램 영상의 외견이 손상될 우려가 있다.

그래서, 예를 들어 도 8에 도시하는 바와 같이, 유저 U에 따라 부가 화상을 제시하는 서비스 대상물을 제한하는 것이 유효하다. 예를 들어, 유저 U에게 있어서 흥미가 있는 서비스 대상물에 대해서는 부가 화상을 제시하고, 그렇지 않은 서비스 대상물에 대해서는 부가 화상을 제시하지 않도록 한다. 이에 의해, 부가 화상에 의해 프로그램의 영상 일부가 다수의 부가 화상에 가려져서 영상 전체가 지저분해지는 것을 최소한으로 억제할 수 있다. 이 기능을 「부가 화상의 제시 제한」이라고 칭하기로 한다.

도 9는, 이 부가 화상의 제시 제한을 포함하는 동작의 흐름을 도시하는 시퀀스도이다.

여기서, 스텝 S401 내지 S405의 동작은, 도 2에 도시한 동작의 흐름(그 1)의 스텝 S101 내지 S105와 같기 때문에, 설명을 생략한다.

부가 화상의 제시 제한이 행해지기 위해, 정보 처리 장치(4)의 유저 판별 모듈(47)에 의해 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보가 판별된다(스텝 S406). 판별된 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보는 애플리케이션 실행 환경(43)에 통지된다(스텝 S407).

유저 데모그래픽 클래스는, 유저의 성별, 연령, 살고 있는 지역, 직업, 학력, 가족 구성 등의 다양한 속성을 바탕으로 유저를 분류하는 클래스이다. 예를 들어, 20세대 남성이면 최근 인기가 있는 신인 여배우에게 흥미가 있는 경향이 높은 것이 통계적으로 말할 수 있는 경우에는, 20세대 남성의 유저 데모그래픽 클래스는, 프로그램에 있어서 신인 여배우가 연기하는 등장 인물(서비스 대상물)에 관한 POI 메타 데이터에 정의된 유저 데모그래픽 클래스와 일치한다.

유저 판별 모듈(47)에 의한 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보의 판별 방법에는 다음과 같은 것을 들 수 있다.

1. 유저 판별 모듈(47)은, 카메라로 촬상한 유저 U의 얼굴 화상의 해석 결과로부터 유저 U의 성별이나 연령층 등의 속성을 추정하고, 추정된 속성으로부터 유저 데모그래픽 클래스를 판별한다.

2. 유저 판별 모듈(47)은, 음성 AI 어시스턴트 서비스 단말기(3)로부터 유저 U로의 음성에 의한 질문을 통하여 얻어진 정보를 기초로 유저 U의 속성을 추정하여 유저 데모그래픽 클래스를 판별한다.

3. 정보 처리 장치(4)를 사용하는 복수의 유저가 한정되어 있는 경우에 있어서, 각 유저의 유저명에 대응지어 유저 데모그래픽 클래스의 식별명 혹은 유저 식별 정보를 미리 등록해 둠으로써, 유저 판별 모듈(47)은, 생체 인증, 카드 인증 등의 인증을 통하여 확인된 유저명으로부터 대응하는 유저 데모그래픽 클래스의 식별명 혹은 유저 식별 정보를 판별할 수 있다.

다음에, 정보 처리 장치(4)의 애플리케이션 실행 환경(43)은, 동화상 콘텐츠의 각 씬의 영상에 대한 모든 POI 메타 데이터 중에서 유저 판별 모듈(47)에 의해 판별된 유저 데모그래픽 클래스의 식별명 혹은 유저 식별 정보가 POI 필터링 정보로서 정의된 POI 메타 데이터를 추출하고, 추출한 POI 메타 데이터에 기초하여 영상 중의 서비스 대상물을 유저 U에게 교시하는 부가 화상을 생성하여, 렌더러(44)에 공급한다. 이에 의해, 프로그램의 영상 위에 부가 화상이 중첩된 합성 상이 얻어지고, 디스플레이(45)에 표시된다(스텝 S408).

그 후, 유저 U는, 디스플레이(45)에 표시된 영상 중에서 부가 화상이 제시된 서비스 대상물에 관한 음성에 의한 서비스 요구를 음성 AI 어시스턴트 서비스 단말기(3)에 부여하고, 음성 AI 어시스턴트 서비스를 이용한다(스텝 S409).

또한, 여기서는, 도 2에 도시한 정보 처리 시스템의 전체적 동작의 흐름(그 1)을 전제한 부가 화상의 제시 제한을 설명하였지만, 전체적 동작의 흐름(그 2) 및 전체적 동작의 흐름(그 3)에 있어서 마찬가지이다.

다음에, 도 8로 되돌아가서 설명을 계속한다. 여기서, 영상 중의 서비스 대상물 J1의 유저 데모그래픽 클래스의 식별명은 "class1"로 하고, 그 밖의 서비스 대상물 J2-J5의 유저 데모그래픽 클래스의 식별명은 "class1" 이외인 것으로 한다. 한편, 유저 판별 모듈(47)에 의해 유저 U의 유저 데모그래픽 클래스가 "class1"로 판별된 것으로 한다. 이 경우, 서비스 대상물 J1에 대해서만 부가 화상(51)이 제시됨으로써, 프로그램 영상의 일부분이 유저 U에게 있어서 흥미가 없는 서비스 대상물 J2-J5에 부가되는 부가 화상 52-55에 가려져서 영상 전체가 지저분해지는 것을 최소한으로 억제할 수 있다.

또한, 부가 화상의 제시 제한이 유저 식별 정보를 필터링 조건으로서 행해지는 경우에는, 특정의 유저 U에게만 특정의 서비스 대상물에 대한 부가 화상을 제시할 수 있도록 할 수 있다.

(유저 U의 시청 이력에 기초하는 유저 데모그래픽 클래스의 설정)

또한, 상기한 설명에서는, 성별, 연령, 살고 있는 지역, 직업, 학력, 가족 내 속성 등의 속성으로부터 유저 U의 유저 데모그래픽 클래스를 판별하기로 하였지만, 유저 판별 모듈(47)에서, 유저 U의 시청 이력을 바탕으로 유저 U의 기호적인 조건을 산출하고, 이 기호적인 조건을 바탕으로, 혹은 이 기호적인 조건을 가미하여, 유저 데모그래픽 클래스를 판별해도 된다.

(POI 메타 데이터에 기초하는 트릭 플레이 재생)

다음에, POI 메타 데이터에 기초하는 트릭 플레이 재생에 대해 설명한다.

POI 메타 데이터에 기초하는 트릭 플레이 재생이란, 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보를 기초로 추출된 POI 메타 데이터에 기초하여 부가 화상이 제시되는 씬에 대해서는 제1 배속으로의 재생을 행하고, 그 밖의 씬에 대해서는 제1 배속보다 고속인 제2 배속으로 재생하는 것을 말한다.

여기서, 제1 배속은, 예를 들어 1배속(등배속) 혹은 1배속보다 낮은 배속이다. 제2 배속은 예를 들어 1배속보다 고속인 빨리 감기 재생이다.

이어서, 이 POI 메타 데이터에 기초하는 트릭 플레이 재생의 동작을 보다 자세하게 설명한다.

우선, 유저 판별 모듈(47)에 의해 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보를 판별하고, 애플리케이션 실행 환경(43)에 공급한다.

애플리케이션 실행 환경(43)은, 프로그램의 각 씬의 영상에 대한 모든 POI 메타 데이터 중에서 유저 판별 모듈(47)에 의해 판별된 유저 데모그래픽 클래스의 식별명 혹은 유저 식별 정보가 POI 필터링 정보로서 정의된 POI 메타 데이터를 선택하고, 추출한 POI 메타 데이터에 기초하여, 트릭 플레이 재생을 행한다.

도 10은 POI 메타 데이터에 기초하는 트릭 플레이 재생을 보다 구체적으로 도시하는 도면이다.

여기서, 서비스 대상물인 "Bill"과 "Sam"의 유저 데모그래픽 클래스는"class1"이며, 유저 판별 모듈(47)에 의해 판별된 유저 U의 유저 데모그래픽 클래스가 "class1"인 것으로 하자.

Ta-Ta' 기간의 영상에는 유저 데모그래픽 클래스가 "class1"인 "Bill"이 등장하고 있기 때문에, 애플리케이션 실행 환경(43)은, 이 Ta-Ta' 기간, 제1 배속으로 부가 화상을 포함하는 영상의 재생을 행한다. 그 후 시각 Tc가 될 때까지, 유저 데모그래픽 클래스가 "class1"인 서비스 대상물이 영상에 등장하지 않기 때문에, 애플리케이션 실행 환경(43)은, 제1 배속보다 고속인 제2 배속으로 재생을 행한다. 또한, 제2 배속에서의 재생시는 부가 화상을 제시하지 않음으로써 애플리케이션 실행 환경(43)의 부담을 저감시킬 수 있다. Tc-Tc' 기간의 영상에는 유저 데모그래픽 클래스가 "class1"인 "Sam"이 등장하기 때문에, 애플리케이션 실행 환경(43)은, 이 Tc-Tc' 기간, 제1 배속으로 부가 화상을 포함하는 영상의 재생을 행한다. 시각 Tc' 이후는 유저 데모그래픽 클래스가 "class1"인 서비스 대상물이 영상에 등장하지 않기 때문에 제2 배속으로의 재생이 행해진다.

이와 같이, 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보를 기초로 추출된 POI 메타 데이터에 기초하여 부가 화상이 제시되는 씬에 대해서는 제1 배속으로의 재생을 행하고, 그 밖의 씬에 대해서는 제1 배속보다 고속인 제2 배속으로 재생함으로써, 유저 U에게 있어서 유익한(흥미가 있는) 씬에 포커스한 트릭 플레이 재생이 실현된다.

또한, 유저 U의 유저 데모그래픽 클래스 혹은 유저 식별 정보를 기초로 추출된 POI 메타 데이터에 기초하여 부가 화상이 제시되는 씬만을 스킵 재생해도 된다.

여기까지 본 실시 형태의 정보 처리 시스템에 의한 POI 메타 데이터에 기초하는 부가 화상의 제시, 부가 화상의 제시 제한, 트릭 플레이 재생 등의 기능에 대해 설명하였다.

(애플리케이션 실행 환경(43)에 대하여)

도 11은 POI 메타 데이터를 처리하는 애플리케이션 실행 환경(43)의 예를 도시하는 도면이다.

본 예에서는, POI 메타 데이터를 처리하는 애플리케이션이, 정보 처리 장치(4)의 네이티브 오퍼레이팅 시스템(48) 상에서 동작하는 네이티브 애플리케이션(49)인 경우를 나타내고 있다.

도 12는 POI 메타 데이터를 처리하는 애플리케이션 실행 환경(43)의 그 밖의 예를 도시하는 도면이다.

이 예에서는, POI 메타 데이터를 처리하는 애플리케이션이, 웹브라우저(56) 상에서 동작하는 웹 애플리케이션(57)인 경우를 나타내고 있다. 이 경우, POI 메타 데이터와 웹 애플리케이션(57)이 서로 동시 혹은 대략 동시에 정보 처리 장치(4)로 배신된다.

(POI 메타 데이터의 전송 방법)

정보 처리 장치(4)에 웹 애플리케이션과 POI 메타 데이터를 동시에 배신하기 위해, Multi-part MIME(Multipurpose Internet MAIl Extensions) 포맷을 사용하여 양자를 패키징하는 방법이 있다. 도 13은 이 웹 애플리케이션과 POI 메타 데이터를 패키징하는 Multi-part MIME 포맷의 예를 도시하는 도면이다. 이 Multi-part MIME 포맷에서는, boundary-part에 의해 구획된 각 부분에 POI 메타 데이터의 파일(61), 웹 애플리케이션의 파일(62)이 각각 개별적으로 저장된다.

또한, POI 메타 데이터를 처리하는 애플리케이션이, 오퍼레이팅 시스템을 애플리케이션 실행 환경으로서 동작하는 네이티브 애플리케이션인 경우나, POI 메타 데이터와는 별도 배신되는 것인 경우에는, Multi-part MIME 포맷에 POI 메타 데이터 파일만을 저장하여 배신해도 된다.

다음에, MP4 파일의 포맷에 영상 데이터 및 음성 데이터 등의 미디어 데이터의 트랙과 마찬가지로 POI 메타 데이터의 트랙을 저장하여 전송하는 방식을 설명한다.

도 14는 MP4 파일의 포맷에 있어서의 Media Segment의 구성을 도시하는 도면이다.

동 도면에 나타내는 바와 같이, Media Segment는 복수의 Movie Fragent를 갖고, 각각의 Movie Fragent는 moof 박스와 mdat 박스로 구성된다. mdat 박스에는, 미디어 데이터가 예를 들어 프레임 등의 시간의 단위로 복수의 Sample 박스로 분할되어 랜덤 액세스 가능하게 저장된다. moof 박스에는, mdat 박스의 각 Sample 박스의 미디어 데이터를 제시하는 타이밍을 생성하기 위한 정보 등, 제시에 관한 메타 데이터가 저장된다.

본 실시 형태에서는, mdat 박스의 각 Sample 박스에 영상 데이터가 저장된 Media Segment, mdat 박스의 각 Sample 박스에 음성 데이터가 저장된 Media Segment, mdat 박스의 각 Sample 박스에 POI 메타 데이터가 저장된 Media Segment가 준비된다.

또한, 본 실시 형태에서는, MP4 파일이 MPEG-DASH(Dynamic Adaptive Streaming over HTTP)의 Media Segment인 것을 전제로 한다.

(MPEG-DASH에 대하여)

MPEG-DASH에서는, 스트리밍 재생이 도중에 끊어지지 않도록, 하나의 동화상 콘텐츠에 대해 부호화 속도와 화면 사이즈가 다른 복수의 데이터 군이 준비된다. 이들 복수의 데이터 군은, 정보 처리 장치(4)의 화면 사이즈나 네트워크 대역의 상태 등을 고려하여 동적으로 선택된다. 그 때문에 MPEG-DASH에서는, 상기한 바와 같이 하나의 동화상 콘텐츠에 대해 어떤 부호화 속도와 화면 사이즈의 데이터 군이 준비되어 있는지가 MPD(Media Presentation Description)라고 불리는 메타 데이터에 기술된다.

다음에, MPD의 데이터 구조의 상세를 설명한다.

MPD는 서버에 저장된 동화상 콘텐츠의 구성에 관한 정보를 XML(extensible markup language) 형식의 계층 구조로 기술한 것이다. 정보 처리 장치(4)는, 목적으로 하는 동화상 콘텐츠에 대응하는 MPD 파일을 MPD 파일 서버로부터 취득하고, 해석함으로써, 서버로부터 목적으로 하는 동화상 콘텐츠의 제시에 필요한 Media Segment를 취득한다.

도 15는 MPD의 데이터 구조를 도시하는 도면이다.

MPD는, 그 아래에 하나의 Period와, 그 하위에 각 미디어의 타입마다 하나씩의 AdaptationSet와, 또한 그 하위의 복수의 Representation을 갖는다.

MPD의 계층 즉 최상위 계층에는, 하나의 동화상 콘텐츠에 관한 관리 정보로서, MPD의 기점, 타이틀, 스트리밍 종별(온 디맨드/라이브 배신), 길이 등의 정보를 포함한다.

Period는 하나의 동화상 콘텐츠를, 프레임 등의 시간으로 분할한 단위이다. Period에는 개시 시각(start 시각)과 종료 시각(end 시각)이 정의된다. Period는 복수의 AdaptationSet로 구성된다.

AdaptationSet는, Period마다의 동화상 콘텐츠의 미디어 타입(영상, 음성, 자막, POI 메타 데이터)마다의 데이터에 관한 코덱 정보, 언어 등의 정보를 포함한다. AdaptationSet는, 그 하위에 부호화 속도나 화상 사이즈의 다른 데이터마다의 Representation을 갖는다.

Representation은, 각각 웹 서버에 축적되는, 부호화 속도나 화상 사이즈 등의 다른 세그먼트의 부호화 속도, 화상 사이즈, 두는 장소(URL) 등의 정보를 포함한다.

도 16은 MPEG-DASH 서버(15)와 정보 처리 장치(4) 사이에서의 네트워크 통신에 의한 주고받기를 도시하는 도면이다.

MPEG-DASH 서버(15)에는, MPD 파일 및 동화상 콘텐츠의 각종 미디어의 Media Segment가 저장된다.

정보 처리 장치(4)의 CPU는, MPEG-DASH 서버(15)에 MPD 파일을 요구한다(스텝 S501). MPEG-DASH 서버(15)는, 이 요구에 대해 MPD 파일을 정보 처리 장치(4)에 송신한다(스텝 S502). 정보 처리 장치(4)의 CPU는, 수신된 MPD 파일을 해석하고, 어떤 부호화 속도와 화상 사이즈의 Media Segment가 준비되어 있는지를 확인한다(스텝 S503). 정보 처리 장치(4)의 CPU는, 이 MPD 파일의 해석 결과와 디스플레이의 화면 사이즈나 전송로의 네트워크 트래픽의 상태 등을 고려하여 최적의 화상 사이즈나 부호화 속도의 Media Segment를 MPEG-DASH 서버(15)에 요구한다(스텝 S504). MPEG-DASH 서버(15)는, 이 요구에 대해 Media Segment를 정보 처리 장치(4)에 송신한다(스텝 S505).

다음에, 상기 MPD와 Media Segment와의 관계를 설명하기 위해, 도 14로 되돌아가, Media Segment에 있어서의 moof 박스와 mdat 박스의 데이터 구조를 설명한다.

전술한 바와 같이, Media Segment는 복수의 Movie Fragent를 갖고, 각각의 Movie Fragent는 moof 박스와 mdat 박스로 구성된다. mdat 박스에는, 미디어 데이터가 예를 들어 프레임 등의 시간의 단위로 복수의 Sample 박스로 분할되어 랜덤 액세스 가능하게 저장된다. moof 박스에는, mdat 박스의 각 Sample의 미디어 데이터를 제시하는 타이밍을 생성하기 위한 정보 등, 제시에 관한 메타 데이터가 저장된다.

각각의 Sample (1), (2), (3), …의 미디어 데이터의 제시 개시 시각 Presentation Time (1), (2), (3), …을 생성하기 위한 정보로 하고, moof 박스의 소정의 하위 박스(moof/traf 박스)에는 BaseMediaDecodeTime이 저장되고, 또한 그 밖의 박스(trun 박스)에는, Sample (1), (2), (3), …에 각각 대응지어진 정보로 하고, SampleCount (1), (2), (3), …, SampleDuration (1), (2), (3), …, CompositionTimeOffset (1), (2), (3), …이 저장된다. BaseMediaDecodeTime은, Period의 기점에서 Movie Fragment의 기점까지의 상대 시간의 정보이다. Sample Count (1), (2), (3), …은 Sample의 수, SampleDuration (1), (2), (3), …은 Sample (1), (2), (3), …의 길이, CompositionTimeOffset (1), (2), (3), …은 조정 시간이다.

다음에, Sample의 제시 개시 시각 PresentationTime의 계산 방법을 나타낸다.

N번째 Sample의 제시 개시 시각을 PresentationTime(N)이라 하면, PresentationTime(N)은, BaseMediaDecodeTime+(N-1번째까지의 Sample(1), …, (N-1)의 SampleDuration(1), …, (N-1)의 합계)+(N번째 Sample의 CompositionTime Offset)(N)에 의해 산출된다.

(MPEG-DASH 동화상 콘텐츠의 전형적인 제시 제어)

도 17은 MPEG-DASH 동화상 콘텐츠의 제시 제어의 흐름을 도시하는 도면이다.

동 도면에 있어서, 횡축은 실시간(UTC time)의 축으로 한다. 정보 처리 장치(4)의 CPU는, MPD 파일에 정의된 MPD의 기점을 기준으로, Period에 MPD의 기점에 대한 상대 시간으로서 정의된 개시 시각을 바탕으로 최초의 Period의 실시간상의 기점을 생성한다.

다음에, 정보 처리 장치(4)의 CPU는, BaseMediaDecodeTime에 기초하여 Movie Fragment의 실시간상의 기점을 생성하고, 또한 SampleCount, SampleDuration, CompositionTimeOffset를 사용하여, Period의 최초의 Sample(1)의 제시 개시 시각(PresentationTime(1))을 생성하고, 그 시각으로부터 최초의 Sample(1)의 제시를 개시한다. 다음에, 정보 처리 장치(4)의 CPU는, 다음 Sample(2)의 제시 개시 시각(PresentationTime(2))을 마찬가지로 생성하고, 그 시각에 제시하는 대상을 Sample(1) 내지 Sample(2)로 전환한다. 이후 마찬가지로 Sample 제시의 전환이 행해진다. 이와 같이 하여, 각 Sample (1), (2), …의 영상이 시간적으로 도중에 끊어지지 않고 제시된다.

본 실시 형태에서는, MPD 파일에 POI 메타 데이터에 대응하는 AdaptationSet를 추가함으로써, MPEG-DASH 동화상 콘텐츠의 제시 제어 방법을 그대로 답습하여 부가 화상의 제시 제어를 행하는 것이 가능해진다. 이에 의해, MPEG-DASH 동화상 콘텐츠의 영상 및 음성 등의 각 미디어와 동기시켜 부가 화상을 제시시킬 수 있다.

예를 들어, 도 18에 도시하는 바와 같이, 실시간상 T1 내지 T2의 Period(T1-T2)의 영상에 동기하여 부가 화상을 제시하는 경우에는, MPD의 Period(T1-T2)의 하위 계층에 POI 메타 데이터의 AdaptationSet(T1-T2)가 추가된다. 또한, 실시간상 T2 내지 T3의 Period(T2-T3)의 영상에 동기하여 부가 화상을 제시하는 경우에는, MPD의 Period(T2-T3)의 하위 계층에 POI 메타 데이터의 AdaptationSet(T2-T3)가 추가된다.

도 19는, POI 메타 데이터의 AdaptationSet가 추가된 MPD의 보다 구체적인 예를 도시하는 도면이다.

이 MPD의 최상위 계층에는 ＠avAIlabilityStartTime=T0이라 기술되어 있다. 이것은, 동화상 콘텐츠의 시간 기점이 T0인 것을 나타낸다. 그 하위 계층에는 2개의 Period가 저장된다. 2개의 Period 중, 최초의 Period는 T0의 기점에서 0sec 후에 개시되고, 2번째 Period는 T0의 기점에서 100sec 후에 개시되는 것이 정의된다.

이 예에서는, 2번째 Period의 AdaptationSet로서 영상, 음성 및 POI 메타 데이터 각각의 AdaptationSet가 존재한다. 영상의 AdaptationSet의 하위 계층에는 다른 부호화 속도(256Kbps/512Kbps)를 나타낸 2개의 Representation이 존재한다. 각각의 Representation의 하위 계층에는, 영상의 Media Segment의 두는 장소를 나타내는 URL의 생성 방법이나 취득 주기 등이 기술된 SegmentTemplate가 존재한다.

여기서, "＠timescale="1000"", "＠duration="1000""은, 1/1000초의 타임 스케일로 1000분의 값 즉 1초를 세그먼트 시간의 길이로서, 이 세그먼트 시간의 길이의 주기로 영상을 취득할 수 있는 것을 말한다. "＠Media="$Number％6d$. m4s""는 각 Sample의 영상의 두는 장소를 나타내는 URL의 최하위의 값의 생성 방법을 나타내고, 구체적으로는 6자리의 값의 1로부터 증가하는 정수를 의미한다. 예를 들어, Sample의 URL은, MPD의 각 요소에 기술된 "BaseURL"이 나타내는 값을 패스 형식으로 연결하고, 마지막으로 "＠Media="$Number％6d$. m4s""에 의해 생성되는 6자리의 값을 부가함으로써 생성된다. 즉, 영상의 1번째 Sample의 URL은"HTTP://a.com/p2/video/512/000001.m4s"와 같이 작성된다. "＠initialization="IS.mp4""는, 영상의 1번째 Media Segment의 Initialization Segment의 URL에 사용되는 값이다. 이 Initialization Segment의 URL에 대해서도, MPD의 각 요소에 기술된 "BaseURL"이 나타내는 값을 패스 형식으로 연결하고, 마지막으로 "IS.mp4"를 부가함으로써 생성된다. 예를 들어, "HTTP://a.com/p2/video/512/IS.mp4"와 같이 작성된다.

POI 메타 데이터의 AdaptationSet의 하위 계층에는 Representation이 존재하고, 또한 그 하위 계층에는 POI 메타 데이터의 Media Segment의 두는 장소를 나타내는 URL의 생성 방법이나 취득 주기 등이 기술된 SegmentTemplate가 존재한다. 이 POI 메타 데이터의 Media Segment의 두는 장소를 나타내는 URL의 생성 방법은 영상의 Media Segment의 두는 장소를 나타내는 URL의 생성 방법과 동일해도 된다. 또한, POI 메타 데이터의 Initialization Segment의 두는 장소를 나타내는 URL의 생성 방법도 영상의 Initialization Segment의 두는 장소를 나타내는 URL의 생성 방법과 동일해도 된다. POI 메타 데이터의 Initialization Segment에는, Media Segment에 POI 메타 데이터가 Sample로서 저장되는 것을 식별하는 정보가 포함된다. 구체적으로는, Initialization Segment의moov(MovieBox)/trak(TrackBox)/mdia(MediaBox)/hdlr(HandlerBox)의 handler_type필드의 값이 "meta"인 것에 의해, POI 메타 데이터가 Media Segment에 Sample로서 저장되는 것을 식별할 수 있다.

정보 처리 장치(4)의 CPU는, 상기한 바와 같이 생성되는 URL에 기초하여, 동화상 콘텐츠의 영상, 음성 및 POI 메타 데이터를 각각 Sample의 단위로 취득할 수 있다.

도 20은, MPD에 기초하는 영상 및 부가 화상의 제시 흐름을 도시하는 도면이다.

영상의 각 Sample (1), (2), (3)을 제시하는 처리는 전술한 바와 같다.

여기서, 정보 처리 장치(4)의 CPU는, 영상의 최초의 Sample(1)의 실시간상의 제시 개시 시각(Presentation Time)(1)로부터 다음 Sample(2)의 실시간상의 제시 개시 시각(Presentation Time)(2)까지의 사이에, POI 메타 데이터(1)에 기초하는 부가 화상의 제시 처리를 행한다. 이후, 정보 처리 장치(4)의 CPU는, Sample(2)의 실시간상의 제시 개시 시각(Presentation Time)(2)로부터 그 다음 Sample(3)의 실시간상의 제시 개시 시각(Presentation Time)(3)까지의 사이에 POI 메타 데이터(2)에 기초하는 부가 화상의 제시 처리를 행하고, 또한 Sample(2)의 실시간상의 제시 개시 시각(Presentation Time)(3)으로부터 그 다음 Sample(3)의 실시간상의 제시 개시 시각(Presentation Time)(4)까지의 사이에 POI 메타 데이터(3)에 기초하는 부가 화상의 제시 처리를 행한다.

이상과 같이, 본 실시 형태에서는, MPD 파일에 POI 메타 데이터를 위한 AdaptationSet를 추가함으로써, POI 메타 데이터에 기초하는 부가 화상의 제시 제어를, 영상, 음성 등의 다른 종류의 미디어 제시 제어와 같은 방식으로 행할 수 있음과 함께, 영상, 음성 등의 다른 종류의 미디어와 부가 화상을 정확하게 동기시켜 제시할 수 있다.

(부가 화상의 제시 위치의 이동)

도 21은 영상 중의 서비스 대상물이 시간에 따라 이동하는 경우에 그 서비스 대상물의 이동에 따라 부가 화상의 제시 위치도 이동시키는 경우의 POI 메타 데이터를 도시하는 도면이다.

여기서, T1은 POI 메타 데이터(1)에 기초하는 부가 화상의 제시 개시 시각, T2는 POI 메타 데이터(2)에 기초하는 부가 화상의 제시 개시 시각, T3은 POI 메타 데이터(3)에 기초하는 부가 화상의 제시 개시 시각이다. T1-T2는 POI 메타 데이터(1)에 기초하는 부가 화상의 제시 기간이며, 이 기간, 부가 화상은, POI 메타 데이터(1) 중의 POI Position 요소의 값(x=x1, y=y1)이 나타내는 위치에 제시된다. T2-T3은 POI 메타 데이터(2)에 기초하는 부가 화상의 제시 기간이며, 이 기간, 부가 화상은, POI 메타 데이터(2) 중의 POI Position 요소의 값(x=x2, y=y2)이 나타내는 위치에 제시된다. 그리고 T3-T4는 POI 메타 데이터(3)에 기초하는 부가 화상의 제시 기간이며, 이 기간, 부가 화상은, POI 메타 데이터(3) 중의 POI Position 요소의 값(x=x3, y=y3)이 나타내는 위치에 제시된다.

이와 같이, 각 Sample의 POI 메타 데이터에 있어서의 POI Position 요소의 값을, 이동하는 서비스 대상물의 위치에 맞추어 정함으로써, 부가 화상의 제시 위치를 서비스 대상물의 이동에 정확하게 동기시켜 이동시킬 수 있다.

(POI 메타 데이터의 복수 샘플 시간에 걸친 제시 갱신 제어)

여기까지, 각 Sample의 영상에 POI 메타 데이터를 일대일로 대응시키면서 부가 화상의 제시 제어가 행해지는 경우를 상정하였지만, 하나의 POI 메타 데이터를 연속되는 복수의 Sample의 영상에 적용시켜도 된다. 이 경우, 도 22에 나타내는 바와 같이, POI 메타 데이터의 파일(63, 64, 65)을 저장된 데이터 패키지(66, 67, 68)에 기술되는 POI 메타 데이터의 식별자(metadataURI)의 값에 버전 정보(Version)가 부가된다. 이 버전 정보는, 직전의 POI 메타 데이터에 대해 내용 변화가 없는 경우에는, 직전의 POI 메타 데이터를 저장된 데이터 패키지에 기술되는 버전 정보와 같은 값으로 되고, 직전의 POI 메타 데이터에 대해 내용 변화가 있는 경우에는 인크리먼트된 값으로 설정된다.

이에 의해, 애플리케이션 실행 환경(43)의 애플리케이션은, 영상의 Sample간의 전환에 있어서, 전환 전후의 각 버전 정보의 값이 변화된 경우에는, POI 메타 데이터에 기초하는 부가 화상의 제시를 위한 연산을 행하고, 각 버전 정보의 값에 변화가 없는 경우에는, 재차 POI 메타 데이터에 기초하는 부가 화상의 제시를 위한 연산을 행하지 않고 부가 화상을 그대로 계속 제시한다. 이에 의해, 부가 화상의 제시를 위한 연산 부하를 저감시킬 수 있다.

예를 들어, 도 22에 나타내는 바와 같이, Sample(1)의 영상에 대응하는 POI 메타 데이터(1)의 식별자(metadataURI)에 부가된 버전 정보의 값은 "1", 2번째 Sample(2)의 영상에 대응하는 POI 메타 데이터(2)의 식별자(metadataURI)에 부가된 버전 정보의 값은 "2", 3번째 Sample(3)의 영상에 대응하는 POI 메타 데이터(3)의 식별자(metadataURI)에 부가된 버전 정보의 값은 "2"이다. 이 경우, 2번째 Sample(2)의 영상과 3번째 Sample(3)의 영상의 전환에 있어서, 3번째 Sample(3)의 영상에 대응하는 POI 메타 데이터(3)에 기초하는 부가 화상의 제시를 위한 연산을 행하지 않고, 2번째 Sample(2)의 영상에 부가된 부가 화상이 3번째 Sample(3)의 영상에도 그대로 계속 제시된다.

또한, 본 기술은, 상술한 실시 형태에만 한정되는 것이 아니고, 본 발명의 요지를 일탈하지 않는 범위 내에 있어서 다양한 변경을 가할 수 있음은 물론이다.

본 기술은 이하와 같은 구성도 채용할 수 있다.

(1) 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 미디어 재생부와,

상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는 제어부

를 구비하는 정보 처리 장치.

(2) 상기 (1)에 기재된 정보 처리 장치이며,

상기 부가 화상은, 상기 서비스 대상물이 상기 서비스에 있어서 음성 인식에 의해 일의적으로 판별될 수 있도록, 상기 서비스 대상물마다 유니크한 시각적 특징을 갖는

정보 처리 장치.

(3) 상기 (1) 내지 (2) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 부가 화상은, 상기 서비스 대상물에 부수된 위치에 제시되는

정보 처리 장치.

(4) 상기 (1) 내지 (3) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라, 상기 부가 화상이 부가되는 상기 서비스 대상물을 제한하도록 구성된

정보 처리 장치.

(5) 상기 (1) 내지 (4) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 스킵 재생하도록 구성된

정보 처리 장치.

(6) 상기 (1) 내지 (4) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 제1 배속으로 재생하고, 상기 서비스 대상물이 등장하지 않는 기간의 영상을 상기 제1 배속보다 고속인 제2 속도로 재생하도록 구성된

정보 처리 장치.

(7) 상기 (1) 내지 (6) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 부가 정보를 생성하기 위한 메타 데이터를 취득하고, 상기 취득한 메타 데이터에 기초하여 상기 부가 정보를 부가하도록 구성된

정보 처리 장치.

(8) 상기 (1) 내지 (7) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 메타 데이터를 처리하기 위한 웹 애플리케이션을 취득하고, 상기 취득한 웹 애플리케이션에 따라 상기 메타 데이터를 처리하도록 구성된

정보 처리 장치.

(9) 상기 (1) 내지 (8) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 메타 데이터의 AdaptationSet를 포함하는 MPD 파일을 취득하고, 이 MPD 파일을 해석하여, 상기 영상 데이터 및 상기 메타 데이터를 각각 MPEG-DASH의 Media Segment로서 취득하고, 상기 영상 데이터와, 상기 메타 데이터에 기초하는 상기 부가 화상을 서로 동기시켜 제시하도록 구성된

정보 처리 장치.

(10) 상기 (1) 내지 (9) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 제어부는, 상기 메타 데이터의 버전 정보에 기초하여, 시간적으로 전후하는 전방측의 메타 데이터와 후방측의 메타 데이터와의 내용 변화의 유무를 판별하고, 변화가 없는 경우, 상기 전방측의 메타 데이터에 기초하여 영상에 부가한 부가 화상을, 상기 후방측의 메타 데이터에 기초하는 부가 화상으로 하고, 상기 후방측의 메타 데이터에 동기하는 영상에 부가하도록 구성된

정보 처리 장치.

(11) 상기 (1) 내지 (10) 중 어느 하나에 기재된 정보 처리 장치이며,

상기 부가 화상의 시각적 특징이, 상기 서비스 대상물에 관한 문자열, 색, 형상 또는 아이콘 중 어느 하나에 의해 부여되는

정보 처리 장치.

(12) 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하고,

상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는

정보 처리 방법.

(13) 상기 (12)에 기재된 정보 처리 방법이며,

정보 처리 방법.

(14) 상기 (12) 또는 (13)에 기재된 정보 처리 방법이며,

정보 처리 방법.

(15) 상기 (12) 내지 (14) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 유저 또는 상기 유저의 속성에 따라, 상기 부가 화상이 부가되는 상기 서비스 대상물을 제한하는

정보 처리 방법.

(16) 상기 (12) 내지 (15) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 스킵 재생하는

정보 처리 방법.

(17) 상기 (12) 내지 (15) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 제1 배속으로 재생하고, 상기 서비스 대상물이 등장하지 않는 기간의 영상을 상기 제1 배속보다 고속인 제2 속도로 재생하는

정보 처리 방법.

(18) 상기 (12) 내지 (17) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 부가 정보를 생성하기 위한 메타 데이터를 취득하고, 상기 취득한 메타 데이터에 기초하여 상기 부가 정보를 부가하는

정보 처리 방법.

(19) 상기 (12) 내지 (18) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 메타 데이터를 처리하기 위한 웹 애플리케이션을 취득하고, 상기 취득한 웹 애플리케이션에 따라 상기 메타 데이터를 처리하는

정보 처리 방법.

(20) 상기 (12) 내지 (19) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 메타 데이터의 AdaptationSet를 포함하는 MPD 파일을 취득하고, 이 MPD 파일을 해석하여, 상기 영상 데이터 및 상기 메타 데이터를 각각 MPEG-DASH의 Media Segment로서 취득하고, 상기 영상 데이터와, 상기 메타 데이터에 기초하는 상기 부가 화상을 서로 동기시켜 제시하는

정보 처리 방법.

(21) 상기 (12) 내지 (20) 중 어느 하나에 기재된 정보 처리 방법이며,

상기 메타 데이터의 버전 정보에 기초하여, 시간적으로 전후하는 전방측의 메타 데이터와 후방측의 메타 데이터와의 내용 변화의 유무를 판별하고, 변화가 없는 경우, 상기 전방측의 메타 데이터에 기초하여 영상에 부가한 부가 화상을, 상기 후방측의 메타 데이터에 기초하는 부가 화상으로 하고, 상기 후방측의 메타 데이터에 동기하는 영상에 부가하는

정보 처리 방법.

(22) 상기 (12) 내지 (21) 중 어느 하나에 기재된 정보 처리 방법이며,

정보 처리 방법.

(23) 유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 컴퓨터에서 재생할 때, 상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하도록 컴퓨터를 기능시키는 프로그램.

(24) 상기 (23)에 기재된 프로그램이며,

프로그램.

(25) 상기 (23) 또는 (24)에 기재된 프로그램이며,

프로그램.

(26) 상기 (23) 내지 (25) 중 어느 하나에 기재된 프로그램이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라, 상기 부가 화상이 부가되는 상기 서비스 대상물을 제한하는

프로그램.

(27) 상기 (23) 내지 (26) 중 어느 하나에 기재된 프로그램이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 스킵 재생하는

프로그램.

(28) 상기 (23) 내지 (26) 중 어느 하나에 기재된 프로그램이며,

상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 제1 배속으로 재생하고, 상기 서비스 대상물이 등장하지 않는 기간의 영상을 상기 제1 배속보다 고속인 제2 속도로 재생하는

프로그램.

(29) 상기 (23) 내지 (28) 중 어느 하나에 기재된 프로그램이며,

상기 제어부는, 상기 부가 정보를 생성하기 위한 메타 데이터를 취득하고, 상기 취득한 메타 데이터에 기초하여 상기 부가 정보를 부가하는

프로그램.

(30) 상기 (23) 내지 (28) 중 어느 하나에 기재된 프로그램이며,

상기 제어부는, 상기 메타 데이터의 버전 정보에 기초하여, 시간적으로 전후하는 전방측의 메타 데이터와 후방측의 메타 데이터와의 내용 변화의 유무를 판별하고, 변화가 없는 경우, 상기 전방측의 메타 데이터에 기초하여 영상에 부가한 부가 화상을, 상기 후방측의 메타 데이터에 기초하는 부가 화상으로 하고, 상기 후방측의 메타 데이터에 동기하는 영상에 부가하는

프로그램.

(31) 상기 (23) 내지 (29) 중 어느 하나에 기재된 프로그램이며,

프로그램.

4: 정보 처리 장치
11: 동화상 콘텐츠 서버
12: 애플리케이션 서버
13: POI 메타 데이터 서버
41: AV 디코더
42: POI 메타 데이터 처리 모듈
43: 애플리케이션 실행 환경
44: 렌더러
45: 디스플레이
46: 스피커
47: 유저 판별 모듈

Claims

유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 미디어 재생부와,
상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는 제어부
를 구비하는 정보 처리 장치.
제1항에 있어서,
상기 부가 화상은, 상기 서비스 대상물이 상기 서비스에 있어서 음성 인식에 의해 일의적으로 판별될 수 있도록, 상기 서비스 대상물마다 유니크한 시각적 특징을 갖는
정보 처리 장치.
제2항에 있어서,
상기 부가 화상은, 상기 서비스 대상물에 부수된 위치에 제시되는
정보 처리 장치.
제3항에 있어서,
상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라, 상기 부가 화상이 부가되는 상기 서비스 대상물을 제한하도록 구성된
정보 처리 장치.
제4항에 있어서,
상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 스킵 재생하도록 구성된
정보 처리 장치.
제5항에 있어서,
상기 제어부는, 상기 유저 또는 상기 유저의 속성에 따라 상기 부가 화상이 부가된 상기 서비스 대상물이 등장하는 기간의 영상을 제1 배속으로 재생하고, 상기 서비스 대상물이 등장하지 않는 기간의 영상을 상기 제1 배속보다 고속인 제2 속도로 재생하도록 구성된
정보 처리 장치.
제6항에 있어서,
상기 제어부는, 상기 부가 정보를 생성하기 위한 메타 데이터를 취득하고, 상기 취득한 메타 데이터에 기초하여 상기 부가 정보를 부가하도록 구성된
정보 처리 장치.
제7항에 있어서,
상기 제어부는, 상기 메타 데이터를 처리하기 위한 웹 애플리케이션을 취득하고, 상기 취득한 웹 애플리케이션에 따라 상기 메타 데이터를 처리하도록 구성된
정보 처리 장치.
제8항에 있어서,
상기 제어부는, 상기 메타 데이터의 AdaptationSet를 포함하는 MPD 파일을 취득하고, 이 MPD 파일을 해석하여, 상기 영상 데이터 및 상기 메타 데이터를 각각 MPEG-DASH의 Media Segment로서 취득하고, 상기 영상 데이터와, 상기 메타 데이터에 기초하는 상기 부가 화상을 서로 동기시켜 제시하도록 구성된
정보 처리 장치.
제9항에 있어서,
상기 제어부는, 상기 메타 데이터의 버전 정보에 기초하여, 시간적으로 전후하는 전방측의 메타 데이터와 후방측의 메타 데이터와의 내용 변화의 유무를 판별하고, 변화가 없는 경우, 상기 전방측의 메타 데이터에 기초하여 영상에 부가한 부가 화상을, 상기 후방측의 메타 데이터에 기초하는 부가 화상으로 하고, 상기 후방측의 메타 데이터에 동기하는 영상에 부가하도록 구성된
정보 처리 장치.
제2항에 있어서,
상기 부가 화상의 시각적 특징이, 상기 서비스 대상물에 관한 문자열, 색, 형상 또는 아이콘 중 어느 하나에 의해 부여되는
정보 처리 장치.
유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하고,
상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는
정보 처리 방법.
유저로부터의 음성에 의한 요구를 처리하는 서비스를 이용 가능한 서비스 대상물을 포함하는 영상 데이터를 취득하여 재생하는 미디어 재생부와,
상기 재생된 영상에 상기 서비스 대상물을 상기 유저에게 교시하기 위한 부가 화상을 부가하는 제어부로서,
컴퓨터를 기능시키는 프로그램.