KR102630037B1

KR102630037B1 - 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법

Info

Publication number: KR102630037B1
Application number: KR1020207025449A
Authority: KR
Inventors: 다쿠미 츠루
Original assignee: 소니그룹주식회사
Priority date: 2018-03-29
Filing date: 2019-03-15
Publication date: 2024-01-29
Also published as: US11930248B2; US20220360849A1; KR20200136382A; WO2019188393A1; US11438650B2; CN111903138A; US20210006862A1; EP3780640A1; JPWO2019188393A1; EP3780640A4; JP7366003B2

Abstract

본 기술은, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 하는 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법에 관한 것이다. 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 당해 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍을 제어하는 제어부를 구비하는 정보 처리 장치가 제공됨으로써, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있게 된다. 본 기술은, 예를 들어 음성 AI 어시스턴스 서비스와 연계한 시스템에 적용할 수 있다.

Description

정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법

본 기술은, 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법에 관한 것이며, 특히 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 한 정보 처리 장치, 정보 처리 방법, 송신 장치, 및 송신 방법에 관한 것이다.

방송 콘텐츠에 연동하여 실행되는 방송 애플리케이션이 제안되어 있다(예를 들어, 특허문헌 1 참조). 방송 애플리케이션을 이용함으로써, 예를 들어 방송 콘텐츠에 관련되는 정보의 표시를 행할 수 있다.

또한, 유저의 발화 내용을 해석하는 음성 인식에 관한 기술이 제안되어 있다(예를 들어, 특허문헌 2 참조). 예를 들어, 이 기술을, 텔레비전 수상기나 휴대 단말 장치에 적용하면, 유저가 발한 말을 해석하고, 그 발화에 따른 처리를 실행하는 것이 가능해진다.

일본 특허 공개 제2013-187781호 공보 일본 특허 공개 제2014-153663호 공보

근년, 음성 AI 어시스턴스 서비스가 급속하게 보급되고 있지만, 텔레비전 수상기 등의 수신기에서 재생되는 방송 콘텐츠나 방송 애플리케이션에 연계하여, 음성 AI 어시스턴스 서비스를 이용할 때, 방송 콘텐츠 등의 콘텐츠를 시청하는 시청자의 발화에 대한 응답 음성의 출력이, 당해 콘텐츠의 음성과 겹쳐, 시청자에 의한 시청의 방해가 될 우려가 있다. 그 때문에, 시청자의 발화의 응답 음성의 출력 시에, 시청자에 의한 시청의 방해가 되지 않도록 하여, 당해 음성 AI 어시스턴스 서비스의 편리성을 향상시키기 위한 기술이 요구되었다.

본 기술은 이와 같은 상황을 감안하여 이루어진 것이며, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 하는 것이다.

본 기술의 제1 측면의 정보 처리 장치는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 제어부를 구비하는 정보 처리 장치이다.

본 기술의 제1 측면의 정보 처리 장치는, 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다. 또한, 본 기술의 제1 측면의 정보 처리 방법은, 상술한 본 기술의 제1 측면의 정보 처리 장치에 대응하는 정보 처리 방법이다.

본 기술의 제1 측면의 정보 처리 장치 및 정보 처리 방법에 있어서는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍이 제어된다.

본 기술의 제2 측면의 송신 장치는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터를 생성하는 생성부와, 생성한 상기 메타데이터를 송신하는 송신부를 구비하는 송신 장치이다.

본 기술의 제2 측면의 송신 장치는, 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다. 또한, 본 기술의 제2 측면의 송신 방법은, 상술한 본 기술의 제2 측면의 송신 장치에 대응하는 송신 방법이다.

본 기술의 제2 측면의 송신 장치, 및, 송신 방법에 있어서는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터가 생성되고, 생성된 상기 메타데이터가 송신된다.

본 기술의 제1 측면, 및 제2 측면에 의하면, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니고, 본 개시 중에 기재된 어느 효과여도 된다.

도 1은 본 기술을 적용한 콘텐츠·음성 AI 연계 시스템의 일 실시 형태의 구성의 예를 도시하는 블록도이다.
도 2는 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 응답 타이밍의 예를 도시하는 도면이다.
도 3은 제1 실시 형태의 구성의 제1 예를 도시하는 도면이다.
도 4는 제1 실시 형태의 각 장치의 상세한 구성의 제1 예를 도시하는 블록도이다.
도 5는 음성 어시스턴스 서버와 처리 서버 사이의 통신의 예를 도시하는 도면이다.
도 6은 음성 어시스턴스 서버와 처리 서버 사이의 통신의 예를 도시하는 도면이다.
도 7은 음성 유저 인터페이스 장치와 음성 어시스턴스 서버 사이의 통신의 예를 도시하는 도면이다.
도 8은 제1 실시 형태의 각 장치의 처리의 제1 예의 흐름을 설명하는 흐름도이다.
도 9는 제1 실시 형태의 구성의 제2 예를 도시하는 도면이다.
도 10은 제1 실시 형태의 각 장치의 상세한 구성의 제2 예를 도시하는 블록도이다.
도 11은 방송 배신 시스템과 수신 장치 사이에서 교환되는 메타데이터의 예를 도시하는 도면이다.
도 12는 MPD의 기술의 예를 도시하는 도면이다.
도 13은 제1 실시 형태의 각 장치의 처리의 제2 예의 흐름을 설명하는 흐름도이다.
도 14는 제2 실시 형태의 구성의 예를 도시하는 도면이다.
도 15는 제2 실시 형태의 각 장치의 상세한 구성의 예를 도시하는 블록도이다.
도 16은 제2 실시 형태의 각 장치의 처리의 흐름을 설명하는 흐름도이다.
도 17은 제3 실시 형태의 각 장치의 상세한 구성의 제1 예를 도시하는 블록도이다.
도 18은 제3 실시 형태의 각 장치의 처리의 제1 예의 흐름을 설명하는 흐름도이다.
도 19는 제3 실시 형태의 각 장치의 상세한 구성의 제2 예를 도시하는 블록도이다.
도 20은 제3 실시 형태의 각 장치의 처리의 제2 예의 흐름을 설명하는 흐름도이다.
도 21은 수신 장치의 다른 구성의 예를 도시하는 블록도이다.
도 22는 컴퓨터의 구성의 예를 도시하는 도면이다.

이하, 도면을 참조하면서 본 기술의 실시 형태에 대하여 설명한다. 또한, 설명은 이하의 순서로 행하는 것으로 한다.

1. 시스템의 구성

2. 본 기술의 실시 형태

(1) 제1 실시 형태: 음성 응답 시간에 기초한 음성 응답의 타이밍 제어를 행하는 구성

(2) 제2 실시 형태: 시청자로부터의 지시 발화에 기초한 음성 응답의 타이밍 제어를 행하는 구성

(3) 제3 실시 형태: 음성 응답 시간에 기초한 음성 응답의 타이밍 제어 시에, 시청자로부터의 지시 발화에 기초한 음성 응답의 타이밍 제어를 행하는 구성

3. 변형예

4. 컴퓨터의 구성

<1. 시스템의 구성>

(콘텐츠·음성 AI 연계 시스템의 구성)

도 1은 본 기술을 적용한 콘텐츠·음성 AI 연계 시스템의 일 실시 형태의 구성의 예를 도시하는 블록도이다.

콘텐츠·음성 AI 연계 시스템(1)은, 콘텐츠를 배신하기 위한 시스템이며, 배신된 콘텐츠와 연계하여 음성 AI 어시스턴스 서비스를 이용하는 것이 가능하다.

도 1에 있어서, 콘텐츠·음성 AI 연계 시스템(1)은, 방송 배신 시스템(10), 수신 장치(20), 음성 유저 인터페이스 장치(30), 음성 어시스턴스 서버(40), 및 처리 서버(50)를 포함하여 구성된다.

또한, 콘텐츠·음성 AI 연계 시스템(1)에 있어서, 시청자댁에 설치되는 수신 장치(20)와 음성 유저 인터페이스 장치(30)는, 인터넷(60)을 통해, 데이터 센터 등에 설치되는 음성 어시스턴스 서버(40)나 처리 서버(50) 등의 각종 서버와 접속 가능하며, 각종 데이터를 교환할 수 있다.

방송 배신 시스템(10)은, 하나 또는 복수의 방송 서버 등으로 구성된다. 방송 배신 시스템(10)은, 배신 대상의 콘텐츠에 대하여 필요한 처리를 실시하고, 그 처리의 결과 얻어지는 방송 신호(방송파)를, 송신소에 설치된 송신 안테나로부터 송출한다.

수신 장치(20)는, 예를 들어 텔레비전 수상기나 퍼스널 컴퓨터 등의 고정 수신기, 혹은 스마트폰이나 휴대 전화기, 태블릿형 컴퓨터 등의 모바일 수신기로서 구성된다. 수신 장치(20)는, 방송 배신 시스템(10)으로부터 송신되어 오는 방송 신호를 수신하여 처리함으로써, 배신 대상의 콘텐츠(예를 들어, 방송 프로그램이나 CM 등)를 재생한다.

음성 유저 인터페이스 장치(30)는, 예를 들어 Bluetooth(등록 상표), 무선 LAN(Local Area Network), 혹은 셀룰러 방식의 통신 등의 무선 통신, 또는 유선 통신을 행하는 것이 가능한 음성 처리 장치(예를 들어 스피커)이며, 스마트 스피커나 홈 에이전트 등이라고도 칭해진다. 이러한 종류의 스피커는, 음악의 재생 외에, 예를 들어 음성 AI 어시스턴스 서비스의 유저 인터페이스로서 기능하거나, 혹은, 조명 기구나 공조 설비 등의 기기에 대한 음성 조작을 행하거나 할 수 있다.

음성 유저 인터페이스 장치(30)는, 클라우드측의 음성 어시스턴스 서버(40) 등의 서버와 연계함으로써, 엔드 유저(콘텐츠의 시청자)에 대해, 음성 AI 어시스턴스 서비스를 제공할 수 있다. 여기서, 음성 AI 어시스턴스 서비스란, 예를 들어 음성 인식 처리나 자연 언어 해석 처리 등의 처리를 조합하여, 엔드 유저의 질문이나 요구에 대해, 적절하게 회답하거나, 동작하거나 하는 기능이나 서비스를 말한다.

음성 어시스턴스 서버(40)는, 음성 AI 어시스턴스 서비스를 제공하기 위한 기능이나 각종 데이터베이스 등을 갖고 있다. 음성 어시스턴스 서버(40)는, 음성 유저 인터페이스 장치(30)로부터의 요구(리퀘스트)에 따라서, 음성 AI 어시스턴스 서비스를 제공하기 위한 처리를 행하고, 그 처리 결과(리스폰스)를 인터넷(60)을 통해, 음성 유저 인터페이스 장치(30)에 회신한다.

처리 서버(50)는, 음성 어시스턴스 서버(40)와 연계하여, 음성 AI 어시스턴스 서비스를 제공하기 위한 처리를 행하고, 그 처리 결과(리스폰스)를, 인터넷(60) 또는 네트워크(70)(예를 들어 전용선 등의 통신 회선)를 통해, 음성 어시스턴스 서버(40)에 송신한다. 또한, 처리 서버(50)에 의한 처리 결과는, 음성 어시스턴스 서버(40)뿐만 아니라, 인터넷(60)을 통해, 수신 장치(20) 또는 음성 유저 인터페이스 장치(30)에 송신되도록 해도 된다.

콘텐츠·음성 AI 연계 시스템(1)은, 이상과 같이 구성된다.

그런데, 시청자가, 방송 프로그램이나 CM 등의 콘텐츠를 시청 중에, 음성 AI 어시스턴스 서비스를 이용하여 당해 콘텐츠에 관련된 애플리케이션에 대해, 어떠한 발화를 행하였을 때, 그 발화에 대한 응답의 음성과, 방송 프로그램 등의 콘텐츠의 음성이 겹쳐 버려, 콘텐츠의 시청의 방해가 되어 버린다.

예를 들어, 도 2에 있어서는, 시청자(2)가, 드라마 프로그램을 시청 중에, 어떤 씬에 출연하고 있는 여배우가 누군인지를 알고 싶을 때, 음성 AI 어시스턴스 서비스를 이용하여, 「이 여배우는 누구?」인 발화를 행한 장면을 나타내고 있다.

이때, 음성 유저 인터페이스 장치(30)는, 시청자(2)의 발화를 마이크로폰에 의해 수음하고, 그 발화의 음성 데이터를, 인터넷(60)을 통해 음성 어시스턴스 서버(40)에 송신한다. 음성 어시스턴스 서버(40)는, 방송국마다 마련된 처리 서버(50)와 연계하여 처리를 행함으로써, 발화에 대한 응답의 음성 데이터를 생성하고, 인터넷(60)을 통해 음성 유저 인터페이스 장치(30)에 송신한다.

여기서, 음성 유저 인터페이스 장치(30)가 음성 어시스턴스 서버(40)로부터의 응답의 음성 데이터를 수신하여 그 음성 데이터에 따른 응답 음성을 출력할 때, 그 타이밍에 따라서는, 시청자(2)가 수신 장치(20)에 의해 시청 중인 드라마 프로그램에서의 여배우의 회화의 씬과 타이밍이 겹쳐, 여배우의 발화를 알아들을 수 없을 가능성이 있다.

도 2의 예에서는, 「이 여배우의 이름은 XXXX이며, 주된 주연 작품은, …」인 응답 음성이, 「그래! 오늘은 인도 요리를 먹으러 가자!!」인 여배우의 발화에 겹쳐 있다. 이와 같이, 음성 응답의 타이밍에 따라서는, 음성 AI 어시스턴스 서비스가, 시청자(2)의 드라마 프로그램의 시청의 방해가 되는 경우가 있다.

그 때문에, 방송 프로그램 등의 콘텐츠에 연계하여 음성 AI 어시스턴스 서비스를 이용할 때, 시청자의 발화에 대한 음성 응답이, 시청자가 원하는 타이밍이 되도록 하여, 당해 음성 AI 어시스턴스 서비스의 편리성을 향상시키고 싶다고 하는 요청이 있다.

그래서, 본 기술에서는, 시청자의 발화에 대한 음성 응답에 적합한 타이밍을 나타내는 정보(이하, 음성 응답 시간 정보라 함)에 기초하여, 음성 응답의 타이밍을 제어함으로써, 방송 프로그램 등의 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 한다. 이하, 본 기술의 실시 형태로서, 제1 실시 형태 내지 제3 실시 형태를 설명한다.

<2. 본 기술의 실시 형태>

(1) 제1 실시 형태

먼저, 제1 실시 형태로서, 도 3 내지 도 13을 참조하면서, 통신 경유 또는 방송 경유로 취득되는 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍을 제어하는 구성을 나타낸다.

(구성의 제1 예)

도 3은 제1 실시 형태의 구성의 제1 예를 도시하는 도면이다.

도 3에 있어서는, 시청자(2)에 의해 시청되고 있는 방송 프로그램의 진행에 맞춘 처리의 흐름을, 도 3의 A 내지 C에 의해, 시계열로 나타내고 있다.

10시 10분 00초에, 시청자(2)가, 드라마 프로그램을 시청 중에, 「이 여배우는 누구?」인 발화를 행하였을 때, 유저 인터페이스 장치(30)는, 시청자(2)의 발화를 마이크로폰에 의해 수음하고, 그 발화의 음성 데이터를, 질문 리퀘스트로서, 음성 어시스턴스 서버(40)에 송신한다(도 3의 A).

음성 어시스턴스 서버(40)는, 시청 중인 드라마 프로그램을 제작한 방송국에 의해 제공되는 처리 서버(50)와 연계하여 처리를 행함으로써, 발화에 대한 응답의 음성 데이터를 생성한다. 또한, 여기서는, 응답의 음성 데이터와 함께, 그 음성 응답에 적합한 타이밍을 나타내는 음성 응답 시간 정보가, 음성 응답 타이밍 메타 데이터로서 생성된다. 그리고, 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)는, 응답의 음성 데이터와 함께, 유저 인터페이스 장치(30)에 송신된다(도 3의 B).

10시 10분 02초에 있어서, 유저 인터페이스 장치(30)는, 음성 어시스턴스 서버(40)로부터 응답의 음성 데이터와 함께 음성 응답 타이밍 메타데이터를 수신하였지만, 음성 응답 시간 정보가 나타내는 시간(시각)이, 10시 10분 10초를 나타내고 있기 때문에, 그 시간(시각)까지 대기한다(도 3의 B). 즉, 시청 중인 드라마 프로그램에서는, 10시 10분 02초경에, 회화의 씬이 되기 때문에, 예를 들어 「그래! 오늘은 인도 요리를 먹으러 가자!!」인 여배우의 발화 등에 겹치지 않도록, 음성 응답을 행하는 타이밍을 어긋나게 하고 있다.

그리고, 10시 10분 10초가 되었을 때, 유저 인터페이스 장치(30)는, 음성 응답 시간 정보가 나타내는 시간(시각)이 되었으므로, 대기 중에 버퍼에 유지한 응답의 음성 데이터에 기초하여, 「이 여배우의 이름은 XXXX이며, 주된 주연작품은, …」인 응답 음성을 출력한다(도 3의 C). 이때, 시청 중인 드라마 프로그램에서는, 회화의 씬이 아니기 때문에, 시청자(2)에 의한 드라마 프로그램의 시청 방해가 될 가능성은 적다.

이와 같이, 유저 인터페이스 장치(30)에서는, 통신 경유로 얻어지는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답에 적합한 타이밍, 즉, 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간에, 음성 응답을 행하는 것이 가능해진다. 이에 의해, 시청자(2)는, 프로그램 시청을 방해받지 않고, 응답 음성(알고 싶은 정보)을 듣는 것이 가능해진다.

또한, 도 3에 있어서는, 설명을 이해하기 쉽게 하기 위해, 현실의 시각을 사용한 경우를 예로 들어 설명하였지만, 실제로는, 수신 장치(20)에서 재생 중인 콘텐츠의 미디어 타임을 사용하여, 음성 응답의 타이밍을 제어할 수 있다.

(각 장치의 상세한 구성의 제1 예)

도 4는 제1 실시 형태의 각 장치의 상세한 구성의 제1 예를 도시하는 블록도이다.

도 4에 있어서는, 방송국측(송신측)에 마련되는 방송 배신 시스템(10)과, 로컬측(수신측)에 마련되는 수신 장치(20)의 구성의 예를 도시하고 있다. 또한, 도 4에 있어서는, 로컬측에 마련되는 음성 유저 인터페이스 장치(30)와, 클라우드측에 마련되는 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성의 예를 도시하고 있다.

도 4에 있어서, 방송 배신 시스템(10)은, 프로그램 콘텐츠 처리부(101), 방송 부수 애플리케이션 생성부(102), 멀티플렉서(103), 및 송출부(104)를 포함하여 구성된다.

프로그램 콘텐츠 처리부(101)는, 거기에 입력되는 콘텐츠에 대하여 필요한 처리(예를 들어 AV 인코드 등)를 실시하여, 멀티플렉서(103)에 공급한다. 또한, 콘텐츠는, 예를 들어 방송 프로그램이나 CM 등이며, 외부의 서버, 카메라, 또는 기록 매체 등으로부터 취득된다.

방송 부수 애플리케이션 생성부(102)는, 방송 부수 애플리케이션을 생성하여, 멀티플렉서(103)에 공급한다. 여기서, 방송 부수 애플리케이션은, 방송 프로그램 등의 콘텐츠에 연동하여 실행되는 애플리케이션이다.

멀티플렉서(103)는, 프로그램 콘텐츠 처리부(101)로부터 공급되는 콘텐츠와, 방송 부수 애플리케이션 생성부(102)로부터 공급되는 방송 부수 애플리케이션을 다중화하고, 그 결과 얻어지는 스트림을, 송출부(104)에 공급한다.

송출부(104)는, 멀티플렉서(103)로부터 공급되는 스트림에 대하여 필요한 처리(예를 들어 오류 정정 부호화 처리나 변조 처리 등)를 실시하고, 그 결과 얻어지는 방송 신호(방송 스트림)를, 송신소에 설치된 송신용 안테나로부터 송신한다.

도 4에 있어서, 수신 장치(20)는, 튜너(201), 디멀티플렉서(202), AV 디코더(203), 방송 부수 애플리케이션 실행부(204), 렌더러(205), 디스플레이(206), 스피커(207), 미디어 타임 관리부(208), 및 통신부(209)를 포함하여 구성된다.

튜너(201)는, 시청자댁 등에 설치된 수신용 안테나를 통해, 방송 배신 시스템(10)으로부터 송신되어 오는 방송 신호(방송 스트림)를 수신하여 필요한 처리(예를 들어 복조 처리나 오류 정정 복호화 처리 등)를 실시하고, 그 결과 얻어지는 스트림을, 디멀티플렉서(202)에 공급한다.

디멀티플렉서(202)는, 튜너(201)로부터 공급되는 스트림을, 영상, 음성 및 방송 부수 애플리케이션의 스트림으로 분리한다. 디멀티플렉서(202)는, 영상 및 음성의 스트림을, AV 디코더(203)에 공급하고, 방송 부수 애플리케이션의 스트림을, 방송 부수 애플리케이션 실행부(204)에 공급한다.

AV 디코더(203)는, 디멀티플렉서(202)로부터 공급되는 영상 스트림을 디코드하여, 렌더러(205)에 공급한다. 또한, AV 디코더(203)는, 디멀티플렉서(202)로부터 공급되는 음성 스트림을 디코드하여, 렌더러(205)에 공급한다.

렌더러(205)는, AV 디코더(203)로부터 공급되는 영상 데이터에 대해, 렌더링 처리를 행하고, 그 결과 얻어지는 영상을, LCD(Liquid Crystal Display)나 OLED(Organic Light Emitting Diode) 등의 디스플레이(206)에 표시한다.

또한, 렌더러(205)는, AV 디코더(203)로부터 공급되는 음성 데이터에 대해, 렌더링 처리를 행하고, 그 결과 얻어지는 음성을, 스피커(207)로부터 출력한다. 이에 의해, 수신 장치(20)에서는, 방송 프로그램 등의 콘텐츠의 영상이, 디스플레이(206)에 표시되고, 그 영상에 동기한 음성이, 스피커(207)로부터 출력된다.

방송 부수 애플리케이션 실행부(204)는, 예를 들어 HTML5나 JavaScript(등록 상표) 등에 대응한 브라우저이다. 방송 부수 애플리케이션 실행부(204)는, 디멀티플렉서(202)로부터 공급되는 애플리케이션 데이터에 기초하여, 방송 부수 애플리케이션을 실행하고, 그 영상 데이터를 렌더러(205)에 공급한다.

렌더러(205)는, 방송 부수 애플리케이션 실행부(204)로부터 공급되는 영상 데이터에 대해, 렌더링 처리를 행하고, 그 결과 얻어지는 영상을, 디스플레이(206)에 표시한다. 이에 의해, 수신 장치(20)에서는, 방송 프로그램 등의 콘텐츠에 연동한 방송 부수 애플리케이션의 영상이, 디스플레이(206)에 표시된다.

미디어 타임 관리부(208)는, 수신 장치(20)에 의해 재생 중인 콘텐츠의 미디어 타임을 관리한다. 미디어 타임 관리부(208)는, 방송 부수 애플리케이션 실행부(204)로부터의 문의에 따라서, 재생 중인 콘텐츠의 현재의 미디어 타임을 공급한다.

통신부(209)는, 예를 들어 무선 LAN, 혹은 셀룰러 방식의 통신 등의 무선 통신, 또는 유선 통신에 대응한 통신 모듈로서 구성된다. 통신부(209)는, 소정의 통신 방식에 따라서, 인터넷(60)을 통해, 처리 서버(50)(의 통신부(501))와의 사이에서 통신을 행하여, 각종 데이터를 교환한다. 여기에서는, 예를 들어 웹 소켓(WebSocket) 등의 통신이 행해져, 통신부(209)는, 방송 부수 애플리케이션 실행부(204)로부터 공급되는 현재의 미디어 타임을, 처리 서버(50)(의 통신부(501))에 보낼 수 있다.

도 4에 있어서, 음성 유저 인터페이스 장치(30)는, 마이크로폰(301), 스피커(302), 통신부(303), 음성 응답 출력 제어부(304), 타이머(305), 버퍼(306), 및 세팅 관리부(307)를 포함하여 구성된다.

마이크로폰(301)은, 시청자(2)의 발화를 수음하고, 그 발화의 음성 데이터를, 통신부(303)에 공급한다.

통신부(303)는, 무선 LAN, 혹은 셀룰러 방식의 통신 등의 무선 통신, 또는 유선 통신에 대응한 통신 모듈로서 구성된다.

통신부(303)는, 마이크로폰(301)으로부터 공급되는 발화의 음성 데이터를, 인터넷(60)을 통해, 음성 어시스턴스 서버(40)에 송신한다. 또한, 통신부(303)는, 음성 어시스턴스 서버(40)로부터 송신되어 오는 응답의 음성 데이터 및 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)를, 인터넷(60)을 통해 수신하여, 음성 응답 출력 제어부(304)에 공급한다. 또한, 상세는 후술하지만, 응답의 음성 데이터 및 음성 응답 타이밍 메타데이터는, 제2 리스폰스 메시지에 포함시켜 보내진다.

음성 응답 출력 제어부(304)에는, 통신부(303)로부터 응답의 음성 데이터 및 음성 응답 타이밍 메타데이터가 공급된다. 음성 응답 출력 제어부(304)는, 통신 경유로 취득한 음성 응답 타이밍 메타데이터에 기초하여, 음성 응답 시간 정보가 나타내는 시간에 따른 타이밍에, 응답의 음성 데이터를, 스피커(302)에 공급한다.

여기에서는, 음성 응답 출력 제어부(304)에 의해, 음성 응답 시간 정보가 나타내는 시간이 타이머(305)에 전달됨으로써 계시가 행해지고, 음성 응답에 적합한 타이밍이 될 때까지, 응답의 음성 데이터가 버퍼(306)에 의해 일시적으로 유지된다. 그리고, 음성 응답에 적합한 타이밍이 되었을 때, 음성 응답 출력 제어부(304)는, 버퍼(306)에 일시적으로 유지된 응답의 음성 데이터를 판독하여, 스피커(302)에 공급한다.

스피커(302)는, 음성 응답 출력 제어부(304)로부터 공급되는 응답의 음성 데이터에 따른 응답 음성을 출력한다.

세팅 관리부(307)는, 시청자(2)로부터의 설정 입력에 따라서, 각종 설정을 행한다. 여기에서는, 예를 들어 응답 음성의 출력 시에, 음성 응답에 적합한 타이밍까지 기다릴지 여부의 타이밍 제어의 온/오프의 설정 등이 행해진다. 또한, 여기에서의 설정 입력 시에는, 버튼이나 터치 패널(도시하지 않음)에 의해 시청자(2)의 조작 입력을 접수하는 것은 물론, 마이크로폰(301)에 의해 시청자(2)의 음성 입력을 접수하도록 해도 된다.

도 4에 있어서, 음성 어시스턴스 서버(40)는, 통신부(401), 통신부(402), 음성 해석부(403), 및 메시지 생성부(404)를 포함하여 구성된다.

통신부(401)는, 음성 유저 인터페이스 장치(30)로부터 송신되어 오는 발화의 음성 데이터를, 인터넷(60)을 통해 수신하여, 음성 해석부(403)에 공급한다.

음성 해석부(403)는, 통신부(401)로부터 공급되는 발화의 음성 데이터를 해석하고, 발화의 음성 데이터를 텍스트 데이터로 변환한다. 음성 해석부(403)는, 발화의 음성 데이터의 해석 결과에 따른 리퀘스트 메시지를, 통신부(402)에 공급한다.

통신부(402)는, 음성 해석부(403)로부터 공급되는 리퀘스트 메시지를, 네트워크(70)를 통해, 처리 서버(50)에 송신한다. 또한, 통신부(402)는, 처리 서버(50)로부터 송신되어 오는 제1 리스폰스 메시지를, 네트워크(70)를 통해 수신하여, 메시지 생성부(404)에 공급한다.

메시지 생성부(404)는, 통신부(402)로부터 공급되는 제1 리스폰스 메시지를 변환하여, 음성 유저 인터페이스 장치(30)에 응답하기 위한 제2 리스폰스 메시지를 생성하고, 통신부(401)에 공급한다.

또한, 여기에서는, 설명의 사정상, 처리 서버(50)로부터 송신되어 음성 어시스턴스 서버(40)에 의해 수신되는 리스폰스 메시지와, 음성 어시스턴스 서버(40)로부터 송신되어 음성 유저 인터페이스 장치(30)에 의해 수신되는 리스폰스 메시지를 구별하기 위해, 전자를 제1 리스폰스 메시지라 칭하고, 후자를 제2 리스폰스 메시지라 칭하고 있다.

메시지 생성부(404)는, 음성 생성부(404-1) 및 메타데이터 머지부(404-2)로 구성된다. 또한, 제1 리스폰스 메시지는, 음성 응답 데이터 및 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)를 포함하고 있다.

음성 생성부(404-1)는, 처리 서버(50)로부터 보내지는 제1 리스폰스 메시지에 포함되는 음성 응답 데이터를, 응답의 음성 데이터로 변환한다. 메타데이터 머지부(404-2)는, 처리 서버(50)로부터 보내지는 제1 리스폰스 메시지에 포함되는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)를, 응답의 음성 데이터를 포함하는 제2 리스폰스 메시지에 머지한다.

이와 같이, 메시지 생성부(404)에서는, 음성 생성부(404-1) 및 메타데이터 머지부(404-2)에 의해, 텍스트 형식의 데이터(음성 응답 데이터, 음성 응답 타이밍 메타데이터)를 포함하는 제1 리스폰스 메시지(예를 들어 HTTP 리스폰스)가 처리됨으로써, 음성 형식의 데이터(응답의 음성 데이터)와 텍스트 형식의 데이터(음성 응답 타이밍 메타데이터)를 포함하는 제2 리스폰스 메시지(예를 들어 HTTP 리스폰스)가 생성된다. 또한, 제1 리스폰스 메시지와 제2 리스폰스 메시지의 상세에 대해서는, 도 5 내지 도 7을 참조하여 설명한다.

통신부(401)는, 메시지 생성부(404)로부터 공급되는 제2 리스폰스 메시지를, 인터넷(60)을 통해, 음성 유저 인터페이스 장치(30)에 송신한다.

또한, 통신부(401)와 통신부(402)는, 무선 통신 또는 유선 통신에 대응한 통신 모듈로서 구성된다. 또한, 도 4에 있어서는, 설명의 사정상, 통신부(401)와 통신부(402)를 다른 통신 모듈로서 설명하였지만, 그것들이 일체로 되어 하나의 통신 모듈로서 구성되도록 해도 된다.

도 4에 있어서, 처리 서버(50)는, 통신부(501), 처리부(502) 및 기록부(503)를 포함하여 구성된다.

통신부(501)는, 음성 어시스턴스 서버(40)로부터 송신되어 오는 리퀘스트 메시지를, 네트워크(70)를 통해 수신하여, 처리부(502)에 공급한다. 또한, 통신부(501)는, 웹 소켓 등의 통신에 의해 수신 장치(20)로부터 송신되어 오는 현재의 미디어 타임을 수신하여, 처리부(502)에 공급한다. 또한, 통신부(501)는, 무선 통신 또는 유선 통신에 대응한 통신 모듈로서 구성된다.

처리부(502)는, 통신부(501)로부터 공급되는 리퀘스트 메시지에 기초하여, 기록부(503)에 기록된 음성 응답 데이터를 추출하여, 통신부(501)에 공급한다. 이 음성 응답 데이터는, 시청자(2)의 발화에 대한 음성 응답의 데이터로 된다.

또한, 처리부(502)는, 통신부(501)로부터 공급되는 현재의 미디어 타임에 기초하여, 기록부(503)에 기록된 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하여, 음성 응답 타이밍 메타데이터로서, 통신부(501)에 공급한다.

기록부(503)는, 반도체 메모리나, HDD, 광 디스크 등의 기록 매체이며, 음성 응답 데이터나 음성 응답 타이밍 메타데이터 등의 각종 데이터를 기록할 수 있다. 또한, 음성 응답 데이터나 음성 응답 타이밍 메타데이터는, 기록부(503)에 기록된 것에 한하지 않고, 예를 들어 외부의 서버로부터 취득하거나, 혹은, 기록부(503)에 기록된 데이터나 외부의 서버로부터 취득한 데이터 등의 각종 데이터에 기초하여, 처리부(502)에 의해 생성하거나 하도록 해도 된다.

통신부(501)는, 처리부(502)로부터 공급되는 음성 응답 데이터 및 음성 응답 타이밍 메타데이터를, 제1 리스폰스 메시지로서, 네트워크(70)를 통해 음성 어시스턴스 서버(40)에 송신한다.

또한, 콘텐츠·음성 AI 연계 시스템(1)에 있어서는, 스킬이라 불리는 프로그램이 실행됨으로써, 방송 프로그램 등의 콘텐츠와 연계하여 음성 AI 어시스턴스 서비스를 이용하는 것이 가능해진다. 예를 들어, 음성 어시스턴스 서버(40)에 있어서, 복수의 스킬 중에서, 대상의 스킬이 특정되고, 특정된 대상의 스킬의 엔드 포인트 URL에 의해, 처리 서버(50)의 처리부(502)와 연계함으로써, 시청자의 발화에 대한 음성 응답을 행하기 위한 처리가 행해진다. 즉, 처리부(502)는, 대상의 스킬의 일부를 구성하고 있다고도 할 수 있다.

여기서, 스킬이란, 어떤 음성에 반응할지, 어떤 단어를 파라미터로 하여 어느 기능을 실현할지, 그 기능을 실제로 실행하는 처리 서버(처리 프로그램)는 무엇인지와 같은 정보를 포함하고, 이들 정보에 기초하여, 음성 유저 인터페이스 장치(30)로부터 보내지는 음성에 대한 대응 처리를 행하는 프로그램(컴퓨터 프로그램)이다.

이상과 같이 콘텐츠·음성 AI 연계 시스템(1)은 구성되지만, 여기서, 도 5 내지 도 7을 참조하여, 음성 어시스턴스 서버(40)와 처리 서버(50) 사이에서, 통신 경유로 교환되는 음성 응답 데이터와 음성 응답 타이밍 메타데이터의 상세에 대하여 설명한다.

도 5에 도시한 바와 같이, 처리 서버(50)에 있어서, 기록부(503)에는, 통신 경유로 배신되는 음성 응답 타이밍 메타데이터가 기록되지만, 이 음성 응답 타이밍 메타데이터는, 방송 경유로 배신되는 방송 프로그램마다, 프로그램 전체의 메타데이터로서 제공된다. 도 5의 예에서는, 다음 4개의 음성 응답 타이밍이 예시되어 있다.

첫번째의 음성 응답 타이밍: 2018-01-29 18:00:05 내지 2018-01-29 18:00:55

두번째의 음성 응답 타이밍: 2018-01-29 18:01:05 내지 2018-01-29 18:01:55

세번째의 음성 응답 타이밍: 2018-01-29 18:02:05 내지 2018-01-29 18:02:55

네번째의 음성 응답 타이밍: 2018-01-29 18:03:05 내지 2018-01-29 18:03:55

…

처리부(502)는, 수신 장치(20)와 처리 서버(50)의 웹 소켓 등의 통신에 의해, 현재의 미디어 타임을 취득하고 있기 때문에, 이 미디어 타임에 기초하여, 프로그램 전체의 메타데이터 중에서, 음성 응답에 적합한 하나의 음성 응답 타이밍만을 추출할 수 있다. 그리고, 처리부(502)는, 추출한 하나의 음성 응답 타이밍(음성 응답 시간 정보)을, 음성 응답 타이밍 메타데이터로서, HTTP 리스폰스 등의 소정의 형식의 메시지에 의해, 음성 어시스턴스 서버(40)에 송신한다.

여기에서는, 도 6에 도시한 바와 같이, 프로그램 전체의 메타데이터 중, 세번째의 음성 응답 타이밍을, 음성 응답에 적합한 시간인 것으로서 추출하였을 때, 제1 리스폰스 메시지로서 HTTP 리스폰스를 이용하는 경우에는, HTTP 리스폰스의 바디에, 추출한 세번째의 음성 응답 타이밍의 텍스트 데이터를 기술한다. 또한, 이 HTTP 리스폰스의 바디에는, 음성 응답 데이터의 텍스트 데이터도 기술할 수 있다.

이들 텍스트 데이터는, 예를 들어 JSON(JavaScript(등록 상표) Object Notation) 형식의 데이터로서 기술할 수 있다. JSON 형식의 오브젝트는, 키와 값의 페어를 콜론(:)으로 쌍으로 하고, 이들 쌍을, 콤마(,)로 구획하여 제로개 이상 열거하고, 전체를 파괄호({ })로 묶음으로써 표현된다.

도 6의 예에서는, 음성 응답 데이터("outputSpeech")의 오브젝트에 대해, "type"의 값으로서, "PlainText"인 형식이 기술되고, "text"의 값으로서, "XXXX"인 텍스트 데이터가 기술되어 있다. 또한, 음성 응답 타이밍("responseTiming")의 오브젝트에 대해, start의 값으로서, "2018-01-29T18:02:05Z"인 개시 시각이 기술되고, end의 값으로서, "2018-01-29T18:02:55Z"인 종료 시각이 기술되어 있다.

또한, 이 HTTP 리스폰스는, 음성 어시스턴스 서버(40)에 의해 수신되어, 처리되지만, 예를 들어 제2 리스폰스 메시지로서 HTTP 리스폰스를 이용하는 경우에는, 도 7에 도시한 바와 같은 처리가 행해진다.

즉, 음성 어시스턴스 서버(40)는, 처리 서버(50)로부터 수신한 HTTP 리스폰스의 바디에 기술된 음성 응답 데이터의 텍스트 데이터를, 응답의 음성 데이터로 변환함과 함께, 음성 응답 타이밍의 텍스트 데이터(음성 응답 시간 정보)를 머지하여, 멀티파트 형식의 HTTP 리스폰스를 생성한다.

이와 같이, 음성 어시스턴스 서버(40)에서는, 처리 서버(50)로부터 수신한 제1 리스폰스 메시지(HTTP 리스폰스)가 처리되어, 텍스트 형식의 데이터(음성 응답 데이터, 음성 응답 타이밍 메타데이터(음성 응답 시간 정보))가, 음성 형식의 데이터(응답의 음성 데이터)와 텍스트 형식의 데이터(음성 응답 타이밍 메타데이터(음성 응답 시간 정보))로 변환되고, 제2 리스폰스 메시지(멀티파트 형식의 HTTP 리스폰스)로서, 음성 유저 인터페이스 장치(30)에 송신된다.

또한, 통신 경유로 배신되는 음성 응답 타이밍 메타데이터로서 제공되는 프로그램 전체의 메타데이터이지만, 어떤 프로그램의 전부의 시간대를 대상으로 한 음성 응답 타이밍을 준비하는 것은 물론, 일부의 시간대를 대상으로 한 음성 응답 타이밍을 준비하도록 해도 된다. 또한, 본 기술의 실시 형태에서는, 음성 응답 타이밍 메타데이터는, 프로그램 전체의 메타데이터를 나타내는 경우와, 거기로부터 추출된 음성 응답 시간 정보를 나타내는 경우가 있으므로, 특별히 구별할 필요가 있는 경우에는, 명기하도록 한다.

(각 장치의 처리의 제1 예의 흐름)

다음에, 도 8의 흐름도를 참조하여, 제1 실시 형태의 각 장치의 처리의 제1 예의 흐름을 설명한다.

여기에서는, 사전의 설정으로서, 스텝 S101의 처리가 실행된다. 즉, 음성 유저 인터페이스 장치(30)에 있어서, 세팅 관리부(307)가, 시청자(2)로부터의 지시에 따라, 응답 음성의 출력의 자동 타이밍 제어를 온으로 설정한다.

이 사전의 설정이 행해진 후, 방송 배신 시스템(10)은, 방송 스트림을 송신한다(S131). 이때, 방송 배신 시스템(10)에 있어서는, 방송 부수 애플리케이션 생성부(102)에 의해, 방송 부수 애플리케이션이 생성되고, 멀티플렉서(103)에 의해, 생성된 방송 부수 애플리케이션이, 방송 프로그램 등의 콘텐츠를 포함하는 스트림에 삽입되어 있다.

이 방송 스트림은, 수신 장치(20)에 의해 수신되어, 방송 프로그램 등의 콘텐츠가 재생됨과 함께, 스텝 S132의 처리가 실행된다. 스텝 S132에 있어서, 방송 부수 애플리케이션 실행부(204)는, 디멀티플렉서(202)에 의해 분리된 스트림으로부터 얻어지는 애플리케이션 데이터에 기초하여, 방송 부수 애플리케이션을 실행한다. 이에 의해, 수신 장치(20)에서는, 시청자(2)에 의해 선국된 방송 프로그램이 재생됨과 함께, 당해 프로그램에 연동한 방송 부수 애플리케이션이 실행된다.

그 후, 방송 프로그램을 시청 중인 시청자(2)에 의해, 질문 발화가 이루어진 경우, 스텝 S102 이후의 처리가 실행된다.

즉, 음성 유저 인터페이스 장치(30)에 있어서, 마이크로폰(301)이, 시청자(2)에 의한 발화를 수음하고, 그 발화의 음성 데이터가, 음성 어시스턴스 서버(40)에 송신된다. 그리고, 음성 어시스턴스 서버(40)에 있어서는, 음성 유저 인터페이스 장치(30)로부터의 발화의 음성 데이터가 해석되고, 그 해석 결과에 따른 리퀘스트 메시지가, 처리 서버(50)에 송신된다.

이 리퀘스트 메시지는, 네트워크(70)를 통해, 처리 서버(50)에 의해 수신되어, 스텝 S103, S104의 처리가 실행된다.

스텝 S103에 있어서, 처리부(502)는, 음성 어시스턴스 서버(40)로부터의 리퀘스트 메시지에 기초하여, 현재의 미디어 타임을 취득한다. 여기에서는, 처리 서버(50)(의 통신부(501))와, 수신 장치(20)(의 통신부(209))가, 예를 들어 웹 소켓 등의 통신 방식에 따라, 통신을 행함으로써, 처리부(502)는, 방송 부수 애플리케이션을 실행 중인 방송 부수 애플리케이션 실행부(204)로부터, 현재의 미디어 타임을 취득할 수 있다.

스텝 S104에 있어서, 처리부(502)는, 취득한 현재의 미디어 타임에 기초하여, 기록부(503)에 기록된 프로그램 전체의 메타데이터로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하고, 리퀘스트 메시지에 따른 음성 응답 데이터와 함께, 제1 리스폰스 메시지로서 음성 어시스턴스 서버(40)에 송신한다.

여기서, 음성 응답에 적합한 시간이란, 예를 들어 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간 외에, 예를 들어 응답 음성의 시간적인 길이(응답의 길이) 등을 고려해도 된다. 즉, 시청의 방해가 되지 않는 시간이라도, 그 시간 내에 응답 음성의 출력을 완료할 수 없는 것이면, 더 긴 다른 시간을, 음성 응답에 적합한 시간으로서 추출할 수 있다. 또한, 예를 들어 수신 장치(20)에서 재생 중인 콘텐츠의 재생 시간축 상에서, 최후의 쪽의 시간대가, 음성 응답에 적합한 시간으로서 추출 가능한 경우에도, 시청자의 발화 후, 응답 음성을 출력할 때까지 시간을 요할 때는, 보다 앞쪽의 시간대가, 음성 응답에 적합한 시간으로서 추출되도록 해도 된다.

음성 어시스턴스 서버(40)에서는, 처리 서버(50)로부터의 제1 리스폰스 메시지에 기초하여, 음성 응답 데이터로부터 응답의 음성 데이터를 생성함과 함께, 음성 응답 시간 정보가 머지되어, 제2 리스폰스 메시지가 생성된다. 이 제2 리스폰스 메시지는, 인터넷(60)을 통해, 음성 유저 인터페이스 장치(30)에 의해 수신되어, 스텝 S105 내지 S108의 처리가 실행된다.

스텝 S105에 있어서, 음성 응답 출력 제어부(304)는, 음성 어시스턴스 서버(40)로부터의 제2 리스폰스 메시지에 기초하여, 응답의 음성 데이터에 음성 응답 시간 정보가 부가되어 있는지 여부를 확인(판정)한다. 스텝 S105에 있어서, 음성 응답 시간 정보가 부가되어 있다고 판정된 경우(S105의 「예」), 처리는, 스텝 S106으로 진행된다.

스텝 S106에 있어서, 음성 응답 출력 제어부(304)는, 세팅 관리부(307)에 문의함으로써, 자동 타이밍 제어의 설정이 온으로 되어 있는지 여부를 확인(판정)한다. 스텝 S106에 있어서, 예를 들어 사전의 설정 처리(S101)에 의해, 자동 타이밍 제어의 설정이 온으로 되어 있다고 판정된 경우(S106의 「예」), 처리는, 스텝 S107로 진행된다.

스텝 S107에 있어서, 음성 응답 출력 제어부(304)는, 부가된 음성 응답 시간 정보에 기초하여, 음성 응답에 적합한 타이밍이 될 때까지 대기한다. 그리고, 음성 응답에 적합한 타이밍이 되었을 때, 음성 응답 출력 제어부(304)는, 응답의 음성 데이터를 스피커(302)에 공급함으로써, 응답 음성을 출력한다(S108).

이와 같이 하여, 음성 유저 인터페이스 장치(30)는, 통신 경유로 취득되는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답에 적합한 시간, 즉, 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간에, 음성 응답을 행하는 것이 가능해진다. 이에 의해, 시청자(2)는, 프로그램 시청을 방해받지 않고, 응답 음성(알고 싶은 정보)을 듣는 것이 가능해진다.

또한, 음성 유저 인터페이스 장치(30)에 있어서는, 음성 응답 시간 정보가 부가되어 있지 않다고 판정된 경우(S105의 「아니오」), 혹은, 자동 타이밍 제어 설정이 오프로 되어 있다고 판정된 경우(S106의 「아니오」)에는, 스텝 S107의 처리는 스킵되고, 스텝 S108의 처리가 실행된다. 즉, 이 경우에는, 음성 응답 타이밍의 대기는 행해지지 않고, 바로 응답 음성이 출력된다.

이상, 제1 실시 형태의 각 장치의 처리의 제1 예의 흐름으로서, 통신 경유로 취득되는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 시청자(2)의 발화에 대한 음성 응답의 타이밍을 제어하는 경우의 처리의 흐름을 설명하였다.

(구성의 제2 예)

도 9는 제1 실시 형태의 구성의 제2 예를 도시하는 도면이다.

도 9에 있어서는, 도 3과 마찬가지로, 시청자(2)에 의해 시청되고 있는 방송 프로그램의 진행에 맞춘 처리의 흐름을, 도 9의 A 내지 C에 의해, 시계열로 나타내고 있다. 한편, 도 9에 도시한 처리에서는, 도 3에 도시한 처리에서, 응답의 음성 데이터와 함께, 통신 경유로 보내진 음성 응답 타이밍 메타데이터를, 방송 경유로 보내도록 한다.

수신 장치(20)는, 방송 배신 시스템(10)으로부터, 방송 프로그램 등의 콘텐츠나 방송 부수 애플리케이션과 함께 보내지는 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)를 취득하여 기록하고 있다. 수신 장치(20)는, 유저 인터페이스 장치(30)로부터의 문의에 따라서, 기록하고 있는 프로그램 전체의 메타데이터로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하여, 음성 응답 타이밍 메타데이터로서 통지할 수 있다.

10시 10분 00초에, 시청자(2)가, 드라마 프로그램을 시청 중에, 「이 여배우는 누구?」인 발화를 행하였을 때, 유저 인터페이스 장치(30)는, 시청자(2)의 발화를 마이크로폰에 의해 수음하고, 그 발화의 음성 데이터를, 음성 어시스턴스 서버(40)에 송신한다(도 9의 A).

10시 10분 02초에 있어서, 유저 인터페이스 장치(30)는, 음성 어시스턴스 서버(40)로부터 응답의 음성 데이터를 수신하였지만, 수신 장치(20)로부터 취득한 음성 응답 타이밍 메타데이터에 기초하여, 음성 응답 시간 정보가 나타내는 시간(시각)이, 10시 10분 10초를 나타내고 있기 때문에, 그 시간(시각)까지 대기한다(도 9의 B). 즉, 시청 중인 드라마 프로그램에서는, 10시 10분 02초경에, 회화의 씬이 되기 때문에, 여배우의 발화 등에 겹치지 않도록, 음성 응답을 행하는 타이밍을 어긋나게 하고 있다.

그리고, 10시 10분 10초가 되었을 때, 유저 인터페이스 장치(30)는, 음성 응답 시간 정보가 나타내는 시간(시각)이 되었으므로, 대기 중에 버퍼에 유지한 응답의 음성 데이터에 기초하여, 「이 여배우의 이름은 XXXX이며, 주된 주연작품은, …」 인 응답 음성을 출력한다(도 9의 C).

이와 같이, 유저 인터페이스 장치(30)에서는, 방송 경유로 얻어지는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답에 적합한 타이밍, 즉, 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간에, 음성 응답을 행하는 것이 가능해진다. 이에 의해, 시청자(2)는, 프로그램 시청을 방해받지 않고, 응답 음성(알고 싶은 정보)을 듣는 것이 가능해진다.

또한, 도 9에 있어서도, 도 3과 마찬가지로, 현실의 시각을 사용한 경우를 예로 들어 설명하였지만, 실제로는, 수신 장치(20)에서 재생 중인 콘텐츠의 미디어 타임을 사용하여, 음성 응답의 타이밍을 제어할 수 있다.

(각 장치의 상세한 구성의 제2 예)

도 10은 제1 실시 형태의 각 장치의 상세한 구성의 제2 예를 도시하는 블록도이다.

도 10에 있어서는, 도 4와 마찬가지로, 방송국측(송신측)의 방송 배신 시스템(10)과 로컬측(수신측)의 수신 장치(20)의 구성의 예와, 로컬측의 음성 유저 인터페이스 장치(30)와 클라우드측의 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성의 예를 나타내고 있다.

도 10에 있어서, 방송 배신 시스템(10)은, 프로그램 콘텐츠 처리부(101), 방송 부수 애플리케이션 생성부(102), 멀티플렉서(103), 송출부(104), 및 메타데이터 생성부(105)를 포함하여 구성된다. 즉, 도 10에 도시한 방송 배신 시스템(10)은, 도 4에 도시한 구성과 비교하여, 메타데이터 생성부(105)가 추가되어 있다.

메타데이터 생성부(105)는, 음성 응답 타이밍 메타데이터를 생성하여, 멀티플렉서(103)에 공급한다. 이 음성 응답 타이밍 메타데이터는, 방송 배신되는 프로그램마다의 프로그램 전체의 메타데이터이며, 음성 응답에 적합한 시간을 포함하는 음성 응답 시간 정보로서 추출되는 메타데이터의 후보를 포함하고 있다.

멀티플렉서(103)는, 콘텐츠 및 방송 부수 애플리케이션과 함께, 메타데이터 생성부(105)로부터 공급되는 음성 응답 타이밍 메타데이터를 다중화하고, 그 결과 얻어지는 스트림을, 송출부(104)에 공급한다.

도 10에 있어서, 수신 장치(20)는, 튜너(201), 디멀티플렉서(202), AV 디코더(203), 방송 부수 애플리케이션 실행부(204), 렌더러(205), 디스플레이(206), 스피커(207), 미디어 타임 관리부(208), 통신부(210), 음성 응답 타이밍 메타데이터 관리부(211), 및 기록부(212)를 포함하여 구성된다. 즉, 도 10에 도시한 수신 장치(20)는, 도 4에 도시한 구성과 비교하여, 통신부(209) 대신에, 통신부(210), 음성 응답 타이밍 메타데이터 관리부(211), 및 기록부(212)가 추가되어 있다.

통신부(210)는, 예를 들어 Bluetooth(등록 상표), 무선 LAN, 혹은 셀룰러 방식의 통신 등의 무선 통신, 또는 유선 통신에 대응한 통신 모듈로서 구성된다. 통신부(210)는, 소정의 통신 방식에 따라, 음성 유저 인터페이스 장치(30)(의 통신부(309))와의 사이에서 통신을 행하여, 각종 데이터를 교환한다.

음성 응답 타이밍 메타데이터 관리부(211)는, 디멀티플렉서(202)에 의해 분리된 스트림으로부터 얻어지는 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)를 취득하여, 기록부(212)에 기록한다.

또한, 음성 응답 타이밍 메타데이터 관리부(211)는, 음성 유저 인터페이스 장치(30)(의 음성 응답 출력 제어부(304))로부터, 음성 응답 타이밍 메타데이터의 취득 리퀘스트를 수취한 경우, 미디어 타임 관리부(208)에 문의를 행함으로써, 현재의 미디어 타임을 취득한다. 음성 응답 타이밍 메타데이터 관리부(211)는, 취득한 현재의 미디어 타임에 기초하여, 기록부(212)에 기록된 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하여, 음성 응답 타이밍 메타데이터로서, 음성 유저 인터페이스 장치(30)에 송신한다.

기록부(212)는, 반도체 메모리나, HDD, 광 디스크 등의 기록 매체이며, 음성 응답 타이밍 메타데이터 등의 각종 데이터를 기록할 수 있다.

도 10에 있어서, 음성 유저 인터페이스 장치(30)는, 마이크로폰(301), 스피커(302), 통신부(303), 음성 응답 출력 제어부(304), 타이머(305), 버퍼(306), 세팅 관리부(307), 음성 해석부(308) 및 통신부(309)를 포함하여 구성된다. 즉, 도 10에 도시한 음성 유저 인터페이스 장치(30)는, 도 4에 도시한 구성과 비교하여, 음성 해석부(308) 및 통신부(309)가 추가되어 있다.

음성 해석부(308)는, 마이크로폰(301)으로부터 공급되는 발화의 음성 데이터를 처리하여, 통신부(303)에 공급한다. 또한, 음성 해석부(308)는, 발화의 음성 데이터의 해석을 행함과 함께, 세팅 관리부(307)와 연계함으로써, 발화의 음성 데이터의 해석 결과에 기초한 타이밍 제어 대상 발화의 설정을 행한다.

통신부(309)는, 예를 들어 Bluetooth(등록 상표) 등의 무선 통신, 또는 유선 통신에 대응한 통신 모듈로서 구성된다. 통신부(309)는, 소정의 통신 방식에 따라, 수신 장치(20)(의 통신부(210))와의 사이에서 통신을 행하여, 각종 데이터를 교환한다. 또한, 도 10에 있어서는, 설명의 사정상, 통신부(303)와 통신부(309)를 다른 통신 모듈로서 설명하였지만, 그것들이 일체로 되어 하나의 통신 모듈로서 구성되도록 해도 된다.

음성 응답 출력 제어부(304)에는, 통신부(303)로부터 응답의 음성 데이터가 공급되고, 통신부(309)로부터 음성 응답 타이밍 메타데이터가 공급된다. 음성 응답 출력 제어부(304)는, 방송 경유로 취득한 음성 응답 타이밍 메타데이터에 기초하여, 음성 응답 시간 정보가 나타내는 시간에 따른 타이밍(음성 응답에 적합한 타이밍)에서, 응답의 음성 데이터를, 스피커(302)에 공급한다.

도 10에 있어서, 음성 어시스턴스 서버(40)는, 통신부(401), 통신부(402), 음성 해석부(403), 및 음성 생성부(404-1)를 포함하여 구성된다. 즉, 도 10에 도시한 음성 어시스턴스 서버(40)는, 도 4에 도시한 구성과 비교하여, 음성 응답 타이밍 메타데이터가 통신 경유로 배신되지 않아, 대응하는 처리를 행할 필요가 없기 때문에, 메시지 생성부(404)의 메타데이터 머지부(405-2)가 제거되어 있다.

또한, 도 10에 있어서, 처리 서버(50)는, 통신부(501), 처리부(502), 및 기록부(503)를 포함하여 구성된다. 즉, 도 10에 도시한 처리 서버(50)는, 도 4에 도시한 구성과 마찬가지로 구성되지만, 음성 응답 타이밍 메타데이터를 통신 경유로 배신하지 않기 때문에, 기록부(503)에는, 음성 응답 타이밍 메타데이터가 기록되어 있지 않고, 음성 응답 데이터만이 기록되어 있다.

이상과 같이 콘텐츠·음성 AI 연계 시스템(1)은 구성되지만, 여기서, 도 11 내지 도 12를 참조하여, 방송 배신 시스템(10)과 수신 장치(20) 사이에서, 방송 경유로 교환되는 음성 응답 타이밍 메타데이터의 상세에 대하여 설명한다.

도 11에 도시한 바와 같이, 방송 배신 시스템(10)에 있어서, 메타데이터 생성부(105)에 의해, 방송 경유로 배신되는 음성 응답 타이밍 메타데이터가 생성되지만, 이 음성 응답 타이밍 메타데이터는, 방송 경유로 배신되는 프로그램(생방송은 제외함)마다, 프로그램 전체의 메타 데이터로서 생성된다.

…

멀티플렉서(103)에서는, 콘텐츠 및 방송 부수 애플리케이션이 다중화되는 스트림에 대해, 당해 콘텐츠에 적합한 형식으로 음성 응답 타이밍 메타데이터가 변환되어 삽입된다.

여기서, 예를 들어 콘텐츠를, MPEG-DASH(Dynamic Adaptive Streaming over HTTP)에 준거한 스트림으로서 배신하는 경우, 그 영상이나 음성의 파일의 제어 정보인 MPD(Media Presentation Description)를 이용하여, 음성 응답 타이밍 메타데이터를 전송하는 것이 가능해진다.

도 12는 음성 응답 타이밍 메타데이터를, MPD에 삽입한 경우의 예를 나타내고 있다. 여기서, MPD는, Period 요소와, AdaptationSet 요소와, Representation 요소가 계층 구조를 이루어 구성된다.

Period 요소는, 방송 프로그램 등의 콘텐츠의 구성을 기술하는 단위가 된다. 또한, AdaptationSet 요소와 Representation 요소는, 콘텐츠를 구성하는 영상이나 음성, 자막 등의 컴포넌트의 스트림마다 이용되어, 각각의 스트림의 속성을 기술할 수 있다.

또한, Period 요소 내에는, EventStream 요소를 기술할 수 있다. 또한, EventStream 요소에는, 그 속성으로서, schemeIdUri 속성과 timescale 속성을 기술할 수 있다.

schemeIdUri 속성에는, 스키마를 식별하기 위한 URI(Uniform Resource Identifier)를 기술한다. 도 12의 MPD의 기술예에서는, 음성 응답 타이밍 메타데이터를 전송하기 위한 스키마를 식별하는 URI로서, "urn:XXX"를 정의하고, schemeIdUri 속성의 속성값으로서 기술하고 있다. 또한, timescale 속성에는, 그 속성값으로서, "1000"인 타임 스케일을 기술하고 있다.

EventStream 요소는, Event 요소의 상위 요소가 된다. Event 요소는, 그 속성으로서, 프리젠테이션 타임(개시 시각)이 지정되는 presentationTime 속성과, 그 개시 시각으로부터의 기간이 지정되는 duration 속성을 기술할 수 있다.

도 12의 MPD의 기술예에서는, 프로그램 전체의 메타데이터를, 해당하는 Period 요소마다 나누어, EventStream 요소 내의 presentationTime 속성과 duration 속성의 속성값으로서 기술하고 있다.

구체적으로는, 프로그램 전체의 메타데이터에 기술된 첫번째와 두번째의 음성 응답 타이밍을, 첫번째의 Period 요소(start 속성='PT0S') 내에 기술하고, 세번째와 네번째의 음성 응답 타이밍을, 두번째의 Period 요소(start 속성='PT2M0S') 내에 기술하고 있다.

이와 같이, MPD를 이용하여 음성 응답 타이밍 메타데이터를 전송함으로써, 수신 장치(20)에서는, 방송 스트림에 삽입된 MPD로부터, 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)를 취득하여, 기록부(212)에 기록해 둘 수 있다. 그리고, 수신 장치(20)에서는, 음성 유저 인터페이스 장치(30)로부터의 문의에 따라서, 기록부(212)에 기록되어 있는 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하여, 음성 응답 타이밍 메타데이터로서 통지할 수 있다.

또한, 방송 경유로 배신되는 음성 응답 타이밍 메타데이터로서 제공되는 프로그램 전체의 메타데이터이지만, 어떤 프로그램의 전부의 시간대를 대상으로 한 음성 응답 타이밍을 준비하는 것은 물론, 일부의 시간대를 대상으로 한 음성 응답 타이밍을 준비하도록 해도 된다.

(각 장치의 처리의 제2 예의 흐름)

다음에, 도 13의 흐름도를 참조하여, 제1 실시 형태의 각 장치의 처리의 제2 예의 흐름을 설명한다.

여기에서는, 사전의 설정으로서, 스텝 S151의 처리가 실행된다. 즉, 음성 유저 인터페이스 장치(30)에 있어서, 세팅 관리부(307)가 시청자(2)로부터의 지시에 따라, 자동 타이밍 제어를 온으로 설정한다. 또한, 여기서는, 타이밍 제어 대상의 인보케이션 네임이나, 음성 응답 타이밍 메타데이터의 취득처(메타데이터 취득 통신처)가 설정된다.

또한, 인보케이션 네임(Invocation Name)은, 스킬을 호출하기 위한 호출명이다. 즉, 엔드 유저(콘텐츠의 시청자)는, 스킬을 사용할 때는, 인보케이션 네임을 발할 필요가 있다. 여기에서는, 예를 들어 타이밍 제어 대상의 인보케이션 네임으로서, "TV show"를 설정함과 함께, 메타데이터 취득 통신처로서, 수신 장치(20)를 설정할 수 있다.

이 사전의 설정이 행해진 후, 방송 배신 시스템(10)에 있어서는, 스텝 S181 내지 S182의 처리가 실행된다.

즉, 메타데이터 생성부(105)에 의해, 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)가 생성되고, 멀티플렉서(103)에 의해, 생성된 음성 응답 타이밍 메타데이터가, 방송 프로그램 등의 콘텐츠를 포함하는 스트림에 삽입된다(S181). 또한, 송출부(104)에 의해, 음성 응답 타이밍 메타데이터를 삽입한 방송 스트림이 송신된다(S182).

이 방송 스트림은, 수신 장치(20)에 의해 수신되어, 방송 프로그램 등의 콘텐츠가 재생됨과 함께, 스텝 S183의 처리가 실행된다. 스텝 S183에 있어서, 음성 응답 타이밍 메타데이터 관리부(211)는, 디멀티플렉서(202)에 의해 분리된 스트림으로부터 얻어지는 음성 응답 타이밍 메타데이터를 취득한다. 이 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)는, 기록부(212)에 기록된다.

그 후, 방송 프로그램을 시청 중인 시청자(2)에 의해, 질문 발화가 이루어진 경우, 스텝 S152 이후의 처리가 실행된다.

즉, 음성 유저 인터페이스 장치(30)에 있어서, 마이크로폰(301)이, 시청자(2)에 의한 발화를 수음하고, 그 발화의 음성 데이터가, 음성 어시스턴스 서버(40)에 송신된다(S152). 그리고, 음성 어시스턴스 서버(40)에 있어서는, 음성 유저 인터페이스 장치(30)로부터의 발화의 음성 데이터가 해석되고, 그 해석 결과에 따른 리퀘스트 메시지가, 처리 서버(50)에 송신된다.

이때, 음성 유저 인터페이스 장치(30)에서는, 음성 해석부(308)가, 세팅 관리부(307)와 연계함으로써, 발화의 음성 데이터의 해석 결과에 기초하여, 시청자(2)의 발화로부터, 사전의 설정의 처리(S151)에 의해 설정된 대상의 인보케이션 네임의 추출을 행하고, 당해 인보케이션 네임이 추출된 발화를, 타이밍 제어 대상 발화로서 설정한다(S153).

또한, 음성 어시스턴스 서버(40)로부터의 리퀘스트 메시지는, 네트워크(70)를 통해, 처리 서버(50)에 의해 수신되어, 스텝 S154의 처리가 실행된다.

스텝 S154에 있어서, 처리부(502)는, 음성 어시스턴스 서버(40)로부터의 리퀘스트 메시지에 기초하여, 기록부(503)에 기록된 음성 응답 데이터를 추출하여, 음성 어시스턴스 서버(40)에 송신한다. 음성 어시스턴스 서버(40)에 있어서는, 음성 생성부(404-1)에 의해, 음성 응답 데이터에 따른 응답의 음성 데이터가 생성되어, 음성 유저 인터페이스 장치(30)에 송신된다.

이 응답의 음성 데이터는, 인터넷(60)을 통해 음성 유저 인터페이스 장치(30)에 의해 수신되어, 스텝 S155 이후의 처리가 실행된다.

스텝 S155에 있어서, 음성 응답 출력 제어부(304)는, 세팅 관리부(307)에 문의함으로써, 수신한 응답의 음성 데이터가, 타이밍 제어 대상 발화에 대한 응답인지 여부를 확인(판정)한다. 스텝 S155에 있어서, 스텝 S153의 처리에서 설정된 타이밍 제어 대상 발화에 대한 응답이라고 판정된 경우(S155의 「예」), 처리는, 스텝 S156으로 진행된다.

스텝 S156에 있어서, 음성 응답 출력 제어부(304)는, 세팅 관리부(307)에 문의함으로써, 자동 타이밍 제어의 설정이 온으로 되어 있는지 여부를 확인(판정)한다. 스텝 S156에 있어서, 사전의 설정의 처리(S151)에 의해, 자동 타이밍 제어의 설정이 온으로 되어 있다고 판정된 경우(S156의 「예」), 처리는, 스텝 S157로 진행된다.

스텝 S157에 있어서, 음성 응답 출력 제어부(304)는, 사전의 설정의 처리(S151)에서 메타데이터 취득 통신처로서 설정된 수신 장치(20)로부터, 음성 응답 타이밍 메타데이터를 수신함으로써, 음성 응답 시간 정보를 취득한다.

즉, 여기에서는, 음성 응답 출력 제어부(304)가, 수신 장치(20)에 대해, 음성 응답 타이밍 메타데이터의 취득 리퀘스트를 발행함으로써, 수신 장치(20)에서는, 스텝 S158 내지 S159의 처리가 실행된다.

스텝 S158에 있어서, 음성 응답 타이밍 메타데이터 관리부(211)는, 음성 유저 인터페이스 장치(30)로부터의 취득 리퀘스트에 기초하여, 미디어 타임 관리부(208)에 문의를 행함으로써, 현재의 미디어 타임을 취득한다.

스텝 S159에 있어서, 음성 응답 타이밍 메타데이터 관리부(211)는, 취득한 현재의 미디어 타임에 기초하여, 기록부(212)에 기록된 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 추출하여, 음성 응답 타이밍 메타데이터로서, 음성 유저 인터페이스 장치(30)에 송신한다. 여기서, 음성 응답에 적합한 시간이란, 예를 들어 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간 외에, 예를 들어 응답 음성의 시간적인 길이(응답의 길이)나, 재생 중인 콘텐츠의 재생 시간축 상의 시간대 등을 고려하도록 해도 된다.

이 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)는, 음성 유저 인터페이스 장치(30)에 의해 수신되어, 스텝 S160 내지 S161의 처리가 실행된다.

스텝 S160에 있어서, 음성 응답 출력 제어부(304)는, 취득한 음성 응답 시간 정보에 기초하여, 음성 응답에 적합한 타이밍이 될 때까지 대기한다. 그리고, 음성 응답에 적합한 타이밍이 되었을 때, 음성 응답 출력 제어부(304)는, 응답의 음성 데이터를, 스피커(302)에 공급함으로써, 응답 음성을 출력한다(S161).

이와 같이 하여, 음성 유저 인터페이스 장치(30)는, 방송 경유로 취득되는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답에 적합한 시간, 즉, 시청하고 있는 프로그램의 전개로부터, 회화의 중단부 등의 시청의 방해가 되지 않는 시간에, 음성 응답을 행하는 것이 가능해진다. 이에 의해, 시청자(2)는, 프로그램 시청을 방해받지 않고, 응답 음성(알고 싶은 정보)을 듣는 것이 가능해진다.

또한, 음성 유저 인터페이스 장치(30)에 있어서는, 타이밍 제어 대상 발화에 대한 응답이 아니라고 판정된 경우(S155의 「아니오」), 혹은, 자동 타이밍 제어 설정이 오프로 되어 있다고 판정된 경우(S156의 「아니오」)에는, 스텝 S157 내지 S160의 처리는 스킵되고, 스텝 S161의 처리가 실행된다. 즉, 이 경우에는, 음성 응답 타이밍의 대기는 행해지지 않고, 즉시 응답 음성이 출력된다.

이상, 제1 실시 형태의 각 장치의 처리의 제2 예의 흐름으로서, 방송 경유로 취득되는 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 시청자(2)의 발화에 대한 음성 응답의 타이밍을 제어하는 경우의 처리의 흐름을 설명하였다.

이상과 같이, 제1 실시 형태에서는, 음성 유저 인터페이스 장치(30)의 음성 응답 출력 제어부(304)가, 방송 프로그램 등의 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍을 제어한다. 이 음성 응답 시간 정보는, 방송 프로그램 등의 콘텐츠의 재생 시간축 상에 있어서의 음성 응답에 적합한 시간을 나타내는 정보로 할 수 있다.

여기서, 음성 응답 시간 정보(음성 응답 타이밍 메타데이터)가, 통신 경유로 취득되는 경우에는, 방송 프로그램 등의 콘텐츠는, 수신 장치(20)(제1 장치)에 의해 재생되고, 음성 응답 시간 정보는, 처리 서버(50)(제2 장치)에 의해 통신 경유로 배신되고, 처리 서버(50)(제2 장치)에서는, 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 음성 응답 시간 정보를 포함하는 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 수신 장치(20)(제1 장치)에 의해 재생 중인 콘텐츠에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보가 추출되어 배신된다. 그리고, 음성 유저 인터페이스 장치(30)에서는, 음성 응답 출력 제어부(304)에 의해, 통신 경유로 배신된 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍이 제어된다.

또한, 음성 응답 시간 정보(음성 응답 타이밍 메타데이터)가, 방송 경유로 취득되는 경우에는, 방송 프로그램 등의 콘텐츠는, 수신 장치(20)(제1 장치)에 의해 재생되고, 음성 응답 시간 정보는, 방송 배신 시스템(10)의 방송 서버(제2 장치)에 의해 방송 경유로 배신되고, 당해 방송 서버(제2 장치)에서는, 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 음성 응답 시간 정보를 포함하는 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)가 배신되고, 수신 장치(20)(제1 장치)에서는, 방송 경유로 배신된 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 재생 중인 콘텐츠에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보가 추출된다. 그리고, 음성 유저 인터페이스 장치(30)에서는, 음성 응답 출력 제어부(304)에 의해, 수신 장치(20)(제1 장치)에 의해 추출된 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍이 제어된다.

이와 같은 기능을 갖는 음성 유저 인터페이스 장치(30)는, 음성 응답 출력 제어부(304)를 구비하는 정보 처리 장치라고도 할 수 있다.

(2) 제2 실시 형태

그런데, 상술한 제1 실시 형태에서는, 시스템측에서, 음성 응답 시간 정보에 기초하여, 시청자의 발화에 대한 음성 응답의 타이밍을 제어하는 구성을 나타냈지만, 시청자(2)에 따라서는, 당해 음성 응답의 타이밍이, 원하는 타이밍과 다른 것도 상정된다.

그래서, 다음에, 제2 실시 형태로서, 도 14 내지 도 16을 참조하면서, 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍을 제어하는 구성을 나타낸다.

(구성의 예)

도 14는 제2 실시 형태의 구성의 예를 도시하는 도면이다.

도 14에 있어서는, 시청자(2)에 의해 시청되고 있는 방송 프로그램의 진행에 맞춘 처리의 흐름을, 도 14의 A 내지 D에 의해, 시계열로 나타내고 있다.

도 14의 A에 도시한 바와 같이, 시청자(2)가, 드라마 프로그램을 시청 중에, 「이 여배우는 누구?」인 발화를 행하였을 때, 유저 인터페이스 장치(30)는, 시청자(2)의 발화를 마이크로폰에 의해 수음하고, 그 발화의 음성 데이터를, 음성 어시스턴스 서버(40)에 송신한다.

그 후, 도 14의 B에 도시한 바와 같이, 음성 어시스턴스 서버(40)는, 시청 중인 드라마 프로그램의 방송국에 의해 제공되는 처리 서버(50)와 연계하여 처리를 행함으로써, 발화에 대한 응답의 음성 데이터를 생성하여, 유저 인터페이스 장치(30)에 송신한다.

그리고, 유저 인터페이스 장치(30)는, 음성 어시스턴스 서버(40)로부터의 응답의 음성 데이터에 따른 응답 음성을 출력하게 되지만, 당해 응답 음성의 출력이, 시청 중인 드라마 프로그램의 회화 씬과 겹쳐 있다. 이때, 시청자(2)가 「잠깐만 기다려!」 등의 정지 지시(대기 지시)를 행한 경우에는, 응답 음성의 출력을 정지함과 함께, 대기 상태인 것을 나타내는 아이콘(이하, 대기 중 아이콘이라고도 함)을 제시하여, 응답을 대기하도록 한다.

즉, 도 14의 C에 도시한 바와 같이, 유저 인터페이스 장치(30)로부터의 응답 음성의 출력은 정지되고, 수신 장치(20)의 화면에는, 드라마 프로그램의 영상에 중첩되어, 대기 중 아이콘(251)이 표시되어 있다.

그 후, 시청 중인 드라마 프로그램이 진행되어, 예를 들어 CM으로 이동하였을 때 등에, 시청자(2)가 「이제 됐어!」 등의 개시 지시(대기 해제 지시)를 행한 경우에는, 정지한 응답 음성의 출력을 개시(재개)함과 함께, 대기 중 아이콘(251)을 지우도록 한다.

즉, 도 14의 D에 도시한 바와 같이, 응답 음성의 출력이 개시(재개)되고, 유저 인터페이스 장치(30)는, 음성 어시스턴스 서버(40)로부터의 응답의 음성 데이터에 기초하여, 「이 여배우의 이름은 XXXX이며, 주된 주연 작품은, …」인 응답 음성을 출력한다.

이때, 수신 장치(20)에서는, 예를 들어 CM이 재생되고 있어, 시청자(2)의 드라마 프로그램의 시청의 방해가 되지 않는 타이밍에, 음성 응답이 출력되고 있다. 즉, 이 예에 있어서, 시청자(2)는, 회화의 씬뿐만 아니라, 회화가 없는 씬이라도 드라마 프로그램에 집중하고 싶었기 때문에, CM으로 될 때까지, 응답을 대기시키게 된다.

(각 장치의 상세한 구성의 예)

도 15는 제2 실시 형태의 각 장치의 상세한 구성의 예를 도시하는 블록도이다.

도 15에 있어서는, 도 4 및 도 10과 마찬가지로, 송신측의 방송 배신 시스템(10)과 수신측의 수신 장치(20)의 구성의 예와, 로컬측의 음성 유저 인터페이스 장치(30)와 클라우드측의 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성의 예를 도시하고 있다.

또한, 도 15에 있어서, 방송 배신 시스템(10)의 구성은, 도 4에 도시한 구성과 마찬가지이기 때문에, 여기서는, 그 설명은 생략한다. 또한, 도 15에 있어서, 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성은, 도 10에 도시한 구성과 마찬가지이기 때문에, 여기서는, 그 설명은 생략한다.

도 15에 있어서, 수신 장치(20)는, 튜너(201), 디멀티플렉서(202), AV 디코더(203), 방송 부수 애플리케이션 실행부(204), 렌더러(205), 디스플레이(206), 스피커(207), 통신부(210) 및 음성 응답 대기 통지부(213)를 포함하여 구성된다. 즉, 도 15에 도시한 수신 장치(20)의 구성은, 도 4에 도시한 구성과 비교하여, 미디어 타임 관리부(208) 및 통신부(209) 대신에, 음성 응답 대기 통지부(213) 및 통신부(210)가 마련되어 있다.

음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)(의 음성 응답 출력 제어부(304))로부터의 대기 상태를 나타내는 통지를 수취한 경우, 렌더러(205)에 대해, 대기 중 아이콘의 표시를 지시한다. 또한, 음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(의 음성 응답 출력 제어부(304))로부터의 해제 상태를 나타내는 통지를 수취한 경우, 렌더러(205)에 대해, 대기 중 아이콘의 삭제를 지시한다.

도 15에 있어서, 음성 유저 인터페이스 장치(30)는, 마이크로폰(301), 스피커(302), 통신부(303), 음성 응답 출력 제어부(304), 버퍼(306), 음성 해석부(308) 및 통신부(309)를 포함하여 구성된다. 즉, 도 15에 도시한 음성 유저 인터페이스 장치(30)는, 도 4에 도시한 구성과 비교하여, 타이머(305) 및 세팅 관리부(307)가 제거된 대신에, 음성 해석부(308) 및 통신부(309)가 추가되어 있다.

음성 해석부(308)는, 마이크로폰(301)으로부터 공급되는 발화의 음성 데이터의 해석을 행하고, 그 해석 결과에 기초하여, 응답 음성의 출력 정지 지시(대기 지시), 또는 개시 지시(대기 해제 지시)의 발화가 이루어졌는지 여부를 확인(판정)한다.

음성 해석부(308)는, 응답 음성의 출력 정지 지시 또는 개시 지시의 발화가 이루어지지 않았다고 판정한 경우, 발화의 음성 데이터를, 통신부(303)에 공급한다. 이에 의해, 발화의 음성 데이터는, 인터넷(60)을 통해 음성 어시스턴스 서버(40)에 송신된다. 또한, 음성 해석부(308)는, 응답 음성의 출력의 정지 지시 또는 개시 지시의 발화가 이루어졌다고 판정한 경우, 그 취지를, 음성 응답 출력 제어부(304)에 통지한다.

음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 응답 음성의 출력의 정지가 지시된 경우에는, 현재 출력 중인 응답 음성의 출력이 정지되고, 응답 음성의 출력의 개시(재개)가 지시된 경우에는, 대기 중(정지 중)인 응답 음성의 출력이 개시(재개)되도록 한다. 또한, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 수신 장치(20)(의 음성 응답 대기 통지부(213))에 대해, 대기 상태 또는 해제 상태를 나타내는 통지가 이루어지도록 한다.

(각 장치의 처리의 흐름)

다음에, 도 16의 흐름도를 참조하여, 제2 실시 형태의 각 장치의 처리의 흐름을 설명한다.

수신 장치(20)에서 재생되고 있는 방송 프로그램을 시청 중인 시청자(2)에 의해, 발화가 이루어진 경우, 음성 유저 인터페이스 장치(30)에서는, 마이크로폰(301)에 의해, 그 발화가 수음된다(S201). 또한, 음성 해석부(308)에 의해, 수음된 발화의 음성 데이터가 해석되고, 그 해석 결과에 기초하여, 응답 음성의 출력의 정지 지시(대기 지시), 또는 개시 지시(대기 해제 지시)의 발화가 이루어졌는지 여부를 확인(판정)한다(S202).

여기에서는, 스텝 S202의 판정 처리의 결과에 따라, 통상 발화, 정지 발화, 또는 개시 발화의 3개의 처리 중, 어느 것의 처리가 실행된다.

첫번째, 스텝 S202의 판정 처리에서, 예를 들어 「이 여배우는 누구?」인 발화 등, 응답 음성의 출력의 정지 지시 또는 개시 지시의 발화가 아니라, 통상의 발화가 이루어졌다고 판정된 경우, 처리는, 스텝 S203으로 진행되어, 통상 발화의 처리가 실행된다.

이 통상 발화의 처리에서는, 음성 유저 인터페이스 장치(30)에 의해, 발화의 음성 데이터가, 음성 어시스턴스 서버(40)에 송신된다(S203A). 음성 어시스턴스 서버(40)에서는, 음성 유저 인터페이스 장치(30)로부터의 발화의 음성 데이터가 해석되고, 그 해석 결과에 따른 리퀘스트 메시지가 생성된다.

이 리퀘스트 메시지는, 처리 서버(50)에 의해 수신되어, 스텝 S203B의 처리가 실행된다. 즉, 처리부(502)는, 리퀘스트 메시지에 기초하여, 음성 응답 데이터를 추출하여, 음성 어시스턴스 서버(40)에 송신한다. 음성 어시스턴스 서버(40)에서는, 음성 응답 데이터에 기초하여, 응답의 음성 데이터가 생성되어, 음성 유저 인터페이스 장치(30)에 송신된다.

음성 유저 인터페이스 장치(30)에서는, 음성 응답 출력 제어부(304)가, 음성 어시스턴스 서버(40)로부터의 응답의 음성 데이터에 따른 응답 음성을, 스피커(302)로부터 출력한다. 이에 의해, 시청자(2)는, 음성 유저 인터페이스 장치(30)로부터 출력되는 응답 음성을 확인할 수 있다.

두번째, 스텝 S202의 판정 처리에서, 예를 들어 「잠깐만 기다려!」인 발화 등, 응답 음성의 출력의 정지 지시의 발화가 이루어졌다고 판정된 경우, 처리는, 스텝 S204로 진행되어, 정지 발화의 처리가 실행된다.

이 정지 발화의 처리에서는, 음성 유저 인터페이스 장치(30)에 의해, 스텝 S204A 내지 S204C의 처리가 실행된다. 즉, 음성 해석부(308)는, 음성 응답 출력 제어부(304)에 대하여 응답 음성의 출력을 정지하도록 통지(통달)한다(S204A).

이에 의해, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 따라, 스피커(302)로부터 현재 출력 중인 응답 음성을 정지한다(S204B). 이때, 음성 응답 출력 제어부(304)는, 응답의 음성 데이터를 버퍼(306)에 일시적으로 유지하도록 한다.

또한, 음성 응답 출력 제어부(304)는, 응답 음성의 출력이 대기 상태인 것을, 수신 장치(20)에 통지한다(S204C). 이 대기 상태를 나타내는 통지는, Bluetooth(등록 상표) 등의 무선 통신에 의해, 수신 장치(20)에 의해 수신되어, 스텝 S204D의 처리가 실행된다.

즉, 음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)(의 음성 응답 출력 제어부(304))로부터의 대기 상태를 나타내는 통지에 기초하여, 렌더러(205)에 대해, 대기 중 아이콘의 표시를 지시한다(S204D). 이에 의해, 수신 장치(20)의 디스플레이(206)의 화면에는, 대기 중 아이콘(251)이 표시되기 때문에, 시청자(2)는, 자신의 발화에 의해, 응답 음성이 대기 중인 것을 확인할 수 있다.

세번째, 스텝 S202의 판정 처리에서, 예를 들어 「이제 됐어!」인 발화 등, 응답 음성의 출력의 개시 지시의 발화가 이루어졌다고 판정된 경우, 처리는, 스텝 S205로 진행되어, 개시 발화의 처리가 실행된다.

이 개시 발화의 처리에서는, 음성 유저 인터페이스 장치(30)에 의해, 스텝 S205A 내지 S205C의 처리가 실행된다. 즉, 음성 해석부(308)는, 음성 응답 출력 제어부(304)에 대해, 응답 음성의 출력을 개시하도록 통지한다(S205A).

이에 의해, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 따라, 버퍼(306)에 일시적으로 유지한 응답의 음성 데이터에 따른 응답 음성을, 스피커(302)로부터 출력하여, 대기 중인 응답 음성의 출력을 재개한다(S205B).

또한, 음성 응답 출력 제어부(304)는, 대기 중이었던 응답 음성의 출력이 해제된 것을, 수신 장치(20)에 통지한다(S205C). 이 해제 상태를 나타내는 통지는, 수신 장치(20)에 의해 수신되어, 스텝 S205D의 처리가 실행된다.

즉, 음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)로부터의 해제 상태를 나타내는 통지에 기초하여, 렌더러(205)에 대해, 대기 중 아이콘의 삭제를 지시한다(S205D). 이에 의해, 수신 장치(20)의 디스플레이(206)의 화면에서는, 대기 중 아이콘(251)의 표시가 지워진다.

예를 들어, 시청자(2)는, 드라마 프로그램의 시청 중에, 응답 음성을 CM까지 대기시킨 경우에, 응답 음성의 출력의 개시 지시의 발화를 행하여, 「이 여배우의 이름은 XXXX이며, 주된 주연 작품은, …」인 응답 음성을 확인할 수 있다. 이에 의해, 시청자(2)는, 자신이 듣고 싶은 타이밍에, 응답 음성(알고 싶은 정보)을 들을 수 있다.

이상, 제2 실시 형태의 각 장치의 처리의 흐름으로서, 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍을 제어하는 경우의 처리의 흐름을 설명하였다.

또한, 대기 중 아이콘은, 응답 음성의 출력이 대기 중인 것을 나타내는 정보의 일례이며, 당해 대기 중인 것을 통지할 수 있는 정보이면, 다른 정보를 사용할 수 있다. 또한, 예를 들어 수신 장치(20)나 음성 유저 인터페이스 장치(30)에 있어서, 대기 정보로서, 램프를 점등시키거나 해도 된다.

(3) 제3 실시 형태

그런데, 제1 실시 형태에서는, 시스템측에서, 음성 응답 시간 정보에 기초하여, 시청자의 발화에 대한 음성 응답의 타이밍을 제어하고 있기 때문에, 시청자(2)에 따라서는, 원하는 타이밍에, 음성 응답을 행하고 싶은 사람도 상정된다. 즉, 제1 실시 형태에 나타낸 구성에 있어서도, 제2 실시 형태에 나타낸 구성과 마찬가지로, 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍의 제어가 행해지도록 해도 된다.

그래서, 다음에, 제3 실시 형태로서, 도 17 내지 도 20을 참조하면서, 통신 경유 또는 방송 경유로 취득한 음성 응답 타이밍 메타데이터(음성 응답 시간 정보), 및 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍을 제어하는 구성을 나타낸다.

(각 장치의 상세한 구성의 제1 예)

도 17은 제3 실시 형태의 각 장치의 상세한 구성의 제1 예를 도시하는 블록도이다.

도 17에 있어서는, 도 4 및 도 15와 마찬가지로, 송신측의 방송 배신 시스템(10)과 수신측의 수신 장치(20)의 구성의 예와, 로컬측의 음성 유저 인터페이스 장치(30)와 클라우드측의 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성의 예를 나타내고 있다.

또한, 도 17에 있어서, 방송 배신 시스템(10), 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성은, 도 4에 도시한 구성과 마찬가지이기 때문에, 여기서는, 그 설명은 생략한다.

도 17에 있어서, 수신 장치(20)는, 튜너(201), 디멀티플렉서(202), AV 디코더(203), 방송 부수 애플리케이션 실행부(204), 렌더러(205), 디스플레이(206), 스피커(207), 미디어 타임 관리부(208), 통신부(209), 통신부(210), 및 음성 응답 대기 통지부(213)를 포함하여 구성된다. 즉, 도 17에 도시한 수신 장치(20)의 구성은, 도 4에 도시한 구성과 비교하여, 음성 응답 대기 통지부(213) 및 통신부(210)가 추가되어 있다.

음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)(의 음성 응답 출력 제어부(304))로부터의 대기 상태를 나타내는 통지를 수취한 경우에는, 렌더러(205)에 대해, 대기 중 아이콘의 표시를 지시하고, 해제 상태를 나타내는 통지를 수취한 경우에는, 렌더러(205)에 대해, 대기 중 아이콘의 삭제를 지시한다.

도 17에 있어서, 음성 유저 인터페이스 장치(30)는, 마이크로폰(301), 스피커(302), 통신부(303), 음성 응답 출력 제어부(304), 타이머(305), 버퍼(306), 세팅 관리부(307), 음성 해석부(308), 및 통신부(309)를 포함하여 구성된다. 즉, 도 17에 도시한 음성 유저 인터페이스 장치(30)의 구성은, 도 4에 도시한 구성과 비교하여, 음성 해석부(308) 및 통신부(309)가 추가되어 있다.

음성 응답 출력 제어부(304)는, 통신 경유로 취득된 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답 타이밍까지 대기할 때, 수신 장치(20)(의 음성 응답 대기 통지부(213))에 대해, 대기 상태를 나타내는 통지가 이루어지도록 한다. 또한, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 응답 음성의 출력의 개시(재개)가 지시되었을 때, 대기 중(정지 중)인 응답 음성의 출력이 개시(재개)되도록 한다. 이때, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 수신 장치(20)(의 음성 응답 대기 통지부(213))에 대해, 해제 상태를 나타내는 통지가 이루어지도록 한다.

(각 장치의 처리의 제1 예의 흐름)

다음에, 도 18의 흐름도를 참조하여, 제3 실시 형태의 각 장치의 처리의 제1 예의 흐름을 설명한다.

수신 장치(20)에서 재생되고 있는 방송 프로그램을 시청 중인 시청자(2)에 의해, 질문 발화가 이루어진 경우, 스텝 S301 내지 S303의 처리가 실행된다.

스텝 S301 내지 S303에 있어서는, 상술한 도 8의 스텝 S102 내지 S107과 마찬가지로, 발화의 음성 데이터의 해석 결과에 따른 리퀘스트 메시지가, 처리 서버(50)에 송신됨으로써, 처리 서버(50)에서는, 수신 장치(20)로부터 취득한 현재의 미디어 타임에 기초하여, 음성 응답 타이밍 메타데이터(프로그램 전체의 메타데이터)로부터, 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보가 추출되어, 리퀘스트 메시지에 따른 음성 응답 데이터가 송신된다(S301, S302).

그리고, 응답의 음성 데이터와 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)는, 인터넷(60)을 통해, 음성 유저 인터페이스 장치(30)에 의해 수신되고, 음성 응답 출력 제어부(304)는, 통신 경유로 취득된 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답 타이밍까지 대기한다(S303).

스텝 S304에 있어서, 음성 응답 출력 제어부(304)는, 응답 음성의 출력이 대기 상태인 것을, 수신 장치(20)에 통지한다. 이 대기 상태를 나타내는 통지는, 수신 장치(20)에 의해 수신되어, 스텝 S305의 처리가 실행된다.

즉, 음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)(의 음성 응답 출력 제어부(304))로부터의 대기 상태를 나타내는 통지에 기초하여, 렌더러(205)에 대해, 대기 중 아이콘의 표시를 지시한다(S305). 이에 의해, 수신 장치(20)의 디스플레이(206)의 화면에는, 대기 중 아이콘(251)이 표시되기 때문에, 시청자(2)는, 응답 음성이 대기 중인 것을 확인할 수 있다.

여기에서는, 예를 들어 시청자(2)가, 대기 중 아이콘(251)을 확인하고, 음성 응답이 대기 중으로 되어 있음을 알아차렸을 때, 응답 음성의 출력의 개시 지시의 발화(예를 들어 「이제 됐어!」 등)가 이루어진 경우를 상정한다(S306, S307).

이때, 음성 유저 인터페이스 장치(30)에서는, 음성 해석부(308)에 의해, 마이크로폰(301)에 의해 수음된 발화의 음성 데이터가 해석되어, 스텝 S308 내지 S310의 처리가 실행된다. 즉, 음성 해석부(308)는, 음성 응답 출력 제어부(304)에 대하여 응답 음성의 출력을 개시하도록 통지한다(S308).

이에 의해, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 따라, 버퍼(306)에 일시적으로 유지한 응답의 음성 데이터에 따른 응답 음성을, 스피커(302)로부터 출력하여, 대기 중인 응답 음성의 출력을 재개한다(S309).

또한, 음성 응답 출력 제어부(304)는, 대기 중이었던 응답 음성의 출력이 해제된 것을, 수신 장치(20)에 통지한다(S310). 이 해제 상태를 나타내는 통지는, 수신 장치(20)에 의해 수신되어, 스텝 S311의 처리가 실행된다.

즉, 음성 응답 대기 통지부(213)는, 음성 유저 인터페이스 장치(30)로부터의 해제 상태를 나타내는 통지에 기초하여, 렌더러(205)에 대해, 대기 중 아이콘의 삭제를 지시하여, 디스플레이(206)의 화면에 표시 중인 대기 중 아이콘(251)이 지워지도록 한다(S311).

또한, 이 예에서는, 대기 중 아이콘(251)을 알아차린 시청자(2)가 개시 지시의 발화를 행한 경우를 상정하였지만, 개시 지시의 발화를 행하지 않는 경우에는, 예를 들어 그 후, 음성 응답 시간 정보가 나타내는 시간이 되었을 때, 스피커(302)로부터 응답 음성이 출력된다.

이상, 제3 실시 형태의 각 장치의 처리의 제1 예의 흐름으로서, 통신 경유로 취득한 음성 응답 타이밍 메타데이터(음성 응답 시간 정보), 및 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍을 제어하는 경우의 처리의 흐름을 설명하였다.

(각 장치의 상세한 구성의 제2 예)

도 19는 제3 실시 형태의 각 장치의 상세한 구성의 제2 예를 도시하는 블록도이다.

도 19에 있어서는, 도 10 및 도 15와 마찬가지로, 송신측의 방송 배신 시스템(10)과 수신측의 수신 장치(20)의 구성의 예와, 로컬측의 음성 유저 인터페이스 장치(30)와 클라우드측의 음성 어시스턴스 서버(40) 및 처리 서버(50)의 구성의 예를 나타내고 있다.

또한, 도 19에 있어서, 방송 배신 시스템(10), 음성 어시스턴스 서버(40), 및 처리 서버(50)의 구성은, 도 10에 도시한 구성과 마찬가지이기 때문에, 여기서는, 그 설명은 생략한다.

도 19에 있어서, 수신 장치(20)는, 튜너(201), 디멀티플렉서(202), AV 디코더(203), 방송 부수 애플리케이션 실행부(204), 렌더러(205), 디스플레이(206), 스피커(207), 미디어 타임 관리부(208), 통신부(210), 음성 응답 타이밍 메타데이터 관리부(211), 기록부(212), 및 음성 응답 대기 통지부(213)를 포함하여 구성된다. 즉, 도 19에 도시한 수신 장치(20)의 구성은, 도 10에 도시한 구성과 비교하여, 음성 응답 대기 통지부(213)가 추가되어 있다.

도 19에 있어서, 음성 유저 인터페이스 장치(30)는, 마이크로폰(301), 스피커(302), 통신부(303), 음성 응답 출력 제어부(304), 타이머(305), 버퍼(306), 세팅 관리부(307), 음성 해석부(308), 및 통신부(309)를 포함하여 구성된다. 즉, 도 19에 도시한 음성 유저 인터페이스 장치(30)는, 도 10에 도시한 음성 유저 인터페이스 장치(30)와 마찬가지로 구성되지만, 음성 응답 출력 제어부(304) 및 음성 해석부(308)에 의한 처리의 내용이 다르다.

음성 응답 출력 제어부(304)는, 방송 경유로 취득된 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답 타이밍까지 대기할 때, 수신 장치(20)(의 음성 응답 대기 통지부(213))에 대해, 대기 상태를 나타내는 통지가 이루어지도록 한다. 또한, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 응답 음성의 출력의 개시(재개)가 지시되었을 때, 대기 중(정지 중)인 응답 음성의 출력이 개시(재개)되도록 한다. 이때, 음성 응답 출력 제어부(304)는, 음성 해석부(308)로부터의 통지에 기초하여, 수신 장치(20)(의 음성 응답 대기 통지부(213))에 대해, 해제 상태를 나타내는 통지가 이루어지도록 한다.

(각 장치의 처리의 제2 예의 흐름)

다음에, 도 20의 흐름도를 참조하여, 제3 실시 형태의 각 장치의 처리의 제2 예의 흐름을 설명한다.

수신 장치(20)에서 재생되고 있는 방송 프로그램을 시청 중인 시청자(2)에 의해, 질문 발화가 이루어진 경우, 스텝 S351 내지 S354의 처리가 실행된다.

스텝 S351 내지 S354에 있어서는, 상술한 도 13의 스텝 S152 내지 S160과 마찬가지로, 발화의 음성 데이터의 해석 결과에 따른 리퀘스트 메시지가, 처리 서버(50)에 송신됨으로써, 리퀘스트 메시지에 따른 음성 응답 데이터가 송신된다(S351, S352).

한편, 음성 유저 인터페이스 장치(30)에서는, 수신한 응답의 음성 데이터가, 타이밍 제어 대상 발화에 대한 응답이 되는 경우에는, 수신 장치(20)로부터, 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)가 취득된다(S353). 이에 의해, 음성 응답 출력 제어부(304)는, 방송 경유로 취득된 음성 응답 타이밍 메타데이터(음성 응답 시간 정보)에 기초하여, 음성 응답 타이밍까지 대기한다(S354).

스텝 S355 내지 S356에 있어서는, 상술한 도 18의 스텝 S304 내지 S305와 마찬가지로, 음성 응답 출력 제어부(304)에 의해, 응답 음성의 출력이 대기 상태인 것이 통지되고, 이 통지를 받은 수신 장치(20)에서는, 음성 응답 대기 통지부(213)에 의해, 대기 중 아이콘의 표시가 지시된다.

또한, 스텝 S357 내지 S362에 있어서는, 상술한 도 18의 스텝 S306 내지 S311과 마찬가지로, 시청자(2)로부터 응답 음성의 출력의 개시 지시의 발화가 이루어진 경우에, 음성 유저 인터페이스 장치(30)에서는, 대기 중이었던 응답 음성의 출력이 재개된다. 또한, 이때, 음성 응답 출력 제어부(304)에 의해, 응답 음성의 출력이 해제 상태인 것이 통지되고, 이 통지를 받은 수신 장치(20)에서는, 음성 응답 대기 통지부(213)에 의해, 표시되어 있는 대기 중 아이콘의 삭제가 지시된다.

이상, 제3 실시 형태의 각 장치의 처리의 제2 예의 흐름으로서, 방송 경유로 취득한 음성 응답 타이밍 메타데이터(음성 응답 시간 정보), 및 시청자(2)로부터의 지시 발화에 기초하여, 음성 응답의 타이밍을 제어하는 경우의 처리의 흐름을 설명하였다.

이상과 같이, 제3 실시 형태에서는, 음성 유저 인터페이스 장치(30)의 음성 응답 출력 제어부(304)가, 방송 프로그램 등의 콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보, 및 당해 시청자의 발화에 기초하여, 음성 응답의 타이밍을 제어한다.

또한, 음성 유저 인터페이스 장치(30)에 있어서, 음성 응답 출력 제어부(304)가, 음성 응답의 타이밍이 될 때까지 대기할 때, 당해 대기 중인 것을 나타내는 정보가 제시되도록 할 수 있다. 또한, 음성 응답 출력 제어부(304)는, 시청자에 의해 음성 응답의 개시 지시가 이루어진 경우, 대기 중인 음성 응답을 개시하도록 할 수 있다.

또한, 음성 응답 출력 제어부(304)는, 음성 응답의 타이밍이 될 때까지 대기하는 경우, 대기 상태를 나타내는 통지(제1 메시지)를, 방송 프로그램 등의 콘텐츠를 재생 중인 수신 장치(20)(제1 장치)에 통지하고, 수신 장치(20)(제1 장치)에서는, 대기 상태를 나타내는 통지(제1 메시지)에 기초하여, 대기 중 아이콘(251)(아이콘)을 표시하도록 하고, 시청자에 의해 음성 응답의 개시 지시가 이루어진 경우, 해제 상태를 나타내는 통지(제2 메시지)를, 수신 장치(20)(제1 장치)에 통지하고, 수신 장치(20)(제1 장치)에서는, 해제 상태를 나타내는 통지(제2 메시지)에 기초하여, 대기 중 아이콘(251)(아이콘)의 표시를 지우도록 할 수 있다.

이와 같이, 제1 실시 형태에서 나타낸 구성에서는, 시스템측에서, 음성 응답의 타이밍을 자동 제어하기 때문에, 예를 들어 본편의 회화와 겹쳐도 되기 때문에, 응답 음성을 빨리 듣고 싶은 시청자에게 있어서는, 불필요한 참견이 될 가능성이 있다. 그래서, 제3 실시 형태의 구성에서는, 음성 유저 인터페이스 장치(30)가, 음성 응답 시간 정보에 기초하여, 응답 음성의 출력을 대기하고 있는 동안이라도, 제2 실시 형태와 마찬가지로, 수신 장치(20)에 대기 중 아이콘을 표시시킨다. 응답 음성을 빨리 듣고 싶은 시청자는, 대기 중 아이콘을 확인하고, 응답 음성의 출력이 대기 중인 것을 인식하였을 때, 「이제 됐어!」 등으로 응답 음성 출력의 개시 지시를 발화함으로써, 바로, 응답 음성을 듣는 것이 가능해진다. 또한, 자동 타이밍 조정이, 시청자에게 있어서도 적확하다면, 제2 실시 형태의 구성과 같은, 불필요한 인터랙션이 필요없어진다고 하는 장점도 있다.

<3. 변형예>

(다른 구성의 예)

상술한 설명에서는, 수신 장치(20)와 음성 유저 인터페이스 장치(30)가 다른 장치인 것으로 설명하였지만, 예를 들어 도 21에 도시한 바와 같이, 그것들 장치를 일체화하여 하나의 장치(정보 처리 장치)로서 구성되도록 해도 된다.

즉, 도 21에 도시한 수신 장치(20)는, 음성 AI 어시스턴스 서비스에 대응한 텔레비전 수상기나 스마트폰 등의 기기이며, 튜너(201) 내지 미디어 타임 관리부(208), 및 음성 응답 대기 통지부(213) 외에, 음성 유저 인터페이스 장치(30)측의 마이크로폰(301), 통신부(303), 음성 응답 출력 제어부(304), 타이머(305), 버퍼(306), 세팅 관리부(307) 및 음성 해석부(308)가 마련되어 있다. 단, 도 21에 있어서, 스피커(207)는, 음성 유저 인터페이스 장치(30)측의 스피커(302)로서도 사용된다. 또한, 통신부(303)는, 수신 장치(20)측의 통신부(209)로서도 사용된다.

도 21에 도시한 수신 장치(20)에 있어서도, 음성 응답 출력 제어부(304)에 의해, 음성 응답 시간 정보에 기초하여, 음성 응답의 타이밍이 제어된다. 또한, 음성 응답 대기 통지부(213)에 의해, 대기 중 아이콘이 제시된다.

또한, 도 21에 있어서는, 수신 장치(20)가 음성 AI 어시스턴스 서비스에 대응한 경우의 구성에 대하여 설명하였지만, 음성 응답 대기 통지부(213) 등의 기능이, 음성 유저 인터페이스 장치(30)측에 마련되고, 필요한 정보는, 수신 장치(20)측으로부터 취득하도록 해도 된다. 또한, 도 21에 있어서는, 제3 실시 형태에 대응한 구성을 나타냈지만, 제1 실시 형태 및 제2 실시 형태에 있어서도 마찬가지로, 수신 장치(20)와 음성 유저 인터페이스 장치(30)를 일체화해도 된다.

또한, 음성 AI 어시스턴스 서비스를 제공하기 위한 기능으로서는, 로컬측의 기능(예를 들어, 음성 응답 출력 제어부(304)나 음성 해석부(308)의 기능 등)과, 클라우드측의 기능(예를 들어, 음성 해석부(403)나 음성 생성부(404-1), 메타데이터 머지부(404-2)의 기능 등)이 있지만, 그것들의 기능 모두가, 로컬측의 장치(단말기) 또는 클라우드측의 장치(서버)에서 실장되도록 해도 되고, 혹은, 그것들의 기능의 일부가, 로컬측의 장치(단말기) 또는 클라우드측의 장치(서버)에서 실장되도록 해도 된다.

또한, 상술한 도 1의 콘텐츠·음성 AI 연계 시스템(1)에 있어서는, 시청자댁에서, 하나의 수신 장치(20)(예를 들어 텔레비전 수상기)와, 하나의 음성 유저 인터페이스 장치(30)(스마트 스피커)가 설치되는 경우를 도시하였지만, 예를 들어 시청자댁마다, 본 기술을 적용한 수신 장치(20)와 음성 유저 인터페이스 장치(30)를 각각 설치할 수 있다. 또한, 시청자댁에 있어서, 수신 장치(20)와 음성 유저 인터페이스 장치(30)는, 동일한 방에 설치되는 것이 상정되지만, 다른 방에 설치해도 된다. 또한, 하나의 수신 장치(20)에 대해, 복수의 음성 유저 인터페이스 장치(30)를 마련하도록 해도 되고, 그 반대로, 하나의 음성 유저 인터페이스 장치(30)에 대해, 복수의 수신 장치(20)를 마련하도록 해도 된다.

또한, 상술한 도 1의 콘텐츠·음성 AI 연계 시스템(1)에 있어서는, 하나의 음성 어시스턴스 서버(40)와, 하나의 처리 서버(50)가 설치되는 경우를 도시하였지만, 이들 서버는, 예를 들어 기능이나 사업자(예를 들어 방송 사업자)마다, 복수 마련하도록 해도 된다. 한편, 음성 어시스턴스 서버(40)와 처리 서버(50)의 기능의 전부 또는 일부를 통합하여, 하나 또는 복수의 서버에 의해 제공되도록 해도 된다.

(방송 방식의 예)

방송 배신 시스템(10)으로부터 수신 장치(20)에 보내지는 방송 신호(디지털 방송 신호)를 전송하기 위한 방송 방식으로서는, 예를 들어 미국 등에서 채용되고 있는 방식인 ATSC(Advanced Television Systems Committee) 외에, 일본 등이 채용하는 방식인 ISDB(Integrated Services Digital Broadcasting)나, 유럽의 각국 등이 채용하는 방식인 DVB(Digital Video Broadcasting) 등을 적용할 수 있다. 또한, 그 전송로로서는, 지상파 방송에 한하지 않고, 예를 들어 방송 위성(BS: Broadcasting Satellite)이나 통신 위성(CS: Communications Satellite) 등을 이용한 위성 방송이나, 케이블 텔레비전(CATV: Cable Television) 등의 유선 방송 등에도 적용할 수 있다.

또한, 상술한 방송 배신 시스템(10)은, 하나 또는 복수의 방송 서버 등으로 구성되는 것이며, 예를 들어 일반적인 디지털 방송의 시스템에서는, 멀티플렉서(103)(멀티플렉서 서버)와, 송출부(104)(송출 서버)는, 다른 장소에 설치되는 것이다. 보다 구체적으로는, 예를 들어 멀티플렉서(103)는, 방송국 내에 설치되는 한편, 송출부(104)는 송신소에 설치된다. 또한, 프로그램 콘텐츠 처리부(101)(프로그램 콘텐츠 서버), 방송 부수 애플리케이션 생성부(102)(방송 부수 애플리케이션 서버), 및 메타데이터 생성부(105)(메타데이터 서버)는, 멀티플렉서(103)(멀티플렉서 서버)와 동일한 장소(예를 들어 방송국 내의 장소) 또는 다른 장소(예를 들어 방송국 외의 장소)에 설치되도록 할 수 있다.

(콘텐츠·애플리케이션의 예)

또한, 상술한 설명에서는, 배신 대상의 콘텐츠로서, 프로그램이나 CM을 예시하였지만, 본 기술이 적용되는 콘텐츠에는, 동화상이나 음악 외에, 예를 들어 전자 서적이나 게임, 광고 등, 모든 콘텐츠가 포함된다. 또한, 상술한 설명에서는, 콘텐츠의 배신 경로로서, 방송 배신 시스템(10)에 의한 방송 경유로의 배신을 설명하였지만, OTT(Over The Top) 서비스 등을 제공하는 통신 배신 시스템에 의해, 통신 경유로 스트리밍 배신되도록 해도 된다. 또한, 프로그램 등의 콘텐츠를 구성하는 컴포넌트(예를 들어, 영상이나 음성, 자막 등)의 전부가, 방송 경유 또는 통신 경유로 배신되도록 해도 되고, 컴포넌트의 일부가 방송 경유 또는 통신 경유로 배신되도록(나머지의 일부는 통신 경유 또는 방송 경유로 배신되도록) 해도 된다.

또한, 방송 부수 애플리케이션은, 예를 들어 HTML5 등의 마크업 언어나 JavaScript(등록 상표) 등의 스크립트 언어로 개발된 애플리케이션으로 할 수 있지만, 그것에 한하지 않고, 예를 들어 Java(등록 상표) 등의 프로그래밍 언어로 개발된 애플리케이션이어도 된다. 또한, 방송 부수 애플리케이션은, 브라우저(방송 부수 애플리케이션 실행부(204))에 의해 실행되는 애플리케이션에 한하지 않고, 소위 네이티브 애플리케이션으로서, OS(Operating System) 환경 등에서 실행되도록 해도 된다.

또한, 상술한 설명에서는, 방송 부수 애플리케이션이, 방송 배신 시스템(10)에 의해 방송 경유로 배신되는 경우를 설명하였지만, 그것에 한하지 않고, 예를 들어 방송 부수 애플리케이션을 생성하는 애플리케이션 서버에 의해, 통신 경유로(인터넷(60)을 경유하여) 배신되도록 해도 된다. 또한, 상술한 설명에서는, 방송 부수 애플리케이션은, 방송 경유로 배신되는 콘텐츠에 연동되는 것으로서 설명하였지만, 통신 경유로 배신되는 콘텐츠에 연동하여 실행되는 애플리케이션이어도 된다.

(기타)

또한, 본 명세서에서 사용하고 있는 명칭은, 일례이며, 실제로는, 다른 명칭이 사용되는 경우가 있다. 단, 이들 명칭의 차이는, 형식적인 차이이며, 대상의 것의 실질적인 내용이 다른 것은 아니다. 예를 들어, 상술한 「스킬」은, 「액션」이나 「애플리케이션」 등으로 칭해지는 경우가 있다. 또한, 상술한 「AI 어시스턴스 서비스」는, 「AI 어시스턴트 서비스」 등이라 칭해지는 경우가 있다.

<4. 컴퓨터의 구성>

상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 도 22는 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어 구성의 예를 도시하는 도면이다.

컴퓨터(1000)에 있어서, CPU(Central Processing Unit)(1001), ROM(Read Only Memory)(1002), RAM(Random Access Memory)(1003)은, 버스(1004)에 의해 서로 접속되어 있다. 버스(1004)에는, 또한, 입출력 인터페이스(1005)가 접속되어 있다. 입출력 인터페이스(1005)에는, 입력부(1006), 출력부(1007), 기록부(1008), 통신부(1009), 및 드라이브(1010)가 접속되어 있다.

입력부(1006)는, 키보드, 마우스, 마이크로폰 등으로 이루어진다. 출력부(1007)는, 디스플레이, 스피커 등으로 이루어진다. 기록부(1008)는, 하드 디스크나 불휘발성 메모리 등으로 이루어진다. 통신부(1009)는, 네트워크 인터페이스 등으로 이루어진다. 드라이브(1010)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(1011)를 구동한다.

이상과 같이 구성되는 컴퓨터(1000)에서는, CPU(1001)가, ROM(1002)이나 기록부(1008)에 기록되어 있는 프로그램을, 입출력 인터페이스(1005) 및 버스(1004)를 통해, RAM(1003)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(1000)(CPU(1001))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(1011)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터(1000)에서는, 프로그램은, 리무버블 기록 매체(1011)를 드라이브(1010)에 장착함으로써, 입출력 인터페이스(1005)를 통해, 기록부(1008)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(1009)에서 수신하여, 기록부(1008)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(1002)이나 기록부(1008)에, 미리 인스톨해 둘 수 있다.

여기서, 본 명세서에 있어서, 컴퓨터가 프로그램에 따라서 행하는 처리는, 반드시 흐름도로서 기재된 순서에 따라서 시계열로 행해질 필요는 없다. 즉, 컴퓨터가 프로그램에 따라서 행하는 처리는, 병렬적 혹은 개별로 실행되는 처리(예를 들어, 병렬 처리 혹은 오브젝트에 의한 처리)도 포함한다. 또한, 프로그램은, 하나의 컴퓨터(프로세서)에 의해 처리되는 것이어도 되고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니고, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

또한, 본 기술은, 이하와 같은 구성을 취할 수 있다.

(1)

콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 제어부를 구비하는 정보 처리 장치.

(2)

상기 음성 응답 시간 정보는, 상기 콘텐츠의 재생 시간축 상에 있어서의 상기 음성 응답에 적합한 시간을 나타내는 정보인 상기 (1)에 기재된 정보 처리 장치.

(3)

상기 음성 응답 시간 정보는, 통신 경유로 취득되는 상기 (1) 또는 (2)에 기재된 정보 처리 장치.

(4)

상기 콘텐츠는, 제1 장치에 의해 재생되고,

상기 음성 응답 시간 정보는, 제2 장치에 의해 통신 경유로 배신되고,

상기 제2 장치에서는, 상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터로부터, 상기 제1 장치에 의해 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되어 배신되고,

상기 제어부는, 통신 경유로 배신된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 상기 (3)에 기재된 정보 처리 장치.

(5)

상기 음성 응답 시간 정보는, 방송 경유로 취득되는 상기 (1) 또는 (2)에 기재된 정보 처리 장치.

(6)

상기 콘텐츠는, 제1 장치에 의해 재생되고,

상기 음성 응답 시간 정보는, 제2 장치에 의해 방송 경유로 배신되고,

상기 제2 장치에서는, 상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터가 배신되고,

상기 제1 장치에서는, 방송 경유로 배신된 상기 메타데이터로부터, 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,

상기 제어부는, 상기 제1 장치에 의해 추출된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 상기 (5)에 기재된 정보 처리 장치.

(7)

상기 제어부는, 상기 시청자의 발화에 기초하여, 상기 음성 응답의 타이밍을 제어하는 상기 (1) 내지 (6) 중 어느 것에 기재된 정보 처리 장치.

(8)

상기 제어부는, 상기 음성 응답의 타이밍이 될 때까지 대기할 때, 당해 대기 중인 것을 나타내는 정보가 제시되도록 하는 상기 (7)에 기재된 정보 처리 장치.

(9)

상기 제어부는, 상기 시청자에 의해 상기 음성 응답의 개시 지시가 이루어진 경우, 대기 중인 상기 음성 응답을 개시하도록 하는 상기 (7)에 기재된 정보 처리 장치.

(10)

상기 제어부는, 상기 음성 응답의 타이밍이 될 때까지 대기하는 경우, 대기 중인 것을 나타내는 제1 메시지를, 상기 콘텐츠를 재생 중인 제1 장치에 통지하고,

상기 제1 장치에서는, 통지된 상기 제1 메시지에 기초하여, 대기 중인 것을 나타내는 아이콘을 표시하도록 하고,

상기 제어부는, 상기 시청자에 의해 상기 음성 응답의 개시 지시가 이루어진 경우, 대기 중인 상기 음성 응답의 대기가 해제된 것을 나타내는 제2 메시지를, 상기 제1 장치에 통지하고,

상기 제1 장치에서는, 통지된 상기 제2 메시지에 기초하여, 대기 중인 것을 나타내는 아이콘의 표시를 지우도록 하는 상기 (9)에 기재된 정보 처리 장치.

(11)

상기 음성 응답 시간 정보는, 상기 음성 응답에 적합한 시간으로서, 재생 중인 상기 콘텐츠의 발화 음성의 출력이 없는 시간을 포함하는 상기 (2)에 기재된 정보 처리 장치.

(12)

상기 콘텐츠는, 방송 경유로 배신되는 방송 콘텐츠이며,

상기 음성 응답은, 상기 방송 콘텐츠를 시청하는 시청자의 발화에 대한 응답인 상기 (1) 내지 (11) 중 어느 것에 기재된 정보 처리 장치.

(13)

상기 음성 응답 시간 정보는, HTTP 리스폰스를 이용하여, 상기 음성 응답의 음성 데이터와 함께, 통신 경유로 배신되는 상기 (3) 또는 (4)에 기재된 정보 처리 장치.

(14)

상기 콘텐츠는, MPEG-DASH에 준거한 스트림으로서, 방송 경유로 배신되고,

상기 음성 응답 시간 정보는, MPD를 이용하여, 방송 경유로 배신되는 상기 (5) 또는 (6)에 기재된 정보 처리 장치.

(15)

상기 음성 AI 어시스턴스 서비스의 유저 인터페이스로서 기능하는 음성 처리 장치로서 구성되는 상기 (1) 내지 (14) 중 어느 것에 기재된 정보 처리 장치.

(16)

방송 경유로 배신되는 상기 콘텐츠를 수신하여 재생하는 수신 장치로서 구성되는 상기 (1) 내지 (14) 중 어느 것에 기재된 정보 처리 장치.

(17)

정보 처리 장치의 정보 처리 방법에 있어서,

상기 정보 처리 장치가,

콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 정보 처리 방법.

(18)

콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터를 생성하는 생성부와,

생성한 상기 메타데이터를 송신하는 송신부를 구비하는 송신 장치.

(19)

상기 생성부는, 상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를, 상기 음성 AI 어시스턴스 서비스에 사용되는 것을 식별하기 위한 식별 정보에 의해 식별 가능하게 표현된 MPD를 생성하고,

상기 송신부는, 상기 MPD와 함께, 상기 콘텐츠를, MPEG-DASH에 준거한 스트림으로서, 방송 경유로 배신하는 상기 (18)에 기재된 송신 장치.

(20)

송신 장치의 송신 방법에 있어서,

상기 송신 장치가,

콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터를 생성하고,

생성한 상기 메타데이터를 송신하는 송신 방법.

1: 콘텐츠·음성 AI 연계 시스템
10: 방송 배신 시스템
20: 수신 장치
30: 음성 유저 인터페이스 장치
40: 음성 어시스턴스 서버
50: 처리 서버
60: 인터넷
70: 네트워크
101: 프로그램 콘텐츠 처리부
102: 방송 부수 애플리케이션 생성부
103: 멀티플렉서
104: 송출부
105: 메타데이터 생성부
201: 튜너
202: 디멀티플렉서
203: AV 디코더
204: 방송 부수 애플리케이션 실행부
205: 렌더러
206: 디스플레이
207: 스피커
208: 미디어 타임 관리부
209: 통신부
210: 통신부
211: 음성 응답 타이밍 메타데이터 관리부
212: 기록부
213: 음성 응답 대기 통지부
301: 마이크로폰
302: 스피커
303: 통신부
304: 음성 응답 출력 제어부
305: 타이머
306: 버퍼
307: 세팅 관리부
308: 음성 해석부
309: 통신부
401: 통신부
402: 통신부
403: 음성 해석부
404: 메시지 생성부
404-1: 음성 생성부
404-2: 메타데이터 머지부
501: 통신부
502: 처리부
503: 기록부
1000: 컴퓨터
1001: CPU

Claims

콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 제어부를 구비하는 정보 처리 장치로서,
상기 콘텐츠는 제1 장치에 의해 재생되고,
상기 음성 응답 시간 정보는 통신 경유로 제2 장치로부터 취득되고,
상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터로부터, 상기 제1 장치에 의해 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,
상기 제어부는 통신 경유로 취득된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 정보 처리 장치.
삭제
삭제
삭제
제1항에 있어서,
상기 음성 응답 시간 정보는, 방송 경유로 취득되는 정보 처리 장치.
제5항에 있어서,
상기 콘텐츠는, 제1 장치에 의해 재생되고,
상기 음성 응답 시간 정보는, 제2 장치에 의해 방송 경유로 배신되고,
상기 제2 장치에서는, 상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터가 배신되고,
상기 제1 장치에서는, 방송 경유로 배신된 상기 메타데이터로부터, 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,
상기 제어부는, 상기 제1 장치에 의해 추출된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 정보 처리 장치.
제1항에 있어서,
상기 제어부는, 상기 시청자의 발화에 기초하여, 상기 음성 응답의 타이밍을 제어하는 정보 처리 장치.
제7항에 있어서,
상기 제어부는, 상기 음성 응답의 타이밍이 될 때까지 대기할 때, 당해 대기 중인 것을 나타내는 정보가 제시되도록 하는 정보 처리 장치.
제8항에 있어서,
상기 제어부는, 상기 시청자에 의해 상기 음성 응답의 개시 지시가 이루어진 경우, 대기 중인 상기 음성 응답을 개시하도록 하는 정보 처리 장치.
제9항에 있어서,
상기 제어부는, 상기 음성 응답의 타이밍이 될 때까지 대기하는 경우, 대기 중인 것을 나타내는 제1 메시지를, 상기 콘텐츠를 재생 중인 제1 장치에 통지하고,
상기 제1 장치에서는, 통지된 상기 제1 메시지에 기초하여, 대기 중인 것을 나타내는 아이콘을 표시하도록 하고,
상기 제어부는, 상기 시청자에 의해 상기 음성 응답의 개시 지시가 이루어진 경우, 대기 중인 상기 음성 응답의 대기가 해제된 것을 나타내는 제2 메시지를, 상기 제1 장치에 통지하고,
상기 제1 장치에서는, 통지된 상기 제2 메시지에 기초하여, 대기 중인 것을 나타내는 아이콘의 표시를 지우도록 하는 정보 처리 장치.
제1항에 있어서,
상기 음성 응답 시간 정보는, 상기 음성 응답에 적합한 시간으로서, 재생 중인 상기 콘텐츠의 발화 음성의 출력이 없는 시간을 포함하는 정보 처리 장치.
제1항에 있어서,
상기 콘텐츠는, 방송 경유로 배신되는 방송 콘텐츠이며,
상기 음성 응답은, 상기 방송 콘텐츠를 시청하는 시청자의 발화에 대한 응답인 정보 처리 장치.
제1항에 있어서,
상기 음성 응답 시간 정보는, HTTP 리스폰스를 이용하여, 상기 음성 응답의 음성 데이터와 함께, 통신 경유로 배신되는 정보 처리 장치.
제6항에 있어서,
상기 콘텐츠는, MPEG-DASH에 준거한 스트림으로서, 방송 경유로 배신되고,
상기 음성 응답 시간 정보는, MPD를 이용하여, 방송 경유로 배신되는 정보 처리 장치.
제1항에 있어서,
상기 음성 AI 어시스턴스 서비스의 유저 인터페이스로서 기능하는 음성 처리 장치로서 구성되는 정보 처리 장치.
제1항에 있어서,
방송 경유로 배신되는 상기 콘텐츠를 수신하여 재생하는 수신 장치로서 구성되는 정보 처리 장치.
정보 처리 장치의 정보 처리 방법에 있어서,
상기 정보 처리 장치가,
콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하고,
상기 콘텐츠는 제1 장치에 의해 재생되고,
상기 음성 응답 시간 정보는 통신 경유로 제2 장치로부터 취득되고,
상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터로부터, 상기 제1 장치에 의해 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,
상기 정보 처리 장치는 통신 경유로 취득된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍을 제어하는 정보 처리 방법.
콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터를 생성하는 생성부와,
생성한 상기 메타데이터를 송신하는 송신부를 구비하고,
상기 콘텐츠는 제1 장치에 의해 재생되고,
상기 음성 응답 시간 정보는 통신 경유로 제2 장치로부터 취득되고,
상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터로부터, 상기 제1 장치에 의해 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,
통신 경유로 취득된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍이 제어되는 송신 장치.
제18항에 있어서,
상기 생성부는, 상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를, 상기 음성 AI 어시스턴스 서비스에 사용되는 것을 식별하기 위한 식별 정보에 의해 식별 가능하게 표현된 MPD를 생성하고,
상기 송신부는, 상기 MPD와 함께, 상기 콘텐츠를, MPEG-DASH에 준거한 스트림으로서, 방송 경유로 배신하는 송신 장치.
송신 장치의 송신 방법에 있어서,
상기 송신 장치가,
콘텐츠에 연계한 음성 AI 어시스턴스 서비스를 이용할 때, 상기 콘텐츠를 시청하는 시청자의 발화에 대한 음성 응답에 적합한 시간을 나타내는 음성 응답 시간 정보를 포함하는 메타데이터를 생성하고,
생성한 상기 메타데이터를 송신하고,
상기 콘텐츠는 제1 장치에 의해 재생되고,
상기 음성 응답 시간 정보는 통신 경유로 제2 장치로부터 취득되고,
상기 콘텐츠의 재생 시간축 상의 전부 또는 일부의 시간을 대상으로 한 상기 음성 응답 시간 정보를 포함하는 메타데이터로부터, 상기 제1 장치에 의해 재생 중인 상기 콘텐츠에 대한 상기 음성 응답에 적합한 시간을 나타내는 상기 음성 응답 시간 정보가 추출되고,
통신 경유로 취득된 상기 음성 응답 시간 정보에 기초하여, 상기 음성 응답의 타이밍이 제어되는 송신 방법.