KR102607192B1

KR102607192B1 - 정보 처리 장치, 및 정보 처리 방법

Info

Publication number: KR102607192B1
Application number: KR1020207006277A
Authority: KR
Inventors: 야스아키 야마기시
Original assignee: 소니그룹주식회사
Priority date: 2017-09-15
Filing date: 2018-08-31
Publication date: 2023-11-29
Also published as: EP3683792B1; JPWO2019054199A1; US11600270B2; AU2018333668A1; AU2018333668B2; EP3683792A4; WO2019054199A1; SG11202001429XA; CA3075249A1; EP3683792A1; MX2020002591A; KR20200053486A; CN111052231A; CN111052231B; JP7227140B2; US20200211549A1

Abstract

본 기술은, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 하는 정보 처리 장치, 및 정보 처리 방법에 관한 것이다. 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을, 콘텐츠의 오디오 스트림에 삽입하는 삽입부를 구비하는 제1 정보 처리 장치와, 콘텐츠의 오디오 스트림으로부터, 삽입된 토큰을 검출하는 검출부를 구비하는 제2 정보 처리 장치가 제공됨으로써, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있다. 본 기술은, 예를 들어 음성 AI 어시스턴스 서비스와 연계한 시스템에 적용할 수 있다.

Description

정보 처리 장치, 및 정보 처리 방법

본 기술은, 정보 처리 장치, 및 정보 처리 방법에 관한 것이며, 특히 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 한 정보 처리 장치, 및 정보 처리 방법에 관한 것이다.

근년, 음성 AI 어시스턴스 서비스가 급속하게 보급되고 있다. 예를 들어, 음성 AI 어시스턴스 서비스를 이용함으로써, 엔드 유저가, 「여기 어디입니까?」라고 질문하였을 때, 엔드 유저의 현재 위치에 기초하여, 「센트럴 공원에 있습니다. 」라는 회답이 온다(예를 들어, 특허문헌 1 참조).

일본 특허 공개 제2016-4270호 공보

그런데, 텔레비전 수상기나 모바일 수신기 등의 수신기로 재생되는 콘텐츠에 연계하여, 음성 AI 어시스턴스 서비스를 이용하고 싶다는 요구가 있다. 그러나, 그와 같은 기술 방식은 확립되어 있지 않고, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시키기 위한 기술이 요구되고 있다.

본 기술은 이와 같은 상황을 감안하여 이루어진 것이며, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 하는 것이다.

본 기술의 제1 측면의 정보 처리 장치는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을, 상기 콘텐츠의 오디오 스트림에 삽입하는 삽입부를 구비하는 정보 처리 장치이다.

본 기술의 제1 측면의 정보 처리 장치는, 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다. 또한, 본 기술의 제1 측면의 정보 처리 방법은, 상술한 본 기술의 제1 측면의 정보 처리 장치에 대응하는 정보 처리 방법이다.

본 기술의 제1 측면의 본 기술의 일 측면의 정보 처리 장치, 및 정보 처리 방법에 있어서는, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰이, 상기 콘텐츠의 오디오 스트림에 삽입된다.

본 기술의 제2 측면의 정보 처리 장치는, 콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을 검출하는 검출부를 구비하는 정보 처리 장치이다.

본 기술의 제2 측면의 정보 처리 장치는, 독립된 장치여도 되고, 하나의 장치를 구성하고 있는 내부 블록이어도 된다. 또한, 본 기술의 제2 측면의 정보 처리 방법은, 상술한 본 기술의 제2 측면의 정보 처리 장치에 대응하는 정보 처리 방법이다.

본 기술의 제2 측면의 본 기술의 일 측면의 정보 처리 장치, 및 정보 처리 방법에 있어서는, 콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰이 검출된다.

본 기술의 제1 측면 및 제2 측면에 의하면, 콘텐츠에 연계하여 이용되는 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있다.

또한, 여기에 기재된 효과는 반드시 한정되는 것은 아니고, 본 개시 중에 기재된 어느 효과여도 된다.

도 1은 본 기술을 적용한 콘텐츠·음성 AI 연계 시스템의 구성예를 도시하는 블록도이다.
도 2는 기저 대역 스트림에, 오디오 워터마크로서 매립되는 음성 인식 처리 금지 토큰의 예를 도시하는 도면이다.
도 3은 제1 실시 형태의 콘텐츠·음성 AI 연계 시스템의 구성의 제1 예를 도시하는 블록도이다.
도 4는 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명하는 흐름도이다.
도 5는 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명하는 흐름도이다.
도 6은 시청자 발화에 따른 음성 AI 처리의 흐름을 설명하는 흐름도이다.
도 7은 음성 AI 어시스턴스 서비스의 이용의 확인 메시지의 예를 도시하는 도면이다.
도 8은 제1 실시 형태의 콘텐츠·음성 AI 연계 시스템의 구성의 제2 예를 도시하는 블록도이다.
도 9는 워터마크의 삽입을 수신측에서 행하는 경우의 CM/프로그램·음성 AI 연계의 흐름을 설명하는 흐름도이다.
도 10은 워터마크의 삽입을 수신측에서 행하는 경우의 CM/프로그램·음성 AI 연계의 흐름을 설명하는 흐름도이다.
도 11은 기저 대역의 오디오 스트림에, 오디오 워터마크로서 매립되는 서비스 인도 파라미터의 예를 도시하는 도면이다.
도 12는 Message 요소에 저장되는 메시지의 예를 도시하는 도면이다.
도 13은 Message 요소에 저장되는 메시지에 대해, XML 서명을 적용한 경우의 예를 도시하는 도면이다.
도 14는 제2 실시 형태의 콘텐츠·음성 AI 연계 시스템의 구성의 제1 예를 도시하는 블록도이다.
도 15는 웨이크 워드의 발화를 촉구하는 발화 지시 메시지의 예를 도시하는 도면이다.
도 16은 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명하는 흐름도이다.
도 17은 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명하는 흐름도이다.
도 18은 제2 실시 형태의 콘텐츠·음성 AI 연계 시스템의 구성의 제2 예를 도시하는 블록도이다.
도 19는 웨이크 워드의 발화를 촉구하는 발화 지시 메시지의 예를 도시하는 도면이다.
도 20은 워터마크의 삽입을 수신측에서 행하는 경우의 CM/프로그램·음성 AI 연계의 흐름을 설명하는 흐름도이다.
도 21은 워터마크의 삽입을 수신측에서 행하는 경우의 CM/프로그램·음성 AI 연계의 흐름을 설명하는 흐름도이다.
도 22는 워터마크를 삽입하지 않는다고 가정한 경우의 발화 지시 메시지의 예를 도시하는 도면이다.
도 23은 워터마크를 삽입하지 않는다고 가정한 경우의 발화 지시 메시지의 예를 도시하는 도면이다.
도 24는 컴퓨터의 구성예를 도시하는 도면이다.

이하, 도면을 참조하면서 본 기술의 실시 형태에 대하여 설명한다. 또한, 설명은 이하의 순서로 행하는 것으로 한다.

1. 시스템의 구성

2. 본 기술의 실시 형태

(1) 제1 실시 형태: WM에 의한 음성 AI 어시스턴스 인식 대상 선별

(A) 워터마크의 삽입을 송신측에서 행하는 구성

(B) 워터마크의 삽입을 수신측에서 행하는 구성

(2) 제2 실시 형태: WM에 의한 음성 AI 어시스턴스에 대한 발화 보완

(C) 워터마크의 삽입을 송신측에서 행하는 구성

(D) 워터마크의 삽입을 수신측에서 행하는 구성

3. 변형예

4. 컴퓨터의 구성

<1. 시스템의 구성>

근년, 음성 AI 어시스턴스 서비스가 급속하게 보급되고 있다. 이러한 종류의 서비스에서는, 음성 검출이나 수음 기능을 갖는 디바이스(예를 들어, 스마트 스피커 등)나, 마이크 기능을 갖는 모바일 디바이스(예를 들어, 스마트폰이나 태블릿형 컴퓨터 등)에 의해 실행되는 애플리케이션으로 검출 또는 수음한 오디오 데이터에 기초한 음성 인식이 행해진다. 그리고, 이와 같이 하여 얻어지는 음성 인식에 기초하여, 엔드 유저의 질문 등에 회답하거나 하게 된다.

예를 들어, 대표적인 음성 AI 어시스턴스 서비스인, Amazon Echo(등록 상표)에 탑재되어 있는 Alexa(등록 상표)에는, 2개의 프레임 워크가 있고, 하나가, 음성 인식이나 자연 언어 해석 등을 행하는 Alexa Voice Service(AVS)이고, 다른 하나가, 다양한 다른 기능을 스킬(Skill)이라는 형태로, 패키징하여, Alexa Service와 연결시키는 Alexa Skills Kit(ASK)이다.

여기서, Alexa Skills Kit는, 예를 들어 어떠한 음성에 반응할지, 어떤 단어를 파라미터로 하여 어떤 기능을 실행할지, 혹은, 회신되어 온 대답을 어떻게, Alexa에 되돌릴지 등을 정의한 패키지나 API(Application Programming Interface)군이며, 그 중, 실제로 실행되는 부분을, 스킬(Skill)이라 칭한다.

예를 들어, 스마트 스피커 등의 음성 검출이나 수음 기능을 갖는 로컬측의 디바이스를 향하여, 엔드 유저가, 이하와 같은 말을 던진 경우를 상정한다.

「Alexa, ask Anime Facts for a fact」

최초의 「Alexa」인 단어는, 웨이크 워드(Wake Word)라 불리며, 로컬측의 디바이스의 마이크로폰이 이 말을 검출하면, 클라우드측의 서버와 통신을 개시하고, 이후의 말이, 오디오 데이터로서, 클라우드측의 서버에 보내진다. 다음 「ask」인 단어는, 기동 프레이즈(Launch 프레이즈)라 불리며, 이 다음에 오는 단어가, 스킬명인 것을, 클라우드측의 서버에 전달하는 것이다. 이 예에서는, 「Anime Facts」가 스킬명으로 된다.

또한, 기동 프레이즈는, 「ask」 이외에도, 예를 들어 「tell」이나 「launch」, 「load」, 「begin」, 「open」, 「start」 등이 있고, 이들 단어를, 스킬명에 사용할 수는 없다. 이 밖에, 접속사를 사용하여 스킬명을 나타내는 방법도 있다. 예를 들어, 상술한 예에서 말하면, 「Alexa, can you give me a fact from Anime Facts」라고 말을 한 경우도, 「from」인 단어를 인식함으로써, 그 뒤의 「Anime Facts」가, 스킬명이라고 판단할 수 있다.

최후의 「for a fact」는, Utterance라 말해지며, Alexa Skills Kit에 의해, Utterance와 실제로 실행되는 처리나 수속, 함수의 대응 관계가 설정된다. 즉, 여기서, 「for a fact」라 말함으로써, 「for a fact」라는 Utterance가, 어떤 처리나 수속, 함수와 결부되는지를, 클라우드측의 서버가 판단한다.

「ask Anime Facts for a fact」는, 「애니메이션의 토막 지식적인 것을 가르쳐 주면 좋겠다」라는 의미이므로, 「fact」가, 「trivia」 등이라도, 동일한 의미라고 해석하여, 클라우드측의 서버는, 「for a fact」라는 Utterance가 설정되어 있는 곳과 동일한 처리나 계속, 함수를 기동한다. 이 처리의 내용으로서, 예를 들어 애니메이션의 토막 지식 내용을 오디오 데이터로서, 로컬측의 디바이스에 회신하도록 해 둠으로써, 로컬측의 디바이스를 통해, 엔드 유저에게, 그 내용을 음성으로 전할 수 있다.

본 기술은, 이와 같은 음성 AI 어시스턴스 서비스를, CM이나 프로그램 등의 콘텐츠에 연동하여 이용할 때, 음성 AI 어시스턴스 서비스의 편리성을 향상시킬 수 있도록 하는 것이다.

(콘텐츠·음성 AI 연계 시스템의 구성예)

도 1은 본 기술을 적용한 콘텐츠·음성 AI 연계 시스템의 구성예를 도시하는 블록도이다.

도 1의 콘텐츠·음성 AI 연계 시스템(1)은, 콘텐츠를 배신하기 위한 시스템이며, 배신된 콘텐츠와 연계하여 음성 AI 어시스턴스 서비스를 이용하는 것이 가능하다.

도 1에 있어서, 콘텐츠·음성 AI 연계 시스템(1)은, 서버 장치(10), 방송 시스템(11), 넷 배신 시스템(12), 클라이언트 장치(20), 음성 처리 장치(30), 및 서버 장치(40)로 구성된다. 또한, 도 1에 있어서, 시청자 집에 설치되는 클라이언트 장치(20)와 음성 처리 장치(30)는, 인터넷(50)을 통해, 넷 배신 시스템(12)이나, 데이터 센터 등에 설치되는 서버 장치(40)와 접속 가능하며, 각종 데이터를 교환할 수 있다.

서버 장치(10)는, 배신 대상의 콘텐츠를 축적하고 있다. 여기서, 배신 대상의 콘텐츠는, 예를 들어 CM이나 프로그램 등의 콘텐츠이다. 또한, 프로그램에는, 예를 들어 드라마나 뉴스, 쇼핑 채널, 애니메이션, 스포츠 등의 프로그램을 포함한다.

서버 장치(10)는, 배신 대상의 콘텐츠 스트림을 처리하고, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 공급한다.

방송 시스템(11)은, 하나 또는 복수의 방송 서버 등으로 구성된다. 방송 시스템(11)은, 서버 장치(10)로부터 공급되는 콘텐츠에 대하여, 소정의 방송 방식에 따른 처리(예를 들어 변조 처리 등)를 실시하고, 그 결과 얻어지는 데이터를, 방송파로서, 송신소에 마련된 안테나로부터 송출한다.

넷 배신 시스템(12)은, 하나 또는 복수의 통신 서버 등으로 구성된다. 넷 배신 시스템(12)은, 서버 장치(10)로부터 공급되는 콘텐츠에 대하여, 소정의 통신 방식에 따른 처리를 실시하고, 그 결과 얻어지는 데이터(패킷)를, 인터넷(50)을 통해 배신(스트리밍 배신)한다.

클라이언트 장치(20)는, 예를 들어 텔레비전 수상기나 퍼스널 컴퓨터 등의 고정 수신기, 혹은 스마트폰이나 휴대 전화기, 태블릿형 컴퓨터 등의 모바일 수신기로서 구성된다.

클라이언트 장치(20)는, 방송 시스템(11)으로부터 송신되어 오는 방송파를 수신하여 처리함으로써, 콘텐츠를 재생하고, CM이나 프로그램 등의 영상과 음성을 출력한다. 또한, 클라이언트 장치(20)는, 인터넷(50)을 통해 넷 배신 시스템(12)으로부터 배신되는 데이터를 수신하여 처리함으로써, 콘텐츠를 재생하고, CM이나 프로그램 등의 영상과 음성을 출력한다.

음성 처리 장치(30)는, 예를 들어 가정 내 LAN(Local Area Network) 등의 네트워크에 접속 가능한 스피커이며, 스마트 스피커나 홈 에이전트 등이라고도 칭해진다. 이러한 종류의 스피커는, 음악의 재생 외에, 예를 들어 음성 AI 어시스턴스 서비스의 유저 인터페이스로서 기능하거나, 혹은, 조명 기구나 공조 설비 등의 기기에 대한 음성 조작을 행하거나 할 수 있다.

음성 처리 장치(30)는, 단독으로, 또는 클라우드측의 서버 장치(40)와 연계함으로써, 엔드 유저(콘텐츠의 시청자)에 대해, 음성 AI 어시스턴스 서비스를 제공할 수 있다.

여기서, 음성 AI 어시스턴스 서비스란, 예를 들어 음성 인식 처리나 자연 언어 해석 처리 등의 처리를 조합하여, 엔드 유저의 질문이나 요구에 대해, 적절하게 회답하거나, 동작하거나 하는 기능이나 서비스를 말한다.

이 음성 AI 어시스턴스 서비스를 제공하기 위한 기능으로서는, 예를 들어 수음 모듈이나 음성 인식 모듈 등이 있지만, 그것들의 기능 모두가, 로컬측의 음성 처리 장치(30)에 실장되도록 해도 되고, 그것들의 기능의 일부가, 클라우드측의 서버 장치(40)에 실장되도록 해도 된다.

서버 장치(40)는, 데이터 센터 등에 설치되며, 음성 AI 어시스턴스 서비스를 제공하기 위한 기능이나, 각종 데이터베이스 등을 갖고 있다. 서버 장치(40)는, 음성 처리 장치(30)로부터의 요구에 따라서, 음성 AI 어시스턴스 서비스에 관한 처리를 행하고, 그 처리 결과를, 인터넷(50)을 통해, 음성 처리 장치(30)에 회답한다.

콘텐츠·음성 AI 연계 시스템(1)은, 이상과 같이 구성된다.

또한, 도 1의 콘텐츠·음성 AI 연계 시스템(1)에 있어서는, 시청자 집에서, 1대의 클라이언트 장치(20)(예를 들어 텔레비전 수상기)와, 1대의 음성 처리 장치(30)(예를 들어, 스마트 스피커)가 설치되는 경우를 도시하고 있지만, 예를 들어 시청자 집마다, 클라이언트 장치(20)와 음성 처리 장치(30)를 각각 설치할 수 있다. 또한, 시청자 집에 있어서, 클라이언트 장치(20)와 음성 처리 장치(30)는, 동일한 방에 설치되는 것이 상정되지만, 다른 방에 설치해도 된다.

또한, 도 1의 콘텐츠·음성 AI 연계 시스템(1)에 있어서는, 1대의 서버 장치(10)와, 1대의 서버 장치(40)가 마련된 경우를 도시하고 있지만, 이들 서버 장치는, 예를 들어 기능이나 사업자마다, 복수대 설치하도록 해도 된다.

또한, 이하의 설명에서는, 송신측(방송국측)에 마련되는 서버 장치(10)에 대해, 클라이언트 장치(20)는, 수신측(시청자측)에 마련되는 것으로서 설명한다. 또한, 클라우드측에 마련되는 서버 장치(40)에 대해, 음성 처리 장치(30)는, 로컬측에 마련되는 것으로서 설명한다.

<2. 본 기술의 실시 형태>

(1) 제1 실시 형태

예를 들어, 텔레비전 수상기 등의 클라이언트 장치(20)에서 재생되는, XYZ인 햄버거 체인점의 CM 등에서, 그 CM의 내용, 예를 들어 "XYZ 버거"의 CM을 보완하는 「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」인 음성 메시지를, CM의 음성 중에서, 고의로 흘려, 음성 AI 어시스턴스 서비스에, 이 질문에 강제적으로 회답시킨다는 사용 방법을 하는 경우를 상정한다.

또한, 여기에서는, CM의 음성에 한하지 않고, 예를 들어 CM에 관련지어져서 방송 제공되는 애플리케이션 등에 의해 행해지는 경우도 포함된다. 또한, 여기서의 「고의」란, 시청자의 동의가 없음을 의미한다.

이와 같은 사용 방법으로서는, 예를 들어 다음과 같은 의도(사고적인 것도 포함함)가 상정된다.

즉, 첫번째, CM의 내용으로는 다 전달할 수 없는 정보를, 음성 AI 어시스턴스 서비스 경유로 전달하기 위해서거나, 두번째, 시청자에 대해, 그 시청자가 나중에 그 CM으로 흘려진 상품의 내용을, 음성 AI 어시스턴스 서비스 경유로 알고 싶을 때, 음성 AI 어시스턴스 서비스에 대하여 어떻게 발화(질문)하면 되는지를 알리기 위해서이다. 또한, 전자의 CM의 내용은, 어떠한 어소리티나 검열 기관 등에 의해, 인가된 내용으로 된다.

또한, 세번째, 음성 AI 어시스턴스 서비스측에서 관리하고 있을지도 모르는 시청자의 프로파일 정보(기호 정보)에, 이 CM의 내용에 관심이 있다고 기억시키기 위해서이거나, 네번째, 악의가 있는 방송 프로그램이나 애플리케이션이, 그 방송의 동기형 일제 동보 배신 특성을 이용한 음성 AI 어시스턴스 서비스에 대한 DoS 공격(Denial of Service attack) 때문이거나 하는 등, 다양한 의도가 상정된다.

단, 이 CM의 음성과, 음성 AI 어시스턴스 서비스의 교환은, 시청자의 합의없이 행해지기 때문에, 시청자에게 있어서는 그렇게까지 상세하게 알고 싶지도 않은 정보를, 음성 AI 어시스턴스 서비스가 해설하는 것은, 쓸데없는 참견이 될 가능성이 있다(가능성이 높다). 또한, 제멋대로 시청자의 프로파일 정보에, 이 CM의 내용에 관심이 있다고 기억되는 것도, 시청자에게 있어서는 폐가 될 가능성이 있다(가능성이 높다).

이와 같은 시청자 부재의 음성 AI 어시스턴스 서비스 연계(말하자면, 무임 승차)가 빈번하게 행해지는 것을 방지하기 위해, 음성 AI 어시스턴스 서비스측으로서는, 엔드 유저가 발화한 질문의 내용에만 반응하도록 제한하고 싶은 경우가 있다.

이와 같은 경우의 대처 방법으로서는, 예를 들어, 엔드 유저의 음성 모델을 사전에 등록하여 회화의 발화 유저를 특정한다(인식 대상 음성 유저의 질문을 특정한다)는 방법이 있지만, 그러한 발화자 특정 기능이 없는 음성 AI 어시스턴스 서비스에서는, CM의 음성을 인식해도, 그 질문에 반응하지 않도록 하기 위해, 반응해서는 안되는 질문의 리스트를, 블랙 리스트(예를 들어 텍스트 문자열의 리스트)로서 관리하는 방법을 취하는 것이 생각된다.

예를 들어, 상술한 예에서 말하면, 「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」인 질문이 검출되어도, 대응 처리를 하지 않도록 하기 위해, 당해 질문을 포함하는 블랙 리스트를 관리하게 된다.

단, 이 방법이면, 관리 대상의 블랙 리스트가 방대해질 가능성이 있고, 그 블랙 리스트를, 어떤 기간 내 또는 미래영겁에 걸쳐 보유하고, 모든 질문에 대하여 바로 매칭 평가(예를 들어, 리얼타임의 데이터베이스 검색 등)하지 않으면 안되어, 현실적이지 않다. 또한, 여기에서의 블랙 리스트의 보유 기간은, 예를 들어 엔드 유저로부터 질문이 던져질 가능성이 있는 기간을 의미한다.

마찬가지로, 반응해도 상관없는 질문의 리스트를, 화이트 리스트(예를 들어 텍스트 문자열의 리스트)로서 관리한다는 방법을 취하는 것도 상정되지만, 이 경우에도, 화이트 리스트가 방대해질 가능성이 있어, 비현실적이다.

또한, 상술한 회화의 발화 유저를 특정하는 방법은, 예를 들어 음성 AI 어시스턴스 서비스의 다른 대표예인 Google Home(등록 상표)으로 실장되어 있다.

본 기술에서는, 제1 실시 형태로서, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리를 금지 또는 허가하기 위한 토큰을, 오디오 워터마크로서, 콘텐츠의 오디오 스트림에 삽입하는 것을 제안한다.

즉, 제1 실시 형태에서는, 음성 AI 어시스턴스 서비스의 수음 디바이스로서, 로컬측에 마련되는 음성 처리 장치(30), 또는 수음된 오디오 스트림을 해석하는 클라우드측에 마련되는 서버 장치(40)에, 워터마크 검출 기능을 실장한다.

이에 의해, 어떤 토큰(음성 인식 처리 금지 토큰)이, 오디오 워터마크로서, 수음된 음성에 포함되는 경우에는, 그 오디오 스트림의 음성 인식 결과에 기초한 후속의 처리를 계속할 수 없는 것으로 간주하도록 한다.

또한, 오디오 워터마크에는, 다양한 방식이 있지만, 필요 충분한 토큰을 대상의 오디오 스트림에 중첩할 수 있는 것이면, 방식을 불문한다.

(음성 인식 처리 금지 토큰의 예)

도 2는 기저 대역의 오디오 스트림에, 오디오 워터마크로서 매립되는 음성 인식 처리 금지 토큰의 예를 도시하는 도면이다.

예를 들어, 어떤 CM이나 프로그램(또는 그 일부)의 오디오 스트림 중에, 음성 AI 어시스턴스 서비스의 음성 인식 처리를 행한 후에 정당한 음성 인식 결과로서 후속의 처리에 전달되어서는 안되는 음성이 포함되어 있는 경우를 상정한다.

이 경우에, 송신측(방송국측)의 서버 장치(10)에서는, 모든 오디오 스트림을 디코드하여, 기저 대역의 오디오 스트림으로 하고, 오디오 WM 삽입 모듈에 의해, 토큰 제너레이터에 의해 생성된 토큰(음성 인식 처리 금지 토큰)을, 오디오 워터마크로서, 그 기저 대역의 오디오 스트림에 삽입한다.

또한, 오디오 워터마크로서 삽입되는 음성 인식 처리 금지 토큰은, 송신측의 서버 장치(10)에 한하지 않고, 수신측의 클라이언트 장치(20)에서 삽입하는 것도 가능해지기 때문에, 이하, 오디오 워터마크의 삽입을, 송신측에서 행하는 구성과, 수신측에서 행하는 구성에 대하여 각각 설명한다.

(A) 워터마크의 삽입을 송신측에서 행하는 구성

(시스템 구성예)

도 3은 제1 실시 형태의 콘텐츠·음성 AI 연계 시스템(1)의 구성의 제1 예를 도시하는 블록도이다.

도 3의 콘텐츠·음성 AI 연계 시스템(1)은, 서버 장치(10A), 클라이언트 장치(20A), 및 음성 처리 장치(30A)를 포함하여 구성된다.

또한, 이하의 설명에서는, CM이나 프로그램 등의 콘텐츠를 구성하는 컴포넌트 중, 오디오 스트림에 대한 처리를 중심으로 설명하지만, 서버 장치(10A)나 클라이언트 장치(20A) 등에서는, 비디오 스트림에 대한 처리도 행해지고 있다.

도 3에 있어서, 서버 장치(10A)는, CM/프로그램 뱅크(101), 오디오 디코더(102), 토큰 제너레이터(103), 오디오 WM 삽입 모듈(104), 및 오디오 인코더(105)를 포함하여 구성된다.

CM/프로그램 뱅크(101)는, CM이나 프로그램 등의 다수의 콘텐츠를 축적하고 있다. CM/프로그램 뱅크(101)는, 배신 대상의 CM 또는 프로그램의 스트림(이하, CM/프로그램 스트림이라 기술함) 중, CM 또는 프로그램의 오디오 스트림(이하, CM/프로그램 오디오 스트림이라 기술함)을, 오디오 디코더(102)에 공급한다.

또한, 이 CM/프로그램 오디오 스트림으로부터 얻어지는 음성에는, 음성 인식 처리가 금지되어야 할 음성이 포함되어 있을 가능성이 있는 것으로 하자.

오디오 디코더(102)는, CM/프로그램 뱅크(101)로부터 공급되는 CM/프로그램 오디오 스트림을 디코드하고, 그 디코드의 결과 얻어지는 기저 대역의 CM/프로그램 오디오 스트림을, 오디오 WM 삽입 모듈(104)에 공급한다.

토큰 제너레이터(103)는, 토큰 생성용 데이터에 기초하여, 음성 인식 처리 금지 토큰을 생성하고, 오디오 WM 삽입 모듈(104)에 공급한다. 또한, 음성 인식 처리 금지 토큰은, 음성 처리 장치(30A)의 오디오 WM 검출 모듈(302)에 대하여 통지된다.

여기서, 토큰 생성용 데이터는, 예를 들어 XYZ인 햄버거 체인점의 CM 중에서, 특정 음성이 흘러도, 그 질문에 반응하지 않도록 하기 위한 토큰 등을 생성하기 위한 데이터이며, 예를 들어 방송국이나 음성 AI 어시스턴스 서비스의 엔티티, 그 밖의 사업자의 결정에 따른 것 등으로 된다.

또한, 음성 인식 처리 금지 토큰의 통지 방법이지만, 인터넷(50)을 통해, 통신 경유로 통지하는 것 외에, 예를 들어 방송 경유로 통지하거나, 혹은, 반도체 메모리나 광 디스크 등의 기록 매체에 음성 인식 처리 금지 토큰을 기록하여 제공함으로써, 음성 처리 장치(30A)에 읽어들이게 하거나 하는 등, 다양한 방법을 채용할 수 있다.

요는, 토큰 제너레이터(103)에 의해 생성된 음성 인식 처리 금지 토큰이, 음성 처리 장치(30A)의 오디오 WM 검출 모듈(302)에 대하여 통지되면 되는 것이며, 그 통지의 방법은, 임의이다.

오디오 WM 삽입 모듈(104)은, 오디오 디코더(102)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 토큰 제너레이터(103)로부터 공급되는 음성 인식 처리 금지 토큰을, 오디오 워터마크로서 삽입(인코드)하고, 오디오 인코더(105)에 공급한다.

오디오 인코더(105)는, 오디오 WM 삽입 모듈(104)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)을 인코드한다.

그리고, 서버 장치(10A)는, 오디오 인코더(105)에 의한 인코드의 결과 얻어지는 CM/프로그램 오디오 스트림을, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

방송 시스템(11)은, 서버 장치(10A)로부터 송출된 CM/프로그램 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)을 처리하고, 그 처리의 결과 얻어지는 데이터를, 방송파로서 송출한다.

넷 배신 시스템(12)은, 서버 장치(10A)로부터 송출된 CM/프로그램 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)을 처리하고, 그 처리의 결과 얻어지는 데이터(패킷)를 인터넷(50)을 통해 배신한다.

클라이언트 장치(20A)는, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림을 수신한다. 도 3에 있어서, 클라이언트 장치(20A)는, 오디오 디코더(201) 및 오디오 스피커(202)를 포함하여 구성된다.

오디오 디코더(201)는, 방송 시스템(11) 또는 넷 배신 시스템(12)으로부터 수신한 CM/프로그램 오디오 스트림을 디코드하고, 그 결과 얻어지는 기저 대역의 CM/프로그램 오디오 스트림을, 오디오 스피커(202)에 공급한다.

오디오 스피커(202)는, 오디오 디코더(201)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림에 따른 음성을 출력한다.

또한, 여기에서는, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 클라이언트 장치(20A)에서는, CM/프로그램 비디오 스트림에 대해서도, 비디오 디코더에 의해 디코드되어, 기저 대역의 CM/프로그램 비디오 스트림에 따른 CM이나 프로그램의 영상이, 디스플레이에 표시된다.

도 3에 있어서, 음성 처리 장치(30A)는, 음성 AI 어시스턴스 서비스의 기능으로서, 수음 모듈(301), 오디오 WM 검출 모듈(302), 음성 인식 모듈(303)을 포함하고 있다. 또한, 수음 모듈(301)은, 오디오 마이크(311)를 포함하고 있다.

즉, 음성 처리 장치(30A)에 있어서, 수음 모듈(301)의 오디오 마이크(311)와, 오디오 WM 검출 모듈(302)과, 음성 인식 모듈(303)이, 클라이언트 장치(20A)로부터의 음성 입력 또는 시청자(2)로부터의 음성 입력에 따른 계열을 구성하고 있다.

또한, 상술한 바와 같이, 오디오 WM 검출 모듈(302)은, 서버 장치(10A)(의 토큰 제너레이터(103))로부터 통지되는 음성 인식 처리 금지 토큰을, 미리 보유하고 있다.

오디오 마이크(311)는, 클라이언트 장치(20A)의 오디오 스피커(202)로부터 출력된 음성을 수음하고, 그 결과 얻어지는 오디오 스트림을, 오디오 WM 검출 모듈(302) 및 음성 인식 모듈(303)에 공급한다.

오디오 WM 검출 모듈(302)은, 오디오 마이크(311)로부터 공급되는 오디오 스트림에 삽입되어 있는 오디오 워터마크의 검출을 행하고, 오디오 워터마크로서, 서버 장치(10A)로부터 통지된 음성 인식 처리 금지 토큰이 삽입되어 있는지 여부를 판정한다.

음성 인식 모듈(303)은, 오디오 마이크(311)로부터 공급되는 오디오 스트림에 대한 음성 인식 처리를 행한다.

음성 인식 모듈(303)은, 오디오 WM 검출 모듈(302)에 의해, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있지 않는 것으로 판정된 경우, 음성 인식 결과를, 후속의 처리를 행하는 후속 처리부에 공급한다. 이 경우, 후속 처리부는, 음성 인식 모듈(303)로부터 공급되는 음성 인식 결과에 기초하여, 음성 AI 어시스턴스 서비스에 관한 후속의 처리를 행한다.

또한, 음성 인식 모듈(303)은, 오디오 WM 검출 모듈(302)에 의해, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있는 것으로 판정된 경우, 음성 인식 결과를, 후속 처리부에는 전달하지 않도록 한다.

또한, 오디오 마이크(311)는, 시청자(2)의 발화의 음성을 수음하고, 그 결과 얻어지는 오디오 스트림을, 오디오 WM 검출 모듈(302) 및 음성 인식 모듈(303)에 공급한다.

여기서, 시청자(2)의 발화의 음성에 따른 오디오 스트림에는, 오디오 워터마크가 삽입되는 일은 없으므로, 오디오 WM 검출 모듈(302)은, 항상, 음성 인식 처리 금지 토큰이 삽입되어 있지 않는 것으로 판정한다.

음성 인식 모듈(303)은, 오디오 WM 검출 모듈(302)에 의해, 항상, 음성 인식 처리 금지 토큰이 삽입되어 있지 않는 것으로 판정되기 때문에, 음성 인식 결과를, 후속의 처리를 행하는 후속 처리부에 공급한다. 그 때문에, 항상, 후속 처리부는, 음성 인식 모듈(303)로부터 공급되는 음성 인식 결과에 기초하여, 음성 AI 어시스턴스 서비스에 관한 후속의 처리를 행하게 된다.

또한, 도 3에 있어서는, 설명의 사정상, 로컬측의 음성 처리 장치(30A)가, 음성 AI 어시스턴스 서비스의 모든 처리를 행하는 것으로 하였지만, 음성 AI 어시스턴스 서비스의 일부의 처리를, 클라우드측의 서버 장치(40)가 행하도록 해도 된다.

예를 들어, 로컬측의 음성 처리 장치(30A)가, 수음 모듈(301)의 기능을 갖고, 클라우드측의 서버 장치(40)가, 오디오 WM 검출 모듈(302)과, 음성 인식 모듈(303)과, 후속 처리부의 기능을 갖는 경우에는, 음성 처리 장치(30A)와 서버 장치(40)가 연계함으로써, 음성 AI 어시스턴스 서비스가 실현되게 된다.

또한, 음성 인식 처리 금지 토큰은, 예를 들어 XYZ인 햄버거 체인점의 CM 중에서, 특정 음성이 흘러도, 그 질문에 반응하지 않도록 하기 위한 토큰 등, 기본적으로는 1종류로 충분하지만, 필요에 따라서 수종에 한정하여 운용하도록 해도 된다.

(콘텐츠·음성 AI 연계 처리의 흐름)

다음에, 도 4 내지 도 5의 흐름도를 참조하여, 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명한다.

여기서, 도 4는 서버 장치(10A)와, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 실행되는 송신측의 처리의 흐름을 설명하는 흐름도이다. 한편, 도 5는 클라이언트 장치(20A)와 음성 처리 장치(30A)에 의해 실행되는 수신측의 처리의 흐름을 설명하는 흐름도이다.

스텝 S101에 있어서, CM/프로그램 뱅크(101)는, 거기에 축적되어 있는 CM/프로그램의 스트림을 송출한다. 여기에서는, CM/프로그램 오디오 스트림이, 오디오 디코더(102)에 송출된다.

스텝 S102에 있어서, 토큰 제너레이터(103)는, 토큰 생성용 데이터에 기초하여, 음성 인식 처리 금지 토큰을 생성한다.

여기서, 음성 인식 처리 금지 토큰으로서는, 예를 들어 XYZ인 햄버거 체인점의 CM 중에서, 「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」인 음성이 흘러도, 그 질문에 반응하지 않도록 하기 위한 토큰 등이 생성된다. 또한, 음성 인식 처리 금지 토큰은, 음성 처리 장치(30)의 오디오 WM 검출 모듈(302)에 대해, 통신 경유 등으로, 미리 통지되도록 한다.

스텝 S103에 있어서, 오디오 디코더(102)는, 스텝 S101의 처리에서 송출되는 CM/프로그램 오디오 스트림을 디코드한다. 이 디코드의 결과, 기저 대역의 CM/프로그램 오디오 스트림이 얻어진다.

스텝 S105에 있어서, 오디오 WM 삽입 모듈(104)은, 스텝 S103의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 스텝 S102의 처리에서 얻어지는 음성 인식 처리 금지 토큰을, 오디오 워터마크로서 삽입(인코드)한다.

스텝 S104에 있어서, 오디오 인코더(105)는, 스텝 S105의 처리에서 얻어지는, 오디오 워터마크가 삽입된 기저 대역의 CM/프로그램 오디오 스트림을 인코드한다.

또한, 여기에서는, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 서버 장치(10A)에서는, 필요에 따라서, CM/프로그램 비디오 스트림 등의 다른 스트림과 다중화되어 처리된다.

이와 같이 하여, 서버 장치(10A)에서 얻어지는 CM/프로그램 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)은, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출된다.

즉, CM/프로그램 스트림을 방송 경유로 배신하는 경우, 방송 시스템(11)은, 서버 장치(10A)로부터 송출되는 CM/프로그램 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)을 처리하고, 그 처리의 결과 얻어지는 데이터를, 방송파로서 송출한다.

또한, CM/프로그램 스트림을 통신 경유로 배신하는 경우, 넷 배신 시스템(12)은, 서버 장치(10A)로부터 송출되는 CM/프로그램 스트림(송신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)을 처리하고, 그 처리의 결과 얻어지는 데이터를, 인터넷(50)을 통해 배신한다.

이와 같이, 도 4에 있어서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림은, 도 5에 있어서, 클라이언트 장치(20A)에 의해 수신된다. 클라이언트 장치(20A)에서는, CM/프로그램 스트림이 처리되어, CM/프로그램 오디오 스트림이, 오디오 디코더(201)에 입력된다.

또한, 클라이언트 장치(20A)에서는, 오디오 스피커(202)로부터 출력되는 음량이 충분한 것으로 되도록, 오디오 스피커(202)의 오디오 출력 음량을 조정한다(S201). 여기에서는, 음성 처리 장치(30A)에 내장된 오디오 마이크(311)에 의해 수음 가능한 레벨이 되도록, 오디오 스피커(202)를 제어한다.

그 때문에, 필요하면, 클라이언트 장치(20A)는, 시청자(2)에 대해, 음량 조정(음량 업)의 지시를 행한다. 이 지시는, 예를 들어 오디오 스피커(202)로부터의 음성에 의해 행해도 되고, 혹은 그 취지의 메시지가 화면 상에 제시되도록 해도 된다.

스텝 S202에 있어서, 오디오 디코더(201)는, CM/프로그램 오디오 스트림을 디코드한다. 이 디코드의 결과, 기저 대역의 CM/프로그램 오디오 스트림이 얻어진다.

스텝 S203에 있어서, 오디오 스피커(202)는, 스텝 S202의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 따른 음성을 출력한다.

또한, 여기에서도, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 클라이언트 장치(20A)에서는, CM/프로그램 비디오 스트림에 대해서도, 비디오 디코더에 의해 디코드되어, 기저 대역의 CM/프로그램 비디오 스트림에 따른 CM이나 프로그램의 영상이, 디스플레이에 표시된다.

클라이언트 장치(20A)의 오디오 스피커(202)로부터 출력된 음성은, 음성 처리 장치(30A)의 오디오 마이크(311)에 의해 수음된다.

그리고, 오디오 마이크(311)에 의해 수음된 음성에 따른 오디오 스트림은, 오디오 WM 검출 모듈(302) 및 음성 인식 모듈(303)에 공급된다. 또한, 오디오 WM 검출 모듈(302)에는, 통신 경유 등으로, 미리 음성 인식 처리 금지 토큰이, 서버 장치(10A)로부터 통지되어 있는 것으로 한다.

스텝 S301에 있어서, 오디오 WM 검출 모듈(302)은, 오디오 마이크(311)에 의해 수음된 음성(클라이언트 장치(20A)로부터 출력된 음성)에 따른 오디오 스트림에 삽입되어 있는 오디오 워터마크를 검출한다.

스텝 S302에 있어서, 음성 인식 모듈(303)은, 오디오 마이크(311)에 의해 수음된 음성(클라이언트 장치(20A)로부터 출력된 음성)에 따른 오디오 스트림에 대한 음성 인식 처리를 행한다.

스텝 S301, S302의 처리가 종료되면, 처리는, 스텝 S303으로 진행된다. 스텝 S303에 있어서, 오디오 WM 검출 모듈(302)은, 스텝 S301의 처리에서 얻어지는 검출 결과에 기초하여, 오디오 스트림에 삽입되어 있는 오디오 워터마크로서, 서버 장치(10A)로부터 통지되어 있는 음성 인식 처리 금지 토큰이 삽입되어 있는지 여부를 판정한다.

스텝 S303에 있어서, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있지 않는 것으로 판정된 경우, 처리는, 스텝 S304의 처리로 진행된다. 스텝 S304에 있어서, 음성 인식 모듈(303)은, 스텝 S303의 처리의 판정 결과에 따라, 스텝 S302의 처리에서 얻어지는 음성 인식 결과를, 후속의 처리에 전달하도록 한다.

한편, 스텝 S303에 있어서, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있는 것으로 판정된 경우, 스텝 S304의 처리는 스킵된다. 즉, 이 경우에는, 오디오 스트림의 음성 인식 결과를 무효인 것으로 간주하여, 음성 인식 결과를 후속의 처리에 전달하지 않도록 한다(음성 인식 결과를 파기한다).

이와 같이, 음성 처리 장치(30A)에서는, 오디오 스트림에, 음성 인식 처리 금지 토큰이 삽입되어 있는 경우에는, 당해 오디오 스트림의 음성 인식 결과가 무효로 되기 때문에, 예를 들어 XYZ인 햄버거 체인점의 CM 중에서, 「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」인 음성이 흘러도, 음성 인식 처리 금지 토큰으로서 관리해 두면, 음성 AI 어시스턴스 서비스에서, CM의 음성을 인식해도, 그 질문에 반응하지 않도록 할 수 있다.

이상, 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름에 대하여 설명하였다.

(시청자 발화에 따른 음성 AI 처리의 흐름)

다음에, 도 6의 흐름도를 참조하여, 시청자 발화에 따른 음성 AI 처리의 흐름을 설명한다.

시청자(2)가 발화를 행하면(S11), 음성 처리 장치(30A)에서는, 다음과 같은 처리가 행해진다. 즉, 시청자(2)의 발화의 음성은, 음성 처리 장치(30A)의 오디오 마이크(311)에 의해 수음된다.

그리고, 오디오 마이크(311)에 의해 수음된 음성(시청자(2)가 발화의 음성)에 따른 오디오 스트림은, 오디오 WM 검출 모듈(302) 및 음성 인식 모듈(303)에 공급된다. 또한, 오디오 WM 검출 모듈(302)에는, 미리 음성 인식 처리 금지 토큰이, 서버 장치(10A)로부터 통지되어 있는 것으로 한다.

스텝 S306에 있어서, 오디오 WM 검출 모듈(302)은, 오디오 마이크(311)에 의해 수음된 음성에 따른 오디오 스트림에 대해, 오디오 워터마크의 검출을 행한다.

그러나, 시청자(2)의 발화의 음성에 따른 오디오 스트림에는, 오디오 워터마크가 삽입되어 있지 않으므로, 오디오 WM 검출 모듈(302)은, 음성 인식 처리 금지 토큰을 검출할 수는 없다.

스텝 S307에 있어서, 음성 인식 모듈(303)은, 오디오 마이크(311)에 의해 수음된 음성에 따른 오디오 스트림에 대한 음성 인식 처리를 행한다.

스텝 S306, S307의 처리가 종료되면, 처리는, 스텝 S308로 진행된다. 스텝 S308에 있어서, 음성 인식 모듈(303)은, 오디오 스트림에는 항상, 음성 인식 처리 금지 토큰이 삽입되어 있지 않으므로, 오디오 스트림의 음성 인식 결과를 유효인 것으로 간주하여, 후속의 처리에 전달하도록 한다.

이와 같이, 시청자(2)가 발화한 경우에는, 음성 인식 처리 금지 토큰이 검출되는 일은 없으므로, 음성 인식 모듈(303)에 의한 음성 인식 결과는 유효로 되어, 항상, 후속의 처리가 행해지게 된다. 이상, 시청자 발화에 따른 음성 AI 처리의 흐름에 대하여 설명하였다.

또한, 상술한 워터마크의 삽입을 송신측에서 행하는 구성에 있어서, 토큰의 베리에이션으로서는, 강제적으로, 음성 인식 결과의 처리 프로세스를 무효로 할 뿐만 아니라, 예를 들어 일단, 시청자(2)의 의향을 타진하는 토큰으로 할 수도 있다. 즉, 여기에서는, 토큰을 2종류 준비하여, 하나는 강제적으로, 음성 인식 결과의 처리 프로세스를 무효로 하는 토큰인 것으로 하고, 다른 하나는, 음성 인식 결과의 처리 프로세스를 무효로 하기 직전에, 처리 프로세스에 적용해도 되는지에 대하여 시청자(2)에게 타진시키는 토큰이다.

그리고, 음성 AI 어시스턴스 서비스의 오디오 WM 검출 모듈(302)에 있어서, 후자의 토큰이 검출된 경우에는, 예를 들어 「이 CM의 음성에 의한 음성 AI 어시스턴스 서비스의 임의 이용을 허가해도 됩니까」와 같은 확인 메시지를 음성에 의해, 음성 처리 장치(30A)로부터 출력함으로써, 시청자(2)의 의향을 확인한다.

이 확인 메시지에 대하여, 시청자(2)가 「예」라고 발화한 경우에는, 음성 인식 결과의 처리 프로세스를 유효인 것으로 하여, 음성 인식 결과를 후속의 처리에 전달하도록 한다. 한편, 시청자(2)가 「아니오」라고 발화한 경우에는, 음성 인식 결과의 처리 프로세스를 무효인 것으로 하여, 음성 인식 결과를 후속의 처리에 전달하지 않도록 한다.

(B) 워터마크의 삽입을 수신측에서 행하는 구성

상술한 설명에서는, 워터마크를 삽입하는 처리를 송신측(방송국측)의 서버 장치(10)에서 행하는 경우를 설명하였지만, 수신측의 클라이언트 장치(20)(예를 들어 텔레비전 수상기)에서 행하도록 해도 된다. 워터마크를 삽입하는 처리를 수신측의 클라이언트 장치(20)에서 행하는 경우에는, 예를 들어 방송 부수의 방송 애플리케이션 등의 애플리케이션을 실행함으로써, 실현할 수 있다.

여기서, 송신측의 서버 장치(10)에서, 워터마크를 삽입하는 처리를 행하는 경우에는, 모든 시청자에 대하여, 동일한 음성(예를 들어 CM이나 프로그램의 음성)이 보내지기 때문에, 시청자 개별의 의향을 참작한 제어를 행할 수는 없지만, 수신측의 클라이언트 장치(20)에서, 애플리케이션을 실행하여, 워터마크를 삽입하는 처리를 행한다는 구성을 취함으로써, 예를 들어 다음과 같은 것이 실현 가능하게 된다.

즉, 음성 AI 어시스턴스 서비스의 음성 인식 결과의 처리 프로세스의 계속 가부에, 시청자의 의향을 반영시켜, 퍼스널라이즈할 수 있다. 여기서, 시청자의 의향은, 예를 들어 도 7에 도시한 바와 같은 확인 메시지를 표시시킴으로써 확인할 수 있다.

도 7에 있어서는, 확인 메시지(251)로서, 「이 CM의 음성에 의한 음성 AI 어시스턴스 서비스의 임의 이용을 허가해도 됩니까?」가 표시되어 있다. 이 확인 메시지(251)에 대해, 시청자는, 임의 이용을 허가해도 되는 경우에는, 「OK 버튼」을 조작함으로써, 오디오 워터마크를 삽입하는 처리는 행해지지 않게 된다. 한편, 시청자는, 임의 이용을 허가하지 않는 경우에는, 「NG 버튼」을 조작함으로써, 오디오 워터마크를 삽입하는 처리가 행해지게 된다.

이하, 워터마크의 삽입을 수신측의 클라이언트 장치(20)에서 행하는 경우의 구성과 처리의 흐름을 나타낸다.

(시스템 구성예)

도 8은 제1 실시 형태의 콘텐츠·음성 AI 연계 시스템(1)의 구성의 제2 예를 도시하는 블록도이다.

도 8의 콘텐츠·음성 AI 연계 시스템(1)은, 서버 장치(10B), 클라이언트 장치(20B), 및 음성 처리 장치(30B)를 포함하여 구성된다.

또한, 도 8의 콘텐츠·음성 AI 연계 시스템(1)의 구성에 있어서, 상술한 도 3의 콘텐츠·음성 AI 연계 시스템(1)의 구성과 대응하는 부분에 대해서는, 동일한 부호를 부여하고 있고, 그 설명은 반복되기 때문에, 적절히 생략하는 것으로 한다.

도 8에 있어서, 서버 장치(10B)는, CM/프로그램 뱅크(101), 토큰 제너레이터(103), 및 애플리케이션 제너레이터(111)를 포함하여 구성된다.

즉, 도 8의 서버 장치(10B)는, 도 3의 서버 장치(10A)와 비교하여, 오디오 디코더(102), 오디오 WM 삽입 모듈(104), 및 오디오 인코더(105) 대신에, 애플리케이션 제너레이터(111)가 새롭게 마련되어 있다.

애플리케이션 제너레이터(111)는, 애플리케이션 생성용 데이터에 기초하여, 애플리케이션을 생성한다. 또한, 애플리케이션 제너레이터(111)는, 애플리케이션을 생성할 때, 토큰 제너레이터(103)에 의해 생성된 음성 인식 처리 금지 토큰을, 하드 코드로 매립하도록 한다.

그리고, 서버 장치(10B)는, 애플리케이션 제너레이터(111)에 의해 생성되는 애플리케이션을, 애플리케이션의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

방송 시스템(11)은, 서버 장치(10B)로부터 송출된 CM/프로그램 스트림 및 애플리케이션 중 적어도 한쪽의 데이터를, 방송파로서 송출한다. 또한, 넷 배신 시스템(12)은, 서버 장치(10B)로부터 송출된 CM/프로그램 스트림 및 애플리케이션 중 적어도 한쪽의 데이터를, 인터넷(50)을 통해 배신한다.

클라이언트 장치(20B)는, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림과 애플리케이션을 수신한다. 도 8에 있어서, 클라이언트 장치(20B)는, 오디오 디코더(201), 오디오 스피커(202), 애플리케이션 실행 환경(211), 및 오디오 WM 삽입 모듈(212)을 포함하여 구성된다.

즉, 도 8의 클라이언트 장치(20B)는, 도 3의 클라이언트 장치(20A)와 비교하여, 애플리케이션 실행 환경(211)과 오디오 WM 삽입 모듈(212)이 새롭게 마련되어 있다.

애플리케이션 실행 환경(211)은, 방송 시스템(11) 또는 넷 배신 시스템(12)으로부터 수신한 애플리케이션을 실행한다. 여기서, 애플리케이션에는, 음성 인식 처리 금지 토큰이 하드 코드로 매립되어 있기 때문에, 애플리케이션 실행 환경(211)은, 음성 인식 처리 금지 토큰을 취득하고, 오디오 WM 삽입 모듈(212)에 공급한다.

오디오 WM 삽입 모듈(212)은, 오디오 디코더(201)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 애플리케이션 실행 환경(211)으로부터 공급되는 음성 인식 처리 금지 토큰을, 오디오 워터마크로서 삽입(인코드)하고, 오디오 스피커(202)에 공급한다.

오디오 스피커(202)는, 오디오 WM 삽입 모듈(212)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림(수신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)에 따른 음성을 출력한다.

또한, 도 8의 음성 처리 장치(30B)는, 도 3의 음성 처리 장치(30A)와 마찬가지의 구성을 갖고 있기 때문에, 여기에서는 그 설명을 생략한다. 단, 로컬측의 음성 처리 장치(30B)는, 클라우드측의 서버 장치(40)와 연계함으로써, 음성 AI 어시스턴스 서비스의 일부의 처리가, 서버 장치(40)에 의해 행해지도록 해도 된다.

(콘텐츠·음성 AI 연계 처리의 흐름)

다음에, 도 9 내지 도 10의 흐름도를 참조하여, 워터마크의 삽입을 수신측에서 행하는 경우의 CM/프로그램·음성 AI 연계의 흐름을 설명한다.

또한, 도 9는 서버 장치(10B)와, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 실행되는 송신측의 처리의 흐름을 설명하는 흐름도이다. 한편, 도 10은 클라이언트 장치(20B)와 음성 처리 장치(30B)에 의해 실행되는 수신측의 처리의 흐름을 설명하는 흐름도이다.

스텝 S111에 있어서, CM/프로그램 뱅크(101)는, 거기에 축적되어 있는 CM/프로그램 스트림을, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다. 또한, CM/프로그램 오디오 스트림에 따른 음성에는, 음성 인식 처리가 금지되어야 할 음성이 포함되어 있다.

스텝 S112에 있어서, 토큰 제너레이터(103)는, 토큰 생성용 데이터에 기초하여, 음성 인식 처리 금지 토큰을 생성한다.

스텝 S113에 있어서, 애플리케이션 제너레이터(111)는, 애플리케이션 생성용 데이터에 기초하여, 애플리케이션을 생성한다. 여기서, 애플리케이션을 생성할 때는, 스텝 S112의 처리에서 얻어지는 음성 인식 처리 금지 토큰을, 하드 코드로 매립할 수 있다.

또한, 여기에서는, 애플리케이션에 대해, 음성 인식 처리 금지 토큰이 하드 코드로 매립되는 경우를 예시하지만, 예를 들어 수신측의 클라이언트 장치(20B)에서, 애플리케이션이 실행될 때, 인터넷(50) 경유로, 송신측의 서버 장치(10B)(의 토큰 제너레이터(103))로부터 음성 인식 처리 금지 토큰이 취득되도록 해도 된다.

스텝 S114에 있어서, 애플리케이션 제너레이터(111)는, 스텝 S113의 처리에서 얻어지는 애플리케이션을, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

이와 같이 하여, 서버 장치(10B)에서 얻어지는 CM/프로그램 스트림과, 애플리케이션은, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출된다.

즉, CM/프로그램 스트림과 애플리케이션을 방송 경유로 배신하는 경우, 방송 시스템(11)은, 서버 장치(10B)로부터 송출되는 CM/프로그램 스트림과, 애플리케이션을 처리하고, 그 처리의 결과 얻어지는 데이터를, 방송파로서 송출한다.

또한, CM/프로그램 스트림과 애플리케이션을 통신 경유로 배신하는 경우, 넷 배신 시스템(12)은, 서버 장치(10B)로부터 송출되는 CM/프로그램 스트림과, 애플리케이션을 처리하고, 그 처리의 결과 얻어지는 데이터를, 인터넷(50)을 통해 배신한다.

또한, CM/프로그램 스트림과 애플리케이션은, 동일한 방송 스트림에 다중화 되는 경우도 있고, CM/프로그램 스트림을 방송 경유로 배신함과 함께, 애플리케이션을 통신 경유로 배신하도록 해도 된다. 이 경우, 수신측의 클라이언트 장치(20B)는, CM 또는 프로그램의 개시 직전에 또는 동시에, 인터넷(50)을 통해 넷 배신 시스템(12)에 액세스하여, 애플리케이션을 취득하게 된다.

도 10에 있어서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림과 애플리케이션은, 클라이언트 장치(20B)에 의해 수신된다. 클라이언트 장치(20B)에서는, CM/프로그램 스트림이 처리되어, CM/프로그램 오디오 스트림이, 오디오 디코더(201)에 입력된다. 또한, 애플리케이션이, 애플리케이션 실행 환경(211)에 입력된다.

스텝 S211에 있어서, 오디오 디코더(201)는, CM/프로그램 오디오 스트림을 디코드한다. 이 디코드의 결과, 기저 대역의 CM/프로그램 오디오 스트림이 얻어진다.

스텝 S213에 있어서, 애플리케이션 실행 환경(211)은, 애플리케이션을 실행한다. 여기서, 애플리케이션에는, 음성 인식 처리 금지 토큰이 하드 코드로 매립되어 있기 때문에, 애플리케이션 실행 환경(211)은, 음성 인식 처리 금지 토큰을 취득할 수 있다.

이때, 예를 들어 애플리케이션이, 상술한 도 7에 도시한 확인 메시지(251)를 표시함으로써, 애플리케이션이 제멋대로 워터마크를 삽입하는 것이 아니라, 일단 시청자(2)의 의향을 확인한 후에, 오디오 워터마크의 삽입 처리를 행할 수 있다.

도 7의 확인 메시지(251)에 대해, CM의 음성에 의한 음성 AI 어시스턴스 서비스의 임의 이용을 허가하지 않는 경우에는, 시청자(2)에 의해 「NG 버튼」이 조작되고, 애플리케이션 실행 환경(211)은, 워터마크 삽입 지시를 접수한다(S214). 이 경우에는, 오디오 워터마크를 삽입하는 처리가 행해지게 된다.

여기서, 예를 들어 CM이 개시되기 전이나, 프로그램을 선국할 때마다, 시청자(2)의 의향 확인을 행하면, 시청자(2)에 따라서는 번거롭다고 느끼는 사람도 생긴다. 그 때문에, 축차적으로 시청자(2)의 의향 확인을 행하는 것이 아니라, 초기 설정 메뉴 등에 의해, 미리 의향 확인을 행해 두고, 그 시청자 의향 정보를, 애플리케이션 실행 환경(211)에 의해 실행되는 애플리케이션이 참조 가능하게 되는 초기 설정 데이터베이스에 저장해 두도록 해도 된다.

이때, 초기 설정 메뉴에 있어서, 예를 들어 「음성 AI 어시스턴스 서비스 임의 이용 제한」과 같은 메뉴를 추가하여, 도 7에 도시한 바와 같은 다이알로그를 표시하고, 시청자(2)에 대하여, CM의 음성에 의한 음성 AI 어시스턴스 서비스의 임의 이용을 확인시키는 것으로 해도 된다. 이와 같이, 애플리케이션이, 초기 설정 데이터베이스를 참조함으로써, 도 7에 도시한 확인 메시지(251)를 그때마다 표시하는 것이 아니라, 시청자 의향 정보에 기초하여, 워터마크의 삽입 가부 제어를 행할 수 있다.

또한, 여기에서는, 도 7에 도시한 확인 메시지(251)를 표시하거나, 초기 설정 데이터베이스를 참조하여 시청자 의향 정보를 이용하거나 하는 예를 설명하였지만, 그 밖의 실장을 행해도 되고, 예를 들어 모든 CM이나 프로그램의 구간에 있어서, 오디오 워터마크가 삽입되도록 해도 된다.

스텝 S212에 있어서, 오디오 WM 삽입 모듈(212)은, 스텝 S211의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 스텝 S213의 처리에서 얻어지는 음성 인식 처리 금지 토큰을, 오디오 워터마크로서 삽입(인코드)한다.

여기서, 클라이언트 장치(20B)에서는, 오디오 스피커(202)로부터 출력되는 음량이 충분한 것이 되도록, 오디오 스피커(202)의 오디오 출력 음량을 조정한다(S215). 여기에서는, 음성 처리 장치(30B)에 내장된 오디오 마이크(311)에 의해 수음 가능한 레벨이 되도록, 오디오 스피커(202)를 제어한다.

스텝 S216에 있어서, 오디오 스피커(202)는, 스텝 S212의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림(수신측에서 음성 인식 처리 금지 토큰을 오디오 워터마크로서 삽입한 스트림)에 따른 음성을 출력한다.

또한, 여기에서도, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 클라이언트 장치(20B)에서는, CM/프로그램 비디오 스트림에 대해서도, 비디오 디코더에 의해 디코드되어, 기저 대역의 CM/프로그램 오디오 스트림에 따른 CM이나 프로그램의 영상이 디스플레이에 표시된다.

클라이언트 장치(20B)의 오디오 스피커(202)로부터 출력된 음성은, 음성 처리 장치(30B)의 오디오 마이크(311)에 의해 수음된다.

스텝 S311 내지 S314에 있어서는, 도 5의 스텝 S301 내지 S304와 마찬가지로, 오디오 워터마크의 검출 결과에 기초하여, 오디오 스트림에 삽입되어 있는 오디오 워터마크로서, 서버 장치(10B)로부터 통지되고 있는 음성 인식 처리 금지 토큰이 삽입되어 있는지 여부가 판정된다.

그리고, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있지 않는 것으로 판정된 경우에는, 음성 인식 결과가, 후속의 처리에 전달된다(S314). 한편, 오디오 워터마크로서, 음성 인식 처리 금지 토큰이 삽입되어 있는 것으로 판정된 경우에는, 음성 인식 결과가, 후속의 처리에 전달되지 않도록 한다.

이상, 워터마크의 삽입을 수신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름에 대하여 설명하였다.

또한, 도 8의 음성 처리 장치(30B)에서 실행되는 시청자 발화에 따른 음성 AI 처리는, 상술한 도 6의 시청자 발화에 따른 음성 AI 처리와 마찬가지이기 때문에, 여기에서는 그 설명을 생략한다.

이상, 제1 실시 형태에 대하여 설명하였다. 이 제1 실시 형태에서는, 송신측의 서버 장치(10) 또는 수신측의 클라이언트 장치(20)에서, 오디오 워터마크로서, 음성 인식 처리 금지 토큰을 삽입하여, 로컬측의 음성 처리 장치(30) 또는 클라우드측의 서버 장치(40)에서, 이 음성 인식 처리 금지 토큰이 검출되도록 함으로써, 음성 인식 대상의 데이터의 정당성을 확인한 후에, 음성 AI 어시스턴스 서비스를 이용할 수 있다. 그 결과로서, 보다 실용성이 높은 음성 AI 어시스턴스 서비스를 제공할 수 있다.

또한, 제1 실시 형태의 구성을 채용함으로써, 음성 인식 처리 금지의 문언을, 블랙 리스트로서 데이터베이스에 전개하고, 음성 AI 어시스턴스 서비스에 있어서, 리얼타임으로, 문언의 가부를 체크한다는 비용을 피할 수 있다. 즉, 블랙 리스트가 빈번하게 갱신되고, 또한 방대한 데이터양이 되는 경우에는, 이 비용이, 운용 비용을 압박할 가능성이 있고, 나아가서는, 음성 AI 어시스턴스 서비스의 퍼포먼스의 디그레이드로 이어질 가능성이 높아지기 때문이다.

또한, 시청자의 발화에 의한 음성 AI 어시스턴스 서비스의 이용 명령과, 텔레비전 수상기나 모바일 수신기 등의 클라이언트 장치(20)를 경유하여 출력된 음성 AI 어시스턴스 서비스의 이용 명령을 구별할 수 있어, 시청자에게 있어서, 의미가 없는(불이익한) 서비스의 이용을 방지할 수 있다.

또한, 토큰으로 복수의 종류를 준비하거나, 혹은, 워터마크를 삽입하는 처리를 수신측의 클라이언트 장치(20)(예를 들어 텔레비전 수상기측)에서 실행되는 애플리케이션이 행하는 구성을 실장하거나 함으로써, 송신측의 사업자(예를 들어 방송국이나 음성 AI 어시스턴스 서비스의 엔티티)의 컨트롤 하에, CM이나 프로그램으로부터 발성되는, 음성 AI 어시스턴스 서비스의 임의 이용의 가부에 대하여, 시청자의 의향을 반영시키는 것도 가능해진다.

또한, 상술한 설명에서는, 음성 AI 어시스턴스 서비스의 음성 인식 처리 금지의 문언을, 블랙 리스트로서 관리하는 것과 동등한 방법을 설명하였지만, 여기에서는, 음성 AI 어시스턴스 서비스의 음성 인식 처리 금지의 문언을, 화이트 리스트로서 관리하는 것과 동등한 방법에 응용하도록 해도 된다.

예를 들어, 어떤 CM이나 프로그램의 구간에만 포함되는 것을 알고 있는, 즉, 사전에, 방송국측이나 음성 AI 어시스턴스 서비스의 엔티티측에, 그 취지가 통지되어 양쪽의 동의가 이루어져 있는, 음성 AI 어시스턴스 서비스의 음성 인식 처리 가능한 음성의 음성 인식 결과의 처리 프로세스를, 항상 유효로 하기 위해서는, 예를 들어 다음과 같은 처리를 행함으로써 실현된다.

즉, 송신측(방송국측)의 서버 장치(10)에서는, 그 CM이나 프로그램의 구간(음성 인식 결과의 처리 프로세스를 항상 유효로 하는 구간)을 제외한, 모든 CM이나 프로그램의 구간에 대해, 그 음성의 오디오 스트림을 디코드하여, 기저 대역의 오디오 스트림으로 하고, 토큰 제너레이터(103)에 의해 생성된 음성 인식 처리 금지 토큰이, 오디오 워터마크로서 삽입되도록 하면 된다.

또한, 여기에서는, 그 CM이나 프로그램의 구간(음성 인식 결과의 처리 프로세스를 항상 유효로 하는 구간)에 대해, 그 음성의 오디오 스트림을 디코드하여, 기저 대역의 오디오 스트림으로 하고, 음성 인식 처리 허가 토큰이, 오디오 워터마크로서 삽입되도록 해도 된다. 즉, 이 음성 인식 처리 허가 토큰은, 상술한 음성 인식 처리 금지 토큰과는 반대로, 수음된 음성에 포함되는 경우에, 그 오디오 스트림의 음성 인식 결과에 기초한 후속의 처리를 계속시키기 위한 토큰이라고 할 수 있다.

이와 같이, 음성 인식 처리 가능의 문언을, 화이트 리스트로서 데이터베이스에 전개하고, 음성 AI 어시스턴스 서비스에 있어서, 리얼타임으로, 문언의 가부를 체크한다는 비용을 피할 수 있다. 즉, 음성 인식 처리 가능의 문언이 빈번하게 생성, 갱신됨으로써, 화이트 리스트가 빈번하게 갱신되고, 또한 방대한 데이터양이 되는 경우에는, 이 비용이, 운용 비용을 압박할 가능성이 있고, 나아가서는, 음성 AI 어시스턴스 서비스의 퍼포먼스 디그레이드로 이어질 가능성이 높아지기 때문이다.

(2) 제2 실시 형태

여기서, 음성 AI 어시스턴스 서비스에 대하여, 시청자가 어떻게 발화하면 되는지를, CM이나 프로그램 등의 텔레비전 방송이 제시하는 유스 케이스를 상정한다. 예를 들어, 상술한 Alexa(등록 상표)의 예에서, 기동 프레이즈(Launch 프레이즈)와, 스킬명과, Utterance의 결합에 의해 얻어지는 문자열이, 매우 길어져 버리는 경우에, 예를 들어 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」과 같은 발화를 촉구할 때가 있는 것으로 하자.

또한, 기동 프레이즈 등의 연결 문자열이 매우 길어지는 경우로서는, 예를 들어 「ask, shoppingApp, my personal account number is 1234567890」과 같은 발화를 촉구할 때가 있는 것으로 한다. 단, 이 발화의 예에서, 발화의 전부 또는 일부(예를 들어 「1234567890」의 부분)는, 시청자 집의 클라이언트 장치(20)(예를 들어 텔레비전 수상기 등)에 의해 실행되는 애플리케이션이 생성하고 있는 케이스를 상정한다.

이와 같은 경우에, 시청자에게 있어서는, 예를 들어 프레이즈가 너무 길어 다 기억할 수 없을 때라든가, 혹은 프라이버시나 시큐리티에 관련되는 내용의 발화가 요구되는 서비스일 때는, 이들을 피하기 위한 수단이 필요로 된다.

또한, 프라이버시의 보호를 위해서는, 토큰 그 자체가, 음성 AI 어시스턴스 서비스의 수음 모듈에 이르기 전에, 혹은, 음성 AI 어시스턴스 서비스의 후속 처리에 이르는 도중 경로에 있어서, 훔쳐 보기나 개찬되는 일이 없도록 해야만 한다. 여기에서는, 물론, 프라이버시의 보호에 상관없이, 토큰 제너레이터로부터, 음성 AI 어시스턴스 서비스의 후속의 처리에 이르는 경로 상에서, 메시지 그 자체의 비닉이 필요로 되는 경우도 있다.

본 기술은, 제2 실시 형태로서, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스에 건네지는 파라미터를, 오디오 워터마크로서, 콘텐츠의 오디오 스트림에 삽입하는 것을 제안한다.

즉, 제2 실시 형태에서는, 음성 AI 어시스턴스 서비스의 수음 디바이스로서, 로컬측에 마련되는 음성 처리 장치(30), 또는 수음된 오디오 스트림을 해석하는 클라우드측에 마련되는 서버 장치(40)에, 워터마크 검출 기능을 실장한다.

이에 의해, 어떤 토큰(서비스 인도 파라미터)이, 오디오 워터마크로서, 수음된 음성에 포함되는 경우에는, 그 오디오 스트림의 음성 인식 결과에 기초한 후속의 처리에, 오디오 워터마크로서 검출된 토큰(서비스 인도 파라미터)을 전달할 수 있도록 한다.

(서비스 인도 파라미터의 예)

도 11은 기저 대역의 오디오 스트림에, 오디오 워터마크로서 매립되는 서비스 인도 파라미터의 예를 도시하는 도면이다.

예를 들어, 어떤 CM이나 프로그램(또는 그 일부)에 있어서, 음성 AI 어시스턴스 서비스에 대해, 시청자가 어떻게 발화하면 되는지를 나타내는 문자열, 예를 들어 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」을 발화하도록 하는 지시가 이루어지는 경우를 상정한다.

이 경우에, 송신측(방송국측)의 서버 장치(10)에서는, CM이나 프로그램의 스트림을 송출하기 전에, 대상의 CM이나 프로그램의 어떤 시간 구간의 오디오 스트림을 디코드하여, 기저 대역의 오디오 스트림으로 한다. 그리고, 서버 장치(10)는, 오디오 WM 삽입 모듈에 의해, 토큰 제너레이터에 의해 생성된 토큰(서비스 인도 파라미터)을 오디오 워터마크로서, 그 기저 대역의 오디오 스트림에 삽입한다.

여기에서는, 토큰으로서, 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」인 서비스 인도 파라미터가 생성되고, 오디오 워터마크로서, 기저 대역의 오디오 스트림에 삽입된다. 또한, 이 서비스 인도 파라미터의 매립은, 복수회 반복하여, 기저 대역의 오디오 스트림에 삽입된다.

또한, 여기에서는, 이 오디오 워터마크로서 삽입되는 토큰(인도 파라미터)의 내용 그 자체를 비닉하거나, 개찬을 방지하거나 하기 위해, 토큰의 내용(메시지)을 암호화하거나, 또는 개찬 검출용 서명을 생성하고 나서, 오디오 워터마크로서 삽입할 수 있다.

예를 들어, 도 12에 도시한 바와 같이, 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」인 토큰의 내용(메시지)을, Message 요소에 저장한다. 그리고, 이 Message 요소에 저장되는 메시지에 대해, 예를 들어 XML 암호나 XML 서명 등을 적용함으로써, 토큰의 내용을 비닉하거나, 개찬을 방지하거나 할 수 있다.

도 13은 상술한 Message 요소에 저장되는 메시지에 대해, XML 서명을 적용한 경우의 예를 도시하고 있다. 여기서, XML 서명은, XML(Extensible Markup Language) 문서 등의 전자 데이터에 대하여 부여되는 전자 서명의 일종이다.

도 13의 예에 있어서, ds: Reference 요소의 속성값인 URI=" "은, Message 요소 전체가 서명 대상인 것을 나타내고 있다. 또한, 도 13의 예에서는, <ds: Transform Algorithm=...enveloped-signature../>의 기술에 의해, ds: Signature 요소가, 서명 대상으로부터 제외된다. 이와 같은 XML 서명이 적용된 메시지 전체가, 오디오 워터마크로서 매립되게 된다.

또한, 오디오 워터마크로서 삽입되는 서비스 인도 파라미터는, 송신측의 서버 장치(10)에 한하지 않고, 수신측의 클라이언트 장치(20)에서 삽입하는 것도 가능하게 되기 때문에, 이하, 오디오 워터마크의 삽입을, 송신측에서 행하는 구성과, 수신측에서 행하는 구성에 대하여 각각 설명한다.

(C) 워터마크의 삽입을 송신측에서 행하는 구성

(시스템 구성예)

도 14는 제2 실시 형태의 콘텐츠·음성 AI 연계 시스템(1)의 구성의 제1 예를 도시하는 블록도이다.

도 14의 콘텐츠·음성 AI 연계 시스템(1)은, 서버 장치(10C), 클라이언트 장치(20C), 및 음성 처리 장치(30C)를 포함하여 구성된다.

여기서, 도 14의 콘텐츠·음성 AI 연계 시스템(1)의 구성에 있어서, 상술한 도 3 및 도 8의 콘텐츠·음성 AI 연계 시스템(1)의 구성과 대응하는 부분에 대해서는, 동일한 부호를 부여하고 있고, 그 설명은 반복되기 때문에, 적절히 생략하는 것으로 한다.

도 14에 있어서, 서버 장치(10C)는, CM/프로그램 뱅크(101), 오디오 디코더(102), 토큰 제너레이터(103), 오디오 WM 삽입 모듈(104), 및 오디오 인코더(105)를 포함하여 구성된다.

토큰 제너레이터(103)는, 토큰 생성용 데이터에 기초하여, 서비스 인도 파라미터를 생성하여, 오디오 WM 삽입 모듈(104)에 공급한다.

여기서, 토큰 생성용 데이터는, 예를 들어 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」 등의 토큰(서비스 인도 파라미터)을 생성하기 위한 데이터이며, 예를 들어 방송국이나 음성 AI 어시스턴스 서비스의 엔티티, 그 밖의 사업자의 결정에 따른 것 등으로 된다.

오디오 WM 삽입 모듈(104)은, 오디오 디코더(102)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 토큰 제너레이터(103)로부터 공급되는 서비스 인도 파라미터를, 오디오 워터마크로서 삽입(인코드)하여, 오디오 인코더(105)에 공급한다.

오디오 인코더(105)는, 오디오 WM 삽입 모듈(104)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림(송신측에서 서비스 인도 파라미터를 오디오 워터마크로서 삽입한 스트림)을 인코드한다.

도 14에 있어서, 클라이언트 장치(20C)는, 도 3에 도시한 클라이언트 장치(20A)와 마찬가지로, 오디오 디코더(201), 및 오디오 스피커(202)를 포함하여 구성된다.

또한, 도 14에 있어서, 음성 처리 장치(30C)는, 음성 AI 어시스턴스 서비스의 기능으로서, 수음 모듈(301), 오디오 WM 검출 모듈(302), 및 음성 인식 모듈(303)을 포함하여 구성된다. 또한, 수음 모듈(301)은 오디오 마이크(311)를 포함하고 있다.

오디오 마이크(311)는, 시청자(2)에 의해 발화된 웨이크 워드, 또는 클라이언트 장치(20)의 오디오 스피커(202)로부터 출력된 음성을 수음한다.

수음 모듈(301)은, 오디오 마이크(311)에 의해 수음된 음성에 기초하여, 시청자(2)에 의한 웨이크 워드의 발화가 인식된 경우, 음성 AI 어시스턴스 서비스를 기동하여, 오디오 WM 검출 모듈(302)에 의한 서비스 인도 파라미터의 검출을 유효화한다.

오디오 WM 검출 모듈(302)은, 오디오 마이크(311)로부터의 오디오 스트림에 삽입되어 있는 오디오 워터마크의 검출을 행하고, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는지 여부를 판정한다.

오디오 WM 검출 모듈(302)은, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는 것으로 판정된 경우, 서비스 인도 파라미터를, 음성 인식 결과로서, 후속의 처리를 행하는 후속 처리부에 공급한다. 이 경우, 후속 처리부는, 오디오 WM 검출 모듈(302)로부터 공급되는 음성 인식 결과에 기초하여, 음성 AI 어시스턴스 서비스에 관한 후속의 처리를 행한다.

또한, 오디오 WM 검출 모듈(302)은, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있지 않는 것으로 판정된 경우, 음성 인식 결과를, 후속 처리부에는 전달하지 않도록 한다.

음성 인식 모듈(303)은, 오디오 마이크(311)로부터 공급되는 오디오 스트림에 대한 음성 인식 처리를 행한다. 또한, 도 14에 도시한 구성에 있어서는, 음성 인식 모듈(303)을 반드시 마련할 필요는 없다.

여기서, 시청자(2)에 의한 웨이크 워드의 발화이지만, 예를 들어 클라이언트 장치(20C)에 있어서, 도 15에 도시한 바와 같은 발화 지시 메시지(261)가 표시되도록 함으로써, 시청자(2)에 대해, 음성 AI 어시스턴스 서비스를 기동하기 위한 웨이크 워드의 발화를 촉구할 수 있다.

도 15에 있어서는, 발화 지시 메시지(261)로서, 「만약 이 프로그램의 캐스트의 프라이빗한 정보를 알고 싶으면, "Service A"라고만 말해 주세요.」가 표시되어 있다. 그리고, 이 발화 지시 메시지(261)를 확인한 시청자(2)는, "Service A"인 웨이크 워드를 발화하게 된다.

또한, 도 14에 있어서는, 설명의 사정상, 로컬측의 음성 처리 장치(30C)가, 음성 AI 어시스턴스 서비스의 모든 처리를 행하는 것으로 하였지만, 음성 AI 어시스턴스 서비스의 일부의 처리를, 클라우드측의 서버 장치(40)가 행하도록 해도 된다.

예를 들어, 로컬측의 음성 처리 장치(30C)가, 수음 모듈(301)의 기능을 갖고, 클라우드측의 서버 장치(40)가, 오디오 WM 검출 모듈(302)과, 음성 인식 모듈(303)과, 후속 처리부의 기능을 갖는 경우에는, 음성 처리 장치(30C)와 서버 장치(40)가 연계함으로써, 음성 AI 어시스턴스 서비스가 실현되게 된다.

또한, 도 14에 있어서는, 토큰 제너레이터(103)가, 서버 장치(10C)에 포함되는 것으로서 설명하였지만, 토큰 제너레이터(103)는, 서버 장치(10C) 이외의 다른 장치가 갖도록 해도 된다.

(콘텐츠·음성 AI 연계 처리의 흐름)

다음에, 도 16 내지 도 17의 흐름도를 참조하여, 워터마크의 삽입을 송신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명한다.

여기서, 도 16은 서버 장치(10C)와, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 실행되는 송신측의 처리의 흐름을 설명하는 흐름도이다. 한편, 도 17은 클라이언트 장치(20C)와 음성 처리 장치(30C)에 의해 실행되는 수신측의 처리의 흐름을 설명하는 흐름도이다.

스텝 S121에 있어서, CM/프로그램 뱅크(101)는, CM/프로그램 스트림을 송출한다. 여기에서는, CM/프로그램 오디오 스트림이, 오디오 디코더(102)에 송출된다.

스텝 S122에 있어서, 토큰 제너레이터(103)는, 토큰 생성용 데이터에 기초하여, 토큰으로서의 서비스 인도 파라미터를 생성한다.

여기서, 서비스 인도 파라미터로서는, 예를 들어 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」인, 음성 AI 어시스턴스 서비스에 대해, 시청자(2)가 어떻게 발화하면 되는지를 나타내는 문자열(메시지)이 생성된다. 또한, 상술한 바와 같이, 이 메시지에 대해, 예를 들어 XML 서명 등이 적용되어, 토큰의 내용을 비닉하거나, 개찬을 방지하거나 할 수 있다.

스텝 S123에 있어서, 오디오 디코더(102)는, 스텝 S121의 처리에서 송출되는 CM/프로그램 오디오 스트림을 디코드하여, 기저 대역의 CM/프로그램 오디오 스트림을 얻는다.

스텝 S125에 있어서, 오디오 WM 삽입 모듈(104)은, 스텝 S123의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 스텝 S122의 처리에서 얻어지는 서비스 인도 파라미터를, 오디오 워터마크로서 삽입(인코드)한다.

스텝 S124에 있어서, 오디오 인코더(105)는, 스텝 S125의 처리에서 얻어지는, 오디오 워터마크가 삽입된 기저 대역의 CM/프로그램 오디오 스트림을 인코드한다.

또한, 여기에서도, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 서버 장치(10C)에서는, 필요에 따라, CM/프로그램 비디오 스트림 등의 다른 스트림과 다중화되어 처리된다.

이와 같이 하여, 서버 장치(10C)에서 얻어지는 CM/프로그램 스트림(송신측에서 서비스 인도 파라미터를 오디오 워터마크로서 삽입한 스트림)은, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 송출된다.

그리고, 도 16에 있어서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림은, 도 17에 있어서, 클라이언트 장치(20C)에 의해 수신된다. 클라이언트 장치(20C)에서는, CM/프로그램 스트림이 처리되어, CM/프로그램 오디오 스트림이, 오디오 디코더(201)에 입력된다.

또한, 클라이언트 장치(20C)에서는, 오디오 스피커(202)로부터 출력되는 음량이 충분한 것이 되도록, 오디오 스피커(202)의 오디오 출력 음량을 조정한다(S221).

또한, 이때, 클라이언트 장치(20C)에서는, 시청자(2)에 대하여, 음성 AI 어시스턴스 서비스를 기동하기 위한 웨이크 워드(예를 들어, 「Service A」)의 발화 지시를 행한다(S222).

여기에서는, 클라이언트 장치(20C)에 있어서, 예를 들어 「만약 이 프로그램의 캐스트의 프라이빗한 정보를 알고 싶으면, "Service A"라고만 말해 주세요.」인 발화 지시 메시지(261)(도 15)가, CM 또는 프로그램의 오디오 스트림에, 오디오 워터마크가 삽입되어 있는 구간에 표시되도록 한다. 그리고, 이 표시를 확인한 시청자(2)는 웨이크 워드를 발화하게 된다(S21).

스텝 S223에 있어서, 오디오 디코더(201)는, CM/프로그램 오디오 스트림을 디코드하여, 기저 대역의 CM/프로그램 오디오 스트림을 얻는다.

스텝 S224에 있어서, 오디오 스피커(202)는, 스텝 S223의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 따른 음성을 출력한다.

또한, 여기에서도, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 클라이언트 장치(20C)에서는, CM/프로그램 비디오 스트림에 대해서도, 비디오 디코더에 의해 디코드되어, 기저 대역의 CM/프로그램 비디오 스트림에 따른 CM이나 프로그램의 영상이 디스플레이에 표시된다.

시청자(2)에 의해 발화된 웨이크 워드와, 클라이언트 장치(20C)의 오디오 스피커(202)로부터 출력된 음성은, 음성 처리 장치(30)의 오디오 마이크(311)에 의해 수음된다.

스텝 S322에 있어서, 수음 모듈(301)은, 오디오 마이크(311)에 의해 수음된 음성에 따른 오디오 스트림으로부터, 시청자(2)에 의해 발화된 웨이크 워드를 인식한다.

또한, 수음 모듈(301)은, 웨이크 워드가 인식된 경우에, 음성 AI 어시스턴스 서비스를 기동하여, 서비스 인도 파라미터의 검출을 유효화한다(S323). 이 서비스 인도 파라미터의 검출의 유효화에 수반하여, 오디오 WM 검출 모듈(302)에 의한 스텝 S321의 처리가 개시된다.

스텝 S321에 있어서, 스텝 S301에 있어서, 오디오 WM 검출 모듈(302)은, 오디오 마이크(311)로부터의 오디오 스트림에 삽입되어 있는 오디오 워터마크를 검출한다.

스텝 S324에 있어서, 오디오 WM 검출 모듈(302)은, 스텝 S321의 처리에서 얻어지는 검출 결과에 기초하여, 오디오 스트림에 삽입되어 있는 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는지 여부를 판정한다.

스텝 S324에 있어서, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는 것으로 판정된 경우, 처리는, 스텝 S325의 처리로 진행된다. 스텝 S325에 있어서, 오디오 WM 검출 모듈(302)은, 스텝 S321의 처리에서 얻어진 서비스 인도 파라미터를, 음성 인식 결과로서, 후속의 처리에 전달하도록 한다.

한편, 스텝 S324에 있어서, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있지 않는 것으로 판정된 경우, 스텝 S325의 처리는, 스킵된다. 즉, 이 경우에는, 오디오 스트림의 음성 인식 결과를 무효인 것으로 간주하여, 음성 인식 결과를 후속의 처리에 전달하지 않도록 한다(아무것도 하지 않는다).

이와 같이, 음성 처리 장치(30C)에서는, 오디오 스트림에, 서비스 인도 파라미터로서, 예를 들어 「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」인 문자열(메시지)이 삽입되어 있는 경우에는, 이 메시지를, 음성 인식 결과로서, 후속의 처리에 전달하도록 한다. 그 때문에, 예를 들어 음성 AI 어시스턴스 서비스를 이용하는 시청자(2)가, 프레이즈가 너무 길어 기억할 수 없는 것과 같은 상황을 피할 수 있다.

(D) 워터마크의 삽입을 수신측에서 행하는 구성

즉, 예를 들어 시청자의 프라이버시에 관련되는 시청자 고유의 속성 정보(예를 들어, 상품 구입에 필요한 시청자의 어카운트 정보 등)를 워터마크에 반영시켜, 퍼스널라이즈할 수 있다.

(시스템 구성예)

도 18은 제2 실시 형태의 콘텐츠·음성 AI 연계 시스템(1)의 구성의 제2 예를 도시하는 블록도이다.

도 18의 콘텐츠·음성 AI 연계 시스템(1)은, 서버 장치(10D), 클라이언트 장치(20D), 및 음성 처리 장치(30D)를 포함하여 구성된다.

또한, 도 18의 콘텐츠·음성 AI 연계 시스템(1)의 구성에 있어서, 상술한 도 3, 도 8 및 도 14의 콘텐츠·음성 AI 연계 시스템(1)의 구성과 대응하는 부분에 대해서는, 동일한 부호를 부여하고 있고, 그 설명은 반복되기 때문에, 적절히 생략하는 것으로 한다.

도 18에 있어서, 서버 장치(10D)는, CM/프로그램 뱅크(101), 및 애플리케이션 제너레이터(111)를 포함하여 구성된다.

애플리케이션 제너레이터(111)는, 애플리케이션 생성용 데이터에 기초하여, 애플리케이션을 생성한다. 여기서 생성되는 애플리케이션은, 토큰 제너레이터 기능(상술한 토큰 제너레이터(103)와 동등한 기능)을 갖고 있다.

그리고, 서버 장치(10D)는, 애플리케이션 제너레이터(111)에 의해 생성되는 애플리케이션을, 애플리케이션의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

도 18에 있어서, 클라이언트 장치(20D)는, 오디오 디코더(201), 오디오 스피커(202), 애플리케이션 실행 환경(211), 및 오디오 WM 삽입 모듈(212)을 포함하여 구성된다.

애플리케이션 실행 환경(211)은, 방송 시스템(11) 또는 넷 배신 시스템(12)으로부터 수신한 애플리케이션을 실행한다. 여기서, 애플리케이션은, 토큰 제너레이터 기능을 갖고 있기 때문에, 당해 애플리케이션에 의해 생성된 토큰(서비스 인도 파라미터)을, 오디오 WM 삽입 모듈(212)에 공급한다.

오디오 WM 삽입 모듈(212)은, 오디오 디코더(201)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 애플리케이션 실행 환경(211)의 애플리케이션에 의해 생성된 서비스 인도 파라미터를, 오디오 워터마크로서 삽입(인코드)하여, 오디오 스피커(202)에 공급한다.

오디오 스피커(202)는, 오디오 WM 삽입 모듈(212)로부터 공급되는 기저 대역의 CM/프로그램 오디오 스트림(수신측에서 서비스 인도 파라미터를 오디오 워터마크로서 삽입한 스트림)에 따른 음성을 출력한다.

또한, 도 18의 음성 처리 장치(30D)는, 도 14의 음성 처리 장치(30C)와 마찬가지의 구성을 갖고 있기 때문에, 여기에서는 그 설명을 생략한다. 단, 로컬측의 음성 처리 장치(30D)는, 클라우드측의 서버 장치(40)와 연계함으로써, 음성 AI 어시스턴스 서비스의 일부의 처리가, 서버 장치(40)에 의해 행해지도록 해도 된다.

여기서, 음성 처리 장치(30D)에 대한 시청자(2)에 의한 웨이크 워드의 발화이지만, 예를 들어 클라이언트 장치(20D)에 있어서, 도 19에 도시한 바와 같은 발화 지시 메시지(271)가 표시되도록 함으로써, 시청자(2)에 대해, 음성 AI 어시스턴스 서비스를 기동하기 위한 웨이크 워드의 발화를 촉구할 수 있다.

도 19에 있어서는, 발화 지시 메시지(271)로서, 「만약 이 프로그램에서 소개되고 있는 상품을 구입하고 싶으면, "Service A"라고만 말해 주세요.」가 표시되어 있다. 그리고, 이 발화 지시 메시지(271)를 확인한 시청자(2)는, "Service A"인 웨이크 워드를 발화하게 된다.

(콘텐츠·음성 AI 연계 처리의 흐름)

다음에, 도 20 내지 도 21의 흐름도를 참조하여, 워터마크의 삽입을 수신측에서 행하는 경우의 콘텐츠·음성 AI 연계 처리의 흐름을 설명한다.

여기서, 도 20은 서버 장치(10D)와, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 실행되는 송신측의 처리의 흐름을 설명하는 흐름도이다. 한편, 도 21은 클라이언트 장치(20D)와 음성 처리 장치(30D)에 의해 실행되는 수신측의 처리의 흐름을 설명하는 흐름도이다.

스텝 S131에 있어서, CM/프로그램 뱅크(101)는, CM/프로그램 스트림을, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

스텝 S133에 있어서, 애플리케이션 제너레이터(111)는, 애플리케이션 생성용 데이터에 기초하여, 애플리케이션을 생성한다.

여기서, 애플리케이션은, 토큰 제너레이터 기능(상술한 토큰 제너레이터(103)와 동등한 기능)을 갖고 있다. 또한, 애플리케이션을 생성할 때는, 서비스 인도 파라미터의 일부(예를 들어, 시청자 고유의 속성 정보 이외의 공통의 정보)를, 하드 코드로 매립하도록 해도 된다.

스텝 S134에 있어서, 애플리케이션 제너레이터(111)는, 스텝 S133의 처리에서 얻어지는 애플리케이션을, 방송 시스템(11) 또는 넷 배신 시스템(12)에 송출한다.

이와 같이 하여, 서버 장치(10D)에서 얻어지는 CM/프로그램 스트림과 애플리케이션은, 콘텐츠의 배신 방식에 따라서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 송출된다.

그리고, 도 20에 있어서, 방송 시스템(11) 또는 넷 배신 시스템(12)에 의해 배신된 CM/프로그램 스트림과 애플리케이션은, 도 21에 있어서, 클라이언트 장치(20D)에 의해 수신된다. 클라이언트 장치(20D)에 있어서는, CM/프로그램 오디오 스트림이, 오디오 디코더(201)에 입력되고, 애플리케이션이, 애플리케이션 실행 환경(211)에 입력된다.

스텝 S231에 있어서, 오디오 디코더(201)는, CM/프로그램 오디오 스트림을 디코드하여, 기저 대역의 CM/프로그램 오디오 스트림을 얻는다.

스텝 S233에 있어서, 애플리케이션 실행 환경(211)은, 애플리케이션을 실행한다. 이때, 애플리케이션은, 토큰 제너레이터 기능을 갖고 있기 때문에, 토큰으로서의 서비스 인도 파라미터를 생성하여 취득할 수 있다.

여기서, 서비스 인도 파라미터로서는, 예를 들어 「ask, shoppingApp, my personal account number is 1234567890」인, 음성 AI 어시스턴스 서비스에 대해, 시청자(2)가 어떻게 발화하면 되는지를 나타내는 문자열(메시지)이 생성된다.

또한, 서비스 인도 파라미터를 생성할 때는, 애플리케이션 실행 환경(211)에서 실행되는 애플리케이션 자신이, 시청자(2)의 프라이버시에 관련되는 시청자 고유의 속성 정보(예를 들어, "1234567890"인 어카운트 번호)를, 데이터베이스(예를 들어, 클라이언트 장치(20)의 초기 설정 메뉴에 의해 시청자 특유의 정보가 설정된 데이터베이스 등)으로부터 취득하고, 그 정보에 기초하여, 서비스 인도 파라미터를 생성하게 된다.

예를 들어, 도 7의 확인 메시지(251)에 대해, CM이나 프로그램의 음성에 의한 음성 AI 어시스턴스 서비스의 임의 이용을 허가하는 경우에는, 시청자(2)에 의해 「OK 버튼」이 조작되고, 애플리케이션 실행 환경(211)은, 워터마크 삽입 지시를 접수한다(S234). 이 경우에는, 오디오 워터마크를 삽입하는 처리가 행해지게 된다.

또한, 상술한 바와 같이, 미리 의향 확인을 행해 두고, 그 시청자 의향 정보를, 초기 설정 데이터베이스에 저장하여 그것을 이용하도록 해도 된다. 또한, 스텝 S234의 처리를 행하지 않고, 강제적으로, 오디오 워터마크의 삽입 처리가 실행되도록 해도 된다.

스텝 S232에 있어서, 오디오 WM 삽입 모듈(212)은, 스텝 S231의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림에 대해, 스텝 S233의 처리에서 얻어지는 서비스 인도 파라미터를, 오디오 워터마크로서 삽입(인코드)한다.

또한, 클라이언트 장치(20D)에서는, 오디오 스피커(202)로부터 출력되는 음량이 충분한 것이 되도록, 오디오 스피커(202)의 오디오 출력 음량을 조정한다(S235).

또한, 이때, 클라이언트 장치(20D)에서는, 시청자(2)에 대하여, 음성 AI 어시스턴스 서비스를 기동하기 위한 웨이크 워드(예를 들어, 「Service A」)의 발화 지시를 행한다(S236).

여기에서는, 클라이언트 장치(20D)에 있어서, 예를 들어 「만약 이 프로그램에서 소개되고 있는 상품을 구입하고 싶으면, "Service A"라고만 말해 주세요.」인 발화 지시 메시지(271)(도 19)가, CM 또는 프로그램의 오디오 스트림에, 오디오 워터마크가 삽입되어 있는 구간에 표시되도록 한다. 그리고, 이 표시를 확인한 시청자(2)는, 웨이크 워드를 발화하게 된다(S31).

스텝 S237에 있어서, 오디오 스피커(202)는, 스텝 S232의 처리에서 얻어지는 기저 대역의 CM/프로그램 오디오 스트림(수신측에서 서비스 인도 파라미터를 오디오 워터마크로서 삽입한 스트림)에 따른 음성을 출력한다.

또한, 여기에서도, 설명을 간략화하기 위해, CM/프로그램 오디오 스트림에 대해서만 설명하고 있지만, 클라이언트 장치(20D)에서는, CM/프로그램 비디오 스트림에 대해서도, 비디오 디코더에 의해 디코드되어, 기저 대역의 CM/프로그램 비디오 스트림에 따른 CM이나 프로그램의 영상이 디스플레이에 표시된다.

시청자(2)에 의해 발화된 웨이크 워드와, 클라이언트 장치(20D)의 오디오 스피커(202)로부터 출력된 음성은, 음성 처리 장치(30D)의 오디오 마이크(311)에 의해 수음된다.

스텝 S331 내지 S335에 있어서는, 도 17의 스텝 S321 내지 S325와 마찬가지로, 시청자(2)에 의해 발화된 웨이크 워드가 인식된 경우에, 음성 AI 어시스턴스 서비스가 기동되어, 서비스 인도 파라미터의 검출이 유효화되고, 오디오 마이크(311)로부터의 오디오 스트림에 삽입되어 있는 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는지 여부가 판정된다.

그리고, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있는 것으로 판정된 경우에는, 서비스 인도 파라미터가, 음성 인식 결과로서, 후속의 처리에 전달된다(S335). 한편, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있지 않는 것으로 판정된 경우에는, 음성 인식 결과가, 후속의 처리에 전달되지 않도록 한다.

이와 같이, 음성 처리 장치(30D)에서는, 오디오 스트림에, 서비스 인도 파라미터로서, 예를 들어 「ask, shoppingApp, my personal account number is 1234567890」인 문자열(메시지)이 삽입되어 있는 경우에는, 이 메시지를, 음성 인식 결과로서, 후속의 처리에 전달하도록 하고 있다. 그 때문에, 예를 들어 음성 AI 어시스턴스 서비스를 이용하는 시청자(2)가, 프레이즈가 너무 길어 기억할 수 없는 것이나, 프라이버시나 시큐리티에 관련되는 내용의 발화가 요구된다는 상황을 피할 수 있다.

이상, 제2 실시 형태에 대하여 설명하였다. 이 제2 실시 형태에서는, 송신측의 서버 장치(10) 또는 수신측의 클라이언트 장치(20)에서, 오디오 워터마크로서, 서비스 인도 파라미터를 삽입하여, 로컬측의 음성 처리 장치(30) 또는 클라우드측의 서버 장치(40)에서, 이 서비스 인도 파라미터가 검출되도록 함으로써, 시청자가 발화를 지시대로 정확하게 할 수 없거나, 혹은, 발화를 주저하는 내용이 포함되는 경우에 있어서도, 고정밀도로, 또한, 시큐리티를 고려하여, 음성 AI 어시스턴스 서비스를 이용할 수 있다. 그 결과로서, 보다 실용성이 높은 음성 AI 어시스턴스 서비스를 제공할 수 있다.

그때, 시청자에 대해, 음성 AI 어시스턴스 서비스를 이용한다는 의지 표시로서의 웨이크 워드의 발화를 확인하여, 시청자의 동의를 얻고 나서, 음성 AI 어시스턴스 서비스의 이용을 개시할 수 있다.

여기서, 만약, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있지 않으면, 예를 들어 다음에 나타내는 바와 같은, 시청자에게 있어서, 정확하게 발화하기에는, 너무 긴 내용을 발화해야만 한다.

즉, 상술한 (C)의 「워터마크의 삽입을 송신측에서 행하는 구성」의 예의 경우, 도 22에 도시한 바와 같이, 발화 지시 메시지(281)로서, 「만약 이 프로그램의 캐스트의 프라이빗한 정보를 알고 싶으면, "Service A, ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL"이라고 말해 주세요.」가 표시되고, 이 긴 내용을, 시청자가 발화할 필요가 생긴다.

그것에 반해, 제2 실시 형태에서는, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있기 때문에, 예를 들어 상술한 도 15의 발화 지시 메시지(261)를 확인한 시청자는, 간단히 "Service A"인 웨이크 워드만을 발화하면 되기 때문에, 정확하게 발화하는 것이 가능해진다.

또한, 만약, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있지 않으면, 예를 들어 다음에 나타내는 바와 같은, 발화 내용에 시청자가 프라이빗한 정보가 포함되는 경우에는, 시청자가 발화를 주저하는 경우도 상정된다.

즉, 상술한 (D)의 「워터마크의 삽입을 수신측에서 행하는 구성」의 예의 경우, 도 23에 도시한 바와 같이, 발화 지시 메시지(291)로서, 「만약 이 프로그램에서 소개되고 있는 상품을 구입하고 싶으면, "Service A, ask, shoppingApp, my personal account number is 1234567890"이라고 말해 주세요.」가 표시되고, 이 시청자 고유의 속성 정보(예를 들어, "1234567890"인 어카운트 번호)를, 시청자가 발화할 필요가 생긴다.

그것에 반해, 제2 실시 형태에서는, 오디오 워터마크로서, 서비스 인도 파라미터가 삽입되어 있기 때문에, 예를 들어 상술한 도 19의 발화 지시 메시지(271)를 확인한 시청자는, 간단히 "Service A"인 웨이크 워드만을 발화하면 되기 때문에, 시청자 고유의 속성 정보를 발화할 필요는 없다.

<3. 변형예>

(토큰의 삽입의 다른 예)

상술한 설명에서는, 토큰이, 오디오 워터마크로서, 오디오 스트림에 삽입되는 경우를 나타냈지만, 오디오 워터마크는 일례이며, 토큰을 매립하는 방법으로서는, 다른 방법을 사용하도록 해도 된다. 여기에서는, 예를 들어 CM이나 프로그램 등의 콘텐츠의 오디오 스트림으로부터 추출되는 특징량인 핑거 프린트(Finger Print) 정보를 이용하여, 토큰이 매립되도록 해도 된다.

또한, 오디오 워터마크로서는, 예를 들어 하기의 비특허문헌 1, 2에 그 상세한 내용이 기재되어 있다. 비특허문헌 1, 2는, 차세대 지상파 방송 규격의 하나인, ATSC(Advanced Television Systems Committee)3.0에 있어서의, 오디오 워터마크가 규정되어 있다.

비특허문헌 1: ATSC Standard: Audio Watermark Emission(A/334)

비특허문헌 2: ATSC Standard: Content Recovery in Redistribution Scenarios(A/336)

(애플리케이션의 예)

상술한 설명에서는, 클라이언트 장치(20)의 애플리케이션 실행 환경(211)에서 실행되는 애플리케이션으로서, 브라우저에 의해 실행되는 방송 부수의 방송 애플리케이션을 일례로 들어 설명하였지만, 예를 들어 OS(Operating System) 환경(제시 제어 환경) 등에서 실행되는 네이티브 애플리케이션 등의 다른 애플리케이션이어도 된다.

또한, 애플리케이션은, HTML5(HyperText Markup Language 5) 등의 마크업 언어나 JavaScript(등록 상표) 등의 스크립트 언어로 개발된 애플리케이션(브라우저 상에서 실행되는 애플리케이션)에 한하지 않고, 예를 들어 Java(등록 상표) 등의 프로그래밍 언어로 개발된 애플리케이션이어도 된다.

또한, 클라이언트 장치(20)에서 실행되는 애플리케이션은, 방송 경유로 취득되는 것에 한하지 않고, 인터넷(50) 상의 서버로부터, 통신 경유로 취득되도록 해도 된다. 또한, 상술한 콘텐츠는, CM이나 프로그램에 한하지 않고, 예를 들어 음악이나 동화상, 전자 서적이나 게임, 광고 등, 모든 콘텐츠를 포함시킬 수 있다. 또한, CM이나 프로그램은, 서비스 또는 채널 전체, 혹은 그 일부라고 하는 경우도 상정된다.

(수신측과 로컬측의 기기의 하드웨어 구성)

상술한 설명에서는, 클라이언트 장치(20)의 하드웨어 구성에 대하여, 특별히 설명하고 있지 않지만, 예를 들어 다음과 같은 구성으로 할 수 있다. 즉, 클라이언트 장치(20)는, 예를 들어 텔레비전 수상기로서 구성되기 때문에, 오디오 디코더(201)와 오디오 스피커(202) 외에, 예를 들어 CPU(Central Processing Unit)나 메모리, 튜너, 디멀티플렉서, 비디오 디코더, 디스플레이, 통신 I/F 등을 포함하여 구성할 수 있다.

또한, 음성 처리 장치(30)의 하드웨어 구성에 대하여, 특별히 설명하고 있지 않지만, 예를 들어 다음과 같은 구성으로 할 수 있다. 즉, 음성 처리 장치(30)는, 예를 들어 스마트 스피커로서 구성되기 때문에, 오디오 마이크(311) 외에, 예를 들어 CPU나 메모리, 스피커, 통신 I/F 등을 포함하여 구성할 수 있다.

또한, 상술한 설명에서는, 클라이언트 장치(20)와 음성 처리 장치(30)는, 각각의 기기로서 구성되는 것으로서 설명하였지만, 클라이언트 장치(20)와 음성 처리 장치(30)가 일체화된 기기(동곤형 디바이스)로서 구성되도록 해도 된다. 예를 들어, 음성 처리 장치(30)의 기능을, 음성 처리 모듈로서 제공하고, 클라이언트 장치(20)의 기능에 포함시킴으로써, 동곤형 디바이스로서 구성할 수 있다.

또한, 서버 장치(10), 클라이언트 장치(20), 음성 처리 장치(30), 및 서버 장치(40)는, 정보 처리 장치라고도 할 수 있다.

또한, 상술한 설명에서는, 클라이언트 장치(20)는, 텔레비전 수상기 등의 고정 수신기, 또는 스마트폰 등의 모바일 수신기인 것으로서 설명하였지만, 클라이언트 장치(20)는, 헤드 마운트 디스플레이(HMD: Head Mounted Display) 등의 웨어러블 컴퓨터여도 된다. 또한, 클라이언트 장치(20)는, 예를 들어 차량 탑재 텔레비전 등의 자동차에 탑재되는 기기나, 셋톱 박스(STB: Set Top Box), 게임기 등이어도 된다. 즉, 클라이언트 장치(20)는, 콘텐츠의 재생이나 녹화가 가능한 기기이면, 어느 기기여도 된다.

(방송 방식의 예)

상술한 설명에서는, 방송 시스템(11)의 방송 방식에 대하여 특별히 언급하고 있지 않지만, 방송 방식으로서는, 예를 들어 미국 등에서 채용되고 있는 방식인 ATSC(특히, ATSC3.0)나, 일본 등이 채용하는 방식인 ISDB(Integrated Services Digital Broadcasting), 유럽의 각국 등이 채용하는 방식인 DVB(Digital Video Broadcasting) 등을 채용할 수 있다. 또한, 방송 경유의 배신의 경우의 전송로로서는, 지상파 방송 외에, 방송 위성(BS: Broadcasting Satellite)이나 통신 위성(CS: Communications Satellite) 등을 이용한 위성 방송이나, 케이블 텔레비전(CATV) 등의 유선 방송이어도 된다.

(기타)

본 명세서에서 사용하고 있는 명칭은, 일례이며, 실제로는, 다른 명칭이 사용되는 경우가 있다. 단, 이들 명칭의 차이는, 형식적인 차이이며, 대상인 것의 실질적인 내용이 다른 것은 아니다. 예를 들어, 상술한 웨이크 워드는, 액티베이션 키워드나, 커맨드 워드 등이라 칭해지는 경우가 있다.

<4. 컴퓨터의 구성>

상술한 일련의 처리는, 하드웨어에 의해 실행할 수도 있고, 소프트웨어에 의해 실행할 수도 있다. 일련의 처리를 소프트웨어에 의해 실행하는 경우에는, 그 소프트웨어를 구성하는 프로그램이, 컴퓨터에 인스톨된다. 도 24는 상술한 일련의 처리를 프로그램에 의해 실행하는 컴퓨터의 하드웨어의 구성예를 도시하는 도면이다.

컴퓨터(1000)에 있어서, CPU(Central Processing Unit)(1001), ROM(Read Only Memory)(1002), RAM(Random Access Memory)(1003)은, 버스(1004)에 의해 서로 접속되어 있다. 버스(1004)에는, 또한, 입출력 인터페이스(1005)가 접속되어 있다. 입출력 인터페이스(1005)에는, 입력부(1006), 출력부(1007), 기록부(1008), 통신부(1009), 및, 드라이브(1010)가 접속되어 있다.

입력부(1006)는, 키보드, 마우스, 마이크로폰 등을 포함한다. 출력부(1007)는, 디스플레이, 스피커 등을 포함한다. 기록부(1008)는, 하드 디스크나 불휘발성 메모리 등을 포함한다. 통신부(1009)는, 네트워크 인터페이스 등을 포함한다. 드라이브(1010)는, 자기 디스크, 광 디스크, 광자기 디스크, 또는 반도체 메모리 등의 리무버블 기록 매체(1011)를 구동한다.

이상과 같이 구성되는 컴퓨터(1000)에서는, CPU(1001)가, ROM(1002)이나 기록부(1008)에 기록되어 있는 프로그램을, 입출력 인터페이스(1005) 및 버스(1004)를 통해, RAM(1003)에 로드하여 실행함으로써, 상술한 일련의 처리가 행해진다.

컴퓨터(1000)(CPU(1001))가 실행하는 프로그램은, 예를 들어 패키지 미디어 등으로서의 리무버블 기록 매체(1011)에 기록하여 제공할 수 있다. 또한, 프로그램은, 로컬 에어리어 네트워크, 인터넷, 디지털 위성 방송과 같은, 유선 또는 무선의 전송 매체를 통해 제공할 수 있다.

컴퓨터(1000)에서는, 프로그램은, 리무버블 기록 매체(1011)를 드라이브(1010)에 장착함으로써, 입출력 인터페이스(1005)를 통해, 기록부(1008)에 인스톨할 수 있다. 또한, 프로그램은, 유선 또는 무선의 전송 매체를 통해, 통신부(1009)에서 수신하고, 기록부(1008)에 인스톨할 수 있다. 그 밖에, 프로그램은, ROM(1002)이나 기록부(1008)에, 미리 인스톨해 둘 수 있다.

여기서, 본 명세서에 있어서, 컴퓨터가 프로그램에 따라서 행하는 처리는, 반드시 흐름도로서 기재된 순서에 따라서 시계열로 행해질 필요는 없다. 즉, 컴퓨터가 프로그램에 따라서 행하는 처리는, 병렬적 혹은 개별로 실행되는 처리(예를 들어, 병렬 처리 혹은 오브젝트에 의한 처리)도 포함한다. 또한, 프로그램은, 하나의 컴퓨터(프로세서)에 의해 처리되는 것이어도 되고, 복수의 컴퓨터에 의해 분산 처리되는 것이어도 된다.

또한, 본 기술의 실시 형태는, 상술한 실시 형태에 한정되는 것은 아니고, 본 기술의 요지를 일탈하지 않는 범위에 있어서 다양한 변경이 가능하다.

또한, 본 기술은, 이하와 같은 구성을 취할 수 있다.

(1)

콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을, 상기 콘텐츠의 오디오 스트림에 삽입하는 삽입부를 구비하는 정보 처리 장치.

(2)

상기 토큰은, 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리를 금지 또는 허가하기 위한 토큰인 상기 (1)에 기재된 정보 처리 장치.

(3)

상기 토큰은, 상기 음성 AI 어시스턴스 서비스에 건네지는 파라미터인 상기 (1)에 기재된 정보 처리 장치.

(4)

상기 토큰을 생성하는 생성부를 더 구비하고,

상기 삽입부는, 상기 생성부에 의해 생성된 상기 토큰을, 배신 대상의 콘텐츠의 오디오 스트림에 삽입하는 상기 (1) 내지 (3) 중 어느 것에 기재된 정보 처리 장치.

(5)

상기 삽입부는, 상기 토큰을, 오디오 워터마크로서, 방송 경유 또는 통신 경유로 배신되는 상기 콘텐츠의 오디오 스트림에 삽입하는 상기 (4)에 기재된 정보 처리 장치.

(6)

상기 토큰을 생성하는 기능을 갖는 애플리케이션을 실행하는 실행부를 더 구비하고,

상기 삽입부는, 실행 중인 상기 애플리케이션에 의해 생성된 상기 토큰을, 재생 대상의 콘텐츠의 오디오 스트림에 삽입하는 상기 (1) 내지 (3) 중 어느 것에 기재된 정보 처리 장치.

(7)

상기 삽입부는, 방송 경유 또는 통신 경유로 배신된 상기 애플리케이션에 의해 생성된 상기 토큰을, 오디오 워터마크로서, 방송 경유 또는 통신 경유로 배신된 상기 콘텐츠의 오디오 스트림에 삽입하는 상기 (6)에 기재된 정보 처리 장치.

(8)

상기 토큰은, 상기 콘텐츠의 오디오 스트림에 삽입된 상기 토큰의 검출을 행하는 측에, 미리 통지되는 상기 (2)에 기재된 정보 처리 장치.

(9)

상기 파라미터는, 암호화되거나, 또는 개찬 검출용 서명이 부여되는 상기 (3)에 기재된 정보 처리 장치.

(10)

정보 처리 장치의 정보 처리 방법에 있어서,

상기 정보 처리 장치가,

콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을, 상기 콘텐츠의 오디오 스트림에 삽입하는 정보 처리 방법.

(11)

콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을 검출하는 검출부를 구비하는 정보 처리 장치.

(12)

상기 토큰은, 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리를 금지하기 위한 토큰인 상기 (11)에 기재된 정보 처리 장치.

(13)

상기 콘텐츠의 오디오 스트림에 대한 음성 인식 처리를 행하는 음성 인식부를 더 구비하고,

상기 검출부는, 상기 콘텐츠의 오디오 스트림으로부터, 미리 통지된 상기 토큰이 검출된 경우, 상기 음성 인식 처리에서 얻어지는 음성 인식 결과를 무효로 하는 상기 (12)에 기재된 정보 처리 장치.

(14)

상기 토큰은, 상기 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리를 허가하기 위한 토큰인 상기 (11)에 기재된 정보 처리 장치.

(15)

상기 검출부는, 상기 콘텐츠의 오디오 스트림으로부터, 미리 통지된 상기 토큰이 검출된 경우, 상기 음성 인식 처리에서 얻어지는 음성 인식 결과를, 후속의 처리에 전달하는 상기 (14)에 기재된 정보 처리 장치.

(16)

상기 토큰은, 상기 음성 AI 어시스턴스 서비스에 건네지는 파라미터인 상기 (11)에 기재된 정보 처리 장치.

(17)

상기 검출부는, 상기 콘텐츠의 오디오 스트림으로부터, 상기 파라미터가 검출된 경우, 당해 파라미터를, 후속의 처리에 전달하는 상기 (16)에 기재된 정보 처리 장치.

(18)

상기 검출부는, 상기 콘텐츠를 시청하는 시청자로부터, 상기 음성 AI 어시스턴스 서비스의 웨이크 워드가 발화된 경우, 상기 콘텐츠의 오디오 스트림에 삽입된 상기 토큰의 검출을 행하는 상기 (16) 또는 (17)에 기재된 정보 처리 장치.

(19)

방송 경유 또는 통신 경유로 배신된 상기 콘텐츠의 재생을 행하는 다른 정보 처리 장치로부터 출력되는 상기 콘텐츠의 음성을 수음하는 수음부를 더 구비하고,

상기 검출부는, 상기 수음부에 의해 수음된 상기 콘텐츠의 음성의 오디오 스트림에, 오디오 워터마크로서 삽입되어 있는 상기 토큰을 검출하는 상기 (11) 내지 (18) 중 어느 것에 기재된 정보 처리 장치.

(20)

정보 처리 장치의 정보 처리 방법에 있어서,

상기 정보 처리 장치가,

콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 토큰을 검출하는 정보 처리 방법.

1: 콘텐츠·음성 AI 연계 시스템
10, 10A, 10B, 10C, 10D: 서버 장치
11: 방송 시스템
12: 넷 배신 시스템
20, 20A, 20B, 20C, 20D: 클라이언트 장치
30, 30A, 30B, 30C, 30D: 음성 처리 장치
40: 서버 장치
50: 인터넷
101: CM/프로그램 뱅크
102: 오디오 디코더
103: 토큰 제너레이터
104: 오디오 WM 삽입 모듈
105: 오디오 인코더
111: 애플리케이션 제너레이터
201: 오디오 디코더
202: 오디오 스피커
211: 애플리케이션 실행 환경
212: 오디오 WM 삽입 모듈
301: 수음 모듈
302: 오디오 WM 검출 모듈
303: 음성 인식 모듈
311: 오디오 마이크
1000: 컴퓨터
1001: CPU

Claims

정보 처리 장치로서,
콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 음성 인식 처리 토큰을 상기 콘텐츠의 오디오 스트림에 삽입하도록 구성되는 회로를 포함하고,
상기 음성 인식 처리 토큰은 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리가 금지 또는 허가되는지 여부를 나타내고,
허가된 음성 인식 처리 조작은 상기 정보 처리 장치의 사용자의 응답에 연계하여 상기 사용자에게 제시되는 메시지 및 사용자 질의 토큰에 의해 확인되고,
상기 사용자 질의 토큰은 상기 콘텐츠의 음성의 오디오 스트림에 삽입되는 오디오 워터마크인, 정보 처리 장치.
제1항에 있어서,
상기 음성 인식 처리 토큰은 상기 음성 AI 어시스턴스 서비스에 건네지는 파라미터를 포함하는, 정보 처리 장치.
제1항에 있어서,
상기 회로는,
상기 음성 인식 처리 토큰을 생성하고, 생성된 상기 음성 인식 처리 토큰을 배신 대상의 콘텐츠의 오디오 스트림에 삽입하도록 구성되는, 정보 처리 장치.
제3항에 있어서,
상기 회로는,
상기 음성 인식 처리 토큰을, 오디오 워터마크로서, 방송 경유 또는 통신 경유로 배신되는 상기 콘텐츠의 오디오 스트림에 삽입하도록 구성되는, 정보 처리 장치.
제1항에 있어서,
상기 회로는,
실행될 때, 상기 음성 인식 처리 토큰을 생성하는 애플리케이션을 실행하도록 구성되고,
상기 회로는 실행 중인 상기 애플리케이션에 의해 생성된 상기 음성 인식 처리 토큰을 재생 대상의 콘텐츠의 오디오 스트림에 삽입하는, 정보 처리 장치.
제5항에 있어서,
상기 회로는,
방송 경유 또는 통신 경유로 배신된 상기 애플리케이션에 의해 생성된 상기 음성 인식 처리 토큰을, 오디오 워터마크로서, 방송 경유 또는 통신 경유로 배신된 상기 콘텐츠의 오디오 스트림에 삽입하도록 구성되는, 정보 처리 장치.
제1항에 있어서,
상기 음성 인식 처리 토큰은 상기 콘텐츠의 오디오 스트림에 삽입된 상기 음성 인식 처리 토큰의 검출을 행하는 회로에 미리 통지되는, 정보 처리 장치.
제2항에 있어서,
상기 파라미터는 암호화되거나, 또는 개찬 검출용 서명이 부여되는, 정보 처리 장치.
정보 처리 장치의 정보 처리 방법에 있어서,
상기 정보 처리 장치의 회로에 의해, 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 음성 인식 처리 토큰을 상기 콘텐츠의 오디오 스트림에 삽입하는 단계를 포함하고,
상기 음성 인식 처리 토큰은 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리가 금지 또는 허가되는지 여부를 나타내고,
허가된 음성 인식 처리 조작은 상기 정보 처리 장치의 사용자의 응답에 연계하여 상기 사용자에게 제시되는 메시지 및 사용자 질의 토큰에 의해 확인되고,
상기 사용자 질의 토큰은 상기 콘텐츠의 음성의 오디오 스트림에 삽입되는 오디오 워터마크인, 정보 처리 방법.
정보 처리 장치로서,
콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 음성 인식 처리 토큰을 검출하도록 구성되는 회로를 포함하고,
상기 음성 인식 처리 토큰은 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리가 금지 또는 허가되는지 여부를 나타내고,
허가된 음성 인식 처리 조작은 상기 정보 처리 장치의 사용자의 응답에 연계하여 상기 사용자에게 제시되는 메시지 및 사용자 질의 토큰에 의해 확인되고,
상기 사용자 질의 토큰은 상기 콘텐츠의 음성의 오디오 스트림에 삽입되는 오디오 워터마크인, 정보 처리 장치.
제10항에 있어서,
상기 회로는 상기 콘텐츠의 오디오 스트림에 대한 음성 인식 처리를 행하도록 구성되고,
상기 콘텐츠의 오디오 스트림으로부터 상기 음성 인식 처리 토큰이 검출된 경우, 상기 음성 인식 처리에서 얻어지는 음성 인식 결과가 무효로 되는, 정보 처리 장치.
제10항에 있어서,
상기 음성 인식 처리 토큰은 상기 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리를 허가하기 위한 음성 인식 처리 토큰을 포함하는, 정보 처리 장치.
제12항에 있어서,
상기 회로는,
상기 콘텐츠의 오디오 스트림에 대한 음성 인식 처리를 행하고,
상기 콘텐츠의 오디오 스트림으로부터 미리 통지된 상기 음성 인식 처리 토큰이 검출된 경우, 상기 음성 인식 처리에서 얻어지는 음성 인식 결과를 후속의 처리에 전달하도록 구성되는, 정보 처리 장치.
제10항에 있어서,
상기 음성 인식 처리 토큰은 상기 음성 AI 어시스턴스 서비스에 건네지는 파라미터를 포함하는, 정보 처리 장치.
제14항에 있어서,
상기 회로는,
상기 콘텐츠의 오디오 스트림으로부터 상기 파라미터가 검출된 경우, 당해 파라미터를 후속의 처리에 전달하도록 구성되는, 정보 처리 장치.
제15항에 있어서,
상기 회로는,
상기 콘텐츠를 시청하는 시청자로부터 상기 음성 AI 어시스턴스 서비스의 웨이크 워드가 발화된 경우, 상기 콘텐츠의 오디오 스트림에 삽입된 상기 음성 인식 처리 토큰의 검출을 행하도록 구성되는, 정보 처리 장치.
제10항에 있어서,
상기 회로는,
방송 경유 또는 통신 경유로 배신된 상기 콘텐츠의 재생을 행하는 다른 정보 처리 장치로부터 출력되는 콘텐츠의 음성을 수음하고,
상기 콘텐츠의 음성의 오디오 스트림에 오디오 워터마크로서 삽입되어 있는 음성 인식 처리 토큰을 검출하도록 구성되는, 정보 처리 장치.
정보 처리 장치의 정보 처리 방법에 있어서,
콘텐츠의 오디오 스트림으로부터, 상기 콘텐츠에 연계한 음성 AI 어시스턴스 서비스의 이용에 관한 음성 응답 처리 토큰을 검출하는 단계를 포함하고,
상기 음성 응답 처리 토큰은 상기 콘텐츠의 오디오 스트림에 대한 상기 음성 AI 어시스턴스 서비스에 의한 음성 인식 처리가 금지 또는 허가되는지 여부를 나타내고,
허가된 음성 인식 처리 조작은 상기 정보 처리 장치의 사용자의 응답에 연계하여 상기 사용자에게 제시되는 메시지 및 사용자 질의 토큰에 의해 확인되고,
상기 사용자 질의 토큰은 상기 콘텐츠의 음성의 오디오 스트림에 삽입되는 오디오 워터마크인, 정보 처리 방법.
제1항에 있어서,
상기 정보 처리 장치는 디지털 텔레비전을 포함하는, 정보 처리 장치.
제19항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 출력되는 오디오 메시지인, 정보 처리 장치.
제19항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 표시되는 시각적 메시지인, 정보 처리 장치.
제9항에 있어서,
상기 정보 처리 장치는 디지털 텔레비전을 포함하는, 정보 처리 방법.
제22항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 출력되는 오디오 메시지인, 정보 처리 방법.
제22항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 표시되는 시각적 메시지인, 정보 처리 방법.
제10항에 있어서,
상기 정보 처리 장치는 디지털 텔레비전을 포함하는, 정보 처리 장치.
제25항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 출력되는 오디오 메시지인, 정보 처리 장치.
제25항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 표시되는 시각적 메시지인, 정보 처리 장치.
제18항에 있어서,
상기 정보 처리 장치는 디지털 텔레비전을 포함하는, 정보 처리 방법.
제28항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 출력되는 오디오 메시지인, 정보 처리 방법.
제28항에 있어서,
상기 사용자에게 제시되는 메시지는 상기 정보 처리 장치에 의해 표시되는 시각적 메시지인, 정보 처리 방법.