JPWO2019188269A1 - 情報処理装置、情報処理方法、送信装置、及び送信方法 - Google Patents

情報処理装置、情報処理方法、送信装置、及び送信方法 Download PDF

Info

Publication number
JPWO2019188269A1
JPWO2019188269A1 JP2020509857A JP2020509857A JPWO2019188269A1 JP WO2019188269 A1 JPWO2019188269 A1 JP WO2019188269A1 JP 2020509857 A JP2020509857 A JP 2020509857A JP 2020509857 A JP2020509857 A JP 2020509857A JP WO2019188269 A1 JPWO2019188269 A1 JP WO2019188269A1
Authority
JP
Japan
Prior art keywords
voice
information
skill
program
name
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020509857A
Other languages
English (en)
Other versions
JP7269221B2 (ja
Inventor
卓己 津留
卓己 津留
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019188269A1 publication Critical patent/JPWO2019188269A1/ja
Application granted granted Critical
Publication of JP7269221B2 publication Critical patent/JP7269221B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8126Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts
    • H04N21/8133Monomedia components thereof involving additional data, e.g. news, sports, stocks, weather forecasts specifically related to the content, e.g. biography of the actors in a movie, detailed information about an article seen in a video program
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/41Structure of client; Structure of client peripherals
    • H04N21/422Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS]
    • H04N21/42203Input-only peripherals, i.e. input devices connected to specially adapted client devices, e.g. global positioning system [GPS] sound input device, e.g. microphone
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/472End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content
    • H04N21/4722End-user interface for requesting content, additional data or services; End-user interface for interacting with content, e.g. for content reservation or setting reminders, for requesting event notification, for manipulating displayed content for requesting additional data associated with the content
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/65Transmission of management data between client and server
    • H04N21/658Transmission by the client directed to the server
    • H04N21/6587Control parameters, e.g. trick play commands, viewpoint selection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

本技術は、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする情報処理装置、情報処理方法、送信装置、及び送信方法に関する。
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数のプログラムで共通の呼び出し名と、プログラムごとの固有の情報とを対応付けた対応情報に基づいて、視聴者の発話の音声に含まれる共通の呼び出し名に対応付けられた固有の情報を処理する処理部を備える情報処理装置が提供される。本技術は、例えば、音声AIアシスタンスサービスと連携したシステムに適用することができる。

Description

本技術は、情報処理装置、情報処理方法、送信装置、及び送信方法に関し、特に、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにした情報処理装置、情報処理方法、送信装置、及び送信方法に関する。
放送コンテンツに連動して実行される放送アプリケーションが提案されている(例えば、特許文献1参照)。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。
また、ユーザの発話内容を解析する音声認識に関する技術が提案されている(例えば、特許文献2参照)。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。
特開2013−187781号公報 特開2014−153663号公報
近年、音声AIアシスタンスサービスが急速に普及しているが、テレビ受像機等の受信機で再生される放送コンテンツや放送アプリケーションに連携して、音声AIアシスタンスサービスを利用する際に、放送局や放送番組ごとに、放送コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名が異なる。
そのため、視聴者は、すべての呼び出し名を把握した上で、対象の呼び出し名を切り替えて発話する必要があって、放送コンテンツ等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を損ねる可能性があり、当該音声AIアシスタンスサービスの利便性を向上させるための技術が求められていた。
本技術はこのような状況に鑑みてなされたものであり、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。
本技術の第1の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える情報処理装置である。
本技術の第1の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第1の側面の情報処理方法は、上述した本技術の第1の側面の情報処理装置に対応する情報処理方法である。
本技術の第1の側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報が処理される。
本技術の第2の側面の送信装置は、コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、生成した前記メタデータを送信する送信部とを備える送信装置である。
本技術の第2の側面の送信装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第2の側面の送信方法は、上述した本技術の第2の側面の送信装置に対応する送信方法である。
本技術の第2の側面の送信装置、及び送信方法においては、コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータが生成され、生成された前記メタデータが送信される。
本技術の第3の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する情報処理装置である。
本技術の第3の側面の情報処理装置は、独立した装置であってもよいし、1つの装置を構成している内部ブロックであってもよい。また、本技術の第3の側面の情報処理方法は、上述した本技術の第3の側面の情報処理装置に対応する情報処理方法である。
本技術の第3の側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムが生成され、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成された前記個人用のプログラムが更新される。
本技術の第1の側面乃至第3の側面によれば、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。
本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。 放送局や放送番組ごとのインボケーションネームの第1の例を示す図である。 放送局や放送番組ごとのインボケーションネームの第2の例を示す図である。 放送局や放送番組ごとのインボケーションネームの第3の例を示す図である。 第1の実施の形態の構成の第1の例を示す図である。 第1の実施の形態の構成の第2の例を示す図である。 第1の実施の形態の構成の第3の例を示す図である。 第1の実施の形態の各装置の詳細な構成の例を示すブロック図である。 第1の実施の形態の各装置の処理の流れを説明するフローチャートである。 インボケーションネームメタデータの記述の例を示す図である。 第2の実施の形態の構成の第1の例を示す図である。 第2の実施の形態の構成の第2の例を示す図である。 第2の実施の形態の構成の第3の例を示す図である。 第2の実施の形態の各装置の詳細な構成の例を示すブロック図である。 第2の実施の形態の各装置の処理の流れを説明するフローチャートである。 コンテキストメタデータのマージの例を示す図である。 第3の実施の形態の構成の第1の例を示す図である。 第3の実施の形態の構成の第2の例を示す図である。 第3の実施の形態の構成の第3の例を示す図である。 第3の実施の形態の各装置の詳細な構成の例を示すブロック図である。 第3の実施の形態の各装置の処理の流れを説明するフローチャートである。 MPDの記述の例を示す図である。 スキル登録情報メタデータの記述の例を示す図である。 受信装置の他の構成の例を示すブロック図である。 コンピュータの構成の例を示す図である。
以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。
1.システムの構成
2.本技術の実施の形態
(1)第1の実施の形態:ローカル側でインボケーションネームを差し替える構成
(2)第2の実施の形態:クラウド側でエイリアススキルを用いて対象のスキルを切り替える構成
(3)第3の実施の形態:プライベートスキルの生成・更新を行う構成
3.変形例
4.コンピュータの構成
<1.システムの構成>
(コンテンツ・音声AI連携システムの構成)
図1は、本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。
コンテンツ・音声AI連携システム1は、コンテンツを配信するためのシステムであって、配信されたコンテンツと連携して音声AIアシスタンスサービスを利用することが可能である。
図1において、コンテンツ・音声AI連携システム1は、放送配信システム10、受信装置20、音声ユーザインタフェース装置30、音声アシスタンスサーバ40、及び処理サーバ50を含んで構成される。
また、コンテンツ・音声AI連携システム1において、視聴者宅に設置される受信装置20と音声ユーザインタフェース装置30は、インターネット60を介して、データセンタ等に設置される音声アシスタンスサーバ40や処理サーバ50などの各種のサーバと接続可能であって、各種のデータをやりとりすることができる。
放送配信システム10は、1又は複数の放送サーバ等から構成される。放送配信システム10は、配信対象のコンテンツに対して必要な処理を施し、その処理の結果得られる放送信号(放送波)を、送信所に設置された送信アンテナから送出する。
受信装置20は、例えば、テレビ受像機やパーソナルコンピュータ等の固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータ等のモバイル受信機として構成される。受信装置20は、放送配信システム10から送信されてくる放送信号を受信して処理することで、配信対象のコンテンツ(例えば、放送番組やCMなど)を再生する。
音声ユーザインタフェース装置30は、例えば、Bluetooth(登録商標)、無線LAN(Local Area Network)、若しくはセルラー方式の通信などの無線通信、又は有線通信を行うことが可能な音声処理装置(例えばスピーカ)であって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、音声AIアシスタンスサービスのユーザインタフェースとして機能したり、あるいは、照明器具や空調設備などの機器に対する音声操作を行ったりすることができる。
音声ユーザインタフェース装置30は、クラウド側の音声アシスタンスサーバ40等のサーバと連携することで、エンドユーザ(コンテンツの視聴者)に対し、音声AIアシスタンスサービスを提供することができる。ここで、音声AIアシスタンスサービスとは、例えば、音声認識処理や自然言語解析処理等の処理を組み合わせて、エンドユーザの問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。
音声アシスタンスサーバ40は、音声AIアシスタンスサービスを提供するための機能や各種のデータベースなどを有している。音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの要求(リクエスト)に応じて、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果(レスポンス)を、インターネット60を介して、音声ユーザインタフェース装置30に返信する。
処理サーバ50は、音声アシスタンスサーバ40と連携して、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果(レスポンス)を、インターネット60又はネットワーク70(例えば専用線等の通信回線)を介して、音声アシスタンスサーバ40に送信する。なお、処理サーバ50による処理結果は、音声アシスタンスサーバ40だけでなく、インターネット60を介して、受信装置20又は音声ユーザインタフェース装置30に送信されるようにしてもよい。
以上のように構成されるコンテンツ・音声AI連携システム1においては、スキルと呼ばれるプログラムが実行されることで、コンテンツと連携して音声AIアシスタンスサービスを利用することが可能となる。
ここで、スキルとは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、その機能を実際に実行する処理サーバ(処理プログラム)は何か、といった情報を含み、これらの情報に基づき、音声ユーザインタフェース装置30から送られる音声に対する対応処理を行うプログラム(コンピュータプログラム)である。
また、スキルを呼び出すための呼び出し名を、インボケーションネーム(Invocation Name)という。すなわち、エンドユーザ(コンテンツの視聴者)は、スキルを使用する際には、インボケーションネームを発する必要がある。
ところで、複数の放送局が、音声AIアシスタンスサービスを利用したスキルの運用を行う場合、放送局(又は放送番組など)ごとにスキルを起動するためのインボケーションネームが異なる。例えば、図2乃至図4は、放送局や放送番組ごとにインボケーションネームが異なる場合の具体例を示している。
図2においては、視聴者2が、受信装置20を起動して、XXX局(XXX放送局)のクイズ番組を視聴しているときに、このクイズ番組用のスキルを利用する場面を示している。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask XXX Quiz, red !!」である発話を行い、出題されたクイズ(青赤緑黄のボタンによる択一式クイズ)に対する自身の解答を伝えることで、クイズ番組に参加することができる。
図3においては、視聴者2が、XXX局のドラマ番組を視聴しているときに、このドラマ番組用のスキルを利用する場面を示している。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask XXX Drama, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を伝えることで、その回答を得ることができる。
図4においては、視聴者2が、YYY局(YYY放送局)の情報番組を視聴しているときに、この情報番組用のスキルを利用する場面を示している。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask YYY Show, red !」である発話を行い、ゲームの回答やアンケートの投票等をすることで、情報番組に参加することができる。
このように、視聴者2は、XXX局のクイズ番組の視聴時には、インボケーションネームとして、「XXX Quiz」を発話すればよいが、XXX局のドラマ番組の視聴時には「XXX Drama」を発話し、YYY局の情報番組の視聴時には「YYY Show」を発話する必要がある。
すなわち、このような環境下では、視聴者2は、放送局や放送番組ごとのすべてのスキルのインボケーションネームを覚えて、その時点でどの局のどのスキルの番組を視聴しているかを把握した上で、インボケーションネームを切り替えて発話する必要があり、利便性を損ねる可能性がある(使い勝手が悪くなってしまう)。
また、1つの放送局が運用するスキルについても、必要な発話やインテント(Intent)は、放送番組や放送付随アプリケーションごとに異なるため、それらのすべてに対応する1つのスキルのみで運用を行うことは困難であり、例えば番組やジャンルごとといったある特定の基準でスキルを分けて、動的に変動させるといった運用が想定される。
そのため、視聴者が、放送局(又は番組やジャンル等の特定の基準)ごとのスキルの違いや、スキルの動的変動などを意識することなく、1つのインボケーションネームのみで、各スキルにインタラクションできるようにして、放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させたいという要請がある。
そこで、本技術では、視聴者が、1つのインボケーションネームを発することで、所望のスキルにインタラクションできるようにして、放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする。以下、本技術の実施の形態として、第1の実施の形態乃至第3の実施の形態を説明する。
なお、以下の説明では、インボケーションネーム(Invocation Name)として、複数のスキルで共通の呼び出し名と、スキルごとの固有の呼び出し名が存在するため、前者を、共通インボケーションネームと称し、後者を、運用インボケーションネームと称して区別する。また、インボケーションネームとしては、後述するエイリアススキルや受信機運用スキルのインボケーションネームなどもあるが、以下の説明では、特に区別する必要がない場合には、単に、インボケーションネームと称する。
<2.本技術の実施の形態>
(1)第1の実施の形態
まず、第1の実施の形態として、図5乃至図10を参照しながら、ローカル側の受信装置20と音声ユーザインタフェース装置30とがインボケーションネームの差し替え通信を行うことで、視聴者2の発話に含まれるインボケーションネームを差し替える場合の構成を示す。
(構成の第1の例)
図5は、第1の実施の形態の構成の第1の例を示す図である。
図5において、受信装置20は、放送配信システム10から送信される放送信号を受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりする。また、受信装置20は、その記録部200に、登録リスト(Invocation Name List)を記録している。
この登録リストは、複数のスキルで共通の呼び出し名である共通インボケーションネームと、各放送局等により運用されるスキルを呼び出すための運用インボケーションネームとを対応付けた対応情報を含んでいる。図5の例では、"TV show"である共通インボケーションネームに対し、"XXX show"であるXXX局の運用インボケーションネーム、及び"YYY show"であるYYY局の運用インボケーションネームが対応付けられている。
例えば、視聴者2が、XXX局のクイズ番組を視聴しているとき、受信装置20では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置20は、視聴中のXXX局に合わせて、登録リストから、"XXX show"である運用インボケーションネームを取得している(S11)。
ここで、第1の例では、視聴者2が、XXX局により提供されるスキルを利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズ(青赤緑黄のボタンによる択一式クイズ)に対する自身の解答を伝えている(S12)。
「AAAA, ask TV show, red !!」である発話のうち、最初の"AAAA"である単語は、ウェイクワード(Wake Word)と呼ばれ、例えば、ローカル側の音声ユーザインタフェース装置30がこの単語を検出すると、クラウド側のサーバと通信を開始して、以降の言葉が、音声データとしてサーバに送られる。
また、その次の"ask"である単語は、起動フレーズと呼ばれ、この次にくる単語がスキル名、すなわち、インボケーションネームであることを、クラウド側のサーバに伝えるものである。この例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者2により発話されている。さらに、それに続く"red"である単語はクイズの解答であって、対象のスキルに渡されるパラメータとされる。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"XXX show"に差し替える(S13)。そして、音声ユーザインタフェース装置30は、インボケーションネームを差し替えた後の"AAAA, ask XXX show, red !!"である発話の音声データを、インターネット60を介して音声アシスタンスサーバ40に送信する(S14)。
このように、受信装置20は、登録リストとして、共通インボケーションネームと運用インボケーションネームとを対応付けた対応情報をあらかじめ記録するとともに、音声ユーザインタフェース装置30に対し、視聴者2による発話から共通インボケーションネーム(例えば"TV show")を検知したときに、自身とインボケーションネームの差し替え通信を行うような事前設定をするようにする。
そして、受信装置20は、音声ユーザインタフェース装置30から、インボケーションネームの差し替え要求(リクエスト)が発行されたとき、共通インボケーションネームを、登録リストから取得した運用インボケーションネーム(視聴局のインボケーションネーム)に差し替えて、音声ユーザインタフェース装置30に返す(リプライする)。これにより、音声ユーザインタフェース装置30は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ40に送信することが可能となる。
音声アシスタンスサーバ40では、その記録部400に、複数のスキルを記録し、CPU(後述の図25のCPU1001等)により実行可能とされる。図5の例では、XXX局のスキルの情報として、"XXX show"である運用インボケーションネームと、"https://XXX"であるエンドポイントURL(Uniform Resource Locator)が登録されている。また、YYY局のスキルの情報として、"YYY show"である運用インボケーションネームと、"https://YYY"であるエンドポイントURLが登録されている。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する(S15)。図5の例では、発話のテキストデータに、"XXX show"である運用インボケーションネームが含まれるため、XXX局のスキルが特定される。そして、実行中のXXX局のスキルに対し、パラメータとして、例えば、発話のテキストデータが渡される。なお、ここでのパラメータとしては、発話のテキストデータの一部を渡すほか、例えば、テキストデータの全部やその他の情報が渡されるようにしてもよい。
ここでは、XXX局のスキルのエンドポイントURLとして、"https://XXX"であるURL、すなわち、XXX局サーバ50AのURLが設定されているため、音声アシスタンスサーバ40にて実行されるXXX局のスキルが、XXX局サーバ50Aに対し、リクエストメッセージを通知することで、XXX局のスキルの処理(例えば、"red"であるクイズの解答に対する処理)が実行され、その処理結果が提示される(S16)。
この処理結果の提示方法としては、その運用に応じた様々な提示方法が想定されるが、例えば、次のような提示方法を採用することができる。すなわち、XXX局サーバ50Aにより実行されるXXX局のスキルと、ローカル側の受信装置20により実行されるXXX局の放送付随アプリケーションとを連携して、その処理結果を、放送付随アプリケーションの提示内容に反映させたり、あるいは、XXX局サーバ50Aからの処理結果を、音声アシスタンスサーバ40を経由してローカル側の音声ユーザインタフェース装置30に通知して、応答音声として出力したりすることができる。
このようにして、視聴者2は、視聴中のクイズ番組に参加することが可能となるが、ここでは、XXX局により提供されるスキルを利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネームを発話すればよく、1つのインボケーションネームのみで、放送局(又は番組やジャンル等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
(構成の第2の例)
図6は、第1の実施の形態の構成の第2の例を示す図である。
図6において、受信装置20は、図5と同様に、共通インボケーションネームと運用インボケーションネームとを対応付けた対応情報を含む登録リストを記録している。
また、図6においては、例えば、視聴者2が、YYY局の情報番組を視聴しているとき、受信装置20では、YYY局の情報番組に連動してYYY局の放送付随アプリケーションが実行されている。また、このとき、受信装置20は、視聴中のYYY局に合わせて、登録リストから、"YYY show"である運用インボケーションネームを取得している(S21)。
ここで、第2の例では、視聴者2が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答やアンケートの投票などを行っている(S22)。
この第2の例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者2により発話されている。さらに、それに続く"red"である単語はゲームの回答等であって、対象のスキルに渡されるパラメータとされる。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"YYY show"に差し替える(S23)。そして、音声ユーザインタフェース装置30は、インボケーションネームを差し替えた後の"AAAA, ask YYY show, red !!"である発話の音声データを、インターネット60を介して音声アシスタンスサーバ40に送信する(S24)。すなわち、音声ユーザインタフェース装置30は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ40に送信することになる。
音声アシスタンスサーバ40は、図5と同様に、複数のスキルを記録している。音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する(S25)。図6の例では、発話の音声データに、"YYY show"である運用インボケーションネームが含まれるため、YYY局のスキルが特定され、実行中のYYY局のスキルに対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、YYY局のスキルのエンドポイントURLとして、"https://YYY"であるURL、すなわち、YYY局サーバ50BのURLが設定されているため、音声アシスタンスサーバ40は、YYY局サーバ50Bに対し、リクエストメッセージを通知することで、YYY局のスキルの処理(例えば、"red"であるゲームの回答等に対する処理)が実行され、その処理結果が提示される(S26)。このとき、例えば、YYY局のスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中の情報番組に参加することが可能となるが、ここでは、YYY局により提供されるスキルを利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネームを発話すればよく、1つのインボケーションネームのみで、放送局(又は番組等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
より具体的には、図6に示した第2の例を、図5に示した第1の例と比べれば、YYY局のスキルとXXX局のスキルとで利用するスキルが異なるが、視聴者2は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。
(構成の第3の例)
図7は、第1の実施の形態の構成の第3の例を示す図である。
図7において、受信装置20は、放送配信システム10から送信される放送信号を受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりするが、放送ストリームには、動的に変動するスキルの運用インボケーションネームを通知するためのメタデータ(以下、インボケーションネームメタデータともいう)が挿入されている。
なお、詳細は後述するが、インボケーションネームメタデータは、MPD(Media Presentation Description)のEventStream等を利用して送ることができる。また、この第3の例において、記録部200に記録された登録リストには、XXX局のドラマ番組のスキルを呼び出すための運用インボケーションネームは未登録とされる。
例えば、視聴者2が、XXX局のドラマ番組を視聴しているとき、受信装置20では、XXX局のドラマ番組に連動してXXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置20は、視聴中のXXX局のドラマ番組に合わせて、放送ストリームからインボケーションネームメタデータを抽出し、そこから、"XXX Drama"である運用インボケーションネームを取得している(S31)。
ここで、第3の例では、視聴者2が、XXX局により提供されるドラマ番組用のスキルを利用して、ドラマ番組の内容についての疑問点を質問する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を質問している(S32)。
この第3の例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者2により発話されている。さらに、それに続く"Who is Liz ?"である発話はドラマ番組の内容に関する質問であって、対象のスキルに渡されるパラメータとされる。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"XXX Drama"に差し替える(S33)。そして、音声ユーザインタフェース装置30は、インボケーションネームを差し替えた後の"AAAA, ask XXX Drama, Who is Liz ?"である発話の音声データを、インターネット60を介して音声アシスタンスサーバ40に送信する(S34)。
このように、スキルの動的変動がある場合には、放送ストリームに、現在使用すると想定されるスキルの運用インボケーションネームを含むインボケーションネームメタデータが挿入されているので、受信装置20は、その運用インボケーションネームを(事前に)取得するとともに、音声ユーザインタフェース装置30に対し、視聴者2による発話から共通インボケーションネームを検知したときに、自身とインボケーションネームの差し替え通信を行うような事前設定をするようにする。
そして、受信装置20は、音声ユーザインタフェース装置30から、インボケーションネームの差し替え要求(リクエスト)が発行されたとき、共通インボケーションネームを、インボケーションネームメタデータから取得した運用インボケーションネーム(視聴局のインボケーションネーム)に差し替えて、音声ユーザインタフェース装置30に返す(リプライする)。これにより、音声ユーザインタフェース装置30は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ40に送信することが可能となる。
音声アシスタンスサーバ40は、その記録部400に、複数のスキルを記録しているが、図7の例では、XXX局のスキル及びYYY局のスキルの情報のほかに、XXX局のドラマ番組用のスキルの情報として、"XXX Drama"である運用インボケーションネームと、"https://XXX/drama"であるエンドポイントURLが登録されている。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する(S35)。図7の例では、発話の音声データに、"XXX Drama"である運用インボケーションネームが含まれるため、XXX局のドラマ番組用のスキルが特定される。そして、実行中のXXX局のドラマ番組用のスキルに対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、XXX局のドラマ番組用のスキルのエンドポイントURLとして、"https://XXX/drama"であるURLが設定されているため、音声アシスタンスサーバ40は、XXX局サーバ50Aに対し、リクエストメッセージを通知することで、XXX局のドラマ番組用のスキルの処理(例えば、"Who is Liz ?"である質問に対する処理)が実行され、その処理結果が通知される(S36)。
このとき、例えば、XXX局のドラマ番組用のスキルが、XXX局の放送付随アプリケーションと連携して、ローカル側の受信装置20にて、当該放送付随アプリケーションの提示内容に処理結果を反映させたり(例えば、質問に対する回答を提示する)、あるいは、ローカル側の音声ユーザインタフェース装置30から、処理結果に応じた応答音声を出力したりする(例えば、質問に対する回答の音声を出力する)ことができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中のドラマ番組の内容についての情報を得ることが可能となるが、ここでは、XXX局のドラマ番組のスキルを利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネームを発話すればよく、1つのインボケーションネームのみで、放送局(又は番組等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
より具体的には、図7に示した第3の例を、図5に示した第1の例及び図6に示した第2の例と比べれば、XXX局のドラマ番組のスキルと、XXX局のスキル及びYYY局のスキルとで利用するスキルが異なるが、視聴者2は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。
(各装置の詳細な構成の例)
図8は、第1の実施の形態の各装置の詳細な構成の例を示すブロック図である。
図8においては、放送局側(送信側)に設けられる放送配信システム10と、ローカル側(受信側)に設けられる受信装置20の構成の例を示している。また、図8においては、ローカル側に設けられる音声ユーザインタフェース装置30と、クラウド側に設けられる音声アシスタンスサーバ40及び処理サーバ50の構成の例を示している。
図8において、放送配信システム10は、番組コンテンツ処理部101、放送付随アプリケーション生成部102、メタデータ生成部103、マルチプレクサ104、及び送出部105を含んで構成される。
番組コンテンツ処理部101は、そこに入力されるコンテンツに対して必要な処理(例えばAVエンコードなど)を施し、マルチプレクサ104に供給する。なお、コンテンツは、例えば放送番組やCM等であって、外部のサーバ、カメラ、又は記録媒体などから取得される。
放送付随アプリケーション生成部102は、放送付随アプリケーションを生成し、マルチプレクサ104に供給する。ここで、放送付随アプリケーションは、放送番組等のコンテンツに連動して実行されるアプリケーションである。
メタデータ生成部103は、スキルに動的変動がある場合(例えば、図7に示した第3の例の場合)に、インボケーションネームメタデータを生成し、マルチプレクサ104に供給する。ここで、インボケーションネームメタデータは、動的に変動するスキルの運用インボケーションネームを通知するためのメタデータである。
マルチプレクサ104は、番組コンテンツ処理部101から供給されるコンテンツと、放送付随アプリケーション生成部102から供給される放送付随アプリケーションを多重化し、その結果得られるストリームを、送出部105に供給する。また、マルチプレクサ104は、スキルに動的変動がある場合には、コンテンツ及び放送付随アプリケーションとともに、インボケーションネームメタデータを多重化し、その結果得られるストリームを、送出部105に供給する。
送出部105は、マルチプレクサ104から供給されるストリームに対して必要な処理(例えば誤り訂正符号化処理や変調処理など)を施し、その結果得られる放送信号(放送ストリーム)を、送信所に設置された送信用アンテナから送信する。
図8において、受信装置20は、記録部200(図5乃至図7)のほか、チューナ201、デマルチプレクサ202、AVデコーダ203、放送付随アプリケーション実行部204、レンダラ205、ディスプレイ206、スピーカ207、呼出名管理部208、呼出名変換部209、及び通信部210を含んで構成される。
チューナ201は、視聴者宅等に設置された受信用アンテナを介して、放送配信システム10から送信されてくる放送信号(放送ストリーム)を受信して必要な処理(例えば復調処理や誤り訂正復号化処理など)を施し、その結果得られるストリームを、デマルチプレクサ202に供給する。
デマルチプレクサ202は、チューナ201から供給されるストリームを、映像、音声、及び放送付随アプリケーションのストリームに分離する。デマルチプレクサ202は、映像及び音声のストリームを、AVデコーダ203に供給し、放送付随アプリケーションのストリームを、放送付随アプリケーション実行部204に供給する。
AVデコーダ203は、デマルチプレクサ202から供給される映像ストリームをデコードし、レンダラ205に供給する。また、AVデコーダ203は、デマルチプレクサ202から供給される音声ストリームをデコードし、レンダラ205に供給する。
レンダラ205は、AVデコーダ203から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイ206に表示する。
また、レンダラ205は、AVデコーダ203から供給される音声データに対し、レンダリング処理を行い、その結果得られる音声を、スピーカ207から出力する。これにより、受信装置20では、放送番組等のコンテンツの映像が、ディスプレイ206に表示され、その映像に同期した音声が、スピーカ207から出力される。
放送付随アプリケーション実行部204は、例えば、HTML5(HyperText Markup Language 5)やJavaScript(登録商標)等に対応したブラウザである。放送付随アプリケーション実行部204は、デマルチプレクサ202から供給されるアプリデータに基づき、放送付随アプリケーションを実行し、その映像データをレンダラ205に供給する。
レンダラ205は、放送付随アプリケーション実行部204から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、ディスプレイ206に表示する。これにより、受信装置20では、放送番組等のコンテンツに連動した放送付随アプリケーションの映像が、ディスプレイ206に表示される。
呼出名管理部208は、インボケーションネームの管理を行う。呼出名変換部209は、呼出名管理部208に問い合わせることで、運用インボケーションネームを取得する。呼出名変換部209は、音声ユーザインタフェース装置30から送られる共通インボケーションネームを、呼出名管理部208から取得した運用インボケーションネームに差し替える。
ここで、呼出名管理部208から呼出名変換部209に対してリプライされる運用インボケーションネーム(視聴局のインボケーションネーム)であるが、スキルの動的変動がない場合と、スキルの動的変動がある場合とでは、その取得経路が異なる。すなわち、スキルの動的変動がない場合、呼出名管理部208は、呼出名変換部209からの問い合わせに応じて、記録部200に記録された登録リスト(Invocation Name List)から、運用インボケーションネームを取得してリプライする。
一方で、スキルの動的変動がある場合には、放送配信システム10にて、放送ストリームにインボケーションネームメタデータが挿入されているので、デマルチプレクサ222は、チューナ201からのストリームに含まれるインボケーションネームメタデータを抽出し、呼出名管理部208に供給する。そして、呼出名管理部208は、呼出名変換部209からの問い合わせに応じて、インボケーションネームメタデータから得られた運用インボケーションネームをリプライする。
なお、受信装置20においては、呼出名管理部208及び呼出名変換部209等の処理モジュールによって、インボケーションネームに関する処理を行う処理部220が構成される。この処理部220は、例えば、CPU(後述の図25のCPU1001等)が、所定のプログラム(コンピュータプログラム)を実行することで実現される。また、記録部200は、例えば、NVRAM(Non-Volatile RAM)等の不揮発性メモリを含む半導体メモリや、HDD(Hard Disk Drive)などの記録媒体であって、各種のデータを記録することができる。
通信部210は、例えば、Bluetooth(登録商標)、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部210は、所定の通信方式に従い、音声ユーザインタフェース装置30(の通信部305)との間で通信を行い、各種のデータをやり取りする。
ここでは、受信装置20の通信部210と、音声ユーザインタフェース装置30の通信部305との間で、上述したインボケーションネームの差し替え通信が行われ、通信部210は、通信部305から送信されてくるインボケーションネーム差し替え要求を受信し、呼出名変換部209に供給する。また、通信部210は、呼出名変換部209から供給される差し替えた運用インボケーションネームを、通信部305に送信する。
図8において、音声ユーザインタフェース装置30は、マイクロフォン301、スピーカ302、通信部303、音声解析部304、通信部305、及びセッティング管理部306を含んで構成される。
マイクロフォン301は、視聴者2の発話を収音し、その発話の音声データを、音声解析部304に供給する。
音声解析部304は、マイクロフォン301から供給される発話の音声データに基づいて、音声発話の解析を行い、その解析結果に応じた発話の音声データを、通信部303に供給する。
すなわち、音声解析部304は、視聴者2により共通インボケーションが発話された場合には、インボケーションネーム差し替え要求を発行し、通信部305に供給する。そして、音声解析部304は、解析対象の発話の音声データの共通インボケーションネームの部分を、通信部305による受信装置20との差し替え通信で取得される運用インボケーションネームに差し替えた音声データを、通信部303に供給する。
通信部303は、音声解析部304から供給される発話の音声データを、インターネット60を介して、音声アシスタンスサーバ40に送信する。また、通信部303は、音声アシスタンスサーバ40から送信されてくる応答の音声データを、インターネット60を介して受信し、スピーカ302に供給する。
スピーカ302は、通信部303から供給される応答の音声データに基づいて、応答音声を出力する。
通信部303は、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。また、通信部305は、Bluetooth(登録商標)、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。なお、図8においては、説明の都合上、通信部303と通信部305を別の通信モジュールとして説明したが、それらが一体となって1つの通信モジュールとして構成されるようにしてもよい。
セッティング管理部306は、視聴者2からの設定入力に従い、各種の設定を行う。ここでは、例えば、共通インボケーションネームの設定や、発話から共通インボケーションネームを検知したときにインボケーションネームの差し替え通信を行う際の通信先の設定などが行われる。なお、ここでの設定入力に際しては、例えばボタンやタッチパネル(不図示)によって視聴者2の操作入力を受け付けることは勿論、マイクロフォン301によって視聴者2の音声入力を受け付けるようにしてもよい。
図8において、音声アシスタンスサーバ40は、記録部400(図5乃至図7)のほか、通信部401、通信部402、音声解析部403、及び音声生成部404を含んで構成される。
通信部401は、音声ユーザインタフェース装置30から送信されてくる発話の音声データを、インターネット60を介して受信し、音声解析部403に供給する。
音声解析部403は、通信部401から供給される発話の音声データを解析し、発話の音声データをテキストデータに変換する。また、音声解析部403は、発話の音声データの解析結果に基づいて、複数のスキル(Skill_1乃至Skill_N)の中から、対象のスキル(例えば、図8の例では、Skill_1)を特定する。そして、音声解析部403は、特定された対象のスキルに対して、パラメータとして、発話のテキストデータが渡されるようにする。
ここで、対象のスキル(プログラム)は、記録部400から読み出され、CPU(後述の図25のCPU1001等)により実行されており、実行中の対象のスキルは、音声解析部403から受け取ったパラメータに基づき、リクエストメッセージを生成し、通信部402に供給する。
通信部402は、実行中の対象のスキルから供給されるリクエストメッセージを、ネットワーク70を介して、処理サーバ50に送信する。また、通信部402は、処理サーバ50から送信されてくる音声応答データを、ネットワーク70を介して受信し、音声生成部404に供給する。
音声生成部404は、通信部402から供給される音声応答データに基づいて、応答の音声データを生成し、通信部401に供給する。
通信部401は、音声生成部404から供給される応答の音声データを、インターネット60を介して、音声ユーザインタフェース装置30に送信する。
なお、通信部401と通信部402は、無線通信又は有線通信に対応した通信モジュールとして構成される。また、図8においては、説明の都合上、通信部401と通信部402を別の通信モジュールとして説明したが、それらが一体となって1つの通信モジュールとして構成されるようにしてもよい。また、記録部400は、半導体メモリや、HDD、光ディスク等の記録媒体であって、各種のデータを記録することができる。
図8において、処理サーバ50は、通信部501、処理部502、及び記録部503を含んで構成される。
通信部501は、音声アシスタンスサーバ40から送信されてくるリクエストメッセージを、ネットワーク70を介して受信し、処理部502に供給する。なお、通信部501は、無線通信又は有線通信に対応した通信モジュールとして構成される。
処理部502は、通信部501から供給されるリクエストメッセージに基づいて、記録部503に記録された音声応答データを抽出し、通信部501に供給する。記録部503は、半導体メモリや、HDD、光ディスク等の記録媒体であって、音声応答データ等の各種のデータを記録することができる。
この音声応答データは、視聴者2の発話に応じた音声応答を行うためのデータとされる。なお、音声応答データは、記録部503に記録されたものに限らず、例えば、外部のサーバから取得したり、あるいは、記録部503に記録されたデータや外部のサーバから取得したデータ等の各種のデータに基づき、処理部502により生成したりするようにしてもよい。
通信部501は、処理部502から供給される音声応答データを、ネットワーク70を介して、音声アシスタンスサーバ40に送信する。
なお、処理部502は、例えば、CPU(後述の図25のCPU1001等)が、所定のプログラム(コンピュータプログラム)を実行することで実現される処理モジュールであって、音声アシスタンスサーバ40にて特定された対象のスキルのエンドポイントURLにより指定(特定)され、リクエストメッセージに含めたパラメータが渡されると捉えれば、当該対象のスキルの一部を構成しているとも言える。
すなわち、処理サーバ50は、図5乃至図7に示したXXX局サーバ50AやYYY局サーバ50Bに対応しているとも言える。したがって、処理サーバ50は、応答データ(音声に限らない)を、インターネット60等のネットワーク70を介して、受信装置20に送信するようにしてもよい。この場合、受信装置20は、処理サーバ50から受信した応答データに基づいた処理を行うことになる。
(各装置の処理の流れ)
次に、図9のフローチャートを参照して、第1の実施の形態の各装置の処理の流れを説明する。
まず、事前の設定として、ステップS101の処理が実行される。すなわち、音声ユーザインタフェース装置30においては、セッティング管理部306が、視聴者2からの指示に従い、共通インボケーションネームと、インボケーションネームの差し替え通信の通信先(差し替え通信先)を設定する(S101)。ここでは、例えば、共通インボケーションネームとして、"TV show"を設定するとともに、差し替え通信先として、受信装置20を設定することができる。
この事前の設定が行われた後、放送番組を視聴中の視聴者2から質問発話がなされた場合、ステップS102以降の処理が実行される。すなわち、音声ユーザインタフェース装置30において、マイクロフォン301が、視聴者2による発話を収音し、音声解析部304が、収音された発話の音声データを解析する(S102)。
ステップS103において、音声解析部304は、セッティング管理部306に問い合わせることで、解析された発話の音声データに、共通インボケーションネームの発話が含まれるかどうかを確認(判定)する。
なお、音声解析部304は、セッティング管理部306への問い合わせに際して、その後の処理で用いられる差し替え通信先を取得しておくことができる。ここでは、差し替え通信先として、受信装置20が設定されているものとする。
ステップS103において、共通インボケーションネーム(例えば、"TV show")が発話されたと判定された場合、処理は、ステップS104に進められる。ステップS104において、音声解析部304は、セッティング管理部306から取得済みの差し替え通信先に基づき、受信装置20に対し、インボケーションネーム差し替え要求を発行する。
このインボケーションネーム差し替え要求は、無線通信等によって、受信装置20により受信され、ステップS121乃至S125の処理が実行される。
ステップS121において、呼出名変換部209は、呼出名管理部208に問い合わせることで、運用インボケーションネームを取得する。
ここでは、呼出名管理部208によって、運用インボケーションネームを、インボケーションネームメタデータから取得することができるかどうかが確認(判定)され(S122)、インボケーションネームメタデータから取得することができないと判定された場合(S122の「NO」)、処理は、ステップS123に進められる。
そして、呼出名管理部208は、記録部200に記録された登録リスト(Invocation Name List)から、視聴者2により視聴されているチャンネル(視聴局)の運用インボケーションネームを取得し(S123)、呼出名変換部209にリプライする(S124)。
ステップS125において、呼出名変換部209は、インボケーションネーム差し替え要求に含まれる共通インボケーションネームを、呼出名管理部208からリプライされた運用インボケーションネームに差し替える。また、呼出名変換部209は、差し替えた運用インボケーションネーム(の音声データ)を、音声ユーザインタフェース装置30にリプライする(S125)。
この差し替えられたインボケーションネーム(の音声データ)は、無線通信等によって、音声ユーザインタフェース装置30により受信され、ステップS105の処理が実行される。
ステップS105において、音声解析部304は、発話の音声データとして、共通インボケーションネームの部分が、運用インボケーションネームに差し替えられた音声データを、音声アシスタンスサーバ40に送信する。
ここでは、例えば、図5に示したように、XXX局の番組を視聴している視聴者2によって、「AAAA, ask TV show, red!!」である発話がなされた場合、"TV show"である共通インボケーションネームが、"XXX show"であるXXX局の運用インボケーションネームに差し替えられ、「AAAA, ask XXX show, red!!」である発話の音声データが送信される。
なお、ステップS103において、共通インボケーションネームが発話されていないと判定された場合(S103の「NO」)には、ステップS104の処理はスキップされ、上述したインボケーションネームの差し替え通信(ステップS104,S121乃至S125)は実行されずに、運用インボケーションネームが発話されたものとして、発話の音声データがそのまま、音声アシスタンスサーバ40に送信される。
この音声ユーザインタフェース装置30からの発話の音声データは、インターネット60を介して、音声アシスタンスサーバ40により受信され、ステップS106乃至S109の処理が実行される。
ステップS106において、音声解析部403は、音声ユーザインタフェース装置30からの音声データを解析し、発話の音声データをテキストデータに変換する。
ステップS107において、音声解析部403は、発話の音声データの解析結果に基づいて、複数のスキル(例えば、Skill_1乃至Skill_N)の中から、対象のスキルを特定する。音声アシスタンスサーバ40においては、CPU等によって、対象のスキル(プログラム)が実行されており、音声解析部403は、変換した発話のテキストデータを、パラメータとして、特定した対象のスキル(例えば、Skill_1)に渡すようにする(S108)。
ステップS109において、対象のスキルは、音声解析部403からの発話のテキストデータに基づいて、リクエストメッセージを生成する。また、対象のスキルは、生成したリクエストメッセージを、ネットワーク70を介して、エンドポイントURLにより特定される処理サーバ50(の処理部502)に送信する。
このリクエストメッセージは、ネットワーク70を介して、処理サーバ50により受信され、ステップS110の処理が実行される。
ステップS110において、処理部502は、音声アシスタンスサーバ40(により実行される対象のスキル)からのリクエストメッセージに基づいて、記録部503に記録された音声応答データを抽出する。ここでは、視聴者2の質疑発話に対する音声応答を行うためのデータが抽出される。
また、処理部502は、抽出した音声応答データを、ネットワーク70を介して音声アシスタンスサーバ40に送信する。音声アシスタンスサーバ40においては、音声生成部404が、音声応答データに基づき、応答の音声データを生成し、インターネット60を介して音声ユーザインタフェース装置30に送信する。
これにより、音声ユーザインタフェース装置30では、スピーカ302によって、音声アシスタンスサーバ40からの応答の音声データに応じた応答音声が出力される。その結果として、視聴者2は、自身の質疑発話に応じた応答音声を確認することができる。
以上、スキルが静的である場合、すなわち、スキルの動的変動がない場合の処理の流れを説明したが、スキルの動的変動がある場合には、上述した処理の流れに加えて、図9のステップS131乃至S133の処理等の処理が実行される。
すなわち、放送配信システム10においては、メタデータ生成部103によって、インボケーションネームメタデータが生成され、マルチプレクサ104によって、生成されたインボケーションネームメタデータが、コンテンツや放送付随アプリケーションを含むストリームに挿入される(S131)。
ここで、例えば、コンテンツを、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)に準拠したストリームとして配信する場合、その映像や音声のファイルの制御情報であるMPD(Media Presentation Description)を利用して、インボケーションネームメタデータを伝送することが可能となる。
図10は、インボケーションネームメタデータを、MPDに挿入した場合の例を示している。ここで、MPDは、Period要素と、AdaptationSet要素と、Representation要素とが階層構造をなして構成される。
Period要素は、放送番組等のコンテンツの構成を記述する単位となる。また、AdaptationSet要素とRepresentation要素は、コンテンツを構成する映像や音声、字幕等のコンポーネントのストリームごとに利用され、それぞれのストリームの属性を記述することができる。
また、Period要素内には、EventStream要素を記述することができる。また、EventStream要素には、その属性として、schemeIdUri属性を記述することができる。schemeIdUri属性には、スキームを識別するためのURI(Uniform Resource Identifier)を記述する。図10のMPDの記述例では、XXX局のインボケーションネームメタデータを伝送するためのスキームを識別するURIとして、'urn:XXX'を定義し、schemeIdUri属性の属性値として記述している。
また、EventStream要素は、Event要素の上位要素となる。Event要素は、その属性として、イベントメッセージのデータが指定されるmessageData属性を記述することができる。図10のMPDの記述例では、Period要素内に、XXX局の番組で使用する運用インボケーションネームを、EventStream要素内のEvent要素のmessageData属性の属性値として記述している。
具体的には、XXX局のドラマ番組用の運用インボケーションネームとして、'XXX Drama'を、1つ目のPeriod要素(start属性 = 'PT0S')内に記述し、XXX局のクイズ番組用の運用インボケーションネームとして、'XXX Quiz'を、2つ目のPeriod要素(start属性 = 'PT1H0M0S')内に記述している。
なお、Event要素は、その属性として、messageData属性のほかに、プレゼンテーションタイム(開始時刻)が指定されるpresentationTime属性と、その開始時刻からの期間が指定されるduration属性を記述することができるが、ここでは、これらの属性は用いずに、messageData属性の属性値として記述された運用インボケーションネームが、常に有効であるものとする。
図9に戻り、ステップS132において、送出部105は、インボケーションネームメタデータを挿入した放送ストリームを送信する。この放送ストリームは、受信装置20により受信され、ステップS133の処理が実行される。
ステップS133において、呼出名管理部208は、デマルチプレクサ202により分離されたストリームから得られるインボケーションネームメタデータを取得する。
そして、呼出名管理部208は、上述したステップS121の処理で、呼出名変換部209からの運用インボケーションネームの問い合わせを受けたとき、ステップS122の確認処理で、インボケーションネームメタデータから取得することができると判定する(S122の「YES」)。そのため、ステップS123の処理はスキップされ、処理は、ステップS124に進められる。
ステップS124において、呼出名管理部208は、インボケーションネームメタデータから運用インボケーションネームを取得し、呼出名変換部209にリプライする。これにより、呼出名変換部209は、インボケーションネーム差し替え要求に含まれる共通インボケーションネームを、呼出名管理部208からリプライされた運用インボケーションネームに差し替えることになる(S125)。
そして、音声ユーザインタフェース装置30では、発話の音声データとして、共通インボケーションネームの部分が、運用インボケーションネームに差し替えられた音声データを、音声アシスタンスサーバ40に送信することになる。
ここでは、例えば、図7に示したように、YYY局のドラマ番組を視聴している視聴者2によって、「AAAA, ask TV show, Who is Lis ?」である発話がなされた場合、"TV show"である共通インボケーションネームが、"XXX Drama"であるXXX局のドラマ番組の運用インボケーションネームに差し替えられ、「AAAA, ask XXX Drama, Who is Lis ?」である発話の音声データが送信される。
以上、第1の実施の形態の各装置の処理の流れとして、特に、スキルの動的変動がない場合と、スキルの動的変動がある場合における、視聴者2により発話された共通インボケーションネームを、視聴している番組の運用インボケーションネームに差し替える処理の流れを説明した。
以上のように、第1の実施の形態では、受信装置20の処理部220が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者2の発話の音声に対する対応処理を行うスキル(プログラム)を呼び出すためのインボケーションネーム(呼び出し名)として複数のスキル(プログラム)で共通となる共通インボケーションネーム(共通の呼び出し名)と、スキル(プログラム)ごとの固有の情報とを対応付けた対応情報(登録リスト)に基づいて、視聴者2の発話の音声に含まれる共通インボケーションネーム(共通の呼び出し名)に対応付けられた固有の情報を処理する。
また、対応情報(登録リスト)には、共通インボケーションネーム(共通の呼び出し名)に対し、スキル(プログラム)ごとの固有の情報として、運用インボケーションネーム(固有の呼び出し名)が対応付けられており、処理部220は、共通インボケーションネーム(共通の呼び出し名)に対応付けられた固有の情報の処理として、対応情報(登録リスト)に基づき、共通インボケーションネーム(共通の呼び出し名)を、運用インボケーションネーム(固有の呼び出し名)に変換する処理を行う。また、運用インボケーションネーム(固有の呼び出し名)は、放送経由で配信されるインボケーションネームメタデータ(メタデータ)から取得することもできる。このように、受信装置20は、処理部220を備える情報処理装置であるとも言える。
これにより、例えば、XXX局やYYY局のスキルなどのように利用するスキルが異なる場合であっても、視聴者2は、共通インボケーションネームを発話することで、所望のスキルを利用することが可能となるため、XXX局やYYY局の放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。
なお、上述した説明では、スキルの動的変動がない場合の運用と、スキルの動的変動がある場合の運用を示したが、これらの運用は、それぞれが別個に行われるようにしてもよいし、同時に行われるようにしてもよい。また、受信装置20においては、インボケーションネームの差し替え通信が行われるよりも前のタイミングに、登録リストが記録部200に記録されることになるが、そのタイミングは任意とされる。
(2)第2の実施の形態
ところで、第1の実施の形態では、ローカル側でインボケーションネームを差し替える構成を示したが、クラウド側の音声アシスタンスサーバ40にてエイリアススキルを用いて対象のスキルを切り替える構成を採用することでも、視聴者2は、当該エイリアススキルのインボケーションネームを発話することで、所望のスキルを利用することが可能となる。そこで、第2の実施の形態として、図11乃至図16を参照しながら、クラウド側の音声アシスタンスサーバ40にてエイリアススキルを用いて対象のスキルを切り替える構成を示す。
ここで、エイリアススキルとは、それ自体を呼び出すインボケーションネーム(エイリアススキルのインボケーションネーム)と、放送番組のメタデータ情報とそれに対応するスキルのペアテーブルを含んで構成されるスキル(切り替え用のプログラム)である。このエイリアススキルを用いることで、放送番組のメタデータ情報に基づき、その情報に該当する別のスキル(ノーマルスキル)への切り替えを行うことが可能となる。
このエイリアススキルのインボケーションネームは、ローカル側の視聴者2からすれば、共通インボケーションネーム(共通の呼び出し名)であるとも言える。また、第2の実施の形態では、通常のスキルを、エイリアススキルと区別するために、ノーマルスキルとも称して説明する。
(構成の第1の例)
図11は、第2の実施の形態の構成の第1の例を示す図である。
図11においては、視聴者2が、XXX局のクイズ番組を視聴しているとき、受信装置20では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。なお、図11において、受信装置20は、上述した登録リスト(Invocation Name List)を記録していない。
ここで、第1の例では、視聴者2が、XXX局により提供されるスキル(ノーマルスキル)を利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズに対する自身の解答を伝えている(S41)。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、視聴者2が視聴中のコンテンツを特定するためのメタデータ(以下、コンテキストメタデータともいう)を取得する(S42)。なお、詳細は後述するが、コンテキストメタデータは、例えば、視聴中(現在)の放送番組のチャンネル番号(Channel Number)及びメディアタイム(Media Time)等の視聴情報を含めることができる。
このように、受信装置20は、音声ユーザインタフェース装置30に対し、視聴者2による発話からインボケーションネーム("TV show")を検知したときに、自身とコンテキストメタデータの取得通信を行うような事前設定をするようにする。
そして、受信装置20は、音声ユーザインタフェース装置30から、コンテキストメタデータの取得要求(リクエスト)が発行されたとき、視聴中の番組のチャンネル番号及びメディアタイムを含むコンテキストメタデータを返す(リプライする)。これにより、音声ユーザインタフェース装置30は、発話の音声データに、コンテキストメタデータを付加して送信することが可能となる。
具体的には、音声ユーザインタフェース装置30は、"AAAA, ask TV show, red !!"である発話の音声データとともに、Channel Number = XX, Media Time = T3であるコンテキストメタデータを、インターネット60を介して音声アシスタンスサーバ40に送信する(S43)。
音声アシスタンスサーバ40は、その記録部400に、エイリアススキルを記録している。このエイリアススキル(Alias Skill)は、それ自体を呼び出すインボケーションネーム(例えば"TV show")と、放送番組のメタデータ情報とそれに対応するスキルのペアテーブルを含んで構成される。
図11の例では、"TV show"であるインボケーションネームにより呼び出されるエイリアススキルとして、ディスパッチスキルテーブルと、各放送局のスキルとが対応付けられている。具体的には、ディスパッチスキルテーブルは、XXであるチャンネル番号に対し、T1〜T5である時間に、XXX局のスキルを割り当て、T5〜T10である時間に、XXX局のドラマ番組用のスキルを割り当てている。また、ディスパッチスキルテーブルは、YYであるチャンネル番号に対し、すべての時間帯に、YYY局のスキルを割り当てている。
また、図11の例では、エイリアススキルにおいて、ディスパッチスキルテーブルに対応付けられる各放送局のスキル(ノーマルスキル)として、XXX局のスキル、XXX局のドラマ番組用のスキル、及びYYY局のスキルが登録されている。
ここでは、XXX局のスキルの情報として、"XXX Show"であるインボケーションネームと、"https://XXX"であるエンドポイントURLが登録されている。また、XXX局のドラマ番組用のスキルの情報として、"XXX Drama"であるインボケーションネームと、"https://XXX/drama"であるエンドポイントURLが登録され、YYY局のスキルの情報として、"YYY Show"であるインボケーションネームと、"https://YYY"であるエンドポイントURLが登録されている。
なお、このエイリアススキルは、各放送局のスキル(ノーマルスキル)とは別に、例えば、テレビ受像機等の受信装置20を製造するメーカなどにより作成され、音声アシスタンスサーバ40に提供される。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ40では、発話のテキストデータから得られる"TV show"であるインボケーションネーム(エイリアススキルのインボケーションネーム)に基づき、エイリアススキルが特定されるとともに、特定されたエイリアススキルによって、コンテキストメタデータ(Channel Number, Media Time)に基づき、対応するスキル(ノーマルスキル)にディスパッチされる(S44)。
より具体的には、コンテキストメタデータは、Channel Number = XX, Media Time = T3 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、XXであるチャンネル番号に対し、T1〜T5である時間に割り当てられたXXX局のスキル(XXX show Skill)にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたXXX局のスキルに対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、XXX局のスキルのエンドポイントURLとして、"https://XXX"であるURLが設定されているため、音声アシスタンスサーバ40にて実行されるXXX局のスキルが、XXX局サーバ50Aに対し、リクエストメッセージを通知することで、XXX局のスキルの処理(例えば、"red"であるクイズの解答に対する処理)が実行され、その処理結果が提示される(S45)。このとき、例えば、XXX局のスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中のクイズ番組に参加することが可能となるが、ここでは、XXX局により提供されるスキル(ノーマルスキル)を利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネーム(エイリアススキルのインボケーションネーム)を発話すればよく、1つのインボケーションネームのみで、放送局(又は番組等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
(構成の第2の例)
図12は、第2の実施の形態の構成の第2の例を示す図である。
図12においては、視聴者2が、XXX局のドラマ番組を視聴しているとき、受信装置20では、XXX局のドラマ番組に連動して、XXX局の放送付随アプリケーションが実行されている。
ここで、第2の例では、視聴者2が、XXX局により提供されるドラマ番組用のスキルを利用して、ドラマ番組の内容についての疑問点を質問する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を質問している(S51)。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、コンテキストメタデータを取得する(S52)。そして、音声ユーザインタフェース装置30は、"AAAA, ask TV show, Who is Liz ?"である発話の音声データとともに、Channel Number = XX, Media Time = T7であるコンテキストメタデータを、インターネット60を介して音声アシスタンスサーバ40に送信する(S53)。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ40では、発話のテキストデータから得られる"TV show"であるインボケーションネームに基づき、エイリアススキルが特定されるとともに、当該エイリアススキルによって、コンテキストメタデータ(Channel Number, Media Time)に基づき、対応するスキル(ノーマルスキル)にディスパッチされる(S54)。
第2の例では、コンテキストメタデータは、Channel Number = XX, Media Time = T7 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、XXであるチャンネル番号に対し、T5〜T10である時間に割り当てられたXXX局のドラマ番組用のスキル(XXX Drama Skill)にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたXXX局のドラマ番組用のスキルに対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、XXX局のドラマ番組用のスキルのエンドポイントURLとして、"https://XXX/drama"であるURLが設定されているため、音声アシスタンスサーバ40は、XXX局サーバ50Aに対し、リクエストメッセージを通知することで、XXX局のドラマ番組用のスキルの処理(例えば、"Who is Liz ?"である質問に対する処理)が実行され、その処理結果が提示される(S55)。このとき、例えば、XXX局のドラマ番組用のスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中のドラマ番組の内容についての情報を得ることが可能となるが、ここでは、XXX局のドラマ番組のスキル(ノーマルスキル)を利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネーム(エイリアススキルのインボケーションネーム)を発話すればよく、1つのインボケーションネームのみで、放送局(又は番組等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
より具体的には、図12に示した第2の例を、図11に示した第1の例と比べれば、XXX局のドラマ番組のスキルと、XXX局のスキルとで利用するスキルが異なるが、視聴者2は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。
(構成の第3の例)
図13は、第2の実施の形態の構成の第3の例を示す図である。
図13においては、視聴者2が、YYY局の情報番組を視聴しているとき、受信装置20では、YYY局の情報番組に連動して、YYY局の放送付随アプリケーションが実行されている。
ここで、第3の例では、視聴者2が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答やアンケートの投票などを行っている(S61)。
このとき、音声ユーザインタフェース装置30は、受信装置20との間で無線通信を行うことで、コンテキストメタデータを取得する(S62)。そして、音声ユーザインタフェース装置30は、" AAAA, ask TV show, red !!"である発話の音声データとともに、Channel Number = YY, Media Time = T7であるコンテキストメタデータを、インターネット60を介して音声アシスタンスサーバ40に送信する(S63)。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ40では、発話のテキストデータから得られる"TV show"であるインボケーションネームに基づき、エイリアススキルが特定されるとともに、当該エイリアススキルによって、コンテキストメタデータ(Channel Number, Media Time)に基づき、対応するスキル(ノーマルスキル)にディスパッチされる(S64)。
第3の例では、コンテキストメタデータは、Channel Number = YY, Media Time = T7 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、YYであるチャンネル番号に対し、All timeである時間に割り当てられたYYY局のスキル(YYY show Skill)にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたYYY局のスキルに対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、YYY局のスキルのエンドポイントURLとして、"https://YYY"であるURLが設定されているため、音声アシスタンスサーバ40は、YYY局サーバ50Bに対し、リクエストメッセージを通知することで、YYY局のスキルの処理(例えば、"red"であるゲームの回答等に対する処理)が実行され、その処理結果が提示される(S65)。このとき、例えば、YYY局のスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中の情報番組に参加することが可能となるが、ここでは、YYY局のスキル(ノーマルスキル)を利用する際に、音声ユーザインタフェース装置30に対し、"TV show"である共通インボケーションネーム(エイリアススキルのインボケーションネーム)を発話すればよく、1つのインボケーションネームのみで、放送局(又は番組等の特定の基準)ごとに提供されるスキルにインタラクションすることが可能となる。
より具体的には、図13に示した第3の例を、図11に示した第1の例及び図12に示した第2の例と比べれば、YYY局のスキルと、XXX局のスキル及びXXX局のドラマ番組のスキルとで利用するスキルが異なるが、視聴者2は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。
(各装置の詳細な構成の例)
図14は、第2の実施の形態の各装置の詳細な構成の例を示すブロック図である。
図14においては、図8と同様に、送信側の放送配信システム10と受信側の受信装置20の構成の例と、ローカル側の音声ユーザインタフェース装置30とクラウド側の音声アシスタンスサーバ40及び処理サーバ50の構成の例を示している。
なお、図14において、放送配信システム10、及び処理サーバ50の構成は、図8に示した構成と同様であるため、ここでは、その説明は省略する。ただし、第2の実施の形態では、放送配信システム10において、インボケーションネームメタデータを生成する必要がないため、メタデータ生成部103は除かれている。
図14において、受信装置20は、チューナ201、デマルチプレクサ202、AVデコーダ203、放送付随アプリケーション実行部204、レンダラ205、ディスプレイ206、スピーカ207、通信部210、及びメタデータ管理部211を含んで構成される。すなわち、図14に示した受信装置20の構成は、図8に示した構成と比べて、記録部200、呼出名管理部208、及び呼出名変換部209の代わりに、メタデータ管理部211が設けられている。
メタデータ管理部211は、視聴中の番組の視聴情報を取得するとともに、当該視聴情報を含むコンテキストメタデータの管理を行う。すなわち、メタデータ管理部211は、音声ユーザインタフェース装置30からのメタデータ取得要求を受信した場合、取得した視聴情報に基づき、コンテキストメタデータ(Channel Number, Media Time)を生成し、リプライする。
図14において、音声ユーザインタフェース装置30は、マイクロフォン301、スピーカ302、通信部303、通信部305、セッティング管理部306、及び音声解析・メタデータマージ部307を含んで構成される。すなわち、図14に示した音声ユーザインタフェース装置30は、図8に示した構成と比べて、音声解析部304の代わりに、音声解析・メタデータマージ部307が設けられている。
音声解析・メタデータマージ部307は、マイクロフォン301から供給される発話の音声データに基づいて、音声発話の解析を行う。
また、音声解析・メタデータマージ部307は、エイリアススキルのインボケーションネームが発話された場合には、受信装置20に対してメタデータ取得要求を送信することで、コンテキストメタデータ(Channel Number, Media Time)を取得する。音声解析・メタデータマージ部307は、発話の音声データに対し、取得したコンテキストメタデータを付加して送信データを生成する。この送信データは、通信部303によって、インターネット60を介して音声アシスタンスサーバ40に送信される。
図14において、音声アシスタンスサーバ40は、記録部400、通信部401、通信部402、音声生成部404、及び音声解析・メタデータ抽出部405を含んで構成される。
すなわち、図14に示した音声アシスタンスサーバ40は、図8に示した構成と比べて、音声解析部403の代わりに、音声解析・メタデータ抽出部405が設けられている。また、記録部400には、複数のスキル(Skill_1乃至Skill_N)の代わりに、エイリアススキルと、複数のノーマルスキル(Normal Skill_1乃至Normal Skill_N)が記録されている。なお、エイリアススキルやノーマルスキル(のプログラム)は、記録部400から読み出され、CPU(後述の図25のCPU1001等)により実行される。
音声解析・メタデータ抽出部405は、音声ユーザインタフェース装置30からの送信データに含まれる発話の音声データを、テキストデータに変換する。また、音声解析・メタデータ抽出部405は、発話の音声データの解析結果に基づいて、対象のスキルを特定し、特定した対象のスキルがエイリアススキルである場合には、実行中のエイリアススキルに対し、変換した発話のテキストデータとともに、送信データから抽出したコンテキストメタデータ(Channel Number, Media Time)を渡す。
実行中のエイリアススキルは、ディスパッチスキルテーブル等に基づき、音声解析・メタデータ抽出部405からのコンテキストメタデータ(Channel Number, Media Time)に合致する対象のノーマルスキル(例えば、図14の例では、Normal Skill_1)を特定し、パラメータとして発話のテキストデータを渡す。
エイリアススキルによりディスパッチされたノーマルスキル(例えば、Normal Skill_1)は、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成する。このリクエストメッセージは、通信部402によって、ネットワーク70を介して処理サーバ50に送信される。
なお、音声アシスタンスサーバ40においては、音声解析・メタデータ抽出部405と、実行中のエイリアススキルやノーマルスキル等の処理モジュールによって、エイリアススキルのインボケーションネームに応じた処理を行う処理部420が構成される。
(各装置の処理の流れ)
次に、図15のフローチャートを参照して、第2の実施の形態の各装置の処理の流れを説明する。
まず、事前の設定として、ステップS201の処理が実行される。すなわち、音声ユーザインタフェース装置30においては、セッティング管理部306が、視聴者2からの指示に従い、エイリアススキルのインボケーションネーム(共通インボケーションネーム)と、そのスキルに必要なコンテキストメタデータの取得先(メタデータ取得通信先)を設定する(S201)。
ここでは、例えば、エイリアススキルのインボケーションネームとして、"TV show"を設定するとともに、メタデータ取得通信先として、受信装置20を設定することができる。
この事前の設定が行われた後、受信装置20では、放送配信システム10から送信される放送ストリームが受信され、視聴者2の選局操作に応じた放送番組が再生されている(S231)。このとき、受信装置20では、メタデータ管理部211によって、視聴中の放送番組の視聴情報が取得される(S232)。
また、視聴者2から質問発話がなされた場合、ステップS202以降の処理が実行される。すなわち、音声ユーザインタフェース装置30において、マイクロフォン301が、視聴者2による発話を収音し、音声解析・メタデータマージ部307が、収音された発話の音声データを解析する(S202)。
ステップS203において、音声解析・メタデータマージ部307は、セッティング管理部306に問い合わせることで、解析された発話の音声データに、エイリアススキルのインボケーションネームの発話が含まれるかどうかを確認(判定)する。
なお、音声解析・メタデータマージ部307は、セッティング管理部306への問い合わせに際して、その後の処理で用いられるメタデータ取得通信先を取得しておくことができる。ここでは、メタデータ取得通信先として、受信装置20が設定されているものとする。
ステップS203において、エイリアススキルのインボケーションネームが発話されたと判定された場合(S203の「YES」)、処理は、ステップS204に進められる。ステップS204において、音声解析・メタデータマージ部307は、セッティング管理部306から取得済みのメタデータ取得通信先に基づき、無線通信等により受信装置20に対し、メタデータ取得要求を発行することで、コンテキストメタデータを取得する。
すなわち、受信装置20では、音声ユーザインタフェース装置30からのメタデータ取得要求が受信された場合、メタデータ管理部211によって、視聴中の放送番組の視聴情報に基づき、コンテキストメタデータ(Channel Number, Media Time)が生成され、リプライされる。これにより、音声解析・メタデータマージ部307は、視聴中(現在)の放送番組のチャンネル番号(Channel Number)及びメディアタイム(Media Time)を含むコンテキストメタデータを取得することができる。
ステップS205において、音声解析・メタデータマージ部307は、取得したコンテキストメタデータ(Channel Number, Media Time)を、送信データにマージする。ここでは、発話の音声データに対し、視聴中の放送番組のチャンネル番号及びメディアタイムを含むコンテキストメタデータが付加され、送信データが生成される。
この送信データとしては、例えば、図16に示すようなデータを送ることができる。すなわち、音声解析・メタデータマージ部307は、発話の音声データを配置したHTTPリクエストのボディに対し、コンテキストメタデータを、JSON(JavaScript(登録商標) Object Notation)形式のデータとして記述する(マージする)ことで、マルチパート形式のHTTPリクエストを生成する。
JSON形式のオブジェクトは、キーと値のペアをコロン(:)で対にして、これらの対を、コンマ(,)で区切ってゼロ個以上列挙し、全体を波括弧({})でくくることで表現される。図16の例では、コンテキストメタデータ("ContextMetaDatas")のオブジェクトに対し、Channel Numberの値として、"8.1"であるチャンネル番号が記述され、Media Timeの値として、"2018-01-29T18:00:05Z"であるメディアタイムが記述されている。
図15に戻り、ステップS206において、音声解析・メタデータマージ部307は、生成した送信データを、音声アシスタンスサーバ40に送信する。この音声ユーザインタフェース装置30からの送信データは、音声アシスタンスサーバ40により受信され、ステップS207乃至S211の処理が実行される。
ステップS207において、音声解析・メタデータ抽出部405は、音声ユーザインタフェース装置30からの送信データに含まれる発話の音声データを、テキストデータに変換する。
ステップS208において、音声解析・メタデータ抽出部405は、発話の音声データの解析結果に基づいて、対象のスキルを特定する。
ステップS209において、音声解析・メタデータ抽出部405は、特定した対象のスキルが、エイリアススキルかどうかを確認(判定)する。このステップS209の判定処理の結果に従い、エイリアススキル処理又はノーマルスキル処理のいずれかの処理が実行される。なお、このとき、音声アシスタンスサーバ40では、CPU等によって、エイリアススキルやノーマルスキルが実行されている。
すなわち、ステップS209において、特定した対象のスキルが、エイリアススキルであると判定された場合、処理は、ステップS210に進められ、音声アシスタンスサーバ40と処理サーバ50によって、エイリアススキル処理が実行される。
このエイリアススキル処理では、まず、音声解析・メタデータ抽出部405が、送信データからコンテキストメタデータを抽出し、抽出したコンテキストメタデータを、変換した発話のテキストデータとともに、実行中のエイリアススキルに渡す(S210A)。
次に、エイリアススキルは、ディスパッチスキルテーブル等に基づき、音声解析・メタデータ抽出部405からのコンテキストメタデータ(Channel Number, Media Time)に合致する対象のスキル(ノーマルスキル)を特定する(S210B)。また、エイリアススキルは、ステップS210Bの処理により自身が特定した対象のスキル(ノーマルスキル)に対し、パラメータとして発話のテキストデータを渡す(S210C)。
このようにして、エイリアススキルによりディスパッチされたノーマルスキルは、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成する(S210D)。そして、当該ノーマルスキルは、生成したリクエストメッセージを、ネットワーク70を介して、エンドポイントURLにより特定される処理サーバ50(の処理部502)に送信する(S210D)。
一方で、ステップS209において、特定した対象のスキルが、エイリアススキルではない、すなわち、ノーマルスキルであると判定された場合、処理は、ステップS211に進められ、音声アシスタンスサーバ40と処理サーバ50によって、ノーマルスキル処理が実行される。
このノーマルスキル処理では、音声解析・メタデータ抽出部405が、ステップS208の処理で特定された対象のスキル(ノーマルスキル)に対し、パラメータとして発話のテキストデータを渡す(S211A)。当該ノーマルスキルは、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成し、エンドポイントURLにより特定される処理サーバ50(の処理部502)に送信する(S211B)。
エイリアススキル処理(S210)、又はノーマルスキル処理(S211)が終了すると、処理は、ステップS212に進められる。すなわち、対象のスキル(ノーマルスキル)により送信されたリクエストメッセージは、ネットワーク70を介して、処理サーバ50により受信され、ステップS212の処理が実行される。
ステップS212において、処理部502は、リクエストメッセージに基づき、視聴者2の質疑発話に対する音声応答のデータを抽出し、ネットワーク70を介して音声アシスタンスサーバ40に送信する。これにより、音声ユーザインタフェース装置30では、音声アシスタンスサーバ40からの応答の音声データに応じた応答音声が、スピーカ302から出力される。その結果として、視聴者2は、自身の質疑発話に応じた応答音声を確認することができる。
以上、第2の実施の形態の各装置の処理の流れとして、クラウド側の音声アシスタンスサーバ40にてエイリアススキルを用いて対象のスキルを切り替える場合の処理の流れを説明した。
以上のように、第2の実施の形態では、音声アシスタンスサーバ40の処理部420が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うノーマルスキル(プログラム)を呼び出すためのインボケーション(呼び出し名)として複数のノーマルスキル(プログラム)で共通となるエイリアススキルのインボケーションネーム(共通の呼び出し名)と、ノーマルスキル(プログラム)ごとの固有の情報とを対応付けた対応情報(エイリアススキルのディスパッチスキルテーブル等)に基づいて、視聴者2の発話の音声に含まれるエイリアススキルのインボケーションネーム(共通の呼び出し名)に対応付けられた固有の情報を処理する。
また、対応情報は、視聴者2が視聴中の放送番組(コンテンツ)を特定するためのコンテキストメタデータ(メタデータ)と、ノーマルスキル(固有のプログラム)とを対応付けた情報(ディスパッチスキルテーブル等)であって、エイリアススキルのインボケーションネーム(共通の呼び出し名)により特定されるエイリアススキル(切り替え用のプログラム)に含まれている。処理部420では、エイリアススキルのインボケーションネーム(共通の呼び出し名)に基づき、エイリアススキル(切り替え用のプログラム)が特定されるとともに、当該エイリアススキル(切り替え用のプログラム)によって、コンテキストメタデータ(メタデータ)に対応付けられたノーマルスキル(固有のプログラム)にディスパッチされ、視聴者2の発話の音声に対する対応処理が行われる。このように、音声アシスタンスサーバ40は、処理部420を備える情報処理装置であるとも言える。
これにより、例えば、XXX局やYYY局のスキルなどのように利用するスキルが異なる場合であっても、視聴者2は、エイリアススキルのインボケーションネーム(共通インボケーションネーム)を発話することで、所望のスキルを利用することが可能となるため、XXX局やYYY局の放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。
なお、上述した説明では、コンテキストメタデータとして、視聴中(現在)の放送番組のチャンネル番号(Channel Number)及びメディアタイム(Media Time)等の視聴情報を含める場合を説明したが、コンテキストメタデータに含めるコンテキスト情報は視聴情報に限らず、様々な情報を含めることができる。例えば、ローカル側の受信装置20や音声ユーザインタフェース装置30などが、Bluetooth(登録商標)等の無線通信によって、関連周辺機器等の他の機器から、音声AIアシスタンスサービスにて有用なコンテキスト情報を取得し、コンテキストメタデータとして、発話の音声データに付加して送信するようにしてもよい。
(3)第3の実施の形態
次に、第3の実施の形態として、図17乃至図23を参照しながら、クラウド側の音声アシスタンスサーバ40にて視聴者のカウント情報に紐付いたプライベートスキルを生成するとともに、放送経由で配信されるメタデータに基づき、当該プライベートスキルの更新(リアルタイム更新)を行う構成を示す。
(初期登録時の構成の例)
図17は、第3の実施の形態の構成の第1の例として、初期登録時の構成を示している。
初期登録時において、視聴者2は、受信機運用スキルに使用するインボケーションネームと、自身のアカウント情報を、受信装置20に登録する(S71)。
これにより、受信装置20において、記録部200には、視聴者2による設定入力に応じて、受信機運用スキル(スキル名:TV show Skill)に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報が登録される(D1)。また、記録部200は、放送配信システム10から配信される配信スキルのカレントバージョン(初期値:0)を記録している。
なお、視聴者2は、コンテンツ・音声AI連携システム1を利用するに際し、音声ユーザインタフェース装置30をユーザインタフェースとする音声AIアシスタンスサービスを提供するサービスAのアカウント情報("BBBB")を持っており、初期登録時には、このサービスAのアカウント情報("BBBB")を登録することができる。
具体的には、例えば、代表的な音声AIアシスタンスサービスである、Amazon Echo(登録商標)に搭載されているAlexa(登録商標)を利用する場合、視聴者2は、既に登録済みであるAmazon.com(登録商標)のアカウント情報を流用して登録することができる。
受信装置20は、視聴者2により設定入力された内容に基づいて、スキル生成リクエストを、インターネット60を介して音声アシスタンスサーバ40に送信する(S72)。
このスキル生成リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及び"TV show"であるインボケーションネームのほか、当該インボケーションネーム以外のスキル登録情報を含めることができる。ただし、この初期登録時に送られるスキル登録情報は、必要最低限の情報に限るものとする。
音声アシスタンスサーバ40は、受信装置20からのスキル生成リクエスト(に含まれる送信データ)に基づいて、プライベートスキルを生成し、記録部400に記録する(S73)。
このプライベートスキルは、"BBBB"であるアカウント情報に紐付いたスキルであって、スキル名が"TV show Skill"であり、スキルの情報として、"TV show"であるインボケーションネームと、"https://ZZZ"であるエンドポイントURLのほか、インテントリストや、発話−インテント変換テーブルなどを含んでいる。
ここで、インテントリストは、視聴者2の発話の音声データの解析結果(例えば視聴者2の意図や要望等)に対応した処理を行うインテントのリストである。すなわち、スキル(プライベートスキル)は、そのインテントに応じた処理を行うことで、視聴者2の要望を実現することになる。また、発話−インテント変換テーブルは、発話とインテントとを対応付けたテーブルであって、当該テーブルを用いることで、視聴者2の発話をインテントに変換することができる。
ただし、初期登録時において、インテントリストや発話−インテント変換テーブルには、必要最低限の情報のみが登録されている。また、この例では、エンドポイントURLやインテントリスト、発話−インテント変換テーブルが、生成したプライベートスキルに含まれるとして説明したが、それ以外の情報が含まれるようにしてもよい。
このようにして、初期登録の段階で、音声ユーザインタフェース装置30に割り当てられているカウント情報("BBBB")に紐付いたプライベートスキルとして、放送付随アプリケーション用途のスキルを生成(自動登録生成)しておくようにする。ただし、初期登録の段階では、スキルの情報として、インボケーションネーム("TV show")以外の情報は、必要最低限とされ、いわば、更新を前提に最初の1つのスキル(プライベートスキル)をあらかじめ作っているとも言える。
(視聴時の構成の第1の例)
図18は、第3の実施の形態の構成の第2の例として、視聴時の構成の第1の例を示している。
図18において、受信装置20は、放送配信システム10から送信される放送ストリームを受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりするが、放送ストリームには、スキル登録情報を通知するためのメタデータ(以下、スキル登録情報メタデータという)が挿入されている。
なお、詳細は後述するが、スキル登録情報メタデータは、MPDのEventStream等を利用して送ることができる。また、記録部200には、図17に示した初期登録時の処理によって、受信機運用スキル(スキル名:TV show Skill)に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報が登録されている。また、配信スキルのカレントバージョンは、1となっている。
例えば、視聴者2が、XXX局のクイズ番組を視聴しているとき、受信装置20では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置20は、視聴中のXXX局のクイズ番組に合わせて、放送ストリームからXXX局用のスキル登録情報メタデータを取得する(S81)。
受信装置20は、取得したXXX局用のスキル登録情報メタデータに基づき、受信機運用スキルを更新するかどうかを判定する(S82)。第1の例では、記録部200に記録された配信スキルのカレントバージョンは、1であるが、取得したXXX局の配信スキルのバージョンは、2であって、バージョンが上がっているため、受信装置20は、スキル更新リクエストを、インターネット60を介して音声アシスタンスサーバ40に送信する(S83)。
このスキル更新リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及びインボケーションネーム以外のスキル登録情報を含めることができる。例えば、スキル登録情報としては、更新後のエンドポイントURLやインテントリスト、発話−インテント変換テーブルを含めることができる。ただし、ここで送られるスキル登録情報は、XXX局用のスキル登録情報メタデータから得られる情報(XXX局のスキル登録情報)に対応したものとなる。
なお、ここでは、配信スキルのバージョンが更新されたときに、スキル更新リクエストを発行して、プライベートスキルを更新するとして説明するが、プライベートスキルの更新タイミングは、これに限らず、例えば、視聴者2のリモートコントローラ操作で、別の放送局にチャンネルが切り替えられたときや、受信装置20の電源がオンされたとき(周波数帯域(チャンネル)を合わせたとき)などのタイミングであってもよい。
音声アシスタンスサーバ40は、受信装置20からのスキル更新リクエスト(に含まれる送信データ)に基づいて、記録部400に記録されたプライベートスキル(の一部)を更新する(S84)。
ここで、記録部400には、図17に示した初期登録時の処理によって、プライベートスキルが登録されたが、このプライベートスキルのインボケーションネーム以外の情報を、スキル更新リクエストの送信データとして送られるXXX局のスキル登録情報により更新することができる。具体的には、第1の例では、記録部400において、エンドポイントURLが、"https://ZZZ"から、"https://XXX"に更新される。また、例えば、インテントリストが、XXX局用のスキルのインテントリストに更新され、発話−インテント変換テーブルが、XXX局用のスキルの発話−インテント変換テーブルに更新される。
また、第1の例においては、視聴者2が、XXX局により提供されるスキルを利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズに対する自身の解答を伝えている(S85)。
音声ユーザインタフェース装置30は、「AAAA, ask TV show, red !!」である発話の音声データを、音声アシスタンスサーバ40に送信する(S86)。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換するとともに、対象のスキル(プライベートスキル)を特定する。図18の例では、発話の音声データに、"TV show"であるインボケーションネームが含まれるため、視聴者2のアカウント情報("BBBB")に紐付いたプライベートスキル("TV Show Skill")が特定される。そして、実行中のプライベートスキル("TV Show Skill")に対し、パラメータとして発話のテキストデータが渡される。
ここでは、プライベートスキル("TV Show Skill")のエンドポイントURLとして、"https://XXX"であるURL、すなわち、XXX局サーバ50AのURLが設定されているため、音声アシスタンスサーバ40にて実行されるプライベートスキルが、XXX局サーバ50Aに対し、リクエストメッセージを通知することで、視聴者2のアカウント情報に紐付いたプライベートスキルの処理(例えば、"red"であるクイズの解答に対する処理)が実行され、その処理結果が提示される(S87)。このとき、例えば、プライベートスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中のクイズ番組に参加することが可能となるが、ここでは、視聴者2のアカウント情報に紐付いたプライベートスキルを利用する際に、音声ユーザインタフェース装置30に対し、"TV show"であるインボケーションネームを発話することで、プライベートスキルにインタラクションすることが可能となる。
(視聴時の構成の第2の例)
図19は、第3の実施の形態の構成の第3の例として、視聴時の構成の第2の例を示している。
図19においては、例えば、視聴者2が、YYY局の情報番組を視聴しているとき、受信装置20では、YYY局の情報番組に連動してYYY局の放送付随アプリケーションが実行されている。また、このとき、受信装置20は、視聴中のYYY局の情報番組に合わせて、放送ストリームからYYY局用のスキル登録情報メタデータを取得する(S91)。
受信装置20は、取得したYYY局用のスキル登録情報メタデータに基づき、受信機運用スキルを更新するかどうかを判定する(S92)が、第2の例では、取得したYYY局の配信スキルのバージョンは、2であって、バージョンが上がっているため、受信装置20は、スキル更新リクエストを、インターネット60を介して音声アシスタンスサーバ40に送信する(S93)。
このスキル更新リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及びインボケーションネーム以外のスキル登録情報を含めることができる。ただし、ここで送られるスキル登録情報は、YYY局用のスキル登録情報メタデータから得られる情報(YYY局のスキル登録情報)に対応したものとなる。
音声アシスタンスサーバ40は、受信装置20からのスキル更新リクエストに基づいて、記録部400に記録されたプライベートスキル(の一部)を更新する(S94)。具体的には、第2の例では、記録部400において、エンドポイントURLが、"https://ZZZ"から"https://YYY"に更新され、インテントリストが、YYY局用のスキルのインテントリストに更新され、発話−インテント変換テーブルが、YYY局用のスキルの発話−インテント変換テーブルに更新される。
ここで、第2の例では、視聴者2が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者2が、音声ユーザインタフェース装置30に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答などを行っている(S95)。
音声ユーザインタフェース装置30は、「AAAA, ask TV show, red !!」である発話の音声データを、音声アシスタンスサーバ40に送信する(S96)。
音声アシスタンスサーバ40は、音声ユーザインタフェース装置30からの発話の音声データをテキストデータに変換するとともに、対象のスキル(プライベートスキル)を特定する。図19の例では、発話の音声データに、"TV show"であるインボケーションネームが含まれるため、視聴者2のアカウント情報("BBBB")に紐付いたプライベートスキル("TV Show Skill")が特定される。そして、実行中のプライベートスキル("TV Show Skill")に対し、パラメータ(発話のテキストデータ)が渡される。
ここでは、プライベートスキル("TV Show Skill")のエンドポイントURLとして、"https://YYY"であるURL、すなわち、YYY局サーバ50BのURLが設定されているため、音声アシスタンスサーバ40は、YYY局サーバ50Bに対し、リクエストメッセージを通知することで、プライベートスキルの処理(例えば、"red"であるゲームの回答等に対する処理)が実行され、その処理結果が提示される。このとき、例えば、プライベートスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。
このようにして、視聴者2は、視聴中の情報番組に参加することが可能となるが、ここでは、視聴者2のアカウント情報に紐付いたプライベートスキルを利用する際に、音声ユーザインタフェース装置30に対し、"TV show"であるインボケーションネームを発話することで、プライベートスキルにインタラクションすることが可能となる。
(各装置の詳細な構成の例)
図20は、第3の実施の形態の各装置の詳細な構成の例を示すブロック図である。
図20においては、図8と同様に、送信側の放送配信システム10と受信側の受信装置20の構成の例と、ローカル側の音声ユーザインタフェース装置30とクラウド側の音声アシスタンスサーバ40及び処理サーバ50の構成の例を示している。
なお、図20において、放送配信システム10、及び処理サーバ50の構成は、図8に示した構成と同様であるため、ここでは、その説明は省略する。ただし、第3の実施の形態では、放送配信システム10が、スキル登録情報メタデータを配信する必要がある。そのため、メタデータ生成部103は、インボケーションネームメタデータの代わりに、スキル登録情報メタデータを生成することになる。
図20において、受信装置20は、記録部200(図17乃至図19)のほか、チューナ201、デマルチプレクサ202、AVデコーダ203、放送付随アプリケーション実行部204、レンダラ205、ディスプレイ206、スピーカ207、通信部210、セッティング管理部212、スキル生成・更新リクエスト発行管理部213、及びスキルバージョン管理部214を含んで構成される。
すなわち、図20に示した受信装置20は、図8に示した構成と比べて、呼出名管理部208、及び呼出名変換部209の代わりに、セッティング管理部212、スキル生成・更新リクエスト発行管理部213、及びスキルバージョン管理部214が設けられている。
セッティング管理部212は、視聴者2からの設定入力に従い、各種の設定を行う。ここでは、例えば、受信機運用スキルのインボケーションネームや、アカウント情報などの設定が行われ、記録部200に記録される。なお、ここでの設定入力に際しては、例えばリモートコントローラやボタン、タッチパネル(不図示)等によって視聴者2の操作入力を受け付けることは勿論、音声ユーザインタフェース装置30を介して視聴者2の音声入力を受け付けるようにしてもよい。
スキル生成・更新リクエスト発行管理部213は、セッティング管理部212により設定された設定情報やスキル登録情報(必要最低限の情報に限る)などの情報に基づいて、スキル生成リクエストを生成する。このスキル生成リクエストは、通信部210によって、インターネット60を介して音声アシスタンスサーバ40に送信される。
また、スキル生成・更新リクエスト発行管理部213は、デマルチプレクサ202から供給されるスキル登録情報メタデータ、並びにセッティング管理部212から取得したスキル名及びアカウント情報などの情報に基づいて、スキル更新リクエストを生成する。このスキル更新リクエストは、通信部210によって、インターネット60を介して音声アシスタンスサーバ40に送信される。
スキルバージョン管理部214は、スキル生成・更新リクエスト発行管理部213からの指示に従い、配信スキルのカレントバージョンを管理する。このバージョン情報は、記録部200に記録される。
なお、通信部210は、例えば、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成され、所定の通信方式に従い、インターネット60を介して、音声アシスタンスサーバ40(の通信部407)との間で通信を行い、各種のデータをやり取りする。
図20において、音声ユーザインタフェース装置30は、マイクロフォン301、スピーカ302、及び通信部303を含んで構成される。すなわち、図20に示した音声ユーザインタフェース装置30は、図8に示した構成と比べて、音声解析部304、通信部305、及びセッティング管理部306が除かれている。
また、図20において、音声アシスタンスサーバ40は、記録部400(図17乃至図19)のほか、通信部401、通信部402、音声解析部403、音声生成部404、スキル生成・更新部406、及び通信部407を含んで構成される。すなわち、図20に示した音声アシスタンスサーバ40は、図8に示した構成と比べて、スキル生成・更新部406、及び通信部407が追加されている。また、記録部400には、複数のスキル(Skill_1乃至Skill_N)の代わりに、生成又は更新されたプライベートスキル(Private Skill)が記録されている。
スキル生成・更新部406は、受信装置20から送信されてくるスキル生成リクエストに基づいて、プライベートスキルを生成する。このプライベートスキル(プログラム)は、記録部400に記録される。また、スキル生成・更新部406は、受信装置20から送信されてくるスキル更新リクエストに基づいて、記録部400に記録されているプライベートスキルの内容を更新する(差し替える)。
プライベートスキル(プログラム)は、記録部400から読み出され、CPU(後述の図25のCPU1001等)により実行される。実行中のプライベートスキルは、音声解析部403から受け取ったパラメータ(発話のテキストデータ)に基づき、リクエストメッセージを生成する。このリクエストメッセージは、通信部402によって、ネットワーク70を介して処理サーバ50に送信される。
なお、音声アシスタンスサーバ40においては、スキル生成・更新部406によって、プライベートスキルの生成と、生成したプライベートスキルの更新を行う処理部430が構成される。
通信部407は、無線通信又は有線通信に対応した通信モジュールとして構成され、所定の通信方式に従い、インターネット60を介して、受信装置20(の通信部210)との間で通信を行い、各種のデータをやり取りする。なお、図20においては、説明の都合上、通信部407を、通信部401及び通信部402と別の通信モジュールとして説明したが、それらが一体となって1つの通信モジュールとして構成されるようにしてもよい。
(各装置の処理の流れ)
次に、図21のフローチャートを参照して、第3の実施の形態の各装置の処理の流れを説明する。
まず、初期登録時に、ステップS301乃至S304の処理が実行される。すなわち、視聴者2による設定入力は、受信装置20により受け付けられ、ステップS301乃至S303の処理が実行される。
すなわち、受信装置20においては、セッティング管理部212が、視聴者2からの指示に従い、受信機運用スキルのインボケーションネームと、アカウント情報を設定する(S301)。ここでは、例えば、受信機運用スキル(スキル名:TV show Skill)に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報を設定することができる。
また、スキル生成・更新リクエスト発行管理部213は、セッティング管理部212により設定された設定情報やスキル登録情報(必要最低限の情報に限る)に基づいて、音声アシスタンスサーバ40に対し、スキル生成リクエストを発行する(S302)。また、スキルバージョン管理部214は、スキル生成・更新リクエスト発行管理部213からの指示に従い、配信スキルのカレントバージョンを、0にリセットする(S303)。
スキル生成リクエストは、インターネット60を介して音声アシスタンスサーバ40により受信され、ステップS304の処理が実行される。
すなわち、スキル生成・更新部406は、受信装置20から受信したスキル生成リクエストに基づいて、プライベートスキルを生成する(S304)。このプライベートスキル(プログラム)は、例えば、記録部400に記録され、CPU等により実行可能とされる。
初期登録が行われた後、プライベートスキルの更新が行われる場合には、ステップS311乃至S318の処理が実行される。なお、ここでは、配信スキルのバージョンが更新されたときに、プライベートスキルを更新するとして説明するが、例えば、別の放送局にチャンネルが切り替えられたときなどに更新してもよいことは、先に述べた通りである。
すなわち、放送配信システム10では、メタデータ生成部103によって、スキル登録情報メタデータが生成され、マルチプレクサ104によって、生成されたスキル登録情報メタデータが、ストリームに挿入される(S311)。
ここで、例えば、コンテンツを、MPEG-DASHに準拠したストリームとして配信する場合、その制御情報であるMPDを利用して、スキル登録情報メタデータを伝送することが可能となる。
図22は、スキル登録情報メタデータを、MPDに挿入する場合の例を示している。
上述したように、MPDは、その階層構造にPeriod要素を含み、Period要素内には、EventStream要素を記述することができる。また、EventStream要素には、その属性として、スキームを識別するためのURIを示すschemeIdUri属性を記述することができる。図22のMPDの記述例では、XXX局用のスキル登録情報メタデータを伝送するためのスキームを識別するURIとして、'urn:XXX'を定義し、schemeIdUri属性の属性値として記述している。
また、EventStream要素に対し、Event要素を記述することができる。Event要素は、その属性として、イベントメッセージのデータが指定されるmessageData属性を記述することができる。図22のMPDの記述例では、XML(Extensible Markup Language)形式のXXX局用のスキル登録情報メタデータ(図中の'XML文章')を、Event要素のmessageData属性の属性値として記述している。
図23は、XML形式のXXX局用のスキル登録情報メタデータの記述の例を示している。
図23には、XXX局のスキル登録情報として、例えば、SkillRegistrationInfo要素のversion属性として、"1"であるXXX局の配信スキルのバージョンが記述されている。また、InvocationName要素の開始タグと終了タグの間に、"XXX Quiz"であるインボケーションネーム、EndpointUrl要素の開始タグと終了タグの間に、"http://XXX"であるエンドポイントURLが記述されている。さらに、その他のスキル登録情報として、例えば、Intent要素やSlotValues要素などによって、インテントやスロット(パラメータ)に関する情報などが記述されている。
なお、Event要素は、その属性として、presentationTime属性とduration属性を記述することができるが、ここでは、これらの属性は用いずに、messageData属性の属性値として記述されたスキル登録情報メタデータが、常に有効であるものとする。
図21に戻り、ステップS312において、送出部105は、スキル登録情報メタデータを挿入した放送ストリームを送信する。この放送ストリームは、受信装置20により受信され、ステップS313乃至S317の処理が実行される。
ステップS313において、スキル生成・更新リクエスト発行管理部213は、デマルチプレクサ202により分離されたストリームから得られるスキル登録情報メタデータを取得する。
ステップS314において、スキル生成・更新リクエスト発行管理部213は、スキルバージョン管理部214に問い合わせることで、バージョンが更新されているかを確認する。ここでは、ステップS314の処理で、バージョンが更新されていると判定された場合の処理を、ステップS315乃至S318に示している。
ステップS315において、スキル生成・更新リクエスト発行管理部213は、セッティング管理部212に問い合わせることで、受信機運用スキルのスキル名、及び視聴者2のアカウント情報を取得する。
ステップS316において、スキル生成・更新リクエスト発行管理部213は、放送ストリームから取得したスキル登録情報メタデータ、並びにセッティング管理部212から取得したスキル名及びアカウント情報に基づいて、音声アシスタンスサーバ40に対し、スキル更新リクエストを発行する。
ステップS317において、スキルバージョン管理部214は、スキル生成・更新リクエスト発行管理部213からの指示に従い、配信スキルのカレントバージョンを更新する。ここでは、例えば、カレントバージョンが、0から1にインクリメントされる。
スキル更新リクエストは、インターネット60を介して音声アシスタンスサーバ40により受信され、ステップS318の処理が実行される。
ステップS318において、スキル生成・更新部406は、受信装置20から受信したスキル更新リクエストに基づいて、視聴者2のアカウント情報に紐付いたプライベートスキルの内容を更新する(差し替える)。この更新後のプライベートスキル(プログラム)は、例えば、記録部400に記録され、CPU(例えば、後述の図25のCPU1001)により実行される。
なお、ここでは、配信スキルのバージョンが更新され、プライベートスキルが更新される場合を説明したが、配信スキルのバージョンが更新されていない場合には、ステップS315乃至S318の更新時の処理はスキップされ、プライベートスキルの更新は行われずに、例えば、更新前のプライベートスキルがそのまま実行される。
その後、視聴者2から質問発話がなされたとき、ステップS321以降の処理が実行される。すなわち、音声ユーザインタフェース装置30において、マイクロフォン301により収音された視聴者2の発話が、音声アシスタンスサーバ40に送られ(S321)、音声解析部403によって、発話の音声データがテキストデータに変換される(S322)。
また、音声解析部403は、発話の音声データの解析結果に基づいて、記録部400に記録されたスキルの中から、対象のスキル(プライベートスキル)を特定する(S323)。ここで、音声アシスタンスサーバ40では、CPU等によって、対象のプライベートスキルが実行されているため、音声解析部403は、変換した発話のテキストデータ(パラメータ)を、特定した対象のスキル(プライベートスキル)に渡す(S324)。
対象のプライベートスキルは、音声解析部403からの発話のテキストデータに基づいて、リクエストメッセージを生成し、エンドポイントURLにより特定される処理サーバ50(の処理部502)に送信する(S325)。このリクエストメッセージは、ネットワーク70を介して、処理サーバ50により受信され、ステップS326の処理が実行される。
ステップS326において、視聴者2の質疑発話に対する音声応答のデータを抽出し、ネットワーク70を介して音声アシスタンスサーバ40に送信する。これにより、音声ユーザインタフェース装置30では、音声アシスタンスサーバ40からの音声データに応じた応答音声が、スピーカ302から出力される。その結果として、視聴者2は、自身の質疑発話に応じた応答音声を確認することができる。
以上、第3の実施の形態の各装置の処理の流れとして、クラウド側の音声アシスタンスサーバ40にて視聴者のカウント情報に紐付いたプライベートスキルを生成するとともに、放送経由で配信されるスキル登録情報メタデータに基づき、当該プライベートスキルの更新(リアルタイム更新)を行う場合の流れを説明した。
以上のように、第3の実施の形態では、音声アシスタンスサーバ40の処理部430が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者2のアカウント情報、視聴者の発話の音声に対する対応処理を行うプログラムであって視聴者に特化したプライベートスキル(個人用のプログラム)の名称、及び個人用のプログラムを呼び出すためのインボケーションネーム(呼び出し名)を少なくとも含むスキル登録情報(生成情報)に基づいて、プライベートスキル(個人用のプログラム)を生成するとともに、アカウント情報、個人用のプログラムの名称、及び個人用のプログラムに対して登録される情報であって呼び出し名を除いた登録情報を少なくとも含むスキル登録情報(更新情報)に基づいて、生成したプライベートスキル(個人用のプログラム)を更新する。
また、処理部430では、音声ユーザインタフェース装置30から送られるインボケーションネーム(呼び出し名)に対応付けられたプライベートスキル(個人用のプログラム)によって、視聴者2の発話の音声に対する対応処理が行われる。このように、音声アシスタンスサーバ40は、処理部430を備える情報処理装置であるとも言える。
なお、上述した説明では、プライベートスキルについて説明したが、プライベートスキルを提供する形態は、上述した実施の形態に限定されるものではない。例えば、音声アシスタンスサーバ40等の装置において、共通のスキルを取得(受信)し、対象の視聴者に適合した発話パターン(例えば、訛りなど)を追加するなどのカスタマイズを行い、プライベートスキルとして利用するなどの提供の形態が想定される。
<3.変形例>
(他の構成の例)
上述した説明では、受信装置20と音声ユーザインタフェース装置30とが別の装置であると説明したが、例えば、図24に示すように、それらの装置を一体化して1つの装置(情報処理装置)として構成されるようにしてもよい。
すなわち、図24に示した受信装置20は、音声AIアシスタンスサービスに対応したテレビ受像機やスマートフォン等の機器であって、記録部200、及びチューナ201乃至呼出名変換部209のほかに、音声ユーザインタフェース装置30側のマイクロフォン301、通信部303、音声解析部304、及びセッティング管理部306が設けられている。ただし、図24において、スピーカ207は、音声ユーザインタフェース装置30側のスピーカ302としても用いられる。
図24に示した受信装置20においても、呼出名管理部208及び呼出名変換部209により処理部220が構成され、この処理部220によって、記録部200に記録された登録リストやインボケーションネームメタデータに基づき、共通インボケーションを、運用インボケーションネームに変換するための処理が行われる。
なお、図24においては、受信装置20が音声AIアシスタンスサービスに対応した場合の構成について説明したが、記録部200及び処理部220(の全部又は一部の機能)が、音声ユーザインタフェース装置30側に設けられ、必要な情報は、受信装置20側から取得するようにしてもよい。また、図24においては、第1の実施の形態に対応した構成を示したが、第2の実施の形態及び第3の実施の形態においても同様に、受信装置20と音声ユーザインタフェース装置30とを一体化してもよい。
また、音声AIアシスタンスサービスを提供するための機能としては、ローカル側の機能(例えば、音声解析部304の機能など)と、クラウド側の機能(例えば、音声解析部403や音声生成部404の機能など)があるが、それらの機能のすべてが、ローカル側の装置(端末)又はクラウド側の装置(サーバ)で実装されるようにしてもよし、あるいは、それらの機能の一部が、ローカル側の装置(端末)又はクラウド側の装置(サーバ)で実装されるようにしてもよい。
また、上述した図1のコンテンツ・音声AI連携システム1においては、視聴者宅で、1つの受信装置20(例えばテレビ受像機)と、1つの音声ユーザインタフェース装置30(スマートスピーカ)とが設置される場合を図示したが、例えば、視聴者宅ごとに、本技術を適用した受信装置20と音声ユーザインタフェース装置30をそれぞれ設置することができる。また、視聴者宅において、受信装置20と音声ユーザインタフェース装置30は、同一の部屋に設置されることが想定されるが、異なる部屋に設置してもよい。さらに、1つの受信装置20に対し、複数の音声ユーザインタフェース装置30を設けるようにしてもよいし、その逆に、1つの音声ユーザインタフェース装置30に対し、複数の受信装置20を設けるようにしてもよい。
さらに、上述した図1のコンテンツ・音声AI連携システム1においては、1つの音声アシスタンスサーバ40と、1つの処理サーバ50とが設置される場合を図示したが、これらのサーバは、例えば、機能や事業者(例えば放送事業者)ごとに、複数設けるようにしてもよい。一方で、音声アシスタンスサーバ40と処理サーバ50の機能の全部又は一部をまとめて、1又は複数のサーバにより提供されるようにしてもよい。
(放送方式の例)
放送配信システム10から受信装置20に送られる放送信号(デジタル放送信号)を伝送するための放送方式としては、例えば、米国等で採用されている方式であるATSC(Advanced Television Systems Committee)のほか、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などを適用することができる。また、その伝送路としては、地上波放送に限らず、例えば、放送衛星(BS:Broadcasting Satellite)や通信衛星(CS:Communications Satellite)等を利用した衛星放送や、ケーブルテレビ(CATV:Cable Television)等の有線放送などにも適用することができる。
また、上述した放送配信システム10は、1又は複数の放送サーバ等から構成されるものであって、例えば、一般的なデジタル放送のシステムでは、マルチプレクサ104(マルチプレクササーバ)と、送出部105(送出サーバ)とは、異なる場所に設置されるものである。より具体的には、例えば、マルチプレクサ104は、放送局内に設置される一方で、送出部105は、送信所に設置される。さらに、番組コンテンツ処理部101(番組コンテンツサーバ)、放送付随アプリケーション生成部102(放送付随アプリケーションサーバ)、及びメタデータ生成部103(メタデータサーバ)は、マルチプレクサ104(マルチプレクササーバ)と同一の場所(例えば放送局内の場所)又は異なる場所(例えば放送局外の場所)に設置されるようにすることができる。
(コンテンツ・アプリケーションの例)
なお、上述した説明では、配信対象のコンテンツとして、番組やCMを例示したが、本技術が適用されるコンテンツには、動画や音楽のほか、例えば、電子書籍やゲーム、広告など、あらゆるコンテンツが含まれる。また、上述した説明では、コンテンツの配信経路として、放送配信システム10による放送経由での配信を説明したが、OTT(Over The Top)サービス等を提供する通信配信システムによって、通信経由でストリーミング配信されるようにしてもよい。さらに、番組等のコンテンツを構成するコンポーネント(例えば、映像や音声、字幕など)の全部が、放送経由又は通信経由で配信されるようにしてもよいし、コンポーネントの一部が放送経由又は通信経由で配信される(残りの一部は通信経由又は放送経由で配信される)ようにしてもよい。
また、放送付随アプリケーションは、例えば、HTML5などのマークアップ言語やJavaScript(登録商標)等のスクリプト言語で開発されたアプリケーションとすることができるが、それに限らず、例えば、Java(登録商標)などのプログラミング言語で開発されたアプリケーションであってもよい。また、放送付随アプリケーションは、ブラウザ(放送付随アプリケーション実行部204)により実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS(Operating System)環境などで実行されるようにしてもよい。
さらに、上述した説明では、放送付随アプリケーションが、放送配信システム10により放送経由で配信される場合を説明したが、それに限らず、例えば、放送付随アプリケーションを生成するアプリケーションサーバによって、通信経由で(インターネット60を経由して)配信されるようにしてもよい。また、上述した説明では、放送付随アプリケーションは、放送経由で配信されるコンテンツに連動するとして説明したが、通信経由で配信されるコンテンツに連動して実行されるアプリケーションであってもよい。
(その他)
なお、本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述した「スキル」は、「アクション」や「アプリケーション」などと称される場合がある。また、スキルは、API(Application Programming Interface)として提供されたり、その一部の機能がAPIを利用することで実現されたりしてもよい。
さらに例示すれば、例えば、上述した「ウェイクワード」は、「アクティベーションキーワード」や「コマンドワード」などと称され、上述した「パラメータ」は、「スロット」などと称され、上述した「AIアシスタンスサービス」は、「AIアシスタントサービス」などと称される場合がある。
<4.コンピュータの構成>
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図25は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成の例を示す図である。
コンピュータ1000において、CPU(Central Processing Unit)1001、ROM(Read Only Memory)1002、RAM(Random Access Memory)1003は、バス1004により相互に接続されている。バス1004には、さらに、入出力インタフェース1005が接続されている。入出力インタフェース1005には、入力部1006、出力部1007、記録部1008、通信部1009、及び、ドライブ1010が接続されている。
入力部1006は、キーボード、マウス、マイクロフォンなどよりなる。出力部1007は、ディスプレイ、スピーカなどよりなる。記録部1008は、ハードディスクや不揮発性のメモリなどよりなる。通信部1009は、ネットワークインタフェースなどよりなる。ドライブ1010は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体1011を駆動する。
以上のように構成されるコンピュータ1000では、CPU1001が、ROM1002や記録部1008に記録されているプログラムを、入出力インタフェース1005及びバス1004を介して、RAM1003にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ1000(CPU1001)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体1011に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。
コンピュータ1000では、プログラムは、リムーバブル記録媒体1011をドライブ1010に装着することにより、入出力インタフェース1005を介して、記録部1008にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部1009で受信し、記録部1008にインストールすることができる。その他、プログラムは、ROM1002や記録部1008に、あらかじめインストールしておくことができる。
ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理(例えば、並列処理あるいはオブジェクトによる処理)も含む。また、プログラムは、1のコンピュータ(プロセッサ)により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。
なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
また、本技術は、以下のような構成をとることができる。
(1)
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える
情報処理装置。
(2)
前記対応情報は、前記共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けており、
前記処理部は、前記対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記(1)に記載の情報処理装置。
(3)
前記対応情報を、あらかじめ記録する記録部をさらに備え、
前記処理部は、記録された前記対応情報に基づいて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記(2)に記載の情報処理装置。
(4)
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記固有の呼び出し名は、放送経由で配信されるメタデータから取得され、
前記処理部は、前記共通の呼び出し名を、前記メタデータから取得される前記固有の呼び出し名に変換する
前記(2)に記載の情報処理装置。
(5)
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置からの要求に応じて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記(2)乃至(4)のいずれかに記載の情報処理装置。
(6)
前記対応情報は、前記視聴者が視聴している前記コンテンツを特定するためのメタデータと、固有のプログラムとを対応付けた情報であって、前記共通の呼び出し名により特定される切り替え用のプログラムに含まれており、
前記処理部は、前記切り替え用のプログラムにより対応付けられた前記対応情報に基づいて、前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
前記(1)に記載の情報処理装置。
(7)
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムにディスパッチする
前記(6)に記載の情報処理装置。
(8)
前記メタデータは、前記視聴者が視聴中の前記コンテンツのチャンネルを示すチャンネル情報、及び前記コンテンツの再生時間軸上における前記視聴者の発話に応じた時間を示す時間情報を含む
前記(6)又は(7)に記載の情報処理装置。
(9)
前記プログラムは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、又はその機能を実際に実行するサーバ装置若しくは処理プログラムはどれかという情報を少なくとも含み、当該情報に基づき、前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置から送られてくる前記視聴者の発話の音声に対する対応処理を行う
前記(1)乃至(8)のいずれかに記載の情報処理装置。
(10)
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記固有の呼び出し名は、MPDを利用して、放送経由で配信される
前記(4)に記載の情報処理装置。
(11)
前記チャンネル情報及び前記時間情報は、HTTPリクエストを利用して、前記視聴者の発話の音声データとともに、通信経由で送られる
前記(7)又は(8)に記載の情報処理装置。
(12)
前記コンテンツは、放送経由で配信される放送コンテンツであり、
前記プログラムは、放送事業者又は放送番組ごとに提供される
前記(1)乃至(11)のいずれかに記載の情報処理装置。
(13)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する
情報処理方法。
(14)
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、
生成した前記メタデータを送信する送信部と
を備える送信装置。
(15)
前記生成部は、前記固有の呼び出し名を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
前記(14)に記載の送信装置。
(16)
送信装置の送信方法において、
前記送信装置が、
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成し、
生成した前記メタデータを送信する
送信方法。
(17)
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、
前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理装置。
(18)
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から送られる前記呼び出し名に対応付けられた前記個人用のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
前記(17)に記載の情報処理装置。
(19)
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記登録情報は、MPDを利用して、放送経由で配信され、
前記処理部は、前記登録情報のバージョンが更新されたとき、又は前記視聴者によりチャンネルが切り替えられたとき、前記更新情報に基づいて、前記個人用のプログラムを更新する
前記(17)又は(18)に記載の情報処理装置。
(20)
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成し、
前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理方法。
1 コンテンツ・音声AI連携システム, 10 放送配信システム, 20 受信装置, 30 音声ユーザインタフェース装置, 40 音声アシスタンスサーバ, 50 処理サーバ, 60 インターネット, 70 ネットワーク, 101 番組コンテンツ処理部, 102 放送付随アプリケーション生成部, 103 メタデータ生成部, 104 マルチプレクサ, 105 送出部, 200 記録部, 201 チューナ, 202 デマルチプレクサ, 203 AVデコーダ, 204 放送付随アプリケーション実行部, 205 レンダラ, 206 ディスプレイ, 207 スピーカ, 208 呼出名管理部, 209 呼出名変換部, 210 通信部, 211 メタデータ管理部, 212 セッティング管理部, 213 スキル生成・更新リクエスト発行管理部, 214 スキルバージョン管理部, 220 処理部, 301 マイクロフォン, 302 スピーカ, 303 通信部, 304 音声解析部, 305 通信部, 306 セッティング管理部, 307 音声解析・メタデータマージ部, 400 記録部, 401 通信部, 402 通信部, 403 音声解析部, 404 音声生成部, 405 音声解析・メタデータ抽出部, 406 スキル生成・更新部, 407 通信部, 420,430 処理部, 501 通信部, 502 処理部, 503 記録部, 1000 コンピュータ, 1001 CPU

Claims (20)

  1. コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える
    情報処理装置。
  2. 前記対応情報は、前記共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けており、
    前記処理部は、前記対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名を、前記固有の呼び出し名に変換する
    請求項1に記載の情報処理装置。
  3. 前記対応情報を、あらかじめ記録する記録部をさらに備え、
    前記処理部は、記録された前記対応情報に基づいて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
    請求項2に記載の情報処理装置。
  4. 放送経由で配信される前記コンテンツを受信する受信装置として構成され、
    前記固有の呼び出し名は、放送経由で配信されるメタデータから取得され、
    前記処理部は、前記共通の呼び出し名を、前記メタデータから取得される前記固有の呼び出し名に変換する
    請求項2に記載の情報処理装置。
  5. 放送経由で配信される前記コンテンツを受信する受信装置として構成され、
    前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置からの要求に応じて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
    請求項2に記載の情報処理装置。
  6. 前記対応情報は、前記視聴者が視聴している前記コンテンツを特定するためのメタデータと、固有のプログラムとを対応付けた情報であって、前記共通の呼び出し名により特定される切り替え用のプログラムに含まれており、
    前記処理部は、前記切り替え用のプログラムにより対応付けられた前記対応情報に基づいて、前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
    請求項1に記載の情報処理装置。
  7. 前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
    前記処理部は、前記音声処理装置から前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムにディスパッチする
    請求項6に記載の情報処理装置。
  8. 前記メタデータは、前記視聴者が視聴中の前記コンテンツのチャンネルを示すチャンネル情報、及び前記コンテンツの再生時間軸上における前記視聴者の発話に応じた時間を示す時間情報を含む
    請求項7に記載の情報処理装置。
  9. 前記プログラムは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、又はその機能を実際に実行するサーバ装置若しくは処理プログラムはどれかという情報を少なくとも含み、当該情報に基づき、前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置から送られてくる前記視聴者の発話の音声に対する対応処理を行う
    請求項1に記載の情報処理装置。
  10. 前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
    前記固有の呼び出し名は、MPDを利用して、放送経由で配信される
    請求項4に記載の情報処理装置。
  11. 前記チャンネル情報及び前記時間情報は、HTTPリクエストを利用して、前記視聴者の発話の音声データとともに、通信経由で送られる
    請求項8に記載の情報処理装置。
  12. 前記コンテンツは、放送経由で配信される放送コンテンツであり、
    前記プログラムは、放送事業者又は放送番組ごとに提供される
    請求項1に記載の情報処理装置。
  13. 情報処理装置の情報処理方法において、
    前記情報処理装置が、
    コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する
    情報処理方法。
  14. コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、
    生成した前記メタデータを送信する送信部と
    を備える送信装置。
  15. 前記生成部は、前記固有の呼び出し名を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
    前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
    請求項14に記載の送信装置。
  16. 送信装置の送信方法において、
    前記送信装置が、
    コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成し、
    生成した前記メタデータを送信する
    送信方法。
  17. コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、
    前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
    情報処理装置。
  18. 前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
    前記処理部は、前記音声処理装置から送られる前記呼び出し名に対応付けられた前記個人用のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
    請求項17に記載の情報処理装置。
  19. 前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
    前記登録情報は、MPDを利用して、放送経由で配信され、
    前記処理部は、前記登録情報のバージョンが更新されたとき、又は前記視聴者によりチャンネルが切り替えられたとき、前記更新情報に基づいて、前記個人用のプログラムを更新する
    請求項18に記載の情報処理装置。
  20. 情報処理装置の情報処理方法において、
    前記情報処理装置が、
    コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成し、
    前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
    情報処理方法。
JP2020509857A 2018-03-27 2019-03-13 情報処理装置、情報処理方法、送信装置、及び送信方法 Active JP7269221B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018059345 2018-03-27
JP2018059345 2018-03-27
PCT/JP2019/010147 WO2019188269A1 (ja) 2018-03-27 2019-03-13 情報処理装置、情報処理方法、送信装置、及び送信方法

Publications (2)

Publication Number Publication Date
JPWO2019188269A1 true JPWO2019188269A1 (ja) 2021-03-11
JP7269221B2 JP7269221B2 (ja) 2023-05-08

Family

ID=68061405

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020509857A Active JP7269221B2 (ja) 2018-03-27 2019-03-13 情報処理装置、情報処理方法、送信装置、及び送信方法

Country Status (6)

Country Link
US (1) US11343588B2 (ja)
EP (1) EP3780641B1 (ja)
JP (1) JP7269221B2 (ja)
KR (1) KR20200135343A (ja)
CN (1) CN111903139A (ja)
WO (1) WO2019188269A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2355093A2 (en) * 2010-01-22 2011-08-10 Google Inc. Multi-dimensional disambiguation of voice commands
JP2015022310A (ja) * 2013-07-19 2015-02-02 英奇達資訊股▲ふん▼有限公司 音声アシスタントパーソナライズの方法
US20150382047A1 (en) * 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6741791B1 (en) * 2000-01-31 2004-05-25 Intel Corporation Using speech to select a position in a program
AU2003296157A1 (en) * 2003-01-15 2004-08-10 Matsushita Electric Industrial Co., Ltd. Broadcast reception method, broadcast reception system, recording medium, and program
JP5903939B2 (ja) 2012-03-08 2016-04-13 ソニー株式会社 受信装置、受信方法、及びプログラム
KR20140004515A (ko) * 2012-07-03 2014-01-13 삼성전자주식회사 디스플레이 장치, 대화형 시스템 및 응답 정보 제공 방법
CN102833633B (zh) * 2012-09-04 2016-01-20 深圳创维-Rgb电子有限公司 一种电视机语音控制系统及方法
KR20140080089A (ko) * 2012-12-20 2014-06-30 삼성전자주식회사 음성인식장치 및 음성인식방법, 음성인식장치용 데이터 베이스 및 음성인식장치용 데이터 베이스의 구축방법
KR20140089876A (ko) * 2013-01-07 2014-07-16 삼성전자주식회사 대화형 인터페이스 장치 및 그의 제어 방법
JP2014153663A (ja) 2013-02-13 2014-08-25 Sony Corp 音声認識装置、および音声認識方法、並びにプログラム
JP5726359B1 (ja) * 2014-09-05 2015-05-27 株式会社電通 テレビ番組関連コンテンツ提供システム、および提供方法
EP4195025A1 (en) * 2016-06-27 2023-06-14 Amazon Technologies Inc. Systems and methods for routing content to an associated output device
US10332513B1 (en) * 2016-06-27 2019-06-25 Amazon Technologies, Inc. Voice enablement and disablement of speech processing functionality
US20190034542A1 (en) * 2017-07-26 2019-01-31 Scripps Networks Interactive, Inc. Intelligent agent system and method of accessing and delivering digital files
US11025919B2 (en) * 2017-10-03 2021-06-01 Koninklijke Kpn N.V. Client-based adaptive streaming of nonlinear media

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2355093A2 (en) * 2010-01-22 2011-08-10 Google Inc. Multi-dimensional disambiguation of voice commands
JP2015022310A (ja) * 2013-07-19 2015-02-02 英奇達資訊股▲ふん▼有限公司 音声アシスタントパーソナライズの方法
US20150382047A1 (en) * 2014-06-30 2015-12-31 Apple Inc. Intelligent automated assistant for tv user interactions

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
DAVID ISBITSKI: ""Tips for Choosing an Invocation Name for Your Alexa Custom Skill"", ALEXA BLOGS, JPN6019013143, 20 May 2016 (2016-05-20), pages 1 - 7, ISSN: 0005033747 *
PETER HAASE, ET AL.: ""Alexa, Ask Wikidata! Voice interaction with knowledge graphs using Amazon Alexa"", PROCEEDINGS OF THE ISWC 2017 POSTERS & DEMONSTRATIONS AND INDUSTRY TRACKS CO-LOCATED WITH 16TH INTER, vol. 1963, JPN6019013139, 22 October 2017 (2017-10-22), pages 1 - 4, XP055638983, ISSN: 0005033745 *
VIKAS GOYAL, "HOW TO BUILD A SKILL FOR AMAZON ECHO DEVICE ON ALEXA", JPN6019013142, 12 June 2017 (2017-06-12), pages 1 - 27, ISSN: 0005033746 *

Also Published As

Publication number Publication date
EP3780641A4 (en) 2021-02-17
CN111903139A (zh) 2020-11-06
US20210021910A1 (en) 2021-01-21
KR20200135343A (ko) 2020-12-02
EP3780641A1 (en) 2021-02-17
JP7269221B2 (ja) 2023-05-08
EP3780641B1 (en) 2023-01-25
US11343588B2 (en) 2022-05-24
WO2019188269A1 (ja) 2019-10-03

Similar Documents

Publication Publication Date Title
CN104160713B (zh) 视频显示设备及其操作方法
JP7026449B2 (ja) 情報処理装置、受信装置、及び情報処理方法
KR100727072B1 (ko) 방송 컨텐츠 정보 제공 방법 및 시스템
US8522276B2 (en) System and methods for voicing text in an interactive programming guide
JP7020799B2 (ja) 情報処理装置、及び情報処理方法
CN104137560A (zh) 图像显示设备及其操作方法
US11930248B2 (en) Information processing apparatus, information processing method, transmission apparatus, and transmission method
US9032452B2 (en) Method and apparatus for simulating head-end connectivity on a set-top box
KR20090078168A (ko) 레이어 화면을 이용하여 멀티화면이 구현된 표시장치를갖는 전자게시판.
KR20150010651A (ko) 디지털 방송 수신기, 디지털 방송 수신기 제어 방법, 서버, 서버 제어 방법 및 컴퓨터 판독 가능 매체
US20040181817A1 (en) Media control system and method
JP7269221B2 (ja) 情報処理装置、情報処理方法、送信装置、及び送信方法
KR20220156786A (ko) 사용자의 발화를 기반으로 컨텐츠를 제공하는 장치 및 시스템
JP2009005260A (ja) コンテンツ視聴装置
KR102052524B1 (ko) 미디어처리장치 및 그 동작 방법
KR20220053795A (ko) 인공지능 비서 서비스 제공 시스템 및 방법
US20150026752A1 (en) Information processing method, information processing device, and information processing system
KR20020063342A (ko) 다국어 인터넷 생중계 방송 서비스 장치 및 방법
JP2024050488A (ja) コンテンツ間関連性発見装置およびプログラム
JP2024045079A (ja) コンテンツ情報統合装置およびプログラム
JPWO2019026599A1 (ja) 情報処理装置、情報処理方法、プログラム、および放送装置
KR20220150619A (ko) 인공지능 기반의 tv 콘텐츠 중계 서비스 제공 장치

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220309

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230421

R150 Certificate of patent or registration of utility model

Ref document number: 7269221

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150