JPWO2019188269A1

JPWO2019188269A1 - 情報処理装置、情報処理方法、送信装置、及び送信方法

Info

Publication number: JPWO2019188269A1
Application number: JP2020509857A
Authority: JP
Inventors: 卓己津留
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-03-27
Filing date: 2019-03-13
Publication date: 2021-03-11
Anticipated expiration: 2039-03-13
Also published as: EP3780641A4; CN111903139A; US20210021910A1; KR20200135343A; EP3780641A1; JP7269221B2; EP3780641B1; US11343588B2; WO2019188269A1

Abstract

本技術は、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする情報処理装置、情報処理方法、送信装置、及び送信方法に関する。
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数のプログラムで共通の呼び出し名と、プログラムごとの固有の情報とを対応付けた対応情報に基づいて、視聴者の発話の音声に含まれる共通の呼び出し名に対応付けられた固有の情報を処理する処理部を備える情報処理装置が提供される。本技術は、例えば、音声AIアシスタンスサービスと連携したシステムに適用することができる。

Description

本技術は、情報処理装置、情報処理方法、送信装置、及び送信方法に関し、特に、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにした情報処理装置、情報処理方法、送信装置、及び送信方法に関する。

放送コンテンツに連動して実行される放送アプリケーションが提案されている（例えば、特許文献１参照）。放送アプリケーションを利用することで、例えば、放送コンテンツに関連する情報の表示を行うことができる。

また、ユーザの発話内容を解析する音声認識に関する技術が提案されている（例えば、特許文献２参照）。例えば、この技術を、テレビ受像機や携帯端末装置に適用すると、ユーザが発した言葉を解析し、その発話に応じた処理を実行することが可能となる。

特開２０１３−１８７７８１号公報特開２０１４−１５３６６３号公報

近年、音声AIアシスタンスサービスが急速に普及しているが、テレビ受像機等の受信機で再生される放送コンテンツや放送アプリケーションに連携して、音声AIアシスタンスサービスを利用する際に、放送局や放送番組ごとに、放送コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名が異なる。

そのため、視聴者は、すべての呼び出し名を把握した上で、対象の呼び出し名を切り替えて発話する必要があって、放送コンテンツ等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を損ねる可能性があり、当該音声AIアシスタンスサービスの利便性を向上させるための技術が求められていた。

本技術はこのような状況に鑑みてなされたものであり、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。

本技術の第１の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える情報処理装置である。

本技術の第１の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第１の側面の情報処理方法は、上述した本技術の第１の側面の情報処理装置に対応する情報処理方法である。

本技術の第１の側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報が処理される。

本技術の第２の側面の送信装置は、コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、生成した前記メタデータを送信する送信部とを備える送信装置である。

本技術の第２の側面の送信装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第２の側面の送信方法は、上述した本技術の第２の側面の送信装置に対応する送信方法である。

本技術の第２の側面の送信装置、及び送信方法においては、コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータが生成され、生成された前記メタデータが送信される。

本技術の第３の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する情報処理装置である。

本技術の第３の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第３の側面の情報処理方法は、上述した本技術の第３の側面の情報処理装置に対応する情報処理方法である。

本技術の第３の側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムが生成され、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成された前記個人用のプログラムが更新される。

本技術の第１の側面乃至第３の側面によれば、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。

なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。放送局や放送番組ごとのインボケーションネームの第１の例を示す図である。放送局や放送番組ごとのインボケーションネームの第２の例を示す図である。放送局や放送番組ごとのインボケーションネームの第３の例を示す図である。第１の実施の形態の構成の第１の例を示す図である。第１の実施の形態の構成の第２の例を示す図である。第１の実施の形態の構成の第３の例を示す図である。第１の実施の形態の各装置の詳細な構成の例を示すブロック図である。第１の実施の形態の各装置の処理の流れを説明するフローチャートである。インボケーションネームメタデータの記述の例を示す図である。第２の実施の形態の構成の第１の例を示す図である。第２の実施の形態の構成の第２の例を示す図である。第２の実施の形態の構成の第３の例を示す図である。第２の実施の形態の各装置の詳細な構成の例を示すブロック図である。第２の実施の形態の各装置の処理の流れを説明するフローチャートである。コンテキストメタデータのマージの例を示す図である。第３の実施の形態の構成の第１の例を示す図である。第３の実施の形態の構成の第２の例を示す図である。第３の実施の形態の構成の第３の例を示す図である。第３の実施の形態の各装置の詳細な構成の例を示すブロック図である。第３の実施の形態の各装置の処理の流れを説明するフローチャートである。 MPDの記述の例を示す図である。スキル登録情報メタデータの記述の例を示す図である。受信装置の他の構成の例を示すブロック図である。コンピュータの構成の例を示す図である。

以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．システムの構成
２．本技術の実施の形態
（１）第１の実施の形態：ローカル側でインボケーションネームを差し替える構成
（２）第２の実施の形態：クラウド側でエイリアススキルを用いて対象のスキルを切り替える構成
（３）第３の実施の形態：プライベートスキルの生成・更新を行う構成
３．変形例
４．コンピュータの構成

＜１．システムの構成＞

（コンテンツ・音声AI連携システムの構成）
図１は、本技術を適用したコンテンツ・音声AI連携システムの一実施の形態の構成の例を示すブロック図である。

コンテンツ・音声AI連携システム１は、コンテンツを配信するためのシステムであって、配信されたコンテンツと連携して音声AIアシスタンスサービスを利用することが可能である。

図１において、コンテンツ・音声AI連携システム１は、放送配信システム１０、受信装置２０、音声ユーザインタフェース装置３０、音声アシスタンスサーバ４０、及び処理サーバ５０を含んで構成される。

また、コンテンツ・音声AI連携システム１において、視聴者宅に設置される受信装置２０と音声ユーザインタフェース装置３０は、インターネット６０を介して、データセンタ等に設置される音声アシスタンスサーバ４０や処理サーバ５０などの各種のサーバと接続可能であって、各種のデータをやりとりすることができる。

放送配信システム１０は、１又は複数の放送サーバ等から構成される。放送配信システム１０は、配信対象のコンテンツに対して必要な処理を施し、その処理の結果得られる放送信号（放送波）を、送信所に設置された送信アンテナから送出する。

受信装置２０は、例えば、テレビ受像機やパーソナルコンピュータ等の固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータ等のモバイル受信機として構成される。受信装置２０は、放送配信システム１０から送信されてくる放送信号を受信して処理することで、配信対象のコンテンツ（例えば、放送番組やCMなど）を再生する。

音声ユーザインタフェース装置３０は、例えば、Bluetooth（登録商標）、無線LAN(Local Area Network)、若しくはセルラー方式の通信などの無線通信、又は有線通信を行うことが可能な音声処理装置（例えばスピーカ）であって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、音声AIアシスタンスサービスのユーザインタフェースとして機能したり、あるいは、照明器具や空調設備などの機器に対する音声操作を行ったりすることができる。

音声ユーザインタフェース装置３０は、クラウド側の音声アシスタンスサーバ４０等のサーバと連携することで、エンドユーザ（コンテンツの視聴者）に対し、音声AIアシスタンスサービスを提供することができる。ここで、音声AIアシスタンスサービスとは、例えば、音声認識処理や自然言語解析処理等の処理を組み合わせて、エンドユーザの問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。

音声アシスタンスサーバ４０は、音声AIアシスタンスサービスを提供するための機能や各種のデータベースなどを有している。音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの要求（リクエスト）に応じて、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果（レスポンス）を、インターネット６０を介して、音声ユーザインタフェース装置３０に返信する。

処理サーバ５０は、音声アシスタンスサーバ４０と連携して、音声AIアシスタンスサービスを提供するための処理を行い、その処理結果（レスポンス）を、インターネット６０又はネットワーク７０（例えば専用線等の通信回線）を介して、音声アシスタンスサーバ４０に送信する。なお、処理サーバ５０による処理結果は、音声アシスタンスサーバ４０だけでなく、インターネット６０を介して、受信装置２０又は音声ユーザインタフェース装置３０に送信されるようにしてもよい。

以上のように構成されるコンテンツ・音声AI連携システム１においては、スキルと呼ばれるプログラムが実行されることで、コンテンツと連携して音声AIアシスタンスサービスを利用することが可能となる。

ここで、スキルとは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、その機能を実際に実行する処理サーバ（処理プログラム）は何か、といった情報を含み、これらの情報に基づき、音声ユーザインタフェース装置３０から送られる音声に対する対応処理を行うプログラム（コンピュータプログラム）である。

また、スキルを呼び出すための呼び出し名を、インボケーションネーム（Invocation Name）という。すなわち、エンドユーザ（コンテンツの視聴者）は、スキルを使用する際には、インボケーションネームを発する必要がある。

ところで、複数の放送局が、音声AIアシスタンスサービスを利用したスキルの運用を行う場合、放送局（又は放送番組など）ごとにスキルを起動するためのインボケーションネームが異なる。例えば、図２乃至図４は、放送局や放送番組ごとにインボケーションネームが異なる場合の具体例を示している。

図２においては、視聴者２が、受信装置２０を起動して、XXX局（XXX放送局）のクイズ番組を視聴しているときに、このクイズ番組用のスキルを利用する場面を示している。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask XXX Quiz, red !!」である発話を行い、出題されたクイズ（青赤緑黄のボタンによる択一式クイズ）に対する自身の解答を伝えることで、クイズ番組に参加することができる。

図３においては、視聴者２が、XXX局のドラマ番組を視聴しているときに、このドラマ番組用のスキルを利用する場面を示している。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask XXX Drama, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を伝えることで、その回答を得ることができる。

図４においては、視聴者２が、YYY局（YYY放送局）の情報番組を視聴しているときに、この情報番組用のスキルを利用する場面を示している。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask YYY Show, red !」である発話を行い、ゲームの回答やアンケートの投票等をすることで、情報番組に参加することができる。

このように、視聴者２は、XXX局のクイズ番組の視聴時には、インボケーションネームとして、「XXX Quiz」を発話すればよいが、XXX局のドラマ番組の視聴時には「XXX Drama」を発話し、YYY局の情報番組の視聴時には「YYY Show」を発話する必要がある。

すなわち、このような環境下では、視聴者２は、放送局や放送番組ごとのすべてのスキルのインボケーションネームを覚えて、その時点でどの局のどのスキルの番組を視聴しているかを把握した上で、インボケーションネームを切り替えて発話する必要があり、利便性を損ねる可能性がある（使い勝手が悪くなってしまう）。

また、１つの放送局が運用するスキルについても、必要な発話やインテント（Intent）は、放送番組や放送付随アプリケーションごとに異なるため、それらのすべてに対応する１つのスキルのみで運用を行うことは困難であり、例えば番組やジャンルごとといったある特定の基準でスキルを分けて、動的に変動させるといった運用が想定される。

そのため、視聴者が、放送局（又は番組やジャンル等の特定の基準）ごとのスキルの違いや、スキルの動的変動などを意識することなく、１つのインボケーションネームのみで、各スキルにインタラクションできるようにして、放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させたいという要請がある。

そこで、本技術では、視聴者が、１つのインボケーションネームを発することで、所望のスキルにインタラクションできるようにして、放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする。以下、本技術の実施の形態として、第１の実施の形態乃至第３の実施の形態を説明する。

なお、以下の説明では、インボケーションネーム（Invocation Name）として、複数のスキルで共通の呼び出し名と、スキルごとの固有の呼び出し名が存在するため、前者を、共通インボケーションネームと称し、後者を、運用インボケーションネームと称して区別する。また、インボケーションネームとしては、後述するエイリアススキルや受信機運用スキルのインボケーションネームなどもあるが、以下の説明では、特に区別する必要がない場合には、単に、インボケーションネームと称する。

＜２．本技術の実施の形態＞

（１）第１の実施の形態

まず、第１の実施の形態として、図５乃至図１０を参照しながら、ローカル側の受信装置２０と音声ユーザインタフェース装置３０とがインボケーションネームの差し替え通信を行うことで、視聴者２の発話に含まれるインボケーションネームを差し替える場合の構成を示す。

（構成の第１の例）
図５は、第１の実施の形態の構成の第１の例を示す図である。

図５において、受信装置２０は、放送配信システム１０から送信される放送信号を受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりする。また、受信装置２０は、その記録部２００に、登録リスト（Invocation Name List）を記録している。

この登録リストは、複数のスキルで共通の呼び出し名である共通インボケーションネームと、各放送局等により運用されるスキルを呼び出すための運用インボケーションネームとを対応付けた対応情報を含んでいる。図５の例では、"TV show"である共通インボケーションネームに対し、"XXX show"であるXXX局の運用インボケーションネーム、及び"YYY show"であるYYY局の運用インボケーションネームが対応付けられている。

例えば、視聴者２が、XXX局のクイズ番組を視聴しているとき、受信装置２０では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置２０は、視聴中のXXX局に合わせて、登録リストから、"XXX show"である運用インボケーションネームを取得している（Ｓ１１）。

ここで、第１の例では、視聴者２が、XXX局により提供されるスキルを利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズ（青赤緑黄のボタンによる択一式クイズ）に対する自身の解答を伝えている（Ｓ１２）。

「AAAA, ask TV show, red !!」である発話のうち、最初の"AAAA"である単語は、ウェイクワード（Wake Word）と呼ばれ、例えば、ローカル側の音声ユーザインタフェース装置３０がこの単語を検出すると、クラウド側のサーバと通信を開始して、以降の言葉が、音声データとしてサーバに送られる。

また、その次の"ask"である単語は、起動フレーズと呼ばれ、この次にくる単語がスキル名、すなわち、インボケーションネームであることを、クラウド側のサーバに伝えるものである。この例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者２により発話されている。さらに、それに続く"red"である単語はクイズの解答であって、対象のスキルに渡されるパラメータとされる。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"XXX show"に差し替える（Ｓ１３）。そして、音声ユーザインタフェース装置３０は、インボケーションネームを差し替えた後の"AAAA, ask XXX show, red !!"である発話の音声データを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ１４）。

このように、受信装置２０は、登録リストとして、共通インボケーションネームと運用インボケーションネームとを対応付けた対応情報をあらかじめ記録するとともに、音声ユーザインタフェース装置３０に対し、視聴者２による発話から共通インボケーションネーム（例えば"TV show"）を検知したときに、自身とインボケーションネームの差し替え通信を行うような事前設定をするようにする。

そして、受信装置２０は、音声ユーザインタフェース装置３０から、インボケーションネームの差し替え要求（リクエスト）が発行されたとき、共通インボケーションネームを、登録リストから取得した運用インボケーションネーム（視聴局のインボケーションネーム）に差し替えて、音声ユーザインタフェース装置３０に返す（リプライする）。これにより、音声ユーザインタフェース装置３０は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ４０に送信することが可能となる。

音声アシスタンスサーバ４０では、その記録部４００に、複数のスキルを記録し、CPU（後述の図２５のCPU１００１等）により実行可能とされる。図５の例では、XXX局のスキルの情報として、"XXX show"である運用インボケーションネームと、"https://XXX"であるエンドポイントURL(Uniform Resource Locator)が登録されている。また、YYY局のスキルの情報として、"YYY show"である運用インボケーションネームと、"https://YYY"であるエンドポイントURLが登録されている。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する（Ｓ１５）。図５の例では、発話のテキストデータに、"XXX show"である運用インボケーションネームが含まれるため、XXX局のスキルが特定される。そして、実行中のXXX局のスキルに対し、パラメータとして、例えば、発話のテキストデータが渡される。なお、ここでのパラメータとしては、発話のテキストデータの一部を渡すほか、例えば、テキストデータの全部やその他の情報が渡されるようにしてもよい。

ここでは、XXX局のスキルのエンドポイントURLとして、"https://XXX"であるURL、すなわち、XXX局サーバ５０ＡのURLが設定されているため、音声アシスタンスサーバ４０にて実行されるXXX局のスキルが、XXX局サーバ５０Ａに対し、リクエストメッセージを通知することで、XXX局のスキルの処理（例えば、"red"であるクイズの解答に対する処理）が実行され、その処理結果が提示される（Ｓ１６）。

この処理結果の提示方法としては、その運用に応じた様々な提示方法が想定されるが、例えば、次のような提示方法を採用することができる。すなわち、XXX局サーバ５０Ａにより実行されるXXX局のスキルと、ローカル側の受信装置２０により実行されるXXX局の放送付随アプリケーションとを連携して、その処理結果を、放送付随アプリケーションの提示内容に反映させたり、あるいは、XXX局サーバ５０Ａからの処理結果を、音声アシスタンスサーバ４０を経由してローカル側の音声ユーザインタフェース装置３０に通知して、応答音声として出力したりすることができる。

このようにして、視聴者２は、視聴中のクイズ番組に参加することが可能となるが、ここでは、XXX局により提供されるスキルを利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネームを発話すればよく、１つのインボケーションネームのみで、放送局（又は番組やジャンル等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

（構成の第２の例）
図６は、第１の実施の形態の構成の第２の例を示す図である。

図６において、受信装置２０は、図５と同様に、共通インボケーションネームと運用インボケーションネームとを対応付けた対応情報を含む登録リストを記録している。

また、図６においては、例えば、視聴者２が、YYY局の情報番組を視聴しているとき、受信装置２０では、YYY局の情報番組に連動してYYY局の放送付随アプリケーションが実行されている。また、このとき、受信装置２０は、視聴中のYYY局に合わせて、登録リストから、"YYY show"である運用インボケーションネームを取得している（Ｓ２１）。

ここで、第２の例では、視聴者２が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答やアンケートの投票などを行っている（Ｓ２２）。

この第２の例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者２により発話されている。さらに、それに続く"red"である単語はゲームの回答等であって、対象のスキルに渡されるパラメータとされる。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"YYY show"に差し替える（Ｓ２３）。そして、音声ユーザインタフェース装置３０は、インボケーションネームを差し替えた後の"AAAA, ask YYY show, red !!"である発話の音声データを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ２４）。すなわち、音声ユーザインタフェース装置３０は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ４０に送信することになる。

音声アシスタンスサーバ４０は、図５と同様に、複数のスキルを記録している。音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する（Ｓ２５）。図６の例では、発話の音声データに、"YYY show"である運用インボケーションネームが含まれるため、YYY局のスキルが特定され、実行中のYYY局のスキルに対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、YYY局のスキルのエンドポイントURLとして、"https://YYY"であるURL、すなわち、YYY局サーバ５０ＢのURLが設定されているため、音声アシスタンスサーバ４０は、YYY局サーバ５０Ｂに対し、リクエストメッセージを通知することで、YYY局のスキルの処理（例えば、"red"であるゲームの回答等に対する処理）が実行され、その処理結果が提示される（Ｓ２６）。このとき、例えば、YYY局のスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中の情報番組に参加することが可能となるが、ここでは、YYY局により提供されるスキルを利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネームを発話すればよく、１つのインボケーションネームのみで、放送局（又は番組等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

より具体的には、図６に示した第２の例を、図５に示した第１の例と比べれば、YYY局のスキルとXXX局のスキルとで利用するスキルが異なるが、視聴者２は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。

（構成の第３の例）
図７は、第１の実施の形態の構成の第３の例を示す図である。

図７において、受信装置２０は、放送配信システム１０から送信される放送信号を受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりするが、放送ストリームには、動的に変動するスキルの運用インボケーションネームを通知するためのメタデータ（以下、インボケーションネームメタデータともいう）が挿入されている。

なお、詳細は後述するが、インボケーションネームメタデータは、MPD(Media Presentation Description)のEventStream等を利用して送ることができる。また、この第３の例において、記録部２００に記録された登録リストには、XXX局のドラマ番組のスキルを呼び出すための運用インボケーションネームは未登録とされる。

例えば、視聴者２が、XXX局のドラマ番組を視聴しているとき、受信装置２０では、XXX局のドラマ番組に連動してXXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置２０は、視聴中のXXX局のドラマ番組に合わせて、放送ストリームからインボケーションネームメタデータを抽出し、そこから、"XXX Drama"である運用インボケーションネームを取得している（Ｓ３１）。

ここで、第３の例では、視聴者２が、XXX局により提供されるドラマ番組用のスキルを利用して、ドラマ番組の内容についての疑問点を質問する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を質問している（Ｓ３２）。

この第３の例では、"ask"である起動フレーズの次に、"TV show"である共通インボケーションネームが、視聴者２により発話されている。さらに、それに続く"Who is Liz ?"である発話はドラマ番組の内容に関する質問であって、対象のスキルに渡されるパラメータとされる。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、インボケーションネームを、"TV show"から、"XXX Drama"に差し替える（Ｓ３３）。そして、音声ユーザインタフェース装置３０は、インボケーションネームを差し替えた後の"AAAA, ask XXX Drama, Who is Liz ?"である発話の音声データを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ３４）。

このように、スキルの動的変動がある場合には、放送ストリームに、現在使用すると想定されるスキルの運用インボケーションネームを含むインボケーションネームメタデータが挿入されているので、受信装置２０は、その運用インボケーションネームを（事前に）取得するとともに、音声ユーザインタフェース装置３０に対し、視聴者２による発話から共通インボケーションネームを検知したときに、自身とインボケーションネームの差し替え通信を行うような事前設定をするようにする。

そして、受信装置２０は、音声ユーザインタフェース装置３０から、インボケーションネームの差し替え要求（リクエスト）が発行されたとき、共通インボケーションネームを、インボケーションネームメタデータから取得した運用インボケーションネーム（視聴局のインボケーションネーム）に差し替えて、音声ユーザインタフェース装置３０に返す（リプライする）。これにより、音声ユーザインタフェース装置３０は、共通インボケーションネームを、運用インボケーションネームに差し替えた発話の音声データを、音声アシスタンスサーバ４０に送信することが可能となる。

音声アシスタンスサーバ４０は、その記録部４００に、複数のスキルを記録しているが、図７の例では、XXX局のスキル及びYYY局のスキルの情報のほかに、XXX局のドラマ番組用のスキルの情報として、"XXX Drama"である運用インボケーションネームと、"https://XXX/drama"であるエンドポイントURLが登録されている。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換するとともに、複数のスキルの中から、対象のスキルを特定する（Ｓ３５）。図７の例では、発話の音声データに、"XXX Drama"である運用インボケーションネームが含まれるため、XXX局のドラマ番組用のスキルが特定される。そして、実行中のXXX局のドラマ番組用のスキルに対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、XXX局のドラマ番組用のスキルのエンドポイントURLとして、"https://XXX/drama"であるURLが設定されているため、音声アシスタンスサーバ４０は、XXX局サーバ５０Ａに対し、リクエストメッセージを通知することで、XXX局のドラマ番組用のスキルの処理（例えば、"Who is Liz ?"である質問に対する処理）が実行され、その処理結果が通知される（Ｓ３６）。

このとき、例えば、XXX局のドラマ番組用のスキルが、XXX局の放送付随アプリケーションと連携して、ローカル側の受信装置２０にて、当該放送付随アプリケーションの提示内容に処理結果を反映させたり（例えば、質問に対する回答を提示する）、あるいは、ローカル側の音声ユーザインタフェース装置３０から、処理結果に応じた応答音声を出力したりする（例えば、質問に対する回答の音声を出力する）ことができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中のドラマ番組の内容についての情報を得ることが可能となるが、ここでは、XXX局のドラマ番組のスキルを利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネームを発話すればよく、１つのインボケーションネームのみで、放送局（又は番組等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

より具体的には、図７に示した第３の例を、図５に示した第１の例及び図６に示した第２の例と比べれば、XXX局のドラマ番組のスキルと、XXX局のスキル及びYYY局のスキルとで利用するスキルが異なるが、視聴者２は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。

（各装置の詳細な構成の例）
図８は、第１の実施の形態の各装置の詳細な構成の例を示すブロック図である。

図８においては、放送局側（送信側）に設けられる放送配信システム１０と、ローカル側（受信側）に設けられる受信装置２０の構成の例を示している。また、図８においては、ローカル側に設けられる音声ユーザインタフェース装置３０と、クラウド側に設けられる音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

図８において、放送配信システム１０は、番組コンテンツ処理部１０１、放送付随アプリケーション生成部１０２、メタデータ生成部１０３、マルチプレクサ１０４、及び送出部１０５を含んで構成される。

番組コンテンツ処理部１０１は、そこに入力されるコンテンツに対して必要な処理（例えばAVエンコードなど）を施し、マルチプレクサ１０４に供給する。なお、コンテンツは、例えば放送番組やCM等であって、外部のサーバ、カメラ、又は記録媒体などから取得される。

放送付随アプリケーション生成部１０２は、放送付随アプリケーションを生成し、マルチプレクサ１０４に供給する。ここで、放送付随アプリケーションは、放送番組等のコンテンツに連動して実行されるアプリケーションである。

メタデータ生成部１０３は、スキルに動的変動がある場合（例えば、図７に示した第３の例の場合）に、インボケーションネームメタデータを生成し、マルチプレクサ１０４に供給する。ここで、インボケーションネームメタデータは、動的に変動するスキルの運用インボケーションネームを通知するためのメタデータである。

マルチプレクサ１０４は、番組コンテンツ処理部１０１から供給されるコンテンツと、放送付随アプリケーション生成部１０２から供給される放送付随アプリケーションを多重化し、その結果得られるストリームを、送出部１０５に供給する。また、マルチプレクサ１０４は、スキルに動的変動がある場合には、コンテンツ及び放送付随アプリケーションとともに、インボケーションネームメタデータを多重化し、その結果得られるストリームを、送出部１０５に供給する。

送出部１０５は、マルチプレクサ１０４から供給されるストリームに対して必要な処理（例えば誤り訂正符号化処理や変調処理など）を施し、その結果得られる放送信号（放送ストリーム）を、送信所に設置された送信用アンテナから送信する。

図８において、受信装置２０は、記録部２００（図５乃至図７）のほか、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、呼出名管理部２０８、呼出名変換部２０９、及び通信部２１０を含んで構成される。

チューナ２０１は、視聴者宅等に設置された受信用アンテナを介して、放送配信システム１０から送信されてくる放送信号（放送ストリーム）を受信して必要な処理（例えば復調処理や誤り訂正復号化処理など）を施し、その結果得られるストリームを、デマルチプレクサ２０２に供給する。

デマルチプレクサ２０２は、チューナ２０１から供給されるストリームを、映像、音声、及び放送付随アプリケーションのストリームに分離する。デマルチプレクサ２０２は、映像及び音声のストリームを、AVデコーダ２０３に供給し、放送付随アプリケーションのストリームを、放送付随アプリケーション実行部２０４に供給する。

AVデコーダ２０３は、デマルチプレクサ２０２から供給される映像ストリームをデコードし、レンダラ２０５に供給する。また、AVデコーダ２０３は、デマルチプレクサ２０２から供給される音声ストリームをデコードし、レンダラ２０５に供給する。

レンダラ２０５は、AVデコーダ２０３から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、LCD(Liquid Crystal Display)やOLED(Organic Light Emitting Diode)等のディスプレイ２０６に表示する。

また、レンダラ２０５は、AVデコーダ２０３から供給される音声データに対し、レンダリング処理を行い、その結果得られる音声を、スピーカ２０７から出力する。これにより、受信装置２０では、放送番組等のコンテンツの映像が、ディスプレイ２０６に表示され、その映像に同期した音声が、スピーカ２０７から出力される。

放送付随アプリケーション実行部２０４は、例えば、HTML5(HyperText Markup Language 5)やJavaScript（登録商標）等に対応したブラウザである。放送付随アプリケーション実行部２０４は、デマルチプレクサ２０２から供給されるアプリデータに基づき、放送付随アプリケーションを実行し、その映像データをレンダラ２０５に供給する。

レンダラ２０５は、放送付随アプリケーション実行部２０４から供給される映像データに対し、レンダリング処理を行い、その結果得られる映像を、ディスプレイ２０６に表示する。これにより、受信装置２０では、放送番組等のコンテンツに連動した放送付随アプリケーションの映像が、ディスプレイ２０６に表示される。

呼出名管理部２０８は、インボケーションネームの管理を行う。呼出名変換部２０９は、呼出名管理部２０８に問い合わせることで、運用インボケーションネームを取得する。呼出名変換部２０９は、音声ユーザインタフェース装置３０から送られる共通インボケーションネームを、呼出名管理部２０８から取得した運用インボケーションネームに差し替える。

ここで、呼出名管理部２０８から呼出名変換部２０９に対してリプライされる運用インボケーションネーム（視聴局のインボケーションネーム）であるが、スキルの動的変動がない場合と、スキルの動的変動がある場合とでは、その取得経路が異なる。すなわち、スキルの動的変動がない場合、呼出名管理部２０８は、呼出名変換部２０９からの問い合わせに応じて、記録部２００に記録された登録リスト（Invocation Name List）から、運用インボケーションネームを取得してリプライする。

一方で、スキルの動的変動がある場合には、放送配信システム１０にて、放送ストリームにインボケーションネームメタデータが挿入されているので、デマルチプレクサ２２２は、チューナ２０１からのストリームに含まれるインボケーションネームメタデータを抽出し、呼出名管理部２０８に供給する。そして、呼出名管理部２０８は、呼出名変換部２０９からの問い合わせに応じて、インボケーションネームメタデータから得られた運用インボケーションネームをリプライする。

なお、受信装置２０においては、呼出名管理部２０８及び呼出名変換部２０９等の処理モジュールによって、インボケーションネームに関する処理を行う処理部２２０が構成される。この処理部２２０は、例えば、CPU（後述の図２５のCPU１００１等）が、所定のプログラム（コンピュータプログラム）を実行することで実現される。また、記録部２００は、例えば、NVRAM(Non-Volatile RAM)等の不揮発性メモリを含む半導体メモリや、HDD(Hard Disk Drive)などの記録媒体であって、各種のデータを記録することができる。

通信部２１０は、例えば、Bluetooth（登録商標）、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。通信部２１０は、所定の通信方式に従い、音声ユーザインタフェース装置３０（の通信部３０５）との間で通信を行い、各種のデータをやり取りする。

ここでは、受信装置２０の通信部２１０と、音声ユーザインタフェース装置３０の通信部３０５との間で、上述したインボケーションネームの差し替え通信が行われ、通信部２１０は、通信部３０５から送信されてくるインボケーションネーム差し替え要求を受信し、呼出名変換部２０９に供給する。また、通信部２１０は、呼出名変換部２０９から供給される差し替えた運用インボケーションネームを、通信部３０５に送信する。

図８において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、音声解析部３０４、通信部３０５、及びセッティング管理部３０６を含んで構成される。

マイクロフォン３０１は、視聴者２の発話を収音し、その発話の音声データを、音声解析部３０４に供給する。

音声解析部３０４は、マイクロフォン３０１から供給される発話の音声データに基づいて、音声発話の解析を行い、その解析結果に応じた発話の音声データを、通信部３０３に供給する。

すなわち、音声解析部３０４は、視聴者２により共通インボケーションが発話された場合には、インボケーションネーム差し替え要求を発行し、通信部３０５に供給する。そして、音声解析部３０４は、解析対象の発話の音声データの共通インボケーションネームの部分を、通信部３０５による受信装置２０との差し替え通信で取得される運用インボケーションネームに差し替えた音声データを、通信部３０３に供給する。

通信部３０３は、音声解析部３０４から供給される発話の音声データを、インターネット６０を介して、音声アシスタンスサーバ４０に送信する。また、通信部３０３は、音声アシスタンスサーバ４０から送信されてくる応答の音声データを、インターネット６０を介して受信し、スピーカ３０２に供給する。

スピーカ３０２は、通信部３０３から供給される応答の音声データに基づいて、応答音声を出力する。

通信部３０３は、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。また、通信部３０５は、Bluetooth（登録商標）、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成される。なお、図８においては、説明の都合上、通信部３０３と通信部３０５を別の通信モジュールとして説明したが、それらが一体となって１つの通信モジュールとして構成されるようにしてもよい。

セッティング管理部３０６は、視聴者２からの設定入力に従い、各種の設定を行う。ここでは、例えば、共通インボケーションネームの設定や、発話から共通インボケーションネームを検知したときにインボケーションネームの差し替え通信を行う際の通信先の設定などが行われる。なお、ここでの設定入力に際しては、例えばボタンやタッチパネル（不図示）によって視聴者２の操作入力を受け付けることは勿論、マイクロフォン３０１によって視聴者２の音声入力を受け付けるようにしてもよい。

図８において、音声アシスタンスサーバ４０は、記録部４００（図５乃至図７）のほか、通信部４０１、通信部４０２、音声解析部４０３、及び音声生成部４０４を含んで構成される。

通信部４０１は、音声ユーザインタフェース装置３０から送信されてくる発話の音声データを、インターネット６０を介して受信し、音声解析部４０３に供給する。

音声解析部４０３は、通信部４０１から供給される発話の音声データを解析し、発話の音声データをテキストデータに変換する。また、音声解析部４０３は、発話の音声データの解析結果に基づいて、複数のスキル（Skill_1乃至Skill_N）の中から、対象のスキル（例えば、図８の例では、Skill_1）を特定する。そして、音声解析部４０３は、特定された対象のスキルに対して、パラメータとして、発話のテキストデータが渡されるようにする。

ここで、対象のスキル（プログラム）は、記録部４００から読み出され、CPU（後述の図２５のCPU１００１等）により実行されており、実行中の対象のスキルは、音声解析部４０３から受け取ったパラメータに基づき、リクエストメッセージを生成し、通信部４０２に供給する。

通信部４０２は、実行中の対象のスキルから供給されるリクエストメッセージを、ネットワーク７０を介して、処理サーバ５０に送信する。また、通信部４０２は、処理サーバ５０から送信されてくる音声応答データを、ネットワーク７０を介して受信し、音声生成部４０４に供給する。

音声生成部４０４は、通信部４０２から供給される音声応答データに基づいて、応答の音声データを生成し、通信部４０１に供給する。

通信部４０１は、音声生成部４０４から供給される応答の音声データを、インターネット６０を介して、音声ユーザインタフェース装置３０に送信する。

なお、通信部４０１と通信部４０２は、無線通信又は有線通信に対応した通信モジュールとして構成される。また、図８においては、説明の都合上、通信部４０１と通信部４０２を別の通信モジュールとして説明したが、それらが一体となって１つの通信モジュールとして構成されるようにしてもよい。また、記録部４００は、半導体メモリや、HDD、光ディスク等の記録媒体であって、各種のデータを記録することができる。

図８において、処理サーバ５０は、通信部５０１、処理部５０２、及び記録部５０３を含んで構成される。

通信部５０１は、音声アシスタンスサーバ４０から送信されてくるリクエストメッセージを、ネットワーク７０を介して受信し、処理部５０２に供給する。なお、通信部５０１は、無線通信又は有線通信に対応した通信モジュールとして構成される。

処理部５０２は、通信部５０１から供給されるリクエストメッセージに基づいて、記録部５０３に記録された音声応答データを抽出し、通信部５０１に供給する。記録部５０３は、半導体メモリや、HDD、光ディスク等の記録媒体であって、音声応答データ等の各種のデータを記録することができる。

この音声応答データは、視聴者２の発話に応じた音声応答を行うためのデータとされる。なお、音声応答データは、記録部５０３に記録されたものに限らず、例えば、外部のサーバから取得したり、あるいは、記録部５０３に記録されたデータや外部のサーバから取得したデータ等の各種のデータに基づき、処理部５０２により生成したりするようにしてもよい。

通信部５０１は、処理部５０２から供給される音声応答データを、ネットワーク７０を介して、音声アシスタンスサーバ４０に送信する。

なお、処理部５０２は、例えば、CPU（後述の図２５のCPU１００１等）が、所定のプログラム（コンピュータプログラム）を実行することで実現される処理モジュールであって、音声アシスタンスサーバ４０にて特定された対象のスキルのエンドポイントURLにより指定（特定）され、リクエストメッセージに含めたパラメータが渡されると捉えれば、当該対象のスキルの一部を構成しているとも言える。

すなわち、処理サーバ５０は、図５乃至図７に示したXXX局サーバ５０ＡやYYY局サーバ５０Ｂに対応しているとも言える。したがって、処理サーバ５０は、応答データ（音声に限らない）を、インターネット６０等のネットワーク７０を介して、受信装置２０に送信するようにしてもよい。この場合、受信装置２０は、処理サーバ５０から受信した応答データに基づいた処理を行うことになる。

（各装置の処理の流れ）
次に、図９のフローチャートを参照して、第１の実施の形態の各装置の処理の流れを説明する。

まず、事前の設定として、ステップＳ１０１の処理が実行される。すなわち、音声ユーザインタフェース装置３０においては、セッティング管理部３０６が、視聴者２からの指示に従い、共通インボケーションネームと、インボケーションネームの差し替え通信の通信先（差し替え通信先）を設定する（Ｓ１０１）。ここでは、例えば、共通インボケーションネームとして、"TV show"を設定するとともに、差し替え通信先として、受信装置２０を設定することができる。

この事前の設定が行われた後、放送番組を視聴中の視聴者２から質問発話がなされた場合、ステップＳ１０２以降の処理が実行される。すなわち、音声ユーザインタフェース装置３０において、マイクロフォン３０１が、視聴者２による発話を収音し、音声解析部３０４が、収音された発話の音声データを解析する（Ｓ１０２）。

ステップＳ１０３において、音声解析部３０４は、セッティング管理部３０６に問い合わせることで、解析された発話の音声データに、共通インボケーションネームの発話が含まれるかどうかを確認（判定）する。

なお、音声解析部３０４は、セッティング管理部３０６への問い合わせに際して、その後の処理で用いられる差し替え通信先を取得しておくことができる。ここでは、差し替え通信先として、受信装置２０が設定されているものとする。

ステップＳ１０３において、共通インボケーションネーム（例えば、"TV show"）が発話されたと判定された場合、処理は、ステップＳ１０４に進められる。ステップＳ１０４において、音声解析部３０４は、セッティング管理部３０６から取得済みの差し替え通信先に基づき、受信装置２０に対し、インボケーションネーム差し替え要求を発行する。

このインボケーションネーム差し替え要求は、無線通信等によって、受信装置２０により受信され、ステップＳ１２１乃至Ｓ１２５の処理が実行される。

ステップＳ１２１において、呼出名変換部２０９は、呼出名管理部２０８に問い合わせることで、運用インボケーションネームを取得する。

ここでは、呼出名管理部２０８によって、運用インボケーションネームを、インボケーションネームメタデータから取得することができるかどうかが確認（判定）され（Ｓ１２２）、インボケーションネームメタデータから取得することができないと判定された場合（Ｓ１２２の「NO」）、処理は、ステップＳ１２３に進められる。

そして、呼出名管理部２０８は、記録部２００に記録された登録リスト（Invocation Name List）から、視聴者２により視聴されているチャンネル（視聴局）の運用インボケーションネームを取得し（Ｓ１２３）、呼出名変換部２０９にリプライする（Ｓ１２４）。

ステップＳ１２５において、呼出名変換部２０９は、インボケーションネーム差し替え要求に含まれる共通インボケーションネームを、呼出名管理部２０８からリプライされた運用インボケーションネームに差し替える。また、呼出名変換部２０９は、差し替えた運用インボケーションネーム（の音声データ）を、音声ユーザインタフェース装置３０にリプライする（Ｓ１２５）。

この差し替えられたインボケーションネーム（の音声データ）は、無線通信等によって、音声ユーザインタフェース装置３０により受信され、ステップＳ１０５の処理が実行される。

ステップＳ１０５において、音声解析部３０４は、発話の音声データとして、共通インボケーションネームの部分が、運用インボケーションネームに差し替えられた音声データを、音声アシスタンスサーバ４０に送信する。

ここでは、例えば、図５に示したように、XXX局の番組を視聴している視聴者２によって、「AAAA, ask TV show, red!!」である発話がなされた場合、"TV show"である共通インボケーションネームが、"XXX show"であるXXX局の運用インボケーションネームに差し替えられ、「AAAA, ask XXX show, red!!」である発話の音声データが送信される。

なお、ステップＳ１０３において、共通インボケーションネームが発話されていないと判定された場合（Ｓ１０３の「NO」）には、ステップＳ１０４の処理はスキップされ、上述したインボケーションネームの差し替え通信（ステップＳ１０４，Ｓ１２１乃至Ｓ１２５）は実行されずに、運用インボケーションネームが発話されたものとして、発話の音声データがそのまま、音声アシスタンスサーバ４０に送信される。

この音声ユーザインタフェース装置３０からの発話の音声データは、インターネット６０を介して、音声アシスタンスサーバ４０により受信され、ステップＳ１０６乃至Ｓ１０９の処理が実行される。

ステップＳ１０６において、音声解析部４０３は、音声ユーザインタフェース装置３０からの音声データを解析し、発話の音声データをテキストデータに変換する。

ステップＳ１０７において、音声解析部４０３は、発話の音声データの解析結果に基づいて、複数のスキル（例えば、Skill_1乃至Skill_N）の中から、対象のスキルを特定する。音声アシスタンスサーバ４０においては、CPU等によって、対象のスキル（プログラム）が実行されており、音声解析部４０３は、変換した発話のテキストデータを、パラメータとして、特定した対象のスキル（例えば、Skill_1）に渡すようにする（Ｓ１０８）。

ステップＳ１０９において、対象のスキルは、音声解析部４０３からの発話のテキストデータに基づいて、リクエストメッセージを生成する。また、対象のスキルは、生成したリクエストメッセージを、ネットワーク７０を介して、エンドポイントURLにより特定される処理サーバ５０（の処理部５０２）に送信する。

このリクエストメッセージは、ネットワーク７０を介して、処理サーバ５０により受信され、ステップＳ１１０の処理が実行される。

ステップＳ１１０において、処理部５０２は、音声アシスタンスサーバ４０（により実行される対象のスキル）からのリクエストメッセージに基づいて、記録部５０３に記録された音声応答データを抽出する。ここでは、視聴者２の質疑発話に対する音声応答を行うためのデータが抽出される。

また、処理部５０２は、抽出した音声応答データを、ネットワーク７０を介して音声アシスタンスサーバ４０に送信する。音声アシスタンスサーバ４０においては、音声生成部４０４が、音声応答データに基づき、応答の音声データを生成し、インターネット６０を介して音声ユーザインタフェース装置３０に送信する。

これにより、音声ユーザインタフェース装置３０では、スピーカ３０２によって、音声アシスタンスサーバ４０からの応答の音声データに応じた応答音声が出力される。その結果として、視聴者２は、自身の質疑発話に応じた応答音声を確認することができる。

以上、スキルが静的である場合、すなわち、スキルの動的変動がない場合の処理の流れを説明したが、スキルの動的変動がある場合には、上述した処理の流れに加えて、図９のステップＳ１３１乃至Ｓ１３３の処理等の処理が実行される。

すなわち、放送配信システム１０においては、メタデータ生成部１０３によって、インボケーションネームメタデータが生成され、マルチプレクサ１０４によって、生成されたインボケーションネームメタデータが、コンテンツや放送付随アプリケーションを含むストリームに挿入される（Ｓ１３１）。

ここで、例えば、コンテンツを、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)に準拠したストリームとして配信する場合、その映像や音声のファイルの制御情報であるMPD(Media Presentation Description)を利用して、インボケーションネームメタデータを伝送することが可能となる。

図１０は、インボケーションネームメタデータを、MPDに挿入した場合の例を示している。ここで、MPDは、Period要素と、AdaptationSet要素と、Representation要素とが階層構造をなして構成される。

Period要素は、放送番組等のコンテンツの構成を記述する単位となる。また、AdaptationSet要素とRepresentation要素は、コンテンツを構成する映像や音声、字幕等のコンポーネントのストリームごとに利用され、それぞれのストリームの属性を記述することができる。

また、Period要素内には、EventStream要素を記述することができる。また、EventStream要素には、その属性として、schemeIdUri属性を記述することができる。schemeIdUri属性には、スキームを識別するためのURI(Uniform Resource Identifier)を記述する。図１０のMPDの記述例では、XXX局のインボケーションネームメタデータを伝送するためのスキームを識別するURIとして、'urn:XXX'を定義し、schemeIdUri属性の属性値として記述している。

また、EventStream要素は、Event要素の上位要素となる。Event要素は、その属性として、イベントメッセージのデータが指定されるmessageData属性を記述することができる。図１０のMPDの記述例では、Period要素内に、XXX局の番組で使用する運用インボケーションネームを、EventStream要素内のEvent要素のmessageData属性の属性値として記述している。

具体的には、XXX局のドラマ番組用の運用インボケーションネームとして、'XXX Drama'を、１つ目のPeriod要素（start属性 = 'PT0S'）内に記述し、XXX局のクイズ番組用の運用インボケーションネームとして、'XXX Quiz'を、２つ目のPeriod要素（start属性 = 'PT1H0M0S'）内に記述している。

なお、Event要素は、その属性として、messageData属性のほかに、プレゼンテーションタイム（開始時刻）が指定されるpresentationTime属性と、その開始時刻からの期間が指定されるduration属性を記述することができるが、ここでは、これらの属性は用いずに、messageData属性の属性値として記述された運用インボケーションネームが、常に有効であるものとする。

図９に戻り、ステップＳ１３２において、送出部１０５は、インボケーションネームメタデータを挿入した放送ストリームを送信する。この放送ストリームは、受信装置２０により受信され、ステップＳ１３３の処理が実行される。

ステップＳ１３３において、呼出名管理部２０８は、デマルチプレクサ２０２により分離されたストリームから得られるインボケーションネームメタデータを取得する。

そして、呼出名管理部２０８は、上述したステップＳ１２１の処理で、呼出名変換部２０９からの運用インボケーションネームの問い合わせを受けたとき、ステップＳ１２２の確認処理で、インボケーションネームメタデータから取得することができると判定する（Ｓ１２２の「YES」）。そのため、ステップＳ１２３の処理はスキップされ、処理は、ステップＳ１２４に進められる。

ステップＳ１２４において、呼出名管理部２０８は、インボケーションネームメタデータから運用インボケーションネームを取得し、呼出名変換部２０９にリプライする。これにより、呼出名変換部２０９は、インボケーションネーム差し替え要求に含まれる共通インボケーションネームを、呼出名管理部２０８からリプライされた運用インボケーションネームに差し替えることになる（Ｓ１２５）。

そして、音声ユーザインタフェース装置３０では、発話の音声データとして、共通インボケーションネームの部分が、運用インボケーションネームに差し替えられた音声データを、音声アシスタンスサーバ４０に送信することになる。

ここでは、例えば、図７に示したように、YYY局のドラマ番組を視聴している視聴者２によって、「AAAA, ask TV show, Who is Lis ?」である発話がなされた場合、"TV show"である共通インボケーションネームが、"XXX Drama"であるXXX局のドラマ番組の運用インボケーションネームに差し替えられ、「AAAA, ask XXX Drama, Who is Lis ?」である発話の音声データが送信される。

以上、第１の実施の形態の各装置の処理の流れとして、特に、スキルの動的変動がない場合と、スキルの動的変動がある場合における、視聴者２により発話された共通インボケーションネームを、視聴している番組の運用インボケーションネームに差し替える処理の流れを説明した。

以上のように、第１の実施の形態では、受信装置２０の処理部２２０が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者２の発話の音声に対する対応処理を行うスキル（プログラム）を呼び出すためのインボケーションネーム（呼び出し名）として複数のスキル（プログラム）で共通となる共通インボケーションネーム（共通の呼び出し名）と、スキル（プログラム）ごとの固有の情報とを対応付けた対応情報（登録リスト）に基づいて、視聴者２の発話の音声に含まれる共通インボケーションネーム（共通の呼び出し名）に対応付けられた固有の情報を処理する。

また、対応情報（登録リスト）には、共通インボケーションネーム（共通の呼び出し名）に対し、スキル（プログラム）ごとの固有の情報として、運用インボケーションネーム（固有の呼び出し名）が対応付けられており、処理部２２０は、共通インボケーションネーム（共通の呼び出し名）に対応付けられた固有の情報の処理として、対応情報（登録リスト）に基づき、共通インボケーションネーム（共通の呼び出し名）を、運用インボケーションネーム（固有の呼び出し名）に変換する処理を行う。また、運用インボケーションネーム（固有の呼び出し名）は、放送経由で配信されるインボケーションネームメタデータ（メタデータ）から取得することもできる。このように、受信装置２０は、処理部２２０を備える情報処理装置であるとも言える。

これにより、例えば、XXX局やYYY局のスキルなどのように利用するスキルが異なる場合であっても、視聴者２は、共通インボケーションネームを発話することで、所望のスキルを利用することが可能となるため、XXX局やYYY局の放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。

なお、上述した説明では、スキルの動的変動がない場合の運用と、スキルの動的変動がある場合の運用を示したが、これらの運用は、それぞれが別個に行われるようにしてもよいし、同時に行われるようにしてもよい。また、受信装置２０においては、インボケーションネームの差し替え通信が行われるよりも前のタイミングに、登録リストが記録部２００に記録されることになるが、そのタイミングは任意とされる。

（２）第２の実施の形態

ところで、第１の実施の形態では、ローカル側でインボケーションネームを差し替える構成を示したが、クラウド側の音声アシスタンスサーバ４０にてエイリアススキルを用いて対象のスキルを切り替える構成を採用することでも、視聴者２は、当該エイリアススキルのインボケーションネームを発話することで、所望のスキルを利用することが可能となる。そこで、第２の実施の形態として、図１１乃至図１６を参照しながら、クラウド側の音声アシスタンスサーバ４０にてエイリアススキルを用いて対象のスキルを切り替える構成を示す。

ここで、エイリアススキルとは、それ自体を呼び出すインボケーションネーム（エイリアススキルのインボケーションネーム）と、放送番組のメタデータ情報とそれに対応するスキルのペアテーブルを含んで構成されるスキル（切り替え用のプログラム）である。このエイリアススキルを用いることで、放送番組のメタデータ情報に基づき、その情報に該当する別のスキル（ノーマルスキル）への切り替えを行うことが可能となる。

このエイリアススキルのインボケーションネームは、ローカル側の視聴者２からすれば、共通インボケーションネーム（共通の呼び出し名）であるとも言える。また、第２の実施の形態では、通常のスキルを、エイリアススキルと区別するために、ノーマルスキルとも称して説明する。

（構成の第１の例）
図１１は、第２の実施の形態の構成の第１の例を示す図である。

図１１においては、視聴者２が、XXX局のクイズ番組を視聴しているとき、受信装置２０では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。なお、図１１において、受信装置２０は、上述した登録リスト（Invocation Name List）を記録していない。

ここで、第１の例では、視聴者２が、XXX局により提供されるスキル（ノーマルスキル）を利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズに対する自身の解答を伝えている（Ｓ４１）。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、視聴者２が視聴中のコンテンツを特定するためのメタデータ（以下、コンテキストメタデータともいう）を取得する（Ｓ４２）。なお、詳細は後述するが、コンテキストメタデータは、例えば、視聴中（現在）の放送番組のチャンネル番号（Channel Number）及びメディアタイム（Media Time）等の視聴情報を含めることができる。

このように、受信装置２０は、音声ユーザインタフェース装置３０に対し、視聴者２による発話からインボケーションネーム（"TV show"）を検知したときに、自身とコンテキストメタデータの取得通信を行うような事前設定をするようにする。

そして、受信装置２０は、音声ユーザインタフェース装置３０から、コンテキストメタデータの取得要求（リクエスト）が発行されたとき、視聴中の番組のチャンネル番号及びメディアタイムを含むコンテキストメタデータを返す（リプライする）。これにより、音声ユーザインタフェース装置３０は、発話の音声データに、コンテキストメタデータを付加して送信することが可能となる。

具体的には、音声ユーザインタフェース装置３０は、"AAAA, ask TV show, red !!"である発話の音声データとともに、Channel Number = XX, Media Time = T3であるコンテキストメタデータを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ４３）。

音声アシスタンスサーバ４０は、その記録部４００に、エイリアススキルを記録している。このエイリアススキル（Alias Skill）は、それ自体を呼び出すインボケーションネーム（例えば"TV show"）と、放送番組のメタデータ情報とそれに対応するスキルのペアテーブルを含んで構成される。

図１１の例では、"TV show"であるインボケーションネームにより呼び出されるエイリアススキルとして、ディスパッチスキルテーブルと、各放送局のスキルとが対応付けられている。具体的には、ディスパッチスキルテーブルは、XXであるチャンネル番号に対し、T1〜T5である時間に、XXX局のスキルを割り当て、T5〜T10である時間に、XXX局のドラマ番組用のスキルを割り当てている。また、ディスパッチスキルテーブルは、YYであるチャンネル番号に対し、すべての時間帯に、YYY局のスキルを割り当てている。

また、図１１の例では、エイリアススキルにおいて、ディスパッチスキルテーブルに対応付けられる各放送局のスキル（ノーマルスキル）として、XXX局のスキル、XXX局のドラマ番組用のスキル、及びYYY局のスキルが登録されている。

ここでは、XXX局のスキルの情報として、"XXX Show"であるインボケーションネームと、"https://XXX"であるエンドポイントURLが登録されている。また、XXX局のドラマ番組用のスキルの情報として、"XXX Drama"であるインボケーションネームと、"https://XXX/drama"であるエンドポイントURLが登録され、YYY局のスキルの情報として、"YYY Show"であるインボケーションネームと、"https://YYY"であるエンドポイントURLが登録されている。

なお、このエイリアススキルは、各放送局のスキル（ノーマルスキル）とは別に、例えば、テレビ受像機等の受信装置２０を製造するメーカなどにより作成され、音声アシスタンスサーバ４０に提供される。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ４０では、発話のテキストデータから得られる"TV show"であるインボケーションネーム（エイリアススキルのインボケーションネーム）に基づき、エイリアススキルが特定されるとともに、特定されたエイリアススキルによって、コンテキストメタデータ（Channel Number, Media Time）に基づき、対応するスキル（ノーマルスキル）にディスパッチされる（Ｓ４４）。

より具体的には、コンテキストメタデータは、Channel Number = XX, Media Time = T3 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、XXであるチャンネル番号に対し、T1〜T5である時間に割り当てられたXXX局のスキル（XXX show Skill）にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたXXX局のスキルに対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、XXX局のスキルのエンドポイントURLとして、"https://XXX"であるURLが設定されているため、音声アシスタンスサーバ４０にて実行されるXXX局のスキルが、XXX局サーバ５０Ａに対し、リクエストメッセージを通知することで、XXX局のスキルの処理（例えば、"red"であるクイズの解答に対する処理）が実行され、その処理結果が提示される（Ｓ４５）。このとき、例えば、XXX局のスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中のクイズ番組に参加することが可能となるが、ここでは、XXX局により提供されるスキル（ノーマルスキル）を利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネーム（エイリアススキルのインボケーションネーム）を発話すればよく、１つのインボケーションネームのみで、放送局（又は番組等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

（構成の第２の例）
図１２は、第２の実施の形態の構成の第２の例を示す図である。

図１２においては、視聴者２が、XXX局のドラマ番組を視聴しているとき、受信装置２０では、XXX局のドラマ番組に連動して、XXX局の放送付随アプリケーションが実行されている。

ここで、第２の例では、視聴者２が、XXX局により提供されるドラマ番組用のスキルを利用して、ドラマ番組の内容についての疑問点を質問する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, Who is Liz ?」である発話を行い、ドラマ番組の内容についての疑問点を質問している（Ｓ５１）。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、コンテキストメタデータを取得する（Ｓ５２）。そして、音声ユーザインタフェース装置３０は、"AAAA, ask TV show, Who is Liz ?"である発話の音声データとともに、Channel Number = XX, Media Time = T7であるコンテキストメタデータを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ５３）。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ４０では、発話のテキストデータから得られる"TV show"であるインボケーションネームに基づき、エイリアススキルが特定されるとともに、当該エイリアススキルによって、コンテキストメタデータ（Channel Number, Media Time）に基づき、対応するスキル（ノーマルスキル）にディスパッチされる（Ｓ５４）。

第２の例では、コンテキストメタデータは、Channel Number = XX, Media Time = T7 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、XXであるチャンネル番号に対し、T5〜T10である時間に割り当てられたXXX局のドラマ番組用のスキル（XXX Drama Skill）にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたXXX局のドラマ番組用のスキルに対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、XXX局のドラマ番組用のスキルのエンドポイントURLとして、"https://XXX/drama"であるURLが設定されているため、音声アシスタンスサーバ４０は、XXX局サーバ５０Ａに対し、リクエストメッセージを通知することで、XXX局のドラマ番組用のスキルの処理（例えば、"Who is Liz ?"である質問に対する処理）が実行され、その処理結果が提示される（Ｓ５５）。このとき、例えば、XXX局のドラマ番組用のスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中のドラマ番組の内容についての情報を得ることが可能となるが、ここでは、XXX局のドラマ番組のスキル（ノーマルスキル）を利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネーム（エイリアススキルのインボケーションネーム）を発話すればよく、１つのインボケーションネームのみで、放送局（又は番組等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

より具体的には、図１２に示した第２の例を、図１１に示した第１の例と比べれば、XXX局のドラマ番組のスキルと、XXX局のスキルとで利用するスキルが異なるが、視聴者２は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。

（構成の第３の例）
図１３は、第２の実施の形態の構成の第３の例を示す図である。

図１３においては、視聴者２が、YYY局の情報番組を視聴しているとき、受信装置２０では、YYY局の情報番組に連動して、YYY局の放送付随アプリケーションが実行されている。

ここで、第３の例では、視聴者２が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答やアンケートの投票などを行っている（Ｓ６１）。

このとき、音声ユーザインタフェース装置３０は、受信装置２０との間で無線通信を行うことで、コンテキストメタデータを取得する（Ｓ６２）。そして、音声ユーザインタフェース装置３０は、" AAAA, ask TV show, red !!"である発話の音声データとともに、Channel Number = YY, Media Time = T7であるコンテキストメタデータを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ６３）。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換する。また、音声アシスタンスサーバ４０では、発話のテキストデータから得られる"TV show"であるインボケーションネームに基づき、エイリアススキルが特定されるとともに、当該エイリアススキルによって、コンテキストメタデータ（Channel Number, Media Time）に基づき、対応するスキル（ノーマルスキル）にディスパッチされる（Ｓ６４）。

第３の例では、コンテキストメタデータは、Channel Number = YY, Media Time = T7 を含んでいるため、特定したエイリアススキルにおいて、ディスパッチスキルテーブルによって、YYであるチャンネル番号に対し、All timeである時間に割り当てられたYYY局のスキル（YYY show Skill）にディスパッチすることができる。そして、エイリアススキルによってディスパッチされたYYY局のスキルに対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、YYY局のスキルのエンドポイントURLとして、"https://YYY"であるURLが設定されているため、音声アシスタンスサーバ４０は、YYY局サーバ５０Ｂに対し、リクエストメッセージを通知することで、YYY局のスキルの処理（例えば、"red"であるゲームの回答等に対する処理）が実行され、その処理結果が提示される（Ｓ６５）。このとき、例えば、YYY局のスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中の情報番組に参加することが可能となるが、ここでは、YYY局のスキル（ノーマルスキル）を利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"である共通インボケーションネーム（エイリアススキルのインボケーションネーム）を発話すればよく、１つのインボケーションネームのみで、放送局（又は番組等の特定の基準）ごとに提供されるスキルにインタラクションすることが可能となる。

より具体的には、図１３に示した第３の例を、図１１に示した第１の例及び図１２に示した第２の例と比べれば、YYY局のスキルと、XXX局のスキル及びXXX局のドラマ番組のスキルとで利用するスキルが異なるが、視聴者２は、共に、"TV show"である共通インボケーションネームを発話することで、所望のスキルを利用することが可能となる。

（各装置の詳細な構成の例）
図１４は、第２の実施の形態の各装置の詳細な構成の例を示すブロック図である。

図１４においては、図８と同様に、送信側の放送配信システム１０と受信側の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

なお、図１４において、放送配信システム１０、及び処理サーバ５０の構成は、図８に示した構成と同様であるため、ここでは、その説明は省略する。ただし、第２の実施の形態では、放送配信システム１０において、インボケーションネームメタデータを生成する必要がないため、メタデータ生成部１０３は除かれている。

図１４において、受信装置２０は、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、通信部２１０、及びメタデータ管理部２１１を含んで構成される。すなわち、図１４に示した受信装置２０の構成は、図８に示した構成と比べて、記録部２００、呼出名管理部２０８、及び呼出名変換部２０９の代わりに、メタデータ管理部２１１が設けられている。

メタデータ管理部２１１は、視聴中の番組の視聴情報を取得するとともに、当該視聴情報を含むコンテキストメタデータの管理を行う。すなわち、メタデータ管理部２１１は、音声ユーザインタフェース装置３０からのメタデータ取得要求を受信した場合、取得した視聴情報に基づき、コンテキストメタデータ（Channel Number, Media Time）を生成し、リプライする。

図１４において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、通信部３０３、通信部３０５、セッティング管理部３０６、及び音声解析・メタデータマージ部３０７を含んで構成される。すなわち、図１４に示した音声ユーザインタフェース装置３０は、図８に示した構成と比べて、音声解析部３０４の代わりに、音声解析・メタデータマージ部３０７が設けられている。

音声解析・メタデータマージ部３０７は、マイクロフォン３０１から供給される発話の音声データに基づいて、音声発話の解析を行う。

また、音声解析・メタデータマージ部３０７は、エイリアススキルのインボケーションネームが発話された場合には、受信装置２０に対してメタデータ取得要求を送信することで、コンテキストメタデータ（Channel Number, Media Time）を取得する。音声解析・メタデータマージ部３０７は、発話の音声データに対し、取得したコンテキストメタデータを付加して送信データを生成する。この送信データは、通信部３０３によって、インターネット６０を介して音声アシスタンスサーバ４０に送信される。

図１４において、音声アシスタンスサーバ４０は、記録部４００、通信部４０１、通信部４０２、音声生成部４０４、及び音声解析・メタデータ抽出部４０５を含んで構成される。

すなわち、図１４に示した音声アシスタンスサーバ４０は、図８に示した構成と比べて、音声解析部４０３の代わりに、音声解析・メタデータ抽出部４０５が設けられている。また、記録部４００には、複数のスキル（Skill_1乃至Skill_N）の代わりに、エイリアススキルと、複数のノーマルスキル（Normal Skill_1乃至Normal Skill_N）が記録されている。なお、エイリアススキルやノーマルスキル（のプログラム）は、記録部４００から読み出され、CPU（後述の図２５のCPU１００１等）により実行される。

音声解析・メタデータ抽出部４０５は、音声ユーザインタフェース装置３０からの送信データに含まれる発話の音声データを、テキストデータに変換する。また、音声解析・メタデータ抽出部４０５は、発話の音声データの解析結果に基づいて、対象のスキルを特定し、特定した対象のスキルがエイリアススキルである場合には、実行中のエイリアススキルに対し、変換した発話のテキストデータとともに、送信データから抽出したコンテキストメタデータ（Channel Number, Media Time）を渡す。

実行中のエイリアススキルは、ディスパッチスキルテーブル等に基づき、音声解析・メタデータ抽出部４０５からのコンテキストメタデータ（Channel Number, Media Time）に合致する対象のノーマルスキル(例えば、図１４の例では、Normal Skill_1)を特定し、パラメータとして発話のテキストデータを渡す。

エイリアススキルによりディスパッチされたノーマルスキル（例えば、Normal Skill_1）は、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成する。このリクエストメッセージは、通信部４０２によって、ネットワーク７０を介して処理サーバ５０に送信される。

なお、音声アシスタンスサーバ４０においては、音声解析・メタデータ抽出部４０５と、実行中のエイリアススキルやノーマルスキル等の処理モジュールによって、エイリアススキルのインボケーションネームに応じた処理を行う処理部４２０が構成される。

（各装置の処理の流れ）
次に、図１５のフローチャートを参照して、第２の実施の形態の各装置の処理の流れを説明する。

まず、事前の設定として、ステップＳ２０１の処理が実行される。すなわち、音声ユーザインタフェース装置３０においては、セッティング管理部３０６が、視聴者２からの指示に従い、エイリアススキルのインボケーションネーム（共通インボケーションネーム）と、そのスキルに必要なコンテキストメタデータの取得先（メタデータ取得通信先）を設定する（Ｓ２０１）。

ここでは、例えば、エイリアススキルのインボケーションネームとして、"TV show"を設定するとともに、メタデータ取得通信先として、受信装置２０を設定することができる。

この事前の設定が行われた後、受信装置２０では、放送配信システム１０から送信される放送ストリームが受信され、視聴者２の選局操作に応じた放送番組が再生されている（Ｓ２３１）。このとき、受信装置２０では、メタデータ管理部２１１によって、視聴中の放送番組の視聴情報が取得される（Ｓ２３２）。

また、視聴者２から質問発話がなされた場合、ステップＳ２０２以降の処理が実行される。すなわち、音声ユーザインタフェース装置３０において、マイクロフォン３０１が、視聴者２による発話を収音し、音声解析・メタデータマージ部３０７が、収音された発話の音声データを解析する（Ｓ２０２）。

ステップＳ２０３において、音声解析・メタデータマージ部３０７は、セッティング管理部３０６に問い合わせることで、解析された発話の音声データに、エイリアススキルのインボケーションネームの発話が含まれるかどうかを確認（判定）する。

なお、音声解析・メタデータマージ部３０７は、セッティング管理部３０６への問い合わせに際して、その後の処理で用いられるメタデータ取得通信先を取得しておくことができる。ここでは、メタデータ取得通信先として、受信装置２０が設定されているものとする。

ステップＳ２０３において、エイリアススキルのインボケーションネームが発話されたと判定された場合（Ｓ２０３の「YES」）、処理は、ステップＳ２０４に進められる。ステップＳ２０４において、音声解析・メタデータマージ部３０７は、セッティング管理部３０６から取得済みのメタデータ取得通信先に基づき、無線通信等により受信装置２０に対し、メタデータ取得要求を発行することで、コンテキストメタデータを取得する。

すなわち、受信装置２０では、音声ユーザインタフェース装置３０からのメタデータ取得要求が受信された場合、メタデータ管理部２１１によって、視聴中の放送番組の視聴情報に基づき、コンテキストメタデータ（Channel Number, Media Time）が生成され、リプライされる。これにより、音声解析・メタデータマージ部３０７は、視聴中（現在）の放送番組のチャンネル番号（Channel Number）及びメディアタイム（Media Time）を含むコンテキストメタデータを取得することができる。

ステップＳ２０５において、音声解析・メタデータマージ部３０７は、取得したコンテキストメタデータ（Channel Number, Media Time）を、送信データにマージする。ここでは、発話の音声データに対し、視聴中の放送番組のチャンネル番号及びメディアタイムを含むコンテキストメタデータが付加され、送信データが生成される。

この送信データとしては、例えば、図１６に示すようなデータを送ることができる。すなわち、音声解析・メタデータマージ部３０７は、発話の音声データを配置したHTTPリクエストのボディに対し、コンテキストメタデータを、JSON(JavaScript（登録商標） Object Notation)形式のデータとして記述する（マージする）ことで、マルチパート形式のHTTPリクエストを生成する。

JSON形式のオブジェクトは、キーと値のペアをコロン（：）で対にして、これらの対を、コンマ（，）で区切ってゼロ個以上列挙し、全体を波括弧（｛｝）でくくることで表現される。図１６の例では、コンテキストメタデータ（"ContextMetaDatas"）のオブジェクトに対し、Channel Numberの値として、"8.1"であるチャンネル番号が記述され、Media Timeの値として、"2018-01-29T18:00:05Z"であるメディアタイムが記述されている。

図１５に戻り、ステップＳ２０６において、音声解析・メタデータマージ部３０７は、生成した送信データを、音声アシスタンスサーバ４０に送信する。この音声ユーザインタフェース装置３０からの送信データは、音声アシスタンスサーバ４０により受信され、ステップＳ２０７乃至Ｓ２１１の処理が実行される。

ステップＳ２０７において、音声解析・メタデータ抽出部４０５は、音声ユーザインタフェース装置３０からの送信データに含まれる発話の音声データを、テキストデータに変換する。

ステップＳ２０８において、音声解析・メタデータ抽出部４０５は、発話の音声データの解析結果に基づいて、対象のスキルを特定する。

ステップＳ２０９において、音声解析・メタデータ抽出部４０５は、特定した対象のスキルが、エイリアススキルかどうかを確認（判定）する。このステップＳ２０９の判定処理の結果に従い、エイリアススキル処理又はノーマルスキル処理のいずれかの処理が実行される。なお、このとき、音声アシスタンスサーバ４０では、CPU等によって、エイリアススキルやノーマルスキルが実行されている。

すなわち、ステップＳ２０９において、特定した対象のスキルが、エイリアススキルであると判定された場合、処理は、ステップＳ２１０に進められ、音声アシスタンスサーバ４０と処理サーバ５０によって、エイリアススキル処理が実行される。

このエイリアススキル処理では、まず、音声解析・メタデータ抽出部４０５が、送信データからコンテキストメタデータを抽出し、抽出したコンテキストメタデータを、変換した発話のテキストデータとともに、実行中のエイリアススキルに渡す（Ｓ２１０Ａ）。

次に、エイリアススキルは、ディスパッチスキルテーブル等に基づき、音声解析・メタデータ抽出部４０５からのコンテキストメタデータ（Channel Number, Media Time）に合致する対象のスキル（ノーマルスキル）を特定する（Ｓ２１０Ｂ）。また、エイリアススキルは、ステップＳ２１０Ｂの処理により自身が特定した対象のスキル（ノーマルスキル）に対し、パラメータとして発話のテキストデータを渡す（Ｓ２１０Ｃ）。

このようにして、エイリアススキルによりディスパッチされたノーマルスキルは、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成する（Ｓ２１０Ｄ）。そして、当該ノーマルスキルは、生成したリクエストメッセージを、ネットワーク７０を介して、エンドポイントURLにより特定される処理サーバ５０（の処理部５０２）に送信する（Ｓ２１０Ｄ）。

一方で、ステップＳ２０９において、特定した対象のスキルが、エイリアススキルではない、すなわち、ノーマルスキルであると判定された場合、処理は、ステップＳ２１１に進められ、音声アシスタンスサーバ４０と処理サーバ５０によって、ノーマルスキル処理が実行される。

このノーマルスキル処理では、音声解析・メタデータ抽出部４０５が、ステップＳ２０８の処理で特定された対象のスキル（ノーマルスキル）に対し、パラメータとして発話のテキストデータを渡す（Ｓ２１１Ａ）。当該ノーマルスキルは、パラメータとして渡された発話のテキストデータに基づき、リクエストメッセージを生成し、エンドポイントURLにより特定される処理サーバ５０（の処理部５０２）に送信する（Ｓ２１１Ｂ）。

エイリアススキル処理（Ｓ２１０）、又はノーマルスキル処理（Ｓ２１１）が終了すると、処理は、ステップＳ２１２に進められる。すなわち、対象のスキル（ノーマルスキル）により送信されたリクエストメッセージは、ネットワーク７０を介して、処理サーバ５０により受信され、ステップＳ２１２の処理が実行される。

ステップＳ２１２において、処理部５０２は、リクエストメッセージに基づき、視聴者２の質疑発話に対する音声応答のデータを抽出し、ネットワーク７０を介して音声アシスタンスサーバ４０に送信する。これにより、音声ユーザインタフェース装置３０では、音声アシスタンスサーバ４０からの応答の音声データに応じた応答音声が、スピーカ３０２から出力される。その結果として、視聴者２は、自身の質疑発話に応じた応答音声を確認することができる。

以上、第２の実施の形態の各装置の処理の流れとして、クラウド側の音声アシスタンスサーバ４０にてエイリアススキルを用いて対象のスキルを切り替える場合の処理の流れを説明した。

以上のように、第２の実施の形態では、音声アシスタンスサーバ４０の処理部４２０が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うノーマルスキル（プログラム）を呼び出すためのインボケーション（呼び出し名）として複数のノーマルスキル（プログラム）で共通となるエイリアススキルのインボケーションネーム（共通の呼び出し名）と、ノーマルスキル（プログラム）ごとの固有の情報とを対応付けた対応情報（エイリアススキルのディスパッチスキルテーブル等）に基づいて、視聴者２の発話の音声に含まれるエイリアススキルのインボケーションネーム（共通の呼び出し名）に対応付けられた固有の情報を処理する。

また、対応情報は、視聴者２が視聴中の放送番組（コンテンツ）を特定するためのコンテキストメタデータ（メタデータ）と、ノーマルスキル（固有のプログラム）とを対応付けた情報（ディスパッチスキルテーブル等）であって、エイリアススキルのインボケーションネーム（共通の呼び出し名）により特定されるエイリアススキル（切り替え用のプログラム）に含まれている。処理部４２０では、エイリアススキルのインボケーションネーム（共通の呼び出し名）に基づき、エイリアススキル（切り替え用のプログラム）が特定されるとともに、当該エイリアススキル（切り替え用のプログラム）によって、コンテキストメタデータ（メタデータ）に対応付けられたノーマルスキル（固有のプログラム）にディスパッチされ、視聴者２の発話の音声に対する対応処理が行われる。このように、音声アシスタンスサーバ４０は、処理部４２０を備える情報処理装置であるとも言える。

これにより、例えば、XXX局やYYY局のスキルなどのように利用するスキルが異なる場合であっても、視聴者２は、エイリアススキルのインボケーションネーム（共通インボケーションネーム）を発話することで、所望のスキルを利用することが可能となるため、XXX局やYYY局の放送番組等のコンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。

なお、上述した説明では、コンテキストメタデータとして、視聴中（現在）の放送番組のチャンネル番号（Channel Number）及びメディアタイム（Media Time）等の視聴情報を含める場合を説明したが、コンテキストメタデータに含めるコンテキスト情報は視聴情報に限らず、様々な情報を含めることができる。例えば、ローカル側の受信装置２０や音声ユーザインタフェース装置３０などが、Bluetooth（登録商標）等の無線通信によって、関連周辺機器等の他の機器から、音声AIアシスタンスサービスにて有用なコンテキスト情報を取得し、コンテキストメタデータとして、発話の音声データに付加して送信するようにしてもよい。

（３）第３の実施の形態

次に、第３の実施の形態として、図１７乃至図２３を参照しながら、クラウド側の音声アシスタンスサーバ４０にて視聴者のカウント情報に紐付いたプライベートスキルを生成するとともに、放送経由で配信されるメタデータに基づき、当該プライベートスキルの更新（リアルタイム更新）を行う構成を示す。

（初期登録時の構成の例）
図１７は、第３の実施の形態の構成の第１の例として、初期登録時の構成を示している。

初期登録時において、視聴者２は、受信機運用スキルに使用するインボケーションネームと、自身のアカウント情報を、受信装置２０に登録する（Ｓ７１）。

これにより、受信装置２０において、記録部２００には、視聴者２による設定入力に応じて、受信機運用スキル（スキル名：TV show Skill）に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報が登録される（Ｄ１）。また、記録部２００は、放送配信システム１０から配信される配信スキルのカレントバージョン（初期値：0）を記録している。

なお、視聴者２は、コンテンツ・音声AI連携システム１を利用するに際し、音声ユーザインタフェース装置３０をユーザインタフェースとする音声AIアシスタンスサービスを提供するサービスAのアカウント情報（"BBBB"）を持っており、初期登録時には、このサービスAのアカウント情報（"BBBB"）を登録することができる。

具体的には、例えば、代表的な音声AIアシスタンスサービスである、Amazon Echo（登録商標）に搭載されているAlexa（登録商標）を利用する場合、視聴者２は、既に登録済みであるAmazon.com（登録商標）のアカウント情報を流用して登録することができる。

受信装置２０は、視聴者２により設定入力された内容に基づいて、スキル生成リクエストを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ７２）。

このスキル生成リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及び"TV show"であるインボケーションネームのほか、当該インボケーションネーム以外のスキル登録情報を含めることができる。ただし、この初期登録時に送られるスキル登録情報は、必要最低限の情報に限るものとする。

音声アシスタンスサーバ４０は、受信装置２０からのスキル生成リクエスト（に含まれる送信データ）に基づいて、プライベートスキルを生成し、記録部４００に記録する（Ｓ７３）。

このプライベートスキルは、"BBBB"であるアカウント情報に紐付いたスキルであって、スキル名が"TV show Skill"であり、スキルの情報として、"TV show"であるインボケーションネームと、"https://ZZZ"であるエンドポイントURLのほか、インテントリストや、発話−インテント変換テーブルなどを含んでいる。

ここで、インテントリストは、視聴者２の発話の音声データの解析結果（例えば視聴者２の意図や要望等）に対応した処理を行うインテントのリストである。すなわち、スキル（プライベートスキル）は、そのインテントに応じた処理を行うことで、視聴者２の要望を実現することになる。また、発話−インテント変換テーブルは、発話とインテントとを対応付けたテーブルであって、当該テーブルを用いることで、視聴者２の発話をインテントに変換することができる。

ただし、初期登録時において、インテントリストや発話−インテント変換テーブルには、必要最低限の情報のみが登録されている。また、この例では、エンドポイントURLやインテントリスト、発話−インテント変換テーブルが、生成したプライベートスキルに含まれるとして説明したが、それ以外の情報が含まれるようにしてもよい。

このようにして、初期登録の段階で、音声ユーザインタフェース装置３０に割り当てられているカウント情報（"BBBB"）に紐付いたプライベートスキルとして、放送付随アプリケーション用途のスキルを生成（自動登録生成）しておくようにする。ただし、初期登録の段階では、スキルの情報として、インボケーションネーム（"TV show"）以外の情報は、必要最低限とされ、いわば、更新を前提に最初の１つのスキル（プライベートスキル）をあらかじめ作っているとも言える。

（視聴時の構成の第１の例）
図１８は、第３の実施の形態の構成の第２の例として、視聴時の構成の第１の例を示している。

図１８において、受信装置２０は、放送配信システム１０から送信される放送ストリームを受信し、放送番組等のコンテンツを再生したり、放送付随アプリケーションを実行したりするが、放送ストリームには、スキル登録情報を通知するためのメタデータ（以下、スキル登録情報メタデータという）が挿入されている。

なお、詳細は後述するが、スキル登録情報メタデータは、MPDのEventStream等を利用して送ることができる。また、記録部２００には、図１７に示した初期登録時の処理によって、受信機運用スキル（スキル名：TV show Skill）に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報が登録されている。また、配信スキルのカレントバージョンは、1となっている。

例えば、視聴者２が、XXX局のクイズ番組を視聴しているとき、受信装置２０では、XXX局のクイズ番組に連動して、XXX局の放送付随アプリケーションが実行されている。また、このとき、受信装置２０は、視聴中のXXX局のクイズ番組に合わせて、放送ストリームからXXX局用のスキル登録情報メタデータを取得する（Ｓ８１）。

受信装置２０は、取得したXXX局用のスキル登録情報メタデータに基づき、受信機運用スキルを更新するかどうかを判定する（Ｓ８２）。第１の例では、記録部２００に記録された配信スキルのカレントバージョンは、1であるが、取得したXXX局の配信スキルのバージョンは、2であって、バージョンが上がっているため、受信装置２０は、スキル更新リクエストを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ８３）。

このスキル更新リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及びインボケーションネーム以外のスキル登録情報を含めることができる。例えば、スキル登録情報としては、更新後のエンドポイントURLやインテントリスト、発話−インテント変換テーブルを含めることができる。ただし、ここで送られるスキル登録情報は、XXX局用のスキル登録情報メタデータから得られる情報（XXX局のスキル登録情報）に対応したものとなる。

なお、ここでは、配信スキルのバージョンが更新されたときに、スキル更新リクエストを発行して、プライベートスキルを更新するとして説明するが、プライベートスキルの更新タイミングは、これに限らず、例えば、視聴者２のリモートコントローラ操作で、別の放送局にチャンネルが切り替えられたときや、受信装置２０の電源がオンされたとき（周波数帯域（チャンネル）を合わせたとき）などのタイミングであってもよい。

音声アシスタンスサーバ４０は、受信装置２０からのスキル更新リクエスト（に含まれる送信データ）に基づいて、記録部４００に記録されたプライベートスキル（の一部）を更新する（Ｓ８４）。

ここで、記録部４００には、図１７に示した初期登録時の処理によって、プライベートスキルが登録されたが、このプライベートスキルのインボケーションネーム以外の情報を、スキル更新リクエストの送信データとして送られるXXX局のスキル登録情報により更新することができる。具体的には、第１の例では、記録部４００において、エンドポイントURLが、"https://ZZZ"から、"https://XXX"に更新される。また、例えば、インテントリストが、XXX局用のスキルのインテントリストに更新され、発話−インテント変換テーブルが、XXX局用のスキルの発話−インテント変換テーブルに更新される。

また、第１の例においては、視聴者２が、XXX局により提供されるスキルを利用して、視聴中のXXX局のクイズ番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、出題されたクイズに対する自身の解答を伝えている（Ｓ８５）。

音声ユーザインタフェース装置３０は、「AAAA, ask TV show, red !!」である発話の音声データを、音声アシスタンスサーバ４０に送信する（Ｓ８６）。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換するとともに、対象のスキル（プライベートスキル）を特定する。図１８の例では、発話の音声データに、"TV show"であるインボケーションネームが含まれるため、視聴者２のアカウント情報（"BBBB"）に紐付いたプライベートスキル（"TV Show Skill"）が特定される。そして、実行中のプライベートスキル（"TV Show Skill"）に対し、パラメータとして発話のテキストデータが渡される。

ここでは、プライベートスキル（"TV Show Skill"）のエンドポイントURLとして、"https://XXX"であるURL、すなわち、XXX局サーバ５０ＡのURLが設定されているため、音声アシスタンスサーバ４０にて実行されるプライベートスキルが、XXX局サーバ５０Ａに対し、リクエストメッセージを通知することで、視聴者２のアカウント情報に紐付いたプライベートスキルの処理（例えば、"red"であるクイズの解答に対する処理）が実行され、その処理結果が提示される（Ｓ８７）。このとき、例えば、プライベートスキルが、XXX局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中のクイズ番組に参加することが可能となるが、ここでは、視聴者２のアカウント情報に紐付いたプライベートスキルを利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"であるインボケーションネームを発話することで、プライベートスキルにインタラクションすることが可能となる。

（視聴時の構成の第２の例）
図１９は、第３の実施の形態の構成の第３の例として、視聴時の構成の第２の例を示している。

図１９においては、例えば、視聴者２が、YYY局の情報番組を視聴しているとき、受信装置２０では、YYY局の情報番組に連動してYYY局の放送付随アプリケーションが実行されている。また、このとき、受信装置２０は、視聴中のYYY局の情報番組に合わせて、放送ストリームからYYY局用のスキル登録情報メタデータを取得する（Ｓ９１）。

受信装置２０は、取得したYYY局用のスキル登録情報メタデータに基づき、受信機運用スキルを更新するかどうかを判定する（Ｓ９２）が、第２の例では、取得したYYY局の配信スキルのバージョンは、2であって、バージョンが上がっているため、受信装置２０は、スキル更新リクエストを、インターネット６０を介して音声アシスタンスサーバ４０に送信する（Ｓ９３）。

このスキル更新リクエストは、送信データとして、"BBBB"であるアカウント情報、"TV show Skill"であるスキル名、及びインボケーションネーム以外のスキル登録情報を含めることができる。ただし、ここで送られるスキル登録情報は、YYY局用のスキル登録情報メタデータから得られる情報（YYY局のスキル登録情報）に対応したものとなる。

音声アシスタンスサーバ４０は、受信装置２０からのスキル更新リクエストに基づいて、記録部４００に記録されたプライベートスキル（の一部）を更新する（Ｓ９４）。具体的には、第２の例では、記録部４００において、エンドポイントURLが、"https://ZZZ"から"https://YYY"に更新され、インテントリストが、YYY局用のスキルのインテントリストに更新され、発話−インテント変換テーブルが、YYY局用のスキルの発話−インテント変換テーブルに更新される。

ここで、第２の例では、視聴者２が、YYY局により提供されるスキルを利用して、視聴中のYYY局の情報番組に参加する場面を想定する。ここでは、視聴者２が、音声ユーザインタフェース装置３０に対し、例えば、「AAAA, ask TV show, red !!」である発話を行い、例えばゲームの回答などを行っている（Ｓ９５）。

音声ユーザインタフェース装置３０は、「AAAA, ask TV show, red !!」である発話の音声データを、音声アシスタンスサーバ４０に送信する（Ｓ９６）。

音声アシスタンスサーバ４０は、音声ユーザインタフェース装置３０からの発話の音声データをテキストデータに変換するとともに、対象のスキル（プライベートスキル）を特定する。図１９の例では、発話の音声データに、"TV show"であるインボケーションネームが含まれるため、視聴者２のアカウント情報（"BBBB"）に紐付いたプライベートスキル（"TV Show Skill"）が特定される。そして、実行中のプライベートスキル（"TV Show Skill"）に対し、パラメータ（発話のテキストデータ）が渡される。

ここでは、プライベートスキル（"TV Show Skill"）のエンドポイントURLとして、"https://YYY"であるURL、すなわち、YYY局サーバ５０ＢのURLが設定されているため、音声アシスタンスサーバ４０は、YYY局サーバ５０Ｂに対し、リクエストメッセージを通知することで、プライベートスキルの処理（例えば、"red"であるゲームの回答等に対する処理）が実行され、その処理結果が提示される。このとき、例えば、プライベートスキルが、YYY局の放送付随アプリケーションと連携して、当該放送付随アプリケーションの提示内容に処理結果を反映したりすることができるのは、先に述べた通りである。

このようにして、視聴者２は、視聴中の情報番組に参加することが可能となるが、ここでは、視聴者２のアカウント情報に紐付いたプライベートスキルを利用する際に、音声ユーザインタフェース装置３０に対し、"TV show"であるインボケーションネームを発話することで、プライベートスキルにインタラクションすることが可能となる。

（各装置の詳細な構成の例）
図２０は、第３の実施の形態の各装置の詳細な構成の例を示すブロック図である。

図２０においては、図８と同様に、送信側の放送配信システム１０と受信側の受信装置２０の構成の例と、ローカル側の音声ユーザインタフェース装置３０とクラウド側の音声アシスタンスサーバ４０及び処理サーバ５０の構成の例を示している。

なお、図２０において、放送配信システム１０、及び処理サーバ５０の構成は、図８に示した構成と同様であるため、ここでは、その説明は省略する。ただし、第３の実施の形態では、放送配信システム１０が、スキル登録情報メタデータを配信する必要がある。そのため、メタデータ生成部１０３は、インボケーションネームメタデータの代わりに、スキル登録情報メタデータを生成することになる。

図２０において、受信装置２０は、記録部２００（図１７乃至図１９）のほか、チューナ２０１、デマルチプレクサ２０２、AVデコーダ２０３、放送付随アプリケーション実行部２０４、レンダラ２０５、ディスプレイ２０６、スピーカ２０７、通信部２１０、セッティング管理部２１２、スキル生成・更新リクエスト発行管理部２１３、及びスキルバージョン管理部２１４を含んで構成される。

すなわち、図２０に示した受信装置２０は、図８に示した構成と比べて、呼出名管理部２０８、及び呼出名変換部２０９の代わりに、セッティング管理部２１２、スキル生成・更新リクエスト発行管理部２１３、及びスキルバージョン管理部２１４が設けられている。

セッティング管理部２１２は、視聴者２からの設定入力に従い、各種の設定を行う。ここでは、例えば、受信機運用スキルのインボケーションネームや、アカウント情報などの設定が行われ、記録部２００に記録される。なお、ここでの設定入力に際しては、例えばリモートコントローラやボタン、タッチパネル（不図示）等によって視聴者２の操作入力を受け付けることは勿論、音声ユーザインタフェース装置３０を介して視聴者２の音声入力を受け付けるようにしてもよい。

スキル生成・更新リクエスト発行管理部２１３は、セッティング管理部２１２により設定された設定情報やスキル登録情報（必要最低限の情報に限る）などの情報に基づいて、スキル生成リクエストを生成する。このスキル生成リクエストは、通信部２１０によって、インターネット６０を介して音声アシスタンスサーバ４０に送信される。

また、スキル生成・更新リクエスト発行管理部２１３は、デマルチプレクサ２０２から供給されるスキル登録情報メタデータ、並びにセッティング管理部２１２から取得したスキル名及びアカウント情報などの情報に基づいて、スキル更新リクエストを生成する。このスキル更新リクエストは、通信部２１０によって、インターネット６０を介して音声アシスタンスサーバ４０に送信される。

スキルバージョン管理部２１４は、スキル生成・更新リクエスト発行管理部２１３からの指示に従い、配信スキルのカレントバージョンを管理する。このバージョン情報は、記録部２００に記録される。

なお、通信部２１０は、例えば、無線LAN、若しくはセルラー方式の通信などの無線通信、又は有線通信に対応した通信モジュールとして構成され、所定の通信方式に従い、インターネット６０を介して、音声アシスタンスサーバ４０（の通信部４０７）との間で通信を行い、各種のデータをやり取りする。

図２０において、音声ユーザインタフェース装置３０は、マイクロフォン３０１、スピーカ３０２、及び通信部３０３を含んで構成される。すなわち、図２０に示した音声ユーザインタフェース装置３０は、図８に示した構成と比べて、音声解析部３０４、通信部３０５、及びセッティング管理部３０６が除かれている。

また、図２０において、音声アシスタンスサーバ４０は、記録部４００（図１７乃至図１９）のほか、通信部４０１、通信部４０２、音声解析部４０３、音声生成部４０４、スキル生成・更新部４０６、及び通信部４０７を含んで構成される。すなわち、図２０に示した音声アシスタンスサーバ４０は、図８に示した構成と比べて、スキル生成・更新部４０６、及び通信部４０７が追加されている。また、記録部４００には、複数のスキル（Skill_1乃至Skill_N）の代わりに、生成又は更新されたプライベートスキル（Private Skill）が記録されている。

スキル生成・更新部４０６は、受信装置２０から送信されてくるスキル生成リクエストに基づいて、プライベートスキルを生成する。このプライベートスキル（プログラム）は、記録部４００に記録される。また、スキル生成・更新部４０６は、受信装置２０から送信されてくるスキル更新リクエストに基づいて、記録部４００に記録されているプライベートスキルの内容を更新する（差し替える）。

プライベートスキル（プログラム）は、記録部４００から読み出され、CPU（後述の図２５のCPU１００１等）により実行される。実行中のプライベートスキルは、音声解析部４０３から受け取ったパラメータ（発話のテキストデータ）に基づき、リクエストメッセージを生成する。このリクエストメッセージは、通信部４０２によって、ネットワーク７０を介して処理サーバ５０に送信される。

なお、音声アシスタンスサーバ４０においては、スキル生成・更新部４０６によって、プライベートスキルの生成と、生成したプライベートスキルの更新を行う処理部４３０が構成される。

通信部４０７は、無線通信又は有線通信に対応した通信モジュールとして構成され、所定の通信方式に従い、インターネット６０を介して、受信装置２０（の通信部２１０）との間で通信を行い、各種のデータをやり取りする。なお、図２０においては、説明の都合上、通信部４０７を、通信部４０１及び通信部４０２と別の通信モジュールとして説明したが、それらが一体となって１つの通信モジュールとして構成されるようにしてもよい。

（各装置の処理の流れ）
次に、図２１のフローチャートを参照して、第３の実施の形態の各装置の処理の流れを説明する。

まず、初期登録時に、ステップＳ３０１乃至Ｓ３０４の処理が実行される。すなわち、視聴者２による設定入力は、受信装置２０により受け付けられ、ステップＳ３０１乃至Ｓ３０３の処理が実行される。

すなわち、受信装置２０においては、セッティング管理部２１２が、視聴者２からの指示に従い、受信機運用スキルのインボケーションネームと、アカウント情報を設定する（Ｓ３０１）。ここでは、例えば、受信機運用スキル（スキル名：TV show Skill）に対し、"TV show"であるインボケーションネームと、"BBBB"であるアカウント情報を設定することができる。

また、スキル生成・更新リクエスト発行管理部２１３は、セッティング管理部２１２により設定された設定情報やスキル登録情報（必要最低限の情報に限る）に基づいて、音声アシスタンスサーバ４０に対し、スキル生成リクエストを発行する（Ｓ３０２）。また、スキルバージョン管理部２１４は、スキル生成・更新リクエスト発行管理部２１３からの指示に従い、配信スキルのカレントバージョンを、0にリセットする（Ｓ３０３）。

スキル生成リクエストは、インターネット６０を介して音声アシスタンスサーバ４０により受信され、ステップＳ３０４の処理が実行される。

すなわち、スキル生成・更新部４０６は、受信装置２０から受信したスキル生成リクエストに基づいて、プライベートスキルを生成する（Ｓ３０４）。このプライベートスキル（プログラム）は、例えば、記録部４００に記録され、CPU等により実行可能とされる。

初期登録が行われた後、プライベートスキルの更新が行われる場合には、ステップＳ３１１乃至Ｓ３１８の処理が実行される。なお、ここでは、配信スキルのバージョンが更新されたときに、プライベートスキルを更新するとして説明するが、例えば、別の放送局にチャンネルが切り替えられたときなどに更新してもよいことは、先に述べた通りである。

すなわち、放送配信システム１０では、メタデータ生成部１０３によって、スキル登録情報メタデータが生成され、マルチプレクサ１０４によって、生成されたスキル登録情報メタデータが、ストリームに挿入される（Ｓ３１１）。

ここで、例えば、コンテンツを、MPEG-DASHに準拠したストリームとして配信する場合、その制御情報であるMPDを利用して、スキル登録情報メタデータを伝送することが可能となる。

図２２は、スキル登録情報メタデータを、MPDに挿入する場合の例を示している。

上述したように、MPDは、その階層構造にPeriod要素を含み、Period要素内には、EventStream要素を記述することができる。また、EventStream要素には、その属性として、スキームを識別するためのURIを示すschemeIdUri属性を記述することができる。図２２のMPDの記述例では、XXX局用のスキル登録情報メタデータを伝送するためのスキームを識別するURIとして、'urn:XXX'を定義し、schemeIdUri属性の属性値として記述している。

また、EventStream要素に対し、Event要素を記述することができる。Event要素は、その属性として、イベントメッセージのデータが指定されるmessageData属性を記述することができる。図２２のMPDの記述例では、XML(Extensible Markup Language)形式のXXX局用のスキル登録情報メタデータ（図中の'XML文章'）を、Event要素のmessageData属性の属性値として記述している。

図２３は、XML形式のXXX局用のスキル登録情報メタデータの記述の例を示している。

図２３には、XXX局のスキル登録情報として、例えば、SkillRegistrationInfo要素のversion属性として、"1"であるXXX局の配信スキルのバージョンが記述されている。また、InvocationName要素の開始タグと終了タグの間に、"XXX Quiz"であるインボケーションネーム、EndpointUrl要素の開始タグと終了タグの間に、"http://XXX"であるエンドポイントURLが記述されている。さらに、その他のスキル登録情報として、例えば、Intent要素やSlotValues要素などによって、インテントやスロット（パラメータ）に関する情報などが記述されている。

なお、Event要素は、その属性として、presentationTime属性とduration属性を記述することができるが、ここでは、これらの属性は用いずに、messageData属性の属性値として記述されたスキル登録情報メタデータが、常に有効であるものとする。

図２１に戻り、ステップＳ３１２において、送出部１０５は、スキル登録情報メタデータを挿入した放送ストリームを送信する。この放送ストリームは、受信装置２０により受信され、ステップＳ３１３乃至Ｓ３１７の処理が実行される。

ステップＳ３１３において、スキル生成・更新リクエスト発行管理部２１３は、デマルチプレクサ２０２により分離されたストリームから得られるスキル登録情報メタデータを取得する。

ステップＳ３１４において、スキル生成・更新リクエスト発行管理部２１３は、スキルバージョン管理部２１４に問い合わせることで、バージョンが更新されているかを確認する。ここでは、ステップＳ３１４の処理で、バージョンが更新されていると判定された場合の処理を、ステップＳ３１５乃至Ｓ３１８に示している。

ステップＳ３１５において、スキル生成・更新リクエスト発行管理部２１３は、セッティング管理部２１２に問い合わせることで、受信機運用スキルのスキル名、及び視聴者２のアカウント情報を取得する。

ステップＳ３１６において、スキル生成・更新リクエスト発行管理部２１３は、放送ストリームから取得したスキル登録情報メタデータ、並びにセッティング管理部２１２から取得したスキル名及びアカウント情報に基づいて、音声アシスタンスサーバ４０に対し、スキル更新リクエストを発行する。

ステップＳ３１７において、スキルバージョン管理部２１４は、スキル生成・更新リクエスト発行管理部２１３からの指示に従い、配信スキルのカレントバージョンを更新する。ここでは、例えば、カレントバージョンが、0から1にインクリメントされる。

スキル更新リクエストは、インターネット６０を介して音声アシスタンスサーバ４０により受信され、ステップＳ３１８の処理が実行される。

ステップＳ３１８において、スキル生成・更新部４０６は、受信装置２０から受信したスキル更新リクエストに基づいて、視聴者２のアカウント情報に紐付いたプライベートスキルの内容を更新する（差し替える）。この更新後のプライベートスキル（プログラム）は、例えば、記録部４００に記録され、CPU（例えば、後述の図２５のCPU１００１）により実行される。

なお、ここでは、配信スキルのバージョンが更新され、プライベートスキルが更新される場合を説明したが、配信スキルのバージョンが更新されていない場合には、ステップＳ３１５乃至Ｓ３１８の更新時の処理はスキップされ、プライベートスキルの更新は行われずに、例えば、更新前のプライベートスキルがそのまま実行される。

その後、視聴者２から質問発話がなされたとき、ステップＳ３２１以降の処理が実行される。すなわち、音声ユーザインタフェース装置３０において、マイクロフォン３０１により収音された視聴者２の発話が、音声アシスタンスサーバ４０に送られ（Ｓ３２１）、音声解析部４０３によって、発話の音声データがテキストデータに変換される（Ｓ３２２）。

また、音声解析部４０３は、発話の音声データの解析結果に基づいて、記録部４００に記録されたスキルの中から、対象のスキル（プライベートスキル）を特定する（Ｓ３２３）。ここで、音声アシスタンスサーバ４０では、CPU等によって、対象のプライベートスキルが実行されているため、音声解析部４０３は、変換した発話のテキストデータ（パラメータ）を、特定した対象のスキル（プライベートスキル）に渡す（Ｓ３２４）。

対象のプライベートスキルは、音声解析部４０３からの発話のテキストデータに基づいて、リクエストメッセージを生成し、エンドポイントURLにより特定される処理サーバ５０（の処理部５０２）に送信する（Ｓ３２５）。このリクエストメッセージは、ネットワーク７０を介して、処理サーバ５０により受信され、ステップＳ３２６の処理が実行される。

ステップＳ３２６において、視聴者２の質疑発話に対する音声応答のデータを抽出し、ネットワーク７０を介して音声アシスタンスサーバ４０に送信する。これにより、音声ユーザインタフェース装置３０では、音声アシスタンスサーバ４０からの音声データに応じた応答音声が、スピーカ３０２から出力される。その結果として、視聴者２は、自身の質疑発話に応じた応答音声を確認することができる。

以上、第３の実施の形態の各装置の処理の流れとして、クラウド側の音声アシスタンスサーバ４０にて視聴者のカウント情報に紐付いたプライベートスキルを生成するとともに、放送経由で配信されるスキル登録情報メタデータに基づき、当該プライベートスキルの更新（リアルタイム更新）を行う場合の流れを説明した。

以上のように、第３の実施の形態では、音声アシスタンスサーバ４０の処理部４３０が、XXX局やYYY局の放送番組等のコンテンツに連携した音声AIアシスタンスサービスを利用するに際し、当該コンテンツを視聴する視聴者２のアカウント情報、視聴者の発話の音声に対する対応処理を行うプログラムであって視聴者に特化したプライベートスキル（個人用のプログラム）の名称、及び個人用のプログラムを呼び出すためのインボケーションネーム（呼び出し名）を少なくとも含むスキル登録情報（生成情報）に基づいて、プライベートスキル（個人用のプログラム）を生成するとともに、アカウント情報、個人用のプログラムの名称、及び個人用のプログラムに対して登録される情報であって呼び出し名を除いた登録情報を少なくとも含むスキル登録情報（更新情報）に基づいて、生成したプライベートスキル（個人用のプログラム）を更新する。

また、処理部４３０では、音声ユーザインタフェース装置３０から送られるインボケーションネーム（呼び出し名）に対応付けられたプライベートスキル（個人用のプログラム）によって、視聴者２の発話の音声に対する対応処理が行われる。このように、音声アシスタンスサーバ４０は、処理部４３０を備える情報処理装置であるとも言える。

なお、上述した説明では、プライベートスキルについて説明したが、プライベートスキルを提供する形態は、上述した実施の形態に限定されるものではない。例えば、音声アシスタンスサーバ４０等の装置において、共通のスキルを取得（受信）し、対象の視聴者に適合した発話パターン（例えば、訛りなど）を追加するなどのカスタマイズを行い、プライベートスキルとして利用するなどの提供の形態が想定される。

＜３．変形例＞

（他の構成の例）
上述した説明では、受信装置２０と音声ユーザインタフェース装置３０とが別の装置であると説明したが、例えば、図２４に示すように、それらの装置を一体化して１つの装置（情報処理装置）として構成されるようにしてもよい。

すなわち、図２４に示した受信装置２０は、音声AIアシスタンスサービスに対応したテレビ受像機やスマートフォン等の機器であって、記録部２００、及びチューナ２０１乃至呼出名変換部２０９のほかに、音声ユーザインタフェース装置３０側のマイクロフォン３０１、通信部３０３、音声解析部３０４、及びセッティング管理部３０６が設けられている。ただし、図２４において、スピーカ２０７は、音声ユーザインタフェース装置３０側のスピーカ３０２としても用いられる。

図２４に示した受信装置２０においても、呼出名管理部２０８及び呼出名変換部２０９により処理部２２０が構成され、この処理部２２０によって、記録部２００に記録された登録リストやインボケーションネームメタデータに基づき、共通インボケーションを、運用インボケーションネームに変換するための処理が行われる。

なお、図２４においては、受信装置２０が音声AIアシスタンスサービスに対応した場合の構成について説明したが、記録部２００及び処理部２２０（の全部又は一部の機能）が、音声ユーザインタフェース装置３０側に設けられ、必要な情報は、受信装置２０側から取得するようにしてもよい。また、図２４においては、第１の実施の形態に対応した構成を示したが、第２の実施の形態及び第３の実施の形態においても同様に、受信装置２０と音声ユーザインタフェース装置３０とを一体化してもよい。

また、音声AIアシスタンスサービスを提供するための機能としては、ローカル側の機能（例えば、音声解析部３０４の機能など）と、クラウド側の機能（例えば、音声解析部４０３や音声生成部４０４の機能など）があるが、それらの機能のすべてが、ローカル側の装置（端末）又はクラウド側の装置（サーバ）で実装されるようにしてもよし、あるいは、それらの機能の一部が、ローカル側の装置（端末）又はクラウド側の装置（サーバ）で実装されるようにしてもよい。

また、上述した図１のコンテンツ・音声AI連携システム１においては、視聴者宅で、１つの受信装置２０（例えばテレビ受像機）と、１つの音声ユーザインタフェース装置３０（スマートスピーカ）とが設置される場合を図示したが、例えば、視聴者宅ごとに、本技術を適用した受信装置２０と音声ユーザインタフェース装置３０をそれぞれ設置することができる。また、視聴者宅において、受信装置２０と音声ユーザインタフェース装置３０は、同一の部屋に設置されることが想定されるが、異なる部屋に設置してもよい。さらに、１つの受信装置２０に対し、複数の音声ユーザインタフェース装置３０を設けるようにしてもよいし、その逆に、１つの音声ユーザインタフェース装置３０に対し、複数の受信装置２０を設けるようにしてもよい。

さらに、上述した図１のコンテンツ・音声AI連携システム１においては、１つの音声アシスタンスサーバ４０と、１つの処理サーバ５０とが設置される場合を図示したが、これらのサーバは、例えば、機能や事業者（例えば放送事業者）ごとに、複数設けるようにしてもよい。一方で、音声アシスタンスサーバ４０と処理サーバ５０の機能の全部又は一部をまとめて、１又は複数のサーバにより提供されるようにしてもよい。

（放送方式の例）
放送配信システム１０から受信装置２０に送られる放送信号（デジタル放送信号）を伝送するための放送方式としては、例えば、米国等で採用されている方式であるATSC(Advanced Television Systems Committee)のほか、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)や、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などを適用することができる。また、その伝送路としては、地上波放送に限らず、例えば、放送衛星（BS：Broadcasting Satellite)や通信衛星（CS：Communications Satellite）等を利用した衛星放送や、ケーブルテレビ（CATV：Cable Television）等の有線放送などにも適用することができる。

また、上述した放送配信システム１０は、１又は複数の放送サーバ等から構成されるものであって、例えば、一般的なデジタル放送のシステムでは、マルチプレクサ１０４（マルチプレクササーバ）と、送出部１０５（送出サーバ）とは、異なる場所に設置されるものである。より具体的には、例えば、マルチプレクサ１０４は、放送局内に設置される一方で、送出部１０５は、送信所に設置される。さらに、番組コンテンツ処理部１０１（番組コンテンツサーバ）、放送付随アプリケーション生成部１０２（放送付随アプリケーションサーバ）、及びメタデータ生成部１０３（メタデータサーバ）は、マルチプレクサ１０４（マルチプレクササーバ）と同一の場所（例えば放送局内の場所）又は異なる場所（例えば放送局外の場所）に設置されるようにすることができる。

（コンテンツ・アプリケーションの例）
なお、上述した説明では、配信対象のコンテンツとして、番組やCMを例示したが、本技術が適用されるコンテンツには、動画や音楽のほか、例えば、電子書籍やゲーム、広告など、あらゆるコンテンツが含まれる。また、上述した説明では、コンテンツの配信経路として、放送配信システム１０による放送経由での配信を説明したが、OTT(Over The Top)サービス等を提供する通信配信システムによって、通信経由でストリーミング配信されるようにしてもよい。さらに、番組等のコンテンツを構成するコンポーネント（例えば、映像や音声、字幕など）の全部が、放送経由又は通信経由で配信されるようにしてもよいし、コンポーネントの一部が放送経由又は通信経由で配信される（残りの一部は通信経由又は放送経由で配信される）ようにしてもよい。

また、放送付随アプリケーションは、例えば、HTML5などのマークアップ言語やJavaScript（登録商標）等のスクリプト言語で開発されたアプリケーションとすることができるが、それに限らず、例えば、Java（登録商標）などのプログラミング言語で開発されたアプリケーションであってもよい。また、放送付随アプリケーションは、ブラウザ（放送付随アプリケーション実行部２０４）により実行されるアプリケーションに限らず、いわゆるネイティブアプリケーションとして、OS（Operating System）環境などで実行されるようにしてもよい。

さらに、上述した説明では、放送付随アプリケーションが、放送配信システム１０により放送経由で配信される場合を説明したが、それに限らず、例えば、放送付随アプリケーションを生成するアプリケーションサーバによって、通信経由で（インターネット６０を経由して）配信されるようにしてもよい。また、上述した説明では、放送付随アプリケーションは、放送経由で配信されるコンテンツに連動するとして説明したが、通信経由で配信されるコンテンツに連動して実行されるアプリケーションであってもよい。

（その他）
なお、本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述した「スキル」は、「アクション」や「アプリケーション」などと称される場合がある。また、スキルは、API(Application Programming Interface)として提供されたり、その一部の機能がAPIを利用することで実現されたりしてもよい。

さらに例示すれば、例えば、上述した「ウェイクワード」は、「アクティベーションキーワード」や「コマンドワード」などと称され、上述した「パラメータ」は、「スロット」などと称され、上述した「AIアシスタンスサービス」は、「AIアシスタントサービス」などと称される場合がある。

＜４．コンピュータの構成＞

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図２５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成の例を示す図である。

コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インタフェース１００５が接続されている。入出力インタフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

入力部１００６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインタフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インタフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インタフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

また、本技術は、以下のような構成をとることができる。

（１）
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える
情報処理装置。
（２）
前記対応情報は、前記共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けており、
前記処理部は、前記対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記（１）に記載の情報処理装置。
（３）
前記対応情報を、あらかじめ記録する記録部をさらに備え、
前記処理部は、記録された前記対応情報に基づいて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記（２）に記載の情報処理装置。
（４）
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記固有の呼び出し名は、放送経由で配信されるメタデータから取得され、
前記処理部は、前記共通の呼び出し名を、前記メタデータから取得される前記固有の呼び出し名に変換する
前記（２）に記載の情報処理装置。
（５）
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置からの要求に応じて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
前記（２）乃至（４）のいずれかに記載の情報処理装置。
（６）
前記対応情報は、前記視聴者が視聴している前記コンテンツを特定するためのメタデータと、固有のプログラムとを対応付けた情報であって、前記共通の呼び出し名により特定される切り替え用のプログラムに含まれており、
前記処理部は、前記切り替え用のプログラムにより対応付けられた前記対応情報に基づいて、前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
前記（１）に記載の情報処理装置。
（７）
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムにディスパッチする
前記（６）に記載の情報処理装置。
（８）
前記メタデータは、前記視聴者が視聴中の前記コンテンツのチャンネルを示すチャンネル情報、及び前記コンテンツの再生時間軸上における前記視聴者の発話に応じた時間を示す時間情報を含む
前記（６）又は（７）に記載の情報処理装置。
（９）
前記プログラムは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、又はその機能を実際に実行するサーバ装置若しくは処理プログラムはどれかという情報を少なくとも含み、当該情報に基づき、前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置から送られてくる前記視聴者の発話の音声に対する対応処理を行う
前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記固有の呼び出し名は、MPDを利用して、放送経由で配信される
前記（４）に記載の情報処理装置。
（１１）
前記チャンネル情報及び前記時間情報は、HTTPリクエストを利用して、前記視聴者の発話の音声データとともに、通信経由で送られる
前記（７）又は（８）に記載の情報処理装置。
（１２）
前記コンテンツは、放送経由で配信される放送コンテンツであり、
前記プログラムは、放送事業者又は放送番組ごとに提供される
前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する
情報処理方法。
（１４）
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、
生成した前記メタデータを送信する送信部と
を備える送信装置。
（１５）
前記生成部は、前記固有の呼び出し名を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
前記（１４）に記載の送信装置。
（１６）
送信装置の送信方法において、
前記送信装置が、
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成し、
生成した前記メタデータを送信する
送信方法。
（１７）
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、
前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理装置。
（１８）
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から送られる前記呼び出し名に対応付けられた前記個人用のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
前記（１７）に記載の情報処理装置。
（１９）
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記登録情報は、MPDを利用して、放送経由で配信され、
前記処理部は、前記登録情報のバージョンが更新されたとき、又は前記視聴者によりチャンネルが切り替えられたとき、前記更新情報に基づいて、前記個人用のプログラムを更新する
前記（１７）又は（１８）に記載の情報処理装置。
（２０）
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成し、
前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理方法。

１コンテンツ・音声AI連携システム，１０放送配信システム，２０受信装置，３０音声ユーザインタフェース装置，４０音声アシスタンスサーバ，５０処理サーバ，６０インターネット，７０ネットワーク，１０１番組コンテンツ処理部，１０２放送付随アプリケーション生成部，１０３メタデータ生成部，１０４マルチプレクサ，１０５送出部，２００記録部，２０１チューナ，２０２デマルチプレクサ，２０３ AVデコーダ，２０４放送付随アプリケーション実行部，２０５レンダラ，２０６ディスプレイ，２０７スピーカ，２０８呼出名管理部，２０９呼出名変換部，２１０通信部，２１１メタデータ管理部，２１２セッティング管理部，２１３スキル生成・更新リクエスト発行管理部，２１４スキルバージョン管理部，２２０処理部，３０１マイクロフォン，３０２スピーカ，３０３通信部，３０４音声解析部，３０５通信部，３０６セッティング管理部，３０７音声解析・メタデータマージ部，４００記録部，４０１通信部，４０２通信部，４０３音声解析部，４０４音声生成部，４０５音声解析・メタデータ抽出部，４０６スキル生成・更新部，４０７通信部，４２０，４３０処理部，５０１通信部，５０２処理部，５０３記録部，１０００コンピュータ，１００１ CPU

Claims

コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する処理部を備える
情報処理装置。
前記対応情報は、前記共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けており、
前記処理部は、前記対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名を、前記固有の呼び出し名に変換する
請求項１に記載の情報処理装置。
前記対応情報を、あらかじめ記録する記録部をさらに備え、
前記処理部は、記録された前記対応情報に基づいて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
請求項２に記載の情報処理装置。
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記固有の呼び出し名は、放送経由で配信されるメタデータから取得され、
前記処理部は、前記共通の呼び出し名を、前記メタデータから取得される前記固有の呼び出し名に変換する
請求項２に記載の情報処理装置。
放送経由で配信される前記コンテンツを受信する受信装置として構成され、
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置からの要求に応じて、前記共通の呼び出し名を、前記固有の呼び出し名に変換する
請求項２に記載の情報処理装置。
前記対応情報は、前記視聴者が視聴している前記コンテンツを特定するためのメタデータと、固有のプログラムとを対応付けた情報であって、前記共通の呼び出し名により特定される切り替え用のプログラムに含まれており、
前記処理部は、前記切り替え用のプログラムにより対応付けられた前記対応情報に基づいて、前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
請求項１に記載の情報処理装置。
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から前記共通の呼び出し名とともに送られる前記メタデータに対応付けられた前記固有のプログラムにディスパッチする
請求項６に記載の情報処理装置。
前記メタデータは、前記視聴者が視聴中の前記コンテンツのチャンネルを示すチャンネル情報、及び前記コンテンツの再生時間軸上における前記視聴者の発話に応じた時間を示す時間情報を含む
請求項７に記載の情報処理装置。
前記プログラムは、どのような音声に反応するのか、どのような単語をパラメータにしてどの機能を実現するのか、又はその機能を実際に実行するサーバ装置若しくは処理プログラムはどれかという情報を少なくとも含み、当該情報に基づき、前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置から送られてくる前記視聴者の発話の音声に対する対応処理を行う
請求項１に記載の情報処理装置。
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記固有の呼び出し名は、MPDを利用して、放送経由で配信される
請求項４に記載の情報処理装置。
前記チャンネル情報及び前記時間情報は、HTTPリクエストを利用して、前記視聴者の発話の音声データとともに、通信経由で送られる
請求項８に記載の情報処理装置。
前記コンテンツは、放送経由で配信される放送コンテンツであり、
前記プログラムは、放送事業者又は放送番組ごとに提供される
請求項１に記載の情報処理装置。
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の情報とを対応付けた対応情報に基づいて、前記視聴者の発話の音声に含まれる前記共通の呼び出し名に対応付けられた前記固有の情報を処理する
情報処理方法。
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成する生成部と、
生成した前記メタデータを送信する送信部と
を備える送信装置。
前記生成部は、前記固有の呼び出し名を、前記音声AIアシスタンスサービスに用いられることを識別するための識別情報により識別可能に表現されたMPDを生成し、
前記送信部は、前記MPDとともに、前記コンテンツを、MPEG-DASHに準拠したストリームとして、放送経由で配信する
請求項１４に記載の送信装置。
送信装置の送信方法において、
前記送信装置が、
コンテンツに連携した音声AIアシスタンスサービスにおいて、前記コンテンツを視聴する視聴者の発話の音声に対する対応処理を行うプログラムを呼び出すための呼び出し名として複数の前記プログラムで共通の呼び出し名と、前記プログラムごとの固有の呼び出し名とを対応付けた対応情報を利用するに際し、前記固有の呼び出し名を含むメタデータを生成し、
生成した前記メタデータを送信する
送信方法。
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成する処理部を備え、
前記処理部は、前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理装置。
前記音声AIアシスタンスサービスのユーザインタフェースとして機能する音声処理装置とネットワークを介して接続されるサーバ装置として構成され、
前記処理部は、前記音声処理装置から送られる前記呼び出し名に対応付けられた前記個人用のプログラムに対し、前記視聴者の発話の音声に対する対応処理が行われるようにする
請求項１７に記載の情報処理装置。
前記コンテンツは、MPEG-DASHに準拠したストリームとして、放送経由で配信され、
前記登録情報は、MPDを利用して、放送経由で配信され、
前記処理部は、前記登録情報のバージョンが更新されたとき、又は前記視聴者によりチャンネルが切り替えられたとき、前記更新情報に基づいて、前記個人用のプログラムを更新する
請求項１８に記載の情報処理装置。
情報処理装置の情報処理方法において、
前記情報処理装置が、
コンテンツに連携した音声AIアシスタンスサービスを利用するに際し、前記コンテンツを視聴する視聴者のアカウント情報、前記視聴者の発話の音声に対する対応処理を行うプログラムであって前記視聴者に特化した個人用のプログラムの名称、及び前記個人用のプログラムを呼び出すための呼び出し名を少なくとも含む生成情報に基づいて、前記個人用のプログラムを生成し、
前記アカウント情報、前記個人用のプログラムの名称、及び前記個人用のプログラムに対して登録される情報であって前記呼び出し名を除いた登録情報を少なくとも含む更新情報に基づいて、生成した前記個人用のプログラムを更新する
情報処理方法。