WO2019054199A1

WO2019054199A1 - 情報処理装置、及び情報処理方法

Info

Publication number: WO2019054199A1
Application number: PCT/JP2018/032323
Authority: WO
Inventors: 山岸　靖明
Original assignee: ソニー株式会社
Priority date: 2017-09-15
Filing date: 2018-08-31
Publication date: 2019-03-21
Also published as: AU2018333668B2; JPWO2019054199A1; MX2020002591A; KR20200053486A; AU2018333668A1; EP3683792A4; KR102607192B1; SG11202001429XA; EP3683792A1; US20200211549A1; JP7227140B2; CA3075249A1; US11600270B2; CN111052231B; CN111052231A

Abstract

本技術は、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにする情報処理装置、及び情報処理方法に関する。コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、コンテンツのオーディオストリームに挿入する挿入部を備える第１の情報処理装置と、コンテンツのオーディオストリームから、挿入されたトークンを検出する検出部を備える第２の情報処理装置が提供されることで、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。本技術は、例えば、音声AIアシスタンスサービスと連携したシステムに適用することができる。

Description

情報処理装置、及び情報処理方法

　本技術は、情報処理装置、及び情報処理方法に関し、特に、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにした情報処理装置、及び情報処理方法に関する。

　近年、音声AIアシスタンスサービスが急速に普及している。例えば、音声AIアシスタンスサービスを利用することで、エンドユーザが、「ここどこですか？」と質問したとき、エンドユーザの現在位置に基づき、「セントラルパークにいます。」という回答が返ってくる（例えば、特許文献１参照）。

特開２０１６－４２７０号公報

　ところで、テレビ受像機やモバイル受信機などの受信機で再生されるコンテンツに連携して、音声AIアシスタンスサービスを利用したいという要求がある。しかしながら、そのような技術方式は確立されておらず、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させるための技術が求められていた。

　本技術はこのような状況に鑑みてなされたものであり、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。

　本技術の第１の側面の情報処理装置は、コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える情報処理装置である。

　本技術の第１の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第１の側面の情報処理方法は、上述した本技術の第１の側面の情報処理装置に対応する情報処理方法である。

　本技術の第１の側面の本技術の一側面の情報処理装置、及び情報処理方法においては、コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンが、前記コンテンツのオーディオストリームに挿入される。

　本技術の第２の側面の情報処理装置は、コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える情報処理装置である。

　本技術の第２の側面の情報処理装置は、独立した装置であってもよいし、１つの装置を構成している内部ブロックであってもよい。また、本技術の第２の側面の情報処理方法は、上述した本技術の第２の側面の情報処理装置に対応する情報処理方法である。

　本技術の第２の側面の本技術の一側面の情報処理装置、及び情報処理方法においては、コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンが検出される。

　本技術の第１の側面及び第２の側面によれば、コンテンツに連携して利用される音声AIアシスタンスサービスの利便性を向上させることができる。

　なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本技術を適用したコンテンツ・音声AI連携システムの構成例を示すブロック図である。ベースバンドストリームに、オーディオウォータマークとして埋め込まれる音声認識処理禁止トークンの例を示す図である。第１の実施の形態のコンテンツ・音声AI連携システムの構成の第１の例を示すブロック図である。ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。視聴者発話に応じた音声AI処理の流れを説明するフローチャートである。音声AIアシスタンスサービスの利用の確認メッセージの例を示す図である。第１の実施の形態のコンテンツ・音声AI連携システムの構成の第２の例を示すブロック図である。ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれるサービス引き渡しパラメタの例を示す図である。 Message要素に格納されるメッセージの例を示す図である。 Message要素に格納されるメッセージに対し、XML署名を適用した場合の例を示す図である。第２の実施の形態のコンテンツ・音声AI連携システムの構成の第１の例を示すブロック図である。ウェイクワードの発話を促す発話指示メッセージの例を示す図である。ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明するフローチャートである。第２の実施の形態のコンテンツ・音声AI連携システムの構成の第２の例を示すブロック図である。ウェイクワードの発話を促す発話指示メッセージの例を示す図である。ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明するフローチャートである。ウォータマークを挿入しないと仮定した場合の発話指示メッセージの例を示す図である。ウォータマークを挿入しないと仮定した場合の発話指示メッセージの例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照しながら本技術の実施の形態について説明する。なお、説明は以下の順序で行うものとする。

１．システムの構成
２．本技術の実施の形態
（１）第１の実施の形態：WMによる音声AIアシスタンス認識対象選別
　（Ａ）ウォータマークの挿入を送信側で行う構成
　（Ｂ）ウォータマークの挿入を受信側で行う構成
（２）第２の実施の形態：WMによる音声AIアシスタンスへの発話補完
　（Ｃ）ウォータマークの挿入を送信側で行う構成
　（Ｄ）ウォータマークの挿入を受信側で行う構成
３．変形例
４．コンピュータの構成

＜１．システムの構成＞

　近年、音声AIアシスタンスサービスが急速に普及している。この種のサービスでは、音声検出や収音機能を有するデバイス（例えば、スマートスピーカ等）や、マイク機能を有するモバイルデバイス（例えば、スマートフォンやタブレット型のコンピュータ等）により実行されるアプリケーションで検出又は収音したオーディオデータに基づいた音声認識が行われる。そして、このようにして得られる音声認識に基づき、エンドユーザの質問などに返答したりすることになる。

　例えば、代表的な音声AIアシスタンスサービスである、Amazon Echo（登録商標）に搭載されているAlexa（登録商標）には、２つのフレームワークがあり、１つが、音声認識や自然言語解析等を行うAlexa Voice Service(AVS)で、もう１つが、様々な別の機能をスキル（Skill）という形で、パッケージングして、Alexa Serviceと繋げるAlexa Skills Kit(ASK)である。

　ここで、Alexa Skills Kitは、例えば、どのような音声に反応するのか、どのような単語をパラメタにしてどの機能を実行するのか、あるいは、返ってきた答えをどのように、Alexaに戻すのかなどを定義したパッケージやAPI(Application Programming Interface)群であって、そのうち、実際に実行される部分を、スキル（Skill）と呼ぶ。

　例えば、スマートスピーカ等の音声検出や収音機能を有するローカル側のデバイスに向けて、エンドユーザが、以下のような言葉を投げかけた場合を想定する。

　「Alexa, ask Anime Facts for a fact」

　最初の「Alexa」である単語は、ウェイクワード（Wake Word）と呼ばれ、ローカル側のデバイスのマイクロフォンがこの言葉を検出すると、クラウド側のサーバと通信を開始し、以降の言葉が、オーディオデータとして、クラウド側のサーバに送られる。次の「ask」である単語は、起動フレーズ（Launchフレーズ）と呼ばれ、この次にくる単語が、スキル名であることを、クラウド側のサーバに伝えるものである。この例では、「Anime Facts」がスキル名とされる。

　なお、起動フレーズは、「ask」以外にも、例えば、「tell」や「launch」,「load」,「begin」,「open」,「start」等があり、これらの単語を、スキル名に使うことはできない。この他に、接続詞を用いてスキル名を示す方法もある。例えば、上述の例で言えば、「Alexa, can you give me a fact from Anime Facts」と呼びかけた場合も、「from」である単語を認識することで、その後ろの「Anime Facts」が、スキル名であると判断することができる。

　最後の「for a fact」は、Utteranceと言われ、Alexa Skills Kitによって、Utteranceと実際に実行される処理や手続、関数の対応関係が設定される。つまり、ここで、「for a fact」と言うことによって、「for a fact」というUtteranceが、どの処理や手続、関数と結び付くのかを、クラウド側のサーバが判断する。

　「ask Anime Facts for a fact」は、「アニメの豆知識的なものを教えてほしい」という意味なので、「fact」が、「trivia」等でも、同じ意味であると解釈して、クラウド側のサーバは、「for a fact」というUtteranceが設定されているところと同じ処理や続き、関数を起動する。この処理の内容として、例えば、アニメの豆知識の内容をオーディオデータとして、ローカル側のデバイスに返すようにしておくことで、ローカル側のデバイスを介して、エンドユーザに、その内容を音声で伝えることができる。

　本技術は、このような音声AIアシスタンスサービスを、CMや番組等のコンテンツに連動して利用するに際して、音声AIアシスタンスサービスの利便性を向上させることができるようにするものである。

（コンテンツ・音声AI連携システムの構成例）
　図１は、本技術を適用したコンテンツ・音声AI連携システムの構成例を示すブロック図である。

　図１のコンテンツ・音声AI連携システム１は、コンテンツを配信するためのシステムであって、配信されたコンテンツと連携して音声AIアシスタンスサービスを利用することが可能である。

　図１において、コンテンツ・音声AI連携システム１は、サーバ装置１０、放送システム１１、ネット配信システム１２、クライアント装置２０、音声処理装置３０、及びサーバ装置４０から構成される。また、図１において、視聴者宅に設置されるクライアント装置２０と音声処理装置３０は、インターネット５０を介して、ネット配信システム１２や、データセンタ等に設置されるサーバ装置４０と接続可能であって、各種のデータをやり取りすることができる。

　サーバ装置１０は、配信対象のコンテンツを蓄積している。ここで、配信対象のコンテンツは、例えば、CMや番組等のコンテンツである。なお、番組には、例えば、ドラマやニュース、ショッピングチャンネル、アニメ、スポーツ等の番組を含む。

　サーバ装置１０は、配信対象のコンテンツのストリームを処理し、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２に供給する。

　放送システム１１は、１又は複数の放送サーバ等から構成される。放送システム１１は、サーバ装置１０から供給されるコンテンツに対して、所定の放送方式に応じた処理（例えば変調処理等）を施し、その結果得られるデータを、放送波として、送信所に設けられたアンテナから送出する。

　ネット配信システム１２は、１又は複数の通信サーバ等から構成される。ネット配信システム１２は、サーバ装置１０から供給されるコンテンツに対して、所定の通信方式に応じた処理を施し、その結果得られるデータ（パケット）を、インターネット５０を介して配信（ストリーミング配信）する。

　クライアント装置２０は、例えば、テレビ受像機やパーソナルコンピュータなどの固定受信機、あるいはスマートフォンや携帯電話機、タブレット型コンピュータなどのモバイル受信機として構成される。

　クライアント装置２０は、放送システム１１から送信されてくる放送波を受信して処理することで、コンテンツを再生し、CMや番組等の映像と音声を出力する。また、クライアント装置２０は、インターネット５０を介してネット配信システム１２から配信されるデータを受信して処理することで、コンテンツを再生し、CMや番組等の映像と音声を出力する。

　音声処理装置３０は、例えば、家庭内LAN(Local Area Network)等のネットワークに接続可能なスピーカであって、スマートスピーカやホームエージェントなどとも称される。この種のスピーカは、音楽の再生のほか、例えば、音声AIアシスタンスサービスのユーザインターフェースとして機能したり、あるいは、照明器具や空調設備などの機器に対する音声操作を行ったりすることができる。

　音声処理装置３０は、単独で、又はクラウド側のサーバ装置４０と連携することで、エンドユーザ（コンテンツの視聴者）に対し、音声AIアシスタンスサービスを提供することができる。

　ここで、音声AIアシスタンスサービスとは、例えば、音声認識処理や自然言語解析処理等の処理を組み合わせて、エンドユーザの問いかけや要求に対し、適切に回答したり、動作したりする機能やサービスのことをいう。

　この音声AIアシスタンスサービスを提供するための機能としては、例えば、収音モジュールや音声認識モジュールなどがあるが、それらの機能のすべてが、ローカル側の音声処理装置３０に実装されるようにしてもよいし、それらの機能の一部が、クラウド側のサーバ装置４０に実装されるようにしてもよい。

　サーバ装置４０は、データセンタ等に設置され、音声AIアシスタンスサービスを提供するための機能や、各種のデータベースなどを有している。サーバ装置４０は、音声処理装置３０からの要求に応じて、音声AIアシスタンスサービスに関する処理を行い、その処理結果を、インターネット５０を介して、音声処理装置３０に返答する。

　コンテンツ・音声AI連携システム１は、以上のように構成される。

　なお、図１のコンテンツ・音声AI連携システム１においては、視聴者宅で、１台のクライアント装置２０（例えばテレビ受像機）と、１台の音声処理装置３０（例えば、スマートスピーカ）とが設置される場合を図示しているが、例えば、視聴者宅ごとに、クライアント装置２０と音声処理装置３０をそれぞれ設置することができる。また、視聴者宅において、クライアント装置２０と音声処理装置３０は、同一の部屋に設置されることが想定されるが、異なる部屋に設置してもよい。

　また、図１のコンテンツ・音声AI連携システム１においては、１台のサーバ装置１０と、１台のサーバ装置４０とが設けられた場合を図示しているが、これらのサーバ装置は、例えば機能や事業者ごとに、複数台設けるようにしてもよい。

　なお、以下の説明では、送信側（放送局側）に設けられるサーバ装置１０に対し、クライアント装置２０は、受信側（視聴者側）に設けられるとして説明する。また、クラウド側に設けられるサーバ装置４０に対し、音声処理装置３０は、ローカル側に設けられるとして説明する。

＜２．本技術の実施の形態＞

（１）第１の実施の形態

　例えば、テレビ受像機等のクライアント装置２０で再生される、XYZであるハンバーガーチェーン店のCM等で、そのCMの内容、例えば、"XYZバーガー"のCMを補完するような「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声メッセージを、CMの音声の中で、故意に流して、音声AIアシスタンスサービスに、この質問に強制的に返答させるという使い方をする場合を想定する。

　なお、ここでは、CMの音声に限らず、例えば、CMに関連付けられて放送提供されるアプリケーション等によって行われる場合も含まれる。また、ここでの「故意」とは、視聴者の同意がないことを意味する。

　このような使い方としては、例えば、次のような意図（事故的なものも含む）が想定される。

　すなわち、第１に、CMの内容では伝えきれない情報を、音声AIアシスタンスサービス経由で伝えるためであったり、第２に、視聴者に対し、その視聴者が後でそのCMで流された商品の内容を、音声AIアシスタンスサービス経由で知りたいと思うときに、音声AIアシスタンスサービスに対してどのように発話（質問）したらよいのかを知らせるためであったりする。なお、前者のCMの内容は、何らかのオーソリティや検閲機関等によって、オーソライズされた内容とされる。

　さらに、第３に、音声AIアシスタンスサービス側で管理しているかもしれない視聴者のプロファイル情報（嗜好情報）に、このCMの内容に関心があると記憶させるためであったり、第４に、悪意のある放送番組やアプリケーションが、その放送の同期型一斉同報配信特性を利用した音声AIアシスタンスサービスへのDoS攻撃(Denial of Service attack)のためであったりなど、様々な意図が想定される。

　ただし、このCMの音声と、音声AIアシスタンスサービスとのやりとりは、視聴者の合意なしに行われるため、視聴者にとってはそこまで詳しく知りたくもない情報を、音声AIアシスタンスサービスが解説するのは、余計なお世話となる可能性がある（可能性が高い）。また、勝手に視聴者のプロファイル情報に、このCMの内容に関心があると記憶されるのも、視聴者にとっては迷惑になる可能性がある（可能性が高い）。

　このような視聴者不在の音声AIアシスタンスサービス連携（いわば、ただ乗り）が頻繁に行われるのを防ぐために、音声AIアシスタンスサービス側としては、エンドユーザが発話した質問の内容だけに反応するように制限したい場合がある。

　このような場合の対処方法としては、例えば、エンドユーザの音声モデルを事前に登録して会話の発話ユーザを特定する（認識対象音声ユーザの質問を特定する）という方法があるが、そういった発話者特定機能のない音声AIアシスタンスサービスでは、CMの音声を認識しても、その質問に反応しないようにするため、反応してはいけない質問のリストを、ブラックリスト（例えばテキスト文字列のリスト）として管理するという方法をとることが考えられる。

　例えば、上述した例でいえば、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である質問が検出されても、対応処理をしないようにするために、当該質問を含むブラックリストを管理することになる。

　ただし、この方法であると、管理対象のブラックリストが膨大になる可能性があり、そのブラックリストを、ある期間内又は未来永劫にわたって保持し、すべての質問に対して即座にマッチング評価（例えば、リアルタイムのデータベース検索等）しなければならず、現実的ではない。なお、ここでのブラックリストの保持期間は、例えば、エンドユーザから質問が投げられる可能性がある期間を意味する。

　同様に、反応しても構わない質問のリストを、ホワイトリスト（例えばテキスト文字列のリスト）として管理するという方法をとることも想定されるが、この場合にも、ホワイトリストが膨大になる可能性があり、非現実的である。

　なお、上述の会話の発話ユーザを特定する方法は、例えば、音声AIアシスタンスサービスの他の代表例であるGoogle Home（登録商標）で実装されている。

　本技術では、第１の実施の形態として、コンテンツに連携した音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンを、オーディオウォータマークとして、コンテンツのオーディオストリームに挿入することを提案する。

　すなわち、第１の実施の形態では、音声AIアシスタンスサービスの収音デバイスとして、ローカル側に設けられる音声処理装置３０、又は収音されたオーディオストリームを解析するクラウド側に設けられるサーバ装置４０に、ウォータマーク検出機能を実装する。

　これによって、あるトークン（音声認識処理禁止トークン）が、オーディオウォータマークとして、収音された音声に含まれる場合には、そのオーディオストリームの音声認識結果に基づいた後続の処理を継続することができないもの、とみなすようにする。

　なお、オーディオウォータマークには、様々な方式があるが、必要十分なトークンが対象のオーディオストリームに重畳できるものであれば、方式を問わない。

（音声認識処理禁止トークンの例）
　図２は、ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれる音声認識処理禁止トークンの例を示す図である。

　例えば、あるCMや番組（又はその一部）のオーディオストリームの中に、音声AIアシスタンスサービスの音声認識処理を行った後に正当な音声認識結果として後続の処理に渡してはならない音声が含まれている場合を想定する。

　この場合に、送信側（放送局側）のサーバ装置１０では、すべてのオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、オーディオWM挿入モジュールによって、トークンジェネレータにより生成されたトークン（音声認識処理禁止トークン）を、オーディオウォータマークとして、そのベースバンドのオーディオストリームに挿入する。

　なお、オーディオウォータマークとして挿入される音声認識処理禁止トークンは、送信側のサーバ装置１０に限らず、受信側のクライアント装置２０にて挿入することも可能となるため、以下、オーディオウォータマークの挿入を、送信側で行う構成と、受信側で行う構成について、それぞれ説明する。

（Ａ）ウォータマークの挿入を送信側で行う構成

（システム構成例）
　図３は、第１の実施の形態のコンテンツ・音声AI連携システム１の構成の第１の例を示すブロック図である。

　図３のコンテンツ・音声AI連携システム１は、サーバ装置１０Ａ、クライアント装置２０Ａ、及び音声処理装置３０Ａを含んで構成される。

　なお、以下の説明では、CMや番組等のコンテンツを構成するコンポーネントのうち、オーディオストリームに対する処理を中心に説明するが、サーバ装置１０Ａやクライアント装置２０Ａ等では、ビデオストリームに対する処理も行われている。

　図３において、サーバ装置１０Ａは、CM/番組バンク１０１、オーディオデコーダ１０２、トークンジェネレータ１０３、オーディオWM挿入モジュール１０４、及びオーディオエンコーダ１０５を含んで構成される。

　CM/番組バンク１０１は、CMや番組等の多数のコンテンツを蓄積している。CM/番組バンク１０１は、配信対象のCM又は番組のストリーム（以下、CM/番組ストリームと記述する）のうち、CM又は番組のオーディオストリーム（以下、CM/番組オーディオストリームと記述する）を、オーディオデコーダ１０２に供給する。

　なお、このCM/番組オーディオストリームから得られる音声には、音声認識処理が禁止されるべき音声が含まれている可能性があるものとする。

　オーディオデコーダ１０２は、CM/番組バンク１０１から供給されるCM/番組オーディオストリームをデコードし、そのデコードの結果得られるベースバンドのCM/番組オーディオストリームを、オーディオWM挿入モジュール１０４に供給する。

　トークンジェネレータ１０３は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成し、オーディオWM挿入モジュール１０４に供給する。また、音声認識処理禁止トークンは、音声処理装置３０ＡのオーディオWM検出モジュール３０２に対して通知される。

　ここで、トークン生成用データは、例えば、XYZであるハンバーガーチェーン店のCMの中で、特定の音声が流れても、その質問に反応しないようするためのトークンなどを生成するためのデータであって、例えば、放送局や音声AIアシスタンスサービスのエンティティ、その他の事業者の決定に応じたものなどとされる。

　また、音声認識処理禁止トークンの通知方法であるが、インターネット５０を介して、通信経由で通知するほか、例えば、放送経由で通知したり、あるいは、半導体メモリや光ディスクなどの記録媒体に音声認識処理禁止トークンを記録して提供することで、音声処理装置３０Ａに読み込ませたりするなど、様々な方法を採用することができる。

　要は、トークンジェネレータ１０３により生成された音声認識処理禁止トークンが、音声処理装置３０ＡのオーディオWM検出モジュール３０２に対して通知されればよいのであって、その通知の方法は、任意である。

　オーディオWM挿入モジュール１０４は、オーディオデコーダ１０２から供給されるベースバンドのCM/番組オーディオストリームに対し、トークンジェネレータ１０３から供給される音声認識処理禁止トークンを、オーディオウォータマークとして挿入（エンコード）し、オーディオエンコーダ１０５に供給する。

　オーディオエンコーダ１０５は、オーディオWM挿入モジュール１０４から供給されるベースバンドのCM/番組オーディオストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）をエンコードする。

　そして、サーバ装置１０Ａは、オーディオエンコーダ１０５によるエンコードの結果得られるCM/番組オーディオストリームを、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２に送出する。

　放送システム１１は、サーバ装置１０Ａから送出されたCM/番組ストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）を処理し、その処理の結果得られるデータを、放送波として送出する。

　ネット配信システム１２は、サーバ装置１０Ａから送出されたCM/番組ストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）を処理し、その処理の結果得られるデータ（パケット）を、インターネット５０を介して配信する。

　クライアント装置２０Ａは、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームを受信する。図３において、クライアント装置２０Ａは、オーディオデコーダ２０１、及びオーディオスピーカ２０２を含んで構成される。

　オーディオデコーダ２０１は、放送システム１１又はネット配信システム１２から受信したCM/番組オーディオストリームをデコードし、その結果得られるベースバンドのCM/番組オーディオストリームを、オーディオスピーカ２０２に供給する。

　オーディオスピーカ２０２は、オーディオデコーダ２０１から供給されるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。

　なお、ここでは、CM/番組オーディオストリームについてのみ述べているが、クライアント装置２０Ａでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像が、ディスプレイに表示される。

　図３において、音声処理装置３０Ａは、音声AIアシスタンスサービスの機能として、収音モジュール３０１、オーディオWM検出モジュール３０２、音声認識モジュール３０３とを含んでいる。また、収音モジュール３０１は、オーディオマイク３１１を含んでいる。

　すなわち、音声処理装置３０Ａにおいて、収音モジュール３０１のオーディオマイク３１１と、オーディオWM検出モジュール３０２と、音声認識モジュール３０３とが、クライアント装置２０Ａからの音声入力又は視聴者２からの音声入力に応じた系列を構成している。

　なお、上述したように、オーディオWM検出モジュール３０２は、サーバ装置１０Ａ（のトークンジェネレータ１０３）から通知される音声認識処理禁止トークンを、あらかじめ保持している。

　オーディオマイク３１１は、クライアント装置２０Ａのオーディオスピーカ２０２から出力された音声を収音し、その結果得られるオーディオストリームを、オーディオWM検出モジュール３０２及び音声認識モジュール３０３に供給する。

　オーディオWM検出モジュール３０２は、オーディオマイク３１１から供給されるオーディオストリームに挿入されているオーディオウォータマークの検出を行い、オーディオウォータマークとして、サーバ装置１０Ａから通知された音声認識処理禁止トークンが挿入されているかどうかを判定する。

　音声認識モジュール３０３は、オーディオマイク３１１から供給されるオーディオストリームに対する音声認識処理を行う。

　音声認識モジュール３０３は、オーディオWM検出モジュール３０２により、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合、音声認識結果を、後続の処理を行う後続処理部に供給する。この場合、後続処理部は、音声認識モジュール３０３から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行う。

　また、音声認識モジュール３０３は、オーディオWM検出モジュール３０２により、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合、音声認識結果を、後続処理部には渡さないようにする。

　また、オーディオマイク３１１は、視聴者２の発話の音声を収音し、その結果得られるオーディオストリームを、オーディオWM検出モジュール３０２及び音声認識モジュール３０３に供給する。

　ここで、視聴者２の発話の音声に応じたオーディオストリームには、オーディオウォータマークが挿入されることはないので、オーディオWM検出モジュール３０２は、常に、音声認識処理禁止トークンが挿入されていないと判定する。

　音声認識モジュール３０３は、オーディオWM検出モジュール３０２により、常に、音声認識処理禁止トークンが挿入されていないと判定されるため、音声認識結果を、後続の処理を行う後続処理部に供給する。そのため、常に、後続処理部は、音声認識モジュール３０３から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行うことになる。

　なお、図３においては、説明の都合上、ローカル側の音声処理装置３０Ａが、音声AIアシスタンスサービスのすべての処理を行うとしたが、音声AIアシスタンスサービスの一部の処理を、クラウド側のサーバ装置４０が行うようにしてもよい。

　例えば、ローカル側の音声処理装置３０Ａが、収音モジュール３０１の機能を有し、クラウド側のサーバ装置４０が、オーディオWM検出モジュール３０２と、音声認識モジュール３０３と、後続処理部の機能を有する場合には、音声処理装置３０Ａとサーバ装置４０とが連携することで、音声AIアシスタンスサービスが実現されることになる。

　また、音声認識処理禁止トークンは、例えば、XYZであるハンバーガーチェーン店のCMの中で、特定の音声が流れても、その質問に反応しないようするためのトークンなど、基本的には１種類で十分であるが、必要に応じて数種に限定して運用するようにしてもよい。

（コンテンツ・音声AI連携処理の流れ）
　次に、図４乃至図５のフローチャートを参照して、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。

　なお、図４は、サーバ装置１０Ａと、放送システム１１又はネット配信システム１２により実行される送信側の処理の流れを示すフローチャートである。一方で、図５は、クライアント装置２０Ａと音声処理装置３０Ａにより実行される受信側の処理の流れを示すフローチャートである。

　ステップＳ１０１において、CM/番組バンク１０１は、そこに蓄積されているCM/番組のストリームを送出する。ここでは、CM/番組オーディオストリームが、オーディオデコーダ１０２に送出される。

　ステップＳ１０２において、トークンジェネレータ１０３は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成する。

　ここで、音声認識処理禁止トークンとしては、例えば、XYZであるハンバーガーチェーン店のCMの中で、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声が流れても、その質問に反応しないようするためのトークンなどが生成される。また、音声認識処理禁止トークンは、音声処理装置３０のオーディオWM検出モジュール３０２に対し、通信経由などで、あらかじめ通知されるようにする。

　ステップＳ１０３において、オーディオデコーダ１０２は、ステップＳ１０１の処理で送出されるCM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。

　ステップＳ１０５において、オーディオWM挿入モジュール１０４は、ステップＳ１０３の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップＳ１０２の処理で得られる音声認識処理禁止トークンを、オーディオウォータマークとして挿入（エンコード）する。

　ステップＳ１０４において、オーディオエンコーダ１０５は、ステップＳ１０５の処理で得られる、オーディオウォータマークが挿入されたベースバンドのCM/番組オーディオストリームをエンコードする。

　なお、ここでは、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、サーバ装置１０Ａでは、必要に応じて、CM/番組ビデオストリーム等の他のストリームと多重化されて処理される。

　このようにして、サーバ装置１０Ａで得られるCM/番組ストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）は、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２に送出される。

　すなわち、CM/番組ストリームを放送経由で配信する場合、放送システム１１は、サーバ装置１０Ａから送出されるCM/番組ストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）を処理し、その処理の結果得られるデータを、放送波として送出する。

　また、CM/番組ストリームを通信経由で配信する場合、ネット配信システム１２は、サーバ装置１０Ａから送出されるCM/番組ストリーム（送信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）を処理し、その処理の結果得られるデータを、インターネット５０を介して配信する。

　このように、図４において、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームは、図５において、クライアント装置２０Ａにより受信される。クライアント装置２０Ａでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ２０１に入力される。

　なお、クライアント装置２０Ａでは、オーディオスピーカ２０２から出力される音量が十分なものとなるように、オーディオスピーカ２０２のオーディオ出力音量を調整する（Ｓ２０１）。ここでは、音声処理装置３０Ａに内蔵されたオーディオマイク３１１により収音可能なレベルになるように、オーディオスピーカ２０２を制御する。

　そのため、必要であれば、クライアント装置２０Ａは、視聴者２に対し、音量調整（音量アップ）の指示を行う。この指示は、例えば、オーディオスピーカ２０２からの音声により行ってもよいし、あるいはその旨のメッセージが画面上に提示されるようにしてもよい。

　ステップＳ２０２において、オーディオデコーダ２０１は、CM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。

　ステップＳ２０３において、オーディオスピーカ２０２は、ステップＳ２０２の処理で得られるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。

　なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置２０Ａでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像が、ディスプレイに表示される。

　クライアント装置２０Ａのオーディオスピーカ２０２から出力された音声は、音声処理装置３０Ａのオーディオマイク３１１により収音される。

　そして、オーディオマイク３１１により収音された音声に応じたオーディオストリームは、オーディオWM検出モジュール３０２及び音声認識モジュール３０３に供給される。なお、オーディオWM検出モジュール３０２には、通信経由などで、あらかじめ音声認識処理禁止トークンが、サーバ装置１０Ａから通知されているものとする。

　ステップＳ３０１において、オーディオWM検出モジュール３０２は、オーディオマイク３１１により収音された音声（クライアント装置２０Ａから出力された音声）に応じたオーディオストリームに挿入されているオーディオウォータマークを検出する。

　ステップＳ３０２において、音声認識モジュール３０３は、オーディオマイク３１１により収音された音声（クライアント装置２０Ａから出力された音声）に応じたオーディオストリームに対する音声認識処理を行う。

　ステップＳ３０１，Ｓ３０２の処理が終了すると、処理は、ステップＳ３０３に進められる。ステップＳ３０３において、オーディオWM検出モジュール３０２は、ステップＳ３０１の処理で得られる検出結果に基づいて、オーディオストリームに挿入されているオーディオウォータマークとして、サーバ装置１０Ａから通知されている音声認識処理禁止トークンが挿入されているかどうかを判定する。

　ステップＳ３０３において、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合、処理は、ステップＳ３０４の処理に進められる。ステップＳ３０４において、音声認識モジュール３０３は、ステップＳ３０３の処理の判定結果に従い、ステップＳ３０２の処理で得られる音声認識結果を、後続の処理に渡すようにする。

　一方で、ステップＳ３０３において、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合、ステップＳ３０４の処理は、スキップされる。すなわち、この場合には、オーディオストリームの音声認識結果を無効であるとみなして、音声認識結果を後続の処理に渡さないようにする（音声認識結果を破棄する）。

　このように、音声処理装置３０Ａでは、オーディオストリームに、音声認識処理禁止トークンが挿入されている場合には、当該オーディオストリームの音声認識結果が無効とされるため、例えば、XYZであるハンバーガーチェーン店のCMの中で、「Service A, ask Hamburger restaurant XYZ "What's XYZ Burger"」である音声が流れても、音声認識処理禁止トークンとして管理しておけば、音声AIアシスタンスサービスで、CMの音声を認識しても、その質問に反応しないようにすることができる。

　以上、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。

（視聴者発話に応じた音声AI処理の流れ）
　次に、図６のフローチャートを参照して、視聴者発話に応じた音声AI処理の流れを説明する。

　視聴者２が発話を行う（Ｓ１１）と、音声処理装置３０Ａでは、次のような処理が行われる。すなわち、視聴者２の発話の音声は、音声処理装置３０Ａのオーディオマイク３１１により収音される。

　そして、オーディオマイク３１１により収音された音声（視聴者２が発話の音声）に応じたオーディオストリームは、オーディオWM検出モジュール３０２及び音声認識モジュール３０３に供給される。なお、オーディオWM検出モジュール３０２には、あらかじめ音声認識処理禁止トークンが、サーバ装置１０Ａから通知されているものとする。

　ステップＳ３０６において、オーディオWM検出モジュール３０２は、オーディオマイク３１１により収音された音声に応じたオーディオストリームに対し、オーディオウォータマークの検出を行う。

　しかしながら、視聴者２の発話の音声に応じたオーディオストリームには、オーディオウォータマークが挿入されていないので、オーディオWM検出モジュール３０２は、音声認識処理禁止トークンを検出することはできない。

　ステップＳ３０７において、音声認識モジュール３０３は、オーディオマイク３１１により収音された音声に応じたオーディオストリームに対する音声認識処理を行う。

　ステップＳ３０６，Ｓ３０７の処理が終了すると、処理は、ステップＳ３０８に進められる。ステップＳ３０８において、音声認識モジュール３０３は、オーディオストリームには常に、音声認識処理禁止トークンが挿入されていないので、オーディオストリームの音声認識結果を有効であるとみなして、後続の処理に渡すようにする。

　このように、視聴者２が発話した場合には、音声認識処理禁止トークンが検出されることはないので、音声認識モジュール３０３による音声認識結果は有効になって、常に、後続の処理が行われることになる。以上、視聴者発話に応じた音声AI処理の流れについて説明した。

　なお、上述したウォータマークの挿入を送信側で行う構成において、トークンのバリエーションとしては、強制的に、音声認識結果の処理プロセスを無効にするばかりでなく、例えば、一度、視聴者２の意向を打診するようなトークンとすることもできる。すなわち、ここでは、トークンを２種類用意して、１つは強制的に、音声認識結果の処理プロセスを無効とするトークンであるものとし、もう１つは、音声認識結果の処理プロセスを無効とする直前に、処理プロセスにかけてもよいかについて、視聴者２に打診させるトークンである。

　そして、音声AIアシスタンスサービスのオーディオWM検出モジュール３０２において、後者のトークンが検出された場合には、例えば、「このCMの音声による音声AIアシスタンスサービスの勝手利用を許可してもいいですか」のような確認メッセージを音声によって、音声処理装置３０Ａから出力することで、視聴者２の意向を確認する。

　この確認メッセージに対して、視聴者２が、「はい」と発話した場合には、音声認識結果の処理プロセスを有効であるとして、音声認識結果を後続の処理に渡すようにする。一方で、視聴者２が、「いいえ」と発話した場合には、音声認識結果の処理プロセスを無効であるとして、音声認識結果を後続の処理に渡さないようにする。

（Ｂ）ウォータマークの挿入を受信側で行う構成

　上述した説明では、ウォータマークを挿入する処理を送信側（放送局側）のサーバ装置１０で行う場合を説明したが、受信側のクライアント装置２０（例えばテレビ受像機）で行うようにしてもよい。ウォータマークを挿入する処理を受信側のクライアント装置２０で行う場合には、例えば、放送付随の放送アプリケーション等のアプリケーションを実行することで、実現することができる。

　ここで、送信側のサーバ装置１０で、ウォータマークを挿入する処理を行う場合には、すべての視聴者に対して、同一の音声（例えばCMや番組の音声）が送られるため、視聴者個別の意向を酌んだ制御を行うことはできないが、受信側のクライアント装置２０で、アプリケーションを実行して、ウォータマークを挿入する処理を行うという構成をとることにより、例えば、次のようなことが実現可能とされる。

　すなわち、音声AIアシスタンスサービスの音声認識結果の処理プロセスの継続可否に、視聴者の意向を反映させて、パーソナライズすることができる。ここで、視聴者の意向は、例えば、図７に示すような確認メッセージを表示させることで確認することができる。

　図７においては、確認メッセージ２５１として、「このCMの音声による音声AIアシスタンスサービスの勝手利用を許可してもいいですか？」が表示されている。この確認メッセージ２５１に対し、視聴者は、勝手利用を許可してもいい場合には、「OKボタン」を操作することで、オーディオウォータマークを挿入する処理は行われないことになる。一方で、視聴者は、勝手利用を許可しない場合には、「NGボタン」を操作することで、オーディオウォータマークを挿入する処理が行われることになる。

　以下、ウォータマークの挿入を受信側のクライアント装置２０で行う場合の構成と処理の流れを示す。

（システム構成例）
　図８は、第１の実施の形態のコンテンツ・音声AI連携システム１の構成の第２の例を示すブロック図である。

　図８のコンテンツ・音声AI連携システム１は、サーバ装置１０Ｂ、クライアント装置２０Ｂ、及び音声処理装置３０Ｂを含んで構成される。

　なお、図８のコンテンツ・音声AI連携システム１の構成において、上述した図３のコンテンツ・音声AI連携システム１の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。

　図８において、サーバ装置１０Ｂは、CM/番組バンク１０１、トークンジェネレータ１０３、及びアプリケーションジェネレータ１１１を含んで構成される。

　すなわち、図８のサーバ装置１０Ｂは、図３のサーバ装置１０Ａと比べて、オーディオデコーダ１０２、オーディオWM挿入モジュール１０４、及びオーディオエンコーダ１０５の代わりに、アプリケーションジェネレータ１１１が新たに設けられている。

　アプリケーションジェネレータ１１１は、アプリ生成用データに基づいて、アプリケーションを生成する。また、アプリケーションジェネレータ１１１は、アプリケーションを生成する際に、トークンジェネレータ１０３により生成された音声認識処理禁止トークンを、ハードコードで埋め込むようにする。

　そして、サーバ装置１０Ｂは、アプリケーションジェネレータ１１１により生成されるアプリケーションを、アプリケーションの配信方式に応じて、放送システム１１又はネット配信システム１２に送出する。

　放送システム１１は、サーバ装置１０Ｂから送出されたCM/番組ストリーム、及びアプリケーションの少なくとも一方のデータを、放送波として送出する。また、ネット配信システム１２は、サーバ装置１０Ｂから送出されたCM/番組ストリーム、及びアプリケーションの少なくとも一方のデータを、インターネット５０を介して配信する。

　クライアント装置２０Ｂは、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームとアプリケーションを受信する。図８において、クライアント装置２０Ｂは、オーディオデコーダ２０１、オーディオスピーカ２０２、アプリケーション実行環境２１１、及びオーディオWM挿入モジュール２１２を含んで構成される。

　すなわち、図８のクライアント装置２０Ｂは、図３のクライアント装置２０Ａと比べて、アプリケーション実行環境２１１とオーディオWM挿入モジュール２１２が新たに設けられている。

　アプリケーション実行環境２１１は、放送システム１１又はネット配信システム１２から受信したアプリケーションを実行する。ここで、アプリケーションには、音声認識処理禁止トークンがハードコードで埋め込まれているため、アプリケーション実行環境２１１は、音声認識処理禁止トークンを取得し、オーディオWM挿入モジュール２１２に供給する。

　オーディオWM挿入モジュール２１２は、オーディオデコーダ２０１から供給されるベースバンドのCM/番組オーディオストリームに対し、アプリケーション実行環境２１１から供給される音声認識処理禁止トークンを、オーディオウォータマークとして挿入（エンコード）し、オーディオスピーカ２０２に供給する。

　オーディオスピーカ２０２は、オーディオWM挿入モジュール２１２から供給されるベースバンドのCM/番組オーディオストリーム（受信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）に応じた音声を出力する。

　なお、図８の音声処理装置３０Ｂは、図３の音声処理装置３０Ａと同様の構成を有しているため、ここではその説明を省略する。ただし、ローカル側の音声処理装置３０Ｂは、クラウド側のサーバ装置４０と連携することで、音声AIアシスタンスサービスの一部の処理が、サーバ装置４０により行われるようにしてもよい。

（コンテンツ・音声AI連携処理の流れ）
　次に、図９乃至図１０のフローチャートを参照して、ウォータマークの挿入を受信側で行う場合のCM/番組・音声AI連携の流れを説明する。

　なお、図９は、サーバ装置１０Ｂと、放送システム１１又はネット配信システム１２により実行される送信側の処理の流れを示すフローチャートである。一方で、図１０は、クライアント装置２０Ｂと音声処理装置３０Ｂにより実行される受信側の処理の流れを示すフローチャートである。

　ステップＳ１１１において、CM/番組バンク１０１は、そこに蓄積されているCM/番組ストリームを、放送システム１１又はネット配信システム１２に送出する。なお、CM/番組オーディオストリームに応じた音声には、音声認識処理が禁止されるべき音声が含まれている。

　ステップＳ１１２において、トークンジェネレータ１０３は、トークン生成用データに基づいて、音声認識処理禁止トークンを生成する。

　ステップＳ１１３において、アプリケーションジェネレータ１１１は、アプリ生成用データに基づいて、アプリケーションを生成する。ここで、アプリケーションを生成する際には、ステップＳ１１２の処理で得られる音声認識処理禁止トークンを、ハードコードで埋め込むことができる。

　なお、ここでは、アプリケーションに対し、音声認識処理禁止トークンがハードコードで埋め込まれる場合を例示するが、例えば、受信側のクライアント装置２０Ｂで、アプリケーションが実行される際に、インターネット５０経由で、送信側のサーバ装置１０Ｂ（のトークンジェネレータ１０３）から音声認識処理禁止トークンが取得されるようにしてもよい。

　ステップＳ１１４において、アプリケーションジェネレータ１１１は、ステップＳ１１３の処理で得られるアプリケーションを、放送システム１１又はネット配信システム１２に送出する。

　このようにして、サーバ装置１０Ｂで得られるCM/番組ストリームと、アプリケーションは、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２に送出される。

　すなわち、CM/番組ストリームとアプリケーションを放送経由で配信する場合、放送システム１１は、サーバ装置１０Ｂから送出されるCM/番組ストリームと、アプリケーションを処理し、その処理の結果得られるデータを、放送波として送出する。

　また、CM/番組ストリームとアプリケーションを通信経由で配信する場合、ネット配信システム１２は、サーバ装置１０Ｂから送出されるCM/番組ストリームと、アプリケーションを処理し、その処理の結果得られるデータを、インターネット５０を介して配信する。

　なお、CM/番組ストリームとアプリケーションは、同一の放送ストリームに多重化される場合もあれば、CM/番組ストリームを放送経由で配信するとともに、アプリケーションを通信経由で配信するようにしてもよい。この場合、受信側のクライアント装置２０Ｂは、CM又は番組の開始直前に又は同時に、インターネット５０を介してネット配信システム１２にアクセスして、アプリケーションを取得することになる。

　図１０において、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームとアプリケーションは、クライアント装置２０Ｂにより受信される。クライアント装置２０Ｂでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ２０１に入力される。また、アプリケーションが、アプリケーション実行環境２１１に入力される。

　ステップＳ２１１において、オーディオデコーダ２０１は、CM/番組オーディオストリームをデコードする。このデコードの結果、ベースバンドのCM/番組オーディオストリームが得られる。

　ステップＳ２１３において、アプリケーション実行環境２１１は、アプリケーションを実行する。ここで、アプリケーションには、音声認識処理禁止トークンがハードコードで埋め込まれているため、アプリケーション実行環境２１１は、音声認識処理禁止トークンを取得することができる。

　このとき、例えば、アプリケーションが、上述の図７に示した確認メッセージ２５１を表示することで、アプリケーションが勝手にウォータマークを挿入するのではなく、一度視聴者２の意向を確認した上で、オーディオウォータマークの挿入処理を行うことができる。

　図７の確認メッセージ２５１に対し、CMの音声による音声AIアシスタンスサービスの勝手利用を許可しない場合には、視聴者２により「NGボタン」が操作され、アプリケーション実行環境２１１は、ウォータマーク挿入指示を受け付ける（Ｓ２１４）。この場合には、オーディオウォータマークを挿入する処理が行われることになる。

　ここで、例えば、CMが開始する前や、番組を選局する度に、視聴者２の意向確認を行うと、視聴者２によっては煩わしいと感じる者も出てくる。そのため、逐次視聴者２の意向確認を行うのではなく、初期設定メニューなどによって、あらかじめ意向確認を行っておき、その視聴者意向情報を、アプリケーション実行環境２１１により実行されるアプリケーションが参照可能となる初期設定データベースに格納しておくようにしてもよい。

　このとき、初期設定メニューにおいて、例えば、「音声AIアシスタンスサービス勝手利用制限」のようなメニューを追加して、図７に示したようなダイアログを表示し、視聴者２に対して、CMの音声による音声AIアシスタンスサービスの勝手利用を確認させるというようにしてもよい。このように、アプリケーションが、初期設定データベースを参照することで、図７に示した確認メッセージ２５１をその都度表示するのではなく、視聴者意向情報に基づき、ウォータマークの挿入可否制御を行うことができる。

　なお、ここでは、図７に示した確認メッセージ２５１を表示したり、初期設定データベースを参照して視聴者意向情報を利用したりする例を説明したが、そのほかの実装を行ってもよく、例えば、すべてのCMや番組の区間において、オーディオウォータマークが挿入されるようにしてもよい。

　ステップＳ２１２において、オーディオWM挿入モジュール２１２は、ステップＳ２１１の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップＳ２１３の処理で得られる音声認識処理禁止トークンを、オーディオウォータマークとして挿入（エンコード）する。

　ここで、クライアント装置２０Ｂでは、オーディオスピーカ２０２から出力される音量が十分なものとなるように、オーディオスピーカ２０２のオーディオ出力音量を調整する（Ｓ２１５）。ここでは、音声処理装置３０Ｂに内蔵されたオーディオマイク３１１により収音可能なレベルになるように、オーディオスピーカ２０２を制御する。

　ステップＳ２１６において、オーディオスピーカ２０２は、ステップＳ２１２の処理で得られるベースバンドのCM/番組オーディオストリーム（受信側にて音声認識処理禁止トークンをオーディオウォータマークとして挿入したストリーム）に応じた音声を出力する。

　なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置２０Ｂでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組オーディオストリームに応じたCMや番組の映像がディスプレイに表示される。

　クライアント装置２０Ｂのオーディオスピーカ２０２から出力された音声は、音声処理装置３０Ｂのオーディオマイク３１１により収音される。

　ステップＳ３１１乃至Ｓ３１４においては、図５のステップＳ３０１乃至Ｓ３０４と同様に、オーディオウォータマークの検出結果に基づき、オーディオストリームに挿入されているオーディオウォータマークとして、サーバ装置１０Ｂから通知されている音声認識処理禁止トークンが挿入されているかどうかが判定される。

　そして、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていないと判定された場合には、音声認識結果が、後続の処理に渡される（Ｓ３１４）。一方で、オーディオウォータマークとして、音声認識処理禁止トークンが挿入されていると判定された場合には、音声認識結果が、後続の処理に渡されないようにする。

　以上、ウォータマークの挿入を受信側で行う場合のコンテンツ・音声AI連携処理の流れについて説明した。

　なお、図８の音声処理装置３０Ｂで実行される視聴者発話に応じた音声AI処理は、上述した図６の視聴者発話に応じた音声AI処理と同様であるため、ここではその説明を省略する。

　以上、第１の実施の形態について説明した。この第１の実施の形態では、送信側のサーバ装置１０又は受信側のクライアント装置２０で、オーディオウォータマークとして、音声認識処理禁止トークンを挿入して、ローカル側の音声処理装置３０又はクラウド側のサーバ装置４０で、この音声認識処理禁止トークンが検出されるようにすることで、音声認識対象のデータの正当性を確認した上で、音声AIアシスタンスサービスを利用することができる。その結果として、より実用性の高い音声AIアシスタンスサービスを提供することができる。

　また、第１の実施の形態の構成を採用することで、音声認識処理禁止の文言を、ブラックリストとしてデータベースに展開し、音声AIアシスタンスサービスにおいて、リアルタイムに、文言の可否をチェックするというコストを避けることができる。すなわち、ブラックリストが頻繁に更新され、かつ、膨大なデータ量になるような場合には、このコストが、運用コストを圧迫する可能性があり、ひいては、音声AIアシスタンスサービスのパフォーマンスのデグレードに繋がる可能性が高くなるからである。

　さらに、視聴者の発話による音声AIアシスタンスサービスの利用命令と、テレビ受像機やモバイル受信機などのクライアント装置２０を経由して出力された音声AIアシスタンスサービスの利用命令とを区別することができ、視聴者にとって、意味のない（不利益な）サービスの利用を防ぐことができる。

　また、トークンに複数の種類を用意したり、あるいは、ウォータマークを挿入する処理を受信側のクライアント装置２０（例えばテレビ受像機側）で実行されるアプリケーションが行うような構成を実装したりすることで、送信側の事業者（例えば放送局や音声AIアシスタンスサービスのエンティティ）のコントロールのもとに、CMや番組から発声される、音声AIアシスタンスサービスの勝手利用の可否について、視聴者の意向を反映させることも可能となる。

　なお、上述した説明では、音声AIアシスタンスサービスの音声認識処理禁止の文言を、ブラックリストとして管理するのと同等な方法を説明したが、ここでは、音声AIアシスタンスサービスの音声認識処理禁止の文言を、ホワイトリストとして管理するのと同等な方法に応用するようにしてもよい。

　例えば、あるCMや番組の区間のみに含まれることが分かっている、すなわち、事前に、放送局側や音声AIアシスタンスサービスのエンティティ側に、その旨が告知されて双方の同意がなされている、音声AIアシスタンスサービスの音声認識処理可能な音声の音声認識結果の処理プロセスを、常に有効にするには、例えば、次のような処理が行うことで実現される。

　すなわち、送信側（放送局側）のサーバ装置１０では、そのCMや番組の区間（音声認識結果の処理プロセスを常に有効とする区間）を除く、すべてのCMや番組の区間に対し、その音声のオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、トークンジェネレータ１０３により生成された音声認識処理禁止トークンが、オーディオウォータマークとして挿入されるようにすればよい。

　また、ここでは、そのCMや番組の区間（音声認識結果の処理プロセスを常に有効とする区間）に対し、その音声のオーディオストリームをデコードして、ベースバンドのオーディオストリームとし、音声認識処理許可トークンが、オーディオウォータマークとして挿入されるようにしてもよい。つまり、この音声認識処理許可トークンは、上述した音声認識処理禁止トークンとは反対に、収音された音声に含まれる場合に、そのオーディオストリームの音声認識結果に基づいた後続の処理を継続させるためのトークンであると言える。

　このように、音声認識処理可能の文言を、ホワイトリストとしてデータベースに展開し、音声AIアシスタンスサービスにおいて、リアルタイムに、文言の可否をチェックするというコストを避けることができる。すなわち、音声認識処理可能の文言が頻繁に生成、更新されることで、ホワイトリストが頻繁に更新され、かつ、膨大なデータ量になるような場合には、このコストが、運用コストを圧迫する可能性があり、ひいては、音声AIアシスタンスサービスのパフォーマンスのデグレードに繋がる可能性が高くなるからである。

（２）第２の実施の形態

　ここで、音声AIアシスタンスサービスに対して、視聴者がどのように発話したらよいかを、CMや番組等のテレビ放送が提示するユースケースを想定する。例えば、上述のAlexa（登録商標）の例で、起動フレーズ（Launchフレーズ）と、スキル名と、Utteranceとの結合により得られる文字列が、非常に長くなってしまうような場合に、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」のような発話を促すようなときがあるものとする。

　また、起動フレーズ等の連結文字列が非常に長くなる場合としては、例えば、「ask, shoppingApp, my personal account number is 1234567890」のような発話を促すときがあるものとする。ただし、この発話の例で、発話の全部又は一部（例えば「1234567890」の部分）は、視聴者宅のクライアント装置２０（例えばテレビ受像機等）により実行されるアプリケーションが生成しているようなケースを想定する。

　このような場合に、視聴者にとっては、例えば、フレーズが長すぎて覚えきれないときとか、あるいはプライバシーやセキュリティにかかわるような内容の発話が要求されるようなサービスのときには、これらを回避するための手段が必要となる。

　さらに、プライバシーの保護のためには、トークンそのものが、音声AIアシスタンスサービスの収音モジュールに至る前に、あるいは、音声AIアシスタンスサービスの後続の処理に至る途中経路において、盗み見や改ざんされるようなことがないようにしなければならない。ここでは、勿論、プライバシーの保護にかかわらず、トークンジェネレータから、音声AIアシスタンスサービスの後続の処理に至る経路上で、メッセージそのものの秘匿が必要になる場合もある。

　本技術は、第２の実施の形態として、コンテンツに連携した音声AIアシスタンスサービスに引き渡されるパラメタを、オーディオウォータマークとして、コンテンツのオーディオストリームに挿入することを提案する。

　すなわち、第２の実施の形態では、音声AIアシスタンスサービスの収音デバイスとして、ローカル側に設けられる音声処理装置３０、又は収音されたオーディオストリームを解析するクラウド側に設けられるサーバ装置４０に、ウォータマーク検出機能を実装する。

　これによって、あるトークン（サービス引き渡しパラメタ）が、オーディオウォータマークとして、収音された音声に含まれる場合には、そのオーディオストリームの音声認識結果に基づいた後続の処理に、オーディオウォータマークとして検出されたトークン（サービス引き渡しパラメタ）を渡すことができるようにする。

（サービス引き渡しパラメタの例）
　図１１は、ベースバンドのオーディオストリームに、オーディオウォータマークとして埋め込まれるサービス引き渡しパラメタの例を示す図である。

　例えば、あるCMや番組（又はその一部）において、音声AIアシスタンスサービスに対し、視聴者がどのように発話したらよいかを示す文字列、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」を発話するような指示がなされる場合を想定する。

　この場合に、送信側（放送局側）のサーバ装置１０では、CMや番組のストリームを送出する前に、対象のCMや番組のとある時間区間のオーディオストリームをデコードして、ベースバンドのオーディオストリームとする。そして、サーバ装置１０は、オーディオWM挿入モジュールによって、トークンジェネレータにより生成されたトークン（サービス引き渡しパラメタ）を、オーディオウォータマークとして、そのベースバンドのオーディオストリームに挿入する。

　ここでは、トークンとして、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」であるサービス引き渡しパラメタが生成され、オーディオウォータマークとして、ベースバンドのオーディオストリームに挿入される。なお、このサービス引き渡しパラメタの埋め込みは、複数回繰り返して、ベースバンドのオーディオストリームに挿入される。

　なお、ここでは、このオーディオウォータマークとして挿入されるトークン（引き渡しパラメタ）の内容そのものを秘匿したり、改ざんを防止したりするために、トークンの内容（メッセージ）を暗号化するか、又は改ざん検出用の署名を生成してから、オーディオウォータマークとして挿入することができる。

　例えば、図１２に示すように、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」であるトークンの内容（メッセージ）を、Message要素に格納する。そして、このMessage要素に格納されるメッセージに対し、例えば、XML暗号やXML署名などを適用することで、トークンの内容を秘匿したり、改ざんを防止したりすることができる。

　図１３は、上述のMessage要素に格納されるメッセージに対し、XML署名を適用した場合の例を示している。ここで、XML署名は、XML(Extensible Markup Language)文書などの電子データに対して付けられる電子署名の一種である。

　図１３の例において、ds:Reference要素の属性値であるURI=""は、Message要素全体が署名対象であることを示している。また、図１３の例では、<ds:Transform Algorithm = ...enveloped-signature../>の記述によって、ds:Signature要素が、署名対象から除外される。このようなXML署名が適用されたメッセージ全体が、オーディオウォータマークとして埋め込まれることになる。

　なお、オーディオウォータマークとして挿入されるサービス引き渡しパラメタは、送信側のサーバ装置１０に限らず、受信側のクライアント装置２０にて挿入することも可能となるため、以下、オーディオウォータマークの挿入を、送信側で行う構成と、受信側で行う構成について、それぞれ説明する。

（Ｃ）ウォータマークの挿入を送信側で行う構成

（システム構成例）
　図１４は、第２の実施の形態のコンテンツ・音声AI連携システム１の構成の第１の例を示すブロック図である。

　図１４のコンテンツ・音声AI連携システム１は、サーバ装置１０Ｃ、クライアント装置２０Ｃ、及び音声処理装置３０Ｃを含んで構成される。

　なお、図１４のコンテンツ・音声AI連携システム１の構成において、上述した図３及び図８のコンテンツ・音声AI連携システム１の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。

　図１４において、サーバ装置１０Ｃは、CM/番組バンク１０１、オーディオデコーダ１０２、トークンジェネレータ１０３、オーディオWM挿入モジュール１０４、及びオーディオエンコーダ１０５を含んで構成される。

　トークンジェネレータ１０３は、トークン生成用データに基づいて、サービス引き渡しパラメタを生成し、オーディオWM挿入モジュール１０４に供給する。

　ここで、トークン生成用データは、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」等のトークン（サービス引き渡しパラメタ）を生成するためのデータであって、例えば、放送局や音声AIアシスタンスサービスのエンティティ、その他の事業者の決定に応じたものなどとされる。

　オーディオWM挿入モジュール１０４は、オーディオデコーダ１０２から供給されるベースバンドのCM/番組オーディオストリームに対し、トークンジェネレータ１０３から供給されるサービス引き渡しパラメタを、オーディオウォータマークとして挿入（エンコード）し、オーディオエンコーダ１０５に供給する。

　オーディオエンコーダ１０５は、オーディオWM挿入モジュール１０４から供給されるベースバンドのCM/番組オーディオストリーム（送信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム）をエンコードする。

　図１４において、クライアント装置２０Ｃは、図３に示したクライアント装置２０Ａと同様に、オーディオデコーダ２０１、及びオーディオスピーカ２０２を含んで構成される。

　また、図１４において、音声処理装置３０Ｃは、音声AIアシスタンスサービスの機能として、収音モジュール３０１、オーディオWM検出モジュール３０２、及び音声認識モジュール３０３を含んで構成される。また、収音モジュール３０１は、オーディオマイク３１１を含んでいる。

　オーディオマイク３１１は、視聴者２により発話されたウェイクワード、又はクライアント装置２０のオーディオスピーカ２０２から出力された音声を収音する。

　収音モジュール３０１は、オーディオマイク３１１により収音された音声に基づいて、視聴者２によるウェイクワードの発話が認識された場合、音声AIアシスタンスサービスを起動して、オーディオWM検出モジュール３０２によるサービス引き渡しパラメタの検出を有効化する。

　オーディオWM検出モジュール３０２は、オーディオマイク３１１からのオーディオストリームに挿入されているオーディオウォータマークの検出を行い、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかを判定する。

　オーディオWM検出モジュール３０２は、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合、サービス引き渡しパラメタを、音声認識結果として、後続の処理を行う後続処理部に供給する。この場合、後続処理部は、オーディオWM検出モジュール３０２から供給される音声認識結果に基づいて、音声AIアシスタンスサービスに関する後続の処理を行う。

　また、オーディオWM検出モジュール３０２は、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合、音声認識結果を、後続処理部には渡さないようにする。

　音声認識モジュール３０３は、オーディオマイク３１１から供給されるオーディオストリームに対する音声認識処理を行う。なお、図１４に示した構成においては、音声認識モジュール３０３を必ずしも設ける必要はない。

　ここで、視聴者２によるウェイクワードの発話であるが、例えば、クライアント装置２０Ｃにおいて、図１５に示すような発話指示メッセージ２６１が表示されるようにすることで、視聴者２に対し、音声AIアシスタンスサービスを起動するためのウェイクワードの発話を促すことができる。

　図１５においては、発話指示メッセージ２６１として、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A"とだけ言ってください。」が表示されている。そして、この発話指示メッセージ２６１を確認した視聴者２は、"Service A"であるウェイクワードを発話することになる。

　なお、図１４においては、説明の都合上、ローカル側の音声処理装置３０Ｃが、音声AIアシスタンスサービスのすべての処理を行うとしたが、音声AIアシスタンスサービスの一部の処理を、クラウド側のサーバ装置４０が行うようにしてもよい。

　例えば、ローカル側の音声処理装置３０Ｃが、収音モジュール３０１の機能を有し、クラウド側のサーバ装置４０が、オーディオWM検出モジュール３０２と、音声認識モジュール３０３と、後続処理部の機能を有する場合には、音声処理装置３０Ｃとサーバ装置４０とが連携することで、音声AIアシスタンスサービスが実現されることになる。

　また、図１４においては、トークンジェネレータ１０３が、サーバ装置１０Ｃに含まれるとして説明したが、トークンジェネレータ１０３は、サーバ装置１０Ｃ以外の他の装置が有するようにしてもよい。

（コンテンツ・音声AI連携処理の流れ）
　次に、図１６乃至図１７のフローチャートを参照して、ウォータマークの挿入を送信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。

　なお、図１６は、サーバ装置１０Ｃと、放送システム１１又はネット配信システム１２により実行される送信側の処理の流れを示すフローチャートである。一方で、図１７は、クライアント装置２０Ｃと音声処理装置３０Ｃにより実行される受信側の処理の流れを示すフローチャートである。

　ステップＳ１２１において、CM/番組バンク１０１は、CM/番組ストリームを送出する。ここでは、CM/番組オーディオストリームが、オーディオデコーダ１０２に送出される。

　ステップＳ１２２において、トークンジェネレータ１０３は、トークン生成用データに基づいて、トークンとしてのサービス引き渡しパラメタを生成する。

　ここで、サービス引き渡しパラメタとしては、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」である、音声AIアシスタンスサービスに対し、視聴者２がどのように発話したらよいかを示す文字列（メッセージ）が生成される。また、上述したように、このメッセージに対し、例えばXML署名などが適用され、トークンの内容を秘匿したり、改ざんを防止したりすることができる。

　ステップＳ１２３において、オーディオデコーダ１０２は、ステップＳ１２１の処理で送出されるCM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。

　ステップＳ１２５において、オーディオWM挿入モジュール１０４は、ステップＳ１２３の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップＳ１２２の処理で得られるサービス引き渡しパラメタを、オーディオウォータマークとして挿入（エンコード）する。

　ステップＳ１２４において、オーディオエンコーダ１０５は、ステップＳ１２５の処理で得られる、オーディオウォータマークが挿入されたベースバンドのCM/番組オーディオストリームをエンコードする。

　なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、サーバ装置１０Ｃでは、必要に応じて、CM/番組ビデオストリーム等の他のストリームと多重化されて処理される。

　このようにして、サーバ装置１０Ｃで得られるCM/番組ストリーム（送信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム）は、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２によって送出される。

　そして、図１６において、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームは、図１７において、クライアント装置２０Ｃにより受信される。クライアント装置２０Ｃでは、CM/番組ストリームが処理され、CM/番組オーディオストリームが、オーディオデコーダ２０１に入力される。

　なお、クライアント装置２０Ｃでは、オーディオスピーカ２０２から出力される音量が十分なものとなるように、オーディオスピーカ２０２のオーディオ出力音量を調整する（Ｓ２２１）。

　また、このとき、クライアント装置２０Ｃでは、視聴者２に対して、音声AIアシスタンスサービスを起動するためのウェイクワード（例えば、「Service A」）の発話指示を行う（Ｓ２２２）。

　ここでは、クライアント装置２０Ｃにおいて、例えば、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A"とだけ言ってください。」である発話指示メッセージ２６１（図１５）が、CM又は番組のオーディオストリームに、オーディオウォータマークが挿入されている区間に表示されるようにする。そして、この表示を確認した視聴者２は、ウェイクワードを発話することになる（Ｓ２１）。

　ステップＳ２２３において、オーディオデコーダ２０１は、CM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。

　ステップＳ２２４において、オーディオスピーカ２０２は、ステップＳ２２３の処理で得られるベースバンドのCM/番組オーディオストリームに応じた音声を出力する。

　なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置２０Ｃでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像がディスプレイに表示される。

　視聴者２により発話されたウェイクワードと、クライアント装置２０Ｃのオーディオスピーカ２０２から出力された音声は、音声処理装置３０のオーディオマイク３１１により収音される。

　ステップＳ３２２において、収音モジュール３０１は、オーディオマイク３１１により収音された音声に応じたオーディオストリームから、視聴者２により発話されたウェイクワードを認識する。

　また、収音モジュール３０１は、ウェイクワードが認識された場合に、音声AIアシスタンスサービスを起動して、サービス引き渡しパラメタの検出を有効化する（Ｓ３２３）。このサービス引き渡しパラメタの検出の有効化に伴い、オーディオWM検出モジュール３０２によるステップＳ３２１の処理が開始される。

　ステップＳ３２１において、ステップＳ３０１において、オーディオWM検出モジュール３０２は、オーディオマイク３１１からのオーディオストリームに挿入されているオーディオウォータマークを検出する。

　ステップＳ３２４において、オーディオWM検出モジュール３０２は、ステップＳ３２１の処理で得られる検出結果に基づいて、オーディオストリームに挿入されているオーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかを判定する。

　ステップＳ３２４において、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合、処理は、ステップＳ３２５の処理に進められる。ステップＳ３２５において、オーディオWM検出モジュール３０２は、ステップＳ３２１の処理で得られたサービス引き渡しパラメタを、音声認識結果として、後続の処理に渡すようにする。

　一方で、ステップＳ３２４において、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合、ステップＳ３２５の処理は、スキップされる。すなわち、この場合には、オーディオストリームの音声認識結果を無効であるとみなして、音声認識結果を後続の処理に渡さないようにする（何もしない）。

　このように、音声処理装置３０Ｃでは、オーディオストリームに、サービス引き渡しパラメタとして、例えば、「ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL」である文字列（メッセージ）が挿入されている場合には、このメッセージを、音声認識結果として、後続の処理に渡すようにする。そのため、例えば、音声AIアシスタンスサービスを利用する視聴者２が、フレーズが長すぎて覚えることができない、といった状況を回避することができる。

（Ｄ）ウォータマークの挿入を受信側で行う構成

　すなわち、例えば、視聴者のプライバシーにかかわる視聴者固有の属性情報（例えば、商品購入に必要な視聴者のアカウント情報等）をウォータマークに反映させて、パーソナライズすることができる。

（システム構成例）
　図１８は、第２の実施の形態のコンテンツ・音声AI連携システム１の構成の第２の例を示すブロック図である。

　図１８のコンテンツ・音声AI連携システム１は、サーバ装置１０Ｄ、クライアント装置２０Ｄ、及び音声処理装置３０Ｄを含んで構成される。

　なお、図１８のコンテンツ・音声AI連携システム１の構成において、上述した図３、図８、及び図１４のコンテンツ・音声AI連携システム１の構成と対応する部分については、同一の符号を付してあり、その説明は繰り返しになるため、適宜省略するものとする。

　図１８において、サーバ装置１０Ｄは、CM/番組バンク１０１、及びアプリケーションジェネレータ１１１を含んで構成される。

　アプリケーションジェネレータ１１１は、アプリ生成用データに基づいて、アプリケーションを生成する。ここで生成されるアプリケーションは、トークンジェネレータ機能（上述のトークンジェネレータ１０３と同等の機能）を有している。

　そして、サーバ装置１０Ｄは、アプリケーションジェネレータ１１１により生成されるアプリケーションを、アプリケーションの配信方式に応じて、放送システム１１又はネット配信システム１２に送出する。

　図１８において、クライアント装置２０Ｄは、オーディオデコーダ２０１、オーディオスピーカ２０２、アプリケーション実行環境２１１、及びオーディオWM挿入モジュール２１２を含んで構成される。

　アプリケーション実行環境２１１は、放送システム１１又はネット配信システム１２から受信したアプリケーションを実行する。ここで、アプリケーションは、トークンジェネレータ機能を有しているため、当該アプリケーションにより生成されたトークン（サービス引き渡しパラメタ）を、オーディオWM挿入モジュール２１２に供給する。

　オーディオWM挿入モジュール２１２は、オーディオデコーダ２０１から供給されるベースバンドのCM/番組オーディオストリームに対し、アプリケーション実行環境２１１のアプリケーションにより生成されたサービス引き渡しパラメタを、オーディオウォータマークとして挿入（エンコード）し、オーディオスピーカ２０２に供給する。

　オーディオスピーカ２０２は、オーディオWM挿入モジュール２１２から供給されるベースバンドのCM/番組オーディオストリーム（受信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム）に応じた音声を出力する。

　なお、図１８の音声処理装置３０Ｄは、図１４の音声処理装置３０Ｃと同様の構成を有しているため、ここではその説明を省略する。ただし、ローカル側の音声処理装置３０Ｄは、クラウド側のサーバ装置４０と連携することで、音声AIアシスタンスサービスの一部の処理が、サーバ装置４０により行われるようにしてもよい。

　ここで、音声処理装置３０Ｄに対する視聴者２によるウェイクワードの発話であるが、例えば、クライアント装置２０Ｄにおいて、図１９に示すような発話指示メッセージ２７１が表示されるようにすることで、視聴者２に対し、音声AIアシスタンスサービスを起動するためのウェイクワードの発話を促すことができる。

　図１９においては、発話指示メッセージ２７１として、「もしこの番組で紹介されている商品を購入したければ、"Service A"とだけ言ってください。」が表示されている。そして、この発話指示メッセージ２７１を確認した視聴者２は、"Service A"であるウェイクワードを発話することになる。

（コンテンツ・音声AI連携処理の流れ）
　次に、図２０乃至図２１のフローチャートを参照して、ウォータマークの挿入を受信側で行う場合のコンテンツ・音声AI連携処理の流れを説明する。

　なお、図２０は、サーバ装置１０Ｄと、放送システム１１又はネット配信システム１２により実行される送信側の処理の流れを示すフローチャートである。一方で、図２１は、クライアント装置２０Ｄと音声処理装置３０Ｄにより実行される受信側の処理の流れを示すフローチャートである。

　ステップＳ１３１において、CM/番組バンク１０１は、CM/番組ストリームを、放送システム１１又はネット配信システム１２に送出する。

　ステップＳ１３３において、アプリケーションジェネレータ１１１は、アプリ生成用データに基づいて、アプリケーションを生成する。

　ここで、アプリケーションは、トークンジェネレータ機能（上述のトークンジェネレータ１０３と同等の機能）を有している。なお、アプリケーションを生成する際には、サービス引き渡しパラメタの一部（例えば、視聴者固有の属性情報以外の共通の情報）を、ハードコードで埋め込むようにしてもよい。

　ステップＳ１３４において、アプリケーションジェネレータ１１１は、ステップＳ１３３の処理で得られるアプリケーションを、放送システム１１又はネット配信システム１２に送出する。

　このようにして、サーバ装置１０Ｄで得られるCM/番組ストリームとアプリケーションは、コンテンツの配信方式に応じて、放送システム１１又はネット配信システム１２によって送出される。

　そして、図２０において、放送システム１１又はネット配信システム１２によって配信されたCM/番組ストリームとアプリケーションは、図２１において、クライアント装置２０Ｄにより受信される。クライアント装置２０Ｄにおいては、CM/番組オーディオストリームが、オーディオデコーダ２０１に入力され、アプリケーションが、アプリケーション実行環境２１１に入力される。

　ステップＳ２３１において、オーディオデコーダ２０１は、CM/番組オーディオストリームをデコードして、ベースバンドのCM/番組オーディオストリームを得る。

　ステップＳ２３３において、アプリケーション実行環境２１１は、アプリケーションを実行する。このとき、アプリケーションは、トークンジェネレータ機能を有しているため、トークンとしてのサービス引き渡しパラメタを生成して取得することができる。

　ここで、サービス引き渡しパラメタとしては、例えば、「ask, shoppingApp, my personal account number is 1234567890」である、音声AIアシスタンスサービスに対し、視聴者２がどのように発話したらよいかを示す文字列（メッセージ）が生成される。

　なお、サービス引き渡しパラメタを生成する際には、アプリケーション実行環境２１１にて実行されるアプリケーション自身が、視聴者２のプライバシーにかかわるような視聴者固有の属性情報（例えば、"1234567890"であるアカウント番号）を、データベース（例えば、クライアント装置２０の初期設定メニューにより視聴者特有な情報が設定されたデータベースなど）から取得し、その情報に基づき、サービス引き渡しパラメタを生成することになる。

　例えば、図７の確認メッセージ２５１に対し、CMや番組の音声による音声AIアシスタンスサービスの勝手利用を許可する場合には、視聴者２により「OKボタン」が操作され、アプリケーション実行環境２１１は、ウォータマーク挿入指示を受け付ける（Ｓ２３４）。この場合には、オーディオウォータマークを挿入する処理が行われることになる。

　なお、上述したように、あらかじめ意向確認を行っておき、その視聴者意向情報を、初期設定データベースに格納してそれを利用するようにしてもよい。また、ステップＳ２３４の処理を行わずに、強制的に、オーディオウォータマークの挿入処理が実行されるようにしてもよい。

　ステップＳ２３２において、オーディオWM挿入モジュール２１２は、ステップＳ２３１の処理で得られるベースバンドのCM/番組オーディオストリームに対し、ステップＳ２３３の処理で得られるサービス引き渡しパラメタを、オーディオウォータマークとして挿入（エンコード）する。

　なお、クライアント装置２０Ｄでは、オーディオスピーカ２０２から出力される音量が十分なものとなるように、オーディオスピーカ２０２のオーディオ出力音量を調整する（Ｓ２３５）。

　また、このとき、クライアント装置２０Ｄでは、視聴者２に対して、音声AIアシスタンスサービスを起動するためのウェイクワード（例えば、「Service A」）の発話指示を行う（Ｓ２３６）。

　ここでは、クライアント装置２０Ｄにおいて、例えば、「もしこの番組で紹介されている商品を購入したければ、"Service A"とだけ言ってください。」である発話指示メッセージ２７１（図１９）が、CM又は番組のオーディオストリームに、オーディオウォータマークが挿入されている区間に表示されるようにする。そして、この表示を確認した視聴者２は、ウェイクワードを発話することになる（Ｓ３１）。

　ステップＳ２３７において、オーディオスピーカ２０２は、ステップＳ２３２の処理で得られるベースバンドのCM/番組オーディオストリーム（受信側にてサービス引き渡しパラメタをオーディオウォータマークとして挿入したストリーム）に応じた音声を出力する。

　なお、ここでも、説明を簡略化するため、CM/番組オーディオストリームについてのみ述べているが、クライアント装置２０Ｄでは、CM/番組ビデオストリームについても、ビデオデコーダによってデコードされ、ベースバンドのCM/番組ビデオストリームに応じたCMや番組の映像がディスプレイに表示される。

　視聴者２により発話されたウェイクワードと、クライアント装置２０Ｄのオーディオスピーカ２０２から出力された音声は、音声処理装置３０Ｄのオーディオマイク３１１により収音される。

　ステップＳ３３１乃至Ｓ３３５においては、図１７のステップＳ３２１乃至Ｓ３２５と同様に、視聴者２により発話されたウェイクワードが認識された場合に、音声AIアシスタンスサービスが起動されて、サービス引き渡しパラメタの検出が有効化され、オーディオマイク３１１からのオーディオストリームに挿入されているオーディオウォータマークとして、サービス引き渡しパラメタが挿入されているかどうかが判定される。

　そして、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていると判定された場合には、サービス引き渡しパラメタが、音声認識結果として、後続の処理に渡される（Ｓ３３５）。一方で、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていないと判定された場合には、音声認識結果が、後続の処理に渡されないようにする。

　このように、音声処理装置３０Ｄでは、オーディオストリームに、サービス引き渡しパラメタとして、例えば、「ask, shoppingApp, my personal account number is 1234567890」である文字列（メッセージ）が挿入されている場合には、このメッセージを、音声認識結果として、後続の処理に渡すようにしている。そのため、例えば、音声AIアシスタンスサービスを利用する視聴者２が、フレーズが長すぎて覚えることができないことや、プライバシーやセキュリティにかかわるような内容の発話が要求される、といった状況を回避することができる。

　以上、第２の実施の形態について説明した。この第２の実施の形態では、送信側のサーバ装置１０又は受信側のクライアント装置２０で、オーディオウォータマークとして、サービス引き渡しパラメタを挿入して、ローカル側の音声処理装置３０又はクラウド側のサーバ装置４０で、このサービス引き渡しパラメタが検出されるようにすることで、視聴者が発話を指示通り正確にできない、あるいは、発話を躊躇するような内容が含まれる場合においても、精度よく、かつ、セキュリティを考慮に入れて、音声AIアシスタンスサービスを利用することができる。その結果として、より実用性の高い音声AIアシスタンスサービスを提供することができる。

　その際に、視聴者に対し、音声AIアシスタンスサービスを利用するという意志表示としてのウェイクワードの発話を確認して、視聴者の同意を得てから、音声AIアシスタンスサービスの利用を開始することができる。

　ここで、仮に、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていなければ、例えば、次に示すような、視聴者にとって、正確に発話するには、長すぎる内容を発話しなければならない。

　すなわち、上述した（Ｃ）の「ウォータマークの挿入を送信側で行う構成」の例の場合、図２２に示すように、発話指示メッセージ２８１として、「もしこの番組のキャストのプライベートな情報を知りたければ、"Service A, ask, Drama Facts, for any private information on the casts of XXXDRAMA by XXXCHANNEL"と言ってください。」が表示され、この長い内容を、視聴者が発話する必要が出てくる。

　それに対して、第２の実施の形態では、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているため、例えば、上述した図１５の発話指示メッセージ２６１を確認した視聴者は、単に"Service A"であるウェイクワードのみを発話すればよいため、正確に発話することが可能となる。

　また、仮に、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されていなければ、例えば、次に示すような、発話内容に視聴者のプライベートな情報が含まれる場合には、視聴者が発話を躊躇することも想定される。

　すなわち、上述した（Ｄ）の「ウォータマークの挿入を受信側で行う構成」の例の場合、図２３に示すように、発話指示メッセージ２９１として、「もしこの番組で紹介されている商品を購入したければ、"Service A, ask, shoppingApp, my personal account number is 1234567890"と言ってください。」が、表示され、この視聴者固有の属性情報（例えば、"1234567890"であるアカウント番号）を、視聴者が発話する必要が出てくる。

　それに対して、第２の実施の形態では、オーディオウォータマークとして、サービス引き渡しパラメタが挿入されているため、例えば、上述した図１９の発話指示メッセージ２７１を確認した視聴者は、単に"Service A"であるウェイクワードのみを発話すればよいため、視聴者固有の属性情報を発話する必要はない。

＜３．変形例＞

（トークンの挿入の他の例）
　上述した説明では、トークンが、オーディオウォータマークとして、オーディオストリームに挿入される場合を示したが、オーディオウォータマークは一例であって、トークンを埋め込む方法としては、他の方法を用いるようにしてもよい。ここでは、例えば、CMや番組等のコンテンツのオーディオストリームから抽出される特徴量であるフィンガプリント(Finger Print)情報を利用して、トークンが埋め込まれるようにしてもよい。

　なお、オーディオウォータマークとしては、例えば、下記の非特許文献１，２にその詳細な内容が示されている。非特許文献１，２は、次世代地上波放送規格の１つである、ATSC(Advanced Television Systems Committee)3.0における、オーディオウォータマークが規定されている。

　非特許文献１：ATSC Standard：Audio Watermark Emission (A/334)
　非特許文献２：ATSC Standard：Content Recovery in Redistribution Scenarios (A/336)

（アプリケーションの例）
　上述した説明では、クライアント装置２０のアプリケーション実行環境２１１にて実行されるアプリケーションとして、ブラウザにより実行される放送付随の放送アプリケーションを一例に説明したが、例えば、OS（Operating System）環境（提示制御環境）などで実行されるネイティブアプリケーションなどの他のアプリケーションであってもよい。

　また、アプリケーションは、HTML5(HyperText Markup Language 5)などのマークアップ言語やJavaScript（登録商標）等のスクリプト言語で開発されたアプリケーション（ブラウザ上で実行されるアプリケーション）に限らず、例えば、Java（登録商標）などのプログラミング言語で開発されたアプリケーションであってもよい。

　なお、クライアント装置２０で実行されるアプリケーションは、放送経由で取得されるものに限らず、インターネット５０上のサーバから、通信経由で取得されるようにしてもよい。また、上述したコンテンツは、CMや番組に限らず、例えば、音楽や動画、電子書籍やゲーム、広告など、あらゆるコンテンツを含めることができる。さらに、CMや番組は、サービス又はチャンネル全体、若しくはその一部という場合も想定される。

（受信側とローカル側の機器のハードウェア構成）
　上述した説明では、クライアント装置２０のハードウェア構成について、特に述べていないが、例えば、次のような構成とすることができる。すなわち、クライアント装置２０は、例えば、テレビ受像機として構成されるため、オーディオデコーダ２０１とオーディオスピーカ２０２のほか、例えば、CPU(Central Processing Unit)やメモリ、チューナ、デマルチプレクサ、ビデオデコーダ、ディスプレイ、通信I/Fなどを含んで構成することができる。

　また、音声処理装置３０のハードウェア構成について、特に述べていないが、例えば、次のような構成とすることができる。すなわち、音声処理装置３０は、例えば、スマートスピーカとして構成されるため、オーディオマイク３１１のほか、例えば、CPUやメモリ、スピーカ、通信I/Fなどを含んで構成することができる。

　なお、上述した説明では、クライアント装置２０と音声処理装置３０とは、別々の機器として構成されるとして説明したが、クライアント装置２０と音声処理装置３０とが一体化された機器（同梱型デバイス）として構成されるようにしてもよい。例えば、音声処理装置３０の機能を、音声処理モジュールとして提供し、クライアント装置２０の機能に含めることで、同梱型デバイスとして構成することができる。

　また、サーバ装置１０、クライアント装置２０、音声処理装置３０、及びサーバ装置４０は、情報処理装置であるとも言える。

　また、上述した説明では、クライアント装置２０は、テレビ受像機等の固定受信機、又はスマートフォン等のモバイル受信機であるとして説明したが、クライアント装置２０は、ヘッドマウントディスプレイ（HMD：Head Mounted Display）などのウェアラブルコンピュータであってもよい。さらに、クライアント装置２０は、例えば車載テレビなどの自動車に搭載される機器や、セットトップボックス（STB：Set Top Box）、ゲーム機などであってもよい。すなわち、クライアント装置２０は、コンテンツの再生や録画が可能な機器であれば、いずれの機器であってもよい。

（放送方式の例）
　上述した説明では、放送システム１１の放送方式について特に言及していないが、放送方式としては、例えば、米国等で採用されている方式であるATSC（特に、ATSC3.0）や、日本等が採用する方式であるISDB(Integrated Services Digital Broadcasting)、欧州の各国等が採用する方式であるDVB(Digital Video Broadcasting)などを採用することができる。また、放送経由の配信の場合の伝送路としては、地上波放送のほか、放送衛星（BS：Broadcasting Satellite)や通信衛星（CS：Communications Satellite）等を利用した衛星放送や、ケーブルテレビ（CATV）等の有線放送であってもよい。

（その他）
　本明細書で使用している名称は、一例であって、実際には、他の名称が用いられる場合がある。ただし、これらの名称の違いは、形式的な違いであって、対象のものの実質的な内容が異なるものではない。例えば、上述したウェイクワードは、アクティベーションキーワードや、コマンドワードなどと称される場合がある。

＜４．コンピュータの構成＞

　上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。図２４は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示す図である。

　コンピュータ１０００において、CPU(Central Processing Unit)１００１、ROM(Read Only Memory)１００２、RAM(Random Access Memory)１００３は、バス１００４により相互に接続されている。バス１００４には、さらに、入出力インターフェース１００５が接続されている。入出力インターフェース１００５には、入力部１００６、出力部１００７、記録部１００８、通信部１００９、及び、ドライブ１０１０が接続されている。

　入力部１００６は、キーボード、マウス、マイクロフォンなどよりなる。出力部１００７は、ディスプレイ、スピーカなどよりなる。記録部１００８は、ハードディスクや不揮発性のメモリなどよりなる。通信部１００９は、ネットワークインターフェースなどよりなる。ドライブ１０１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体１０１１を駆動する。

　以上のように構成されるコンピュータ１０００では、CPU１００１が、ROM１００２や記録部１００８に記録されているプログラムを、入出力インターフェース１００５及びバス１００４を介して、RAM１００３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ１０００（CPU１００１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体１０１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線又は無線の伝送媒体を介して提供することができる。

　コンピュータ１０００では、プログラムは、リムーバブル記録媒体１０１１をドライブ１０１０に装着することにより、入出力インターフェース１００５を介して、記録部１００８にインストールすることができる。また、プログラムは、有線又は無線の伝送媒体を介して、通信部１００９で受信し、記録部１００８にインストールすることができる。その他、プログラムは、ROM１００２や記録部１００８に、あらかじめインストールしておくことができる。

　ここで、本明細書において、コンピュータがプログラムに従って行う処理は、必ずしもフローチャートとして記載された順序に沿って時系列に行われる必要はない。すなわち、コンピュータがプログラムに従って行う処理は、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含む。また、プログラムは、１のコンピュータ（プロセッサ）により処理されるものであってもよいし、複数のコンピュータによって分散処理されるものであってもよい。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　また、本技術は、以下のような構成をとることができる。

（１）
　コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える
　情報処理装置。
（２）
　前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンである
　前記（１）に記載の情報処理装置。
（３）
　前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
　前記（１）に記載の情報処理装置。
（４）
　前記トークンを生成する生成部をさらに備え、
　前記挿入部は、前記生成部により生成された前記トークンを、配信対象のコンテンツのオーディオストリームに挿入する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記挿入部は、前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信される前記コンテンツのオーディオストリームに挿入する
　前記（４）に記載の情報処理装置。
（６）
　前記トークンを生成する機能を有するアプリケーションを実行する実行部をさらに備え、
　前記挿入部は、実行中の前記アプリケーションにより生成された前記トークンを、再生対象のコンテンツのオーディオストリームに挿入する
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（７）
　前記挿入部は、放送経由又は通信経由で配信された前記アプリケーションにより生成された前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信された前記コンテンツのオーディオストリームに挿入する
　前記（６）に記載の情報処理装置。
（８）
　前記トークンは、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う側に、あらかじめ通知される
　前記（２）に記載の情報処理装置。
（９）
　前記パラメタは、暗号化されるか、又は改ざん検出用の署名が付与される
　前記（３）に記載の情報処理装置。
（１０）
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する
　情報処理方法。
（１１）
　コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える
　情報処理装置。
（１２）
　前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止するためのトークンである
　前記（１１）に記載の情報処理装置。
（１３）
　前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
　前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を無効にする
　前記（１２）に記載の情報処理装置。
（１４）
　前記トークンは、前記オーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を許可するためのトークンである
　前記（１１）に記載の情報処理装置。
（１５）
　前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
　前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を、後続の処理に渡す
　前記（１４）に記載の情報処理装置。
（１６）
　前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
　前記（１１）に記載の情報処理装置。
（１７）
　前記検出部は、前記コンテンツのオーディオストリームから、前記パラメタが検出された場合、当該パラメタを、後続の処理に渡す
　前記（１６）に記載の情報処理装置。
（１８）
　前記検出部は、前記コンテンツを視聴する視聴者から、前記音声AIアシスタンスサービスのウェイクワードが発話された場合、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う
　前記（１６）又は（１７）に記載の情報処理装置。
（１９）
　放送経由又は通信経由で配信された前記コンテンツの再生を行う他の情報処理装置から出力される前記コンテンツの音声を収音する収音部をさらに備え、
　前記検出部は、前記収音部により収音された前記コンテンツの音声のオーディオストリームに、オーディオウォータマークとして挿入されている前記トークンを検出する
　前記（１１）乃至（１８）のいずれかに記載の情報処理装置。
（２０）
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する
　情報処理方法。

　１　コンテンツ・音声AI連携システム，　１０，１０Ａ，１０Ｂ，１０Ｃ，１０Ｄ　サーバ装置，　１１　放送システム，　１２　ネット配信システム，　２０，２０Ａ，２０Ｂ，２０Ｃ，２０Ｄ　クライアント装置，　３０，３０Ａ，３０Ｂ，３０Ｃ，３０Ｄ　音声処理装置，　４０　サーバ装置，　５０　インターネット，　１０１　CM/番組バンク，　１０２　オーディオデコーダ，　１０３　トークンジェネレータ，　１０４　オーディオWM挿入モジュール，　１０５　オーディオエンコーダ，　１１１　アプリケーションジェネレータ，　２０１　オーディオデコーダ，　２０２　オーディオスピーカ，　２１１　アプリケーション実行環境，　２１２　オーディオWM挿入モジュール，　３０１　収音モジュール，　３０２　オーディオWM検出モジュール，　３０３　音声認識モジュール，　３１１　オーディオマイク，　１０００　コンピュータ，　１００１　CPU

Claims

　コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する挿入部を備える
　情報処理装置。
　前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止又は許可するためのトークンである
　請求項１に記載の情報処理装置。
　前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
　請求項１に記載の情報処理装置。
　前記トークンを生成する生成部をさらに備え、
　前記挿入部は、前記生成部により生成された前記トークンを、配信対象のコンテンツのオーディオストリームに挿入する
　請求項１に記載の情報処理装置。
　前記挿入部は、前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信される前記コンテンツのオーディオストリームに挿入する
　請求項４に記載の情報処理装置。
　前記トークンを生成する機能を有するアプリケーションを実行する実行部をさらに備え、
　前記挿入部は、実行中の前記アプリケーションにより生成された前記トークンを、再生対象のコンテンツのオーディオストリームに挿入する
　請求項１に記載の情報処理装置。
　前記挿入部は、放送経由又は通信経由で配信された前記アプリケーションにより生成された前記トークンを、オーディオウォータマークとして、放送経由又は通信経由で配信された前記コンテンツのオーディオストリームに挿入する
　請求項６に記載の情報処理装置。
　前記トークンは、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う側に、あらかじめ通知される
　請求項２に記載の情報処理装置。
　前記パラメタは、暗号化されるか、又は改ざん検出用の署名が付与される
　請求項３に記載の情報処理装置。
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを、前記コンテンツのオーディオストリームに挿入する
　情報処理方法。
　コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する検出部を備える
　情報処理装置。
　前記トークンは、前記コンテンツのオーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を禁止するためのトークンである
　請求項１１に記載の情報処理装置。
　前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
　前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を無効にする
　請求項１２に記載の情報処理装置。
　前記トークンは、前記オーディオストリームに対する前記音声AIアシスタンスサービスによる音声認識処理を許可するためのトークンである
　請求項１１に記載の情報処理装置。
　前記コンテンツのオーディオストリームに対する音声認識処理を行う音声認識部をさらに備え、
　前記検出部は、前記コンテンツのオーディオストリームから、あらかじめ通知された前記トークンが検出された場合、前記音声認識処理で得られる音声認識結果を、後続の処理に渡す
　請求項１４に記載の情報処理装置。
　前記トークンは、前記音声AIアシスタンスサービスに引き渡されるパラメタである
　請求項１１に記載の情報処理装置。
　前記検出部は、前記コンテンツのオーディオストリームから、前記パラメタが検出された場合、当該パラメタを、後続の処理に渡す
　請求項１６に記載の情報処理装置。
　前記検出部は、前記コンテンツを視聴する視聴者から、前記音声AIアシスタンスサービスのウェイクワードが発話された場合、前記コンテンツのオーディオストリームに挿入された前記トークンの検出を行う
　請求項１７に記載の情報処理装置。
　放送経由又は通信経由で配信された前記コンテンツの再生を行う他の情報処理装置から出力される前記コンテンツの音声を収音する収音部をさらに備え、
　前記検出部は、前記収音部により収音された前記コンテンツの音声のオーディオストリームに、オーディオウォータマークとして挿入されている前記トークンを検出する
　請求項１１に記載の情報処理装置。
　情報処理装置の情報処理方法において、
　前記情報処理装置が、
　コンテンツのオーディオストリームから、前記コンテンツに連携した音声AIアシスタンスサービスの利用に関するトークンを検出する
　情報処理方法。