WO2024047816A1

WO2024047816A1 - 映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム

Info

Publication number: WO2024047816A1
Application number: PCT/JP2022/032863
Authority: WO
Inventors: 隆行黒住; 真二深津; 英一郎松本; 俊彦江浦; 馨亮長谷川
Original assignee: 日本電信電話株式会社
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-03-07

Abstract

一実施形態では、映像関連音再生方法は、入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、前記入力映像特徴と前記参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力する特徴照合過程と、前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、を備える。

Description

映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラム

　この発明の一態様は、映像関連音再生方法、映像関連音再生装置及び映像関連音再生プログラムに関する。

　近年、ある地点で撮影・収録された映像・音声をデジタル化してＩＰ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ）ネットワーク等の通信回線を介して遠隔地にリアルタイム伝送し、遠隔地で映像・音声を再生する映像・音声再生装置が用いられるようになってきた。例えば、音楽ライブの会場で行われている音楽ライブの映像・音声や、競技会場で行われているスポーツ競技試合の映像・音声を遠隔地にリアルタイム伝送するオンラインライブやパブリックビューイング等が盛んに行われている。このような映像・音声の伝送は１対１の一方向伝送にとどまらない。音楽ライブが行われている会場（以下、イベント会場とする）から映像・音声を複数の遠隔地に伝送し、それら複数の遠隔地でもそれぞれ観客がライブを楽しんでいる映像や歓声等の音声を撮影・収録し、それらの映像・音声をイベント会場や他の遠隔地に伝送し、各拠点において大型映像表示装置やスピーカから出力する、というような双方向伝送も行なわれている。

　このような双方向での映像・音声の伝送においては、音楽ライブ等の映像を遠隔地で楽しんでいる顧客が、イベント会場へ接続し、声援を送りたい場合、音をそのままイベント会場内で流すことは難しい。なぜなら、遠隔地の視聴環境では、家庭でのノイズがあったり、音質が不明であったりすることが多いため、視聴環境においてマイクで取得した音をそのままイベント会場で流すと、イベント会場内での観客の視聴品質が損なわれる。

　そこで、クロスモーダル検索を使用して、疑似歓声音を流すということが考えられる（非特許文献１及び非特許文献２）。非特許文献１及び非特許文献２には、映像と関連する音特徴に基づいて、音を選択する方法が記載されている。

弱ラベルで示される特定の共起関係に基づいたクロスモーダル音検索、安田昌弘、大石康智、小泉悠馬、原田登、日本音響学会講演論文集、２０２０年９月 Masahiro Yasuda, Yasunori Ohishi, Yuma Koizumi, and Noboru Harada. Crossmodal Sound Retrieval Based on Specific Target Co-Occurrence Denoted with Weak Labels. Proc. Interspeech 2020, pp. 1446-1450, 2020.

　しかしながら，非特許文献１及び非特許文献２の方法は、映像と関連する音特徴に基づいて、距離や類似度を計算する方法であり、映像に関連する音を再生することは困難である。

　この発明は、上記事情に着目してなされたもので、その目的とするところは、映像に関連する音を再生する技術を提供することにある。

　この発明の一実施形態では、映像関連音再生方法は、入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、前記入力映像特徴と前記参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力する特徴照合過程と、前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、を備える。

　この発明の一態様によれば、映像に関連する音を再生することができる。

図１は、第１の実施形態に係る映像関連音再生システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。図２は、第１の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図３は、第１の実施形態に係る遠隔地での観客の映像の一例を示す図である。図４は、第１の実施形態に係るイベント会場での映像の一例を示す図である。図５は、第１の実施形態に係るサーバの入力映像特徴抽出を示す概念図である。図６は、第１の実施形態に係るサーバの映像関連音再生手順と処理内容の一例を示すフローチャートである。図７は、第２の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図８は、第２の実施形態に係るサーバの映像関連音再生手順と処理内容の一例を示すフローチャートである。図９は、第３の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１０は、第３の実施形態に係るサーバの特徴抽出方法の学習手順と処理内容の一例を示すフローチャートである。図１１は、第４の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。図１２は、第４の実施形態に係るサーバの映像加工手順と処理内容の一例を示すフローチャートである。図１３は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。図１４は、実施形態に係るイベント会場において歓声音及び映像を出力する場合の一例を示す概念図である。

　以下、図面を参照してこの発明に係るいくつかの実施形態を説明する。　
　音楽ライブ会場等のイベント会場において、遠隔地でライブを視聴する観客（以下、リモート観客という）の映像の特徴を利用して歓声音を選択し、イベント会場において再生することを想定する。

　歓声音は、図３に示すようなリモート観客の映像の特徴を利用して再生するものとする。図３は、複数のリモート観客の映像を示す。図３は、複数のリモート観客がペンライトを使用して盛り上がっている状態を示す。例えば、図３に示すような、５×５のマトリックス状の入力映像の特徴を利用して歓声音を選択する。なお、図４に示すようなイベント会場の群衆の映像の特徴を利用して歓声音を選択してもよい。図４は、イベント会場の群衆がペンライトを使用して盛り上がっている状態を示す。この場合、イベント会場の群衆の映像の一部を切り出して入力映像として使用してもよいし、全体を入力映像として使用してもよい。

　図３及び図４に示すように、観客は、ペンライトのような特徴的なアイテムを持ち、通常時と比べて盛り上がっている時にアイテムを使用して盛り上がりを表現することが想定される。

　［第１の実施形態］　
　第１の実施形態は、イベント会場において、リモート観客の映像の特徴を利用して、歓声音を再生する実施形態である。

　（構成例）　
　図１は、第１の実施形態に係る映像関連音再生システムに含まれる各電子機器のハードウェア構成の一例を示すブロック図である。　
　映像関連音再生システムＳは、サーバ１、音声出力装置１０１、映像出力装置１０２、複数の観客用端末２～２ｎを含む。サーバ１、音声出力装置１０１、映像出力装置１０２、複数の観客用端末２～２ｎは、ＩＰネットワークを介して互いに通信可能である。

　サーバ１は、データを収集し、収集したデータを処理する電子機器である。電子機器は、コンピュータを含む。

　音声出力装置１０１は、音声を再生して出力するスピーカを含む装置である。音声出力装置１０１は、例えば、イベント会場において音声を出力する装置である。

　映像出力装置１０２は、映像を再生して表示するディスプレイを含む装置である。例えば、ディスプレイは、液晶ディスプレイである。映像出力装置１０２は、例えば、イベント会場において映像を再生して表示する装置である。

　観客用端末２～２ｎのそれぞれは、複数のリモート観客のそれぞれが使用する端末である。観客用端末２～２ｎのそれぞれは、入力機能、表示機能及び通信機能を備える電子機器である。例えば、観客用端末２～２ｎのそれぞれは、タブレット端末、スマートフォン、又はＰＣ（Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒ）等であるが、これらに限定されない。観客用端末２は、端末の一例である。

　サーバ１の構成例について説明する。　
　サーバ１は、制御部１１、プログラム記憶部１２、データ記憶部１３、通信インタフェース１４及び入出力インタフェース１５を備える。サーバ１が備える各要素は、バスを介して、互いに接続されている。

　制御部１１は、サーバ１の中枢部分に相当する。制御部１１は、中央処理ユニット（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）等のプロセッサを備える。制御部１１は、不揮発性のメモリ領域としてＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）を備える。制御部１１は、揮発性のメモリ領域としてＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）を備える。プロセッサは、ＲＯＭ、又はプログラム記憶部１２に記憶されているプログラムをＲＡＭに展開する。プロセッサがＲＡＭに展開されるプログラムを実行することで、制御部１１は、後述する各機能部を実現する。制御部１１は、コンピュータを構成する。

　プログラム記憶部１２は、記憶媒体としてＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はＳＳＤ（Ｓｏｌｉｄ　Ｓｔａｔｅ　Ｄｒｉｖｅ）等の随時書込み及び読出しが可能な不揮発性メモリで構成される。プログラム記憶部１２は、各種制御処理を実行するために必要なプログラムを記憶する。例えば、プログラム記憶部１２は、制御部１１に実現される後述する各機能部による処理をサーバ１に実行させるプログラムを記憶する。プログラム記憶部１２は、ストレージの一例である。

　データ記憶部１３は、記憶媒体としてＨＤＤ、又はＳＳＤ等の随時書込み及び読出しが可能な不揮発性メモリで構成される。データ記憶部１３は、ストレージ、又は記憶部の一例である。

　通信インタフェース１４は、ＩＰネットワークにより定義される通信プロトコルを使用して、サーバ１を他の電子機器と通信可能に接続する種々のインタフェースを含む。

　入出力インタフェース１５は、サーバ１と音声出力装置１０１、映像出力装置１０２のそれぞれとの通信を可能にするインタフェースである。入出力インタフェース１５は、有線通信のインタフェースを備えていてもいいし、無線通信のインタフェースを備えていてもよい。

　なお、サーバ１のハードウェア構成は、上述の構成に限定されるものではない。サーバ１は、適宜、上述の構成要素の省略、及び変更並びに新たな構成要素の追加を可能とする。

　図２は、第１の実施形態に係る映像関連音再生システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。

　サーバ１は、入力映像特徴抽出部１１０、参照音特徴蓄積部１１１、特徴照合部１１２、及び音再生部１１３を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

　入力映像特徴抽出部１１０は、入力映像から入力映像特徴を抽出する。入力映像は、例えば、図３に示すような、５×５のマトリックス状の映像を含む。入力映像は、例えば、複数のリモート観客の映像を含む。入力映像は、図４に示すようなイベント会場の群衆の映像を含んでもよい。入力映像特徴は、入力映像に見られる特徴である。入力映像特徴は、例えば、入力映像に含まれる人の動き、物、人の表情等を含む。入力映像が観客の映像である場合、入力映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含む。入力映像特徴は、ペンライト、タオル等の物を含んでもよい。入力映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。入力映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きは、盛り上がりを示す。

　入力映像特徴抽出部１１０は、例えば、図５に示すように、入力映像をずらしながら特徴抽出を行う。図５は、第１の実施形態に係るサーバ１の入力映像特徴抽出を示す概念図である。図５に示すように、入力映像特徴抽出部１１０は、入力映像を映像切り出し窓幅に基づいて切り出す。入力映像特徴抽出部１１０は、切り出し間隔に基づいて映像切り出し窓幅の始点を決定する。入力映像特徴抽出部１１０は、ある映像切り出し窓幅の入力映像から特徴を抽出した後、切り出し間隔の分だけずらして、次の映像切り出し窓幅の入力映像から特徴を抽出する。

　入力映像特徴抽出部１１０は、例えば、クロスモーダル検索の対象となる映像の識別に、機械学習を用いて特徴抽出を行ってもよい。入力映像特徴抽出部１１０は、公知の方法により特徴抽出を行ってもよい。

　参照音特徴蓄積部１１１は、予め音源から抽出した参照音特徴を参照特徴として蓄積する。参照音特徴蓄積部１１１は、例えば、歓声音を再生したい場合は、様々な歓声音から抽出された参照音特徴を蓄積する。歓声音は、盛り上がりのある観客の歓声音、盛り上がりのない観客の歓声音等を含む。歓声音は、人の歓声、話し声、周囲の音等を含んでもよい。参照音特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、大きな歓声を示す参照音特徴は、盛り上がりを示す。盛り上がりのある観客の音の参照音特徴は、例えば、大きな歓声である。盛り上がりのない観客の音の参照音特徴は、例えば、歓声音がないことである。なお、参照音特徴は、参照映像から抽出されてもよい。参照音特徴蓄積部１１１は、参照特徴蓄積部の一例である。参照音特徴は、参照特徴の一例である。

　特徴照合部１１２は、入力映像特徴と参照特徴を照合して、入力映像特徴と参照特徴との距離、又は類似度を出力する。この例では、特徴照合部１１２は、入力映像特徴と参照音特徴を照合して、入力映像特徴と参照音特徴との距離、又は類似度を出力する。特徴照合部１１２は、公知の方法により入力映像特徴と参照音特徴との照合を行ってもよい。この場合、特徴照合部１１２は、ユークリッド距離等の距離尺度を使用して入力映像特徴と参照音特徴との照合を行ってもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との照合を繰り返して、各時刻の入力映像特徴と参照音特徴との距離、又は類似度を決定する。

　特徴照合部１１２は、照合結果を尤度として出力してもよい。尤度は、例えば、盛り上がりの程度を示す盛り上がり尤度を含む。尤度は、例えば、「０」、「１」等の数値である。例えば、尤度「０」は、まったく盛り上がりがない状態を示す。尤度「１」は、盛り上がりがある状態を示す。この場合、特徴照合部１１２は、入力映像特徴と参照映像特徴との距離が近い場合、尤度を「１」として出力してもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との距離が遠い場合、尤度を「０」として出力してもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との距離を所定の閾値に基づいて近いか遠いかの判定をしてもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との類似度が高い場合、尤度を「１」として算出してもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との類似度が低い場合、尤度を「０」として算出してもよい。特徴照合部１１２は、入力映像特徴と参照映像特徴との類似度を所定の閾値に基づいて高いか低いかの判定をしてもよい。尤度は、例えば、盛り上がり尤度を含む。

　音再生部１１３は、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生する。音再生部１１３は、選択された参照音特徴に基づいて歓声音源を再生する。音再生部１１３は、例えば、入力映像特徴と参照特徴の距離が、予め設定した閾値未満の場合、歓声音を再生してもよい。音再生部１１３は、入力映像特徴と参照特徴の距離が、閾値以上の場合、歓声音を再生しなくてもよい。音再生部１１３は、入力映像の内容に応じて、歓声音の再生制御を行う。音再生部１１３は、入力映像特徴と参照特徴の類似度が、予め設定した閾値以上の場合、歓声音を再生してもよい。音再生部１１３は、入力映像特徴と参照特徴の類似度が、閾値未満の場合、歓声音を再生しなくてもよい。照合結果が尤度である場合について説明する。音再生部１１３は、尤度が予め設定した閾値以上の場合、歓声音を再生してもよい。音再生部１１３は、尤度が閾値未満の場合、歓声音を再生しなくてもよい。

　音再生部１１３は、尤度が大きい値ほど、歓声音の再生音量を大きくしてもよい。尤度が「１」である場合、音再生部１１３は、入力された歓声音の音量を「最大音量」にして再生してもよい。音再生部１１３により再生される音の音量は、例えば、「最小音量」、「最大音量」を含む。「最小音量」は、例えば、無音状態を示す。「最小音量」は、例えば「０」である。例えば、尤度が「０」である場合、音再生部１１３は、入力された歓声音の音量を「最小音量」にして再生してもよい。なお、尤度は、「１」及び「０」の２段階に限られず、複数の段階があればよい。例えば、尤度が「２」、「１」、「０」である場合、再生される音の音量は、「最小音量」、「半分の音量」、「最大音量」を含んでもよい。以下の説明において、「再生」は、「出力」、又は「送信」と読み替えてもよい。

　（動作例）　
　サーバ１による処理の手順について説明する。　
　なお、以下のサーバ１を主体とする説明では、サーバ１を制御部１１と読み替えてもよい。

　なお、以下で説明する処理手順は一例に過ぎず、各処理は可能な限り変更されてよい。また、以下で説明する処理手順について、実施形態に応じて、適宜、ステップの省略、置換、及び追加が可能である。

　図６は、第１の実施形態に係るサーバ１の映像関連音再生手順と処理内容の一例を示すフローチャートである。

　以下の処理では、入力映像、参照音特徴、及び再生音源を入力とし、再生音を出力とする。入力映像は、観客用端末２～２ｎから取得されるリモート観客の映像であるとする。参照音特徴は、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴であるとする。盛り上がりのある観客の音の参照音特徴は、尤度「１」と紐づけられている。盛り上がりのない観客の音の参照音特徴は、尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照音特徴は、大きな歓声である。再生音源は、観客用端末２～２ｎから取得されるリモート観客の歓声音であり、再生音は、イベント会場において再生される歓声音であるとする。

　参照音特徴蓄積部１１１は、予め音源から抽出した参照音特徴を蓄積する（ステップＳ１）。ステップＳ１では、例えば、参照音特徴蓄積部１１１は、盛り上がりのある観客の音の参照音特徴と、盛り上がりのない観客の音の参照音特徴を蓄積する。

　入力映像特徴抽出部１１０は、入力映像を取得したか否かを判定する（ステップＳ２）。入力映像特徴抽出部１１０により、入力映像を取得したと判定された場合（ステップＳ２：ＹＥＳ）、処理は、ステップＳ２からステップＳ３へ遷移する。入力映像特徴抽出部１１０により、入力映像を取得していないと判定された場合（ステップＳ２：ＮＯ）、処理は、ステップＳ２を繰り返す。

　入力映像特徴抽出部１１０は、入力映像から入力映像特徴を抽出する（ステップＳ３）。ステップＳ３では、例えば、入力映像特徴抽出部１１０は、図５に示すように、入力映像をずらしながら入力映像特徴を抽出する。

　特徴照合部１１２は、入力映像特徴と参照特徴を照合する（ステップＳ４）。ステップＳ４では、例えば、特徴照合部１１２は、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の距離、又は類似度を出力する。特徴照合部１１２は、入力映像特徴と参照音特徴の距離、又は類似度を尤度として出力してもよい。

　音再生部１１３は、照合結果に基づいて、入力映像特徴と参照音特徴の距離が所定の閾値未満であるか否かを判定する（ステップＳ５）。この例では、特徴照合部１１２は、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の距離を出力する。音再生部１１３により、入力映像特徴と参照音特徴の距離が所定の閾値未満であると判定された場合（ステップＳ５：ＹＥＳ）、処理は、ステップＳ５からステップＳ６へ遷移する。音再生部１１３により、入力映像特徴と参照音特徴の距離が所定の閾値未満でないと判定された場合（ステップＳ５：ＮＯ）、処理は、ステップＳ５からステップＳ７へ遷移する。特徴照合部１１２が、入力映像特徴と参照音特徴とを照合し、入力映像特徴と参照音特徴の類似度を出力する場合について説明する。音再生部１１３は、入力映像特徴と参照音特徴の類似度と所定の閾値を比較する。音再生部１１３は、類似度が所定の閾値より大きいか否かを判定する。音再生部１１３により、入力映像特徴と参照音特徴の類似度が所定の閾値より大きいと判定された場合（ステップＳ５：ＹＥＳ）、処理は、ステップＳ５からステップＳ６へ遷移する。音再生部１１３により、入力映像特徴と参照音特徴の類似度が所定の閾値以下であると判定された場合（ステップＳ５：ＮＯ）、処理は、ステップＳ５からステップＳ７へ遷移する。特徴照合部１１２が、入力映像特徴と参照音特徴とを照合し、尤度を出力する場合について説明する。音再生部１１３は、尤度と所定の閾値を比較する。音再生部１１３は、尤度が所定の閾値より大きいか否かを判定する。音再生部１１３により、尤度が所定の閾値より大きいと判定された場合（ステップＳ５：ＹＥＳ）、処理は、ステップＳ５からステップＳ６へ遷移する。音再生部１１３により、尤度が所定の閾値以下であると判定された場合（ステップＳ５：ＮＯ）、処理は、ステップＳ５からステップＳ７へ遷移する。

　音再生部１１３は、再生音を再生する（ステップＳ６）。ステップＳ６では、例えば、音再生部１１３は、選択された参照音特徴に紐づいた歓声音源を再生する。

　入力映像特徴抽出部１１０は、全ての入力映像が処理されたか否かを判定する（ステップＳ７）。入力映像特徴抽出部１１０により、全ての入力映像が処理されたと判定された場合（ステップＳ７：ＹＥＳ）、処理は、終了する。入力映像特徴抽出部１１０により、全ての入力映像が処理されていないと判定された場合（ステップＳ７：ＮＯ）、処理は、ステップＳ７からステップＳ２へ遷移する。

　［第２の実施形態］　
　第２の実施形態は、尤度に基づいて、音の再生を行う実施形態である。第２の実施形態は、尤度を出力するまでの処理は、第１の実施形態と同様であるため、説明を省略する。

　（構成例）　
　第２の実施形態では、第１の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第２の実施形態では、主として、第１の実施形態と異なる部分について説明する。

　図７は、第２の実施形態に係る映像関連音再生システムを構成するサーバ１のソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、入力映像特徴抽出部１１０、参照映像特徴蓄積部１１４、特徴照合部１１２、尤度計算部１１５、及び音再生部１１３を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

　参照映像特徴蓄積部１１４は、予め音源に紐づけられた映像から抽出した参照映像特徴を蓄積する。参照映像特徴蓄積部１１４は、例えば、歓声音を検出したい場合は、歓声を上げている映像から参照映像特徴を抽出する。参照映像特徴蓄積部１１４は、歓声音でないということも検出するために、歓声を上げていない映像から抽出した参照映像特徴も用意しておく。歓声を上げている映像は、盛り上がりのある観客の映像の参照映像特徴を含む。歓声を上げていない映像は、盛り上がりのない観客の映像の参照映像特徴を含む。参照映像特徴蓄積部１１４は、歓声を上げている参照映像特徴に盛り上がり尤度Ｌ＝１、歓声を上げていない参照映像特徴に盛り上がり尤度Ｌ＝０を対応づけておく。

　なお、参照映像特徴は、ペンライトを振る動き、タオルを持ち上げる動き、手を上にあげる動き、手を左右に振る動き等の人の動きを含んでもよい。参照映像特徴は、ペンライト、タオル等の物を含んでもよい。参照映像特徴は、笑顔、泣き顔等の人の表情を含んでもよい。参照映像特徴は、イベントの盛り上がりを判定するために使用され得る。例えば、ペンライトを振る動きを示す参照映像特徴は、盛り上がりを示す。盛り上がりのある観客の映像の参照映像特徴は、例えば、ペンライトを振る動きである。盛り上がりのない観客の映像の参照映像特徴は、例えば、ペンライトを持っていないことである。例えば、盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「０」と紐づけられている。参照映像特徴蓄積部１１４は、参照特徴蓄積部の一例である。参照映像特徴は、参照特徴の一例である。

　尤度計算部１１５は、入力映像特徴と予め尤度に紐づけておいた参照特徴との照合の結果に基づいて、入力映像特徴と最も距離の近い参照特徴、又は、入力映像特徴と最も類似度の高い参照特徴に対応する尤度を出力する。尤度計算部１１５は、参照映像特徴のうち、入力映像特徴と最も距離が近い参照映像特徴、又は入力映像特徴と最も類似度の高い参照映像特徴を選択し、選択された参照映像特徴に対応する尤度Ｌを尤度計算の結果とする。尤度計算部１１５は、入力映像から抽出された入力映像特徴をキーとして蓄積された全ての参照映像特徴を照合し、入力映像特徴と参照映像特徴との距離、又は類似度を計算する。

　音再生部１１３は、尤度計算結果として算出された尤度に基づいて音を再生する。音再生部１１３は、例えば、尤度がＬ＝０のときは無音にする。音再生部１１３は、尤度がＬ＝１のときは、歓声音を再生する。

　（動作例）　
　図８は、第２の実施形態に係るサーバ１の映像関連音再生手順と処理内容の一例を示すフローチャートである。　
　以下の処理では、入力映像、参照映像特徴、及び再生音源を入力とし、加工映像及び再生音を出力とする。入力映像は、例えば、観客用端末２～２ｎから取得されるリモート観客のカメラの映像ような低品質な映像である。参照映像特徴は、例えば、検索用に蓄積される参照映像特徴である。参照映像特徴として、盛り上がりのある観客の映像の参照映像特徴と、盛り上がりのない観客の映像の参照映像特徴が入力される。盛り上がりのある観客の映像の参照映像特徴は、盛り上がり尤度「１」と紐づけられている。盛り上がりのない観客の映像の参照映像特徴は、盛り上がり尤度「０」と紐づけられている。例えば、盛り上がりのある観客の映像の参照映像特徴は、歓声を上げている観客である。再生音源は、例えば、会場で再生するための高品質な再生用の音源である。再生音は、イベント会場において再生される歓声音であるとする。

　入力映像特徴抽出部１１０は、入力映像から入力映像特徴を抽出する（ステップＳ１１）。入力映像が、リモート観客が歓声を上げている映像である場合について説明する。ステップＳ２１では、例えば、入力映像特徴抽出部１１０は、入力映像から歓声を上げているという入力映像特徴を抽出する。

　参照映像特徴蓄積部１１４は、予め音源に紐づけられた参照映像から抽出した参照映像特徴を取得する（ステップＳ１２）。ステップＳ１２では、例えば、参照映像特徴蓄積部１１４は、歓声に紐づけられた盛り上がりのある観客の映像から抽出した参照映像特徴と、歓声を上げていない観客の音源に紐づけられた盛り上がりのない観客の映像から抽出した参照映像特徴を取得する。参照映像特徴蓄積部１１４は、参照映像特徴を蓄積する。

　尤度計算部１１５は、入力映像特徴と予め尤度に紐づけておいた参照映像特徴との照合の結果に基づいて、尤度を決定する（ステップＳ１３）。ステップＳ１３では、例えば、尤度計算部１１５は、入力映像特徴と参照映像特徴とを照合する。尤度計算部１１５は、照合結果として得られる入力映像特徴と参照映像特徴との距離、又は類似度に基づいて、最も近い参照映像特徴を選択し、それに対応する尤度を出力する。尤度計算部１１５は、参照映像特徴のうち、最も距離が近い参照映像特徴、又は最も類似度の高い参照映像特徴を選択し、選択された参照映像特徴に対応する尤度を尤度計算の結果としてもよい。なお、尤度計算部１１５は、入力映像から抽出された入力映像特徴をキーとして蓄積された全ての参照映像特徴を入力映像特徴と照合し、入力映像特徴と参照映像特徴との距離、又は類似度を計算してもよい。

　制御部１１は、ステップＳ１１～Ｓ１３の処理を繰り返し、各時刻の尤度を決定する。

　なお、この例では、音再生部１１３は、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生する。音再生部１１３は、尤度に基づいて再生音の制御を行う。例えば、尤度Ｌ＝０のときは無音にする。音再生部１１３は、尤度Ｌ＝１のときは、歓声音を再生する。音再生部１１３は、尤度に基づいて再生音の音量を変えてもよい。

　［第３の実施形態］　
　第３の実施形態は、複数の観客の映像と歓声音を対応付けて学習し、特徴抽出を歓声、又は盛り上がりに特化するよう最適化する実施形態である。第３の実施形態は、特徴抽出処理以外の処理は、第１の実施形態、及び第２の実施形態と同様であるため、それらの説明を省略する。

　（構成例）　
　第３の実施形態では、第１の実施形態、及び第２の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第３の実施形態では、主として、第１の実施形態、及び第２の実施形態と異なる部分について説明する。

　図９は、第３の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、入力映像特徴抽出部１１０、参照音特徴蓄積部１１１、特徴抽出学習部１１６、特徴照合部１１２、尤度計算部１１５、及び音再生部１１３を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

　特徴抽出学習部１１６は、複数の映像と音の対応による特徴抽出方法を学習する。特徴抽出学習部１１６は、複数の歓声音と複数の盛り上がり映像を対応付けて学習する。特徴抽出学習部１１６は、公知の方法により学習を実施してもよい。

　（動作例）　
　図１０は、第３の実施形態に係るサーバの特徴抽出方法の学習手順と処理内容の一例を示すフローチャートである。　
　以下の処理では、学習映像、学習音、入力映像、参照音特徴、及び再生音源を入力とし、再生音を出力とする。学習映像は、例えば、複数の観客の映像である。観客の映像は、盛り上がりのある観客の映像、盛り上がりのない観客の映像を含む。観客の映像は、観客の盛り上がりの程度に応じた複数の映像を含む。観客の映像は、盛り上がり映像ともいう。学習音は、観客の歓声音である。歓声音は、盛り上がりのある観客の歓声音、盛り上がりのない観客の歓声音を含む。盛り上がりのない観客の歓声音は、歓声を上げていない観客の音声を含む。歓声を上げていない観客の音声は、無音を含む。歓声音、観客の盛り上がりの程度に応じた複数の音声を含む。

　特徴抽出学習部１１６は、学習映像、及び学習音を取得する（ステップＳ２１）。ステップＳ２１では、例えば、特徴抽出学習部１１６は、複数の歓声音と複数の盛り上がり映像を取得する。

　特徴抽出学習部１１６は、複数の歓声音と複数の盛り上がり映像を用いて機械学習等により構築された特徴を抽出するための特徴抽出モデルを生成する（ステップＳ２２）。特徴抽出モデルは、歓声音と盛り上がり映像を入力として、入力映像特徴、又は参照音特徴を出力とするモデルである。なお、特徴抽出モデルは、参照映像特徴を出力とするモデルであってもよい。特徴抽出学習部１１６は、機械学習により、特徴抽出方法を学習する。特徴抽出学習部１１６は、歓声音と盛り上がり映像との対応関係に基づいて、入力映像、又は参照音から抽出する特徴を推定する。機械学習は、ニューラルネットワーク等であるが、これに限定されない。歓声音は、盛り上がりの程度に応じて変化するため、歓声音と盛り上がり映像との間には、一定の相関関係があり得る。したがって、特徴と、入力映像、又は参照音との間にも、一定の相関関係があり得る。

　特徴抽出学習部１１６は、特徴抽出モデルを記憶する（ステップＳ２３）。

　［第４の実施形態］　
　第４の実施形態は、尤度に基づいて、映像の加工を行う実施形態である。第４の実施形態は、映像の加工を行う処理以外は、第１の実施形態、及び第２の実施形態と同様であるため、それらの説明を省略する。

　（構成例）　
　第４の実施形態では、第１の実施形態、及び第２の実施形態と同様の構成については同一の符号を付し、その説明を省略する。第３の実施形態では、主として、第１の実施形態、及び第２の実施形態と異なる部分について説明する。

　図１１は、第４の実施形態に係る映像関連音再生システムを構成するサーバのソフトウェア構成の一例を示すブロック図である。　
　サーバ１は、入力映像特徴抽出部１１０、参照音特徴蓄積部１１１、特徴照合部１１２、尤度計算部１１５、音再生部１１３、及び映像加工部１１７を備える。各機能部は、制御部１１によるプログラムの実行によって実現される。各機能部は、制御部１１又はプロセッサが備えるということもできる。各機能部は、制御部１１又はプロセッサと読み替え可能である。

　映像加工部１１７は、特徴照合部１１２による照合結果に基づいて原映像を加工する。映像加工部１１７は、例えば、ＸＲ（ｅｘｔｅｎｄｅｄ　ｒｅａｌｉｔｙ）等により原映像を加工する。原映像は、例えば、図３に示すような、５×５のマトリックス状の映像を含む。原映像は、例えば、複数のリモート観客の映像を含む。原映像は、図４に示すようなイベント会場の群衆の映像を含んでもよい。映像加工部１１７は、照合結果に基づいて、原映像の盛り上がりの程度が大きいほど、大きな映像効果を原映像に加えてもよい。映像加工部１１７は、尤度が大きい値であるほど、大きな映像効果を原映像に加えてもよい。映像効果は、例えば、原映像に星印を散りばめる映像効果、所定の頻度で原映像を点滅させる映像効果等を含んでもよい。映像加工部１１７は、例えば、尤度が大きいほど、多くの星印を散りばめる映像効果を加えてもよい。映像加工部１１７は、尤度が大きいほど、高い頻度で原映像を点滅させる映像効果を加えてもよい。例えば、尤度が「２」である場合、映像加工部１１７は、尤度が「１」の場合より大きな映像効果を加える。尤度が「１」である場合、映像加工部１１７は、尤度が「０」の場合より大きく、尤度が「２」の場合より小さい映像効果を加えてもよい。尤度が「０」である場合、映像加工部１１７は、尤度が「１」の場合より小さい映像効果を加える。映像加工部１１７は、尤度に基づいて、少なくとも１種類の映像効果を原映像に加える。映像加工部１１７は、尤度に基づいて、加える映像効果の種類の数を変えてもよい。映像加工部１１７は、原映像に映像効果を加えた加工映像を出力する。

　（動作例）
　図１２は、第４の実施形態に係るサーバ１の映像加工手順と処理内容の一例を示すフローチャートである。　
　以下では、特徴照合部１１２による照合結果に基づいて、原映像を加工する処理について説明する。以下の処理では、入力映像、原映像、参照音特徴、及び再生音源を入力とし、加工映像、及び再生音を出力とする。原映像は、観客用端末２～２ｎから取得されるリモート観客の映像であるとする。加工映像は、原映像を加工した映像である。

　映像加工部１１７は、尤度計算部１１５により出力された尤度に基づいて原映像を加工する。（ステップＳ３１）。この例では、映像効果は、星印を散りばめることであるとする。例えば、盛り上がり尤度が「２」である場合、映像加工部１１７は、リモート観客の映像に盛り上がり尤度が「１」の場合より多くの数の星印を散りばめる映像効果を加える。

　映像加工部１１７は、加工映像を出力する（ステップＳ３２）。ステップＳ３２では、例えば、映像加工部１１７は、リモート観客の映像に映像効果を加えた加工映像を出力する。映像加工部１１７は、入出力インタフェース１５を介して、映像出力装置１０２に加工映像を出力する。映像出力装置１０２は、加工映像を出力する。

　イベント会場において群衆の映像を撮影する方法について説明する。　
　図１３は、実施形態に係るイベント会場での映像の撮影方法の一例を示す図である。　
　図１３に示すように、イベント会場内に設置されたカメラにより会場内の群衆を撮影する。会場内のカメラにより例えば、図４に示すような群衆の映像が撮影される。例えば、会場内のカメラは、会場のステージ側に設置され、客席側を撮影するように設置される。会場内のカメラは、１つに限られず、複数個設置されてもよい。群衆の映像は、少なくとも１つのカメラにより撮影された映像から選択される映像であってもよい。

　イベント会場において再生される歓声音及び加工映像の一例について説明する。　
　図１４は、実施形態に係るイベント会場において歓声音及び映像を出力する場合の一例を示す概念図である。　
　図１４に示すように、例えば、イベント会場においてステージの左右に大画面ディスプレイ、及び会場スピーカが設置される。左右の大画面ディスプレイ、左右の会場スピーカは、それぞれ別々のリモート観客のグループの映像に基づく映像、及び歓声が出力される場合について説明する。大画面ディスプレイは、映像出力装置１０２の一例である。会場スピーカは、音声出力装置１０１の一例である。

　例えば、右側のディスプレイに出力されるリモート観客のグループの映像、及び歓声音に基づいて、特徴照合部１１２は、尤度を出力する。

　音再生部１１３は、判定結果に基づいて、歓声音を右側の会場スピーカから出力する。映像加工部１１７は、判定結果に基づいて、原映像を加工して、加工映像をリモート観客の観客用端末２～２ｎに出力する。

　左側のディスプレイに出力されるリモート観客のグループの映像、及び歓声音に基づく処理も上述の処理と同様である。

　この例によれば、リモート観客の複数のグループに基づいて、イベント会場に歓声音をおいて歓声音を鳴らし分けることができる。

　特徴照合部１１２は、イベント会場の群衆の映像、及び歓声音に基づいて、尤度を出力してもよい。この場合、音再生部１１３は、判定結果に基づいて、歓声音を左右の会場スピーカから出力してもよい。

　（効果）　
　上述の実施形態では、サーバ１は、入力映像から入力映像特徴を抽出し、予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積し、入力映像特徴と参照特徴を照合して、入力映像特徴と参照特徴との距離、又は、類似度を出力し、入力映像特徴と参照特徴との照合結果に基づいて、音源を再生することができる。そのため、サーバ１は、入力映像の特徴と関連する参照特徴に基づいて、入力映像に関連する音を再生することができる。

　上述の実施形態では、サーバ１は、予め音源に紐づいた参照特徴を蓄積し、入力映像特徴に対して参照音特徴、又は参照映像特徴の少なくとも一方と照合することができる。そのため、サーバ１は、入力映像の特徴と様々な音源の参照特徴に基づいて、入力映像により関連する音を再生することができる。

　上述の実施形態では、サーバ１は、入力映像特徴と予め尤度に紐付いた参照特徴との照合の結果に基づいて、入力映像特徴と最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力することができる。そのため、サーバ１は、入力映像特徴とより関連のある参照特徴に基づいて尤度を出力し、尤度に基づいて音を再生することができる。これにより、サーバ１は、入力映像特徴とより関連する音を再生することができる。

　上述の実施形態では、サーバ１は、尤度に基づいて、音量を変更することができる。そのため、サーバ１は、入力映像特徴と関連する音を入力映像特徴に適した音量で再生することができる。

　上述の実施形態では、サーバ１は、複数の映像と音の対応による特徴抽出方法を学習することができる。これにより、サーバ１は、予め学習した映像と音に特化した特徴抽出を実現することができる。例えば、サーバ１は、特徴抽出を歓声音と盛り上がり映像を対応付けて学習することで，特徴抽出を歓声や盛り上がりに特化する形に最適化することができる。

　［その他の実施形態］　
　映像関連音再生装置は、上記の例で説明したように１つの装置で実現されてもよいし、機能を分散させた複数の装置で実現されてもよい。

　プログラムは、電子機器に記憶された状態で譲渡されてよいし、電子機器に記憶されていない状態で譲渡されてもよい。後者の場合は、プログラムは、ネットワークを介して譲渡されてよいし、記録媒体に記録された状態で譲渡されてもよい。記録媒体は、非一時的な有形の媒体である。記録媒体は、コンピュータ可読媒体である。記録媒体は、ＣＤ－ＲＯＭ、メモリカード等のプログラムを記憶可能かつコンピュータで読取可能な媒体であればよく、その形態は問わない。

　以上、本発明の実施形態を詳細に説明してきたが、前述までの説明はあらゆる点において本発明の例示に過ぎない。本発明の範囲を逸脱することなく種々の改良や変形を行うことができることは言うまでもない。つまり、本発明の実施にあたって、実施形態に応じた具体的構成が適宜採用されてもよい。

　要するにこの発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態に亘る構成要素を適宜組み合せてもよい。

　上述の実施形態は、電子機器だけでなく、電子機器が実行する方法に適用されてもよい。上述の実施形態は、電子機器が備える各部の処理をコンピュータに実行させることが可能なプログラムに適用されてもよい。

　１　サーバ
　２～２ｎ　観客用端末
　１１　制御部
　１２　プログラム記憶部
　１３　データ記憶部
　１４　通信インタフェース
　１５　入出力インタフェース
　１０１　音声出力装置
　１０２　映像出力装置
　１１０　入力映像特徴抽出部
　１１１　参照音特徴蓄積部
　１１２　特徴照合部
　１１３　音再生部
　１１４　参照映像特徴蓄積部
　１１５　尤度計算部
　１１６　特徴抽出学習部
　１１７　映像加工部
　Ｓ　映像関連音再生システム

Claims

　入力映像から入力映像特徴を抽出する入力映像特徴抽出過程と、
　予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積過程と、
　前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力する特徴照合過程と、
　前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生過程と、
　を備える、映像関連音再生方法。
　前記参照特徴蓄積過程は、予め前記音源に紐づいた参照特徴を蓄積する、
　請求項１に記載の映像関連音再生方法。
　前記特徴照合過程は、前記入力映像特徴に対して参照音特徴、又は参照映像特徴の少なくとも一方と照合する、
　請求項１に記載の映像関連音再生方法。
　前記入力映像特徴と予め尤度に紐付いた参照特徴との照合の結果に基づいて、前記入力映像特徴と最も距離の近い参照特徴、又は、最も類似度の高い参照特徴に対応する尤度を出力する尤度計算過程をさらに備える、
　請求項１に記載の映像関連音再生方法。
　前記音再生過程は、前記尤度に基づいて、音量を変更する、
　請求項４に記載の映像関連音再生方法。
　複数の映像と音の対応による特徴抽出方法を学習する特徴抽出学習過程をさらに備える、
　請求項１に記載の映像関連音再生方法。
　入力映像から入力映像特徴を抽出する入力映像特徴抽出部と、
　予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積する参照特徴蓄積部と、
　前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力する特徴照合部と、
　前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生する音再生部と、
　を備える、映像関連音再生装置。
　コンピュータに、
　入力映像から入力映像特徴を抽出することと、
　予め映像、又は音の少なくとも一方から抽出した参照特徴を蓄積することと、
　前記入力映像特徴と前記参照特徴を照合して、前記入力映像特徴と前記参照特徴との距離、又は、類似度を出力することと、
　前記入力映像特徴と前記参照特徴との照合結果に基づいて、音源を再生することと、
　を実行させるための映像関連音再生プログラム。