WO2021095536A1

WO2021095536A1 - 情報処理装置、情報処理方法、並びにプログラム

Info

Publication number: WO2021095536A1
Application number: PCT/JP2020/040561
Authority: WO
Inventors: 諒横山; 猛史荻田
Original assignee: ソニーグループ株式会社
Priority date: 2019-11-12
Filing date: 2020-10-29
Publication date: 2021-05-20
Also published as: CN114731456A; US20220392496A1; US11887631B2

Abstract

本技術は、映像と音が一致した状態で提供することができるようにする情報処理装置、情報処理方法、並びにプログラムに関する。映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、判定部により映像に対して音が遅延しているコンテンツであると判定された場合、映像を所定の時間だけ遅延させて再生する処理部とを備える。処理部は、音源が音を出したときの映像と音が一致するように映像を遅延させて再生する。所定の時間は、音が遅延している時間に相当する。本技術は、映像を処理する情報処理装置に適用できる。

Description

情報処理装置、情報処理方法、並びにプログラム

　本技術は、情報処理装置、情報処理方法、並びにプログラムに関し、例えば、映像と音を違和感がないように提示するようにした情報処理装置、情報処理方法、並びにプログラムに関する。

　例えば、音と、その音を出した音源の映像を視聴したときに、光速と音速の違いにより、映像よりも音が遅れて視聴者に届くことがある。このような音の遅延は、音源からの距離が離れるほど顕著に表れる。

　特許文献１では、ユーザに触覚を与える触覚デバイスを用いたときに、音の到達遅延を考慮して、触覚デバイスの出力タイミングを調整することが提案されている。

ＷＯ２０１９／０１３０５６Ａ１号公報

　上記したように、音と、その音を出した音源の映像を視聴したときに、映像よりも音が遅延して届くことがある。このような音の遅延、換言すれば、映像と音の不一致は、視聴者に違和感を与える一因となる可能性があった。

　本技術は、このような状況に鑑みてなされたものであり、映像と音を違和感がないように提供できるようにするものである。

　本技術の一側面の情報処理装置は、映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部とを備える。

　本技術の一側面の情報処理方法は、映像を処理する情報処理装置が、映像に対して音が遅延しているコンテンツであるか否かを判定し、映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する。

　本技術の一側面のプログラムは、コンピュータに、映像に対して音が遅延しているコンテンツであるか否かを判定し、映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生するステップを含む処理を実行させる。

　本技術の一側面の情報処理装置、情報処理方法、並びにプログラムにおいては、映像に対して音が遅延しているコンテンツである場合、映像が所定の時間だけ遅延されて再生される。

　なお、情報処理装置は、独立した装置であっても良いし、１つの装置を構成している内部ブロックであっても良い。

　また、プログラムは、伝送媒体を介して伝送することにより、または、記録媒体に記録して、提供することができる。

本技術を適用したシステムの一実施の形態の構成を示す図である。本技術を適用したコンテンツ処理装置の一実施の形態の構成を示す図である。遅延を含むコンテンツについて説明するための図である。遅延を含むコンテンツについて説明するための図である。ＡＲグラスの外観の構成例を示す図である。映像の遅延について説明するための図である。コンテンツの第１の処理について説明するためのフローチャートである。遅延量の設定処理の詳細について説明するためのフローチャートである。映像と音を遅延させる場合について説明するための図である。映像と音を遅延させる場合について説明するための図である。コンテンツの第２の処理について説明するためのフローチャートである。遅延量の設定処理の詳細について説明するためのフローチャートである。音遅延量の設定の仕方について説明するための図である。放送コンテンツの処理例について説明するための図である。放送コンテンツの処理例について説明するための図である。 VRコンテンツの処理例について説明するための図である。パーソナルコンピュータの構成例を示す図である。

　以下に、本技術を実施するための形態（以下、実施の形態という）について説明する。

　＜情報処理システムの構成＞
　本技術は、映像と音を含むコンテンツを生成し、生成されたコンテンツを再生するシステムに適用できる。また映像と音を、ユーザが違和感を覚えることがないように編集し、その編集されたコンテンツを再生するシステムに適用できる。

　以下の説明において、コンテンツとは、映像と音を含むコンテンツである。また、映像と音のどちらか一方または両方が、視聴者に直接的または間接的に提供されるコンテンツである場合も含まれる。

　視聴者に直接的に提供されるとは、何らかの処理が行われることなく、視聴者に提供されることを意味し、間接的に提供されるとは、何らかの処理が行われて、視聴者に提供されることを意味するとする。

　例えば、視聴者に直接的に音が提供されるとは、音源で出された音が、何らかの処理が行われることなく視聴者の耳に届くことを意味し、視聴者に間接的に音が提供されるとは、音源で出された音が、エフェクトなどの何らかの処理が施されたあと、視聴者の耳に届くことを意味する。

　また、後述するように、映像は音に対して所定の遅延量だけ遅延されて視聴者に提供されるが、このような遅延された映像が視聴者に提供されるのは、視聴者に間接的に映像が提供される場合の一例である。

　図１は、本技術を適用したコンテンツを処理する情報処理システムの一実施の形態の構成を示す図である。情報処理システムは、コンテンツ配信装置１１、コンテンツ処理装置１２、映像提示デバイス１３、音提示デバイス１４、および触覚提示デバイス１５を含む。

　コンテンツ配信装置１１は、コンテンツを配信する。コンテンツの配信は、ネットワークを介して行われたり、テレビジョン放送として行われたりする。また、記録媒体にコンテンツが記録されることで配信されても良い。

　コンテンツ処理装置１２は、コンテンツ配信装置１１から配信されたコンテンツを受信し、処理する。コンテンツ処理装置１２は、テレビジョン受像器、パーソナルコンピュータ（ＰＣ）、スマートフォンなどである。コンテンツ配信装置１１とコンテンツ処理装置１２との間での通信は、有線であっても無線であっても良い。

　またコンテンツ処理装置１２は、コンテンツ処理装置１２自身がコンテンツ生成する機能を有していても良い。例えば、コンテンツ処理装置１２は、カメラを有し、カメラで撮影された映像をコンテンツとして処理する構成とされていても良い。例えば、後述するように、コンテンツ処理装置１２は、ＡＲグラス（augmented reality glass）などでも良い。

　映像提示デバイス１３は、コンテンツ処理装置１２により処理されたコンテンツに含まれる映像データに基づく映像をユーザに提示するデバイスである。映像提示デバイス１３は、例えば、モニタ、プロジェクタ、ＨＭＤ（Head Mounted Display）などである。

　音提示デバイス１４は、コンテンツ処理装置１２により処理されたコンテンツに含まれる音データに基づく音をユーザに提示するデバイスである。音提示デバイス１４は、スピーカ、イヤホンなどである。

　触覚提示デバイス１５は、映像や音に合った振動をユーザに提示するデバイスである。触覚提示デバイス１５は、例えば、振動子が組み込まれたリストバンド、グローブ、ベスト、コントローラなどである。

　コンテンツ処理装置１２、映像提示デバイス１３、および音提示デバイス１４は、１台の装置として構成されていても良く、テレビジョン受像器、パーソナルコンピュータ（ＰＣ）、スマートフォンなどで構成することができる。さらに、触覚提示デバイス１５も１台の装置に組み込まれていても良く、例えばスマートフォンなどには、バイブレーション機能があり、そのバイブレーション機能を実現するデバイスを、触覚提示デバイス１５として用いるようにしても良い。

　図２は、コンテンツ処理装置１２の機能構成例を示す図である。コンテンツ処理装置１２は、コンテンツ取得部３１、コンテンツ解析部３２、遅延処理部３３、映像制御部３４、音制御部３５、および触覚制御部３６を含む。

　コンテンツ取得部３１は、配信されたコンテンツの受信を制御したり、自己が備えるカメラで撮影された映像をコンテンツとして取得したりする。またマイクロフォンなどの集音装置を備えている場合、コンテンツ取得部３１が、集音装置で集音された音も取得する。コンテンツ取得部３１により取得が制御されたコンテンツは、コンテンツ解析部３２に供給される。

　コンテンツ解析部３２は、コンテンツ取得部３１から供給されたコンテンツを解析する。コンテンツ解析部３２が行う解析は、主にコンテンツが遅延を含むコンテンツであるか否かを判定するための解析を行う。

　コンテンツ解析部３２は、遅延を含むコンテンツであるか否かを判定するために、例えば、映像データを解析して、被写体までの距離を推定したり、音データを解析して、音を種類別に分類したりする。

　また、測距するためのセンサなどが備えられている場合、そのようなセンサから得られた情報を、遅延を含むコンテンツであるか否かを判定するため情報として用いることができる。このような構成である場合、コンテンツ解析部３２は、センサからの情報を用いて、コンテンツ取得部３１で取得されたコンテンツは、遅延を含むコンテンツであるか否かの解析を行う。

　コンテンツ解析部３２による解析結果は、遅延処理部３３に供給される。

　遅延処理部３３は、コンテンツ解析部３２による解析結果を用いて、映像の遅延量を調整する。後述するように、映像と音が一致した映像が提示されるように、映像を遅延させる処理が行われる。この遅延に関する処理が遅延処理部３３において行われる。また遅延処理部３３は、音も遅延させるように構成されている場合、音の遅延量も調整する。

　映像制御部３４は、遅延処理部３３により遅延量が設定された場合、その遅延量分だけ、遅延された映像が、映像提示デバイス１３（図１）で提示されるように制御する。

　音制御部３５は、遅延処理部３３により音に関する遅延量が設定された場合、その遅延量分だけ、遅延された音が、音提示デバイス１４（図１）で提示されるように制御する。触覚制御部３６は、音に合った触覚が、触覚提示デバイス１５（図１）で提示されるように制御する。

　なお、音提示デバイス１４や触覚提示デバイス１５を制御する構成とされていないコンテンツ処理装置１２に対しても本技術を適用することは可能であり、コンテンツ処理装置１２を、音制御部３５や触覚制御部３６を備えない構成とすることも可能である。

　触覚制御部３６に供給される触覚データは、コンテンツとともに、コンテンツ配信装置１１（図１）から供給される。または触覚データは、コンテンツ解析部３２が映像データや音データを解析することで生成するようにしても良い。

　＜コンテンツ処理装置の処理の概略＞
　コンテンツ処理装置１２が実行する処理の概略について説明する。ここでは、コンテンツとして、花火を撮影した映像である場合を例に挙げて説明を行う。

　打ち上げ花火は、上空に打ち上げられ、開いたときに大きな音が鳴る。ここでは、この音は“ドーン”という擬音で表現する。観客は、開いた打ち上げ花火を見て歓喜の声を上げることもある。

　図３に示したように、カメラ５１－１とカメラ５１－２で花火を撮影する場合を想定する。カメラ５１－１は、開花した花火からの距離が距離Ｌ１のところから花火を撮影し、カメラ５１－２は、開花した花火からの距離が距離Ｌ２のところから花火を撮影する。距離Ｌ１は、距離Ｌ２より近い位置に位置する。すなわち、距離Ｌ１＜距離Ｌ２の関係が満たされる。

　花火の映像と花火の音を比較した場合、映像は光速でカメラ５１に届き、音は音速でカメラ５１に届くため、映像の方が、音よりも先にカメラ５１に届く。また、花火の映像は、開花したときに、開花した花火の映像がほぼ瞬時にカメラ５１に届き、撮影されるが、花火が開花したときに発生する音は、映像よりも後にカメラ５１に届き、録音される。音が届くまでの時間は、距離が離れているほど長くなる。

　このようなことは、カメラ５１で花火を撮影している場合に限らず、カメラ５１の代わりに観客がいるときも同じである。すなわち、花火の映像は、開花したときに、開花した花火の映像がほぼ瞬時に観客に届き、見られるが、花火が開花したときに発生する音は、映像よりも後に観客に届き、聞かれることになる。

　図４は、カメラ５１（観客）に届く映像と音との関係を示す図である。開花したときの花火は、時刻ｔ１において、カメラ５１－１とカメラ５１－２に、ほぼ同時に撮影される。カメラ５１－１は、時刻ｔ２において、開花したときの花火の音を集音する。時刻ｔ２よりも後の時刻ｔ３において、カメラ５１－２は、開花したときの花火の音を集音する。

　同一の花火を撮影していても、花火からの距離により、音が届く時間が異なる。カメラ５１－１のところで花火を見ている観客は、花火が開花したときの映像よりも（時刻ｔ２―時刻ｔ１）分の時間だけ経過したときに、花火が開花したときの音を聞くことになる。また、カメラ５１－２のところで花火を見ている観客は、花火が開花したときの映像よりも（時刻ｔ３―時刻ｔ２）分の時間だけ経過したときに、花火が開花したときの音を聞くことになる。

　観客（カメラ５１）は、花火が開花したときの映像と音であっても、その映像と音を同時に体感するわけではない。換言すれば、花火の映像と花火の音は、ずれて観客（カメラ５１）に届くことになる。また花火からの距離が遠くなればなるほど、映像と音のずれは大きくなる。

　観客は、花火をリアルタイムで見ていても、花火が開花したときの映像と音を同時に体感することはできない可能性があり、臨場感が失われる可能性がある。

　カメラ５１で取得された映像と音を含むコンテンツを視聴者が視聴している場合も同様である。さらにカメラ５１で取得された花火のコンテンツを視聴者が視聴する場合、視聴者は、映像と音のずれをより感じてしまう可能性がある。

　カメラ５１で花火を撮影し、観客に視聴させる場合、カメラ５１では、花火にズームして、花火が拡大された状態で撮影された映像が観客（視聴者）に提供されることが多い。

　ズームした状態で花火を撮影することは、花火を近くで撮影している状況に等しいともいえる。すなわち、映像は近くで撮影した花火であっても、音は遠くで集音した花火となり、映像と音のずれが大きくなる可能性がある。

　このようなずれは、上記した場合と同じく、臨場感が失われる原因となる。また、視聴者は、拡大された花火を見るため、花火との距離感をつかめず、さらに音が遅延して聞こえることで違和感を覚えてしまう可能性もある。

　以下の説明においては、このような映像と音のずれを解消し、映像と音が一致した状態で、ユーザ（観客や視聴者などを総称してユーザと記載する）に提供するための処理について説明を加える。

　＜映像と音の一致に関する第１の処理＞
　映像と音の一致に関する第１の処理として、例えば、ユーザがリアルタイムに、花火が見える場所で花火を見ているときに、花火と観賞している位置との距離に係わらず、花火が開花したときの映像と音を一致させてユーザに提示する場合を例に挙げて説明する。

　例えば、ユーザは、ＡＲグラスなどと称されるウェアラブルデバイスを装着して、花火を見ている場合を想定する。またここではＡＲグラスが、図２に示したコンテンツ処理装置１２である場合を例に挙げて説明する。例えば、ＡＲグラスとしてのコンテンツ処理装置１２は、図５に示すような外観構成を有する。

　ＡＲグラスは、図５に示すように、眼鏡型の形状を有するウェアラブル端末である。図５に示したＡＲグラスとしてのコンテンツ処理装置１２は、全体として眼鏡型の形状を採り、映像提示デバイス１３と、カメラ５１を備えている。

　映像提示デバイス１３は、眼鏡のレンズ部分に対応し、例えばその全部が透過型のディスプレイとして構成される。したがって、映像提示デバイス１３は、ユーザが直接視認している実世界の像（実オブジェクト）に、アノテーション（仮想オブジェクト）を透過的に重畳表示する。

　カメラ５１は、ＡＲグラスを装着するユーザの左眼に対応する映像提示デバイス１３の端に設けられ、そのユーザの視野に含まれる実空間の像を撮像する。カメラ５１は、例えばＣＣＤ（Charge Coupled Device）イメージセンサや、ＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサなどの固体撮像素子を用いて構成される。なお、各センサは、それぞれ複数設けられていてもよい。すなわち、カメラ５１は、ステレオカメラとして構成されてもよい。

　映像提示デバイス１３には、カメラ５１により取得された画像を表示させるとともに、その画像に対してアノテーションを重畳表示させるようにすることもできる。本実施の形態においては、後述するように、映像提示デバイス１３には、カメラ５１により取得された画像が表示されれば良く、アノテーションが重畳表示されるのは必須ではない。

　また、図示はしないが、コンテンツ処理装置１２としてのＡＲグラスにおいて眼鏡のフレームに対応する筐体には、各種のセンサ類やボタン、スピーカなどが、収納または搭載されているように構成することもできる。

　なお、ＡＲグラスの形状は、図５に示される形状に限らず、帽子形状、ユーザの頭部を一周して固定されるベルト形状、ユーザの頭部全体を覆うヘルメット形状など、さまざまな形状を採ることができる。ここでは、図５に示したようなＡＲグラスを例に挙げて説明を続けるが、本開示に係る技術は、ＨＭＤ（Head Mounted Display）全般に適用することができる。

　ＡＲグラスとしてのコンテンツ処理装置１２は、図６を参照して説明するような処理を行う。コンテンツ処理装置１２は、カメラ５１（図５）により、花火を撮影する。時刻ｔ１１に花火が開花し、その開花した花火をカメラ５１により撮影したとする。時刻ｔ１１において、花火が開花すると、そのときに出た音は、時刻ｔ１２において、ユーザに届く。

　ユーザに映像が届いてから音が届くまでに、時間Ｔ１１（＝時刻ｔ１２－時刻ｔ１１）だけずれがある。このずれ分だけ、コンテンツ処理装置１２は、映像をずらしてユーザに提示する。すなわちこの場合、映像に対して音は、時間Ｔ１１だけ遅延しており、この音の遅延分だけ映像を遅延させてユーザに提示する。

　コンテンツ処理装置１２は、時刻ｔ１２から、カメラ５１で撮影していた映像を、ユーザに提供する。またコンテンツ処理装置１２は、時刻ｔ１１から時刻ｔ１２（時間Ｔ１１）の間は、映像をマスキングするなどして、ユーザに映像が供給されないようにする。

　コンテンツ処理装置１２は、時刻ｔ１１から花火を撮影し、時刻ｔ１１から時刻ｔ１２まで、映像をマスキングし、時刻ｔ１２から、撮影した花火の再生を開始する。

　映像をマスキングとしては、例えば、時刻ｔ１１よりも前に撮影していた映像であり、花火が上がる前の映像を、ユーザに提示することで行われる。そして、時刻ｔ１２になると、時刻ｔ１１のときに開花した花火の映像が、ユーザに提供される。そして、時刻ｔ１２においては、時刻ｔ１１に開花した花火の音が、直接的にユーザに届く。

　この例では、映像は、遅延という処理が施され、間接的にユーザに提供されるのに対して、音は、処理が施されることなく、直接的にユーザに提供される。このように音はそのまま活かし、映像の方を遅延させることで、音に合った映像が提供される。

　ユーザには時刻ｔ１２に開花した花火の映像と音が同時に提供されることになる。このように、映像と音が同時に提供されることで、ユーザはより臨場感を味わうことができ、直感的で違和感の少ない体験が可能となる。

　図６に示したように、触覚を触覚提示デバイス１５（図１）で提供するようにした場合、時刻ｔ１２から提示が開始される。すなわちこの場合、音に合わせて触覚（振動）がユーザに提示される。

　このような処理を行うコンテンツ処理装置１２の処理について、図７に示したフローチャートを参照し説明する。

　ステップＳ１１において、コンテンツ取得部３１（図２）は、コンテンツデータを取得する。この場合、コンテンツデータは、カメラ５１（図５）で撮影された映像のデータである。マイクロフォンを備え、音を集音するように構成されている場合、コンテンツデータとして音データも取得されるようにしても良い。

　ステップＳ１２において、コンテンツ解析部３２は、コンテンツ取得部３１により取得されたコンテンツデータを解析する。この解析は、遅延が含まれるコンテンツであるか否かを判定するための解析である。

　例えば、コンテンツデータが、映像データである場合、その映像データによる映像として写っている被写体を特定し、そのような被写体が撮影されたときに音とずれが生じる可能性がある被写体であるか否かが判定される。例えば、被写体として花火が撮影されていると特定された場合、遅延が含まれるコンテンツであると判定される。このような判定を行うためのデータベースを備え、そのようなデータベースが参照されて判定が行われるようにしても良い。

　また、カメラ５１により取得される映像データと、マイクロフォン（不図示）により取得される音データを用いた判定が行われるようにしても良い。例えば映像データを解析することで得られる被写体と、その被写体が音源となって出したと推定される音を、音データを解析することで抽出し、音源が音を出したときに撮影された時刻と音が集音された時刻とにずれがあるか否かを判定することで行われるようにしても良い。

　また、映像データを解析し、被写体までの距離を算出し、その被写体までの距離が、所定の距離以上、例えば、１秒間に音が進む距離以上である場合、遅延が含まれるコンテンツであると判定されるようにしても良い。

　ステップＳ１３において、ステップＳ１２における解析結果が、遅延が含まれるコンテンツであるか否かが判定される。この判定は、コンテンツ解析部３２で行われるようにしても良いし、遅延処理部３３が、コンテンツ解析部３２からの解析結果の供給を受けて行うようにしても良い。

　ステップＳ１３において、遅延が含まれるコンテンツではないと判定された場合、ステップＳ１４に処理は進められる。この場合、遅延を含まないコンテンツであるため、コンテンツ取得部３１で取得されたコンテンツ（映像データ）は、映像制御部３４に供給され、遅延されることなく映像提示デバイス１３で提供される。

　一方、ステップＳ１３において、遅延が含まれるコンテンツであると判定された場合、ステップＳ１５に処理は進められる。ステップＳ１５において、映像がマスキングされる。映像制御部３４は、例えば、映像提示デバイス１３での映像の提示を一時的に停止し、その時点で表示されている画像を継続して表示される、すなわち静止画像が表示されるように表示を制御することで、映像のマスキングを行う。または映像制御部３４は、黒画面を表示するようにしても良い。

　映像のマスキングが実行されている一方で、ステップＳ１６において、遅延処理部３３により、遅延量の設定処理が実行される。遅延量は、図６を参照して説明した時間Ｔ１１に該当し、映像が音に合うようにするために、映像の再生の開始時刻をずらすための量である。ステップＳ１６において実行される遅延量設定処理について、図８のフローチャートを参照して説明する。

　ステップＳ３１において、映像中に含まれる最大距離が推定または測定される。映像データを解析し、映像内の被写体を特定し、その被写体までの距離が推定される。例えば、ステレオカメラを用いて、映像を撮影し、ステレオカメラから得られた映像データを用いた画像認識により、音の発生源までの距離が推定される。

　または、マイクアレイを用いた距離測定により、音の発生源までの距離が測定されるようにしても良い。またはドップラーセンサを用いて、音の発生源までの距離が測定されるようにしても良い。

　距離の推定や計測は、複数の推定方法や計測方法が組み合わされて音の発生源までの距離が確定されるようにしても良い。また被写体が複数検出された場合、それぞれの被写体までの距離が推定または計測（以下、推定されるとして記載するが、計測の場合も含まれる記載であるとする）され、そのうちの最も遠い距離が抽出される。

　なお、ステップＳ３１の処理は、ステップＳ１２（図７）において、遅延が含まれるコンテンツであるか否かの判定のときに被写体を検出するようにした場合や、その被写体までの距離を求めて判定をするような場合や、被写体までの距離を計測して、その距離により判定を行うような場合など、ステップＳ１２における処理で得られた情報を用いて行われるようにすることもできる。

　ステップＳ３１において、映像中に含まれる最大距離が推定される。この推定された最大距離を最大距離Ｌmaxと記載する。ステップＳ３２において、最大距離に応じて映像遅延量が設定される。例えば、映像遅延量ｔ０は、次式（１）により算出される。
　　遅延量ｔ０＝最大距離Ｌmax／音速ｖ　　・・・（１）
　式（１）は、最大距離Ｌmaxを音速ｖで除算することで、遅延量ｔ０を算出する式である。

　なお、ここでは被写体が複数検出された場合、最も遠い距離が抽出され、その距離に対する遅延量が算出されるとして説明をしたが、複数の被写体が検出された場合、それらの被写体毎に、遅延量が算出されるようにしても良い。

　ここでは、図８に示したフローチャートの処理が実行されることで遅延量が算出される場合を例に挙げて説明したが、他の方法（演算式）により、遅延量が算出されるようにしても良い。

　例えば、被写体と遅延量が予め設定されており、例えば、被写体が花火であると判定された場合には、花火に設定されている遅延量が適用されるようにしても良い。

　ステップＳ３２において、映像の遅延量ｔ０が設定されると、処理はステップＳ１４（図７）に進められる。ステップＳ１４において、設定された遅延量ｔ０だけ遅延された映像の提供が行われる。遅延量ｔ０だけ映像の提供の開始が遅延されることで、リアルタイムにユーザに届いた音に同期した映像が提供される。

　このように、映像の再生開始時刻をずらすことで、音と一致した映像を提供することができる。

　このように、設定された遅延量は、コンテンツの種類が変わるまで、換言すれば、撮影されている被写体が変わるまで用いられるようにすることができる。このようにした場合、図７に示したフローチャートの処理は、例えば、花火の撮影が開始されてから、数発花火が打ち上げられている間に行わる。そして、遅延量が算出され、その遅延量に基づいて一度映像が遅延されると、そのまま再生が維持される。

　ここでは、被写体が花火である場合を例に挙げて説明したが、もちろん、他の被写体であっても本技術を適用することはできる。

　例えば、サッカースタジアムでサッカーを観戦しているとき、ボールが蹴られた瞬間の映像を遅延させることで、ボールが蹴られたときの映像と、そのときに出た音を一致させる。

　また例えば、野球場でボールが打たれた瞬間の映像を遅延させることで、ボールが打たれたときの映像と、そのときの打球音を一致させる。

　サッカーや野球以外の競技、例えば卓球やバレーボールなどであっても、本技術を適用でき、例えば、打球音と打球音が出たときの映像を一致させる等の場合に、本技術を適用できる。

　ここでは、映像が遅延され、音は遅延されない場合を例に挙げて説明したが、ユーザが用いるコンテンツ処理装置１２に、音提示デバイス１４（図１）が備えら、マイクロフォンなどの集音装置（不図示）が備えられているような場合、図９に示すように、音も遅延されるようにしても良い。

　コンテンツ処理装置１２は、カメラ５１（図５）により、例えば花火を撮影する。時刻ｔ２１に花火が開花し、その開花した花火をカメラ５１により撮影したとする。時刻ｔ２１において、花火が開花すると、そのときに出た音は、時刻ｔ２２において、ユーザに届く。仮に、コンテンツ処理装置１２で、処理を行わずに映像と音を提示した場合、時刻ｔ２１から開花した花火の映像が提示され、時刻ｔ２２に花火が開花したときの音が提示される。

　コンテンツ処理装置１２は、時刻ｔ２１から時間Ｔ２１だけ経過した時刻ｔ２３において、開花した花火の映像をユーザに提示する。またコンテンツ処理装置１２は、時刻ｔ２２から時間Ｔ２２だけ経過した時刻ｔ２３において、花火が開花したときの音をユーザに提示する。すなわち、コンテンツ処理装置１２は、映像と音の提示の開始を、それぞれ時刻ｔ２３まで遅延させてから、提示を開始する。

　このように、映像と音の両方を遅延させることで、映像と音が一致した状態でユーザに映像と音を提示することができる。例えば、放送コンテンツのように、十分にコンテンツを解析することができる場合などに適用することができる。

　コンテンツ処理装置１２は、時刻ｔ２１から時刻ｔ２３までの間、映像をマスキングする。またコンテンツ処理装置１２は、時刻ｔ２２から時刻ｔ２３までの間、音もマスキングする。映像に係わる処理は、上記した場合と同様に行われる。

　音に関する処理は、時刻ｔ２２においてマイクロフォンで集音された音が一旦録音され、その録音された音が、時刻ｔ２３において再生される。

　また時刻ｔ２２から時刻ｔ２３までは、集音されている音の周波数と逆相の音を生成することで、外部の音（この場合、花火の音）が消去される。いわゆるノイズキャンセラなどと称される技術に用いられている技術を適用して音をマスキングすることができる。または、時刻ｔ２２よりも前の時点で録音されていた音が、再度再生される等されるなどして、音が途切れることがないような処理がなされるようにしても良い。

　なお、図９に示したように、触覚を触覚提示デバイス１５（図１）で提供するようにした場合、時刻ｔ２３から提示が開始される。すなわちこの場合、映像と音に合わせて触覚（振動）がユーザに提示される。

　＜映像と音の一致に関する第２の処理＞
　映像と音の一致に関する第２の処理について説明する。

　映像と音の一致に関する第１の処理においては、例えば、リアルタイムに花火を見ているときに、花火が開花したときの映像と音を一致させてユーザに提示する場合を例に挙げて説明した。また、第１の処理においては、図９を参照して説明したように、映像と音を遅延させる場合であっても、音源が１つである場合を例に挙げて説明した。

　映像と音の一致に関する第２の処理として、映像と音を遅延させる場合であり、音が複数ある場合を例に挙げて説明する。ここでも、花火が開花したときを例に挙げて説明を続ける。

　例えば、花火を鑑賞しているとき、音としては、花火が開花したときの音と、ユーザの周りにいる観客から発せられる音（歓喜の声）がある。図６を参照して説明したように、花火が開花したときの映像を、花火が開花したときの音に合うように遅延させた場合を考える。ユーザの周りにいる観客が歓喜の声を出すのは、花火が開花したときであると考えられる。

　花火が開花したときの映像を遅延させた場合、ユーザには、ユーザの周りにいる観客の歓喜の声が聞こえた後、花火が開花したときの映像が提示されることになる。さらに換言すると、ユーザは、映像がマスキングされている状態で、花火が見えない状態のときに、観客の歓喜の声（以下、観客音と適宜記載する）を聞くことになる。このような花火の開花と観客音がずれることで、ユーザは違和感を覚え、臨場感が損なわれる一因となる可能性がある。

　そこで、図１０を参照して説明するようにコンテンツ処理装置１２において処理がなされるようにする。ここでも、コンテンツ処理装置１２は、ＡＲグラスのようなウェアラブルデバイスであるとして説明を続ける。

　コンテンツ処理装置１２は、カメラ５１（図５）により、花火を撮影する。時刻ｔ３１に花火が開花し、その開花した花火をカメラ５１により撮影したとする。時刻ｔ３１において、花火が開花すると、そのときに出た音（花火音と適宜記載する）は、時刻ｔ３２において、ユーザに届く。

　また、花火が開花したときの観客音は、時刻ｔ３１において、ユーザに届く。ここでは、観客音は、ユーザの近くにいる観客であり、ユーザには遅延なく届く音である場合を例にあげて説明する。観客音としては、花火の打ち上げ場所に近く、ユーザからは離れた位置にいる観客からの音もあり、このような場合には、花火音と同じく、時刻ｔ３２においてユーザに届く場合もある。

　すなわち、ユーザからの距離により、ユーザに観客音が届く時間が異なるため、どの音を処理するかにより後述する観客音の遅延量は異なる。よって、個々の観客音（個々の被写体）の距離を推定し、それらの観客音毎に遅延量が設定されるようにしても良い。また、ここでは個々の観客音とするが、観客音以外の音も、処理対象とすることもできる。

　ユーザに映像が届いてから花火音が届くまでに、時間Ｔ３１（＝時刻ｔ３２－時刻ｔ３１）だけずれがある。このずれ分だけ、コンテンツ処理装置１２は、映像をずらしてユーザに提示する。すなわちこの場合、コンテンツ処理装置１２は、時刻ｔ３２から、カメラ５１で撮影していた映像を、ユーザに提供する。時刻ｔ３１から時刻ｔ３２の間は、映像をマスキングするなどして、ユーザに映像が供給されないようにする。

　またユーザに映像が届いたときに、観客音も届くが、この観客音は、花火音と同時または少し後に届かないと、ユーザに違和感を覚えさせてしまう可能性がある。そこで、コンテンツ処理装置１２は、観客音を、この場合時間Ｔ３１だけずらしてユーザに提示する。すなわちこの場合、コンテンツ処理装置１２は、マイクロフォンなどの集音装置（不図示）で集音していた観客音を、時刻ｔ３２から、ユーザに提示する。時刻ｔ３１から時刻ｔ３２（時間Ｔ３１）の間は、観客音をマスキングするなどして、ユーザに観客音が提示されないようにする。

　このような処理がなされることで、時刻ｔ３１から時刻ｔ３２までの間は、例えば、時刻ｔ３１よりも前に撮影され、録音されていた映像と音であり、花火が上がる前の映像と音が、ユーザに提示される。そして、時刻ｔ３２になると、時刻ｔ３１のときに開花した花火の映像と音が、ユーザに提示される。そして、時刻ｔ３２においては、時刻ｔ３１に開花した花火に歓喜した観客の歓喜音も、ユーザに届く。

　よって、ユーザには時刻ｔ３２に開花した花火の映像、花火音、および観客音が同時に提供されることになる。このように、映像と音が同時に提供されることで、ユーザはより臨場感を味わうことができ、直感的で違和感の少ない体験が可能となる。

　図１０に示したように、触覚を触覚提示デバイス１５（図１）で提供するようにした場合、時刻ｔ３２から提示が開始される。すなわちこの場合、音に合わせて触覚（振動）がユーザに提示される。また、図１０に示していないが、複数の音が処理される場合、複数の音に対応する触覚が提示されるようにしても良い。図１０に示した例の場合、花火音に対応する触覚と、観客音に対応する触覚が、それぞれ提示されるようにしても良い。

　このような処理を行うコンテンツ処理装置１２の処理について、図１１に示したフローチャートを参照し説明する。

　ステップＳ５１乃至Ｓ５４の処理は、ステップＳ１１乃至Ｓ１４（図７）の処理と同様の処理であり、説明が重複するため、ここでは説明を省略する。ステップＳ５３において、遅延が含まれるコンテンツであると判定された場合、ステップＳ５５に処理は進められる。

　ステップＳ５５において、音源分離技術が適用されて音源が分離される。例えば、マイクロフォンで集音された音から、花火音と観客音が抽出される。音源分離が実行されている一方で、ステップＳ５６において、映像と音のマスキングが実行される。

　音源分離に係わる処理は、コンテンツ解析部３２（図２）が行い、その結果を用いて、音制御部３５がマスキングや遅延の処理を行うようにしても良い。また音制御部３５が、音源分離、マスキング、および遅延に係わる処理を実行するようにしても良い。

　映像と音のマスキングが実行されている間に、ステップＳ５７において、遅延量の設定処理が行われる。ステップＳ５７において実行される遅延量の設定処理について、図１２のフローチャートを参照して説明する。

　ステップＳ７１とステップＳ７２の処理は、ステップＳ１３とステップＳ３２（図８）の処理と同様に行われるため、その説明は省略する。すなわち、ステップＳ７１とステップＳ７２において、映像の遅延量が設定される。

　ステップＳ７３において、個々の音発生源までの距離が推定または計測される。この処理は、ステップＳ５５において分離された音源毎に行われる。この場合、音源として、花火音と観客音が抽出されるため、花火音の音源までの距離と観客音の音源までの距離がそれぞれ推定（計測）される。この推定（計測）は、上記した場合と同じく、マイクアレイでの距離測定や、ドップラーセンサでの距離計測が行われても良いし、ステレオカメラからの画像を解析することで、音発生源までの距離が推定されるようにしても良い。

　また、推定（計測）は、事前に得られる情報が用いられても良い。例えば、会場に着いた時点で、その会場の３Ｄモデルのデータをダウンロードし、その３Ｄモデルデータが用いられて、音源までの距離が推定（計測）されるようにしても良い。この場合、ユーザが視聴する位置の情報も事前（実際に鑑賞を開始するよりも前の時点）に取得することができ、そのような情報も取得できた場合、そのような情報も利用して、ユーザの位置と３Ｄモデルデータによる音源の位置までの距離が算出されるようにしても良い。

　ここでは花火音の音源までの距離を距離Ｌ１とし、観客音の音源までの距離を距離Ｌ２とする。ステップＳ７３において、個々の音源までの距離が求められると、ステップＳ７４に処理は進められる。

　ステップＳ７４において、距離に応じた音の遅延量が設定される。例えば、音遅延量ｔiは、次式（２）により算出される。
　　音遅延量ｔi＝映像遅延量ｔ０―距離Ｌi／音速ｖ　　・・・（２）
　式（２）は、映像遅延量ｔ０から、距離Ｌiを音速ｖで除算した値を減算することで、音遅延量ｔｉを算出する式である。

　例えば、花火音の遅延量は、
　音遅延量ｔ１＝映像遅延量ｔ０―距離Ｌ１／音速ｖ
で求められる。この場合、花火音は、花火が開花した位置が音源となるため、距離Ｌ１は、花火までの距離となり、最大距離Ｌmaxとなる。よって、距離Ｌ１／音速ｖは、最大距離Ｌmax／音速ｖとなり、結果として、映像遅延量ｔ０と同じ値になる。よって、花火音の遅延量は、０となる。花火音は、遅延処理されることなく、ユーザに提示される。

　例えば、観客音の遅延量は、
　音遅延量ｔ２＝映像遅延量ｔ０―距離Ｌ２／音速ｖ
で求められる。この場合、観客音は、ユーザの周囲の観客を対象としているため、ユーザのいる位置（周辺）が音源となるため、距離Ｌ２は、０に近い値（ここでは０とする）となる。よって、距離Ｌ２／音速ｖは、０となる。よって、観客音の遅延量は、映像遅延量ｔ０とほぼ同じ値となる。映像遅延量ｔ０は、図１０に示した例では時間Ｔ３１となるため、映像と同等の時間だけ遅延されて、開花した花火の映像が提示されるときに、花火が開花したときの観客の声が提示される。

　ステップＳ７４において、音の遅延量が設定されると、ステップＳ５４（図１１）に処理は進められる。

　なおここでは、ステップＳ７３とステップＳ７４の処理が実行されることで、換言すれば、距離に応じて音遅延量が設定されるとして説明したが、他の方法（演算式）で設定されるようにしても良い。

　例えば、被写体と遅延量が予め設定されており、例えば、被写体が花火であると判定された場合には、花火に設定されている遅延量が適用され、観客であると判定された場合には、観客に設定されている遅延量が適用されるようにしても良い。

　ステップＳ５４において、映像が、映像遅延量ｔ０だけ遅延され、音が、音遅延量ｔｉだけ遅延されて、ユーザに提示される。

　このように、ユーザが違和感を覚えることなく、また臨場感を損なうことがないように、映像と音が適切に遅延される。

　第２の処理においても、被写体が花火である場合を例に挙げて説明したが、第１の処理と同じく他の被写体であっても適用することはできる。例えば、サッカースタジアムでサッカーを観戦しているとき、ボールが蹴られた瞬間の映像を遅延させることで、ボールが蹴られたときの映像と、そのときに出た音を一致させるようにすることできる。また観客の声や実況の声を、それぞれ距離に応じて遅延させることもできる。

　また例えば、野球場でボールが打たれた習慣の映像を遅延させることで、ボールが打たれたときの映像と、そのときに出た音を一致させるようにすることもできる。また観客の声や実況の声を、それぞれ距離に応じて遅延させることもできる。また、ボールが落下したときの音、フェンスにぶつかったときの音なども、距離に応じて遅延されるようにすることができる。

　ここで、野球を観戦しているとき（野球が撮影されているとき）の音の遅延量について説明を加える。ユーザが観戦している位置、図１３では視聴位置とした位置を、位置Ｌ０とする。この位置Ｌ０は、マイクロフォンが設置されている位置であり、観客の位置でもある。位置Ｌ０は、ユーザからの距離としては０である。

　ユーザの位置Ｌ０から、バッターボックスの位置までの距離を、距離Ｌ１とする。ユーザの位置Ｌ０から、ボールが落下した位置までの距離を、距離Ｌ２とする。また、ユーザの位置Ｌ０から、フェンスの位置までの距離を、距離Ｌ３とする。

　バッターボックスで、打者がボールを打ったときの打球音は、音遅延量ｔ１だけ遅延される。音遅延量ｔ１は、
　音遅延量ｔ１＝映像遅延量ｔ０―距離Ｌ１／音速ｖ
で算出される。

　打者がボールを打ち、そのボールがグランドに落下したときの落下音は、音遅延量ｔ２だけ遅延される。音遅延量ｔ２は、
　音遅延量ｔ２＝映像遅延量ｔ０―距離Ｌ２／音速ｖ
で算出される。

　打者がボールを打ち、そのボールがフェンスに当たった衝突音は、音遅延量ｔ３だけ遅延される。音遅延量ｔ３は、
　音遅延量ｔ３＝映像遅延量ｔ０―距離Ｌ３／音速ｖ
で算出される。

　図１３に示したように、距離Ｌ１＜距離Ｌ２＜距離Ｌ３である場合、音遅延量としては、音遅延量ｔ１＜音遅延量ｔ２＜音遅延量ｔ３となる。すなわち、距離が遠くなるほど音遅延量も大きくなる。

　このように、距離に応じて音の遅延量（補正量）を細かく調整することで、映像のタイミングとより一致させることができる。

　図１３を参照して説明したように、音遅延量を距離に応じて設定するとともに、上記した場合と同じく、映像遅延量も、距離に応じて設定されている。このように、映像と音の両方を遅延させることで、例えば、映像の方の遅延（補正）を大幅に行い、音の遅延で細かな調整を行うといった処理も可能となる。このことにより、より適切に映像と音を一致させることができる。

　＜放送されるコンテンツを処理する場合＞
　上記した映像と音の一致に関する第１の処理と第２の処理は、コンテンツが放送されるコンテンツである場合にも適用できる。

　本技術を適用することで、例えば、野球中継のとき、映像と合った音を放送することができるようになる。野球中継の場合、カメラのある位置と、例えばバッターボックスは、離れた位置にあるが、カメラで撮影され放送されるのは、バッターボックスに立ったバッターが拡大された映像である。

　バッターボックスとカメラ（マイクロフォン）が離れた位置にあるため、バッターがボールを打ったときの打球音は、放送されているバッターが拡大された映像と合わない可能性がある。

　図１３を参照して説明したように、カメラ（マイクロフォン）の位置を、視聴位置Ｌ０として、バッターボックスまでの距離Ｌ２を考慮して、映像を遅延させ、また打球音も必要に応じて遅延させることで、バットにボールが当たったときの映像と音が一致した状態で放送を行うことができる。

　リアルタイムに放送する場合に限らず、録画されたコンテンツを放送する場合にも、本技術を適用できる。例えば、放送する前の時点で、上記した処理を実行し、映像と音が一致したコンテンツに編集しておき、その編集済みのコンテンツが放送されるようにしても良い。

　放送コンテンツをコンテンツ処理装置１２が処理する場合、放送コンテンツに付随する情報として、遅延量が送受信されるようにしても良い。例えば、放送コンテンツが花火を撮影したコンテンツである場合、花火音は１秒遅延させ、観客音は０．１秒遅延させるといった情報が、放送コンテンツに付随する情報として送受信される（情報伝送フォーマットに記載され、送受信される）ようにしても良い。

　また、コンテンツ処理装置１２は、そのような放送コンテンツに付随している遅延量に関する情報を用いて、映像や音を遅延させた処理を行うようにすることもできる。また、そのような遅延を実際に行うか否かは、コンテンツ処理装置１２側で設定できる仕組みを設けても良い。例えば、遅延の処理を実行するか否かは、ユーザにより設定される仕組みを設けても良い。

　放送コンテンツが、野球中継のようなリアルタイムに撮影（集音）し、放送するようなコンテンツである場合、放送時間も考慮する必要がある。放送の場合、放送開始時刻と放送終了時刻が設定されており、その間にコンテンツの再生が収まる必要がある。このことは、野球中継のようなリアルタイムに撮影（集音）し、放送するようなコンテンツであはない場合であっても同様である。

　映像を遅延させたり、必要に応じて、音を遅延させたりするといった処理を実行すると、放送開始時に、映像がマスキングされていたり、放送終了時に、放送仕切れない映像が残ってしまったりする可能性がある。

　そこで、図１４に示すような処理が行われるようにしても良い。放送開始時刻を時刻ｔ４２とした場合、放送開始時刻ｔ４２より前の時刻ｔ４１から撮影は開始される。時刻ｔ４１に撮影された映像は、時刻ｔ４２まで遅延され、時刻ｔ４２から放送が開始される。音は、放送開始時の時刻ｔ４２から集音された音が、そのまま放送される。

　放送終了時刻が時刻ｔ４３である場合、音は、放送終了時に終了される。映像は、遅延された状態で放送されているため、放送終了時刻ｔ４３の時点では、時刻ｔ４３より前の時点（時刻ｔ４３’とする）で撮影されていた映像が放送されている。時刻ｔ４３’から時刻ｔ４３までの間に撮影された映像は、カットされる。

　図１４に示した例では、映像の冒頭から音の末尾までが放送区間とされる。また、触覚を提示する場合、この放送区間内で提示が行われる。

　図１５を参照して、放送時における他の処理について説明する。映像は、放送開始時刻ｔ５１から時刻ｔ５２までスロー再生される。音は、放送開始時刻ｔ５１から、集音された音が、そのまま放送される。

　映像は、放送終了時刻ｔ５４より前の時刻ｔ５３から、早送り再生される。音は、放送終了時刻ｔ５４まで、集音された音が、そのまま放送される。

　図１５に示した例では、映像の冒頭はスロー再生、末尾は早送り再生、それ以外は遅延された再生が行われる。音は、冒頭から末尾まで全区間が放送区間とされる。また、触覚を提示する場合、この放送区間内で提示が行われる。

　放送コンテンツの場合、コンテンツを送信する側、例えば、図１に示したコンテンツ配信装置１１側で、上記した映像と音の一致に関する第１の処理または第２の処理を実行し、かつ図１４または図１５を参照した処理を実行するようにしても良い。このようにした場合、図２に示したコンテンツ処理装置１２の機能の一部は、コンテンツ配信装置１１が備える構成とされる。

　または、コンテンツ処理装置１２側で、上記した映像と音の一致に関する第１の処理または第２の処理を実行し、かつ図１４または図１５を参照した処理も実行するようにしても良い。またコンテンツ処理装置１２側で処理するようにした場合、コンテンツ処理装置１２側に、コンテンツ配信装置１１側から、遅延を含むコンテンツであるという情報が供給されるようにしても良い。そして、そのような情報を受信した場合、コンテンツ処理装置１２は、上記した処理を実行するようにしても良い。

　図９を参照して説明したように、映像と音の両方を遅延させ、映像と音を一致させるような場合であり、そのようなコンテンツを放送する場合、例えば、３０秒など大幅に遅延させても良い。また大幅に遅延させることが可能な場合、十分に解析した後、遅延量が設定され、その遅延量に応じて遅延されたコンテンツが生成され、ユーザ側に提供されるようにしても良い。このようなコンテンツが十分に解析されることで、適切な触覚（振動など）を生成することができるようになる。

　＜ＶＲコンテンツを処理する場合＞
　上記した映像と音の一致に関する第１の処理と第２の処理は、ＶＲ（Virtual Reality）のコンテンツである場合にも適用できる。

　本技術を適用することで、例えば、野球中継を、ＶＲコンテンツとして配信したときに、映像と音が合ったコンテンツを提供することができるようになる。また、ＶＲコンテンツの場合、リアル感を出すために、映像と音にずれがあるように提供することもできる。ここでは、図１３を参照して説明した野球中継を、ＶＲコンテンツとして提供した場合を例に挙げて、映像と音にずれがあるように提供する処理について説明する。

　図１６において、マイクロフォンの位置を、位置Ｌ０とする。マイクロフォンの位置Ｌ０から、バッターボックスの位置までの距離を距離Ｌ１、ボールが落下した位置までの距離を距離Ｌ２、フェンスの位置までの距離を距離Ｌ３とする。

　空間内をユーザが動き回れるように設計されているＶＲコンテンツである場合、例えばこの場合、ユーザはグラウンド内に位置し、グランド内から観戦することもできる。図１６では、視聴位置を視聴位置Ｌｖとし、バッターボックスとボール落下位置との間の位置であるとする。マイクロフォンの位置Ｌ０から、視聴位置Ｌｖまでの距離を距離Ｌｖとする。

　バッターボックスで、打者がボールを打ったときの打球音に該当する映像は、映像遅延量ｔ１だけ遅延される。映像遅延量ｔ１は、
　映像遅延量ｔ１＝（｜距離Ｌ１―距離Ｌｖ｜―距離Ｌ１）／音速ｖ
で算出される。この場合、距離Ｌ１と距離Ｌｖの差分値の絶対値から距離Ｌ１を減算し、その減算値を音速ｖで除算した値が映像遅延量ｔ１とされる。

　打者がボールを打ち、そのボールがグランドに落下したときの落下音に該当する映像は、映像遅延量ｔ２だけ遅延される。映像遅延量ｔ２は、
　映像遅延量ｔ２＝（｜距離Ｌ２―距離Ｌｖ｜―距離Ｌ２）／音速ｖ
で算出される。この場合、距離Ｌ２と距離Ｌｖの差分値の絶対値から距離Ｌ２を減算し、その減算値を音速ｖで除算した値が映像遅延量ｔ２とされる。

　打者がボールを打ち、そのボールがフェンスに当たった衝突音に該当する映像は、映像遅延量ｔ３だけ遅延される。映像遅延量ｔ３は、
　映像遅延量ｔ３＝（｜距離Ｌ３―距離Ｌｖ｜―距離Ｌ３）／音速ｖ
で算出される。この場合、距離Ｌ３と距離Ｌｖの差分値の絶対値から距離Ｌ３を減算し、その減算値を音速ｖで除算した値が映像遅延量ｔ３とされる。

　図１６に示した計算式によると、映像遅延量ｔとして、プラスの値またはマイナスの値が算出される。プラスの値の場合、映像の再生の開始時刻として設定されている時刻よりも後の時刻に再生の開始がずらされ、マイナスの値の場合、映像の再生の開始時刻として設定されている時刻よりも前の時刻に再生の開始がずらされる。

　映像と音が一致した状態で作り込まれているＶＲコンテンツの場合、映像の再生開始時刻を、設定されている再生開始時刻よりも前または後にずらすことで、仮想空間において、現実空間のようなずれをあえてユーザに与えることができるようになる。また図１６を参照して説明したように、ずれ量を距離に応じて細かく調整することができる。

　ＶＲコンテンツとして、ここでは野球観戦の場合を例に挙げて説明したが、他のコンテンツ内容であっても本技術を適用できる。

　＜他の適用例など＞
　上記した実施の形態においては、コンテンツの内容として花火を鑑賞している場合や、野球などのスポーツを観戦している場合を例に挙げて説明したが、これらのコンテンツ内容以外の他のコンテンツの内容であっても本技術を適用できる。すなわち、本技術は、コンテンツの内容によらず、適用可能である。

　また野球などの試合が行われるスタジアムには、VIPルームなどと称される観覧席もあり、ガラス張りで、外の音が伝わりづらい構造の部屋がある。このような部屋内で観戦しているユーザに対して、部屋の外部で集音された音を、部屋内のスピーカなどの装置で出音させ、ユーザに提供するようにしても良い。このようにしたとき、集音するマイクロフォンは、音源付近に設置されるようにする。音源付近に設置したマイクロフォンで集音した音をユーザに提供することで、映像と音が一致した状態にすることができる。

　また、このように、マイクロフォンなどの集音装置で集音された音をユーザに提供する場合、現実社会からの音はキャンセルする処理がなされる。また、集音された音をユーザに提供する場合、その提供する音に、何らかのエフェクトをかけ、エフェクトがかけられた音がユーザに提供されるようにしても良い。

　例えば、バッターボックス付近に設置されたマイクロフォンにより集音された音をユーザに提供する場合、バッターが空振りしたときの音にエフェクトをかけ、派手に演出したりするような仕組みを設けても良い。また、上記したガラス張りの部屋などで観戦しているユーザに対して、ガラス上にＣＧエフェクトを重畳して提供するようにしても良い。

　マイクロフォンなどの集音装置を、音源付近に設置し、集音された音をユーザに提供する構成とし、その集音された音と映像が一致したコンテンツがユーザに提供されるようにしても良い。この場合、映像と音は別々に取得され、音に合うように映像が遅延（微調整）され、音と映像が一致したコンテンツがユーザに提供されるようにしても良い。

　また、スピーカなどの出音装置で音をユーザに提供する場合、ユーザが聞きやすい帯域の音に変換したり、ユーザが好みの声質（男性の声、女性の声、好きな歌手の声など）に変換したり、耳元で話している感じの声に変換したりして、ユーザに音が提供されるようにしても良い。

　また、本技術は、例えば、ユーザが、ライブ会場で図５に示したウェアラブルデバイスであるＡＲグラスを装着し、ライブを楽しむような場合にでも適用できる。ライブ会場では、音を生音（コンテンツ処理装置１２で処理していない音であり、ユーザに直接的に聞こえる音）でユーザに聞かせ、映像はコンテンツ処理装置１２で遅延させて提供する。例えば、ステージと観客の位置との距離の違いにより、観客の位置により音が到達するまでの時間が異なることが考えられるが、そのような違いを吸収して、会場内の人達に、同じタイミングで同じ映像と音を楽しませることができる。

　またライブは、演奏時とＭＣなどと称されるしゃべり時に分けられる。演奏時とＭＣ時で遅延の仕方が切り替えられるようにしても良い。例えば、遅延時間が演奏時とＭＣ時で異なる、例えば遅延ありまたは遅延なしとなるようにしても良い。また演奏時とＭＣ時で、どちらを生で体感したいかにより、映像を遅延させるモードと、音声を遅延させるモードが切り替えられるようにしても良い。また、このような切り替えは、ユーザにより設定されるようにしてもよい。

　上記した実施の形態においては、例えば、図５に示したウェアラブルデバイスであるＡＲグラスを装着し、野球などを観戦する場合を例に挙げて説明した。例えば野球観戦をしているとき、ボールが観客席に飛び込んでくることがある。本技術を適用して、遅延された映像を見ているユーザの場合、仮に、そのユーザの方にボールが飛んできても、ボールが飛んできていることに気づかない可能性がある。

　このような危険を回避するために、危険が検知された場合には、遅延されている映像の表示が停止され、リアルタイムの映像に切り替えられるような仕組みを設けても良い。危険の検知は、コンテンツ処理装置１２が、撮影している映像を解析し、例えば、ボールが大きく撮影され、近づいてきていると判定されるときに危険を検知するような仕組みを設けても良い。また危険の検知は、観戦会場に設置されている装置が危険を検知し、その装置側から、ユーザの端末（コンテンツ処理装置１２）側に、危険を知らせる信号が送信される仕組みを設けても良い。

　＜記録媒体について＞
　上述した一連の処理は、ハードウエアにより実行することもできるし、ソフトウエアにより実行することもできる。一連の処理をソフトウエアにより実行する場合には、そのソフトウエアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウエアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１７は、上述した一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロフォンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５及びバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記憶部５０８に、予めインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。

　なお、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、また他の効果があってもよい。

　なお、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　なお、本技術は以下のような構成も取ることができる。
（１）
　映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、
　前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部と
　を備える情報処理装置。
（２）
　前記処理部は、音源が前記音を出したときの前記映像と前記音が一致するように前記映像を遅延させて再生する
　前記（１）に記載の情報処理装置。
（３）
　前記所定の時間は、前記音が遅延している時間に相当する
　前記（１）または（２）に記載の情報処理装置。
（４）
　前記所定の時間は、前記音の音源までの距離に応じて設定される
　前記（１）乃至（３）のいずれかに記載の情報処理装置。
（５）
　前記映像を撮影する撮影部をさらに備え、
　前記処理部は、前記撮影部で撮影された映像を遅延する
　前記（１）乃至（４）のいずれかに記載の情報処理装置。
（６）
　前記音は、ユーザに直接的に届く音であり、
　前記撮影部は、前記ユーザに直接的に届いた映像を撮影する
　前記（５）に記載の情報処理装置。
（７）
　前記処理部は、前記所定の時間の間、前記映像をマスキングする
　前記（１）乃至（６）のいずれかに記載の情報処理装置。
（８）
　集音された音を音源分離し、
　前記処理部は、前記音源分離により分離された音源までの距離に応じて、前記音を遅延させて再生する
　前記（１）乃至（７）のいずれかに記載の情報処理装置。
（９）
　前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻よりも前の時点で撮影された映像が、前記開始時刻から再生される
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１０）
　前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻から所定の時間内はスロー再生され、前記終了時刻より前の所定の時間内は早送りで再生される
　前記（１）乃至（８）のいずれかに記載の情報処理装置。
（１１）
　前記コンテンツは、ＶＲ（Virtual Reality）コンテンツであり、
　前記処理部は、ユーザが仮想空間内で視聴している位置と、前記コンテンツの音が集音されていた位置との距離に応じて前記映像を所定の時間だけ遅延させて再生する
　前記（１）乃至（１０）のいずれかに記載の情報処理装置。
（１２）
　前記音に合った触覚を提示する
　前記（１）乃至（１１）のいずれかに記載の情報処理装置。
（１３）
　映像を処理する情報処理装置が、
　映像に対して音が遅延しているコンテンツであるか否かを判定し、
　映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
　情報処理方法。
（１４）
　コンピュータに、
　映像に対して音が遅延しているコンテンツであるか否かを判定し、
　映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
　ステップを含む処理を実行させるためのプログラム。

　１１　コンテンツ配信装置，　１２　コンテンツ処理装置，　１３　映像提示デバイス，　１４　音提示デバイス，　１５　触覚提示デバイス，　３１　コンテンツ取得部，　３２　コンテンツ解析部，　３３　遅延処理部，　３４　映像制御部，　３５　音制御部，　３６　触覚制御部

Claims

　映像に対して音が遅延しているコンテンツであるか否かを判定する判定部と、
　前記判定部により映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する処理部と
　を備える情報処理装置。
　前記処理部は、音源が前記音を出したときの前記映像と前記音が一致するように前記映像を遅延させて再生する
　請求項１に記載の情報処理装置。
　前記所定の時間は、前記音が遅延している時間に相当する
　請求項１に記載の情報処理装置。
　前記所定の時間は、前記音の音源までの距離に応じて設定される
　請求項１に記載の情報処理装置。
　前記映像を撮影する撮影部をさらに備え、
　前記処理部は、前記撮影部で撮影された映像を遅延する
　請求項１に記載の情報処理装置。
　前記音は、ユーザに直接的に届く音であり、
　前記撮影部は、前記ユーザに直接的に届いた映像を撮影する
　請求項５に記載の情報処理装置。
　前記処理部は、前記所定の時間の間、前記映像をマスキングする
　請求項１に記載の情報処理装置。
　集音された音を音源分離し、
　前記処理部は、前記音源分離により分離された音源までの距離に応じて、前記音を遅延させて再生する
　請求項１に記載の情報処理装置。
　前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻よりも前の時点で撮影された映像が、前記開始時刻から再生される
　請求項１に記載の情報処理装置。
　前記コンテンツは、開始時刻と終了時刻が設定されており、前記開始時刻から所定の時間内はスロー再生され、前記終了時刻より前の所定の時間内は早送りで再生される
　請求項１に記載の情報処理装置。
　前記コンテンツは、ＶＲ（Virtual Reality）コンテンツであり、
　前記処理部は、ユーザが仮想空間内で視聴している位置と、前記コンテンツの音が集音されていた位置との距離に応じて前記映像を所定の時間だけ遅延させて再生する
　請求項１に記載の情報処理装置。
　前記音に合った触覚を提示する
　請求項１に記載の情報処理装置。
　映像を処理する情報処理装置が、
　映像に対して音が遅延しているコンテンツであるか否かを判定し、
　映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
　情報処理方法。
　コンピュータに、
　映像に対して音が遅延しているコンテンツであるか否かを判定し、
　映像に対して音が遅延しているコンテンツであると判定された場合、前記映像を所定の時間だけ遅延させて再生する
　ステップを含む処理を実行させるためのプログラム。