JPWO2017022467A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents

情報処理装置、および情報処理方法、並びにプログラム Download PDF

Info

Publication number
JPWO2017022467A1
JPWO2017022467A1 JP2017532471A JP2017532471A JPWO2017022467A1 JP WO2017022467 A1 JPWO2017022467 A1 JP WO2017022467A1 JP 2017532471 A JP2017532471 A JP 2017532471A JP 2017532471 A JP2017532471 A JP 2017532471A JP WO2017022467 A1 JPWO2017022467 A1 JP WO2017022467A1
Authority
JP
Japan
Prior art keywords
image
audio
control
sound
control information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017532471A
Other languages
English (en)
Other versions
JP6809463B2 (ja
Inventor
充 勝股
充 勝股
徹 知念
徹 知念
水野 公嘉
公嘉 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017022467A1 publication Critical patent/JPWO2017022467A1/ja
Application granted granted Critical
Publication of JP6809463B2 publication Critical patent/JP6809463B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/165Management of the audio stream, e.g. setting of volume, audio stream path
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B21/00Teaching, or communicating with, the blind, deaf or mute
    • G09B21/001Teaching or communicating with blind persons
    • G09B21/006Teaching or communicating with blind persons using audible presentation of the information
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/81Monomedia components thereof
    • H04N21/8106Monomedia components thereof involving special audio data, e.g. different tracks for different languages
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/76Television signal recording
    • H04N5/91Television signal processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/11Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/15Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/02Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Stereophonic System (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法を提供する。異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をMP4ファイル、またはMPDファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。

Description

本開示は、情報処理装置、および情報処理方法、並びにプログラムに関する。さらに詳細には、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を観察可能な画像表示構成において、表示画像に応じた出力音声の制御を行う情報処理装置、および情報処理方法、並びにプログラムに関する。
昨今、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を撮影可能な撮像装置が開発され、このような撮像装置を用いて撮影された画像をPCや、タブレット端末、携帯端末、あるいはヘッド・マウント・ディスプレイ(HMD)等の表示部に表示し、ユーザによる選択画像、あるいはユーザの向きに応じて自動選択された画像を観察可能としたシステムが広く利用されている。
例えば、PC等において、周囲360度の全方位画像の映像(動画像)データを外部サーバから取得、あるいは記録メディアから読み出して表示装置に表示させることができる。ユーザは、任意方向の画像を選択して表示装置に表示可能であり、自由に視点を変えて動画像や静止画等の画像を観察することができる。
PCやタブレット端末、あるいは携帯端末の表示部に表示した画像は、ユーザによるマウス操作、あるいはタッチパネルに対するスライド処理や、フリック処理などによって観察方向を移動させて表示可能であり、ユーザは、容易に様々な方向の画像を楽しむことができる。
ヘッド・マウント・ディスプレイ(HMD)に画像を表示する場合は、HMDに搭載した頭部の動きや方向を検出するセンサ情報に応じて、ユーザの頭の向きに応じた画像を表示可能であり、ユーザは、あたかもHMDの表示部に表示された画像の中に存在しているような感覚を味わうことができる。
このような画像表示装置は、画像に併せて音声を出力する機能を備えたものも多い。
画像と音声を出力する従来型の装置の多くは、音声出力の制御方式として、以下の(a),(b)のいずれかのタイプの方式を採用している。
(a)観察画像の移動に併せて音声の聞こえる方向も追従させて移動するような制御を行う、画像追従型の音声制御方式、
(b)観察画像の移動とは無関係に、音声の聞こえる方向は固定する制御を行う、画像非追従型の音声制御方式、
このように、従来装置における音声制御方式は、(a)画像追従型の音声制御方式、または、(b)画像非追従型の音声制御方式のいずれを採用しているものが多い。
なお、(a)画像追従型の音声制御方式を開示した文献として、例えば特許文献1(特開2002−345097号公報)がある。
画像に併せて出力する音声には、例えば、画像内に含まれる被写体(オブジェクト)から発生する音声の他、画像の解説などのナレーションやコメント、BGM等、画像内の被写体の発する音声ではない音声などが含まれる。
画像内の被写体から発生する音は、画像の移動に併せて音の聞こえる方向を移動させた方が、臨場感が増加する。
一方、画像の解説などのナレーションやコメント、BGM等、画像内の被写体の発する音声ではない音声については、常に一定方向から聞こえた方が、聞きやすいと考えられる。
しかし、このように画像に追従させる音声と、追従させない音声を区別して制御しようとすると、処理が複雑化し、制御の実現が困難であった。
特開2002−345097号公報
本開示は、例えば上記問題点に鑑みてなされたものであり、全方位画像等、ユーザの操作や動作に応じて様々な方向の画像を出力する画像表示装置において、画像に併せて出力する音声の音源方向制御を実現する情報処理装置、および情報処理方法、並びにプログラムを提供するものである。
具体的には、例えば、個別に制御可能な音声ストリームや、音声チャンネル、さらに音声出力オブジェクト等、個別制御可能な音声要素単位で表示画像追従型の制御、または表示画像非追従型の制御を実行可能とした情報処理装置、および情報処理方法、並びにプログラムを提供する。
本開示の第1の側面は、
異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置にある。
さらに、本開示の第2の側面は、
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部を有するデータ配信サーバにある。
さらに、本開示の第3の側面は、
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体にある。
さらに、本開示の第4の側面は、
情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法にある。
さらに、本開示の第5の側面は、
情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラムにある。
なお、本開示のプログラムは、例えば、様々なプログラム・コードを実行可能な情報処理装置やコンピュータ・システムに対して、コンピュータ可読な形式で提供する記憶媒体、通信媒体によって提供可能なプログラムである。このようなプログラムをコンピュータ可読な形式で提供することにより、情報処理装置やコンピュータ・システム上でプログラムに応じた処理が実現される。
本開示のさらに他の目的、特徴や利点は、後述する本開示の実施例や添付する図面に基づくより詳細な説明によって明らかになるであろう。なお、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
本開示の一実施例の構成によれば、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をMP4ファイル、またはMPDファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。 情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。 情報処理装置における画像表示処理、および音声出力処理の一例について説明する図である。 情報処理装置に対するデータ提供処理構成について説明する図である。 ISOベースメディアファイルフォーマットについて説明する図である。 ISOベースメディアファイルフォーマットについて説明する図である。 MP4ファイルに対する音声制御情報の記録例について説明する図である。 全音声対応制御情報について説明する図である。 音声制御情報の記録順(シーケンス)の設定例について説明する図である。 音声要素対応制御情報について説明する図である。 音声制御の一例について説明する図である。 MP4ファイルに対する音声制御情報の記録領域の一例について説明する図である。 MP4ファイルに対する音声制御情報の記録領域の一例について説明する図である。 MP4ファイルに対して記録される音声制御情報について説明する図である。 MP4ファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。 MP4ファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。 情報処理装置に対するデータ提供処理構成について説明する図である。 MPDファイルについて説明する図である。 MPDファイルについて説明する図である。 MPDファイルに対して記録される音声制御情報について説明する図である。 MPDファイルに対して記録される音声制御情報の具体例について説明する図である。 MPDファイルに対して記録される音声制御情報の具体例について説明する図である。 MPDファイルに対して記録される音声制御情報の具体例について説明する図である。 MPDファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。 MPDファイルからの音声制御情報の読み出し、および音声制御処理の実行シーケンスについて説明するフローチャートを示す図である。 情報処理装置のハードウェア構成例について説明する図である。
以下、図面を参照しながら本開示の情報処理装置、および情報処理方法、並びにプログラムの詳細について説明する。なお、説明は以下の項目に従って行なう。
1.画像表示制御および音声出力制御例について
2.(実施例1)MP4ファイルに音声制御情報を記録した実施例について
2−1.(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する記録例について
2−2.(音声制御情報記録例2)MP4ファイルにストリーム単位の音声制御情報を記録する例について
2−3.(音声制御情報記録例3)MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
3.MP4ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
4.(実施例2)MPDに音声制御情報を記録した実施例について
4−1.(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する記録例について
4−2.(音声制御情報記録例2)MPDファイルにストリーム単位の音声制御情報を記録する例について
4−3.(音声制御情報記録例3)MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
5.MPDファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
6.情報処理装置のハードウェア構成例について
7.本開示の構成のまとめ
[1.画像表示制御および音声出力制御例について]
まず、図1以下を参照して、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を表示部に表示可能とした装置における画像表示制御および音声出力制御の具体的な例について説明する。
前述したように、昨今、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を撮影可能な撮像装置が開発され、このような撮像装置を用いて撮影された画像をPCや、タブレット端末、携帯端末、あるいはヘッド・マウント・ディスプレイ(HMD)等の表示部に表示し、ユーザが選択した任意方向の画像を観察可能としたシステムが広く利用されている。
例えば、周囲360度の全方位画像の映像(動画像)データを外部サーバから取得、あるいは記録メディアから読み出してユーザのPC等の表示装置に表示させることができる。ユーザは、サーバや記録メディアから取得した画像データから、任意方向の画像を選択して表示装置に表示させ、自由に視点を変えながら映像(動画像)や静止画を観察することが可能となる。
図1は、携帯端末の表示部に様々な方向の画像を選択して表示した例を説明する図である。
図1に示す画像データ10は、パノラマ画像である。水平方向360度の画像が1枚の画像データとして設定されている。
画像データの中心部がユーザ(観察者)の正面方向(例えば0度=北方向)の画像とすると、画像データ10の左端がユーザ(観察者)の後ろ方向(−180度=南方向)の画像であり、画像データ10の右端もユーザ(観察者)の後ろ方向(+180度=南方向)の画像である。
画像データ10の左端と右端は同じ位置の画像となる。
なお、全天球画像や全方位画像、すなわち360度パノラマ画像の場合は、上下方向については180度の画像が撮影されており、上下左右全方向の画像が含まれる。
以下の実施例では、水平方向360度のパノラマ画像を利用した例について説明するが、本開示の構成は、全天球画像や全方位画像を利用した場合にも適用可能であり、異なる方向の画像を選択的に表示可能とした装置において本開示の構成を適用することができる。
以下の説明においてパノラマ画像は、水平方向360度のパノラマ画像、全天球画像や全方位画像等の360度パノラマ画像、その他、画像移動により異なる方向の画像を表示可能とした画像全般を含むものとする。
図1下段には、ユーザの情報処理装置の一例である携帯端末20を示している。
携帯端末20の表示部には、画像データ10の一部の領域、例えばユーザが任意に選択した領域の画像を表示することができる。
左側の携帯端末20の表示画像Aは、画像データ10内の一部領域の画像区間a1〜a2の部分区間の領域画像である。
右側の携帯端末20の表示画像Bは、画像データ10内の一部領域の画像区間b1〜b2の部分区間の領域画像である。
ユーザは、タッチパネルとして構成された表示部に対する指のスライド処理などによって、表示画像を移動させて、任意の領域の画像を表示することができる。
なお、携帯端20には、スピーカ25が備えられており、表示画像に併せて記録された音声データが出力される。
図2は、ヘッド・マウント・ディスプレイ(HMD)30を利用してパノラマ画像を表示した例である。
ヘッド・マウント・ディスプレイ(HMD)30に画像を表示する場合は、HMDに搭載した頭部の動きや方向を検出するセンサ情報に応じて、ユーザの頭の向きに応じた画像を表示させる。この画像表示制御により、ユーザは、あたかもHMDの表示部に表示された画像の中に存在しているような感覚を味わうことができる。
HMD30を装着したユーザが左を向いたときの画像が表示画像Pである。
HMD30を装着したユーザが右を向いたときの画像が表示画像Qである。
HMD30を装着したユーザは、体(頭)の向きを変更することで、周囲360度の画像を観察することができる。
なお、ヘッド・マウント・ディスプレイ(HMD)30にも、スピーカ35が備えられており、表示画像に併せて記録された音声データが出力される。
次に、図3を参照して図1、図2を参照して説明したパノラマ画像表示処理の実行時に出力される音声について説明する。
画像に併せて出力する音声としては、例えば、画像内に含まれる被写体(オブジェクト)から発生する音声の他、画像の解説などのナレーションやコメント、BGM等、画像内の被写体の発する音声ではない音声なども含まれる。
図3には、2種類の出力音声の例を示している。
(音声例1)犬の鳴き声(ワン)(=被写体(オブジェクト)からの発生音声)、
(音声例2)BGMとナレーション(=被写体(オブジェクト)からの発生音声ではない)
図3に示す犬の鳴き声(ワン)は、画像内の被写体から発生する音であり、画像の移動に併せて音の聞こえる方向を移動させた方が、臨場感が増加する。
図3に示す表示画像Aの場合は、「右前方」から犬の鳴き声(ワン)が聞こえる設定とし、表示画像Bの場合は、「左前方」から犬の鳴き声(ワン)が聞こえる設定とする「画像追従型」の音声制御を行うと、より臨場感を増加させることができる。
しかし、被写体(オブジェクト)からの発生音声ではないBGMやナレーション等の音声は、常に一定方向から聞こえた方が、聞きやすい。
例えば、表示画像の位置に関わらず、常に正面方向から聞こえる設定とする「画像非追従型」の音声制御を行う方が好ましい。
以下、このような音声制御を実現するための具体的な実施例について説明する。
[2.(実施例1)MP4ファイルに音声制御情報を記録した実施例について]
まず、実施例1としてMP4ファイルに音声制御情報を記録した実施例について説明する。
図4は、実施例1に従って本開示の音声制御を実行する情報処理装置70、および情報処理装置70に対して画像および音声データを含むコンテンツを提供するサーバ50と、メディア60を示した図である。
全天球画像や全方位画像、あるいはパノラマ画像等の画像データと音声データは、例えば図4に示すサーバ50から情報処理装置70に提供される。または、図4に示すメディア60から情報処理装置70に提供される。
サーバ50には、例えば放送局等の放送サーバ51、その他のデータ提供サーバ52が含まれる。
コンテンツは、放送波やインターネット等のネットワークを介して情報処理装置70に送信される。
情報処理装置70は、放送波やインターネット等のネットワークを介してサーバ50から送信されるコンテンツを受信し再生する。
また、メディア60には、情報処理装置に装着されるディスク、フラッシュメモリ、ハードディスク等の様々なメディアが含まれる。
情報処理装置70は、これらのメディアに記録されたコンテンツを読み取り再生する。
コンテンツ再生を行なう情報処理装置は、例えばTV71、PC72、携帯端末73、ヘッド・マウント・ディスプレイ(HMD)74等であり、画像表示部、音声出力部(スピーカ)を備えた装置である。
サーバ50、あるいはメディア60から情報処理装置70に提供されるコンテンツは、全天球画像、または全方位画像、あるいはパノラマ画像等、様々な方向の画像を選択的に表示可能な画像データと音声データを含むコンテンツである。
このコンテンツは、例えばMP4ファイル81に格納されて提供される。
MP4ファイル81は、ISOベースメディアファイルフォーマットに従ってデータが記録されたファイルである。
ISOベースメディアファイルフォーマットは、ISO/IEC14496−12で規定されたデータフォーマットであり、例えばフラッシュメモリ等に対する記録データ、あるいは、放送波やネットワークを介した送信データファイルの格納データとして適したデータフォーマットである。
ISOベースメディアファイルフォーマットは、例えば、画像(Video)、音声(Audio)、字幕(Subtitle)等、コンテンツ構成データである符号化データや、これらのデータに関するメタデータ(属性情報)を記録媒体(メディア)に記録する際に利用されている。さらに、放送波やネットワークを介して伝送するデータのデータ格納フォーマットとしても利用されている。
昨今の多くの携帯端末は、ISOベースメディアファイルフォーマットに従って記録されたMP4データを再生可能な再生アプリケーションを有しており、携帯端末のメディアにコンテンツを記録する場合、MP4形式で記録することが求められる場合が多い。
図5、図6を参照して、ISOベースメディアファイルフォーマットの概要について説明する。
図5には、ISO/IEC14496−12で規定されたISOベースメディアファイルフォーマットの例を示している。
図5に示すMP4ファイルは、ISOベースメディアファイルフォーマットに従ったデータの記録あるいは再生処理における1つの処理単位として設定されるファイルである。
MP4ファイルは、ボックス(box)単位の領域設定がなされ、各ボックスには、ボックス単位で定義されたデータが格納される。
各ボックスは、ボックスサイズ(box−size)、ボックスタイプ(box−type)、ボックスデータ(box−data)の各領域を有する。
ボックスサイズ(box−size)には、ボックスのデータ長(バイトサイズ)が記録される。
ボックスタイプ(box−type)には、ボックスに格納するデータの種類が記録される。
ボックスデータ(box−data)には、ボックスタイプで示される種類のデータが記録される。
図5に示すMP4ファイルには、以下のタイプのボックスが設定される。
moovボックス、
trakボックス、
mdatボックス、
上記の各ボックスが設定される。
画像、音声、字幕等の再生対象データである実データはmdatボックスに格納される。
また、mdatボックスに格納したデータに関する属性情報、再生制御情報等のメタデータは、moovボックス内のtrakボックスに格納される。
moovボックスは、MP4ファイルのmdatボックスに格納されたデータのメタデータ(再生制御情報や属性情報)の格納領域として設定されるボックスである。
moovボックス内には、1つ以上のtrakボックスが設定される。trakボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。
図6を参照して、MP4ファイルに対するデータ格納構成例について説明する。MP4ファイルには、前述したように以下の各ボックスが設定される。
moovボックス、
trakボックス、
mdatボックス、
上記の各ボックスが設定される。
mdatボックスには、例えば、
(a)画像
(b)音声
(c)字幕
これらのデータを格納する。
ISOベースメディアファイルフォーマットのデータ部であるmdatボックスの格納データは、基本データ単位としてのサンプル(sample)に区分される。
1つのmdatボックスには画像サンプルのみの集合、あるいは音声サンプルのみの集合、または字幕サンプルのみの集合、いずれか同一種類のデータサンプルの集合が格納されることになる。
moovボックスは、MP4ファイルのmdatボックスに格納されたデータのメタデータ(再生制御情報や属性情報)の格納領域である。
moovボックス内には、1つ以上のtrakボックスが設定される。trakボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。
図6に示すtrak(Video)ボックスは、画像データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
trak(Audio)ボックスは、音声データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
trak(Subtitle)ボックスは、字幕データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
なお、MP4ファイルに格納される再生データに複数の異なる画像データ、例えば2K画像、4K画像等が含まれる場合には、これらの画像種類単位の制御情報をtrak(Video)ボックスに記録することが可能である。
また、MP4ファイルの格納音声データに複数の異なる音声データ、例えば日本語音声、英語音声等が含まれる場合には、これらの音声種類に応じた音声チャンネル単位の個別の制御情報を各々個別のtrak(Audio)ボックスに記録することが可能である。
また、BGM、ナレーション、被写体(オブジェクト)音声等についても、これら各音声チャンネル(音声出力オブジェクトも含む)単位の個別の制御情報をtrak(Audio)ボックスに記録することが可能である。
さらに、例えば、各スピーカに出力するスピーカ対応の音声チャンネルに応じて個別のtrakボックスを設定することも可能である。
例えばステレオ出力に相当する左右2つのスピーカからの出力音声に対応する2つの制御情報をtrak(Audio)ボックスに記録することが可能である。
また、5.1chサラウンド音声の場合、以下の6個のスピーカが設定される。
中央前方(Center Front)スピーカ、
左前方(Left Front)スピーカ、
右前方(Right Front)スピーカ、
左サラウンド(Left Surround)スピーカ、
右サラウンド(Right Surround)スピーカ、
低域効果(LFE:Low Frequency Enhancement)スピーカ、
5.1chサラウンド音声の場合、これら6個のスピーカに対する出力音声である6つの音声チャンネルがMP4ファイルに記録される。
これら6つの音声チャンネル(音声要素)に対応する6つの制御情報をtrak(Audio)ボックスに記録することが可能である。
このような音声要素単位の制御情報の記録を行えば、各スピーカの出力音声の個別制御が可能となる。
このようにtrakボックスには、音声種類や、音声出力オブジェクトや、音声出力スピーカ等によって区別される音声チャンネル等、個別に制御可能な音声要素各々個別の制御情報を記録することが可能である。
trakボックスに記録された音声要素単位の制御情報により、音声要素単位の個別の音声制御を行うことが可能となる。
次に、図7を参照して、trak(Audio)ボックスに記録される音声対応の具体的な制御情報記録例について説明する。
trak(Audio)ボックスに記録される制御情報は、図7に示すようなデータとして記録される。
すなわち、以下のデータである。
aligned(8) class NoTrackingAudio extends FullBox('NTRK'){
unsigned int(8) no_tracking_flags;
if( no_tracking_flag & Some_Channel){
unsigned int(8) count; // channel
for (i=1 ; i<=count; i++){
unsigned int(1) NoTracking;

aligned(8);

上記制御データ中の、
「no_tracking_flags」
上記データは、図7に示すように、
「全音声対応制御情報91」である。
この「全音声対応制御情報91」の設定値は、このMP4ファイルに格納された全ての音声チャンネルや音声出力オブジェクト等の全音声要素に対する総括的な制御態様を示す情報である。
この「全音声対応制御情報91」である「no_tracking_flags」に設定される設定値(フラグ値)と、音声の制御態様との対応関係の一例を図8に示す。
図8に示すように、設定値(フラグ値)と、音声の制御態様との対応は、以下の通りである。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
「全音声対応制御情報91(no_tracking_flags)の設定値=0の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素を、表示画像に追従させる制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図3を参照して説明した例における犬の鳴き声(ワン)の音源方向制御である。すなわち、図3の例では、犬の鳴き声(ワン)の音源方向を表示画像に追従させて移動させる処理について説明した。
図3を参照して説明した複数の音声要素を有する構成において、「全音声対応制御情報91(no_tracking_flags)の設定値=0の場合、犬の鳴き声(ワン)の音声のみならず、BGMやナレーション等の音声等、全ての音声を表示画面の移動に併せて移動させる音声制御を実行することになる。
「全音声対応制御情報91(no_tracking_flags)の設定値=1の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素を、表示画像に追従させない制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図3を参照して説明した例におけるBGMやナレーション等の音声の音源方向制御である。すなわち、図3の例では、BGMやナレーション等の音声の音源方向を表示画像に追従させずに固定方向、例えば常に正面から聞こえるような設定とする制御について説明した。
図3を参照して説明した複数の音声要素を有する構成において、「全音声対応制御情報91(no_tracking_flags)の設定値=1の場合、BGMやナレーション等の音声のみならず、犬の鳴き声(ワン)の音声等、全ての音声を表示画面の移動に併せて移動させない音声制御を実行することになる。
「全音声対応制御情報91(no_tracking_flags)の設定値=2の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素には、表示画像追従音声と、非追従音声とが混在することを示す。
この場合、図7に示すループ処理部92から、音声要素要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。
ループ処理部92の記録情報に基づく音声要素要素(i)対応の制御情報の取得処理については、後述する。
「全音声対応制御情報91(no_tracking_flags)の設定値=4の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素について、ユーザによって、表示画像追従音声と、非追従音声との設定を行うことが可能であることを示す。
次に、「全音声対応制御情報91(no_tracking_flags)の設定値=2の場合において、ループ処理部92の記録情報に基づいて音声要素要素(i)対応の制御情報を取得する処理について説明する。、
「全音声対応制御情報91(no_tracking_flags)の設定値=2の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素には、表示画像追従音声と、非追従音声とが混在することを示す。
この場合、図7に示すループ処理部92から、音声要素要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。
ループ処理部92には、このMP4ファイルに格納された全ての個別制御可能な音声要素について、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかが記録されている。
全音声要素数は、チャンネル数(count)94に記録される。
ループ処理部92には、音声要素識別子i=1〜countまで、順次、各要素(i)についての制御情報、すなわち、音声要素(i)が「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを記録している。
なお、ループ処理部92における音声要素対応制御情報の記録順は、格納されている音声データによって異なる。例えばISO/IEC 23001−8Channel Configurationで決められた順番を用いる。
この場合、ループ処理部92には、ISO/IEC 23001−8の規定シーケンスに従って、各音声出力スピーカの出力チャンネルに対応づけられた音声要素対応制御情報が、順次、記録される。
ISO/IEC 23001−8に記録されたシーケンスに従った音声要素対応制御情報の記録順の例について、図9を参照して説明する。
ステレオ音声を格納したMP4ファイルの場合、出力チャンネル数=出力スピーカ数=2となり、個別制御可能な音声要素数(チャンネル数)=2となる。この場合、図7に示すループ処理部92における音声要素対応制御情報の記録は2つであり、count=2となる。
この場合、図7に示すループ処理部92には、
第1音声要素=前方左スピーカの出力チャンネルの制御情報、
第2音声要素=前方右スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
すなわち、第1音声要素、第2音声要素の順に、各音声要素が、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを示す「音声要素(i)対応制御情報(NoTracking)」が記録される。
また、5.1チャンネルサラウンド音声を格納したMP4ファイルの場合、出力チャンネル数=出力スピーカ数=6となり、個別制御可能な音声要素数(チャンネル数)=6となる。この場合、図7に示すループ処理部92における音声要素対応制御情報の記録は6つであり、count=6となる。
この場合、図7に示すループ処理部92には、
第1音声要素=前方中央(Center Front)スピーカの出力チャンネルの制御情報、
第2音声要素=前方左(Left Front)スピーカの出力チャンネルの制御情報、
第3音声要素=前方右(Right Front)スピーカの出力チャンネルの制御情報、
第4音声要素=左サラウンド(Left Surround)スピーカの出力チャンネルの制御情報、
第5音声要素=右サラウンド(Right Surround)スピーカの出力チャンネルの制御情報、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
すなわち、第1〜第6音声要素の順に、各音声要素が、「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを示す「音声要素(i)対応制御情報(NoTracking)」が記録される。
図9を参照して説明した例は、制御可能な音声要素が各スピーカの出力チャンネルに対応付けられ、ISO/IEC 23001−8に記録されたシーケンスに従って音声要素対応制御情報が記録されている場合の例である。
MP4ファイルに格納される個別制御可能な音声要素は、この例の他、様々な設定があり、その設定に応じた様々な音声要素対応の記録順シーケンスが規定される。
ループ処理部92には、その規定順に従って、各音声要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)93」が記録される。すなわち、各音声要素要素が、「表示画像追従型音声制御」対象であるか、「表示画像非追従型音声制御」対象であるかの情報が記録される。
なお、記録順番情報については、情報処理装置70に別途、提供する構成とすることが望ましい。
ループ処理部92に記録される「音声要素(i)対応制御情報(NoTracking)93」の具体例について、図10を参照して説明する。
「音声要素(i)対応制御情報(NoTracking)93」に設定される設定値と、音声の制御態様との対応関係の一例を図10に示す。
図10に示すように、設定値と、音声の制御態様との対応は、以下の通りである。
設定値=0:音声要素(i)を表示画像に追従させる(The channel can be tracked)
設定値=1:音声要素(i)を表示画像に追従させない(The channel is not tracked)
「音声要素(i)対応制御情報(NoTracking)93」の設定値=0の場合、このMP4ファイルに格納された音声要素要素(i)を、表示画像に追従させる制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図3を参照して説明した例における犬の鳴き声(ワン)の音源方向制御と同様、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。
「音声要素(i)対応制御情報(NoTracking)93」の設定値=1の場合、このMP4ファイルに格納された音声要素要素(i)を、表示画像に追従させない制御を行う。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図3を参照して説明した例におけるBGMやナレーション等の音声の音源方向制御と同様、表示画像が移動しても、その移動に追従させない音源方向制御を行なう。
図10に示す表に示す音声要素(i)対応制御情報(NoTracking)の値[0]、または[1]が、図7に示すループ処理部92内に、各音声要素(i)対応制御情報の設定値として記録されることになる。
図7に示すループ処理部92内に記録された各音声要素(i)対応制御情報の設定値に基づく制御の一例について、図11を参照して説明する。
図11は、先に図9を参照して説明した5.1チャンネルサラウンド音声を格納したMP4ファイルの場合の制御例を示す図である。
5.1チャンネルサラウンド音声を格納したMP4ファイルの場合、出力チャンネル数=出力スピーカ数=6となり、個別制御可能な音声要素数(チャンネル数)=6となる。この場合、図7に示すループ処理部92における音声要素対応制御情報の記録は6つであり、count=6となる。
この場合、図7に示すループ処理部92には、
第1音声要素=前方中央スピーカの出力チャンネルの制御情報、
第2音声要素=前方左スピーカの出力チャンネルの制御情報、
第3音声要素=前方右スピーカの出力チャンネルの制御情報、
第4音声要素=左サラウンドスピーカの出力チャンネルの制御情報、
第5音声要素=右サラウンドスピーカの出力チャンネルの制御情報、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
図11に示す制御例は、図7に示すループ処理部92内に記録された「音声要素(i)対応制御情報(NoTracking)93」の設定値が以下の設定である場合の制御例である。
第1音声要素(前方中央スピーカの出力チャンネル)の制御情報の設定値=1、
第2音声要素(前方左スピーカの出力チャンネル)の制御情報の設定値=0、
第3音声要素(前方右スピーカの出力チャンネル)の制御情報の設定値=0、
第4音声要素(左サラウンドスピーカの出力チャンネル)の制御情報の設定値=0、
第5音声要素(右サラウンドスピーカの出力チャンネル)の制御情報の設定値=0、
第6音声要素(低域効果用(LFE)スピーカの出力チャンネル)の制御情報の設定値=0、
上記に示す設定値は、
第1音声要素(前方中央スピーカの出力チャンネル)のみ、表示画像の移動に対して追従しない音声制御、すなわち、「表示画像非追従型音声制御」を実行し、その他の第2〜第6音声要素については、表示画像の移動に対して追従する音声制御、すなわち、「表示画像追従型音声制御」を実行することを示す設定値である。
例えば、具体的には、第1音声要素(前方中央スピーカの出力チャンネル)からは、BGMやナレーションが出力され、その他のスピーカからは、表示画像内の被写体の出力音が出力される。
このような設定に相当する。
図11に示すユーザ(観察者)101は、ヘッド・マウント・ディスプレイ(HMD)を装着して全方向画像、あるいはパノラマ画像を観察している。観察画像は、ユーザの頭の向きに応じて移動するように制御される。
なお、図11に示す6つのスピーカは、仮想的なスピーカであり、実際に存在するものではない。
スピーカは、ユーザ101の装着したHMDに備えられており、左耳と右耳のヘッドホンを介して擬似的な5.1chサラウンド音を出力する構成である。
ただし、MP4ファイルには、5.1chサラウンド対応の6つのスピーカ出力音に相当する6つの個別制御可能な音声要素が記録され、これらが、上記の音声要素対応制御情報に従って制御される。
図11に示す(A)ユーザ(観察者)正面向きの設定で、BGMやナレーションは、正面にある仮想的な前方中央スピーカ(Center front)から聞こえる設定となる。
前方中央スピーカ(Center front)がBGMやナレーションを出力する第1音声要素である。
その他の音声、例えば観察画像内の被写体からの音声、例えば犬の鳴き声等は、その他のスピーカから聞こえる設定である。
その他のスピーカが、被写体音等を出力する第2〜第6音声要素である。
図11(A)に示す例では、犬の鳴き声は、左前方(Left Front)スピーカから聞こえる。
次に、ユーザが図11に示す(B)ユーザ(観察者)右向きの設定にユーザ101が体を回転させると、これに伴いHMDに表示される画像も移動する。
しかし、BGMやナレーションは、第1音声要素(前方中央スピーカの出力チャンネル)は表示画像に追従しない音声要素である。すなわち、BGMやナレーションが聞こえる方向は、ユーザに対して同一の位置であり、音源とユーザとの相対位置関係が変更されない。
従って、(B)ユーザ(観察者)右向きの設定にユーザ101が体を回転させても、BGMやナレーションは、ユーザの正面、すなわち図の右側から聞こえる設定となる。
これは、第1音声要素(前方中央スピーカ)がユーザの回転に伴って回転したと同様の効果となる。
一方、例えば犬の鳴き声等のその他のスピーカからの出力に対応する第2〜第6音声要素は、表示画像に追従する音声要素である。すなわち、犬の鳴き声(ワン)等の被写体音が聞こえる方向は、ユーザの観察画像の移動に伴って移動することになる。この場合、その音源方向とユーザとの相対位置関係が変更されることになる。
(B)ユーザ(観察者)右向きの設定にユーザ101が体を回転させると、犬の鳴き声は、ユーザの左後方のスピーカ、すなわち仮想的な左前方(Left Front)スピーカから聞こえる設定となる。
このように、情報処理装置70は、図7に示すループ処理部に記録された音声要素対応制御情報の記録値に基づいて、各音声要素の制御を実行する。
図7に示す音声制御情報は、先に図5、図6を参照して説明したMP4ファイルの音声(Audio)対応の制御情報(メタデータ)記録領域であるtrakボックスに記録される。
音声制御情報記録領域であるtrakボックス内には、様々な制御情報を記録することができる。
図7に示す音声制御情報を記録するtrakボックス内に設定する記録位置の2つの例について、図12、図13を参照して説明する。
(制御情報格納例1)
図12に示す制御情報格納例1について説明する。
図12に示す例は、MP4ファイルの音声制御情報格納ボックスであるtrakボックス内のコーデック情報等を格納する音声サンプルエントリ(AudioSampleEntry)内の下位ボックスとして音声制御情報(NoTrackingAudio)記録ボックスを設定した例である。
図7に示す制御情報を図12に示す音声制御情報(NoTrackingAudio)記録ボックスに記録する。
(制御情報格納例2)
図13に示す制御情報格納例2について説明する。
図13に示す例は、MP4ファイルの音声制御情報格納ボックスであるtrakボックス内のユーザデータを格納するユーザデータ(udta)ボックス内の下位ボックスとして音声制御情報(NoTrackingAudio)記録ボックスを設定した例である。
図7に示す制御情報を図12に示す音声制御情報(NoTrackingAudio)記録ボックスに記録する。
MP4ファイル81には、例えば図12、図13を参照して説明した各メタデータ記録領域に音声制御情報を記録することができる。
以下、MP4ファイルに対する具体的な制御情報記録例として、以下の3つの記録例について、順次、説明する。
(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する。
(音声制御情報記録例2)MP4ファイルにストリーム単位の音声制御情報を記録する。
(音声制御情報記録例3)MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する。
以下、各記録例について説明する。
[2−1.(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する記録例について]
先に説明した5.1chのサラウンド音声は、以下の各音声要素によって構成される。
第1音声要素=前方中央スピーカの出力チャンネル(Center Front)、
第2音声要素=前方左スピーカの出力チャンネル(Left Front)、
第3音声要素=前方右スピーカの出力チャンネル(Right Front)、
第4音声要素=左サラウンドスピーカの出力チャンネル(Left Surround)、
第5音声要素=右サラウンドスピーカの出力チャンネル(Right Surround)、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネル(LFE)、
現在の映画などのコンテンツで、例えば、5.1chのサラウンド音声を利用する場合、前方中央スピーカの出力チャンネル(Center Front)がナレーションなどで利用されることが多い。
全天球や全方位、あるいはパノラマ画像からなる動画において、前方中央スピーカの出力チャンネル(Center Front)をナレーション出力用として利用した場合、前方中央スピーカの出力チャンネル(Center Front)がナレーションは固定、その他のチャンネルは、表示画像位置に追従させた音を出力する制御を行うことが望まれる場合が多い。
MP4ファイルに対する音声制御情報を記録する場合、MP4ファイルに以下の各パラメータを記録する構成が可能である。
(1)全音声対応制御情報(no_tracking_flags)
(2)音声要素(i)対応制御情報(NoTracking)
図8を参照して説明したように、「(1)全音声対応制御情報(no_tracking_flags)」の設定値(フラグ値)と、音声の制御態様との対応関係は、以下の通りである。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
また、図10を参照して説明したように、「(2)音声要素(i)対応制御情報(NoTracking)」の設定値と、音声の制御態様との対応関係は、以下の通りである。
設定値=0:音声要素(i)を表示画像に追従させる(The channel can be tracked)
設定値=1:音声要素(i)を表示画像に追従させない(The channel is not tracked)
なお、音声要素(i)対応制御情報(NoTracking)設定値を記録する場合の記録順番は、先に図7を参照して説明したように予め規定されている。
[2−2.(音声制御情報記録例2)MP4ファイルにストリーム単位の音声制御情報を記録する例について]
次に、MP4に対する音声制御情報の第2の記録例として、MP4ファイルにストリーム単位の音声制御情報を記録する例について説明する。
1つの具体例として、MP4ファイルに2つの音声ストリームが記録されている場合のMP4ファイルに対する音声制御情報記録例について説明する。
MP4ファイルに以下の2つの音声ストリームが記録されているものとする。
(1)5.1chサラウンド音声ストリーム、
(2)1chモノラル音声ストリーム、
MP4ファイルに上記2つの音声ストリームが記録されている場合、MP4ファイルには、これら2つの音声ストリームに対応する音声制御情報を記録する。
一例として、制御態様は以下の設定とする。
(1)5.1chサラウンド音声ストリームは、画像内の被写体から発生する音声等によって構成される音声ストリームであり、画像追従型制御を行う。
(2)1chモノラル音声ストリームは、ナレーション等によって構成される音声ストリームであり、表示位置にかかわらず固定の位置から出力する画像非追従型制御を行う。
なお、音声出力時には、5.1chと1chの2つのストリームがデコードされ合成されて出力される。
情報処理装置の音声出力制御部は、音声出力処理に際して、5.1chサラウンド音声はデコード後に表示位置に合わせた出力音声の設定を実行し、その後に1chモノラル音声のデコードストリームと合成して出力する処理を実行する。
[2−3.(音声制御情報記録例3)MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について]
次に、MP4ファイルに対する音声制御情報記録例3として、MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。
MP4ファイルに複数の制御可能な音声要素が含まれる場合、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能な構成にすることができる。
先に図8を参照して説明した(1)全音声対応制御情報(no_tracking_flags)の設定値(フラグ値)と、音声の制御態様との対応関係は、以下の通りである。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
MP4ファイルに、設定値=4が記録されている場合、複数の音声要素各々について、表示画像追従音声と、非追従音声とを、ユーザが設定することが可能であることを示す。
例えば、前述の(音声制御情報記録例2)と同じように、MP4ファイルに以下の2つの音声ストリームが記録されているものとする。
(1)5.1chサラウンド音声ストリーム、
(2)1chモノラル音声ストリーム、
MP4ファイルに上記2つの音声ストリームが記録されている場合、MP4ファイルには、これら2つの音声ストリームに対応する音声制御情報を記録する。
具体的な記録処理構成としては様々な設定が可能であるが、一例について、図14を参照して説明する。
例えば、図14に示すように、まず、ストリーム単位の音声制御情報として、
先に図8を参照して説明した「全音声対応制御情報(no_tracking_flags)の設定値(フラグ値)と同様の制御情報を記録する。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
一例として、制御態様は以下の設定とする。
5.1chサラウンド音声ストリーム、1chモノラル音声ストリームともユーザの設定を可能とする。この場合、どちらも、全音声対応制御情報(no_tracking_flags)の設定値(フラグ値)は4が設定される。」
このような記録処理を行なうことで、ストリーム単位の音声要素について、制御情報を記録することが可能となる。
なお、ユーザ設定を行わせる場合は、情報処理装置のデータ処理部は表示部にユーザによる制御態様の決定を行わせるためのUI(ユーザインタフェース)を提示する処理を実行し、ユーザ入力に応じて、各音声要素の制御態様を決定する。
[3.MP4ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて]
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、MP4ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。
図15、図16に示すフローチャートは、ユーザ装置である情報処理装置70において実行する音声制御処理シーケンスを説明するフローチャートである。
情報処理装置70は、表示部(ディスプレイ)、音声出力部(スピーカ)を有する。
情報処理装置70は、例えばTV、PC、携帯端末、ヘッド・マウント・ディスプレイ(HMD)等である。
情報処理装置70は、例えば図4に示すサーバ50、あるいはメディア60からMP4ファイルを取得し、MP4ファイルに記録されたコンテンツを再生する。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。
画像データ、音声データは、MP4ファイルに格納され、さらにこれらの画像データ、音声データに対応する制御情報もMP4ファイルに格納されている。
音声制御情報には、先に図7を参照して説明した制御情報が含まれる。
情報処理装置70において実行する処理シーケンスについて図15、図16に示すフローチャートを参照して説明する。
なお、図15、図16に示すフローチャートに従った処理は、情報処理装置70において実行される。情報処理装置70はプログラム実行機能を持つCPUを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置70のハードウェア構成例については後段で説明する。
図15、図16に示すフローの各ステップの処理について説明する。
(ステップS101)
情報処理装置のデータ処理部は、ステップS101において、MP4ファイルを取得する。
(ステップS102)
次に、情報処理装置のデータ処理部は、ステップS102において、取得したMP4ファイルから、全音声対応制御情報(no_tracking_flag)を取得する。
図7を参照して説明した制御情報中の全音声対応制御情報(no_tracking_flag)91を取得する処理である。
(ステップS103)
次に、情報処理装置のデータ処理部は、ステップS103において、ステップS102で取得した全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定であるか否かを判定する。
全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップS104に進む。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠0)、すなわち、「表示画像追従型音声制御」の設定でない場合は、ステップS105に進む。
(ステップS104)
ステップS103において、全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップS104の処理を実行する。
情報処理装置のデータ処理部は、ステップS104において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
(ステップS105)
一方、ステップS103において、全音声対応制御情報の設定が、(no_tracking_flag≠0)、すなわち、「表示画像追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップS105の処理を実行する。
情報処理装置のデータ処理部は、ステップS105において、ステップS102で取得した全音声対応制御情報の設定が、(no_tracking_flag=1)、すなわち、「表示画像非追従型音声制御」の設定であるか否かを判定する。
全音声対応制御情報の設定が、(no_tracking_flag=1)、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS106に進む。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠1)、すなわち、「表示画像非追従型音声制御」の設定でない場合は、ステップS201に進む。
(ステップS106)
ステップS105において、全音声対応制御情報の設定が、(no_tracking_flag=1)、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップS106の処理を実行する。
情報処理装置のデータ処理部は、ステップS106において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
(ステップS201)
一方、ステップS105において、全音声対応制御情報の設定が、(no_tracking_flag≠1)、すなわち、「表示画像非追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップS201の処理を実行する。
情報処理装置のデータ処理部は、ステップS201において、ステップS102で取得した全音声対応制御情報の設定が、(no_tracking_flag=2)、すなわち、MP4ファイルに含まれる個別制御可能な音声要素に、「表示画像追従型音声制御」対象となる要素と、「表示画像非追従型音声制御」対象となる要素のいずれの要素も含まれるか否かを判定する。
全音声対応制御情報の設定が、(no_tracking_flag=2)、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定である場合は、ステップS202に進む。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠2)、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定でない場合は、ステップS251に進む。
なお、この場合は、図8から理解されるように、全音声対応制御情報の設定が、(no_tracking_flag=4)、すなわち、ユーザ設定可能な設定であることを示す。
(ステップS251)
ステップS201において、全音声対応制御情報の設定が、(no_tracking_flag≠2)、すなわち、全音声対応制御情報の設定が、(no_tracking_flag=4)である場合は、ステップS251に進む。
ステップS251において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。
なお、ユーザ設定処理の実行に際して、情報処理装置のデータ処理部は、例えば、表示部にユーザ設定可能な操作画面(UI)を表示して、各音声要素に対する制御態様をユーザ入力させる。
情報処理装置のデータ処理部は、このユーザ入力情報に応じて各音声要素の制御態様を決定して、音声制御を実行する。
(ステップS202)
ステップS201の判定処理において、全音声対応制御情報の設定が、(no_tracking_flag=2)、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップS202に進む。
ステップS202以下の処理は、図7に示す制御情報中のループ処理部92の記録情報を適用した処理となる。
すなわち、各音声要素(i)に対応する音声要素対応制御情報を読み取って、各音声要素に対する制御態様を決定する。
まず、ステップS202の処理は、音声要素識別子(i)の初期設定であり、i=1の設定を行う。
(ステップS203)
ステップS203において、情報処理装置のデータ処理部は、音声要素識別子(i)の値が、処理対象のMP4ファイルに記録された個別制御可能な音声要素数(count)以下であるかを判定する。
i>count
の場合は、全ての音声要素に対する処理が完了したことを意味し、ステップS271に進む。
i≦count
の場合は、未処理の音声要素があることを意味し、ステップS204に進む。
(ステップS204)
ステップS203において、音声要素識別子=i≦countと判定された場合、ステップS204の処理を実行する。
情報処理装置のデータ処理部は、ステップS204において、図7に示す制御情報のループ処理部92から音声要素識別子(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値を取得する。
さらに、取得した音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。
設定値=0、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップS205に進む。
一方、設定値=1、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS206に進む。
(ステップS205)
ステップS204において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップS205に進む。
ステップS205において、情報処理装置のデータ処理部は、処理対象の音声要素要素(i)の制御を、表示画像に追従させる「表示画像追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
(ステップS206)
一方、ステップS204において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップS206に進む。
ステップS206において、情報処理装置のデータ処理部は、処理対象の音声要素要素(i)の制御を、表示画像に追従させない「表示画像非追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
(ステップS207)
ステップS205、またはステップS206において1つの音声要素(i)の処理態様を決定したら、次にステップS207において、音声要素識別子(i)の更新処理を実行する。すなわち、
i=i+1
として、ステップS203に進む。
MP4ファイルに格納されたすべての音声要素に対する処理態様を決定すると、ステップS203の判定処理において、Noの判定となり、ステップS271に進む。
(ステップS271)
情報処理装置のデータ処理部は、ステップS271において、MP4ファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。
これらの処理によって、各音声要素単位で、
「表示画像追従型制御」、あるいは、
「表示画像非追従型制御」、
いすがれかの態様で音声出力制御が実行されることになる。
[4.(実施例2)MPDに音声制御情報を記録した実施例について]
次に、実施例2としてMPDに音声制御情報を記録した実施例について説明する。
図17は、実施例2に従って本開示の音声制御を実行する情報処理装置70、および情報処理装置70に対して画像および音声データを含むコンテンツを提供するサーバ50と、メディア60を示した図である。
全天球画像や全方位画像、あるいはパノラマ画像等の画像データと音声データは、図4に示すサーバ50から送信、またはメディア60から読み取られて情報処理装置70に提供される。
サーバ50は、例えば放送局等の放送サーバ51、その他のデータ提供サーバ52が含まれ、放送波やインターネット等のネットワークを介して、様々なデータが情報処理装置70に送信される。
情報処理装置70は、放送波やインターネット等のネットワークを介してサーバ50からの送信データを受信し再生する。
メディア60は、情報処理装置に装着されるディスク、フラッシュメモリ、ハードディスク等の様々なメディアである。
情報処理装置70は、これらのメディアの記録データを読み出し、再生する。
コンテンツ再生を行なう情報処理装置は、例えばTV71、PC72、携帯端末73、ヘッド・マウント・ディスプレイ(HMD)74等であり、画像表示部、音声出力部(スピーカ)を備えた装置である。
サーバ50、あるいはメディア60から情報処理装置70に提供されるコンテンツは、全天球画像、または全方位画像、あるいはパノラマ画像等、様々な方向の画像を選択的に表示可能な画像データと音声データを含むコンテンツである。
このコンテンツは、先に説明した実施例1と同様、例えばMP4ファイル81に格納されて提供される。
先に説明した実施例1では、MP4ファイルのメタデータ格納領域であるtrakボックスに例えば図7を参照して説明したような音声制御情報を記録する構成とした。
本実施例2では、図17に示すMP4ファイル81に格納された音声データに関する音声制御情報をMP4ファイル81と別のMPDファイル82に格納して情報処理装置70に提供する。
MPD[メディア・プレゼンテーション・ディスクリプション(Media Presentation Description)]ファイル82は、ストリーミング配信コンテンツに関する規格であるMPEG−DASH規格において規定されたシグナリングデータ(メタデータ)を構成する1つのマニフェストファイルである。
MPDファイル82は、動画や音声ファイルの管理情報であるメタデータを記述するためのマニフェストファイルである。
本実施例2は、このMPDファイル82に、MP4ファイル81に格納された音声データに関する音声制御情報を記録する構成とした実施例である。
MPDファイル82は、例えばあるコンテンツの再生時間を細分化した時間区間であるピリオド(Period)単位で、様々な制御データを記録することができる。
図18、図19を参照してMPDファイルの構成例について説明する。
図18は、MPDフォーマットの一例を示す図である。
図18に示すように、MPDは、画像や、音声それぞれのストリームごとに、以下の様々な規定範囲単位で属性等の情報や制御情報を記述可能である。
(1)時間軸上の区間を規定したピリオド(Period)
(2)画像、音声等のデータ種類等を規定したアダプテーションセット(AdaptationSet)
(3)画像、音声等のさらに下位の細分化データ種類を規定したリプレゼンテーション(Representation)
(4)画像、音声のセグメント(AVセグメント)単位の情報記録領域となるセグメントインフォ(SegmentInfo)
図19は、MPDに記録されるAVセグメント対応の情報(制御情報や管理情報、属性情報など)を時系列に展開して示した図である。
左から右に時間が経過するものとする。この時間軸は、例えば情報処理装置におけるAVコンテンツの再生時間に対応する。
AVセグメントに対応する様々な情報がMPDに記録される。なお、例えばサーバ50から情報処理装置70にMPDファイル82を提供する場合、MPDはシグナリングデータとして、再生対象実データであるAVセグメントを格納したMP4ファイル81に先行して送信される。
情報処理装置70は、MPDを解析して、再生対象実データであるAVセグメントを格納したMP4ファイル81のアクセス情報やコーデック情報を取得して、MP4ファイル81に格納されたAVセグメントの再生準備を整えることが可能となる。
MPDは、図18を参照して説明したように、
(1)ピリオド(Period)
(2)アダプテーションセット(AdaptationSet)
(3)リプレゼンテーション(Representation)
(4)セグメントインフォ(SegmentInfo)
これらの階層設定の下に、AVセグメントに関する属性情報、制御情報等のメタデータ(シグナリングデータ)を記録する構成となっている。
図19は、これらのメタデータ記録領域を時間軸、およびデータ種類別に展開して示した図である。
図19には、一例としてピリオド1(Period(1))、ピリオド2(Period(2)の2つのピリオドを示し、さらに、ピリオド1(Period(1))に以下の3つのアダプテーションセット(AdaptationSet)を示している。
(V11)画像対応情報記録領域であるアダプテーションセットV11(Adaptation(V11))
(A11)日本語音声対応情報記録領域であるアダプテーションセットA11(Adaptation(A11))
(A12)英語音声対応情報記録領域であるアダプテーションセットA12(Adaptation(A12))
(V11)画像対応情報記録領域であるアダプテーションセットV11(Adaptation(V11))は、異なる属性を持つストリーム単位の情報記録領域として、以下の2つのリプレゼンテーション(Representation)を有する。
(V111)低ビットレート画像対応の情報記録領域であるリプレゼンテーション(V111)(Representation(V111))
(V112)高ビットレート画像対応の情報記録領域であるリプレゼンテーション(V112)(Representation(V112))
同様に、(A11)日本語音声像対応情報記録領域であるアダプテーションセットA11(Adaptation(A11))は、以下のリプレゼンテーション(Representation)を有する。
(A111)日本語音声対応の情報記録領域であるリプレゼンテーション(A111)(Representation(A111))
同様に、(A12)英語音声像対応情報記録領域であるアダプテーションセットA12(Adaptation(A12))は、以下のリプレゼンテーション(Representation)を有する。
(A121)英語音声対応の情報記録領域であるリプレゼンテーション(A121)(Representation(A121))
さらに、各リプレゼンテーション(Representation)は、セグメント単位で情報が記録可能な構成となっている。
例えば、時刻t1に高ビットレート画像と日本語音声を選択して再生する情報処理装置(クライアント)は、再生対象とする高ビットレート画像と日本語音声に関する情報をMPDから選択して取得することになる。
この選択対象とするMPDの記録情報が、図に示すセグメント領域201,202の情報となる。
このように、受信装置は、シグナリングデータとして送信装置から送信されるMPDから、受信装置で再生対象とするデータ(セグメント)に対応する情報のみを選択して参照する。
このように、MPDには、データ種別、時間単位のセグメント対応情報を記録することができる。
以下に説明する実施例2では、図17に示すMP4ファイル81に、再生対象データである画像や音声データ(AVセグメント)を格納し、MPDファイル82に、MP4ファイル81に格納した画像や音声データ(AVセグメント)に関する制御情報を格納した実施例である。
図17に示すMPDファイル82に、音声制御情報を記録する場合、先に説明したMP4ファイルと、同様、様々な制御態様を示す情報を記録することができる。
MPDファイル82に記録する音声制御情報の示す制御態様と、MP4ファイルに記録する「(1)全音声対応制御情報(no_tracking_flags)」の設定値の示す制御態様との対応関係を図20に示す。
MPDではロールエレメント(Role Element)に音声制御情報を記録するための新規の記述子(Descriptor)を設定する。例えば図20に示すように、
URI=http://foo.bar/scheme/AudioNoTracking
を音声制御情報を記録するための新規の記述子とする。
このMPDの音声制御情報記録領域に設定可能な音声制御情報は、図20に示すように、以下の3種類となる。
(a)NoTracking
(b)数値文字列
(c)USER
なお、上記(a)〜(c)の設定値は、図20に示すように、先に説明したMP4ファイルに記録する「(1)全音声対応制御情報(no_tracking_flags)」の設定値1,2,4に対応する。
すなわち、図20に示すように、以下の対応関係である。
(a)NoTrackingは、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=1に相当し、全音声を表示画像に追従させない(All channels are not tracked)制御処理を示す。
(b)数値文字列は、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=2に相当し、表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)ことを示す。
(c)USERは、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=4に相当し、表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)であることを示す。
以下、図17に示すMPDファイル82に、音声制御情報を記録する場合の具体的な制御情報記録例として、以下の3つの記録例について、順次、説明する。
(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する。
(音声制御情報記録例2)MPDファイルにストリーム単位の音声制御情報を記録する。
(音声制御情報記録例3)MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する。
以下、各記録例について説明する。
[4−1.(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する記録例について]
先に説明した5.1chのサラウンド音声は、以下の各音声要素によって構成される。
第1音声要素=前方中央スピーカの出力チャンネル(Center Front)、
第2音声要素=前方左スピーカの出力チャンネル(Left Front)、
第3音声要素=前方右スピーカの出力チャンネル(Right Front)、
第4音声要素=左サラウンドスピーカの出力チャンネル(Left Surround)、
第5音声要素=右サラウンドスピーカの出力チャンネル(Right Surround)、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネル(LFE)、
現在の映画などのコンテンツで、例えば、5.1chのサラウンド音声を利用する場合、前方中央スピーカの出力チャンネル(Center Front)がナレーションなどで利用されることが多い。
全天球や全方位、あるいはパノラマ画像からなる動画において、前方中央スピーカの出力チャンネル(Center Front)をナレーション出力用として利用した場合、前方中央スピーカの出力チャンネル(Center Front)がナレーションは固定、その他のチャンネルは、表示画像位置に追従させた音を出力する制御を行うことが望まれる場合が多い。
MPDファイルにチャンネル単位の音声制御情報を記録する場合の音声制御情報の例を図21、および以下に示す。
<MPD>
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−− 5.1chのCenter ChannelのみTrackingをしないAudio −−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="6">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="100000">
<Representation>
<BaseURL> http;//foo.bar/audio.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
上記のMPD記述には、図21に示すように、制御情報記録領域251が含まれる。
制御情報記録領域251は、5.1chストリームの1音声要素(Center Chanel)を「表示画像非追従型制御」とした制御情報を記録した領域である。
前述したように、MPDではロールエレメント(Role Element)に音声制御情報を記録するための新規の記述子(Descriptor)を設定する。上記の例では、URI=http://foo.bar/scheme/AudioNoTrackingとしている。
図21に示す例では、このロールエレメントに記述された値は、
「100000」である。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=2に相当し、表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)ことを示す制御情報設定値である。
すなわち、制御情報記録領域251は、5.1chストリームの1音声要素(Center Chanel)のみを「表示画像非追従型制御」とし、その他の音声要素を「表示画像追従型制御」とした制御情報設定値(100000)を記録している。
この数値文字列は、以下の音声制御処理を実行することを意味する。
第1音声要素[前方中央スピーカ(center front speaker)]=画像非追従
第2音声要素[前方左スピーカ(left front speaker)]=画像追従
第3音声要素=前方右スピーカ(right front speaker)]=画像追従
第4音声要素=左サラウンドスピーカ(left surround speaker)]=画像追従
第5音声要素=右サラウンドスピーカ(right surround speaker)]=画像追従
第6音声要素=低域効果用スピーカ(low frequency enhancement)]=画像追従speaker)
[4−2.(音声制御情報記録例2)MPDファイルにストリーム単位の音声制御情報を記録する例について]
次に、MPDに対する音声制御情報の第2の記録例として、MPDファイルにストリーム単位の音声制御情報を記録する例について説明する。
1つの具体例として、MP4ファイルに、1chの音声ストリームが記録されている場合のストリーム単位の音声制御情報を記録した場合の例を図22および以下に示す。
<MPD>
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−−1chのストリームをTrackingをしない Audio−−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="1">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="NoTracking">
<Representation>
<BaseURL> http;//foo.bar/audio1.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
上記のMPD記述には、図22に示すように、制御情報記録領域252が含まれる。
制御情報記録領域252は、1chストリームの1音声要素を「表示画像非追従型制御」とした制御情報の記録領域である。
前述したように、MPDではロールエレメント(Role Element)に音声制御情報を記録するための新規の記述子(Descriptor)を設定する。上記の例では、URI=http://foo.bar/scheme/AudioNoTrackingとしている。
図22に示す例では、このロールエレメントに記述された値は「NoTracking」である。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=1に相当し、全音声を表示画像に追従させない(All channels are not tracked)処理を実行させるための制御情報設定値である。
[4−3.(音声制御情報記録例3)MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について]
次に、MPDファイルに対する音声制御情報記録例3として、MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。
先に説明した実施例1と同様、本実施例2においても、複数の制御可能な音声要素が含まれる場合、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能な構成にすることができる。
MPDファイルに各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報を記録する場合の音声制御情報の例を図23、および以下に示す。
<MPD>
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−− 2chのCenter ChannelのみTrackingをしないAudio −−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="2">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="USER">
<Representation>
<BaseURL> http;//foo.bar/audio.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
上記のMPD記述には、図23に示すように、制御情報記録領域253が含まれる。
制御情報記録領域253は、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報を記録している。
前述したように、MPDではロールエレメント(Role Element)に音声制御情報を記録するための新規の記述子(Descriptor)を設定する。上記の例では、URI=http://foo.bar/scheme/AudioNoTrackingとしている。
図23に示す例では、このロールエレメントに記述された値は、
「USER」である。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=4に相当し、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報設定値である。
[5.MPDファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて]
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、MPDファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。
図24、図25に示すフローチャートは、ユーザ装置である情報処理装置70において実行する音声制御処理シーケンスを説明するフローチャートである。
情報処理装置70は、表示部(ディスプレイ)、音声出力部(スピーカ)を有する。
情報処理装置70は、例えばTV、PC、携帯端末、ヘッド・マウント・ディスプレイ(HMD)等である。
情報処理装置70は、例えば図4に示すサーバ50、あるいはメディア60からMPDファイルを取得し、MPDファイルに記録されたコンテンツを再生する。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。
画像データ、音声データは、MP4ファイルに格納され、さらにこれらの画像データ、音声データに対応する制御情報はMPDファイルに格納されている。
情報処理装置70において実行する処理シーケンスについて図24、図25に示すフローチャートを参照して説明する。
なお、図24、図25に示すフローチャートに従った処理は、情報処理装置70において実行される。情報処理装置70はプログラム実行機能を持つCPUを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置70のハードウェア構成例については後段で説明する。
図24、図25に示すフローの各ステップの処理について説明する。
(ステップS301)
情報処理装置のデータ処理部は、ステップS301において、MPDファイルを取得する。
(ステップS302)
次に、情報処理装置のデータ処理部は、ステップS302において、取得したMPDファイルのアダプテーションセットに以下のロールエレメント、すなわち、
<Role schemeIdUri=http://foo.bar/scheme/AudioNoTracking>
この音声制御情報を記録したロールエレメントがあるか否かを判定する。
この音声制御情報記録ロールエレメントがある場合は、ステップS304に進み、ない場合は、ステップS303に進む。
(ステップS303)
情報処理装置のデータ処理部は、MPDファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがないと判定した場合は、ステップS303の処理を実行する。
情報処理装置のデータ処理部は、ステップS303において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
(ステップS304)
一方、ステップS303において、MPDファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがあると判定した場合は、ステップS304の処理を実行する。
情報処理装置のデータ処理部は、ステップS304において、ステップS302で取得したMPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「NoTracking」
であるか否かを判定する。
「NoTracking」が記録されている場合は、ステップS305に進む。
それ以外の場合は、ステップS401に進む。
(ステップS305)
ステップS304において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「NoTracking」
であると判定した場合、情報処理装置のデータ処理部は、ステップS305の処理を実行する。
情報処理装置のデータ処理部は、ステップS305において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
(ステップS401)
一方、ステップS304において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「NoTracking」
ではないと判定した場合、情報処理装置のデータ処理部は、ステップS401の処理を実行する。
情報処理装置のデータ処理部は、ステップS401において、ステップS302で取得したMPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「USER」
上記後であるか否かを判定する。
MPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「USER」
である場合は、ステップS451に進む。
一方、「USER」
であない場合は、ステップS402に進む。
(ステップS451)
ステップS401において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が(USER)である場合は、ステップS451に進む。
ステップS451において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。
なお、ユーザ設定処理の実行に際して、情報処理装置のデータ処理部は、例えば、表示部にユーザ設定可能な操作画面(UI)を表示して、各音声要素に対する制御態様をユーザ入力させる。
情報処理装置のデータ処理部は、このユーザ入力情報に応じて各音声要素の制御態様を決定して、音声制御を実行する。
(ステップS402)
ステップS401の判定処理において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が(USER)でない、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップS402に進む。
ステップS402以下の処理は各音声要素(i)に対応する音声要素対応制御情報を読み取って、各音声要素に対する制御態様を決定する処理となる。
ステップS402の処理は、各音声要素対応の制御情報ビット列を先頭から読み取る処理である。
例えば5.1chサラウンド音声を構成する6チャンネルの6つの音声要素を有する場合、ビット列は、例えば[100000]のようなビット列である。
(ステップS403)
ステップS403において、音声制御情報ビット列の未処理データがあるか否かを判定し、未処理データがある場合は、先頭から順次読み取ったビット値に基づくステップS404以下の処理を実行する。
(ステップS404)
情報処理装置のデータ処理部は、ステップS404において、各音声要素対応の制御情報ビット列から順次読み取ったビット値に基づく処理を実行する。
さらに、取得した音声要素(i)対応の設定値(ビット値)が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。
設定値=0、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップS405に進む。
一方、設定値=1、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS406に進む。
(ステップS405)
ステップS404において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップS405に進む。
ステップS405において、情報処理装置のデータ処理部は、処理対象の音声要素要素(i)の制御を、表示画像に追従させる「表示画像追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
ステップS405の処理が完了すると、ステップS403に戻り、次の音声要素対応の設定値(ビット値)に基づく処理を実行する。
(ステップS406)
一方、ステップS404において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップS406に進む。
ステップS406において、情報処理装置のデータ処理部は、処理対象の音声要素要素(i)の制御を、表示画像に追従させない「表示画像非追従型音声制御」として実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
ステップS406の処理が完了すると、ステップS403に戻り、次の音声要素対応の設定値(ビット値)に基づく処理を実行する。
(ステップS471)
情報処理装置のデータ処理部は、ステップS403において、未処理要素がないと判定すると、ステップS471に進む。
ステップS471において、情報処理装置のデータ処理部は、MPDファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。
これらの処理によって、各音声要素単位で、
「表示画像追従型制御」、あるいは、
「表示画像非追従型制御」、
いすがれかの態様で音声出力制御が実行されることになる。
[6.情報処理装置のハードウェア構成例について]
次に、上述した実施例に従った処理を実行する情報処理装置、およびサーバのハードウェア構成例について、図26を参照して説明する。
図26に示すハードウェアは、図4、図17に示す情報処理装置(ユーザ装置)70、すなわち、画像再生、音声出力を実行する情報処理装置(ユーザ装置)70のハードウェア構成の一例である。
また、図26に示すハードウェアは、図4、図17に示すサーバ50、すなわち、画像データ、音声データ、並びに上述した音声制御情報を格納したファイルを生成して情報処理装置(ユーザ装置)70に送信する処理を実行するサーバ50のハードウェア構成の一例でもある。
CPU(Central Processing Unit)301は、ROM(Read Only Memory)302、または記憶部308に記憶されているプログラムに従って各種の処理を実行するデータ処理部として機能する。例えば、上述した実施例において説明したシーケンスに従った処理を実行する。RAM(Random Access Memory)303には、CPU301が実行するプログラムやデータなどが記憶される。これらのCPU301、ROM302、およびRAM303は、バス304により相互に接続されている。
CPU301はバス304を介して入出力インタフェース305に接続され、入出力インタフェース305には、各種スイッチ、キーボード、マウス、マイクロホンなどよりなる入力部306、ディスプレイ、スピーカなどよりなる表示部307、音声出力部321−1〜nが接続されている。CPU301は、入力部306から入力される指令に対応して各種の処理を実行し、処理結果を例えば表示部307、音声出力部321−1〜nに出力する。
入出力インタフェース305に接続されている記憶部308は、例えばハードディスク等からなり、CPU301が実行するプログラムや各種のデータを記憶する。通信部309は、インターネットやローカルエリアネットワークなどのネットワークを介したデータ通信の送受信部、さらに放送波の送受信部として機能し、外部の装置と通信する。
入出力インタフェース305に接続されているドライブ310は、磁気ディスク、光ディスク、光磁気ディスク、あるいはメモリカード等の半導体メモリなどのリムーバブルメディア311を駆動し、データの記録あるいは読み取りを実行する。
なお、データの符号化あるいは復号は、データ処理部としてのCPU301の処理として実行可能であるが、符号化処理あるいは復号処理を実行するための専用ハードウェアとしてのコーデックを備えた構成としてもよい。
[7.本開示の構成のまとめ]
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
なお、本明細書において開示した技術は、以下のような構成をとることができる。
(1) 異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。
(2) 前記データ処理部は、
出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(1)に記載の情報処理装置。
(3) 前記音声制御情報には、出力対象とする全音声に対応する制御情報である全音声対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する(2)に記載の情報処理装置。
(4) 前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する(3)に記載の情報処理装置。
(5) 前記データ処理部は、
前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する(3)に記載の情報処理装置。
(6) 前記音声制御情報には、出力対象とする音声要素各々に対応する制御情報である音声要素対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
さらに、前記音声要素対応制御情報を取得し、
前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する(3)〜(5)いずれかに記載の情報処理装置。
(7) 前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する(6)に記載の情報処理装置。
(8) 前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する(6)に記載の情報処理装置。
(9) 前記音声制御情報は、MP4ファイルに格納されており、
前記データ処理部は、
MP4ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請(2)〜(8)いずれかに記載の情報処理装置。
(10) 前記音声制御情報は、MP4ファイルのtrakボックスに格納されており、
前記データ処理部は、
MP4ファイルのtrakボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(9)に記載の情報処理装置。
(11) 前記音声制御情報は、MPD(Media Presentation Description)ファイルに格納されており、
前記データ処理部は、
MPDファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(2)〜(8)いずれかに記載の情報処理装置。
(12) 前記音声制御情報は、MPD(Media Presentation Description)ファイルのアダプテーションセット記録領域に格納されており、
前記データ処理部は、
MPDファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(11)に記載の情報処理装置。
(13) 異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部と、
を有するデータ配信サーバ。
(14) 異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。
(15) 情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。
(16) 情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。
また、明細書中において説明した一連の処理はハードウェア、またはソフトウェア、あるいは両者の複合構成によって実行することが可能である。ソフトウェアによる処理を実行する場合は、処理シーケンスを記録したプログラムを、専用のハードウェアに組み込まれたコンピュータ内のメモリにインストールして実行させるか、あるいは、各種処理が実行可能な汎用コンピュータにプログラムをインストールして実行させることが可能である。例えば、プログラムは記録媒体に予め記録しておくことができる。記録媒体からコンピュータにインストールする他、LAN(Local Area Network)、インターネットといったネットワークを介してプログラムを受信し、内蔵するハードディスク等の記録媒体にインストールすることができる。
なお、明細書に記載された各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。また、本明細書においてシステムとは、複数の装置の論理的集合構成であり、各構成の装置が同一筐体内にあるものには限らない。
以上、説明したように、本開示の一実施例の構成によれば、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をMP4ファイル、またはMPDファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
10 画像データ
20 携帯端末
25 スピーカ
30 ヘッド・マウント・ディスプレイ(HMD)
35 スピーカ
50 サーバ
51 放送サーバ
52 データ配信サーバ
60 メディア
70 情報処理装置
71 TV
72 PC
73 携帯端末
74 ヘッド・マウント・ディスプレイ(HMD)
81 MP4ファイル
82 MPDファイル
301 CPU
302 ROM
303 RAM
304 バス
305 入出力インタフェース
306 入力部
307 表示部
308 記憶部
309 通信部
310 ドライブ
311 リムーバブルメディア
321 音声出力部

Claims (16)

  1. 異なる方向の画像を選択的に表示可能な表示部と、
    前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
    前記データ処理部は、
    個別制御可能な音声要素単位で、
    前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
    前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。
  2. 前記データ処理部は、
    出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項1に記載の情報処理装置。
  3. 前記音声制御情報には、出力対象とする全音声に対応する制御情報である全音声対応制御情報が含まれ、
    前記データ処理部は、
    前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する請求項2に記載の情報処理装置。
  4. 前記データ処理部は、
    前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
    出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項3に記載の情報処理装置。
  5. 前記データ処理部は、
    前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
    出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項3に記載の情報処理装置。
  6. 前記音声制御情報には、出力対象とする音声要素各々に対応する制御情報である音声要素対応制御情報が含まれ、
    前記データ処理部は、
    前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
    さらに、前記音声要素対応制御情報を取得し、
    前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する請求項3に記載の情報処理装置。
  7. 前記データ処理部は、
    前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項6に記載の情報処理装置。
  8. 前記データ処理部は、
    前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項6に記載の情報処理装置。
  9. 前記音声制御情報は、MP4ファイルに格納されており、
    前記データ処理部は、
    MP4ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項2に記載の情報処理装置。
  10. 前記音声制御情報は、MP4ファイルのtrakボックスに格納されており、
    前記データ処理部は、
    MP4ファイルのtrakボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項9に記載の情報処理装置。
  11. 前記音声制御情報は、MPD(Media Presentation Description)ファイルに格納されており、
    前記データ処理部は、
    MPDファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項2に記載の情報処理装置。
  12. 前記音声制御情報は、MPD(Media Presentation Description)ファイルのアダプテーションセット記録領域に格納されており、
    前記データ処理部は、
    MPDファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項11に記載の情報処理装置。
  13. 異なる方向の画像を選択的に表示可能とした画像データと、
    前記画像データから選択表示される表示画像に併せて出力する音声データと、
    個別制御可能な音声要素単位で、
    前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
    前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
    を格納したファイルを生成するデータ処理部と、
    前記データ処理部の生成したファイルを送信する通信部と、
    を有するデータ配信サーバ。
  14. 異なる方向の画像を選択的に表示可能とした画像データと、
    前記画像データから選択表示される表示画像に併せて出力する音声データと、
    個別制御可能な音声要素単位で、
    前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
    前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
    格納した情報記録媒体であり、
    前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
    前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。
  15. 情報処理装置において、出力音声の制御を実行する情報処理方法であり、
    前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
    前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
    前記データ処理部が、
    個別制御可能な音声要素単位で、
    前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
    前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。
  16. 情報処理装置において、出力音声の制御を実行させるプログラムであり、
    前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
    前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
    前記プログラムは、前記データ処理部に、
    個別制御可能な音声要素単位で、
    前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
    前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。
JP2017532471A 2015-08-06 2016-07-19 情報処理装置、および情報処理方法、並びにプログラム Active JP6809463B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2015155740 2015-08-06
JP2015155740 2015-08-06
PCT/JP2016/071111 WO2017022467A1 (ja) 2015-08-06 2016-07-19 情報処理装置、および情報処理方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2017022467A1 true JPWO2017022467A1 (ja) 2018-05-24
JP6809463B2 JP6809463B2 (ja) 2021-01-06

Family

ID=57944056

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017532471A Active JP6809463B2 (ja) 2015-08-06 2016-07-19 情報処理装置、および情報処理方法、並びにプログラム

Country Status (6)

Country Link
US (1) US10656900B2 (ja)
EP (1) EP3334192A4 (ja)
JP (1) JP6809463B2 (ja)
CN (1) CN107925838B (ja)
TW (1) TWI736542B (ja)
WO (1) WO2017022467A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6878974B2 (ja) * 2017-03-16 2021-06-02 株式会社リコー 撮像装置、撮像システム
CN108810567B (zh) * 2017-04-27 2020-10-16 华为技术有限公司 一种音频与视频视角匹配的方法、客户端和服务器
CN109121031B (zh) * 2018-10-29 2020-11-17 歌尔科技有限公司 一种音频设备定向显示方法、装置和音频设备
KR20230037329A (ko) * 2021-09-09 2023-03-16 네이버 주식회사 이벤트 맞춤형 오디오 콘텐츠를 렌더링하기 위한 컴퓨터 시스템 및 그의 방법
CN115866326A (zh) * 2022-12-02 2023-03-28 上海哔哩哔哩科技有限公司 全景视频的音频处理方法及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993700A (ja) * 1995-09-28 1997-04-04 Sony Corp 映像音声再生装置
JP2010074238A (ja) * 2008-09-16 2010-04-02 Canon Inc 受信装置及びその制御方法
JP2011087103A (ja) * 2009-10-15 2011-04-28 Sony Corp コンテンツ再生システム、コンテンツ再生装置、プログラム、コンテンツ再生方法、およびコンテンツサーバを提供
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム
WO2015001947A1 (ja) * 2013-07-05 2015-01-08 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Family Cites Families (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7536705B1 (en) * 1999-02-22 2009-05-19 Tvworks, Llc System and method for interactive distribution of selectable presentations
WO2001056007A1 (en) * 2000-01-28 2001-08-02 Intersense, Inc. Self-referenced tracking
US6829017B2 (en) * 2001-02-01 2004-12-07 Avid Technology, Inc. Specifying a point of origin of a sound for audio effects using displayed visual information from a motion picture
CN1258285C (zh) * 2001-03-26 2006-05-31 富士通株式会社 多信道信息处理装置和多信道信息处理方法
US20030007648A1 (en) * 2001-04-27 2003-01-09 Christopher Currell Virtual audio system and techniques
JP2002345097A (ja) 2001-05-15 2002-11-29 Sony Corp サラウンド音場再生システム
JP4436617B2 (ja) * 2002-04-26 2010-03-24 パナソニック株式会社 逆多重化装置
KR100754385B1 (ko) * 2004-09-30 2007-08-31 삼성전자주식회사 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법
JP4581955B2 (ja) * 2005-10-04 2010-11-17 ソニー株式会社 コンテンツ伝送装置及びコンテンツ伝送方法、並びにコンピュータ・プログラム
JP4940671B2 (ja) * 2006-01-26 2012-05-30 ソニー株式会社 オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム
CN101079311A (zh) * 2006-05-26 2007-11-28 佛山市顺德区顺达电脑厂有限公司 声控操作的多媒体播放装置及其声控操作方法
US20100098258A1 (en) * 2008-10-22 2010-04-22 Karl Ola Thorn System and method for generating multichannel audio with a portable electronic device
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
WO2012030178A2 (ko) * 2010-09-01 2012-03-08 한국전자통신연구원 스트리밍 컨텐츠 제공 장치 및 방법
JP2012199786A (ja) * 2011-03-22 2012-10-18 Mitsubishi Electric Corp 音響再生装置
KR101843834B1 (ko) * 2011-07-01 2018-03-30 돌비 레버러토리즈 라이쎈싱 코오포레이션 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
US9843844B2 (en) * 2011-10-05 2017-12-12 Qualcomm Incorporated Network streaming of media data
US20140002582A1 (en) * 2012-06-29 2014-01-02 Monkeymedia, Inc. Portable proprioceptive peripatetic polylinear video player
TWI610554B (zh) * 2012-07-10 2018-01-01 Vid衡器股份有限公司 無線傳輸/接收單元中內容切換/品質驅動切換的方法
TWI517691B (zh) * 2012-07-24 2016-01-11 美商微晶片科技公司 一種以最小延遲無線傳輸優先權化遊戲影音之系統
JP6085029B2 (ja) * 2012-08-31 2017-02-22 ドルビー ラボラトリーズ ライセンシング コーポレイション 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム
JP6143433B2 (ja) * 2012-10-31 2017-06-07 キヤノン株式会社 医用画像撮影装置、医用画像の表示方法
US9338420B2 (en) * 2013-02-15 2016-05-10 Qualcomm Incorporated Video analysis assisted generation of multi-channel audio data
KR20140114238A (ko) * 2013-03-18 2014-09-26 삼성전자주식회사 오디오와 결합된 이미지 표시 방법
US9329682B2 (en) * 2013-06-18 2016-05-03 Microsoft Technology Licensing, Llc Multi-step virtual object selection
JP2015015553A (ja) * 2013-07-03 2015-01-22 キヤノン株式会社 記録装置及びその制御方法、プログラム並びに記憶媒体
US9411882B2 (en) * 2013-07-22 2016-08-09 Dolby Laboratories Licensing Corporation Interactive audio content generation, delivery, playback and sharing
WO2015087490A1 (ja) * 2013-12-12 2015-06-18 株式会社ソシオネクスト オーディオ再生装置及び遊技装置
US20170153866A1 (en) * 2014-07-03 2017-06-01 Imagine Mobile Augmented Reality Ltd. Audiovisual Surround Augmented Reality (ASAR)
US9854375B2 (en) * 2015-12-01 2017-12-26 Qualcomm Incorporated Selection of coded next generation audio data for transport
US20180098150A1 (en) * 2016-10-03 2018-04-05 Blackfire Research Corporation Multichannel audio interception and redirection for multimedia devices

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0993700A (ja) * 1995-09-28 1997-04-04 Sony Corp 映像音声再生装置
JP2010074238A (ja) * 2008-09-16 2010-04-02 Canon Inc 受信装置及びその制御方法
JP2011087103A (ja) * 2009-10-15 2011-04-28 Sony Corp コンテンツ再生システム、コンテンツ再生装置、プログラム、コンテンツ再生方法、およびコンテンツサーバを提供
JP2012004835A (ja) * 2010-06-16 2012-01-05 Canon Inc 再生装置及びその制御方法及びプログラム
WO2015001947A1 (ja) * 2013-07-05 2015-01-08 ソニー株式会社 送信装置、送信方法、受信装置および受信方法

Also Published As

Publication number Publication date
TWI736542B (zh) 2021-08-21
CN107925838B (zh) 2021-03-09
TW201717664A (zh) 2017-05-16
JP6809463B2 (ja) 2021-01-06
EP3334192A1 (en) 2018-06-13
EP3334192A4 (en) 2019-03-27
CN107925838A (zh) 2018-04-17
WO2017022467A1 (ja) 2017-02-09
US20180196635A1 (en) 2018-07-12
US10656900B2 (en) 2020-05-19

Similar Documents

Publication Publication Date Title
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
RU2744969C1 (ru) Способ и устройство для эффективной доставки и использования аудиосообщений для высокого качества восприятия
JP6809463B2 (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP7409362B2 (ja) 再生装置および方法、並びにプログラム
TWI716418B (zh) 資訊處理裝置、資料配訊伺服器、資訊記錄媒體、及資訊處理方法、及程式產品
KR102332739B1 (ko) 음향 처리 장치 및 방법, 그리고 프로그램
EP4016994A1 (en) Information processing device and information processing method
JP7314929B2 (ja) 情報処理装置、情報処理方法、及びプログラム
EP3321795B1 (en) A method and associated apparatuses
US11902768B2 (en) Associated spatial audio playback
JP6973371B2 (ja) 情報処理装置、表示装置、情報記録媒体、および情報処理方法、並びにプログラム
KR20190081163A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션
JP6473469B2 (ja) 映像配信システム
KR20190082055A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 광고 제공 방법 및 이를 위한 어플리케이션
KR20190081160A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 광고 제공 방법 및 이를 위한 어플리케이션
KR20190082056A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190612

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20201123

R151 Written notification of patent or utility model registration

Ref document number: 6809463

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151