JPWO2017022467A1 - 情報処理装置、および情報処理方法、並びにプログラム - Google Patents
情報処理装置、および情報処理方法、並びにプログラム Download PDFInfo
- Publication number
- JPWO2017022467A1 JPWO2017022467A1 JP2017532471A JP2017532471A JPWO2017022467A1 JP WO2017022467 A1 JPWO2017022467 A1 JP WO2017022467A1 JP 2017532471 A JP2017532471 A JP 2017532471A JP 2017532471 A JP2017532471 A JP 2017532471A JP WO2017022467 A1 JPWO2017022467 A1 JP WO2017022467A1
- Authority
- JP
- Japan
- Prior art keywords
- image
- audio
- control
- sound
- control information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims description 150
- 238000003672 processing method Methods 0.000 title claims description 12
- 230000006978 adaptation Effects 0.000 claims description 29
- 238000004891 communication Methods 0.000 claims description 7
- 238000000034 method Methods 0.000 abstract description 102
- 230000008569 process Effects 0.000 description 90
- 230000008859 change Effects 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- AWSBQWZZLBPUQH-UHFFFAOYSA-N mdat Chemical compound C1=C2CC(N)CCC2=CC2=C1OCO2 AWSBQWZZLBPUQH-UHFFFAOYSA-N 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 4
- 238000003384 imaging method Methods 0.000 description 4
- 230000011664 signaling Effects 0.000 description 4
- 238000013500 data storage Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 230000002730 additional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
- G06F3/165—Management of the audio stream, e.g. setting of volume, audio stream path
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/439—Processing of audio elementary streams
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S7/00—Indicating arrangements; Control arrangements, e.g. balance control
- H04S7/30—Control circuits for electronic adaptation of the sound field
-
- G—PHYSICS
- G09—EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
- G09B—EDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
- G09B21/00—Teaching, or communicating with, the blind, deaf or mute
- G09B21/001—Teaching or communicating with blind persons
- G09B21/006—Teaching or communicating with blind persons using audible presentation of the information
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
- H04N21/4402—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
- H04N21/440218—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/81—Monomedia components thereof
- H04N21/8106—Monomedia components thereof involving special audio data, e.g. different tracks for different languages
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N5/00—Details of television systems
- H04N5/76—Television signal recording
- H04N5/91—Television signal processing therefor
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/11—Transducers incorporated or for use in hand-held devices, e.g. mobile phones, PDA's, camera's
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/15—Transducers incorporated in visual displaying devices, e.g. televisions, computer displays, laptops
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
- H04S5/02—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation of the pseudo four-channel type, e.g. in which rear channel signals are derived from two-channel stereo signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Stereophonic System (AREA)
- Controls And Circuits For Display Device (AREA)
Abstract
Description
画像と音声を出力する従来型の装置の多くは、音声出力の制御方式として、以下の(a),(b)のいずれかのタイプの方式を採用している。
(a)観察画像の移動に併せて音声の聞こえる方向も追従させて移動するような制御を行う、画像追従型の音声制御方式、
(b)観察画像の移動とは無関係に、音声の聞こえる方向は固定する制御を行う、画像非追従型の音声制御方式、
なお、(a)画像追従型の音声制御方式を開示した文献として、例えば特許文献1(特開2002−345097号公報)がある。
一方、画像の解説などのナレーションやコメント、BGM等、画像内の被写体の発する音声ではない音声については、常に一定方向から聞こえた方が、聞きやすいと考えられる。
しかし、このように画像に追従させる音声と、追従させない音声を区別して制御しようとすると、処理が複雑化し、制御の実現が困難であった。
異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置にある。
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部を有するデータ配信サーバにある。
異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体にある。
情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法にある。
情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラムにある。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をMP4ファイル、またはMPDファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
なお、本明細書に記載された効果はあくまで例示であって限定されるものではなく、また付加的な効果があってもよい。
1.画像表示制御および音声出力制御例について
2.(実施例1)MP4ファイルに音声制御情報を記録した実施例について
2−1.(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する記録例について
2−2.(音声制御情報記録例2)MP4ファイルにストリーム単位の音声制御情報を記録する例について
2−3.(音声制御情報記録例3)MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
3.MP4ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
4.(実施例2)MPDに音声制御情報を記録した実施例について
4−1.(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する記録例について
4−2.(音声制御情報記録例2)MPDファイルにストリーム単位の音声制御情報を記録する例について
4−3.(音声制御情報記録例3)MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について
5.MPDファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて
6.情報処理装置のハードウェア構成例について
7.本開示の構成のまとめ
まず、図1以下を参照して、全天球画像や全方位画像、あるいはパノラマ画像等、様々な方向の画像を表示部に表示可能とした装置における画像表示制御および音声出力制御の具体的な例について説明する。
図1に示す画像データ10は、パノラマ画像である。水平方向360度の画像が1枚の画像データとして設定されている。
画像データの中心部がユーザ(観察者)の正面方向(例えば0度=北方向)の画像とすると、画像データ10の左端がユーザ(観察者)の後ろ方向(−180度=南方向)の画像であり、画像データ10の右端もユーザ(観察者)の後ろ方向(+180度=南方向)の画像である。
画像データ10の左端と右端は同じ位置の画像となる。
以下の実施例では、水平方向360度のパノラマ画像を利用した例について説明するが、本開示の構成は、全天球画像や全方位画像を利用した場合にも適用可能であり、異なる方向の画像を選択的に表示可能とした装置において本開示の構成を適用することができる。
携帯端末20の表示部には、画像データ10の一部の領域、例えばユーザが任意に選択した領域の画像を表示することができる。
右側の携帯端末20の表示画像Bは、画像データ10内の一部領域の画像区間b1〜b2の部分区間の領域画像である。
ユーザは、タッチパネルとして構成された表示部に対する指のスライド処理などによって、表示画像を移動させて、任意の領域の画像を表示することができる。
ヘッド・マウント・ディスプレイ(HMD)30に画像を表示する場合は、HMDに搭載した頭部の動きや方向を検出するセンサ情報に応じて、ユーザの頭の向きに応じた画像を表示させる。この画像表示制御により、ユーザは、あたかもHMDの表示部に表示された画像の中に存在しているような感覚を味わうことができる。
HMD30を装着したユーザが右を向いたときの画像が表示画像Qである。
HMD30を装着したユーザは、体(頭)の向きを変更することで、周囲360度の画像を観察することができる。
なお、ヘッド・マウント・ディスプレイ(HMD)30にも、スピーカ35が備えられており、表示画像に併せて記録された音声データが出力される。
画像に併せて出力する音声としては、例えば、画像内に含まれる被写体(オブジェクト)から発生する音声の他、画像の解説などのナレーションやコメント、BGM等、画像内の被写体の発する音声ではない音声なども含まれる。
(音声例1)犬の鳴き声(ワン)(=被写体(オブジェクト)からの発生音声)、
(音声例2)BGMとナレーション(=被写体(オブジェクト)からの発生音声ではない)
図3に示す表示画像Aの場合は、「右前方」から犬の鳴き声(ワン)が聞こえる設定とし、表示画像Bの場合は、「左前方」から犬の鳴き声(ワン)が聞こえる設定とする「画像追従型」の音声制御を行うと、より臨場感を増加させることができる。
例えば、表示画像の位置に関わらず、常に正面方向から聞こえる設定とする「画像非追従型」の音声制御を行う方が好ましい。
以下、このような音声制御を実現するための具体的な実施例について説明する。
まず、実施例1としてMP4ファイルに音声制御情報を記録した実施例について説明する。
コンテンツは、放送波やインターネット等のネットワークを介して情報処理装置70に送信される。
情報処理装置70は、放送波やインターネット等のネットワークを介してサーバ50から送信されるコンテンツを受信し再生する。
情報処理装置70は、これらのメディアに記録されたコンテンツを読み取り再生する。
このコンテンツは、例えばMP4ファイル81に格納されて提供される。
ISOベースメディアファイルフォーマットは、ISO/IEC14496−12で規定されたデータフォーマットであり、例えばフラッシュメモリ等に対する記録データ、あるいは、放送波やネットワークを介した送信データファイルの格納データとして適したデータフォーマットである。
図5には、ISO/IEC14496−12で規定されたISOベースメディアファイルフォーマットの例を示している。
図5に示すMP4ファイルは、ISOベースメディアファイルフォーマットに従ったデータの記録あるいは再生処理における1つの処理単位として設定されるファイルである。
各ボックスは、ボックスサイズ(box−size)、ボックスタイプ(box−type)、ボックスデータ(box−data)の各領域を有する。
ボックスサイズ(box−size)には、ボックスのデータ長(バイトサイズ)が記録される。
ボックスタイプ(box−type)には、ボックスに格納するデータの種類が記録される。
ボックスデータ(box−data)には、ボックスタイプで示される種類のデータが記録される。
moovボックス、
trakボックス、
mdatボックス、
上記の各ボックスが設定される。
また、mdatボックスに格納したデータに関する属性情報、再生制御情報等のメタデータは、moovボックス内のtrakボックスに格納される。
moovボックス内には、1つ以上のtrakボックスが設定される。trakボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。
moovボックス、
trakボックス、
mdatボックス、
上記の各ボックスが設定される。
(a)画像
(b)音声
(c)字幕
これらのデータを格納する。
1つのmdatボックスには画像サンプルのみの集合、あるいは音声サンプルのみの集合、または字幕サンプルのみの集合、いずれか同一種類のデータサンプルの集合が格納されることになる。
moovボックス内には、1つ以上のtrakボックスが設定される。trakボックスは、例えば画像、音声、字幕等のデータ種類別に設定可能であり、各データのメタデータを格納する。
trak(Audio)ボックスは、音声データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
trak(Subtitle)ボックスは、字幕データに関する属性情報や制御情報を格納した画像対応メタデータ格納ボックスである。
また、BGM、ナレーション、被写体(オブジェクト)音声等についても、これら各音声チャンネル(音声出力オブジェクトも含む)単位の個別の制御情報をtrak(Audio)ボックスに記録することが可能である。
例えばステレオ出力に相当する左右2つのスピーカからの出力音声に対応する2つの制御情報をtrak(Audio)ボックスに記録することが可能である。
中央前方(Center Front)スピーカ、
左前方(Left Front)スピーカ、
右前方(Right Front)スピーカ、
左サラウンド(Left Surround)スピーカ、
右サラウンド(Right Surround)スピーカ、
低域効果(LFE:Low Frequency Enhancement)スピーカ、
5.1chサラウンド音声の場合、これら6個のスピーカに対する出力音声である6つの音声チャンネルがMP4ファイルに記録される。
これら6つの音声チャンネル(音声要素)に対応する6つの制御情報をtrak(Audio)ボックスに記録することが可能である。
このような音声要素単位の制御情報の記録を行えば、各スピーカの出力音声の個別制御が可能となる。
trakボックスに記録された音声要素単位の制御情報により、音声要素単位の個別の音声制御を行うことが可能となる。
trak(Audio)ボックスに記録される制御情報は、図7に示すようなデータとして記録される。
すなわち、以下のデータである。
unsigned int(8) no_tracking_flags;
if( no_tracking_flag & Some_Channel){
unsigned int(8) count; // channel
for (i=1 ; i<=count; i++){
unsigned int(1) NoTracking;
}
aligned(8);
}
}
「no_tracking_flags」
上記データは、図7に示すように、
「全音声対応制御情報91」である。
この「全音声対応制御情報91」の設定値は、このMP4ファイルに格納された全ての音声チャンネルや音声出力オブジェクト等の全音声要素に対する総括的な制御態様を示す情報である。
図8に示すように、設定値(フラグ値)と、音声の制御態様との対応は、以下の通りである。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図3を参照して説明した例における犬の鳴き声(ワン)の音源方向制御である。すなわち、図3の例では、犬の鳴き声(ワン)の音源方向を表示画像に追従させて移動させる処理について説明した。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図3を参照して説明した例におけるBGMやナレーション等の音声の音源方向制御である。すなわち、図3の例では、BGMやナレーション等の音声の音源方向を表示画像に追従させずに固定方向、例えば常に正面から聞こえるような設定とする制御について説明した。
この場合、図7に示すループ処理部92から、音声要素要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。
ループ処理部92の記録情報に基づく音声要素要素(i)対応の制御情報の取得処理については、後述する。
「全音声対応制御情報91(no_tracking_flags)の設定値=2の場合、このMP4ファイルに格納された全ての個別制御可能な音声要素には、表示画像追従音声と、非追従音声とが混在することを示す。
この場合、図7に示すループ処理部92から、音声要素要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)」を参照して、各音声要素要素について、「表示画像追従型音声制御」を実行するか、「表示画像非追従型音声制御」を実行するかを決定する。
全音声要素数は、チャンネル数(count)94に記録される。
ループ処理部92には、音声要素識別子i=1〜countまで、順次、各要素(i)についての制御情報、すなわち、音声要素(i)が「表示画像追従型音声制御」の実行対象であるか、「表示画像非追従型音声制御」の実行対象であるかを記録している。
この場合、図7に示すループ処理部92には、
第1音声要素=前方左スピーカの出力チャンネルの制御情報、
第2音声要素=前方右スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
この場合、図7に示すループ処理部92には、
第1音声要素=前方中央(Center Front)スピーカの出力チャンネルの制御情報、
第2音声要素=前方左(Left Front)スピーカの出力チャンネルの制御情報、
第3音声要素=前方右(Right Front)スピーカの出力チャンネルの制御情報、
第4音声要素=左サラウンド(Left Surround)スピーカの出力チャンネルの制御情報、
第5音声要素=右サラウンド(Right Surround)スピーカの出力チャンネルの制御情報、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
ループ処理部92には、その規定順に従って、各音声要素(i)対応の制御情報、すなわち、図7に示す「音声要素(i)対応制御情報(NoTracking)93」が記録される。すなわち、各音声要素要素が、「表示画像追従型音声制御」対象であるか、「表示画像非追従型音声制御」対象であるかの情報が記録される。
「音声要素(i)対応制御情報(NoTracking)93」に設定される設定値と、音声の制御態様との対応関係の一例を図10に示す。
図10に示すように、設定値と、音声の制御態様との対応は、以下の通りである。
設定値=0:音声要素(i)を表示画像に追従させる(The channel can be tracked)
設定値=1:音声要素(i)を表示画像に追従させない(The channel is not tracked)
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。すなわち、「表示画像追従型音声制御」である。
「表示画像追従型音声制御」は、先に図3を参照して説明した例における犬の鳴き声(ワン)の音源方向制御と同様、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理を行なう。
すなわち、表示画像が移動した場合、その移動に追従して音源方向を移動させる処理は行なわない。すなわち、「表示画像非追従型音声制御」である。
「表示画像非追従型音声制御」は、先に図3を参照して説明した例におけるBGMやナレーション等の音声の音源方向制御と同様、表示画像が移動しても、その移動に追従させない音源方向制御を行なう。
図11は、先に図9を参照して説明した5.1チャンネルサラウンド音声を格納したMP4ファイルの場合の制御例を示す図である。
この場合、図7に示すループ処理部92には、
第1音声要素=前方中央スピーカの出力チャンネルの制御情報、
第2音声要素=前方左スピーカの出力チャンネルの制御情報、
第3音声要素=前方右スピーカの出力チャンネルの制御情報、
第4音声要素=左サラウンドスピーカの出力チャンネルの制御情報、
第5音声要素=右サラウンドスピーカの出力チャンネルの制御情報、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネルの制御情報、
この順番で各制御情報が記録される。
第1音声要素(前方中央スピーカの出力チャンネル)の制御情報の設定値=1、
第2音声要素(前方左スピーカの出力チャンネル)の制御情報の設定値=0、
第3音声要素(前方右スピーカの出力チャンネル)の制御情報の設定値=0、
第4音声要素(左サラウンドスピーカの出力チャンネル)の制御情報の設定値=0、
第5音声要素(右サラウンドスピーカの出力チャンネル)の制御情報の設定値=0、
第6音声要素(低域効果用(LFE)スピーカの出力チャンネル)の制御情報の設定値=0、
第1音声要素(前方中央スピーカの出力チャンネル)のみ、表示画像の移動に対して追従しない音声制御、すなわち、「表示画像非追従型音声制御」を実行し、その他の第2〜第6音声要素については、表示画像の移動に対して追従する音声制御、すなわち、「表示画像追従型音声制御」を実行することを示す設定値である。
このような設定に相当する。
なお、図11に示す6つのスピーカは、仮想的なスピーカであり、実際に存在するものではない。
スピーカは、ユーザ101の装着したHMDに備えられており、左耳と右耳のヘッドホンを介して擬似的な5.1chサラウンド音を出力する構成である。
前方中央スピーカ(Center front)がBGMやナレーションを出力する第1音声要素である。
その他の音声、例えば観察画像内の被写体からの音声、例えば犬の鳴き声等は、その他のスピーカから聞こえる設定である。
その他のスピーカが、被写体音等を出力する第2〜第6音声要素である。
図11(A)に示す例では、犬の鳴き声は、左前方(Left Front)スピーカから聞こえる。
しかし、BGMやナレーションは、第1音声要素(前方中央スピーカの出力チャンネル)は表示画像に追従しない音声要素である。すなわち、BGMやナレーションが聞こえる方向は、ユーザに対して同一の位置であり、音源とユーザとの相対位置関係が変更されない。
従って、(B)ユーザ(観察者)右向きの設定にユーザ101が体を回転させても、BGMやナレーションは、ユーザの正面、すなわち図の右側から聞こえる設定となる。
これは、第1音声要素(前方中央スピーカ)がユーザの回転に伴って回転したと同様の効果となる。
(B)ユーザ(観察者)右向きの設定にユーザ101が体を回転させると、犬の鳴き声は、ユーザの左後方のスピーカ、すなわち仮想的な左前方(Left Front)スピーカから聞こえる設定となる。
このように、情報処理装置70は、図7に示すループ処理部に記録された音声要素対応制御情報の記録値に基づいて、各音声要素の制御を実行する。
音声制御情報記録領域であるtrakボックス内には、様々な制御情報を記録することができる。
図12に示す制御情報格納例1について説明する。
図12に示す例は、MP4ファイルの音声制御情報格納ボックスであるtrakボックス内のコーデック情報等を格納する音声サンプルエントリ(AudioSampleEntry)内の下位ボックスとして音声制御情報(NoTrackingAudio)記録ボックスを設定した例である。
図7に示す制御情報を図12に示す音声制御情報(NoTrackingAudio)記録ボックスに記録する。
図13に示す制御情報格納例2について説明する。
図13に示す例は、MP4ファイルの音声制御情報格納ボックスであるtrakボックス内のユーザデータを格納するユーザデータ(udta)ボックス内の下位ボックスとして音声制御情報(NoTrackingAudio)記録ボックスを設定した例である。
図7に示す制御情報を図12に示す音声制御情報(NoTrackingAudio)記録ボックスに記録する。
以下、MP4ファイルに対する具体的な制御情報記録例として、以下の3つの記録例について、順次、説明する。
(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する。
(音声制御情報記録例2)MP4ファイルにストリーム単位の音声制御情報を記録する。
(音声制御情報記録例3)MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する。
[2−1.(音声制御情報記録例1)MP4ファイルにチャンネル単位の音声制御情報を記録する記録例について]
先に説明した5.1chのサラウンド音声は、以下の各音声要素によって構成される。
第1音声要素=前方中央スピーカの出力チャンネル(Center Front)、
第2音声要素=前方左スピーカの出力チャンネル(Left Front)、
第3音声要素=前方右スピーカの出力チャンネル(Right Front)、
第4音声要素=左サラウンドスピーカの出力チャンネル(Left Surround)、
第5音声要素=右サラウンドスピーカの出力チャンネル(Right Surround)、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネル(LFE)、
(1)全音声対応制御情報(no_tracking_flags)
(2)音声要素(i)対応制御情報(NoTracking)
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
設定値=0:音声要素(i)を表示画像に追従させる(The channel can be tracked)
設定値=1:音声要素(i)を表示画像に追従させない(The channel is not tracked)
次に、MP4に対する音声制御情報の第2の記録例として、MP4ファイルにストリーム単位の音声制御情報を記録する例について説明する。
MP4ファイルに以下の2つの音声ストリームが記録されているものとする。
(1)5.1chサラウンド音声ストリーム、
(2)1chモノラル音声ストリーム、
一例として、制御態様は以下の設定とする。
(1)5.1chサラウンド音声ストリームは、画像内の被写体から発生する音声等によって構成される音声ストリームであり、画像追従型制御を行う。
(2)1chモノラル音声ストリームは、ナレーション等によって構成される音声ストリームであり、表示位置にかかわらず固定の位置から出力する画像非追従型制御を行う。
情報処理装置の音声出力制御部は、音声出力処理に際して、5.1chサラウンド音声はデコード後に表示位置に合わせた出力音声の設定を実行し、その後に1chモノラル音声のデコードストリームと合成して出力する処理を実行する。
次に、MP4ファイルに対する音声制御情報記録例3として、MP4ファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
(1)5.1chサラウンド音声ストリーム、
(2)1chモノラル音声ストリーム、
具体的な記録処理構成としては様々な設定が可能であるが、一例について、図14を参照して説明する。
先に図8を参照して説明した「全音声対応制御情報(no_tracking_flags)の設定値(フラグ値)と同様の制御情報を記録する。
設定値=0:全音声を表示画像に追従させる(All channels can be tracked)
設定値=1:全音声を表示画像に追従させない(All channels are not tracked)
設定値=2:表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)
設定値=4:表示画像追従音声と、非追従音声とを、ユーザ設定可能(User selected channels can be tracked)
5.1chサラウンド音声ストリーム、1chモノラル音声ストリームともユーザの設定を可能とする。この場合、どちらも、全音声対応制御情報(no_tracking_flags)の設定値(フラグ値)は4が設定される。」
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、MP4ファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。
情報処理装置70は、表示部(ディスプレイ)、音声出力部(スピーカ)を有する。
情報処理装置70は、例えばTV、PC、携帯端末、ヘッド・マウント・ディスプレイ(HMD)等である。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。
音声制御情報には、先に図7を参照して説明した制御情報が含まれる。
なお、図15、図16に示すフローチャートに従った処理は、情報処理装置70において実行される。情報処理装置70はプログラム実行機能を持つCPUを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置70のハードウェア構成例については後段で説明する。
(ステップS101)
情報処理装置のデータ処理部は、ステップS101において、MP4ファイルを取得する。
次に、情報処理装置のデータ処理部は、ステップS102において、取得したMP4ファイルから、全音声対応制御情報(no_tracking_flag)を取得する。
図7を参照して説明した制御情報中の全音声対応制御情報(no_tracking_flag)91を取得する処理である。
次に、情報処理装置のデータ処理部は、ステップS103において、ステップS102で取得した全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定であるか否かを判定する。
全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定である場合は、ステップS104に進む。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠0)、すなわち、「表示画像追従型音声制御」の設定でない場合は、ステップS105に進む。
ステップS103において、全音声対応制御情報の設定が、(no_tracking_flag=0)、すなわち、「表示画像追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップS104の処理を実行する。
情報処理装置のデータ処理部は、ステップS104において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
一方、ステップS103において、全音声対応制御情報の設定が、(no_tracking_flag≠0)、すなわち、「表示画像追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップS105の処理を実行する。
全音声対応制御情報の設定が、(no_tracking_flag=1)、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS106に進む。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠1)、すなわち、「表示画像非追従型音声制御」の設定でない場合は、ステップS201に進む。
ステップS105において、全音声対応制御情報の設定が、(no_tracking_flag=1)、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合、情報処理装置のデータ処理部は、ステップS106の処理を実行する。
情報処理装置のデータ処理部は、ステップS106において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
一方、ステップS105において、全音声対応制御情報の設定が、(no_tracking_flag≠1)、すなわち、「表示画像非追従型音声制御」の設定でないと判定した場合、情報処理装置のデータ処理部は、ステップS201の処理を実行する。
一方、全音声対応制御情報の設定が、(no_tracking_flag≠2)、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定でない場合は、ステップS251に進む。
なお、この場合は、図8から理解されるように、全音声対応制御情報の設定が、(no_tracking_flag=4)、すなわち、ユーザ設定可能な設定であることを示す。
ステップS201において、全音声対応制御情報の設定が、(no_tracking_flag≠2)、すなわち、全音声対応制御情報の設定が、(no_tracking_flag=4)である場合は、ステップS251に進む。
ステップS251において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。
情報処理装置のデータ処理部は、このユーザ入力情報に応じて各音声要素の制御態様を決定して、音声制御を実行する。
ステップS201の判定処理において、全音声対応制御情報の設定が、(no_tracking_flag=2)、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップS202に進む。
すなわち、各音声要素(i)に対応する音声要素対応制御情報を読み取って、各音声要素に対する制御態様を決定する。
まず、ステップS202の処理は、音声要素識別子(i)の初期設定であり、i=1の設定を行う。
ステップS203において、情報処理装置のデータ処理部は、音声要素識別子(i)の値が、処理対象のMP4ファイルに記録された個別制御可能な音声要素数(count)以下であるかを判定する。
i>count
の場合は、全ての音声要素に対する処理が完了したことを意味し、ステップS271に進む。
i≦count
の場合は、未処理の音声要素があることを意味し、ステップS204に進む。
ステップS203において、音声要素識別子=i≦countと判定された場合、ステップS204の処理を実行する。
情報処理装置のデータ処理部は、ステップS204において、図7に示す制御情報のループ処理部92から音声要素識別子(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値を取得する。
さらに、取得した音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。
一方、設定値=1、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS206に進む。
ステップS204において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップS205に進む。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
一方、ステップS204において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップS206に進む。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
ステップS205、またはステップS206において1つの音声要素(i)の処理態様を決定したら、次にステップS207において、音声要素識別子(i)の更新処理を実行する。すなわち、
i=i+1
として、ステップS203に進む。
MP4ファイルに格納されたすべての音声要素に対する処理態様を決定すると、ステップS203の判定処理において、Noの判定となり、ステップS271に進む。
情報処理装置のデータ処理部は、ステップS271において、MP4ファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。
「表示画像追従型制御」、あるいは、
「表示画像非追従型制御」、
いすがれかの態様で音声出力制御が実行されることになる。
次に、実施例2としてMPDに音声制御情報を記録した実施例について説明する。
図17は、実施例2に従って本開示の音声制御を実行する情報処理装置70、および情報処理装置70に対して画像および音声データを含むコンテンツを提供するサーバ50と、メディア60を示した図である。
情報処理装置70は、放送波やインターネット等のネットワークを介してサーバ50からの送信データを受信し再生する。
情報処理装置70は、これらのメディアの記録データを読み出し、再生する。
このコンテンツは、先に説明した実施例1と同様、例えばMP4ファイル81に格納されて提供される。
本実施例2では、図17に示すMP4ファイル81に格納された音声データに関する音声制御情報をMP4ファイル81と別のMPDファイル82に格納して情報処理装置70に提供する。
MPDファイル82は、動画や音声ファイルの管理情報であるメタデータを記述するためのマニフェストファイルである。
本実施例2は、このMPDファイル82に、MP4ファイル81に格納された音声データに関する音声制御情報を記録する構成とした実施例である。
図18は、MPDフォーマットの一例を示す図である。
図18に示すように、MPDは、画像や、音声それぞれのストリームごとに、以下の様々な規定範囲単位で属性等の情報や制御情報を記述可能である。
(1)時間軸上の区間を規定したピリオド(Period)
(2)画像、音声等のデータ種類等を規定したアダプテーションセット(AdaptationSet)
(3)画像、音声等のさらに下位の細分化データ種類を規定したリプレゼンテーション(Representation)
(4)画像、音声のセグメント(AVセグメント)単位の情報記録領域となるセグメントインフォ(SegmentInfo)
左から右に時間が経過するものとする。この時間軸は、例えば情報処理装置におけるAVコンテンツの再生時間に対応する。
(1)ピリオド(Period)
(2)アダプテーションセット(AdaptationSet)
(3)リプレゼンテーション(Representation)
(4)セグメントインフォ(SegmentInfo)
これらの階層設定の下に、AVセグメントに関する属性情報、制御情報等のメタデータ(シグナリングデータ)を記録する構成となっている。
(V11)画像対応情報記録領域であるアダプテーションセットV11(Adaptation(V11))
(A11)日本語音声対応情報記録領域であるアダプテーションセットA11(Adaptation(A11))
(A12)英語音声対応情報記録領域であるアダプテーションセットA12(Adaptation(A12))
(V111)低ビットレート画像対応の情報記録領域であるリプレゼンテーション(V111)(Representation(V111))
(V112)高ビットレート画像対応の情報記録領域であるリプレゼンテーション(V112)(Representation(V112))
(A111)日本語音声対応の情報記録領域であるリプレゼンテーション(A111)(Representation(A111))
同様に、(A12)英語音声像対応情報記録領域であるアダプテーションセットA12(Adaptation(A12))は、以下のリプレゼンテーション(Representation)を有する。
(A121)英語音声対応の情報記録領域であるリプレゼンテーション(A121)(Representation(A121))
この選択対象とするMPDの記録情報が、図に示すセグメント領域201,202の情報となる。
このように、MPDには、データ種別、時間単位のセグメント対応情報を記録することができる。
MPDファイル82に記録する音声制御情報の示す制御態様と、MP4ファイルに記録する「(1)全音声対応制御情報(no_tracking_flags)」の設定値の示す制御態様との対応関係を図20に示す。
URI=http://foo.bar/scheme/AudioNoTracking
を音声制御情報を記録するための新規の記述子とする。
(a)NoTracking
(b)数値文字列
(c)USER
(a)NoTrackingは、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=1に相当し、全音声を表示画像に追従させない(All channels are not tracked)制御処理を示す。
(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する。
(音声制御情報記録例2)MPDファイルにストリーム単位の音声制御情報を記録する。
(音声制御情報記録例3)MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する。
[4−1.(音声制御情報記録例1)MPDファイルにチャンネル単位の音声制御情報を記録する記録例について]
先に説明した5.1chのサラウンド音声は、以下の各音声要素によって構成される。
第1音声要素=前方中央スピーカの出力チャンネル(Center Front)、
第2音声要素=前方左スピーカの出力チャンネル(Left Front)、
第3音声要素=前方右スピーカの出力チャンネル(Right Front)、
第4音声要素=左サラウンドスピーカの出力チャンネル(Left Surround)、
第5音声要素=右サラウンドスピーカの出力チャンネル(Right Surround)、
第6音声要素=低域効果用(LFE)スピーカの出力チャンネル(LFE)、
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−− 5.1chのCenter ChannelのみTrackingをしないAudio −−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="6">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="100000">
<Representation>
<BaseURL> http;//foo.bar/audio.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
制御情報記録領域251は、5.1chストリームの1音声要素(Center Chanel)を「表示画像非追従型制御」とした制御情報を記録した領域である。
「100000」である。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=2に相当し、表示画像追従音声と、非追従音声とが混在する(Some channels can be tracked)ことを示す制御情報設定値である。
第1音声要素[前方中央スピーカ(center front speaker)]=画像非追従
第2音声要素[前方左スピーカ(left front speaker)]=画像追従
第3音声要素=前方右スピーカ(right front speaker)]=画像追従
第4音声要素=左サラウンドスピーカ(left surround speaker)]=画像追従
第5音声要素=右サラウンドスピーカ(right surround speaker)]=画像追従
第6音声要素=低域効果用スピーカ(low frequency enhancement)]=画像追従speaker)
次に、MPDに対する音声制御情報の第2の記録例として、MPDファイルにストリーム単位の音声制御情報を記録する例について説明する。
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−−1chのストリームをTrackingをしない Audio−−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="1">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="NoTracking">
<Representation>
<BaseURL> http;//foo.bar/audio1.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
制御情報記録領域252は、1chストリームの1音声要素を「表示画像非追従型制御」とした制御情報の記録領域である。
前述したように、MPDではロールエレメント(Role Element)に音声制御情報を記録するための新規の記述子(Descriptor)を設定する。上記の例では、URI=http://foo.bar/scheme/AudioNoTrackingとしている。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=1に相当し、全音声を表示画像に追従させない(All channels are not tracked)処理を実行させるための制御情報設定値である。
次に、MPDファイルに対する音声制御情報記録例3として、MPDファイルに音声制御がユーザ設定可能であることを示す情報を記録する例について説明する。
<Period>
<AdaptationSet mime−type="video/mp4">
<Representation>
<BaseURL> http;//foo.bar/video.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
<!−− 2chのCenter ChannelのみTrackingをしないAudio −−>
<AdaptationSet mime−type="audio/mp4">
<AudioChannelConfiguration schemeUri="urn:mpeg:dash:23003:3:audio_channel_configuration:2011" value="2">
<Role schemeIdUri="http://foo.bar/scheme/AudioNoTracking" value="USER">
<Representation>
<BaseURL> http;//foo.bar/audio.mp4</BaseURL>
</Representation>
</AdaptationSet>
・・・
</Period>
</MPD>
制御情報記録領域253は、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報を記録している。
「USER」である。
この値は、先に図20を参照して説明したように、MP4ファイルの「(1)全音声対応制御情報(no_tracking_flags)設定値=4に相当し、各音声要素単位で表示画像追従音声と、非追従音声とを、ユーザ設定が可能であることを示す音声制御情報設定値である。
次に、情報処理装置において実行する音声制御処理シーケンス、すなわち、MPDファイルに記録された音声制御情報を利用した音声制御処理シーケンスについて説明する。
情報処理装置70は、表示部(ディスプレイ)、音声出力部(スピーカ)を有する。
情報処理装置70は、例えばTV、PC、携帯端末、ヘッド・マウント・ディスプレイ(HMD)等である。
再生コンテンツは、全天球画像、全方向画像、パノラマ画像等、様々な方向の画像を観察可能とした画像を含み、さらに画像に併せて再生される音声情報を含むコンテンツである。
情報処理装置70において実行する処理シーケンスについて図24、図25に示すフローチャートを参照して説明する。
なお、図24、図25に示すフローチャートに従った処理は、情報処理装置70において実行される。情報処理装置70はプログラム実行機能を持つCPUを備えたデータ処理部を有し、データ処理部の制御下で各処理が実行される。なお、情報処理装置70のハードウェア構成例については後段で説明する。
(ステップS301)
情報処理装置のデータ処理部は、ステップS301において、MPDファイルを取得する。
次に、情報処理装置のデータ処理部は、ステップS302において、取得したMPDファイルのアダプテーションセットに以下のロールエレメント、すなわち、
<Role schemeIdUri=http://foo.bar/scheme/AudioNoTracking>
この音声制御情報を記録したロールエレメントがあるか否かを判定する。
情報処理装置のデータ処理部は、MPDファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがないと判定した場合は、ステップS303の処理を実行する。
情報処理装置のデータ処理部は、ステップS303において、すべての音声要素を表示画像に追従させる「表示画像追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
一方、ステップS303において、MPDファイルのアダプテーションセットに音声制御情報を記録したロールエレメントがあると判定した場合は、ステップS304の処理を実行する。
「NoTracking」
であるか否かを判定する。
それ以外の場合は、ステップS401に進む。
ステップS304において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「NoTracking」
であると判定した場合、情報処理装置のデータ処理部は、ステップS305の処理を実行する。
情報処理装置のデータ処理部は、ステップS305において、すべての音声要素を表示画像に追従させない「表示画像非追従型音声制御」を実行することに決定する。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
一方、ステップS304において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が、
「NoTracking」
ではないと判定した場合、情報処理装置のデータ処理部は、ステップS401の処理を実行する。
「USER」
上記後であるか否かを判定する。
「USER」
である場合は、ステップS451に進む。
一方、「USER」
であない場合は、ステップS402に進む。
ステップS401において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が(USER)である場合は、ステップS451に進む。
ステップS451において、情報処理装置のデータ処理部は、ユーザ設定に応じた音声制御を実行する。
情報処理装置のデータ処理部は、このユーザ入力情報に応じて各音声要素の制御態様を決定して、音声制御を実行する。
ステップS401の判定処理において、MPDファイルのアダプテーションセットに記録された音声制御情報の値が(USER)でない、すなわち、「表示画像追従型音声制御」対象の音声要素と、「表示画像非追従型音声制御」対象の音声要素とが混在することを示す設定であると判定した場合は、ステップS402に進む。
ステップS402の処理は、各音声要素対応の制御情報ビット列を先頭から読み取る処理である。
例えば5.1chサラウンド音声を構成する6チャンネルの6つの音声要素を有する場合、ビット列は、例えば[100000]のようなビット列である。
ステップS403において、音声制御情報ビット列の未処理データがあるか否かを判定し、未処理データがある場合は、先頭から順次読み取ったビット値に基づくステップS404以下の処理を実行する。
情報処理装置のデータ処理部は、ステップS404において、各音声要素対応の制御情報ビット列から順次読み取ったビット値に基づく処理を実行する。
さらに、取得した音声要素(i)対応の設定値(ビット値)が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であるか、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であるか、
いずれであるかを判定する。
一方、設定値=1、すなわち、「表示画像非追従型音声制御」の設定である場合は、ステップS406に進む。
ステップS404において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=0、すなわち、「表示画像追従型音声制御」の設定であると判定した場合は、ステップS405に進む。
すなわち、各スピーカの出力を、表示画像位置に応じて変更する音声制御を行う。
ステップS405の処理が完了すると、ステップS403に戻り、次の音声要素対応の設定値(ビット値)に基づく処理を実行する。
一方、ステップS404において、音声要素(i)に対応する音声要素(i)対応制御情報(NoTracking)の設定値が、
設定値=1、すなわち、「表示画像非追従型音声制御」の設定であると判定した場合は、ステップS406に進む。
すなわち、各スピーカの出力を、表示画像位置に応じて変更しない設定とした音声出力制御を行う。
ステップS406の処理が完了すると、ステップS403に戻り、次の音声要素対応の設定値(ビット値)に基づく処理を実行する。
情報処理装置のデータ処理部は、ステップS403において、未処理要素がないと判定すると、ステップS471に進む。
ステップS471において、情報処理装置のデータ処理部は、MPDファイルに格納された全ての音声要素を、決定した制御態様に従って出力する。
「表示画像追従型制御」、あるいは、
「表示画像非追従型制御」、
いすがれかの態様で音声出力制御が実行されることになる。
次に、上述した実施例に従った処理を実行する情報処理装置、およびサーバのハードウェア構成例について、図26を参照して説明する。
図26に示すハードウェアは、図4、図17に示す情報処理装置(ユーザ装置)70、すなわち、画像再生、音声出力を実行する情報処理装置(ユーザ装置)70のハードウェア構成の一例である。
また、図26に示すハードウェアは、図4、図17に示すサーバ50、すなわち、画像データ、音声データ、並びに上述した音声制御情報を格納したファイルを生成して情報処理装置(ユーザ装置)70に送信する処理を実行するサーバ50のハードウェア構成の一例でもある。
以上、特定の実施例を参照しながら、本開示の実施例について詳解してきた。しかしながら、本開示の要旨を逸脱しない範囲で当業者が実施例の修正や代用を成し得ることは自明である。すなわち、例示という形態で本発明を開示してきたのであり、限定的に解釈されるべきではない。本開示の要旨を判断するためには、特許請求の範囲の欄を参酌すべきである。
(1) 異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。
出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(1)に記載の情報処理装置。
前記データ処理部は、
前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する(2)に記載の情報処理装置。
前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する(3)に記載の情報処理装置。
前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する(3)に記載の情報処理装置。
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
さらに、前記音声要素対応制御情報を取得し、
前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する(3)〜(5)いずれかに記載の情報処理装置。
前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する(6)に記載の情報処理装置。
前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する(6)に記載の情報処理装置。
前記データ処理部は、
MP4ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請(2)〜(8)いずれかに記載の情報処理装置。
前記データ処理部は、
MP4ファイルのtrakボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(9)に記載の情報処理装置。
前記データ処理部は、
MPDファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(2)〜(8)いずれかに記載の情報処理装置。
前記データ処理部は、
MPDファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する(11)に記載の情報処理装置。
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部と、
を有するデータ配信サーバ。
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。
具体的には、異なる方向の画像を選択的に表示部に表示し、画像表示に併せて出力音声の制御を実行する。データ処理部は、表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、画像移動に併せて音源方向を移動させない画像非追従型音声制御を個別制御可能な音声要素単位で実行する。データ処理部は、音声制御情報をMP4ファイル、またはMPDファイルから取得し、取得した音声制御情報に従って、音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかの制御を実行する。
本構成により、表示部の表示画像の移動に音源方向追従させる画像追従型音声制御、または、画像非追従型音声制御を個別音声要素単位で行うことを可能とした装置、方法が実現される。
20 携帯端末
25 スピーカ
30 ヘッド・マウント・ディスプレイ(HMD)
35 スピーカ
50 サーバ
51 放送サーバ
52 データ配信サーバ
60 メディア
70 情報処理装置
71 TV
72 PC
73 携帯端末
74 ヘッド・マウント・ディスプレイ(HMD)
81 MP4ファイル
82 MPDファイル
301 CPU
302 ROM
303 RAM
304 バス
305 入出力インタフェース
306 入力部
307 表示部
308 記憶部
309 通信部
310 ドライブ
311 リムーバブルメディア
321 音声出力部
Claims (16)
- 異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部は、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理装置。 - 前記データ処理部は、
出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項1に記載の情報処理装置。 - 前記音声制御情報には、出力対象とする全音声に対応する制御情報である全音声対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値に応じて、出力対象とする全音声の一括制御を実行する請求項2に記載の情報処理装置。 - 前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項3に記載の情報処理装置。 - 前記データ処理部は、
前記全音声対応制御情報の設定値が、画像非追従型音声制御を示す設定値である場合、
出力対象とする全音声の全てについて、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項3に記載の情報処理装置。 - 前記音声制御情報には、出力対象とする音声要素各々に対応する制御情報である音声要素対応制御情報が含まれ、
前記データ処理部は、
前記全音声対応制御情報の設定値が、画像追従型音声制御対象の音声要素と、画像非追従型音声制御対象の音声要素とが混在することを示す設定値である場合、
さらに、前記音声要素対応制御情報を取得し、
前記音声要素対応制御情報の設定値に応じて、出力対象とする各音声要素の制御を実行する請求項3に記載の情報処理装置。 - 前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御を実行する請求項6に記載の情報処理装置。 - 前記データ処理部は、
前記音声要素対応制御情報の設定値が、画像非追従型音声制御を示す設定値である音声要素について、前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する請求項6に記載の情報処理装置。 - 前記音声制御情報は、MP4ファイルに格納されており、
前記データ処理部は、
MP4ファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項2に記載の情報処理装置。 - 前記音声制御情報は、MP4ファイルのtrakボックスに格納されており、
前記データ処理部は、
MP4ファイルのtrakボックスから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項9に記載の情報処理装置。 - 前記音声制御情報は、MPD(Media Presentation Description)ファイルに格納されており、
前記データ処理部は、
MPDファイルから、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項2に記載の情報処理装置。 - 前記音声制御情報は、MPD(Media Presentation Description)ファイルのアダプテーションセット記録領域に格納されており、
前記データ処理部は、
MPDファイルのアダプテーションセット記録領域から、出力音声データに関する音声制御情報を取得し、取得した音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行する請求項11に記載の情報処理装置。 - 異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報と、
を格納したファイルを生成するデータ処理部と、
前記データ処理部の生成したファイルを送信する通信部と、
を有するデータ配信サーバ。 - 異なる方向の画像を選択的に表示可能とした画像データと、
前記画像データから選択表示される表示画像に併せて出力する音声データと、
個別制御可能な音声要素単位で、
前記表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御のいずれを実行すべきかを指定した音声制御情報を、
格納した情報記録媒体であり、
前記情報記録媒体からの読み出しデータの再生を実行する再生装置において、
前記音声制御情報に従って、個別制御可能な音声要素単位で、画像追従型音声制御、または、画像非追従型音声制御のいずれかを実行することを加納とした情報記録媒体。 - 情報処理装置において、出力音声の制御を実行する情報処理方法であり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記データ処理部が、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行する情報処理方法。 - 情報処理装置において、出力音声の制御を実行させるプログラムであり、
前記情報処理装置は、異なる方向の画像を選択的に表示可能な表示部と、
前記表示部に対する画像表示に併せて出力する音声の制御を実行するデータ処理部を有し、
前記プログラムは、前記データ処理部に、
個別制御可能な音声要素単位で、
前記表示部の表示画像の移動に併せて音源方向を移動させる画像追従型音声制御と、
前記表示部の表示画像の移動に併せて音源方向を移動させない画像非追従型音声制御を実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2015155740 | 2015-08-06 | ||
JP2015155740 | 2015-08-06 | ||
PCT/JP2016/071111 WO2017022467A1 (ja) | 2015-08-06 | 2016-07-19 | 情報処理装置、および情報処理方法、並びにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017022467A1 true JPWO2017022467A1 (ja) | 2018-05-24 |
JP6809463B2 JP6809463B2 (ja) | 2021-01-06 |
Family
ID=57944056
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017532471A Active JP6809463B2 (ja) | 2015-08-06 | 2016-07-19 | 情報処理装置、および情報処理方法、並びにプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US10656900B2 (ja) |
EP (1) | EP3334192A4 (ja) |
JP (1) | JP6809463B2 (ja) |
CN (1) | CN107925838B (ja) |
TW (1) | TWI736542B (ja) |
WO (1) | WO2017022467A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6878974B2 (ja) * | 2017-03-16 | 2021-06-02 | 株式会社リコー | 撮像装置、撮像システム |
CN108810567B (zh) * | 2017-04-27 | 2020-10-16 | 华为技术有限公司 | 一种音频与视频视角匹配的方法、客户端和服务器 |
CN109121031B (zh) * | 2018-10-29 | 2020-11-17 | 歌尔科技有限公司 | 一种音频设备定向显示方法、装置和音频设备 |
KR20230037329A (ko) * | 2021-09-09 | 2023-03-16 | 네이버 주식회사 | 이벤트 맞춤형 오디오 콘텐츠를 렌더링하기 위한 컴퓨터 시스템 및 그의 방법 |
CN115866326A (zh) * | 2022-12-02 | 2023-03-28 | 上海哔哩哔哩科技有限公司 | 全景视频的音频处理方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0993700A (ja) * | 1995-09-28 | 1997-04-04 | Sony Corp | 映像音声再生装置 |
JP2010074238A (ja) * | 2008-09-16 | 2010-04-02 | Canon Inc | 受信装置及びその制御方法 |
JP2011087103A (ja) * | 2009-10-15 | 2011-04-28 | Sony Corp | コンテンツ再生システム、コンテンツ再生装置、プログラム、コンテンツ再生方法、およびコンテンツサーバを提供 |
JP2012004835A (ja) * | 2010-06-16 | 2012-01-05 | Canon Inc | 再生装置及びその制御方法及びプログラム |
WO2015001947A1 (ja) * | 2013-07-05 | 2015-01-08 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
Family Cites Families (31)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7536705B1 (en) * | 1999-02-22 | 2009-05-19 | Tvworks, Llc | System and method for interactive distribution of selectable presentations |
WO2001056007A1 (en) * | 2000-01-28 | 2001-08-02 | Intersense, Inc. | Self-referenced tracking |
US6829017B2 (en) * | 2001-02-01 | 2004-12-07 | Avid Technology, Inc. | Specifying a point of origin of a sound for audio effects using displayed visual information from a motion picture |
CN1258285C (zh) * | 2001-03-26 | 2006-05-31 | 富士通株式会社 | 多信道信息处理装置和多信道信息处理方法 |
US20030007648A1 (en) * | 2001-04-27 | 2003-01-09 | Christopher Currell | Virtual audio system and techniques |
JP2002345097A (ja) | 2001-05-15 | 2002-11-29 | Sony Corp | サラウンド音場再生システム |
JP4436617B2 (ja) * | 2002-04-26 | 2010-03-24 | パナソニック株式会社 | 逆多重化装置 |
KR100754385B1 (ko) * | 2004-09-30 | 2007-08-31 | 삼성전자주식회사 | 오디오/비디오 센서를 이용한 위치 파악, 추적 및 분리장치와 그 방법 |
JP4581955B2 (ja) * | 2005-10-04 | 2010-11-17 | ソニー株式会社 | コンテンツ伝送装置及びコンテンツ伝送方法、並びにコンピュータ・プログラム |
JP4940671B2 (ja) * | 2006-01-26 | 2012-05-30 | ソニー株式会社 | オーディオ信号処理装置、オーディオ信号処理方法及びオーディオ信号処理プログラム |
CN101079311A (zh) * | 2006-05-26 | 2007-11-28 | 佛山市顺德区顺达电脑厂有限公司 | 声控操作的多媒体播放装置及其声控操作方法 |
US20100098258A1 (en) * | 2008-10-22 | 2010-04-22 | Karl Ola Thorn | System and method for generating multichannel audio with a portable electronic device |
US10326978B2 (en) * | 2010-06-30 | 2019-06-18 | Warner Bros. Entertainment Inc. | Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning |
WO2012030178A2 (ko) * | 2010-09-01 | 2012-03-08 | 한국전자통신연구원 | 스트리밍 컨텐츠 제공 장치 및 방법 |
JP2012199786A (ja) * | 2011-03-22 | 2012-10-18 | Mitsubishi Electric Corp | 音響再生装置 |
KR101843834B1 (ko) * | 2011-07-01 | 2018-03-30 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들 |
US9843844B2 (en) * | 2011-10-05 | 2017-12-12 | Qualcomm Incorporated | Network streaming of media data |
US20140002582A1 (en) * | 2012-06-29 | 2014-01-02 | Monkeymedia, Inc. | Portable proprioceptive peripatetic polylinear video player |
TWI610554B (zh) * | 2012-07-10 | 2018-01-01 | Vid衡器股份有限公司 | 無線傳輸/接收單元中內容切換/品質驅動切換的方法 |
TWI517691B (zh) * | 2012-07-24 | 2016-01-11 | 美商微晶片科技公司 | 一種以最小延遲無線傳輸優先權化遊戲影音之系統 |
JP6085029B2 (ja) * | 2012-08-31 | 2017-02-22 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 種々の聴取環境におけるオブジェクトに基づくオーディオのレンダリング及び再生のためのシステム |
JP6143433B2 (ja) * | 2012-10-31 | 2017-06-07 | キヤノン株式会社 | 医用画像撮影装置、医用画像の表示方法 |
US9338420B2 (en) * | 2013-02-15 | 2016-05-10 | Qualcomm Incorporated | Video analysis assisted generation of multi-channel audio data |
KR20140114238A (ko) * | 2013-03-18 | 2014-09-26 | 삼성전자주식회사 | 오디오와 결합된 이미지 표시 방법 |
US9329682B2 (en) * | 2013-06-18 | 2016-05-03 | Microsoft Technology Licensing, Llc | Multi-step virtual object selection |
JP2015015553A (ja) * | 2013-07-03 | 2015-01-22 | キヤノン株式会社 | 記録装置及びその制御方法、プログラム並びに記憶媒体 |
US9411882B2 (en) * | 2013-07-22 | 2016-08-09 | Dolby Laboratories Licensing Corporation | Interactive audio content generation, delivery, playback and sharing |
WO2015087490A1 (ja) * | 2013-12-12 | 2015-06-18 | 株式会社ソシオネクスト | オーディオ再生装置及び遊技装置 |
US20170153866A1 (en) * | 2014-07-03 | 2017-06-01 | Imagine Mobile Augmented Reality Ltd. | Audiovisual Surround Augmented Reality (ASAR) |
US9854375B2 (en) * | 2015-12-01 | 2017-12-26 | Qualcomm Incorporated | Selection of coded next generation audio data for transport |
US20180098150A1 (en) * | 2016-10-03 | 2018-04-05 | Blackfire Research Corporation | Multichannel audio interception and redirection for multimedia devices |
-
2016
- 2016-07-14 TW TW105122226A patent/TWI736542B/zh active
- 2016-07-19 US US15/741,848 patent/US10656900B2/en active Active
- 2016-07-19 WO PCT/JP2016/071111 patent/WO2017022467A1/ja active Application Filing
- 2016-07-19 CN CN201680044704.6A patent/CN107925838B/zh active Active
- 2016-07-19 JP JP2017532471A patent/JP6809463B2/ja active Active
- 2016-07-19 EP EP16832746.8A patent/EP3334192A4/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0993700A (ja) * | 1995-09-28 | 1997-04-04 | Sony Corp | 映像音声再生装置 |
JP2010074238A (ja) * | 2008-09-16 | 2010-04-02 | Canon Inc | 受信装置及びその制御方法 |
JP2011087103A (ja) * | 2009-10-15 | 2011-04-28 | Sony Corp | コンテンツ再生システム、コンテンツ再生装置、プログラム、コンテンツ再生方法、およびコンテンツサーバを提供 |
JP2012004835A (ja) * | 2010-06-16 | 2012-01-05 | Canon Inc | 再生装置及びその制御方法及びプログラム |
WO2015001947A1 (ja) * | 2013-07-05 | 2015-01-08 | ソニー株式会社 | 送信装置、送信方法、受信装置および受信方法 |
Also Published As
Publication number | Publication date |
---|---|
TWI736542B (zh) | 2021-08-21 |
CN107925838B (zh) | 2021-03-09 |
TW201717664A (zh) | 2017-05-16 |
JP6809463B2 (ja) | 2021-01-06 |
EP3334192A1 (en) | 2018-06-13 |
EP3334192A4 (en) | 2019-03-27 |
CN107925838A (zh) | 2018-04-17 |
WO2017022467A1 (ja) | 2017-02-09 |
US20180196635A1 (en) | 2018-07-12 |
US10656900B2 (en) | 2020-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7251592B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
RU2744969C1 (ru) | Способ и устройство для эффективной доставки и использования аудиосообщений для высокого качества восприятия | |
JP6809463B2 (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP7409362B2 (ja) | 再生装置および方法、並びにプログラム | |
TWI716418B (zh) | 資訊處理裝置、資料配訊伺服器、資訊記錄媒體、及資訊處理方法、及程式產品 | |
KR102332739B1 (ko) | 음향 처리 장치 및 방법, 그리고 프로그램 | |
EP4016994A1 (en) | Information processing device and information processing method | |
JP7314929B2 (ja) | 情報処理装置、情報処理方法、及びプログラム | |
EP3321795B1 (en) | A method and associated apparatuses | |
US11902768B2 (en) | Associated spatial audio playback | |
JP6973371B2 (ja) | 情報処理装置、表示装置、情報記録媒体、および情報処理方法、並びにプログラム | |
KR20190081163A (ko) | 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션 | |
JP6473469B2 (ja) | 映像配信システム | |
KR20190082055A (ko) | 입체 음향 컨텐츠 저작 툴을 이용한 광고 제공 방법 및 이를 위한 어플리케이션 | |
KR20190081160A (ko) | 입체 음향 컨텐츠 저작 툴을 이용한 광고 제공 방법 및 이를 위한 어플리케이션 | |
KR20190082056A (ko) | 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190612 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200512 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200626 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201123 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6809463 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |