JPWO2018198767A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2018198767A1
JPWO2018198767A1 JP2019514363A JP2019514363A JPWO2018198767A1 JP WO2018198767 A1 JPWO2018198767 A1 JP WO2018198767A1 JP 2019514363 A JP2019514363 A JP 2019514363A JP 2019514363 A JP2019514363 A JP 2019514363A JP WO2018198767 A1 JPWO2018198767 A1 JP WO2018198767A1
Authority
JP
Japan
Prior art keywords
information
spread
frame
spread information
audio object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019514363A
Other languages
English (en)
Other versions
JP7107305B2 (ja
Inventor
優樹 山本
優樹 山本
徹 知念
徹 知念
辻 実
実 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2018198767A1 publication Critical patent/JPWO2018198767A1/ja
Priority to JP2022112863A priority Critical patent/JP7388492B2/ja
Application granted granted Critical
Publication of JP7107305B2 publication Critical patent/JP7107305B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • G10L21/055Time compression or expansion for synchronising with other signals, e.g. video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/011Arrangements for interaction with the human body, e.g. for user immersion in virtual reality
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • G06F3/04845Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range for image manipulation, e.g. dragging, rotation, expansion or change of colour
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2203/00Indexing scheme relating to G06F3/00 - G06F3/048
    • G06F2203/048Indexing scheme relating to G06F3/048
    • G06F2203/04806Zoom, i.e. interaction techniques or interactors for controlling the zooming operation
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、より簡単に適切なスプレッド情報を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報およびオーディオオブジェクトの処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、オーディオオブジェクトの処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。本技術は符号化装置および復号装置に適用することができる。

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より簡単に適切なスプレッド情報を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。
従来、オブジェクトオーディオを扱える符号化方式として、例えば国際標準規格であるMPEG(Moving Picture Experts Group)-H Part 3:3D audio規格などが知られている(例えば、非特許文献1参照)。
このような符号化方式では、オーディオオブジェクトの音の音像を広げるスプレッド処理を行うことができる。
具体的には、符号化装置側では、ビットストリームにオーディオオブジェクトの位置を示すオブジェクト位置情報とともに、オーディオオブジェクトの音の音像の広がり度合いを示すスプレッド情報がオーディオオブジェクトのメタデータとして含められる。
例えばオーディオオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合、スプレッド情報は、水平方向および垂直方向への音像の広がり度合いを示す0度から180度までの範囲の任意の角度(以下、スプレッド角度とも称する)を示す1つの値からなる。
これに対して、オーディオオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合、スプレッド情報は、水平方向のスプレッド角度と垂直方向のスプレッド角度を示す2つの値からなる。なお、水平方向のスプレッド角度および垂直方向のスプレッド角度は、ともに0度から180度までの範囲の角度とされる。
このようなスプレッド情報は、オーディオオブジェクトのオーディオ信号のフレームごとに異なる値とすることができる。
また、復号装置側では、ビットストリームから抽出されたスプレッド情報に基づいて、オーディオオブジェクトの音像を広げるレンダリング処理、すなわちスプレッド処理が行われる。このようなスプレッド処理を行えば、例えば大きく、近くにあるオブジェクトの音像の領域を広げ、小さく、遠くにあるオブジェクトの音像の領域を狭くすることができる。その結果、より臨場感の高いコンテンツ再生を実現することができる。
INTERNATIONAL STANDARD ISO/IEC 23008-3 First edition 2015-10-15 Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio
しかしながら、適切なスプレッド情報を得ることは容易ではなかった。
例えばスプレッド情報を、時間(フレーム)ごとやオーディオオブジェクトごとに人手で付与するのはコストが高い。また、場合によっては、そもそもスプレッド情報が付与されていないこともある。
さらに、例えば復号側においてユーザ等によりズーム処理が行われると画面内におけるオブジェクトの大きさは変化するが、ビットストリームから得られたスプレッド情報をそのまま用いても音像の領域を適切な大きさに広げることができない。そうすると、画面内のオブジェクトの大きさと、そのオブジェクトに対応するオーディオオブジェクトの音像の領域の大きさとが対応せず、臨場感が損なわれてしまう。
本技術は、このような状況に鑑みてなされたものであり、より簡単に適切なスプレッド情報を得ることができるようにするものである。
本技術の一側面の信号処理装置は、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える。
前記スプレッド情報生成部には、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成させることができる。
前記オブジェクト位置情報を、基準位置から前記オーディオオブジェクトまでの距離とすることができる。
前記スプレッド情報生成部には、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。
前記スプレッド情報生成部には、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。
前記スプレッド情報生成部には、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成させることができる。
前記スプレッド情報生成部には、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成させることができる。
前記大きさ情報を、前記オーディオオブジェクトの中心から外殻までの距離とすることができる。
前記オブジェクト位置情報を、基準位置から前記オーディオオブジェクトまでの距離とすることができる。
前記スプレッド情報生成部には、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成させることができる。
本技術の一側面の信号処理方法またはプログラムは、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するステップを含む。
本技術の一側面においては、オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報が生成される。
本技術の一側面によれば、より簡単に適切なスプレッド情報を得ることができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
スプレッド情報の生成について説明する図である。 符号化装置の構成例を示す図である。 符号化処理を説明するフローチャートである。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 スプレッド情報の生成について説明する図である。 符号化処理を説明するフローチャートである。 復号処理を説明するフローチャートである。 ズームについて説明する図である。 ズームに応じたオブジェクト位置情報の修正について説明する図である。 復号装置の構成例を示す図である。 復号処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、オーディオオブジェクトのスプレッド情報を、オーディオオブジェクトのオブジェクト位置情報、ズーム情報、大きさ情報、異なる時刻のスプレッド情報など、得ようとするスプレッド情報とは異なる他の情報に基づいて生成することで、より簡単に適切なスプレッド情報を得ることができるようにするものである。
以下では、マルチチャネルのオーディオ信号およびオーディオオブジェクトのオーディオ信号が所定の規格等に従って符号化されるものとして説明を行う。なお、以下では、オーディオオブジェクトを単にオブジェクトとも称することとする。
例えば、各チャネルや各オブジェクトのオーディオ信号はフレームごとに符号化されて伝送される。
すなわち、符号化されたオーディオ信号や、オーディオ信号の復号等に必要な情報が複数のエレメント(ビットストリームエレメント)に格納され、それらのエレメントからなるビットストリームが符号化側から復号側に伝送される。
具体的には、例えば1フレーム分のビットストリームには、先頭から順番に複数個のエレメントが配置され、最後に当該フレームの情報に関する終端位置であることを示す識別子が配置される。
そして、先頭に配置されたエレメントは、DSE(Data Stream Element)と呼ばれるアンシラリデータ領域とされ、DSEにはオーディオ信号のダウンミックスに関する情報や識別情報など、複数の各チャネルに関する情報が記述される。
また、DSEの後に続く各エレメントには、符号化されたオーディオ信号が格納される。特に、シングルチャネルのオーディオ信号が格納されているエレメントはSCE(Single Channel Element)と呼ばれており、ペアとなる2つのチャネルのオーディオ信号が格納されているエレメントはCPE(Coupling Channel Element)と呼ばれている。各オブジェクトのオーディオ信号はSCEに格納される。
本技術では、各オブジェクトのオーディオ信号のスプレッド情報が生成されてDSEに格納される。より詳細には、生成されたスプレッド情報を含むオブジェクトのメタデータがDSEに格納される。
ここで、メタデータには、少なくともスプレッド情報とオブジェクト位置情報とが含まれている。
スプレッド情報は、オブジェクトの音像の大きさの範囲を示す角度情報、すなわちオブジェクトの音の音像の広がり度合いを示すスプレッド角度である。換言すれば、スプレッド情報は、オブジェクトの領域の大きさを示す情報であるともいうことができる。
また、オブジェクト位置情報は、3次元空間におけるオブジェクトの位置を示す情報であり、例えば基準位置(原点)から見たオブジェクトの位置を示す水平方向角度、垂直方向角度、および半径からなる座標情報とされる。
水平方向角度は、ユーザがいる位置である基準位置から見たオブジェクトの水平方向の位置を示す水平方向の角度(方位角)、つまり水平方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
ここでは、水平方向角度が0度であるときには、オブジェクトはユーザの真正面に位置しており、水平方向角度が90度や−90度であるときには、オブジェクトはユーザの真横に位置していることになる。また、水平方向角度が180度または−180度であるときには、オブジェクトはユーザの真後ろに位置していることになる。
同様に垂直方向角度は、基準位置から見たオブジェクトの垂直方向の位置を示す垂直方向の角度(仰角)、つまり垂直方向における基準となる方向と基準位置から見たオブジェクトの方向とのなす角度である。
また、半径は空間上における基準位置からオブジェクトの位置までの距離である。
ところで、各オブジェクトについてフレームごとにスプレッド情報を人手で付与するのはコストが高い。例えば映画コンテンツでは多くのオブジェクトを長時間にわたり扱うため、人手によるコストは特に高くなるといえる。
そこで本技術を適用した符号化装置では、オブジェクトの処理対象のフレームのスプレッド情報を、その処理対象のフレームとは時間的に異なる他のフレームのスプレッド情報と、オブジェクトの空間上の位置を示すオブジェクト位置情報とに基づいて生成するようにした。
具体的には、例えばオブジェクトのオーディオ信号の最初のフレームなど、特定の1つのフレーム(以下、参照フレームとも称する)についてのみスプレッド情報が人手で付与される。そして、参照フレーム以外のフレームについては、オブジェクト位置情報と参照フレームのスプレッド情報に基づいて、符号化装置によりスプレッド情報が生成される。
なお、コンテンツを構成するオーディオ信号の1つのフレームが参照フレームとされてもよいし、複数のフレームが参照フレームとされるようにしてもよい。特に、参照フレームを複数設ける場合には、等間隔に並ぶフレームが参照フレームとされてもよいし、不等間隔で並ぶ任意のフレームが参照フレームとされてもよい。また、もともとは参照フレームではないフレームが、そのフレームのスプレッド情報生成後、参照フレームとして用いられるようにしてもよい。
さらに、ここではフレーム単位でスプレッド情報が生成される例について説明するが、数フレーム単位など、所定の時間単位でスプレッド情報が生成されてもよい。
以下では、説明を簡単にするため、1つのフレームが参照フレームとされるものとして説明を続ける。
例えば、オブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、フレームを示すフレームインデックスiのスプレッド情報、すなわちスプレッド角度をs(i)と記すこととする。また、処理対象である現フレームを示すフレームインデックスiをifrmと記し、参照フレームのフレームインデックスiをrfrmと記すこととする。
さらに、オブジェクトのフレームインデックスがiであるフレームにおける、オブジェクト位置情報に含まれるオブジェクトの半径をr(i)と記すこととする。
このような場合、例えば図1に示すようにオブジェクトの大きさは変化しないことが利用されて、現フレームifrmのスプレッド情報s(ifrm)が生成される。
図1に示す例では、原点Oの位置が基準となる位置であるユーザの頭部の位置とされており、参照フレームrfrmでは点OB11の位置にあったオブジェクトが、現フレームifrmでは点OB21の位置に移動している。
このとき、基準となる原点Oと点OB11とを結ぶ直線L11の長さ、つまり原点Oから点OB11までの距離は、参照フレームrfrmのオブジェクト位置情報に含まれる半径r(rfrm)となる。同様に、原点Oと点OB21とを結ぶ直線L21の長さ、つまり原点Oから点OB21までの距離は、現フレームifrmのオブジェクト位置情報に含まれる半径r(ifrm)となる。
また、参照フレームrfrmのスプレッド情報により示されるスプレッド角度、すなわちスプレッド情報s(rfrm)は既知である。原点Oを通り、かつ直線L11とのなす角度がs(rfrm)である直線を直線L12とする。
スプレッド情報s(rfrm)は、オブジェクトの音像の大きさの範囲、つまりオブジェクトの領域の範囲を示す角度情報であるから、オブジェクトの領域の端部分(外殻部分)は直線L12上に位置することになる。
すなわち、点OB11を通り、かつ直線L11と垂直な直線を直線L13とし、直線L12と直線L13との交点を点OBE11とすると、この点OBE11の位置がオブジェクトの領域の端部分(外殻部分)の位置となる。したがって、点OB11から点OBE11までの長さ(距離)は、参照フレームrfrmにおけるオブジェクトの中心から外殻までの長さとなる。
このような点OB11から点OBE11までの長さ、つまり直線L13の長さは、スプレッド情報s(rfrm)および半径r(rfrm)を用いて、r(rfrm)×tan(s(rfrm))と表すことができる。
また、これから求めようとする現フレームifrmのスプレッド情報s(ifrm)について、原点Oを通り、かつ直線L21とのなす角度がs(ifrm)である直線を直線L22とする。さらに、点OB21を通り、かつ直線L21と垂直な直線を直線L23とし、直線L22と直線L23との交点を点OBE21とすると、点OBE21の位置が現フレームifrmにおけるオブジェクトの領域の端部分(外殻部分)の位置となる。
したがって、点OB21から点OBE21までの長さ、つまり直線L23の長さは、現フレームifrmにおけるオブジェクトの中心から外殻までの長さとなり、スプレッド情報s(ifrm)および半径r(ifrm)を用いてr(ifrm)×tan(s(ifrm))と表すことができる。
ここで、オブジェクトの大きさ、つまりオブジェクトの音の音像の領域の大きさはフレームによらず一定である(変化しない)とすると、点OB11から点OBE11までの長さと、点OB21から点OBE21までの長さとは等しくなる。すなわちr(rfrm)×tan(s(rfrm))=r(ifrm)×tan(s(ifrm))が成立する。
したがって、この関係から次式(1)により現フレームifrmの適切なスプレッド情報s(ifrm)を得ることができる。
Figure 2018198767
式(1)では、オブジェクトの現フレームifrmにおける半径r(ifrm)および参照フレームrfrmにおける半径r(rfrm)の比r(rfrm)/r(ifrm)と、オブジェクトの参照フレームrfrmのスプレッド情報s(rfrm)の正接との積tan(s(rfrm))×r(rfrm)/r(ifrm)が求められる。そして、その積tan(s(rfrm))×r(rfrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
このように現フレームifrmの半径r(ifrm)と、参照フレームrfrmのスプレッド情報s(rfrm)および半径r(rfrm)とに基づいて式(1)を計算すれば、簡単な演算により現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
特に、この例ではオブジェクトのオーディオ信号のいくつかのフレームについてのみ人手でスプレッド情報を付与すればよいので、人手によるスプレッド情報の付与コストを大幅に削減することができる。
なお、以上ではオブジェクトの音の音像が水平方向および垂直方向に対称に広げられる場合について説明したが、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても同様の計算によりスプレッド情報を生成することができる。
例えばフレームインデックスがiであるフレームの水平方向のスプレッド情報、すなわち水平方向のスプレッド角度をswidth(i)と記し、フレームインデックスがiであるフレームの垂直方向のスプレッド情報、すなわち垂直方向のスプレッド角度をsheight(i)と記すこととする。
この場合、水平方向および垂直方向のそれぞれについて、上述した式(1)と同様の計算を行えばよい。
すなわち、以下の式(2)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(3)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
Figure 2018198767
Figure 2018198767
以上のように、現フレームのオブジェクト位置情報と、参照フレームのオブジェクト位置情報およびスプレッド情報とを用いれば、より簡単に現フレームの適切なスプレッド情報を得ることができる。
〈符号化装置の構成例〉
次に、本技術を適用した符号化装置の具体的な実施の形態について説明する。
図2は、本技術を適用した符号化装置の構成例を示す図である。
図2に示す符号化装置11は、チャネルオーディオ符号化部21、オブジェクトオーディオ符号化部22、メタデータ入力部23、スプレッド情報生成部24、およびパッキング部25を有している。
チャネルオーディオ符号化部21には、チャネル数がMであるマルチチャネルの各チャネルのオーディオ信号が供給される。例えば各チャネルのオーディオ信号は、それらのチャネルに対応するマイクロフォンから供給される。図2では、文字「#0」乃至「#M−1」は、各チャネルのチャネル番号を表している。
チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、符号化により得られた符号化データをパッキング部25に供給する。
オブジェクトオーディオ符号化部22には、N個の各オブジェクトのオーディオ信号が供給される。例えば各オブジェクトのオーディオ信号は、それらのオブジェクトに取り付けられたマイクロフォンから供給される。図2では、文字「#0」乃至「#N−1」は、各オブジェクトのオブジェクト番号を表している。
オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、得られた符号化データをパッキング部25に供給する。
メタデータ入力部23は、各オブジェクトのメタデータをスプレッド情報生成部24に供給する。
例えばオブジェクトの参照フレームのメタデータには、オブジェクト位置情報およびスプレッド情報が含まれている。これに対して、オブジェクトの参照フレームではないフレームのメタデータには、オブジェクト位置情報は含まれているがスプレッド情報は含まれていない。
スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部24では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
スプレッド情報生成部24は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをパッキング部25に供給する。
パッキング部25は、チャネルオーディオ符号化部21から供給された符号化データ、オブジェクトオーディオ符号化部22から供給された符号化データ、およびスプレッド情報生成部24から供給されたメタデータをパッキングしてビットストリームを生成し、出力する。
このようにして得られるビットストリームには、フレームごとに各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータが含まれている。
ここで、1フレーム分のビットストリームに格納されるM個の各チャネルのオーディオ信号、およびN個の各オブジェクトのオーディオ信号は、同時に再生されるべき同一フレームのオーディオ信号である。
〈符号化処理の説明〉
次に、符号化装置11により行われる処理について説明する。
符号化装置11は、複数の各チャネルのオーディオ信号および複数の各オブジェクトのオーディオ信号が1フレーム分ずつ供給されると、符号化処理を行って、符号化されたオーディオ信号が含まれるビットストリームを出力する。
以下、図3のフローチャートを参照して、符号化装置11による符号化処理について説明する。
ステップS11において、スプレッド情報生成部24は、処理対象とするフレームが参照フレームであるか否かを判定する。
例えばメタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータを取得し、スプレッド情報生成部24に供給する。
スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
なお、ここでは説明を簡単にするため、全オブジェクトについて参照フレームとされるフレームが同じであるものとして説明を行うが、オブジェクトごとに参照フレームとされるフレームが異なる場合には、ステップS11およびステップS12の処理をオブジェクトごとに行えばよい。
ステップS11において、参照フレームであると判定された場合、スプレッド情報生成部24は、メタデータ入力部23から供給された各オブジェクトの処理対象のフレームのメタデータをそのままパッキング部25に供給し、処理はステップS13へと進む。
これに対して、ステップS11において参照フレームでないと判定された場合、処理はステップS12へと進む。
ステップS12において、スプレッド情報生成部24は、各オブジェクトについて、メタデータ入力部23から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
例えばスプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、過去にメタデータ入力部23から供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
スプレッド情報生成部24は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをパッキング部25に供給する。
このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS13へと進む。
ステップS11において参照フレームであると判定されたか、またはステップS12においてスプレッド情報が生成されると、ステップS13の処理が行われる。
すなわち、ステップS13においてパッキング部25は、スプレッド情報生成部24から供給された各オブジェクトのメタデータをビットストリームのDSEに格納する。
ステップS14において、チャネルオーディオ符号化部21は、供給された各チャネルのオーディオ信号を符号化し、その結果得られた各チャネルの符号化データをパッキング部25に供給する。
ステップS15において、パッキング部25はチャネルオーディオ符号化部21から供給された各チャネルのオーディオ信号の符号化データを、ビットストリームのSCEまたはCPEに格納する。すなわち、ビットストリームにおいてDSEに続いて配置されている各エレメントに符号化データが格納される。
ステップS16において、オブジェクトオーディオ符号化部22は、供給された各オブジェクトのオーディオ信号を符号化し、その結果得られた各オブジェクトの符号化データをパッキング部25に供給する。
ステップS17において、パッキング部25はオブジェクトオーディオ符号化部22から供給された各オブジェクトのオーディオ信号の符号化データを、ビットストリームのSCEに格納する。すなわち、ビットストリームにおいてDSEよりも後に配置されているいくつかのエレメントに符号化データが格納される。
以上の処理により、処理対象となっているフレームについて、全チャネルのオーディオ信号の符号化データ、および全オブジェクトのオーディオ信号のメタデータと符号化データが格納されたビットストリームが得られる。
ステップS18において、パッキング部25は、得られた1フレーム分のビットストリームを出力する。
ステップS19において、符号化装置11は処理を終了するか否かを判定する。例えば、全てのフレームについて符号化が終了した場合、ステップS19において処理を終了すると判定される。
ステップS19において処理を終了しないと判定された場合、処理はステップS11に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
これに対して、ステップS19において処理を終了すると判定された場合、符号化装置11の各部は行っている処理を停止し、符号化処理は終了する。
以上のようにして符号化装置11は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してビットストリームに格納し、出力する。これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
〈第1の実施の形態の変形例1〉
〈復号装置の構成例〉
なお、以上においては、符号化装置11においてスプレッド情報を生成する例について説明したが、復号装置においてスプレッド情報を生成するようにしてもよい。そのような場合、符号化装置から出力されたビットストリームを入力とし、ビットストリームに含まれる符号化データを復号する復号装置は、例えば図4に示すように構成される。
図4に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。
アンパッキング/復号部111は、符号化装置から出力されたビットストリームを取得するとともに、ビットストリームのアンパッキングおよび復号を行う。
アンパッキング/復号部111は、アンパッキングおよび復号により得られた各オブジェクトのオーディオ信号をレンダリング部113に供給するとともに、アンパッキングおよび復号により得られた各オブジェクトのメタデータをスプレッド情報生成部112に供給する。なお、ここでは、参照フレームのメタデータにのみスプレッド情報が含まれており、参照フレームではないフレームのメタデータにはスプレッド情報は含まれていないものとする。
また、アンパッキング/復号部111は、アンパッキングおよび復号により得られた各チャネルのオーディオ信号をミキシング部114に供給する。
スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトのメタデータに基づいて、参照フレームではないフレームのスプレッド情報を生成し、メタデータに格納する。これにより、スプレッド情報生成部112では、全てのフレームについてオブジェクト位置情報およびスプレッド情報が含まれたメタデータが得られることになる。
スプレッド情報生成部112は、オブジェクト位置情報およびスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
レンダリング部113は、アンパッキング/復号部111から供給された各オブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給された各オブジェクトのメタデータに基づいてMチャネルのオーディオ信号を生成し、ミキシング部114に供給する。このときレンダリング部113は、各オブジェクトの音像が、それらのオブジェクトのオブジェクト位置情報により示される位置に定位し、オブジェクトのスプレッド情報により示される広がり度合いで音像が広がるようにM個の各チャネルのオーディオ信号を生成する。
ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、最終的な各チャネルのオーディオ信号を生成する。ミキシング部114は、このようにして得られた最終的な各チャネルのオーディオ信号を、外部の各チャネルに対応するスピーカに供給し、音を再生させる。
〈復号処理の説明〉
次に、復号装置101の動作について説明する。
復号装置101は、符号化装置からビットストリームが供給されると、復号処理を行ってオーディオ信号を生成し、スピーカへと出力する。以下、図5のフローチャートを参照して、復号装置101により行われる復号処理について説明する。
ステップS51において、アンパッキング/復号部111は、符号化装置から送信されてきたビットストリームを1フレーム分だけ取得する。すなわち、処理対象とするフレームのビットストリームが受信される。
ステップS52において、アンパッキング/復号部111はフレーム復号処理を行う。
すなわち、アンパッキング/復号部111は、ステップS51で取得した処理対象のフレームのビットストリームをアンパッキングし、各チャネルの符号化データ、各オブジェクトの符号化データ、および各オブジェクトのメタデータを取得する。
そして、アンパッキング/復号部111は、各チャネルの符号化データを復号し、その結果得られた各チャネルのオーディオ信号をミキシング部114に供給する。また、アンパッキング/復号部111は、各オブジェクトの符号化データを復号し、その結果得られた各オブジェクトのオーディオ信号をレンダリング部113に供給する。
さらにアンパッキング/復号部111は、取得した各オブジェクトのメタデータをスプレッド情報生成部112に供給する。
ステップS53において、スプレッド情報生成部112は、処理対象とするフレームが参照フレームであるか否かを判定する。
例えばスプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータにスプレッド情報が含まれている場合、処理対象のフレームが参照フレームであると判定する。
ステップS53において、参照フレームであると判定された場合、スプレッド情報生成部112は、アンパッキング/復号部111から供給された各オブジェクトの処理対象のフレームのメタデータをそのままレンダリング部113に供給し、処理はステップS55へと進む。
これに対して、ステップS53において参照フレームでないと判定された場合、処理はステップS54へと進む。
ステップS54において、スプレッド情報生成部112は、各オブジェクトについて、アンパッキング/復号部111から供給されたメタデータに基づいて処理対象のフレームのスプレッド情報を生成する。
例えばスプレッド情報生成部112は、処理対象のフレーム(現フレーム)のメタデータに含まれるオブジェクト位置情報と、過去に供給された参照フレームのメタデータに含まれるオブジェクト位置情報およびスプレッド情報とに基づいて上述した式(1)、または上述した式(2)および式(3)を計算することで、処理対象のフレームのスプレッド情報を生成する。
スプレッド情報生成部112は、各オブジェクトについてスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
このようにして各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれるメタデータが得られると、その後、処理はステップS55へと進む。
ステップS53において参照フレームであると判定されたか、またはステップS54においてスプレッド情報が生成されると、ステップS55の処理が行われる。
ステップS55において、レンダリング部113は、アンパッキング/復号部111から供給されたオブジェクトのオーディオ信号、およびスプレッド情報生成部112から供給されたメタデータに基づいてオブジェクトのオーディオ信号のレンダリングを行う。
例えばレンダリング部113は、各オブジェクトについて、スプレッド情報とオブジェクト位置情報に基づいて、VBAP(Vector Base Amplitude Pannning)により各チャネルのオーディオ信号を生成し、ミキシング部114に供給する。ステップS55では、オブジェクトの音像がオブジェクト位置情報により示される位置に定位し、スプレッド情報により示される広がり度合いで音像が広がるようなオーディオ信号が生成される。
ステップS56において、ミキシング部114は、アンパッキング/復号部111から供給された各チャネルのオーディオ信号と、レンダリング部113から供給された各チャネルのオーディオ信号とをチャネルごとに重み付け加算し、外部のスピーカに供給する。これにより、各スピーカには、それらのスピーカに対応するチャネルのオーディオ信号が供給されるので、各スピーカは供給されたオーディオ信号に基づいて音を再生する。
ステップS57において、復号装置101は処理を終了するか否かを判定する。例えば、全てのフレームについてオーディオ信号のスピーカへの出力が終了した場合、ステップS57において処理を終了すると判定される。
ステップS57において処理を終了しないと判定された場合、処理はステップS51に戻り、次のフレームが処理対象のフレームとされて上述した処理が繰り返し行われる。
これに対して、ステップS57において処理を終了すると判定された場合、復号装置101の各部は行っている処理を停止し、復号処理は終了する。
以上のようにして、復号装置101は、各オブジェクトの参照フレームではないフレームのスプレッド情報を生成してレンダリングを行う。
これにより、人手によるスプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、復号装置101側で参照フレーム以外のフレームのスプレッド情報を生成するようにすれば、ビットストリームに参照フレーム以外のフレームのスプレッド情報を格納する必要がない。したがって、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
〈第2の実施の形態〉
〈スプレッド情報の生成について〉
ところで第1の実施の形態では、オブジェクトのオーディオ信号の一部のフレームに対して人手でスプレッド情報の付与が行われる場合について説明した。
しかしながら、スプレッド情報が全く付与されていないコンテンツも数多く存在する。
例えばオブジェクトオーディオを扱える符号化方式には、スプレッド情報をメタデータに含めるか否かをヘッダ部のフラグで切り替えることができるようになされているものもある。すなわち、スプレッド情報が付与されないビットストリームの存在が許容されている。
また、そもそもスプレッド情報がビットストリームに含まれないオブジェクトオーディオの符号化方式も存在する。
このような背景から、スプレッド情報が全ての時間(フレーム)において適切に付与されていないコンテンツが数多く存在し、その結果、それらのコンテンツについては臨場感の高い再生を行うことができなかった。
そこで、オブジェクトのオブジェクト位置情報と、オブジェクトの大きさを示す大きさ情報とに基づいてスプレッド情報を生成することで、人手によるスプレッド情報の付与を行うことなく、適切なスプレッド情報を得ることができるようにしてもよい。
例えば、いくつかのオブジェクトオーディオの符号化方式では、ビットストリームに各オブジェクトの大きさ情報が含まれているものがある。オブジェクトの大きさ情報がある場合、人手によるスプレッド情報の付与を行うことなく、オブジェクト位置情報と大きさ情報を用いてスプレッド情報を生成することができる。
具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に対称に広げられるものとし、オブジェクトの中心から外殻(端部)までの距離を示す情報がオブジェクトの大きさ情報とされるものとする。以下では、フレームインデックスがiであるフレームの大きさ情報をd(i)と記すこととする。
この場合、例えば図6に示すように現フレームifrmにおけるオブジェクトの中心位置を点OB21とし、オブジェクトの端部分(外殻部分)の位置を点OBE21とすると、点OB21から点OBE21までの距離が大きさ情報d(ifrm)、すなわち大きさ情報により示される距離となる。なお、図6において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
この例では、オブジェクト位置情報に含まれる半径r(ifrm)により点OB21の位置が定まる。また、点OB21の位置と、大きさ情報d(ifrm)とから点OBE21の位置が定まる。ここで、点OBE21は、原点Oと点OB21とを結ぶ直線L21に対して直交する直線上に位置しているものとする。すなわち、点OB21と点OBE21とを結ぶ直線L23は、直線L21に対して垂直な直線であるとする。
このようにオブジェクトのオブジェクト位置情報と大きさ情報が与えられている場合、直線L21の長さであるr(ifrm)と、直線L23の長さであるd(ifrm)とが既知である。
原点Oと点OBE21とを結ぶ直線を直線L22とすると、現フレームifrmのスプレッド情報s(ifrm)、すなわちスプレッド角度は直線L22と直線L21とのなす角度である。したがって、半径r(ifrm)および大きさ情報d(ifrm)を用いて次式(4)によりスプレッド情報s(ifrm)を求めることができる。
Figure 2018198767
式(4)では、オブジェクトの現フレームifrmの大きさ情報d(ifrm)と、オブジェクトの現フレームifrmの半径r(ifrm)との比d(ifrm)/r(ifrm)が求められ、その比d(ifrm)/r(ifrm)の逆正接がオブジェクトの現フレームifrmのスプレッド情報s(ifrm)として生成される。
このようにオブジェクトの現フレームifrmの半径r(ifrm)と大きさ情報d(ifrm)に基づいて式(4)を計算すれば、簡単な演算によりオブジェクトの現フレームifrmの適切なスプレッド情報s(ifrm)を生成することができる。
特に、この例ではスプレッド情報を人手で付与する必要がないので、スプレッド情報の付与コストを大幅に削減することができる。すなわち、スプレッド情報が付与されているフレームが1つもない場合であっても、全フレームに対して適切なスプレッド情報を簡単に生成することができる。これにより、スプレッド情報を用いて臨場感の高いコンテンツ再生を実現することができる。
また、オブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合についても式(4)と同様の計算によりスプレッド情報を生成することができる。
すなわち、例えばオブジェクトの中心から水平方向にある外殻、つまり水平方向の端部分までの距離を水平方向距離とし、オブジェクトの中心から垂直方向にある外殻、つまり垂直方向の端部分までの距離を垂直方向距離とする。
また、現フレームifrmのオブジェクトについて、水平方向距離dwidth(ifrm)および垂直方向距離dheight(ifrm)が大きさ情報として含まれているとする。
この場合、上述した式(4)と同様に、以下の式(5)を計算することで現フレームifrmの水平方向のスプレッド情報swidth(ifrm)を得ることができ、以下の式(6)を計算することで現フレームifrmの垂直方向のスプレッド情報sheight(ifrm)を得ることができる。
Figure 2018198767
Figure 2018198767
式(5)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての水平方向距離dwidth(ifrm)とに基づいて水平方向のスプレッド情報swidth(ifrm)が算出される。同様に、式(6)では、現フレームifrmの半径r(ifrm)と、大きさ情報としての垂直方向距離dheight(ifrm)とに基づいて垂直方向のスプレッド情報sheight(ifrm)が算出される。
〈符号化処理の説明〉
以上のようにオブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図2に示した符号化装置11では、メタデータ入力部23からスプレッド情報生成部24には、メタデータと大きさ情報が供給される。このとき、メタデータにはオブジェクト位置情報が含まれているが、スプレッド情報は含まれていない状態となっている。
スプレッド情報生成部24は、メタデータ入力部23から供給されたオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成する。
このようにしてスプレッド情報が生成される場合、符号化装置11では図7に示す符号化処理が行われる。以下、図7のフローチャートを参照して、符号化装置11による符号化処理について説明する。
ステップS81において、スプレッド情報生成部24はスプレッド情報を生成する。
すなわち、メタデータ入力部23はユーザの入力操作を受けたり、外部との通信を行ったり、外部の記録領域からの読み出しを行ったりすることで、処理対象のフレームの各オブジェクトのメタデータと大きさ情報を取得し、スプレッド情報生成部24に供給する。
すると、スプレッド情報生成部24は、メタデータ入力部23から供給されたメタデータおよび大きさ情報に基づいて、オブジェクトごとにスプレッド情報を生成する。
具体的には、スプレッド情報生成部24は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
そして、スプレッド情報生成部24は、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータと、大きさ情報とをパッキング部25に供給する。
スプレッド情報が生成されると、その後、ステップS82乃至ステップS88の処理が行われて符号化処理は終了するが、これらの処理は図3のステップS13乃至ステップS19の処理と同様であるので、その説明は省略する。但し、ステップS82では、メタデータとともにオブジェクトの大きさ情報もビットストリームのDSEに格納される。
以上のようにして符号化装置11は、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報を生成してビットストリームに格納し、出力する。これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。
〈第2の実施の形態の変形例1〉
〈復号処理の説明〉
また、オブジェクト位置情報と大きさ情報に基づいてスプレッド情報が生成される場合、図4に示した復号装置101においてスプレッド情報を生成することも可能である。
復号装置101においてスプレッド情報が生成される場合、復号装置101では図8に示す復号処理が行われる。以下、図8のフローチャートを参照して復号装置101による復号処理について説明する。
なお、ステップS111およびステップS112の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。
但し、ステップS112では、アンパッキング/復号部111においてビットストリームのアンパッキングにより各オブジェクトのメタデータおよび大きさ情報が取得され、これらのメタデータおよび大きさ情報がスプレッド情報生成部112へと供給される。この場合、アンパッキングにより取得されたメタデータには、オブジェクト位置情報は含まれているが、スプレッド情報は含まれていない。
ステップS113において、スプレッド情報生成部112は、各オブジェクトについてアンパッキング/復号部111から供給されたメタデータおよび大きさ情報に基づいて処理対象のフレームのスプレッド情報を生成する。
例えばスプレッド情報生成部112は、処理対象のフレームのメタデータに含まれるオブジェクト位置情報と、処理対象のフレームの大きさ情報とに基づいて上述した式(4)、または上述した式(5)および式(6)を計算することで、処理対象のフレームのスプレッド情報を生成する。
スプレッド情報生成部112は、各オブジェクトのスプレッド情報を生成すると、生成したスプレッド情報を、それらの各オブジェクトのメタデータに格納し、オブジェクト位置情報およびスプレッド情報が含まれるメタデータをレンダリング部113に供給する。
ステップS113の処理が行われると、その後、ステップS114乃至ステップS116の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報および大きさ情報に基づいてスプレッド情報を生成し、レンダリングを行う。
これにより、スプレッド情報付与のコストを低減させ、より簡単に適切なスプレッド情報を得ることができる。また、ビットストリームにスプレッド情報を格納する必要がないため、復号装置101に伝送するビットストリームのビットレートを低減させることができる。
〈第3の実施の形態〉
〈スプレッド情報の生成について〉
ところで、いくつかのオブジェクトオーディオを扱える符号化方式では、ユーザが指定するズーム情報に基づいてオブジェクト位置情報を修正することで、ズームに対応したオブジェクトの移動を実現している。
一方で、オブジェクトの音像(スプレッド)については、ズーム情報に応じてスプレッド情報を修正する等の処理は行われていない。そのため、例えばズームによりオブジェクトがユーザに近づいた場合でもオブジェクトの音像が広がることはなく、結果として臨場感が損なわれてしまうことになる。
そこで、ズーム情報に基づいて、処理対象のフレームのスプレッド情報を適切に修正することで、より臨場感の高いコンテンツ再生を実現できるようにしてもよい。
例えば復号側において、ユーザにより指定されたズーム情報に基づいて、オブジェクトのオブジェクト位置情報が修正され、ズームに対応したオブジェクトの移動が実現されるとする。
具体的には、例えば図9の矢印A11に示すように、ズーム前の状態ではユーザU11の正面に位置し、点SCE11および点SCE12を水平方向の端点とする仮想的なスクリーンSC11にオブジェクトOB61が表示されているとする。
ここで、オブジェクトOB61はオーディオオブジェクトに対応するオブジェクトであり、ユーザU11から見たオブジェクトOB61の垂直方向の位置を示す垂直方向角度(仰角)は0度であるものとする。つまり、オブジェクトOB61のオブジェクト位置情報により示される垂直方向角度は0度であるとする。
また、ユーザU11は基準となる原点Oに位置しているものとし、原点Oを通りスクリーンSC11の面に対して垂直な直線L61と、スクリーンSC11との交点を点SCO11とする。
ここで、点SCO11はスクリーンSC11の中心位置であり、ユーザU11から見た点SCO11の位置は、水平方向角度および垂直方向角度が0度となる位置である。
この状態ではユーザU11から見てオブジェクトOB61は、右斜め前の方向に位置している。このとき、原点OとオブジェクトOB61とを結ぶ直線を直線L62とし、直線L61と直線L62とのなす角度をφとすると、ユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφであり垂直方向角度が0度となる位置である。
このような矢印A11に示す状態でユーザU11等がズーム操作を行い、ズーム情報が与えられたとする。
ここでズーム情報は、例えばズーム後の仮想的なスクリーンSC21の中心位置とズーム倍率を示す情報など、ズーム前のスクリーンSC11に対するズーム後のスクリーンSC21の位置および大きさを特定可能な情報とされる。すなわち、ズーム情報はスクリーンSC11およびスクリーンSC21の位置と大きさの関係を特定可能な情報とされる。
なお、ここでは説明を簡単にするため、ズーム前後においてスクリーンの中心位置は、ズーム前のユーザU11から見て垂直方向には変化(移動)しないものとする。
このようなズーム情報から、スクリーンSC21の中心位置の点SCO21と、スクリーンSC21の水平方向の端である点SCE21および点SCE22が特定される。
ズーム情報が供給されると、ズーム情報に基づいてオブジェクトOB61のオブジェクト位置情報が修正され、オブジェクトOB61の音像定位位置がズームに応じた位置に移動する。また、コンテンツの画像に対してズーム処理が行われる。
これにより、あたかもユーザU11が仮想的なスクリーンSC21の正面に移動したかのような画像が表示され、音像の定位位置も変化する。すなわち、矢印M11に示すようにユーザU11が移動したかのような画像の表示制御および音像定位制御が行われる。
ズーム処理が行われると、例えば矢印A12に示すようにユーザU11はスクリーンSC21の正面に位置することになるので、オブジェクトOB61はユーザU11から見て左斜め前の方向に位置することになる。
例えばズーム後のユーザU11の位置、つまり原点Oを通りスクリーンSC21の面に対して垂直な直線を直線L63とする。このとき、直線L63とスクリーンSC21との交点は、スクリーンSC21の中心位置にある点SCO21となり、ズーム後のユーザU11から見た点SCO21の位置は、水平方向角度および垂直方向角度が0度となる位置である。
また、ズーム後の原点OとオブジェクトOB61とを結ぶ直線を直線L64とする。直線L63と直線L64とのなす角度をφ’とすると、ズーム後のユーザU11から見たオブジェクトOB61の位置は、水平方向角度がφ’であり垂直方向角度が0度となる位置である。
このようにズーム情報が供給されると、オブジェクトOB61の水平方向の位置を示す水平方向角度φはφ’に修正されることになる。
具体的には、オブジェクトOB61のオブジェクト位置情報の修正後の水平方向角度φ’は、以下のようにして求められる。
すなわち、例えば図10の矢印A21に示すようにユーザU11の右前方にオブジェクトOB61がある状態でズームが行われ、ズーム後には図10の矢印A22に示すようにユーザU11の左前方にオブジェクトOB61が位置する状態となったとする。なお、図10において図9における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
例えば図10の矢印A21に示すように、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE11を結ぶ直線と、直線L61とのなす角度をφrepro leftとする。同様に、ズーム前における原点Oおよび点SCE12を結ぶ直線と、直線L61とのなす角度をφrepro rightとする。これらの角度φrepro leftおよび角度φrepro rightは既知の情報である。
また、ズーム前におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L61とのなす角度をφZASource leftとする。さらにズーム前における原点Oおよび点SCE22を結ぶ直線と、直線L61とのなす角度をφZASource rightとする。これらの角度φZASource leftおよび角度φZASource rightは、ズーム情報から求めることができる。
さらに、ズーム前後においてユーザU11と仮想的なスクリーンとの相対的な位置関係が同じであるものとすると、矢印A22に示すように、ズーム後におけるユーザU11の位置、すなわち原点Oおよび点SCE21を結ぶ直線と、直線L63とのなす角度はφrepro leftとなる。同様に、ズーム後における原点Oおよび点SCE22を結ぶ直線と、直線L63とのなす角度はφrepro rightとなる。
これらの角度φrepro left、角度φrepro right、角度φZASource left、および角度φZASource rightと、オブジェクトOB61の修正前のオブジェクト位置情報における水平方向角度φとを用いれば、オブジェクトOB61の修正後のオブジェクト位置情報における水平方向角度φ’を求めることができる。すなわち、次式(7)により水平方向角度φ’を求めることができる。
Figure 2018198767
なお、以上においてはズームの前後でスクリーンの中心位置が垂直方向に変化しない例について説明した。しかし、ズーム前後でスクリーンの中心位置が垂直方向にも変化する場合においても水平方向と同様にして、修正後のオブジェクト位置情報における垂直方向角度を求めることができる。
例えばズーム前、つまり修正前のオブジェクト位置情報の垂直方向角度をθとし、ズーム後、つまり修正後のオブジェクト位置情報の垂直方向角度をθ’とするものとする。
また、ズーム前後において、ユーザの位置、つまり原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの上端を結ぶ直線とのなす角度がθrepro topであるとする。ズーム前後において、原点Oおよび仮想的なスクリーンの中心を結ぶ直線と、原点Oおよび仮想的なスクリーンの下端を結ぶ直線とのなす角度がθrepro bottomであるとする。これらの角度θrepro topおよび角度θrepro bottomは既知である。
さらに、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの上端を結ぶ直線とのなす角度をθZASource topとする。同様に、ズーム前の原点Oおよびズーム前の仮想的なスクリーンの中心を結ぶ直線と、ズーム前の原点Oおよびズーム後の仮想的なスクリーンの下端を結ぶ直線とのなす角度をθZASource bottomとする。これらの角度θZASource topおよび角度θZASource bottomはズーム情報から求めることができる。
この場合、角度θrepro top、角度θrepro bottom、角度θZASource top、および角度θZASource bottomと、オブジェクトの修正前のオブジェクト位置情報における垂直方向角度θとを用いれば、オブジェクトの修正後のオブジェクト位置情報における垂直方向角度θ’を求めることができる。すなわち、次式(8)により垂直方向角度θ’を求めることができる。
Figure 2018198767
オブジェクト位置情報の修正時には、ズーム情報および修正前のオブジェクト位置情報に基づいて式(7)や式(8)の計算等が行われて、オブジェクト位置情報に含まれる、オブジェクトの水平方向角度、垂直方向角度、および半径が修正される。
ところで、ズーム前後におけるスプレッド角度の関係は、ズーム前後におけるオブジェクト位置情報により示される水平方向角度の関係や垂直方向角度の関係と同じである。そのため、式(7)や式(8)と同様の計算を行うことで、適切にスプレッド情報を修正することが可能である。すなわち、ズーム後の適切なスプレッド情報を生成することができる。
具体的には、例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられるものとし、ズーム前の現フレームifrmのスプレッド情報としてスプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が与えられているとする。
また、ズーム後における現フレームifrmの水平方向のスプレッド角度をs’width(ifrm)とし、ズーム後における現フレームifrmの垂直方向のスプレッド角度をs’height(ifrm)とする。つまり、スプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)からなる情報を、ズーム情報に基づくズームに応じて修正した修正後(ズーム後)のスプレッド情報とする。
この場合、式(7)におけるφおよびφ’をswidth(ifrm)およびs’width(ifrm)に置き換えることで、修正後のスプレッド情報s’width(ifrm)を得ることができる。同様に、式(8)におけるθおよびθ’をsheight(ifrm)およびs’height(ifrm)に置き換えることで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
すなわち、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報swidth(ifrm)に基づいて以下の式(9)を計算することで、修正後(ズーム後)のスプレッド情報s’width(ifrm)を得ることができる。
また、ズーム情報と、オブジェクトの現フレームifrmのズーム前(修正前)のスプレッド情報sheight(ifrm)に基づいて以下の式(10)を計算することで、修正後のスプレッド情報s’height(ifrm)を得ることができる。
Figure 2018198767
Figure 2018198767
これらの式(9)と式(10)によるスプレッド情報の修正は、ズーム情報により定まるズーム前の仮想的なスクリーンSC11とズーム後の仮想的なスクリーンSC21との位置および大きさの関係、並びにオブジェクトの現フレームifrmのズーム前のスプレッド情報に基づいて、オブジェクトの現フレームifrmのズーム後のスプレッド情報を生成しているともいうことができる。
なお、ここでは例えばオブジェクトの音の音像が水平方向および垂直方向に非対称に広げられる場合を例として説明したが、音像が水平方向および垂直方向に対称に広げられる場合においても同様にしてスプレッド情報を修正することが可能である。
そのような場合、例えば修正後のスプレッド情報をs’(ifrm)とすると、式(9)においてスプレッド情報swidth(ifrm)およびスプレッド情報s’width(ifrm)をスプレッド情報s(ifrm)およびスプレッド情報s’(ifrm)に置き換えて計算を行えばよい。
〈復号装置の構成例〉
以上において説明したようにズーム情報に基づいてオブジェクト位置情報およびスプレッド情報が修正される場合、復号装置は、例えば図11に示すように構成される。なお、図11において図4における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図11に示す復号装置101は、アンパッキング/復号部111、スプレッド情報生成部112、レンダリング部113、およびミキシング部114を有している。また、図11に示す復号装置101のスプレッド情報生成部112には、位置情報修正部161およびスプレッド情報修正部162が設けられている。
図11に示す復号装置101は、スプレッド情報生成部112に位置情報修正部161およびスプレッド情報修正部162を設けた点で図4に示した復号装置101と異なり、その他の点では図4に示した復号装置101と同じ構成となっている。
この例では、アンパッキング/復号部111からスプレッド情報生成部112には、各オブジェクトの全フレームのメタデータが供給される。この場合、メタデータには、必ずオブジェクト位置情報とスプレッド情報が含まれている。また、スプレッド情報生成部112にはユーザ操作等に応じてズーム情報も供給される。
スプレッド情報生成部112の位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
スプレッド情報生成部112のスプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。換言すればスプレッド情報修正部162は、ズーム情報およびズーム前(修正前)のスプレッド情報に基づいて、ズーム後のスプレッド情報を生成する。
スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれる各オブジェクトのメタデータをレンダリング部113に供給する。
〈復号処理の説明〉
次に、図11に示した復号装置101の動作について説明する。
すなわち、以下、図12のフローチャートを参照して、図11に示した復号装置101による復号処理について説明する。
なお、ステップS141およびステップS142の処理は、図5のステップS51およびステップS52の処理と同様であるので、その説明は省略する。但し、ステップS142では、各オブジェクトについて、オブジェクト位置情報およびスプレッド情報が含まれているメタデータがスプレッド情報生成部112に供給される。
ステップS143において、位置情報修正部161は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報を修正する。
すなわち、位置情報修正部161はズーム情報と、アンパッキング/復号部111から供給されたメタデータに含まれるオブジェクト位置情報とに基づいて、オブジェクト位置情報に含まれる水平方向角度、垂直方向角度、および半径を修正する。
具体的には、位置情報修正部161は上述した式(7)を計算することでオブジェクトの位置を示す修正後の水平方向角度φ’を算出するとともに、上述した式(8)を計算することでオブジェクトの位置を示す修正後の垂直方向角度θ’を算出する。また、位置情報修正部161は、オブジェクトの位置を示す半径をズーム倍率で除算することで、オブジェクトの位置を示す修正後の半径を算出する。
ステップS144において、スプレッド情報修正部162は、供給されたズーム情報に基づいて、アンパッキング/復号部111から供給されたメタデータに含まれるスプレッド情報を修正する。すなわち、ズームに応じたズーム後のスプレッド情報が生成される。
例えばアンパッキング/復号部111から供給されたメタデータのスプレッド情報として、スプレッド情報swidth(ifrm)およびスプレッド情報sheight(ifrm)が含まれているとする。この場合、スプレッド情報修正部162は、それらのスプレッド情報とズーム情報に基づいて、上述した式(9)および式(10)を計算することで、修正後のスプレッド情報s’width(ifrm)およびスプレッド情報s’height(ifrm)を算出する。
このようにしてオブジェクト位置情報およびスプレッド情報が修正されると、スプレッド情報生成部112は、修正後のオブジェクト位置情報および修正後のスプレッド情報が含まれた各オブジェクトのメタデータをレンダリング部113に供給する。
なお、ズーム情報が供給されなかった場合、すなわちズームが行われない場合には、特にステップS143およびステップS144の処理は行われない。すなわち、オブジェクト位置情報およびスプレッド情報の修正は行われない。
ステップS144の処理が行われると、その後、ステップS145乃至ステップS147の処理が行われて復号処理は終了するが、これらの処理は図5のステップS55乃至ステップS57の処理と同様であるので、その説明は省略する。
以上のようにして、復号装置101は各オブジェクトのオブジェクト位置情報およびスプレッド情報を修正し、レンダリングを行う。
これにより、適切なオブジェクト位置情報およびスプレッド情報を簡単に得ることができ、より臨場感の高いコンテンツ再生を実現することができる。
また、以上において説明した第3の実施の形態と、第1の実施の形態や第2の実施の形態を組み合わせるようにしてもよい。
例えば第2の実施の形態と第3の実施の形態とを組み合わせる場合には、図8を参照して説明した復号処理においてステップS113の処理が行われた後、図12のステップS143およびステップS144の処理が行われ、その後、ステップS114乃至ステップS116の処理が行われる。
このようにすることで、スプレッド情報がないフレームがあるときでも、ズーム情報に応じた適切なスプレッド情報を簡単に得ることができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図13は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロフォン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
11 符号化装置, 22 オブジェクトオーディオ符号化部, 23 メタデータ入力部, 24 スプレッド情報生成部, 101 復号装置, 111 アンパッキング/復号部, 112 スプレッド情報生成部, 113 レンダリング部, 161 位置情報修正部, 162 スプレッド情報修正部

Claims (12)

  1. オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成するスプレッド情報生成部を備える
    信号処理装置。
  2. 前記スプレッド情報生成部は、前記オーディオオブジェクトの前記他のフレームの前記スプレッド情報と、前記オーディオオブジェクトの前記処理対象のフレームおよび前記他のフレームの前記オブジェクト位置情報とに基づいて前記処理対象のフレームの前記スプレッド情報を生成する
    請求項1に記載の信号処理装置。
  3. 前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
    請求項2に記載の信号処理装置。
  4. 前記スプレッド情報生成部は、前記処理対象のフレームにおける前記距離および前記他のフレームにおける前記距離の比と、前記他のフレームの前記スプレッド情報の正接との積の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
    請求項3に記載の信号処理装置。
  5. 前記スプレッド情報生成部は、前記ズーム情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報とに基づいて、ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
    請求項1に記載の信号処理装置。
  6. 前記スプレッド情報生成部は、前記ズーム情報により定まるズーム前後における仮想スクリーンの位置および大きさの関係に基づいて、前記ズーム後における前記オーディオオブジェクトの前記処理対象のフレームの前記スプレッド情報を生成する
    請求項5に記載の信号処理装置。
  7. 前記スプレッド情報生成部は、前記大きさ情報と、前記オーディオオブジェクトの前記処理対象のフレームの前記オブジェクト位置情報とに基づいて、前記処理対象のフレームの前記スプレッド情報を生成する
    請求項1に記載の信号処理装置。
  8. 前記大きさ情報は、前記オーディオオブジェクトの中心から外殻までの距離である
    請求項7に記載の信号処理装置。
  9. 前記オブジェクト位置情報は、基準位置から前記オーディオオブジェクトまでの距離である
    請求項8に記載の信号処理装置。
  10. 前記スプレッド情報生成部は、前記大きさ情報と、前記処理対象のフレームの前記オブジェクト位置情報との比の逆正接を前記処理対象のフレームの前記スプレッド情報として生成する
    請求項9に記載の信号処理装置。
  11. オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
    ステップを含む信号処理方法。
  12. オーディオオブジェクトの処理対象のフレームのオブジェクト位置情報および前記オーディオオブジェクトの前記処理対象のフレームとは異なる他のフレームのスプレッド情報と、ズーム情報と、前記オーディオオブジェクトの大きさ情報とのうちの何れかに基づいて、前記オーディオオブジェクトの前記処理対象のフレームのスプレッド情報を生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2019514363A 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム Active JP7107305B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022112863A JP7388492B2 (ja) 2017-04-25 2022-07-14 信号処理装置および方法、並びにプログラム

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017085907 2017-04-25
JP2017085907 2017-04-25
PCT/JP2018/015158 WO2018198767A1 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022112863A Division JP7388492B2 (ja) 2017-04-25 2022-07-14 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2018198767A1 true JPWO2018198767A1 (ja) 2020-02-27
JP7107305B2 JP7107305B2 (ja) 2022-07-27

Family

ID=63919609

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2019514363A Active JP7107305B2 (ja) 2017-04-25 2018-04-11 信号処理装置および方法、並びにプログラム
JP2022112863A Active JP7388492B2 (ja) 2017-04-25 2022-07-14 信号処理装置および方法、並びにプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022112863A Active JP7388492B2 (ja) 2017-04-25 2022-07-14 信号処理装置および方法、並びにプログラム

Country Status (8)

Country Link
US (1) US20200126582A1 (ja)
EP (1) EP3618463A4 (ja)
JP (2) JP7107305B2 (ja)
KR (1) KR102506167B1 (ja)
CN (1) CN110537373B (ja)
BR (1) BR112019021897A2 (ja)
RU (1) RU2763785C2 (ja)
WO (1) WO2018198767A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106797499A (zh) * 2014-10-10 2017-05-31 索尼公司 编码装置和方法、再现装置和方法以及程序
EP3618463A4 (en) * 2017-04-25 2020-04-29 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
CN110537220B (zh) 2017-04-26 2024-04-16 索尼公司 信号处理设备和方法及程序
CA3164476A1 (en) * 2019-12-12 2021-06-17 Liquid Oxigen (Lox) B.V. Generating an audio signal associated with a virtual sound source

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966179A2 (en) * 1998-06-20 1999-12-22 Central Research Laboratories Limited A method of synthesising an audio signal
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3256045B2 (ja) * 1993-09-17 2002-02-12 シャープ株式会社 音声出力回路
US7532901B1 (en) * 2001-03-16 2009-05-12 Radeum, Inc. Methods and apparatus to detect location and orientation in an inductive system
US8743284B2 (en) * 2007-10-08 2014-06-03 Motorola Mobility Llc Synchronizing remote audio with fixed video
WO2010034063A1 (en) * 2008-09-25 2010-04-01 Igruuv Pty Ltd Video and audio content system
JP5267362B2 (ja) * 2009-07-03 2013-08-21 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法及びオーディオ符号化用コンピュータプログラムならびに映像伝送装置
US10326978B2 (en) * 2010-06-30 2019-06-18 Warner Bros. Entertainment Inc. Method and apparatus for generating virtual or augmented reality presentations with 3D audio positioning
US9124757B2 (en) * 2010-10-04 2015-09-01 Blue Jeans Networks, Inc. Systems and methods for error resilient scheme for low latency H.264 video coding
US10154361B2 (en) * 2011-12-22 2018-12-11 Nokia Technologies Oy Spatial audio processing apparatus
US9813837B2 (en) * 2013-11-14 2017-11-07 Dolby Laboratories Licensing Corporation Screen-relative rendering of audio and encoding and decoding of audio for such rendering
WO2015104451A1 (en) * 2014-01-07 2015-07-16 Nokia Technologies Oy Method and apparatus for video coding and decoding
US10492014B2 (en) * 2014-01-09 2019-11-26 Dolby Laboratories Licensing Corporation Spatial error metrics of audio content
EP2925024A1 (en) * 2014-03-26 2015-09-30 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for audio rendering employing a geometric distance definition
EP2928216A1 (en) * 2014-03-26 2015-10-07 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for screen related audio object remapping
EP2960854A1 (en) * 2014-06-27 2015-12-30 Thomson Licensing Method and device for determining a set of modifiable elements in a group of pictures
JP6464449B2 (ja) * 2014-08-29 2019-02-06 本田技研工業株式会社 音源分離装置、及び音源分離方法
EP3467827B1 (en) * 2014-10-01 2020-07-29 Dolby International AB Decoding an encoded audio signal using drc profiles
CN106797499A (zh) * 2014-10-10 2017-05-31 索尼公司 编码装置和方法、再现装置和方法以及程序
WO2017020011A1 (en) * 2015-07-30 2017-02-02 Dolby Laboratories Licensing Corporation Searching the results of an automatic speech recognition process
CN106385660B (zh) * 2015-08-07 2020-10-16 杜比实验室特许公司 处理基于对象的音频信号
CN105898669B (zh) * 2016-03-18 2017-10-20 南京青衿信息科技有限公司 一种声音对象的编码方法
CN109313904B (zh) * 2016-05-30 2023-12-08 索尼公司 视频音频处理设备和方法以及存储介质
CN116709161A (zh) * 2016-06-01 2023-09-05 杜比国际公司 将多声道音频内容转换成基于对象的音频内容的方法及用于处理具有空间位置的音频内容的方法
EP3301951A1 (en) * 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
US10721578B2 (en) * 2017-01-06 2020-07-21 Microsoft Technology Licensing, Llc Spatial audio warp compensator
US10861467B2 (en) * 2017-03-01 2020-12-08 Dolby Laboratories Licensing Corporation Audio processing in adaptive intermediate spatial format
EP3618463A4 (en) 2017-04-25 2020-04-29 Sony Corporation SIGNAL PROCESSING DEVICE, METHOD AND PROGRAM
US11595774B2 (en) * 2017-05-12 2023-02-28 Microsoft Technology Licensing, Llc Spatializing audio data based on analysis of incoming audio data
GB201800918D0 (en) * 2018-01-19 2018-03-07 Nokia Technologies Oy Associated spatial audio playback

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0966179A2 (en) * 1998-06-20 1999-12-22 Central Research Laboratories Limited A method of synthesising an audio signal
JP2013514696A (ja) * 2009-12-17 2013-04-25 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 第1のパラメトリック空間オーディオ信号を第2のパラメトリック空間オーディオ信号に変換する装置および方法
WO2016208406A1 (ja) * 2015-06-24 2016-12-29 ソニー株式会社 音声処理装置および方法、並びにプログラム
JP2017055149A (ja) * 2015-09-07 2017-03-16 ソニー株式会社 音声処理装置および方法、符号化装置、並びにプログラム

Also Published As

Publication number Publication date
US20200126582A1 (en) 2020-04-23
JP7107305B2 (ja) 2022-07-27
RU2019132899A (ru) 2021-04-19
KR20190140913A (ko) 2019-12-20
CN110537373B (zh) 2021-09-28
RU2763785C2 (ru) 2022-01-11
BR112019021897A2 (pt) 2020-05-26
CN110537373A (zh) 2019-12-03
JP7388492B2 (ja) 2023-11-29
WO2018198767A1 (ja) 2018-11-01
RU2019132899A3 (ja) 2021-07-21
EP3618463A1 (en) 2020-03-04
KR102506167B1 (ko) 2023-03-07
JP2022137213A (ja) 2022-09-21
EP3618463A4 (en) 2020-04-29

Similar Documents

Publication Publication Date Title
JP7388492B2 (ja) 信号処理装置および方法、並びにプログラム
US20220078371A1 (en) Apparatus and method for video-audio processing, and program for separating an object sound corresponding to a selected video object
CN111276153B (zh) 屏幕相关的音频对象重映射的设备和方法
JP7409362B2 (ja) 再生装置および方法、並びにプログラム
US9723223B1 (en) Apparatus and method for panoramic video hosting with directional audio
JP7160032B2 (ja) 信号処理装置および方法、並びにプログラム
US10623884B2 (en) Information processing apparatus, information processing method, and program
KR102683551B1 (ko) 복호 장치 및 방법, 그리고 프로그램을 기록한 컴퓨터 판독가능 기록매체
JP7457525B2 (ja) 受信装置、コンテンツ伝送システム、及びプログラム
US11962991B2 (en) Non-coincident audio-visual capture system
US10595148B2 (en) Sound processing apparatus and method, and program
US20230123253A1 (en) Method and Apparatus for Low Complexity Low Bitrate 6DOF HOA Rendering
US20210272576A1 (en) Information processing device and method, and program
EP4228289A1 (en) Information processing device, method, and program
RU2803062C2 (ru) Способы, аппараты и системы для расширения трех степеней свободы (3dof+) mpeg-h 3d audio
CN114026849A (zh) 信息处理装置、信息处理方法、再现处理装置以及再现处理方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220627

R151 Written notification of patent or utility model registration

Ref document number: 7107305

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151