JPWO2019098022A1 - 信号処理装置および方法、並びにプログラム - Google Patents

信号処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2019098022A1
JPWO2019098022A1 JP2019553801A JP2019553801A JPWO2019098022A1 JP WO2019098022 A1 JPWO2019098022 A1 JP WO2019098022A1 JP 2019553801 A JP2019553801 A JP 2019553801A JP 2019553801 A JP2019553801 A JP 2019553801A JP WO2019098022 A1 JPWO2019098022 A1 JP WO2019098022A1
Authority
JP
Japan
Prior art keywords
image
localization
listening
signal processing
localization position
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019553801A
Other languages
English (en)
Other versions
JP7192786B2 (ja
Inventor
辻 実
実 辻
徹 知念
徹 知念
光行 畠中
光行 畠中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019098022A1 publication Critical patent/JPWO2019098022A1/ja
Application granted granted Critical
Publication of JP7192786B2 publication Critical patent/JP7192786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/302Electronic adaptation of stereophonic sound system to listener position or orientation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/308Electronic adaptation dependent on speaker or headphone connection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/01Multi-channel, i.e. more than two input channels, sound reproduction with two speakers wherein the multi-channel information is substantially preserved
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/01Enhancing the perception of the sound image or of the spatial distribution using head related transfer functions [HRTF's] or equivalents thereof, e.g. interaural time difference [ITD] or interaural level difference [ILD]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/11Application of ambisonics in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、音像の定位位置を容易に決定することができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、聴取位置から見た聴取空間が表示されている状態で指定された聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、定位位置に関する情報に基づいてビットストリームを生成する生成部とを備える。本技術は信号処理装置に適用することができる。

Description

本技術は、信号処理装置および方法、並びにプログラムに関し、特に、音像の定位位置を容易に決定することができるようにした信号処理装置および方法、並びにプログラムに関する。
近年、オブジェクトベースのオーディオ技術が注目されている。
オブジェクトベースオーディオでは、オーディオオブジェクトに対する波形信号と、所定の基準となる聴取位置からの相対位置により表されるオーディオオブジェクトの定位情報を示すメタ情報とによりオブジェクトオーディオのデータが構成されている。
そして、オーディオオブジェクトの波形信号が、メタ情報に基づいて例えばVBAP(Vector Based Amplitude Panning)により所望のチャンネル数の信号にレンダリングされて、再生される(例えば、非特許文献1および非特許文献2参照)。
オブジェクトベースオーディオでは、オーディオコンテンツの制作において、オーディオオブジェクトを3次元空間上の様々な方向に配置することが可能である。
例えばDolby Atoms Panner plus-in for Pro Tools(例えば非特許文献3参照)では、3Dグラフィックのユーザインターフェース上においてオーディオオブジェクトの位置を指定することが可能である。この技術では、ユーザインターフェース上に表示された仮想空間の画像上の位置をオーディオオブジェクトの位置として指定することで、オーディオオブジェクトの音の音像を3次元空間上の任意の方向に定位させることができる。
一方、従来の2チャンネルステレオに対する音像の定位は、パニングと呼ばれる手法により調整されている。例えば所定のオーディオトラックに対する、左右の2チャンネルへの按分比率をUI(User Interface)によって変更することで、音像を左右方向のどの位置に定位させるかが決定される。
ISO/IEC 23008-3 Information technology − High efficiency coding and media delivery in heterogeneous environments − Part 3: 3D audio Ville Pulkki, "Virtual Sound Source Positioning Using Vector Base Amplitude Panning", Journal of AES, vol.45, no.6, pp.456-466, 1997 Dolby Laboratories, Inc., "Authoring for Dolby Atmos(R) Cinema Sound Manual"、[online]、[平成29年10月31日検索]、インターネット< https://www.dolby.com/us/en/technologies/dolby-atmos/authoring-for-dolby-atmos-cinema-sound-manual.pdf >
しかしながら、上述した技術では音像の定位位置を容易に決定することが困難であった。
すなわち、オブジェクトベースオーディオと2チャンネルステレオの何れの場合においても、オーディオコンテンツの制作者はコンテンツの音の実際の聴取位置に対する音像の定位位置を直感的に指定することができなかった。
例えばDolby Atoms Panner plus-in for Pro Toolsでは、3次元空間上の任意の位置を音像の定位位置として指定することはできるが、その指定した位置が実際の聴取位置から見たときにどのような位置にあるのかを知ることができない。
同様に、2チャンネルステレオにおける場合においても按分比率を指定する際に、その按分比率と音像の定位位置との関係を直感的に把握することは困難である。
そのため、制作者は音像の定位位置の調整と、その定位位置での音の試聴とを繰り返し行って最終的な定位位置を決定することになり、そのような定位位置の調整回数を少なくするには経験に基づく感覚が必要であった。
特に、例えばスクリーン上に映っている人物の口元の位置に、その人物の声を定位させ、あたかも映像の口から声が出ているようにするなど、映像に対して音の定位位置を合わせたい場合に、その定位位置を正確かつ直感的にユーザインターフェース上で指定することは困難であった。
本技術は、このような状況に鑑みてなされたものであり、音像の定位位置を容易に決定することができるようにするものである。
本技術の一側面の信号処理装置は、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、前記定位位置に関する情報に基づいてビットストリームを生成する生成部とを備える。
本技術の一側面の信号処理方法またはプログラムは、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、前記定位位置に関する情報に基づいてビットストリームを生成するステップを含む。
本技術の一側面においては、聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報が取得され、前記定位位置に関する情報に基づいてビットストリームが生成される。
本技術の一側面によれば、音像の定位位置を容易に決定することができる。
なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載された何れかの効果であってもよい。
編集画像と音像定位位置の決定について説明する図である。 ゲイン値の算出について説明する図である。 信号処理装置の構成例を示す図である。 定位位置決定処理を説明するフローチャートである。 設定パラメタの例を示す図である。 POV画像と俯瞰画像の表示例を示す図である。 定位位置マークの配置位置の調整について説明する図である。 定位位置マークの配置位置の調整について説明する図である。 スピーカの表示例を示す図である。 位置情報の補間について説明する図である。 定位位置決定処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術は、聴取位置からの視点ショット(Point of View Shot)(以下、単にPOVと称する)によりコンテンツを再生する聴取空間をシミュレートしたGUI(Graphical User Interface)上で音像の定位位置を指定することで、音像の定位位置を容易に決定することができるようにするものである。
これにより、例えばオーディオコンテンツの制作ツールにおいて、音の定位位置を容易に決定することができるようにするユーザインターフェースを実現することができる。特にオブジェクトベースオーディオにおける場合においては、オーディオオブジェクトの位置情報を容易に決定することができるユーザインターフェースを実現することができるようになる。
まず、コンテンツが静止画像または動画像である映像と、その映像に付随する左右2チャンネルの音からなるコンテンツである場合について説明する。
この場合、例えばコンテンツ制作において、映像に合わせた音の定位を、視覚的かつ直感的なユーザインターフェースにより容易に決定することができる。
ここで、具体的な例として、コンテンツのオーディオデータ、つまりオーディオトラックとしてドラム、エレキギター、および2つのアコースティックギターの合計4つの各楽器のオーディオデータのトラックがあるとする。また、コンテンツの映像として、それらの楽器と、楽器の演奏者が被写体として映っているものがあるとする。
さらに、左チャンネルのスピーカが、聴取者によるコンテンツの音の聴取位置から見て水平角度が30度である方向にあり、右チャンネルのスピーカが聴取位置から見て水平角度が-30度である方向にあるとする。
なお、ここでいう水平角度とは、聴取位置にいる聴取者から見た水平方向、つまり左右方向の位置を示す角度である。例えば水平方向における、聴取者の真正面の方向の位置を示す水平角度が0度である。また、聴取者から見て左方向の位置を示す水平角度は正の角度とされ、聴取者から見て右方向の位置を示す水平角度は負の角度とされるとする。
いま、左右のチャンネルの出力のためのコンテンツの音の音像の定位位置を決定することについて考える。
このような場合、本技術では、コンテンツ制作ツールの表示画面上に例えば図1に示す編集画像P11が表示される。
この編集画像P11は、聴取者がコンテンツの音を聴取しながら見る画像(映像)となっており、例えば編集画像P11としてコンテンツの映像を含む画像が表示される。
この例では、編集画像P11にはコンテンツの映像上に楽器の演奏者が被写体として表示されている。
すなわち、ここでは編集画像P11には、ドラムの演奏者PL11と、エレキギターの演奏者PL12と、1つ目のアコースティックギターの演奏者PL13と、2つ目のアコースティックギターの演奏者PL14とが表示されている。
また、編集画像P11には、それらの演奏者PL11乃至演奏者PL14による演奏に用いられているドラムやエレキギター、アコースティックギターといった楽器も表示されている。これらの楽器は、オーディオトラックに基づく音の音源となるオーディオオブジェクトであるということができる。
なお、以下では、2つのアコースティックギターを区別するときには、特に演奏者PL13が用いているものをアコースティックギター1とも称し、演奏者PL14が用いているものをアコースティックギター2とも称することとする。
このような編集画像P11はユーザインターフェース、すなわち入力インターフェースとしても機能しており、編集画像P11上には各オーディオトラックの音の音像の定位位置を指定するための定位位置マークMK11乃至定位位置マークMK14も表示されている。
ここでは、定位位置マークMK11乃至定位位置マークMK14のそれぞれは、ドラム、エレキギター、アコースティックギター1、およびアコースティックギター2のオーディオトラックの音の音像定位位置のそれぞれを示している。
特に、定位位置の調整対象として選択されているエレキギターのオーディオトラックの定位位置マークMK12はハイライト表示されており、他の選択状態とされていないオーディオトラックの定位位置マークとは異なる表示形式で表示されている。
コンテンツ制作者は、選択しているオーディオトラックの定位位置マークMK12を編集画像P11上の任意の位置に移動させることで、その定位位置マークMK12の位置にオーディオトラックの音の音像が定位するようにすることができる。換言すれば、コンテンツの映像上、つまり聴取空間上の任意の位置をオーディオトラックの音の音像の定位位置として指定することができる。
この例では、演奏者PL11乃至演奏者PL14の楽器の位置に、それらの楽器に対応するオーディオトラックの音の定位位置マークMK11乃至定位位置マークMK14が配置され、各楽器の音の音像が演奏者の楽器の位置に定位するようになされている。
コンテンツ制作ツールでは、定位位置マークの表示位置の指定によって、各オーディオトラックの音についての定位位置が指定されると、定位位置マークの表示位置に基づいて、オーディオトラック(オーディオデータ)についての左右の各チャンネルのゲイン値が算出される。
すなわち、編集画像P11上における定位位置マークの位置を示す座標に基づいて、オーディオトラックの左右のチャンネルへの按分率が決定され、その決定結果から左右の各チャンネルのゲイン値が求められる。なお、ここでは、左右2チャンネルへの按分が行われるため、編集画像P11上における左右方向(水平方向)のみが考慮され、定位位置マークの上下方向の位置については考慮されない。
具体的には、例えば図2に示すように聴取位置から見た各定位位置マークの水平方向の位置を示す水平角度に基づいてゲイン値が求められる。なお、図2において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図2では、図を見やすくするため定位位置マークの図示は省略されている。
この例では、聴取位置Oの正面の位置が編集画像P11、すなわち編集画像P11が表示されたスクリーンの中心位置O’となっており、そのスクリーンの左右方向の長さ、すなわち編集画像P11の左右方向の映像幅がLとなっている。
また、編集画像P11上における演奏者PL11乃至演奏者PL14の位置、つまり各演奏者による演奏に用いられる楽器の位置が位置PJ1乃至位置PJ4となっている。特に、この例では各演奏者の楽器の位置に定位位置マークが配置されているので、定位位置マークMK11乃至定位位置マークMK14の位置は、位置PJ1乃至位置PJ4となる。
さらに編集画像P11が表示されたスクリーンにおける図中、左側の端の位置が位置PJ5となっており、スクリーンにおける図中、右側端の位置が位置PJ6となっている。これらの位置PJ5および位置PJ6は、左右のスピーカが配置される位置でもある。
いま、図中、左右方向における中心位置O’から見た位置PJ1乃至位置PJ4の各位置を示す座標がX1乃至X4であるとする。特にここでは、中心位置O’から見て位置PJ5の方向が正の方向であり、中心位置O’から見て位置PJ6の方向が負の方向であるとする。
したがって、例えば中心位置O’から位置PJ1までの距離が、その位置PJ1を示す座標X1となる。
また、聴取位置Oから見た位置PJ1乃至位置PJ4の水平方向、つまり図中、左右方向の位置を示す角度が水平角度θ1乃至水平角度θ4であるとする。
例えば水平角度θ1は、聴取位置Oおよび中心位置O’を結ぶ直線と、聴取位置Oおよび位置PJ1を結ぶ直線とのなす角度である。特に、ここでは聴取位置Oから見て図中、左側方向が水平角度の正の角度の方向であり、聴取位置Oから見て図中、右側方向が水平角度の負の角度の方向であるとする。
また、上述したように左チャンネルのスピーカの位置を示す水平角度が30度であり、右チャンネルのスピーカの位置を示す水平角度が-30度であるから、位置PJ5の水平角度は30度であり、位置PJ6の水平角度は-30度である。
左右のチャンネルのスピーカはスクリーンの左右の端の位置に配置されているので、編集画像P11の視野角、つまりコンテンツの映像の視野角も±30度となる。
このような場合、各オーディオトラック(オーディオデータ)の按分率、すなわち左右の各チャンネルのゲイン値は、聴取位置Oから見たときの音像の定位位置の水平角度によって定まる。
例えばドラムのオーディオトラックについての位置PJ1を示す水平角度θ1は、中心位置O’から見た位置PJ1を示す座標X1と、映像幅Lとから次式(1)に示す計算により求めることができる。
Figure 2019098022
したがって、水平角度θ1により示される位置PJ1にドラムのオーディオデータ(オーディオトラック)に基づく音の音像を定位させるための左右のチャンネルのゲイン値GainL1およびゲイン値GainR1は、以下の式(2)および式(3)により求めることができる。なお、ゲイン値GainL1は左チャンネルのゲイン値であり、ゲイン値GainR1は右チャンネルのゲイン値である。
Figure 2019098022
Figure 2019098022
コンテンツの再生時には、ゲイン値GainL1がドラムのオーディオデータに乗算され、その結果得られたオーディオデータに基づいて左チャンネルのスピーカから音が出力される。また、ゲイン値GainR1がドラムのオーディオデータに乗算され、その結果得られたオーディオデータに基づいて右チャンネルのスピーカから音が出力される。
すると、ドラムの音の音像が位置PJ1、つまりコンテンツの映像におけるドラム(演奏者PL11)の位置に定位する。
ドラムのオーディオトラックだけでなく、他のエレキギター、アコースティックギター1、およびアコースティックギター2についても上述した式(1)乃至式(3)と同様の計算が行われ、左右の各チャンネルのゲイン値が算出される。
すなわち、座標X2と映像幅Lに基づいて、エレキギターのオーディオデータの左右のチャンネルのゲイン値GainL2およびゲイン値GainR2が求められる。
また、座標X3と映像幅Lに基づいて、アコースティックギター1のオーディオデータの左右のチャンネルのゲイン値GainL3およびゲイン値GainR3が求められ、座標X4と映像幅Lに基づいて、アコースティックギター2のオーディオデータの左右のチャンネルのゲイン値GainL4およびゲイン値GainR4が求められる。
なお、左右のチャンネルのスピーカがスクリーンの端よりも外側の位置にあることを想定している場合、すなわち左右のスピーカ間の距離Lspkが映像幅Lよりも大きい場合、式(1)においては映像幅Lを距離Lspkに置き換えて計算を行えばよい。
以上のようにすることで、左右2チャンネルのコンテンツ制作において、コンテンツの映像に合わせた音の音像定位位置を、直感的なユーザインターフェースにより容易に決定することができる。
〈信号処理装置の構成例〉
次に、以上において説明した本技術を適用した信号処理装置について説明する。
図3は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。
図3に示す信号処理装置11は、入力部21、記録部22、制御部23、表示部24、通信部25、およびスピーカ部26を有している。
入力部21は、スイッチやボタン、マウス、キーボード、表示部24に重畳して設けられたタッチパネルなどからなり、コンテンツの制作者であるユーザの入力操作に応じた信号を制御部23に供給する。
記録部22は、例えばハードディスクなどの不揮発性のメモリからなり、制御部23から供給されたオーディオデータ等を記録したり、記録しているデータを制御部23に供給したりする。なお、記録部22は、信号処理装置11に対して着脱可能なリムーバブル記録媒体であってもよい。
制御部23は、信号処理装置11全体の動作を制御する。制御部23は、定位位置決定部41、ゲイン算出部42、および表示制御部43を有している。
定位位置決定部41は、入力部21から供給された信号に基づいて、各オーディオトラック、すなわち各オーディオデータの音の音像の定位位置を決定する。
換言すれば、定位位置決定部41は、表示部24に表示された聴取空間内における聴取位置から見た楽器等のオーディオオブジェクトの音の音像の定位位置に関する情報を取得し、その定位位置を決定する取得部として機能するということができる。
ここで音像の定位位置に関する情報とは、例えば聴取位置から見たオーディオオブジェクトの音の音像の定位位置を示す位置情報や、その位置情報を得るための情報等である。
ゲイン算出部42は、定位位置決定部41により決定された定位位置に基づいて、オーディオオブジェクトごと、すなわちオーディオトラックごとに、オーディオデータに対する各チャンネルのゲイン値を算出する。表示制御部43は、表示部24を制御して、表示部24における画像等の表示を制御する。
また、制御部23は、定位位置決定部41により取得された定位位置に関する情報や、ゲイン算出部42により算出されたゲイン値に基づいて、少なくともコンテンツのオーディオデータを含む出力ビットストリームを生成して出力する生成部としても機能する。
表示部24は、例えば液晶表示パネルなどからなり、表示制御部43の制御に従ってPOV画像などの各種の画像等を表示する。
通信部25は、インターネット等の有線または無線の通信網を介して外部の装置と通信する。例えば通信部25は、外部の装置から送信されてきたデータを受信して制御部23に供給したり、制御部23から供給されたデータを外部の装置に送信したりする。
スピーカ部26は、例えば所定のチャンネル構成のスピーカシステムの各チャンネルのスピーカからなり、制御部23から供給されたオーディオデータに基づいてコンテンツの音を再生(出力)する。
〈定位位置決定処理の説明〉
続いて、信号処理装置11の動作について説明する。
すなわち、以下、図4のフローチャートを参照して、信号処理装置11により行われる定位位置決定処理について説明する。
ステップS11において表示制御部43は、表示部24に編集画像を表示させる。
例えばコンテンツ制作者による操作に応じて、入力部21から制御部23に対してコンテンツ制作ツールの起動を指示する信号が供給されると、制御部23はコンテンツ制作ツールを起動させる。このとき制御部23は、コンテンツ制作者により指定されたコンテンツの映像の画像データと、その映像に付随するオーディオデータを必要に応じて記録部22から読み出す。
そして、表示制御部43は、コンテンツ制作ツールの起動に応じて、編集画像を含むコンテンツ制作ツールの表示画面(ウィンドウ)を表示させるための画像データを表示部24に供給し、表示画面を表示させる。ここでは編集画像は、例えばコンテンツの映像に対して、各オーディオトラックに基づく音の音像定位位置を示す定位位置マークが重畳された画像などとされる。
表示部24は、表示制御部43から供給された画像データに基づいて、コンテンツ制作ツールの表示画面を表示させる。これにより、例えば表示部24には、コンテンツ制作ツールの表示画面として図1に示した編集画像P11を含む画面が表示される。
編集画像を含むコンテンツ制作ツールの表示画面が表示されると、コンテンツ制作者は入力部21を操作して、コンテンツのオーディオトラック(オーディオデータ)のなかから、音像の定位位置の調整を行うオーディオトラックを選択する。すると、入力部21から制御部23には、コンテンツ制作者の選択操作に応じた信号が供給される。
オーディオトラックの選択は、例えば表示画面に編集画像とは別に表示されたオーディオトラックのタイムライン上などで、所望の再生時刻における所望のオーディオトラックを指定するようにしてもよいし、表示されている定位位置マークを直接指定するようにしてもよい。
ステップS12において、定位位置決定部41は、入力部21から供給された信号に基づいて、音像の定位位置の調整を行うオーディオトラックを選択する。
定位位置決定部41により音像の定位位置の調整対象となるオーディオトラックが選択されると、表示制御部43は、その選択結果に応じて表示部24を制御し、選択されたオーディオトラックに対応する定位位置マークを、他の定位位置マークとは異なる表示形式で表示させる。
選択したオーディオトラックに対応する定位位置マークが他の定位位置マークと異なる表示形式で表示されると、コンテンツ制作者は入力部21を操作して、対象となる定位位置マークを任意の位置に移動させることで、音像の定位位置を指定する。
例えば図1に示した例では、コンテンツ制作者は定位位置マークMK12の位置を任意の位置に移動させることで、エレキギターの音の音像定位位置を指定する。
すると、入力部21から制御部23にはコンテンツ制作者の入力操作に応じた信号が供給されるので、表示制御部43は、入力部21から供給された信号に応じて表示部24を制御し、定位位置マークの表示位置を移動させる。
また、ステップS13において、定位位置決定部41は、入力部21から供給された信号に基づいて、調整対象のオーディオトラックの音の音像の定位位置を決定する。
すなわち、定位位置決定部41は、入力部21から、コンテンツ制作者の入力操作に応じて出力された、編集画像における定位位置マークの位置を示す情報(信号)を取得する。そして、定位位置決定部41は、取得した情報に基づいて編集画像上、つまりコンテンツの映像上における対象となる定位位置マークにより示される位置を音像の定位位置として決定する。
また、定位位置決定部41は音像の定位位置の決定に応じて、その定位位置を示す位置情報を生成する。
例えば図2に示した例において、定位位置マークMK12が位置PJ2に移動されたとする。そのような場合、定位位置決定部41は、取得した座標X2に基づいて上述した式(1)と同様の計算を行って、エレキギターのオーディオトラックについての音像の定位位置を示す位置情報、換言すればオーディオオブジェクトとしての演奏者PL12(エレキギター)の位置を示す位置情報として水平角度θ2を算出する。
ステップS14において、ゲイン算出部42はステップS13における定位位置の決定結果として得られた位置情報としての水平角度に基づいて、ステップS12で選択されたオーディオトラックについての左右のチャンネルのゲイン値を算出する。
例えばステップS14では、上述した式(2)および式(3)と同様の計算が行われて左右の各チャンネルのゲイン値が算出される。
ステップS15において、制御部23は、音像の定位位置の調整を終了するか否かを判定する。例えばコンテンツ制作者により入力部21が操作され、コンテンツの出力、すなわちコンテンツの制作終了が指示された場合、ステップS15において音像の定位位置の調整を終了すると判定される。
ステップS15において、まだ音像の定位位置の調整を終了しないと判定された場合、処理はステップS12に戻り、上述した処理が繰り返し行われる。すなわち、新たに選択されたオーディオトラックについて音像の定位位置の調整が行われる。
これに対して、ステップS15において音像の定位位置の調整を終了すると判定された場合、処理はステップS16へと進む。
ステップS16において、制御部23は、各オブジェクトの位置情報に基づく出力ビットストリーム、換言すればステップS14の処理で得られたゲイン値に基づく出力ビットストリームを出力し、定位位置決定処理は終了する。
例えばステップS16では、制御部23はステップS14の処理で得られたゲイン値をオーディオデータに乗算することで、コンテンツのオーディオトラックごとに、左右の各チャンネルのオーディオデータを生成する。また、制御部23は得られた同じチャンネルのオーディオデータを加算して、最終的な左右の各チャンネルのオーディオデータとし、そのようにして得られたオーディオデータを含む出力ビットストリームを出力する。ここで、出力ビットストリームにはコンテンツの映像の画像データなどが含まれていてもよい。
また、出力ビットストリームの出力先は、記録部22やスピーカ部26、外部の装置など、任意の出力先とすることができる。
例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが記録部22やリムーバブル記録媒体等に供給されて記録されてもよいし、出力ビットストリームとしてのオーディオデータがスピーカ部26に供給されてコンテンツの音が再生されてもよい。また、例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが通信部25に供給されて、通信部25により出力ビットストリームが外部の装置に送信されるようにしてもよい。
このとき、例えば出力ビットストリームに含まれるコンテンツのオーディオデータと画像データは所定の符号化方式により符号化されていてもよいし、符号化されていなくてもよい。さらに、例えば各オーディオトラック(オーディオデータ)と、ステップS14で得られたゲイン値と、コンテンツの映像の画像データとを含む出力ビットストリームが生成されるようにしても勿論よい。
以上のようにして信号処理装置11は、編集画像を表示させるとともに、ユーザ(コンテンツ制作者)の操作に応じて定位位置マークを移動させ、その定位位置マークにより示される位置、つまり定位位置マークの表示位置に基づいて音像の定位位置を決定する。
このようにすることで、コンテンツ制作者は、編集画像を見ながら定位位置マークを所望の位置に移動させるという操作を行うだけで、適切な音像の定位位置を容易に決定(指定)することができる。
〈第2の実施の形態〉
〈POV画像の表示について〉
ところで、第1の実施の形態では、コンテンツのオーディオ(音)が左右の2チャンネルの出力である例について説明した。しかし、本技術は、これに限らず、3次元空間の任意の位置に音像を定位させるオブジェクトベースオーディオにも適用可能である。
以下では、本技術を、3次元空間の音像定位をターゲットとしたオブジェクトベースオーディオ(以下、単にオブジェクトベースオーディオと称する)に適用した場合について説明を行う。
ここでは、コンテンツの音としてオーディオオブジェクトの音が含まれており、オーディオオブジェクトとして、上述した例と同様にドラム、エレキギター、アコースティックギター1、およびアコースティックギター2があるとする。また、コンテンツが、各オーディオオブジェクトのオーディオデータと、それらのオーディオデータに対応する映像の画像データとからなるとする。なお、コンテンツの映像は静止画像であってもよいし、動画像であってもよい。
オブジェクトベースオーディオでは、3次元空間のあらゆる方向に音像を定位させることができるため、映像を伴う場合においても映像のある範囲外の位置、つまり映像では見えない位置にも音像を定位させることが想定される。言い換えると、音像の定位の自由度が高いが故に、映像に合わせて音像定位位置を正確に決定することは困難であり、映像が3次元空間上のどこにあるかを知った上で、音像の定位位置を指定する必要がある。
そこで、本技術では、オブジェクトベースオーディオのコンテンツについては、コンテンツ制作ツールにおいて、まずコンテンツの再生環境の設定が行われる。
ここで、再生環境とは、例えばコンテンツ制作者が想定している、コンテンツの再生が行われる部屋などの3次元空間、つまり聴取空間である。再生環境の設定時には、部屋(聴取空間)の大きさや、コンテンツを視聴する視聴者、つまりコンテンツの音の聴取者の位置である聴取位置、コンテンツの映像が表示されるスクリーンの形状やスクリーンの配置位置などがパラメタにより指定される。
例えば再生環境の設定時に指定される、再生環境を指定するパラメタ(以下、設定パラメタとも称する)として、図5に示すものがコンテンツ制作者により指定される。
図5に示す例では、設定パラメタとして聴取空間である部屋のサイズを決定する「奥行き」、「幅」、および「高さ」が示されており、ここでは部屋の奥行きは「6.0m」とされ、部屋の幅は「8.0m」とされ、部屋の高さは「3.0m」とされている。
また、設定パラメタとして部屋(聴取空間)内における聴取者の位置である「聴取位置」が示されており、その聴取位置は「部屋の中央」とされている。
さらに、設定パラメタとして部屋(聴取空間)内における、コンテンツの映像が表示されるスクリーン(表示装置)の形状、つまり表示画面の形状を決定する「サイズ」と「アスペクト比」が示されている。
設定パラメタ「サイズ」は、スクリーンの大きさを示しており、「アスペクト比」はスクリーン(表示画面)のアスペクト比を示している。ここでは、スクリーンのサイズは「120インチ」とされており、スクリーンのアスペクト比は「16:9」とされている。
その他、図5では、スクリーンに関する設定パラメタとして、スクリーンの位置を決定する「前後」、「左右」、および「上下」が示されている。
ここで、設定パラメタ「前後」は、聴取空間(部屋)内における聴取位置にいる聴取者が基準となる方向を見たときの、聴取者からスクリーンまでの前後方向の距離であり、この例では設定パラメタ「前後」の値は「聴取位置の前方2m」とされている。つまり、スクリーンは聴取者の前方2mの位置に配置される。
また、設定パラメタ「左右」は、聴取空間(部屋)内における聴取位置で基準となる方向を向いている聴取者から見たスクリーンの左右方向の位置であり、この例では設定パラメタ「左右」の設定(値)は「中央」とされている。つまり、スクリーンの中心の左右方向の位置が聴取者の真正面の位置となるようにスクリーンが配置される。
設定パラメタ「上下」は、聴取空間(部屋)内における聴取位置で基準となる方向を向いている聴取者から見たスクリーンの上下方向の位置であり、この例では設定パラメタ「上下」の設定(値)は「スクリーン中心が聴取者の耳の高さ」とされている。つまり、スクリーンの中心の上下方向の位置が聴取者の耳の高さの位置となるようにスクリーンが配置される。
コンテンツ制作ツールでは、以上のような設定パラメタに従ってPOV画像等が表示画面に表示される。すなわち、表示画面上には設定パラメタにより聴取空間をシミュレートしたPOV画像が3Dグラフィック表示される。
例えば図5に示した設定パラメタが指定された場合、コンテンツ制作ツールの表示画面として図6に示す画面が表示される。なお、図6において図1における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図6では、コンテンツ制作ツールの表示画面としてウィンドウWD11が表示されており、このウィンドウWD11内に聴取者の視点から見た聴取空間の画像であるPOV画像P21と、聴取空間を俯瞰的に見た画像である俯瞰画像P22とが表示されている。
POV画像P21では、聴取位置から見た、聴取空間である部屋の壁等が表示されており、部屋における聴取者前方の位置には、コンテンツの映像が重畳表示されたスクリーンSC11が配置されている。POV画像P21では、実際の聴取位置から見た聴取空間がほぼそのまま再現されている。
特に、このスクリーンSC11は、図5の設定パラメタにより指定されたように、アスペクト比が16:9であり、サイズが120インチであるスクリーンである。また、スクリーンSC11は、図5に示した設定パラメタ「前後」、「左右」、および「上下」により定まる聴取空間上の位置に配置されている。
スクリーンSC11上には、コンテンツの映像内の被写体である演奏者PL11乃至演奏者PL14が表示されている。
また、POV画像P21には、定位位置マークMK11乃至定位位置マークMK14も表示されており、この例では、これらの定位位置マークがスクリーンSC11上に位置している。
なお、図6では、聴取者の視線方向が予め定められた基準となる方向、すなわち聴取空間の正面の方向(以下、基準方向とも称する)である場合におけるPOV画像P21が表示されている例を示している。しかし、コンテンツ制作者は、入力部21を操作することで、聴取者の視線方向を任意の方向に変更することができる。聴取者の視線方向が変更されると、ウィンドウWD11には変更後の視線方向の聴取空間の画像がPOV画像として表示される。
また、より詳細には、POV画像の視点位置は聴取位置だけでなく、聴取位置近傍の位置とすることも可能である。例えばPOV画像の視点位置が聴取位置近傍の位置とされた場合には、POV画像の手前側には必ず聴取位置が表示されるようになされる。
これにより、視点位置が聴取位置とは異なる場合であっても、POV画像を見ているコンテンツ制作者は、表示されているPOV画像がどの位置を視点位置とした画像であるかを容易に把握することができる。
一方、俯瞰画像P22は聴取空間である部屋全体の画像、つまり聴取空間を俯瞰的に見た画像である。
特に、聴取空間の図中、矢印RZ11により示される方向の長さが、図5に示した設定パラメタ「奥行き」により示される聴取空間の奥行きの長さとなっている。同様に、聴取空間の矢印RZ12により示される方向の長さが、図5に示した設定パラメタ「幅」により示される聴取空間の横幅の長さとなっており、聴取空間の矢印RZ13により示される方向の長さが、図5に示した設定パラメタ「高さ」により示される聴取空間の高さとなっている。
さらに、俯瞰画像P22上に表示された点Oは、図5に示した設定パラメタ「聴取位置」により示される位置、つまり聴取位置を示している。以下、点Oを特に聴取位置Oとも称することとする。
このように、聴取位置OやスクリーンSC11、定位位置マークMK11乃至定位位置マークMK14が表示された聴取空間全体の画像を俯瞰画像P22として表示させることで、コンテンツ制作者は、聴取位置OやスクリーンSC11、演奏者および楽器(オーディオオブジェクト)の位置関係を適切に把握することができる。
コンテンツ制作者は、このようにして表示されたPOV画像P21と俯瞰画像P22を見ながら入力部21を操作し、各オーディオトラックについての定位位置マークMK11乃至定位位置マークMK14を所望の位置に移動させることで、音像の定位位置を指定する。
このようにすることで、図1における場合と同様に、コンテンツ制作者は、適切な音像の定位位置を容易に決定(指定)することができる。
図6に示すPOV画像P21および俯瞰画像P22は、図1に示した編集画像P11における場合と同様に、入力インターフェースとしても機能しており、POV画像P21や俯瞰画像P22の任意の位置を指定することで、各オーディオトラックの音の音像定位位置を指定することができる。
例えばコンテンツ制作者が入力部21等を操作して、POV画像P21上の所望の位置を指定すると、その位置に定位位置マークが表示される。
図6に示す例では、図1における場合と同様に、定位位置マークMK11乃至定位位置マークMK14がスクリーンSC11上の位置、つまりコンテンツの映像上の位置に表示されている。したがって、各オーディオトラックの音の音像が、その音に対応する映像の各被写体(オーディオオブジェクト)の位置に定位するようになることが分かる。すなわち、コンテンツの映像に合わせた音像定位が実現されることが分かる。
なお、信号処理装置11では、例えば定位位置マークの位置は聴取位置Oを原点(基準)とする座標系の座標により管理される。
例えば聴取位置Oを原点とする座標系が極座標である場合、定位位置マークの位置は、聴取位置Oから見た水平方向、つまり左右方向の位置を示す水平角度と、聴取位置Oから見た垂直方向、つまり上下方向の位置を示す垂直角度と、聴取位置Oから定位位置マークまでの距離を示す半径とにより表される。
なお、以下では、定位位置マークの位置は、水平角度、垂直角度、および半径により表される、つまり極座標により表されるものとして説明を続けるが、定位位置マークの位置は、聴取位置Oを原点とする3次元直交座標系等の座標により表されるようにしてもよい。
このように定位位置マークが極座標により表される場合、聴取空間上における定位位置マークの表示位置の調整は、例えば以下のように行うことができる。
すなわち、コンテンツ制作者が入力部21等を操作して、POV画像P21上の所望の位置をクリック等により指定すると、その位置に定位位置マークが表示される。具体的には、例えば聴取位置Oを中心とする半径1の球面上におけるコンテンツ制作者により指定された位置に定位位置マークが表示される。
また、このとき、例えば図7に示すように聴取位置Oから、聴取者の視線方向に延びる直線L11が表示され、その直線L11上に処理対象の定位位置マークMK11が表示される。なお、図7において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図7に示す例では、ドラムのオーディオトラックに対応する定位位置マークMK11が処理対象、つまり音像の定位位置の調整対象となっており、この定位位置マークMK11が聴取者の視線方向に延びる直線L11上に表示されている。
コンテンツ制作者は、例えば入力部21としてのマウスに対するホイール操作等を行うことで、定位位置マークMK11を直線L11上の任意の位置に移動させることができる。換言すれば、コンテンツ制作者は、聴取位置Oから定位位置マークMK11までの距離、つまり定位位置マークMK11の位置を示す極座標の半径を調整することができる。
また、コンテンツ制作者は、入力部21を操作することで直線L11の方向も任意の方向に調整することが可能である。
このような操作によって、コンテンツ制作者は、聴取空間上の任意の位置に定位位置マークMK11を移動させることができる。
したがって、例えばコンテンツ制作者は定位位置マークの位置を、コンテンツの映像の表示位置、つまりオーディオオブジェクトに対応する被写体の位置であるスクリーンSC11の位置よりも、聴取者から見て奥側にも手前側にも移動させることができる。
例えば図7に示す例では、ドラムのオーディオトラックの定位位置マークMK11は、聴取者から見てスクリーンSC11の奥側に位置しており、エレキギターのオーディオトラックの定位位置マークMK12は、聴取者から見てスクリーンSC11の手前側に位置している。
また、アコースティックギター1のオーディオトラックの定位位置マークMK13、およびアコースティックギター2のオーディオトラックの定位位置マークMK14は、スクリーンSC11上に位置している。
このように、本技術を適用したコンテンツ制作ツールでは、例えばスクリーンSC11の位置を基準として、その位置よりも聴取者から見て手前側や奥側など、奥行き方向の任意の位置に音像を定位させて距離感を制御することができる。
例えばオブジェクトベースオーディオにおいては、聴取者の位置(聴取位置)を原点とした極座標による位置座標がオーディオオブジェクトのメタ情報として扱われている。
図6や図7を参照して説明した例では、各オーディオトラックは、オーディオオブジェクトのオーディオデータであり、各定位位置マークはオーディオオブジェクトの位置であるといえる。したがって、定位位置マークの位置を示す位置情報を、オーディオオブジェクトのメタ情報としての位置情報とすることができる。
そして、コンテンツの再生時には、オーディオオブジェクトのメタ情報である位置情報に基づいて、オーディオオブジェクト(オーディオトラック)のレンダリングを行えば、その位置情報により示される位置、つまり定位位置マークにより示される位置にオーディオオブジェクトの音の音像を定位させることができる。
レンダリングでは、例えば位置情報に基づいてVBAP手法により、再生に用いるスピーカシステムの各スピーカチャンネルに按分するゲイン値が算出される。すなわち、ゲイン算出部42によりオーディオデータの各チャンネルのゲイン値が算出される。
そして、算出された各チャンネルのゲイン値のそれぞれが乗算されたオーディオデータが、それらのチャンネルのオーディオデータとされる。また、オーディオオブジェクトが複数ある場合には、それらのオーディオオブジェクトについて得られた同じチャンネルのオーディオデータが加算されて、最終的なオーディオデータとされる。
このようにして得られた各チャンネルのオーディオデータに基づいてスピーカが音を出力することで、オーディオオブジェクトの音の音像が、メタ情報としての位置情報、つまり定位位置マークにより示される位置に定位するようになる。
したがって、特に定位位置マークの位置として、スクリーンSC11上の位置が指定されたときには、実際のコンテンツの再生時には、コンテンツの映像上の位置に音像が定位することになる。
なお、図7に示したように定位位置マークの位置として、スクリーンSC11上の位置とは異なる位置など、任意の位置を指定することができる。したがって、メタ情報としての位置情報を構成する、聴取者からオーディオオブジェクトまでの距離を示す半径は、コンテンツの音の再生時における距離感制御のための情報として用いることができる。
例えば、信号処理装置11においてコンテンツを再生する場合に、ドラムのオーディオデータのメタ情報としての位置情報に含まれる半径が、基準となる値(例えば、1)の2倍の値であったとする。
このような場合、例えば制御部23がドラムのオーディオデータに対して、ゲイン値「0.5」を乗算してゲイン調整を行えば、ドラムの音が小さくなり、そのドラムの音が基準となる距離の位置よりもより遠い位置から聞こえているかのように感じさせる距離感制御を実現することができる。
なお、ゲイン調整による距離感制御は、あくまで位置情報に含まれる半径を用いた距離感制御の一例であって、距離感制御は他のどのような方法により実現されてもよい。このような距離感制御を行うことで、例えばオーディオオブジェクトの音の音像を、再生スクリーンの手前側や奥側など、所望の位置に定位させることができる。
その他、例えばMPEG(Moving Picture Experts Group)-H 3D Audio規格においては、コンテンツ制作側の再生スクリーンサイズをメタ情報としてユーザ側、つまりコンテンツ再生側に送ることができる。
この場合、コンテンツ制作側の再生スクリーンの位置や大きさが、コンテンツ再生側の再生スクリーンのものとは異なるときに、コンテンツ再生側においてオーディオオブジェクトの位置情報を修正し、オーディオオブジェクトの音の音像を再生スクリーンの適切な位置に定位させることができる。そこで、本技術においても、例えば図5に示したスクリーンの位置や大きさ、配置位置等を示す設定パラメタを、オーディオオブジェクトのメタ情報とするようにしてもよい。
さらに、図7を参照して行った説明では、定位位置マークの位置を聴取者の前方にあるスクリーンSC11の手前側や奥側の位置、スクリーンSC11上の位置とする例について説明した。しかし、定位位置マークの位置は、聴取者の前方に限らず、聴取者の側方や後方、上方、下方など、スクリーンSC11外の任意の位置とすることができる。
例えば定位位置マークの位置を、聴取者から見てスクリーンSC11の枠の外側の位置とすれば、実際にコンテンツを再生したときに、オーディオオブジェクトの音の音像が、コンテンツの映像がある範囲外の位置に定位するようになる。
また、コンテンツの映像が表示されるスクリーンSC11が聴取位置Oから見て基準方向にある場合を例として説明した。しかし、スクリーンSC11は基準方向に限らず、基準方向を見ている聴取者から見て後方や上方、下方、左側方、右側方など、どのような方向に配置されてもよいし、聴取空間内に複数のスクリーンが配置されてもよい。
上述したようにコンテンツ制作ツールでは、POV画像P21の視線方向を任意の方向に変えることが可能である。換言すれば、聴取者が聴取位置Oを中心として周囲を見回すことができるようになっている。
したがって、コンテンツ制作者は、入力部21を操作して、基準方向を正面方向としたときの側方や後方などの任意の方向をPOV画像P21の視線方向として指定し、各方向の任意の位置に定位位置マークを配置することができる。
したがって、例えば図8に示すように、POV画像P21の視線方向をスクリーンSC11の右端よりも外側の方向に変化させ、その方向に新たなオーディオトラックの定位位置マークMK21を配置することが可能である。なお、図8において図6または図7における場合と対応する部分には同一の符号を付しており、その説明は適宜省略する。
図8の例では、新たなオーディオトラックとして、オーディオオブジェクトとしてのボーカルのオーディオデータが追加されており、その追加されたオーディオトラックに基づく音の音像定位位置を示す定位位置マークMK21が表示されている。
ここでは、定位位置マークMK21は、聴取者から見てスクリーンSC11外の位置に配置されている。そのため、コンテンツの再生時には、聴取者にはボーカルの音はコンテンツの映像では見えない位置から聞こえてくるように知覚される。
なお、基準方向を見ている聴取者から見て側方や後方の位置にスクリーンSC11を配置することが想定されている場合には、それらの側方や後方の位置にスクリーンSC11が配置され、そのスクリーンSC11上にコンテンツの映像が表示されるPOV画像が表示されることになる。この場合、各定位位置マークをスクリーンSC11上に配置すれば、コンテンツの再生時には、各オーディオオブジェクト(楽器)の音の音像が映像の位置に定位するようになる。
このようにコンテンツ制作ツールでは、スクリーンSC11上に定位位置マークを配置するだけで、コンテンツの映像に合わせた音像定位を容易に実現することができる。
さらに、図9に示すようにPOV画像P21や俯瞰画像P22上において、コンテンツの再生に用いるスピーカのレイアウト表示を行うようにしてもよい。なお、図9において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図9に示す例では、POV画像P21上において、聴取者の前方左側のスピーカSP11、聴取者の前方右側のスピーカSP12、および聴取者の前方上側のスピーカSP13を含む複数のスピーカが表示されている。同様に、俯瞰画像P22上においてもスピーカSP11乃至スピーカSP13を含む複数のスピーカが表示されている。
これらのスピーカは、コンテンツ制作者が想定している、コンテンツ再生時に用いられるスピーカシステムを構成する各チャンネルのスピーカとなっている。
コンテンツ制作者は、入力部21を操作することで、7.1チャンネルや22.2チャンネルなど、スピーカシステムのチャンネル構成を指定することで、指定したチャンネル構成のスピーカシステムの各スピーカをPOV画像P21上および俯瞰画像P22上に表示させることができる。すなわち、指定したチャンネル構成のスピーカレイアウトを聴取空間に重畳表示させることができる。
オブジェクトベースオーディオでは、VBAP手法により各オーディオオブジェクトの位置情報に基づいたレンダリングを行うことで、様々なスピーカレイアウトに対応することができる。
コンテンツ制作ツールでは、POV画像P21および俯瞰画像P22にスピーカを表示させることで、コンテンツ制作者は、それらのスピーカと、定位位置マーク、つまりオーディオオブジェクトと、コンテンツの映像の表示位置、つまりスクリーンSC11と、聴取位置Oとの位置関係を視覚的に容易に把握することができる。
したがって、コンテンツ制作者は、POV画像P21や俯瞰画像P22に表示されたスピーカを、オーディオオブジェクトの位置、つまり定位位置マークの位置を調整する際の補助情報として利用し、より適切な位置に定位位置マークを配置することができる。
例えば、コンテンツ制作者が商業用のコンテンツを制作するときには、コンテンツ制作者はリファレンスとして22.2チャンネルのようなスピーカが密に配置されたスピーカレイアウトを用いていることが多い。この場合、例えばコンテンツ制作者は、チャンネル構成として22.2チャンネルを選択し、各チャンネルのスピーカをPOV画像P21や俯瞰画像P22に表示させればよい。
これに対して、例えばコンテンツ制作者が一般ユーザである場合、コンテンツ制作者は7.1チャンネルのような、スピーカが粗に配置されたスピーカレイアウトを用いることが多い。この場合、例えばコンテンツ制作者は、チャンネル構成として7.1チャンネルを選択し、各チャンネルのスピーカをPOV画像P21や俯瞰画像P22に表示させればよい。
例えば7.1チャンネルのような、スピーカが粗に配置されたスピーカレイアウトが用いられる場合、オーディオオブジェクトの音の音像を定位させる位置によっては、その位置近傍にスピーカがなく、音像の定位がぼやけてしまうことがある。音像をはっきりと定位させるためには、定位位置マーク位置はスピーカの近傍に配置されることが好ましい。
上述したように、コンテンツ制作ツールではスピーカシステムのチャンネル構成として任意のものを選択し、選択したチャンネル構成のスピーカシステムの各スピーカをPOV画像P21や俯瞰画像P22に表示させることができるようになされている。
したがって、コンテンツ制作者は、自身が想定するスピーカレイアウトに合わせてPOV画像P21や俯瞰画像P22に表示させたスピーカを補助情報として用いて、定位位置マークをスピーカ近傍の位置など、より適切な位置に配置することができるようになる。すなわち、コンテンツ制作者は、オーディオオブジェクトの音像定位に対するスピーカレイアウトによる影響を視覚的に把握し、映像やスピーカとの位置関係を考慮しながら、定位位置マークの配置位置を適切に調整することができる。
さらに、コンテンツ制作ツールでは、各オーディオトラックについて、オーディオトラック(オーディオデータ)の再生時刻ごとに定位位置マークを指定することができる。
例えば図10に示すように、所定の再生時刻t1と、その後の再生時刻t2とで定位位置マークMK12の位置が、エレキギターの演奏者PL12の移動に合わせて変化したとする。なお、図10において図6における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
図10では、演奏者PL12’および定位位置マークMK12’は、再生時刻t2における演奏者PL12および定位位置マークMK12を表している。
例えばコンテンツの映像上において、所定の再生時刻t1ではエレキギターの演奏者PL12が矢印Q11に示す位置におり、コンテンツ制作者が演奏者PL12と同じ位置に定位位置マークMK12を配置したとする。
また、再生時刻t1後の再生時刻t2では、コンテンツの映像上においてエレキギターの演奏者PL12が矢印Q12に示す位置に移動しており、再生時刻t2ではコンテンツ制作者が演奏者PL12’と同じ位置に定位位置マークMK12’を配置したとする。
ここで、再生時刻t1と再生時刻t2との間の他の再生時刻については、コンテンツ制作者は、特に定位位置マークMK12の位置を指定しなかったとする。
このような場合、定位位置決定部41は、補間処理を行って、再生時刻t1と再生時刻t2との間の他の再生時刻における定位位置マークMK12の位置を決定する。
補間処理時には、例えば再生時刻t1における定位位置マークMK12の位置を示す位置情報と、再生時刻t2における定位位置マークMK12’の位置を示す位置情報とに基づいて、位置情報としての水平角度、垂直角度、および半径の3つの成分ごとに線形補間により対象となる再生時刻の定位位置マークMK12の位置を示す位置情報の各成分の値が求められる。
なお、上述したように、位置情報が3次元直交座標系の座標により表される場合においても、位置情報が極座標で表される場合と同様に、x座標、y座標、およびz座標などの座標成分ごとに線形補間が行われる。
このようにして再生時刻t1と再生時刻t2との間の他の再生時刻における定位位置マークMK12の位置情報を補間処理により求めると、コンテンツ再生時には、映像上におけるエレキギターの演奏者PL12の位置の移動に合わせて、エレキギターの音、つまりオーディオオブジェクトの音の音像の定位位置も移動していくことになる。これにより、滑らかに音像位置が移動していく違和感のない自然なコンテンツを得ることができる。
〈定位位置決定処理の説明〉
次に、図6乃至図10を参照して説明したように、本技術をオブジェクトベースオーディオに適用した場合における信号処理装置11の動作について説明する。すなわち、以下、図11のフローチャートを参照して、信号処理装置11による定位位置決定処理について説明する。
ステップS41において、制御部23は再生環境の設定を行う。
例えばコンテンツ制作ツールが起動されると、コンテンツ制作者は入力部21を操作して、図5に示した設定パラメタを指定する。すると、制御部23は、コンテンツ制作者の操作に応じて入力部21から供給された信号に基づいて、設定パラメタを決定する。
これにより、例えば聴取空間の大きさや、聴取空間内における聴取位置、コンテンツの映像が表示されるスクリーンのサイズやアスペクト比、聴取空間におけるスクリーンの配置位置などが決定される。
ステップS42において、表示制御部43は、ステップS41で決定された設定パラメタ、およびコンテンツの映像の画像データに基づいて表示部24を制御し、表示部24にPOV画像を含む表示画面を表示させる。
これにより、例えば図6に示したPOV画像P21および俯瞰画像P22を含むウィンドウWD11が表示される。
このとき、表示制御部43は、ステップS41で設定された設定パラメタに従って、POV画像P21および俯瞰画像P22における聴取空間(部屋)の壁等を描画したり、設定パラメタにより定まる位置に、設定パラメタにより定まる大きさのスクリーンSC11を表示させたりする。また、表示制御部43は、スクリーンSC11の位置にコンテンツの映像を表示させる。
さらにコンテンツ制作ツールでは、POV画像および俯瞰画像にスピーカシステムを構成するスピーカ、より詳細にはスピーカを模した画像を表示させるか否かや、スピーカを表示させる場合におけるスピーカシステムのチャンネル構成を選択することができる。コンテンツ制作者は、必要に応じて入力部21を操作し、スピーカを表示させるか否かを指示したり、スピーカシステムのチャンネル構成を選択したりする。
ステップS43において、制御部23は、コンテンツ制作者の操作に応じて入力部21から供給された信号等に基づいて、POV画像および俯瞰画像にスピーカを表示させるか否かを判定する。
ステップS43において、スピーカを表示させないと判定された場合、ステップS44の処理は行われず、その後、処理はステップS45へと進む。
これに対して、ステップS43においてスピーカを表示させると判定された場合、その後、処理はステップS44へと進む。
ステップS44において、表示制御部43は表示部24を制御して、コンテンツ制作者により選択されたチャンネル構成のスピーカシステムの各スピーカを、そのチャンネル構成のスピーカレイアウトでPOV画像上および俯瞰画像上に表示させる。これにより、例えば図9に示したスピーカSP11やスピーカSP12がPOV画像P21および俯瞰画像P22に表示される。
ステップS44の処理によりスピーカが表示されたか、またはステップS43においてスピーカを表示させないと判定されると、ステップS45において、定位位置決定部41は、入力部21から供給された信号に基づいて、音像の定位位置の調整を行うオーディオトラックを選択する。
例えばステップS45では、図4のステップS12と同様の処理が行われ、所望のオーディオトラックにおける所定の再生時刻が、音像定位の調整対象として選択される。
音像定位の調整対象を選択すると、続いてコンテンツ制作者は入力部21を操作することで、聴取空間内における定位位置マークの配置位置を任意の位置に移動させて、その定位位置マークに対応するオーディオトラックの音の音像定位位置を指定する。
このとき、表示制御部43は、コンテンツ制作者の入力操作に応じて入力部21から供給された信号に基づいて表示部24を制御し、定位位置マークの表示位置を移動させる。
ステップS46において、定位位置決定部41は、入力部21から供給された信号に基づいて、調整対象のオーディオトラックの音の音像の定位位置を決定する。
すなわち、定位位置決定部41は、聴取空間上における聴取位置から見た定位位置マークの位置を示す情報(信号)を入力部21から取得し、取得した情報により示される位置を音像の定位位置とする。
ステップS47において、定位位置決定部41は、ステップS46の決定結果に基づいて、調整対象のオーディオトラックの音の音像の定位位置を示す位置情報を生成する。例えば位置情報は、聴取位置を基準とする極座標により表される情報などとされる。
このようにして生成された位置情報は、調整対象のオーディオトラックに対応するオーディオオブジェクトの位置を示す位置情報とされる。つまり、ステップS47で得られた位置情報は、オーディオオブジェクトのメタ情報とされる。
なお、メタ情報としての位置情報は、上述したように極座標、すなわち水平角度、垂直角度、および半径であってもよいし、直交座標であってもよい。その他、ステップS41で設定された、スクリーンの位置や大きさ、配置位置等を示す設定パラメタもオーディオオブジェクトのメタ情報とされてもよい。
ステップS48において、制御部23は、音像の定位位置の調整を終了するか否かを判定する。例えばステップS48では、図4のステップS15における場合と同様の判定処理が行われる。
ステップS48において、まだ音像の定位位置の調整を終了しないと判定された場合、処理はステップS45に戻り、上述した処理が繰り返し行われる。すなわち、新たに選択されたオーディオトラックについて音像の定位位置の調整が行われる。なお、この場合、スピーカを表示させるか否かの設定が変更された場合には、その変更に応じてスピーカが表示されたり、スピーカが表示されないようにされたりする。
これに対して、ステップS48において音像の定位位置の調整を終了すると判定された場合、処理はステップS49へと進む。
ステップS49において、定位位置決定部41は各オーディオトラックについて適宜、補間処理を行い、音像の定位位置が指定されていない再生時刻について、その再生時刻における音像の定位位置を求める。
例えば図10を参照して説明したように、所定のオーディオトラックについて、再生時刻t1と再生時刻t2の定位位置マークの位置がコンテンツ制作者により指定されたが、それらの再生時刻の間の他の再生時刻については定位位置マークの位置が指定されなかったとする。この場合、ステップS47の処理によって、再生時刻t1と再生時刻t2については位置情報が生成されているが、再生時刻t1と再生時刻t2の間の他の再生時刻については位置情報が生成されていない状態となっている。
そこで、定位位置決定部41は、所定のオーディオトラックについて、再生時刻t1における位置情報と、再生時刻t2における位置情報とに基づいて線形補間等の補間処理を行い、他の再生時刻における位置情報を生成する。オーディオトラックごとにこのような補間処理を行うことで、全てのオーディオトラックの全ての再生時刻について位置情報が得られることになる。なお、図4を参照して説明した定位位置決定処理においても、ステップS49と同様の補間処理が行われ、指定されていない再生時刻の位置情報が求められてもよい。
ステップS50において、制御部23は、各オーディオオブジェクトの位置情報に基づく出力ビットストリーム、すなわちステップS47やステップS49の処理で得られた位置情報に基づく出力ビットストリームを出力し、定位位置決定処理は終了する。
例えばステップS50では、制御部23はオーディオオブジェクトのメタ情報として得られた位置情報と、各オーディオトラックとに基づいてVBAP手法によりレンダリングを行い、所定のチャンネル構成の各チャンネルのオーディオデータを生成する。
そして、制御部23は、得られたオーディオデータを含む出力ビットストリームを出力する。ここで、出力ビットストリームにはコンテンツの映像の画像データなどが含まれていてもよい。
図4を参照して説明した定位位置決定処理における場合と同様に、出力ビットストリームの出力先は、記録部22やスピーカ部26、外部の装置など、任意の出力先とすることができる。
すなわち、例えばコンテンツのオーディオデータと画像データからなる出力ビットストリームが記録部22やリムーバブル記録媒体等に供給されて記録されてもよいし、出力ビットストリームとしてのオーディオデータがスピーカ部26に供給されてコンテンツの音が再生されてもよい。
また、レンダリング処理は行われず、ステップS47やステップS49で得られた位置情報をオーディオオブジェクトの位置を示すメタ情報として、コンテンツのオーディオデータ、画像データ、およびメタ情報のうちの少なくともオーディオデータを含む出力ビットストリームが生成されてもよい。
このとき、オーディオデータや画像データ、メタ情報が適宜、制御部23によって所定の符号化方式により符号化され、符号化されたオーディオデータや画像データ、メタ情報が含まれる符号化ビットストリームが出力ビットストリームとして生成されてもよい。
特に、この出力ビットストリームは、記録部22等に供給されて記録されるようにしてもよいし、通信部25に供給されて、通信部25により出力ビットストリームが外部の装置に送信されるようにしてもよい。
以上のようにして信号処理装置11は、POV画像を表示させるとともに、コンテンツ制作者の操作に応じて定位位置マークを移動させ、その定位位置マークの表示位置に基づいて、音像の定位位置を決定する。
このようにすることで、コンテンツ制作者は、POV画像を見ながら定位位置マークを所望の位置に移動させるという操作を行うだけで、適切な音像の定位位置を容易に決定(指定)することができる。
以上のように、本技術によれば左右2チャンネルのオーディオコンテンツや、特に3次元空間の音像定位をターゲットするオブジェクトベースオーディオのコンテンツについて、コンテンツ制作ツールにおいて、例えば映像上の特定位置に音像が定位するようなパニングやオーディオオブジェクトの位置情報を容易に設定することができる。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図12は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、
前記定位位置に関する情報に基づいてビットストリームを生成する生成部と
を備える信号処理装置。
(2)
前記生成部は、前記定位位置に関する情報を前記オーディオオブジェクトのメタ情報として前記ビットストリームを生成する
(1)に記載の信号処理装置。
(3)
前記ビットストリームには、前記オーディオオブジェクトのオーディオデータおよび前記メタ情報が含まれている
(2)に記載の信号処理装置。
(4)
前記定位位置に関する情報は、前記聴取空間における前記定位位置を示す位置情報である
(1)乃至(3)の何れか一項に記載の信号処理装置。
(5)
前記位置情報には、前記聴取位置から前記定位位置までの距離を示す情報が含まれている
(4)に記載の信号処理装置。
(6)
前記定位位置は、前記聴取空間に配置された映像を表示するスクリーン上の位置である
(4)または(5)に記載の信号処理装置。
(7)
前記取得部は、第1の時刻における前記位置情報と、第2の時刻における前記位置情報とに基づいて、前記第1の時刻と前記第2の時刻との間の第3の時刻における前記位置情報を補間処理により求める
(4)乃至(6)の何れか一項に記載の信号処理装置。
(8)
前記聴取位置または前記聴取位置近傍の位置から見た前記聴取空間の画像の表示を制御する表示制御部をさらに備える
(1)乃至(7)の何れか一項に記載の信号処理装置。
(9)
前記表示制御部は、前記画像上に所定のチャンネル構成のスピーカシステムの各スピーカを、前記所定のチャンネル構成のスピーカレイアウトで表示させる
(8)に記載の信号処理装置。
(10)
前記表示制御部は、前記画像上に前記定位位置を示す定位位置マークを表示させる
(8)または(9)に記載の信号処理装置。
(11)
前記表示制御部は、入力操作に応じて、前記定位位置マークの表示位置を移動させる
(10)に記載の信号処理装置。
(12)
前記表示制御部は、前記聴取空間に配置された、前記オーディオオブジェクトに対応する被写体を含む映像が表示されたスクリーンを前記画像上に表示させる
(8)乃至(11)の何れか一項に記載の信号処理装置。
(13)
前記画像はPOV画像である
(8)乃至(12)の何れか一項に記載の信号処理装置。
(14)
信号処理装置が、
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
信号処理方法。
(15)
聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
前記定位位置に関する情報に基づいてビットストリームを生成する
ステップを含む処理をコンピュータに実行させるプログラム。
11 信号処理装置, 21 入力部, 23 制御部, 24 表示部, 25 通信部, 26 スピーカ部, 41 定位位置決定部, 42 ゲイン算出部, 43 表示制御部

Claims (15)

  1. 聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得する取得部と、
    前記定位位置に関する情報に基づいてビットストリームを生成する生成部と
    を備える信号処理装置。
  2. 前記生成部は、前記定位位置に関する情報を前記オーディオオブジェクトのメタ情報として前記ビットストリームを生成する
    請求項1に記載の信号処理装置。
  3. 前記ビットストリームには、前記オーディオオブジェクトのオーディオデータおよび前記メタ情報が含まれている
    請求項2に記載の信号処理装置。
  4. 前記定位位置に関する情報は、前記聴取空間における前記定位位置を示す位置情報である
    請求項1に記載の信号処理装置。
  5. 前記位置情報には、前記聴取位置から前記定位位置までの距離を示す情報が含まれている
    請求項4に記載の信号処理装置。
  6. 前記定位位置は、前記聴取空間に配置された映像を表示するスクリーン上の位置である
    請求項4に記載の信号処理装置。
  7. 前記取得部は、第1の時刻における前記位置情報と、第2の時刻における前記位置情報とに基づいて、前記第1の時刻と前記第2の時刻との間の第3の時刻における前記位置情報を補間処理により求める
    請求項4に記載の信号処理装置。
  8. 前記聴取位置または前記聴取位置近傍の位置から見た前記聴取空間の画像の表示を制御する表示制御部をさらに備える
    請求項1に記載の信号処理装置。
  9. 前記表示制御部は、前記画像上に所定のチャンネル構成のスピーカシステムの各スピーカを、前記所定のチャンネル構成のスピーカレイアウトで表示させる
    請求項8に記載の信号処理装置。
  10. 前記表示制御部は、前記画像上に前記定位位置を示す定位位置マークを表示させる
    請求項8に記載の信号処理装置。
  11. 前記表示制御部は、入力操作に応じて、前記定位位置マークの表示位置を移動させる
    請求項10に記載の信号処理装置。
  12. 前記表示制御部は、前記聴取空間に配置された、前記オーディオオブジェクトに対応する被写体を含む映像が表示されたスクリーンを前記画像上に表示させる
    請求項8に記載の信号処理装置。
  13. 前記画像はPOV画像である
    請求項8に記載の信号処理装置。
  14. 信号処理装置が、
    聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
    前記定位位置に関する情報に基づいてビットストリームを生成する
    信号処理方法。
  15. 聴取位置から見た聴取空間が表示されている状態で指定された前記聴取空間内のオーディオオブジェクトの音像の定位位置に関する情報を取得し、
    前記定位位置に関する情報に基づいてビットストリームを生成する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2019553801A 2017-11-14 2018-10-31 信号処理装置および方法、並びにプログラム Active JP7192786B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017219450 2017-11-14
JP2017219450 2017-11-14
PCT/JP2018/040425 WO2019098022A1 (ja) 2017-11-14 2018-10-31 信号処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2019098022A1 true JPWO2019098022A1 (ja) 2020-11-19
JP7192786B2 JP7192786B2 (ja) 2022-12-20

Family

ID=66540230

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019553801A Active JP7192786B2 (ja) 2017-11-14 2018-10-31 信号処理装置および方法、並びにプログラム

Country Status (7)

Country Link
US (2) US11722832B2 (ja)
EP (1) EP3713255A4 (ja)
JP (1) JP7192786B2 (ja)
KR (1) KR102548644B1 (ja)
CN (2) CN111316671B (ja)
RU (1) RU2020114250A (ja)
WO (1) WO2019098022A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11366879B2 (en) * 2019-07-08 2022-06-21 Microsoft Technology Licensing, Llc Server-side audio rendering licensing
CN113194384A (zh) * 2020-12-28 2021-07-30 汉桑(南京)科技有限公司 一种音响参数确定方法和系统
US11895466B2 (en) 2020-12-28 2024-02-06 Hansong (Nanjing) Technology Ltd. Methods and systems for determining parameters of audio devices
CN117044242A (zh) * 2021-03-29 2023-11-10 索尼集团公司 信息处理装置、信息处理系统、信息处理方法和程序
US20220400352A1 (en) * 2021-06-11 2022-12-15 Sound Particles S.A. System and method for 3d sound placement

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08181962A (ja) * 1994-12-22 1996-07-12 Hitachi Ltd 音像定位方法および音像定位制御装置およびテレビ会議システム
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体
JP2016096420A (ja) * 2014-11-13 2016-05-26 ヤマハ株式会社 音像定位制御装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5812688A (en) * 1992-04-27 1998-09-22 Gibson; David A. Method and apparatus for using visual images to mix sound
US6829018B2 (en) 2001-09-17 2004-12-07 Koninklijke Philips Electronics N.V. Three-dimensional sound creation assisted by visual information
JP2005286903A (ja) * 2004-03-30 2005-10-13 Pioneer Electronic Corp 音響再生装置、音響再生システム、音響再生方法及び制御プログラム並びにこのプログラムを記録した情報記録媒体
CN101065990A (zh) 2004-09-16 2007-10-31 松下电器产业株式会社 声像定位装置
CN101689370B (zh) * 2007-07-09 2012-08-22 日本电气株式会社 音频分组接收器、音频分组接收方法
JP2010182287A (ja) * 2008-07-17 2010-08-19 Steven C Kays 適応型インテリジェント・デザイン
CN102461212B (zh) 2009-06-05 2015-04-15 皇家飞利浦电子股份有限公司 环绕声系统及用于其的方法
KR101844511B1 (ko) 2010-03-19 2018-05-18 삼성전자주식회사 입체 음향 재생 방법 및 장치
US8665321B2 (en) * 2010-06-08 2014-03-04 Lg Electronics Inc. Image display apparatus and method for operating the same
US8774955B2 (en) * 2011-04-13 2014-07-08 Google Inc. Audio control of multimedia objects
WO2014085610A1 (en) 2012-11-29 2014-06-05 Stephen Chase Video headphones, system, platform, methods, apparatuses and media
CA2898885C (en) * 2013-03-28 2016-05-10 Dolby Laboratories Licensing Corporation Rendering of audio objects with apparent size to arbitrary loudspeaker layouts
TWI634798B (zh) * 2013-05-31 2018-09-01 新力股份有限公司 Audio signal output device and method, encoding device and method, decoding device and method, and program
CN109996166B (zh) * 2014-01-16 2021-03-23 索尼公司 声音处理装置和方法、以及程序
ES2916342T3 (es) * 2016-01-19 2022-06-30 Sphereo Sound Ltd Síntesis de señales para la reproducción de audio inmersiva
JP7231412B2 (ja) * 2017-02-09 2023-03-01 ソニーグループ株式会社 情報処理装置および情報処理方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08181962A (ja) * 1994-12-22 1996-07-12 Hitachi Ltd 音像定位方法および音像定位制御装置およびテレビ会議システム
JP2009278381A (ja) * 2008-05-14 2009-11-26 Nippon Hoso Kyokai <Nhk> 音像定位音響メタ情報を付加した音響信号多重伝送システム、制作装置及び再生装置
JP2014011509A (ja) * 2012-06-27 2014-01-20 Sharp Corp 音声出力制御装置、音声出力制御方法、プログラム及び記録媒体
JP2016096420A (ja) * 2014-11-13 2016-05-26 ヤマハ株式会社 音像定位制御装置

Also Published As

Publication number Publication date
KR20200087130A (ko) 2020-07-20
CN111316671A (zh) 2020-06-19
RU2020114250A (ru) 2021-10-21
US20210176581A1 (en) 2021-06-10
KR102548644B1 (ko) 2023-06-28
CN111316671B (zh) 2021-10-22
CN113891233A (zh) 2022-01-04
EP3713255A4 (en) 2021-01-20
RU2020114250A3 (ja) 2022-03-14
JP7192786B2 (ja) 2022-12-20
CN113891233B (zh) 2024-04-09
EP3713255A1 (en) 2020-09-23
WO2019098022A1 (ja) 2019-05-23
US11722832B2 (en) 2023-08-08
US20230336935A1 (en) 2023-10-19

Similar Documents

Publication Publication Date Title
JP7192786B2 (ja) 信号処理装置および方法、並びにプログラム
US9967693B1 (en) Advanced binaural sound imaging
KR20150018645A (ko) 향상된 3d 오디오 오서링과 렌더링을 위한 시스템 및 툴들
JP7504140B2 (ja) 音響処理装置および方法、並びにプログラム
JP7536735B2 (ja) ユーザカスタム型臨場感を実現するためのオーディオコンテンツを製作するコンピュータシステムおよびその方法
CN111512648A (zh) 启用空间音频内容的渲染以用于由用户消费
US20240073639A1 (en) Information processing apparatus and method, and program
JP2024120097A (ja) 情報処理装置および方法、再生装置および方法、並びにプログラム
US10708679B2 (en) Distributed audio capture and mixing
KR102058228B1 (ko) 입체 음향 컨텐츠 저작 방법 및 이를 위한 어플리케이션
Grigoriou et al. Binaural mixing using gestural control interaction
WO2024161992A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
KR20190081163A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션
Sunder et al. Personalized Spatial Audio Tools for Immersive Audio Production and Rendering
Mušanovic et al. 3D sound for digital cultural heritage
KR20190082056A (ko) 입체 음향 컨텐츠 저작 툴을 이용한 선택적 광고 제공 방법 및 이를 위한 어플리케이션

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210913

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220809

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221108

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221121

R151 Written notification of patent or utility model registration

Ref document number: 7192786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151