JPWO2020066681A1 - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2020066681A1
JPWO2020066681A1 JP2020548454A JP2020548454A JPWO2020066681A1 JP WO2020066681 A1 JPWO2020066681 A1 JP WO2020066681A1 JP 2020548454 A JP2020548454 A JP 2020548454A JP 2020548454 A JP2020548454 A JP 2020548454A JP WO2020066681 A1 JPWO2020066681 A1 JP WO2020066681A1
Authority
JP
Japan
Prior art keywords
information
metadata
information processing
processing device
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020548454A
Other languages
English (en)
Other versions
JP7363795B2 (ja
Inventor
優樹 山本
優樹 山本
徹 知念
徹 知念
辻 実
実 辻
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Sony Group Corp
Original Assignee
Sony Corp
Sony Group Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp, Sony Group Corp filed Critical Sony Corp
Publication of JPWO2020066681A1 publication Critical patent/JPWO2020066681A1/ja
Application granted granted Critical
Publication of JP7363795B2 publication Critical patent/JP7363795B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • H04S7/305Electronic adaptation of stereophonic audio signals to reverberation of the listening space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/11Positioning of individual sound objects, e.g. moving airplane, within a sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stereophonic System (AREA)

Abstract

本技術は、簡単に3D Audioコンテンツを制作することができるようにする情報処理装置および方法、並びにプログラムに関する。
情報処理装置は、オブジェクトのメタデータを構成する1または複数のパラメタを、オブジェクトの1または複数の属性情報に基づいて決定する決定部を備える。本技術は情報処理装置に適用することができる。

Description

本技術は、情報処理装置および方法、並びにプログラムに関し、特に、簡単に3D Audioコンテンツを制作することができるようにした情報処理装置および方法、並びにプログラムに関する。
従来、MPEG(Moving Picture Experts Group)-H 3D Audio規格が知られている(例えば、非特許文献1および非特許文献2参照)。
MPEG-H 3D Audio規格等で扱われる3D Audioでは、3次元的な音の方向や距離、拡がりなどを再現することができ、従来のステレオ再生に比べ、より臨場感のあるオーディオ再生が可能となる。
ISO/IEC 23008-3, MPEG-H 3D Audio ISO/IEC 23008-3:2015/AMENDMENT3, MPEG-H 3D Audio Phase 2
しかしながら3D Audioでは、コンテンツ(3D Audioコンテンツ)の制作の時間的なコストが高くなってしまう。
例えば3D Audioでは、ステレオと比較してオブジェクトの位置情報、すなわち音源の位置情報の次元数が高い(3D Audioは3次元でステレオは2次元)。そのため、3D Audioでは、特にオブジェクトの位置を示す水平角度や垂直角度、距離、オブジェクトについてのゲインなどといったオブジェクトごとのメタデータを構成するパラメタを決定する作業において、時間的なコストが高くなってしまう。
また、3D Audioコンテンツはステレオコンテンツに比べて、コンテンツと制作者の両面で圧倒的に数が少ない。それゆえ、品質の高い3D Audioコンテンツが少ないのが現状である。
以上のようなことから、より簡単に、すなわち短時間で十分な品質の3D Audioコンテンツを制作できるようにすることが望まれている。
本技術は、このような状況に鑑みてなされたものであり、簡単に3D Audioコンテンツを制作することができるようにするものである。
本技術の一側面の情報処理装置は、オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する決定部を備える。
本技術の一側面の情報処理方法またはプログラムは、オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定するステップを含む。
本技術の一側面においては、オブジェクトのメタデータを構成する1または複数のパラメタが、前記オブジェクトの1または複数の属性情報に基づいて決定される。
決定木によるメタデータの決定について説明する図である。 メタデータの分布調整について説明する図である。 メタデータの分布調整について説明する図である。 情報処理装置の構成例を示す図である。 メタデータ決定処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
以下、図面を参照して、本技術を適用した実施の形態について説明する。
〈第1の実施の形態〉
〈本技術について〉
本技術はオブジェクトごとにメタデータ、より詳細にはメタデータを構成する1または複数のパラメタを決定することで、より簡単に、すなわち短時間で十分に高い品質の3D Audioコンテンツを制作できるようにするものである。
特に、本技術は以下の特徴(F1)乃至特徴(F5)を有している。
特徴(F1):オブジェクトごとに付与される情報からメタデータを決定する
特徴(F2):オブジェクトごとのオーディオ信号からメタデータを決定する
特徴(F3):その他の情報からメタデータを決定する
特徴(F4):所望の分布になるようにメタデータを修正する
特徴(F5):メタデータの決定パターンが複数である
本技術では、オブジェクトのメタデータを以下に示す情報から決定することで、品質の高い3D Audioコンテンツを短時間で制作できるようになる。これにより、品質の高い3D Audioコンテンツや、3D Audioコンテンツの制作者がより多くなることが期待される。
以下、オブジェクトのメタデータの自動算出(自動決定)に用いる情報ごとに、オブジェクトのメタデータの決定の具体的な例について説明する。
なお、本技術においては、オブジェクトは、オーディオオブジェクトや画像オブジェクトなど、位置情報やゲインなどのパラメタをメタデータとしてもつものであれば、どのようなものであってもよい。
例えば本技術は、空間内における3Dモデル等の画像オブジェクトの位置を示すパラメタをメタデータとして、画像オブジェクトの属性を示す属性情報に基づいて、その画像オブジェクトのメタデータを決定する場合などにも適用可能である。なお、画像オブジェクトの属性情報は、画像オブジェクトの種類(種別)や優先度などとすることができる。
以下では、オブジェクトがオーディオオブジェクトである場合を例として説明を行う。
オブジェクトがオーディオオブジェクトである場合、メタデータはオブジェクトのオーディオ信号に基づく音の再生のための処理、より詳細にはオブジェクトのレンダリング処理に用いる1または複数のパラメタ(情報)により構成される。
具体的には、メタデータは、例えば3次元空間内におけるオブジェクトの位置を示す位置情報を構成する水平角度、垂直角度、および距離、並びにオブジェクトのオーディオ信号のゲインからなる。なお、以下では、メタデータが水平角度、垂直角度、距離、およびゲインの合計4個のパラメタからなる例について説明するが、メタデータのパラメタは1以上であれば、いくつであってもよい。
水平角度とは、ユーザの位置などの所定の基準位置から見たオブジェクトの水平方向の位置を示す角度であり、垂直角度とは、基準位置から見たオブジェクトの垂直方向の位置を示す角度である。また、位置情報を構成する距離とは、基準位置からオブジェクトまでの距離である。
(オブジェクトごとに付与される情報からの決定)
まず、オブジェクトごとに付与される情報からメタデータ、より詳細にはメタデータのパラメタを決定する方法について説明する。
オブジェクトのメタデータは、楽器情報や音響効果情報、優先度情報など、オブジェクトの属性に関する情報に基づいて決定されることが多い。但し、これらの楽器情報等に応じたメタデータの決定ルールは、3D Audioコンテンツの制作者により異なる。
楽器情報とは、例えばボーカル「vocal」、ドラム「drums」、ベース「bass」、ギター「guitar」、ピアノ「piano」など、オブジェクト(音源)がどのような種別のものであるかを示す情報、つまり音源種別を示す情報である。より具体的には、楽器情報とは楽器や音声パート、男性や女性等の音声の性別などのオブジェクトの種別、つまり音源となるオブジェクト自体の属性を示す情報である。
例えば、ある制作者の場合、楽器情報が「vocal」であるオブジェクトについては、メタデータを構成する水平角度が0度(0°)とされることが多く、またゲインが1.0よりも大きな値とされる傾向がある。また、例えば、ある制作者の場合、楽器情報が「bass」であるオブジェクトについてはメタデータを構成する垂直角度が負の値とされることが多い。
このように3D Audioコンテンツの制作者個人で、楽器情報に対してメタデータを構成するパラメタの値や、メタデータを構成するパラメタの値のとり得る範囲がある程度決まっていることがある。そのような場合には、楽器情報からオブジェクトのメタデータを決定することが可能である。
また、音響効果情報とは、オブジェクトのオーディオ信号に付加された、つまりオーディオ信号に施されたエフェクト等の音響効果を示す情報である。換言すれば、音響効果情報はオブジェクトの音響効果に関する属性を示す情報である。特に、ここでは音響効果を示す音響効果情報のうち、音響効果としての残響効果、すなわち残響特性を示すものを残響情報とし、残響効果以外の音響効果を示すものを音響情報とする。
残響情報とは、例えばドライ「dry」、ショートリバーブ「short reverb」、ロングリバーブ「long reverb」など、オブジェクトのオーディオ信号に付加(付与)する残響効果、すなわちオーディオ信号の残響特性を示す情報である。なお、例えばドライ「dry」は、オーディオ信号に対して残響効果が施されていないことを示している。
例えば、ある制作者の場合、残響情報が「dry」であるオブジェクトについては、メタデータを構成する水平角度が-90度から90度までの範囲内の値とされることが多く、残響情報が「long reverb」であるオブジェクトについては、メタデータを構成する垂直角度が正の値とされることが多い。
このように残響情報についても楽器情報と同様に、制作者ごとに、残響情報に対してメタデータのパラメタの値や、メタデータのパラメタの値のとり得る範囲がある程度決まっていることがある。そのため、残響情報を用いてもメタデータを決定することが可能である。
さらに音響情報とは、例えばナチュラル「natural」やディストーション「dist」など、オブジェクトのオーディオ信号に付加(付与)する残響以外の音響効果を示す情報である。なお、ナチュラル「natural」は、特にオーディオ信号に対してエフェクトが施されていないことを示している。
例えば、ある制作者の場合、音響情報が「natural」であるオブジェクトについては、メタデータを構成する水平角度が-90度から90度までの範囲内の値とされることが多く、音響情報が「dist」であるオブジェクトについては、メタデータを構成する垂直角度が正の値とされることが多い。したがって、音響情報を用いてもメタデータを決定することが可能である。
さらに、優先度情報とはオブジェクトの優先度を示す情報である。例えば優先度情報は、0から7までの何れかの値とされ、その値が大きいほど優先度が高いオブジェクトであることを示しているなどとされる。このような優先度もオブジェクトの属性を示す情報であるといえる。
例えば、ある制作者の場合、優先度情報の値が6未満であるオブジェクトについては、メタデータを構成する水平角度が-30度から30度までの範囲外の値とされることが多く、優先度情報の値が6以上でないと垂直角度が0度未満とされにくい傾向がある。したがって、優先度情報を用いてもメタデータを決定することが可能である。
このように楽器情報や残響情報、音響情報、優先度情報を用いれば、制作者ごとにオブジェクトのメタデータを決定することが可能である。
これに加えて、オブジェクトがあるスピーカ配置、すなわちあるチャネル構成を前提に収録されたものである場合、そのオブジェクトのチャネル情報に基づきメタデータが決定されることも多い。
ここで、チャネル情報とは、例えばステレオ(stereo)のL,Rや、5.1チャネル(5.1ch)のC,L,R,Ls,Rsなど、オブジェクトのオーディオ信号の供給先となるスピーカに対応するチャネル、つまりオブジェクトのチャネルに関する属性を示す情報である。
例えば、ある制作者の場合、チャネル情報が「ステレオのR」であるRチャネルのオブジェクトと、チャネル情報が「ステレオのL」であるLチャネルのオブジェクトについては、LチャネルとRチャネルでメタデータを構成する水平角度は正負反転の関係であり、垂直角度は同一の角度とされることが多い。
また、例えばチャネル情報が「5.1チャネルのLs」であるLsチャネルのオブジェクトと、チャネル情報が「5.1チャネルのRs」であるRsチャネルのオブジェクトについては、LsチャネルとRsチャネルでメタデータを構成する水平角度は正負反転の関係であり、垂直角度は同一の角度とされることが多い。
これらのことから、チャネル情報を用いてもメタデータを決定することが可能であることが分かる。
本技術では楽器情報、残響情報、音響情報、優先度情報、およびチャネル情報の少なくとも何れか1つに基づいて各オブジェクトのメタデータ、より詳細にはメタデータを構成するパラメタの決定が行われる。
具体的には本技術では、メタデータの決定は、例えば教師あり学習手法である決定木を用いて行われる。
決定木では、予め複数の3D Audioコンテンツについて収集した、オブジェクトごとの楽器情報、残響情報、音響情報、優先度情報、およびチャネル情報と、メタデータのパラメタの値とが学習用のデータ(学習データ)とされる。
そして楽器情報、残響情報、音響情報、優先度情報、およびチャネル情報を入力とし、メタデータを出力とする決定木モデルの学習が行われる。このようにして得られた決定木モデルを用いれば、各オブジェクトのメタデータを簡単に決定(予測)することができる。
ここで、メタデータを構成する水平角度と垂直角度を決定する決定木の例を図1に示す。
図1に示す例では、決定木においてオブジェクトのそれぞれについて、まず楽器情報が「vocal」であるか否かが判定される。
楽器情報が「vocal」であると判定された場合、次に「残響情報」が「dry」であるか否かが判定される。このとき、「残響情報」が「dry」であると判定された場合には、オブジェクトの水平角度は0度であり、垂直角度は0度であると決定され、決定木の処理は終了する。
一方、残響情報が「dry」でないと判定された場合、残響情報が「long reverb」であるか否かが判定される。そして、残響情報が「long reverb」であると判定された場合には、オブジェクトの水平角度は0度であり、垂直角度は30度であると決定され、決定木の処理は終了する。
このように決定木では楽器情報や残響情報、音響情報、優先度情報、チャネル情報といった各情報に基づく判定の結果に応じて、その決定木の終端まで連続的に判定が行われていき、最終的な水平角度と垂直角度が決定される。
このような決定木を用いれば、楽器情報や残響情報、音響情報、優先度情報、チャネル情報などのオブジェクトごとに付与される情報から、オブジェクトごとにメタデータを構成する水平角度と垂直角度を決定することが可能である。
なお、メタデータの決定手法は決定木に限らず、線形決定、サポートベクタマシン、ニューラルネットワークなど、他の教師あり学習手法であってもよい。
(オブジェクトごとのオーディオ信号からの決定)
続いて、各オブジェクトのオーディオ信号からメタデータを決定する方法について説明する。
例えばオブジェクトのメタデータは、そのオブジェクトのオーディオ信号から得られる音圧(音圧情報)や音の高さ(音高情報)などの情報に基づいて決定されることもある。これらの音圧や音の高さ(音高)などの情報は、オブジェクトの音の特徴を表すものであるから、オブジェクトの属性を示す情報であるともいうことができる。
具体的には、例えば、ある制作者の場合、オーディオ信号の音圧が高いほどメタデータを構成する垂直角度は0度に近い値とされ、また音圧が高いほどメタデータを構成するゲインは1.0未満の値とされることが多い。
さらに、例えば、ある制作者の場合、オーディオ信号が低音の信号であるときにはメタデータを構成する垂直角度が負の値とされやすく、逆にオーディオ信号が高音の信号であるときには垂直角度が正の値とされやすい傾向がある。
したがって、これらの音圧や音の高さに関する情報を、上述したオブジェクトごとに付与される情報からメタデータを決定する手法(以下、メタデータ決定手法とも称する)の入力に加えることで、メタデータの決定精度を向上させることができる。
具体的には、例えば音圧や音の高さについて、以下に説明する方法により算出される特徴量を上述のメタデータ決定手法の入力、つまり決定木等の入力に加えればよい。
例えば、音圧については次式(1)により算出される特徴量level(i_obj)をメタデータ決定手法の入力の1つとすればよい。
Figure 2020066681
なお、式(1)においてi_objはオブジェクトのインデックスを示しており、i_sampleはオーディオ信号のサンプルのインデックスを示している。
また、式(1)においてpcm(i_obj, i_sample)は、インデックスがi_objであるオブジェクトのオーディオ信号における、インデックスがi_sampleであるサンプルのサンプル値を示しており、n_sampleはオーディオ信号の全サンプルの数を示している。
さらに音の高さ(音高)については、例えば次式(2)により算出される特徴量level_sub(i_obj,i_band)をメタデータ決定手法の入力の1つとすればよい。
Figure 2020066681
なお、式(2)においてインデックスi_obj、インデックスi_sample、およびn_sampleは式(1)における場合と同様であり、i_bandは帯域を示すインデックスである。
例えばバンドパスフィルタでオーディオ信号に対するフィルタリング処理を行うことで、各オブジェクトのオーディオ信号を0kHz乃至2kHz、2kHz乃至8kHz、および8kHz乃至15kHzの3つの帯域のオーディオ信号に分割することとする。また、ここでは各帯域のオーディオ信号をpcm_sub(i_obj,i_band,i_sample)と表すこととする。
さらにインデックスi_band=1は0kHz乃至2kHzの帯域を示し、インデックスi_band=2は2kHz乃至8kHzの帯域を示し、インデックスi_band=3は8kHz乃至15kHzの帯域を示すこととする。
このような場合、式(2)により特徴量level_sub(i_obj,1)、特徴量level_sub(i_obj,2)、および特徴量level_sub(i_obj,3)が求められてメタデータ決定手法の入力とされる。
(その他の情報からの決定)
さらに、その他の情報からメタデータを決定する方法について説明する。
例えばオブジェクトのメタデータは、3D Audioコンテンツのオブジェクト数や、他のオブジェクトのメタデータ、オブジェクト名、オブジェクトにより構成される3D Audioコンテンツのジャンルなどの各情報に基づいて決定されることもある。そこで、そのような各情報もメタデータ決定手法の入力に加えることで、決定精度を向上させることができる。
オブジェクト名には、例えばオブジェクトの楽器名や対応するチャネルなど、楽器情報やチャネル情報の代替となる情報、つまりオブジェクトの属性を示す情報が含まれていることも多いため、メタデータの決定に利用することができる。
また、ジャズなど、音楽等の3D Audioコンテンツのジャンルを示す情報や、3D Audioコンテンツを構成するオブジェクトの総数であるオブジェクト数などは、オブジェクトにより構成されるコンテンツの属性を示す情報である。そのため、そのようなジャンルやオブジェクト数といった、コンテンツの属性に関する情報もオブジェクトの属性情報としてメタデータの決定に利用することができる。
例えば、ある制作者の場合、空間内に配置されるオブジェクトの数(オブジェクト数)が多いと、各オブジェクトを空間内において不等間隔に配置し、逆にオブジェクト数が少ないと、各オブジェクトを等間隔に配置することが多い。
そこで、例えば3D Audioコンテンツを構成するオブジェクト数を、メタデータ決定手法の入力の1つとして加えるようにすることができる。この場合、例えば空間内においてオブジェクトが等間隔または不等間隔に並ぶように、メタデータを構成する水平角度や垂直角度、距離が決定される。
また、例えば、ある制作者の場合、既に空間内の位置が決定されているオブジェクトと同じ位置に、他のオブジェクトを配置しないことが多い。
そこで、例えば既にメタデータが決定された他のオブジェクトのメタデータもメタデータ決定手法の入力として用いてもよい。
なお、以上において説明したオブジェクトごとに付与される情報、オーディオ信号から得られる情報、およびオブジェクト数等のその他の情報は、単独でメタデータ決定手法の入力として用いられるようにしてもよいし、それらの情報が組み合わせられてメタデータ決定手法の入力として用いられてもよい。
〈メタデータの修正について〉
ところで、上述した各情報を用いれば、オブジェクトのメタデータを決定することが可能である。しかし、オブジェクト数が少ない3D Audioコンテンツ(以下、単にコンテンツとも称する)では、決定されたメタデータのパラメタが一か所に偏って決定されることがある。そのような例を図2に示す。
図2では、横軸はメタデータを構成する水平角度を示しており、縦軸はメタデータを構成する垂直角度を示している。
また、図2において1つの円は1つのオブジェクトを示しており、各円に付加された模様は、それらの円に対応するオブジェクトに付与される楽器情報ごとに異なっている。
ここでは、円C11および円C12は楽器情報としてボーカル「vocal」が付与されたオブジェクトを示しており、円C13および円C14は楽器情報としてベース「bass」が付与されたオブジェクトを示している。また、円C15乃至円C20は楽器情報としてピアノ「piano」が付与されたオブジェクトを示している。
これらの各円は、対応するオブジェクトについて予測により決定された水平角度および垂直角度により定まる位置に配置されている。つまり、各円の横軸方向の位置は、それらの各円に対応するオブジェクトの水平角度により示される位置とされ、各円の縦軸方向の位置は、それらの各円に対応するオブジェクトの垂直角度により示される位置とされる。
また、各円の大きさは、オブジェクトのオーディオ信号の音圧の大きさ(高さ)を示しており、音圧に比例して円の大きさが大きくなるようになされている。
したがって図2は、水平角度および垂直角度を軸とするパラメタの空間(パラメタ空間)内における各オブジェクトのパラメタ(メタデータ)の分布と、各オブジェクトのオブジェクト信号の音圧の大きさとを示しているといえる。
例えばオブジェクト数が少ないコンテンツでは、図2に示すようにボーカルやピアノ、ベースなど、多くのコンテンツで重要な楽器のみがオブジェクトとして含まれることが多い。これらの楽器の配置は、ある制作者の場合、前方中央の位置とされやすく、その結果、決定されたメタデータが一か所に偏ってしまう。
この例では円C11乃至C18が図2中、中央に集中しており、それらの円に対応するオブジェクトのメタデータは近い値となっていることが分かる。換言すれば、各オブジェクトのメタデータの分布は、パラメタ空間内の互いに近い位置に集中した分布となっている。このような場合、決定されたメタデータをそのまま用いてレンダリングを行うと、得られるコンテンツは3次元的な音の方向や距離、拡がりのない品質の低いものとなってしまう。
そこで、本技術ではオブジェクトの分布、すなわちオブジェクトのメタデータの分布の調整を行うことで、3次元的な音の方向や距離、拡がりのある品質の高いコンテンツが得られるようにした。
分布調整では、入力として既に制作者の入力等により決定されたメタデータ、または決定木等による予測によって決定されたメタデータが用いられる。そのため、上述のメタデータ決定手法とは独立に適用可能である。すなわち、メタデータの決定方法がどのような方法であるかによらず、メタデータの分布調整を行うことができる。
メタデータの分布調整は、手動による方法(以下、手動調整方法と称する)と自動による方法(以下、自動調整方法と称する)との何れの方法により行われてもよい。以下、それぞれの方法について説明する。
(手動調整方法)
まず、メタデータの手動調整方法について説明する。
手動調整方法では、オブジェクトのメタデータのパラメタの値に対して加算用の所定の値が加算されるか、乗算用の所定の値が乗算されるか、またはそれらの加算と乗算の両方が行われてメタデータの分布調整が行われる。
例えば手動調整方法の加算処理で加算される値や乗算処理で乗算される値は、GUI(Graphical User Interfac)の3D Audioコンテンツ制作ツール上でバー等に対する操作などにより調整されるようにすればよい。
これにより、オブジェクトの位置関係は保持したまま、全オブジェクトの分布、つまりメタデータの分布を広げたり狭めたりといった調整が可能となり、短時間で簡単に制作者の意図するメタデータに調整することができる。
ここで、例えば加算処理のみでメタデータの分布調整を行う場合、メタデータのパラメタのうち、値が負であるパラメタに対しては負の値が加算されるようにし、値が正であるパラメタに対しては正の値が加算されるようにすれば、メタデータの分布を、より空間的な広がりを有する分布に調整(修正)することができる。
また、例えば加算処理のみでメタデータの分布調整を行う場合には、各パラメタに同じ値を加算することで、各オブジェクトの位置関係を保持したまま、それらのオブジェクトを空間内で平行移動させるようなメタデータの分布調整を実現することができる。
(自動調整方法)
自動調整方法では、オブジェクトのそれぞれがメタデータを構成する水平角度、垂直角度、および距離により示されるベクトルとみなされる。以下では、そのような水平角度、垂直角度、および距離を要素として持つベクトルをオブジェクトベクトルと呼ぶこととする。
自動調整方法では、全オブジェクトのオブジェクトベクトルの平均値がオブジェクト平均ベクトルとして求められる。
そして、オブジェクト平均ベクトルと、オブジェクトベクトルのそれぞれとの差分ベクトルが求められ、それらの差分ベクトルの二乗平均値を要素として持つベクトルが求められる。すなわち、水平角度、垂直角度、および距離のそれぞれについて、その平均値からオブジェクトのそれぞれの値の差分の二乗平均値を要素として持つベクトルが求められる。
このようにして得られた水平角度、垂直角度、および距離のそれぞれについての二乗平均値は、水平角度、垂直角度、および距離のそれぞれについての分散に相当し、この水平角度、垂直角度、および距離のそれぞれについての二乗平均値を要素として持つベクトルをオブジェクト分散ベクトルと呼ぶこととする。オブジェクト分散ベクトルは、複数のオブジェクトのメタデータの分布を示しているということができる。
さらに、以上の計算により得られるオブジェクト分散ベクトルが所望の値、つまり目標となる分散値となるようにメタデータが調整される。メタデータの調整時には、メタデータを構成する水平角度等の1つのパラメタ(要素)が調整されるようにしてもよいし、複数のパラメタが調整されるようにしてもよい。また、メタデータを構成する全パラメタが調整されてもよい。
ここで、オブジェクト分散ベクトルの目標となる所望の値は、例えば予め複数の3D Audioコンテンツについてオブジェクト分散ベクトルを求めておき、それらのオブジェクト分散ベクトルの平均値とすればよい。
同様に、自動調整方法において、オブジェクト平均ベクトルが目標となる値になるようにメタデータが調整されてもよいし、オブジェクト平均ベクトルとオブジェクト分散ベクトルの両方が目標となる値となるようにメタデータが調整されてもよい。
なお、自動調整方法において調整時に目標とされるオブジェクト平均ベクトルやオブジェクト分散ベクトルの値は、3D Audioコンテンツのジャンルごとや制作者ごと、3D Audioコンテンツのオブジェクト数ごとに予め学習等により求めておくようにしてもよい。そうすれば、コンテンツのジャンルに適した分布調整や、制作者らしさが反映された分布調整を実現することができる。
また、オブジェクトベクトルに対して、オブジェクトごとの音圧の重みづけを行うようにしてもよい。すなわち、オブジェクトについて求めたオブジェクトベクトルに、そのオブジェクトのオーディオ信号の音圧に応じた重みを乗算し、その結果得られたベクトルが最終的なオブジェクトベクトルとされてもよい。
この場合、音圧の分布を所望の値、すなわち目標とする音圧分布とすることができ、より品質の高いメタデータの調整(修正)を行うことができる。これは、適度な音圧分布のオーディオコンテンツは品質のよいコンテンツであるとされているからである。
なお、これらの手動調整方法や自動調整方法によるメタデータの分布調整において、調整の対象外とするオブジェクトがあってもよい。
分布調整の対象外とされたオブジェクトについては、そのオブジェクトのメタデータはオブジェクト平均ベクトルの計算には用いられない。しかし、対象外とされたオブジェクトのメタデータをオブジェクト平均ベクトルの計算に用いるようにしてもよい。
例えば楽器情報が「vocal」であるオブジェクトはコンテンツ中において重要である場合が多く、メタデータの分布が一か所に偏っていた方が品質が高い場合がある。そのような場合、楽器情報が「vocal」のオブジェクトについてはメタデータの分布調整の対象外とされるなどとしてもよい。
なお、メタデータの分布調整の対象外とされるオブジェクトは、楽器情報などのオブジェクトごとに付与される情報が予め定めたもの(値等)を示しているオブジェクトとされてもよいし、制作者等により指定されたオブジェクトとされてもよい。
以上の分布調整により、図2に示した分布は、例えば図3に示すようになる。なお、図3において図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。また、図3においても横軸はメタデータを構成する水平角度を示しており、縦軸はメタデータを構成する垂直角度を示している。
図3の例では、楽器情報が「vocal」であるオブジェクト、すなわち円C11および円C12により示されるオブジェクトは、メタデータの分布調整の対象外とされている。
図3に示すように、メタデータの分布調整によって、図2に示した場合よりも各オブジェクト、すなわち各オブジェクトのメタデータが適度に離れて分布していることが分かる。これにより、3次元的な音の方向や距離、拡がりのある品質の高いコンテンツを得ることができる。
〈情報処理装置の構成例〉
次に、以上において説明したメタデータ決定手法によりメタデータを決定し、さらに決定されたメタデータの分布調整を行う情報処理装置について説明する。
例えばメタデータ決定手法として、決定木によりメタデータを決定する手法が用いられる場合、情報処理装置は図4に示すように構成される。
図4に示す情報処理装置11は、メタデータ決定部21および分布調整部22を有している。
メタデータ決定部21は、各オブジェクトについて、外部から供給されたオブジェクトの属性に関する情報、すなわちオブジェクトの1または複数の属性情報に基づいて各オブジェクトのメタデータを予測により決定し、決定されたメタデータを出力する。なお、メタデータの決定対象とされるオブジェクトの数は1つであってもよいし、複数であってもよいが、ここでは複数のオブジェクトについてメタデータが決定されるものとする。
また、オブジェクトの属性情報とは楽器情報、残響情報、音響情報、優先度情報、チャネル情報、オブジェクト数、他のオブジェクトのメタデータ、オブジェクト名、およびジャンルを示す情報のうちの少なくとも何れか1つである。メタデータ決定部21には、オブジェクトの属性情報として音圧や音の高さに関する特徴量を算出するためのオーディオ信号も供給される。
また、メタデータ決定部21は、決定木処理部31を有している。メタデータ決定部21は、適宜、オーディオ信号に基づいてオブジェクトの属性情報としての音圧や音の高さに関する特徴量を算出し、算出された特徴量や、外部から供給されたオブジェクトの属性情報を決定木処理部31に入力する。なお、決定木処理部31に入力される属性情報は、1つであってもよいし、複数であってもよい。
決定木処理部31は、入力されたオブジェクトの属性情報に基づいて、決定木によりメタデータを決定する処理を行い、その決定結果として得られた各オブジェクトのメタデータを分布調整部22に供給する。決定木処理部31には、予め学習により求められた決定木(決定木モデル)が保持されている。
なお、ここでは決定木処理部31では、メタデータのパラメタとして水平角度、垂直角度、および距離が決定される例について説明するが、決定されるパラメタにゲインが含まれるようにしてもよい。また、メタデータを構成する複数のパラメタのうちの任意の1つまたは複数のパラメタが決定木処理部31で決定されるようにしてもよい。
分布調整部22は、決定木処理部31から供給された複数の各オブジェクトのメタデータに対して上述した分布調整を行い、分布調整後のメタデータを最終的な各オブジェクトのメタデータとして後段に供給(出力)する。
分布調整部22は、オブジェクト分散ベクトル算出部32、係数ベクトル算出部33、および係数ベクトル適用部34を有している。
オブジェクト分散ベクトル算出部32は、決定木処理部31から供給された各オブジェクトのメタデータを構成する水平角度、垂直角度、および距離を要素とするベクトルをオブジェクトベクトルとするとともに、各オブジェクトのオブジェクトベクトルに基づいてオブジェクト平均ベクトルを求める。さらに、オブジェクト分散ベクトル算出部32は、求めたオブジェクト平均ベクトルと、各オブジェクトベクトルとに基づいてオブジェクト分散ベクトルを算出し、係数ベクトル算出部33に供給する。
係数ベクトル算出部33は、水平角度、垂直角度、および距離のそれぞれについて予め求められた所定値を要素としてもつ所定値ベクトルの要素のそれぞれを、オブジェクト分散ベクトル算出部32から供給されたオブジェクト分散ベクトルの要素のそれぞれで除算することにより、水平角度、垂直角度、および距離のそれぞれについて係数を要素として持つ係数ベクトルを算出し、係数ベクトル適用部34に供給する。
ここでは、予め求められた所定値ベクトルは、目標とするオブジェクト分散ベクトルであり、例えばジャンルごとや制作者ごとの学習等により求められる。具体的には、例えば目標とするオブジェクト分散ベクトルの値は、同ジャンルの複数の3D Audioコンテンツについて得られたオブジェクト分散ベクトルの要素ごとの平均値を要素としてもつベクトルなどとされる。
係数ベクトル適用部34は、決定木処理部31から供給されたメタデータに対して、係数ベクトル算出部33から供給された係数ベクトルを要素ごとに乗算することで分布調整後のメタデータを算出し、得られたメタデータを後段に出力する。係数ベクトル適用部34では、メタデータに係数ベクトルを要素ごとに乗算することで、メタデータの分布調整が行われる。これによりメタデータの分布が、目標となるオブジェクト分散ベクトルに対応する分布となる。
例えば係数ベクトル適用部34の後段においては、各オブジェクトのオーディオ信号とメタデータとに基づいてレンダリング処理が行われたり、制作者の手動によりメタデータの調整が行われたりする。
なお、決定木処理部31からオブジェクト分散ベクトル算出部32や係数ベクトル適用部34には、メタデータだけでなく楽器情報等のオブジェクトの属性情報も供給されるようにし、オブジェクトの属性情報に基づいて、分布調整の対象外とするオブジェクトが決定されてもよい。この場合、対象外とされたオブジェクトについては、メタデータの分布調整は行われず、決定木処理部31で決定されたメタデータがそのまま最終的なメタデータとして出力される。
また、メタデータの分布調整として、オブジェクト平均ベクトルの調整が行われるようにしてもよいし、オブジェクト分散ベクトルとオブジェクト平均ベクトルの両方の調整が行われるようにしてもよい。さらに、ここでは分布調整部22において自動調整方法により分布調整が行われる例について説明したが、分布調整部22において、制作者等の入力に応じて手動調整方法により分布調整が行われるようにしてもよい。
そのような場合、例えば分布調整部22は、制作者等により指定された所定の値をオブジェクトのメタデータに加算したり乗算したりして、所定の値とメタデータに基づく演算を行い、分布調整後のメタデータを求める。また、この場合においても制作者により指定されたオブジェクトや、オブジェクトの属性情報等により定まるオブジェクトが分布調整の対象外とされるようにしてもよい。
〈メタデータ決定処理の説明〉
続いて、図4に示した情報処理装置11の動作について説明する。すなわち、以下、図5のフローチャートを参照して、情報処理装置11によるメタデータ決定処理について説明する。
ステップS11において決定木処理部31は、オブジェクトの属性情報に基づいてメタデータを決定し、その決定結果をオブジェクト分散ベクトル算出部32および係数ベクトル適用部34に供給する。
すなわちメタデータ決定部21は、必要に応じて供給されたオーディオ信号に基づいて上述した式(1)や式(2)の計算を行うことで音圧や音の高さの特徴量を算出する。そしてメタデータ決定部21は、算出された特徴量や、外部から供給された楽器情報等を、オブジェクトの属性情報として決定木処理部31に入力する。
決定木処理部31は、供給されたオブジェクトの属性情報に基づいて、決定木によりメタデータを決定する処理を行う。また、メタデータ決定部21は、必要に応じてオブジェクトの属性情報をオブジェクト分散ベクトル算出部32や係数ベクトル適用部34にも供給する。
ステップS12においてオブジェクト分散ベクトル算出部32は、決定木処理部31から供給された各オブジェクトのメタデータに基づいてオブジェクト平均ベクトルを求めるとともに、オブジェクト平均ベクトルとオブジェクトベクトルとからオブジェクト分散ベクトルを算出し、係数ベクトル算出部33に供給する。
ステップS13において係数ベクトル算出部33は、水平角度、垂直角度、および距離のそれぞれについて予め求められた所定値を要素として持つベクトル、すなわち予め求められた目標となるオブジェクト分散ベクトルを、オブジェクト分散ベクトル算出部32から供給されたオブジェクト分散ベクトルで要素ごとに除算することにより係数ベクトルを算出し、係数ベクトル適用部34に供給する。
ステップS14において係数ベクトル適用部34は、係数ベクトル算出部33から供給された係数ベクトルに基づいて、決定木処理部31から供給されたメタデータの分布調整を行い、その結果得られた分布調整後のメタデータを出力してメタデータ決定処理は終了する。
例えば係数ベクトル適用部34は、メタデータに係数ベクトルを要素ごとに乗算することにより、メタデータの分布調整を行う。なお、上述したように所定のオブジェクトはメタデータの分布調整の対象外とされるようにしてもよい。
以上のようにして情報処理装置11は、オブジェクトの属性情報に基づいて各オブジェクトのメタデータを決定するとともに、それらのメタデータの分布調整を行う。このようにすることで、制作者はいちいち各オブジェクトのメタデータを指定(入力)する必要がなくなるので、簡単に、すなわち短時間で高い品質の3D Audioコンテンツを制作することができるようになる。
〈決定木の学習について〉
ところで、上述の手法によってメタデータを決定することができるが、決定のパターン、すなわちメタデータの決定に用いる決定木等は1つではなく複数であった方がよい。これは、1つの決定パターン(決定木等)で多種多様なコンテンツに対応することは困難であり、また、複数の決定パターンから制作者にとって最適なものを選択できるようにすることで、より品質の高い3D Audioコンテンツの制作が可能になるからである。
上述の通り、メタデータの決定は学習データに基づくため、学習データを複数に分割して、分割されたそれぞれの学習データを用いて決定木モデルの学習を行うことで、複数パターンでの決定を行うことができるようになる。このとき学習データをどのように分割するかによって利点が異なる。
具体的には、例えば学習データを制作者ごとに分割すれば、制作者ごとのメタデータの決定精度を高めることができる。すなわち、制作者の特徴をより反映したメタデータの決定を行う決定木(決定木モデル)を得ることができるようになる。
制作者の特徴は、コンテンツの品質を決定付けるうえで最も重視されるもののひとつであり、制作者ごとに学習データを分割することにより、決定パターンで品質のバリエーションを増やすことが可能となる。また、制作者自身が制作したデータを学習データとすることで、過去の自身の特徴をより反映した決定を行うことができ、制作時間を短縮することが可能となる。
このような場合、例えば複数の制作者ごとに決定木を学習して用意しておけば、一般ユーザなどが、複数の制作者ごとの決定木のなかから自身の好みの制作者の決定木を選択し、その選択した決定木を用いてメタデータが決定されるようにすることができる。これにより、自身の好みの制作者の特徴が反映されたコンテンツが得られるようになる。
また、例えば学習データをロックやポップス、クラシックなどのコンテンツのジャンル(種別)ごとに分割すれば、メタデータの決定精度を向上させることができる。すなわち、コンテンツのジャンルごとに決定木を学習すれば、コンテンツのジャンルに適したメタデータを得ることができるようになる。
さらに、上述したように、メタデータの分布調整に用いるオブジェクト平均ベクトルやオブジェクト分散ベクトルの目標とする値もジャンルごとや制作者ごと、コンテンツを構成するオブジェクトの数ごとに学習等により求めるようにすることができる。
以上のように本技術によれば、オブジェクトの属性情報に基づいてメタデータを決定したり、その決定結果に対して分布調整を行ったりすることで、品質の高い3D Audioコンテンツを、短時間で制作することができるようになる。
なお、本技術は各オブジェクトの空間内の位置が時刻によらず常に同じ位置である場合、つまりオブジェクトが移動しない場合であっても、オブジェクトの空間内の位置が時刻によって変化する場合であっても適用可能である。
オブジェクトの位置が変化する場合、例えば時刻ごとに図5を参照して説明したメタデータ決定処理を行い、必要に応じて2つの時刻間のメタデータを補間処理等により求めればよい。
〈コンピュータの構成例〉
ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。
図6は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、入力部506、出力部507、記録部508、通信部509、及びドライブ510が接続されている。
入力部506は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部507は、ディスプレイ、スピーカなどよりなる。記録部508は、ハードディスクや不揮発性のメモリなどよりなる。通信部509は、ネットワークインターフェースなどよりなる。ドライブ510は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体511を駆動する。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体511に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。
コンピュータでは、プログラムは、リムーバブル記録媒体511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
例えば、本技術は、1つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。
また、上述のフローチャートで説明した各ステップは、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、1つのステップに複数の処理が含まれる場合には、その1つのステップに含まれる複数の処理は、1つの装置で実行する他、複数の装置で分担して実行することができる。
さらに、本技術は、以下の構成とすることも可能である。
(1)
オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する決定部を備える
情報処理装置。
(2)
前記パラメタは、前記オブジェクトの位置を示す位置情報である
(1)に記載の情報処理装置。
(3)
前記パラメタは、前記オブジェクトのオーディオ信号のゲインである
(1)または(2)に記載の情報処理装置。
(4)
前記属性情報は、前記オブジェクトの種類を示す情報である
(1)乃至(3)の何れか一項に記載の情報処理装置。
(5)
前記属性情報は、前記オブジェクトの優先度を示す優先度情報である
(1)乃至(4)の何れか一項に記載の情報処理装置。
(6)
前記オブジェクトはオーディオオブジェクトである
(1)乃至(5)の何れか一項に記載の情報処理装置。
(7)
前記属性情報は、前記オブジェクトの音源種別を示す情報である
(6)に記載の情報処理装置。
(8)
前記音源種別は、楽器、音声パート、または音声の性別を示す情報である
(7)に記載の情報処理装置。
(9)
前記属性情報は、前記オブジェクトのオーディオ信号に施された音響効果を示す情報である
(6)乃至(8)の何れか一項に記載の情報処理装置。
(10)
前記音響効果は残響効果である
(9)に記載の情報処理装置。
(11)
前記属性情報は、前記オブジェクトのオーディオ信号の音圧または音高に関する情報である
(6)乃至(10)の何れか一項に記載の情報処理装置。
(12)
前記属性情報は、前記オブジェクトにより構成されるコンテンツの属性に関する情報である
(6)乃至(11)の何れか一項に記載の情報処理装置。
(13)
前記コンテンツの属性に関する情報は、前記コンテンツのジャンル、または前記コンテンツを構成する前記オブジェクトの数である
(12)に記載の情報処理装置。
(14)
複数の前記オブジェクトの前記パラメタの分布調整を行う分布調整部をさらに備える
(1)乃至(13)の何れか一項に記載の情報処理装置。
(15)
前記分布調整部は、前記パラメタの分散または平均を調整することにより前記分布調整を行う
(14)に記載の情報処理装置。
(16)
前記分布調整部は、前記パラメタの前記分散または前記平均が、コンテンツを構成する前記オブジェクトの数、コンテンツ制作者、または前記コンテンツのジャンルに対して定められた値となるように前記分布調整を行う
(15)に記載の情報処理装置。
(17)
前記決定部は、前記属性情報を入力とし、前記パラメタを出力とする決定木により前記パラメタを決定する
(1)乃至(16)の何れか一項に記載の情報処理装置。
(18)
前記決定木は、前記オブジェクトにより構成されるコンテンツのジャンルごと、またはコンテンツ制作者ごとに学習される
(17)に記載の情報処理装置。
(19)
情報処理装置が、
オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する
情報処理方法。
(20)
オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する
ステップを含む処理をコンピュータに実行させるプログラム。
11 情報処理装置, 21 メタデータ決定部, 22 分布調整部, 31 決定木処理部, 32 オブジェクト分散ベクトル算出部, 33 係数ベクトル算出部, 34 係数ベクトル適用部

Claims (20)

  1. オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する決定部を備える
    情報処理装置。
  2. 前記パラメタは、前記オブジェクトの位置を示す位置情報である
    請求項1に記載の情報処理装置。
  3. 前記パラメタは、前記オブジェクトのオーディオ信号のゲインである
    請求項1に記載の情報処理装置。
  4. 前記属性情報は、前記オブジェクトの種類を示す情報である
    請求項1に記載の情報処理装置。
  5. 前記属性情報は、前記オブジェクトの優先度を示す優先度情報である
    請求項1に記載の情報処理装置。
  6. 前記オブジェクトはオーディオオブジェクトである
    請求項1に記載の情報処理装置。
  7. 前記属性情報は、前記オブジェクトの音源種別を示す情報である
    請求項6に記載の情報処理装置。
  8. 前記音源種別は、楽器、音声パート、または音声の性別を示す情報である
    請求項7に記載の情報処理装置。
  9. 前記属性情報は、前記オブジェクトのオーディオ信号に施された音響効果を示す情報である
    請求項6に記載の情報処理装置。
  10. 前記音響効果は残響効果である
    請求項9に記載の情報処理装置。
  11. 前記属性情報は、前記オブジェクトのオーディオ信号の音圧または音高に関する情報である
    請求項6に記載の情報処理装置。
  12. 前記属性情報は、前記オブジェクトにより構成されるコンテンツの属性に関する情報である
    請求項6に記載の情報処理装置。
  13. 前記コンテンツの属性に関する情報は、前記コンテンツのジャンル、または前記コンテンツを構成する前記オブジェクトの数である
    請求項12に記載の情報処理装置。
  14. 複数の前記オブジェクトの前記パラメタの分布調整を行う分布調整部をさらに備える
    請求項1に記載の情報処理装置。
  15. 前記分布調整部は、前記パラメタの分散または平均を調整することにより前記分布調整を行う
    請求項14に記載の情報処理装置。
  16. 前記分布調整部は、前記パラメタの前記分散または前記平均が、コンテンツを構成する前記オブジェクトの数、コンテンツ制作者、または前記コンテンツのジャンルに対して定められた値となるように前記分布調整を行う
    請求項15に記載の情報処理装置。
  17. 前記決定部は、前記属性情報を入力とし、前記パラメタを出力とする決定木により前記パラメタを決定する
    請求項1に記載の情報処理装置。
  18. 前記決定木は、前記オブジェクトにより構成されるコンテンツのジャンルごと、またはコンテンツ制作者ごとに学習される
    請求項17に記載の情報処理装置。
  19. 情報処理装置が、
    オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する
    情報処理方法。
  20. オブジェクトのメタデータを構成する1または複数のパラメタを、前記オブジェクトの1または複数の属性情報に基づいて決定する
    ステップを含む処理をコンピュータに実行させるプログラム。
JP2020548454A 2018-09-28 2019-09-13 情報処理装置および方法、並びにプログラム Active JP7363795B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018184161 2018-09-28
JP2018184161 2018-09-28
PCT/JP2019/036032 WO2020066681A1 (ja) 2018-09-28 2019-09-13 情報処理装置および方法、並びにプログラム

Publications (2)

Publication Number Publication Date
JPWO2020066681A1 true JPWO2020066681A1 (ja) 2021-08-30
JP7363795B2 JP7363795B2 (ja) 2023-10-18

Family

ID=69952679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020548454A Active JP7363795B2 (ja) 2018-09-28 2019-09-13 情報処理装置および方法、並びにプログラム

Country Status (7)

Country Link
US (1) US11716586B2 (ja)
EP (1) EP3860156A4 (ja)
JP (1) JP7363795B2 (ja)
KR (1) KR20210066807A (ja)
CN (1) CN112740721A (ja)
BR (1) BR112021005241A2 (ja)
WO (1) WO2020066681A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023062865A1 (ja) * 2021-10-15 2023-04-20 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3550303B2 (ja) 1998-07-31 2004-08-04 株式会社東芝 ピッチパターン生成方法およびピッチパターン生成装置
JP2004194108A (ja) * 2002-12-12 2004-07-08 Sony Corp 情報処理装置および情報処理方法、記録媒体、並びにプログラム
WO2010075634A1 (en) * 2008-12-30 2010-07-08 Karen Collins Method and system for visual representation of sound
US8938675B2 (en) 2009-06-16 2015-01-20 Harman International Industries, Incorporated System for automated generation of audio/video control interfaces
KR20120062758A (ko) * 2009-08-14 2012-06-14 에스알에스 랩스, 인크. 오디오 객체들을 적응적으로 스트리밍하기 위한 시스템
TWI603632B (zh) 2011-07-01 2017-10-21 杜比實驗室特許公司 用於適應性音頻信號的產生、譯碼與呈現之系統與方法
SG10201709574WA (en) * 2012-12-04 2018-01-30 Samsung Electronics Co Ltd Audio providing apparatus and audio providing method
EP2784955A3 (en) 2013-03-25 2015-03-18 Yamaha Corporation Digital audio mixing device
JP5713042B2 (ja) 2013-03-25 2015-05-07 ヤマハ株式会社 デジタルオーディオミキシング装置及びプログラム
US10063207B2 (en) * 2014-02-27 2018-08-28 Dts, Inc. Object-based audio loudness management
RU2019138260A (ru) * 2015-06-24 2019-12-05 Сони Корпорейшн Устройство, способ и программа аудиообработки
EP3145220A1 (en) 2015-09-21 2017-03-22 Dolby Laboratories Licensing Corporation Rendering virtual audio sources using loudspeaker map deformation
US20170098452A1 (en) * 2015-10-02 2017-04-06 Dts, Inc. Method and system for audio processing of dialog, music, effect and height objects
JP6834971B2 (ja) 2015-10-26 2021-02-24 ソニー株式会社 信号処理装置、信号処理方法、並びにプログラム
US11290819B2 (en) * 2016-01-29 2022-03-29 Dolby Laboratories Licensing Corporation Distributed amplification and control system for immersive audio multi-channel amplifier
EP3301951A1 (en) 2016-09-30 2018-04-04 Koninklijke KPN N.V. Audio object processing based on spatial listener information
RU2019132898A (ru) * 2017-04-26 2021-04-19 Сони Корпорейшн Способ и устройство для обработки сигнала и программа
US10735882B2 (en) * 2018-05-31 2020-08-04 At&T Intellectual Property I, L.P. Method of audio-assisted field of view prediction for spherical video streaming
EP3761672B1 (en) * 2019-07-02 2023-04-05 Dolby International AB Using metadata to aggregate signal processing operations

Also Published As

Publication number Publication date
US11716586B2 (en) 2023-08-01
EP3860156A4 (en) 2021-12-01
WO2020066681A1 (ja) 2020-04-02
EP3860156A1 (en) 2021-08-04
BR112021005241A2 (pt) 2021-06-15
JP7363795B2 (ja) 2023-10-18
CN112740721A (zh) 2021-04-30
KR20210066807A (ko) 2021-06-07
US20220116732A1 (en) 2022-04-14

Similar Documents

Publication Publication Date Title
CN109478400B (zh) 现场音乐表演的多媒体内容的基于网络的处理及分布
US9530396B2 (en) Visually-assisted mixing of audio using a spectral analyzer
US11132984B2 (en) Automatic multi-channel music mix from multiple audio stems
JP7230799B2 (ja) 情報処理装置、情報処理方法、およびプログラム
WO2019000961A1 (zh) 一种基于算法的音频优化方法、智能终端及存储装置
CN114067827A (zh) 一种音频处理方法、装置及存储介质
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
JP6163211B2 (ja) 少なくとも二つの出力信号から少なくとも二つの個別信号を算出する方法
JPWO2020066681A1 (ja) 情報処理装置および方法、並びにプログラム
WO2018066383A1 (ja) 情報処理装置および方法、並びにプログラム
JP6233625B2 (ja) 音声処理装置および方法、並びにプログラム
US20220076687A1 (en) Electronic device, method and computer program
US20230135778A1 (en) Systems and methods for generating a mixed audio file in a digital audio workstation
EP3613043A1 (en) Ambience generation for spatial audio mixing featuring use of original and extended signal
WO2024024468A1 (ja) 情報処理装置および方法、符号化装置、音声再生装置、並びにプログラム
WO2021124919A1 (ja) 情報処理装置および方法、並びにプログラム
Ziemer Goniometers are a Powerful Acoustic Feature for Music Information Retrieval Tasks
WO2023062865A1 (ja) 情報処理装置および方法、並びにプログラム
WO2022230450A1 (ja) 情報処理装置、情報処理方法、情報処理システムおよびプログラム
JP6819236B2 (ja) 音処理装置、音処理方法、及びプログラム
JP6774912B2 (ja) 音像生成装置
JP6834398B2 (ja) 音処理装置、音処理方法、及びプログラム
KR20230091455A (ko) 사운드 이펙트 효과 설정 방법
CN118072701A (zh) 音频处理方法、计算机设备和存储介质
JP2007049601A (ja) 楽音情報生成装置、方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220721

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230905

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230918

R151 Written notification of patent or utility model registration

Ref document number: 7363795

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151