JPWO2010109918A1 - 復号化装置、符号化復号化装置および復号化方法 - Google Patents

復号化装置、符号化復号化装置および復号化方法 Download PDF

Info

Publication number
JPWO2010109918A1
JPWO2010109918A1 JP2010530214A JP2010530214A JPWO2010109918A1 JP WO2010109918 A1 JPWO2010109918 A1 JP WO2010109918A1 JP 2010530214 A JP2010530214 A JP 2010530214A JP 2010530214 A JP2010530214 A JP 2010530214A JP WO2010109918 A1 JPWO2010109918 A1 JP WO2010109918A1
Authority
JP
Japan
Prior art keywords
acoustic
priority
information
signal
base
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010530214A
Other languages
English (en)
Other versions
JP5340296B2 (ja
Inventor
石川 智一
智一 石川
則松 武志
武志 則松
ゾウ フアン
ゾウ フアン
ハイ シャン ジョン
ハイ シャン ジョン
セン チョン コック
セン チョン コック
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2010530214A priority Critical patent/JP5340296B2/ja
Publication of JPWO2010109918A1 publication Critical patent/JPWO2010109918A1/ja
Application granted granted Critical
Publication of JP5340296B2 publication Critical patent/JP5340296B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • H04L12/40Bus networks
    • H04L12/40006Architecture of a communication node
    • H04L12/40013Details regarding a bus controller
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/04Circuit arrangements, e.g. for selective connection of amplifier inputs/outputs to loudspeakers, for loudspeaker detection, or for adaptation of settings to personal preferences or hearing impairments

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Telephonic Communication Services (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Stereophonic System (AREA)

Abstract

受信したオブジェクト符号化情報から得られるオブジェクト信号の仮想音源を受信拠点側で受聴空間に配置する方法が存在しなかった。オブジェクト符号化された音響符号化情報を複数受信し、受信した音響符号化情報をオブジェクト復号化して複数のオブジェクト信号を生成するオブジェクト復号化部(806)と、オブジェクト復号化により得られた各オブジェクト信号の仮想音源の位置を、オブジェクト信号を合成して得られる音響信号ごとに、受聴空間に配置するレンダリング部(807)とを備え、音響符号化情報には、音響信号に対する優先度の大小を示す優先度情報が重畳され、レンダリング部(807)は、優先度情報が示す優先度の大小に応じて、または音響信号に含まれるオブジェクト信号の数に応じて、受聴空間において音響信号に対して割り当てられる領域の大小を決定し、音響信号に含まれるオブジェクト信号の仮想音源のそれぞれを前記領域内に配置する。

Description

本発明は、多拠点・多人数の話者が参加する会議システムにおける音響信号をオブジェクト符号化およびオブジェクト復号化する装置に関する。
昨今のブロードバンド通信技術の発展とともにIP通信技術が一般的になり、一般的なビジネスシーンでの会議や一般家庭間のコミュニケーションシーンでも、IP通信技術を基盤とした電話会議システムや音声信号のみならずビデオ画像も同時に提示するような臨場感コミュニケーションシステムが登場してきた。また、IP通信の速度や安定性の向上により、多拠点・多人数が参加可能な臨場感会議システムも登場している。利便性の向上により、多人数・多拠点での会議・通信システムを使う機会が増加するに従って、より簡単に会議に参加できるような仕組みが重要になってきている。
従来型のビデオ会議システムにおいて、多人数・多拠点が参加する場合には、人数分あるいは拠点数分だけ等分割した画面表示を行っていた。そのため非常に多くの人数、多くの拠点が参加している場合には、画面表示は非常に煩雑になる。さらに、多人数・多拠点が参加することにより、会話の音声信号も混線し、どこの拠点の誰が発言しているか等を判別することが困難になる。これを解決するには、発言の最初に、いまから誰が発言するのかを明示的に発話するか、あるいは映像によって誰が発言しているのかを示す等の補助的な手段が必要となり、非常に煩雑な処理が必要となっていた。
また、会議に参加する各拠点において参加する人数が増えると、各拠点の送信装置や受信装置で符号化・復号化する音声・映像信号の数が増え、送受信装置への負荷が増加することにつながる。
これらの課題を解決するためには、複数の信号を同時にかつ低ビットレートで符号化することのできる方式が必要である。さらには、複数の音声信号を柔軟に制御可能な技術も必要である。そこでオーディオオブジェクト符号化技術(以下、オブジェクト符号化技術と呼ぶ)が提案され、これを用いた複数のオブジェクト信号を個別に低ビットレートで送受信する特徴を備えた装置が提案されている(例えば特許文献1参照)。オブジェクト符号化技術を用いた符号化によると、複数のオブジェクト信号をM個の音響信号にダウンミックスして符号化したダウンミックス情報に加え、少ない制御情報を付加して伝送し、受信側でN個のオーディオオブジェクト信号に再構成(MはNよりも小さい)することができる。
米国特許出願公開第2008/0008323号明細書
B.B.Bauer,"Phasor analysis of some stereophonic phenomena",IRE TRANSACTIONS ON AUDIO,Vol10,pp18−21,January 1962.
上記で示したようにオブジェクト符号化技術を会議システムに適用し、各話者(音源)をそれぞれオーディオオブジェクトとして扱うことにより、オブジェクト符号化技術で高効率の符号化を行うことができるようになる。しかしながら、オブジェクト符号化技術を適用しただけでは、多拠点・多人数に対応した会議システムにおいて会話の音声が混線するという問題は解決されず、それぞれの会話の聞き取りにくさも改善されないままである。
本発明は、上記課題に鑑み、オブジェクト符号化技術を適用した会議システムにおいて各拠点における会話の音声を聞き取りやすい符号化装置、復号化装置、会議システム、符号化方法および復号化方法の提供を目的とする。
上記の課題を解決するために、本発明の復号化装置は、オブジェクト符号化された音響符号化情報を複数受信し、受信した前記音響符号化情報をオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、生成された前記音響信号に含まれる1以上の前記オブジェクト信号にそれぞれ対応する仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、前記音響符号化情報には、前記音響信号に対する優先度の高低を示す優先度情報が重畳されており、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する。
このような構成とすることで、ある音響符号化情報に対応する音響空間(拠点)ごとのオブジェクト信号の仮想音源が、その重要度またはその数に応じて受聴空間に配置されるため、音響空間(拠点)に属するオブジェクト信号の数が多い場合でも、それぞれのオブジェクト信号が聞き分けやすくなるようその仮想音源を受聴空間に配置することができる。また、音響信号の優先度に応じて、すなわち、優先度の高い音響信号に属するオブジェクト信号がより聴き取りやすくなるように受聴空間に配置することができる。従って、これにより、重要な拠点や、話者などの音源が多く活発な拠点の音響を、空間的に大きく配置し、聴感上聞き取りやすくすることができる。
また、前記1つ以上のオブジェクト信号は、前記音響符号化情報がオブジェクト符号化された音響空間における1つの音源にそれぞれ対応づけられており、前記音響信号は、前記音響空間において発生した1以上のオブジェクト信号を合成して得られた信号であるとしてもよい。これにより、音響空間における1以上のオブジェクト信号が受信側において適度な間隔を持って受信側の受聴空間に仮想的に配置されるため、受信側ではそれぞれのオブジェクト信号の混合を低減することができ、個別に聞き取りやすくなるというという効果を得ることができる。
前記レンダリング部は、前記音響信号に対する優先度が高いほど大きくなるよう前記領域の大小を決定するとしてもよい。これにより、レンダリング部は、優先度が高い、重要な音響信号に含まれるオブジェクト信号の仮想音源の位置を、受信側音響空間のより大きい領域に配置することができる。従って、優先度が高い重要音響信号に含まれるオブジェクト信号を聞き取りやすくすることができる。
また、前記優先度情報は、オブジェクト符号化におけるダウンミックス情報のゲインを示すグローバルゲイン情報であって、前記優先度の高低は、前記ゲインに比例する。これにより、復号化装置は、音響符号化情報に優先度情報が多重化されていない場合であっても、音響信号のそれぞれに対応する音響符号化情報に含まれているグローバルゲイン情報を比較することによって優先度情報を算出することができる。
さらに、前記音響符号化情報には、それぞれの前記オブジェクト信号のダウンミックス情報に対するゲインの比を示すゲイン比情報が含まれ、前記オブジェクト復号化部は、オブジェクト信号ごとに、前記グローバルゲイン情報の値と前記ゲイン比情報の値との積を算出し、算出した値を前記オブジェクト信号ごとの第2の優先度情報とするとしてもよい。これにより、本発明の復号化装置は、音響符号化情報の中にオブジェクト信号のそれぞれに対応する第2の優先度情報が重畳されていない場合であっても、各オブジェクト信号の音量の大きさを第2の優先度情報として検出し、検出した第2の優先度が大きいオブジェクト信号ほど、すなわち、音量の大きいオブジェクト信号ほど、聴き取り易い位置にくるように配置することができる。
また、前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号だけを復号化し、前記順位より優先度が低いオブジェクト信号を復号化しないとしてもよい。このようにすることによって、あまり重要でないオブジェクト信号を削除してしまうことにより、復号化装置における復号化の処理負荷を低減することができる。
前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号のみ優先度の高低を認め、前記優先度が前記順位より低いオブジェクト信号に対しては前記順位より低い同じ優先度であるとみなすとしてもよい。これにより、ある程度より重要度が低いオブジェクト信号の仮想音源を優先度の順に受聴空間に配置するための処理負荷を、低減することができる。
また、前記音響符号化情報のそれぞれには、前記音響空間を特定するための識別情報が含まれ、前記オブジェクト復号化部が、単位時間あたりに前記音響符号化情報を受信した音響符号化情報の符号長を前記識別情報ごとに計測し、計測した単位時間あたりの音響符号化情報の符号長を前記識別情報で特定される前記音響空間の活動度として、前記優先度情報と前記活動度に基づいて前記音響空間ごとの音響信号の優先度の高低を決定し、前記レンダリング部は、前記識別情報ごとに決定された優先度が高いほど、前記識別情報で特定される音響空間からの前記音響信号に割り当てられる領域が大きくなるよう前記領域の大きさを決定するとしてもよい。これにより、復号化装置では、音響符号化情報に優先度情報が重畳されていない場合であっても、音響空間を特定する識別情報ごとに単位時間あたりの符号長の長い音響符号化情報を送信する音響空間を重要な音響空間とみなし、その送信側音響空間に対して受聴空間に、より大きい領域を割り当てることができる。従って、例えば、会議において発言量の多い送信拠点の発言であるオブジェクト信号を聴感上聞き取りやすくすることができる。
また、前記オブジェクト復号化部は、前記音響信号に含まれる前記オブジェクト信号の数に比例するよう前記音響空間ごとの音響信号の優先度の高低を決定するとしてもよい。これにより、音響信号に含まれるオブジェクト信号の数、例えば、テレビ会議の会議室において同時に発言する話者の数が多いほど、その音響信号に含まれる個々の話者の発言であるオブジェクト信号が聴き取り易くなるように、受聴空間により離散的に配置することができる。
前記レンダリング部は、前記音響信号それぞれの前記優先度情報が示す優先度が高いほど、当該音響信号に割り当てられた前記領域が前記受聴位置のあらかじめ定められた正面方向に近くなるよう配置する構成であってもよい。これにより、優先度の高い重要な音響信号ほど受聴位置の正面に近く配置されることになり、重要の高い拠点における発言ほど聴き取りやすくすることができる。
さらに、前記音響符号化情報のそれぞれには、前記音響空間同士の相対的な位置関係を示す情報が重畳され、前記レンダリング部は、前記位置関係を示す前記情報に従って、前記音響信号を前記あらかじめ定められた受聴位置の周囲に配置する。これにより、各音響信号に対応する拠点の関係や拠点の状態が聴感上わかりやすい空間配置をすることができ、受聴位置では、発言者が属している拠点の位置関係を把握しやすく、話者の発言がどの拠点でなされているかを直感的に把握できるという効果がある。
また、前記レンダリング部は、前記オブジェクト信号に対する前記第2の優先度情報が示す優先度が高いほど、当該オブジェクト信号が前記受聴位置に近い位置となるよう前記オブジェクト信号それぞれの配置を決定するとしてもよい。これにより、優先度の高いオブジェクト信号である、例えば、重要人物の音声を受聴位置から近い位置となるよう配置するので、重要な人物の発言ほど聴き取りやすくすることができる。
さらに、前記音響符号化情報のそれぞれには、前記音響空間における、あらかじめ定められた基準位置に対するオブジェクト信号それぞれの音源の相対位置を示す相対位置情報が含まれ、前記レンダリング部は、前記音響信号のそれぞれに割り当てられた前記領域のあらかじめ定められた位置を前記基準位置とし、前記音環境情報で示される前記相対位置から前記各オブジェクト信号の前記受聴空間における前記仮想音源の位置を算出し、算出した前記位置に前記オブジェクト信号の前記仮想音源を配置するとしてもよい。これにより、各拠点では、拠点ごとの話者の位置を受信側に知らせることができ、受信側では、各拠点における話者の位置と同じように話者の音声の仮想音源を配置することができる。
上記課題を解決するために、本発明の符号化復号化装置は、1以上のオブジェクト信号の集まりである音響信号を収音する収音部と、収音した前記音響信号をそれぞれの前記オブジェクト信号に分離する分離部と、分離された前記オブジェクト信号をオブジェクト符号化して音響符号化情報を生成し、生成した前記音響符号化情報に、前記音響信号のそれぞれに対する優先度の高低を示す優先度情報と、前記音響信号に含まれる前記オブジェクト信号の数とを重畳するオブジェクト符号化部と、前記音響符号化情報を複数の他の装置から受信し、受信した前記音響符号化情報のそれぞれをオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、前記オブジェクト復号化部が生成した1以上の前記オブジェクト信号のそれぞれの仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する。これにより、会議の発言者の音声を聞き取りやすくするためのレンダリングを行う時に有用となる、各拠点の音響信号の優先度を含む音響符号化情報を生成するとともに、他の装置から受信した音響符号化情報をオブジェクト復号化し、復号化によって得られたオブジェクト信号の仮想音源を受聴者が聴き取りやすくなるように受聴空間に配置することができる。
多拠点・多人数がIP通信網を介して会議するシステムにおいて、オブジェクト符号化技術を用いると、受信拠点側の音響信号の空間的配置を自由に制御することが可能になる。さらに本願発明によると、重要話者や重要拠点の音声を受信側の音響空間に仮想的に大きく配置し、重要拠点における重要話者の音声の仮想音源を、聴感上、聞き取りやすい仮想空間に配置することができる。それの他にも送信側および受信側の都合に合わせた配置を実現することができ、会議の臨場感を飛躍的に向上するという優れた効果が得られる。また、個別の話者の音声信号を独立して柔軟に制御可能な仮想会議システムを実現することができる。仮想会議システムを実現したことで、オブジェクト(話者)ごとに音声信号を制御することと相まって、会議の臨場感をさらに向上することが可能となる効果がある。
図1は、オブジェクト符号化を適用し、レンダリング部を持つ仮想会議システムの構成図である。 図2は、多拠点接続装置MCUと拠点間での初期化情報の送受信方法を示す図である。 図3は、受信拠点における各拠点の仮想空間配置図である。 図4は、自動レンダリング過程のフローチャートである。 図5は、受信拠点における拠点の優先度に基づく仮想空間の配置設定図である。 図6は、受信拠点における拠点の仮想空間の位置設定図である。 図7は、受信拠点における所定オブジェクト信号の配置図である。 図8は、ステレオシステムでのレンダリング処理の例を示す図である。 図9は、5.1chサラウンドシステム構成図である。 図10は、受信拠点におけるオブジェクト信号の幾何学的配置図である。 図11は、実施の形態3におけるレンダリング方法を示す図である。 図12は、実施の形態4のオブジェクト符号化情報のデータ構成を示す図である。
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
図1を用いて、本実施の形態の多拠点・多人数が参加する臨場感会議システムにおけるオブジェクト符号化部・復号化装置について説明する。なお図示していないが、図1の拠点A、拠点D以外に、拠点B、拠点Cがこの会議システムによる会議に参加しているものとする。以下では、送信側(符号化装置側)の代表例として拠点Aでの処理についてのみ説明し、他の拠点Bおよび拠点Cについては、拠点Aと同様の処理を行うものとして説明を省略する。また、拠点Dについては、受信側(復号化装置側)の代表例として、オブジェクト符号化情報を受信した後の音響信号の再生処理についてのみ説明するが、拠点Dにおいても拠点A〜Cと同様に送信側の構成を備えるとしてもよい。このような会議システムにおいて受信側の構成のみを備え、送信側の構成を備えない場合は、当該拠点は、会議において発言しないオブザーバーの立場となる。また、拠点A〜Cについては、送信側の例として説明するが、受信側の構成も備えるものとする。受信側の拠点、例えば、拠点Dでは、オブジェクト復号化部806およびレンダリング部807を備える。受信側の拠点では、例えば、前段に多拠点接続装置805を備えるとしてもよい。また、送信側の拠点、例えば、拠点Aでは、収音部801、分離部803、オブジェクト符号化部804を備える。
拠点Aの会議室802では、複数のマイクロフォンからなるマイクロフォンアレイなどで実現される収音部801を用いて、音響信号を収音する。
分離部803は、収音部801により得られた音響信号からノイズ成分を除去した上、互いに空間的な関連性がない音響的に独立した複数の音響信号に分離する。分離部803は、さらに、分離されたそれぞれの音響信号(以下、「オーディオオブジェクト信号」または単に「オブジェクト信号」という。)をオブジェクト符号化部804に入力する。ここで、音響的に独立したオブジェクト信号とは、例えば、会話をしている各話者の声、会話の背後に流れている音楽、電話の呼び出し音などであり、音響信号とは、同時に発話している話者の音声が合成された信号である。従って、オブジェクト信号は人間の音声だけには限られないが、通常の場合、テレビ会議の会議室としては雑音が少ない部屋が選択されるので、各オブジェクト信号を各話者の音声であると見なしても問題ない。
分離された各オーディオオブジェクト信号はオブジェクト符号化部804でオブジェクト符号化される。このオブジェクト符号化は、背景技術で説明したようにして行われる。オブジェクト符号化部804では、オブジェクト分離信号としていくつかの制御情報を生成し、ビットストリームに重畳する。この制御情報は各オブジェクトの音響的なレベル差(OLD:Object Level Difference)、各オブジェクト間の正規化エネルギー(NRG:Normalized Related Gain)、オブジェクト間相関・コヒーレンス(IOC:Inter Object Coherence)などである。制御情報はこれらに限ったものではなく、そのほかのオブジェクトごと、あるいはオブジェクト間にまたがる音響信号に関連する情報であってもよい。ただし、OLD、NRG、IOCの少なくともいずれか一つは制御情報に含まれるのが望ましい。
オブジェクト符号化部804では、その拠点における音響信号と、制御情報の符号化に加えて、さらに二つの情報を伝送する。参加拠点の数(numSite)を示す情報と、各参加拠点の、もしくは各オブジェクトの優先度情報(Priority)である。なお、Priorityが各参加拠点の優先度情報を示す場合には、iは例えば、各拠点を一意に特定できる拠点ごとのシリアル番号またはIDであって、どの拠点かを示し、Priorityが各オブジェクトの優先度を示す場合には、iは例えば、各オブジェクトを一意に特定できるオブジェクトごとのシリアル番号またはIDであって、どのオブジェクトかを示す。なお、図1では、優先度情報がオブジェクト符号化情報の末尾に付加されている例を示したが、本発明はこれに限定されず、優先度情報をオブジェクト符号化情報の前段の、例えば、ヘッダ部やパラメータを記述する部分などに付加して送信する構成としてもよい。このように、優先度情報をオブジェクト符号化情報の前段に付加しておけば、オブジェクト復号化部において、オブジェクト符号化情報の復号化処理を開始する前にオブジェクト符号化情報から優先度情報だけを抽出して当該拠点の優先度を把握することができる。この結果、オブジェクト復号化部側では、例えば、オブジェクト数が多数あって優先度が低いオブジェクト信号を再生しないよう制御する場合には、必要最小限のオブジェクト信号だけを復号化することができる。これにより、本実施の形態のオブジェクト復号化部では、復号化における処理負荷を低減することができる。またさらに、これにより、各オブジェクト信号に対して、各オブジェクト信号の仮想音源の位置を受聴空間に配置するためのレンダリング角度を決定する処理とオブジェクト信号の復号化処理とをパラレルに実行することができ、復号化における処理遅延量を低減することが可能になる。各拠点のオブジェクト符号化部804はnumSiteの値をデフォルトの値である1に設定し、多拠点接続装置(MCU)805に、音響信号と制御情報の符号化情報にnumSiteとPriorityを重畳したオブジェクト符号化情報を送信する。多拠点接続装置805に送信されたオブジェクト符号化情報は、多拠点接続装置805経由で他の拠点に送られる。なお、多拠点接続装置805を介さず、各拠点間で送受信する構成であってもよい。この場合、オブジェクト符号化部804は、別拠点のオブジェクト復号化部806にオブジェクト符号化情報を送信する。
次に多拠点接続装置805について説明する。多拠点接続装置805は基本的に、複数の異なる拠点から、ここでは拠点Aから送信されたオブジェクト符号化情報A809、拠点Bから送信されたオブジェクト符号化情報B810,拠点Cから送信されたオブジェクト符号化情報C811を受信し、それらを一つのオブジェクト符号化情報として合成し、別の拠点へと送信するよう動作する。この合成により得られた合成オブジェクト符号化情報812には、多拠点接続装置805が受信した全ての拠点からの情報とそれらを分離する分離情報を含む。このようにして各拠点には全拠点の情報とその拠点以外の全拠点の情報を分離できる分離情報を含むビットストリームが送られることとなる。
多拠点接続装置805の動作内容について詳細に説明する。まず会議を始める際に、各拠点と多拠点接続装置805間では、符号化装置・復号化装置を初期化するための情報のやりとりが行われる。初期化される情報としては、拠点数や、符号化方式の種類、再生チャンネル数、マイクロフォンの数、画面の解像度、フレームレートなどがある。これらの情報が各拠点間で正常にやりとりができると多拠点接続装置805が判断すると、会議を始めることが可能になる。正常にやりとりができない場合とは、ある拠点のデコーダがオブジェクト符号化情報を復号化する手段を持っておらずオブジェクト符号化に対応できない場合や、再生装置の再生可能チャンネル数が送信チャンネル数よりも少ない場合等である。
多拠点接続装置805は、上記に示したような初期化情報のうち各拠点に係る情報を全拠点分収集完了した後に、各拠点から送信されたnumSiteを合計する。これにより実際のnumSiteの値を算出できる。これは図2に示す方法によっても算出できる。図2は初期化時における各拠点と多拠点接続装置805間のやりとりを例示している。拠点Aは多拠点接続装置805に対して、あらかじめ決められている初期化をする旨の情報(例えば文字列"hello")を送信し、拠点Bも同様に送信する。多拠点接続装置805は送信されてきた"hello"の数をカウントしても実際のnumSiteの値を算出できる。会議中に参加拠点が増減した場合は、各拠点が常にnumSiteを1として多拠点接続装置805に送信してくると、どの拠点が参加をやめ、どの拠点が新たに参加したかわかりにくい。しかし、会議に初めて参加した場合には、このような初期化する旨の情報を送ると決めておけば、新たに参加した拠点が把握しやすいという効果がある。
次に、多拠点接続装置805は合成オブジェクト符号化情報812を各拠点に送信する。この合成オブジェクト符号化情報812は、全参加拠点の音響信号と制御情報の符号化情報を合成した情報と、この合成情報から受信拠点を除く各拠点の符号化情報を分離する分離情報とを符号化した符号化情報に、実際のnumSiteと受信拠点を除く各拠点の初期化情報を重畳したものである。この合成オブジェクト符号化情報812を送信することで、参加拠点に係る情報を各拠点の符号化・復号化装置へとフィードバックする。
さらに多拠点接続装置805は、複数の拠点から送信されるオブジェクト符号化情報に重畳されていたPriorityの値を必要に応じて調整する。この調整は、送信されてきた全てのPriorityのうち、優先度の高い方から上位の所定個数分以下を新たな優先度情報として付加し、その他は一定の優先度とするように行う。例えば、上位5ランクまでは順位のある優先度を付加し、6位以下はすべて同ランクの6位という優先度を付加する。これにより、あまりに多くの優先度のランク付けを行わず、重要な拠点やオブジェクトの優先度についてのみ送信し、復号化装置における煩雑な処理を減らすことができる。また、この調整は拠点の参加人数や、参加する人の関係性、音声パワーの大きさ、音声の継続時間を示す情報から、拠点ごともしくはオブジェクトごとに優先度を設定しなおしてもよい。例えば拠点Aのあるオブジェクト信号に関するPriorityと、拠点Bのあるオブジェクト信号に関するPriorityが同じ値であった場合、音声パワーの強いほうを高く設定しなおすという調整を行う。また、設定されている優先度を無視して、各オブジェクト信号の音声パワーの強さの順を優先度としてもよい。すなわち、音声パワーの大きいオブジェクト信号の方が音声パワーの小さいオブジェクト信号よりも優先度が大きくなるように優先情報を設定するとしてもよい。さらに、音声パワーの大きいオブジェクト信号を他の拠点よりも多く含む拠点に対して、より大きい優先情報を設定するとしてもよい。なお参加する人の関係性を示す情報とは、例えば、ある拠点では発言者がおらず、聴衆だけが会議に参加していることを示す情報、ある拠点ではVIPが参加者に含まれていることを示す情報などである。このように拠点ごともしくはオブジェクトごとに優先度を設定し、オブジェクト符号化情報に重畳して受信拠点へ送信する。以上のように必要に応じてPriorityを調整することにより、受信拠点において優先度に従って適切な処理を行うことができる。
オブジェクト復号化部806は多拠点接続装置805から受信した拠点ごとの合成オブジェクト符号化情報812にオブジェクト復号化を行い、各拠点のオブジェクト信号を分離する。またそれと同時に、制御情報、全拠点数(numSite)、優先度情報(Priority)を分離する。なお、多拠点接続装置805を介さず、各拠点間で送受信する構成である場合、オブジェクト復号化部806は、受信側拠点以外の拠点のオブジェクト符号化部804からオブジェクト符号化情報をそれぞれ受信する。この場合も同様にオブジェクト復号化を行い、各拠点のオブジェクト信号を分離し、その他の制御情報等も分離する。ここで分離した情報に基づき、オブジェクト復号化部806は、実際の全拠点数の算出と、必要な場合には、多拠点接続装置805で行った場合と同様にして、上記のPriorityの設定しなおしを行う。
次に、自動レンダリング部807について説明する。レンダリング部807では、各拠点のオブジェクト信号のレンダリングをする前に、まず、受信拠点(図1においては拠点D)において受信拠点以外の拠点に係る、各オブジェクト信号の仮想的な配置を決定する。図3は拠点Dの会議室808における、各オブジェクト信号の空間的配置方法を模式的に示したものである。図3の受聴位置110は拠点Dにおける参加者の中心、拠点Dの会議室808の中心、参加者が1人である場合の参加者自身または複数の参加者のうちターゲットとする特定の1人の参加者自身などを示し、拠点Dでスピーカにより再生される音声を受聴可能なある一点を示すとする。図3の四角はある拠点Bを示し、101、102、103、104は拠点Bに発生しているオブジェクト信号を示している。レンダリング部807は、図3の円で示すように同じ拠点から送信されてきたオブジェクト信号を仮想的にグルーピングし、異なる拠点のオブジェクト信号が互いに区切られるように音響的に配置する。例えば図3に示すように会議参加の拠点数が拠点A〜拠点Eまでの5つの場合、受信拠点Dでは受信した情報から自身を除く、4つの拠点の情報を分離して、拠点ごとにグルーピングされたオブジェクト信号を受聴位置110の周りに配置する。このようにグルーピングすることで、どの拠点からどのような音響が送信されてきているのかということがわかりやすくなる。
以下、拠点ごとにグルーピングされたオブジェクト信号の配置方法について図4を用いて説明する。この配置は、各送信拠点の優先度Priorityと各拠点のオブジェクト信号数numObject_siteに従って決める。まず受信したビットストリームに含まれる拠点数などの情報を取得し(ステップS121)、numObject_siteに応じて、各拠点の受聴位置110の周りのレンダリング角を算出する(ステップS122)。拠点のレンダリング角とは、拠点ごとにグルーピングされたオブジェクト信号を全て含み、異なる拠点のオブジェクト信号を含まないよう拠点ごとに区切る、図3に示すような受聴位置110を通る矢印がなす角度のことである。各拠点のレンダリング角は式1を用いて、オブジェクト符号化情報に含まれるnumObject_siteにより決定する。
Figure 2010109918
つまり、受聴位置110の周り2πをレンダリングすべき全オブジェクト信号数で分割し、そのうち各拠点のオブジェクト信号数を乗算したものが各拠点のレンダリング角area_siteとなる。このように各拠点のオブジェクト数に従い、拠点ごとの音響信号の空間における広がり度合いを変化させる。沢山のオブジェクト信号を含む拠点に対しては広い音響空間を、少ないオブジェクト信号を含む拠点に対しては狭い音響空間を仮想的に割り当てることで、オブジェクト信号があまりにも密に、すなわち、互いに接近して配置されるのを防ぐことができる。また聴覚的に各拠点のオブジェクト数の差が判別しやすくなる。このように本実施の形態のレンダリング部807によると、受信拠点Dにおいて自動的に各拠点の各話者等の音源を聴覚的に分離するので、それぞれの話者の音声が聞き取りやすくでき、また受聴位置では、他の拠点にいる話者が受聴者の周囲に存在するかのように発言を聞くことができるので、会議の臨場感向上につながる。なお、ここでは、仮想空間上で各拠点が占める領域のレンダリング角を、各拠点に含まれるオブジェクト信号の数に応じて分配したが、本発明はこれに限定されず、各拠点の優先度に応じて分配するとしてもよい。例えば、上記式1にnumObject_siteの代わりにi番目の拠点の優先度(priority)を代入することにより、各拠点のレンダリング角を優先度に応じて配分することができる。
次に、上記で求めた各拠点のレンダリング角を配置する受聴位置110周りの位置(以下、拠点のレンダリング位置とする)を決定する(ステップS123)。拠点のレンダリング位置は、各拠点の優先度を示すPriorityが設定されている場合は、Priorityに基づいて決定する。例えば受聴位置110が受聴者の位置を示す場合、人間は後方から生じる音よりも、前方からの音をより聞き取りやすいという性質があるため、図5のように優先度の最も高い拠点のレンダリング位置を受聴位置110の前方に設定する。これに続いて優先度の高い順に、聞き取りやすい位置にその他の拠点のレンダリング位置も設定していけばよい。なお、多数の拠点の優先度が同じ場合は、最も優先度の高い一つの拠点のレンダリング角を聞き取りやすい位置(initial_angle)に配置し、その他の拠点を単純に式2、式3を用いて反時計回りに配置していってもよい。なお、Priorityが各オブジェクト信号の優先度を示す場合には、優先度の最も高いオブジェクト信号を含む拠点や、優先度の高いオブジェクト信号を多く含む拠点を聞き取りやすい位置に配置していけばよい。このように優先度情報に基づいて拠点のレンダリング位置を決定することで、優先度の高い音響をより聞き取りやすくすることができる。
Figure 2010109918
Figure 2010109918
なお、この拠点レンダリング位置は、Priorityが設定されていない場合や、設定されていた場合であってもこの値に基づかず、受信拠点と各送信拠点の位置関係に応じて決定してもよい。例えば、日本と米国と中国とオーストラリアの拠点間で会議をしている場合、日本での拠点レンダリング位置は、米国拠点からの信号を東よりに、中国拠点からの信号を西よりに、オーストラリア拠点の信号を南よりに設定してもよい。また会議システムの受聴位置110と会議システムの画像表示装置の位置関係等、設備環境に応じて決定してもよい。また送信側拠点の会議室の広さなどの情報に基づいて受信側拠点において各オブジェクト信号同士の最大配置距離を決定してもよい。これらの情報は上述した初期化情報として送信することとしてもよいし、必要に応じて送ることとしてもよい。これら拠点同士の位置関係や拠点の設備環境等の情報を音環境情報と定義する。このように会議における参加拠点同士の関係や各拠点の環境に基づいて拠点のレンダリング位置を決定することで、より臨場感を向上させることができる。
次に、拠点ごとにグルーピングされたオブジェクト信号の配置について説明する。area_siteとangle_siteとにより、各拠点のレンダリング角とレンダリング位置とを決定した後、オブジェクト信号は、その拠点のレンダリング角とレンダリング位置とにより決定したエリア内に仮想的に配置される。例えば、図3に示す拠点Bのオブジェクト信号101〜104は、105〜108のように受信拠点Dにおける拠点Bの仮想空間109内に仮想的に配置される。この仮想空間上の配置は、各オブジェクト信号にPriorityが設定されている場合には優先度情報が高いものが受聴位置に近くなるように、もしくは聞き取りやすい位置になるように配置する。このように配置することで、拠点ごとの音響を聞き分けやすいようグルーピングされたオブジェクト信号の中でも、優先度の高い音をより聞き取りやすくすることができる。
なお、各拠点の仮想空間内において、レンダリングされたオブジェクト信号が当該拠点のエリアの境界近くに配置された場合、隣接する他拠点エリア内のオブジェクト信号と距離が近くなり、拠点間のエリアの区別がつきにくくなる。このような場合には、レンダリング部807は、エリアの境界近くに配置するオブジェクト信号に対して、音量が小さくなるように補正する。例えば、エリアの境界近くに配置するオブジェクト信号に対しては、オブジェクト復号化部により復号化されたオブジェクト信号の本来の音量に対して、その7割程度に音量を絞るようにする。
またこれ以外の方法として、エリアの境界近くに配置するオブジェクト信号に対しては、受聴位置を中心として、当該オブジェクト信号の位置とエリア境界とのなす角が所定の角度以上、例えば、5°以上となるように、オブジェクト信号のレンダリング位置を補正するとしてもよい。または、各エリア内のオブジェクト信号のレンダリング位置が、当該エリアのレンダリング角の8割程度の挟み角の内部にくるようにレンダリング位置を計算する、あるいは、各拠点のエリアのレンダリング角を8割程度に計算するとしてもよい。
なお、上記の説明において、境界付近に位置するオブジェクト信号の音量を7割程度に絞る、または、境界付近に位置するオブジェクト信号とエリア境界とのなす角が5°以上となるようにする、各エリアのレンダリング角を算出された角度の8割程度に補正するとしたが、本発明はこれらの数値に限定されない。音量の補正、エリア境界から補正する角度、または、各エリアのレンダリング角の補正の割合などの具体的な数値は、例えば、数値をいろいろな値に変えながら、シミュレーション等により、受聴位置でのオブジェクト信号の聞き取りやすさが最適になるように値を定めればよい。
さらに、各拠点のエリアの境界付近にオブジェクト信号がレンダリングされないようにする他の方法として、次のような方法がある。例えば、各拠点の仮想空間のレンダリング角area_siteを、当該拠点に属するオブジェクト信号の数numObject_siteに所定の定数αを加算した数(numObject_site+α)で分割し、各オブジェクト信号をその優先度に応じて、受聴位置とエリアの中心とを結ぶ受聴位置の正面から、左右に順次配分することによって各オブジェクト信号をレンダリングするとしてもよい。例えば、優先度が最も高いオブジェクト信号は受聴位置の正面にレンダリングし、次に優先度が高いオブジェクト信号は受聴位置の正面から左に(area_site)/(numObject_site+α)の角度をなす位置にレンダリングする。また、3番目に優先度が高いオブジェクト信号は受聴位置の正面から右に(area_site)/(numObject_site+α)の角度をなす位置にレンダリングし、4番目に優先度が高いオブジェクト信号は受聴位置の正面から左に2(area_site)/(numObject_site+α)の角度をなす位置にレンダリングする。このとき、優先度の順にオブジェクト信号が受聴位置から所定の距離ずつ遠ざかるようにレンダリングするのが好ましい。このように、各拠点の仮想空間に割り当てられたレンダリング角をオブジェクト信号の総数以上の数で分割し、オブジェクト信号の位置が優先度の順に受聴位置の正面から左右に順次、(area_site)/(numObject_site+α)ずつ遠ざかるようにレンダリングしていくので、両側の境界の内側にそれぞれ角度α(area_site)/2(numObject_site+α)分の間隙の空間、すなわち、オブジェクト信号が配置されない空間を設けることができる。
これにより、各拠点が仮想空間に占めるエリア同士を、所定の幅を持った境界で区切ることができるので、各拠点が占めるエリアを聴感上、より明確に区分することができる。この結果、本実施の形態の臨場感会議システムによれば、臨場感があり、かつ、他拠点の発言を聞きやすい会議システムを実現することができる。
なお、Priorityが設定されていない場合や、設定されていてもその情報を利用しない場合には、拠点Bでのオブジェクト信号101〜104同士の相対位置を保持するように配置してもよい。このように相対位置を保持することで、仮想空間上で拠点の音源の状態を再現することができる。これにおいて、それぞれの拠点におけるオブジェクト信号の相対位置は、当該拠点からの音環境情報としてオブジェクト符号化情報に多重化し、他の拠点に送信してもよい。これにおいてオブジェクト信号の相対位置は、例えば、各拠点の会議室の中央あるいは拠点Dの前記受聴位置に該当する点を中心とし、モニタの方向を基準方向からπ/2の方向として、受聴位置から見たオブジェクト信号の距離および角度で表す。もちろん、各拠点におけるオブジェクト信号の相対位置は、この表現方法に限らず、例えば、各拠点の会議室における座標位置などで表わすとしてもよい。
以下では図4に加えてさらに図6も用いて各オブジェクト信号のその他の仮想的配置方法について説明する。同一拠点から送信されたオブジェクト信号は、上記で説明したように受聴位置110の周りのその拠点のレンダリング角で示されるエリア内に配置される。図6においては矢印406と矢印407により挟まれた角度が拠点Aのレンダリング角であり、このエリア内に拠点Aから送信されたオブジェクト信号は配置される。なお受聴位置405は図3での受聴位置110に対応し、拠点Aの仮想空間401は矢印406と矢印407に接する円であり、403は仮想空間401の中心点を示す。またdは受聴位置405と中心点403との間の距離を示す。
拠点ごとにオブジェクト信号をグルーピングして受信側会議室の受聴空間に仮想的に配置するにあたり、各オブジェクト信号は仮想空間401の内部に配置する。エリア内にばらばらに配置するよりも、ある程度塊のようにして配置することで、拠点ごとの音響を聴覚的に分離しやすくなり会議の臨場感が増すためである。しかし距離dがとても小さい場合は、仮想空間401の半径rも小さくなるため、各オブジェクト信号が配置される間隔が狭くなりそれぞれの分離が非常に難しくなる。逆に距離dがとても大きい場合、半径rも大きくなるため、オブジェクト信号が配置される位置が受聴位置405から遠くなり聞き取りにくくなる。また配置される間隔も広くなり、拠点ごとにグルーピングされたエリアを聴覚的に分離しにくくなる。このような問題を防ぐために、各オブジェクト信号を仮想空間401の円周上に均等に配置した場合における、オブジェクト信号間の最低距離(threshold)と、最大距離(Threshold)を定める。具体的には式4のようにして各拠点の半径riを定める(ステップS124)。定められた半径riと割り当てられたarea_siteにより、中心点403と受聴位置405の距離diも定まる(ステップS125)。このように閾値を設定することで、音を分離しにくかったり聞きにくかったりするという問題を防ぐことができる。なお、ここでは最低距離と最大距離を設定したが、全オブジェクト信号数が極めて少ない場合には、最低距離より最大距離のほうが重要になり、最大距離のみを設定するのであってもよい。なお、最低距離と最大距離との値は、これらの値を様々に変えながらシミュレーションを行い、各拠点内のオブジェクト信号が最適に配置される値を定めればよい。
Figure 2010109918
ここで図7を用いて、オブジェクト信号の配置についてさらに詳細に説明する。図7の受聴位置501は上記110、405と同様に受聴位置を示す。X軸は図7に示す拠点のレンダリング角を二等分する軸であり、Y軸はX軸に直行する軸である。拠点iの仮想空間内におけるオブジェクトjの配置角度をold_angleijとする。ここでオブジェクトjから生じるオブジェクト信号にPriorityが設定されている場合は、それに基づいて拠点iの仮想空間内における配置を決定する。Priorityが設定されていない場合等では、拠点iにおけるオブジェクトjの位置や音のパワー等の情報に基づいて配置を決定する。このようにして決定されたオブジェクトjの位置503と拠点iの仮想空間の中心点502とを結ぶ直線とX軸がなす角度が、old_angleijである。このold_angleij、受聴位置501と拠点iの仮想空間の中心点間の距離d、中心点502とオブジェクトjの位置503の距離を用いて、X軸がなす角度new_angleijを算出できる(ステップS126)。このようにして算出したnew_angleijと拠点iのレンダリング位置angle_siteより、受信拠点におけるオブジェクトjの配置角度angleijを式5のようにして求めることができる(ステップS127)。
Figure 2010109918
以上のようにして、拠点ごとの音響を聴覚的に分離しやすいようオブジェクト信号をグルーピングして配置することができる(ステップS128)。また、上記では図3、図5、図6および図7において、仮想空間における各拠点のエリアの形状を円としたが、円に限ったものではなく、聴覚的に拠点ごとのエリアを分離しやすい配置であれば他の形状、例えば、楕円などでもかまわない。さらに、図7ではオブジェクトjは円周上に配置するよう図示したが、もちろん仮想空間内部に配置してかまわない。
次に、各拠点の各オブジェクト信号のレンダリング処理について図8を用いて説明する。図8においてスピーカA901とスピーカB902はそれぞれステレオスピーカである。受聴位置905は、受聴位置110等に対応し、受信拠点の聴講者の一人であったり、聴講者の中心位置であったり、拠点の会議室の中心であったり、拠点における受聴可能なある一点を示す。図8に示すように、線分904は受聴位置905を通り、スピーカA901とスピーカB902間を二等分するような二等分線である。θは線分904とスピーカA901の間の挟み角を示している。θはスピーカA901およびスピーカB902の位置と向きによって決定する。
ここで、スピーカA901とスピーカB902を用いて図8に示すような方向に音響信号源903を仮想的に作り出す方法について説明する。図8のような場合、スピーカB側において音響信号の角度θは正の値であり、スピーカA側においてθは負の値である。θは受聴位置905と上記のようにして求めた各オブジェクト信号を配置したい音響信号源903の位置から算出する。X(n)は音響信号源903からの信号とし、A(n)、B(n)はそれぞれスピーカA901、スピーカB902からの音響信号とする。スピーカA901とスピーカB902の正味のエネルギーを調整することで、図8に示すようなステレオスピーカシステムにより、音響信号源903における音響空間を模擬することが可能である。なお、具体的にスピーカA901とスピーカB902のエネルギーの調整は以下の式6を満たすようにして行う。
Figure 2010109918
ここで、パラメータa、bは、例えば、θ=θの場合、音響信号源903とスピーカB902の方向が同じのため、a=0,b=1となる。同様にして、θ=−θの場合にはa=1,b=0となり、θ=0の場合には、
Figure 2010109918
となる。一般化すると、パラメータa、bはθとθを用いて式7のように表せる(非特許文献1参照)。
Figure 2010109918
このような方法で送信されてきたオブジェクト信号に対応する仮想的な音源を受信拠点において作り出すことができる。
次に、受信拠点における音響システムが5.1chのシステムである場合のレンダリング処理例について、図9を用いて説明する。図7を用いて説明したようにして受信拠点以外の、全拠点の全オブジェクト信号の配置情報からレンダリングマトリックスを生成することができる。1001〜1005はそれぞれ受信拠点におけるフロント左スピーカL、フロントセンタースピーカC、フロント右スピーカR、リア左スピーカLs、リア右スピーカRsを示す。前後方向の中心線1007はフロントセンタースピーカC1002と受聴位置1008を通る線であり、左右方向の中心線1006は前後方向の中心線1007と直行する線を示す。このような5.1chのシステムにおいて各オブジェクト信号は以下のステップによりレンダリングされる。
ステップ1:各オブジェクト信号のレンダリングを行うためのスピーカを判断する。
各オブジェクト信号と左右方向の中心線1006のなす角度が上記の方法により求めたangleijになるように、仮想的に作り出す音響信号源として配置していく。受聴位置1008から各音響信号源までの距離は、Priorityが設定されている場合は、それに基づいて、設定されていない場合等は位置関係等に基づいて決定し、配置する。スピーカ1001〜1005のうち、隣接するいずれか二つと受聴位置1008がなす角度により挟まれる鋭角のエリア内に配置された各音響信号源は、その二つのスピーカにより仮想的に作り出される。図9は受聴位置1008を中心に5つのスピーカが空間的に設置されていることを平面的に示した図である。1006の矢印が示す方向が0°で、スピーカ1001〜1005は、それぞれ120°、90°、60°、210°、330°である。従って、スピーカRs1005、スピーカR1003により挟まれる音響信号源は、対応するオブジェクト信号のレンダリング角度angleijが式8で示されるものである。
Figure 2010109918
その他の隣接する二つのスピーカにおいても同様である。例えば、音響信号源に対応するオブジェクト信号のangleijが10°の場合、レンダリングするにあたりスピーカRs1005、スピーカR1003を選択する。
ステップ2:各オブジェクト信号のレンダリング係数を算出する。
図8を用いて上述した方法に従って、ステップ1で選択した二つのスピーカにより音響信号源を仮想的に作り出す。例えば、作り出したい音響信号源に対応するオブジェクト信号のangleijが10°の場合、スピーカR1003は図8のスピーカA901に対応し、スピーカRs1005はスピーカB902に対応する。レンダリング係数は式2、1003と1005がなす角の半分である45°(=θ)、angleij(=θ)を用いて算出する。なお、レンダリング係数とは式6のa、bを指し、それぞれスピーカR1003、スピーカRs1005のレンダリング係数に対応する。また、残りのスピーカのレンダリング係数は0に設定する。すなわちスピーカ1001〜1005のレンダリング係数のマトリックスを[L,C,R,Ls,Rs]と表記すると、angleijが10°のオブジェクト信号に対するレンダリング係数のマトリックスは [0,0,a,0,b](≒[0,0,0.518,0,0.855])となる。
このようにして5.1chの再生システムを使用し、受聴空間に各オブジェクト信号の音響信号源を仮想的に作り出すことができる。なお、前記再生システムは5.1chに限定したものではなく、7.1chなどの多チャンネル再生システムであっても良いし、2chの再生システムを用いて頭部伝達関数(HRTF:Head Related Transfer Function)を畳み込んで得られる仮想音響空間であっても良い。
以上のようにレンダリングを制御するオブジェクト符号化技術を用いると、受信拠点側の音響信号の空間的配置を自由に制御することができる。さらに本発明によって、重要話者を音響空間的に大きく配置、聴感上も重要である旨を表現する空間配置をするなどができる。このようにオブジェクト信号間の関係等、会議システム参加拠点の都合に合わせた配置を実現して会議での臨場感をより向上させられる有益な効果が得られる。
(実施の形態2)
実施の形態1と同様、本実施の形態における会議システムも図1のような構成を有する。構成の詳細については上述したとおりなので、Priorityの他の設定方法についてとレンダリング部807でのその他のレンダリング方法について説明する。
各拠点もしくは各オブジェクト信号の優先度を示すPriorityは、多拠点接続装置805にリクエスト等を送ることで取得するのであってもよい。送信拠点では、単に符号化した情報を送信するに過ぎず、各拠点の優先度や各オブジェクト信号の全体における優先度は未知である。多拠点接続装置805で全ての拠点から符号化情報を受け取った際に、優先度の判断および決定を行う。この決定は、例えば各拠点の活動度を計測することにより行う。この活動度は、一定時間(例えば1時間)あたりより多くの回数、符号化情報を送信した拠点が高くなるように、設定する。これにより、一定時間あたり情報の送信回数が少ない拠点に対しては、黙っていることが多いと判断して活動度を低く設定し、設定された活動度の高低に従って、各拠点または各オブジェクト信号の優先度の高低を決定する。このような設定にすることでその瞬間、会議に重要である拠点やオブジェクト信号について優先度を上げて扱うことができ、効率のよいレンダリング処理が可能となる。なお、上記説明において、活動度を算出してオブジェクト信号の優先度の高低を決定し、レンダリング装置を制御する時間間隔は、1時間に限定されず、30分単位でも、2時間単位であってもよく、任意に定めた時間単位でよい。また、上記では多拠点接続装置805が各拠点の活動度を計測するとしたが、本発明はこれに限定されない。例えば、各拠点の各オブジェクト復号化部806が、単位時間あたりに符号化情報を受信した符号化情報の符号化ビット数(=符号長)を拠点ごとに計測し、これを活動度として各拠点の優先度の高低を決定するとしてもよい。
ただしこれは、優先度を取得せず、または取得した優先度に従わず、拠点の復号化装置で優先度を設定してレンダリングを行うことを否定するものではない。MCUを介さない会議システムである場合や、拠点側で優先度を決定したいときなど、状況に応じて図1のUser Informationを用いてレンダリングの配置を設定してもよい。このように拠点側で優先度を判断し、設定することでより受聴者の好みに合わせたレンダリングが可能となる。
次にレンダリング部807におけるその他のレンダリング方法について説明する。上述したようにオブジェクト信号の総数であるnumObject_siteを用いて、各拠点のレンダリング角area_siteを算出できる。ここでは式9に示すように、総数ではなく各拠点で有効なオブジェクト数active_numObject_siteを用いて算出してもよい。なぜなら、ある拠点において参加者数がたとえ多くとも、その参加者のうち一人や二人といった少人数の参加者の音声が重要であり、その他の参加者は基本的に聴衆であり、その音声は会議に無関係な場合などがありえるためである。このような場合オブジェクト信号の総数からその拠点のレンダリング角を算出すると、あまり送信する必要のないオブジェクト信号のために、受信拠点において、その拠点に対して大きな仮想空間を割り当ててしまうこととなる。そこで、式9のように有効なオブジェクト信号数を用いてレンダリング角を算出することで、受信拠点において重要なオブジェクト信号を効率よく音響的に配置可能とし、自然で有意義な会議システムを実現することができる。なお、受信拠点においてより快適で臨場感ある仮想会議環境を実現するために、active_numObject_siteの値は一定でなく、オブジェクト信号のパワーの変化等に基づいて動的に変化させてもよい。
Figure 2010109918
このようにnumObject_siteとactive_numObject_siteの値に従って拠点のレンダリング角を決定してもよいし、各拠点にPriorityが設定されている場合には、式10により決定してもよい。なお、ここではPriorityの値が大きいほど高い優先度を示すものとする。ビット数があまり多くなりすぎないよう、推奨する優先度ランクは1から3である。3が最も高い優先度を示し、1が最も低い優先度を示す。
Figure 2010109918
受信拠点の受聴者やシステム管理者などは、各拠点のレンダリング角を算出するために式9、numObject_site、active_numObject_siteを用いるか、式10、Priorityを用いるかを選択する。この選択は、図1のUser Informationとしてレンダリング部807に入力することで行う。
次に図5を用いて、優先度に基づき拠点のレンダリング位置angle_siteを決定する方法について説明する。優先度に基づく配置とは、より高い優先度の拠点のグルーピングされたオブジェクト信号をより聞きやすい位置に配置することである。まず、インデックスiが増加するごとに優先度が下がるように拠点を並び替える。そして初期値を最も聞き取りやすい位置に設定し、式11、式12を用いて全ての拠点を配置していく。
Figure 2010109918
Figure 2010109918
図5において、拠点1からインデックスが増加するごとに優先度が下がるように拠点を並び替える。次に、最も聞き取りやすい位置が正面の場合、initial_angleを90度とする。式12によりangle_site1は90度となり、優先度の最も高い拠点1は正面に配置される。2番目に高い拠点2を拠点1のレンダリングエリアの左側に配置する。3番目に高い拠点3を右側に配置する。以下、偶数番目に優先度の高い拠点は左側に、奇数番目に高い拠点は右側に配置していく。このようにして配置することで優先度が高い拠点の音響ほど受信拠点の参加者にとって聞き取りやすい位置に配置することができる。なお、偶数番目に高いものは左、奇数は右としたが、もちろんこれに限ったものではない優先度順に聞き取りやすい位置に配置していくことができれば他の方法でかまわない。
また拠点のグルーピングされたオブジェクト信号は実施の形態1で図6を用いて説明したとおりに配置する。上記では各オブジェクト信号間の最低距離である閾値(threshold)と、最大距離(threshold)を式4のように定めていたが、受聴位置405と仮想空間の中心点403との距離diの閾値を定めるのでもよい。これにより、前述したのと同様に音を分離しにくかったり聞きにくかったりするという問題を防ぐことができる。
次に拠点ごとの各オブジェクト信号配置について図10を用いて説明する。図10は受信拠点以外の拠点の全オブジェクト信号配置例を示す図である。図10のように、各拠点における各オブジェクトの相対的な位置関係によらず、オブジェクト信号を拠点のレンダリング角が示すエリア内で、受聴位置610を中心とする仮想空間609上に配置してもよい。例えば拠点Bのオブジェクト信号601〜604は、拠点Bにおける相対位置に関わらず、拠点Bのレンダリング角が示すエリア内で仮想空間609上に、605〜608のように配置される。このように円状に配置することで、受聴位置から仮想のオブジェクト信号源までの距離が同じになり、優劣なく聞き取ることができる。
この仮想空間609は、円状に限らず正方形や長方形、三角形、六角形など別の幾何学的形状であってもよい。また、それぞれのオブジェクトの優先度に応じて受聴位置610からの距離が変化するよう配置するために、その形状を定めてもよい。また、幾何学的形状に配置するのであれば、優先度に従って重要なオブジェクト信号をより受聴位置に近くなるような位置に配置することで効率的なレンダリングができる。
もちろんどのような形状であっても、拠点ごとのレンダリングエリアにグルーピングされてオブジェクト信号が配置されるので、拠点ごとの音響を分離しやすい。なお上述したとおり、優先度を受信拠点側で設定してもよいので、受聴者の好みに合わせて座標変換等によりパラメータを最適化し全体拠点の位置を移動させることも可能である。このように、拠点やオブジェクト信号の優先度情報Priority、各拠点のオブジェクト信号数numObject_siteを導入することで、本実施の形態はオブジェクト信号のレンダリングを自動的に行うことができる。
以上、実施の形態1および実施の形態2において説明してきたとおり本発明によると多拠点接続時には、各送信拠点のオブジェクト信号の相対的な位置を保持するようレンダリングすることもできる。また、拠点ごとのオブジェクト信号をエリア内のある一定の範囲内に配置することで、拠点ごとの音響を聴覚的に分離しやすくできる。さらに、優先度やオブジェクト数に応じてオブジェクトのレンダリング角度やレンダリング距離を制御することで、優先度に基づいて優先度の高い各拠点や各オブジェクト信号を聞き取りやすいよう順番にレンダリングすることができる。このように本発明によると会議における音声明瞭度を向上させることができる。
(実施の形態3)
レンダリング部807は、図3に示すように参加している各拠点から送信されてきたオブジェクト信号を仮想的にグルーピングする以外に、図11に示すようなレンダリングを行ってもよい。図11は受信拠点において、参加している各拠点の音響空間的な中心位置を一致させるようにレンダリングすることを示している。この中心位置とは各拠点の会議室の中心や、マイクロフォン等の収音設備の位置などである。このように受信拠点において各拠点の中心位置を一致させてレンダリングを行うと、各拠点の音響空間を受信側の仮想音響空間において重ね合わせたような状態を表現することができる。
例えばある拠点Aが広い会議室であり、拠点Bが狭い会議室である場合、受信拠点において拠点Aから送信された音響信号が作る仮想音響空間が広い範囲にレンダリングされることとなり、拠点Bの音響信号が作る仮想音響空間が狭い範囲にレンダリングされ、拠点の広さや音響空間の状態を受信拠点側で感じることができる。このような構成によると、参加する各拠点の音響空間の広がりを相対的に受信拠点において再現することができ、会議の臨場感が向上するという効果を奏する。
(実施の形態4)
図12は、実施の形態4のオブジェクト符号化情報のデータ構成を示す図である。同図に示すように、オブジェクト符号化情報1200には、ダウンミックス情報1201と、当該ダウンミックス情報1201を用いてそれぞれのオブジェクト信号を復号化するためのオブジェクト情報1202、1203とが含まれる。それぞれのオブジェクト情報1202、1203には、オブジェクト信号間のゲイン比情報(OLD)や位相差情報(IOC)が含まれている。例えば、このゲイン比情報は、各オブジェクト信号のダウンミックス情報1201に対する比で表されている。また、ダウンミックス情報1201には、ダウンミックス情報のゲインを示すグローバルゲイン情報1204が含まれている。このオブジェクト符号化情報1200をオブジェクト復号化部で復号化する際に、ダウンミックス情報1201に含まれるグローバルゲイン情報1204と、前記オブジェクト信号のゲイン比情報(OLD)1205、1206とを用いて優先度を判定することも可能である。通常、これらのゲイン情報は優先度を示している訳ではないが、ダウンミックス情報のゲインが大きい、または、前記ダウンミックス情報とオブジェクト情報を用いて復号化したオブジェクト信号のゲインの大きさを暗黙的に示す、オブジェクト情報に含まれるゲイン比の値と前記ダウンミックス情報に含まれるゲイン情報との積が大きいことは、それらが音響的に大きいことを示しており、音響信号が大きいと言うことは、それだけ優先度が高い可能性があり、ゲイン情報と優先度との間にはある程度の相関関係がある。そこで、その相関関係を鑑みて、ダウンミックス情報1201のグローバルゲイン情報1204は、その拠点の代表的な優先度を示すものと解釈し、各オブジェクト情報1202、1203に含まれるゲイン比情報(OLD)1205、1206は、それぞれオブジェクト信号毎の優先度を示すものと解釈してもよい。このようにすることにより、“(ダウンミックス情報のゲイン)*(オブジェクト信号間のゲイン比)”の値を復号化装置またはMCUにて算出し、その値の順位に従って、すべてのオブジェクト信号の優先度を算出することができる。このようにして算出した優先度に基づいて、本実施の形態のレンダリング部807では優先度に従って各オブジェクトを仮想空間に自動的にレンダリングすることが可能になる。
このように本実施の形態のレンダリング部807では、各オブジェクト信号のゲイン比がオブジェクトごとに分離されているオブジェクト符号化情報1200の構造を利用して優先度を決定するので、優先度を算出するための負荷を削減することができ、復号化装置の復号化負荷を軽減することが可能である。さらに、復号化装置の演算性能が低い場合、前記手法に従って決定した優先度のうち、所定の値より優先度が低いと判定したオブジェクト信号に対しては符号化情報を復号化しないことにより、レンダリング部807の処理負荷をより低減することができる。なお、これにおいて、所定の値は、復号化装置の演算性能によって決められる値である。
なお、ダウンミックス情報のグローバルゲイン情報と、オブジェクト信号間のゲイン比情報とに従って優先度を決定する上記の手法において、レンダリングをフレーム毎に逐次制御すると、オブジェクト信号および拠点の優先度が頻繁に変化し、ひいては上記レンダリング手法によって配置したオブジェクト再生エリアが頻繁に変化することにより、聞き心地が悪くなる場合がある。そのため、このような場合には、複数フレームにわたってグローバルゲイン情報およびゲイン比情報を平滑化・平均化し、その平均値に従ってレンダリングの制御を行うことで、急峻な優先度変化(レンダリングされた再生エリアの変化)を防ぐことが好ましい。
なお、オブジェクト信号を自動的にレンダリングする領域の境界付近にオブジェクトをレンダリングする際に、そのオブジェクトの音量が大きくなる場合には、レンダリング境界が曖昧になるため、本願発明の効果が正確に発現しない場合がある。レンダリング境界の明瞭度と境界近くにレンダリングされたオブジェクトの音量は相関関係があるので、レンダリング境界を明確にするためには境界面付近のオブジェクト信号の音量を小さくする。
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、本発明は、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体に記録したものとしてもよい。コンピュータ読み取り可能な記録媒体は例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどである。また、本発明は、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムで実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、通信経路を介して複数の拠点が接続されており、各拠点がオブジェクト符号化されている多拠点会議システムに有用である。
101、102、103、104 (拠点Bに発生している)オブジェクト信号
105、106、107、108 受信拠点Dにおける拠点Bの仮想空間上のオブジェクト信号
109、609 受信拠点Dにおける拠点Bの仮想空間
110、405 (受信拠点Dの)受聴位置
401 (拠点Aの)仮想空間
403 (401の)中心点
404 402の中心点
406、407 (受信拠点Dにおける拠点Aの仮想空間を挟む)矢印
501 受聴位置
502 (仮想空間の)中心点
503 (オブジェクトjの仮想空間上の)位置
601、602、603、604 拠点Bのオブジェクト信号
605、606、607、608 受信拠点Dにおける拠点Bの仮想空間上のオブジェクト信号
609 (受信拠点Dにおける)仮想空間
610 (受信拠点Dの)受聴位置
801 収音部
802 拠点Aの会議室
803 分離部
804 オブジェクト符号化部
805 多拠点接続装置
806 オブジェクト復号化部
807 レンダリング部
808 拠点Dの会議室
809 拠点Aから送信されたオブジェクト符号化情報A
810 拠点Bから送信されたオブジェクト符号化情報B
811 拠点Cから送信されたオブジェクト符号化情報C
812 合成オブジェクト符号化情報
901 スピーカA
902 スピーカB
903 配置位置
904 線分
905 受聴位置
1001 フロント左スピーカL
1002 フロントセンタースピーカC
1003 フロント右スピーカR
1004 リア左スピーカLs
1005 リア右スピーカRs
1006 左右方向の中心線
1007 前後方向の中心線
1008 受聴位置
1101 拠点Aにおけるオブジェクト信号1の位置
1102 拠点Aにおけるオブジェクト信号2の位置
1103 拠点Aにおけるオブジェクト信号3の位置
1104 拠点Aにおけるオブジェクト信号4の位置
1105 拠点Aにおけるオブジェクト信号5の位置
1106 拠点Aにおける中心位置
1107 拠点Bにおけるオブジェクト信号6の位置
1108 拠点Bにおけるオブジェクト信号7の位置
1109 拠点Bにおける中心位置
1110 受信拠点Cにおけるオブジェクト信号1の位置
1111 受信拠点Cにおけるオブジェクト信号2の位置
1112 受信拠点Cにおけるオブジェクト信号3の位置
1113 受信拠点Cにおけるオブジェクト信号4の位置
1114 受信拠点Cにおけるオブジェクト信号5の位置
1115 受信拠点Cにおけるオブジェクト信号6の位置
1116 受信拠点Cにおけるオブジェクト信号7の位置
1117 受信拠点Cにおける拠点Aと拠点Bの中心位置
1200 オブジェクト符号化情報
1201 ダウンミックス情報
1202、1203、 オブジェクト情報
1204 グローバルゲイン情報
1205、1206 ゲイン比情報(OLD)
本発明は、多拠点・多人数の話者が参加する会議システムにおける音響信号をオブジェクト符号化およびオブジェクト復号化する装置に関する。
昨今のブロードバンド通信技術の発展とともにIP通信技術が一般的になり、一般的なビジネスシーンでの会議や一般家庭間のコミュニケーションシーンでも、IP通信技術を基盤とした電話会議システムや音声信号のみならずビデオ画像も同時に提示するような臨場感コミュニケーションシステムが登場してきた。また、IP通信の速度や安定性の向上により、多拠点・多人数が参加可能な臨場感会議システムも登場している。利便性の向上により、多人数・多拠点での会議・通信システムを使う機会が増加するに従って、より簡単に会議に参加できるような仕組みが重要になってきている。
従来型のビデオ会議システムにおいて、多人数・多拠点が参加する場合には、人数分あるいは拠点数分だけ等分割した画面表示を行っていた。そのため非常に多くの人数、多くの拠点が参加している場合には、画面表示は非常に煩雑になる。さらに、多人数・多拠点が参加することにより、会話の音声信号も混線し、どこの拠点の誰が発言しているか等を判別することが困難になる。これを解決するには、発言の最初に、いまから誰が発言するのかを明示的に発話するか、あるいは映像によって誰が発言しているのかを示す等の補助的な手段が必要となり、非常に煩雑な処理が必要となっていた。
また、会議に参加する各拠点において参加する人数が増えると、各拠点の送信装置や受信装置で符号化・復号化する音声・映像信号の数が増え、送受信装置への負荷が増加することにつながる。
これらの課題を解決するためには、複数の信号を同時にかつ低ビットレートで符号化することのできる方式が必要である。さらには、複数の音声信号を柔軟に制御可能な技術も必要である。そこでオーディオオブジェクト符号化技術(以下、オブジェクト符号化技術と呼ぶ)が提案され、これを用いた複数のオブジェクト信号を個別に低ビットレートで送受信する特徴を備えた装置が提案されている(例えば特許文献1参照)。オブジェクト符号化技術を用いた符号化によると、複数のオブジェクト信号をM個の音響信号にダウンミックスして符号化したダウンミックス情報に加え、少ない制御情報を付加して伝送し、受信側でN個のオーディオオブジェクト信号に再構成(MはNよりも小さい)することができる。
米国特許出願公開第2008/0008323号明細書
B.B.Bauer,"Phasor analysis of some stereophonic phenomena",IRE TRANSACTIONS ON AUDIO,Vol10,pp18−21,January 1962.
上記で示したようにオブジェクト符号化技術を会議システムに適用し、各話者(音源)をそれぞれオーディオオブジェクトとして扱うことにより、オブジェクト符号化技術で高効率の符号化を行うことができるようになる。しかしながら、オブジェクト符号化技術を適用しただけでは、多拠点・多人数に対応した会議システムにおいて会話の音声が混線するという問題は解決されず、それぞれの会話の聞き取りにくさも改善されないままである。
本発明は、上記課題に鑑み、オブジェクト符号化技術を適用した会議システムにおいて各拠点における会話の音声を聞き取りやすい符号化装置、復号化装置、会議システム、符号化方法および復号化方法の提供を目的とする。
上記の課題を解決するために、本発明の復号化装置は、オブジェクト符号化された音響符号化情報を複数受信し、受信した前記音響符号化情報をオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、生成された前記音響信号に含まれる1以上の前記オブジェクト信号にそれぞれ対応する仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、前記音響符号化情報には、前記音響信号に対する優先度の高低を示す優先度情報が重畳されており、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する。
このような構成とすることで、ある音響符号化情報に対応する音響空間(拠点)ごとのオブジェクト信号の仮想音源が、その重要度またはその数に応じて受聴空間に配置されるため、音響空間(拠点)に属するオブジェクト信号の数が多い場合でも、それぞれのオブジェクト信号が聞き分けやすくなるようその仮想音源を受聴空間に配置することができる。また、音響信号の優先度に応じて、すなわち、優先度の高い音響信号に属するオブジェクト信号がより聴き取りやすくなるように受聴空間に配置することができる。従って、これにより、重要な拠点や、話者などの音源が多く活発な拠点の音響を、空間的に大きく配置し、聴感上聞き取りやすくすることができる。
また、前記1つ以上のオブジェクト信号は、前記音響符号化情報がオブジェクト符号化された音響空間における1つの音源にそれぞれ対応づけられており、前記音響信号は、前記音響空間において発生した1以上のオブジェクト信号を合成して得られた信号であるとしてもよい。これにより、音響空間における1以上のオブジェクト信号が受信側において適度な間隔を持って受信側の受聴空間に仮想的に配置されるため、受信側ではそれぞれのオブジェクト信号の混合を低減することができ、個別に聞き取りやすくなるというという効果を得ることができる。
前記レンダリング部は、前記音響信号に対する優先度が高いほど大きくなるよう前記領域の大小を決定するとしてもよい。これにより、レンダリング部は、優先度が高い、重要な音響信号に含まれるオブジェクト信号の仮想音源の位置を、受信側音響空間のより大きい領域に配置することができる。従って、優先度が高い重要音響信号に含まれるオブジェクト信号を聞き取りやすくすることができる。
また、前記優先度情報は、オブジェクト符号化におけるダウンミックス情報のゲインを示すグローバルゲイン情報であって、前記優先度の高低は、前記ゲインに比例する。これにより、復号化装置は、音響符号化情報に優先度情報が多重化されていない場合であっても、音響信号のそれぞれに対応する音響符号化情報に含まれているグローバルゲイン情報を比較することによって優先度情報を算出することができる。
さらに、前記音響符号化情報には、それぞれの前記オブジェクト信号のダウンミックス情報に対するゲインの比を示すゲイン比情報が含まれ、前記オブジェクト復号化部は、オブジェクト信号ごとに、前記グローバルゲイン情報の値と前記ゲイン比情報の値との積を算出し、算出した値を前記オブジェクト信号ごとの第2の優先度情報とするとしてもよい。これにより、本発明の復号化装置は、音響符号化情報の中にオブジェクト信号のそれぞれに対応する第2の優先度情報が重畳されていない場合であっても、各オブジェクト信号の音量の大きさを第2の優先度情報として検出し、検出した第2の優先度が大きいオブジェクト信号ほど、すなわち、音量の大きいオブジェクト信号ほど、聴き取り易い位置にくるように配置することができる。
また、前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号だけを復号化し、前記順位より優先度が低いオブジェクト信号を復号化しないとしてもよい。このようにすることによって、あまり重要でないオブジェクト信号を削除してしまうことにより、復号化装置における復号化の処理負荷を低減することができる。
前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号のみ優先度の高低を認め、前記優先度が前記順位より低いオブジェクト信号に対しては前記順位より低い同じ優先度であるとみなすとしてもよい。これにより、ある程度より重要度が低いオブジェクト信号の仮想音源を優先度の順に受聴空間に配置するための処理負荷を、低減することができる。
また、前記音響符号化情報のそれぞれには、前記音響空間を特定するための識別情報が含まれ、前記オブジェクト復号化部が、単位時間あたりに前記音響符号化情報を受信した音響符号化情報の符号長を前記識別情報ごとに計測し、計測した単位時間あたりの音響符号化情報の符号長を前記識別情報で特定される前記音響空間の活動度として、前記優先度情報と前記活動度に基づいて前記音響空間ごとの音響信号の優先度の高低を決定し、前記レンダリング部は、前記識別情報ごとに決定された優先度が高いほど、前記識別情報で特定される音響空間からの前記音響信号に割り当てられる領域が大きくなるよう前記領域の大きさを決定するとしてもよい。これにより、復号化装置では、音響符号化情報に優先度情報が重畳されていない場合であっても、音響空間を特定する識別情報ごとに単位時間あたりの符号長の長い音響符号化情報を送信する音響空間を重要な音響空間とみなし、その送信側音響空間に対して受聴空間に、より大きい領域を割り当てることができる。従って、例えば、会議において発言量の多い送信拠点の発言であるオブジェクト信号を聴感上聞き取りやすくすることができる。
また、前記オブジェクト復号化部は、前記音響信号に含まれる前記オブジェクト信号の数に比例するよう前記音響空間ごとの音響信号の優先度の高低を決定するとしてもよい。これにより、音響信号に含まれるオブジェクト信号の数、例えば、テレビ会議の会議室において同時に発言する話者の数が多いほど、その音響信号に含まれる個々の話者の発言であるオブジェクト信号が聴き取り易くなるように、受聴空間により離散的に配置することができる。
前記レンダリング部は、前記音響信号それぞれの前記優先度情報が示す優先度が高いほど、当該音響信号に割り当てられた前記領域が前記受聴位置のあらかじめ定められた正面方向に近くなるよう配置する構成であってもよい。これにより、優先度の高い重要な音響信号ほど受聴位置の正面に近く配置されることになり、重要の高い拠点における発言ほど聴き取りやすくすることができる。
さらに、前記音響符号化情報のそれぞれには、前記音響空間同士の相対的な位置関係を示す情報が重畳され、前記レンダリング部は、前記位置関係を示す前記情報に従って、前記音響信号を前記あらかじめ定められた受聴位置の周囲に配置する。これにより、各音響信号に対応する拠点の関係や拠点の状態が聴感上わかりやすい空間配置をすることができ、受聴位置では、発言者が属している拠点の位置関係を把握しやすく、話者の発言がどの拠点でなされているかを直感的に把握できるという効果がある。
また、前記レンダリング部は、前記オブジェクト信号に対する前記第2の優先度情報が示す優先度が高いほど、当該オブジェクト信号が前記受聴位置に近い位置となるよう前記オブジェクト信号それぞれの配置を決定するとしてもよい。これにより、優先度の高いオブジェクト信号である、例えば、重要人物の音声を受聴位置から近い位置となるよう配置するので、重要な人物の発言ほど聴き取りやすくすることができる。
さらに、前記音響符号化情報のそれぞれには、前記音響空間における、あらかじめ定められた基準位置に対するオブジェクト信号それぞれの音源の相対位置を示す相対位置情報が含まれ、前記レンダリング部は、前記音響信号のそれぞれに割り当てられた前記領域のあらかじめ定められた位置を前記基準位置とし、前記音環境情報で示される前記相対位置から前記各オブジェクト信号の前記受聴空間における前記仮想音源の位置を算出し、算出した前記位置に前記オブジェクト信号の前記仮想音源を配置するとしてもよい。これにより、各拠点では、拠点ごとの話者の位置を受信側に知らせることができ、受信側では、各拠点における話者の位置と同じように話者の音声の仮想音源を配置することができる。
上記課題を解決するために、本発明の符号化復号化装置は、1以上のオブジェクト信号の集まりである音響信号を収音する収音部と、収音した前記音響信号をそれぞれの前記オブジェクト信号に分離する分離部と、分離された前記オブジェクト信号をオブジェクト符号化して音響符号化情報を生成し、生成した前記音響符号化情報に、前記音響信号のそれぞれに対する優先度の高低を示す優先度情報と、前記音響信号に含まれる前記オブジェクト信号の数とを重畳するオブジェクト符号化部と、前記音響符号化情報を複数の他の装置から受信し、受信した前記音響符号化情報のそれぞれをオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、前記オブジェクト復号化部が生成した1以上の前記オブジェクト信号のそれぞれの仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する。これにより、会議の発言者の音声を聞き取りやすくするためのレンダリングを行う時に有用となる、各拠点の音響信号の優先度を含む音響符号化情報を生成するとともに、他の装置から受信した音響符号化情報をオブジェクト復号化し、復号化によって得られたオブジェクト信号の仮想音源を受聴者が聴き取りやすくなるように受聴空間に配置することができる。
多拠点・多人数がIP通信網を介して会議するシステムにおいて、オブジェクト符号化技術を用いると、受信拠点側の音響信号の空間的配置を自由に制御することが可能になる。さらに本願発明によると、重要話者や重要拠点の音声を受信側の音響空間に仮想的に大きく配置し、重要拠点における重要話者の音声の仮想音源を、聴感上、聞き取りやすい仮想空間に配置することができる。それの他にも送信側および受信側の都合に合わせた配置を実現することができ、会議の臨場感を飛躍的に向上するという優れた効果が得られる。また、個別の話者の音声信号を独立して柔軟に制御可能な仮想会議システムを実現することができる。仮想会議システムを実現したことで、オブジェクト(話者)ごとに音声信号を制御することと相まって、会議の臨場感をさらに向上することが可能となる効果がある。
図1は、オブジェクト符号化を適用し、レンダリング部を持つ仮想会議システムの構成図である。 図2は、多拠点接続装置MCUと拠点間での初期化情報の送受信方法を示す図である。 図3は、受信拠点における各拠点の仮想空間配置図である。 図4は、自動レンダリング過程のフローチャートである。 図5は、受信拠点における拠点の優先度に基づく仮想空間の配置設定図である。 図6は、受信拠点における拠点の仮想空間の位置設定図である。 図7は、受信拠点における所定オブジェクト信号の配置図である。 図8は、ステレオシステムでのレンダリング処理の例を示す図である。 図9は、5.1chサラウンドシステム構成図である。 図10は、受信拠点におけるオブジェクト信号の幾何学的配置図である。 図11は、実施の形態3におけるレンダリング方法を示す図である。 図12は、実施の形態4のオブジェクト符号化情報のデータ構成を示す図である。
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
図1を用いて、本実施の形態の多拠点・多人数が参加する臨場感会議システムにおけるオブジェクト符号化部・復号化装置について説明する。なお図示していないが、図1の拠点A、拠点D以外に、拠点B、拠点Cがこの会議システムによる会議に参加しているものとする。以下では、送信側(符号化装置側)の代表例として拠点Aでの処理についてのみ説明し、他の拠点Bおよび拠点Cについては、拠点Aと同様の処理を行うものとして説明を省略する。また、拠点Dについては、受信側(復号化装置側)の代表例として、オブジェクト符号化情報を受信した後の音響信号の再生処理についてのみ説明するが、拠点Dにおいても拠点A〜Cと同様に送信側の構成を備えるとしてもよい。このような会議システムにおいて受信側の構成のみを備え、送信側の構成を備えない場合は、当該拠点は、会議において発言しないオブザーバーの立場となる。また、拠点A〜Cについては、送信側の例として説明するが、受信側の構成も備えるものとする。受信側の拠点、例えば、拠点Dでは、オブジェクト復号化部806およびレンダリング部807を備える。受信側の拠点では、例えば、前段に多拠点接続装置805を備えるとしてもよい。また、送信側の拠点、例えば、拠点Aでは、収音部801、分離部803、オブジェクト符号化部804を備える。
拠点Aの会議室802では、複数のマイクロフォンからなるマイクロフォンアレイなどで実現される収音部801を用いて、音響信号を収音する。
分離部803は、収音部801により得られた音響信号からノイズ成分を除去した上、互いに空間的な関連性がない音響的に独立した複数の音響信号に分離する。分離部803は、さらに、分離されたそれぞれの音響信号(以下、「オーディオオブジェクト信号」または単に「オブジェクト信号」という。)をオブジェクト符号化部804に入力する。ここで、音響的に独立したオブジェクト信号とは、例えば、会話をしている各話者の声、会話の背後に流れている音楽、電話の呼び出し音などであり、音響信号とは、同時に発話している話者の音声が合成された信号である。従って、オブジェクト信号は人間の音声だけには限られないが、通常の場合、テレビ会議の会議室としては雑音が少ない部屋が選択されるので、各オブジェクト信号を各話者の音声であると見なしても問題ない。
分離された各オーディオオブジェクト信号はオブジェクト符号化部804でオブジェクト符号化される。このオブジェクト符号化は、背景技術で説明したようにして行われる。オブジェクト符号化部804では、オブジェクト分離信号としていくつかの制御情報を生成し、ビットストリームに重畳する。この制御情報は各オブジェクトの音響的なレベル差(OLD:Object Level Difference)、各オブジェクト間の正規化エネルギー(NRG:Normalized Related Gain)、オブジェクト間相関・コヒーレンス(IOC:Inter Object Coherence)などである。制御情報はこれらに限ったものではなく、そのほかのオブジェクトごと、あるいはオブジェクト間にまたがる音響信号に関連する情報であってもよい。ただし、OLD、NRG、IOCの少なくともいずれか一つは制御情報に含まれるのが望ましい。
オブジェクト符号化部804では、その拠点における音響信号と、制御情報の符号化に加えて、さらに二つの情報を伝送する。参加拠点の数(numSite)を示す情報と、各参加拠点の、もしくは各オブジェクトの優先度情報(Priority)である。なお、Priorityが各参加拠点の優先度情報を示す場合には、iは例えば、各拠点を一意に特定できる拠点ごとのシリアル番号またはIDであって、どの拠点かを示し、Priorityが各オブジェクトの優先度を示す場合には、iは例えば、各オブジェクトを一意に特定できるオブジェクトごとのシリアル番号またはIDであって、どのオブジェクトかを示す。なお、図1では、優先度情報がオブジェクト符号化情報の末尾に付加されている例を示したが、本発明はこれに限定されず、優先度情報をオブジェクト符号化情報の前段の、例えば、ヘッダ部やパラメータを記述する部分などに付加して送信する構成としてもよい。このように、優先度情報をオブジェクト符号化情報の前段に付加しておけば、オブジェクト復号化部において、オブジェクト符号化情報の復号化処理を開始する前にオブジェクト符号化情報から優先度情報だけを抽出して当該拠点の優先度を把握することができる。この結果、オブジェクト復号化部側では、例えば、オブジェクト数が多数あって優先度が低いオブジェクト信号を再生しないよう制御する場合には、必要最小限のオブジェクト信号だけを復号化することができる。これにより、本実施の形態のオブジェクト復号化部では、復号化における処理負荷を低減することができる。またさらに、これにより、各オブジェクト信号に対して、各オブジェクト信号の仮想音源の位置を受聴空間に配置するためのレンダリング角度を決定する処理とオブジェクト信号の復号化処理とをパラレルに実行することができ、復号化における処理遅延量を低減することが可能になる。各拠点のオブジェクト符号化部804はnumSiteの値をデフォルトの値である1に設定し、多拠点接続装置(MCU)805に、音響信号と制御情報の符号化情報にnumSiteとPriorityを重畳したオブジェクト符号化情報を送信する。多拠点接続装置805に送信されたオブジェクト符号化情報は、多拠点接続装置805経由で他の拠点に送られる。なお、多拠点接続装置805を介さず、各拠点間で送受信する構成であってもよい。この場合、オブジェクト符号化部804は、別拠点のオブジェクト復号化部806にオブジェクト符号化情報を送信する。
次に多拠点接続装置805について説明する。多拠点接続装置805は基本的に、複数の異なる拠点から、ここでは拠点Aから送信されたオブジェクト符号化情報A809、拠点Bから送信されたオブジェクト符号化情報B810,拠点Cから送信されたオブジェクト符号化情報C811を受信し、それらを一つのオブジェクト符号化情報として合成し、別の拠点へと送信するよう動作する。この合成により得られた合成オブジェクト符号化情報812には、多拠点接続装置805が受信した全ての拠点からの情報とそれらを分離する分離情報を含む。このようにして各拠点には全拠点の情報とその拠点以外の全拠点の情報を分離できる分離情報を含むビットストリームが送られることとなる。
多拠点接続装置805の動作内容について詳細に説明する。まず会議を始める際に、各拠点と多拠点接続装置805間では、符号化装置・復号化装置を初期化するための情報のやりとりが行われる。初期化される情報としては、拠点数や、符号化方式の種類、再生チャンネル数、マイクロフォンの数、画面の解像度、フレームレートなどがある。これらの情報が各拠点間で正常にやりとりができると多拠点接続装置805が判断すると、会議を始めることが可能になる。正常にやりとりができない場合とは、ある拠点のデコーダがオブジェクト符号化情報を復号化する手段を持っておらずオブジェクト符号化に対応できない場合や、再生装置の再生可能チャンネル数が送信チャンネル数よりも少ない場合等である。
多拠点接続装置805は、上記に示したような初期化情報のうち各拠点に係る情報を全拠点分収集完了した後に、各拠点から送信されたnumSiteを合計する。これにより実際のnumSiteの値を算出できる。これは図2に示す方法によっても算出できる。図2は初期化時における各拠点と多拠点接続装置805間のやりとりを例示している。拠点Aは多拠点接続装置805に対して、あらかじめ決められている初期化をする旨の情報(例えば文字列"hello")を送信し、拠点Bも同様に送信する。多拠点接続装置805は送信されてきた"hello"の数をカウントしても実際のnumSiteの値を算出できる。会議中に参加拠点が増減した場合は、各拠点が常にnumSiteを1として多拠点接続装置805に送信してくると、どの拠点が参加をやめ、どの拠点が新たに参加したかわかりにくい。しかし、会議に初めて参加した場合には、このような初期化する旨の情報を送ると決めておけば、新たに参加した拠点が把握しやすいという効果がある。
次に、多拠点接続装置805は合成オブジェクト符号化情報812を各拠点に送信する。この合成オブジェクト符号化情報812は、全参加拠点の音響信号と制御情報の符号化情報を合成した情報と、この合成情報から受信拠点を除く各拠点の符号化情報を分離する分離情報とを符号化した符号化情報に、実際のnumSiteと受信拠点を除く各拠点の初期化情報を重畳したものである。この合成オブジェクト符号化情報812を送信することで、参加拠点に係る情報を各拠点の符号化・復号化装置へとフィードバックする。
さらに多拠点接続装置805は、複数の拠点から送信されるオブジェクト符号化情報に重畳されていたPriorityの値を必要に応じて調整する。この調整は、送信されてきた全てのPriorityのうち、優先度の高い方から上位の所定個数分以下を新たな優先度情報として付加し、その他は一定の優先度とするように行う。例えば、上位5ランクまでは順位のある優先度を付加し、6位以下はすべて同ランクの6位という優先度を付加する。これにより、あまりに多くの優先度のランク付けを行わず、重要な拠点やオブジェクトの優先度についてのみ送信し、復号化装置における煩雑な処理を減らすことができる。また、この調整は拠点の参加人数や、参加する人の関係性、音声パワーの大きさ、音声の継続時間を示す情報から、拠点ごともしくはオブジェクトごとに優先度を設定しなおしてもよい。例えば拠点Aのあるオブジェクト信号に関するPriorityと、拠点Bのあるオブジェクト信号に関するPriorityが同じ値であった場合、音声パワーの強いほうを高く設定しなおすという調整を行う。また、設定されている優先度を無視して、各オブジェクト信号の音声パワーの強さの順を優先度としてもよい。すなわち、音声パワーの大きいオブジェクト信号の方が音声パワーの小さいオブジェクト信号よりも優先度が大きくなるように優先情報を設定するとしてもよい。さらに、音声パワーの大きいオブジェクト信号を他の拠点よりも多く含む拠点に対して、より大きい優先情報を設定するとしてもよい。なお参加する人の関係性を示す情報とは、例えば、ある拠点では発言者がおらず、聴衆だけが会議に参加していることを示す情報、ある拠点ではVIPが参加者に含まれていることを示す情報などである。このように拠点ごともしくはオブジェクトごとに優先度を設定し、オブジェクト符号化情報に重畳して受信拠点へ送信する。以上のように必要に応じてPriorityを調整することにより、受信拠点において優先度に従って適切な処理を行うことができる。
オブジェクト復号化部806は多拠点接続装置805から受信した拠点ごとの合成オブジェクト符号化情報812にオブジェクト復号化を行い、各拠点のオブジェクト信号を分離する。またそれと同時に、制御情報、全拠点数(numSite)、優先度情報(Priority)を分離する。なお、多拠点接続装置805を介さず、各拠点間で送受信する構成である場合、オブジェクト復号化部806は、受信側拠点以外の拠点のオブジェクト符号化部804からオブジェクト符号化情報をそれぞれ受信する。この場合も同様にオブジェクト復号化を行い、各拠点のオブジェクト信号を分離し、その他の制御情報等も分離する。ここで分離した情報に基づき、オブジェクト復号化部806は、実際の全拠点数の算出と、必要な場合には、多拠点接続装置805で行った場合と同様にして、上記のPriorityの設定しなおしを行う。
次に、自動レンダリング部807について説明する。レンダリング部807では、各拠点のオブジェクト信号のレンダリングをする前に、まず、受信拠点(図1においては拠点D)において受信拠点以外の拠点に係る、各オブジェクト信号の仮想的な配置を決定する。図3は拠点Dの会議室808における、各オブジェクト信号の空間的配置方法を模式的に示したものである。図3の受聴位置110は拠点Dにおける参加者の中心、拠点Dの会議室808の中心、参加者が1人である場合の参加者自身または複数の参加者のうちターゲットとする特定の1人の参加者自身などを示し、拠点Dでスピーカにより再生される音声を受聴可能なある一点を示すとする。図3の四角はある拠点Bを示し、101、102、103、104は拠点Bに発生しているオブジェクト信号を示している。レンダリング部807は、図3の円で示すように同じ拠点から送信されてきたオブジェクト信号を仮想的にグルーピングし、異なる拠点のオブジェクト信号が互いに区切られるように音響的に配置する。例えば図3に示すように会議参加の拠点数が拠点A〜拠点Eまでの5つの場合、受信拠点Dでは受信した情報から自身を除く、4つの拠点の情報を分離して、拠点ごとにグルーピングされたオブジェクト信号を受聴位置110の周りに配置する。このようにグルーピングすることで、どの拠点からどのような音響が送信されてきているのかということがわかりやすくなる。
以下、拠点ごとにグルーピングされたオブジェクト信号の配置方法について図4を用いて説明する。この配置は、各送信拠点の優先度Priorityと各拠点のオブジェクト信号数numObject_siteに従って決める。まず受信したビットストリームに含まれる拠点数などの情報を取得し(ステップS121)、numObject_siteに応じて、各拠点の受聴位置110の周りのレンダリング角を算出する(ステップS122)。拠点のレンダリング角とは、拠点ごとにグルーピングされたオブジェクト信号を全て含み、異なる拠点のオブジェクト信号を含まないよう拠点ごとに区切る、図3に示すような受聴位置110を通る矢印がなす角度のことである。各拠点のレンダリング角は式1を用いて、オブジェクト符号化情報に含まれるnumObject_siteにより決定する。
Figure 2010109918
つまり、受聴位置110の周り2πをレンダリングすべき全オブジェクト信号数で分割し、そのうち各拠点のオブジェクト信号数を乗算したものが各拠点のレンダリング角area_siteとなる。このように各拠点のオブジェクト数に従い、拠点ごとの音響信号の空間における広がり度合いを変化させる。沢山のオブジェクト信号を含む拠点に対しては広い音響空間を、少ないオブジェクト信号を含む拠点に対しては狭い音響空間を仮想的に割り当てることで、オブジェクト信号があまりにも密に、すなわち、互いに接近して配置されるのを防ぐことができる。また聴覚的に各拠点のオブジェクト数の差が判別しやすくなる。このように本実施の形態のレンダリング部807によると、受信拠点Dにおいて自動的に各拠点の各話者等の音源を聴覚的に分離するので、それぞれの話者の音声が聞き取りやすくでき、また受聴位置では、他の拠点にいる話者が受聴者の周囲に存在するかのように発言を聞くことができるので、会議の臨場感向上につながる。なお、ここでは、仮想空間上で各拠点が占める領域のレンダリング角を、各拠点に含まれるオブジェクト信号の数に応じて分配したが、本発明はこれに限定されず、各拠点の優先度に応じて分配するとしてもよい。例えば、上記式1にnumObject_siteの代わりにi番目の拠点の優先度(priority)を代入することにより、各拠点のレンダリング角を優先度に応じて配分することができる。
次に、上記で求めた各拠点のレンダリング角を配置する受聴位置110周りの位置(以下、拠点のレンダリング位置とする)を決定する(ステップS123)。拠点のレンダリング位置は、各拠点の優先度を示すPriorityが設定されている場合は、Priorityに基づいて決定する。例えば受聴位置110が受聴者の位置を示す場合、人間は後方から生じる音よりも、前方からの音をより聞き取りやすいという性質があるため、図5のように優先度の最も高い拠点のレンダリング位置を受聴位置110の前方に設定する。これに続いて優先度の高い順に、聞き取りやすい位置にその他の拠点のレンダリング位置も設定していけばよい。なお、多数の拠点の優先度が同じ場合は、最も優先度の高い一つの拠点のレンダリング角を聞き取りやすい位置(initial_angle)に配置し、その他の拠点を単純に式2、式3を用いて反時計回りに配置していってもよい。なお、Priorityが各オブジェクト信号の優先度を示す場合には、優先度の最も高いオブジェクト信号を含む拠点や、優先度の高いオブジェクト信号を多く含む拠点を聞き取りやすい位置に配置していけばよい。このように優先度情報に基づいて拠点のレンダリング位置を決定することで、優先度の高い音響をより聞き取りやすくすることができる。
Figure 2010109918
Figure 2010109918
なお、この拠点レンダリング位置は、Priorityが設定されていない場合や、設定されていた場合であってもこの値に基づかず、受信拠点と各送信拠点の位置関係に応じて決定してもよい。例えば、日本と米国と中国とオーストラリアの拠点間で会議をしている場合、日本での拠点レンダリング位置は、米国拠点からの信号を東よりに、中国拠点からの信号を西よりに、オーストラリア拠点の信号を南よりに設定してもよい。また会議システムの受聴位置110と会議システムの画像表示装置の位置関係等、設備環境に応じて決定してもよい。また送信側拠点の会議室の広さなどの情報に基づいて受信側拠点において各オブジェクト信号同士の最大配置距離を決定してもよい。これらの情報は上述した初期化情報として送信することとしてもよいし、必要に応じて送ることとしてもよい。これら拠点同士の位置関係や拠点の設備環境等の情報を音環境情報と定義する。このように会議における参加拠点同士の関係や各拠点の環境に基づいて拠点のレンダリング位置を決定することで、より臨場感を向上させることができる。
次に、拠点ごとにグルーピングされたオブジェクト信号の配置について説明する。area_siteとangle_siteとにより、各拠点のレンダリング角とレンダリング位置とを決定した後、オブジェクト信号は、その拠点のレンダリング角とレンダリング位置とにより決定したエリア内に仮想的に配置される。例えば、図3に示す拠点Bのオブジェクト信号101〜104は、105〜108のように受信拠点Dにおける拠点Bの仮想空間109内に仮想的に配置される。この仮想空間上の配置は、各オブジェクト信号にPriorityが設定されている場合には優先度情報が高いものが受聴位置に近くなるように、もしくは聞き取りやすい位置になるように配置する。このように配置することで、拠点ごとの音響を聞き分けやすいようグルーピングされたオブジェクト信号の中でも、優先度の高い音をより聞き取りやすくすることができる。
なお、各拠点の仮想空間内において、レンダリングされたオブジェクト信号が当該拠点のエリアの境界近くに配置された場合、隣接する他拠点エリア内のオブジェクト信号と距離が近くなり、拠点間のエリアの区別がつきにくくなる。このような場合には、レンダリング部807は、エリアの境界近くに配置するオブジェクト信号に対して、音量が小さくなるように補正する。例えば、エリアの境界近くに配置するオブジェクト信号に対しては、オブジェクト復号化部により復号化されたオブジェクト信号の本来の音量に対して、その7割程度に音量を絞るようにする。
またこれ以外の方法として、エリアの境界近くに配置するオブジェクト信号に対しては、受聴位置を中心として、当該オブジェクト信号の位置とエリア境界とのなす角が所定の角度以上、例えば、5°以上となるように、オブジェクト信号のレンダリング位置を補正するとしてもよい。または、各エリア内のオブジェクト信号のレンダリング位置が、当該エリアのレンダリング角の8割程度の挟み角の内部にくるようにレンダリング位置を計算する、あるいは、各拠点のエリアのレンダリング角を8割程度に計算するとしてもよい。
なお、上記の説明において、境界付近に位置するオブジェクト信号の音量を7割程度に絞る、または、境界付近に位置するオブジェクト信号とエリア境界とのなす角が5°以上となるようにする、各エリアのレンダリング角を算出された角度の8割程度に補正するとしたが、本発明はこれらの数値に限定されない。音量の補正、エリア境界から補正する角度、または、各エリアのレンダリング角の補正の割合などの具体的な数値は、例えば、数値をいろいろな値に変えながら、シミュレーション等により、受聴位置でのオブジェクト信号の聞き取りやすさが最適になるように値を定めればよい。
さらに、各拠点のエリアの境界付近にオブジェクト信号がレンダリングされないようにする他の方法として、次のような方法がある。例えば、各拠点の仮想空間のレンダリング角area_siteを、当該拠点に属するオブジェクト信号の数numObject_siteに所定の定数αを加算した数(numObject_site+α)で分割し、各オブジェクト信号をその優先度に応じて、受聴位置とエリアの中心とを結ぶ受聴位置の正面から、左右に順次配分することによって各オブジェクト信号をレンダリングするとしてもよい。例えば、優先度が最も高いオブジェクト信号は受聴位置の正面にレンダリングし、次に優先度が高いオブジェクト信号は受聴位置の正面から左に(area_site)/(numObject_site+α)の角度をなす位置にレンダリングする。また、3番目に優先度が高いオブジェクト信号は受聴位置の正面から右に(area_site)/(numObject_site+α)の角度をなす位置にレンダリングし、4番目に優先度が高いオブジェクト信号は受聴位置の正面から左に2(area_site)/(numObject_site+α)の角度をなす位置にレンダリングする。このとき、優先度の順にオブジェクト信号が受聴位置から所定の距離ずつ遠ざかるようにレンダリングするのが好ましい。このように、各拠点の仮想空間に割り当てられたレンダリング角をオブジェクト信号の総数以上の数で分割し、オブジェクト信号の位置が優先度の順に受聴位置の正面から左右に順次、(area_site)/(numObject_site+α)ずつ遠ざかるようにレンダリングしていくので、両側の境界の内側にそれぞれ角度α(area_site)/2(numObject_site+α)分の間隙の空間、すなわち、オブジェクト信号が配置されない空間を設けることができる。
これにより、各拠点が仮想空間に占めるエリア同士を、所定の幅を持った境界で区切ることができるので、各拠点が占めるエリアを聴感上、より明確に区分することができる。この結果、本実施の形態の臨場感会議システムによれば、臨場感があり、かつ、他拠点の発言を聞きやすい会議システムを実現することができる。
なお、Priorityが設定されていない場合や、設定されていてもその情報を利用しない場合には、拠点Bでのオブジェクト信号101〜104同士の相対位置を保持するように配置してもよい。このように相対位置を保持することで、仮想空間上で拠点の音源の状態を再現することができる。これにおいて、それぞれの拠点におけるオブジェクト信号の相対位置は、当該拠点からの音環境情報としてオブジェクト符号化情報に多重化し、他の拠点に送信してもよい。これにおいてオブジェクト信号の相対位置は、例えば、各拠点の会議室の中央あるいは拠点Dの前記受聴位置に該当する点を中心とし、モニタの方向を基準方向からπ/2の方向として、受聴位置から見たオブジェクト信号の距離および角度で表す。もちろん、各拠点におけるオブジェクト信号の相対位置は、この表現方法に限らず、例えば、各拠点の会議室における座標位置などで表わすとしてもよい。
以下では図4に加えてさらに図6も用いて各オブジェクト信号のその他の仮想的配置方法について説明する。同一拠点から送信されたオブジェクト信号は、上記で説明したように受聴位置110の周りのその拠点のレンダリング角で示されるエリア内に配置される。図6においては矢印406と矢印407により挟まれた角度が拠点Aのレンダリング角であり、このエリア内に拠点Aから送信されたオブジェクト信号は配置される。なお受聴位置405は図3での受聴位置110に対応し、拠点Aの仮想空間401は矢印406と矢印407に接する円であり、403は仮想空間401の中心点を示す。またdは受聴位置405と中心点403との間の距離を示す。
拠点ごとにオブジェクト信号をグルーピングして受信側会議室の受聴空間に仮想的に配置するにあたり、各オブジェクト信号は仮想空間401の内部に配置する。エリア内にばらばらに配置するよりも、ある程度塊のようにして配置することで、拠点ごとの音響を聴覚的に分離しやすくなり会議の臨場感が増すためである。しかし距離dがとても小さい場合は、仮想空間401の半径rも小さくなるため、各オブジェクト信号が配置される間隔が狭くなりそれぞれの分離が非常に難しくなる。逆に距離dがとても大きい場合、半径rも大きくなるため、オブジェクト信号が配置される位置が受聴位置405から遠くなり聞き取りにくくなる。また配置される間隔も広くなり、拠点ごとにグルーピングされたエリアを聴覚的に分離しにくくなる。このような問題を防ぐために、各オブジェクト信号を仮想空間401の円周上に均等に配置した場合における、オブジェクト信号間の最低距離(threshold)と、最大距離(Threshold)を定める。具体的には式4のようにして各拠点の半径riを定める(ステップS124)。定められた半径riと割り当てられたarea_siteにより、中心点403と受聴位置405の距離diも定まる(ステップS125)。このように閾値を設定することで、音を分離しにくかったり聞きにくかったりするという問題を防ぐことができる。なお、ここでは最低距離と最大距離を設定したが、全オブジェクト信号数が極めて少ない場合には、最低距離より最大距離のほうが重要になり、最大距離のみを設定するのであってもよい。なお、最低距離と最大距離との値は、これらの値を様々に変えながらシミュレーションを行い、各拠点内のオブジェクト信号が最適に配置される値を定めればよい。
Figure 2010109918
ここで図7を用いて、オブジェクト信号の配置についてさらに詳細に説明する。図7の受聴位置501は上記110、405と同様に受聴位置を示す。X軸は図7に示す拠点のレンダリング角を二等分する軸であり、Y軸はX軸に直行する軸である。拠点iの仮想空間内におけるオブジェクトjの配置角度をold_angleijとする。ここでオブジェクトjから生じるオブジェクト信号にPriorityが設定されている場合は、それに基づいて拠点iの仮想空間内における配置を決定する。Priorityが設定されていない場合等では、拠点iにおけるオブジェクトjの位置や音のパワー等の情報に基づいて配置を決定する。このようにして決定されたオブジェクトjの位置503と拠点iの仮想空間の中心点502とを結ぶ直線とX軸がなす角度が、old_angleijである。このold_angleij、受聴位置501と拠点iの仮想空間の中心点間の距離d、中心点502とオブジェクトjの位置503の距離を用いて、X軸がなす角度new_angleijを算出できる(ステップS126)。このようにして算出したnew_angleijと拠点iのレンダリング位置angle_siteより、受信拠点におけるオブジェクトjの配置角度angleijを式5のようにして求めることができる(ステップS127)。
Figure 2010109918
以上のようにして、拠点ごとの音響を聴覚的に分離しやすいようオブジェクト信号をグルーピングして配置することができる(ステップS128)。また、上記では図3、図5、図6および図7において、仮想空間における各拠点のエリアの形状を円としたが、円に限ったものではなく、聴覚的に拠点ごとのエリアを分離しやすい配置であれば他の形状、例えば、楕円などでもかまわない。さらに、図7ではオブジェクトjは円周上に配置するよう図示したが、もちろん仮想空間内部に配置してかまわない。
次に、各拠点の各オブジェクト信号のレンダリング処理について図8を用いて説明する。図8においてスピーカA901とスピーカB902はそれぞれステレオスピーカである。受聴位置905は、受聴位置110等に対応し、受信拠点の聴講者の一人であったり、聴講者の中心位置であったり、拠点の会議室の中心であったり、拠点における受聴可能なある一点を示す。図8に示すように、線分904は受聴位置905を通り、スピーカA901とスピーカB902間を二等分するような二等分線である。θは線分904とスピーカA901の間の挟み角を示している。θはスピーカA901およびスピーカB902の位置と向きによって決定する。
ここで、スピーカA901とスピーカB902を用いて図8に示すような方向に音響信号源903を仮想的に作り出す方法について説明する。図8のような場合、スピーカB側において音響信号の角度θは正の値であり、スピーカA側においてθは負の値である。θは受聴位置905と上記のようにして求めた各オブジェクト信号を配置したい音響信号源903の位置から算出する。X(n)は音響信号源903からの信号とし、A(n)、B(n)はそれぞれスピーカA901、スピーカB902からの音響信号とする。スピーカA901とスピーカB902の正味のエネルギーを調整することで、図8に示すようなステレオスピーカシステムにより、音響信号源903における音響空間を模擬することが可能である。なお、具体的にスピーカA901とスピーカB902のエネルギーの調整は以下の式6を満たすようにして行う。
Figure 2010109918
ここで、パラメータa、bは、例えば、θ=θの場合、音響信号源903とスピーカB902の方向が同じのため、a=0,b=1となる。同様にして、θ=−θの場合にはa=1,b=0となり、θ=0の場合には、
Figure 2010109918
となる。一般化すると、パラメータa、bはθとθを用いて式7のように表せる(非特許文献1参照)。
Figure 2010109918
このような方法で送信されてきたオブジェクト信号に対応する仮想的な音源を受信拠点において作り出すことができる。
次に、受信拠点における音響システムが5.1chのシステムである場合のレンダリング処理例について、図9を用いて説明する。図7を用いて説明したようにして受信拠点以外の、全拠点の全オブジェクト信号の配置情報からレンダリングマトリックスを生成することができる。1001〜1005はそれぞれ受信拠点におけるフロント左スピーカL、フロントセンタースピーカC、フロント右スピーカR、リア左スピーカLs、リア右スピーカRsを示す。前後方向の中心線1007はフロントセンタースピーカC1002と受聴位置1008を通る線であり、左右方向の中心線1006は前後方向の中心線1007と直行する線を示す。このような5.1chのシステムにおいて各オブジェクト信号は以下のステップによりレンダリングされる。
ステップ1:各オブジェクト信号のレンダリングを行うためのスピーカを判断する。
各オブジェクト信号と左右方向の中心線1006のなす角度が上記の方法により求めたangleijになるように、仮想的に作り出す音響信号源として配置していく。受聴位置1008から各音響信号源までの距離は、Priorityが設定されている場合は、それに基づいて、設定されていない場合等は位置関係等に基づいて決定し、配置する。スピーカ1001〜1005のうち、隣接するいずれか二つと受聴位置1008がなす角度により挟まれる鋭角のエリア内に配置された各音響信号源は、その二つのスピーカにより仮想的に作り出される。図9は受聴位置1008を中心に5つのスピーカが空間的に設置されていることを平面的に示した図である。1006の矢印が示す方向が0°で、スピーカ1001〜1005は、それぞれ120°、90°、60°、210°、330°である。従って、スピーカRs1005、スピーカR1003により挟まれる音響信号源は、対応するオブジェクト信号のレンダリング角度angleijが式8で示されるものである。
Figure 2010109918
その他の隣接する二つのスピーカにおいても同様である。例えば、音響信号源に対応するオブジェクト信号のangleijが10°の場合、レンダリングするにあたりスピーカRs1005、スピーカR1003を選択する。
ステップ2:各オブジェクト信号のレンダリング係数を算出する。
図8を用いて上述した方法に従って、ステップ1で選択した二つのスピーカにより音響信号源を仮想的に作り出す。例えば、作り出したい音響信号源に対応するオブジェクト信号のangleijが10°の場合、スピーカR1003は図8のスピーカA901に対応し、スピーカRs1005はスピーカB902に対応する。レンダリング係数は式2、1003と1005がなす角の半分である45°(=θ)、angleij(=θ)を用いて算出する。なお、レンダリング係数とは式6のa、bを指し、それぞれスピーカR1003、スピーカRs1005のレンダリング係数に対応する。また、残りのスピーカのレンダリング係数は0に設定する。すなわちスピーカ1001〜1005のレンダリング係数のマトリックスを[L,C,R,Ls,Rs]と表記すると、angleijが10°のオブジェクト信号に対するレンダリング係数のマトリックスは [0,0,a,0,b](≒[0,0,0.518,0,0.855])となる。
このようにして5.1chの再生システムを使用し、受聴空間に各オブジェクト信号の音響信号源を仮想的に作り出すことができる。なお、前記再生システムは5.1chに限定したものではなく、7.1chなどの多チャンネル再生システムであっても良いし、2chの再生システムを用いて頭部伝達関数(HRTF:Head Related Transfer Function)を畳み込んで得られる仮想音響空間であっても良い。
以上のようにレンダリングを制御するオブジェクト符号化技術を用いると、受信拠点側の音響信号の空間的配置を自由に制御することができる。さらに本発明によって、重要話者を音響空間的に大きく配置、聴感上も重要である旨を表現する空間配置をするなどができる。このようにオブジェクト信号間の関係等、会議システム参加拠点の都合に合わせた配置を実現して会議での臨場感をより向上させられる有益な効果が得られる。
(実施の形態2)
実施の形態1と同様、本実施の形態における会議システムも図1のような構成を有する。構成の詳細については上述したとおりなので、Priorityの他の設定方法についてとレンダリング部807でのその他のレンダリング方法について説明する。
各拠点もしくは各オブジェクト信号の優先度を示すPriorityは、多拠点接続装置805にリクエスト等を送ることで取得するのであってもよい。送信拠点では、単に符号化した情報を送信するに過ぎず、各拠点の優先度や各オブジェクト信号の全体における優先度は未知である。多拠点接続装置805で全ての拠点から符号化情報を受け取った際に、優先度の判断および決定を行う。この決定は、例えば各拠点の活動度を計測することにより行う。この活動度は、一定時間(例えば1時間)あたりより多くの回数、符号化情報を送信した拠点が高くなるように、設定する。これにより、一定時間あたり情報の送信回数が少ない拠点に対しては、黙っていることが多いと判断して活動度を低く設定し、設定された活動度の高低に従って、各拠点または各オブジェクト信号の優先度の高低を決定する。このような設定にすることでその瞬間、会議に重要である拠点やオブジェクト信号について優先度を上げて扱うことができ、効率のよいレンダリング処理が可能となる。なお、上記説明において、活動度を算出してオブジェクト信号の優先度の高低を決定し、レンダリング装置を制御する時間間隔は、1時間に限定されず、30分単位でも、2時間単位であってもよく、任意に定めた時間単位でよい。また、上記では多拠点接続装置805が各拠点の活動度を計測するとしたが、本発明はこれに限定されない。例えば、各拠点の各オブジェクト復号化部806が、単位時間あたりに符号化情報を受信した符号化情報の符号化ビット数(=符号長)を拠点ごとに計測し、これを活動度として各拠点の優先度の高低を決定するとしてもよい。
ただしこれは、優先度を取得せず、または取得した優先度に従わず、拠点の復号化装置で優先度を設定してレンダリングを行うことを否定するものではない。MCUを介さない会議システムである場合や、拠点側で優先度を決定したいときなど、状況に応じて図1のUser Informationを用いてレンダリングの配置を設定してもよい。このように拠点側で優先度を判断し、設定することでより受聴者の好みに合わせたレンダリングが可能となる。
次にレンダリング部807におけるその他のレンダリング方法について説明する。上述したようにオブジェクト信号の総数であるnumObject_siteを用いて、各拠点のレンダリング角area_siteを算出できる。ここでは式9に示すように、総数ではなく各拠点で有効なオブジェクト数active_numObject_siteを用いて算出してもよい。なぜなら、ある拠点において参加者数がたとえ多くとも、その参加者のうち一人や二人といった少人数の参加者の音声が重要であり、その他の参加者は基本的に聴衆であり、その音声は会議に無関係な場合などがありえるためである。このような場合オブジェクト信号の総数からその拠点のレンダリング角を算出すると、あまり送信する必要のないオブジェクト信号のために、受信拠点において、その拠点に対して大きな仮想空間を割り当ててしまうこととなる。そこで、式9のように有効なオブジェクト信号数を用いてレンダリング角を算出することで、受信拠点において重要なオブジェクト信号を効率よく音響的に配置可能とし、自然で有意義な会議システムを実現することができる。なお、受信拠点においてより快適で臨場感ある仮想会議環境を実現するために、active_numObject_siteの値は一定でなく、オブジェクト信号のパワーの変化等に基づいて動的に変化させてもよい。
Figure 2010109918
このようにnumObject_siteとactive_numObject_siteの値に従って拠点のレンダリング角を決定してもよいし、各拠点にPriorityが設定されている場合には、式10により決定してもよい。なお、ここではPriorityの値が大きいほど高い優先度を示すものとする。ビット数があまり多くなりすぎないよう、推奨する優先度ランクは1から3である。3が最も高い優先度を示し、1が最も低い優先度を示す。
Figure 2010109918
受信拠点の受聴者やシステム管理者などは、各拠点のレンダリング角を算出するために式9、numObject_site、active_numObject_siteを用いるか、式10、Priorityを用いるかを選択する。この選択は、図1のUser Informationとしてレンダリング部807に入力することで行う。
次に図5を用いて、優先度に基づき拠点のレンダリング位置angle_siteを決定する方法について説明する。優先度に基づく配置とは、より高い優先度の拠点のグルーピングされたオブジェクト信号をより聞きやすい位置に配置することである。まず、インデックスiが増加するごとに優先度が下がるように拠点を並び替える。そして初期値を最も聞き取りやすい位置に設定し、式11、式12を用いて全ての拠点を配置していく。
Figure 2010109918
Figure 2010109918
図5において、拠点1からインデックスが増加するごとに優先度が下がるように拠点を並び替える。次に、最も聞き取りやすい位置が正面の場合、initial_angleを90度とする。式12によりangle_site1は90度となり、優先度の最も高い拠点1は正面に配置される。2番目に高い拠点2を拠点1のレンダリングエリアの左側に配置する。3番目に高い拠点3を右側に配置する。以下、偶数番目に優先度の高い拠点は左側に、奇数番目に高い拠点は右側に配置していく。このようにして配置することで優先度が高い拠点の音響ほど受信拠点の参加者にとって聞き取りやすい位置に配置することができる。なお、偶数番目に高いものは左、奇数は右としたが、もちろんこれに限ったものではない優先度順に聞き取りやすい位置に配置していくことができれば他の方法でかまわない。
また拠点のグルーピングされたオブジェクト信号は実施の形態1で図6を用いて説明したとおりに配置する。上記では各オブジェクト信号間の最低距離である閾値(threshold)と、最大距離(threshold)を式4のように定めていたが、受聴位置405と仮想空間の中心点403との距離diの閾値を定めるのでもよい。これにより、前述したのと同様に音を分離しにくかったり聞きにくかったりするという問題を防ぐことができる。
次に拠点ごとの各オブジェクト信号配置について図10を用いて説明する。図10は受信拠点以外の拠点の全オブジェクト信号配置例を示す図である。図10のように、各拠点における各オブジェクトの相対的な位置関係によらず、オブジェクト信号を拠点のレンダリング角が示すエリア内で、受聴位置610を中心とする仮想空間609上に配置してもよい。例えば拠点Bのオブジェクト信号601〜604は、拠点Bにおける相対位置に関わらず、拠点Bのレンダリング角が示すエリア内で仮想空間609上に、605〜608のように配置される。このように円状に配置することで、受聴位置から仮想のオブジェクト信号源までの距離が同じになり、優劣なく聞き取ることができる。
この仮想空間609は、円状に限らず正方形や長方形、三角形、六角形など別の幾何学的形状であってもよい。また、それぞれのオブジェクトの優先度に応じて受聴位置610からの距離が変化するよう配置するために、その形状を定めてもよい。また、幾何学的形状に配置するのであれば、優先度に従って重要なオブジェクト信号をより受聴位置に近くなるような位置に配置することで効率的なレンダリングができる。
もちろんどのような形状であっても、拠点ごとのレンダリングエリアにグルーピングされてオブジェクト信号が配置されるので、拠点ごとの音響を分離しやすい。なお上述したとおり、優先度を受信拠点側で設定してもよいので、受聴者の好みに合わせて座標変換等によりパラメータを最適化し全体拠点の位置を移動させることも可能である。このように、拠点やオブジェクト信号の優先度情報Priority、各拠点のオブジェクト信号数numObject_siteを導入することで、本実施の形態はオブジェクト信号のレンダリングを自動的に行うことができる。
以上、実施の形態1および実施の形態2において説明してきたとおり本発明によると多拠点接続時には、各送信拠点のオブジェクト信号の相対的な位置を保持するようレンダリングすることもできる。また、拠点ごとのオブジェクト信号をエリア内のある一定の範囲内に配置することで、拠点ごとの音響を聴覚的に分離しやすくできる。さらに、優先度やオブジェクト数に応じてオブジェクトのレンダリング角度やレンダリング距離を制御することで、優先度に基づいて優先度の高い各拠点や各オブジェクト信号を聞き取りやすいよう順番にレンダリングすることができる。このように本発明によると会議における音声明瞭度を向上させることができる。
(実施の形態3)
レンダリング部807は、図3に示すように参加している各拠点から送信されてきたオブジェクト信号を仮想的にグルーピングする以外に、図11に示すようなレンダリングを行ってもよい。図11は受信拠点において、参加している各拠点の音響空間的な中心位置を一致させるようにレンダリングすることを示している。この中心位置とは各拠点の会議室の中心や、マイクロフォン等の収音設備の位置などである。このように受信拠点において各拠点の中心位置を一致させてレンダリングを行うと、各拠点の音響空間を受信側の仮想音響空間において重ね合わせたような状態を表現することができる。
例えばある拠点Aが広い会議室であり、拠点Bが狭い会議室である場合、受信拠点において拠点Aから送信された音響信号が作る仮想音響空間が広い範囲にレンダリングされることとなり、拠点Bの音響信号が作る仮想音響空間が狭い範囲にレンダリングされ、拠点の広さや音響空間の状態を受信拠点側で感じることができる。このような構成によると、参加する各拠点の音響空間の広がりを相対的に受信拠点において再現することができ、会議の臨場感が向上するという効果を奏する。
(実施の形態4)
図12は、実施の形態4のオブジェクト符号化情報のデータ構成を示す図である。同図に示すように、オブジェクト符号化情報1200には、ダウンミックス情報1201と、当該ダウンミックス情報1201を用いてそれぞれのオブジェクト信号を復号化するためのオブジェクト情報1202、1203とが含まれる。それぞれのオブジェクト情報1202、1203には、オブジェクト信号間のゲイン比情報(OLD)や位相差情報(IOC)が含まれている。例えば、このゲイン比情報は、各オブジェクト信号のダウンミックス情報1201に対する比で表されている。また、ダウンミックス情報1201には、ダウンミックス情報のゲインを示すグローバルゲイン情報1204が含まれている。このオブジェクト符号化情報1200をオブジェクト復号化部で復号化する際に、ダウンミックス情報1201に含まれるグローバルゲイン情報1204と、前記オブジェクト信号のゲイン比情報(OLD)1205、1206とを用いて優先度を判定することも可能である。通常、これらのゲイン情報は優先度を示している訳ではないが、ダウンミックス情報のゲインが大きい、または、前記ダウンミックス情報とオブジェクト情報を用いて復号化したオブジェクト信号のゲインの大きさを暗黙的に示す、オブジェクト情報に含まれるゲイン比の値と前記ダウンミックス情報に含まれるゲイン情報との積が大きいことは、それらが音響的に大きいことを示しており、音響信号が大きいと言うことは、それだけ優先度が高い可能性があり、ゲイン情報と優先度との間にはある程度の相関関係がある。そこで、その相関関係を鑑みて、ダウンミックス情報1201のグローバルゲイン情報1204は、その拠点の代表的な優先度を示すものと解釈し、各オブジェクト情報1202、1203に含まれるゲイン比情報(OLD)1205、1206は、それぞれオブジェクト信号毎の優先度を示すものと解釈してもよい。このようにすることにより、“(ダウンミックス情報のゲイン)*(オブジェクト信号間のゲイン比)”の値を復号化装置またはMCUにて算出し、その値の順位に従って、すべてのオブジェクト信号の優先度を算出することができる。このようにして算出した優先度に基づいて、本実施の形態のレンダリング部807では優先度に従って各オブジェクトを仮想空間に自動的にレンダリングすることが可能になる。
このように本実施の形態のレンダリング部807では、各オブジェクト信号のゲイン比がオブジェクトごとに分離されているオブジェクト符号化情報1200の構造を利用して優先度を決定するので、優先度を算出するための負荷を削減することができ、復号化装置の復号化負荷を軽減することが可能である。さらに、復号化装置の演算性能が低い場合、前記手法に従って決定した優先度のうち、所定の値より優先度が低いと判定したオブジェクト信号に対しては符号化情報を復号化しないことにより、レンダリング部807の処理負荷をより低減することができる。なお、これにおいて、所定の値は、復号化装置の演算性能によって決められる値である。
なお、ダウンミックス情報のグローバルゲイン情報と、オブジェクト信号間のゲイン比情報とに従って優先度を決定する上記の手法において、レンダリングをフレーム毎に逐次制御すると、オブジェクト信号および拠点の優先度が頻繁に変化し、ひいては上記レンダリング手法によって配置したオブジェクト再生エリアが頻繁に変化することにより、聞き心地が悪くなる場合がある。そのため、このような場合には、複数フレームにわたってグローバルゲイン情報およびゲイン比情報を平滑化・平均化し、その平均値に従ってレンダリングの制御を行うことで、急峻な優先度変化(レンダリングされた再生エリアの変化)を防ぐことが好ましい。
なお、オブジェクト信号を自動的にレンダリングする領域の境界付近にオブジェクトをレンダリングする際に、そのオブジェクトの音量が大きくなる場合には、レンダリング境界が曖昧になるため、本願発明の効果が正確に発現しない場合がある。レンダリング境界の明瞭度と境界近くにレンダリングされたオブジェクトの音量は相関関係があるので、レンダリング境界を明確にするためには境界面付近のオブジェクト信号の音量を小さくする。
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、本発明は、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体に記録したものとしてもよい。コンピュータ読み取り可能な記録媒体は例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどである。また、本発明は、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムで実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、通信経路を介して複数の拠点が接続されており、各拠点がオブジェクト符号化されている多拠点会議システムに有用である。
101、102、103、104 (拠点Bに発生している)オブジェクト信号
105、106、107、108 受信拠点Dにおける拠点Bの仮想空間上のオブジェクト信号
109、609 受信拠点Dにおける拠点Bの仮想空間
110、405 (受信拠点Dの)受聴位置
401 (拠点Aの)仮想空間
403 (401の)中心点
404 402の中心点
406、407 (受信拠点Dにおける拠点Aの仮想空間を挟む)矢印
501 受聴位置
502 (仮想空間の)中心点
503 (オブジェクトjの仮想空間上の)位置
601、602、603、604 拠点Bのオブジェクト信号
605、606、607、608 受信拠点Dにおける拠点Bの仮想空間上のオブジェクト信号
609 (受信拠点Dにおける)仮想空間
610 (受信拠点Dの)受聴位置
801 収音部
802 拠点Aの会議室
803 分離部
804 オブジェクト符号化部
805 多拠点接続装置
806 オブジェクト復号化部
807 レンダリング部
808 拠点Dの会議室
809 拠点Aから送信されたオブジェクト符号化情報A
810 拠点Bから送信されたオブジェクト符号化情報B
811 拠点Cから送信されたオブジェクト符号化情報C
812 合成オブジェクト符号化情報
901 スピーカA
902 スピーカB
903 配置位置
904 線分
905 受聴位置
1001 フロント左スピーカL
1002 フロントセンタースピーカC
1003 フロント右スピーカR
1004 リア左スピーカLs
1005 リア右スピーカRs
1006 左右方向の中心線
1007 前後方向の中心線
1008 受聴位置
1101 拠点Aにおけるオブジェクト信号1の位置
1102 拠点Aにおけるオブジェクト信号2の位置
1103 拠点Aにおけるオブジェクト信号3の位置
1104 拠点Aにおけるオブジェクト信号4の位置
1105 拠点Aにおけるオブジェクト信号5の位置
1106 拠点Aにおける中心位置
1107 拠点Bにおけるオブジェクト信号6の位置
1108 拠点Bにおけるオブジェクト信号7の位置
1109 拠点Bにおける中心位置
1110 受信拠点Cにおけるオブジェクト信号1の位置
1111 受信拠点Cにおけるオブジェクト信号2の位置
1112 受信拠点Cにおけるオブジェクト信号3の位置
1113 受信拠点Cにおけるオブジェクト信号4の位置
1114 受信拠点Cにおけるオブジェクト信号5の位置
1115 受信拠点Cにおけるオブジェクト信号6の位置
1116 受信拠点Cにおけるオブジェクト信号7の位置
1117 受信拠点Cにおける拠点Aと拠点Bの中心位置
1200 オブジェクト符号化情報
1201 ダウンミックス情報
1202、1203、 オブジェクト情報
1204 グローバルゲイン情報
1205、1206 ゲイン比情報(OLD)

Claims (17)

  1. オブジェクト符号化された音響符号化情報を複数受信し、受信した前記音響符号化情報をオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、
    生成された前記音響信号に含まれる1以上の前記オブジェクト信号にそれぞれ対応する仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、
    前記音響符号化情報には、前記音響信号に対する優先度の高低を示す優先度情報が重畳されており、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する
    復号化装置。
  2. 前記1つ以上のオブジェクト信号は、前記音響符号化情報がオブジェクト符号化された音響空間における1つの音源にそれぞれ対応づけられており、
    前記音響信号は、前記音響空間において発生した1以上のオブジェクト信号を合成して得られた信号である
    請求項1記載の復号化装置。
  3. 前記レンダリング部は、前記音響信号に対する優先度が高いほど大きくなるよう前記領域の大小を決定する
    請求項2記載の復号化装置。
  4. 前記優先度情報は、オブジェクト符号化におけるダウンミックス情報のゲインを示すグローバルゲイン情報であって、前記優先度の高低は、前記ゲインに比例する
    請求項3記載の復号化装置。
  5. 前記音響符号化情報には、それぞれの前記オブジェクト信号のダウンミックス情報に対するゲインの比を示すゲイン比情報が含まれ、
    前記オブジェクト復号化部は、オブジェクト信号ごとに、前記グローバルゲイン情報の値と前記ゲイン比情報の値との積を算出し、算出した値を前記オブジェクト信号ごとの第2の優先度情報とする
    請求項4記載の復号化装置。
  6. 前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号だけを復号化し、前記順位より優先度が低いオブジェクト信号を復号化しない
    請求項5記載の復号化装置。
  7. 前記オブジェクト復号化部は、前記音響信号において、前記第2の優先度情報で示される優先度があらかじめ定められた順位以上のオブジェクト信号のみ優先度の高低を認め、前記優先度が前記順位より低いオブジェクト信号に対しては前記順位より低い同じ優先度であるとみなす
    請求項5記載の復号化装置。
  8. 前記音響符号化情報のそれぞれには、前記音響空間を特定するための識別情報が含まれ、
    前記オブジェクト復号化部が、単位時間あたりに前記音響符号化情報を受信した音響符号化情報の符号長を前記識別情報ごとに計測し、計測した単位時間あたりの音響符号化情報の符号長を前記識別情報で特定される前記音響空間の活動度として、前記優先度情報と前記活動度に基づいて前記音響空間ごとの音響信号の優先度の高低を決定し、
    前記レンダリング部は、前記識別情報ごとに決定された優先度が高いほど、前記識別情報で特定される音響空間からの前記音響信号に割り当てられる領域が大きくなるよう前記領域の大きさを決定する
    請求項3記載の復号化装置。
  9. 前記オブジェクト復号化部は、前記音響信号に含まれる前記オブジェクト信号の数に比例するよう前記音響空間ごとの音響信号の優先度の高低を決定する
    請求項3記載の復号化装置。
  10. 前記レンダリング部は、前記音響信号それぞれの前記優先度情報が示す優先度が高いほど、当該音響信号に割り当てられた前記領域が前記受聴位置のあらかじめ定められた正面方向に近くなるよう配置する
    請求項3記載の復号化装置。
  11. 前記音響符号化情報のそれぞれには、前記音響空間同士の相対的な位置関係を示す情報が重畳され、前記レンダリング部は、前記位置関係を示す前記情報に従って、前記音響信号を前記あらかじめ定められた受聴位置の周囲に配置する
    請求項3記載の復号化装置。
  12. 前記レンダリング部は、前記オブジェクト信号に対する前記第2の優先度情報が示す優先度が高いほど、当該オブジェクト信号が前記受聴位置に近い位置となるよう前記オブジェクト信号それぞれの配置を決定する
    請求項5記載の復号化装置。
  13. 前記音響符号化情報のそれぞれには、前記音響空間における、あらかじめ定められた基準位置に対するオブジェクト信号それぞれの音源の相対位置を示す相対位置情報が含まれ、前記レンダリング部は、前記音響信号のそれぞれに割り当てられた前記領域のあらかじめ定められた位置を前記基準位置とし、前記音環境情報で示される前記相対位置から前記各オブジェクト信号の前記受聴空間における前記仮想音源の位置を算出し、算出した前記位置に前記オブジェクト信号の前記仮想音源を配置する
    請求項1記載の復号化装置。
  14. 前記1つ以上のオブジェクト信号は、前記音響空間における一人の話者の音声にそれぞれ対応づけられている
    請求項2記載の復号化装置。
  15. 1以上のオブジェクト信号の集まりである音響信号を収音する収音部と、
    収音した前記音響信号をそれぞれの前記オブジェクト信号に分離する分離部と、
    分離された前記オブジェクト信号をオブジェクト符号化して音響符号化情報を生成し、生成した前記音響符号化情報に、前記音響信号のそれぞれに対する優先度の高低を示す優先度情報と、前記音響信号に含まれる前記オブジェクト信号の数とを重畳するオブジェクト符号化部と、
    前記音響符号化情報を複数の他の装置から受信し、受信した前記音響符号化情報のそれぞれをオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、
    前記オブジェクト復号化部が生成した1以上の前記オブジェクト信号のそれぞれの仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、
    前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する
    符号化復号化装置。
  16. オブジェクト符号化された音響符号化情報を複数受信し、受信した前記音響符号化情報をオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成し、
    前記音響符号化情報に重畳されている、前記音響信号に対する優先度の高低を示す優先度情報を取得し、
    前記優先度情報が示す優先度の高低に応じて、あらかじめ定められた受聴空間において前記音響信号それぞれに対して割り当てられる領域の大小を決定し、
    前記音響信号に含まれる前記オブジェクト信号にそれぞれ対応する前記仮想音源の位置を前記音響信号ごとに割り当てられた前記領域内に配置する
    復号化方法。
  17. オブジェクト符号化された音響符号化情報を複数受信し、受信した前記音響符号化情報をオブジェクト復号化することにより、1つの前記音響符号化情報から、1以上のオブジェクト信号が合成された1つの音響信号を生成するオブジェクト復号化部と、
    生成された前記音響信号に含まれる1以上の前記オブジェクト信号にそれぞれ対応する仮想音源の位置を前記1つの音響信号ごとに、あらかじめ定められた受聴空間に配置するレンダリング部とを備え、
    前記音響符号化情報には、前記音響信号に対する優先度の高低を示す優先度情報が重畳されており、前記レンダリング部は、前記優先度情報が示す優先度の高低に応じて、前記受聴空間において前記音響信号に対して割り当てられる領域の大小を決定し、前記音響信号に含まれる前記オブジェクト信号の前記仮想音源のそれぞれを前記音響信号に割り当てられた前記領域内に配置する
    集積回路。
JP2010530214A 2009-03-26 2010-03-26 復号化装置、符号化復号化装置および復号化方法 Expired - Fee Related JP5340296B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010530214A JP5340296B2 (ja) 2009-03-26 2010-03-26 復号化装置、符号化復号化装置および復号化方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009075722 2009-03-26
JP2009075722 2009-03-26
PCT/JP2010/002214 WO2010109918A1 (ja) 2009-03-26 2010-03-26 復号化装置、符号化復号化装置および復号化方法
JP2010530214A JP5340296B2 (ja) 2009-03-26 2010-03-26 復号化装置、符号化復号化装置および復号化方法

Publications (2)

Publication Number Publication Date
JPWO2010109918A1 true JPWO2010109918A1 (ja) 2012-09-27
JP5340296B2 JP5340296B2 (ja) 2013-11-13

Family

ID=42780615

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010530214A Expired - Fee Related JP5340296B2 (ja) 2009-03-26 2010-03-26 復号化装置、符号化復号化装置および復号化方法

Country Status (4)

Country Link
US (1) US8718285B2 (ja)
JP (1) JP5340296B2 (ja)
CN (1) CN102318373B (ja)
WO (1) WO2010109918A1 (ja)

Families Citing this family (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4867516B2 (ja) * 2006-08-01 2012-02-01 ヤマハ株式会社 音声会議システム
EP2009892B1 (fr) * 2007-06-29 2019-03-06 Orange Positionnement de locuteurs en conférence audio 3D
KR101576294B1 (ko) * 2008-08-14 2015-12-11 삼성전자주식회사 가상 현실 시스템에서 사운드 처리를 수행하기 위한 장치 및 방법
JP5912294B2 (ja) * 2011-05-26 2016-04-27 シャープ株式会社 テレビ会議装置
EP2624535A1 (en) * 2012-01-31 2013-08-07 Alcatel Lucent Audio conferencing with spatial sound
JP6045696B2 (ja) * 2012-07-31 2016-12-14 インテレクチュアル ディスカバリー シーオー エルティディIntellectual Discovery Co.,Ltd. オーディオ信号処理方法および装置
WO2014052429A1 (en) 2012-09-27 2014-04-03 Dolby Laboratories Licensing Corporation Spatial multiplexing in a soundfield teleconferencing system
JP5983421B2 (ja) * 2013-01-21 2016-08-31 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN104010265A (zh) 2013-02-22 2014-08-27 杜比实验室特许公司 音频空间渲染设备及方法
CN103987002A (zh) * 2013-03-23 2014-08-13 卫晟 全息录音技术
TWI615834B (zh) * 2013-05-31 2018-02-21 Sony Corp 編碼裝置及方法、解碼裝置及方法、以及程式
EP3059732B1 (en) 2013-10-17 2018-10-10 Socionext Inc. Audio decoding device
EP2879131A1 (en) 2013-11-27 2015-06-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Decoder, encoder and method for informed loudness estimation in object-based audio coding systems
KR102149216B1 (ko) * 2014-03-19 2020-08-28 주식회사 윌러스표준기술연구소 오디오 신호 처리 방법 및 장치
JP6863359B2 (ja) * 2014-03-24 2021-04-21 ソニーグループ株式会社 復号装置および方法、並びにプログラム
WO2016009850A1 (ja) * 2014-07-16 2016-01-21 シャープ株式会社 音声信号再生装置、音声信号再生方法、プログラム、および、記録媒体
JP6492521B2 (ja) * 2014-10-17 2019-04-03 ヤマハ株式会社 ミキシング装置
US10057707B2 (en) 2015-02-03 2018-08-21 Dolby Laboratories Licensing Corporation Optimized virtual scene layout for spatial meeting playback
US10567185B2 (en) 2015-02-03 2020-02-18 Dolby Laboratories Licensing Corporation Post-conference playback system having higher perceived quality than originally heard in the conference
CN111556426B (zh) * 2015-02-06 2022-03-25 杜比实验室特许公司 用于自适应音频的混合型基于优先度的渲染系统和方法
US10225814B2 (en) * 2015-04-05 2019-03-05 Qualcomm Incorporated Conference audio management
CN111586533B (zh) 2015-04-08 2023-01-03 杜比实验室特许公司 音频内容的呈现
JP6904250B2 (ja) * 2015-04-08 2021-07-14 ソニーグループ株式会社 送信装置、送信方法、受信装置および受信方法
US10136240B2 (en) * 2015-04-20 2018-11-20 Dolby Laboratories Licensing Corporation Processing audio data to compensate for partial hearing loss or an adverse hearing environment
US20170195817A1 (en) * 2015-12-30 2017-07-06 Knowles Electronics Llc Simultaneous Binaural Presentation of Multiple Audio Streams
EP3261367B1 (en) 2016-06-21 2020-07-22 Nokia Technologies Oy Method, apparatus, and computer program code for improving perception of sound objects in mediated reality
JP6742216B2 (ja) * 2016-10-25 2020-08-19 キヤノン株式会社 音響処理システム、音響処理方法、プログラム
CN108089152B (zh) * 2016-11-23 2020-07-03 杭州海康威视数字技术股份有限公司 一种设备控制方法、装置及系统
EP3373595A1 (en) * 2017-03-07 2018-09-12 Thomson Licensing Sound rendering with home cinema system and television
US11574644B2 (en) * 2017-04-26 2023-02-07 Sony Corporation Signal processing device and method, and program
US10257633B1 (en) * 2017-09-15 2019-04-09 Htc Corporation Sound-reproducing method and sound-reproducing apparatus
GB2575510A (en) * 2018-07-13 2020-01-15 Nokia Technologies Oy Spatial augmentation
EP3599777B1 (en) * 2018-07-24 2024-01-03 Nokia Technologies Oy An apparatus, system, method and computer program for providing spatial audio
EP3683293B1 (en) * 2019-01-21 2021-04-28 Marcin Golec Composition, method and use
US11502860B2 (en) 2019-11-07 2022-11-15 Babblelabs Llc Audio group identification for conferencing
US11533578B2 (en) * 2021-02-25 2022-12-20 Microsoft Technology Licensing, Llc Virtual environment audio stream delivery
WO2023074039A1 (ja) * 2021-10-29 2023-05-04 ソニーグループ株式会社 情報処理装置および方法、並びにプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0974446A (ja) * 1995-03-01 1997-03-18 Nippon Telegr & Teleph Corp <Ntt> 音声通信制御装置
CA2170545C (en) 1995-03-01 1999-07-13 Ikuichiro Kinoshita Audio communication control unit
EP1439704A3 (en) * 1997-03-17 2011-08-10 Panasonic Corporation Method and apparatus for processing, transmitting and receiving dynamic image data
JP2003283672A (ja) * 2002-03-26 2003-10-03 Fuji Photo Film Co Ltd 電話会議装置
FR2847376B1 (fr) 2002-11-19 2005-02-04 France Telecom Procede de traitement de donnees sonores et dispositif d'acquisition sonore mettant en oeuvre ce procede
JP2006025281A (ja) * 2004-07-09 2006-01-26 Hitachi Ltd 情報源選択システム、および方法
JP2006115364A (ja) * 2004-10-18 2006-04-27 Hitachi Ltd 音声出力制御装置
JP4936688B2 (ja) 2005-07-19 2012-05-23 パナソニック株式会社 中継装置、通信端末装置、信号復号化装置、信号処理方法、および信号処理プログラム
WO2007052726A1 (ja) * 2005-11-02 2007-05-10 Yamaha Corporation 遠隔会議装置
ATE542216T1 (de) * 2006-07-07 2012-02-15 Fraunhofer Ges Forschung Vorrichtung und verfahren zum kombinieren mehrerer parametrisch kodierter audioquellen
JP5261983B2 (ja) * 2007-05-23 2013-08-14 ヤマハ株式会社 音声通信システム
EP2164238B1 (en) * 2007-06-27 2013-01-16 NEC Corporation Multi-point connection device, signal analysis and device, method, and program

Also Published As

Publication number Publication date
CN102318373B (zh) 2014-09-10
US8718285B2 (en) 2014-05-06
JP5340296B2 (ja) 2013-11-13
US20110051940A1 (en) 2011-03-03
CN102318373A (zh) 2012-01-11
WO2010109918A1 (ja) 2010-09-30

Similar Documents

Publication Publication Date Title
JP5340296B2 (ja) 復号化装置、符号化復号化装置および復号化方法
US10412523B2 (en) System for rendering and playback of object based audio in various listening environments
JP6515087B2 (ja) オーディオ処理装置及び方法
CN107071688B (zh) 用于处理音频信号的方法及装置
EP2891335B1 (en) Reflected and direct rendering of upmixed content to individually addressable drivers
CN101517637B (zh) 音频编解码器 、编解码方法、 集线器、 发送接收器、 发送接收方法、通信系统、 播放设备
EP2805326B1 (en) Spatial audio rendering and encoding
JP6600733B2 (ja) 音響信号のレンダリング方法、その装置及び該コンピュータ可読記録媒体
TWI517028B (zh) 音訊空間定位和環境模擬
US9025002B2 (en) Method and apparatus for playing audio of attendant at remote end and remote video conference system
KR20080107422A (ko) 오디오 인코딩 및 디코딩
Lee 2D to 3D ambience upmixing based on perceptual band allocation
GB2580899A (en) Audio representation and associated rendering
Griesinger The psychoacoustics of listening area, depth, and envelopment in surround recordings, and their relationship to microphone technique
Howie et al. Subjective and objective evaluation of 9ch three-dimensional acoustic music recording techniques
Lee et al. 3D microphone array comparison: objective measurements
Rumsey Surround Sound 1
Power et al. Localisation of elevated virtual sources in higher order ambisonic sound fields
KR101111734B1 (ko) 복수 개의 음원을 구분하여 음향을 출력하는 방법 및 장치
US20230188924A1 (en) Spatial Audio Object Positional Distribution within Spatial Audio Communication Systems
Pfanzagl-Cardone The Art and Science of 3D Audio Recording
JP2011193195A (ja) 音場制御装置
Kelly et al. A Perceptual Evaluation of Spatial Room Impulse Responses Captured Using Spaced Higher-Order Ambisonic Microphone Arrays
Kim et al. Investigation into spatial audio quality of experience in the presence of accompanying video cues with spatial mismatch
Zacharov Perceptual studies on spatial sound reproduction systems

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130716

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130806

R150 Certificate of patent or registration of utility model

Ref document number: 5340296

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees