JPWO2009050896A1 - ストリーム合成装置、復号装置、方法 - Google Patents

ストリーム合成装置、復号装置、方法 Download PDF

Info

Publication number
JPWO2009050896A1
JPWO2009050896A1 JP2009512090A JP2009512090A JPWO2009050896A1 JP WO2009050896 A1 JPWO2009050896 A1 JP WO2009050896A1 JP 2009512090 A JP2009512090 A JP 2009512090A JP 2009512090 A JP2009512090 A JP 2009512090A JP WO2009050896 A1 JPWO2009050896 A1 JP WO2009050896A1
Authority
JP
Japan
Prior art keywords
signal
encoded
downmix
information
signals
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009512090A
Other languages
English (en)
Inventor
石川 智一
智一 石川
則松 武志
武志 則松
崇 片山
崇 片山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Publication of JPWO2009050896A1 publication Critical patent/JPWO2009050896A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/42Systems providing special services or facilities to subscribers
    • H04M3/56Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities
    • H04M3/568Arrangements for connecting several subscribers to a common circuit, i.e. affording conference facilities audio processing specific to telephonic conferencing, e.g. spatial distribution, mixing of participants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/70Media network packetisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/12Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being prediction coefficients

Abstract

多拠点接続時の臨場感を向上させつつ、多拠点接続装置での演算負荷を減らすことが可能になるようにする。2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力部と、前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成部と、生成された当該符号化信号を出力する出力部とを備えるストリーム合成装置が構成される。

Description

本発明は、オーディオコーデックを用いて通信する多拠点会議システムに関するものであり、特に多拠点接続装置に関するものである。
近年、複数の拠点間をInternetProtocol(IP)を介して接続している会議室システムが提案されている。従来は、各拠点がそれ以外の拠点と1対1に接続され、その音声符号化方式として、G.726などの音声符号化技術が用いられてきた。
非特許文献1記載のG.726などのモノラル音声符号化技術を用いた場合には、各拠点で複数の人が同時に発話した時、音響信号がモノラルであるため、各拠点の臨場感がうまく伝わらず、受信側では発話人を特定することは困難になる。これは、音の分離性能が劣化することに起因する。
そこで、非特許文献2記載のMPEG−AAC方式などのマルチチャンネル符号化技術を導入して分離性能を向上させることができる。MPEG−AAC方式では各拠点間の臨場感は伝えられるが、伝送量(ビットレート)が増大してネットワークに負荷をかけてしまう。一般的には、音声の符号化方式に比べマルチチャンネルの符号化方式を用いると100倍程度に伝送量が増大してしまう。
MPEG−AAC方式に対して、非特許文献3記載のMPEG−Surround方式では、低ビットレートのマルチチャンネル符号化方式を用いることで伝送量の増大を防ぐことができる。
ITU−T G.726規格書 MPEG−AAC規格書 ISO/IEC 13818−3 MPEG−Surround規格書 ISO/IEC 23003−3 インターネット<URL:http://winnie.kuis.kyoto-u.ac.jp/~ogata/le4-pr/node2.html>、[2007年7月15日検索] 「階層的変換符号化基本モジュールによって構成されるスケーラブル楽音符号化」、電子情報通信学会論文誌 Vol.J83-A、No.3(20000325)、pp. 241-252 インターネット<URL:http://www.murata.elec.waseda.ac.jp/~mura/Research/ICA/ieice99/mld.m>、[2007年7月15日検索]
しかしながら、MPEG−Surround方式を会議システムに用いる場合に大きな課題がある。
図1及び図2に示すように、会議システムの接続方式にはメッシュ型(図1)とスター型(図2)とがある。複数の拠点がメッシュ型で接続されている場合(図1)、接続拠点数が増加してくると、各拠点の送受信端末装置では同時に沢山の復号化処理を行わなければならない。拠点数がn個の場合には、各拠点の端末ではn回の復号化処理を行う必要があるが、MPEG−Surround方式などのマルチチャンネル符号化方式を符号化・復号化する際には多大な演算を必要とするため、上記のように同時に複数の復号化処理を実行するには、符号化・復号化処理を行う処理プロセッサに高い演算性能が必要とされ、非常に大規模なプロセッサが必要になる。それらは一般的に非常に高価になりがちでコストが高い課題がある。また、演算メモリーにも余裕をもった設計を施さねばならないことも、コスト増加に拍車をかける。この課題は特に省電力が必要とされる携帯型の端末にとっては致命的なものである。
一方、多拠点接続装置(MCU)403(図2)を介して接続されるスター型の場合にも課題がある。各拠点での送受信端末装置では、1組の送受信処理をすればよいので、過度なプロセッサ能力や演算メモリーは必要ないが、多拠点接続装置(MCU)に多大な演算能力が必要になる。図3は、3拠点が多拠点接続装置403を介して接続されており、各拠点間はMPEG−Surround方式などの従来のマルチチャンネル符号化方法で通信をしている様子を示している。各拠点は3チャンネルの通信をしている例だが、多拠点接続装置403では、拠点1と拠点2から受信した符号化情報401と402をマルチチャンネル復号化し、それぞれのチャンネルをダウンミックスして、再び3チャンネルの符号化を施して拠点3へと送信する。つまり、n拠点が多拠点接続装置(MCU)に接続されている場合、多拠点接続装置では、各拠点から受信した符号化列を一旦復号化して一つの信号にまとめて再度送り出すために符号化処理がn回、復号化処理がn回同時に行われる必要があり、メッシュ型の拠点端末で発生した課題が今度は多拠点接続装置で同様に発生する。
本発明は、このような従来の問題点に鑑みてなされたものである。
上記課題を解決するため、本発明の第1のストリーム合成装置は、2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力部と、前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成部と、生成された当該符号化信号を出力する出力部とを備えるストリーム合成装置である。
また、本発明の復号装置は、2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を入力する入力部を備え、入力される前記符号化信号の前記ダウンミックス音響信号は、予め定められた2つ以上の符号化信号の各ダウンミックス音響信号が取得される第2のダウンミックス音響信号であり、入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号であり、前記拡張信号に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号部を備える復号装置である。なお、復号部は、少なくとも相互相関値(ICC)と周波数パワー比(ILD)とに基いて、各中間信号を生成する。復号部は、相互相関値(ICC)と、周波数パワー比(ILD)と、相互相関値(ICC)及び周波数パワー比(ILD)以外の他のデータとに基いて、各中間信号を生成してもよい。
第2のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするものであって、2つ以上の符号化信号を受信して、該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形することを特徴とするストリーム合成装置である。
また、第3のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするストリーム合成装置であって、2つ以上の前記符号化信号を受信して、1つの前記符号化信号を送信するものであって、受信した符号化信号に含まれる拡張信号を一つの符号化信号に合成する、ことを特徴とするストリーム合成装置である。
また、第4のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするストリーム合成装置であって、2つ以上の前記符号化信号の送信元を示す情報を含む信号に合成する、ことを特徴とするストリーム合成装置である。
また、第1の復号化装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入力として、2つ以上の前記符号化信号から該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形された信号を受信する復号化装置であって、前記拡張信号には、1つ以上のモノラル信号の周波数パワー比(ILD)と1つ以上のモノラル信号の相互相関値(ICC)を含み、前記ダウンミックスした音響信号を復号化した信号に前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、前記2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する、ことを特徴とする復号化装置である。
また、第2の復号化装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入力として、2つ以上の前記符号化信号から該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形された信号を受信して復号化する復号化装置であって、前記拡張信号には、1つ以上のモノラル信号の二乗パワー周波数比を含み、前記二乗パワー周波数比が所定の閾値よりも大なるときに復号化を実施しないことを特徴とする復号化装置である。
また、第5のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするものであって、2つ以上の符号化信号を受信して、該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形することを特徴とするストリーム合成装置である。
この第5のストリーム合成装置によれば、G.726などのモノラル音声符号化技術を用いた場合には、各拠点で複数の人が同時に発話した場合に、音響信号がモノラルであるため、音の分離性能が劣化するため、各拠点の臨場感がうまく伝わらず、受信側では発話人を特定することは困難になる問題が解決できる。
上記のようなストリーム合成装置を設けることで、多拠点接続時の臨場感を向上させつつ、多拠点接続装置での演算負荷を減らすことが可能になる。
図1は、通信経路の接続の種類を示す図である。 図2は、通信経路の接続の種類を示す図である。 図3は、マルチチャンネル多拠点通信の課題を示す図である。 図4は、本発明の実施の形態1におけるストリーム合成装置を示す図である。 図5は、本発明の実施の形態1における多拠点接続の例を示す図である。 図6は、本発明の実施の形態1におけるダウンミックス整形回路を示す図である。 図7は、本発明の実施の形態1における復号化装置を示す図である。 図8は、本発明の実施の形態1における分離回路を示す図である。 図9は、本発明の実施の形態2における多拠点接続を例を示す図である。 図10は、本発明の実施の形態2における符号化列の例を示す図である。 図11は、本発明の実施の形態3におけるダウンミックス整形回路を示す図である。 図12は、本発明の実施の形態4における多拠点接続の例を示す図である。 図13は、本発明の実施の形態4における符号化列の例を示す図である。 図14は、本発明の実施の形態1における多拠点接続の例を示す図である。 図15は、本発明の実施の形態1における多拠点接続の別の構成を示す図である。 図16は、ストリーム合成装置における受信拠点数検出のフローチャートである。 図17は、ストリーム合成装置におけるダウンミックス分離係数算出のフローチャートである。 図18は、ダウンミックス分離係数算出のフローチャートの別構成である。 図19は、本発明の実施の形態1における符号化列の例を示す図である。 図20は、符号化列に保持する分離ツリー情報の例を示す図である。 図21は、ストリーム合成装置における優先度算出手順を示すフローチャートである。 図22は、ストリーム合成装置が複数の拠点にそれぞれ符号化情報を送信する処理を説明するための概念図である。
符号の説明
100 ストリーム合成装置
101、102、107 符号化情報
103 分離回路
104 ダウンミックス整形回路
105 拡張情報算出回路
106 多重化回路
201、204 ダウンミックス符号化信号
202、203、205、206 拡張情報
207 ダウンミックス符号化信号
208 ダウンミックス分離情報
401、402、407 符号化情報
501、502 復号化回路
503 ダウンミックス回路
504 符号化回路
601 ダウンミックス符号化信号
602 拡張情報
603、604 分離回路
701 入力信号
702 分離情報(相関値)
703 分離情報(パワー比)
704 無相関化回路
705、706 ゲイン調整回路
707 分離された第一の信号
708 分離された第二の信号
801 拠点1のダウンミックス符号化信号
802、803 拠点1の拡張情報
804 拠点2のダウンミックス符号化信号
805、806、807 拠点2の拡張情報
808 拠点3のダウンミックス符号化信号
809 拠点3のダウンミックス分離情報
901 Tree情報
902 拠点3のダウンミックス符号化信号
903 拠点3のダウンミックス分離情報
904、905、906 拡張情報
907 判別情報
908 拠点情報
909 信号数
910 Treeの深さ情報
911 信号1のTree係数
912 信号2のTree係数
913 信号3のTree係数
914 終端情報
1001 逆量子化部
1101 ダウンミックス信号
1102、1103、1104 拡張情報
1105 ダウンミックス信号
1106、1107、1108、1109 拡張情報
1110 ダウンミックス信号
1111 ダウンミックス分離情報
1112、1113 拡張情報
1114、1115、1116 符号化情報
1301 入力信号数
1401 優先度情報
1402 拠点1の入力信号1の拡張信号(優先度最大)
1403 拠点2の入力信号6の拡張信号(優先度2番目)
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
図4は、本願発明のストリーム合成装置100の構成図である。また、図5は、拠点1と拠点2、拠点3が本願発明によるストリーム合成装置(多拠点接続装置)100を介して接続している図である。以下、拠点1〜拠点3と、ストリーム合成装置100とを備える多拠点会議システムを、システム1(図5)と呼ぶ。まず、図5を用いて概要を説明する。
図5は、システム1の構成図である。
各拠点は、それぞれ2つ以上の独立した音響信号をマイクロフォンで収録し、マルチチャンネルのPCM信号を得る。図5の場合、拠点1では信号1、信号2、信号3が収録され、拠点2では信号4,信号5、信号6がそれぞれ収録される。得られたPCM信号を式1に従ってステレオまたはモノラルのダウンミックスPCM信号を計算する。
(式1)DMX(n) = Σa(i,n)*Input(i) n=1または2
ここで、a(i,n)は各入力信号のダウンミックス係数で、収録された信号の数が5つの場合、ITU−R BS.775−1規格に開示されているダウンミックス係数を用いる。なお、「Σ」は、数列の総和を表す記号である。すなわち、「Σ」は、通常の数学における「Σ」の記号の意味を有する。
つまり、独立した複数の音響信号をあたかも、通常のマルチチャンネル信号として扱うのである。
このようにして算出されたモノラルあるいはステレオのダウンミックス信号を、モノラルあるいはステレオの音響符号化処理を行う。音響符号化処理として、ステレオ信号の場合たとえば、非特許文献2記載のMPEG−AAC方式で符号化する。モノラルの場合は非特許文献1記載のG.726方式やMPEG−AACのモノラル符号化を用いる。なお、ダウンミックス信号の符号化方式に関しては、MPEG−AACやG.726に限ったものではなく、ドルビーデジタル(AC−3)やMPEG−Layer3方式、TwinVQ方式などでも良い。
図5では、ダウンミックスPCM信号を符号化した信号を、DMX信号201、DMX信号204として表している。これらを総称してダウンミックス符号化信号と呼ぶことにする。
なお、説明の便宜上、この出願書類では、複数の音声信号などの複数の元信号がダウンミックスされて、ダウンミックスされたダウンミックスPCM信号がDMX信号に符号化される処理の全体からなる全体処理が、ダウンミックス符号化と呼ばれる。なお、ダウンミックス符号化は、適宜、単に「符号化」と呼ばれる。また、逆に、DMX信号から複数の元信号が生成される処理が、ダウンミックス復号と呼ばれる。なお、ダウンミックス復号は、適宜、単に「復号」と呼ばれる。
次に、拡張信号と呼ばれる信号を算出する。この信号は、前記ダウンミックス信号(DMX信号201、DMX信号204など)を元に、複数の独立した信号へと復号化するための情報である。拠点1を例に説明する。入力信号(ここでは信号1、信号2、それぞれモノラル信号の場合)の間で、フレーム毎に次のようにして、パワー比(ILD)および相互相関値(ICC)を算出する。信号1をInput1(n)、信号2をInput2(n)とすると、
(式2)Gain(n)=10*log(Input1(n)/Input2(n))
(式3)Cor(n)=Σ(Input1(n)*Input2(n)/Input2(i)^2)
なお、この出願書類において、記号「^」は、べき乗の演算を表す記号である。具体的には、記号「^」は、「A^B」の形で使われることで、AのB乗を表す。
このように算出されたパワー比(ILD)および相互相関値(ICC)は、量子化、Huffman符号化などが施されて、拡張信号203となる。詳細な手順は、非特許文献3記載のMPEG−Surround符号化におけるOTT回路(2つの入力から上記拡張信号を生成する回路)を参照されたい。なお、拡張情報はパワー比(ILD)と相互相関値(ICC)を例にしたが、これに限ったものではない。また、ここでは2つの独立した入力信号から拡張情報を作る例を述べたが、3つの独立した入力信号から拡張情報を求める方法もある。詳しくは、非特許文献3記載のMPEG−Surround符号化におけるTTT回路を参照されたい。4つ以上の独立した入力信号の場合には、2入力の信号装置であるOTT回路を直列接続した形で実現する。たとえば4つの独立した信号の場合はOTT回路を二つ用いて、二組のダウンミックス信号を得て、それをさらにOTT回路で一つのダウンミックス信号を得る。つまり、3つのOTT回路を用いる。
なお、拡張情報は、パワー比(ILD)および相互相関値(ICC)に加えて、さらに、位相差情報(IPD)を含んでもよい。
次に、信号1と信号2とをダウンミックスしてモノラル信号に変換し、その信号と信号3を用いて式2、式3にならってパワー比(ILD)と相互相関値(ICC)を算出し、量子化、Huffman符号化などが施され、拡張信号202とする。符号化情報101として、ダウンミックス符号化信号201と、そのダウンミックス符号化信号201から、信号3と、信号1+信号2で構成される合成信号とに分離するための拡張情報202、前記の拡張情報202によって分離された信号1+信号2の合成信号を、信号1と信号2に分離するための拡張情報203で構成されている。このことを模式的に図示すると、図5の信号ツリー209のようになる。
拠点2も同様に、信号4および信号5から拡張情報206を、信号4と信号5をダウンミックスした合成信号と信号6とから拡張情報205を、それぞれ算出する。
このようにして得られたダウンミックス符号化信号と拡張情報が、各拠点毎にまとめられ、Internetなどの通信路を経由してストリーム合成装置100に入力される。
図4は、本願発明のストリーム合成装置100の詳細を示す図である。ストリーム合成装置100の内部では、次のような演算が行われる。
まず、分離回路103は、拠点1の符号化情報101、拠点2の符号化情報102それぞれから、ダウンミックス符号化信号と拡張情報とを分離する。この分離に際しては、ダウンミックス符号化信号と拡張情報を区別する情報が、それぞれの情報の先頭に付記されており、それを頼りに分離回路103で分離する。
図6は、ダウンミックス整形回路104(図4)の構成を示す。
分離されたダウンミックス符号化信号は、ダウンミックス整形回路104を構成する復号化回路501および502で、所定の手順に従って、ダウンミックス整形回路104にて、一旦PCM信号に復号化される。なお、ダウンミックス符号化信号がMPEG−AAC方式で符号化されている場合は、非特許文献2記載の復号化方法で復号化し、PCM信号を算出する。このようにして得られたPCM信号をPCM1、PCM2とする。
ダウンミックス整形回路104は、復号化されたこれらのPCM信号(PCM1、PCM2)を、更に、ダウンミックス回路503によってダウンミックスし、所定の符号化形式(たとえばMPEG−AAC形式)に符号化回路504により符号化することで、ダウンミックス符号化信号207(図6)を得る。そのときのダウンミックスの過程の一例は、式4に記載している。
(式4)DMX = 0.5*PCM1+0.5*PCM2
なお、ここでは係数として0.5を記載したがこの限りではなく、PCM1、PCM2の係数をそれぞれa(i)、b(i)とすると、
(式5)a(i)+b(i)=1
という、関係が成立すれば良い。この過程は、図6のダウンミックス回路503に相当する。
次に拡張情報算出回路105(図4)は、PCM1とPCM2を元に、先述した式2および式3に従って拡張情報を算出する。この出力をダウンミックス分離情報(ダウンミックス拡張情報)208(図5のDMX分離)とする。
ダウンミックス分離情報の算出は次のようにして行う。
図16は、ダウンミックス分離情報を算出するか否かを判断するフローチャートである。
本実施の形態で述べている拠点構成では、ストリーム合成装置100が、2つの拠点からの信号を受信して、1つの拠点へ合成信号を送出する例を示している。この場合、受信拠点数nは“2”となる。ストリーム合成装置100は、受信拠点数を検出する(ステップS11)。検出された受信拠点数が1よりも大きいので(ステップS12:Y)、ストリーム合成装置100は、拡張情報算出回路105によって、拠点信号分離係数(ダウンミックス分離情報)を算出する(ステップS13)。その算出に関しては後述する。拠点信号分離係数を算出した後、その係数と元の拡張情報とを一つのストリームに多重化回路106が合成して(ステップS14)、第三の拠点へと出力部I2が送出する(ステップS15)。このようにして拠点信号分離係数を多重化回路106がステップS14で重畳するのであるが、拠点信号分離係数(ダウンミックス分離情報)の算出過程は図18に示す。
図18は、第1のダウンミックス分離係数算出の処理のフローチャートである。
拠点1と拠点2のそれぞれのダウンミックス符号化信号201と204(図6)を復号化したPCM1とPCM2の信号から、それらの信号の相互相関値(ICC)を式3に従って算出する(ステップS32)。次に、算出した相互相関値(ICC)の絶対値が所定の閾値P_ICCよりも大きいか小さいかを検出する(ステップS33)。P_ICCよりも小さい場合に(ステップS33:Y)、前記PCM1およびPCM2の差分信号を算出する。なお、P_ICCはたとえば0.5であり、この値はストリーム合成装置100(図4、図5)に予め設定されたものであり、0から1.0の範囲をとる値で、ユーザにより自由に設定が変更可能である。したがって、前記では0.5と設定したがもちろんこの値に限ったものではない。
ステップS35では、差分PCM信号に対して所定の次数によるLPC分析を行い、LPC係数と残差信号を算出する。LPC分析の一例は非特許文献4を参照されたい。
以上の過程より算出した、相互相関係数ICCおよびLPC係数、LPC分析次数をステップS36で符号化して、ダウンミックス分離情報とする。また、相互相関値ICCの絶対値が所定の閾値P_ICC以上の場合は、ICC情報のみをダウンミックス分離情報として送信する。これらの演算を、全送信拠点の組み合わせ分だけ繰り返して(ステップS31)、ICCやLPC係数を算出する。本実施の形態の場合は1回のループ計算を実施する。なお、ステップS31では、例えば、ステップS32〜ステップS37における、上記に説明した各処理が、送信拠点の各組み合わせのうちで、全ての組み合わせに関して終了したか否かが判定される。そして、ステップS31eでは、ステップS31で、すべての組み合わせについて終了したと判定された場合に(ステップS31:Y)、図18の処理(第1のダウンミックス分離係数算出の処理)を終了する。また、ステップS31で、すべての組み合わせについて終了していないと判定された場合(ステップS31:N)、終了していない組み合わせのうち1つの組み合わせについて、ステップS32〜ステップS37における処理が開始される。
図17は、ストリーム合成装置100における第2のダウンミックス分離係数算出のフローチャートである。
あるいは、ダウンミックス分離情報を図17のフローチャートに従って算出する場合もある。ステップS22では、拠点1と拠点2のそれぞれのダウンミックス符号化信号201と204(図6)を復号化したPCM1とPCM2(先述)の信号から、それらの信号の相互相関値(ICC)を、式3(先述)に従って算出する。次に、ステップS23では、算出した相互相関値(ICC)の絶対値が所定の閾値P_ICCよりも大きいか小さいかを検出する。ステップS24では、P_ICCよりも小さい場合に(ステップS23:Y)、前記PCM1とPCM2の信号からパワー比(ILD)を式2に従って算出する。算出したILDおよびICCをダウンミックス分離情報として送信する。相互相関値(ICC)の絶対値が所定の閾値P_ICC以上の場合は(ステップS23:N)、相互相関値(ICC)のみを符号化して送信する(ステップS26)。これらの演算を、全送信拠点の組み合わせ分だけ繰り返して(ステップS21:N)、ICCやILD、LPC係数を算出する。本実施の形態では、ストリーム合成装置100の出力拠点が拠点3の場合は、上記ICCやILDの算出は、拠点1と拠点2の組み合わせに対して実施する。同様に出力拠点が拠点1のときは、上記ICC、ILD、LPC算出は拠点2と拠点3のダウンミックス信号に対して演算する。拠点数が3個の場合に関して説明したが、もちろんこれに限ったものではなく、3以上でも同様に構成することが可能である。
なお、ステップS21では、例えば、ステップS21〜ステップS26における、上記に説明した各処理が、送信拠点の各組み合わせのうちで、全ての組み合わせに関して終了したか否かが判定される。そして、ステップS21eでは、ステップS21で、すべての組み合わせについて終了したと判定された場合に(ステップS21:Y)、図17の処理(第2のダウンミックス分離係数算出の処理)を終了する。また、ステップS21で、すべての組み合わせについて終了していないと判定された場合(ステップS21:N)、終了していない組み合わせのうち1つの組み合わせについて、ステップS32〜ステップS37における処理が開始される。
図19は、ダウンミックス分離情報(DMX分離)の構造を示したものである。
ダウンミックス分離情報は、その先頭にダウンミックス分離情報であることを示す領域があり、それによってダウンミックス分離情報か各拠点内での拡張情報を識別している。ダウンミックス分離情報は、この領域の次に、ダウンミックス分離情報全体が何Byteあるのかを示すDMX分離符号の長さ情報を格納する。ダウンミックス分離情報は、この長さ情報の次に、相互相関値(ICC)の個数を格納する。この個数は前記に示した全送信拠点数の組み合わせの数に一致する。ダウンミックス分離情報は、同様に、チャンネル間のレベル差情報(ILD)の個数、および各ILDの値を保持する。ダウンミックス分離情報は、ILDの個数及び値の次に、LPC分析をした分析次数および各LPC係数を保持する。拡張情報は、DMX分離情報(ダウンミックス分離情報)の後ろには、各拠点・各信号を分離するための拡張情報を保持する。図19の場合、図15のように各拡張情報(拡張情報1402、及び、拡張情報1403)が構成されているので、拡張6として、先頭部分に当該拡張情報が“拠点2、信号6”を分離する信号であることを示す識別符号があり、その後ろに図20に示す分離ツリー情報、さらにその後ろに、分離回路Cおよび分離回路Eの拡張係数(ICC係数およびILD係数)がそれぞれ保持されている。
このように、相互相関値(ICC)の絶対値の大小によってダウンミックス分離情報の内容を切り替えることで、MCUでのダウンミックス分離情報の算出に要する演算量を削減できる効果がある。
なお、本実施の形態では、ダウンミックス信号として、MPEG−AAC方式を例にしているが、LPC分析を用いて符号化している方式である場合、上記ダウンミックス分離情報を計算する際に、LPC分析の結果得られたLSP係数上での算術的な加算および線形補間処理によって合成できる。これはすなわちビットストリームの状態でダウンミックス分離情報が算出できることであり、一般的に処理の重い復号化を実施しなくても良いので、ダウンミックス分離情報をより簡単に求めることができる。LPC分析を用いて符号化している方式の一例として、非特許文献5記載のTwinVQ方式である。
従来技術では、そもそもダウンミックス分離情報というものは付加しないが、本願では、ストリーム合成装置100は、従来の信号分離のパラメータ(パワー比(ILD)、相互相関値(ICC))に加え、新たに差分PCMのLPC係数を送信する。
ここで、PCM1およびPCM2に対してLPC分析をするのではなく、差分PCMに対してLPC分析するのは、そうすることで音響信号のダイナミックレンジを圧縮することができ、その結果、復号化装置でも、大きなダイナミックレンジを想定しなくてもいい回路構成が実現できるので、回路コストが抑えられるメリットがある。もちろん、本来の目的である、ダウンミックス信号の分離性能の向上に寄与するのは言うまでもない。PCM1とPCM2の間でダウンミックス分離情報208(図5)を算出・符号化するのは、全く異なる特性を持つ可能性のある拠点1と拠点2のダウンミックス符号化信号をさらにダウンミックスすると、元々持っていた音響特性が失われてしまい、失われた状態の信号で後に拡張しても失われた音響特性は戻らない。それゆえ、情報量をできるだけ増やさずに音響特性を保持するために上記のようにダウンミックス符号化信号の拡張情報を生成する必要がある。
こうして得られたダウンミックス符号化信号207(図5、図6)とダウンミックス分離情報208(図5)、さらには符号化情報101、102に含まれる拡張情報202、203、205、206(図5)が多重化回路106(図4)で多重化され、出力部I2(図4)が、符号化情報107として拠点3に送信する。
次に、ダウンミックス符号化信号と拡張情報を受信した復号化装置に関して述べる。復号化装置A(図5)では、まずダウンミックス信号と拡張信号を復号化装置Aが分離し、復号化装置Aは、次にダウンミックス符号化信号を所定の復号化回路で復号化する。なお、MPEG−AAC方式であれば、非特許文献2記載の手順に従う。その復号化の結果得られた復号化PCM信号と前記の分離された拡張情報を元に、独立した複数の音響信号を復号化する。その復号回路の一例を図7と図8に示す。
なお、復号化装置Aは、例えば、拠点3に実現される機能の機能ブロックである。より具体的には、例えば、復号化装置Aは、拠点3のコンピュータが、予め当該コンピュータに記憶されたソフトウェアを実行することによって、当該コンピュータに実現する機能の機能ブロックである。
図7は、復号化装置A(図5)を示す図である。
拠点1の場合を例にすると、復号化装置Aは、図7に示されるよう、PCM信号として得られたダウンミックス信号601と拡張信号602を入力として、内部に分離回路603,604が多段に接続されている。分離回路の実施の例としては、非特許文献3に開示されているMPEG−SurroundのOTT回路、TTT回路が挙げられるが、簡単な分離回路の一例を図8に示す。
図8は、復号化装置Aが有する分離回路709を示す図である。
入力信号701と、式2・式3記載のパワー比(ILD、図8では分離情報(パワー比)703)と相互相関値(ICC、図8では分離情報(相関値)702)とを元に、まず入力信号701を無相関化回路704にて無相関化する。なお、その実施の一形態は、非特許文献3記載のDecorrelator回路がある。なお、無相関化回路704に関してはこの限りではなく、たとえば非特許文献6には、Levinson−Durbinアルゴリズムによって信号を無相関化する手法が開示されている。
上記無相関化回路704を経てゲイン調整回路705,706によってゲインを調整されて、分離された信号707および708が得られる。
ゲイン調整回路705、706では、パワー比(ILD)703を元に以下のような演算が行われる。
(式6)Sig1=Deco(Input801(n))*Gain(i)
(式7)Sig2=Deco(Input801(n))*(1−Gain(i))
ここで、Dec演算子は、信号の無相関化処理を示し、Sig1およびSig2は分離された信号707、708(図8)を示す。上記一連の処理によって、ダウンミックス拡張符号化信号から、所望の独立した複数のモノラルあるいはステレオ信号を復号化することができる。
なお、拡張情報の算出過程や、PCM信号となったダウンミックス信号と拡張情報から、元の独立した信号を復号化する手順は、たとえば、非特許文献3記載のMPEG−Surround方式の符号化装置、復号化装置を用いても良い。この手順で用いる符号化方式はもちろんMPEG−Surround方式に限った物ではなく、ダウンミックス信号と拡張情報によりマルチチャンネル信号を符号化・復号化を行うパラメトリックなマルチチャンネル空間符号化方式(MP3サラウンド方式など)に対しても本願発明が有効であることは言うまでもない。
図11は、ダウンミックス整形回路104aを示す図である。ストリーム合成装置100は、ダウンミックス整形回路104aを有してもよい。
以上は、ストリーム合成装置100で一旦PCM信号へと復号化してダウンミックスをする例であったが、これ以外の形態として次のものがある。ダウンミックス整形回路104a(図11)のダウンミックス信号はそれぞれMPEG−AAC方式である場合、その復号化手順は非特許文献1に記載されている。大まかな流れとしては、符号化情報の解析、逆量子化、周波数・時間変換をそれぞれ経由して、PCM信号へと復号化される。符号化情報の解析ののち、入力のダウンミックス信号201と204はそれぞれ、各逆量子化部1001で逆量子化(Requantize)処理を施す。詳細な手順は非特許文献1に記載されているが、簡潔に言うと、
(式8)Spec(n)=Gain(n)*2^(QuantizeValue(n)*4/3)
という形でスペクトル情報(Spec(n))を各逆量子化部1001により算出する。ここでQuantizeValue(n)がダウンミックスより得られた量子化値であり、Gain(n)は当該フレームの量子化Gainである。
逆量子化処理を入力のダウンミックス信号201および204にそれぞれ施すことで二つのスペクトルデータ(Spec201(n)、Spec204(n))が得られる。これらスペクトルデータを式9に従って加算部104aXにより加算し、合成スペクトルSpec(n)を得る。
(式9)Spec(n)=0.5*Spec201(n)+0.5*Spec204(n)
なお、ここでは係数として0.5を記載したがこの限りではなく、Spec201(n)、Spec204(n)の係数は(式7)と同様の関係が成立すればよい。このようにして得られた合成スペクトルを再度MPEG−AAC方式に則って量子化部104aYによって量子化する。この結果得られたものがストリーム合成装置100の出力である符号化情報107(図5)に含まれるダウンミックス信号207になる。逆量子化処理に引き続いて加算処理を行うことは、すなわち周波数情報上で加算を行っているわけで、PCM信号に戻すのに必要な周波数・時間変換(MDCT処理など)が不必要となり、ストリーム合成装置100の演算能力が低く抑えられることができ、ひいては製造コストや設計コストの削減にも繋がるものである。
以上のように実現されたストリーム合成装置100(MCU)は一実施の形態であって、これに限るものではない。またストリーム合成装置100の入力する符号化情報の数は2としているが、これに限ったものではなく、3以上でも同様に構成される。
続けて、実施の形態1の変形例が説明される。
また、本実施の形態1では、ダウンミックス分離情報をストリーム合成装置100で付加することを述べたが、他にも次のような情報を付加することで、さらに別段の効果を奏することができる。
図14は、システム1aを示す図である。
たとえば、図14に示すように、ダウンミックス分離情報208(図2)とは別に、各拠点での入力信号の数をストリーム合成装置100にて付加することである。図14の場合では、拠点1の入力信号数3、拠点2の入力信号数3が加算され、ストリーム合成装置100にて符号化情報107に入力信号数1301として加算値“6”が保持され、拠点3へと送信する。それを受信した拠点3の復号化装置Aでは、まず当該符号化情報107に含まれる各送信拠点の入力信号数1301を取得する。この時点ではまだ各拠点の信号を分離するための情報(拡張情報202、203や205、206)を用いたダウンミックス信号207の分離・拡張は行わない。
符号化情報107を復号化し再生する装置には、復号化信号を再生チャンネル数に応じて異なる処理を行うレンダリング装置を備える。レンダリング装置とは、復号化信号1'〜5'を再生チャンネル毎に振り分ける作用をする装置である。たとえば、復号化信号が5つで再生チャンネル数が2つの場合について説明する。復号化信号1〜5をそれぞれs1〜s5、再生チャンネル信号をそれぞれo1、o2とすると、
(式10) o1=s1+0.5*s2+1/√2*s3
o2=s4+0.5*s2+1/√2*s5
となる。上記演算に用いる係数がレンダリング情報に相当する。レンダリング情報としては、ITU−R BS.775−1規格に記載されているダウンミックス係数を用いている。このレンダリング係数は、復号化装置の再生チャンネル信号の配分によって決定する。上記の例では、信号s1は左前方チャンネル信号、信号s2は前方センターチャンネル信号、信号s3は左後方チャンネル信号、信号4は右前方チャンネル信号、信号s5は右後方チャンネル信号である。これらを左前方出力チャンネルo1、右前方出力チャンネルo2に出力する。
本構成の場合、レンダリング装置に用いるレンダリング情報を決定するタイミングは、ダウンミックス信号207の拡張を行う前に入力信号数の総計を検出した時点である。レンダリング情報構成部と符号化情報107の復号化を同時並列的に演算することが可能になり、信号処理遅延量の大幅な削減が可能になる効果もある。
図15は、システム1bを示す。
本実施の形態のストリーム合成装置100では、各拠点の拡張情報を合成して送出するが、その際、各拠点・各入力信号の優先度に応じて拡張情報を構成することも想定している。たとえば、拠点1の入力信号1が優先度が最も大きく、その次が拠点2の入力信号6が優先度が高い場合、図15のように優先度情報1401に基づいて、拡張情報1402(拠点1の信号1を分離する情報)、1403(拠点2の信号6を分離する情報)という順番で構成する。その構成を取ることで、ストリーム合成装置100から拠点3に送信された符号化情報107を復号化する際に、符号化情報107全体を処理できない場合の切り捨て処理が優先度に基づいて処理することが出来る。つまり、先頭部分から優先度が高い順番に並べているので、当該復号化処理装置で優先度上位1番目まで処理すればいい場合に拡張情報1403を切り捨てれば良い。そうすることで、復号化処理が1回で済み、全体を復号化することに比べ半分の処理回数で済み、それはすなわちより省電力な復号化処理装置が実現できるのである。
優先度情報1401は、次のようにして決定する。ストリーム合成装置100では、まずどの拠点からの信号が多く送信されているか(送信頻度)を検出する。次に送信頻度の多い拠点に含まれる拡張信号のうち、もっとも送信回数が多い拡張情報を検出し、優先度情報とする。別の拠点でも同様の手順によって優先度情報を生成する。このようにして全拠点・全入力信号の優先度を算出し、その優先度に従ってストリーム合成装置100にて拡張情報を並べ替える。そして、優先度をつけた拡張情報をその順番にそってストリーム合成装置100内で順番に並べられて、送信される。
図21は、優先度算出手順を示すフローチャートである。
優先度はまた別の構成で検出することも出来る。図21に示すように、各入力信号のICC値を分離し、その値が予めストリーム合成装置100に設定されたN_ICC値よりも小さい場合に(ステップS42:Y)、更に拡張情報より拡張係数ILDを分離し(ステップS43)、分離した拡張係数ILDに従って優先度を設定する。つまり、全信号に含まれるILD係数のそれぞれの順位を算出することで(ステップS44)、それを各信号の優先度に設定する(ステップS45)。N_ICC値は本願ストリーム合成装置100が動作している間は初期段階で設定した値で一定にする。なお、もちろん、必要に応じて値を経過時刻とともに可変することも可能である。経過時刻とともに可変にすると、優先順位の検出精度を調整することが可能となるため、優先度を調整できるような今までにない柔軟なストリーム合成装置が実現できるのである。
次に、上記した、実施の形態1の説明に付加される付加説明が行われる。なお、以下の付加説明は、上記の説明の内容について、如何なる限定も行うものではない。
図5により、システム1の構成が示される。
システム1は、各拠点のユーザによる会議に際して、送信拠点における会議の音声の音声信号を受信拠点へと通信することにより、通信した音声信号を受信拠点に再生させる多拠点会議システムである。そして、具体的には、システム1は、受信拠点のユーザが高い臨場感を得られるよう、送信拠点の複数の音声信号を受信拠点に通信して、複数の音声信号を受信拠点に再生させる。
なお、以下では、拠点1及び拠点2が各々送信拠点で、拠点3が受信拠点である際の例が説明される。
複数の拠点は、それぞれ、複数のマイクロフォン(図略)と、複数のマイクロフォンにより各々収録された複数の音声信号(PCM信号)から、それら複数の音声信号を特定する符号化情報(図5の符号化情報101、符号化情報102)を生成して、生成された符号化情報を、ストリーム合成装置100に送信するコンピュータとを備える。また、各拠点のコンピュータは、それぞれ、当該拠点以外の他の拠点がストリーム合成装置100に送信した符号化情報(図5の符号化情報101、符号化情報102)に基いてストリーム合成装置100が生成した符号化情報(図5の符号化情報107)を、当該ストリーム合成装置100から受信し、受信された符号化情報が特定する各音声信号を再生する。
図4により、ストリーム合成装置100の構成が示される。
ストリーム合成装置100は、複数の分離回路103と、ダウンミックス整形回路104と、拡張情報算出回路105と、多重化回路106とを備える。
符号化情報は、図5の符号化情報101、符号化情報102、符号化情報107に各々示されるように、DMX信号(ダウンミックス符号化信号)、及び、拡張情報を含む。なお、図4の符号化情報101のDMX信号はDMX信号201であり、拡張情報は、拡張情報202及び拡張情報203の全体からなる情報である。また、符号化情報102のDMX信号はDMX信号204であり、拡張情報は、拡張情報205及び拡張情報206である。また、符号化情報107のDMX信号はDMX信号207であり、拡張情報は、ダウンミックス分離情報208、拡張情報202、拡張情報203、拡張情報205及び拡張情報206である。
拡張情報は、その拡張情報が含まれる符号化情報の複数の音声信号の性質を特定する。具体的には、拡張情報は、それら複数の音声信号の間でのパワー比(ILD)と相互相関値(ICC)とを特定する。さらに具体的には、拡張情報は、その音声信号のパワー比(ILD)及び相互相関値(ICC)に対して、量子化、Huffman符号化などが施された処理済のデータを含む。そして、拡張情報は、このように、上記処理済のデータを含むことにより、処理済のデータから算出される、処理前の上記パワー比(ILD)及び相互相関値(ICC)を特定する。すなわち、拡張情報は、処理済のデータのデータ構造によって、上記パワー比(ILD)及び相互相関値(ICC)を記憶する情報である。換言すれば、拡張情報は、物理的なデータ構造として、上記処理済のデータのデータ構造を有し、この物理的なデータ構造により記憶される論理的なデータ構造として、上記パワー比(ILD)及び相互相関値(ICC)のデータ構造を備える。
DMX信号は、そのDMX信号が含まれる符号化情報が示す複数の音声信号がダウンミックスされたダウンミックスPCM信号が符号化された信号である。
複数の分離回路103は、複数の送信拠点(図5の拠点1及び拠点2)からストリーム合成装置100に受信された各符号化情報(符号化情報101、符号化情報102)から、それぞれ、その符号化情報のDMX信号と拡張情報とを分離する。
なお、以下では、ストリーム合成装置100に送信拠点が送信し、ストリーム合成装置100に受信される符号化情報(符号化情報101、符号化情報102)は、受信符号化情報と呼ばれる。また、ストリーム合成装置100から受信拠点に受信され、ストリーム合成装置100により送信される符号化情報(符号化情報107)は、送信符号化情報と呼ばれる。
なお、具体的には、複数の分離回路103は、それぞれ、対応する符号化情報の分離の処理を行う。
なお、複数の分離回路103は、それぞれ、例えば、ソフトウェアによってストリーム合成装置100に実現された機能の機能ブロックである。これらの機能ブロックは、例えば、互いに並列に動作する機能であってもよい。
ダウンミックス整形回路104及び拡張情報算出回路105は、複数の分離回路103によって分離された各DMX信号(DMX信号201、DMX信号204:図4)、各拡張情報に基いて、受信拠点(図5の拠点3)に送信される符号化情報107(図4、図5)のDMX信号207及びダウンミックス分離情報208を生成する。
図6により、ダウンミックス整形回路104(図4)の構成の一例が示される。なお、図6の構成は単なる一例である。ダウンミックス整形回路104及び拡張情報算出回路105は、上記した機能を有するなら、図6の構成の全部または一部を有さない構成が採られてもよい。
ダウンミックス整形回路104は、複数の復号化回路(復号化回路501、復号化回路502)と、ダウンミックス回路503と、符号化回路504とを備える。
複数の復号化回路(各復号化回路501等:図6)は、それぞれ、各送信拠点(図5の拠点1、拠点2)の符号化情報から分離されたDMX信号(DMX信号201、DMX信号204:図6、図5)を、ダウンミックスPCM信号に復号する。
そして、拡張情報算出回路105は(図4)、復号された各送信拠点のダウンミックスPCM信号に基いて、ダウンミックス分離情報208(図5)を算出する。
そして、ダウンミックス回路503は(図6)、複数の復号化回路(復号化回路501等)により復号化された各送信拠点のダウンミックスPCM信号を、拡張情報算出回路105により算出されたダウンミックス分離情報208によりダウンミックスして、ダウンミックスPCM信号を生成する。
そして、符号化回路504は、生成されたダウンミックスPCM信号を符号化して、DMX信号207(図5参照)を生成する。
多重化回路106(図4)は、ダウンミックス整形回路104によって生成されたDMX信号207と、拡張情報算出回路105によって算出されたダウンミックス分離情報208とに基づいて、符号化情報107(図4、図5)を生成する。より具体的には、多重化回路106は、これらDMX信号207及びダウンミックス分離情報208と、複数の分離回路103により分離された各送信拠点(図5の拠点1、拠点2)の拡張情報(図5の拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)とに基いて、それらDMX信号207、ダウンミックス分離情報208、及び各送信拠点の拡張情報を含んでなる符号化情報107を生成する。
他方、受信拠点(拠点3)は、ストリーム合成装置100によって当該受信拠点に送信される符号化情報107を復号化して、符号化情報107が特定する各音声信号(PCM信号)を生成する復号装置(復号化装置A:図5)を備える。
復号化装置Aは、ストリーム合成装置100から拠点3のコンピュータに受信された符号化情報107(図5、図4)復号化する。復号化装置Aは、復号化によって、各送信拠点(拠点1、拠点2)のDMX信号(図5のDMX信号201、204)及び拡張情報(拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)をそれぞれ生成する。復号化装置Aは、生成した各情報を用いて、各送信拠点の各音声信号を生成し、生成された各音声信号を再生する。
図8により、復号化装置Aが有する分離回路709が示される。
分離回路709は、入力信号701と、相関値702と、パワー比(ILD)703とから、入力信号701から分離される分離信号707と、分離信号708とを生成する。
入力信号701は、例えば、ストリーム合成装置100が拠点3に送信した符号化情報107に含まれるDMX信号207である。また、入力信号701は、例えば、このDMX信号207から、分離情報(ダウンミックス分離情報208(図5)、拡張情報202等(図5))を用いて1回以上、復号化(ダウンミックス復号化)をして取得される符号化情報である。
相関値702は、入力信号701を復号化するための拡張情報の相互相関値(ICC)である。
パワー比(ILD)703は、入力信号701を復号化するための拡張情報のパワー比(ILD)である。
分離回路709は、無相関化回路704と、複数のゲイン調整回路705、706とを備える。
無相関化回路704は、相関値702によって入力信号701を無相関化して、無相関化された2つ以上の中間信号を生成する。
複数のゲイン調整回路705、706は、それぞれ、生成された各中間信号のゲインを、パワー比(ILD)703によって調整する。複数のゲイン調整回路705、706は、この各調整をすることで、それぞれ、入力信号701から分離された分離信号707、分離信号708を生成する。
図7により、復号化装置Aの構成が示される。
復号化装置Aは、複数の分離回路603、分離回路604を備える。図8の分離回路709は、これら複数の分離回路603、分離回路604のうちの一例である。
複数の分離回路603、分離回路604によって、符号化情報の復号化を1回以上行って、受信拠点(拠点3)に受信された符号化情報107(図5)のDMX信号601から、各送信拠点のDMX信号(DMX信号201、DMX信号204)が復号され、ひいては、各拠点でそれぞれ収録された複数の音声信号が復号される。
なお、システム1は、図22により説明される態様を有してもよい。
図22は、ストリーム合成装置100が複数の拠点1〜拠点3に対して、それぞれ符号化情報を送信する処理を説明する説明図である。
図22の態様では、ストリーム合成装置100の各機能ブロック(図4参照)は、それぞれ、次の処理を行う。
入力部I1(図4)は、複数の拠点1〜拠点3より、それぞれ、符号化情報(図略)をストリーム合成装置100に入力する。なお、拠点n(n=1,2,3)から入力された符号化情報は、拠点nの入力符号化情報と呼ばれる。また、拠点nの入力符号化情報に含まれるDMX信号は、拠点nの入力DMX信号と呼ばれる。また、拠点nの入力符号化情報に含まれる拡張情報は、拠点nからの入力拡張情報と呼ばれる。
出力部I2は、複数の拠点1〜拠点3に対して、それぞれ、符号化情報(出力符号化情報107a、出力符号化情報107b、出力符号化情報107c:図22)を出力する。なお、拠点nに出力される出力符号化情報は、拠点nの出力符号化情報と呼ばれる。
出力符号化情報107a〜出力符号化情報107cは、それぞれ、その出力符号化情報に含まれるDMX信号として、共通の出力DMX信号207xを有する。すなわち、出力符号化情報107a〜出力符号化情報107cが有するDMX信号の内容は、何れも、共通の出力DMX信号207xであり、互いに同一である。そして、出力符号化情報107a〜出力符号化情報107cは、それぞれ、拡張情報として、出力拡張情報H1、出力拡張情報H2、及び出力拡張情報H3を備える。これら、各拠点の出力拡張情報H1〜出力拡張情報H3は、互いに異なる。
共通の出力DMX信号207xは、各拠点1〜3の入力DMX信号が復号化されるDMX信号である。つまり、共通の出力DMX信号207xは、拠点1の入力DMX信号と、拠点2の入力DMX信号と、拠点3の入力DMX信号との3つの入力DMX信号が復号化されるDMX信号である。
次に、各出力拡張情報(出力拡張情報H1〜出力拡張情報H3)のうちで、まず、拠点1の出力拡張情報H1について説明される。
拠点1への出力符号化情報107aは、ダウンミックス分離情報として、出力先である拠点1以外の他の各拠点(拠点2及び拠点3)の各入力DMX信号を復号化するための拠点分離用のダウンミックス分離情報H11を含む。さらに、拠点1への出力符号化情報107aは、拠点2の入力拡張情報と、拠点3の入力拡張情報とを含む。すなわち、出力符号化情報107aは、他の各拠点(拠点2及び拠点3)の各入力拡張情報を含む。要するに、出力拡張情報H1は、共通の出力DMX信号207xから、他の各拠点(拠点2、拠点3)の音声信号を復号化するための拡張情報である。
なお、拠点nの出力拡張情報に含まれる出力拡張情報(出力拡張情報H1〜拡張情報H3)は、拠点nの出力拡張情報と呼ばれる。
拠点1の出力拡張情報H1〜拠点3の出力拡張情報H3は、それぞれ、上述した拠点1の出力拡張情報H1の構成と同様の構成を有する。
すなわち、拠点1〜拠点3の各出力拡張情報(例えば出力拡張情報H1)は、その出力拡張情報の拠点(例えば拠点1)以外の他の各拠点(例えば拠点2及び拠点3)からの入力拡張情報(例えば拠点2の入力拡張情報、及び拠点3の入力拡張情報)と、共通の出力DMX信号207xから、他の各拠点(例えば拠点2及び拠点3)の音声信号を復号化するためのダウンミックス分離情報(例えばダウンミックス分離情報H11)を含む。
出力符号化情報生成部I3(図4)は、ストリーム合成装置100に受信された各入力符号化情報に基づいて、拠点1〜拠点3への各出力符号化情報(出力符号化情報107a〜出力符号化情報107c)を生成する。
具体的には、出力符号化情報生成部I3のダウンミックス整形回路104が、共通の出力DMX信号207xを生成する。また、拡張情報算出回路105が、出力拡張情報H1〜出力拡張情報H3を生成する。そして、多重化回路106が、生成された共通の出力DMX信号207xと、生成された出力拡張情報H1〜出力拡張情報H3とに基づいて、各拠点への出力符号化情報(出力符号化情報107a〜107c)をそれぞれ生成する。
そして、出力部I2(図4)は、生成された各出力符号化情報(出力符号化情報107a〜107c)を、それぞれ、その出力符号化情報の拠点に出力する。
こうして、2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号(入力DMX信号)と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号(入力拡張情報)とが含まれる符号化信号(入力符号化情報)を2つ以上入力する入力部I1と、前記入力部によって入力された各符号化信号(例えば、拠点1の入力符号化情報と、拠点2の入力符号化情報)に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号(共通の出力DMX信号207x)と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号(拠点1の入力DMX信号、拠点2の入力DMX信号)を取得するための拡張信号(ダウンミックス分離情報H11)とを生成し、生成された当該第2のダウンミックス音響信号(共通の出力DMX信号207x)と、生成された当該拡張信号(ダウンミックス分離情報H11)と、入力された前記各符号化信号の各拡張信号(拡張情報H12)とが含まれる符号化信号(拠点1への出力符号化情報107a)を生成する出力符号化情報生成部I3と、生成された当該符号化信号を出力する出力部I2とを備えるストリーム合成装置(ストリーム合成装置100)が構成される。
そして、前記入力部I1は、予め定められた複数の入出力先(拠点1〜拠点3)から、それぞれ、符号化信号(入力符号化情報)を入力し、前記出力部I2は、当該複数の入出力先にそれぞれ符号化信号(出力符号化情報)を出力し、前記出力符号化情報生成部I3は、1個の前記第2のダウンミックス音響信号(共通の出力DMX信号207x)と、前記複数の入出力先の個数と同じ個数の拡張信号(出力拡張情報H1、出力拡張情報H2、出力拡張情報H3)とを生成し、生成される1個の前記第2のダウンミックス音響信号は、前記複数の入出力先から入力された前記各符号化信号の各第2のダウンミックス音響信号(各入力DMX信号)を取得するためのダウンミックス音響信号であり、生成される前記各拡張信号(例えば、出力拡張情報H1)は、互いに異なる前記入出力先(例えば、拠点1)にそれぞれ対応し、対応する前記入出力先(拠点1)以外の他の入出力先(拠点2及び拠点3)の拡張信号(拠点2及び拠点3からの各入力拡張情報)のみが含まれ、前記出力部I2は、前記出力符号化情報生成部I3が生成した前記各符号化信号を、それぞれ、当該符号化信号に含まれる拡張信号(出力拡張情報H1等)が対応する前記入出力先(拠点1等)に出力するストリーム合成装置(ストリーム合成装置100)が構成される。
そして、拡張信号(例えば図5の拡張情報202及び拡張情報203の全体)は、複数の部分拡張信号(個々の拡張情報202、拡張情報203)を含み、当該複数の部分拡張信号のうちで、音信号(例えば拠点1の信号3)に対応する一部の部分拡張信号(拡張情報202)により当該音信号(信号3)が当該符号化信号(符号化情報101)から取得されるストリーム合成装置100が構成される。
なお、ダウンミックス整形回路104、拡張情報算出回路105等は、40ミリ秒などの予め定められた時間ごとに、入力符号化情報におけるその時間の部分を処理するものとしてもよい。拠点1等が有する複数のマイクロフォンは、それぞれ、互いに異なるユーザの音声の音声信号を収録してもよい。そして、会議に参加するユーザの数が変化して、収録される音声信号の数が変化してもよい。そして、ストリーム合成装置100に入力される符号化情報(符号化情報101等)にダウンミックスされる音声信号の数が変化してもよい。
(実施の形態2)
図9は、実施の形態1で説明した、ストリーム合成装置100を介して多拠点が接続されているシステム1cを示している。
拠点1では、信号1と信号2で拡張情報802を形成し、信号1と信号2のダウンミックス信号と信号3との間で拡張信号803を形成している。詳細は実施の形態1に記述している。同様に拠点2では、信号4と信号5から拡張情報805が、信号6と信号7から拡張情報806が、信号4と信号5のダウンミックス信号と、信号6と信号7のダウンミックス信号とから拡張情報807がそれぞれ計算される。これらの拡張情報は、MPEG−SurroundのOTT回路の係数と同様のものである。また、それぞれの拠点では、入力信号をダウンミックスしてそれをMPEG−AAC形式などで符号化したダウンミックス符号化信号801および804を生成し、実施の形態1で説明したストリーム合成装置100にネットワークを通じて伝送される。
ストリーム合成装置100では、実施の形態1で説明したような処理が施され、拠点3へとネットワークを通じて符号化情報が送信される。
この際、拠点3に送信される符号化情報107の拡張情報として、どこの拠点から送信されたものかを示す情報を付記する。従来例ではそもそも拠点情報は送信しておらず、拠点3で復号化する際に拠点1および拠点2を別々に再生制御することが不可能であった。ところが、本実施の形態2のように符号化情報としてどこの拠点から送信された物かを示す情報を符号化して送信し、拠点3に送信することで、拠点3で復号化する際に拠点1、拠点2に別々に再生制御を施すことが可能になる。拠点1の各音声信号の音声は拠点3の左のスピーカで、拠点2の各音声信号は拠点3の右のスピーカで再生するなどの臨場感あふれる再生が可能になり、各拠点間のコミュニケーションがよりスムーズに行う効果が得られるのである。
図10は、受信された符号化情報107の符号列の一例を示す図である。
拠点情報908を含んだ場合の符号化情報107の例を図10に示す。図10の符号化情報107は、拡張情報904のなかに、拠点情報908を含む。
まず、符号化情報107の先頭部分に、拡張情報の接続を示す情報を配置する。図10ではツリー情報901である。拡張情報は、ダウンミックス信号を分離するための情報であるが、これらが複数個ある場合にどのように分離を実行するかの情報を送信する。たとえば図9の場合、拡張信号802は、パワー比(ILD)と相互相関値(ICC)が保持されているので、どの信号を分離して、どちらのチャンネルに出力するかを判別する情報を送信する。信号1は、図9に示すように、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第一チャンネルになる。同様に信号2は、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第二チャンネルである。信号3は、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第二チャンネルである。このように、当該信号がどのような分離回路の接続でどちらのチャンネルの出力かという情報を送信する。
たとえば、拡張情報904は、当該拡張情報904が、ダウンミックス符号化信号の分離の拡張情報か、拠点毎の信号の分離の拡張情報かを区別するために判別情報907を含むように構成する。拡張情報904は、拠点毎の信号を分離(信号1と信号2の分離)するため、この場合は“拠点毎の分離”という情報を格納する。そのほかには、各拡張情報がどの拠点から送信されてきたのかを示す拠点情報908(この場合は拠点1ということを示す)、信号1と信号2を分離するためのパワー比(ILD)や相互相関値(ICC)などの拡張情報909等で構成する。同様に、拡張情報905は、拠点毎の分離、拠点1、信号3と信号1・2のダウンミックス信号を分離するための拡張情報で構成する。
DMX分離信号(ダウンミックス分離情報)903は、当該拡張情報がダウンミックス符号化信号の分離のための拡張情報であることを示す情報と、拠点1と拠点2のダウンミックス信号を分離するための拡張情報で構成する。
また、図10の下部には、ツリー情報901(図10)の構成が示される。
これらの信号とは別に、分離回路の接続を示すツリー情報901が符号化情報107に付加されて、送信が行われる。図10にその詳細を示す。まず、全体の信号数909が保持されている。図9では拠点3が受け取る信号は、信号1〜7の7つであるので“7”が信号数909に保持されている。次に分離回路の“深さ”を示す情報をツリーの深さの最大910として保持する。図9では、拠点3は、三段階の分離回路が接続されるので、深さ情報としては“3”を保持する。次に信号1を分離するためにたどっていく出力チャンネルを信号1のツリー係数911として保持する。信号1を分離するためには、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離の結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第一チャンネルであるので、第一チャンネルであることを示す“0”が三つ繋がる係数で保持する。同様に信号2を分離するために第一→第一→第二チャンネルとたどっていくので、“001”が信号2のツリー係数912として保持される。信号3は第一→第二(ここで終了)なので、“01”+終端を示す情報を信号3のツリー係数913として保持する。
このようにツリー情報を格納することで、所望の復号結果がどれだけの回数分の分離回路(MPEG−Surroundの場合はOTT回路)で分離すれば良いのかが容易に判別することができるようになる。このような構成を取ることで復号化装置Aで、復号化演算をする前に、ツリー情報を分離回路(MPEG−Surroundの場合はOTT回路)の演算量の予測が可能となり、復号化装置Aが備える演算リソースの有効配分が行える。その結果として、演算リソースの全体配分が予め予想できることから、演算ピーク値を分散することが容易に可能となる。演算ピーク値を分散できることは、すなわち、復号化に必要なプロセッサパワーのワーストケースが予め保証できるため、低周波数のプロセッサクロックが実現でき、省電力な設計の復号化回路が構成できるという利点がある。副次的には、演算リソースの配分によって、演算に必要な記憶メモリの再利用性も向上するため、省メモリ設計の復号化LSIの実現が可能となる効果も発生する。
なお、ツリー情報901の一例として図10を示したが、信号数909やツリーの深さの最大値910などはこの図の順序に限った物ではない。信号数909あるいは各種ツリー係数、ツリーの深さ情報910などをそれぞれ単独で保持する場合もあれば、図10のように組み合わせて保持する形態も容易に構成できるのは言うまでもない。
また、本実施の形態では符号化情報として信号数やツリー構成情報を送信する場合を述べているが、それ以外にもたとえば、符号化情報とは別に送信することも可能である。拠点1、拠点2、拠点3が接続され、各符号化装置、復号化装置が通信を始める際にやりとりされる初期化情報を用いて送信する方法がある。初期化情報として拠点数や各拠点の拠点番号は動的に変化しない場合には各拠点の符号化・復号化装置を初期化する際に送信しておくと、各符号化情報の中で送信する場合に比べて、符号化情報そのものの符号化効率が向上し、同一伝送レートで音質が向上する。信号数や拠点数、拠点番号、入力信号数などを初期化情報として送信しない場合、つまり各フレーム毎の符号化情報としてそれらの情報を送信する形態の場合、接続拠点をフレーム毎に動的に変化させることが出来る。当然ながら入力信号数をフレーム毎に変えることが出来るようにもなり、たとえば各拠点の入力信号をそれぞれ話者に割り当てて臨場感を送受信するためのコミュニケーションシステムで本願を活用する際は、話者の動的な入れ替えが可能になり、場面に応じた柔軟な参加者構成が実現できる効果がある。
また、前述のように各送信拠点(本実施の形態の場合では拠点1と拠点2)における各入力信号は複数のマイクロフォンで収音された信号であるが、収音する際の複数のマイクロフォン間の距離や各マイクロフォンの方向情報を拠点情報として符号化情報に含めて送信する構成をとる場合をとっても良い。各マイクロフォン間の距離や各マイクロフォンの方向情報を符号化情報に含めると、その符号化情報を受信する復号化装置では、たとえば入力信号1を収音したマイクロフォンと入力信号3を収音したマイクロフォンの距離が10cm以内の近距離の場合には信号1と信号3の相関が高い確率が上がるため、信号1と信号3を同じ信号として出力することにより、復号化処理を省略することも可能となる。携帯電話を用いた会議システムや、小型家庭用の臨場感コミュニケーションツールなどの消費電力が低いことが絶対条件のシステムに対して、この省電力化も可能な構成を取れる本願は、非常に柔軟かつ有益な形態といえる。
(実施の形態3)
図11により、先述のように、ダウンミックス整形回路104aが示される。
実施の形態1において、ダウンミックス整形回路104は、図6の形態をとったが、別の実施形態として図11がある。図11では、MPEG−AAC方式やMP3方式など、既存のステレオ符号化方式などで符号化された入力のダウンミックス信号201と204が入力になる例である。
以下は、ダウンミックス信号201と204がMPEG−AAC方式である場合を例に説明する。もちろん、MPEG−AAC方式に限った物ではなく、MP3形式であっても良いし、あるいはTwinVQ方式、MPEG−Layer2方式など、既存の非可逆ステレオ圧縮方式であっても良い。また、LPCMやMPEG−ALS、MPEG−SLS方式などの可逆ステレオ圧縮方式であっても良い。
ダウンミックス信号はそれぞれMPEG−AAC方式であるので、その復号化手順は非特許文献1に記載されている。大まかな流れとしては、符号化情報の解析、逆量子化、周波数・時間変換をそれぞれ経由して、PCM信号へと復号化される。本実施の形態では、逆量子化の後過程が発明の要であることから、そこに重点を置いて説明する。符号化情報の解析ののち、入力のダウンミックス信号201と204はそれぞれ、各逆量子化部1001で逆量子化(Requantize)処理を施す。詳細な手順は非特許文献1に記載されているが、簡潔に言うと、前述の式8(実施形態1の図11の説明を参照)を用いてスペクトル情報(Spec(n))を算出する。ここでQuantizeValue(n)がダウンミックスより得られた量子化値であり、Gain(n)は当該フレームの量子化Gainである。
逆量子化処理を入力のダウンミックス信号201および204にそれぞれ各逆量子化部1001が施すことで二つのスペクトルデータ(Spec201(n)、Spec204(n))が得られる。これらスペクトルデータを前述の式9に従って加算部104aXにより加算し、合成スペクトルSpec(n)を得る。
なお、ここでは係数として0.5を記載したがこの限りではなく、Spec201(n)、Spec204(n)の係数は式7と同様の関係が成立すればよい。
このようにして得られた合成スペクトルを再度MPEG−AAC方式に則って量子化部104aYによって量子化する。この結果得られたものがストリーム合成装置100の出力である符号化情報107に含まれるダウンミックス信号207になる。
逆量子化処理に引き続いて加算処理を行う本願の構成は、すなわち周波数情報上で加算を行っているわけで、周波数情報をPCM信号に戻すのに必要な周波数・時間変換(IMDCT処理など)が不必要となる。その結果、ストリーム合成装置100のプロセッサ演算能力を低く抑えることができる。それはすなわち、プロセッサの最大動作周波数を低く抑えることが出来るし、また余分な処理をしない分演算メモリも少なく抑えることができ、結果として製造コストや設計コストの削減にも繋がるという著しい効果が生じる。
なお、本実施の形態で、ダウンミックス信号はMPEG−AAC方式としたが、もちろんこの限りではなく、MPEG−Layer3方式やTwinVQ方式で合っても良く、それ以外にも時間周波数変換を用いた音響符号化方式であれば、どれであっても良い。
(実施の形態4)
図12は、ストリーム合成装置100の別の実施形態を示す図である。
図12に示すシステム1dにおいては、拠点1と拠点2、拠点3が本願発明によるストリーム合成装置(多拠点接続装置)100を介して互いに接続している。各拠点は、それぞれ2つ以上の独立した音響信号をマイクロフォンで収録し、マルチチャンネルのPCM信号を得る。図12の場合、拠点1では信号1、信号2、信号3が収録され、拠点2では信号4,信号5、信号6、信号7がそれぞれ収録される。得られたPCM信号を実施の形態1で示したように、ステレオまたはモノラルのダウンミックスPCM信号を計算する。
算出されたモノラルあるいはステレオのダウンミックス信号を、モノラルあるいはステレオの音響符号化処理を行う。音響符号化処理として、ステレオ信号の場合たとえば、非特許文献2記載のMPEG−AAC方式で符号化する。モノラルの場合は非特許文献1記載のG.726方式やMPEG−AACのモノラル符号化を用いる。図12では、ダウンミックスPCM信号を符号化した信号を、DMX信号1101、DMX信号1105として表している。これらを総称してダウンミックス符号化信号と呼ぶことにする。
次に、拡張信号と呼ばれる信号を算出する。この信号は、前記ダウンミックス信号(DMX信号1101、DMX信号1105など)を元に、複数の独立した信号へと復号化するための情報である。拠点1を例に説明する。入力信号(ここでは信号1、信号2、それぞれモノラル信号の場合)の間で、実施の形態1で示したように、フレーム毎にパワー比(ILD)および相互相関値(ICC)を算出する。
算出されたパワー比(ILD)および相互相関値(ICC)は量子化、Huffman符号化などが施されて、係数Aとなる。詳細な手順は、非特許文献3記載のMPEG−Surround符号化におけるOTT回路(2つの入力から上記拡張信号を生成する回路)に詳しい。なお、拡張情報はパワー比(ILD)と相互相関値(ICC)を例にしたが、これに限ったものではない。また、ここでは2つの独立した入力信号から拡張情報を作る例を述べたが、3つの独立した入力信号から拡張情報を求める方法もある。詳しくは、非特許文献3記載のMPEG−Surround符号化におけるTTT回路に詳しい。
次に、信号1と信号2をダウンミックスしてモノラル信号に変換し、その信号と信号3を用いて式2、式3にならってパワー比(ILD)と相互相関値(ICC)を算出し、量子化、Huffman符号化などが施され、係数Bとする。この様子を模式的に図示すると、図12の拠点1における信号ツリー209のようになる。
実施の形態1と異なるのは、前記で算出した係数Aおよび係数Bを、それぞれ次のように符号化列に格納する点である。
拡張情報1102は、“信号1を分離するのに必要な完結した情報”という意味で、先ほどの係数Aと係数Bを合わせたものにする。同様に、拡張情報1103は、“信号2を分離するのに必要な完結した情報”という意味で、係数Aと係数Bを合わせたものにする。拡張情報1104は、係数Bのみである。拠点2でも同様の考え方で、拡張情報1106は係数Cと係数D、拡張情報1107は係数Cと係数D、拡張情報1108は係数Cと係数E、拡張情報1109は係数Cと係数Eである。
このようにして得られたダウンミックス符号化信号と拡張情報が、各拠点毎にまとめられ符号化情報101(1114)、102(1115)としてInternetなどの通信路を経由して送信拠点(拠点1、拠点2)から、ストリーム合成装置100に入力される。
本願発明のストリーム合成装置100では、実施の形態1と同様の処理をする。具体的には、拠点1の符号化情報101と拠点2の符号化情報102からダウンミックス符号化信号と拡張情報を各分離回路103(図4)でそれぞれ分離する。この分離に際しては、ダウンミックス符号化信号と拡張情報を区別する情報がそれぞれの情報の先頭に付記されており、それを頼りに分離回路103で分離する。
分離されたダウンミックス符号化信号は、所定の手順に従って一旦PCM信号に復号化される。なお、このときの処理手順は、ダウンミックス信号がどのような形式で符号化されているかによって変わるが、一例としてはMPEG−AAC方式であれば非特許文献2記載の方法である。このようにして得られたPCM信号をPCM1、PCM2とする。復号化されたこれらのPCM信号は、ダウンミックス整形回路104にて更にダウンミックスされ、所定の符号化形式(たとえばMPEG−AAC形式)に符号化され、ダウンミックス符号化信号207を得る。そのときのダウンミックスの過程の一例は、式4(実施の形態1の図4の説明を参照)に記載している。この過程は、図6のダウンミックス回路503に相当する。
次にPCM1とPCM2を元に、拡張情報算出回路105で式2および式3(実施の形態1の図5の説明を参照)に従って拡張情報が算出される。この出力をダウンミックス分離情報208と呼ぶ。詳細な手順はたとえばMPEG−SurroundのOTT回路に詳しい。
ここで、PCM1とPCM2の間でダウンミックス分離情報208を算出するのは、以下の理由からである。全く異なる特性を持つ可能性のある拠点1と拠点2のダウンミックス符号化信号をさらにダウンミックスすると、元々持っていた音響特性が失われてしまい、失われた状態の信号であとあと拡張しても失われた音響特性は戻らない。それゆえ、情報量をできるだけ増やさずに音響特性を保持するために上記のようにダウンミックス符号化信号の拡張情報を付加した符号化情報を構成する。
こうして得られたダウンミックス符号化信号207とダウンミックス分離情報208、さらには符号化情報101、102に含まれる拡張情報202、203、205、206が多重化回路106で多重化され、符号化情報107として拠点3に送信する。
次に、ダウンミックス符号化信号と拡張情報を受信した復号化装置Aに関して述べる。復号化装置Aでは、まずダウンミックス信号と拡張信号を分離し、次にダウンミックス符号化信号を所定の復号化回路で復号化を施す。MPEG−AAC方式であれば、非特許文献2記載の手順に従う。その結果得られた復号化PCM信号と前記の分離された拡張情報を元に、独立した複数の音響信号を復号化する。その復号回路の一例を図7と図8に示す。
拠点3の場合を例にすると、PCM信号として得られたダウンミックス信号601と拡張信号602を入力として、内部に分離回路603,604が多段に接続されている。分離回路の実施の例としては、非特許文献3に開示されているMPEG−SurroundのOTT回路、TTT回路が挙げられるが、簡単な分離回路の一例を図8に示す。
入力信号701と、式2・式3(実施の形態1の図8の説明を参照)記載のパワー比(ILD、図8では分離情報(パワー比)703)と相互相関値(ICC、図8では分離情報(相関値)702)とを元に、まず入力信号701を無相関化回路704にて無相関化を実施する。その実施の一形態は、非特許文献3記載のDecorrelator回路がある。なお、無相関化回路704に関してはこの限りではなく、たとえば非特許文献6には、Levinson−Durbinアルゴリズムによって信号を無相関化する手法が開示されている。
上記無相関化回路704を経てゲイン調整回路705、706によってゲインを調整されて、分離された信号707および708が得られる。 ゲイン調整回路705、706では、パワー比(ILD)703を元に前述の式6、式7(実施の形態1の図8の説明を参照)を用いた演算が行われる。
ここで、式6、式7におけるDec演算子は、信号の無相関化処理を示し、Sig1およびSig2は分離された信号707、708を示す。上記一連の処理によって、ダウンミックス拡張符号化信号(ダウンミックス分離情報)から、所望の独立した複数のモノラルあるいはステレオ信号を復号化することができる。
拡張情報の算出過程や、PCM信号となったダウンミックス信号と拡張情報から、元の独立した信号を復号化する手順は、たとえば、非特許文献3記載のMPEG−Surround方式の符号化装置、復号化装置を用いても良いし、MPEG−Surround方式に限った物ではなく、MP3サラウンド方式でもよいし、あるいはLPCM方式のように非圧縮の符号化方式でも同様に構成できることは言うまでもない。
以上のように実現されたストリーム合成装置(MCU)は一実施の形態であって、これに限るものではない。また入力の拠点数は2としているが、これに限ったものではなく、3以上でも同様に構成される。
図12で示すように、拠点1の符号化情報101は、DMX信号1101と、DMX信号を元に信号1を分離するための拡張情報1102、信号2を分離するための拡張情報1103、信号3を分離するための拡張情報1104から構成されている。拡張情報1102と拡張情報1103は、何れも、分離係数AおよびBを符号化しているものである。拡張情報1104は、DMX信号1101から信号3を分離するために必要な分離情報Bを保持する。同様に拠点2の符号化情報102は、DMX信号1105と、DMX信号1105を元に信号4を分離するための拡張情報1106、信号5を分離するための拡張情報1107、信号6を分離するための拡張情報1108、信号7を分離するための拡張情報1109から構成されている。拡張情報1106と拡張情報1107は、分離情報CおよびDを符号化しているものである。拡張情報1108と拡張情報1109は、DMX信号1105から信号6および信号7を分離するために必要な分離情報CおよびEを保持する。
このように構成された符号化情報は、本実施の形態のストリーム合成装置100において、符号化情報1116(図12)へと合成されて拠点3へと送信される。この際、DMX信号1101とDMX信号1105の合成した新しいDMX信号1110を計算する。その算出課程は本願実施の形態1に詳しい。さらにDMX信号1101とDMX信号1105は音響的に異なる特性を持つ確率が非常に高いため、単純に合成しダウンミックスするのではなく、合成信号(DMX信号1110)からDMX信号1101および1105を分離するためのDMX拡張信号(ダウンミックス分離情報)1111を算出して符号化情報1116に付加することは言うまでもない。符号化情報1114および1115をこのように構成して、ストリーム合成装置100で拡張情報1102を拡張情報1112、拡張情報1108を拡張情報1113として合成した符号化情報1116を拠点3に送信する。符号化情報1116を受け取った拠点3では信号1および信号6のみを復号化することが可能になる。つまり、DMX拡張情報(ダウンミックス分離情報)1111によって、DMX信号1110がDMX1’信号とDMX2’に分離できる。その分離した信号をそれぞれ、拡張情報1112(=1102)に含まれている分離係数Bで分離すると、信号3と信号1+信号2が合成された信号が分離でき、さらに拡張情報1112(=1102)に含まれている分離係数Aで前記信号1+信号2の合成信号を分離すると、信号1が算出できる。同様にDMX2’を拡張情報1113(=1108)に含まれている分離係数Cで分離すると、信号4+信号5の合成信号と、信号6+信号7の合成信号に分離することが出来る。前記の信号6+信号7の合成信号を、拡張情報1113(=1108)に含まれている分離係数Eによって分離すると、信号6が算出できる。
以上は一例であるので、別の組み合わせの入力信号を送受信することも可能である。拡張情報1104と拡張情報1107の組み合わせをストリーム合成装置で合成して符号化情報1116として構成すれば、入力信号3と入力信号5が送信可能である。
図12の符号化情報1114および1115の構成によって、各拠点の送信チャンネル(入力チャンネル)の一部を取捨選択することが可能なストリーム合成装置が構成できる。この構成によって、各拠点毎、各入力信号毎にさまざまな組み合わせの符号化情報1116を、ストリーム合成装置にて自由に生成することができる。しかも、符号化情報1114および符号化情報1115全体を送る必要はなく、その一部を送ることにより、情報伝送量(ビットレート)の増加が抑えられる。図12に示した場合(送信拠点数が2で信号数が7である場合)には、単純に計算すると22通りの符号化情報が必要であり、それらをすべて送信しなければならない。その結果として、ビットレートの増大も生じる。単純に22通りの符号化情報を送るとたとえばMPEG−AAC方式であれば1chあたり64kbpsなので22チャンネル分で約1.4Mbpsにもなる。それが本願発明によれば、7つの拡張情報をストリーム合成装置で取捨選択をするだけでよいため、送信信号数が最大7つでも伝送レートは拡張情報7つ分で済む。一つ一つの拡張情報は高々数kbps程度であるので7つ送っても30kbs程度に収まる。図12で示すように2つ分の信号であれば、DMX符号化部分が64kbps程度であるとするならば、符号化情報1116全体でも100kbpsにも満たない情報で送信が可能になる。本発明によって、低ビットレートでかつ柔軟な拠点構成、送信信号構成が可能になることは産業利用上、非常に有益なものである。
こうして、以下のストリーム合成装置(A1)〜ストリーム合成装置(A11)と、復号装置(B)とがそれぞれ構成される。
すなわち、複数のマイクロフォンにより収録された2つ以上の音信号(音声信号)がダウンミックスされた音響信号(ダウンミックスPCM信号)が符号化された第1のダウンミックス音響信号(図5のDMX信号201、DMX信号204)と、当該第1のダウンミックス音響信号から前記2つ以上の音信号(拠点1の各音声信号、拠点2の各音声信号)を取得するための拡張信号(拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)とが含まれる符号化信号(符号化情報101、符号化情報102)を2つ以上入力する入力部(入力部I1)と、前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)が取得される第2のダウンミックス音響信号(DMX信号207)と、当該第2のダウンミックス音響信号(DMX信号207)から前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)を取得するための拡張信号(ダウンミックス分離情報208)とを生成し、生成された当該第2のダウンミックス音響信号(DMX信号207)と、生成された当該拡張信号(ダウンミックス分離情報208)と、入力された前記各符号化信号の各拡張信号(拠点1の拡張情報202及び拡張情報203、拠点2の拡張情報205及び拡張情報206)とが含まれる符号化信号(符号化情報107)を生成する符号化信号生成部(出力符号化情報生成部I3)と、生成された当該符号化信号を出力する出力部(出力部I2)とを備えるストリーム合成装置が構成される(A1)。
こうしたストリーム合成装置(A1)が構成されることで、ストリーム合成装置において、入力された各符号化信号から一々音信号が復号されたり、復号された音信号を再び、出力される符号化信号へと符号化したりする、大きな処理量の処理なく、簡単な処理により、入力される各符号化信号の各音信号の通信を実現できる。
また、前記符号化信号生成部(出力符号化情報生成部I3)は、前記入力部によって入力された各符号化信号の音信号の個数の合計数(図9の信号数909)を算出し、生成される前記符号化信号(符号化情報107)は、算出された当該合計数が含まれる(A1)のストリーム合成装置が構成される(A2)。
また、前記入力部が入力する符号化信号の拡張信号(例えば、図5の拡張1(拡張情報202)〜拡張2(拡張情報203)よりなる全体)は、複数の部分拡張信号(拡張1、拡張1)を含み、当該複数の部分拡張信号のうちで、音信号(例えば、図5における拠点1の信号3)に対応する一部の部分拡張信号(拡張1)により当該音信号(信号3)が当該符号化信号(符号化情報101)から取得され、前記符号化信号生成部(出力符号化情報生成部I3)は、各音信号に対応付けて、それぞれ、当該音信号(例えば拠点1の信号3)に対応する前記一部の部分拡張信号(拡張1)が格納された符号化信号を生成する(A1)のストリーム合成装置が構成される(A3)。
また、前記符号化信号生成部は、各拠点の各音声信号のうちで、予め定められた音信号を取得するための部分拡張信号のみを含む符号化信号を生成する(A3)のストリーム合成装置が構成される(A4)。
また、前記符号化信号生成部は、前記入力部が入力する各拠点の符号化信号のうちで、予め定められた一部の拠点の符号化信号の拡張信号のみが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A5)。
また、前記符号化信号生成部は、前記入力部によって符号化信号が入力される入力元の予め定められた優先順位が、予め定められた基準順位よりも高い符号化信号の拡張信号のみが含まれる符号化信号を生成する(A5)のストリーム合成装置が構成される(A6)。
また、前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号により、当該音信号が当該符号化信号から取得され、前記符号化信号生成部は、音信号の予め定められた優先順位が予め定められた基準順位よりも高い音信号に対応する前記一部の部分拡張信号のみが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A7)。
また、前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号によって、当該音信号が当該符号化信号から復号され、前記符号化信号生成部は、当該符号化信号生成部が生成する前記拡張信号と、生成される当該符号化信号の各部分拡張信号とにより構成されるツリー構造を特定するツリー情報(図10のツリー情報901)を含む符号化信号を生成する(A1)のストリーム合成装置が構成される(A8)。
また、前記符号化信号生成部は、当該符号化信号生成部が生成した拡張信号と、前記入力部が入力した各符号化信号の各拡張信号とのうちで、当該拡張信号が、前記符号化信号生成部が生成した拡張信号であることを示す判別情報(図10の判別情報907)が含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A9)。
また、前記入力部が入力する各符号化信号は、それぞれ、当該符号化信号が入力される入力元を示す入力元情報(図10の拠点情報908)を含み、前記符号化信号生成部は、入力された前記各符号化信号のうちで、含まれる入力元情報が予め定められた入力元を示す各符号化信号を特定し、特定された各符号化信号の各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、その取得のための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された前記拡張信号と、特定された前記各符号化信号の前記各拡張信号とが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A10)。
また、前記符号化信号生成部(出力符号化情報生成部I3)は、前記入力部が入力した前記各符号化信号から、それぞれ、当該符号化信号に含まれる前記第1のダウンミックス音響信号を分離する分離部(図4の複数の分離回路103)と、前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号を生成するダウンミックス音響信号生成部(ダウンミックス整形回路104)と、前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号を生成する拡張信号生成部(拡張情報算出回路105)と、前記ダウンミックス音響信号生成部が生成した前記第2のダウンミックス音響信号と、前記拡張信号生成部が生成した前記拡張信号と、前記入力部が入力した前記各符号化信号の各拡張信号とを合成して、符号化信号を生成する合成部(多重化回路106)とを備える(A1)のストリーム合成装置が構成される(A11)。
また、2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号(図5の符号化情報107)を入力する入力部(図略)を備え、入力される前記符号化信号の前記ダウンミックス音響信号(DMX信号207)は、予め定められた2つ以上の符号化信号(符号化情報101、符号化情報102)の各ダウンミックス音響信号(DMX信号201、DMX信号204)が取得される第2のダウンミックス音響信号であり、入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号(DMX信号207)から前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)を取得するための拡張信号(ダウンミックス分離情報208)含む拡張信号であり、少なくとも前記拡張信号(ダウンミックス分離情報208)に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号(図8の入力信号701)を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号(図8の無相関化回路704が生成する2つの中間信号)を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号部(分離回路709)を備える復号装置(復号化装置A)が構成される(B)。
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、通信経路を介して複数の拠点が接続されており、各拠点がマルチチャンネル符号化されている多拠点会議システムに有用である。
上記のようなストリーム合成装置を設けることで、多拠点接続時の臨場感を向上させつつ、多拠点接続装置での演算負荷を減らすことが可能になる。
本発明は、オーディオコーデックを用いて通信する多拠点会議システムに関するものであり、特に多拠点接続装置に関するものである。
近年、複数の拠点間をInternetProtocol(IP)を介して接続している会議室システムが提案されている。従来は、各拠点がそれ以外の拠点と1対1に接続され、その音声符号化方式として、G.726などの音声符号化技術が用いられてきた。
非特許文献1記載のG.726などのモノラル音声符号化技術を用いた場合には、各拠点で複数の人が同時に発話した時、音響信号がモノラルであるため、各拠点の臨場感がうまく伝わらず、受信側では発話人を特定することは困難になる。これは、音の分離性能が劣化することに起因する。
そこで、非特許文献2記載のMPEG−AAC方式などのマルチチャンネル符号化技術を導入して分離性能を向上させることができる。MPEG−AAC方式では各拠点間の臨場感は伝えられるが、伝送量(ビットレート)が増大してネットワークに負荷をかけてしまう。一般的には、音声の符号化方式に比べマルチチャンネルの符号化方式を用いると100倍程度に伝送量が増大してしまう。
MPEG−AAC方式に対して、非特許文献3記載のMPEG−Surround方式では、低ビットレートのマルチチャンネル符号化方式を用いることで伝送量の増大を防ぐことができる。
ITU−T G.726規格書 MPEG−AAC規格書 ISO/IEC 13818−3 MPEG−Surround規格書 ISO/IEC 23003−3 インターネット<URL:http://winnie.kuis.kyoto-u.ac.jp/~ogata/le4-pr/node2.html>、[2007年7月15日検索] 「階層的変換符号化基本モジュールによって構成されるスケーラブル楽音符号化」、電子情報通信学会論文誌 Vol.J83-A、No.3(20000325)、pp. 241-252 インターネット<URL:http://www.murata.elec.waseda.ac.jp/~mura/Research/ICA/ieice99/mld.m>、[2007年7月15日検索]
しかしながら、MPEG−Surround方式を会議システムに用いる場合に大きな課題がある。
図1及び図2に示すように、会議システムの接続方式にはメッシュ型(図1)とスター型(図2)とがある。複数の拠点がメッシュ型で接続されている場合(図1)、接続拠点数が増加してくると、各拠点の送受信端末装置では同時に沢山の復号化処理を行わなければならない。拠点数がn個の場合には、各拠点の端末ではn回の復号化処理を行う必要があるが、MPEG−Surround方式などのマルチチャンネル符号化方式を符号化・復号化する際には多大な演算を必要とするため、上記のように同時に複数の復号化処理を実行するには、符号化・復号化処理を行う処理プロセッサに高い演算性能が必要とされ、非常に大規模なプロセッサが必要になる。それらは一般的に非常に高価になりがちでコストが高い課題がある。また、演算メモリにも余裕をもった設計を施さねばならないことも、コスト増加に拍車をかける。この課題は特に省電力が必要とされる携帯型の端末にとっては致命的なものである。
一方、多拠点接続装置(MCU)403(図2)を介して接続されるスター型の場合にも課題がある。各拠点での送受信端末装置では、1組の送受信処理をすればよいので、過度なプロセッサ能力や演算メモリは必要ないが、多拠点接続装置(MCU)に多大な演算能力が必要になる。図3は、3拠点が多拠点接続装置403を介して接続されており、各拠点間はMPEG−Surround方式などの従来のマルチチャンネル符号化方法で通信をしている様子を示している。各拠点は3チャンネルの通信をしている例だが、多拠点接続装置403では、拠点1と拠点2から受信した符号化情報401と402をマルチチャンネル復号化し、それぞれのチャンネルをダウンミックスして、再び3チャンネルの符号化を施して拠点3へと送信する。つまり、n拠点が多拠点接続装置(MCU)に接続されている場合、多拠点接続装置では、各拠点から受信した符号化列を一旦復号化して一つの信号にまとめて再度送り出すために符号化処理がn回、復号化処理がn回同時に行われる必要があり、メッシュ型の拠点端末で発生した課題が今度は多拠点接続装置で同様に発生する。
本発明は、このような従来の問題点に鑑みてなされたものである。
上記課題を解決するため、本発明の第1のストリーム合成装置は、2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力部と、前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成部と、生成された当該符号化信号を出力する出力部とを備えるストリーム合成装置である。
また、本発明の復号装置は、2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を入力する入力部を備え、入力される前記符号化信号の前記ダウンミックス音響信号は、予め定められた2つ以上の符号化信号の各ダウンミックス音響信号が取得される第2のダウンミックス音響信号であり、入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号であり、前記拡張信号に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号部を備える復号装置である。なお、復号部は、少なくとも相互相関値(ICC)と周波数パワー比(ILD)とに基いて、各中間信号を生成する。復号部は、相互相関値(ICC)と、周波数パワー比(ILD)と、相互相関値(ICC)及び周波数パワー比(ILD)以外の他のデータとに基いて、各中間信号を生成してもよい。
第2のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするものであって、2つ以上の符号化信号を受信して、該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形することを特徴とするストリーム合成装置である。
また、第3のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするストリーム合成装置であって、2つ以上の前記符号化信号を受信して、1つの前記符号化信号を送信するものであって、受信した符号化信号に含まれる拡張信号を一つの符号化信号に合成する、ことを特徴とするストリーム合成装置である。
また、第4のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするストリーム合成装置であって、2つ以上の前記符号化信号の送信元を示す情報を含む信号に合成する、ことを特徴とするストリーム合成装置である。
また、第1の復号化装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入力として、2つ以上の前記符号化信号から該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形された信号を受信する復号化装置であって、前記拡張信号には、1つ以上のモノラル信号の周波数パワー比(ILD)と1つ以上のモノラル信号の相互相関値(ICC)を含み、前記ダウンミックスした音響信号を復号化した信号に前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、前記2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する、ことを特徴とする復号化装置である。
また、第2の復号化装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入力として、2つ以上の前記符号化信号から該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形された信号を受信して復号化する復号化装置であって、前記拡張信号には、1つ以上のモノラル信号の二乗パワー周波数比を含み、前記二乗パワー周波数比が所定の閾値よりも大なるときに復号化を実施しないことを特徴とする復号化装置である。
また、第5のストリーム合成装置は、1つ以上のモノラル信号をダウンミックスした音響信号を符号化したダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号から構成される符号化信号をその入出力信号とするものであって、2つ以上の符号化信号を受信して、該1つ以上の符号化信号のダウンミックス音響信号部分を1つのダウンミックス音響信号と、前記ダウンミックス音響信号を1つ以上のモノラル信号に復号するための拡張信号に整形することを特徴とするストリーム合成装置である。
この第5のストリーム合成装置によれば、G.726などのモノラル音声符号化技術を用いた場合には、各拠点で複数の人が同時に発話した場合に、音響信号がモノラルであるため、音の分離性能が劣化するため、各拠点の臨場感がうまく伝わらず、受信側では発話人を特定することは困難になる問題が解決できる。
上記のようなストリーム合成装置を設けることで、多拠点接続時の臨場感を向上させつつ、多拠点接続装置での演算負荷を減らすことが可能になる。
以下、本発明の実施の形態を、図面を参照しながら説明する。
(実施の形態1)
図4は、本願発明のストリーム合成装置100の構成図である。また、図5は、拠点1と拠点2、拠点3が本願発明によるストリーム合成装置(多拠点接続装置)100を介して接続している図である。以下、拠点1〜拠点3と、ストリーム合成装置100とを備える多拠点会議システムを、システム1(図5)と呼ぶ。まず、図5を用いて概要を説明する。
図5は、システム1の構成図である。
各拠点は、それぞれ2つ以上の独立した音響信号をマイクロフォンで収録し、マルチチャンネルのPCM信号を得る。図5の場合、拠点1では信号1、信号2、信号3が収録され、拠点2では信号4、信号5、信号6がそれぞれ収録される。得られたPCM信号を式1に従ってステレオまたはモノラルのダウンミックスPCM信号を計算する。
(式1)DMX(n) = Σa(i,n)*Input(i) n=1または2
ここで、a(i,n)は各入力信号のダウンミックス係数で、収録された信号の数が5つの場合、ITU−R BS.775−1規格に開示されているダウンミックス係数を用いる。なお、「Σ」は、数列の総和を表す記号である。すなわち、「Σ」は、通常の数学における「Σ」の記号の意味を有する。
つまり、独立した複数の音響信号をあたかも、通常のマルチチャンネル信号として扱うのである。
このようにして算出されたモノラルあるいはステレオのダウンミックス信号を、モノラルあるいはステレオの音響符号化処理を行う。音響符号化処理として、ステレオ信号の場合たとえば、非特許文献2記載のMPEG−AAC方式で符号化する。モノラルの場合は非特許文献1記載のG.726方式やMPEG−AACのモノラル符号化を用いる。なお、ダウンミックス信号の符号化方式に関しては、MPEG−AACやG.726に限ったものではなく、ドルビーデジタル(AC−3)やMPEG−Layer3方式、TwinVQ方式などでも良い。
図5では、ダウンミックスPCM信号を符号化した信号を、DMX信号201、DMX信号204として表している。これらを総称してダウンミックス符号化信号と呼ぶことにする。
なお、説明の便宜上、この出願書類では、複数の音声信号などの複数の元信号がダウンミックスされて、ダウンミックスされたダウンミックスPCM信号がDMX信号に符号化される処理の全体からなる全体処理が、ダウンミックス符号化と呼ばれる。なお、ダウンミックス符号化は、適宜、単に「符号化」と呼ばれる。また、逆に、DMX信号から複数の元信号が生成される処理が、ダウンミックス復号と呼ばれる。なお、ダウンミックス復号は、適宜、単に「復号」と呼ばれる。
次に、拡張信号と呼ばれる信号を算出する。この信号は、前記ダウンミックス信号(DMX信号201、DMX信号204など)を元に、複数の独立した信号へと復号化するための情報である。拠点1を例に説明する。入力信号(ここでは信号1、信号2、それぞれモノラル信号の場合)の間で、フレーム毎に次のようにして、パワー比(ILD)および相互相関値(ICC)を算出する。信号1をInput1(n)、信号2をInput2(n)とすると、
(式2)Gain(n)=10*log(Input1(n)/Input2(n))
(式3)Cor(n)=Σ(Input1(n)*Input2(n)/Input2(i)^2)
なお、この出願書類において、記号「^」は、べき乗の演算を表す記号である。具体的には、記号「^」は、「A^B」の形で使われることで、AのB乗を表す。
このように算出されたパワー比(ILD)および相互相関値(ICC)は、量子化、Huffman符号化などが施されて、拡張信号203となる。詳細な手順は、非特許文献3記載のMPEG−Surround符号化におけるOTT回路(2つの入力から上記拡張信号を生成する回路)を参照されたい。なお、拡張情報はパワー比(ILD)と相互相関値(ICC)を例にしたが、これに限ったものではない。また、ここでは2つの独立した入力信号から拡張情報を作る例を述べたが、3つの独立した入力信号から拡張情報を求める方法もある。詳しくは、非特許文献3記載のMPEG−Surround符号化におけるTTT回路を参照されたい。4つ以上の独立した入力信号の場合には、2入力の信号装置であるOTT回路を直列接続した形で実現する。たとえば4つの独立した信号の場合はOTT回路を二つ用いて、二組のダウンミックス信号を得て、それをさらにOTT回路で一つのダウンミックス信号を得る。つまり、3つのOTT回路を用いる。
なお、拡張情報は、パワー比(ILD)および相互相関値(ICC)に加えて、さらに、位相差情報(IPD)を含んでもよい。
次に、信号1と信号2とをダウンミックスしてモノラル信号に変換し、その信号と信号3を用いて式2、式3にならってパワー比(ILD)と相互相関値(ICC)を算出し、量子化、Huffman符号化などが施され、拡張信号202とする。符号化情報101として、ダウンミックス符号化信号201と、そのダウンミックス符号化信号201から、信号3と、信号1+信号2で構成される合成信号とに分離するための拡張情報202、前記の拡張情報202によって分離された信号1+信号2の合成信号を、信号1と信号2に分離するための拡張情報203で構成されている。このことを模式的に図示すると、図5の信号ツリー209のようになる。
拠点2も同様に、信号4および信号5から拡張情報206を、信号4と信号5をダウンミックスした合成信号と信号6とから拡張情報205を、それぞれ算出する。
このようにして得られたダウンミックス符号化信号と拡張情報が、各拠点毎にまとめられ、Internetなどの通信路を経由してストリーム合成装置100に入力される。
図4は、本願発明のストリーム合成装置100の詳細を示す図である。ストリーム合成装置100の内部では、次のような演算が行われる。
まず、分離回路103は、拠点1の符号化情報101、拠点2の符号化情報102それぞれから、ダウンミックス符号化信号と拡張情報とを分離する。この分離に際しては、ダウンミックス符号化信号と拡張情報を区別する情報が、それぞれの情報の先頭に付記されており、それを頼りに分離回路103で分離する。
図6は、ダウンミックス整形回路104(図4)の構成を示す。
分離されたダウンミックス符号化信号は、ダウンミックス整形回路104を構成する復号化回路501および502で、所定の手順に従って、ダウンミックス整形回路104にて、一旦PCM信号に復号化される。なお、ダウンミックス符号化信号がMPEG−AAC方式で符号化されている場合は、非特許文献2記載の復号化方法で復号化し、PCM信号を算出する。このようにして得られたPCM信号をPCM1、PCM2とする。
ダウンミックス整形回路104は、復号化されたこれらのPCM信号(PCM1、PCM2)を、更に、ダウンミックス回路503によってダウンミックスし、所定の符号化形式(たとえばMPEG−AAC形式)に符号化回路504により符号化することで、ダウンミックス符号化信号207(図6)を得る。そのときのダウンミックスの過程の一例は、式4に記載している。
(式4)DMX = 0.5*PCM1+0.5*PCM2
なお、ここでは係数として0.5を記載したがこの限りではなく、PCM1、PCM2の係数をそれぞれa(i)、b(i)とすると、
(式5)a(i)+b(i)=1
という、関係が成立すれば良い。この過程は、図6のダウンミックス回路503に相当する。
次に拡張情報算出回路105(図4)は、PCM1とPCM2を元に、先述した式2および式3に従って拡張情報を算出する。この出力をダウンミックス分離情報(ダウンミックス拡張情報)208(図5のDMX分離)とする。
ダウンミックス分離情報の算出は次のようにして行う。
図16は、ダウンミックス分離情報を算出するか否かを判断するフローチャートである。
本実施の形態で述べている拠点構成では、ストリーム合成装置100が、2つの拠点からの信号を受信して、1つの拠点へ合成信号を送出する例を示している。この場合、受信拠点数nは“2”となる。ストリーム合成装置100は、受信拠点数を検出する(ステップS11)。検出された受信拠点数が1よりも大きいので(ステップS12:Y)、ストリーム合成装置100は、拡張情報算出回路105によって、拠点信号分離係数(ダウンミックス分離情報)を算出する(ステップS13)。その算出に関しては後述する。拠点信号分離係数を算出した後、その係数と元の拡張情報とを一つのストリームに多重化回路106が合成して(ステップS14)、第三の拠点へと出力部I2が送出する(ステップS15)。このようにして拠点信号分離係数を多重化回路106がステップS14で重畳するのであるが、拠点信号分離係数(ダウンミックス分離情報)の算出過程は図18に示す。
図18は、第1のダウンミックス分離係数算出の処理のフローチャートである。
拠点1と拠点2のそれぞれのダウンミックス符号化信号201と204(図6)を復号化したPCM1とPCM2の信号から、それらの信号の相互相関値(ICC)を式3に従って算出する(ステップS32)。次に、算出した相互相関値(ICC)の絶対値が所定の閾値P_ICCよりも大きいか小さいかを検出する(ステップS33)。P_ICCよりも小さい場合に(ステップS33:Y)、前記PCM1およびPCM2の差分信号を算出する。なお、P_ICCはたとえば0.5であり、この値はストリーム合成装置100(図4、図5)に予め設定されたものであり、0から1.0の範囲をとる値で、ユーザにより自由に設定が変更可能である。したがって、前記では0.5と設定したがもちろんこの値に限ったものではない。
ステップS35では、差分PCM信号に対して所定の次数によるLPC分析を行い、LPC係数と残差信号を算出する。LPC分析の一例は非特許文献4を参照されたい。
以上の過程より算出した、相互相関係数ICCおよびLPC係数、LPC分析次数をステップS36で符号化して、ダウンミックス分離情報とする。また、相互相関値ICCの絶対値が所定の閾値P_ICC以上の場合は、ICC情報のみをダウンミックス分離情報として送信する。これらの演算を、全送信拠点の組み合わせ分だけ繰り返して(ステップS31)、ICCやLPC係数を算出する。本実施の形態の場合は1回のループ計算を実施する。なお、ステップS31では、例えば、ステップS32〜ステップS37における、上記に説明した各処理が、送信拠点の各組み合わせのうちで、全ての組み合わせに関して終了したか否かが判定される。そして、ステップS31eでは、ステップS31で、すべての組み合わせについて終了したと判定された場合に(ステップS31:Y)、図18の処理(第1のダウンミックス分離係数算出の処理)を終了する。また、ステップS31で、すべての組み合わせについて終了していないと判定された場合(ステップS31:N)、終了していない組み合わせのうち1つの組み合わせについて、ステップS32〜ステップS37における処理が開始される。
図17は、ストリーム合成装置100における第2のダウンミックス分離係数算出のフローチャートである。
あるいは、ダウンミックス分離情報を図17のフローチャートに従って算出する場合もある。ステップS22では、拠点1と拠点2のそれぞれのダウンミックス符号化信号201と204(図6)を復号化したPCM1とPCM2(先述)の信号から、それらの信号の相互相関値(ICC)を、式3(先述)に従って算出する。次に、ステップS23では、算出した相互相関値(ICC)の絶対値が所定の閾値P_ICCよりも大きいか小さいかを検出する。ステップS24では、P_ICCよりも小さい場合に(ステップS23:Y)、前記PCM1とPCM2の信号からパワー比(ILD)を式2に従って算出する。算出したILDおよびICCをダウンミックス分離情報として送信する。相互相関値(ICC)の絶対値が所定の閾値P_ICC以上の場合は(ステップS23:N)、相互相関値(ICC)のみを符号化して送信する(ステップS26)。これらの演算を、全送信拠点の組み合わせ分だけ繰り返して(ステップS21:N)、ICCやILD、LPC係数を算出する。本実施の形態では、ストリーム合成装置100の出力拠点が拠点3の場合は、上記ICCやILDの算出は、拠点1と拠点2の組み合わせに対して実施する。同様に出力拠点が拠点1のときは、上記ICC、ILD、LPC算出は拠点2と拠点3のダウンミックス信号に対して演算する。拠点数が3個の場合に関して説明したが、もちろんこれに限ったものではなく、3以上でも同様に構成することが可能である。
なお、ステップS21では、例えば、ステップS21〜ステップS26における、上記に説明した各処理が、送信拠点の各組み合わせのうちで、全ての組み合わせに関して終了したか否かが判定される。そして、ステップS21eでは、ステップS21で、すべての組み合わせについて終了したと判定された場合に(ステップS21:Y)、図17の処理(第2のダウンミックス分離係数算出の処理)を終了する。また、ステップS21で、すべての組み合わせについて終了していないと判定された場合(ステップS21:N)、終了していない組み合わせのうち1つの組み合わせについて、ステップS32〜ステップS37における処理が開始される。
図19は、ダウンミックス分離情報(DMX分離)の構造を示したものである。
ダウンミックス分離情報は、その先頭にダウンミックス分離情報であることを示す領域があり、それによってダウンミックス分離情報か各拠点内での拡張情報を識別している。ダウンミックス分離情報は、この領域の次に、ダウンミックス分離情報全体が何Byteあるのかを示すDMX分離符号の長さ情報を格納する。ダウンミックス分離情報は、この長さ情報の次に、相互相関値(ICC)の個数を格納する。この個数は前記に示した全送信拠点数の組み合わせの数に一致する。ダウンミックス分離情報は、同様に、チャンネル間のレベル差情報(ILD)の個数、および各ILDの値を保持する。ダウンミックス分離情報は、ILDの個数及び値の次に、LPC分析をした分析次数および各LPC係数を保持する。拡張情報は、DMX分離情報(ダウンミックス分離情報)の後ろには、各拠点・各信号を分離するための拡張情報を保持する。図19の場合、図15のように各拡張情報(拡張情報1402、及び、拡張情報1403)が構成されているので、拡張6として、先頭部分に当該拡張情報が“拠点2、信号6”を分離する信号であることを示す識別符号があり、その後ろに図20に示す分離ツリー情報、さらにその後ろに、分離回路Cおよび分離回路Eの拡張係数(ICC係数およびILD係数)がそれぞれ保持されている。
このように、相互相関値(ICC)の絶対値の大小によってダウンミックス分離情報の内容を切り替えることで、MCUでのダウンミックス分離情報の算出に要する演算量を削減できる効果がある。
なお、本実施の形態では、ダウンミックス信号として、MPEG−AAC方式を例にしているが、LPC分析を用いて符号化している方式である場合、上記ダウンミックス分離情報を計算する際に、LPC分析の結果得られたLSP係数上での算術的な加算および線形補間処理によって合成できる。これはすなわちビットストリームの状態でダウンミックス分離情報が算出できることであり、一般的に処理の重い復号化を実施しなくても良いので、ダウンミックス分離情報をより簡単に求めることができる。LPC分析を用いて符号化している方式の一例として、非特許文献5記載のTwinVQ方式である。
従来技術では、そもそもダウンミックス分離情報というものは付加しないが、本願では、ストリーム合成装置100は、従来の信号分離のパラメータ(パワー比(ILD)、相互相関値(ICC))に加え、新たに差分PCMのLPC係数を送信する。
ここで、PCM1およびPCM2に対してLPC分析をするのではなく、差分PCMに対してLPC分析するのは、そうすることで音響信号のダイナミックレンジを圧縮することができ、その結果、復号化装置でも、大きなダイナミックレンジを想定しなくてもいい回路構成が実現できるので、回路コストが抑えられるメリットがある。もちろん、本来の目的である、ダウンミックス信号の分離性能の向上に寄与するのは言うまでもない。PCM1とPCM2の間でダウンミックス分離情報208(図5)を算出・符号化するのは、全く異なる特性を持つ可能性のある拠点1と拠点2のダウンミックス符号化信号をさらにダウンミックスすると、元々持っていた音響特性が失われてしまい、失われた状態の信号で後に拡張しても失われた音響特性は戻らない。それゆえ、情報量をできるだけ増やさずに音響特性を保持するために上記のようにダウンミックス符号化信号の拡張情報を生成する必要がある。
こうして得られたダウンミックス符号化信号207(図5、図6)とダウンミックス分離情報208(図5)、さらには符号化情報101、102に含まれる拡張情報202、203、205、206(図5)が多重化回路106(図4)で多重化され、出力部I2(図4)が、符号化情報107として拠点3に送信する。
次に、ダウンミックス符号化信号と拡張情報を受信した復号化装置に関して述べる。復号化装置A(図5)では、まずダウンミックス信号と拡張信号を復号化装置Aが分離し、復号化装置Aは、次にダウンミックス符号化信号を所定の復号化回路で復号化する。なお、MPEG−AAC方式であれば、非特許文献2記載の手順に従う。その復号化の結果得られた復号化PCM信号と前記の分離された拡張情報を元に、独立した複数の音響信号を復号化する。その復号回路の一例を図7と図8に示す。
なお、復号化装置Aは、例えば、拠点3に実現される機能の機能ブロックである。より具体的には、例えば、復号化装置Aは、拠点3のコンピュータが、予め当該コンピュータに記憶されたソフトウェアを実行することによって、当該コンピュータに実現する機能の機能ブロックである。
図7は、復号化装置A(図5)を示す図である。
拠点1の場合を例にすると、復号化装置Aは、図7に示されるよう、PCM信号として得られたダウンミックス信号601と拡張信号602を入力として、内部に分離回路603、604が多段に接続されている。分離回路の実施の例としては、非特許文献3に開示されているMPEG−SurroundのOTT回路、TTT回路が挙げられるが、簡単な分離回路の一例を図8に示す。
図8は、復号化装置Aが有する分離回路709を示す図である。
入力信号701と、式2・式3記載のパワー比(ILD、図8では分離情報(パワー比)703)と相互相関値(ICC、図8では分離情報(相関値)702)とを元に、まず入力信号701を無相関化回路704にて無相関化する。なお、その実施の一形態は、非特許文献3記載のDecorrelator回路がある。なお、無相関化回路704に関してはこの限りではなく、たとえば非特許文献6には、Levinson−Durbinアルゴリズムによって信号を無相関化する手法が開示されている。
上記無相関化回路704を経てゲイン調整回路705、706によってゲインを調整されて、分離された信号707および708が得られる。
ゲイン調整回路705、706では、パワー比(ILD)703を元に以下のような演算が行われる。
(式6)Sig1=Deco(Input801(n))*Gain(i)
(式7)Sig2=Deco(Input801(n))*(1−Gain(i))
ここで、Dec演算子は、信号の無相関化処理を示し、Sig1およびSig2は分離された信号707、708(図8)を示す。上記一連の処理によって、ダウンミックス拡張符号化信号から、所望の独立した複数のモノラルあるいはステレオ信号を復号化することができる。
なお、拡張情報の算出過程や、PCM信号となったダウンミックス信号と拡張情報から、元の独立した信号を復号化する手順は、たとえば、非特許文献3記載のMPEG−Surround方式の符号化装置、復号化装置を用いても良い。この手順で用いる符号化方式はもちろんMPEG−Surround方式に限った物ではなく、ダウンミックス信号と拡張情報によりマルチチャンネル信号を符号化・復号化を行うパラメトリックなマルチチャンネル空間符号化方式(MP3サラウンド方式など)に対しても本願発明が有効であることは言うまでもない。
図11は、ダウンミックス整形回路104aを示す図である。ストリーム合成装置100は、ダウンミックス整形回路104aを有してもよい。
以上は、ストリーム合成装置100で一旦PCM信号へと復号化してダウンミックスをする例であったが、これ以外の形態として次のものがある。ダウンミックス整形回路104a(図11)のダウンミックス信号はそれぞれMPEG−AAC方式である場合、その復号化手順は非特許文献1に記載されている。大まかな流れとしては、符号化情報の解析、逆量子化、周波数・時間変換をそれぞれ経由して、PCM信号へと復号化される。符号化情報の解析ののち、入力のダウンミックス信号201と204はそれぞれ、各逆量子化部1001で逆量子化(Requantize)処理を施す。詳細な手順は非特許文献1に記載されているが、簡潔に言うと、
(式8)Spec(n)=Gain(n)*2^(QuantizeValue(n)*4/3)
という形でスペクトル情報(Spec(n))を各逆量子化部1001により算出する。ここでQuantizeValue(n)がダウンミックスより得られた量子化値であり、Gain(n)は当該フレームの量子化Gainである。
逆量子化処理を入力のダウンミックス信号201および204にそれぞれ施すことで二つのスペクトルデータ(Spec201(n)、Spec204(n))が得られる。これらスペクトルデータを式9に従って加算部104aXにより加算し、合成スペクトルSpec(n)を得る。
(式9)Spec(n)=0.5*Spec201(n)+0.5*Spec204(n)
なお、ここでは係数として0.5を記載したがこの限りではなく、Spec201(n)、Spec204(n)の係数は式7と同様の関係が成立すればよい。このようにして得られた合成スペクトルを再度MPEG−AAC方式に則って量子化部104aYによって量子化する。この結果得られたものがストリーム合成装置100の出力である符号化情報107(図5)に含まれるダウンミックス信号207になる。逆量子化処理に引き続いて加算処理を行うことは、すなわち周波数情報上で加算を行っているわけで、PCM信号に戻すのに必要な周波数・時間変換(MDCT処理など)が不必要となり、ストリーム合成装置100の演算能力が低く抑えられることができ、ひいては製造コストや設計コストの削減にも繋がるものである。
以上のように実現されたストリーム合成装置100(MCU)は一実施の形態であって、これに限るものではない。またストリーム合成装置100の入力する符号化情報の数は2としているが、これに限ったものではなく、3以上でも同様に構成される。
続けて、実施の形態1の変形例が説明される。
また、本実施の形態1では、ダウンミックス分離情報をストリーム合成装置100で付加することを述べたが、他にも次のような情報を付加することで、さらに別段の効果を奏することができる。
図14は、システム1aを示す図である。
たとえば、図14に示すように、ダウンミックス分離情報208(図2)とは別に、各拠点での入力信号の数をストリーム合成装置100にて付加することである。図14の場合では、拠点1の入力信号数3、拠点2の入力信号数3が加算され、ストリーム合成装置100にて符号化情報107に入力信号数1301として加算値“6”が保持され、拠点3へと送信する。それを受信した拠点3の復号化装置Aでは、まず当該符号化情報107に含まれる各送信拠点の入力信号数1301を取得する。この時点ではまだ各拠点の信号を分離するための情報(拡張情報202、203や205、206)を用いたダウンミックス信号207の分離・拡張は行わない。
符号化情報107を復号化し再生する装置には、復号化信号を再生チャンネル数に応じて異なる処理を行うレンダリング装置を備える。レンダリング装置とは、復号化信号1’〜5’を再生チャンネル毎に振り分ける作用をする装置である。たとえば、復号化信号が5つで再生チャンネル数が2つの場合について説明する。復号化信号1〜5をそれぞれs1〜s5、再生チャンネル信号をそれぞれo1、o2とすると、
(式10) o1=s1+0.5*s2+1/√2*s3
o2=s4+0.5*s2+1/√2*s5
となる。上記演算に用いる係数がレンダリング情報に相当する。レンダリング情報としては、ITU−R BS.775−1規格に記載されているダウンミックス係数を用いている。このレンダリング係数は、復号化装置の再生チャンネル信号の配分によって決定する。上記の例では、信号s1は左前方チャンネル信号、信号s2は前方センターチャンネル信号、信号s3は左後方チャンネル信号、信号4は右前方チャンネル信号、信号s5は右後方チャンネル信号である。これらを左前方出力チャンネルo1、右前方出力チャンネルo2に出力する。
本構成の場合、レンダリング装置に用いるレンダリング情報を決定するタイミングは、ダウンミックス信号207の拡張を行う前に入力信号数の総計を検出した時点である。レンダリング情報構成部と符号化情報107の復号化を同時並列的に演算することが可能になり、信号処理遅延量の大幅な削減が可能になる効果もある。
図15は、システム1bを示す。
本実施の形態のストリーム合成装置100では、各拠点の拡張情報を合成して送出するが、その際、各拠点・各入力信号の優先度に応じて拡張情報を構成することも想定している。たとえば、拠点1の入力信号1が優先度が最も大きく、その次が拠点2の入力信号6が優先度が高い場合、図15のように優先度情報1401に基づいて、拡張情報1402(拠点1の信号1を分離する情報)、1403(拠点2の信号6を分離する情報)という順番で構成する。その構成を取ることで、ストリーム合成装置100から拠点3に送信された符号化情報107を復号化する際に、符号化情報107全体を処理できない場合の切り捨て処理が優先度に基づいて処理することが出来る。つまり、先頭部分から優先度が高い順番に並べているので、当該復号化処理装置で優先度上位1番目まで処理すればいい場合に拡張情報1403を切り捨てれば良い。そうすることで、復号化処理が1回で済み、全体を復号化することに比べ半分の処理回数で済み、それはすなわちより省電力な復号化処理装置が実現できるのである。
優先度情報1401は、次のようにして決定する。ストリーム合成装置100では、まずどの拠点からの信号が多く送信されているか(送信頻度)を検出する。次に送信頻度の多い拠点に含まれる拡張信号のうち、もっとも送信回数が多い拡張情報を検出し、優先度情報とする。別の拠点でも同様の手順によって優先度情報を生成する。このようにして全拠点・全入力信号の優先度を算出し、その優先度に従ってストリーム合成装置100にて拡張情報を並べ替える。そして、優先度をつけた拡張情報をその順番にそってストリーム合成装置100内で順番に並べられて、送信される。
図21は、優先度算出手順を示すフローチャートである。
優先度はまた別の構成で検出することも出来る。図21に示すように、各入力信号のICC値を分離し、その値が予めストリーム合成装置100に設定されたN_ICC値よりも小さい場合に(ステップS42:Y)、更に拡張情報より拡張係数ILDを分離し(ステップS43)、分離した拡張係数ILDに従って優先度を設定する。つまり、全信号に含まれるILD係数のそれぞれの順位を算出することで(ステップS44)、それを各信号の優先度に設定する(ステップS45)。N_ICC値は本願ストリーム合成装置100が動作している間は初期段階で設定した値で一定にする。なお、もちろん、必要に応じて値を経過時刻とともに可変することも可能である。経過時刻とともに可変にすると、優先順位の検出精度を調整することが可能となるため、優先度を調整できるような今までにない柔軟なストリーム合成装置が実現できるのである。
次に、上記した、実施の形態1の説明に付加される付加説明が行われる。なお、以下の付加説明は、上記の説明の内容について、如何なる限定も行うものではない。
図5により、システム1の構成が示される。
システム1は、各拠点のユーザによる会議に際して、送信拠点における会議の音声の音声信号を受信拠点へと通信することにより、通信した音声信号を受信拠点に再生させる多拠点会議システムである。そして、具体的には、システム1は、受信拠点のユーザが高い臨場感を得られるよう、送信拠点の複数の音声信号を受信拠点に通信して、複数の音声信号を受信拠点に再生させる。
なお、以下では、拠点1及び拠点2が各々送信拠点で、拠点3が受信拠点である際の例が説明される。
複数の拠点は、それぞれ、複数のマイクロフォン(図略)と、複数のマイクロフォンにより各々収録された複数の音声信号(PCM信号)から、それら複数の音声信号を特定する符号化情報(図5の符号化情報101、符号化情報102)を生成して、生成された符号化情報を、ストリーム合成装置100に送信するコンピュータとを備える。また、各拠点のコンピュータは、それぞれ、当該拠点以外の他の拠点がストリーム合成装置100に送信した符号化情報(図5の符号化情報101、符号化情報102)に基いてストリーム合成装置100が生成した符号化情報(図5の符号化情報107)を、当該ストリーム合成装置100から受信し、受信された符号化情報が特定する各音声信号を再生する。
図4により、ストリーム合成装置100の構成が示される。
ストリーム合成装置100は、複数の分離回路103と、ダウンミックス整形回路104と、拡張情報算出回路105と、多重化回路106とを備える。
符号化情報は、図5の符号化情報101、符号化情報102、符号化情報107に各々示されるように、DMX信号(ダウンミックス符号化信号)、及び、拡張情報を含む。なお、図4の符号化情報101のDMX信号はDMX信号201であり、拡張情報は、拡張情報202及び拡張情報203の全体からなる情報である。また、符号化情報102のDMX信号はDMX信号204であり、拡張情報は、拡張情報205及び拡張情報206である。また、符号化情報107のDMX信号はDMX信号207であり、拡張情報は、ダウンミックス分離情報208、拡張情報202、拡張情報203、拡張情報205及び拡張情報206である。
拡張情報は、その拡張情報が含まれる符号化情報の複数の音声信号の性質を特定する。具体的には、拡張情報は、それら複数の音声信号の間でのパワー比(ILD)と相互相関値(ICC)とを特定する。さらに具体的には、拡張情報は、その音声信号のパワー比(ILD)及び相互相関値(ICC)に対して、量子化、Huffman符号化などが施された処理済のデータを含む。そして、拡張情報は、このように、上記処理済のデータを含むことにより、処理済のデータから算出される、処理前の上記パワー比(ILD)及び相互相関値(ICC)を特定する。すなわち、拡張情報は、処理済のデータのデータ構造によって、上記パワー比(ILD)及び相互相関値(ICC)を記憶する情報である。換言すれば、拡張情報は、物理的なデータ構造として、上記処理済のデータのデータ構造を有し、この物理的なデータ構造により記憶される論理的なデータ構造として、上記パワー比(ILD)及び相互相関値(ICC)のデータ構造を備える。
DMX信号は、そのDMX信号が含まれる符号化情報が示す複数の音声信号がダウンミックスされたダウンミックスPCM信号が符号化された信号である。
複数の分離回路103は、複数の送信拠点(図5の拠点1及び拠点2)からストリーム合成装置100に受信された各符号化情報(符号化情報101、符号化情報102)から、それぞれ、その符号化情報のDMX信号と拡張情報とを分離する。
なお、以下では、ストリーム合成装置100に送信拠点が送信し、ストリーム合成装置100に受信される符号化情報(符号化情報101、符号化情報102)は、受信符号化情報と呼ばれる。また、ストリーム合成装置100から受信拠点に受信され、ストリーム合成装置100により送信される符号化情報(符号化情報107)は、送信符号化情報と呼ばれる。
なお、具体的には、複数の分離回路103は、それぞれ、対応する符号化情報の分離の処理を行う。
なお、複数の分離回路103は、それぞれ、例えば、ソフトウェアによってストリーム合成装置100に実現された機能の機能ブロックである。これらの機能ブロックは、例えば、互いに並列に動作する機能であってもよい。
ダウンミックス整形回路104及び拡張情報算出回路105は、複数の分離回路103によって分離された各DMX信号(DMX信号201、DMX信号204:図4)、各拡張情報に基いて、受信拠点(図5の拠点3)に送信される符号化情報107(図4、図5)のDMX信号207及びダウンミックス分離情報208を生成する。
図6により、ダウンミックス整形回路104(図4)の構成の一例が示される。なお、図6の構成は単なる一例である。ダウンミックス整形回路104及び拡張情報算出回路105は、上記した機能を有するなら、図6の構成の全部または一部を有さない構成が採られてもよい。
ダウンミックス整形回路104は、複数の復号化回路(復号化回路501、復号化回路502)と、ダウンミックス回路503と、符号化回路504とを備える。
複数の復号化回路(各復号化回路501等:図6)は、それぞれ、各送信拠点(図5の拠点1、拠点2)の符号化情報から分離されたDMX信号(DMX信号201、DMX信号204:図6、図5)を、ダウンミックスPCM信号に復号する。
そして、拡張情報算出回路105は(図4)、復号された各送信拠点のダウンミックスPCM信号に基いて、ダウンミックス分離情報208(図5)を算出する。
そして、ダウンミックス回路503は(図6)、複数の復号化回路(復号化回路501等)により復号化された各送信拠点のダウンミックスPCM信号を、拡張情報算出回路105により算出されたダウンミックス分離情報208によりダウンミックスして、ダウンミックスPCM信号を生成する。
そして、符号化回路504は、生成されたダウンミックスPCM信号を符号化して、DMX信号207(図5参照)を生成する。
多重化回路106(図4)は、ダウンミックス整形回路104によって生成されたDMX信号207と、拡張情報算出回路105によって算出されたダウンミックス分離情報208とに基づいて、符号化情報107(図4、図5)を生成する。より具体的には、多重化回路106は、これらDMX信号207及びダウンミックス分離情報208と、複数の分離回路103により分離された各送信拠点(図5の拠点1、拠点2)の拡張情報(図5の拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)とに基いて、それらDMX信号207、ダウンミックス分離情報208、及び各送信拠点の拡張情報を含んでなる符号化情報107を生成する。
他方、受信拠点(拠点3)は、ストリーム合成装置100によって当該受信拠点に送信される符号化情報107を復号化して、符号化情報107が特定する各音声信号(PCM信号)を生成する復号装置(復号化装置A:図5)を備える。
復号化装置Aは、ストリーム合成装置100から拠点3のコンピュータに受信された符号化情報107(図5、図4)を復号化する。復号化装置Aは、復号化によって、各送信拠点(拠点1、拠点2)のDMX信号(図5のDMX信号201、204)及び拡張情報(拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)をそれぞれ生成する。復号化装置Aは、生成した各情報を用いて、各送信拠点の各音声信号を生成し、生成された各音声信号を再生する。
図8により、復号化装置Aが有する分離回路709が示される。
分離回路709は、入力信号701と、相関値702と、パワー比(ILD)703とから、入力信号701から分離される分離信号707と、分離信号708とを生成する。
入力信号701は、例えば、ストリーム合成装置100が拠点3に送信した符号化情報107に含まれるDMX信号207である。また、入力信号701は、例えば、このDMX信号207から、分離情報(ダウンミックス分離情報208(図5)、拡張情報202等(図5))を用いて1回以上、復号化(ダウンミックス復号化)をして取得される符号化情報である。
相関値702は、入力信号701を復号化するための拡張情報の相互相関値(ICC)である。
パワー比(ILD)703は、入力信号701を復号化するための拡張情報のパワー比(ILD)である。
分離回路709は、無相関化回路704と、複数のゲイン調整回路705、706とを備える。
無相関化回路704は、相関値702によって入力信号701を無相関化して、無相関化された2つ以上の中間信号を生成する。
複数のゲイン調整回路705、706は、それぞれ、生成された各中間信号のゲインを、パワー比(ILD)703によって調整する。複数のゲイン調整回路705、706は、この各調整をすることで、それぞれ、入力信号701から分離された分離信号707、分離信号708を生成する。
図7により、復号化装置Aの構成が示される。
復号化装置Aは、複数の分離回路603、分離回路604を備える。図8の分離回路709は、これら複数の分離回路603、分離回路604のうちの一例である。
複数の分離回路603、分離回路604によって、符号化情報の復号化を1回以上行って、受信拠点(拠点3)に受信された符号化情報107(図5)のDMX信号601から、各送信拠点のDMX信号(DMX信号201、DMX信号204)が復号され、ひいては、各拠点でそれぞれ収録された複数の音声信号が復号される。
なお、システム1は、図22により説明される態様を有してもよい。
図22は、ストリーム合成装置100が複数の拠点1〜拠点3に対して、それぞれ符号化情報を送信する処理を説明する説明図である。
図22の態様では、ストリーム合成装置100の各機能ブロック(図4参照)は、それぞれ、次の処理を行う。
入力部I1(図4)は、複数の拠点1〜拠点3より、それぞれ、符号化情報(図略)をストリーム合成装置100に入力する。なお、拠点n(n=1,2,3)から入力された符号化情報は、拠点nの入力符号化情報と呼ばれる。また、拠点nの入力符号化情報に含まれるDMX信号は、拠点nの入力DMX信号と呼ばれる。また、拠点nの入力符号化情報に含まれる拡張情報は、拠点nからの入力拡張情報と呼ばれる。
出力部I2は、複数の拠点1〜拠点3に対して、それぞれ、符号化情報(出力符号化情報107a、出力符号化情報107b、出力符号化情報107c:図22)を出力する。なお、拠点nに出力される出力符号化情報は、拠点nの出力符号化情報と呼ばれる。
出力符号化情報107a〜出力符号化情報107cは、それぞれ、その出力符号化情報に含まれるDMX信号として、共通の出力DMX信号207xを有する。すなわち、出力符号化情報107a〜出力符号化情報107cが有するDMX信号の内容は、何れも、共通の出力DMX信号207xであり、互いに同一である。そして、出力符号化情報107a〜出力符号化情報107cは、それぞれ、拡張情報として、出力拡張情報H1、出力拡張情報H2、及び出力拡張情報H3を備える。これら、各拠点の出力拡張情報H1〜出力拡張情報H3は、互いに異なる。
共通の出力DMX信号207xは、各拠点1〜3の入力DMX信号が復号化されるDMX信号である。つまり、共通の出力DMX信号207xは、拠点1の入力DMX信号と、拠点2の入力DMX信号と、拠点3の入力DMX信号との3つの入力DMX信号が復号化されるDMX信号である。
次に、各出力拡張情報(出力拡張情報H1〜出力拡張情報H3)のうちで、まず、拠点1の出力拡張情報H1について説明される。
拠点1への出力符号化情報107aは、ダウンミックス分離情報として、出力先である拠点1以外の他の各拠点(拠点2及び拠点3)の各入力DMX信号を復号化するための拠点分離用のダウンミックス分離情報H11を含む。さらに、拠点1への出力符号化情報107aは、拠点2の入力拡張情報と、拠点3の入力拡張情報とを含む。すなわち、出力符号化情報107aは、他の各拠点(拠点2及び拠点3)の各入力拡張情報を含む。要するに、出力拡張情報H1は、共通の出力DMX信号207xから、他の各拠点(拠点2、拠点3)の音声信号を復号化するための拡張情報である。
なお、拠点nの出力拡張情報に含まれる出力拡張情報(出力拡張情報H1〜拡張情報H3)は、拠点nの出力拡張情報と呼ばれる。
拠点1の出力拡張情報H1〜拠点3の出力拡張情報H3は、それぞれ、上述した拠点1の出力拡張情報H1の構成と同様の構成を有する。
すなわち、拠点1〜拠点3の各出力拡張情報(例えば出力拡張情報H1)は、その出力拡張情報の拠点(例えば拠点1)以外の他の各拠点(例えば拠点2及び拠点3)からの入力拡張情報(例えば拠点2の入力拡張情報、及び拠点3の入力拡張情報)と、共通の出力DMX信号207xから、他の各拠点(例えば拠点2及び拠点3)の音声信号を復号化するためのダウンミックス分離情報(例えばダウンミックス分離情報H11)を含む。
出力符号化情報生成部I3(図4)は、ストリーム合成装置100に受信された各入力符号化情報に基づいて、拠点1〜拠点3への各出力符号化情報(出力符号化情報107a〜出力符号化情報107c)を生成する。
具体的には、出力符号化情報生成部I3のダウンミックス整形回路104が、共通の出力DMX信号207xを生成する。また、拡張情報算出回路105が、出力拡張情報H1〜出力拡張情報H3を生成する。そして、多重化回路106が、生成された共通の出力DMX信号207xと、生成された出力拡張情報H1〜出力拡張情報H3とに基づいて、各拠点への出力符号化情報(出力符号化情報107a〜107c)をそれぞれ生成する。
そして、出力部I2(図4)は、生成された各出力符号化情報(出力符号化情報107a〜107c)を、それぞれ、その出力符号化情報の拠点に出力する。
こうして、2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号(入力DMX信号)と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号(入力拡張情報)とが含まれる符号化信号(入力符号化情報)を2つ以上入力する入力部I1と、前記入力部によって入力された各符号化信号(例えば、拠点1の入力符号化情報と、拠点2の入力符号化情報)に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号(共通の出力DMX信号207x)と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号(拠点1の入力DMX信号、拠点2の入力DMX信号)を取得するための拡張信号(ダウンミックス分離情報H11)とを生成し、生成された当該第2のダウンミックス音響信号(共通の出力DMX信号207x)と、生成された当該拡張信号(ダウンミックス分離情報H11)と、入力された前記各符号化信号の各拡張信号(拡張情報H12)とが含まれる符号化信号(拠点1への出力符号化情報107a)を生成する出力符号化情報生成部I3と、生成された当該符号化信号を出力する出力部I2とを備えるストリーム合成装置(ストリーム合成装置100)が構成される。
そして、前記入力部I1は、予め定められた複数の入出力先(拠点1〜拠点3)から、それぞれ、符号化信号(入力符号化情報)を入力し、前記出力部I2は、当該複数の入出力先にそれぞれ符号化信号(出力符号化情報)を出力し、前記出力符号化情報生成部I3は、1個の前記第2のダウンミックス音響信号(共通の出力DMX信号207x)と、前記複数の入出力先の個数と同じ個数の拡張信号(出力拡張情報H1、出力拡張情報H2、出力拡張情報H3)とを生成し、生成される1個の前記第2のダウンミックス音響信号は、前記複数の入出力先から入力された前記各符号化信号の各第2のダウンミックス音響信号(各入力DMX信号)を取得するためのダウンミックス音響信号であり、生成される前記各拡張信号(例えば、出力拡張情報H1)は、互いに異なる前記入出力先(例えば、拠点1)にそれぞれ対応し、対応する前記入出力先(拠点1)以外の他の入出力先(拠点2及び拠点3)の拡張信号(拠点2及び拠点3からの各入力拡張情報)のみが含まれ、前記出力部I2は、前記出力符号化情報生成部I3が生成した前記各符号化信号を、それぞれ、当該符号化信号に含まれる拡張信号(出力拡張情報H1等)が対応する前記入出力先(拠点1等)に出力するストリーム合成装置(ストリーム合成装置100)が構成される。
そして、拡張信号(例えば図5の拡張情報202及び拡張情報203の全体)は、複数の部分拡張信号(個々の拡張情報202、拡張情報203)を含み、当該複数の部分拡張信号のうちで、音信号(例えば拠点1の信号3)に対応する一部の部分拡張信号(拡張情報202)により当該音信号(信号3)が当該符号化信号(符号化情報101)から取得されるストリーム合成装置100が構成される。
なお、ダウンミックス整形回路104、拡張情報算出回路105等は、40ミリ秒などの予め定められた時間ごとに、入力符号化情報におけるその時間の部分を処理するものとしてもよい。拠点1等が有する複数のマイクロフォンは、それぞれ、互いに異なるユーザの音声の音声信号を収録してもよい。そして、会議に参加するユーザの数が変化して、収録される音声信号の数が変化してもよい。そして、ストリーム合成装置100に入力される符号化情報(符号化情報101等)にダウンミックスされる音声信号の数が変化してもよい。
(実施の形態2)
図9は、実施の形態1で説明した、ストリーム合成装置100を介して多拠点が接続されているシステム1cを示している。
拠点1では、信号1と信号2で拡張情報802を形成し、信号1と信号2のダウンミックス信号と信号3との間で拡張信号803を形成している。詳細は実施の形態1に記述している。同様に拠点2では、信号4と信号5から拡張情報805が、信号6と信号7から拡張情報806が、信号4と信号5のダウンミックス信号と、信号6と信号7のダウンミックス信号とから拡張情報807がそれぞれ計算される。これらの拡張情報は、MPEG−SurroundのOTT回路の係数と同様のものである。また、それぞれの拠点では、入力信号をダウンミックスしてそれをMPEG−AAC形式などで符号化したダウンミックス符号化信号801および804を生成し、実施の形態1で説明したストリーム合成装置100にネットワークを通じて伝送される。
ストリーム合成装置100では、実施の形態1で説明したような処理が施され、拠点3へとネットワークを通じて符号化情報が送信される。
この際、拠点3に送信される符号化情報107の拡張情報として、どこの拠点から送信されたものかを示す情報を付記する。従来例ではそもそも拠点情報は送信しておらず、拠点3で復号化する際に拠点1および拠点2を別々に再生制御することが不可能であった。ところが、本実施の形態2のように符号化情報としてどこの拠点から送信された物かを示す情報を符号化して送信し、拠点3に送信することで、拠点3で復号化する際に拠点1、拠点2に別々に再生制御を施すことが可能になる。拠点1の各音声信号の音声は拠点3の左のスピーカで、拠点2の各音声信号は拠点3の右のスピーカで再生するなどの臨場感あふれる再生が可能になり、各拠点間のコミュニケーションがよりスムーズに行う効果が得られるのである。
図10は、受信された符号化情報107の符号列の一例を示す図である。
拠点情報908を含んだ場合の符号化情報107の例を図10に示す。図10の符号化情報107は、拡張情報904のなかに、拠点情報908を含む。
まず、符号化情報107の先頭部分に、拡張情報の接続を示す情報を配置する。図10ではツリー情報901である。拡張情報は、ダウンミックス信号を分離するための情報であるが、これらが複数個ある場合にどのように分離を実行するかの情報を送信する。たとえば図9の場合、拡張信号802は、パワー比(ILD)と相互相関値(ICC)が保持されているので、どの信号を分離して、どちらのチャンネルに出力するかを判別する情報を送信する。信号1は、図9に示すように、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第一チャンネルになる。同様に信号2は、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第二チャンネルである。信号3は、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離結果の第一チャンネルを、更に拡張情報803で分離したものの第二チャンネルである。このように、当該信号がどのような分離回路の接続でどちらのチャンネルの出力かという情報を送信する。
たとえば、拡張情報904は、当該拡張情報904が、ダウンミックス符号化信号の分離の拡張情報か、拠点毎の信号の分離の拡張情報かを区別するために判別情報907を含むように構成する。拡張情報904は、拠点毎の信号を分離(信号1と信号2の分離)するため、この場合は“拠点毎の分離”という情報を格納する。そのほかには、各拡張情報がどの拠点から送信されてきたのかを示す拠点情報908(この場合は拠点1ということを示す)、信号1と信号2を分離するためのパワー比(ILD)や相互相関値(ICC)などの拡張情報909等で構成する。同様に、拡張情報905は、拠点毎の分離、拠点1、信号3と信号1・2のダウンミックス信号を分離するための拡張情報で構成する。
DMX分離信号(ダウンミックス分離情報)903は、当該拡張情報がダウンミックス符号化信号の分離のための拡張情報であることを示す情報と、拠点1と拠点2のダウンミックス信号を分離するための拡張情報で構成する。
また、図10の下部には、ツリー情報901(図10)の構成が示される。
これらの信号とは別に、分離回路の接続を示すツリー情報901が符号化情報107に付加されて、送信が行われる。図10にその詳細を示す。まず、全体の信号数909が保持されている。図9では拠点3が受け取る信号は、信号1〜7の7つであるので“7”が信号数909に保持されている。次に分離回路の“深さ”を示す情報をツリーの深さの最大910として保持する。図9では、拠点3は、三段階の分離回路が接続されるので、深さ情報としては“3”を保持する。次に信号1を分離するためにたどっていく出力チャンネルを信号1のツリー係数911として保持する。信号1を分離するためには、DMX信号808とDMX分離(ダウンミックス分離情報)809の分離の結果の第一チャンネルを、更に拡張情報803で分離したものの第一チャンネルを更に拡張情報802で分離したものの第一チャンネルであるので、第一チャンネルであることを示す“0”が三つ繋がる係数で保持する。同様に信号2を分離するために第一→第一→第二チャンネルとたどっていくので、“001”が信号2のツリー係数912として保持される。信号3は第一→第二(ここで終了)なので、“01”+終端を示す情報を信号3のツリー係数913として保持する。
このようにツリー情報を格納することで、所望の復号結果がどれだけの回数分の分離回路(MPEG−Surroundの場合はOTT回路)で分離すれば良いのかが容易に判別することができるようになる。このような構成を取ることで復号化装置Aで、復号化演算をする前に、ツリー情報を分離回路(MPEG−Surroundの場合はOTT回路)の演算量の予測が可能となり、復号化装置Aが備える演算リソースの有効配分が行える。その結果として、演算リソースの全体配分が予め予想できることから、演算ピーク値を分散することが容易に可能となる。演算ピーク値を分散できることは、すなわち、復号化に必要なプロセッサパワーのワーストケースが予め保証できるため、低周波数のプロセッサクロックが実現でき、省電力な設計の復号化回路が構成できるという利点がある。副次的には、演算リソースの配分によって、演算に必要な記憶メモリの再利用性も向上するため、省メモリ設計の復号化LSIの実現が可能となる効果も発生する。
なお、ツリー情報901の一例として図10を示したが、信号数909やツリーの深さの最大値910などはこの図の順序に限った物ではない。信号数909あるいは各種ツリー係数、ツリーの深さ情報910などをそれぞれ単独で保持する場合もあれば、図10のように組み合わせて保持する形態も容易に構成できるのは言うまでもない。
また、本実施の形態では符号化情報として信号数やツリー構成情報を送信する場合を述べているが、それ以外にもたとえば、符号化情報とは別に送信することも可能である。拠点1、拠点2、拠点3が接続され、各符号化装置、復号化装置が通信を始める際にやりとりされる初期化情報を用いて送信する方法がある。初期化情報として拠点数や各拠点の拠点番号は動的に変化しない場合には各拠点の符号化・復号化装置を初期化する際に送信しておくと、各符号化情報の中で送信する場合に比べて、符号化情報そのものの符号化効率が向上し、同一伝送レートで音質が向上する。信号数や拠点数、拠点番号、入力信号数などを初期化情報として送信しない場合、つまり各フレーム毎の符号化情報としてそれらの情報を送信する形態の場合、接続拠点をフレーム毎に動的に変化させることが出来る。当然ながら入力信号数をフレーム毎に変えることが出来るようにもなり、たとえば各拠点の入力信号をそれぞれ話者に割り当てて臨場感を送受信するためのコミュニケーションシステムで本願を活用する際は、話者の動的な入れ替えが可能になり、場面に応じた柔軟な参加者構成が実現できる効果がある。
また、前述のように各送信拠点(本実施の形態の場合では拠点1と拠点2)における各入力信号は複数のマイクロフォンで収音された信号であるが、収音する際の複数のマイクロフォン間の距離や各マイクロフォンの方向情報を拠点情報として符号化情報に含めて送信する構成をとる場合をとっても良い。各マイクロフォン間の距離や各マイクロフォンの方向情報を符号化情報に含めると、その符号化情報を受信する復号化装置では、たとえば入力信号1を収音したマイクロフォンと入力信号3を収音したマイクロフォンの距離が10cm以内の近距離の場合には信号1と信号3の相関が高い確率が上がるため、信号1と信号3を同じ信号として出力することにより、復号化処理を省略することも可能となる。携帯電話を用いた会議システムや、小型家庭用の臨場感コミュニケーションツールなどの消費電力が低いことが絶対条件のシステムに対して、この省電力化も可能な構成を取れる本願は、非常に柔軟かつ有益な形態といえる。
(実施の形態3)
図11により、先述のように、ダウンミックス整形回路104aが示される。
実施の形態1において、ダウンミックス整形回路104は、図6の形態をとったが、別の実施形態として図11がある。図11では、MPEG−AAC方式やMP3方式など、既存のステレオ符号化方式などで符号化された入力のダウンミックス信号201と204が入力になる例である。
以下は、ダウンミックス信号201と204がMPEG−AAC方式である場合を例に説明する。もちろん、MPEG−AAC方式に限った物ではなく、MP3形式であっても良いし、あるいはTwinVQ方式、MPEG−Layer2方式など、既存の非可逆ステレオ圧縮方式であっても良い。また、LPCMやMPEG−ALS、MPEG−SLS方式などの可逆ステレオ圧縮方式であっても良い。
ダウンミックス信号はそれぞれMPEG−AAC方式であるので、その復号化手順は非特許文献1に記載されている。大まかな流れとしては、符号化情報の解析、逆量子化、周波数・時間変換をそれぞれ経由して、PCM信号へと復号化される。本実施の形態では、逆量子化の後過程が発明の要であることから、そこに重点を置いて説明する。符号化情報の解析ののち、入力のダウンミックス信号201と204はそれぞれ、各逆量子化部1001で逆量子化(Requantize)処理を施す。詳細な手順は非特許文献1に記載されているが、簡潔に言うと、前述の式8(実施形態1の図11の説明を参照)を用いてスペクトル情報(Spec(n))を算出する。ここでQuantizeValue(n)がダウンミックスより得られた量子化値であり、Gain(n)は当該フレームの量子化Gainである。
逆量子化処理を入力のダウンミックス信号201および204にそれぞれ各逆量子化部1001が施すことで二つのスペクトルデータ(Spec201(n)、Spec204(n))が得られる。これらスペクトルデータを前述の式9に従って加算部104aXにより加算し、合成スペクトルSpec(n)を得る。
なお、ここでは係数として0.5を記載したがこの限りではなく、Spec201(n)、Spec204(n)の係数は式7と同様の関係が成立すればよい。
このようにして得られた合成スペクトルを再度MPEG−AAC方式に則って量子化部104aYによって量子化する。この結果得られたものがストリーム合成装置100の出力である符号化情報107に含まれるダウンミックス信号207になる。
逆量子化処理に引き続いて加算処理を行う本願の構成は、すなわち周波数情報上で加算を行っているわけで、周波数情報をPCM信号に戻すのに必要な周波数・時間変換(IMDCT処理など)が不必要となる。その結果、ストリーム合成装置100のプロセッサ演算能力を低く抑えることができる。それはすなわち、プロセッサの最大動作周波数を低く抑えることが出来るし、また余分な処理をしない分演算メモリも少なく抑えることができ、結果として製造コストや設計コストの削減にも繋がるという著しい効果が生じる。
なお、本実施の形態で、ダウンミックス信号はMPEG−AAC方式としたが、もちろんこの限りではなく、MPEG−Layer3方式やTwinVQ方式で合っても良く、それ以外にも時間周波数変換を用いた音響符号化方式であれば、どれであっても良い。
(実施の形態4)
図12は、ストリーム合成装置100の別の実施形態を示す図である。
図12に示すシステム1dにおいては、拠点1と拠点2、拠点3が本願発明によるストリーム合成装置(多拠点接続装置)100を介して互いに接続している。各拠点は、それぞれ2つ以上の独立した音響信号をマイクロフォンで収録し、マルチチャンネルのPCM信号を得る。図12の場合、拠点1では信号1、信号2、信号3が収録され、拠点2では信号4、信号5、信号6、信号7がそれぞれ収録される。得られたPCM信号を実施の形態1で示したように、ステレオまたはモノラルのダウンミックスPCM信号を計算する。
算出されたモノラルあるいはステレオのダウンミックス信号を、モノラルあるいはステレオの音響符号化処理を行う。音響符号化処理として、ステレオ信号の場合たとえば、非特許文献2記載のMPEG−AAC方式で符号化する。モノラルの場合は非特許文献1記載のG.726方式やMPEG−AACのモノラル符号化を用いる。図12では、ダウンミックスPCM信号を符号化した信号を、DMX信号1101、DMX信号1105として表している。これらを総称してダウンミックス符号化信号と呼ぶことにする。
次に、拡張信号と呼ばれる信号を算出する。この信号は、前記ダウンミックス信号(DMX信号1101、DMX信号1105など)を元に、複数の独立した信号へと復号化するための情報である。拠点1を例に説明する。入力信号(ここでは信号1、信号2、それぞれモノラル信号の場合)の間で、実施の形態1で示したように、フレーム毎にパワー比(ILD)および相互相関値(ICC)を算出する。
算出されたパワー比(ILD)および相互相関値(ICC)は量子化、Huffman符号化などが施されて、係数Aとなる。詳細な手順は、非特許文献3記載のMPEG−Surround符号化におけるOTT回路(2つの入力から上記拡張信号を生成する回路)に詳しい。なお、拡張情報はパワー比(ILD)と相互相関値(ICC)を例にしたが、これに限ったものではない。また、ここでは2つの独立した入力信号から拡張情報を作る例を述べたが、3つの独立した入力信号から拡張情報を求める方法もある。詳しくは、非特許文献3記載のMPEG−Surround符号化におけるTTT回路に詳しい。
次に、信号1と信号2をダウンミックスしてモノラル信号に変換し、その信号と信号3を用いて式2、式3にならってパワー比(ILD)と相互相関値(ICC)を算出し、量子化、Huffman符号化などが施され、係数Bとする。この様子を模式的に図示すると、図12の拠点1における信号ツリー209のようになる。
実施の形態1と異なるのは、前記で算出した係数Aおよび係数Bを、それぞれ次のように符号化列に格納する点である。
拡張情報1102は、“信号1を分離するのに必要な完結した情報”という意味で、先ほどの係数Aと係数Bを合わせたものにする。同様に、拡張情報1103は、“信号2を分離するのに必要な完結した情報”という意味で、係数Aと係数Bを合わせたものにする。拡張情報1104は、係数Bのみである。拠点2でも同様の考え方で、拡張情報1106は係数Cと係数D、拡張情報1107は係数Cと係数D、拡張情報1108は係数Cと係数E、拡張情報1109は係数Cと係数Eである。
このようにして得られたダウンミックス符号化信号と拡張情報が、各拠点毎にまとめられ符号化情報101(1114)、102(1115)としてInternetなどの通信路を経由して送信拠点(拠点1、拠点2)から、ストリーム合成装置100に入力される。
本願発明のストリーム合成装置100では、実施の形態1と同様の処理をする。具体的には、拠点1の符号化情報101と拠点2の符号化情報102からダウンミックス符号化信号と拡張情報を各分離回路103(図4)でそれぞれ分離する。この分離に際しては、ダウンミックス符号化信号と拡張情報を区別する情報がそれぞれの情報の先頭に付記されており、それを頼りに分離回路103で分離する。
分離されたダウンミックス符号化信号は、所定の手順に従って一旦PCM信号に復号化される。なお、このときの処理手順は、ダウンミックス信号がどのような形式で符号化されているかによって変わるが、一例としてはMPEG−AAC方式であれば非特許文献2記載の方法である。このようにして得られたPCM信号をPCM1、PCM2とする。復号化されたこれらのPCM信号は、ダウンミックス整形回路104にて更にダウンミックスされ、所定の符号化形式(たとえばMPEG−AAC形式)に符号化され、ダウンミックス符号化信号207を得る。そのときのダウンミックスの過程の一例は、式4(実施の形態1の図4の説明を参照)に記載している。この過程は、図6のダウンミックス回路503に相当する。
次にPCM1とPCM2を元に、拡張情報算出回路105で式2および式3(実施の形態1の図5の説明を参照)に従って拡張情報が算出される。この出力をダウンミックス分離情報208と呼ぶ。詳細な手順はたとえばMPEG−SurroundのOTT回路に詳しい。
ここで、PCM1とPCM2の間でダウンミックス分離情報208を算出するのは、以下の理由からである。全く異なる特性を持つ可能性のある拠点1と拠点2のダウンミックス符号化信号をさらにダウンミックスすると、元々持っていた音響特性が失われてしまい、失われた状態の信号であとあと拡張しても失われた音響特性は戻らない。それゆえ、情報量をできるだけ増やさずに音響特性を保持するために上記のようにダウンミックス符号化信号の拡張情報を付加した符号化情報を構成する。
こうして得られたダウンミックス符号化信号207とダウンミックス分離情報208、さらには符号化情報101、102に含まれる拡張情報202、203、205、206が多重化回路106で多重化され、符号化情報107として拠点3に送信する。
次に、ダウンミックス符号化信号と拡張情報を受信した復号化装置Aに関して述べる。復号化装置Aでは、まずダウンミックス信号と拡張信号を分離し、次にダウンミックス符号化信号を所定の復号化回路で復号化を施す。MPEG−AAC方式であれば、非特許文献2記載の手順に従う。その結果得られた復号化PCM信号と前記の分離された拡張情報を元に、独立した複数の音響信号を復号化する。その復号回路の一例を図7と図8に示す。
拠点3の場合を例にすると、PCM信号として得られたダウンミックス信号601と拡張信号602を入力として、内部に分離回路603、604が多段に接続されている。分離回路の実施の例としては、非特許文献3に開示されているMPEG−SurroundのOTT回路、TTT回路が挙げられるが、簡単な分離回路の一例を図8に示す。
入力信号701と、式2、式3(実施の形態1の図8の説明を参照)記載のパワー比(ILD、図8では分離情報(パワー比)703)と相互相関値(ICC、図8では分離情報(相関値)702)とを元に、まず入力信号701を無相関化回路704にて無相関化を実施する。その実施の一形態は、非特許文献3記載のDecorrelator回路がある。なお、無相関化回路704に関してはこの限りではなく、たとえば非特許文献6には、Levinson−Durbinアルゴリズムによって信号を無相関化する手法が開示されている。
上記無相関化回路704を経てゲイン調整回路705、706によってゲインを調整されて、分離された信号707および708が得られる。ゲイン調整回路705、706では、パワー比(ILD)703を元に前述の式6、式7(実施の形態1の図8の説明を参照)を用いた演算が行われる。
ここで、式6、式7におけるDec演算子は、信号の無相関化処理を示し、Sig1およびSig2は分離された信号707、708を示す。上記一連の処理によって、ダウンミックス拡張符号化信号(ダウンミックス分離情報)から、所望の独立した複数のモノラルあるいはステレオ信号を復号化することができる。
拡張情報の算出過程や、PCM信号となったダウンミックス信号と拡張情報から、元の独立した信号を復号化する手順は、たとえば、非特許文献3記載のMPEG−Surround方式の符号化装置、復号化装置を用いても良いし、MPEG−Surround方式に限った物ではなく、MP3サラウンド方式でもよいし、あるいはLPCM方式のように非圧縮の符号化方式でも同様に構成できることは言うまでもない。
以上のように実現されたストリーム合成装置(MCU)は一実施の形態であって、これに限るものではない。また入力の拠点数は2としているが、これに限ったものではなく、3以上でも同様に構成される。
図12で示すように、拠点1の符号化情報101は、DMX信号1101と、DMX信号を元に信号1を分離するための拡張情報1102、信号2を分離するための拡張情報1103、信号3を分離するための拡張情報1104から構成されている。拡張情報1102と拡張情報1103は、何れも、分離係数AおよびBを符号化しているものである。拡張情報1104は、DMX信号1101から信号3を分離するために必要な分離情報Bを保持する。同様に拠点2の符号化情報102は、DMX信号1105と、DMX信号1105を元に信号4を分離するための拡張情報1106、信号5を分離するための拡張情報1107、信号6を分離するための拡張情報1108、信号7を分離するための拡張情報1109から構成されている。拡張情報1106と拡張情報1107は、分離情報CおよびDを符号化しているものである。拡張情報1108と拡張情報1109は、DMX信号1105から信号6および信号7を分離するために必要な分離情報CおよびEを保持する。
このように構成された符号化情報は、本実施の形態のストリーム合成装置100において、符号化情報1116(図12)へと合成されて拠点3へと送信される。この際、DMX信号1101とDMX信号1105の合成した新しいDMX信号1110を計算する。その算出課程は本願実施の形態1に詳しい。さらにDMX信号1101とDMX信号1105は音響的に異なる特性を持つ確率が非常に高いため、単純に合成しダウンミックスするのではなく、合成信号(DMX信号1110)からDMX信号1101および1105を分離するためのDMX拡張信号(ダウンミックス分離情報)1111を算出して符号化情報1116に付加することは言うまでもない。符号化情報1114および1115をこのように構成して、ストリーム合成装置100で拡張情報1102を拡張情報1112、拡張情報1108を拡張情報1113として合成した符号化情報1116を拠点3に送信する。符号化情報1116を受け取った拠点3では信号1および信号6のみを復号化することが可能になる。つまり、DMX拡張情報(ダウンミックス分離情報)1111によって、DMX信号1110がDMX1’信号とDMX2’に分離できる。その分離した信号をそれぞれ、拡張情報1112(=1102)に含まれている分離係数Bで分離すると、信号3と信号1+信号2が合成された信号が分離でき、さらに拡張情報1112(=1102)に含まれている分離係数Aで前記信号1+信号2の合成信号を分離すると、信号1が算出できる。同様にDMX2’を拡張情報1113(=1108)に含まれている分離係数Cで分離すると、信号4+信号5の合成信号と、信号6+信号7の合成信号に分離することが出来る。前記の信号6+信号7の合成信号を、拡張情報1113(=1108)に含まれている分離係数Eによって分離すると、信号6が算出できる。
以上は一例であるので、別の組み合わせの入力信号を送受信することも可能である。拡張情報1104と拡張情報1107の組み合わせをストリーム合成装置で合成して符号化情報1116として構成すれば、入力信号3と入力信号5が送信可能である。
図12の符号化情報1114および1115の構成によって、各拠点の送信チャンネル(入力チャンネル)の一部を取捨選択することが可能なストリーム合成装置が構成できる。この構成によって、各拠点毎、各入力信号毎にさまざまな組み合わせの符号化情報1116を、ストリーム合成装置にて自由に生成することができる。しかも、符号化情報1114および符号化情報1115全体を送る必要はなく、その一部を送ることにより、情報伝送量(ビットレート)の増加が抑えられる。図12に示した場合(送信拠点数が2で信号数が7である場合)には、単純に計算すると22通りの符号化情報が必要であり、それらをすべて送信しなければならない。その結果として、ビットレートの増大も生じる。単純に22通りの符号化情報を送るとたとえばMPEG−AAC方式であれば1chあたり64kbpsなので22チャンネル分で約1.4Mbpsにもなる。それが本願発明によれば、7つの拡張情報をストリーム合成装置で取捨選択をするだけでよいため、送信信号数が最大7つでも伝送レートは拡張情報7つ分で済む。一つ一つの拡張情報は高々数kbps程度であるので7つ送っても30kbs程度に収まる。図12で示すように2つ分の信号であれば、DMX符号化部分が64kbps程度であるとするならば、符号化情報1116全体でも100kbpsにも満たない情報で送信が可能になる。本発明によって、低ビットレートでかつ柔軟な拠点構成、送信信号構成が可能になることは産業利用上、非常に有益なものである。
こうして、以下のストリーム合成装置(A1)〜ストリーム合成装置(A11)と、復号装置(B)とがそれぞれ構成される。
すなわち、複数のマイクロフォンにより収録された2つ以上の音信号(音声信号)がダウンミックスされた音響信号(ダウンミックスPCM信号)が符号化された第1のダウンミックス音響信号(図5のDMX信号201、DMX信号204)と、当該第1のダウンミックス音響信号から前記2つ以上の音信号(拠点1の各音声信号、拠点2の各音声信号)を取得するための拡張信号(拡張情報202及び拡張情報203、拡張情報205及び拡張情報206)とが含まれる符号化信号(符号化情報101、符号化情報102)を2つ以上入力する入力部(入力部I1)と、前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)が取得される第2のダウンミックス音響信号(DMX信号207)と、当該第2のダウンミックス音響信号(DMX信号207)から前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)を取得するための拡張信号(ダウンミックス分離情報208)とを生成し、生成された当該第2のダウンミックス音響信号(DMX信号207)と、生成された当該拡張信号(ダウンミックス分離情報208)と、入力された前記各符号化信号の各拡張信号(拠点1の拡張情報202及び拡張情報203、拠点2の拡張情報205及び拡張情報206)とが含まれる符号化信号(符号化情報107)を生成する符号化信号生成部(出力符号化情報生成部I3)と、生成された当該符号化信号を出力する出力部(出力部I2)とを備えるストリーム合成装置が構成される(A1)。
こうしたストリーム合成装置(A1)が構成されることで、ストリーム合成装置において、入力された各符号化信号から一々音信号が復号されたり、復号された音信号を再び、出力される符号化信号へと符号化したりする、大きな処理量の処理なく、簡単な処理により、入力される各符号化信号の各音信号の通信を実現できる。
また、前記符号化信号生成部(出力符号化情報生成部I3)は、前記入力部によって入力された各符号化信号の音信号の個数の合計数(図9の信号数909)を算出し、生成される前記符号化信号(符号化情報107)は、算出された当該合計数が含まれる(A1)のストリーム合成装置が構成される(A2)。
また、前記入力部が入力する符号化信号の拡張信号(例えば、図5の拡張1(拡張情報202)〜拡張2(拡張情報203)よりなる全体)は、複数の部分拡張信号(拡張1、拡張1)を含み、当該複数の部分拡張信号のうちで、音信号(例えば、図5における拠点1の信号3)に対応する一部の部分拡張信号(拡張1)により当該音信号(信号3)が当該符号化信号(符号化情報101)から取得され、前記符号化信号生成部(出力符号化情報生成部I3)は、各音信号に対応付けて、それぞれ、当該音信号(例えば拠点1の信号3)に対応する前記一部の部分拡張信号(拡張1)が格納された符号化信号を生成する(A1)のストリーム合成装置が構成される(A3)。
また、前記符号化信号生成部は、各拠点の各音声信号のうちで、予め定められた音信号を取得するための部分拡張信号のみを含む符号化信号を生成する(A3)のストリーム合成装置が構成される(A4)。
また、前記符号化信号生成部は、前記入力部が入力する各拠点の符号化信号のうちで、予め定められた一部の拠点の符号化信号の拡張信号のみが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A5)。
また、前記符号化信号生成部は、前記入力部によって符号化信号が入力される入力元の予め定められた優先順位が、予め定められた基準順位よりも高い符号化信号の拡張信号のみが含まれる符号化信号を生成する(A5)のストリーム合成装置が構成される(A6)。
また、前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号により、当該音信号が当該符号化信号から取得され、前記符号化信号生成部は、音信号の予め定められた優先順位が予め定められた基準順位よりも高い音信号に対応する前記一部の部分拡張信号のみが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A7)。
また、前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号によって、当該音信号が当該符号化信号から復号され、前記符号化信号生成部は、当該符号化信号生成部が生成する前記拡張信号と、生成される当該符号化信号の各部分拡張信号とにより構成されるツリー構造を特定するツリー情報(図10のツリー情報901)を含む符号化信号を生成する(A1)のストリーム合成装置が構成される(A8)。
また、前記符号化信号生成部は、当該符号化信号生成部が生成した拡張信号と、前記入力部が入力した各符号化信号の各拡張信号とのうちで、当該拡張信号が、前記符号化信号生成部が生成した拡張信号であることを示す判別情報(図10の判別情報907)が含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A9)。
また、前記入力部が入力する各符号化信号は、それぞれ、当該符号化信号が入力される入力元を示す入力元情報(図10の拠点情報908)を含み、前記符号化信号生成部は、入力された前記各符号化信号のうちで、含まれる入力元情報が予め定められた入力元を示す各符号化信号を特定し、特定された各符号化信号の各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、その取得のための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された前記拡張信号と、特定された前記各符号化信号の前記各拡張信号とが含まれる符号化信号を生成する(A1)のストリーム合成装置が構成される(A10)。
また、前記符号化信号生成部(出力符号化情報生成部I3)は、前記入力部が入力した前記各符号化信号から、それぞれ、当該符号化信号に含まれる前記第1のダウンミックス音響信号を分離する分離部(図4の複数の分離回路103)と、前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号を生成するダウンミックス音響信号生成部(ダウンミックス整形回路104)と、前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号を生成する拡張信号生成部(拡張情報算出回路105)と、前記ダウンミックス音響信号生成部が生成した前記第2のダウンミックス音響信号と、前記拡張信号生成部が生成した前記拡張信号と、前記入力部が入力した前記各符号化信号の各拡張信号とを合成して、符号化信号を生成する合成部(多重化回路106)とを備える(A1)のストリーム合成装置が構成される(A11)。
また、2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号(図5の符号化情報107)を入力する入力部(図略)を備え、入力される前記符号化信号の前記ダウンミックス音響信号(DMX信号207)は、予め定められた2つ以上の符号化信号(符号化情報101、符号化情報102)の各ダウンミックス音響信号(DMX信号201、DMX信号204)が取得される第2のダウンミックス音響信号であり、入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号(DMX信号207)から前記各第1のダウンミックス音響信号(DMX信号201、DMX信号204)を取得するための拡張信号(ダウンミックス分離情報208)含む拡張信号であり、少なくとも前記拡張信号(ダウンミックス分離情報208)に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号(図8の入力信号701)を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号(図8の無相関化回路704が生成する2つの中間信号)を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号部(分離回路709)を備える復号装置(復号化装置A)が構成される(B)。
(その他変形例)
なお、本発明を上記実施の形態に基づいて説明してきたが、本発明は、上記の実施の形態に限定されないのはもちろんである。以下のような場合も本発明に含まれる。
(1)上記の各装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の各装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の各装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)本発明は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータ読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu−ray Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本発明は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本発明は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
(5)上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。
本発明は、通信経路を介して複数の拠点が接続されており、各拠点がマルチチャンネル符号化されている多拠点会議システムに有用である。
上記のようなストリーム合成装置を設けることで、多拠点接続時の臨場感を向上させつつ、多拠点接続装置での演算負荷を減らすことが可能になる。
図1は、通信経路の接続の種類を示す図である。 図2は、通信経路の接続の種類を示す図である。 図3は、マルチチャンネル多拠点通信の課題を示す図である。 図4は、本発明の実施の形態1におけるストリーム合成装置を示す図である。 図5は、本発明の実施の形態1における多拠点接続の例を示す図である。 図6は、本発明の実施の形態1におけるダウンミックス整形回路を示す図である。 図7は、本発明の実施の形態1における復号化装置を示す図である。 図8は、本発明の実施の形態1における分離回路を示す図である。 図9は、本発明の実施の形態2における多拠点接続を例を示す図である。 図10は、本発明の実施の形態2における符号化列の例を示す図である。 図11は、本発明の実施の形態3におけるダウンミックス整形回路を示す図である。 図12は、本発明の実施の形態4における多拠点接続の例を示す図である。 図13は、本発明の実施の形態4における符号化列の例を示す図である。 図14は、本発明の実施の形態1における多拠点接続の例を示す図である。 図15は、本発明の実施の形態1における多拠点接続の別の構成を示す図である。 図16は、ストリーム合成装置における受信拠点数検出のフローチャートである。 図17は、ストリーム合成装置におけるダウンミックス分離係数算出のフローチャートである。 図18は、ダウンミックス分離係数算出のフローチャートの別構成である。 図19は、本発明の実施の形態1における符号化列の例を示す図である。 図20は、符号化列に保持する分離ツリー情報の例を示す図である。 図21は、ストリーム合成装置における優先度算出手順を示すフローチャートである。 図22は、ストリーム合成装置が複数の拠点にそれぞれ符号化情報を送信する処理を説明するための概念図である。
100 ストリーム合成装置
101、102、107 符号化情報
103 分離回路
104 ダウンミックス整形回路
105 拡張情報算出回路
106 多重化回路
201、204 ダウンミックス符号化信号
202、203、205、206 拡張情報
207 ダウンミックス符号化信号
208 ダウンミックス分離情報
401、402、407 符号化情報
501、502 復号化回路
503 ダウンミックス回路
504 符号化回路
601 ダウンミックス符号化信号
602 拡張情報
603、604 分離回路
701 入力信号
702 分離情報(相関値)
703 分離情報(パワー比)
704 無相関化回路
705、706 ゲイン調整回路
707 分離された第一の信号
708 分離された第二の信号
801 拠点1のダウンミックス符号化信号
802、803 拠点1の拡張情報
804 拠点2のダウンミックス符号化信号
805、806、807 拠点2の拡張情報
808 拠点3のダウンミックス符号化信号
809 拠点3のダウンミックス分離情報
901 Tree情報
902 拠点3のダウンミックス符号化信号
903 拠点3のダウンミックス分離情報
904、905、906 拡張情報
907 判別情報
908 拠点情報
909 信号数
910 Treeの深さ情報
911 信号1のTree係数
912 信号2のTree係数
913 信号3のTree係数
914 終端情報
1001 逆量子化部
1101 ダウンミックス信号
1102、1103、1104 拡張情報
1105 ダウンミックス信号
1106、1107、1108、1109 拡張情報
1110 ダウンミックス信号
1111 ダウンミックス分離情報
1112、1113 拡張情報
1114、1115、1116 符号化情報
1301 入力信号数
1401 優先度情報
1402 拠点1の入力信号1の拡張信号(優先度最大)
1403 拠点2の入力信号6の拡張信号(優先度2番目)

Claims (17)

  1. 2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力部と、
    前記入力部によって入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成部と、
    生成された当該符号化信号を出力する出力部とを備えるストリーム合成装置。
  2. 前記符号化信号生成部は、前記入力部によって入力された各符号化信号の音信号の個数の合計数を算出し、生成される前記符号化信号は、算出された当該合計数が含まれる請求項1記載のストリーム合成装置。
  3. 前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号を含み、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号により当該音信号が当該符号化信号から取得され、
    前記符号化信号生成部は、各音信号に対応付けて、それぞれ、当該音信号に対応する前記一部の部分拡張信号が格納された符号化信号を生成する請求項1記載のストリーム合成装置。
  4. 前記符号化信号生成部は、予め定められた音信号を取得するための部分拡張信号のみを含む符号化信号を生成する請求項3記載のストリーム合成装置。
  5. 前記符号化信号生成部は、前記入力部が入力する前記各符号化信号のうちで、予め定められた一部の符号化信号の拡張信号のみが含まれる符号化信号を生成する請求項1記載のストリーム合成装置。
  6. 前記符号化信号生成部は、前記入力部によって符号化信号が入力される入力元の予め定められた優先順位が、予め定められた基準順位よりも高い符号化信号の拡張信号のみが含まれる符号化信号を生成する請求項5記載のストリーム合成装置。
  7. 前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号により、当該音信号が当該符号化信号から取得され、
    前記符号化信号生成部は、音信号の予め定められた優先順位が予め定められた基準順位よりも高い音信号に対応する前記一部の部分拡張信号のみが含まれる符号化信号を生成する請求項1記載のストリーム合成装置。
  8. 前記入力部が入力する符号化信号の拡張信号は、複数の部分拡張信号が含まれ、当該複数の部分拡張信号のうちで、音信号に対応する一部の部分拡張信号によって、当該音信号が当該符号化信号から復号され、
    前記符号化信号生成部は、当該符号化信号生成部が生成する前記拡張信号と、生成される当該符号化信号の各部分拡張信号とにより構成されるツリー構造を特定するツリー情報を含む符号化信号を生成する請求項1記載のストリーム合成装置。
  9. 前記符号化信号生成部は、当該符号化信号生成部が生成した拡張信号と、前記入力部が入力した各符号化信号の各拡張信号とのうちで、当該拡張信号が、前記符号化信号生成部が生成した拡張信号であることを示す判別情報が含まれる符号化信号を生成する請求項1記載のストリーム合成装置。
  10. 前記入力部が入力する各符号化信号は、それぞれ、当該符号化信号が入力される入力元を示す入力元情報を含み、
    前記符号化信号生成部は、入力された前記各符号化信号のうちで、含まれる入力元情報が予め定められた入力元を示す各符号化信号を特定し、特定された各符号化信号の各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、その取得のための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された前記拡張信号と、特定された前記各符号化信号の前記各拡張信号とが含まれる符号化信号を生成する請求項1記載のストリーム合成装置。
  11. 前記入力部は、予め定められた複数の入出力先から、それぞれ、符号化信号を入力し、
    前記出力部は、当該複数の入出力先にそれぞれ符号化信号を出力し、
    前記符号化信号生成部は、1個の前記第2のダウンミックス音響信号と、前記複数の入出力先の個数と同じ個数の拡張信号とを生成し、生成される1個の前記第2のダウンミックス音響信号は、前記複数の入出力先から入力された前記各符号化信号の各第2のダウンミックス音響信号を取得するためのダウンミックス音響信号であり、生成される前記各拡張信号は、互いに異なる前記入出力先にそれぞれ対応し、対応する前記入出力先以外の他の入出力先の拡張信号のみが含まれ、
    前記出力部は、前記符号化信号生成部が生成した前記各符号化信号を、それぞれ、当該符号化信号に含まれる、前記符号化信号生成部が生成した前記拡張情報が対応する前記入出力先に出力する請求項1記載のストリーム合成装置。
  12. 前記符号化信号生成部は、
    前記入力部が入力した前記各符号化信号から、それぞれ、当該符号化信号に含まれる前記第1のダウンミックス音響信号を分離する分離部と、
    前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号を生成するダウンミックス音響信号生成部と、
    前記分離部が分離した各第1のダウンミックス音響信号に基いて、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号を生成する拡張信号生成部と、
    前記ダウンミックス音響信号生成部が生成した前記第2のダウンミックス音響信号と、前記拡張信号生成部が生成した前記拡張信号と、前記入力部が入力した前記各符号化信号の各拡張信号とを合成して、符号化信号を生成する合成部とを備える請求項1記載のストリーム合成装置。
  13. 2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を入力する入力部を備え、
    入力される前記符号化信号の前記ダウンミックス音響信号は、予め定められた2つ以上の符号化信号の各ダウンミックス音響信号が取得される第2のダウンミックス音響信号であり、
    入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号であり、
    少なくとも前記拡張信号に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号部を備える復号装置。
  14. 2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力工程と、
    前記入力工程で入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成工程と、
    生成された当該符号化信号を出力する出力工程とを備えるストリーム合成方法。
  15. 2つ以上の音信号がダウンミックスされた音響信号が符号化された第1のダウンミックス音響信号と、当該第1のダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を2つ以上入力する入力工程と、
    前記入力工程で入力された各符号化信号に基いて、前記各第1のダウンミックス音響信号が取得される第2のダウンミックス音響信号と、当該第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号とを生成し、生成された当該第2のダウンミックス音響信号と、生成された当該拡張信号と、入力された前記各符号化信号の各拡張信号とが含まれる符号化信号を生成する符号化信号生成工程と、
    生成された当該符号化信号を出力する出力工程とをコンピュータに実行させるためのコンピュータプログラム。
  16. 2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を入力する入力工程を備え、
    入力される前記符号化信号の前記ダウンミックス音響信号は、予め定められた2つ以上の符号化信号の各ダウンミックス音響信号が取得される第2のダウンミックス音響信号であり、
    入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号であり、
    少なくとも前記拡張信号に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号工程を備える復号方法。
  17. 2つ以上の音信号がダウンミックスされた音響信号が符号化されたダウンミックス音響信号と、当該ダウンミックス音響信号から前記2つ以上の音信号を取得するための拡張信号とが含まれる符号化信号を入力する入力工程をコンピュータに実行させ、
    入力される前記符号化信号の前記ダウンミックス音響信号は、予め定められた2つ以上の符号化信号の各ダウンミックス音響信号が取得される第2のダウンミックス音響信号であり、
    入力される前記符号化信号の前記拡張信号は、前記第2のダウンミックス音響信号から前記各第1のダウンミックス音響信号を取得するための拡張信号であり、
    少なくとも前記拡張信号に含まれる相互相関値(ICC)と周波数パワー比(ILD)とに基いて、前記第2のダウンミックス音響信号から取得される復号信号を前記相互相関値(ICC)によって無相関化した2つ以上の中間信号を生成し、生成された当該2つ以上の中間信号に前記周波数パワー比(ILD)を乗算する復号工程を前記コンピュータに実行させるためのコンピュータプログラム。
JP2009512090A 2007-10-16 2008-10-16 ストリーム合成装置、復号装置、方法 Pending JPWO2009050896A1 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
JP2007269127 2007-10-16
JP2007269127 2007-10-16
JP2008184666 2008-07-16
JP2008184666 2008-07-16
PCT/JP2008/002941 WO2009050896A1 (ja) 2007-10-16 2008-10-16 ストリーム合成装置、復号装置、方法

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2013029589A Division JP2013137563A (ja) 2007-10-16 2013-02-19 ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム

Publications (1)

Publication Number Publication Date
JPWO2009050896A1 true JPWO2009050896A1 (ja) 2011-02-24

Family

ID=40567182

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2009512090A Pending JPWO2009050896A1 (ja) 2007-10-16 2008-10-16 ストリーム合成装置、復号装置、方法
JP2013029589A Pending JP2013137563A (ja) 2007-10-16 2013-02-19 ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2013029589A Pending JP2013137563A (ja) 2007-10-16 2013-02-19 ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム

Country Status (7)

Country Link
US (1) US8391513B2 (ja)
EP (1) EP2128856A4 (ja)
JP (2) JPWO2009050896A1 (ja)
CN (1) CN101578655B (ja)
BR (1) BRPI0806228A8 (ja)
RU (1) RU2473139C2 (ja)
WO (1) WO2009050896A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113423006A (zh) * 2021-05-31 2021-09-21 惠州华阳通用电子有限公司 一种基于主副声道的多音频流混音播放方法及系统

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2154910A1 (en) * 2008-08-13 2010-02-17 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus for merging spatial audio streams
KR101613975B1 (ko) * 2009-08-18 2016-05-02 삼성전자주식회사 멀티 채널 오디오 신호의 부호화 방법 및 장치, 그 복호화 방법 및 장치
CN102065265B (zh) * 2009-11-13 2012-10-17 华为终端有限公司 实现混音的方法、装置和系统
EP2702588B1 (en) 2012-04-05 2015-11-18 Huawei Technologies Co., Ltd. Method for parametric spatial audio coding and decoding, parametric spatial audio coder and parametric spatial audio decoder
US9460729B2 (en) 2012-09-21 2016-10-04 Dolby Laboratories Licensing Corporation Layered approach to spatial audio coding
US9491299B2 (en) 2012-11-27 2016-11-08 Dolby Laboratories Licensing Corporation Teleconferencing using monophonic audio mixed with positional metadata
US10149072B2 (en) * 2016-09-28 2018-12-04 Cochlear Limited Binaural cue preservation in a bilateral system
JP7092047B2 (ja) * 2019-01-17 2022-06-28 日本電信電話株式会社 符号化復号方法、復号方法、これらの装置及びプログラム
CN113160837B (zh) * 2021-04-16 2022-12-23 北京百瑞互联技术有限公司 一种sbc码流的混音方法、装置、介质及设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009543142A (ja) * 2006-07-07 2009-12-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2137926C (en) 1993-05-05 2005-06-28 Rudolf Hofmann Transmission system comprising at least a coder
US7292901B2 (en) * 2002-06-24 2007-11-06 Agere Systems Inc. Hybrid multi-channel/cue coding/decoding of audio signals
US7583805B2 (en) 2004-02-12 2009-09-01 Agere Systems Inc. Late reverberation-based synthesis of auditory scenes
US7644003B2 (en) 2001-05-04 2010-01-05 Agere Systems Inc. Cue-based audio coding/decoding
KR101021079B1 (ko) 2002-04-22 2011-03-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 파라메트릭 다채널 오디오 표현
BRPI0305434B1 (pt) 2002-07-12 2017-06-27 Koninklijke Philips Electronics N.V. Methods and arrangements for encoding and decoding a multichannel audio signal, and multichannel audio coded signal
US7447317B2 (en) * 2003-10-02 2008-11-04 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V Compatible multi-channel coding/decoding by weighting the downmix channel
JP4033840B2 (ja) 2004-02-12 2008-01-16 日本電信電話株式会社 音声ミキシング方法、音声ミキシング装置、音声ミキシングプログラム及びこれを記録した記録媒体
US7392195B2 (en) * 2004-03-25 2008-06-24 Dts, Inc. Lossless multi-channel audio codec
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602005022235D1 (de) * 2004-05-19 2010-08-19 Panasonic Corp Audiosignalkodierer und Audiosignaldekodierer
WO2006004048A1 (ja) * 2004-07-06 2006-01-12 Matsushita Electric Industrial Co., Ltd. オーディオ信号符号化装置、オーディオ信号復号化装置、方法、及びプログラム
JP2006067367A (ja) 2004-08-27 2006-03-09 Matsushita Electric Ind Co Ltd 符号化オーディオ信号の編集装置
KR101236259B1 (ko) * 2004-11-30 2013-02-22 에이저 시스템즈 엘엘시 오디오 채널들을 인코딩하는 방법 및 장치
KR100682904B1 (ko) * 2004-12-01 2007-02-15 삼성전자주식회사 공간 정보를 이용한 다채널 오디오 신호 처리 장치 및 방법
EP1691348A1 (en) * 2005-02-14 2006-08-16 Ecole Polytechnique Federale De Lausanne Parametric joint-coding of audio sources
US7961890B2 (en) * 2005-04-15 2011-06-14 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung, E.V. Multi-channel hierarchical audio coding with compact side information
US7751572B2 (en) 2005-04-15 2010-07-06 Dolby International Ab Adaptive residual audio coding
JP2006323314A (ja) 2005-05-20 2006-11-30 Matsushita Electric Ind Co Ltd マルチチャネル音声信号をバイノーラルキュー符号化する装置
EP1920636B1 (en) * 2005-08-30 2009-12-30 LG Electronics Inc. Apparatus and method for decoding an audio signal
US7761289B2 (en) * 2005-10-24 2010-07-20 Lg Electronics Inc. Removing time delays in signal paths
KR100888474B1 (ko) 2005-11-21 2009-03-12 삼성전자주식회사 멀티채널 오디오 신호의 부호화/복호화 장치 및 방법
CN101390443B (zh) * 2006-02-21 2010-12-01 皇家飞利浦电子股份有限公司 音频编码和解码
KR20080071971A (ko) * 2006-03-30 2008-08-05 엘지전자 주식회사 미디어 신호 처리 방법 및 장치
US8379868B2 (en) * 2006-05-17 2013-02-19 Creative Technology Ltd Spatial audio coding based on universal spatial cues
CN100512422C (zh) * 2006-11-23 2009-07-08 北京航空航天大学 多mcu视频会议系统中的混音方法
EP2146522A1 (en) * 2008-07-17 2010-01-20 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for generating audio output signals using object based metadata

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009543142A (ja) * 2006-07-07 2009-12-03 フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ 複数のパラメータ的に符号化された音源を合成するための概念

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113423006A (zh) * 2021-05-31 2021-09-21 惠州华阳通用电子有限公司 一种基于主副声道的多音频流混音播放方法及系统
CN113423006B (zh) * 2021-05-31 2022-07-15 惠州华阳通用电子有限公司 一种基于主副声道的多音频流混音播放方法及系统

Also Published As

Publication number Publication date
EP2128856A1 (en) 2009-12-02
BRPI0806228A8 (pt) 2016-11-29
CN101578655A (zh) 2009-11-11
BRPI0806228A2 (pt) 2011-09-06
RU2473139C2 (ru) 2013-01-20
RU2009122690A (ru) 2010-12-20
US20100063828A1 (en) 2010-03-11
EP2128856A4 (en) 2011-11-02
CN101578655B (zh) 2013-06-05
WO2009050896A1 (ja) 2009-04-23
JP2013137563A (ja) 2013-07-11
US8391513B2 (en) 2013-03-05

Similar Documents

Publication Publication Date Title
JP2013137563A (ja) ストリーム合成装置、復号装置、ストリーム合成方法、復号方法、およびコンピュータプログラム
JP4601669B2 (ja) マルチチャネル信号またはパラメータデータセットを生成する装置および方法
JP5081838B2 (ja) オーディオ符号化及び復号
KR101056325B1 (ko) 복수의 파라미터적으로 코딩된 오디오 소스들을 결합하는 장치 및 방법
JP5934922B2 (ja) 復号装置
JP5260665B2 (ja) ダウンミックスを用いたオーディオコーディング
KR101388901B1 (ko) 오디오 신호 디코더, 오디오 신호를 디코딩하는 방법 및 캐스케이드된 오디오 객체 처리 단계들을 이용한 컴퓨터 프로그램
RU2576476C2 (ru) Декодер аудиосигнала, кодер аудиосигнала, способ формирования представления сигнала повышающего микширования, способ формирования представления сигнала понижающего микширования, компьютерная программа и бистрим, использующий значение общего параметра межобъектной корреляции
JP5243527B2 (ja) 音響符号化装置、音響復号化装置、音響符号化復号化装置および会議システム
JP4918490B2 (ja) エネルギー整形装置及びエネルギー整形方法
JP4963965B2 (ja) スケーラブル符号化装置、スケーラブル復号装置、及びこれらの方法
JP2014089467A (ja) マルチチャンネルオーディオ信号のエンコーディング/デコーディングシステム、記録媒体及び方法
CN104364842A (zh) 立体声音频信号编码器
JP4887279B2 (ja) スケーラブル符号化装置およびスケーラブル符号化方法
US8930197B2 (en) Apparatus and method for encoding and reproduction of speech and audio signals
JP2022543083A (ja) Ivasビットストリームの符号化および復号化
WO2019105575A1 (en) Determination of spatial audio parameter encoding and associated decoding
KR20060109297A (ko) 오디오 신호의 인코딩/디코딩 방법 및 장치
GB2580899A (en) Audio representation and associated rendering
US8838460B2 (en) Apparatus for playing and producing realistic object audio
JP2024512953A (ja) 空間音声ストリームの結合

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110707

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121101

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20121127