JPWO2005119950A1

JPWO2005119950A1 - 音声データ受信装置および音声データ受信方法

Info

Publication number: JPWO2005119950A1
Application number: JP2006514064A
Authority: JP
Inventors: 吉田　幸司; 幸司吉田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2004-06-02
Filing date: 2005-05-20
Publication date: 2008-04-03
Anticipated expiration: 2025-05-20
Also published as: EP1746751A1; CN1961511A; EP1746751A4; CN1961511B; EP1746751B1; US8209168B2; WO2005119950A1; ATE444613T1; DE602005016916D1; US20080065372A1; JP4456601B2

Abstract

音声通信において高品質なフレーム補償を実現する音声データ送信／受信装置を開示する。音声データ送信装置（１０）において、遅延部（１０４）は、Ｌ−ｃｈ符号化データをＲ−ｃｈ符号化データより所定の遅延量だけ遅延させる遅延処理をマルチチャネルの音声データに施す。多重化部（１０６）は、当該遅延処理が施された音声データを多重化する。送信部（１０８）は、多重化された音声データを送信する。音声データ受信装置（２０）において、分離部（１１４）は、音声データ送信装置（１０）から受信した音声データをチャネルごとに分離する。復号部（１１８）は、分離された音声データをチャネルごとに復号する。フレーム補償部（１２０）は、分離された音声データに損失または誤りが発生している場合、Ｌ−ｃｈ符号化データおよびＲ−ｃｈ符号化データの一方の符号化データを用いて他方の符号化データにおける損失または誤りを補償する。

Description

本発明は、音声データ送信／受信装置および音声データ送信／受信方法に関し、特に、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システムに用いられる音声データ送信／受信装置および音声データ送信／受信方法に関する。

ＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）網や無線通信網での音声通信においては、ＩＰパケットの損失や無線伝送誤りなどにより、受信側で音声データを受信できなかったり誤りのある音声データを受信したりすることがある。このため、一般に音声通信システムにおいては、誤った音声データまたは損失した音声データを補償するための処理が行われる。

一般的な音声通信システムの送信側すなわち音声データ送信装置では、入力原信号たる音声信号は、音声データとして符号化され、多重化（パケット化）され、宛先装置に対して送信される。通常、多重化は、１音声フレームを１つの伝送単位として行われる。多重化に関して、例えば非特許文献１では、３ＧＰＰ（３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ）規格の音声コーデック方式であるＡＭＲ（ＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ）およびＡＭＲ−ＷＢ（ＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅｂａｎｄ）に対してＩＰパケット網での音声データのフォーマットを規定している。

また、受信側すなわち音声データ受信装置では、受信した音声データに損失または誤りがある場合、例えば過去に受信した音声フレー厶内の音声データ（符号化データ）またはそれを元に復号した復号音声信号を用いて、損失した音声フレーム内または誤りのある音声フレーム内の音声信号を補償処理により復元する。音声フレームの補償処理に関して、例えば非特許文献２では、ＡＭＲのフレーム補償方法を開示している。

上述の音声通信システムにおける音声処理動作について、図１を用いて概説する。図１におけるシーケンス番号（…、ｎ−２、ｎ−１、ｎ、ｎ＋１、ｎ＋２、…）は各音声フレームに付与されたフレーム番号である。受信側では、このフレーム番号順に従って音声信号を復号し復号音声を音波として出力することとなる。また、同図に示すように、符号化、多重化、送信、分離および復号は、音声フレームごとに行われる。例えば第ｎフレームが損失した場合、過去に受信した音声フレーム（例えば第ｎ−１フレームや第ｎ−２フレーム）が参照され第ｎフレームに対するフレーム補償処理が行われる。

ところで、近年のネットワークのブロードバンド化や通信のマルチメディア化に伴い、音声通信において音声の高品質化の流れがある。その一環として、音声信号をモノラル信号としてではなくステレオ信号として符号化および伝送することが求められている。このような要求に対して、非特許文献１には、音声データがマルチチャネルデータ（例えばステレオ音声データ）の場合の多重化に関する規定が記載されている。同文献によれば、音声データが例えば２チャネルのデータの場合、互いに同一の時刻に相当する左チャネル（Ｌ−ｃｈ）の音声データおよび右チャネル（Ｒ−ｃｈ）の音声データが多重化される。
″Ｒｅａｌ−ＴｉｍｅＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ（ＲＴＰ）ＰａｙｌｏａｄＦｏｒｍａｔａｎｄＦｉｌｅＳｔｏｒａｇｅＦｏｒｍａｔｆｏｒｔｈｅＡｄａｐｔｉｖｅＭｕｌｔｉ−Ｒａｔｅ（ＡＭＲ）ａｎｄＡｄａｐｔｉｖｅＭｕｌｔｉ−ＲａｔｅＷｉｄｅｂａｎｄ（ＡＭＲ−ＷＢ）ＡｕｄｉｏＣｏｄｅｃｓ″，ＩＥＴＦＲＦＣ３２６７ ″ＭａｎｄａｔｏｒｙＳｐｅｅｃｈＣｏｄｅｃｓｐｅｅｃｈｐｒｏｃｅｓｓｉｎｇｆｕｎｃｔｉｏｎｓ；ＡＭＲＳｐｅｅｃｈＣｏｄｅｃｓ；Ｅｒｒｏｒｃｏｎｃｅａｌｍｅｎｔｏｆｌｏｓｔｆｒａｍｅｓ″，３ｒｄＧｅｎｅｒａｔｉｏｎＰａｒｔｎｅｒｓｈｉｐＰｒｏｊｅｃｔ，ＴＳ２６．０９１

しかしながら、従来の音声データ受信装置および音声データ受信方法においては、損失した音声フレームまたは誤りのある音声フレームの補償を行うとき、その音声フレームよりも前に受信した音声フレームを用いるため、補償性能（すなわち、補償された音声信号の品質）が十分でないことがあり、入力原信号に忠実な補償を行うには一定の限界がある。これは、扱われる音声信号がモノラルであってもステレオであっても同様である。

本発明は、かかる点に鑑みてなされたもので、高品質なフレーム補償を実現することができる音声データ送信／受信装置および音声データ送信／受信方法を提供することを目的とする。

本発明の音声データ送信装置は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信装置において、前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延手段と、前記遅延処理が施された前記音声データ系列を多重化する多重化手段と、多重化された前記音声データ系列を送信する送信手段と、を有する構成を採る。

本発明の音声データ受信装置は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信手段と、受信された前記音声データ系列をチャネルごとに分離する分離手段と、分離された前記音声データ系列をチャネルごとに復号する復号手段と、を有し、前記復号手段は、分離された前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償手段を有する構成を採る。

本発明の音声データ送信方法は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信方法において、前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延ステップと、前記遅延処理が施された前記音声データ系列を多重化する多重化ステップと、多重化された前記音声データ系列を送信する送信ステップと、を有するようにした。

本発明の音声データ受信方法は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信ステップと、受信した前記音声データ系列をチャネルごとに分離する分離ステップと、分離した前記音声データ系列をチャネルごとに復号する復号ステップと、を有し、前記復号ステップは、分離した前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償ステップを有するようにした。

本発明によれば、高品質なフレーム補償を実現できる。

従来の音声通信システムにおける音声処理動作の一例を説明するための図本発明の実施の形態１に係る音声データ送信装置の構成を示すブロック図本発明の実施の形態１に係る音声データ受信装置の構成を示すブロック図本発明の実施の形態１に係る音声データ受信装置における音声復号部の内部構成を示すブロック図本発明の実施の形態１に係る音声データ送信装置および音声データ受信装置における動作を説明するための図本発明の実施の形態２に係る音声データ受信装置における音声復号部の内部構成を示すブロック図本発明の実施の形態３に係る音声データ受信装置における音声復号部の内部構成を示すブロック図本発明の実施の形態３に係る音声データ受信装置における音声復号部の内部構成の変形例を示すブロック図

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

（実施の形態１）
図２Ａおよび図２Ｂは、本発明の実施の形態１に係る音声データ送信装置および音声データ受信装置の構成をそれぞれ示すブロック図である。なお、本実施の形態では、音源側から入力されるマルチチャネルの音声信号は、左チャネル（Ｌ−ｃｈ）および右チャネル（Ｒ−ｃｈ）を含む二つのチャネルを有する、すなわちこの音声信号はステレオ信号である。このため、図２Ａおよび図２Ｂにそれぞれ示す音声データ送信装置１０および音声データ受信装置２０にはそれぞれ、左右チャネル用の二つの処理系が設けられている。ただし、音声信号のチャネル数は二つに限定されない。チャネル数が三つ以上の場合は、三つ以上の処理系を送信側および受信側にそれぞれ設けることにより、本実施の形態と同様の作用効果を実現することができる。

図２Ａに示す音声データ送信装置１０は、音声符号化部１０２、遅延部１０４、多重化部１０６および送信部１０８を有する。

音声符号化部１０２は、入力されるマルチチャネルの音声信号を符号化し、符号化データを出力する。この符号化は、チャネルごとに独立に行われる。以下の説明においては、Ｌ−ｃｈの符号化データを「Ｌ−ｃｈ符号化データ」と称し、Ｒ−ｃｈの符号化データを「Ｒ−ｃｈ符号化データ」と称す。

遅延部１０４は、音声符号化部１０２からのＬ−ｃｈ符号化データを１音声フレーム分遅延させ多重化部１０６に出力する。すなわち、遅延部１０４は、音声符号化部１０２の後段に配置されている。このように、遅延処理が音声符号化処理の後段に配置されているため、符号化された後のデータに対して遅延処理を行うことができ、遅延処理が音声符号化処理の前段に配置された場合に比して処理を簡略化することができる。

なお、遅延部１０４により行われる遅延処理における遅延量は、音声フレームの単位で設定されることが好ましいが、１音声フレームには限定されない。ただし、本実施の形態の音声データ送信装置１０および音声データ受信装置２０を含む音声通信システムは、例えばオーディオデータなどのストリーミングだけでなくリアルタイムの音声通信を主な用途とすることを前提としている。したがって、遅延量を大きい値に設定することで望ましくない影響が通信品質に与えられることを防止するために、本実施の形態では、遅延量を、最小値すなわち１音声フレームに予め設定している。

また、本実施の形態では、遅延部１０４はＬ−ｃｈ符号化データのみを遅延させているが、音声データに対する遅延処理の施し方はこれに限定されない。例えば、遅延部１０４は、Ｌ−ｃｈ符号化データだけでなくＲ−ｃｈ符号化データも遅延させその遅延量の差が音声フレームの単位で設定されているような構成を有しても良い。また、Ｌ−ｃｈを遅延させる代わりに、Ｒ−ｃｈのみを遅延するようにしても良い。

多重化部１０６は、遅延部１０４からのＬ−ｃｈ符号化データおよび音声符号化部１０２からのＲ−ｃｈ符号化データを所定のフォーマット（例えば従来技術と同様のフォーマット）に多重化することによりマルチチャネルの音声データをパケット化する。すなわち、本実施の形態では、例えばフレーム番号Ｎを有するＬ−ｃｈ符号化データは、フレーム番号Ｎ＋１を有するＲ−ｃｈ符号化データと多重化されることとなる。

送信部１０８は、音声データ受信装置２０までの伝送路に応じて予め決められている送信処理を多重化部１０６からの音声データに対して施し、音声データ受信装置２０宛てに送信する。

一方、図２Ｂに示す音声データ受信装置２０は、受信部１１０、音声データ損失検出部１１２、分離部１１４、遅延部１１６および音声復号部１１８を有する。音声復号部１１８は、フレーム補償部１２０を有する。図３は、音声復号部１１８のより詳細な構成を示すブロック図である。図３に示す音声復号部１１８は、フレーム補償部１２０のほかに、Ｌ−ｃｈ復号部１２２およびＲ−ｃｈ復号部１２４を有する。また、本実施の形態においては、フレーム補償部１２０は、スイッチ部１２６および重ね合わせ加算部１２８を有し、重ね合わせ加算部１２８は、Ｌ−ｃｈ重ね合わせ加算部１３０およびＲ−ｃｈ重ね合わせ加算部１３２を有する。

受信部１１０は、伝送路を介して音声データ送信装置１０から受信した受信音声データに対して所定の受信処理を施す。

音声データ損失検出部１１２は、受信部１１０により受信処理が施された受信音声データに損失または誤り（以下「損失または誤り」を「損失」と総称する）が発生しているか否かを検出する。損失の発生が検出された場合、損失フラグが分離部１１４、スイッチ部１２６および重ね合わせ加算部１２８に出力される。損失フラグは、Ｌ−ｃｈ符号化データおよびＲ−ｃｈ符号化データの各々を構成する音声フレームの系列においてどの音声フレームが損失したかを示すものである。

分離部１１４は、音声データ損失検出部１１２から損失フラグが入力されたか否かに従い、受信部１１０からの受信音声データをチャネルごとに分離する。分離によって得られたＬ−ｃｈ符号化データおよびＲ−ｃｈ符号化データは、Ｌ−ｃｈ復号部１２２および遅延部１１６にそれぞれ出力される。

遅延部１１６は、送信側でＬ−ｃｈを遅延させたのに対応しＬ−ｃｈとＲ−ｃｈの時刻関係を合わせる（元に戻す）ために、分離部１１４からのＲ−ｃｈ符号化データを、１音声フレーム分遅延させＲ−ｃｈ復号部１２４に出力する。

なお、遅延部１１６により行われる遅延処理における遅延量は、音声フレームの単位で行われることが好ましいが、１音声フレームには限定されない。遅延部１１６での遅延量は、音声データ送信装置１０における遅延部１０４での遅延量と同値に設定される。

また、本実施の形態では、遅延部１１６はＲ−ｃｈ符号化データのみを遅延させているが、Ｌ−ｃｈとＲ−ｃｈの時刻関係を合わせるような処理であれば、音声データに対する遅延処理の施し方はこれに限定されない。例えば、遅延部１１６は、Ｒ−ｃｈ符号化データだけでなくＬ−ｃｈ符号化データも遅延させその遅延量の差が音声フレームの単位で設定されているような構成を有しても良い。また、送信側でＲ−ｃｈを遅延させた場合には、受信側ではＬ−ｃｈを遅延させるようにする。

音声復号部１１８では、マルチチャネルの音声データをチャネルごとに復号するための処理が行われる。

音声復号部１１８において、Ｌ−ｃｈ復号部１２２は、分離部１１４からのＬ−ｃｈ符号化データを復号し、復号によって得られたＬ−ｃｈ復号音声信号が出力される。Ｌ−ｃｈ復号部１２２の出力端とＬ−ｃｈ重ね合わせ加算部１３０の入力端とは常時接続されているので、Ｌ−ｃｈ重ね合わせ加算部１３０へのＬ−ｃｈ復号音声信号の出力は常時行われる。

Ｒ−ｃｈ復号部１２４は、遅延部１２４からのＲ−ｃｈ符号化データを復号し、復号によって得られたＲ−ｃｈ復号音声信号が出力される。Ｒ−ｃｈ復号部１２４の出力端とＲ−ｃｈ重ね合わせ加算部１３２の入力端とは常時接続されているので、Ｒ−ｃｈ重ね合わせ加算部１３２へのＲ−ｃｈ復号音声信号の出力は常時行われる。

スイッチ部１２６は、音声データ損失検出部１１２から損失フラグが入力されたとき、損失フラグに示された情報内容に従って、Ｌ−ｃｈ復号部１２２およびＲ−ｃｈ重ね合わせ加算部１３２の接続状態ならびにＲ−ｃｈ復号部１２４およびＬ−ｃｈ重ね合わせ加算部１３０の接続状態を切り替える。

より具体的には、例えば、Ｌ−ｃｈ符号化データに属しフレーム番号Ｋ_１に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｒ−ｃｈ復号部１２４からのＲ−ｃｈ復号音声信号のうち、フレーム番号Ｋ_１に相当する音声フレームを復号することにより得られたＲ−ｃｈ復号音声信号が、Ｒ−ｃｈ重ね合わせ加算部１３２だけでなくＬ−ｃｈ重ね合わせ加算部１３０にも出力されるように、Ｒ−ｃｈ復号部１２４の出力端をＬ−ｃｈ重ね合わせ加算部１３０の入力端と接続する。

また、例えば、Ｒ−ｃｈ符号化データに属しフレーム番号Ｋ_２に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｌ−ｃｈ復号部１２２からのＬ−ｃｈ復号音声信号のうち、フレーム番号Ｋ_２に相当する音声フレームを復号することにより得られたＬ−ｃｈ復号音声信号が、Ｌ−ｃｈ重ね合わせ加算部１３０だけでなくＲ−ｃｈ重ね合わせ加算部１３２にも出力されるように、Ｌ−ｃｈ復号部１２２の出力端をＲ−ｃｈ重ね合わせ加算部１３２の入力端と接続する。

重ね合わせ加算部１２８では、音声データ損失検出部１１２からの損失フラグに従って、マルチチャネルの復号音声信号に対して後述の重ね合わせ加算処理を施す。なお、音声データ損失検出部１１２からの損失フラグは、より具体的には、Ｌ−ｃｈ重ね合わせ加算部１３０およびＲ−ｃｈ重ね合わせ加算部１３２の両方に入力される。

Ｌ−ｃｈ重ね合わせ加算部１３０は、損失フラグが入力されない場合、Ｌ−ｃｈ復号部１２２からのＬ−ｃｈ復号音声信号をそのまま出力する。出力されるＬ−ｃｈ復号音声信号は、例えば図示されない後段での音声出力処理により音波に変換され出力される。

また、Ｌ−ｃｈ重ね合わせ加算部１３０は、例えば、Ｒ−ｃｈ符号化データに属しフレーム番号Ｋ_２に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｌ−ｃｈ復号音声信号をそのまま出力する。出力されるＬ−ｃｈ復号音声信号は、例えば前述の音声出力処理段に出力される。

また、Ｌ−ｃｈ重ね合わせ加算部１３０は、例えば、Ｌ−ｃｈ符号化データに属しフレーム番号Ｋ_１に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｌ−ｃｈ復号部１２２でフレーム番号Ｋ_１−１までの音声フレームの符号化データまたは復号音声信号を用いて従来の一般的な手法でフレーム番号Ｋ_１のフレームの補償を行うことにより得られた補償信号（Ｌ−ｃｈ補償信号）と、Ｒ−ｃｈ復号部１２４でフレーム番号Ｋ_１に相当する音声フレームを復号することにより得られたＲ−ｃｈ復号音声信号と、を重ね合わせ加算する。重ね合わせは、例えば、フレーム番号Ｋ_１のフレームの両端付近ではＬ−ｃｈ補償信号に重みが大きく、それ以外ではＲ−ｃｈ復号信号の重みが大きくなるように行う。このようにしてフレーム番号Ｋ_１に対応するＬ−ｃｈ復号音声信号が復元され、フレーム番号Ｋ_１の音声フレーム（Ｌ−ｃｈ符号化データ）に対するフレーム補償処理が完了する。復元されたＬ−ｃｈ復号音声信号は、例えば前述の音声出力処理段に出力される。

なお、重ね合わせ加算部での動作として、上記のようなＬ−ｃｈ補償信号とＲ−ｃｈ復号信号を用いる代わりに、Ｌ−ｃｈのフレーム番号Ｋ_１−１の復号信号の後端の一部とＲ−ｃｈのフレーム番号Ｋ_１−１の復号信号の後端を用いて重ね合わせ加算を行い、その結果をＬ−ｃｈのフレーム番号Ｋ_１−１の復号信号の後端の信号として、フレーム番号Ｋ_１のフレームはＲ−ｃｈの復号信号をそのまま出力するようにしても良い。

Ｒ−ｃｈ重ね合わせ加算部１３２は、損失フラグが入力されなかった場合、Ｒ−ｃｈ復号部１２４からのＲ−ｃｈ復号音声信号をそのまま出力する。出力されるＲ−ｃｈ復号音声信号は、例えば前述の音声出力処理段に出力される。

また、Ｒ−ｃｈ重ね合わせ加算部１３２は、例えば、Ｌ−ｃｈ符号化データに属しフレーム番号Ｋ_１に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｒ−ｃｈ復号音声信号をそのまま出力する。出力されるＲ−ｃｈ復号音声信号は、例えば前述の音声出力処理段に出力される。

また、Ｒ−ｃｈ重ね合わせ加算部１３２は、例えば、Ｒ−ｃｈ符号化データに属しフレーム番号Ｋ_２に相当する音声フレームが損失したことを示す損失フラグが入力された場合、Ｒ−ｃｈ復号部１２４でフレーム番号Ｋ_２−１までの音声フレームの符号化データまたは復号音声信号を用いてフレーム番号Ｋ_２のフレームの補償を行うことにより得られた補償信号（Ｒ−ｃｈ補償信号）と、Ｌ−ｃｈ復号部１２２でフレーム番号Ｋ_２に相当する音声フレームを復号することにより得られたＬ−ｃｈ復号音声信号と、を重ね合わせ加算する。重ね合わせは、例えば、フレーム番号Ｋ_２のフレームの両端付近ではＲ−ｃｈ補償信号に重みが大きく、それ以外ではＬ−ｃｈ復号信号の重みが大きくなるように行う。このようにしてフレーム番号Ｋ_２に対応するＲ−ｃｈ復号音声信号が復元され、フレーム番号Ｋ_２の音声フレーム（Ｒ−ｃｈ符号化データ）に対するフレーム補償処理が完了する。復元されたＲ−ｃｈ復号音声信号は、例えば前述の音声出力処理段に出力される。

前述のような重ね合わせ加算処理を行うことにより、同チャネルの連続する音声フレーム間において復号結果に不連続性が生じることを抑制することができる。

ここで、音声データ受信装置２０の内部構成において、音声復号部１１８として過去の音声フレームの復号状態に依存してその状態データを用いて次の音声フレームの復号を行うような符号化方式が採用されている場合について説明する。この場合には、Ｌ−ｃｈ復号部１２２において、損失の生じた音声フレームの次（直後）の音声フレームに対して通常の復号処理を行うときに、当該損失の生じた音声フレームの補償に用いられたＲ−ｃｈ符号化データをＲ−ｃｈ復号部１２４で復号する際に得られた状態データを取得し、当該次の音声フレームの復号に使用するようにしても良い。こうすることにより、フレーム間の不連続性を回避することができる。ここで、通常の復号処理とは、損失の生じていない音声フレームに対して行う復号処理を意味する。

また、この場合、Ｒ−ｃｈ復号部１２４においては、損失の生じた音声フレームの次（直後）の音声フレームに対して通常の復号処理を行うときに、当該損失の生じた音声フレームの補償に用いられたＬ−ｃｈ符号化データをＬ−ｃｈ復号部１２２で復号する際に得られた状態データを取得し、当該次の音声フレームの復号に使用するようにしても良い。こうすることにより、フレーム間の不連続性を回避することができる。

なお、状態データとしては、例えば、（１）音声符号化方式としてＣＥＬＰ（ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）方式が採用された場合には、例えば適応符号帳やＬＰＣ合成フィルタ状態など、（２）ＡＤＰＣＭ（ＡｄａｐｔｉｖｅＤｉｆｆｅｒｅｎｔｉａｌＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）方式のような予測波形符号化における予測フィルタの状態データ、（３）スペクトルパラメータなどのパラメータを予測量子化手法で量子化するような場合のその予測フィルタ状態、（４）ＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）やＭＤＣＴ（ＭｏｄｉｆｉｅｄＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ）などを用いる変換符号化方式において復号波形を隣接フレーム間で重ね合わせ加算して最終復号音声波形を得るような構成におけるその前フレーム復号波形データ、などがあり、それらの状態データを用いて損失の生じた音声フレームの次（直後）の音声フレームに対して通常の音声復号を行うようにしても良い。

次いで、上記構成を有する音声データ送信装置１０および音声データ受信装置２０における動作について説明する。図４は、本実施の形態に係る音声データ送信装置１０および音声データ受信装置２０の動作を説明するための図である。

音声符号化部１０２に入力されるマルチチャネルの音声信号は、Ｌ−ｃｈの音声信号の系列およびＲ−ｃｈの音声信号の系列から成る。図示されているとおり、互いに同じフレーム番号に対応するＬ−ｃｈおよびＲ−ｃｈの各音声信号（例えば、Ｌ−ｃｈの音声信号ＳＬ（ｎ）およびＲ−ｃｈの音声信号ＳＲ（ｎ））が同時に音声符号化部１０２に入力される。互いに同じフレーム番号に対応する各音声信号は、最終的に同時に音波として音声出力されるべき音声信号である。

マルチチャネルの音声信号は、音声符号化部１０２、遅延部１０４および多重化部１０６により各処理を施され、送信音声データとなる。図示されているとおり、送信音声データは、Ｌ−ｃｈ符号化データをＲ−ｃｈ符号化データよりも１音声フレームだけ遅延した状態で多重化されたものとなっている。例えば、Ｌ−ｃｈ符号化データＣＬ（ｎ−１）はＲ−ｃｈ符号化データＣＲ（ｎ）と多重化される。このようにして音声データがパケット化される。生成された送信音声データは、送信側から受信側に送信される。

したがって、音声データ受信装置２０で受信された受信音声データは、図示されているとおり、Ｌ−ｃｈ符号化データをＲ−ｃｈ符号化データよりも１音声フレームだけ遅延した状態で多重化されたものとなっている。例えば、Ｌ−ｃｈ符号化データＣＬ’（ｎ−１）はＲ−ｃｈ符号化データＣＲ’（ｎ）と多重化されている。

このようなマルチチャネルの受信音声データは、分離部１１４、遅延部１１６および音声復号部１１８により各処理を施され、復号音声信号となる。

ここで、音声データ受信装置２０で受信された受信音声データにおいて、Ｌ−ｃｈ符号化データＣＬ’（ｎ−１）およびＲ−ｃｈ符号化データＣＲ’（ｎ）に損失が発生していたと仮定する。

この場合、符号化データＣＬ’（ｎ−１）と同一フレーム番号を有するＲ−ｃｈの符号化データＣＲ’（ｎ−１）および符号化データＣＲ’（ｎ）と同一フレーム番号を有するＬ−ｃｈの符号化データＣＬ（ｎ）は、損失せずに受信されているので、フレーム番号ｎに対応するマルチチャネルの音声信号が音声出力されるときに一定の音質を確保できる。

さらに、音声フレームＣＬ’（ｎ−１）に損失が生じると、対応する復号音声信号ＳＬ’（ｎ−１）も失われることとなるが、符号化データＣＬ’（ｎ−１）と同一フレーム番号のＲ−ｃｈの符号化データＣＲ’（ｎ−１）は損失せずに受信されているので、符号化データＣＲ’（ｎ−１）により復号された復号音声信号ＳＲ’（ｎ−１）を用いてフレーム補償を行うことにより、復号音声信号ＳＬ’（ｎ−１）が復元される。また、音声フレームＣＲ’（ｎ）に損失が生じると、対応する復号音声信号ＳＲ’（ｎ）も失われることとなるが、符号化データＣＲ’（ｎ）と同一フレーム番号のＬ−ｃｈの符号化データＣＬ（ｎ）は、損失せずに受信されているので、符号化データＣＬ’（ｎ）により復号された復号音声信号ＳＬ’（ｎ）を用いてフレーム補償を行うことにより、復号音声信号ＳＲ’（ｎ）が復元される。このようなフレーム補償を行うことにより、復元される音質の改善を図ることができる。

このように、本実施の形態によれば、送信側においては、Ｌ−ｃｈ符号化データをＲ−ｃｈ符号化データより１音声フレーム分だけ遅延させるような遅延処理が施されたマルチチャネルの音声データを多重化する。一方、受信側においては、Ｌ−ｃｈ符号化データがＲ−ｃｈ符号化データより１音声フレーム分だけ遅延された状態で多重化されたマルチチャネルの音声データをチャネルごとに分離し、分離された符号化データに損失または誤りが発生している場合、Ｌ−ｃｈ符号化データおよびＲ−ｃｈ符号化データのうち一方のデータ系列を用いて他方のデータ系列における損失または誤りを補償する。このため、受信側で、音声フレームに損失または誤りが発生したときでも、マルチチャネルの少なくとも一つのチャネルを正しく受信できるようになり、そのチャネルを用いて他のチャネルのフレーム補償を行うことが可能となり、高品質なフレーム補償を実現することができる。

あるチャネルの音声フレー厶を、他のチャネルの音声フレームを用いて復元することが可能となるため、マルチチャネルに含まれる各チャネルのフレーム補償性能を向上させることができる。前述のような作用効果が実現されると、ステレオ信号により表現される「音の方向性」を維持することが可能となる。よって、例えば、昨今で広く利用されている、遠隔地に居る人との電話会議において、聞こえてくる相手の声に臨場感を持たせることが可能となる。

なお、本実施の形態では、音声符号化部１０２の後段で片方のチャネルのデータを遅延させる構成を例にとって説明したが、本実施の形態による効果を実現可能な構成はこれに限定されない。例えば、音声符号化部１０２の前段で片方のチャネルのデータを遅延させるような構成であっても良い。この場合、設定される遅延量は、音声フレームの単位に限定されない。例えば、遅延量を１音声フレームよりも短くすることも可能となる。例えば、１音声フレームを２０ｍｓとすると、遅延量を０．５音声フレーム（１０ｍｓ）に設定することができる。

（実施の形態２）
図５は、本発明の実施の形態２に係る音声データ受信装置における音声復号部の構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置および音声データ受信装置は、実施の形態１で説明したものと同一の基本的構成を有しているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。本実施の形態と実施の形態１との相違点は、音声復号部の内部構成のみである。

図５に示す音声復号部１１８は、フレーム補償部１２０を有する。フレーム補償部１２０は、スイッチ部２０２、Ｌ−ｃｈ復号部２０４およびＲ−ｃｈ復号部２０６を有する。

スイッチ部２０２は、音声データ損失検出部１１２から損失フラグが入力されたとき、損失フラグに示された情報内容に従って、分離部１１４およびＲ−ｃｈ復号部２０６の接続状態ならびに遅延部１１６およびＬ−ｃｈ復号部２０４の接続状態を切り替える。

より具体的には、例えば、損失フラグが入力されない場合、分離部１１４からのＬ−ｃｈ符号化データがＬ−ｃｈ復号部２０４のみに出力されるように、分離部１１４のＬ−ｃｈの出力端をＬ−ｃｈ復号部２０４の入力端と接続する。また、損失フラグが入力されない場合、遅延部１１６からのＲ−ｃｈ符号化データがＲ−ｃｈ復号部２０６のみに出力されるように、遅延部１１６の出力端をＲ−ｃｈ復号部２０６の入力端と接続する。

また、例えば、Ｌ−ｃｈ符号化データに属しフレーム番号Ｋ_１に相当する音声フレームが損失したことを示す損失フラグが入力された場合、遅延部１１６からのＲ−ｃｈ符号化データのうちフレーム番号Ｋ_１に相当する音声フレームが、Ｒ−ｃｈ復号部２０６だけでなくＬ−ｃｈ復号部２０４にも出力されるように、遅延部１１６の出力端を、Ｌ−ｃｈ復号部２０４およびＲ−ｃｈ復号部２０６の両方の入力端と接続する。

また、例えば、Ｒ−ｃｈ符号化データに属しフレーム番号Ｋ_２に相当する音声フレームが損失したことを示す損失フラグが入力された場合、分離部１１４からのＬ−ｃｈ符号化データのうちフレーム番号Ｋ_２に相当する音声フレームが、Ｌ−ｃｈ復号部２０４だけでなくＲ−ｃｈ復号部２０６にも出力されるように、分離部１１４のＬ−ｃｈの出力端を、Ｒ−ｃｈ復号部２０６およびＬ−ｃｈ復号部２０４の両方の入力端と接続する。

Ｌ−ｃｈ復号部２０４は、分離部１１４からのＬ−ｃｈ符号化データが入力された場合、当該Ｌ−ｃｈ符号化データを復号する。この復号結果をＬ−ｃｈ復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

また、Ｌ−ｃｈ復号部２０４は、遅延部１１６からのＲ−ｃｈ符号化データが入力された場合、当該Ｒ−ｃｈ符号化データを復号する。このようにＲ−ｃｈ符号化データをＬ−ｃｈ復号部２０４で復号することにより、損失の発生したＬ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｌ−ｃｈ復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

Ｒ−ｃｈ復号部２０６は、遅延部１１６からのＲ−ｃｈ符号化データが入力された場合、当該Ｒ−ｃｈ符号化データを復号する。この復号結果をＲ−ｃｈ復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

また、Ｒ−ｃｈ復号部２０６は、分離部１１４からのＬ−ｃｈ符号化データが入力された場合、当該Ｌ−ｃｈ符号化データを復号する。このようにＬ−ｃｈ符号化データをＲ−ｃｈ復号部２０６で復号することにより、損失の発生したＲ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｒ−ｃｈ復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

（実施の形態３）
図６は、本発明の実施の形態３に係る音声データ受信装置における音声復号部の構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置および音声データ受信装置は、実施の形態１で説明したものと同一の基本的構成を有しているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。本実施の形態と実施の形態１との相違点は、音声復号部の内部構成のみである。

図６に示す音声復号部１１８は、フレーム補償部１２０を有する。フレーム補償部１２０は、スイッチ部３０２、Ｌ−ｃｈフレーム補償部３０４、Ｌ−ｃｈ復号部３０６、Ｒ−ｃｈ復号部３０８、Ｒ−ｃｈフレーム補償部３１０および相関度判定部３１２を有する。

スイッチ部３０２は、音声データ損失検出部１１２から損失フラグの入力の有無および入力された損失フラグに示された情報内容ならびに相関度判定部３１２からの指示信号の入力の有無に従って、分離部１１４ならびにＬ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８の間の接続状態を切り替える。また同様に、遅延部１１６ならびにＬ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８の間の接続関係を切り替える。

より具体的には、例えば、損失フラグが入力されない場合、分離部１１４からのＬ−ｃｈ符号化データがＬ−ｃｈ復号部３０６のみに出力されるように、分離部１１４のＬ−ｃｈの出力端をＬ−ｃｈ復号部３０６の入力端と接続する。また、損失フラグが入力されない場合、遅延部１１６からのＲ−ｃｈ符号化データがＲ−ｃｈ復号部３０８のみに出力されるように、遅延部１１６の出力端をＲ−ｃｈ復号部３０８の入力端と接続する。

上記のとおり、損失フラグが入力されない場合、接続関係は相関度判定部３１２からの指示信号に依存しないが、損失フラグが入力された場合は、接続関係は指示信号にも依存する。

例えば、フレーム番号Ｋ_１のＬ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力があったときは、遅延部１１６からのフレーム番号Ｋ_１のＲ−ｃｈ符号化データが、Ｒ−ｃｈ復号部３０８だけでなくＬ−ｃｈ復号部３０６にも出力されるように、遅延部１１６の出力端を、Ｌ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８の両方の入力端と接続する。

これに対して、フレーム番号Ｋ_１のＬ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力がないときは、分離部１１４のＬ−ｃｈの出力端とＬ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８との間の接続を開放とする。

また、例えば、フレーム番号Ｋ_２のＲ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力があったときは、分離部１１４からのフレーム番号Ｋ_２のＬ−ｃｈ符号化データが、Ｌ−ｃｈ復号部３０６だけでなくＲ−ｃｈ復号部３０８にも出力されるように、分離部１１４のＬ−ｃｈの出力端を、Ｒ−ｃｈ復号部３０８およびＬ−ｃｈ復号部３０６の両方の入力端と接続する。

これに対して、フレーム番号Ｋ_２のＲ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力がないときは、遅延部１１６の出力端とＬ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８との間の接続を開放とする。

Ｌ−ｃｈフレーム補償部３０４およびＲ−ｃｈフレーム補償部３１０は、Ｌ−ｃｈまたはＲ−ｃｈの符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力がないときに、従来の一般的な手法と同様に、同一チャネルの前フレームまでの情報を用いたフレーム補償を行い、補償データ（符号化データ又は復号信号）を、Ｌ−ｃｈ復号部３０６およびＲ−ｃｈ復号部３０８にそれぞれ出力する。

Ｌ−ｃｈ復号部３０６は、分離部１１４からのＬ−ｃｈ符号化データが入力された場合、当該Ｌ−ｃｈ符号化データを復号する。この復号結果をＬ−ｃｈ復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

また、Ｌ−ｃｈ復号部３０６は、損失フラグの入力があった場合で、遅延部１１６からのＲ−ｃｈ符号化データが入力されたときは、当該Ｒ−ｃｈ符号化データを復号する。このようにＲ−ｃｈ符号化データをＬ−ｃｈ復号部３０６で復号することにより、損失の発生したＬ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｌ−ｃｈ復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

さらに、Ｌ−ｃｈ復号部３０６は、損失フラグの入力があった場合で、Ｌ−ｃｈフレーム補償部３０４からの補償データが入力されたときは、次のような復号処理を行う。すなわち、当該補償データとして符号化データが入力された場合はその符号化データを復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。このようにしたときも、損失の発生したＬ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｌ−ｃｈ復号音声信号として出力される。

Ｒ−ｃｈ復号部３０８は、遅延部１１６からのＲ−ｃｈ符号化データが入力された場合、当該Ｒ−ｃｈ符号化データを復号する。この復号結果をＲ−ｃｈ復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

また、Ｒ−ｃｈ復号部３０８は、損失フラグの入力があった場合で、分離部１１４からのＬ−ｃｈ符号化データが入力されたときは、当該Ｌ−ｃｈ符号化データを復号する。このようにＬ−ｃｈ符号化データをＲ−ｃｈ復号部３０８で復号することにより、損失の発生したＲ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｒ−ｃｈ復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

さらに、Ｒ−ｃｈ復号部３０８は、損失フラグの入力があった場合で、Ｒ−ｃｈフレーム補償部３１０からの補償データが入力されたときは、次のような復号処理を行う。すなわち、当該補償データとして符号化データが入力された場合はその符号化データを復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。このようにしたときも、損失の発生したＲ−ｃｈ符号化データに対応する音声信号を復元することができる。復元された音声信号は、Ｒ−ｃｈ復号音声信号として出力される。

相関度判定部３１２は、Ｌ−ｃｈ復号音声信号とＲ−ｃｈ復号音声信号との間の相関度Ｃｏｒを、次の式（１）を用いて算出する。

ここで、ｓＬ’（ｉ）およびｓＲ’（ｉ）はそれぞれＬ−ｃｈ復号音声信号およびＲ−ｃｈ復号音声信号である。上記の式（１）により、補償フレームのＬサンプル前の音声サンプル値から１サンプル前（つまり直前）の音声サンプル値までの区間における相関度Ｃｏｒが算出される。

また、相関度判定部３１２は、算出された相関度Ｃｏｒを所定の閾値と比較する。この比較の結果、相関度Ｃｏｒが所定の閾値よりも高い場合は、Ｌ−ｃｈ復号音声信号とＲ−ｃｈ復号音声信号との間の相関が高いと判定する。そして、損失が生じたときに互いのチャネルの符号化データを用いることを指示するための指示信号をスイッチ部３０２に出力する。

一方、相関度判定部３１２は、算出された相関度Ｃｏｒを上記閾値と比較した結果、相関度Ｃｏｒが閾値以下の場合は、Ｌ−ｃｈ復号音声信号およびＲ−ｃｈ復号音声信号の間の相関が低いと判定する。そして、損失が生じたときに同一チャネルの符号化データを使用させるために、スイッチ部３０２への指示信号の出力を行わない。

このように、本実施の形態によれば、Ｌ−ｃｈ復号音声信号とＲ−ｃｈ復号音声信号との間の相関度Ｃｏｒを所定の閾値と比較し、当該比較の結果に従って、互いのチャネルの符号化データを用いたフレーム補償を行うか否かを決定するため、チャネル間の相関が高いときにのみ互いのチャネルの音声データに基づく補償を行うようにすることができ、相関が低いときに互いのチャネルの音声データを用いてフレーム補償を行うことによる補償品質の劣化を防止することができる。また、本実施の形態では、相関が低いときには同一チャネルの音声データに基づく補償を行うため、フレーム補償の品質を継続的に維持することができる。

なお、本実施の形態では、相関度判定部３１２を、フレーム補償の際に符号化データを用いる実施の形態２におけるフレーム補償部１２０に設けた場合を例にとって説明した。ただし、相関度判定部３１２を設けたフレーム補償部１２０の構成はこれに限定されない。例えば、相関度判定部３１２を、フレーム補償の際に復号音声を用いるフレーム補償部１２０（実施の形態１）に設けた場合でも、同様の作用効果を実現することができる。

この場合の構成図を図７に示す。この場合の動作は、実施の形態１における図３での構成における動作に対して、主にスイッチ部１２６の動作が異なる。すなわち、損失フラグと共に相関度判定部３１２からの出力である指示信号の結果によりスイッチ部１２６における接続状態が切り替わる。例えば、Ｌ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合でかつ指示信号の入力があったときは、Ｌ−ｃｈフレーム補償部３０４で得られた補償信号とＲ−ｃｈの復号信号とがＬ−ｃｈ重ね合わせ加算部１３０に入力され重ね合わせ加算が行われる。また、Ｌ−ｃｈ符号化データが損失したことを示す損失フラグが入力された場合でかつ指示信号の入力がない場合は、Ｌ−ｃｈフレーム補償部３０４で得られた補償信号のみがＬ−ｃｈ重ね合わせ加算部１３０に入力されそのまま出力される。Ｒ−ｃｈ符号化データに対して損失フラグが入力された時の動作も前記Ｒ−ｃｈの場合と同様である。

Ｌ−ｃｈフレーム補償部３０４は、フレーム損失フラグの入力があった場合には、損失フレームの前フレームまでのＬ−ｃｈの情報を用いて従来の一般的な手法と同様なフレーム補償処理を行い補償データ（符号化データ又は復号信号）をＬ−ｃｈ復号部１２２へ出力し、Ｌ−ｃｈ復号部１２２は補償フレームの補償信号を出力する。その際、当該補償データとして符号化データが入力された場合はその符号化データを用いて復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。また、Ｌ−ｃｈフレーム補償部３０４で補償処理を行う際には、Ｌ−ｃｈ復号部１２２における前フレームまでの復号信号や状態データを用いる、またはＬ−ｃｈ重ね合わせ加算部１３０の前フレームまでの出力信号を用いるようにしても良い。Ｒ−ｃｈフレーム補償部３１０の動作もＬ−ｃｈの場合と同様である。

また、本実施の形態では、相関度判定部３１２は、所定区間の相関度Ｃｏｒの算出処理を行うが、相関度判定部３１２における相関度算出処理方法はこれに限定されない。

例えば、Ｌ−ｃｈ復号音声信号とＲ−ｃｈ復号音声信号との相関度の最大値Ｃｏｒ＿ｍａｘを、次の式（２）を用いて算出する方法が挙げられる。この場合、最大値Ｃｏｒ＿ｍａｘを所定の閾値と比較し、最大値Ｃｏｒ＿ｍａｘがその閾値を超過している場合は、チャネル間の相関が高いと判定する。このようにすることで、上記と同様の作用効果を実現することができる。

そして、相関が高いと判定された場合は他方のチャネルの符号化データを用いたフレーム補償が行われる。このとき、フレーム補償に用いる他チャネルの復号音声を、最大値Ｃｏｒ＿ｍａｘが得られるシフト量（すなわち音声サンプル数）だけシフトさせた後に用いるようにしても良い。

最大値Ｃｏｒ＿ｍａｘとなる音声サンプルのシフト量τ＿ｍａｘは、次の式（３）を用いることにより算出される。そして、Ｌ−ｃｈのフレーム補償を行う場合には、シフト量τ＿ｍａｘだけＲ−ｃｈの復号信号を正の時間方向にシフトした信号を用いる。逆にＲ−ｃｈのフレームの補償を行う場合には、シフト量τ＿ｍａｘだけＬ−ｃｈの復号信号を負の時間方向にシフトした信号を用いる。

ここで、上記の式（２）および（３）において、ｓＬ’（ｉ）およびｓＲ’（ｉ）はそれぞれＬ−ｃｈ復号音声信号およびＲ−ｃｈ復号音声信号である。また、Ｌ＋Ｍサンプル前の音声サンプル値から１サンプル前（つまり直前）の音声サンプル値までの区間中のＬサンプル分が算出対象区間となっている。また、−ＭサンプルからＭサンプルの音声サンプル分のシフト量が算出対象範囲となっている。

これにより、相関度が最大となるシフト量だけシフトさせた他チャネルの音声データを用いてフレーム補償を行うことができ、補償された音声フレームとその前後の音声フレームとのフレーム間整合をより正確に取ることができるようになる。

なお、シフト量τ＿ｍａｘは、音声サンプル数単位の整数値であっても、また音声サンプル値間の分解能を上げた小数値であっても良い。

さらに、相関度判定部３１２の内部構成に関して、Ｌ−ｃｈデータ系列の復号結果とＲ−ｃｈデータ系列の復号結果とを用いて、フレー厶補償に用いる他方のデータ系列の音声データの復号結果に対する振幅補正値を算出する振幅補正値算出部を内部に有する構成としても良い。この場合、音声復号部１１８には、算出した振幅補正値を用いて、当該他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正部が設けられる。そして、他チャネルの音声データを用いてフレーム補償を行う際に、その補正値を用いてその復号信号の振幅を補正するようにしても良い。なお、振幅補正値算出部の配置は、音声復号部１１８の内部であれば良く、相関度判定部３１２の内部には限定されない。

振幅値補正を行う場合、例えば、式（４）のＤ（ｇ）を最小にするようなｇを求める。そして、求められたｇの値（＝ｇ＿ｏｐｔ）を振幅補正値とする。Ｌ−ｃｈのフレーム補償を行う場合には、振幅補正値ｇ＿ｏｐｔをＲ−ｃｈの復号信号に乗じた信号を用いる。逆にＲ−ｃｈのフレームの補償を行う場合には、振幅補正値の逆数１／ｇ＿ｏｐｔをＬ−ｃｈの復号信号に乗じた信号を用いる。

ここで、τ＿ｍａｘは式（３）で得られた相関度が最大となる時の音声サンプルのシフト量である。

なお、振幅補正値の算出方法は式（４）に限定されるものでなく、ａ）式（５）のＤ（ｇ）を最小にするようなｇをその振幅補正値とする、ｂ）式（６）のＤ（ｇ，ｋ）を最小とするようなシフト量ｋとｇとを求めそのときのｇを振幅補正値とする、ｃ）当該補償フレームの前までの所定区間に対するＬ−ｃｈとＲ−ｃｈとの復号信号のパワーの平方根（または平均振幅値）の比を補正値とする、といった方法で算出しても良い。

これにより、他チャネルの音声データを用いてフレーム補償を行う際に、その復号信号の振幅を補正した後に補償に用いることで、より適切な振幅を有した補償を行うことができる。

なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路であるＬＳＩとして実現される。これらは個別に１チップ化されても良いし、一部又は全てを含むように１チップ化されても良い。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行っても良い。バイオ技術の適応等が可能性としてありえる。

本明細書は、２００４年６月２日出願の特願２００４−１６５０１６に基づく。この内容はすべてここに含めておく。

本発明の音声データ送信／受信装置および音声データ送信／受信方法は、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システム等において有用である。

本発明は、音声データ受信装置および音声データ受信方法に関し、特に、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システムに用いられる音声データ受信装置および音声データ受信方法に関する。

ＩＰ（Internet Protocol）網や無線通信網での音声通信においては、ＩＰパケットの損失や無線伝送誤りなどにより、受信側で音声データを受信できなかったり誤りのある音声データを受信したりすることがある。このため、一般に音声通信システムにおいては、誤った音声データまたは損失した音声データを補償するための処理が行われる。

一般的な音声通信システムの送信側すなわち音声データ送信装置では、入力原信号たる音声信号は、音声データとして符号化され、多重化（パケット化）され、宛先装置に対して送信される。通常、多重化は、１音声フレームを１つの伝送単位として行われる。多重化に関して、例えば非特許文献１では、３ＧＰＰ（3rd Generation Partnership Project）規格の音声コーデック方式であるＡＭＲ（Adaptive Multi-Rate）およびＡＭＲ−ＷＢ（Adaptive Multi-Rate Wideband）に対してＩＰパケット網での音声データのフォーマットを規定している。

また、受信側すなわち音声データ受信装置では、受信した音声データに損失または誤りがある場合、例えば過去に受信した音声フレーム内の音声データ（符号化データ）またはそれを元に復号した復号音声信号を用いて、損失した音声フレーム内または誤りのある音声フレーム内の音声信号を補償処理により復元する。音声フレームの補償処理に関して、例えば非特許文献２では、ＡＭＲのフレーム補償方法を開示している。

ところで、近年のネットワークのブロードバンド化や通信のマルチメディア化に伴い、音声通信において音声の高品質化の流れがある。その一環として、音声信号をモノラル信号としてではなくステレオ信号として符号化および伝送することが求められている。このような要求に対して、非特許文献１には、音声データがマルチチャネルデータ（例えばステレオ音声データ）の場合の多重化に関する規定が記載されている。同文献によれば、音声データが例えば２チャネルのデータの場合、互いに同一の時刻に相当する左チャネル（Ｌ−ｃｈ）の音声データおよび右チャネル（Ｒ−ｃｈ）の音声データが多重化される。
"Real-Time Transfer Protocol (RTP) Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs", IETF RFC3267 "Mandatory Speech Codec speech processing functions; AMR Speech Codecs; Error concealment of lost frames", 3rd Generation Partnership Project, TS26.091

本発明は、かかる点に鑑みてなされたもので、高品質なフレーム補償を実現することができる音声データ受信装置および音声データ受信方法を提供することを目的とする。

本発明の音声データ受信装置は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信手段と、受信された前記音声データ系列をチャネルごとに復号する復号手段と、前記音声データ系列に損失または誤りが発生している場合、前記音声データ系列が復号されるときに、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償手段と、を有する構成を採る。

本発明の音声データ受信方法は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信ステップと、受信された前記音声データ系列をチャネルごとに復号する復号ステップと、前記音声データ系列に損失または誤りが発生している場合、前記音声データ系列が復号されるときに、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償ステップと、を有するようにした。

本発明によれば、高品質なフレーム補償を実現できる。

なお、状態データとしては、例えば、（１）音声符号化方式としてＣＥＬＰ（Code Excited Linear Prediction）方式が採用された場合には、例えば適応符号帳やＬＰＣ合成フィルタ状態など、（２）ＡＤＰＣＭ（Adaptive Differential Pulse Code Modulation）方式のような予測波形符号化における予測フィルタの状態データ、（３）スペクトルパラメータなどのパラメータを予測量子化手法で量子化するような場合のその予測フィルタ状態、（４）ＦＦＴ（Fast Fourier Transform）やＭＤＣＴ（Modified Discrete Cosine Transform）などを用いる変換符号化方式において復号波形を隣接フレーム間で重ね合わせ加算して最終復号音声波形を得るような構成におけるその前フレーム復号波形データ、などがあり、それらの状態データを用いて損失の生じた音声フレームの次（直後）の音声フレームに対して通常の音声復号を行うようにしても良い。

あるチャネルの音声フレームを、他のチャネルの音声フレームを用いて復元することが可能となるため、マルチチャネルに含まれる各チャネルのフレーム補償性能を向上させることができる。前述のような作用効果が実現されると、ステレオ信号により表現される「音の方向性」を維持することが可能となる。よって、例えば、昨今で広く利用されている、遠隔地に居る人との電話会議において、聞こえてくる相手の声に臨場感を持たせることが可能となる。

さらに、相関度判定部３１２の内部構成に関して、Ｌ−ｃｈデータ系列の復号結果とＲ−ｃｈデータ系列の復号結果とを用いて、フレーム補償に用いる他方のデータ系列の音声データの復号結果に対する振幅補正値を算出する振幅補正値算出部を内部に有する構成としても良い。この場合、音声復号部１１８には、算出した振幅補正値を用いて、当該他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正部が設けられる。そして、他チャネルの音声データを用いてフレーム補償を行う際に、その補正値を用いてその復号信号の振幅を補正するようにしても良い。なお、振幅補正値算出部の配置は、音声復号部１１８の内部であれば良く、相関度判定部３１２の内部には限定されない。

振幅値補正を行う場合、例えば、式（４）のＤ(ｇ)を最小にするようなｇを求める。そして、求められたｇの値（＝g_opt）を振幅補正値とする。Ｌ−ｃｈのフレーム補償を行う場合には、振幅補正値g_optをＲ−ｃｈの復号信号に乗じた信号を用いる。逆にＲ−ｃｈのフレームの補償を行う場合には、振幅補正値の逆数１／g_optをＬ−ｃｈの復号信号に乗じた信号を用いる。

また、集積回路化の手法はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現しても良い。ＬＳＩ製造後に、プログラムすることが可能なＦＰＧＡ（Field Programmable Gate Array）や、ＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサーを利用しても良い。

本発明の音声データ受信装置および音声データ受信方法は、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システム等において有用である。

Claims

第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信装置において、
前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延手段と、
前記遅延処理が施された前記音声データ系列を多重化する多重化手段と、
多重化された前記音声データ系列を送信する送信手段と、
を有する音声データ送信装置。
前記遅延手段は、
所定の音声フレームの単位で前記遅延処理を行う、
請求の範囲１記載の音声データ送信装置。
前記音声データ系列を符号化する符号化手段を有し、
前記遅延手段は、
符号化された前記音声データに対して前記遅延処理を施す、
請求の範囲１記載の音声データ送信装置。
第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信手段と、
受信された前記音声データ系列をチャネルごとに分離する分離手段と、
分離された前記音声データ系列をチャネルごとに復号する復号手段と、を有し、
前記復号手段は、
分離された前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償手段を有する、
音声データ受信装置。
各データ系列は、フレームを単位とする音声データの系列を成し、
前記補償手段は、
前記他方のデータ系列から前記損失または誤りの発生した音声データの直前までの音声データを用いて復号した結果と前記一方のデータ系列に属する音声データの復号結果とを重ね合わせ加算する加算手段を有する、
請求の範囲４記載の音声データ受信装置。
前記復号手段は、
前記第一データ系列の復号結果と前記第二データ系列の復号結果との間の相関度を算出する相関度算出手段と、
算出された相関度を所定の閾値と比較する比較手段と、を有し、
前記補償手段は、
前記比較手段の比較結果に従って、前記補償を行うか否かを決定する、
請求の範囲４記載の音声データ受信装置。
前記相関度算出手段は、
前記相関度を最大にする音声サンプルのシフト量を算出するシフト量算出手段を有し、
前記補償手段は、
算出されたシフト量に基づいて、前記補償を行う、
請求の範囲６記載の音声データ受信装置。
前記復号手段は、
前記第一データ系列の復号結果と前記第二データ系列の復号結果とを用いて、フレーム補償に用いる前記他方のデータ系列の音声データの復号結果に対する振幅補正値を算出する振幅補正値算出手段と、
前記振幅補正値を用いて前記他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正手段と、
を有する請求の範囲７記載の音声データ受信装置。
各データ系列は、フレームを単位とする音声データの系列を成し、
前記復号手段は、
前記他方のデータ系列に属する音声データのうち前記損失または誤りの発生した音声データの直後に位置する音声データを復号する場合に、前記補償に用いられた前記一方のデータ系列の音声データを復号した際に得られる復号状態データを用いて復号する、
請求の範囲４記載の音声データ受信装置。
第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信方法において、
前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延ステップと、
前記遅延処理が施された前記音声データ系列を多重化する多重化ステップと、
多重化された前記音声データ系列を送信する送信ステップと、
を有する音声データ送信方法。
第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信ステップと、
受信した前記音声データ系列をチャネルごとに分離する分離ステップと、
分離した前記音声データ系列をチャネルごとに復号する復号ステップと、を有し、
前記復号ステップは、
分離した前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償ステップを有する、
音声データ受信方法。