WO2005119950A1

WO2005119950A1 - 音声データ送信／受信装置および音声データ送信／受信方法

Info

Publication number: WO2005119950A1
Application number: PCT/JP2005/009252
Authority: WO
Inventors: Koji Yoshida
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-06-02
Filing date: 2005-05-20
Publication date: 2005-12-15
Also published as: JPWO2005119950A1; ATE444613T1; CN1961511B; DE602005016916D1; US8209168B2; EP1746751A4; EP1746751B1; US20080065372A1; CN1961511A; JP4456601B2; EP1746751A1

Abstract

　音声通信において高品質なフレーム補償を実現する音声データ送信／受信装置を開示する。音声データ送信装置（１０）において、遅延部（１０４）は、Ｌ－ｃｈ符号化データをＲ－ｃｈ符号化データより所定の遅延量だけ遅延させる遅延処理をマルチチャネルの音声データに施す。多重化部（１０６）は、当該遅延処理が施された音声データを多重化する。送信部（１０８）は、多重化された音声データを送信する。音声データ受信装置（２０）において、分離部（１１４）は、音声データ送信装置（１０）から受信した音声データをチャネルごとに分離する。復号部（１１８）は、分離された音声データをチャネルごとに復号する。フレーム補償部（１２０）は、分離された音声データに損失または誤りが発生している場合、Ｌ－ｃｈ符号化データおよびＲ－ｃｈ符号化データの一方の符号化データを用いて他方の符号化データにおける損失または誤りを補償する。

Description

明細書

音声データ送信 Z受信装置および音声データ送信 Z受信方法技術分野

[oooi] 本発明は、音声データ送信 Z受信装置および音声データ送信 Z受信方法に関し、特に、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システムに用いられる音声データ送信 Z受信装置および音声データ送信 Z受信方法に関する。

背景技術

[0002] IP (Internet Protocol)網や無線通信網での音声通信にお!、ては、 IPパケットの損失や無線伝送誤りなどにより、受信側で音声データを受信できな力つたり誤りのある音声データを受信したりすることがある。このため、一般に音声通信システムにおいては、誤った音声データまたは損失した音声データを補償するための処理が行われる。

[0003] 一般的な音声通信システムの送信側すなわち音声データ送信装置では、入力原信号たる音声信号は、音声データとして符号化され、多重化 (パケット化)され、宛先装置に対して送信される。通常、多重化は、 1音声フレームを 1つの伝送単位として行われる。多重化に関して、例えば非特許文献 1では、 3GPP (3rd Generation Partnership Project)規格の音声コーデック方式である AMR (Adaptive Multi-Rate) および AMR— WB (Adaptive Multi-Rate Wideband)に対して IPパケット網での音声データのフォーマットを規定して、る。

[0004] また、受信側すなわち音声データ受信装置では、受信した音声データに損失または誤りがある場合、例えば過去に受信した音声フレーム内の音声データ (符号化データ)またはそれを元に復号した復号音声信号を用いて、損失した音声フレーム内または誤りのある音声フレーム内の音声信号を補償処理により復元する。音声フレームの補償処理に関して、例えば非特許文献 2では、 AMRのフレーム補償方法を開示している。

[0005] 上述の音声通信システムにおける音声処理動作について、図 1を用いて概説する。図 1におけるシーケンス番号（···、 n— 2、 n— 1、 n、 n+ l、 n+ 2、 ···）は各音声フレームに付与されたフレーム番号である。受信側では、このフレーム番号順に従って音声信号を復号し復号音声を音波として出力することとなる。また、同図に示すように、符号化、多重化、送信、分離および復号は、音声フレームごとに行われる。例えば第 nフレームが損失した場合、過去に受信した音声フレーム (例えば第 n— 1フレームや第 n— 2フレーム）が参照され第 nフレームに対するフレーム補償処理が行われる。

[0006] ところで、近年のネットワークのブロードバンド化や通信のマルチメディア化に伴い、音声通信において音声の高品質ィ匕の流れがある。その一環として、音声信号をモノラル信号としてではなくステレオ信号として符号ィ匕および伝送することが求められている。このような要求に対して、非特許文献 1には、音声データがマルチチャネルデータ（例えばステレオ音声データ）の場合の多重化に関する規定が記載されている。同文献によれば、音声データが例えば 2チャネルのデータの場合、互いに同一の時刻に相当する左チャネル (L ch)の音声データおよび右チャネル (R— ch)の音声データが多重化される。

非特干文献 1： Real-Time Transfer Protocol (RTP) Payload Format and File Storage Format for the Adaptive Multi-Rate (AMR) and Adaptive Multi-Rate Wideband (AMR-WB) Audio Codecs", IETF RFC3267

非特許文献 2 : "Mandatory Speech Codec speech processing lunctions; AMR Speech Codecs; Error concealment of lost frames", 3rd Generation Partnership Project, TS26.091

発明の開示

発明が解決しょうとする課題

[0007] し力しながら、従来の音声データ受信装置および音声データ受信方法にお!、ては、損失した音声フレームまたは誤りのある音声フレームの補償を行うとき、その音声フレームよりも前に受信した音声フレームを用いるため、補償性能 (すなわち、補償された音声信号の品質)が十分でないことがあり、入力原信号に忠実な補償を行うには一定の限界がある。これは、扱われる音声信号がモノラルであってもステレオであっても同様である。 [0008] 本発明は、力かる点に鑑みてなされたもので、高品質なフレーム補償を実現することができる音声データ送信 Z受信装置および音声データ送信 Z受信方法を提供することを目的とする。

課題を解決するための手段

[0009] 本発明の音声データ送信装置は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信装置において、前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延手段と、前記遅延処理が施された前記音声データ系列を多重化する多重化手段と、多重化された前記音声データ系列を送信する送信手段と、を有する構成を採る。

[0010] 本発明の音声データ受信装置は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であつて前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信手段と、受信された前記音声データ系列をチャネルごとに分離する分離手段と、分離された前記音声データ系列をチャネルごとに復号する復号手段と、を有し、前記復号手段は、分離された前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償手段を有する構成を採る。

[0011] 本発明の音声データ送信方法は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信方法にお!、て、前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延ステップと、前記遅延処理が施された前記音声データ系列を多重化する多重化ステツプと、多重化された前記音声データ系列を送信する送信ステップと、を有するようにした。

[0012] 本発明の音声データ受信方法は、第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であつて前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信ステップと、受信した前記音声データ系列をチャネルごとに分離する分離ステップと、分離した前記音声データ系列をチャネルごとに復号する復号ステップと、を有し、前記復号ステップは、分離した前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償ステップを有するようにした。

発明の効果

[0013] 本発明によれば、高品質なフレーム補償を実現できる。

図面の簡単な説明

[0014] [図 1]従来の音声通信システムにおける音声処理動作の一例を説明するための図 [図 2A]本発明の実施の形態 1に係る音声データ送信装置の構成を示すブロック図 [図 2B]本発明の実施の形態 1に係る音声データ受信装置の構成を示すブロック図 [図 3]本発明の実施の形態 1に係る音声データ受信装置における音声復号部の内部構成を示すブロック図

[図 4]本発明の実施の形態 1に係る音声データ送信装置および音声データ受信装置における動作を説明するための図

[図 5]本発明の実施の形態 2に係る音声データ受信装置における音声復号部の内部構成を示すブロック図

[図 6]本発明の実施の形態 3に係る音声データ受信装置における音声復号部の内部構成を示すブロック図

[図 7]本発明の実施の形態 3に係る音声データ受信装置における音声復号部の内部構成の変形例を示すブロック図

発明を実施するための最良の形態

[0015] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。

[0016] (実施の形態 1)

図 2Aおよび図 2Bは、本発明の実施の形態 1に係る音声データ送信装置および音声データ受信装置の構成をそれぞれ示すブロック図である。なお、本実施の形態では、音源側力入力されるマルチチャネルの音声信号は、左チャネル (L— ch)および右チャネル (R—ch)を含む二つのチャネルを有する、すなわちこの音声信号はステレオ信号である。このため、図 2Aおよび図 2Bにそれぞれ示す音声データ送信装置 10および音声データ受信装置 20にはそれぞれ、左右チャネル用の二つの処理系が設けられている。ただし、音声信号のチャネル数は二つに限定されない。チヤネル数が三つ以上の場合は、三つ以上の処理系を送信側および受信側にそれぞれ設けることにより、本実施の形態と同様の作用効果を実現することができる。

[0017] 図 2Aに示す音声データ送信装置 10は、音声符号化部 102、遅延部 104、多重化部 106および送信部 108を有する。

[0018] 音声符号ィ匕部 102は、入力されるマルチチャネルの音声信号を符号ィ匕し、符号ィ匕データを出力する。この符号化は、チャネルごとに独立に行われる。以下の説明においては、 L— chの符号化データを「L ch符号化データ」と称し、 R—chの符号化データを「R— ch符号化データ」と称す。

[0019] 遅延部 104は、音声符号ィ匕部 102からの L—ch符号ィ匕データを 1音声フレーム分遅延させ多重化部 106に出力する。すなわち、遅延部 104は、音声符号化部 102の後段に配置されている。このように、遅延処理が音声符号化処理の後段に配置されているため、符号化された後のデータに対して遅延処理を行うことができ、遅延処理が音声符号ィ匕処理の前段に配置された場合に比して処理を簡略ィ匕することができる

[0020] なお、遅延部 104により行われる遅延処理における遅延量は、音声フレームの単位で設定されることが好ましいが、 1音声フレームには限定されない。ただし、本実施の形態の音声データ送信装置 10および音声データ受信装置 20を含む音声通信システムは、例えばオーディオデータなどのストリーミングだけでなくリアルタイムの音声通信を主な用途とすることを前提としている。したがって、遅延量を大きい値に設定することで望ましくない影響が通信品質に与えられることを防止するために、本実施の形態では、遅延量を、最小値すなわち 1音声フレームに予め設定している。

[0021] また、本実施の形態では、遅延部 104は L ch符号ィ匕データのみを遅延させている力音声データに対する遅延処理の施し方はこれに限定されない。例えば、遅延部 104は、 L ch符号ィ匕データだけでなく R— ch符号ィ匕データも遅延させその遅延量の差が音声フレームの単位で設定されているような構成を有しても良い。また、 L —chを遅延させる代わりに、 R—chのみを遅延するようにしても良い。

[0022] 多重化部 106は、遅延部 104からの L—ch符号ィ匕データおよび音声符号ィ匕部 102 力の R—ch符号ィ匕データを所定のフォーマット（例えば従来技術と同様のフォーマット）に多重化することによりマルチチャネルの音声データをパケットィ匕する。すなわち、本実施の形態では、例えばフレーム番号 Nを有する L— ch符号ィ匕データは、フレーム番号 N+ 1を有する R—ch符号ィ匕データと多重化されることとなる。

[0023] 送信部 108は、音声データ受信装置 20までの伝送路に応じて予め決められている送信処理を多重化部 106からの音声データに対して施し、音声データ受信装置 20 宛てに送信する。

[0024] 一方、図 2Bに示す音声データ受信装置 20は、受信部 110、音声データ損失検出部 112、分離部 114、遅延部 116および音声復号部 118を有する。音声復号部 118 は、フレーム補償部 120を有する。図 3は、音声復号部 118のより詳細な構成を示すブロック図である。図 3に示す音声復号部 118は、フレーム補償部 120のほかに、 L — ch復号部 122および R—ch復号部 124を有する。また、本実施の形態においては、フレーム補償部 120は、スィッチ部 126および重ね合わせ加算部 128を有し、重ね合わせ加算部 128は、 L— ch重ね合わせ加算部 130および R— ch重ね合わせ加算部 132を有する。

[0025] 受信部 110は、伝送路を介して音声データ送信装置 10から受信した受信音声データに対して所定の受信処理を施す。

[0026] 音声データ損失検出部 112は、受信部 110により受信処理が施された受信音声データに損失または誤り（以下「損失または誤り」を「損失」と総称する）が発生して、るか否かを検出する。損失の発生が検出された場合、損失フラグが分離部 114、スイツチ部 126および重ね合わせ加算部 128に出力される。損失フラグは、 L— ch符号ィ匕データおよび R—ch符号ィ匕データの各々を構成する音声フレームの系列においてどの音声フレームが損失したかを示すものである。

[0027] 分離部 114は、音声データ損失検出部 112から損失フラグが入力された力否かに従い、受信部 110からの受信音声データをチャネルごとに分離する。分離によって得られた L ch符号ィ匕データおよび R— ch符号ィ匕データは、 L ch復号部 122および遅延部 116にそれぞれ出力される。

[0028] 遅延部 116は、送信側で L— chを遅延させたのに対応し L— chと R— chの時刻関係を合わせる（元に戻す)ために、分離部 114からの R—ch符号化データを、 1音声フレーム分遅延させ R—ch復号部 124に出力する。

[0029] なお、遅延部 116により行われる遅延処理における遅延量は、音声フレームの単位で行われることが好ましいが、 1音声フレームには限定されない。遅延部 116での遅延量は、音声データ送信装置 10における遅延部 104での遅延量と同値に設定される。

[0030] また、本実施の形態では、遅延部 116は R—ch符号ィ匕データのみを遅延させている力 L— chと R—chの時刻関係を合わせるような処理であれば、音声データに対する遅延処理の施し方はこれに限定されない。例えば、遅延部 116は、 R— ch符号ィ匕データだけでなく L ch符号ィ匕データも遅延させその遅延量の差が音声フレームの単位で設定されているような構成を有しても良い。また、送信側で R—chを遅延させた場合には、受信側では L— chを遅延させるようにする。

[0031] 音声復号部 118では、マルチチャネルの音声データをチャネルごとに復号するための処理が行われる。

[0032] 音声復号部 118において、 L ch復号部 122は、分離部 114からの L ch符号ィ匕データを復号し、復号によって得られた L ch復号音声信号が出力される。 L— ch 復号部 122の出力端と L ch重ね合わせ加算部 130の入力端とは常時接続されて V、るので、 L ch重ね合わせ加算部 130への L ch復号音声信号の出力は常時行われる。

[0033] R—ch復号部 124は、遅延部 124からの R—ch符号ィ匕データを復号し、復号によつて得られた R— ch復号音声信号が出力される。 R— ch復号部 124の出力端と R— ch重ね合わせ加算部 132の入力端とは常時接続されているので、 R—ch重ね合わせ加算部 132への R— ch復号音声信号の出力は常時行われる。

[0034] スィッチ部 126は、音声データ損失検出部 112から損失フラグが入力されたとき、損失フラグに示された情報内容に従って、 L ch復号部 122および R— ch重ね合わせ加算部 132の接続状態ならびに R— ch復号部 124および L ch重ね合わせ加算部 130の接続状態を切り替える。

[0035] より具体的には、例えば、 L ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された場合、 R—ch復号部 124 力もの R— ch復号音声信号のうち、フレーム番号 Kに相当する音声フレームを復号することにより得られた R— ch復号音声信号が、 R— ch重ね合わせ加算部 132だけでなく L— ch重ね合わせ加算部 130にも出力されるように、 R—ch復号部 124の出力端を L ch重ね合わせ加算部 130の入力端と接続する。

[0036] また、例えば、 R— ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレー

2

ムが損失したことを示す損失フラグが入力された場合、 L— ch復号部 122からの L— ch復号音声信号のうち、フレーム番号 Kに相当する音声フレームを復号することに

2

より得られた L ch復号音声信号が、 L ch重ね合わせ加算部 130だけでなく R— c h重ね合わせ加算部 132にも出力されるように、 L—ch復号部 122の出力端を R—c h重ね合わせ加算部 132の入力端と接続する。

[0037] 重ね合わせ加算部 128では、音声データ損失検出部 112からの損失フラグに従つて、マルチチャネルの復号音声信号に対して後述の重ね合わせ加算処理を施す。なお、音声データ損失検出部 112からの損失フラグは、より具体的には、 L ch重ね合わせ加算部 130および R— ch重ね合わせ加算部 132の両方に入力される。

[0038] L—ch重ね合わせ加算部 130は、損失フラグが入力されない場合、 L— ch復号部 122からの L ch復号音声信号をそのまま出力する。出力される L ch復号音声信号は、例えば図示されない後段での音声出力処理により音波に変換され出力される

[0039] また、 L— ch重ね合わせ加算部 130は、例えば、 R—ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された場

2

合、 L ch復号音声信号をそのまま出力する。出力される L ch復号音声信号は、例えば前述の音声出力処理段に出力される。

[0040] また、 L— ch重ね合わせ加算部 130は、例えば、 L— ch符号ィ匕データに属しフレーム番号に相当する音声フレームが損失したことを示す損失フラグが入力された場合、 L ch復号部 122でフレーム番号 K 1までの音声フレームの符号化データまたは復号音声信号を用いて従来の一般的な手法でフレーム番号 Kのフレームの補償を行うことにより得られた補償信号 (L ch補償信号)と、 R—ch復号部 124でフレーム番号 Kに相当する音声フレームを復号することにより得られた R— ch復号音声信号と、を重ね合わせ加算する。重ね合わせは、例えば、フレーム番号 Kのフレームの両端付近では L ch補償信号に重みが大きぐそれ以外では R— ch復号信号の重みが大きくなるように行う。このようにしてフレーム番号 Kに対応する L— ch復号音声信号が復元され、フレーム番号 Kの音声フレーム (L ch符号ィ匕データ）に対するフレーム補償処理が完了する。復元された L— ch復号音声信号は、例えば前述の音声出力処理段に出力される。

[0041] なお、重ね合わせ加算部での動作として、上記のような L ch補償信号と R— ch復号信号を用いる代わりに、 L— chのフレーム番号 K 1の復号信号の後端の一部と R— chのフレーム番号 K - 1の復号信号の後端を用いて重ね合わせ加算を行!、、その結果を L chのフレーム番号 K 1の復号信号の後端の信号として、フレーム番号 Kのフレームは R—chの復号信号をそのまま出力するようにしても良、。

[0042] R—ch重ね合わせ加算部 132は、損失フラグが入力されな力つた場合、 R—ch復号部 124からの R— ch復号音声信号をそのまま出力する。出力される R - ch復号音声信号は、例えば前述の音声出力処理段に出力される。

[0043] また、 R—ch重ね合わせ加算部 132は、例えば、 L—ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された場合、 R— ch復号音声信号をそのまま出力する。出力される R— ch復号音声信号は、例えば前述の音声出力処理段に出力される。

[0044] また、 R—ch重ね合わせ加算部 132は、例えば、 R—ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレームが損失したことを示す損失フラグが入力された

2

場合、 R— ch復号部 124でフレーム番号 K 1までの音声フレームの符号化データ

2

または復号音声信号を用いてフレーム番号 κのフレームの補償を行うことにより得ら

2

れた補償信号 (R—ch補償信号)と、 L— ch復号部 122でフレーム番号 Kに相当する音声フレームを復号することにより得られた L ch復号音声信号と、を重ね合わせ加算する。重ね合わせは、例えば、フレーム番号 Kのフレームの両端付近では R— c

2

h補償信号に重みが大きぐそれ以外では L ch復号信号の重みが大きくなるように行う。このようにしてフレーム番号 Kに対応する R— ch復号音声信号が復元され、フ

2

レーム番号 Kの音声フレーム (R—ch符号化データ）に対するフレーム補償処理が

2

完了する。復元された R— ch復号音声信号は、例えば前述の音声出力処理段に出力される。

[0045] 前述のような重ね合わせ加算処理を行うことにより、同チャネルの連続する音声フレーム間において復号結果に不連続性が生じることを抑制することができる。

[0046] ここで、音声データ受信装置 20の内部構成において、音声復号部 118として過去の音声フレームの復号状態に依存してその状態データを用いて次の音声フレームの復号を行うような符号ィ匕方式が採用されている場合について説明する。この場合には、 L ch復号部 122において、損失の生じた音声フレームの次（直後）の音声フレームに対して通常の復号処理を行うときに、当該損失の生じた音声フレームの補償に用ヽられた R— ch符号化データを R— ch復号部 124で復号する際に得られた状態データを取得し、当該次の音声フレームの復号に使用するようにしても良い。こうすることにより、フレーム間の不連続性を回避することができる。ここで、通常の復号処理とは、損失の生じて!/、な、音声フレームに対して行う復号処理を意味する。

[0047] また、この場合、 R—ch復号部 124においては、損失の生じた音声フレームの次（直後）の音声フレームに対して通常の復号処理を行うときに、当該損失の生じた音声フレームの補償に用、られた L ch符号化データを L ch復号部 122で復号する際に得られた状態データを取得し、当該次の音声フレームの復号に使用するようにしても良い。こうすることにより、フレーム間の不連続性を回避することができる。

[0048] なお、状態データとしては、例えば、（1)音声符号ィ匕方式として CELP (Code

Excited Linear Prediction)方式が採用された場合には、例えば適応符号帳や LPC 合成フィルタ状態など、（ 2) ADPCM (Adaptive Differential Pulse Code Modulation) 方式のような予測波形符号ィ匕における予測フィルタの状態データ、（3)スペクトルパラメータなどのノメータを予測量子化手法で量子化するような場合のその予測フィルタ状態、（4) FFT(Fast Fourier Transform)や MDCT (Modified Discrete Cosine Transform)などを用いる変換符号ィ匕方式にぉ、て復号波形を隣接フレーム間で重ね合わせ加算して最終復号音声波形を得るような構成におけるその前フレーム復号波形データ、などがあり、それらの状態データを用いて損失の生じた音声フレームの次（直後）の音声フレームに対して通常の音声復号を行うようにしても良、。

[0049] 次いで、上記構成を有する音声データ送信装置 10および音声データ受信装置 20 における動作について説明する。図 4は、本実施の形態に係る音声データ送信装置 10および音声データ受信装置 20の動作を説明するための図である。

[0050] 音声符号ィ匕部 102に入力されるマルチチャネルの音声信号は、 L— chの音声信号の系列および R—chの音声信号の系列力も成る。図示されているとおり、互いに同じフレーム番号に対応する L— chおよび R— chの各音声信号 (例えば、 L— chの音声信号 SL (n)および R—chの音声信号 SR(n) )が同時に音声符号ィ匕部 102に入力される。互いに同じフレーム番号に対応する各音声信号は、最終的に同時に音波として音声出力されるべき音声信号である。

[0051] マルチチャネルの音声信号は、音声符号化部 102、遅延部 104および多重化部 1 06により各処理を施され、送信音声データとなる。図示されているとおり、送信音声データは、 L ch符号ィ匕データを R— ch符号ィ匕データよりも 1音声フレームだけ遅延した状態で多重化されたものとなっている。例えば、 1^ ^1符号ィ匕データ0^ (11—1) は R— ch符号ィ匕データ CR(n)と多重化される。このようにして音声データがパケット化される。生成された送信音声データは、送信側から受信側に送信される。

[0052] したがって、音声データ受信装置 20で受信された受信音声データは、図示されているとおり、 L ch符号化データを R— ch符号ィ匕データよりも 1音声フレームだけ遅延した状態で多重化されたものとなっている。例えば、 L— ch符号ィ匕データ CL' (n- 1)は R—ch符号ィ匕データ CR， (n)と多重化されている。

[0053] このようなマルチチャネルの受信音声データは、分離部 114、遅延部 116および音声復号部 118により各処理を施され、復号音声信号となる。

[0054] ここで、音声データ受信装置 20で受信された受信音声データにぉ、て、 L ch符号化データ CL' (n— 1)および R— ch符号ィ匕データ CR， (n)に損失が発生していたと仮定する。

[0055] この場合、符号化データ CL' (n— 1)と同一フレーム番号を有する R— chの符号ィ匕データ CR，（n— 1)および符号化データ CR，（n)と同一フレーム番号を有する L— ch の符号ィ匕データ CL (n)は、損失せずに受信されているので、フレーム番号 nに対応するマルチチャネルの音声信号が音声出力されるときに一定の音質を確保できる。

[0056] さらに、音声フレーム CL' (n- 1)に損失が生じると、対応する復号音声信号 SL' ( n— 1)も失われることとなるが、符号化データ CL' (n— 1)と同一フレーム番号の R— chの符号化データ CR' (n— 1)は損失せずに受信されているので、符号化データ C R' (n— 1)により復号された復号音声信号 SR' (n—1)を用いてフレーム補償を行うことにより、復号音声信号 SL' (n— 1)が復元される。また、音声フレーム CR' (n)に損失が生じると、対応する復号音声信号 SR' (n)も失われることとなるが、符号化データ CR，（n)と同一フレーム番号の L— chの符号化データ CL (n)は、損失せずに受信されているので、符号化データ CL' (n)により復号された復号音声信号 SL' (n)を用いてフレーム補償を行うことにより、復号音声信号 SR' (n)が復元される。このようなフレーム補償を行うことにより、復元される音質の改善を図ることができる。

[0057] このように、本実施の形態によれば、送信側においては、 L ch符号化データを R ch符号化データより 1音声フレーム分だけ遅延させるような遅延処理が施されたマルチチャネルの音声データを多重化する。一方、受信側においては、 L ch符号化データ力 ¾—ch符号ィ匕データより 1音声フレーム分だけ遅延された状態で多重化されたマルチチャネルの音声データをチャネルごとに分離し、分離された符号化データに損失または誤りが発生してヽる場合、 L - ch符号ィ匕データおよび R— ch符号ィ匕データのうち一方のデータ系列を用いて他方のデータ系列における損失または誤りを補償する。このため、受信側で、音声フレームに損失または誤りが発生したときでも、マルチチャネルの少なくとも一つのチャネルを正しく受信できるようになり、そのチヤネルを用いて他のチャネルのフレーム補償を行うことが可能となり、高品質なフレーム補償を実現することができる。

[0058] あるチャネルの音声フレームを、他のチャネルの音声フレームを用いて復元することが可能となるため、マルチチャネルに含まれる各チャネルのフレーム補償性能を向上させることができる。前述のような作用効果が実現されると、ステレオ信号により表現される「音の方向性」を維持することが可能となる。よって、例えば、昨今で広く利用されている、遠隔地に居る人との電話会議において、聞こえてくる相手の声に臨場感を持たせることが可能となる。

[0059] なお、本実施の形態では、音声符号ィ匕部 102の後段で片方のチャネルのデータを遅延させる構成を例にとって説明したが、本実施の形態による効果を実現可能な構成はこれに限定されない。例えば、音声符号ィ匕部 102の前段で片方のチャネルのデータを遅延させるような構成であっても良い。この場合、設定される遅延量は、音声フレームの単位に限定されない。例えば、遅延量を 1音声フレームよりも短くすることも可能となる。例えば、 1音声フレームを 20msとすると、遅延量を 0. 5音声フレーム（1 Oms)に設定することができる。

[0060] (実施の形態 2)

図 5は、本発明の実施の形態 2に係る音声データ受信装置における音声復号部の構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置および音声データ受信装置は、実施の形態 1で説明したものと同一の基本的構成を有しているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。本実施の形態と実施の形態 1との相違点は、音声復号部の内部構成のみである。

[0061] 図 5に示す音声復号部 118は、フレーム補償部 120を有する。フレーム補償部 120 は、スィッチ部 202、 L— ch復号部 204および R— ch復号部 206を有する。

[0062] スィッチ部 202は、音声データ損失検出部 112から損失フラグが入力されたとき、損失フラグに示された情報内容に従って、分離部 114および R—ch復号部 206の接続状態ならびに遅延部 116および L— ch復号部 204の接続状態を切り替える。

[0063] より具体的には、例えば、損失フラグが入力されない場合、分離部 114からの L— c h符号化データが L - ch復号部 204のみに出力されるように、分離部 114の L - ch の出力端を L—ch復号部 204の入力端と接続する。また、損失フラグが入力されない場合、遅延部 116からの R—ch符号ィ匕データが R—ch復号部 206のみに出力されるように、遅延部 116の出力端を R—ch復号部 206の入力端と接続する。 [0064] また、例えば、 L— ch符号ィ匕データに属しフレーム番号に相当する音声フレームが損失したことを示す損失フラグが入力された場合、遅延部 116からの R— ch符号化データのうちフレーム番号 Kに相当する音声フレーム力 R— ch復号部 206だけでなく L— ch復号部 204にも出力されるように、遅延部 116の出力端を、 L— ch復号部 204および R—ch復号部 206の両方の入力端と接続する。

[0065] また、例えば、 R— ch符号ィ匕データに属しフレーム番号 Kに相当する音声フレー

2

ムが損失したことを示す損失フラグが入力された場合、分離部 114からの L—ch符号化データのうちフレーム番号 Kに相当する音声フレーム力 L ch復号部 204だけ

2

でなく R—ch復号部 206にも出力されるように、分離部 114の L— chの出力端を、 R - ch復号部 206および L - ch復号部 204の両方の入力端と接続する。

[0066] L—ch復号部 204は、分離部 114からの L—ch符号化データが入力された場合、当該 L ch符号化データを復号する。この復号結果を L ch復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

[0067] また、 L— ch復号部 204は、遅延部 116からの R—ch符号ィ匕データが入力された場合、当該 R—ch符号化データを復号する。このように R—ch符号ィ匕データを L c h復号部 204で復号することにより、損失の発生した L ch符号化データに対応する音声信号を復元することができる。復元された音声信号は、 L— ch復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

[0068] R—ch復号部 206は、遅延部 116からの R—ch符号ィ匕データが入力された場合、当該 R— ch符号化データを復号する。この復号結果を R— ch復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

[0069] また、 R—ch復号部 206は、分離部 114からの L— ch符号ィ匕データが入力された場合、当該 L— ch符号化データを復号する。このように L— ch符号ィ匕データを R— c h復号部 206で復号することにより、損失の発生した R— ch符号化データに対応する音声信号を復元することができる。復元された音声信号は、 R—ch復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。 [0070] このように、本実施の形態によれば、送信側においては、 L ch符号化データを R ch符号化データより 1音声フレーム分だけ遅延させるような遅延処理が施されたマルチチャネルの音声データを多重化する。一方、受信側においては、 L ch符号化データ力 ¾—ch符号ィ匕データより 1音声フレーム分だけ遅延された状態で多重化されたマルチチャネルの音声データをチャネルごとに分離し、分離された符号化データに損失または誤りが発生してヽる場合、 L - ch符号ィ匕データおよび R— ch符号ィ匕データのうち一方のデータ系列を用いて他方のデータ系列における損失または誤りを補償する。このため、受信側で、音声フレームに損失または誤りが発生したときでも、マルチチャネルの少なくとも一つのチャネルを正しく受信できるようになり、そのチヤネルを用いて他のチャネルのフレーム補償を行うことが可能となり、高品質なフレーム補償を実現することができる。

[0071] (実施の形態 3)

図 6は、本発明の実施の形態 3に係る音声データ受信装置における音声復号部の構成を示すブロック図である。なお、本実施の形態に係る音声データ送信装置および音声データ受信装置は、実施の形態 1で説明したものと同一の基本的構成を有しているため、同一のまたは対応する構成要素には同一の参照符号を付し、その詳細な説明を省略する。本実施の形態と実施の形態 1との相違点は、音声復号部の内部構成のみである。

[0072] 図 6に示す音声復号部 118は、フレーム補償部 120を有する。フレーム補償部 120 は、スィッチ部 302、 L— chフレーム補償部 304、 L— ch復号部 306、 R— ch復号部 308、 R—chフレーム補償部 310および相関度判定部 312を有する。

[0073] スィッチ部 302は、音声データ損失検出部 112から損失フラグの入力の有無および入力された損失フラグに示された情報内容ならびに相関度判定部 312からの指示信号の入力の有無に従って、分離部 114ならびに L - ch復号部 306および R - ch 復号部 308の間の接続状態を切り替える。また同様に、遅延部 116ならびに L— ch 復号部 306および R—ch復号部 308の間の接続関係を切り替える。

[0074] より具体的には、例えば、損失フラグが入力されない場合、分離部 114からの L— c h符号ィ匕データが L— ch復号部 306のみに出力されるように、分離部 114の L— ch の出力端を L—ch復号部 306の入力端と接続する。また、損失フラグが入力されない場合、遅延部 116からの R—ch符号ィ匕データが R—ch復号部 308のみに出力されるように、遅延部 116の出力端を R—ch復号部 308の入力端と接続する。

[0075] 上記のとおり、損失フラグが入力されない場合、接続関係は相関度判定部 312からの指示信号に依存しないが、損失フラグが入力された場合は、接続関係は指示信号にも依存する。

[0076] 例えば、フレーム番号 Kの L ch符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力があつたときは、遅延部 116からのフレーム番号 Kの R—ch符号化データ力 R—ch復号部 308だけでなく L— ch復号部 306にも出力されるように、遅延部 116の出力端を、 L— ch復号部 306および R—ch復号部 3 08の両方の入力端と接続する。

[0077] これに対して、フレーム番号 Kの L ch符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力がないときは、分離部 114の L—chの出力端と L—ch復号部 306および R—ch復号部 308との間の接続を開放とする。

[0078] また、例えば、フレーム番号 Kの R— ch符号化データが損失したことを示す損失フ

2

ラグが入力された場合で、指示信号の入力があつたときは、分離部 114からのフレーム番号 Kの L— ch符号化データ力 L— ch復号部 306だけでなく R—ch復号部 308

2

にも出力されるように、分離部 114の L— chの出力端を、 R—ch復号部 308および L — ch復号部 306の両方の入力端と接続する。

[0079] これに対して、フレーム番号 Kの R— ch符号化データが損失したことを示す損失フ

2

ラグが入力された場合で、指示信号の入力がないときは、遅延部 116の出力端と L— ch復号部 306および R—ch復号部 308との間の接続を開放とする。

[0080] L— chフレーム補償部 304および R—chフレーム補償部 310は、 L— chまたは R— chの符号化データが損失したことを示す損失フラグが入力された場合で、指示信号の入力がないときに、従来の一般的な手法と同様に、同一チャネルの前フレームまでの情報を用いたフレーム補償を行ヽ、補償データ (符号化データ又は復号信号)を、 L— ch復号部 306および R—ch復号部 308にそれぞれ出力する。

[0081] L—ch復号部 306は、分離部 114からの L—ch符号化データが入力された場合、当該 L ch符号化データを復号する。この復号結果を L ch復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

[0082] また、 L— ch復号部 306は、損失フラグの入力があった場合で、遅延部 116からの R— ch符号ィ匕データが入力されたときは、当該 R— ch符号化データを復号する。このように R— ch符号化データを L ch復号部 306で復号することにより、損失の発生した L ch符号化データに対応する音声信号を復元することができる。復元された音声信号は、 L ch復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

[0083] さらに、 L— ch復号部 306は、損失フラグの入力があった場合で、 L— chフレーム補償部 304からの補償データが入力されたときは、次のような復号処理を行う。すなわち、当該補償データとして符号化データが入力された場合はその符号化データを復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。このようにしたときも、損失の発生した L ch符号ィ匕データに対応する音声信号を復元することができる。復元された音声信号は、 L ch復号音声信号として出力される。

[0084] R— ch復号部 308は、遅延部 116からの R—ch符号ィ匕データが入力された場合、当該 R— ch符号化データを復号する。この復号結果を R— ch復号音声信号として出力する。つまり、この復号処理は、通常の音声復号処理である。

[0085] また、 R—ch復号部 308は、損失フラグの入力があった場合で、分離部 114からの L— ch符号化データが入力されたときは、当該 L— ch符号化データを復号する。このように L— ch符号ィ匕データを R—ch復号部 308で復号することにより、損失の発生した R— ch符号化データに対応する音声信号を復元することができる。復元された音声信号は、 R— ch復号音声信号として出力される。すなわち、この復号処理は、フレーム補償のための音声復号処理である。

[0086] さらに、 R—ch復号部 308は、損失フラグの入力があった場合で、 R—chフレーム補償部 310からの補償データが入力されたときは、次のような復号処理を行う。すなわち、当該補償データとして符号化データが入力された場合はその符号化データを復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。このようにしたときも、損失の発生した R— ch符号ィ匕データに対応する音声信号を復元することができる。復元された音声信号は、 R— ch復号音声信号として出力される。

[0087] 相関度判定部 312は、 L ch復号音声信号と R— ch復号音声信号との間の相関度 Corを、次の式（1)を用いて算出する。

[数 1]

Cor = ^' (-i) ' sR' (-i) . · · ( 1 )

/-1

[0088] ここで、 sL ' (i)および sR' (i)はそれぞれ L— ch復号音声信号および R— ch復号音声信号である。上記の式（1)により、補償フレームの Lサンプル前の音声サンプル値力 1サンプル前（つまり直前）の音声サンプル値までの区間における相関度 Corが算出される。

[0089] また、相関度判定部 312は、算出された相関度 Corを所定の閾値と比較する。この比較の結果、相関度 Corが所定の閾値よりも高い場合は、 L ch復号音声信号と R — ch復号音声信号との間の相関が高いと判定する。そして、損失が生じたときに互 Vヽのチャネルの符号ィ匕データを用いることを指示するための指示信号をスィッチ部 3 02に出力する。

[0090] 一方、相関度判定部 312は、算出された相関度 Corを上記閾値と比較した結果、相関度 Corが閾値以下の場合は、 L ch復号音声信号および R— ch復号音声信号の間の相関が低いと判定する。そして、損失が生じたときに同一チャネルの符号ィ匕データを使用させるために、スィッチ部 302への指示信号の出力を行わない。

[0091] このように、本実施の形態によれば、 L ch復号音声信号と R— ch復号音声信号との間の相関度 Corを所定の閾値と比較し、当該比較の結果に従って、互いのチヤネルの符号ィ匕データを用いたフレーム補償を行うか否かを決定するため、チャネル間の相関が高、ときにのみ互、のチャネルの音声データに基づく補償を行うようにすることができ、相関が低、ときに互、のチャネルの音声データを用いてフレーム補償を行うことによる補償品質の劣化を防止することができる。また、本実施の形態では、相関が低いときには同一チャネルの音声データに基づく補償を行うため、フレーム補償の品質を継続的に維持することができる。

[0092] なお、本実施の形態では、相関度判定部 312を、フレーム補償の際に符号ィ匕デ一タを用いる実施の形態 2におけるフレーム補償部 120に設けた場合を例にとって説明した。ただし、相関度判定部 312を設けたフレーム補償部 120の構成はこれに限定されない。例えば、相関度判定部 312を、フレーム補償の際に復号音声を用いるフレーム補償部 120 (実施の形態 1)に設けた場合でも、同様の作用効果を実現することができる。

[0093] この場合の構成図を図 7に示す。この場合の動作は、実施の形態 1における図 3での構成における動作に対して、主にスィッチ部 126の動作が異なる。すなわち、損失フラグと共に相関度判定部 312からの出力である指示信号の結果によりスィッチ部 1 26における接続状態が切り替わる。例えば、 L— ch符号化データが損失したことを示す損失フラグが入力された場合でかつ指示信号の入力があつたときは、 L—chフレーム補償部 304で得られた補償信号と R - chの復号信号とが L - ch重ね合わせ加算部 130に入力され重ね合わせ加算が行われる。また、 L—ch符号化データが損失したことを示す損失フラグが入力された場合でかつ指示信号の入力がない場合は、 L - chフレーム補償部 304で得られた補償信号のみが L - ch重ね合わせ加算部 1 30に入力されそのまま出力される。 R—ch符号ィ匕データに対して損失フラグが入力された時の動作も前記 R—chの場合と同様である。

[0094] L—chフレーム補償部 304は、フレーム損失フラグの入力があった場合には、損失フレームの前フレームまでの L—chの情報を用いて従来の一般的な手法と同様なフレーム補償処理を行ヽ補償データ (符号化データ又は復号信号)を L ch復号部 12 2へ出力し、 L—ch復号部 122は補償フレームの補償信号を出力する。その際、当該補償データとして符号化データが入力された場合はその符号化データを用いて復号し、補償復号信号が入力された場合はその信号をそのまま出力信号とする。また、 L - chフレーム補償部 304で補償処理を行う際には、 L— ch復号部 122における前フレームまでの復号信号や状態データを用いる、または L—ch重ね合わせ加算部 1 30の前フレームまでの出力信号を用いるようにしても良、。 R— chフレーム補償部 3 10の動作も L - chの場合と同様である。

[0095] また、本実施の形態では、相関度判定部 312は、所定区間の相関度 Corの算出処理を行うが、相関度判定部 312における相関度算出処理方法はこれに限定されな!、 [0096] 例えば、 L ch復号音声信号と R— ch復号音声信号との相関度の最大値 Cor— m axを、次の式（2)を用いて算出する方法が挙げられる。この場合、最大値 Cor— max を所定の閾値と比較し、最大値 Cor— maxがその閾値を超過している場合は、チヤネル間の相関が高いと判定する。このようにすることで、上記と同様の作用効果を実現することができる。

[0097] そして、相関が高いと判定された場合は他方のチャネルの符号ィ匕データを用いたフレーム補償が行われる。このとき、フレーム補償に用いる他チャネルの復号音声を、最大値 Cor— maxが得られるシフト量 (すなわち音声サンプル数)だけシフトさせた後に用いるようにしても良い。

[0098] 最大値 Cor— maxとなる音声サンプルのシフト量 τ—maxは、次の式（3)を用いることにより算出される。そして、 L— chのフレーム補償を行う場合には、シフト量て— m axだけ R—chの復号信号を正の時間方向にシフトした信号を用いる。逆に R— chのフレームの補償を行う場合には、シフト量て _maxだけ L— chの復号信号を負の時間方向にシフトした信号を用いる。

[数 2]

Cor _ max = max{ J s ' (- - ) · sR' (-i -M - k)} ( k：— M~M)

• · · ( 2 )

[数 3]

L

x _ max = arg max{ ^ sL' (-i - M) · sR' (-i - M - k)} ( k：— M〜M)

… ( 3 )

[0099] ここで、上記の式（2)および（3)において、 sL，（i)および sR， (i)はそれぞれ L— ch 復号音声信号および R— ch復号音声信号である。また、 L + Mサンプル前の音声サンプル値から 1サンプル前（つまり直前）の音声サンプル値までの区間中の Lサンプル分が算出対象区間となっている。また、—Mサンプル力も Mサンプルの音声サンプル分のシフト量が算出対象範囲となっている。 [0100] これにより、相関度が最大となるシフト量だけシフトさせた他チャネルの音声データを用いてフレーム補償を行うことができ、補償された音声フレームとその前後の音声フレームとのフレーム間整合をより正確に取ることができるようになる。

[0101] なお、シフト量 τ—maxは、音声サンプル数単位の整数値であっても、また音声サンプル値間の分解能を上げた小数値であっても良い。

[0102] さらに、相関度判定部 312の内部構成に関して、 L— chデータ系列の復号結果と R —chデータ系列の復号結果とを用いて、フレーム補償に用いる他方のデータ系列の音声データの復号結果に対する振幅補正値を算出する振幅補正値算出部を内部に有する構成としても良い。この場合、音声復号部 118には、算出した振幅補正値を用 V、て、当該他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正部が設けられる。そして、他チャネルの音声データを用いてフレーム補償を行う際に、その補正値を用いてその復号信号の振幅を補正するようにしても良い。なお、振幅補正値算出部の配置は、音声復号部 118の内部であれば良ぐ相関度判定部 312 の内部には限定されない。

[0103] 振幅値補正を行う場合、例えば、式 (4)の D(g)を最小にするような gを求める。そして、求められた gの値（ = g_opt)を振幅補正値とする。 L chのフレーム補償を行う場合には、振幅補正値 g_optを R— chの復号信号に乗じた信号を用いる。逆に R— ch のフレームの補償を行う場合には、振幅補正値の逆数 lZg_optを L— chの復号信号に乗じた信号を用いる。

画

D(g) = {sL'(-i -M) - g · - - T_max)}² ■ · · ( 4 )

[0104] ここで、 τ— maxは式（3)で得られた相関度が最大となる時の音声サンプルのシフト量である。

[0105] なお、振幅補正値の算出方法は式 (4)に限定されるものでなぐ a)式（5)の D (g)を最小にするような gをその振幅補正値とする、 b)式 (6)の D (g, k)を最小とするようなシフト量 kと gとを求めそのときの gを振幅補正値とする、 c)当該補償フレームの前までの所定区間に対する L chと R— chとの復号信号のパワーの平方根 (または平均振幅値)の比を補正値とする、といった方法で算出しても良い。

[数 5]

£)(g) = ^{^(-/) - ^ . ^'(- )}² … ( 5 )

[数 6]

D(g,k) = {sL'(-i -M) - g - sR'(-i -M - k)}² ( k ： — M〜M)

'一 . . . （6 )

[0106] これにより、他チャネルの音声データを用いてフレーム補償を行う際に、その復号信号の振幅を補正した後に補償に用いることで、より適切な振幅を有した補償を行うことができる。

[0107] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全てを含むように 1チップィ匕されても良い。

[0108] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0109] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field

Programmable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブノレ ·プロセッサーを J用しても良、。

[0110] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてありえる。

[0111] 本明細書は、 2004年 6月 2日出願の特願 2004— 165016に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0112] 本発明の音声データ送信 Z受信装置および音声データ送信 Z受信方法は、誤りのある音声データや損失した音声データの補償処理が行われる音声通信システム等において有用である。

Claims

請求の範囲

[1] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信装置において、

前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延手段と、

前記遅延処理が施された前記音声データ系列を多重化する多重化手段と、多重化された前記音声データ系列を送信する送信手段と、

を有する音声データ送信装置。

[2] 前記遅延手段は、

所定の音声フレームの単位で前記遅延処理を行う、

請求の範囲 1記載の音声データ送信装置。

[3] 前記音声データ系列を符号化する符号化手段を有し、

前記遅延手段は、

符号化された前記音声データに対して前記遅延処理を施す、

請求の範囲 1記載の音声データ送信装置。

[4] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信手段と、

受信された前記音声データ系列をチャネルごとに分離する分離手段と、分離された前記音声データ系列をチャネルごとに復号する復号手段と、を有し、前記復号手段は、

分離された前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償手段を有する、

音声データ受信装置。

[5] 各データ系列は、フレームを単位とする音声データの系列を成し、前記補償手段は、

前記他方のデータ系列から前記損失または誤りの発生した音声データの直前までの音声データを用いて復号した結果と前記一方のデータ系列に属する音声データの復号結果とを重ね合わせ加算する加算手段を有する、

請求の範囲 4記載の音声データ受信装置。

[6] 前記復号手段は、

前記第一データ系列の復号結果と前記第二データ系列の復号結果との間の相関度を算出する相関度算出手段と、

算出された相関度を所定の閾値と比較する比較手段と、を有し、

前記補償手段は、

前記比較手段の比較結果に従って、前記補償を行うか否かを決定する、請求の範囲 4記載の音声データ受信装置。

[7] 前記相関度算出手段は、

前記相関度を最大にする音声サンプルのシフト量を算出するシフト量算出手段を有し、

前記補償手段は、

算出されたシフト量に基づいて、前記補償を行う、

請求の範囲 6記載の音声データ受信装置。

[8] 前記復号手段は、

前記第一データ系列の復号結果と前記第二データ系列の復号結果とを用いて、フレーム補償に用いる前記他方のデータ系列の音声データの復号結果に対する振幅補正値を算出する振幅補正値算出手段と、

前記振幅補正値を用いて前記他方のデータ系列の音声データの復号結果の振幅を補正する振幅補正手段と、

を有する請求の範囲 7記載の音声データ受信装置。

[9] 各データ系列は、フレームを単位とする音声データの系列を成し、

前記復号手段は、

前記他方のデータ系列に属する音声データのうち前記損失または誤りの発生した音声データの直後に位置する音声データを復号する場合に、前記補償に用いられた前記一方のデータ系列の音声データを復号した際に得られる復号状態データを用いて復号する、

請求の範囲 4記載の音声データ受信装置。

[10] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列を送信する音声データ送信方法において、

前記第一データ系列を前記第二データ系列より所定の遅延量だけ遅延させる遅延処理を、前記音声データ系列に対して施す遅延ステップと、

前記遅延処理が施された前記音声データ系列を多重化する多重化ステップと、多重化された前記音声データ系列を送信する送信ステップと、

を有する音声データ送信方法。

[11] 第一チャネルに対応する第一データ系列と第二チャネルに対応する第二データ系列とを含むマルチチャネルの音声データ系列であって前記第一データ系列が前記第二データ系列より所定の遅延量だけ遅延された状態で多重化された前記音声データ系列を受信する受信ステップと、

受信した前記音声データ系列をチャネルごとに分離する分離ステップと、分離した前記音声データ系列をチャネルごとに復号する復号ステップと、を有し、前記復号ステップは、

分離した前記音声データ系列に損失または誤りが発生している場合、前記第一データ系列および前記第二データ系列のうち一方のデータ系列を用いて他方のデータ系列における前記損失または誤りを補償する補償ステップを有する、

音声データ受信方法。