WO2006008932A1

WO2006008932A1 - 音声符号化装置および音声符号化方法

Info

Publication number: WO2006008932A1
Application number: PCT/JP2005/011998
Authority: WO
Inventors: Koji Yoshida
Original assignee: Matsushita Electric Industrial Co., Ltd.
Priority date: 2004-07-23
Filing date: 2005-06-29
Publication date: 2006-01-26
Also published as: EP1768106B8; ES2634511T3; EP1768106B1; EP1768106A1; EP3276619A1; EP1768106A4; US20070299660A1; CN1989549B; EP3276619B1; US8670988B2; CN1989549A; JPWO2006008932A1

Abstract

　音声符号化に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号化装置を提供する。音声符号化装置（１００）は、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを出力する。音声符号化部（１０２）は、入力音声信号を所定区間単位で符号化し符号化データを生成する。有音無音判定部（１０６）は、入力音声信号が音声成分を含むか否かを所定区間毎に判定する。ビット埋め込み部（１０４）は、音声符号化部（１０２）によって生成された符号化データのうち無音区間の入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、音声成分を含む音声信号に対応する符号化データと音声成分を含まない音声信号に対応する符号化データとを取得する。

Description

明細書

音声符号化装置および音声符号化方法

技術分野

[0001] 本発明は、音声符号化装置および音声符号化方法に関し、特に、有音区間と無音区間とで異なるフォーマットタイプの符号ィ匕データを伝送するのに用いられる音声符号化装置および音声符号化方法に関する。

背景技術

[0002] IP (Internet Protocol)ネットワーク上での音声データ通信にお、て、有音区間と無音区間とで異なるフォーマットタイプの符号ィ匕データを伝送することがある。有音とは

、音声信号が所定レベル以上の音声成分を含むことである。無音とは、音声信号が所定レベル以上の音声成分を含まな、ことである。音声信号が音声成分とは異なる雑音成分のみを含む場合、その音声信号は無音と認識される。このような伝送技術の一つに、 DTX制御と呼ばれるものがある（例えば、非特許文献 1および非特許文献 2参照)。

[0003] 例えば図 1に示す音声符号ィ匕装置 10が DTX制御を伴うモードで音声符号ィ匕を行う場合、有音無音判定部 11で、所定長の区間 (フレーム長に相当）の単位で区切られた音声信号に対して、その区間毎に有音か無音かの判定が行われる。そして、有音と判定された場合つまり有音区間の場合、音声符号化部 12で生成された符号ィ匕データは、有音フレームとして DTX制御部 13から出力される。このとき、有音フレームは、有音フレームの伝送を通知するためのフレームタイプ情報とともに出力される。有音フレームは、例えば図 2 (A)に示すように、 Nvビットの情報で構成されたフォーマットを有する。

[0004] 一方、無音と判定された場合つまり無音区間の場合は、快適雑音符号化部 14で無音フレーム符号化が行われる。無音フレーム符号化は、無音区間における周囲騒音を模擬した信号を復号側で得るための符号化であり、有音区間に比べて少ない情報量つまりビット数で行われる符号ィ匕である。無音フレーム符号ィ匕によって生成された符号ィヒデータは、連続する無音区間において一定の周期で、いわゆる SID (Silence Descriptor)フレームとして DTX制御部 13から出力される。このとき、 SIDフレームは、 SIDフレームの伝送を通知するためのフレームタイプ情報とともに出力される。また、 SIDフレームは、例えば図 2 (B)〖こ示すように、 Nuvビット（Nuvく Nv)の情報で構成されたフォーマットを有する。

[0005] また、無音区間において SIDフレームが伝送されるとき以外は、符号化情報の伝送が行われない。換言すれば、無音フレームの伝送が省略される。ただし、無音フレームの伝送を通知するためのフレームタイプ情報だけが DTX制御部 13から出力される。このように、 DTX制御では、不連続な伝送が行われるような制御が行われるので、伝送路を介して伝送される情報量ゃ復号側で復号される情報量は、無音区間において低減される。

[0006] これに対して、 DTX制御を伴わな、モードで音声符号ィ匕を行う場合は、音声信号は常に有音であるものとして扱われ、その結果、符号化データの伝送が常に連続的に行われる。したがって、 DTX制御機能を有する従来の音声符号化装置では、音声符号ィ匕のモードを、 DTX制御を伴うモード (DTX制御あり）または DTX制御を伴わな V、モード (DTX制御なし)の、ずれかに予め設定した上で、音声符号化を行う。

特干文献 1： Mandatory speech CODEし speech processing functions; AMR spee ch CODEC; General description , 3rd Generation Partnership Project, TS2b.071 非特許文献 2： " Mandatory speech codec speech processing iunctionsAdaptive Multi -Rate (AMR) speech codec; Source controlled rate operation , 3rd Generation Part nership Project, TS26.093

発明の開示

発明が解決しょうとする課題

[0007] し力しながら、上記従来の音声符号化装置においては、 DTX制御ありの場合と DT X制御なしの場合とで、出力される符号ィ匕データ系列に違いが生じる。例えば、 DTX 制御なしのモードでは、符号ィ匕データを構成する符号ィ匕データのフォーマットは 1タイブである。これに対し、 DTX制御ありのモードでは、実際に伝送される符号化データのフォーマットは 2タイプである力実質的に存在するフォーマットは 3タイプである。このような違いに伴って、符号ィ匕側で DTX制御を行う場合、復号側では DTX制御ありの音声符号ィ匕に対応したモードで音声復号を行う必要があり、また、符号化側で DTX制御を行わな、場合、 DTX制御なしの音声符号ィ匕に対応したモードで音声復号を行う必要がある。換言すれば、復号側で設定される音声復号のモードは、符号化側で設定される音声符号化のモードに拘束されるため、復号側は音声復号のモードを自由に選択できない。

[0008] すなわち、 DTX制御対応の音声復号装置に対して、 DTX制御なしのモードで生成された符号化データを伝送したとすると、ある符号化データの元の音声信号が無音だったとしても、ネットワーク上で、無音区間において復号する情報量を低減することができない、すなわち、伝送効率の向上を図ることができず、またその音声復号装置は処理負荷を軽減することができない。一方、 DTX制御ありのモードで生成された符号化データを伝送したとすると、音声復号装置でのサービス (例えば、全区間を有音として復号することで得られる高音質受信モード)の選択の自由度が制限されてしまつ。

[0009] また、 DTX制御対応でなヽ音声復号装置に対して、 DTX制御ありのモードで得られた符号化データを伝送すると、その音声復号装置は、受信した符号化データを復号することができない。

[0010] したがって、例えば、音声符号化装置が、 DTX制御対応のものと DTX制御対応でな、ものとを含む複数の音声復号装置に対してマルチキャストを行う場合、 DTX制御ありのモードで音声符号ィ匕を行っても、 DTX制御なしのモードで音声符号ィ匕を行つても、上記のいずれかの問題が発生する。

[0011] 本発明の目的は、音声符号ィ匕に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる音声符号ィ匕装置および音声符号ィ匕方法を提供することである。課題を解決するための手段

[0012] 本発明の音声符号化装置は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号ィ匕データとを出力する音声符号化装置であって、入力音声信号を所定区間単位で符号化し符号ィ匕データを生成する符号化手段と、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号力生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号ィヒデータと前記第二の符号化データとを取得する合成手段と、を有する構成を採る。

[0013] 本発明の音声復号装置は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記第二の復号音声信号の 1ヽずれか一方を選択する選択手段と、を有する構成を採る。

[0014] 本発明の音声符号化方法は、音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号ィ匕データとを出力する音声符号化方法であって、入力音声信号を所定区間単位で符号化し符号ィ匕データを生成する符号化ステップと、前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号力生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号ィヒデータと前記第二の符号化データとを取得する合成ステップと、を有するようにした。

[0015] 本発明の音声復号方法は、雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステップと、前記第一の復号音声信号および前記第二の復号音声信号の!/、ずれか一方を選択する選択ステップと、を有するようにした。

発明の効果

[0016] 本発明によれば、音声符号ィ匕に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができるとともに、復号側がその制御方式に対応していなくとも復号可能なデータを生成することができる。

図面の簡単な説明

[0017] [図 1]従来の音声符号ィ匕装置の構成の一例を示すブロック図 [図 2]従来の有音フレームの構成の一例および従来のいわゆる SIDフレームの構成の一例を示す図

[図 3]本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図

[図 4A]本発明の実施の形態 1に係る音声復号装置の構成の一例を示すブロック図

[図 4B]本発明の実施の形態 1に係る音声復号装置の構成の他の例を示すブロック図

[図 5]本発明の実施の形態 1のフォーマットタイプの例を示す図

[図 6]本発明の実施の形態 1のフォーマットタイプの変形例を示す図

[図 7]本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図

[図 8]本発明の実施の形態 2に係る音声符号ィ匕部の構成を示すブロック図

[図 9]本発明の実施の形態 2に係る第 1符号ィ匕候補生成部の構成を示すブロック図

[図 10]本発明の実施の形態 2に係る第 1符号ィ匕候補生成部の動作説明図

[図 11A]本発明の実施の形態 3に係るスケーラブル符号ィ匕装置の構成を示すブロック図

[図 11B]本発明の実施の形態 3に係るスケーラブル復号装置の構成を示すブロック図発明を実施するための最良の形態

[0018] 以下、本発明の実施の形態について、図面を用いて詳細に説明する。

[0019] (実施の形態 1)

図 3は、本発明の実施の形態 1に係る音声符号ィ匕装置の構成を示すブロック図である。また、図 4Aは、本実施の形態に係る音声復号装置の構成の一例を示すブロック図であり、図 4Bは、本実施の形態に係る音声復号装置の構成の他の例を示すブロック図である。

[0020] まず、図 3に示す音声符号化装置 100の構成について説明する。音声符号化装置 100は、音声符号化部 102、ビット埋め込み部 104、有音無音判定部 106、フレームタイプ判定部 108および無音パラメータ分析'符号ィ匕部 110を有する。

[0021] 音声符号ィ匕部 102は、入力音声信号を所定長の区間 (フレーム)単位で符号ィ匕し、複数 (例えば、 Nv)ビットの符号化ビット列から成る符号化データを生成する。音声符号ィ匕部 102は、生成される符号ィ匕データのフォーマットが常に同じになるように、符号ィ匕のときに得られた Nvビットの符号ィ匕ビット列を配置することにより符号ィ匕データの生成を行う。また、符号ィ匕データのビット数は予め定められている。

[0022] 有音無音判定部 106は、入力音声信号が音声成分を含む力否かを、前述の区間毎に判定し、この判定結果を示す有音無音判定フラグをフレームタイプ判定部 108 および無音パラメータ分析'符号ィ匕部 110に出力する。

[0023] フレームタイプ判定部 108は、入力された有音無音判定フラグを用いて、音声符号化部 102で生成された符号化データを、 3種類のフレームタイプ、すなわち、（a)有音フレーム、（b)無音フレーム (埋込みあり）、（c)無音フレーム (埋込みなし)のいずれかに決定する。

[0024] より具体的には、有音無音判定フラグが有音を示す場合は、（a)有音フレームに決定する。また、有音無音判定フラグが無音を示す場合は、（b)無音フレーム (埋込みあり）または（c)無音フレーム (埋込みなし）に決定する。

[0025] さらに、無音を示す有音無音判定フラグが連続する場合、換言すれば、無音区間が続、て、る場合、一定周期毎のフレーム (符号化データ)だけを (b)無音フレーム（埋込みあり）に決定し、それ以外を (c)無音フレーム (埋込みなし）に決定する。あるいは、無音を示す有音無音判定フラグが連続する場合、入力音声信号の信号特性が変換したときだけを (b)無音フレーム (埋込みあり）に決定し、それ以外を (c)無音フレーム（埋込みなし）に決定する。こうすることで、ビット埋め込み部 104での埋め込み処理の負荷を軽減することができる。決定された結果は、フレームタイプ情報として出力される。フレームタイプ情報は、無音パラメータ分析'符号ィ匕部 110およびビット埋め込み部 104に通知される情報であり、且つ、符号化データとともに伝送される情報でもある。

[0026] 無音パラメータ分析 ·符号化部 110は、入力音声信号が有音無音判定部 106によつて無音と判定された場合つまり無音区間の場合、模擬雑音データとしての無音パラメータ符号化データを生成する。

[0027] より具体的には、連続する無音区間において入力音声信号の信号特性を平均化することにより得られる情報を無音パラメータとする。無音パラメータに含まれる情報としては、例えば、 LPC (Linear Predictive Coding)分析により得られるスペクトル概形情報、音声信号のエネルギー、 LPCスペクトル合成における駆動音源信号の利得情報などが挙げられる。無音パラメータ分析'符号ィ匕部 110は、無音パラメータを、有音区間の入力音声信号よりも少な、ビット数 (例えば、 Nuvビット)で符号化して無音パラメータ符号化データを生成する。つまり、無音パラメータ符号ィヒデータのビット数は、音声符号ィ匕部 102により符号化される入力音声信号のビット数よりも少ない (Nuv く Nv)。生成された無音パラメータ符号ィ匕データは、フレームタイプ判定部 108から出力されたフレームタイプ情報が無音フレーム (埋込みあり）を示している場合に、出力される。

[0028] ビット埋め込み部 104は、フレームタイプ判定部 108から出力されたフレームタイプ情報が有音フレームまたは無音フレーム (埋込みなし)を示して、る場合は、音声符号ィ匕部 102から出力された符号ィ匕フレームをそのまま出力する。したがって、この場合に出力される符号ィ匕データのフォーマットは、図 5 (A)に示すように、音声符号ィ匕部 102によって生成された符号ィ匕データのフォーマットと同一である。

[0029] 一方、フレームタイプ判定部 108から出力されたフレームタイプ情報が無音フレーム（埋込みあり）を示している場合は、音声符号ィ匕部 102から出力された符号ィ匕デ一タに、無音パラメータ分析 ·符号化部 110から出力された無音パラメータ符号ィ匕デ一タを埋め込む。そして、無音パラメータ符号ィ匕データが埋め込まれた符号ィ匕データを出力する。したがって、この場合に出力される符号化データは、図 5 (B)に示すように、音声符号ィ匕部 102によって生成された符号ィ匕データ内の所定の位置に無音パラメータ符号ィ匕データが埋め込まれたフォーマットタイプを有する。

[0030] このように、符号ィ匕データに無音パラメータ符号ィ匕データを埋め込むため、符号ィ匕データのフレームサイズを変えずに、符号ィ匕データの伝送を行うことができる。さらに、符号化データの所定の位置に無音パラメータ符号化データを埋め込むため、無音ノメータ符号ィ匕データを埋め込むときの制御処理を簡略ィ匕することができる。

[0031] より具体的には、ビット埋め込み部 104は、符号ィ匕データの Ννビットのうち所定の位置に配置された Nuvビットを、 Nuvビットから成る無音パラメータ符号ィ匕データで置き換える。こうすることで、符号ィ匕によって得られた符号ィ匕データの一部のビットの代わりに、無音パラメータ符号ィ匕データを伝送することができる。また、 Nvビットから成る符号化データの一部を無音パラメータ符号化データで置き換えるため、符号化データの残りのビットおよび無音パラメータ符号ィ匕データの両方を伝送することができる。

[0032] あるいは、ビット埋め込み部 104は、符号化データの Nvビットのうち所定の位置に配置された Nuvビットを、 Nuvビットから成る無音パラメータ符号ィ匕データで上書きする。こうすることで、符号ィ匕によって得られた符号ィ匕データの一部のビットを消去して、無音パラメータ符号ィ匕データを伝送することができる。また、 Nvビットから成る符号ィ匕データの一部を無音パラメータ符号化データで上書きするため、符号化データの残りのビットおよび無音パラメータ符号ィ匕データの両方を伝送することができる。

[0033] ビットの置き換えまたは上書きを行うことは、これらを行っても復号音声信号の品質に与える影響が低い場合や、符号ィ匕のときに得られた符号ィ匕ビット列に低重要度のビットがある場合などに、とりわけ有効である。

[0034] また、本実施の形態では、符号ィ匕のときに得られたビットの置き換えまたは上書きを行うことにより無音パラメータ符号ィ匕データを埋め込む場合について説明した。ただし、無音パラメータ符号ィ匕データを埋め込む代わりに、図 6に示すように、符号化のときに得られた Nvビットのビット列の後端に Nuvビットの無音パラメータ符号ィ匕データを付加しても良い。つまり、ビット埋め込み部 104は、無音パラメータ符号化データの埋め込みや付加を行うことで、無音パラメータ符号化データと符号化データとを合成する。これにより、この合成を行う場合と行わない場合とで、異なるタイプのフォーマットを持つ符号ィ匕データが取得されるようなフレームフォーマット切り替え制御が行われる。こうすることによって、無音パラメータ符号ィ匕データが符号ィ匕データに合成された場合と合成されない場合とでフレームフォーマットのタイプは異なる力基本的なフレーム構成は不変のままで、符号ィ匕データ系列を伝送することができる。

[0035] また、無音パラメータ符号ィ匕データの付加を行う場合は、符号ィ匕データのフレームサイズが変わるので、符号ィ匕データとともにフレームサイズに関する情報を、任意の形式で伝送することが好まヽ。

[0036] また、本実施の形態では、無音パラメータ符号化データを符号化データの所定の位置に埋め込む場合について説明した。ただし、無音パラメータ符号化データの埋め込み方は前述のものに限定されない。例えば、ビット埋め込み部 104は、無音パラメータ符号化データが埋め込まれる位置を、埋め込みを行うたびに適応的に定めても良い。この場合、置換対象となるビットの位置または上書き対象となるビットの位置を、各ビットの感度や重要度などに応じて適応的に変更することができる。

[0037] 次に、図 4Aおよび図 4Bに示す音声復号装置 150a、 150bの構成について説明する。音声復号装置 150aは、音声符号ィ匕装置 100のフレームフォーマット切り替え制御に対応する機能を有しない構成となっているが、音声復号装置 150bは、その機能を有する構成となってヽる。

[0038] 図 4Aに示す音声復号装置 150aは、音声復号部 152を有する。

[0039] 音声復号部 152は、音声符号ィ匕装置 100から伝送路を介して伝送された符号ィ匕データを受信する。また、受信符号ィ匕データに対してフレーム単位で復号を行う。より具体的には、受信符号化データを構成する符号化データを復号することにより、復号音声信号を生成する。受信符号ィ匕データには、無音パラメータ符号ィ匕データが合成されて、る力否かによってフォーマットの変化する符号ィ匕データが含まれて、る。しかし、基本的なフレーム構成の変化しな、符号化データが連続的に伝送されるので、フレームフォーマット切り替え制御対応でない音声復号装置 150aは、音声符号ィ匕装置 100から受信した符号ィ匕データを復号することができる。

[0040] 図 4Bに示す音声復号装置 150bは、音声復号装置 150aに設けられたものと同一の音声復号部 152の他に、切り替え器 154、無音パラメータ抽出部 156、フレームタィプ判定部 158および無音フレーム復号部 160を有する。

[0041] 無音パラメータ抽出部 156は、受信符号化データを構成する符号化データのうち無音フレーム (埋込みあり）として伝送された符号化データに合成された無音パラメ一タ符号化データを抽出する。

[0042] フレームタイプ判定部 158は、音声符号ィ匕装置 100から伝送されたフレームタイプ情報を受信し、受信した符号ィ匕データが 3種類のフレームタイプの中のどれに該当するかを判定する。判定の結果は、切り替え器 154および無音フレーム復号部 160 に通知される。

[0043] 無音フレーム復号部 160は、フレームタイプ情報に示された情報が無音フレームであった場合に、無音パラメータ抽出部 156によって抽出された無音パラメータ符号ィ匕データのみを復号する。これによつて、無音パラメータに含まれている情報 (例えば、スペクトル概形情報やエネルギーなど)を取得する。そして、取得した情報を用いて、無音フレーム (埋込みあり）および無音フレーム (埋込みなし)を含む全ての無音フレームにおける復号音声信号を生成する。

[0044] 切り替え器 154は、フレームタイプ判定部 158から通知された判定結果に従って、音声復号装置 150bの出力を切り替える。例えば、フレームタイプ情報に示された情報が有音フレームであった場合は、音声復号部 152によって生成された復号音声信号が音声復号装置 150bの出力となるように、接続を制御する。つまり、図 4Bに示すように、音声復号装置 150bの出力との接続が a側に切り替えられる。一方、示された情報が無音フレームの場合は、無音フレーム復号部 160によって生成された復号音声信号が音声復号装置 150bの出力となるように、接続を制御する。つまり、音声復号装置 150bの出力との接続力 ¾側に切り替えられる。

[0045] 前述の接続切り替え制御は、伝送される符号化データのフレームタイプによって復号対象を切り替えるために行われる。ただし、切り替え器 154は、伝送される符号ィ匕データのフレームタイプに依存した制御を行わず、音声復号装置 150bの出力との接続を a側に常時固定することもできる。音声復号装置 150bは、フレームタイプに依存した接続切り替え制御を行うか、または、接続の常時固定を行うか、を自ら選択する。こうすることにより、音声復号装置 150bは、無音パラメータ符号ィ匕データが合成されたままの状態で符号化データを復号することと、合成された無音パラメータを選択的に復号することと、のいずれかを自由に選択することができる。

[0046] 次いで、上記構成を有する音声符号化装置 100での無音パラメータ符号化データ埋め込み動作にっ、て説明する。

[0047] 音声符号化部 102では、入力音声信号の音声符号化を行い、符号化データを生成する。また、入力音声信号のフレームタイプ判定を行う。

[0048] そして、フレームタイプ判定の結果、符号化データが有音フレームに決定された場合は、ビット埋め込み部 104での無音パラメータ符号ィ匕データ埋め込みは行われず、その結果、図 5 (A)に示すフォーマットの符号化データが取得される。また、符号ィ匕データが無音フレーム (埋込みなし）に決定された場合も、無音パラメータ符号化データ埋め込みは行われず、その結果、図 5 (A)に示すフォーマットの符号化データが取得される。一方、符号化データが無音フレーム (埋込みあり）に決定された場合は、無音パラメータ符号ィ匕データ埋め込みが行われ、その結果、図 5 (B)に示すフォーマットの符号ィ匕データが取得される。

[0049] このように、本実施の形態によれば、符号化データのうち、無音フレーム (埋込みあり）としての符号ィ匕データのみに無音パラメータ符号ィ匕データを合成することにより、音声成分を含む音声信号に対応する符号ィ匕データと音声成分を含まない音声信号に対応する符号化データとを取得する、つまり符号化データに無音パラメータ符号化データを合成するため、復号側に対して、異なるフォーマットタイプを有していながら同様のフレーム構成を有する符号化データを連続的に伝送することができる。このため、無音パラメータ符号ィ匕データが符号ィ匕データに合成されるようなモードで生成された符号化データが復号側に伝送された場合に、復号側では、符号化データを、無音パラメータ符号化データが合成されたままの状態で復号することができる。すなわち、符号化側では、音声符号ィ匕に伴って用いられる制御方式に復号側が対応していなくとも復号可能なデータを生成することができる。さらに、前述の場合において、復号側では、無音パラメータ符号ィ匕データが合成されたままの状態で符号ィ匕データを復号することと、合成された無音パラメータ符号化データを選択的に復号することと、のいずれかを自由に選択することができる。すなわち、符号化側では、音声符号ィ匕に伴って用いられる制御方式に対応した音声復号のモードを復号側に自由に選択させることができる。

[0050] (実施の形態 2)

図 7は、本発明の実施の形態 2に係る音声符号ィ匕装置の構成を示すブロック図である。なお、本実施の形態で説明する音声符号ィ匕装置 200は、実施の形態 1で説明した音声符号ィ匕装置 100と同様の基本的構成を有するため、同一の構成要素には同一の参照符号を付し、その詳細な説明を省略する。また、音声符号化装置 200から伝送される符号化データは、実施の形態 1で説明した音声復号装置 150a、 150b で復号することができるので、ここでは音声復号装置についての説明を省略する。

[0051] 音声符号化装置 200は、音声符号化装置 100に設けられた音声符号化部 102およびビット埋め込み部 104の代わりに、音声符号ィ匕部 202を設けた構成を有する。 [0052] 音声符号ィ匕部 202は、音声符号化部 102の動作およびビット埋め込み部 104の動作を組み合わせた動作を実行する。また、音声符号ィ匕部 202には、入力音声信号を効率的に符号化することができる CELP (Code Excited Linear Prediction)符号化が適用されている。

[0053] 音声符号ィ匕部 202は、図 8に示すとおり、 LPC分析部 204、第 1符号化候補生成部 206、 LPC量子化部 208、適応符号利得符号帳 210、適応符号帳 212、乗算器 2 14、加算器 216、固定符号帳 218、乗算器 220、第 2符号ィ匕候補生成部 222、合成フィルタ 224、減算器 226、重み付け誤差最小化部 228、無音パラメータ符号化データ分割部 230および多重化部 232を有する。

[0054] LPC分析部 204は、入力音声信号を用いて線形予測分析を行!、、その分析結果つまり LPC係数を LPC量子化部 208に出力する。

[0055] LPC量子化部 208は、 LPC分析部 204から出力された LPC係数を、第 1符号化候補生成部 206から出力された符号ィ匕候補値および符号ィ匕候補符号に基づいて、ベタトル量子化する。そして、ベクトル量子化の結果として得られた LPC量子化符号を多重化部 232に出力する。また、 LPC量子化部 208は、 LPC係数から復号化 LPC 係数を得て、この復号化 LPC係数を合成フィルタ 224に出力する。

[0056] 第 1符号ィ匕候補生成部 206は、図 9に示すように、符号帳 242および探索範囲制限部 244を有し、入力音声信号の音声符号ィ匕を行うときに LPC量子化部 208で行われる LPC係数のベクトル量子化に用いられる、符号化候補値および符号化候補符号を生成し、これらを LPC量子化部 208に出力する。

[0057] 符号帳 242は、音声信号を符号ィ匕するときに LPC量子化部 208で用いられ得る符号ィ匕候補値および符号ィ匕候補符号のリストを予め保持している。探索範囲制限部 24 4は、入力音声信号を符号ィ匕するときに LPC量子化部 208で用いられる符号ィ匕候補値および符号化候補符号を生成する。より具体的には、フレームタイプ判定部 108からのフレームタイプ情報が「有音フレーム」または「無音フレーム (埋込みなし)」を示している場合、探索範囲制限部 244は、符号帳 242に予め保持されている符号化候補値および符号ィ匕候補符号に対して、探索範囲の制限を行わない。一方、フレームタイブ情報が「無音フレーム (埋込みあり）」を示して、る場合、探索範囲制限部 244は、符号化候補値および符号化候補符号に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号ィ匕データ分割部 230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行!、且つマスクビットの割り当てに従つて分割パラメータ符号を埋め込むことによって、定められる。

[0058] 合成フィルタ 224は、 LPC量子化部 208から出力された復号ィ匕 LPC係数と加算器 216から出力された駆動音源とを用いてフィルタ合成を行い、合成信号を減算器 22 6へ出力する。減算器 226は、合成フィルタ 224から出力された合成信号と入力音声信号との誤差信号を算出し、重み付け誤差最小化部 228に出力する。

[0059] 重み付け誤差最小化部 228は、減算器 226から出力された誤差信号に対して聴覚的な重み付けを行、、聴覚重み付け領域での入力音声信号と合成信号との歪みを算出する。そして、この歪みが最小となるように、適応符号帳 212と固定符号帳 218と第 2符号ィ匕候補生成部 222とから生成されるべき信号を決定する。

[0060] より具体的には、重み付け誤差最小化部 228は、歪みを最小とする適応音源ラグを適応符号帳 212から選択する。また、歪みを最小とする固定音源ベクトルを固定符号帳 218から選択する。また、歪みを最小とする量子化適応音源利得を適応符号利得符号帳 210から選択する。また、量子化固定音源利得を第 2符号ィ匕候補生成部 222 から選択する。

[0061] 適応符号帳 212は、ノッファを有し、過去に加算器 216によって出力された駆動音源をそのノッファに記憶しており、重み付け誤差最小化部 228から出力される信号によって特定される切り出し位置から 1フレーム分のサンプルをバッファ力切り出し、適応音源ベクトルとして乗算器 214へ出力する。また、決定結果を示す適応音源ラグ符号を多重化部 232に出力する。また、適応符号帳 212は、加算器 216から出力された駆動音源を受けるたびにバッファに記憶された駆動音源のアップデートを行う。

[0062] 適応符号利得符号帳 210は、重み付け誤差最小化部 228から出力される信号に基づいて、量子化適応音源利得を決定し、これを乗算器 214に出力する。また、この決定結果を示す量子化適応音源利得符号を多重化部 232に出力する。

[0063] 乗算器 214は、適応符号利得符号帳 210から出力された量子化適応音源利得を、適応符号帳 212から出力された適応音源ベクトルに乗じ、その乗算結果を加算器 21 6に出力する。

[0064] 固定符号帳 218は、重み付け誤差最小化部 228から出力された信号によって特定される形状を有するベクトルを固定音源ベクトルとして決定し、乗算器 220へ出力する。また、この決定結果を示す固定音源ベクトル符号を多重化部 232に出力する。

[0065] 乗算器 220は、第 2符号ィ匕候補生成部 222から出力された量子化固定音源利得を、固定符号帳 218から出力された固定音源ベクトルに乗じ、その乗算結果を加算器 2 16に出力する。

[0066] 加算器 216は、乗算器 214から出力された適応音源ベクトルと乗算器 220から出力された固定音源ベクトルとを加算し、その加算結果である駆動音源を合成フィルタ 224および適応符号帳 212に出力する。

[0067] 無音パラメータ符号化データ分割部 230は、無音パラメータ分析'符号化部 110から出力された無音パラメータ符号ィ匕データを分割する。無音パラメータ符号化データは、無音パラメータ符号ィ匕データが埋め込まれる量子化符号のビット数毎に分割される。また、本実施の形態では、フレーム単位の LPC量子化符号およびサブフレーム単位の量子化固定音源利得符号を埋め込み対象の量子化符号に指定している。このため、無音パラメータ符号化データ分割部 230は、無音パラメータ符号化データを (1 +サブフレーム数)分に分割し、その個数分の分割パラメータ符号を得る。

[0068] 第 2符号化候補生成部 222は、固定符号利得符号帳を有し、音声符号化を行うときに固定音源ベクトルに乗算する量子化固定音源利得の候補を生成する。より具体的には、フレームタイプ判定部 108からのフレームタイプ情報が「有音フレーム」または「無音フレーム (埋込みなし)」を示して、る場合、第 2符号ィ匕候補生成部 222は、予め固定符号利得符号帳に格納されている、量子化固定音源利得候補に対して、探索範囲の制限を行わない。一方、フレームタイプ情報が「無音フレーム (埋込みあり）」を示している場合、第 2符号ィ匕候補生成部 222は、量子化固定音源利得候補に対して、探索範囲の制限を行う。制限された探索範囲は、無音パラメータ符号化データ分割部 230から得た分割パラメータ符号のビット数に基づくマスクビットの割り当てを行い且つマスクビットの割り当てに従って分割パラメータ符号を埋め込むことによつて、定められる。このようにして、量子化固定音源利得候補の生成が行われる。そして、生成された量子化固定音源利得候補の中から、重み付け誤差最小化部 228から信号に基づいて特定されるものを、固定音源ベクトルに乗算すべき量子化固定音源利得として決定し、これを乗算器 220に出力する。また、この決定結果を示す量子化固定音源利得符号を多重化部 232に出力する。

[0069] 多重化部 232は、 LPC量子化部 208からの LPC量子化符号と、適応符号利得符号帳 210からの量子化適応音源利得符号と、適応符号帳 212からの適応音源べタトル符号と、固定符号帳 218からの固定音源ベクトル符号と、第 2符号化候補生成部 2 22からの量子化固定音源利得符号と、を多重化する。この多重化によって、符号ィ匕データが得られる。

[0070] 次いで、音声符号ィ匕部 202における探索範囲制限動作について、説明する。ここでは、第 1符号ィ匕候補生成部 206での探索範囲制限動作を例にとって説明する。

[0071] 音声符号ィ匕部 202において、符号帳 242には、図 10に示すように、 16通りの符号インデクス iと各符号インデクス iに対応する符号ベクトル C[i]との組み合わせ力符号化候補符号および符号化候補値としてそれぞれ格納されている。

[0072] そして、フレームタイプ判定部 108からのフレームタイプ情報が「有音フレーム」または「無音フレーム (埋込みなし)」を示して、る場合、探索範囲制限部 244は探索範囲を制限せずに 16通りの候補の組み合わせを LPC量子化部 208に出力する。

[0073] 一方、フレームタイプ情報が「無音フレーム (埋込みあり）」を示して、る場合、探索範囲制限部 244は、無音パラメータ符号ィ匕データ分割部 230から得た分割パラメ一タ符号のビット数に基づいて、符号インデクス iにマスクビットを割り当てる。本実施の形態では、ビット感度が所定レベルよりも低、所定数の符号ィ匕ビットまたはビット感度が最も低い符号ィ匕ビットを含む所定数の符号ィ匕ビットを置き換えおよびマスクの対象とする。例えば、スカラー値の量子化値が符号と昇順に対応している場合は、 LSB ( 最下位ビット)力もマスクビットを割り当てる。このようなマスクビット割り当てを行うことで、探索範囲を制限する。すなわち、予め埋め込みを前提とした符号帳の制限を行う。このため、埋め込みを行うことによる符号ィ匕性能の劣化を防止することができる。

[0074] そして、マスクビット割り当てでマスクされたビットに分割パラメータ符号を埋め込むことによって、制限された探索範囲に属する探索候補が特定される。ここでの例示においては、下位の 2ビットにマスクビットが割り当てられているので、探索範囲が、元の 16通りの候補力も 4通りの候補に制限される。そして、これら 4通りの候補の組み合わせ力 SLPC量子化部 208に出力される。

[0075] このように、本実施の形態によれば、無音パラメータ符号化データの埋め込みを前提とした最適な量子化が行われる。すなわち、無音フレームとしての符号ィヒデータを構成する複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、または、感度が最も低いビットを含む所定数のビットを、マスクビット割り当ておよび分割パラメータ符号埋め込みの対象とする。このため、復号音声の品質に与える影響を低減することができ、分割パラメータ符号埋め込みを行った場合の符号ィ匕性能を向上することができる。

[0076] なお、本実施の形態では、音声符号ィ匕に CELP符号ィ匕が用いられた場合について説明したが、 CELP符号ィ匕を用いることは本発明の要件ではなぐ他の音声符号ィ匕方式を用いても上記と同様の作用効果を実現することができる。

[0077] また、無音パラメータの一部または全てに、通常の音声符号ィ匕パラメータと共通なものを用いるようにしても良い。例えば、無音パラメータのうち、スペクトル概形情報に L PCパラメータが用いられる場合に、その LPCパラメータの量子化符号を、 LPC量子化部 208で用いられる LPCパラメータの量子化符号またはその一部と同一のものにする。このようにすることで、無音パラメータ符号化データの埋め込み (置換や上書きなど)を行ったときの量子化性能を向上することができる。

[0078] また、本実施の形態では、 LPC量子化符号および量子化固定音源利得符号を、無音パラメータ符号ィ匕データを埋め込む対象の符号ィ匕データとした場合について説明した。ただし、埋め込み対象の符号化データはこれらだけに限定されず、これら以外の符号化データを埋め込み対象として採用しても良、。

[0079] (実施の形態 3)

図 11 Aおよび図 11Bは、本発明の実施の形態 9に係るスケーラブル符号ィ匕装置およびスケーラブル復号装置をそれぞれ示すブロック図である。本実施の形態では、スケーラブル構成として帯域スケーラブルの機能を有する音声符号ィ匕のコアレイヤに、実施の形態 1 (または実施の形態 2)で説明した各装置を適用した場合について説明する。

[0080] 図 11 Aに示すスケーラブル符号化装置 300は、ダウンサンプリング部 302、音声符号化装置 100、局部復号部 304、アップサンプリング部 306および拡張レイヤ符号ィ匕部 308を有する。

[0081] ダウンサンプリング部 302は、入力音声信号をコアレイヤの帯域の信号にダウンサンプリングする。音声符号化装置 100は、実施の形態 1で説明したものと同一の構成を有するものであり、ダウンサンプリングされた入力音声信号力符号ィ匕データおよびフレームタイプ情報を生成し、これらを出力する。生成された符号化データは、コアレイヤ符号ィ匕データとして出力される。

[0082] 局部復号部 304は、コアレイヤ符号ィ匕データに対して局部復号を行い、コアレイヤの復号音声信号を得る。アップサンプリング部 306は、コアレイヤの復号音声信号を拡張レイヤの帯域の信号にアップサンプリングする。拡張レイヤ符号ィ匕部 308は、拡張レイヤの信号帯域を有する入力音声信号に対して拡張レイヤの符号化を行、、拡張レイヤ符号化データを生成し、出力する。

[0083] 図 11Bに示すスケーラブル復号装置 350は、音声復号装置 150b、アップサンプリング部 352および拡張レイヤ復号部 354を有する。

[0084] 音声復号装置 150bは、実施の形態 1で説明したものと同一の構成を有するものであり、スケーラブル符号ィ匕装置 300から伝送されたコアレイヤ符号ィ匕データおよびフレームタイプ情報から、復号音声信号を生成し、これをコアレイヤ復号信号として出力する。

[0085] アップサンプリング部 352は、コアレイヤ復号信号を拡張レイヤの帯域の信号にアツプサンプリングする。拡張レイヤ復号部 354は、スケーラブル符号ィ匕装置 300から伝送された拡張レイヤ符号化データを復号して、拡張レイヤ復号信号を得る。そして、アップサンプリングされたコアレイヤ復号信号を、拡張レイヤ復号信号に多重化することによって、コアレイヤ +拡張レイヤ復号信号を生成し、これを出力する。

[0086] なお、スケーラブル符号ィ匕装置 300は、前述の音声符号化装置 100の代わりに、実施の形態 2で説明した音声符号化装置 200を有しても良い。

[0087] 以下、上記構成を有するスケーラブル復号装置 350での動作について説明する。コアレイヤにおいて、フレームフォーマット切り替え制御を行わないとする。この場合、常に、コアレイヤ +拡張レイヤ復号信号を得ることができる。また、コアレイヤのみを復号するように設定し、且つ、コアレイヤにおいてフレームフォーマット切り替え制御を行うとする。この場合は、最も符号化効率の高い且つ低ビットレートの復号信号を得ることができる。また、無音フレームでは、フレームフォーマット切り替え制御ありでコアレイヤのみを復号するように設定し、有音フレームでは、コアレイヤ +拡張レイヤを復号するように設定したとする。この場合は、前述の二つの場合に対して中間的な音声品質および伝送効率を実現することができる。

[0088] このように、本実施の形態によれば、複数の種類の復号音声信号を、符号化側での制御の設定状態に依存することなぐ復号側 (またはネットワーク上)で自由に選択して復号することができる。

[0089] なお、上記各実施の形態の説明に用いた各機能ブロックは、典型的には集積回路である LSIとして実現される。これらは個別に 1チップ化されても良いし、一部又は全てを含むように 1チップィ匕されても良い。

[0090] ここでは、 LSIとした力集積度の違いにより、 IC、システム LSI、スーパー LSI、ゥノレ卜ラ LSIと呼称されることちある。

[0091] また、集積回路化の手法は LSIに限るものではなぐ専用回路又は汎用プロセッサで実現しても良い。 LSI製造後に、プログラムすることが可能な FPGA (Field Program mable Gate Array)や、 LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブノレ ·プロセッサーを利用しても良、。

[0092] さらには、半導体技術の進歩又は派生する別技術により LSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積ィ匕を行っても良い。バイオ技術の適応等が可能性としてありえる。

[0093] 本明細書は、 2004年 7月 23日出願の特願 2004— 216127に基づく。この内容はすべてここに含めておく。

産業上の利用可能性

[0094] 本発明の音声符号化装置および音声符号化方法は、有音区間と無音区間とで異なるフォーマットタイプの符号ィ匕データを伝送するのに有用である。

Claims

請求の範囲

[1] 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号化データとを出力する音声符号化装置であつて、

入力音声信号を所定区間単位で符号化し符号化データを生成する符号化手段と前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定手段と、

前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号化データと前記第二の符号化データとを取得する合成手段と、を有する音声符号化装置。

[2] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データに、前記雑音データを埋め込む、

請求項 1記載の音声符号化装置。

[3] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データにおける所定の位置に、前記雑音データを埋め込む、

請求項 1記載の音声符号化装置。

[4] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで置き換える、

請求項 1記載の音声符号化装置。

[5] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データのビットを、前記雑音データで上書きする、

請求項 1記載の音声符号化装置。

[6] 前記符号化手段は、

複数のビットから成る前記符号ィ匕データを生成し、

前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで置き換える、

請求項 1記載の音声符号化装置。

[7] 前記符号化手段は、

複数のビットから成る前記符号ィ匕データを生成し、

前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットの一部を、前記雑音データで上書きする、

請求項 1記載の音声符号化装置。

[8] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、所定レベル以下の感度を有する所定数のビットを、前記雑音データで置き換える、

請求項 6記載の音声符号化装置。

[9] 前記合成手段は、

前記無音区間の前記入力音声信号から生成された前記符号化データを構成する前記複数のビットのうち、最も感度の低いビットを含む所定数のビットを、前記雑音データで置き換える、

請求項 6記載の音声符号化装置。

[10] 音声信号の符号ィヒに用いられる符号ィヒ候補を記憶する記憶手段を有し、

前記符号化手段は、

前記符号化データを構成する複数のビットの、ずれか〖こマスクビットを割り当て、前記入力音声信号の符号ィ匕に用いられる前記符号ィ匕候補を、前記マスクビットの割り当てに従って制限する、

請求項 1記載の音声符号化装置。

[11] 請求項 1記載の音声符号化装置を有するスケーラブル符号化装置。

[12] 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号手段と、

前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号手段と、前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択手段と、

を有する音声復号装置。

[13] 請求項 12記載の音声復号装置を有するスケーラブル復号装置。

[14] 音声成分を含む音声信号に対応する第一の符号化データと前記音声成分を含まない音声信号に対応する第二の符号ィヒデータとを出力する音声符号ィヒ方法であつて、

入力音声信号を所定区間単位で符号ィ匕し符号ィ匕データを生成する符号化ステツプと、

前記入力音声信号が前記音声成分を含むか否かを前記所定区間毎に判定する判定ステップと、

前記符号化データのうち、前記音声成分を含まないと判定された無音区間の前記入力音声信号から生成されたもののみに対して雑音データの合成を行うことにより、前記第一の符号ィヒデータと前記第二の符号ィヒデータとを取得する合成ステップと、を有する音声符号化方法。

[15] 請求項 14記載の音声符号ィ匕方法を有するスケーラブル符号ィ匕方法。

[16] 雑音データを合成された符号化データを復号し第一の復号音声信号を生成する第一の復号ステップと、

前記雑音データのみを復号し第二の復号音声信号を生成する第二の復号ステツプと、

前記第一の復号音声信号および前記第二の復号音声信号のいずれか一方を選択する選択ステップと、

を有する音声復号方法。

[17] 請求項 16記載の音声復号方法を有するスケーラブル復号方法。