WO2011039919A1

WO2011039919A1 - オーディオデコーダ、オーディオエンコーダ、システム

Info

Publication number: WO2011039919A1
Application number: PCT/JP2010/004728
Authority: WO
Inventors: 宮阪修二; 西尾孝祐; 則松武志
Original assignee: パナソニック株式会社
Priority date: 2009-09-30
Filing date: 2010-07-23
Publication date: 2011-04-07
Also published as: CN102576534A; US8688442B2; JP5519230B2; US20120185241A1; CN102576534B; JP2011075936A

Abstract

　複数の復号化器（１０２ｘ）と、符号化信号が対応復号化器により復号化された復号化後信号を、伝送される情報により特定される方法で加工する帯域拡大器（１０４）と、前記複数の復号化器（１０２ｘ）の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器（１０１）とを備えるオーディオデコーダ（１ａ）が構築される。

Description

オーディオデコーダ、オーディオエンコーダ、システム

　本発明は、低ビットレートで高音質を得られるような、オーディオエンコーダおよびオーディオデコーダに関する。特に、本発明は、入力信号が音声信号（人の声）であっても、非音声信号（楽音、自然音など）であっても、良好な音質が得られるような、オーディオエンコーダおよびオーディオデコーダに関する。

　携帯電話等での通話に用いられる符号化方式は、所謂CELP（Code-Excited Linear Prediction）系のコーデックといわれる方式である。つまり、用いられる符号化方式は、入力信号を、線形予測係数と励振信号（当該線形予測係数を用いた線形予測フィルタの入力となる信号）とに分解し、分解されたそれぞれのデータを符号化する方式である。例えば、AMR（adaptive multi-rate）方式（非特許文献１参照）等がそれにあたる。この方式では、線形予測係数によって、声道の音響特性をモデル化し、励振信号によって、声帯の振動をモデル化している。このため、スピーチ信号は効率的に符号化できるが、スピーチ信号以外の、自然音の信号（オーディオ信号）は、そのモデルに当てはまらないので、効率的に符号化できない。

　一方、デジタルTV（Television）や、DVD（Digital Versatile Disc）プレーヤ、ブルーレイディスクプレーヤで用いられている符号化方式は、例えばAAC（Advanced Audio Coding）方式（非特許文献２参照）のような方式である。この方式は、入力信号の周波数スペクトルそのものを符号化する方式である。このため、この方式では、スピーチ信号以外の自然音（オーディオ信号）でも、良好な音質が得られるが、スピーチ信号に対しては、CELP系のコーデックほどの高圧縮率は得られない。

　図１１は、上記のことを定性的に表現した図である。

　図１１のグラフの横軸は、符号化のビットレートを示しており、縦軸は、音質を示している。そして、実線の曲線（データ７３）は、AACのようなオーディオコーデック（オーディオ用の方式が利用された際）における、ビットレートと音質との関係を示している。一点鎖線の曲線（データ７４Ｓ）は、AMRのようなスピーチコーデックで、スピーチ信号を処理した際（スピーチ用の方式が利用された際）の、ビットレートと音質との関係を示しており、破線の曲線（データ７４Ａ）は、スピーチコーデックにより、スピーチ信号でない信号を処理した際の、ビットレートと音質との関係を示している。なお、図１１のグラフの横軸、横軸のそれぞれの単位としては、適切な種々の単位が考えられる。つまり、それぞれの単位は、例えば、arbitrary unit(任意単位)と理解されてもよい。すなわち、具体的には、例えば、縦軸の単位は、実験において、人の感覚で評価された値などでもよい。また、横軸の単位は、kbps（kilobit per second）などでもよい。

　ここで、図中の縦方向の細い破線で囲まれた範囲９０が、入力信号によって最適なエンコーダが異なるビットレートの範囲を示している。なお、ビットレートに関する点は、後で詳しく述べられる。

　そして、後で詳しく述べられるＵＳＡＣ（Unified Speech and Audio Codec）の規格化の作業においては、範囲９０のみが着目され、範囲９０以外の範囲（範囲９１）は、あまり意識されていない。範囲９０では、入力信号（符号化前信号）の種類により、入力信号が、スピーチ信号の場合、スピーチコーデックの方が良好な音質を実現できる（データ７４Ｓ、データ７３を参照）。そして、範囲９０では、逆に、入力信号が、スピーチ信号でない場合には（入力信号がオーディオ信号である場合には）、オーディオコーデックの方が良好な音質を実現できる（データ７３、データ７４Ａを参照）。

　そのような中、近年、MPEGオーディオ規格化活動の中で、スピーチ信号も、スピーチ以外の自然音（オーディオ信号）も、ともに効率的に符号化できるような符号化規格（Unified Speech and Audio Codec : USAC）の検討が始まっている。

　図９は、その概略のエンコード処理ブロック図を表している。

　図９のブロック図において示される複数のブロックは、入力信号（符号化前信号）を符号化する際に、スピーチコーデックが適しているか、オーディオコーデックが適しているかを分類する入力信号分類器５００と、入力信号の高域成分を符号化する高域信号符号化器５０１と、オーディオ信号符号化器５０２と、スピーチ信号符号化器５０３と、ビットストリーム生成器５０４とである。

　図９に示すように、入力信号は、スピーチコーデックに適している信号か、オーディオコーデックに適している信号かが、入力信号分類器５００により分類される。そして、それぞれの分類がされた場合において、スピーチコーデックおよびオーディオコーデックの種類のうちで、適していると分類された方の種類に対応する符号化器（オーディオ信号符号化器５０２かスピーチ信号符号化器５０３）で符号化される。なお、その前段の高域信号符号化器５０１では、MPEG（Moving Picture Experts Group）で規格化された、帯域拡大技術（SBR（Spectral Band Replication）技術：ISO/IEC11496-3）のエンコード処理が行われ、デコード時の再生帯域の拡大に寄与している。

　図１０は、USACのデコード処理ブロック図を示している。

　図１０のブロック図において示される複数のブロックは、入力のビットストリームを符号化信号に分離するビットストリーム分離器６００と、オーディオ信号復号化器６０１と、スピーチ信号復号化器６０２と、上記何れかの復号化器で復号された信号の再生帯域を拡大する帯域拡大器６０３とである。

　図１０に示すように、入力のビットストリームは、ビットストリーム分離器６００で、符号化信号に分離される。そして、当該符号化信号が、オーディオ信号の符号化信号であると分類されれば、オーディオ信号復号化器６０１で処理され、スピーチ信号の符号化信号であると分類されれば、スピーチ信号復号化器６０２で処理される。これにより、PCM（Pulse Code Modulation）信号が生成される。なお、上記何れの場合にも、復号された信号に対しては、帯域拡大器６０３で、その信号の再生帯域が拡大される処理が行われる。

3GPP TS 26.090, Adaptive Multi-Rate (AMR) speech codec; Transcoding functions ISO/IEC 13818-7:2004, Information technology - Generic coding of moving pictures and associated audio information: - Part 7: Advanced Audio Coding (AAC).

　しかしながら、上記のような構成では、エンコード時に、信号の性質を分析し、スピーチ信号なのか、オーディオ信号なのかを把握できているにも関わらず、デコード処理の後処理の工程（後処理工程）を行う信号加工器（図１０でいえば帯域拡大器６０３）に、その情報、つまり把握された情報を伝える手段がない。よって、信号加工器が最適な処理を実施することを妨げている。つまり、当該情報が伝えられず、当該情報を利用した、比較的適切な処理がされないことにより、不適切な処理がされてしまう。

　本発明は、このような、従来の課題に鑑みてなされたものであって、入力の符号化信号の性質に応じて、最適な（より適切な）デコード信号（加工後信号）を生成するオーディオデコーダを提供することを目的とする。

　上記の課題を解決するために、本願のＡ１のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、それぞれの復号化器が、前記複数の符号化方式のうちの１つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が、前記符号化信号を復号化する複数の復号化器と、前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダである。

　なお、上記の情報は、例えば、公知の技術における情報などでもよい。

　これにより、上記の情報の伝送がされることにより、伝送される情報により特定される復号化器（対応復号化器）に対応する、より適切な方法（例えば、特許第３１８９６１４号公報における方法）での加工がされる。これにより、加工がされた後の加工後信号として、より適切な信号（より高い質の第２の加工後信号）が生成できる。

　しかも、単に、対応復号化器を特定する情報が利用（流用）され、余計な他の情報が必要でなく、簡単な構成にできる。

　これにより、加工後信号の質の高さと、簡単な構成とが両立できる。

　また、本願のＡ２のオーディオエンコーダは、複数の符号化器と、入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダである。

　そして、Ａ３の音信号処理システムは、Ａ１のオーディオデコーダと、Ａ２のオーディオエンコーダとを備える、ＵＳＡＣ（Ｕｎｉｆｉｅｄ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｃｏｄｅｃ）の規格における音信号処理システムである（図５等を参照）。

　つまり、音信号処理システムにおいて、上記オーディオエンコーダに加えて、更に、オーディオエンコーダが含まれてもよい（図５等を参照）。

　これにより、選択器に対して指標が指定される。そして、特定される分類により示される、スピーチの成分の量が、比較的少ない量でも（例えば、図１１の（１）を参照）、指定される指標（により示されるビットレート（図１１のグラフの横軸を参照））が、予め定められた範囲（範囲９１ａを参照）内である場合には、オーディオエンコーダにおいて、より適切な第２の加工後信号が生成される方式（スピーチコーデックでの方式）での符号化がされて、オーディオデコーダにおいて、第２の加工後信号が生成される。これにより、より多くの場合に、より適切な第２の加工後信号が生成されて、より確実に、より適切な第２の加工後信号が生成できる。

　しかも、指定される指標により示されるビットレートが、上記範囲外（例えば範囲９０を参照）である場合には、当該方式（スピーチコーデックの方式）での符号化がされず、音質が、高い音質に維持できる（範囲９０での、データ７４Ａ、７３の音質を参照）。

　これにより、適切な第２の加工後信号が確実に生成できることと共に、高い音質の維持が両立できる。

　なお、上記オーディオエンコーダは、ある時点では、音信号処理システムに含まれて、当該音信号処理システムにおける他の部分（オーディオデコーダ等）と共に存在する一方で、別の時点では、例えば、当該音信号処理システムから取り出されるなどにより、当該音信号処理システムに含まれず、他の部分からは独立して、当該オーディオエンコーダのみで存在してもよい（上記の（Ａ２）を参照）。

　なお、こうして、この音信号処理システムでは、オーディオデコーダにおいて、符号化信号が、一定の符号化方式による信号（スピーチコーデックでの符号化信号）の場合、より質の高い方法で（例えば、より精度よく）、復号化後信号の加工（例えば、帯域拡大）がされる。そして、オーディオエンコーダにおいて、分類が、一定の範囲（例えば、図１１の（１）を参照）における分類であっても、指標に対応する符号化器（範囲９１ａでの、スピーチコーデックの符号化器）が選択されることにより、より多くの場合に、上記一定の符号化方式の符号化器が選択され、より確実に、質の高い適切な加工ができる。

　Ａ１のオーディオデコーダおよびＡ２のオーディオデコーダは、このような、Ａ３の音信号処理システムの２つの部品に利用可能である。

　また、本願のＢ１のオーディオデコーダは、入力信号の性質に応じて、複数の符号化方式から適切な符号化方式を選択し、該選択された符号化方式で符号化されたビットストリームを復号化するオーディオデコーダであって、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて異なる方法で信号を加工する。

　本願のＢ２のオーディオデコーダは、Ｂ１のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第１の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第２の復号化器とを有し、前記信号加工器は、前記復号化器群で復号化された信号の再生帯域を拡大し、前記第２の復号化器によって復号化された信号に対し、前記線形予測係数に基づいて算出される周波数包絡特性に応じ再生帯域の拡大処理を実施する。

　本願のＢ３のオーディオデコーダは、Ｂ１のオーディオデコーダにおいて、前記復号化器群は、周波数スペクトル信号を符号化したビットストリームを復号化する第１の復号化器と、線形予測係数と励振信号とを符号化したビットストリームを復号化する第２の復号化器とを有し、前記信号加工器は、音声信号を強調するための処理を実施し、前記第２の復号化器によって復号化された信号に対し、音声帯域を強調する処理を実施する。

　本願のＢ４のオーディオエンコーダは、１からＮ（Ｎ＞１）までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。

　本願のＢ５のオーディオエンコーダは、Ｂ４のオーディオエンコーダにおいて、順位１の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Ｎの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。

　本願のＢ６のオーディオエンコーダは、Ｂ４のオーディオエンコーダにおいて、順位１の符号化器は、入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Ｎの符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は時間軸信号として符号化し、順位M（1<M<N）の符号化器は、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する符号化器であるが、励振信号は周波数軸信号として符号化する。

　本願のＢ７のオーディオエンコーダは、Ｂ４のオーディオエンコーダにおいて、前記指標は、符号化のビットレートであり、前記選択器は、ビットレートが高いときは、ビットレートが低いときに比べて、順位の若い符号化器を高い頻度で選択する。

　本願のＢ８のオーディオエンコーダは、Ｂ４のオーディオエンコーダにおいて、前記指標は、用途であり、前記選択器は、用途が音声通話を含む用途である場合には、そうでない場合と比べて、順位の若い符号化器を低い頻度で選択する。

　本発明によれば、復号化後信号に対して加工がされる際に、適切な方法で加工ができる。また、本発明によれば、確実に、適切な符号化方式により符号化ができる。これにより、ひいては、本発明によれば、確実に、適切な加工ができる。

　つまり、簡単な構成で、加工後信号の質が高くできる。そして、確実に、加工後信号の質が高くされるにも関わらず、高い音質が維持できる。

　Ｂ１のオーディオデコーダによれば、入力のビットストリームの性質に応じた最適なデコード信号を得ることができることとなる。

　Ｂ２のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合、最適な方法で再生帯域の拡大が実施できることとなる。

　Ｂ３のオーディオデコーダによれば、入力のビットストリームがスピーチ信号を符号化したストリームである場合において、最適な方法で音声帯域の強調処理が実施できることとなる。

　Ｂ４のオーディオエンコーダによれば、入力信号の性質と予め指定された指標に応じて最適な符号化器を選択できることとなる。

　Ｂ５のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であっても最適な符号化器を選択でき高音質を得られることとなる。

　Ｂ６のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその中間的な信号であっても最適な符号化器を選択でき高音質を得られることとなる。

　Ｂ７のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもビットレートに応じて最適な符号化器を選択でき高音質を得られることとなる。

　Ｂ８のオーディオエンコーダによれば、入力信号がスピーチ信号であってもオーディオ信号であってもその用途に応じて最適な符号化器を選択でき高音質を得られることとなる。

図１は、本実施の形態１におけるオーディオデコーダの構成を示す図である。図２は、本実施の形態１におけるオーディオデコーダのもう一つの構成を示す図である。図３は、本実施の形態２におけるオーディオエンコーダの構成を示す図である。図４は、本実施の形態２におけるオーディオエンコーダのもう一つの構成を示す図である。図５は、音信号処理システムを示す図である。図６は、オーディオエンコーダを示す図である。図７は、本発明を応用した通信システムの構成図である。図８は、エコーキャンセラの内部の構成図である。図９は、従来の技術におけるオーディオデコーダの構成を示す図である。図１０は、従来の技術におけるオーディオエンコーダの構成を示す図である。図１１は、各符号化方式におけるビットレートと音質の傾向を示す図である。図１２は、実施形態における処理の流れを示すフローチャートである。

　以下、図面が参照されつつ、実施の形態が説明される。

　実施の形態のオーディオデコーダ（図５、図１、図１２のＳ４～Ｓ６など）は、入力信号（符号化前信号７Ｐ）の性質（例えば、スピーチの成分７Ｍの量）に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が（オーディオエンコーダ３によって）選択されて、選択された前記符号化方式により（オーディオエンコーダ３によって）符号化された符号化信号（符号化後信号７Ｔ、入力信号７Ｓ（符号化信号７Ｃ））を復号化するオーディオデコーダ（オーディオデコーダ１、オーディオデコーダ１ａ）であって、それぞれの復号化器（オーディオ信号復号化器１０２、スピーチ信号復号化器１０３）が、前記複数の符号化方式のうちの１つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器（利用符号化器）である場合には、その復号化器（利用符号化器）が前記符号化信号を復号化する複数の復号化器（複数の復号化器１０２ｘ、Ｓ４）と、前記符号化信号が前記対応復号化器により復号化された復号化後信号（復号化後信号７Ａ）を、複数の方法のうちで、当該信号加工器に伝送される情報（含有情報、種類信号、情報７Ｉ）により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器（帯域拡大器１０４、Ｓ６）と、前記複数の復号化器の中から、前記対応復号化器を特定する情報（情報７Ｉ）を、前記信号加工器に伝送する情報伝送器（情報伝送器１０１、Ｓ５）とを備えるオーディオデコーダ（オーディオデコーダ１ａ、１）である。

　なお、適切な符号化方式とは、例えば、後で詳しく述べられるように、その符号化方式により符号化された符号化信号のデータ量、音質の品質が比較的高いことなどを意味する。

　また、前記復号化器により復号化された復号化後信号に適する方法とは、例えば、後で詳しく述べられるように、その方法で加工された加工後信号が、予め定められた信号に、より近く、精度が高いことである。

　なお、ある方法における処理は、音声帯域の強調の処理である一方で、別の方法における処理は、入力されるデータを、そのまま出力する処理であったり、単なる空（何もしない）などであってもよい。

　他方、実施の形態のオーディオエンコーダ（図５、図３、図１２のＳ１～Ｓ３など）は、複数の符号化器（複数の符号化器３００ｘ等、Ｓ３）と、入力信号の特徴（例えば、スピーチの成分７Ｍの量）に応じて、前記特徴に対応する分類（分類情報Ｓ）を、前記入力信号の分類と特定する信号分類器（信号分類器３０２、Ｓ１）と、前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標（指標Ｂ）とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器（選択符号化器）を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器（選択器３０３、Ｓ２）とを備えるオーディオエンコーダ（オーディオエンコーダ３ｃ等、オーディオエンコーダ３）である。

　つまり、上記オーディオデコーダと、上記のオーディオエンコーダとを備える音信号処理システム（音信号処理システム４：図５、図１２のＳ１～Ｓ６）が構築されてもよい。

　つまり、オーディオエンコーダ３（図５、図３）において、信号分類器３０２（図３）により、符号化前信号７Ｐが、スピーチコーデックに適するか、オーディオコーデックに適するか（スピーチの成分の量が（閾値より）多いか否か）が特定されてもよい（図１２のステップＳ１を参照）。

　そして、符号化処理部（複数の符号化器３００ｘ）により、スピーチコーデックに適することが特定された場合に（図１１の（２））、スピーチコーデックでの符号化が、符号化前信号７Ｐにされてもよい。

　そして、オーディオコーデックに適することが特定された場合においても（図１１の（１））、（選択器３０３により）取得された、ビットレートを示す指標Ｂ（図３）により、スピーチコーデックでの符号化がされても、音質が高い範囲９１ａ（図１１）のビットレートが示される場合には、スピーチコーデックの符号化がされてもよい（Ｓ２、Ｓ３を参照）。

　そして、この指標により、他の範囲（例えば範囲９０）のビットレートが示される場合にのみ、オーディオコーデックの符号化がされてもよい（Ｓ２、Ｓ３を参照））。

　そして、オーディオエンコーダ１（図５、図１）において、当該オーディオデコーダへの入力信号７Ｓ（符号化信号７Ｃ）が、上記のオーディオエンコーダにより符号化された後の符号化後信号７Ｔ（図３）でもよい。

　そして、復号化処理部（複数の復号化器１０２ｘ）により、当該入力信号が符号化されたコーデックが、スピーチコーデックか、オーディオコーデックかを示す情報７Ｉにより、スピーチコーデックが示される場合には、スピーチコーデックにおける復号化がされてもよい。

　そして、オーディオコーデックが示される場合には、オーディオコーデックにおける復号化がされてもよい（Ｓ４参照）。

　なお、上述の情報７Ｉは、例えば、ビットストリーム分離器１００等により生成される情報などである。

　そして、帯域拡大器１０４により、復号化がされた後の信号に対して、帯域の拡大の処理がされてもよい。

　そして、この処理がされるのに際して、上述された情報７Ｉが伝送され（図１の伝送線（伝送部）７Ｘ）、伝送される情報７Ｉが、帯域拡大器１０４により取得されてもよい（Ｓ５参照）。

　そして、取得された情報７Ｉによりオーディオコーデックが示される場合には、第１の方法での処理がされ、スピーチコーデックが示される場合には、第２の方法での処理がされてもよい（Ｓ６参照）。

　そして、第２の方法は、例えば、線形予測係数が用いられるなどにより、第１の方法で生成される第１の拡大後信号７Ｌ１（図１）よりも適切な第２の拡大後信号７Ｌ２が生成される方法である（特許文献１：特許第３１８９６１４号公報等を参照）。

　これにより、より適切な第２の加工後信号７Ｌ２が生成できる。しかも、単なる、何れの方式での復号化がされるかを特定する情報７Ｉが流用され、余計な他の情報が必要にならず、簡単な構成で、この生成ができる。

　しかも、オーディオエンコーダ３において、符号化前信号７Ｐが、オーディオコーデックが適すると示され場合に、次の処理がされる。

　つまり、オーディオコーデックが適すると示される場合でも、指定された指標Ｂにより示されるビットレートが、スピーチコーデックでの符号化がされても、音質が高い範囲９１ａ（範囲９１ａのデータ７４Ａ、７３を参照）内の場合には、スピーチコーデックの符号化がされて、オーディオデコーダにおいて、より適切な第２の加工後信号７Ｌ２が生成される。

　これにより、より多くの場合に、より適切な第２の加工後信号７Ｌ２が生成されて、より確実に、適切な第２の加工後信号７Ｌ２が生成できる。

　しかも、オーディオコーデックが適すると示される一方で、ビットレートが、音質が高い範囲９１ａ（範囲９１ａのデータ７４Ａ、７３を参照）内でない場合には（範囲９０等でのデータ７４Ａ、７３を参照）、オーディオコーデックでの符号化がされて、高い音質が維持できる。

　これにより、より確実に、適切な第２の加工後信号７Ｌ２が生成できることと、高い音質が維持されることとが両立できる。

　このように、オーディオデコーダ１と組み合わせられるのに適するオーディオエンコーダ３が構築されてもよい。つまり、オーディオデコーダ１と共に、このオーディオエンコーダ３が含まれる音信号処理システム４が構築されてもよい（図５、図１２などを参照）。

　以下、詳しく説明される。

　（実施の形態１）
　まず、本発明の実施の形態１におけるオーディオデコーダについて、図面を参照しながら説明する。

　図１は、本実施の形態１におけるオーディオデコーダ１ａの構成を示す図である。

　オーディオデコーダ１ａは、図１において示されるように、ビットストリーム分離器１００と、情報伝送器１０１と、オーディオ信号復号化器１０２と、スピーチ信号復号化器１０３と、帯域拡大器１０４とを備える。

　ビットストリーム分離器１００は、オーディオデコーダ１ａへの入力のビットストリーム（入力信号７Ｓ）から、そのビットストリームに含まれる符号化信号（符号化信号７Ｃ）を分離する。

　情報伝送器１０１は、前記ビットストリーム分離器１００からの情報から、種類信号（含有情報、音声有無情報）を取り出す。種類信号は、ビットストリーム分離器１００によって分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。情報伝送器１０１は、この種類信号を取り出し、取り出した種類信号（情報７Ｉ）を、他のモジュール（後述の帯域拡大器１０４）に伝送する。

　オーディオ信号復号化器１０２は、前記ビットストリーム分離器１００で分離された符号化信号がオーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化する。なお、オーディオ信号復号化器１０２は、先述の種類信号により、符号化信号が、オーディオコーデックによる信号と示される場合に、その符号化信号を復号化する。

　スピーチ信号復号化器１０３は、前記ビットストリーム分離器１００で分離された符号化信号が、スピーチコーデックによって符号化された信号である場合、当該符号化信号を復号化する。なお、スピーチ信号復号化器１０３は、先述の種類信号により、符号化信号が、スピーチコーデックによる信号と示される場合に、その符号化信号を復号化する。

　帯域拡大器１０４は、前記何れかの復号化器で復号化された信号（復号化後信号７Ａ）の再生帯域を拡大する。

　本実施の形態１では、入力のビットストリームは、複数の符号化器（例えば、図３のオーディオ信号符号化器３００およびスピーチ信号符号化器３０１等）を、入力信号の特徴に応じて切り替えながら、それらの符号化器を用いて生成されたビットストリームである。つまり、入力のビットストリームに含まれる符号化信号は、その符号化信号が符号化される前の符号化前信号がオーディオ信号である場合には、AAC方式のように、入力信号の周波数スペクトルそのものを符号化した信号である。そして、符号化信号は、符号化前信号がスピーチ信号である場合には、AMR方式のように、入力信号を、線形予測係数と励振信号（当該線形予測係数を用いた線形予測フィルタの入力となる信号）とに分解し、それぞれを符号化した信号である。

　以上のように構成されたオーディオデコーダの動作について以下説明する。

　まず、ビットストリーム分離器１００によって、入力のビットストリームから、符号化信号を分離する。

　次に、情報伝送器１０１によって、前記ビットストリーム分離器１００で分離された情報から、種類信号を取り出す。種類信号は、先述の通り、ビットストリーム分離器１００により分離された前記符号化信号が、オーディオコーデックによって符号化された信号か、スピーチコーデックによって符号化された信号かを示す信号である。そして、情報伝送器１０１は、取り出した種類信号を帯域拡大器１０４に伝送する。

　次に、前記ビットストリーム分離器１００で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号をオーディオ信号復号化器１０２で復号化する。

　なお、本実施の形態では、例えばオーディオコーデックは、AAC方式としたので、当該オーディオ信号復号化器１０２は、AAC規格に準拠した復号化器であるが、必ずしもそれに限定されず、MP3方式や、AC3方式のように、周波数スペクトル信号を符号化する復号化器であればどのような復号化器であってもよい。

　一方、前記ビットストリーム分離器１００で分離された符号化信号が、スピーチコーデックによって符号化された信号である場合、当該符号化信号を、スピーチ信号復号化器１０３で復号化する。

　なお、本実施の形態では、例えばスピーチコーデックは、AMR方式としたので、当該スピーチ信号復号化器１０３は、AMR規格に準拠した復号化器であるが、必ずしもそれに限定されない。つまり、G.729方式のように、入力信号を、線形予測係数と励振信号とに分解し、それぞれを符号化する復号化器であれば、どのような復号化器であってもよい。

　最後に、帯域拡大器１０４で、前記何れかの復号化器、つまり、利用復号化器で復号化された信号（復号化後信号）の再生帯域を拡大する。ここで、利用復号化器は、復号化される符号化信号が、オーディオコーデックによる場合、オーディオ信号復号化器１０２であり、スピーチコーデックによる場合、スピーチ信号復号化器１０３である。ここで重要なことは、帯域拡大器１０４は、再生帯域を拡大する方法を、前記情報伝送器１０１からの情報（情報７Ｉ）に応じて変更することである。以下、その点に関して説明する。

　入力の符号化信号が、オーディオコーデックによる信号であった場合、帯域拡大器１０４が再生帯域を拡大する方法は、MPEGで既に規格化されたSBR方式のように、低域信号の周波数スペクトル信号を高域に複写し、所定のビットストリーム情報に基づいて、当該高域信号を整形する方法でよい（SBR技術：ISO/IEC11496-3参照）。

　一方、入力の符号化信号が、スピーチコーデックによる信号であった場合、帯域拡大器１０４が再生帯域を拡大する方法は、上記SBR方式を、下記のように改良した方法を用いる。すなわち、まず、上記SBR方式と同様の方法で、高域周波数成分を生成する。そして、この生成をした後、符号化信号に含まれている前記線形予測係数に基づいて、高帯域の周波数包絡特性を算出する。そして、算出された当該周波数包絡特性に応じて、高域の周波数特性を修正する。そうすることによって、高域の周波数特性が、より原音に近い特性に精度よく整形されるので、良好な音質が得られる。

　なお、ここで、線形予測係数に基づいて、高帯域の周波数包絡特性を算出する方法については、具体的には、例えば、従来から知られている方法を用いてもよい。具体的には、例えば、特許文献１：特許第３１８９６１４号公報に記載された方法でもよい。

　上記のように、本実施の形態によれば、入力のビットストリームから符号化信号を分離するビットストリーム分離器（ビットストリーム分離器１００）と、前記ビットストリーム分離器からの情報から、前記符号化信号が、オーディオコーデックによって符号化された符号化信号か、スピーチコーデックによって符号化された符号化信号かを示す信号（種類信号）を取り出し、取り出した信号を、他のモジュールに伝送する情報伝送器（情報伝送器１０１）と、前記ビットストリーム分離器で分離された符号化信号が、オーディオコーデックによって符号化された信号である場合、当該符号化信号を復号化するオーディオ信号復号化器（オーディオ信号復号化器１０２）と、前記ビットストリーム分離器で分離された符号化信号が、スピーチコーデックによって符号化された符号化信号である場合、当該符号化信号を復号化するスピーチ信号復号化器（スピーチ信号復号化器１０３）と、前記何れかの復号化器（利用復号化器）で復号化された信号（復号化後信号）の再生帯域を拡大する帯域拡大器（帯域拡大器１０４）とを備え、帯域拡大器が、情報伝送器から伝送される情報（種類信号）に応じて、再生帯域を拡大する処理方法を、その情報に対応する方法に変えることで、高域の周波数特性が、より原音に近い特性に精度よく整形され、よって良好な音質が得られることとなるオーディオデコーダ（オーディオデコーダ１ａ）が構築される。

　図２は、オーディオデコーダ１ｂ（ビットストリーム分離器２００、オーディオ信号復号化器２０２、スピーチ信号復号化器２０３、音声帯域強調器２０４、情報伝送器２０１）を示す図である。

　なお、本実施の形態では、上述の説明において、復号化信号（復号化後信号）に対して信号加工器（帯域拡大器１０４）により行われる後処理工程として、周波数帯域を拡大する処理を説明したが、後処理工程（信号加工器）は、必ずしもそれに限らない。例えば、後処理工程の処理は、音声帯域強調処理であってもよい。

　近年のオーディオ再生環境においては、再生する信号（復号化後信号）に、重低音信号や高域信号が含まれており、かつ、再生するスピーカーの周波数特性も改善されている（重低音信号から高域信号まで再生できる特性を有している）。このため、結果的に、リスナーはリッチな音響信号を楽しむことができるようになってきた。その反面、映画コンテンツなどの場合、音声（人の声：セリフ）が、リッチな音響信号の中に埋もれ、逆に聞き取り難い、という課題が生じている。このような場合、音声信号帯域を強調することで（重低音信号や高域信号を抑制することで）、音声は聞き取り易くなるが、逆に、リッチな音響信号を楽しむことができなくなる。

　そのような場合、オーディオデコーダ１ｂの構成であれば、前記情報伝送器２０１からの信号（種類信号）が、スピーチ信号を再生している状態であることを示している場合、つまり、種類信号が、符号化信号がスピーチコーデックによることを示す場合に、次の処理が行われる。行われる処理は、音声信号帯域を、信号加工器（音声帯域強調器２０４）が強調する処理である。この処理が行われることによって、次の問題が解決される。つまり、これによって、コンテンツに音声信号が含まれている場合だけ（例えばセリフが含まれている場合だけ）、当該音声信号を強調することができ、かつ、そうでない場合には、リッチな音響を楽しむこともできる。図２は、そのような場合の構成を示している。図１と図２とが異なる点は、帯域拡大器１０４が音声帯域強調器２０４に代わっていることである。

　なお、本実施の形態では、復号化信号の後処理工程は、エコーキャンセラの処理であってもよい。

　図７は、復号化信号の後処理工程がエコーキャンセラである場合の構成を示した図である。

　図７において、入力のビットストリームは、音の符号化信号（信号８０１ａ）と、当該符号化信号に、音声が含まれているか否かを示す音声有無情報（情報８０１ｂ）とから成っている。ここで、音声有無情報は、先に示した例のように、当該フレームのビットストリーム（ビットストリーム８０１ｃ、符号化信号）がオーディオコーデックで符号化されたストリームか、スピーチコーデックで符号化されたストリームかを示す情報であってもよい。また、音声有無情報は、当該フレームに、音声がどの程度含まれているかの割合を示すような情報などであってもよい。また、音声のピッチ成分の強度を示すような情報などであってもよい。

　図７においては、音声有無情報分離器８００と、デコーダ８０１と、スピーカー８０２と、マイクロホン８０３と、エコーキャンセラ８０４と、音声有無判定器８０５と、エンコーダ８０６とを備える通信システムが示される。

　音声有無情報分離器８００は、入力のビットストリームから音声有無情報を取り出す。

　デコーダ８０１は、入力のビットストリームをデコードする。

　ここで、デコーダ８０１は、前記音声有無情報を用いて、入力のビットストリームをデコードする方式のデコーダでもよいし、前記音声有無情報を用いないで、入力のビットストリームをデコードする方式のデコーダでもよい。

　スピーカー８０２は、前記デコーダの出力信号を可聴信号に変換する。

　マイクロホン８０３は、前記スピーカー８０２を音源とする音響空間の音を収音する。

　エコーキャンセラ８０４は、前記デコーダ８０１でデコードされたデコード信号と、前記マイクロホン８０３で収音された信号と、前記音声有無情報とを当該エコーキャンセラ８０４に入力し、前記マイクロホン８０３で収音された信号から、前記デコード信号のエコーの成分を除去する。

　音声有無判定器８０５は、前記エコーキャンセラ８０４の出力信号に、音声の成分が含まれているか否かを判定する。

　エンコーダ８０６は、前記エコーキャンセラ８０４の出力信号を符号化する。

　上記のような構成で、エコーキャンセラ８０４を含む通信システムを構成することによって得られる効果について述べる。

　エコーキャンセラ８０４は、エコーが生成される空間の伝達関数を同定することによって、擬似的にエコー信号を、信号処理装置の内部で生成する。そして、エコーキャンセラ８０４は、収音された信号（エコーを含む信号）から、当該生成された擬似エコー信号を減算することで、エコーを除去する（例えば、電子情報通信学会論文誌 A Vol, J79-A No.6 pp.1138-1146 1996年6月“周波数帯域における音響エコー経路の変動特性を反映させたサブバンドESアルゴリズム”：非特許文献を参照）。

　ここで、空間の伝達関数の同定は、マイクロホン８０３によって収音される音の音源が、スピーカー８０２から発生した音のみに起因する場合に可能である。すなわち、マイクロホン８０３で収音される音に、スピーカー８０２からの音以外の他の音が入ってきている場合（ダブルトークの場合）には、空間の伝達関数を同定することが困難である。そこで、そのような場合、つまり、収音される音に、他の音が入ってきている場合には、同定のための学習を中止するように制御する。そこで、図７で示したような構成であれば、音声有無情報分離器８００で分離された音声有無情報を、エコーキャンセラ８０４に転送する。このため、エコーキャンセラ８０４では、デコード音内の音声の成分の有無が容易に判定できる。これにより、ダブルトーク状態の検出が容易となる。

　図８は、エコーキャンセラ９００を示す図である。

　ここでエコーキャンセラ８０４は、具体的には、例えば、図８に示すエコーキャンセラ９００（帯域分割器９０１、帯域分割器９０２、バンド毎処理部９０３、帯域合成器９０４）のように、入力信号を、サブバンド分割し、対応するサブバンド毎に、空間の伝達関数を同定する方式でもよい。また、各対応するサブバンド毎に、異なるタップ長のフィルタで、空間の伝達関数を同定してもよい。更に、この場合、前記音声有無情報によって、音声が含まれていると判定される場合と、そうでない場合とで、タップ長を変更し、音声帯域の伝達関数を同定するように制御してもよい。なお、図８の、それぞれのバンド毎処理部９０３により、伝達関数の同定がされてもよい。また、それぞれのバンド毎処理部９０３により、エコー除去フィルタの処理がされてもよい。なお、低域信号は、周波数が、低域信号の周波数よりも高い高域信号におけるＴａｐ長よりも長いＴａｐ長のフィルタで、エコー除去されてもよい。また、音声有無情報から、音声信号が含まれると判断される場合には（或いは、音声情報が含まれる割合が（閾値よりも）大きいと判断される場合には）、音声帯域の信号に対して、比較的長いＴａｐ長のフィルタで、エコーの除去がされてもよい。

　続けて、次の説明がされる。オーディオデコーダ１ａ（オーディオデコーダ１）の細部については、具体的には、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。

　図５は、音信号処理システム４を示す図である。

　音信号処理システム４は、オーディオエンコーダ３と、オーディオデコーダ１とを備える。

　オーディオデコーダ１は、オーディオデコーダ１ａである。なお、オーディオデコーダ１は、オーディオデコーダ１ｂであってもよいし、他のデコーダであってもよい。

　なお、オーディオデコーダ１ａおよびオーディオデコーダ１ｂのそれぞれは、このように音信号処理システム４の一部である形態を有してもよいし、他の形態を有してもよい。

　ビットストリーム分離器１００（図１）は、オーディオデコーダ１に入力されたビットストリームから、ビットストリームに含まれた符号化信号を取得する。取得される符号化信号は、オーディオエンコーダ３により符号化前信号（オーディオエンコーダ３に入力された符号化前信号（入力信号））が符号化された信号である。

　符号化信号は、複数の（Ｎ個の）種類の符号化信号のうちの、何れかの種類の符号化信号である。それぞれの種類の符号化信号は、複数の（Ｎ個の）種類の符号化器（例えば、後述される図３の複数の符号化器３００ｘ）のうちの、何れかの符号化器により、その符号化器による符号化の方法で符号化された符号化信号である。

　それぞれの種類の符号化信号は、その種類に対応する、スピーチの成分の量を有する。それぞれの種類の符号化信号は、対応する量のスピーチ成分を有する符号化前信号が符号化されるのに際して、複数の種類の符号化信号のうちで、その種類の符号化信号へと符号化されることが最も適切な符号化信号である。

　そして、複数の種類の符号化信号のうちには、その符号化信号が符号化される前の符号化前信号の線形予測係数と励振信号とが符号化された、（線形予測係数等を表す）符号化信号である特定符号化信号が含まれる。線形予測係数および励振信号は、人の声道の音響特性のモデルに対応する予め定められた計算式が、それらの線形予測係数等について計算されることにより、その符号化前信号が算出されるデータである。

　複数の復号化器１０２ｘ（図１）は、それぞれの種類の符号化信号を復号化する複数の（Ｎ個の）復号化器（オーディオ信号復号化器１０２等）を含む。複数の復号化器１０２ｘ（図１）は、ビットストリーム分離器１００により取得された符号化信号を、その符号化信号の種類に対応する復号化器（利用復号化器）により復号化する。

　すなわち、このオーディオデコーダ１は、現在、規格化が進められつつある最新の規格である、ＵＳＡＣの規格のオーディオデコーダである。

　そして、オーディオデコーダ１は、帯域拡大器１０４を備える。

　帯域拡大器１０４は、利用復号化器（上述）により復号化された復号化後信号の高域の部分を、その復号化信号の符号化前信号（原音）における高域の部分に近づける修正を、復号化後信号の高域の部分に対して行う。帯域拡大器１０４は、これにより、復号化後信号の再生帯域を拡大する。

　そして、より具体的には、帯域拡大器１０４は、このような、再生帯域の拡大をする際に、第１の方法および第２の方法のうちから一方を特定し、特定された方法により、拡大を行う。

　第１の方法では、帯域拡大器１０４は、復号化後信号における低域信号の周波数スペクトルに対応する周波数スペクトルを、復号化後信号の高域に複写する修正を、復号化後信号の高域の部分に行うことにより、帯域を拡大する。

　第２の方法では、帯域拡大器１０４は、符号化信号から、スピーチ信号復号化器１０３等により復号化された線形予測係数および励振信号から、特許第３１８９６１４号公報の方法などにより、復号化後信号の包絡特性を算出する。そして、帯域拡大器１０４は、算出された包絡特性により特定される、上記の第１の方法による修正での精度よりも高い精度での修正を、復号化後信号の高域の部分に行うことで、帯域を拡大する。なお、ここで、精度が高いとは、例えば、拡大後の拡大後信号が、拡大がされた復号化後信号の基となった符号化前信号に対して、より近いことである。

　具体的には、例えば、第２の方法では、第１の方法での加工後の信号（信号７Ｌ（信号７Ｌ１））の包絡特性よりも、算出された包絡特性に近い包絡特性を有する加工後の信号（信号７Ｌ（信号７Ｌ２））へと、加工を行うことにより、復号化前信号に対してより近い、加工後の信号へと、加工を行ってもよい。

　情報伝送器１０１は、例えばビットストリーム分離器１００（選択情報取得部）などから、復号化される符号化信号が、線形予測係数および励振信号が符号化された特定符号化信号か否かを示す含有情報を取得する。なお、含有情報は、例えば、符号化信号の種類を示す、先述の種類信号（情報７Ｉ）の一部又は全部である。情報伝送器１０１は、取得された含有情報を、帯域拡大器１０４に伝送する。情報伝送器１０１は、符号化信号が、特定符号化信号ではない場合には、そのことを示す第１の含有情報を取得し、取得された第１の含有情報を帯域拡大器１０４に伝送することにより、第１の方法での、帯域の拡大を、帯域拡大器１０４に行わせる。他方、情報伝送器１０１は、符号化信号が、特定符号化信号である場合には、そのことを示す第２の含有情報を取得し、伝送することにより、第２の方法での拡大を帯域拡大器１０４に行わせる。

　このように、このオーディオデコーダ（オーディオデコーダ１、オーディオデコーダ１ａ）では、前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第１の量である場合（図１１の（１）の場合）に適する第１の方式と、第１の量よりも多い第２の量である場合（図１１の（２）の場合）に適する第２の方式とを含み、前記第２の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、当該線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式がオーディオデコーダ１等によって計算されることにより、前記入力信号が算出されるデータであり、当該オーディオデコーダは、ＵＳＡＣ（Ｕｎｉｆｉｅｄ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｃｏｄｅｃ）の規格におけるオーディオデコーダであり、前記線形予測係数は、前記入力信号の包絡特性を特定し、前記信号加工器は、当該信号加工器に伝送される前記情報により、前記第２の方式（特定符号化信号の方式）以外の他の方式に対応する復号化器（オーディオ信号復号化器１０２）が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第１の加工後信号へと加工し、前記情報により、前記第２の方式に対応する復号化器（スピーチ信号復号化器１０３）が特定される場合には、前記第１の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有することにより、前記第１の加工後信号よりも前記入力信号に近い、第２の加工後信号へと、前記入力信号を加工する。

　これにより、包絡特性に基づいた、より適切な方法による加工が、確実にできる。

　なお、信号加工器（音声帯域強調器２０４）は、第２の方法の加工では、復号化後信号を、当該復号化後信号とは異なる加工後信号へと加工する（音声の強調を行う）一方で、第１の方法の加工における加工後信号は、前記復号化後信号と同一であってもよい（音声の強調がされていない信号であってもよい）。

　（実施の形態２）
　以下、本発明の実施の形態２におけるオーディオエンコーダについて、図面を参照しながら説明する。

　ここで、先述の背景技術の説明で述べられた、図９のような構成では、何れのエンコーダを用いるかは、入力信号分類器５００による分類によって決定される。

　しかしながら、図１１の範囲９１で示したように、仮に、入力信号が、スピーチ信号であると分類されたとしても、符号化のビットレートが、所定の値より大きい場合には（範囲９１ｂ）、スピーチ信号符号化器で符号化するよりも、オーディオ信号符号化器で符号化した方が、高音質に符号化可能である。また、符号化前信号（入力信号）が、オーディオ信号と分類されても、ビットレートが、範囲９１ａの小さいビットレートである場合には、スピーチ用の符号化器により符号化された方が、音質が高い。この事実があるのに、入力信号分類器５００の出力（分類の結果）のみで、ビットレートに関わらず、どの符号化方式を用いるかを決定すると、最適な符号化方式が選択されないという問題がある。

　なお、先の背景技術の説明でも、図１１に言及された。しかし、この言及は、単なる、説明の便宜上の言及である。つまり、図１１で示される事項は、本発明がされる前においては着目されていなかった事項であり、本発明がされるのに際して初めて着目された事項である。図１１は、このような、本発明がされるのに際して初めて着目された、従来例における問題点を説明する。

　本発明は、このような、図１１で示される、従来例における問題点に鑑みてなされたものであって、最適な符号化方式で、入力信号をエンコードできるようなオーディオエンコーダを提供する。

　つまり、本発明は、復号化された復号化後信号に加工がされるのに際して、適切な方法による加工ができることを目的とする（オーディオデコーダ１ａ等を参照）。また、本発明は、確実に、適切な符号化方式により符号化ができることを他の目的とする。なお、本発明は、ひいては、これらの効果から派生する種々の効果を得ることを他の目的とする。

　図３は、本実施の形態２におけるオーディオエンコーダ３ｃの構成を示す図である。

　オーディオエンコーダ３ｃは、図３において示されるように、オーディオ信号符号化器３００と、スピーチ信号符号化器３０１と、信号分類器３０２と、選択器３０３と、ビットストリーム生成器３０４とを備える。

　オーディオ信号符号化器３００は、入力信号（符号化前信号７Ｐ）の周波数スペクトル信号を符号化する。

　スピーチ信号符号化器３０１は、入力信号を線形予測係数と励振信号とに分け、分けられた線形予測係数と励振信号とのそれぞれを符号化する。

　信号分類器３０２は、入力信号の特徴に応じて、入力信号を分類する。なお、具体的には、信号分類器３０２は、入力信号の分類として、その入力信号に含まれるスピーチの成分（成分７Ｍ）の量を示す分類（分類情報Ｓ）を特定してもよい。

　選択器３０３は、前記複数の符号化器３００ｘの中から、どの符号化器をオーディオエンコーダ３ｃが用いるかを選択する。つまり、選択器３０３は、複数の符号化器３００ｘのなかから、選択符号化器を選択し、符号化前信号の符号化に用いられる利用符号化器として、選択された選択符号化器を利用させる。

　ビットストリーム生成器３０４は、利用符号化器により符号化されたそれぞれの符号化信号（符号化信号７Ｑ）を、パッキングして、それぞれの符号化信号がパッキングされたビットストリーム（符号化後信号７Ｔ）を生成する。なお、生成されるビットストリームは、例えば、先述された、入力信号７Ｓ（図１）のビットストリームであってもよい（図５参照）。

　本実施の形態２では、オーディオ信号符号化器３００を、順位１の符号化器とする。その符号化方式は、例えばAAC方式であるが、それに限られるのではなく、入力信号の周波数スペクトル信号を符号化する方式であればどのような方式であってもよい。また、本実施の形態２では、スピーチ信号符号化器３０１を、順位２の符号化器とする。その符号化方式は、例えばAMR方式であるが、それに限られるのではなく、入力信号を線形予測係数と励振信号とに分け、それぞれを符号化する方式であればどのような方式であってもよい。

　次に、以上のように構成されたオーディオエンコーダ３ｃの動作について以下説明する。

　まず、前記信号分類器３０２によって、入力信号の特徴に応じて、入力信号を分類する。具体的には、入力信号がスピーチ信号なのか、スピーチ信号でない信号なのかを、信号分類器３０２は分類する。なお、もちろん、信号分類器３０２は、背景音を含むようなスピーチ信号の場合には、スピーチ信号の成分がどの程度含まれるのかを判断し、含まれると判断された程度（量）が、閾値以上か否かに応じて、よりスピーチ信号に近いのか、そうでないのかを分類してもよい。

　例えば、信号分類器３０２は、入力信号が、完全にスピーチ信号だけを含んでいるような場合には、変数Ｓ（分類情報Ｓ）を10と特定し、逆にスピーチ信号を全然含んでいないような場合には、変数Ｓ（分類情報Ｓ）を0と特定する。また、信号分類器３０２は、その中間的な場合には、スピーチ信号が含まれる度合いに応じて、０から１０までの値を変数Ｓに設定する。

　次に、選択器３０３によって、前記信号分類器３０２で設定される値Ｓと、別途入力される指標Ｂとによって、前記複数の符号化器の中からどの符号化器を用いるかを（利用符号化器を）選択する。例えば指標Ｂは、符号化のビットレートである。

　選択器３０３は、前記Ｓの値が比較的小さい場合には（入力信号にスピーチ信号が含まれる度合いが小さい場合には）、順位の若い符号化器を選択する（本実施の形態では順位１の符号化器、すなわちオーディオ信号符号化器３００を選択する）。そして、選択器３０３は、前記Ｓの値が大きい場合には（入力信号にスピーチ信号が含まれる度合いが、大きい場合には）、順位の大きい符号化器を選択する（本実施の形態では、例えば、順位２の符号化器、すなわちスピーチ信号符号化器３０１を選択する）。

　ただし、選択器３０３は、指標Ｂで表される符号化ビットレートが、高いビットレートである場合には、順位の若い符号化器を、より多く用いるように、符号化器を選択する。つまり、選択器３０３は、例えば、予め定められたビットレート以上のビットレートである場合には、そのビットレート以下のビットレートである場合に、予め定められた順位以下の順位の符号化器を用いる頻度（割合）よりも高い頻度（割合）で、その符号化器を用いる。

　より具体的には、例えば、選択の処理は、次の通りである。

　例えば、選択器３０３は、Ｂが24kbpsのときには、Ｓが５以下の場合に、オーディオ信号符号化器３００を用い、Ｓが５より大きい場合に、スピーチ信号符号化器３０１を用いるように選択する。一方、選択器３０３は、例えば、Ｂが32kbpsのときには、Ｓが７以下の場合、オーディオ信号符号化器３００を用い、Ｓが７より大きい場合、スピーチ信号符号化器３０１を用いるように、符号化器を選択する。また、選択器３０３は、例えばＢが48kbpsの場合、Ｓの値に関わらず、スピーチ信号符号化器３０１を用いないように選択をする。これは、それぞれの符号化器による音質の傾向が、図１１に示すようになっているからである。

　図１１の横軸は、符号化のビットレートを示しており、縦軸は、音質を示している。実線の曲線は、AACのようなオーディオコーデックにおける、ビットレートと音質との関係を示している。一点鎖線の曲線は、AMRのようなスピーチコーデックでスピーチ信号処理した際の、ビットレートと音質との関係を示している。つまり、図１１における、破線の曲線（データ７４Ａ）は、スピーチコーデックで、スピーチ信号でない信号を処理した際の、ビットレートと音質との関係を示している。図１１に示すように、ビットレートがある所定の値（例えば、範囲９１ｂの下端の値）より大きい場合には、入力信号がスピーチ信号であっても（（２）の場合）、そうでなくても（（１）の場合）、オーディオコーデック（データ７３）の方が、より高音質に信号を符号化できる。

　このような特徴に鑑みたとき、入力信号が、スピーチ信号かどうかだけ（分類情報Ｓだけ）を手がかりに、符号化器を選択することは相応しくない。そこで、選択器３０３で、外部から、分類情報Ｓとは別途、入力される指標Ｂによって、符号化器を、より適切に選択するのである。

　すなわち、例えば、信号分類器３０２は、複数の符号化器３００ｘ（図３）に含まれる符号化器の個数よりも多い個数の分類（Ｓ＝０～１０）のうちから、符号化前信号の分類を特定してもよい。そして、選択器３０３は、それらの複数の分類の閾値として、指標Ｂ（例えば、24kbps）に対応する閾値（例えば５）を特定する。そして、選択器３０３は、信号分類器３０２により特定された分類（Ｓ）が、閾値（５）以下の小さい分類である場合、比較的低い順位の符号化器（オーディオ信号符号化器３００）を選択し、閾値より大きい分類である場合（Ｓが５より大きい場合）、比較的高い順位の符号化器（スピーチ信号符号化器３０１）を選択する。

　そして、選択器３０３は、指標Ｂにより、対比ビットレート（例えば、32kbps）ではないビットレート（例えば、48kbps）が示される場合には、対比ビットレートが示される場合に特定する対比閾値（７）とは異なる閾値（無限大）を特定する。つまり、選択器３０３は、対比ビットレートよりも大きいビットレート（48kbps）が示される場合、対比閾値よりも大きい閾値(例えば、無限大)を選択して、比較的低い順位の符号化器（オーディオ信号符号化器３００）をより高い頻度で選択し、比較的高い順位の符号化器（スピーチ信号符号化器３０１）を、より低い頻度で選択する。他方、選択器３０３は、対比ビットレート（例えば、32kbps）よりも小さいビットレート（例えば、24kbps）が示される場合、対比閾値（７）よりも小さい閾値（５）を選択して、比較的低い順位の符号化器（オーディオ信号符号化器３００）をより低い頻度で選択し、比較的高い順位の符号化器（スピーチ信号符号化器３０１）をより高い頻度で選択する。

　また、選択器３０３は、閾値を特定しなくてもよい。つまり、一部又は全部の局面において、例えば、次の処理がされてもよい。つまり、例えば、選択器３０３は、指標Ｂにより、予め定められたビットレート（例えば、図１１の範囲９０のビットレート）よりも大きなビットレート（例えば、範囲９１ｂのビットレート）が示される場合には、信号分類器３０２により特定された分類に関わらず、何れの分類が特定された場合にでも、比較的高い順位の符号化器（スピーチ信号符号化器３０１）は選択せず、比較的低い順位の符号化器（オーディオ信号符号化器３００）を選択してもよい。そして、選択器３０３は、指標Ｂにより、予め定められたビットレートより小さなビットレート（例えば、範囲９１ａのビットレート）が示される場合には、信号分類器３０２により特定された分類に関わらず、比較的低い順位の符号化器（オーディオ信号符号化器３００）は選択せず、比較的高い順位の符号化器（スピーチ信号符号化器３０１）を選択してもよい。

　次に、前記選択器３０３で、オーディオ信号符号化器３００が選択された場合、当該オーディオ信号符号化器３００で入力信号を符号化する。

　一方、前記選択器３０３でスピーチ信号符号化器３０１が選択された場合には、当該スピーチ信号符号化器３０１で入力信号を符号化する。

　最後に、ビットストリーム生成器３０４で、１以上の符号化信号を、ビットストリームへとパッキングして、ビットストリームを生成する。

　上記のように、本実施の形態によれば、入力信号（符号化前信号７Ｐ）の周波数スペクトル信号を符号化するオーディオ信号符号化器（オーディオ信号符号化器３００）と、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化するスピーチ信号符号化器（スピーチ信号符号化器３０１）と、入力信号の特徴に応じて、入力信号を分類する信号分類器（信号分類器３０２）と、前記複数の符号化器の中からどの符号化器を用いるか（選択符号化器（利用符号化器））を選択する選択器（選択器３０３）と、符号化信号をパッキングしてビットストリームを生成するビットストリーム生成器（ビットストリーム生成器３０４）とを備える。このため、選択器において、信号分類器の分類結果（分類情報Ｓ）と、予め定められた指標Ｂ（ビットレート）とによって最適な符号化器を選択することで、入力信号の分類と、それぞれの符号化器の特性とに応じて、最適な符号化器が選択できるので良好な音質が得られる。

　なお、指標Ｂは、以下に説明されるプロファイル情報でもよい。

　本実施の形態では、前記選択器３０３に入力される指標を、符号化のビットレートとしたが、例えば、用途を表す指標であってもよい。すなわち、選択器３０３は、用途を表す指標が、音声通話を含む用途を示す場合には、そうでない場合と比べて、順位の若い符号化器を、あまり選択しないようにする。或いは全く選択しないようにする。

　図６は、プロファイル情報（指標Ｂ）の表（図６下段）を示す図である。

　図６下段の表の第１列に示される、「音声通話Ｐｒｏｆｉｌｅ」などのそれぞれは、ＵＳＡＣの規格に対して、詳細な点の規定を加えた、ＵＳＡＣの規格のプロファイルのうちの１つである。これらの複数のプロファイルのうちの１つは、プロファイル情報（用途情報）たる指標Ｂにより特定される。

　例えば、「音声通話Ｐｒｏｆｉｌｅ」は、携帯電話や、有線電話などの、音声通話に用いるのに適するプロファイルである。また、「ＡＶ　Ｃｏｍ　Ｐｒｏｆｉｌｅ」は、テレビ電話での通信に適するプロファイルである。また、「Ｍｏｂｉｌｅ　ＴＶ　Ｐｒｏｆｉｌｅ」は、ワンセグテレビの通信に適するプロファイルであり、「ＴＶ　Ｐｒｏｆｉｌｅ」は、フルセグのテレビの通信に適するプロファイルである。

　なお、「音声通話Ｐｒｏｆｉｌｅ」などの、複数のプロファイルのうちの１つ又は複数は、例えば、携帯電話の通信における規格により、その規格の一部として指定され、参照されるプロファイルであってもよい。

　図６の表の第３列～５列におけるそれぞれの列（Ａｕｄｉｏ、Ａ／Ｓ（Ａｕｄｉｏ／Ｓｐｅｅｃｈ）、Ｓｐｅｅｃｈ）は、それぞれの行のプロファイルにおける、選択器３０３（選択器４０３）が選択することが許される許可符号化器を示す。第３列の丸印は、オーディオ信号符号化器３００が許可符号化器であることを示し、第５列の丸印は、スピーチ信号符号化器３０１が許可符号化器であることを示す。

　そして、高いビットレート（例えば４８ｋｂｐｓ（第５行第２列））のプロファイルでは、順位の低い符号化器（オーディオ信号符号化器３００、第５行第３列）が許可符号化器であり、順位の高い符号化器（スピーチ信号符号化器３０１、第５行第５列）が許可符号化器ではない。他方、低いビットレート（４ｋｂｐｓ（第２行第２列）など）のプロファイルでは、順位の低い符号化器（第２行第３列）が許可符号化器ではなく、順位の高い符号化器（スピーチ信号符号化器３０１、第２行第５列）が許可符号化器である。また、中間のビットレート（例えば１２ｋｂｐｓ（第３行第２列））のプロファイルでは、より低いビットレートのときの許可符号化器（スピーチ信号符号化器３０１、第２行第５列）と、より高いビットレートのときの許可符号化器（オーディオ信号符号化器３００、第５行第３列）との両方がそれぞれ許可符号化器である（第３行第３列、第５列）。

　そして、選択器３０３は、複数の符号化器のうちで、取得された指標Ｂにより示されるプロファイルについての、１個又は複数個の許可符号化器のなかから、選択符号化器を選択し、許可符号化器ではない符号化器は選択しない。なお、例えば、選択器３０３は、選択した選択符号化器の順位を特定する順位情報Ｘを生成することにより、生成された順位情報Ｘが特定する選択符号化器により、符号化前信号を符号化させる。

　なお、図６の表の第４列については、後で詳しく説明される。

　なお、オーディオエンコーダ３ｃ（オーディオエンコーダ３、図３、図５、図６）は、例えば、選択器３０３により取得される指標Ｂが設定され、設定された指標Ｂを保持するプロファイル情報設定部Ｂ１（図６）を有しても良い。

　これにより、プロファイルに基づいて、簡単かつ的確に、適切な符号化器が選択できる。

　なお、前記選択器３０３に入力される指標は、符号化する信号のチャネル数を示す指標であってもよい。すなわち、選択器３０３は、チャネル数が多い場合には、そうでない場合に比べて、順位の若い符号化器を、より多く選択する。入力信号のチャネル数が多いということは、用途としては、リッチコンテンツを符号化する用途であると考えられるので、スピーチ信号のみが強く含まれているということを想定しない方が良いからである。

　なお、こうして、用途（プロファイルの種類：図６の表の第１列）を示すことにより、示される用途におけるビットレート（第２列）を特定する指標Ｂが用いられてもよい。

　さて、本実施の形態においては、符号化器として、順位１から順位２の２つの符号化器を用いて、その動作を説明したが、もちろんそれに限られない。

　図４は、符号化器として、順位１から順位３の３つの符号化器を用いたオーディオエンコーダ３ｄ（オーディオエンコーダ３（図５））を示す図である。図３と図４の構成要素で、異なることは、図４では混合信号符号化器４０５をさらに備えていることと、選択器４０３が、順位１から順位３までの３つの符号化器から符号化器を選択することである。他の構成要素については、例えば、図３の、その構成要素に対応する要素と同じでもよい。ここでは、順位１の符号化器は、オーディオ信号符号化器４００であり、順位２の符号化器は、混合信号符号化器４０５であり、順位３の符号化器は、スピーチ信号符号化器４０１である。

　このような構成の場合、選択器４０３では、信号分類器４０２からの情報（分類情報）Ｓと、別途入力される指標Ｂによって、３つの符号化器の中から、適切な符号化器を選択する。

　選択器４０３は、前記Ｓの値が小さい場合には（入力信号にスピーチ信号の成分が含まれる度合いが、小さい場合には）、順位の若い符号化器を選択する（本実施の形態では順位１の符号化器、すなわちオーディオ信号符号化器４００を選択する）。また、選択器４０３は、前記Ｓの値が大きい場合には（入力信号にスピーチ信号の成分が含まれる度合いが、大きい場合には）順位の大きい符号化器を選択する（本実施の形態では順位３の符号化器、すなわちスピーチ信号符号化器４０１を選択する）。また、選択器４０３は、中間的な値の場合、混合信号符号化器４０５を選択する（本実施の形態では、順位２の符号化器を選択する）。

　ただし、選択器４０３は、指標Ｂで表される符号化ビットレートが、高い場合には、順位の若い符号化器をより多く用いるように、選択をする。

　具体的には、例えば、選択器４０３は、Ｂが24kbpsのときには、Ｓが３以下の場合に、オーディオ信号符号化器４００を用い、Ｓが３より大きく７以下の場合に、混合信号符号化器４０５を用い、Ｓが７より大きい場合に、スピーチ信号符号化器４０１を用いるように、選択をする。

　そして、例えば、選択器４０３は、Ｂが32kbpsのときには、Ｓが５以下の場合に、オーディオ信号符号化器４００を用い、Ｓが５より大きく９以下の場合に、混合信号符号化器４０５を用い、Ｓが９より大きい場合に、スピーチ信号符号化器４０１を用いるように、選択をする。

　また、例えば、選択器４０３は、Ｂが48kbpsのときには、Ｓが７以下の場合に、オーディオ信号符号化器４００を用い、Ｓが７より大きい場合に、混合信号符号化器４０５を用い、Ｓの値に関わらず、スピーチ信号符号化器４０１を用いないようにする。

　逆に、例えば、選択器４０３は、Ｂが12kbpsのときには、Ｓが３以下の場合に、混合信号符号化器４０５を用い、Ｓが７より大きい場合に、スピーチ信号符号化器４０１を用い、Ｓの値に関わらず、オーディオ信号符号化器４００は用いないようにする。

　また、選択器４０３は、符号化された符号化信号の用途が、放送や音楽配信など、一定の音質以上の比較的高い音質が求められる用途の場合には、順位３の符号化器（スピーチ信号符号化器４０１）は用いないようにしてもよい。また、選択器４０３は、用途が、通話を含む用途の場合には、順位１の符号化器（オーディオ信号符号化器４００）は用いないようにしてもよい。

　ここで、混合信号符号化器４０５は、入力信号を、線形予測係数と励振信号とに分け、それぞれを符号化する符号化器である。ただし、混合信号符号化器４０５は、分けられた励振信号については、その励振信号に対応する周波数軸信号を符号化することによって、その励振信号を符号化する。

　なお、図６の表の第４列では、混合信号符号化器４０５が許可符号化器か否かが示される。図６の表の第４列の内容に沿った動作がされてもよい。つまり、選択器４０３は、例えば、プロファイルを示す指標Ｂに基づいて、上記の３つの符号化器のなかから、指標Ｂにより示されるプロファイルに対応する許可符号化器を、選択符号化器として選択してもよい。そして、選択器４０３は、こうして、３つの符号化器から、プロファイルに基づいて選択した選択符号化器により、符号化前信号を符号化させてもよい。

　なお、こうして、例えば、順位１の前記符号化器（オーディオ信号符号化器４００）は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、順位Ｎ（２＜Ｎ）の前記符号化器（スピーチ信号符号化器４０１）は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の時間軸信号を符号化し、順位Ｍ（１＜Ｍ＜Ｎ）の前記符号化器（混合信号符号化器４０５）は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の周波数軸信号を符号化するオーディオエンコーダが構築されてもよい。

　すなわち、要約すれば、実施の形態により、次の課題が解決される。つまり、この実施の形態は、低ビットレートで高音質を得られるような、オーディオエンコーダおよびオーディオデコーダに関する。そして、解決される課題とは、入力信号が、音声信号（人の声）であっても、非音声信号（楽音、自然音など）であっても、良好な音質が得られるようなオーディオエンコーダ（オーディオエンコーダ３ｃ等）およびオーディオデコーダ（オーディオデコーダ１ａ等）を提供することである。このために、符号化時に選択された符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器（利用符号化器）の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたか（利用符号化器）を示す情報を前記信号加工器に伝える情報伝送器と、を備えるオーディオデコーダが構築される。

　なお、オーディオエンコーダ３ｃの、より詳細な点は、例えば、次の説明のようであってもよい。ただし、次の説明は、単なる一例である。

　つまり、オーディオエンコーダ３ｃは、複数の符号化器（複数の符号化器３００ｘ）と、信号分類器（信号分類器３０２）と、選択器（選択器３０３）とを備える。

　信号分類器は、入力信号（符号化前信号７Ｐ）に含まれる、スピーチの成分７Ｍの量（分類情報Ｓ）を、複数の量のなかから特定する。

　前記複数の量のうちの１つは、予め定められた特定量（例えばＳ＝６の量）である。

　複数の符号化器は、特定符号化器（スピーチ信号符号化器３０１）を含む。特定符号化器は、含まれるスピーチの成分の量が、前記特定量（６）である符号化前信号の符号化において、前記符号化前信号が符号化された前記符号化信号のビットレートが第１のビットレート（例えば、24kbps）である場合には、前記複数の符号化器のうちで最適であり、第２のビットレート（例えば、32kbps）である場合には、最適ではない符号化器である。

　それぞれの前記符号化器は、その符号化器が利用符号化器である場合に、前記符号化前信号を前記符号化後信号へと符号化する。

　選択器は、前記信号分類器により特定された量が、前記特定量（６）の場合において、指標（指標Ｂ）により示される、前記符号化後信号のビットレートが、前記第１のビットレート（24kbps）である場合には、前記特定符号化器（スピーチ信号符号化器３０１）を前記利用符号化器として選択する。そして、前記第２のビットレート（32kbps）である場合には、前記特定符号化器を前記利用符号化器として選択しない。つまり、後者の場合、他の符号化器が選択される。

　これにより、スピーチの成分の量が特定量であるときにおいて、利用符号化器として、確実に、適切な符号化器が選択できる。

　つまり、スピーチの成分の量が特定量でも、ビットレートが、第１のビットレートの場合にのみ、特定符号化器が選択され、第２のビットレートの場合には、他の符号化器が選択される。これにより、ビットレートに関わらず、確実に、適切な符号化器が選択できる。

　換言すれば、例えば、このオーディオエンコーダ（オーディオエンコーダ３）においては、次の通りである。

　つまり、それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合に、前記入力信号を符号化信号へと符号化する。

　前記複数の符号化器は、前記符号化信号のビットレートが、予め定められた特定ビットレート（範囲９１ａのビットレート）である場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器（スピーチ信号符号化器３０１）を含む。

　なお、最も適切に符号化するとは、先述のように、例えば、符号化された符号化信号のデータ量および音質の評価値が比較的高いことをいう。

　前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート（範囲９１ａのビットレート）である場合と、前記特定ビットレートでない場合と（範囲９０、範囲９１ｂ）のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器（オーディオ信号符号化器５０２）を、前記利用符号化器として選択する。

　また、具体的には、例えば、次の通りである。

　つまり、前記複数の符号化器は、前記符号化信号のビットレートが、予め定められた特定ビットレート（24kbps）で（かつＳが６で）ある場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化する特定符号化器（スピーチ信号符号化器３０１）を含む。

　前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレート（24kbps）である場合と、前記特定ビットレートでない場合と（例えば32kbpsである場合と）のうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器（オーディオ信号符号化器３００）を、（Ｓが６の場合において）前記利用符号化器として選択する。

　そして、より詳細には、次の通りである。

　前記特定符号化器は、前記入力信号が特定入力信号（Ｓが５以下の場合の入力信号）である場合には、前記符号化信号のビットレートが前記特定ビットレート（24kbps）でも、前記入力信号の符号化において、最も適切ではない。

　前記信号分類器は、前記入力信号が、前記特定入力信号（Ｓが５以下）であることを特定する。

　前記選択器は、前記符号化信号のビットレートが、前記特定ビットレート（24kbps）であっても、前記信号分類器により、前記入力信号が前記特定入力信号（Ｓが５以下）と特定される場合には、他の前記符号化器（オーディオ信号符号化器３００）を選択する。

　前記特定入力信号は、特定量（Ｓが５以下の量）だけ、スピーチの成分を含む前記入力信号である。

　前記信号分類器は、前記入力信号に含まれる、スピーチの成分の量（Ｓ）を特定する。

　前記選択器は、閾値を特定し、特定された前記閾値が、前記信号分類器により特定された前記量以上である場合に、他の前記符号化器（オーディオ信号符号化器３００）を前記利用符号化器として選択し、特定された前記量未満である場合に、前記特定符号化器（スピーチ信号符号化器３０１）を選択する。なお、前記選択器は、前記符号化信号のビットレートが、前記特定ビットレート（24kbps）である場合には、前記特定量（Ｓが５以下の量）以上の閾値（５）を特定する。

　なお、音信号処理システム４は、例えば、オーディオエンコーダ３として、オーディオエンコーダ３ｃ（オーディオエンコーダ３ｄ）を備え、オーディオデコーダ１として、オーディオデコーダ１ａ（オーディオデコーダ１ｂ）を備える、ＵＳＡＣの規格における音信号処理システムでもよい。

　この音信号処理システム４によれば、オーディオデコーダ１において、比較的適切な方法での加工が実行される。そして、オーディオエンコーダ３により、適切な符号化方式が、より確実に選択されることにより、適切な方法での加工が確実に実行できる。

　オーディオエンコーダ３ｃ（オーディオエンコーダ３ｄ）およびオーディオデコーダ１ａ（オーディオデコーダ１ｂ）は、この音信号処理システム４を構成する２つの部品に利用できて、互いに密接な関係を有する。つまり、音信号処理システム４、オーディオエンコーダ３、オーディオデコーダ１は、この効果により互いに結ばれた技術であり、単一の技術範囲に属する。すなわち、仮に、ボルトと、ナットと、それらボルトおよびナットを含んでなる全体たる結合具とが、単一の技術範囲に属すると仮定する。この音信号処理システム４は、全体である結合具に対応し、オーディオエンコーダ３は、ボルトおよびナットのうちの一方に対応し、オーディオデコーダ１は他方に対応する。

　なお、本発明は、上記の実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を上記の実施の形態に施した形態、或いは異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

　今回開示された実施の形態はすべての点で例示であって、制限的な記載ではないと考えられるべきである。本発明の範囲は、上記した説明ではなくて、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。

　なお、実施の形態における、単なる細部については、単に、公知の技術が適用されただけの形態にされてもよいし、更なる改良発明が加えられた形態などにされてもよい。

　そして、例えば、次の動作がされてもよい。なお、次の動作は、ある局面でのみ行われてもよい。なお、次の動作も、単なる一例である。

　つまり、音信号処理システム４（図５）は、ＵＳＡＣにおけるシステムでもよい。

　そして、予め定められた情報７Ｉ（図１）により、符号化信号７Ｃが符号化されたコーデックが、オーディオコーデックと、スピーチコーデックとのうちの、オーディオコーデックであると示される場合に、オーディオコーデックでの復号化がされてもよい（オーディオ信号復号化器１０２、Ｓ４）。

　そして、当該情報７Ｉにより、スピーチコーデックであると示される場合に、スピーチコーデックでの復号化がされてもよい（スピーチ信号復号化器１０３、Ｓ４）。

　そして、当該情報７Ｉにより示される方のコーデックでの復号化がされた復号化後信号７Ａに対して、帯域の拡大の処理がされ、帯域の拡大がされた加工後信号７Ｌが生成されてもよい（帯域拡大器１０４、Ｓ６）。

　そして、この生成がされるのに際して、先述された情報７Ｉが伝送され、伝送される情報７Ｉが（帯域拡大器１０４により）取得されることにより（Ｓ５）、取得される当該情報７Ｉにより、オーディオコーデックが示される場合に、第２の方法以外の第１の方法で、加工後信号７Ｌの生成がされてもよい（第１の加工後信号７Ｌ１、Ｓ６）。

　そして、スピーチコーデックが示される場合には、第２の方法で、生成がされてもよい（第２の加工後信号７Ｌ２、Ｓ６）。

　ここで、第２の方法は、オーディオコーデックでの復号化がされる際には利用可能でなく、スピーチコーデックでの復号化がされる際にのみ利用可能な方法であり、かつ、生成される第２の加工後信号７Ｌ２が、第１の方法で生成される第１の加工後信号７Ｌ１よりも、より適切な信号である方法でもよい。

　つまり、先述のように、例えば、第２の方法は、線形予測係数および励振信号から包絡特性を算出し、算出された包絡特性から特定される第２の加工後信号７Ｌ２を、帯域の拡大がされた加工後信号７Ｌとして生成する方法でもよい（特許文献１：特許第３１８９６１４号公報等を参照）。

　これにより、加工がされた加工後信号７Ｌとして、より適切な第２の加工後信号Ｌ２が生成できる。

　しかも、単なる、示されるコーデックでの復号化が行われる情報７Ｉが、加工に際しても利用され、流用されるだけで足りて、別の情報が必要にならず、処理が簡単にできる。

　このため、適切な加工後信号７Ｌが生成されることと、処理が簡単なこととが両立できる。

　なお、具体的には、例えば、加工後信号７Ｌの生成がされる際まで、情報７Ｉを記憶し、記憶される情報７Ｉが、加工後信号７Ｌの生成に際して利用される、記憶部が設けられてもよい。この記憶部は、例えば、情報伝送器１０１の一部などでもよい。

　なお、情報７Ｉが、当該伝送線７Ｘを通じて、帯域拡大器１０４等に伝送される伝送線（伝送媒体）７Ｘ（図１）が設けられてもよい。

　なお、図１の各機能ブロックなどの、それぞれの機能ブロックは、例えば、ソフトウェアが実行されることにより、コンピュータに実現される機能の機能ブロックでもよいし、ソフトウェアを用いない、演算回路による機能の機能ブロックなどでもよい。

　ここで、符号化前信号７Ｐ（図３）に含まれる、スピーチの成分７Ｍの量が、閾値よりも多いか否か（図１１の（１）、（２）を参照）を示す分類情報Ｓ（図３）が生成されてもよい（信号分類器３０２、Ｓ１）。

　そして、生成される分類情報Ｓにより、閾値より多いと示される場合に（例えば、図１１の（２）の場合に）、スピーチ信号符号化器３０１が選択されてもよい（選択器３０３、Ｓ２）。

　そして、スピーチ信号符号化器３０１が選択された場合に、スピーチコーデックでの符号化がされてもよい（スピーチ信号符号化器３０１、Ｓ３）。

　しかしながら、符号化がされた符号化後信号７Ｔは、例えば、先述された符号化信号７Ｃ（入力信号７Ｓ、図１）でもよい。

　そして、先述のように、符号化信号７Ｃ（図１）のコーデックが、スピーチコーデックである場合に、より適切な第２の加工後信号７Ｌ２が生成される。

　そこで、生成される分類情報Ｓにより、スピーチの成分７Ｍの量が、閾値よりも多いと示される場合だけでなく、少ないと示される場合においても（図１１の（１））、スピーチ信号符号化器３０１が選択されてもよい（選択器３０３、Ｓ２）。

　これにより、より確実に、適切な第２の加工後信号７Ｌ２が生成できる。

　しかしながら、指標Ｂにより示されるビットレートが、範囲９１ａ内のビットレートである場合と、範囲９１ａ内ではないビットレート（範囲９０、範囲９１ｂ内のビットレート等）である場合とがある。

　そして、指標Ｂにより示されるビットレートが、範囲９１ａ内ではない場合には（範囲９０、範囲９１ｂ）、スピーチコーデックでの符号化がされることにより（データ７４Ａ）、音質が、低い音質になってしまう（データ７４Ａ、７４Ｓを参照）。

　一方で、指標Ｂにより示されるビットレートが、範囲９１ａ内である場合には、スピーチコーデックでの符号化がされても（図１１のデータ７４Ａ）、音質が高い。

　そこで、ビットレートを示す指標Ｂが取得されてもよい（選択器３０３、Ｓ２）。

　そして、スピーチの成分７Ｍの量が、閾値よりも少ない場合において（図１１の（１））、次の処理がされてもよい。

　つまり、その処理では、取得された指標Ｂにより、範囲９１ａ内のビットレートが示される場合にのみ、スピーチ信号符号化器３０１が選択され（データ７４Ａ）、範囲９１ａ外のビットレートが示される場合には（範囲９０、範囲９１ｂ）、オーディオ信号符号化器３００が選択されてもよい（選択器３０３、Ｓ２）。

　つまり、これにより、範囲９１ａ内のビットレートが示される場合にのみ、スピーチコーデックでの符号化がされ（スピーチ信号符号化器３０１、Ｓ３）。範囲９１ａ内でないビットレートが示される場合には、オーディオコーデックでの符号化がされてもよい（オーディオ信号符号化器３００、Ｓ３）。

　これにより、指標Ｂが、範囲９１ａ内のビットレートを示す場合には、スピーチコーデックでの符号化がされて、より確実に、適切な第２の加工後信号７Ｌ２が生成できる。

　しかも、指標Ｂが、範囲９１ａ内のビットレートを示さない場合には、オーディオコーデックでの符号化がされて、音質が高くできる。

　これにより、より確実に、適切な第２の加工後信号７Ｌ２が生成できることと、音質が高いこととが両立できる。

　なお、先述のように、より具体的には、例えば、スピーチの成分７Ｍの量が、閾値よりも多い場合においても（図１１の（２））、取得される指標Ｂに応じた処理がされてもよい。

　こうして実施形態の音信号処理システム４においては、オーディオデコーダ１と、オーディオエンコーダ３を備え、上述の両立ができる（図５、図１２等）。

　オーディオデコーダ１と、オーディオエンコーダ３とは、何れも、この両立のための部品に利用可能であり、単一の技術範囲に属する。

　なお、それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化し、前記複数の符号化器は、特定符号化器を含み、前記特定符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレートである場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化し、前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレートである場合と、前記特定ビットレートでない場合とのうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器を、前記利用符号化器として選択するオーディオエンコーダが構築されてもよい（先述の説明を参照）。

　そして、より具体的には、前記特定符号化器は、前記入力信号が特定入力信号である場合には、前記符号化信号のビットレートが前記特定ビットレートでも、前記入力信号の符号化において、最も適切ではなく、前記信号分類器は、前記入力信号が前記特定入力信号であることを特定し、前記選択器は、前記符号化信号のビットレートが、前記特定ビットレートであっても、前記信号分類器により前記入力信号が前記特定入力信号と特定される場合には、他の前記符号化器を選択してもよい（先述の説明を参照）。

　なお、互いに離れた箇所に記載された、複数の技術事項が、適宜、組み合わせられてもよい。また、上述された、適切な１以上の工程を含んでなる方法が構築されてもよい。また、上述された１以上の機能が実装された集積回路が構築されてもよい。また、それらの機能をコンピュータに実現するためのコンピュータプログラムが構築されてもよい。また、このコンピュータプログラムのデータが有するデータ構造などが構築されてもよい。

　本発明にかかるオーディオデコーダは、符号化時に選択される複数の符号化方式に対応した複数の復号化器からなる復号化器群と、前記復号化器の出力信号を加工する信号加工器と、前記復号化器群の中の何れの復号化器が用いられたかを示す情報を前記信号加工器に伝える情報伝送器とを有し、前記信号加工器は、前記情報伝送器からの情報に応じて、互いに異なる複数の方法のうちから選択された方法で、信号を加工する。このため、入力の符号化信号の性質（スピーチ信号か、オーディオ信号かの性質）に応じて、最適なデコード信号を生成できるので、携帯端末から、デジタルテレビなどの大型ＡＶ機器まで、幅広い機器に応用できる。

　本発明にかかるオーディオエンコーダは、１からＮ（Ｎ＞１）までの番号で順位付けられた複数の符号化器と、入力信号の特徴に応じて、入力信号を分類する信号分類器と、前記複数の符号化器の中からどの符号化器を用いるかを選択する選択器とを有し、前記選択器は、前記信号分類器の出力と、予め指定された指標とに応じて、どの符号化器を用いるかを選択する。このため、最適な符号化方式で、入力信号をエンコードすることによって、比較的低いビットレートで、スピーチ信号からオーディオ信号までの信号を、高音質に符号化でき、従って、携帯端末から、デジタルテレビなどの大型ＡＶ機器まで、幅広い機器に応用できる。

　そして、より具体的には、簡単な構成で、加工後信号の質が高くできる。しかも、確実に、加工後信号の質が高くされるにも関わらず、高い音質が維持できる。

　１a　オーディオデコーダ
　１００、２００　ビットストリーム分離器
　１０１、２０１　情報伝送器
　１０２、２０２　オーディオ信号復号化器
　１０２ｘ　復号化器
　１０３、２０３　スピーチ信号復号化器
　１０４　帯域拡大器
　２０４　音声帯域強調器
　３００、４００　オーディオ信号符号化器
　３０１、４０１　スピーチ信号符号化器
　３０２、４０２　信号分類器
　３０３、４０３　選択器
　３０４、４０４　ビットストリーム生成器
　５００　入力信号分類器
　５０１　高域信号符号化器
　５０２　オーディオ信号符号化器
　５０３　スピーチ信号符号化器
　５０４　ビットストリーム生成器
　６００　ビットストリーム分離器
　６０１　オーディオ信号復号化器
　６０２　スピーチ信号復号化器
　６０３　帯域拡大器
　８００　音声有無情報分離器
　８０１　デコーダ
　８０２　スピーカー
　８０３　マイクロホン
　８０４　エコーキャンセラ
　８０５　音声有無判定器
　８０６　エンコーダ
　９００　エコーキャンセラ
　９０１、９０２　帯域分割器
　９０３　バンド毎処理部
　９０４　帯域合成器

Claims

　入力信号の性質に応じて、複数の符号化方式のうちから、当該性質の前記入力信号の符号化に適切な符号化方式が選択されて、選択された前記符号化方式により符号化された符号化信号を復号化するオーディオデコーダであって、
　それぞれの復号化器が、前記複数の符号化方式のうちの１つにおける復号化を行い、その復号化器が、前記符号化信号が符号化された前記符号化方式の復号化を行う対応復号化器である場合には、その復号化器が、前記符号化信号を復号化する複数の復号化器と、
　前記符号化信号が前記対応復号化器により復号化された復号化後信号を、複数の方法のうちで、当該信号加工器に伝送される情報により特定される前記復号化器により復号化された復号化後信号に適する方法で加工する信号加工器と、
　前記複数の復号化器の中から、前記対応復号化器を特定する情報を、前記信号加工器に伝送する情報伝送器とを備えるオーディオデコーダ。
　前記複数の復号化器は、
　前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第１の復号化器と、
　前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第２の復号化器とを有し、
　前記信号加工器は、前記対応復号化器により復号化された前記復号化後信号の再生帯域を拡大し、伝送された前記情報により前記第２の復号化器が特定される場合には、前記復号化後信号に対して、前記線形予測係数に基づいて算出される、周波数の包絡特性に応じた、再生帯域の拡大処理を実施する請求項１記載のオーディオデコーダ。
　前記複数の復号化器は、
　前記入力信号の周波数スペクトル信号が符号化された前記符号化信号を復号化する第１の復号化器と、
　前記入力信号を表す線形予測係数と励振信号とが符号化された前記符号化信号を復号化する第２の復号化器とを有し、
　前記信号加工器は、伝送された前記情報により前記第２の復号化器が特定される場合には、前記復号化後信号に対して、当該復号化後信号における音声帯域の音を強調する処理を実施する請求項１記載のオーディオデコーダ。
　前記複数の符号化方式は、前記入力信号に含まれるスピーチの成分の量が第１の量である場合に適する第１の方式と、第１の量よりも多い第２の量である場合に適する第２の方式とを含み、
　前記第２の方式により符号化された前記符号化信号は、線形予測係数および励振信号が符号化された信号であり、
　前記線形予測係数および励振信号は、当該線形予測係数および励振信号について、人の声道の音響特性のモデルに対応する計算式が計算されることにより、前記入力信号が算出されるデータであり、
　当該オーディオデコーダは、ＵＳＡＣ（Ｕｎｉｆｉｅｄ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｃｏｄｅｃ）の規格におけるオーディオデコーダであり、
　前記線形予測係数は、前記入力信号の包絡特性を特定し、
　前記信号加工器は、
　当該信号加工器に伝送される前記情報により、前記第２の方式以外の他の方式に対応する復号化器が特定される場合には、前記復号化後信号を、当該復号化後信号よりも前記入力信号に近い第１の加工後信号へと加工し、
　前記情報により、前記第２の方式に対応する復号化器が特定される場合には、前記第１の加工後信号の包絡特性よりも、前記線形予測係数により特定される前記包絡特性に近い包絡特性を有することにより、前記第１の加工後信号よりも前記入力信号に近い、第２の加工後信号へと、前記入力信号を加工する請求項１記載のオーディオデコーダ。
　複数の符号化器と、
　入力信号の特徴に応じて、前記特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
　前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備えるオーディオエンコーダ。
　前記複数の符号化器のそれぞれは、１からＮ（Ｎ＞１）までの順位のうちの１つが付けられた請求項５記載のオーディオエンコーダ。
　順位１の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
　順位Ｎ（１＜Ｎ）の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化する符号化器である請求項６記載のオーディオエンコーダ。
　順位１の前記符号化器は、前記入力信号の周波数スペクトル信号を符号化する符号化器であり、
　順位Ｎ（２＜Ｎ）の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の時間軸信号を符号化し、
　順位Ｍ（１＜Ｍ＜Ｎ）の前記符号化器は、前記入力信号を線形予測係数と励振信号とに分け、分けられたそれぞれを符号化し、分けられた前記励振信号の符号化に際して、前記励振信号の周波数軸信号を符号化する請求項６記載のオーディオエンコーダ。
　前記指標は、前記利用符号化器により前記入力信号から符号化される符号化信号のビットレートを示し、
　前記選択器は、前記指標により示されるビットレートが第１のビットレートのときには、前記第１のビットレートよりも低い第２のビットレートのときに、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも高い頻度で、当該若い順位の符号化器を選択する請求項６記載のオーディオエンコーダ。
　前記指標は、前記利用符号化器により前記入力信号が符号化された符号化信号の用途を示し、
　前記選択器は、前記指標により示される前記用途が、音声通話を含む用途である場合には、前記音声通話を含まない用途である場合に、予め定められた順位よりも若い順位の前記符号化器を選択する頻度よりも低い頻度で、当該若い順位の符号化器を選択する請求項６記載のオーディオエンコーダ。
　それぞれの前記符号化器は、その符号化器が前記利用符号化器である場合、前記入力信号を符号化信号へと符号化し、
　前記複数の符号化器は、特定符号化器を含み、
　前記特定符号化器は、前記符号化信号のビットレートが予め定められた特定ビットレートである場合において、前記複数の符号化器のうちで最も適切に前記入力信号を符号化し、
　前記選択器は、前記指標により示される、前記符号化信号のビットレートが、前記特定ビットレートである場合と、前記特定ビットレートでない場合とのうちで、前記特定ビットレートでない場合にのみ、前記特定符号化器以外の他の前記符号化器を、前記利用符号化器として選択する請求項５記載のオーディオエンコーダ。
　前記特定符号化器は、前記入力信号が特定入力信号である場合には、前記符号化信号のビットレートが前記特定ビットレートでも、前記入力信号の符号化において、最も適切ではなく、
　前記信号分類器は、前記入力信号が前記特定入力信号であることを特定し、
　前記選択器は、前記符号化信号のビットレートが、前記特定ビットレートであっても、前記信号分類器により前記入力信号が前記特定入力信号と特定される場合には、他の前記符号化器を選択する請求項１１記載のオーディオエンコーダ。
　オーディオデコーダとオーディオエンコーダとを備える、ＵＳＡＣ（Ｕｎｉｆｉｅｄ　Ｓｐｅｅｃｈ　ａｎｄ　Ａｕｄｉｏ　Ｃｏｄｅｃ）の規格における音信号処理システムであって、
　前記オーディオデコーダは、請求項１記載のオーディオデコーダであり、
　前記オーディオエンコーダは、
　複数の符号化器と、
　入力信号の特徴に応じて、特徴に対応する分類を、前記入力信号の分類と特定する信号分類器と、
　前記信号分類器により特定された前記分類と、当該選択器に対して指定された指標とに応じて、前記複数の符号化器の中から、前記分類および前記指標に対応する利用符号化器を選択し、選択した前記利用符号化器に前記入力信号を符号化させる選択器とを備える音信号処理システム。