WO2021172054A1

WO2021172054A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021172054A1
Application number: PCT/JP2021/005240
Authority: WO
Inventors: 福井　隆郎; 芳明及川
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-25
Filing date: 2021-02-12
Publication date: 2021-09-02

Abstract

本技術は、より高音質な信号を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と第１のチャンネルの原音信号との差分信号を教師データとする、差分信号、第１のチャンネルの学習用圧縮音源信号、および第２のチャンネルの学習用圧縮音源信号に基づく学習により得られた予測係数と、第１のチャンネルの入力圧縮音源信号と、第２のチャンネルの入力圧縮音源信号とに基づいて、第１のチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータを算出する算出部と、パラメータと、第１のチャンネルの入力圧縮音源信号とに基づいて差分信号を生成する差分信号生成部と、生成された差分信号および第１のチャンネルの入力圧縮音源信号を合成する合成部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より高音質な信号を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。

　例えば、音楽等の原音信号に対して圧縮符号化を行うと、原音信号の高域成分が除去されたり、信号のビット数が圧縮されたりする。そのため、原音信号を圧縮符号化することで得られた符号情報に対して、さらに復号を行うことで得られる圧縮音源信号は、もとの原音信号と比較すると音質が劣化したものとなってしまう。

　そこで、カスケード接続された複数のオールパスフィルタにより圧縮音源信号をフィルタリングし、その結果得られた信号をゲイン調整して、ゲイン調整後の信号と圧縮音源信号とを加算することで、より高音質な信号を生成する技術が提案されている（例えば、特許文献１参照）。

特開２０１３－７９４４号公報

　ところで、圧縮音源信号を高音質化する場合、音質劣化前の信号である原音信号を高音質化の目標とすることが考えられる。すなわち、圧縮音源信号から得られる信号が原音信号に近いほど、より高音質な信号が得られたと考えることができる。

　しかしながら、上述した技術では、圧縮音源信号から原音信号に近い信号を得ることは困難であった。

　具体的には、上述した技術では、圧縮符号化方式（圧縮符号化の種類）や、圧縮符号化で得られる符号情報のビットレートなどが考慮されて、人手によりゲイン調整時のゲイン値が最適化されていた。

　すなわち、人手により決定されたゲイン値が用いられて高音質化された信号の音と、もとの原音信号の音とが試聴により比較され、その試聴後に人手により感覚的にゲイン値が調整される処理が繰り返し行われ、最終的なゲイン値が決定されていた。そのため、人の感覚だけでは、圧縮音源信号から原音信号に近い信号を得ることは困難であった。

　本技術は、このような状況に鑑みてなされたものであり、より高音質な信号を得ることができるようにするものである。

　本技術の一側面の信号処理装置は、第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する合成部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成するステップを含む。

　本技術の一側面においては、第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータが算出され、前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号が生成され、生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号が合成される。

機械学習を用いた差分信号の予測について説明する図である。信号処理装置の構成例を示す図である。ゲイン算出部の構成例を示す図である。信号生成処理を説明するフローチャートである。ゲイン算出部の構成例を示す図である。信号生成処理を説明するフローチャートである。ゲイン算出部の構成例を示す図である。信号生成処理を説明するフローチャートである。ゲイン算出部の構成例を示す図である。ゲイン算出部の構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　本技術は、音楽等の原音信号から得られる圧縮音源信号を高音質化するものである。

　ここでは、例えば音楽等のLPCM（Linear Pulse Code Modulation）信号が原音信号とされる。また、その原音信号をAAC（Advanced Audio Coding）等の所定の圧縮符号化方式で圧縮符号化し、その結果得られた符号情報を復号（伸張）することで得られた信号が圧縮音源信号とされる。

　例えば圧縮音源信号を高音質化する手法として、圧縮音源信号から、圧縮音源信号と原音信号との差分信号を予測により生成し、得られた差分信号を圧縮音源信号に合成する手法（以下、予測生成手法とも称する）が考えられる。

　このような予測生成手法では、例えば図１に示す予測部１１が機械学習により生成され、差分信号の予測に用いられる。

　図１に示す例では、予測部１１は、畳み込み処理部２１、デンスブロック２２－１乃至デンスブロック２２－４、および線形予測部２３を有しており、畳み込み処理部２１およびデンスブロック２２－１に圧縮音源信号が入力される。

　畳み込み処理部２１は、入力された圧縮音源信号に対して畳み込み処理、ReluやCrelu等の活性化関数による演算処理などを行い、その結果得られた信号を線形予測部２３へと供給する。

　デンスブロック２２－１乃至デンスブロック２２－４は、機械学習で一般的に用いられるDense Blockであり、入力された信号に対して畳み込み処理等の所定の演算処理を行う。

　すなわち、デンスブロック２２－１は、入力された圧縮音源信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部２３およびデンスブロック２２－２に供給する。デンスブロック２２－２は、デンスブロック２２－１から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部２３およびデンスブロック２２－３に供給する。

　デンスブロック２２－３は、デンスブロック２２－２から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部２３およびデンスブロック２２－４に供給する。デンスブロック２２－４は、デンスブロック２２－３から供給された信号に対して所定の演算処理を行い、その結果得られた信号を線形予測部２３に供給する。

　線形予測部２３は、畳み込み処理部２１から供給された信号、およびデンスブロック２２－１乃至デンスブロック２２－４から供給された信号に基づいて線形予測処理を行い、その結果得られた差分信号を後段に出力する。

　予測生成手法では、線形予測部２３で得られた差分信号が圧縮音源信号と合成され、より高音質な高音質化信号が生成される。このような予測生成手法は、機械学習を用いたオーディオ信号のビット拡張の手法であるといえる。

　ところで、高音質化の対象となる圧縮音源信号は、モノラル信号に限らず、ステレオ信号や３以上のマルチチャンネルの信号であることもある。また、CODECによっては、例えばJoint Stereoなどステレオ相関を用いた圧縮符号化を行うものもある。

　Joint Stereoとは、通常のステレオ信号とMS Stereo信号を相関性の強さで切り替える手法である。すなわち、Joint Stereoはステレオ相関を用いて圧縮符号化を行うか、またはステレオ相関を用いずに圧縮符号化を行うかをフレームごとなど、所定の時間単位で切り替えながら信号を圧縮符号化する圧縮符号化方式である。

　一般的にステレオ音声は、左（left；L）と右（right；R）の２チャンネルの信号によって構成される。

　Joint Stereoでは、通常のステレオ信号の場合、つまりステレオ相関が用いられずに圧縮符号化が行われる場合、Ｌチャンネルの信号と、Ｒチャンネルの信号とが個別に圧縮符号化される。すなわち、一方のチャンネルの信号の圧縮符号化には、他方のチャンネルの信号は用いられない。

　これに対して、MS Stereo信号の場合、つまりステレオ相関が用いられて圧縮符号化が行われるMS Stereoのモードの場合、和信号Ｍと差信号Ｓによって処理が行われる。

　ここで、和信号Ｍは、Ｌチャンネルの信号とＲチャンネルの信号の和（L+R）により得られるモノラル成分である。一方、差信号Ｓは、Ｌチャンネルの信号とＲチャンネルの信号の差（L-R）により得られるステレオ差分成分である。

　また、同形のアルゴリズムで、復号時には和信号Ｍと差信号Ｓの和（M+S）を求めることでＬチャンネルの信号を得ることができ、和信号Ｍと差信号Ｓの差（M-S）を求めることでＲチャンネルの信号を得ることができる。但し、復号で得られるＬチャンネルの信号とＲチャンネルの信号は、もとの信号の２倍に増幅される。

　以上のようなJoint Stereoにより原音信号が圧縮符号化される場合など、ステレオ相関を用いて圧縮符号化が行われる場合には、上述の予測生成手法では十分な精度で差分信号を予測することができないことがある。すなわち、十分に高音質な高音質化信号を得ることができないことがある。

　例えばＬチャンネルの信号とＲチャンネルの信号の相関が強い部分（区間）では、和信号Ｍの部分が大きく、差信号Ｓの部分は小さくなる。

　したがって、圧縮符号化時には、大きな情報（ビット）が和信号Ｍに割り当てられる（与えられる）ことによって、差信号Ｓは大きく圧縮される。

　そうすると、差信号Ｓの情報が失われてしまうので、個別のチャンネルの処理では差分信号を十分に予測することができない。換言すれば、ＬとＲの両方のチャンネルを用いなければ、つまり一方のチャンネルの信号の特性だけでなく、他方のチャンネルの信号の特性も考慮しなければ、差分信号の学習および予測を十分な精度で行うことができない。

　そこで、本技術ではＬチャンネルやＲチャンネルなどの一方のチャンネルの信号だけでなく、他方のチャンネルの信号も差分信号の学習および予測に用いることで、より高精度に差分信号を予測し、高音質な高音質化信号を得ることができるようにした。

　なお、高音質化の対象となる圧縮音源信号は、２以上の複数のチャンネルの信号であればよいが、以下では説明を簡単にするため、圧縮音源信号がＬチャンネルとＲチャンネルの信号からなるステレオ信号である場合を例として説明を行う。

　また、以下ではＬとＲのうちの処理の対象とされているチャンネルを対象チャンネルとも称し、対象チャンネルとされていない方のチャンネルを逆チャンネルとも称することとする。例えばＬチャンネルが対象チャンネルであれば、Ｒチャンネルが逆チャンネルであり、Ｒチャンネルが対象チャンネルであれば、Ｌチャンネルが逆チャンネルである。

　本技術では、機械学習により、圧縮音源信号から、差分信号の周波数特性のエンベロープを予測するための予測係数が生成される。このようにして得られた予測係数により、差分信号の周波数特性のエンベロープを予測する予測器が実現される。換言すれば、予測器を構成する予測係数が機械学習により生成される。

　ここで、予測係数の機械学習についてさらに説明する。

　例えば機械学習により、対象チャンネルの差分信号の周波数特性のエンベロープを予測するための予測係数を学習する場合、対象チャンネルの原音信号および圧縮音源信号と、逆チャンネルの圧縮音源信号とが学習用の信号として多数用意される。

　なお、以下、学習用の原音信号および圧縮音源信号を、特に学習用原音信号および学習用圧縮音源信号とも称することとする。

　このようにして学習用原音信号と学習用圧縮音源信号のセットが得られると、対象チャンネルの学習用原音信号と学習用圧縮音源信号の差分が求められて、対象チャンネルの学習用差分信号が求められる。

　そして、対象チャンネルの学習用圧縮音源信号および逆チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとして、DNN（Deep Neural Network）や線形予測、非線形予測等を適宜組み合わせて差分信号の周波数特性のエンベロープを予測するための予測係数が機械学習により生成される。

　なお、より詳細には学習用差分信号の周波数特性のエンベロープが教師データとされ、対象チャンネルと逆チャンネルについての学習用圧縮音源信号の周波数特性のエンベロープが入力のデータとされて、教師データと入力のデータとに基づいて機械学習が行われる。

　例えば圧縮音源信号の周波数特性のエンベロープは、圧縮音源信号に対してFFT（Fast Fourier Transform）を行い、その結果得られた信号の各周波数帯域（例えばSFB（Scale Factor Band））の平均エネルギを計算することで求めることができる。

　また、対象チャンネルの差分信号の周波数特性のエンベロープは、例えば対象チャンネルの原音信号の周波数特性のエンベロープと、対象チャンネルの圧縮音源信号の周波数特性のエンベロープとの差分を計算することで求めることができる。

　なお、差分信号の予測手法や、その差分信号を得るための予測係数の学習手法は、上述した予測手法や機械学習手法に限らず、他のどのような手法であってもよい。

〈信号処理装置の構成例〉
　図２は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

　図２に示す信号処理装置５１は、高音質化の対象となる入力圧縮音源信号を入力とし、その入力圧縮音源信号を高音質化して得られた高音質化信号を出力する。

　なお、ここでは説明を簡単にするため、入力圧縮音源信号がＬチャンネルとＲチャンネルの信号からなるステレオ信号である場合を例として説明を行う。

　信号処理装置５１は、FFT処理部６１－１、FFT処理部６１－２、ゲイン算出部６２－１、ゲイン算出部６２－２、差分信号生成部６３－１、差分信号生成部６３－２、IFFT（Inverse Fast Fourier Transform）処理部６４－１、IFFT処理部６４－２、合成部６５－１、および合成部６５－２を有している。

　FFT処理部６１－１は、供給されたＬチャンネルの入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部６２－１、ゲイン算出部６２－２、および差分信号生成部６３－１に供給する。

　FFT処理部６１－２は、供給されたＲチャンネルの入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部６２－１、ゲイン算出部６２－２、および差分信号生成部６３－２に供給する。

　なお、以下、FFT処理部６１－１およびFFT処理部６１－２を特に区別する必要のない場合、単にFFT処理部６１とも称する。

　ゲイン算出部６２－１およびゲイン算出部６２－２は、予め機械学習により得られた予測係数を保持しており、対象チャンネルの差分信号の周波数特性のエンベロープを予測する予測器として機能する。

　ゲイン算出部６２－１は、保持している予測係数、FFT処理部６１－１から供給された信号、およびFFT処理部６１－２から供給された信号に基づいて、Ｌチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータとしてのゲイン値を算出し、差分信号生成部６３－１に供給する。すなわち、差分信号を生成するためのパラメータとして、差分信号の周波数エンベロープのゲインが算出される。

　同様に、ゲイン算出部６２－２は、保持している予測係数、FFT処理部６１－１から供給された信号、およびFFT処理部６１－２から供給された信号に基づいて、Ｒチャンネルの入力圧縮音源信号に対応する差分信号を生成するためのパラメータとしてのゲイン値を算出し、差分信号生成部６３－２に供給する。

　なお、以下、ゲイン算出部６２－１およびゲイン算出部６２－２を特に区別する必要のない場合、単にゲイン算出部６２とも称することとする。

　差分信号生成部６３－１は、FFT処理部６１－１から供給された信号と、ゲイン算出部６２－１から供給されたゲイン値とに基づいてＬチャンネルの差分信号を生成し、IFFT処理部６４－１に供給する。

　差分信号生成部６３－２は、FFT処理部６１－２から供給された信号と、ゲイン算出部６２－２から供給されたゲイン値とに基づいてＲチャンネルの差分信号を生成し、IFFT処理部６４－２に供給する。

　なお、以下、差分信号生成部６３－１および差分信号生成部６３－２を特に区別する必要のない場合、単に差分信号生成部６３とも称することとする。

　IFFT処理部６４－１およびIFFT処理部６４－２は、差分信号生成部６３－１および差分信号生成部６３－２から供給された差分信号に対してIFFTを行い、その結果得られた時間領域の差分信号を合成部６５－１および合成部６５－２に供給する。

　合成部６５－１は、供給されたＬチャンネルの入力圧縮音源信号と、IFFT処理部６４－１から供給されたＬチャンネルの差分信号とを合成し、その結果得られたＬチャンネルの高音質化信号を後段に出力する。

　同様に、合成部６５－２は、供給されたＲチャンネルの入力圧縮音源信号と、IFFT処理部６４－２から供給されたＲチャンネルの差分信号とを合成し、その結果得られたＲチャンネルの高音質化信号を後段に出力する。

　なお、以下、IFFT処理部６４－１およびIFFT処理部６４－２を特に区別する必要のない場合、単にIFFT処理部６４とも称することとする。また、以下、合成部６５－１および合成部６５－２を特に区別する必要のない場合、単に合成部６５とも称することとする。

〈ゲイン算出部の構成例〉
　また、図２に示したゲイン算出部６２は、例えば図３に示すように構成される。

　図３の例では、ゲイン算出部６２は、畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、畳み込み処理部９３、および線形予測部９４を有している。

　ここではゲイン算出部６２を構成する畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、畳み込み処理部９３、および線形予測部９４が、機械学習により得られた予測係数を保持している。

　換言すれば、機械学習では、ゲイン算出部６２を構成する各ブロックでの演算に用いられる予測係数のセットが、差分信号の周波数特性のエンベロープを予測するための予測係数として学習（生成）される。

　また、ゲイン算出部６２は、FFT処理部６１から供給された対象チャンネルの信号に基づいて、対象チャンネルの入力圧縮音源信号の周波数特性のエンベロープ、すなわち各周波数帯域の平均エネルギを算出し、畳み込み処理部９１およびデンスブロック９２－１に供給する。

　同様に、ゲイン算出部６２は、FFT処理部６１から供給された逆チャンネルの信号に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部９３に供給する。

　例えば図３に示すゲイン算出部６２がゲイン算出部６２－１であれば、FFT処理部６１－１から供給されたＬチャンネルの信号が対象チャンネルの信号であり、FFT処理部６１－２から供給されたＲチャンネルの信号が逆チャンネルの信号である。

　なお、畳み込み処理部９１やデンスブロック９２－１、畳み込み処理部９３への入力、すなわち予測器の入力は、入力圧縮音源信号の周波数特性のエンベロープに限らず、入力圧縮音源信号に対するFFTにより得られた信号や、入力圧縮音源信号そのものであってもよい。

　畳み込み処理部９１は、予め保持している予測係数に基づいて、供給された対象チャンネルのエンベロープに対して畳み込み処理、ReluやCrelu等の活性化関数による演算処理などを行い、その演算結果を線形予測部９４へと供給する。

　例えば畳み込み処理部９１で行われる畳み込み処理では、対象チャンネルのエンベロープが周波数方向や時間方向に畳み込まれる。

　デンスブロック９２－１乃至デンスブロック９２－４は、機械学習で一般的に用いられるDense Blockであり、予め保持している予測係数に基づいて、入力された信号に対して畳み込み処理や、活性化関数による演算等の非線形処理などの所定の演算処理を行う。

　すなわち、デンスブロック９２－１は、供給された対象チャンネルのエンベロープに対して畳み込み処理等の演算処理を行い、その演算結果をデンスブロック９２－２および線形予測部９４に供給する。

　デンスブロック９２－２は、デンスブロック９２－１から供給された演算結果（信号）に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部９４およびデンスブロック９２－３に供給する。

　デンスブロック９２－３は、デンスブロック９２－２から供給された演算結果に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部９４およびデンスブロック９２－４に供給する。

　デンスブロック９２－４は、デンスブロック９２－３から供給された演算結果に対して、畳み込み処理等の演算処理を行い、その演算結果を線形予測部９４に供給する。

　なお、以下、デンスブロック９２－１乃至デンスブロック９２－４を特に区別する必要のない場合、単にデンスブロック９２とも称することとする。

　畳み込み処理部９３では、畳み込み処理部９１における場合と同様に、畳み込み処理、ReluやCrelu等の活性化関数による演算処理などが行われる。

　すなわち、畳み込み処理部９３は、予め保持している予測係数に基づいて、供給された逆チャンネルのエンベロープに対して畳み込み処理や活性化関数による演算処理などを行い、その演算結果を線形予測部９４へと供給する。

　線形予測部９４は、畳み込み処理部９１から供給された演算結果、各デンスブロック９２から供給された演算結果、および畳み込み処理部９３から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行う。

　このような線形予測処理により、対象チャンネルの差分信号の周波数特性のエンベロープの予測結果が得られる。ゲイン算出部６２は、線形予測部９４で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部６３に供給する。

〈信号生成処理の説明〉
　次に、信号処理装置５１の動作について説明する。

　信号処理装置５１は、入力圧縮音源信号が供給されると信号生成処理を行い、高音質化信号を生成する。以下、図４のフローチャートを参照して、信号処理装置５１による信号生成処理について説明する。

　ステップＳ１１においてFFT処理部６１は、供給された入力圧縮音源信号に対してFFTを行い、その結果得られた信号をゲイン算出部６２－１、ゲイン算出部６２－２、および差分信号生成部６３に供給する。FFT処理部６１でのFFTにより、入力圧縮音源信号は時間領域（時間軸）の信号から周波数領域（周波数軸）の信号へと変換される。

　ステップＳ１２においてゲイン算出部６２は、予め保持している予測係数と、FFT処理部６１－１およびFFT処理部６１－２から供給された信号とに基づいて、逆チャンネルの信号を用いてゲイン値を算出し、差分信号生成部６３に供給する。

　具体的には、ゲイン算出部６２は、FFT処理部６１から供給された対象チャンネルの信号に基づいて、対象チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部９１およびデンスブロック９２－１に供給する。

　また、ゲイン算出部６２は、FFT処理部６１から供給された逆チャンネルの信号に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを算出し、畳み込み処理部９３に供給する。

　畳み込み処理部９１は、予め保持している予測係数に基づいて、供給された対象チャンネルのエンベロープに対して畳み込み処理等を行い、その演算結果を線形予測部９４に供給する。

　各デンスブロック９２は、供給された対象チャンネルのエンベロープ、または前段のデンスブロック９２から供給された演算結果に対して、予測係数に基づく畳み込み処理等の演算処理を行い、その演算結果を線形予測部９４に供給する。また、各デンスブロック９２は、自身の後段に他のデンスブロック９２があるときには、演算処理の演算結果を、その後段のデンスブロック９２にも供給する。

　畳み込み処理部９３は、予め保持している予測係数に基づいて、供給された逆チャンネルのエンベロープに対して畳み込み処理等を行い、その演算結果を線形予測部９４に供給する。

　線形予測部９４は、畳み込み処理部９１から供給された演算結果、各デンスブロック９２から供給された演算結果、および畳み込み処理部９３から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行うことで、対象チャンネルの差分信号の周波数特性のエンベロープを予測（生成）する。

　さらに、ゲイン算出部６２は、線形予測部９４で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部６３に供給する。この場合、例えば対象チャンネルの差分信号のSFB等の周波数帯域ごとにゲイン値が算出される。

　なお、ここでは差分信号の周波数特性のエンベロープを予測により求めるための予測係数を機械学習しておく例について説明した。

　しかし、その他、例えば対象チャンネルと逆チャンネルについての入力圧縮音源信号の周波数特性のエンベロープを入力とし、予測演算によりゲイン値を求める予測係数を機械学習により求めるようにしてもよい。そのような場合には線形予測部９４の出力が、差分信号を生成するためのゲイン値となる。

　ステップＳ１３において差分信号生成部６３は、FFT処理部６１から供給された信号と、ゲイン算出部６２から供給されたゲイン値とに基づいて差分信号を生成し、IFFT処理部６４に供給する。

　具体的には、例えば差分信号生成部６３は、FFTにより得られた信号に対して、周波数帯域（SFB）ごとにゲイン算出部６２から供給されたゲイン値を乗算することで、周波数領域で信号のゲイン調整を行う。

　これにより、入力圧縮音源信号の位相を保持したまま、つまり位相を変化させずに、その入力圧縮音源信号に対して、予測により得られたエンベロープの周波数特性、すなわち差分信号の周波数特性を付加することができる。

　このように周波数領域でゲイン調整を行うと、周波数領域の差分信号が得られる。差分信号生成部６３は、得られた差分信号をIFFT処理部６４に供給する。

　ステップＳ１４においてIFFT処理部６４は、差分信号生成部６３から供給された周波数領域の差分信号に対してIFFTを行い、その結果得られた時間領域の差分信号を合成部６５に供給する。

　ステップＳ１５において合成部６５は、供給された入力圧縮音源信号と、IFFT処理部６４から供給された差分信号とを加算することで合成し、その結果得られた高音質化信号を後段に出力して信号生成処理は終了する。

　以上のようにして信号処理装置５１は、機械学習により得られた予測係数を用いて数学的な手法で高音質化信号を生成する。これにより、原音信号に近い、より高音質な高音質化信号を得ることができる。

　特に、信号処理装置５１では、対象チャンネルの入力圧縮音源信号だけでなく、逆チャンネルの入力圧縮音源信号も用いて対象チャンネルの差分信号を生成し、得られた差分信号と入力圧縮音源信号を合成することで入力圧縮音源信号を高音質化する。

　このように逆チャンネルの入力圧縮音源信号も用いて対象チャンネルの差分信号を生成することで、Joint Stereoのように逆チャンネルの情報も用いられて原音信号の圧縮符号化が行われている場合でも、十分な精度で差分信号を予測することができる。これにより、さらに高音質な高音質化信号を得ることができる。

〈第２の実施の形態〉
〈ゲイン算出部の構成例〉
　ところで、図３に示したゲイン算出部６２の構成では、常に逆チャンネルの信号が差分信号の周波数特性のエンベロープの予測に用いられることになる。

　したがって、MS Stereo信号ではなく通常のステレオ信号で、ＬチャンネルとＲチャンネルが個別に圧縮符号化されるときでも、逆チャンネルの信号がエンベロープの予測に用いられてしまい、その影響によりＬとＲの両チャンネルの予測が似た予測となることがある。そうすると、最終的に得られる高音質化信号がモノラル信号に近づいてしまう。

　そこで、そのようなことを避けるために、MS Stereo信号が用いられているか否かに応じて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを決定するようにしてもよい。

　例えば信号処理装置５１の前段に、符号情報を復号して入力圧縮音源信号を生成するデコーダがある場合、信号処理装置５１はデコーダからJoint Stereo情報を取得することができる。

　ここで、Joint Stereo情報とは、CODECがMS Stereoを用いて原音信号を圧縮したか否か、すなわち、ＬチャンネルとＲチャンネルとの間のステレオ相関が用いられて原音信号の圧縮符号化が行われたか否かを示すステレオ相関符号化情報である。

　このようなJoint Stereo情報を用いれば、逆チャンネルの信号をエンベロープの予測に用いるかどうかを適切に決定する（切り替える）ことができる。

　デコーダから取得されたJoint Stereo情報に基づいて、エンベロープの予測に逆チャンネルの信号を用いるか否かが決定される場合、例えばゲイン算出部６２は図５に示すように構成される。なお、図５において図３における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図５に示すゲイン算出部６２は、畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、スイッチ１２１、畳み込み処理部９３、および線形予測部９４を有している。

　図５に示すゲイン算出部６２の構成は、畳み込み処理部９３の前段に新たにスイッチ１２１が設けられた点で図３のゲイン算出部６２と異なり、その他の点では図３のゲイン算出部６２と同じ構成となっている。

　スイッチ１２１は、デコーダから取得されたJoint Stereo情報に基づいて、エンベロープの予測に逆チャンネルの信号を用いるか否かを切り替える。

　すなわち、スイッチ１２１は、ステレオ相関が用いられて圧縮符号化が行われた旨のJoint Stereo情報が供給された場合にオンし、ゲイン算出部６２から供給された逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを畳み込み処理部９３に供給する。

　これに対してスイッチ１２１は、ステレオ相関が用いられずに圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、オフする。

　この場合、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは、畳み込み処理部９３には供給されない。すなわち、差分信号の周波数特性のエンベロープの予測には、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは用いられない。

　このようにゲイン算出部６２は、Joint Stereo情報に基づいてスイッチ１２１をオンまたはオフさせることで、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いて線形予測部９４での予測を行うか、または逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いずに線形予測部９４での予測を行うかを切り替える。

　なお、ゲイン算出部６２で用いられる予測係数として、逆チャンネルの信号を用いる場合と用いない場合とで異なるものが用いられるようにすることができる。

　そのような場合、逆チャンネルの信号を用いるときの予測係数の学習時には、例えば上述したように対象チャンネルおよび逆チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとした機械学習が行われる。

　一方、逆チャンネルの信号を用いないときの予測係数の学習時には、例えば対象チャンネルの学習用圧縮音源信号を入力のデータとし、対象チャンネルの学習用差分信号を教師データとした機械学習が行われる。

　より詳細には、教師データとしての対象チャンネルの学習用差分信号の周波数特性のエンベロープと、入力のデータとしての対象チャンネルの学習用圧縮音源信号の周波数特性のエンベロープとに基づいて機械学習が行われ、予測係数が生成される。

　このように逆チャンネルの信号を用いる場合と用いない場合とで異なる予測係数を用意することについては、以下において説明する第３の実施の形態乃至第５の実施の形態においても同様のことがいえる。

〈信号生成処理の説明〉
　次に、ゲイン算出部６２が図５に示した構成とされる場合における信号処理装置５１の動作について説明する。

　すなわち、以下、図６のフローチャートを参照して、信号処理装置５１による信号生成処理について説明する。なお、ステップＳ４１の処理は図４のステップＳ１１の処理と同様であるので、その説明は省略する。

　ステップＳ４２においてスイッチ１２１は、デコーダから供給されたJoint Stereo情報に基づいて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを判定する。

　例えばステレオ相関が用いられて圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、逆チャンネルの信号を用いると判定される。

　この場合、デコーダでは符号情報を復号し、和信号Ｍと差信号Ｓに基づいてＬとＲの両チャンネルの入力圧縮音源信号を生成する処理が行われる。

　これに対して、ステレオ相関が用いられずに圧縮符号化が行われた旨のJoint Stereo情報が供給された場合、逆チャンネルの信号を用いないと判定される。

　この場合、エンコーダではＬチャンネルとＲチャンネルの原音信号が個別に圧縮符号化されるため、デコーダではそれらのチャンネルごとの符号情報が復号され、その復号結果としてＬとＲの各チャンネルの入力圧縮音源信号が得られる。

　ステップＳ４２において逆チャンネルの信号を用いると判定された場合、その後、処理はステップＳ４３へと進む。この場合、スイッチ１２１はオンし、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープが畳み込み処理部９３へと供給される。

　ステップＳ４３においてゲイン算出部６２は、予め保持している予測係数と、FFT処理部６１から供給された信号とに基づき、逆チャンネルの信号を用いてゲイン値を算出し、差分信号生成部６３に供給する。

　なお、ステップＳ４３では、図４のステップＳ１２における場合と同様の処理が行われ、ゲイン値が算出される。ステップＳ４３の処理が行われると、その後、処理はステップＳ４５へと進む。

　これに対して、ステップＳ４２において逆チャンネルの信号を用いないと判定された場合、その後、処理はステップＳ４４へと進む。この場合、スイッチ１２１はオフし、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープは畳み込み処理部９３には供給されない。

　ステップＳ４４においてゲイン算出部６２は、予め保持している予測係数と、FFT処理部６１から供給された信号とに基づき、逆チャンネルの信号を用いずにゲイン値を算出し、差分信号生成部６３に供給する。

　ステップＳ４４では、基本的には図４のステップＳ１２における場合と同様の処理が行われるが、畳み込み処理部９３での畳み込み処理等の演算処理は行われない。

　したがって線形予測部９４は、畳み込み処理部９１から供給された演算結果、および各デンスブロック９２から供給された演算結果と、予め保持している予測係数とに基づいて線形予測処理を行う。すなわち、対象チャンネルの信号のみが用いられてエンベロープの予測が行われる。

　ゲイン算出部６２は、線形予測部９４で得られた予測結果に基づいて、対象チャンネルの差分信号を生成するためのゲイン値を算出し、差分信号生成部６３に供給する。

　ステップＳ４４の処理が行われてゲイン値が算出されると、その後、処理はステップＳ４５へと進む。

　ステップＳ４３またはステップＳ４４の処理が行われると、その後、ステップＳ４５乃至ステップＳ４７の処理が行われて信号生成処理は終了するが、これらの処理は図４のステップＳ１３乃至ステップＳ１５の処理と同様であるので、その説明は省略する。

　例えば信号処理装置５１では、以上において説明したステップＳ４１乃至ステップＳ４７の処理が入力圧縮音源信号のフレームごとなど、所定の時間単位ごとに行われる。

　すなわち、ゲイン算出部６２では、入力圧縮音源信号のフレームごと等の所定の時間単位ごとにスイッチ１２１のオン、オフの制御が行われ、逆チャンネルの信号をエンベロープの予測に用いるか否かの切り替えが行われる。

　以上のようにして信号処理装置５１は、Joint Stereo情報に基づいて逆チャンネルの信号をエンベロープの予測に用いるか否かを切り替えながら、対象チャンネルの各フレームの差分信号を生成する。

　このようにすることで、圧縮符号化時にステレオ相関が用いられたか否かに応じて適切に差分信号の周波数特性のエンベロープを予測し、より高音質な高音質化信号を得ることができる。

〈第３の実施の形態〉
〈ゲイン算出部の構成例〉
　また、エンベロープの予測に逆チャンネルの信号を用いるか否かを選択的に切り替えるにあたり、Joint Stereo情報を利用するのではなく、ＬとＲの両チャンネルの信号を利用するようにしてもよい。

　そのような場合、ゲイン算出部６２は、例えば図７に示すように構成される。なお、図７において図５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示すゲイン算出部６２は、畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、相関値算出部１５１、スイッチ１２１、畳み込み処理部９３、および線形予測部９４を有している。

　図７に示すゲイン算出部６２の構成は、新たに相関値算出部１５１が設けられた点で図５のゲイン算出部６２と異なり、その他の点では図５のゲイン算出部６２と同じ構成となっている。

　相関値算出部１５１には、ゲイン算出部６２から、対象チャンネルと逆チャンネルの両チャンネルについて求められた、それらの各チャンネルの入力圧縮音源信号の周波数特性のエンベロープが供給される。

　相関値算出部１５１は、供給された両チャンネルの入力圧縮音源信号の周波数特性のエンベロープを比較して、Ｌチャンネルの入力圧縮音源信号とＲチャンネルの入力圧縮音源信号との相関値を算出し、その相関値に応じたスイッチ１２１の制御信号を生成する。

　具体的には、例えば相関値算出部１５１は、算出された相関値が所定の閾値以上である場合、すなわち両チャンネルの相関が強い（大きい）場合、スイッチ１２１をオンさせる制御信号を生成し、スイッチ１２１に供給する。

　これに対して相関値算出部１５１は、算出された相関値が所定の閾値未満である場合、すなわち両チャンネルの相関が弱い（小さい）場合、スイッチ１２１をオフさせる制御信号を生成し、スイッチ１２１に供給する。

　このように図７の例では、相関値に基づいて、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを用いて線形予測部９４での予測を行うか否かが切り替えられる。

　スイッチ１２１は、相関値算出部１５１から供給された制御信号に応じてオンまたはオフし、オンした状態である場合には、ゲイン算出部６２から供給された逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープを畳み込み処理部９３に供給する。

　このようにすることで、Joint Stereo情報がない場合であっても、Joint Stereo情報を用いた場合と同様の制御を行い、ＬとＲの両チャンネルの相関が強い場合にのみ、逆チャンネルの信号を、差分信号の周波数特性のエンベロープの予測に用いることができる。すなわち、MS Stereo信号が用いられて圧縮符号化が行われている可能性が高い場合のみ、逆チャンネルの信号がエンベロープの予測に用いられるようにすることができる。

　なお、相関値算出部１５１の入力は、入力圧縮音源信号の周波数特性のエンベロープに限らず、ＬとＲの両チャンネルの相関値を求めることができるものであれば、両チャンネルの入力圧縮音源信号やFFT処理部６１から出力された信号など、どのようなものであってもよい。

〈信号生成処理の説明〉
　次に、ゲイン算出部６２が図７に示した構成とされる場合における信号処理装置５１の動作について説明する。

　すなわち、以下、図８のフローチャートを参照して、信号処理装置５１による信号生成処理について説明する。なお、ステップＳ７１の処理は図６のステップＳ４１の処理と同様であるので、その説明は省略する。

　ステップＳ７２において相関値算出部１５１は、ゲイン算出部６２から供給されたＬチャンネルとＲチャンネルの各入力圧縮音源信号の周波数特性のエンベロープに基づいて相関値を算出する。また、相関値算出部１５１は、算出した相関値に応じた制御信号を生成し、スイッチ１２１に供給する。

　例えば、上述したように相関値が所定の閾値以上である場合、スイッチ１２１をオンさせる制御信号が生成され、相関値が所定の閾値未満である場合、スイッチ１２１をオフさせる制御信号が生成される。

　ステップＳ７３においてスイッチ１２１は、相関値算出部１５１から供給された制御信号に基づいて、差分信号の周波数特性のエンベロープの予測に逆チャンネルの信号を用いるか否かを判定する。例えばステップＳ７３では、スイッチ１２１をオンさせる制御信号が供給された場合、逆チャンネルの信号を用いると判定される。

　ステップＳ７３の処理が行われると、その後、ステップＳ７４乃至ステップＳ７８の処理が行われて信号生成処理は終了するが、これらの処理は図６のステップＳ４３乃至ステップＳ４７の処理と同様であるので、その説明は省略する。

　以上のようにして信号処理装置５１は、ＬチャンネルとＲチャンネルの信号の相関値を算出し、その相関値に応じて、適宜、逆チャンネルの信号を用いて対象チャンネルの差分信号を生成する。このようにすることで、ＬチャンネルとＲチャンネルの相関の強さに応じて適切に差分信号の周波数特性のエンベロープを予測し、より高音質な高音質化信号を得ることができる。

〈第４の実施の形態〉
〈ゲイン算出部の構成例〉
　ところで、図５や図７に示した構成のゲイン算出部６２では、MS Stereo信号が用いられて圧縮符号化が行われている場合や、ＬとＲの両チャンネルの相関が強い場合にのみ、逆チャンネルの信号が用いられて差分信号の周波数特性のエンベロープが予測される。

　このとき、エンベロープの予測が十分高精度に行われればよい。しかし、入力圧縮音源信号が機械学習時の教師データにないデータであることもある。また、入力圧縮音源信号が機械学習時のデータとしてはあっても、学習や予測のDNNネットワークは有限であるため、出現頻度の高いデータが優先されて学習されてしまうこともある。したがって、全てのデータ、すなわち、あらゆる入力圧縮音源信号に対して、十分な精度でエンベロープを予測できるとは限らない。

　そこで、例えば音楽の定位感や広がり感に重要な高域部分を用いずに、逆チャンネルの信号の低域成分のみを用いることで、高い精度で予測ができない場合でも大きな音質劣化が生じなくなるようにしてもよい。

　そのような場合、ゲイン算出部６２は、例えば図９に示すように構成される。なお、図９において図５における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図９に示すゲイン算出部６２は、畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、スイッチ１２１、LPF（Low Pass Filter）１８１、畳み込み処理部９３、および線形予測部９４を有している。

　図９に示すゲイン算出部６２の構成は、スイッチ１２１と畳み込み処理部９３の間に新たにLPF１８１が設けられた点で図５のゲイン算出部６２と異なり、その他の点では図５のゲイン算出部６２と同じ構成となっている。

　LPF１８１は、ローパスフィルタであり、スイッチ１２１から供給された逆チャンネルの信号、すなわち逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分を抽出し、畳み込み処理部９３に供給する。

　換言すれば、LPF１８１は、スイッチ１２１から供給された逆チャンネルの信号に対するフィルタリングを行い、その結果得られた逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分を畳み込み処理部９３に供給する。ここでは、例えば5kHz以下の成分が低域成分として抽出される。

　このように、逆チャンネルの信号については、低域成分のみを差分信号の周波数特性のエンベロープの予測に用いるようにすることで、予測が外れた場合、すなわち高い精度で予測ができない場合でも高音質化信号に対する音質的な影響を最小限に抑えることができる。

　なお、図９に示す例では、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分が予測係数の機械学習に用いられることになる。これは、後述する第５の実施の形態における場合でも同様である。

　また、ゲイン算出部６２が図９の構成とされる場合、信号処理装置５１では基本的には図６を参照して説明した信号生成処理が行われる。

　但し、ステップＳ４３では、LPF１８１はスイッチ１２１から供給されたエンベロープの低域成分を抽出し、畳み込み処理部９３に供給する。また、畳み込み処理部９３は、LPF１８１から供給された低域成分に対して畳み込み処理等を行い、その演算結果を線形予測部９４に供給する。

〈第５の実施の形態〉
〈ゲイン算出部の構成例〉
　また、第３の実施の形態で説明したように、相関値に応じて逆チャンネルの信号が予測に用いられるか否かが決定される場合においても、逆チャンネルの信号については低域成分のみが用いられるようにすることもできる。

　そのような場合、ゲイン算出部６２は、例えば図１０に示すように構成される。なお、図１０において図７または図９における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図１０に示すゲイン算出部６２は、畳み込み処理部９１、デンスブロック９２－１乃至デンスブロック９２－４、相関値算出部１５１、スイッチ１２１、LPF１８１、畳み込み処理部９３、および線形予測部９４を有している。

　図１０に示すゲイン算出部６２の構成は、スイッチ１２１と畳み込み処理部９３の間に新たにLPF１８１が設けられた点で図７のゲイン算出部６２と異なり、その他の点では図７のゲイン算出部６２と同じ構成となっている。

　このような構成においてもスイッチ１２１がオンの状態のときには、LPF１８１により抽出された、逆チャンネルの入力圧縮音源信号の周波数特性のエンベロープの低域成分が畳み込み処理部９３へと供給される。

　また、ゲイン算出部６２が図１０に示す構成とされる場合においても、信号処理装置５１では基本的には図８を参照して説明した信号生成処理が行われる。

　但し、ステップＳ７４では、LPF１８１はスイッチ１２１から供給されたエンベロープの低域成分を抽出し、畳み込み処理部９３に供給する。また、畳み込み処理部９３は、LPF１８１から供給された低域成分に対して畳み込み処理等を行い、その演算結果を線形予測部９４に供給する。

　その他、例えばゲイン算出部６２が図３に示す構成とされる場合においても、畳み込み処理部９３の前段にLPF１８１が設けられるようにしてもよい。

　以上のように、本技術によれば、機械学習を用いて数学的な手法で圧縮音源信号のビット拡張信号である高音質化信号を生成するときに、逆チャンネルの信号も用いるようにすることで、ステレオ相関を用いて圧縮符号化が行われた場合でもCODECに対応した信号の拡張を行うことができる。すなわち、十分な精度で差分信号を予測し、高音質な信号を得ることができる。

　特に、Joint Stereo情報や相関値に応じて、逆チャンネルの信号を差分信号の周波数特性のエンベロープの予測に用いるかを切り替えることで、MS Stereoのモードの部分（信号区間）のみ、逆チャンネルの信号が予測に用いられるようにすることができる。これにより、エンベロープの予測精度を向上させ、さらに高音質な信号を得ることができるようになる。

　さらに、逆チャンネルの信号の低域成分のみをエンベロープの予測に用いるようにすることで、予測の精度が十分でないときでも音質への影響を最小限に抑えることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図１１は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する合成部と
　を備える信号処理装置。
（２）
　前記パラメータは、前記差分信号の周波数エンベロープのゲインである
　（１）に記載の信号処理装置。
（３）
　前記学習は機械学習である
　（１）または（２）に記載の信号処理装置。
（４）
　前記算出部は、前記予測係数、前記第１のチャンネルの前記入力圧縮音源信号、および前記第２のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するか、または予測係数および前記第１のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するかの切り替えを所定の時間単位で行う
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
　前記算出部は、前記入力圧縮音源信号を得るための圧縮符号化において、前記第１のチャンネルと前記第２のチャンネルとのステレオ相関が用いられたか否かを示すステレオ相関符号化情報に基づいて前記切り替えを行う
　（４）に記載の信号処理装置。
（６）
　前記算出部は、前記第１のチャンネルの前記入力圧縮音源信号、および前記第２のチャンネルの前記入力圧縮音源信号に基づいて相関値を算出し、前記相関値に基づいて前記切り替えを行う
　（４）に記載の信号処理装置。
（７）
　前記算出部は、前記第２のチャンネルの前記入力圧縮音源信号に対してローパスフィルタによるフィルタリングを行い、前記フィルタリングにより得られた前記第２のチャンネルの前記入力圧縮音源信号の低域成分、前記予測係数、および前記第１のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出する
　（１）乃至（６）の何れか一項に記載の信号処理装置。
（８）
　信号処理装置が、
　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する
　信号処理方法。
（９）
　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　５１　信号処理装置，　６２－１，６２－２，６２　ゲイン算出部，　６３－１，６３－２，６３　差分信号生成部，　６５－１，６５－２，６５　合成部，　９３　畳み込み処理部，　１２１　スイッチ，　１５１　相関値算出部，　１８１　LPF

Claims

　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出する算出部と、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成する差分信号生成部と、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する合成部と
　を備える信号処理装置。
　前記パラメータは、前記差分信号の周波数エンベロープのゲインである
　請求項１に記載の信号処理装置。
　前記学習は機械学習である
　請求項１に記載の信号処理装置。
　前記算出部は、前記予測係数、前記第１のチャンネルの前記入力圧縮音源信号、および前記第２のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するか、または予測係数および前記第１のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出するかの切り替えを所定の時間単位で行う
　請求項１に記載の信号処理装置。
　前記算出部は、前記入力圧縮音源信号を得るための圧縮符号化において、前記第１のチャンネルと前記第２のチャンネルとのステレオ相関が用いられたか否かを示すステレオ相関符号化情報に基づいて前記切り替えを行う
　請求項４に記載の信号処理装置。
　前記算出部は、前記第１のチャンネルの前記入力圧縮音源信号、および前記第２のチャンネルの前記入力圧縮音源信号に基づいて相関値を算出し、前記相関値に基づいて前記切り替えを行う
　請求項４に記載の信号処理装置。
　前記算出部は、前記第２のチャンネルの前記入力圧縮音源信号に対してローパスフィルタによるフィルタリングを行い、前記フィルタリングにより得られた前記第２のチャンネルの前記入力圧縮音源信号の低域成分、前記予測係数、および前記第１のチャンネルの前記入力圧縮音源信号に基づいて前記パラメータを算出する
　請求項１に記載の信号処理装置。
　信号処理装置が、
　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する
　信号処理方法。
　第１のチャンネルの原音信号を圧縮符号化して得られた学習用圧縮音源信号と前記第１のチャンネルの前記原音信号との差分信号を教師データとする、前記差分信号、前記第１のチャンネルの前記学習用圧縮音源信号、および第２のチャンネルの前記学習用圧縮音源信号に基づく学習により得られた予測係数と、前記第１のチャンネルの入力圧縮音源信号と、前記第２のチャンネルの前記入力圧縮音源信号とに基づいて、前記第１のチャンネルの前記入力圧縮音源信号に対応する前記差分信号を生成するためのパラメータを算出し、
　前記パラメータと、前記第１のチャンネルの前記入力圧縮音源信号とに基づいて前記差分信号を生成し、
　生成された前記差分信号および前記第１のチャンネルの前記入力圧縮音源信号を合成する
　ステップを含む処理をコンピュータに実行させるプログラム。