WO2021172053A1

WO2021172053A1 - 信号処理装置および方法、並びにプログラム

Info

Publication number: WO2021172053A1
Application number: PCT/JP2021/005239
Authority: WO
Inventors: 福井　隆郎
Original assignee: ソニーグループ株式会社
Priority date: 2020-02-25
Filing date: 2021-02-12
Publication date: 2021-09-02
Also published as: CN115136236A; US20230067510A1

Abstract

本技術は、より高音質な信号を得ることができるようにする信号処理装置および方法、並びにプログラムに関する。信号処理装置は、原音信号を再量子化して得られた学習用再量子化信号と原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、入力信号に対応する差分信号を生成する差分信号生成部と、生成された差分信号および入力信号を合成する合成部とを備える。本技術は信号処理装置に適用することができる。

Description

信号処理装置および方法、並びにプログラム

　本技術は、信号処理装置および方法、並びにプログラムに関し、特に、より高音質な信号を得ることができるようにした信号処理装置および方法、並びにプログラムに関する。

　音楽等のオーディオ信号に対して適切にビット拡張を行うと、より高音質な信号を得ることができる。例えば正弦波の信号であれば、DAC（Digital to Analog Converter）のフィルタリング等によりビット拡張を実現することができる。

　また、高音質化に関する技術として、カスケード接続された複数のオールパスフィルタにより圧縮音源信号をフィルタリングし、その結果得られた信号をゲイン調整して、ゲイン調整後の信号と圧縮音源信号とを加算することで、より高音質な信号を生成する技術が提案されている（例えば、特許文献１参照）。

特開２０１３－７９４４号公報

　しかしながら、音楽信号一般において、数学的に根拠のあるビット拡張を実現する技術は提案されておらず、より高音質な信号を得ることは困難であった。

　例えば特許文献１に記載の技術では、人間が試聴とゲイン値の調整を繰り返し行うことで、ビット拡張したかのような聴覚効果を付加できる最終的なゲイン値が決定されるため、ゲイン値の決定に数学的な根拠はなく、高音質な信号が得られない場合があった。

　本技術は、このような状況に鑑みてなされたものであり、より高音質な信号を得ることができるようにするものである。

　本技術の一側面の信号処理装置は、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、生成された前記差分信号および前記入力信号を合成する合成部とを備える。

　本技術の一側面の信号処理方法またはプログラムは、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、生成された前記差分信号および前記入力信号を合成するステップを含む。

　本技術の一側面においては、原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号が生成され、生成された前記差分信号および前記入力信号が合成される。

差分信号の生成について説明する図である。 24bit信号、16bit信号、および差分信号の例を示す図である。信号処理装置の構成例を示す図である。差分信号生成部の構成例を示す図である。信号生成処理を説明するフローチャートである。差分信号生成部の構成例を示す図である。差分信号生成部の構成例を示す図である。差分信号生成部の構成例を示す図である。コンピュータの構成例を示す図である。

　以下、図面を参照して、本技術を適用した実施の形態について説明する。

〈第１の実施の形態〉
〈本技術について〉
　音楽のハイレゾリューション（以下、ハイレゾと称する）のコンテンツの配信が行われて数年がたつ。しかしながら、ハイレゾのコンテンツは６０年代の様な昔の音源や新しく録音された音源が多く、音楽が一番売れた８０年代等のCD（Compact Disc）全盛期のコンテンツはほとんど存在しない。

　その理由は、当時のCDは16bit/44.1kHzのCDマスタリングの機械で制作されており、マスタ音源もCDと同じ16bit/44.1kHzのフォーマットのものしか存在していないからである。

　したがって、当時のCDのコンテンツをハイレゾで聞いてみたいと思っても、聞く術がなく、ハイレゾのコンテンツであるかのように聞こえる聴覚効果が施されたものを聞くことしかできなかった。

　そこで、本技術では、例えば新規に録音されたハイレゾの原音信号であるPCM（Pulse Code Modulation）信号と、その原音信号から生成された低音質な再量子化信号との差分である差分信号を教師データとし、再量子化信号から差分信号を学習することで、一般的な音楽等のオーディオ信号を高音質化（ハイレゾ化）できるようにした。

　このようにすることで、例えばハイレゾマスタ音源のない、CD等の一般的な16bitの信号をハイレゾ化し、例えば24bitの高音質な信号を得ることができる。

　特に、本技術では差分信号の学習として、例えばオーディオ信号の特徴を考慮したネットワークが用いられた機械学習が行われる。

　なお、以下では24bit信号、例えば音楽等の24bitのPCM信号を原音信号とし、その24bit信号を再量子化して得られた16bit信号（16bitのPCM信号）を再量子化信号として機械学習を行う場合を例として説明する。

　特に、以下では、機械学習に用いられる学習用の24bit信号（原音信号）を学習用24bit信号（学習用原音信号）とも称し、同様に学習用原音信号から得られた16bit信号（再量子化信号）を学習用16bit信号（学習用再量子化信号）とも称することとする。さらに、以下では、学習用原音信号と学習用再量子化信号から得られ、教師データとして用いられる差分信号を、特に学習用差分信号とも称することとする。

　学習用16bit信号と学習用差分信号に基づき機械学習を行った場合、一般的なCD等の16bit信号を入力信号とし、その入力信号を高音質化して24bit信号である高音質化信号を得ることができる。なお、16bit信号や24bit信号は量子化ビット数、つまり１サンプル分のビット数が16bitや24bitであるオーディオ信号である。

　まず、学習用の差分信号の生成について説明する。

　例えば図１に示すように、高音質な学習用原音信号として24bit信号が用意される。

　そして、その24bit信号に対して、例えば単純切り捨てや、ディザ丸め、各種のノイズシェイパによるノイズシェイピングなどにより再量子化が行われ、24bit信号よりも低音質な学習用再量子化信号である16bit信号が生成される。すなわち、24bit信号に対して再量子化が行われ、その24bit信号よりも量子化ビット数が小さい16bit信号が、学習用再量子化信号として生成される。

　さらに、24bit信号と16bit信号との差分を求めることで学習用差分信号としての8bit信号が生成され、得られた学習用差分信号が教師データとされて、16bit信号から差分信号を予測（生成）するための予測係数（予測器）が機械学習により生成される。

　例えば機械学習時には、数100msの相関がある、スペクトルにハーモニクス構造がある、リズムがあるなどといったオーディオ信号の特徴を考慮した構成を持つDNN（Deep Neural Network）で学習が行われる。すなわち、DNN等における差分信号の予測演算に用いられる予測係数がパラメータとして学習される。

　このような機械学習により得られた予測係数を用いれば、任意の16bitのオーディオ信号（16bit信号）を入力信号として、その入力信号と予測係数とに基づいて入力信号に対する差分信号を予測により得ることができる。

　したがって、その入力信号に対して、予測により得られた差分信号を加算（合成）すれば、入力信号よりも、より高音質な24bit信号が高音質化信号として得られる。

　以上のような24bit信号、16bit信号、および差分信号の例を図２に示す。なお、図２において横軸は時間を示しており、縦軸は信号レベルを示している。

　図２では、図中、左側には比較的短い時間区間における、ステレオのＬとＲの各チャンネルの24bit信号、16bit信号、および差分信号の時間波形が示されている。

　特に、図中、上側から下側まで順番に、Ｌチャンネルの24bit信号、Ｒチャンネルの24bit信号、Ｌチャンネルの16bit信号、Ｒチャンネルの16bit信号、Ｌチャンネルの差分信号、Ｒチャンネルの差分信号が並べられている。

　また、図中、右側には、図中、左側に示した24bit信号、16bit信号、および差分信号の各信号の比較的長い時間区間の時間波形が示されている。なお、図２では、差分信号については90dBの拡大が行われて表示されている。

　上述したように、24bit信号を再量子化することで16bit信号を得ることができ、その16bit信号と24bit信号の差分を計算することで、8bit信号である差分信号を得ることができる。そして、その差分信号を教師データとし、差分信号と16bit信号とに基づく機械学習により、任意の16bit信号の差分信号を予測するための予測係数を得ることができる。

　以上のように、本技術によれば、機械学習により差分信号を予測するための予測係数を生成し、その予測係数に基づいて差分信号を予測することで、数学的手法によりビット拡張を行い、高音質化信号を生成することができる。

　特に、本技術では、機械学習により得られた予測係数を用いた予測演算によって、数学的に差分信号が生成（決定）されるため、従来行われていた繰り返しの試聴によるゲイン値等のパラメータの調整が不要である。

　そのため、人手でパラメータを調整する場合と比較して、得られる効果のばらつきを抑制し、どのような入力信号に対しても等しく音質を向上させることができる。すなわち、より高音質な高音質化信号を得ることができる。

　なお、差分信号の予測手法や予測係数の学習手法は、上述した予測手法や機械学習手法に限らず、他のどのような手法であってもよい。

〈信号処理装置の構成例〉
　図３は、本技術を適用した信号処理装置の一実施の形態の構成例を示す図である。

　図３に示す信号処理装置１１は、差分信号生成部２１および合成部２２を有している。

　この信号処理装置１１には、時間領域の信号、すなわち時間信号が入力信号として供給される。例えば入力信号は、16bit信号、特に音楽等の16bitのPCM信号とされる。例えば入力信号は、予測係数の学習に用いられた学習用再量子化信号と同じビット数（量子化ビット数）およびサンプリング周波数の信号である。

　差分信号生成部２１は、予め機械学習により得られた予測係数をパラメータとして保持しており、供給された入力信号に対応する差分信号を予測する予測器として機能する。

　すなわち、差分信号生成部２１は、保持している予測係数と、供給された入力信号とに基づいて予測演算を行うことで、入力信号に対応する差分信号を予測により生成し、得られた差分信号を合成部２２に供給する。

　合成部２２は、差分信号生成部２１から供給された差分信号と、供給された入力信号とを合成（加算）することで高音質化信号を生成し、後段に出力する。

　特に合成部２２では、入力信号である16bit信号よりも１サンプルのサンプル値のビット数（量子化ビット数）が多い、より高音質な24bit信号が高音質化信号として得られる。

〈差分信号生成部の構成例〉
　また、差分信号生成部２１は、例えば図４に示すように構成される。

　図４に示す例では、差分信号生成部２１は、機械学習により得られた予測係数に基づいて予測演算を行うDNN５１により構成される。

　この例では、入力信号である16bit信号に対して、例えば1024サンプルなどのフレーム単位で処理が行われる。

　すなわち、この例では16bit信号の処理対象となる現フレームを含むＭ個（例えば、Ｍ＝１０）の連続するフレームがDNN５１に対して入力される。

　例えば、ここでは現フレームよりも時間的に過去のフレームや未来のフレームなど、16bit信号の現フレームを含む、連続するＭ＝１０個のフレームの信号がDNN５１に対して入力される。すなわち、16bit信号の１０フレーム分の信号が足されて（結合されて）１つの信号とされ、DNN５１に対する入力とされる。

　なお、信号処理装置１１において、時間的な遅延が許容されない場合には、例えば現フレームと、その現フレームの直前の９個の過去フレームとがDNN５１の入力とされ、未来のフレームは用いられないようにすることもできる。

　DNN５１は、16bit信号と予測係数とに基づいて時間領域の差分信号を予測する予測部として機能する。換言すれば、この例では予測部がDNN５１により構成される。

　DNN５１は入力されたＭフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部２２に供給する。より詳細には、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する１フレーム分の時間信号が合成部２２へと供給される。

　例えばDNN５１における予測演算では、16bit信号に対する畳み込み処理や、活性化関数による演算処理などの非線形処理等が行われる。

〈信号生成処理の説明〉
　続いて、信号処理装置１１の動作について説明する。

　すなわち、以下、図５のフローチャートを参照して、信号処理装置１１により行われる信号生成処理について説明する。

　ステップＳ１１において差分信号生成部２１は、供給された入力信号としての16bit信号と、予め保持している予測係数とに基づいて差分信号を生成する。

　具体的には、例えば差分信号生成部２１としてのDNN５１は、供給されたＭフレーム分の16bit信号と、予め保持している予測係数とに基づいて、予測演算により現フレームの差分信号を予測し、その結果得られた差分信号を合成部２２に供給する。

　ステップＳ１２において合成部２２は、差分信号生成部２１、すなわちDNN５１から供給された現フレームの差分信号と、供給された入力信号としての現フレームの16bit信号とを合成（加算）し、その結果得られた現フレームの高音質化信号を後段に出力する。

　信号処理装置１１では、16bit信号の各フレームに対して上述した処理が行われ、高音質化信号としての24bit信号が生成される。このようにして高音質化信号が生成されると、信号生成処理は終了する。

　以上のようにして信号処理装置１１は、予め機械学習により得られた予測係数を用いて差分信号を生成し、その差分信号と入力信号とを合成して高音質化信号とする。このようにすることで、数学的手法で入力信号に対するビット拡張（高音質化）を行い、より高音質な高音質化信号を得ることができる。

〈第２の実施の形態〉
〈差分信号生成部の構成例〉
　ところで、図４に示した差分信号生成部２１の構成では、差分信号の時間特性のランダム性が強く、差分信号の特徴を十分に学習することができずに予測誤差が大きくなってしまうことがある。換言すれば、時間領域（時間波形）では適切な特徴量の抽出が困難である場合があり、そのような場合には差分信号の予測精度が低下してしまうことがある。

　そこで、オーディオ信号では特徴が分かり易い周波数特性を用いて差分信号の予測を行うようにしてもよい。

　そのような場合、差分信号生成部２１は、例えば図６に示すように構成される。

　図６に示す差分信号生成部２１は、複素FFT（Fast Fourier Transform）処理部８１－１乃至複素FFT処理部８１－Ｎ、DNN８２、および複素IFFT（Inverse Fast Fourier Transform）処理部８３を有している。

　この例では、入力信号である時間領域の16bit信号の処理対象となる現フレームを含むＮ個（例えばＮ＝１０）の連続するフレームが差分信号生成部２１への入力とされる。

　すなわち、図６に示す例では、16bit信号のＮ個の各フレームの信号が複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎに供給される。なお、この場合においても図４に示した例と同様に、Ｎ個の連続するフレームには、未来のフレームと過去のフレームが含まれているようにしてもよいし、未来のフレームは含まれず、現フレームと過去のフレームのみが含まれるようにしてもよい。

　複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎは、供給された１フレーム分の16bit信号に対して複素FFTを行い、その結果得られた信号をDNN８２に供給する。

　このような16bit信号に対する複素FFTにより、16bit信号の周波数軸データ、つまり周波数領域の信号が得られる。なお、以下、複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎを特に区別する必要のない場合、単に複素FFT処理部８１とも称する。

　DNN８２は、周波数領域の16bit信号である周波数軸データと予測係数とに基づいて周波数領域の差分信号を予測する予測部として機能する。

　すなわち、DNN８２は、複素FFT処理部８１から供給された16bit信号のＮフレーム分の周波数軸データと、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた現フレームの周波数領域の差分信号を複素IFFT処理部８３に供給する。より詳細には、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する１フレーム分の周波数領域の信号が複素IFFT処理部８３へと供給される。

　この場合、DNN８２で保持される予測係数は、周波数領域の差分信号を教師データとした機械学習により得られた、16bit信号の周波数領域の信号から、周波数領域の差分信号を予測するための予測係数である。この場合においてもDNN８２では、DNN５１における場合と同様に、畳み込み処理や、活性化関数による演算処理などの非線形処理等が予測演算として行われる。

　複素IFFT処理部８３は、DNN８２から供給された周波数領域の差分信号に対して複素IFFTを行い、その結果得られた時間領域の差分信号を合成部２２に供給する。

　図６に示す差分信号生成部２１では、16bit信号に対して複素FFTが行われ、周波数領域で差分信号の予測が行われる。

　このように複素FFTを行うようにすれば、オーディオ信号では特徴の抽出が容易な周波数領域で予測を行うことができる。しかも、信号の振幅だけでなく位相も考慮されるので、時間波形、すなわち時間領域においても十分な効果を得ることができる。すなわち、時間領域の差分信号として十分な精度の信号を得ることができる。

　差分信号生成部２１が図６に示す構成とされる場合においても、信号処理装置１１では、基本的には図５を参照して説明した信号生成処理が行われる。

　但し、ステップＳ１１においては、複素FFT処理部８１、DNN８２、および複素IFFT処理部８３により差分信号が生成される。

　すなわち、Ｎ個の各複素FFT処理部８１は、供給された16bit信号の１フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN８２に供給する。

　また、DNN８２は、Ｎ個の複素FFT処理部８１から供給された、合計Ｎ個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を複素IFFT処理部８３に供給する。

　さらに、複素IFFT処理部８３は、DNN８２から供給された信号に対して複素IFFTを行い、その結果得られた差分信号を合成部２２に供給する。したがってステップＳ１２では、合成部２２は、複素IFFT処理部８３から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。

　以上のように周波数領域において差分信号の予測を行う場合でも、より高音質な信号を得ることができる。

〈第３の実施の形態〉
〈差分信号生成部の構成例〉
　第２の実施の形態では、周波数領域で処理が行われるため、第１の実施の形態における場合よりも比較的容易に差分信号の予測を行うことができる。しかし、複素FFTを用いているため、入力信号が非周期性の信号である場合には十分な精度で差分信号を予測することができないこともある。

　そこで、第１の実施の形態のような時間領域での予測と、第２の実施の形態のような周波数領域での予測とを組み合わせ、最終的に１つの差分信号が得られるようにしてもよい。

　そのような場合、差分信号生成部２１は、例えば図７に示すように構成される。なお、図７において図４または図６における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図７に示す差分信号生成部２１は、DNN５１、複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎ、DNN８２、複素IFFT処理部８３、およびDNN１１１を有している。

　この例では、差分信号生成部２１は、DNN５１の出力、および複素IFFT処理部８３の出力がDNN１１１へと供給される構成となっている。

　DNN１１１は、予測係数と、DNN５１による予測結果と、DNN８２による予測結果とに基づいて、最終的な時間領域の差分信号を予測する予測部として機能する。

　DNN１１１には、時間領域の学習用差分信号を教師データとした機械学習により生成された、DNN５１の出力および複素IFFT処理部８３の出力を入力として、時間領域の差分信号を予測するための予測係数が予め保持されている。なお、例えばDNN５１で保持される予測係数、DNN８２で保持される予測係数、およびDNN１１１で保持される予測係数は機械学習により同時に生成される。

　DNN１１１は、予め保持している予測係数と、DNN５１から供給された１フレーム分の信号（差分信号）と、複素IFFT処理部８３から供給された１フレーム分の信号（差分信号）に基づいて予測演算を行い、その結果得られた信号を、最終的な差分信号の予測結果として合成部２２に供給する。すなわち、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する１フレーム分の時間領域の信号がDNN１１１から合成部２２へと出力される。

　なお、DNN５１にはＭフレーム分の信号が入力され、DNN８２にはＮフレーム分の信号が入力されるが、これらのDNN５１とDNN８２に入力される信号のフレーム数は同じ（Ｍ＝Ｎ）であってもよいし、異なっていてもよい。

　差分信号生成部２１が図７に示す構成とされる場合においても、信号処理装置１１では、基本的には図５を参照して説明した信号生成処理が行われる。

　但し、ステップＳ１１においては、DNN５１、複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎ、DNN８２、複素IFFT処理部８３、およびDNN１１１により差分信号が生成される。

　すなわち、DNN５１は、供給されたＭフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号をDNN１１１に供給する。

　また、各複素FFT処理部８１は、供給された16bit信号の１フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN８２に供給する。DNN８２は、複素FFT処理部８１から供給された、合計Ｎ個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を複素IFFT処理部８３に供給する。

　複素IFFT処理部８３は、DNN８２から供給された信号に対して複素IFFTを行い、その結果得られた信号をDNN１１１に供給する。

　さらにDNN１１１は、予め保持している予測係数と、DNN５１から供給された信号と、複素IFFT処理部８３から供給された信号とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部２２に供給する。したがってステップＳ１２では、合成部２２は、DNN１１１から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。

　以上のように時間領域での予測と周波数領域での予測とを組み合わせることで、さらに高音質な高音質化信号を得ることができる。

〈第４の実施の形態〉
〈差分信号生成部の構成例〉
　また、図７に示した差分信号生成部２１の構成では、時間領域での予測と周波数領域での予測が行われるため、それらの双方の予測での弱点をカバーすることができるが、時間軸の特徴量、すなわちDNN５１での予測結果と、周波数軸の特徴量、すなわちDNN８２での予測結果とが同等に扱われる。そのため、最終的な予測結果では、どちらかのウェイトが強く出過ぎることがある。すなわち、最終的な差分信号の予測結果では、時間領域での予測と周波数領域での予測のうちのどちらかの影響が強くなってしまうことがある。

　そこで、時間軸の特徴量と周波数軸の特徴量を一旦分離して、別次元の変数（特徴量）に変換した後、DNNへと入力し、入力の16bit信号の差分信号に相当する１フレーム分の信号を予測するようにしてもよい。これにより、より安定して十分な精度で差分信号を予測することができる。

　このように別次元の特徴量への変換を行う場合、差分信号生成部２１は、例えば図８に示すように構成される。なお、図８において図７における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。

　図８に示す差分信号生成部２１は、DNN５１、特徴量抽出部１４１、変換部１４２、複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎ、DNN８２、特徴量抽出部１４３、変換部１４４、およびDNN１４５を有している。

　図８に示す差分信号生成部２１の構成は、複素IFFT処理部８３およびDNN１１１に代えて、新たに特徴量抽出部１４１、変換部１４２、特徴量抽出部１４３、変換部１４４、およびDNN１４５を設けた点で図７の差分信号生成部２１と異なり、その他の点では図７の差分信号生成部２１と同じ構成となっている。

　図８の例では、特徴量抽出部１４１は、DNN５１から供給された信号（時間領域の差分信号の予測結果）から時間軸の特徴量を抽出し、変換部１４２に供給する。

　なお、特徴量抽出部１４１では、DNN５１の出力そのもの、すなわち例えば0.01bit,-0.02bit,0.2bit,…などといったような、時系列に並ぶ予測したい24bit信号と入力の16bit信号との誤差の特徴をまとめた値をそのまま時間軸の特徴量としてもよい。

　変換部１４２は、特徴量抽出部１４１から供給された時間軸の特徴量を、時間軸とは異なる別次元の変数、すなわち時間軸の特徴量とは次元の異なる他の特徴量に変換し、DNN１４５へと供給する。

　特徴量抽出部１４３は、DNN８２から供給された信号（周波数領域の差分信号の予測結果）から周波数軸の特徴量を抽出し、変換部１４４に供給する。

　なお、特徴量抽出部１４３では、DNN８２の出力そのもの、すなわち例えば0.01dB/0.03deg,-0.011dB/-0.2deg,…などといったような、各周波数ビンの振幅（dB）と位相（deg）を並べて得られる予測したい24bit信号と入力の16bit信号とのFFT誤差の特徴をまとめた値をそのまま周波数軸の特徴量としてもよい。

　変換部１４４は、特徴量抽出部１４３から供給された周波数軸の特徴量を、周波数軸とは異なる別次元の変数、すなわち周波数軸の特徴量とは次元の異なる他の特徴量に変換し、DNN１４５へと供給する。

　変換部１４２および変換部１４４では、供給された特徴量が、例えば1024×1024の秒列など、時間（時間軸）とも周波数（周波数軸）とも異なる他の次元の特徴量に変換される。換言すれば、時間軸や周波数軸の特徴量が他の次元の領域へと射影される。

　このとき、変換部１４２で得られる特徴量と、変換部１４４で得られる特徴量とが同じ次元の特徴量となるように特徴量の変換が行われてもよいし、互いに異なる次元の特徴量となるように特徴量の変換が行われてもよい。このような別次元の特徴量への変換はDimension transformなどと呼ばれている。

　DNN１４５は、予測係数と、変換部１４２で得られた特徴量と、変換部１４４で得られた特徴量とに基づいて、最終的な時間領域の差分信号を予測する予測部として機能する。

　DNN１４５には、時間領域の学習用差分信号を教師データとした機械学習により生成された、変換部１４２の出力および変換部１４４の出力を入力として、時間領域の差分信号を予測するための予測係数が予め保持されている。

　なお、例えばDNN５１で保持される予測係数、DNN８２で保持される予測係数、およびDNN１４５で保持される予測係数は機械学習により同時に生成される。

　DNN１４５は、予め保持している予測係数と、変換部１４２から供給された特徴量と、変換部１４４から供給された特徴量とに基づいて予測演算を行い、その結果得られた信号を、最終的な差分信号の予測結果として合成部２２に供給する。すなわち、予測係数に基づく予測により得られた、入力の16bit信号の差分信号に相当する１フレーム分の時間領域の信号がDNN１４５から合成部２２へと供給される。

　差分信号生成部２１が図８に示す構成とされる場合においても、信号処理装置１１では、基本的には図５を参照して説明した信号生成処理が行われる。

　但し、ステップＳ１１においては、DNN５１、特徴量抽出部１４１、変換部１４２、複素FFT処理部８１－１乃至複素FFT処理部８１－Ｎ、DNN８２、特徴量抽出部１４３、変換部１４４、およびDNN１４５により差分信号が生成される。

　すなわち、DNN５１は、供給されたＭフレーム分の16bit信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を特徴量抽出部１４１に供給する。

　特徴量抽出部１４１は、DNN５１から供給された信号から時間軸の特徴量を抽出し、変換部１４２に供給する。変換部１４２は、特徴量抽出部１４１から供給された時間軸の特徴量を時間軸とは異なる別次元の特徴量へと変換し、DNN１４５に供給する。

　また、各複素FFT処理部８１は、供給された16bit信号の１フレーム分の信号に対して複素FFTを行い、その結果得られた信号をDNN８２に供給する。DNN８２は、複素FFT処理部８１から供給された、合計Ｎ個のフレームの信号と、予め保持している予測係数とに基づいて予測演算を行い、その結果得られた信号を特徴量抽出部１４３へと供給する。

　特徴量抽出部１４３は、DNN８２から供給された信号から周波数軸の特徴量を抽出し、変換部１４４に供給する。変換部１４４は、特徴量抽出部１４３から供給された周波数軸の特徴量を周波数軸とは異なる別次元の特徴量へと変換し、DNN１４５に供給する。

　さらにDNN１４５は、予め保持している予測係数と、変換部１４２から供給された特徴量と、変換部１４４から供給された特徴量とに基づいて予測演算を行い、その結果得られた現フレームの時間領域の差分信号を合成部２２に供給する。したがってステップＳ１２では、合成部２２は、DNN１４５から供給された差分信号と、供給された入力信号としての16bit信号とを合成し、高音質化信号を生成する。

　以上のように時間軸の特徴量と周波数軸の特徴量とを別次元の特徴量に変換し、それらの特徴量に基づいて最終的な差分信号を予測することで、より安定して十分な精度の差分信号を得ることができ、その結果、より高音質な高音質化信号を得ることができる。

〈コンピュータの構成例〉
　ところで、上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、コンピュータにインストールされる。ここで、コンピュータには、専用のハードウェアに組み込まれているコンピュータや、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどが含まれる。

　図９は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

　コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

　バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、入力部５０６、出力部５０７、記録部５０８、通信部５０９、及びドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホン、撮像素子などよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記録部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインターフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリなどのリムーバブル記録媒体５１１を駆動する。

　以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（CPU５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブル記録媒体５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブル記録媒体５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。

　例えば、本技術は、１つの機能をネットワークを介して複数の装置で分担、共同して処理するクラウドコンピューティングの構成をとることができる。

　また、上述のフローチャートで説明した各ステップは、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、１つのステップに複数の処理が含まれる場合には、その１つのステップに含まれる複数の処理は、１つの装置で実行する他、複数の装置で分担して実行することができる。

　さらに、本技術は、以下の構成とすることも可能である。

（１）
　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、
　生成された前記差分信号および前記入力信号を合成する合成部と
　を備える信号処理装置。
（２）
　前記学習は機械学習である
　（１）に記載の信号処理装置。
（３）
　前記入力信号は、前記学習用再量子化信号と同じ量子化ビット数の信号である
　（１）または（２）に記載の信号処理装置。
（４）
　前記差分信号生成部は、前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する予測部を有する
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（５）
　前記予測部はDNNにより構成される
　（４）に記載の信号処理装置。
（６）
　前記差分信号生成部は、
　　前記入力信号に対して複素FFTを行う複素FFT処理部と、
　　前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する予測部と
　を有する
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（７）
　前記予測部はDNNにより構成される
　（６）に記載の信号処理装置。
（８）
　前記差分信号生成部は、
　　前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する第１の予測部と、
　　前記入力信号に対して複素FFTを行う複素FFT処理部と、
　　前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する第２の予測部と、
　前記予測係数、前記第１の予測部による予測結果、および前記第２の予測部による予測結果に基づいて、最終的な前記差分信号を予測する第３の予測部と
　を有する
　（１）乃至（３）の何れか一項に記載の信号処理装置。
（９）
　前記差分信号生成部は、前記第２の予測部による予測結果に対して複素IFFTを行う複素IFFT処理部をさらに有し、
　前記第３の予測部は、前記予測係数、前記第１の予測部による予測結果、および前記複素IFFTにより得られた信号に基づいて、前記最終的な前記差分信号を予測する
　（８）に記載の信号処理装置。
（１０）
　前記差分信号生成部は、
　　前記第１の予測部による予測結果から得られた第１の特徴量を、前記第１の特徴量とは次元の異なる第２の特徴量へと変換する第１の変換部と、
　　前記第２の予測部による予測結果から得られた第３の特徴量を、前記第３の特徴量とは次元の異なる第４の特徴量へと変換する第２の変換部と
　をさらに有し、
　前記第３の予測部は、前記予測係数、前記第２の特徴量、および前記第４の特徴量に基づいて、前記最終的な前記差分信号を予測する
　（８）に記載の信号処理装置。
（１１）
　前記第１の予測部、前記第２の予測部、および前記第３の予測部はDNNにより構成される
　（８）乃至（１０）の何れか一項に記載の信号処理装置。
（１２）
　信号処理装置が、
　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
　生成された前記差分信号および前記入力信号を合成する
　信号処理方法。
（１３）
　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
　生成された前記差分信号および前記入力信号を合成する
　ステップを含む処理をコンピュータに実行させるプログラム。

　１１　信号処理装置，　２１　差分信号生成部，　２２　合成部，　５１　DNN，　８１－１乃至８１－Ｎ，８１　複素FFT処理部，　８２　DNN，　８３　複素IFFT処理部，　１１１　DNN，　１４１　特徴量抽出部，　１４２　変換部，　１４３　特徴量抽出部，　１４４　変換部，　１４５　DNN

Claims

　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成する差分信号生成部と、
　生成された前記差分信号および前記入力信号を合成する合成部と
　を備える信号処理装置。
　前記学習は機械学習である
　請求項１に記載の信号処理装置。
　前記入力信号は、前記学習用再量子化信号と同じ量子化ビット数の信号である
　請求項１に記載の信号処理装置。
　前記差分信号生成部は、前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する予測部を有する
　請求項１に記載の信号処理装置。
　前記予測部はDNNにより構成される
　請求項４に記載の信号処理装置。
　前記差分信号生成部は、
　　前記入力信号に対して複素FFTを行う複素FFT処理部と、
　　前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する予測部と
　を有する
　請求項１に記載の信号処理装置。
　前記予測部はDNNにより構成される
　請求項６に記載の信号処理装置。
　前記差分信号生成部は、
　　前記予測係数と前記入力信号とに基づいて、時間領域の前記差分信号を予測する第１の予測部と、
　　前記入力信号に対して複素FFTを行う複素FFT処理部と、
　　前記予測係数と、前記複素FFTにより得られた信号とに基づいて、周波数領域の前記差分信号を予測する第２の予測部と、
　前記予測係数、前記第１の予測部による予測結果、および前記第２の予測部による予測結果に基づいて、最終的な前記差分信号を予測する第３の予測部と
　を有する
　請求項１に記載の信号処理装置。
　前記差分信号生成部は、前記第２の予測部による予測結果に対して複素IFFTを行う複素IFFT処理部をさらに有し、
　前記第３の予測部は、前記予測係数、前記第１の予測部による予測結果、および前記複素IFFTにより得られた信号に基づいて、前記最終的な前記差分信号を予測する
　請求項８に記載の信号処理装置。
　前記差分信号生成部は、
　　前記第１の予測部による予測結果から得られた第１の特徴量を、前記第１の特徴量とは次元の異なる第２の特徴量へと変換する第１の変換部と、
　　前記第２の予測部による予測結果から得られた第３の特徴量を、前記第３の特徴量とは次元の異なる第４の特徴量へと変換する第２の変換部と
　をさらに有し、
　前記第３の予測部は、前記予測係数、前記第２の特徴量、および前記第４の特徴量に基づいて、前記最終的な前記差分信号を予測する
　請求項８に記載の信号処理装置。
　前記第１の予測部、前記第２の予測部、および前記第３の予測部はDNNにより構成される
　請求項８に記載の信号処理装置。
　信号処理装置が、
　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
　生成された前記差分信号および前記入力信号を合成する
　信号処理方法。
　原音信号を再量子化して得られた学習用再量子化信号と前記原音信号との差分信号を教師データとした学習により得られた予測係数、および入力信号に基づいて、前記入力信号に対応する前記差分信号を生成し、
　生成された前記差分信号および前記入力信号を合成する
　ステップを含む処理をコンピュータに実行させるプログラム。