WO2021157062A1

WO2021157062A1 - 量子化ビット数拡張のための学習装置、信号推定装置、学習方法、信号推定方法、およびプログラム

Info

Publication number: WO2021157062A1
Application number: PCT/JP2020/004866
Authority: WO
Inventors: 江村　暁
Original assignee: 日本電信電話株式会社
Priority date: 2020-02-07
Filing date: 2020-02-07
Publication date: 2021-08-12
Also published as: US20230153603A1; JPWO2021157062A1

Abstract

信号を第１量子化ビット数で量子化して得られる低ビット信号と、信号を第１量子化ビット数よりも大きな第２量子化ビット数で量子化して得られる高ビット信号と、を含む学習データを用い、入力信号を第１量子化ビット数で量子化して得られる低ビット入力信号を入力とし、入力信号を第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を出力するニューラルネットワークを学習する。このニューラルネットワークは、入力層および出力層を含む多層構造を持ち、入力層に低ビット入力信号を入力した際に出力層から出力される信号と、低ビット入力信号と、を加算して得られる高ビット出力信号の推定信号を得て出力するものである。

Description

量子化ビット数拡張のための学習装置、信号推定装置、学習方法、信号推定方法、およびプログラム

　本発明は、量子化信号から量子化ビット数を拡張した量子化信号を得る技術に関する。

　現在、センサからのアナログ信号はＡ／Ｄ変換により量子化（デジタル化）されてコンピュータに取り込まれて処理されている。例えば、ロボット等では各種センサ信号は１０～１６ビットで量子化されることが多い。また音楽ＣＤでは音楽信号が１６ビットに量子化される。

　上記のように量子化された信号に対し、量子化ビット数を拡張したいというニーズがある。例えば、センサ信号の振幅が小さく、量子化誤差が多く含まれる信号から、量子化誤差の抑えられた滑らかな信号が必要になる場合が考えられる。また音楽ＣＤについては、１６ビットで表現された楽曲を、２４ビット表現に拡張するというニーズがある。このように量子化ビット数を拡張して量子化誤差を小さくする場合、下位ビット側のビット数（下位ビット数）が拡張される。

　特に音楽を想定して、既知のデジタル信号の量子化ビット数を拡張したデジタル信号を推定する方法がいくつか提案されている。例えば、特許文献１では、上位ビット波形にＦＩＲあるいはＩＩＲフィルタを適用し、量子化ビット数を拡張したデジタル信号の下位ビット信号を推定している。特許文献２では、同じ振幅値が続く区間において、その前後の振幅値変化幅の比にもとづいて中間時刻を定め、中間時刻に想定する振幅値とその区間両端の振幅値との３点間をスプライン補完する。得られた実数振幅値を四捨五入して量子化して下位ビット値とする。非特許文献１では、上位ビット信号からＢｕｒｇ法により線形予測係数を求める。初期値をランダムに定めた下位ビット信号を生成し、上位ビット信号と加算して初期予測信号を得る。初期予測信号から予測誤差信号を得て、この予測誤差信号が最小になるよう下位ビット信号のビット値の最適配置を擬似焼きなまし法で探索して求める。

特開２０１０－２６８４４６特開２０１１－１８０４７９

西村明，"線形量子化音響信号の振幅上位ビット値を用いた下位ビット値の予測拡張"，日本音響学会講演論文集2019，2019年3月

　しかし、上記の方法では、対象とする本来の信号が持つ微細情報が推定結果に反映されるかが不明である。それは量子化ビット数を拡張する前のデジタル信号の情報のみを用いて量子化ビット数を拡張しており、より大きな量子化ビット数で量子化されたデジタル信号が本来持つ性質が使われていないためである。

　本発明はこのような点に鑑みてなされたものであり、本来の信号が持つ微細情報を反映させ、高い精度で量子化ビット数を拡張することを目的とする。

　これにより、本来の信号が持つ微細情報を反映させ、高い精度で量子化ビット数を拡張することができる。

図１Ａは実施形態の学習装置を例示したブロック図である。図１Ｂは実施形態の信号推定装置を例示したブロック図である。図２は実施形態のニューラルネットワークを例示するためのブロック図である。図３は実施形態のニューラルネットワークを例示するためのブロック図である。図４は実施形態のニューラルネットワークを例示するためのブロック図である。図５は実施形態のニューラルネットワークを例示するためのブロック図である。図６は実施形態のハードウェア構成を例示するためのブロック図である。

　以下、図面を参照して本発明の実施形態を説明する。
　各実施形態では、ニューラルネットワークによって、量子化された信号から、量子化の際に落とされた下位ビットの情報を推定する方法を例示する。ニューラルネットワークは、低ビット量子化前後の信号、つまり低ビット数と高ビット数で量子化された信号をトレーニングデータとして、学習される。トレーニングデータ中の高ビット数で量子化された信号がニューラルネットの学習に使われる際に、本来の入力信号がもつ微細情報が活用される。本実施形態では、一例としてゲート付き畳み込みニューラルネットワーク（Gated ＣＮＮ）（参考文献１）等のゲートつきのニューラルネットワークをもちいる。
　参考文献１：Y. N. Dauphin, A. Fan, M. Auli, and D. Grangier, "Language Modeling with Gated Convolutional Networks," arXiv: 1612.08083, Submitted on 23 Dec 2016 (v1).

　すなわち、実施形態の学習処理では、信号を第１量子化ビット数（低ビット数）で量子化して得られる低ビット信号と、信号を第１量子化ビット数（低ビット数）よりも大きな第２量子化ビット数（高ビット数）で量子化して得られる高ビット信号と、を含む学習データを用い、入力信号を第１量子化ビット数で量子化して得られる低ビット入力信号を入力とし、第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を出力するニューラルネットワークを学習する。ただし、学習されるニューラルネットワークは、入力層および出力層を含む多層構造を持ち、入力層に低ビット入力信号を入力した際に出力層から出力される信号と、低ビット入力信号と、を加算して得られる高ビット出力信号の推定信号を得て出力するものである。以下、詳細に説明する。

　［第１実施形態］
　図１Ａに例示するように、第１実施形態の学習装置１１は記憶部１１ａおよび学習部１１ｂを有する。図１Ｂに例示するように、第１実施形態の信号推定装置１２は記憶部１２ａおよびモデル適用部１２ｂを有する。

　＜学習処理＞
　まず、入力信号を低ビット数で量子化して得られる低ビット入力信号を入力とし、入力信号を高ビット数で量子化して得られる高ビット出力信号の推定信号を出力するニューラルネットワークの学習処理を説明する。図２に、量子化の際に落とされた下位ビットの情報を推定する本実施形態のニューラルネットワーク１００を例示する。このニューラルネットワーク１００は、入力信号を低ビット数で量子化して得られる信号Ｌサンプルからなるフレーム（区間）の低ビット入力信号ｘを入力とし、当該入力信号を目標とする高ビット数で量子化して得られる信号Ｌサンプルからなるフレームの高ビット出力信号の推定信号ｙ＾を出力するものである。なお、入力信号ｘは例えば時系列信号であり、例えば、時系列の音響信号である。例えば、入力信号ｘは時間領域の音響信号であってもよいし、時間周波数領域の音響信号であってもよい。Ｌは正整数であり、例えば、Ｌは数百～１０００またはその前後の値である。ｘおよびｙ＾は例えばＬ次元ベクトルである。また、図２に例示するように、「ｙ＾」の上付き添え字「＾」は本来「ｙ」の真上に記載すべきであるが、記載表記の制約上、「ｙ＾」のように「＾」を「ｙ」の右上に記載する場合がある。その他の文字および上付き添え字についても同様である。図２に例示するように、ニューラルネットワーク１００は、入力層１１０－１および出力層１１０－３を含む多層構造を持ち、入力層１１０－１に低ビット入力信号ｘを入力した際に出力層１１０－３から出力される信号Ｌサンプルからなるフレームの信号ｚ＾と、低ビット入力信号ｘと、を加算して得られる高ビット出力信号の推定信号ｙ＾＝ｚ＾＋ｘを得て出力するものである。ｚ＾は例えばＬ次元ベクトルである。例えば、低ビットの時系列信号の所定の時間区間をフレームとし、フレームを１／２シフトや１／４シフト等しながら各フレームの低ビット入力信号ｘを取り出してニューラルネットワーク１００に入力し、その出力に当該多層構造を適用して合成したものを信号ｚ＾とし、入力された低ビット入力信号ｘをそのまま最終出力の手前で信号ｚ＾に加算して高ビット出力信号の推定信号ｙ＾＝ｚ＾＋ｘを得、推定信号ｙ＾に窓関数を施して合成する。なお、図２に例示するニューラルネットワーク１００の多層構造は、入力層１１０－１、隠れ層１１０－２、および出力層１１０－３の３層構造だが、１層構造や２層構造であってもよいし４層以上の構造であってもよい。なお、１層構造の場合には入力層は出力層を兼ねる。２層構造の場合には隠れ層が存在しない。４層以上の場合には隠れ層が２層以上存在する。以下、入力層１１０－１、隠れ層１１０－２、および出力層１１０－３をそれぞれ、単に層１１０－１，１１０－２，１１０－３と呼ぶ場合がある。すなわち、多層構造はＮ個の層１１０－１，…，１１０－Ｎを含む。ただし、Ｎは１以上の整数である。

　ニューラルネットワーク１００の学習は、信号を低ビット数（第１量子化ビット数）で量子化して得られる信号Ｌサンプルからなるフレームの低ビット信号ｘ’と、当該信号を高ビット数（第２量子化ビット数）で量子化して得られる信号Ｌサンプルからなるフレームの高ビット信号ｙ’と、を含む大量の学習データ（ｘ’，ｙ’）を用いて行われる。すなわち、高ビット信号ｙ’と、低ビット信号ｘ’を低ビット入力信号ｘとして入力したニューラルネットワーク１００から出力される高ビット出力信号の推定信号ｙ＾＝ｚ＾＋ｘ’と、の距離を最小化するようにニューラルネットワーク１００が学習される。すなわち、低ビット信号ｘ’を低ビット入力信号ｘとして入力層１１０－１に入力した際に出力層１１０－３から出力されるｚ＾＝ｙ＾－ｘ’が目的信号である高ビット信号ｙ’とそれに対応する低ビット信号ｘ’との差分ｙ’－ｘ’に近づくように、ニューラルネットワーク１００の多層構造の各層の学習が行われる。なお、ｘ’およびｙ’は、例えば、Ｌ次元ベクトルである。このように本実施形態では、入力層１１０－１に低ビット入力信号ｘを入力した際に出力層１１０－３から出力される信号ｚ＾と、低ビット入力信号ｘと、を加算して得られる高ビット出力信号の推定信号ｙ’＝ｚ＾＋ｘ’を得て出力するスキップ接続構造のニューラルネットワーク１００を用いる。このスキップ接続構造によって学習範囲が限定され、学習によって得られるニューラルネットワーク１００の推定精度が高められる。

　ニューラルネットワーク１００の多層構造の各層１１０－ｉ（ただし、ｉ＝１，２，３）は、例えば、CNNで構成されてもよいし、Gated CNNで構成されてもよい。例えば、層１１０－ｉがCNNで構成される場合、各層１１０－ｉは、入力Ｘに畳み込み線形変換処理Ｗを適用し、さらに活性化関数σを適用して出力ｈ（Ｘ）を得る。例えば、畳み込み線形変換処理Ｗのフィルタ長は３～数十タップである。フィルタの種類を増やすことで特徴ベクトルの数すなわちチャネル数を増やすことができる。入力Ｘに対するCNNで構成される層１１０－ｉの出力ｈ（Ｘ）は、以下の式（１）のように表される。
　h(X)=σ(Ｘ＊W+b) (1)
ただし、「＊」は畳み込み演算子である。入力および出力ともに正負の値を取るため、例えば、活性化関数σには正負の値を出力する関数（例えばtanh関数（双曲線正接関数, Tangent Hyperbolic Function））を用いる。一方、層１１０－ｉがGated CNNで構成される場合、入力Ｘに対するGated CNNで構成される層１１０－ｉの出力ｈ（Ｘ）は、入力Ｘに畳み込み線形変換処理Ｗを施して得られる複数の要素に対応する列と、入力Ｘに畳み込み線形変換処理Ｖを施して得られる複数の要素に対応する列との要素ごとの積によって得られる。例えば、出力ｈ（Ｘ）は以下の式（２）のように表される。

ただし

はelement-wise product（要素ごとの積）であり、σは活性化関数であり、Ｖは畳み込み線形変換処理であり、ｂ、ｃは定数ベクトルである。Ｖの入出力サイズはＷと同じである。例えば、畳み込み線形変換処理Ｖのフィルタ長は３～数十タップである。この場合も、入力および出力ともに正負の値を取るため、例えば、活性化関数σには正負の値を出力する関数（例えばtanh）を用いる。図３に、Gated CNNで構成される層１１０－ｉを例示する。図３の例では、層１１０－ｉの入力Ｘに対して畳み込み線形変換処理部１１１－ｉで畳み込み線形変換処理Ｗが適用されるとともにｂが加算されてＸ＊Ｗ＋ｂが得られ、さらに活性化関数部１１２－ｉでＸ＊Ｗに活性化関数σが適用されてσ（Ｘ＊Ｗ＋ｂ）が得られる。また、層１１０－ｉの入力Ｘに対して畳み込み線形変換処理部１１３－ｉで畳み込み線形変換処理Ｖが適用されるとともにｃが加算されてＸ＊Ｖ+cが得られ、さらに活性化関数部１１４－ｉでＸ＊Ｖ+cに活性化関数σが適用されてσ（Ｘ＊Ｖ+c）が得られる。σ（Ｘ＊Ｗ＋ｂ）およびσ（Ｘ＊Ｖ+c）は乗算部１１５－ｉに入力され、乗算部１１５－ｉは式（２）に従って出力ｈ（Ｘ）を得て出力する。なお各Gated CNNの間には、適宜バッチノーマライゼーションとドロップアウトを含めてもよい（参考文献２）。
参考文献２：Ian Goodfellow, Y. Bengio, and A. Courville, "Deep Learning," MIT Press, 2016.

　ニューラルネットワーク１００の学習に使う損失コスト関数lossとしては、例えば以下の式（３）の関数を例示できる。

ただし、||・||_１は・のＬ１ノルムを表す。すなわち、例えば、学習データ（ｘ’，ｙ’）に含まれた高ビット信号ｙ’と、当該高ビット信号ｙ’に対応する低ビット信号ｘ’を低ビット入力信号ｘとして入力したニューラルネットワーク１００から出力される高ビット出力信号の推定信号ｙ＾との差分ｙ’－ｙ＾ベクトルのＬ１ノルムを損失コスト関数lossとして学習を行う。

　図１Ａを用いて学習の流れを説明する。前提として、学習装置１１の記憶部１１ａに学習データ（ｘ’，ｙ’）が記憶されている。学習部１１ｂは記憶部１１ａから学習データ（ｘ’，ｙ’）を読み込み、高ビット信号ｙ’と、低ビット信号ｘ’を低ビット入力信号ｘとして入力したニューラルネットワーク１００から出力される高ビット出力信号の推定信号ｙ＾＝ｚ＾＋ｘ’と、の距離を最小化するようにニューラルネットワーク１００を特定するパラメータθを学習する。この学習では、例えば、式（３）の損失コスト関数lossを用い公知の誤差逆伝播法等によってパラメータθを学習する。学習装置１１は学習によって得たパラメータθを出力する。

　＜信号推定処理＞
　次に図１Ｂを用い、上述のように学習されたニューラルネットワーク１００を用いて、低ビット入力信号から高ビット出力信号を推定する信号推定処理を説明する。信号推定処理の前提として、上述のように学習されたニューラルネットワーク１００を特定するための情報が信号推定装置１２の記憶部１２ａに格納される。例えば、学習されたニューラルネットワーク１００のパラメータθが記憶部１２ａに格納される。

　この前提の下、以下の処理が行われる。入力信号を低ビット数（第１量子化ビット数）で量子化して得られる信号Ｌサンプルからなるフレームの低ビット入力信号ｘがモデル適用部１２ｂに入力される。モデル適用部１２ｂは、記憶部１２ａから上記のニューラルネットワーク１００を特定するための情報を抽出する。モデル適用部１２ｂは、入力信号を低ビット数で量子化して得られる低ビット入力信号ｘを当該ニューラルネットワーク１００に入力し、当該入力信号を高ビット数（第１量子化ビット数よりも大きな第２量子化ビット数）で量子化して得られる高ビット出力信号の推定信号ｙ＾を得て出力する。

　［第２実施形態］
　次に第２実施形態を説明する。以降、既に説明した事項については同じ参照番号を引用して説明を簡略化する。出力ｈ（Ｘ）は上述の式（２）に限定されず、入力Ｘに畳み込み線形変換処理Ｗを施して得られる複数の要素に対応する列と、入力Ｘに畳み込み線形変換処理Ｖを施して得られる複数の要素に対応する列との要素ごとの積によって得られるものであればよい。第２実施形態では、入力Ｘに対するGated CNNとして式（２）に代えて以下の式（４）の処理を行う。

　第２実施形態の式（４）の第１実施形態の式（２）との違いは、第１項に活性化関数σを作用させないことであり、これによってＸは線形変換処理および振幅制御処理を経て出力される。式（４）の処理は入力Ｘに対する出力ｈ（Ｘ）の線形性が高いため、多層化し易い。

　図１Ａに例示するように、第２実施形態の学習装置２１は記憶部１１ａおよび学習部２１ｂを有する。図１Ｂに例示するように、第２実施形態の信号推定装置２２は記憶部１２ａおよびモデル適用部２２ｂを有する。

　＜学習処理＞
　図２に、本実施形態のニューラルネットワーク２００を例示する。このニューラルネットワーク２００のニューラルネットワーク１００との相違点は、入力層１１０－１、隠れ層１１０－２、および出力層１１０－３がそれぞれ、入力層２１０－１、隠れ層２１０－２、および出力層２１０－３に置換される点である。その他は第１実施形態で説明した通りである。

　図４に、ニューラルネットワーク２００の多層構造の各層２１０－ｉ（ただし、ｉ＝１，２，３）を例示する。図４に例示するように、入力Ｘに対する各層２１０－ｉの出力ｈ（Ｘ）は、上述の式（４）の処理によって得られる。図４の例では、層２１０－ｉの入力Ｘに対して畳み込み線形変換処理部１１１－ｉで畳み込み線形変換処理Ｗが適用されてＸ＊Ｗ＋ｂが得られる。また、層２１０－ｉの入力Ｘに対して畳み込み線形変換処理部１１３－ｉで畳み込み線形変換処理Ｖが適用されてＸ＊Ｖ＋ｃが得られ、さらに活性化関数部１１４－ｉでＸ＊Ｖ＋ｃに活性化関数σが適用されてσ（Ｘ＊Ｖ＋ｃ）が得られる。Ｘ＊Ｗ＋ｂおよびσ（Ｘ＊Ｖ＋ｃ）は乗算部１１５－ｉに入力され、乗算部１１５－ｉは式（４）に従って出力ｈ（Ｘ）を得て出力する。

　学習装置２１の学習部２１ｂ（図１Ａ）はニューラルネットワーク１００に代えてニューラルネットワーク２００の学習を行う。本実施形態の学習方法の詳細は、ニューラルネットワーク１００に代えてニューラルネットワーク２００が用いられる以外、第１実施形態で説明した通りである。

　＜信号推定処理＞
　信号推定装置２２のモデル適用部２２ｂ（図１Ｂ）は、ニューラルネットワーク１００に代えてニューラルネットワーク２００に低ビット入力信号ｘを入力し、高ビット出力信号の推定信号ｙ＾を得て出力する。本実施形態の信号推定処理の詳細は、ニューラルネットワーク１００に代えてニューラルネットワーク２００が用いられる以外、第１実施形態で説明した通りである。

　［第３実施形態］
　次に第３実施形態を説明する。入力Ｘに対するGated CNNに代えてゲート制御がより複雑な層を用いてもよい。例えば、入力Ｘに畳み込み線形変換処理Ｗ_Ｋを施して得られる複数の要素に対応する列Ｋと、入力Ｘに畳み込み線形変換処理Ｗ_Ｑを施して得られる複数の要素に対応する列Ｑとの積に対応する列Ａと、入力Ｘに畳み込み線形変換処理Ｗ_Ｖを施して得られる複数の要素に対応する列Ｖ’との積Ａ×Ｖ’を出力ｈ（Ｘ）としてもよい。本実施形態では、参考文献２のアテンション構造を用いた層を例示する。
　参考文献２：A. Vaswani, et al. "Attention is all you need," arXiv: 1706.03762, submitted on 12 Jun. 2017.

　図１Ａに例示するように、第３実施形態の学習装置３１は記憶部１１ａおよび学習部３１ｂを有する。図１Ｂに例示するように、第３実施形態の信号推定装置３２は記憶部１２ａおよびモデル適用部３２ｂを有する。

　＜学習処理＞
　図２に本実施形態のニューラルネットワーク３００を例示する。このニューラルネットワーク３００のニューラルネットワーク１００との相違点は、入力層１１０－１、隠れ層１１０－２、および出力層１１０－３がそれぞれ、入力層３１０－１、隠れ層３１０－２、および出力層３１０－３に置換される点である。その他は第１実施形態で説明した通りである。

　図５に、ニューラルネットワーク２００の多層構造の各層３１０－ｉ（ただし、ｉ＝１，２，３）を例示する。図５の例では、畳み込み線形変換処理部３１２－ｉで層３１０－ｉの入力Ｘに線形変換処理Ｗ_Ｋを適用してｋｅｙ　Ｋを得て出力する。同様に、畳み込み線形変換処理部３１３－ｉで当該入力Ｘに線形変換処理Ｗ_Ｑを適用してＱｕｅｒｙ　Ｑを得て出力する。同様に、畳み込み線形変換処理部３１１－ｉで当該入力Ｘに線形変換処理Ｗ_Ｖを適用してＶａｌｕｅ　Ｖ’を得て出力する。乗算部３１４－ｉはＱおよびＫを入力としてＱとＫを乗算してＱ×Ｋ^Ｔを得て出力する。ただし、・^Ｔは・の転置である。ソフトマックス処理部３１５－ｉはＱ×Ｋ^Ｔを入力として、Ｑ×Ｋ^Ｔにソフトマックス処理を施す（ソフトマックス関数を適用する）ことでアテンションＡを得て出力する。乗算部３１６－ｉは、Ｖ’およびＡを入力とし、このアテンションＡをＶ’に乗算することで最終的な出力ｈ（Ｘ）＝Ａ×Ｖ’を得る。Ｗ_ＫとＷ_Ｑおよびソフトマックス処理は、実施例１よりも複雑なゲートを構成し、Ｖ’の一部を注視し強調する働きがある。このようなアテンション構成をとることで、本来の入力信号の特性をより高ビット出力信号の推定に反映させることが可能となる。

　学習装置３１の学習部３１ｂ（図１Ａ）はニューラルネットワーク１００に代えてニューラルネットワーク３００の学習を行う。本実施形態の学習方法の詳細は、ニューラルネットワーク１００に代えてニューラルネットワーク３００が用いられる以外、第１実施形態で説明した通りである。

　＜信号推定処理＞
　信号推定装置３２のモデル適用部３２ｂ（図１Ｂ）は、ニューラルネットワーク１００に代えてニューラルネットワーク３００に低ビット入力信号ｘを入力し、高ビット出力信号の推定信号ｙ＾を得て出力する。本実施形態の信号推定処理の詳細は、ニューラルネットワーク１００に代えてニューラルネットワーク３００が用いられる以外、第１実施形態で説明した通りである。

　［検証実験］
　第１，３実施形態について検証実験を行った。ニューラルネットワークの学習処理には長さ３～５秒の音声２８０個を用い、信号推定処理および評価には別の長さ３～５秒の音声７０個を用いた。

　第１実施形態について、カーネルサイズ１７、４８チャネルのGated CNN８層からなるニューラルネットワークを用いた。１６ビット信号の有効ビットを８ビットに設定した場合について、入力信号ｘのsignal-to-distortion ratio (SDR)と第１実施形態の方法で得られる高ビット出力信号の推定信号ｙ＾のSDRを比較し、その改善量を次のように得た。

　第３実施形態について、カーネルサイズ１７、４８チャネルのアテンション構造４層からなるニューラルネットワークをもちいた。１６ビット信号の有効ビットを８ビットに設定した各場合について、入力信号のsignal-to-distortion ratio (SDR)と第３実施形態の方法で得られる高ビット出力信号の推定信号ｙ＾のSDRを比較し、その改善量を次のように得た。

　第１，３実施形態の何れの方法でも、ニューラルネットワークを用いることにより、SDRが改善することが確認された。

　［ハードウェア構成］
　各実施形態における学習装置１１，２１，３１および信号推定装置１２，２２，３２は、例えば、ＣＰＵ（central processing unit）等のプロセッサ（ハードウェア・プロセッサ）やＲＡＭ（random-access memory）・ＲＯＭ（read-only memory）等のメモリ等を備える汎用または専用のコンピュータが所定のプログラムを実行することで構成される装置である。このコンピュータは１個のプロセッサやメモリを備えていてもよいし、複数個のプロセッサやメモリを備えていてもよい。このプログラムはコンピュータにインストールされてもよいし、予めＲＯＭ等に記録されていてもよい。また、ＣＰＵのようにプログラムが読み込まれることで機能構成を実現する電子回路（circuitry）ではなく、単独で処理機能を実現する電子回路を用いて一部またはすべての処理部が構成されてもよい。また、１個の装置を構成する電子回路が複数のＣＰＵを含んでいてもよい。

　図６は、各実施形態における学習装置１１，２１，３１および信号推定装置１２，２２，３２のハードウェア構成を例示したブロック図である。図６に例示するように、この例の学習装置１１，２１，３１および信号推定装置１２，２２，３２は、ＣＰＵ（Central Processing Unit）１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ（Random Access Memory）１０ｄ、ＲＯＭ（Read Only Memory）１０ｅ、補助記憶装置１０ｆ及びバス１０ｇを有している。この例のＣＰＵ１０ａは、制御部１０ａａ、演算部１０ａｂ及びレジスタ１０ａｃを有し、レジスタ１０ａｃに読み込まれた各種プログラムに従って様々な演算処理を実行する。また、入力部１０ｂは、データが入力される入力端子、キーボード、マウス、タッチパネル等である。また、出力部１０ｃは、データが出力される出力端子、ディスプレイ、所定のプログラムを読み込んだＣＰＵ１０ａによって制御されるＬＡＮカード等である。また、ＲＡＭ１０ｄは、ＳＲＡＭ (Static Random Access Memory)、ＤＲＡＭ (Dynamic Random Access Memory)等であり、所定のプログラムが格納されるプログラム領域１０ｄａ及び各種データが格納されるデータ領域１０ｄｂを有している。また、補助記憶装置１０ｆは、例えば、ハードディスク、ＭＯ（Magneto-Optical disc）、半導体メモリ等であり、所定のプログラムが格納されるプログラム領域１０ｆａ及び各種データが格納されるデータ領域１０ｆｂを有している。また、バス１０ｇは、ＣＰＵ１０ａ、入力部１０ｂ、出力部１０ｃ、ＲＡＭ１０ｄ、ＲＯＭ１０ｅ及び補助記憶装置１０ｆを、情報のやり取りが可能なように接続する。ＣＰＵ１０ａは、読み込まれたＯＳ（Operating System）プログラムに従い、補助記憶装置１０ｆのプログラム領域１０ｆａに格納されているプログラムをＲＡＭ１０ｄのプログラム領域１０ｄａに書き込む。同様にＣＰＵ１０ａは、補助記憶装置１０ｆのデータ領域１０ｆｂに格納されている各種データを、ＲＡＭ１０ｄのデータ領域１０ｄｂに書き込む。そして、このプログラムやデータが書き込まれたＲＡＭ１０ｄ上のアドレスがＣＰＵ１０ａのレジスタ１０ａｃに格納される。ＣＰＵ１０ａの制御部１０ａｂは、レジスタ１０ａｃに格納されたこれらのアドレスを順次読み出し、読み出したアドレスが示すＲＡＭ１０ｄ上の領域からプログラムやデータを読み出し、そのプログラムが示す演算を演算部１０ａｂに順次実行させ、その演算結果をレジスタ１０ａｃに格納していく。このような構成により、学習装置１１，２１，３１および信号推定装置１２，２２，３２の機能構成が実現される。

　上述のプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体の例は非一時的な（non-transitory）記録媒体である。このような記録媒体の例は、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等である。

　このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ－ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。上述のように、このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるＡＳＰ（Application Service Provider）型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの（コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等）を含むものとする。

　各実施形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

　［その他の変形例］
　なお、本発明は上述の実施形態に限定されるものではない。例えば、ニューラルネットワークが持つ多層構造に含まれる全ての層構造が同一でなくてもよい。例えば、ニューラルネットワークが持つ多層構造が（１）ＣＮＮから構成される層と（２）Gated ＣＮＮから構成される層と（３）アテンション構造から構成される層のうち、互いに相違する２種類以上の層を含んでいてもよい。

　また、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。

１１，２１，３１　学習装置
１２，２２，３２　信号推定装置

Claims

　信号を第１量子化ビット数で量子化して得られる低ビット信号と、前記信号を前記第１量子化ビット数よりも大きな第２量子化ビット数で量子化して得られる高ビット信号と、を含む学習データを用い、
入力信号を前記第１量子化ビット数で量子化して得られる低ビット入力信号を入力とし、前記入力信号を前記第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を出力するニューラルネットワークを学習する学習ステップを有し、
　前記ニューラルネットワークは、入力層および出力層を含む多層構造を持ち、前記入力層に前記低ビット入力信号を入力した際に前記出力層から出力される信号と、前記低ビット入力信号と、を加算して得られる前記高ビット出力信号の推定信号を得て出力するものである、学習方法。
　請求項１の学習方法であって、
　前記ニューラルネットワークは、入力Ｘに対して出力ｈ（Ｘ）を得る層を含む多層構造を含み、
　前記出力ｈ（Ｘ）は、前記入力Ｘに畳み込み線形変換処理Ｗを施して得られる複数の要素に対応する列と、前記入力Ｘに畳み込み線形変換処理Ｖを施して得られる複数の要素に対応する列との要素ごとの積によって得られる、学習方法。
　請求項１の学習方法であって、
　前記ニューラルネットワークは、入力Ｘに対して出力ｈ（Ｘ）を得る層を含む多層構造を含み、
　前記出力ｈ（Ｘ）は、前記入力Ｘに畳み込み線形変換処理Ｗ_Ｋを施して得られる複数の要素に対応する列Ｋと、前記入力Ｘに畳み込み線形変換処理Ｗ_Ｑを施して得られる複数の要素に対応する列Ｑとの積に対応する列Ａと、前記入力Ｘに畳み込み線形変換処理Ｗ_Ｖを施して得られる複数の要素に対応する列Ｖ’との積Ａ×Ｖ’である、学習方法。
　入力信号を第１量子化ビット数で量子化して得られる低ビット入力信号を、請求項１から３の何れかの学習方法で学習された前記ニューラルネットワークに入力し、前記入力信号を前記第１量子化ビット数よりも大きな前記第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を得て出力するモデル適用ステップを有する、信号推定方法。
　信号を第１量子化ビット数で量子化して得られる低ビット信号と、前記信号を前記第１量子化ビット数よりも大きな第２量子化ビット数で量子化して得られる高ビット信号と、を含む学習データを用い、
入力信号を前記第１量子化ビット数で量子化して得られる低ビット入力信号を入力とし、前記入力信号を前記第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を出力するニューラルネットワークを学習する学習部を有し、
　前記ニューラルネットワークは、入力層および出力層を含む多層構造を持ち、前記入力層に前記低ビット入力信号を入力した際に前記出力層から出力される信号と、前記低ビット入力信号と、を加算して得られる前記高ビット出力信号の推定信号を得て出力するものである、学習装置。
　入力信号を第１量子化ビット数で量子化して得られる低ビット入力信号を、請求項１または２の学習方法で学習された前記ニューラルネットワークに入力し、前記入力信号を前記第１量子化ビット数よりも大きな第２量子化ビット数で量子化して得られる高ビット出力信号の推定信号を得て出力するモデル適用部を有する、信号推定装置。
　請求項１から３の何れかの学習方法、または請求項４の信号推定方法の処理をコンピュータに実行させるためのプログラム。