WO2022145232A1

WO2022145232A1 - 情報処理装置および情報処理方法、並びにプログラム

Info

Publication number: WO2022145232A1
Application number: PCT/JP2021/046271
Authority: WO
Inventors: 天海金
Original assignee: 天海金
Priority date: 2021-01-02
Filing date: 2021-12-15
Publication date: 2022-07-07
Also published as: JP2022105339A

Abstract

短時間での効果的な学習、試行錯誤的な更新率の調整の手間の回避、学習時間の予測、誤差の低減を実現することができる情報処理装置および情報処理方法を提供する。　ニューラルネットワークの各層について、重み値記憶手段４５に記憶された初期化後の重み値、および各層の出力に対する教師出力データを記憶する教師出力データ記憶手段４９に記憶された自層の出力に対する教師出力データを用いて、自層の出力の誤差Ｅｙについて、自層の入力側の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、自層の入力側の層の出力値を求め、求めた出力値を、自層の入力側の層の出力に対する教師出力データとして教師出力データ記憶手段４９に記憶させる教師出力データ生成手段３３Ｂを設け、情報処理装置１０を構成した。

Description

情報処理装置および情報処理方法、並びにプログラム

　本発明は、ニューラルネットワークの重み調整を含む情報処理を実行するコンピュータにより構成された情報処理装置および情報処理方法、並びにプログラムに係り、例えば、ネットワーク全体に対する教師データを用いてニューラルネットワークを構成する各層の重み値を調整決定する学習処理を実行する場合、あるいは、この学習処理で得られた重み値や、学習処理の実行過程で生成された、ネットワーク全体に対する教師データとは異なる教師データを抽出し、他のシステムでの利活用を図る場合等に利用できる。

　現存するニューラルネットワーク（以下、ＮＮと略記することがある。）の重み調整方法の殆どは繰り返し計算によるものである。繰り返し計算による手法としては、例えば、誤差逆伝播法、共役勾配法、ニュートン法、準ニュートン法、レーベンバーグ・マルカートアルゴリズム（Levenberg-Marquardt algorithm）等がある。

　一般に、ニューラルネットワークは、図３に示すような構成を備えている。このような構成は、本発明でも同様であり、図３の構成や符号は、本発明の説明でも使用する。図３の例では、ニューラルネットワークは、４つのニューロンａ（１）～ａ（４）を備えた入力層ａと、３つのニューロンｂ（１）～ｂ（３）を備えた中間層ｂと、４つのニューロンｃ（１）～ｃ（４）を備えた出力層ｃとにより構成されている。この例では、ネットワーク全体の層の数は、３層であるが、中間層ｂの数は複数でもよいので、ネットワーク全体では４層以上でもよい。各層のニューロン数も図示の例に限定されるものではない。このＮＮの入力層ａのａ（１）～ａ（４）に対し、Ｘ_a(1)～Ｘ_a(4)がそれぞれ入力されると、次の式（１）、式（２）、式（３）により、出力層ｃのｃ（１）～ｃ（４）から、Ｙ_c(1)～Ｙ_c(4)がそれぞれ出力される。

　Ｙ_a(i)＝Ｘ_a(i)　　　・・・・・・・・・・・・・・・・・・・・・（１）

　Ｙ_b(j)＝ｆ（Σ_iＷ_a(i)b(j)Ｙ_a(i)）　　　・・・・・・・・・・・・（２）

　Ｙ_c(k)＝ｆ（Σ_jＷ_b(j)c(k)Ｙ_b(j)）　　　・・・・・・・・・・・・（３）

　ここで、式（１）は、入力層ａの出力Ｙ_a(i)の計算式であり、ｉ＝１～４は、入力層ａのニューロンの番号であり、入力層ａのニューロン数をＭａとして一般化すると、ｉ＝１～Ｍａとなる。また、式（２）は、中間層ｂの出力Ｙ_b(j)の計算式であり、ｊ＝１～３は、中間層ｂのニューロンの番号であり、中間層ｂのニューロン数をＭｂとして一般化すると、ｊ＝１～Ｍｂとなる。Ｗ_a(i)b(j)は、中間層ｂの出力計算で用いられる重み値であり、入力層ａのｉ番目のニューロンから中間層ｂのｊ番目のニューロンへの重み値である。さらに、式（３）は、出力層ｃの出力Ｙ_c(k)の計算式であり、ｋ＝１～４は、出力層ｃのニューロンの番号であり、出力層ｃのニューロン数をＭｃとして一般化すると、ｋ＝１～Ｍｃとなる。Ｗ_b(j)c(k)は、出力層ｃの出力計算で用いられる重み値であり、中間層ｂのｊ番目のニューロンから出力層ｃのｋ番目のニューロンへの重み値である。そして、関数ｆは、活性化関数であり、一般にシグモイド関数等が用いられる。

　ニューラルネットワークの学習処理では、図３に示すように、ネットワーク全体に対し、Ｘ_a(1)～Ｘ_a(4)に対応する教師入力データと、Ｙ_c(1)～Ｙ_c(4)に対応する教師出力データＹｔ_c(1)～Ｙｔ_c(4)とからなる教師データセットを多数与えることで、重み値Ｗ_a(i)b(j)、Ｗ_b(j)c(k)を調整決定する。ｐ＝１～Ｍｐは、教師データセットの番号であり、Ｍｐは、与える教師データセットの数である。１つの教師データセットは、システム処理の観点から、本願では、教師データレコードまたは単にレコードと呼ぶことがある。これらの教師入力データＸ_a(1),p～Ｘ_a(4),pおよび教師出力データＹｔ_c(1),p～Ｙｔ_c(4),pは、すべてネットワーク全体に対する教師データ（teaching data）、すなわちＮＮの外部から与えられる教師データである。本発明では、教師データ（教師入力データ、教師出力データを含む。）という用語の概念は、ネットワーク全体に対する教師データ以外にも広がるが、この点は後述する。ＮＮが、予測モデルであれば、教師入力データＸ_a(1)～Ｘ_a(4)は、説明変数であり、教師出力データＹｔ_c(1)～Ｙｔ_c(4)は、目的変数であり、これらの説明変数および目的変数は、例えば、実社会で収集された実測データや実験データ等である。教師出力データＹｔ_c(1)～Ｙｔ_c(4)が理想出力とされているのは、ネットワーク全体の出力（すなわち、出力層ｃの出力）Ｙ_c(1)～Ｙ_c(4)を近づけたい値という意味である。

　また、ニューラルネットワークの出力層ｃの重み値を１度の計算処理で最適化する手法としては最小二乗法が知られている。最小二乗法を簡単に説明すると、次のようになる。

　Ｓ＝Σ_iＷ_iＹ_i＝Ｗ₁Ｙ₁＋Ｗ₂Ｙ₂＋Ｗ₃Ｙ₃＋Ｗ₄Ｙ₄＋…　　　・・・・（４）

　上記の式（４）は、Ｗ_iについての線形式である。最小二乗法は、この式（４）に対し、Ｙ_i（Ｙ₁，Ｙ₂，Ｙ₃，Ｙ₄，…）およびＳｔ（理想値）からなる多数（Ｍｐ個）の教師データセットが与えられたとき、パラメータＷ_i（Ｗ₁，Ｗ₂，Ｗ₃，Ｗ₄，…）の最適解を得る手法として用いることができる。最適解とは、式（４）に各Ｙ_ｉを代入して得られる出力値Ｓと、理想値Ｓｔとの残差の２乗和として定めた次の式（５）による誤差Ｅを最小にするパラメータＷ_iの解である。ここで、教師データセット数は、Ｍｐであるため、ｐ＝１～Ｍｐを用いて、各Ｙ_iはＹ_i,pとし、出力値ＳはＳ_pとし、理想値ＳｔはＳｔ_pとする。

　Ｅ＝Σ_p（Ｓｔ_p－Ｓ_p）^２＝Σ_p（Ｓｔ_p－Σ_iＷ_iＹ_i,p）²　　　・・・・（５）

　なお、最小二乗法は、ばらつきのある多数の測定値にモデル関数（理論式）を当て嵌めて解析する場合のフィッティング手法として広く用いられているが、この際、測定値と、モデル関数で計算される理論値との残差の２乗和として定めた誤差Ｅを最小にするモデル関数のパラメータを求める。このような解析を行う場合のモデル関数（理論式）は、前述した式（４）に相当し、測定値は、式（４）に与える教師データとしての理想値Ｓｔ（Ｍｐ個のＳｔ）に相当し、モデル関数で計算される理論値は、式（４）に各Ｙ_iを代入して得られる出力値Ｓ（Ｍｐ個のＳ）に相当する。従って、本願の説明では、「理想値」という用語は、上記の解析用のフィッティングにおける「理論値」とは異なる立場（逆の立場）の用語として用いている。

　また、最小二乗法は、最小にしようとする誤差の発生元となる計算式（この計算式は、誤差を定義する式のことではなく、誤差を定義する式の中に入っている式、すなわちフィッティングに用いるモデル関数に相当する式のことである。）が、パラメータに関して線形であれば、線形最小二乗法であり、パラメータに関して非線形であれば、非線形最小二乗法である。前述した式（４）は、各パラメータＷ_i（Ｗ₁，Ｗ₂，Ｗ₃，Ｗ₄，…）の１次結合で表わされているので、前述した式（５）で定めた誤差Ｅを最小にするパラメータＷ_iの最適解を得る最適化処理は、線形最小二乗法による最適化処理である。最小二乗法の線形・非線形の区別については、Ｙ_i（Ｙ₁，Ｙ₂，Ｙ₃，Ｙ₄，…）に関して線形であるか否かは関係ないので、最小にしようとする誤差の発生元の計算式（前述した式（４）に相当する計算式）が、例えば、Ｙ_iの高次関数、正弦（ｓｉｎ）関数、余弦（ｃｏｓ）関数、指数関数、対数関数等を含む複雑な計算式であっても、各パラメータＷ_i（Ｗ₁，Ｗ₂，Ｗ₃，Ｗ₄，…）に関して線形であれば、線形最小二乗法である。なお、統計学における回帰分析では、Ｙ_iに関して非線形となっている計算式を当て嵌める場合は、非線形回帰分析と呼ばれるので、最小二乗法の線形・非線形の定義とは異なっている。本発明では、最小二乗法を適用する場合は、線形最小二乗法、非線形最小二乗法のいずれを適用することもでき、また、最小にしようとする誤差は、必ずしも二乗和誤差として定義する必要はないので、誤差を最小にする最適化処理は、最小二乗法以外の方法による最適化処理でもよく、さらに、同様の計算式においてパラメータを入れ替えて最適化処理を実行するが（すなわち、Ｙ_iがパラメータになる処理と、Ｗ_iがパラメータになる処理とがあるが）、これらの詳細については後述し、ここでは用語の定義と説明に留めるものとする。

　また、本発明は、ニューラルネットワークに関する技術であるが、ニューラルネットワークの応用技術としては、ニューラルネットワークに画像処理方法を訓練させる方法が知られている（特許文献１参照）。しかし、この方法は、ニューラルネットワークを１つのパッケージとして、そのパッケージを複数組み合わせる組み合わせ方法であるから、ニューラルネットワーク内部の計算処理方法に関する本発明とは発明の分野が異なるものである。

　また、ニューラルネットワーク内部の計算処理に言及している文献として、ニューラルネットワークの新しい訓練方法について記述した文献が知られている（特許文献２参照）。しかし、訓練には繰り返し計算（イタレーション）を用いているので、繰り返し計算を必要としない本発明とは異なる。また、この文献では、「最適化層」を導入することで、特定の層で情報の最適化を行う手法を提案しているが、全ての層で重み値の最適化を実行することができる本発明とは異なる。

　さらに、ニューラルネットワーク内部の計算処理に関する技術として、ニューラルネットワークのハイパーパラメータ（更新率を含む）を調整する手法が知られている（特許文献３参照）。しかし、この手法は、ニューラルネットワークが繰り返し計算を行うことを前提としているので、繰り返し計算や更新率を使わずにニューラルネットワークの重み値を調整できる本発明とは異なる。

　また、その他にも、ニューラルネットワーク内部の計算処理に言及しているが、繰り返し計算を前提としている文献が知られている（特許文献４、非特許文献１，２参照）。いずれも繰り返し計算を前提としているので、繰り返し計算を用いることなく学習処理を行うことができる本発明とは異なる。

　さらに、ニューラルネットワーク全体の訓練データを生成するための手法として、修正教師データを作成する手法（特許文献５参照）、類似画像の生成を通じて画像処理用ニューラルネットワークへの訓練データを生成する手法（特許文献６参照）が知られている。しかし、これらの手法では、生成される訓練データは中間層を個別に訓練するためのものではないため、生成する訓練データの用途が本発明とは異なる。

　また、教師データレコードを１レコードのみに限定したうえで効果的な学習を行う学習の枠組み全般を指す「ワンショットラーニング」という用語があるが、具体的な学習手法を定義する用語ではなく、学習時間や学習効果の向上を図る本発明とは、内容が異なるものである。

特開２０２０－１９８０９８号公報特開２０２０－１９１０８８号公報特開２０２０－１９１０１７号公報特表２０２０－５３１９６８号公報特開２０２０－１３５１４１号公報特開２０１９－４６２６９号公報

Martin Riedmiller and Heinrich Braun, "A Direct Adaptive Method for Faster Backpropagation Learning: The RPROP Algorithm," IEEE Conf. on Neural Networks, (1993) Yunlong Yu and Fuxian Liu, "Effective Neural Network Training With a New Weighting Mechanism-Based Optimization Algorithm," IEEE Access, (2019)

　前述した従来の誤差逆伝播法等による繰り返し計算を行うニューラルネットワークの学習処理では、学習時間が長時間になる、繰り返し計算で必要となる更新率を試行錯誤的に調整するので手間がかかる、学習に要する時間が繰り返し数に依存するので必要な時間数を予め見積もることが困難であるといった問題があった。

　また、既存の学習方法では、ｆ（ｘ）＝ｘ²等といった特定の活性化関数を用いた場合、重み調整を行ってもニューラルネットワークの出力値に大きな誤差が生じるという問題もあった。

　さらに、前述したように、ニューラルネットワークの出力層ｃの重み値を１度の計算処理で最適化する手法としては最小二乗法が知られている。しかし、中間層ｂの重み値を最適化することができない。仮に、出力層ｃの重み値と、中間層ｂの重み値（複数の中間層ｂがある場合には、全ての中間層ｂの重み値）とを、最小二乗法による同じアルゴリズムで求めるとすると、前述した式（４）および式（５）を用いた説明の如く、各層において、式（４）に相当する計算式（各層の出力計算式に含まれる活性化関数ｆ（…）のカッコ内に記載された計算式、すなわち活性化関数へ入力する値を計算する計算式であり、以下、「活性化関数入力値計算式」という。）に対し、最小二乗法を適用することになる。従って、各層について、活性化関数入力値計算式を学習するための多数の教師データセット（教師入力データおよび教師出力データ）が必要となる。ここで、出力層ｃの重み値とは、中間層ｂのｊ番目のニューロンから出力層ｃのｋ番目のニューロンへの重み値Ｗ_b(j)c(k)のことであり、中間層ｂの重み値とは、入力層ａのｉ番目のニューロンから中間層ｂのｊ番目のニューロンへの重み値Ｗ_a(i)b(j)、または複数の中間層ｂ（ｂ１，ｂ２）がある場合には、自層の入力側の中間層ｂ１のニューロンから自層である中間層ｂ２のニューロンへの重み値Ｗ_b1(i)b2(j)のことである。

　ところが、図３のようにネットワーク全体（ＮＮ全体）に対する教師データが与えられても、各層について必要な教師データセット（教師入力データおよび教師出力データ）の全てが得られるわけではない。すなわち、ＮＮ全体に対する教師入力データは、入力層ａへの入力Ｘ_a(i)となるので、前述した式（１）に代入すれば、入力層ａから２番目の層である中間層ｂへの教師入力データＹ_a(i)を得ることができる。しかし、３番目以降の層である中間層ｂや出力層ｃへの教師入力データを得ることはできない。また、ＮＮ全体に対する教師出力データＹｔ_c(k)（図３参照）は、出力層ｃの出力Ｙ_c(k)に対する教師出力データとして与えられるが、このＹｔ_c(k)を前述した式（３）の活性化関数ｆの逆関数ｆ^-1に入力し、ｆ^-1（Ｙｔ_c(k)）とすれば、このｆ^-1（Ｙｔ_c(k)）は、出力層ｃの出力計算式である式（３）に含まれる活性化関数入力値計算式（Σ_jＷ_b(j)c(k)Ｙ_b(j)）に対する教師出力データとなる。しかし、中間層ｂの出力計算式に含まれる活性化関数入力値計算式に対する教師出力データを得ることはできない。ここで、中間層ｂの出力計算式に含まれる活性化関数入力値計算式は、前述した式（２）に含まれるΣ_iＷ_a(i)b(j)Ｙ_a(i)、または複数の中間層ｂ（ｂ１，ｂ２）がある場合におけるΣ_iＷ_b1(i)b2(j)Ｙ_b1(i)であり、これらに対する教師出力データが得られない。

　以上より、出力層ｃの重み値および全ての中間層ｂの重み値について、最小二乗法による最適化処理を行って最適解を得ることは困難であった。

　本発明の目的は、短時間での効果的な学習、試行錯誤的な更新率の調整の手間の回避、学習時間の予測、誤差の低減を実現することができる情報処理装置および情報処理方法、並びにプログラムを提供するところにある。

　＜情報処理装置の発明＞

　本発明は、ニューラルネットワークによる重み調整を含む情報処理を実行するコンピュータにより構成された情報処理装置であって、
　ニューラルネットワークを構成する各層の重み値を記憶する重み値記憶手段と、
　ネットワーク全体に対する教師データセットのうちの出力層の出力に対する教師出力データを含む各層の出力に対する教師出力データを記憶する教師出力データ記憶手段と、
　各層について、重み値記憶手段に記憶された初期化後の重み値、および教師出力データ記憶手段に記憶された自層の出力に対する教師出力データを用いて、自層の入力側の層の出力に対する教師出力データを生成し、生成した入力側の層の出力に対する教師出力データを教師出力データ記憶手段に記憶させる教師出力データ生成処理を実行する教師出力データ生成手段とを備え、
　この教師出力データ生成手段は、
　ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、出力層の番号をＮで示したとき、ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら、
　教師出力データ記憶手段に記憶されたｎ番目の層の出力に対する教師出力データと、重み値記憶手段に記憶された初期化後の重み値のうちの（ｎ－１）番目の層からｎ番目の層への重み値とを用いて、
　（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｙについて、（ｎ－１）番目の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層の出力値を求め、求めた（ｎ－１）番目の層の出力値を、（ｎ－１）番目の層の出力に対する教師出力データとして教師出力データ記憶手段に記憶させる処理を実行する構成とされている
　ことを特徴とするものである。

　ここで、「初期化後の重み値」には、乱数等により自動生成された重み値、稼働中のシステムの更新前の重み値、同一または類似のネットワーク構成を有するシステムで使用されているか若しくは使用されていた重み値、あるいはこれらの組合せ等が含まれる。

　また、「ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら」の「ｎ＝３まで」とは、（ｎ－１）番目の層が２番目の層になるまでという意味であり、２番目の層の出力に対する教師出力データまで求める趣旨である。

　さらに、「誤差Ｅｙ」は、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式による計算値と、ｎ番目の層の出力に対する教師出力データとを用いて定めた誤差Ｅｙでもよく、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データを活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｙでもよい。

　このような本発明の情報処理装置においては、教師出力データ生成手段を備えているので、ニューラルネットワークの全ての中間層の出力に対する教師出力データを生成することができるため、ネットワーク全体に対する教師データセットとして与えられる出力層の出力に対する教師出力データと合わせ、ニューラルネットワークの各層の出力に対する教師出力データが得られる。なお、前述した式（１）に示すように入力層には重み値はないので、入力層の出力に対する教師出力データは必要ない。

　この際、教師出力データ生成手段は、初期化後の重み値を固定した状態で、各層について、層毎に独立した最適化処理により、各層の出力に対する教師出力データを生成するので、教師出力データの生成にあたり、繰り返し計算を全く行う必要がないか、または、繰り返し計算を行ったとしても、層毎に独立した最適化処理での局所的な繰り返し計算（各層内の計算処理において、ニューロン毎に計算単位を分割できる場合もある。）となる。

　また、教師出力データ生成手段により各層の出力に対する教師出力データが得られるので、得られた各層の出力に対する教師出力データを用いて、各層について、層毎に独立した最適化処理により各層の重み値を調整決定することが可能となる。このため、重み値を調整決定する場面でも、繰り返し計算を全く行う必要がなくなるか、または、繰り返し計算を行ったとしても、層毎に独立した最適化処理での局所的な繰り返し計算（各層内の計算処理において、ニューロン毎に計算単位を分割できる場合もある。）となる。

　従って、教師出力データ生成手段により各層の出力に対する教師出力データを生成する場面、あるいは、得られた教師出力データを用いて各層の重み値を調整決定する場面の双方について、繰り返し計算を全く行う必要がなくなるか、または、層内に留まる局所的な繰り返し計算（ニューロン毎に計算単位を分割できる場合もある。）で済むようになる。このため、従来の誤差逆伝播法等のようなネットワーク全体に渡る繰り返し計算を行う必要はないので、従来に比べ、短時間での効果的な学習が可能となる。

　但し、ここでは、説明の便宜上、得られた教師出力データを用いて重み値を調整決定する場面に言及しているが、得られた教師出力データの外部での利活用を前提とすれば、本発明の情報処理装置は、必ずしも重み値の調整決定まで実行する構成とする必要はなく、教師出力データの生成までで処理を終了する装置としてもよい。この場合でも、本発明の情報処理装置は、教師出力データ生成処理を短時間で完了させることができ、また、本発明の情報処理装置で生成した教師出力データを外部のシステムで利用すれば、外部のシステムにおいて、短時間での効果的な重み値の調整決定処理を実現することができる。

　また、繰り返し計算を行う場合は、繰り返し計算で必要となる更新率を試行錯誤しながら調整する手間がかかるが、本発明では、少なくともネットワーク全体に渡って行われる繰り返し計算で必要となる更新率について、その値を試行錯誤しながら調整する手間を回避することが可能となるので、学習時の作業者の手間が軽減される。

　さらに、少なくともネットワーク全体に渡って行われる繰り返し計算を回避することができるので、学習に要する時間が繰り返し数に全く依存しないか、または依存したとしても層毎の局所的な繰り返し計算（ニューロン毎に計算単位を分割できる場合もある。）での繰り返し数に依存するだけとなる。このため、学習に必要な時間数を予め見積もり易くなる。

　また、既存の学習方法では、ｆ（ｘ）＝ｘ²等といった特定の活性化関数を用いた場合、重み調整を行ってもニューラルネットワークの出力値に大きな誤差が生じるという問題があったが、本発明では、全ての層を層毎の最適化処理で学習することが可能であるため、活性化関数の種類によらずに誤差を低減することが可能となる。

　さらに、生成した教師出力データは、ニューラルネットワークの外部に抽出し、インターネット等の通信回線、またはＤＶＤやＵＳＢメモリ等の記録媒体により流通させることが可能であるため、各種システムを構成するニューラルネットワークの構築に利用することができ、これらにより前記目的が達成される。

　（教師出力データ生成手段により最小二乗法による最適化処理を実行する構成）
　また、前述した情報処理装置において、
　教師出力データ生成手段は、
　誤差Ｅｙを、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値との差の二乗和を含む式で定め、この二乗和による誤差Ｅｙを、パラメータとしての（ｎ－１）番目の層の出力値で偏微分した式をゼロと置くことにより、二乗和による誤差Ｅｙを最小にするパラメータを求める最小二乗法による最適化処理を実行する構成とされていることが望ましい。

　ここで、「最小二乗法」は、線形最小二乗法でも、非線形最小二乗法でもよい。すなわち、「（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式」またはこの計算式に活性化関数が含まれる場合の「活性化関数入力値計算式」が、パラメータ（ここでは、重み値ではなく、出力値がパラメータとなっている。）について1次結合で表されている場合は、線形最小二乗法であり、それ以外の場合は、非線形最小二乗法である。

　このように最小二乗法による最適化処理を行う構成とした場合には、最適解またはそれに近い解を求める式が簡易な式になり、計算時間が短くなる。特に、前述した式（２）、式（３）のように、各層の出力の計算式が、自層の入力側の層の出力値の重み付き和Ｓを含む式である場合には、パラメータ（ここでは、出力値）について１次結合となるので、線形最小二乗法による最適化処理となることから、最適解を求める式が、より簡易になり、計算時間が、より短くなるとともに、誤差も小さくなる。

　（教師出力データ生成手段により教師出力データ正規化処理を実行する構成）
　さらに、前述した情報処理装置において、
　教師出力データ生成手段は、
　最適化処理を実行する前に、教師出力データ記憶手段に記憶された教師出力データのうち、最適化処理を実行する処理対象層の各ニューロンからの出力に対する全ての教師出力データが、処理対象層の活性化関数の出力可能な範囲に収まるようにすることを前提として、
　処理対象層の各ニューロンからの出力に対する全ての教師出力データを、これらの全ての教師出力データのうちの最大絶対値で除することにより、全ての教師出力データを－１から１までの範囲内にするか、
　または、処理対象層の各ニューロンからの出力に対する全ての教師出力データの絶対値が、これらの教師出力データに適用する実数型データのフォーマットに応じて予め定めた閾値内に収まるように、全ての教師出力データを同一の値で除する教師出力データ正規化処理を実行する構成とされていることが望ましい。

　このように教師出力データ生成手段により教師出力データ正規化処理を実行する構成とした場合には、最適化処理を実行する際に、逆行列の計算を安定させることができる。すなわち、逆行列の計算時に、大きな値の教師出力データが与えられると、計算に失敗することがあるが、そのような事態を回避することができる。

　（重み値最適化手段を備えた構成）
　以上に述べた情報処理装置において、
　ネットワーク全体に対する教師データセットのうちの入力層への入力に対する教師入力データを含む各層への入力に対する教師入力データを記憶する教師入力データ記憶手段と、
　各層について、教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データ、および教師出力データ記憶手段に記憶にされた自層の出力に対する教師出力データを用いて、自層の入力側の層から自層への重み値を調整決定し、決定した重み値を重み値記憶手段に記憶させる重み値最適化処理を実行し、その後、この重み値最適化処理により決定した自層の入力側の層から自層への重み値、および教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして教師入力データ記憶手段に記憶させる教師入力データ生成処理を実行する重み値最適化手段とを備え、
　この重み値最適化手段は、
　ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、自層の出力側の層の番号を（ｎ＋１）、出力層の番号をＮで示したとき、ｎ＝２からｎを１ずつ増やしながら、
　重み値最適化処理として、
　教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データ、および教師出力データ記憶手段に記憶にされたｎ番目の層の出力に対する教師出力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｗについて、（ｎ－１）番目の層からｎ番目の層への重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層からｎ番目の層への重み値を求め、求めた重み値を重み値記憶手段に記憶させる処理を実行し、
　その後、教師入力データ生成処理として、
　重み値最適化処理により決定した（ｎ－１）番目の層からｎ番目の層への重み値、および教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に、（ｎ－１）番目の層からｎ番目の層への教師入力データを入力することにより、ｎ番目の層の出力値を算出し、算出したｎ番目の層の出力値を、（ｎ＋１）番目の層への教師入力データとして教師入力データ記憶手段に記憶させる処理を実行する構成とされていることが望ましい。

　ここで、「ｎ＝２からｎを１ずつ増やしながら」として、処理を終了する層を定めていないのは、必ずしもｎ＝２からｎ＝Ｎまでの全ての処理を実行する必要はなく、途中の層までの処理としてもよい趣旨である。例えば、中間層の出力を抽出し、他のシステムで利用する場合には、重み値最適化処理は、必ずしもｎ＝２からｎ＝Ｎまでの全てについて実行する必要はなく、途中の層までの処理としてもよく、これに合わせ、教師入力データ生成処理も、途中の層までの処理としてもよい。

　なお、重み値最適化処理は、ニューラルネットワークの全ての層の重み値を調整決定する場合には、ｎ＝２からｎ＝Ｎまでｎを１ずつ増やしながら実行する。一方、教師入力データ生成処理は、ｎ＝２からｎ＝Ｎまでｎを１ずつ増やしながら実行すると、最後のｎ＝Ｎの処理（出力層の処理）では、存在しない（Ｎ＋１）番目の層への教師入力データを生成することになるので、この生成を回避するため、通常は、ｎ＝２からｎ＝（Ｎ－１）までｎを１ずつ増やしながら実行すればよい。

　このように重み値最適化手段を備えた構成とした場合には、出力層および全ての中間層の重み値を、層毎に独立した局所的な最適化処理（ニューロン毎に計算単位を分割できる場合もある。）で求めることができる。このため、前述したように、短時間での効果的な学習、試行錯誤的な更新率の調整の手間の回避、学習時間の予測、誤差の低減を実現することができる。

　（重み値最適化手段により最小二乗法による最適化処理を実行する構成）
　また、上述した重み値最適化手段を備えた構成とした場合において、
　重み値最適化手段は、
　重み値最適化処理として、誤差Ｅｗを、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値との差の二乗和を含む式で定め、この二乗和による誤差Ｅｗを、パラメータとしての（ｎ－１）番目の層からｎ番目の層への重み値で偏微分した式をゼロと置くことにより、二乗和による誤差Ｅｗを最小にするパラメータを求める最小二乗法による最適化処理を実行する構成とされていることが望ましい。

　ここで、「最小二乗法」は、線形最小二乗法でも、非線形最小二乗法でもよい。すなわち、「（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式」またはこの計算式に活性化関数が含まれる場合の「活性化関数入力値計算式」が、パラメータ（ここでは、出力値ではなく、重み値がパラメータとなっている。）について1次結合で表されている場合は、線形最小二乗法であり、それ以外の場合は、非線形最小二乗法である。

　このように最小二乗法による最適化処理を行う構成とした場合には、最適解またはそれに近い解を求める式が簡易な式になり、計算時間が短くなる。特に、前述した式（２）、式（３）のように、各層の出力の計算式が、自層の入力側の層の出力値の重み付き和Ｓを含む式である場合には、パラメータ（ここでは、重み値）について１次結合となるので、線形最小二乗法による最適化処理となることから、最適解を求める式が、より簡易になり、計算時間が、より短くなるとともに、誤差も小さくなる。

　＜情報処理方法の発明＞

　また、以下に述べる本発明の情報処理方法では、以上に述べた本発明の情報処理装置で得られる作用・効果がそのまま得られ、これにより前記目的が達成される。

　すなわち、本発明は、ニューラルネットワークによる重み調整を含む情報処理をコンピュータにより実行する情報処理方法であって、
　ニューラルネットワークを構成する各層の重み値を記憶する重み値記憶手段と、
　ネットワーク全体に対する教師データセットのうちの出力層の出力に対する教師出力データを含む各層の出力に対する教師出力データを記憶する教師出力データ記憶手段とを設けておき、
　教師出力データ生成手段が、各層について、重み値記憶手段に記憶された初期化後の重み値、および教師出力データ記憶手段に記憶された自層の出力に対する教師出力データを用いて、自層の入力側の層の出力に対する教師出力データを生成し、生成した入力側の層の出力に対する教師出力データを教師出力データ記憶手段に記憶させる教師出力データ生成処理を実行し、
　この際、教師出力データ生成手段は、
　ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、出力層の番号をＮで示したとき、ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら、
　教師出力データ記憶手段に記憶されたｎ番目の層の出力に対する教師出力データと、重み値記憶手段に記憶された初期化後の重み値のうちの（ｎ－１）番目の層からｎ番目の層への重み値とを用いて、
　（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｙについて、（ｎ－１）番目の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層の出力値を求め、求めた（ｎ－１）番目の層の出力値を、（ｎ－１）番目の層の出力に対する教師出力データとして教師出力データ記憶手段に記憶させる処理を実行する
　ことを特徴とするものである。

　ここで、教師出力データ生成手段が、最小二乗法による最適化処理や、教師出力データ正規化処理を実行してもよいのは、前述した情報処理装置の場合と同様である。

　（重み値最適化手段が、重み値最適化処理、教師入力データ生成処理を実行する場合）
　また、上述した情報処理方法において、
　ネットワーク全体に対する教師データセットのうちの入力層への入力に対する教師入力データを含む各層への入力に対する教師入力データを記憶する教師入力データ記憶手段を設けておき、
　重み値最適化手段が、各層について、教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データ、および教師出力データ記憶手段に記憶にされた自層の出力に対する教師出力データを用いて、自層の入力側の層から自層への重み値を調整決定し、決定した重み値を重み値記憶手段に記憶させる重み値最適化処理を実行し、その後、この重み値最適化処理により決定した自層の入力側の層から自層への重み値、および教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして教師入力データ記憶手段に記憶させる教師入力データ生成処理を実行し、
　この際、重み値最適化手段は、
　ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、自層の出力側の層の番号を（ｎ＋１）、出力層の番号をＮで示したとき、ｎ＝２からｎを１ずつ増やしながら、
　重み値最適化処理として、
　教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データ、および教師出力データ記憶手段に記憶にされたｎ番目の層の出力に対する教師出力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｗについて、（ｎ－１）番目の層からｎ番目の層への重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層からｎ番目の層への重み値を求め、求めた重み値を重み値記憶手段に記憶させる処理を実行し、
　その後、教師入力データ生成処理として、
　重み値最適化処理により決定した（ｎ－１）番目の層からｎ番目の層への重み値、および教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に、（ｎ－１）番目の層からｎ番目の層への教師入力データを入力することにより、ｎ番目の層の出力値を算出し、算出したｎ番目の層の出力値を、（ｎ＋１）番目の層への教師入力データとして教師入力データ記憶手段に記憶させる処理を実行することが望ましい。

　ここで、重み値最適化手段が、最小二乗法による最適化処理を実行してもよいのは、前述した情報処理装置の場合と同様である。

　＜プログラムの発明＞

　また、本発明のプログラムは、以上に述べた情報処理装置として、コンピュータを機能させるためのものである。

　なお、上記のプログラムまたはその一部は、例えば、光磁気ディスク（ＭＯ）、コンパクトディスク（ＣＤ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、フレキシブルディスク（ＦＤ）、磁気テープ、読出し専用メモリ（ＲＯＭ）、電気的消去および書換可能な読出し専用メモリ（ＥＥＰＲＯＭ）、フラッシュ・メモリ、ランダム・アクセス・メモリ（ＲＡＭ）、ハードディスクドライブ（ＨＤＤ）、ソリッドステートドライブ（ＳＳＤ）、フラッシュディスク等の記録媒体に記録して保存や流通等させることが可能であるとともに、例えば、ＬＡＮ、ＭＡＮ、ＷＡＮ、インターネット、イントラネット、エクストラネット等の有線ネットワーク、あるいは無線通信ネットワーク、さらにはこれらの組合せ等の伝送媒体を用いて伝送することが可能であり、また、搬送波に載せて搬送することも可能である。さらに、上記のプログラムは、他のプログラムの一部分であってもよく、あるいは別個のプログラムと共に記録媒体に記録されていてもよい。

　＜本発明の情報処理装置を別の表現で記述した場合＞

　本発明の情報処理装置を別の表現で記述すると、次のようになる。
　すなわち、本発明は、ニューラルネットワークによる重み調整を含む情報処理を実行するコンピュータにより構成された情報処理装置であって、
　ニューラルネットワークを構成する各層の重み値を記憶する重み値記憶手段と、
　ネットワーク全体に対する教師データセットのうちの出力層の出力に対する教師出力データを含む各層の出力に対する教師出力データを記憶する教師出力データ記憶手段と、
　各層について、重み値記憶手段に記憶された初期化後の重み値、および教師出力データ記憶手段に記憶された自層の出力に対する教師出力データを用いて、自層の重み値および自層の入力側の層の出力値、並びに自層の出力に対する教師出力データを含む式で定められた自層の出力の誤差Ｅｙについて、自層の入力側の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として自層の入力側の層の出力値を求め、求めた出力値を、自層の入力側の層の出力に対する教師出力データとして教師出力データ記憶手段に記憶させる教師出力データ生成処理を実行する教師出力データ生成手段と
　を備えたことを特徴とするものである。

　（重み値最適化手段を備えた構成）
　上述した情報処理装置において、
　ネットワーク全体に対する教師データセットのうちの入力層への入力に対する教師入力データを含む各層への入力に対する教師入力データを記憶する教師入力データ記憶手段と、
　各層について、教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データ、および教師出力データ記憶手段に記憶にされた自層の出力に対する教師出力データを用いて、自層の重み値および自層の入力側の層の出力値、並びに自層の出力に対する教師出力データを含む式で定められた自層の出力の誤差Ｅｗについて、自層の重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として自層の重み値を求め、求めた重み値を重み値記憶手段に記憶させる重み値最適化処理を実行し、その後、この重み値最適化処理により求めた自層の重み値、および教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力の計算式により自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして教師入力データ記憶手段に記憶させる教師入力データ生成処理を実行する重み値最適化手段と
　を備えた構成とすることが望ましい。

　以上に述べたように本発明によれば、全ての中間層の出力に対する教師出力データを生成することができるので、ネットワーク全体に対する教師データセットとして与えられる出力層の出力に対する教師出力データと合わせ、出力層および全ての中間層について教師データセットが得られることから、層毎に独立した最適化処理により各層の重み値を調整決定することが可能となり、短時間での効果的な学習、試行錯誤的な更新率の調整の手間の回避、学習時間の予測、誤差の低減を実現することができるという効果がある。

本発明の一実施形態の情報処理装置の全体構成図。前記実施形態の情報処理装置のハードウェア構成図。前記実施形態のニューラルネットワークおよび取得教師データ記憶手段の構成図。前記実施形態のネットワーク構成情報記憶手段の構成図。前記実施形態のｎ番目の層の識別情報に関連付けられた変数、値の形式、および初期化方法を示す図。前記実施形態の教師出力データ生成処理の説明図。前記実施形態の教師出力データ生成処理の別の説明図。前記実施形態の重み値最適化処理の説明図。前記実施形態の重み値最適化処理の別の説明図。前記実施形態の教師入力データ生成処理の説明図。前記実施形態のニューラルネットワークの学習の全体的な流れを示すフローチャートの図。前記実施形態の学習手段によるニューラルネットワークの学習処理の流れを示すフローチャートの図。実験例１で本発明を用いて学習させる関数を示す図。実験例１でネットワーク構成情報記憶手段に記憶させたネットワーク構成情報を示す図。実験例１の結果（計算時間）を示す図。実験例１の誤差逆伝播法の誤差を示す図。実験例２でネットワーク構成情報記憶手段に記憶させたネットワーク構成情報を示す図。実験例２の結果（計算時間）を示す図。実験例３のデータセットを示す図。実験例３のネットワーク構造を示す図。実験例３の結果（学習時間［ｍｓ］）を示す図。実験例３の結果（絶対値誤差）を示す図。実験例３の結果（絶対値誤差）を示す別の図。本発明の変形の形態であるＣＮＮの畳み込み層の処理の説明図。前記変形の形態であるＣＮＮの教師出力データ生成処理の説明図。前記変形の形態であるＣＮＮの重み値最適化処理の説明図。本発明の別の変形の形態であるネットワークの分岐の説明図。

　以下に本発明の一実施形態について図面を参照して説明する。図１には、本実施形態の情報処理装置１０の全体構成が示され、図２には、情報処理装置１０のハードウェア構成が示されている。また、図３は、ニューラルネットワークおよび取得教師データ記憶手段４３の構成図であり、図４は、ネットワーク構成情報記憶手段４２の構成図であり、図５には、ｎ番目の層の識別情報に関連付けられた変数、当該変数の値の形式、および初期化方法が示されている。さらに、図６および図７は、教師出力データ生成手段３３Ｂによる教師出力データ生成処理の説明図であり、図８および図９は、重み値最適化手段３３Ｄによる重み値最適化処理の説明図であり、図１０は、重み値最適化手段３３Ｄによる教師入力データ生成処理の説明図である。また、図１１には、ニューラルネットワークの学習の全体的な流れがフローチャートで示され、図１２には、学習手段３３によるニューラルネットワークの学習処理の流れがフローチャートで示されている。

　＜情報処理装置１０の全体構成＞

　図１において、情報処理装置１０は、コンピュータにより構成された装置本体２０と、液晶ディスプレイ等の表示装置６０と、マウスやキーボード等の入力装置７０とを備えている。また、情報処理装置１０には、インターネットやＬＡＮ等の通信回線１（有線、無線を問わない。）を介して、情報処理装置１０の管理者に対して作業を依頼する依頼者が操作する依頼者端末（または依頼者が管理するシステム）８０が接続されている。

　装置本体２０は、ニューラルネットワークの学習に関する各種処理を実行する処理手段３０と、各種処理の実行に必要な各種データを記憶する記憶手段４０とを備えている。装置本体２０を構成するコンピュータは、主としてパーソナルコンピュータ（デスクトップコンピュータ、ラップトップコンピュータを含む。）であるが、ハンドヘルドコンピュータやタブレット端末等の携帯機器でもよく、また、大型コンピュータ（メインフレーム）でもよく、要するに、必要な機能を備えていればよい。なお、表示装置６０や入力装置７０は、装置本体２０と一体化されていてもよく、携帯機器の場合は、一体化されていることが多い。

　図２に示すように、装置本体２０を構成するコンピュータは、典型的なハードウェア構成として、バス１００により接続された中央演算処理装置（ＣＰＵ）１１０と、ＤＲＡＭ等で構成された主記憶装置（メインメモリ）１２０と、ＳＲＡＭ等で構成されたキャッシュメモリ１３０と、ＨＤＤやＳＳＤ等の補助記憶装置１４０と、通信回線１用の通信インターフェース（通信Ｉ／Ｆ）１５０と、表示装置６０用のインターフェース（Ｉ／Ｆ）１６０と、入力装置７０用のインターフェース（Ｉ／Ｆ）１６０とを備えている。中央演算処理装置（ＣＰＵ）１１０とキャッシュメモリ１３０とは、高速データ転送が可能なバス１０１により接続されている。なお、複数の中央演算処理装置（ＣＰＵ）１１０によるマルチプロセッサとしてもよい。キャッシュメモリ１３０の設置は、省略してもよい。補助記憶装置１４０は、外付けのＨＤＤやＳＳＤ等でもよく、ＤＶＤ、ＣＤ、ＵＳＢメモリ等の外部の記録媒体９０としてもよい。

　処理手段３０は、教師データ取得手段３１と、初期化手段３２と、学習手段３３とを含んで構成されている。学習手段３３は、出力層用教師出力データ登録手段３３Ａと、教師出力データ生成手段３３Ｂと、入力層用教師入力データ登録手段３３Ｃと、重み値最適化手段３３Ｄとを含んで構成されている。これらの処理手段３０に含まれる各手段３１，３２，３３は、中央演算処理装置（ＣＰＵ）１１０、およびこのＣＰＵの動作手順を規定する１つまたは複数のプログラム、並びにメインメモリ１２０やキャッシュメモリ１３０等の作業用メモリ（メインメモリ１２０上のプログラム領域を含む。但し、記憶手段４０としてメインメモリ１２０上に確保された記憶領域を除く。）により実現される。なお、これらの各手段３１，３２，３３の詳細は、後述する。

　また、記憶手段４０は、プログラム記憶手段４１と、ネットワーク構成情報記憶手段４２と、取得教師データ記憶手段４３と、入力側層アドレス記憶手段４４と、重み値記憶手段４５と、重み付き和記憶手段４６と、活性化関数種類記憶手段４７と、出力値記憶手段４８と、教師出力データ記憶手段４９と、教師入力データ記憶手段５０とを含んで構成されている。これらの記憶手段４０に含まれる各記憶手段４１～５０は、主記憶装置（メインメモリ）１２０、キャッシュメモリ１３０、補助記憶装置１４０により実現される。なお、これらの各記憶手段４１～５０の詳細は、後述する。

　（ニューラルネットワークの構成）
　本発明は、ニューラルネットワークの重み値を調整決定する処理を実行するが、その処理対象となるＮＮの構成は、図３に示すような既存のＮＮの構成と同様であり、重み値を調整決定する学習処理の方法が異なるだけである。すなわち、学習段階が終了し、重み値が決定された後は、従来と同様であり、決定された重み値を使用したＮＮで構成される各種のシステム（識別システム、パターン認識システム等）の運用段階の処理は、何ら従来と変わらない。換言すれば、本発明は、既存のＮＮの全てに適用することができる。また、本発明は、同様なニューロン間の結合関係があれば、今後開発される新たなＮＮにも適用することができる。従って、前述した式（１）、式（２）、式（３）に示した各層の出力の計算式も本発明の処理に使用することができる。但し、図３に示した構成は一例であり、層の数や、各層のニューロン数は、図３の例に限られるものではない。

　（各層の出力の計算式の任意性）
　また、前述した式（２）、式（３）は、前の層（自層の入力側の層）の出力値の重み付き和Ｓ（Σ_iＷ_a(i)b(j)Ｙ_a(i)、Σ_jＷ_b(j)c(k)Ｙ_b(j)）を含んでいる。これらの計算式は、出力値Ｙ_a(i)、Ｙ_b(j)から見ても、重み値Ｗ_a(i)b(j)、Ｗ_b(j)c(k)から見ても、一次結合で表された式である。しかし、本発明は、各層の出力の計算式が、このような重み付き和Ｓを含む式になっている場合に限らず、前の層（自層の入力側の層）の出力値と、自層の重み値（自層の入力側の層のニューロンから自層のニューロンへの重み値）とを用いて自層の出力値を計算する何らかの計算式であれば、本発明を適用することができる。例えば、出力の計算式は、重み付き和Ｓにバイアスを加算した式でもよく、出力値または重み値についての２次以上の関数、正弦関数（ｓｉｎ関数）、余弦関数（ｃｏｓ関数）、対数関数、指数関数等でもよい。また、前述した式（２）、式（３）は、活性化関数ｆを含む式となっていたが、各層（一部の層でもよい。）の出力の計算式は、活性化関数ｆを含まない式としてもよい。そして、本発明において最小二乗法による最適化処理を実行する場合には、出力の計算式が、パラメータについて一次結合になっていれば、線形最小二乗法による最適化処理となり、パラメータについて一次結合になっていなければ、非線形最小二乗法による最適化処理となる。なお、本発明では、出力値がパラメータになる教師出力データ生成処理と、重み値がパラメータになる重み値最適化処理とがある。また、最適化処理が、最小二乗法による処理であるか否かは、誤差の式が二乗和で定められているか否かにより決まるので、前述した式（２）、式（３）に相当する出力の計算式が、どのような式になっているかは関係なく、例えば、出力の計算式が、正弦関数（ｓｉｎ関数）になっていても、誤差の式が二乗和で定められていれば、最小二乗法による最適化処理を実行することになる。

　＜処理手段３０に含まれる各手段３１，３２，３３の詳細構成＞

　（教師データ取得手段３１の構成）
　教師データ取得手段３１は、ニューラルネットワークの外部から取得した多数（Ｍｐ個）の教師データセットを、取得教師データ記憶手段４３（図３参照）に記憶させる処理を実行するものである。図３に示すように、各教師データセットは、教師データセットの番号と関連付けられて各レコード（教師データレコード）に記憶される。これらの教師データセットは、情報処理装置１０の管理者が収集したデータでもよく、管理者に作業を依頼する依頼者が収集したデータでもよい。依頼者は、収集した多数（Ｍｐ個）の教師データセットを、通信回線１を介して情報処理装置１０へ送信してもよく、ＤＶＤやＵＳＢメモリ等の記録媒体９０に格納して管理者に渡してもよい。また、依頼者は、自分が管理するシステム８０内のＮＮの構成（重み値を除く。）が決まっていて、その構成に対応する重み値（重みデータ）や、中間層の出力に対する教師出力データを入手したい場合には、システム８０内のＮＮについてのネットワーク構成情報（図４参照）も、通信回線１を介して情報処理装置１０へ送信するか、または記録媒体９０に格納して管理者に渡し、管理者に作業（重み値の調整決定や、教師出力データの生成）を依頼する。一方、新規にシステム８０を立ち上げる場合等には、依頼者は、ＮＮの構成の決定も含めて管理者に作業を依頼してもよく、その場合には、管理者は、作業依頼に係るデータ（重みデータや教師出力データ）に加え、管理者が決定したネットワーク構成情報（図４参照）も、通信回線１を介して依頼者端末（またはシステム）８０に送信するか、または記録媒体９０に格納して依頼者に渡す。

　（初期化手段３２の構成：ネットワーク構成情報の取得処理）
　初期化手段３２は、ネットワーク構成情報の取得処理と、各層の情報の初期化処理とを実行するものである。この初期化手段３２は、前者のネットワーク構成情報の取得処理では、補助記憶装置１４０上のネットワーク構成情報記憶手段４２（図４参照）に記憶されているネットワーク構成情報（層の番号、各層のニューロン数、活性化関数の種類）を読み込み、メインメモリ１２０上に配置するとともに、読み込んだネットワーク構成情報に従って、メインメモリ１２０上に各層の情報の記憶領域（図５参照）を確保する。この記憶領域が確保された状態には、スワップ操作で一時的にＨＤＤやＳＳＤ等の補助記憶装置１４０に記憶領域が退避されている状態や、キャッシュメモリ１３０に記憶領域が確保されている状態等も含まれる。なお、メインメモリ１２０上のネットワーク構成情報の記憶領域も、ネットワーク構成情報記憶手段４２と呼ぶものとする。補助記憶装置１４０上のネットワーク構成情報記憶手段４２に記憶されたネットワーク構成情報は、管理者が決定して入力装置７０で入力したデータでもよく、依頼者から受け取って格納したデータでもよい。

　図５には、上記のネットワーク構成情報の取得処理によりメインメモリ１２０上に確保された各層の情報の記憶領域の内容（各変数、各変数についての値の形式および初期化方法）が示されている。変数には、入力側の層のアドレス（Ｃ）、重み値（Ｄ）、重み付き和Ｓの値（Ｅ）、活性化関数の種類（Ｆ）、出力値（Ｇ）、ｎ番目の層（自層）への教師出力データ（Ｈ）、（ｎ＋１）番目の層（自層の出力側の層）への教師入力データ（Ｉ）がある。

　図５に示された各変数の値は、ｎ番目の層の識別情報（ｎ番目の層の番号またはメインメモリ１２０上のｎ番目の層のアドレス）に関連付けられた記憶情報である。従って、メインメモリ１２０上に確保された図５の各変数の記憶領域は、それぞれ入力側層アドレス記憶手段４４、重み値記憶手段４５、重み付き和記憶手段４６、活性化関数種類記憶手段４７、出力値記憶手段４８、教師出力データ記憶手段４９、教師入力データ記憶手段５０のうちのｎ番目の層の識別情報に関連付けられた部分である。なお、一部の変数の値については、保存のために不揮発性メモリである補助記憶装置１４０にも記憶され、補助記憶装置１４０上のそれらの変数の値の格納場所も、重み値記憶手段４５、教師出力データ記憶手段４９等のように、メインメモリ１２０上の記憶領域と同名で呼ぶものとする。

　（初期化手段３２の構成：各層の情報の初期化処理）
　初期化手段３２は、各層の情報の初期化処理では、図５に示すように、入力側の層のアドレス（Ｃ）には、取得したネットワーク構成情報（図４参照）に基づき、（ｎ－１）番目の層（１つ前の層）のメモリアドレスを登録する。

　また、重み値（Ｄ）は、（ｎ－１）番目の層（自層の入力側の層）のニューロン数×ｎ番目の層（自層）のニューロン数の要素を持つ配列であり、初期化手段３２は、これらの各要素を乱数で初期化する。なお、閾値の処理を入れる際には、入力側の層のニューロン数に１を加えて初期化する。

　但し、重み値（Ｄ）の初期化については、稼働中のシステム（例えば、依頼者が管理するシステム８０等）があり、新たに得られた教師データセットを用いて、そのシステム内のＮＮの重み値を更新する場合には、更新前のシステムで使用していた重み値を、初期化後の重み値として用いてもよい。

　従って、稼働中のシステム（例えばシステム８０等）の重み値の更新では、大別すると、以下の４つのケースがある。なお、以下の４つのケースは、更新前のシステムの重み値が誤差逆伝播法等の従来の方法で決定されていて、今回の更新から、本発明による重み値の決定方法に切り替える場合でもよく、更新前のシステムの重み値も、本発明により決定されていて、今回の更新も、引き続き本発明により決定する場合でもよい。

　ケース１では、初期化後の重み値（すなわち、重み値最適化手段３３Ｄによる重み値最適化処理の実行前に、中間層の教師出力データを生成するために固定した状態で使用する最初の重み値）は、乱数で作成する。また、新たな教師データセットだけを使って学習する。このケース１は、過去の教師データセットや重みの情報は残らないので、新たな教師データセットに対応して最初から学習し直すケースである。これは、学習対象のニューラルネットワークにより構築されたシステムが振る舞いを変えた場合（例えば、機械が大きく劣化して動き方が変わった場合、カメラのレンズを変更したため適切な画像認識方法が変わった場合等）に行う学習処理である。

　ケース２では、初期化後の重み値（最初の重み値）は、乱数で作成する。また、新たな教師データセットおよび前回更新までの教師データセットの双方を使って学習する。このケース２では、新たな教師データセットを加えることで、予測の精度が向上（誤差が減少）する。これは、システムの振る舞いは以前と大きく変わらないがニューラルネットワークの予測精度を向上させたい場合の学習処理である。

　ケース３では、初期化後の重み値（最初の重み値）として、更新前システムの重み値を使う。また、新たな教師データセットだけを使って学習する。このケース３は、例えば、システムの変化が緩やかな場合（機械が徐々に劣化する場合等）に使うことができる。以前の学習結果が更新前の重み情報に残っているので、それを引き継いだ学習が期待できる。

　ケース４では、初期化後の重み値（最初の重み値）として、更新前システムの重み値を使う。新たな教師データセットおよび前回更新までの教師データセットの双方を使って学習する。このケース４では、ケース２と同様に、新たな教師データセットを加えることで、予測の精度が向上（誤差が減少）する。

　また、重み値（Ｄ）の初期化では、同一または類似のネットワーク構成を有するシステムで使用されているか若しくは使用されていた重み値を、初期化後の重み値（最初の重み値）として用いてもよく、あるいは、稼働中のシステムで使用していた更新前の重み値と、同一または類似のネットワーク構成を有するシステムの重み値とを組み合わせた重み値を、初期化後の重み値（最初の重み値）として用いてもよい。

　さらに、重み付き和Ｓの値（Ｅ）は、ｎ番目の層（自層）のニューロン数の要素を持つ配列であり、初期化手段３２は、これらの要素の全てを０で初期化する。また、初期化手段３２は、活性化関数の種類（Ｆ）には、取得したネットワーク構成情報（図４参照）に基づき、活性化関数の種類を識別する整数値を登録する。

　また、出力値（Ｇ）は、ｎ番目の層（自層）のニューロン数の要素を持つ配列であるが、初期化は不要である。さらに、ｎ番目の層（自層）への教師出力データ（Ｈ）は、ｎ番目の層（自層）のニューロン数×教師データセット数Ｍｐの要素を持つ配列であるが、初期化は不要である。また、（ｎ＋１）番目の層（自層の出力側の層）への教師入力データ（Ｉ）は、ｎ番目の層（自層）のニューロン数×教師データセット数Ｍｐの要素を持つ配列であるが、初期化は不要である。

　（学習手段３３／出力層用教師出力データ登録手段３３Ａの構成）
　出力層用教師出力データ登録手段３３Ａは、教師データ取得手段３１により取得して取得教師データ記憶手段４３（図３参照）に記憶されている教師データセット（Ｍｐ個）のうちの教師出力データを、出力層（Ｎ番目の層：但し、Ｎは層の数）の変数（Ｈ）（図５参照）にコピーして登録する処理を実行するものである。すなわち、Ｎ番目の層への教師出力データ（Ｎ番目の層の各ニューロンの出力に対するＭ（Ｎ）個の教師出力データ：但し、Ｍ（Ｎ）はＮ番目の層のニューロン数）を、Ｎ番目の層の情報（図５参照）として教師出力データ記憶手段４９に記憶させる。従って、登録する教師出力データの数は、Ｍ（Ｎ）×Ｍｐである。

　（学習手段３３／教師出力データ生成手段３３Ｂの構成：教師出力データ正規化処理）
　教師出力データ生成手段３３Ｂは、教師出力データ正規化処理と、教師出力データ生成処理とを実行するものである。この教師出力データ生成手段３３Ｂは、前者の教師出力データ正規化処理では、後者の教師出力データ生成処理（ｎ番目の層の出力についての誤差Ｅｙ（ｎ）を最小にする最適化処理）を実行する前に、教師出力データ記憶手段４９に記憶された教師出力データのうち、最適化処理を実行する層（処理対象層）の各ニューロンからの出力に対する全ての教師出力データ（図５に示すｎ番目の層の情報として登録されている変数（Ｈ）の値）について、逆行列の計算を安定させるようにするため、それぞれの教師出力データの相対的な大小関係を維持しながら、適切な値に変更して正規化する。正規化後の教師出力データは、教師出力データ記憶手段４９に上書きする。

　但し、この教師出力データ正規化処理は、処理対象層が出力層以外の場合に実行する。処理対象層が出力層の場合には、その層の教師出力データ（図５に示す変数（Ｈ）の値）は、出力層用教師出力データ登録手段３３Ａにより登録された教師出力データだからである。また、教師出力データ正規化処理は、処理対象層が出力層（Ｎ番目の層：但し、Ｎは層の数）の場合を除くので、（Ｎ－１）番目の層（出力層の１つ前の層）から順に、処理対象層の番号を１ずつ減らしながら、処理対象層が２番目の層まで実行し、２番目の層の出力に対する教師出力データまで正規化する。入力層（１番目の層）の出力に対する教師出力データの正規化は必要ない。前述した式（１）のように、入力層への入力が、そのまま入力層の出力となるからである。

　この教師出力データ正規化処理を実行するためには、教師出力データ記憶手段４９に正規化対象の教師出力データが記憶されている状態になっている必要がある。例えば、５番目の層が処理対象層である場合は、５番目の層の各ニューロンの出力に対する全ての教師出力データが正規化対象となるが、この正規化対象の５番目の層への教師出力データは、６番目の層を処理対象層とする教師出力データ生成処理で生成されていることになる。この循環は、教師出力データ生成処理が、出力層から順に、処理対象層の番号を１つずつ減らしながら実行されることにより成立している。すなわち、出力層（Ｎ番目の層）を処理対象層として教師出力データ生成処理が実行されると、（Ｎ－１）番目の層の出力に対する教師出力データが生成され、教師出力データ記憶手段４９に記憶される。次に、（Ｎ－１）番目の層を処理対象層として、この教師出力データ正規化処理を実行する際には、正規化対象の（Ｎ－１）番目の層の出力に対する教師出力データは、教師出力データ記憶手段４９に既に記憶されている状態となっている。さらに、正規化された（Ｎ－１）番目の層の出力に対する教師出力データを用いて、（Ｎ－１）番目の層を処理対象層として教師出力データ生成処理が実行されると、（Ｎ－２）番目の層の出力に対する教師出力データが生成され、教師出力データ記憶手段４９に記憶される。続いて、（Ｎ－２）番目の層を処理対象層として、この教師出力データ正規化処理を実行する際には、正規化対象の（Ｎ－２）番目の層の出力に対する教師出力データは、教師出力データ記憶手段４９に既に記憶されている状態となっている。この循環が繰り返されることになる（後述する図１２のステップＳ３０３～Ｓ３０６のループ処理を参照）。

　具体的には、教師出力データ生成手段３３Ｂは、教師出力データ記憶手段４９に記憶された教師出力データのうち、処理対象層の各ニューロンからの出力に対する全ての教師出力データが、処理対象層の活性化関数ｆの出力可能な範囲に収まるようにすることを前提として、次の第１、第２のいずれかの教師出力データ正規化処理を実行する。教師出力データ生成処理では、後述する図６に示す式（６）、式（８）、式（９）、式（１１）のように、教師出力データを活性化関数ｆの逆関数ｆ^－１に入力するからである。なお、処理対象層の出力の計算式に活性化関数ｆが含まれていない場合には、教師出力データを逆関数ｆ^－１に入力する必要はないので、この前提は不要である。

　第１の教師出力データ正規化処理では、処理対象層の各ニューロンからの出力に対する全ての教師出力データを、これらの全ての教師出力データのうちの最大絶対値で除することにより、全ての教師出力データを－１から１までの範囲内にする。例えば、教師出力データの分布範囲が、－５０～２５であったとすると、最大絶対値は５０であるため、５０で除することにより、－１～０．５に正規化される。なお、全ての教師出力データが、－１から１までの範囲内に収まっている場合には、必ずしも最大絶対値で除する必要はないが、最大絶対値で除してもよく、除した場合には、例えば、－０．４～０．８という分布範囲は、－０．５～１に正規化される。

　第２の教師出力データ正規化処理では、処理対象層の各ニューロンからの出力に対する全ての教師出力データの絶対値が、これらの教師出力データ（図５に示す変数（Ｈ））に適用する実数型データのフォーマットに応じて予め定めた閾値内に収まるように、全ての教師出力データを同一の値で除する。従って、閾値は、計算機の性能に依存して事前に定められる値である。ここで、同一の値は、予め用意しておいた複数の定数（例えば、１０、１００、１０００、…等）の中から選択した定数でもよく、全ての教師出力データの最大絶対値を閾値で除した値（１を超える値となる。）や、その値に１を超える係数を乗じた値（安全サイドの値）でもよい。例えば、閾値が１０００であり、教師出力データの分布範囲が、－１４２３０～２３８１であったとすると、同一の値として定数１００が選択され（定数１０で除しても、閾値内に収まらないため。）、１００で除することにより、－１４２．３～２３．８１に正規化される。また、最大絶対値が１４２３０であるから、その１４２３０を閾値１０００で除した値１４．２３０を同一の値としてもよく、１４．２３０で除することにより、－１０００～１６７．３２に正規化される。さらに、最大絶対値１４２３０を閾値１０００で除した値１４．２３０に例えば１．１（１を超える係数）を乗じた値１５．６５３（安全サイドの値）を同一の値としてもよく、１５．６５３で除することにより、－９０９．０９～１５２．１１に正規化される。なお、閾値内に収まっている場合には、同一の値で除する必要はない。

　（学習手段３３／教師出力データ生成手段３３Ｂの構成：教師出力データ生成処理）
　教師出力データ生成手段３３Ｂは、教師出力データ生成処理では、各層について、重み値記憶手段４５に記憶された初期化後の重み値、および教師出力データ記憶手段４９に記憶された自層の出力に対する教師出力データを用いて、自層の重み値および自層の入力側の層の出力値、並びに自層の出力に対する教師出力データを含む式で定められた自層の出力の誤差Ｅｙについて、自層の入力側の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として自層の入力側の層の出力値を求め、求めた出力値を、自層の入力側の層の出力に対する教師出力データとして教師出力データ記憶手段４９に記憶させる。

　具体的には、教師出力データ生成手段３３Ｂは、後述する図６の最下部および図７に示す式（１１）に従って、次のような教師出力データ生成処理を実行する。但し、式（１１）は、各層の出力の計算式が、前述した式（２）および式（３）の如く、前の層（自層の入力側の層）の出力値の重み付き和Ｓを活性化関数ｆに入力する式となっていて、かつ、後述する図６の式（９）の如く、誤差Ｅｙ（ｎ）を二乗和により定義し、最小二乗法による最適化処理を実行する場合の式である。従って、各層の出力の計算式に任意性を持たせ、かつ、最適化処理にも任意性を持たせることにより、教師出力データ生成処理を一般化して表現すると、次のようになる。

　先ず、誤差Ｅｙ（ｎ）を一般化すると、次の２通りとなる。第１の誤差Ｅｙ（ｎ）の式は、（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を用いたｎ番目の層の出力の計算式による計算値と、ｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）とを用いて定めた式である。第２の誤差Ｅｙ（ｎ）の式は、（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を用いたｎ番目の層の出力の計算式に活性化関数ｆが含まれる場合の活性化関数ｆへの入力値を計算する活性化関数入力値計算式（ｆ（…）のカッコ内の式）による計算値と、ｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）を活性化関数ｆの逆関数ｆ^－１に入力して得られる値とを用いて定めた式である。

　そして、教師出力データ生成手段３３Ｂは、ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、出力層の番号をＮで示したとき、ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら、
　教師出力データ記憶手段４９に記憶されたｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）と、重み値記憶手段４５に記憶された初期化後の重み値のうちの（ｎ－１）番目の層からｎ番目の層への重み値Ｗ（ｎ－１，ｊ；ｎ，ｋ）とを用いて、
　上述した２通りの誤差Ｅｙ（ｎ）のいずれかについて、（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）をパラメータとし、この誤差Ｅｙ（ｎ）を最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を求め、求めた（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を、（ｎ－１）番目の層の出力に対する教師出力データＹｔ（ｎ－１，ｊ；ｐ）として教師出力データ記憶手段４９に記憶させる処理を実行する。

　この際、教師出力データ生成手段３３Ｂは、生成した教師出力データＹｔ（ｎ－１，ｊ；ｐ）を、（ｎ－１）番目の層の情報として、（ｎ－１）番目の層についての図５の変数（Ｈ）に登録する。現在の処理対象層は、ｎ番目の層であるから、ｎ番目の層の情報として図５の変数（Ｃ）に登録されている入力側の層のアドレスから、（ｎ－１）番目の層のアドレスを取得することができる。

　ここで、Ｙｔ（ｎ，ｋ；ｐ）は、ｎ番目の層のｋ番目のニューロンの出力に対する教師出力データである。Ｙの添え字ｔは、ｔｅａｃｉｎｇを示している。ｐ＝１～Ｍｐであり、ｐは、教師データセットの番号、Ｍｐは、教師データセット数である。また、Ｗ（ｎ－１，ｊ；ｎ，ｋ）は、（ｎ－１）番目の層のｊ番目のニューロンからｎ番目の層のｋ番目のニューロンへの重み値である。

　Ｙ（ｎ－１，ｊ；ｐ）は、（ｎ－１）番目の層のｊ番目のニューロンの出力値である。また、Ｙｔ（ｎ－１，ｊ；ｐ）は、教師出力データ生成処理で生成される（ｎ－１）番目の層のｊ番目のニューロンの出力に対する教師出力データである。この教師出力データＹｔ（ｎ－１，ｊ；ｐ）は、ｊ＝１～Ｍ（ｎ－１）、ｐ＝１～Ｍｐについて生成されるので、生成される教師出力データの数は、Ｍ（ｎ－１）×Ｍｐである。Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。なお、生成した教師出力データを記憶させる図５の変数（Ｈ）の説明には「ｎ番目の層（自層）のニューロン数×教師データセット数Ｍｐの要素を持つ配列」と記載されているが、上述したように、生成した教師出力データは、処理対象層の入力側の層の情報として登録するので、入力側の層の立場で見れば、自層のニューロン数×Ｍｐの教師出力データが登録されることになる。

　また、「ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら」の「ｎ＝３まで」とは、（ｎ－１）番目の層が２番目の層になるまでという意味であり、２番目の層の出力に対する教師出力データまで求める趣旨である。前述した式（１）のように、入力層（１番目の層）には重み値がないので、教師データセットのうちの教師入力データが入力層に入力されると、その値がそのまま入力層の出力となるので、入力層の出力に対する教師出力データは必要ないからである。

　図６には、以上の教師出力データ生成処理の導出過程が示されている。先ず、図３に示したＮＮの符合を用いて、誤差Ｅｙを記載すると、次の式（６）のようになる。ここでは、誤差Ｅｙを２乗和による誤差としているので、最小二乗法による最適化処理を実行することを前提としているが、誤差Ｅｙは、誤差の２乗の和に限らず、例えば、誤差の絶対値の和や、誤差の４乗の和等としてもよく、誤差Ｅｙの定義は任意である。

　Ｅｙ＝（１／２）Σ_kΣ_p｛Σ_jＹ_b(j),pＷ_b(j)c(k)－ｆ^-1（Ｙｔ_c(k),p）｝²　（６）

　この誤差Ｅｙを最小にするパラメータＹ_b(j),pを求めるので、式（６）をパラメータＹ_b(j),pで偏微分した式をゼロと置くことにより、次の式（７）を得る。そして、この式（７）をｊ＝１，２，３について書き出す。すなわち、中間層ｂの各ニューロンｂ（１）、ｂ（２）、ｂ（３）の出力値Ｙ_b(1),p、Ｙ_b(2),p、Ｙ_b(3),pで偏微分する。ここで特徴的なのは、Ｗ_b(j)c(k)ではなく、Ｙ_b(j),pをパラメータとすることにより、Ｙ_b(j),pで偏微分している点である。従って、重み値Ｗ_b(j)c(k)については、初期化後の重み値（最初の重み値）を維持したままで各層の教師出力データ生成処理が進む。

　∂Ｅｙ／∂Ｙ_b(j),p＝０　　　・・・・・・・・・・・・・・・・（７）

　それから、最適化処理で得られるパラメータＹ_b(j),pの解を、中間層ｂの出力に対する教師出力データＹｔ_b(j),pと置くと、図６に示すような次の行列表現の式（８）が得られる。［Ｙｔ_b,p］が、求める解の集合である縦ベクトルである。式（８）は、ｐ＝１～Ｍｐ（Ｍｐは、教師データセット数（教師データレコード数））について得られるので、求める教師出力データの数は、３（中間層ｂのニューロン数）×Ｍｐである。［Ｑ_bc］は、正方行列であり、重み値記憶手段４５に記憶されている初期化後の重み値Ｗ_b(j)c(k)を代入して得られる。［Ｕ_bc,p］は、縦ベクトルであり、重み値記憶手段４５に記憶されている初期化後の重み値Ｗ_b(j)c(k)を代入するとともに、教師出力データ記憶手段４９に記憶されている教師出力データＹｔ_c(k),pを代入して得られる。

　［Ｑ_bc］［Ｙｔ_b,p］＝［Ｕ_bc,p］　　　・・・・・・・・・・・・（８）

　さらに、複数の中間層ｂ（ｂ１，ｂ２）がある場合の中間層ｂ２の出力についての誤差Ｅｙも同様であるため、以上の式（６）、式（７）、式（８）を一般化する。

　前述した式（６）を一般化すると、次の式（９）となる。式（９）は、ｎ番目の層の出力についての誤差Ｅｙ（ｎ）である。ｎ＝Ｎ，…，５，４，３であり、Ｎは層の数である。ｎ＝２は演算不要である。すなわち、２番目の層の出力についての誤差Ｅｙ（２）は考慮不要である。１番目の層（入力層ａ）のニューロンの出力に対する教師出力データの生成は不要だからである。

　Ｅｙ（ｎ）＝（１／２）Σ_kΣ_p｛Σ_jＹ（ｎ－１,j；p）Ｗ（ｎ－１,ｊ；ｎ，ｋ）－ｆ^-1（Ｙｔ（ｎ，ｋ；p））｝²　　　・・・・・・・・・・・（９）

　ここで、Σ_kは、ｋ＝１～Ｍ（ｎ）の和であり、ｋは、ｎ番目の層のニューロンの番号であり、Ｍ（ｎ）は、ｎ番目の層のニューロン数である。Σ_pは、ｐ＝１～Ｍｐの和であり、ｐは、教師データセットの番号であり、Ｍｐは、教師データセット数である。Σ_ｊは、ｊ＝１～Ｍ（ｎ－１）の和であり、ｊは、（ｎ－１）番目の層のニューロンの番号であり、Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。Ｙ（ｎ－１,j；p）は、（ｎ－１）番目の層のｊ番目のニューロンの出力値である。Ｙｔ（ｎ，ｋ；p）は、ｎ番目の層のｋ番目のニューロンの出力に対する教師出力データである。

　この誤差Ｅｙ（ｎ）を最小にするパラメータＹ（ｎ－１,j；p）を求めるので、式（９）をパラメータＹ（ｎ－１,j；p）で偏微分した式をゼロと置くことにより、次の式（１０）を得る。式（１０）は、前述した式（７）を一般化した式である。そして、この式（１０）をｊ＝１～Ｍ（ｎ－１）について書き出す。

　∂Ｅｙ（ｎ）／∂Ｙ（ｎ－１,j；p）＝０　　　・・・・・・（１０）

　それから、最適化処理で得られるパラメータＹ（ｎ－１,j；p）の解を、（ｎ－１）番目の層のｊ番目のニューロンの出力に対する教師出力データＹｔ（ｎ－１,j；p）と置くと、図６の最下部および図７に示すような次の行列表現の式（１１）が得られる。式（１１）は、前述した図６の式（８）を一般化した式である。

　［Ｑ（ｎ－１；ｎ）］［Ｙｔ（ｎ－１；ｐ）］＝［Ｕ（ｎ－１；ｎ；ｐ）］　　　・・・・・・・・・・・・・・・・・・・・・・（１１）

　ここで、［Ｑ（ｎ－１；ｎ）］は、教師出力生成用行列であり、Ｍ（ｎ－１）行×Ｍ（ｎ－１）列の正方行列である。Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。Ｗ（ｎ－１，ｊ；ｎ，ｋ）は、（ｎ－１）番目の層のｊ番目のニューロンからｎ番目の層のｋ番目のニューロンへの重み値である。この教師出力生成用行列Ｑ（ｎ－１；ｎ）の各要素の値は、重み値記憶手段４５に記憶されている初期化後の重み値Ｗ（ｎ－１，ｊ；ｎ，ｋ）を代入して得られる。

　また、［Ｙｔ（ｎ－１；ｐ）］は、教師出力ベクトルであり、Ｍ（ｎ－１）次元の縦ベクトルである。この教師出力ベクトルＹｔ（ｎ－１；ｐ）は、教師出力データ生成処理で求める（ｎ－１）番目の層の教師出力データＹｔ（ｎ－１，ｊ；ｐ）の集合である。Ｙｔ（ｎ－１，ｊ；ｐ）は、（ｎ－１）番目の層のｊ番目のニューロンの出力に対する教師出力データであり、ｊ＝１～Ｍ（ｎ－１）である。p＝1～Ｍｐであり、pは、教師データセットの番号であり、Ｍｐは、教師データセット数である。式（１１）は、p＝1～Ｍｐについて得られるので、教師出力ベクトルＹｔ（ｎ－１；ｐ）を求める処理がＭｐ回繰り返されるため、求める教師出力ベクトルの数は、Ｍ（ｎ－１）×Ｍｐとなる。この教師出力ベクトルＹｔ（ｎ－１；ｐ）の各要素の値は、教師出力生成用行列Ｑ（ｎ－１；ｎ）の逆行列を計算し、その逆行列を、教師出力生成用ベクトルＵ（ｎ－１；ｎ；ｐ）の左側からＵ（ｎ－１；ｎ；ｐ）に掛けることにより求めることができる。また、ＬＱ分解等を用いて求めてもよい。教師出力生成用行列Ｑ（ｎ－１；ｎ）の逆行列が存在しない場合には、何らかの方法で逆行列の近似値を求めてもよい。例えば、教師出力生成用行列Ｑ（ｎ－１；ｎ）の各値に微小な乱数（例えば－１．０Ｅ－１０～１．０Ｅ－１０の間の値をとる乱数等）を加える方法、掃き出し法を適用して逆行列を求める際に対角成分が０となった時点で処理を止めて計算途中の逆行列を用いる方法、掃き出し法を適用して逆行列を求める際に対角成分が０となった場合、当該対角成分を微小値（例えば１．０Ｅ－１０等）に置き換えて計算を続ける方法等である。

　さらに、［Ｕ（ｎ－１；ｎ；ｐ）］は、教師出力生成用ベクトルであり、Ｍ（ｎ－１）次元の縦ベクトルである。ｆ^-1は、活性化関数ｆの逆関数である。Ｙｔ（ｎ，ｋ；ｐ）は、ｎ番目の層のｋ番目のニューロンの出力に対する教師出力データである。この教師出力生成用ベクトルＵ（ｎ－１；ｎ；ｐ）の各要素の値は、重み値記憶手段４５に記憶されている初期化後の重み値Ｗ（ｎ－１，ｊ；ｎ，ｋ）を代入するとともに、教師出力データ記憶手段４９に記憶されている教師出力データＹｔ（ｎ，ｋ；ｐ）を代入して得られる。教師出力データ正規化処理の説明で既に詳述している通り、ｎ番目の層が処理対象層である場合は、（ｎ－１）番目の層の出力に対する教師出力データＹｔ（ｎ－１，ｊ；ｐ）を求めるので、その際には、ｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）は既に求められて教師出力データ記憶手段４９に記憶されている状態である。

　また、各層の出力の計算式が、前の層の出力値の重み付き和Ｓではなく、より複雑な式である場合や、誤差Ｅｙ（ｎ）を２乗和で定義しなかった場合には、式（１１）のような簡潔な式で最適解を求めることができない場合が多いが、その場合には、例えば、勾配法（最急降下法）等の繰り返し計算により、最適に近い解を求めることができる。この場合の繰り返し計算による最適化処理は、各層について、層毎に独立して実行される処理であり、ネットワーク全体に渡って実行される処理ではない。従って、全ての層での最適化処理の実行時間を合計しても、従来の誤差逆伝播法等の繰り返し計算を行う場合に比べ、短時間で解を得ることができる。

　（学習手段３３／入力層用教師入力データ登録手段３３Ｃの構成）
　入力層用教師入力データ登録手段３３Ｃは、教師データ取得手段３１により取得して取得教師データ記憶手段４３（図３参照）に記憶されている教師データセット（Ｍｐ個）のうちの教師入力データを、入力層（１番目の層）の変数（Ｉ）（図５参照）にコピーして登録する処理を実行するものである。すなわち、入力層の出力側の層（２番目の層）への教師入力データ（１番目の層のＭ（１）個の各ニューロンから出力されて２番目の層に入力される入力データに対する教師入力データ：但し、Ｍ（１）は入力層のニューロン数）を、入力層（１番目の層）の情報（図５参照）として教師入力データ記憶手段５０に記憶させる。従って、登録する教師入力データの数は、Ｍ（１）×Ｍｐである。

　（学習手段３３／重み値最適化手段３３Ｄの構成：重み値最適化処理）
　重み値最適化手段３３Ｄは、重み値最適化処理と、教師入力データ生成処理とを実行するものである。この重み値最適化手段３３Ｄは、前者の重み値最適化処理では、各層について、教師入力データ記憶手段５０に記憶された自層の入力側の層から自層への教師入力データ、および教師出力データ記憶手段４９に記憶にされた自層の出力に対する教師出力データを用いて、自層の重み値および自層の入力側の層の出力値、並びに自層の出力に対する教師出力データを含む式で定められた自層の出力の誤差Ｅｗについて、自層の重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として自層の重み値を求め、求めた重み値を重み値記憶手段４５に記憶させる。

　具体的には、重み値最適化手段３３Ｄは、後述する図８の最下部および図９に示す式（１７）に従って、次のような重み値最適化処理を実行する。但し、式（１７）は、各層の出力の計算式が、前述した式（２）および式（３）の如く、前の層（自層の入力側の層）の出力値の重み付き和Ｓを活性化関数ｆに入力する式となっていて、かつ、後述する図８の式（１５）の如く、誤差Ｅｗ（ｎ）を二乗和により定義し、最小二乗法による最適化処理を実行する場合の式である。従って、各層の出力の計算式に任意性を持たせ、かつ、最適化処理にも任意性を持たせることにより、重み値最適化処理を一般化して表現すると、次のようになる。

　先ず、誤差Ｅｗ（ｎ）を一般化すると、次の２通りとなる。第１の誤差Ｅｗ（ｎ）の式は、（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を用いたｎ番目の層の出力の計算式による計算値と、ｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）とを用いて定めた式である。第２の誤差Ｅｗ（ｎ）の式は、（ｎ－１）番目の層の出力値Ｙ（ｎ－１，ｊ；ｐ）を用いたｎ番目の層の出力の計算式に活性化関数ｆが含まれる場合の活性化関数ｆへの入力値を計算する活性化関数入力値計算式（ｆ（…）のカッコ内の式）による計算値と、ｎ番目の層の出力に対する教師出力データＹｔ（ｎ，ｋ；ｐ）を活性化関数ｆの逆関数ｆ^-1に入力して得られる値とを用いて定めた式である。

　そして、重み値最適化手段３３Ｄは、ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、自層の出力側の層の番号を（ｎ＋１）、出力層の番号をＮで示したとき、ｎ＝２からｎを１ずつ増やしながら、
　教師入力データ記憶手段５０に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データ、および教師出力データ記憶手段４９に記憶にされたｎ番目の層の出力に対する教師出力データを用いて、
　上述した２通りの誤差Ｅｗ（ｎ）のいずれかについて、（ｎ－１）番目の層からｎ番目の層への重み値をパラメータとし、この誤差Ｅｗ（ｎ）を最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層からｎ番目の層への重み値を求め、求めた重み値を重み値記憶手段４５に記憶させる。

　この際、重み値最適化手段３３Ｄは、求めた重み値を、ｎ番目の層の情報として、図５の変数（Ｄ）に登録する。重み値記憶手段４５のうちのｎ番目の層の情報を記憶する図５の変数（Ｄ）には、初期化後の重み値（最初の重み値）が記憶されているので、求めた重み値を上書きして記憶させる。記憶させる重み値の数は、（ｎ－１）番目の層のニューロン数Ｍ（ｎ－１）×ｎ番目の層のニューロン数Ｍ（ｎ）である。

　また、重み値最適化処理は、通常、ｎ＝２からｎ＝Ｎまでｎを１ずつ増やしながら実行する。すなわち、出力層（Ｎ番目の層）の重み値まで求める。しかし、必ずしもｎ＝Ｎまで実行する必要はなく、途中の層までの処理としてもよい。例えば、中間層の出力を抽出し、他のシステムで利用する場合等には、重み値最適化処理は、必ずしもｎ＝２からｎ＝Ｎまでの全てについて実行する必要はない。なお、前述した式（１）のように入力層には重み値がないので、ｎ＝２からの処理としている。ｎ＝２の場合は、（ｎ－１）＝１となり、入力層（１番目の層）から２番目の層への重み値、すなわち２番目の層の重み値を求めることになる。

　この重み値最適化処理を実行するためには、教師入力データ記憶手段５０に（ｎ－１）番目の層からｎ番目の層への教師入力データが記憶され、かつ、教師出力データ記憶手段４９にｎ番目の層の出力に対する教師出力データが記憶されている状態となっている必要がある。このうち、教師出力データについては、出力層用教師出力データ登録手段３３Ａにより出力層の出力に対する教師出力データ（ネットワーク全体に対する教師出力データ）が登録され、かつ、教師出力データ生成手段３３Ｂにより全ての中間層の出力に対する教師出力データが生成されて登録されている。従って、必要な教師出力データが全て揃っている。

　教師入力データについては、最初は、入力層用教師入力データ登録手段３３Ｃにより入力層の情報として２番目の層への教師入力データが教師入力データ記憶手段５０に登録される。従って、２番目の層への教師入力データと、２番目の層への教師出力データとが揃っているので、２番目の層の重み値を求めることができる。それから、後述する教師入力データ生成処理で、この重み値最適化処理により求めた２番目の層の重み値と、２番目の層への教師入力データとを用いて、３番目の層への教師入力データを生成して教師入力データ記憶手段５０に登録する。続いて、教師入力データ生成処理により生成した３番目の層への教師入力データと、３番目の層への教師出力データとを用いて、３番目の層の重み値を求める。この循環を繰り返すことにより（後述する図１２のステップＳ３０９～Ｓ３１２のループ処理を参照）、全ての中間層および出力層の重み値を求めることができる。

　図８には、以上の重み値最適化処理の導出過程が示されている。先ず、図３に示したＮＮの符合を用いて、誤差Ｅｗを記載すると、次の式（１２）のようになる。ここでは、誤差Ｅｗを２乗和による誤差としているので、最小二乗法による最適化処理を実行することを前提としているが、誤差Ｅｗは、誤差の２乗の和に限らず、例えば、誤差の絶対値の和や、誤差の４乗の和等としてもよく、誤差Ｅｗの定義は任意である。

　Ｅｗ＝（１／２）Σ_p｛Σ_iＹ_a(i),pＷ_a(i)b(j)－ｆ^-1（Ｙｔ_b(j),p）｝²　（１２）

　この誤差Ｅｗを最小にするパラメータＷ_a(i)b(j)を求めるので、式（１２）をパラメータＷ_a(i)b(j)で偏微分した式をゼロと置くことにより、次の式（１３）を得る。そして、この式（１３）をｉ＝１，２，３，４、ｊ＝１，２，３について書き出す。すなわち、中間層ｂの重み値Ｗ_a(1)b(1)、Ｗ_a(1)b(2)、Ｗ_a(2)b(1)、Ｗ_a(2)b(2)等で偏微分する。ここで特徴的なのは、前述した図６の式（７）とは異なり、Ｙ_a(i),pではなく、Ｗ_a(i)b(j)をパラメータとすることにより、Ｗ_a(i)b(j)で偏微分している点である。従って、同様な誤差Ｅの式について、ある処理では、出力値をパラメータとし、別の処理では、重み値をパラメータとするというパラメータの入れ替えを行っている。

　∂Ｅｗ／∂Ｗ_a(i)b(j)＝０　　　・・・・・・・・・・・・・・・（１３）

　上記の式（１３）より、図８に示すような次の行列表現の式（１４）が得られるので、最適解となるパラメータＷ_a(i)b(j)を求めることができる。［Ｗ_ab(j)］が、求める解の集合である縦ベクトルである。式（１４）は、ｊ＝１，２，３の各々について得られるので、Ｗ_ab(j)を求める処理を３回（中間層ｂのニューロン数だけ）繰り返す。［Ｒ_a,p］は、正方行列であり、教師入力データ記憶手段５０に記憶されている教師入力データＹ_a(i),p（入力層ａのｉ番目のニューロンから出力される中間層ｂへの教師入力データ）を代入して得られる。［Ｖ_ab(j),p］は、縦ベクトルであり、教師入力データ記憶手段５０に記憶されている教師入力データＹ_a(i),pを代入するとともに、教師出力データ記憶手段４９に記憶されている教師出力データＹｔ_b(j),pを代入して得られる。

　［Ｒ_a,p］［Ｗ_ab(j)］＝［Ｖ_ab(j),p］　　　・・・・・・・・・・（１４）

　さらに、複数の中間層ｂ（ｂ１，ｂ２）がある場合の中間層ｂ２の出力についての誤差Ｅｗ、および出力層ｃの出力についての誤差Ｅｗも同様であるため、以上の式（１２）、式（１３）、式（１４）を一般化する。この際、式（１２）～式（１４）では、入力層ａのニューロンの番号をｉとし、中間層ｂのニューロンの番号をｊとしていたが、一般化した後は、（ｎ－１）番目の層のニューロンの番号をｊとし、ｎ番目の層のニューロンの番号をｋとする。従って、ｊが示す意味は、一般化の前後で逆転している。

　前述した式（１２）を一般化すると、次の式（１５）となる。式（１５）は、ｎ番目の層の出力についての誤差Ｅｗ（ｎ）である。ｎ＝２，３，４，…，Ｎであり、Ｎは層の数である。

　Ｅｗ（ｎ）＝（１／２）Σ_p｛Σ_jＹ（ｎ－１,j；p）Ｗ（ｎ－１,ｊ；ｎ，ｋ）－ｆ^-1（Ｙｔ（ｎ，ｋ；p））｝²　　　・・・・・・・・・（１５）

　ここで、ｋ＝１～Ｍ（ｎ）であり、ｋは、ｎ番目の層のニューロンの番号であり、Ｍ（ｎ）は、ｎ番目の層のニューロン数である。Σ_pは、ｐ＝１～Ｍｐの和であり、ｐは、教師データセットの番号であり、Ｍｐは、教師データセット数である。Σ_jは、ｊ＝１～Ｍ（ｎ－１）の和であり、ｊは、（ｎ－１）番目の層のニューロンの番号であり、Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。Ｙ（ｎ－１,j；p）は、（ｎ－１）番目の層のｊ番目のニューロンの出力値である。Ｙｔ（ｎ，ｋ；p）は、ｎ番目の層のｋ番目のニューロンの出力に対する教師出力データである。

　この誤差Ｅｗ（ｎ）を最小にするパラメータＷ（ｎ－１,ｊ；ｎ，ｋ）を求めるので、式（１５）をパラメータＷ（ｎ－１,ｊ；ｎ，ｋ）で偏微分した式をゼロと置くことにより、次の式（１６）を得る。式（１６）は、前述した式（１３）を一般化した式である。そして、この式（１６）をｊ＝１～Ｍ（ｎ－１）、ｋ＝１～Ｍ（Ｎ）について書き出す。

　∂Ｅｗ（ｎ）／∂Ｗ（ｎ－１,ｊ；ｎ，ｋ）＝０　　　・・・（１６）

　上記の式（１６）より、図８の最下部および図９に示すような次の行列表現の式（１７）が得られるので、最適解となるパラメータＷ（ｎ－１,ｊ；ｎ，ｋ）を求めることができる。式（１７）は、前述した図８の式（１４）を一般化した式である。

　［Ｒ（ｎ－１；ｐ）］［Ｗ（ｎ－１；ｎ，ｋ）］＝［Ｖ（ｎ－１；ｎ，ｋ；ｐ）］　　　・・・・・・・・・・・・・・・・・・・・・（１７）

　ここで、［Ｒ（ｎ－１；ｐ）］は、重み最適化用行列であり、Ｍ（ｎ－１）行×Ｍ（ｎ－１）列の正方行列である。Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。Ｙ（ｎ－１，ｊ；ｐ）は、（ｎ－１）番目の層のｊ番目のニューロンから出力されるｎ番目の層の各ニューロンへの教師入力データであり、ｊ＝１～Ｍ（ｎ－１）である。p＝1～Ｍｐであり、pは、教師データセットの番号であり、Ｍｐは、教師データセット数である。この重み最適化用行列Ｒ（ｎ－１；ｐ）の各要素の値は、教師入力データ記憶手段５０に記憶されている教師入力データＹ（ｎ－１，ｊ；ｐ）を代入して得られる。

　また、［Ｗ（ｎ－１；ｎ，ｋ）］は、重みベクトルであり、Ｍ（ｎ－１）次元の縦ベクトルである。この重みベクトルＷ（ｎ－１；ｎ，ｋ）は、重み値最適化処理で求める（ｎ－１）番目の層の各ニューロンからｎ番目の層のｋ番目のニューロンへの重み値の集合である。Ｗ（ｎ－１，ｊ；ｎ，ｋ）は、（ｎ－１）番目の層のｊ番目のニューロンからｎ番目の層のｋ番目のニューロンへの重み値である。ｋ＝１～Ｍ（ｎ）であり、ｋは、ｎ番目の層のニューロンの番号、Ｍ（ｎ）は、ｎ番目の層のニューロン数である。式（１７）は、ｋ＝１～Ｍ（ｎ）について得られるので、重みベクトルＷ（ｎ－１；ｎ，ｋ）を求める処理をＭ（ｎ）回繰り返す。この重みベクトルＷ（ｎ－１；ｎ，ｋ）の各要素の値は、重み最適化用行列Ｒ（ｎ－１；ｐ）の逆行列を計算し、その逆行列を、重み最適化用ベクトルＶ（ｎ－１；ｎ，ｋ；ｐ）の左側からＶ（ｎ－１；ｎ，ｋ；ｐ）に掛けることにより求めることができる。また、ＬＱ分解等を用いて求めてもよい。重み最適化用行列Ｒ（ｎ－１；ｐ）の逆行列が存在しない場合には、何らかの方法で逆行列の近似値を求めてもよく、その方法は、前述した図７の教師出力生成用行列Ｑ（ｎ－１；ｎ）の逆行列が存在しない場合と同様である。

　さらに、［Ｖ（ｎ－１；ｎ，ｋ；ｐ）］は、重み最適化用ベクトルであり、Ｍ（ｎ－１）次元の縦ベクトルである。ｆ^－１は、活性化関数ｆの逆関数である。Ｙｔ（ｎ，ｋ；ｐ）は、ｎ番目の層のｋ番目のニューロンの出力に対する教師出力データである。この重み最適化用ベクトルＶ（ｎ－１；ｎ，ｋ；ｐ）の各要素の値は、教師入力データ記憶手段５０に記憶されている教師入力データＹ（ｎ－１，ｊ；ｐ）を代入するとともに、教師出力データ記憶手段４９に記憶されている教師出力データＹｔ（ｎ，ｋ；ｐ）を代入して得られる。

　また、各層の出力の計算式が、前の層の出力値の重み付き和Ｓではなく、より複雑な式である場合や、誤差Ｅｗ（ｎ）を２乗和で定義しなかった場合には、式（１７）のような簡潔な式で最適解を求めることができない場合が多いが、その場合には、例えば、勾配法（最急降下法）等の繰り返し計算により、最適に近い解を求めることができる。この場合の繰り返し計算による最適化処理は、各層について、層毎に独立して実行される処理であり、ネットワーク全体に渡って実行される処理ではない。従って、全ての層での最適化処理の実行時間を合計しても、従来の誤差逆伝播法等の繰り返し計算を行う場合に比べ、短時間で解を得ることができる。

　（学習手段３３／重み値最適化手段３３Ｄの構成：教師入力データ生成処理）
　重み値最適化手段３３Ｄは、教師入力データ生成処理では、上述した重み値最適化処理により求めた自層の重み値、および教師入力データ記憶手段５０に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力の計算式により自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして教師入力データ記憶手段５０に記憶させる。

　具体的には、重み値最適化手段３３Ｄは、教師入力データ生成処理では、上述した重み値最適化処理により決定した（ｎ－１）番目の層からｎ番目の層への重み値、および教師入力データ記憶手段５０に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に、（ｎ－１）番目の層からｎ番目の層への教師入力データを入力することにより、ｎ番目の層の出力値を算出し、算出したｎ番目の層の出力値を、（ｎ＋１）番目の層への教師入力データとして教師入力データ記憶手段５０に記憶させる。

　図１０には、前述した式（２）および式（３）を一般化した次の式（１８）が示されている。この式（１８）は、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式であり、上記の教師入力データ生成処理で用いる計算式である。但し、式（１８）は、（ｎ－１）番目の層の出力値の重み付き和Ｓを含む式となっているが、本発明では、各層の出力の計算式は、重み付き和Ｓを含む式に限定されるものではない。

　Ｙ（ｎ，ｋ；ｐ）＝ｆ（Σ_jＷ（ｎ－１，ｊ；ｎ，ｋ）Ｙ（ｎ－１，ｊ；ｐ））　　　・・・・・・・・・・・・・・・・・・・・・・・（１８）

　ここで、ｐ＝１～Ｍｐであり、pは教師データセットの番号、Ｍｐは教師データセット数である。ｊ＝１～Ｍ（ｎ－１）であり、ｊは、（ｎ－１）番目の層（自層の入力側の層）のニューロンの番号、Ｍ（ｎ－１）は、（ｎ－１）番目の層のニューロン数である。ｆは、活性化関数である。Ｙ（ｎ，ｋ；ｐ）は、ｎ番目の層（自層）のｋ番目のニューロンの出力値、すなわち求める（ｎ＋１）番目の層（自層の出力側の層）への教師入力データである。Ｗ（ｎ－１，ｊ；ｎ，ｋ）は、（ｎ－１）番目の層（自層の入力側の層）のｊ番目のニューロンからｎ番目の層（自層）のｋ番目のニューロンへの重み値である。Ｙ（ｎ－１，ｊ；ｐ）は、（ｎ－１）番目の層（自層の入力側の層）のｊ番目のニューロンの出力値、すなわちｎ番目の層（自層）への教師入力データである。

　また、教師入力データ生成処理は、ｎ＝２からｎ＝（Ｎ－１）までｎを１ずつ増やしながら実行する。ｎは層の番号、Ｎは層の数である。従って、ｎ＝Ｎの処理（出力層の処理）は不要である。ｎ＝Ｎの処理（出力層の処理）を実行すると、存在しない（Ｎ＋１）番目の層への教師入力データを生成することになるからである。なお、ｎ＝１の処理（入力層の処理）がないのは、入力層の出力側の層（２番目の層）への教師入力データは、入力層用教師入力データ登録手段３３Ｃにより教師入力データ記憶手段５０に登録されるからである。

　さらに、前述した重み値最適化処理は、通常、ｎ＝２からｎ＝Ｎまでｎを１ずつ増やしながら実行し、ニューラルネットワークの全ての層の重み値を調整決定するが、例えば、中間層の出力を抽出し、他のシステムで利用する場合等には、重み値最適化処理は、必ずしもｎ＝２からｎ＝Ｎまでの全てについて実行する必要はなく、途中の層までの処理としてもよかった。従って、これに合わせて、教師入力データ生成処理も、途中の層までの処理としてもよい。

　＜記憶手段４０の詳細構成＞

　（記憶手段４０／プログラム記憶手段４１の構成）
　プログラム記憶手段４１は、ＮＮの学習で用いられる各種のプログラムを記憶するものである。このプログラム記憶手段４１は、補助記憶装置１４０（図２参照）により実現されるが、処理中には、メインメモリ１２０上のプログラム領域もプログラム記憶手段４１となる。

　（記憶手段４０／ネットワーク構成情報記憶手段４２の構成）
　ネットワーク構成情報記憶手段４２は、図４に示すように、ＮＮのネットワーク構成情報として、ＮＮの層の番号と、各層のニューロン数と、各層の活性化関数とを関連付けて記憶するものである。このネットワーク構成情報記憶手段４２は、補助記憶装置１４０により実現されるが、メインメモリ１２０上にネットワーク構成情報が読み込まれたときには、メインメモリ１２０上の当該情報の記憶領域も、ネットワーク構成情報記憶手段４２となる。

　（記憶手段４０／取得教師データ記憶手段４３の構成）
　取得教師データ記憶手段４３は、図３に示すように、ＮＮの外部から取得した多数の教師データセット（ネットワーク全体に対する教師データ群）を記憶するものである。この取得教師データ記憶手段４３は、補助記憶装置１４０により実現されるが、メインメモリ１２０上に読み込んだ教師データセットを、教師出力データ記憶手段４９や教師入力データ記憶手段５０の領域とは別の領域に残しておく場合には、その別の領域も、取得教師データ記憶手段４３となる。

　（記憶手段４０／入力側層アドレス記憶手段４４の構成）
　入力側層アドレス記憶手段４４は、図５に示すように、ＮＮの各層についての自層の入力側の層のアドレスを、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この入力側層アドレス記憶手段４４は、メインメモリ１２０上に配置された図５の変数（Ｃ）の記憶領域により実現される。変数（Ｃ）の値の形式は、アドレス値である。

　（記憶手段４０／重み値記憶手段４５の構成）
　重み値記憶手段４５は、図５に示すように、ＮＮの各層についての重み値（自層の入力側の層の各ニューロンから自層の各ニューロンへの重み値）を、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この重み値記憶手段４５は、メインメモリ１２０上に配置された図５の変数（Ｄ）の記憶領域により実現される。変数（Ｄ）の値の形式は、２次元配列の実数型データである。また、調整決定後の重み値は、依頼者へデータ送信される等、利活用に供されるので、補助記憶装置１４０にも記憶される。従って、補助記憶装置１４０上の重み値の格納場所も、重み値記憶手段４５である。また、初期化手段３２による重み値の初期化処理を、乱数ではなく、稼働中のシステムの更新前の重み値や、同一または類似のネットワーク構成を有するシステムの重み値等を用いて実行する場合には、それらの初期化用の重み値を補助記憶装置１４０に格納しておくので、補助記憶装置１４０上の初期化用の重み値の格納場所も、重み値記憶手段４５である。

　（記憶手段４０／重み付き和記憶手段４６の構成）
　重み付き和記憶手段４６は、図５に示すように、ＮＮの各層についての重み付き和Ｓの値（自層の入力側の層の出力値の重み付き和Ｓの値であり、自層の活性化関数ｆに入力する前の値）を、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この重み付き和記憶手段４６は、メインメモリ１２０上に配置された図５の変数（Ｅ）の記憶領域により実現される。変数（Ｅ）の値の形式は、１次元配列の実数型データである。この変数（Ｅ）は、調整決定後の重み値およびテストデータを用いて、構築したＮＮのテストを行う場合等に使用される。

　（記憶手段４０／活性化関数種類記憶手段４７の構成）
　活性化関数種類記憶手段４７は、図５に示すように、ＮＮの各層についての活性化関数の種類を、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この活性化関数種類記憶手段４７は、メインメモリ１２０上に配置された図５の変数（Ｆ）の記憶領域により実現される。変数（Ｆ）の値の形式は、整数値である。なお、活性化関数は、層毎に異なる関数を設定することができ、例えば、シグモイド関数、ＲｅＬＵ関数、ハイパボリックタンジェント関数（ｔａｎｈ関数）、ＳＥＬＵ関数、ソフトマックス関数、ステップ関数、不連続関数等、様々な関数を各層の活性化関数の選択肢として用意しておくことができる。

　（記憶手段４０／出力値記憶手段４８の構成）
　出力値記憶手段４８は、図５に示すように、ＮＮの各層についての出力値（自層の入力側の層の出力値を用いて自層の出力の計算式により計算された自層の出力値であり、活性化関数ｆを使用する層の場合には、活性化関数へ入力した後の値）を、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この出力値記憶手段４８は、メインメモリ１２０上に配置された図５の変数（Ｇ）の記憶領域により実現される。変数（Ｇ）の値の形式は、１次元配列の実数型データである。この変数（Ｇ）は、調整決定後の重み値およびテストデータを用いて、構築したＮＮのテストを行う場合等に使用される。

　（記憶手段４０／教師出力データ記憶手段４９の構成）
　教師出力データ記憶手段４９は、図５に示すように、ＮＮの各層についての自層の出力に対する教師出力データを、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この教師出力データ記憶手段４９は、メインメモリ１２０上に配置された図５の変数（Ｈ）の記憶領域により実現される。変数（Ｈ）の値の形式は、２次元配列の実数型データである。また、生成した教師出力データは、依頼者にデータ送信する等、利活用に供されるので、補助記憶装置１４０にも記憶される。従って、補助記憶装置１４０上の教師出力データの格納場所も、教師出力データ記憶手段４９である。

　（記憶手段４０／教師入力データ記憶手段５０の構成）
　教師入力データ記憶手段５０は、図５に示すように、ＮＮの各層についての自層の出力側の層への教師入力データを、各層の識別情報（アドレスや層の番号）と関連付けて記憶するものである。この教師入力データ記憶手段５０は、メインメモリ１２０上に配置された図５の変数（Ｉ）の記憶領域により実現される。変数（Ｉ）の値の形式は、２次元配列の実数型データである。また、生成した教師入力データが、依頼者にデータ送信される等、利活用に供される場合には、教師入力データも補助記憶装置１４０に記憶される。従って、補助記憶装置１４０上の教師入力データの格納場所も、教師入力データ記憶手段５０である。

　＜学習の流れ：図１１、図１２＞

　図１１において、先ず、教師データ取得手段３１により、ニューラルネットワークの外部から取得した多数（Ｍｐ個）の教師データセットを、取得教師データ記憶手段４３（図３参照）に記憶させる（ステップＳ１）。この際、教師データセットは、情報処理装置１０の管理者が収集したデータでもよく、依頼者端末（または依頼者が管理するシステム）８０から通信回線１を介して受信したデータでもよく、依頼者から記録媒体９０に格納された状態で受け取ったデータでもよい。

　次に、初期化手段３２により、ネットワーク構成情報の取得処理と、各層の情報の初期化処理とを実行する（ステップＳ２）。これらの処理の詳細については、初期化手段３２の説明で既に詳述しているため、ここでは簡単に説明する。

　初期化手段３２は、ネットワーク構成情報の取得処理では、ネットワーク構成情報記憶手段４２（図４参照）からネットワーク構成情報（層の番号、各層のニューロン数、活性化関数の種類）を読み込み、読み込んだネットワーク構成情報に従って、メインメモリ１２０上に各層の情報の記憶領域（図５参照）を確保する。

　また、初期化手段３２は、各層の情報の初期化処理として、自層の入力側の層のメモリアドレスを入力側層アドレス記憶手段４４に記憶させる処理と、重み値を乱数で初期化して重み値記憶手段４５に記憶させる処理と、重み付き和Ｓの値を０で初期化して重み付き和記憶手段４６に記憶させる処理と、ネットワーク構成情報記憶手段４２（図４参照）から読み込んだネットワーク構成情報に基づき活性化関数の種類を識別する整数値を活性化関数種類記憶手段４７に記憶させる処理とを実行する。

　続いて、学習手段３３により、ニューラルネットワークの学習処理を実行する（ステップＳ３）。図１２には、この学習処理の流れが示されている。

　図１２において、先ず、出力層用教師出力データ登録手段３３Ａにより、取得教師データ記憶手段４３（図３参照）に記憶されている教師データセット（Ｍｐ個）のうちの教師出力データ（要素数は、Ｍｐ×出力層のニューロン数Ｍ（Ｎ））を、出力層（Ｎ番目の層）の出力に対する教師出力データとして教師出力データ記憶手段４９（図５の変数（Ｈ）参照）に記憶させる（ステップＳ３０１）。

　次に、ｎ＝Ｎ（Ｎは層の数）とし、出力層（Ｎ番目の層）から順に、教師出力データ生成手段３３Ｂによる各層の教師出力データの生成を開始する（ステップＳ３０２）。

　それから、教師出力データ生成手段３３Ｂにより、教師出力データ記憶手段４９に記憶されているｎ番目の層の出力に対する教師出力データを正規化する教師出力データ正規化処理を実行する（ステップＳ３０３）。但し、出力層（ｎ＝Ｎ）では、教師データセットのうちの教師出力データが教師出力データ記憶手段４９に記憶されているので、教師出力データ正規化処理は実行しない。この教師出力データ正規化処理の詳細については、教師出力データ生成手段３３Ｂの説明で既に詳述しているので、ここでは詳しい説明を省略する。

　続いて、教師出力データ生成手段３３Ｂにより、ｎ＝２であるか否かを判断する（ステップＳ３０４）。

　ここで、ｎ＝２でない場合には、教師出力データ生成手段３３Ｂは、ｎ番目の層の出力についての誤差Ｅｙ（ｎ）を最小にする最適化処理により、（ｎ－１）番目の層の出力に対する教師出力データを生成し、生成した教師出力データを教師出力データ記憶手段４９に記憶させる教師出力データ生成処理を実行する（ステップＳ３０５）。この教師出力データ生成処理の詳細については、教師出力データ生成手段３３Ｂの説明で既に詳述しているので、ここでは詳しい説明を省略する。

　そして、１つ前の層の処理に移行するため、ｎを1減らし（ステップＳ３０６）、前述したステップＳ３０３の処理に戻る。以降、前述したステップＳ３０４でｎ＝２であると判断されるまで、ステップＳ３０３～Ｓ３０６の処理を繰り返す。

　一方、前述したステップＳ３０４でｎ＝２であった場合には、ステップＳ３０３～Ｓ３０６のループを抜け、教師出力データ生成手段３３Ｂによる処理を終了する。ステップＳ３０３～Ｓ３０６のループでは、ｎを１ずつ減らしながら、教師出力データ生成手段３３Ｂによる教師出力データ正規化処理（ステップＳ３０３）および教師出力データ生成処理（ステップＳ３０５）を繰り返すので、教師出力データ正規化処理（ステップＳ３０３）は、ｎ＝２まで実行されることになり、教師出力データ生成処理（ステップＳ３０５）は、ｎ＝３まで実行されることになる。

　従って、ｎ＝２のときの教師出力データ正規化処理（ステップＳ３０３）では、２番目の層の出力に対する教師出力データを正規化することになり、ｎ＝３のときの教師出力データ生成処理（ステップＳ３０５）では、１つ前の層（２番目の層）の出力に対する教師出力データを生成することができるので（図７参照）、２番目の層の出力に対する教師出力データを生成することになる。入力層（１番目の層）では、前述した式（１）のように入力がそのまま出力となるので、入力層の出力に対する教師出力データの生成や正規化は必要ないからである。なお、時間的には、ｎ＝３のときの教師出力データ生成処理（ステップＳ３０５）の後に、ｎ＝２のときの教師出力データ正規化処理（ステップＳ３０３）が実行されるので、２番目の層の出力に対する教師出力データが生成されてから、その教師出力データの正規化が実行されることになる。

　そして、ステップＳ３０３～Ｓ３０６のループを抜け、教師出力データ生成手段３３Ｂによる処理を終了した後に、入力層用教師入力データ登録手段３３Ｃにより、取得教師データ記憶手段４３（図３参照）に記憶されている教師データセット（Ｍｐ個）のうちの教師入力データ（要素数は、Ｍｐ×入力層のニューロン数Ｍ（１））を、入力層の出力側の層（２番目の層）への教師入力データとして教師入力データ記憶手段５０のうちの入力層（１番目の層）の情報の記憶領域（図５の変数（Ｉ）参照）に記憶させる（ステップＳ３０７）。

　次に、ｎ＝２とし、２番目の層から順に、重み値最適化手段３３Ｄによる各層の重み値の最適化および教師入力データの生成を開始する（ステップＳ３０８）。

　それから、重み値最適化手段３３Ｄにより、ｎ番目の層の出力についての誤差Ｅｗ（ｎ）を最小にする最適化処理により、（ｎ－１）番目の層からｎ番目の層への重み値（ｎ番目の層の出力計算で用いる重み値）を求め、求めた重み値を重み値記憶手段４５に記憶させる重み値最適化処理を実行する（ステップＳ３０９）。この重み値最適化処理の詳細については、重み値最適化手段３３Ｄの説明で既に詳述しているので、ここでは詳しい説明を省略する。

　続いて、重み値最適化手段３３Ｄにより、ｎ＝Ｎであるか否かを判断する（ステップＳ３１０）。

　ここで、ｎ＝Ｎでない場合には、重み値最適化手段３３Ｄは、重み値最適化処理で得られて重み値記憶手段４５に記憶されているｎ番目の層の重み値、および教師入力データ記憶手段５０に記憶されているｎ番目の層への教師入力データを用いて、ｎ番目の層の出力の計算式でｎ番目の層の出力値を計算することにより、（ｎ＋１）番目の層（自層の出力側の層）への教師入力データを生成し、生成した教師入力データを教師入力データ記憶手段５０に記憶させる教師入力データ生成処理を実行する（ステップＳ３１１）。この教師入力データ生成処理の詳細については、重み値最適化手段３３Ｄの説明で既に詳述しているので、ここでは詳しい説明を省略する。

　そして、次の層の処理に移行するため、ｎを１増やし（ステップＳ３１２）、前述したステップＳ３０９の処理に戻る。以降、前述したステップＳ３１０でｎ＝Ｎであると判断されるまで、ステップＳ３０９～Ｓ３１２の処理を繰り返す。

　一方、前述したステップＳ３１０でｎ＝Ｎであった場合には、ステップＳ３０９～Ｓ３１２のループを抜け、学習処理を終了する。ステップＳ３０９～Ｓ３１２のループでは、ｎを１ずつ増やしながら、重み値最適化手段３３Ｄによる重み値最適化処理（ステップＳ３０９）および教師入力データ生成処理（ステップＳ３１１）を繰り返すので、重み値最適化処理（ステップＳ３０９）は、ｎ＝Ｎまで実行されることになり、教師入力データ生成処理（ステップＳ３１１）は、ｎ＝（Ｎ－１）まで実行されることになる。

　従って、ｎ＝Ｎのときの重み値最適化処理（ステップＳ３０９）では、出力層（Ｎ番目の層）の重み値を調整決定することになり、ｎ＝（Ｎ－１）のときの教師入力データ生成処理（ステップＳ３１１）では、自層の出力側の層（Ｎ番目の層）への教師入力データを生成することができるので、出力層（Ｎ番目の層）への教師入力データを生成することになる。時間的には、ｎ＝（Ｎ－１）のときの教師入力データ生成処理（ステップＳ３１１）の後に、ｎ＝Ｎのときの重み値最適化処理（ステップＳ３０９）が実行されるので、出力層（Ｎ番目の層）への教師入力データが生成されてから、出力層（Ｎ番目の層）の重み値の調整決定が行われることになる。

　＜本実施形態の効果＞

　このような本実施形態によれば、次のような効果がある。すなわち、情報処理装置１０は、教師出力データ生成手段３３Ｂを備えているので、ニューラルネットワークの全ての中間層の出力に対する教師出力データを生成することができる。従って、ネットワーク全体に対する教師データセットとして与えられる出力層の出力に対する教師出力データと合わせ、ＮＮの各層の出力に対する教師出力データを得ることができる。なお、前述した式（１）に示すように入力層には重み値はないので、入力層の出力に対する教師出力データは必要ない。

　また、教師出力データ生成手段３３Ｂは、初期化後の重み値を固定した状態で、各層について、層毎に独立した最適化処理により、各層の出力に対する教師出力データを生成するので、教師出力データの生成にあたり、繰り返し計算を全く行う必要がないか、または、繰り返し計算を行ったとしても、層毎に独立した最適化処理での局所的な繰り返し計算（ニューロン毎に計算単位を分割できる場合もある。）となる。このため、教師出力データ生成処理は、短時間で実行することができる。

　なお、教師出力データ生成手段３３Ｂによる最適化処理で中間層の出力に対する教師出力データを生成するという情報処理技術に関する思想、すなわち、ある層（ｎ番目の層）の出力の誤差Ｅｙ（ｎ）を最小にする解（最適解またはそれに近い解）を求め、求めた解を、前の層（（ｎ－１）番目の層）の出力に対する教師出力データであると考える思想（図６の式（８）、図７の式（１１）参照）は、容易に想到できる思想ではない。なぜなら、回帰やフィッティングの分野では、求めた解は、誤差Ｅｙ（ｎ）の定義に含まれる出力の計算式に入れ戻すのが通常の流れ（普通の考え方）であり、そのために最適化処理を行っているともいえる。従って、求めた解を、別の最適化処理（本発明では、前の層の出力の誤差を最小にする解を求める最適化処理）で使用する教師出力データであると考えることは、自然な流れではないからである。ここに本発明の大きな特徴があるとともに、それを実現するために、誤差の式を、重み値ではなく、出力値で偏微分し、ゼロと置くことに特徴がある。

　さらに、情報処理装置１０は、重み値最適化手段３３Ｄを備えているので、教師出力データ生成手段３３Ｂにより生成した教師出力データを用いて、出力層および全ての中間層の重み値を、層毎に独立した局所的な最適化処理（各層内の計算処理において、ニューロン毎に計算単位を分割できる場合もある。）で求めることができる。このため、重み値を調整決定する場面でも、繰り返し計算を全く行う必要がなくなるか、または、繰り返し計算を行ったとしても、層毎に独立した最適化処理での局所的な繰り返し計算（ニューロン毎に計算単位を分割できる場合もある。）となる。

　従って、教師出力データ生成手段３３Ｂにより各層の出力に対する教師出力データを生成する場面、あるいは、重み値最適化手段３３Ｄにより、教師出力データ生成手段３３Ｂにより生成した教師出力データを用いて各層の重み値を調整決定する場面の双方について、繰り返し計算を全く行う必要がなくなるか、または、層内に留まる局所的な繰り返し計算（各層内の計算処理において、ニューロン毎に計算単位を分割できる場合もある。）で済むようになる。このため、従来の誤差逆伝播法等のようなネットワーク全体に渡る繰り返し計算を行う必要はないので、従来に比べ、短時間での効果的な学習を行うことができる。

　また、繰り返し計算を行う場合は、繰り返し計算で必要となる更新率を試行錯誤しながら調整する手間がかかるが、情報処理装置１０では、少なくともネットワーク全体に渡って行われる繰り返し計算で必要となる更新率について、その値を試行錯誤しながら調整する手間を回避することができるので、学習時の作業者（情報処理装置１０の管理者）の手間を軽減することができる。

　さらに、少なくともネットワーク全体に渡って行われる繰り返し計算を回避することができるので、学習に要する時間が繰り返し数に全く依存しないか、または依存したとしても層毎の局所的な繰り返し計算（各層内の計算処理において、ニューロン毎に計算単位を分割できる場合もある。）での繰り返し数に依存するだけとなる。このため、学習に必要な時間数を予め見積もり易くすることができる。

　また、既存の学習方法では、ｆ（ｘ）＝ｘ²等といった特定の活性化関数を用いた場合、重み調整を行ってもニューラルネットワークの出力値に大きな誤差が生じるという問題があったが、情報処理装置１０では、全ての層を層毎の最適化処理（教師出力データ生成手段３３Ｂによる最適化処理、および重み値最適化手段３３Ｄによる最適化処理）で学習することができるため、活性化関数の種類によらずに誤差を低減することができる。

　さらに、教師出力データ生成手段３３Ｂにより生成した教師出力データは、図１に示すように、ニューラルネットワークの外部に抽出し、インターネット等の通信回線１、またはＤＶＤやＵＳＢメモリ等の記録媒体９０により流通させることができるため、各種システムを構成するニューラルネットワークの構築に利用することができる。

　また、誤差Ｅｙ（ｎ）および／または誤差Ｅｗ（ｎ）の式を、図６の式（６）、式（９）、図８の式（１２）、式（１５）のように、二乗和で定義し、最小二乗法による最適化処理を行えば、最適解またはそれに近い解を求める式が簡易な式になり、計算時間を短くすることができる。特に、前述した式（２）、式（３）のように、各層の出力の計算式が、自層の入力側の層の出力値の重み付き和Ｓを含む式である場合には、出力値または重み値のいずれをパラメータと考えても、パラメータについて１次結合の式となるので、教師出力データ生成手段３３Ｂによる最適化処理、および重み値最適化手段３３Ｄによる最適化処理の双方が、線形最小二乗法による最適化処理となることから、最適解を求める式が、より簡易になり、計算時間を、より短くすることができるとともに、誤差も小さくすることができる。

　さらに、教師出力データ生成手段３３Ｂは、教師出力データ正規化処理を実行するので、最適化処理を実行する際に、逆行列の計算を安定させることができる。すなわち、逆行列の計算時に、大きな値の教師出力データが与えられると、計算に失敗することがあるが、そのような事態を回避することができる。

　＜効果確認のための実験＞

　（実験例１：図１３～図１６）
　実験例１では、本発明により、図１３に示した関数（Ａ），（Ｂ），（Ｃ），（Ｄ）を学習させた。関数（Ｂ），（Ｄ）中のＲＮＤは、０から１までの一様乱数である。Ｘ１，Ｘ２に０から１までの一様乱数を当て嵌めた（Ｘ１，Ｘ２）の組を１，０００レコード作成し、これらを教師入力データとする。また、それらの（Ｘ１，Ｘ２）に関数（Ａ）を適用した結果として得られた（Ｙ１，Ｙ２）の組を１，０００レコード用意し、これらを教師出力データとする。関数（Ｂ），（Ｃ），（Ｄ）も同様である。以上は、すべてネットワーク全体に対する教師データである。

　実験例１でネットワーク構成情報記憶手段４２に記憶させるネットワーク構成情報は、図１４のようにした。

　また、比較のために、誤差逆伝播法による学習も行った。図１５には、実験例１の結果（計算時間）が示されている。誤差逆伝播法の更新率は、０．００１とした。誤差逆伝播法の結果は、１０００回重みを更新し終えた時点（１０００エポック）の数値である。図１５に示した結果によれば、本発明の方法のほうが、誤差逆伝播法よりも計算時間が大幅に少なく、平均二乗誤差（ＭＳＥ：mean squared error）も少ないことがわかる。

　さらに、図１６は、関数（Ａ）の学習について、誤差逆伝搬法による繰り返し計算で誤差が収束する様子をグラフ化したものである。また、比較のため、本発明の方法による計算誤差も示されている。図１６の比較結果によれば、本発明の方法のほうが、短時間で、かつ、小誤差であり、本発明の方法による計算結果が非常に優れていることがわかる。

　なお、実験例１および以下の実験例２，３で使用したコンピュータの仕様（スペック）は、次の通りである。ＣＰＵは、Intel Core i9-8950HK（１コアのみを使用）（登録商標）、メインメモリは、３２ＧＢ、ＯＳは、Windows10（登録商標）、コンパイラは、Visual Studio 2019（登録商標）である。

　（実験例２：図１７、図１８）
　実験例２では、図１７に示すように、活性化関数ｆをＸ^２に変更し、前述した実験例１と同様な学習を行った。実験例１で用いたシグモイド関数は、次の式（Ｆ－１）で示され、実験例２で用いたＸ^２関数は、次の式（Ｆ－２）で示される。なお、既に述べている通り、活性化関数ｆには、これら以外の様々な関数を採用することができる。

　ｆ（Ｘ）＝｛２／（１＋ｅ^-X）｝－１　　　・・・・・・・・（Ｆ－１）

　ｆ（Ｘ）＝Ｘ²（Ｘ≧０）、ｆ（Ｘ）＝－Ｘ²（Ｘ＜０）　・・（Ｆ－２）

　図１８には、実験例２の結果（計算時間）が示されている。誤差逆伝播法では学習に失敗し、出力値が全てnan（not a number）となったのに対し、本発明の方法では学習に成功した。一般に、誤差逆伝播法等の繰り返し計算による学習で学習に失敗すると、重み値が極端に大きな値をとり、復帰できなくなる現象等が知られている。

　（実験例３：図１９～図２３）
　実験例３では、図１９に示すように、UCI Machine Learning Repository (https://archive.ics.uci.edu/ml/index.php)から機械学習評価用のデータセットを取得して本発明の方法の評価を行った。図２０に示す９種類のネットワーク構造（ネットワーク構造ＩＤ＝β０～β８）を用意し、これらの９種類のネットワーク構造の各々について、図１９に示す７種類のデータセット（データセットＩＤ＝α１～α７）の各々を用いて学習を行った。

　図２０に示す９種類のネットワーク構造において、入力層のニューロン数および出力層のニューロン数は、図１９に示す各データセットの入力次元数および出力次元数にそれぞれ等しい。中間層の活性化関数ｆは、いずれもシグモイド関数とし、出力層の活性化関数ｆは、Linear（活性化関数なし）とした。この場合、図２０のネットワーク構造ＩＤ＝β０の計算は、重回帰分析と同じ結果となる。

　図２１には、実験例３の結果（学習時間［ｍｓ］）が示されている。c++ stl chrono（登録商標）により計測した値である。比較のため、本発明の方法、誤差逆伝播法(更新率０．００００１）、誤差逆伝播法(更新率０．０００１）について学習を行った。図２１に示した結果によれば、本発明の方法による学習時間が、短時間であることがわかる。

　図２２には、実験例３の結果（絶対値誤差）が示されている。太枠で囲まれた数値は、７種類のデータセット（データセットＩＤ＝α１～α７）の各々において、誤差が一番小さくなったネットワーク構造での誤差の値である。いずれのデータセットＩＤでも、本発明のほうが、誤差が小さくなった。

　図２３には、実験例３の結果（絶対値誤差）として、Yacht Hydrodynamics Data Set（データセットＩＤ＝α７）のネットワーク構造ＩＤ＝β４について、本発明の方法、誤差逆伝播法(更新率０．００００１）、誤差逆伝播法(更新率０．０００１）による各誤差の時間変化の様子が示されている。図中点線で示すように、誤差逆伝播法(更新率０．０００１）では、途中から誤差が振動している。一般に、誤差逆伝播法等の繰り返し計算（イタレーション）を伴う手法では、更新率を高めに設定すると、早く収束することも多いが、振動を起こしやすくなる。

　＜変形の形態＞

　なお、本発明は前記実施形態に限定されるものではなく、本発明の目的を達成できる範囲内での変形等は本発明に含まれるものである。

　（ＣＮＮへの適用）
　例えば、前記実施形態では、全結合層を対象とした説明となっていたが、本発明は、全結合層に限らず、例えば、畳み込み層（Convolutional layer）を有する畳み込みニューラルネットワーク（ＣＮＮ：Convolutional Neural Network）にも適用することができる。

　図２４には、畳み込み層ｃでの処理の内容が示されている。ここでは、ｃという添え字は、出力層ではなく、畳み込み層ｃを示している。また、ｂという添え字は、中間層ではなく、畳み込み層ｃの１つ前の層を示している。図２４では、一例として、２行×２列の畳み込み行列である重み行列Ｗが示されている。この重み行列Ｗは、畳み込み層ｃへの入力画像（畳み込み層ｃの１つ前の層ｂの出力画像）に対し、１画素ずつ位置をずらしながら適用されるフィルタの役割を果たすものである。従って、畳み込み層ｃの出力画像は、図２４に示した次の出力の計算式（Ｅ－１）～（Ｅ－４）で得られる。

　Ｙ_C(1,1)＝Ｗ₁₁Ｙ_b(1,1)＋Ｗ₁₂Ｙ_b(1,2)＋Ｗ₂₁Ｙ_b(2,1)＋Ｗ₂₂Ｙ_b(2,2)　（Ｅ－１）
　Ｙ_C(1,2)＝Ｗ₁₁Ｙ_b(1,2)＋Ｗ₁₂Ｙ_b(1,3)＋Ｗ₂₁Ｙ_b(2,2)＋Ｗ₂₂Ｙ_b(2,3)　（Ｅ－２）
　Ｙ_C(2,1)＝Ｗ₁₁Ｙ_b(2,1)＋Ｗ₁₂Ｙ_b(2,2)＋Ｗ₂₁Ｙ_b(3,1)＋Ｗ₂₂Ｙ_b(3,2)　（Ｅ－３）
　Ｙ_C(2,2)＝Ｗ₁₁Ｙ_b(2,2)＋Ｗ₁₂Ｙ_b(2,3)＋Ｗ₂₁Ｙ_b(3,2)＋Ｗ₂₂Ｙ_b(3,3)　（Ｅ－４）

　図２５には、ＣＮＮの教師出力データ生成処理の内容が示されている。先ず、畳み込み層ｃへの入力画像（１つ前の層ｂの出力画像）の各画素（ｉ，ｊ）と、畳み込み層ｃの出力画像の各画素（ｕ，ｖ）との関係を一般化し、全ての画素間に何らかの結合関係があるものと仮定する。従って、重み値は、Ｗ_b(i,j)c(u,v)と表現することができる。この重み値Ｗ_b(i,j)c(u,v)を用いて誤差Ｅｙを記述すると、図２５に示す式（Ｅ－５）のようになる。但し、前記実施形態で述べたように、誤差Ｅｙは、必ずしも２乗和により定義する必要はない。

　Ｅｙ＝（１／２）Σ_(u,v)Σ_p（Σ_(i,j)Ｙ_b(i,j),pＷ_b(i,j)c(u,v)－Ｙｔ_c(u,v),p）²
　　　　　　　　　　　　　　　　　　　・・・・・・・・（Ｅ－５）

　しかし、畳み込み層ｃの処理で使用する重み行列Ｗは、１画素ずつ、ずらしながら使用するフィルタであるため、ｂ（ｉ，ｊ）とｃ（ｕ，ｖ）との全ての結合関係を定めるものではない。例えば、図２４の例では、ｂ（１，１）とｃ（１，２）との間には結合がない。従って、ｂ（ｉ，ｊ）とｃ（ｕ，ｖ）との間に結合がない場合には、Ｗ_b(i,j)c(u,v)は、ゼロの値をとる。

　また、重み行列Ｗは、１画素ずつ、ずらしながら使用するフィルタであるため、ｂ（ｉ，ｊ）とｃ（ｕ，ｖ）との結合の中に、同じ値となる重み値が存在する。例えば、Ｗ_b(1,1)c(1,1)は、Ｗ₁₁であり、Ｗ_b(1,2)c(1,2)も、Ｗ₁₁であるから、これらは、同じ値である。従って、図２５に示す次の式（Ｅ－６）を用いて、重み置き換えを行う必要がある。

　Ｗ_b(i,j)c(u,v)＝Ｗ_{(i-u+1)(j-v+1)}　　　・・・・・・・・・・（Ｅ－６）

　但し、図２４の例で、ｉ－ｕ＋１≦０、ｊ－ｖ＋１≦０、ｉ－ｕ＋１≧３、ｊ－ｖ＋１≧３の場合には、重み行列Ｗの各要素Ｗ_１１，Ｗ_１２，Ｗ_２１，Ｗ_２２の添え字の上限下限を外れる。従って、この場合には、Ｗ_{(i-u+1)(j-v+1)}＝０とする。

　そして、式（Ｅ－５）で示した誤差Ｅｙを最小にするＹ_b(i,j),p（畳み込み層ｃの１つ前の層ｂの出力値）の解を求めるため、誤差ＥｙをＹ_b(i,j),pで偏微分してゼロとおくと、図２５に示す次の式（Ｅ－７）となる。そして、この式（Ｅ－７）を、（ｉ，ｊ）＝（１，１），（１，２），（１，３），（２，１），（２，２），（２，３），（３，１），（３，２），（３，３）について書き出す。すなわち、畳み込み層ｃの１つ前の層ｂの全画素について書き出す。

　∂Ｅｙ／∂Ｙ_b(i,j),p＝０　　　・・・・・・・・・・・・・（Ｅ－７）

　上記の式（Ｅ－７）により、図２５の最下部に示す式（Ｅ－８）のような行列表現の式が得られる。式（Ｅ－８）の中央の縦ベクトルＹｔが、求める教師出力データの集合であり、前記実施形態の図７の式（１１）の教師出力ベクトルＹｔ（ｎ－１；ｐ）に相当する。この縦ベクトルＹｔの次元数は、畳み込み層ｃの１つ前の層ｂの画素数であり、３×３＝９である。式（Ｅ－８）は、ｐ＝１～Ｍｐ（Ｍｐは教師データセット数）について得られるので、求める教師出力データの数は、Ｙｔの次元数９×Ｍｐである。

　式（Ｅ－８）の左側の正方行列Ｑは、前記実施形態の図７の式（１１）の教師出力生成用行列Ｑ（ｎ－１；ｎ）に相当する。この正方行列Ｑの要素数は、９画素×９画素なので、８１である。また、式（Ｅ－８）の右側の縦ベクトルＵは、前記実施形態の図７の式（１１）の教師出力生成用ベクトルＵ（ｎ－１；ｎ；ｐ）に相当する。この縦ベクトルＵの要素数は、画素数と同じ９である。

　式（Ｅ－８）を完成させる際には、先ず、式（Ｅ－８）の左側の正方行列Ｑの各要素と、右側の縦ベクトルＵの各要素とをゼロと置いておく。

　次に、式（Ｅ－７）を展開する。例えば、式（Ｅ－７）を５番目の画素を示す（ｉ，ｊ）＝（２，２）について書き出すと、図２５の最下部のような展開式が得られる。この展開式の中から、Ｙ_b(1,1),pの係数（Ｗ₂₂Ｗ₁₁等）を全部抽出し、式（Ｅ－８）の左側の正方行列Ｑの５番目の行におけるＹｔ_b(1,1),pに対応する要素（Ｙｔ_b(1,1),pと掛け合わされる要素）に加算していく。また、展開式の中から、Ｙ_b(1,2),pの係数（Ｗ₂₂Ｗ₁₂、Ｗ₂₁Ｗ₁₁等）を全部抽出し、正方行列Ｑの５番目の行におけるＹｔ_b(1,2),pに対応する要素（Ｙｔ_b(1,2),pと掛け合わされる要素）に加算していく。Ｙ_b(1,3),p、Ｙ_b(2,1),p、…、Ｙ_b(3,3),pの係数についても同様であり、すべて正方行列Ｑの５番目の行に加算していく。

　このような加算処理を、全画素（ｉ，ｊ）について実行する。すなわち、式（Ｅ－７）を１番目の画素を示す（ｉ，ｊ）＝（１，１）について書き出し、得られた展開式の中から各教師出力データ（Ｙｔ_b(1,1),p、Ｙ_b(1,2),p、…）に対応する係数を全部抽出し、正方行列Ｑの１番目の行に加算していく。同様に、式（Ｅ－７）を２番目の画素を示す（ｉ，ｊ）＝（１，２）について書き出し、得られた展開式の中から各教師出力データ（Ｙｔ_b(1,1),p、Ｙ_b(1,2),p、…）に対応する係数を全部抽出し、正方行列Ｑの２番目の行に加算していく。他の画素についても同様である。

　また、上記の展開式の中から、畳み込み層ｃの出力画像（２×２画素）に対する教師出力データＹｔ_c(u,v),p（Ｙｔ_c(1,1),p、Ｙｔ_c(1,2),p、Ｙｔ_c(2,1),p、Ｙｔ_c(2,2),p）を含む全部の項（Ｗ₂₂Ｙｔ_c(1,1),p、Ｗ₂₁Ｙｔ_c(1,2),p、Ｗ₁₂Ｙｔ_c(2,1),p、Ｗ₁₁Ｙｔ_c(2,2),p）を抽出し、式（Ｅ－８）の右側の縦ベクトルＵの５番目の要素に加算する。

　このような加算処理を、全画素（ｉ，ｊ）について実行する。すなわち、５番目の画素（ｉ，ｊ）＝（２，２）以外の画素についても同様な処理を行い、縦ベクトルＵの５番目の要素以外の要素に加算する。

　図２６には、ＣＮＮの畳み込み層ｃの重み値最適化処理の内容が示されている。先ず、前述した図２５の式（Ｅ－５）の場合と同様に、各画素（ｉ，ｊ）と各画素（ｕ，ｖ）との関係を一般化した重み値Ｗ_b(i,j)c(u,v)を用いて誤差Ｅｗを記述すると、図２６に示す式（Ｅ－９）のようになる。但し、前記実施形態で述べたように、誤差Ｅｗは、必ずしも２乗和により定義する必要はない。

　Ｅｗ＝（１／２）Σ_(u,v)Σ_p（Σ_(i,j)Ｙ_b(i,j),pＷ_b(i,j)c(u,v)－Ｙｔ_c(u,v),p）²
　　　　　　　　　　　　　　　　　　　・・・・・・・・・（Ｅ－９）

　続いて、前述した図２５の場合と同様に、ｂ（ｉ，ｊ）とｃ（ｕ，ｖ）との間に結合がない場合には、Ｗ_b(i,j)c(u,v)をゼロとする。また、前述した式（Ｅ－６）による重み値の置き換えを行う。

　そして、式（Ｅ－９）で示した誤差Ｅｗを最小にするＷ_b(i,j)c(u,v)の解を求めるため、誤差ＥｗをＷ_b(i,j)c(u,v)で偏微分してゼロとおくと、図２６に示す次の式（Ｅ－１０）となる。

　∂Ｅｗ／∂Ｗ₁₁＝０、∂Ｅｗ／∂Ｗ₁₂＝０、
　∂Ｅｗ／∂Ｗ₂₁＝０、∂Ｅｗ／∂Ｗ₂₂＝０　　　・・・・（Ｅ－１０）

　上記の式（Ｅ－１０）により、図２６の最下部に示す式（Ｅ－１１）のような行列表現の式が得られる。式（Ｅ－１１）の中央の縦ベクトルＷが、求める重み値の集合であり、前記実施形態の図９の式（１７）の重みベクトルＷ（ｎ－１；ｎ，ｋ）に相当する。この縦ベクトルＷの次元数は、畳み込み層ｃの画素数であり、２×２＝４である。

　式（Ｅ－１１）の左側の正方行列Ｒは、前記実施形態の図９の式（１７）の重み最適化用行列Ｒ（ｎ－１；ｐ）に相当する。この正方行列Ｒの要素数は、４画素×４画素なので、１６である。また、式（Ｅ－１１）の右側の縦ベクトルＶは、前記実施形態の図９の式（１７）の重み最適化用ベクトルＶ（ｎ－１；ｎ，ｋ；ｐ）に相当する。この縦ベクトルＶの要素数は、画素数と同じ４である。

　式（Ｅ－１１）を完成させる際には、先ず、式（Ｅ－１１）の左側の正方行列Ｒの各要素と、右側の縦ベクトルＶの各要素とをゼロと置いておく。

　次に、式（Ｅ－１０）を展開する。例えば、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₁₁＝０について書き出すと、図２６の最下部のような展開式が得られる。この展開式の中から、Ｗ₁₁の係数（Ｙ_b(1,1),pＹ_b(1,1),p、Ｙ_b(1,2),pＹ_b(1,2),p等）を全部抽出し、式（Ｅ－１１）の左側の正方行列Ｒの１番目の行におけるＷ₁₁に対応する要素（Ｗ₁₁と掛け合わされる要素）に加算していく。同様に、展開式の中から、Ｗ₁₂の係数（Ｙ_b(1,1),pＹ_b(1,2),p等）を全部抽出し、式（Ｅ－１１）の左側の正方行列Ｒの１番目の行におけるＷ₁₂に対応する要素（Ｗ₁₂と掛け合わされる要素）に加算していく。Ｗ₂₁、Ｗ₂₂も同様である。

　このような加算処理を、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₁₂＝０についても実行し、抽出した係数を、式（Ｅ－１１）の左側の正方行列Ｒの２番目の行の各要素に加算していく。また、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₂₁＝０についても実行し、抽出した係数を、式（Ｅ－１１）の左側の正方行列Ｒの３番目の行の各要素に加算していく。さらに、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₂₂＝０についても実行し、抽出した係数を、式（Ｅ－１１）の左側の正方行列Ｒの４番目の行の各要素に加算していく。

　また、上記の展開式の中から、畳み込み層ｃの出力画像（２×２画素）に対する教師出力データＹｔ_c(u,v),p（Ｙｔ_c(1,1),p、Ｙｔ_c(1,2),p、Ｙｔ_c(2,1),p、Ｙｔ_c(2,2),p）を含む全部の項（Ｙ_b(1,1),pＹｔ_c(1,1),p、Ｙ_b(1,2),pＹｔ_c(1,2),p、Ｙ_b(2,1),pＹｔ_c(2,1),p、Ｙ_b(2,2),pＹｔ_c(2,2),p）を抽出し、式（Ｅ－１１）の右側の縦ベクトルＶの１番目の要素に加算する。

　このような加算処理を、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₁₂＝０についても実行し、抽出した全部の項を、式（Ｅ－１１）の右側の縦ベクトルＶの２番目の要素に加算する。また、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₂₁＝０についても実行し、抽出した全部の項を、式（Ｅ－１１）の右側の縦ベクトルＶの３番目の要素に加算する。さらに、式（Ｅ－１０）の∂Ｅｗ／∂Ｗ₂₂＝０についても実行し、抽出した全部の項を、式（Ｅ－１１）の右側の縦ベクトルＶの４番目の要素に加算する。

　（ニューラルネットワークの分岐）
　図２７には、ニューラルネットワークが分岐している場合の学習処理の内容が示されている。独立したニューラルネットワークＡ，Ｂ，Ｃ，Ｄがあるとすると、出力側のネットワークＣおよびＤの各層について、前記実施形態の教師出力データ生成手段３３Ｂと同様な処理を行うことにより、それぞれ独立に教師出力データを生成する。また、分岐の節となっている層では、ネットワークＣおよびＤを構成するニューロンｃ１，ｃ２，ｄ１，ｄ２をまとめて仮想的に結合した層Ｖ２を考える。入力側のネットワークＡおよびＢも同様に、ネットワークＡおよびＢを構成するニューロンａ１，ａ２，ｂ１，ｂ２をまとめて仮想的に結合した層Ｖ１を考える。

　それから、仮想的に結合した層Ｖ２，Ｖ１について、前記実施形態の教師出力データ生成手段３３Ｂと同様な処理を行うことにより、教師出力データを生成する。続いて、入力側のネットワークＡおよびＢの各層について、前記実施形態の教師出力データ生成手段３３Ｂと同様な処理を行うことにより、それぞれ独立に教師出力データを生成する。

　また、重み値適正化処理の場合は、各層の計算順序を上記と逆にして同様な処理を行う。これにより、例えば、出力側のネットワークＣの出力層（ニューロンｃ３，ｃ４）と、ネットワークＤの出力層（ニューロンｄ３，ｄ４）とに、異なるタスクを与えることで、マルチタスクＮＮ（例えば、マルチタスクＣＮＮ）の学習を行うことができる。

　以上のように、本発明の情報処理装置および情報処理方法、並びにプログラムは、例えば、ネットワーク全体に対する教師データを用いてニューラルネットワークを構成する各層の重み値を調整決定する学習処理を実行する場合、あるいは、この学習処理で得られた重み値や、学習処理の実行過程で生成された、ネットワーク全体に対する教師データとは異なる教師データを抽出し、他のシステムでの利活用を図る場合等に用いるのに適している。

　１０　情報処理装置
　３３Ｂ　教師出力データ生成手段
　３３Ｄ　重み値最適化手段
　４５　重み値記憶手段
　４９　教師出力データ記憶手段
　５０　教師入力データ記憶手段

Claims

　ニューラルネットワークによる重み調整を含む情報処理を実行するコンピュータにより構成された情報処理装置であって、
　前記ニューラルネットワークを構成する各層の重み値を記憶する重み値記憶手段と、
　ネットワーク全体に対する教師データセットのうちの出力層の出力に対する教師出力データを含む各層の出力に対する教師出力データを記憶する教師出力データ記憶手段と、
　各層について、前記重み値記憶手段に記憶された初期化後の重み値、および前記教師出力データ記憶手段に記憶された自層の出力に対する教師出力データを用いて、自層の入力側の層の出力に対する教師出力データを生成し、生成した前記入力側の層の出力に対する教師出力データを前記教師出力データ記憶手段に記憶させる教師出力データ生成処理を実行する教師出力データ生成手段とを備え、
　この教師出力データ生成手段は、
　前記ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、出力層の番号をＮで示したとき、ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら、
　前記教師出力データ記憶手段に記憶されたｎ番目の層の出力に対する教師出力データと、前記重み値記憶手段に記憶された初期化後の重み値のうちの（ｎ－１）番目の層からｎ番目の層への重み値とを用いて、
　（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｙについて、（ｎ－１）番目の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層の出力値を求め、求めた（ｎ－１）番目の層の出力値を、（ｎ－１）番目の層の出力に対する教師出力データとして前記教師出力データ記憶手段に記憶させる処理を実行する構成とされている
　ことを特徴とする情報処理装置。
　前記教師出力データ生成手段は、
　前記誤差Ｅｙを、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値との差の二乗和を含む式で定め、この二乗和による誤差Ｅｙを、パラメータとしての（ｎ－１）番目の層の出力値で偏微分した式をゼロと置くことにより、二乗和による誤差Ｅｙを最小にするパラメータを求める最小二乗法による最適化処理を実行する構成とされている
　ことを特徴とする請求項１に記載の情報処理装置。
　前記教師出力データ生成手段は、
　前記最適化処理を実行する前に、前記教師出力データ記憶手段に記憶された教師出力データのうち、前記最適化処理を実行する処理対象層の各ニューロンからの出力に対する全ての教師出力データが、前記処理対象層の活性化関数の出力可能な範囲に収まるようにすることを前提として、
　前記処理対象層の各ニューロンからの出力に対する全ての教師出力データを、これらの全ての教師出力データのうちの最大絶対値で除することにより、全ての教師出力データを－１から１までの範囲内にするか、
　または、前記処理対象層の各ニューロンからの出力に対する全ての教師出力データの絶対値が、これらの教師出力データに適用する実数型データのフォーマットに応じて予め定めた閾値内に収まるように、全ての教師出力データを同一の値で除する教師出力データ正規化処理を実行する構成とされている
　ことを特徴とする請求項１または２に記載の情報処理装置。
　ネットワーク全体に対する教師データセットのうちの入力層への入力に対する教師入力データを含む各層への入力に対する教師入力データを記憶する教師入力データ記憶手段と、
　各層について、前記教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データ、および前記教師出力データ記憶手段に記憶にされた自層の出力に対する教師出力データを用いて、自層の入力側の層から自層への重み値を調整決定し、決定した重み値を前記重み値記憶手段に記憶させる重み値最適化処理を実行し、その後、この重み値最適化処理により決定した自層の入力側の層から自層への重み値、および前記教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして前記教師入力データ記憶手段に記憶させる教師入力データ生成処理を実行する重み値最適化手段とを備え、
　この重み値最適化手段は、
　前記ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、自層の出力側の層の番号を（ｎ＋１）、出力層の番号をＮで示したとき、ｎ＝２からｎを１ずつ増やしながら、
　前記重み値最適化処理として、
　前記教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データ、および前記教師出力データ記憶手段に記憶にされたｎ番目の層の出力に対する教師出力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｗについて、（ｎ－１）番目の層からｎ番目の層への重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層からｎ番目の層への重み値を求め、求めた重み値を前記重み値記憶手段に記憶させる処理を実行し、
　その後、前記教師入力データ生成処理として、
　前記重み値最適化処理により決定した（ｎ－１）番目の層からｎ番目の層への重み値、および前記教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に、（ｎ－１）番目の層からｎ番目の層への教師入力データを入力することにより、ｎ番目の層の出力値を算出し、算出したｎ番目の層の出力値を、（ｎ＋１）番目の層への教師入力データとして前記教師入力データ記憶手段に記憶させる処理を実行する構成とされている
　ことを特徴とする請求項１～３のいずれかに記載の情報処理装置。
　前記重み値最適化手段は、
　前記重み値最適化処理として、前記誤差Ｅｗを、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値との差の二乗和を含む式で定め、この二乗和による誤差Ｅｗを、パラメータとしての（ｎ－１）番目の層からｎ番目の層への重み値で偏微分した式をゼロと置くことにより、二乗和による誤差Ｅｗを最小にするパラメータを求める最小二乗法による最適化処理を実行する構成とされている
　ことを特徴とする請求項４に記載の情報処理装置。
　ニューラルネットワークによる重み調整を含む情報処理をコンピュータにより実行する情報処理方法であって、
　前記ニューラルネットワークを構成する各層の重み値を記憶する重み値記憶手段と、
　ネットワーク全体に対する教師データセットのうちの出力層の出力に対する教師出力データを含む各層の出力に対する教師出力データを記憶する教師出力データ記憶手段とを設けておき、
　教師出力データ生成手段が、各層について、前記重み値記憶手段に記憶された初期化後の重み値、および前記教師出力データ記憶手段に記憶された自層の出力に対する教師出力データを用いて、自層の入力側の層の出力に対する教師出力データを生成し、生成した前記入力側の層の出力に対する教師出力データを前記教師出力データ記憶手段に記憶させる教師出力データ生成処理を実行し、
　この際、前記教師出力データ生成手段は、
　前記ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、出力層の番号をＮで示したとき、ｎ＝Ｎからｎ＝３までｎを１ずつ減らしながら、
　前記教師出力データ記憶手段に記憶されたｎ番目の層の出力に対する教師出力データと、前記重み値記憶手段に記憶された初期化後の重み値のうちの（ｎ－１）番目の層からｎ番目の層への重み値とを用いて、
　（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｙについて、（ｎ－１）番目の層の出力値をパラメータとし、この誤差Ｅｙを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層の出力値を求め、求めた（ｎ－１）番目の層の出力値を、（ｎ－１）番目の層の出力に対する教師出力データとして前記教師出力データ記憶手段に記憶させる処理を実行する
　ことを特徴とする情報処理方法。
　ネットワーク全体に対する教師データセットのうちの入力層への入力に対する教師入力データを含む各層への入力に対する教師入力データを記憶する教師入力データ記憶手段を設けておき、
　重み値最適化手段が、各層について、前記教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データ、および前記教師出力データ記憶手段に記憶にされた自層の出力に対する教師出力データを用いて、自層の入力側の層から自層への重み値を調整決定し、決定した重み値を前記重み値記憶手段に記憶させる重み値最適化処理を実行し、その後、この重み値最適化処理により決定した自層の入力側の層から自層への重み値、および前記教師入力データ記憶手段に記憶された自層の入力側の層から自層への教師入力データを用いて、自層の出力値を算出し、算出した自層の出力値を、自層の出力側の層への教師入力データとして前記教師入力データ記憶手段に記憶させる教師入力データ生成処理を実行し、
　この際、前記重み値最適化手段は、
　前記ニューラルネットワークを構成する層の数をＮとし、自層の番号をｎ、自層の入力側の層の番号を（ｎ－１）、自層の出力側の層の番号を（ｎ＋１）、出力層の番号をＮで示したとき、ｎ＝２からｎを１ずつ増やしながら、
　前記重み値最適化処理として、
　前記教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データ、および前記教師出力データ記憶手段に記憶にされたｎ番目の層の出力に対する教師出力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式またはこの計算式に活性化関数が含まれる場合の前記活性化関数への入力値を計算する活性化関数入力値計算式による計算値と、ｎ番目の層の出力に対する教師出力データまたはこの教師出力データを前記活性化関数の逆関数に入力して得られる値とを用いて定めた誤差Ｅｗについて、（ｎ－１）番目の層からｎ番目の層への重み値をパラメータとし、この誤差Ｅｗを最小にするパラメータを求める最適化処理により、最適解またはそれに近い解として（ｎ－１）番目の層からｎ番目の層への重み値を求め、求めた重み値を前記重み値記憶手段に記憶させる処理を実行し、
　その後、前記教師入力データ生成処理として、
　前記重み値最適化処理により決定した（ｎ－１）番目の層からｎ番目の層への重み値、および前記教師入力データ記憶手段に記憶された（ｎ－１）番目の層からｎ番目の層への教師入力データを用いて、（ｎ－１）番目の層の出力値を用いたｎ番目の層の出力の計算式に、（ｎ－１）番目の層からｎ番目の層への教師入力データを入力することにより、ｎ番目の層の出力値を算出し、算出したｎ番目の層の出力値を、（ｎ＋１）番目の層への教師入力データとして前記教師入力データ記憶手段に記憶させる処理を実行する
　ことを特徴とする請求項１に記載の情報処理方法。
　請求項１～５のいずれかに記載の情報処理装置として、コンピュータを機能させるためのプログラム。