WO2021039164A1

WO2021039164A1 - 情報処理装置、情報処理システム及び情報処理方法

Info

Publication number: WO2021039164A1
Application number: PCT/JP2020/027324
Authority: WO
Inventors: 高木　聡; 紘司清田; 裕隆堀江
Original assignee: ソニー株式会社
Priority date: 2019-08-26
Filing date: 2020-07-14
Publication date: 2021-03-04
Also published as: US20220334802A1; EP4024198A1; EP4024198A4; JPWO2021039164A1; CN114207609A

Abstract

内積演算に係る処理負担をより軽減すると共に、重み係数の量子化粒度を保証する。実施形態に係る情報処理装置は、冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路（２００）を備え、前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である。

Description

情報処理装置、情報処理システム及び情報処理方法

　本開示は、情報処理装置、情報処理システム及び情報処理方法に関する。

　近年、脳神経系の仕組みを模した数学モデルであるニューラルネットワークが注目されている。また、ニューラルネットワークにおける演算の処理負担を軽減するための種々の手法が提案されている。例えば、非特許文献１には、重み係数を２値化することで、処理負担を軽減する手法が記載されている。また、非特許文献２には、入力信号をログドメインに変換することにより、乗算を加算に変換する手法が記載されている。

Matthieu　Courbariaux、外２名、"BinaryConnect:　Training　Deep　Neural　Networks　with　binary　weights　during　propagations"、［ｏｎｌｉｎｅ］、２０１５年１１月２日、arXiv、［平成２９年３月２２日検索］、インターネット〈URL:　https://arxiv.org/pdf/1511.00363.pdf〉 Daisuke　Miyashita、外２名、"Convolutional　Neural　Networks　using　Logarithmic　Data　Representation"、［ｏｎｌｉｎｅ］、２０１６年３月３日、arXiv、［平成２９年３月２２日検索］、インターネット〈URL:　https://arxiv.org/pdf/1603.01025.pdf〉

　しかし、非特許文献１に記載の手法では、＋１または－１を用いた２値化を行っているため、重み係数の次元数が増加するにつれて量子化の粒度が荒くなることが想定される。また、非特許文献２に記載の手法では、乗算の回避において所定の効果を有するものの、処理負担の軽減については、さらなる余地があるものと想定される。

　そこで、本開示では、内積演算に係る処理負担をより軽減すると共に、重み係数の量子化粒度を保証することが可能な、新規かつ改良された情報処理装置、情報処理システム及び情報処理方法を提案する。

　上記の課題を解決するために、本開示に係る一形態の情報処理装置は、冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備え、前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である。

本開示の関連技術に係るニューラルネットワークにおける基本演算の概要について説明するための概念図である。本開示の関連技術に係る入力ベクトルと重みベクトルとの内積演算について説明するための概要図である。本開示の関連技術に係る２次元空間において２値量子化した重みベクトルについて説明するための図である。本開示の関連技術に係る２次元空間において４値量子化した重みベクトルについて説明するための図である。本開示の関連技術に係る３次元空間における重みベクトルの粒度のばらつきについて説明するための図である。本開示の関連技術に係るＮ次元空間における重みベクトルの粒度のばらつきについて説明するための図である。ベース技術に係る情報処理装置の機能ブロック図の一例である。ベース技術に係る情報処理装置が備える積和演算回路の回路ブロック図の一例である。ベース技術に係るアドレステーブルが保持するアドレス情報に係るオフセット表記の一例である。ベース技術に係る情報処理方法の処理イメージを示す図である。ベース技術に係る量子化粒度Δθについて説明するための図である。ベース技術に係るαに応じた量子化粒度Δθの最大値を示すグラフである。ベース技術に係る最大冪乗数について説明するための図である。ベース技術に係る入力数Ｎに対する乗算回数の例を示す図である。ベース技術に係る入力数Ｎに対する乗算回数の例を示す図である。ベース技術の発展例に係る重みベクトルを量子化した場合における積和演算回路の一例である。ベース技術の発展例に係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例である。ベース技術の発展例に係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例である。ベース技術の発展例に係る比較実験に用いたＲｅｓＮｅｔのネットワーク構造を示す図である。ベース技術の発展例に係るＭａｘ　Ｐｏｏｌｉｎｇ層を含まないＲｅｓＮｅｔネットワーク構成を示す図である。ベース技術の発展例に係るＭａｘ　Ｐｏｏｌｉｎｇ層を含むＲｅｓＮｅｔネットワーク構成を示す図である。ベース技術の発展例に係る画像認識率の比較結果を示す図である。ベース技術の発展例に係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例である。第１の実施形態に係るインデックスとテーブル値の関係を示す図である。第１の実施形態に係るインデックスとテーブル値の他の関係を示す図である。第１の実施形態に係る２の冪乗表現におけるテーブル値と線形表現におけるテーブル値とを同一のグラフにプロットした図である。第１の実施形態の第１の具体例に係る積和演算回路の概略構成例を示す回路図である。第１の実施形態の第２の具体例に係る積和演算回路の概略構成例を示す回路図である。第２の実施形態に係る量子化器の丸めの一例を示す図である。比較例としてのニューラルネットワーク回路の概略構成例を示すブロック図である。他の比較例としてのニューラルネットワーク回路の概略構成例を示すブロック図である。さらに他の比較例としてのニューラルネットワーク回路の概略構成例を示すブロック図である。第２の実施形態に係るニューラルネットワーク回路の概略構成例を示すブロック図である。第３の実施形態に係る積和演算回路の概略構成例を示す回路図である。第３の実施形態に係る量子化回路の概略構成例を示す回路図である。一般的なＤＮＮ、ＣＮＮの動作を説明するための概略図である。図３６における第１層の畳み込み層に入力される係数ｗ１を示す図である。図３６における第２層の畳み込み層に入力される係数ｗ２を示す図である。図３６における第１層の畳み込み層に入力される係数ｗ３を示す図である。図３６における畳み込みニューラルネットワークの入力（変数）ｘ０を示す図である。図３６における第１層からの出力（変数）ｘ１を示す図である。図３６における第２層からの出力（変数）ｘ２を示す図である。図３６における第３層からの出力（変数）ｘ３を示す図である。第４の実施形態に係る２の冪乗の数表の一例を示す図である。第４の実施形態に係る、ｓ．ｅ．ｍフォーマットとｓ．Ｂ．Ｑフォーマットと数値フォーマット情報（Numeric　Format　Information）とコンテナ（Numeric　Data　Container）との関係を示す図である。第４の実施形態に係る基本構造（Basic　Structure）のパケットの構造例を示す図である。第４の実施形態に係る継続構造（Continue　Structure）のパケットの構造例を示す図である。第４の実施形態に係る拡張構造（Extended　Structure）のパケットの構造例を示す図である。第４の実施形態に係るPayloadのみとしてアライメントされたパケットの構造例を示す図である。第４の実施形態に係るカスタム拡張構造（Custom　Structure）のヘッダの例を示す図である。第４の実施形態に係るカスタム拡張構造（Custom　Structure）のPayloadの例を示す図である。第４の実施形態に係る基本構造（Basic　Structure）のパケットの実装例を示す図である。第４の実施形態に係る継続構造（Continue　Structure）のパケットの実装例を示す図である。第４の実施形態に係る拡張構造（Extended　Structure）のパケットの実装例を示す図である。第４の実施形態に係る継続するペイロード領域（Payload）のみのパケットの実装例を示す図である。第４の実施形態に係るカスタム構造（Custom　Structure）のパケットの実装例を示す図である。第４の実施形態に係る継続するペイロード領域（Payload）のみのパケットの実装例を示す図である。第４の実施形態に係るバイトストリームを処理するシステムの概略構成例を示すブロック図である。本開示に係る量子化手法をバンドパスフィルタに適用した際の周波数特性（ゲイン特性）に係るシミュレーション結果を示す図である。本開示に係る量子化手法をバンドパスフィルタに適用した際の位相特性に係るシミュレーション結果を示す図である。本開示に係るＢＥＲ評価に利用したブロック図である。本開示に係るＢＰＳＫを変調方式に用いた際のＢＥＲ評価結果を示す図である。図６２におけるＳＮＲ７～９ｄＢのデータを拡大した図である。本開示に係るＱＰＳＫを変調方式に用いた際のＢＥＲ評価結果を示す図である。図６４におけるＳＮＲ１０～１２ｄＢのデータを拡大した図である。本開示に係る１６ＱＡＭを変調方式に用いた際のＢＥＲ評価結果を示す図である。図６６におけるＳＮＲ１６～１８ｄＢのデータを拡大した図である。本開示の一実施形態に係るハードウェア構成例を示す図である。

　以下に、本開示の一実施形態について図面に基づいて詳細に説明する。なお、以下の実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．ベース技術
　　　１．１　背景
　　　１．２　情報処理装置１０の機能構成例
　　　１．３　重みベクトルの量子化
　　　１．４　積和演算回路の構成例
　　　１．５　学習時における量子化
　　　１．６　ベース技術の効果
　　２．ベース技術の発展例
　　　２．１　概要
　　　２．２　重みベクトルの量子化
　　　２．３　重みベクトルおよび入力ベクトル双方の量子化
　　　２．４　発展例の効果
　　３．まとめ
　　４．第１の実施形態
　　　４．１　ベース技術の課題
　　　４．２　値テーブルの例
　　　４．３　積和演算回路の具体例
　　　　４．３．１　第１の具体例
　　　　４．３．２　第２の具体例
　　　４．４　作用・効果
　　５．第２の実施形態
　　　５．１　ベース技術の課題
　　　５．２　量子化回路の具体例
　　　５．３　作用・効果
　　６．第３の実施形態
　　　６．１　ベース技術の課題
　　　６．２　積和演算回路の具体例
　　　６．３　量子化方法への展開
　　　６．４　量子化回路の具体例
　　　６．５　作用・効果
　　　６．６　変形例
　　　　６．６．１　第１の変形例
　　　　６．６．２　第２の変形例
　　　　６．６．３　第３の変形例
　　　　６．６．４　第４の変形例
　　　　６．６．５　第５の変形例
　　　　６．６．６　第６の変形例
　　７．第４の実施形態
　　　７．１　ベース技術の課題
　　　７．２　数値フォーマット情報の具体例
　　　　７．２．１　ｓ．ｅ．ｍフォーマット
　　　　７．２．２　ｓ．Ｂ．Ｑフォーマット
　　　７．３　実データの管理手法：コンテナと数値フォーマット情報の関係
　　　７．４　バイトストリーム
　　　　７．４．１　基本構造（Basic　Structure）と継続構造（Continue　Structure）のパケットによるバイトストリーム
　　　　７．４．２　拡張構造のパケットによるバイトストリーム（Extended　Structure）
　　　　７．４．３　カスタム拡張構造のパケットヘッダによるPayload可変長ストリーム（Custom　Structure）
　　　７．５　バイトストリームの実装例
　　　　７．５．１　基本構造（Basic　Structure）及び継続構造（Continue　Structure）のバイトストリーム実装例
　　　　７．５．２　拡張構造（Extended　Structure）のバイトストリーム実装例
　　　　７．５．３　カスタム構造（Custom　Structure）のバイトストリーム実装例
　　　７．６　バイトストリームの処理システムの構成例
　　　７．７　作用・効果
　　８．通信技術への応用例
　　９．ハードウェア構成例

　１．ベース技術
　まず、本開示のベースとなる技術（以下、ベース技術という）について図面を参照して詳細に説明する。

　１．１　背景
　近年、深層学習（Ｄｅｅｐ　Ｌｅａｒｎｉｎｇ）などニューラルネットワークを用いた学習手法が広く研究されている。ニューラルネットワークを用いた学習手法は高い精度を有する一方、演算に係る処理負担が大きいことから、当該処理負担を効果的に軽減する演算方式が求められている。

　このため、近年においては、例えば、Ｂｉｎａｒｙ　ｗｅｉｇｈｔ　ｎｅｔｗｏｒｋや、ＸＮＯＲ　ｎｅｔなどの、演算量や情報量の軽減を目的とする演算方式も提案されている。

　ここで、一般的なニューラルネットワークにおける基本演算の概要について説明する。図１は、ニューラルネットワークにおける基本演算の概要について説明するための概念図である。図１には、ニューラルネットワークを構成する２つの層と、当該２つの層にそれぞれ属するセルｃ１_１～ｃ１_Ｎとセルｃ２_１とが示されている。

　この際、セルｃ２_１に入力される入力信号（以下、入力ベクトル、とも称する）は、下層に属するセルｃ１_１～ｃ１_Ｎに係る入力ベクトルと重み係数（以下、重みベクトル、とも称する）とに基づいて決定される。より詳細には、セルｃ２_１に入力される入力ベクトルは、セルｃ１_１～ｃ１_Ｎに係る入力ベクトルと重みベクトルとの内積演算結果にバイアスｂを加算し、さらに活性化関数ｈにより処理した値となる。

　すなわち、セルｃ１_１～ｃ１_Ｎに係る入力ベクトルと重みベクトルとをそれぞれ、ｘ＝（ｘ_１，ｘ_２，ｘ_３，．．．ｘ_Ｎ）、ｗ＝（ｗ_１，ｗ_２，ｗ_３，．．．ｗ_Ｎ）とした場合、セルｃ２_１に入力される入力ベクトルｚは、下記の数式（１）により定義される。

　この際、重みベクトルｗを法線とする超平面ｈを想定すると、Ｎ次元で表現される入力ベクトルｘと重みベクトルｗとの内積は、図２に示すように、超平面ｈを基準とした入力ベクトルｘを重みベクトルｗへ射影した射影距離ｄに｜｜ｗ｜｜を掛けた値により表現することができる。ここで、上記の｜｜ｗ｜｜は、ベクトルｗのノルムである。図２は、入力ベクトルｘと重みベクトルｗとの内積演算について説明するための概要図である。

　ここで、入力ベクトルｘと重みベクトルｗとが２次元である場合、非特許文献１のように、重みベクトルｗを＋１または－１の２値で量子化すると、重みベクトルｗは、図３のように表すことができる。図３は、２次元空間において２値量子化した重みベクトルｗについて説明するための図である。この際、重みベクトルｗの粒度は、平面における回転角度θで表現することができ、当該粒度は、図３に示すように、９０度となる。

　続いて、重みベクトルｗを｛０，１／４，１／２，１｝の４値で量子化する場合を考察する。図４は、２次元空間において４値量子化した重みベクトルｗについて説明するための図である。この場合、重みベクトルｗの粒度、すなわち回転角度θは、約１５度となり、２値量子化した場合と比較してより細かい粒度を保証することが可能となる。

　一方、重みベクトルｗの粒度は、次元数が増加するにつれ、ばらつきが大きくなることが想定される。図５は、３次元空間における重みベクトルｗの粒度のばらつきについて説明するための図である。例えば、図５に示すように、（１，１，０）と（０，０，１）とで定義される面における重みベクトルｗの量子化を考えた場合、（１，１，０）方向の辺の長さは、（０，０，１）方向の辺の長さの√２倍となるため、量子化時における粒度のばらつきが大きくなることがわかる。

　また、上記のような粒度のばらつき、すなわち不均一性は、次元数が増加するほど顕著となる。図６は、Ｎ次元空間における重みベクトルｗの粒度のばらつきについて説明するための図である。図６には、Ｎ次元空間において、（１，１，．．．，１，０）と（０，０，．．．，０，１）で定義される面が示されている。この際、（１，１，．．．，１，０）方向の辺の長さは、（０，０，．．．，０，１）方向の辺の長さの√（Ｎ－１）倍により表すことができる。例えば、Ｎ＝１００である場合には、１，１，．．．，１，０）方向の辺の長さは、（０，０，．．．，０，１）方向の辺の√９９倍（≒１０倍）となる。

　上記のような重みベクトルｗに係る粒度の不均一性は、ニューラルネットワークの性能低下の要因となり得ることから、より精度の高い量子化手法が望まれていた。本開示に係る技術思想は、上記の点に着目して発想されたものであり、Ｎ次元空間における重みベクトルの高い近似精度を維持しながらも効果的に処理負担を軽減することを可能とする。このために、本開示のベース技術に係る情報処理装置および情報処理方法は、Ｎ次元超球平面におけるベクトル方向の粒度に基づいて量子化された重みベクトルを用いて内積演算を行うことを特徴の一つとする。本開示のベース技術に係る情報処理装置および情報処理方法は、重みベクトルを、細かすぎず、かつ粗すぎない粒度で量子化することで、高い近似精度と処理負担の軽減を両立することが可能である。より詳細には、本開示のベース技術に係る情報処理装置および情報処理方法は、冪乗により表現された重みベクトルを用いた内積演算を行ってよい。以下、本開示のベース技術に係る情報処理装置および情報処理方法の有する上記の特徴について詳細に説明する。

　１．２　情報処理装置１０の機能構成例
　続いて、ベース技術に係る情報処理方法を実現する情報処理装置１０の機能構成例について述べる。図７は、ベース技術に係る情報処理装置１０の機能ブロック図の一例である。図７を参照すると、ベース技術に係る情報処理装置１０は、入力部１１０、演算部１２０、記憶部１３０、および出力部１４０を備える。以下、上記構成について、当該構成が有する機能を中心に説明する。

　（入力部１１０）
　入力部１１０は、操作者による種々の入力操作を検出する機能を有する。このために、入力部１１０は、操作者による入力操作を検出するための各種の装置を含んでよい。入力部１１０は、例えば、各種のボタン、キーボード、タッチパネル、マウス、スイッチなどにより実現され得る。

　（演算部１２０）
　演算部１２０は、複数の入力値と当該入力値にそれぞれ対応する複数の重み係数とに基づく内積演算を行い出力値を算出する機能を有する。演算部１２０は、特に、ニューラルネットワークの順伝播に係る内積演算を行う。この際、演算部１２０は、Ｎ次元超球表面におけるベクトル方向の粒度に基づいて量子化された重み係数に基づいて出力値を算出することを特徴の一つとする。より具体的には、演算部１２０は、冪乗により表現された重み係数に基づいて出力値を算出してよい。内積演算の特徴については、別途詳細に説明する。

　（記憶部１３０）
　記憶部１３０は、情報処理装置１０が備える各構成で用いられるプログラムやデータなどを記憶する機能を有する。記憶部１３０は、例えば、ニューラルネットワークに用いられる種々のパラメータなどを記憶する。

　（出力部１４０）
　出力部１４０は、操作者に対し種々の情報出力を行う機能を有する。このために、出力部１４０は、視覚情報を出力するディスプレイ装置を含んで構成され得る。ここで、上記のディスプレイ装置は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）ディスプレイ装置、液晶ディスプレイ（ＬＣＤ：Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置などにより実現され得る。

　以上、ベース技術に係る情報処理装置１０の機能構成例について説明した。なお、上記で説明した機能構成例はあくまで一例であり、その機能構成例は係る例に限定されない。情報処理装置１０は、図１に示す以外の構成をさらに備えてもよい。情報処理装置１０は、例えば、他の情報処理端末との情報通信を行う通信部などをさらに備えてもよい。すなわち、ベース技術に係る情報処理装置１０の機能構成は、柔軟に設計変更され得る。

　１．３　重みベクトルの量子化
　次に、ベース技術に係る重みベクトルの量子化について詳細に説明する。上述したように、ベース技術に係る情報処理装置１０は、冪乗により表現された重みベクトルｗによる量子化を行うことで、粒度の均一性を高く保つことができる。この際、演算部１２０は、複数の重みベクトル成分ｗ_ｉを値の小さい順番に並び替え、また当該複数の重みベクトル成分ｗ_ｉを最も値の大きい重み係数ｗ_ｉで正規化することを特徴の一つとする。ここで、並び替えて正規化された重みベクトルをｗ_ｊとすると、重みベクトルｗ_ｊは、下記の数式（２）～（４）により表される。

　但し、この際、上記の数式（２）におけるαは、０＜α＜１、であり、ｓ_ｊは、ｓ_ｊ∈｛－１，１｝であり、ｎ_ｊは、ｎ_ｊ∈｛０，１，２，．．．｝、であってよい。すなわち、演算部１２０は、ｎ_ｊを整数として量子化を行う。この際、演算部１２０が実行する内積演算は、下記の数式（５）により表される。なお、下記の数式（５）におけるＫは、正規化定数を示す。また、上記αの値については、下記の数式（５）を適宜変形した場合であっても、内積演算において最終的に上記の範囲に定まればよい。本開示に示す数式は、あくまで一例であり、柔軟に変形され得る。

　このため、演算部１２０による内積演算は、Ｎ回の加算演算と、－１／２ｌｏｇ（Ｎ－１）／ｌｏｇαのオーダーの乗算回数により処理が可能であることが予想される。

　このように、ベース技術に係る情報処理方法では、重みベクトルｗをαの冪乗表現により近似し、値の小さい順番に重みベクトルｗを並び替えることを特徴の一つとする。この際、ベース技術に係る情報処理方法では、Ｎに応じてαの指数をｔ値化することで、重みベクトルｗの量子化が行われる。

　例えば、Ｎ＝１００である場合、ベース技術に係る情報処理方法では、ｔ＝４（２ｂｉｔ），８（３ｂｉｔ），１６（４ｂｉｔ）などが採用されてもよい。上記のようにｔを設定することで、上記の数式（５）におけるｎ_１－ｎ_２，ｎ_２－ｎ_３，ｎ_３－ｎ_４．．．の多くは、同一の値により量子化されることで０となるため、乗算の回数を大幅に削減することが可能となる。より具体的な例を挙げると、Ｎ＝１００に対し、ｔ＝４である場合、ｎ_ｊ－１－ｎ_ｊが０以外の値を取り得るのは４回のみとなる。このため、本例の場合、内積演算に係る乗算回数は４回で済み、残りはすべて加算となるため、処理負担を効果的に軽減することができる。

　１．４　積和演算回路の構成例
　次に、ベース技術に係る演算方式を実現する積和演算回路について説明する。上述のように、重みベクトルｗを冪乗表現により量子化し、また並び替えを行った場合、重みベクトルｗに対応する入力ベクトルｘの並び替えも併せて行う必要がある。

　このため、情報処理装置１０は、値の小さい順番に並び替えられた複数の重みベクトルｗと対応する入力ベクトルｘのアドレス情報を保持するテーブルを有する積和演算回路を備えてよい。

　図８は、ベース技術に係る情報処理装置１０が備える積和演算回路２００の回路ブロック図の一例である。図８に示すように、ベース技術に係る積和演算回路は、重みベクトルｗと対応する入力ベクトルｘのアドレス情報を保持するテーブルＷＴを保持する記憶回路と、ＲＡＭ２１０、加算回路２２０、アキュムレータ２３０、αに係る乗算を行う第１の乗算回路２４０、および正規化定数に係る乗算を行う第２の乗算回路２５０を備える。

　（アドレステーブルＷＴ）
　ベース技術に係るアドレステーブルＷＴは、値の小さい順番に並び替えられた複数の重みベクトルｗと対応する入力ベクトルｘのアドレス情報、符号情報、および乗算指示情報を保持する。なお、上記のアドレス情報は、図８に示すように、Ｎｕｌｌ　Ｐｏｉｎｔｅｒを含んでもよい。この場合、アキュムレータ２３０には０が加算されることとなり、アキュムレータ２３０の値を単純にα倍することが可能となる。また、上記の符号情報は、上述した数式（５）におけるＳ_ｊに対応する値を示す情報である。

　また、上記の乗算指示情報は、第１の乗算回路２４０による処理内容を指示する情報である。ベース技術に係る乗算指示情報は、例えば、乗算の要否を指定する情報を含んでよい。図８には、乗算指示情報が０である場合には、第１の乗算回路２４０は乗算を行わず、乗算指示情報が１である場合には、第１の乗算回路２４０はαを乗算する場合の一例が示されている。

　なお、ベース技術に係る乗算指示情報は、上記の例に限定されず、種々の処理内容を指定する情報を含んでよい。ベース技術に係る乗算指示情報は、例えば、乗算の回数やシフト演算を指定する情報などを含み得る。

　（ＲＡＭ２１０）
　ＲＡＭ２１０は、アドレステーブルＷＴから入力されたアドレス情報に基づいて重みベクトル成分ｗ_ｊに対応する入力ベクトル成分ｘ_ｊを加算回路２２０に出力する。

　（加算回路２２０）
　加算回路２２０は、ＲＡＭ２１０から入力される入力ベクトル成分ｘ_ｊと第１の乗算回路２４０から出力される値に基づいて加算を実行する。この際、加算回路２２０は、アドレステーブルＷＴが保持する符号情報に基づいて上記の加算を行う。

　（アキュムレータ２３０）
　アキュムレータ２３０は、加算回路２２０から出力される演算結果を累積する。アキュムレータ２３０は、累積した値を第１の乗算回路２４０および第２の乗算回路２５０に出力する。また、アキュムレータ２３０には、累積した値を０にリセットするためのリセット信号が適宜入力される。

　（第１の乗算回路２４０）
　第１の乗算回路２４０は、アキュムレータ２３０が累積する値に対し、αを乗算する。この際、第１の乗算回路２４０は、上述したように、アドレステーブルＷＴが保持する乗算指示情報に基づいて上記の乗算を実行する。第１の乗算回路２４０は、演算結果を加算回路２２０に出力する。

　（第２の乗算回路２５０）
　第２の乗算回路２５０は、アキュムレータ２３０から出力される値に対し、正規化定数Ｋを乗算する。

　以上、ベース技術に係る積和演算回路２００の構成例について説明した。ベース技術に係る積和演算回路２００によれば、内積演算における乗算回数を効果的に削減し、処理負担を軽減することが可能となる。

　一方、アドレステーブルＷＴは、入力ベクトルｘのアドレス情報を保持することで容量が大きくなるため、消費電力が増加することも想定される。このため、アドレステーブルＷＴは、図９に示すように、アドレス間の相対位置を示すオフセットを含んでもよい。図９は、ベース技術に係るアドレステーブルＷＴが保持するアドレス情報に係るオフセット表記の一例である。

　図９に示すように、アドレステーブルＷＴは、上述した数式（５）においてｎ_ｊ－１－ｎ_ｊの値が連続して０である区間、すなわち乗算が行われない区間のアドレスをアドレス順にソートし、当該アドレス間のオフセットをアドレス情報として保持してもよい。ベース技術に係る上記のアドレステーブルＷＴによれば、アドレス情報に係る情報量を大幅に削減し、消費電力を効果的に低減することが可能となる。

　なお、アドレステーブルＷＴは、図８および図９に示した形式以外にも種々の形態を取り得る。アドレステーブルＷＴは、例えば、符号情報と乗算指示情報とを明確に分離して保持しなくてもよいし、上記以外のアドレス圧縮方法を採用してもよい。アドレステーブルＷＴは、ニューラルネットワークの構成や情報処理装置１０の性能などに応じて柔軟に変形され得る。

　１．５　学習時における量子化
　次に、ベース技術に係る学習時における重みベクトルｗの量子化について説明する。ベース技術に係る情報処理方法において、学習時における重みベクトル成分ｗ_ｉの更新については、下記の数式（６）により計算することが可能である。

　但し、上記の数式（６）におけるｗ_ｍａｘは、ｗ_ｉの最大値を示す。また、整数化ｉｎｔについては、切り上げ、または切り捨てのうちいずれか近い方を選んでもよい。ベース技術に係る情報処理方法では、最終学習時に、ｎ_ｉを並び替えることで、上述したアドレステーブルＷＴを生成することができる。

　なお、１に近いαを設定した場合においては、通常の浮動小数点演算を用いたＤＮＮ（Ｄｅｅｐ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）による学習アルゴリズムを用いて演算を行い、学習終了後のｗ_ｉを量子化する手法を採択することも可能である。すなわち、重みベクトルｗに係る量子化粒度が小さい場合には、ネットワーク構造を変形しなくても、認識精度が低下しない効果が期待される。

　１．６　ベース技術の効果
　次に、ベース技術に係る重みベクトルの量子化により奏される効果について詳細に説明する。上述したように、ベース技術に係る情報処理方法では、冪乗表現により量子化したｗ_ｉを値の小さい順番に並び替え正規化を行うことでｗ_ｊと定義する。この際、並び替えられた基底ベクトルをｑ_ｊとすると、重みベクトルｗは、下記の数式（７）により表される。

　すなわち、ベース技術に係る情報処理方法は、図１０に示すように、ｑ_１，ｑ_２，．．．ｑ_ｊ－１で張られる空間に投影された重みベクトルとｑ_ｊとにより形成される平面にベクトルを作成し、当該ベクトルをα^{ｎｊ－ｎｊ+１}倍する処理を繰り返す、と意味を有する。図１０は、ベース技術に係る情報処理方法の処理イメージを示す図である。

　このため、ベース技術に係る情報処理方法では、重みベクトルをｑ_１，ｑ_２，．．．ｑ_ｊ－１空間に投影した軸とｑ_ｊとで張られる平面において、重みベクトルの量子化粒度Δθは、図１１に示すように、反時計回転および時計回転方向にそれぞれ下記の数式（８）および（９）により表すことができる。但し、この際、数式（８）および（９）におけるｌは、数式（１０）により定義される。図１１は、ベース技術に係る量子化粒度Δθについて説明するための図である。なお、図１１では、第１象限に射影された重みベクトルが示されている。

　また、量子化粒度Δθ_１およびΔθ_２をｌで微分して０とおいた場合、それぞれの最大値は、下記の数式（１１）により定義される。

　図１２は、ベース技術に係るαに応じた量子化粒度Δθの最大値を示すグラフである。このように、ベース技術に係る情報処理方法によれば、Ｎ次元空間において、すべての直交する回転方向に量子化粒度が保証される。

　なお、冪乗演算を途中で停止した場合、図１３に示すように、量子化粒度Δθが残されることとなる。図１３は、ベース技術に係る最大冪乗数について説明するための図である。なお、図１３では、第１象限に射影された重みベクトルが示されている。この際、量子化粒度Δθを保証する最大冪乗数は、下記の数式（１２）を満たす最小なｍに対し、下記の数式（１３）を加算すればよい。従って、情報処理装置１０が実行する乗算回数は、下記の数式（１４）により求めることができる。

　例えば、α＝３／４である場合、入力数Ｎに対する乗算回数は、図１４に示すグラフのように決定される。また、例えば、α＝７／８である場合には、入力数Ｎに対する乗算回数は、図１５に示すグラフのように決定される。すなわち、演算部１２０による内積演算において、乗算回数は、重みベクトルの底の値に基づいて定まるといえる。図１４および図１５は、ベース技術に係る入力数Ｎに対する乗算回数の例を示す図である。

　以上説明したように、ベース技術に情報処理方法を実現する情報処理装置によれば、ニューラルネットワークの順伝播に係る内積演算において、乗算回数を大幅に削減することができ、積和演算回路２００による消費電力を効果的に低減することが可能となる。また、ベース技術に情報処理方法を実現する情報処理装置によれば、重みベクトルの量子化精度を向上させることができ、同一のビット数による従来の量子化手法と比較して、ニューラルネットワークによる認識精度および近似精度を向上させる効果が期待される。

　２．ベース技術の発展例
　２．１　概要
　次に、ベース技術の発展例について説明する。上記のベース技術では、重みベクトル成分ｗ_ｊをα^ｎにより表現することで、高い近似精度を実現するとともに、内積演算における乗算回数をｌｏｇのオーダーで軽減する手法について述べた。

　しかし、ベース技術において例示した手法は、内積空間の次元数が比較的大きい場合に有効である一方、ＣＮＮ（Ｃｏｎｖｏｌｕｔｉｏｎａｌ　Ｎｅｕｒａｌ　Ｎｅｔｗｏｒｋ）のような比較的次元数の小さい内積演算については、処理負担の軽減効果が十分ではない場合も想定される。

　そこで、ベース技術の発展例（以下、単に発展例という）では、内積空間の次元数が比較的小さい場合であっても内積演算の処理負担を効果的に低減することが可能な演算回路を提案する。

　具体的には、重みベクトル成分ｗ_ｉや入力ベクトル成分ｘ_ｉをα^－ｎ／ｐと表現してよい。この際、α＝２とすると、α^－ｎ／ｐが取り得る値は、下記の表１のように表すことができる。

　上記の表１は、すなわち、ｐの値を大きいほど、量子化の粒度を小さくできることを示している。このため、発展例では、重みベクトル成分ｗ_ｉや入力ベクトル成分ｘ_ｉをα^－ｎ／ｐにより量子化することで、ベース技術と比べ量子化誤差を小さくすることが可能となる。また、発展例における演算手法によれば、ベース技術で述べた内積演算と同等の処理をシフト演算および加算のみで行うことが可能となり、内積演算における処理負担を効果的に低減することが可能となる。

　２．２　重みベクトルの量子化
　まず、重みベクトルｗのみをα^－ｎ／ｐにより量子化する場合の手法について述べる。ここで、α＝２、ｐ∈｛１，２，３，．．．｝の自然数とし、下記の数式（１５）により内積演算を行う場合を説明する。なお、ｐは本開示における除数に対応する。また、下記の数式（１５）におけるｗ_ｉは、下記数式（１６）により表すものとする。また、下記の数式（１６）におけるｓ_ｉおよびｎ_ｉはそれぞれ、ｓ_ｉ∈｛－１，１｝、ｎ_ｉ∈｛０，１，２，．．．｝、とする。

　この際、ｗを、すべてのｗ_ｉに対して、｜ｗ_ｉ｜≦１、となるように正規化を行い、必要に応じてのちにｙに正規化乗数をかけるとすると、上記の数式（１５）は、下記の数式（１７）のように表すことができる。また、ここで、ｙ_ｒを下記の数式（１８）により定義する。

　ここで、ｒ∈｛０，１，．．．，ｐ－１｝、δ_ｉ，ｊ＝１　ｉｆ　ｉ＝ｊ，ｏｔｈｅｒｗｉｓｅ　０、とすると、ｙ_ｒは、負数を２の補数で表現した通常の固定小数点標記で表現可能となる。また、上記の数式（１８）における

は、負数を２の補数で表現した固定小数点標記されたｘ_ｉを

、すなわち、整数値化したｉｎｔ（ｎ_ｉ／ｐ）分、符号付２進数として右シフトすることで計算可能である。すなわち、入力ベクトルｘと重みベクトルｗに係る内積演算は、下記の数式（１９）として表すことができる。

　この際、上記の数式（１９）に示す内積演算は、例えば、図１６に示す積和演算回路３００により実現することが可能である。図１６は、発展例に係る重みベクトルを量子化した場合における積和演算回路の一例である。

　図１６を参照すると、積和演算回路３００は、シフト演算器３１０、剰余演算器３２０、セレクタ３３０および３４０、アキュムレータ群３５０、加減算器３６０、乗算器群３７０、および加算器３８０を備える。

　（シフト演算器３１０）
　シフト演算器３１０は、入力される入力ベクトル成分ｘ_ｉ、およびｎ_ｉに基づくシフト演算を行う。具体的には、シフト演算器３１０は、入力ベクトル成分ｘ_ｉを、ｉｎｔ（ｎ_i／ｐ）の値分、右にビットシフトする。

　（剰余演算器３２０）
　剰余演算器３２０は、入力されるｎ_ｉに基づいて、ｎ_ｉ　ｍｏｄ　ｐの演算を行い、剰余の値をセレクタ３３０および３４０に入力する。

　（セレクタ３３０および３４０）
　セレクタ３３０および３４０は、剰余演算器３２０による演算結果に基づいて、アキュムレータ群３５０が含む複数のアキュムレータのうち、回路を繋ぐアキュムレータを選択する。この際、セレクタ３３０および３４０は、剰余の値にそれぞれ対応したアキュムレータと回路が接続されるよう動作する。例えば、剰余が０である場合、セレクタ３３０および３４０は、アキュムレータｙ_０と回路が繋がるよう動作し、剰余が１である場合、セレクタ３３０および３４０は、アキュムレータｙ_１と回路が繋がるよう動作する。

　（アキュムレータ群３５０）
　アキュムレータ群３５０は、ｎ_ｉ　ｍｏｄ　ｐの剰余の値にそれぞれ対応した複数のアキュムレータを備える。すなわち、アキュムレータ群３５０は、剰余の値ごとにｙ_ｒを保持する。

　（加減算器３６０）
　加減算器３６０は、入力されるｓ_ｉ、シフト演算結果、およびｙ_ｒの値に基づく加減算を行う。この際、加減算器３６０には、上述のように、ｎ_ｉ　ｍｏｄ　ｐの剰余の値に基づいて選択されたアキュムレータが保持するｙ_ｒの値が入力される。また、加減算器３６０による演算結果に基づいて、上記選択されたアキュムレータのｙ_ｒが更新される。

　（乗算器群３７０）
　乗算器群３７０は、上述した処理により剰余ごとに更新されたｙ_ｒに対し、当該剰余に応じた加算乗数を乗算する。このために、乗算器群３７０は、ｎ_ｉ　ｍｏｄ　ｐの剰余ごとに対応した複数の乗算器を含む。例えば、乗算器群３７０は、アキュムレータ群３５０から入力されるｙ_０に対し１を乗算し、ｙ_１に対しては２^－１／ｐを乗算する。

　（加算器３８０）
　加算器３８０は、乗算器群３７０が剰余ごとに計算したｙ_ｒの値を加算し、最終的な演算結果ｙを出力する。

　以上、積和演算回路３００について説明した。上述したように、積和演算回路３００によれば、ｎ_ｉ　ｍｏｄ　ｐの剰余ごとに対応したアキュムレータにｙ_ｒをそれぞれ蓄積し最後にまとめて乗算を行うことで、乗算回数を最小限に抑えることが可能となる。なお、図１６に示した一例では、ｉについて逐次計算を行いｙ_ｒを更新しているが、上記計算の一部または全部を並列して計算することも可能である。

　２．３　重みベクトルおよび入力ベクトル双方の量子化
　次に、重みベクトルｗと入力ベクトルｘの双方をα^－ｎ／ｐにより量子化する場合の手法について述べる。ここで、α＝２、ｐ∈｛１，２，３，．．．｝の自然数とし、内積演算を行う場合を説明する。ここで、入力ベクトル成分ｘ_ｉおよび重みベクトル成分ｗ_ｉは、それぞれ下記の数式（２０）および（２１）で表すものとする。また、下記の数式（２０）および（２１）において、ｓ_ｘｉ，ｓ_ｗｉ∈｛－１，１｝、ｎ_ｉ，ｍ_ｉ∈｛０，１，２，．．．｝、とする。

　ここで、入力ベクトルｘおよび重みベクトルｗをそれぞれ、｜ｘ_ｉ｜≦１、｜ｗ_ｉ｜≦１、となるように正規化しておき、必要に応じて後にｙに正規化乗数をかけるとすると、内積演算は、下記の数式（２２）により表すことができる。また、ここで、ｙ_ｒを下記の数式（２３）により定義する。

　この際、ｒ∈｛０，１，．．．，ｐ－１｝、とおけば、ｙ_ｒは、負数を２の補数で表現した通常の固定小数点標記で表現可能となる。なお、上記において、ｐは自然数であってよい旨を述べたが、ｐは、冪乗表現で表されてもよい。例えば、ｐ＝２^ｑ、ｑ∈｛０，１，２，．．．｝、とした場合、ｉｎｔ（（ｍ_i＋ｎ_i）／ｐ）および（ｍ_i＋ｎ_i）ｍｏｄ　ｐの計算がビットの切り出しで可能となり除算が不要となるため計算が簡略される効果がある。

　この際、内積演算は、例えば、図１７に示す積和演算回路４００により実現することが可能である。図１７は、発展例に係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例である。

　図１７を参照すると、積和演算回路４００は、第１の加算器４１０、シフト演算器４２０、セレクタ４３０、ＸＯＲ回路４４０、アキュムレータ群４５０、乗算器群４６０、および第２の加算器４７０を備える。

　（第１の加算器４１０）
　第１の加算器４１０は、入力されるｍ_ｉとｎ_ｉとを加算する。この際、ｍ_ｉおよびｎ_ｉの加算結果は、図示するように、［ｂ_ｋ－１,．．．,ｂ_ｑ,ｂ_ｑ－１,．．．ｂ_０］のビット配列として表すことができる。

　（シフト演算器４２０）
　シフト演算器４２０は、第１の加算器４１０による演算結果に基づいて、固定小数点で表現された１をｉｎｔ（（ｍ_ｉ＋ｎ_ｉ）／ｐ）だけ右シフト演算する。この際、ｉｎｔ（（ｍ_ｉ＋ｎ_ｉ）／ｐ）の値は、第１の加算器４１０による演算結果である上記のビット配列のうち、［ｂ_ｋ－１,．．．,ｂ_ｑ］に該当する上位ビットの値となる。このため、シフト演算器４２０は、当該上位ビットの値を用いてシフト演算を行ってよい。

　（セレクタ４３０）
　セレクタ４３０は、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余の値に基づいて、アキュムレータ群４５０が含む複数のアキュムレータおよび加減算器のうち、加減算を実行させる加減算器を選択し、Ｅｎａｂｌｅ信号＝１を入力する。この際、上記の剰余の値は、第１の加算器４１０による演算結果であるビット配列のうち、下位ｑビットに対応する［ｂ_ｑ－１,．．．,ｂ_０］に該当するため、上記と同様に演算を簡略化することが可能である。

　（ＸＯＲ回路４４０）
　ＸＯＲ回路４４０は、入力されるＳ_ｘｉおよびＳ_ｗｉに基づいて、１または０をアキュムレータ群４５０の各アキュムレータに入力する。具体的には、ＸＯＲ回路４４０は、Ｓ_ｗｉＳ_ｘｉ＝－１となる場合に１を、Ｓ_ｗｉＳ_ｘｉ＝＋１となる場合に０を各アキュムレータに入力する。

　（アキュムレータ群４５０）
　アキュムレータ群４５０は、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余の値にそれぞれ対応した複数のアキュムレータを備える。また、アキュムレータ群４５０は、当該アキュムレータと対応する複数の加減算器（１ビットのアップダウンカウンタ）を含んで構成される。

　ここで、上記の各加減算器は、図中右下に示すように、セレクタ４３０から入力されるＥｎａｂｌｅ信号に基づいて、加減算の要否を判定する。具体的には、各加減算器は、入力されたＥｎａｂｌｅ信号が１である場合にのみ、ＸＯＲ回路４４０から入力されるＵ／Ｄの値に従い、対応するアキュムレータが保持する値Ｏに対し１ビットのみ加算または減算を行う。発展例に係るアキュムレータ群４５０によれば、上位ビットに対する１ビットの加減算でｙ_ｒの値を更新可能なことから、通常の加減算器が不要となり回路規模を小さくすることが可能となる。

　（乗算器群４６０）
　乗算器群４６０は、上述した処理により剰余ごとに更新されたｙ_ｒに対し、当該剰余に応じた値を乗算する。このために、乗算器群４６０は、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余ごとに対応した複数の乗算器を含む。例えば、乗算器群４６０は、アキュムレータ群４５０から入力されるｙ_０に対し１を乗算し、ｙ_１に対しては２^－１／ｐを乗算する。

　（第２の加算器４７０）
　第２の加算器４７０は、乗算器群４６０が剰余ごとに計算したｙ_ｒの値を加算し、最終的な演算結果ｙを出力する。

　以上、積和演算回路４００について説明した。上述したように、発展例に係る積和演算回路４００によれば、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余ごとに対応したアキュムレータにｙ_ｒをそれぞれ蓄積し最後にまとめて乗算を行うことで、乗算回数を最小限に抑えることが可能となる。なお、図１７に示した一例では、ｉについて逐次計算を行いｙ_ｒを更新しているが、上記計算の一部または全部を並列して計算することも可能である。

　また、図１７に示した積和演算回路４００では、アキュムレータに対応する複数の加減算器（１ビットのアップダウンカウンタ）を並列して実装する場合の例を述べたが、発展例に係る積和演算回路４００は、上記構成に代えて、図１６に示した積和演算回路３００のようにセレクタと単一の加減算器を備えてもよい。また、同様に、積和演算回路３００に複数の加減算器を並列して実装することも可能である。発展例に係る積和演算回路の構成は、ｐの値に応じてより回路規模が小さくなるよう適宜設計され得る。

　また、図１７に示した積和演算回路４００では、（ｍ_ｉ＋ｎ_ｉ）の下位ｑビットに基づいて、加減算器およびアキュムレータを選択する場合を述べた。一方、上記の数式（２２）は、下記の数式（２４）のように変形可能である。

　このため、内積演算は、図１８に示す積和演算回路５００のように、単一の加減算器により実現することも可能である。図１８は、発展例に係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例である。

　図１８を参照すると、積和演算回路５００は、加算器５１０、セレクタ５２０、記憶回路群５３０、シフト演算器５４０、ＸＯＲ回路５５０、加減算器５６０、およびアキュムレータ５７０を備える。

　（加算器５１０）
　加算器５１０は、入力されるｍ_ｉとｎ_ｉとを加算する。加算器５１０は、図１７に示した第１の加算器４１０と同様の動作を行ってよい。

　（セレクタ５２０）
　セレクタ５２０は、下位ｑビットに対応する［ｂ_ｑ－１,．．．,ｂ_０］の値に基づいて、記憶回路群５３０が含む複数の記憶回路のうち回路を接続する記憶回路を選択する。

　（記憶回路群５３０）
　記憶回路群５３０は、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余の値にそれぞれ対応した複数の記憶回路を備える。各記憶回路には、剰余ごとに対応した加算乗数がそれぞれ格納される。なお、記憶回路群５３０が備える各記憶回路は、上記加算乗数を定数として保持する読み取り専用回路であってもよいし、書き換え可能なレジスタであってもよい。加算乗数を定数として読み取り専用回路に記憶させる場合、回路構成が簡略化されるとともに消費電力を低減できるメリットがある。

　（シフト演算器５４０）
　シフト演算器５４０は、接続された記憶回路が格納する加算乗数を［ｂ_ｋ－１,．．．,ｂ_ｑ］に該当する上位ビットの値だけ右シフト演算を行う。

　（ＸＯＲ回路５５０）
　ＸＯＲ回路５５０は、入力されるＳ_ｘｉおよびＳ_ｗｉに基づいて、１または０を出力する。ＸＯＲ回路５５０は、図１７に示したＸＯＲ回路４４０と同様の動作を行ってよい。

　（加減算器５６０）
　加減算器５６０は、アキュムレータ５７０に保持されるｙに対し、シフト演算器５４０による演算結果およびＸＯＲ回路５５０からの入力に基づく加算または減算を繰り返し実行する。

　（アキュムレータ５７０）
　アキュムレータ５７０は、内積演算の結果ｙを保持する。

　以上説明したように、発展例に係る積和演算回路５００によれば、単一の加減算器５６０および単一のアキュムレータ５７０により、内積演算を実現することができ、より回路規模を小さくすることが可能となる。

　なお、上記の説明では、入力ベクトルｘと重みベクトルｗとで共通のｐを用いる場合を例に述べたが、発展例に係る情報処理方法においては、入力ベクトルｘと重みベクトルｗで異なるｐを用いることも可能である。この場合、入力ベクトルｘおよび重みベクトルｗは、それぞれ下記の数式（２５）および（２６）により表すことができる。

　この際、ｐ_ｍおよびｐ_ｎの最小公倍数をｐ_０、すなわち、ａｐ_ｍ＝ｐ_０、およびｂｐ_ｎ＝ｐ_０、とすれば、入力ベクトル成分ｘ_ｉおよび重みベクトル成分ｗ_ｉは、それぞれ下記の数式（２７）および（２８）により表される。

　従って、ｍ_ｉ＋ｎ_ｉの演算をａｍ_ｉ＋ｂｎ_ｉに置き換え、さらにｐをｐ_０に置き換えることで、ｐが異なる場合であっても、上述の説明と同様に計算が可能となる。また、ｐ_ｍおよびｐ_ｎを冪乗表現とする場合、ａｍ_ｉおよびｂｎ_ｉは、それぞれシフト演算により求めることができる。

　続いて、発展例に係る入力ベクトルｘの量子化方法について詳細に説明する。入力ベクトルｘおよび重みベクトルｗの双方を量子化する場合、重みベクトルｗの量子化は事前に計算することが可能であるが、入力ベクトルｘの量子化については、ランタイムで行う必要がある。このため、入力ベクトルｘの量子化を小規模の演算回路で実現する手法が求められる。

　ここで、｜ｘ_ｉ｜≦１を、ｃ＝［ｃ_ｋ－１,．．．,ｃ_０］のビット配列とする。なお、ｃは、ｃ_ｋ－１が１に対応する固定小数点標記である。

　この際、ｃのｍｓｂ（ｍｏｓｔ　ｓｉｇｎｉｆｉｃａｎｔ　ｂｉｔ：最上位ビット）から連続０のビット数をＬとする。また、ｃ＝［ｃ_ｋ－１,．．．,ｃ_０］をＬビット左シフトしたビット配列をｄとし、当該ビット配列をｍｓｂを０．５とする固定小数点として扱う。

　次に、下記の数式（２９）を満たす最小のｒをｒ_ｍｉｎとする。なお、ここで、ｒ∈｛０，．．．,ｐ－１｝であるが、最小のｒが見つからない場合においては、ｒ_ｍｉｎ＝ｐとしてよい。ここで、ｍ_ｉを下記の数式（３０）により定義すれば、｜ｘ_ｉ｜は、下記の数式（３１）として近似、すなわち量子化することが可能である。

　なお、上記で述べた計算は、ｃのｍｓｂから連続０のビット数をＬをカウントする構成と、ｐ回の固定値との比較を行う構成を備えることにより実現することが可能である。

　２．４　発展例の効果
　次に、発展例に係る重みベクトルｗおよび入力ベクトルｘの量子化により奏される効果について詳細に説明する。ここでは、重みベクトル成分ｗ_ｉおよび入力ベクトル成分ｘ_ｉを±２^－ｎ／ｐとして量子化を行う場合において、ｐ＝１、すなわちベース技術で説明した量子化手法を用いた場合と、ｐ＝２、すなわち発展例の量子化手法を用いた場合の認識率を比較した。

　具体的には、重みベクトルｗおよび入力ベクトルｘをｆｌｏａｔで学習した後、得られた係数をそれぞれのｐの値で最近傍の量子化点に量子化し、再学習なしで推論を行った場合の画像認識率を比較する実験を実施した。

　なお、データセットには、ＣＩＦＡＲ－１０画像セット（１０クラスの分類、学習データ＝５００００画像、テストデータ＝１００００画像）を採用した。

　また、ネットワークには、ＲｅｓＮｅｔ２３をベースとした１１層のＲｅｓＮｅｔを用いた。図１９は、発展例に係る比較実験に用いたＲｅｓＮｅｔのネットワーク構造を示す図である。図１９では、図中右側に各層に入力される入力サイズが、図中左にカーネルサイズがそれぞれ示されている。また、図１９に示すように、作成したネットワークは、Ｍａｘ　Ｐｏｏｌｉｎｇ層を含まないＲｅｓＢｌｏｃｋ、およびＭａｘ　Ｐｏｏｌｉｎｇ層を含むＲｅｓＢｌｏｃｋの両方を含んでいる。図２０および図２１は、Ｍａｘ　Ｐｏｏｌｉｎｇ層を含まないＲｅｓＢｌｏｃｋ、およびＭａｘ　Ｐｏｏｌｉｎｇ層を含むＲｅｓＢｌｏｃｋのネットワーク構成をそれぞれ示す図である。

　続いて、実験に用いた重みベクトルｗおよび入力ベクトルｘの量子化手法について詳細に説明する。

　まず、ｐ＝１により量子化を行った場合のデータについて説明する。ここでは、重みベクトルｗの量子化において、ｎ＝－３～１２の３２値（１６値×２±）を用いた。この際、量子化された重みベクトル成分ｗ_ｉ＝±（２^－ｎ）の取り得る値は、下記の表２に示すとおりである。

　また、入力ベクトルｘの量子化においては、Ｒｅｌｕブロックへの入力前において、ｎ＝－４～３の１６値（８値×２±）、ｎ＝－４～１１の３２値（１６値×２±）、ｎ＝－４～２７の６４値（３２値×２±）、の異なる３つの量子化を行った。この際、量子化された入力ベクトル成分ｘ_ｉ＝±（２^－ｎ）の取り得る値は、下記の表３～表５に示すとおりである。

　次に、ｐ＝２、すなわち発展例に係る手法を用いて量子化を行った場合のデータについて説明する。ここでは、重みベクトルｗの量子化において、ｎ＝－６～９の３２値（１６値×２±）を用いた。この際、量子化された重みベクトル成分ｗ_ｉ＝±（２^－ｎ／２）の取り得る値は、下記の表６に示すとおりである。

　また、入力ベクトルｘの量子化においては、Ｒｅｌｕブロックへの入力前において、ｎ＝－８～－１の１６値（８値×２±）、ｎ＝－８～７の３２値（１６値×２±）、ｎ＝－８～２３の６４値（３２値×２±）、の異なる３つの量子化を行った。この際、量子化された入力ベクトル成分ｘ_ｉ＝±（２^－ｎ／２）の取り得る値は、下記の表７～表９に示すとおりである。

　以上説明した量子化により、再学習なしで推論を行った場合の画像認識率の比較結果を図２２に示す。図２２では、縦軸に認識精度が、横軸に入力ベクトルｘの量子化数（Ｎ値）がそれぞれ示されている。また、図２２では、量子化前の認識精度が線分Ｃにより、ｐ＝１により量子化を行った場合の認識精度が線分Ｐ１により、ｐ＝２により量子化を行った場合の認識精度が線分Ｐ２により、それぞれ示されている。

　ここで、線分Ｐ１および線分Ｐ２を比較すると、入力ベクトルｘの量子化数を３２値や６４値とした場合、ｐ＝２で量子化を行う方が、ｐ＝１で量子化を行うよりも認識精度が著しく向上することがわかる。また、線分Ｐ２と線分Ｃを比較しても、認識精度に大きな劣化は観察されないことがわかる。これは、すなわち入力ベクトルｘの量子化数が十分である場合、発展例に係る量子化手法を採用することで、再学習を行わない場合であっても、認識精度を高く維持することが可能であることを示している。

　このように、発展例に係る量子化手法によれば、内積演算における処理負担を効果的に軽減するとともに学習器の性能を高く維持することが可能となる。

　３．まとめ
　以上説明したように、ベース技術及びその発展例に係る情報処理装置は、複数の入力値と、当該入力値にそれぞれ対応する、冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備える。量子化された重み係数の指数は、予め定められた除数ｐを分母に有する分数により表現される。また、積和演算回路は、除数ｐから定まる剰余に基づいて、異なる加算乗数を用いた積和演算を行う。係る構成によれば、内積演算に係る処理負担をより軽減すると共に、重み係数の量子化粒度を保証することが可能となる。

　４．第１の実施形態
　つづいて、本開示の第１の実施形態について、以下に図面を参照して詳細に説明する。なお、以降の説明では、ベース技術とその発展例とを含めて、単にベース技術と称する。

　４．１　ベース技術の課題
　ベース技術に係るに係る重みベクトルおよび入力ベクトルの双方を量子化した場合における積和演算回路の一例（図１８に相当）を、図２３に再掲する。図２３に示すように、ベース技術は、積和演算をテーブル引きにより実現する方法を例示している。具体的には、量子化の粒度を示すｐによってエントリ数と値が決まるテーブル（記憶回路群５３０）を備え、このテーブルを用いてＤＮＮ／ＣＮＮの推論処理を指向した積和演算を行っている。

　そこで以下の実施形態では、２のｐ乗根の冪乗からなる値テーブル以外のテーブルを例示しつつ、複数のテーブルを切り替える構成を例示することで、記憶回路群５３０が書換可能なレジスタであることによるメリットをより明確に示す。

　４．２　値テーブルの例
　上述したように、ベース技術は、ディープニューラルネット（ＤＮＮ）、畳み込みニューラルネット（ＣＮＮ）の積和演算量削減を目的として、新たな量子化手法を提案している。一般に、情報理論における量子化はアナログ量を離散値で近似表現することを指すが、ここでの量子化は、本来持つ値が表現されていた精度をより少ないビット量で表現することと定義される。例えば、もともと３２ｂｉｔの浮動小数点数で表されていた値を、１０ｂｉｔや８ｂｉｔの浮動小数点数や固定小数点数に値を切り詰めること、より極端には、２ｂｉｔや１ｂｉｔにまで値を切り詰めることを、量子化と称する。

　ベース技術では、ＤＮＮ／ＣＮＮ推論時の係数や変数を量子化することで、係数や変数を表現する数値の語長を短くしている。これにより、パラメータの格納にかかるメモリ容量の削減、積和演算時の演算量・演算エネルギーの低減等を達成することができる。

　そこで、ベース技術では、変数をｘ、定数をｗとして、以下の式（３２）（上述した式（２０）及び式（２１）に相当）に示すような量子化を実行していた。

　ここで、ｘ_ｉは入力ベクトルｘのｉ番目の要素、ｗ_ｉは係数ベクトルｗのｉ番目の要素、ｓは当該要素の正負符号を表し、ｍは入力ベクトルｘのｉ番目要素を量子化した際のインデックス（シンボル）、ｎは係数ベクトルｗのｉ番目要素を量子化した際のインデックス（シンボル）、ｐは量子化の粒度を示す。

　ベース技術では、図２３に示したように、量子化の粒度を示すｐをパラメータとし、これによってエントリ数と値が決まるテーブル（記憶回路群５３０）を用いてＤＮＮ／ＣＮＮの推論処理を指向した積和演算を行っている。具体的には、２の冪乗（正確には２のｐ乗根の冪乗）の関数空間に沿ったｐ個の値をテーブル値として保持し、変数や係数が持つ正負符号やダイナミックレンジに応じたスケーリングを行いつつ累積加算することで、２の冪乗方式による積和演算を実現している。なお、ベース技術では、テーブル値として、以下の式（３３）が例示されている。

　式（３３）のテーブル値をグラフにプロットすると、インデックスとテーブル値の関係は、図２４に示される関係のようになる。

　ここで、テーブルの値として別のものを考える。例えば、テーブルの値として、２の冪乗の関数空間に沿った値ではなく、線形の関数空間に沿った値を適用する。その場合、以下の式（３４）に示すような量子化が行われる。

　式（３４）において、各記号は、式（３２）に示した２の冪乗表現のときと同じく、ｘ_ｉは入力ベクトルｘのｉ番目の要素、ｗ_ｉは係数ベクトルｗのｉ番目の要素、ｓは当該要素の正負符号を表し、ｍは入力ベクトルｘのｉ番目要素を量子化した際のインデックス（シンボル）、ｎは係数ベクトルｗのｉ番目要素を量子化した際のインデックス（シンボル）、ｐは量子化の粒度を示している。

　本実施形態では、ベース技術の２の冪乗表現でのテーブルと定義域と値域を合わせた上で、線形の関数空間に沿ったｐ個の値をテーブル値とする。この値を用いて、変数や係数が持つ正負符号やダイナミックレンジに応じたスケーリングを行いつつ累積加算することで、線形方式による積和演算の実現が可能になる。この場合の回路構成は、図２３に例示した積和演算回路と同様の構成であってよい。ただし、記憶回路群５３０内のテーブル値は、以下の式（３５）で表される値となる。

　なお、式（３５）は、以下の式（３６）のように簡略化して表すことができる。

　式（３５）又は式（３６）に示すテーブル値をグラフにプロットすると、インデックスとテーブル値の関係は、図２５に示される関係のようになる。

　ここまで、線形表現という形で表記してきたが、後述する第３の実施形態において例示する表記方法を採用することで、符号部と指数部（exponent）と仮数部（mantissa）を持つ浮動小数点数表現に対しても適用することができる。

　図２６は、２の冪乗表現におけるテーブル値と線形表現におけるテーブル値とを同一のグラフにプロットした図である。図２６に示すように、線形の表現に対して、２の冪乗表現のテーブル値は下に凸の形状となっている。

　このようにテーブル値を変更することで容易に別の特性の積和演算回路を実現することができる。

　さらに別のテーブルの例としては、線形表現の値を軸として２の冪乗表現を上に凸に変換したものが考えられる。

　その他にも、基盤となる関数空間を変えることで、ＣＮＮ／ＤＮＮのタスクに適する様々なテーブルを作成することが可能である。ただし、積和演算回路としての特性上、この定義域区間で単調減少であることが求められる。

　なお、ベース技術でも説明したように、記憶回路群５３０が備える各記憶回路は、上記加算乗数を定数として保持する読み取り専用回路であってもよいし、書き換え可能なレジスタであってもよい。

　４．３　積和演算回路の具体例
　つづいて、第１の実施形態に係る積和演算回路の具体例について、幾つか例を挙げて説明する。

　４．３．１　第１の具体例
　図２７は、第１の具体例に係る積和演算回路の概略構成例を示す回路図である。図２７に示すように、第１の具体例に係る積和演算回路は、図２３に例示した積和演算回路と同様に、整数加算器（単に加算器ともいう）５１０、セレクタ５２０、記憶回路群５３０、シフト演算器５４０、ＸＯＲ回路５５０、加減算器５６０、およびアキュムレータ５７０を備える。

　（整数加算器５１０）
　整数加算器５１０は、入力されるｍ_ｉとｎ_ｉとを加算する。この際、ｍ_ｉおよびｎ_ｉの加算結果は、図示するように、［ｂ_ｋ－１，．．．，ｂ_ｑ，ｂ_ｑ－１，．．．，ｂ_０］のビット配列として表すことができる。

　（セレクタ５２０）
　セレクタ５２０は、下位ｑビットに対応する［ｂ_ｑ－１，．．．，ｂ_０］の値に基づいて、記憶回路群５３０が含む複数の記憶回路のうち回路を接続する記憶回路を選択する。

　（記憶回路群５３０）
　記憶回路群５３０は、（ｍ_ｉ＋ｎ_ｉ）　ｍｏｄ　ｐの剰余の値にそれぞれ対応した複数の記憶回路を備える。各記憶回路には、剰余ごとに対応した加算乗数が２を基数とする指数部をもつ浮動小数点表現の正規化数でそれぞれ格納される。ここで、記憶回路群５３０に格納される上記加減乗数は０．５より大きく１．０以下の範囲となるため、指数部として１ビット以上の語長を持つことで正規化数にて表現可能である。なお、記憶回路群５３０が備える各記憶回路は、上記加算乗数を定数として保持する読み取り専用回路であってもよいし、書き換え可能なレジスタであってもよい。加算乗数を定数として読み取り専用回路に記憶させる場合、回路構成が簡略化されるとともに消費電力を低減できるメリットがある。

　（シフト演算器５４０）
　本実施形態に係るシフト演算器５４０は、接続された記憶回路が格納する加算乗数を［ｂ_ｋ－１,．．．,ｂ_ｑ］に該当する上位ビットの値だけ右シフト演算を行う。

　（ＸＯＲ回路５５０）
　ＸＯＲ回路５５０は、入力されるＳ_ｘｉおよびＳ_ｗｉに基づいて、１または０を出力する。

　（加減算器５６０）
　加減算器５６０は、アキュムレータ５７０に保持されるｙに対し、シフト演算器５４０からの入力を、ＸＯＲ回路５５０からの入力に基づいて加算または減算を繰り返し実行する。ＸＯＲ回路５５０からの入力が０であれば加算、１であれば減算を行う。

　（アキュムレータ５７０）
　アキュムレータ５７０は、積和演算の結果ｙを保持する。

　また、第１の具体例に係る積和演算回路は、上記構成に加え、複数の異なるテーブルを保持するメモリ１５３０と、メモリ１５３０内のテーブル値を選択的に記憶回路群５３０の各記憶回路（レジスタ又はメモリ）に書き込むセレクタ１５３１とをさらに備える。

　（メモリ１５３０）
　メモリ１５３０は、例えば、上述した２の冪乗表現のテーブル１５３０ａと、線形表現のテーブル１５３０ｂとを保持する。

　（セレクタ１５３１）
　セレクタ１５３１は、上位の制御部等から入力された書込みテーブル制御値に従い、メモリ１５３０からテーブル１５３０ａ又は１５３０ｂを読み出し、この読み出したテーブル１５３０ａ／１５３０ｂを記憶回路群５３０の各記憶回路に書き込む。

　以上のような構成を備えることで、基盤となる関数空間を切り替えることが可能となるため、ＣＮＮ／ＤＮＮのタスクに応じて適切なテーブルを用いて積和演算を実行することが可能となる。

　４．３．２　第２の具体例
　図２８は、第２の具体例に係る積和演算回路の概略構成例を示す回路図である。図２８に示すように、第２の具体例に係る積和演算回路は、図２３に例示した積和演算回路と同様の構成において、記憶回路群５３０が、それぞれ複数の異なるテーブルを保持する複数（本例では２つ）の記憶回路群５３０Ａ及び５３０Ｂに置き換えられるとともに、記憶回路群５３０Ａ又は５３０Ｂとセレクタ５２０との接続を選択的に切り替えるセレクタ１５３２とをさらに備える。

　記憶回路群５３０Ａは、例えば、図２３と同様に、上述した２の冪乗表現のテーブルの値を格納する複数の記憶回路よりなる。一方、記憶回路群５３０Ｂは、例えば、上述した線形表現のテーブルの値を格納する複数の記憶回路よりなる。

　セレクタ１５３２は、上位の制御部等から入力されたテーブル切替信号に従い、記憶回路群５３０Ａ／５３０Ｂとセレクタ５２０との接続を切り替える。

　以上のような構成を備えることで、第１の具体例と同様に、基盤となる関数空間を切り替えることが可能となるため、ＣＮＮ／ＤＮＮのタスクに応じて適切なテーブルを用いて積和演算を実行することが可能となる。

　４．４　作用・効果
　以上のように、本実施形態によれば、テーブル（記憶回路群５３０）の加算定数として適当なものを選択することで、積和演算回路２１００における演算回路部分の構成を変更することなく、２の冪乗表現ではない、例えば線形な浮動小数点数を選択することが可能となる。

　それにより、２の冪乗表現や線形表現等に限定されず、ＤＮＮ／ＣＮＮの処理タスクに応じたテーブル値を選択することが可能となる。

　一般には、ＤＮＮ／ＣＮＮのための演算回路系を実装する際には、さまざまな処理タスクに対応させるため、ｆｌｏａｔ３２、ｆｌｏａｔ１６、短語長ｆｌｏａｔなど、さらにベース技術の２の冪乗表現による積和回路も含めて、複数の積和回路を具備したプロセッサエレメントを多数並べることになる。これに対し、本実施形態によれば、テーブルを切り替えるだけで２の冪乗表現による積和回路と短語長ｆｌｏａｔで全く同じ回路を流用できるため、全体として大幅な回路削減を達成することが可能となる。

　その他の構成、動作及び効果は、上述したベース技術と同様であってよいため、ここでは詳細な説明を省略する。

　５．第２の実施形態
　つづいて、第２の実施形態について、図面を参照して詳細に説明する。

　５．１　ベース技術の課題
　ベース技術では、式（２９）を満たす最小のｒを見つける必要があるが、実装では最適なｒの探索にあたって値比較のために２のｐ乗根の冪乗にさらに２の２ｐ乗根を乗じた値を準備する必要がある。そのため、既存のテーブル（記憶回路群５３０）を値探索に流用する場合には都度、２の２ｐ乗根を乗じる演算が必要になり、計算コストが著しく高くなってしまう。あるいは、予め２の２ｐ乗根を乗じたテーブルを使用する場合には、ベース技術を実現するシステムにおいて積和演算用のテーブルと量子化丸めのためのテーブルとの２つのテーブルを実装しておく必要があり、管理上、煩雑になり易いという課題がある。

　そこで本実施形態では、管理上の煩雑化を抑制しつつ、計算コストの低減を可能にする量子化回路及び方法について、例を挙げて説明する。

　５．２　量子化回路の具体例
　ベース技術では、入力ベクトルや各層（あるいは特徴マップ）での積和演算結果が、ランタイムで２の冪乗表現に量子化され、後段処理に送られたり、メモリに格納されたりする必要があった。ＤＮＮやＣＮＮの係数は値が途中で変わることがないので、予め２の冪乗表現に変換しておいて利用することが可能であるが、推論計算のなかで現れた数値については２の冪乗表現に変換する必要が生じる。この処理は、一般的に、ランタイム量子化と称される。本実施形態では、この量子化器の丸めについて、より発展させた形態を説明する。

　量子化器の丸めは情報量削減を狙った量子化であるので、量子化器への入力よりも出力のほうが情報量が少なくなる。具体的には、入力のある幅を持った数値が、ひとつの値で代表される。すなわち、ある範囲の数値がひとつの代表値に丸められるということになる。図２９は、量子化器の丸めの一例を示す図である。図２９に示すように、量子化器にある範囲ＲＡに含まれる値が入力されると、その値はＡに丸められ、シンボルｍ－１が割り当てられる。一方、範囲ＲＢに含まれる値が入力されると、その値はＢに丸められ、シンボルｍが割り当てられる。

　ベース技術における入力ベクトルｘのランタイム量子化では、上述した式（２９）を満たす最小のｒを見つける必要があるが、実装では最適なｒの探索にあたって２のｐ乗根の冪乗にさらに２の２ｐ乗根を乗じた値を準備する必要がある。これは、式（３７）（式（２９）と同じ）における実線で囲まれた部分に相当する。

　これは、２の冪乗表現の表現関数に沿った０．５丸めを意味し、図２９における中間点Ｂの値を算出していることになる。上の式（３７）において実線で囲まれた項目を除いたものをｒの値に応じて並べると、第１の実施形態において例示した積和演算のための値テーブル（式（３３）参照）と同じものとなる。

　これは、図３０に示すように、ベース技術で説明したテーブル（記憶回路群５３０）をランタイム量子化時の値探索に流用することができることを意味している。なお、図３０は、比較例としてのニューラルネットワーク回路の概略構成例を示すブロック図である。

　図３０に示すように、比較例としてのニューラルネットワーク回路は、冪表現変換部２００１と、乗算部２００２と、変数バッファ２００３と、係数メモリ２００４と、演算結果バッファ２００５と、積和演算回路２１００とを備える。積和演算回路２１００は、積和演算部２１０１と、冪表現変換部２１０２と、冪乗表現テーブル２１０３と、乗算部２１０４とを含む。

　（乗算部２００２）
　乗算部２００２は、冪乗表現テーブル２１０３から読み出されたテーブル値に以下の式（３８）に示す乗算を実行することで、２の冪乗表現の表現関数に沿った０．５丸めを実行し、得られた値を冪表現変換部２００１に入力する。

　（冪表現変換部２００１）
　冪表現変換部２００１は、入力された値を、乗算部２００２から入力された値を用いて２の冪乗表現に変換する。変換により得られた値は、変数バッファ２００３に格納される。したがって、変数バッファ２００３には、２の冪乗表現の変数が格納されることとなる。

　（積和演算部２１０１）
　積和演算部２１０１は、変数バッファ２００３に格納されている冪乗表現の変数と、係数メモリ２００４に格納されている冪乗表現の係数とをから、積和演算を実行する。その際、積和演算部２１０１は、冪乗表現テーブル２１０３に格納されているテーブル値を用いて、積和演算を実行する。冪乗表現テーブル２１０３に格納されているテーブルは、上述において式（３３）に示された値テーブルである。

　（乗算部２１０４）
　乗算部２１０４は、冪乗表現テーブル２１０３から読み出されたテーブル値に上述の式（３８）に示す乗算を実行することで、２の冪乗表現の表現関数に沿った０．５丸めを実行し、得られた値を冪表現変換部２００１に入力する。

　（冪表現変換部２１０２）
　冪表現変換部２１０２は、積和演算部２１０１から入力された値を、乗算部２１０４から入力された値を用いて２の冪乗表現に変換する。変換により得られた値は、演算結果バッファ２００５に格納される。したがって、演算結果バッファ２００５には、２の冪乗表現の変数が格納されることとなる。

　このように、積和演算回路２１００中に存在する２の冪乗表現テーブル２１０３（パラメータｐ）に２の２ｐ乗根を乗じることで、ランタイム量子化器としての冪表現変換部２００１及び２１０２を実現することができる。

　ただし、以上のような構成では、ランタイム量子化の都度乗算が生じるために、計算コストが著しく高い。そこで、図３１に示すように、冪乗表現テーブル２１０３内のテーブル値に式（３８）に示す定数を乗じたテーブル（冪表現変換用テーブル２２０２及び２２０４）を予め用意しておくことも考えられる。

　また、ランタイム量子化は、ＤＮＮ／ＣＮＮのための外部からの入力データの量子化、また積和後の丸めを含む量子化で行われる。これらは同じ処理である。そのため、図３２に示すように、冪表現変換部２００１及び２１０２で冪表現変換用テーブル２２０４を共用して時分割で使用することで、システム全体のテーブル保持量を削減することができる。

　ところで、冪表現変換用テーブル２２０２、２２０４は、量子化の粒度を決めるパラメータｐである２の冪乗表現テーブルに２の２ｐ乗根を乗じたものである。すなわち、冪乗表現テーブル２１０３から冪表現変換用テーブル２２０２、２２０４を導出するための変換式（３８）を式変形すると、以下の式（３９）のようになる。

　これは、パラメータ２ｐである２の冪乗表現テーブルの奇数部分サブセットを意味する。そのため、以下の式（４０）で表される偶数部分サブセットのテーブルとを連結して、すなわち、冪乗表現テーブル２１０３と冪表現変換用テーブル２２０２／２２０４とをまとめて、１つのテーブルとして扱うことができる。

　図３３は、偶数部分サブセットと奇数部分サブセットをまとめて１つのテーブルとした場合を示す図である。図３３に示すように、偶数部分サブセットと奇数部分サブセットを含む冪乗表現テーブル２２０３は、積和演算部２１０１と冪表現変換部２００１及び２１０２とで共用される。積和演算部２１０１と冪表現変換部２００１及び２１０２とのそれぞれに入力されるテーブル値は、例えば、シンボルインデックスのアドレスの偶奇に従って振り分けることができる。

　このように、２つのテーブルを１つのテーブルとしてまとめることで、例えば、定数として読取り専用回路に記憶させる場合には、論理圧縮に伴って回路構成を大幅に簡略化することが可能になるとともに、消費電力を低減できるというメリットを得ることができる。

　５．３　作用・効果
　以上のように、本実施形態によれば、ランタイム量子化を行う際に、積和演算のための２の冪乗表現テーブルを流用し、ランタイム量子化の比較用の値を生成することができる。

　この際、ベース技術では乗算が頻回に発生していたが、予め用意したテーブルを装備することで、都度の乗算を廃してランタイム量子化時の演算コストを大幅に下げることが可能となる。

　さらに、２の冪乗表現テーブルと比較値用テーブルを一体化させることで、管理するべきテーブルを１つにまとめることが可能となる。それにより、回路規模の削減や消費電力の低減が可能となる。

　その他の構成、動作及び効果は、上述したベース技術又は実施形態と同様であってよいため、ここでは詳細な説明を省略する。

　６．第３の実施形態
　次に、第３の実施形態について、以下に図面を参照して詳細に説明する。

　６．１　ベース技術の課題
　上述したベース技術では、内積演算に係る処理負担をより軽減すると共に、重み係数の量子化粒度を保証することが可能な、新規かつ改良された情報処理装置および情報処理方法が提案されている。

　しかし、ベース技術の手法では、内部の数値表現として固定小数点表現を使用する必要があり、長い語長が必要であるため規模の増加や消費電力の増大を招く。

　例えば、固定小数点表現以外の数値表現を用いたとすると、シフト演算は２の冪乗倍の演算であるので、一般的にはｙ＝ｘ＊２＾ｎとなる。それにより、冪乗演算器と乗算器が必要になり、規模の増大を招く。ここで、＊は乗算の、＾は冪乗の演算子とする。

　また、ベース技術では、入力ベクトルの量子化についても、固定小数点表現からの量子化のみが示されており、他の数値表現から低コストで量子化を行う手段が示されていなかった。

　ベース技術の手法を用いると、必要な固定小数点表現の語長は一例として以下のようになる。なお、以下の説明では、入力ベクトル成分ｘ_ｉおよび重みベクトル成分ｗ_ｉは、それぞれ上述した式（３２）で表されるものとする。また、式（３２）において、ｓ_ｘｉ，ｓ_ｗｉ∈｛－１，１｝であって、ｎ_ｉ，ｍ_ｉ∈｛０，１，２，．．．｝であるとする。

　また、量子化された入力値の指数に係る分子をｍ_ｉ、分母の予め定められた除数をｐとし、量子化された重み係数の指数に係る分子をｎ_ｉ、分母の予め定められた除数をｐとする。

　上述において図２３を用いて説明したベース技術に係る積和演算回路は、単一の加減算器５６０および単一のアキュムレータ５７０によって、より小さい回路規模での内積演算を実現している。ここで、例えば、ｐ＝１６、ｍ_ｉ及びｎ_ｉの語長をそれぞれ８ビットとすると、シフト演算器５４０の最大シフト量は３２ビットとなる。そして、例えば有効数字を６桁とすると、記憶回路群５３０に格納する加減乗数の語長は２０ビットであるため、シフト演算器５４０の出力語長は５２ビットとなる。アキュムレータ５７０の語長は何回加算を行うかに依存するため、例えば加算回数を最大２５５回とすると、シフト演算器５４０の出力語長に８ビットを加えた６０ビットとなる。

　一方で、浮動小数点による数の表現方法としては、ＩＥＥＥ７５４標準によるものが知られている。本標準によれば、２または１０を基数とする有限数を符号、仮数、指数の３つの整数で表現する。本標準の特徴として、２を基数とする二進浮動小数点形式においては、正規化された仮数の最上位ビットは必ず１となるため、これを省略して表現する。また、指数は、０または非正規化数の場合は０、正規化数の場合は指数に予め定められた固定値を加算したバイアス表現としている。これらの表現方式は、任意の語長の指数部、仮数部に容易に拡張し得る。以下、ＩＥＥＥ７５４規格と同様に、仮数部の正規化数の最上位ビットを省略し、指数部を、０または非正規化数の場合は０、正規化数の場合はバイアス表現を採用した浮動小数点表記をＩＥＥＥ７５４準拠と呼ぶものとする。

　そこで本実施形態では、回路規模の縮小と消費電力の低減とを可能にする積和演算回路及びその方法について、例を挙げて説明する。以下の実施形態によれば、より短い語長、言い換えると、より少ない回路規模、消費電力でベース技術と同定の効果を奏することも可能である。

　６．２　積和演算回路の具体例
　図３４は、第３の実施形態に係る積和演算回路の概略構成例を示す回路図である。図３４に示すように、第３の実施形態に係る積和演算回路は、整数加算器５１０、セレクタ５２０、記憶回路群５３０、２の冪乗倍演算器３５４０、ＸＯＲ回路５５０、浮動小数点加減算器３５６０、およびアキュムレータ５７０を備える。

　図３４に示す構成において、整数加算器５１０、セレクタ５２０、記憶回路群５３０、ＸＯＲ回路５５０及びアキュムレータ５７０は、第１の実施形態において図２７を用いて説明した構成と同様であってよい。

　（２の冪乗倍演算器３５４０）
　２の冪乗倍演算器３５４０は、図２７におけるシフト演算器５４０に相当する。したがって、２の冪乗倍演算器３５４０が実行する演算は、固定小数点表現におけるシフト演算に相当する。

　２の冪乗倍演算器３５４０は、接続された記憶回路が格納する加算乗数を、［ｂ_ｋ－１，．．．，ｂ_ｑ］に該当する上位ビットの値Ｓに対して、－Ｓを指数とする２の冪乗倍、すなわちＤ＊２＾－Ｓの演算を行う。ここで、ｐ＝２＾ｑとして、また、２の冪乗倍演算器３５４０において入力Ｄの浮動小数点表現の指数部の語長を、前記記憶回路での指数部の語長に加えて、－Ｓの最小値の指数が表現可能なサイズに拡張、すなわち－（１＋２＾（ｂｗ（ｍ_ｉ）－ｑ）＋２＾（ｂｗ（ｎ_ｉ）－ｑ））の指数が表現可能なサイズに拡張すれば、本演算は浮動小数点表現の指数部に対する整数減算器のみで実装でき、演算結果が非正規化数となることはない。ここで、ｂｗ（ｍ_ｉ）、ｂｗ（ｎ_ｉ）はそれぞれｍ_ｉ、ｎ_ｉの語長を表す値とする。

　（浮動小数点加減算器３５６０）
　浮動小数点加減算器３５６０は、加減算器５６０と同様に、アキュムレータ５７０に保持されるｙに対し、２の冪乗倍演算器３５４０からの入力を、ＸＯＲ回路５５０からの入力に基づいて加算または減算を繰り返し実行する。ＸＯＲ回路５５０からの入力が０であれば加算、１であれば減算を行う。

　例として、記憶回路群５３０の格納値、２の冪乗倍演算器３５４０、浮動小数点加減算器３５６０及びアキュムレータ５７０に、それぞれＩＥＥＥ７５４準拠の浮動小数点表現を用いたとして、ｐ＝１６、ｍ_ｉ、ｎ_ｉの語長をそれぞれ８ビットとすると、Ｓの最大値は３２ビットであり、２の冪乗倍演算器３５４０における浮動小数点の指数部は７ビットあればよく（バイアスは６３であるので２＾６３～２＾－６２の範囲が正規化数で表現可能）、また、記憶回路群５３０に格納する加減乗数の語長は、例えば有効数字を６桁とすると仮数部１９ビット、指数部１ビットでよく、浮動小数点加減算器３５６０とアキュムレータ５７０の語長は例えば加算回数を最大２５５回とすると、Ｓの最大値から決まる指数部の語長から、さらに拡張することなく、仮数部１９ビット、指数部７ビットとなる。

　６．３　量子化方法への展開
　以上のように、本実施形態によれば、積和演算の結果として浮動小数点表現の値が出力されるため、これを低コストで再量子化できることも望まれる。基数２の浮動小数点表現からの量子化は、以下のように行うことができる。

　まず、浮動小数点表現ｘ_ｉを絶対値が１．０以下になるように正規化しておく。この正規化は、ベース技術と同様であってよい。

　次に、量子化値の指数に係る分子をｍ_ｉ、分母の予め定められた除数をｐとし、ｍ_ｉの語長をｂｗ（ｍ_ｉ）、ｐ＝２＾ｑとすると、入力｜ｘ_ｉ｜＜＝１の浮動小数点として少なくとも２＾（－２＾（ｂｗ（ｍ_ｉ）－ｑ））を正規化数として表現可能な指数部の語長を持つ浮動小数点表現を用いる。これにより、以下のように量子化を行うことができる。

　ｘ_ｉ≠０かつ指数が－２＾（ｂｗ（ｍ_ｉ）－ｑ）以上の条件を満たす場合
　　Ｌ＝－指数（基数２の指数）
　　ｄ＝仮数（ＭＳＢを０．５の桁とした固定小数点表記として扱う）
　として、ベース技術と同様に、ｄ≧２＾－（（ｒ＋１／２）／ｐ）を満たす最小のｒであるｒ_ｍｉｎを求め、ｍ_ｉ＝ｐ（Ｌ－１）＋ｒ_ｍｉｎとして量子化を実行する。本条件に合致する入力は、正規化数の浮動小数点数に限定されるため、基数２の浮動小数点表現を用いればベース技術で必要であった、「ｃのｍｓｂから連続０のビット数Ｌをカウントする構成」を省略することができる。

　一方、上記条件を満たさない場合、すなわち、ｘ_ｉ＝０または指数が－２＾（ｂｗ（ｍ_ｉ）－ｑ）未満（非正規化数含む）の場合は、０を表す量子化符号に置き換える。指数が－２＾（ｂｗ（ｍ_ｉ）－ｑ）未満の値は、量子化値にて表現可能な最小値より小さい値であるため、０として扱うことが可能である。

　例えば、量子化後のｍ_ｉの語長を８ビット、ｑ＝４とすると、入力の浮動小数点は－２＾（８－４）＝－１６までの指数が正規化数として表現できればよいので、ＩＥＥＥ７５４に準拠した浮動小数点表現を用いれば、指数部は６ビットあればよい。すなわち、バイアスは３１で２＾３１～２＾－３０の範囲が正規化数で表現可能であればよい。

　また、例えば、入力をＩＥＥＥ７５４準拠の浮動小数点表現、言い換えると、指数部ｅｘｐはバイアス表現、仮数部ｆｒａｃはＭＳＢの１を省略した表現とすれば、ｘ_ｉ≠０かつ指数が－２＾（ｂｗ（ｍ_ｉ）－ｑ）以上のｘ_ｉに対しては、以下のように計算することができる。
　Ｌ－１＝（Ｅｂｉａｓ－１）－ｅｘｐ（ここでＥｂｉａｓは指数部のバイアス値である）
　ｄ＝｛１，ｆｒａｃ｝（ここで｛，｝はビット連接の演算子である）

　６．４　量子化回路の具体例
　つづいて、以上に述べた量子化方法を実現する量子化回路について説明する。図３５は、第３の実施形態に係る量子化回路の概略構成例を示す回路図である。

　図３５に示すように、本実施形態に係る量子化回路は、整数減算器３２１０、シフト演算器３２２０、記憶回路群３２３０、比較器群３２４０、プライオリティエンコーダ３２５０、整数加算器３２６０、比較器３２７０、およびセレクタ３２８０を備える。

　（整数減算器３２１０）
　整数減算器３２１０は、入力されたＩＥＥＥ７５４準拠の浮動小数点表現の指数部ｅｘｐを用いて（Ｌ－１）＝（Ｅｂｉａｓ－１）－ｅｘｐの計算を行う。

　（シフト演算器３２２０）
　シフト演算器３２２０は、整数減算器３２１０で計算した（Ｌ－１）の値にｐを乗じてｐ（Ｌ－１）を計算する。ここで、ｐ＝２＾ｑであるから、本乗算はｑビットの左シフト演算で実現できる。

　（記憶回路群３２３０）
　記憶回路群３２３０は、２＾－（（ｒ＋１／２）／ｐ）、ｒ∈｛０，．．．，ｐ－１｝に対応したｐ個の記憶回路を備える。

　記憶回路群３２３０が備える各記憶回路は、値を定数として保持する読み取り専用回路であってもよいし、書き換え可能なレジスタであってもよい。定数として読み取り専用回路に記憶させる場合、後述の比較器群３２４０及びプライオリティエンコーダ３２５０とあわせて回路構成が簡略化されるとともに、消費電力を低減できるメリットがある。

　（比較器群３２４０）
　比較器群３２４０は、前記記憶回路群から出力されるｐ個の値と、入力の浮動小数点表現の仮数部から生成したｄ＝｛１，ｆｒａｃ｝とを比較し、ｄの方が等しいか大きい場合に１を、そうでない場合に０を出力する。

　（プライオリティエンコーダ３２５０）
　プライオリティエンコーダ３２５０は、ｐ個の入力のうち１が入力される位置に応じた値を０からｐ－１の範囲で出力する。複数の１の入力がある場合は若い番号の位置を優先する。いずれの入力も０であった場合はｐを出力するものとする。表１０に、プライオリティエンコーダ３２５０の動作を真理値表で表す。

　本プライオリティエンコーダの出力をｒ_ｍｉｎとすれば、記憶回路群３２３０、比較器群３２４０、プライオリティエンコーダ３２５０により、ｄ≧２＾－（（ｒ＋１／２）／ｐ）となる最小のｒであるｒ_ｍｉｎが求められる。また、最小のｒが見つからない場合は、ｒ_ｍｉｎ＝ｐとなる。

　（整数加算器３２６０）
　整数加算器３２６０は、シフト演算器３２２０から入力されるｐ（Ｌ－１）値と、プライオリティエンコーダ３２５０から入力されるｒ_ｍｉｎとを加算し、ｐ（Ｌ－１）＋ｒ_ｍｉｎを得る。

　（比較器３２７０）
　比較器３２７０は、入力されたＩＥＥＥ７５４準拠の浮動小数点表現の指数部ｅｘｐと、Ｅｂｉａｓ－２＾（ｂｗ（ｍ_ｉ）－ｑ）とを比較し、ｅｘｐとＥｂｉａｓ－２＾（ｂｗ（ｍ_ｉ）－ｑ）とが等しいかｅｘｐの方が大きい場合には１を、そうでない場合には０を出力する。これにより、ｘ_ｉ≠０かつ指数が－２＾（ｂｗ（ｍ_ｉ）－ｑ）以上であることの判定を行う。入力をＩＥＥＥ７５４準拠の浮動小数点表現とすることで、入力が０か否かの判断も含めて指数部ｅｘｐの比較だけで判断可能となる。

　（セレクタ３２８０）
　セレクタ３２８０は、比較器３２７０の出力に基づいて、整数加算器３２６０から出力されるｐ（Ｌ－１）＋ｒ_ｍｉｎ、または、０を表す符号をｍ_ｉとして出力する。

　６．５　作用・効果
　以上のように、本実施形態によれば、より短い語長、言い換えると、より少ない回路規模、消費電力でベース技術と同等の効果を得ることができる。

　また、本実施形態に係る演算器を複数搭載する場合、同一リソース（回路規模、電力）でより多くの演算器を搭載できることになり、同一リソースあたりの演算性能を向上させることも可能となる。

　６．６　変形例
　また、上述した第３の実施形態に係る構成は、以下のように変形することも可能である。

　６．６．１　第１の変形例
　積和演算回路の記憶回路群３２３０に格納される値の範囲が０．５より大きく１．０以下の範囲に限られることから、Ｄ＊２＾－Ｓの指数は、０または負の値となる。そのため、ＩＥＥＥ７５４準拠の指数部バイアスを採用した場合、指数部のＭＳＢは、０の値に固定されるため、省略することができる。例えば、ｐ＝１６（ｑ＝４）、ｍ_ｉ、ｎ_ｉの語長を８ビットとすると、Ｄ＊２＾－Ｓの指数の範囲は２＾０から２＾－３３となるため、指数部７ビット（バイアスは６３）の下位６ビットのみを使用する。すなわち、２＾０から２＾－６２の範囲が表現可能となる。その場合、後段の浮動小数点加減算器３５６０へは省略したＭＳＢを拡張して渡せばよい。

　６．６．２　第２の変形例
　また、積和演算回路の記憶回路群３２３０に格納される値の範囲が０．５より大きく１．０以下の範囲に限られることから、指数部の範囲はアキュムレータ５７０の加算回数で正の最大値が決まり、Ｓの最大値で負の最大値が決まる。これらは対称でないことがあるので整数加算器５１０およびアキュムレータ５７０での指数部のバイアスを２＾（指数部の語長－１）－１からずらした値にするとことで、指数部のビットを削減することができる。例えば、ｐ＝１６（ｑ＝４）、ｍ_ｉ、ｎ_ｉの語長を８ビット、有効数字を６桁、アキュムレータ加算回数を最大２５５回とすると、指数の範囲は２＾－３３から２＾７であるため、例えばバイアスを４２とすれば、指数部を６ビットとすることができる。この例では、２＾－４１から２＾２０を表現することができる。

　６．６．３　第３の変形例
　さらに、積和演算回路の指数部の負の最大値をＳの最大値に比べて小さくしてもよい。その場合、指数部が減算の結果表現可能な範囲を超える場合に対しては、仮数部の右シフトで対応することで、非正規化数に対応することができる。このような構成によれば、比較器やシフト回路を追加する必要が生じるが、指数部のビット長を削減することが可能となる。

　６．６．４　第４の変形例
　さらにまた、積和演算回路の指数部の負の最大値をＳの最大値に比べて小さくした場合、指数部が減算の結果表現可能な範囲を超える場合には、指数部をゼロにしてもよい。これによる精度の劣化が無視できるようであれば、指数部のビット長を削減することが可能である。

　６．６．５　第５の変形例
　さらにまた、積和演算回路のＤ＊２＾－Ｓの計算を浮動小数点演算器（乗算器と冪乗演算器）で実現してもよい。

　６．６．６　第６の変形例
　さらにまた、上述した第３の実施形態に係る回路構成（積和演算回路及び／又は量子化回路）は、その一部又は全部がプログラムによって実装されてもよい。

　７．第４の実施形態
　次に、第４の実施形態について、以下に図面を参照して詳細に説明する。

　７．１　ベース技術の課題
　上述したように、ベース技術では、ディープニューラルネット（ＤＮＮ）、畳み込みニューラルネット（ＣＮＮ）の積和演算量削減を目的として、新たな量子化手法が提案されている。

　図３６は、一般的なＤＮＮ、ＣＮＮの動作を説明するための概略図である。なお、図３６には、３層の畳み込みニューラルネットワークが示されている。

　図３６に示すように、一般的なＤＮＮ、ＣＮＮの動作では、層ごとに、積和による畳み込み等演算（Convolution）、プーリング（Pooling）、活性化関数励起（Activation）といった処理を順次行っている。この際に、各層の演算で用いられる係数や層の出力に現れる変数に関して、その値範囲や分布が層ごとに異なるという状況がある。また、このような特徴は、層ごとに限られず、特徴マップごとにこの分布が異なるという特徴として現れる場合もある。

　各層の入出力変数と畳み込みに使われる係数の例を図３７～図４３に示す。図３７は、図３６における第１層の畳み込み層に入力される係数ｗ１を示し、図３８は、図３６における第２層の畳み込み層に入力される係数ｗ２を示し、図３９は、図３６における第１層の畳み込み層に入力される係数ｗ３を示している。また、図４０は、図３６における畳み込みニューラルネットワークの入力（変数）ｘ０を示し、図４１は、図３６における第１層からの出力（変数）ｘ１を示し、図４２は、図３６における第２層からの出力（変数）ｘ２を示し、図４３は、図３６における第３層からの出力（変数）ｘ３を示している。

　図３７～図４３から分かるように、係数・変数ともに各層ごとに値の範囲が異なる。具体的には、係数に関しては、図３７～図３９に示されるように、ｗ１は値の範囲がおよそ－５から４までに分布し、ｗ２はおよそ－０．１５から０．１５に分布し、ｗ３はおよそ－０．４から０．５に分布している。一方、変数に関しては、図４０～図４３に示されるように、ｘ０がおよそ－１から１まで分布し、ｘ１はおよそ０から９０、ｘ２はおよそ０から１２０に分布し、ｘ３はおよそ０から２０に分布している。

　上述の理由からいたずらに表現ビット数を削るのではなく、ＤＮＮ／ＣＮＮ推論タスク結果に影響を与えない程度に層ごと（あるいは特徴マップごと）に、必要十分な量子化（＝ビット量削減）設定を行うべきであると言える。その場合、ベース技術は次のような課題があると考えられる。

・数値フォーマットと実データの管理について考慮されていない。
・量子化設定（精度設定、ダイナミックレンジ設定）の区別に関する表現が考慮されていない。このため、各層（あるいは各特徴マップ）ごとに異なる量子化設定することができない。
・正負符号あり数値表現と正負符号なし数値表現が区別されていない。
・すべての数値が正負符号ありで数値表現されており、特定の層（あるいは特徴マップ）（例えば図４１～図４３のｘ１、ｘ２、ｘ３）変数を指定しようとしたときに使用する符号に無駄が生じている。
・値０（ゼロ）の表現が考慮されていない。このため、図４１～図４３に現れる数値０（ゼロ）を表現できない。

　そこで本実施形態では、上記課題を解決することを目的として、２の冪乗表現による数値表現ができる数値フォーマット情報とコンテナを提案する。さらに、本実施形態では、複数量子化設定を保持・切り分け可能なバイトストリームフォーマットについても提案する。

　７．２　数値フォーマット情報の具体例
　まず、数値フォーマット情報について、具体例を挙げて説明する。

　７．２．１　ｓ．ｅ．ｍフォーマット
　語長を柔軟に選択可能な２の冪乗表現による数値表現（Numeric　Data）を、正負の浮動小数点表現にエンコードする必要がある。正負符号あり数値表現と正負符号なし数値表現を区別するために、正負符号の有無に対する設定を指定できる必要がある。また、量子化設定の区別するために、精度に関する設定とダイナミックレンジに関する設定を独立に指定できる必要がある。

　そこで本実施形態では、以下の３要素のセットをｓ．ｅ．ｍフォーマットとして定義する。

・Sign　Information
　ｓ．ｅ．ｍフォーマットの‘ｓ’は、正負符号の有無に対する割当ビット数を示す。

・Exponent　Bit　Width
　ｓ．ｅ．ｍフォーマットの‘ｅ’は、ダイナミックレンジに対する割当ビット数を示す。

・Mantissa　Bit　Width
　ｓ．ｅ．ｍフォーマットの‘ｍ’は、精度に関する割当ビット数を示す。

　実際に（ｓ．ｅ．ｍ）＝（１．４．３）、（すなわち、符号１ｂｉｔ、ダイナミックレンジ４ｂｉｔ、精度３ｂｉｔ）を割り当てた２の冪乗での例を図４４の数表に示す。なお、ｍに関して、２^ｍの値がベース技術のｐ値に相当している。

　さらに、数値表現としてゼロが扱えるよう、値０（ゼロ）の表現を考慮する必要がある。そこで本実施形態では、ｅとｍが全ビット１のときを値ゼロと定義した。この場所を値０と定義することで、単調減少性（同一正負符号内で、｛ｅ、ｍ｝を結合したビット列からなるインデックスの値が増えると、表現される数値が減少する）を確保することができる。

　なお、この数値表現の最大値（絶対値の最大値）は１．０であり、そのときのｅとｍは全ビットが０である。

　ｓ．ｅ．ｍフォーマットにおいては、それぞれのビット割当数の合計ｓ＋ｅ＋ｍが、データ語長（Numeric　Data　Bit　Width）を示している。

　７．２．２　ｓ．Ｂ．Ｑフォーマット
　上述したｓ．ｅ．ｍフォーマットでは、数値の語長を確認し領域より取り出すためにｓ．ｅ．ｍの値を合算しなければならず、そのため、演算装置にフォーマットが切り替わる度に計算が必要となる。そこで本実施形態では、ｓ．ｅ．ｍフォーマットとは別に、数値フォーマット情報自体に語長情報を入れ込み、追加計算無しで切り分けられるようにｓ．ｅ．ｍフォーマットを発展させたｓ．Ｂ．Ｑフォーマットを定義する。なお、ｓ．Ｂ．Ｑフォーマットが示す数値の扱いはｓ．ｅ．ｍフォーマットと完全に等価である。以下にｓ．Ｂ．Ｑフォーマットの要素を示す。

・Sign　Information
　ｓ．Ｂ．Ｑフォーマットの‘ｓ’は、正負符号の有無に対する割当ビット数を示す。これは、ｓ．ｅ．ｍフォーマットのｓ（Sign　Information）と同義である。

・Numeric　Data　Bit　Width
　ｓ．Ｂ．Ｑフォーマットの‘Ｂ’は、Numeric　Dataの語長を示す。ｓ．ｅ．ｍフォーマットのｅ（Exponent　Bit　Width）は、ｅ＝Numeric　Data　Bit　Width－ｓ－Ｑで導出できる。

・Ｑ
　ｓ．Ｂ．Ｑフォーマットの‘Ｑ’は、精度に関する割り当てビット数を示す。これは、ｓ．ｅ．ｍフォーマットのｍ（Mantissa　Bit　Width）と同義である。

　７．３　実データの管理手法：コンテナと数値フォーマット情報の関係
　本実施形態では、ｓ．ｅ．ｍフォーマットとｓ．Ｂ．Ｑフォーマットを数値フォーマット情報（Numeric　Format　Information）と称する。実際のデータを格納するコンテナ（Numeric　Data　Container）は、図４５のように表現される。

　７．４　バイトストリーム
　ｓ．ｅ．ｍやｓ．Ｂ．Ｑのフォーマットにて示された複数の数値を利用するためには、それぞれの数値に対応する数値フォーマット情報が明確でなければならない。単一種であれば、数値が連続していても語長が変わらず切り出し可能だが、複数種となると変化点を把握し、各数値フォーマット情報を確認した後に語長が判明してから始めて切り分けが可能となる。すべての数値に数値フォーマット情報を付与すれば語長の判別はその都度可能だが、量子化で圧縮されたデータが肥大化してしまう。

　そこで本実施形態では、連続した数値フォーマット情報と数値の対応付けをすべてに付与せずとも、一定コストで切り分け可能な状態で表現可能な以下３種のバイトストリームを提案する。なお、後述において例示するバイトストリームの構造は単なる例であり、種々変形することが可能である。
・基本構造と継続構造のパケットによるバイトストリーム
・拡張構造のパケットによるバイトストリーム
・カスタム拡張構造のパケットヘッダによるPayload可変長ストリーム

　７．４．１　基本構造（Basic　Structure）と継続構造（Continue　Structure）のパケットによるバイトストリーム
　バイトストリームの先頭は必ず一定バイトサイズ単位にアラインされた基本構造（Basic　Structure）で始まる。この一定サイズのデータをパケットと称する。パケットのヘッダ部分（以下、パケットヘッダと称する）は、以下の要素を含む。

・継続判断識別子（Continue）
　継続判断識別子（Continue）は、一つ前に指定された数値フォーマット情報を再利用するか否かを示す識別子である。

・数値フォーマット情報（Numeric　Format　Information）
　数値フォーマット情報（Numeric　Format　Information）は、ｓ．ｅ．ｍフォーマットとｓ．Ｂ．Ｑフォーマットとのいずれの数値フォーマット情報であるかを示す情報である。

・数値データ個数（Number）
　数値データ個数（Number）は、Payloadに格納する数値データの個数を示す。

・ペイロード領域（Payload）
　ペイロード領域（Payload）は、数値データを格納する領域を示す。このペイロード領域（Payload）は、他識別子次第でアラインされたバイトサイズ内に存在しないことを許容する。

・数値データ（Numeric　Data）
　数値データ（Numeric　Data）は、ｓ．ｅ．ｍフォーマットやｓ．Ｂ．Ｑフォーマットで指定された数値の本体である。この数値データ（Numeric　Data）は、Payload内部に格納され、未利用領域はPaddingにて埋められる。なお、Paddingにて埋められる領域は、パケットヘッダの直後の領域に限定されない。例えば、数値データ（Numeric　Data）をパケットヘッダの直後に連続させ、余った領域をPaddingにて埋めてもよい。これは、後述において例示するバイトストリームにおいても同様である。

・ヘッダスキップ識別子（Skip　Header）
　ヘッダスキップ識別子（Skip　Header）は、次アラインデータをヘッダ無しのPayloadとして扱うか否かを判別するための識別子である。

・カスタム識別子（Custom）
　カスタム識別子（Custom）は、パケットヘッダをカスタム形式として扱うか否かを示す識別子である。このカスタム識別子（Custom）が有効な値として確認された際には、その値に応じてパケットの解釈方法が切り替えられる。

　図４６及び図４７は、基本構造（Basic　Structure）が実現し得る２つの基本的な構造例を示す図である。具体的には、図４６は、継続判断識別子が「継続せず」とされている基本構造（Basic　Structure）を示し、図４７は、継続判断識別子が「継続する」とされている継続構造（Continue　Structure）を示している。

　図４６に示すように、基本構造（Basic　Structure）では、継続判断識別子が「継続せず」とされ、ヘッダスキップ識別子が「スキップしない」と示されていた場合、数値フォーマット情報で指定された数値が数値データ個数で示された分だけ残されたペイロード領域（Payload）に格納される。このパケット自体に格納可能な数値データの数は少ないが、以降の連続数値として同一フォーマットを保持する際には継続構造のパケットヘッダが有用となる。

　図４７に示すように、継続判断識別子が「継続する」とされた継続構造（Continue　Structure）のパケットヘッダでは、数値データの個数を入れるだけで以降のアライメントまではPayloadに数値データを格納し続けることができる。

　フォーマットを切り替える際には、継続判断識別子を「継続せず」と指定し基本構造のパケットを入れることで別のフォーマットへと切り替えることが可能である。これにより、一定バイトサイズ単位で処理することで、数値データを切り分けることが可能となる。

　以上のような構造により、複雑なバイトストリームのパース処理やアライメントサイズ以上の一時保持領域を確保せず、すべての数値に数値フォーマット情報を付与せずとも、対応付けが可能となる。

　７．４．２　拡張構造のパケットによるバイトストリーム（Extended　Structure）
　拡張構造（Extended　Structure）のパケットによるバイトストリームでは、基本構造のパケットヘッダにて継続判断識別子が「継続せず」とし、ヘッダスキップ識別子が「スキップする」と指定された場合は、以下の２つの要素を拡張情報として扱い、次のアライメント単位のバイトサイズまでのパケット全体をペイロード領域（Payload）として扱う。

・Payload繰返し数（Payload　Recursive　Number）
　Payload繰返し数（Payload　Recursive　Number）は、次のアライメント単位をPayloadとして使う際に、アライメント単位のPayloadが何回繰り返すかを示す。ここで指定した数のアライメント単位のバイトサイズ以降に再度、パケットヘッダを含むパケットを記述するため、この箇所でフォーマットの切り替え可能となる。

・Reserved領域（Reserved）
　Reserved領域（Reserved）は、予備領域である。

　このような拡張構造（Extended　Structure）のパケットとPayloadのみとしてアライメントされたパケットの構造を、図４８及び図４９に例示する。図４８は、拡張構造（Extended　Structure）のパケットの構造を示し、図４９は、Payloadのみとしてアライメントされたパケットの構造を示している。図４９に示すような、Payloadのみでヘッダ無しのパケットは、Payload全体のバイトサイズが数値データの語長で割り切れる場合や、継続構造では余剰領域を多く残してしまう場合等に有用である。

　以上のような構造を利用することで、基本構造（Basic　Structure）と同様に、複雑なバイトストリームのパース処理やアライメントサイズ以上の一時保持領域を確保せず、すべての数値に数値フォーマット情報を付与せずとも、数値データの保持が可能となる。

　７．４．３　カスタム拡張構造のパケットヘッダによるPayload可変長ストリーム（Custom　Structure）
　カスタム拡張構造（Custom　Structure）のパケットヘッダによるPayload可変長ストリームでは、拡張構造のパケットヘッダと同様に、継続判断識別子が「継続せず」とし、ヘッダスキップ識別子が「スキップする」と指定され、さらにカスタム識別子が「有効」と指定された場合は、基本構造で規定したパケットヘッダの一部を読み替えることを許容し、以下３種の位置と意味のみが基本構造のパケットヘッダと同等に扱われる。

・継続判断識別子（Continue）
・ヘッダスキップ識別子（Skip　Header）
・カスタム識別子（Custom）

　また、カスタム拡張構造（Custom　Structure）では、上記以外に以下の情報が追加となる。

・バージョン番号（Version）
　バージョン番号（Version）は、数値で示され、カスタム拡張構造（Custom　Structure）の種類を示す。数値０は、Payloadサイズ拡張として以下４要素の情報を保持する。

・Payloadサイズ（Payload　Size）
　Payloadサイズ（Payload　Size）は、パケットヘッダ以降に続くPayloadのサイズを示す。カスタム拡張構造（Custom　Structure）では、これまでの構造で示されたパケットヘッダのバイトサイズと同一サイズで無いことを許容する。

・数値フォーマット情報（Numeric　Format　Information）
　数値フォーマット情報（Numeric　Format　Information）は、基本構造（Basic　Structure）における数値フォーマット情報（Numeric　Format　Information）と同等であってよい。

・数値データ個数（Number）
　数値データ個数（Number）は、基本構造（Basic　Structure）における数値データ個数（Number）と同等であってよい。

・Payloadの繰り返し数（Payload　Recursive　Number）
　Payloadの繰り返し数（Payload　Recursive　Number）は、拡張構造（Extended　Structure）におけるPayloadの繰り返し数（Payload　Recursive　Number）と同じであってよい。

　このカスタム拡張構造（Custom　Structure）のヘッダとPayloadの例を図５０及び図５１に例示する。図５０は、カスタム拡張構造（Custom　Structure）のヘッダの例を示し、図５１は、カスタム拡張構造（Custom　Structure）のPayloadの例を示している。

　カスタム拡張構造（Custom　Structure）では、上述した基本構造（Basic　Structure）や拡張構造（Extended　Structure）とは異なり、バイトストリームのパース処理が複雑化し、Payloadの切り分け前に必要な一時保持領域をPayloadサイズで示したサイズまで増やす必要があるが、拡張構造以上にPayloadに数値を詰めて保持可能となる。

　このカスタム拡張構造（Custom　Structure）は、発展例としてVersion番号を変えて利用することでPayload部分に数値以外の情報を格納できる余地を残しており、バイトストリーム上に数値演算手法のような付加情報も埋め込むことが可能となる。

　７．５　バイトストリームの実装例
　つづいて、上述において例示した３種のバイトストリームの具体的な実装例を、以下に図面を参照して詳細に説明する。なお、以下の説明では、ｓ．Ｂ．Ｑフォーマットでの実装例を示す。

　７．５．１　基本構造（Basic　Structure）及び継続構造（Continue　Structure）のバイトストリーム実装例
　図５２及び図５３は、基本構造（Basic　Structure）のバイトストリーム実装例を示す図である。図５２は、基本構造（Basic　Structure）のパケットを示し、図５３は、継続構造（Continue　Structure）のパケットを示している。

　図５２に示すように、基本構造（Basic　Structure）のパケットは、例えば、左端のＭＳＢ（Most　Significant　Bit）から順に、１ビットの継続判断識別子（図中、‘Continue’と表記）と、２ビットの数値データ個数（図中、‘Number’と表記）と、１ビットのヘッダスキップ識別子（図中、‘SkipHeader’と表記）と、１ビットのカスタム識別子（図中、‘Custom’と表記）と、１ビットのｓ（Sign　Information）（図中、‘sign’と表記）と、４ビットのＢ（Numeric　Data　Bit　Width）（図中、‘B’と表記）と、３ビットのＱ（図中、‘Q’と表記）と、１９ビットのペイロード領域（Payload）（図中、‘Payload’と表記）とから構成される。

　１ビットの継続判断識別子（Continue）は、例えば、その値が‘１’である場合、当該パケットに新たなフォーマットヘッダが含まれていることを示し、‘０’である場合、前回のパケットのフォーマットヘッダを使用することを示している。

　２ビットの数値データ個数（Number）は、例えば、その値が‘０１’である場合、当該パケットのペイロード領域（Payload）に１つの数値データが格納されていることを示し、‘１０’である場合、２つの数値データが格納されていることを示し、‘１１’である場合、３つの数値データが格納されていることを示している。なお、‘００’である場合、当該パケットに数値データが格納されていないことを示す。

　１ビットのヘッダスキップ識別子（Skip　Header）は、例えば、その値が‘１’である場合、次アラインデータをヘッダ無しのペイロード領域（Payload）として扱うことを示し、‘０’である場合、次アラインデータを継続しない新たなパケットとして扱うことを示す。

　１ビットのカスタム識別子（Custom）は、例えば、その値が‘０’である場合、当該パケットを通常形式のパケットとして扱うことを示し、‘１’である場合、カスタム形式のパケットとして扱うことを示す。すなわち、カスタム識別子（Custom）が‘１’である場合、当該パケットの解釈方法が切り替えられる。

　一方、図５３に示すように、継続構造（Continue　Structure）のパケットは、左端のＭＳＢから順に、１ビットの継続判断識別子（図中、‘Continue’と表記）と、２ビットの数値データ個数（図中、‘Number’と表記）と、２９ビットのペイロード領域（Payload）（図中、‘Payload’と表記）とから構成される。

　継続判断識別子（Continue）と数値データ個数（Number）とペイロード領域（Payload）とは、それぞれ図５３を用いて説明したものと同様であってよい。

　７．５．２　拡張構造（Extended　Structure）のバイトストリーム実装例
　図５４及び図５５は、拡張構造（Extended　Structure）のバイトストリーム実装例を示す図である。図５４は、拡張構造（Extended　Structure）のパケットを示し、図５５は、継続するペイロード領域（Payload）のみのパケットを示している。

　図５４に示すように、拡張構造（Extended　Structure）のパケットは、例えば、図５２に示す基本構造（Basic　Structure）のパケットと同様の構造において、１９ビットのペイロード領域（Payload）が、１１ビットのReserved領域（図中、‘Reserved’と表記）と、８ビットのPayload繰返し数（図中、‘Payload　Recursive　Number’と表記）とに置き換えられている。Reserved領域（Reserved）は、使用しない場合、例えばゼロパディングにより埋められてもよい。

　一方、図５５に示すように、ペイロード領域（Payload）のみのパケットは、例えば、３２ビットのペイロード領域（図中、‘Payload’と表記）から構成されている。

　７．５．３　カスタム構造（Custom　Structure）のバイトストリーム実装例
　図５６及び図５７は、カスタム構造（Custom　Structure）のバイトストリーム実装例を示す図である。図５６は、カスタム構造（Custom　Structure）のパケットを示し、図５７の（ａ）～（ｃ）は、継続するペイロード領域（Payload）のみのパケットを示している。

　図５６に示すように、カスタム構造（Custom　Structure）のパケットは、例えば、図５２に示す基本構造（Basic　Structure）のパケットと同様の構造において、数値データ個数（図中、‘Number’と表記）がｓ．Ｂ．Ｑフォーマット部の次に移動され、代わりに、継続判断識別子（Continue）とヘッダスキップ識別子（SkipHeader）との間に、バージョン番号（図中、‘Version’と表記）が配置され、さらに、カスタム識別子（Custom）とｓ．Ｂ．Ｑフォーマット部との間に、ペイロードサイズ（図中、‘PayloadSize’と表記）が追加された構造を備える。また、１９ビットのペイロード領域（Payload）が、上述した６ビットの数値データ個数（‘Number’）と、８ビットのPayload繰返し数（図中、‘Payload　Recursive　Number’と表記）とに置き換えられている。

　一方、図５７に示すように、カスタム構造（Custom　Structure）のパケットに対しては、そのペイロードサイズ（Payload　Size）で指定されたサイズ分だけ、ペイロード領域（Payload）のみのパケットが継続する。これにより、カスタム拡張構造のパケットヘッダによるペイロード可変長ストリームが構成される。

　７．６　バイトストリームの処理システムの構成例
　図５８は、本実施形態に係るバイトストリームを処理するシステムの概略構成例を示すブロック図である。なお、図面中、実線矢印は、基本構造（Basic　Structure）及び継続構造（Continue　Structure）と、拡張構造（Extended　Structure）と、カスタム構造（Custom　Structure）におけるデータフロー及び制御命令フローを示し、破線矢印は、カスタム構造（Custom　Structure）で拡張して扱える拡張例でのデータフロー及び制御命令フローを示している。また、一点破線矢印は、システム外部からの指示や命令を示し、二点破線矢印は、カスタム構造（Custom　Structure）で拡張して扱える拡張例でのシステム外部からの指示や命令を示している。

　図５８に示すように、処理システム４０００は、冪表現変換部４００３と、格納・変換部４００４と、入力特徴マップメモリ４００５と、係数メモリ４００６と、解析部４００７と、抽出部４００８と、冪表現変換部４００９と、演算制御部４０１０と、演算器アレイ４０１１と、冪表現変換部４０１３と、格納・変換部４０１４と、出力特徴マップメモリ４０１５とを備える。

　（冪表現変換部４００３）
　冪表現変換部４００３は、例えば、上述した実施形態における冪表現変換部２００１及び２１０２に対応する構成であり、センサＩ／Ｆ４００１を介して入力された値を、乗算部２００２／２１０４等から入力された係数４００２を用いて２の冪乗表現に変換する。なお、センサＩ／Ｆ４００１には、例えば、イメージセンサやＴｏＦ（Time　of　Flight）センサ等の他、マイクロフォンや、気圧、温度、湿度、風速等の気象情報を計測する各種センサなど、数値データに変換可能な計測値を取得する種々のセンサが適用され得る。

　（格納・変換部４００４）
　格納・変換部４００４は、値のコンテナへの格納やバイトストリームへの変換を実行する構成である。格納・変換部４００４は、上位装置から入力された演算制御命令や格納・変換方法の指示に従い、センサＩ／Ｆ４００１や冪表現変換部４００３から入力された数値表現や演算制御命令を格納したバイトストリームを構築する。なお、構築されるバイトストリームには、上述した基本構造（Basic　Structure）及び継続構造（Continue　Structure）、拡張構造（Extended　Structure）、並びに、カスタム構造（Custom　Structure）のバイトストリームが挙げられる。また、演算制御命令には、例えば、後述する演算器アレイ４０１１の積和演算回路４０１２が使用する値テーブルの指定等が含まれてもよい。

　（入力特徴マップメモリ４００５）
　入力特徴マップメモリ４００５は、上述した実施形態における変数バッファ２００３に対応する構成であり、格納・変換部４００４が構築したバイトストリームを格納する。したがって、入力特徴マップメモリ４００５には、２の冪乗表現の変数が格納されることとなる。

　（係数メモリ４００６）
　係数メモリ４００６は、上述した実施形態における係数メモリ２００４に対応する構成であり、格納・変換部４００４から入力された２の冪乗表現の係数を格納する。

　（解析部４００７）
　解析部４００７は、入力特徴マップメモリ４００５から読み出したバイトストリームをパース（解析）し、ペイロード領域（Payload）とそれ以外の情報とを分離する。

　（抽出部４００８）
　抽出部４００８は、コンテナ内実データの組み合わせを抽出する。具体的には、コンテナからｓ．ｅ．ｍフォーマットやｓ．Ｂ．Ｑフォーマットなどの数値フォーマット情報と、コンテナ内部の数値表現（Numeric　Data）とを抽出する。

　また、抽出部４００８は、カスタム構造（Custom　Structure）のバイトストリームにおいて所定のバージョン番号（Version）が指定されている場合、バイトストリームから冪表現以外の数値や制御命令を抽出する。例えば、抽出部４００８は、数値演算手法（演算制御命令）や、数値の種類（浮動小数点の種類等）や、数値の実データ等を抽出する。

　（冪表現変換部４００９）
　冪表現変換部４００９は、上述した実施形態における冪表現変換部２００１及び２１０２に対応する構成であり、抽出部４００８から入力されたその他の数値表現の数値を冪表現の数値に変換する。

　（演算制御部４０１０）
　演算制御部４０１０は、所定のバージョン番号（Version）のカスタム構造（Custom　Structure）のバイトストリームに埋め込まれた演算制御命令に基づいて、演算器アレイ４０１１へ制御命令を出力する。

　（演算器アレイ４０１１）
　演算器アレイ４０１１は、例えば、上述した実施形態における積和演算回路４０１２を含む構成であり、入力された冪表現の数値やその他の数値表現の数値等に対して所定の演算処理を実行する。

　（冪表現変換部４０１３）
　冪表現変換部４０１３は、上述した実施形態における冪表現変換部２００１及び２１０２に対応する構成であり、演算器アレイ４０１１から入力された冪表現の数値を変換する。

　（格納・変換部４０１４）
　格納・変換部４０１４は、格納・変換部４００４と同様に、値のコンテナへの格納やバイトストリームの変換を実行する構成であり、上位装置から入力された演算制御命令や格納・変換方法の指示に従い、冪表現変換部４０１３や演算器アレイ４０１１から入力された数値表現や演算制御命令を格納したバイトストリームを構築する。なお、構築されるバイトストリームには、上述した基本構造（Basic　Structure）及び継続構造（Continue　Structure）、拡張構造（Extended　Structure）、並びに、カスタム構造（Custom　Structure）のバイトストリームが挙げられる。

　（出力特徴マップメモリ４０１５）
　出力特徴マップメモリ４０１５は、上述した実施形態における演算結果バッファ２００５に対応する構成であり、格納・変換部４０１４が構築したバイトストリームを格納する。なお、出力特徴マップメモリ４０１５に格納された出力特徴マップは、入力特徴マップとして、解析部４００７に再投入され得る。

　なお、図５８に示す各部は、その一部又は全部をハードウェア又はソフトウェアで実現することができる。また、図５８に示す構成において、各部の出力は、適宜バッファリングされてもよい。

　７．７　作用・効果
　以上のように、本実施形態によれば、コンテナと数値フォーマット情報により、ＣＮＮ／ＤＮＮへの適用において、層ごと及び／又はマップごとに、異なる数値表現設定を採用することが可能となる。

　例えば、ＤＮＮ／ＣＮＮを指向した２の冪乗表現に対する正負符号、精度、ダイナミックレンジ等を独立に設定可能な数値表現を採用することが可能となる。

　また、ある単位（層やマップ等）毎に異なる数値表現設定単位のコンテナと数値フォーマット情報の組み合わせを採用することが可能となる。

　さらに、数値表現のフォーマットに語長情報を組み込むことで、語長取得の計算を省略することが可能となるため、演算コストを削減することが可能となる。

　さらにまた、バイトストリームフォーマットを利用することで、ＤＮＮの層及び／又はマップごとよりもさらに細かい単位で、異なる数値表現設定を採用することが可能になる。例えば、ライン単位やピクセル単位などのより細かい単位で効率的に数値表現設定を切り替えるバイトストリームフォーマットを実現することが可能となる。

　８．通信技術への応用例
　次に、本開示に係る量子化手法の他分野への応用について説明する。上記の説明では、本開示に係る量子化手法をニューラルネットワークの順伝播に係る内積演算に適用する場合について述べた。一方、本開示に係る量子化手法は、上記の例に限定されず、内積演算を行う種々の技術に応用することが可能である。

　例えば、本開示に係る量子化手法は、通信技術分野で用いられるバンドパスフィルタにおける畳み込み演算に適用されてもよい。以下、本開示に係る量子化手法をバンドパスフィルタに適用した際のシミュレーション結果について説明する。

　図５９は、本開示に係る量子化手法をバンドパスフィルタに適用した際の周波数特性（ゲイン特性）に係るシミュレーション結果を示す図である。ここでは、ＲＲＣ（Ｒｏｏｔ－Ｒａｉｓｅｄ　Ｃｏｓｉｎｅ）フィルタにおける係数（６３　ｔａｐ,　ｒｏｌｌｏｆｆ　０．５）の量子化を行った。

　なお、量子化には、ｐ＝２，３，４でそれぞれ３２値（０～３１）を用いた。図中においては、ＤＮＮ（ｐ，３２）として示されている。また、比較として、浮動小数点（Ｆｌｏａｔ）、整数（Ｌｉｎｅａｒ）を用いた場合のシミュレーション結果が共に示されている。

　ここで、図５９を参照すると、本開示に係る量子化手法を適用した場合でも、バンドパス内の平坦特性は劣化していないことがわかる。一方、サイドバンドに着目すると、ＤＮＮ（２，３２）の場合であっても、約－２５ｄＢの減衰が可能となっており、またｐを大きくするほど、減衰の効果が大きくなることがわかる。なお、量子化の影響は、例えば、ＬＰＦ（Ｌｏｗ　Ｐａｓｓ　Ｆｉｌｔｅｒ）との組み合わせによりさらに軽減するものと予想される。

　また、図６０は、本開示に係る量子化手法をバンドパスフィルタに適用した際の位相特性に係るシミュレーション結果を示す図である。図６０を参照すると、本開示に係る量子化手法を適用した場合であっても、パスバンド内における位相の回転、すなわち位相特性の劣化は確認されないことがわかる。このように、本開示に係る量子化手法は、バンドパスフィルタの周波数特性を大きく劣化させることがないため、通信技術分野においても十分に適用可能だといえる。

　また、本開示に係る量子化手法の影響をさらに調査するため、ＢＥＲ（Ｂｉｔ　Ｅｒｒｏｒ　Ｒａｔｅ）による評価を実施した。図６１は、本開示に係るＢＥＲ評価に利用したブロック図である。

　図６１に示すように、本評価では、復調前におけるＡＤＣ（Ａｎａｌｏｇ　ｔｏ　Ｄｉｇｉｔａｌ　Ｃｏｎｖｅｒｔｅｒ）およびＲＲＣフィルタにおいて、浮動小数点、整数、ＤＮＮ（ｐ，３２）を適用し、ＢＥＲを測定した。また、変調および復調の方式には、ＢＰＳＫ、ＱＰＳＫ、および１６ＱＡＭをそれぞれ用いた。

　図６２は、ＢＰＳＫを変調方式に用いた際のＢＥＲ評価結果を示す図である。また、図６３は、図６２におけるＳＮＲ７～９ｄＢのデータを拡大した図である。図６２および図６３を参照すると、変調方式としてＢＰＳＫを用いた場合、ｐ＝４ではＢＥＲの劣化はまったく観察されず、またｐ＝２または３である場合でも、ＢＥＲに大きな影響を与えないことがわかる。

　図６４は、ＱＰＳＫを変調方式に用いた際のＢＥＲ評価結果を示す図である。また、図６５は、図６４におけるＳＮＲ１０～１２ｄＢのデータを拡大した図である。図６４および図６５を参照すると、変調方式としてＱＰＳＫを用いた場合も、ＢＰＳＫを用いた場合と同様に、ｐ＝２または３による量子化はＢＥＲに大きな影響を与えていないことがわかる。

　図６６は、１６ＱＡＭを変調方式に用いた際のＢＥＲ評価結果を示す図である。また、図６７は、図６６におけるＳＮＲ１６～１８ｄＢのデータを拡大した図である。図６６および図６７を参照すると、変調方式として１６ＱＡＭを用いた場合、ｐ＝２または３による量子化では、ＢＥＲの上昇が見られるものの、ｐ＝４による量子化では、ＢＥＲの劣化が確認されないことがわかる。

　以上説明したように、変調方式にＢＰＳＫやＱＰＳＫを用いる場合、本開示に係る量子化手法は、ｐの値に依らず有効であるといえる。また、変調方式に１６ＱＡＭを用いる場合には、ｐ≧４であれば、ＢＥＲに影響を与えないものと考えられる。

　このように、本開示に係る量子化手法は、通信技術分野においても有効であり、性能の維持と処理負担の軽減との両立を実現し得る。

　９．ハードウェア構成例
　次に、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例について説明する。図６８は、本開示の一実施形態に係る情報処理装置１０のハードウェア構成例を示すブロック図である。図６８を参照すると、情報処理装置１０は、例えば、ＣＰＵ８７１と、ＲＯＭ８７２と、ＲＡＭ８７３と、ホストバス８７４と、ブリッジ８７５と、外部バス８７６と、インターフェース８７７と、入力装置８７８と、出力装置８７９と、ストレージ８８０と、ドライブ８８１と、接続ポート８８２と、通信装置８８３と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。

　（ＣＰＵ８７１）
　ＣＰＵ８７１は、例えば、演算処理装置又は制御装置として機能し、ＲＯＭ８７２、ＲＡＭ８７３、ストレージ８８０、又はリムーバブル記録媒体９０１に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。

　（ＲＯＭ８７２、ＲＡＭ８７３）
　ＲＯＭ８７２は、ＣＰＵ８７１に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。ＲＡＭ８７３には、例えば、ＣＰＵ８７１に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。

　（ホストバス８７４、ブリッジ８７５、外部バス８７６、インターフェース８７７）
　ＣＰＵ８７１、ＲＯＭ８７２、ＲＡＭ８７３は、例えば、高速なデータ伝送が可能なホストバス８７４を介して相互に接続される。一方、ホストバス８７４は、例えば、ブリッジ８７５を介して比較的データ伝送速度が低速な外部バス８７６に接続される。また、外部バス８７６は、インターフェース８７７を介して種々の構成要素と接続される。

　（入力装置８７８）
　入力装置８７８には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、及びレバー等が用いられる。さらに、入力装置８７８としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ（以下、リモコン）が用いられることもある。また、入力装置８７８には、マイクロフォンなどの音声入力装置が含まれる。

　（出力装置８７９）
　出力装置８７９は、例えば、ＣＲＴ（Ｃａｔｈｏｄｅ　Ｒａｙ　Ｔｕｂｅ）、ＬＣＤ、又は有機ＥＬ等のディスプレイ装置、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。また、本開示に係る出力装置８７９は、触覚刺激を出力することが可能な種々の振動デバイスを含む。

　（ストレージ８８０）
　ストレージ８８０は、各種のデータを格納するための装置である。ストレージ８８０としては、例えば、ハードディスクドライブ（ＨＤＤ）等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。

　（ドライブ８８１）
　ドライブ８８１は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体９０１に記録された情報を読み出し、又はリムーバブル記録媒体９０１に情報を書き込む装置である。

　（リムーバブル記録媒体９０１）
リムーバブル記録媒体９０１は、例えば、ＤＶＤメディア、Ｂｌｕ－ｒａｙ（登録商標）メディア、ＨＤ　ＤＶＤメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体９０１は、例えば、非接触型ＩＣチップを搭載したＩＣカード、又は電子機器等であってもよい。

　（接続ポート８８２）
　接続ポート８８２は、例えば、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）ポート、ＩＥＥＥ１３９４ポート、ＳＣＳＩ（Ｓｍａｌｌ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍ　Ｉｎｔｅｒｆａｃｅ）、ＲＳ－２３２Ｃポート、又は光オーディオ端子等のような外部接続機器９０２を接続するためのポートである。

　（外部接続機器９０２）
　外部接続機器９０２は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はＩＣレコーダ等である。

　（通信装置８８３）
　通信装置８８３は、ネットワークに接続するための通信デバイスであり、例えば、有線又は無線ＬＡＮ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、又はＷＵＳＢ（Ｗｉｒｅｌｅｓｓ　ＵＳＢ）用の通信カード、光通信用のルータ、ＡＤＳＬ（Ａｓｙｍｍｅｔｒｉｃ　Ｄｉｇｉｔａｌ　Ｓｕｂｓｃｒｉｂｅｒ　Ｌｉｎｅ）用のルータ、又は各種通信用のモデム等である。

　以上、本開示の実施形態について説明したが、本開示の技術的範囲は、上述の実施形態そのままに限定されるものではなく、本開示の要旨を逸脱しない範囲において種々の変更が可能である。また、異なる実施形態及び変形例にわたる構成要素を適宜組み合わせてもよい。

　また、本明細書に記載された各実施形態における効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。

　なお、本技術は以下のような構成も取ることができる。
（１）
　冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備え、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理装置。
（２）
　前記複数の加算乗数を保持する記憶部をさらに備える前記（１）に記載の情報処理装置。
（３）
　前記除算をした際の商を整数化した値に基づいて、前記記憶部に格納された前記加算乗数に対して２の冪乗倍の演算を行う演算器をさらに備える前記（２）に記載の情報処理装置。
（４）
　前記演算器における浮動小数点数の指数部の語長は、前記入力値それぞれの前記指数に係る前記分子の語長と、前記重み係数それぞれの前記指数に係る前記分子の語長と、前記予め定められた除数とに基づいて定められる前記（３）に記載の情報処理装置。
（５）
　前記演算器は、基数が２である浮動小数点数の指数部に対する加減算を実行する前記（３）又は（４）に記載の情報処理装置。
（６）
　前記記憶部は、
　　書換え可能な複数の記憶回路よりなる記憶回路群と、
　　複数の第１の加算乗数と、前記複数の第１の加算乗数とは異なる複数の第２の加算乗数とを保持するメモリと、
　　前記メモリ内に保持されている前記複数の第１の加算乗数と前記複数の第２の加算乗数とのうちの一方を選択的に前記記憶回路群に書き込むセレクタとを備える
　前記（２）に記載の情報処理装置。
（７）
　前記記憶部は、
　　複数の第１の加算乗数を保持する第１の記憶回路群と、
　　前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、
　　前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタと、
　を備える
　前記（２）に記載の情報処理装置。
（８）
　前記複数の第１の加算乗数は、２の冪乗表現された値であり、
　前記複数の第２の加算乗数は、線形表現された値である
　前記（６）又は（７）に記載の情報処理装置。
（９）
　前記記憶部は、前記複数の加算乗数と、前記複数の加算乗数それぞれを２の冪乗表現の表現関数に沿って０．５丸めした値とを保持する、前記（２）に記載の情報処理装置。
（１０）
　バイトストリームを解析する解析部と、
　冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備える演算器アレイと、
　前記解析部による解析結果に基づいて前記演算器アレイを制御する演算制御部と、
　を備え、
　前記演算器アレイは、複数の加算乗数を保持する記憶部をさらに備え、
　前記記憶部は、
　　複数の第１の加算乗数を保持する第１の記憶回路群と、
　　前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、
　　前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタと、
　を備え、
　前記バイトストリームは、前記積和演算で使用する記憶回路群の指定を含み、
　前記演算制御部は、前記指定に基づいて前記セレクタを制御し、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理システム。
（１１）
　バイトストリームを解析する解析部と、冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備える演算器アレイと、前記解析部による解析結果に基づいて前記演算器アレイを制御する演算制御部とを備え、前記演算器アレイは、複数の加算乗数を保持する記憶部をさらに備え、前記記憶部は、複数の第１の加算乗数を保持する第１の記憶回路群と、前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタとを備え、前記積和演算回路は、前記入力値それぞれの指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行する情報処理システムが実行する情報処理方法であって、
　前記解析部が、前記バイトストリームから前記積和演算で使用する記憶回路群の指定を特定し、
　前記演算制御部が、前記指定に基づいて前記セレクタを制御し、
　前記積和演算回路が、前記セレクタを介して接続された記憶回路群に保持されている前記複数の加算乗数を用いて前記積和演算を実行する
　ことを含み、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理方法。

　１０　情報処理装置
　１１０　入力部
　１２０　演算部
　１３０　記憶部
　１４０　出力部
　２００、３００、４００、５００　積和演算回路
　５３０、５３０Ａ、５３０Ｂ　記憶回路群
　１５３０　メモリ
　１５３０ａ、１５３０ｂ　テーブル
　１５３１、１５３２　セレクタ
　２００１、２１０２　冪表現変換部
　２００２、２１０４　乗算部
　２００３　変数バッファ
　２００４　係数メモリ
　２００５　演算結果バッファ
　２１００　積和演算回路
　２１０１　積和演算部
　２１０３　冪乗表現テーブル
　２２０２、２２０４　冪表現変換用テーブル
　２２０３　冪乗表現テーブル
　３２１０　整数減算器
　３２２０　シフト演算器
　３２３０　記憶回路群
　３２４０　比較器群
　３２５０　プライオリティエンコーダ
　３２６０　整数加算器
　３２７０　比較器
　３２８０　セレクタ
　３５４０　２の冪乗倍演算器
　３５６０　浮動小数点加減算器
　４００１　センサＩ／Ｆ
　４００２　係数
　４００３、４００９、４０１３　冪表現変換部
　４００４、４０１４　格納・変換部
　４００５　入力特徴マップメモリ
　４００６　係数メモリ
　４００７　解析部
　４００８　抽出部
　４０１０　演算制御部
　４０１１　演算器アレイ
　４０１５　出力特徴マップメモリ

Claims

　冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備え、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理装置。
　前記複数の加算乗数を保持する記憶部をさらに備える請求項１に記載の情報処理装置。
　前記除算をした際の商を整数化した値に基づいて、前記記憶部に格納された前記加算乗数に対して２の冪乗倍の演算を行う演算器をさらに備える請求項２に記載の情報処理装置。
　前記演算器における浮動小数点数の指数部の語長は、前記入力値それぞれの前記指数に係る前記分子の語長と、前記重み係数それぞれの前記指数に係る前記分子の語長と、前記予め定められた除数とに基づいて定められる請求項３に記載の情報処理装置。
　前記演算器は、基数が２である浮動小数点数の指数部に対する加減算を実行する請求項３に記載の情報処理装置。
　前記記憶部は、
　　書換え可能な複数の記憶回路よりなる記憶回路群と、
　　複数の第１の加算乗数と、前記複数の第１の加算乗数とは異なる複数の第２の加算乗数とを保持するメモリと、
　　前記メモリ内に保持されている前記複数の第１の加算乗数と前記複数の第２の加算乗数とのうちの一方を選択的に前記記憶回路群に書き込むセレクタとを備える
　請求項２に記載の情報処理装置。
　前記記憶部は、
　　複数の第１の加算乗数を保持する第１の記憶回路群と、
　　前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、
　　前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタと、
　を備える
　請求項２に記載の情報処理装置。
　前記複数の第１の加算乗数は、２の冪乗表現された値であり、
　前記複数の第２の加算乗数は、線形表現された値である
　請求項６に記載の情報処理装置。
　前記記憶部は、前記複数の加算乗数と、前記複数の加算乗数それぞれを２の冪乗表現の表現関数に沿って０．５丸めした値とを保持する、請求項２に記載の情報処理装置。
　バイトストリームを解析する解析部と、
　冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備える演算器アレイと、
　前記解析部による解析結果に基づいて前記演算器アレイを制御する演算制御部と、
　を備え、
　前記演算器アレイは、複数の加算乗数を保持する記憶部をさらに備え、
　前記記憶部は、
　　複数の第１の加算乗数を保持する第１の記憶回路群と、
　　前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、
　　前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタと、
　を備え、
　前記バイトストリームは、前記積和演算で使用する記憶回路群の指定を含み、
　前記演算制御部は、前記指定に基づいて前記セレクタを制御し、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記積和演算回路は、前記入力値それぞれの前記指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行し、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理システム。
　バイトストリームを解析する解析部と、冪乗表現により量子化された複数の入力値と、前記入力値にそれぞれ対応する冪乗表現により量子化された複数の重み係数とに基づいて、積和演算を実行する積和演算回路を備える演算器アレイと、前記解析部による解析結果に基づいて前記演算器アレイを制御する演算制御部とを備え、前記演算器アレイは、複数の加算乗数を保持する記憶部をさらに備え、前記記憶部は、複数の第１の加算乗数を保持する第１の記憶回路群と、前記複数の第１の加算乗数とは異なる複数の第２の加算乗数を保持する第２の記憶回路群と、前記積和演算回路に接続される記憶回路群を前記第１の記憶回路群と前記第２の記憶回路群とのいずれかに切り替えるセレクタとを備え、前記積和演算回路は、前記入力値それぞれの指数に係る分子と、前記重み係数それぞれの前記指数に係る分子とを加算した値を被除数とした除算をした際の剰余に基づく複数の加算乗数を用いて前記積和演算を実行する情報処理システムが実行する情報処理方法であって、
　前記解析部が、前記バイトストリームから前記積和演算で使用する記憶回路群の指定を特定し、
　前記演算制御部が、前記指定に基づいて前記セレクタを制御し、
　前記積和演算回路が、前記セレクタを介して接続された記憶回路群に保持されている前記複数の加算乗数を用いて前記積和演算を実行する
　ことを含み、
　前記入力値それぞれの指数は、予め定められた除数を分母に有する分数により表現され、
　前記重み係数それぞれの指数は、前記除数を分母に有する分数により表現され、
　前記加算乗数それぞれは、指数部の基数が２である浮動小数点数である
　情報処理方法。