WO2022201352A1

WO2022201352A1 - 推論装置、推論方法、及び、推論プログラム

Info

Publication number: WO2022201352A1
Application number: PCT/JP2021/012193
Authority: WO
Inventors: 昌弘出口; 武尚水口
Original assignee: 三菱電機株式会社
Priority date: 2021-03-24
Filing date: 2021-03-24
Publication date: 2022-09-29
Also published as: JP7350214B2; JPWO2022201352A1; TW202238458A

Abstract

推論装置（１００）は、量子化推論部（１１０）と非量子化推論部（１２０）と特徴データ抽出部（１３０）とを備える。量子化推論部（１１０）は、推論用データを用いて機械学習の手法に基づいた少なくとも１回の量子化演算を実行する。非量子化推論部（１２０）は、推論用データを用いて少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する。特徴データ抽出部（１３０）は、少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する。

Description

推論装置、推論方法、及び、推論プログラム

　本開示は、推論装置、推論方法、及び、推論プログラムに関する。

　ディープラーニングの推論環境を組込機器等のリソース制約がある装置に搭載する場合、ディープラーニングに関する演算を軽量化する必要がある。軽量化する手法の一つとして、浮動小数点演算を固定小数点演算又は整数演算に置き換える技術がある。当該技術は、一般的に量子化と呼ばれる。特許文献１は、推論を高速化するための量子化を比較的高い精度で実施するために統計的手法を用いてデータ分布を推定する技術を開示している。

特開２０１８－０１０６１８号公報

　特許文献１が開示する技術によれば、量子化において、学習用データセット等を用いた場合においてオーバーフローが発生しないよう、推論に関する演算のパラメータ等が調整される。しかしながら、学習用データセット等があらゆる推論用データを網羅することはできない。そのため、特許文献１が開示する技術によれば、どのような推論用データを用いた場合であってもオーバーフローが発生しないことを保証することはできず、推論用データによってはオーバーフローが発生し得るという課題がある。ここで、推論用データは機密情報であることもあるため、ある推論用データを用いて推論を実行した際にオーバーフローが発生した場合であっても、発生したオーバーフローを当該ある推論用データを用いて解析することができるとは限らない。

　本開示は、ある推論用データを用いて推論を実行した際にオーバーフローが発生した場合において、発生したオーバーフローを解析するためのデータであって当該ある推論用データとは異なるデータを取得することを目的とする。

　本開示に係る推論装置は、
　推論用データを用いて機械学習の手法に基づいた少なくとも１回の量子化演算を実行する量子化推論部と、
　前記推論用データを用いて前記少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する非量子化推論部と
を備える推論装置であって、
　前記少なくとも１回の量子化演算それぞれは、前記少なくとも１回の量子化演算それぞれの特徴を示す少なくとも１つの量子化特徴データそれぞれに応じた演算であり、
　前記少なくとも１回の非量子化演算それぞれは、前記少なくとも１回の非量子化演算それぞれの特徴を示す少なくとも１つの非量子化特徴データそれぞれに応じた演算であり、
　前記推論装置は、さらに、
　前記少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する特徴データ抽出部
を備える。

　本開示によれば、機械学習の手法に基づいた推論においてオーバーフローが発生した場合に、特徴データ抽出部が、発生したオーバーフローに関係のある量子化特徴データと非量子化特徴データとを抽出する。ここで、量子化特徴データと非量子化特徴データとの各々は推論用データとは異なるデータである。そのため、本開示によれば、ある推論用データを用いて推論を実行した際にオーバーフローが発生した場合において、発生したオーバーフローを解析するためのデータであって当該ある推論用データとは異なるデータを取得することができる。

実施の形態１に係る推論装置１００の構成例を示す図。実施の形態１に係るプロセスの優先度を説明する図。実施の形態１に係る推論装置１００のハードウェア構成例を示す図。実施の形態１に係る推論装置１００の動作を示すフローチャート。実施の形態１に係る推論装置１００の動作を説明する図。実施の形態１の変形例に係る推論装置１００のハードウェア構成例を示す図。実施の形態１の変形例に係る推論装置１００のハードウェア構成例を示す図。実施の形態２に係る推論装置１００の構成例を示す図。実施の形態２に係る推論装置１００の動作を示すフローチャート。

　実施の形態の説明及び図面において、同じ要素及び対応する要素には同じ符号を付している。同じ符号が付された要素の説明は、適宜に省略又は簡略化する。図中の矢印はデータの流れ又は処理の流れを主に示している。また、「部」を、「回路」、「工程」、「手順」、「処理」又は「サーキットリー」に適宜読み替えてもよい。

　実施の形態１．
　以下、本実施の形態について、図面を参照しながら詳細に説明する。

＊＊＊構成の説明＊＊＊
　図１は、本実施の形態に係る推論装置１００の構成例を示している。推論装置１００は、本図に示すように、量子化推論部１１０と、非量子化推論部１２０と、データ抽出部１３０とを備える。
　推論装置１００は、典型的には組込みシステムの一部である。なお、推論装置１００が推論プロセス管理部を備え、推論プロセス管理部が量子化推論部１１０と非量子化推論部１２０とを制御する構成であってもよい。

　量子化推論部１１０は、量子化推論プロセスを実行する、即ち、機械学習の手法に基づいた少なくとも１回の量子化演算を実行する。少なくとも１回の量子化演算それぞれは、少なくとも１つの量子化特徴データそれぞれに応じた演算である。少なくとも１つの量子化特徴データそれぞれは、少なくとも１回の量子化演算それぞれの特徴を示しており、また、少なくとも１回の量子化演算それぞれに対応するパラメータを含んでもよい。また、量子化推論部１１０は推論用データを用いる。推論用データは推論を実行する際に学習済モデルに入力されるデータである。
　量子化推論プロセスは量子化済推論プロセスとも呼ばれる。量子化推論プロセスにおいて量子化アルゴリズムが実行される。量子化アルゴリズムは量子化推論アルゴリズムとも呼ばれる。また、量子化推論部１１０は、量子化推論プロセスにおいてオーバーフロー等が発生した場合に、発生したオーバーフロー等に関する情報を記録する。

　非量子化推論部１２０は、非量子化推論プロセスを実行する、即ち、少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する。少なくとも１回の量子化演算と、少なくとも１回の非量子化演算とは、同一の機械学習の手法に基づいた演算である。機械学習の手法がニューラルネットワークである場合において、各量子化演算と各非量子化演算とはニューラルネットワークの各レイヤの演算である。少なくとも１回の非量子化演算それぞれは、少なくとも１つの非量子化特徴データそれぞれに応じた演算である。少なくとも１つの非量子化特徴データそれぞれは、少なくとも１回の非量子化演算それぞれの特徴を示しており、また、少なくとも１回の非量子化演算それぞれに対応するパラメータを含んでもよい。非量子化推論部１２０は推論用データと後述の退避データとを用いる。
　非量子化推論プロセスは未量子化推論プロセスとも呼ばれる。非量子化推論プロセスにおいて非量子化アルゴリズムが実行される。非量子化アルゴリズムは非量子化推論アルゴリズムとも呼ばれる。非量子化アルゴリズムは学習用のデータを用いて学習を実行した結果得られたアルゴリズムである。量子化アルゴリズムと、非量子化アルゴリズムとは基本的には同じである。量子化アルゴリズムは、非量子化アルゴリズムを、量子化に対応するよう適宜変更したものである。量子化は、典型的には浮動小数点演算を固定小数点演算又は整数演算に置き換えることである。また、量子化アルゴリズムと、非量子化アルゴリズムとの各々を、推論装置１００が生成してもよく、他の装置が生成してもよい。また、非量子化推論部１２０は、量子化推論プロセスにおいてオーバーフローが発生した際に用いられた入力データ等に応じて演算を実行する。

　データ抽出部１３０は、量子化推論プロセスにおいてオーバーフローが発生した場合に、量子化推論プロセスと非量子化推論プロセスとから退避データを抽出する。退避データは、量子化推論プロセスにおけるオーバーフローを解析する際に用いられるデータであり、具体例として、入力データと特徴データとから成る。入力データは、少なくとも１回の量子化演算の各々と少なくとも１回の非量子化演算の各々とを実行する際に入力されるデータである。特徴データは、量子化演算において活用されるデータである。特徴データは、量子化特徴データと非量子化特徴データとの総称であり、少なくとも１回の量子化演算と少なくとも１回の非量子化演算との各々の演算ごとに存在し、具体例として演算における入力データの振れ幅を表す。入力データの振れ幅は、入力データとして想定されるデータが示す値の最小値から最大値までの範囲である。データ抽出部１３０は、少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する。
　機械学習の手法がディープラーニングである場合において、特徴データ抽出部１３０は、量子化特徴データとしてオーバーフローが発生した量子化演算に対応するレイヤについてのパラメータを示すデータを抽出してもよく、非量子化特徴データとしてオーバーフローが発生した量子化演算に対応する非量子化演算に対応するレイヤについてのパラメータを示すデータを抽出してもよい。

　図２は、推論装置１００が実行する各プロセスの優先度を示している。本図に示すように、量子化推論プロセスの優先度は、非量子化推論プロセスの優先度よりも高い。また、量子化推論プロセスの優先度よりも優先度が低く、かつ、非量子化推論プロセスの優先度よりも優先度が高いプロセスがあってもよい。なお、他プロセスという表記を挟む丸括弧は、他プロセスがあってもなくてもよいことを示している。

　図３は、本実施の形態に係る推論装置１００のハードウェア構成例を示している。推論装置１００は、コンピュータから成る。推論装置１００は、複数のコンピュータから成ってもよい。

　推論装置１００は、本図に示すように、プロセッサ１１と、メモリ１２と、補助記憶装置１３と、入出力ＩＦ（Ｉｎｔｅｒｆａｃｅ）１４と、通信装置１５等のハードウェアを備えるコンピュータである。これらのハードウェアは、信号線１９を介して適宜接続されている。

　プロセッサ１１は、演算処理を行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）であり、かつ、コンピュータが備えるハードウェアを制御する。プロセッサ１１は、具体例として、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、又はＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。
　推論装置１００は、プロセッサ１１を代替する複数のプロセッサを備えてもよい。複数のプロセッサは、プロセッサ１１の役割を分担する。

　メモリ１２は、典型的には、揮発性の記憶装置である。メモリ１２は、主記憶装置又はメインメモリとも呼ばれる。メモリ１２は、具体例として、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。メモリ１２に記憶されたデータは、必要に応じて補助記憶装置１３に保存される。

　補助記憶装置１３は、典型的には、不揮発性の記憶装置である。補助記憶装置１３は、具体例として、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）、又はフラッシュメモリである。補助記憶装置１３に記憶されたデータは、必要に応じてメモリ１２にロードされる。
　メモリ１２及び補助記憶装置１３は一体的に構成されていてもよい。

　入出力ＩＦ１４は、入力装置及び出力装置が接続されるポートである。入出力ＩＦ１４は、具体例として、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）端子である。入力装置は、具体例として、カメラ、キーボード及びマウスである。出力装置は、具体例として、ディスプレイである。

　通信装置１５は、レシーバ及びトランスミッタである。通信装置１５は、具体例として、通信チップ又はＮＩＣ（Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄ）である。

　推論装置１００の各部は、他の装置等と通信する際に、通信装置１５を適宜用いてもよい。推論装置１００の各部は、入出力ＩＦ１４を介してデータを受け付けてもよく、また、通信装置１５を介してデータを受け付けてもよい。

　補助記憶装置１３は、推論プログラムを記憶している。推論プログラムは、推論装置１００が備える各部の機能をコンピュータに実現させるプログラムである。推論プログラムは、メモリ１２にロードされて、プロセッサ１１によって実行される。推論装置１００が備える各部の機能は、ソフトウェアにより実現される。
　また、補助記憶装置１３は、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）を記憶している。ＯＳの少なくとも一部は、メモリ１２にロードされて、プロセッサ１１によって実行される。つまり、プロセッサ１１は、ＯＳを実行しながら、推論プログラムを実行する。

　推論プログラムを実行する際に用いられるデータと、推論プログラムを実行することによって得られるデータと等は、記憶装置に適宜記憶される。推論装置１００の各部は、適宜記憶装置を利用する。記憶装置は、具体例として、メモリ１２と、補助記憶装置１３と、プロセッサ１１内のレジスタと、プロセッサ１１内のキャッシュメモリとの少なくとも１つから成る。なお、データと情報とは、同等の意味を有することもある。記憶装置は、コンピュータと独立したものであってもよい。
　メモリ１２及び補助記憶装置１３の機能は、他の記憶装置によって実現されてもよい。

　推論プログラムは、コンピュータが読み取り可能な不揮発性の記録媒体に記録されていてもよい。不揮発性の記録媒体は、具体例として、光ディスク又はフラッシュメモリである。推論プログラムは、プログラムプロダクトとして提供されてもよい。

＊＊＊動作の説明＊＊＊
　推論装置１００の動作手順は、推論方法に相当する。また、推論装置１００の動作を実現するプログラムは、推論プログラムに相当する。

　図４は、推論装置１００の動作の一例を示すフローチャートである。また、図５は、推論装置１００の動作の一例を模式的に説明する図である。図５において、平行四辺形は、出力データを除いて演算において用いられるデータを表現している。図４及び図５を参照して推論装置１００の動作を説明する。なお、本実施の形態は、量子化したデータを用いることもできる機械学習の手法に対して適用することができるが、説明の便宜上、推論装置１００の動作の説明において機械学習の手法はディープラーニングとする。

（ステップＳ１０１）
　量子化推論部１１０の量子化推論プロセスが起動される。

（ステップＳ１０２）
　推論を開始する指示がある場合、推論装置１００はステップＳ１０３に進む。それ以外の場合、推論装置１００は本ステップの処理を再度実行する。

（ステップＳ１０３）
　量子化推論部１１０は、推論用データを用いて推論処理を開始する。推論用データは、推論を開始する指示と併せて推論装置１００が受け取ったデータであってもよい。

（ステップＳ１０４）
　量子化推論部１１０は、対象レイヤについてのレイヤ演算を実行する。ここで、レイヤはディープラーニングにおけるレイヤであり、ステップＳ１０４からステップＳ１０６から成るループ処理においてレイヤ演算を初めて実行する場合に先頭のレイヤを対象レイヤとし、それ以外の場合に１回前に実行したレイヤ演算における対象レイヤの次のレイヤを対象レイヤとする。
　図５における演算がレイヤ演算に相当する。また、量子化推論部１１０は、演算の直下に示されている太い矢印の左側に示されているデータを入力データとしてレイヤ演算を実行し、当該矢印の右側に示されているデータを出力する。

（ステップＳ１０５）
　量子化推論部１１０は、ステップＳ１０４の処理においてオーバーフローが発生したか否かを確認する。オーバーフローが発生したか否かを確認する方法は、具体例として、ＣＰＵのフラグを参照する方法、演算に関係する変数を演算の前後に確認する方法、又は、ＦＰＧＡ等の独自の回路により確認する方法である。
　オーバーフローが発生した場合、推論装置１００はステップＳ１０９に進む。それ以外の場合、推論装置１００はステップＳ１０６に進む。

（ステップＳ１０６）
　全てのレイヤ演算が終了した場合、推論装置１００はステップＳ１０７に進む。それ以外の場合、推論装置１００はステップＳ１０４に進む。

（ステップＳ１０７）
　量子化推論部１１０は、推論を指示した者に推論の結果を適宜通知する。

（ステップＳ１０８）
　少なくともいずれかのレイヤ演算においてオーバーフローが発生した場合、推論装置１００はステップＳ１１１に進む。それ以外の場合、推論装置１００はステップＳ１０２に戻る。

（ステップＳ１０９）
　データ抽出部１３０は、対象レイヤに対応する退避データを退避する。具体例として、データ抽出部１３０は、対象レイヤについてのデータを抽出し、抽出したデータを退避データとして退避する。対象レイヤについてのデータは、具体例として、対象レイヤに対する入力データと、対象レイヤにおける変数データと、対象レイヤにおける特徴データとである。ただし、対象レイヤが先頭のレイヤである場合、データ抽出部１３０は、入力データが推論用データであるため、退避データとして入力データを抽出しない。なお、データ抽出部１３０は推論用データを退避してもよい。ここで、推論用データは先頭のレイヤに入力されるデータである。
　図５は、対象レイヤに対応する退避データとして、オーバーフローが発生した対象レイヤについてのデータと、対象レイヤの１つ前のレイヤについてのデータとをデータ抽出部１３０が退避する様子を示している。なお、データ抽出部１３０が退避するデータは、対象レイヤについてのデータのみであってもよく、対象レイヤから対象レイヤのｎ（ｎは自然数）個前のレイヤまでの各々のレイヤについてのデータであってもよい。

（ステップＳ１１０）
　量子化推論部１１０は、飽和演算を実行し、その後、ステップＳ１０６に進む。

（ステップＳ１１１）
　非量子化推論部１２０の非量子化推論プロセスが起動される。
　以下、推論装置１００は、ステップＳ１０２以降の処理と、ステップＳ１２１以降の処理とを並列に実行する。

（ステップＳ１２１）
　非量子化推論部１２０は、推論用データを用いて非量子化推論プロセスを実行する。
　なお、図５において、非量子化推論部１２０が非量子化推論プロセスを最後まで実行することによって出力データを出力しているが、非量子化推論部１２０は、量子化推論プロセスにおいてオーバーフローが発生したレイヤに対応するレイヤまでのレイヤ演算を実行すれば十分である。

（ステップＳ１２２）
　データ抽出部１３０は、退避データとして、オーバーフローが発生したレイヤに対応するレイヤについてのデータを抽出する。ここで、データ抽出部１３０は、量子化推論プロセスにおいて退避したデータに対応するレイヤと同一のレイヤについてのデータを退避する。具体例として、図５に示すように、データ抽出部１３０が量子化推論プロセスにおいてオーバーフローが発生したレイヤと当該レイヤの１つ前のレイヤとの各々についてのデータを退避した場合、データ抽出部１３０は、オーバーフローが発生したレイヤに対応するレイヤとオーバーフローが発生したレイヤの１つ前のレイヤとの各々に対応する非量子化推論プロセスのレイヤについてのデータを退避データとして退避する。
　データ抽出部１３０が退避した量子化推論プロセスにおけるデータと非量子化推論プロセスにおけるデータとは推論装置１００の外部に出力されてもよい。エンジニア等は、出力されたデータを入手し、入手したデータに基づいて量子化推論プロセスのパラメータを再設定してもよく、入手したデータに基づいてソースコード内の量子化推論プロセスに関するパラメータを変更してもよい。

（ステップＳ１２３）
　非量子化推論部１２０の非量子化推論プロセスは終了される。

＊＊＊実施の形態１の効果の説明＊＊＊
　以上のように、本実施の形態によれば、推論用データが機密情報である場合であっても、推論用データを抽出せず、オーバーフローが発生した演算に関するデータのみを抽出する。ここで、オーバーフローが発生した演算に関するデータは、推論用データに存在する機密性が排除されたデータである。そのため、本実施の形態によれば、推論環境における精度を維持しつつ、機密性を保持したまま量子化演算において発生したオーバーフローを解析することができる。そのため、本実施の形態によれば、発生したオーバーフローに対処するための学習済モデルの改良に必要なデータを取得することができる。
　また、本実施の形態によれば、学習用データ等のみならず、実際の推論用データに基づいて量子化を伴う機械学習におけるパラメータ等を調整することができる。

＊＊＊他の構成＊＊＊
＜変形例１＞
　量子化推論部１１０は、オーバーフローが発生した場合に推論を途中で打ち切ってもよい。具体例として、量子化推論部１１０は、少なくとも１回の量子化演算のいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した演算よりも後の演算を実行しない。

＜変形例２＞
　図６は、本変形例に係る推論装置１００のハードウェア構成例を示している。本変形例に係る推論装置１００は、本図に示すように、オフロードデバイス１６を備える。
　量子化推論プロセスは、オフロードデバイス１６によって実行されてもよい。オフロードデバイス１６は具体例として、ＧＰＵ又はＦＰＧＡである。本変形例において、非量子化推論プロセスはプロセッサ１１で実行されていてもよく、このとき、プロセッサ１１とオフロードデバイス１６との間で適宜通信が実行される。

＜変形例３＞
　図７は、本変形例に係る推論装置１００のハードウェア構成例を示している。
　推論装置１００は、プロセッサ１１、プロセッサ１１とメモリ１２、プロセッサ１１と補助記憶装置１３、あるいはプロセッサ１１とメモリ１２と補助記憶装置１３に代えて、処理回路１８を備える。
　処理回路１８は、推論装置１００が備える各部の少なくとも一部を実現するハードウェアである。
　処理回路１８は、専用のハードウェアであってもよく、また、メモリ１２に格納されるプログラムを実行するプロセッサであってもよい。

　処理回路１８が専用のハードウェアである場合、処理回路１８は、具体例として、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡＳＩＣはＡｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）、ＦＰＧＡ（Ｆｉｅｌｄ　Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙ）又はこれらの組み合わせである。
　推論装置１００は、処理回路１８を代替する複数の処理回路を備えてもよい。複数の処理回路は、処理回路１８の役割を分担する。

　推論装置１００において、一部の機能が専用のハードウェアによって実現されて、残りの機能がソフトウェア又はファームウェアによって実現されてもよい。

　処理回路１８は、具体例として、ハードウェア、ソフトウェア、ファームウェア、又はこれらの組み合わせにより実現される。
　プロセッサ１１とメモリ１２と補助記憶装置１３と処理回路１８とを、総称して「プロセッシングサーキットリー」という。つまり、推論装置１００の各機能構成要素の機能は、プロセッシングサーキットリーにより実現される。
　他の実施の形態に係る推論装置１００についても、本変形例と同様の構成であってもよい。

　実施の形態２．
　以下、主に前述した実施の形態と異なる点について、図面を参照しながら説明する。

＊＊＊構成の説明＊＊＊
　図８は、本実施の形態に係る推論装置１００の構成例を示している。推論装置１００は、本図に示すように再量子化部１４０を備える。
　再量子化部１４０は、データ抽出部１３０が抽出したデータに基づいて量子化アルゴリズムを変更することにより再量子化アルゴリズムを生成する。ここで、再量子化アルゴリズムは、再量子化部１４０によって変更された量子化アルゴリズムである。また、再量子化部１４０は、再量子化を実行するタイミングを管理する。再量子化は、再量子化アルゴリズムを変更することであり、量子化アルゴリズムを再量子化アルゴリズムに置き換えることを含んでもよい。再量子化部１４０は、データ抽出部１３０によって抽出された量子化特徴データと非量子化特徴データとに基づいて、抽出された量子化特徴データに対応する量子化演算である対象演算においてオーバーフローが発生しないよう、対象演算に対応する量子化特徴データを変更する。
　本実施の形態に係る量子化推論部１１０は、再量子化部１４０が生成した再量子化アルゴリズムを適宜利用し、変更された量子化特徴データに応じた量子化演算を実行する。また、量子化推論部１１０は、再量子化アルゴリズムと動作している量子化アルゴリズムとを入れ替えるタイミングを管理する。

＊＊＊動作の説明＊＊＊
　図９は、推論装置１００の動作の一例を示すフローチャートである。本図を参照して、実施の形態１に係る推論装置１００の動作と、本実施の形態に係る推論装置１００の動作との差異を主に説明する。

（ステップＳ１０２）
　推論装置１００は、本ステップの処理を再度実行する代わりに、ステップＳ２０１に進む。

（ステップＳ１０８）
　推論装置１００はステップＳ１０２に戻る代わりに、ステップＳ２０１に進む。

（ステップＳ２０１）
　再量子化部１４０によって再量子化アルゴリズムが準備されていない場合、量子化推論部１１０はステップＳ１０２に進む。それ以外の場合、量子化推論部１１０はステップＳ２０２に進む。

（ステップＳ２０２）
　量子化推論部１１０は、量子化推論プロセスにおける量子化アルゴリズムを再量子化部１４０が準備した再量子化アルゴリズムに入れ替える。

（ステップＳ２２１）
　再量子化部１４０は、退避データを用いて再量子化を実行することにより再量子化アルゴリズムを生成する。再量子化は、オーバーフローが発生したレイヤにおいてオーバーフローが発生しないように量子化アルゴリズムを調整することである。再量子化部１４０は、具体例として、オーバーフローが発生したレイヤにおける特徴データを変更する。
　なお、複数のレイヤにおいてオーバーフローが発生した場合に、再量子化部１４０は、最も早く処理されるレイヤに対応する特徴データのみを調整してもよく、オーバーフローが発生した全てのレイヤの各々に対応する特徴データを一括で調整してもよい。

（ステップＳ２２２）
　再量子化部１４０は、ステップＳ２２１において生成した再量子化アルゴリズムを保存する。

＊＊＊実施の形態２の効果の説明＊＊＊
　以上のように、本実施の形態によれば、オーバーフローが発生しないように量子化アルゴリズムを変更する処理を自動的に実行することができる。

＊＊＊他の構成＊＊＊
＜変形例４＞
　量子化推論プロセスにおける量子化アルゴリズムを再量子化部１４０が準備した量子化アルゴリズムに量子化推論部１１０が入れ替えるタイミングは、推論装置１００を備える組込みシステムの再起動時であってもよい。また、量子化推論部１１０は、次に推論を実行するタイミングを考慮して次に実行する推論に影響がないと判断した際に量子化アルゴリズムを入れ替えるよう動作予約する方式により量子化アルゴリズムを入れ替えてもよい。

＊＊＊他の実施の形態＊＊＊
　前述した各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
　また、実施の形態は、実施の形態１から２で示したものに限定されるものではなく、必要に応じて種々の変更が可能である。フローチャート等を用いて説明した手順は、適宜変更されてもよい。

　１１　プロセッサ、１２　メモリ、１３　補助記憶装置、１４　入出力ＩＦ、１５　通信装置、１６　オフロードデバイス、１８　処理回路、１９　信号線、１００　推論装置、１１０　量子化推論部、１２０　非量子化推論部、１３０　データ抽出部、１４０　再量子化部。

Claims

　推論用データを用いて機械学習の手法に基づいた少なくとも１回の量子化演算を実行する量子化推論部と、
　前記推論用データを用いて前記少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する非量子化推論部と
を備える推論装置であって、
　前記少なくとも１回の量子化演算それぞれは、前記少なくとも１回の量子化演算それぞれの特徴を示す少なくとも１つの量子化特徴データそれぞれに応じた演算であり、
　前記少なくとも１回の非量子化演算それぞれは、前記少なくとも１回の非量子化演算それぞれの特徴を示す少なくとも１つの非量子化特徴データそれぞれに応じた演算であり、
　前記推論装置は、さらに、
　前記少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する特徴データ抽出部
を備える推論装置。
　前記少なくとも１つの量子化特徴データそれぞれは、前記少なくとも１回の量子化演算それぞれに対応するパラメータを含み、
　前記少なくとも１つの非量子化特徴データそれぞれは、前記少なくとも１回の非量子化演算それぞれに対応するパラメータを含む請求項１に記載の推論装置。
　前記機械学習の手法は、ディープラーニングであり、
　前記特徴データ抽出部は、
　前記量子化特徴データとして、オーバーフローが発生した量子化演算に対応するレイヤについてのパラメータを示すデータを抽出し、
　前記非量子化特徴データとして、オーバーフローが発生した量子化演算に対応する非量子化演算に対応するレイヤについてのパラメータを示すデータを抽出する請求項１又は２に記載の推論装置。
　前記推論装置は、さらに、
　抽出された量子化特徴データと非量子化特徴データとに基づいて、抽出された量子化特徴データに対応する量子化演算である対象演算においてオーバーフローが発生しないよう、前記対象演算に対応する量子化特徴データを変更する再量子化部を
備え、
　前記量子化推論部は、変更された量子化特徴データに応じた量子化演算を実行する請求項１から３のいずれか１項に記載の推論装置。
　推論用データを用いて機械学習の手法に基づいた少なくとも１回の量子化演算を実行し、
　前記推論用データを用いて前記少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する推論方法であって、
　前記少なくとも１回の量子化演算それぞれは、前記少なくとも１回の量子化演算それぞれの特徴を示す少なくとも１つの量子化特徴データそれぞれに応じた演算であり、
　前記少なくとも１回の非量子化演算それぞれは、前記少なくとも１回の非量子化演算それぞれの特徴を示す少なくとも１つの非量子化特徴データそれぞれに応じた演算であり、
　前記少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する推論方法。
　推論用データを用いて機械学習の手法に基づいた少なくとも１回の量子化演算を実行する量子化推論処理と、
　前記推論用データを用いて前記少なくとも１回の量子化演算それぞれに対応する少なくとも１回の非量子化演算の少なくともいずれかを実行する非量子化推論処理と
をコンピュータである推論装置に実行させる推論プログラムであって、
　前記少なくとも１回の量子化演算それぞれは、前記少なくとも１回の量子化演算それぞれの特徴を示す少なくとも１つの量子化特徴データそれぞれに応じた演算であり、
　前記少なくとも１回の非量子化演算それぞれは、前記少なくとも１回の非量子化演算それぞれの特徴を示す少なくとも１つの非量子化特徴データそれぞれに応じた演算であり、
　前記推論プログラムは、さらに、
　前記少なくとも１回の量子化演算の少なくともいずれかにおいてオーバーフローが発生した場合に、オーバーフローが発生した量子化演算の各々に対応する量子化特徴データと、オーバーフローが発生した量子化演算の各々に対応する非量子化演算に対応する非量子化特徴データとを抽出する特徴データ抽出処理を前記推論装置に実行させる推論プログラム。