WO2021230006A1

WO2021230006A1 - ネットワーク量子化方法及びネットワーク量子化装置

Info

Publication number: WO2021230006A1
Application number: PCT/JP2021/015786
Authority: WO
Inventors: 幸宏笹川
Original assignee: 株式会社ソシオネクスト
Priority date: 2020-05-13
Filing date: 2021-04-16
Publication date: 2021-11-18
Also published as: JPWO2021230006A1; US20230042275A1

Abstract

ネットワーク量子化方法は、ニューラルネットワーク（１４）を量子化するネットワーク量子化方法であって、ニューラルネットワーク（１４）が扱うテンソルの統計情報データベース（１８）を構築するデータベース構築ステップと、統計情報データベース（１８）とニューラルネットワーク（１４）とに基づいて、テンソルの値を量子化することによって、量子化パラメータセット（２２）を生成するパラメータ生成ステップと、量子化パラメータセット（２２）を用いてニューラルネットワーク（１４）を量子化することによって、量子化ネットワーク（２６）を構築するネットワーク構築ステップとを含み、パラメータ生成ステップは、ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する量子化タイプ決定ステップを含む。

Description

ネットワーク量子化方法及びネットワーク量子化装置

　本開示は、ネットワーク量子化方法及びネットワーク量子化装置に関する。

　従来、ニューラルネットワークなどのネットワークを用いて機械学習が行われている。ここで、数値データを入力とし、なんらかの演算を施して数値データの出力値を得るモデルをネットワークと呼ぶ。ネットワークをコンピュータなどのハードウェアに実装する時には、ハードウェアコストを抑制するため、実装後の推論精度を浮動小数点精度と同程度に保ったまま、演算精度がより低いネットワークを構築することが求められる。

　例えば、全ての計算を浮動小数点精度で行うネットワークを実装する場合、ハードウェアコストが大きくなるので、推論精度を保ったまま、固定小数点精度で計算を行うネットワークの実現が求められる。

　以下では、浮動小数点精度のネットワークを量子化前ネットワークとも呼称し、固定小数点精度のネットワークを量子化ネットワークとも呼称する。

　ここでは、ほぼ任意の値を連続的に表現できる浮動小数点の値を、所定の区分に分割して符号化する処理のことを量子化と称している。より一般的には、量子化とは、ネットワークが扱う数値の桁数又は範囲を縮小する処理と定義される。

　量子化によって限定されたビット数で実数を表現する際に、入力データの分布が想定された分布と異なる場合がある。この場合、量子化誤差が大きくなり、機械学習の速度、さらには学習後の推論の精度に悪影響を与えるという問題がある。

　このような問題を解決する方法として、例えば、特許文献１に記載された方法が知られている。特許文献１に記載された方法では、畳み込みニューラルネットワークの各層内の重み及びデータの各々に個別の固定小数点フォーマットを定義する。畳み込みニューラルネットワークの機械学習を浮動小数点数で開始し、入力データの分布を推定するために解析する。続いて入力データの分布に基づいて入力データ値を表す最適化数フォーマットを決定し、当該フォーマットを用いて量子化を行う。このように、特許文献１では、最初に入力データの分布を調べ、当該分布に適した数フォーマットを選ぶことにより、上記問題を解決しようとしている。

特開２０１８－１０６１８号公報

　特許文献１に記載された方法では、扱うデータのダイナミックレンジを考慮し、そのデータが収まるような範囲に対して限定されたビット数を割り当てる。この場合に、データの特性によってはビット数を有効利用できない場合があり得る。例えば、ビット数に対して意味のあるデータの量が少なくなる場合がある。このように、ビット割り当てが効率的でない場合がある。

　そこで、本開示は、このような問題を解決するためになされたものであり、効率的にビット割り当てされた量子化ネットワークを構築できるネットワーク量子化方法などを提供することを目的とする。

　上記目的を達成するために、本開示の一形態に係るネットワーク量子化方法は、ニューラルネットワークを量子化するネットワーク量子化方法であって、前記ニューラルネットワークを準備する準備ステップと、前記ニューラルネットワークに複数のテストデータセットを入力する場合に得られる前記ニューラルネットワークが扱うテンソルの統計情報データベースを構築するデータベース構築ステップと、前記統計情報データベースと前記ニューラルネットワークとに基づいて、前記テンソルの値を量子化することによって、量子化パラメータセットを生成するパラメータ生成ステップと、前記量子化パラメータセットを用いて前記ニューラルネットワークを量子化することによって、量子化ネットワークを構築するネットワーク構築ステップとを含み、前記パラメータ生成ステップは、前記ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する量子化タイプ決定ステップを含む。

　上記目的を達成するために、本開示の一形態に係るネットワーク量子化装置は、ニューラルネットワークを量子化するネットワーク量子化装置であって、前記ニューラルネットワークに複数のテストデータセットを入力する場合に得られる前記ニューラルネットワークが扱うテンソルの統計情報データベースを構築するデータベース構築部と、前記統計情報データベースと前記ニューラルネットワークとに基づいて、前記テンソルの値を量子化することによって、量子化パラメータセットを生成するパラメータ生成部と、前記量子化パラメータセットを用いて前記ニューラルネットワークを量子化することによって、量子化ネットワークを構築するネットワーク構築部とを備え、前記パラメータ生成部は、前記ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する。

　本開示により、効率的にビット割り当てされた量子化ネットワークを構築できるネットワーク量子化方法などを提供できる。

図１は、実施の形態１に係るネットワーク量子化装置の機能構成の概要を示すブロック図である。図２は、実施の形態１に係るネットワーク量子化装置の機能をソフトウェアにより実現するコンピュータのハードウェア構成の一例を示す図である。図３は、実施の形態１に係るネットワーク量子化方法の流れを示すフローチャートである。図４は、実施の形態１に係る量子化パラメータセット生成方法の流れを示すフローチャートである。図５は、実施の形態１に係る冗長度と、好適な量子化タイプとの関係の一例を示す表である。図６は、浮動小数点精度の数値の３値化を説明するグラフである。図７は、実施の形態２に係るネットワーク量子化装置の機能構成の概要を示すブロック図である。図８は、実施の形態２に係るネットワーク量子化方法の流れを示すフローチャートである。図９は、実施の形態２に係るパラメータ生成ステップの流れを示すフローチャートである。図１０は、実施の形態２に係る量子化タイプ決定ステップの流れを示すフローチャートである。図１１は、浮動小数点精度の数値の疑似３値化を説明するグラフである。

　以下、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、材料、規格、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、本開示の最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する場合がある。

　（実施の形態１）
　実施の形態１に係るネットワーク量子化方法及びネットワーク量子化装置について説明する。

　［１－１．ネットワーク量子化装置］
　まず、本実施の形態に係るネットワーク量子化装置の構成について、図１を用いて説明する。図１は、本実施の形態に係るネットワーク量子化装置１０の機能構成の概要を示すブロック図である。

　ネットワーク量子化装置１０は、ニューラルネットワーク１４を量子化する装置である。つまり、ネットワーク量子化装置１０は、浮動小数点精度のニューラルネットワーク１４を、固定小数点精度のニューラルネットワークである量子化ネットワークに変換する装置である。なお、ネットワーク量子化装置１０は、ニューラルネットワーク１４が扱うすべてのテンソルを量子化しなくてもよく、少なくとも一部のテンソルを量子化すればよい。ここで、テンソルとは、ニューラルネットワーク１４を構成する複数のレイヤ（層）の各々における入力データ、出力データ及び重みなどのパラメータを含むｎ次元配列（ｎは０以上の整数）で表される値である。ここで、ニューラルネットワーク１４を構成する複数のレイヤは、ニューラルネットワーク１４の信号が入力される入力層と、ニューラルネットワーク１４から信号が出力される出力層と、入力層と出力層との間において信号が伝達される隠れ層とを含む。

　テンソルは、ニューラルネットワーク１４における最小単位のオペレーションに係るパラメータを含んでもよい。ニューラルネットワーク１４が畳み込みニューラルネットワークである場合には、畳み込み層と定義されている関数である重み及びバイアス値がテンソルに含まれてもよい。また、ニューラルネットワーク１４における正規化処理などのパラメータがテンソルに含まれてもよい。

　図１に示されるように、ネットワーク量子化装置１０は、データベース構築部１６と、パラメータ生成部２０と、ネットワーク構築部２４とを備える。本実施の形態では、ネットワーク量子化装置１０は、機械学習部２８をさらに備える。

　データベース構築部１６は、ニューラルネットワーク１４に複数のテストデータセット１２を入力する場合に得られるニューラルネットワーク１４が扱うテンソルの統計情報データベース１８を構築する処理部である。データベース構築部１６は、複数のテストデータセット１２に対するニューラルネットワーク１４が扱う各テンソルの冗長度などを算出し、各テンソルの統計情報データベース１８を構築する。統計情報データベース１８は、ニューラルネットワーク１４を構成する複数のレイヤの各々に含まれるテンソルの冗長度を含む。データベース構築部１６において、テンソルの冗長度は、例えば、テンソル分解の結果に基づいて決定されてもよい。テンソルの冗長度については後述する。また、統計情報データベース１８は、例えば、各テンソルの平均値、中央値、最頻値、最大値、最小値、極大値、極小値、分散、偏差、歪度、尖度などの統計量の少なくとも一部を含んでもよい。

　パラメータ生成部２０は、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセットを生成する処理部である。パラメータ生成部２０は、ニューラルネットワーク１４を構成する複数のレイヤの各々の量子化タイプを決定する。量子化タイプは、例えば、テンソルに対して異なる数値変換を行う複数の数値変換タイプから選択され得る。複数の数値変換タイプは、例えば、対数変換、無変換などを含む。また、量子化タイプは、量子化の精細度の異なる複数の精細度タイプから選択され得る。複数の精細度タイプは、例えば、Ｎビット固定小数点（Ｎ：２以上の整数）、３値などを含む。パラメータ生成部２０は、ニューラルネットワーク１４を構成する複数のレイヤの各々に含まれるテンソルの冗長度に基づいて量子化タイプを決定する。パラメータ生成部２０は、決定した量子化タイプを用いてテンソルの値を量子化する。パラメータ生成部２０の詳細な処理内容については後述する。

　ネットワーク構築部２４は、量子化パラメータセット２２を用いてニューラルネットワーク１４を量子化することによって、量子化ネットワーク２６を構築する処理部である。

　機械学習部２８は、量子化ネットワーク２６に機械学習させる処理部である。機械学習部２８は、ネットワーク構築部２４によって構築された量子化ネットワーク２６に複数のテストデータセット１２又は他の入力データセットを入力することで機械学習させる。これにより、機械学習部２８は、量子化ネットワーク２６より推論の精度が良好な量子化ネットワーク３０を構築する。なお、ネットワーク量子化装置１０は、機械学習部２８を必ずしも備えなくてもよい。

　以上のような構成により、ネットワーク量子化装置１０は、精度が良好な量子化ネットワークを構築できる。

　［１－２．ハードウェア構成］
　次に、本実施の形態に係るネットワーク量子化装置１０のハードウェア構成について、図２を用いて説明する。図２は、本実施の形態に係るネットワーク量子化装置１０の機能をソフトウェアにより実現するコンピュータ１０００のハードウェア構成の一例を示す図である。

　コンピュータ１０００は、図２に示すように、入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７、送受信装置１００８及びバス１００９を備える。入力装置１００１、出力装置１００２、ＣＰＵ１００３、内蔵ストレージ１００４、ＲＡＭ１００５、読取装置１００７及び送受信装置１００８は、バス１００９により接続される。

　入力装置１００１は入力ボタン、タッチパッド、タッチパネルディスプレイなどといったユーザインタフェースとなる装置であり、ユーザの操作を受け付ける。なお、入力装置１００１は、ユーザの接触操作を受け付ける他、音声での操作、リモコン等での遠隔操作を受け付ける構成であってもよい。

　出力装置１００２は、コンピュータ１０００からの信号を出力する装置であり、信号出力端子の他、ディスプレイ、スピーカなどのユーザインタフェースとなる装置であってもよい。

　内蔵ストレージ１００４は、フラッシュメモリなどである。また、内蔵ストレージ１００４は、ネットワーク量子化装置１０の機能を実現するためのプログラム、及び、ネットワーク量子化装置１０の機能構成を利用したアプリケーションの少なくとも一方が、予め記憶されていてもよい。

　ＲＡＭ１００５は、ランダムアクセスメモリ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）であり、プログラム又はアプリケーションの実行に際してデータ等の記憶に利用される。

　読取装置１００７は、ＵＳＢ（Ｕｎｉｖｅｒｓａｌ　Ｓｅｒｉａｌ　Ｂｕｓ）メモリなどの記録媒体から情報を読み取る。読取装置１００７は、上記のようなプログラムやアプリケーションが記録された記録媒体からそのプログラムやアプリケーションを読み取り、内蔵ストレージ１００４に記憶させる。

　送受信装置１００８は、無線又は有線で通信を行うための通信回路である。送受信装置１００８は、例えばネットワークに接続されたサーバ装置と通信を行い、サーバ装置から上記のようなプログラムやアプリケーションをダウンロードして内蔵ストレージ１００４に記憶させる。

　ＣＰＵ１００３は、中央演算処理装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）であり、内蔵ストレージ１００４に記憶されたプログラム、アプリケーションなどをＲＡＭ１００５にコピーし、コピーしたプログラム、アプリケーションなどに含まれる命令をＲＡＭ１００５から順次読み出して実行する。

　［１－３．ネットワーク量子化方法］
　次に、本実施の形態に係るネットワーク量子化方法について図３を用いて説明する。図３は、本実施の形態に係るネットワーク量子化方法の流れを示すフローチャートである。

　図３に示されるように、ネットワーク量子化方法において、まず、ニューラルネットワーク１４を準備する（Ｓ１０）。本実施の形態では、予め学習済みのニューラルネットワーク１４を準備する。ニューラルネットワーク１４は、量子化されていない、つまり、浮動小数点精度のニューラルネットワークである。なお、ニューラルネットワーク１４の学習において、使用される入力データは特に限定されず、図１に示される複数のテストデータセット１２を含んでもよい。

　続いて、データベース構築部１６は、ニューラルネットワーク１４に複数のテストデータセット１２を入力する場合に得られるニューラルネットワーク１４が扱うテンソルの統計情報データベースを構築する（Ｓ２０）。本実施の形態では、データベース構築部１６が、ニューラルネットワーク１４を構成する複数のレイヤの各々に含まれるテンソルの冗長度を算出し、各テンソルの冗長度を含む統計情報データベース１８を構築する。本実施の形態では、冗長度は各テンソルのテンソル分解の結果に基づいて決定される。冗長度の算出方法については、後述する。

　続いて、パラメータ生成部２０は、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセット２２を生成する（Ｓ３０）。パラメータ生成ステップＳ３０は、ニューラルネットワーク１４を構成する複数のレイヤの各々の量子化タイプを決定する量子化タイプ決定ステップを含む。量子化タイプ決定ステップについては後述する。

　続いて、ネットワーク構築部２４は、量子化パラメータセット２２を用いてニューラルネットワーク１４を量子化することによって、量子化ネットワーク２６を構築する（Ｓ４０）。

　続いて、機械学習部２８は、量子化ネットワーク２６に機械学習させる（Ｓ５０）。機械学習部２８は、ネットワーク構築部２４によって構築された量子化ネットワーク２６に複数のテストデータセット１２又は他の入力データセットを入力することで機械学習させる。これにより、量子化ネットワーク２６より推論の精度が良好な量子化ネットワーク３０を構築できる。なお、本実施の形態に係るネットワーク量子化方法は、機械学習ステップＳ５０を必ずしも含まなくてもよい。

　以上のように、本実施の形態に係るネットワーク量子化方法によれば、ニューラルネットワークを精度良く量子化できる。

　［１－４．冗長度］
　次に、データベース構築部１６において算出されるテンソルの冗長度について説明する。テンソルの冗長度とは、ニューラルネットワーク１４の推論精度の低下を所定の範囲に抑えつつ、削減できるテンソルの情報量の割合に対応する尺度である。本実施の形態では、テンソルの冗長度は、テンソルの意味的構造（つまり、主成分）に着目して、求められる尺度であり、ニューラルネットワーク１４の推論精度と相関づけた再構築誤差を所定の範囲に抑えつつ削除できる成分（つまり、主成分から離れた成分）の情報量の、元のテンソルの情報量に対する比で表される。

　テンソルの冗長度の算出方法例について以下に説明する。

　Ｊ次元テンソル（Ｊ次元の多次元配列（Ｊは２以上の整数））は数学的技法によりＫ次元コアテンソル（ＫはＪより小さい１以上の整数）とＪ個の因子行列に分解することができる。このようなテンソル分解は、具体的にはＪ次元テンソルをＫ次元テンソルで近似する最適化問題を解くことに相当する。これは多少のノイズ成分を無視すれば概ね該当のＪ次元テンソルはＫ次元テンソルと因子行列とで近似できるということを意味する。つまり、元のＪ次元テンソルを表現するには、Ｋ次元テンソルの各成分を表現する程度の複雑さがあれば足りる。以上のようにテンソル分解を行うことで得られる値（Ｊ－Ｋ）／Ｊが冗長度と定義される。なお、冗長度の定義はこれに限定されない。例えば、Ｋ／Ｊが冗長度と定義されてもよい。

　ここで、テンソル分解の方法例について説明する。テンソル分解として、例えば、ＣＰ分解、Ｔｕｃｋｅｒ分解などを用いることができる。例えば、下記式（１）に示されるように、ＣＰ分解によりＪ次元テンソルＷをＫ次元コアテンソルＵと因子行列Ｖとの積で近似できる。

　この場合、ニューラルネットワーク１４の推論精度と相関づけた再構築誤差ＲｅｃＥｒｒは、コアテンソルを元のテンソルの形状（ｓｈａｐｅ）に復元した復元テンソルのＬ２ノルムと、元のテンソルのＬ２ノルムとの差を、元のテンソルのＬ２ノルムで正規化した値で表すことができる。つまり、再構築誤差ＲｅｃＥｒｒは、下記式（２）で求められる。

　したがって、再構築誤差ＲｅｃＥｒｒを所定の範囲に抑えつつ、テンソル分解を行うことで冗長度（Ｋ／Ｊ）を求めることができる。

　また、同様に、テンソル分解としてＴｕｃｋｅｒ分解を用いる場合には、再構築誤差ＲｅｃＥｒｒは、元のテンソルＷと、コアテンソルＣとに基づいて、下記式（３）で求めることができる。

　以上のように、ニューラルネットワーク１４を構成する複数のレイヤの各々に含まれるテンソルの冗長度を求めることができる。

　［１－５．パラメータ生成部］
　次に、本実施の形態に係るパラメータ生成部２０における量子化パラメータセット２２の生成方法について、詳細に説明する。

　上述のとおり、パラメータ生成部２０は、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセットを生成する。以下、パラメータ生成部２０における量子化パラメータセットの生成方法について、図４を用いて説明する。図４は、本実施の形態に係る量子化パラメータセット生成方法の流れを示すフローチャートである。

　図４に示されるように、本実施の形態に係る量子化パラメータセット生成方法において、まず、ニューラルネットワーク１４を構成する複数のレイヤの各々のテンソルの量子化タイプを決定する（Ｓ３１）。本実施の形態では、量子化タイプは、統計情報データベース１８に含まれる冗長度に基づいて決定される。本実施の形態では、量子化パラメータセットの生成前に、他のニューラルネットワークをサンプルモデルとして用いて、冗長度と、好適な量子化タイプとの関係を求めておく。このような冗長度と、好適な量子化タイプとの関係について、図５を用いて説明する。図５は、本実施の形態に係る冗長度と、好適な量子化タイプとの関係の一例を示す表である。図５に示される例では、テンソルの冗長度が０．３の場合には、当該テンソルの量子化タイプを８ビット固定小数点（ＦＩＸ８）に決定する。また、テンソルの冗長度が０．４の場合には、当該テンソルの量子化タイプを６ビット固定小数点（ＦＩＸ６）に決定する。また、テンソルの冗長度が０．７の場合には、当該テンソルの量子化タイプを３値（ＴＥＲＮＡＲＹ）に決定する。このように、量子化タイプ決定ステップＳ３１において、テンソルの冗長度が高くなるにしたがって、より低い精細度の量子化タイプが選択されてもよい。これにより、量子化ネットワーク２６による推論精度の低下を抑制しつつ、低い精細度の量子化タイプを選択できる。このように低い精細度の量子化タイプを選択することで、量子化ネットワークを実装する場合のハードウェアコストを抑制できる。このように事前に他のニューラルネットワークをサンプルモデルとして用いて、冗長度と、好適な量子化タイプとの関係を求めておく手法は、特に、量子化対象のニューラルネットワーク１４と、サンプルモデルとなる他のニューラルネットワークとの種類が、類似している場合に特に有効である。例えば、ニューラルネットワーク１４がオブジェクト検出用ニューラルネットワークである場合には、サンプルモデルとして他のオブジェクト検出用ニューラルネットワークを用いることで、ニューラルネットワーク１４に適した量子化タイプを選択できる。

　なお、量子化タイプ決定ステップＳ３１において、テンソルに含まれる各数値を非線形に変換してもよい。量子化タイプにおけるテンソルに対する数値変換タイプは、対数変換、無変換を含む複数の数値変換タイプの中から選択されてもよい。例えば、テンソルの値の頻度が０付近において特に大きい場合、テンソルの全要素を対数変換してもよい。つまり、テンソルの全要素を、当該数値の対数に変換してもよい。これにより、テンソルの全要素の頻度が０に近い範囲において高い場合に、テンソルの冗長度を増大させることができる。

　また、量子化タイプ決定ステップＳ３１において、量子化タイプにおける量子化の精細度は、Ｎビット固定小数点及び３値を含む複数の精細度タイプの中から選択されてもよい。

　続いて、ニューラルネットワーク１４を構成する複数のレイヤの各々のテンソルの量子化を実行する（Ｓ３２）。具体的には、例えば、量子化タイプとして、Ｎビット固定小数点精度の量子化を用いる場合には、各テンソルを構成する値を、Ｎビット固定小数点精度に量子化する。

　また、他の量子化タイプの例として、３値化を用いる場合について、図６を用いて説明する。図６は、浮動小数点精度の数値の３値化を説明するグラフである。図６に示されるグラフの横軸が、量子化される対象である浮動小数点精度の数値（図６に示される「元のＦｌｏａｔ値」）を示し、縦軸は、３値化後の値を示す。

　図６に示されるように、量子化タイプとして３値化を用いる場合、浮動小数点精度の数値のうち、所定の第１の値ａ以下の数値は－１に量子化され、第１の値ａより大きく、かつ、所定の第２の値ｂ以下の数値は０に量子化され、第２の値ｂより大きい数値は＋１に量子化される。このような３値化を量子化タイプとして用いる場合、量子化ネットワークにおける畳み込み演算などで、乗算をＸＯＲ演算で実現できる。これにより、量子化ネットワークを実装するハードウェアのリソースを削減することができる。

　以上のように、テンソルを量子化することで、量子化パラメータセットを生成することができる。

　［１－６．効果など］
　以上のように、本実施の形態に係るネットワーク量子化方法は、ニューラルネットワーク１４を量子化するネットワーク量子化方法であって、ニューラルネットワーク１４を準備する準備ステップと、ニューラルネットワークに複数のテストデータセット１２を入力する場合に得られるニューラルネットワーク１４が扱うテンソルの統計情報データベース１８を構築するデータベース構築ステップと、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセット２２を生成するパラメータ生成ステップと、量子化パラメータセット２２を用いてニューラルネットワーク１４を量子化することによって、量子化ネットワーク２６を構築するネットワーク構築ステップとを含む。パラメータ生成ステップは、ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する量子化タイプ決定ステップを含む。

　このように、ニューラルネットワーク１４を構成する複数のレイヤの各々に対して量子化タイプを選択できるため、各レイヤの特性に応じて効率的にビット割り当てを行うことができる。したがって、効率的にビット割り当てされた量子化ネットワークを構築できる。

　また、本実施の形態に係るネットワーク量子化方法において、量子化タイプ決定ステップにおいて、量子化タイプはテンソルに対して異なる数値変換を行う複数の数値変換タイプから選択され、複数の数値変換タイプは対数変換及び無変換を含んでもよい。

　これにより、テンソルに含まれる数値の分布などに応じてテンソルの数値変換方法を選択できる。例えば、テンソルの冗長度が大きくなるような数値変換を施すことで、より効率的なビット割り当てが可能となる。したがって、より一層効率的にビット割り当てされた量子化ネットワークを構築できる。

　また、本実施の形態に係るネットワーク量子化方法において、量子化タイプ決定ステップにおいて、量子化タイプは量子化の精細度の異なる複数の精細度タイプから選択され、複数の精細度タイプはＮビット固定小数点及び３値を含んでもよい。

　これにより、テンソルの冗長度などに応じて量子化の精細度を選択できる。したがって、量子化ネットワークの推論精度の低下を抑制できるように、レイヤ毎に量子化を行うことができる。

　また、本実施の形態に係るネットワーク量子化方法において、量子化タイプは、複数のレイヤの各々に含まれるテンソルの冗長度に基づいて決定されてもよい。

　一般にテンソルの冗長度が大きいほど、推論精度の低下を抑制しつつ、低い精細度の量子化を採用できる。このため、冗長度に基づいて量子化タイプを決定することで、推論精度の低下を抑制しつつ、低い精細度の量子化を採用することができる。このように量子化の精細度を低くすることで、量子化ネットワークを実装するハードウェアのコストを低減できる。

　また、本実施の形態に係るネットワーク量子化方法において、冗長度は、テンソルのテンソル分解の結果に基づいて決定されてもよい。

　また、本実施の形態に係るネットワーク量子化方法において、量子化タイプは、冗長度が高くなるにしたがって、より低い精細度のタイプに決定されてもよい。

　これにより、推論精度の低下を抑制しつつ、低い精細度の量子化を採用できる。

　また、本実施の形態に係るネットワーク量子化装置は、ニューラルネットワーク１４を量子化するネットワーク量子化装置１０であって、ニューラルネットワーク１４に複数のテストデータセット１２を入力する場合に得られるニューラルネットワーク１４が扱うテンソルの統計情報データベース１８を構築するデータベース構築部１６と、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセット２２を生成するパラメータ生成部２０と、量子化パラメータセット２２を用いてニューラルネットワーク１４を量子化することによって、量子化ネットワーク２６を構築するネットワーク構築部２４とを備える。パラメータ生成部２０は、ニューラルネットワーク１４を構成する複数のレイヤの各々の量子化タイプを決定する。

　これにより、本実施の形態に係るネットワーク量子化方法と同様の効果が奏される。

　（実施の形態２）
　実施の形態２に係るネットワーク量子化方法などについて説明する。本実施の形態に係るネットワーク量子化方法は、量子化タイプ決定方法において、実施の形態１に係る量子化方法と相違する。以下、本実施の形態に係るネットワーク量子化方法、ネットワーク量子化装置について、実施の形態１との相違点を中心に説明する。

　［２－１．ネットワーク量子化装置］
　まず、本実施の形態に係るネットワーク量子化装置の構成について、図７を用いて説明する。図７は、本実施の形態に係るネットワーク量子化装置１１０の機能構成の概要を示すブロック図である。

　図７に示されるように、ネットワーク量子化装置１１０は、データベース構築部１６と、パラメータ生成部１２０と、ネットワーク構築部２４とを備える。本実施の形態では、ネットワーク量子化装置１１０は、機械学習部２８をさらに備える。本実施の形態に係るネットワーク量子化装置１１０は、パラメータ生成部１２０において、実施の形態１に係るネットワーク量子化装置１０と相違する。

　本実施の形態に係るパラメータ生成部１２０は、実施の形態１に係るパラメータ生成部２０と同様に、統計情報データベース１８とニューラルネットワーク１４とに基づいて、テンソルの値を量子化することによって、量子化パラメータセット２２を生成する。また、パラメータ生成部１２０は、ニューラルネットワーク１４を構成する複数のレイヤの各々の量子化タイプを決定する。本実施の形態に係るパラメータ生成部１２０は、ニューラルネットワーク１４を構成する複数のレイヤのテンソルの冗長度と、量子化後のテンソルの冗長度とに基づいて、量子化タイプを決定する。具体的には、統計情報データベース１８に含まれるテンソルの冗長度と、当該テンソルを量子化した量子化テンソルの冗長度とに基づいて、量子化タイプを決定する。量子化テンソルの冗長度は、例えば、パラメータ生成部１２０において算出される。

　［２－２．ネットワーク量子化方法］
　次に、本実施の形態に係るネットワーク量子化方法及びそれを用いた推論方法について、図８を用いて説明する。図８は、本実施の形態に係るネットワーク量子化方法の流れを示すフローチャートである。

　図８に示されるように、本実施の形態に係るネットワーク量子化方法は、実施の形態１に係るネットワーク量子化方法と同様に、ニューラルネットワーク１４を準備ステップＳ１０と、統計情報データベース１８を構築するデータベース構築ステップＳ２０と、量子化パラメータセット２２を生成するパラメータ生成ステップＳ１３０と、量子化ネットワークを構築するネットワーク構築ステップＳ４０と、量子化ネットワーク２６に機械学習させる機械学習ステップＳ５０とを含む。

　本実施の形態に係るネットワーク量子化方法は、パラメータ生成ステップＳ１３０において、実施の形態１に係るネットワーク量子化方法と相違する。

　本実施の形態に係るパラメータ生成ステップＳ１３０について、図９を用いて説明する。図９は、本実施の形態に係るパラメータ生成ステップＳ１３０の流れを示すフローチャートである。本実施の形態に係るパラメータ生成ステップＳ１３０は、実施の形態１に係るパラメータ生成ステップＳ３０と同様に、量子化タイプ決定ステップＳ１３１と、量子化実行ステップＳ３２とを含む。本実施の形態に係るパラメータ生成ステップＳ１３０は、量子化タイプ決定ステップＳ１３１において、実施の形態１に係るパラメータ生成ステップＳ３０と相違する。

　本実施の形態に係る量子化タイプ決定ステップＳ１３１について、図１０を用いて説明する。図１０は、本実施の形態に係る量子化タイプ決定ステップＳ１３１の流れを示すフローチャートである。

　図１０に示されるように、本実施の形態に係る量子化タイプ決定ステップＳ１３１において、まず、量子化タイプにおけるテンソルに対する数値変換のタイプを決定する（Ｓ１３１ａ）。例えば、量子化タイプにおけるテンソルに対する数値変換タイプは、対数変換を含む複数の数値変換タイプの中から選択される。本実施の形態では、数値変換タイプは、（ａ）対数変換、（ｂ）疑似３値、及び、（ｃ）一様量子化（無変換）から選択される。

　それぞれの数値変換タイプの決定にあたっては、テンソルの主成分に関連する要素分布に対する以下の特徴が着目点となる。

　（ａ）主成分に関連する要素分布が０付近に集中している場合
　　　　この場合は０付近の量子化ステップが密となる対数量子化が有利となる。

　（ｂ）主成分に関連する要素分布が０付近に無い場合
　　　　この場合は０付近の情報を無くす、つまり０としてしまう量子化が有利となる。例えば疑似３値が挙げられる。

　（ｃ）主成分に関連する要素分布が上記（ａ）及び（ｂ）のいずれとも言えない場合
　　　　この場合は一様な量子化が有利となる。

　上記要素分布の算出には、例えば計算量を要するヒストグラム計算を繰り返し行う方法がある。本実施の形態では計算量を減らすために、簡便に上記着目点で数値変換タイプを決定する方法の一例として（ａ）及び（ｂ）の場合の数値変換を行い、冗長度を求める方法を採用する。

　本実施の形態に係る数値変換タイプの選択方法について説明する。パラメータ生成部１２０は、量子化タイプを決定する対象となるテンソルの冗長度Ｒと、当該テンソルの全要素に対数演算を施したテンソルの冗長度Ｒ_Ｌ、及び、テンソルの全要素に疑似３値化を施した疑似３値化テンソルの冗長度Ｒ_ＰＴを求める。冗長度Ｒは、統計情報データベース１８から取得され、冗長度Ｒ_Ｌは、パラメータ生成部１２０において算出される。

　疑似３値化について、図１１を用いて説明する。図１１は、浮動小数点精度の数値の疑似３値化を説明するグラフである。図１１に示されるグラフの横軸が、量子化される対象である浮動小数点精度の数値（図１１に示される「元のＦｌｏａｔ値」）を示し、縦軸は、疑似３値化後の値を示す。

　図１１に示されるように、浮動小数点精度の数値に疑似３値化を施す場合、浮動小数点精度の数値のうち、所定の第１の値ａ以下の数値、及び、所定の第２の値ｂより大きい数値は、そのままの値に維持され、第１の値ａより大きく、かつ、第２の値ｂ以下の数値は、０に変換される。

　次に、量子化タイプを決定する対象となるテンソルの冗長度Ｒと、当該テンソルの全要素に対数演算を施したテンソルの冗長度Ｒ_Ｌ、及び、テンソルの全要素に疑似３値化を施した疑似３値化テンソルの冗長度Ｒ_ＰＴとを比較する。ここで、Ｒ_Ｌ＞Ｒである場合、テンソルの全要素に対数演算を施した方が、冗長度が高くなること、つまり、より低い精細度の量子化を行っても推論精度の低下を抑制できることを意味する。したがって、Ｒ_Ｌ＞Ｒである場合には、数値変換タイプを対数変換に決定する。一方、Ｒ_Ｌ≦Ｒであれば、テンソルの全要素に対数演算を施す効果がないと判断する。

　また、Ｒ_ＰＴ＞Ｒである場合、テンソルの全要素に疑似３値演算を施した方が、冗長度が高くなること、つまり、より低い精細度の量子化を行っても推論精度の低下を抑制できることを意味する。したがって、Ｒ_ＰＴ＞Ｒである場合には、数値変換タイプを疑似３値変換に決定する。一方、Ｒ_ＰＴ≦Ｒであれば、テンソルの全要素に疑似３値演算を施す効果がないと判断する。なお、対数変換及び疑似３値変換の各々が有利と想定される０付近の主成分要素分布は、相反する特徴を有する。したがって、Ｒ_Ｌ＞ＲとＲ_ＰＴ＞Ｒとが両立する場合は想定と矛盾することから、それぞれの変換を施す効果がないと判断する。前述の対数変換と本疑似３値演算の効果判断結果を踏まえて、効果が無い場合は数値変換タイプを無変換に決定する。

　続いて、量子化タイプにおける量子化の精細度を決定する（Ｓ１３１ｂ）。本実施の形態では、量子化の精細度は、Ｎビット固定小数点及び３値を含む複数の精細度タイプの中から選択される。量子化の精細度のうち固定小数点精度を採用する場合には、固定小数点精度のビット数は、量子化ネットワークを実装するハードウェアの構成に応じて、実装可能な最大限のビット数に決定される。量子化の精細度のうち、固定小数点及び３値のいずれを選択するかを決定する方法について、以下に説明する。

　量子化の精度として３値を選択する場合、数値を２ビットで表現できるため、３値に近い精細度として、２ビット固定小数点精度及び３ビット固定小数点精度が比較対象となり得る。そこで、量子化の精細度としてこれらを選択した場合の冗長度を算出する。テンソルの全要素の精度を２ビット固定小数点精度とした２ビット化テンソルの冗長度Ｒ_Ｎ２と、テンソルの全要素の精度を３ビット固定小数点精度とした３ビット化テンソルの冗長度Ｒ_Ｎ３とを算出し、数値変換タイプが疑似３値で、かつ、Ｒ_Ｎ２＜Ｒ_Ｎ３が成り立つ場合には、テンソルの量子化の精細度として、３値は適していないと判断し、量子化の精度として、３ビット以上の固定小数点精度をハードウェアの構成に応じて選択する。

　一方、Ｒ_Ｎ２≧Ｒ_Ｎ３が成り立ち、かつ、数値変換タイプが疑似３値の場合は、テンソルの量子化の精度として３値を選択し、Ｒ_Ｎ２≧Ｒ_Ｎ３が成り立ち、かつ、数値変換タイプが対数変換又は無変換の場合は、テンソルの量子化の精度として２ビット固定小数点精度を選択する。

　以上のように、各テンソルに適した量子化のタイプ及び精細度を決定できる。

　（変形例など）
　以上、本開示に係るネットワーク量子化方法などについて、各実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を各実施の形態に施したものや、各実施の形態における一部の構成要素を組み合わせて構築される別の形態も、本開示の範囲内に含まれる。

　例えば、上記各実施の形態のネットワーク量子化装置における各機能部に機能を分担させたが、機能の分担態様は、上記各実施の形態における態様に限定されない。例えば、上記各実施の形態に係る複数の機能部が一体化されてもよい。また、実施の形態２においては、パラメータ生成部１２０において、量子化後のテンソルの冗長度を算出したが、量子化後のテンソルの冗長度も、量子化前のテンソルの冗長度と同様にデータベース構築部１６において算出してもよい。この場合、量子化後のテンソルの冗長度が統計情報データベース１８に含まれてもよい。さらに、量子化前及び量子化後のテンソルの冗長度を、ネットワーク量子化装置のデータベース構築部１６以外の構成要素において算出してもよい。また、量子化前及び量子化後のテンソルの冗長度を、データベース構築ステップ以外のステップにおいて算出してもよい。

　また、上記実施の形態２において、量子化の精細度が、３値を含む複数の精細度タイプから選択されたが、複数の精細度タイプは、３値を含まなくてもよい。

　また、以下に示す形態も、本開示の一つ又は複数の態様の範囲内に含まれてもよい。

　（１）上記のネットワーク量子化装置を構成する構成要素の一部は、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムであってもよい。前記ＲＡＭ又はハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

　（２）上記のネットワーク量子化装置を構成する構成要素の一部は、１個のシステムＬＳＩ（Ｌａｒｇｅ　Ｓｃａｌｅ　Ｉｎｔｅｇｒａｔｉｏｎ：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

　（３）上記のネットワーク量子化装置を構成する構成要素の一部は、各装置に脱着可能なＩＣカード又は単体のモジュールから構成されているとしてもよい。前記ＩＣカード又は前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカード又は前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカード又は前記モジュールは、その機能を達成する。このＩＣカード又はこのモジュールは、耐タンパ性を有するとしてもよい。

　（４）また、上記のネットワーク量子化装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ－ＲＯＭ、ＤＶＤ－ＲＡＭ、ＢＤ（Ｂｌｕ－ｒａｙ（登録商標）　Ｄｉｓｃ）、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

　また、上記のネットワーク量子化装置を構成する構成要素の一部は、前記コンピュータプログラム又は前記デジタル信号を、電気通信回線、無線又は有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

　（５）本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。さらに、本開示は、そのコンピュータプログラムを記録したＣＤ－ＲＯＭ等である非一時的なコンピュータ読み取り可能な記録媒体として実現してもよい。

　（６）また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

　（７）また、前記プログラム又は前記デジタル信号を前記記録媒体に記録して移送することにより、又は前記プログラム又は前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

　（８）上記実施の形態及び上記変形例をそれぞれ組み合わせるとしてもよい。

　本開示は、ニューラルネットワークのコンピュータなどへの実装方法として、画像処理方法などに利用できる。

　１０、１１０　ネットワーク量子化装置
　１２　テストデータセット
　１４　ニューラルネットワーク
　１６　データベース構築部
　１８　統計情報データベース
　２０、１２０　パラメータ生成部
　２２　量子化パラメータセット
　２４　ネットワーク構築部
　２６、３０　量子化ネットワーク
　２８　機械学習部
　１０００　コンピュータ
　１００１　入力装置
　１００２　出力装置
　１００３　ＣＰＵ
　１００４　内蔵ストレージ
　１００５　ＲＡＭ
　１００７　読取装置
　１００８　送受信装置
　１００９　バス

Claims

　ニューラルネットワークを量子化するネットワーク量子化方法であって、
　前記ニューラルネットワークを準備する準備ステップと、
　前記ニューラルネットワークに複数のテストデータセットを入力する場合に得られる前記ニューラルネットワークが扱うテンソルの統計情報データベースを構築するデータベース構築ステップと、
　前記統計情報データベースと前記ニューラルネットワークとに基づいて、前記テンソルの値を量子化することによって、量子化パラメータセットを生成するパラメータ生成ステップと、
　前記量子化パラメータセットを用いて前記ニューラルネットワークを量子化することによって、量子化ネットワークを構築するネットワーク構築ステップとを含み、
　前記パラメータ生成ステップは、前記ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する量子化タイプ決定ステップを含む
　ネットワーク量子化方法。
　前記量子化タイプ決定ステップにおいて、前記量子化タイプは前記テンソルに対して異なる数値変換を行う複数の数値変換タイプから選択され、前記複数の数値変換タイプは対数変換及び無変換を含む
　請求項１に記載のネットワーク量子化方法。
　前記量子化タイプ決定ステップにおいて、前記量子化タイプは量子化の精細度の異なる複数の精細度タイプから選択され、前記複数の精細度タイプはＮビット固定小数点（Ｎ：２以上の整数）及び３値を含む
　請求項１又は２に記載のネットワーク量子化方法。
　前記量子化タイプは、前記複数のレイヤの各々に含まれる前記テンソルの冗長度に基づいて決定される
　請求項１～３のいずれか１項に記載のネットワーク量子化方法。
　前記冗長度は、前記テンソルのテンソル分解の結果に基づいて決定される
　請求項４に記載のネットワーク量子化方法。
　前記量子化タイプは、前記冗長度が高くなるにしたがって、より低い精細度のタイプに決定される
　請求項４又は５に記載のネットワーク量子化方法。
　ニューラルネットワークを量子化するネットワーク量子化装置であって、
　前記ニューラルネットワークに複数のテストデータセットを入力する場合に得られる前記ニューラルネットワークが扱うテンソルの統計情報データベースを構築するデータベース構築部と、
　前記統計情報データベースと前記ニューラルネットワークとに基づいて、前記テンソルの値を量子化することによって、量子化パラメータセットを生成するパラメータ生成部と、
　前記量子化パラメータセットを用いて前記ニューラルネットワークを量子化することによって、量子化ネットワークを構築するネットワーク構築部とを備え、
　前記パラメータ生成部は、前記ニューラルネットワークを構成する複数のレイヤの各々の量子化タイプを決定する
　ネットワーク量子化装置。