WO2022172422A1

WO2022172422A1 - 情報処理装置、情報処理方法及び情報処理プログラム

Info

Publication number: WO2022172422A1
Application number: PCT/JP2021/005370
Authority: WO
Inventors: 玲佳荒川; 友貴山中; 聖紫大内; 真奈美伊藤; 伸浩千葉; 浩義瀧口
Original assignee: 日本電信電話株式会社
Priority date: 2021-02-12
Filing date: 2021-02-12
Publication date: 2022-08-18
Also published as: EP4276670A1; JPWO2022172422A1; AU2021427822B2; CN116830106A; AU2021427822A1

Abstract

ソフトウェア真贋判定の精度を向上させシステムを安定稼働させる情報処理装置、情報処理方法及び情報処理プログラムを提供する。学習部（１０９）は、動的ファイル及び静的ファイルの各特徴を学習して判定対象分類学習モデル（１１０）を生成する。抽出部（１０７）は、所定のファイル群を使用する監視対象機器（２０）から基準時点での所定のファイル群を取得し、判定対象分類学習モデル（１１０）を基に所定のファイル群から静的ファイルである判定対象ファイルを抽出する。

Description

情報処理装置、情報処理方法及び情報処理プログラム

　本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

　近年、様々な革新的な技術の登場によって、社会は大きな変革を遂げようとしている。このような大きな変革により、便利で豊かな社会の実現が期待される一方で、これまで起こり得なかったようなサイバー攻撃による被害の拡大や社会的な損失のリスクの肥大化が懸念されている。

　例えば、急速なデジタル化により、これまで直接的にはインターネットにつながっていない工場やプラント等における制御システムや、生活や社会活動に不可欠なサービスを提供している重要インフラに対するサイバー攻撃などのセキュリティ脅威が増大している。

　重要インフラの領域では、数千台のサーバ機器、数万から数十万台の制御機器といったインフラ設備が珍しくなく、１カ所でもサイバー攻撃が成功すれば影響は広範囲に及ぶおそれがある。そこで、システムを構成する各機器の信頼性といった観点から、不正な機器の混入や改変を常時確認し、異常動作を阻止するシステムの安定稼働のためのソフトウェア真贋判定技術が重要である。

　ソフトウェア真贋判定にはファイルのハッシュ値が用いられることが多い。ハッシュ値は元データから生成されるコンパクトなビット長データを有する数列であり、一方向性を有するハッシュ関数により元データから生成される。ハッシュ関数により生成されたハッシュ値は、元データから生成されるユニークな値であり、ハッシュ値が同じであれば同じデータであることが保証される。

　例えば、ファイルのハッシュ値を用いたソフトウェア真贋判定では、改ざんが起こっていない時点でのハッシュ値を正常状態の正解値として保管する。そして、装置内の判定対象のファイルに対して、定期的に真贋判定プログラムが実行され、保管した正解値を用いたソフトウェア真贋判定が行われる。ソフトウェア真贋判定では、判定対象のファイルからハッシュ値を算出しその正解値と比較することで、判定対象のファイルに対する不正な改ざんが検知される。ただし、周期的にコンテンツ情報が更新されるファイルやプログラムの実行などのイベントにより書き込みが発生するようなファイルについては、一定のハッシュ値が算出されない。そのため、ハッシュ値の比較を用いた真贋判定方式では、判定対象のファイルの中にそれらのファイルが含まれることは、誤検知の原因となる。そこでハッシュ値の比較を用いた真贋判定においては、判定対象のファイルはファイルコンテンツが変化しないファイル、すなわち、静的ファイルであることが前提となる。

　以上のことから、ファイルハッシュ値を用いたソフトウェア真贋判定を行う場合、判定対象とする変化が発生しない静的ファイルを選定することが求められる。従来の静的ファイルの選定方法には、静的解析、動的解析、スナップショットを用いた選定といった方法が用いられてきた。

　静的解析は、ファイルに付与されたメタ情報を参考にして、変更されるファイルを除外する方法である。特定のソフトウェアパッケージファイルを対象として、ファイル毎にパッケージの開発者によって付与されたメタ情報を参照し、上書きが発生するタグを持つファイル、すなわち書き換えが発生する動的ファイルを除外し、残ったファイルが静的ファイルとして選定される。この選定方式では、選定可能なファイルはメタ情報が定義されたファイルである。

　また、動的解析は、システムコールを一定時間監視して、変化しなかったファイルを静的ファイルとして抽出する方法である。静的解析のようにメタ情報が定義されていないファイルを対象として、一定時間の監視時間を設けてシステムコールによるファイルの挙動を監視し、その間に変化したファイルを除外して残ったファイルが静的ファイルとして選定される。この方式では監視時間が充分に長ければ精度は良くなるが、実運用上の時間幅では監視時間の間に偶然変化しないファイルや変化の周期の長いファイルなどが含まれる可能性がある。

　また、スナップショットを用いた選定は、動的解析と同じようにファイルの挙動を監視する方法であり、ファイルのスナップショットを一定時間の間隔を空けて２回取得し、その差分を分析して変化のなかったファイルを静的ファイルとして選定する方式である。この方式も、動的解析と同様に監視時間内に偶然しなかったファイルや変化の周期の長いファイルなどが含まれる可能性がある。

　なお、改ざん監視の従来技術として、以下のような技術が存在する。例えば、照合に用いるファイルのリスト及びリストの要素の決定条件に基づき、静的ファイルのパスとデータとの組み合わせ、動的ファイルのパス及びファイルを格納するための条件を満たすディレクトリのパスを生成する技術が提案されている（特許文献１）。また、共通定義情報と管理するファイルとを比較し、共通定義情報の条件に全て合致するファイルが存在するか否かを判定して管理するファイルに対応する共通定義情報を抽出する技術が提案されている（特許文献２）。

特開２０１９－８３７７号公報特開２０２０－７１５６０号公報

　しかしながら、静的解析の手法では、メタ情報が定義されたファイルに判定対象が限定され、ソフトウェア真贋判定の対象範囲が狭くなり精度が低下するおそれがある。また、動的解析やスナップショットを用いた選定の手法は、時間軸を基準にした方法であり、監視した時間内に偶然変化しなかったファイルが含まれる可能性がある。そのため、本来であればソフトウェア真贋判定の対象とはならないファイルを対象とする可能性があり、ソフトウェア真贋判定の精度が低下するおそれがある。

　また、照合に用いるファイルのリスト及びリストの要素の決定条件に基づき静的ファイルのパスを決定する従来技術では、予め決められた照合情報に登録されるファイルを対象とするものであり、静的解析と同様の問題が発生する。また、共通定義情報と管理するファイルとを比較して所望の共通定義を抽出する従来技術も、予め決められえた共通定義情報を用いるため、静的解析と同様の問題が発生する。

　本発明は、上記に鑑みてなされたものであって、ソフトウェア真贋判定の精度を向上させシステムを安定稼働させることを目的とする。

　上述した課題を解決し、目的を達成するために、学習部は、動的ファイル及び静的ファイルの各特徴を学習して学習モデルを生成する。抽出部は、所定のファイル群を使用する外部機器から基準時点での前記所定のファイル群を取得し、前記学習モデルを基に前記所定のファイル群から前記静的ファイルである判定対象ファイルを抽出する。

　本発明によれば、ソフトウェア真贋判定の精度を向上させシステムを安定稼働させることができる。

図１は、実施形態に係る真贋判定システムのブロック図である。図２は、教師データの作成を説明するための図である。図３は、実施形態に係る真贋判定サーバによる改ざんファイルの分類結果の一例を示す図である。図４は、実施形態に係る真贋判定サーバの学習フェーズにおける処理のフローチャートである。図５は、実施形態に係る真贋判定サーバの分類フェーズ及び正常状態ハッシュ値保存フェーズにおける処理のフローチャートである。図６は、実施形態に係る真贋判定サーバの真贋判定フェーズにおける処理のフローチャートである。図７は、学習プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願の開示する情報処理装置、情報処理方法及び情報処理プログラムの一実施形態を図面に基づいて詳細に説明する。なお、以下の実施形態により本願の開示する情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。

［実施形態］
［真贋判定システム］
　図１は、実施形態に係る真贋判定システムのブロック図である。図１に示すように、本実施形態に係る真贋判定システム１は、情報処理装置である真贋判定サーバ１０、真贋判定サーバ１０に対する外部機器である監視対象機器２０及び学習用データ提供装置３０を有する。真贋判定サーバ１０、監視対象機器２０及び学習用データ提供装置３０は、ネットワークを介して接続される。

　監視対象機器２０は、例えば、インフラシステムに配置された制御機器やインフラサービスの提供を行うサーバ機器である。監視対象機器２０は、ソフトウェアの不正な改ざんの脅威にさらされるおそれのあるサーバであり、ソフトウェア真贋検知の監視対象として不正な改ざんの迅速な検知及び対処により回復困難な事態を避けることが求められる対象である。監視対象機器２０は、ハッシュ値生成部２１及びファイル群２２を有する。

　ファイル群２２は、監視対象機器２０の運用に用いられるデータ群であり、静的ファイル及び動的ファイルの両方を含む。ファイル群２２に含まれるファイルデータは、不正な改ざんを受けるおそれがある。すなわち、ファイル群２２に含まれるファイルデータが、真贋判定サーバ１０によるソフトウェア真贋判定の判定対象となる。

　ハッシュ値生成部２１は、運用中の監視対象機器２０が有するファイル群２２に含まれる各ファイルデータのハッシュ値の送信要求を真贋判定サーバ１０から受ける。ここで、ハッシュ値生成部２１は、真贋判定サーバ１０が有するハッシュ関数と共通のハッシュ関数を有する。そして、ハッシュ値生成部２１は、ファイル群２２に含まれる各ファイルデータのハッシュ値を算出する。その後、ハッシュ値生成部２１は、ファイル群２２に含まれる各ファイルデータの算出したハッシュ値を真贋判定サーバ１０へ出力する。

　学習用データ提供装置３０は、真贋判定サーバ１０による学習に用いるファイルデータを提供するコンピュータである。学習用データ提供装置３０は、真贋判定サーバ１０から指定されたソフトウェア真贋判定の学習モデルの学習に用いられるファイルデータを真贋判定サーバ１０へ提供する。学習用データ提供装置３０は、各種ＯＳ（Operating　System）のファイルが格納される。例えば、学習用データ提供装置３０は、それぞれで異なるＯＳのシステムファイルを保持する複数の仮想サーバを有する。

［真贋判定サーバ］
　真贋判定サーバ１０について説明する。真贋判定サーバ１０は、図１に示すように、検証部１０１、検証結果登録部１０２、真贋判定命令部１０３、正常状態ハッシュ値格納部１０４、ハッシュ値生成部１０５、ファイル情報取得部１０６、抽出部１０７、教師データ作成部１０８及び学習部１０９を有する。

　教師データ作成部１０８及び学習部１０９は、監視対象機器２０が保持するファイルデータに対するソフトウェア真贋判定を行う際に用いる判定対象分類学習モデル１１０を生成するための処理を行なう。すなわち、教師データ作成部１０８及び学習部１０９は、判定対象分類学習モデル１１０の学習フェーズにおける処理を行う。

　教師データ作成部１０８は、学習に用いるファイルデータを学習用データ提供装置３０から取得する。例えば、教師データ作成部１０８は、管理者により指定された静的ファイルのファイルデータ及び動的ファイルのファイルデータを学習用データ提供装置３０から取得する。

　以下に、学習に用いるファイルデータの選択方法について説明する。例えば、本実施形態では、ＯＳドメイン種別を基準として以下の三種類のいずれか一つもしくはその組み合わせを学習に用いるファイルデータの選択対象とする。１つ目は、６４ｂｉｔ版のｃｅｎｔＯＳ８（登録商標）であり、Ｌｉｎｕｘ（登録商標）ディストリビューションで用いられるＯＳである。２つ目は、６４ｂｉｔ版のＵｂｕｎｔｕ２０．０４（登録商標）であり、これもＬｉｕｘディスとリビューションで用いられるＯＳである。３つ目は、６４ｂｉｔ版のＷｉｎｄｏｗｓ１０（登録商標）である。それぞれ、以下では、単に「ｃｅｎｔＯＳ」、「Ｕｂｕｎｔｕ」及び「Ｗｉｎｄｏｗｓ」と呼ぶ。

　さらに、上記各ＯＳのファイルデータのうち静的ファイルであるか動的ファイルであるかが特定可能なデータが選択される。あるファイルデータが静的ファイルであるか動的ファイルであるかは、本実施形態では以下の基準で判別される。

　例えば、ｃｅｎｔＯＳ及びＵｂｕｎｔｕから収集する学習に用いるファイルデータは、Ｌｉｎｕｘのファイルシステム階層標準を参考にして、静的ファイルであるか動的ファイルであるかの判別が行われる。より詳しくは、静的設定ファイルやリードオンリーファイルのような不変ファイルを格納する特定のディレクトリの配下に存在するファイルデータは静的ファイルとみなされる。例えば、／ｅｔｃ／、／ｂｏｏｔ、／ｕｓｅｒ／ｂｉｎ配下のファイルは、静的ファイルとみなされる。また、ファイルデータスプールファイルやログファイルのような一過性もしくは一時的なファイルを格納する特定のディレクトリの配下に存在するファイルデータは、動的ファイルとみなされる。例えば、／ｖａｒは以下のファイルデータは動的ファイルとみなされる。また、Ｗｉｎｄｏｗｓに関しては、更新日時が一年以上前のファイルデータは静的ファイル、一年以内であるファイルデータは動的ファイルとみなされる。

　また、Ｗｉｎｄｏｗｓから収集する学習に用いるファイルデータは、更新日時が一年以上前のファイルデータが静的ファイルとみなされ、一年以内であるファイルデータが動的ファイルとみなされる。

　ｃｅｎｔＯＳ及びＵｂｕｎｔｕのファイルデータの場合、教師データ作成部１０８は、不変ファイルを格納する特定のディレクトリの配下に存在するファイルデータに対して静的ファイルであるとの指定を受ける。また、教師データ作成部１０８は、ｃｅｎｔＯＳ及びＵｂｕｎｔｕのファイルデータのうち、一過性もしくは一時的なファイルデータを格納する特定のディレクトリの配下に存在するファイルデータに対して動的ファイルであるとの指定を受ける。また、Ｗｉｎｄｏｗｓのファイルデータの場合、教師データ作成部１０８は、更新日時が一年以上前のファイルに対して静的ファイルの指定を受け、一年以内であるファイルに対して動的ファイルの指定を受ける。教師データ作成部１０８は、以上の指定にしたがって、学習に用いるファイルデータ群における静的ファイル及び動的ファイルのバイナリを学習用データ提供装置３０から収集する。

　図２は、教師データの作成を説明するための図である。教師データ作成部１０８は、図２の収集データ２０１に示すように、収集した動的ファイルと見なせるファイルに「１」のラベルを付加し、静的ファイルと見なせるファイルに「０」のラベルを付加して、各ファイルの教師ラベルとする。さらに、教師データ作成部１０８は、ファイル毎に１６進数で表される１バイトの文字の出現回数を表す特徴量ベクトルを作成して教師データ２０２を作成する。図２の教師データ２０２は、ファイル毎の、００～ｆｆまでの１６進数の出現回数が順に並べられたベクトルを表す。ここで、本実施形態では、ファイル毎の特徴量として、バイトの出現回数を用い、ファイルサイズなどは考慮していない。ただし、特徴量の算出方法はこれに限らず、教師データ作成部１０８は、ファイルサイズなど他の指標を考慮して特徴量を求めてもよい。

　その後、教師データ作成部１０８は、静的ファイルか動的ファイルかを表す教師ラベルが付加されたバイナリデータである教師データを学習部１０９へ出力する。

　学習部１０９は、教師データの入力を教師データ作成部１０８から受ける。そして、学習部１０９は、取得した教師データを用いて学習を行い、分類精度が最高となるハイパーパラメータのチューニングを行って、学習済みの判定対象分類学習モデル１１０を生成する。すなわち、学習部１０９は、動的ファイル及び静的ファイルの各特徴を学習して学習モデルを生成する。ここで、判定対象分類学習モデル１１０が学習モデルの一例にあたる。より詳しくは、学習部１０９は、静的ファイル及び動的ファイルのバイナリデータを用いて、動的ファイル及び静的ファイルの各特徴を学習する。また、学習部１０９は、ＯＳドメイン種別毎の教師データを用いて学習を行う。

　具体的には、本実施形態に係る学習部１０９は、サポートベクトルマシンと呼ばれる分類アルゴリズムを用いて、グリッドサーチによるパラメータチューニングと交差検証を行い、分類精度が最も高いモデルを判定対象分類学習モデル１１０とする。その後、学習部１０９は、学習済みの判定対象分類学習モデル１１０を抽出部１０７へ出力する。

　ファイル情報取得部１０６及び抽出部１０７は、監視対象機器２０が保持するファイルデータに対するソフトウェア真贋判定を行う際に判定対象として用いる静的ファイルを分類して抽出するための処理を行なう。すなわち、ファイル情報取得部１０６及び抽出部１０７は、判定対象分類学習モデル１１０の分類フェーズにおける処理を行う。

　ファイル情報取得部１０６は、正常状態と確認された基準時点での監視対象機器２０が有するファイル群２２をファイル情報取得部１０６から取得する。そして、ファイル情報取得部１０６は、取得したファイル群２２を抽出部１０７へ出力する。

　抽出部１０７は、ファイル群２２をファイル情報取得部１０６から取得する。そして、抽出部１０７は、取得したファイル群２２を学習済みの判定対象分類学習モデル１１０に入力して、静的ファイル及び動的ファイルに分類する。すなわち、抽出部１０７は、学習モデルを基に所定のファイル群から静的ファイルである判定対象ファイルを抽出する。ここで、ファイル群２２が、所定のファイルの一例にあたり、判定対象分類学習モデル１１０が、学習モデルの一例にあたる。より詳しくは、抽出部１０７は、所定のファイル群の入力を受けて、学習モデルを基に入力された所定のファイル群を静的ファイル又は動的ファイルに分類して静的ファイルを抽出する。

　その後、抽出部１０７は、ファイル群２２に含まれる静的ファイルを抽出して、抽出した静的ファイルを判定対象ファイル群１２０として真贋判定サーバ１０に保持させる。この際、抽出部１０７は、抽出した静的ファイルを表す判定対象ファイル一覧を判定対象ファイル群１２０に付加する。

　ハッシュ値生成部１０５及び正常状態ハッシュ値格納部１０４は、ソフトウェア真贋判定の基準となる正常状態の判定対象ファイルのハッシュ値を確保するための処理を行う。すなわち、ハッシュ値生成部１０５及び正常状態ハッシュ値格納部１０４は、正常状態ハッシュ値保存フェーズの処理を行う。

　ハッシュ値生成部１０５は、判定対象ファイル群１２０に含まれる正常状態の各判定対象ファイルを取得する。次に、ハッシュ値生成部１０５は、取得した各判定対象ファイルのハッシュ値を算出する。すなわち、ハッシュ値生成部１０５は、抽出部１０７により抽出された各判定対象ファイルのそれぞれの第１ハッシュ値を求める。その後、ハッシュ値生成部１０５は、正常状態の各判定対象ファイルのハッシュ値を正常状態ハッシュ値格納部１０４に格納する。

　正常状態ハッシュ値格納部１０４は、基準時点での正常状態の判定対象ファイルから算出されたハッシュ値をハッシュ値生成部１０５から取得して格納する。以下では、正常状態の判定対象ファイルから算出されたハッシュ値を「正常状態ハッシュ値」と呼ぶ。

　真贋判定命令部１０３、検証部１０１及び検証結果登録部１０２は、運用時の監視対象機器２０が有するファイル群２２のソフトウェア真贋判定の処理を行う。すなわち、真贋判定命令部１０３、検証部１０１及び検証結果登録部１０２は、真贋判定フェーズの処理を行う。

　真贋判定命令部１０３は、判定対象ファイル群１２０に付加された判定対象ファイル一覧から各判定対象ファイルの識別情報を取得する。そして、真贋判定命令部１０３は、各判定対象ファイルの識別情報とともにハッシュ値の算出要求を監視対象機器２０のハッシュ値生成部２１へ送信する。真贋判定命令部１０３は、以上のソフトウェア真贋判定を開始する処理を１日に１回など定期的に繰り返す。

　検証部１０１は、運用中の監視対象機器２０が有するファイル群２２のハッシュ値を監視対象機器２０のハッシュ値生成部２１から受信する。運用中の監視対象機器２０が有するファイル群２２とは、基準時点から時間が経過した後のファイル群２２であり、改ざんが行われたおそれのあるファイル群２２である。以下では、運用中の監視対象機器２０が有するファイル群２２のハッシュ値を、「改ざん可能性存在ハッシュ値」と呼ぶ。

　また、検証部１０１は、各判定対象ファイルの正常状態ハッシュ値を正常状態ハッシュ値格納部１０４から取得する。そして、検証部１０１は、判定対象ファイルそれぞれの改ざん可能性存在ハッシュ値と正常状態ハッシュ値とを比較して値が一致するか否かを判定する。これにより、検証部１０１は、その時点での判定対象ファイルと基準時点での判定対象ファイルとが一致するか否かを判定する。値が一致する判定対象ファイルについては、検証部１０１は、改ざんが行われていないと判定する。これに対して、値が不一致である判定対象ファイルについては、検証部１０１は、改ざんが行われたと判定する。その後、検証部１０１は、監視対象機器２０が有するファイル群２２に対して改ざんが行われたか否かを示す、監視対象機器２０に対する改ざんの検証結果を検証結果登録部１０２へ出力する。

　以上のように、検証部１０１は、外部機器が有する基準時点から時間経過後の判定対象ファイルのそれぞれの第２ハッシュ値を外部機器から取得し、第１ハッシュ値と第２ハッシュ値とを比較して、所定のファイル群に改ざんが行われたか否かを検証する。ここで、監視対象機器２０が外部機器の一例にあたり、正常状態ハッシュ値が第１ハッシュ値の一例にあたり、改ざん可能性存在ハッシュ値が第２ハッシュ値の一例にあたり、ファイル群２２が所定のファイル群の一例にあたる。

　検証結果登録部１０２は、監視対象機器２０に対する改ざんの検証結果の入力を検証部１０１から受ける。改ざんが行われたという検証結果を取得した場合、検証結果登録部１０２は、監視対象機器２０が不正に改ざんされたという検証結果を真贋判定サーバ１０が有する検証結果の登録場所に登録する。管理者は、真贋判定サーバ１０における検証結果の登録場所を確認することで、監視対象機器２０に不正な改ざんが行われたことを確認できる。

　図３は、実施形態に係る真贋判定サーバによる改ざんファイルの分類結果の一例を示す図である。次に、図３を参照して、本実施形態に係る真贋判定サーバ１０による改ざんファイルの分類学結果を説明する。ここでは、教師データを作成する元データである教師データセットとしてｃｅｎｔＯＳのファイルデータを用いた場合と、ｃｅｎｔＯＳ及びＵｂｕｎｔｕのファイルデータを用いた場合と、ｃｅｎｔＯＳ、Ｕｂｕｎｔｕ及びＷｉｎｄｏｗｓのファイルデータを用いた場合との３通りの場合を例に説明する。

　第１にｃｅｎｔＯＳのファイルデータを用いて判定対象分類学習モデル１１０を生成した場合について説明する。検証データにｃｅｎｔＯＳのファイルデータを用いると、ＡＵＣ（Area　Under　Curve）の値は、０.９以上であり高い精度で分類ができていると言える。また、検証データにＵｂｕｎｔｕのファイルデータを用いると、ＡＵＣの値は、０.８以上でありこれも高い精度で分類ができていると言える。すなわち学習していないＵｂｕｎｔｕのファイルデータの検証においても、高い精度で分類ができており、同じＯＳドメインに対しては汎化性能を有することが分かる。これに対して、検証データにＷｉｎｄｏｗｓのファイルデータを用いると、ＡＵＣの値は、０.５未満であり分類精度は低い。

　第２にｃｅｎｔＯＳ及びＵｂｕｎｔｕのファイルデータを用いて判定対象分類学習モデル１１０を生成した場合について説明する。検証データにｃｅｎｔＯＳのファイルデータを用いると、ＡＵＣの値は、０.９以上であり高い精度で分類ができていると言える。また、検証データにＵｂｕｎｔｕのファイルデータを用いると、ＡＵＣの値は、０.９以上でありこれも高い精度で分類ができていると言える。すなわち、学習に用いた教師データに対して同じドメイン種別の検証データを分類させると、高い精度で分類ができることが分かる。これに対して、検証データにＷｉｎｄｏｗｓのファイルデータを用いると、ＡＵＣは、０.６以上であり分類精度は多少良いと言える。

　第３にｃｅｎｔＯＳ、Ｕｂｕｎｔｕ及びＷｉｎｄｏｗｓのファイルデータを用いて判定対象分類学習モデル１１０を生成した場合について説明する。検証データにｃｅｎｔＯＳのファイルデータを用いた場合、Ｕｂｕｎｔｕのファイルデータを用いた場合、及び、検証データにＷｉｎｄｏｗｓのファイルデータを用いた場合のいずれも、ＡＵＣの値は、０.９以上であり高い精度で分類ができていると言える。すなわち、学習に用いた教師データに対して同じドメイン種別の検証データを分類させると、高い精度で分類ができることが分かる。

［学習フェーズの処理手順］
　図４は、実施形態に係る真贋判定サーバの学習フェーズにおける処理のフローチャートである。次に、図４を参照して、本実施形態に係る真贋判定サーバ１０の学習フェーズにおける処理の流れを説明する。

　教師データ作成部１０８は、学習に用いるファイルデータを学習用データ提供装置３０から取得する。例えば、教師データ作成部１０８は、管理者からの指示にしたがい、学習に用いるファイルデータ群における静的ファイル及び動的ファイルのそれぞれのバイナリデータを学習用データ提供装置３０から取得する（ステップＳ１０１）。

　教師データ作成部１０８は、各ファイルに動的ファイル又は静的ファイルを表すラベルを付加し、さらに、ファイル毎に１６進数で表される１バイトの文字の出現回数を表す特徴量ベクトルを作成して教師データを作成する（ステップＳ１０２）。

　教師データ作成部１０８は、静的ファイルか動的ファイルかを表す教師ラベルが付加されたバイナリデータである教師データを学習部１０９へ出力する。学習部１０９は、教師データ作成部１０８から取得した教師データを用いて、分類精度が最高となるハイパーパラメータをチューニングする学習を行い、学習済みの判定対象分類学習モデル１１０を生成する（ステップＳ１０３）。

　学習部１０９は、学習済みの判定対象分類学習モデル１１０を抽出部１０７へ出力する。抽出部１０７は、学習部１０９から取得した判定対象分類学習モデル１１０を格納する（ステップＳ１０４）。

［学習フェーズの処理手順］
　図５は、実施形態に係る真贋判定サーバの分類フェーズ及び正常状態ハッシュ値保存フェーズにおける処理のフローチャートである。次に、図５を参照して、本実施形態に係る真贋判定サーバ１０の分類フェーズ及び正常状態ハッシュ値保存フェーズにおける処理の流れを説明する。

　ファイル情報取得部１０６は、正常状態と確認された基準時点での監視対象機器２０が有するファイル群２２をファイル情報取得部１０６から取得する（ステップＳ２０１）。

　抽出部１０７は、ファイル群２２をファイル情報取得部１０６から取得する。そして、抽出部１０７は、取得したファイル群２２を学習済みの判定対象分類学習モデル１１０に入力して、静的ファイル及び動的ファイルに分類する（ステップＳ２０２）。

　抽出部１０７は、ファイル群２２に含まれる静的ファイルを抽出して、抽出した静的ファイルを判定対象ファイル群１２０として真贋判定サーバ１０に保持させる。ハッシュ値生成部１０５は、判定対象ファイル群１２０に含まれる正常状態の各判定対象ファイルを取得する。次に、ハッシュ値生成部１０５は、取得した各判定対象ファイルの正常状態ハッシュ値を算出する（ステップＳ２０３）。

　ハッシュ値生成部１０５は、正常状態の各判定対象ファイルのハッシュ値を正常状態ハッシュ値格納部１０４に格納する（ステップＳ２０４）。

［学習フェーズの処理手順］
　図６は、実施形態に係る真贋判定サーバの真贋判定フェーズにおける処理のフローチャートである。次に、図６を参照して、本実施形態に係る真贋判定サーバ１０の真贋判定フェーズにおける処理の流れを説明する。

　真贋判定命令部１０３は、判定対象ファイル群１２０に付加された判定対象ファイル一覧から各判定対象ファイルの識別情報を取得する。そして、真贋判定命令部１０３は、各判定対象ファイルの識別情報とともにハッシュ値の算出要求を監視対象機器２０のハッシュ値生成部２１へ送信する（ステップＳ３０１）。

　監視対象機器２０のハッシュ値生成部２１は、ファイル群２２の各ファイルデータを取得してそれぞれの改ざん可能性存在ハッシュ値を算出する。検証部１０１は、運用中の監視対象機器２０が有するファイル群２２の改ざん可能性存在ハッシュ値を監視対象機器２０のハッシュ値生成部２１から受信する（ステップＳ３０２）。

　次に、検証部１０１は、各判定対象ファイルの正常状態ハッシュ値を正常状態ハッシュ値格納部１０４から取得する。そして、検証部１０１は、判定対象ファイルそれぞれの改ざん可能性存在ハッシュ値と正常状態ハッシュ値とを比較して、各ファイルデータに対する改ざんの有無の検証を行う（ステップＳ３０３）。

　検証結果登録部１０２は、監視対象機器２０に対する改ざんの検証結果の入力を検証部１０１から受ける。改ざんが行われたという検証結果を取得した場合、検証結果登録部１０２は、監視対象機器２０が不正に改ざんされたという検証結果を真贋判定サーバ１０における検証結果の登録場所に登録する（ステップＳ３０４）。

［実施形態に係る真贋判定サーバの処理による効果］
　以上に説明したように、本実施形態に係る真贋判定サーバ１０は、静的ファイル及び動的ファイルの特徴を学習して生成した学習モデルを用いて監視対象機器２０が有するファイル群２２から静的ファイルである判定対象ファイルを抽出する。そして、本実施形態に係る真贋判定サーバ１０は、改ざんが行われていないとみなせる基準時点での判定対象ファイルから求められた正常状態ハッシュ値と、運用中の監視対象機器２０が有する判定対象ファイルから求められる改ざん可能性存在ハッシュ値とを比較して監視対象機器２０に対する改ざんを検出する。

　これにより、監視対象機器２０が有するファイル群２２から容易且つ網羅的に静的ファイルを抽出することができる。そして、抽出した静的ファイルを判定対象ファイルとしてソフトウェア真贋判定を行うことで、ソフトウェア真贋判定の対象範囲を広く確保でき、また、ソフトウェア真贋判定の対象とはならないファイルは判定対象ファイルから除くことができる。したがって、ソフトウェア真贋判定の精度を向上させシステムを安定稼働させることが可能となる。

［システム構成等］
　図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。特に、正常状態ハッシュ値格納部１０４や検証部１０１を監視対象機器２０が備えるように構成することも可能である。検証部１０１が監視対象機器２０に配置される場合，監視対象機器２０が検証結果を真贋判定サーバ１０に送信し、真贋判定サーバ１０は、取得した検証結果を登録する。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、真贋判定サーバ１０は、パッケージソフトウェアやオンラインソフトウェアとして上記の情報処理を実行する情報処理プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の情報処理プログラムを情報処理装置に実行させることにより、情報処理装置を真贋判定サーバ１０として機能させることができる。ここで言う情報処理装置には、サーバコンピュータ以外にも、デスクトップ型又はノート型のパーソナルコンピュータが含まれても良い。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handy-phone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、真贋判定サーバ１０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の管理処理に関するサービスを提供する管理サーバ装置として実装することもできる。例えば、管理サーバ装置は、コンフィグ投入要求を入力とし、コンフィグ投入を行う管理サービスを提供するサーバ装置として実装される。この場合、管理サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の管理処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図７は、学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（BASIC　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、真贋判定サーバ１０と同等の機能を持つ真贋判定サーバ１０の各処理を規定する学習プログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、真贋判定サーバ１０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　真贋判定システム
　１０　真贋判定サーバ
　２０　監視対象機器
　２１　ハッシュ値生成部
　２２　ファイル群
　３０　学習用データ提供装置
　１０１　検証部
　１０２　検証結果登録部
　１０３　真贋判定命令部
　１０４　正常状態ハッシュ値格納部
　１０５　ハッシュ値生成部
　１０６　ファイル情報取得部
　１０７　抽出部
　１０８　教師データ作成部
　１０９　学習部
　１１０　判定対象分類学習モデル
　１２０　判定対象ファイル群

Claims

　動的ファイル及び静的ファイルの各特徴を学習して学習モデルを生成する学習部と、
　所定のファイル群を使用する外部機器から基準時点での前記所定のファイル群を取得し、前記学習モデルを基に前記所定のファイル群から前記静的ファイルである判定対象ファイルを抽出する抽出部と
　を備えたことを特徴とする情報処理装置。
　前記学習部は、前記静的ファイル及び前記動的ファイルのバイナリデータを用いて、前記動的ファイル及び前記静的ファイルの各前記特徴を学習することを特徴とする請求項１に記載の情報処理装置。
　前記学習部は、Operating　System（ＯＳ）ドメイン種別毎の教師データを用いて前記学習を行うことを特徴とする請求項１又は２に記載の情報処理装置。
　前記抽出部は、前記所定のファイル群の入力を受けて、前記学習モデルを基に入力された前記所定のファイル群を前記静的ファイル又は前記動的ファイルに分類して前記静的ファイルを抽出することを特徴とする請求項１～３のいずれか一つに記載の情報処理装置。
　前記抽出部により抽出された各前記判定対象ファイルのそれぞれの第１ハッシュ値を求めるハッシュ値生成部と、
　前記外部機器が有する前記基準時点から時間経過後の前記判定対象ファイルのそれぞれの第２ハッシュ値を前記外部機器から取得し、前記第１ハッシュ値と前記第２ハッシュ値とを比較して、前記所定のファイル群に改ざんが行われたか否かを検証する検証部と
　をさらに備えたことを特徴とする請求項１～４のいずれか一つに記載の情報処理装置。
　動的ファイル及び静的ファイルの各特徴を学習して学習モデルを生成し、
　所定のファイル群を使用する外部機器から基準時点での前記所定のファイル群を取得し、
　前記学習モデルを基に前記所定のファイル群から前記静的ファイルである判定対象ファイルを抽出する
　ことを特徴とする情報処理方法。
　動的ファイル及び静的ファイルの各特徴を学習して学習モデルを生成し、
　所定のファイル群を使用する外部機器から基準時点での前記所定のファイル群を取得し、
　前記学習モデルを基に前記所定のファイル群から前記静的ファイルである判定対象ファイルを抽出する
　処理をコンピュータ実行させることを特徴とする情報処理プログラム。