WO2021144852A1

WO2021144852A1 - データ分類装置、データ分類方法、及びプログラム

Info

Publication number: WO2021144852A1
Application number: PCT/JP2020/000902
Authority: WO
Inventors: 英俊川口; 裕一中谷
Original assignee: 日本電信電話株式会社
Priority date: 2020-01-14
Filing date: 2020-01-14
Publication date: 2021-07-22
Also published as: US11934427B2; JPWO2021144852A1; US20230040784A1; JP7310933B2

Abstract

データ分類装置において、分類対象データを用いて特徴ベクトルを生成するデータ変換部と、前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測部と、前記分類推定過程観測部により生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とを入力し、当該分類結果の正誤を判定する誤り判定部とを備える。

Description

データ分類装置、データ分類方法、及びプログラム

　本発明は、データを分類する技術に関連するものである。

　外部からの悪性の通信を、シグネチャを用いたパターンマッチング等によりロギングをしたり、通知したりするＩＤＳ(Intrusion Detection System)と呼ばれるシステムがある。また、ＩＤＳの機能に加えて、悪性の通信の遮断も行うＩＰＳ(Intrusion Prevention System)と呼ばれるシステムがある。

　上述したシグネチャは、ＩＤＳ／ＩＰＳのパターンマッチングに用いられる通信のパターンファイルである。ＩＤＳ／ＩＰＳでは、通信があるシグネチャにマッチした際の挙動を設定することができる。例えば、ＩＤＳの場合は、設定できる挙動としてロギングや通知等があり、ＩＰＳの場合はロギングや通知等に加えて遮断という設定をすることもできる。

　ＩＤＳ／ＩＰＳを扱うセキュリティ運用者は、ＩＤＳ／ＩＰＳで用いられるシグネチャを分類する必要がある。この分類は、ＩＤＳ／ＩＰＳがそのシグネチャとマッチする通信を検知したときの挙動等を設定することに相当する。

　近年、シグネチャ自体の数が膨大になっており、人手ではその分類を行いきれなくなりつつある。膨大な数のシグネチャ全てを分類するために、機械学習等を用いることで、学習データとなるシグネチャと分類の対からパターンを生成し、分類推定モジュールを構成し、自動で分類するという方法が考えられる。

　しかしながら、分類推定モジュールによる分類だけでは誤った分類を避けることができない。シグネチャはセンシティブに扱う必要があり、結局のところセキュリティ運用者によって正しいか誤りかを判断しなくてはならないという問題がある。

川口他, "多クラス分類半自動化エージェントにおけるロバストな確信度算出を目指した擬似学習データ生成手法," 2019年度人工知能学会全国大会（第33回）, June 2019. https://confit.atlas.jp/guide/event-img/jsai2019/4O3-J-7-04/public/pdf?type=in

　非特許文献１には、誤った分類を使用することを回避するために、分類に関して正解の確率が高いか（正しい分類であるか）、正解の確率が低いか（誤った分類であるか）を推定する技術が開示されている。非特許文献１に開示された従来技術により、誤り判定を行うことができるが、より良い誤り判定精度が求められている。すなわち、より良い分類精度が求められている。

　本発明は上記の点に鑑みてなされたものであり、データの分類を精度良く行う技術を提供することを目的とする。

　開示の技術によれば、分類対象データを用いて特徴ベクトルを生成するデータ変換部と、
　前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測部と、
　前記分類推定過程観測部により生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とを入力し、当該分類結果の正誤を判定する誤り判定部と
　を備えるデータ分類装置が提供される。

　開示の技術によれば、データの分類を精度良く行う技術が提供される。

学習フェーズにおけるデータ分類装置の構成を示す図である。分類フェーズにおけるデータ分類装置の構成を示す図である。装置のハードウェア構成の例を示す図である。シグネチャの具体例を示す図である。学習フェーズにおける処理手順を示すフローチャートである。分類推定過程の特徴ベクトルの作成方法を説明するための図である。中間層と出力層を観測する場合の例を説明するための図である。決定木を用いる場合の例を説明するための図である。誤り判定部の学習を説明するための図である。誤り判定部の学習を説明するための図である。誤り判定部の学習を説明するための図である。分類フェーズにおける処理手順を示すフローチャートである。

　以下、図面を参照して本発明の実施の形態（本実施の形態）を説明する。以下で説明する実施の形態は一例に過ぎず、本発明が適用される実施の形態は、以下の実施の形態に限られるわけではない。

　以下で説明するデータ分類技術は様々な分野に適用可能であるが、例えば、ＩＤＳ／ＩＰＳ等のセキュリティシステムを扱うセキュリティ運用者が、それらのシステムに用いられる悪性通信のパターンファイルであるシグネチャを分類することに適用できる。

　（装置の機能構成）
　本実施の形態におけるデータ分類装置１００の機能構成を説明する。データ分類装置１００は、分類推定部１３０及び誤り判定部１５０の学習（パラメータ調整）を行う学習フェーズの動作と、学習済みの分類推定部１３０及び誤り判定部１５０を用いた分類対象データの分類を行う分類フェーズの動作を行う。

　学習フェーズと分類フェーズとで、データ分類装置１００の機能構成は基本的に同じであるが、処理される情報に違いがある。

　　　　（学習フェーズにおける構成）
　図１に、学習フェーズにおけるデータ分類装置１００の機能構成を示す。図１には、各機能部に入力される情報、及び各機能部から出力される情報も示されている。

　図１に示すとおり、データ分類装置１００は、外部情報取得部１１０、データ変換部１２０、分類推定部１３０、分類推定過程観測部１４０、誤り判定部１５０を有する。なお、分類推定部１３０と誤り判定部１５０の学習に係る処理を実行する学習部１６０を備えてもよい。分類推定部１３０と誤り判定部１５０のそれぞれが学習機能を含むことで、学習部１６０を備えないこととしてもよい。

　各機能部の機能概要は下記のとおりである。下記の機能概要は学習フェーズと分類フェーズとで共通である。

　外部情報取得部１１０は、入力されたデータ内の情報を参照し、自動的にインターネット等にある、当該情報に対応する外部情報を取得する機能部である。

　データ変換部１２０は、データとその外部情報を特徴ベクトルに変換するための機能部である。一例として、データがシグネチャである場合、ＯｎｅｈｏｔエンコーディングとＴＦ－ＩＤＦ（Term Frequency - Inverse Document Frequency）を組み合わせることで特徴ベクトルの生成を行うことができる。

　分類推定部１３０は、データの分類をアンサンブル学習により推定する機能部である。分類を推定するためのモデルは特定のモデルに限定されないが、例えば、ＳＶＭ（support vector machine）のモデルやニューラルネットワークのモデルを使用できる。分類推定部１３０は、当該モデルを複数個使用するアンサンブル学習による分類器からなる。学習用データセットを使用することで、機械学習で分類推定部１３０の内部パラメータが調整される。

　分類推定過程観測部１４０は、分類推定部１３０が分類対象データの分類を推定する際の計算過程を観測し、観測結果に基づく特徴ベクトルを作成する機能部である。

　誤り判定部１５０は、分類推定部１３０から分類結果を受け取るとともに、分類推定過程観測部１４０から分類推定過程の観測データ（具体的には特徴ベクトル）を受け取り、その観測データをもとに、分類推定部１３０が推定した分類が「正しい」ものか「誤り」であるかを判定し、分類結果と誤り判定結果を出力する。機械学習により誤り判定部１５０の内部パラメータが調整される。

　図１を参照して、学習フェーズにおけるデータ分類装置１００における全体の処理の概要を説明する。

　外部情報取得部１１０に、学習用データとラベルのリスト（学習用データとラベルの組を複数有するリスト）が入力される。学習用データとラベルのリストは、機械学習を行うためのデータとラベルが対応付いたリストである。ラベルは、当該データの正解となる分類を表しており、データとラベルの対応関係はデータ分類装置１００における処理中も常に対応付けられている。

　学習用データとラベルのリストが入力された外部情報取得部１１０は、リストにおけるデータ１件毎に、データに記述されている外部情報の参照先を抽出し、当該参照先に対応する外部情報を取得し、当該データに取得した外部情報を付与する。

　外部情報取得部１１０は、各データに外部情報が付与された学習用データとラベルのリストである＜学習用の外部情報付きデータとラベルのリスト＞をデータ変換部１２０に送信する。

　データ変換部１２０は、外部情報取得部１１０から受信した＜学習用の外部情報付きデータとラベルのリスト＞に対して後述する処理を施して、＜学習用の特徴ベクトルとラベルのリスト＞を生成し、＜学習用の特徴ベクトルとラベルのリスト＞を分類推定部１３０に送信する。

　学習フェーズにおける分類推定部１３０は、＜学習用の特徴ベクトルとラベルのリスト＞における「学習用の特徴ベクトルとラベル」の組毎に、学習用の特徴ベクトルを入力し、出力される分類結果と、正解であるラベルとを比較することで、誤りが減少するように機械学習によるパラメータ調整を行う。

　パラメータ調整後、分類推定部１３０は、学習用の特徴ベクトルのリストを入力することで得られる＜学習用の分類推定過程情報のリスト＞を、分類推定過程観測部１４０に送信する。また、分類推定部１３０は、＜学習用特徴ベクトルの分類結果とラベルのリスト＞を誤り判定部１５０に送信する。

　分類推定過程観測部１４０は、弱分類器からクラス毎（分類毎）の予測スコアを数値ベクトルとして取得し、各弱分類器取得した全ての数値ベクトルを結合し、分類推定過程の特徴ベクトルとする。学習フェーズにおいて、これは＜学習用の分類推定過程の特徴ベクトルのリスト＞として得られる。分類推定過程観測部１４０は、＜学習用の分類推定過程の特徴ベクトルのリスト＞を誤り判定部１５０に送信する。

　誤り判定部１５０は、分類推定部１３０から受信する＜学習用特徴ベクトルの分類結果とラベルのリスト＞と、分類推定過程観測部１４０から受信する＜学習用の分類推定過程の特徴ベクトルのリスト＞とを用いて機械学習によるパラメータ調整を実施する。学習方法の詳細は後述する。

　　　　（分類フェーズにおける構成）
　図２に、分類フェーズにおけるデータ分類装置１００の機能構成を示す。図２に示すように、機能構成は図１と同様であるが、処理される情報が図１において処理される情報と異なる。

　図２を参照して、分類フェーズにおけるデータ分類装置１００の全体の処理の概要を説明する。

　外部情報取得部１１０に、分類対象となるデータのリストが入力される。データのリストは、データ分類装置１００により自動分類を行う対象となるデータのリストである。

　データのリストが入力された外部情報取得部１１０は、リストにおけるデータ１件毎に、データに記述されている外部情報の参照先から自動的に外部情報を取得し、当該データに取得した外部情報を付与する。

　外部情報取得部１１０は、各データに外部情報が付与された＜外部情報付きデータのリスト＞をデータ変換部１２０に送信する。

　データ変換部１２０は、外部情報取得部１１０から受信した＜外部情報付きデータのリスト＞に対して後述する処理を施して、＜特徴ベクトルのリスト＞を生成し、＜特徴ベクトルのリスト＞を分類推定部１３０に送信する。

　分類推定部１３０は、＜特徴ベクトルのリスト＞における各特徴ベクトルを入力し、各特徴べクトルに対する分類結果を＜分類結果のリスト＞として出力する。また、分類推定部１３０は、分類処理の過程で得られる＜分類推定過程情報のリスト＞を、分類推定過程観測部１４０に送信する。また、分類推定部１３０は、分類の結果得られた＜分類結果のリスト＞を誤り判定部１５０に送信する。

　分類推定過程観測部１４０は、各弱分類器からクラス毎（分類毎）の予測スコアを数値ベクトルとして取得し、取得した全ての数値ベクトルを結合し、分類推定過程の特徴ベクトルとする。分類フェーズにおいて、これは＜分類推定過程の特徴ベクトルのリスト＞として得られる。分類推定過程観測部１４０は、＜分類推定過程の特徴ベクトルのリスト＞を誤り判定部１５０に送信する。

　誤り判定部１５０は、分類推定部１３０から受信する＜分類結果のリスト＞と、分類推定過程観測部１４０から受信する＜分類推定過程の特徴ベクトルのリスト＞とを用いて誤り判定を行い、分類結果と誤り判定結果のリストを出力する。「分類結果と誤り判定結果のリスト」は、入力である「データのリスト」内のデータの分類結果と、当該データの分類判定結果に対する誤り判定結果のリストである。「分類結果と誤り判定結果のリスト」は、「データのリスト」のデータ１件毎と対応付いた状態で出力される。

　（ハードウェア構成例）
　データ分類装置１００は、例えば、コンピュータに、本実施の形態で説明する処理内容を記述したプログラムを実行させることにより実現可能である。なお、この「コンピュータ」は、物理マシンであってもよいし、クラウド上の仮想マシンであってもよい。仮想マシンを使用する場合、ここで説明する「ハードウェア」は仮想的なハードウェアである。

　上記プログラムは、コンピュータが読み取り可能な記録媒体（可搬メモリ等）に記録して、保存したり、配布したりすることが可能である。また、上記プログラムをインターネットや電子メール等、ネットワークを通して提供することも可能である。

　図３は、上記コンピュータのハードウェア構成例を示す図である。図３のコンピュータは、それぞれバスＢＳで相互に接続されているドライブ装置１０００、補助記憶装置１００２、メモリ装置１００３、ＣＰＵ１００４、インタフェース装置１００５、表示装置１００６、及び入力装置１００７等を有する。

　当該コンピュータでの処理を実現するプログラムは、例えば、ＣＤ－ＲＯＭ又はメモリカード等の記録媒体１００１によって提供される。プログラムを記憶した記録媒体１００１がドライブ装置１０００にセットされると、プログラムが記録媒体１００１からドライブ装置１０００を介して補助記憶装置１００２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１００１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１００２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

　メモリ装置１００３は、プログラムの起動指示があった場合に、補助記憶装置１００２からプログラムを読み出して格納する。ＣＰＵ１００４は、メモリ装置１００３に格納されたプログラムに従って、当該装置に係る機能を実現する。インタフェース装置１００５は、ネットワークに接続するためのインタフェースとして用いられる。表示装置１００６はプログラムによるＧＵＩ（Ｇｒａｐｈｉｃａｌ　Ｕｓｅｒ　Ｉｎｔｅｒｆａｃｅ）等を表示する。入力装置１００７はキーボード及びマウス、ボタン、又はタッチパネル等で構成され、様々な操作指示を入力させるために用いられる。

　（実施例）
　以下、データ分類装置１００の動作をより具体的に説明する。本実施例では、分類対象（及び学習に使用する）データとしてシグネチャを用いることを想定した例を説明する。

　まず、シグネチャについて説明する。前述したように、シグネチャとはＩＰＳ／ＩＤＳに用いられる悪性通信のパターンを記述したパターンファイルである。ＩＰＳ／ＩＤＳのベンダー毎にシグネチャの記述方法は異なるが、本実施の形態では１つのシグネチャに以下の情報のいずれかが含まれていればよい。

　・5tuple（プロトコル，ソースアドレス，ソースポート，宛先アドレス，宛先ポート）。

　・メッセージ：パターンにマッチしたときにＩＤＳ／ＩＰＳのユーザに表示する情報。

　・コンテンツ：通信のパターンそのもの。バイナリや文字列で構成される。コンテンツの内容とマッチした通信があると、当該シグネチャに該当すると判断される。１シグネチャにコンテンツが複数ある場合もある。

　・参照先：そのシグネチャの関連情報が記されたＷＥＢページのＵＲＬやＣＶＥ（Common Vulnerabilities and Exposures）番号である。１シグネチャにコンテンツが複数ある場合もある。

　図４に、シグネチャの具体例として、SNOTE(https://snort.org/)と呼ばれるＯＳＳのＩＤＳ／ＩＰＳエンジンのシグネチャの例を示す。

　図４の例において、「5tuple」のプロトコル、ソースアドレス、ソースポート、宛先アドレス、宛先ポートはそれぞれ、tcp,$EXTERNAL NET,any,$HTTP SERVERS,$HTTP PORTSの位置に対応する。

　図４の例において、「メッセージ」はmsg:"WEB-PHP admin.php file upload attempt"のダブルクオーテーション内の文字列に該当する。

　図４の例において、「コンテンツ」はcontent:"file name="のダブルクォーテーション内の文字列に該当する。図４の例において、「参照先」はreference:bugtraq,3361のコロン以降の文字列に該当する。

　なお、図４に示したSNOTEのシグネチャは、「https://www.atmarkit.co.jp/ait/articles/0502/04/news120.html」のWEB ページから引用している。

　データ分類装置１００は、シグネチャ以外のデータに対する分類を行うことも可能である。例えば、データとして、画像、文書、あるいは音声等を用いることも可能である。データとして画像、文書、音声等を用いる場合、外部情報取得部１１０及びデータ変換部１２０の変換手順を、画像、文書、音声等のデータに対応する変換手順に設定すればよい。

　例えば、画像の場合、データ変換部１２０は画像をＨＯＧ（Histograms of Oriented Gradients）特徴量からなる特徴ベクトルに変換する。また、画像、文書、音声等のいずれについても、ディープラーニングによって特徴ベクトルに変換することとしてもよい。

　以下、データとしてシグネチャを使用することを想定した場合の学習フェーズと分類フェーズの処理の詳細を説明する。

　（実施例：学習フェーズ）
　学習フェーズにおけるデータ分類装置１００（図１）の処理の詳細を図５に示すフローチャートの手順に沿って説明する。

　まず、データ分類装置１００へのデータ入力の前の事前の作業として、データ分類装置１００の利用者がシグネチャを用意し、任意の数のシグネチャにラベルを付与する。前述したように、このラベルは、当該シグネチャにマッチした通信に対するＩＤＳ／ＩＰＳの挙動（ロギング・通知・遮断など）を指す。ただし、このようなラベルは一例であり、ＩＤＳ／ＩＰＳの挙動以外のラベルを付与することもできる。ラベルが付与されたシグネチャのリストを「学習用データとラベルのリスト」とする。

　　　（Ｓ１０１：入力）
　図５のフローチャートにおけるＳ１０１において、利用者が「学習用データとラベルのリスト」をデータ分類装置１００の外部情報取得部１１０に入力する。

　　　（Ｓ１０２：外部情報取得）
　Ｓ１０２において、外部情報取得部１１０は、「学習用データとラベルのリスト」における学習用データ毎に、学習用データ内の情報を参照し、自動的にインターネットにある対応する外部情報を取得する。なお、本実施例において、外部情報を用いることは必須ではない。外部情報を用いないで、学習用データのみ（分類フェーズでは分類対象データのみ）から特徴ベクトルを生成してもよい。

　本実施例のようにデータとしてシグネチャを使用する場合、外部情報取得部１１０は、例えば、参照先(SNOTE の場合はreference)のＵＲＬあるいはＣＶＥ番号を用いることで外部情報を取得できる。より具体的には、外部情報取得部１１０は、例えば、正規表現でシグネチャからＵＲＬ等を抜き出し、ｗｇｅｔあるいはｃｕｒｌ等のソフトウェアを使用することで、当該ＵＲＬ等を指定して外部情報を取得する。

　外部情報取得部１１０は、「学習用データとラベルのリスト」における学習用データ毎に取得した外部情報が付された＜学習用の外部情報付きデータとラベルのリスト＞を作成し、＜学習用の外部情報付きデータとラベルのリスト＞をデータ変換部１２０に送信する。

　　　（Ｓ１０３：データ変換）
　データ変換部１２０は、データを特徴ベクトルに変換する。データとしてシグニチャを用いる本実施例での処理の例は下記のとおりである。

　データ変換部１２０は、シグネチャ内に含まれる5tuple、メッセージ、コンテンツ、参照先の情報４つについて、以下の手順でシグニチャを学習用の特徴ベクトルに変換する。

　データ変換部１２０は、外部情報取得部１１０から受信した＜学習用の外部情報付きデータとラベルのリスト＞における学習用の外部情報付きシグネチャのそれぞれに対して、以下のＳ１～Ｓ５の処理を実行する。なお、Ｓ１～Ｓ４の処理の順番は任意である。

　Ｓ１：データ変換部１２０は、5tuple のプロトコル、ソースアドレス、ソースポート、宛先アドレス、宛先ポートのそれぞれを、Ｏｎｅｈｏｔエンコーディングで数値ベクトルに変換する。

　Ｓ２：データ変換部１２０は、メッセージを文書とみなしてＴＦ－ＩＤＦで数値ベクトルに変換する。

　Ｓ３：データ変換部１２０は、コンテンツを文書とみなしてＴＦ－ＩＤＦで数値ベクトルに変換する。１シグネチャにコンテンツが複数ある場合には事前に当該複数コンテンツを結合し、１つの文書と見なしてＴＦ－ＩＤＦを行う。

　Ｓ４：データ変換部１２０は、参照先を用いて取得された外部情報を文書と見なしてＴＦ－ＩＤＦで数値ベクトルに変換する。１シグネチャに参照先が複数ある場合には、複数の参照先から取得した複数の外部情報を事前に結合し、１つの文書と見なしてＴＦ－ＩＤＦで数値ベクトルへの変換を行う。

　Ｓ５：データ変換部１２０は、Ｓ１により得られた数値ベクトル、Ｓ２により得られた数値ベクトル、Ｓ３により得られた数値ベクトル、及びＳ４により得られた数値ベクトルを連結して、学習用の特徴ベクトルを得る。この連結処理はシグネチャ毎に行われる。例えば、あるシグネチャについて、Ｓ１により得られた数値ベクトルがＶ１であり、Ｓ２により得られた数値ベクトルがＶ２であり、Ｓ３により得られた数値ベクトルがＶ３であり、及びＳ４により得られた数値ベクトルがＶ４であるとすると、学習用の特徴ベクトルとして、［Ｖ１　Ｖ２　Ｖ３　Ｖ４］が得られる。

　ＯｎｅｈｏｔエンコーディングとＴＦ－ＩＤＦ自体は既存技術である。Ｏｎｅｈｏｔエンコーディングは、エンコーディング対象の情報を、１つの成分が１で残りの成分が全て０であるようなベクトルに変換するエンコーディングである。ＴＦ－ＩＤＦは、文書中に含まれる単語の重要度を評価する手法の一つである。

　なお、上記のＳ１～Ｓ５を全て実行することは一例である。例えば、Ｓ１～Ｓ４のうちのいずれか１つの処理を実行し、Ｓ５を行わないこととしてもよい。また、Ｓ１～Ｓ４のうちのいずれか２つの処理を実行し、Ｓ５では２つの数値ベクトルの連結を行うこととしてもよい。また、Ｓ１～Ｓ４のうちのいずれか３つの処理を実行し、Ｓ５では３つの数値ベクトルの連結を行うこととしてもよい。

　データ変換部１２０は、学習用の特徴ベクトルと、対応するラベルとの組のリストである＜学習用の外部情報付きデータとラベルのリスト＞を作成し、当該＜学習用の外部情報付きデータとラベルのリスト＞を分類推定部１３０に送信する。

　上記のとおり、本実施例に係る技術により、文字列で構成されたシグネチャを数値ベクトルに変換できる。

　　　（Ｓ１０４：分類推定部１３０の学習）
　Ｓ１０４において、分類推定部１３０の学習を行う。分類推定部１３０は、複数の分類器（弱分類器と呼ばれる）を含み、アンサンブル学習でデータの分類を推定する。アンサンブル学習は、複数の弱分類器に学習をさせて、学習された複数の弱分類器の分類結果を統合することで、分類性能を高める手法である。

　アンサンブル学習にはバギングやブースティング等の複数の手法が存在するが、本実施例では、分類推定部１３０内部が複数の弱分類器により構成されていればどの手法を適用してもよい。アンサンブル学習の最も簡単な例は複数の弱分類器による多数決である（バギング）。各弱分類器は学習サンプルから非復元抽出された少量のサンプルで学習された、識別能力の低い分類器である。ただし、それらを複数個作り多数決を行うことにより、全体としては１つの分類器として機能し、高い性能を得ることができる。

　Ｓ１０４では、データ変換部１２０から出力された＜学習用の特徴ベクトルとラベルのリスト＞を用いて、分類推定部１３０の学習（教師あり学習）を行い、分類推定部１３０における内部パラメータを調整する。

　より具体的には、例えば、それぞれの弱分類器に、＜学習用の特徴ベクトルとラベルのリスト＞における学習用の特徴ベクトルを入力し、弱分類器からの出力と正解（学習用の特徴ベクトルに対応するラベル）とを比較し、誤差が減少するように内部パラメータを調整する。このような学習処理は、分類推定部１３０自体が実行してもよいし、分類推定部１３０の外部に学習部１６０を備えることでその学習部１６０が実行することとしてもよい。

　分類推定部１３０の学習後（内部パラメータ調整後）、分類推定部１３０は、＜学習用の特徴ベクトルとラベルのリスト＞における各学習用特徴ベクトルに対して分類を推定する処理を実施して、＜学習用の分類推定過程情報のリスト＞と＜学習用特徴ベクトルの分類結果とラベルのリスト＞を得る。

　分類推定部１３０は、＜学習用の分類推定過程情報のリスト＞を分類推定過程観測部１４０に送信し、＜学習用特徴ベクトルの分類結果とラベルのリスト＞を誤り判定部１５０に送信する。本実施例において、学習用の分類推定過程情報は、弱分類器毎の予測スコアである。

　　　（Ｓ１０５：分類推定過程の観測）
　Ｓ１０５において、分類推定過程観測部１４０は、分類推定部１３０が備える複数の弱分類器それぞれから出力される予測スコアの全てを取得し、それらを結合することで特徴ベクトルを作成する。

　分類推定過程観測部１４０は、＜学習用の分類推定過程情報のリスト＞内の分類推定過程情報１件毎に下記の手順Ｓ１、Ｓ２を実施して分類推定過程の特徴ベクトルを作成する。

　Ｓ１：分類推定過程観測部１４０は、各弱分類器からクラス（分類）毎の予測スコアを数値ベクトルとして取得する。

　Ｓ２：分類推定過程観測部１４０は、取得した全ての数値ベクトルを結合したベクトルを特徴ベクトルとする。

　分類推定部１３０を構成する弱分類器としてニューラルネットワークを使用する場合における特徴ベクトルの作成イメージを図６に示している。

　図６に示す例では、分類推定部１３０は３つの弱分類器Ａ～Ｃを有し、各弱分類器の出力層を観測箇所としている。図６に示す弱分類器Ａ～Ｃからの出力（３つの数値ベクトル）は、１件の分類推定過程情報に相当する。図６に示すとおり、これら３つの数値ベクトルを結合することで特徴ベクトルを得る。

　分類推定過程観測部１４０は、＜学習用の分類推定過程情報のリスト＞における分類推定過程情報毎の特徴ベクトルを＜学習用の分類推定過程の特徴ベクトルのリスト＞とし、当該＜学習用の分類推定過程の特徴ベクトルのリスト＞を誤り判定部１５０に送信する。

　なお、図６は、３つの弱分類器を使用する場合を示しているが、３つであることは一例に過ぎない。任意の複数の弱分類器において本実施例の処理を実行可能である。

　また、分類推定部１３０を構成する弱分類器は、ニューラルネットワークに限らず、各分類の予測スコアを算出できる任意のモデル（例：ＳＶＭ、決定木等）で実現可能である。

　また、弱分類器にニューラルネットワークを使用する場合において、分類推定過程観測部１４０は、出力層の各ノード（活性化関数）から出力される値に加えて１以上の中間層の各ノードから出力される値も並行して取得し、これらを結合したものを１弱分類器あたりの数値ベクトルとしてもよい。図７に、出力層と中間層を観測箇所とする場合の弱分類器の例を示す。図７は、複数ある弱分類器のうちの１つを示している。

　図７に示す例において、例えば、中間層の各ノードの値が０．５，０．４，０．７であり、出力層の各ノードの値が０．２，０．７，０．１である場合、当該弱分類器の数値ベクトルは［０．５　０．４　０．７　０．２　０．７　０．１］と構成することができる。

　図８は、弱分類器として決定木を用いる場合における当該弱分類器の例を示す。図８は、複数ある弱分類器のうちの１つを示している。当該弱分類器においては、分類が決定に至るルートを観測し数値ベクトルを構成する。図８の例は、分類Ａ、分類Ｂ、分類Ｃの３つの分類のうちのいずれかの分類を推定する決定木である。

　図８に示す例では、ノード１－＞ノード３－＞ノード６というルートで分類Ａとなった場合、それを観測データとして取得した分類推定過程観測部１４０により生成される数値ベクトルは［１　０　１　０　０　１　０　０　０］となる。この例では、ベクトルの要素の添え字と、決定木のノード番号とが対応しており、そのノードを通過したならそのノードに対応する要素に１が入り、通過していないなら０が入るようにして数値ベクトルを構成している。

　　　（Ｓ１０６：誤り判定部１５０の学習）
　誤り判定部１５０がどのような機能部かを説明するために、まず、分類フェーズでの動作概要を説明する。

　分類フェーズにおける誤り判定部１５０は、分類推定部１３０から分類結果のリストを受け取るととともに、分類推定過程観測部１４０から分類推定過程の特徴ベクトルのリストを受け取り、分類推定過程の特徴ベクトルに基づいて、分類推定部１３０が推定した分類が「正しい」ものか「誤り」であるかを判断する。「正しい」場合は分類推定部１５０が推定した分類をそのまま分類結果とするが、「誤り」の場合は「不明」を分類結果とする。

　上記の動作を実行する誤り判定部１５０は、例えば、機械学習分野でよく用いられているモデルで構成することができる。例えばＳＶＭ、ニューラルネットワーク等で誤り判定部１５０を構成することができる。これらのモデルを用いる場合、教師あり学習でモデルのパラメータチューニングを行うことで誤り判定部１５０を実装することができる。

　Ｓ１０６の誤り判定部１５０の学習において、誤り判定部１５０は、分類推定過程観測部１４０から＜学習用の分類推定過程の特徴ベクトルのリスト＞を受信し、分類推定部１３０から＜学習用特徴ベクトルの分類結果とラベルのリスト＞を受信すると、以下のＳ１～Ｓ５の手順で学習（内部パラメータの調整）を実行する。なお、以下で説明する学習処理は、誤り判定部１５０自体が実行してもよいし、誤り判定部１５０の外部に学習部１６０を備えることでその学習部１６０が実行することとしてもよい。以下では、誤り判定部１５０が学習処理を行うものとして説明する。

　Ｓ１：誤り判定部１５０は、＜学習用特徴ベクトルの分類結果とラベルのリスト＞内の分類結果とラベルを比較し、正誤のリストを生成する。

　Ｓ２：誤り判定部１５０は、乱数等で擬似的な特徴ベクトルを任意の数だけ生成する。

　Ｓ３：誤り判定部１５０は、＜学習用の分類推定過程の特徴ベクトルのリスト＞と擬似的な特徴ベクトルのリストとを合わせることで、学習用特徴ベクトルリストを生成する。

　Ｓ４：誤り判定部１５０は、正誤のリストに、擬似的な特徴ベクトルを生成した数と同じ数だけ誤りを示す数値の要素を追加する。

　Ｓ５：誤り判定部１５０は、正誤のリストを出力（正解）、学習用特徴ベクトルのリストを入力として機械学習を行い、誤り判定部１５０のパラメータを調整する。

　上記の処理の具体例を図９～図１１を参照して説明する。

　　　　（Ｓ１）
　図９に示す例において、＜学習用特徴ベクトルの分類結果とラベルのリスト＞内の分類結果のリストは＜分類Ｐ，分類Ｏ，分類Ｐ＞である。また、ラベル（正解分類）のリストは＜分類Ｏ，分類Ｏ，分類Ｐ＞である。これらを比較すると、一番目の分類の正解が分類Ｏであるのに対し、分類結果では、一番目の分類が分類Ｐとなった。よって、一番目の分類は誤りとなり、学習用の正誤リストの一番目の要素は１（誤り）になる。２番目と３番目は正しいので、正誤リストは＜１　０　０＞となる。

　　　　（Ｓ２、Ｓ３）
　図１０に示す例では、＜学習用の分類推定過程の特徴ベクトルのリスト＞は、＜［０．５　０．４　０．７　０．２　０．７　０．１　０．１　０．６　０．１］，［０．３　０．２　０．８　０．１　０．１　０．９　０．１　０．８　０．３］，［０．２　０．３　０．４　０．２　０．９　０．１　０．３　０．８　０．１］＞である。

　Ｓ２において、図１０に示す例では、誤り判定部１５０は、乱数等で擬似的な特徴ベクトルを２つ生成する。すなわち、擬似的な特徴ベクトルとして＜［０．１　０．８　０．５　０．１　０．１　０．２　０．５　０．７　０．１］，［０．１　０．３　０．９　０．０　０．２　０．４　０．３　０．１　０．２］＞を生成する。

　Ｓ３において、図１０に示すとおり、誤り判定部１５０は、＜学習用の分類推定過程の特徴ベクトルのリスト＞と擬似的な特徴ベクトルのリストとを合わせることで、学習用特徴ベクトルリストを生成する。

　　　　（Ｓ４）
　Ｓ４において、図１０に示すように、誤り判定部１５０は、正誤のリスト＜１　０　０＞に、擬似的な特徴ベクトルを生成した数（２つ）と同じ数だけ誤りを示す数値の要素を追加する。これにより、学習用正誤リストとして＜１　０　０　１　１＞が得られる。このような追加を行うことで、出鱈目な特徴べクトルに頑強になり、未知の特徴を持つデータに対する正誤の判定精度が向上する。

　　　　（Ｓ５）
　図１１に示すＳ５では、学習用特徴ベクトルリストを誤り判定部１５０の入力とし、誤り判定部１５０からの出力と、学習用正誤リスト（正解）とを比較することで、誤差が減少するように誤り判定部１５０の内部パラメータを調整する。

　（実施例：分類フェーズ）
　次に、分類フェーズにおけるデータ分類装置１００（図２）の処理の詳細を図１２に示すフローチャートの手順に沿って説明する。分類フェーズでは、データ分類装置１００において、分類推定部１３０と誤り判定部１５０は学習済みである。

　なお、分類フェーズでのＳ２０２（外部情報取得）の処理、Ｓ２０３（データ変換）の処理、Ｓ２０５（分類推定過程の観測）の処理はそれぞれ、処理対象が異なる（学習用か、分類対象かの相違）ことを除いて、学習フェーズでのＳ１０２（外部情報取得）の処理、Ｓ１０３（データ変換）の処理、Ｓ１０５（分類推定過程の観測）の処理と同じである。よって、以下のＳ２０２、Ｓ２０３、Ｓ２０５は簡単に説明している。

　　　（Ｓ２０１：入力）
　図１２のフローチャートにおけるＳ２０１において、利用者が分類対象のデータのリストをデータ分類装置１００の外部情報取得部１１０に入力する。

　　　（Ｓ２０２：外部情報取得）
　Ｓ２０２において、学習フェーズのＳ１０２と同様にして、外部情報取得部１１０は、「データのリスト」におけるデータ毎に、データ内の情報を参照し、自動的にインターネットにある対応する外部情報を取得する。外部情報取得部１１０は、＜外部情報付きデータのリスト＞をデータ変換部１２０に送信する。

　　　（Ｓ２０３：データ変換）
　データ変換部１２０は、外部情報取得部１１０から＜外部情報付きデータのリスト＞を受信し、学習フェーズのＳ１０３と同様にして、リストに含まれる各データを特徴ベクトルに変換することにより＜特徴ベクトルのリスト＞を得る。データ変換部１２０は、＜特徴ベクトルのリスト＞を分類推定部１３０に送信する。

　　　（Ｓ２０４：分類推定）
　Ｓ２０４において、分類推定部１３０は、データ変換部１２０から＜特徴ベクトルのリスト＞を受信し、当該リストにおける各特徴ベクトルの分類を推定する処理を実施して、＜分類推定過程情報のリスト＞と＜分類結果のリスト＞を得る。分類推定過程情報の例については学習フェーズにおいて説明したとおりである。

　分類推定部１３０は、＜分類推定過程情報のリスト＞を分類推定過程観測部１４０に送信し、＜分類結果のリスト＞を誤り判定部１５０に送信する。

　　　（Ｓ２０５：分類推定過程の観測）
　Ｓ２０５において、分類推定過程観測部１４０は、＜分類推定過程情報のリスト＞を受信し、学習フェーズでのＳ１０５と同様にして特徴ベクトルを作成し、＜分類推定過程の特徴ベクトルのリスト＞を得る。分類推定過程観測部１４０は、＜分類推定過程の特徴ベクトルのリスト＞を誤り判定部１５０に送信する。

　　　（Ｓ２０６：誤り判定）
　誤り判定部１５０は、分類推定部１３０から分類結果のリストを受け取るととともに、分類推定過程観測部１４０から＜分類推定過程の特徴ベクトルのリスト＞を受け取り、当該リストに含まれる分類推定過程の特徴ベクトルに基づいて、分類推定部１３０が推定した分類が「正しい」ものか「誤り」であるかを判断する。

　　　（Ｓ２０７：出力）
　誤り判定部１５０は、分類結果と誤り判定結果の組のリストを出力する。誤り判定結果が「正しい」場合は分類推定部１３０が推定した分類をそのまま分類結果として使用できる。誤り判定結果が「誤り」の場合は、「不明」を分類結果とする。この場合、例えば、セキュリティ運用者が人手で分類を決定する。

　例えば、データ変換部１２０により得られた特徴ベクトルに基づく分類推定部１３０による分類結果が分類Ａであり、この分類Ａの推定過程で得られた分類推定過程情報の特徴ベクトルが［０．３　０．２　０．８　０．１　０．１　０．９　０．１　０．８　０．３］であるとする。

　誤り判定部１５０には、分類Ａと［０．３　０．２　０．８　０．１　０．１　０．９　０．１　０．８　０．３］が入力される。［０．３　０．２　０．８　０．１　０．１　０．９　０．１　０．８　０．３］に対する誤り判定結果が「正しい」であれば、分類Ａは正しい分類結果として用いられる。

　（実施の形態の効果）
　以上説明したデータ分類装置１００により、分類の正誤の判定精度が非特許文献１に開示された従来技術よりも向上するので、正しい分類を精度良く判断できる。よって、利用者がデータの分類を行うときの負担を軽減できる。

　すなわち、正解の可能性が高い分類（正しい分類）と、正解の可能性が低い分類（誤りの分類）を精度良くより分けることが可能となるので、正解の可能性が高い分類については人手で確認しないということを選択することが容易となる。その結果、利用者がデータの分類を行うときの負担を軽減できる。

　より詳細には、データ変換部１２０の前段に外部情報取得部１１０を配置することにより、分類判定に使用する情報が拡充するので、分類推定部１３０の分類精度が向上する。また、分類推定部１３０内部の弱分類器毎の予測スコアを観測し、結合して分類推定過程の観測データ（特徴ベクトル）としたので、誤り判定に使用する情報が拡充し、精度の良い誤り判定が可能になる。

　（実施の形態のまとめ）
　本明細書には、少なくとも下記の各項に記載したデータ分類装置、データ分類方法、及びプログラムが記載されている。
（第１項）
　分類対象データを用いて特徴ベクトルを生成するデータ変換部と、
　前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測部と、
　前記分類推定過程観測部により生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とを入力し、当該分類結果の正誤を判定する誤り判定部と
　を備えるデータ分類装置。
（第２項）
　前記データ変換部は、前記分類対象データと、前記分類対象データに対応する外部情報とから前記特徴ベクトルを生成する
　第１項に記載のデータ分類装置。
（第３項）
　前記データ変換部は、ＯｎｅｈｏｔエンコーディングとＴＦ－ＩＤＦとにより、前記分類対象データと前記外部情報から前記特徴ベクトルを生成する
　第２項に記載のデータ分類装置。
（第４項）
　前記分類対象データはシグネチャであり、前記データ変換部は、当該シグネチャにおける５タプルに対してＯｎｅｈｏｔエンコーディングを適用し、前記外部情報に対してＴＦ－ＩＤＦを適用する
　第３項に記載のデータ分類装置。
（第５項）
　前記分類推定過程観測部は、前記複数の弱分類器のそれぞれから出力される予測スコアを連結することにより前記分類推定過程特徴ベクトルを生成する
　第１項ないし第４項のうちいずれか１項に記載のデータ分類装置。
（第６項）
　前記データ分類装置は、前記外部情報を取得する外部情報取得部を更に備え、
　前記外部情報取得部は、前記分類対象データから参照先を抽出し、当該参照先に対応する外部情報を取得する
　第２項ないし第４項のうちいずれか１項に記載のデータ分類装置。
（第７項）
　データ分類装置が実行するデータ分類方法であって、
　分類対象データを用いて特徴ベクトルを生成するデータ変換ステップと、
　前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測ステップと、
　前記分類推定過程観測ステップにより生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とに基づいて、当該分類結果の正誤を判定する誤り判定ステップと
　を備えるデータ分類方法。
（第８項）
　コンピュータを、第１項ないし第６項のうちいずれか１項に記載のデータ分類装置における各部として機能させるためのプログラム。

　以上、本実施の形態について説明したが、本発明はかかる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

１００　データ分類装置
１１０　外部情報取得部
１２０　データ変換部
１３０　分類推定部
１４０　分類推定過程観測部
１５０　誤り判定部
１６０　学習部
１０００　ドライブ装置
１００１　記録媒体
１００２　補助記憶装置
１００３　メモリ装置
１００４　ＣＰＵ
１００５　インターフェース装置
１００６　表示装置
１００７　入力装置

Claims

　分類対象データを用いて特徴ベクトルを生成するデータ変換部と、
　前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測部と、
　前記分類推定過程観測部により生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とを入力し、当該分類結果の正誤を判定する誤り判定部と
　を備えるデータ分類装置。
　前記データ変換部は、前記分類対象データと、前記分類対象データに対応する外部情報とから前記特徴ベクトルを生成する
　請求項１に記載のデータ分類装置。
　前記データ変換部は、ＯｎｅｈｏｔエンコーディングとＴＦ－ＩＤＦとにより、前記分類対象データと前記外部情報から前記特徴ベクトルを生成する
　請求項２に記載のデータ分類装置。
　前記分類対象データはシグネチャであり、前記データ変換部は、当該シグネチャにおける５タプルに対してＯｎｅｈｏｔエンコーディングを適用し、前記外部情報に対してＴＦ－ＩＤＦを適用する
　請求項３に記載のデータ分類装置。
　前記分類推定過程観測部は、前記複数の弱分類器のそれぞれから出力される予測スコアを連結することにより前記分類推定過程特徴ベクトルを生成する
　請求項１ないし４のうちいずれか１項に記載のデータ分類装置。
　前記データ分類装置は、前記外部情報を取得する外部情報取得部を更に備え、
　前記外部情報取得部は、前記分類対象データから参照先を抽出し、当該参照先に対応する外部情報を取得する
　請求項２ないし４のうちいずれか１項に記載のデータ分類装置。
　データ分類装置が実行するデータ分類方法であって、
　分類対象データを用いて特徴ベクトルを生成するデータ変換ステップと、
　前記分類対象データの分類を推定する複数の弱分類器を備える分類推定部から、前記特徴ベクトルに基づく分類過程の観測情報を取得し、当該観測情報に基づいて分類推定過程特徴ベクトルを生成する分類推定過程観測ステップと、
　前記分類推定過程観測ステップにより生成された前記分類推定過程特徴ベクトルと、前記特徴ベクトルが入力された前記分類推定部から出力される分類結果とに基づいて、当該分類結果の正誤を判定する誤り判定ステップと
　を備えるデータ分類方法。
　コンピュータを、請求項１ないし６のうちいずれか１項に記載のデータ分類装置における各部として機能させるためのプログラム。