JPWO2019225251A1 - 学習方法、学習装置及び学習プログラム - Google Patents

学習方法、学習装置及び学習プログラム Download PDF

Info

Publication number
JPWO2019225251A1
JPWO2019225251A1 JP2020521115A JP2020521115A JPWO2019225251A1 JP WO2019225251 A1 JPWO2019225251 A1 JP WO2019225251A1 JP 2020521115 A JP2020521115 A JP 2020521115A JP 2020521115 A JP2020521115 A JP 2020521115A JP WO2019225251 A1 JPWO2019225251 A1 JP WO2019225251A1
Authority
JP
Japan
Prior art keywords
request
learning
profile
analysis
requests
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2020521115A
Other languages
English (en)
Other versions
JP6935849B2 (ja
Inventor
慎吾 折原
慎吾 折原
楊 鐘本
楊 鐘本
悠太 岩城
悠太 岩城
国雄 宮本
国雄 宮本
祐一 村田
祐一 村田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Publication of JPWO2019225251A1 publication Critical patent/JPWO2019225251A1/ja
Application granted granted Critical
Publication of JP6935849B2 publication Critical patent/JP6935849B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2221/00Indexing scheme relating to security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F2221/03Indexing scheme relating to G06F21/50, monitoring users, programs or devices to maintain the integrity of platforms
    • G06F2221/034Test or assess a computer or a system

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Computer Hardware Design (AREA)
  • Computer And Data Communications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

学習装置(10)は、サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する。また、学習装置(10)は、リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせごとの出現頻度をプロファイル(14)として保存する。また、学習装置(10)は、リクエストのうち、分析用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせをプロファイル(14)と照合し、異常を検知する。また、学習装置(10)は、分析用のリクエストの少なくとも一部を選択する。また、学習装置(10)は、選択されたリクエストを基にプロファイル(14)を更新する。

Description

本発明は、学習方法、学習装置及び学習プログラムに関する。
インターネットの普及に伴い、Webサーバに対する攻撃が急増している。攻撃の対策としてIDS(Intrusion Detection System)、IPS(Intrusion Prevention System)、WAF(Web Application Firewall)等が知られている。これらの技術では、ブラックリストやシグネチャファイルを用いたパターンで検出を行い、既知の攻撃の検知及び防御を行う。
また、未知の攻撃の検出技術として、正常なWebサーバへのリクエストに含まれる所定の値から抽出した特徴を用いてプロファイルの学習を行い、当該プロファイルを用いて分析対象のリクエストが攻撃によるものであるか否かを判定する技術が知られている(例えば、特許文献1を参照)。
国際公開第2015/186662号
しかしながら、従来の技術には、攻撃を検知するためのプロファイルの学習が不十分になる場合があるという問題がある。例えば、引用文献1に記載の技術では、サーバが提供するWebアプリケーションにパスやパラメータを追加する変更が行われた場合、変更に追随した学習をすぐに行うことができず、学習が不十分のプロファイルで分析を行うことになる。
本発明の学習方法は、コンピュータによって実行される学習方法であって、サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する生成工程と、前記リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び前記文字クラス列の組み合わせごとの出現頻度をプロファイルとして保存する保存工程と、前記リクエストのうち、分析用のリクエストに含まれる前記識別情報及び前記文字クラス列の組み合わせを前記プロファイルと照合し、異常を検知する検知工程と、前記分析用のリクエストの少なくとも一部を選択する選択工程と、前記選択工程によって選択されたリクエストを基に前記プロファイルを更新する更新工程と、を含むことを特徴とする。
本発明によれば、攻撃を検知するためのプロファイルの学習を十分に行うことができる。
図1は、第1の実施形態に係る学習装置の構成の一例を示す図である。 図2は、第1の実施形態に係る学習処理及び検知処理について説明するための図である。 図3は、第1の実施形態に係る逐次学習処理について説明するための図である。 図4は、第1の実施形態に係る逐次学習処理について説明するための図である。 図5は、第1の実施形態に係るプロファイルの一例を示す図である。 図6は、第1の実施形態に係る文字クラス列を生成する処理について説明するための図である。 図7は、第1の実施形態に係るプロファイルを更新する処理について説明するための図である。 図8は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。 図9は、第2の実施形態に係る学習装置の構成の一例を示す図である。 図10は、第2の実施形態に係る逐次学習処理について説明するための図である。 図11は、実施形態に係る学習プログラムを実行するコンピュータの一例を示す図である。
以下に、本願に係る学習方法、学習装置及び学習プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。
[第1の実施形態の構成]
まず、図1を用いて、第1の実施形態に係る学習装置の構成について説明する。図1は、第1の実施形態に係る学習装置の構成の一例を示す図である。学習装置10は、サーバへのリクエストとの類似度に基づき、当該リクエストが攻撃であるか否かを判定するためのプロファイル14の学習を行う。また、学習装置10は、プロファイル14を用いて攻撃であるリクエストの検知を行う。図1に示すように、学習装置10は、入力部11及び制御部12を有し、検知結果13及びプロファイル14を記憶する。
入力部11は、学習装置10における学習又は分析のためのデータの入力を受け付ける。入力部11は、分析対象データ入力部111及び学習データ入力部112を有する。分析対象データ入力部111は、分析対象データ201の入力を受け付ける。また、学習データ入力部112は、学習データ202の入力を受け付ける。
ここで、分析対象データ201及び学習データ202は、例えば、Webサイトへのアクセスの際に生成されるHTTPリクエストである。また、学習データ202は、攻撃であるか否かがあらかじめ判明しているHTTPリクエストであってもよい。
制御部12は、生成部121、検知部124、保存部125及び選択部128を有する。また、生成部121は、抽出部122及び変換部123を有する。また、制御部12は、分析済みデータ127及び攻撃パターン情報129を有する。
生成部121は、サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する。ここで、サーバへのリクエストは、HTTPリクエストであるものとする。以降、単にリクエストと記載した場合、HTTPリクエストが含まれるものとする。生成部121は、抽出部122及び変換部123の処理によって文字クラス列を生成する。
抽出部122は、入力部11に入力された分析対象データ201及び学習データ202からパラメータを抽出する。具体的には、抽出部122は、各HTTPリクエストから、パス、パラメータのキー及びキーに対応するバリューを抽出する。
例えば、学習データ202に「http://example.com/index.php?id=03&file=Top001.png」というURLが含まれている場合、抽出部122は、パスとして「/index.php」を抽出し、キーとして「id」及び「file」を抽出し、それぞれのキーに対応するバリューとして、「03」及び「Top001.png」を抽出する。
また、変換部123は、抽出部122によって抽出されたバリューを文字クラス列に変換する。例えば、変換部123は、抽出部122によって抽出されたバリューである「03」及び「Top001.png」を文字クラス列に変換する。
変換部123は、例えば、バリューの数字で構成される部分を「numeric」、アルファベットで構成される部分を「alpha」、記号で構成される部分を「symbol」に置き換えることで文字クラス列への変換を行う。変換部123は、例えば、バリュー「03」を文字クラス列「(numeric)」に変換する。また、変換部123は、例えば、バリュー「Top001.png」を文字クラス列「(alpha, numeric, symbol, alpha)」に変換する。
検知部124は、リクエストのうち、分析用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせをプロファイル14と照合し、異常を検知する。また、本実施形態において、所定の識別情報は、抽出部122によって抽出されたパス及びキーの組み合わせである。
具体的には、検知部124は、変換部123等から受け取ったパス、キー及び文字クラス列と、プロファイル14との類似度を計算し、計算した類似度を閾値と比較すること等により攻撃の検知を行う。例えば、検知部124は、ある分析対象データ201のパス、キー及び文字クラス列と、プロファイル14との類似度が閾値以下である場合、当該分析対象データ201を攻撃として検知する。また、検知部124は、検知結果13を出力する。
保存部125は、リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせごとの出現頻度をプロファイル14として保存する。具体的には、保存部125は、変換部123から受け取ったパス、キー及び文字クラス列をプロファイル14として保存する。この時、パス及びキーに対応する文字クラス列が複数ある場合、例えば当該複数の文字クラス列を出現頻度とともにプロファイル14として保存する。
ここで、図2を用いて、学習装置10によって行われる学習処理及び検知処理について説明する。図2は、第1の実施形態に係る学習処理及び検知処理について説明するための図である。
まず、学習データ202には、URL「http://example.com/index.php?file=Img.jpg」、「http://example.com/index.php?file=Test.png」及び「http://example.com/index.php?file=Top001.png」が含まれているとする。また、分析対象データ201には、URL「http://example.com/index.php?file=Test011.jpg」及び「http://example.com/index.php?file=Test_011.jpg' or '1'='1」が含まれているとする。
このとき、抽出部122は、学習データ202から、バリュー「Img.jpg」、「Test.png」及び「Top001.png」を抽出する。また、抽出部122は、分析対象データ201から、バリュー「Test011.jpg」及び「Test_011.jpg' or '1'='1」を抽出する。
次に、図2に示すように、変換部123は、バリュー「Img.jpg」、「Test.png」及び「Top001.png」をそれぞれ、文字クラス列「(alpha, symbol, alpha)」、「(alpha, symbol, alpha)」及び「(alpha, numeric, symbol, alpha)」に変換する。
また、変換部123は、バリュー「Test011.jpg」及び「Test_011.jpg' or '1'='1」を、それぞれ文字クラス列「(alpha, numeric, symbol, alpha)」及び「(alpha, symbol, numeric, symbol, alpha, symbol, space, alpha, space, symbol, numeric, symbol, numeric)」に変換する。
ここで、alphaは英字全体を、numericは数字全体を、symbolは記号全体を、spaceは空白文字を表す文字クラスであるとする。文字クラスの定義はあらかじめ与えられているものとし、ここで例示したalpha、numeric、symbol、space以外の文字クラスが定義されていてもよい。
次に、検知部124は、分析対象データ201からの文字クラス列「(alpha, numeric, symbol, alpha)」及び「(alpha, symbol, numeric, symbol, alpha, symbol, space, alpha, space, symbol, numeric, symbol, numeric)」に対応するパスとキーを組み合わせたデータとプロファイル14との類似度を計算し、攻撃の検知を行う。
また、保存部125は、学習データ202に含まれるURLのパス、キー及び文字クラス列の組み合わせを、それぞれの出現頻度とともにプロファイル14に保存する。例えば、保存部125は、(alpha, symbol, alpha) 出現頻度2、(alpha, numeric, symbol, alpha) 出現頻度1を、対応するパス及びキーとともにプロファイル14に保存する。
ここまで、学習処理及び検知処理について説明した。本実施形態において、プロファイル14は、保存部125によって保存された後、さらに更新部126によって更新される。このとき、更新部126は、検知部124による検知に用いられた分析対象データ201の少なくとも一部を用いてプロファイル14の更新を行う。その際、プロファイル14の更新に用いられる分析対象データ201は、選択部128によって選択される。なお、以降の説明では、更新部126によるプロファイル14の更新を、逐次学習と呼ぶ場合がある。
選択部128は、分析用のリクエストの少なくとも一部を選択する。具体的には、選択部128は、検知部124による検知に用いられた分析対象データ201の全てを選択してもよいし、一部を選択してもよい。また、分析済みデータ127は、検知部124による検知に用いられた分析対象データ201である。また、選択部128は、選択した分析済みデータ127を学習データ入力部112に入力する。
選択部128は、任意の方法を用いて分析対象データ201を選択することができる。ここでは、例として、検知の結果を用いて選択する方法及び攻撃パターンを用いて選択する方法について説明する。
(検知の結果を用いて選択する方法)
まず、図3を用いて、検知の結果を用いて選択する方法について説明する。図3は、第1の実施形態に係る逐次学習処理について説明するための図である。この場合、選択部128は、検知部124による検知の結果を基に、分析用のリクエストのうち異常の度合いが所定値以下であるリクエストを選択する。
ここで、検知部124は、検知の際に、各リクエストの異常度合いを示すスコアを算出するものとする。スコアは、0.0〜1.0の範囲であり、小さいほどリクエストの異常の度合いが大きいことを示すものとする。検知部124は、スコアが0.3以下であったリクエストを、検知結果13に含めるものとする。つまり、検知結果13には、異常の度合いが高いとみなされたリクエストが含まれることになる。
図3の例では、検知部124は、分析済みデータ127のHTTPリクエスト「GET /index.php?id=%27%201%3D1」のスコアを0.0と算出している。ここで、選択部128は、分析済みデータ127と検知結果13とを比較し、一致するものは除外する。つまり、選択部128は、分析済みデータ127のうち、検知結果13に含まれていないものを選択する。
なお、選択部128は、分析済みデータ127のうち、検知結果13のスコアがある閾値未満のものを除外してもよい。こうすることで、より強く攻撃が疑われるデータのみを逐次学習の対象外とすることができる。
(攻撃パターンを用いて選択する方法)
次に、図4を用いて、攻撃パターンを用いて選択する方法について説明する。図4は、第1の実施形態に係る逐次学習処理について説明するための図である。この場合、選択部128は、分析用のリクエストのうち、あらかじめ設定された所定のパターンに合致しないリクエストを選択する。
図4の例では、攻撃パターン情報129があらかじめ設定されているものとする。攻撃パターン情報129には、既知の攻撃の種類ごとの、リクエストに出現する文字列の正規表現が攻撃パターンとして記憶されている。選択部128は、分析済みデータ127のリクエストのうち、攻撃パターン情報129にマッチするものを除外する。つまり、選択部128は、分析済みデータ127のうち、攻撃パターン情報129にマッチしないものを選択する。
なお、攻撃パターン情報129は、Web上の情報や市販WAF(Web Application Firewall)のシグネチャを参考として作成した代表的な攻撃例であってもよいし、検知結果13を基に作成したものであってもよい。
更新部126は、選択部128によって選択されたリクエストを基にプロファイル14を更新する。逐次学習におけるプロファイル14の更新は、プロファイル14の保存と同様に、リクエストから生成した文字クラス列を用いて行われる。
ここで、図5から7を用いて、プロファイルの更新について説明する。図5は、第1の実施形態に係るプロファイルの一例を示す図である。図6は、第1の実施形態に係る文字クラス列を生成する処理について説明するための図である。図7は、第1の実施形態に係るプロファイルを更新する処理について説明するための図である。
まず、図5に示すように、プロファイル14には、パス、キー、文字クラス列及び出現頻度が含まれる。ここで、プロファイル14の各行、すなわちパス、キー、文字クラス列の組み合わせをフィールドと呼ぶこととする。プロファイル14の出現頻度は、学習処理における、各フィールドの出現頻度である。例えば、図2の学習処理では、パスが「/index.php」、キーが「file」、文字クラス列が「(alpha, symbol, alpha)」であるフィールドの出現頻度が増加する。
図6に示すように、生成部121は、選択部128によって選択され、学習データ入力部112に入力された分析済みデータ127のHTTPリクエストをパス、キー、バリューにパースし、バリューから文字クラス列を生成する。
そして、図7に示すように、更新部126は、生成部121によって生成されたパス、キー、文字クラス列の組み合わせと一致するフィールドの出現頻度を、当該組み合わせの個数の分だけ増加させる。また、更新部126は、生成部121によって生成されたパス、キー、文字クラス列の組み合わせと一致するフィールドがプロファイル14に存在しない場合、当該組み合わせを新たなフィールドとしてプロファイル14に追加する。
[第1の実施形態の処理]
図8を用いて、学習装置10の処理の流れについて説明する。図8は、第1の実施形態に係る学習装置の処理の流れを示すフローチャートである。図8に示すように、まず、学習装置10は、分析対象データ201から文字クラス列を生成する(ステップS101)。次に、学習装置10は、生成した文字クラス列を基に、プロファイル14を用いて異常の検知を行う(ステップS102)。
その後、学習装置10は、検知に用いた分析済みデータ127の少なくとも一部を、分析選択する(ステップS103)。そして、学習装置10は、選択した分析済みデータ127を用いてプロファイル14を更新する(ステップS104)。
[第1の実施形態の効果]
学習装置10は、サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する。また、学習装置10は、リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせごとの出現頻度をプロファイル14として保存する。また、学習装置10は、リクエストのうち、分析用のリクエストに含まれる所定の識別情報及び文字クラス列の組み合わせをプロファイル14と照合し、異常を検知する。また、学習装置10は、分析用のリクエストの少なくとも一部を選択する。また、学習装置10は、選択されたリクエストを基にプロファイル14を更新する。
このように、分析したデータを使ってプロファイルを更新することで、分析対象サービスの仕様変更等によるパスやパラメータの変更に追随することができる。また、初期学習が不十分であっても、繰り返しプロファイルを更新していくことができるため、運用していく中で分析精度が向上する。このため、本実施形態によれば、攻撃を検知するためのプロファイルの学習を十分に行うことができる。
学習装置10は、検知の結果を基に、分析用のリクエストのうち異常の度合いが所定値以下であるリクエストを選択することができる。これにより、異常であることが疑われる分析データを逐次学習の対象から除外できるので、異常なデータを正常なものとして学習することを防止できる。
選択部128は、分析用のリクエストのうち、あらかじめ設定された所定のパターンに合致しないリクエストを選択することができる。これにより、異常であることが既知の分析データを逐次学習の対象から除外できるので、異常なデータを正常なものとして学習することを防止できる。
[第2の実施形態]
第1の実施形態では、分析済みデータ127のパラメータが学習済みであるか否かにかかわらず、学習装置10は、所定のルールに基づいて分析済みデータ127の中から逐次学習の対象となるデータを選択していた。一方で、第2の実施形態では、学習装置10は、未学習のパラメータを有する分析済みデータ127を逐次学習の対象として選択する。
図9は、第2の実施形態に係る学習装置の構成の一例を示す図である。図9に示すように、第2の実施形態において、学習装置10は、未学習パラメータ情報130を有する。なお、第2の実施形態では、第1の実施形態と同様の構成については同一の符号を付して、説明を省略する。
未学習パラメータ情報130は、プロファイル14に含まれていない識別情報であって、例えば検知部124において変換後の分析対象データとプロファイルを比較する際に生成される。ここで、識別情報とは、リクエストのパス及びキーの組み合わせである。この場合、検知部124は、検知を行う際に、分析対象のリクエストのパス及びキーの組み合わせのうち、プロファイル14に含まれていない組み合わせを、未学習パラメータ情報130に追加していくことができる。このため、選択部128は、分析用のリクエストのうち、識別情報がプロファイル14に含まれていないリクエストを選択することになる。これにより、効率的にプロファイル14の更新を行うことができる。
選択部128は、分析済みデータ127のうち、識別情報が未学習パラメータ情報130にマッチするものを選択する。図10は、第2の実施形態に係る逐次学習処理について説明するための図である。図10の例において、HTTPリクエスト「GET /newpath?key1=data1」の識別情報は、「/newpath」及び「key1」である。ここで、「/newpath」及び「key1」の組み合わせは、未学習パラメータ情報130に存在するので、選択部128は、HTTPリクエスト「GET /newpath?key1=data1」を逐次学習の対象として選択する。
なお、選択部128は、未学習パラメータ情報130に識別情報がマッチするデータをすぐに選択してもよいし、ある一定期間にわたってマッチした回数がある閾値以上となった未学習パラメータ情報130を選択の際に参照するようにしてもよい。これにより、例えば、ユーザの入力誤り等で一時的に発生した未学習パラメータを無視することができる。
[その他の実施形態]
なお、実施形態では、プロファイル14を表形式で表しているが、プロファイル14のデータの記憶形式としては表形式の他、JSON(JavaScript(登録商標) Object Notation)形式やMySQL、PostgreSQL等のデータベースを用いて記憶してもよい。また、分析対象データ201、学習データ202、分析済みデータ127は、いずれもHTTPリクエストを複数含むデータであり、例えばWebサーバのアクセスログやアクセスログをパース又は変換したJSON形式のデータであってもよい。
また、説明した選択部128による逐次学習対象のデータの選択方法は、単独で用いられてもよいし、適宜組み合わせて用いられてもよい。例えば、選択部128は、異常の度合いが所定値以下、かつ、攻撃パターン情報129にマッチしないリクエストを選択することができる。また、例えば、選択部128は、攻撃パターン情報129にマッチせず、かつ、未学習パラメータ情報130にマッチするリクエストを選択することができる。
[プログラム]
一実施形態として、学習装置10は、パッケージソフトウェアやオンラインソフトウェアとして上記の学習を実行する学習プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の学習プログラムを情報処理装置に実行させることにより、情報処理装置を学習装置10として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やPHS(Personal Handyphone System)等の移動体通信端末、さらには、PDA(Personal Digital Assistant)等のスレート端末等がその範疇に含まれる。
また、学習装置10は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の学習に関するサービスを提供する学習サーバ装置として実装することもできる。例えば、学習サーバ装置は、更新前のプロファイル及び分析対象のHTTPリクエストを入力とし、更新済みのプロファイルを出力とする学習サービスを提供するサーバ装置として実装される。この場合、学習サーバ装置は、Webサーバとして実装することとしてもよいし、アウトソーシングによって上記の学習に関するサービスを提供するクラウドとして実装することとしてもかまわない。
図11は、実施形態に係る学習プログラムを実行するコンピュータの一例を示す図である。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
メモリ1010は、ROM(Read Only Memory)1011及びRAM(Random Access Memory)1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、学習装置10の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、学習装置10における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSDにより代替されてもよい。
また、上述した実施形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN(Local Area Network)、WAN(Wide Area Network)等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
10 学習装置
11 入力部
12 制御部
13 検知結果
14 プロファイル
111 分析対象データ入力部
112 学習データ入力部
121 生成部
122 抽出部
123 変換部
124 検知部
125 保存部
126 更新部
127 分析済みデータ
128 選択部
129 攻撃パターン情報
130 未学習パラメータ情報
201 分析対象データ
202 学習データ

Claims (6)

  1. コンピュータによって実行される学習方法であって、
    サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する生成工程と、
    前記リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び前記文字クラス列の組み合わせごとの出現頻度をプロファイルとして保存する保存工程と、
    前記リクエストのうち、分析用のリクエストに含まれる前記識別情報及び前記文字クラス列の組み合わせを前記プロファイルと照合し、異常を検知する検知工程と、
    前記分析用のリクエストの少なくとも一部を選択する選択工程と、
    前記選択工程によって選択されたリクエストを基に前記プロファイルを更新する更新工程と、
    を含むことを特徴とする学習方法。
  2. 前記選択工程は、前記検知工程による検知の結果を基に、前記分析用のリクエストのうち異常の度合いが所定値以下であるリクエストを選択することを特徴とする請求項1に記載の学習方法。
  3. 前記選択工程は、前記分析用のリクエストのうち、あらかじめ設定された所定のパターンに合致しないリクエストを選択することを特徴とする請求項1に記載の学習方法。
  4. 前記選択工程は、前記分析用のリクエストのうち、前記識別情報が前記プロファイルに含まれていないリクエストを選択することを特徴とする請求項1に記載の学習方法。
  5. サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する生成部と、
    前記リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び前記文字クラス列の組み合わせごとの出現頻度をプロファイルとして保存する保存部と、
    前記リクエストのうち、分析用のリクエストに含まれる前記識別情報及び前記文字クラス列の組み合わせを前記プロファイルと照合し、異常を検知する検知部と、
    前記分析用のリクエストの少なくとも一部を選択する選択部と、
    前記選択部によって選択されたリクエストを基に前記プロファイルを更新する更新部と、
    を有することを特徴とする学習装置。
  6. コンピュータに、
    サーバへのリクエストに含まれる所定の文字列の構造を抽象化した文字クラス列を生成する生成ステップと、
    前記リクエストのうち、学習用のリクエストに含まれる所定の識別情報及び前記文字クラス列の組み合わせごとの出現頻度をプロファイルとして保存する保存ステップと、
    前記リクエストのうち、分析用のリクエストに含まれる前記識別情報及び前記文字クラス列の組み合わせを前記プロファイルと照合し、異常を検知する検知ステップと、
    前記分析用のリクエストの少なくとも一部を選択する選択ステップと、
    前記選択ステップによって選択されたリクエストを基に前記プロファイルを更新する更新ステップと、
    を実行させることを特徴とする学習プログラム。
JP2020521115A 2018-05-21 2019-04-19 学習方法、学習装置及び学習プログラム Active JP6935849B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018097452 2018-05-21
JP2018097452 2018-05-21
PCT/JP2019/016903 WO2019225251A1 (ja) 2018-05-21 2019-04-19 学習方法、学習装置及び学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2019225251A1 true JPWO2019225251A1 (ja) 2020-12-10
JP6935849B2 JP6935849B2 (ja) 2021-09-15

Family

ID=68616718

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020521115A Active JP6935849B2 (ja) 2018-05-21 2019-04-19 学習方法、学習装置及び学習プログラム

Country Status (3)

Country Link
US (1) US20210209504A1 (ja)
JP (1) JP6935849B2 (ja)
WO (1) WO2019225251A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112801237B (zh) * 2021-04-15 2021-07-23 北京远鉴信息技术有限公司 暴恐内容识别模型的训练方法、训练装置及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015114804A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 不正アクセスの検知方法および検知システム
WO2015186662A1 (ja) * 2014-06-06 2015-12-10 日本電信電話株式会社 ログ分析装置、攻撃検知装置、攻撃検知方法およびプログラム
JP2016066282A (ja) * 2014-09-25 2016-04-28 株式会社日立製作所 ウイルス検知システム及び方法
WO2017145591A1 (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 分析装置、分析方法および分析プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030051026A1 (en) * 2001-01-19 2003-03-13 Carter Ernst B. Network surveillance and security system
US20150120914A1 (en) * 2012-06-13 2015-04-30 Hitachi, Ltd. Service monitoring system and service monitoring method
WO2016168368A1 (en) * 2015-04-13 2016-10-20 Secful, Inc. System and method for identifying and preventing malicious api attacks
JP6697123B2 (ja) * 2017-03-03 2020-05-20 日本電信電話株式会社 プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015114804A1 (ja) * 2014-01-31 2015-08-06 株式会社日立製作所 不正アクセスの検知方法および検知システム
WO2015186662A1 (ja) * 2014-06-06 2015-12-10 日本電信電話株式会社 ログ分析装置、攻撃検知装置、攻撃検知方法およびプログラム
JP2016066282A (ja) * 2014-09-25 2016-04-28 株式会社日立製作所 ウイルス検知システム及び方法
WO2017145591A1 (ja) * 2016-02-26 2017-08-31 日本電信電話株式会社 分析装置、分析方法および分析プログラム

Also Published As

Publication number Publication date
WO2019225251A1 (ja) 2019-11-28
US20210209504A1 (en) 2021-07-08
JP6935849B2 (ja) 2021-09-15

Similar Documents

Publication Publication Date Title
RU2758041C2 (ru) Постоянное обучение для обнаружения вторжения
US10243982B2 (en) Log analyzing device, attack detecting device, attack detection method, and program
JP6697123B2 (ja) プロファイル生成装置、攻撃検知装置、プロファイル生成方法、および、プロファイル生成プログラム
JPWO2019013266A1 (ja) 判定装置、判定方法、および、判定プログラム
JP6563350B2 (ja) データ分類装置、データ分類方法、及びプログラム
JP6935849B2 (ja) 学習方法、学習装置及び学習プログラム
US9886498B2 (en) Title standardization
JP6954466B2 (ja) 生成方法、生成装置および生成プログラム
Prasetio et al. Cross-site Scripting Attack Detection Using Machine Learning with Hybrid Features
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN110197066B (zh) 一种云计算环境下的虚拟机监控方法及监控系统
JP6933302B2 (ja) 学習方法、学習装置及び学習プログラム
EP3799367B1 (en) Generation device, generation method, and generation program
JP7175148B2 (ja) 判定装置及び判定方法
US11233809B2 (en) Learning device, relearning necessity determination method, and relearning necessity determination program
JP5394512B2 (ja) 教師データ生成装置、方法及びプログラム
JPWO2020075330A1 (ja) 検知装置および検知プログラム
WO2021144852A1 (ja) データ分類装置、データ分類方法、及びプログラム
US20240073225A1 (en) Malicious website detection using certificate classifier
CN114330331B (zh) 一种链接中分词重要度确定方法和装置
US20240028716A1 (en) Method and apparatus for creating a malware detection dataset
US20240134977A1 (en) Method and apparatus for creating a dataset using file creation dates
NZ754552B2 (en) Continuous learning for intrusion detection
CN114090296A (zh) 一种基于ssh协议的远程命令执行方法及装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200601

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210727

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210809

R150 Certificate of patent or registration of utility model

Ref document number: 6935849

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150