WO2022219786A1 - ラベル付与装置、ラベル付与方法及びプログラム - Google Patents

ラベル付与装置、ラベル付与方法及びプログラム Download PDF

Info

Publication number
WO2022219786A1
WO2022219786A1 PCT/JP2021/015631 JP2021015631W WO2022219786A1 WO 2022219786 A1 WO2022219786 A1 WO 2022219786A1 JP 2021015631 W JP2021015631 W JP 2021015631W WO 2022219786 A1 WO2022219786 A1 WO 2022219786A1
Authority
WO
WIPO (PCT)
Prior art keywords
monitoring data
label
model
data
labeling
Prior art date
Application number
PCT/JP2021/015631
Other languages
English (en)
French (fr)
Inventor
勝 真田
英俊 川口
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to JP2023514283A priority Critical patent/JP7544259B2/ja
Priority to PCT/JP2021/015631 priority patent/WO2022219786A1/ja
Publication of WO2022219786A1 publication Critical patent/WO2022219786A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures

Definitions

  • the present invention relates to a labeling device, a labeling method, and a program.
  • a communication security monitoring device such as an IDS (Intrusion Detection System) or an IPS (Intrusion Prevention System) is installed in a communication channel, monitors communication data, discovers malicious communication data (threat data), and deals with it (storage/ (notification/blocking, etc.) (Fig. 1).
  • IDS Intrusion Detection System
  • IPS Intrusion Prevention System
  • a list of threat data (monitoring data) to be discovered is set in the IDS/IPS, and the threat data is discovered by comparing the communication data and the monitoring data.
  • a countermeasure (save/notify/block, etc.) is set, and the IDS/IPS takes action according to the setting.
  • IDS/IPS monitoring data is provided by the security vendor that provides the IDS/IPS.
  • Monitoring data of security vendors (hereinafter referred to as "general-purpose monitoring data") is exhaustive and huge in number in order to require versatility.
  • the telecommunications carrier selects only the necessary monitoring data (hereinafter referred to as "individual monitoring data") according to the conditions of its own communication system, and sets the coping method for its own communication system.
  • the present invention has been made in view of the above points, and an object of the present invention is to reduce the load of setting work for coping methods for monitoring data.
  • the labeling device includes a first division unit that divides a plurality of first monitoring data, each of which indicates a characteristic of specific communication data, into a plurality of groups based on each characteristic. , a selection unit that selects part of the monitoring data from each of the groups, the monitoring data selected by the selection unit, and a countermeasure method for the specific communication data that is input for the monitoring data. a learning unit that learns a model that inputs the monitoring data and outputs the label corresponding to the monitoring data, based on the label.
  • FIG. 4 is a diagram for explaining operation using a trained labeling model 13a and re-learning of the trained labeling model 13a; 4 is a diagram for explaining a learning procedure of the labeling model 13; FIG.
  • FIG. 2 is a diagram showing a hardware configuration example of the labeling device 10 according to the embodiment of the present invention.
  • the labeling device 10 of FIG. 2 has a drive device 100, an auxiliary storage device 102, a memory device 103, a processor 104, an interface device 105, etc., which are interconnected by a bus B, respectively.
  • a program that implements the processing in the labeling device 10 is provided by a recording medium 101 such as a CD-ROM.
  • a recording medium 101 such as a CD-ROM.
  • the program is installed from the recording medium 101 to the auxiliary storage device 102 via the drive device 100 .
  • the program does not necessarily need to be installed from the recording medium 101, and may be downloaded from another computer via the network.
  • the auxiliary storage device 102 stores installed programs, as well as necessary files and data.
  • the memory device 103 reads and stores the program from the auxiliary storage device 102 when a program activation instruction is received.
  • the processor 104 is a CPU or a GPU (Graphics Processing Unit), or a CPU and a GPU, and executes functions related to the labeling device 10 according to programs stored in the memory device 103 .
  • the interface device 105 is used as an interface for connecting to a network.
  • FIG. 3 is a diagram showing a functional configuration example of the labeling device 10 according to the embodiment of the present invention.
  • the labeling device 10 includes a learning section 11, a setting section 12, a labeling model 13 and a grouping section . These units are implemented by processing that one or more programs installed in the labeling apparatus 10 cause the processor 104 to execute.
  • the labeling model 13 receives as input a set of monitoring data (hereinafter referred to as "general-purpose monitoring data") provided by a security vendor (hereinafter referred to as “general-purpose monitoring data group”), and classifies the monitoring data as , and the correct/incorrect judgment result for the classification result.
  • the classification results are output in the form of labels.
  • a label is information indicating whether general-purpose monitoring data to which the label is attached is necessary and how to deal with it.
  • the label assignment model 13 assigns a label as a classification result to the input general-purpose monitoring data.
  • the learning unit 11 causes the labeling model 13 to learn the correspondence relationship between each general-purpose monitoring data included in the general-purpose monitoring data group and the labels for the general-purpose monitoring data.
  • initial learning and re-learning are performed as the learning of the labeling model 13 .
  • labels are manually assigned by the user to the general-purpose monitoring data used as learning training data.
  • the grouping unit 14 divides (classifies) a plurality of general-purpose monitoring data into a plurality of groups based on their characteristics.
  • the grouping unit 14 also selects general-purpose monitoring data to be labeled by the user (that is, general-purpose monitoring data used as learning training data) from each group .
  • the setting unit 12 determines whether or not the monitoring data is necessary based on the label indicated by the classification result of the monitoring data, and sets the necessary monitoring data in the communication security monitoring device 20 .
  • the communication security monitoring device 20 is, for example, an IDS (Intrusion Detection System) or an IPS (Intrusion Prevention System). That is, the communication security monitoring device 20 monitors communication data based on set monitoring data, detects (discovers) specific communication data corresponding to the monitoring data, A process is executed according to the coping method indicated by the label assigned to the monitoring data.
  • FIG. 4 is a diagram showing a functional configuration example of the labeling model 13.
  • the labeling model 13 includes three models: a classification estimator 131 , a classification estimation process observer 132 and an error determiner 133 . Each of these units may be the same as the functional unit with the same name described in Patent Document 2.
  • FIG. 4 is a diagram showing a functional configuration example of the labeling model 13.
  • the labeling model 13 includes three models: a classification estimator 131 , a classification estimation process observer 132 and an error determiner 133 . Each of these units may be the same as the functional unit with the same name described in Patent Document 2.
  • FIG. 1 is a diagram showing a functional configuration example of the labeling model 13.
  • the labeling model 13 includes three models: a classification estimator 131 , a classification estimation process observer 132 and an error determiner 133 . Each of these units may be the same as the functional unit with the same name described in Patent Document 2.
  • FIG. 4 is a diagram showing a functional configuration example of
  • the classification estimation unit 131 estimates the label of the input general-purpose monitoring data and outputs the label as the classification result.
  • the classification estimator 131 can be implemented using artificial intelligence-related technology such as SVM, neural network, Bayesian network, and decision tree, for example.
  • the classification estimation process observation unit 132 observes the calculation process (estimation process) when the classification estimation unit 131 estimates the label of the general-purpose monitoring data, acquires data in the estimation process, and converts the data into a feature vector. and outputs the feature vector to error determination section 133 .
  • the classification estimation process observation unit 132 uses values output from each node (activation function) of each intermediate layer and output layer of the neural network as features. May be output as a vector. For example, if the values of each node in the hidden layer are 0.5, 0.4, 0.7 and the values of each node in the output layer are 0.2, 0.7, 0.1, the feature vector is It can be configured as [0.5 0.4 0.7 0.2 0.7 0.1].
  • the classification estimation process observing unit 132 observes the route leading to the classification decision and constructs a feature vector. For example, when a certain label is estimated from the route node 1->node 3->node 6, the classification estimation process observation unit 132 assigns [1 0 1 0 0 1 0 0 0] indicating the route to the feature vector can be output as In this example, the subscript of the vector element corresponds to the node number of the decision tree. to construct the feature vector.
  • the error determination unit 133 receives the feature vector from the classification estimation process observation unit 132 and determines whether the label estimated by the classification estimation unit 131 is "correct” or "wrong” based on the feature vector.
  • the configuration method of the error determination unit 133 is not limited to a specific method.
  • the error determination unit 133 determines whether a specific value of the feature vector (especially the value of the output layer of the neural network or the number of votes of the random forest) exceeds the threshold, and the classification estimation unit 131 estimates It can be determined whether the label is "correct” or "wrong".
  • the error determination unit 133 may be configured with a model that is often used in the field of machine learning.
  • the error determination unit 133 can be configured with an SVM, neural network, or the like. When these models are used, the error determination unit 133 can be implemented by performing model parameter tuning by supervised learning.
  • FIG. 5 is a diagram for explaining the initial learning of the labeling model 13.
  • the grouping unit 14 collects a set of a plurality of general-purpose monitoring data (hereinafter referred to as "general-purpose monitoring data group X") provided by the security vendor during a predetermined period up to the time of initial learning. It divides (classifies) into a plurality of groups based on the characteristics, and selects a part of general-purpose monitoring data from each group (S101).
  • a set of general-purpose monitoring data selected from each group is hereinafter referred to as a "representative data group X'".
  • FIG. 6 is a diagram showing a configuration example of general-purpose monitoring data.
  • One line in FIG. 6 shows general monitoring data.
  • Generic monitoring data is data that characterizes specific (eg, malicious) communication data (threat data), including, for example, protocol, source address, source port, destination address, destination port, and communication content data. It can be said that the values of these items are data indicating the characteristics of the general-purpose monitoring data. Therefore, the grouping unit 14 classifies the general monitoring data group X into a plurality of groups based on the values of these items, and selects representative data from each group. Note that FIG. 6 shows that reference information is added to each general-purpose monitoring data.
  • Reference information is not used for automatic detection of threat data or division of general monitoring data into groups, but it is used by carriers to select general monitoring data necessary for themselves and how to deal with such general monitoring data. This information is used as a reference when making decisions. Reference information includes, for example, information on reports of cyberattacks (what kind of malicious acts were carried out by this threat data, etc.), information on malfunctions inside the company (what kind of damage occurred, etc.), etc. . In this embodiment, the reference information is used as reference information for labeling general-purpose monitoring data, which will be described later.
  • Grouping by the grouping unit 14 may be performed using unsupervised machine learning. For example, grouping may be performed by clustering. Also, the number of representative data selected from each group (cluster) may be a fixed number such as one, or may be a predetermined ratio to the number of general-purpose monitoring data in each group. In the latter case, relatively more representative data are selected from groups to which relatively more general-purpose monitoring data groups belong. Further, which general-purpose monitoring data is selected as representative data may be determined randomly or based on a predetermined rule. As an example of a predetermined rule, in the sorting order of general-purpose monitoring data in each group, representative data is selected at regular intervals, or when each group is equally divided, first general-purpose monitoring data is selected as representative data. etc.
  • the learning unit 11 accepts an input of a label from the user for each representative data (general-purpose monitoring data) included in the representative data group X′, and converts the labeled representative data group X′ to which the input label is assigned. It is generated as learning training data (S102).
  • the label values are "unnecessary”, “save”, “notify”, or "block”.
  • the telecommunications carrier selects whether or not each general-purpose monitoring data included in the representative data group X′ is necessary, assigns “unnecessary” to unnecessary representative data, and For the representative data, it is determined what to do when communication data corresponding to the representative data is found.
  • the learning unit 11 may output reference information of each general-purpose monitoring data classified into the group to which each representative data belongs to the user for each group. Output may be realized, for example, by display on a display device. By doing so, the user can overview and refer to the reference information of similar general-purpose monitoring data for each group, and can easily assign a label of an appropriate coping method corresponding to the system condition.
  • the representative data group X' is the result of extracting a part of the general-purpose monitoring data group X, it is possible to reduce the user's work load of labeling.
  • the learning unit 11 learns the labeled model 13 using the labeled representative data group X' as learning training data (S103). As a result, a trained labeling model 13a is generated.
  • FIG. 7 is a diagram for explaining operation using the trained labeling model 13a and re-learning of the trained labeling model 13a. Re-learning is performed in parallel with operation using the trained labeling model 13a.
  • FIG. 7 shows operation and learned labeling when a new set of multiple general-purpose monitoring data (hereinafter referred to as “general-purpose monitoring data group Y”) is provided by a security vendor after generation of the trained labeling model 13a.
  • the general-purpose monitoring data group Y may include the general-purpose monitoring data group X or may contain only new data.
  • each general-purpose monitoring data included in the general-purpose monitoring data group Y is input to the trained labeling model 13a (S201).
  • the trained labeling model 13a outputs, for each general-purpose monitoring data, a label for the general-purpose monitoring data and a correct/wrong determination result for the label.
  • the result of correctness/incorrectness determination is "correct” or "wrong”.
  • the general-purpose monitoring data group related to the label whose correctness judgment result is “correct” will be referred to as “certain labeled general-purpose monitoring data group Y (automatic)”, and the label related to the label whose judgment result is “wrong”.
  • the general-purpose monitoring data group is referred to as "uncertain labeled general-purpose monitoring data group Y".
  • the grouping unit 14 divides (classifies) the uncertain labeled general-purpose monitoring data group Y into a plurality of groups (clusters) based on the characteristics of the respective general-purpose monitoring data. (S202).
  • the learning unit 11 accepts input of a correct label from the user for each labeled general-purpose monitoring data included in the uncertain labeled general-purpose monitoring data group Y, and assigns a label based on the label input by the user.
  • the label is corrected (replaced) (S203).
  • the uncertain labeled general-purpose monitoring data group Y becomes the certain labeled general-purpose monitoring data group Y (manual). That is, since the label is manually corrected by the user, the labeled general-purpose monitoring data with the correct label is generated.
  • the learning unit 11 may output reference information of each general-purpose monitoring data belonging to each group of the uncertain labeled general-purpose monitoring data group Y, for each group. By doing so, the user can overview and refer to the reference information of similar general-purpose monitoring data for each group, and can easily assign a label of an appropriate coping method corresponding to the system condition.
  • the setting unit 12 selects general-purpose monitoring data with a label other than “unnecessary” (hereinafter referred to as “label labeled individual monitoring data”), and each labeled individual monitoring data is set in the communication security monitoring device 20 (S204).
  • the learning unit 11 also re-learns the labeling model 13 using the reliable labeled general-purpose monitoring data group Y (automatic) and the reliable labeled general-purpose monitoring data group Y (manual) as learning training data (S205). As a result, a relearned labeling model 13b is generated. At this time, if the general-purpose monitoring data group Y does not include the general-purpose monitoring data group X, the labeled representative data group X' may be added to the learning training data.
  • the trained labeled model 13a can be re-learned using the reliable labeled general-purpose monitoring data group Y based thereon as learning training data.
  • the greater the number of learning training data the higher the learning effect and the higher the probability of obtaining correct results. Even if the general-purpose monitoring data group Y is only new data, new learning training data can be obtained. It can be expected that the performance of the labeling model 13 will be improved by re-learning with new learning training data.
  • the relearned labeling model 13b is operated by the same procedure as in FIG. learning takes place.
  • FIG. 8 is a diagram for explaining the learning procedure of the labeling model 13.
  • the (labeled) general-purpose monitoring data group Z in FIG. 8 is the (labeled) representative data group X′ in the case of FIG. 5, and in the case of FIG. Y (automatic or manual).
  • the learning unit 11 uses the labeled general-purpose monitoring data group Z to cause the classification estimation unit 131 to learn the correspondence relationship between the general-purpose monitoring data and the labels (S301).
  • the learning unit 11 inputs the general-purpose monitoring data group Z to the learned classification estimation unit 131 (S302).
  • the classification estimation unit 131 outputs a list of labels (hereinafter referred to as "estimated label list") estimated for each general-purpose monitoring data included in the general-purpose monitoring data group Z (S303).
  • the classification estimation process observation unit 132 acquires data of the label estimation process for each general-purpose monitoring data (S304), and outputs a feature vector for each data (S305).
  • the learning unit 11 creates a list of correct labels assigned to each labeled general-purpose monitoring data included in the labeled general-purpose monitoring data group Z (hereinafter referred to as a “correct label list”) and an estimated label list. are compared for each element of the list (that is, for each label corresponding to the same general-purpose monitoring data), and a list indicating correctness/incorrectness of each label included in the estimated label list (hereinafter referred to as "correction list”) is generated. (S306).
  • the correct/incorrect list is a list of 1's or 0's, such as "1011". A 0 indicates a correct label and a 1 indicates an incorrect label.
  • the learning unit 11 causes the error determination unit 133 to learn the correspondence relationship between the feature vector list and the correct/incorrect list (S307). As a result, the error determination unit 133 becomes learned. Note that the learning of the error determination unit 133 is detailed in Patent Document 2 as well.
  • the grouping unit 14 can narrow down the general-purpose monitoring data to which the user manually assigns labels. As a result, it is possible to reduce the load of the work of setting the coping method for the monitoring data.
  • the labeling model 13 may also allow automatic labeling of generic surveillance data. Furthermore, by re-learning the labeling model 13, the classification accuracy can be improved.
  • the grouping unit 14 is an example of the first dividing unit, the second dividing unit, and the selecting unit.
  • the learning unit 11 is also an example of a relearning unit.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

ラベル付与装置は、それぞれが特定の通信データの特徴を示す第1の複数の監視データを、それぞれの特徴に基づいて複数のグループに分割する第1の分割部と、それぞれの前記グループから一部の前記監視データを選択する選択部と、前記選択部が選択した前記監視データと、当該監視データに対して入力された、前記特定の通信データに対する対処方法を示すラベルとに基づいて、前記監視データを入力とし、当該監視データに対応する前記ラベルを出力するモデルを学習する学習部と、を有することで、監視データに対する対処方法の設定作業の負荷を軽減する。

Description

ラベル付与装置、ラベル付与方法及びプログラム
 本発明は、ラベル付与装置、ラベル付与方法及びプログラムに関する。
 IDS(Intrusion Detection System)又はIPS(Intrusion Prevention System)等の通信セキュリティ監視装置は、通信路中に設けられ、通信データを監視し、悪意のある通信データ(脅威データ)を発見し対処(保存/通知/遮断等)する装置である(図1)。
 IDS/IPSには、発見すべき脅威データ(監視データ)のリストが設定され、通信データと監視データとを比較することにより、脅威データを発見する。監視データには発見時の対処方法(保存する/通知する/遮断する、など)が設定されており、IDS/IPSはその設定に従って対処する。
 IDS/IPSの監視データは、IDS/IPSを提供するセキュリティベンダから提供される。セキュリティベンダの監視データ(以下、「汎用監視データ」という。)は、汎用性を求めるため、網羅的であり膨大な数になる。
 IDS/IPSを適用し運用する通信事業者がセキュリティベンダの汎用監視データをそのまま利用すると、通信データを膨大な数の汎用監視データと比較することになるため、通信の遅延などの通信性能劣化を引き起こすことになる。
 そのため、通信事業者は、自通信システムの条件に応じて、必要な監視データ(以下、「個別監視データ」という。)のみを選別し、対処方法も自通信システム用に設定する。
特開2019-174988 特開2020-024513 特開2020-160642
 IDS/IPSを適用し運用する通信事業者にとって、セキュリティベンダの膨大な汎用監視データから個別監視データを選別し、個別の対処方法を設定するには大きな稼働を要する。
 本発明は、上記の点に鑑みてなされたものであって、監視データに対する対処方法の設定作業の負荷を軽減することを目的とする。
 そこで上記課題を解決するため、ラベル付与装置は、それぞれが特定の通信データの特徴を示す第1の複数の監視データを、それぞれの特徴に基づいて複数のグループに分割する第1の分割部と、それぞれの前記グループから一部の前記監視データを選択する選択部と、前記選択部が選択した前記監視データと、当該監視データに対して入力された、前記特定の通信データに対する対処方法を示すラベルとに基づいて、前記監視データを入力とし、当該監視データに対応する前記ラベルを出力するモデルを学習する学習部と、を有する。
 監視データに対する対処方法の設定作業の負荷を軽減することができる。
IDS/IPSを説明するための図である。 本発明の実施の形態におけるラベル付与装置10のハードウェア構成例を示す図である。 本発明の実施の形態におけるラベル付与装置10の機能構成例を示す図である。 ラベル付与モデル13の機能構成例を示す図である。 ラベル付与モデル13の初期学習を説明するための図である。 汎用監視データの構成例を示す図である。 学習済みラベル付与モデル13aを用いた運用及び学習済みラベル付与モデル13aの再学習を説明するための図である。 ラベル付与モデル13の学習手順を説明するための図である。
 以下、図面に基づいて本発明の実施の形態を説明する。図2は、本発明の実施の形態におけるラベル付与装置10のハードウェア構成例を示す図である。図2のラベル付与装置10は、それぞれバスBで相互に接続されているドライブ装置100、補助記憶装置102、メモリ装置103、プロセッサ104、及びインタフェース装置105等を有する。
 ラベル付与装置10での処理を実現するプログラムは、CD-ROM等の記録媒体101によって提供される。プログラムを記憶した記録媒体101がドライブ装置100にセットされると、プログラムが記録媒体101からドライブ装置100を介して補助記憶装置102にインストールされる。但し、プログラムのインストールは必ずしも記録媒体101より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置102は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。
 メモリ装置103は、プログラムの起動指示があった場合に、補助記憶装置102からプログラムを読み出して格納する。プロセッサ104は、CPU若しくはGPU(Graphics Processing Unit)、又はCPU及びGPUであり、メモリ装置103に格納されたプログラムに従ってラベル付与装置10に係る機能を実行する。インタフェース装置105は、ネットワークに接続するためのインタフェースとして用いられる。
 図3は、本発明の実施の形態におけるラベル付与装置10の機能構成例を示す図である。図3において、ラベル付与装置10は、学習部11、設定部12、ラベル付与モデル13及びグルーピング部14を含む。これら各部は、ラベル付与装置10にインストールされた1以上のプログラムが、プロセッサ104に実行させる処理により実現される。
 ラベル付与モデル13は、セキュリティベンダから提供される監視データ(以下、「汎用監視データ」という。)の集合(以下、「汎用監視データ群」という。)を入力とし、当該監視データの分類結果と、当該分類結果に対する正誤の判定結果とを出力するモデルである。当該分類結果は、ラベルの形式で出力される。ラベルとは、当該ラベルが付与された汎用監視データの要否及び対処方法を示す情報である。ラベル付与モデル13は、入力された汎用監視データに対して、分類結果としてのラベルを付与する。
 学習部11は、汎用監視データ群に含まれる各汎用監視データと、当該汎用監視データに対するラベルとの対応関係をラベル付与モデル13に学習させる。本実施の形態において、ラベル付与モデル13の学習として、初期学習と再学習とが行われる。初期学習において、学習訓練データとして利用される汎用監視データに対するラベルは、ユーザによる手作業により付与される。
 グルーピング部14は、複数の汎用監視データをそれぞれの特徴に基づいて複数のグループに分割(分類)する。グルーピング部14は、また、各グループから、ユーザにラベルを付与させる汎用監視データ(すなわち、学習訓練データとして利用する汎用監視データ)を選択する
 設定部12は、監視データに対する分類結果が示すラベルに基づいて、当該監視データの要否を判定し、必要な監視データを通信セキュリティ監視装置20に設定する。なお、通信セキュリティ監視装置20は、例えば、IDS(Intrusion Detection System)又はIPS(Intrusion Prevention System)等である。すなわち、通信セキュリティ監視装置20は、設定された監視データに基づき通信データを監視し、当該監視データに該当する特定の通信データを検知(発見)するとともに、当該特定の通信データに対して、当該監視データに付与されたラベルが示す対処方法に応じた処理を実行する。
 図4は、ラベル付与モデル13の機能構成例を示す図である。図4が示すように、ラベル付与モデル13は、分類推定部131、分類推定過程観測部132及び誤り判定部133の3つのモデルを含む。これら各部は、特許文献2に記載された同名の機能部と同様でよい。
 具体的には、分類推定部131は、入力された汎用監視データのラベルを推定し、当該ラベルを分類結果として出力する。分類推定部131は、例えば、SVM、ニューラルネットワーク、ベイジアンネットワーク、決定木などの人工知能関連の技術を用いて実現できる。
 分類推定過程観測部132は、分類推定部131が汎用監視データのラベルを推定する際の計算過程(推定過程)を観測して、当該推定過程のデータを取得し、当該データを特徴ベクトルへ変換し、当該特徴ベクトルを誤り判定部133へ出力する。
 例えば、分類推定部131がニューラルネットワークを用いてラベルを推定する場合、分類推定過程観測部132は、ニューラルネットワークの各中間層と出力層の各ノード(活性化関数)から出力される値を特徴ベクトルとして出力してもよい。例えば、中間層の各ノードの値が0.5,0.4,0.7であり、出力層の各ノードの値が0.2,0.7,0.1である場合、特徴ベクトルは[0.5 0.4 0.7 0.2 0.7 0.1]と構成することができる。
 又は、分類推定部131が決定木を用いてラベルを推定する場合、分類推定過程観測部132は、分類が決定に至るルートを観測して特徴ベクトルを構成する。例えば、ノード1->ノード3->ノード6というルートで或るラベルが推定された場合、分類推定過程観測部132は、当該ルートを示す[1 0 1 0 0 1 0 0 0]を特徴ベクトルとして出力してもよい。この例では、ベクトルの要素の添え字と、決定木のノード番号とが対応しており、そのノードを通過したならそのノードに対応する要素に1が入り、通過していないなら0が入るようにして特徴ベクトルを構成している。
 その他の特徴ベクトルの例については特許文献2に開示されている通りである。
 誤り判定部133は、分類推定過程観測部132から特徴ベクトルを受け取り、当該特徴ベクトルに基づいて、分類推定部131が推定したラベルが「正しい」か「誤り」であるかを判定する。
 誤り判定部133の構成方法は特定の方法に限定されない。例えば、誤り判定部133は、特徴ベクトルの特定の値(特にニューラルネットワークの出力層の値やランダムフォレストの得票数)が閾値を越えているかどうかを判定することで、分類推定部131が推定したラベルが「正しい」ものか「誤り」であるかを判定することができる。
 また、誤り判定部133は機械学習分野でよく用いられているモデルで構成することとしてもよい。例えばSVM、あるいはニューラルネットワークなどで誤り判定部133を構成することができる。これらのモデルを用いる場合、教師あり学習でモデルのパラメータチューニングを行なうことで誤り判定部133を実装することができる。
 図5は、ラベル付与モデル13の初期学習を説明するための図である。
 初期学習の時点では、ラベル付与モデル13を学習させる学習訓練データが存在しない。そこで、グルーピング部14は、初期学習の時点までの所定の期間にセキュリティベンダから提供された複数の汎用監視データの集合(以下、「汎用監視データ群X」という。)を、各汎用監視データの特徴に基づいて複数のグループに分割(分類)し、各グループから一部の汎用監視データを選択する(S101)。以下、各グループから選択された汎用監視データの集合を「代表データ群X'」という。
 図6は、汎用監視データの構成例を示す図である。図6における1行は、汎用監視データを示す。汎用監視データは、特定の(例えば、悪意のある)通信データ(脅威データ)の特徴を示すデータであり、例えば、プロトコル、ソースアドレス、ソースポート、宛先アドレス、宛先ポート及び通信内容データを含む。これらの項目の値は、汎用監視データの特徴を示すデータであるといえる。したがって、グルーピング部14は、これらの項目の値に基づいて、汎用監視データ群Xを複数のグループに分類し、各グループから代表データを選択する。なお、図6には、各汎用監視データに対して、参考情報が付与されていることを示す。参考情報は、脅威データの自動検知や、汎用監視データのグループへの分割には利用されないが、通信事業者が、自らにとって必要な汎用監視データの選別や当該汎用監視データに対応する対処方法を決定する際に参考とされている情報である。参考情報は、例えば、サイバー攻撃の報道に関する情報(この脅威データによってどのような悪意ある行為が行われた等)や、業者内部の不具合の情報(どのような被害が起きたか等)等を含む。本実施の形態において、参考情報は、汎用監視データに対する後述のラベル付けの参考となる情報として利用される。
 グルーピング部14によるグループ分けは、教師無し機械学習を利用して行われてもよい。例えば、クラスタリングによってグループ分けが行われてもよい。また、各グループ(クラスタ)から選択される代表データの数は、1つ等の一定数でもよいし、各グループの汎用監視データ数に対する所定の割合であってもよい。後者の場合、相対的に多くの汎用監視データ群が属するグループからは、相対的に多くの代表データが選択される。また、いずれの汎用監視データを代表データとして選択するのかについては、ランダムに行われてもよいし、所定の規則に基づいて行われてもよい。所定の規則の一例として、各グループにおける汎用監視データの整列順において、一定間隔ごとに代表データが選択することや、各グループを等分した場合の先頭の汎用監視データを代表データとして選択すること等が挙げられる。
 続いて、学習部11は、代表データ群X'に含まれる各代表データ(汎用監視データ)について、ラベルの入力をユーザから受け付け、入力されたラベルが付与されたラベル付き代表データ群X'を学習訓練データとして生成する(S102)。
 本実施の形態において、ラベルの値は、「不要」、「保存」、「通知」又は「遮断」である。
 「不要」は、当該ラベルを付与された汎用監視データが通信事業者にとって不要であることを示す。
 「保存」、「通知」及び「遮断」は、通信事業者にとって必要な汎用監視データに対して付与されるラベルである。換言すれば、「保存」、「通知」及び「遮断」は、当該ラベルを付与された汎用監視データが通信事業者にとって必要であることとともに、当該汎用監視データに該当する通信データの発見時の対処方法を示す。
 「保存」は、当該通信データを保存することを示す。「通知」は、当該通信データの検知を通信事業者へ通知させることを示す。「遮断」は、当該通信データを遮断することを示す。
 例えば、通信事業者は、各代表データに関する参考情報に基づき、代表データ群X'に含まれる各汎用監視データについて要否を選別し、不要な代表データには「不要」を付与し、必要な代表データには当該代表データに該当する通信データの発見時の対処を決定する。
 なお、学習部11は、ステップS102において、各代表データが属するグループに分類された各汎用監視データの参考情報をグループ別にユーザに出力してもよい。出力は、例えば、表示装置への表示によって実現されてもよい。そうすることで、ユーザは、グループごとに類似する汎用監視データの参考情報を俯瞰して参照することができ、システム条件に対応した適切な対処方法のラベルを容易に付与することができる。
 なお、代表データ群X'は、汎用監視データ群Xの一部が抽出された結果であるため、ユーザによるラベル付けの作業負担を軽減することができる。
 続いて、学習部11は、ラベル付き代表データ群X'を学習訓練データとしてラベル付与モデル13を学習する(S103)。その結果、学習済みラベル付与モデル13aが生成される。
 次に、学習済みラベル付与モデル13aを用いた運用及び学習済みラベル付与モデル13aの再学習について説明する。
 図7は、学習済みラベル付与モデル13aを用いた運用及び学習済みラベル付与モデル13aの再学習を説明するための図である。再学習は、学習済みラベル付与モデル13aを用いた運用と並行して行われる。
 図7は、学習済みラベル付与モデル13aの生成後に、新たな複数の汎用監視データの集合(以下、「汎用監視データ群Y」という。)がセキュリティベンダから提供された場合の運用及び学習済みラベル付与モデル13aの再学習の例を示す。なお、汎用監視データ群Yは、汎用監視データ群Xを内包する場合と、新規データのみである場合が考えられる。
 まず、学習済みラベル付与モデル13aに対して汎用監視データ群Yに含まれる各汎用監視データが入力される(S201)。学習済みラベル付与モデル13aは、当該汎用監視データごとに、当該汎用監視データに対するラベルと、当該ラベルについての正誤の判定結果とを出力する。正誤の判定結果は、「正しい」又は「誤り」である。以下、正誤の判定結果が「正しい」であるラベルに係る汎用監視データ群を、「確実なラベル付き汎用監視データ群Y(自動)」といい、当該判定結果が「誤り」であるベルに係る汎用監視データ群を、「不確実なラベル付き汎用監視データ群Y」という。なお、「確実なラベル付き汎用監視データ群Y(自動)」における「(自動)」は、後述において、ユーザの手作業によって生成される、後述の確実なラベル付き汎用監視データ群Y(手動)と区別するための、便宜的な識別情報である。
 続いて、グルーピング部14は、不確実なラベル付き汎用監視データ群Yを、それぞれの汎用監視データの特徴に基づいて複数のグループ(クラスタ)に分割(分類)し、グループの分割結果(グループ分けされた不確実なラベル付き汎用監視データ群Y)を出力する(S202)。
 続いて、学習部11は、不確実なラベル付き汎用監視データ群Yに含まれる各ラベル付き汎用監視データについて、ユーザから正しいラベルの入力を受け付け、ユーザによって入力されたラベルによって、付与されているラベルを訂正(置換)する(S203)。これによって、不確実なラベル付き汎用監視データ群Yは、確実なラベル付き汎用監視データ群Y(手動)となる。すなわち、ユーザの手作業によってラベルの訂正が行われるため、正しいラベルが付与されたラベル付き汎用監視データが生成される。なお、学習部11は、ユーザからのラベルの入力に際し、不確実なラベル付き汎用監視データ群Yについてのグループごとに、当該グループに属する各汎用監視データの参考情報を出力してもよい。そうすることで、ユーザは、グループごとに類似する汎用監視データの参考情報を俯瞰して参照することができ、システム条件に対応した適切な対処方法のラベルを容易に付与することができる。
 設定部12は、確実なラベル付き汎用監視データ群Y(自動)及び確実なラベル付き汎用監視データ群Y(手動)から、「不要」以外のラベルが付与された汎用監視データ(以下、「ラベル付き個別監視データ」という。)を抽出し、各ラベル付き個別監視データを通信セキュリティ監視装置20へ設定する(S204)。
 学習部11は、また、確実なラベル付き汎用監視データ群Y(自動)及び確実なラベル付き汎用監視データ群Y(手動)を学習訓練データとしてラベル付与モデル13を再学習する(S205)。その結果、再学習済みラベル付与モデル13bが生成される。この際、汎用監視データ群Yが汎用監視データ群Xを内包しない場合には、更に、ラベル付き代表データ群X'が学習訓練データに追加されてもよい。
 なお、汎用監視データ群Yが汎用監視データ群Xを内包する場合は、これらに基づく確実なラベル付き汎用監視データ群Yを学習訓練データとして学習済みラベル付与モデル13aを再学習することができる。学習訓練データの数が多いほど学習効果は高くなり、正しい結果を得る可能性が高くなる。汎用監視データ群Yが新規データのみである場合でも、新規の学習訓練データが得られる。新規の学習訓練データによる再学習によってラベル付与モデル13の性能の向上を期待することができる。
 その後、新たな汎用監視データ群がセキュリティベンダから提供された場合には、図7と同じ手順によって再学習済みラベル付与モデル13bを用いて運用が行われるとともに、再学習済みラベル付与モデル13bについて再学習が行われる。
 続いて、図5のステップS103及び図7のステップS205の詳細について説明する。図8は、ラベル付与モデル13の学習手順を説明するための図である。図8における(ラベル付き)汎用監視データ群Zは、図5の場合には、(ラベル付き)代表データ群X'であり、図7の場合には、(確実なラベル付き)汎用監視データ群Y(自動又は手動)である。
 まず、学習部11は、ラベル付き汎用監視データ群Zを用いて、汎用監視データとラベルとの対応関係を分類推定部131に学習させる(S301)。
 続いて、学習部11は、学習済みの分類推定部131に対して汎用監視データ群Zを入力する(S302)。分類推定部131は、汎用監視データ群Zに含まれるそれぞれの汎用監視データに対して推定したラベルのリスト(以下、「推定ラベルリスト」という。)を出力する(S303)。この際、分類推定過程観測部132は、当該汎用監視データごとに、ラベルの推定過程のデータを取得し(S304)、当該データごとに特徴ベクトルを出力する(S305)。
 続いて、学習部11は、ラベル付き汎用監視データ群Zに含まれるそれぞれのラベル付き汎用監視データに付与されている正しいラベルのリスト(以下、「正解ラベルリスト」という。)と、推定ラベルリストとをリストの要素ごと(すなわち、同一の汎用監視データに対応するラベルごと)に比較し、推定ラベルリストに含まれる各ラベルの正誤を示すリスト(以下、「正誤リスト」という。)を生成する(S306)。正誤リストは、例えば、「1011・・・」のように、1又は0のリストである。0は正解のラベルを示し、1は誤りのラベルを示す。
 続いて、学習部11は、特徴ベクトルのリストと正誤リストとの対応関係を誤り判定部133に学習させる(S307)。その結果、誤り判定部133は、学習済みとなる。なお、誤り判定部133の学習については、特許文献2にも詳しい。
 上述したように、本実施の形態によれば、グルーピング部14によって、ユーザが手動でラベルを付与する汎用監視データを絞り込むことができる。その結果、監視データに対する対処方法の設定作業の負荷を軽減することができる。また、ラベル付与モデル13によって、汎用監視データに対して自動的なラベル付けを可能とすることができる。更に、ラベル付与モデル13を再学習することで、分類精度を向上させることができる。
 なお、本実施の形態において、グルーピング部14は、第1の分割部、第2の分割部及び選択部の一例である。学習部11は、再学習部の一例でもある。
 以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。
10     ラベル付与装置
11     学習部
12     設定部
13     ラベル付与モデル
14     グルーピング部
20     通信セキュリティ監視装置
100    ドライブ装置
101    記録媒体
102    補助記憶装置
103    メモリ装置
104    プロセッサ
105    インタフェース装置
131    分類推定部
132    分類推定過程観測部
133    誤り判定部
B      バス

Claims (7)

  1.  それぞれが特定の通信データの特徴を示す第1の複数の監視データを、それぞれの特徴に基づいて複数のグループに分割する第1の分割部と、
     それぞれの前記グループから一部の前記監視データを選択する選択部と、
     前記選択部が選択した前記監視データと、当該監視データに対して入力された、前記特定の通信データに対する対処方法を示すラベルとに基づいて、前記監視データを入力とし、当該監視データに対応する前記ラベルを出力するモデルを学習する学習部と、
    を有することを特徴とするラベル付与装置。
  2.  前記学習部は、前記監視データを入力とし、当該監視データに対応する前記ラベルと当該ラベルについての正誤の判定結果とを出力する前記モデルを学習し、
     第2の複数の監視データのうち、前記モデルが正しいと判定した第1のラベルが出力された前記監視データに対して当該第1のラベルが付与された第1のラベル付き監視データと、前記モデルが誤りであると判定した前記ラベルが出力された前記監視データに対してユーザによって入力された第2のラベルが付与された第2のラベル付き監視データとに基づいて前記モデルを再学習する再学習部、
    を有することを特徴とする請求項1記載のラベル付与装置。
  3.  前記モデルが誤りであると判定した前記ラベルが出力された複数の前記監視データを、それぞれの特徴に基づいて複数のグループに分割する第2の分割部を有し、
     前記再学習部は、前記第2の分割部が分割したグループごとに、当該グループに属する前記監視データに対するラベル付けの参考となる情報を、前記第2のラベルを入力するユーザに対して出力する、
    ことを特徴とする請求項2記載のラベル付与装置。
  4.  それぞれが特定の通信データの特徴を示す第1の複数の監視データを、それぞれの特徴に基づいて複数のグループに分割する第1の分割手順と、
     それぞれの前記グループから一部の前記監視データを選択する選択手順と、
     前記選択手順が選択した前記監視データと、当該監視データに対して入力された、前記特定の通信データに対する対処方法を示すラベルとに基づいて、前記監視データを入力とし、当該監視データに対応する前記ラベルを出力するモデルを学習する学習手順と、
    をコンピュータが実行することを特徴とするラベル付与方法。
  5.  前記学習手順は、前記監視データを入力とし、当該監視データに対応する前記ラベルと当該ラベルについての正誤の判定結果とを出力する前記モデルを学習し、
     第2の複数の監視データのうち、前記モデルが正しいと判定した第1のラベルが出力された前記監視データに対して当該第1のラベルが付与された第1のラベル付き監視データと、前記モデルが誤りであると判定した前記ラベルが出力された前記監視データに対してユーザによって入力された第2のラベルが付与された第2のラベル付き監視データとに基づいて前記モデルを再学習する再学習手順、
    をコンピュータが実行することを特徴とする請求項4記載のラベル付与方法。
  6.  前記モデルが誤りであると判定した前記ラベルが出力された複数の前記監視データを、それぞれの特徴に基づいて複数のグループに分割する第2の分割手順をコンピュータが実行し、
     前記再学習手順は、前記第2の分割手順が分割したグループごとに、当該グループに属する前記監視データに対するラベル付けの参考となる情報を、前記第2のラベルを入力するユーザに対して出力する、
    ことを特徴とする請求項5記載のラベル付与方法。
  7.  請求項4乃至6いずれか一項記載のラベル付与方法をコンピュータに実行させることを特徴とするプログラム。
PCT/JP2021/015631 2021-04-15 2021-04-15 ラベル付与装置、ラベル付与方法及びプログラム WO2022219786A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2023514283A JP7544259B2 (ja) 2021-04-15 2021-04-15 ラベル付与装置、ラベル付与方法及びプログラム
PCT/JP2021/015631 WO2022219786A1 (ja) 2021-04-15 2021-04-15 ラベル付与装置、ラベル付与方法及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/015631 WO2022219786A1 (ja) 2021-04-15 2021-04-15 ラベル付与装置、ラベル付与方法及びプログラム

Publications (1)

Publication Number Publication Date
WO2022219786A1 true WO2022219786A1 (ja) 2022-10-20

Family

ID=83640271

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/015631 WO2022219786A1 (ja) 2021-04-15 2021-04-15 ラベル付与装置、ラベル付与方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7544259B2 (ja)
WO (1) WO2022219786A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077607A (ja) * 2016-11-08 2018-05-17 株式会社日立システムズ セキュリティルール評価装置およびセキュリティルール評価システム
WO2020031960A1 (ja) * 2018-08-06 2020-02-13 日本電信電話株式会社 誤り判定装置、誤り判定方法、及びプログラム
JP2020149090A (ja) * 2019-03-11 2020-09-17 富士通株式会社 判定方法、情報処理装置および判定プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018077607A (ja) * 2016-11-08 2018-05-17 株式会社日立システムズ セキュリティルール評価装置およびセキュリティルール評価システム
WO2020031960A1 (ja) * 2018-08-06 2020-02-13 日本電信電話株式会社 誤り判定装置、誤り判定方法、及びプログラム
JP2020149090A (ja) * 2019-03-11 2020-09-17 富士通株式会社 判定方法、情報処理装置および判定プログラム

Also Published As

Publication number Publication date
JP7544259B2 (ja) 2024-09-03
JPWO2022219786A1 (ja) 2022-10-20

Similar Documents

Publication Publication Date Title
Xu et al. Droidevolver: Self-evolving android malware detection system
CN111475804A (zh) 一种告警预测方法及系统
KR102291869B1 (ko) 비정상 트래픽 패턴의 탐지 방법 및 장치
CN109871954B (zh) 训练样本生成方法、异常检测方法及装置
Miah et al. Improving detection accuracy for imbalanced network intrusion classification using cluster-based under-sampling with random forests
US11195120B2 (en) Detecting dataset poisoning attacks independent of a learning algorithm
US20120215727A1 (en) Automatic data cleaning for machine learning classifiers
US11860721B2 (en) Utilizing automatic labelling, prioritizing, and root cause analysis machine learning models and dependency graphs to determine recommendations for software products
JPWO2019138655A1 (ja) モデル学習装置、モデル学習方法、及びプログラム
AU2021309929B2 (en) Anomaly detection in network topology
US8352409B1 (en) Systems and methods for improving the effectiveness of decision trees
EP1958034B1 (en) Use of sequential clustering for instance selection in machine condition monitoring
US11805140B2 (en) Systems and methods for utilizing a machine learning model to detect anomalies and security attacks in software-defined networking
JP7276488B2 (ja) 推定プログラム、推定方法、情報処理装置、再学習プログラムおよび再学習方法
JP7268756B2 (ja) 劣化抑制プログラム、劣化抑制方法および情報処理装置
JP2014023144A (ja) ネットワークフローデータプロファイルからのスパムメール送信ホストの検知方式とシステム
EP3720054A1 (en) Abnormal communication detection device, abnormal communication detection method, and program
Chadha et al. Hybrid genetic fuzzy rule based inference engine to detect intrusion in networks
Borchani et al. Classifying evolving data streams with partially labeled data
WO2022219786A1 (ja) ラベル付与装置、ラベル付与方法及びプログラム
CN114416423A (zh) 一种基于机器学习的根因定位方法和系统
JP6988995B2 (ja) 画像生成装置、画像生成方法および画像生成プログラム
US11537391B2 (en) Software change analysis and automated remediation
WO2022219787A1 (ja) ラベル付与装置、ラベル付与方法及びプログラム
CN108334778A (zh) 病毒检测方法、装置、存储介质及处理器

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21936982

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2023514283

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21936982

Country of ref document: EP

Kind code of ref document: A1