WO2013014987A1 - 情報識別方法、プログラム及びシステム - Google Patents

情報識別方法、プログラム及びシステム Download PDF

Info

Publication number
WO2013014987A1
WO2013014987A1 PCT/JP2012/061294 JP2012061294W WO2013014987A1 WO 2013014987 A1 WO2013014987 A1 WO 2013014987A1 JP 2012061294 W JP2012061294 W JP 2012061294W WO 2013014987 A1 WO2013014987 A1 WO 2013014987A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
classifier
training
test
time
Prior art date
Application number
PCT/JP2012/061294
Other languages
English (en)
French (fr)
Inventor
道昭 立堀
将平 比戸
Original Assignee
インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by インターナショナル・ビジネス・マシーンズ・コーポレーション filed Critical インターナショナル・ビジネス・マシーンズ・コーポレーション
Priority to DE112012003110.5T priority Critical patent/DE112012003110T5/de
Priority to US14/234,747 priority patent/US9471882B2/en
Priority to GB1401147.2A priority patent/GB2507217A/en
Priority to JP2013525603A priority patent/JP5568183B2/ja
Priority to CN201280036705.8A priority patent/CN103703487B/zh
Publication of WO2013014987A1 publication Critical patent/WO2013014987A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • G06F21/552Detecting local intrusion or implementing counter-measures involving long-term monitoring or reporting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance

Definitions

  • the present invention relates to identification of information by supervised machine learning, and more particularly to a technique for dealing with an attack caused by malicious alteration of information.
  • the information sent by the applicant for assessment and credit includes yes / no answers to questions, numerical values such as age and annual income, and other descriptive text information.
  • a predetermined operator inputs it with a computer keyboard or puts it on OCR to digitize the information.
  • OCR optical character recognition
  • D training ⁇ (x 1 , y 1 ), ..., (x n , y n ) ⁇
  • y i ⁇ C
  • the teacher data includes pass (label 1) data 102, 104, 106, 108 and fail (label 0) data 110, 112, 114. These individually correspond to individual application information.
  • the supervised machine learning system forms a classifier using such training data.
  • the classifier means that the feature vector of application information is x and the label is y.
  • h Corresponds to a function h such as x ⁇ y.
  • the above prior art can detect a malicious attack in a specific situation, but there are limitations in assuming special characteristics of data such as data homogeneity and individual abnormality of data, Although there is an assessment of the susceptibility to attack, there is a problem that the fact that the attack is focused on a false pass cannot be detected.
  • an object of the present invention is to provide a technique capable of detecting, with high accuracy, falsely-accepted data created in a malicious manner in the process of examining and assessing application documents by supervised machine learning.
  • Another object of the present invention is to prevent the spread of damage due to inevitable error discrimination in the process of examining and assessing application documents by supervised machine learning.
  • Another object of the present invention is to avoid a situation in which, in the process of examining and assessing application documents by supervised machine learning, the user is not aware of the damage.
  • the present invention has been made to solve the above-described problems. According to the present invention, first, time is added to both when preparing teacher (learning) data and when preparing test data. The data is recorded. This time is, for example, the time when data is input.
  • the system according to the present invention clusters the learning data of the target class (typically a passing class). Similarly, the test data of the target class (typically a passing class) is clustered.
  • the system according to the present invention was obtained by the above clustering for the learning data for each time frame of various times and widths, and for the test data for each time frame of the most recent various widths.
  • the identification probability density for each partial class is aggregated.
  • the system according to the present invention detects, as an abnormality, an input in which the relative frequency is statistically greatly increased by using the ratio of the probability density between learning and testing as a relative frequency for each partial class for each time frame. , Alert you to investigate in detail whether it is an attack. That is, according to the knowledge of the present invention, in such a case, there is a high possibility that a malicious person is behind learning by learning data.
  • data is recorded by adding time both when preparing learning data and when preparing test data.
  • frequency for each time frame after clustering between the learning data and the test data we detected potentially malicious data. It is possible to detect malicious data with high accuracy without assuming special properties such as individual abnormalities, and as a result, it is possible to improve the reliability of examination. It can also take into account the social cooperation of attackers.
  • FIG. 4 there is shown a block diagram of computer hardware for realizing a system configuration and processing according to an embodiment of the present invention.
  • a CPU 404 a main memory (RAM) 406, a hard disk drive (HDD) 408, a keyboard 410, a mouse 412, and a display 414 are connected to the system path 402.
  • the CPU 404 is preferably based on a 32-bit or 64-bit architecture, for example, Intel Pentium (trademark) 4, Core (trademark) 2, Duo, Xeon (trademark), AMD Athlon (trademark). Etc. can be used.
  • the main memory 406 preferably has a capacity of 4 GB or more.
  • the hard disk drive 408 can store training data and test data of a large amount of application information such as insurance claim assessment at an insurance company, loan and credit card examination and credit at a financial company, for example, 500 GB or more It is desirable to have a capacity of
  • the hard disk drive 408 stores an operating system in advance, although not individually illustrated.
  • the operating system may be any compatible with the CPU 404, such as Linux (trademark), Microsoft Windows XP (trademark), Windows (trademark) 2000, Apple Computer Mac OS (trademark).
  • the hard disk drive 408 may also store program language processing systems such as C, C ++, C #, and Java (trademark). This programming language processing system is used to create and maintain a processing routine or tool according to the present invention, which will be described later.
  • the hard disk drive 408 may further include a text editor for writing source code for compiling with a program language processing system, and a development environment such as Eclipse (trademark).
  • the keyboard 410 and the mouse 412 are loaded into the main memory 406 from the operating system or the hard disk drive 408, and are used to start a program (not shown) displayed on the display 414 and to input characters. .
  • the display 414 is preferably a liquid crystal display, and an arbitrary resolution such as XGA (1024 ⁇ 768 resolution) or UXGA (1600 ⁇ 1200 resolution) can be used. Although not shown, the display 414 is used to display a cluster including false pass data that may be maliciously created.
  • FIG. 5 is a functional block diagram showing a processing routine, training data 502, and test data 504 according to the present invention.
  • routines are written in an existing programming language such as C, C ++, C #, Java TM, stored in the hard disk drive 408 in an executable binary format, and in response to operation of the mouse 412 or keyboard 410, It is called and executed in the main memory 406 by the action of an operating system (not shown).
  • the training data 502 is stored in the hard disk drive 408 and has the following data structure.
  • D (training) ⁇ (x 1 (training) , y 1 (training) , t 1 (training) ), ..., (x n (training) , y n (training) , t n (training) ) ⁇
  • x i (training) is the feature vector of the i-th training data
  • y i (training) is the class label of the i-th training data
  • t i (training) is the time of the i-th training data. It is a stamp.
  • the time stamp t i (training) is preferably the date and time when the application information is input, and has a date + time format, for example.
  • the classifier generation routine 504 has a function of generating, from the training data 502, a classification parameter 508 that the classifier 510 uses for the test data 504 classification process.
  • the test data 504 is stored in the hard disk drive 408 and has a data structure as shown below.
  • D ' (test) ⁇ (x 1 (test) , t 1 (test) ), ..., (x m (test) , t m (test) ) ⁇
  • x i (test) is a feature vector of the i-th test data
  • t i (test) is a time stamp of the i-th test data.
  • the time stamp t i (test) is preferably the date and time when the application information is input, and has a date + time format, for example.
  • classification problems include Fisher's linear discriminant function as a linear classifier, logistic regression, naive Bayes classifier, perceptron, as well as Quadratic classifier, k-nearest neighbors, boosting, decision tree, neural network, There are a Bayesian network, a support vector machine, and a hidden Markov model, and the present invention can use any of these techniques, but in this embodiment, a support vector machine is particularly used. For more details, see Christopher M. Bishop, “Pattern Recognition And Machine Learning", 2006, Springer Verlag.
  • the classifier 510 reads the test data 504, assigns a class label, and generates classified data 512 as follows.
  • D (test) ⁇ (x 1 (test) , y 1 (test) , t 1 (test) ), ..., (x m (test) , y m (test) , t m (test) ) ⁇
  • the cluster analysis routine 514 defines distances such as Euclidean distance and Machtan distance between the feature vectors of the training data 502, and uses this distance to perform clustering by a known method such as K-means. Section data 516 for clustering is generated.
  • the partition data 516 is preferably stored on the hard disk drive 408. Since the partition data 516 defines positional information such as the boundary or center of each cluster, the cluster data 516 can be compared with the partition data 516 to know which cluster the arbitrary data belongs to. That is, the partition data 516 serves as a sub classifier.
  • the clustering technique that can be used in the present invention is not limited to K-means, and any clustering technique suitable for the present invention such as a Gaussian mixture model, an aggregation method, branching clustering, or a self-organizing map can be used. .
  • a divided data group may be obtained by grid division.
  • Cluster analysis routine 514 writes partition data 516 representing the clustered result to hard disk drive 408.
  • the time series analysis routine 518 reads the training data 502, calculates the frequency of data for each predetermined time window for each cluster (subclass) according to the partition data 516, and other statistical data, and is preferably used as the time series data 520. Save to the hard disk drive 408.
  • the time series analysis routine 522 reads the test data 504, calculates the frequency of data for each predetermined time window for each cluster (subclass) according to the partition data 516, and other statistical data, and is suitably used as the time series data 524. Is stored in the hard disk drive 408.
  • the abnormality detection routine 526 has a function of calculating data related to the corresponding time window of the corresponding cluster of the time series data 520 and the time series data 524 and starting the alarm routine 528 when the value is larger than a predetermined threshold value. Have.
  • the alarm routine 528 has a function of displaying a cluster in which an abnormality is detected and a time window on the display 414 to notify the operator.
  • FIG. 6 is a flowchart of the training data analysis process.
  • the classifier generation routine 506 generates the classifier 510 by generating the classification parameter 508.
  • step 604 the cluster analysis routine 514 generates a sub-classifier, ie, a partition 516 for clustering.
  • step 606 the time series analysis routine 518 generates time series data 520 by calculating input frequency statistics for each subclass and time window.
  • FIG. 7 is a diagram showing a flowchart specifically showing the process of step 604. That is, in this processing, the cluster analysis routine 514 generates a sub-classifier for the data of the class in step 704 in the loop spanning each class from step 702 to step 706.
  • FIG. 8 is a diagram showing a flowchart of processing for analyzing test data. Steps 802 to 810 are a loop, which is processing over all data included in the test data 504.
  • step 804 the classifier 510 classifies the individual data of the test data 504. Then, in step 806, the time series analysis routine 522 classifies into subclasses based on the partition data 516 using the classified data (ie, clustering), and in step 808, the time series analysis routine 522 The input frequency in the subclass in the current time window is incremented while shifting the time window.
  • step 802 to step 810 When the processing loop from step 802 to step 810 is completed for all data included in the test data 504, the time series analysis routine 522 writes the time series data 524 to the hard disk drive 408.
  • FIG. 9 is a diagram showing a flowchart of processing for the abnormality detection routine 526 to detect the possibility of abnormality in a predetermined time window.
  • the anomaly detection routine 526 calculates the ratio of test input frequency to training data frequency over the time window.
  • the abnormality detection routine 526 calculates a statistically significant increase score in each subclass.
  • statistically significant means that a sufficient number of samples are available.
  • the significant frequency increase score may be a simple ratio calculation, but in this embodiment, the following formula is used to calculate more accurately.
  • W be the width of the time window.
  • the function g () is a function for obtaining a subclass.
  • mode is either training meaning training data or test meaning test data.
  • the probability of occurrence of input data with label j is defined as follows.
  • the abnormal increase score is defined by the following formula. In this equation, E () represents the expected value and ⁇ () represents the variance.
  • This formula basically uses a moving average value of frequency and its variance, but periodic fluctuations in relative frequency may be taken into account by applying frequency transformation such as wavelet transformation.
  • step 906 the abnormality detection routine 526 determines whether or not the value of the abnormality increase score exceeds the threshold value. If so, the alarm routine 528 is activated in step 908, and the subclass may be illegal. Is displayed on the display 414.
  • the cost may be weighted according to the size of each sample, or may be distinguished from natural fluctuations by using the characteristics of tampering that can be an attack.
  • FIG. 10 is a diagram showing the distribution of data along the time for each subclass A1, A2,..., An of class A, as training data and test data.
  • the processing of the present invention detects the possibility of abnormality by the ratio of the frequency in a predetermined time window in the same subclass of the same class between the training data and the test data.
  • FIG. 11 shows an example in which the possibility of such an abnormality is detected. That is, the abnormality detection routine 526 indicates that the frequency of the test data is substantially larger than the frequency of the training data in the fourth cluster (subclass) as indicated by reference numeral 1104 in a specific time frame. It detects and notifies the alarm routine 528 of the possibility of the presence of illegal data.
  • the operator can narrow down the data for identifying the problem that there is a possibility that there is a problem in the data in the cluster in the time window.
  • the detected misidentification that caused the attack is identified, and the labels are corrected once and moved to failure. Will get.
  • Classifier generation routine 510 Classifier 514.
  • Cluster analysis routine 516 ... Time series analysis routines 520, 524 ... Time series data 526 . Abnormality detection routine

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Security & Cryptography (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Operations Research (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Accounting & Taxation (AREA)
  • Computer Hardware Design (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

 教師付き機械学習によって申請書類の審査や査定を行う処理において、悪意で作成された偽合格のデータを高い精度で検出することができる技法を提供すること。 この発明によればまず、教師(学習)データを用意する際と、テスト・データを用意する際の両方の場合に、時刻を加えてデータの記録が行われる。次に、対象クラスの学習データをクラスタリングされ、同様に、対象クラスのテスト・データがクラスタリングされる。次に、学習データについては、様々な時刻と幅の時間枠毎に、また、テスト・データについては、直近の様々な幅の時間枠毎に、各部分クラスへの識別確率密度が集計される。次に、時間枠毎の各部分クラス毎、学習時とテスト時の確率密度の比を相対頻度とし、相対頻度が統計的に大きく増加している入力を異常として検知し、攻撃であるかどうかを詳細に調べるようアラートが発報される。

Description

情報識別方法、プログラム及びシステム
 この発明は、教師付き機械学習による情報の識別に関し、特に、情報の悪意ある改竄による攻撃に対する対応技法に関する。
 従来より、保険会社での保険請求の査定、金融会社でのローンやクレジットカードの審査や与信などは根幹の重要な業務であり、その会社の経験ある専門家が担当している。しかし近年、処理件数の増大により、専門家の手作業では次第に捌ききれなくなってきた。
 そこで、専門家の負荷を軽減するために、最近になって、コンピュータを利用した機械学習の技法をもちいて、保険請求の査定やクレジットカードの与信を行う方法が採用されるようになってきた。
 申請者から送られた査定や与信を行うための情報は、質問に対するはい/いいえの回答や、年齢、年収などの数値、その他の記述的なテキスト情報などを含む。そのような情報が紙で与えられた場合は、所定のオペレータがコンピュータのキーボードで打ち込んだり、OCRにかけたりして、情報を電子化する。一方、ウェブブラウザ上での操作で申請者から情報がサーバ上に送られた場合は、情報の電子化の手間は不要である。
 このようにして電子的な申請情報が集まると、専門家は先ず個々の申請情報を見て、合格/不合格の判定を下し、そのラベルを電子的に記録していく。そのように専門家が予め判定するための、個々の申請情報の特徴ベクトルxi(i = 1,...,n)と、判別結果(クラス・ラベル)yi(i = 1,...,n)の組の教師(訓練)データ集合を、下記のとおりとする。
Dtraining = {(x1,y1),...,(xn,yn)}
ここで、yi ∈ Cで、Cはクラス・ラベルの集合であるが、例えば、C = {0,1}であり、1が合格、0が不合格である。
 そのような訓練データの例を図1に示す。すなわち、教師データは、合格(ラベル1)のデータ102、104、106、108と、不合格(ラベル0)のデータ110、112、114を含む。これらは個々に、個別の申請情報に対応する。
 教師付き機械学習のシステムは、このような訓練データを用いて、分類器を構成する。分類器とは、申請情報の特徴ベクトルをx、ラベルをyとしたとき、
h : x → y のような関数hに相当する。
 このように分類器を構成した後、その分類器でテスト・データの申請情報を分類した場合の様子を図2に示す。すなわち、データ202、204、206、208が合格として分類されたデータであり、データ210、212、214、216が不合格と分類されたデータである。ここでデータ208とデータ210に注目されたい。データ208は、正しくは不合格と分類されるべきなのに、分類器によって合格と分類されてしまったものであり、偽合格(FP = false positive)と呼ばれる。また、データ210は、正しくは合格と分類されるべきなのに、分類器によって不合格と分類されてしまったものであり、偽不合格(FN = false negative)と呼ばれる。
 分類器は確率的に構成されるので、どのような機械学習の方式を採用しても、偽合格や偽不合格を完全に根絶することは困難である。
 さて、あるサンプルのテスト・データに対して、図3に示すように分類器が分類した結果、データ302、304、306、308、310、312が合格として分類されたデータであり、データ314、316、318、320、322が不合格と分類されたデータであるとする。そこでたまたま、悪意ある人が、データ312が偽合格であると気づいたとする。すると、データ312の記載内容を解析して、どの項目をどう書き直せば、本来落とされるデータが合格になるかという悪意の知識を得て、マニュアル化する。例えば、「無茶な保険請求を通りやすくする」マニュアルのようなものである。このマニュアルを悪意の人が有償で頒布し、それを読んだ人達が、図3の参照番号324で示すように、偽合格になり得る一連のケースを作成して送りつけてくる、ということがありえる。
 このような悪意ある攻撃を検出するための技術として、以下の文献に記載されたものが知られている。
 Shohei Hido, Yuta Tsuboi, Hisashi Kashima,  Masashi Sugiyama, Takafumi Kanamori, "Inlier-based Outlier Detection via Direct Density Ratio Estimation", ICDM 2008 http://sugiyama-www.cs.titech.ac.jp/~sugi/2008/ICDM2008.pdfは、訓練データとテストデータにおける密度比をとって異常検出することを開示する。
 Daniel Lowd, Christopher Meek, "Adversarial Learning", KDD 2005 http://portal.acm.org/citation.cfm?id=1081950は、スパムフィルタリングで単一の攻撃者が手を変え品を変え攻撃してくるのに連続的に対応していくという問題設定において、攻撃者側がすり抜けさせたい理想的なサンプルからの距離を敵対コストとして、それが最小となる(すり抜けられる中で一番すり抜けさせたい)サンプル、それより高々k倍コストのサンプルを多項式回の攻撃で見つけるアルゴリズムを開示する。
 Adam J. Oliner, Ashutosh V. Kulkarni,  Alex Aiken, Community Epidemic Detection using Time-Correlated Anomalies, RAID 2010 http://dx.doi.org/10.1007/978-3-642-15512-3_19に記述されている技法は、コンピュータが悪意ある攻撃受けた時にそれを検出するために、複数の同条件クライアントを束ねておいて、周囲との挙動の違いを異常度として計算する。単一のクライアントで一時的に異常度が上がるのは、正常時にもありえることだが、一定数異常の複数クライアントで同時に異常度が上昇するのは、攻撃発生を示している。これをTime-correlated anomalyと呼び、それを検出するモニタリング方法を提案している。
 杉山 将、「共変量シフト下での教師付き学習」, 日本神経回路学会誌 13(3), 2006は、訓練データとテストデータで確率分布が異なる場合の教師付き学習を対象に、どのように予測モデルを補正するかを議論している。特に、この文献には、テストデータがよく出現する領域にある訓練データサンプルの重要度を上げることで、テストデータの分類が上手くいくようにする手法が記載されている。
 上記従来技術は、特定の状況では、悪意ある攻撃を検出可能であるが、データの均質性やデータの個別の異常度など、データに特殊な性質を仮定したりする点で制約があったり、攻撃の受けやすさはアセスするものの、偽合格に集中攻撃を受けているという事実を検出できなかったりするという問題点があった。
Shohei Hido, Yuta Tsuboi, Hisashi Kashima,  Masashi Sugiyama, Takafumi Kanamori, "Inlier-based Outlier Detection via Direct Density Ratio Estimation", ICDM 2008 Daniel Lowd, Christopher Meek, "Adversarial Learning", KDD 2005 http://portal.acm.org/citation.cfm?id=1081950 Adam J. Oliner, Ashutosh V. Kulkarni,  Alex Aiken, Community Epidemic Detection using Time-Correlated Anomalies, RAID 2010 http://dx.doi.org/10.1007/978-3-642-15512-3_19 杉山 将、「共変量シフト下での教師付き学習」, 日本神経回路学会誌 13(3), 2006
 従って、この発明の目的は、教師付き機械学習によって申請書類の審査や査定を行う処理において、悪意で作成された偽合格のデータを高い精度で検出することができる技法を提供することにある。
 この発明の別の目的は、教師付き機械学習によって申請書類の審査や査定を行う処理において、避けられない誤り判別を糸口に被害が広がることを防止することにある。
 この発明のさらに別の目的は、教師付き機械学習によって申請書類の審査や査定を行う処理において、被害を受けているのにそれに気づかないという状況を回避することにある。
 この発明は、上記課題を解決するためになされたものであり、この発明よればまず、教師(学習)データを用意する際と、テスト・データを用意する際の両方の場合に、時刻を加えてデータの記録が行われる。この時刻は、例えば、データの入力があった時刻である。
 次に、本発明に従うシステムは、対象クラス(典型的には合格のクラス)の学習データをクラスタリングする。同様に、対象クラス(典型的には合格のクラス)のテスト・データをクラスタリングする。
 次に、本発明に従うシステムは、学習データについては、様々な時刻と幅の時間枠毎に、また、テスト・データについては、直近の様々な幅の時間枠毎に、上記クラスタリングで得られた各部分クラスへの識別確率密度を集計する。
 次に、本発明に従うシステムは、時間枠毎の各部分クラス毎、学習時とテスト時の確率密度の比を相対頻度とし、相対頻度が統計的に大きく増加している入力を異常として検知し、攻撃であるかどうかを詳細に調べるようアラートを発報する。すなわち、本発明の知見によれば、このような場合は、潜在的に、悪意ある者が学習データによる学習の裏をかいている可能性が高いのである。
 この発明によれば、教師付き機械学習によって申請書類の審査や査定を行う処理において、学習データを用意する際と、テスト・データを用意する際の両方の場合に、時刻を加えてデータの記録をするとともに、クラスタリングした後の時間枠毎の頻度を学習データとテスト・データの間で比較することにより、潜在的に悪意のあるデータを検出するようにしたので、データの均質性やデータの個別の異常度など、データに特殊な性質を仮定したりすることなく、高い精度で悪意のあるデータが検出可能であり、結果的に、審査の信頼性を高めるということがが得られる。また、攻撃者のソーシャルな連携まで考慮に入れることができる。
教師付き機械学習処理を説明するための図である。 教師付き機械学習処理により構成した分類器で分類する処理を説明するための図である。 教師付き機械学習処理により構成した分類器に対して偽合格のデータで攻撃する様子を示す図である。 本発明を実施するためのハードウェア構成のブロック図である。 本発明を実施するための機能構成のブロック図である。 訓練入力解析処理のフローチャートを示す図である。 副分類器生成処理のフローチャートを示す図である。 テスト入力データの解析処理のフローチャートを示す図である。 各時間窓での頻度解析処理のフローチャートを示す図である。 訓練データとテスト・データのサブクラスにおける個別の頻度を示す図である。 異常データの可能性のあるデータの頻度を示す図である。
 以下、図面に基づき、この発明の実施例を説明する。特に断わらない限り、同一の参照番号は、図面を通して、同一の対象を指すものとする。尚、以下で説明するのは、本発明の一実施形態であり、この発明を、この実施例で説明する内容に限定する意図はないことを理解されたい。
 図4を参照すると、本発明の一実施例に係るシステム構成及び処理を実現するためのコンピュータ・ハードウェアのブロック図が示されている。図4において、システム・パス402には、CPU404と、主記憶(RAM)406と、ハードディスク・ドライブ(HDD)408と、キーボード410と、マウス412と、ディスプレイ414が接続されている。CPU404は、好適には、32ビットまたは64ビットのアーキテクチャに基づくものであり、例えば、インテル社のPentium(商標) 4、Core(商標)2 Duo、Xeon(商標)、AMD社のAthlon(商標)などを使用することができる。主記憶406は、好適には、4GB以上の容量をもつものである。ハードディスク・ドライブ408は、保険会社での保険請求の査定、金融会社でのローンやクレジットカードの審査や与信などの大量の申請情報の訓練データとテスト・データを格納できるように、例えば、500GB以上の容量をもつものであることが望ましい。
 ハードディスク・ドライブ408には、個々に図示しないが、オペレーティング・システムが、予め格納されている。オペレーティング・システムは、Linux(商標)、マイクロソフト社のWindows XP(商標)、Windows(商標)2000、アップルコンピュータのMac OS(商標)などの、CPU404に適合する任意のものでよい。
 ハードディスク・ドライブ408には、C、C++、C#、Java(商標)などのプログラム言語処理系も格納されていてもよい。このプログラム言語処理系は、後で説明する、本発明に係る処理用のルーチンまたはツールを作成し、維持するために使用される。ハードディスク・ドライブ408にはさらに、プログラム言語処理系でコンパイルするためのソースコードを書くためのテキスト・エディタ、及び、Eclipse(商標)などの開発環境を含んでいてもよい。
 キーボード410及びマウス412は、オペレーティング・システムまたは、ハードディスク・ドライブ408から主記憶406にロードされ、ディスプレイ414に表示されたプログラム(図示しない)を起動したり、文字を打ち込んだりするために使用される。
 ディスプレイ414は、好適には、液晶ディスプレイであり、例えば、XGA(1024×768の解像度)、またはUXGA(1600×1200の解像度)などの任意の解像度のものを使用することができる。ディスプレイ414は、図示しないが、悪意で作成された惧れのある偽合格のデータを含むクラスタを表示したりするために使用される。
 図5は、本発明に係る処理ルーチンと、訓練データ502と、テスト・データ504を示す機能ブロック図である。これらのルーチンは、C、C++、C#、Java(商標)など既存のプログラム言語で書かれ、実行可能バイナリ形式でハードディスク・ドライブ408に格納され、マウス412またはキーボード410の操作に応答して、オペレーティング・システム(図示しない)の働きで、主記憶406に呼び出されて、実行される。
 訓練データ502は、ハードディスク・ドライブ408に保存され、以下に示すようなデータ構造をもつ。
D(training) = {(x1 (training),y1 (training),t1 (training)),...,(xn (training),yn (training),tn (training))}
 ここで、xi (training)は、i番目の訓練データの特徴ベクトル、yi (training)はi番目の訓練データのクラス・ラベル、ti (training)は、i番目の訓練データのタイム・スタンプである。特徴ベクトルxi (training)(i = 1,...,n)は、電子的な申請情報の項目から好適にはコンピュータの処理により自動的に生成される。その際、必要に応じて、テキスト・マイニングなどの技術も使用される。クラス・ラベルyi (training)(i = 1,...,n)は、申請情報を予め熟練した専門の担当者が目で見て判断した結果に従い、セットされる。タイム・スタンプti (training)は、好適には、その申請情報が入力された日時であり、例えば、日付+時刻のフォーマットである。
 分類器生成ルーチン504は、訓練データ502から、分類器510がテスト・データ504の分類処理に使用する分類パラメータ508を生成する機能をもつ。
 テスト・データ504は、ハードディスク・ドライブ408に保存され、以下に示すようなデータ構造をもつ。
D'(test) = {(x1 (test),t1 (test)),...,(xm (test),tm (test))}
 ここで、xi (test)は、i番目のテスト・データの特徴ベクトル、ti (test)は、i番目のテスト・データのタイム・スタンプである。特徴ベクトルxi (test)(i = 1,...,m)は、電子的な申請情報の項目から好適にはコンピュータの処理により自動的に生成される。タイム・スタンプti (test)は、好適には、その申請情報が入力された日時であり、例えば、日付+時刻のフォーマットである。
 分類器510は、既知の教師付き機械学習処理によって、個々のテスト・データ(xi (test),ti (test))にクラス・ラベルyi (test)を付与する。分類器510の機能を関数h()と見立てて、yi (test) = h(xi (test)) と表記することもできる。
 なお、既知の教師付き機械学習には大きく分けて分類問題と回帰問題があり、この発明の目的に使用できるのは分類問題である。分類問題として知られている技法には、線形分類器としてフィッシャーの線形判別関数、ロジスティック回帰、単純ベイズ分類器、パーセプトロン、それ以外にQuadratic classifier、k近傍法、ブースティング、決定木、ニューラルネットワーク、ベイジアンネットワーク、サポートベクターマシン、隠れマルコフモデルがあり、本発明はこのうちの任意の技法を使用することが可能であるが、この実施例では特に、サポートベクターマシンを用いるものとする。より詳しい記述は、Christopher M. Bishop, "Pattern Recognition And Machine Learning", 2006, Springer Verlag.などを参照されたい。 
 分類器510は、テスト・データ504を読み込んで、クラス・ラベルを付与して、下記のような分類されたデータ512を生成する。
D(test) = {(x1 (test),y1 (test),t1 (test)),...,(xm (test),ym (test),tm (test))}
 クラスタ解析ルーチン514は、訓練データ502のデータの特徴ベクトルの間に、ユークリッド距離、マッハッタン距離などの距離を定義し、この距離をもちいてK-meansなどの既知の方法でクラスタリングを行うことで結果のクラスタリングの区画データ516を生成する。区画データ516は、好適にはハードディスク・ドライブ408に保存される。区画データ516は、個々のクラスタの境界または中心などの位置情報を規定するので、区画データ516に対照することで、任意のデータがどのクラスタに属するかが分かる。すなわち、区画データ516が副分類器の役割を果たす。なお、この発明で利用可能なクラスタリング技法はK-meansに限らず、ガウス混合モデル、凝集法、分枝クラスタリング、自己組織化マップなど、この発明に適合する任意のクラスタリング技法を使用することができる。あるいは、グリッド分割により、分割されたデータ群を得るようにしてもよい。
 クラスタ解析ルーチン514は、クラスタリングした結果をあらわす区画データ516をハードディスク・ドライブ408に書き出す。
 時系列解析ルーチン518は、訓練データ502を読み込み、区画データ516に従うクラスタ(サブクラス)毎の所定の時間窓毎のデータの頻度、その他の統計データを計算して、時系列データ520として好適にはハードディスク・ドライブ408に保存する。
 時系列解析ルーチン522は、テスト・データ504を読み込み、区画データ516に従うクラスタ(サブクラス)毎の所定の時間窓毎のデータの頻度、その他の統計データを計算して、時系列データ524として好適にはハードディスク・ドライブ408に保存する。
 異常検出ルーチン526は、時系列データ520と時系列データ524の対応するクラスタの対応する時間窓に関するデータを計算して、その値が所定の閾値より大きい場合に、警報ルーチン528を起動する機能をもつ。
 警報ルーチン528は、ディスプレイ414に、異常が検出されたクラスタと時間窓などを表示して、オペレータに通知する機能をもつ。
 以下、図6~図9のフローチャートを参照して、実行される処理を順次説明する。先ず図6は、訓練データ解析処理のフローチャートを示す図である。
 図6のステップ602では、分類器生成ルーチン506が、分類パラメータ508を生成することにより、分類器510を生成する。
 ステップ604では、クラスタ解析ルーチン514が、副分類器、すなわちクラスタリングのための区画516を生成する。
 ステップ606では、時系列解析ルーチン518が、各サブクラスと時間窓毎に入力頻度統計を計算することにより、時系列データ520を生成する。
 図7は、ステップ604の処理を具体的に示すフローチャートを示す図である。すなわち、この処理では、クラスタ解析ルーチン514が、ステップ702からステップ706までのクラス毎に亘るループにおいて、ステップ704で、当該クラスのデータに関して、副分類器を生成する。
 なお、図7のフローチャートの処理で、全てのクラスを亘る必要はなく、例えば、あるクラスでの攻撃を検出したいなら、そのクラスだけ処理すればよい。
 図8は、テスト・データを解析するための処理のフローチャートを示す図である。ステップ802からステップ810まではループで、テスト・データ504に含まれる全データに亘っての処理である。
 ステップ804では、分類器510がテスト・データ504の個々のデータを分類する。すると、ステップ806では、分類されたデータを以って、時系列解析ルーチン522が、区画データ516に基づき、サブクラスに分類(すなわち、クラスタリング)し、ステップ808で時系列解析ルーチン522は、所定幅の時間窓をずらしながら、現在の時間窓におけるサブクラスでの入力頻度をインクリメントする。
 ステップ802からステップ810までの処理のループがテスト・データ504に含まれる全データに亘って完了すると、時系列解析ルーチン522は、時系列データ524をハードディスク・ドライブ408に書き出す。
 図9は、所定時間窓で異常検出ルーチン526が異常の可能性を検出するための処理のフローチャートを示す図である。ステップ902で、異常検出ルーチン526は、当該時間窓でテスト入力頻度の、訓練データ頻度に対する比を計算する。
 ステップ904では、異常検出ルーチン526は、各サブクラスで統計的に有意な頻度の増加スコアを計算する。ここで、統計的に有意とは、十分な数のサンプルが揃っているという意味である。有意な頻度の増加スコアは、単純な比計算でもよいが、この実施例では、より正確に計算するために、下記のような式を用いる。
 まず、時間窓の幅をWとする。また、関数g()を、サブクラスを求めるための関数とする。すると、当該時間窓において、時間tでjとラベルされる入力特徴ベクトルの集合は、次の式であらわされる。
Figure JPOXMLDOC01-appb-M000001



 ここで、modeは、訓練データを意味するtraining、またはテスト・データを意味するtestのどちらかである。また、ラベルjをもつ入力データの発生確率を次のように定義する。
Figure JPOXMLDOC01-appb-M000002



 すると、異常増加スコアは次の式で定義される。
Figure JPOXMLDOC01-appb-M000003



 この式で、E()は期待値、σ()は分散をあらわす。
 この式は基本的には頻度の移動平均値とその分散を用いるものであるが、ウェーブレット変換などの周波数変換を適用して、周期的な相対頻度の揺らぎを考慮してもよい。
 ステップ906では、異常検出ルーチン526は、上記の異常増加スコアの値が、閾値を超えているかどうか判断し、もしそうなら、ステップ908で、警報ルーチン528が起動され、そのサブクラスで不正の可能性があることが、ディスプレイ414上に表示される。
 この判断において、必要に応じて、サンプル毎のコストの大小で重み付けたり、攻撃となりうる改竄の特徴を利用して自然変動と区別するようにしてもよい。
 図9のフローチャートの処理は、時間窓毎に実行される。
 図10は、訓練データとテスト・データで、クラスAの各サブクラスA1、A2、・・・An毎の時間に沿ったデータの分布を示す図である。本発明の処理は、訓練データとテスト・データの間の、同一クラスの同一サブクラスにおける、所定時間窓における頻度の比で、異常の可能性を検出するものである。
 図11は、そのような異常の可能性が検出された例を示す。すなわち、ある特定の時間枠において、参照番号1104で示すように4番目のクラスタ(サブクラス)で、テスト・データの頻度が訓練データの頻度に対して、実質的に大きいことを異常検出ルーチン526が検出して、不正なデータの存在の可能性を警報ルーチン528に通知する。
 警報ルーチン528の作動によって、オペレータは、当該時間窓の当該クラスタでのデータに問題がある可能性がある、と問題を特定すべきデータを絞り込むことができる。そして、それらのデータを解析した結果、検知した、攻撃の原因となった誤判別が特定されることで、ラベルを一旦修正してこれらを不合格に移動させるとともに、今後の判別モデル修正のきっかけを得ることになる。
 また、認識時の入力中、統計が大きく外れる原因となった、頻出の特徴をもったサブクラスが同定できる場合に限定することにより、自動認識の裏をつくマニュアルなどを推定できる場合に限定して報告してもよい。
 以上、この発明を特定の実施例に基づき説明してきたが、この発明は、この特定の実施例に限定されず、当業者が自明に思いつく様々な変形、置換などの構成、技法適用可能であることを理解されたい。
 例えば、この実施例では、保険会社での保険請求の査定、金融会社でのローンやクレジットカードの審査や与信のための申請書類の審査への適用例を説明したが、記載内容が特徴ベクトル化できるような、審査される任意の文書に適用可能である。
404・・・CPU
408・・・ハードディスク・ドライブ
502・・・訓練データ
504・・・テスト・データ
506・・・分類器生成ルーチン
510・・・分類器
514・・・クラスタ解析ルーチン
516・・・区画データ
518、522・・・時系列解析ルーチン
520、524・・・時系列データ
526・・・異常検出ルーチン

Claims (18)

  1.  コンピュータの処理により、教師付き機械学習により構成された分類器に対する不正なデータによる攻撃を検出する方法であって、
     特徴データと、ラベルと、時刻を含む複数の訓練データを用意するステップと、
     前記訓練データを用いて分類器を構成するステップと、
     前記訓練データを用いて、前記分類器によって分類されたクラスのデータをサブクラスに分類しつつ副分類器を構成するステップと、
     特徴データと、ラベルと、時刻を含む複数のテスト・データを用意するステップと、
     前記分類器を用いて前記複数のテスト・データを分類するステップと、
     前記副分類器を用いて前記分類された前記複数のテスト・データをサブクラスに分類するステップと、
     前記時刻の所定幅の時間窓において、前記同一のサブクラス毎に、前記訓練データに対する前記テスト・データの相対的な頻度をあらわす統計的データを計算するステップと、
     前記統計的データの値が所定の閾値を超えることに応答して、不正なデータによる攻撃の可能性を警報するステップを有する、
     情報識別方法。
  2.  前記特徴データが、金融関係の申請書類の質問項目への回答を電子化した特徴ベクトルによりあらわされ、前記クラスが合格と不合格のクラスを含む、請求項1に記載の方法。
  3.  前記分類器が、サポートベクターマシンにより構成される、請求項1に記載の方法。
  4.  前記副分類器が、K-meansのアルゴリズムを利用する、請求項1に記載の方法。
  5.  前記不正なデータが、偽合格のデータである、請求項2に記載の方法。
  6.  前記統計データが、前記頻度の移動平均値とその分散を用いて計算される、請求項1に記載の方法。
  7.  コンピュータの処理により、教師付き機械学習により構成された分類器に対する不正なデータによる攻撃を検出するプログラムであって、
     前記コンピュータに、
     特徴データと、ラベルと、時刻を含む複数の訓練データを用意するステップと、
     前記訓練データを用いて分類器を構成するステップと、
     前記訓練データを用いて、前記分類器によって分類されたクラスのデータをサブクラスに分類しつつ副分類器を構成するステップと、
     特徴データと、ラベルと、時刻を含む複数のテスト・データを用意するステップと、
     前記分類器を用いて前記複数のテスト・データを分類するステップと、
     前記副分類器を用いて前記分類された前記複数のテスト・データをサブクラスに分類するステップと、
     前記時刻の所定幅の時間窓において、前記同一のサブクラス毎に、前記訓練データに対する前記テスト・データの相対的な頻度をあらわす統計的データを計算するステップと、
     前記統計的データの値が所定の閾値を超えることに応答して、不正なデータによる攻撃の可能性を警報するステップを実行させる、
     情報識別プログラム。
  8.  前記特徴データが、金融関係の申請書類の質問項目への回答を電子化した特徴ベクトルによりあらわされ、前記クラスが合格と不合格のクラスを含む、請求項7に記載のプログラム。
  9.  前記分類器が、サポートベクターマシンにより構成される、請求項7に記載のプログラム。
  10.  前記副分類器が、K-meansのアルゴリズムを利用する、請求項7に記載のプログラム。
  11.  前記不正なデータが、偽合格のデータである、請求項8に記載のプログラム。
  12.  前記統計データが、前記頻度の移動平均値とその分散を用いて計算される、請求項7に記載のプログラム。
  13.  コンピュータの処理により、教師付き機械学習により構成された分類器に対する不正なデータによる攻撃を検出するシステムであって、
     記憶手段と、
     前記記憶手段に保存された、特徴データと、ラベルと、時刻を含む複数の訓練データと、
     前記訓練データを用いて構成された分類器と、
     前記訓練データを用いて構成された、前記分類器によって分類されたクラスのデータをサブクラスに分類するための副分類器と、
     前記訓練データに前記副分類器を適用して作成され、前記記憶手段に保存された、前記訓練データのサブクラスのデータと、
     前記記憶手段に保存された、特徴データと、ラベルと、時刻を含む複数のテスト・データと、
     前記テスト・データに前記副分類器を適用して作成され、前記記憶手段に保存された、前記訓練データのサブクラスのデータと、
     前記時刻の所定幅の時間窓において、前記同一のサブクラス毎に、前記訓練データに対する前記テスト・データの相対的な頻度をあらわす統計的データを計算する手段と、
     前記統計的データの値が所定の閾値を超えることに応答して、不正なデータによる攻撃の可能性を警報する手段とを有する、
     情報識別システム。
  14.  前記特徴データが、金融関係の申請書類の質問項目への回答を電子化した特徴ベクトルによりあらわされ、前記クラスが合格と不合格のクラスを含む、請求項13に記載のシステム。
  15.  前記分類器が、サポートベクターマシンにより構成される、請求項13に記載のシステム。
  16.  前記副分類器が、K-meansのアルゴリズムを利用する、請求項13に記載のシステム。
  17.  前記不正なデータが、偽合格のデータである、請求項14に記載のシステム。
  18.  前記統計データが、前記頻度の移動平均値とその分散を用いて計算される、請求項13に記載のシステム。
PCT/JP2012/061294 2011-07-25 2012-04-26 情報識別方法、プログラム及びシステム WO2013014987A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
DE112012003110.5T DE112012003110T5 (de) 2011-07-25 2012-04-26 Verfahren, Programmprodukt und System zur Datenidentifizierung
US14/234,747 US9471882B2 (en) 2011-07-25 2012-04-26 Information identification method, program product, and system using relative frequency
GB1401147.2A GB2507217A (en) 2011-07-25 2012-04-26 Information identification method, program and system
JP2013525603A JP5568183B2 (ja) 2011-07-25 2012-04-26 情報識別方法、プログラム及びシステム
CN201280036705.8A CN103703487B (zh) 2011-07-25 2012-04-26 信息识别方法以及系统

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011162082 2011-07-25
JP2011-162082 2011-07-25

Publications (1)

Publication Number Publication Date
WO2013014987A1 true WO2013014987A1 (ja) 2013-01-31

Family

ID=47600847

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2012/061294 WO2013014987A1 (ja) 2011-07-25 2012-04-26 情報識別方法、プログラム及びシステム

Country Status (6)

Country Link
US (1) US9471882B2 (ja)
JP (1) JP5568183B2 (ja)
CN (1) CN103703487B (ja)
DE (1) DE112012003110T5 (ja)
GB (1) GB2507217A (ja)
WO (1) WO2013014987A1 (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653740A (zh) * 2016-03-22 2016-06-08 中南林业科技大学 一种用于文本挖掘的系统
JP2020160546A (ja) * 2019-03-25 2020-10-01 株式会社日立製作所 業務の外れケース抽出支援システムおよび業務の外れケース抽出支援方法
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统
JP2021018757A (ja) * 2019-07-23 2021-02-15 イチロウホールディングス株式会社 リース契約システム及びリース契約プログラム
WO2021111540A1 (ja) 2019-12-04 2021-06-10 富士通株式会社 評価方法、評価プログラム、および情報処理装置

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10535014B2 (en) 2014-03-10 2020-01-14 California Institute Of Technology Alternative training distribution data in machine learning
US10558935B2 (en) * 2013-11-22 2020-02-11 California Institute Of Technology Weight benefit evaluator for training data
US9953271B2 (en) 2013-11-22 2018-04-24 California Institute Of Technology Generation of weights in machine learning
US9858534B2 (en) 2013-11-22 2018-01-02 California Institute Of Technology Weight generation in machine learning
US20150206064A1 (en) * 2014-01-19 2015-07-23 Jacob Levman Method for supervised machine learning
TWI528216B (zh) * 2014-04-30 2016-04-01 財團法人資訊工業策進會 隨選檢測惡意程式之方法、電子裝置、及使用者介面
US9686312B2 (en) * 2014-07-23 2017-06-20 Cisco Technology, Inc. Verifying network attack detector effectiveness
CN104616031B (zh) * 2015-01-22 2018-06-12 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
US10713140B2 (en) 2015-06-10 2020-07-14 Fair Isaac Corporation Identifying latent states of machines based on machine logs
US10282458B2 (en) * 2015-06-15 2019-05-07 Vmware, Inc. Event notification system with cluster classification
US10296982B1 (en) 2015-10-15 2019-05-21 State Farm Mutual Automobile Insurance Company Using images and voice recordings to facilitate underwriting life insurance
US10360093B2 (en) * 2015-11-18 2019-07-23 Fair Isaac Corporation Detecting anomalous states of machines
US10410113B2 (en) * 2016-01-14 2019-09-10 Preferred Networks, Inc. Time series data adaptation and sensor fusion systems, methods, and apparatus
JP6719724B2 (ja) * 2016-02-05 2020-07-08 富士ゼロックス株式会社 データ分類装置およびプログラム
CN109074517B (zh) * 2016-03-18 2021-11-30 谷歌有限责任公司 全局归一化神经网络
CN106383812B (zh) * 2016-08-30 2020-05-26 泰康保险集团股份有限公司 新契约保单测试方法及装置
JP6858798B2 (ja) * 2017-02-02 2021-04-14 日本電信電話株式会社 特徴量生成装置、特徴量生成方法及びプログラム
KR20190126430A (ko) 2017-03-31 2019-11-11 쓰리엠 이노베이티브 프로퍼티즈 컴파니 이미지 기반 위조 검출
CN109409529B (zh) * 2018-09-13 2020-12-08 北京中科闻歌科技股份有限公司 一种事件认知分析方法、系统及存储介质
JP7331369B2 (ja) * 2019-01-30 2023-08-23 日本電信電話株式会社 異常音追加学習方法、データ追加学習方法、異常度算出装置、指標値算出装置、およびプログラム
US11715030B2 (en) 2019-03-29 2023-08-01 Red Hat, Inc. Automatic object optimization to accelerate machine learning training
US11966851B2 (en) 2019-04-02 2024-04-23 International Business Machines Corporation Construction of a machine learning model
CN110012013A (zh) * 2019-04-04 2019-07-12 电子科技大学成都学院 一种基于knn的虚拟平台威胁行为分析方法及系统
CN111046379B (zh) * 2019-12-06 2021-06-18 支付宝(杭州)信息技术有限公司 一种对抗攻击的监测方法和装置
CN111046957B (zh) * 2019-12-13 2021-03-16 支付宝(杭州)信息技术有限公司 一种模型盗用的检测、模型的训练方法和装置
US11481679B2 (en) * 2020-03-02 2022-10-25 Kyndryl, Inc. Adaptive data ingestion rates
US20230132720A1 (en) * 2021-10-29 2023-05-04 Intuit Inc. Multiple input machine learning framework for anomaly detection

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128674A (ja) * 2008-11-26 2010-06-10 Nec Corp コンピュータネットワーク、異常検出装置、異常検出方法および異常検出プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1376420A1 (en) 2002-06-19 2004-01-02 Pitsos Errikos Method and system for classifying electronic documents
US8239677B2 (en) * 2006-10-10 2012-08-07 Equifax Inc. Verification and authentication systems and methods
JP2009048402A (ja) 2007-08-20 2009-03-05 Fujitsu Ltd 申請手続不正リスク評価装置
CN102449660B (zh) * 2009-04-01 2015-05-06 I-切塔纳私人有限公司 用于数据检测的系统和方法
US20110218948A1 (en) * 2009-12-15 2011-09-08 Fabricio Benevenuto De Souza Methods for detecting spammers and content promoters in online video social networks

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010128674A (ja) * 2008-11-26 2010-06-10 Nec Corp コンピュータネットワーク、異常検出装置、異常検出方法および異常検出プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
HIROAKI OYA ET AL.: "A Technique to Reduce False Positives of Network IDS with Machine Learning", TRANSACTIONS OF INFORMATION PROCESSING SOCIETY OF JAPAN, vol. 45, no. 8, 15 August 2004 (2004-08-15), pages 2105 - 2112 *
STIJN VIAENE ET AL.: "Strategies for detecting fraudulent claims in the automobile insurance industry", EUROPEAN JOURNAL OF OPERATIONAL RESEARCH, vol. 176, 2007, pages 565 - 583 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105653740A (zh) * 2016-03-22 2016-06-08 中南林业科技大学 一种用于文本挖掘的系统
JP2020160546A (ja) * 2019-03-25 2020-10-01 株式会社日立製作所 業務の外れケース抽出支援システムおよび業務の外れケース抽出支援方法
JP7171482B2 (ja) 2019-03-25 2022-11-15 株式会社日立製作所 業務の外れケース抽出支援システムおよび業務の外れケース抽出支援方法
JP2021018757A (ja) * 2019-07-23 2021-02-15 イチロウホールディングス株式会社 リース契約システム及びリース契約プログラム
JP7198405B2 (ja) 2019-07-23 2023-01-04 イチロウホールディングス株式会社 リース契約システム及びリース契約プログラム
WO2021111540A1 (ja) 2019-12-04 2021-06-10 富士通株式会社 評価方法、評価プログラム、および情報処理装置
CN111797260A (zh) * 2020-07-10 2020-10-20 宁夏中科启创知识产权咨询有限公司 基于图像识别的商标检索方法及系统

Also Published As

Publication number Publication date
JP5568183B2 (ja) 2014-08-06
US9471882B2 (en) 2016-10-18
DE112012003110T5 (de) 2014-04-10
CN103703487B (zh) 2016-11-02
GB201401147D0 (en) 2014-03-12
US20140180980A1 (en) 2014-06-26
GB2507217A (en) 2014-04-23
CN103703487A (zh) 2014-04-02
JPWO2013014987A1 (ja) 2015-02-23

Similar Documents

Publication Publication Date Title
JP5568183B2 (ja) 情報識別方法、プログラム及びシステム
US11005872B2 (en) Anomaly detection in cybersecurity and fraud applications
Du et al. Lifelong anomaly detection through unlearning
Wang et al. A two-step parametric method for failure prediction in hard disk drives
US20200379868A1 (en) Anomaly detection using deep learning models
US8886574B2 (en) Generalized pattern recognition for fault diagnosis in machine condition monitoring
EP2193478B1 (en) Segment-based change detection method in multivariate data stream
KR20210145126A (ko) 데이터 이상을 검출하고 해석하기 위한 방법, 및 관련된 시스템 및 디바이스
Ebadollahi et al. Predicting patient’s trajectory of physiological data using temporal trends in similar patients: a system for near-term prognostics
US20160042287A1 (en) Computer-Implemented System And Method For Detecting Anomalies Using Sample-Based Rule Identification
CN111709765A (zh) 一种用户画像评分方法、装置和存储介质
US20230085991A1 (en) Anomaly detection and filtering of time-series data
Jeragh et al. Combining auto encoders and one class support vectors machine for fraudulant credit card transactions detection
US11727109B2 (en) Identifying adversarial attacks with advanced subset scanning
US20210365771A1 (en) Out-of-distribution (ood) detection by perturbation
Ghashghaei et al. Grayscale image statistics of COVID-19 patient CT scans characterize lung condition with machine and deep learning
Leoni et al. A derivative, integral, and proportional features extractor for fault detection in dynamic processes
Sethi et al. Comparative Evaluation of Approaches and Mechanisms for Software Metrics
Niculaescu Applying data science for anomaly and change point detection
US20230013470A1 (en) Autonomic detection and correction of artificial intelligence model drift
Alhashem et al. Evaluation of Machine Learning Techniques for ESP Diagnosis Using a Synthetic Time Series Dataset
Webster A comparison of transfer learning algorithms for defect and vulnerability detection
Frank et al. Comparative analysis of DNNs and SVMs for anomaly detection
Zapata-Cortes et al. Machine Learning Models and Applications for Early Detection
Jahani et al. Anomaly Detection in Cloud Computing Workloads based on Re-source Usage

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 12817705

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2013525603

Country of ref document: JP

Kind code of ref document: A

ENP Entry into the national phase

Ref document number: 1401147

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20120426

WWE Wipo information: entry into national phase

Ref document number: 1401147.2

Country of ref document: GB

WWE Wipo information: entry into national phase

Ref document number: 14234747

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1120120031105

Country of ref document: DE

Ref document number: 112012003110

Country of ref document: DE

122 Ep: pct application non-entry in european phase

Ref document number: 12817705

Country of ref document: EP

Kind code of ref document: A1

ENPC Correction to former announcement of entry into national phase, pct application did not enter into the national phase

Ref country code: GB