WO2020250730A1

WO2020250730A1 - 不正検知装置、不正検知方法および不正検知プログラム

Info

Publication number: WO2020250730A1
Application number: PCT/JP2020/021566
Authority: WO
Inventors: 実奥田; 直生吉永
Original assignee: 日本電気株式会社
Priority date: 2019-06-11
Filing date: 2020-06-01
Publication date: 2020-12-17
Also published as: JPWO2020250730A1; US20220180369A1; EP3985589A4; JP7173332B2; EP3985589A1

Abstract

金融機関の業務における不正取引を検知する不正検知装置８０であって、教師なし学習により金融機関の業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部８１と、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部８２と、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外部８３とを備えている。

Description

不正検知装置、不正検知方法および不正検知プログラム

　本発明は、金融機関の業務において不正な取引を検知する不正検知装置、不正検知方法および不正検知プログラムに関する。

　金融機関の業務において、不正送金や口座の不正利用といった不正取引を自動で検出できるように、取引データから不正取引を検出する仕組みが各種提案されている。例えば、このような不正取引を検出する方法として、金融機関の業務で発生するトランザクションデータに基づいて、不正取引を検出するモデルを学習する方法が挙げられる。

　例えば、非特許文献１には、このようなモデルを学習する方法として、教師なし学習の一例であるデータクラスタリングアルゴリズム（ＤＢＳＣＡＮ：Density-based spatial clustering of applications with noise）が記載されている。

Martin Ester , Hans-peter Kriegel , Jorg Sander , Xiaowei Xu,A density-based algorithm for discovering clusters in large spatial databases with noise,AAAI Press,p226--231,1996

　一方、金融機関の業務において発生する不正取引の数は、通常の取引（正常取引）の数に比べて圧倒的に少ない。すなわち、不正取引のデータと正常取引のデータとは不均衡であると言える。そのため、例えば、非特許文献１に記載されたアルゴリズムを用いて不正取引を予測しようとしたとしても、不均衡データの問題により、予測精度が非常に低下したり、偏ったりしてしまうという問題がある。

　そのため、金融機関の業務において発生する不正取引のような、正常取引に比べて極めて少ないデータ（不均衡データ）を用いて、その不正取引を検知するモデルを学習する場合であっても、そのモデルの予測精度を向上できることが好ましい。

　そこで、本発明は、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる不正検知装置、不正検知方法および不正検知プログラムを提供することを目的とする。

　本発明による不正検知装置は、金融機関の業務における不正取引を検知する不正検知装置であって、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部と、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部と、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外部とを備えたことを特徴とする。

　本発明による不正検知方法は、金融機関の業務における不正取引を検知する不正検知方法であって、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出し、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習し、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外することを特徴とする。

　本発明による不正検知プログラムは、金融機関の業務における不正取引を検知するコンピュータに適用される不正検知プログラムであって、コンピュータに、教師なし学習により業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出処理、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習処理、および、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外処理を実行させることを特徴とする。

　本発明によれば、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。

本発明による不正検知装置の第一の実施形態の構成例を示すブロック図である。階層型混合モデルによる判別モデルの例を示す説明図である。第一の実施形態の不正検知装置の動作例を示すフローチャートである。本発明による不正検知装置の第二の実施形態の構成例を示すブロック図である。スコアごとに割合を集計した例を示す説明図である。対象データの割合を可視化した例を示す説明図である。第二の実施形態の不正検知装置の動作例を示すフローチャートである。正常取引データを特定した結果の例を示す説明図である。教師なし学習による学習結果と学習結果との対応例を示す説明図である。対象データを除外した結果の例を示す説明図である。データ除外後の対象データと学習結果との対応例を示す説明図である。本発明による不正検知装置の概要を示すブロック図である。少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。

　以下、本発明の実施形態を図面を参照して説明する。

実施形態１．
　図１は、本発明による不正検知装置の第一の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置１００は、記憶部１０と、対象データ抽出部２０と、第一学習部３０と、データ除外部４０とを備えている。本実施形態の不正検知装置１００は、取得される電子データから、金融機関の業務における不正取引（例えば、不正送金や、口座の不正利用など）を検知する装置である。

　記憶部１０は、不正取引か否かの判断に用いられる取引データを記憶する。この取引データには、例えば、入出金の情報や、日時、金額など、各金融機関において行われる取引で利用される情報が含まれる。なお、取引データのフォーマットは任意であり、対象とする金融機関等に応じて定めておけばよい。また、記憶部１０は、後述する第一学習部３０がモデルを学習するために必要な各種パラメータを記憶していてもよい。記憶部１０は、例えば、磁気ディスク等により実現される。

　対象データ抽出部２０は、金融機関の業務における取引データから、教師なし学習により、正常と判断される取引データ（以下、正常取引データと記す。）を除外して、後述する第一学習部３０が、学習に用いるデータ（以下、対象データと記す。）を抽出する。なお、対象データ抽出部２０が教師なし学習を行う方法は任意である。対象データ抽出部２０は、例えば、上述する非特許文献１に記載されたアルゴリズムを用いて対象データを抽出してもよい。

　以下の説明では、正例のデータを正例と判断した件数をＴＰ（True Positive ）と記し、負例のデータを負例と判断した件数をＴＮ（True Negative ）と記す。また、正例のデータを負例と判断した件数をＦＮ（False Negative）と記し、負例のデータを正例と判断した件数をＦＰ（False Positive）と記す。

　すなわち、対象データ抽出部２０は、教師なし学習により、正常取引データと分類されたＴＰに該当するデータを除外して、不正取引データに分類されたＴＮ含むそれ以外に該当するデータを対象データとして抽出する。

　第一学習部３０は、対象データ抽出部２０によって抽出された対象データのうち、不正取引を示すデータを正例とし、正例以外の残りのデータを負例とする学習データを用いて、階層型混合モデルを学習する。なお、後述する説明と区別するために、第一学習部３０によって学習される階層型混合モデルのことを、第一階層型混合モデルと記す。

　第一学習部３０は、例えば、生成された学習データを用いて異種混合機械学習により階層型混合モデルを生成する。ただし、同様の技術であれば、第一学習部３０が階層型混合モデルを学習する方法は、異種混合機械学習に限定されない。

　階層型混合モデルは、木構造で表され、葉ノードにコンポーネントが配されるとともに、他の上位ノードに分岐条件を示す門関数（門木関数）が配される構造を有する。門関数の分岐条件は説明変数を用いて記述される。階層型混合モデルにデータが入力されると、入力されたデータは、門関数で分岐され、根ノードおよび各節ノードを辿って複数のコンポーネントのいずれかに割り当てられる。

　図２は、階層型混合モデルによる判別モデルの例を示す説明図である。図２に示す例では、条件１～３に基づいて、入力されたデータが４種類のいずれかの葉ノードに分類され、各葉ノードに配された判別式Ｙ_１～Ｙ_４に基づいて判別されることを示す。例えば、条件１を満たすデータ（条件１＝ｔｒｕｅを満たすデータ）が入力された場合、そのデータは、判別式Ｙ_１が配される葉ノードに分類され、判別式Ｙ_１＝Ｆ_１（Ｘ）に基づいて判別が行われる。

　データ除外部４０は、対象データから、負例とされた学習データが第一階層型混合モデルにより負例と分類された対象データを除外する。すなわち、データ除外部４０は、負例と予測された負例のデータ（ＴＮｈ）に該当するデータを対象データから除外する。

　具体的には、データ除外部４０は、階層型混合モデルの各葉ノードに配された判別式を用いて、その葉ノードに分類されたデータの判別を行う。データ除外部４０は、他の葉ノードに分類されたデータについても同様に判別を行い、各葉ノードに分類されたデータの判別結果を集計する。データ除外部４０は、葉ノード（すなわち、データが分類される条件）ごとに、分類されたデータが負例と予測された割合を算出する。算出した割合が予め定めた閾値以上の場合、データ除外部４０は、そのノードに分類するための条件に該当するデータを対象データから除外すると判断する。

　データ除外部４０による上記処理は、教師なし学習により、不正取引データと判別されたデータの中から、正常取引データを除外する処理に対応する。このように正常取引データを対象データから除外することで、対象データ全体に対する不正取引データの割合を高めることが可能になるため、不正取引をより検知しやすくなる。さらに、不正取引データと正常取引データの不均衡度合いを低減させた学習データ群を生成できるため、不正取引を検知する精度を向上させるようにモデルを学習できるようになる。

　また、第一学習部３０による学習処理と、データ除外部４０による除外処理が繰り返し行われてもよい。具体的には、第一学習部３０によって第一階層型混合モデルが生成されるごとに、データ除外部４０が、除外対象とする条件を特定して、その条件に該当するデータを対象データから除外すると決定してもよい。すなわち、データ除外部４０は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、その条件のいずれかに該当するデータを対象データから除外してもよい。このように繰り返し処理を行うことで、除外対象とするデータを増加させることが可能になる。

　対象データ抽出部２０と、第一学習部３０と、データ除外部４０とは、プログラム（不正検知プログラム）に従って動作するコンピュータのプロセッサ（例えば、ＣＰＵ（Central Processing Unit ）、ＧＰＵ（Graphics Processing Unit）、ＦＰＧＡ（field-programmable gate array ））によって実現される。

　例えば、プログラムは、記憶部１０に記憶され、プロセッサは、そのプログラムを読み込み、プログラムに従って、対象データ抽出部２０、第一学習部３０およびデータ除外部４０として動作してもよい。また、不正検知装置の機能がＳａａＳ（Software as a Service ）形式で提供されてもよい。

　対象データ抽出部２０と、第一学習部３０と、データ除外部４０とは、それぞれが専用のハードウェアで実現されていてもよい。また、各装置の各構成要素の一部又は全部は、汎用または専用の回路（circuitry ）、プロセッサ等やこれらの組合せによって実現されもよい。これらは、単一のチップによって構成されてもよいし、バスを介して接続される複数のチップによって構成されてもよい。各装置の各構成要素の一部又は全部は、上述した回路等とプログラムとの組合せによって実現されてもよい。

　また、不正検知装置の各構成要素の一部又は全部が複数の情報処理装置や回路等により実現される場合には、複数の情報処理装置や回路等は、集中配置されてもよいし、分散配置されてもよい。例えば、情報処理装置や回路等は、クライアントサーバシステム、クラウドコンピューティングシステム等、各々が通信ネットワークを介して接続される形態として実現されてもよい。

　次に、本実施形態の不正検知装置の動作を説明する。図３は、本実施形態の不正検知装置の動作例を示すフローチャートである。対象データ抽出部２０は、教師なし学習により金融機関の業務における取引データから正常取引データを除外して対象データを抽出する（ステップＳ１１）。第一学習部３０は、抽出された対象データのうち、不正取引を示すデータを正例とし、残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する（ステップＳ１２）。データ除外部４０は、第一階層型混合モデルにより、学習データのうち、完全に負例と判別されたデータ（ＴＮ）を対象データから除外する（ステップＳ１３）。

　以上のように、本実施形態では、対象データ抽出部２０が、教師なし学習により金融機関の業務における取引データから正常取引データを除外して対象データを抽出し、第一学習部３０が、抽出された対象データのうち、不正取引を示すデータを正例とし、残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する。そして、データ除外部４０が、第一階層型混合モデルにより、学習データのうち、完全に負例と判別されたデータ（ＴＮ）を対象データから除外する。よって、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。

実施形態２．
　次に、本発明による不正検知装置の第二の実施形態を説明する。第二の実施形態では、不正取引の確度に応じて、予測結果を可視化する方法を説明する。図４は、本発明による不正検知装置の第二の実施形態の構成例を示すブロック図である。本実施形態の不正検知装置２００は、記憶部１０と、対象データ抽出部２０と、第一学習部３０と、データ除外部４０と、第二学習部５０と、スコア算出部６０と、可視化部７０とを備えている。

　すなわち、本実施形態の不正検知装置２００は、第一の実施形態の不正検知装置１００と比較し、第二学習部５０、スコア算出部６０および可視化部７０をさらに備えている点において異なる。それ以外の構成は、第一の実施形態と同様である。

　第二学習部５０は、データ除外部４０により除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、階層型混合モデルを学習する。なお、第一学習部３０によって学習される階層型混合モデルと区別するため、第二学習部５０が生成した学習モデルを第二階層型混合モデルと記す。

　スコア算出部６０は、階層型混合モデルにおける葉ノードごとに、データの判別結果を算出する。具体的には、スコア算出部６０は、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合（すなわち、ＴＰの割合）をスコアとして算出する。

　具体的には、スコア算出部６０は、第一の実施形態におけるデータ除外部４０と同様に、各葉ノードに配された判別式を用いて、その葉ノードに分類されたデータの判別を行う。スコア算出部６０は、葉ノード（すなわち、データが分類される条件）ごとに、ＴＰの割合をスコアとして算出する。スコア算出部６０は、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定する。

　また、第二学習部５０による学習処理と、スコア算出部６０によるデータ特定処理が繰り返し行われてもよい。具体的には、第二学習部５０によって第二階層型混合モデルが生成されるごとに、スコア算出部６０が、不正取引の確度が高い条件を特定してもよい。このように繰り返し処理を行うことで、不正取引の確度の高い条件を増加させることが可能になる。

　可視化部７０は、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する。具体的には、可視化部７０は、予め定めた値または範囲に該当するスコアが集計されたノードの条件に該当するデータの件数を集計する。そして、可視化部７０は、全体の件数に対する集計された件数の割合を算出する。

　例えば、スコアが１００％と算出されたノードに含まれるデータの割合を可視化するとする。この場合、可視化部７０は、ＴＰの割合が１００％と算出されたノードの条件に合致するデータの件数を集計する。また、例えば、１０％刻みのスコアごとにデータの割合を可視化するとする。この場合、可視化部７０は、ＴＰの割合が１００％～９０％、１００％～８０％、…、と算出されたノードの条件に合致するデータの件数を集計する。

　図５は、スコアごとに割合を集計した例を示す説明図である。図５に示す例では、第二学習部５０による学習処理と、スコア算出部６０によるデータ特定処理が、それぞれ、３００回、６００回、９００回、１２００回、および、６０００回繰り返し行われた結果を示す。また、図５では、３００回、６００回、９００回および１２００回の場合に、スコアが１００％と算出された条件に合致するデータの件数を、正常取引データと不正取引データごとに集計した例を示す。さらに、６０００回の場合には、スコアを１０％刻みで正常取引データと不正取引データごとに集計した例を示す。

　図５に例示するように、繰り返し回数が増加するにしたがって、不正取引データの抽出件数は増加する。さらに、スコアを１００％だけでなく、一定割合の正常取引データが含まれることを許容した場合、より不正取引データの候補を抽出することができるようになる。すなわち、閾値を高く設定することにより不正率（割合）を高めることができ、閾値を低く設定することで、多くの不正取引データの候補を抽出できるようになると言える。

　可視化部７０は、算出した割合を表示装置（図示せず）に可視化する。可視化部７０は、例えば、面積に対応付けてデータ数の割合を可視化してもよい。図６は、対象データの割合を可視化した例を示す説明図である。図６に示す例では、取引データ全体Ｄ１のうち、教師なし学習によって抽出された対象データＤ２が、面積に応じた円で表示されている。また、対象データＤ２のうち、データ除外部４０によってデータＤ３が除外される。

　こうして除外された残ったデータの中に、不正取引データが含まれていることになる。可視化部７０は、例えば、スコアの大きいデータの割合を、低いデータの割合よりも目立つ態様で可視化してもよい。図６では、可視化部７０が、スコアの大きいデータの割合を、黒の楕円Ｄ１３で可視化し、スコアが低くなるにしたがって、網掛けの濃さを薄くした楕円Ｄ１２、楕円Ｄ１１のように可視化した例を示す。

　このように可視化することで、予測精度を解釈性と併せて分類できるようになる。例えば、金融機関の担当者は、よりスコアの大きい領域に含まれる不正取引データから優先的に確認することができるようになる。

　対象データ抽出部２０と、第一学習部３０と、データ除外部４０と、第二学習部５０と、スコア算出部６０と、可視化部７０とは、プログラム（不正検知プログラム）に従って動作するコンピュータのプロセッサによって実現される。

　次に、本実施形態の不正検知装置の動作を説明する。図７は、本実施形態の不正検知装置の動作例を示すフローチャートである。なお、取引データから対象データを抽出して、されに正常取引データを除外するまでのステップＳ１１からステップＳ１３までの処理は、図４に例示する処理と同様である。

　第二学習部５０は、データ除外部４０によって除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する（ステップＳ２１）。スコア算出部６０は、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出する（ステップＳ２２）。そして、可視化部７０は、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する（ステップＳ２３）。

　以上のように、本実施形態では、第二学習部５０が、除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する。そして、スコア算出部６０が、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、可視化部７０が、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する。よって、第一の実施形態の効果に加え、予測精度を解釈性と併せて分類することが可能になる。そのため、例えば、金融機関の担当者が、不正取引データの割合を確認することが可能になる。

　次に、本発明による不正検知装置を用いて不正取引データを検知する具体例を説明する。本具体例では、ある金融機関の取引データが８２，６６３件存在し、そのうち４８０件が不正取引データである（すなわち、正常取引データが８２，１８３件である）ものとする。

　まず、対象データ抽出部２０が、教師なし学習により、８２，６６３件の取引データから正常取引データを特定し、その正常取引データを取引データから除外して対象データを抽出する。図８は、正常取引データを特定した結果の例を示す説明図である。図８に示す例では、正常取引データ８２，１８３件のうち、７０，４０４件を正常取引データと予測し、再現率（Ｒｅｃａｌｌ）が８５．６７％である。また、不正取引データ４８０件のうち、４７８件を不正取引データと予測し、再現率（Ｒｅｃａｌｌ）が９９．５８％である。

　さらに、図８に示す例では、正常取引データと予測した７０，４０６件に、２件の不正取引データが含まれており、適合率が９９．９９％である。また、不正取引データと予測した１２，２５９件のうち、１１，７７９件の正常取引データが含まれており、適合率が３．９０％である。その結果、データ全体の精度（正解率：Ａｃｃｕｒａｃｙ）は、８５．７５％と算出される。本具体例では、不正取引データと予測された１２，２５７件（適合率：３．９０％）に含まれる正常取引データの割合を減らし、適合率を向上させることを目指す。

　第一学習部３０は、不正取引データと予測された１２，２５７件のデータで、ＴＮを正例、それ以外を負例として第一階層型混合モデルを学習する。図９は、教師なし学習による学習結果と、第一階層型混合モデルの学習結果との対応例を示す説明図である。第一階層型混合モデルを学習した結果、それぞれ、ＴＰ、ＦＮ、ＦＰおよびＴＮが算出される。図９では、図８に示す結果と区別するため、算出されたＴＰ、ＦＮ、ＦＰおよびＴＮを、それぞれ、ＴＰｈ、ＦＮｈ、ＦＰｈおよびＴＮｈで示している。データ除外部４０は、学習の結果、ＴＮｈに該当するデータを対象データから除外する。

　図１０は、対象データを除外した結果の例を示す説明図である。図１０（ａ）は、全体の精度を示し、図１０（ｂ）は、予測精度を示す。図１０に例示するように、学習処理および除外処理を３，６００回行った結果、データ数を約５０％程度削減（６，５２８件に削減）して適合率が７．３１％まで向上し、予測精度も７．０９％まで向上している。

　第二学習部５０は、除外されて残ったデータについて、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する。図１１は、データ除外後の対象データと第二階層型混合モデルの学習結果との対応例を示す説明図である。第二階層型混合モデルを学習した結果、それぞれ、ＴＰ、ＦＮ、ＦＰおよびＴＮが算出される。図１１では、図８および図９に示す結果と区別するため、算出されたＴＰ、ＦＮ、ＦＰおよびＴＮを、それぞれ、ＴＰｘ、ＦＮｘ、ＦＰｘおよびＴＮｘで示している。

　スコア算出部６０は、ノードごとにスコアを算出し、可視化部７０は、ＴＰｘの割合が高いものを確度が高い部分として特定し、可視化する。可視化部７０は、例えば、図５に例示する結果から図６に例示する内容を可視化する。

　次に、本発明の概要を説明する。図１２は、本発明による不正検知装置の概要を示すブロック図である。本発明による不正検知装置８０は、金融機関（例えば、銀行など）の業務における不正取引を検知する不正検知装置（例えば、不正検知装置１００）であって、教師なし学習（例えば、ＤＢＳＣＡＮ）により金融機関の業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部８１（例えば、対象データ抽出部２０）と、対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部８２（例えば、第一学習部３０）と、対象データから、第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データ（ＴＮｈ）を除外するデータ除外部８３（例えば、データ除外部４０）とを備えている。

　そのような構成により、不均衡データを用いる場合であっても、不正取引を検知する精度を向上させるようにモデルを学習できる。

　また、不正検知装置８０（例えば、不正検知装置２００）は、除外されて残った対象データのうち、不正取引を示すデータを正例とし、その正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習部（例えば、第二学習部５０）と、第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データ（ＴＰ）の割合をスコアとして算出するスコア算出部（例えば、スコア算出部６０）と、スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化部（例えば、可視化部７０）とを備えていてもよい。

　そのような構成によれば、予測精度を解釈性と併せて分類できるようになる。例えば、金融機関の担当者は、よりスコアの大きい領域に含まれる不正取引データから優先的に確認することができるようになる。

　具体的には、スコア算出部は、第二階層型混合モデルの各葉ノードに配された判別式を用いて、各葉ノードに分類された学習データの判別を行い、葉ノードごとに、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定してもよい。

　また、データ除外部８３は、第一階層型混合モデルの各葉ノードに配された判別式を用いて、各葉ノードに分類された学習データの判別を行い、分類された学習データが完全に負例と予測された割合を葉ノードごとに算出し、算出した割合が予め定めた閾値以上である葉ノードに分類するための条件に該当するデータを対象データから除外してもよい。

　より詳しくは、データ除外部８３は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、その条件のいずれかに該当するデータを対象データから除外してもよい。

　図１３は、少なくとも１つの実施形態に係るコンピュータの構成を示す概略ブロック図である。コンピュータ１０００は、プロセッサ１００１、主記憶装置１００２、補助記憶装置１００３、インタフェース１００４を備える。

　不正検知装置は、コンピュータ１０００に実装される。そして、上述した各処理部の動作は、プログラム（不正検知プログラム）の形式で補助記憶装置１００３に記憶されている。プロセッサ１００１は、プログラムを補助記憶装置１００３から読み出して主記憶装置１００２に展開し、当該プログラムに従って上記処理を実行する。

　なお、少なくとも１つの実施形態において、補助記憶装置１００３は、一時的でない有形の媒体の一例である。一時的でない有形の媒体の他の例としては、インタフェース１００４を介して接続される磁気ディスク、光磁気ディスク、ＣＤ－ＲＯＭ（Compact Disc Read-only memory ）、ＤＶＤ－ＲＯＭ（Read-only memory）、半導体メモリ等が挙げられる。また、このプログラムが通信回線によってコンピュータ１０００に配信される場合、配信を受けたコンピュータ１０００が当該プログラムを主記憶装置１００２に展開し、上記処理を実行してもよい。

　また、当該プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、当該プログラムは、前述した機能を補助記憶装置１００３に既に記憶されている他のプログラムとの組み合わせで実現するもの、いわゆる差分ファイル（差分プログラム）であってもよい。

　以上、実施形態及び実施例を参照して本願発明を説明したが、本願発明は上記実施形態および実施例に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１９年６月１１日に出願された日本特許出願２０１９－１０８５１７を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　１０　記憶部
　２０　対象データ抽出部
　３０　第一学習部
　４０　データ除外部
　５０　第二学習部
　６０　スコア算出部
　７０　可視化部
　１００，２００　不正検知装置

Claims

　金融機関の業務における不正取引を検知する不正検知装置であって、
　教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出部と、
　前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習部と、
　前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外部とを備えた
　ことを特徴とする不正検知装置。
　除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習部と、
　前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出するスコア算出部と、
　前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化部とを備えた
　請求項１記載の不正検知装置。
　スコア算出部は、第二階層型混合モデルの各葉ノードに配された判別式を用いて、当該各葉ノードに分類された学習データの判別を行い、葉ノードごとに、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、算出したスコアが予め定めた閾値以上になるノードの条件を不正取引の確度が高い条件として特定する
　請求項２記載の不正検知装置。
　データ除外部は、第一階層型混合モデルの各葉ノードに配された判別式を用いて、当該各葉ノードに分類された学習データの判別を行い、分類された学習データが負例と予測された割合を葉ノードごとに算出し、算出した割合が予め定めた閾値以上である葉ノードに分類するための条件に該当するデータを対象データから除外する
　請求項１から請求項３のうちのいずれか１項に記載の不正検知装置。
　データ除外部は、第一階層型混合モデルが学習されるごとに、対象データを除外するための条件を特定し、当該条件のいずれかに該当するデータを対象データから除外する
　請求項４記載の不正検知装置。
　金融機関の業務における不正取引を検知する不正検知方法であって、
　教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出し、
　前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習し、
　前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外する
　ことを特徴とする不正検知方法。
　除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習し、
　前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出し、
　前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する
　請求項６記載の不正検知方法。
　金融機関の業務における不正取引を検知するコンピュータに適用される不正検知プログラムであって、
　前記コンピュータに、
　教師なし学習により前記業務における取引データから正常取引データを除外して対象データを抽出する対象データ抽出処理、
　前記対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第一階層型混合モデルを学習する第一学習処理、および、
　前記対象データから、前記第一階層型混合モデルにより、負例とした学習データが負例と判別された対象データを除外するデータ除外処理
　を実行させるための不正検知プログラム。
　コンピュータに、
　除外されて残った対象データのうち、不正取引を示すデータを正例とし、当該正例以外の残りのデータを負例とする学習データを用いて、第二階層型混合モデルを学習する第二学習処理、
　前記第二階層型混合モデルにより、正例とした学習データが正例と判別された対象データの割合をスコアとして算出するスコア算出処理、および、
　前記スコアごとに集計された対象データの、全体の対象データに対する割合を可視化する可視化処理を実行させる
　請求項８記載の不正検知プログラム。