WO2024013939A1

WO2024013939A1 - 機械学習プログラム、機械学習方法、および情報処理装置

Info

Publication number: WO2024013939A1
Application number: PCT/JP2022/027725
Authority: WO
Inventors: 毅宏大橋; 研佐々木; 一太郎茂木; 勉石田
Original assignee: 富士通株式会社
Priority date: 2022-07-14
Filing date: 2022-07-14
Publication date: 2024-01-18

Abstract

不正の疑いのあるトランザクションの検出精度を向上させる。　情報処理装置（１０）は、コンピュータシステム（１）における複数のトランザクションの履歴を示す履歴情報（１１ｂ）を入力データとする教師なしの第１の機械学習により、複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出する。次に情報処理装置（１０）は、複数のトランザクションそれぞれのアノマリースコアに基づいて、複数のトランザクションの履歴に不正の疑いの有無を示す疑似ラベルを設定する。そして情報処理装置（１０）は、疑似ラベルが付与された複数のトランザクションの履歴を訓練データする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する。

Description

機械学習プログラム、機械学習方法、および情報処理装置

　本発明は、機械学習プログラム、機械学習方法、および情報処理装置に関する。

　コンピュータシステムでは、ユーザの要求に応じたトランザクションを実行することによって例えば金融取引などの処理が実行される。金融取引のトランザクションで不正が行われると、社会的に大きな影響が生じることがある。そのため金融機関では、管理している金融取引用の口座（アカウントとも呼ばれる）がマネーロンダリングなどの不正な取引に利用されないように、口座を適切に管理することが求められる。特にマネーロンダリングに対する対策を施すことはアンチマネーロンダリング（ＡＭＬ：Anti-Money Laundering）と呼ばれる。

　例えばＡＭＬによる不正トランザクションの検出では、不正監視装置により、経験則によるルールで疑わしいトランザクションが検出される。システムの管理者は、検出されたトランザクションについて詳細に調査して、不正の有無を判断する。

　不正検知に関する技術としては、例えば機械学習を適用し、潜在的マネーロンダリングを正確に識別および捜査し得るシステムが提案されている。また不正取引を精度高く検知できる不正取引検知装置も提案されている。

特表２０２２－５０８１０６号公報特開２０２０－１５４５４３号公報

　不正のトランザクションの検知には機械学習の技術を適用することができるが、マネーロンダリングのデータの特性上、十分な量の正解のラベルデータの取得が困難である。正解ラベル付きのデータを取得できたとしてもそのデータは極端に不均一であり、そのデータだけで教師あり機械学習を行っても、精度のよい結果が得られない。さらには、マネーロンダリングの手法が日々変わっていくため、過去の不正トランザクションを示す正解のラベルデータに基づいて教師あり機械学習をしても、運用中のシステムに有効な学習済みモデルを生成できない可能性がある。そのため、従来は、教師なし学習で不正検知が行われている。しかし、単に教師なし学習を行うだけでは、不正の疑いのあるトランザクションの検出精度が十分ではない。

　１つの側面では、本発明は、不正の疑いのあるトランザクションの検出精度を向上させることを目的とする。

　１つの案では、以下の処理をコンピュータに実行させる機械学習プログラムが提供される。
　コンピュータは、コンピュータシステムにおける複数のトランザクションの履歴を示す履歴情報を入力データとする教師なしの第１の機械学習により、複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出する。コンピュータは、複数のトランザクションそれぞれのアノマリースコアに基づいて、複数のトランザクションの履歴に不正の疑いの有無を示す疑似ラベルを設定する。そしてコンピュータは、疑似ラベルが付与された複数のトランザクションの履歴を訓練データとする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する。

　１態様によれば、不正の疑いのあるトランザクションの検出精度を向上させることができる。
　本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態に係る機械学習方法の一例を示す図である。システム構成の一例を示す図である。ＡＭＬ装置のハードウェアの一例を示す図である。ＡＭＬ装置が有する機能の一例を示すブロック図である。トランザクションＤＢの一例を示す図である。ブラックＤＢの一例を示す図である。メタデータの一例を示す図である。ＡＭＬ処理の手順の一例を示すフローチャートである。開発フェーズと運用フェーズとの処理の流れを示す模式図である。開発フェーズにおける具体的処理の一例を示す図である。口座間のグラフ構造学習処理の一例を示す図である。教師なし異常検知処理における入力データの一例を示す図である。教師なし異常検知処理の一例を示す図である。疑似ラベルを用いた教師あり学習の一例を示す図である。教師あり学習による推論処理の一例を示す図である。疑わしい取引の優先順位付けの一例を示す図である。疑わしい取引の根拠の可視化の一例を示す図である。ルール可視化の一例を示す図である。不正ネットワーク学習の一例を示す図である。不正ネットワーク表示方法の一例を示す図である。不正の疑いがあると判定した根拠の表示方法の一例を示す図である。

　以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
　〔第１の実施の形態〕
　第１の実施の形態は、不正の疑いのあるトランザクションの検出精度を向上させる機械学習方法である。

　図１は、第１の実施の形態に係る機械学習方法の一例を示す図である。図１には、機械学習方法の実施に用いる情報処理装置１０を示している。情報処理装置１０は、例えば機械学習プログラムを実行することにより、第１の実施の形態に係る機械学習方法を実施することができる。

　情報処理装置１０は、記憶部１１と処理部１２とを有する。記憶部１１は、例えば情報処理装置１０が有するメモリまたはストレージ装置である。処理部１２は、例えば情報処理装置１０が有するプロセッサまたは演算回路である。

　記憶部１１は、不正情報１１ａと履歴情報１１ｂとを有する。不正情報１１ａは、調査によって不正トランザクションであると判明したトランザクションの情報である。履歴情報１１ｂは、コンピュータシステム１におけるアカウント間の複数のトランザクションの履歴を示す情報である。なお情報処理装置１０の運用開始の初期段階では、不正情報１１ａが未作成の場合もあり得る。

　処理部１２は、履歴情報１１ｂ、あるいは不正情報１１ａと履歴情報１１ｂとに基づいて、不正の疑いのあるトランザクションを高精度で検出できるモデルを生成する。そして処理部１２は、そのモデルを用いて不正の疑いのあるトランザクションを検出し、そのトランザクションまたはそのトランザクションに利用されたアカウントを調査官に提示する。例えば、処理部１２は以下の処理を行う。

　処理部１２は、履歴情報１１ｂを入力データとする教師なしの第１の機械学習により、複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出する。この際、処理部１２は、不正情報１１ａに基づく特徴ベクトルを第１の機械学習の入力データに追加してもよい。

　特徴ベクトルを第１の機械学習の入力データに追加する場合、処理部１２は、不正取引に利用されたアカウントの特徴を表す特徴ベクトルを生成する。例えば処理部１２は、履歴情報１１ｂに基づいて、アカウント間の関係を認識する。アカウント間の関係は、例えばアカウントをノードとして、トランザクションの関係を有するアカウントのノードをエッジで接続するグラフ構造で表される。

　処理部１２は、不正情報１１ａに基づいて、不正トランザクションに利用されたアカウントそれぞれについてフラグを設定する。そして処理部１２は、複数のアカウント間の関係を表すグラフ構造を、グラフニューラルネットワークによって学習し、グラフ構造に基づいて特徴ベクトルを生成する。不正に利用されたアカウントの特徴ベクトルは、それ以外のアカウントとは大きく異なる特徴ベクトルとなる。処理部１２は、履歴情報１１ｂにおける各トランザクションに対して、利用しているアカウントの特徴ベクトルを付与したデータを、第１の機械学習の入力データとする。

　処理部１２は、例えば第１の機械学習として、オートエンコーダーを用いることができる。その場合、処理部１２は、オートエンコーダーの入力データと出力データ差に基づいて、トランザクションごとのアノマリースコアを算出する。

　処理部１２は、複数のトランザクションそれぞれのアノマリースコアに基づいて、複数のトランザクションそれぞれに、不正の疑いの有無を示す疑似ラベルを設定する。例えば処理部１２は、アノマリースコアが所定の閾値以上のトランザクションについて、不正の疑いがあることを示す疑似ラベルを付与する。

　処理部１２は、疑似ラベルが付与された複数のトランザクションの情報を訓練データとする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、その一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する。例えば処理部１２は、勾配ブースティンのような木構造（決定木）を用いた機械学習アルゴリズムにより、モデルを生成する。モデルを生成する際、処理部１２は、例えば不正情報１１ａを用いてモデルの検証を行い、検証結果が所定の条件を満たすまでモデルの修正を繰り返す。

　その後、処理部１２は、生成されたモデルに基づいて、未調査のトランザクションが不正か否かを推定する。例えば処理部１２は、未調査のトランザクションが不正であることの疑わしさの度合いを示すリスクスコアを算出する。処理部１２は、リスクスコアが所定の閾値以上であれば不正の疑いありと判定することができる。

　そして処理部１２は、例えばモデルを用いた推定で不正の疑いありと判定された不正疑義トランザクションについて、不正の疑いありと判定した根拠を特定し、根拠を出力する。また処理部１２は、所定の指標に基づいて不正疑義トランザクションを並べ替えて出力してもよい。例えば処理部１２は、リスクスコア、トランザクション金額などを指標として、不正疑義トランザクションを並べ替えることができる。また処理部１２は、複数の指標を組み合わせて不正疑義トランザクションを並べ替えることもできる。さらに処理部１２は、モデルの生成に用いた木構造に基づいて、未調査のトランザクションを不正であると判定するためのルールを出力してもよい。

　トランザクションの不正の有無を調査するユーザ（調査官）は、不正の疑いがあるとされたトランザクションの内容を詳細に調査し、そのトランザクションが不正か否かを判断する。調査官は、調査結果を情報処理装置１０に入力する。処理部１２は、調査されたトランザクションについて不正と判断された場合、そのトランザクションが不正であることを示す情報を、不正情報１１ａとして記憶部１１に格納する。また処理部１２は、調査が完了したトランザクションについては、履歴情報１１ｂにおいて、調査済みであることを示すフラグを設定してもよい。

　このようにして、複数の機械学習アルゴリズムを合理的に処理することにより、不正検知の精度を向上させることができる。例えばマネーロンダリングのような不正は、膨大な量のトランザクションのうちのごく少数のトランザクションである。そのため異常である度合い（アノマリースコア）が高ければ、マネーロンダリングなどの不正なトランザクションである可能性が高い。そこで処理部１２は、教師なしの第１の機械学習の推定値として得られたアノマリースコアに基づいて各トランザクションに疑似ラベルを設定している。

　そして処理部１２は、疑似ラベルが設定された各トランザクションのトランザクション情報を訓練データとする教師ありの第２の機械学習を行い、モデルを生成する。このように教師なしの第１の機械学習を用いた疑似ラベルの付与と、疑似ラベルが付与されたトランザクション履歴に基づく教師ありの第２の機械学習とにより、教師なしでも不正の疑いのあるトランザクションを高精度に検出することが可能となる。すなわちすべてのトランザクションについて不正の有無の調査が未調査であり、不正情報１１ａが得られていない段階でも、履歴情報１１ｂに基づく不正の疑いのあるトランザクションの検知が可能となる。

　また不正情報１１ａが作成されている場合、処理部１２は、不正情報１１ａを有効に利用して、モデルの精度を向上させることができる。例えば処理部１２は、教師ありの第２の機械学習で生成したモデルの精度を不正情報１１ａで検証することで、モデルを修正し、モデルの精度を向上させることができる。

　さらに処理部１２は、不正情報１１ａに基づいて、不正に利用されたアカウントにフラグを付与したグラフ構造を用いて、各アカウントの特徴ベクトルを生成することができる。例えば処理部１２は、教師なしの第１の機械学習の際に、トランザクションの履歴に、そのトランザクションで利用されたアカウントの特徴ベクトルを付与したデータを入力データとする。これによりに、不正なトランザクションに利用されているアカウントを用いたその他のトランザクションについてのアノマリースコアが高くなる。その結果、疑似ラベルを正しく設定することができ、疑似ラベルを利用した教師ありの第２の機械学習で生成されるモデルの精度も向上する。

　このように不正の疑いのあるトランザクションを高精度に検出できることで、不正の可能性が低いトランザクションを調査せずに済み、調査官の業務の効率化が図れる。しかも処理部１２は、不正のリスクスコア、取引金額などの指標に基づいて、各トランザクションに対して、調査の優先順位付けを行うことができる。これにより、調査官は、優先度の高いトランザクションから調査を行うことができ、効率的な調査が可能となる。例えば「損失額削減」、「不正検知数最大化」、「機会損失最小化」などのシナリオに応じた最適化が可能となる。

　さらに処理部１２は、トランザクションが不正であると判断するためのルールを提示することもできる。ルールが提示されることで、調査官は、不正の疑いがあると判断されたトランザクションについて、なぜそのように判断されたのかを把握することができる。その結果、調査官は、該当のトランザクションについて、不正か否かの調査を効率的に進めることができる。

　なお、処理部１２は、不正の疑いがあるものとして提示するトランザクションの数の上限を定め、上限以下の数のトランザクションを提示することもできる。これにより、調査対象のトランザクションの数の最適化を図り、疑いがあるトランザクションとして提示したトランザクションについての調査率１００％を達成することができる。

　〔第２の実施の形態〕
　第２の実施の形態は、複数のＡＩ（Artificial Intelligence）／ＭＬ（Machine Learning）アルゴリズムを合理的に処理することにより、不正検知の向上と業務処理効率の向上との両方を実現することができる金融取引の不正検知システムである。なお不正検知の向上と業務処理効率の向上とのバランスは、リスクベースアプローチによって調整される。

　第２の実施の形態では、金融取引におけるマネーロンダリングなどの不正の検知を目的としており、利用するユーザのアカウントは口座と呼ぶ。また各トランザクションはそのトランザクションで実施される取引に対応する。さらに、以下の説明において機械学習を単に学習と呼ぶこともある。

　図２は、システム構成の一例を示す図である。図２の例は、銀行などの金融機関の口座間の取引がマネーロンダリングに使用されることを抑止するためのシステムである。当該システムでは、ネットワーク２０を介して金融取引システム３１、ＡＭＬ装置１００、および端末３０が接続されている。

　金融取引システム３１は、銀行などの金融機関における顧客の口座間の取引を管理するコンピュータである。ＡＭＬ装置１００は、金融取引システム３１で管理されている口座を利用したマネーロンダリングなどの不正取引の検知を支援するコンピュータである。端末３０は、システムの管理者が使用するコンピュータである。なおＡＭＬ装置１００によって、複数の金融機関の不正検知を行う場合、金融取引システム３１は金融機関ごとに存在する。

　図３は、ＡＭＬ装置のハードウェアの一例を示す図である。ＡＭＬ装置１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

　メモリ１０２は、ＡＭＬ装置１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

　バス１０９に接続されている周辺機器としては、ストレージ装置１０３、ＧＰＵ（Graphics Processing Unit）１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

　ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、ＡＭＬ装置１００の補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

　ＧＰＵ１０４は画像処理を行う演算装置であり、グラフィックコントローラとも呼ばれる。ＧＰＵ１０４には、モニタ２１が接続されている。ＧＰＵ１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

　入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

　光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取り、または光ディスク２４へのデータの書き込みを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

　機器接続インタフェース１０７は、ＡＭＬ装置１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

　ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。ネットワークインタフェース１０８は、例えばスイッチやルータなどの有線通信装置にケーブルで接続される有線通信インタフェースである。またネットワークインタフェース１０８は、基地局やアクセスポイントなどの無線通信装置に電波によって通信接続される無線通信インタフェースであってもよい。

　ＡＭＬ装置１００は、以上のようなハードウェアによって、第２の実施の形態の処理機能を実現することができる。なお、第１の実施の形態に示した情報処理装置１０も、図３に示したＡＭＬ装置１００と同様のハードウェアにより実現することができる。

　ＡＭＬ装置１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。ＡＭＬ装置１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、ＡＭＬ装置１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。またＡＭＬ装置１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

　ここで、マネーロンダリング検知の困難性、および根拠の説明の困難性について説明する。マネーロンダリングは膨大な量の金融取引の極一部であり、正解のラベルデータの取得が難しい。しかもマネーロンダリングの手法は様々であり、該当取引のトランザクションの内容が極端に不均一である。そのためマネーロンダリングについての十分な量の教師ありの訓練データを揃えるのは困難である。さらに犯罪手法が日々変わっていくため、多くの場合は教師なし学習で不正検知が行われる。教師なし学習の場合、ＡＩの判断結果に対する根拠やルールの提示は困難である。

　それに対して、第２の実施の形態のＡＭＬ装置１００は、教師ラベルがないか、もしくは少ない状況でも、不正の疑いのある取引の高精度の検知を可能とし、さらに検知理由と検知のルールの提示をも可能とする。例えばＡＭＬ装置１００は、リスクベースアプローチにより不正検知と業務処理効率の両方を実現する。そのためにＡＭＬ装置１００は、複数のＡＩ／ＭＬアルゴリズムを組み合わせた機械学習を行う。例えばＡＭＬ装置１００は、教師なし学習による推定値を疑似ラベルとして教師あり学習を実行する。そしてＡＭＬ装置１００は、不正取引であることが調査済みの取引が格納されたブラックデータベース（ＤＢ）で、教師あり学習で生成したモデルを検証する。これにより、不正取引か否かについて未調査の取引ＤＢを用いて不正検知能力を向上させることが可能となる。例えばブラックＤＢが十分に蓄積されてない初期段階でも、ＡＭＬ装置１００をマネーロンダリングなどの不正取引の検知装置として運用することが可能となる。

　ＡＭＬ装置１００は、取引ＤＢから「取引金額」を使い、リスク（例えば不正件数／全体の件数）と金額の２指標を活用した調査の優先順位付けも可能である。またＡＭＬ装置１００は、Risk Adjusted Fraud Amount を生成し、３つ目の指標を取り入れた業務最適化も可能である。さらにＡＭＬ装置１００は、ＡＭＬ調査官の人員に応じた限界処理件数も４つ目の指標に入れ、ＡＭＬ検知の最適化も可能である。

　この結果、調査対象として提示する取引数をアラート処理量としたとき、今まで問題であった膨大な「アラート処理量」の最適化を実現することができる。すなわち処理可能なアラート処理量に削減しながらも、「損失額削減」、「不正検知数最大」、「調査率１００％」、「機会損失最小」などのシナリオに応じた最適化が可能となる。

　図４は、ＡＭＬ装置が有する機能の一例を示すブロック図である。ＡＭＬ装置１００は、ＡＭＬに利用するデータを記憶する記憶部１０３ａを有する。記憶部１０３ａとしては、例えばストレージ装置１０３内の記憶領域の一部が用いられる。記憶部１０３ａには、例えばトランザクションＤＢ１１０、ブラックＤＢ１２０、メタデータ１３０が格納される。

　トランザクションＤＢ１１０は、口座間の取引のログを蓄積したＤＢである。例えば金融取引システム３１において実行されたトランザクションのログのコピーが、トランザクションＤＢ１１０に格納される。トランザクションＤＢ１１０は、第１の実施の形態に示す履歴情報１１ｂの一例である。ブラックＤＢ１２０は、金融機関または決済業者が過去に不正に利用されたとして特定した取引または口座の情報を格納するＤＢである。ブラックＤＢ１２０は、第１の実施の形態に示す不正情報１１ａの一例である。メタデータ１３０は、例えば口座に関する情報、取引に関する情報などである。

　ＡＭＬ装置１００は、ＡＭＬを実現するための処理機能として、グラフ構造学習部１５１、教師なし異常検知部１５２、教師あり学習部１５３、優先順位付け部１５４、根拠・ルール提示部１５５、説明可能ＡＩ部１５６、および説明可視化部１５７を有する。

　グラフ構造学習部１５１は、口座間のグラフ構造と不正に利用された口座の情報とに基づいて、半教師あり学習によって口座ごとの特徴を示す特徴ベクトルを学習する。グラフ構造としては、例えば口座に対応するノードと、口座間の取引関係を表すエッジとで構成されたグラフが用いられる。例えばグラフ構造学習部１５１は、グラフ深層学習（ＧＮＮ：Graph Neural Network）を用いて学習を行う。

　教師なし異常検知部１５２は、グラフ構造学習部１５１が学習した口座ごとの特徴ベクトルと、トランザクションＤＢ１１０とに基づいて教師なし学習を行い、各取引についての異常らしさを示す数値（アノマリースコア）を得る。

　教師あり学習部１５３は、教師なし異常検知部１５２が算出したアノマリースコアに基づいて、トランザクションＤＢ１１０の個々のトランザクションに対応する取引に疑似ラベルを設定する。そして教師あり学習部１５３は、疑似ラベルを設定した取引のデータ（トランザクションのログと疑似ラベル）を訓練データとして、教師あり学習を行い、不正検知用のモデルを学習する。なお教師あり学習部１５３は、ブラックＤＢ１２０を用いて、生成したモデルの精度を計測する。

　優先順位付け部１５４は、不正検知用のモデルによって不正の疑いありと検知された取引の調査の優先順位付けを行う。優先順位付け部１５４は、例えば不正取引があったときのリスクに基づいて順位付けを行う。

　根拠・ルール提示部１５５は、疑わしい取引の根拠、または疑わしい取引を検知するためのルールを提示する。
　説明可能ＡＩ部１５６は、説明可能ＡＩを用いて、不正検知用のモデルによって不正の疑いありとされた口座について、不正が疑われる理由を示す情報を得る。

　説明可視化部１５７は、不正の疑いのある取引についての、不正と判断する根拠となる説明を可視化する。
　なお、図４に示した各要素間を接続する線は通信経路の一部を示すものであり、図示した通信経路以外の通信経路も設定可能である。また、図４に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

　ＡＭＬ装置１００において、図４に示した各機能が連係して動作することで、マネーロンダリングなどの不正の取引を検知することができる。以下、図５～図７を参照して、ＡＭＬ装置１００におけるＡＭＬ処理に使用するデータについて具体的に説明する。

　図５は、トランザクションＤＢの一例を示す図である。例えばトランザクションＤＢ１１０には、実行されたトランザクションごとの取引の内容を示すレコードが登録されたログ管理テーブル１１１が格納されている。ログ管理テーブル１１１には、トランザクションＩＤ（ＴｘＩＤ）、金額（Ａｍｏｕｎｔ）、日付（Ｄａｔｅ）、送金元口座（Ｓｅｎｄｅｒ　ａｃｃｏｕｎｔ）、送金先口座（Ｒｅｃｅｉｖｅｒ　ａｃｃｏｕｎｔ）などの欄が設けられている。トランザクションＩＤは、トランザクションの識別番号である。金額は、口座間の取引金額である。日付は、取引の日付である。送信元口座は、送金元となった口座を識別する情報である。送金先口座は、送金先となった口座を識別する情報である。

　図６は、ブラックＤＢの一例を示す図である。例えばブラックＤＢ１２０には、不正口座リスト１２１と不正取引管理テーブル１２２とが格納されている。不正口座リスト１２１には、不正取引に使用されたことが分かっている口座の識別情報が登録されている。不正取引管理テーブル１２２には、トランザクションＤＢ１１０に格納された取引のレコードのうち、調査官による調査によって不正取引であると認定された取引のレコードのコピーが登録されている。

　図７は、メタデータの一例を示す図である。例えばメタデータ１３０には、口座情報テーブル１３１と取引情報テーブル１３２とが格納されている。口座情報テーブル１３１には、口座ごとのレコードが登録されている。口座情報テーブル１３１には、口座、口座名義人などの欄が設けられている。口座の欄には、口座の識別番号が設定される。口座名義人の欄には、該当口座を使用している人または組織の名称が設定される。口座情報テーブル１３１には、口座に関連するその他のさまざまな情報（口座開設日、残金など）が含まれる。取引情報テーブル１３２には、取引の種別ごとに、その取引についての説明が登録されている。

　次に、ＡＭＬ装置１００におけるＡＭＬ処理の手順について説明する。
　図８は、ＡＭＬ処理の手順の一例を示すフローチャートである。以下、図８に示す処理をステップ番号に沿って説明する。

　［ステップＳ１０１］グラフ構造学習部１５１は、半教師あり学習により、口座間のグラフ構造を学習する。グラフ構造学習部１５１は、グラフ構造に基づいて、口座ごとの特徴ベクトルを算出する。

　［ステップＳ１０２］教師なし異常検知部１５２は、トランザクションＤＢ１１０に示される取引と、取引に使用された口座の特徴ベクトルとに基づいて、教師なし異常検知を行う。教師なし異常検知部１５２は、教師なし異常検知により、取引ごとのアノマリースコアを算出する。

　［ステップＳ１０３］教師あり学習部１５３は、トランザクションＤＢ１１０の取引のレコードにアノマリースコアに基づく疑似ラベルを付与して、疑似ラベルを用いた教師あり学習を行う。学習部１５３は、学習過程で、ブラックＤＢ１２０を用いて、学習によって生成するモデルの精度を検証する。

　［ステップＳ１０４］優先順位付け部１５４は、教師あり学習によって生成されたモデルによる不正検知の結果に加え、取引の金額、処理限界件数、リスクスコア（不正な取引である確率）などを用いて、不正の疑いのある取引についての調査の優先順位付けを行う。

　［ステップＳ１０５］根拠・ルール提示部１５５は、不正の疑いのある取引について、不正の疑いがあると判断した根拠、または不正と判断するためのルールを調査官に提示する。

　［ステップＳ１０６］説明可能ＡＩ部１５６は、不正の疑いがある取引に関連する口座の疑似ラベルを生成し、その疑似ラベルを用いて説明可能ＡＩによって教師あり深層学習を行う。その結果、説明可能ＡＩ部１５６は、疑わしい取引に利用された口座のつながり（不正ネットワーク）を学習する。

　［ステップＳ１０７］説明可視化部１５７は、不正取引を可視化する。
　このような処理によって、不正取引の調査を効率的に行うことが可能となる。なお、図８に示すステップＳ１０１～Ｓ１０３は開発フェーズで行う処理であり、ステップＳ１０４～Ｓ１０７は運用フェーズで行う処理である。

　図９は、開発フェーズと運用フェーズとの処理の流れを示す模式図である。開発フェーズ４１において、グラフ構造学習部１５１は、ブラックＤＢ１２０に対する特徴量エンジニアリング（ＦＥ：Feature Engineering）を行い、不正取引に利用された口座の特徴量を抽出する。グラフ構造学習部１５１は、例えば口座間の関係をグラフ化し、ＧＮＮによって、口座の特徴ベクトルを算出する。グラフ構造学習部１５１は、算出した口座の特徴ベクトルを教師なし異常検知部１５２に送信する。

　教師なし異常検知部１５２は、トランザクションＤＢ１１０に対する特徴量エンジニアリングを行い、取引ごとの特徴を示すデータを抽出する。教師なし異常検知部１５２は、グラフ構造学習部１５１から取得した口座の特徴ベクトルと、取引ごとの特徴を示すデータとを入力として、例えばグラフを用いたグラフオートエンコーダーのようなオートエンコーダーにより教師なし学習を行う。教師なし異常検知部１５２は、教師なし学習により、取引ごとに、取引が他の取引から外れている度合いを示すアノマリースコアを出力する。教師なし異常検知部１５２は、アノマリースコアに示される確率で取引のランク付けをすることもできる。また教師なし異常検知部１５２は、ロジスティック回帰などで用いられるｌｏｇ－ｏｄｄｓ変換により、アノマリースコアを変換してもよい。

　教師あり学習部１５３は、取引ごとのアノマリースコアに基づいて、取引ごとの疑似ラベルを設定する。また教師あり学習部１５３は、トランザクションＤＢ１１０に対する特徴量エンジニアリングを行い、取引ごとの特徴を示すデータを抽出する。この際、教師あり学習部１５３は、例えばユーザが分かりやすい形式の特徴量エンジニアリングを行う。

　そして教師あり学習部１５３は、疑似ラベル付きの取引のデータを用いて、例えばＬＧＢＭ（Light Gradient Boosting Machine）による教師あり学習を行う。教師あり学習によって、取引を示すデータから、その取引が不正取引か否かを判別するモデルが生成される。なお教師あり学習部１５３は、生成したモデルを、ブラックＤＢ１２０を用いて検証する。すなわち教師あり学習部１５３は、不正な取引であるとしてブラックＤＢ１２０に登録されている取引のデータをモデルに入力したときに、正しく不正と判断されるか否かを検証する。また教師あり学習部１５３は、ブラックＤＢ１２０に登録されていないトランザクションＤＢ１１０内の取引のデータをモデルに入力したときに、正しく不正ではないと判断されるか否かを検証する。教師あり学習部１５３は、ブラックＤＢ１２０を用いた検証の精度が向上するように、モデルのパラメータを修正する。

　このようにして開発フェーズ４１により、不正取引を検知するためのモデルが生成される。その後、生成されたモデルを用いて運用フェーズ４２が実行される。
　運用フェーズ４２では、未調査の取引を示すレコードがトランザクションＤＢ１１０に追加されると、教師あり学習部１５３は、追加された取引に対して、ユーザがわかりやすい形式の特徴量エンジニアリングを行う。そして教師あり学習部１５３は、生成したモデルに基づいて、例えば、マネーロンダリングである可能性を示すリスクスコアを計算する。

　優先順位付け部１５４は、調査官から指定された調査のシナリオに従って、不正の疑いのある取引についての調査対象としての優先順位付けを行う。根拠・ルール提示部１５５は、疑わしい取引について、疑わしいと判断した根拠と、不正の取引の判定に用いることができるルールとを調査官に提示する。

　また説明可能ＡＩ部１５６は、説明可能ＡＩを用いて、疑わしい取引に利用された口座のつながり（不正ネットワーク）を学習する。そして説明可視化部１５７は、不正ネットワークを可視化する。

　調査官は、例えば優先順位が高い取引から順に、不正な取引か否かを調査する。その際、調査官は、例えば提示されたルールに従って、不正な取引か否かを判定してもよい。また調査官は、可視化された不正ネットワークを参考にして、不正な取引か否かを判断することもできる。調査官は、不正な取引であると判定した場合、その取引、および使用された口座に関する情報を、ブラックＤＢ１２０に登録する。

　次に、具体的な機械学習のアルゴリズムを適用して開発フェーズの処理をどのように実行するのかを、図１０を参照して説明する。
　図１０は、開発フェーズにおける具体的処理の一例を示す図である。例えばブラックＤＢ１２０から特徴量エンジニアリング（ＦＥ－ａ）で抽出された口座ごとの特徴量を入力として、ＧＮＮによる機械学習が行われる。そして、ＧＮＮによって、不正に利用された口座の特徴ベクトルが出力される。

　またトランザクションＤＢ１１０から特徴量エンジニアリング（ＦＥ－ｂ）で抽出された取引の特徴量とＧＮＮの出力とが結合される。そして結合されたデータを入力として、例えばグラフオートエンコーダーにより、教師なし学習が行われる。その結果、取引ごとのアノマリースコアが出力される。アノマリースコアは、例えば所定の閾値に基づいて疑似ラベルに変換される。

　さらにトランザクションＤＢ１１０から特徴量エンジニアリング（ＦＥ－ｃ）で抽出された取引の特徴量と疑似ラベルとが結合される。そして結合されたデータを入力として、ＬＧＢＭなどの教師あり学習により、モデルが生成される。このときの機械学習は、例えばＤｅｅｐ　ｔｅｎｓｏｒ（登録商標）と呼ばれる技術を用いることもできる。モデルはブラックＤＢ１２０によって検証され、精度の向上が図られる。

　以下、図８に示した各ステップの処理を詳細に説明する。
　＜口座間のグラフ構造学習＞
　図１１は、口座間のグラフ構造学習処理の一例を示す図である。図１１の例では、グラフ構造学習に、トランザクションＤＢ１１０、ブラックＤＢ１２０、およびメタデータ１３０が利用されている。例えばグラフ構造学習部１５１は、トランザクションＤＢ１１０から、取引の送金口座と受領口座を特定する。グラフ構造学習部１５１は、各口座をノードとし、取引関係を有する口座に対応するノード間をエッジで接続したグラフを作成する。ノードには、例えばメタデータ１３０から取得した口座に関する情報（口座開設日、残金など）が設定される。

　このように生成されたグラフ構造のデータは、例えば各ノードが特徴ベクトルを有し、各エッジが単一または複数の特徴ベクトルを有する有向グラフまたは無向グラフである。ノードまたはエッジの特徴ベクトルにはメタデータ１３０から得た情報を追加することもできる。

　グラフ構造学習部１５１は、ブラックＤＢ１２０に基づいて、口座が不正に利用されたか否かのフラグを取得する。グラフ構造学習部１５１は、グラフ構造のデータと、口座が不正に利用されたか否かのフラグを入力データとして、ＧＮＮに半教師あり学習で学習させる。グラフ構造学習部１５１は、学習結果として、口座（グラフ構造のノード）ごとの、特徴ベクトル５２ａ，５２ｂ，・・・を含むＧＮＮ出力５２を得る。

　なおグラフ構造学習部１５１は、口座間のグラフ構造を、教師なし学習、自己教師あり学習で学習してもよい。
　グラフ構造学習部１５１が出力したＧＮＮ出力５２は、教師なし異常検知部１５２による教師なし異常検知処理で利用される。

　＜教師なし異常検知＞
　図１２は、教師なし異常検知処理における入力データの一例を示す図である。例えばトランザクションＤＢ１１０に対する特徴量エンジニアリング（ＦＥ－ｂ）で抽出された取引データ５１には、取引ＩＤ、送金口座番号、受領口座番号、送金金額、送金日時などの情報が含まれている。取引データ５１には、その他に、統計処理や集計によって得られた口座もしくは取引単位の特徴が含まれる。

　また教師なし学習によって得られたＧＮＮ出力５２には、口座ごとの特徴ベクトルが含まれる。特徴ベクトルは、例えば口座間のグラフ構造の繋がりによる関連性を表している。例えば口座番号に対してユーニークなインデックスが付与され、グラフには、そのインデックスに対応するノードが含まれる。このようにして口座に対応付けられたノード間の繋がりによる関連性が、特徴ベクトルで表される。

　教師なし異常検知部１５２は、取引データ５１に示された取引ごとのレコードに、送金口座番号に対応する口座の特徴ベクトルと、受領口座番号に対応する口座の特徴ベクトルとを関連づけることで、入力データ５３を生成する。

　例えば入力データ５３は、トランザクションＤＢ１１０のログ管理テーブル１１１に対して、送金口座の特徴ベクトル（Ｓｅｎｄｅｒ特徴ベクトル）の列と、受領口座の特徴ベクトル（Ｒｅｃｅｉｖｅｒ特徴ベクトル）の列とが追加されたデータ構造となっている。Ｓｅｎｄｅｒ特徴ベクトルの列には、送金口座の特徴ベクトルに含まれる要素の値が設定される。Ｒｅｃｅｉｖｅｒ特徴ベクトルの列には、受領口座の特徴ベクトルに含まれる要素の値が設定される。

　なお入力データ５３には、送金口座と受領口座との特徴ベクトルの差分を追加してもよい。さらに入力データ５３には、送金口座と受領口座それぞれの特徴ベクトルのノルムを追加してもよい。また、ＧＮＮ出力５２に基づく特徴ベクトルの追加後は、入力データ５３から送金口座を示す列と受領口座を示す列とを削除してもよい。

　図１３は、教師なし異常検知処理の一例を示す図である。図１３の例では、教師なし異常検知に、トランザクションＤＢ１１０、メタデータ１３０、およびＧＮＮ出力５２が利用されている。

　教師なし異常検知部１５２は、トランザクションＤＢ１１０に基づいて、送金口座の特徴量と受領口座の特徴量を生成する。例えば教師なし異常検知部１５２は、特徴量の生成に、直近の所定期間内の取引履歴または過去の所定期間内の取引履歴を使用する。また教師なし異常検知部１５２は、メタデータ１３０に格納されている口座の情報により、特徴量に付加的な情報を追加することもできる。

　教師なし異常検知部１５２は、ＧＮＮ出力５２に示される口座ごとの特徴ベクトルを、送金口座と受領口座に関連付け、図１２に示した入力データ５３を得る。教師なし異常検知部１５２は、入力データ５３に、口座に関する情報を追加してもよい。

　教師なし異常検知部１５２は、例えば線形／非線形などの次元削減手法を用いて教師なしの異常検知を行う。教師なし異常検知部１５２は、テキストデータに関してはＴｆ－ｉｄｆ、ｗｏｒｄ２ｖｅｃ、Ｂｅｒｔなどの自然言語から特徴を出力する手法により特徴ベクトルを得る。

　教師なし異常検知部１５２は、入力データ５３を入力として、例えばオートエンコーダー構造の深層学習を用いて教師なし学習を実施する。オートエンコーダー構造は精度のチューニングによって可変である。オートエンコーダー構造は、入力層よりもノード数が少ない中間層を含む。教師なし異常検知部１５２は、オートエンコーダー構造の入力層に入力データ５３の各取引のレコードを入力し、入力したレコードと同じデータを出力できるようなニューラルネットワークを生成する。そして教師なし異常検知部１５２は、入力したレコードと、それに対応する出力データとの差分の比較により、異常の度合いを示す情報を生成する。教師なし異常検知部１５２は、自己教師あり学習の手法を取り入れてもよい。

　教師なし異常検知部１５２は、教師なし学習の結果、各取引に対するアノマリースコア５４ａ，５４ｂ，・・・を含む異常検知結果５４を出力する。アノマリースコアは、通常と異なっている度合い（異常らしさ）を数値化したものである。アノマリースコアは、値が大きいほど、異常の度合いが高いことを示す。

　異常検知結果５４は、教師あり学習部１５３による、疑似ラベルを用いた教師あり学習で利用される。
　＜疑似ラベルを用いた教師あり学習＞
　図１４は、疑似ラベルを用いた教師あり学習の一例を示す図である。教師あり学習部１５３は、トランザクションＤＢ１１０とブラックＤＢ１２０との一方または両方を用いて、ユーザが理解しやすくかつ不正と関係のあると仮定される取引の特徴データを生成する。教師あり学習部１５３は、メタデータ１３０に示される口座または取引の情報を、各取引の特徴データに追加してもよい。教師あり学習部１５３は、取引ごとの特徴データとは別に、口座の特徴データを生成してもよい。これは取引・口座それぞれにフォーカスした説明性を得るためである。

　教師あり学習部１５３は、取引ごとの特徴データ、口座ごとの特徴データに、異常検知結果５４に基づいて疑似ラベルを付与する。例えば疑わしい取引かそれに関連する疑わしい口座に、不正の疑いありを示す疑似ラベルが付与される。また疑わしくない取引かそれに関連する口座に、不正の疑いなしを示す疑似ラベルが付与される。例えば教師あり学習部１５３は、異常検知結果５４におけるアノマリースコアが所定値以上の取引、またはその取引で利用された口座に、不正の疑いありを示す疑似ラベルを付与する。教師あり学習部１５３は、疑似ラベルを付与したデータを学習データとする。

　教師あり学習部１５３は、得られた学習データに対して、教師ありの機械学習モデルで学習させる。例えば教師あり学習部１５３は、勾配ブースティングなどの木構造による機械学習モデルを使用する。また教師あり学習部１５３は、説明が得られるＡＩモデルで学習させることも可能である。

　教師あり学習部１５３は、学習によって得られたモデルの精度の検証に、ブラックＤＢ１２０を用いる。例えば教師あり学習部１５３は、ブラックＤＢ１２０に示される不正な取引について正しく不正と判定する確率を、精度として計測する。そして教師あり学習部１５３は、不正な取引について正しく不正と判定できるように、モデルのパラメータを修正する。

　教師あり学習部１５３は、モデルの精度が所定の条件を満たすまで、モデルの学習と検証とを繰り返す。例えば教師あり学習部１５３は、モデルの精度が所定値以上になるか、それ以上精度が向上しなくなるまで、モデルの学習と検証を繰り返す。教師あり学習部１５３は、モデルの学習と検証の繰り返しの終了条件が満たされたときのモデルを、学習済みのモデル１５３ａとする。

　このようにして生成されたモデル１５３ａを用いて推論を行うことで、運用フェーズ４２において、各取引が不正である可能性をリスクスコアとして算出することができる。
　図１５は、教師あり学習による推論処理の一例を示す図である。例えばトランザクションＤＢ１１０には、調査済み取引レコード群１１２と未調査取引レコード群１１３とが含まれているものとする。調査済み取引レコード群１１２は、既に調査官によって不正か否かの調査が行われた取引のレコードの集合である。未調査取引レコード群１１３は、調査官による調査が行われていない取引のレコードの集合である。

　教師あり学習部１５３は、未調査取引レコード群１１３に含まれる取引のレコードを学習済みのモデル１５３ａへの入力として、その取引が不正か否かの推論を行う。教師あり学習部１５３は、推論により、例えば取引ごとのリスクスコア５５ａ，５５ｂ，・・・を含む推論結果５５を得る。推論結果は、優先順位付け部１５４による、疑わしい取り取引の優先順位付けに用いられる。

　＜疑わしい取り取引の優先順位付け＞
　図１６は、疑わしい取引の優先順位付けの一例を示す図である。例えば優先順位付け部１５４には、優先順位付けについての複数のシナリオ６１，６２，６３，６４，・・・が登録されている。シナリオ６１は、不正取引金額「阻止」最大化を目標として優先順位付けを行うシナリオである。シナリオ６２は、不正取引件数「阻止」最大化を目標として優先順位付けを行うシナリオである。シナリオ６３は、不正取引調査率最大化を目標として優先順位付けを行うシナリオである。シナリオ６４は、不正取引”Ｒｉｓｋ－Ａｄｊｕｓｔｅｄ”金額「阻止」最大化を目標として優先順位付けを行うシナリオである。”Ｒｉｓｋ－Ａｄｊｕｓｔｅｄ”金額は、取引金額をリスクスコアに応じて調整した値である。例えばリスクスコアが大きいほど、”Ｒｉｓｋ－Ａｄｊｕｓｔｅｄ”金額も大きくなる。

　優先順位付け部１５４は、トランザクションＤＢ１１０に示される未調査の取引について、推論結果５５などの情報を用い、調査官から指定された１または複数のシナリオに従って優先順位を決定する。例えば優先順位付け部１５４は、シナリオ６１が指定されている場合、リスクスコアが所定値以上となる取引について、取引金額が高い順に優先順位を付与する。また優先順位付け部１５４は、例えばシナリオ６２が指定されている場合、リスクスコアが所定値以上となる取引で使用されている回数が多い口座を利用した取引ほど、優先順位を高く設定する。また優先順位付け部１５４は、シナリオ６３が指定されている場合、調査官の人員に応じて調査可能な最大数以下の取引を、他のシナリオによる優先順の上位から選択し、調査対象として提示する。また優先順位付け部１５４は、シナリオ６４が指定されている場合、リスクスコアが所定値以上となる取引について、取引金額をリスクスコアに応じて修正した値が高い順に優先順位を付与する。

　優先順位付け部１５４は、例えば優先順位付けによって設定された優先順位と、その優先順位の取引の識別情報（例えばトランザクションＩＤ）との対応関係を示す優先順位情報５６を出力する。例えば優先順位情報５６では、優先順位によって昇順に取引の識別情報がソートされている。

　このように調査官は、調査業務の目標に応じて、シナリオ６１，６２，６３，６４，・・・の中から適切なシナリオを選択することができる。すなわち、調査官は、調査業務の目標に応じた優先順位の最適化を、シナリオ選択によって容易に実現することができる。その結果、リスクスコアによる疑わしい取引の検出範囲を、取引金額、誤検知率、調査可能量などによって調整することが可能となる。例えば業務ＲＯＩ（Return On Investment）の最適化を図ることもできる。

　優先順位情報５６を調査官に提示すれば、調査官は、効率的に調査を進めることができる。調査を効率的に行うことができれば、調査時間が短縮される。また優先順位情報５６を用いれば、例えば金融庁提出のレポートの生成も容易となる。

　＜疑わしい取引の根拠とルールを提示＞
　根拠・ルール提示部１５５は、例えば疑わしい取引の根拠を調査官に提示する。根拠・ルール提示部１５５は、教師あり学習部１５３が生成したモデルに対して、例えば説明可能ＡＩ（例えばＳＨＡＰ（SHapley Additive exPlanations）など）を利用して、取引１つ１つに対して、どの特徴がどれくらい疑わしさに寄与したかを可視化する。また根拠・ルール提示部１５５は、教師あり学習部１５３が説明可能ＡＩによってモデルを作成している場合、そのモデルを用いて得られる推論の結果の根拠を可視化する。

　図１７は、疑わしい取引の根拠の可視化の一例を示す図である。例えば根拠・ルール提示部１５５は、調査官が使用する端末３０に根拠表示画面７１を表示させる。根拠表示画面７１には、例えば取引の特徴ごとに、その取引について不正の疑いがあるとの判断結果への寄与度が示されている。調査官は、根拠表示画面７１を確認し、該当する取引が不正であるか否かの効率的な調査手順などを判断することができる。

　このようにして調査官は、疑わしい取引全体での特徴の寄与度をみることができる。また、説明可能ＡＩを用いれば、予測値に対してある特徴が正の相関関係があることを見つけ出すこともできる。説明可能ＡＩを用いれば、金融データの複雑性に対応する高度な根拠説明も可能である。例えば根拠・ルール提示部１５５は、連続して５回の取引があることでリスクコストが所定量増加する、取引間隔が短いほどリスクコストが高くなるなどの情報を、調査官に提示することができる。また説明可能ＡＩを用いることにより、取引１単位あたりで根拠を提示でき、不正取引に関する情報の信頼性を向上させることもできる。さらに説明可能ＡＩによって不正の疑いがあるとの根拠が分かることにより、調査のあたりを付け業務の効率化が可能となる。さらに説明可能ＡＩを用いれば、不正取引の傾向をデータから立証することも可能となる。

　また根拠・ルール提示部１５５は、疑わしい取引のルールを提示することもできる。例えば教師あり学習部１５３が勾配ブースティングモデルで学習を行った場合、根拠・ルール提示部１５５は、勾配ブースティングモデルの中の木構造（例えば決定木）を取り出す。そして根拠・ルール提示部１５５は、木構造の各分岐をルールと見なし、それぞれの分岐で取引がいくつ弾かれたか（疑わしい取引ではないと判定された数）を可視化する。なお根拠・ルール提示部１５５は、分岐ごとに検知率と誤検知率を表示してもよい。

　図１８は、ルール可視化の一例を示す図である。例えば根拠・ルール提示部１５５は、調査官が使用する端末３０にルール表示画面７２を表示させる。ルール表示画面７２には、勾配ブースティングモデルによる学習時に生成された木構造が示されている。木構造のノードは、取引の特徴を示している。木構造のエッジは、特徴の値が閾値以上か未満かによる不正検知判断の分岐を示している。ルール表示画面７２では、ノードごとに、対応する特徴と閾値以上と判断した割合、閾値未満と判断した割合が示されている。木構造の末端のノードには、最終的に不正と判断するか否かの情報が設定される。

　勾配ブースティングモデルでは、いくつかの木がモデル内に存在する。根拠・ルール提示部１５５は、木ごとの寄与度を算出し、順位付けることで、各ルールの重要度として順位付けして提示してもよい。木ごとの重要度は、例えば以下の式で算出される。

　Ψは、勾配ブースティングモデルによって生成されたすべての木に付与したインデックスの集合である。Ｘ＝｛ｘ₁，ｘ₂，...，ｘ_n｝は、不正であるとの疑似ラベルが付与されたデータポイントの集合である。ｉ∈Ψであり、ｘ∈Ｘである。ｔｒｅｅＰｒｅｄ_i（ｘ）は、ｉ番目の木によって得られた不正であることの予測値である。

　木ごとの重要度の平均値は、以下の式で算出される。

　このようにルールが明確化されることで、調査官は、不正との疑いがある取引についての調査を効率的に実施することができる。
　疑わしい取引であると判定するルールは、例えば調査官の分かりやすい変数で提示することができる。例えば根拠・ルール提示部１５５は、取引４回以上連続で合計金額１０万円以上にというルールによって、不正の疑いのある取引が１０件検出されたことを、調査官に提示できる。

　また根拠・ルール提示部１５５によってルールが提示されることで、調査官は、経験によるルール策定ではなく、データドリブン（蓄積されたデータの分析結果に基づくこと）なルール策定が可能となる。また根拠・ルール提示部１５５によってルールが提示されることで、新しい犯罪手口のルールの発見が可能となる。その結果、ルールの陳腐化を防ぐことができる。さらに、根拠・ルール提示部１５５が、ルールに適合した取引の数を提示することで、どのルールの過程でどれくらい不正な取引が検出できるのかを明確にでき、ルールベースでの不正検知において組み合わせるルールの選定が容易となる。

　＜不正ネットワーク学習＞
　図１９は、不正ネットワーク学習の一例を示す図である。説明可能ＡＩ部１５６は、例えば優先順位付け部１５４がシナリオに応じて出力した優先順位情報５６に基づいて、該当する取引に利用されている送金口座と受領口座とに疑似ラベルを設定する。

　また説明可能ＡＩ部１５６は、トランザクションＤＢ１１０およびメタデータ１３０内の情報を用いて、ユーザが理解できる口座の特徴量を生成し、口座間の関係を示すグラフデータを生成する。グラフデータの生成方法は、例えばグラフ構造学習部１５１によるグラフ構造の生成方法と同様である。

　なお説明可能ＡＩ部１５６は、金融間や業者間でグラフデータを統合する場合は、特徴の意味を合わせる。また説明可能ＡＩ部１５６は、グラフに付与するデータとして、それぞれの取引の種別や分類、または帰属する対象やそのカテゴリなどを追加してもよい。

　説明可能ＡＩ部１５６は、グラフデータと疑似ラベルを入力データとして、教師ありグラフ深層学習を行う。この教師ありグラフ深層学習では、口座ごとの不正の疑わしさの度合いを示すリスクスコアが得られる。説明可能ＡＩ部１５６は、教師ありグラフ深層学習において、ブラックＤＢ１２０に基づいて検証を行い、学習の精度を向上させることもできる。

　説明可能ＡＩ部１５６は、例えば不正の疑わしさ度合いが所定の閾値以上の口座に対して、不正の疑い有りを示すラベル（疑似ラベル）を設定する。説明可能ＡＩ部１５６は、教師ありグラフ深層学習で得た疑似ラベルに基づいて、不正の疑いのある口座間のネットワークの説明を備えた教師あり学習を行い、説明を加える処理を行う。その結果、例えば、不正な取引に使用されている疑いのある口座間の関係（不正ネットワーク）を説明する不正ネットワーク説明情報５７を得ることができる。

　なお、疑似ラベルを付与するか否かのリスクスコアの閾値は、複数設定することができる。その場合、説明可能ＡＩ部１５６は、閾値ごとに、各口座に疑似ラベルを付与するか否かを決定する。そして説明可能ＡＩ部１５６は、閾値ごとに、口座の疑似ラベルに基づいて、不正の疑いのある口座間のネットワークの説明を備えた教師あり学習を行う。これにより、疑似ラベルを付与するか否かのリスクスコアの閾値ごとに、不正ネットワークが生成される。

　例えば不正の疑わしさの度合いが高い口座ほど、リスクスコアの値が小さいものとする。そしてリスクスコアの閾値が「５００」、「６００」、「７００」の場合、これらの閾値ごと、口座に疑似ラベル（例えば閾値未満の口座に「１」、閾値以上の口座に「０」のフラグ）が設定される。そして、リスクスコアの閾値ごとに、その閾値で不正の疑いありとされた口座間のネットワークを予測対象として、教師ありグラフ深層モデルによる学習が行われる。その結果、閾値「５００」に応じた疑似ラベルで学習した不正ネットワーク、閾値「６００」に応じた疑似ラベルで学習した不正ネットワーク、閾値「７００」に応じた疑似ラベルで学習した不正ネットワークが得られる。

　＜不正取引可視化＞
　説明可視化部１５７は、不正ネットワークを、例えば調査官が使用する端末３０に表示させる。例えば説明可視化部１５７は、ドローワーによってリスクの許容範囲（リスクスコアの閾値）を「５００」→「６００」→「７００」と広げていった際の不正ネットワークの変化を可視化することができる。

　図２０は、不正ネットワーク表示方法の一例を示す図である。例えば説明可視化部１５７は、各口座を、その口座のリスクスコアでソートする。調査官が可視化するリスクスコアの閾値（許容するリスクスコア）を指定すると、指定された閾値に応じて得られた不正ネットワークを示す可視化グラフ８１～８３が生成され、その可視化グラフ８１～８３が表示される。例えば調査官が、「５００」→「６００」→「７００」とリスクスコアの許容範囲を広げていくと、表示される可視化グラフが、可視化グラフ８１→可視化グラフ８２→可視化グラフ８３と遷移する。

　このように説明可視化部１５７は、許容するリスクスコアに応じたサイズの不正ネットワーク構造を可視化することができる。このような可視化処理を、例えば調査のシナリオごとに行うことで、調査官は、複数のシナリオそれぞれの調査範囲を変化させた場合における重複する口座を容易に特定できる。また調査官は、リスクスコアの許容範囲を拡げたり、狭めたりして、可視化グラフ８１～８３に示される検知範囲の広がりを確認することができる。これにより、調査官は、マネーロンダリング特有の送金のサイクルまたは口座間の関係のループの有無を特定し、関連の口座を特定することができる。不正な取引に利用された口座を容易に特定できることで、不正に利用された口座の見逃しを抑止でき、不正な取引の始点と終点との口座の特定も容易となる。

　また説明可視化部１５７は、特定の口座１つに対して、疑わしいと判断された根拠を提示することができる。例えば、表示された可視化グラフからノードまたはエッジが選択されると、説明可視化部１５７は、選択されたノードまたはエッジに対応する口座または口座間の関係について、不正の疑いがあると判定した根拠を表示する。

　図２１は、不正の疑いがあると判定した根拠の表示方法の一例を示す図である。例えば可視化グラフ８１が表示されているときに、リスクスコアで口座がソートされたリスク表示テーブル８４において、調査官が１つの口座を選択したものとする。すると、説明可視化部１５７は、選択された口座に関連する口座（疑わしいか否かとは無関係に）への繋がりを示す可視化グラフ８５を表示させる。調査官により、可視化グラフ８５のノードが選択されると、選択されたノードに対応する口座に不正の疑いがあると判断した根拠が表示される。また可視化グラフ８５のエッジが選択されると、そのエッジの両端の口座間で行われた取引に不正の疑いがあると判断した根拠が示される。

　このように不正取引が可視化されることにより、取引単位でなく関連する不正口座の特定による包括的な対処が容易となる。また、グラフによって不正ネットワークを可視化したことで、取引の始点の口座と終点の口座とが明確化され、調査が容易となる。

　［その他の実施の形態］
　第２の実施の形態では、金融機関の口座を利用したマネーロンダリングなどの不正取引の検知をしているが、金融機関の口座間の取引以外の不正の検知にも利用できる。例えば金融取引以外の用途で使用されるコンピュータシステムを利用するユーザによる不正なデータ更新を伴うトランザクションの検知にも利用できる。

　第２の実施の形態におけるトランザクションＤＢ１１０、ブラックＤＢ１２０、およびメタデータ１３０は、複数の金融機関のデータを統合したデータであってもよい。複数の金融機関のデータを統合することで、例えば複数の金融機関を跨いだマネーロンダリングの検知が容易となる。

　上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

　１　コンピュータシステム
　１０　情報処理装置
　１１　記憶部
　１１ａ　不正情報
　１１ｂ　履歴情報
　１２　処理部

Claims

　コンピュータシステムにおける複数のトランザクションの履歴を示す履歴情報を入力データとする教師なしの第１の機械学習により、前記複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出し、
　前記複数のトランザクションそれぞれの前記アノマリースコアに基づいて、前記複数のトランザクションの履歴に不正の疑いの有無を示す疑似ラベルを設定し、
　前記疑似ラベルが付与された前記複数のトランザクションの履歴を訓練データとする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、前記一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する、
　処理をコンピュータに実行させる機械学習プログラム。
　前記モデルを生成する処理では、調査によって不正であると判明した不正トランザクションを示す不正情報を用いて前記モデルの検証を行い、検証結果が所定の条件を満たすまで前記モデルの修正を繰り返す、
　請求項１記載の機械学習プログラム。
　調査によって不正であると判明した不正トランザクションを示す不正情報に基づいて、前記不正トランザクションに利用されたアカウントそれぞれの特徴を表す特徴ベクトルを生成する処理をコンピュータにさらに実行させ、
　前記アノマリースコアを算出する処理では、前記履歴情報における前記不正トランザクションに対して、利用しているアカウントの前記特徴ベクトルを付与したデータを、前記第１の機械学習の前記入力データとする、
　請求項１記載の機械学習プログラム。
　生成された前記モデルに基づいて、未調査のトランザクションに不正の疑いがあるか否かを判定する、
　処理をコンピュータにさらに実行させる請求項１記載の機械学習プログラム。
　前記モデルを用いて不正の疑いがあると判定された不正疑義トランザクションについて、不正の疑いがあると判定した根拠を特定し、前記根拠を出力する、
　処理をコンピュータにさらに実行させる請求項４記載の機械学習プログラム。
　前記モデルを用いて不正の疑いがある判定された不正疑義トランザクションについて、所定の指標に基づいて並べ替えて出力する、
　処理をさらに実行させる請求項４記載の機械学習プログラム。
　前記モデルの生成では、木構造を用いた前記第２の機械学習により前記モデルを生成し、
　前記モデルの生成に用いた前記木構造に基づいて、前記未調査のトランザクションに不正の疑いがある判定するためのルールを出力する処理を、コンピュータにさらに実行させる、
　請求項４記載の機械学習プログラム。
　コンピュータシステムにおける複数のトランザクションの履歴を示す履歴情報を入力データとする教師なしの第１の機械学習により、前記複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出し、
　前記複数のトランザクションそれぞれの前記アノマリースコアに基づいて、前記複数のトランザクションの履歴に不正の疑いの有無を示す疑似ラベルを設定し、
　前記疑似ラベルが付与された前記複数のトランザクションの履歴を訓練データとする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、前記一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する、
　処理をコンピュータが実行する機械学習方法。
　コンピュータシステムにおける複数のトランザクションの履歴を示す履歴情報を入力データとする教師なしの第１の機械学習により、前記複数のトランザクションそれぞれについて、異常である度合いを示すアノマリースコアを算出し、前記複数のトランザクションそれぞれの前記アノマリースコアに基づいて、前記複数のトランザクションの履歴に不正の疑いの有無を示す疑似ラベルを設定し、前記疑似ラベルが付与された前記複数のトランザクションの履歴を訓練データとする教師ありの第２の機械学習により、一のトランザクションの履歴を入力として、前記一のトランザクションに不正の疑いがあるか否かを判別するモデルを生成する処理部、
　を有する情報処理装置。