WO2022239161A1

WO2022239161A1 - 抽出方法、抽出装置及び抽出プログラム

Info

Publication number: WO2022239161A1
Application number: PCT/JP2021/018117
Authority: WO
Inventors: 大紀千葉; 満昭秋山
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-11-17
Also published as: JPWO2022239161A1

Abstract

特徴情報抽出部（２１）は、サイバーセキュリティに関する情報に含まれるＩＯＣの調査に関して分析者が行った行動の履歴を取得する。特徴情報抽出部（２１）は、取得した行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する。

Description

抽出方法、抽出装置及び抽出プログラム

　本発明は、抽出方法、抽出装置及び抽出プログラムに関する。

　企業や組織ではサイバーセキュリティを担保するために、セキュリティ管理や脅威を検知するためのシステムが導入されている。セキュリティオペレーションセンタ（ＳＯＣ：Security　Operation　Center）は、このようなシステムの運用を行う組織である。ＳＯＣのアナリスト（分析者）は、システムから出力される大量のログやアラートを監視、分析し、必要な対処を行う。

　一方で、下記の参考文献１、２によると、日々大量に発生するアラートを処理するアナリストが、アラート疲労と呼ばれる状況を起こし、アナリストの燃え尽きにつながることが問題視されている。
　参考文献１：S.　C.　Sundaramurthy,　A.　G.　Bardas,　J.　Case,　X.　Ou,　M.　Wesch,　J.　McHugh,　and　S.　R.　Rajagopalan,　“A　human　capital　model　for　mitigating　security　analyst　burnout,”　Proc.　SOUPS,　2015.
　参考文献２：Ponemon　Institute,　“Improving　the　Effectiveness　of　the　Security　Operations　Center,”　2019.

　また、上記の問題を解決するために必要なことは、よりすぐれた自動化を実現してアナリストの稼働を削減することである。実際、参考文献３によると、多くのＳＯＣのマネージャは、ＳＯＣコンポーネントの自動化レベルが不十分であることが現在のＳＯＣ組織における最重要課題であるととらえている。
　参考文献３：F.　B.　Kokulu,　A.　Soneji,　T.　Bao,　Y.　Shoshitaishvili,　Z.　Zhao,　A.　Doupe,　and　G.-J.　Ahn,　“Matched　and　Mismatched　SOCs:　A　Qualitative　Study　on　Security　Operations　Center　Issues,”　Proc.　ACM　CCS,　2019.

　これに対し、例えば、セキュリティに関する各アラートの異常スコアや悪性度スコアを過去のアラートから推定することで、真に悪性なアラートと誤検知となる本来非悪性のアラートとを識別する技術が提案されている（例えば、非特許文献１から５を参照）。

　また、セキュリティに関する各アラートと最も関連性の高い情報を抽出してくることで、アナリストのその後のプロセスをサポートする技術が知られている（例えば、非特許文献６から８を参照）。

W.　U.　Hassan,　S.　Guo,　D.　Li,　Z.　Chen,　K.　Jee,　Z.　Li,　and　A.　Bates,　"NoDoze:　Combatting　Threat　Alert　Fatigue　with　Automated　Provenance　Triage,"　Proc.　NDSS,　2019. A.　Oprea,　Z.　Li,　R.　Norris,　and　K.　Bowers,　"MADE:　Security　Analytics　for　Enterprise　Threat　Detection,"　Proc.　ACSAC,　2018. K.　A.　Roundy,　A.　Tamersoy,　M.　Spertus,　M.　Hart,　D.　Kats,　M.　Dell’Amico,　and　R.　Scott,　"Smoke　Detector:　Cross-Product　Intrusion　Detection　With　Weak　Indicators,"　Proc.　ACSAC,　2017. Y.　Liu,　M.　Zhang,　D.　Li,　K.　Jee,　Z.　Li,　Z.　Wu,　J.　Rhee,　and　P.　Mittal,　"Towards　a　Timely　Causality　Analysis　for　Enterprise　Security,"　Proc.　NDSS,　2018. P.　Najafi,　A.　Muhle,　W.　Punter,　F.　Cheng,　and　C.　Meinel,　"MalRank:　a　measure　of　maliciousness　in　SIEM-based　knowledge　graphs,"　Proc.　ACSAC,　2019. C.　Zhong,　J.　Yen,　P.　Liu,　and　R.　F.　Erbacher,　"Automate　Cybersecurity　Data　Triage　by　Leveraging　Human　Analysts’　Cognitive　Process,"　Proc.　IEEE　IDS,　2016. C.　Zhong,　T.　Lin,　P.　Liu,　J.　Yen,　and　K.　Chen,　"A　cyber　security　data　triage　operation　retrieval　system,"　Comput.　Secur.,　vol.76,　pp.12-31,　2018. S.　T.　Chen,　Y.　Han,　D.　H.　Chau,　C.　Gates,　M.　Hart,　and　K.　A.　Roundy,　"Predicting　Cyber　Threats　with　Virtual　Security　Products,"　Proc.　ACSAC,　2017.

　しかしながら、従来の技術には、ＩＯＣの調査の優先度を決定するために有用な特徴情報が得られない場合があるという問題がある。

　例えば、上記の先行技術文献に記載された技術では、ＩＯＣが異常又は悪性であるか否かを決定するのに必要な特徴情報が採用されている。一方で、ＩＯＣが異常又は悪性であることと、当該ＩＯＣが分析者による詳細な調査が必要であるかどうかは独立である。

　上述した課題を解決し、目的を達成するために、抽出方法は、抽出装置によって実行される抽出方法であって、サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）の調査に関して分析者が行った行動の履歴を取得する取得工程と、前記取得工程によって取得された行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する作成工程と、を含むことを特徴とする。

　本発明によれば、ＩＯＣの調査の優先度を決定するために有用な特徴情報を得ることができる。

図１は、セキュリティシステムについて説明する図である。図２は、アラートモニタの画面の例を示す図である。図３は、ＩＯＣチェッカーの画面の例を示す図である。図４は、第１の実施形態に係る決定装置の構成例を示す図である。図５は、リクエストの期間の例を示す図である。図６は、学習処理の流れを示すフローチャートである。図７は、特徴情報を抽出する処理の流れを示すフローチャートである。図８は、予測処理の流れを示すフローチャートである。図９は、決定プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る抽出方法、抽出装置及び抽出プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。なお、本実施形態では、決定装置が抽出装置として機能する。

［第１の実施形態の構成］
　まず、図１を用いて、第１の実施形態に係る決定装置を含むセキュリティシステムについて説明する。図１は、セキュリティシステムについて説明する図である。

　セキュリティシステム１は、顧客組織のセキュリティプライアンスにおいて生じた所定の情報を基に、分析エンジンによる自動分析、又は分析者による分析が行われる。

　セキュリティプライアンスは、例えば侵入防御システム（ＩＰＳ：Intrusion　Prevention　System）、プロキシ、サンドボックス、統合脅威管理（ＵＴＭ：Unified　Threat　Management）等である。

　ＳＯＣでは、セキュリティアプライアンスから取得したセキュリティに関する情報をリアルタイムに分析する。例えば、セキュリティに関する情報にはセキュリティログ及びアラートが含まれる。

　図１の例では、ＳＯＣは大規模なＭＳＳＰ（Managed　Security　Service　Provider）で提供されるアウトソースＳＯＣとして利用されている。一方で、本実施形態は、インハウスＳＯＣにも適用可能である。

　アウトソースＳＯＣとインハウスＳＯＣは組織的な違いはあるが、全体的なワークフローは類似している。このため、スケールメリットを十分に発揮できる規模の組織のインハウスＳＯＣであれば、本実施形態の効果が得られやすい。

　セキュリティシステム１における処理の流れを説明する。図１に示すように、まず、顧客組織のセキュリティアプライアンスは、アラート及びセキュリティログをＳＯＣの分析エンジン１０に送信する（ステップＳ１）。

　以下、アラートについて処理を行う場合の例を説明する。セキュリティシステム１は、セキュリティログについても、アラートと同様に処理することができる。

　分析エンジン１０は自動分析を行う（ステップＳ２）。分析エンジン１０は、既知の悪意のある特性や、事前に定義されたルールやブラックリストに基づいて分析を行うことで、アラートに対応する。

　分析エンジン１０は、ＳＯＡＲ（Security　Orchestration,　Automation,　and　Response）と呼ばれる機能を用いて分析を行ってもよい。

　分析エンジン１０は、所定の条件を満たすアラートを決定装置２０、アラートモニタ３０又はＩＯＣチェッカー４０に送信する（ステップＳ３）。

　このとき、図２に示すように、アラートモニタ３０は、アラートに関する情報を表示する。図２は、アラートモニタの画面の例を示す図である。

　例えば、アラートモニタ３０には、アラートの原因となったイベントの日付（Date）、顧客名（Customer）、アラートを送信したデバイス（Device）、アラートの名前（Alert　Name）、アラートのトリガーとなった状況の概要等が表示される。

　また、図３に示すように、ＩＯＣチェッカー４０は、アラートに含まれるＩＯＣ（Indicator　of　Compromise）に関する情報を表示する。図３は、ＩＯＣチェッカーの画面の例を示す図である。

　例えば、ＩＯＣには、ドメイン名、ＩＰアドレス、ＵＲＬ、ファイルハッシュ値等が含まれる。

　図３に示すように、例えば、ＩＯＣチェッカー４０は、ＳＯＣでの調査状況（Status）、ＩＯＣの悪性度に関するＳＯＣの直近の判断（ＳＯＣ　Last　Decision）、そのＩＯＣの最新の脅威インテリジェンス結果（Detection　in　TI）等を表示する。

　例えば、分析者は、アラートモニタ３０及びＩＯＣチェッカー４０といった、ＩＯＣ評価専用のツールを使って、分析エンジン１０によって処理できなかったアラートについてＩＯＣのトリアージ（評価）を行う。

　ＳＯＣの分析者は日頃のＳＯＣワークフローで大量のアラートを処理する。そこで、決定装置２０は、優先度が高いＩＯＣを決定し、分析者に通知する。これにより、ＳＯＣにおいて複数の分析者が同じＩＯＣを手動で評価することを防止することができる。

　また、決定装置２０によれば、優先度が高いＩＯＣを優先して分析することができるため、分析者の稼働量に対する効果を向上させることができる。

　決定装置２０は、モデルの学習、又はモデルを用いてＩＯＣの優先度の予測を行う（ステップＳ４）。そして、決定装置２０は、予測結果に基づき優先度が高いＩＯＣを決定し、当該決定したＩＯＣを通知する（ステップＳ５）。

　例えば、決定装置２０は、決定したＩＯＣを、ＩＯＣチェッカー４０を介して分析者に通知する。

　分析者は、通知された優先度に基づき分析を実施する（ステップＳ６）。また、分析者は、分析の過程で脅威インテリジェンスサービス（例えば、VirusTotal（https://www.virustotal.com/））の検索を行ってもよい（ステップＳ７）。

　脅威インテリジェンスサービスの中には、脅威のレベルや悪性度に関するスコアを提供するものがある。しかしながら、本来そのようなスコアは必ずしも分析者の次のアクションを決定するものではない。

　例えば、既にパッチが展開されている脆弱性を利用した攻撃に関連したＩＯＣは、悪性であるスコアが高いかもしれないが、顧客組織を守るという観点では差し迫った脅威ではない。

　このように、ＳＯＣにおけるアラート分析は単純ではないため、アラート分析を完全自動化することは難しく、分析者による判断が必要になる場合がある。

　このため、決定装置２０による優先度が高いＩＯＣの決定は、分析者の判断の時間を確保し、また各ＩＯＣの調査稼働を削減するために有用であるということができる。

　分析者は、最終的に分析対象のアラート及び当該アラートに含まれたＩＯＣが悪性か非悪性かを判断し、さらに顧客への報告が必要かどうかを判断し、顧客への報告が必要な場合、顧客組織のシステム管理者等に報告を行う（ステップＳ８）。

　例えば、分析者があるＩＯＣの評価を完了すると、その結果に基づいて、分析エンジン１０におけるアラートのトリガーされる条件を変更することができる。

　例えば、分析者による評価で明らかに悪性のＩＯＣが特定された場合、カスタムブラックリスト又はカスタムシグネチャとして当該ＩＯＣを分析エンジン１０において使用することができる。

　その場合、同一ＩＯＣを含むログをＳＯＣの他の顧客でも自動的に検知できるようにすることができる。また、評価で誤検知や脅威レベルが少ないＩＯＣが特定された場合、アラートをトリガーするＳＩＥＭロジックが変更され、同じ誤検知アラートが再び発生するのを防ぐことができ、分析者の稼働削減につながる。

　以降、決定装置２０が優先度の高いＩＯＣを決定する処理について、決定装置２０の構成とともに詳細に説明する。

　図４は、第１の実施形態に係る決定装置の構成例を示す図である。図４に示すように、決定装置２０は、特徴情報抽出部２１、ラベル付与部２２、学習部２３、予測部２４及びモデル情報２５を有する。

　決定装置２０は、機械学習手法によるモデルの学習処理、及び学習済みのモデルを使った予測処理を行う。

　学習処理では、特徴情報抽出部２１、ラベル付与部２２及び学習部２３が用いられる。また、予測処理では、特徴情報抽出部２１及び予測部２４が用いられる。

　特徴情報抽出部２１は、サイバーセキュリティに関する情報に含まれるＩＯＣから特徴情報を抽出する。例えば、サイバーセキュリティに関する情報は、分析エンジン１０から取得するアラートである。

　特徴情報抽出部２１は、分析エンジン１０から入手した過去のアラートに含まれるＩＯＣから、当該ＩＯＣの特性を特徴づける情報（以後、特徴情報）を抽出する。

　特徴情報は、ＩＯＣに含まれるドメイン名、ＩＰアドレス、ＵＲＬ、ファイルハッシュ値等であってもよい。

　例えば、特徴情報抽出部２１は、あらかじめ定められた一定の日数の間に発生したアラートから特徴情報を抽出する。

　ここで、特徴情報抽出部２１による特徴情報の抽出方法を詳細に説明する。特徴情報抽出部２１は、取得部及び作成部を有する抽出装置として機能する。

　取得部は、サイバーセキュリティに関する情報に含まれるＩＯＣの調査に関して分析者が行った行動の履歴を取得する。作成部は、取得部によって取得された行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する。

　特徴情報抽出部２１は、ＳＯＣ全体として各ＩＯＣをどのシフトの分析者がいつどのくらい調査したのかという行動の履歴に基づいて特徴情報を作成する。

　例えば、特徴情報抽出部２１は、分析者が各ＩＯＣを調査するために実施したリクエストを観測し、その観測情報から特徴情報を作成する。

　図１のステップＳ７に示すように、分析者は、ＳＯＣワークフローにおいて、顧客組織からのアラートに含まれるＩＯＣについて、脅威インテリジェンスサービスへ検索のためのリクエストを送る場合がある。

　そこで、特徴情報抽出部２１は、脅威インテリジェンスサービスへのリクエストの情報を分析者の行動履歴として入手することができる。

　特徴情報抽出部２１は、各分析者の行動履歴を個別に詳細に取得する必要はない。また、特徴情報抽出部２１は、日頃のＳＯＣワークフローを変えることなく行動履歴を取得することができる。また、大部分のＳＯＣで、上記のような行動履歴は容易に入手可能である。

　本実施形態では、特徴情報抽出部２１は、３つの大項目及び８つの小項目からなる合計８０個の特徴情報を抽出するものとする。

　特徴情報抽出部２１は、５つの異なるタイムウィンドウ（例えば、１日、３日、７日、１４日、３０日）を用いて特徴情報を抽出する。

　このように複数の異なるタイムウィンドウを用いることにより、特徴情報抽出部２１は、短い期間でバースト的に観測されるアラートに含まれるＩＯＣと、より長い期間で観測されるアラートのＩＯＣとを識別可能にすることができる。

　また、特徴情報抽出部２１は、直近の１週間を１日、３日、７日にさらに分割することで、より直近の情報を重視したリアルタイムでの優先度の予測に適した特徴情報を得ることができる。

　各項目の特徴情報について説明する。まず、項目１の特徴情報は、分析者のリクエストのタイミングに基づく特徴情報である。項目１に包含される特徴情報は、例えば５５個である。以下項目Ｘ－Ｙのように表記される項目の特徴情報は、項目Ｘに包含される特徴情報であるものとする。

　特徴情報抽出部２１は、行動の回数及び行動が行われた時間の間隔に関する情報を基に、項目１に包含される特徴情報を作成する。例えば、行動の回数及び行動が行われた時間の間隔は、脅威インテリジェントサービスへのリクエストの回数及びリクエストの間隔である。

（項目１－１）
　特徴情報抽出部２１は、５つのタイムウィンドウ（例えば１日、３日、７日、１４日、３０日）ごとの、当該ＳＯＣが利用している脅威インテリジェンスサービスへのリクエストクエリ数を特徴情報としてカウントする。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　項目１－１の特徴情報を利用している理由は、ＳＯＣアナリストが手動で調査を実施した疑わしい候補のＩＯＣに、それぞれ異なる特徴があるためである。

　例えば、短期的に多くの顧客組織で同時に観測されるようなアラートに含まれるＩＯＣがあったり、その逆に長期的に複数の顧客組織で観測されるようなＩＯＣがあったりする。

（項目１－２）
　特徴情報抽出部２１は、項目１－１におけるリクエスト数の平均、最小、最大、標準偏差、分散といった統計量を特徴情報として計算する。これにより、特徴情報抽出部２１は、例えば２５個の特徴情報を得る。

　このように、特徴情報抽出部２１は、行動の履歴から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。

　項目１－２の特徴情報によれば、各タイムウィンドウ内で、当該ＳＯＣ拠点の複数のアナリストがどのように当該ＩＯＣを調査していたかという傾向を把握することができる。

（項目１－３）
　特徴情報抽出部２１は、リクエスト間の時間間隔の平均、最小、最大、標準偏差、分散といった統計量を特徴情報として計算する。これにより、特徴情報抽出部２１は、例えば２５個の特徴情報を得る。

　項目１－３の特徴情報は、特定の顧客企業に対する標的型攻撃で使用されるＩＯＣの調査リクエストと、複数の企業に無差別的に実施される非標的型攻撃で使用されるＩＯＣの調査リクエストを区別することに寄与する。

　例えば、標的型攻撃に使用されたＩＯＣは、一部の企業やその従業員にしか到達せず、結果ＳＯＣアナリストが調査することは相対的に希である。一方で、非標的型攻撃に使用されたＩＯＣは、企業及び従業員にかかわらず広くばらまかれるために、短期間で同一ＳＯＣ拠点の複数のアナリストが調査することになる。

　項目２の特徴情報は、分析者のリクエストの期間に基づく特徴情報である。項目２に包含される特徴情報は、例えば１５個である。

　特徴情報抽出部２１は、所定のタイムウィンドウの中で行動が行われた時点からの経過時間に関する情報を基に、項目２に包含される特徴情報を作成する。項目２で用いられる各期間は、図５に示す通りである。図５は、リクエストの期間の例を示す図である。

（項目２－１）
　特徴情報抽出部２１は、タイムウィンドウごとの、最初の調査日からの経過日数を特徴情報として計算する。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　項目２－１の特徴情報によれば、分析者による調査が早くから行われていたＩＯＣと、最近から調査が行われたＩＯＣとを区別することができる。

（項目２－２）
　特徴情報抽出部２１は、タイムウィンドウごとの、最後の調査日からの経過日数を特徴情報として計算する。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　項目２－２の特徴情報によれば、ＩＯＣが分析者によって最近まで継続して調査されてきたものであるか否かを区別することができる。

（項目２－３）
　特徴情報抽出部２１は、タイムウィンドウごとの、分析者による最初の調査日から最後の調査日までの経過日数を特徴情報として計算する。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　項目２－３の特徴情報によれば、分析者によって長期間調査されてきたＩＯＣと、短期間しか調査されていないＩＯＣとを区別することができる。

　項目３の特徴情報は、分析者のシフトに基づく特徴情報である。項目３に包含される特徴情報は、例えば１０個である。

　特徴情報抽出部２１は、行動が行われた時の日時、及び分析者の勤務形態に関する情報を基に、項目３の特徴情報を作成する。

（項目３－１）
　特徴情報抽出部２１は、タイムウィンドウごとの、分析者が脅威インテリジェンスサービスへリクエストを行った日が平日である割合を特徴情報として計算する。例えば、平日は、ＳＯＣの拠点がある場所の現地時間における月曜日から金曜日であるものとする。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　ＳＯＣの分析者は、平日は顧客組織から直近で観測されたアラートに含まれるＩＯＣを調査することが多い。一方で、分析者は、週末は通常とは異なるＩＯＣを調査したり、アラートの絶対数が少なくなるため平日にはできない脅威の能動的な調査を行ったりする傾向がある。項目３－１の特徴情報はこのような傾向を考慮した特徴情報である。

（項目３－２）
　特徴情報抽出部２１は、タイムウィンドウごとの、分析者が脅威インテリジェンスサービスへリクエストを行った時刻が日勤帯である割合を特徴情報として計算する。例えば、分析者のシフトには、２４時間３６５日の対応を行うために、日勤（例えば８：００から１６：００）及び夜勤（例えば１６：００から翌日の８：００）がある場合がある。これにより、特徴情報抽出部２１は、例えば５個の特徴情報を得る。

　前述の平日と週末の関係と同様に、日勤と夜勤とで分析者による調査の傾向が異なる場合がある。項目３－２の特徴情報はこのような傾向を考慮した特徴情報である。

　ラベル付与部２２は、ＩＯＣのそれぞれについて、関連するアラートの対応に要した稼働量の実績に応じたラベルを付与する。

　ここでは、ラベルは優先度が高いか否かを表す二値データであるものとする。例えば、ラベル付与部２２は、過去に分析者の稼働を多く消費したＩＯＣについては、優先度が高いことを示すラベルを付与し、そうでないものについては優先度が高くないことを示すラベルを付与する。

　なお、従来技術（例えば、非特許文献４から８に記載の技術）では、ＩＯＣが悪性のもの（又は悪意があるもの）であるか否かを示すラベルが付与されていた。一方で、本実施形態では、分析者の稼働量に基づきラベルが付与される。

　ラベル付与部２２は、ＩＯＣのうち、関連するアラートに対して一定期間内に発生した手動調査の回数が所定値以上であるＩＯＣについて、優先度が高いことを示すラベルを付与し、手動調査の回数が所定値未満であるＩＯＣについて、優先度が高くないことを示すラベルを付与する。

　以降の説明では、優先度が高いことを示すラベルを「優先」、優先度が高くないことを示すラベルを「非優先」と表記する。

　学習部２３は、特徴情報抽出部２１によって抽出された特徴情報及びラベル付与部２２によって付与されたラベルを組み合わせた学習データを用いて、ＩＯＣの特徴情報からラベルを出力するモデルの学習を行う。

　学習部２３は、教師あり機械学習により、モデルの作成及び更新を行う。モデル情報２５は、モデルを構築するためのパラメータ等を含む情報である。学習部２３は、モデル情報２５の作成及び更新を行う。

　学習部２３は、既知の任意の教師あり機械学習のアルゴリズムを採用することが可能である。本実施形態では、学習部２３は標準的なロジスティック回帰を採用するものとする。

　ロジスティック回帰は、スケーラブルで高速なので、ＳＯＣ環境のように多くの顧客からの大量のアラートに含まれるＩＯＣを予測するのに適している。

　また、ロジスティック回帰は解釈可能性が高いことが知られている。ロジスティック回帰の出力は、その性質上、入力されたＩＯＣが優先される確率として解釈でき、さらに各ＩＯＣに対応する特徴情報のうちどの特徴が結果に貢献しているかを示すことができる。このように、ロジスティック回帰には解釈可能性が高いという利点がある。

　ここでは、学習部２３は、特にＬ１正則化つきロジスティック回帰を利用するものとする。

　まず、学習部２３は、特徴情報抽出部２１によって抽出された特徴情報を表すベクトルｘが与えられたとき、（１）式に示すラベルの条件付き確率ｙを、（２）式のようにモデル化する。

　ここで、θはロジスティック回帰モデルのパラメータである。また、σはシグモイド関数である。また、ｘの全ての特徴は、［０，１］の範囲に正規化されるものとする。

　学習部２３は、正則化の度合いを決定するハイパーパラメータλを導入した（４）式の目的関数を最小化する際のパラメータθを求めるために、（３）式に示すｎ個のラベル付きの学習用データの集合を使用する。

　（４）式のうち、Ｌ１正則化部分λ｜｜θ｜｜_１は、目的関数にペナルティを加えており、有意に寄与しない特徴情報を識別して削減する効果がある。

　このような特徴量の削減は必要以上に学習データに合わせてしまうオーバーフィッティングの防止に寄与するだけでなく、メモリ使用量の削減や、ＳＯＣアナリストに提示する結果をより簡潔で解釈しやすいものにする効果がある。

　予測部２４は、学習部２３による学習が行われたモデルを用いて、ＩＯＣの特徴情報からラベルを予測する。

　予測部２４は、学習部２３によって学習が行われたモデルを利用して、新たにリアルタイムで発生したアラートに含まれるＩＯＣと対応する特徴情報を入力し、どのＩＯＣが将来的に分析者の稼働を多く消費することになるのかを予測する。

　例えば、予測部２４は、モデル情報２５を基に構築したロジスティック回帰モデルを使って予測を行う。

　例えば、予測部２４は、分析者が対象のＩＯＣをＰ日以内にＫ回以上手動で分析する確率を予測することである（ただし、Ｐは整数）。

　予測部２４は、学習部２３によって決定されたパラメータθを用いて、ＩＯＣに対応する特徴情報のベクトルｘが「優先」である確率ｐ求め、予測するラベル＾ｙ（ｙの直上に＾）を（５）式で定義する。

　決定装置２０は、予測部２４によって予測されたラベルを基に、ＳＯＣの分析者による繰り返しの調査につながると考えられるＩＯＣ、すなわち「優先」ラベルが予測されたＩＯＣを、確率ｐが高い順に出力し、分析者に提示する。

　このとき、分析者は、決定装置２０によって提示された情報を利用して、調査対象の優先順位付けを行い、効率的にトリアージや詳細分析を行うことができる。

　ＳＯＣの分析者は、ＩＯＣに対してどのようなアクションを取るべきかを可能な限り決定し記録することが求められる。

　本実施形態によれば、分析者は優先度が高いＩＯＣを調査し、その結果を分析エンジン１０に反映させることができる。それによって、分析エンジン１０は同じＩＯＣを含むアラートを自動処理できるようになるため、分析者が毎回当該ＩＯＣを手動で調査することを回避し、ＳＯＣ全体としての稼働量の削減を図ることができる。

　例えば、分析者は優先度が高いと決定されたＩＯＣを調査し、その結果を基に分析エンジン１０に当該ＩＯＣを自動分析させるようにする。これにより、当該ＩＯＣは他の分析者に受け渡されることがなくなるため、稼働量が削減される。

　なお、決定装置２０は、学習処理をオフラインで定期的（例えば１日に１回）に再実行し、モデル情報２５を更新する。決定装置２０は、図５に示す特徴情報抽出時点前後の所定の期間のデータを利用して学習処理を行う。例えば、決定装置２０は、特徴抽出時点までのＦ日間（タイムウィンドウに相当）と特徴情報抽出時点からのＬ日間を合わせたＦ＋Ｌ日間のデータを利用して学習処理を行う（ただし、Ｆ及びＬは整数）。

　一方、決定装置２０が、顧客組織からのアラートに含まれるＩＯＣをリアルタイムに処理する際、すなわち予測処理を行う際には、当該ＩＯＣに対して、過去Ｆ日間分のデータを利用して特徴情報を抽出する。

　そして、決定装置２０は、抽出した特徴情報から、未来のＰ日間に分析者によるＫ回以上の手動調査が実施される確率ｐを計算する。

　決定装置２０は、上記の予測処理をリアルタイムに受信するＩＯＣごとに繰り返す。その結果、分析者が優先的に調査するべきＩＯＣのリストが、図３のようにＩＯＣチェッカー４０の画面に表示され継続的に更新される。

［第１の実施形態の処理］
　図６は、学習処理の流れを示すフローチャートである。図６に示すように、まず、決定装置２０は、過去のアラートの入力を受け付ける（ステップＳ１０１）。

　次に、決定装置２０は、入力されたアラートに含まれるＩＯＣから特徴情報を抽出する（ステップＳ１０２）。続いて、決定装置２０は、各ＩＯＣに対する分析者の稼働量に基づいて優先度に関する正解ラベルを付与する（ステップＳ１０３）。

　そして、決定装置２０は、正解ラベルを用いて、特徴情報から優先度に関するラベルを出力するモデルを学習する（ステップＳ１０４）。

　図７は、特徴情報を抽出する処理の流れを示すフローチャートである。図７の処理は、図６のステップＳ１０２に相当する。

　まず、図７に示すように、決定装置２０は、分析者の行動履歴を取得する（ステップＳ１０２ａ）。

　次に、決定装置２０は、分析者のリクエストのタイミングに基づく特徴情報を作成する（項目１）（ステップＳ１０２ｂ）。続いて、決定装置２０は、分析者のリクエストの期間に基づく特徴情報を作成する（項目２）（ステップＳ１０２ｃ）。さらに、決定装置２０は、分析者のシフトに基づく特徴情報を作成する（項目３）（ステップＳ１０２ｄ）。

　図８は、予測処理の流れを示すフローチャートである。図８に示すように、まず、決定装置２０は、直近のアラートの入力を受け付ける（ステップＳ２０１）。

　次に、決定装置２０は、入力されたアラートに含まれるＩＯＣから特徴情報を抽出する（ステップＳ２０２）。続いて、決定装置２０は、各ＩＯＣに対する分析者の稼働量に基づいて正解ラベルを抽出する（ステップＳ２０３）。

　そして、決定装置２０は、特徴情報を学習済みのモデルに入力して、優先度に関するラベルを予測する（ステップＳ２０４）。

　決定装置２０は、予測したラベルに基づき優先度の高いＩＯＣをＳＯＣの分析者に通知することができる。

［第１の実施形態の効果］
　これまで説明してきたように、特徴情報抽出部２１は、サイバーセキュリティに関する情報に含まれるＩＯＣの調査に関して分析者が行った行動の履歴を取得する。特徴情報抽出部２１は、取得した行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する。

　これにより、ＩＯＣの調査の優先度を決定するために有用な特徴情報を得ることができる。

　特徴情報抽出部２１は、行動の回数及び行動が行われた時間の間隔に関する情報を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、分析者によるＩＯＣの調査の傾向を特徴情報に反映させることができる。

　特徴情報抽出部２１は、所定のタイムウィンドウの中で行動が行われた時点からの経過時間に関する情報を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、ＩＯＣが長い間調査が行われてきたものであるか、又は短い間しか調査が行われていないものであるかを特徴情報に反映させることができる。

　特徴情報抽出部２１は、行動が行われた時の日時、及び分析者の勤務形態に関する情報を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、分析者の勤務シフトに応じた調査内容の傾向を特徴情報に反映させることができる。

　特徴情報抽出部２１は、行動の履歴から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、限られた情報からさらに多くの特徴情報を得ることができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、決定装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の決定処理を実行する決定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の決定プログラムを情報処理装置に実行させることにより、情報処理装置を決定装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、決定装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の決定処理に関するサービスを提供する決定サーバ装置として実装することもできる。例えば、決定サーバ装置は、セキュリティに関するアラートを入力とし、優先度の高いＩＯＣを出力とする決定サービスを提供するサーバ装置として実装される。この場合、決定サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の決定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図９は、決定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、決定装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、決定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　セキュリティシステム
　１０　分析エンジン
　２０　決定装置
　２１　特徴情報抽出部
　２２　ラベル付与部
　２３　学習部
　２４　予測部
　２５　モデル情報
　３０　アラートモニタ
　４０　ＩＯＣチェッカー

Claims

　抽出装置によって実行される抽出方法であって、
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）の調査に関して分析者が行った行動の履歴を取得する取得工程と、
　前記取得工程によって取得された行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する作成工程と、
　を含むことを特徴とする抽出方法。
　前記作成工程は、前記行動の回数及び前記行動が行われた時間の間隔に関する情報を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記作成工程は、所定のタイムウィンドウの中で前記行動が行われた時点からの経過時間に関する情報を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記作成工程は、前記行動が行われた時の日時、及び前記分析者の勤務形態に関する情報を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記作成工程は、前記行動の履歴から得られる情報、及び前記情報から計算される統計量を基に、前記特徴情報を作成することを特徴とする請求項１から４のいずれか１項に記載の抽出方法。
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）の調査に関して分析者が行った行動の履歴を取得する取得部と、
　前記取得部によって取得された行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する作成部と、
　を有することを特徴とする抽出装置。
　コンピュータに、
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）の調査に関して分析者が行った行動の履歴を取得する取得手順と、
　前記取得手順によって取得された行動の履歴から得られる情報を基に、ＩＯＣの特徴情報を作成する作成手順と、
　を実行させることを特徴とする抽出プログラム。