WO2022239166A1

WO2022239166A1 - 抽出方法、抽出装置及び抽出プログラム

Info

Publication number: WO2022239166A1
Application number: PCT/JP2021/018127
Authority: WO
Inventors: 大紀千葉; 満昭秋山
Original assignee: 日本電信電話株式会社
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2022-11-17
Also published as: JPWO2022239166A1; JP7563587B2; US20240289446A1

Abstract

特徴情報抽出部（２１）は、サイバーセキュリティに関する情報に含まれるＩＯＣに対する所定の組織による観測結果を取得する。特徴情報抽出部（２１）は、特徴情報抽出部（２１）によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する。

Description

抽出方法、抽出装置及び抽出プログラム

　本発明は、抽出方法、抽出装置及び抽出プログラムに関する。

　企業や組織ではサイバーセキュリティを担保するために、セキュリティ管理や脅威を検知するためのシステムが導入されている。セキュリティオペレーションセンタ（ＳＯＣ：Security　Operation　Center）は、このようなシステムの運用を行う組織である。ＳＯＣのアナリスト（分析者）は、システムから出力される大量のログやアラートを監視、分析し、必要な対処を行う。

　一方で、下記の参考文献１、２によると、日々大量に発生するアラートを処理するアナリストが、アラート疲労と呼ばれる状況を起こし、アナリストの燃え尽きにつながることが問題視されている。
　参考文献１：S.　C.　Sundaramurthy,　A.　G.　Bardas,　J.　Case,　X.　Ou,　M.　Wesch,　J.　McHugh,　and　S.　R.　Rajagopalan,　“A　human　capital　model　for　mitigating　security　analyst　burnout,”　Proc.　SOUPS,　2015.
　参考文献２：Ponemon　Institute,　“Improving　the　Effectiveness　of　the　Security　Operations　Center,”　2019.

　また、上記の問題を解決するために必要なことは、よりすぐれた自動化を実現してアナリストの稼働を削減することである。実際、参考文献３によると、多くのＳＯＣのマネージャは、ＳＯＣコンポーネントの自動化レベルが不十分であることが現在のＳＯＣ組織における最重要課題であるととらえている。
　参考文献３：F.　B.　Kokulu,　A.　Soneji,　T.　Bao,　Y.　Shoshitaishvili,　Z.　Zhao,　A.　Doupe,　and　G.-J.　Ahn,　“Matched　and　Mismatched　SOCs:　A　Qualitative　Study　on　Security　Operations　Center　Issues,”　Proc.　ACM　CCS,　2019.

　これに対し、例えば、セキュリティに関する各アラートの異常スコアや悪性度スコアを過去のアラートから推定することで、真に悪性なアラートと誤検知となる本来非悪性のアラートとを識別する技術が提案されている（例えば、非特許文献１から５を参照）。

　また、セキュリティに関する各アラートと最も関連性の高い情報を抽出してくることで、アナリストのその後のプロセスをサポートする技術が知られている（例えば、非特許文献６から８を参照）。

W.　U.　Hassan,　S.　Guo,　D.　Li,　Z.　Chen,　K.　Jee,　Z.　Li,　and　A.　Bates,　"NoDoze:　Combatting　Threat　Alert　Fatigue　with　Automated　Provenance　Triage,"　Proc.　NDSS,　2019. A.　Oprea,　Z.　Li,　R.　Norris,　and　K.　Bowers,　"MADE:　Security　Analytics　for　Enterprise　Threat　Detection,"　Proc.　ACSAC,　2018. K.　A.　Roundy,　A.　Tamersoy,　M.　Spertus,　M.　Hart,　D.　Kats,　M.　Dell’Amico,　and　R.　Scott,　"Smoke　Detector:　Cross-Product　Intrusion　Detection　With　Weak　Indicators,"　Proc.　ACSAC,　2017. Y.　Liu,　M.　Zhang,　D.　Li,　K.　Jee,　Z.　Li,　Z.　Wu,　J.　Rhee,　and　P.　Mittal,　"Towards　a　Timely　Causality　Analysis　for　Enterprise　Security,"　Proc.　NDSS,　2018. P.　Najafi,　A.　Muhle,　W.　Punter,　F.　Cheng,　and　C.　Meinel,　"MalRank:　a　measure　of　maliciousness　in　SIEM-based　knowledge　graphs,"　Proc.　ACSAC,　2019. C.　Zhong,　J.　Yen,　P.　Liu,　and　R.　F.　Erbacher,　"Automate　Cybersecurity　Data　Triage　by　Leveraging　Human　Analysts’　Cognitive　Process,"　Proc.　IEEE　IDS,　2016. C.　Zhong,　T.　Lin,　P.　Liu,　J.　Yen,　and　K.　Chen,　"A　cyber　security　data　triage　operation　retrieval　system,"　Comput.　Secur.,　vol.76,　pp.12-31,　2018. S.　T.　Chen,　Y.　Han,　D.　H.　Chau,　C.　Gates,　M.　Hart,　and　K.　A.　Roundy,　"Predicting　Cyber　Threats　with　Virtual　Security　Products,"　Proc.　ACSAC,　2017. P.　Vadrevu,　B.　Rahbarinia,　R.　Perdisci,　K.　Li,　and　M.　Antonakakis,　"Measuring　and　Detecting　Malware　Downloads　in　Live　Network　Traffic,"　Proc.　ESORICS,　2013. M.　Antonakakis,　R.　Perdisci,　D.　Dagon,　W.　Lee,　and　N.　Feamster,　"Building　a　dynamic　reputation　system　for　DNS,"　Proc.　USENIX　Security　Symposium,　2010. L.　Bilge,　E.　Kirda,　C.　Kruegel,　and　M.　Balduzzi,　"EXPOSURE:　Finding　Malicious　Domains　Using　Passive　DNS　Analysis,"　Proc.　NDSS,　2011. R.　Perdisci,　I.　Corona,　and　G.　Giacinto,　"Early　Detection　of　Malicious　Flux　Networks　via　Large-Scale　Passive　DNS　Traffic　Analysis,"　IEEE　Trans.　Dependable　Secure　Comput.,　vol.9,　no.　5,　pp.714-726,　Sep.　2012. S.　Alrwais,　X.　Liao,　X.　Mi,　P.　Wang,　X.　Wang,　F.　Qian,　R.　Beyah,　and　D.　McCoy,　"Under　the　Shadow　of　Sunshine:　Understanding　and　Detecting　Bulletproof　Hosting　on　Legitimate　Service　Provider　Networks,"　Proc.　IEEE　S&P,　2017. B.　Rahbarinia,　R.　Perdisci,　and　M.　Antonakakis,　"Segugio:　Efficient　behavior-based　tracking　of　malware-control　domains　in　large　ISP　networks,"　Proc.　IEEE/IFIP　DSN,　2015.

　しかしながら、従来の技術には、ＩＯＣの調査の優先度を決定するために有用な特徴情報が得られない場合があるという問題がある。

　例えば、上記の先行技術文献に記載された技術では、ＩＯＣが異常又は悪性であるか否かを決定するのに必要な特徴情報が採用されている。一方で、ＩＯＣが異常又は悪性であることと、当該ＩＯＣが分析者による詳細な調査が必要であるかどうかは独立である。

　上述した課題を解決し、目的を達成するために、抽出方法は、抽出装置によって実行される抽出方法であって、サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）に対する所定の組織による観測結果を取得する取得工程と、前記取得工程によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する作成工程と、を含むことを特徴とする。

　本発明によれば、ＩＯＣの調査の優先度を決定するために有用な特徴情報を得ることができる。

図１は、セキュリティシステムについて説明する図である。図２は、アラートモニタの画面の例を示す図である。図３は、ＩＯＣチェッカーの画面の例を示す図である。図４は、第１の実施形態に係る決定装置の構成例を示す図である。図５は、リクエストの期間の例を示す図である。図６は、学習処理の流れを示すフローチャートである。図７は、特徴情報を抽出する処理の流れを示すフローチャートである。図８は、予測処理の流れを示すフローチャートである。図９は、決定プログラムを実行するコンピュータの一例を示す図である。

　以下に、本願に係る抽出方法、抽出装置及び抽出プログラムの実施形態を図面に基づいて詳細に説明する。なお、本発明は、以下に説明する実施形態により限定されるものではない。なお、本実施形態では、決定装置が抽出装置として機能する。

［第１の実施形態の構成］
　まず、図１を用いて、第１の実施形態に係る決定装置を含むセキュリティシステムについて説明する。図１は、セキュリティシステムについて説明する図である。

　セキュリティシステム１は、顧客組織のセキュリティプライアンスにおいて生じた所定の情報を基に、分析エンジンによる自動分析、又は分析者による分析が行われる。

　セキュリティプライアンスは、例えば侵入防御システム（ＩＰＳ：Intrusion　Prevention　System）、プロキシ、サンドボックス、統合脅威管理（ＵＴＭ：Unified　Threat　Management）等である。

　ＳＯＣでは、セキュリティアプライアンスから取得したセキュリティに関する情報をリアルタイムに分析する。例えば、セキュリティに関する情報にはセキュリティログ及びアラートが含まれる。

　図１の例では、ＳＯＣは大規模なＭＳＳＰ（Managed　Security　Service　Provider）で提供されるアウトソースＳＯＣとして利用されている。一方で、本実施形態は、インハウスＳＯＣにも適用可能である。

　アウトソースＳＯＣとインハウスＳＯＣは組織的な違いはあるが、全体的なワークフローは類似している。このため、スケールメリットを十分に発揮できる規模の組織のインハウスＳＯＣであれば、本実施形態の効果が得られやすい。

　セキュリティシステム１における処理の流れを説明する。図１に示すように、まず、顧客組織のセキュリティアプライアンスは、アラート及びセキュリティログをＳＯＣの分析エンジン１０に送信する（ステップＳ１）。

　以下、アラートについて処理を行う場合の例を説明する。セキュリティシステム１は、セキュリティログについても、アラートと同様に処理することができる。

　分析エンジン１０は自動分析を行う（ステップＳ２）。分析エンジン１０は、既知の悪意のある特性や、事前に定義されたルールやブラックリストに基づいて分析を行うことで、アラートに対応する。

　分析エンジン１０は、ＳＯＡＲ（Security　Orchestration,　Automation,　and　Response）と呼ばれる機能を用いて分析を行ってもよい。

　分析エンジン１０は、所定の条件を満たすアラートを決定装置２０、アラートモニタ３０又はＩＯＣチェッカー４０に送信する（ステップＳ３）。

　このとき、図２に示すように、アラートモニタ３０は、アラートに関する情報を表示する。図２は、アラートモニタの画面の例を示す図である。

　例えば、アラートモニタ３０には、アラートの原因となったイベントの日付（Date）、顧客名（Customer）、アラートを送信したデバイス（Device）、アラートの名前（Alert　Name）、アラートのトリガーとなった状況の概要等が表示される。

　また、図３に示すように、ＩＯＣチェッカー４０は、アラートに含まれるＩＯＣ（Indicator　of　Compromise）に関する情報を表示する。図３は、ＩＯＣチェッカーの画面の例を示す図である。

　例えば、ＩＯＣには、ドメイン名、ＩＰアドレス、ＵＲＬ、ファイルハッシュ値等が含まれる。

　図３に示すように、例えば、ＩＯＣチェッカー４０は、ＳＯＣでの調査状況（Status）、ＩＯＣの悪性度に関するＳＯＣの直近の判断（ＳＯＣ　Last　Decision）、そのＩＯＣの最新の脅威インテリジェンス結果（Detection　in　TI）等を表示する。

　例えば、分析者は、アラートモニタ３０及びＩＯＣチェッカー４０といった、ＩＯＣ評価専用のツールを使って、分析エンジン１０によって処理できなかったアラートについてＩＯＣのトリアージ（評価）を行う。

　ＳＯＣの分析者は日頃のＳＯＣワークフローで大量のアラートを処理する。そこで、決定装置２０は、優先度が高いＩＯＣを決定し、分析者に通知する。これにより、ＳＯＣにおいて複数の分析者が同じＩＯＣを手動で評価することを防止することができる。

　また、決定装置２０によれば、優先度が高いＩＯＣを優先して分析することができるため、分析者の稼働量に対する効果を向上させることができる。

　決定装置２０は、モデルの学習、又はモデルを用いてＩＯＣの優先度の予測を行う（ステップＳ４）。そして、決定装置２０は、予測結果に基づき優先度が高いＩＯＣを決定し、当該決定したＩＯＣを通知する（ステップＳ５）。

　例えば、決定装置２０は、決定したＩＯＣを、ＩＯＣチェッカー４０を介して分析者に通知する。

　分析者は、通知された優先度に基づき分析を実施する（ステップＳ６）。また、分析者は、分析の過程で脅威インテリジェンスサービス（例えば、VirusTotal（https://www.virustotal.com/））の検索を行ってもよい（ステップＳ７）。

　脅威インテリジェンスサービスの中には、脅威のレベルや悪性度に関するスコアを提供するものがある。しかしながら、本来そのようなスコアは必ずしも分析者の次のアクションを決定するものではない。

　例えば、既にパッチが展開されている脆弱性を利用した攻撃に関連したＩＯＣは、悪性であるスコアが高いかもしれないが、顧客組織を守るという観点では差し迫った脅威ではない。

　このように、ＳＯＣにおけるアラート分析は単純ではないため、アラート分析を完全自動化することは難しく、分析者による判断が必要になる場合がある。

　このため、決定装置２０による優先度が高いＩＯＣの決定は、分析者の判断の時間を確保し、また各ＩＯＣの調査稼働を削減するために有用であるということができる。

　分析者は、最終的に分析対象のアラート及び当該アラートに含まれたＩＯＣが悪性か非悪性かを判断し、さらに顧客への報告が必要かどうかを判断し、顧客への報告が必要な場合、顧客組織のシステム管理者等に報告を行う（ステップＳ８）。

　例えば、分析者があるＩＯＣの評価を完了すると、その結果に基づいて、分析エンジン１０におけるアラートのトリガーされる条件を変更することができる。

　例えば、分析者による評価で明らかに悪性のＩＯＣが特定された場合、カスタムブラックリスト又はカスタムシグネチャとして当該ＩＯＣを分析エンジン１０において使用することができる。

　その場合、同一ＩＯＣを含むログをＳＯＣの他の顧客でも自動的に検知できるようにすることができる。また、評価で誤検知や脅威レベルが少ないＩＯＣが特定された場合、アラートをトリガーするＳＩＥＭロジックが変更され、同じ誤検知アラートが再び発生するのを防ぐことができ、分析者の稼働削減につながる。

　以降、決定装置２０が優先度の高いＩＯＣを決定する処理について、決定装置２０の構成とともに詳細に説明する。

　図４は、第１の実施形態に係る決定装置の構成例を示す図である。図４に示すように、決定装置２０は、特徴情報抽出部２１、ラベル付与部２２、学習部２３、予測部２４及びモデル情報２５を有する。

　決定装置２０は、機械学習手法によるモデルの学習処理、及び学習済みのモデルを使った予測処理を行う。

　学習処理では、特徴情報抽出部２１、ラベル付与部２２及び学習部２３が用いられる。また、予測処理では、特徴情報抽出部２１及び予測部２４が用いられる。

　特徴情報抽出部２１は、サイバーセキュリティに関する情報に含まれるＩＯＣから特徴情報を抽出する。例えば、サイバーセキュリティに関する情報は、分析エンジン１０から取得するアラートである。

　特徴情報抽出部２１は、分析エンジン１０から入手した過去のアラートに含まれるＩＯＣから、当該ＩＯＣの特性を特徴づける情報（以後、特徴情報）を抽出する。

　特徴情報は、ＩＯＣに含まれるドメイン名、ＩＰアドレス、ＵＲＬ、ファイルハッシュ値等であってもよい。

　例えば、特徴情報抽出部２１は、あらかじめ定められた一定の日数の間に発生したアラートから特徴情報を抽出する。

　ここで、特徴情報抽出部２１による特徴情報の抽出方法を詳細に説明する。特徴情報抽出部２１は、取得部及び作成部を有する抽出装置として機能する。

　取得部は、サイバーセキュリティに関する情報に含まれるＩＯＣに対する所定の組織による観測結果を取得する。作成部は、取得した観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する。

　特徴情報抽出部２１は、脅威インテリジェンスサービスによる観測結果（項目１、２、３）、又はインターネット等のネットワークにおける観測結果（項目４、５）を基に特徴情報を作成する。

　各項目の特徴情報について説明する。まず、項目１、２及び３の特徴情報は、各ＩＯＣに関連して既に脅威インテリジェンスサービスによって観測された脅威の特性に着目した特徴情報である。

　特徴情報抽出部２１は、ＩＯＣに関連する事項の脅威インテリジェンスサービスによる検知状況を取得する。特徴情報抽出部２１は、検知状況を基に特徴情報を作成する。

　脅威インテリジェンスサービスは、顧客組織が用意したものであってもよいし、外部組織が提供しているものであってもよい。例えば、脅威インテリジェンスサービスは、VirusTotalのようなドメイン名やＩＰアドレスやＵＲＬやファイルハッシュ値に関する脅威情報を取得できるサービスである。

　項目１、２、３に包含される特徴情報は、例えば２８個である。以下、項目Ｘのように表記される項目、及び項目Ｘ－Ｙのように表記される項目の特徴情報は、項目Ｘに包含される特徴情報であるものとする。

（項目１）
　特徴情報抽出部２１は、ドメイン名のＩＯＣがあった場合、脅威インテリジェンスサービスを参照し、（１）当該ドメイン名を含む検知ＵＲＬ、（２）当該ドメイン名宛に通信した検知ファイル、（３）当該ドメイン名からダウンロードされた検知ファイル、（４）当該ドメイン名を言及している検知ファイルの４つの事項の数をそれぞれカウントし、特徴情報とする。

　これにより、特徴情報抽出部２１は、例えば４個の特徴情報を得る。項目１の特徴情報によれば、当該ＩＯＣが既知の脅威と関連しているかどうかを識別することができる。

　ここで、（１）の当該ドメイン名を含む検知ＵＲＬを、ドメイン名部分が共通するＵＲＬのうち、脅威インテリジェンスサービス上の任意の検知エンジンのうち少なくとも１つ以上で検知したものと定義する。

　また、（２）の当該ドメイン名宛に通信した検知ファイルを、サンドボックス化された環境での実行や解析を通じて当該ドメイン名宛に通信することが確認されたファイルのうち、脅威インテリジェンスサービス上の任意の検知エンジンのうち少なくとも１つ以上で検知したものと定義する。

　また、（３）の当該ドメイン名からダウンロードされた検知ファイルを、当該ドメイン名から取得されたファイルのうち、脅威インテリジェンスサービス上の任意の検知エンジンのうち少なくとも１つ以上で検知したものと定義する。

　また、（４）の当該ドメイン名を言及している検知ファイルを、当該ドメイン名の文字列を内部に含むファイルのうち、脅威インテリジェンスサービス上の任意の検知エンジンのうち少なくとも１つ以上で検知したものと定義する。

（項目２）
　特徴情報抽出部２１は、ドメイン名のＩＯＣがあった場合、脅威インテリジェンスサービスを参照し、（１）当該ドメイン名を含む非検知ＵＲＬ、（２）当該ドメイン名宛に通信した非検知ファイル、（３）当該ドメイン名からダウンロードされた非検知ファイル、（４）当該ドメイン名を言及している非検知ファイルの数の４つの事項の数をそれぞれカウントし、特徴情報とする。

　項目２の特徴情報は、項目１の「検知された」という部分を「検知されなかった」と置き換えた特徴情報に相当する。検知されなかったＵＲＬやファイルとは、脅威インテリジェンスサービスによって検査されたが、いずれの検知エンジンによっても悪意のあるもの又は不審なものとしては検出されなかったことを意味する。

　これにより、特徴情報抽出部２１は、例えば４個の特徴情報を得る。項目２の特徴情報によれば、当該ＩＯＣが良性又は正規なものかどうかを識別することができる。

（項目３）
　特徴情報抽出部２１は、項目１の（１）から（４）の各事項について、脅威インテリジェンスサービスに存在する複数の検知エンジンのうち、何個の検知エンジンが検知したかという検知数の情報を収集する。

　さらに、特徴情報抽出部２１は、４種類の検知数について、５つの統計量（平均値、最小値、最大値、標準偏差、分散）を計算して、合計２０個の特徴情報を作成する。

　このように、特徴情報抽出部２１は、観測結果から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。

　項目３の特徴情報によれば、検知されたＵＲＬやファイルが、より多くの検知エンジンで検出されているメジャーな脅威なのか、それとも少数の検知エンジンでしか検知されていないマイナーな脅威なのかを区別することができる。

　項目４及び５の、各ＩＯＣに関連するネットワーク内で観測される通信の特性に着目した特徴情報について説明する。ネットワークは、例えばインターネットである。

　具体的には、特徴情報抽出部２１は、各ＩＯＣがあるネットワークでどの程度参照されたのかという情報を取得するために、Passive　ＤＮＳ（Domain　Name　System）データベースを利用する。

　Passive　ＤＮＳデータベースとは、任意のキャッシュＤＮＳサーバや権威ＤＮＳサーバにおいてその通信を観測し、実際にやりとりされたＤＮＳメッセージから、ドメイン名とＩＰアドレスの対応関係やその履歴を記録したデータベースである。

　Passive　ＤＮＳデータベースは、顧客組織が用意したものであってもよいし、外部組織が提供しているものであってもよい。

　特徴情報抽出部２１は、ネットワーク内で観測される通信特性に関する特徴情報として、項目４及び５に包含される５つの項目、合計１４７個の特徴情報を抽出する。

（項目４）
　特徴情報抽出部２１は、ＩＯＣに紐付くドメイン名に対応するＤＮＳ（Domain　Name　System）レコードを観測結果として取得し、ＤＮＳレコードの情報の変更回数を基に、例えば７個の特徴情報を作成する。

　例えば、特徴情報抽出部２１は、ドメイン名のＩＯＣがあった場合、Passive　ＤＮＳデータベースを参照し、ドメイン名に対応する７種類のＤＮＳリソースレコード（Ａ、ＡＡＡＡ、ＣＮＡＭＥ、ＭＸ、ＮＳ、ＳＯＡ、ＴＸＴ）ごとに、過去のある時点から現在までのリソースレコードの変更回数を特徴情報としてカウントする。

　例えば、図５の上側の表に示すように、「example.com」のＡレコード（ＩＰｖ４アドレス）が過去に「192.0.2.1」で、その後「203.0.113.1」になったことが観測されている場合、特徴情報抽出部２１は、ドメイン名「example.com」に相当するＩＯＣの変更回数を１とカウントする。

　項目４の特徴情報によれば、ＤＮＳレコードそのものが頻繁に変更されているドメイン名と、安定的に利用されているドメイン名とを区別することができる。

　なお、ドメイン名以外のＩＯＣの場合、特徴情報抽出部２１は、当該ＩＯＣをドメイン名に紐付けた上で上記の特徴情報を抽出すればよい。

　例えば、特徴情報抽出部２１は、ＩＯＣがＵＲＬ「https://www.example.com」である場合、当該ＩＯＣをドメイン名部分「www.example.com」と紐付けてカウントを行う。

　また、ＩＯＣがＩＰアドレスの場合、特徴情報抽出部２１は、ＤＮＳの逆引きレコードを参照して対応するドメイン名を入手するか、あるいは、Passive　ＤＮＳデータベースを使うことで当該ＩＰアドレスに紐付いていたドメイン名を抽出できる。

　さらに、ＩＯＣがファイルハッシュ値の場合、特徴情報抽出部２１は、脅威インテリジェンスサービスを参照して、当該ファイルが通信した先あるいは当該ファイルをダウンロードした元のドメイン名を抽出できる。

（項目５）
　特徴情報抽出部２１は、ＩＯＣに紐付くドメイン名に対応するＤＮＳ（Domain　Name　System）レコードを観測結果として取得し、ＤＮＳレコードの利用回数及び利用期間を基に、例えば１４０個の特徴情報を作成する。

（項目５－１）
　特徴情報抽出部２１は、過去のＤＮＳクエリ数の平均値、最小値、最大値、標準偏差、分散に基づく、例えば３５個の特徴情報を作成する。

　例えば、ドメイン名のＩＯＣがあった場合、特徴情報抽出部２１は、まず項目４と同様に、Passive　ＤＮＳデータベースを参照し、ドメイン名に対応する７種類のＤＮＳリソースレコード（Ａ、ＡＡＡＡ、ＣＮＡＭＥ、ＭＸ、ＮＳ、ＳＯＡ、ＴＸＴ）の中から、各組み合わせのＤＮＳクエリ回数をカウントする。

　ここで、ＤＮＳクエリ回数を、Passive　ＤＮＳデータベースにおいて、リソースレコードの組み合わせ（例えば「example.com」、Ａレコード、「192.0.2.1」）が観測された回数と定義する。

　図５の上側には、「example.com」の２つの過去のＤＮＳ　Ａレコードと、それらのＤＮＳクエリ回数（それぞれ５，０００回と１５，０００回）の例が示されている。

　次に、特徴情報抽出部２１は、７種類のリソースレコードについて、５つの統計量（平均値、最小値、最大値、標準偏差、分散）を計算し、合計で３５個の特徴情報を作成する。

　項目５－１の特徴情報によれば、ドメイン名にアクセスしているインターネットユーザーの数の傾向を反映させることができる。

（項目５－２）
　特徴情報抽出部２１は、最初のＤＮＳクエリからの経過日数の平均値、最小値、最大値、標準偏差、分散に基づく、例えば３５個の特徴情報を作成する。

　例えば、ドメイン名のＩＯＣがあった場合、特徴情報抽出部２１は、まず項目４と同様に、Passive　ＤＮＳデータベースを参照し、ドメイン名に対応する７種類のＤＮＳリソースレコード（Ａ、ＡＡＡＡ、ＣＮＡＭＥ、ＭＸ、ＮＳ、ＳＯＡ、ＴＸＴ）ごとに、各組み合わせの最初のＤＮＳクエリが行われた日付を抽出する。

　次に、特徴情報抽出部２１は、各々の日付について、当該日付から特徴情報を抽出する当日までの経過日数を算出する。

　図５に「example.com」に対する２つのレコードとその最初のＤＮＳクエリが観測された日付の例を示す。

　例えば、図５に示すように、特徴情報を抽出するのが２０２０年６月１日とした場合、特徴情報抽出部２１は、１つ目のレコードについては２０１９－１０－３１から２０２０－０６－０１までの日数、２つ目のレコードについては２０２０－０１－２４から２０２０－０６－０１までの日数をカウントする。

　項目５－２の特徴情報によれば、各レコードの使用開始時期を中心に、ドメイン名に関するＤＮＳトレンドを反映させることができる。

（項目５－３）
　特徴情報抽出部２１は、最後のＤＮＳクエリからの経過日数の平均値、最小値、最大値、標準偏差、分散に基づく、３５個の特徴情報を作成する。

　例えば、ドメイン名のＩＯＣがあった場合、特徴情報抽出部２１は、項目５－２の「最初のＤＮＳクエリ」を「最後のＤＮＳクエリ」に変更して特徴情報を抽出する。

　例えば、図５に示すように、特徴情報を抽出するのが２０２０年６月１日とした場合、特徴情報抽出部２１は、１つ目のレコードについては２０２０－０１－２３から２０２０－０６－０１まで、２つ目のレコードについては２０２０－０４－０１から２０２０－０６－０１までの日数をカウントする。

　その後、特徴情報抽出部２１は、７種類のリソースレコード毎にカウントした日数の５つの統計量（平均値、最小値、最大値、標準偏差、分散）を計算し、合計で３５個の特徴情報を作成する。

　項目５－３の特徴情報によれば、各レコードの使用が停止した時期に着目して、ドメイン名に関するＤＮＳトレンドを反映させることができる。

（項目５－４）
　特徴情報抽出部２１は、ＤＮＳクエリが存在していた期間の平均値、最小値、最大値、標準偏差、分散に基づく。３５個の特徴情報を作成する。

　例えば、ドメイン名のＩＯＣがあった場合、特徴情報抽出部２１は、ドメイン名に対応する７種類のＤＮＳリソースレコード（Ａ、ＡＡＡＡ、ＣＮＡＭＥ、ＭＸ、ＮＳ、ＳＯＡ、ＴＸＴ）ごとに、項目５－２と同様に最初のＤＮＳクエリの日付を、項目５－３と同様に最後のＤＮＳクエリの日付を入手する。

　図５の例では、特徴情報抽出部２１は、１つ目のレコードについては２０１９－１０－３１から２０２０－０１－２３までの日数、２つ目のレコードについては２０２０－０１－２４から２０２０－０４－０１までの日数をカウントする。

　項目５－４の特徴情報によれば、各レコードがどのくらいの期間使用されているかに注目して、ドメイン名に関するＤＮＳトレンドを反映させることができる。

　ラベル付与部２２は、ＩＯＣのそれぞれについて、関連するアラートの対応に要した稼働量の実績に応じたラベルを付与する。

　ここでは、ラベルは優先度が高いか否かを表す二値データであるものとする。例えば、ラベル付与部２２は、過去に分析者の稼働を多く消費したＩＯＣについては、優先度が高いことを示すラベルを付与し、そうでないものについては優先度が高くないことを示すラベルを付与する。

　なお、従来技術（例えば、非特許文献４から８に記載の技術）では、ＩＯＣが悪性のもの（又は悪意があるもの）であるか否かを示すラベルが付与されていた。一方で、本実施形態では、分析者の稼働量に基づきラベルが付与される。

　ラベル付与部２２は、ＩＯＣのうち、関連するアラートに対して一定期間内に発生した手動調査の回数が所定値以上であるＩＯＣについて、優先度が高いことを示すラベルを付与し、手動調査の回数が所定値未満であるＩＯＣについて、優先度が高くないことを示すラベルを付与する。

　以降の説明では、優先度が高いことを示すラベルを「優先」、優先度が高くないことを示すラベルを「非優先」と表記する。

　学習部２３は、特徴情報抽出部２１によって抽出された特徴情報及びラベル付与部２２によって付与されたラベルを組み合わせた学習データを用いて、ＩＯＣの特徴情報からラベルを出力するモデルの学習を行う。

　学習部２３は、教師あり機械学習により、モデルの作成及び更新を行う。モデル情報２５は、モデルを構築するためのパラメータ等を含む情報である。学習部２３は、モデル情報２５の作成及び更新を行う。

　学習部２３は、既知の任意の教師あり機械学習のアルゴリズムを採用することが可能である。本実施形態では、学習部２３は標準的なロジスティック回帰を採用するものとする。

　ロジスティック回帰は、スケーラブルで高速なので、ＳＯＣ環境のように多くの顧客からの大量のアラートに含まれるＩＯＣを予測するのに適している。

　また、ロジスティック回帰は解釈可能性が高いことが知られている。ロジスティック回帰の出力は、その性質上、入力されたＩＯＣが優先される確率として解釈でき、さらに各ＩＯＣに対応する特徴情報のうちどの特徴が結果に貢献しているかを示すことができる。このように、ロジスティック回帰には解釈可能性が高いという利点がある。

　ここでは、学習部２３は、特にＬ１正則化つきロジスティック回帰を利用するものとする。

　まず、学習部２３は、特徴情報抽出部２１によって抽出された特徴情報を表すベクトルｘが与えられたとき、（１）式に示すラベルの条件付き確率ｙを、（２）式のようにモデル化する。

　ここで、θはロジスティック回帰モデルのパラメータである。また、σはシグモイド関数である。また、ｘの全ての特徴は、［０，１］の範囲に正規化されるものとする。

　学習部２３は、正則化の度合いを決定するハイパーパラメータλを導入した（４）式の目的関数を最小化する際のパラメータθを求めるために、（３）式に示すｎ個のラベル付きの学習用データの集合を使用する。

　（４）式のうち、Ｌ１正則化部分λ｜｜θ｜｜_１は、目的関数にペナルティを加えており、有意に寄与しない特徴情報を識別して削減する効果がある。

　このような特徴量の削減は必要以上に学習データに合わせてしまうオーバーフィッティングの防止に寄与するだけでなく、メモリ使用量の削減や、ＳＯＣアナリストに提示する結果をより簡潔で解釈しやすいものにする効果がある。

　予測部２４は、学習部２３による学習が行われたモデルを用いて、ＩＯＣの特徴情報からラベルを予測する。

　予測部２４は、学習部２３によって学習が行われたモデルを利用して、新たにリアルタイムで発生したアラートに含まれるＩＯＣと対応する特徴情報を入力し、どのＩＯＣが将来的に分析者の稼働を多く消費することになるのかを予測する。

　例えば、予測部２４は、モデル情報２５を基に構築したロジスティック回帰モデルを使って予測を行う。

　例えば、予測部２４は、分析者が対象のＩＯＣをＰ日以内にＫ回以上手動で分析する確率を予測することである（ただし、Ｐは整数）。

　予測部２４は、学習部２３によって決定されたパラメータθを用いて、ＩＯＣに対応する特徴情報のベクトルｘが「優先」である確率ｐ求め、予測するラベル＾ｙ（ｙの直上に＾）を（５）式で定義する。

　決定装置２０は、予測部２４によって予測されたラベルを基に、ＳＯＣの分析者による繰り返しの調査につながると考えられるＩＯＣ、すなわち「優先」ラベルが予測されたＩＯＣを、確率ｐが高い順に出力し、分析者に提示する。

　このとき、分析者は、決定装置２０によって提示された情報を利用して、調査対象の優先順位付けを行い、効率的にトリアージや詳細分析を行うことができる。

　ＳＯＣの分析者は、ＩＯＣに対してどのようなアクションを取るべきかを可能な限り決定し記録することが求められる。

　本実施形態によれば、分析者は優先度が高いＩＯＣを調査し、その結果を分析エンジン１０に反映させることができる。それによって、分析エンジン１０は同じＩＯＣを含むアラートを自動処理できるようになるため、分析者が毎回当該ＩＯＣを手動で調査することを回避し、ＳＯＣ全体としての稼働量の削減を図ることができる。

　例えば、分析者は優先度が高いと決定されたＩＯＣを調査し、その結果を基に分析エンジン１０に当該ＩＯＣを自動分析させるようにする。これにより、当該ＩＯＣは他の分析者に受け渡されることがなくなるため、稼働量が削減される。

　なお、決定装置２０は、学習処理をオフラインで定期的（例えば１日に１回）に再実行し、モデル情報２５を更新する。決定装置２０は、図５に示す特徴情報抽出時点前後の所定の期間のデータを利用して学習処理を行う。例えば、決定装置２０は、特徴抽出時点までのＦ日間と特徴情報抽出時点からのＬ日間を合わせたＦ＋Ｌ日間のデータを利用して学習処理を行う（ただし、Ｆ及びＬは整数）。

　一方、決定装置２０が、顧客組織からのアラートに含まれるＩＯＣをリアルタイムに処理する際、すなわち予測処理を行う際には、当該ＩＯＣに対して、過去Ｆ日間分のデータを利用して特徴情報を抽出する。

　そして、決定装置２０は、抽出した特徴情報から、未来のＰ日間に分析者によるＫ回以上の手動調査が実施される確率ｐを計算する。

　決定装置２０は、上記の予測処理をリアルタイムに受信するＩＯＣごとに繰り返す。その結果、分析者が優先的に調査するべきＩＯＣのリストが、図３のようにＩＯＣチェッカー４０の画面に表示され継続的に更新される。

［第１の実施形態の処理］
　図６は、学習処理の流れを示すフローチャートである。図６に示すように、まず、決定装置２０は、過去のアラートの入力を受け付ける（ステップＳ１０１）。

　次に、決定装置２０は、入力されたアラートに含まれるＩＯＣから特徴情報を抽出する（ステップＳ１０２）。続いて、決定装置２０は、各ＩＯＣに対する分析者の稼働量に基づいて優先度に関する正解ラベルを付与する（ステップＳ１０３）。

　そして、決定装置２０は、正解ラベルを用いて、特徴情報から優先度に関するラベルを出力するモデルを学習する（ステップＳ１０４）。

　図７は、特徴情報を抽出する処理の流れを示すフローチャートである。図７の処理は、図６のステップＳ１０２に相当する。

　まず、図７に示すように、決定装置２０は、ＩＯＣの観測結果を取得する（ステップＳ１０２ａ）。

　次に、決定装置２０は、脅威インテリジェンスサービスによる検知状況に基づく特徴情報を作成する（項目１、２、３）（ステップＳ１０２ｂ）。さらに、決定装置２０は、ＩＯＣに紐付くドメイン名に対応するＤＮＳレコードに基づく特徴情報を作成する（項目４、５）（ステップＳ１０２ｃ）。

　図８は、予測処理の流れを示すフローチャートである。図８に示すように、まず、決定装置２０は、直近のアラートの入力を受け付ける（ステップＳ２０１）。

　次に、決定装置２０は、入力されたアラートに含まれるＩＯＣから特徴情報を抽出する（ステップＳ２０２）。続いて、決定装置２０は、各ＩＯＣに対する分析者の稼働量に基づいて正解ラベルを抽出する（ステップＳ２０３）。

　そして、決定装置２０は、特徴情報を学習済みのモデルに入力して、優先度に関するラベルを予測する（ステップＳ２０４）。

　決定装置２０は、予測したラベルに基づき優先度の高いＩＯＣをＳＯＣの分析者に通知することができる。

［第１の実施形態の効果］
　これまで説明してきたように、特徴情報抽出部２１は、サイバーセキュリティに関する情報に含まれるＩＯＣに対する所定の組織による観測結果を取得する。特徴情報抽出部２１は、特徴情報抽出部２１によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する。

　これにより、ＩＯＣの調査の優先度を決定するために有用な特徴情報を得ることができる。

　特徴情報抽出部２１は、ＩＯＣに関連する事項の脅威インテリジェンスサービスによる検知状況を取得する。特徴情報抽出部２１は、検知状況を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、ＩＯＣが、悪性であるか、良性であるか、又はＩＯＣの脅威の度合いを特徴情報に反映させることができる。

　特徴情報抽出部２１は、ＩＯＣに紐付くドメイン名に対応するＤＮＳレコードを観測結果として取得する。特徴情報抽出部２１は、ＤＮＳレコードの情報の変更回数を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、ＤＮＳレコードそのものが頻繁に変更されているドメイン名と、安定的に利用されているドメイン名とを区別することができる。

　特徴情報抽出部２１は、ＩＯＣに紐付くドメイン名に対応するＤＮＳレコードを観測結果として取得する。特徴情報抽出部２１は、ＤＮＳレコードの利用回数及び利用期間を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、ドメイン名に関するＤＮＳトレンドを特徴情報に反映させることができる。

　特徴情報抽出部２１は、観測結果から得られる情報、及び情報から計算される統計量を基に、特徴情報を作成する。

　これにより、特徴情報抽出部２１は、限られた情報からさらに多くの特徴情報を得ることができる。

［システム構成等］
　また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散及び統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散又は統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ（Central　Processing　Unit）及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。なお、プログラムは、ＣＰＵだけでなく、ＧＰＵ等の他のプロセッサによって実行されてもよい。

　また、本実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　一実施形態として、決定装置２０は、パッケージソフトウェアやオンラインソフトウェアとして上記の決定処理を実行する決定プログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記の決定プログラムを情報処理装置に実行させることにより、情報処理装置を決定装置２０として機能させることができる。ここで言う情報処理装置には、デスクトップ型又はノート型のパーソナルコンピュータが含まれる。また、その他にも、情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等のスレート端末等がその範疇に含まれる。

　また、決定装置２０は、ユーザが使用する端末装置をクライアントとし、当該クライアントに上記の決定処理に関するサービスを提供する決定サーバ装置として実装することもできる。例えば、決定サーバ装置は、セキュリティに関するアラートを入力とし、優先度の高いＩＯＣを出力とする決定サービスを提供するサーバ装置として実装される。この場合、決定サーバ装置は、Ｗｅｂサーバとして実装することとしてもよいし、アウトソーシングによって上記の決定処理に関するサービスを提供するクラウドとして実装することとしてもかまわない。

　図９は、決定プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、決定装置２０の各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、決定装置２０における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０は、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して、上述した実施形態の処理を実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１　セキュリティシステム
　１０　分析エンジン
　２０　決定装置
　２１　特徴情報抽出部
　２２　ラベル付与部
　２３　学習部
　２４　予測部
　２５　モデル情報
　３０　アラートモニタ
　４０　ＩＯＣチェッカー

Claims

　抽出装置によって実行される抽出方法であって、
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）に対する所定の組織による観測結果を取得する取得工程と、
　前記取得工程によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する作成工程と、
　を含むことを特徴とする抽出方法。
　前記取得工程は、前記ＩＯＣに関連する事項の脅威インテリジェンスサービスによる検知状況を取得し、
　前記作成工程は、前記検知状況を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記取得工程は、前記ＩＯＣに紐付くドメイン名に対応するＤＮＳ（Domain　Name　System）レコードを前記観測結果として取得し、
　前記作成工程は、前記ＤＮＳレコードの情報の変更回数を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記取得工程は、前記ＩＯＣに紐付くドメイン名に対応するＤＮＳ（Domain　Name　System）レコードを前記観測結果として取得し、
　前記作成工程は、前記ＤＮＳレコードの利用回数及び利用期間を基に、前記特徴情報を作成することを特徴とする請求項１に記載の抽出方法。
　前記作成工程は、前記観測結果から得られる情報、及び前記情報から計算される統計量を基に、前記特徴情報を作成することを特徴とする請求項１から４のいずれか１項に記載の抽出方法。
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）に対する所定の組織による観測結果を取得する取得部と、
　前記取得部によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する作成部と、
　を有することを特徴とする抽出装置。
　コンピュータに、
　サイバーセキュリティに関する情報に含まれるＩＯＣ（Indicator　of　Compromise）に対する所定の組織による観測結果を取得する取得手順と、
　前記取得手順によって取得された観測結果から得られる情報を基に、ＩＯＣの特徴情報を作成する作成手順と、
　を実行させることを特徴とする抽出プログラム。