WO2024089859A1

WO2024089859A1 - 収集装置、収集方法、および、収集プログラム

Info

Publication number: WO2024089859A1
Application number: PCT/JP2022/040259
Authority: WO
Inventors: 弘樹中野; 大紀千葉; 駿小出; 直翼福士
Original assignee: 日本電信電話株式会社
Priority date: 2022-10-27
Filing date: 2022-10-27
Publication date: 2024-05-02

Abstract

収集装置は、セキュリティキーワードを用いて、各ユーザのTweetからフィッシング攻撃の報告に関するTweetを収集する。そして、収集装置は、収集したTweetから所定の頻度を超えて共起するキーワードである共起キーワードを抽出する。その後、収集装置は、各ユーザのTweetから、共起キーワードを含むTweetとそのTweetに紐づくデータ（例えば、テキスト、画像）を収集する。その後、収集装置は、収集したTweetのテキストおよび画像から抽出したURLまたはドメイン名に基づき、フィッシング攻撃の報告に関する投稿である可能性の高い投稿を選別する。

Description

収集装置、収集方法、および、収集プログラム

　本発明は、セキュリティ脅威情報に関する投稿を収集するための、収集装置、収集方法、および、収集プログラムに関する。

　ソーシャルプラットフォーム上では、セキュリティ有識者に加えて善意の一般ユーザが自ら観測した疑わしいフィッシング攻撃の事例を注意喚起として画像（例えば、スクリーンショット）等により多く共有している。これらの情報を可能な限り早期かつ正確に収集・分析・抽出できればフィッシング攻撃の対策に有用である。

　フィッシング攻撃等のセキュリティ脅威情報を抽出する対象として、セキュリティブログ、セキュリティレポート、ソーシャルプラットフォーム等がある。

　例えば、非特許文献３，４のように、セキュリティ専門家が分析した脅威情報をまとめたブログやレポートに自然言語処理技術を適用し、形式化したデータとして抽出することで、機械的に利活用可能となる。

　また、非特許文献５では、脅威情報の収集対象として、Twitter（登録商標）、Facebook（登録商標）、ニュースサイト、セキュリティブログ、セキュリティフォーラム等を比較評価し、収集可能な情報の量と質の両方においてTwitterが最も優れていることが報告されている。

　非特許文献６，７，８では、Twitterの特定のユーザやキーワードに着目して、各ユーザのTweetから脅威に関連したURLやドメイン名、ハッシュ値、IPアドレス、脆弱性情報等を抽出する技術を提案している。当該技術によれば、多数の有用な脅威情報が得られることが報告されている。

勢い続くフィッシング攻撃-ユニークURL、1日平均約270件，Security　NEXT,［online］，［2022年10月13日検索］，インターネット＜URL：https://www.security-next.com/134607＞ 2022/02　フィッシング報告状況,［online］，フィッシング対策協議会　Council　of　Anti-Phishing　Japan，［2022年10月13日検索］，インターネット＜URL：https://www.antiphishing.jp/report/monthly/202202.html＞ Zhu,　Ziyun　and　Dumitras,　Tudor,　"ChainSmith:　Automatically　Learning　the　Semantics　of　Malicious　Campaigns　by　Mining　Threat　Intelligence　Reports",　2018　IEEE　European　Symposium　on　Security　and　Privacy Satvat,　Kiavash　and　Gjomemo,　Rigel　and　Venkatakrishnan,　V.N.,　"EXTRACTOR:　Extracting　Attack　Behavior　from　Threat　Reports",　IEEE　EuroS&P　2021. Shin,　Hyejin　and　Shim,　WooChul　and　Moon,　Jiin　and　Seo,　Jae　Woo　and　Lee,　Sol　and　Hwang,　Yong　Ho,　"Cybersecurity　Event　Detection　with　New　and　Re-emerging　Words,"　ASIA　CCS　2020. Alves,　Fernando　and　Andongabo,　Ambrose　and　Gashi,　Ilir　and　Ferreira,　Pedro　M.　and　Bessani,　Alysson,　"Follow　the　Blue　Bird:　A　Study　on　threat　data　published　on　Twitter",　ESORICS　2020. Shin,　Hyejin　and　Shim,　WooChul　and　Kim,　Saebom　and　Lee,　Sol　and　Kang,　Yong　Goo　and　Hwang,　Yong　Ho,　"#Twiti:　Social　Listening　for　Threat　Intelligence",　WWW　2021. Roy,　Sayak　Saha　and　Karanjit,　Unique　and　Nilizadeh,　Shirin,　"Evaluating　the　Effectiveness　of　Phishing　Reports　on　Twitter",　eCrime　2021.

　しかし、上記の従来技術には以下の課題がある。

（１）情報収集対象のTweetが限定的である
　従来技術は、情報収集対象を特定のユーザアカウントに限定しているため、様々なユーザによるフィッシング攻撃の報告の情報は収集できない。また、従来技術は、「＃phishing」や「＃注意喚起」等の限定的なキーワードを収集対象としているため、限定的な範囲のTweetしか収集できない。

（２）情報抽出対象はTweetに含まれる一定の形式の文章のみである
　Tweetによるフィッシング攻撃の報告にはスクリーンショット等の画像も含まれるが、従来技術は、Tweet内の文章のみを情報抽出対象としている。そのため、従来技術では画像内に含まれる情報を抽出できない。また、ユーザは様々な形式で情報を投稿するため、一定の形式に特化した従来技術では、限定的な情報しか抽出できない。

　その結果、従来技術では、セキュリティ脅威情報を幅広く抽出できないという問題があった。そこで、本発明は、前記した問題を解決し、幅広くセキュリティ脅威情報を抽出することを課題とする。

　前記した課題を解決するため、本発明は、セキュリティ脅威に関するキーワードであるセキュリティキーワードを用いて、SNS（Social　Networking　Service）の投稿からセキュリティ脅威に関する投稿を収集する第１の収集部と、収集された前記セキュリティ脅威に関する投稿から所定の頻度を超えて共起するキーワードである共起キーワードを抽出するキーワード抽出部と、SNSの投稿から、前記共起キーワードを含む投稿および前記投稿に紐づく画像を収集する第２の収集部と、を備えることを特徴とする。

　本発明によれば、セキュリティ脅威情報を幅広く抽出することができる。

図１は、システムの構成例を示す図である。図２Ａは、収集装置の構成例を示す図である。図２Ｂは、収集装置が実行する処理手順の例を示すフローチャートである。図３は、収集装置が実行する処理手順の具体例を説明するための図である。図４は、セキュリティキーワードの例を示す図である。図５は、Co-occurrence　Keywordsの生成例を説明するための図である。図６は、データ収集の対象のTweetの例を示す図である。図７は、Tweetのテキストおよび画像からURLとドメイン名を抽出する処理を説明するための図である。図８Ａは、分類装置の構成例を示す図である。図８Ｂは、分類装置が実行する処理手順の例を示すフローチャートである。図９は、分類装置が実行する処理手順の具体例を説明するための図である。図１０は、Tweetから生成される特徴量の例を示す図である。図１１は、TweetのAccount　Featureの例を示す図である。図１２は、TweetのContent　Featureの例を示す図である。図１３は、TweetのURL　Featureの例を示す図である。図１４は、TweetのOCR　Featureの例を示す図である。図１５は、TweetのVisual　Featureの例を示す図である。図１６は、TweetのContext　Featureの例を示す図である。図１７は、図８Ａの選定部により選定された特徴量の例を示す図である。図１８は、システムの分類精度の評価結果を示す図である。図１９は、所定期間にシステムが抽出したフィッシング攻撃の報告とフィッシング攻撃に関連したURLの件数を示す図である。図２０は、システムとOpenPhishとの比較結果を示す図である。図２１は、システムとPhishTankとの比較結果を示す図である。図２２は、ユーザの報告回数とフィッシングURL数の調査結果を示す図である。図２３は、動的にキーワードを選定することの効果を示す図である。図２４は、プログラムを実行するコンピュータを示す図である。

　以下、図面を参照しながら、本発明を実施するための形態（実施形態）について説明する。本発明は、本実施形態に限定されない。

［概要］
　まず、図１を用いて、本実施形態の収集装置および分類装置を備えるシステムの概要を説明する。

　なお、システムが扱うSNS（Social　Networking　Service）の投稿は、Twitterの投稿（Tweet）である場合を例に説明するが、これに限定されない。また、SNSの投稿は、日本語の投稿でもよいし英語の投稿でもよい。

　また、本実施形態において、システムは、SNSの投稿からフィッシング攻撃の報告に関する投稿を収集する場合を例に説明するが、フィッシング攻撃以外のセキュリティ脅威の報告に関する投稿を収集してもよい。

　システムは、例えば、各ユーザのTweetからフィッシング攻撃の報告のTweetを早期かつ高精度に抽出する。例えば、システムは、収集装置１０と分類装置２０とを含んで構成される。なお、収集装置１０と分類装置２０とはインターネット等のネットワーク経由で通信可能に接続されてもよいし、同じ装置内に装備されてもよい。

（１）収集装置１０：フィッシング攻撃の報告である可能性のあるTweetを幅広く収集する。例えば、収集装置１０は、フィッシング攻撃の報告に共起するキーワード（Co-occurrence　Keywords）を抽出する。そして、収集装置１０は、セキュリティ脅威に関するキーワード（Security　Keywords）と上記のCo-occurrence　Keywordsを用いて、フィッシング攻撃の報告である可能性のあるTweet（図１におけるScreened　Tweets）を幅広く収集する。

（２）分類装置２０：収集装置１０により収集されたTweetの中からフィッシング攻撃の報告のTweetを分類する。例えば、分類装置２０は、フィッシング攻撃の報告のTweetのテキストおよび画像の特徴を機械学習により抽出し、その抽出した特徴を用いて、各Tweetがフィッシング攻撃の報告のTweetかそれ以外のTweetかを分類する。

　なお、分類装置２０によるTweetの分類後、収集装置１０は、フィッシング攻撃の報告のTweetと分類されたTweet群からCo-occurrence　Keywordsを抽出してもよい。そして、収集装置１０は、抽出したCo-occurrence　Keywordsを用いて、フィッシング攻撃の報告である可能性のあるTweetを収集してもよい。このようにすることで、システムは、フィッシング攻撃の報告である可能性のあるTweetを収集するためのキーワードを動的に拡充／縮小し、適切なタイミングで収集すべきTweetを収集することができる。

　このようなシステムによれば、セキュリティ有識者だけではなく善意の一般ユーザからもフィッシング攻撃の報告のTweetを収集できる。また、システムは、多数のキーワードでTweetを収集するので、フィッシング攻撃の報告を大規模に分析できる。

　また、システムは、収集した大規模なTweetの中からフィッシング攻撃の報告を精度よく抽出できる。さらに、システムは、Tweetに含まれるテキストと画像の両方からフィッシング攻撃に関する情報を抽出するので、Tweetのテキストを分析するだけでは得られなかった有用な情報を抽出することができる。

　本システムは、フィッシング攻撃の対策に以下の効果をもたらす。
（１）従来技術の限定的な監視対象を超えた幅広い範囲から脅威情報が収集可能となり、新たな観点での脅威情報の提供が可能となる。

（２）特に、これまで不足していた日本人を標的としていたフィッシング攻撃の対策に利活用可能な脅威情報をいち早く提供可能となる。

（３）本システムにより得られるデータを通信事業者のフィルタリングルール等に適用することで、フィッシング攻撃等の被害者の減少につながる。

［収集装置］
［構成例］
　次に、収集装置１０を詳細に説明する。まず、図２Ａを用いて、収集装置１０の構成例を説明する。収集装置１０は、例えば、入出力部１１、記憶部１２、および、制御部１３を備える。

　入出力部１１は、各種データの入出力を司るインタフェースである。入出力部１１は、例えば、Twitter上から収集したTweetの入力を受け付ける。また、入出力部１１は、例えば、制御部１３により抽出されたフィッシング攻撃の報告である可能性のあるTweet（図１におけるScreened　Tweets）を出力する。

　記憶部１２は、制御部１３が各種処理を実行する際に参照されるデータ、プログラム等を記憶する。記憶部１２は、例えば、ＲＡＭ（Random　Access　Memory）、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２は、例えば、制御部１３により抽出されたSecurity　Keywords、Co-occurrence　Keywords等を記憶する。

　制御部１３は、収集装置１０全体の制御を司る。制御部１３の機能は、例えば、ＣＰＵ（Central　Processing　Unit）が、記憶部１２に記憶されるプログラムを実行することにより実現される。

　制御部１３は、例えば、第１の収集部１３１と、キーワード抽出部１３２と、第２の収集部１３３と、データ収集部１３４とを備える。なお、破線で示すURL・ドメイン名抽出部１３５および選別部１３６は装備される場合と装備されない場合とがあり、装備される場合については後記する。

　第１の収集部１３１は、セキュリティ脅威に関するキーワードであるSecurity　Keywords（セキュリティキーワード）を用いて、各ユーザのTweetからフィッシング攻撃の報告のTweetを収集する。

　キーワード抽出部１３２は、第１の収集部１３１により収集されたフィッシング攻撃の報告のTweetから所定の頻度を超えて共起するキーワードであるCo-occurrence　Keywords（共起キーワード）を抽出する。なお、このCo-occurrence　Keywordsは、分類装置２０によりフィッシング攻撃の報告のTweetと分類されたTweetから抽出してもよい。

　第２の収集部１３３は、Co-occurrence　Keywordsを用いて、各ユーザのTweetから、フィッシング攻撃の報告である可能性のあるTweetを収集する。例えば、第２の収集部１３３は、各ユーザのTweetから、当該Tweetのテキストまたは当該Tweetに紐づく画像に、Security　Keywords、Co-occurrence　Keywordsを含むTweetを収集する。収集したTweetは、例えば、記憶部１２に格納される。

　データ収集部１３４は、分類装置２０への入力に必要なデータを収集する。例えば、データ収集部１３４は、第２の収集部１３３により収集されたTweetから、以下のデータを収集する。（１）Tweetの文字列（例えば、ハッシュタグ、文字数等）、（２）Tweetに紐づくメタ情報（例えば、アプリケーション情報、デファングの有無等）、（３）Tweetのアカウントに関する情報（例えば、アカウントのフォロワー数、アカウント登録期間等）、（４）Tweetに含まれる画像（例えば、Tweetに紐づく最大4枚までの画像等）。収集したデータ（収集データ）は、例えば、記憶部１２に格納される。

［処理手順の例］
　次に、図２Ｂを用いて、収集装置１０が実行する処理手順の例を説明する。まず、収集装置１０の第１の収集部１３１は、例えば、Security　Keywordsを用いて、フィッシング攻撃の報告のTweetを収集する（Ｓ１：Security　Keywordsを用いたTweetの収集）。そして、キーワード抽出部１３２は、Ｓ１で収集されたフィッシング攻撃の報告のTweetから所定の頻度を超えて共起するキーワードであるCo-occurrence　Keywordsを抽出する（Ｓ２：Co-occurrence　Keywordsの抽出）。

　Ｓ２の後、第２の収集部１３３は、各ユーザのTweetから、Security　KeywordsとCo-occurrence　Keywordsを用いて、フィッシング攻撃の報告である可能性のあるTweetを収集する（Ｓ３）。その後、データ収集部１３４は、Ｓ３で収集されたTweetから、分類装置２０への入力に必要なデータを収集する（Ｓ４）。

　収集装置１０が上記の処理を実行することで、フィッシング攻撃の報告である可能性のあるTweetを収集することができる。

　なお、収集装置１０は、図２Ａに示す、URL・ドメイン名抽出部１３５および選別部１３６を備えていてもよい。

　URL・ドメイン名抽出部１３５は、第２の収集部１３３により収集されたTweetのテキストおよび画像からURLとドメイン名を抽出する。選別部１３６は、URL・ドメイン名抽出部１３５により抽出されたURLまたはドメイン名に基づき、第２の収集部１３３により収集されたTweetからフィッシング攻撃の報告である可能性の高いTweetを選別する。

　例えば、選別部１３６は、第２の収集部１３３により収集されたTweetに含まれるURLまたはドメインが、正当なウェブサイトのURLまたはドメイン名のリストに含まれない場合、フィッシング攻撃の報告である可能性の高いTweetとして選別する。また、選別部１３６は、当該Tweetに含まれるURLのドメイン名の利用期間が所定期間未満の場合、フィッシング攻撃の報告である可能性の高いTweetとして選別する。例えば、選別部１３６は、WHOISの登録からの経過日数が所定日数未満のドメイン名を、フィッシング攻撃の報告である可能性の高いTweetとして選別する。

　その後、データ収集部１３４は、選別部１３６により選別されたTweetから、分類装置２０への入力に必要なデータ（例えば、Tweetの文字列等）を収集する。

　このようにすることで収集装置１０は、収集されたTweetからフィッシング攻撃の報告である可能性がより高いTweetおよびそのデータを収集することができる。

［処理手順の具体例］
　次に、図３を用いて、収集装置１０が実行する処理手順の具体例を説明する。なお、収集装置１０には、URL・ドメイン名抽出部１３５および選別部１３６が装備される場合を例に説明する。

（１）Generating　Keywords
　収集装置１０は、フィッシング攻撃の報告を含むTweetを検索するための2種類のキーワード(Security　KeywordsとCo-occurrence　Keywords)を生成する。

（１－１）Security　Keywords
　まず、Security　Keywordsについて説明する。例えば、収集装置１０は、Security　Keywordsとして、「SMS」や「偽サイト」といったセキュリティ脅威やそれが拡散される媒体に関連したキーワード、「#phishing」や「#詐欺」といったセキュリティ脅威情報を共有するためのキーワードを生成する（図４参照）。なお、このSecurity　Keywordsは、セキュリティ脅威に関する既存のキーワードを用いてもよい。

（１－２）Security　Keywords
　次に、Co-occurrence　Keywordsについて説明する。例えば、収集装置１０は、Security　Keywordsをキーとして収集したフィッシング攻撃の報告にのみ、所定値を超える頻度で共起するキーワード（Co-occurrence　Keywords）を抽出する。

　例えば、収集装置１０の第１の収集部１３１は、Security　Keywordsを用いて、各ユーザのTweetからフィッシング攻撃の報告のTweetを収集する。その後、キーワード抽出部１３２は、収集されたTweetからCo-occurrence　Keywordsを抽出する。例えば、キーワード抽出部１３２は、所定期間ごとに、当該所定期間に収集されたTweetの中からCo-occurrence　Keywordsを新規に抽出する。

　例えば、キーワード抽出部１３２は、所定期間のTweetの文字列から固有名詞を抽出し、以下の式（１）によりPMI（Pointwise　Mutual　Information）を計算する。なお、式（１）における、X,Yは、Tweet中に含まれる固有名詞である。

　PMI（X,Y）=log（P（X,Y）/P（X）P（Y））…式（１）

　次に、キーワード抽出部１３２は、式（２）によりSoAを計算する。なお、式（２）における、W:Tweet中に含まれる固有名詞、L:ラベル（セキュリティ脅威情報orその他）である。

　SoA（W,L）=PMI（W,L）-PMI（W,￢L）…式（２）

　そして、キーワード抽出部１３２は、SoAが所定の閾値を超える固有名詞を抽出する。例えば、Security　Keyword「詐欺」を含むTweetには、図５の（１）に示すフィッシング報告に関連のあるTweetと、図５の（２）に示すフィッシング報告に関連のないTweetとが含まれる。キーワード抽出部１３２は、このうち「詐欺」を含むフィッシング報告に関連のあるTweet（（１））にのみ頻出する（SoAが所定の閾値を超える）固有名詞である「d社」と「SMS」をCo-occurrence　Keywordsとして抽出する。

（２）Searching　Tweets
　次に、収集装置１０は、分類装置２０への入力に必要なデータをTwitterから収集する。例えば、第２の収集部１３３は、キーワード抽出部１３２により抽出されたCo-occurrence　Keywordsを用いて、各ユーザのTweetから、フィッシング攻撃の報告である可能性のあるTweetを収集する。これにより、第２の収集部１３３は、例えば、図３に示すようにPotentially　Phishing　SitesのURL・ドメインを含むTweetを収集することができる。

　つまり、第２の収集部１３３は、各ユーザのTweetのうち、Legitimate　Sites（正当なサイト）に関するTweet（Unrelated　Tweets）を除外したTweet（Screened　Tweets）を収集することができる。データ収集部１３４は、第２の収集部１３３により収集されたTweet（図６参照）に関する、以下のデータを収集する。

　Tweetの文字列（例えば、ハッシュタグ、文字数等）、Tweetに紐づくメタ情報（例えば、アプリケーション情報、デファングの有無等）、Tweetのアカウントに関する情報（例えば、フォロワー数、アカウント登録期間等）、Tweetに含まれる画像（例えば、Tweetに紐づく最大4枚までの画像等）。

（３）Extracting　URLs　and　Domain　Names
　次に、収集装置１０のURL・ドメイン名抽出部１３５は、第２の収集部１３３が収集したTweet（Screened　Tweets）のテキストおよび画像から、URLおよびドメイン名を抽出する。

　例えば、URL・ドメイン名抽出部１３５は、Tweetの画像に光学文字認識を適用して文字列を抽出する。また、URL・ドメイン名抽出部１３５は、Tweetの文字列にデファング（例えば、https　->　ttps）が存在する場合は元に戻す。そして、URL・ドメイン名抽出部１３５は、Tweetのテキストおよび画像の文字列から正規表現でURLとドメイン名を抽出する。その後、URL・ドメイン名抽出部１３５は、抽出したドメイン名が存在し得るか否かをPublic　Suffix　List（文献１参照）等で確認する。

・文献１：“Public　Suffix　List”,　https://publicsuffix.org/

　そして、URL・ドメイン名抽出部１３５は、抽出したドメイン名が存在することを確認すると、当該ドメイン名および当該ドメイン名を含むURLを抽出する。例えば、URL・ドメイン名抽出部１３５は、図７に示すTweetから、以下のURLおよびドメイン名を抽出する。

・URL：https://tinyurl.com/yph6pswp、https://atavollwei.duckdns.org/
・ドメイン名：tinyurl.com、atavollwei.duckdns.org

（４）Screening　Phishing-related　URLs　and　Domain　Names
　次に、選別部１３６は、URL・ドメイン名抽出部１３５により抽出されたURLおよびドメイン名から、フィッシングに関連のあるURLおよびドメイン名をスクリーニングする。

　例えば、選別部１３６は、抽出されたURLまたはドメイン名がAllowlist（例えば、正当なウェブサイトのURLまたはドメイン名のリスト）にmatchせず、かつ、Long-lived　Domain　Names（例えば、WHOISの登録からの経過日数が所定日数以上のドメイン名）でもない場合、抽出されたURLおよびドメイン名を、Potentially　Phishing　Sitesと判定する。そして、選別部１３６は、Potentially　Phishing　Sitesと判定したURLまたはドメイン名を含むTweetを、フィッシング攻撃の報告である可能性の高いTweetとして選別する。

　一方、抽出されたURLとドメイン名がAllowlistにmatchする場合、または、Long-lived　Domain　Namesである場合、選別部１３６は、当該URLおよびドメイン名をLegitimate　Sites（正当なサイト）とする。

　例えば、選別部１３６は、抽出されたドメイン名が事前定義したURL短縮サービスのドメイン名に該当する場合は、当該ドメイン名を通過させる。また、選別部１３６は、抽出されたドメイン名がTranco　List（文献２参照）にマッチする場合、当該ドメイン名をフィッシング攻撃に関連がないドメイン名として除外する。

・文献２：“A　research-oriented　top　sites　ranking　hardened　against　manipulation　-　Tranco”,　https://tranco-list.eu/

　また、選別部１３６は、抽出されたドメイン名をWHOISに問い合わせて、情報が取得できない場合、当該ドメイン名を通過させる。さらに、選別部１３６は、WHOIS情報に基づき、ドメイン名が登録後365日以上経過している場合、当該ドメイン名を除外し、登録後365日経過していない場合、当該ドメイン名を通過させる。そして、選別部１３６は、例えば、上記の処理で通過したURLまたはドメイン名が少なくとも１種類存在するTweetをフィッシング攻撃の報告である可能性の高いTweetとして選別する。

　このようにすることで収集装置１０は、各ユーザのTweetから、フィッシング攻撃の報告である可能性の高いTweetを抽出することができる。

［分類装置］
［構成例］
　次に、分類装置２０を詳細に説明する。まず、図８Ａを用いて、分類装置２０の構成例を説明する。分類装置２０は、例えば、入出力部２１、記憶部２２、および、制御部２３を備える。

　入出力部２１は、各種データの入出力を司るインタフェースである。入出力部２１は、例えば、収集装置１０が収集したフィッシング攻撃の報告である可能性のあるTweetとそのデータの入力を受け付ける。また、入出力部２１は、制御部２３による分類結果を出力する。

　記憶部２２は、制御部２３が各種処理を実行する際に参照されるデータ、プログラム等を記憶する。記憶部２２は、ＲＡＭ、フラッシュメモリ等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。例えば、記憶部２２は、入出力部２１で受け付けたフィッシング攻撃の報告である可能性の高いTweetとそのデータ（収集データ）等を記憶する。また、記憶部２２は、制御部２３による分類モデルの学習後、分類モデルのパラメータ等を記憶する。

　制御部２３は、分類装置２０全体の制御を司る。制御部２３の機能は、例えば、ＣＰＵが、記憶部２２に記憶されるプログラムを実行することにより実現される。

　制御部２３は、例えば、データ取得部２３１と、特徴量抽出部２３２と、特徴量選定部２３３と、学習部２３４と、分類部２３５と、出力処理部２３６とを備える。

　データ取得部２３１は、収集装置１０からフィッシング攻撃の報告である可能性の高いTweetとそのデータを取得する。

　特徴量抽出部２３２は、データ取得部２３１により取得されたTweetとそのデータから特徴量を抽出する。例えば、特徴量抽出部２３２は、データ取得部２３１により取得されたTweetのテキストおよび画像それぞれの特徴量を抽出する。

　例えば、特徴量抽出部２３２は、データ取得部２３１により取得されたTweetから、当該Tweetのアカウントの特徴量、当該Tweetのコンテンツの特徴量、当該Tweetに含まれるURLまたはドメイン名の特徴量、当該投稿に含まれる画像の光学文字認識により得られる文字列の特徴量、当該Tweetに含まれる画像の特徴量、当該Tweetに含まれるテキストの文脈の特徴量等を抽出する。特徴量抽出部２３２によるTweetの特徴量の抽出の詳細は、具体例を用いて後記する。

　特徴量選定部２３３は、特徴量抽出部２３２により抽出された特徴量の中から、フィッシング攻撃の報告に関するTweetか否かの分類に有効な特徴量を選定する。特徴量の選定方法は、例えば、Boruta-SHAP（文献３，４参照）を用いる。

・文献３：Kursa,　Miron　B.　and　Rudnicki,　Witold　R.,　“Feature　Selection　with　the　Boruta　Package,”　Journal　of　Statistical　Software　2010.
・文献４：“BorutaShap　:　A　wrapper　feature　selection　method　which　combines　the　Boruta　feature　selection　algorithm　with　Shapley　values,”　https://zenodo.org/badge/latestdoi/255354538

　例えば、特徴量選定部２３３は、特徴量抽出部２３２により抽出された特徴量の中から、以下の手順により、フィッシング攻撃の報告に関するTweetか否かの分類に有効な特徴量を選定する。

（１）まず、特徴量選定部２３３は、選定対象の特徴量に加えてランダムな値を含めた偽の特徴量を生成する。
（２）次に、特徴量選定部２３３は、選定対象の特徴量と偽の特徴量で決定木ベースのアルゴリズムで分類を行い、各特徴量の変数重要度を計算する。
（３）次に、特徴量選定部２３３は、（２）で計算した選定対象の特徴量の変数重要度が偽の特徴量の変数重要度よりも大きければそれをカウントする。
（４）特徴量選定部２３３は、（１）～（３）の処理を複数回繰り返し、統計的に有意と判断した特徴量を、分類に有効な特徴量として選定する。

　学習部２３４は、特徴量選定部２３３により選定された特徴量を用いた教師あり学習により、入力されたTweetがフィッシング攻撃の報告のTweetか否かを分類するための機械学習モデル（分類モデル）の学習を行う。例えば、学習部２３４は、フィッシング攻撃に関する教師データ（各Tweetがフィッシング攻撃か否かの正解ラベルが付与されたデータ）について、特徴量選定部２３３により選定された特徴量を用いた教師あり学習により、分類モデルの学習を行う。

　分類部２３５は、学習部２３４により学習された分類モデルを用いて、入力されたTweetがフィッシング攻撃の報告のTweetか否かを分類する。出力処理部２３６は、分類部２３５によるTweetの分類の結果を出力する。

［処理手順の例］
　次に、図８Ｂを用いて、分類装置２０が実行する処理手順の例を説明する。まず、分類装置２０のデータ取得部２３１は、収集装置１０により収集されたフィッシング攻撃の報告である可能性の高いTweetとそのデータを取得する（Ｓ１１：収集データの取得）。その後、特徴量抽出部２３２は、データ取得部２３１により取得されたTweetとそのデータから特徴量を抽出する（Ｓ１２：Tweetの特徴量の抽出）。

　Ｓ１２の後、特徴量選定部２３３は、Ｓ１２で抽出された特徴量の中から、フィッシング攻撃の報告に関するTweetか否かの分類に有効な特徴量を選定する（Ｓ１３）。そして、学習部２３４は、フィッシング攻撃に関する教師データについて、Ｓ１３で選定された特徴量を用いて、入力されたTweetがフィッシング攻撃の報告のTweetか否かを分類するための分類モデルの学習を行う（Ｓ１４）。

　Ｓ１４の後、分類部２３５は、Ｓ１４で学習された分類モデルを用いて、入力されたTweetがフィッシング攻撃の報告のTweetか否かを分類する（Ｓ１５）。そして、出力処理部２３６は、Ｓ１６における分類の結果を出力する（Ｓ１６）。

［処理手順の具体例］
　次に、図９を用いて、分類装置２０が実行する処理手順の具体例を説明する。

（５）Feature　Engineering
　まず、分類装置２０のデータ取得部２３１は、収集装置１０により収集されたTweet（Screened　Tweets）とそのデータを取得する。そして、特徴量抽出部２３２は、データ取得部２３１により取得されたTweetとそのデータから特徴量を抽出する。

　例えば、特徴量抽出部２３２は、図１０に示すように、TweetのアカウントからAccount　Feature（１）、Tweetに紐づく情報からContent　Feature（２）、抽出したURLからURL　Feature（３）、OCRで抽出した文字列から　OCR　Feature（５）、画像の見た目からVisual　Feature（６）、Tweetの文脈からContext　Feature（４）の6種類、合計27項目の特徴量を生成する。以下、各特徴量について詳細に説明する。

（５－１）Account　Feature
　特徴量抽出部２３２は、Twitterのユーザの特徴を捉えるために、例えば、図１１に示すように、ユーザのアカウントの情報（例えば、フォロー数、フォロワー数、ツイート数、メディア数、リスト数、アカウント登録日等）から、TweetごとにAccount　Featureを生成する。

（５－２）Content　Feature
　特徴量抽出部２３２は、フィッシング攻撃の報告のTweetに頻出するコンテンツの特性を捉えるために、例えば、図１２に示すように、Tweet自体に紐づく情報（例えば、文字列、メンションしたユーザ、ハッシュタグ、画像、URLまたはドメイン名、Tweetに用いるアプリケーション、デファングタイプ等）から、TweetごとにContent　Featureを生成する。

（５－３）URL　Feature
　特徴量抽出部２３２は、フィッシングURLに特有なサブドメインの悪用や特定のTop-level　domainの悪用に関する特徴を捉えるために、例えば、図１３に示すように、Tweetの文字列と画像の両方から抽出したURL（またはドメイン名）から、TweetごとのURL　Featureを生成する。URL　Featureは、例えば、URLの文字列、ドメイン名、パス、URLに含まれる数字、トップレベルドメイン等である。

（５－４）OCR　Feature
　特徴量抽出部２３２は、フィッシング攻撃に関するTweetにおいて類似する文字列の特性を捉えるために、例えば、図１４に示すように、光学文字認識（OCR）で抽出した文字列から、TweetごとにOCR　Featureを生成する。OCR　Featureは、例えば、文字列、単語、シンボル、数字、URLまたはドメイン名等である。

（５－５）Visual　Feature
　特徴量抽出部２３２は、フィッシング攻撃の報告に関するTweetに含まれる画像の見た目の共通性を捉えるために、Tweetに紐づく画像から、TweetごとにVisual　Featureを生成する。

　特徴量抽出部２３２は、画像分類で優れた結果を出しているEfficient　Netモデル（文献５参照）を用いて、Tweetに紐づく画像の固定次元のベクトルを生成する。その後、特徴量抽出部２３２は、疎なベクトルを密なベクトルに変換するためのTruncated　SV（文献６参照）により、ベクトルの次元を圧縮する。そして、特徴量抽出部２３２は、圧縮したベクトルを、Tweetに含まれる画像のVisual　Featureとする。

・文献５：Tan,　Mingxing　and　Le,　Quoc.,　“EfficientNet:　Rethinking　Model　Scaling　for　Convolutional　Neural　Networks”,　ICML　2019.
・文献６：“The　truncatedsvd　as　a　method　for　regularization”,　BIT　Numerical　Mathematics.

　特徴量抽出部２３２は、例えば、図１５に示すように、Image　Netの大量の画像を事前学習したEfficient　Netモデルを用いて、Tweetに紐づく画像を固有次元のべクトルに変換する。そして、特徴量抽出部２３２は、Truncated　SVにより、変換したベクトルを、教師データにおける累積寄与率99％に圧縮する。

（５－６）Context　Feature
　特徴量抽出部２３２は、フィッシング攻撃の報告に関するTweetにおける文脈の共通性を捉えるために、Tweet内の文字列から、TweetごとにContext　Featureを生成する。

　特徴量抽出部２３２は、例えば、文章分類で優れた結果を出しているBERTモデルを用いて、Tweet内の文字列から固定次元のベクトルを生成する。その後、特徴量抽出部２３２は、Truncated　SVにより、ベクトルの次元を圧縮する。そして、特徴量抽出部２３２は、圧縮したベクトルを、TweetのContext　Featureとする。

　特徴量抽出部２３２は、例えば、図１６に示すように、英語と日本語のWikipediaの大量の文字列を事前学習したBERTモデルを用いて、Tweet内の文字列を固有次元のベクトルに変換する。そして、特徴量抽出部２３２は、Truncated　SVにより、変換したベクトルを、教師データにおける累積寄与率99％に圧縮する。

（６）Feature　Selection
　特徴量選定部２３３は、（５）において特徴量抽出部２３２により生成された特徴量群から、フィッシング攻撃の報告のTweetとその他のTweetとの分類に有効な（重要な）特徴量を選定する。

　なお、Feature　Selectionの結果、分類において重要な特徴量と判断された特徴量の例を図１７に示す。

Account　Feature：英語6種類（6次元）、日本語5種類（5次元）
Content　Feature：英語6種類（9次元）、日本語4種類（7次元）
URL　Feature：英語2種類（2次元）、日本語3種類（3次元）
OCR　Feature：英語3種類（3次元）、日本語3種類（3次元）
Visual　Feature：英語9次元、日本語5次元
Context　Feature：英語58次元、日本語33次元

　なお、図１７に示すContext　Featureのうち、App　source（１４）について、Twitter　Web　App、Twitter　for　iPhone（登録商標）、Twitter　for　Android（登録商標）は、両言語で重要であり、PhishingPickerは、英語の場合のみ重要であった。また、Defanged　type（１５）については、example[.]comは両言語で重要、hxxpは日本語の場合のみ重要であった。さらに、図１７に示すURL　Featureのうち、Top-level　domain（２０）については、.xyzが日本語の場合のみ重要であった。

　最終的には、英語87次元、日本語56次元の特徴量がフィッシング攻撃の報告のTweetとその他のTweetとの分類に重要であることが確認できた。

（７）Offline　Training
　学習部２３４は、（６）において特徴量選定部２３３により選定された特徴量（特徴ベクトル）と、フィッシング攻撃か否かの正解ラベルが付与された教師データ（Ground-Truth　Dataset）とを用いて、分類モデル（Machine　Learning　Model）を学習する。

　なお、分類モデルの学習に用いられるアルゴリズムは、例えば、Random　Forest、Neural　Network、　Decision　Tree、Support　Vector　Machine、Logistic　Regression、Naive　Bayes、Gradient　Boosting、Stochastic　Gradient　Descent等が考えられる。これらのアルゴリズムについて、教師データに対して評価した結果、以下の3つの理由によりRandom　Forestを用いることが好ましいことが確認できた。

・Random　Forestは、他のどのアルゴリズムよりも優れた分類精度であった。
・Random　Forestは、学習と推定（分類）の両方のフェーズで安定した速度で動作した。
・Random　Forestは、6種類全ての特徴に対して特徴量重要度が分散していた。

（８）Online　Classification
　分類部２３５は、（７）において学習されたMachine　Learning　Model（分類モデル）を用いて、収集装置１０により収集されたTweetが、フィッシング攻撃の報告に関するTweet（positive）か否（Negative)かを分類する。そして、出力処理部２３６は、その分類の結果を出力する。

　なお、分類装置２０は、フィッシング攻撃の報告と分類したTweetに登場する固有名詞（Proper　Nouns）を抽出し、収集装置１０は、当該固有名詞をCo-occurrence　Keywordsを抽出する際に用いてもよい。

［評価結果］
　次に、本実施形態のシステムの評価結果を説明する。例えば、システムが選定した特徴量を用いることで、英語、日本語ともにおよそ95％の精度でフィッシング攻撃の報告のTweetか否かを分類できることが確認できた（図１８参照）。

　また、本実施形態のシステムは、実験期間（2021/8/1～2021/9/30）において、図１９に示すように、77,004件のフィッシング攻撃の報告（User　Reports）と85,027件のフィッシングURL（Phising　URLs）を抽出することができた。

　さらに、既存のデータフィードであるOpenPhish（文献７参照）により収集されたフィッシングURLと、本実施形態のシステムにより収集されたフィッシングURLとを比較したところ（図２０参照）、両者で共通していた4,802件のフィッシングURLのうち、2,686件（全体の55.9%）のフィッシングURLについて、本実施形態のシステムの方が早く収集できた。

・文献７：“OpenPhish　-　Phishing　Intelligence”,　https://openphish.com

　また、既存のデータフィードであるPhishTank（文献８参照）により収集されたフィッシングURLと、本実施形態のシステムにより収集されたフィッシングURLとを比較したところ（図２１参照）、両者で共通していた5,323件のフィッシングURLのうち、3,183件（全体の59.8%）のフィッシングURLについて、本実施形態のシステムの方が早く収集できた。

・文献８：“PhishTank　|　Join　the　fight　against　phishing”,　https://www.phishtank.com/.

　また、ユーザによるフィッシング攻撃の報告の回数とフィッシングURLの数を調査したところ、ユーザにより１度しか報告されないフィッシング攻撃はフィッシングURL全体の49.8%であることが確認された（図２２参照）。つまり、幅広いユーザからのフィッシング攻撃の報告は唯一性が高いフィッシングURLを含んでいる可能性が高いことが確認された。このことから、本実施形態のシステムのように、幅広いユーザからフィッシング攻撃の報告を収集することは極めて有効であるとことが確認できた。

　また、フィッシング攻撃の報告のTweetの収集に、固定的なキーワード（Security　Keywords）のみならず、動的なキーワード（Co-occurrence　Keywords）も用いることの効果を確認した（図２３参照）。その結果、固定的なキーワード（Security　Keywords）のみならず、動的なキーワード（Co-occurrence　Keywords）も用いた方が、固定的なキーワード（Security　Keywords）のみを用いるよりも、User　Reports（フィッシング攻撃の報告のTweet）を+23.3％抽出できることが確認できた。また、固定的なキーワード（Security　Keywords）のみならず、動的なキーワード（Co-occurrence　Keywords）も用いた方が、フィッシングURLを+24.1%抽出できることが確認できた。

　このことから、本実施形態のシステムのように、固定的なキーワード（Security　Keywords）のみならず動的なキーワード（Co-occurrence　Keywords）も用いてTweetを収集することはフィッシング攻撃の情報収集に極めて有効であるとことが確認できた。

［システム構成等］
　また、図示した各部の各構成要素は機能概念的なものであり、必ずしも物理的に図示のように構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

　また、前記した実施形態において説明した処理のうち、自動的に行われるものとして説明した処理の全部又は一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部又は一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

［プログラム］
　前記したシステムは、パッケージソフトウェアやオンラインソフトウェアとしてプログラムを所望のコンピュータにインストールさせることによって実装できる。例えば、上記のプログラムを情報処理装置に実行させることにより、情報処理装置を前記したシステムとして機能させることができる。ここで言う情報処理装置にはスマートフォン、携帯電話機やＰＨＳ（Personal　Handyphone　System）等の移動体通信端末、さらには、ＰＤＡ（Personal　Digital　Assistant）等の端末等がその範疇に含まれる。

　図２４は、プログラムを実行するコンピュータの一例を示す図である。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ（Random　Access　Memory）１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、上記のシステムが実行する各処理を規定するプログラムは、コンピュータにより実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、システムにおける機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　また、上述した実施形態の処理で用いられるデータは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）等）を介して接続される他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

　１０　収集装置
　１１，２１　入出力部
　１２，２２　記憶部
　１３，２３　制御部
　２０　分類装置
　１３１　第１の収集部
　１３２　キーワード抽出部
　１３３　第２の収集部
　１３４　データ収集部
　１３５　URL・ドメイン名抽出部
　１３６　選別部
　２３１　データ取得部
　２３２　特徴量抽出部
　２３３　特徴量選定部
　２３４　学習部
　２３５　分類部
　２３６　出力処理部

Claims

　セキュリティ脅威に関するキーワードであるセキュリティキーワードを用いて、SNS（Social　Networking　Service）の投稿からセキュリティ脅威に関する投稿を収集する第１の収集部と、
　収集された前記セキュリティ脅威に関する投稿から所定の頻度を超えて共起するキーワードである共起キーワードを抽出するキーワード抽出部と、
　SNSの投稿から、前記共起キーワードを含む投稿および前記投稿に紐づく画像を収集する第２の収集部と、
　を備えることを特徴とする収集装置。
　前記第２の収集部により収集された前記投稿のテキストおよび画像から抽出されたURLまたはドメイン名に基づき、前記投稿の中から、セキュリティ脅威に関する投稿である可能性のある投稿を選別し、出力する選別部
　をさらに備えることを特徴とする請求項１に記載の収集装置。
　前記選別部は、
　前記第２の収集部により収集された前記投稿のテキストおよび画像から抽出されたURLまたはドメイン名が、正当なウェブサイトのURLまたはドメイン名のリストに含まれない場合、または、前記ドメイン名の利用期間が所定期間未満の場合、当該投稿をセキュリティ脅威に関する投稿である可能性のある投稿として選別する
　ことを特徴とする請求項２に記載の収集装置。
　前記第１の収集部は、
　所定期間ごとに前記投稿を収集し、
　前記キーワード抽出部は、
　前記所定期間に収集された投稿から前記共起キーワードを抽出する
　ことを特徴とする請求項１に記載の収集装置。
　収集装置により実行される収集方法であって、
　セキュリティ脅威に関するキーワードであるセキュリティキーワードを用いて、SNS（Social　Networking　Service）の投稿からセキュリティ脅威に関する投稿を収集する工程と、
　収集された前記セキュリティ脅威に関する投稿から所定の頻度を超えて共起するキーワードである共起キーワードを抽出する工程と、
　SNSの投稿から、前記共起キーワードとを含む投稿のテキストおよび前記投稿に紐づく画像を収集する工程と、
　を含むことを特徴とする収集方法。
　セキュリティ脅威に関するキーワードであるセキュリティキーワードを用いて、SNS（Social　Networking　Service）の投稿からセキュリティ脅威に関する投稿を収集する工程と、
　収集された前記セキュリティ脅威に関する投稿から所定の頻度を超えて共起するキーワードである共起キーワードを抽出する工程と、
　SNSの投稿から、前記共起キーワードを含む投稿および前記投稿に紐づく画像を収集する工程と、
　をコンピュータに実行させるための収集プログラム。