WO2018216175A1

WO2018216175A1 - 評価装置、評価方法および評価プログラム

Info

Publication number: WO2018216175A1
Application number: PCT/JP2017/019589
Authority: WO
Inventors: 匠山本; 弘毅西川; 圭亮木藤; 河内　清人
Original assignee: 三菱電機株式会社
Priority date: 2017-05-25
Filing date: 2017-05-25
Publication date: 2018-11-29
Also published as: CN110637320A; JP6362796B1; JPWO2018216175A1; US20200074327A1

Abstract

評価装置（１０）において、プロファイルデータベース（３１）は、複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するデータベースである。セキュリティデータベース（３２）は、複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するデータベースである。モデル生成部（２２）は、プロファイルデータベース（３１）に格納されたプロファイル情報に表されている特徴とセキュリティデータベース（３２）に格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出す。推定部（２３）は、別の人物の特徴を表す情報の入力を受け、モデル生成部（２２）により導き出されたモデルを使って、その別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する。

Description

評価装置、評価方法および評価プログラム

　本発明は、評価装置、評価方法および評価プログラムに関するものである。

　組織の機密情報および資産を守るために、サイバー攻撃に対する取り組みが積極的に行われている。その１つが、サイバー攻撃およびセキュリティに関する教育および訓練である。セミナーまたはＥ－ｌｅａｒｎｉｎｇでサイバー攻撃およびその対策に関する知識を学習する取り組みがある。模擬的な標的型攻撃メールの送付により標的型攻撃への対応を訓練する取り組みもある。しかし、このような取り組みが行われていながらも、セキュリティ事故は増加の一途をたどっている。

　Ｖｅｒｉｚｏｎ　Ｂｕｓｉｎｅｓｓ社が発表した企業の情報流出事件に関する実態調査の報告として非特許文献１がある。

　非特許文献１では、情報が流出した企業のうち、５９％はセキュリティポリシーと手順とを定めておきながら実行していなかったと報告されている。情報漏洩の８７％は適切な対策を講じれば防止できたと指摘されている。この調査結果から、どれだけセキュリティ対策を導入していたとしても、それを実施する人間にセキュリティ対策の効果が強く依存してしまっていることがわかる。

　攻撃者の視点に立ってみると、攻撃者は、標的組織に気づかれずに攻撃を成功させるために、その組織の情報を事前に十分調査した上で、最も攻撃の成功率が高いアプローチをとることが予想される。組織の情報の例は、組織が利用しているシステムおよびそのバージョン、外部との窓口、人員の情報、役職、関連組織、および、組織の取り組み内容である。人員の情報の例は、上司、同僚および友人等の交友関係、趣味嗜好、および、ソーシャルメディアの利用状況である。

　攻撃者は、このような情報から、組織における脆弱な人間を見つけ出し、そこから組織に入り込み、徐々に組織の内部に侵入していくと考えられる。

　企業を例に考える。一般に、人事または資材等のスタッフは、他のスタッフよりも組織外の人物とのやり取りが多い。組織外の人物の例は、スタッフが人事担当であれば就職活動中の学生、スタッフが資材担当であれば物品の購入先である。人事または資材等のスタッフは、これまでにやり取りをしたことのない人物からメールを受け取る可能性が高い。そのようなメールを多く受け取るスタッフであれば、見知らぬメールアドレスから攻撃メールが届いても、不審に思わず開封する可能性が高いと予想できる。

　Ｔｗｉｔｔｅｒ（登録商標）またはＦａｃｅｂｏｏｋ（登録商標）等のソーシャルメディアで、組織の情報を不用意に掲載しているスタッフは、セキュリティ意識、特に情報漏えいに関する意識が低いと言える。攻撃者は、そのようなスタッフを最初の標的にする可能性が高いと考えられる。セキュリティ意識が低い人物に共通する特徴は、組織の情報を不用意に掲載しているということ以外にも多数存在すると考えられる。よって、そのような特徴に関する調査が必要である。

　このように、組織のスタッフによって攻撃されやすさが異なると考えられる。よって、組織のスタッフ全員に一律で同じセキュリティ教育および訓練を実施しても、十分な効果を得られないと考えられる。セキュリティ意識が最も低いスタッフに合わせたセキュリティ教育および訓練をすべてのスタッフに課せば、不必要な作業が増え、業務効率が低下する。

　そのため、スタッフごとにセキュリティ意識を評価する必要がある。そして、攻撃されやすいスタッフに、適切なセキュリティ教育および訓練を実施することで、組織全体の作業効率を落とすことなくセキュリティを向上させる必要がある。

　セキュリティ意識を評価する技術に関連する既存研究の報告として非特許文献２および非特許文献３がある。

　非特許文献２に記載の技術では、性格に関するアンケートとセキュリティ意識に関するアンケートとの相関が計算され、性格とセキュリティ意識との因果関係が抽出される。抽出された因果関係をもとに、グループごとの最適なセキュリティ対策が提示される。

　非特許文献３に記載の技術では、心理特性とユーザのＰＣ利用時の行動特性との関係が導き出される。「ＰＣ」は、Ｐｅｒｓｏｎａｌ　Ｃｏｍｐｕｔｅｒの略語である。通常のＰＣ利用時の行動特性がモニタされ、被害にあいやすい心理状態のユーザが判定される。

Ｖｅｒｉｚｏｎ　Ｂｕｓｉｎｅｓｓ、"２００８　Ｄａｔａ　Ｂｒｅａｃｈ　Ｉｎｖｅｓｔｉｇａｔｉｏｎｓ　Ｒｅｐｏｒｔ"、［ｏｎｌｉｎｅ］、［２０１７年５月４日検索］、インターネット〈ＵＲＬ：ｈｔｔｐ：／／ｗｗｗ．ｖｅｒｉｚｏｎｅｎｔｅｒｐｒｉｓｅ．ｃｏｍ／ｒｅｓｏｕｒｃｅｓ／ｓｅｃｕｒｉｔｙ／ｄａｔａｂｒｅａｃｈｒｅｐｏｒｔ．ｐｄｆ〉中澤　優美子、加藤　岳久、漁田　武雄、山田　文康、山本　匠、西垣　正勝、"Ｂｅｓｔ　Ｍａｔｃｈ　Ｓｅｃｕｒｉｔｙ－性格と本人認証技術のセキュリティ意識との相関に関する検討－"、情報処理学会研究報告、Ｖｏｌ．　２０１０－ＣＳＥＣ－４８、Ｎｏ．　２１、２０１０年片山　佳則、寺田　剛陽、鳥居　悟、津田　宏、"ユーザー行動特性分析による個人と組織のＩＴリスク見える化の試み"、ＳＣＩＳ　２０１５、暗号と情報セキュリティシンポジウム、４Ｄ１－３、２０１５年ＮＴＴソフトウェア、"標的型メール訓練サービス"、［ｏｎｌｉｎｅ］、［２０１７年３月２４日検索］、インターネット〈ＵＲＬ：ｈｔｔｐｓ：／／ｗｗｗ．ｎｔｔｓ．ｃｏ．ｊｐ／ｐｒｏｄｕｃｔｓ／ａｐｔｔｒａｉｎｉｎｇ／ｉｎｄｅｘ．ｈｔｍｌ〉

　非特許文献２に記載の技術では、アンケート形式で情報が集められるため、手間を要する。性格という定量化の難しい情報が利用されるため、得られた因果関係に対して根拠のある解釈が難しい。

　非特許文献３に記載の技術では、毎回アンケートを実施する必要はないが、心理状態という定量化の難しい情報が利用されるため、得られた因果関係に対して根拠のある解釈が難しい。

　本発明は、個人のセキュリティ意識を、根拠のある形で評価することを目的とする。

　本発明の一態様に係る評価装置は、
　複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、
　前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースと、
　前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成部と、
　前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定部とを備える。

　本発明では、特定の人物がセキュリティ事故に遭いやすいかどうかの評価指標として、その人物についてセキュリティ事故の要因になり得る振る舞いの特徴が推定される。そのため、個人のセキュリティ意識を、根拠のある形で評価することができる。

実施の形態１に係る評価装置の構成を示すブロック図。実施の形態１に係る評価装置の情報収集部の構成を示すブロック図。実施の形態１に係る評価装置のモデル生成部の構成を示すブロック図。実施の形態１に係る評価装置の動作を示すフローチャート。実施の形態１に係る評価装置の動作を示すフローチャート。実施の形態１に係る評価装置の情報収集部の動作を示すフローチャート。実施の形態１に係るプロファイル情報の例を示す表。実施の形態１に係る評価装置の情報収集部の動作を示すフローチャート。実施の形態１に係るセキュリティ情報の例を示す表。実施の形態１に係る評価装置のモデル生成部の動作を示すフローチャート。実施の形態１に係る評価装置のモデル生成部の動作を示すフローチャート。実施の形態１に係る評価装置のモデル生成部の動作を示すフローチャート。実施の形態１に係る評価装置の推定部の動作を示すフローチャート。実施の形態２に係る評価装置の構成を示すブロック図。実施の形態２に係る対策情報の例を示す表。実施の形態２に係る評価装置の推定部および提案部の動作を示すフローチャート。実施の形態２に係る対策を表す情報の例を示す表。実施の形態２に係る対策を表す情報の別の例を示す表。実施の形態３に係る評価装置の構成を示すブロック図。実施の形態３に係る訓練メールのコンテンツの例を示す表。実施の形態３に係る評価装置の動作を示すフローチャート。実施の形態３に係る訓練メールに対する振る舞いの観察結果の例を示す表。実施の形態４に係る評価装置の構成を示すブロック図。

　以下、本発明の実施の形態について、図を用いて説明する。各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。なお、本発明は、以下に説明する実施の形態に限定されるものではなく、必要に応じて種々の変更が可能である。例えば、以下に説明する実施の形態のうち、２つ以上の実施の形態が組み合わせられて実施されても構わない。あるいは、以下に説明する実施の形態のうち、１つの実施の形態または２つ以上の実施の形態の組み合わせが部分的に実施されても構わない。

　実施の形態１．
　本実施の形態について、図１から図１３を用いて説明する。

　＊＊＊構成の説明＊＊＊
　図１を参照して、本実施の形態に係る評価装置１０の構成を説明する。

　評価装置１０は、ネットワーク４１を介して、インターネット４２と、複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎが属する組織により運用されているシステム４３とに接続されている。ネットワーク４１は、例えば、ＬＡＮ、または、ＬＡＮおよびＷＡＮの組み合わせである。「ＬＡＮ」は、Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略語である。「ＷＡＮ」は、Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋの略語である。システム４３は、例えば、イントラネットである。複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎは、任意の２人以上の人物でよいが、本実施の形態では組織のスタッフである。Ｎは、２以上の整数である。

　評価装置１０は、コンピュータである。評価装置１０は、プロセッサ１１を備えるとともに、メモリ１２、補助記憶装置１３、入力機器１４、ディスプレイ１５および通信装置１６といった他のハードウェアを備える。プロセッサ１１は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。

　評価装置１０は、情報収集部２１と、モデル生成部２２と、推定部２３と、プロファイルデータベース３１と、セキュリティデータベース３２とを備える。情報収集部２１、モデル生成部２２および推定部２３の機能は、ソフトウェアにより実現される。プロファイルデータベース３１およびセキュリティデータベース３２は、メモリ１２に構築されてもよいが、本実施の形態では補助記憶装置１３に構築される。

　プロセッサ１１は、評価プログラムを実行する装置である。評価プログラムは、情報収集部２１、モデル生成部２２および推定部２３の機能を実現するプログラムである。プロセッサ１１は、例えば、ＣＰＵである。「ＣＰＵ」は、Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔの略語である。

　メモリ１２および補助記憶装置１３は、評価プログラムを記憶する装置である。メモリ１２は、例えば、フラッシュメモリまたはＲＡＭである。「ＲＡＭ」は、Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙの略語である。補助記憶装置１３は、例えば、フラッシュメモリまたはＨＤＤである。「ＨＤＤ」は、Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅの略語である。

　入力機器１４は、評価プログラムへのデータの入力のためにユーザにより操作される機器である。入力機器１４は、例えば、マウス、キーボードまたはタッチパネルである。

　ディスプレイ１５は、評価プログラムから出力されるデータを画面に表示する機器である。ディスプレイ１５は、例えば、ＬＣＤである。「ＬＣＤ」は、Ｌｉｑｕｉｄ　Ｃｒｙｓｔａｌ　Ｄｉｓｐｌａｙの略語である。

　通信装置１６は、評価プログラムに入力されるデータを、ネットワーク４１を介して、インターネット４２とイントラネット等のシステム４３との少なくともいずれかから受信するレシーバと、評価プログラムから出力されるデータを送信するトランスミッタとを含む。通信装置１６は、例えば、通信チップまたはＮＩＣである。「ＮＩＣ」は、Ｎｅｔｗｏｒｋ　Ｉｎｔｅｒｆａｃｅ　Ｃａｒｄの略語である。

　評価プログラムは、補助記憶装置１３からメモリ１２にロードされ、プロセッサ１１に読み込まれ、プロセッサ１１によって実行される。補助記憶装置１３には、評価プログラムだけでなく、ＯＳも記憶されている。「ＯＳ」は、Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍの略語である。プロセッサ１１は、ＯＳを実行しながら、評価プログラムを実行する。

　なお、評価プログラムの一部または全部がＯＳに組み込まれていてもよい。

　評価装置１０は、プロセッサ１１を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、評価プログラムの実行を分担する。それぞれのプロセッサは、プロセッサ１１と同じように、評価プログラムを実行する装置である。

　評価プログラムにより利用、処理または出力されるデータ、情報、信号値および変数値は、メモリ１２、補助記憶装置１３、または、プロセッサ１１内のレジスタまたはキャッシュメモリに記憶される。

　評価プログラムは、情報収集部２１、モデル生成部２２および推定部２３の「部」を「処理」に読み替えた各処理、または、情報収集部２１、モデル生成部２２および推定部２３の「部」を「手順」に読み替えた各手順をコンピュータに実行させるプログラムである。評価プログラムは、コンピュータ読取可能な媒体に記録されて提供されてもよいし、プログラムプロダクトとして提供されてもよい。

　プロファイルデータベース３１は、プロファイル情報を格納するデータベースである。プロファイル情報は、複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎのそれぞれについて個人の特徴を表す情報である。

　セキュリティデータベース３２は、セキュリティ情報を格納するデータベースである。セキュリティ情報は、複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎのそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表す情報である。

　図２を参照して、情報収集部２１の構成を説明する。

　情報収集部２１は、プロファイル情報収集部５１と、セキュリティ情報収集部５２とを備える。

　プロファイル情報収集部５１には、クローリングまたはスクレイピングの対象となるインターネット４２上のサービスのリストと、組織のスタッフ名簿とが入力される。プロファイル情報収集部５１からは、後述する処理の結果として、プロファイル情報がプロファイルデータベース３１に出力される。

　セキュリティ情報収集部５２には、組織のスタッフ名簿が入力される。セキュリティ情報収集部５２からは、後述する処理の結果として、セキュリティ情報がセキュリティデータベース３２に出力される。

　図３を参照して、モデル生成部２２の構成を説明する。

　モデル生成部２２は、分類部６１と、データ生成部６２と、学習部６３とを備える。

　分類部６１には、プロファイルデータベース３１に格納されたプロファイル情報が入力される。

　データ生成部６２には、セキュリティデータベース３２に格納されたセキュリティ情報と、分類部６１で実行された処理の結果とが入力される。

　学習部６３には、データ生成部６２で実行された処理の結果が入力される。学習部６３からは、後述する処理の結果として、識別器が出力される。

　＊＊＊動作の説明＊＊＊
　図１から図３とともに図４から図１３を参照して、本実施の形態に係る評価装置１０の動作を説明する。評価装置１０の動作は、本実施の形態に係る評価方法に相当する。

　図４は、学習フェーズの動作を示している。

　ステップＳ１０１において、情報収集部２１は、インターネット４２とイントラネット等のシステム４３との少なくともいずれかからプロファイル情報を収集する。本実施の形態では、情報収集部２１は、インターネット４２とイントラネット等のシステム４３との両方からプロファイル情報を収集する。情報収集部２１は、収集したプロファイル情報をプロファイルデータベース３１に格納する。

　情報収集部２１は、システム４３からセキュリティ情報を収集する。情報収集部２１は、収集したセキュリティ情報をセキュリティデータベース３２に格納する。

　このように、情報収集部２１は、組織のスタッフの情報を収集する。収集される情報は、大きく分けると、プロファイル情報とセキュリティ情報との２種類からなる。

　プロファイル情報は、組織の管理職またはＩＴ管理者が自動で収集できる組織プロファイル情報と、インターネット４２に公開されている公開プロファイル情報との２種類からなる。「ＩＴ」は、Ｉｎｆｏｒｍａｔｉｏｎ　Ｔｅｃｈｎｏｌｏｇｙの略語である。

　組織プロファイル情報には、性別、年齢、所属、上司、メールの送受信頻度、インターネット４２の利用頻度、出社時間、および、退社時間等の情報が含まれている。組織プロファイル情報は、組織の管理職またはＩＴ管理者であればアクセスできる情報である。組織プロファイル情報は、自動的に収集することが可能である。

　公開プロファイル情報には、インターネット４２上のサービスの使用頻度、および、公開されている個人情報の量等の情報が含まれている。公開プロファイル情報は、クローリングまたはスクレイピングを許可しているインターネット４２上のサービスのサイトから収集される。クローリングまたはスクレイピングにより得られた情報を解析することで、個人の興味に関する情報が抽出される。具体的には、個人の氏名またはメールアドレスを含むページがインターネット４２上のサービスのサイトから収集される。ＴＦ－ＩＤＦ等の自然言語処理技術が活用され、収集されたページ内でキーとなる単語がピックアップされる。ピックアップされた単語から、個人の興味に関する情報が生成される。生成された情報も公開プロファイル情報の一部として扱われる。「ＴＦ」は、Ｔｅｒｍ　Ｆｒｅｑｕｅｎｃｙの略語である。「ＩＤＦ」は、Ｉｎｖｅｒｓｅ　Ｄｏｃｕｍｅｎｔ　Ｆｒｅｑｕｅｎｃｙの略語である。既存技術のＭａｌｔｅｇｏ　ＣＥまたはｔｈｅＨａｒｖｅｓｔｅｒを組み合わせて公開プロファイル情報を収集することも可能である。

　セキュリティ情報は、サイバー攻撃に関わるセキュリティ事故の兆候の数である。そのような数の例は、訓練メール開封数、マルウェア検知数、悪質サイト訪問数、ポリシー違反数、実行ファイルダウンロード数、ファイルダウンロード数、および、インターネット利用数である。訓練メール開封数は、個々の人物が訓練メールの添付ファイルを開封した割合、個々の人物が訓練メール中のＵＲＬをクリックした割合、または、それらの合計である。「ＵＲＬ」は、Ｕｎｉｆｏｒｍ　Ｒｅｓｏｕｒｃｅ　Ｌｏｃａｔｏｒの略語である。訓練メールは、セキュリティ事故を訓練するためのメールである。なお、訓練メール開封数は、割合ではなく、回数であってもよい。悪質サイト訪問数は、個々の人物が悪質サイト検知システムで警告を受けた回数である。ポリシー違反数は、個々の人物によるポリシー違反の回数のことである。セキュリティ情報は、組織のＩＴ管理者またはセキュリティ管理者であればアクセスできる情報である。セキュリティ情報は、自動的に収集することが可能である。

　ステップＳ１０２において、モデル生成部２２は、プロファイルデータベース３１に格納されたプロファイル情報に表されている特徴とセキュリティデータベース３２に格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出す。

　具体的には、モデル生成部２２は、プロファイルデータベース３１に格納されたプロファイル情報に対するクラスタリングを行って、複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎをいくつかのクラスタに分類する。モデル生成部２２は、クラスタごとに、プロファイル情報から学習用のデータを、セキュリティ情報から学習用のデータに付与するラベルを生成する。モデル生成部２２は、クラスタごとに、生成した学習用のデータとラベルとを使って、モデルを導き出す。

　必須ではないが、モデル生成部２２は、モデルを導き出す前に、プロファイル情報に表されている特徴とセキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値θ_ｃ１未満の特徴を表す情報をプロファイル情報から除外することが望ましい。

　必須ではないが、モデル生成部２２は、モデルを導き出す前に、プロファイル情報に表されている特徴とセキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値θ_ｃ２未満の特徴を表す情報をセキュリティ情報から除外することが望ましい。

　このように、モデル生成部２２は、プロファイル情報とセキュリティ情報との関係性のモデルを生成する。モデルは、プロファイル情報にどういう傾向を持つ人物がどういうセキュリティ事故を起こしやすいかという関係性を表している。モデル生成部２２は、事前にプロファイル情報とセキュリティ情報との相関を計算し、無相関な項目を除外してもよい。

　図５は、学習フェーズの次のフェーズである評価フェーズの動作を示している。

　ステップＳ１１１において、推定部２３は、複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎとは別の人物Ｙの特徴を表す情報の入力を受ける。本実施の形態では、推定部２３は、情報収集部２１から、ステップＳ１０１と同じ手順で収集された情報の入力を受ける。

　このように、情報収集部２１は、セキュリティ意識を評価する対象のユーザのプロファイル情報を収集する。情報収集部２１は、収集したプロファイル情報を推定部２３に入力する。

　ステップＳ１１２において、推定部２３は、モデル生成部２２により導き出されたモデルを使って、人物Ｙについてセキュリティ事故の要因になり得る振る舞いの特徴を推定する。

　このように、推定部２３は、ステップＳ１０２で生成されたモデルとステップＳ１１１で収集されたプロファイル情報とから、セキュリティ意識を評価する対象のユーザがどういうセキュリティ事故を起こしやすいかを推定する。

　以下では、評価装置１０の情報収集部２１、モデル生成部２２および推定部２３の動作について詳述する。

　図６は、情報収集部２１のプロファイル情報収集部５１の処理フローを示している。

　ステップＳ１２１において、プロファイル情報収集部５１は、組織のスタッフ名簿に未調査のエントリーがあるかを確認する。名簿には、スタッフの氏名およびメールアドレス等の識別子が含まれている。未調査のエントリーがなければ、プロファイル情報収集部５１は、情報収集を終了する。未調査のエントリーがあれば、プロファイル情報収集部５１は、ステップＳ１２２の処理を実行する。

　ステップＳ１２２において、プロファイル情報収集部５１は、未調査のエントリーから識別子ＩＤＮを取得する。識別子ＩＤＮの例は、氏名およびメールアドレス等である。

　ステップＳ１２３において、プロファイル情報収集部５１は、識別子ＩＤＮをインターネット４２上で検索する。プロファイル情報収集部５１は、識別子ＩＤＮを含むページの情報から、インターネット４２上のサービスの使用頻度、および、公開されている個人情報の量等の情報のほか、個人の興味に関する情報をプロファイル情報として収集する。プロファイル情報収集部５１は、得られた公開プロファイル情報をプロファイルデータベース３１に登録する。プロファイル情報収集部５１は、ソーシャルネットワークサービスでのアップロード回数、ソーシャルネットワークサービスで公開されている個人情報の量、および、ソーシャルネットワークサービスでポストされている記事の内容等の情報も公開プロファイル情報として取得する。

　プロファイル情報収集部５１は、公開されている個人情報の量を、氏名、知人関係、組織名、連絡先および住所等に関する情報が公開情報から取得できるか否かをもとに計算する。プロファイル情報収集部５１は、個人の興味に関する情報としては、ＢｏＷ、または、ＴＦ－ＩＤＦ等の自然言語処理技術を活用し、収集したページ内で出現頻度の高い単語および重要な意味を持つ単語をピックアップする。「ＢｏＷ」は、Ｂａｇ　ｏｆ　Ｗｏｒｄｓの略語である。

　プロファイル情報収集部５１は、同じページに識別子ＩＤＮとは別の人物の情報である識別子ＩＤＮ’も記載されている場合、識別子ＩＤＮと識別子ＩＤＮ’との間に関係性があるとみなす。プロファイル情報収集部５１は、識別子ＩＤＮ’を知人関係に関する情報として取得する。

　ステップＳ１２４において、プロファイル情報収集部５１は、識別子ＩＤＮを組織内のシステム４３で検索する。プロファイル情報収集部５１は、得られた組織プロファイル情報をプロファイルデータベース３１に登録する。具体的には、プロファイル情報収集部５１は、識別子ＩＤＮに関連する部署、上司、部下およびスケジュール等の情報を組織プロファイル情報として収集する。プロファイル情報収集部５１は、ステップＳ１２４の処理の後、ステップＳ１２１の処理を再び実行する。

　プロファイル情報の例を図７に示す。収集されたプロファイル情報は、以下のような多次元のベクトルで表現される。
　ｐ_ｉｊ∈ＰｒｏｆｉｌｅＩｎｆｏＤＢ

　ｉは１≦ｉ≦Ｎを満たす整数である。Ｎはサンプルの数である。ｊは１≦ｊ≦Ｐを満たす整数である。Ｐは特徴の種類である。

　収集されるプロファイル情報については、プライバシーにも関わるため、何を取得するかは組織で十分検討した上で決めることが望ましい。

　図８は、情報収集部２１のセキュリティ情報収集部５２の処理フローを示している。

　ステップＳ１３１において、セキュリティ情報収集部５２は、組織のスタッフ名簿に未調査のエントリーがあるかを確認する。未調査のエントリーがなければ、セキュリティ情報収集部５２は、情報収集を終了する。未調査のエントリーがあれば、セキュリティ情報収集部５２は、ステップＳ１３２の処理を実行する。

　ステップＳ１３２において、セキュリティ情報収集部５２は、未調査のエントリーから識別子ＩＤＮを取得する。

　ステップＳ１３３において、セキュリティ情報収集部５２は、識別子ＩＤＮを組織内のシステム４３で検索する。セキュリティ情報収集部５２は、得られたセキュリティ情報をセキュリティデータベース３２に登録する。具体的には、セキュリティ情報収集部５２は、識別子ＩＤＮを組織内のセキュリティ事故に関するログデータベースで検索する。ログデータベースは、組織のＩＴ管理者またはセキュリティ管理者であればアクセス可能なデータベースである。ログデータベースには、訓練メール開封数、マルウェア検知数、悪質サイト訪問数およびポリシー違反数等が記録されている。セキュリティ情報収集部５２は、ステップＳ１３３の処理の後、ステップＳ１３１の処理を再び実行する。

　セキュリティ情報の例を図９に示す。収集されたセキュリティ情報は、以下のような多次元のベクトルで表現される。
　ｓ_ｉｋ∈ＳｅｃｕｒｉｔｙＩｎｆｏＤＢ

　ｉは１≦ｉ≦Ｎを満たす整数である。Ｎはサンプルの数である。ｋは１≦ｋ≦Ｓを満たす整数である。Ｓは特徴の種類である。

　図１０は、モデル生成部２２の分類部６１の処理フローを示している。

　ステップＳ１４１において、分類部６１は、プロファイル情報の各特徴ｐ_ｊとセキュリティ情報の各特徴ｓ_ｋとの相関を計算する。前述したように、ｊは１≦ｊ≦Ｐを満たす整数である。ｋは１≦ｋ≦Ｓを満たす整数である。具体的には、分類部６１は、相関係数ｃｏｒｒ_ｊｋを以下の式により計算する。
　ｃｏｒｒ_ｊｋ＝σ_ｐｓ／（σ_ｐσ_ｓ）

　σ_ｐｓはｐ_ｊとｓ_ｋとの共分散である。σ_ｐはｐ_ｊの標準偏差である。σ_ｓはｓ_ｋの標準偏差である。ｐ_ｊは、プロファイル情報のｊ種類目の特徴列に対応するベクトルである。このベクトルの次元数はＮである。ｓ_ｋは、セキュリティ情報のｋ種類目の特徴列に対応するベクトルである。このベクトルの次元数もＮである。

　ステップＳ１４２において、分類部６１は、セキュリティ情報のどの特徴とも相関係数の絶対値が、あらかじめ決められた閾値θ_ｃ１未満であるプロファイル情報の特徴ｐ_ｊ：∀ｋ（｜ｃｏｒｒ_ｊｋ｜＜θ_ｃ１）を除外し、セキュリティ情報と相関のあるプロファイル情報を生成する。このプロファイル情報は、以下の多次元のベクトルで表現される。
　ｐ’_ｉｊ∈ＰｒｏｆｉｌｅＩｎｆｏＤＢ’

　ｉは１≦ｉ≦Ｎを満たす整数である。Ｎはサンプルの数である。ｊは１≦ｊ≦Ｐ’を満たす整数である。Ｐ’は特徴の種類である。

　同様に、分類部６１は、プロファイル情報のどの特徴とも相関係数の絶対値が、あらかじめ決められた閾値θ_ｃ２未満であるセキュリティ情報の特徴ｓ_ｋ：∀ｊ（｜ｃｏｒｒ_ｊｋ｜＜θ_ｃ２）を除外し、プロファイル情報と相関のあるセキュリティ情報を生成する。このセキュリティ情報は、以下の多次元のベクトルで表現される。
　ｓ’_ｉｋ∈ＳｅｃｕｒｉｔｙＩｎｆｏＤＢ’

　ｉは１≦ｉ≦Ｎを満たす整数である。Ｎはサンプルの数である。ｋは１≦ｋ≦Ｓ’を満たす整数である。Ｓ’は特徴の種類である。

　ステップＳ１４１およびステップＳ１４２の処理は、モデルを作る際の精度向上のための処理であり、精度が高ければ省略されてもよい。すなわち、ＰｒｏｆｉｌｅＩｎｆｏＤＢがそのままＰｒｏｆｉｌｅＩｎｆｏＤＢ’として使われてもよい。ＳｅｃｕｒｉｔｙＩｎｆｏＤＢがそのままＳｅｃｕｒｉｔｙＩｎｆｏＤＢ’として使われてもよい。

　ステップＳ１４３において、分類部６１は、ＰｒｏｆｉｌｅＩｎｆｏＤＢ’とＳｅｃｕｒｉｔｙＩｎｆｏＤＢ’とのサンプルに対し、特徴情報をもとに、クラスタリングを行い、Ｎ個のサンプルをＣ個のクラスタに分類する。各クラスタは、以下のような多次元のベクトルで表現される。
　ｃ_ｍ∈Ｃｌｕｓｔｅｒｓ

　ｍは１≦ｍ≦Ｃを満たす整数である。

　各々のクラスタｃ_ｍは、以下のように、クラスタリングの対象とされたサンプルのプロファイル情報とセキュリティ情報とのペアの集合で表される。
　ｃ_ｍ＝｛（ｐ_ｉ，ｓ_ｉ）｜ｉ∈ＣＩ_ｍ｝

　ｐ_ｉは、Ｐ’種類の特徴情報からなるベクトルである。ｓ_ｉは、Ｓ’種類の特徴情報からなるベクトルである。ＣＩ_ｍは、クラスタリングによってｃ_ｍに分類されたサンプルのインデックスの集合である。

　分類部６１は、基本的にはＰｒｏｆｉｌｅＩｎｆｏＤＢ’の特徴をもとにクラスタリングを行う。ただし、ＳｅｃｕｒｉｔｙＩｎｆｏＤＢ’の特徴を含めることも可能である。クラスタリングのアルゴリズムとしては、Ｋ－ｍｅａｎｓ法等の一般的なアルゴリズム、または、独自のアルゴリズムを利用可能である。

　図１１は、モデル生成部２２のデータ生成部６２の処理フローを示している。

　ステップＳ１５１において、データ生成部６２は、未調査のクラスタｃ_ｍがあるかを確認する。前述したように、１≦ｍ≦Ｃである。未調査のクラスタｃ_ｍがなければ、データ生成部６２は、データ生成を終了する。未調査のクラスタｃ_ｍがあれば、データ生成部６２は、ステップＳ１５２の処理を実行する。

　ステップＳ１５２において、データ生成部６２は、未調査のクラスタｃ_ｍにおける、セキュリティ情報のそれぞれの特徴の平均ＳｅｃｕｒｉｔｙＩｎｆｏＡｖｅ（ｃ_ｍ）を計算する。平均ＳｅｃｕｒｉｔｙＩｎｆｏＡｖｅ（ｃ_ｍ）は、以下のように定義される。
　ＳｅｃｕｒｉｔｙＩｎｆｏＡｖｅ（ｃ_ｍ）＝（ａｖｅ（ｓ_１），ａｖｅ（ｓ_２），・・・，ａｖｅ（ｓ_ｋ），・・・，ａｖｅ（ｓ_Ｓ’－１），ａｖｅ（ｓ_Ｓ’））

　セキュリティ情報の各特徴ｓ_ｋの平均ａｖｅ（ｓ_ｋ）は、以下の式により計算される。

　｜ＣＩ_ｍ｜は、クラスタリングによってｃ_ｍに分類されたサンプルの数を表す。

　データ生成部６２は、未調査のクラスタｃ_ｍにおける、セキュリティ情報のそれぞれの特徴の標準偏差ＳｅｃｕｒｉｔｙＩｎｆｏＳｔｄｖ（ｃ_ｍ）を計算する。標準偏差ＳｅｃｕｒｉｔｙＩｎｆｏＳｔｄｖ（ｃ_ｍ）は、以下のように定義される。
　ＳｅｃｕｒｉｔｙＩｎｆｏＳｔｄｖ（ｃ_ｍ）＝（ｓｔｄｖ（ｓ_１），ｓｔｄｖ（ｓ_２），・・・，ｓｔｄｖ（ｓ_ｋ），・・・，ｓｔｄｖ（ｓ_Ｓ’－１），ｓｔｄｖ（ｓ_Ｓ’））

　セキュリティ情報の各特徴ｓ_ｋの標準偏差ｓｔｄｖ（ｓ_ｋ）は、以下の式により計算される。

　ステップＳ１５３において、データ生成部６２は、平均ＳｅｃｕｒｉｔｙＩｎｆｏＡｖｅ（ｃ_ｍ）と標準偏差ＳｅｃｕｒｉｔｙＩｎｆｏＳｔｄｖ（ｃ_ｍ）とをもとに、クラスタｃ_ｍを表現するラベルＬＡＢ（ｃ_ｍ）を生成する。ラベルＬＡＢ（ｃ_ｍ）は、以下のように定義される。
　ＬＡＢ（ｃ_ｍ）＝（ｌａｂ（ｓ_１），ｌａｂ（ｓ_２），・・・，ｌａｂ（ｓ_ｋ），・・・，ｌａｂ（ｓ_Ｓ’－１），ｌａｂ（ｓ_Ｓ’））

　セキュリティ情報の各特徴ｓ_ｋのラベル要素ｌａｂ（ｓ_ｋ）は、標準偏差ｓｔｄｖ（ｓ_ｋ）がセキュリティ情報の特徴ごとにあらかじめ定義された範囲内に収まっていれば、平均ａｖｅ（ｓ_ｋ）に設定され、そうでなければ、「Ｎｏｎｅ」に設定される。データ生成部６２は、ステップＳ１５３の処理の後、ステップＳ１５１の処理を再び実行する。

　図１２は、モデル生成部２２の学習部６３の処理フローを示している。

　ステップＳ１６１において、学習部６３は、未調査のクラスタｃ_ｍがあるかを確認する。前述したように、１≦ｍ≦Ｃである。未調査のクラスタｃ_ｍがなければ、学習部６３は、学習を終了する。未調査のクラスタｃ_ｍがあれば、学習部６３は、ステップＳ１６２の処理を実行する。

　ステップＳ１６２において、学習部６３は、未調査のクラスタｃ_ｍ内の各要素のプロファイル情報ｐ_ｉを学習用のデータ、ラベルＬＡＢ（ｃ_ｍ）を教師データとして使って、機械学習を実行する。実際の学習では、ラベルＬＡＢ（ｃ_ｍ）には、ラベルごとに異なる数字が割り当てられる。学習部６３は、機械学習の実行結果として、モデルである識別器を出力する。学習部６３は、ステップＳ１６２の処理の後、ステップＳ１６１の処理を再び実行する。

　なお、学習部６３は、ラベルＬＡＢ（ｃ_ｍ）全体を１つのラベルとして使ってデータを学習してもよいが、ラベル要素ｌａｂ（ｓ_ｋ）ごとにデータを学習してもよい。その場合、他のクラスタにも同じ値または近い値のラベル要素が現れる可能性がある。そのため、学習部６３は、あらかじめ決められた範囲内に収まるラベル要素ｌａｂ（ｓ_ｋ）を規定のラベル要素に置換し、置換後のラベル要素を使ってデータを学習してもよい。「規定のラベル要素」は、ラベル要素ごとに異なる数字等である。

　図１３は、推定部２３の処理フローを示している。

　ステップＳ１７１からステップＳ１７４の処理は、前述したステップＳ１１２の処理に相当する。よって、ステップＳ１７１の処理の前には、前述したステップＳ１１１の処理が実行されている。ステップＳ１１１では、推定部２３が、情報収集部２１を利用して新たなプロファイル情報を取得する。このプロファイル情報は、セキュリティ意識を推定する対象となる人物Ｙのプロファイル情報である。

　ステップＳ１７１において、推定部２３は、人物Ｙのプロファイル情報から、ステップＳ１４２で除外されたものと同じ特徴を除外する。

　ステップＳ１７２において、推定部２３は、ステップＳ１７１で得られたプロファイル情報をモデル生成部２２から出力された識別器に入力し、推定されたクラスタｃ_ｍのラベルＬＡＢ（ｃ_ｍ）を取得する。

　ステップＳ１７３において、推定部２３は、ステップＳ１７２で得られたラベルＬＡＢ（ｃ_ｍ）から、人物Ｙが起こしやすいセキュリティ事故を特定する。具体的には、推定部２３は、ラベルＬＡＢ（ｃ_ｍ）を構成するラベル要素ｌａｂ（ｓ_ｋ）が「Ｎｏｎｅ」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θ_ｋ１以上である場合に、人物Ｙは特徴ｓ_ｋに関するセキュリティ事故を起こしやすいと判定する。推定部２３は、人物Ｙが起こしやすいセキュリティ事故の情報をディスプレイ１５の画面に表示する。

　ステップＳ１７４において、推定部２３は、ステップＳ１７２で得られたラベルＬＡＢ（ｃ_ｍ）から、人物Ｙが起こしにくいセキュリティ事故を特定する。具体的には、推定部２３は、ラベルＬＡＢ（ｃ_ｍ）を構成するラベル要素ｌａｂ（ｓ_ｋ）が「Ｎｏｎｅ」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θ_ｋ２以下である場合に、人物Ｙは特徴ｓ_ｋに関するセキュリティ事故を起こしにくいと判定する。推定部２３は、人物Ｙが起こしにくいセキュリティ事故の情報をディスプレイ１５の画面に表示する。

　＊＊＊実施の形態の効果の説明＊＊＊
　本実施の形態では、人物Ｙがセキュリティ事故に遭いやすいかどうかの評価指標として、人物Ｙについてセキュリティ事故の要因になり得る振る舞いの特徴がラベルＬＡＢ（ｃ_ｍ）として推定される。そのため、個人のセキュリティ意識を、根拠のある形で評価することができる。

　本実施の形態によれば、インターネット４２、および、イントラネット等のシステム４３から自動的に収集可能な情報を使い、評価対象のユーザがどういうセキュリティ事故を起こしやすいかを自動的に推定することができる。

　本実施の形態では、人物Ｙがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、組織が対策を検討することができる。

　＊＊＊他の構成＊＊＊
　本実施の形態では、情報収集部２１、モデル生成部２２および推定部２３の機能がソフトウェアにより実現されるが、変形例として、情報収集部２１、モデル生成部２２および推定部２３の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。すなわち、情報収集部２１、モデル生成部２２および推定部２３の機能の一部が専用のハードウェアにより実現され、残りがソフトウェアにより実現されてもよい。

　専用のハードウェアは、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ、ＦＰＧＡまたはＡＳＩＣである。「ＩＣ」は、Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略語である。「ＧＡ」は、Ｇａｔｅ　Ａｒｒａｙの略語である。「ＦＰＧＡ」は、Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙの略語である。「ＡＳＩＣ」は、Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略語である。

　プロセッサ１１および専用のハードウェアは、いずれも処理回路である。すなわち、情報収集部２１、モデル生成部２２および推定部２３の機能がソフトウェアにより実現されるか、ソフトウェアとハードウェアとの組み合わせにより実現されるかに関わらず、情報収集部２１、モデル生成部２２および推定部２３の機能は、処理回路により実現される。

　実施の形態２．
　本実施の形態について、主に実施の形態１との差異を、図１４から図１８を用いて説明する。

　実施の形態１では、人物Ｙがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、組織が対策を検討することが想定されている。一方、本実施の形態では、人物Ｙがどういうセキュリティ事故を起こしやすいかを推定した結果をもとに、人物Ｙに適した対策が自動的に提案される。

　＊＊＊構成の説明＊＊＊
　図１４を参照して、本実施の形態に係る評価装置１０の構成を説明する。

　評価装置１０は、情報収集部２１と、モデル生成部２２と、推定部２３と、プロファイルデータベース３１と、セキュリティデータベース３２とのほかに、提案部２４と、対策データベース３３とを備える。情報収集部２１、モデル生成部２２、推定部２３および提案部２４の機能は、ソフトウェアにより実現される。プロファイルデータベース３１、セキュリティデータベース３２および対策データベース３３は、メモリ１２に構築されてもよいが、本実施の形態では補助記憶装置１３に構築される。

　対策データベース３３は、対策情報を格納するデータベースである。対策情報は、セキュリティ事故への対策を定義する情報である。

　対策情報の例を図１５に示す。この例では、セキュリティ情報の各特徴ｓ_ｋが高い人に対して有効なセキュリティ対策の一覧が対策情報として対策データベース３３に記録されている。対策情報は、あらかじめセキュリティ管理者によって定義される。

　＊＊＊動作の説明＊＊＊
　図１４および図１５とともに図１６から図１８を参照して、本実施の形態に係る評価装置１０の動作を説明する。評価装置１０の動作は、本実施の形態に係る評価方法に相当する。

　評価装置１０の情報収集部２１およびモデル生成部２２の動作については、実施の形態１のものと同じであるため、説明を省略する。

　以下では、評価装置１０の推定部２３および提案部２４の動作について説明する。

　図１６は、推定部２３および提案部２４の処理フローを示している。

　ステップＳ２０１およびステップＳ２０２の処理については、ステップＳ１７１およびステップＳ１７２の処理と同じであるため、説明を省略する。

　ステップＳ２０３において、提案部２４は、対策データベース３３に格納された対策情報を参照して、推定部２３により推定された特徴を示す振る舞いが要因になって起こり得るセキュリティ事故への対策を特定する。具体的には、提案部２４は、ステップＳ２０２で人物Ｙのプロファイル情報を使って推定部２３が取得したラベルＬＡＢ（ｃ_ｍ）と、対策データベース３３に格納された対策情報とをもとに、人物Ｙが起こしやすいセキュリティ事故への対策を特定する。より具体的には、提案部２４は、ラベルＬＡＢ（ｃ_ｍ）を構成するラベル要素ｌａｂ（ｓ_ｋ）が「Ｎｏｎｅ」でなく、かつ、セキュリティ情報の特徴ごとにあらかじめ決められた閾値θ_ｋ１以上である場合に、人物Ｙに適した対策は特徴ｓ_ｋに関するセキュリティ事故への対策であると判定する。提案部２４は、特定した対策を表す情報を出力する。具体的には、提案部２４は、人物Ｙが起こしやすいセキュリティ事故への対策案をディスプレイ１５の画面に表示する。訓練メール開封数が高い人への対策案の例と悪質サイト訪問数が高い人への対策案の例とを図１６および図１７にそれぞれ示す。

　ステップＳ２０４の処理については、ステップＳ１７４の処理と同じであるため、説明を省略する。

　なお、図１５の例では、セキュリティ情報の特徴ｓ_ｋごとに対策が定義されているが、それでは冗長な場合がある。よって、同じまたは似ている対策にはあらかじめ同じグループＩＤを付与しておき、ステップＳ２０３では、同じグループＩＤを持った複数の対策を特定した場合に、提案部２４が、そのグループを代表する１つの対策のみを提案してもよい。「ＩＤ」は、Ｉｄｅｎｔｉｆｉｅｒの略語である。

　＊＊＊実施の形態の効果の説明＊＊＊
　本実施の形態によれば、インターネット４２、および、イントラネット等のシステム４３から自動的に収集可能な情報を使い、評価対象のユーザがどういうセキュリティ事故を起こしやすいかを推定した結果に応じて、適切な対策を自動的に提案することができる。

　＊＊＊他の構成＊＊＊
　本実施の形態では、実施の形態１と同じように、情報収集部２１、モデル生成部２２、推定部２３および提案部２４の機能がソフトウェアにより実現されるが、実施の形態１の変形例と同じように、情報収集部２１、モデル生成部２２、推定部２３および提案部２４の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

　実施の形態３．
　本実施の形態について、主に実施の形態１との差異を、図１９から図２２を用いて説明する。

　実施の形態１では、既存のシステム４３から収集可能なセキュリティ情報を利用することが想定されている。一方、本実施の形態では、収集したユーザのプロファイル情報をもとにコンテンツを変えた訓練メールを送信した結果から、セキュリティ情報が取得される。

　＊＊＊構成の説明＊＊＊
　図１９を参照して、本実施の形態に係る評価装置１０の構成を説明する。

　評価装置１０は、情報収集部２１と、モデル生成部２２と、推定部２３と、プロファイルデータベース３１と、セキュリティデータベース３２とのほかに、メール生成部２５と、メールコンテンツデータベース３４とを備える。情報収集部２１、モデル生成部２２、推定部２３およびメール生成部２５の機能は、ソフトウェアにより実現される。プロファイルデータベース３１、セキュリティデータベース３２およびメールコンテンツデータベース３４は、メモリ１２に構築されてもよいが、本実施の形態では補助記憶装置１３に構築される。

　メールコンテンツデータベース３４は、訓練メールのコンテンツを格納するデータベースである。

　コンテンツの例を図２０に示す。この例では、ニュース、趣味および仕事等のトピックごとにいくつかの訓練メールのコンテンツが用意され、メールコンテンツデータベース３４に格納されている。例えば、トピックがニュースである訓練メールのコンテンツとしては、経済、国際、国内、エンターテインメント等に関係するコンテンツが個別に用意されている。

　＊＊＊動作の説明＊＊＊
　図１９および図２０とともに図２１および図２２を参照して、本実施の形態に係る評価装置１０の動作を説明する。評価装置１０の動作は、本実施の形態に係る評価方法に相当する。

　図２１は、学習フェーズの動作を示している。

　ステップＳ３０１において、情報収集部２１は、インターネット４２とイントラネット等のシステム４３との両方からプロファイル情報を収集する。情報収集部２１は、収集したプロファイル情報をプロファイルデータベース３１に格納する。収集されるプロファイル情報は、実施の形態１のステップＳ１０１で収集されるものと同じである。

　ステップＳ３０２において、メール生成部２５は、情報収集部２１により収集されたプロファイル情報に表されている特徴に応じて、メールコンテンツデータベース３４に格納された訓練メールのコンテンツをカスタマイズする。

　具体的には、メール生成部２５は、組織のスタッフごとに、メールコンテンツデータベース３４から、ステップＳ３０１で収集されたプロファイル情報に関連するコンテンツを選ぶ。本実施の形態では、メール生成部２５は、スタッフのプロファイル情報のうち、特に、仕事および興味の情報に関係するコンテンツをトピックごとに取得する。メール生成部２５は、取得したコンテンツを含む訓練メールのデータセットを生成する。

　ステップＳ３０３において、メール生成部２５は、ステップＳ３０２でカスタマイズしたコンテンツを含む訓練メールを複数の人物Ｘ_１，Ｘ_２，・・・，Ｘ_Ｎのそれぞれに送信する。メール生成部２５は、送信した訓練メールに対する振る舞いを観察して、セキュリティ情報を生成する。メール生成部２５は、生成したセキュリティ情報をセキュリティデータベース３２に格納する。

　具体的には、メール生成部２５は、ステップＳ３０２で生成したデータセットにある訓練メールを定期的にスタッフに送信する。メール生成部２５は、トピックごとの訓練メール開封数をセキュリティ情報としてセキュリティデータベース３２に登録する。訓練メールの送信については、既存技術、または、非特許文献４に記載のサービス等の既存サービスを利用することができる。

　セキュリティ情報として登録される、訓練メールに対する振る舞いの観察結果の例を図２２に示す。この例では、訓練メール開封数がセキュリティ情報としてセキュリティデータベース３２に登録される。マルウェア検知数、悪質サイト訪問数、ポリシー違反数、実行ファイルダウンロード数、ファイルダウンロード数、および、インターネット利用数は、実施の形態１のステップＳ１０１と同じように、情報収集部２１により収集される。

　ステップＳ３０４の処理については、ステップＳ１０２の処理と同じである。すなわち、ステップＳ３０４において、モデル生成部２２は、プロファイル情報とセキュリティ情報との関係性のモデルを生成する。

　学習フェーズの次のフェーズである評価フェーズの動作については、実施の形態１のものと同じであるため、説明を省略する。

　＊＊＊実施の形態の効果の説明＊＊＊
　本実施の形態によれば、セキュリティ情報を動的に取得することができる。

　＊＊＊他の構成＊＊＊
　本実施の形態では、実施の形態１と同じように、情報収集部２１、モデル生成部２２、推定部２３およびメール生成部２５の機能がソフトウェアにより実現されるが、実施の形態１の変形例と同じように、情報収集部２１、モデル生成部２２、推定部２３およびメール生成部２５の機能がソフトウェアとハードウェアとの組み合わせにより実現されてもよい。

　実施の形態４．
　本実施の形態は、実施の形態２と実施の形態３との組み合わせである。

　図２３を参照して、本実施の形態に係る評価装置１０の構成を説明する。

　評価装置１０は、情報収集部２１と、モデル生成部２２と、推定部２３と、プロファイルデータベース３１と、セキュリティデータベース３２とのほかに、提案部２４と、メール生成部２５と、対策データベース３３と、メールコンテンツデータベース３４とを備える。情報収集部２１、モデル生成部２２、推定部２３、提案部２４およびメール生成部２５の機能は、ソフトウェアにより実現される。プロファイルデータベース３１、セキュリティデータベース３２、対策データベース３３およびメールコンテンツデータベース３４は、メモリ１２に構築されてもよいが、本実施の形態では補助記憶装置１３に構築される。

　情報収集部２１、モデル生成部２２、推定部２３、メール生成部２５、プロファイルデータベース３１、セキュリティデータベース３２およびメールコンテンツデータベース３４については、実施の形態３のものと同じであるため、説明を省略する。

　提案部２４および対策データベース３３については、実施の形態２のものと同じであるため、説明を省略する。

　１０　評価装置、１１　プロセッサ、１２　メモリ、１３　補助記憶装置、１４　入力機器、１５　ディスプレイ、１６　通信装置、２１　情報収集部、２２　モデル生成部、２３　推定部、２４　提案部、２５　メール生成部、３１　プロファイルデータベース、３２　セキュリティデータベース、３３　対策データベース、３４　メールコンテンツデータベース、４１　ネットワーク、４２　インターネット、４３　システム、５１　プロファイル情報収集部、５２　セキュリティ情報収集部、６１　分類部、６２　データ生成部、６３　学習部。

Claims

　複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、
　前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースと、
　前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成部と、
　前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定部と
を備える評価装置。
　前記モデル生成部は、前記プロファイル情報に対するクラスタリングを行って、前記複数の人物をいくつかのクラスタに分類し、クラスタごとに、前記プロファイル情報から学習用のデータを、前記セキュリティ情報から前記学習用のデータに付与するラベルを生成し、クラスタごとに、前記学習用のデータと前記ラベルとを使って、前記モデルを導き出す請求項１に記載の評価装置。
　前記モデル生成部は、前記モデルを導き出す前に、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値未満の特徴を表す情報を前記プロファイル情報から除外する請求項１または２に記載の評価装置。
　前記モデル生成部は、前記モデルを導き出す前に、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との相関を計算し、計算した相関が閾値未満の特徴を表す情報を前記セキュリティ情報から除外する請求項１または２に記載の評価装置。
　セキュリティ事故への対策を定義する対策情報を格納する対策データベースと、
　前記対策データベースに格納された対策情報を参照して、前記推定部により推定された特徴を示す振る舞いが要因になって起こり得るセキュリティ事故への対策を特定し、特定した対策を表す情報を出力する提案部と
を備える請求項１から４のいずれか１項に記載の評価装置。
　インターネットと前記複数の人物が属する組織により運用されているシステムとの少なくともいずれかから前記プロファイル情報を収集し、前記プロファイル情報を前記プロファイルデータベースに格納する情報収集部をさらに備える請求項１から５のいずれか１項に記載の評価装置。
　前記情報収集部は、前記システムから前記セキュリティ情報を収集し、前記セキュリティ情報を前記セキュリティデータベースに格納する請求項６に記載の評価装置。
　セキュリティ事故を訓練するためのメールである訓練メールのコンテンツを格納するメールコンテンツデータベースと、
　前記プロファイル情報に表されている特徴に応じて、前記メールコンテンツデータベースに格納された訓練メールのコンテンツをカスタマイズし、カスタマイズしたコンテンツを含む訓練メールを前記複数の人物のそれぞれに送信し、送信した訓練メールに対する振る舞いを観察して、前記セキュリティ情報を生成し、前記セキュリティ情報を前記セキュリティデータベースに格納するメール生成部と
を備える請求項１から６のいずれか１項に記載の評価装置。
　モデル生成部が、複数の人物のそれぞれについて個人の特徴を表すプロファイル情報と、前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報とをデータベースから取得し、前記プロファイル情報に表されている特徴と前記セキュリティ情報に表されている特徴との関係性をモデルとして導き出し、
　推定部が、前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成部により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する評価方法。
　複数の人物のそれぞれについて個人の特徴を表すプロファイル情報を格納するプロファイルデータベースと、前記複数の人物のそれぞれについてセキュリティ事故の要因になり得る振る舞いの特徴を表すセキュリティ情報を格納するセキュリティデータベースとを備えるコンピュータに、
　前記プロファイルデータベースに格納されたプロファイル情報に表されている特徴と前記セキュリティデータベースに格納されたセキュリティ情報に表されている特徴との関係性をモデルとして導き出すモデル生成処理と、
　前記複数の人物とは別の人物の特徴を表す情報の入力を受け、前記モデル生成処理により導き出されたモデルを使って、前記別の人物についてセキュリティ事故の要因になり得る振る舞いの特徴を推定する推定処理と
を実行させる評価プログラム。