WO2021144979A1

WO2021144979A1 - ベクトル計算装置、分類装置及び出力プログラム

Info

Publication number: WO2021144979A1
Application number: PCT/JP2020/001556
Authority: WO
Inventors: 幸宏市川
Original assignee: 三菱電機株式会社
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2021-07-22
Also published as: JP7003343B2; JPWO2021144979A1

Abstract

結合部（１１０）は、脅威文章（１１）と対策文章（１２）とを結合し、結合文章（１１１）を生成する。パラメータ計算部（１２０）は、結合文章（１１１）に含まれる単語の個数を計算し、単語の個数に基づいて、結合文章（１１１）に含まれるそれぞれの単語の単語ベクトルを生成する際のウインドウサイズとして使用されるパラメータ（１２１）を計算する。ベクトル計算部（１３０）は、パラメータ（１２１）をウインドウサイズに用いて、結合文章（１１１）に含まれるそれぞれの単語の単語ベクトルを計算し、それぞれの単語ベクトルを用いて結合文章（１１１）の文章ベクトルを計算し、単語ベクトルと文章ベクトルとを記憶装置（１４０）に格納する。

Description

ベクトル計算装置、分類装置及び出力プログラム

　本開示は、文章の文章ベクトルを計算するベクトル計算装置に関する。

　特許文献１には、既知の脅威情報データベースから文書ベクトルを作成し、脅威を効率的に調査することを目的にＷＯＲＤ２ＶＥＣを適用する技術の開示がある。

　また、特許文献２には、ＩＥＣ／ＩＳＯのセキュリティ国際標準に基づく仕様作成において、セキュリティ機能要件への対応付け及び実装仕様の記述を容易にすることを目的とする技術の開示がある。

　また、特許文献３には、質問と回答とのペアに含まれる単語をベクトルに変換する技術の開示がある。特許文献３の技術は、文脈の因果関係に着目することにより、ＷＯＲＤ２ＶＥＣのｓｋｉｐ－ｇｒａｍを用いてベクトルを作成し、従来では回答が困難であった質問に対しても、自動で回答する。

国際公開第２０１９／１４２３４５号パンフレット特開２００９－１１０２７７号公報特開２０１９－０２０８９３号公報

　特許文献１には、脅威の分類については記載があるものの、対策との関連性については記載がない。従来方式で適切に対策を得るには、手動で専門家が脅威と対策との関連付けを実施しなければならず、その時間および技術的負荷が高い。

　特許文献２には、ＩＥＣ／ＩＳＯの要件に記載されたテンプレートを適用する必要がある。そのテンプレート自体の作成方法については述べられているものの、テンプレートは特定の国際標準に合致するように構成されているため、他の国際標準のセキュリティ要件に対してこのテンプレートを適用することは難しい。

　特許文献３は、文脈の因果関係を一般の文書のベクトル化によって生成しているが、この因果関係を提供しているわけではない。特許文献３では、あるキーワードの要素と類似するものは、キーワードの要素の類似ベクトルから取得するだけで、特定のキーワード要素を類似するように工夫する技術の開示はない。

　本開示は、脅威と対策との情報を一般の文書から生成し用いることで、特許文献２のテンプレートのような特定の標準規格に合致させる形式を不要とする技術の提供を目的とする。また、本開示は、因果関係の少ない情報どうしに対して因果関係を保つ工夫を提供し、その工夫によって、脅威から対策を抽出し、及び、対策から脅威を抽出することを目的とする。

　本開示に係るベクトル計算装置は、
　自然言語の文章であり脅威を示す脅威文章と、自然言語の文章であり前記脅威文章の示す前記脅威の対策を示す対策文章とを取得し、前記脅威文章と前記対策文章とのうちいずれか一方を前方に配置し他方を後方に配置して前記脅威文章と前記対策文章とを結合し、前記脅威文章と前記対策文章とが結合された結合文章を生成する結合部と、
　前記結合文章に含まれる単語の個数を計算し、計算された前記単語の個数に基づいて、前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを生成する際のパラメータであって、前記単語の前方の単語数及び後方の単語数を表すパラメータであるウインドウサイズを決定するパラメータ決定部と、
決定された前記ウインドウサイズを用いて前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを計算し、それぞれの前記単語ベクトルを用いて前記結合文章の文章ベクトルを計算し、前記文章ベクトルとそれぞれの前記単語ベクトルとを記憶装置に格納するベクトル計算部と、
を備える。

　本開示によれば、脅威と対策との情報を一般の文書から生成し用いることで、特定の標準規格に合致させる形式を不要とする技術を提供できる。また、本開示によれば、因果関係の少ない情報どうしに対して因果関係を保つ工夫を提供し、その工夫によって、脅威から対策を抽出し、及び、対策から脅威を抽出することができる。

実施の形態１の図で、出力装置１００の機能ブロック図。実施の形態１の図で、出力装置１００のハードウェア構成図。実施の形態１の図で、出力装置１００の動作概要を示すフローチャート。実施の形態１の図で、パラメータ計算部１２０によるステップＳ２０の処理の詳細を示すフローチャート。実施の形態２の図で、出力装置１００の機能ブロック図。実施の形態２の図で、文章整理部１５０の機能構成を示す図。実施の形態３の図で、分類装置２００の機能ブロック図。実施の形態３の図で、判定部２２１の動作を示すフローチャート。実施の形態４の図で、分類装置２００の機能ブロック図。実施の形態４の図で、類似部２２２の動作を示すフローチャート。実施の形態４の図で、出力装置１００のハードウェア構成を補足する図。

　以下、実施の形態について、図を用いて説明する。なお、各図中、同一または相当する部分には、同一符号を付している。実施の形態の説明において、同一または相当する部分については、説明を適宜省略または簡略化する。

　実施の形態１．
　図１は、単語ベクトルを計算し、単語ベクトルを記憶装置１４０へ出力する出力装置１００の機能ブロック図である。出力装置１００は、ベクトル計算装置である。

　図１に示すように、出力装置１００は、機能要素として、結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０を備えている。パラメータ計算部１２０は、パラメータ決定部である。

　結合部１１０には、脅威文章１１及び対策文章１２が入力される。結合部１１０は、脅威文章１１と対策文章１２とから結合文章１１１を生成する。パラメータ計算部１２０は、結合文章１１１からパラメータ１２１を生成する。ベクトル計算部１３０は、パラメータ１２１を用いて、結合文章１１１に含まれる各単語の単語ベクトルを生成し、単語ベクトルと単語ベクトルが生成された単語とを対応付けて記憶装置１４０へ格納する。記憶装置１４０は、出力装置１００が備えてもよいし、他の装置が備えてもよい。記憶装置１４０はクラウドサーバでもよい。出力装置１００が記憶装置１４０を備える場合、補助記憶装置７３０が記憶装置１４０として機能する。結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０の機能は動作の説明で詳しく説明する。

　以下に、出力装置１００に入力される、脅威文章１１と対策文章１２とを説明する。

＜脅威文章１１＞
　脅威文章１１はサイバー攻撃の脅威に関する自然言語である。脅威文章１１は、国際標準文書またはガイドラインのような文書に含まれる文章であり、人間が読むことができ、かつ、ならかの形式で記載されている文章である。
具体的には
（１）Ｃｏｍｍｏｎ　Ｗｅａｋｎｅｓｓ　Ｅｎｕｍｅｒａｔｉｏｎ（ＣＷＥ）の、Ｎａｍｅ、ＤｅｓｃｒｉｐｔｉｏｎまたはＥｘｔｅｎｄｅｄ　Ｄｅｓｃｒｉｐｔｉｏｎに記載されている文章、
あるいは、
（２）Ｃｏｍｍｏｎ　Ａｔｔａｃｋ　Ｐａｔｔｅｒｎ　Ｅｎｕｍｅｒａｔｉｏｎ　ａｎｄ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＡＰＥＣ）の、ＮａｍｅまたはＤｅｓｃｒｉｐｔｉｏｎに記載されている文章である。
その他、セキュリティガイドラインに記載された脅威に関連する文章でもよい。

＜対策文章１２＞
　対策文章１２はサイバー攻撃の脅威に対する対策に関する自然言語である。対策文章１２は自然言語である。対策文章１２は、国際標準文書またはガイドラインのような文書に含まれる文章であり、人間が読むことができ、かつ、ならかの形式で記載されている文章である。
具体的には
（１）ＮＩＳＴ　Ｓｐｅｃｉａｌ　Ｐｕｂｌｉｃａｔｉｏｎｓ　８００－５３における、管理策の名称、拡張管理策の名称またはセキュリティ管理策、
あるいは、
（２）ＩＥＣ　６２４４３－４－２の各コンポーネントの、要件のタイトルまたはＲｅｑｕｉｒｅｍｅｎｔである。
その他にもセキュリティガイドラインに記載された対策に関連する文章でもよい。

　上記で述べた脅威文章１１及び対策文章１２は、出力装置１００への入力情報である。出力装置１００は、脅威文章１１及び対策文章１２を入力情報として、記憶装置１４０へ出力情報として単語ベクトルを出力する。

＊＊＊構成の説明＊＊＊
　図２は、出力装置１００のハードウェア構成を示す。図２を参照して出力装置１００のハードウェア構成を説明する。

　出力装置１００は、コンピュータである。出力装置１００は、プロセッサ７１０を備える。出力装置１００は、プロセッサ７１０の他に、主記憶装置７２０、補助記憶装置７３０、入力ＩＦ７４０、入力ＩＦ７５０及び通信ＩＦ７６０といった、他のハードウェアを備える。プロセッサ７１０は、信号線７７０を介して、他のハードウェアと接続され、他のハードウェアを制御する。

　出力装置１００は、機能要素として、結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０を備える。結合部１１０，パラメータ計算部１２０及びベクトル計算部１３０の機能は、出力プログラム１０１により実現される。

　プロセッサ７１０は、出力プログラム１０１を実行する装置である。出力プログラム１０１は、データ取得部１０、シミュレーション部２０、設備リスク計算部３０、評価部４０及び表示処理部５０の機能を実現するプログラムである。プロセッサ７１０は、演算処理を行うＩＣ（Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔ）である。プロセッサ７１０の具体例は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＤＳＰ（Ｄｉｇｉｔａｌ　Ｓｉｇｎａｌ　Ｐｒｏｃｅｓｓｏｒ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）である。

　主記憶装置７２０は記憶装置である。主記憶装置７２０の具体例は、ＳＲＡＭ（Ｓｔａｔｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＤＲＡＭ（Ｄｙｎａｍｉｃ　Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）である。　主記憶装置７２０は、プロセッサ７１０の演算結果を保持する。

　補助記憶装置７３０は、データを不揮発的に保管する記憶装置である。補助記憶装置７３０の具体例は、ＨＤＤ（Ｈａｒｄ　Ｄｉｓｋ　Ｄｒｉｖｅ）である。また、補助記憶装置７３０は、ＳＤ（登録商標）（Ｓｅｃｕｒｅ　Ｄｉｇｉｔａｌ）メモリカード、ＮＡＮＤフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ（登録商標）ディスク、ＤＶＤ（Ｄｉｇｉｔａｌ　Ｖｅｒｓａｔｉｌｅ　Ｄｉｓｋ）といった可搬記録媒体であってもよい。補助記憶装置７３０は、ベクトル計算部１３０の出力データである単語ベクトル及び文章ベクトルをデータベース１４１として格納している。補助記憶装置７３０は、出力プログラム１０１を格納している。

　入力ＩＦ７４０は、各装置からデータが入力されるポートである。入力ＩＦ７５０は、各種機器が接続され、各種機器にプロセッサ７１０によりデータが出力されるポートである。通信ＩＦ７６０は、プロセッサが他の装置と通信するための通信ポートである。なお上記ではインターフェースをＩＦと表記している。

　プロセッサ７１０は補助記憶装置７３０から出力プログラム１０１を主記憶装置７２０にロードし、主記憶装置７２０から出力プログラム１０１を読み込み実行する。主記憶装置７２０には、出力プログラム１０１だけでなく、ＯＳ（Ｏｐｅｒａｔｉｎｇ　Ｓｙｓｔｅｍ）も記憶されている。

　出力装置１００は、プロセッサ７１０を代替する複数のプロセッサを備えていてもよい。これら複数のプロセッサは、出力プログラム１０１の実行を分担する。それぞれのプロセッサは、プロセッサ７１０と同じように、出力プログラム１０１を実行する装置である。出力プログラム１０１により利用、処理または出力されるデータ、情報、信号値及び変数値は、主記憶装置７２０、補助記憶装置７３０、または、プロセッサ７１０内のレジスタあるいはキャッシュメモリに記憶される。

　出力プログラム１０１は、結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０の「部」を、「処理」、「手順」あるいは「工程」に読み替えた各処理、各手順あるいは各工程をコンピュータに実行させるプログラムである。

　また、出力方法は、コンピュータである出力装置１００が出力プログラム１０１を実行することにより行われる方法である。出力プログラム１０１は、コンピュータ読み取り可能な記録媒体に格納されて提供されてもよいし、プログラムプロダクトとして提供されてもよい。

＊＊＊動作の説明＊＊＊
　以下に、出力装置１００の動作を説明する。出力装置１００の動作手順は、出力方法に相当する。出力装置１００の動作を実現するプログラムは、出力プログラム１０１に相当する。
　図３は、出力装置１００の動作概要を示すフローチャートである。図３を使用して出力装置１００の動作概要を説明する。図３の各ステップのかっこ書きは動作の主体を示す。

＜ステップＳ１０＞
　ステップＳ１０において、結合部１１０は、脅威文章１１と対策文章１２とを結合する。結合部１１０は、自然言語の文章であり脅威を示す脅威文章１１と、自然言語の文章であり脅威文章１１の示す脅威の対策を示す対策文章１２とを取得する。結合部１１０は、取得した脅威文章１１と対策文章１２とのうち、いずれか一方を前方に配置し他方を後方に配置して脅威文章１１と対策文章１２とを結合し、脅威文章１１と対策文章１２とが結合された結合文章１１１を生成する。具体的には、結合部１１０は、脅威文章１１の後に対策文章１２を加えて、新しい文章として、結合文章１１１を生成する。

＜ステップＳ２０＞
　ステップＳ２０において、パラメータ計算部１２０は、結合部１１０によって生成された結合文章１１１から、ベクトル計算部１３０に入力するパラメータ１２１を出力する。
　パラメータ計算部１２０は、結合文章１１１に含まれる単語の個数を計算し、計算された単語の個数に基づいて、パラメータを生成する。このパラメータは、結合文章１１１に含まれるそれぞれの単語の単語ベクトルを生成する際のパラメータであり、単語の前方の単語数及び後方の単語数を表すパラメータであるウインドウサイズである。
　図５に示すように、パラメータ１２１は、Ｓｋｉｐ－Ｇｒａｍの式におけるｍの値として使用することを想定している。ステップＳ２０の詳細は図４で後述する。

＜ステップＳ３０＞
　ステップＳ３０において、ベクトル計算部１３０には、パラメータ計算部１２０からパラメータ１２１が入力され、結合部１１０から結合文章１１１が入力される。ベクトル計算部１３０は、パラメータ計算部１２０によって決定されたウインドウサイズを用いて、結合文章１１１に含まれるそれぞれの単語の単語ベクトルを計算する。ベクトル計算部１３０は、それぞれの単語の単語ベクトルを用いて結合文章１１１の文章ベクトルを計算し、単語ベクトルと文章ベクトルとをデータベース１４１として記憶装置１４０に格納する。

　ベクトル計算部１３０は、と、パラメータ１２１を入力し、結合文章１１１の文章ベクトルを生成し、記憶装置１４０にデータベースの形式で格納する。結合文章１１１の文章ベクトルを計算するには、Ｗｏｒｄ２Ｖｅｃ、Ｄｏｃ２Ｖｅｃ、または、Ｓｐａｒｓｅ　Ｃｏｍｐｏｓｉｔｅ　Ｄｏｃｕｍｅｎｔ　Ｖｅｃｔｏｒｓ（ＳＣＤＶ）、のようなアプリケーションを使用することができる。

　図４は、パラメータ計算部１２０によるステップＳ２０の処理の詳細を示すフローチャートである。図４を使用して、パラメータ計算部１２０によるステップＳ２０の詳細を説明する。

　ステップＳ２１において、パラメータ計算部１２０は、結合文章１１１を受信する。

　ステップＳ２２において、パラメータ計算部１２０は、受信した結合文章１１１の長さとして、単語数を抽出する。
　「Ｄｏｃｕｍｅｎｔ　ｓｅｐａｒａｔｉｏｎ　ｏｆ　ｄｕｔｉｅｓ　ｏｆ　ｉｎｄｉｖｉｄｕａｌｓ」の文章は結合文章１１１ではないが、この文章が結合文章１１１とすれば、パラメータ計算部１２０は、この文章から文章の長さとして、単語数６を抽出する。

　ステップＳ２３において、パラメータ計算部１２０は、抽出した単語数ＮＷが閾値Ｎより小さいか否かを判断する。例えばＮ＝１０とする。抽出した単語数ＮＷが６のとき、ＮＷ＜Ｎとなり処理はステップＳ２４に進む。

　ステップＳ２４において、パラメータ計算部１２０はＮＷ＝６を２で割り、ＮＷ／２＝３
をパラメータ１２１として出力する。なお、ＮＷが奇数のときはＮＷ／２を整数にする。例えば、ＮＷ＝７のとき、パラメータ１２１は３でもよいし４でもよい。このように、ＮＷ／２が奇数の場合、パラメータ計算部１２０は、ＮＷ／２が最も近い２つの整数のうち、いずれか一方の整数をパラメータ１２１として採用する。

　ステップＳ２５において、抽出した単語数が閾値Ｎ＝１０以上の場合、パラメータ計算部１２０は、結合文章１１１を、脅威文章１１と対策文章１２とに分割する。

　ステップＳ２６において、パラメータ計算部１２０は、脅威文章１１の単語数と、対策文章１２の単語数とを比較し、小さい方の文章を選択する。そして、パラメータ計算部１２０は小さい方の文章の単語数を２で割り、２で割った値をパラメータ１２１として採用する。２で割った値が奇数のときは、ステップＳ２４の処理と同様である。

　ステップＳ２１からステップＳ２６では、パラメータ計算部１２０は、パラメータであるウインドウサイズを計算した。パラメータ計算部１２０は以下のようにパラメータを決定してもよい。
　パラメータ計算部１２０は、結合文章１１１の脅威文章１１に含まれる単語数と、結合文章１１１の対策文章１２に含まれる単語数とを計算し、脅威文章１１に含まれる単語数と、対策文章１２に含まれる単語数との比に基づいて、ウインドウサイズを決定してもよい。

　パラメータ１２１は、ステップＳ３０において、ベクトル計算部１３０が単語ベクトルを計算する際のウインドウサイズｍとして利用される。ウインドウサイズｍは、単語と単語との関係性の距離を定める値である。ベクトル計算部１３０に入力される二つの異なる文章の関係性をウインドウサイズｍで表現するため、ステップＳ２０において、ウインドウサイズｍとして使用するパラメータ１２１を計算している。

＊＊＊実施の形態１の効果＊＊＊
　以上のように、出力装置１００は、脅威文章１１と対策文章１２という異なる２つの自然言語から結合文章１１１を生成し、結合文章１１１から、ベクトル計算のウインドウサイズに使用するパラメータ１２１を計算する。出力装置１００は、パラメータ１２１を用いて結合文章１１１の文章ベクトルを記憶装置１４０に出力して、結合文章１１１の文章ベクトルのデータベースを構築する。
　よって、特定の標準規格に合致させる形式を不要とする技術に使用するデータベースを提供できる。
　また、因果関係の少ない情報どうしに対して因果関係を保つデータに関するデータベースを構築することができる。

　実施の形態２．
　図５及び図６を使用して実施の形態２の出力装置１００を説明する。
　図５は、実施の形態２の出力装置１００の機能ブロック図を示す。実施の形態２の出力装置１００は、実施の形態１の出力装置１００に対して、さらに、文章整理部１５０を備える。実施の形態２の出力装置１００のハードウェア構成は実施の形態１の出力装置１００と同一である。実施の形態２の出力装置１００では、図２において、プロセッサ７１０がさらに文章整理部１５０を備える。

　実施の形態２の出力装置１００では、文章整理部１５０が脅威文章１１及び対策文章１２を整理し、結合部１１０が整理された脅威文章１１及び対策文章１２から、結合文章１１１を生成する。結合文章１１１が生成された後の処理は実施の形態１と同じである。

　文章整理部１５０は、入力された脅威文章１１から、整理された脅威文章１１である脅威文章１１ａを出力する。また、文章整理部１５０は、入力された対策文章１２から、整理された対策文章１２である対策文章１２ａを出力する。

　図６は、文章整理部１５０の機能構成を示す。文章整理部１５０は、脅威文章１１と対策文章１２とに品詞分割を実施し、品詞分割された脅威文章１１と、品詞分割された対策文章１２とから、不要な品詞である不要品詞に該当する単語を削除する。
具体的には以下のようである。

　文章整理部１５０は、機能要素として品詞分割部１５１と整理部１５２とを備える。品詞分割部１５１では、脅威文章１１及び対策文章１２が入力される。品詞分割部１５１は、脅威文章１１を品詞分割し、「脅威文章１１から抽出された自然言語１５１ａ」（以下、自然言語１５１ａ）を生成する。品詞分割部１５１は、対策文章１２を品詞分割し、「対策文章１２から抽出された自然言語１５１ｂ」（以下、自然言語１５１ｂ）を生成する。具体的には、品詞分割部１５１は、以下のようにタグと品詞を対応付けて、品詞分割を実行する。
　以下の（１）から（１５）において、左がタグ、右が品詞である。品詞分割部１５１は、（１）から（１５）の１５種類以外の自然言語である不要品詞を脅威文章１１及び対策文章１２から削除し、削除結果を、抽出された自然言語１５１ａ及び自然言語１５１ｂとして出力する。
（１）ＪＪ：形容詞，（２）ＭＤ：法，（３）ＮＮ：名詞（単数形），（４）ＮＮＰ：固有名詞（単数形），（５）ＮＮＰＳ：固有名詞（複数形），（６）ＮＮＳ：名詞（複数形），（７）ＲＢ：副詞，（８）ＲＢＲ：副詞（比較級），（９）ＲＢＳ：副詞（最上級），（１０）ＶＢ：動詞（原形）），（１１）ＶＢＤ：動詞（過去形），（１２）ＶＢＧ：動名詞または現在分詞，（１３）ＶＢＮ：動詞（過去分詞），（１４）ＶＢＰ：動詞（三人称単数以外の現在形），（１５）ＶＢＺ：動詞（三人称単数の現在形）。

　整理部１５２は、自然言語１５１ａ及び自然言語１５１ｂに、ステミング処理、レマタイズ処理及びストップワード処理のような処理などを実施し、自然言語１５１ａ及び自然言語１５１ｂを整理する。整理部１５２は、自然言語１５１ａから「抽出及び整理の後の脅威文章１１ａ」を生成し、自然言語１５１ｂから「抽出及び整理の後の対策文章１２ａ」を生成する。

　図５に示すように、結合部１１０は、不要品詞に該当する単語が削除されている脅威文章である「抽出及び整理の後の脅威文章１１ａ」と、不要品詞に該当する単語が削除されている対策文章であると「抽出及び整理の後の対策文章１２ａ」を取得する。結合部１１０は、不要品詞が削除されている「抽出及び整理の後の脅威文章１１ａ」及び抽出及び整理の後の対策文章１２ａ」を用いて、結合文章１１１ａを生成する。図５において結合部１１０からベクトル計算部１３０までの処理は実施の形態１と同じである。

＊＊＊実施の形態２の効果＊＊＊
　実施の形態２の出力装置１００は文章整理部１５０を備えているので、脅威文章１１及び対策文章１２に含まれるノイズ成分となる単語を削除することができる。

　実施の形態３．
　図７及び図８を使用して実施の形態３の分類装置２００を説明する。
図７は、実施の形態３の分類装置２００の機能ブロック図である。分類装置２００には判定文章群１３が入力される。分類装置２００は、実施の形態１または実施の形態２の記憶装置１４０に格納されているデータベース１４１を用いて、判定文章群１３を脅威と対策とのどちらかのタイプに分類する。

　図７に示すように、分類装置２００は、記憶装置１４０のデータベース１４１から単語ベクトル及び文章ベクトルを取得するベクトル取得部２１０、判定文章群１３を脅威と対策とのどちらかのタイプに分類する分類部２２０、及び文章整理部２５０を備えている。分類部２２０は判定部２２１を備える。

　ベクトル取得部２１０は、実施の形態１の出力装置１００または実施の形態２の出力装置１００によって複数の文章ベクトルが格納されている記憶装置１４０のデータベース１４１から、複数の文章ベクトルを取得する。分類部２２０は、脅威と対策とのいずれを示すかの判定対象であり自然言語の複数の文章を含む判定文章群１３を取得し、判定文章群１３が脅威と対策とのいずれを示すかを取得された複数の文章ベクトルを用いて判定し、判定結果に従って判定文章群１３を脅威と対策とのいずれかのタイプに分類する。なお、後述のように、文章整理部２５０はオプションであるので、分類部２２０には判定文章群１３が入力されてもよい。

　分類装置２００のハードウェア構成は、図２の出力装置１００と同様である。分類装置２００では機能要素として、プロセッサ７１０は、ベクトル取得部２１０、分類部２２０及び文章整理部２５０を備える。分類装置２００のハードウェア構成の図は省略する。

　文章整理部２５０は文章整理部１５０と同じ機能を有する。文章整理部２５０には入力データとして判定文章群１３が入力される。文章整理部２５０は、判定文章群１３から「抽出及び整理の後の判定文章群１３ａ」を生成する。「抽出及び整理の後の判定文章群１３ａ」は分類部２２０に入力される。なお文章整理部２５０はオプションであり、分類部２２０には判定文章群１３が入力されてもよい。

＜判定文章群１３＞
　図７において、脅威か対策の判定対象の判定文章群１３は自然言語である。判定文章群１３は自然言語である。判定文章群１３は、国際標準文書またはガイドラインのような文書に含まれる文章であり、人間が読むことができ、かつ、ならかの形式で記載されている文章である。具体的には、実施の形態１で脅威文章１１及び対策文章１２の説明で述べた以下の（１）から（４）のような文章である。
（１）Ｃｏｍｍｏｎ　Ｗｅａｋｎｅｓｓ　Ｅｎｕｍｅｒａｔｉｏｎ（ＣＷＥ）の、Ｎａｍｅ、ＤｅｓｃｒｉｐｔｉｏｎまたはＥｘｔｅｎｄｅｄ　Ｄｅｓｃｒｉｐｔｉｏｎに記載されている文章、
（２）Ｃｏｍｍｏｎ　Ａｔｔａｃｋ　Ｐａｔｔｅｒｎ　Ｅｎｕｍｅｒａｔｉｏｎ　ａｎｄ　Ｃｌａｓｓｉｆｉｃａｔｉｏｎ（ＣＡＰＥＣ）の、ＮａｍｅまたはＤｅｓｃｒｉｐｔｉｏｎに記載されている文章、
（３）ＮＩＳＴ　Ｓｐｅｃｉａｌ　Ｐｕｂｌｉｃａｔｉｏｎｓ　８００－５３における、管理策の名称、拡張管理策の名称またはセキュリティ管理策、
（４）ＩＥＣ　６２４４３－４－２の各コンポーネントの、要件のタイトルまたはＲｅｑｕｉｒｅｍｅｎｔ。
上記（１）から（４）の他にも、セキュリティガイドラインに記載された脅威に関連する文章も含む。

＜文章整理部１５０＞
　文章整理部１５０は、入力された判定文章群１３に文章整理部１５０と同様の処理を実施し、「抽出及び整理の後の判定文章群１３ａ」を出力する。「抽出及び整理の後の判定文章群１３ａ」は、実施の形態２の「抽出及び整理の後の脅威文章１１ａ」または「抽出及び整理の後の対策文章１２ａ」と同様に処理された文章である。

＜判定部２２１＞
　判定部２２１は、「抽出及び整理の後の判定文章群１３ａ」及び記憶装置１４０の格納するデータを入力として、脅威または対策２２１ａを出力する。脅威または対策２２１ａは、脅威と対策とのどちらかを示す情報である。脅威または対策２２１ａは、判定文章群１３が脅威と対策とのどちらのタイプかを示す。
　図８は、判定部２２１の動作を示すフローチャートである。図８を使用して判定部２２１の動作を説明する。図８は判定部２２１の行うＳＣＤＶの処理をフローチャート化している。

　ステップＳ４１において、判定部２２１は、「抽出及び整理の後の判定文章群１３ａ」を取得する。
　ステップＳ４２において、判定部２２１は、ベクトル取得部２１０を介して、記憶装置１４０からデータベース１４１のデータを読み込む。
　ステップＳ４３において、判定部２２１は、「抽出及び整理の後の判定文章群１３ａ」の文章をクラスタリングで分類する。クラスタリングで分類とは、具体的には、Ｇａｕｓｓｉａｎ　Ｍｉｘｔｕｒｅ　Ｍｏｄｅｌ（ＧＭＭ）のようなクラスタリング技術を使って、入力された「抽出及び整理の後の判定文章群１３ａ」を分類することを意味する。
　ステップＳ４４において、判定部２２１は、取得した文章の特徴量を取得する。
具体的には、判定部２２１は、ｔｆ－ｉｄｆのベクトル分類で、「抽出及び整理の後の判定文章群１３ａ」の中で一定の特徴量を出力する文章を保持しておく。
　ステップＳ４５において、判定部２２１は、文章分類のステップＳ４３で取得した分類情報と、文章の特徴量取得のステップＳ４４で取得した特徴量とを用いて、確率重み付けを実施する。
　ステップＳ４６において、判定部２２１は、この確率重みづけした情報と、記憶装置１４０に格納されたデータベース１４１の情報とを比較する。

　ステップＳ４７において、判定部２２１は、比較の結果、確率重みづけした情報が脅威と対策とのどちらに近いかを判定し、判定結果を予想値である「脅威または対策２２１ａ」として出力する。
「脅威または対策２２１ａ」は、脅威もしくは対策の予想結果を示す。
「脅威または対策２２１ａ」は、例えば２値をとるが、３以上の段階のいずれかの段階の値をとってもよい。
　例えば、「脅威または対策２２１ａ」を以下の（１）から（４）のように４段階に分類する。
（１）脅威について不適切な入力検証
（２）脅威について暗号化の未実装、
（３）対策について適切な入力検証、
（４）対策について暗号化の実装。
このように、４段階に分類することで脅威及び対策を詳細に分類できる。

＊＊＊実施の形態３の効果＊＊＊
　以上のように、実施の形態３の分類装置２００によれば、実施の形態１または実施の形態２の記憶装置１４０の有するデータベース１４１の情報を用いて、判定文章群１３を、脅威と対策とのいずれかのタイプに分類することができる。

　実施の形態４．
　図９及び図１０を使用して実施の形態４の分類装置２００を説明する。
図９は、実施の形態４の分類装置２００の機能ブロック図である。図９の分類装置２００は、実施の形態３の分類装置２００に対して分類部２２０の機能構成が異なる。実施の形態４の分類部２２０は、類似部２２２を備えている。

　分類部２２０は、判定文章群１３に含まれるそれぞれの文章が脅威と対策とのどちらのタイプを示すかを、取得された複数の文章ベクトルを用いて判定する。分類部２２０は、その判定結果に従って、それぞれの文章を脅威と対策とのいずれかのタイプに分類し、判定文章群１３と異なるタイプの文章を抽出する。

　実施の形態４の分類装置２００のハードウェア構成は図２の出力装置１００のハードウェア構成と同じである。

　実施の形態４の分類装置２００には、実施の形態３で脅威と対策とのいずれかのタイプに分類された判定文章群１３が入力される。実施の形態４の分類装置２００は、判定文章群１３のタイプとは異なるタイプの文章を、判定文章群１３から抽出する。

　以下では、判定文章群１３のタイプは脅威であるとする。この場合、実施の形態４の分類装置２００は、タイプが脅威である判定文章群１３から、タイプが対策である文章を抽出する。

＜類似部２２２＞
　類似部２２２は、「抽出及び整理の後の判定文章群１３ａ」を入力として、類似度順文章群４１１を出力する。

　図１０は、類似部２２２の動作を示すフローチャートである。図１０を使用して類似部２２２の動作を説明する。ステップＳ５１からステップＳ５６は、図８のステップＳ４１からステップＳ４６と同一であるので、説明は省略する。

＜ステップＳ５７＞
　ステップＳ５７において、判定部２２１は、この確率重みづけした情報と、記憶装置１４０に格納されたデータベース１４１の情報とを比較し、比較結果に基づき、各文章の類似度を示すスコアを計算する。図９に示すように、類似部２２２は、スコア順に、文章を出力する。スコア順に出力された複数の文章が、類似度順文章群２２２ａである。以下、スコアは類似度と表記する。

＜ステップＳ５７の後の処理＞
　この例では、入力された判定文章群１３のタイプは脅威である。入力された判定文章群１３のタイプが脅威であることは記憶装置１４０のデータベース１４１に登録されている。入力された判定文章群１３のタイプは実施の形態３の分類装置２００によって判定されている。図９に示すように、判定部２２１は、類似度順文章群２２２ａのなかから最も大きな類似度の文章を選択する。また、判定部２２１は、ベクトル取得部２１０を介して記憶装置１４０のデータベース１４１の情報を取得する。判定部２２１は、取得した文章と、データベース１４１の情報とから、実施の形態３の場合と同様に、取得した文章が脅威と対策とのどちらのタイプかを判定する。
判定部２２１は、判定結果として、同一タイプ２２１Ｘと、異なるタイプ２２１Ｙとのどちらかを生成する。つまり、類似度順文章群２２２ａのなかから取得した文章は、タイプが脅威である判定文章群１３と異なるタイプ２２１Ｙである対策の場合と、同一タイプ２２１Ｘである脅威の場合がある。入力された判定文章群１３のタイプが対策であれば、入力された判定文章群１３のタイプが脅威の場合と、結果は逆になる。

　判定部２２１は、異なるタイプ２２１Ｙを生成した場合は、異なるタイプ２２１Ｙの生成の元になる文章を、対策と最も類似度の高い対策文章として判定し、この判定結果を結果文章２２１Ｚとして出力する。同一タイプ２２１Ｘは、判定文章群１３の分類のタイプと同一である。

　判定部２２１は、類似度順文章群２２２ａのなかから取得した文章の判定が終了すると、類似度順文章群２２２ａのなかから次の文章を取得し、判定を行う。類似度順文章群２２２ａの複数の文章に対して、判定部２２１は、文章の取得及び判定を繰り返す。

＊＊＊実施の形態４の効果＊＊＊
　以上のように、実施の形態４の分類装置２００によれば、脅威のタイプを示す判定文章群１３が入力されることで、判定文章群１３のタイプと異なるタイプの分類である対策文章を取得できる。実施の形態４の分類装置２００によれば、対策のタイプを示す判定文章群１３が入力されることで、判定文章群１３のタイプと異なるタイプの分類である脅威文章を取得できる。

＜ハードウェア構成の補足＞
　図２の出力装置１００では出力装置１００の機能がソフトウェアで実現されるが、出力装置１００の機能がハードウェアで実現されてもよい。
図１１は、出力装置１００の機能がハードウェアで実現される構成を示す。図の電子回路９００は、出力装置１００の、結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０の機能を実現する専用の電子回路である。電子回路９００は、信号線９１０に接続している。電子回路９００は、具体的には、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックＩＣ、ＧＡ、ＡＳＩＣ、または、ＦＰＧＡである。ＧＡは、Ｇａｔｅ　Ａｒｒａｙの略語である。ＡＳＩＣは、Ａｐｐｌｉｃａｔｉｏｎ　Ｓｐｅｃｉｆｉｃ　Ｉｎｔｅｇｒａｔｅｄ　Ｃｉｒｃｕｉｔの略語である。ＦＰＧＡは、Ｆｉｅｌｄ－Ｐｒｏｇｒａｍｍａｂｌｅ　Ｇａｔｅ　Ａｒｒａｙの略語である。出力装置１００の構成要素の機能は、１つの電子回路で実現されてもよいし、複数の電子回路に分散して実現されてもよい。また、出力装置１００の構成要素の一部の機能が電子回路で実現され、残りの機能がソフトウェアで実現されてもよい。

　プロセッサ７１０と電子回路９００の各々は、プロセッシングサーキットリとも呼ばれる。出力装置１００において、結合部１１０、パラメータ計算部１２０及びベクトル計算部１３０の機能がプロセッシングサーキットリにより実現されてもよい

　ハードウェアの補足に関して出力装置１００の説明は、実施の形態２の出力装置１００、実施の形態３の分類装置２００、及び実施の形態４の分類装置２００にも当てはまる。

　以上、実施の形態１から実施の形態４について説明した。これらの実施の形態のうち、２つ以上を組み合わせて実施しても構わない。あるいは、これらの実施の形態のうち、１つを部分的に実施しても構わない。あるいは、これらの実施の形態のうち、２つ以上を部分的に組み合わせて実施しても構わない。

　１１　脅威文章、１２　対策文章、１３　判定文章群、１１ａ　抽出及び整理の後の脅威文章、１２ａ　抽出及び整理の後の対策文章、１３ａ　抽出及び整理の後の判定文章群、１００　出力装置、１０１　出力プログラム、１１０　結合部、１１１　結合文章、１２０　パラメータ計算部、１２１　パラメータ、１３０　ベクトル計算部、１４０　記憶装置、１４１　データベース、１５０　文章整理部、１５１　品詞分割部、１５１ａ　自然言語、１５１ｂ　自然言語、１５２　整理部、２００　分類装置、２１０　ベクトル取得部、２５０　文章整理部、２２０　分類部、２２１　判定部、２２１Ｘ　同一タイプ、２２１Ｙ　異なるタイプ、２２１Ｚ　結果文章、２２２　類似部、７１０　プロセッサ、７２０　主記憶装置、７３０　補助記憶装置、７４０　入力ＩＦ、７５０　出力ＩＦ、７６０　通信ＩＦ、７７０　信号線、９００　電子回路、９１０　信号線。

Claims

　自然言語の文章であり脅威を示す脅威文章と、自然言語の文章であり前記脅威文章の示す前記脅威の対策を示す対策文章とを取得し、前記脅威文章と前記対策文章とのうちいずれか一方を前方に配置し他方を後方に配置して前記脅威文章と前記対策文章とを結合し、前記脅威文章と前記対策文章とが結合された結合文章を生成する結合部と、
　前記結合文章に含まれる単語の個数を計算し、計算された前記単語の個数に基づいて、前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを生成する際のパラメータであって、前記単語の前方の単語数及び後方の単語数を表すパラメータであるウインドウサイズを決定するパラメータ決定部と、
　決定された前記ウインドウサイズを用いて前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを計算し、それぞれの前記単語ベクトルを用いて前記結合文章の文章ベクトルを計算し、前記文章ベクトルとそれぞれの前記単語ベクトルとを記憶装置に格納するベクトル計算部と、
を備えるベクトル計算装置。
　前記パラメータ決定部は、
　前記結合文章の前記脅威文章に含まれる単語数と、前記結合文章の前記対策文章に含まれる単語数とを計算し、前記脅威文章に含まれる単語数と、前記対策文章に含まれる単語数との比に基づいて、前記ウインドウサイズを決定する請求項１に記載のベクトル計算装置。
　前記ベクトル計算装置は、さらに、
前記脅威文章と前記対策文章とに品詞分割を実施し、品詞分割された前記脅威文章と、品詞分割された前記対策文章とから、不要な品詞である不要品詞に該当する単語を削除する文章整理部を備え、
　前記結合部は、
　前記不要品詞に該当する前記単語が削除されている前記脅威文章と、前記不要品詞に該当する前記単語が削除されている前記対策文章とを取得し、前記不要品詞が削除されている前記脅威文章及び前記対策文章を用いて、前記結合文章を生成する請求項１または請求項２に記載のベクトル計算装置。
　請求項１に記載の前記ベクトル計算装置によって複数の前記文章ベクトルが格納されている前記記憶装置から、複数の前記文章ベクトルを取得するベクトル取得部と、
　脅威と対策とのいずれを示すかの判定対象であり自然言語の複数の文章を含む判定文章群を取得し、前記判定文章群が脅威と対策とのいずれを示すかを取得された複数の前記文章ベクトルを用いて判定し、判定結果に従って前記判定文章群を前記脅威と前記対策とのいずれかのタイプに分類する分類部と、
　を備える分類装置。
　前記分類部は、
　前記判定文章群に含まれるそれぞれの前記文章が前記脅威と前記対策とのいずれを示すかを取得された複数の前記文章ベクトルを用いて判定し、判定結果に従ってそれぞれの前記文章を前記脅威と前記対策とのいずれかのタイプに分類し、前記判定文章群と異なるタイプの前記文章を抽出する請求項４に記載の分類装置。
　コンピュータに、
　自然言語の文章であり脅威を示す脅威文章と、自然言語の文章であり前記脅威文章の示す前記脅威の対策を示す対策文章とを取得し、前記脅威文章と前記対策文章とのうちいずれか一方を前方に配置し他方を後方に配置して前記脅威文章と前記対策文章とを結合し、前記脅威文章と前記対策文章とが結合された結合文章を生成する結合処理と、
　前記結合文章に含まれる単語の個数を計算し、計算された前記単語の個数に基づいて、前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを生成する際のパラメータであって、前記単語の前方の単語数及び後方の単語数を表すパラメータであるウインドウサイズを決定するパラメータ決定処理と、
　決定された前記ウインドウサイズを用いて前記結合文章に含まれるそれぞれの前記単語の単語ベクトルを計算し、それぞれの前記単語ベクトルを用いて前記結合文章の文章ベクトルを計算し、前記文章ベクトルとそれぞれの前記単語ベクトルとを記憶装置に格納するベクトル計算処理と、
を実行させる出力プログラム。