WO2011048672A1

WO2011048672A1 - データ処理装置及びデータ処理方法及びプログラム

Info

Publication number: WO2011048672A1
Application number: PCT/JP2009/068114
Authority: WO
Inventors: 秀哉柴田; 守加藤; 光則郡
Original assignee: 三菱電機株式会社
Priority date: 2009-10-21
Filing date: 2009-10-21
Publication date: 2011-04-28
Also published as: JPWO2011048672A1; JP5220200B2

Abstract

　分類部１２０が分類ルールに従ってメールを複数のカテゴリのうちのいずれかに分類し、学習サンプル用メール抽出部１４０が学習サンプル抽出条件１７０に従ってメールを複数のカテゴリのうちのいずれかに再分類し、学習サンプル用メール抽出部１４０は、分類部１２０により分類されたカテゴリと学習サンプル抽出条件１７０に従った再分類のカテゴリが一致するメールのみ学習サンプル用メールとして抽出し、学習部１５０が学習サンプル用メール抽出部１４０により抽出された学習サンプル用メールを用いた機械学習を行って、分類ルールを更新する。

Description

データ処理装置及びデータ処理方法及びプログラム

　本発明は、データを複数のカテゴリのいずれかに分類する技術に関する。

　データを複数のカテゴリへ自動的に分類するための方式の１つとして、機械学習による自動分類が良く用いられる。
　以下では、文書データ（以下、単に文書という）を例として機械学習による自動分類技術を説明する。

　機械学習を用いた文書自動分類方式では、予め複数の分類カテゴリに分けられた学習サンプル文書を用いて、カテゴリごとの特徴を学習し、その学習結果に基づいて分類対象文書の分類を行う。
　したがって、機械学習による文書分類の精度は学習サンプル文書に依存する。
　特許文献１においては、学習サンプル文書を実験的に分類し、分類間違いの文書を選別して除去し、分類ルールを改善することで、分類精度を高めるための技術が開示されている。

特開２００２－２０２９８４号公報

　しかしながら、特許文献１のような方法では、正しく分類された学習サンプル文書を大量に集めるには人手の手間がかかるという課題がある。
　また、分類間違いの文書を除去するにも人手の手間がかかるという課題がある。

　この発明は、上記のような課題を解決することを主な目的の一つとしており、人手による手間をかけることなく正確な分類を可能にするサンプルデータを収集し、分類精度を高めることができるデータ分類技術を提供することを主な目的とする。

　本発明に係るデータ処理装置は、
　データを複数カテゴリのうちのいずれかのカテゴリに分類する分類部と、
　前記分類部によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を記憶する再分類基準情報記憶部と、
　前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出部とを有することを特徴とする。

　本発明によれば、分類部により分類されたカテゴリと再分類基準情報に基づいて再分類されたカテゴリとが一致するデータのみをサンプルデータとして抽出するので、人手をかけることなく正確な分類を可能にするサンプルデータを収集することができ、分類精度を高めることができる。

実施の形態１に係るシステム構成例を示す図。実施の形態１に係るメールアーカイブ装置の構成例を示す図。実施の形態１に係るメール分類装置の動作例を示すフローチャート図。実施の形態１に係る学習サンプル用メール抽出部の動作例を示すフローチャート図。実施の形態１に係るメールアーカイブ装置の運用方法を示すフローチャート図。実施の形態１に係る分類ルールの再生成動作の例を示すフローチャート図。実施の形態１に係る学習サンプル抽出条件の例を示す図。実施の形態１に係る学習サンプル抽出条件を用いた照合動作の例を示すフローチャート図。実施の形態１に係るメール分類装置の動作の概要を示すフローチャート図。実施の形態１に係るメール分類装置のハードウェア構成例を示す図。

　以下の説明では、メールアーカイブシステムにおいて電子メール（以下、単にメールという）を分類する例にして説明するが、この発明に係るデータ処理技術は、メールアーカイブシステムにおけるメール分類に限定されるものではなく、例えば、周期的に分類対象文書が入力されるような文書アーカイブシステムやＷｅｂアーカイブシステムにも同様に適用することができる。

　実施の形態１．
　図１は、本実施の形態に係るメールアーカイブシステムの構成例を示す。
　図１では、それぞれユーザ端末とメールサーバが含まれる３つの組織が示されている。
　各組織には、各組織の識別子であるドメインが設定されている。
　各組織に含まれるユーザ端末には、所属する組織のドメインが含まれるメールアドレスが設定されている。
　また、メールサーバは、メールを受信するとともに、受信したメールの宛先アドレスに含まれているドメインを解析して、受信したメールの転送先を判断する。

　図１においては、便宜上、メールのドメインが対象組織ドメイン、２つの対象組織外ドメインにより構成されるが、図１のドメイン構成に限定される必要はなく、任意のドメイン構成を用いることが可能である。

　対象組織ドメインは、本実施の形態のメールアーカイブシステムが導入される組織３０１に固有のドメインである。
　なお、以下では、便宜的に、対象組織ドメイン３０１と表記する場合もある。
　組織３０１としては、例えば、企業や、官庁、役所等の公的機関、その他団体、あるいは、その内部組織（事業所、支所など）など、固有のドメインを持つ組織が当てはまる。
　また、２つの対象組織外ドメインは、共に組織３０１ではない組織３０２及び組織３０３の固有ドメインであり、互いに異なるドメインである。
　なお、以下では、便宜的に、対象組織外ドメイン３０２及び対象組織外ドメイン３０３と表記する場合もある。

　図１の構成において、組織３０１には、メールサーバ３１１、ユーザ端末３２１が含まれる。
　組織３０２には、メールサーバ３１２、ユーザ端末３２２が含まれる。
　組織３０３には、メールサーバ３１３、ユーザ端末３２３が含まれる。
　各組織のメールサーバ３１１、３１２、３１３は、ネットワーク３３０を通じて接続される。
　ユーザ端末３２１、３２２、３２３は、メールサーバ３１１、３１２、３１３およびネットワーク３３０を通じてメールを送受信することができる。
　なお、ユーザ端末数やメールサーバの構成については、図１の構成に限らず、任意のユーザ端末数、任意の構成のメールサーバを適用可能である。

　図１の構成において、メールサーバ３１１は、メールアーカイブ装置２００に接続されている。
　メールアーカイブ装置２００には、メール分類装置１００が含まれる。
　メール分類装置１００は、データ処理装置の例である。

　図２は、本実施の形態に係るメールアーカイブ装置２００の構成例を示す。

　メールアーカイブ装置２００は、メール蓄積用データベース２１０、およびメール分類装置１００を備える。
　メールアーカイブ装置２００は、メールサーバ３１１を通過しようとする新規入力メール２０１を複製し、メール蓄積用データベース２１０に蓄積する。
　メールの複製は、メールサーバ３１１で行われてもよい。
　メール分類装置１００は、メール蓄積用データベース２１０に蓄積されたメールを複数の分類カテゴリに分類する。
　分類結果は、分類結果蓄積用データベース１３０に蓄積される。
　なお、メール蓄積用データベース２１０に蓄積されたメールには、メールを一意に識別可能とするためのメールＩＤが付与されており、このメールＩＤによりメール蓄積用データベース２１０に蓄積されたメールと分類結果蓄積用データベース１３０に蓄積されたメール分類結果とが対応付けられる。
　システム管理者は、メール蓄積用データベース２１０、および分類結果蓄積用データベース１３０に問い合わせを行うことで、メールの分類結果の参照、および分類結果をキーとしたメール検索が可能である。
　メール分類装置１００をシステム管理者により設定された周期毎に起動し、起動周期の間にメール蓄積用データベース２１０に蓄積されたメールを分類対象とすることで、継続的に入力されるメール全てに対して分類処理を行うような運用が可能である。

　メール分類装置１００は、分類対象メール抽出部１１０、分類部１２０、分類結果蓄積用データベース１３０、学習サンプル用メール抽出部１４０、学習部１５０、分類ルール記憶部１６０および学習サンプル抽出条件１７０を記憶している学習サンプル抽出条件記憶部１８０から構成される。
　メールを分類する分類カテゴリ数に特別な制限はなく、２以上の任意の自然数が設定可能である。
　なお、学習サンプル抽出条件１７０は、システムの管理者等により設定される。

　分類対象メール抽出部１１０は、メール蓄積用データベース２１０への問い合わせ文をメール蓄積用データベース２１０に発行し、問い合わせ文に対応するメールをメール蓄積用データベース２１０から分類対象メールとして抽出する。
　分類対象メール抽出部１１０は、所定の起動周期（処理周期）ごとに、分類対象メールを入力する。
　分類対象メール抽出部１１０はデータ入力部の例である。

　分類部１２０は、学習部１５０で生成された分類ルール（分類ルール記憶部１６０に記憶されている）を使用して、分類対象メール抽出部１１０により抽出された分類対象メールを複数の分類カテゴリのうちのいずれかの分類カテゴリに分類し、分類結果をメールＩＤと関連付けて、分類結果蓄積用データベース１３０に蓄積する。

　学習サンプル用メール抽出部１４０は、メール蓄積用データベース２１０に蓄積済みのメールであり、かつ分類部１２０による分類済みのメールの中から、学習部１５０で使用する学習サンプル（サンプルデータ）を抽出する。
　ある分類カテゴリの学習サンプルとして抽出されるメールは、対応する分類カテゴリの学習サンプル抽出条件１７０に合致し、かつ、分類部１２０で得られた分類結果が対応する分類カテゴリに一致するメールである。
　換言すると、学習サンプル用メール抽出部１４０は、学習サンプル抽出条件１７０に基づき、分類部１２０により分類されたメール（分類後データ）をいずれかの分類カテゴリに再分類し、再分類後のカテゴリと分類部１２０による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、当該メール（分類後データ）を学習に用いる学習サンプル（サンプルデータ）として抽出する。
　学習サンプル用メール抽出部１４０は、サンプルデータ抽出部の例である。

　なお、学習サンプル用メール抽出部１４０は、学習サンプル用メールを新たにメール蓄積用データベース２１０から取り出すのではなく、分類対象メール抽出部１１０で抽出したメールを流用することで、メール蓄積用データベース２１０からメールを抽出する時間を削減することができる。
　同様に、学習サンプル用メール抽出部１４０で使用する分類結果を分類結果蓄積用データベース１３０から取り出すのではなく、分類部１２０からの出力を直接入力することで、分類結果蓄積用データベース１３０から分類結果を抽出する時間を削減することができる。

　学習サンプル抽出条件１７０は、前述のように、分類部１２０によりいずれかの分類カテゴリに分類された後のメール（分類後データ）を学習サンプル用メール抽出部１４０がいずれかの分類カテゴリに再分類するための基準が示される情報であり、再分類基準情報の例である。
　また、学習サンプル抽出条件１７０を記憶する学習サンプル抽出条件記憶部１８０は、再分類基準情報記憶部の例である。
　学習サンプル抽出条件１７０は、分類カテゴリごとに設けられている。
　また、学習サンプル抽出条件１７０に、例えば正規表現による検索式を含ませることができる。
　正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となり、学習サンプル抽出条件１７０の柔軟性を向上させることができる。

　また、学習サンプル用メール抽出部１４０で使用する学習サンプル抽出条件１７０は、メールの属性を抽出し、照合するためのものであっても良い。
　Ｒｅｑｕｅｓｔ　Ｆｏｒ　Ｃｏｍｍｅｎｔｓ（ＲＦＣ）２８２２にて定義されるヘッダフィールドやＲＦＣ２８２１にて定義されるエンベロープ、あるいは、メールサーバシステム毎に独自に定義されるヘッダフィールドなどを用いる。
　ヘッダフィールドの例としては、Ｆｒｏｍ、Ｔｏ、Ｃｃ（送信者、受信者、同報受信者アドレス）や、Ｓｕｂｊｅｃｔ（件名）、Ｄａｔｅ（送信日時）、Ｒｅｃｅｉｖｅｄ（受信日時）などがある。

　また、学習サンプル用メール抽出部１４０で使用する学習サンプル抽出条件１７０は、メールの添付ファイルのファイル名や添付ファイル内のテキストを抽出して照合を行うためのものであってもよい。
　ＲＦＣ２０４５－２０４９で定義されているＭｕｌｔｉｐｕｒｐｏｓｅ　Ｉｎｔｅｒｎｅｔ　Ｍａｉｌ　Ｅｘｔｅｎｓｉｏｎ（ＭＩＭＥ）の形式などによってエンコードされている添付ファイルの場合、ＭＩＭＥヘッダから添付ファイル名を抽出することが可能であり、また、ボディをデコードして添付ファイルを抽出し、その添付ファイルからテキストを抽出することが可能である。

　学習部１５０は、学習サンプル用メール抽出部１４０によりカテゴリ毎に抽出されたメールをそれぞれのカテゴリの学習サンプルデータとして入力し、分類部１２０にて分類に使用する分類ルールを生成する。

　分類部１２０および学習部１５０では、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。
　また、複数の機械学習を用いた文書分類方法を用いることもできる。

　分類ルール記憶部１６０は、学習部１５０により生成された分類ルールを記憶する。

　分類結果蓄積用データベース１３０には、分類結果以外の属性情報を蓄積することもできる。
　例えば、分類部１２０は、使用している分類アルゴリズムが分類の確からしさ（分類対象メールが正しいカテゴリに分類されている確度）を表すスコア（確度情報）を生成することができる。
　そして、分類部１２０がスコアを生成する場合、使用している分類アルゴリズム毎にこのスコアを蓄積することで、システム管理者が分類結果を参照するときに活用することができる。
　また、学習サンプル用メール抽出部１４０における学習サンプル抽出条件１７０の照合結果を分類結果蓄積用データベース１３０に蓄積することもできる。
　これにより、分類ルールを再生成したいときなどに、再度、学習サンプル抽出条件１７０による照合を行うことなく、学習サンプル用メールの抽出が可能となる。

　次に、本実施の形態に係るメール分類装置１００の動作の概要を図９を用いて説明する。
　なお、ここでは、メールを機密メールのカテゴリ（以下、機密カテゴリという）と非機密メールのカテゴリ（以下、非機密カテゴリという）に分類する例を用いて説明する。
　本例では、メールの本文に「秘密」という語が含まれていれば機密カテゴリに分類し、「秘密」という語が含まれていなければ非機密カテゴリに分類するという分類ルールが用いられるものとする。
　また、メールのヘッダに含まれているアドレスフィールドに対象組織ドメイン３０１のメールアドレスのみが含まれている場合はメールを機密カテゴリに再分類し、対象組織外ドメイン３０２又は対象組織外ドメイン３０３のメールアドレスが含まれている場合はメールを非機密カテゴリに再分類するという学習サンプル抽出条件１７０が用いられるものとする。

　図９において、まず、分類対象メール抽出部１１０が、処理周期ごとに、メール蓄積用データベース２１０から分類対象メールを入力する（Ｓ６０１）。
　次に、分類部１２０が、分類対象メール抽出部１１０により入力された分類対象メールを分類ルールに従って、機密カテゴリ又は非機密カテゴリに分類し（Ｓ６０２）（分類処理）、分類結果をメールＩＤと対応付けて分類結果蓄積用データベース１３０に蓄積する。
　分類部１２０は、前述のように、メールの本文に「秘密」という語を含むか否かによりメールを機密カテゴリか非機密カテゴリかに分類する。
　次に、学習サンプル用メール抽出部１４０が、学習サンプル抽出条件記憶部１８０から学習サンプル抽出条件１７０を読み出す（Ｓ６０３）（読み出し処理）。
　次に、学習サンプル用メール抽出部１４０が、例えば分類部１２０から分類後のメールを入力し、学習サンプル抽出条件１７０の基準に従って分類後のメールを再分類し、再分類後のカテゴリと分類部１２０による分類後のカテゴリとを比較する（Ｓ６０４）（サンプルデータ抽出処理）。
　学習サンプル用メール抽出部１４０は、前述のように、分類後のメールのアドレスフィールドに対象組織外ドメイン３０２又は対象組織外ドメイン３０３のメールアドレスが含まれているか否かによりメールを機密カテゴリか非機密カテゴリかに再分類する。

　次に、学習サンプル用メール抽出部１４０は、再分類カテゴリと分類部１２０による分類カテゴリが一致するか否かを判断し（Ｓ６０５）（サンプルデータ抽出処理）、カテゴリが一致するメールを学習サンプルとして抽出する（Ｓ６０６）（サンプルデータ抽出処理）。
　カテゴリが一致しない場合は、Ｓ６０７に進む。

　Ｓ６０７では、学習サンプル用メール抽出部１４０は、全ての分類後のメールに対してＳ６０４からＳ６０６の処理を行ったか否かを判断し、未処理のメールがある場合はＳ６０４に処理を戻す。
　全てのメールを処理済みであれば、学習部１５０が学習サンプル用メール抽出部１４０により抽出された学習サンプル用メールを用いて分類ルールを生成（更新）する（Ｓ６０８）。

　機密メールでなくても本文に「秘密」という語を用いる場合もあり、また、逆に機密メールであってもメールの本文に「秘密」という語を用いていない場合もある。
　図９のフローチャートに示すように、本実施の形態に係るメール分類装置１００では、本文に「秘密」という語を含むため分類部１２０により機密カテゴリに分類され、また、アドレスフィールドに対象組織ドメイン３０１に属するメールアドレスのみが含まれているため学習サンプル用メール抽出部１４０により機密カテゴリに再分類されたメールを機密カテゴリの学習サンプルとして抽出する。
　また、本文に「秘密」という語を含まないため分類部１２０により非機密カテゴリに分類され、また、アドレスフィールドに対象組織ドメイン３０１以外のドメインに属するメールアドレスが含まれているため学習サンプル用メール抽出部１４０により非機密カテゴリに再分類されたメールを非機密カテゴリの学習サンプルとして抽出する。

　次に、本実施の形態に係るメール分類装置１００の動作の詳細を図３から図８を用いて説明する。

　図３に示すように、システム管理者等により予め設定された起動周期（処理周期）にあわせて、メール分類装置１００が起動される（Ｓ１０１）。
　分類対象メール抽出部１１０は、メール分類装置１００の前回起動時から今回起動時までの１周期の間にメール蓄積用データベース２１０に蓄積されたメールを分類対象メールとして抽出する（Ｓ１０２）。
　分類部１２０は、分類対象メールとして抽出されたメールを各分類カテゴリへと分類し、分類結果を分類結果蓄積用データベース１３０に蓄積する（Ｓ１０３）。
　学習サンプル用メール抽出部１４０は、分類カテゴリ毎に設定された学習サンプル抽出条件１７０と、分類部１２０による分類結果を用いて学習サンプル用メールを抽出する（Ｓ１０４）。
　学習部１５０は、分類カテゴリ別に抽出された学習サンプル用メールを学習し、分類ルールを生成、または更新する。
　以上の一連の動作を、メール分類装置１００の起動周期毎に繰り返す。

　学習サンプル用メール抽出部１４０の動作（Ｓ１０４）を図４を用いてより詳細に説明する。
　図４では分類カテゴリがカテゴリＡとカテゴリＢの２つのときの例を示しているが、カテゴリ数が３以上の場合も同様に動作する。

　まず、学習サンプル用メール抽出部１４０は、入力されたメールに対して、分類カテゴリ別の学習サンプル抽出条件１７０による照合（再分類）を実施する（Ｓ２０１）。
　照合（再分類）の結果、カテゴリＡに合致した場合（Ｓ２０２）、かつ、分類部１２０による入力メールの分類結果がカテゴリＡであった場合（Ｓ２０３）、学習サンプル用メール抽出部１４０は、入力メールをカテゴリＡの学習サンプルとして抽出する（Ｓ２０４）。
　一方、照合（再分類）の結果、カテゴリＢに合致した場合（Ｓ２０２）、かつ、分類部１２０による入力メールの分類結果がカテゴリＢであった場合（Ｓ２０５）、学習サンプル用メール抽出部１４０は、入力メールをカテゴリＢの学習サンプルとして抽出する（Ｓ２０６）。
　その他の場合、入力メールを学習サンプルとして抽出せずに終了する。

　さらに、入力メールに分類結果の他に、分類部１２０にて使用している分類アルゴリズムが出力する分類の確からしさを表すスコア情報（確度情報）が対応付けられている場合、図４のＳ２０４、および、Ｓ２０６において、スコアがある閾値以上であるメールを、対応するアルゴリズムの学習サンプルとして抽出しないようにすることができる。
　つまり、スコア情報に示されているスコア（確度）が一定レベル未満であれば入力メールを学習サンプルとして抽出し、スコア情報に示されているスコア（確度）が一定レベル以上であれば入力メールを学習サンプルとして抽出しないようにし、既に高確率で正しい判定が可能なサンプルを学習しないようにすることで、学習時間の短縮が可能となる。

　次に、実施の形態１におけるメールアーカイブ装置２００の運用方法を図５を用いて説明する。

　メールアーカイブ装置２００を導入した直後は、初期学習運用を行う（Ｓ３０１）。
　導入直後は分類ルールが生成されていない、あるいは、生成されていても学習量が十分でないため、分類部１２０において分類ルールを用いた分類アルゴリズムを使用しても、高精度の分類は行えない。
　従って、初期学習運用時は分類ルールを用いた分類アルゴリズムを分類部１２０で使用せず、分類ルールを用いない文字列照合などの代替手段で分類を実施する。
　学習サンプル用メール抽出部１４０による学習サンプルの抽出及び分類ルールの更新は通常通り行う。
　初期学習運用（Ｓ３０１）により学習量が十分な量になった場合（Ｓ３０２）、本運用（Ｓ３０３）に移行する。
　本運用は、分類部１２０において分類ルールを用いた分類アルゴリズムを使用する通常の運用である。本運用においても、学習サンプル用メール抽出部１４０による学習サンプルの抽出及び分類ルールの更新が行われる。
　また、例えば、運用時間がある程度経過し、分類ルールが古くなった場合（Ｓ３０４）に、古い分類ルールを破棄し、新たに分類ルールを再生成することができる（Ｓ３０５）。

　初期学習運用（Ｓ３０１）の実施期間の長さは、システム管理者等が予め設定する。
　設定に際しては、初期学習運用の実運用時間、あるいは、分類処理メールの総件数により設定できる。
　例えば、メールアーカイブ装置２００導入後１週間を初期学習運用の期間として割り当てる、あるいは、メールアーカイブ装置２００導入からはじめの１００万件のメールについては初期学習運用とするなどである。

　次に、分類ルール再生成の動作（Ｓ３０５）を図６を用いてより詳細に説明する。
　この分類ルール再生成の動作（Ｓ３０５）は、本運用（Ｓ３０３、図３のＳ１０１－Ｓ１０５）とは別ルーティンにて、新たに分類ルールを再生成する動作である。

　まず、分類対象メール抽出部１１０が、メール蓄積用データベース２１０に問い合わせ文を発行し、学習サンプル用メールの候補となるメールを抽出する（Ｓ４０１）。学習サンプル用メールの候補は、直近のメールから新しい順に適当な件数のメール、あるいは、メールの送受信日時により範囲指定された範囲のメール、のように決定することができる。
　Ｓ４０１により抽出されたメールを分類部１２０が分類ルールに従って分類するとともに、図４と同様の手順で学習サンプル用メール抽出部１４０が学習サンプルを抽出し（Ｓ４０２）、学習部１５０が学習サンプルを用いて学習を実施し、分類ルールを再生成する（Ｓ４０３）。

　分類結果蓄積用データベース１３０に、学習サンプル抽出条件１７０の照合結果が既に蓄積されている場合は、学習サンプルを抽出する手順（Ｓ４０２）を省略し、メール蓄積用データベース２１０から直接学習サンプル用のメールを抽出することができる。

　以上で述べたように、実施の形態１においては、メールアーカイブ装置２００に入力されたメール２０１に対して、まず分類処理を実施し、続いて、予め設定された学習サンプル抽出条件１７０による照合（再分類）結果と分類結果とが一致するもののみを学習サンプルとして抽出することにより、人手による学習サンプル作成の手間がかからず、かつ、誤って別カテゴリの内容が記述されたようなメールを学習サンプルから除外することができ、結果として、分類精度を高めるメール分類装置を提供できる。

　次にメール中の機密情報を検出して分類を行う場合の学習サンプル抽出条件の設定例を図７を用いて説明する。

　図７は、本実施の形態に係る学習サンプル抽出条件１７０の一例を示しており、分類カテゴリ数は機密カテゴリと非機密カテゴリの２つであり、機密カテゴリに属するメールは、対象組織ドメイン３０１内でのみやりとりされるメール、非機密カテゴリに属するメールは対象組織外ドメインとやりとりされるメールと定める。
　機密カテゴリと非機密カテゴリの学習サンプル抽出条件１７０は、Ｓ１とＳ２の２つの検索式からなり、正規表現として記述される。
　検索式Ｓ１は電子メールのヘッダフィールドであるＦｒｏｍ、Ｔｏ、およびＣｃに記載されたメールアドレスのうち、対象組織ドメイン３０１を持つメールアドレスの件数を数え上げる検索式である。
　検索式Ｓ２は電子メールのヘッダフィールドであるＦｒｏｍ、Ｔｏ、およびＣｃに記載されたメールアドレスの全件数を数え上げる検索式である。

　この学習サンプル抽出条件を用いた照合方法を図８を用いて説明する。

　学習サンプル用メール抽出部１４０では、入力メールに対して、検索式Ｓ１による照合（Ｓ５０１）と検索式Ｓ２による照合（Ｓ５０２）を行い、両者で得られたメールアドレス件数を比較する（Ｓ５０３）。
　両者の件数が一致したときは、Ｆｒｏｍ、Ｔｏ、およびＣｃに記載されたメールアドレスは全て対象組織ドメインであるので、学習サンプル用メール抽出部１４０は、入力メールが機密カテゴリの学習サンプル抽出条件に合致したと判定し（Ｓ５０４）、当該入力メールを機密カテゴリに再分類する。
　一方、両者の件数が一致しないときは、Ｆｒｏｍ、Ｔｏ、およびＣｃに記載されたメールアドレスの中に対象組織外ドメインが含まれるため、学習サンプル用メール抽出部１４０は、入力メールが非機密カテゴリの学習サンプル抽出条件に合致したと判定し（Ｓ５０５）、当該入力メールを非機密カテゴリに再分類する。

　検索式Ｓ１において、対象組織ドメインは１つである必要はなく、２つ以上のドメインを指定できる。
　この場合、機密カテゴリに属するメールは、検索式Ｓ１で指定されたドメイン内のみでやり取りされたメールとなる。
　同様に、非機密カテゴリに属するメールは、検索式Ｓ１で指定されていないドメインとやりとりされるメールとなる。

　また、検索式Ｓ１、Ｓ２で使用するヘッダフィールドＦｒｏｍ、Ｔｏ、およびＣｃの組合せは、自由に変更可能である。
　例えば、メールのＢｃｃ（Ｂｌｉｎｄ　Ｃａｒｂｏｎ　Ｃｏｐｙ）を考慮して変更することも可能である。
　メールサーバによりＢｃｃに対応する独自のヘッダフィールドＸ－Ｅｎｖ－Ｒｅｃｉｐｉｅｎｔが定義されている場合、Ｆｒｏｍ、Ｔｏ、Ｃｃ、およびＸ－Ｅｎｖ－Ｒｅｃｉｐｉｅｎｔと記述することにより、Ｂｃｃにより対象組織外ドメインへメールを送信した場合も、このメールは、対象組織外にメールを送信したと見なされ、非機密カテゴリの学習サンプル抽出条件に合致したと判定される。
　あるいは、Ｃｃを考慮せず、Ｆｒｏｍ、Ｔｏのみを記述しても良い。
　この場合、Ｃｃにより対象組織外ドメインへメールを送信しても、このメールは対象組織外にメールを送信したとは見なされず、機密カテゴリの学習サンプル抽出条件に合致したと判定される。

　以上のようにすることで、機密カテゴリと非機密カテゴリの学習サンプルが正しく抽出される。
　なお、検索式Ｓ１とＳ２を用いた学習サンプル抽出条件のみを用いた場合、メールが対象組織外に送信されたか否かのみの情報しか得ることが出来ず、例えば、機密情報を含むメールを組織外に誤送信した場合、当該メールを誤って非機密カテゴリの学習サンプルとして学習してしまう。
　しかしながら、本実施の形態では、過去の分類結果を考慮して学習サンプル抽出を行うため、上記のようなメールは学習サンプルとして使用されない。つまり、本例のメールは、分類ルールによれば機密カテゴリに分類され、検索式Ｓ１、Ｓ２に基づく判断では非機密カテゴリに再分類されるので、カテゴリが一致せず学習サンプルとして抽出されない。
　従って、本実施の形態では、上記のような問題を避けることができる。

　このように、本実施の形態によれば、分類ルールに従って分類されたカテゴリと学習サンプル抽出条件に従って分類されたカテゴリとが一致するメールのみを抽出して学習サンプルとするので、人手による学習サンプル作成の手間がかからず、かつ、誤って別カテゴリの内容が記述されたようなメールを学習サンプルから除外することができ、結果として、分類精度を高めるメール分類装置を提供できる。

　以上、本実施の形態では、
　入力された文書を複数の分類カテゴリのいずれかに分類する文書分類装置であって、
　複数のサンプル文書を入力する手段と、
　予め選んでおいた任意の自動文書分類装置により、入力された文書をいずれかの分類カテゴリに事前分類する手段と、
　予め分類カテゴリ毎に設定されたサンプル文書抽出条件により、サンプル文書抽出条件に対応する分類カテゴリに事前分類された文書からサンプル文書抽出条件に合致する文書をサンプル文書として抽出する手段と、
　分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも１つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する手段と、
　１つ以上の分類対象文書を入力する手段と、
　生成または更新された分類ルールを用いて、入力された分類対象文書を複数の分類カテゴリのいずれかに分類する手段と、
　分類対象文書の分類結果を出力する手段とを有する文書分類装置を説明した。

　また、本実施の形態では、
　周期的に分類対象文書が入力される文書分類装置であって、
　分類対象文書の入力周期に合わせて分類対象文書の分類を行い、
　前記サンプル文書抽出条件により、カテゴリ毎に分類された分類対象文書からサンプル文書抽出条件に合致するサンプル文書を抽出し、
　抽出されたサンプル文書を用いた機械学習により生成または更新される分類ルールを用いて、次周期に入力される分類対象文書の分類を実施する文書分類装置を説明した。

　また、本実施の形態では、
　システム運用の初期段階では、前記分類ルールを用いるアルゴリズムによる分類は行わず、前記分類ルールを使用しない文字列照合などの手段で分類対象文書を分類する、初期学習運用期間を有し、
　ある一定の初期学習運用期間を経過した後に、本運用期間として、前記分類ルールを用いるアルゴリズムによる分類を実施する文書分類装置を説明した。

　また、本実施の形態では、前記初期学習運用期間の長さを、分類した分類対象文書件数により決定する文書分類装置を説明した。

　また、本実施の形態では、前記初期学習運用期間の長さを、システムの運用時間により決定する文書分類装置を説明した。

　また、本実施の形態では、
　前記分類結果には、前記分類ルールを用いるアルゴリズム毎に分類の確からしさを表す分類スコアが付与されており、
　分類済みの前記分類対象文書が、分類カテゴリに設定された前記サンプル文書抽出条件に合致し、かつ、あるアルゴリズムによる分類スコアが予め定められた閾値以上である場合、そのアルゴリズムに対応する機械学習を実施しない文書分類装置を説明した。

　また、本実施の形態では、
　前記分類結果と対応する文書情報を格納するためのデータベースを有し、
　データベースに対して問い合わせ文を発行することで、分類カテゴリ毎に分類された分類済み文書を取り出す機能を有し、
　取り出した分類済み文書から、前記サンプル文書抽出条件によるサンプル文書の抽出を実施し、
　分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも１つのアルゴリズムによる機械学習を行うことにより、分類ルールを再生成する文書分類装置を説明した。

　また、本実施の形態では、
　前記分類対象文書と対応する文書情報を格納するためのデータベースを有し、
　データベースに対して問い合わせ文を発行することで、分類対象文書を取り出す機能を有し、
　分類対象文書として取り出した文書を用いて、前記サンプル文書抽出条件によるサンプル文書の抽出と、前記機械学習とを実施する文書分類装置を説明した。

　また、本実施の形態では、
　前記分類対象文書が電子メールであって、
　前記複数の分類カテゴリに機密カテゴリと非機密カテゴリが含まれ、
　機密カテゴリに対応付けられた前記サンプル文書抽出条件が、送信者または受信者メールアドレスが全て特定のドメインを持つメールを抽出する条件であり、
　非機密カテゴリに対応付けられた前記サンプル文書抽出条件が、送信者または受信者メールアドレスの中で特定のドメインを持たないメールアドレスを１件以上含むメールを抽出する条件である文書分類装置を説明した。

　また、本実施の形態では、
　正規表現で記述された、検索式１、検索式２の２つの検索式からなる検索条件があって、
　検索式１は、電子メールの特定のヘッダフィールドに記載されたメールアドレスのうち、特定のドメインを持つメールアドレスの件数を数え上げるものであり、
　検索式２は、電子メールの前記特定のヘッダフィールドに記載されたメールアドレスの全件数を数え上げるものであり、
　機密カテゴリに対応付けられた前記サンプル文書抽出条件が、検索式１により得られる件数と検索式２により得られる件数を比較し、両者が等しいメールを抽出する条件であり、
　非機密カテゴリに対応付けられた前記サンプル文書抽出条件が、検索式１により得られる件数と検索式２により得られる件数を比較し、両者が異なるメールを抽出する条件である文書分類装置を説明した。

　また、本実施の形態では、
　複数の文書を入力するステップと、
　予め選んでおいた任意の自動文書分類装置により、入力された文書をいずれかの分類カテゴリに事前分類するステップと、
　予め分類カテゴリ毎に設定されたサンプル文書抽出条件により、文書抽出条件に対応する分類カテゴリに事前分類された文書からサンプル文書抽出条件に合致する文書を産プリ文書として抽出するステップと、
　分類カテゴリ毎に抽出されたサンプル文書を用いて少なくとも１つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新するステップと、
　１つ以上の分類対象文書を入力するステップと、
　生成または更新された分類ルールを用いて、入力された分類対象文書を複数の分類カテゴリのいずれかに分類するステップと、
　分類対象文書の分類結果を出力するステップとを有する文書分類方法を説明した。

　最後に、実施の形態１に示したメール分類装置１００のハードウェア構成例について説明する。
　図１０は、実施の形態１に示すメール分類装置１００のハードウェア資源の一例を示す図である。
　なお、図１０の構成は、あくまでもメール分類装置１００のハードウェア構成の一例を示すものであり、メール分類装置１００のハードウェア構成は図１０に記載の構成に限らず、他の構成であってもよい。

　図１０において、メール分類装置１００は、プログラムを実行するＣＰＵ９１１（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ、中央処理装置、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、プロセッサともいう）を備えている。
　ＣＰＵ９１１は、バス９１２を介して、例えば、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）９１３、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）９１４、通信ボード９１５、表示装置９０１、キーボード９０２、マウス９０３、磁気ディスク装置９２０と接続され、これらのハードウェアデバイスを制御する。
　更に、ＣＰＵ９１１は、ＦＤＤ９０４（Ｆｌｅｘｉｂｌｅ　Ｄｉｓｋ　Ｄｒｉｖｅ）、コンパクトディスク装置９０５（ＣＤＤ）、プリンタ装置９０６、スキャナ装置９０７と接続していてもよい。また、磁気ディスク装置９２０の代わりに、光ディスク装置、メモリカード（登録商標）読み書き装置などの記憶装置でもよい。
　ＲＡＭ９１４は、揮発性メモリの一例である。ＲＯＭ９１３、ＦＤＤ９０４、ＣＤＤ９０５、磁気ディスク装置９２０の記憶媒体は、不揮発性メモリの一例である。これらは、記憶装置の一例である。
　実施の形態１で説明した「分類結果蓄積用データベース１３０」、「分類ルール記憶部１６０」、「学習サンプル抽出条件記憶部１８０」は、ＲＡＭ９１４、磁気ディスク装置９２０等により実現される。
　通信ボード９１５、キーボード９０２、マウス９０３、スキャナ装置９０７、ＦＤＤ９０４などは、入力装置の一例である。
　また、通信ボード９１５、表示装置９０１、プリンタ装置９０６などは、出力装置の一例である。

　通信ボード９１５は、図１に示すように、メールサーバに接続されている。また、通信ボード９１５は、例えば、ＬＡＮ（ローカルエリアネットワーク）、インターネット、ＷＡＮ（ワイドエリアネットワーク）、ＳＡＮ（ストレージエリアネットワーク）などに接続されていても構わない。

　磁気ディスク装置９２０には、オペレーティングシステム９２１（ＯＳ）、ウィンドウシステム９２２、プログラム群９２３、ファイル群９２４が記憶されている。
　プログラム群９２３のプログラムは、ＣＰＵ９１１がオペレーティングシステム９２１、ウィンドウシステム９２２を利用しながら実行する。

　また、ＲＡＭ９１４には、ＣＰＵ９１１に実行させるオペレーティングシステム９２１のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。
　また、ＲＡＭ９１４には、ＣＰＵ９１１による処理に必要な各種データが格納される。

　また、ＲＯＭ９１３には、ＢＩＯＳ（Ｂａｓｉｃ　Ｉｎｐｕｔ　Ｏｕｔｐｕｔ　Ｓｙｓｔｅｍ）プログラムが格納され、磁気ディスク装置９２０にはブートプログラムが格納されている。
　メール分類装置１００の起動時には、ＲＯＭ９１３のＢＩＯＳプログラム及び磁気ディスク装置９２０のブートプログラムが実行され、ＢＩＯＳプログラム及びブートプログラムによりオペレーティングシステム９２１が起動される。

　上記プログラム群９２３には、実施の形態１の説明において「～部」（「分類ルール記憶部１６０」、「学習サンプル抽出条件記憶部１８０」以外、以下も同様）として説明している機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ９１１により読み出され実行される。

　ファイル群９２４には、実施の形態１の説明において、「～の分類」、「～の再分類」、「～の照合」、「～の抽出」、「～の判断」、「～の比較」、「～の生成」、「～の更新」、「～の設定」、「～の登録」、「～の学習」、「～の選択」等として説明している処理の結果を示す情報やデータや信号値や変数値やパラメータが、「～ファイル」や「～データベース」の各項目として記憶されている。
　「～ファイル」や「～データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ９１１によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示などのＣＰＵの動作に用いられる。
　抽出・検索・参照・比較・演算・計算・処理・編集・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリ、レジスタ、キャッシュメモリ、バッファメモリ等に一時的に記憶される。
　また、実施の形態１で説明しているフローチャートの矢印の部分は主としてデータや信号の入出力を示し、データや信号値は、ＲＡＭ９１４のメモリ、ＦＤＤ９０４のフレキシブルディスク、ＣＤＤ９０５のコンパクトディスク、磁気ディスク装置９２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ等の記録媒体に記録される。また、データや信号は、バス９１２や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

　また、実施の形態１の説明において「～部」として説明しているものは、「～回路」、「～装置」、「～機器」であってもよく、また、「～ステップ」、「～手順」、「～処理」であってもよい。
　すなわち、実施の形態１で説明したフローチャートに示すステップ、手順、処理により、本発明に係るデータ処理方法を実現することができる。
　また、「～部」として説明しているものは、ＲＯＭ９１３に記憶されたファームウェアで実現されていても構わない。或いは、ソフトウェアのみ、或いは、素子・デバイス・基板・配線などのハードウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ９１１により読み出され、ＣＰＵ９１１により実行される。すなわち、プログラムは、実施の形態１の「～部」としてコンピュータを機能させるものである。あるいは、実施の形態１の「～部」の手順や方法をコンピュータに実行させるものである。

　このように、実施の形態１に示すメール分類装置１００は、処理装置たるＣＰＵ、記憶装置たるメモリ、磁気ディスク等、入力装置たるキーボード、マウス、通信ボード等、出力装置たる表示装置、通信ボード等を備えるコンピュータであり、上記したように「～部」として示された機能をこれら処理装置、記憶装置、入力装置、出力装置を用いて実現するものである。

　１００　メール分類装置、１１０　分類対象メール抽出部、１２０　分類部、１３０　分類結果蓄積用データベース、１４０　学習サンプル用メール抽出部、１５０　学習部、１６０　分類ルール記憶部、１７０　学習サンプル抽出条件、１８０　学習サンプル抽出条件記憶部、２００　メールアーカイブ装置、２０１　新規入力メール、２１０　メール蓄積用データベース、３０１　組織、３０２　組織、３０３　組織、３１１　メールサーバ、３１２　メールサーバ、３１３　メールサーバ、３２１　ユーザ端末、３２２　ユーザ端末、３２３　ユーザ端末、３３０　ネットワーク。

Claims

　データを複数カテゴリのうちのいずれかのカテゴリに分類する分類部と、
　前記分類部によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を記憶する再分類基準情報記憶部と、
　前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出部とを有することを特徴とするデータ処理装置。
　前記分類部は、
　データをいずれかのカテゴリに分類するとともに、前記データが正しいカテゴリに分類されている確度を示す確度情報を生成し、
　前記サンプルデータ抽出部は、
　再分類後のカテゴリと前記分類部による分類後のカテゴリとが一致する場合に、前記分類後データの確度情報に示されている確度が一定レベル未満である場合に前記分類後データをサンプルデータとして抽出し、前記分類後データの確度情報に示されている確度が一定レベル以上である場合に前記分類後データをサンプルデータとして抽出しないことを特徴とする請求項１に記載のデータ処理装置。
　前記データ処理装置は、更に、
　前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部がデータを分類する際に用いる分類ルールを生成する学習部を有することを特徴とする請求項１に記載のデータ処理装置。
　前記データ処理装置は、更に、
　所定の処理周期ごとに、データを入力するデータ入力部を有し、
　前記分類部は、
　前記処理周期ごとに、分類ルールに従って、前記データ入力部により入力されたデータをいずれかのカテゴリに分類し、
　前記サンプルデータ抽出部は、
　前記処理周期ごとに、サンプルデータを抽出し、
　前記学習部は、
　前記処理周期ごとに、前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部が次の処理周期で用いる分類ルールを生成することを特徴とする請求項３に記載のデータ処理装置。
　前記データ入力部は、
　前記処理周期ではないタイミングで、データを入力し、
　前記分類部は、
　前記処理周期ではないタイミングで、分類ルールに従って、前記データ入力部により入力されたデータをいずれかのカテゴリに分類し、
　前記サンプルデータ抽出部は、
　前記処理周期ではないタイミングで、サンプルデータを抽出し、
　前記学習部は、
　前記処理周期ではないタイミングで、前記サンプルデータ抽出部により抽出されたサンプルデータを用いた学習を行って、前記分類部が以後用いる分類ルールを生成することを特徴とする請求項４に記載のデータ処理装置。
　前記再分類基準情報記憶部は、
　前記分類ルールと異なる基準が示される再分類基準情報を記憶していることを特徴とする請求項３に記載のデータ処理装置。
　前記分類部は、
　稼働開始から所定時間が経過するまでは分類ルールを用いずにデータを分類し、前記所定時間が経過した後に分類ルールを用いてデータを分類することを特徴とする請求項３に記載のデータ処理装置。
　前記分類部は、
　分類したデータの総数が所定数に達するまでは分類ルールを用いずにデータを分類し、分類したデータの総数が前記所定数に達した後に分類ルールを用いてデータを分類することを特徴とする請求項３に記載のデータ処理装置。
　前記分類部は、
　電子メールを前記複数のカテゴリのうちのいずれかのカテゴリに分類し、
　前記再分類基準情報記憶部は、
　再分類のための基準として、電子メールのヘッダフィールドに含まれる要素に関する基準が示される再分類基準情報を記憶し、
　前記サンプルデータ抽出部は、
　前記再分類基準情報に基づき、前記分類部により分類された後の電子メールのヘッダフィールドに含まれる要素を解析して前記分類部により分類された後の電子メールをいずれかのカテゴリに再分類することを特徴とする請求項１に記載のデータ処理装置。
　前記分類部は、
　電子メールを前記複数のカテゴリのうちのいずれかのカテゴリに分類し、
　前記再分類基準情報記憶部は、
　再分類のための基準として、電子メールの添付ファイルに関する基準が示される再分類基準情報を記憶し、
　前記サンプルデータ抽出部は、
　前記再分類基準情報に基づき、前記分類部により分類された後の電子メールの添付ファイルを解析して前記分類部により分類された後の電子メールをいずれかのカテゴリに再分類することを特徴とする請求項１に記載のデータ処理装置。
　前記分類部は、
　電子メールを機密カテゴリ及び非機密カテゴリのいずれかに分類し、
　前記再分類基準情報記憶部は、
　再分類のための基準として、電子メールのヘッダフィールドに含まれているアドレスのドメインに関する基準が示される再分類基準情報を記憶し、
　前記サンプルデータ抽出部は、
　前記再分類基準情報に基づき、前記分類部により分類された後の電子メールのヘッダフィールドに含まれているアドレスを解析し、当該電子メールのヘッダフィールドに特定のドメインに属するアドレスのみが含まれている場合は当該電子メールを機密カテゴリに再分類し、当該電子メールのヘッダフィールドに前記特定のドメイン以外のドメインに属するアドレスが含まれている場合は当該電子メールを非機密カテゴリに再分類することを特徴とする請求項１に記載のデータ処理装置。
　コンピュータが、データを複数カテゴリのうちのいずれかのカテゴリに分類する分類し、
　前記コンピュータが、いずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を所定の記憶領域から読み出し、
　前記コンピュータが、前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出することを特徴とするデータ処理方法。
　データを複数カテゴリのうちのいずれかのカテゴリに分類する分類処理と、
　前記分類処理によりいずれかのカテゴリに分類された後の分類後データを前記複数カテゴリのうちのいずれかのカテゴリに再分類するための基準が示される再分類基準情報を所定の記憶領域から読み出す読み出し処理と、
　前記再分類基準情報に基づき前記分類後データをいずれかのカテゴリに再分類し、再分類後のカテゴリと前記分類処理による分類後のカテゴリとが一致するか否かを判断し、カテゴリが一致する場合に、前記分類後データを学習に用いるサンプルデータとして抽出するサンプルデータ抽出処理とをコンピュータに実行させることを特徴とするプログラム。