JPWO2012095971A1

JPWO2012095971A1 - 分類ルール生成装置及び分類ルール生成プログラム

Info

Publication number: JPWO2012095971A1
Application number: JP2012552572A
Authority: JP
Inventors: 秀哉柴田; 加藤　守; 守加藤; 光則郡
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-01-13
Filing date: 2011-01-13
Publication date: 2014-06-09
Anticipated expiration: 2031-01-13
Also published as: CN103299304B; JP5460887B2; US9323839B2; WO2012095971A1; US20130275433A1; CN103299304A

Abstract

文書分類装置１００では、サンプル文書抽出条件格納部１６０は、文書入力部１１０により入力された入力文書３０１から部分テキストを分類カテゴリ毎に抽出する抽出条件であって、複数の分類カテゴリ毎に設定された抽出条件であるサンプル文書抽出条件１６０−１を格納する。文書照合部１２０は、サンプル文書抽出条件１６０−１と入力文書３０１とを照合する。文書抽出部１３０は、文書照合部１２０の照合結果に基づいて、入力文書３０１から分類カテゴリ毎に部分テキストを抽出する。学習部１４０は、文書抽出部１２０によって抽出された部分テキストをサンプル文書として、所定の機械学習を行うことにより分類ルール１５０−１を生成する。

Description

この発明は、文書を複数のカテゴリのうちのいずれかのカテゴリに分類するための分類ルールを作成する分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム等に関する。

文書を複数のカテゴリのうちのいずれかのカテゴリへ自動的に分類する方式の１つとして、機械学習による自動分類がある。機械学習を用いた文書自動分類では、文書分類装置は、予め複数の分類カテゴリに分けられた学習サンプル文書を用いて分類カテゴリごとの特徴を学習し、学習結果に基づいて、分類対象文書の分類を行う。

したがって、機械学習による文書分類装置の分類の精度は、学習サンプル文書に依存する。ところが正しく分類された学習サンプル文書を人手で大量に集めるには手間がかかるため、実用化における課題であった。この課題に対して、特許文献１では、未分類のサンプル文書に対して文字列照合を用いたルールベースのフィルタリングを実施することにより、各カテゴリに分類された学習サンプル文書を作成する技術が開示されている。

特開２０１０−７２７７９号公報

しかし、入力された未知文書のサイズが大きい場合や、未知文書内に複数の話題が混在する場合は、特許文献１の方法では、未知文書が、ある分類カテゴリのサンプル文書と判定されても、実際にはその分類カテゴリと無関係な話題が含まれる可能性が高い。例えば、入力文書がＷｅｂページであって、個人の日記が記述されている場合、日記の日付によって、扱っている話題が全く異なることは良くある。また別の例として、入力文書が電子メールであって、複数のファイルが添付されている場合、添付ファイルの内容はファイル毎に全く異なるかもしれない。このような無関係な話題は、当該分類カテゴリへの文書分類条件（分類ルール）を生成する上で不要な情報であり、分類精度を低下させる要因ともなり得る。

また、未知文書全体をサンプルとして学習に使用させると、学習対象となるテキストサイズが膨大となり、学習速度の低下する、作成された分類ルールのサイズが肥大化するなど、システムの処理性能低下を招く要因ともなる。

本発明は、所属カテゴリが未知の入力文書に対して、文字列照合のようなルールベースのフィルタリングを実施する。そして、その後、文字列のヒット位置など、フィルタリングの実行により得られる情報に基づいて、入力文書から入力文書の一部分である部分テキストを抽出し、分類ルールを生成するための学習サンプルとして使用する。これにより、本発明では、不要な情報を含まない学習サンプル収集の可能な分類ルール生成装置の提供を目的とする。

この発明の分類ルール生成装置は、
文書をサンプル対象文書として入力する入力部と、
前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
を備えたことを特徴とする。

この発明の分類ルール生成装置によれば、不要な情報を含まない学習サンプルを収集する分類ルール生成装置を提供できる。

実施の形態１におけるネットワーク監視システムの構成図。実施の形態１におけるはネットワーク監視装置３００の構成図。実施の形態１におけるサンプル文書抽出条件１６０−１を示す図。実施の形態１における部分テキストの抽出を説明する図。実施の形態１における文書分類装置１００の動作概要を示すフローチャート。実施の形態１における文書分類装置１００の学習処理Ｓ１００の詳細動作を示すフローチャート。実施の形態１におけるキーワード検索条件１６１を示す図。実施の形態１における２つの部分テキストを一つにまとめた場合を示す図。実施の形態１における種別ＩＤの設定を示す図。実施の形態１におけるキーワード除外条件１６２を説明する図。実施の形態１におけるある分類カテゴリにおいてキーワード除外条件１６２のみを設定した場合を説明する図。実施の形態１におけるキーワード検索条件１６１とキーワード除外条件１６２との併用を説明する図。実施の形態１における分類処理Ｓ２００の詳細動作を示すフローチャート。実施の形態１における文書分類装置１００の外観の一例を示す図。実施の形態１における文書分類装置１００のハードウェア構成を示す図。

実施の形態１．
以下の説明では、文書分類装置１００（分類ルール生成装置の一例）を、ネットワーク５００を流れるテキストデータを監視するシステム（以下、ネットワーク監視システム）に適用した例を挙げる。しかし、ネットワーク監視システムへの適用に限定されるものではなく、文書分類装置１００は、一般的な文書分類システムに適用できる。

図１は、文書分類装置１００をネットワーク監視システムに適用した場合の構成図である。図１にように、ネットワーク監視装置３００は、組織４００内の組織内ネットワーク上に配置される。組織４００は、ネットワーク５００を通じて、インターネット５１０と接続される。

組織４００は、ユーザ端末装置４０１、４０２、４０３、各ユーザ端末装置にアクセスするユーザ４１１、４１２、４１３、ネットワーク監視装置３００を管理するための管理用端末装置４０４、及び管理用端末装置４０４にアクセス可能な管理者４１４から構成される。管理者４１４は、管理用端末装置４０４を通じて、ネットワーク監視装置３００の管理、設定などを行う。なお、ユーザ数やサーバ構成については、図１は一例である。任意のユーザ数、任意のサーバ構成に対して、文書分類装置１００を適用できる。

ネットワーク監視装置３００は、組織４００の各ユーザがネットワーク５００へ送信する情報を取得することで、組織４００の各ユーザが適切にネットワークを利用しているか否かを監視する。ネットワーク監視装置３００が取得する情報は、Ｗｅｂへの書き込みテキスト、電子メール、送信されたファイルなどである。また、ネットワーク監視装置３００が実施する監視処理としては、送信情報の集計処理や、情報漏洩防止のためのテキスト監視処理である。ネットワーク監視装置３００によるテキスト監視処理を実現するために、本実施の形態１の文書分類装置１００を適用する。管理者４１４は、ネットワーク監視装置３００が実施する監視処理の結果を確認し、不適切にネットワークを利用している疑いがあるユーザがいた場合、警告を出すなどの行動を取ることができる。

図２は、ネットワーク監視装置３００の構成図である。次に、図２を参照してネットワーク監視装置３００の構成を説明する。文書分類装置１００は、ネットワーク監視装置３００の一部の装置として適用される。文書分類装置１００は、文書入力部１１０（入力部）、文書照合部１２０（照合部）、部分テキスト抽出部１３０（抽出部）、学習部１４０、分類ルール格納部１５０、分類カテゴリ毎のサンプル文書抽出条件格納部１６０、分類対象文書入力部２１０、分類対象文書分割部２２０（分割部）、分類部２３０、及び分類結果判定部２４０を備える。

図３は、サンプル文書抽出条件格納部１６０に格納されるサンプル文書抽出条件１６０−１の例を示す図である。図３に示すように、サンプル文書抽出条件１６０−１として、キーワード検索条件１６１、キーワード除外条件１６２、メールアドレス検索条件１６３、ＵＲＬ検索条件１６４等が含まれる。これらについては、後述する。

図４は、文書分類装置１００の特徴を説明する図である。文書分類装置１００の特徴は主に、部分テキスト抽出部１３０にある。図４を参照して、文書分類装置１００の特徴の概要を説明する。部分テキスト抽出部１３０は、文書照合部１２０による照合結果に基づいて、入力文書３０１から部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出を試みる。すなわち、図４に示すように、同一の入力文書３０１を対象として、部分テキスト抽出部１３０は、分類カテゴリ１、分類カテゴリ２のそれぞれについて、所定の抽出規則（後述する文字数、文章数、段落数など）部分テキストの抽出を試みる。図４は、部分テキスト抽出部１３０が、分類カテゴリ１について部分テキスト１１，１２を抽出し、分類カテゴリ２について部分テキスト２１，２２、２３を抽出した場合を示している。すなわち図４は、サンプル文書抽出条件１６０−１としてキーワード検索条件１６１を用いた場合を示している。文書照合部１２０によって、各分類カテゴリごとにキーワードがヒットする。図４では、分類カテゴリ１のキーワードは黒丸であり、分類カテゴリ２のキーワードは白丸である。部分テキスト抽出部１３０は、ヒットしたキーワードを含む周辺を、部分テキストとして抽出する。

分類カテゴリ数に特別な制限はなく、１以上の任意の自然数が設定可能である。分類カテゴリ毎のサンプル文書抽出条件１６０−１は、管理者４０４等により設定される。

以下に、各構成要素の機能を説明する。
（文書入力部１１０）
文書入力部１１０は、ネットワーク監視装置３００が伝送路から取得した入力文書３０１を、学習のためのサンプル対象文書として入力する。サンプル対象文書は、部分テキストの抽出の対象である。

（文書照合部１２０）
文書照合部１２０は、図４で述べたように、文書入力部１１０が取得した入力文書３０１を対象として、分類カテゴリ毎に設定されたサンプル文書抽出条件１６０−１（抽出条件）を用いた照合処理を実施する。サンプル文書抽出条件１６０−１は、予め設定されたキーワードを検索する文字列照合型の条件である。また、サンプル文書抽出条件１６０−１として、正規表現による検索式を含ませることができる。正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となるので、サンプル文書抽出条件１６０−１の柔軟性を向上できる。

（ヒット位置取得部１２１）
文書照合部１２０は、ヒット位置取得部１２１（位置特定部）を備える。ヒット位置取得部１２１は、サンプル文書抽出条件１６０−１による照合の結果得られるキーワードのヒット位置、ヒット数などの情報を取得する。

（部分テキスト抽出部１３０）
部分テキスト抽出部１３０は、文書照合部１２０による照合結果を元に、入力文書３０１から、各分類カテゴリの学習用サンプルとして使用するための部分テキストを抽出する。「部分テキスト」とは入力文書３０１の一部分をなす文書である。そして「部分テキスト」は、分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルール１５０−１の作成に使用される。部分テキストは、図４に示すように、異なる分類カテゴリに対して同一の部分テキスト（例えば、部分テキスト１１＝部分テキスト２１）が抽出されても良い。また、どの分類カテゴリのサンプルとしても使用しないような部分テキストが存在しても良い。極端な例として、部分テキスト抽出部１３０は、ある分類カテゴリについては、入力文書３０１から部分テキストを抽出しなくても良い。

（学習部１４０）
学習部１４０は、部分テキスト抽出部１３０が入力文書３０１から分類カテゴリ毎に抽出した部分テキストを、それぞれの分類カテゴリのサンプル文書として部分テキスト抽出部１３０から受け取る。そして学習部１４０は、分類部２３０で使用する分類ルール１５０−１を生成する。なお、「生成」には分類ルールを「更新する」場合も含む。

学習部１４０及び分類部２３０は、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。また、以下に示す「参考文献」で開示されているような、複数の機械学習を用いた文書分類方法を用いることもできる。
＜参考文献＞ＷＯ２００９／０８７７５７、「情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム」

（分類対象文書入力部２１０）
分類対象文書入力部２１０は、ネットワーク監視装置３００が伝送路から取得した入力文書３０１を、複数の分類カテゴリのうちのいずれかの分類カテゴリへ分類するための分類対象文書として入力する。

（分類対象文書分割部２２０）
分類対象文書分割部２２０は、分類対象文書入力部２１０が取得した入力文書３０１を、文書の先頭から順に適当なサイズ毎に区切り、複数の文書に分割する。例えば分類対象文書分割部２２０は、分類対象文書である入力文書３０１を、部分テキスト抽出部１３０によって抽出された部分テキストの平均サイズに合わせて分割する。

（分類部２３０）
分類部２３０は、分類対象文書分割部２２０によって分割された複数の分割文書を、分類ルール１５０−１を用いて分類カテゴリに分類する。あるいは図２に示すように、分類部２３０は、分類対象文書分割部２２０を経由せずに、分類対象文書入力部２１０に入力された入力文書３０１を、直接入力してもよい。

（分類結果判定部２４０）
分類結果判定部２４０は、分類対象文書分割部２２０によって分割された各文書と、分類部２３０が出力した分類結果とを統合し、入力文書３０１に対する分類結果３０２を出力する。

（動作の説明）
次に、文書分類装置１００の動作を説明する。文書分類装置１００によって実行される処理は、大きく、学習処理Ｓ１００と分類処理Ｓ２００とに分けられる。文書分類装置１００は、学習処理Ｓ１００により生成された分類ルール１５０−１を用いて、入力文書３０１の分類処理Ｓ２００を実施する。

図５は、文書分類装置１００の動作概要を示すフローチャートである。図５を参照して、文書分類装置１００の運用の流れを、学習処理Ｓ１００と分類処理Ｓ２００との点から説明する。図５の運用形態に限定されるものではなく、文書分類装置１００は、サンプル文書を学習し、分類ルールを生成する過程を含む任意の運用形態に適用できる。文書分類装置１００稼動直後は、学習部１４０によって分類ルール１５０−１が生成されていない。あるいは、分類ルール１５０−１が生成されていても学習量が十分でない。このため、文書分類装置１００稼動直後は、入力文書３０１に対して学習処理Ｓ１００のみを実施し、分類処理Ｓ２００を実施しない。この運用形態を初期学習運用Ｓ３０１と呼ぶ。初期学習運用Ｓ３０１の期間中は、分類部２３０による分類ルール１５０−１を用いた機械学習による分類を行うことはできないが、代替手段による分類処理は可能である。

Ｓ３０２では、新規に入力文書が到着するたびに、学習が十分に実施されたかを学習部１４０は、例えば後述の方法で判断する。Ｓ３０２において、学習が十分であると判断した場合、学習部１４０は初期学習運用Ｓ３０１から本運用Ｓ３０３に移行する。

Ｓ３０２において、学習が十分か否かを判断する方法として、学習処理Ｓ１００により学習された文書件数を用いる方法がある。全ての分類カテゴリにおいて学習された文書件数が、管理者４１４が予め設定した件数に達したときに、学習部１４０は学習は十分と判断し（Ｓ３０２）、Ｓ３０２から本運用Ｓ３０３へ移行可能と判断する。

Ｓ３０２において、学習が十分か否かを判断する別の方法として、文書分類装置１００の稼動時間を用いる方法がある。１週間など、学習部１４０は、管理者４１４が予め設定した稼働時間に達したときに、Ｓ３０２から本運用Ｓ３０３へ移行可能と判断する。

本運用Ｓ３０３では、文書分類装置１００は、入力文書３０１に対して分類処理Ｓ２００を実施し、分類結果３０２を出力する。文書分類装置１００は分類処理Ｓ２００の後、同一の入力文書３０１に対して学習処理Ｓ１００を実施し、分類ルール１５０−１を更新する。

Ｓ３０４では、分類ルール１５０−１を再生成するか否かを、学習部１４０は例えば後述の方法で判断する。分類ルール１５０−１を再生成する場合にはＳ３０５に進み、学習部１４０は分類ルール１５０−１を破棄し、処理は初期学習運用Ｓ３０１へと移行する。分類ルール１５０−１を再生成しない場合は、本運用Ｓ３０３が継続される。

Ｓ３０４において、分類ルール１５０−１を再生性するか否かを判断する方法として、文書分類装置１００の稼動時間を用いる方法がある。学習部１４０は、１年間など、管理者４１４が予め設定した稼働時間に達したときに、Ｓ３０４において分類ルール１５０−１を破棄すると判断する（Ｓ３０５）。

図６は、文書分類装置１００の学習処理Ｓ１００の詳細動作を示すフローチャートである。次に、図６を参照して、文書分類装置１００における学習処理Ｓ１００の詳細動作を説明する。
図７は、サンプル文書抽出条件１６０−１としてキーワード検索条件１６１を用いた場合を示す図である。図７に示すように、サンプル文書抽出条件１６０−１は、分類カテゴリごとに、対応する分類カテゴリに適合する少なくとも一つの適正な適正キーワードから構成されている。例えば図７の分類カテゴリ１については、キーワード１−１，１−２・・・，１−ｉは、分類カテゴリ１にふさわしいキーワード（適正キーワード）である。

（１）ネットワーク監視装置３００に新規文書が到着すると、文書入力部１１０は、新規文書を入力文書３０１として受け取る（Ｓ１１０）。
（２）文書照合部１２０は、分類カテゴリ毎に設定されたサンプル文書抽出条件１６０−１を用い、入力文書３０１をサンプル文書抽出条件１６０−１と照合する（Ｓ１２０）。照合の際、ヒット位置取得部１２１は、サンプル文書抽出条件１６０−１として設定されたキーワードのヒット位置、および、ヒット数を分類カテゴリ毎に取得する。
（３）部分テキスト抽出部１３０は、ヒット位置取得部１２１の照合処理Ｓ１２０よって取得された照合結果であるキーワードのヒット位置、ヒット数などの情報を元に、入力文書３０１から、各分類カテゴリの学習サンプルとして使用する部分テキストを、０個以上抽出する（Ｓ１３０）。すなわち、部分テキスト抽出部１３０は、文書照合部１２０による照合結果に基づいて、入力文書３０１から部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出を試みる。
（４）学習部１４０は、部分テキスト抽出部１３０の抽出処理Ｓ１３０によって、いずれかの分類カテゴリに対応する部分テキストが抽出された場合には、抽出された部分テキストをサンプル文書として所定の機械学習を行うことにより、分類ルール１５０−１を生成（更新も含む）する（Ｓ１４０）。

（キーワードの使用）
照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、図７に示したように、分類カテゴリごとに複数のキーワードが指定されたキーワード検索条件１６１を用いることができる。キーワード検索条件１６１には、該当する分類カテゴリに関わりの深いキーワード（適正キーワード）を指定する。この場合、Ｓ１３０において部分テキスト抽出部１３０は、キーワード検索条件１６１により得られたヒット位置の周辺を、該当する分類カテゴリの部分テキストとして抽出する（具体的な抽出方法は後述する）。こうすることにより、該当する分類カテゴリに関わりの深い可能性が高い部分テキストのみを、サンプル文書として抽出することが可能となる。

（部分テキストの抽出方法）
（１）キーワード検索条件１６１によるヒット位置周辺のテキストを部分テキストとして抽出する方法として、文字数を使用する方法がある。部分テキスト抽出部１３０は、各ヒット位置を基点とし、ヒット位置の前後それぞれ所定の文字数分のテキストを部分テキストとして抽出する。
（２）キーワード検索条件１６１によるヒット位置周辺のテキストを部分テキストとして抽出する別の方法として、文章数を使用する方法がある。部分テキスト抽出部１３０は、各ヒット位置を含む文章を基点とし、ヒット位置の前後それぞれ所定の文章数分のテキストを部分テキストとして抽出する。文章数を数える手段としては、例えば日本語文書の場合、句点の数を数える方法が挙げられる。他の言語についても同様の方法が適用可能である。
（３）キーワード検索条件１６１のヒット位置周辺のテキストを、部分テキストとして抽出する更に別の方法として、段落を使用する方法がある。部分テキスト抽出部１３０は、各ヒット位置を含む段落を部分テキストとして抽出する。例えば、ＨＴＭＬ文書など、タグが埋め込まれた形式の文書では、タグの情報を使用することで、容易に段落を切り出すことが可能である。また、各ヒット位置を含む段落を基点とし、前後それぞれ所定の段落数分のテキストを部分テキストとして抽出することもできる。

（部分テキストの合体）
キーワード検索条件１６１に基づき部分テキスト抽出部１３０よって抽出された部分テキストどうしは、共通部分を持つ場合がある。ある分類カテゴリに関わりの深いキーワードは、文書中のある箇所に集中して出現する傾向がある。そのため、共通部分を持つ複数の部分テキストを、個別の部分テキストとして抽出すると、同じようなサンプル文書を幾つも学習させる結果となる可能性が高い。そこで、部分テキスト抽出部１３０は、抽出した複数の部分テキストが共通部分を持つ場合は、それらの複数の部分テキストを、一つの部分テキストにまとめる。こうすることで、同じようなサンプル文書を幾つも学習部１４０に学習させることを回避できる。
図８は、２つの部分テキストを一つにまとめた場合を示す図である。図８は、キーワード検索条件１６１として、「社外秘」、「開発計画書」、「実行計画」のキーワードを指定した場合の、部分テキストの抽出の様子を示す。図８では、文字数を利用した部分テキス抽出の様子を表している。図８において、「社外秘」と「開発計画書」のヒット位置周辺の部分テキスト同士が共通部分を持つため、２つの部分テキストを一つにまとめて、一つの部分テキストとして抽出した結果を示している（Ｓ４０１）。

（ヒットキーワードの個数）
ある分類カテゴリについて、キーワード検索条件１６１を用いたキーワードのヒット数が、所定の個数未満である場合には、部分テキスト抽出部１３０は、入力文書３０１全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。ヒット数が少ない場合、入力文書３０１は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒット数による閾値を設けることで、学習部１４０の過剰な学習を回避できる。

（適正キーワードの種別ＩＤ）
図９は、キーワードに設定可能な種別ＩＤを示す図である。キーワード検索条件１６１によって指定された各キーワードには、キーワード種別に応じた種別ＩＤ（種別情報の一例）を付加することが可能である。例えば、情報漏洩防止を目的とし、機密情報からなる分類カテゴリを設定した場合を想定する。図９に示すように、キーワードとして、「社外秘」、システム開発計画書」を設定したとする。「社外秘」のように機密等級に対応する種別ＩＤを「１」と置き、「システム開発計画書」のように機密文書名に関するキーワードの種別ＩＤを「２」と置くなどである。異なるキーワードに同一の種別ＩＤを設定してもよい。例えば重要な複数のキーワードには、すべて種別ＩＤ「１」を設定するような場合である。

（種別ＩＤのヒット数）
このとき、ある分類カテゴリにおいて、キーワード検索条件１６１によりヒットした所定の種別ＩＤ数が所定の個数未満である場合には、部分テキスト抽出部１３０は、入力文書３０１全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。例えば重要な複数のキーワードに種別ＩＤ「１」を設定した場合、ヒットした種別ＩＤ「１」が、所定の個数未満である場合である。ヒットした所定の種別ＩＤ数が少ない場合、入力文書３０１は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒットした種別ＩＤ数に閾値を設けることで、学習部１４０の過剰な学習を回避することができる。

（種別ＩＤの重要度）
また、キーワード検索条件１６１によりヒットしたキーワードの種別ＩＤに応じて、部分テキスト抽出部１３０は、そのキーワードのヒット位置周辺から抽出する部分テキストのサイズを変更することができる。重要なキーワードに対応する種別ＩＤに対しては、部分テキスト抽出部１３０によって大きなサイズの部分テキストを抽出するように設定することで、重要なキーワード周辺の部分テキストを、重点的に抽出できる。

（種別ＩＤの重要度の決定方法）
キーワードの重要度を決定する方法の１つとして、キーワード長を利用する方法がある。例えば、機密情報からなる分類カテゴリを考えた場合、「計画書」と「システム開発計画書」とでは、「システム開発計画書」の方がより具体的なキーワードであり、その周辺に機密情報が記載されている可能性が高い。一方、「計画書」は一般用語に近いため、意図しない文書中にも出現する可能性が高い。これは、キーワード長が、キーワードの重要性と直接結びついた例である。そこで、長いキーワードに対しては、大きいサイズの部分テキストを抽出するように種別ＩＤを設定する。この場合は、キーワードの種別ＩＤがキーワード長に応じて定義されている必要がある。例えば、種別ＩＤは小さいほど重要度が高いとする。長いキーワード（重要なキーワード）には一桁の種別ＩＤを設定し、短いキーワードには、一桁以外の種別ＩＤを設定する。部分テキスト抽出部１３０は、ヒットした種別ＩＤが小さいほど、抽出する部分テキストのサイズを大きくする。

（特定の種別ＩＤのヒット）
キーワード検索条件１６１に種別ＩＤが定義されている場合、入力文書３０１が特定の種別ＩＤ（例えば種別ＩＤ「１」）を持つキーワードにヒットするときのみ、部分テキスト抽出部１３０は、入力文書３０１を部分テキストの抽出対象とすることができる。逆にいうと、特定の種別ＩＤを持つキーワードがヒットしない場合には、部分テキスト抽出部１３０は、入力文書３０１を部分テキストの抽出対象としない。このような種別ＩＤは複数存在しても良い。この場合、設定された全ての種別ＩＤに対応するキーワードがヒットしたときのみ、入力文書３０１を部分テキストの抽出対象とする。

（キーワードのヒット位置の集中）
キーワード検索条件１６１によるヒット位置が、入力文書３０１のある箇所に集中して出現する場合、その箇所には、対応する分類カテゴリに関わりが深い内容が記述されている可能性が高い。逆に、ヒット位置が集中して出現しなければ、それらのキーワードは偶然、そこに記述されているだけの可能性が高い。そこで、設定された文字数範囲内のヒット数が所定の数以上であるような箇所のみを、部分テキストの抽出対象として設定する。具体的には、最初に部分テキストとするべきテキストサイズが設定されており、そのサイズの中に設定個数以上のキーワードがヒットした場合、そのテキストサイズを部分テキストとして抽出する。テキストサイズだけからは部分テキストとすべき範囲は定まらないので、決定規則は別に設定しておく。例えば、ヒットした複数のキーワードのうち、先頭のキーワードを基準に部分テキストの範囲を決定する決定規則が考えられる。

（キーワード除外条件１６２）
照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、複数のキーワード（不適キーワード）が指定されたキーワード除外条件１６２を用いても良い。キーワード除外条件１６２には、該当する分類カテゴリには相応しくない不適な不適キーワードを指定する。それぞれの分類カテゴリについては、キーワード検索条件１６１とキーワード除外条件１６２との、少なくともいずれかを設定することができる。この場合、抽出処理Ｓ１３０では、部分テキスト抽出部１３０は、キーワード除外条件１６２によって得られた不適キーワードのヒット位置の周辺を、対応する分類カテゴリの部分テキスト抽出対象から除外し、残りの部分から、サンプル文書として使用する部分テキストを抽出する。これにより、対応する分類カテゴリに相応しくない可能性が高い部分テキストを、サンプル文書から除外することができ、結果として、分類カテゴリに関わりの深い部分テキストのみを抽出することが可能となる。

図１０は、「正のカテゴリ」、「負のカテゴリ」に、それぞれキーワード検索条件１６１と、キーワード除外条件１６２を設定する例である。特に、図１０に示すように、分類カテゴリが２個の２値分類の場合、分類カテゴリは、ある話題に深い関わりがある文書のカテゴリ（正のカテゴリ）と、それ以外の文書のカテゴリ（負のカテゴリ）として定義されることが多い。この場合、「負のカテゴリ」と関わりが深いキーワード（適正キーワード）を設定することは、一般に困難である。そこで、「負のカテゴリ」では、キーワード除外条件１６２として、図１０に示すように、正のカテゴリと関わりが深いキーワードを不適キーワードとして設定する。これにより、負のカテゴリの部分テキストの抽出において、負のカテゴリと関連性が低いキーワードを含む文書をサンプルら除外することが可能となる。すなわち「正のカテゴリ」には適正キーワードからなるキーワード検索条件１６１を設定し、「負のカテゴリ」には、「正のカテゴリ」のキーワードを不適キーワードとするキーワード除外条件１６２を設定する。

この場合、「負のカテゴリ」に関するキーワード除外条件１６２は、正のカテゴリに関するキーワード検索条件１６１と同一でも良いし、異なっても良い。異なる条件を設定する場合の具体例として、「負のカテゴリ」に関するキーワード除外条件１６２に、正のカテゴリに関するキーワード検索条件１６１で設定したキーワードを全て含ませ、更に多くのキーワードを設定する。キーワード除外条件１６２に、より多くのキーワードを設定することで、学習部１４０の過剰な学習を回避できる可能性を高めることができる。

キーワード除外条件１６２のヒット位置周辺のテキストを、部分テキスト抽出対象から除外する方法として、文字数、文章数、段落を用いる方法がある。これらキーワード検索条件１６１により、部分テキストを抽出する方法とそれぞれ対応している。

（不適キーワードのヒット数）
ある分類カテゴリにおいて、キーワード除外条件１６２によるヒット数が、所定の数以上（設定値以上）である場合には、入力文書３０１全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。すなわち、この場合、部分テキスト抽出部１３０は、入力文書３０１から、その分類カテゴリについては、対応する部分テキストを抽出しない。ヒット数が多い場合、入力文書３０１は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒット数による閾値を設けることで、過剰な学習を回避することができる。

（不適キーワードの種別ＩＤ）
キーワード除外条件１６２で指定された各キーワードには、キーワード検索条件１６１のときと同様に、種別ＩＤ（識別情報）を定義することができる。適正キーワードの場合と同様に、異なる不適キーワードに同一の種別ＩＤを設定してもよい。このとき、ある分類カテゴリにおいて、キーワード除外条件１６２によりヒットした所定の種別ＩＤ数が、所定の数以上（設定値以上）である場合には、入力文書３０１全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。ヒットした種別ＩＤ数が多い場合、入力文書３０１は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒットした種別ＩＤ数による閾値を設けることで、過剰な学習を回避することができる。

（種別ＩＤと除外範囲のサイズ）
また、キーワード除外条件１６２によりヒットしたキーワードの種別ＩＤに応じて、「対応するヒット位置周辺から除外する部分テキストのサイズ」（除外範囲のサイズ）を変更することができる。これは、キーワード検索条件１６１の種別ＩＤを利用して、抽出する部分テキストサイズを変更することと対応している。

（種別ＩＤと入力文書３０１）
キーワード除外条件１６２に種別ＩＤが定義されている場合、入力文書３０１が、所定の種別ＩＤを持つキーワードにヒットしないときのみ、部分テキストの抽出対象とすることができる。このような種別ＩＤは複数存在しても良い。この場合、設定された全ての種別ＩＤに対応するキーワードがヒットしないときのみ、入力文書３０１を部分テキストの抽出対象とする。

（不適キーワードによる部分テキストの抽出）
図１１は、ある分類カテゴリにおいてキーワード除外条件１６２のみを設定した場合の抽出処理Ｓ１３０を示す図である。ある分類カテゴリにおいて、文書照合部１２０による照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、キーワード除外条件１６２のみを設定する場合を考える。キーワード除外条件１６２により除外された残りの部分から、サンプル文書として使用する部分テキストを抽出する手段が必要となる。この手段の一例を、図１１を用いて説明する。図１１では、キーワード除外条件１６２として、「社外秘」、「開発計画書」、「実行計画」の不適キーワードを指定している。まず、部分テキスト抽出部１３０は、指定された不適キーワードの周辺のテキストを部分テキスト抽出対象から除外する（Ｓ５０１）。続いて、部分テキスト抽出部１３０は、残されたテキストの先頭から順に、所定のサイズの部分テキストを抽出し、所定のサイズの部分テキストをスキップする、という処理を文書の末尾まで繰り返す（Ｓ５０２）。こうすることで、部分テキスト抽出部１３０は、キーワード除外条件１６２によりヒットした不適キーワード周辺のテキストをサンプル文書として抽出せずに、残りの部分から部分テキストを抽出できる。

（キーワード検索条件１６１、キーワード除外条件１６２の併用）
ある分類カテゴリにおいて、照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、キーワード検索条件１６１とキーワード除外条件１６２との両方を設定することもできる。この場合、部分テキスト抽出部１３０は、キーワード除外条件１６２によりテキストを除外した後、キーワード検索条件１６１の適正キーワードのみを含む残りの部分（領域）から部分テキストを抽出する。

キーワード検索条件１６１とキーワード除外条件１６２の両方を設定することが有効な場合として、異なる分類カテゴリに関わりの深い共通のキーワードが存在する場合がある。
図１２は、キーワード検索条件１６１、キーワード除外条件１６２の併用の場合を示す図である。例えば、図１２に示すように、プロジェクトＡに関する機密情報を含む分類カテゴリ（分類カテゴリＡ）と、プロジェクトＢに関する機密情報を含む分類カテゴリ（分類カテゴリＢ）とを別々の分類カテゴリとして定義する。この場合、両方の分類カテゴリに対して、キーワード検索条件１６１として「社外秘」というキーワードを設定することは有効であると考えられる。しかしながら、「社外秘」というキーワードのみでは、プロジェクトＡとプロジェクトＢを区別できない。このため、分類カテゴリＡに対するキーワード除外条件１６２として、キーワード「プロジェクトＢ」を設定する。
これにより、分類カテゴリＢに関わりが深い部分テキストを、分類カテゴリＡのサンプルとして抽出することを回避できる。

（併用と種別ＩＤ）
キーワード検索条件１６１とキーワード除外条件１６２の両方を設定し、かつ、両条件に種別ＩＤが定義されてもよい。この場合、部分テキスト抽出部１３０は、入力文書３０１が、キーワード検索条件１６１における所定の種別ＩＤを持つキーワードにヒットし、かつ、キーワード除外条件１６２における所定の種別ＩＤを持つキーワードにヒットしないときのみ、入力文書３０１を、その分類カテゴリについて、部分テキストの抽出対象とすることができる。このような種別ＩＤは複数存在しても良い。この場合、部分テキスト抽出部１３０は、キーワード検索条件１６１において設定された全ての種別ＩＤに対応するキーワードがヒットし、かつ、キーワード除外条件１６２において設定された全ての種別ＩＤに対応するキーワードがヒットしない入力文書３０１を、その分類カテゴリについて、部分テキストの抽出対象とする。

（入力文書３０１が電子メールの場合）
入力文書３０１が電子メールである場合、文書照合部１２０による照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件１６３を用いても良い。メールアドレス検索条件１６３は、キーワード検索条件１６１やキーワード除外条件１６２と併用して使用する。具体的には、部分テキスト抽出部１３０は、メールアドレス検索条件１６３による照合結果に応じて、キーワード検索条件１６１やキーワード除外条件１６２で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部１２０は、入力文書３０１がメールアドレスに合致するかどうかをメールアドレス検索条件１６３（抽出条件）を用いて照合する。部分テキスト抽出部１３０は、文書照合部１２０によるメールアドレスを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。

例えば、電子メールの送付先組織を分類カテゴリとして設定する場合、電子メールヘッダに記載されるメールアドレス情報は、電子メールがどの分類カテゴリと関わりが深いかを判断する大きな手がかりとなる。仮に、メールアドレス情報から、対象としている分類カテゴリとの関係性が低いと判断されれば、部分テキスト抽出部１３０は、当該電子メールから抽出する部分テキストの個数やサイズを小さくするのが妥当である。逆に、メールアドレス情報から、対象としている分類カテゴリとの関係性が高いと判断されれば、部分テキスト抽出部１３０は、当該電子メールから抽出する部分テキストの個数やサイズを大きくするのが妥当である。このように、メールアドレス検索条件１６３を用いることにより、メールアドレス情報を、部分テキスト抽出の際の重みとして利用することが可能となる。

（入力文書３０１がＷｅｂページの場合）
入力文書３０１がＷｅｂページである場合、文書照合部１２０による照合処理Ｓ１２０で使用するサンプル文書抽出条件１６０−１として、ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を検索するＵＲＬ検索条件１６４を用いても良い。ＵＲＬ検索条件１６４は、キーワード検索条件１６１やキーワード除外条件１６２と併用して使用する。具体的には、部分テキスト抽出部１３０は、ＵＲＬ検索条件１６４による照合結果に応じて、キーワード検索条件１６１やキーワード除外条件１６２で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部１２０は、入力文書３０１がＵＲＬに合致するかどうかをＵＲＬ検索条件１６４（抽出条件）を用いて照合する。部分テキスト抽出部１３０は、文書照合部１２０によるＵＲＬを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。

例えば、ＵＲＬのドメインとして「ｇｏ．ｊｐ」を含むようなＷｅｂページには価値の高い情報が記述されていると考える場合、ＵＲＬ検索条件１６４により、文書照合部１２０によってＵＲＬドメインに「ｇｏ．ｊｐ」を含むと判定されたＷｅｂページからは、部分テキスト抽出部１３０は、抽出する部分テキストの個数やサイズを大きくすることができる。このように、ＵＲＬ検索条件１６４を用いることにより、ＵＲＬ情報を、部分テキスト抽出の際の重みとして利用することが可能となる。

図１３は、分類処理Ｓ２００の詳細な動作を示すフローチャートである。次に、図１３を参照して、文書分類装置１００における分類処理Ｓ２００の動作を説明する。
（１）分類対象文書入力部２１０は、新規文書を入力文書３０１として受け取る（Ｓ２１０）。
（２）分類対象文書分割部２２０は、入力文書３０１を先頭から所定のサイズ毎に等分割する（Ｓ２２０）。
（３）分類部２３０は、処理Ｓ２２０にて分割された各文書に対して、分類ルール１５０−１用いた分類処理を実施する（Ｓ２３０）。
（４）分類結果判定部２４０は、Ｓ２３０により出された、分割された各文書の判定結果を統合し、入力文書３０１の総合判定結果として分類結果３０２を出力する（Ｓ２４０）。

分類対象文書も、サンプル対象文書の場合と同様に、一つの文書内に複数の話題が記述されている可能性がある。分割処理Ｓ２２０で、分類対象文書分割部２２０は、入力文書３０１を先頭から所定のサイズ毎に等分割することにより、複数の話題を別の文書として分割できる可能性が高まる。結果として、複数の話題を正しく検知できる可能性を高めることができる。たとえば，分類対象文書分割部２２０は、分類対象文書を、部分テキスト抽出部１３０によって抽出された部分テキストの平均サイズに合わせて分割する。

また、分類ルール格納部１５０に格納される分類ルール１５０−１は、サンプル対象文書からの部分テキスト抽出を経て得られたサンプル文書を学習して得られる。このため、処理Ｓ２２０は、機械学習アルゴリズムに入力されるサンプル文書のサイズと、分類対象文書のサイズを合わせる役割も担っている。

判定処理Ｓ２４０において、入力文書３０１の分類結果３０２を決定する方法として、多数決による決定方法がある。この方法は、分類処理Ｓ２３０で出力された、分割された各文書の判定結果のうち、最も多く判定された分類カテゴリを分類結果３０２とする。

分類結果３０２を決定する別の方法として、少なくとも一つの分割文書の判定結果がある分類カテゴリであった場合、分類結果３０２に当該分類カテゴリを含める方法がある。この方法では、分類結果３０２には複数の分類カテゴリが含まれる可能性がある。

例えば、入力文書３０１が電子メールであり、電子メールの送付先組織を分類カテゴリとして設定する場合を考える。電子メールの送付先は、一般に複数存在するため、電子メールが複数の分類カテゴリにまたがって属する可能性もある。この場合、分類結果３０２に複数の分類カテゴリが含まれるのは自然である。

以上で述べたように、実施の形態１の文書分類装置１００では、入力された入力文書３０１（サンプル対象文書）に対して、文書照合部１２０が分類カテゴリ毎に予め設定されたサンプル文書抽出条件１６０−１による照合を実施する。そして、部分テキスト抽出部１３０が、ヒット位置やヒット数などの情報を元に、入力文書３０１からサンプル文書として使用する部分テキストを抽出する。これらの処理によって、複数の話題を含む入力文書からも適切な話題のみをサンプルとして抽出することができる。また、サンプル文書（部分テキスト）のサイズを抑えることができるので、学習部１４０による学習処理性能を高めることができる。結果として、文書分類装置１００によれば、人手による手間をかけずに、不要な情報を含まない学習サンプルの自動収集を可能となる。よって、容易に分類ルールを作成することができ、かつ、分類対象文書を適切な分類カテゴリに高精度で分類する文書分類装置を提供できる。

実施の形態２．
図１４、図１５を参照して実施の形態２を説明する。実施の形態２は、コンピュータである文書分類装置１００（分類ルール生成装置）のハードウェア構成を説明する。
図１４は、文書分類装置１００の外観の一例を示す図である。図１５は、文書分類装置１００のハードウェア資源の一例を示す図である。

外観を示す図１４において、文書分類装置１００は、システムユニット８３０、ＣＲＴ（Ｃａｔｈｏｄｅ・Ｒａｙ・Ｔｕｂｅ）やＬＣＤ（液晶）の表示画面を有する表示装置８１３、キーボード８１４（Ｋｅｙ・Ｂｏａｒｄ：Ｋ／Ｂ）、マウス８１５、コンパクトディスク装置８１８（ＣＤＤ：ＣｏｍｐａｃｔＤｉｓｋＤｒｉｖｅ）などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。システムユニット８３０はネットワークに接続している。さらにネットワークはインターネットに接続している。

またハードウェア資源を示す図１５において、文書分類装置１００は、プログラムを実行するＣＰＵ８１０（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備えている。ＣＰＵ８１０は、バス８２５を介してＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８１２、表示装置８１３、キーボード８１４、マウス８１５、通信ボード８１６、ＣＤＤ８１８、磁気ディスク装置８２０と接続されている。ＣＰＵ８１０は、これらのハードウェアデバイスを制御する。磁気ディスク装置８２０の代わりに、光ディスク装置、フラッシュメモリなどの記憶装置でもよい。

ＲＡＭ８１２は、揮発性メモリの一例である。ＲＯＭ８１１、ＣＤＤ８１８、磁気ディスク装置８２０等の記憶媒体は、不揮発性メモリの一例である。これらは、「記憶装置」あるいは記憶部、格納部、バッファの一例である。通信ボード８１６、キーボード８１４などは、入力部、入力装置の一例である。また、通信ボード８１６、表示装置８１３などは、出力部、出力装置の一例である。通信ボード８１６は、ネットワークに接続されている。

磁気ディスク装置８２０には、オペレーティングシステム８２１（ＯＳ）、ウィンドウシステム８２２、プログラム群８２３、ファイル群８２４が記憶されている。プログラム群８２３のプログラムは、ＣＰＵ８１０、オペレーティングシステム８２１、ウィンドウシステム８２２により実行される。

上記プログラム群８２３には、以上の実施の形態の説明において「〜部」として説明した機能を実行するプログラムが記憶されている。プログラムは、ＣＰＵ８１０により読み出され実行される。

ファイル群８２４には、以上の実施の形態の説明において、サンプル文書抽出条件１６０−１、分類ルール１５０−１として説明した情報や、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明した情報や、データや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してＣＰＵ８１０によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのＣＰＵの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のＣＰＵの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。

また、以上に述べた実施の形態の説明において、データや信号値は、ＲＡＭ８１２のメモリ、ＣＤＤ８１８のコンパクトディスク、磁気ディスク装置８２０の磁気ディスク、その他光ディスク、ミニディスク、ＤＶＤ（Ｄｉｇｉｔａｌ・Ｖｅｒｓａｔｉｌｅ・Ｄｉｓｋ）等の記録媒体に記録される。また、データや信号は、バス８２５や信号線やケーブルその他の伝送媒体によりオンライン伝送される。

また、以上の実施の形態の説明において、「〜部」として説明したものは、「〜手段」、であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明したものは、ソフトウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、ＤＶＤ等の記録媒体に記憶される。プログラムはＣＰＵ８１０により読み出され、ＣＰＵ８１０により実行される。すなわち、プログラムは、以上に述べた「〜部」としてコンピュータを機能させるものである。あるいは、以上に述べた「〜部」の手順や方法をコンピュータに実行させるものである。

以上の実施の形態では、文書分類装置１００（分類ルール生成装置）を説明したが、文書分類装置１００の各構成要素の動作を分類ルール生成方法と把握することもできる。あるいは文書分類装置１００の各構成要素の動作を、分類ルール生成プログラムと把握することもできる。分類ルール生成プログラムは、コンピュータ読み取り可能な記録媒体に記録される。

以上の実施の形態では、以下の文書分類装置を説明した。
入力された文書を複数の分類カテゴリに分類する文書分類装置であって、
（１）複数のサンプル文書を入力する文書入力部と、
（２）入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合する文書照合部と、
（３）文書照合部による照合結果を元に、サンプル文書から学習に使用する０個以上の部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出部と、
（４）分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも１つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する学習部と
を有する書分類装置。

以上の実施の形態では、以下の文書分類装置を説明した。
さらに、
（５）１つ以上の分類対象文書を入力する分類文書入力部と、
（６）入力された分類対象文書を、学習に使用する部分テキストの平均サイズに合わせて、先頭から順に分割する分類対象文書分割部と、
（７）アルゴリズムに対応する分類ルールを用いる少なくとも１つのアルゴリズムにより、分割された個々の文書を複数の分類カテゴリに分類する分類部と、
（８）分割された個々の文書の分類結果を統合し、分類対象文書に対する総合分類結果を判定する分類結果判定部と
を有する文書分類装置。

以上の実施の形態では、
サンプル文書抽出条件は、分類カテゴリ毎に、複数のキーワードが指定されたキーワード検索条件を含み、
文書照合部のヒット位置取得部は、サンプル対象文書に対して、分類カテゴリ毎のキーワード検索条件による文字列のヒット位置とヒット数とを取得し、
部分テキスト抽出部１３０は、キーワード検索条件によるヒット位置周辺の部分テキスを抽出する文書分類装置を説明した。

以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によるヒット数が所定の数未満であった場合には、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
キーワード検索条件で指定されたキーワードは、種別番号が設定されており、
文書照合部１２０は、種別ＩＤによるキーワード種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類に応じて、抽出する部分テキストのサイズを変更する文書分類装置を説明した。

以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード種類（種別ＩＤ）の数が、所定の数未満であった場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードが、所定の範囲内に、所定の数以上存在する箇所のみを部分テキスト抽出の対象とする文書分類装置を説明した。

以上の実施の形態では、
キーワード検索条件で指定されたキーワードには、種別番号（種別ＩＤ）が付属しており、かつ、分類カテゴリには、キーワード検索条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部１２０は、種別番号によるキーワードの種類の識別を可能であり、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類の組合せが最小種別集合を含まない場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード除外条件を含み、
ヒット位置取得部は、文書照合部１２０による照合により、サンプル対象文書に対して分類カテゴリ毎のキーワード除外条件による文字列のヒット位置とヒット数を取得し、
部分テキスト抽出部は、キーワード除外条件によるヒット位置周辺の部分テキスを、抽出対象から除外し、残りの部分から０個以上の部分テキスを抽出する書分類装置を説明した。

以上の実施の形態では、
部分テキスト抽出部は、キーワード除外条件によるヒット数が所定の数以上であった場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
キーワード除外条件で指定されたキーワードには、種別番号（種別ＩＤ）が付属しており、
文書照合部１２０は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類に応じて、抽出対象から除外する部分テキストのサイズを変更する文書分類装置を説明した。

以上の実施の形態では、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の数が、所定の数以上であった場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
キーワード除外条件で指定されたキーワードには、種別番号（種別ＩＤ）が付属しており、かつ、分類カテゴリには、キーワード除外条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部１２０は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の組合せが、最小種別集合を含む場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード検索条件とキーワード除外条件とを含み、
キーワード検索条件およびキーワード除外条件で指定されたキーワードには、種別番号（種別ＩＤ）が付属しており、
分類カテゴリには、キーワード検索条件とキーワード除外条件中の種別番号からなる種別集合が予め定められており、
文書照合部１２０は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード、およびキーワード除外条件によりヒットしなかったキーワードの種類の組合せが、種別集合を含まない場合に、抽出する部分テキストを０個とする文書分類装置を説明した。

以上の実施の形態では、
サンプル対象文書として電子メールを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件を含み、
部分テキスト抽出部は、メールアドレス検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。

以上の実施の形態では、
サンプル対象文書としてＷｅｂページを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、ＵＲＬを検索するＵＲＬ検索条件を含み、
部分テキスト抽出部は、ＵＲＬ検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。

以上の実施の形態では、
入力された分類対象文書を複数の分類カテゴリのいずれかに分類する文書分類方法であって、
（１）複数のサンプル文書を入力するサンプル文書入力し、
（２）入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合し、
（３）照合結果を元に、サンプル文書から学習に使用する部分テキストを分類カテゴリ毎に抽出し、
（４）分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも１つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する文書分類方法を説明した。

１００文書分類装置、１１０文書入力部、１２０文書照合部、１３０部分テキスト抽出部、１４０学習部、１５０分類ルール格納部、１５０−１分類ルール、１６０サンプル文書抽出条件格納部、１６０−１サンプル文書抽出条件、１６１キーワード検索条件、１６２キーワード除外条件、１６３メールアドレス検索条件、１６４ＵＲＬ検索条件、２１０分類対象文書入力部、２２０分類対象文書分割部、２３０分類部、２４０分類結果判定部、３０１入力文書、３０２分類結果、３００ネットワーク監視装置、４００組織。

この発明は、文書を複数のカテゴリのうちのいずれかのカテゴリに分類するための分類ルールを作成する分類ルール生成装置、分類ルール生成プログラム等に関する。

Claims

文書をサンプル対象文書として入力する入力部と、
前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
を備えたことを特徴とする分類ルール生成装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
対応する前記分類カテゴリに適合する少なくとも一つの適正な適正キーワードを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記適正キーワードの存在位置に基づいて、前記適正キーワードを含む前記適正キーワードの周辺を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項１記載の分類ルール生成装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項２記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項３記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が、特定の種別を示す前記種別情報を含む場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項３記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報の示す前記種別に応じて、
前記分類カテゴリに対応する前記部分テキストのサイズを変更することを特徴とする請求項３記載の分類ルール生成装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
対応する前記分類カテゴリに適合しない少なくとも一つの不適な不適キーワードを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記不適キーワードの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記不適キーワードの存在位置に基づいて、前記不適キーワードを含む前記不適キーワードの周辺を前記サンプル対象文書から除外することを特徴とする請求項１記載の分類ルール生成装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項７記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項８記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報が、特定の種別を示す前記種別情報に該当しない場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項８記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報の示す前記種別に応じて、前記サンプル対象文書から除外する除外範囲のサイズを変更することを特徴とする請求項８記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対し、同一部分が重複する複数の前記部分テキストを抽出した場合には、前記複数の部分テキストを一つの前記部分テキストにまとめることを特徴とする請求項１記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項２記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードが、所定の範囲内に、所定の数以上存在する場合に、前記所定の範囲内を部分テキスト抽出の対象とすることを特徴とする請求項２記載の文書分類装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
それぞれの前記分類カテゴリ毎に、前記分類カテゴリに適合する適正な適正キーワードと、前記分類カテゴリに適合しない不適な不適キーワードとの少なくともいずれかを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードと前記不適キーワードとの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記適正キーワードと前記不適キーワードとの存在位置に基づいて、前記適正キーワードのみを含む領域を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項１記載の分類ルール生成装置。
前記分類カテゴリ毎に設定された前記抽出条件は、
前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、かつ、前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が特定の種別を示す前記種別情報に該当し、かつ、前記位置特定部によって特定された前記不適キーワードの種別情報が特定の種別を示す前記種別情報に該当しない場合に、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項１５記載の分類ルール生成装置。
前記入力部は、
前記サンプル対象文書として、電子メールを入力し、
前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
前記電子メールのヘッダに含まれる特定のメールアドレスを含み、
前記照合部は、
前記サンプル対象文書が前記メールアドレスに合致するかどうかを前記抽出条件を用いて照合し、
前記抽出部は、
前記照合部による前記メールアドレスを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項１に記載の分類ルール生成装置。
前記入力部は、
前記サンプル対象文書として、Ｗｅｂページを入力し、
前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）を含み、
前記照合部は、
前記サンプル対象文書が前記ＵＲＬに合致するかどうかを前記抽出条件を用いて照合し、
前記抽出部は、
前記照合部による前記ＵＲＬを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項１に記載の分類ルール生成装置。
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項７記載の分類ルール生成装置。
前記分類ルール生成装置は、さらに、
前記分類対象の文書を、前記抽出部によって抽出された前記部分テキストの平均サイズに合わせて分割する分割部を備えたことを特徴とする請求項１記載の分類ルール生成装置。
入力部と、格納部と、照合部と、抽出部と、学習部とを備えた分類ルール生成装置が実行する分類ルール生成方法において、
前記入力部が、サンプル対象文書を入力し、
前記格納部が、前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納し、
前記照合部が、前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合し、
前記抽出部が、前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試み、
前記学習部が、前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成することを特徴とする分類ルール生成方法。
コンピュータを、
サンプル対象文書を入力する入力部、
前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部、
として機能させるための分類ルール生成プログラム。
請求項２２記載の分類ルール生成プログラムを記録したコンピュータ読み取り可能な記録媒体。