JPWO2012095971A1 - 分類ルール生成装置及び分類ルール生成プログラム - Google Patents
分類ルール生成装置及び分類ルール生成プログラム Download PDFInfo
- Publication number
- JPWO2012095971A1 JPWO2012095971A1 JP2012552572A JP2012552572A JPWO2012095971A1 JP WO2012095971 A1 JPWO2012095971 A1 JP WO2012095971A1 JP 2012552572 A JP2012552572 A JP 2012552572A JP 2012552572 A JP2012552572 A JP 2012552572A JP WO2012095971 A1 JPWO2012095971 A1 JP WO2012095971A1
- Authority
- JP
- Japan
- Prior art keywords
- classification
- unit
- document
- partial text
- extraction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
文書をサンプル対象文書として入力する入力部と、
前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
を備えたことを特徴とする。
以下の説明では、文書分類装置100(分類ルール生成装置の一例)を、ネットワーク500を流れるテキストデータを監視するシステム(以下、ネットワーク監視システム)に適用した例を挙げる。しかし、ネットワーク監視システムへの適用に限定されるものではなく、文書分類装置100は、一般的な文書分類システムに適用できる。
(文書入力部110)
文書入力部110は、ネットワーク監視装置300が伝送路から取得した入力文書301を、学習のためのサンプル対象文書として入力する。サンプル対象文書は、部分テキストの抽出の対象である。
文書照合部120は、図4で述べたように、文書入力部110が取得した入力文書301を対象として、分類カテゴリ毎に設定されたサンプル文書抽出条件160−1(抽出条件)を用いた照合処理を実施する。サンプル文書抽出条件160−1は、予め設定されたキーワードを検索する文字列照合型の条件である。また、サンプル文書抽出条件160−1として、正規表現による検索式を含ませることができる。正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となるので、サンプル文書抽出条件160−1の柔軟性を向上できる。
文書照合部120は、ヒット位置取得部121(位置特定部)を備える。ヒット位置取得部121は、サンプル文書抽出条件160−1による照合の結果得られるキーワードのヒット位置、ヒット数などの情報を取得する。
部分テキスト抽出部130は、文書照合部120による照合結果を元に、入力文書301から、各分類カテゴリの学習用サンプルとして使用するための部分テキストを抽出する。「部分テキスト」とは入力文書301の一部分をなす文書である。そして「部分テキスト」は、分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルール150−1の作成に使用される。部分テキストは、図4に示すように、異なる分類カテゴリに対して同一の部分テキスト(例えば、部分テキスト11=部分テキスト21)が抽出されても良い。また、どの分類カテゴリのサンプルとしても使用しないような部分テキストが存在しても良い。極端な例として、部分テキスト抽出部130は、ある分類カテゴリについては、入力文書301から部分テキストを抽出しなくても良い。
学習部140は、部分テキスト抽出部130が入力文書301から分類カテゴリ毎に抽出した部分テキストを、それぞれの分類カテゴリのサンプル文書として部分テキスト抽出部130から受け取る。そして学習部140は、分類部230で使用する分類ルール150−1を生成する。なお、「生成」には分類ルールを「更新する」場合も含む。
<参考文献>WO2009/087757、「情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム」
分類対象文書入力部210は、ネットワーク監視装置300が伝送路から取得した入力文書301を、複数の分類カテゴリのうちのいずれかの分類カテゴリへ分類するための分類対象文書として入力する。
分類対象文書分割部220は、分類対象文書入力部210が取得した入力文書301を、文書の先頭から順に適当なサイズ毎に区切り、複数の文書に分割する。例えば分類対象文書分割部220は、分類対象文書である入力文書301を、部分テキスト抽出部130によって抽出された部分テキストの平均サイズに合わせて分割する。
分類部230は、分類対象文書分割部220によって分割された複数の分割文書を、分類ルール150−1を用いて分類カテゴリに分類する。あるいは図2に示すように、分類部230は、分類対象文書分割部220を経由せずに、分類対象文書入力部210に入力された入力文書301を、直接入力してもよい。
分類結果判定部240は、分類対象文書分割部220によって分割された各文書と、分類部230が出力した分類結果とを統合し、入力文書301に対する分類結果302を出力する。
次に、文書分類装置100の動作を説明する。文書分類装置100によって実行される処理は、大きく、学習処理S100と分類処理S200とに分けられる。文書分類装置100は、学習処理S100により生成された分類ルール150−1を用いて、入力文書301の分類処理S200を実施する。
図7は、サンプル文書抽出条件160−1としてキーワード検索条件161を用いた場合を示す図である。図7に示すように、サンプル文書抽出条件160−1は、分類カテゴリごとに、対応する分類カテゴリに適合する少なくとも一つの適正な適正キーワードから構成されている。例えば図7の分類カテゴリ1については、キーワード1−1,1−2・・・,1−iは、分類カテゴリ1にふさわしいキーワード(適正キーワード)である。
(2)文書照合部120は、分類カテゴリ毎に設定されたサンプル文書抽出条件160−1を用い、入力文書301をサンプル文書抽出条件160−1と照合する(S120)。照合の際、ヒット位置取得部121は、サンプル文書抽出条件160−1として設定されたキーワードのヒット位置、および、ヒット数を分類カテゴリ毎に取得する。
(3)部分テキスト抽出部130は、ヒット位置取得部121の照合処理S120よって取得された照合結果であるキーワードのヒット位置、ヒット数などの情報を元に、入力文書301から、各分類カテゴリの学習サンプルとして使用する部分テキストを、0個以上抽出する(S130)。すなわち、部分テキスト抽出部130は、文書照合部120による照合結果に基づいて、入力文書301から部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出を試みる。
(4)学習部140は、部分テキスト抽出部130の抽出処理S130によって、いずれかの分類カテゴリに対応する部分テキストが抽出された場合には、抽出された部分テキストをサンプル文書として所定の機械学習を行うことにより、分類ルール150−1を生成(更新も含む)する(S140)。
照合処理S120で使用するサンプル文書抽出条件160−1として、図7に示したように、分類カテゴリごとに複数のキーワードが指定されたキーワード検索条件161を用いることができる。キーワード検索条件161には、該当する分類カテゴリに関わりの深いキーワード(適正キーワード)を指定する。この場合、S130において部分テキスト抽出部130は、キーワード検索条件161により得られたヒット位置の周辺を、該当する分類カテゴリの部分テキストとして抽出する(具体的な抽出方法は後述する)。こうすることにより、該当する分類カテゴリに関わりの深い可能性が高い部分テキストのみを、サンプル文書として抽出することが可能となる。
(1)キーワード検索条件161によるヒット位置周辺のテキストを部分テキストとして抽出する方法として、文字数を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を基点とし、ヒット位置の前後それぞれ所定の文字数分のテキストを部分テキストとして抽出する。
(2)キーワード検索条件161によるヒット位置周辺のテキストを部分テキストとして抽出する別の方法として、文章数を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を含む文章を基点とし、ヒット位置の前後それぞれ所定の文章数分のテキストを部分テキストとして抽出する。文章数を数える手段としては、例えば日本語文書の場合、句点の数を数える方法が挙げられる。他の言語についても同様の方法が適用可能である。
(3)キーワード検索条件161のヒット位置周辺のテキストを、部分テキストとして抽出する更に別の方法として、段落を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を含む段落を部分テキストとして抽出する。例えば、HTML文書など、タグが埋め込まれた形式の文書では、タグの情報を使用することで、容易に段落を切り出すことが可能である。また、各ヒット位置を含む段落を基点とし、前後それぞれ所定の段落数分のテキストを部分テキストとして抽出することもできる。
キーワード検索条件161に基づき部分テキスト抽出部130よって抽出された部分テキストどうしは、共通部分を持つ場合がある。ある分類カテゴリに関わりの深いキーワードは、文書中のある箇所に集中して出現する傾向がある。そのため、共通部分を持つ複数の部分テキストを、個別の部分テキストとして抽出すると、同じようなサンプル文書を幾つも学習させる結果となる可能性が高い。そこで、部分テキスト抽出部130は、抽出した複数の部分テキストが共通部分を持つ場合は、それらの複数の部分テキストを、一つの部分テキストにまとめる。こうすることで、同じようなサンプル文書を幾つも学習部140に学習させることを回避できる。
図8は、2つの部分テキストを一つにまとめた場合を示す図である。図8は、キーワード検索条件161として、「社外秘」、「開発計画書」、「実行計画」のキーワードを指定した場合の、部分テキストの抽出の様子を示す。図8では、文字数を利用した部分テキス抽出の様子を表している。図8において、「社外秘」と「開発計画書」のヒット位置周辺の部分テキスト同士が共通部分を持つため、2つの部分テキストを一つにまとめて、一つの部分テキストとして抽出した結果を示している(S401)。
ある分類カテゴリについて、キーワード検索条件161を用いたキーワードのヒット数が、所定の個数未満である場合には、部分テキスト抽出部130は、入力文書301全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。ヒット数が少ない場合、入力文書301は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒット数による閾値を設けることで、学習部140の過剰な学習を回避できる。
図9は、キーワードに設定可能な種別IDを示す図である。キーワード検索条件161によって指定された各キーワードには、キーワード種別に応じた種別ID(種別情報の一例)を付加することが可能である。例えば、情報漏洩防止を目的とし、機密情報からなる分類カテゴリを設定した場合を想定する。図9に示すように、キーワードとして、「社外秘」、システム開発計画書」を設定したとする。「社外秘」のように機密等級に対応する種別IDを「1」と置き、「システム開発計画書」のように機密文書名に関するキーワードの種別IDを「2」と置くなどである。異なるキーワードに同一の種別IDを設定してもよい。例えば重要な複数のキーワードには、すべて種別ID「1」を設定するような場合である。
このとき、ある分類カテゴリにおいて、キーワード検索条件161によりヒットした所定の種別ID数が所定の個数未満である場合には、部分テキスト抽出部130は、入力文書301全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。例えば重要な複数のキーワードに種別ID「1」を設定した場合、ヒットした種別ID「1」が、所定の個数未満である場合である。ヒットした所定の種別ID数が少ない場合、入力文書301は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒットした種別ID数に閾値を設けることで、学習部140の過剰な学習を回避することができる。
また、キーワード検索条件161によりヒットしたキーワードの種別IDに応じて、部分テキスト抽出部130は、そのキーワードのヒット位置周辺から抽出する部分テキストのサイズを変更することができる。重要なキーワードに対応する種別IDに対しては、部分テキスト抽出部130によって大きなサイズの部分テキストを抽出するように設定することで、重要なキーワード周辺の部分テキストを、重点的に抽出できる。
キーワードの重要度を決定する方法の1つとして、キーワード長を利用する方法がある。例えば、機密情報からなる分類カテゴリを考えた場合、「計画書」と「システム開発計画書」とでは、「システム開発計画書」の方がより具体的なキーワードであり、その周辺に機密情報が記載されている可能性が高い。一方、「計画書」は一般用語に近いため、意図しない文書中にも出現する可能性が高い。これは、キーワード長が、キーワードの重要性と直接結びついた例である。そこで、長いキーワードに対しては、大きいサイズの部分テキストを抽出するように種別IDを設定する。この場合は、キーワードの種別IDがキーワード長に応じて定義されている必要がある。例えば、種別IDは小さいほど重要度が高いとする。長いキーワード(重要なキーワード)には一桁の種別IDを設定し、短いキーワードには、一桁以外の種別IDを設定する。部分テキスト抽出部130は、ヒットした種別IDが小さいほど、抽出する部分テキストのサイズを大きくする。
キーワード検索条件161に種別IDが定義されている場合、入力文書301が特定の種別ID(例えば種別ID「1」)を持つキーワードにヒットするときのみ、部分テキスト抽出部130は、入力文書301を部分テキストの抽出対象とすることができる。逆にいうと、特定の種別IDを持つキーワードがヒットしない場合には、部分テキスト抽出部130は、入力文書301を部分テキストの抽出対象としない。このような種別IDは複数存在しても良い。この場合、設定された全ての種別IDに対応するキーワードがヒットしたときのみ、入力文書301を部分テキストの抽出対象とする。
キーワード検索条件161によるヒット位置が、入力文書301のある箇所に集中して出現する場合、その箇所には、対応する分類カテゴリに関わりが深い内容が記述されている可能性が高い。逆に、ヒット位置が集中して出現しなければ、それらのキーワードは偶然、そこに記述されているだけの可能性が高い。そこで、設定された文字数範囲内のヒット数が所定の数以上であるような箇所のみを、部分テキストの抽出対象として設定する。具体的には、最初に部分テキストとするべきテキストサイズが設定されており、そのサイズの中に設定個数以上のキーワードがヒットした場合、そのテキストサイズを部分テキストとして抽出する。テキストサイズだけからは部分テキストとすべき範囲は定まらないので、決定規則は別に設定しておく。例えば、ヒットした複数のキーワードのうち、先頭のキーワードを基準に部分テキストの範囲を決定する決定規則が考えられる。
照合処理S120で使用するサンプル文書抽出条件160−1として、複数のキーワード(不適キーワード)が指定されたキーワード除外条件162を用いても良い。キーワード除外条件162には、該当する分類カテゴリには相応しくない不適な不適キーワードを指定する。それぞれの分類カテゴリについては、キーワード検索条件161とキーワード除外条件162との、少なくともいずれかを設定することができる。この場合、抽出処理S130では、部分テキスト抽出部130は、キーワード除外条件162によって得られた不適キーワードのヒット位置の周辺を、対応する分類カテゴリの部分テキスト抽出対象から除外し、残りの部分から、サンプル文書として使用する部分テキストを抽出する。これにより、対応する分類カテゴリに相応しくない可能性が高い部分テキストを、サンプル文書から除外することができ、結果として、分類カテゴリに関わりの深い部分テキストのみを抽出することが可能となる。
ある分類カテゴリにおいて、キーワード除外条件162によるヒット数が、所定の数以上(設定値以上)である場合には、入力文書301全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。すなわち、この場合、部分テキスト抽出部130は、入力文書301から、その分類カテゴリについては、対応する部分テキストを抽出しない。ヒット数が多い場合、入力文書301は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒット数による閾値を設けることで、過剰な学習を回避することができる。
キーワード除外条件162で指定された各キーワードには、キーワード検索条件161のときと同様に、種別ID(識別情報)を定義することができる。適正キーワードの場合と同様に、異なる不適キーワードに同一の種別IDを設定してもよい。このとき、ある分類カテゴリにおいて、キーワード除外条件162によりヒットした所定の種別ID数が、所定の数以上(設定値以上)である場合には、入力文書301全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。ヒットした種別ID数が多い場合、入力文書301は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒットした種別ID数による閾値を設けることで、過剰な学習を回避することができる。
また、キーワード除外条件162によりヒットしたキーワードの種別IDに応じて、「対応するヒット位置周辺から除外する部分テキストのサイズ」(除外範囲のサイズ)を変更することができる。これは、キーワード検索条件161の種別IDを利用して、抽出する部分テキストサイズを変更することと対応している。
キーワード除外条件162に種別IDが定義されている場合、入力文書301が、所定の種別IDを持つキーワードにヒットしないときのみ、部分テキストの抽出対象とすることができる。このような種別IDは複数存在しても良い。この場合、設定された全ての種別IDに対応するキーワードがヒットしないときのみ、入力文書301を部分テキストの抽出対象とする。
図11は、ある分類カテゴリにおいてキーワード除外条件162のみを設定した場合の抽出処理S130を示す図である。ある分類カテゴリにおいて、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、キーワード除外条件162のみを設定する場合を考える。キーワード除外条件162により除外された残りの部分から、サンプル文書として使用する部分テキストを抽出する手段が必要となる。この手段の一例を、図11を用いて説明する。図11では、キーワード除外条件162として、「社外秘」、「開発計画書」、「実行計画」の不適キーワードを指定している。まず、部分テキスト抽出部130は、指定された不適キーワードの周辺のテキストを部分テキスト抽出対象から除外する(S501)。続いて、部分テキスト抽出部130は、残されたテキストの先頭から順に、所定のサイズの部分テキストを抽出し、所定のサイズの部分テキストをスキップする、という処理を文書の末尾まで繰り返す(S502)。こうすることで、部分テキスト抽出部130は、キーワード除外条件162によりヒットした不適キーワード周辺のテキストをサンプル文書として抽出せずに、残りの部分から部分テキストを抽出できる。
ある分類カテゴリにおいて、照合処理S120で使用するサンプル文書抽出条件160−1として、キーワード検索条件161とキーワード除外条件162との両方を設定することもできる。この場合、部分テキスト抽出部130は、キーワード除外条件162によりテキストを除外した後、キーワード検索条件161の適正キーワードのみを含む残りの部分(領域)から部分テキストを抽出する。
図12は、キーワード検索条件161、キーワード除外条件162の併用の場合を示す図である。例えば、図12に示すように、プロジェクトAに関する機密情報を含む分類カテゴリ(分類カテゴリA)と、プロジェクトBに関する機密情報を含む分類カテゴリ(分類カテゴリB)とを別々の分類カテゴリとして定義する。この場合、両方の分類カテゴリに対して、キーワード検索条件161として「社外秘」というキーワードを設定することは有効であると考えられる。しかしながら、「社外秘」というキーワードのみでは、プロジェクトAとプロジェクトBを区別できない。このため、分類カテゴリAに対するキーワード除外条件162として、キーワード「プロジェクトB」を設定する。
これにより、分類カテゴリBに関わりが深い部分テキストを、分類カテゴリAのサンプルとして抽出することを回避できる。
キーワード検索条件161とキーワード除外条件162の両方を設定し、かつ、両条件に種別IDが定義されてもよい。この場合、部分テキスト抽出部130は、入力文書301が、キーワード検索条件161における所定の種別IDを持つキーワードにヒットし、かつ、キーワード除外条件162における所定の種別IDを持つキーワードにヒットしないときのみ、入力文書301を、その分類カテゴリについて、部分テキストの抽出対象とすることができる。このような種別IDは複数存在しても良い。この場合、部分テキスト抽出部130は、キーワード検索条件161において設定された全ての種別IDに対応するキーワードがヒットし、かつ、キーワード除外条件162において設定された全ての種別IDに対応するキーワードがヒットしない入力文書301を、その分類カテゴリについて、部分テキストの抽出対象とする。
入力文書301が電子メールである場合、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件163を用いても良い。メールアドレス検索条件163は、キーワード検索条件161やキーワード除外条件162と併用して使用する。具体的には、部分テキスト抽出部130は、メールアドレス検索条件163による照合結果に応じて、キーワード検索条件161やキーワード除外条件162で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部120は、入力文書301がメールアドレスに合致するかどうかをメールアドレス検索条件163(抽出条件)を用いて照合する。部分テキスト抽出部130は、文書照合部120によるメールアドレスを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。
入力文書301がWebページである場合、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、URL(Uniform Resource Locator)を検索するURL検索条件164を用いても良い。URL検索条件164は、キーワード検索条件161やキーワード除外条件162と併用して使用する。具体的には、部分テキスト抽出部130は、URL検索条件164による照合結果に応じて、キーワード検索条件161やキーワード除外条件162で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部120は、入力文書301がURLに合致するかどうかをURL検索条件164(抽出条件)を用いて照合する。部分テキスト抽出部130は、文書照合部120によるURLを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。
(1)分類対象文書入力部210は、新規文書を入力文書301として受け取る(S210)。
(2)分類対象文書分割部220は、入力文書301を先頭から所定のサイズ毎に等分割する(S220)。
(3)分類部230は、処理S220にて分割された各文書に対して、分類ルール150−1用いた分類処理を実施する(S230)。
(4)分類結果判定部240は、S230により出された、分割された各文書の判定結果を統合し、入力文書301の総合判定結果として分類結果302を出力する(S240)。
図14、図15を参照して実施の形態2を説明する。実施の形態2は、コンピュータである文書分類装置100(分類ルール生成装置)のハードウェア構成を説明する。
図14は、文書分類装置100の外観の一例を示す図である。図15は、文書分類装置100のハードウェア資源の一例を示す図である。
入力された文書を複数の分類カテゴリに分類する文書分類装置であって、
(1)複数のサンプル文書を入力する文書入力部と、
(2)入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合する文書照合部と、
(3)文書照合部による照合結果を元に、サンプル文書から学習に使用する0個以上の部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出部と、
(4)分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する学習部と
を有する書分類装置。
さらに、
(5)1つ以上の分類対象文書を入力する分類文書入力部と、
(6)入力された分類対象文書を、学習に使用する部分テキストの平均サイズに合わせて、先頭から順に分割する分類対象文書分割部と、
(7)アルゴリズムに対応する分類ルールを用いる少なくとも1つのアルゴリズムにより、分割された個々の文書を複数の分類カテゴリに分類する分類部と、
(8)分割された個々の文書の分類結果を統合し、分類対象文書に対する総合分類結果を判定する分類結果判定部と
を有する文書分類装置。
サンプル文書抽出条件は、分類カテゴリ毎に、複数のキーワードが指定されたキーワード検索条件を含み、
文書照合部のヒット位置取得部は、サンプル対象文書に対して、分類カテゴリ毎のキーワード検索条件による文字列のヒット位置とヒット数とを取得し、
部分テキスト抽出部130は、キーワード検索条件によるヒット位置周辺の部分テキスを抽出する文書分類装置を説明した。
部分テキスト抽出部は、キーワード検索条件によるヒット数が所定の数未満であった場合には、抽出する部分テキストを0個とする文書分類装置を説明した。
キーワード検索条件で指定されたキーワードは、種別番号が設定されており、
文書照合部120は、種別IDによるキーワード種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類に応じて、抽出する部分テキストのサイズを変更する文書分類装置を説明した。
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード種類(種別ID)の数が、所定の数未満であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードが、所定の範囲内に、所定の数以上存在する箇所のみを部分テキスト抽出の対象とする文書分類装置を説明した。
キーワード検索条件で指定されたキーワードには、種別番号(種別ID)が付属しており、かつ、分類カテゴリには、キーワード検索条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能であり、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類の組合せが最小種別集合を含まない場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード除外条件を含み、
ヒット位置取得部は、文書照合部120による照合により、サンプル対象文書に対して分類カテゴリ毎のキーワード除外条件による文字列のヒット位置とヒット数を取得し、
部分テキスト抽出部は、キーワード除外条件によるヒット位置周辺の部分テキスを、抽出対象から除外し、残りの部分から0個以上の部分テキスを抽出する書分類装置を説明した。
部分テキスト抽出部は、キーワード除外条件によるヒット数が所定の数以上であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
キーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類に応じて、抽出対象から除外する部分テキストのサイズを変更する文書分類装置を説明した。
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の数が、所定の数以上であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
キーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、かつ、分類カテゴリには、キーワード除外条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の組合せが、最小種別集合を含む場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード検索条件とキーワード除外条件とを含み、
キーワード検索条件およびキーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、
分類カテゴリには、キーワード検索条件とキーワード除外条件中の種別番号からなる種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード、およびキーワード除外条件によりヒットしなかったキーワードの種類の組合せが、種別集合を含まない場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
サンプル対象文書として電子メールを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件を含み、
部分テキスト抽出部は、メールアドレス検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。
サンプル対象文書としてWebページを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、URLを検索するURL検索条件を含み、
部分テキスト抽出部は、URL検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。
入力された分類対象文書を複数の分類カテゴリのいずれかに分類する文書分類方法であって、
(1)複数のサンプル文書を入力するサンプル文書入力し、
(2)入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合し、
(3)照合結果を元に、サンプル文書から学習に使用する部分テキストを分類カテゴリ毎に抽出し、
(4)分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する文書分類方法を説明した。
Claims (23)
- 文書をサンプル対象文書として入力する入力部と、
前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
を備えたことを特徴とする分類ルール生成装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
対応する前記分類カテゴリに適合する少なくとも一つの適正な適正キーワードを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記適正キーワードの存在位置に基づいて、前記適正キーワードを含む前記適正キーワードの周辺を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項1記載の分類ルール生成装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項2記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項3記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が、特定の種別を示す前記種別情報を含む場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項3記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報の示す前記種別に応じて、
前記分類カテゴリに対応する前記部分テキストのサイズを変更することを特徴とする請求項3記載の分類ルール生成装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
対応する前記分類カテゴリに適合しない少なくとも一つの不適な不適キーワードを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記不適キーワードの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記不適キーワードの存在位置に基づいて、前記不適キーワードを含む前記不適キーワードの周辺を前記サンプル対象文書から除外することを特徴とする請求項1記載の分類ルール生成装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項7記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項8記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報が、特定の種別を示す前記種別情報に該当しない場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項8記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報の示す前記種別に応じて、前記サンプル対象文書から除外する除外範囲のサイズを変更することを特徴とする請求項8記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対し、同一部分が重複する複数の前記部分テキストを抽出した場合には、前記複数の部分テキストを一つの前記部分テキストにまとめることを特徴とする請求項1記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項2記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードが、所定の範囲内に、所定の数以上存在する場合に、前記所定の範囲内を部分テキスト抽出の対象とすることを特徴とする請求項2記載の文書分類装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
それぞれの前記分類カテゴリ毎に、前記分類カテゴリに適合する適正な適正キーワードと、前記分類カテゴリに適合しない不適な不適キーワードとの少なくともいずれかを含み、
前記照合部は、
前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードと前記不適キーワードとの存在位置を特定する位置特定部を備え、
前記抽出部は、
前記位置特定部が特定した前記適正キーワードと前記不適キーワードとの存在位置に基づいて、前記適正キーワードのみを含む領域を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項1記載の分類ルール生成装置。 - 前記分類カテゴリ毎に設定された前記抽出条件は、
前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、かつ、前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が特定の種別を示す前記種別情報に該当し、かつ、前記位置特定部によって特定された前記不適キーワードの種別情報が特定の種別を示す前記種別情報に該当しない場合に、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項15記載の分類ルール生成装置。 - 前記入力部は、
前記サンプル対象文書として、電子メールを入力し、
前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
前記電子メールのヘッダに含まれる特定のメールアドレスを含み、
前記照合部は、
前記サンプル対象文書が前記メールアドレスに合致するかどうかを前記抽出条件を用いて照合し、
前記抽出部は、
前記照合部による前記メールアドレスを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項1に記載の分類ルール生成装置。 - 前記入力部は、
前記サンプル対象文書として、Webページを入力し、
前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
URL(Uniform Resource Locator)を含み、
前記照合部は、
前記サンプル対象文書が前記URLに合致するかどうかを前記抽出条件を用いて照合し、
前記抽出部は、
前記照合部による前記URLを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項1に記載の分類ルール生成装置。 - 前記抽出部は、
前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項7記載の分類ルール生成装置。 - 前記分類ルール生成装置は、さらに、
前記分類対象の文書を、前記抽出部によって抽出された前記部分テキストの平均サイズに合わせて分割する分割部を備えたことを特徴とする請求項1記載の分類ルール生成装置。 - 入力部と、格納部と、照合部と、抽出部と、学習部とを備えた分類ルール生成装置が実行する分類ルール生成方法において、
前記入力部が、サンプル対象文書を入力し、
前記格納部が、前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納し、
前記照合部が、前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合し、
前記抽出部が、前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試み、
前記学習部が、前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成することを特徴とする分類ルール生成方法。 - コンピュータを、
サンプル対象文書を入力する入力部、
前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部、
として機能させるための分類ルール生成プログラム。 - 請求項22記載の分類ルール生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2011/050384 WO2012095971A1 (ja) | 2011-01-13 | 2011-01-13 | 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5460887B2 JP5460887B2 (ja) | 2014-04-02 |
JPWO2012095971A1 true JPWO2012095971A1 (ja) | 2014-06-09 |
Family
ID=46506894
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012552572A Active JP5460887B2 (ja) | 2011-01-13 | 2011-01-13 | 分類ルール生成装置及び分類ルール生成プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US9323839B2 (ja) |
JP (1) | JP5460887B2 (ja) |
CN (1) | CN103299304B (ja) |
WO (1) | WO2012095971A1 (ja) |
Families Citing this family (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9836455B2 (en) * | 2011-02-23 | 2017-12-05 | New York University | Apparatus, method and computer-accessible medium for explaining classifications of documents |
US9298814B2 (en) * | 2013-03-15 | 2016-03-29 | Maritz Holdings Inc. | Systems and methods for classifying electronic documents |
US11928606B2 (en) | 2013-03-15 | 2024-03-12 | TSG Technologies, LLC | Systems and methods for classifying electronic documents |
WO2014208427A1 (ja) * | 2013-06-24 | 2014-12-31 | 日本電信電話株式会社 | セキュリティ情報管理システム及びセキュリティ情報管理方法 |
EP3012748A4 (en) * | 2013-07-30 | 2017-05-10 | Nippon Telegraph and Telephone Corporation | Information management device, and information management method |
US10019535B1 (en) * | 2013-08-06 | 2018-07-10 | Intuit Inc. | Template-free extraction of data from documents |
US10282479B1 (en) * | 2014-05-08 | 2019-05-07 | Google Llc | Resource view data collection |
WO2016129124A1 (ja) * | 2015-02-13 | 2016-08-18 | 株式会社Ubic | データ分析システム、データ分析方法、およびデータ分析プログラム |
JP6565628B2 (ja) * | 2015-11-19 | 2019-08-28 | 富士通株式会社 | 検索プログラム、検索装置および検索方法 |
WO2017147036A1 (en) | 2016-02-23 | 2017-08-31 | Carrier Corporation | Extraction of policies from natural language documents for physical access control |
JP6373320B2 (ja) * | 2016-09-08 | 2018-08-15 | ヤフー株式会社 | 生成装置、生成方法、及び生成プログラム |
US11010675B1 (en) | 2017-03-14 | 2021-05-18 | Wells Fargo Bank, N.A. | Machine learning integration for a dynamically scaling matching and prioritization engine |
US11138269B1 (en) | 2017-03-14 | 2021-10-05 | Wells Fargo Bank, N.A. | Optimizing database query processes with supervised independent autonomy through a dynamically scaling matching and priority engine |
US11151472B2 (en) | 2017-03-31 | 2021-10-19 | At&T Intellectual Property I, L.P. | Dynamic updating of machine learning models |
JP6834797B2 (ja) * | 2017-06-19 | 2021-02-24 | 富士通株式会社 | 抽出プログラム、抽出方法および抽出装置 |
JP7271987B2 (ja) * | 2019-02-14 | 2023-05-12 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及びプログラム |
JP7273293B2 (ja) * | 2019-03-28 | 2023-05-15 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、プログラム |
US20210256396A1 (en) * | 2020-02-14 | 2021-08-19 | Secude Ag | System and method of providing and updating rules for classifying actions and transactions in a computer system |
US11908466B2 (en) * | 2020-06-09 | 2024-02-20 | Servicenow, Inc. | Automatically determining a descriptive identifier for a process grouping |
CN111767403B (zh) * | 2020-07-07 | 2023-10-31 | 腾讯科技(深圳)有限公司 | 一种文本分类方法和装置 |
CN111930976A (zh) * | 2020-07-16 | 2020-11-13 | 平安科技(深圳)有限公司 | 演示文稿生成方法、装置、设备及存储介质 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002133389A (ja) | 2000-10-26 | 2002-05-10 | Nippon Telegr & Teleph Corp <Ntt> | データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体 |
JP3701197B2 (ja) * | 2000-12-28 | 2005-09-28 | 松下電器産業株式会社 | 分類への帰属度計算基準作成方法及び装置 |
JP2004234051A (ja) | 2003-01-28 | 2004-08-19 | Fuji Xerox Co Ltd | 文章分類装置およびその方法 |
JP4314853B2 (ja) * | 2003-03-20 | 2009-08-19 | 富士通株式会社 | 文書分類装置および文書分類プログラム |
US20050060643A1 (en) * | 2003-08-25 | 2005-03-17 | Miavia, Inc. | Document similarity detection and classification system |
JP4553300B2 (ja) | 2004-09-30 | 2010-09-29 | Kddi株式会社 | コンテンツ識別装置 |
JP4720213B2 (ja) * | 2005-02-28 | 2011-07-13 | 富士通株式会社 | 解析支援プログラム、装置及び方法 |
JP4332129B2 (ja) * | 2005-04-20 | 2009-09-16 | 富士通株式会社 | 文書分類プログラム、文書分類方法および文書分類装置 |
JP4429236B2 (ja) * | 2005-08-19 | 2010-03-10 | 富士通株式会社 | 分類ルール作成支援方法 |
JP4757016B2 (ja) | 2005-12-21 | 2011-08-24 | 富士通株式会社 | 文書分類プログラム、文書分類装置、および文書分類方法 |
JP4362492B2 (ja) | 2006-03-31 | 2009-11-11 | 大学共同利用機関法人情報・システム研究機構 | 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム |
JP5146979B2 (ja) * | 2006-06-02 | 2013-02-20 | 株式会社国際電気通信基礎技術研究所 | 自然言語における多義解消装置及びコンピュータプログラム |
JP5137567B2 (ja) | 2007-12-28 | 2013-02-06 | 三菱電機株式会社 | 検索フィルタリング装置及び検索フィルタリングプログラム |
US8442926B2 (en) | 2008-01-08 | 2013-05-14 | Mitsubishi Electric Corporation | Information filtering system, information filtering method and information filtering program |
US8401842B1 (en) * | 2008-03-11 | 2013-03-19 | Emc Corporation | Phrase matching for document classification |
CN101561805B (zh) * | 2008-04-18 | 2014-06-25 | 日电(中国)有限公司 | 文档分类器生成方法和系统 |
CN101261629A (zh) * | 2008-04-21 | 2008-09-10 | 上海大学 | 基于自动分类技术的特定信息搜索方法 |
JP5288959B2 (ja) * | 2008-09-17 | 2013-09-11 | 三菱電機株式会社 | データ分類装置及びコンピュータプログラム |
US8311960B1 (en) * | 2009-03-31 | 2012-11-13 | Emc Corporation | Interactive semi-supervised machine learning for classification |
US8719302B2 (en) | 2009-06-09 | 2014-05-06 | Ebh Enterprises Inc. | Methods, apparatus and software for analyzing the content of micro-blog messages |
US8745091B2 (en) * | 2010-05-18 | 2014-06-03 | Integro, Inc. | Electronic document classification |
-
2011
- 2011-01-13 JP JP2012552572A patent/JP5460887B2/ja active Active
- 2011-01-13 US US13/996,040 patent/US9323839B2/en active Active
- 2011-01-13 CN CN201180064827.3A patent/CN103299304B/zh not_active Expired - Fee Related
- 2011-01-13 WO PCT/JP2011/050384 patent/WO2012095971A1/ja active Application Filing
Also Published As
Publication number | Publication date |
---|---|
CN103299304B (zh) | 2016-09-28 |
JP5460887B2 (ja) | 2014-04-02 |
US9323839B2 (en) | 2016-04-26 |
WO2012095971A1 (ja) | 2012-07-19 |
US20130275433A1 (en) | 2013-10-17 |
CN103299304A (zh) | 2013-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5460887B2 (ja) | 分類ルール生成装置及び分類ルール生成プログラム | |
US10387455B2 (en) | On-the-fly pattern recognition with configurable bounds | |
US8370278B2 (en) | Ontological categorization of question concepts from document summaries | |
US8630989B2 (en) | Systems and methods for information extraction using contextual pattern discovery | |
JP5751253B2 (ja) | 情報抽出システム、方法及びプログラム | |
US8150827B2 (en) | Methods for enhancing efficiency and cost effectiveness of first pass review of documents | |
Stamatatos | Authorship Verification: A Review of Recent Advances. | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
CN109492118A (zh) | 一种数据检测方法及检测装置 | |
Cabral et al. | FakeWhastApp. BR: NLP and Machine Learning Techniques for Misinformation Detection in Brazilian Portuguese WhatsApp Messages. | |
Chawla et al. | Automatic bug labeling using semantic information from LSI | |
JP2012088803A (ja) | 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム | |
JP5056337B2 (ja) | 情報検索システム | |
CN112016317A (zh) | 基于人工智能的敏感词识别方法、装置及计算机设备 | |
Zhai et al. | A girl has a name, and it's... adversarial authorship attribution for deobfuscation | |
JP6194180B2 (ja) | 文章マスク装置及び文章マスクプログラム | |
CN112087473A (zh) | 文档下载方法、装置、计算机可读存储介质和计算机设备 | |
JP6154072B2 (ja) | 情報分析システム、情報分析方法及び情報分析プログラム | |
WO2011048672A1 (ja) | データ処理装置及びデータ処理方法及びプログラム | |
JP2022089132A (ja) | 情報セキュリティ装置及びその方法 | |
JP2022518659A (ja) | エクスプロイト・キット検出 | |
Suliman et al. | Explicit words filtering mechanism on web browser for kids | |
Zhai et al. | Adversarial Authorship Attribution for Deobfuscation | |
JP2009157510A (ja) | スパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラム | |
CN115098806A (zh) | 检测有害url的方法、系统、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131217 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140114 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5460887 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |