JPWO2012095971A1 - 分類ルール生成装置及び分類ルール生成プログラム - Google Patents

分類ルール生成装置及び分類ルール生成プログラム Download PDF

Info

Publication number
JPWO2012095971A1
JPWO2012095971A1 JP2012552572A JP2012552572A JPWO2012095971A1 JP WO2012095971 A1 JPWO2012095971 A1 JP WO2012095971A1 JP 2012552572 A JP2012552572 A JP 2012552572A JP 2012552572 A JP2012552572 A JP 2012552572A JP WO2012095971 A1 JPWO2012095971 A1 JP WO2012095971A1
Authority
JP
Japan
Prior art keywords
classification
unit
document
partial text
extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012552572A
Other languages
English (en)
Other versions
JP5460887B2 (ja
Inventor
秀哉 柴田
秀哉 柴田
加藤 守
守 加藤
光則 郡
光則 郡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Application granted granted Critical
Publication of JP5460887B2 publication Critical patent/JP5460887B2/ja
Publication of JPWO2012095971A1 publication Critical patent/JPWO2012095971A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

文書分類装置100では、サンプル文書抽出条件格納部160は、文書入力部110により入力された入力文書301から部分テキストを分類カテゴリ毎に抽出する抽出条件であって、複数の分類カテゴリ毎に設定された抽出条件であるサンプル文書抽出条件160−1を格納する。文書照合部120は、サンプル文書抽出条件160−1と入力文書301とを照合する。文書抽出部130は、文書照合部120の照合結果に基づいて、入力文書301から分類カテゴリ毎に部分テキストを抽出する。学習部140は、文書抽出部120によって抽出された部分テキストをサンプル文書として、所定の機械学習を行うことにより分類ルール150−1を生成する。

Description

この発明は、文書を複数のカテゴリのうちのいずれかのカテゴリに分類するための分類ルールを作成する分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム等に関する。
文書を複数のカテゴリのうちのいずれかのカテゴリへ自動的に分類する方式の1つとして、機械学習による自動分類がある。機械学習を用いた文書自動分類では、文書分類装置は、予め複数の分類カテゴリに分けられた学習サンプル文書を用いて分類カテゴリごとの特徴を学習し、学習結果に基づいて、分類対象文書の分類を行う。
したがって、機械学習による文書分類装置の分類の精度は、学習サンプル文書に依存する。ところが正しく分類された学習サンプル文書を人手で大量に集めるには手間がかかるため、実用化における課題であった。この課題に対して、特許文献1では、未分類のサンプル文書に対して文字列照合を用いたルールベースのフィルタリングを実施することにより、各カテゴリに分類された学習サンプル文書を作成する技術が開示されている。
特開2010−72779号公報
しかし、入力された未知文書のサイズが大きい場合や、未知文書内に複数の話題が混在する場合は、特許文献1の方法では、未知文書が、ある分類カテゴリのサンプル文書と判定されても、実際にはその分類カテゴリと無関係な話題が含まれる可能性が高い。例えば、入力文書がWebページであって、個人の日記が記述されている場合、日記の日付によって、扱っている話題が全く異なることは良くある。また別の例として、入力文書が電子メールであって、複数のファイルが添付されている場合、添付ファイルの内容はファイル毎に全く異なるかもしれない。このような無関係な話題は、当該分類カテゴリへの文書分類条件(分類ルール)を生成する上で不要な情報であり、分類精度を低下させる要因ともなり得る。
また、未知文書全体をサンプルとして学習に使用させると、学習対象となるテキストサイズが膨大となり、学習速度の低下する、作成された分類ルールのサイズが肥大化するなど、システムの処理性能低下を招く要因ともなる。
本発明は、所属カテゴリが未知の入力文書に対して、文字列照合のようなルールベースのフィルタリングを実施する。そして、その後、文字列のヒット位置など、フィルタリングの実行により得られる情報に基づいて、入力文書から入力文書の一部分である部分テキストを抽出し、分類ルールを生成するための学習サンプルとして使用する。これにより、本発明では、不要な情報を含まない学習サンプル収集の可能な分類ルール生成装置の提供を目的とする。
この発明の分類ルール生成装置は、
文書をサンプル対象文書として入力する入力部と、
前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
を備えたことを特徴とする。
この発明の分類ルール生成装置によれば、不要な情報を含まない学習サンプルを収集する分類ルール生成装置を提供できる。
実施の形態1におけるネットワーク監視システムの構成図。 実施の形態1におけるはネットワーク監視装置300の構成図。 実施の形態1におけるサンプル文書抽出条件160−1を示す図。 実施の形態1における部分テキストの抽出を説明する図。 実施の形態1における文書分類装置100の動作概要を示すフローチャート。 実施の形態1における文書分類装置100の学習処理S100の詳細動作を示すフローチャート。 実施の形態1におけるキーワード検索条件161を示す図。 実施の形態1における2つの部分テキストを一つにまとめた場合を示す図。 実施の形態1における種別IDの設定を示す図。 実施の形態1におけるキーワード除外条件162を説明する図。 実施の形態1におけるある分類カテゴリにおいてキーワード除外条件162のみを設定した場合を説明する図。 実施の形態1におけるキーワード検索条件161とキーワード除外条件162との併用を説明する図。 実施の形態1における分類処理S200の詳細動作を示すフローチャート。 実施の形態1における文書分類装置100の外観の一例を示す図。 実施の形態1における文書分類装置100のハードウェア構成を示す図。
実施の形態1.
以下の説明では、文書分類装置100(分類ルール生成装置の一例)を、ネットワーク500を流れるテキストデータを監視するシステム(以下、ネットワーク監視システム)に適用した例を挙げる。しかし、ネットワーク監視システムへの適用に限定されるものではなく、文書分類装置100は、一般的な文書分類システムに適用できる。
図1は、文書分類装置100をネットワーク監視システムに適用した場合の構成図である。図1にように、ネットワーク監視装置300は、組織400内の組織内ネットワーク上に配置される。組織400は、ネットワーク500を通じて、インターネット510と接続される。
組織400は、ユーザ端末装置401、402、403、各ユーザ端末装置にアクセスするユーザ411、412、413、ネットワーク監視装置300を管理するための管理用端末装置404、及び管理用端末装置404にアクセス可能な管理者414から構成される。管理者414は、管理用端末装置404を通じて、ネットワーク監視装置300の管理、設定などを行う。なお、ユーザ数やサーバ構成については、図1は一例である。任意のユーザ数、任意のサーバ構成に対して、文書分類装置100を適用できる。
ネットワーク監視装置300は、組織400の各ユーザがネットワーク500へ送信する情報を取得することで、組織400の各ユーザが適切にネットワークを利用しているか否かを監視する。ネットワーク監視装置300が取得する情報は、Webへの書き込みテキスト、電子メール、送信されたファイルなどである。また、ネットワーク監視装置300が実施する監視処理としては、送信情報の集計処理や、情報漏洩防止のためのテキスト監視処理である。ネットワーク監視装置300によるテキスト監視処理を実現するために、本実施の形態1の文書分類装置100を適用する。管理者414は、ネットワーク監視装置300が実施する監視処理の結果を確認し、不適切にネットワークを利用している疑いがあるユーザがいた場合、警告を出すなどの行動を取ることができる。
図2は、ネットワーク監視装置300の構成図である。次に、図2を参照してネットワーク監視装置300の構成を説明する。文書分類装置100は、ネットワーク監視装置300の一部の装置として適用される。文書分類装置100は、文書入力部110(入力部)、文書照合部120(照合部)、部分テキスト抽出部130(抽出部)、学習部140、分類ルール格納部150、分類カテゴリ毎のサンプル文書抽出条件格納部160、分類対象文書入力部210、分類対象文書分割部220(分割部)、分類部230、及び分類結果判定部240を備える。
図3は、サンプル文書抽出条件格納部160に格納されるサンプル文書抽出条件160−1の例を示す図である。図3に示すように、サンプル文書抽出条件160−1として、キーワード検索条件161、キーワード除外条件162、メールアドレス検索条件163、URL検索条件164等が含まれる。これらについては、後述する。
図4は、文書分類装置100の特徴を説明する図である。文書分類装置100の特徴は主に、部分テキスト抽出部130にある。図4を参照して、文書分類装置100の特徴の概要を説明する。部分テキスト抽出部130は、文書照合部120による照合結果に基づいて、入力文書301から部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出を試みる。すなわち、図4に示すように、同一の入力文書301を対象として、部分テキスト抽出部130は、分類カテゴリ1、分類カテゴリ2のそれぞれについて、所定の抽出規則(後述する文字数、文章数、段落数など)部分テキストの抽出を試みる。図4は、部分テキスト抽出部130が、分類カテゴリ1について部分テキスト11,12を抽出し、分類カテゴリ2について部分テキスト21,22、23を抽出した場合を示している。すなわち図4は、サンプル文書抽出条件160−1としてキーワード検索条件161を用いた場合を示している。文書照合部120によって、各分類カテゴリごとにキーワードがヒットする。図4では、分類カテゴリ1のキーワードは黒丸であり、分類カテゴリ2のキーワードは白丸である。部分テキスト抽出部130は、ヒットしたキーワードを含む周辺を、部分テキストとして抽出する。
分類カテゴリ数に特別な制限はなく、1以上の任意の自然数が設定可能である。分類カテゴリ毎のサンプル文書抽出条件160−1は、管理者404等により設定される。
以下に、各構成要素の機能を説明する。
(文書入力部110)
文書入力部110は、ネットワーク監視装置300が伝送路から取得した入力文書301を、学習のためのサンプル対象文書として入力する。サンプル対象文書は、部分テキストの抽出の対象である。
(文書照合部120)
文書照合部120は、図4で述べたように、文書入力部110が取得した入力文書301を対象として、分類カテゴリ毎に設定されたサンプル文書抽出条件160−1(抽出条件)を用いた照合処理を実施する。サンプル文書抽出条件160−1は、予め設定されたキーワードを検索する文字列照合型の条件である。また、サンプル文書抽出条件160−1として、正規表現による検索式を含ませることができる。正規表現とすることで、単純なキーワードに加え、より複雑なパターンを検索することが可能となるので、サンプル文書抽出条件160−1の柔軟性を向上できる。
(ヒット位置取得部121)
文書照合部120は、ヒット位置取得部121(位置特定部)を備える。ヒット位置取得部121は、サンプル文書抽出条件160−1による照合の結果得られるキーワードのヒット位置、ヒット数などの情報を取得する。
(部分テキスト抽出部130)
部分テキスト抽出部130は、文書照合部120による照合結果を元に、入力文書301から、各分類カテゴリの学習用サンプルとして使用するための部分テキストを抽出する。「部分テキスト」とは入力文書301の一部分をなす文書である。そして「部分テキスト」は、分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルール150−1の作成に使用される。部分テキストは、図4に示すように、異なる分類カテゴリに対して同一の部分テキスト(例えば、部分テキスト11=部分テキスト21)が抽出されても良い。また、どの分類カテゴリのサンプルとしても使用しないような部分テキストが存在しても良い。極端な例として、部分テキスト抽出部130は、ある分類カテゴリについては、入力文書301から部分テキストを抽出しなくても良い。
(学習部140)
学習部140は、部分テキスト抽出部130が入力文書301から分類カテゴリ毎に抽出した部分テキストを、それぞれの分類カテゴリのサンプル文書として部分テキスト抽出部130から受け取る。そして学習部140は、分類部230で使用する分類ルール150−1を生成する。なお、「生成」には分類ルールを「更新する」場合も含む。
学習部140及び分類部230は、一般に知られている任意の機械学習を用いた文書分類方法を用いることができる。また、以下に示す「参考文献」で開示されているような、複数の機械学習を用いた文書分類方法を用いることもできる。
<参考文献>WO2009/087757、「情報フィルタリングシステム、情報フィルタリング方法および情報フィルタリングプログラム」
(分類対象文書入力部210)
分類対象文書入力部210は、ネットワーク監視装置300が伝送路から取得した入力文書301を、複数の分類カテゴリのうちのいずれかの分類カテゴリへ分類するための分類対象文書として入力する。
(分類対象文書分割部220)
分類対象文書分割部220は、分類対象文書入力部210が取得した入力文書301を、文書の先頭から順に適当なサイズ毎に区切り、複数の文書に分割する。例えば分類対象文書分割部220は、分類対象文書である入力文書301を、部分テキスト抽出部130によって抽出された部分テキストの平均サイズに合わせて分割する。
(分類部230)
分類部230は、分類対象文書分割部220によって分割された複数の分割文書を、分類ルール150−1を用いて分類カテゴリに分類する。あるいは図2に示すように、分類部230は、分類対象文書分割部220を経由せずに、分類対象文書入力部210に入力された入力文書301を、直接入力してもよい。
(分類結果判定部240)
分類結果判定部240は、分類対象文書分割部220によって分割された各文書と、分類部230が出力した分類結果とを統合し、入力文書301に対する分類結果302を出力する。
(動作の説明)
次に、文書分類装置100の動作を説明する。文書分類装置100によって実行される処理は、大きく、学習処理S100と分類処理S200とに分けられる。文書分類装置100は、学習処理S100により生成された分類ルール150−1を用いて、入力文書301の分類処理S200を実施する。
図5は、文書分類装置100の動作概要を示すフローチャートである。図5を参照して、文書分類装置100の運用の流れを、学習処理S100と分類処理S200との点から説明する。図5の運用形態に限定されるものではなく、文書分類装置100は、サンプル文書を学習し、分類ルールを生成する過程を含む任意の運用形態に適用できる。文書分類装置100稼動直後は、学習部140によって分類ルール150−1が生成されていない。あるいは、分類ルール150−1が生成されていても学習量が十分でない。このため、文書分類装置100稼動直後は、入力文書301に対して学習処理S100のみを実施し、分類処理S200を実施しない。この運用形態を初期学習運用S301と呼ぶ。初期学習運用S301の期間中は、分類部230による分類ルール150−1を用いた機械学習による分類を行うことはできないが、代替手段による分類処理は可能である。
S302では、新規に入力文書が到着するたびに、学習が十分に実施されたかを学習部140は、例えば後述の方法で判断する。S302において、学習が十分であると判断した場合、学習部140は初期学習運用S301から本運用S303に移行する。
S302において、学習が十分か否かを判断する方法として、学習処理S100により学習された文書件数を用いる方法がある。全ての分類カテゴリにおいて学習された文書件数が、管理者414が予め設定した件数に達したときに、学習部140は学習は十分と判断し(S302)、S302から本運用S303へ移行可能と判断する。
S302において、学習が十分か否かを判断する別の方法として、文書分類装置100の稼動時間を用いる方法がある。1週間など、学習部140は、管理者414が予め設定した稼働時間に達したときに、S302から本運用S303へ移行可能と判断する。
本運用S303では、文書分類装置100は、入力文書301に対して分類処理S200を実施し、分類結果302を出力する。文書分類装置100は分類処理S200の後、同一の入力文書301に対して学習処理S100を実施し、分類ルール150−1を更新する。
S304では、分類ルール150−1を再生成するか否かを、学習部140は例えば後述の方法で判断する。分類ルール150−1を再生成する場合にはS305に進み、学習部140は分類ルール150−1を破棄し、処理は初期学習運用S301へと移行する。分類ルール150−1を再生成しない場合は、本運用S303が継続される。
S304において、分類ルール150−1を再生性するか否かを判断する方法として、文書分類装置100の稼動時間を用いる方法がある。学習部140は、1年間など、管理者414が予め設定した稼働時間に達したときに、S304において分類ルール150−1を破棄すると判断する(S305)。
図6は、文書分類装置100の学習処理S100の詳細動作を示すフローチャートである。次に、図6を参照して、文書分類装置100における学習処理S100の詳細動作を説明する。
図7は、サンプル文書抽出条件160−1としてキーワード検索条件161を用いた場合を示す図である。図7に示すように、サンプル文書抽出条件160−1は、分類カテゴリごとに、対応する分類カテゴリに適合する少なくとも一つの適正な適正キーワードから構成されている。例えば図7の分類カテゴリ1については、キーワード1−1,1−2・・・,1−iは、分類カテゴリ1にふさわしいキーワード(適正キーワード)である。
(1)ネットワーク監視装置300に新規文書が到着すると、文書入力部110は、新規文書を入力文書301として受け取る(S110)。
(2)文書照合部120は、分類カテゴリ毎に設定されたサンプル文書抽出条件160−1を用い、入力文書301をサンプル文書抽出条件160−1と照合する(S120)。照合の際、ヒット位置取得部121は、サンプル文書抽出条件160−1として設定されたキーワードのヒット位置、および、ヒット数を分類カテゴリ毎に取得する。
(3)部分テキスト抽出部130は、ヒット位置取得部121の照合処理S120よって取得された照合結果であるキーワードのヒット位置、ヒット数などの情報を元に、入力文書301から、各分類カテゴリの学習サンプルとして使用する部分テキストを、0個以上抽出する(S130)。すなわち、部分テキスト抽出部130は、文書照合部120による照合結果に基づいて、入力文書301から部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出を試みる。
(4)学習部140は、部分テキスト抽出部130の抽出処理S130によって、いずれかの分類カテゴリに対応する部分テキストが抽出された場合には、抽出された部分テキストをサンプル文書として所定の機械学習を行うことにより、分類ルール150−1を生成(更新も含む)する(S140)。
(キーワードの使用)
照合処理S120で使用するサンプル文書抽出条件160−1として、図7に示したように、分類カテゴリごとに複数のキーワードが指定されたキーワード検索条件161を用いることができる。キーワード検索条件161には、該当する分類カテゴリに関わりの深いキーワード(適正キーワード)を指定する。この場合、S130において部分テキスト抽出部130は、キーワード検索条件161により得られたヒット位置の周辺を、該当する分類カテゴリの部分テキストとして抽出する(具体的な抽出方法は後述する)。こうすることにより、該当する分類カテゴリに関わりの深い可能性が高い部分テキストのみを、サンプル文書として抽出することが可能となる。
(部分テキストの抽出方法)
(1)キーワード検索条件161によるヒット位置周辺のテキストを部分テキストとして抽出する方法として、文字数を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を基点とし、ヒット位置の前後それぞれ所定の文字数分のテキストを部分テキストとして抽出する。
(2)キーワード検索条件161によるヒット位置周辺のテキストを部分テキストとして抽出する別の方法として、文章数を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を含む文章を基点とし、ヒット位置の前後それぞれ所定の文章数分のテキストを部分テキストとして抽出する。文章数を数える手段としては、例えば日本語文書の場合、句点の数を数える方法が挙げられる。他の言語についても同様の方法が適用可能である。
(3)キーワード検索条件161のヒット位置周辺のテキストを、部分テキストとして抽出する更に別の方法として、段落を使用する方法がある。部分テキスト抽出部130は、各ヒット位置を含む段落を部分テキストとして抽出する。例えば、HTML文書など、タグが埋め込まれた形式の文書では、タグの情報を使用することで、容易に段落を切り出すことが可能である。また、各ヒット位置を含む段落を基点とし、前後それぞれ所定の段落数分のテキストを部分テキストとして抽出することもできる。
(部分テキストの合体)
キーワード検索条件161に基づき部分テキスト抽出部130よって抽出された部分テキストどうしは、共通部分を持つ場合がある。ある分類カテゴリに関わりの深いキーワードは、文書中のある箇所に集中して出現する傾向がある。そのため、共通部分を持つ複数の部分テキストを、個別の部分テキストとして抽出すると、同じようなサンプル文書を幾つも学習させる結果となる可能性が高い。そこで、部分テキスト抽出部130は、抽出した複数の部分テキストが共通部分を持つ場合は、それらの複数の部分テキストを、一つの部分テキストにまとめる。こうすることで、同じようなサンプル文書を幾つも学習部140に学習させることを回避できる。
図8は、2つの部分テキストを一つにまとめた場合を示す図である。図8は、キーワード検索条件161として、「社外秘」、「開発計画書」、「実行計画」のキーワードを指定した場合の、部分テキストの抽出の様子を示す。図8では、文字数を利用した部分テキス抽出の様子を表している。図8において、「社外秘」と「開発計画書」のヒット位置周辺の部分テキスト同士が共通部分を持つため、2つの部分テキストを一つにまとめて、一つの部分テキストとして抽出した結果を示している(S401)。
(ヒットキーワードの個数)
ある分類カテゴリについて、キーワード検索条件161を用いたキーワードのヒット数が、所定の個数未満である場合には、部分テキスト抽出部130は、入力文書301全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。ヒット数が少ない場合、入力文書301は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒット数による閾値を設けることで、学習部140の過剰な学習を回避できる。
(適正キーワードの種別ID)
図9は、キーワードに設定可能な種別IDを示す図である。キーワード検索条件161によって指定された各キーワードには、キーワード種別に応じた種別ID(種別情報の一例)を付加することが可能である。例えば、情報漏洩防止を目的とし、機密情報からなる分類カテゴリを設定した場合を想定する。図9に示すように、キーワードとして、「社外秘」、システム開発計画書」を設定したとする。「社外秘」のように機密等級に対応する種別IDを「1」と置き、「システム開発計画書」のように機密文書名に関するキーワードの種別IDを「2」と置くなどである。異なるキーワードに同一の種別IDを設定してもよい。例えば重要な複数のキーワードには、すべて種別ID「1」を設定するような場合である。
(種別IDのヒット数)
このとき、ある分類カテゴリにおいて、キーワード検索条件161によりヒットした所定の種別ID数が所定の個数未満である場合には、部分テキスト抽出部130は、入力文書301全体を、その分類カテゴリの部分テキスト抽出対象から除外してもよい。例えば重要な複数のキーワードに種別ID「1」を設定した場合、ヒットした種別ID「1」が、所定の個数未満である場合である。ヒットした所定の種別ID数が少ない場合、入力文書301は、その分類カテゴリとは関連性が低い可能性が高い。そこで、ヒットした種別ID数に閾値を設けることで、学習部140の過剰な学習を回避することができる。
(種別IDの重要度)
また、キーワード検索条件161によりヒットしたキーワードの種別IDに応じて、部分テキスト抽出部130は、そのキーワードのヒット位置周辺から抽出する部分テキストのサイズを変更することができる。重要なキーワードに対応する種別IDに対しては、部分テキスト抽出部130によって大きなサイズの部分テキストを抽出するように設定することで、重要なキーワード周辺の部分テキストを、重点的に抽出できる。
(種別IDの重要度の決定方法)
キーワードの重要度を決定する方法の1つとして、キーワード長を利用する方法がある。例えば、機密情報からなる分類カテゴリを考えた場合、「計画書」と「システム開発計画書」とでは、「システム開発計画書」の方がより具体的なキーワードであり、その周辺に機密情報が記載されている可能性が高い。一方、「計画書」は一般用語に近いため、意図しない文書中にも出現する可能性が高い。これは、キーワード長が、キーワードの重要性と直接結びついた例である。そこで、長いキーワードに対しては、大きいサイズの部分テキストを抽出するように種別IDを設定する。この場合は、キーワードの種別IDがキーワード長に応じて定義されている必要がある。例えば、種別IDは小さいほど重要度が高いとする。長いキーワード(重要なキーワード)には一桁の種別IDを設定し、短いキーワードには、一桁以外の種別IDを設定する。部分テキスト抽出部130は、ヒットした種別IDが小さいほど、抽出する部分テキストのサイズを大きくする。
(特定の種別IDのヒット)
キーワード検索条件161に種別IDが定義されている場合、入力文書301が特定の種別ID(例えば種別ID「1」)を持つキーワードにヒットするときのみ、部分テキスト抽出部130は、入力文書301を部分テキストの抽出対象とすることができる。逆にいうと、特定の種別IDを持つキーワードがヒットしない場合には、部分テキスト抽出部130は、入力文書301を部分テキストの抽出対象としない。このような種別IDは複数存在しても良い。この場合、設定された全ての種別IDに対応するキーワードがヒットしたときのみ、入力文書301を部分テキストの抽出対象とする。
(キーワードのヒット位置の集中)
キーワード検索条件161によるヒット位置が、入力文書301のある箇所に集中して出現する場合、その箇所には、対応する分類カテゴリに関わりが深い内容が記述されている可能性が高い。逆に、ヒット位置が集中して出現しなければ、それらのキーワードは偶然、そこに記述されているだけの可能性が高い。そこで、設定された文字数範囲内のヒット数が所定の数以上であるような箇所のみを、部分テキストの抽出対象として設定する。具体的には、最初に部分テキストとするべきテキストサイズが設定されており、そのサイズの中に設定個数以上のキーワードがヒットした場合、そのテキストサイズを部分テキストとして抽出する。テキストサイズだけからは部分テキストとすべき範囲は定まらないので、決定規則は別に設定しておく。例えば、ヒットした複数のキーワードのうち、先頭のキーワードを基準に部分テキストの範囲を決定する決定規則が考えられる。
(キーワード除外条件162)
照合処理S120で使用するサンプル文書抽出条件160−1として、複数のキーワード(不適キーワード)が指定されたキーワード除外条件162を用いても良い。キーワード除外条件162には、該当する分類カテゴリには相応しくない不適な不適キーワードを指定する。それぞれの分類カテゴリについては、キーワード検索条件161とキーワード除外条件162との、少なくともいずれかを設定することができる。この場合、抽出処理S130では、部分テキスト抽出部130は、キーワード除外条件162によって得られた不適キーワードのヒット位置の周辺を、対応する分類カテゴリの部分テキスト抽出対象から除外し、残りの部分から、サンプル文書として使用する部分テキストを抽出する。これにより、対応する分類カテゴリに相応しくない可能性が高い部分テキストを、サンプル文書から除外することができ、結果として、分類カテゴリに関わりの深い部分テキストのみを抽出することが可能となる。
図10は、「正のカテゴリ」、「負のカテゴリ」に、それぞれキーワード検索条件161と、キーワード除外条件162を設定する例である。特に、図10に示すように、分類カテゴリが2個の2値分類の場合、分類カテゴリは、ある話題に深い関わりがある文書のカテゴリ(正のカテゴリ)と、それ以外の文書のカテゴリ(負のカテゴリ)として定義されることが多い。この場合、「負のカテゴリ」と関わりが深いキーワード(適正キーワード)を設定することは、一般に困難である。そこで、「負のカテゴリ」では、キーワード除外条件162として、図10に示すように、正のカテゴリと関わりが深いキーワードを不適キーワードとして設定する。これにより、負のカテゴリの部分テキストの抽出において、負のカテゴリと関連性が低いキーワードを含む文書をサンプルら除外することが可能となる。すなわち「正のカテゴリ」には適正キーワードからなるキーワード検索条件161を設定し、「負のカテゴリ」には、「正のカテゴリ」のキーワードを不適キーワードとするキーワード除外条件162を設定する。
この場合、「負のカテゴリ」に関するキーワード除外条件162は、正のカテゴリに関するキーワード検索条件161と同一でも良いし、異なっても良い。異なる条件を設定する場合の具体例として、「負のカテゴリ」に関するキーワード除外条件162に、正のカテゴリに関するキーワード検索条件161で設定したキーワードを全て含ませ、更に多くのキーワードを設定する。キーワード除外条件162に、より多くのキーワードを設定することで、学習部140の過剰な学習を回避できる可能性を高めることができる。
キーワード除外条件162のヒット位置周辺のテキストを、部分テキスト抽出対象から除外する方法として、文字数、文章数、段落を用いる方法がある。これらキーワード検索条件161により、部分テキストを抽出する方法とそれぞれ対応している。
(不適キーワードのヒット数)
ある分類カテゴリにおいて、キーワード除外条件162によるヒット数が、所定の数以上(設定値以上)である場合には、入力文書301全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。すなわち、この場合、部分テキスト抽出部130は、入力文書301から、その分類カテゴリについては、対応する部分テキストを抽出しない。ヒット数が多い場合、入力文書301は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒット数による閾値を設けることで、過剰な学習を回避することができる。
(不適キーワードの種別ID)
キーワード除外条件162で指定された各キーワードには、キーワード検索条件161のときと同様に、種別ID(識別情報)を定義することができる。適正キーワードの場合と同様に、異なる不適キーワードに同一の種別IDを設定してもよい。このとき、ある分類カテゴリにおいて、キーワード除外条件162によりヒットした所定の種別ID数が、所定の数以上(設定値以上)である場合には、入力文書301全体を対応する分類カテゴリの部分テキスト抽出対象から除外することができる。ヒットした種別ID数が多い場合、入力文書301は当該分類カテゴリとは関連性が低い文書である可能性が高い。そこで、ヒットした種別ID数による閾値を設けることで、過剰な学習を回避することができる。
(種別IDと除外範囲のサイズ)
また、キーワード除外条件162によりヒットしたキーワードの種別IDに応じて、「対応するヒット位置周辺から除外する部分テキストのサイズ」(除外範囲のサイズ)を変更することができる。これは、キーワード検索条件161の種別IDを利用して、抽出する部分テキストサイズを変更することと対応している。
(種別IDと入力文書301)
キーワード除外条件162に種別IDが定義されている場合、入力文書301が、所定の種別IDを持つキーワードにヒットしないときのみ、部分テキストの抽出対象とすることができる。このような種別IDは複数存在しても良い。この場合、設定された全ての種別IDに対応するキーワードがヒットしないときのみ、入力文書301を部分テキストの抽出対象とする。
(不適キーワードによる部分テキストの抽出)
図11は、ある分類カテゴリにおいてキーワード除外条件162のみを設定した場合の抽出処理S130を示す図である。ある分類カテゴリにおいて、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、キーワード除外条件162のみを設定する場合を考える。キーワード除外条件162により除外された残りの部分から、サンプル文書として使用する部分テキストを抽出する手段が必要となる。この手段の一例を、図11を用いて説明する。図11では、キーワード除外条件162として、「社外秘」、「開発計画書」、「実行計画」の不適キーワードを指定している。まず、部分テキスト抽出部130は、指定された不適キーワードの周辺のテキストを部分テキスト抽出対象から除外する(S501)。続いて、部分テキスト抽出部130は、残されたテキストの先頭から順に、所定のサイズの部分テキストを抽出し、所定のサイズの部分テキストをスキップする、という処理を文書の末尾まで繰り返す(S502)。こうすることで、部分テキスト抽出部130は、キーワード除外条件162によりヒットした不適キーワード周辺のテキストをサンプル文書として抽出せずに、残りの部分から部分テキストを抽出できる。
(キーワード検索条件161、キーワード除外条件162の併用)
ある分類カテゴリにおいて、照合処理S120で使用するサンプル文書抽出条件160−1として、キーワード検索条件161とキーワード除外条件162との両方を設定することもできる。この場合、部分テキスト抽出部130は、キーワード除外条件162によりテキストを除外した後、キーワード検索条件161の適正キーワードのみを含む残りの部分(領域)から部分テキストを抽出する。
キーワード検索条件161とキーワード除外条件162の両方を設定することが有効な場合として、異なる分類カテゴリに関わりの深い共通のキーワードが存在する場合がある。
図12は、キーワード検索条件161、キーワード除外条件162の併用の場合を示す図である。例えば、図12に示すように、プロジェクトAに関する機密情報を含む分類カテゴリ(分類カテゴリA)と、プロジェクトBに関する機密情報を含む分類カテゴリ(分類カテゴリB)とを別々の分類カテゴリとして定義する。この場合、両方の分類カテゴリに対して、キーワード検索条件161として「社外秘」というキーワードを設定することは有効であると考えられる。しかしながら、「社外秘」というキーワードのみでは、プロジェクトAとプロジェクトBを区別できない。このため、分類カテゴリAに対するキーワード除外条件162として、キーワード「プロジェクトB」を設定する。
これにより、分類カテゴリBに関わりが深い部分テキストを、分類カテゴリAのサンプルとして抽出することを回避できる。
(併用と種別ID)
キーワード検索条件161とキーワード除外条件162の両方を設定し、かつ、両条件に種別IDが定義されてもよい。この場合、部分テキスト抽出部130は、入力文書301が、キーワード検索条件161における所定の種別IDを持つキーワードにヒットし、かつ、キーワード除外条件162における所定の種別IDを持つキーワードにヒットしないときのみ、入力文書301を、その分類カテゴリについて、部分テキストの抽出対象とすることができる。このような種別IDは複数存在しても良い。この場合、部分テキスト抽出部130は、キーワード検索条件161において設定された全ての種別IDに対応するキーワードがヒットし、かつ、キーワード除外条件162において設定された全ての種別IDに対応するキーワードがヒットしない入力文書301を、その分類カテゴリについて、部分テキストの抽出対象とする。
(入力文書301が電子メールの場合)
入力文書301が電子メールである場合、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件163を用いても良い。メールアドレス検索条件163は、キーワード検索条件161やキーワード除外条件162と併用して使用する。具体的には、部分テキスト抽出部130は、メールアドレス検索条件163による照合結果に応じて、キーワード検索条件161やキーワード除外条件162で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部120は、入力文書301がメールアドレスに合致するかどうかをメールアドレス検索条件163(抽出条件)を用いて照合する。部分テキスト抽出部130は、文書照合部120によるメールアドレスを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。
例えば、電子メールの送付先組織を分類カテゴリとして設定する場合、電子メールヘッダに記載されるメールアドレス情報は、電子メールがどの分類カテゴリと関わりが深いかを判断する大きな手がかりとなる。仮に、メールアドレス情報から、対象としている分類カテゴリとの関係性が低いと判断されれば、部分テキスト抽出部130は、当該電子メールから抽出する部分テキストの個数やサイズを小さくするのが妥当である。逆に、メールアドレス情報から、対象としている分類カテゴリとの関係性が高いと判断されれば、部分テキスト抽出部130は、当該電子メールから抽出する部分テキストの個数やサイズを大きくするのが妥当である。このように、メールアドレス検索条件163を用いることにより、メールアドレス情報を、部分テキスト抽出の際の重みとして利用することが可能となる。
(入力文書301がWebページの場合)
入力文書301がWebページである場合、文書照合部120による照合処理S120で使用するサンプル文書抽出条件160−1として、URL(Uniform Resource Locator)を検索するURL検索条件164を用いても良い。URL検索条件164は、キーワード検索条件161やキーワード除外条件162と併用して使用する。具体的には、部分テキスト抽出部130は、URL検索条件164による照合結果に応じて、キーワード検索条件161やキーワード除外条件162で抽出、または除外する部分テキストのサイズを変更したり、ヒット数による閾値の設定を変更したりすることができる。このように、文書照合部120は、入力文書301がURLに合致するかどうかをURL検索条件164(抽出条件)を用いて照合する。部分テキスト抽出部130は、文書照合部120によるURLを用いた照合結果に応じて、部分テキストのサイズ変更等のように、部分テキスト抽出を制御する。
例えば、URLのドメインとして「go.jp」を含むようなWebページには価値の高い情報が記述されていると考える場合、URL検索条件164により、文書照合部120によってURLドメインに「go.jp」を含むと判定されたWebページからは、部分テキスト抽出部130は、抽出する部分テキストの個数やサイズを大きくすることができる。このように、URL検索条件164を用いることにより、URL情報を、部分テキスト抽出の際の重みとして利用することが可能となる。
図13は、分類処理S200の詳細な動作を示すフローチャートである。次に、図13を参照して、文書分類装置100における分類処理S200の動作を説明する。
(1)分類対象文書入力部210は、新規文書を入力文書301として受け取る(S210)。
(2)分類対象文書分割部220は、入力文書301を先頭から所定のサイズ毎に等分割する(S220)。
(3)分類部230は、処理S220にて分割された各文書に対して、分類ルール150−1用いた分類処理を実施する(S230)。
(4)分類結果判定部240は、S230により出された、分割された各文書の判定結果を統合し、入力文書301の総合判定結果として分類結果302を出力する(S240)。
分類対象文書も、サンプル対象文書の場合と同様に、一つの文書内に複数の話題が記述されている可能性がある。分割処理S220で、分類対象文書分割部220は、入力文書301を先頭から所定のサイズ毎に等分割することにより、複数の話題を別の文書として分割できる可能性が高まる。結果として、複数の話題を正しく検知できる可能性を高めることができる。たとえば,分類対象文書分割部220は、分類対象文書を、部分テキスト抽出部130によって抽出された部分テキストの平均サイズに合わせて分割する。
また、分類ルール格納部150に格納される分類ルール150−1は、サンプル対象文書からの部分テキスト抽出を経て得られたサンプル文書を学習して得られる。このため、処理S220は、機械学習アルゴリズムに入力されるサンプル文書のサイズと、分類対象文書のサイズを合わせる役割も担っている。
判定処理S240において、入力文書301の分類結果302を決定する方法として、多数決による決定方法がある。この方法は、分類処理S230で出力された、分割された各文書の判定結果のうち、最も多く判定された分類カテゴリを分類結果302とする。
分類結果302を決定する別の方法として、少なくとも一つの分割文書の判定結果がある分類カテゴリであった場合、分類結果302に当該分類カテゴリを含める方法がある。この方法では、分類結果302には複数の分類カテゴリが含まれる可能性がある。
例えば、入力文書301が電子メールであり、電子メールの送付先組織を分類カテゴリとして設定する場合を考える。電子メールの送付先は、一般に複数存在するため、電子メールが複数の分類カテゴリにまたがって属する可能性もある。この場合、分類結果302に複数の分類カテゴリが含まれるのは自然である。
以上で述べたように、実施の形態1の文書分類装置100では、入力された入力文書301(サンプル対象文書)に対して、文書照合部120が分類カテゴリ毎に予め設定されたサンプル文書抽出条件160−1による照合を実施する。そして、部分テキスト抽出部130が、ヒット位置やヒット数などの情報を元に、入力文書301からサンプル文書として使用する部分テキストを抽出する。これらの処理によって、複数の話題を含む入力文書からも適切な話題のみをサンプルとして抽出することができる。また、サンプル文書(部分テキスト)のサイズを抑えることができるので、学習部140による学習処理性能を高めることができる。結果として、文書分類装置100によれば、人手による手間をかけずに、不要な情報を含まない学習サンプルの自動収集を可能となる。よって、容易に分類ルールを作成することができ、かつ、分類対象文書を適切な分類カテゴリに高精度で分類する文書分類装置を提供できる。
実施の形態2.
図14、図15を参照して実施の形態2を説明する。実施の形態2は、コンピュータである文書分類装置100(分類ルール生成装置)のハードウェア構成を説明する。
図14は、文書分類装置100の外観の一例を示す図である。図15は、文書分類装置100のハードウェア資源の一例を示す図である。
外観を示す図14において、文書分類装置100は、システムユニット830、CRT(Cathode・Ray・Tube)やLCD(液晶)の表示画面を有する表示装置813、キーボード814(Key・Board:K/B)、マウス815、コンパクトディスク装置818(CDD:Compact Disk Drive)などのハードウェア資源を備え、これらはケーブルや信号線で接続されている。システムユニット830はネットワークに接続している。さらにネットワークはインターネットに接続している。
またハードウェア資源を示す図15において、文書分類装置100は、プログラムを実行するCPU810(Central Processing Unit)を備えている。CPU810は、バス825を介してROM(Read Only Memory)811、RAM(Random Access Memory)812、表示装置813、キーボード814、マウス815、通信ボード816、CDD818、磁気ディスク装置820と接続されている。CPU810は、これらのハードウェアデバイスを制御する。磁気ディスク装置820の代わりに、光ディスク装置、フラッシュメモリなどの記憶装置でもよい。
RAM812は、揮発性メモリの一例である。ROM811、CDD818、磁気ディスク装置820等の記憶媒体は、不揮発性メモリの一例である。これらは、「記憶装置」あるいは記憶部、格納部、バッファの一例である。通信ボード816、キーボード814などは、入力部、入力装置の一例である。また、通信ボード816、表示装置813などは、出力部、出力装置の一例である。通信ボード816は、ネットワークに接続されている。
磁気ディスク装置820には、オペレーティングシステム821(OS)、ウィンドウシステム822、プログラム群823、ファイル群824が記憶されている。プログラム群823のプログラムは、CPU810、オペレーティングシステム821、ウィンドウシステム822により実行される。
上記プログラム群823には、以上の実施の形態の説明において「〜部」として説明した機能を実行するプログラムが記憶されている。プログラムは、CPU810により読み出され実行される。
ファイル群824には、以上の実施の形態の説明において、サンプル文書抽出条件160−1、分類ルール150−1として説明した情報や、「〜の判定結果」、「〜の算出結果」、「〜の抽出結果」、「〜の生成結果」、「〜の処理結果」として説明した情報や、データや信号値や変数値やパラメータなどが、「〜ファイル」や「〜データベース」の各項目として記憶されている。「〜ファイル」や「〜データベース」は、ディスクやメモリなどの記録媒体に記憶される。ディスクやメモリなどの記憶媒体に記憶された情報やデータや信号値や変数値やパラメータは、読み書き回路を介してCPU810によりメインメモリやキャッシュメモリに読み出され、抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示などのCPUの動作に用いられる。抽出・検索・参照・比較・演算・計算・処理・出力・印刷・表示のCPUの動作の間、情報やデータや信号値や変数値やパラメータは、メインメモリやキャッシュメモリやバッファメモリに一時的に記憶される。
また、以上に述べた実施の形態の説明において、データや信号値は、RAM812のメモリ、CDD818のコンパクトディスク、磁気ディスク装置820の磁気ディスク、その他光ディスク、ミニディスク、DVD(Digital・Versatile・Disk)等の記録媒体に記録される。また、データや信号は、バス825や信号線やケーブルその他の伝送媒体によりオンライン伝送される。
また、以上の実施の形態の説明において、「〜部」として説明したものは、「〜手段」、であってもよく、また、「〜ステップ」、「〜手順」、「〜処理」であってもよい。すなわち、「〜部」として説明したものは、ソフトウェアのみ、或いは、ソフトウェアとハードウェアとの組み合わせ、さらには、ファームウェアとの組み合わせで実施されても構わない。ファームウェアとソフトウェアは、プログラムとして、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVD等の記録媒体に記憶される。プログラムはCPU810により読み出され、CPU810により実行される。すなわち、プログラムは、以上に述べた「〜部」としてコンピュータを機能させるものである。あるいは、以上に述べた「〜部」の手順や方法をコンピュータに実行させるものである。
以上の実施の形態では、文書分類装置100(分類ルール生成装置)を説明したが、文書分類装置100の各構成要素の動作を分類ルール生成方法と把握することもできる。あるいは文書分類装置100の各構成要素の動作を、分類ルール生成プログラムと把握することもできる。分類ルール生成プログラムは、コンピュータ読み取り可能な記録媒体に記録される。
以上の実施の形態では、以下の文書分類装置を説明した。
入力された文書を複数の分類カテゴリに分類する文書分類装置であって、
(1)複数のサンプル文書を入力する文書入力部と、
(2)入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合する文書照合部と、
(3)文書照合部による照合結果を元に、サンプル文書から学習に使用する0個以上の部分テキストを分類カテゴリ毎に抽出する部分テキスト抽出部と、
(4)分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する学習部と
を有する書分類装置。
以上の実施の形態では、以下の文書分類装置を説明した。
さらに、
(5)1つ以上の分類対象文書を入力する分類文書入力部と、
(6)入力された分類対象文書を、学習に使用する部分テキストの平均サイズに合わせて、先頭から順に分割する分類対象文書分割部と、
(7)アルゴリズムに対応する分類ルールを用いる少なくとも1つのアルゴリズムにより、分割された個々の文書を複数の分類カテゴリに分類する分類部と、
(8)分割された個々の文書の分類結果を統合し、分類対象文書に対する総合分類結果を判定する分類結果判定部と
を有する文書分類装置。
以上の実施の形態では、
サンプル文書抽出条件は、分類カテゴリ毎に、複数のキーワードが指定されたキーワード検索条件を含み、
文書照合部のヒット位置取得部は、サンプル対象文書に対して、分類カテゴリ毎のキーワード検索条件による文字列のヒット位置とヒット数とを取得し、
部分テキスト抽出部130は、キーワード検索条件によるヒット位置周辺の部分テキスを抽出する文書分類装置を説明した。
以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によるヒット数が所定の数未満であった場合には、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
キーワード検索条件で指定されたキーワードは、種別番号が設定されており、
文書照合部120は、種別IDによるキーワード種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類に応じて、抽出する部分テキストのサイズを変更する文書分類装置を説明した。
以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード種類(種別ID)の数が、所定の数未満であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードが、所定の範囲内に、所定の数以上存在する箇所のみを部分テキスト抽出の対象とする文書分類装置を説明した。
以上の実施の形態では、
キーワード検索条件で指定されたキーワードには、種別番号(種別ID)が付属しており、かつ、分類カテゴリには、キーワード検索条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能であり、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワードの種類の組合せが最小種別集合を含まない場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード除外条件を含み、
ヒット位置取得部は、文書照合部120による照合により、サンプル対象文書に対して分類カテゴリ毎のキーワード除外条件による文字列のヒット位置とヒット数を取得し、
部分テキスト抽出部は、キーワード除外条件によるヒット位置周辺の部分テキスを、抽出対象から除外し、残りの部分から0個以上の部分テキスを抽出する書分類装置を説明した。
以上の実施の形態では、
部分テキスト抽出部は、キーワード除外条件によるヒット数が所定の数以上であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
キーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類に応じて、抽出対象から除外する部分テキストのサイズを変更する文書分類装置を説明した。
以上の実施の形態では、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の数が、所定の数以上であった場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
キーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、かつ、分類カテゴリには、キーワード除外条件中の種別番号からなる最小種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード除外条件によりヒットしたキーワードの種類の組合せが、最小種別集合を含む場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
分類カテゴリ毎のサンプル文書抽出条件として、複数のキーワードが指定されたキーワード検索条件とキーワード除外条件とを含み、
キーワード検索条件およびキーワード除外条件で指定されたキーワードには、種別番号(種別ID)が付属しており、
分類カテゴリには、キーワード検索条件とキーワード除外条件中の種別番号からなる種別集合が予め定められており、
文書照合部120は、種別番号によるキーワードの種類の識別を可能とし、
部分テキスト抽出部は、キーワード検索条件によりヒットしたキーワード、およびキーワード除外条件によりヒットしなかったキーワードの種類の組合せが、種別集合を含まない場合に、抽出する部分テキストを0個とする文書分類装置を説明した。
以上の実施の形態では、
サンプル対象文書として電子メールを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、特定の電子メールヘッダに含まれるメールアドレスを検索するメールアドレス検索条件を含み、
部分テキスト抽出部は、メールアドレス検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。
以上の実施の形態では、
サンプル対象文書としてWebページを入力し、
分類カテゴリ毎のサンプル文書抽出条件は、URLを検索するURL検索条件を含み、
部分テキスト抽出部は、URL検索条件による照合結果に応じて、抽出する部分テキストの数、サイズ、条件を選択する文書分類装置を説明した。
以上の実施の形態では、
入力された分類対象文書を複数の分類カテゴリのいずれかに分類する文書分類方法であって、
(1)複数のサンプル文書を入力するサンプル文書入力し、
(2)入力されたサンプル文書を、予め分類カテゴリ毎に設定されたサンプル文書抽出条件により照合し、
(3)照合結果を元に、サンプル文書から学習に使用する部分テキストを分類カテゴリ毎に抽出し、
(4)分類カテゴリ毎に抽出された部分テキストを用いて、少なくとも1つのアルゴリズムによる機械学習を行うことにより、分類ルールを生成または更新する文書分類方法を説明した。
100 文書分類装置、110 文書入力部、120 文書照合部、130 部分テキスト抽出部、140 学習部、150 分類ルール格納部、150−1 分類ルール、160 サンプル文書抽出条件格納部、160−1 サンプル文書抽出条件、161 キーワード検索条件、162 キーワード除外条件、163 メールアドレス検索条件、164 URL検索条件、210 分類対象文書入力部、220 分類対象文書分割部、230 分類部、240 分類結果判定部、301 入力文書、302 分類結果、300 ネットワーク監視装置、400 組織。
この発明は、文書を複数のカテゴリのうちのいずれかのカテゴリに分類するための分類ルールを作成する分類ルール生成装置、分類ルール生成プログラム等に関する。

Claims (23)

  1. 文書をサンプル対象文書として入力する入力部と、
    前記サンプル対象文書の部分をなすと共に分類対象の分類対象文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部と、
    前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部と、
    前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部と、
    前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部と
    を備えたことを特徴とする分類ルール生成装置。
  2. 前記分類カテゴリ毎に設定された前記抽出条件は、
    対応する前記分類カテゴリに適合する少なくとも一つの適正な適正キーワードを含み、
    前記照合部は、
    前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードの存在位置を特定する位置特定部を備え、
    前記抽出部は、
    前記位置特定部が特定した前記適正キーワードの存在位置に基づいて、前記適正キーワードを含む前記適正キーワードの周辺を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項1記載の分類ルール生成装置。
  3. 前記分類カテゴリ毎に設定された前記抽出条件は、
    前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、
    前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項2記載の分類ルール生成装置。
  4. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項3記載の分類ルール生成装置。
  5. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が、特定の種別を示す前記種別情報を含む場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項3記載の分類ルール生成装置。
  6. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報の示す前記種別に応じて、
    前記分類カテゴリに対応する前記部分テキストのサイズを変更することを特徴とする請求項3記載の分類ルール生成装置。
  7. 前記分類カテゴリ毎に設定された前記抽出条件は、
    対応する前記分類カテゴリに適合しない少なくとも一つの不適な不適キーワードを含み、
    前記照合部は、
    前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記不適キーワードの存在位置を特定する位置特定部を備え、
    前記抽出部は、
    前記位置特定部が特定した前記不適キーワードの存在位置に基づいて、前記不適キーワードを含む前記不適キーワードの周辺を前記サンプル対象文書から除外することを特徴とする請求項1記載の分類ルール生成装置。
  8. 前記分類カテゴリ毎に設定された前記抽出条件は、
    前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
    前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの示す種別情報に基づいて、前記部分テキスト抽出を試みることを特徴とする請求項7記載の分類ルール生成装置。
  9. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報のうち、特定の種別を示す種別情報の個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項8記載の分類ルール生成装置。
  10. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報が、特定の種別を示す前記種別情報に該当しない場合にのみ、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項8記載の分類ルール生成装置。
  11. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの種別情報の示す前記種別に応じて、前記サンプル対象文書から除外する除外範囲のサイズを変更することを特徴とする請求項8記載の分類ルール生成装置。
  12. 前記抽出部は、
    前記分類カテゴリに対し、同一部分が重複する複数の前記部分テキストを抽出した場合には、前記複数の部分テキストを一つの前記部分テキストにまとめることを特徴とする請求項1記載の分類ルール生成装置。
  13. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの個数が設定値未満の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項2記載の分類ルール生成装置。
  14. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードが、所定の範囲内に、所定の数以上存在する場合に、前記所定の範囲内を部分テキスト抽出の対象とすることを特徴とする請求項2記載の文書分類装置。
  15. 前記分類カテゴリ毎に設定された前記抽出条件は、
    それぞれの前記分類カテゴリ毎に、前記分類カテゴリに適合する適正な適正キーワードと、前記分類カテゴリに適合しない不適な不適キーワードとの少なくともいずれかを含み、
    前記照合部は、
    前記サンプル対象文書に対して、前記分類カテゴリ毎に、前記適正キーワードと前記不適キーワードとの存在位置を特定する位置特定部を備え、
    前記抽出部は、
    前記位置特定部が特定した前記適正キーワードと前記不適キーワードとの存在位置に基づいて、前記適正キーワードのみを含む領域を前記部分テキストとして前記サンプル対象文書から抽出することを特徴とする請求項1記載の分類ルール生成装置。
  16. 前記分類カテゴリ毎に設定された前記抽出条件は、
    前記適正キーワードの少なくとも一つには前記適正キーワードの種別を示す種別情報が設定され、かつ、前記不適キーワードの少なくとも一つには前記不適キーワードの種別を示す種別情報が設定され、
    前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記適正キーワードの種別情報が特定の種別を示す前記種別情報に該当し、かつ、前記位置特定部によって特定された前記不適キーワードの種別情報が特定の種別を示す前記種別情報に該当しない場合に、前記サンプル対象文書を、前記分類カテゴリに対応する前記部分テキストを抽出する抽出対象とすることを特徴とする請求項15記載の分類ルール生成装置。
  17. 前記入力部は、
    前記サンプル対象文書として、電子メールを入力し、
    前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
    前記電子メールのヘッダに含まれる特定のメールアドレスを含み、
    前記照合部は、
    前記サンプル対象文書が前記メールアドレスに合致するかどうかを前記抽出条件を用いて照合し、
    前記抽出部は、
    前記照合部による前記メールアドレスを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項1に記載の分類ルール生成装置。
  18. 前記入力部は、
    前記サンプル対象文書として、Webページを入力し、
    前記分類カテゴリ毎に設定された前記抽出条件のうち、少なくともいずれかの前記分類カテゴリの抽出条件は、
    URL(Uniform Resource Locator)を含み、
    前記照合部は、
    前記サンプル対象文書が前記URLに合致するかどうかを前記抽出条件を用いて照合し、
    前記抽出部は、
    前記照合部による前記URLを用いた照合結果に応じて、前記部分テキスト抽出を制御することを特徴とする請求項1に記載の分類ルール生成装置。
  19. 前記抽出部は、
    前記分類カテゴリに対応する前記部分テキストを前記サンプル対象文書から抽出しようとする場合に、前記位置特定部によって特定された前記不適キーワードの個数が設定値以上の場合には、前記サンプル対象文書から、前記分類カテゴリに対応する前記部分テキストを抽出しないことを特徴とする請求項7記載の分類ルール生成装置。
  20. 前記分類ルール生成装置は、さらに、
    前記分類対象の文書を、前記抽出部によって抽出された前記部分テキストの平均サイズに合わせて分割する分割部を備えたことを特徴とする請求項1記載の分類ルール生成装置。
  21. 入力部と、格納部と、照合部と、抽出部と、学習部とを備えた分類ルール生成装置が実行する分類ルール生成方法において、
    前記入力部が、サンプル対象文書を入力し、
    前記格納部が、前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納し、
    前記照合部が、前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合し、
    前記抽出部が、前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試み、
    前記学習部が、前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成することを特徴とする分類ルール生成方法。
  22. コンピュータを、
    サンプル対象文書を入力する入力部、
    前記サンプル対象文書の部分をなすと共に分類対象の文書を複数の分類カテゴリのいずれかに分類するための分類ルールの作成に使用される部分テキストを、前記サンプル対象文書から前記分類カテゴリ毎に抽出する抽出条件であって、前記複数の分類カテゴリ毎に設定された抽出条件を格納する格納部、
    前記格納部に格納された前記抽出条件と、前記入力部に入力された前記サンプル対象文書とを照合する照合部、
    前記照合部による照合結果に基づいて、前記サンプル対象文書から前記部分テキストを前記分類カテゴリ毎に抽出する部分テキスト抽出を試みる抽出部、
    前記抽出部の前記部分テキスト抽出によって前記分類カテゴリに対応する前記部分テキストが抽出された場合には、抽出された前記部分テキストを用いた所定の機械学習を行うことにより、前記分類ルールを生成する学習部、
    として機能させるための分類ルール生成プログラム。
  23. 請求項22記載の分類ルール生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
JP2012552572A 2011-01-13 2011-01-13 分類ルール生成装置及び分類ルール生成プログラム Active JP5460887B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2011/050384 WO2012095971A1 (ja) 2011-01-13 2011-01-13 分類ルール生成装置、分類ルール生成方法、分類ルール生成プログラム及び記録媒体

Publications (2)

Publication Number Publication Date
JP5460887B2 JP5460887B2 (ja) 2014-04-02
JPWO2012095971A1 true JPWO2012095971A1 (ja) 2014-06-09

Family

ID=46506894

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012552572A Active JP5460887B2 (ja) 2011-01-13 2011-01-13 分類ルール生成装置及び分類ルール生成プログラム

Country Status (4)

Country Link
US (1) US9323839B2 (ja)
JP (1) JP5460887B2 (ja)
CN (1) CN103299304B (ja)
WO (1) WO2012095971A1 (ja)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836455B2 (en) * 2011-02-23 2017-12-05 New York University Apparatus, method and computer-accessible medium for explaining classifications of documents
US9298814B2 (en) * 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
US11928606B2 (en) 2013-03-15 2024-03-12 TSG Technologies, LLC Systems and methods for classifying electronic documents
WO2014208427A1 (ja) * 2013-06-24 2014-12-31 日本電信電話株式会社 セキュリティ情報管理システム及びセキュリティ情報管理方法
EP3012748A4 (en) * 2013-07-30 2017-05-10 Nippon Telegraph and Telephone Corporation Information management device, and information management method
US10019535B1 (en) * 2013-08-06 2018-07-10 Intuit Inc. Template-free extraction of data from documents
US10282479B1 (en) * 2014-05-08 2019-05-07 Google Llc Resource view data collection
WO2016129124A1 (ja) * 2015-02-13 2016-08-18 株式会社Ubic データ分析システム、データ分析方法、およびデータ分析プログラム
JP6565628B2 (ja) * 2015-11-19 2019-08-28 富士通株式会社 検索プログラム、検索装置および検索方法
WO2017147036A1 (en) 2016-02-23 2017-08-31 Carrier Corporation Extraction of policies from natural language documents for physical access control
JP6373320B2 (ja) * 2016-09-08 2018-08-15 ヤフー株式会社 生成装置、生成方法、及び生成プログラム
US11010675B1 (en) 2017-03-14 2021-05-18 Wells Fargo Bank, N.A. Machine learning integration for a dynamically scaling matching and prioritization engine
US11138269B1 (en) 2017-03-14 2021-10-05 Wells Fargo Bank, N.A. Optimizing database query processes with supervised independent autonomy through a dynamically scaling matching and priority engine
US11151472B2 (en) 2017-03-31 2021-10-19 At&T Intellectual Property I, L.P. Dynamic updating of machine learning models
JP6834797B2 (ja) * 2017-06-19 2021-02-24 富士通株式会社 抽出プログラム、抽出方法および抽出装置
JP7271987B2 (ja) * 2019-02-14 2023-05-12 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
JP7273293B2 (ja) * 2019-03-28 2023-05-15 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、プログラム
US20210256396A1 (en) * 2020-02-14 2021-08-19 Secude Ag System and method of providing and updating rules for classifying actions and transactions in a computer system
US11908466B2 (en) * 2020-06-09 2024-02-20 Servicenow, Inc. Automatically determining a descriptive identifier for a process grouping
CN111767403B (zh) * 2020-07-07 2023-10-31 腾讯科技(深圳)有限公司 一种文本分类方法和装置
CN111930976A (zh) * 2020-07-16 2020-11-13 平安科技(深圳)有限公司 演示文稿生成方法、装置、设备及存储介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002133389A (ja) 2000-10-26 2002-05-10 Nippon Telegr & Teleph Corp <Ntt> データ分類学習方法、データ分類方法、データ分類学習器、データ分類器、データ分類学習プログラムを記録した記憶媒体、データ分類プログラムを記録した記録媒体
JP3701197B2 (ja) * 2000-12-28 2005-09-28 松下電器産業株式会社 分類への帰属度計算基準作成方法及び装置
JP2004234051A (ja) 2003-01-28 2004-08-19 Fuji Xerox Co Ltd 文章分類装置およびその方法
JP4314853B2 (ja) * 2003-03-20 2009-08-19 富士通株式会社 文書分類装置および文書分類プログラム
US20050060643A1 (en) * 2003-08-25 2005-03-17 Miavia, Inc. Document similarity detection and classification system
JP4553300B2 (ja) 2004-09-30 2010-09-29 Kddi株式会社 コンテンツ識別装置
JP4720213B2 (ja) * 2005-02-28 2011-07-13 富士通株式会社 解析支援プログラム、装置及び方法
JP4332129B2 (ja) * 2005-04-20 2009-09-16 富士通株式会社 文書分類プログラム、文書分類方法および文書分類装置
JP4429236B2 (ja) * 2005-08-19 2010-03-10 富士通株式会社 分類ルール作成支援方法
JP4757016B2 (ja) 2005-12-21 2011-08-24 富士通株式会社 文書分類プログラム、文書分類装置、および文書分類方法
JP4362492B2 (ja) 2006-03-31 2009-11-11 大学共同利用機関法人情報・システム研究機構 文書インデキシング装置、文書検索装置、文書分類装置、並びにその方法及びプログラム
JP5146979B2 (ja) * 2006-06-02 2013-02-20 株式会社国際電気通信基礎技術研究所 自然言語における多義解消装置及びコンピュータプログラム
JP5137567B2 (ja) 2007-12-28 2013-02-06 三菱電機株式会社 検索フィルタリング装置及び検索フィルタリングプログラム
US8442926B2 (en) 2008-01-08 2013-05-14 Mitsubishi Electric Corporation Information filtering system, information filtering method and information filtering program
US8401842B1 (en) * 2008-03-11 2013-03-19 Emc Corporation Phrase matching for document classification
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
CN101261629A (zh) * 2008-04-21 2008-09-10 上海大学 基于自动分类技术的特定信息搜索方法
JP5288959B2 (ja) * 2008-09-17 2013-09-11 三菱電機株式会社 データ分類装置及びコンピュータプログラム
US8311960B1 (en) * 2009-03-31 2012-11-13 Emc Corporation Interactive semi-supervised machine learning for classification
US8719302B2 (en) 2009-06-09 2014-05-06 Ebh Enterprises Inc. Methods, apparatus and software for analyzing the content of micro-blog messages
US8745091B2 (en) * 2010-05-18 2014-06-03 Integro, Inc. Electronic document classification

Also Published As

Publication number Publication date
CN103299304B (zh) 2016-09-28
JP5460887B2 (ja) 2014-04-02
US9323839B2 (en) 2016-04-26
WO2012095971A1 (ja) 2012-07-19
US20130275433A1 (en) 2013-10-17
CN103299304A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
JP5460887B2 (ja) 分類ルール生成装置及び分類ルール生成プログラム
US10387455B2 (en) On-the-fly pattern recognition with configurable bounds
US8370278B2 (en) Ontological categorization of question concepts from document summaries
US8630989B2 (en) Systems and methods for information extraction using contextual pattern discovery
JP5751253B2 (ja) 情報抽出システム、方法及びプログラム
US8150827B2 (en) Methods for enhancing efficiency and cost effectiveness of first pass review of documents
Stamatatos Authorship Verification: A Review of Recent Advances.
US20160188569A1 (en) Generating a Table of Contents for Unformatted Text
CN109492118A (zh) 一种数据检测方法及检测装置
Cabral et al. FakeWhastApp. BR: NLP and Machine Learning Techniques for Misinformation Detection in Brazilian Portuguese WhatsApp Messages.
Chawla et al. Automatic bug labeling using semantic information from LSI
JP2012088803A (ja) 悪性ウェブコード判別システム、悪性ウェブコード判別方法および悪性ウェブコード判別用プログラム
JP5056337B2 (ja) 情報検索システム
CN112016317A (zh) 基于人工智能的敏感词识别方法、装置及计算机设备
Zhai et al. A girl has a name, and it's... adversarial authorship attribution for deobfuscation
JP6194180B2 (ja) 文章マスク装置及び文章マスクプログラム
CN112087473A (zh) 文档下载方法、装置、计算机可读存储介质和计算机设备
JP6154072B2 (ja) 情報分析システム、情報分析方法及び情報分析プログラム
WO2011048672A1 (ja) データ処理装置及びデータ処理方法及びプログラム
JP2022089132A (ja) 情報セキュリティ装置及びその方法
JP2022518659A (ja) エクスプロイト・キット検出
Suliman et al. Explicit words filtering mechanism on web browser for kids
Zhai et al. Adversarial Authorship Attribution for Deobfuscation
JP2009157510A (ja) スパム情報判別システム、スパム情報判別方法、およびスパム情報判別プログラム
CN115098806A (zh) 检测有害url的方法、系统、电子设备及存储介质

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131217

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140114

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5460887

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250