JPWO2011018867A1 - 情報分類装置、情報分類方法、及びプログラム - Google Patents

情報分類装置、情報分類方法、及びプログラム Download PDF

Info

Publication number
JPWO2011018867A1
JPWO2011018867A1 JP2011526676A JP2011526676A JPWO2011018867A1 JP WO2011018867 A1 JPWO2011018867 A1 JP WO2011018867A1 JP 2011526676 A JP2011526676 A JP 2011526676A JP 2011526676 A JP2011526676 A JP 2011526676A JP WO2011018867 A1 JPWO2011018867 A1 JP WO2011018867A1
Authority
JP
Japan
Prior art keywords
rule
determination
content
rules
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011526676A
Other languages
English (en)
Other versions
JP5692074B2 (ja
Inventor
正明 土田
正明 土田
弘紀 水口
弘紀 水口
大 久寿居
大 久寿居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2011526676A priority Critical patent/JP5692074B2/ja
Publication of JPWO2011018867A1 publication Critical patent/JPWO2011018867A1/ja
Application granted granted Critical
Publication of JP5692074B2 publication Critical patent/JP5692074B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

情報分類装置1は、和集合ルールを用いて分類対象コンテンツに対する正否判定を行う和集合判定部10と、複数の個別判定ルールを、正と判定された分類対象コンテンツに適用して、条件に合致するかどうかの判定を行い、各個別判定ルールの判定結果に基づいて、正と判定された分類対象コンテンツに対して再度の正否判定を行う個別判定部11とを備える。和集合判定ルールは、分類対象とは異なる複数のコンテンツに対して予め二人以上によって実行された正否判定の結果と、異なる各コンテンツの特徴量とを用いて作成され、各個別判定ルールは、各人に対応するように、上述の正否判定の結果と特徴量とを用いて作成される。

Description

本発明は、コンテンツをカテゴリに分類するための情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体に関する。
近年、大量の情報を有効活用することが求められている。そして、大量の情報の有効活用のためには、情報を分類して管理することが極めて重要となる。例えば、新聞記事を政治や経済等のジャンル別に分類すること、及び技術文書を技術分野別に分類することは、特定のテーマを調査する際の調査対象の絞り込みを容易なものとする。よって、情報の分類は、情報の有効活用に有用である。
また、ある情報を分類するための分類方法は、一つではなく、多数存在するが、各分類方法には一長一短があることから、最適な分類方法の選択は困難な場合がある。このため、従来から、1つの分類基準が与えられている場合に最適な分類方法を選択するための方法が提案されている(例えば、特許文献1参照。)。
具体的には、特許文献1に開示された情報分類方法では、次のような処理が実行される。先ず、分類サンプルデータから、分類カテゴリ毎に特徴素が抽出される。次に、分類サンプルデータに基づいて複数の分類方法の中から最も分類精度が高い分類方法が決定される。次いで、決定された分類方法に従い、抽出された特徴素に基づいて、分類カテゴリ毎の特徴を表す分類学習情報が生成される。その後、決定された分類方法と分類学習情報とに従って、分類対象である新規テキスト群が分類カテゴリ毎に分類される。
ところで、最適な情報分類方法が決定されても、分類基準に人の感性が関わる場合は、人によって分類基準が異なるため、分類についての問題(分類問題)に対して、本質的な正解を決定することが困難となる。例えば、ある文に対して意見が述べられているか否か、ある商品の特長がその商品が売れている要因であるか否か、等の分類問題が存在するとする。このような分類問題は、人の感性に依存するため、分類基準は異なってしまう。このような分類基準の相違を修正するため、複数人による投票によって分類基準を決定し、その後、情報分類を実行する技術が提案されている。
従来からの投票型の情報分類技術としては、例えば、以下の二つ分類方法が知られている。なお、以下の説明においては、予め、複数人(n人)それぞれによって幾つかの情報に対してカテゴリの分類を行わせ、各人のカテゴリ分類によって得られた情報がサンプルデータとして付与されているとする。また、以下の方法においては、m(≦n)人以上によって、そのカテゴリと見なされた情報が、そのカテゴリに分類されるように、カテゴリ分類が実行される。なお、以下において、対象となる情報が着目するカテゴリに分類される場合を「正例」とし、着目するカテゴリに分類されない場合を「負例」と表す。
第1の分類方法では、先ず、n人によるカテゴリ分類によって得られたサンプルデータが取得される。次に、サンプルデータに基づいて、特定の情報分類ルールを有する情報分類器の構築が行われる(例えば、非特許文献1参照。)。なお、特定の情報分類ルールとしては、例えば、m人以上が、着目するカテゴリであると判断した情報をそのカテゴリの正例とし、それ以外の情報をそのカテゴリの負例とするルール等が挙げられる。
また、第2の分類方法でも、先ず、n人によるカテゴリ分類によって得られたサンプルデータが取得される。次に、第2の分類方法では、サンプルデータを人毎に分析し、各人に対応するn個の情報分類器が構築される。そして、m個以上の情報分類器が、着目するカテゴリであると判断した情報をそのカテゴリの正例とし、それ以外の情報をそのカテゴリの負例として、正例と負例とへの分類が実行される。第2の分類方法は、各人の基準で別々の情報分類器の構築が行われる点で、第1の分類方法と異なっている。
特開2002−7433号公報
Hironori Mizuguchi, Masaaki Tsuchida and Dai Kusui,"Three-Phase Opinion Analysis System at NTCIR-6", Proceedings ofNTRIC-6 Workshop Meeting, pp 330-335, 2007.
しかしながら、上述した第1の分類方法及び第2の分類方法には、サンプルデータ作成時に携わった個人の認識における偏り、即ち、他人の認識と異なる部分が考慮されていないため、分類精度の向上が難しいという問題がある。
ここで、「個人の認識における偏り」を、図11を用いて説明する。図11は、個人の認識における偏りを示す説明図である。図11に示すように、例えば、A、B、Cの三人の認識を円で図示すると、各円は一致することはないが、一部分(図中斜線部分)でのみ重なる。図11において、各円の重なっていない部分が、「個人の認識における偏り」に相当する。
具体的には、第1の分類方法では、情報毎に、n人全体の傾向に基づいて分類が行われる。よって、図11に示す個人の認識における偏りが考慮されることはない。また、第1の分類方法では、情報毎に、正例と判断したm人の構成が変化してしまう。例えば、ある情報は、判定者A及びBによって正例とされ、他の情報は判定者A、B、Cによって正例とされ、更に別の他の情報は判定者B及びCによって正例とされている。このため、分類基準に一貫性がなく、このことからも分類精度の向上が難しくなっている。
第2の分類方法では、各分類器自体には個人の認識における偏りは反映されているが、各分類器において、どの部分が個人の認識の偏りに相当するかまでは考慮されていない。つまり、第2の分類方法であっても、個人の認識における偏り部分と共通部分とを特定し、これらを考慮して情報分類が行われるわけではないため、分類精度の向上は困難である。
更に、第2の分類方法では、各分類器において個人の認識における偏りが強く反映され過ぎてしまい、本来、正例とすべき情報が正例に分類されなかったり、負例とすべき情報が負例に分類されなかったりといった事態が発生する場合もある。この場合も分類精度の向上は困難である。
本発明の目的は、上記問題を解消し、個人の認識における偏りを認識し、これを情報分類に反映させて分類精度の向上を図り得る、情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体を提供することにある。
上記目的を達成するため、本発明における情報分類装置は、分類対象となるコンテンツをカテゴリに分類するための情報分類装置であって、
第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、第1の判定部と、
互いに条件が異なる複数の第2のルールそれぞれを、前記第1の判定部によって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記第1の判定部によって正と判定されたコンテンツに対して再度の正否判定を行う、第2の判定部とを備え、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする。
また、上記目的を達成するため、本発明における情報分類方法は、分類対象となるコンテンツをカテゴリに分類するための情報分類方法であって、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを有し、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする。
更に、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、分類対象となるコンテンツのカテゴリへの分類をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを実行させる、命令を含むプログラムを記録しており、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする。
以上のように、本発明における、情報分類装置、情報分類方法、及びプログラムによれば、個人の認識における偏りを認識し、これを情報分類に反映させて分類精度の向上を図ることができる。
図1は、実施の形態1における情報分類装置の構成を示すブロック図である。 図2は、実施の形態1における情報分類装置の動作を示すフロー図である。 図3は、実施の形態1で用いられる分類対象データの一例を示す図である。 図4は、実施の形態1で用いられる和集合判定ルールの一例を示す図である。 図5は、実施の形態1で用いられる個別判定ルールの一例を示す図である。 図6は、実施の形態1における分類結果の一例を示す図である。 図7は、実施の形態2における情報分類装置の構成を示すブロック図である。 図8は、実施の形態2における情報分類装置の動作を示すフロー図である。 図9は、実施の形態2で用いられる訓練データの一例を示す図である。 図10は、本発明の実施の形態1または2におけるプログラムを実行可能なコンピュータを示すブロック図である。 図11は、個人の認識における偏りを示す説明図である。
(実施の形態1)
以下、本発明の実施の形態1における情報分類装置及び情報分類方法について、図1〜図6を参照しながら説明する。最初に、本実施の形態1における情報分類装置の構成について図1を用いて説明する。図1は、実施の形態1における情報分類装置の構成を示すブロック図である。
図1に示す、本実施の形態1における情報分類装置1は、分類対象となるコンテンツ(分類対象コンテンツ)をカテゴリに分類するための装置である。本実施の形態1において、コンテンツとしては、E−mail、Webページ等が挙げられる。
また、以下の説明では、各分類対象コンテンツが、あるカテゴリに属すか否かの2クラス分類が実行される例が挙げられている。但し、本実施の形態1はこれに限定されるものではない。本実施の形態1は、情報分類装置1が、分類対象コンテンツを複数のカテゴリ(クラス)のいずれかに分類する場合であっても良い。この場合、情報分類装置1は、カテゴリ毎に、分類対象コンテンツが当該カテゴリに属するかどうかを判定する。
図1に示すように、情報分類装置1は、第1の判定部10と、第2の判定部11とを備えている。第1の判定部10は、第1のルールを用いて、分類対象となるコンテンツに対する正否判定を実行する。
第2の判定部11は、互いに条件が異なる複数の第2のルールそれぞれを、第1の判定部10によって正と判定されたコンテンツに適用して、条件に合致するかどうかの判定を行う。また、第2の判定部11は、複数の第2のルールそれぞれの判定結果に基づいて、第1の判定部10によって正と判定されたコンテンツに対して再度の正否判定を実行する。
また、第1のルールは、分類対象となるコンテンツとは異なる複数のコンテンツ(ルール作成用コンテンツ)から作成されている。具体的には、第1のルールは、各ルール作成用コンテンツに対して予め二人以上の人によって実行された正否判定の結果と、各ルール作成用コンテンツの特徴量とを用いて作成されている。
更に、各第2のルールは、上述の各ルール作成用コンテンツに対して正否判定を行った各人に対応して作成されている。そして、各第2のルールは、第1のルールの作成で述べた、正否判定の結果と、特徴量とを用いて作成されている。
従って、第1のルールを用いた最初の正否判定の結果には、第1のルール及び第2のルールの作成に貢献した複数人全体での意思が反映される。一方、第2のルールを用いた各判定の結果には、個人の認識における偏りが強く反映される。
このように、情報分類装置1は、先ず、分類対象コンテンツに対して、個人の認識における偏りが排除された判定を行う。そして、情報分類装置1は、正と判定された分類対象コンテンツに対してのみ、個人の認識における偏りが反映された第2のルールを適用して、個人毎の認識の相違を特定する。その後、情報分類装置1は、第2のルールの適用結果に基づいて、再度、分類対象コンテンツに対して判定を行う。このため、情報分類装置1によれば、個人の認識における偏りが認識され、そして、この認識が情報分類に反映されるので、結果、分類精度の向上が図られる。
ここで、本実施の形態1における情報分類装置1の構成について更に具体的に説明する。図1に示すように、本実施の形態1では、情報分類装置1には、記憶装置2が接続されている。情報分類装置1は、記憶装置2と共に情報分類システム3を構成している。
また、本実施の形態1では、第1のルール及び第2のルールは、コンピュータ等を用いた機械学習によって予め作成されている。この場合、第1のルールは、各ルール作成用コンテンツに対して予め二人以上の人によって実行された正否判定の結果と、各ルール作成用コンテンツの特徴量とを用いて、この二人以上の人による正否判定を学習することによって作成されているのが好ましい。更に、各第2のルールは、第1のルールの作成で述べた、正否判定の結果と、特徴量とを用いて、各人の正否判定を学習することによって作成されているのが好ましい。
具体的には、第1のルールは、複数のルール作成用コンテンツのうち、予め定められたm人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習されているのが好ましい。この場合、mは1とするのが好ましい。よって、第1のルールは、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習されているのが好ましい。
例えば、ルール作成用コンテンツに対して、A、B、Cの三人によって正否判定が行われているとする。この場合は、図11中において太線で示されたA、B、Cの和集合(A∪B∪C)に含まれるコンテンツが正(正解)に設定され、この和集合に含まれないコンテンツが否(不正解)に設定されて、学習が行われる。
更に、各第2のルールは、複数のルール作成用コンテンツのうち、当該第2のルールに対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、当該第2のルールに対応する人を含むk人以上が賛同するコンテンツを否のデータに設定して学習されているのが好ましい。この場合、j及びkは共に1以上の整数であり、「k>j」の関係にあるのが良い。j及びkの値は、適宜設定することができる。
例えば、jが1、kが3に設定されており、図11におけるAに対応する第2のルールを作成する場合は、Aのみが賛同するコンテンツが正に設定され、A、B、Cの全員が賛同するコンテンツが否に設定されて、学習が行われる。また、jを小さく、kを大きくする程、第2のルールに反映される個人の偏りは、強くなる傾向にある。逆に、jを大きく、kを小さくする程、第2のルールに反映される個人の偏りは、弱くなる傾向にある。
また、以降の説明では、第1のルールは、「和集合判定ルール」とし、第1の判定部10は「和集合判定部」10とする。更に、第2のルールは、「個別判定ルール」とし、第2の判定部11は、「個別判定部」11とする。和集合判定ルール及び個別判定ルールの具体例については、後述する(図4、図5参照。)。
なお、本実施の形態では、和集合判定ルール(第1のルール)及び個別判定ルール(第2のルール)は、人手によって予め作成されていても良い。この場合、和集合判定ルールは、異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとするルールとなるように作成されているのが良い。各個別判定ルールは、異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されているのが良い。
また、図1に示すように、本実施の形態1では、記憶装置2は、分類対象データ記憶部20と、和集合判定ルール記憶部21と、個別判定ルール記憶部22と、分類結果記憶部23とを備えている。これらは、実際には、記憶装置2の記憶領域に構築されている。
分類対象データ記憶部20には、和集合判定ルール及び個別判定ルールによる判定の対象となるデータ、即ち、分類対象コンテンツのデータ(分類対象データ)が記憶されている。また、分類対象データの形式(フォーマット)は、判定対象となるのであれば限定されず、テキスト形式、バイナリ形式等のいずれの形式であっても良い。つまり、分類対象データ記憶部20には、形式に限定されず、分類対象データが記憶される。
また、和集合判定ルール記憶部21には、和集合判定部10が使用する和集合判定ルールが記憶されている。個別判定ルール記憶部22には、個別判定部11が使用する複数の個別判定ルールが記憶されている。分類結果記憶部23には、後述する個別判定部11によって最終的に行われる情報分類の結果が記憶されている。
和集合判定部10は、本実施の形態1では、分類対象データ記憶部20から、分類対象データを抽出し、抽出したデータに対して、和集合判定ルール記憶部21から取り出した和集合判定ルールを用いて正否判定を実行する。具体的には、和集合判定部10は、例えば、スパムかどうかの判断基準を含む和集合判定ルールを用いて、分類対象コンテンツがスパム(正)及び非スパム(否)のいずれであるか等を判定する。
また、個別判定部11は、本実施の形態1では、和集合判定部10から判定結果を受け取り、更に、個別判定ルール記憶部22から個別判定ルールを取り出し、和集合判定部10によって正と判定されたコンテンツに各個別判定ルールを適用する。そして、個別判定部11は、個別判定ルール毎に結果を集計する。
例えば、個別判定ルールが、コンテンツがスパムであるとされる条件を有し、その条件が、個別判定ルール毎に異なっているとする。そして、このような各個別判定ルールが、和集合判定部10によってスパム(正)と判定されたコンテンツに適用されるとする。個別判定部11は、和集合判定部10の判定結果と一致する場合(スパムと判定する場合)と、和集合判定部10の判定結果と不一致となる場合(非スパムと判定する場合)との両方又は一方について集計を行う。なお、集計は、例えば、該当する個別判定ルールの数をカウントすることによって行われる。
そして、本実施の形態1では、個別判定部11は、条件に合致する(和集合判定部10の判定結果と一致する)個別判定ルールの数、又は条件に合致しない(和集合判定部10の判定結果と一致しない)個別判定ルールの数に基づいて、再度の正否判定を行う。例えば、スパムと判定する個別判別ルールの数が、非スパムと判定する個別判別ルールの数より多い場合は、個別判定部11は、分類対象コンテンツはスパム(正)であると判定する。そして、個別判定部11は、この分類対象コンテンツをスパムに分類し、分類結果を分類結果記憶部23に記憶させる。
次に、図1に示した、実施の形態1における情報分類装置1の動作について図2〜図6を用いて説明する。図2は、実施の形態1における情報分類装置の動作を示すフロー図である。
また、本実施の形態1では、情報分類装置1を動作させることにより、情報分類方法を実施することができる。よって、実施の形態1における情報分類方法の説明は、情報分類装置1の動作の説明に代える。以下の説明では、適宜、図1を参酌する。
更に、以下においては、分類対象コンテンツがE−Mailであり、このE−Mailをスパム及び非スパムのいずれかに分類する場合を例に挙げて説明する。また、既に述べたように、スパム及び非スパムの定義は、通常、人によって異なるため、複数の判定者の投票によって決めるのが好ましい。以下の説明では、判定者は3人に設定され、各判定者に対応する2つ以上の個別判定ルールによってスパムと判定されたE−Mailが、最終的にスパムに分類されることとする。なお、和集合判定ルール及び個別判定ルールは、複数の判定者(人)が別のE−Mailに対して既に行っている判定結果から、予め、作成されている。
図2に示すように、先ず、和集合判定部10が、分類対象データ記憶部20から1又は2以上の分類対象データを読み出し、和集合判定ルール記憶部21から和集合判定ルールを読み出す(ステップS1)。
ステップS1で読み出される分類対象データの具体例としては、図3に示すデータが挙げられる。また、ステップS1で読み出される和集合判定ルールの具体例としては、図4に示すルールが挙げられる。図3は、実施の形態1で用いられる分類対象データの一例を示す図である。図4は、実施の形態1で用いられる和集合判定ルールの一例を示す図である。
図3に示すように、本実施の形態1では、各分類対象データは、各データを特定するための識別子「ID」と、データ本体(E−Mailの内容)を特定する「データ」とで構成されている。また、図4に示すように、本実施の形態1では、和集合判定ルールは、各ルールを特定するための識別子「ルールID」と、ルールの条件を特定する「ルール条件」と、各ルール条件に適合した場合に付与されるスコアを特定する「スコア」とで構成されている。更に、図4に示す和集合判定ルールは、分類対象のE−Mailがスパムか非スパムかを判定するためのルールである。
次に、和集合判定部10は、ステップS1で読み出した各分類対象データに対して、和集合判定ルールを適用し、正否判定を実行し、正否判定の結果を個別判定部11に渡す(ステップS2)。
具体的には、本実施の形態1におけるステップS2では、和集合判定部10は、分類対象データの「データ」に対して、各和集合判定ルールを適用し、条件に適合したルールの「スコア」の合計を算出する。そして、和集合判定部10は、例えば、合計値が1を超えたデータをスパム(正)、そうでないデータを非スパム(否)と判定する。
例えば、「ID」=1の分類対象データは、本文にURLを含むため、「ルールID」=1の和集合判定ルールが適用されると、条件が適合するため、「スコア」として0.5が付与される。しかし、「スコア」の合計が1を下回るため、「ID」=1の分類対象データは非スパム(否)と判定される。一方、「ID」=2の分類対象データは、本文にURLと「秘密情報」の文言とを含んでいる。「ID」=2の分類対象データは「ルールID」=1及び4の条件に適合するため、これに付与されるスコアの合計は1.5となる。よって、「ID」=2の分類対象データはスパム(正)と判定される。なお、判断の基準となる合計値は、分類対象コンテンツの内容、求める分類精度等に応じて適宜設定される。
次に、個別判定部11は、和集合判定部10から判定結果を受け取ると、個別判定ルール記憶部22からの個別判定ルールの読み出しを実行する(ステップS3)。ステップS3で読み出される個別判定ルールの具体例としては、図5に示すルールが挙げられる。図5は、実施の形態1で用いられる個別判定ルールの一例を示す図である。
図5に示すように、本実施の形態1では、個別判定ルールは、対応する判定者を特定する「判定者ID」と、ルールの条件を特定する「ルール条件」と、各ルール条件に適合した場合に付与されるスコアを特定する「スコア」とで構成されている。更に、図5に示す各個別判定ルールも、和集合判定ルールと同様に、分類対象のE−Mailがスパムか非スパムかを判定するためのルールである。
図5に示す各個別判定ルールは、例えば、対応する判定者のみが「スパム」と判定するコンテンツを正、対応する判定者を含む3人が共通で「スパム」と判定するコンテンツを否に設定した学習によって作成されている。よって、「判定者ID」=1の最初の個別判定ルールは、「判定者ID」=1の判定者が、特に、subjectに「マガジン」を含むメールをスパムと見なす傾向にあることを表している。また、subjectに「マガジン」を含むメールは、必ずしもスパムとは見なせないため、この個別判定ルールは、「判定者ID」=1の判定者の認識における偏りに相当する。
次に、個別判定部11は、ステップ2での和集合判定部10の判定結果から、正と判定された分類対象データを特定し、特定した分類対象データに対して各個別判定ルールを適用する(ステップS4)。具体的には、個別判定部11は、先ず、正と判定されなかった分類対象データについては、投票数(図6参照)を「0」に設定する。一方、個別判定部11は、正と判定された分類対象データに対しては、各個別判定ルールを適用して、ステップS2の判定結果と一致する場合(スパムと判定する場合)の数をカウントする。そして、個別判定部11は、正と判定された分類対象データについては、カウントによって得られた値を投票数に設定する。
次に、個別判定部11は、ステップS4の結果に基づいて、各分類対象データに対して、再度の正否判定を実行し、その結果を用いて情報の分類を行う(ステップS5)。本実施の形態1では、ステップS5の正否判定は、ステップS2の判定結果と一致する場合の数(図6に示す「投票数」)が、閾値以上となる場合を正とし、閾値未満となる場合を否とする。そして、正とされた分類対象データのコンテンツをスパムに分類し、否とされた分類対象データのコンテンツを非スパムに分類する。そして、ステップS5の実行により、情報処理装置1における処理は一旦終了する。
ここで、図5及び図6を用いて、ステップS4及びS5を具体的に説明する。図6は、実施の形態1における分類結果の一例を示す図である。図6の例では、分類対象データのうち「分類対象データID」=1及び3は、ステップS2において否(非スパム)と判断されている。よって、ステップS4では、「分類対象データID」=2、4、5、6・・・が適用対象となる。図5に示す個別判定ルールが用いられた場合、個別判定部11は、ステップS4において、分類対象データと各個別判定ルールのルール条件とを対比し、適合するルール条件のスコアを積算する。そして、スコアの積算値が、閾値を超えた場合に、個別判定部11は、個別判定ルールの適用結果とステップS2の判定結果とが一致すると判定することができる。
例えば、閾値が「1」に設定されている場合に、「分類対象データID」=5の分類対象データに、「判定者ID」=1の個別判定ルールが適用されたとする。「分類対象データID」=5の分類対象データは、subjectに「マガジン」を含むため(図3参照)、「判定者ID」=1の個別判定ルールのスコアは1となる(図5参照)。よって、スコアは1を越えないため、「判定者ID」=1の個別判定ルールの「分類対象データID」=5の分類対象データへの適用結果は、非スパムであり、「不一致」となる(後述の図6参照)。同様に、「分類対象データのID」=5の分類対象データに、「判定者ID」=2の個別判定ルールが適用された場合も、適用結果は「不一致」となる。
そして、「分類対象データのID」=5の分類対象データにおいては、二つの個別判定ルールの適用結果が「不一致」となるので、「投票数」は、個別判定ルールの全数である「3」から、不一致となる数「2」を引いて得られた値「1」となる。ステップS6において、投票数の閾値が「2」に設定されているとすると、この場合、「分類対象データのID」=5の分類対象データは、非スパムと判定される。一方、「分類対象データID」=2の分類対象データでは、個別判定ルールの適用結果が全て「一致」となるので、スパムと判定される。同様に、「分類対象データID」=4の分類対象データでは、「判定者ID」=3の個別判定ルールの適用結果は「不一致」となるが、投票数が「2」となるため、スパムと判定される。
なお、図6の例では、ステップS2において、和集合判定部10によって「否」と判定された分類対象データは、そのまま「非スパム」とされている。また、ステップS2において、和集合判定部10によって「正」と判定された分類対象データのうち、「投票数」が2を上回った「分類対象データのID」=2、4、6は「スパム」と判定されている。一方、そうでない「分類対象データのID」=5は「非スパム」と判定されている。
以上のように、本実施の形態1では、複数の判定者から得られたデータに基づいて、判定者全体による判定に相当する和集合判定と、各判定者による判定に相当する個別判定とが行われる。また、和集合判定は、正か、否かのみを判定し、個別判定は、正と判断されたコンテンツに対して、個別判定の結果を用いて多数決判定を実行し、コンテンツを最終的に分類する。このように、本実施の形態1は、個人の認識の偏りが強く出過ぎてしまうのを抑制しつつ、個人の認識を情報分類に反映できるので、情報分類における分類精度の向上を図ることができる。
(実施の形態2)
次に、本発明の実施の形態2における情報分類装置及び情報分類方法について、図7〜図9を参照しながら説明する。最初に、本実施の形態1における情報分類装置の構成について図7を用いて説明する。図7は、実施の形態2における情報分類装置の構成を示すブロック図である。なお、本実施の形態2においても、実施の形態1と同様に、各分類対象コンテンツが、あるカテゴリに属すか否かの2クラス分類が実行される例が挙げられている。
図7に示す本実施の形態2における情報分類装置4は、和集合判定ルールと個別判定ルールとを機械学習によって自動的に取得する機能を備えており、この点で、図1に示した実施の形態1における情報分類装置1と異なっている。
図7に示すように、情報分類装置4は、情報分類装置1と異なり、和集合判定部10及び個別判定部11に加え、ルール学習部12を備えている。また、記憶装置5は、図1に示した記憶装置2と異なり、更に、訓練データ記憶部24を備えている。
これらの点以外については、情報分類装置4及び記憶装置5は、実施の形態1において図1に示した情報分類装置1及び記憶装置2と同様に構成されている。以下に、相違点について具体的に説明する。なお、本実施の形態2においても、情報分類装置4は、記憶装置5と共に情報分類システム6を構成している。
本実施の形態2において、記憶装置5に構築された訓練データ記憶部24は、和集合判定ルール及び個別判定ルールの学習に用いる訓練データを記憶している。訓練データは、分類対象となるコンテンツとは異なる複数のコンテンツ(ルール作成用コンテンツ)から作成されたデータである。訓練データは、各ルール作成用コンテンツに対して予め二人以上の人によって実行された正否判定の結果と、各ルール作成用コンテンツの特徴量とを含んでいる。
また、本実施の形態2では、訓練データ記憶部24は、分類対象データ記憶部20等と共通の記憶装置の記憶領域に構築されているが、この例に限定されるものではない。訓練データ記憶部24は、分類対象データ記憶部20等が構築された記憶装置とは別の記憶装置の記憶領域に構築されていても良い。
ルール学習部12は、訓練データ記憶部24に記憶されている訓練データに基づいて学習を行うことによって、和集合判定ルール及び個別判定ルールを作成する。また、ルール学習部12は、和集合判定ルールを学習する和集合判定ルール学習部13と、各個別判定ルールを学習する個別判定ルール学習部14とを備えている。
本実施の形態2において学習される和集合判定ルール及び各個別判定ルールのそれぞれの例としては、実施の形態1に示した和集合判定ルール及び各個別判定ルールが挙げられる。例えば、和集合判定ルール学習部13は、複数のルール作成用コンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習を行い、和集合判定ルールを作成する。
また、個別判定ルール学習部14は、複数のルール作成用コンテンツのうち、一の判定者を含むj人以下が賛同するコンテンツを正のデータに設定し、当該一の判定者を含むk人以上が賛同するコンテンツを否のデータに設定して学習を行い、個別判定ルールを作成する。実施の形態1と同様に、j及びkは共に1以上の整数であり、「k>j」の関係にある。j及びkの値は、適宜設定することができる。
更に、本実施の形態2において、和集合判定ルール学習部13及び個別判定ルール学習部14による具体的な学習の方法は、特に限定されるものではない。具体的な学習方法としては、例えば、サポートベクターマシン(Support Vector Machines)、及び決定木等といった、任意の教師パタンが付与された(教師有り)学習アルゴリズムを用いた学習方法が挙げられる。
例えば、サポートベクターマシンが用いられる場合は、各学習部は、正解データ群及びそれぞれの特徴量と、不正解データ群及びそれぞれの特徴量とを用いて学習を行い、学習結果として、分類に有効な特徴量を出力する。出力される特徴量が、和集合判定ルール又は個別判定ルールとなる。なお、サポートベクターマシンでの学習の結果によって出力されるルールは、通常、人間が可読できるものではなく、コンピュータ等の機械によって読み取り可能な形式で作成されている。但し、これらルールは、概念的には、図4及び図5に示されたルールと同様のものである。
また、和集合判定ルール学習部13は、作成した和集合判定ルールを和集合判定ルール記憶部21に記憶させる。個別判定ルール学習部14は、作成した個別判定ルールを個別判定ルール記憶部22に記憶させる。
次に、図7に示した、実施の形態2における情報分類装置4の動作について図8及び図9を用いて説明する。図8は、実施の形態2における情報分類装置の動作を示すフロー図である。図9は、実施の形態2で用いられる訓練データの一例を示す図である。
また、本実施の形態2においても、実施の形態1と同様に、情報分類装置4を動作させることにより、情報分類方法を実施することができる。よって、実施の形態2における情報分類方法の説明は、情報分類装置4の動作の説明に代える。また、以下の説明では、適宜、図7を参酌する。
なお、本実施の形態2においても、分類対象コンテンツはE−Mailであり、このE−Mailをスパム及び非スパムのいずれかに分類する場合を例に挙げて説明する。また、訓練データは、3人の判定者が、分類対象とは別のE−Mailに対して既に行っている判定結果を含んでいる。本実施の形態2では、各判定者に対応する2つ以上の個別判定ルールによってスパムと判定されたE−Mailが、最終的にスパムに分類される。
図8に示すように、最初に、ルール学習部12が、訓練データ記憶部24から訓練データを読み出し、そして、和集合判定ルール学習部13による和集合判定ルールの学習と、個別判定ルール学習部14による個別判定ルールの学習とが実行される(ステップS11)。ステップS11の実行後、和集合判定ルールは、和集合判定ルール記憶部21に記憶され、個別判定ルールは、個別判定ルール記憶部22に記憶される。
ここで、図9を用いて、和集合判定ルール学習部13及び個別判定ルール学習部14によるルールの学習について説明する。図9に示すように、訓練データは、訓練データを構成している各構成データを特定する「ID」によって管理されている。各構成データは、ルール訓練用コンテンツのデータである。訓練データは、IDで特定される構成データ毎に、ルール学習に用いられる特徴量と、判定者による正否判定の結果とを含んでいる。
図9に示された正否判定の結果において、「○」は、各判定者がルール作成用コンテンツを正(スパム:正解)と判定した場合を示し、「×」は、各判定者がルール作成用コンテンツを否(非スパム:不正解)と判定した場合を示している。
また、図9において、「特徴量」は、学習対象となるルール作成用コンテンツ(構成データ)の特性を表している。図9に示された例では、各構成データのsubject、コンテンツの本文に含まれる自立語(名詞、動詞、形容詞、形容動詞等)の表層文字列等が、特徴量として用いられている。
例えば、「ID」=1の構成データの特徴量に含まれる、「subject:送別会」、「subject:連絡」は、各subjectに、送別会又は連絡といった単語が含まれていることを表している。また、「ID」=1の構成データの特徴量に含まれる、「明日」、「集合」、「19時」は、コンテンツの本文に含まれる単語を表している。
なお、図9に示された特徴量は一例に過ぎず、特徴量は、図9の例に限定されるものではない。例えば、特徴量は、自立語の表層文字列以外を含んでいても良いし、名詞以外の品詞の表層文字列を含んでいても良い。また、特徴量は、品詞、係り受け関係の単語の組合せ、係り受けの単語の品詞の組合せ、それぞれの頻度等を含んでいても良い。
また、和集合判定ルール学習部13は、例えば、いずれかの判定者が正と判定した構成データを正解に設定し、それ以外のデータを不正解に設定して、正解を判定することが可能なルールを学習することができる。この場合、和集合判定ルールは、図9の例では、ID=1、3、4、5、7・・・といった構成データを正解に設定し、ID=2、6・・・といった構成データを不正解に設定して学習される。
更に、個別判定ルール学習部14は、例えば、ある判定者を含む1人以上j人以下が正と判定した構成データを正解、当該判定者を含むk人以上が正と判定した構成データを不正解として、正解を判定することが可能なルールを学習することができる。例えば、j=2、k=3とする。この場合、判定者IDが1の判定者に対応する個別判定ルールは、ID=1、・・・といった構成データを不正解に設定し、ID=4、5、・・・といった構成データを正解に設定して学習される。
なお、ステップS11における、和集合判定ルール学習部13及び個別判定ルール学習部14による学習のアルゴリズムとしては、上述したサポートベクターマシン及び決定木等といった、教師有り学習アルゴリズムが挙げられる。
ステップS11の実行後、和集合判定部10は、分類対象データ記憶部20から1又は2以上の分類対象データを読み出し、和集合判定ルール記憶部21から和集合判定ルールを読み出す(ステップS12)。更に、和集合判定部10は、ステップS12で読み出した各分類対象データに対して、和集合判定ルールを適用し、正否判定を実行し、正否判定の結果を個別判定部11に渡す(ステップS13)。
次に、個別判定部11は、和集合判定部10から判定結果を受け取ると、個別判定ルール記憶部22から個別判定ルールの読み出し(ステップS14)、ステップS13で正と判定された分類対象データに各個別判定ルールを適用する(ステップS15)。その後、個別判定部11は、ステップS15の結果に基づいて、各分類対象データに対して、再度の正否判定を実行し、その結果を用いて情報の分類を行う(ステップS16)。そして、ステップS16の実行により、情報処理装置4における処理は一旦終了する。なお、ステップS12〜S16は、それぞれ、実施の形態1において図2に示したステップS1〜S5と同様のステップである。ステップS12〜S16は、図2に示したステップS1〜S5に準じて実行される。
このように、本実施の形態2においては、和集合判定ルールと個別判定ルールとが、訓練データから自動的に取得されて、情報分類が実行される。このため、本実施の形態2によれば、和集合判定ルールと個別判定ルールとを予め作成しておく場合、特にこれらを人手で作成しておく場合に比べて、ルール作成のためのコストを低減することができる。また、本実施の形態2においても、実施の形態1で述べた効果を得ることができる。
また、本発明の実施の形態1及び2においては、情報分類装置及び情報分類方法について説明したが、本発明は、更に、コンピュータソフトウェアとしても実現可能である。ここで、実施の形態1及び2におけるプログラムについて説明する。図10は、本発明の実施の形態1または2におけるプログラムを実行可能なコンピュータを示すブロック図である。
図10に示すコンピュータは、本発明による情報分類装置をインプリメントした情報処理装置として機能する。図10に示すように、コンピュータ(情報処理装置)は、プロセッサ300と、プログラムメモリ301と、記憶媒体302と、外部機器に接続されるインターフェイス303と、表示データを出力するためのビデオカード304とを備えている。記憶媒体302としては、RAMといった各種メモリや、ハードディスク等の磁気記憶媒体を用いることができる。なお、コンピュータには、キーボード等の入力装置305と、液晶表示装置等の表示装置306とが接続されている。
プログラムメモリ301には、実施の形態1または2の情報分類装置で行われる処理ステップを実行するプログラムが格納されており、このプログラムによってプロセッサ300が動作する。
そして、プログラムメモリ301に、例えば、図2に示すステップS1〜S5を具現化させるプログラムを格納し、このプログラムを実行すれば、実施の形態1における情報処理装置1が実現される。この場合、プロセッサ300は、和集合判定部10及び個別判定部11として機能する。記憶媒体302は、記憶装置2として機能する。
また、同様に、プログラムメモリ301に、図8に示すステップS11〜S16を具現化させるプログラムを格納し、このプログラムを実行すれば、実施の形態2における情報分類装置4が実現される。この場合、プロセッサ300は、和集合判定部10、個別判定部11、和集合ルール学習部13、及び個別判定ルール学習部14として機能する。記憶媒体302は、この場合、記憶装置5として機能する。
また、プログラムは、コンピュータ読み取り可能な記録媒体307に格納された状態で提供される。なお、プログラムは、通信インターフェイス117を介して接続されたインターネット上で流通するものであっても良い。記録媒体307の具体例としては、CF(Compact Flash)及びSD(Secure Digital)等の汎用的な半導体記憶デバイス、フレキシブルディスク(Flexible Disk)等の磁気記憶媒体、又はCD−ROM(Compact Disk
Read Only Memory)等の光学記憶媒体が挙げられる。
なお、実施の形態1における記憶装置2、及び実施の形態2における記憶装置5は、図10に示すコンピュータとネットワーク等を介して接続されたコンピュータの記憶媒体、又はネットワーク上に存在する記憶装置であっても良い。
以上、実施の形態を参照して本願発明を説明したが、本願発明は上記実施の形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
この出願は、2009年8月11日に出願された日本出願特願2009−186743を基礎とする優先権を主張し、その開示の全てをここに取り込む。
本願発明における、情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体は、以下の特徴を有する。
(1)分類対象となるコンテンツをカテゴリに分類するための情報分類装置であって、
第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、第1の判定部と、
互いに条件が異なる複数の第2のルールそれぞれを、前記第1の判定部によって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記第1の判定部によって正と判定されたコンテンツに対して再度の正否判定を行う、第2の判定部とを備え、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、
ことを特徴とする情報分類装置。
(2)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、上記(1)に記載の情報分類装置。
(3)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、上記(1)に記載の情報分類装置。
(4)前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、上記(1)に記載の情報分類装置。
(5)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、上記(4)に記載の情報分類装置。
(6)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、上記(4)に記載の情報分類装置。
(7)前記第2の判定部が、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、上記(1)に記載の情報分類装置。
(8)前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを、訓練データとして記憶する訓練データ記憶部と、
前記訓練データを用いた学習によって、前記第1のルール及び前記第2のルールを作成する、ルール学習部と、
を更に備えている、上記(4)に記載の情報分類装置。
(9)分類対象となるコンテンツをカテゴリに分類するための情報分類方法であって、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを有し、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする情報分類方法。
(10)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、上記(9)に記載の情報分類方法。
(11)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、上記(9)に記載の情報分類方法。
(12)前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、上記(9)に記載の情報分類方法。
(13)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、上記(12)に記載の情報分類方法。
(14)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、上記(12)に記載の情報分類方法。
(15)前記(b)のステップにおいて、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、上記(9)に記載の情報分類方法。
(16)(c)前記(a)及び(b)のステップの実行前に、予め訓練データとして記憶されている、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いた学習を実行し、前記第1のルール及び前記第2のルールを作成する、ステップを更に有する、上記(12)に記載の情報分類方法。
(17)分類対象となるコンテンツのカテゴリへの分類をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
前記コンピュータに、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを実行させる、命令を含むプログラムを記録しており、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とするコンピュータ読み取り可能な記録媒体。
(18)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、上記(17)に記載のコンピュータ読み取り可能な記録媒体。
(19)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、上記(17)に記載のコンピュータ読み取り可能な記録媒体。
(20)前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、上記(17)に記載のコンピュータ読み取り可能な記録媒体。
(21)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、上記(20)に記載のコンピュータ読み取り可能な記録媒体。
(22)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、上記(20)に記載のコンピュータ読み取り可能な記録媒体。
(23)前記(b)のステップにおいて、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、上記(17)に記載のコンピュータ読み取り可能な記録媒体。
(24)前記プログラムが、前記コンピュータに、更に、
(c)前記(a)及び(b)のステップの実行前に、予め訓練データとして記憶されている、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いた学習を実行し、前記第1のルール及び前記第2のルールを作成する、ステップを実行させる、命令を含む、上記(20)に記載のコンピュータ読み取り可能な記録媒体。
以上のように、本発明によれば、情報分類における分類精度の向上を図ることができる。よって、本発明は、テキストから特定の情報の抽出するための情報抽出装置や、特定の情報のみに絞って検索を実行する特化型の検索装置のデータ収集部、等の用途に有用である。
1 情報分類装置(実施の形態1)
2 記憶装置(実施の形態1)
3 情報処理システム(実施の形態1)
4 情報分類装置(実施の形態2)
5 記憶装置(実施の形態2)
6 情報処理システム(実施の形態2)
10 和集合判定部(第1の判定部)
11 個別判定部(第2の判定部)
12 ルール学習部
13 和集合判定ルール学習部
14 個別判定ルール学習部
20 分類対象データ記憶部
21 和集合判定ルール記憶部
22 個別判定ルール記憶部
23 分類結果記憶部
24 訓練データ記憶部
300 プロセッサ
301 プログラムメモリ
302 記憶媒体
303 インターフェイス
304 ビデオカード
305 入力装置
306 表示装置
307 コンピュータ読み取り可能な記録媒体
本発明は、コンテンツをカテゴリに分類するための情報分類装置、情報分類方法、及びプログラムに関する。
本発明の目的は、上記問題を解消し、個人の認識における偏りを認識し、これを情報分類に反映させて分類精度の向上を図り得る、情報分類装置、情報分類方法、及びプログラムを提供することにある。
更に、上記目的を達成するため、本発明におけるコンピュータ読み取り可能な記録媒体は、分類対象となるコンテンツのカテゴリへの分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを実行させ、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする。
次に、個別判定部11は、ステップ2での和集合判定部10の判定結果から、正と判定された分類対象データを特定し、特定した分類対象データに対して各個別判定ルールを適用する(ステップS4)。具体的には、個別判定部11は、先ず、正と判定されなかった分類対象データについては、投票数(図6参照)を「0」に設定する。一方、個別判定部11は、正と判定された分類対象データに対しては、各個別判定ルールを適用して、ステップS2の判定結果と一致する場合(スパムと判定する場合)の数をカウントする。そして、個別判定部11は、正と判定された分類対象データについては、カウントによって得られた値を投票数に設定する。
そして、「分類対象データのID」=5の分類対象データにおいては、二つの個別判定ルールの適用結果が「不一致」となるので、「投票数」は、個別判定ルールの全数である「3」から、不一致となる数「2」を引いて得られた値「1」となる。ステップSにおいて、投票数の閾値が「2」に設定されているとすると、この場合、「分類対象データのID」=5の分類対象データは、非スパムと判定される。一方、「分類対象データID」=2の分類対象データでは、個別判定ルールの適用結果が全て「一致」となるので、スパムと判定される。同様に、「分類対象データID」=4の分類対象データでは、「判定者ID」=3の個別判定ルールの適用結果は「不一致」となるが、投票数が「2」となるため、スパムと判定される。
(実施の形態2)
次に、本発明の実施の形態2における情報分類装置及び情報分類方法について、図7〜図9を参照しながら説明する。最初に、本実施の形態における情報分類装置の構成について図7を用いて説明する。図7は、実施の形態2における情報分類装置の構成を示すブロック図である。なお、本実施の形態2においても、実施の形態1と同様に、各分類対象コンテンツが、あるカテゴリに属すか否かの2クラス分類が実行される例が挙げられている。
(17)分類対象となるコンテンツのカテゴリへの分類をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
(a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
(b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを実行させ、
前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とするプログラム
(18)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、上記(17)に記載のプログラム
(19)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、上記(17)に記載のプログラム
(20)前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、上記(17)に記載のプログラム
(21)前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、上記(20)に記載のプログラム
(22)前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、上記(20)に記載のプログラム
(23)前記(b)のステップにおいて、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、上記(17)に記載のプログラム
(24)前記コンピュータに、更に、
(c)前記(a)及び(b)のステップの実行前に、予め訓練データとして記憶されている、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いた学習を実行し、前記第1のルール及び前記第2のルールを作成する、ステップを実行させる、上記(20)に記載のプログラム

Claims (24)

  1. 分類対象となるコンテンツをカテゴリに分類するための情報分類装置であって、
    第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、第1の判定部と、
    互いに条件が異なる複数の第2のルールそれぞれを、前記第1の判定部によって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記第1の判定部によって正と判定されたコンテンツに対して再度の正否判定を行う、第2の判定部とを備え、
    前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
    前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、
    ことを特徴とする情報分類装置。
  2. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、請求項1に記載の情報分類装置。
  3. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、請求項1または2に記載の情報分類装置。
  4. 前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
    前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、請求項1に記載の情報分類装置。
  5. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、請求項4に記載の情報分類装置。
  6. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、請求項4または5に記載の情報分類装置。
  7. 前記第2の判定部が、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、請求項1から6のいずれかに記載の情報分類装置。
  8. 前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを、訓練データとして記憶する訓練データ記憶部と、
    前記訓練データを用いた学習によって、前記第1のルール及び前記第2のルールを作成する、ルール学習部と、
    を更に備えている、請求項4から6のいずれかに記載の情報分類装置。
  9. 分類対象となるコンテンツをカテゴリに分類するための情報分類方法であって、
    (a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
    (b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを有し、
    前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
    前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とする情報分類方法。
  10. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、請求項9に記載の情報分類方法。
  11. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、請求項9または10に記載の情報分類方法。
  12. 前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
    前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、請求項9に記載の情報分類方法。
  13. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、請求項12に記載の情報分類方法。
  14. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、請求項12または13に記載の情報分類方法。
  15. 前記(b)のステップにおいて、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、請求項9から14のいずれかに記載の情報分類方法。
  16. (c)前記(a)及び(b)のステップの実行前に、予め訓練データとして記憶されている、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いた学習を実行し、前記第1のルール及び前記第2のルールを作成する、ステップを更に有する、請求項12から14のいずれかに記載の情報分類方法。
  17. 分類対象となるコンテンツのカテゴリへの分類をコンピュータに実行させるためのプログラムを記録した、コンピュータ読み取り可能な記録媒体であって、
    前記コンピュータに、
    (a)第1のルールを用いて、前記分類対象となるコンテンツに対する正否判定を行う、ステップと、
    (b)互いに条件が異なる複数の第2のルールそれぞれを、前記(a)のステップによって正と判定されたコンテンツに適用して、前記条件に合致するかどうかの判定を行い、前記複数の第2のルールそれぞれの判定結果に基づいて、前記(a)のステップで正と判定されたコンテンツに対して再度の正否判定を行う、ステップとを実行させる、命令を含むプログラムを記録しており、
    前記第1のルールは、前記分類対象となるコンテンツとは異なる複数のコンテンツそれぞれに対して予め二人以上の人によって実行された正否判定の結果と、前記異なる複数のコンテンツそれぞれの特徴量とを用いて作成され、
    前記複数の第2のルールそれぞれは、前記二人以上の人それぞれに対応し、且つ、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いて作成されている、ことを特徴とするコンピュータ読み取り可能な記録媒体。
  18. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータとし、それ以外のコンテンツを否のデータとする、ルールとなるように作成されている、請求項17に記載のコンピュータ読み取り可能な記録媒体。
  19. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータとし、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータとする、ルールとなるように作成されている、請求項17または18に記載のコンピュータ読み取り可能な記録媒体。
  20. 前記第1のルールが、前記正否判定の結果と、前記特徴量とを用いて、前記二人以上の人の正否判定を学習することによって作成され、
    前記複数の第2のルールそれぞれが、前記正否判定の結果と、前記特徴量とを用いて、各人の正否判定を学習することによって作成されている、請求項17に記載のコンピュータ読み取り可能な記録媒体。
  21. 前記第1のルールが、前記異なる複数のコンテンツのうち、少なくとも一人が正と判定するコンテンツを正のデータに設定し、それ以外のコンテンツを否のデータに設定して学習される、請求項20に記載のコンピュータ読み取り可能な記録媒体。
  22. 前記複数の第2のルールそれぞれが、前記異なる複数のコンテンツのうち、対応する人を含むj人以下が賛同するコンテンツを正のデータに設定し、前記対応する人を含むk(k>j)人以上が賛同するコンテンツを否のデータに設定して学習される、請求項20または21に記載のコンピュータ読み取り可能な記録媒体。
  23. 前記(b)のステップにおいて、前記条件に合致している第2のルールの数、又は前記条件に合致していない第2のルールの数に基づいて、前記再度の正否判定を行う、請求項17から22のいずれかに記載のコンピュータ読み取り可能な記録媒体。
  24. 前記プログラムが、前記コンピュータに、更に、
    (c)前記(a)及び(b)のステップの実行前に、予め訓練データとして記憶されている、前記予め二人以上の人によって実行された正否判定の結果と、前記特徴量とを用いた学習を実行し、前記第1のルール及び前記第2のルールを作成する、ステップを実行させる、命令を含む、請求項20から22のいずれかに記載のコンピュータ読み取り可能な記録媒体。
JP2011526676A 2009-08-11 2010-06-01 情報分類装置、情報分類方法、及びプログラム Active JP5692074B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011526676A JP5692074B2 (ja) 2009-08-11 2010-06-01 情報分類装置、情報分類方法、及びプログラム

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2009186743 2009-08-11
JP2009186743 2009-08-11
JP2011526676A JP5692074B2 (ja) 2009-08-11 2010-06-01 情報分類装置、情報分類方法、及びプログラム
PCT/JP2010/003655 WO2011018867A1 (ja) 2009-08-11 2010-06-01 情報分類装置、情報分類方法、及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JPWO2011018867A1 true JPWO2011018867A1 (ja) 2013-01-17
JP5692074B2 JP5692074B2 (ja) 2015-04-01

Family

ID=43586052

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011526676A Active JP5692074B2 (ja) 2009-08-11 2010-06-01 情報分類装置、情報分類方法、及びプログラム

Country Status (3)

Country Link
US (1) US9177260B2 (ja)
JP (1) JP5692074B2 (ja)
WO (1) WO2011018867A1 (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9817677B2 (en) * 2011-04-22 2017-11-14 Microsoft Technologies Licensing, LLC Rule based data driven validation
JP5971794B2 (ja) * 2012-04-20 2016-08-17 有限会社アイ・アール・ディー 特許調査支援装置、特許調査支援方法、およびプログラム
JP5912813B2 (ja) * 2012-04-26 2016-04-27 有限会社アイ・アール・ディー 特許調査結果評価装置、特許調査結果評価方法、およびプログラム
US9349135B2 (en) * 2013-07-30 2016-05-24 Intuit Inc. Method and system for clustering similar items
CN106354709A (zh) * 2015-07-15 2017-01-25 富士通株式会社 用户属性信息的分析装置、服务器及方法
JP2017107391A (ja) * 2015-12-09 2017-06-15 東邦瓦斯株式会社 テキストマイニング方法、及びテキストマイニングプログラム
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4017354B2 (ja) 2000-04-17 2007-12-05 富士通株式会社 情報分類装置および情報分類プログラム
US8214437B1 (en) * 2003-07-21 2012-07-03 Aol Inc. Online adaptive filtering of messages
JP4600045B2 (ja) * 2005-01-07 2010-12-15 日本電気株式会社 意見抽出用学習装置及び意見抽出用分類装置
JP2007293377A (ja) * 2006-03-15 2007-11-08 Nara Institute Of Science & Technology 主観的ページと非主観的ページを分離する入出力装置

Also Published As

Publication number Publication date
JP5692074B2 (ja) 2015-04-01
US9177260B2 (en) 2015-11-03
US20120143801A1 (en) 2012-06-07
WO2011018867A1 (ja) 2011-02-17

Similar Documents

Publication Publication Date Title
Bansal et al. On predicting elections with hybrid topic based sentiment analysis of tweets
JP5692074B2 (ja) 情報分類装置、情報分類方法、及びプログラム
WO2018040068A1 (zh) 基于知识图谱的语意分析系统及方法
US20100191769A1 (en) Image search system, image search method, and storage medium
US20050015452A1 (en) Methods and systems for training content filters and resolving uncertainty in content filtering operations
Probierz et al. Rapid detection of fake news based on machine learning methods
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
JP2003223456A (ja) 要約自動評価処理装置、要約自動評価処理プログラム、および要約自動評価処理方法
US11734360B2 (en) Methods and systems for facilitating classification of documents
US20220414603A9 (en) Automatic document classification
CN109101574B (zh) 一种数据防泄漏系统的任务审批方法和系统
JP2007310646A (ja) 検索情報管理装置、検索情報管理プログラムおよび検索情報管理方法
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
JP2010061176A (ja) テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム
KR20190065194A (ko) 회의록 열람 문서 생성 방법 및 그 장치
CN111062199B (zh) 一种不良信息识别方法及装置
US20220138259A1 (en) Automated document intake system
CN113704623B (zh) 一种数据推荐方法、装置、设备及存储介质
CN112668334B (zh) 实体识别方法以及电子设备、存储装置
CN114417860A (zh) 一种信息检测方法、装置及设备
JP6043460B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
US20220261856A1 (en) Method for generating search results in an advertising widget
Hussein et al. Machine Learning Approach to Sentiment Analysis in Data Mining
CN112597295A (zh) 摘要提取方法、装置、计算机设备和存储介质
CN117493645B (zh) 一种基于大数据的电子档案推荐系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130513

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140514

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140708

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150106

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150119

R150 Certificate of patent or registration of utility model

Ref document number: 5692074

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150