JPWO2015030112A1 - データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 - Google Patents

データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 Download PDF

Info

Publication number
JPWO2015030112A1
JPWO2015030112A1 JP2015534284A JP2015534284A JPWO2015030112A1 JP WO2015030112 A1 JPWO2015030112 A1 JP WO2015030112A1 JP 2015534284 A JP2015534284 A JP 2015534284A JP 2015534284 A JP2015534284 A JP 2015534284A JP WO2015030112 A1 JPWO2015030112 A1 JP WO2015030112A1
Authority
JP
Japan
Prior art keywords
document
score
classification
classification code
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015534284A
Other languages
English (en)
Other versions
JP5986687B2 (ja
Inventor
守本 正宏
正宏 守本
喜勝 白井
喜勝 白井
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Application granted granted Critical
Publication of JP5986687B2 publication Critical patent/JP5986687B2/ja
Publication of JPWO2015030112A1 publication Critical patent/JPWO2015030112A1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • G06F16/287Visualization; Browsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/242Query formulation
    • G06F16/243Natural language query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本発明は、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部と、スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、スコア算出部は、判定部によってスコアの算出が所定の回数に達していないと判定された場合、抽出部が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。

Description

本発明は、文書分別システム及び文書分別方法並びに文書分別プログラムに関するものであって、特に、訴訟に関する文書情報における文書分別システム及び文書分別方法並びに文書分別プログラムに関する。
従来、不正アクセスや機密情報漏洩などコンピュータに関する犯罪や法的紛争が生じた際に、原因究明や捜査に必要な機器やデータ、電子的記録を収集・分析し、その法的な証拠性を明らかにする手段や技術が提案されている。
特に、米国民事訴訟では、eDiscovery(電子証拠開示)等が求められており、当該訴訟の原告および被告のいずれもが、関連するデジタル情報をすべて証拠として提出する責任を負う。そのため、コンピュータやサーバに記録されたデジタル情報を証拠として、提出しなければならない。
一方、ITの急速な発達と普及に伴い、今日のビジネスの世界ではほとんどの情報がコンピュータで作成されているため、同一企業内であっても多くのデジタル情報が氾濫している。
そのため、法廷への証拠資料提出のための準備作業を行う過程において、当該訴訟に必ずしも関連しない機密なデジタル情報までも証拠資料として含めてしまうミスが生じやすい。また、当該訴訟に関連しない機密な文書情報を提出してしまうことが問題になっていた。
近年、フォレンジックシステムにおける文書情報に関する技術が、特許文献1乃至特許文献3に提案されている。特許文献1には、利用者情報に含まれる少なくとも1人以上の利用者から、特定の者を指定し、指定された特定の者に関するアクセス履歴情報に基づいて、特定の者がアクセスしたデジタル文書情報のみを抽出し、抽出されたデジタル文書情報の文書ファイルそれぞれが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
また、特許文献2には、記録されたデジタル情報を表示し、複数の文書ファイル毎に、利用者情報に含まれる利用者のうちいずれの利用者に関連するものであるかを示す利用者特定情報を設定し、該設定された利用者特定情報を記憶部に記録するように設定し、少なくとも一人以上の利用者を指定し、指定された利用者に対応する利用者特定情報が設定された文書ファイルを検索し、表示部を介して、検索された文書ファイルが、訴訟に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づき、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
さらに、特許文献3には、デジタル文書情報に含まれる少なくとも1以上の文書ファイルの指定を受け付け、指定された文書ファイルをいずれの言語に翻訳するかの指定を受け付け、指定を受け付けた文書ファイルを、指定を受け付けた言語に翻訳し、記録部に記録されたデジタル文書情報から、指定された文書ファイルと同一の内容を示す共通文書ファイルを抽出し、抽出された共通文書ファイルが、翻訳された文書ファイルの翻訳内容を援用することにより翻訳されたことを示す翻訳関連情報を生成し、翻訳関連情報に基づいて、訴訟に関連する文書ファイルを出力するフォレンジックシステムについて開示されている。
特開2011−209930号公報 特開2011−209931号公報 特開2012−32859号公報
しかしながら、引用文献1乃至3に開示されるようなフォレンジックシステムにおいては、文書の分別結果の適合率や再現率をさらに向上させたいという要望がある。
本発明は、上記事情に鑑み文書の分別結果の適合率及び再現率の少なくとも一方を向上できる文書分別システム及び文書分別方法並びに文書分別プログラムを提供することを目的とする。
上記課題を解決するために、本発明の一態様に係る文書分別システムは、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースと、文書情報に含まれる文書と分別符号との結びつきの強さを評価したスコアを、キーワードに基づいて算出するスコア算出部と、スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、スコア算出部は、判定部によってスコアの算出が所定の回数に達していないと判定された場合、抽出部が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。
上記課題を解決するために、本発明の一態様に係る文書分別システムは、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別システムにおいて、文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出するスコア算出部と、算出したスコアに基づき所定の順序で文書を抽出する抽出部と、抽出された文書に対して、ユーザが付与した分別符号を受け付ける分別符号受付部と、分別符号に基づいて、抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定する選定部と、選定したキーワードを文書情報から探索する探索部と、を備え、スコア算出部は、探索部の探索結果と選定部の解析結果を用いて、スコアを文書情報に含まれる文書ごとに再度算出する。
また、本発明の一態様に係る文書分別システムは、算出したスコアの高い順に文書を抽出し、該抽出された文書に対して新たにスコアを算出することを複数回繰り返すことができる。
また、本発明の一態様に係る文書分別システムにおいて、スコア算出部は、文書中に出現するキーワード及び各キーワードの持つ重みづけによりスコアを算出することができる。
また、本発明の一態様に係る文書分別システムにおいて、スコア算出部は、スコアを算出するごとに、キーワードの種類及び個数の少なくとも一方を変更することができる。
上記課題を解決するために、本発明の一態様に係る文書分別方法は、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出ステップと、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付ステップと、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出ステップと、スコアの算出が所定の回数に達したか否かを判定する判定ステップとを含み、スコア算出ステップは、判定ステップにおいてスコアの算出が所定の回数に達していないと判定した場合、抽出ステップにおいて、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。
上記課題を解決するために、本発明の一態様に係る文書分別方法は、複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別方法において、文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出し、算出したスコアに基づき所定の順序で文書を抽出し、抽出された文書に対して、ユーザが付与した分別符号を受け付け、分別符号に基づいて、抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定し、選定したキーワードを文書情報から探索し、探索結果と解析結果を用いて、スコアを文書情報に含まれる文書ごとに再度算出する。
上記課題を解決するために、本発明の一態様に係る文書分別プログラムは、コンピュータに、所定数の文書をユーザによる分別対象として文書情報から抽出する抽出機能と、抽出された文書に対して、ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付機能と、抽出された文書から分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出機能と、スコアの算出が所定の回数に達したか否かを判定する判定機能とを実現させ、スコア算出機能は、判定機能によってスコアの算出が所定の回数に達していないと判定された場合、抽出機能が、該スコアにしたがって、所定数の文書をユーザによる分別対象として文書情報からさらに抽出した結果に基づいて、スコアを再度算出する。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、各文書に対して算出されたスコアに基づいて文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、文書の分別結果の適合率及び再現率の少なくとも一方が向上する。
本発明の実施形態に係る文書判別システムの構成図 本発明の実施形態における文書表示画面 本発明の実施形態における選定部での解析結果を示したグラフ 本発明の実施形態における文書判別システムの動作を示したフローチャート 実施例にかかる処理結果を示したグラフ
[実施形態]
以下、本発明の実施の形態を添付の図により説明する。図1に実施形態に係る文書判別システムの構成図を示す。
実施形態は、特許侵害訴訟における文書提出命令に対応する際に、被疑製品である製品Aに関する文書を分別処理する場合の実施例である。
[文書分別システムの構成]
実施形態において、該文書分別システムは、文書分別装置100、データベース200及びレビュワーが利用するクライアント装置300から構成される。文書分別装置100は、抽出部101、表示制御部102、分別符号受付部103、選定部104、探索部105、スコア算出部106、判定部107及び自動分別部108を備える。クライアント装置300は1つの文書判別システム内に複数備えることも可能である。
文書分別装置100及びクライアント装置300は、コンピュータまたはサーバであり、各種入力に基づきCPUがROMに記録されたプログラムを実行することで、各種機能部として動作する。
分別符号は、文書を分類する際に用いる識別子のことをいう。訴訟で文書情報を証拠として利用する際において、証拠の種類に応じて付与してもよい。実施形態では、分別符号として、今回の訴訟において証拠能力をもたない文書を表す「無関係」、証拠として提出する必要があることを表す「関係あり」、及び製品Aととりわけ関わりがある文書であることを表す「重要」の3つの符号を備えており、このうち「重要」符号が付与される文書を分別するものである。
ここでいう、文書は、訴訟において証拠として提出するデジタル情報のことで、1つ以上の単語を含むデータをいう。例えば、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にOCR(Optical Character Recognition)装置を備えてもよい。OCR装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。
例えば、実施形態においては、製品Aに関する打ち合わせについての内容が記載された議事録や電子メール等に「関係あり」符号が付与され、製品Aの開発計画書や設計書等に「重要」符号が付与され、製品Aとは無関係の定例会等の資料に「無関係」符号が付与される。
また、キーワードは、ある言語において、一定の意味を持つ文字列のまとまりをいう。例えば、「文書を分別する」という文章からキーワードを選定すると、「文書」「分別」としてもよい。実施形態においては、「侵害」や「訴訟」、「特許公報○○号」といったキーワードが重点的に選定される。
本実施形態においては、キーワードには、形態素が含まれるものとする。
データベース200は、電子媒体にデータを記録する記録装置であり、文書分別装置100の内部にあってもよいし、例えばストレージ装置として外部に設置してもよい。
文書分別装置100、データベース200及びクライアント装置300は、有線あるいは無線のネットワークを介して接続されている。クラウドコンピューティングの形態で利用することも可能である。
データベース200は、各分別符号についてのキーワードを記録しているものである。また、過去の分別処理の結果から、製品Aと関連性が高く文書中に含まれれば直ちに「重要」符号を付与すると、判断できるキーワードを事前に登録することができる。例えば製品Aの主要機能名や、「訴訟」、「警告」、「特許公報」のようなキーワードである。また、同様に過去の分別処理の結果から、製品Aと関連性が高いため「重要」符号が付与された文書群と関連性の高い一般用語を抽出し、関連用語として登録しておくことも可能である。一度データベース200に登録されたキーワード及び関連用語は、手動によって追加登録・及び削除が可能である。
抽出部101は、文書情報からデータセットである文書群を抽出する。抽出部101は、この抽出の際に、ランダムにサンプリングを行うことが可能である。実施形態では、全文書情報から所定数の文書をランダムに抽出し、レビュワーによる分別対象とする。
また、抽出部101は、スコア算出部106により算出されたスコアに基づいて、算出したスコアに関する所定の順序で所定数の文書を抽出する。実施形態においては、スコアに関する所定の順序はスコアの高い順としているが、低い順等でもあってもよい。ここで所定数とは、文書情報に含まれる文書のうちスコアの高い順に上位10%から50%の範囲内であることが好ましく、25%であることがより好ましい。抽出する文書数が少なすぎると、文書の分別結果の適合率及び再現率の向上を期待することができない。また、抽出する文書数が多いと、分別に必要な費用(コスト)が増大するためである。なお、文書情報から抽出する文書を%(割合)ではなく、文書の数(例えば、1000)で規定するようにしてもよい。なお、抽出部101が全文書情報から抽出する文書の割合及び件数は、マニュアル(手動)で変更することも可能である。
表示制御部102は、クライアント装置300に対して、図2に示されるような文書表示画面11を提示する。文書表示画面11は、図2のように中央に分別対象となる文書が表示し、左側に分別符号が表示するような画面構造で1画面内に分別対象の文書と付与する分別符号を表示することができるものである。文書を表示する箇所と分別符号を表示する箇所がそれぞれ別画面となる画面構造であってもよい。
実施形態において、文書表示画面11中の分別符号1は「無関係」符号、分別符号2は「関係あり」符号及び分別符号3は「重要」符号を意味する。また、「関係あり」符号を付与された文書のうち、小分類1は製品Aの価格と関係がある文書に対して付与され、小分類2は製品Aの開発スケジュールと関係がある文書に対して付与されるものである。小分類は1つの分別符号に複数備えてもよいし、備えない場合があってもよい。
分別符号受付部103は、表示制御部102が表示した文書情報のうち、レビュワーが目視により確認し、ひとつひとつ分別符号を決定した文書に対して、該決定に基づいて付与した分別符号を受け付ける。文書の分類は付与された分別符号によって行うことが可能である。
選定部104は、分別符号受付部103が受け付けた分別結果に基づいて文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する。
図3は選定部104の「重要」符号が付与された文書を解析した結果を示したグラフである。図3において、縦軸R_hotは、レビュワーによって「重要」符号が付与された全文書のうち、「重要」符号に紐づくキーワードとして選定されたキーワードを含み、かつ「重要」符号が付与された文書の割合を示している。横軸は、レビュワーが分別処理を実施した全文書のうち、選定部104によって選定されたキーワードを含む文書の割合を示している。
実施形態において、選定部104では、直線R_hot=R_allよりも上部にプロットされるようなキーワードをその分別符号におけるキーワードとして選定することが可能である。また、システムリソースが許される限りにおいて、抽出されたキーワード(形態素を含む)を全て利用してもよい。
探索部105は、対象となる文書中から特定のキーワードを探索する機能を備える。探索部105は、選定部104で選定されたキーワードあるいはデータベース200で抽出された関連用語を含む文書を、探索する際において、分別符号受付部103によって分別符号の付与を受け付けなかった文書から構成される文書群を対象として探索するものである。
スコア算出部106は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより以下の式からスコアを算出する。スコアは、ある文書において、特定の分別符号との結びつきの強さを定量的に評価したものをいう。
Figure 2015030112
:i番目のキーワード又は関連用語の出現頻度
Figure 2015030112
なお、上記スコア算出のための(1)式は、一例であり、他の式でスコアを算出するようにしてもよい。
判定部107は、予め記憶されているスコア算出の回数に達したかどうかを判定する。なお、スコア算出の回数は、マニュアル(手動)で変更することも可能である。
自動分別部108は、算出されたスコアに基づいて文書情報に自動で分別符号を付与する。また、分別符号を付与する際に、分別符号受付部103において分別符号の付与を受け付けなかった文書を抽出し、該文書に対して自動で分別符号を付与する機能を備えることも可能である。
クライアント装置300は、レビュワーが操作し、文書情報を確認し付与する分別符号を決定するのに利用する装置である。
[文書分別システムの動作]
図4は、実施形態に係る文書分別システムの動作を示すフローチャートである。初めに、抽出部101は、分別対象である文書情報からデータセットである文書群を抽出する(ステップS101)。
表示制御部102は、クライアント装置300に対して、抽出部101により抽出された文書の文書表示画面を提示する(ステップS102)。
分別符号受付部103は、表示制御部102が表示した文書情報のうち、レビュワーが目視により確認して各文書に付与した分別符号を受け付ける(ステップS103)。
選定部104は、分別符号受付部103が分類した文書情報を解析し、「無関係」、「関係あり」及び「重要」のそれぞれの分別符号を付与された文書情報において、共通して頻出するキーワードを該分別符号におけるキーワードとして選定する(ステップS104)。
探索部105は、対象となる文書中から特定のキーワードを探索する(ステップS105)。
スコア算出部106は、文書群中に出現するキーワードと、各キーワードの持つ重みづけとにより前述の(1)式から、各文書のスコアを算出する(ステップS106)。
判定部107は、ユーザが設定もしくは予め記憶されているスコア算出の回数に達したかどうか(N=n)を判定する(ステップS107)。
スコア算出の回数が予め決定されている回数に達していない場合(ステップS107のNo)、抽出部101は、スコア算出部106により算出されたスコアに基づいて、算出したスコアの高い順に所定数(例えば、上位25%)の文書を抽出し(ステップS107)、該抽出した文書に対して、ステップS102〜S107の動作を繰り返す。
スコア算出の回数が予め決定されている回数に達している場合(ステップS107のYes)、自動分別部108は、算出されたスコアに基づいて文書情報(すべての文書)に自動で分別符号を付与する(ステップS109)。
以上のように、本実施形態では、文書情報に含まれる各文書に対して算出されたスコアに基づいて所定数(例えば、上位25%)の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、自動分別部108による文書の分別結果の適合率及び再現率を向上することができる。
なお、上記実施形態では、探索部105により探索されたキーワードに基づいて文書情報のスコアを算出しているが、予めデータベース200に登録されているキーワードを用いて、文書情報のスコアを算出するようにしてもよい。また、複数のキーワード(キーワードセット)を用いて文書情報のスコアを算出してもよい。さらに、文書情報のスコアを算出するたびに異なるキーワードもしくはキーワードセットを用いて文書情報のスコアを算出するように構成してもよい。
[その他の実施形態]
また、文書分別装置100に、文書排除部及び学習部を備えるようにしてもよい。文書排除部は、分別対象となる文情報のうち、データベース200で事前に登録されたキーワード及び関連用語、並びに選定部104において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。
また、学習部は、分別処理の結果をもとに、各キーワードの重みづけを学習し、該学習結果をもとにデータベース200に登録されているキーワード及び関連用語の増減を行う。各キーワードがもつ重みづけは、該キーワードが持つ、各分別符号における伝達情報量をもとに決定することも可能である。該重みづけは以下の式より、分別処理を重ねるごとに学習し、精度を向上させることが可能である。
Figure 2015030112
Wgti,0:学習前のi番目の選定キーワードの重み(初期値)
Wgti,L:L回目学習後のi番目の選定キーワードの重み
γL:L回目学習における学習パラメータ
Figure 2015030112
また、学習部では、ニューラルネットを用いて分別結果を重みづけに反映させる学習方法をとることも可能である。
実施形態では、特に特許侵害訴訟事件においての実施例を説明したが、本発明における文書判別システムは、カルテルや独占禁止法等、eDiscovery(電子証拠開示)制度を採用しており、文書提出義務がある、あらゆる訴訟において利用することが可能である。
本発明に係る文書判別システム及び文書判別方法並びに文書判別プログラムは、各文書に対して算出されたスコアに基づいて所定数の文書を抽出し、この抽出された文書の分別結果に基づいて再度各文書に対してスコアを算出している。このため、文書の分別結果の適合率及び再現率を向上することができる。
また、本発明は、選定部の分析結果と、スコア算出部の算出したスコアに基づいて選定部が選定したデータベースに記録された分別符号との相関関係を有するキーワード及び関連用語を増減させる学習部を備えた際には、分別回数を重ねる度に分別精度を向上させることが可能である。
また、本発明は、データベースが、分別符号と関連性のある関連用語を抽出及び記録し、探索部が、関連用語を文書情報から探索し、スコア算出部が、探索部が関連用語を探索した結果をもとにスコアを算出し、自動分別部が、関連用語を用いて算出したスコアに基づいて自動で分別符号を付与することと、文書群に含まれる文書のうち、選定部が選定したキーワード、関連用語及び分別符号と相関関係を有するキーワードを含まない文書を選定し、自動分別部の分別対象から選定された文書を排除する際には、文書分別をより効率的に行うことを可能とする。このことは、収集されたデジタル情報の訴訟での利用を容易にする。
[実施例]
図5は、実施例に係る分別処理の結果を示したグラフである。図5において、縦軸は再現率(Recall)、横軸はランク(Rank)である。ここで、「再現率(recall)」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部108により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が100とし、自動分別部108により訴訟に関連すると分別された文書数が80とすると、再現率は80%となる。また、「ランク(Rank)」とは、スコア算出部106により算出されたスコアによる各文書のランク(順位)である。
図5に示すように、スコアの算出を1回だけ行った場合(図5の実線)に比べ、スコアの算出を2回行った場合(図5の破線)、再現率(Recall)が大幅に向上していることがわかる。つまり、文書情報の分別結果の精度が大幅に向上していることがわかる。なお、この実施例では、1回目(First Stage)のスコア算出に基づいて、上位25%の文書を抽出し、該抽出した文書の分別結果に基づいて2回目(Second Stage)のスコア算出を行っている。
[その他の実施例]
〔共起に基づくスコア計算〕
スコア算出部は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
この場合、スコア算出部は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、以下の式にしたがってスコアSを計算できる。
Figure 2015030112
なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
以上のように、文書分別システムは、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案(例えば、訴訟など)と関係するデータを抽出できる。
〔センテンスごとのスコア計算〕
スコア算出部は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
Figure 2015030112
ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記スコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
TFnormは、下記に示されるように計算できる。
Figure 2015030112
ここで、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
上記をまとめると、スコア算出部は、以下を計算することによって文書ごとに上記スコアを算出する。
Figure 2015030112
ここで、wは上記重みベクトルwのi番目の要素である。
以上のように、文書分別システムは、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔フェーズ分析〕
文書分別システムは、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分別システムは、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
また、時系列情報および生成過程情報が記憶部(データベース)に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
結果取得部は、文書が所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書が上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果として取得し、要素評価部は、文書に含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
スコア算出部は、未分別の文書に対してスコアを算出する場合、上記生成過程情報に基づいて当該文書がいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書のフェーズとして推定する。そして、スコア算出部は、推定したフェーズに対応する重みを用いて、文書のスコアをそれぞれ算出する。このとき、スコア算出部は、当該フェーズに対応する相関行列Cを用いてもよい。
関係付与部(自動分別部)は、データ設定部によって設定された文書を一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
以上のように、文書分別システムは、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔重みの再計算〕
データ設定部によって設定された文書(所定の事案と関係すると文書分別システムによって判断された文書)が、関係付与部によって一覧可能に表示された後、結果取得部は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分別システムによって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部は、上記フィードバックに基づいて各キーワードを再評価できる。
言い換えれば、要素評価部は、文書分別システムの判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分別システムは、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔人物・組織相関の表示〕
データ設定部は、文書に出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
例えば、人物Aから人物Bに送信された電子メールを文書として分析した結果、当該文書に「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
以上のように、文書分別システムは、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
〔サーバ装置が機能の一部または全部を提供する構成〕
以上では、データを分析する機能を提供可能な制御プログラム(文書分析システムの制御プログラム)が、主に文書分別システムにおいて実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分別システム(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明の文書分別システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分別システムが機能を提供する場合に、当該文書分別システムが奏する効果と同じ効果を奏する。
〔ソフトウェアによる実現例〕
文書分別システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分別システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分別システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
〔文書以外のデータに適用する例〕
本発明の文書分別システムを実施する一形態として、文書を分析する文書分別システムを説明したが、当該文書分別システムは、文書以外のデータも分析可能である。
例えば、本発明の文書分別システムは、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分別システムと同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分別システムが実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。
上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分別システムと同様の効果を奏する。
または、本発明の文書分別システムは、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分別システムと同様の効果を奏する。
すなわち、本発明の文書分別システムは、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記文書分別システムは、過去のデータ(文書、音声、映像など)を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる(例えば、不正行為が生じる予兆を検知できる)という効果を奏する。
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
100 文書分別装置
101 抽出部
102 表示制御部
103 分別符号受付部
104 選定部
105 探索部
106 スコア算出部
107 判定部
108 自動分別部
200 データベース
300 クライアント装置
本発明は、上記事情に鑑み、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することを目的とする。
本発明は、データ群を記憶する記憶装置と、前記データ群に含まれるデータを分析する処理装置と、を備えるデータ分別システムであって、前記処理装置は、前記データ群からユーザによって分別されるべき複数のデータを抽出し、前記複数のデータの夫々に対して前記ユーザによって与えられた、複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから取得し、当該分別符号は、当該複数のデータの夫々を分別するための識別子であり、前記取得した分別符号を前記複数のデータの夫々に付与することにより、当該複数のデータの夫々を分別し、前記分別符号が付与されたデータに出現するデータ要素と、当該データ要素の重みと、に基づいて、前記複数のデータの夫々について、当該複数のデータ夫々に付与された前記分別符号との結びつきの強さを評価し、前記評価された複数のデータの中から、前記評価に基づいて、所定数のデータを再度抽出し、前記再度抽出された所定数のデータの夫々に対して前記ユーザによって与えられた、前記複数の分別符号のうち少なくとも一つの分別符号を、当該ユーザから再度取得し、前記再度取得した分別符号を前記所定数のデータの夫々に付与することにより、当該所定数のデータの夫々を分別し、前記分別符号が再度付与されたデータに出現するデータ要素と当該データ要素重みとに基づいて、前記所定数のデータの夫々について、前記分別符号との結びつきの強さを再度評価し、前記ユーザによって分別符号が付与されていない対象データを、前記分別符号が再度付与されたデータのデータ要素の重みに基づいて評価するデータ分別システムに係る。さらに、本発明は、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体に係る。
本発明によれば、文書等のデータの分別結果の適合率及び再現率の少なくとも一方を向上できるデータ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体を提供することができる。

Claims (8)

  1. 所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、
    前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、
    前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースと、
    前記文書情報に含まれる文書と前記分別符号との結びつきの強さを評価したスコアを、前記キーワードに基づいて算出するスコア算出部と、
    前記スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、
    前記スコア算出部は、前記判定部によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出部が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別システム。
  2. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別システムにおいて、
    前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出するスコア算出部と、
    算出したスコアに基づき所定の順序で文書を抽出する抽出部と、
    前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付ける分別符号受付部と、
    前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定する選定部と、
    前記選定したキーワードを前記文書情報から探索する探索部と、
    を備え、
    前記スコア算出部は、
    前記探索部の探索結果と前記選定部の解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別システム。
  3. 前記文書分別システムは、算出したスコアの高い順に文書を抽出し、該抽出された文書に対して新たにスコアを算出することを複数回繰り返すことを特徴とする請求項1または2に記載の文書分別システム。
  4. 前記スコア算出部は、前記文書中に出現するキーワード及び各キーワードの持つ重みづけにより前記スコアを算出することを特徴とする請求項1から3のいずれか一項に記載の文書分別システム。
  5. 前記スコア算出部は、前記スコアを算出するごとに、前記キーワードの種類及び個数の少なくとも一方を変更することを特徴とする請求項1から4のいずれか一項に記載の文書分別システム。
  6. 所定数の文書をユーザによる分別対象として文書情報から抽出する抽出ステップと、
    前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付ステップと、
    前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出ステップと、
    前記スコアの算出が所定の回数に達したか否かを判定する判定ステップとを含み、
    前記スコア算出ステップは、前記判定ステップにおいて前記スコアの算出が前記所定の回数に達していないと判定した場合、前記抽出ステップにおいて、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別方法。
  7. 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別方法において、
    前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出し、
    算出したスコアに基づき所定の順序で文書を抽出し、
    前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付け、
    前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定し、
    前記選定したキーワードを前記文書情報から探索し、
    前記探索結果と前記解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別方法。
  8. コンピュータに、
    所定数の文書をユーザによる分別対象として文書情報から抽出する抽出機能と、
    前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付機能と、
    前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出機能と、
    前記スコアの算出が所定の回数に達したか否かを判定する判定機能とを実現させ、
    前記スコア算出機能は、前記判定機能によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出機能が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別プログラム。
JP2015534284A 2013-08-29 2014-08-28 データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 Active JP5986687B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2013178529 2013-08-29
JP2013178529 2013-08-29
PCT/JP2014/072566 WO2015030112A1 (ja) 2013-08-29 2014-08-28 文書分別システム及び文書分別方法並びに文書分別プログラム

Publications (2)

Publication Number Publication Date
JP5986687B2 JP5986687B2 (ja) 2016-09-06
JPWO2015030112A1 true JPWO2015030112A1 (ja) 2017-03-02

Family

ID=52586660

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015534284A Active JP5986687B2 (ja) 2013-08-29 2014-08-28 データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体

Country Status (4)

Country Link
US (1) US10489427B2 (ja)
JP (1) JP5986687B2 (ja)
TW (1) TW201508525A (ja)
WO (1) WO2015030112A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2015181962A1 (ja) * 2014-05-30 2015-12-03 株式会社日立製作所 検索方法及び装置並びに記憶媒体
KR101981075B1 (ko) 2015-03-31 2019-05-22 가부시키가이샤 프론테오 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체
WO2016203652A1 (ja) * 2015-06-19 2016-12-22 株式会社Ubic データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体
US11093528B2 (en) * 2016-02-03 2021-08-17 Mx Technologies, Inc. Automated data supplementation and verification
US10599731B2 (en) * 2016-04-26 2020-03-24 Baidu Usa Llc Method and system of determining categories associated with keywords using a trained model

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JP2002007433A (ja) * 2000-04-17 2002-01-11 Fujitsu Ltd 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP2002288088A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 分類自動学習機能を備えた電子メール返信装置
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654744B2 (en) 2000-04-17 2003-11-25 Fujitsu Limited Method and apparatus for categorizing information, and a computer product
US8620742B2 (en) * 2004-03-31 2013-12-31 Google Inc. Advertisement approval
US7783639B1 (en) * 2004-06-30 2010-08-24 Google Inc. Determining quality of linked documents
US8185544B2 (en) * 2009-04-08 2012-05-22 Google Inc. Generating improved document classification data using historical search results
US8527523B1 (en) * 2009-04-22 2013-09-03 Equivio Ltd. System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith
JP4868191B2 (ja) 2010-03-29 2012-02-01 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
JP4898934B2 (ja) 2010-03-29 2012-03-21 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US8468143B1 (en) * 2010-04-07 2013-06-18 Google Inc. System and method for directing questions to consultants through profile matching
JP4995950B2 (ja) 2010-07-28 2012-08-08 株式会社Ubic フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム
US9122681B2 (en) * 2013-03-15 2015-09-01 Gordon Villy Cormack Systems and methods for classifying electronic information using advanced active learning techniques

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0675995A (ja) * 1992-08-27 1994-03-18 Omron Corp 自動分類付与装置および方法
JP2002007433A (ja) * 2000-04-17 2002-01-11 Fujitsu Ltd 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム
JP2002288088A (ja) * 2001-03-23 2002-10-04 Fujitsu Ltd 分類自動学習機能を備えた電子メール返信装置
JP2011191834A (ja) * 2010-03-12 2011-09-29 Hitachi Ltd 文書分類方法、文書分類装置、およびプログラム

Also Published As

Publication number Publication date
US20160239559A1 (en) 2016-08-18
US10489427B2 (en) 2019-11-26
WO2015030112A1 (ja) 2015-03-05
JP5986687B2 (ja) 2016-09-06
TW201508525A (zh) 2015-03-01

Similar Documents

Publication Publication Date Title
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
TWI532001B (zh) 文件分類系統及文件分類方法以及文件分類程式
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
TW201415264A (zh) 取證系統、取證方法及取證程式
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
TW201539216A (zh) 文件分析系統、文件分析方法、及文件分析程式
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
TWI556128B (zh) Forensic system, forensic method and evidence collection program
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
WO2015118619A1 (ja) 文書分析システム及び文書分析方法並びに文書分析プログラム
WO2015025978A1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5898371B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP2015172952A (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP6441930B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5746403B2 (ja) 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム
JP5850973B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160613

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160805

R150 Certificate of patent or registration of utility model

Ref document number: 5986687

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250