JPWO2015030112A1 - データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 - Google Patents
データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 Download PDFInfo
- Publication number
- JPWO2015030112A1 JPWO2015030112A1 JP2015534284A JP2015534284A JPWO2015030112A1 JP WO2015030112 A1 JPWO2015030112 A1 JP WO2015030112A1 JP 2015534284 A JP2015534284 A JP 2015534284A JP 2015534284 A JP2015534284 A JP 2015534284A JP WO2015030112 A1 JPWO2015030112 A1 JP WO2015030112A1
- Authority
- JP
- Japan
- Prior art keywords
- document
- score
- classification
- classification code
- documents
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
- G06F16/287—Visualization; Browsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/243—Natural language query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
- G06F16/24578—Query processing with adaptation to user needs using ranking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
Description
以下、本発明の実施の形態を添付の図により説明する。図1に実施形態に係る文書判別システムの構成図を示す。
実施形態において、該文書分別システムは、文書分別装置100、データベース200及びレビュワーが利用するクライアント装置300から構成される。文書分別装置100は、抽出部101、表示制御部102、分別符号受付部103、選定部104、探索部105、スコア算出部106、判定部107及び自動分別部108を備える。クライアント装置300は1つの文書判別システム内に複数備えることも可能である。
mi:i番目のキーワード又は関連用語の出現頻度
図4は、実施形態に係る文書分別システムの動作を示すフローチャートである。初めに、抽出部101は、分別対象である文書情報からデータセットである文書群を抽出する(ステップS101)。
また、文書分別装置100に、文書排除部及び学習部を備えるようにしてもよい。文書排除部は、分別対象となる文情報のうち、データベース200で事前に登録されたキーワード及び関連用語、並びに選定部104において選定されたキーワードのいずれも含まない文書を探索し、該文書を分別対象から事前に排除することが可能である。
Wgti,0:学習前のi番目の選定キーワードの重み(初期値)
Wgti,L:L回目学習後のi番目の選定キーワードの重み
γL:L回目学習における学習パラメータ
図5は、実施例に係る分別処理の結果を示したグラフである。図5において、縦軸は再現率(Recall)、横軸はランク(Rank)である。ここで、「再現率(recall)」とは、文書情報に含まれる訴訟に関連するすべての文書のうち、どれだけの文書が自動分別部108により分別されているかを示す網羅性の指標である。例えば、文書情報に含まれる訴訟に関連するすべての文書数が100とし、自動分別部108により訴訟に関連すると分別された文書数が80とすると、再現率は80%となる。また、「ランク(Rank)」とは、スコア算出部106により算出されたスコアによる各文書のランク(順位)である。
〔共起に基づくスコア計算〕
スコア算出部は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
スコア算出部は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
文書分別システムは、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
データ設定部によって設定された文書(所定の事案と関係すると文書分別システムによって判断された文書)が、関係付与部によって一覧可能に表示された後、結果取得部は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分別システムによって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部は、上記フィードバックに基づいて各キーワードを再評価できる。
データ設定部は、文書に出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
以上では、データを分析する機能を提供可能な制御プログラム(文書分析システムの制御プログラム)が、主に文書分別システムにおいて実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分別システム(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明の文書分別システムは、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分別システムが機能を提供する場合に、当該文書分別システムが奏する効果と同じ効果を奏する。
文書分別システムの制御ブロックは、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分別システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明の文書分別システムを実施する一形態として、文書を分析する文書分別システムを説明したが、当該文書分別システムは、文書以外のデータも分析可能である。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
101 抽出部
102 表示制御部
103 分別符号受付部
104 選定部
105 探索部
106 スコア算出部
107 判定部
108 自動分別部
200 データベース
300 クライアント装置
Claims (8)
- 所定数の文書をユーザによる分別対象として文書情報から抽出する抽出部と、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付部と、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースと、
前記文書情報に含まれる文書と前記分別符号との結びつきの強さを評価したスコアを、前記キーワードに基づいて算出するスコア算出部と、
前記スコアの算出が所定の回数に達したか否かを判定する判定部とを備え、
前記スコア算出部は、前記判定部によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出部が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別システム。 - 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別システムにおいて、
前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出するスコア算出部と、
算出したスコアに基づき所定の順序で文書を抽出する抽出部と、
前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付ける分別符号受付部と、
前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定する選定部と、
前記選定したキーワードを前記文書情報から探索する探索部と、
を備え、
前記スコア算出部は、
前記探索部の探索結果と前記選定部の解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別システム。 - 前記文書分別システムは、算出したスコアの高い順に文書を抽出し、該抽出された文書に対して新たにスコアを算出することを複数回繰り返すことを特徴とする請求項1または2に記載の文書分別システム。
- 前記スコア算出部は、前記文書中に出現するキーワード及び各キーワードの持つ重みづけにより前記スコアを算出することを特徴とする請求項1から3のいずれか一項に記載の文書分別システム。
- 前記スコア算出部は、前記スコアを算出するごとに、前記キーワードの種類及び個数の少なくとも一方を変更することを特徴とする請求項1から4のいずれか一項に記載の文書分別システム。
- 所定数の文書をユーザによる分別対象として文書情報から抽出する抽出ステップと、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付ステップと、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出ステップと、
前記スコアの算出が所定の回数に達したか否かを判定する判定ステップとを含み、
前記スコア算出ステップは、前記判定ステップにおいて前記スコアの算出が前記所定の回数に達していないと判定した場合、前記抽出ステップにおいて、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別方法。 - 複数のコンピュータまたはサーバに記録されたデジタル情報を取得し、該取得されたデジタル情報に含まれる文書情報を分析し、該文書情報に含まれる文書を分別する文書分別方法において、
前記文書情報に含まれる文書と該文書を分類する際に用いる識別子である分別符号との結びつきの強さを評価したスコアを、該文書ごとに算出し、
算出したスコアに基づき所定の順序で文書を抽出し、
前記抽出された文書に対して、ユーザが付与した前記分別符号を受け付け、
前記分別符号に基づいて、前記抽出された文書を分別符号ごとに分別し、該分別された文書において、共通して出現するキーワードを解析し選定し、
前記選定したキーワードを前記文書情報から探索し、
前記探索結果と前記解析結果を用いて、前記スコアを前記文書情報に含まれる文書ごとに再度算出することを特徴とする文書分別方法。 - コンピュータに、
所定数の文書をユーザによる分別対象として文書情報から抽出する抽出機能と、
前記抽出された文書に対して、前記ユーザがそれぞれ付与した、文書を分類する際に用いる識別子である分別符号を受け付ける分別符号受付機能と、
前記抽出された文書から前記分別符号に基づいて選定されたキーワードを記録するデータベースを参照し、前記文書情報に含まれる文書と該分別符号との結びつきの強さを評価したスコアを、該キーワードに基づいて算出するスコア算出機能と、
前記スコアの算出が所定の回数に達したか否かを判定する判定機能とを実現させ、
前記スコア算出機能は、前記判定機能によって前記スコアの算出が前記所定の回数に達していないと判定された場合、前記抽出機能が、該スコアにしたがって、所定数の文書を前記ユーザによる分別対象として前記文書情報からさらに抽出した結果に基づいて、前記スコアを再度算出する文書分別プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013178529 | 2013-08-29 | ||
JP2013178529 | 2013-08-29 | ||
PCT/JP2014/072566 WO2015030112A1 (ja) | 2013-08-29 | 2014-08-28 | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP5986687B2 JP5986687B2 (ja) | 2016-09-06 |
JPWO2015030112A1 true JPWO2015030112A1 (ja) | 2017-03-02 |
Family
ID=52586660
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015534284A Active JP5986687B2 (ja) | 2013-08-29 | 2014-08-28 | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 |
Country Status (4)
Country | Link |
---|---|
US (1) | US10489427B2 (ja) |
JP (1) | JP5986687B2 (ja) |
TW (1) | TW201508525A (ja) |
WO (1) | WO2015030112A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2015181962A1 (ja) * | 2014-05-30 | 2015-12-03 | 株式会社日立製作所 | 検索方法及び装置並びに記憶媒体 |
KR101981075B1 (ko) | 2015-03-31 | 2019-05-22 | 가부시키가이샤 프론테오 | 데이터 분석 시스템, 데이터 분석 방법, 데이터 분석 프로그램, 및 기록매체 |
WO2016203652A1 (ja) * | 2015-06-19 | 2016-12-22 | 株式会社Ubic | データ分析に係るシステム、制御方法、制御プログラム、および、その記録媒体 |
US11093528B2 (en) * | 2016-02-03 | 2021-08-17 | Mx Technologies, Inc. | Automated data supplementation and verification |
US10599731B2 (en) * | 2016-04-26 | 2020-03-24 | Baidu Usa Llc | Method and system of determining categories associated with keywords using a trained model |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675995A (ja) * | 1992-08-27 | 1994-03-18 | Omron Corp | 自動分類付与装置および方法 |
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
JP2002288088A (ja) * | 2001-03-23 | 2002-10-04 | Fujitsu Ltd | 分類自動学習機能を備えた電子メール返信装置 |
JP2011191834A (ja) * | 2010-03-12 | 2011-09-29 | Hitachi Ltd | 文書分類方法、文書分類装置、およびプログラム |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6654744B2 (en) | 2000-04-17 | 2003-11-25 | Fujitsu Limited | Method and apparatus for categorizing information, and a computer product |
US8620742B2 (en) * | 2004-03-31 | 2013-12-31 | Google Inc. | Advertisement approval |
US7783639B1 (en) * | 2004-06-30 | 2010-08-24 | Google Inc. | Determining quality of linked documents |
US8185544B2 (en) * | 2009-04-08 | 2012-05-22 | Google Inc. | Generating improved document classification data using historical search results |
US8527523B1 (en) * | 2009-04-22 | 2013-09-03 | Equivio Ltd. | System for enhancing expert-based computerized analysis of a set of digital documents and methods useful in conjunction therewith |
JP4868191B2 (ja) | 2010-03-29 | 2012-02-01 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
JP4898934B2 (ja) | 2010-03-29 | 2012-03-21 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
US8468143B1 (en) * | 2010-04-07 | 2013-06-18 | Google Inc. | System and method for directing questions to consultants through profile matching |
JP4995950B2 (ja) | 2010-07-28 | 2012-08-08 | 株式会社Ubic | フォレンジックシステム及びフォレンジック方法並びにフォレンジックプログラム |
US9122681B2 (en) * | 2013-03-15 | 2015-09-01 | Gordon Villy Cormack | Systems and methods for classifying electronic information using advanced active learning techniques |
-
2014
- 2014-08-20 TW TW103128577A patent/TW201508525A/zh unknown
- 2014-08-28 JP JP2015534284A patent/JP5986687B2/ja active Active
- 2014-08-28 US US14/914,568 patent/US10489427B2/en active Active
- 2014-08-28 WO PCT/JP2014/072566 patent/WO2015030112A1/ja active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0675995A (ja) * | 1992-08-27 | 1994-03-18 | Omron Corp | 自動分類付与装置および方法 |
JP2002007433A (ja) * | 2000-04-17 | 2002-01-11 | Fujitsu Ltd | 情報分類装置、情報分類方法および情報分類プログラムを記録したコンピュータ読み取り可能な記録媒体、並びに情報分類プログラム |
JP2002288088A (ja) * | 2001-03-23 | 2002-10-04 | Fujitsu Ltd | 分類自動学習機能を備えた電子メール返信装置 |
JP2011191834A (ja) * | 2010-03-12 | 2011-09-29 | Hitachi Ltd | 文書分類方法、文書分類装置、およびプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20160239559A1 (en) | 2016-08-18 |
US10489427B2 (en) | 2019-11-26 |
WO2015030112A1 (ja) | 2015-03-05 |
JP5986687B2 (ja) | 2016-09-06 |
TW201508525A (zh) | 2015-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR101582108B1 (ko) | 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 | |
TWI532001B (zh) | 文件分類系統及文件分類方法以及文件分類程式 | |
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
TW201415264A (zh) | 取證系統、取證方法及取證程式 | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
TW201539216A (zh) | 文件分析系統、文件分析方法、及文件分析程式 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
TWI556128B (zh) | Forensic system, forensic method and evidence collection program | |
JP6124936B2 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
WO2015118619A1 (ja) | 文書分析システム及び文書分析方法並びに文書分析プログラム | |
WO2015025978A1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
WO2016056095A1 (ja) | データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5898371B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP2015172952A (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP6441930B2 (ja) | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5746403B2 (ja) | 文書分別システム、文書分別システムの制御方法、および文書分別システムの制御プログラム | |
JP5850973B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160613 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160802 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160805 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5986687 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |