JPWO2016016974A1 - データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム - Google Patents
データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム Download PDFInfo
- Publication number
- JPWO2016016974A1 JPWO2016016974A1 JP2016537661A JP2016537661A JPWO2016016974A1 JP WO2016016974 A1 JPWO2016016974 A1 JP WO2016016974A1 JP 2016537661 A JP2016537661 A JP 2016537661A JP 2016537661 A JP2016537661 A JP 2016537661A JP WO2016016974 A1 JPWO2016016974 A1 JP WO2016016974A1
- Authority
- JP
- Japan
- Prior art keywords
- data
- unit
- document
- score
- predetermined case
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
Abstract
Description
文書分析システム(データ分析装置)100は、デジタル文書を分析することによって、新たに取得された文書から所定の事案と関係する文書を抽出可能な情報処理システムである。文書分析システム100は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。
図1は、文書分析システム100の要部構成を示すブロック図である。図1に示されるように、文書分析システム100は、制御部10(データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、格納部19)、受信部20、入力部40、表示部50、および記憶部30を備えている。
図3は、レビュー結果5aが付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。
図4は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、データ分析装置の制御方法に含まれる各ステップを表す。
前述したように、スコア算出部14は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部14は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
前述したように、スコア算出部14は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部14は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
文書分析システム100は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)が、関係付与部18によって一覧可能に表示された後、結果取得部12は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム100によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部13は、上記フィードバックに基づいて各キーワードを再評価できる。
データ設定部17は、文書1bに出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
以上では、データを分析する機能を提供可能な制御プログラム(データ分析装置の制御プログラム)が、主に文書分析システム100(データ分析装置)において実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム100(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明のデータ分析装置は、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム100が機能を提供する場合に、当該文書分析システム100が奏する効果と同じ効果を奏する。
文書分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
本発明のデータ分析装置を実施する一形態として、文書を分析する文書分析システム100を説明したが、当該データ分析装置は、文書以外のデータも分析可能である。
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
Claims (14)
- 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、
前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、
前記閾値特定部によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。 - 前記閾値特定部は、前記既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、前記閾値として特定することを特徴とする請求項1に記載のデータ分析装置。
- 前記未判断データについて算出されたスコアと、前記閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、
前記データ設定部は、前記超過判定部によって超過していると判定された場合、前記未判断データをユーザに報告すべきデータとして設定することを特徴とする請求項1または2に記載のデータ分析装置。 - 前記既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、
前記要素評価部によって評価された結果に基づいて、前記スコアを算出するスコア算出部とをさらに備えたことを特徴とする請求項1から3のいずれか一項に記載のデータ分析装置。 - 前記要素評価部は、前記データ要素と当該データ要素を含む既判断データに対して前記ユーザが判断した結果との依存関係を表す伝達情報量を、前記所定の基準の1つとして、当該データ要素を評価することを特徴とする請求項4に記載のデータ分析装置。
- 前記データ設定部によって設定されたデータが前記所定の事案と関係するか否かが、前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、
前記要素評価部は、前記結果取得部によって取得された結果に基づいて、前記データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することを特徴とする請求項4または5に記載のデータ分析装置。 - 前記要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えたことを特徴とする請求項4から6のいずれか一項に記載のデータ分析装置。
- 前記未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、
前記データ設定部は、前記未判断データから前記固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、前記複数の人物または組織の間の繋がりの強さを可視化することを特徴とする請求項1から7のいずれか一項に記載のデータ分析装置。 - 所定のデータ群から抽出したデータが、前記所定の事案と関係するか否かが前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、前記既判断データを取得する既判断データ取得部をさらに備えたことを特徴とする請求項1から8のいずれか一項に記載のデータ分析装置。
- 前記データ設定部によって設定されたデータに、当該データが前記所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えたことを特徴とする請求項1から9のいずれか一項に記載のデータ分析装置。
- 前記データは、コンピュータで処理可能となるようにデジタル化された文書であり、
前記データ要素は、前記文書に含まれるキーワードであることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。 - 前記データは、コンピュータで処理可能となるようにデジタル化された音声であり、
前記データ要素は、前記音声に含まれる部分音声であることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。 - 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、
前記所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、
前記閾値特定ステップにおいて特定した閾値と、前記未判断データについて算出したスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含むデータ分析装置の制御方法。 - 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、
コンピュータに、
前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、
前記閾値特定機能によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させるデータ分析装置の制御プログラム。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/070119 WO2016016974A1 (ja) | 2014-07-30 | 2014-07-30 | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016016974A1 true JPWO2016016974A1 (ja) | 2017-06-01 |
JP6441930B2 JP6441930B2 (ja) | 2018-12-19 |
Family
ID=55216917
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016537661A Expired - Fee Related JP6441930B2 (ja) | 2014-07-30 | 2014-07-30 | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム |
Country Status (3)
Country | Link |
---|---|
JP (1) | JP6441930B2 (ja) |
TW (1) | TW201610727A (ja) |
WO (1) | WO2016016974A1 (ja) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2009080557A (ja) * | 2007-09-25 | 2009-04-16 | Seiko Epson Corp | 識別方法及びプログラム |
JP2010055566A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba Corp | クライアント/サーバシステムとクライアント/サーバシステムの監査方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008217157A (ja) * | 2007-02-28 | 2008-09-18 | Nippon Telegr & Teleph Corp <Ntt> | 操作履歴を利用した自動情報整理装置、方法、およびプログラム |
-
2014
- 2014-07-30 JP JP2016537661A patent/JP6441930B2/ja not_active Expired - Fee Related
- 2014-07-30 WO PCT/JP2014/070119 patent/WO2016016974A1/ja active Application Filing
-
2015
- 2015-07-24 TW TW104124167A patent/TW201610727A/zh unknown
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007219880A (ja) * | 2006-02-17 | 2007-08-30 | Fujitsu Ltd | 評判情報処理プログラム、方法及び装置 |
JP2009080557A (ja) * | 2007-09-25 | 2009-04-16 | Seiko Epson Corp | 識別方法及びプログラム |
JP2010055566A (ja) * | 2008-08-29 | 2010-03-11 | Toshiba Corp | クライアント/サーバシステムとクライアント/サーバシステムの監査方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2016016974A1 (ja) | 2016-02-04 |
TW201610727A (zh) | 2016-03-16 |
JP6441930B2 (ja) | 2018-12-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20230013306A1 (en) | Sensitive Data Classification | |
US9495445B2 (en) | Document sorting system, document sorting method, and document sorting program | |
KR101582108B1 (ko) | 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램 | |
JP6144427B2 (ja) | データ分析システムおよびデータ分析方法並びにデータ分析プログラム | |
JP5603468B1 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5723067B1 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
TW201539216A (zh) | 文件分析系統、文件分析方法、及文件分析程式 | |
JP5986687B2 (ja) | データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体 | |
JP5622969B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
JP5905651B1 (ja) | 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム | |
US20150339786A1 (en) | Forensic system, forensic method, and forensic program | |
CN113570259A (zh) | 基于维度模型的数据评估方法和计算机程序产品 | |
JP6124936B2 (ja) | データ分析システム、データ分析方法、および、データ分析プログラム | |
JP6026036B1 (ja) | データ分析システム、その制御方法、プログラム、及び、記録媒体 | |
JP6441930B2 (ja) | データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム | |
WO2016056095A1 (ja) | データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム | |
JP5685675B2 (ja) | 文書分別システム及び文書分別方法並びに文書分別プログラム | |
JP5745676B1 (ja) | 文書分析システム、文書分析方法、および、文書分析プログラム | |
WO2016111007A1 (ja) | データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム | |
JP6404294B2 (ja) | フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170731 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20170804 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180911 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20181030 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20181122 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6441930 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |