JPWO2016016974A1 - データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム - Google Patents

データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム Download PDF

Info

Publication number
JPWO2016016974A1
JPWO2016016974A1 JP2016537661A JP2016537661A JPWO2016016974A1 JP WO2016016974 A1 JPWO2016016974 A1 JP WO2016016974A1 JP 2016537661 A JP2016537661 A JP 2016537661A JP 2016537661 A JP2016537661 A JP 2016537661A JP WO2016016974 A1 JPWO2016016974 A1 JP WO2016016974A1
Authority
JP
Japan
Prior art keywords
data
unit
document
score
predetermined case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016537661A
Other languages
English (en)
Other versions
JP6441930B2 (ja
Inventor
守本 正宏
正宏 守本
秀樹 武田
秀樹 武田
和巳 蓮子
和巳 蓮子
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of JPWO2016016974A1 publication Critical patent/JPWO2016016974A1/ja
Application granted granted Critical
Publication of JP6441930B2 publication Critical patent/JP6441930B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

所定の事案と関係するデータを抽出する。本発明は、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、閾値特定部によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備える。

Description

本発明は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置等に関するものである。
価格カルテルに加担した嫌疑により企業が独占禁止法(反トラスト法)違反を追求されたり、内部者の手引きにより機密情報が漏洩されたりなど、企業のリーガルリスクが増大している背景から、上記のような不正行為を検知するシステムが望まれている。例えば、特許文献1には、訴訟において証拠として提出するために収集された、デジタル化された文書情報を分析し、訴訟への利用が容易になるように分別する文書分別システムが開示されている。
一方、コンピュータ利用に関するビヘイビア(どのファイルにアクセスしたかなど)を記録する技術も、従来から提案されている。例えば、特許文献2には、情報ネットワークの利用者の行動を把握して、情報漏洩の予防対策に役立つ情報ファイル漏洩を検知するための表示方法が開示されている。
特開2013−182338号公報 特開2007−304943号公報
特許文献1に開示された従来のシステムは、例えば、ネットワーク上を日々流通する電子メールから上記のような不正行為の予兆を検知することはできない。当該システムは、当該不正行為が起こった後に提起された訴訟において提出すべき関連文書を分析するものであるため、当該分析の対象となるすべての文書が事前に存在することを前提としているからである。
進行中の不正行為を捕捉する方法として、例えば、特許文献2に開示された表示方法のようにユーザのビヘイビアを記録し、問題視される所定のビヘイビア(「不正行為」として定義したビヘイビア)が発見された場合、管理者に警告を出す方法が考えられる。しかし、上記方法では、(a)上記所定のビヘイビアが発見された時点では、すでに不正行為が生じた後であることが多い、および(b)不正行為を事前に検知するために警告の要件を緩めるほど警告が頻発し、監視が実効的でなくなるという問題が生じる。
また、特許文献1または2に開示された従来技術は、特定の不正行為に特化したものに過ぎず、汎用的でないため、特定の不正行為以外の事案に適用可能なものではない。
本発明は、上記の問題点に鑑みてなされたものであり、その目的は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出可能なデータ分析装置等を提供することである。
上記課題を解決するために、本発明の一態様に係るデータ分析装置は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、閾値特定部によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えている。
また、本発明の一態様に係るデータ分析装置において、閾値特定部は、既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、閾値として特定することができる。
また、本発明の一態様に係るデータ分析装置は、未判断データについて算出されたスコアと、閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、データ設定部は、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定することができる。
また、本発明の一態様に係るデータ分析装置は、既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、スコアを算出するスコア算出部とをさらに備えてよい。
また、本発明の一態様に係るデータ分析装置において、要素評価部は、データ要素と当該データ要素を含む既判断データに対してユーザが判断した結果との依存関係を表す伝達情報量を、所定の基準の1つとして、当該データ要素を評価することができる。
また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータが所定の事案と関係するか否かが、ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、要素評価部は、結果取得部によって取得された結果に基づいて、データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することができる。
また、本発明の一態様に係るデータ分析装置は、要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えてよい。
また、本発明の一態様に係るデータ分析装置において、未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、データ設定部は、未判断データから固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
また、本発明の一態様に係るデータ分析装置は、所定のデータ群から抽出したデータが、所定の事案と関係するか否かがユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、既判断データを取得する既判断データ取得部をさらに備えてよい。
また、本発明の一態様に係るデータ分析装置は、データ設定部によって設定されたデータに、当該データが所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えてよい。
また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された文書であり、データ要素は、文書に含まれるキーワードであってよい。
また、本発明の一態様に係るデータ分析装置において、データは、コンピュータで処理可能となるようにデジタル化された音声であり、データ要素は、音声に含まれる部分音声であってよい。
上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御方法は、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、閾値特定ステップにおいて特定した閾値と、未判断データについて算出したスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含んでいる。
上記課題を解決するために、本発明の一態様に係るデータ分析装置の制御プログラムは、新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、コンピュータに、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、閾値特定機能によって特定された閾値と、未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させる。
本発明の一態様によれば、データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラムは、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定し、当該閾値と未判断データについて算出されたスコアとを比較した結果に応じて、未判断データをユーザに報告すべきデータとして設定する。
上記構成により、上記データ分析装置等は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できるという効果を奏する。
本発明の実施の形態に係る文書分析システムの要部構成を示すブロック図である。 上記文書分析システムの一例を概略的に示す模式図である。 レビュー結果が付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。 上記文書分析システムが実行する処理の一例を示すフローチャートである。
図1〜図4に基づいて、本発明の実施の形態を説明する。
〔文書分析システム100の概要〕
文書分析システム(データ分析装置)100は、デジタル文書を分析することによって、新たに取得された文書から所定の事案と関係する文書を抽出可能な情報処理システムである。文書分析システム100は、以下で説明する処理を実行可能なコンピュータを含んでいればよく、例えば、サーバ装置、パーソナルコンピュータ、メインフレーム、ワークステーション、その他の電子機器などを用いて実現され得る。
図2は、文書分析システム100の一例を概略的に示す模式図である。図2に示されるように、レビュア(ユーザ)は、文書が所定の事案と関係するか否かを判断し、当該判断した結果(レビュー結果5a)を文書分析システム100に入力する。
ここで、上記「文書」は、コンピュータによって処理可能となるようにデジタル化されたデータであり、例えば、電子メール、技術文書、プレゼンテーション資料、表計算資料、決算報告書、打ち合わせ資料、契約書、組織図、事業計画書などが広く含まれ得る。図2は、文書分析システム100がネットワーク上を日々流通する電子メールを取り込み、当該電子メールに含まれる文書を分析する例を示している。
また、上記「所定の事案」は、組織において上記文書を利用する一般ユーザが、不正行為、および/またはその予備的行為をとることによって生じる事件を含み、例えば、機密情報が外部に漏えいする事件、他社と談合した事件、決算を粉飾した事件、取引企業に架空請求して代金を着服した事件、その他企業にとって好ましくない事件など、当該組織が発生を未然に防止したいと考える事案を広く含む。ただし、上記所定の事案は上記の例に限定されず、関連するデータ(例えば、文書、音声、映像など)を生成し得る事案一般を広く含んでよい。
文書分析システム100は、上記レビュー結果5aに基づいて、上記文書(既判断データ)に含まれるキーワード(データ要素)を所定の基準(例えば、伝達情報量)に基づいてそれぞれ評価する。そして、文書分析システム100は、当該評価された結果に基づいて、上記所定の事案との関係性の強さを示すスコアを上記文書についてそれぞれ算出し、適合率(上記所定の事案に関係すると判断された文書が、所定数の文書を含む文書群に占める割合)に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値として特定する。
すなわち、文書分析システム100は、レビュアから与えられたレビュー結果5a(過去のデータに対して人間が判断した結果)に基づいて上記適合しきい値を設定し、当該適合しきい値を超過するスコアを有する文書のみを、上記所定の事案と関係する可能性が高い文書として、レビュアに一覧結果5b(当該文書を一覧してレビュアに提示可能な情報)を返すことができる。言い換えれば、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することにより、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、不正行為が生じる予兆を検知できる。
〔文書分析システム100の構成〕
図1は、文書分析システム100の要部構成を示すブロック図である。図1に示されるように、文書分析システム100は、制御部10(データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、格納部19)、受信部20、入力部40、表示部50、および記憶部30を備えている。
制御部10は、文書分析システム100が有する各種の機能を統括的に制御する。制御部10は、データ抽出部11、結果取得部12、要素評価部13、スコア算出部14、スコア特定部15、超過判定部16、データ設定部17、関係付与部18、および格納部19を含む。
データ抽出部(既判断データ取得部)11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群(データ群)から所定数だけ抽出する。当該文書群は、ネットワーク上を流通するデータであってもよいし、記憶部30にあらかじめ格納されたデータであってもよい。
データ抽出部11は、抽出した文書1aを表示部50に出力することによって、当該文書1aをレビュアに提示することができる。これにより、レビュアは、例えば、文書1aが「所定の事案と関係する」または「所定の事案と関係しない」を示すレビュー結果5aを当該文書1aにそれぞれ付与できる。また、データ抽出部11は、当該文書1aを結果取得部12および要素評価部13に出力する。
結果取得部(既判断データ取得部)12は、文書1aがデータ抽出部11から入力された場合、当該文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得し、当該レビュー結果5aを要素評価部13およびスコア特定部15に出力する。
要素評価部13は、所定の事案と関係するか否かがレビュアによって判断された文書1aに含まれるキーワード(データ要素)を、所定の基準に基づいてそれぞれ評価する。要素評価部13は、例えば、上記キーワードと当該キーワードを含む文書1aに対してレビュアが判断した結果(レビュー結果5a)との依存関係を表す伝達情報量を、上記所定の基準の1つとして当該キーワードの重みを算出することによって、当該キーワードを評価することができる。これにより、文書分析システム100は、キーワードを正確に評価することができるため、所定の事案と関係するデータを正確に抽出できる。
または、要素評価部13は、上記キーワードに所定の重みを割り当てることにより、当該キーワードを評価してもよい。この場合、要素評価部13は、例えば、上記キーワードに「1」の重みを割り当てることができる。
なお、上記「キーワード」は、意味を有する文字列(形態素)である。例えば、「文書を分別する」という文章には、「文書」および「分別」というキーワードが含まれる。要素評価部13は、上記キーワードと当該キーワードの重みとのペアであるキーワード情報5cを、スコア算出部14および格納部19に出力する。
スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し、当該スコア5dをスコア特定部15に出力する。また、受信部20から文書1b(所定の事案と関係するか否かが未だ判断されていないデータ)が新たに取得された場合、スコア算出部14は、当該文書1bについてスコア5eを算出し、当該スコア5eを超過判定部16に出力する。
スコア算出部14は、文書に出現するキーワードの重みを合算することによって、当該文書のスコアを計算できる。例えば、文書に「価格を調整する」という文章が含まれていることにより、「価格」および「調整」というキーワードが要素評価部13によってそれぞれ評価された結果、「1.2」および「2.2」という重みが設定された場合、スコア算出部14は、当該文書のスコアを「3.4」(1.2+2.2)と計算できる。
具体的には、スコア算出部14は、所定のキーワードが文書に含まれるか否かを示すキーワードベクトルを生成する。上記キーワードベクトルは、当該キーワードベクトルのそれぞれの要素が「0」または「1」の値をとることによって、当該要素に対応付けられた所定のキーワードが、上記文書に含まれるか否かを示すベクトルである。例えば、上記文書に「価格」というキーワードが含まれている場合、スコア算出部14は、上記キーワードベクトルの上記「価格」に対応する要素を「0」から「1」に変更する。そして、スコア算出部14は、以下の式のように、上記キーワードベクトル(縦ベクトル)と重みベクトル(各キーワードに対する重みを要素にした縦ベクトル)との内積を計算することにより、上記文書のスコアSを計算する。
Figure 2016016974
ここで、sはキーワードベクトルを表し、Wは重みベクトルを表す。なお、Tは行列・ベクトルを転置する(行と列とを入れ替える)ことを表す。
または、スコア算出部14は、以下の式にしたがってスコアSを算出してもよい。
Figure 2016016974
ここで、mは、j番目のキーワードの出現頻度を表し、wは、i番目のキーワードの重みを表す。なお、スコア算出部14は、文書1aおよび/または文書1bに含まれる第1キーワードが評価された結果(第1キーワードの重み)と、当該文書1aおよび/または文書1bに含まれる第2キーワードが評価された結果(第2キーワードの重み)とに基づいて、スコア5dおよび/またはスコア5eを算出してよい。また、スコア算出部14は、文書1aおよび/または文書1bにそれぞれ含まれるセンテンスごとに、スコア5dおよび/または5eを算出してよい(いずれも後で詳細に説明する)。
スコア特定部(閾値特定部)15は、所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する。具体的には、スコア算出部14からスコア5dが入力された場合、スコア特定部15は、当該スコア5dを降順に並べ替える。次に、スコア特定部15は、最大のスコア5d(スコアのランクが1位)を有する文書1aから順番に当該文書1aに付与されたレビュー結果5aを走査し、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が、現時点において走査が終了した文書の数に占める割合(適合率)を、順次計算する。
例えば、レビュー結果5aが付与された文書1aの数が100である場合に、スコアのランクが1位から20位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が18であった場合、スコア特定部15は、適合率を0.9(18/20)と計算する。または、スコアのランクが1位から40位までの文書について走査を終了したところ、「所定の事案と関係する」というレビュー結果5aが付与された文書の数が35であった場合、スコア特定部15は、適合率を0.875(35/40)と計算する。
スコア特定部15は、文書1aに対する適合率をすべて計算し、目標適合率を超過可能な最小のスコアを特定する。具体的には、スコア特定部15は、最小のスコア5d(スコアのランクが100位)を有する文書1aから順番に当該文書1aに対して計算された適合率を走査し、当該適合率が目標適合率を超過した場合、当該適合率に対応するスコアを、上記目標適合率を維持可能な最小スコア(適合しきい値6)として超過判定部16および格納部19に出力する。
超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し、当該判定した結果(判定結果5f)をデータ設定部17に出力する。
データ設定部17は、超過判定部16によって超過していると判定された場合、当該文書1bをレビュアに報告すべき文書として設定する。データ設定部17は、例えば、上記適合しきい値6を超過した文書1bにフラグを立てることによって、当該文書1bをレビュアに報告すべき文書に設定する。データ設定部17は、設定した文書を特定可能な設定情報5gを関係付与部18に出力する。
関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する。関係付与部(表示処理部)18は、一覧結果5bを表示部50に出力することにより、データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)を一覧可能に表示できる。
格納部19は、要素評価部13からキーワード情報5cが入力された場合、当該キーワード情報5cに含まれるキーワードと、当該キーワードが評価された結果(重み)とを対応付けて、記憶部30に格納する。これにより、文書分析システム100は、過去のデータを分析した結果(キーワードが評価された結果としての重み)に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。また、格納部19は、スコア特定部15から適合しきい値6が入力された場合、当該適合しきい値6を記憶部30に格納する。
入力部(所定の入力部)40は、レビュアから入力(レビュー結果5a)を受け付ける。図1は、文書分析システム100が入力部40を備えた構成(例えば、入力部40としてキーボード、マウスなどが接続された構成)を示すが、当該入力部40は、当該文書分析システム100と通信可能に接続された外部の入力装置(例えば、クライアント端末)であってもよい。
受信部20は、所定の通信方式にしたがう通信網を介して、ネットワークから文書1aおよび/または文書1bを受信する。外部の機器(例えば、一般ユーザが使用する端末)との通信を実現する本質的な機能が受信部20に備わってさえいればよく、通信回線、通信方式、または通信媒体などは限定されない。受信部20は、例えばイーサネット(登録商標)アダプタなどの機器で構成できる。また、受信部20は、例えばIEEE802.11無線通信、Bluetooth(登録商標)などの通信方式や通信媒体を利用できる。
表示部50は、レビュアが操作可能なインターフェース画面を表示するデバイスである。図1は、文書分析システム100が表示部50を備えた構成(例えば、表示部50として液晶ディスプレイなどが接続された構成)を示すが、当該表示部50は、当該文書分析システム100と通信可能に接続された外部の表示装置(例えば、クライアント端末)であってもよい。
記憶部(所定の記憶部)30は、例えば、ハードディスク、SSD(silicon state drive)、半導体メモリ、DVDなど、任意の記録媒体によって構成される記憶機器であり、文書1a、キーワード情報5c、適合しきい値6、および/または文書分析システム100を制御可能な制御プログラムを記憶する。なお、図1は、文書分析システム100が記憶部30を内蔵する構成を示すが、当該記憶部30は、当該文書分析システム100と通信可能に接続された外部の記憶装置であってもよい。
〔文書分析システム100の性能検証〕
図3は、レビュー結果5aが付与された文書の数に対応する最小スコアを示す表であり、(a)は、目標適合率を100%とした場合を示し、(b)は、目標適合率を90%とした場合を示す。
図3の(a)に例示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が100である場合(同図の表において「サンプル数」が「100」である行を参照)、目標適合率100%を達成可能な最下位のランクは11位であり、当該ランクに対応するスコア(適合率100%を達成可能な最小スコア)は、0.110である。文書分析システム100は、上記最小スコアを適合しきい値として設定し、当該適合しきい値を超過するスコアを有する文書1bは、適合率100%を維持可能な文書(すなわち、所定の事案と関係する文書)とみなす。
上記適合しきい値の妥当性を検証するために、レビュアによってレビュー結果5aが付与された7994の文書から、上記適合しきい値を超過するスコアを有する文書を取り出した。なお、上記文書は、文書分析システム100の性能を検証するために用意された特別な文書であり、当該文書分析システム100が分析の目的とする文書は、あくまでも、所定の事案と関係するか否かが未だ判断されていない文書1bであることに注意する。
上記の結果、766の文書が上記適合しきい値を超過し、このうちの605の文書に「所定の事案と関係する」というレビュー結果5aが付与されていた。すなわち、わずか100の文書に対してレビュー結果5aを与えさえすれば、文書分析システム100は、約8000の文書に対して79%(605/766=0.790)の精度(適合率)で所定の事案と関係する文書を抽出できることが定量的に証明された。
図3の(a)に示されるように、所定の事案と関係するか否かがレビュアによって判断された文書の数が増えるほど、文書分析システム100の精度(適合率)が上昇し、目標適合率に近づくことが分かる(同図の「全体サンプル」に含まれる「適合率」の列を参照)。図3の(b)に示されるように、目標適合率を90%に下げた場合も、上記傾向は成立する。
以上のように、文書分析システム100は、全体のサンプル数を確定できない任意の文書の一部に、レビュアによって判断された結果(レビュー結果5a)を与えさえすれば、残りの大部分の文書を高い精度で分別できる。すなわち、文書分析システム100は、過去のデータを分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる。これにより、文書分析システム100は、例えば、機密情報を外部に漏えいさせたり、他社に談合を持ちかけたりするなどの法的リスクが高まる予兆を、人手をかけることなく検知できる。
〔文書分析システム100が実行する処理〕
図4は、文書分析システム100が実行する処理の一例を示すフローチャートである。なお、以下の説明において、カッコ書きの「〜ステップ」は、データ分析装置の制御方法に含まれる各ステップを表す。
まず、データ抽出部11は、所定の事案と関係するか否かがレビュアによって判断されるべき文書1aを、所定の文書群から所定数だけ抽出する(ステップ1、以下「ステップ」を「S」と略記する)。次に、結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果(レビュー結果5a)を、入力部40を介して取得する(S2)。次に、要素評価部13は、上記所定の事案と関係するか否かがレビュアによって判断された文書に含まれるキーワードを、所定の基準に基づいてそれぞれ評価する(S3)。そして、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5dを文書1aについてそれぞれ算出し(S4)、スコア特定部15は、上記所定の事案に関係すると判断された文書1aが、所定数の文書を含む文書群に占める割合を示す適合率に対して設定された目標値(目標適合率)を超過可能な最小のスコアを、適合しきい値6として特定する(S5、閾値特定ステップ)。
次に、スコア算出部14は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案との関係性の強さを示すスコア5eを文書1bについてそれぞれ算出する(S6)。超過判定部16は、要素評価部13によって評価された結果(キーワード情報5c)に基づいて、上記所定の事案と関係するか否かが未だ判断されていない文書1bについて算出されたスコア5eが、適合しきい値6を超過しているか否かを判定し(S7)、超過していると判定される場合(S7においてYES)、データ設定部17は、当該文書1bをレビュアに報告すべき文書として設定する(S8、データ設定ステップ)。最後に、関係付与部18は、データ設定部17によって設定された文書1bに、当該文書1bが所定の事案と関係することを示す関係性情報(文書分析システム100によるレビュー結果)を付与する(S9)。
なお、上記制御方法は、図4を参照して前述した上記処理だけでなく、制御部10に含まれる各部において実行される処理を任意に含んでよい。
〔共起に基づくスコア計算〕
前述したように、スコア算出部14は、文書に含まれる第1キーワードが評価された結果と、当該文書に含まれる第2キーワードが評価された結果とに基づいてスコアを算出できる。すなわち、スコア算出部14は、第1キーワードが文書に出現した場合、当該文書において第2キーワードが出現する頻度(すなわち、第1キーワードと第2キーワードとの相関、共起ともいう)を考慮して、文書のスコアを計算できる。
この場合、スコア算出部14は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、(上記〔数1〕ではなく)以下の式にしたがってスコアSを計算できる。
Figure 2016016974
なお、上記相関行列Cは、所定の文書を所定数だけ含む学習用データセットを用いて、あらかじめ最適化されている。例えば、ある文書において「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(すなわち、最尤推定値)が、上記相関行列Cのそれぞれの要素に格納されている(したがって、上記相関行列Cの各列に対する総和は1になる)。
以上のように、文書分析システム100は、キーワード間の相関関係を考慮してスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔センテンスごとのスコア計算〕
前述したように、スコア算出部14は、文書にそれぞれ含まれるセンテンスごとにスコアを算出できる。この場合、スコア算出部14は、文書に含まれるセンテンスに所定のキーワードが含まれるか否かを示すキーワードベクトルを、当該センテンスごとに生成する。そして、スコア算出部14は、下記の式にしたがってスコアを文書ごとに算出する。
Figure 2016016974
ここで、sは、s番目のセンテンスに対応するキーワードベクトルである。なお、上記〔数4〕にしたがうスコアの算出においては、共起を考慮している(相関行列Cを用いている)ことに注意する。
TFnormは、下記の〔数5〕に示されるように計算できる。
Figure 2016016974
ここで、上記〔数5〕において、TFはi番目のキーワードの出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
上記〔数4〕および〔数5〕をまとめると、スコア算出部14は、以下の〔数6〕を計算することによって文書ごとに上記スコアを算出する。
Figure 2016016974
ここで、上記〔数6〕において、wは上記重みベクトルwのi番目の要素である。
以上のように、文書分析システム100は、センテンスの文意を正しく反映したスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔フェーズ分析〕
文書分析システム100は、所定の事案が属するフェーズを推定し、当該フェーズに応じてスコアを算出できる。ここで、上記「フェーズ」は、上記所定の事案が進展する各段階を示す(上記所定の事案の進展に応じて分類する)指標である。
例えば、上記所定の事案が「他社との談合」という不正行為事件であり、文書分析システム100は、ネットワーク上を日々流通する電子メールが当該不正行為事件に関係するか否かを判断することにより、当該不正行為事件の予兆を検知することを目的とする場合、上記フェーズには、「他社と競合に関する情報を収集する準備フェーズ」、「顧客・競合と関係を構築する関係構築フェーズ」、「顧客へ価格を提示し、フィードバックを得て、当該フィードバックに関して競合とコミュニケーションを取る競合フェーズ」などが含まれ得る。
また、時系列情報および生成過程情報が記憶部30に格納されている。ここで、上記「時系列情報」は、上記フェーズの時間的な序列を示す情報であり、例えば、「準備フェーズ」から「関係構築フェーズ」を経て「競合フェーズ」に至ることを示す時間発展モデルであってよい。また、上記「生成過程情報」は、あるフェーズにおいて各キーワードが生成される過程をモデル化した情報であり、例えば、フェーズごとに定義された多項分布モデルであってよい。
結果取得部12は、文書1aが所定の事案と関係するか否かについてレビュアが判断した結果と、当該文書1aが上記所定の事案のいずれのフェーズに属するかを判断した結果とを、レビュー結果5aとして取得し、要素評価部13は、文書1aに含まれるキーワードを上記フェーズごとにそれぞれ評価する(各キーワードの重みを決定する)。
スコア算出部14は、文書1bに対してスコア5eを算出する場合、上記生成過程情報に基づいて当該文書1bがいずれのフェーズにあるかを推定する。具体的には、当該生成過程情報に基づいて各フェーズに対する尤度を算出し、当該尤度を最大化するフェーズを当該文書1bのフェーズとして推定する。そして、スコア算出部14は、推定したフェーズに対応する重みを用いて、文書1bのスコアをそれぞれ算出する。このとき、スコア算出部14は、当該フェーズに対応する相関行列Cを用いてもよい。
関係付与部18は、データ設定部17によって設定された文書1bを一覧可能に表示するとともに、上記推定したフェーズを表示できる。このとき、関係付与部18は、上記時系列情報に基づいて、当該推定したフェーズが次のフェーズに発展する可能性・時期などを予測し、当該予測した結果をあわせて表示することができる。
以上のように、文書分析システム100は、フェーズに応じてスコアを正確に算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔重みの再計算〕
データ設定部17によって設定された文書1b(所定の事案と関係すると文書分析システム100によって判断された文書)が、関係付与部18によって一覧可能に表示された後、結果取得部12は、当該判断に対するフィードバックをレビュアから受け付けることができる。すなわち、レビュアは、文書分析システム100によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。そして、要素評価部13は、上記フィードバックに基づいて各キーワードを再評価できる。
言い換えれば、要素評価部13は、文書分析システム100の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、文書分析システム100は、分析の対象とする文書に適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で所定の事案と関係するデータを抽出できる。
〔人物・組織相関の表示〕
データ設定部17は、文書1bに出現する固有名詞(例えば、人物の名前、企業の名前、場所の名前など、固有データ要素)を抽出し、所定の固有名詞(第1固有データ要素)と他の固有名詞(第2固有データ要素)との対応関係を推定することによって、複数の人物または組織の間の繋がりの強さを可視化することができる。
例えば、人物Aから人物Bに送信された電子メールを文書1bとして分析した結果、当該文書1bに「私からCさんに連絡しておきます」という文章が含まれていた場合、データ設定部17は、「人物A」、「人物B」、および「人物C」を抽出し、「人物A」を示すノードから「人物B」を示すノード、および「人物C」を示すノードのそれぞれに矢印を接続したチャートを表示できる。この場合、データ設定部17は、人物・組織間の相関の強さに応じて矢印の太さが異なるように、上記チャートを表示してよい。
以上のように、文書分析システム100は、文書を分析した結果に基づいて、人物・組織間の相関関係を把握容易に表示できるため、不正行為事件を発生させる主体を漏れなく特定できる。
〔サーバ装置が機能の一部または全部を提供する構成〕
以上では、データを分析する機能を提供可能な制御プログラム(データ分析装置の制御プログラム)が、主に文書分析システム100(データ分析装置)において実行される構成(スタンドアロン構成)を説明した。一方、上記制御プログラムの一部または全部がサーバ装置において実行され、当該実行された処理の結果が上記文書分析システム100(ユーザ端末)に返される構成(クラウド構成)であってもよい。すなわち、本発明のデータ分析装置は、ユーザ端末とネットワークを介して通信可能に接続されたサーバ装置として機能することができる。これにより、サーバ装置は、上記文書分析システム100が機能を提供する場合に、当該文書分析システム100が奏する効果と同じ効果を奏する。
〔ソフトウェアによる実現例〕
文書分析システム100の制御ブロック(特に、制御部10)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。後者の場合、文書分析システム100は、各機能を実現するソフトウェアである制御プログラムの命令を実行するCPU、上記制御プログラムおよび各種データがコンピュータ(またはCPU)で読み取り可能に記録されたROM(Read Only Memory)または記憶装置(これらを「記録媒体」と称する)、上記制御プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(またはCPU)が上記制御プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記制御プログラムは、当該制御プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記制御プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記制御プログラムは、例えば、Python、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、前記制御プログラムによって実現される各機能を実現する各部を備えた情報処理装置(例えば、文書分析システム100)と、前記各機能とは異なる残りの機能を実現する各部を備えたサーバ装置とを含む分析システムも、本発明の範疇に入る。
〔文書以外のデータに適用する例〕
本発明のデータ分析装置を実施する一形態として、文書を分析する文書分析システム100を説明したが、当該データ分析装置は、文書以外のデータも分析可能である。
例えば、本発明のデータ分析装置は、音声を分析する音声分析システムの形態でも実施可能である。この場合、上記音声分析システムは、(1)音声を認識することによって当該音声に含まれる会話の内容を文字(文書データ)に変換し、上記文書分析システム100と同様に当該文書データを処理してもよいし、(2)音声データをそのまま処理してもよい。
上記(1)の場合、上記音声分析システムは、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いることによって、音声データを文書データに変換し、当該文書データに対して、文書分析システム100が実行する処理と同様の処理を実行する。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
上記(2)の場合、上記音声分析システムは、音声データに含まれる部分音声を抽出することによって、当該音声データが所定の事案と関係するか否かを分別できる。例えば、「価格を調整する」という音声データが得られた場合、音声分析システムは「価格」および「調整」という部分音声を当該音声データから抽出し、当該部分音声を評価した結果に基づいて、未分別の音声データに関連性情報を与えることができる。この場合、音声分析システムは、時系列データの分類アルゴリズム(例えば、隠れマルコフモデル、カルマンフィルタ、ニューラルネットワークなど)を利用して、音声データを分別できる。これにより、上記音声分析システムは、上記文書分析システム100と同様の効果を奏する。
または、本発明のデータ分析装置は、映像(動画)を分析する映像分析システムの形態でも実施可能である。この場合、上記映像分析システムは、映像データに含まれるフレーム画像を抽出し、任意の顔認識技術を用いることによって、当該フレーム画像に含まれる人物を特定できる。また、上記映像分析システムは、任意のモーション認識技術(例えば、パターンマッチング技術を応用するものであってよい)を用いることによって、上記映像データに含まれる部分映像(上記映像に含まれる全フレーム画像のうちの一部を含む映像)から上記人物のモーション(動作)を抽出できる。そして、上記映像分析システムは、上記人物および/またはモーションに基づいて、上記映像データを分別できる。これにより、上記映像分析システムは、上記文書分析システム100と同様の効果を奏する。
すなわち、本発明のデータ分析装置は、時系列で情報が展開するデジタルデータ(文書、音声、映像など)を分析することができる。これにより、上記データ分析装置は、過去のデータ(文書、音声、映像など)を分析した結果に基づいて現在のデータを分析することによって、所定の事案と関係するデータを抽出できる(例えば、不正行為が生じる予兆を検知できる)という効果を奏する。
〔付記事項〕
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。
例えば、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かがユーザによって判断されたデータに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、データについてそれぞれ算出するスコア算出部と、所定の事案に関係すると判断されたデータが、所定数のデータを含むデータ群に占める割合を示す適合率に対して設定された目標値を超過可能な最小のスコアを、適合しきい値として特定するスコア特定部と、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていないデータについて算出されたスコアが、適合しきい値を超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、当該データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
または、本発明は以下のようにも表現できる。すなわち、所定の事案との関係性の強さを示す指標として、当該所定の事案と関係するか否かがユーザによって判断された既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能な最小のスコアを特定するスコア特定部と、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合、当該未判断データについて算出されたスコアが、スコア特定部によって特定された最小のスコアを超過しているか否かを判定する超過判定部と、超過判定部によって超過していると判定された場合、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
または、本発明は以下のようにも表現できる。すなわち、所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる基礎情報を、当該所定の事案と関係するか否かがユーザによって判断された既判断データから特定する情報特定部と、情報特定部によって特定された基礎情報に基づいて、未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
また、上記データ分析装置において、スコア算出部は、要素評価部によって評価された結果に基づいて、所定の事案との関係性の強さを示すスコアを、当該所定の事案と関係するか否かがユーザによって判断された文書にそれぞれ含まれるセンテンスごとに算出し、超過判定部は、要素評価部によって評価された結果に基づいて、所定の事案と関係するか否かが未だ判断されていない文書にそれぞれ含まれるセンテンスについて算出されたスコアが、適合しきい値を超過しているか否かを判定することができる。
本発明は、パーソナルコンピュータ、サーバ装置、メインフレーム、ワークステーション、その他の電子機器に広く適用することができる。
1a:文書(既判断データ)、1b:文書(未判断データ)、5a:レビュー結果(ユーザによって判断された結果)、5d:スコア、5e:スコア、6:適合しきい値、11:データ抽出部(既判断データ取得部)、12:結果取得部(既判断データ取得部)、13:要素評価部、14:スコア算出部、15:スコア特定部(閾値特定部)、16:超過判定部、17:データ設定部、18:関係付与部、19:格納部、30:記憶部(所定の記憶部)、40:入力部(所定の入力部)、100:文書分析システム(データ分析装置)

Claims (14)

  1. 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置であって、
    前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定部と、
    前記閾値特定部によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定部とを備えたデータ分析装置。
  2. 前記閾値特定部は、前記既判断データについてそれぞれ算出されたスコアのうち、適合率に対して設定された目標値を超過可能なスコアを、前記閾値として特定することを特徴とする請求項1に記載のデータ分析装置。
  3. 前記未判断データについて算出されたスコアと、前記閾値特定部によって特定された閾値とを比較することによって、当該スコアが当該閾値を超過しているか否かを判定する超過判定部をさらに備え、
    前記データ設定部は、前記超過判定部によって超過していると判定された場合、前記未判断データをユーザに報告すべきデータとして設定することを特徴とする請求項1または2に記載のデータ分析装置。
  4. 前記既判断データに含まれるデータ要素を、所定の基準に基づいてそれぞれ評価する要素評価部と、
    前記要素評価部によって評価された結果に基づいて、前記スコアを算出するスコア算出部とをさらに備えたことを特徴とする請求項1から3のいずれか一項に記載のデータ分析装置。
  5. 前記要素評価部は、前記データ要素と当該データ要素を含む既判断データに対して前記ユーザが判断した結果との依存関係を表す伝達情報量を、前記所定の基準の1つとして、当該データ要素を評価することを特徴とする請求項4に記載のデータ分析装置。
  6. 前記データ設定部によって設定されたデータが前記所定の事案と関係するか否かが、前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得する結果取得部をさらに備え、
    前記要素評価部は、前記結果取得部によって取得された結果に基づいて、前記データ設定部によって設定されたデータに含まれるデータ要素をそれぞれ評価することを特徴とする請求項4または5に記載のデータ分析装置。
  7. 前記要素評価部によって評価されたデータ要素と、当該データ要素が評価された結果とを対応付けて、所定の記憶部に格納する格納部をさらに備えたことを特徴とする請求項4から6のいずれか一項に記載のデータ分析装置。
  8. 前記未判断データは、複数の人物または組織をそれぞれ特定可能な固有データ要素をそれぞれ含み、
    前記データ設定部は、前記未判断データから前記固有データ要素をそれぞれ抽出し、第1固有データ要素と、当該第1固有データ要素とは異なる第2固有データ要素との対応関係を推定することによって、前記複数の人物または組織の間の繋がりの強さを可視化することを特徴とする請求項1から7のいずれか一項に記載のデータ分析装置。
  9. 所定のデータ群から抽出したデータが、前記所定の事案と関係するか否かが前記ユーザによって判断された結果を、所定の入力部を介して当該ユーザから取得することによって、前記既判断データを取得する既判断データ取得部をさらに備えたことを特徴とする請求項1から8のいずれか一項に記載のデータ分析装置。
  10. 前記データ設定部によって設定されたデータに、当該データが前記所定の事案と関係することを示す関係性情報を付与する関係付与部をさらに備えたことを特徴とする請求項1から9のいずれか一項に記載のデータ分析装置。
  11. 前記データは、コンピュータで処理可能となるようにデジタル化された文書であり、
    前記データ要素は、前記文書に含まれるキーワードであることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。
  12. 前記データは、コンピュータで処理可能となるようにデジタル化された音声であり、
    前記データ要素は、前記音声に含まれる部分音声であることを特徴とする請求項1から10のいずれか一項に記載のデータ分析装置。
  13. 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御方法であって、
    前記所定の事案と関係するか否かが判断されていない未判断データを新たに取得した場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出したスコアから特定する閾値特定ステップと、
    前記閾値特定ステップにおいて特定した閾値と、前記未判断データについて算出したスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定ステップとを含むデータ分析装置の制御方法。
  14. 新たに取得されたデータから所定の事案と関係するデータを抽出可能なデータ分析装置の制御プログラムであって、
    コンピュータに、
    前記所定の事案と関係するか否かが判断されていない未判断データが新たに取得された場合に、当該未判断データに対する当該判断の基礎となる閾値を、当該所定の事案と関係するか否かがユーザによって判断された既判断データについて、当該所定の事案との関係性の強さを示す指標としてそれぞれ算出されたスコアから特定する閾値特定機能と、
    前記閾値特定機能によって特定された閾値と、前記未判断データについて算出されたスコアとを比較した結果に応じて、前記未判断データをユーザに報告すべきデータとして設定するデータ設定機能とを実現させるデータ分析装置の制御プログラム。
JP2016537661A 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム Expired - Fee Related JP6441930B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2014/070119 WO2016016974A1 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム

Publications (2)

Publication Number Publication Date
JPWO2016016974A1 true JPWO2016016974A1 (ja) 2017-06-01
JP6441930B2 JP6441930B2 (ja) 2018-12-19

Family

ID=55216917

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016537661A Expired - Fee Related JP6441930B2 (ja) 2014-07-30 2014-07-30 データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム

Country Status (3)

Country Link
JP (1) JP6441930B2 (ja)
TW (1) TW201610727A (ja)
WO (1) WO2016016974A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2010055566A (ja) * 2008-08-29 2010-03-11 Toshiba Corp クライアント/サーバシステムとクライアント/サーバシステムの監査方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217157A (ja) * 2007-02-28 2008-09-18 Nippon Telegr & Teleph Corp <Ntt> 操作履歴を利用した自動情報整理装置、方法、およびプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007219880A (ja) * 2006-02-17 2007-08-30 Fujitsu Ltd 評判情報処理プログラム、方法及び装置
JP2009080557A (ja) * 2007-09-25 2009-04-16 Seiko Epson Corp 識別方法及びプログラム
JP2010055566A (ja) * 2008-08-29 2010-03-11 Toshiba Corp クライアント/サーバシステムとクライアント/サーバシステムの監査方法

Also Published As

Publication number Publication date
WO2016016974A1 (ja) 2016-02-04
TW201610727A (zh) 2016-03-16
JP6441930B2 (ja) 2018-12-19

Similar Documents

Publication Publication Date Title
US20230013306A1 (en) Sensitive Data Classification
US9495445B2 (en) Document sorting system, document sorting method, and document sorting program
KR101582108B1 (ko) 문서 분류 시스템, 문서 분류 방법 및 문서 분류 프로그램
JP6144427B2 (ja) データ分析システムおよびデータ分析方法並びにデータ分析プログラム
JP5603468B1 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5723067B1 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
TW201539216A (zh) 文件分析系統、文件分析方法、及文件分析程式
JP5986687B2 (ja) データ分別システム、データ分別方法、データ分別のためのプログラム、及び、このプログラムの記録媒体
JP5622969B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
JP5905651B1 (ja) 実績評価装置、実績評価装置の制御方法、および実績評価装置の制御プログラム
US20150339786A1 (en) Forensic system, forensic method, and forensic program
CN113570259A (zh) 基于维度模型的数据评估方法和计算机程序产品
JP6124936B2 (ja) データ分析システム、データ分析方法、および、データ分析プログラム
JP6026036B1 (ja) データ分析システム、その制御方法、プログラム、及び、記録媒体
JP6441930B2 (ja) データ分析装置、データ分析装置の制御方法、およびデータ分析装置の制御プログラム
WO2016056095A1 (ja) データ分析システム、データ分析システムの制御方法、およびデータ分析システムの制御プログラム
JP5685675B2 (ja) 文書分別システム及び文書分別方法並びに文書分別プログラム
JP5745676B1 (ja) 文書分析システム、文書分析方法、および、文書分析プログラム
WO2016111007A1 (ja) データ分析システム、データ分析システムの制御方法、及びデータ分析システムの制御プログラム
JP6404294B2 (ja) フォレンジックシステムおよびフォレンジック方法並びにフォレンジックプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170731

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170804

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180911

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181018

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181030

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181122

R150 Certificate of patent or registration of utility model

Ref document number: 6441930

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees