JPWO2016125310A1

JPWO2016125310A1 - データ分析システムおよびデータ分析方法並びにデータ分析プログラム

Info

Publication number: JPWO2016125310A1
Application number: JP2016535187A
Authority: JP
Inventors: 秀樹武田; 和巳蓮子
Original assignee: Ubic Inc
Current assignee: Ubic Inc
Priority date: 2015-02-06
Filing date: 2015-02-06
Publication date: 2017-04-27
Anticipated expiration: 2035-02-06
Also published as: JP6144427B2; WO2016125310A1; US20170358045A1

Abstract

データ分析システムにおいて、データ取得部は、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを訓練データセットとして取得する。関係性評価部は、訓練データに含まれるデータ要素と分類情報との関係性を評価する。部分データ生成部は、分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する。データ評価部は、関係性評価部の評価結果に基づいて、部分未知データそれぞれを評価する。

Description

本発明は、データ分析システムおよびデータ分析方法並びにデータ分析プログラムに関するものであって、例えば、特許文献の調査に利用可能なデータ分析システムおよびデータ分析方法並びにデータ分析プログラムに関する。

近年、特許権をはじめとする知的財産権の重要性がますます高まってきている。このため、例えば特許公報等に出現するキーワードを解析して、当該特許公報等の知的財産の価値を評価する技術も提案されるようになってきている（例えば特許文献１参照）。

特開２０１０−００９４９３号公報

一般に、知的財産の価値は、その知的財産を誰が所有するかによって異なるものとなり、汎用的な価値を評価することは難しい問題である。例えば、ある事業を実施するものにとっては、その事業に関連する知的財産は重要となるが、その事業に関連しない知的財産の価値は低くなると考えられる。

ある事業を実施しようとする者は、その事業に関連する技術について特許権を取得できるか否か、あるいはその事業に関連する他者の特許権を無効化ないし回避できるか否かが重要である。このため、ある事業を実施しようとする者は、その事業に関連する技術の絶対的な価値評価を知ることよりも、むしろ特許文献の無効資料調査や先行技術調査等の特許調査の迅速化や負担の軽減の実現を望んでいると考えられる。

本願の発明者は、上述のような特許調査をはじめとして、特定の事案や思想等を記載した文書と関係するデータを、大量の未知データの中から見つけ出すことを支援する技術の有用性について認識するに至った。

本発明は上記事情に鑑みてなされたものであり、大量の未知データの中から特定の思想や事案等を記載したデータと関係するデータを見つけ出すことを支援する技術を提供することを目的とする。

上記課題を解決するために、本発明のある態様のデータ分析システムは、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得部と、訓練データに含まれるデータ要素と分類情報との関係性を評価する関係性評価部と、分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成部と、関係性評価部の評価結果に基づいて、部分未知データそれぞれを評価するデータ評価部とを備える。

データ評価部は、部分未知データと分類情報との関係性の強さを示すスコアを算出することによって、当該部分未知データそれぞれを評価してもよい。

データ評価部による評価結果を統合した統合指標を生成する評価統合部をさらに備えてもよい。

データ評価部は、部分未知データに含まれるデータ要素と分類情報との関係性が強い場合は、弱い場合と比較して値が大きくなるように、当該部分未知データと分類情報との関係性の強さを示すスコアを算出し、評価統合部は、データ評価部が算出したスコアを、大きい順に所定数合算した統合スコアを、統合指標値として生成してもよい。

未知データは、複数の項目を含む所定の書式にしたがって作成された文書データであり、部分データ生成部は、項目を単位として未知データを分割し、部分未知データを生成してもよい。

本発明の別の態様は、データ分析方法である。この方法は、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得ステップと、訓練データに含まれるデータ要素と分類情報との関係性を評価する関係性評価ステップと、分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成ステップと、関係性評価ステップによる評価結果に基づいて、部分未知データそれぞれを評価するデータ評価ステップとをプロセッサが実行する。

本発明に係る文データ分析システムおよびデータ分析方法並びにデータ分析プログラムは、大量の未知データの中から特定の思想や事案等を記載したデータと関係するデータを見つけ出すことを支援する技術を提供することができる。

本発明の実施の形態に係るデータ分析システムの機能構成を模式的に示す図である。未知データの書式の一例を模式的に示す図である。実施の形態に係る統合評価の内部構成を模式的に示す図である。実施形態に係るデータ分析システムの性能を評価した結果を示すグラフである。実施形態に係るデータ分析システムの性能を評価した別の結果を示すグラフである。実施の形態に係るデータ分析装置が実行するデータ分析処理の流れを説明するフローチャートである。実施の形態に係る評価統合部が実行する統合スコア生成処理の流れを説明するフローチャートである。

実施の形態に係るデータ分析システムの概要を述べる。

実施の形態に係るデータ分析システムは、例えば、特許の無効調査や特許出願前の先行技術文献調査の実施を支援することができる。データ分析システムを無効調査に適用する場合には、無効化対象特許の特許請求の範囲や明細書に含まれるテキスト、およびあらかじめユーザによって無効化対象特許との関係性が弱いことが確認されている特許文献や論文等を訓練データとする。すなわち、実施の形態に係るデータ分析システムが訓練データとするデータは、あらかじめユーザによって無効化対象の特許のデータであるか、あるいは無効化対象の特許との関係性が弱いデータであるかという分類情報が対応づけられたデータである。

データ分析システムは、訓練データに含まれるデータ要素と分類情報との関係性を評価し、その評価結果を用いて、大量の調査対象データ（例えば、特許文献や論文等の未知データ）から、無効資料に該当する可能性を評価する。なお、「データ要素」とは、ある言語において、一定の意味を持つ文字列のまとまりをいい、いわば「キーワード」（例えば、形態素）のことをいう。

無効調査の場合には、調査対象とする文献全体が無効の根拠となる場合よりも、その一部分（例えば、いくつかの段落および／またはいくつかの図面等）が無効の根拠となる場合の方が多いと考えられる。先行技術文献調査の場合も同様に、調査対象とする文献全体が先行技術に該当する場合よりも、その一部分（例えば、いくつかの段落および／またはいくつかの図面等）が先行技術に該当する場合の方が多いと考えられる。このため実施の形態に係るデータ分析システムは、調査対象とする文献を複数の部分未知データに分割し、部分未知データ毎に無効資料または先行技術に該当する可能性を評価する。また、各部分未知データについて算出したスコアを文献単位で統合し、文献全体として無効資料または先行技術文献としての有用性を評価する。

図１は、実施の形態に係るデータ分析システム１の機能構成を模式的に示す図である。実施の形態に係るデータ分析システム１は、データ分析装置１００と記憶部２００とを備える。

図１は、実施の形態に係るデータ分析システム１がデータの分析を実現するための機能構成を示しており、その他の構成は省略している。図１において、さまざまな処理を行う機能ブロックとして記載される各要素は、ハードウェア的には、ＣＰＵ（Central Processing Unit）、メインメモリ、その他のＬＳＩ（Large Scale Integration）で構成することができる。またソフトウェア的には、メインメモリにロードされたプログラムなどによって実現される。なお、このプログラムは、コンピュータが読み出し可能な記録媒体に格納されていてもよく、通信回線を介してネットワークからダウンロードされてもよい。したがって、これらの機能ブロックがハードウェアのみ、ソフトウェアのみ、またはそれらの組み合わせによっていろいろな形で実現できることは当業者には理解されるところであり、いずれかに限定されるものではない。

図１に示すデータ分析システム１の各機能部をソフトウェアにより実現する場合、データ分析装置１００は、各機能を実現するソフトウェアであるプログラムの命令を実行することで実現される。このプログラムを格納する記録媒体は、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、当該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

実施の形態に係るデータ分析装置１００は、データ取得部１１０、関係性評価部１２０、評価格納部１３０、部分データ生成部１４０、データ評価部１５０、評価統合部１６０、出力部１７０、およびスコア算出部１８０を備える。また実施の形態に係る記憶部２００は、文書データ記憶部２１０と評価記憶部２２０とを含む。限定はしないが、一例として、データ分析装置１００は、メインフレーム、サーバ、ワークステーション、クラウドコンピューティング、ＰＣ等を用いて実現できる。

図１に示すデータ分析システム１の例では、記憶部２００は、データ分析装置１００とは独立した外部の装置として実現されている。この場合、データ分析装置１００と記憶部２００とは必ずしも近接している必要はなく、例えばネットワークを介してリモートで接続していてもよい。また、図示はしないが、記憶部２００はデータ分析装置１００の一部として、データ分析装置１００の内部に実装されてもよい。

さらに、データ分析装置１００が備える各部は、必ずしも単体の装置に備えられていなくてもよい。データ分析装置１００は、例えばクラウドコンピューティング技術を用いて実装されてもよく、この場合複数の計算機が協働して、データ分析装置１００の各機能を実現してもよい。

記憶部２００の文書データ記憶部２１０は、訓練データと、複数の未知データとを格納する。訓練データは、「データ」と「分類情報」（関係あり／なし）とのペア（組み合わせ）をいう。具体的には、実施の形態に係るデータ分析システム１を特許の無効調査に適用する場合には、「データ」は、特許の特許請求の範囲の記載や明細書中のテキストデータであり、「分類情報」とは、そのデータが無効としたい特許の特許請求の範囲の記載や明細書中のテキストデータと、関係があるか否かを示す情報である。またデータ分析システム１を特許出願前の先行技術文献調査に適用する場合には、「分類情報」は、データが先行技術調査の目的とする発明と関係があるか否かを示す情報である。

「未知データ」とは、実施の形態に係るデータ分析システム１が調査対象とするデータであり、上述の「分類情報」が付与されていないデータである。すなわち、データ分析システムが、「スコア」という形で「分類情報」を推測する必要があるもの）を指す。具体的に、実施の形態に係るデータ分析システム１を特許の無効調査や先行技術文献調査に適用する場合、特許文献（公開公報や特許公報）や技術論文が主な未知データとなる。しかしながら、データ（訓練データ、未知データ）は特許文献や技術文献に限られず、任意のテキストデータ（電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等、少なくとも一部にテキストを含むデータ）、音声データ、画像データ、動画データなどであってもよい。なお、データ分析システム１が、音声データを分析対象とする場合、上記「データ要素」は、当該音声データの少なくとも一部を構成する部分音声データであり、画像データを分析対象とする場合、上記「データ要素」は、当該画像データの少なくとも一部を構成する部分画像データであり、映像データを分析対象とする場合、上記「データ要素」は、当該映像データの少なくとも一部を構成する部分映像データ（例えば、フレーム画像など）であってよい。

データ取得部１１０は、文書データ記憶部２１０を参照して、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得する。分類情報とは、訓練データに含まれるあるデータが調査の目的とするデータ（いわゆる、正解データ）であるか、調査の目的とするデータと関係性が低いデータ（いわゆる、不正解データ）であるかを示す情報である。訓練データは、例えば、ユーザによってあらかじめデータ取得部１１０に格納されている。または、データ取得部１１０が、通信可能に接続された記憶装置から訓練データを取得することもできる。限定はしないが、分類情報の一例として、正解データに「１」、不正解データに「−１」を割り当ててもよい。

なお、データ取得部１１０は、文書データ記憶部２１０を参照して、調査の対象とする複数の未知データの中から取得した所定数の未知データを、上述の不正解データと見なしてもよい。この場合、データ取得部１１０は、文書データ記憶部２１０に格納された複数の未知データを抽出する際に、ランダムにサンプリングして所定数の未知データを取得してもよい。データ取得部１１０は、例えば全未知データのうち１割の文書をランダムに抽出してもよく、この割合はユーザが自由に設定することもできる。

関係性評価部１２０は、訓練データに含まれるデータ要素と分類情報との関係性を評価する。より具体的に、関係性評価部１２０は、データ取得部１１０が取得した訓練データから抽出したデータ要素を、所定の基準に基づいて評価する。言い換えれば、関係性評価部１２０は、データ取得部１１０によって取得された訓練データセットに含まれる組み合わせに対して、訓練データの少なくとも一部を構成するデータ要素が寄与する度合いを評価することにより、当該訓練データに含まれるパターン（抽象的な概念・意味などを広く含み、いわゆる「特定のパターン」（例えば、所定の模様・規則性）に限定されない）を学習することができる。なお、「所定の基準」については後述する。

評価格納部１３０は、関係性評価部１２０の評価結果を、関係性が評価されたデータ要素と対応付けて記憶部に格納する。評価記憶部２２０に格納されたデータ要素およびその評価結果を基準として未知データが分析される。

部分データ生成部１４０は、文書データ記憶部２１０に格納されている複数の未知データそれぞれを取得する。部分データ生成部１４０は、取得した複数の未知データそれぞれについて、各未知データの一部を構成する部分未知データに分割する。

図２は、未知データの書式の一例を模式的に示す図である。一般に特許文献や技術論文は、図２に示すように、複数の項目を含む所定の書式にしたがって作成された文書データであり、各項目によって区切られている。また、いくつかの項目は、さらに細かいサブ項目に区切られている場合もある。各項目および各サブ項目には、一群の文章や図、表等が記載されている。例えば特許文献の明細書の場合には、段落番号を示す数字によって明細書が複数の段落に区切られており、各段落には文章が記載されている。また、図の番号を示す数字によって図面を記載する書類がいくつかの項目に区切られており、各項目に図面が記載されている。ここで、上記所定の書式にしたがう各項目に含まれる文章は、非構造化データ（少なくとも一部において構造定義が不完全なデータ）である。

なお本明細書において「文書」または「文書データ」とは、文章や数式をはじめとする文字データのみならず、図、表、化学式等の図形データも含まれる。例えば、特許文献、技術論文、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書等のことである。また、スキャンデータを文書として扱うことも可能である。この場合、スキャンデータをテキストデータへと変換できるように、文書判別システム内にＯＣＲ（Optical Character Reader）装置を備えてもよい。ＯＣＲ装置によってテキストデータへ変更することで、スキャンデータからキーワード及び関連用語の解析や探索が可能になる。

部分データ生成部１４０は、未知データが含む項目を単位としてその未知データを分割する。部分データ生成部１４０は、分割して得られたデータを、それぞれ部分未知データとして生成する。なお、部分データ生成部１４０が部分未知データを生成する単位は項目には限られない。例えば、ある項目が文章を含む場合、部分データ生成部１４０は、１文を単位として部分未知データを生成してもよいし、改行から次の改行までに含まれる文を単位として部分データを生成してもよい。

データ評価部１５０は、記憶部２００中の評価記憶部２２０に格納された、関係性評価部１２０の評価結果を取得する。データ評価部は、取得した評価結果に基づいて、部分データ生成部１４０が生成した部分未知データそれぞれを評価する。より具体的には、データ評価部１５０は、記憶部２００中の評価記憶部２２０に格納された評価結果に基づいて、部分データ生成部１４０が生成した部分未知データそれぞれと分類情報との関係性を示すスコアを算出する。データ評価部１５０が算出するスコアは、部分未知データに含まれるデータ要素と分類情報との関係性が強い場合は、弱い場合と比較して値が大きくなるように算出される。

出力部１７０は、データ評価部１５０が算出したスコアをユーザに出力する。データ評価部１５０が算出するスコアは、部分未知データと分類情報との関係性が強い場合は、関係性が弱い場合と比較して評価が高くなるように、部分未知データを評価する。

データ分析システム１がモニタ（不図示）を備える場合には、出力部１７０は、データ評価部１５０が算出したスコアを、対応する部分未知データまたは部分未知データを識別する識別子（例えば、段落番号および特許文献の番号）とともにモニタに出力してもよい。データ分析システム１がＬＡＮ（Local Area Network）またはＷＡＮ（Wide Area Network）等のネットワークに接続している場合には、出力部１７０は、上述のスコアおよび識別子をネットワーク経由でユーザに送信してもよい。あるいは、データ分析システム１が図示しないプリンタを備えている場合には、出力部１７０は上述のスコアおよび識別子をプリンタで出力してもよい。

次に、関係性評価部１２０が参照する所定の基準について簡単に説明する。

関係性評価部１２０は、訓練データに含まれるデータのデータ要素と分類情報との関係性の強さを示すスコアを算出する。上述したように、データ要素は、ある言語において、一定の意味を持つ文字列のまとまりをいい、いわば「キーワード」である。例えば、「文書を時系列で分析する」という文章からデータ要素を選定する場合、「文書」、「時系列」、「分析」が選定されてもよい。

「文書を時系列で分析する」という文章から抽出されたデータ要素「文書」、「時系列」、「分析」が、関係性評価部１２０によってそれぞれ「０．１」、「２．２」、「１．９」と評価された場合、スコア算出部１８０は、例えば、当該文章データのスコアを０．１＋２．２＋１．９＝４．２と計算する。

より具体的には、スコア算出部１８０は、所定のデータ要素がデータ（例えば、未知データ、部分未知データ）に含まれるか否かを示す要素ベクトルを生成する。上記要素ベクトルは、当該要素ベクトルのそれぞれの要素が「０」または「１」の値をとることによって、当該要素に対応付けられた所定のデータ要素が、当該データに含まれるか否かを示すベクトルである。例えば、上記データに「分析システム」というデータ要素が含まれている場合、スコア算出部１８０は、上記要素ベクトルの上記「分析システム」に対応する要素を「０」から「１」に変更する。そして、スコア算出部１８０は、以下の式のように、上記要素ベクトル（縦ベクトル）と重みベクトル（各データ要素に対する重み（関係性評価部１２０の評価結果）を要素にした縦ベクトル）との内積を計算することにより、上記データのスコアＳを計算する。

ここで、ｓは要素ベクトルを表し、Ｗは重みベクトルを表す。なお、Ｔは行列・ベクトルを転置する（行と列とを入れ替える）ことを表す。

または、スコア算出部１８０は、以下の式にしたがってスコアＳを算出してもよい。

ここで、ｍ_ｊは、ｊ番目のデータ要素の出現頻度を表し、ｗ_ｉは、ｉ番目のデータ要素の重みを表す。

または、スコア算出部１８０は、訓練データに含まれる第１データ要素が評価された結果（第１データ要素の重み）と、当該学習データに含まれる第２データ要素が評価された結果（第２データ要素の重み）とに基づいて、スコアを算出してもよい。すなわち、スコア算出部１８０は、第１データ要素が学習データに出現した場合、当該データにおいて第２データ要素が出現する頻度（すなわち、第１データ要素と第２データ要素との相関、共起ともいう）を考慮して、スコアを計算できる。これにより、データ分析装置１００は、データ要素間の相関関係を考慮してスコアを算出できるため、より高い精度で訓練データと関係する未知データを抽出できる。

データ評価部１５０は、関係性評価部１２０の評価結果に基づいて、部分未知データそれぞれと訓練データとの関係性を評価する。これによりデータ評価部１５０は、部分未知データと訓練データとの関係性が強い場合は、弱い場合と比較して、値が大きくなるようにスコアを算出することができるようになる。

ここで例えば、データ分析システム１を無効資料調査に適用する場合、未知データとして特許文献が採用される場合が多い。未知データが特許文献の場合、特許文献に一般的に含まれる要約書、明細書、特許請求の範囲、および図面等の各項目を考慮すると、部分データ生成部１４０は、各未知データを１００程度の部分未知データに分割すると考えられる。この場合、データ評価部１５０が算出するスコアも、一つの未知データに対して１００程度が算出されることになる。

そこで評価統合部１６０は、未知データを分解して得られた部分未知データについて、データ評価部１５０が算出したスコアを統合した統合スコアを生成する。具体的には、評価統合部１６０は、未知データを分解して得られた部分未知データについて、データ評価部１５０が算出したスコアを、未知データごとに統合した統合スコアを統合指標として生成してもよい。

訓練データ中にデータ要素と関係するとデータ分析装置１００によって判断されたデータ要素が、出力部１７０によってユーザに通知された後、関係性評価部１２０は、当該判断に対するフィードバックを図示しないユーザインタフェースを介してユーザから受け付けることができる。すなわち、ユーザは、データ分析装置１００によって判断された結果が妥当であるか否かを、上記フィードバックとしてそれぞれ入力できる。

なお関係性評価部１２０は、上記フィードバックに基づいて各データ要素を再評価できる。具体的には、関係性評価部１２０は、以下の式にしたがって各データ要素の重みを算出する。

ここで、ｗ_ｉ,ＬはＬ回目学習後のｉ番目のデータ要素の重みを表し、γ_ＬはＬ回目学習における学習パラメータを表し、θは学習効果の閾値を表す。

すなわち、関係性評価部１２０は、データ分析装置１００の判断に対して新たに得られたフィードバックに基づいて重みを再計算できる。これにより、データ分析装置１００は、分析の対象とするデータに適合した重みを獲得し、当該重みに基づいて正確にスコアを算出できるため、より高い精度で訓練データのデータ要素と関係する未知データのデータ要素を抽出できる。

図３は、実施の形態に係る評価統合部１６０の内部構成を模式的に示す図である。実施の形態に係る評価統合部１６０は、整列部１６２とスコア合算部１６４とを備える。

一般に、特許の無効資料調査や先行技術調査を実施する場合、一つの文献全体にわたって訓練データと関係性の強い開示事項が見つかることはまれである。多くの場合は、文献データ全体のうちいくつかの段落ないし部分未知データについて、訓練データと関係性の高い開示事項が見つかる。したがって、ある未知データに含まれるほとんどの部分未知データについてのスコアが小さい値であっても、少数の部分未知データについてのスコアが大きい場合には、その未知データは訓練データと関係性が強いと判断してもよい。

そこで整列部１６２は、未知データを分解して得られた部分未知データに対するデータ評価部１５０による評価結果を、未知データごとに例えば降順でソートする。スコア合算部１６４は、整列部１６２がソートしたスコアを、大きい順に所定数のスコアを合算した値を、統合スコアとして生成する。

ここで「所定の数」とは、スコア合算部１６４が統合スコアを生成する際に参照する、各部分未知データの加算基準数である。「所定の数」は、データ分析システム１が適用対象とする事案を勘案して実験により定めればよいが、例えば「１０」である。所定の数が１０の場合、スコア合算部１６４は、各未知データについて、その未知データに含まれる部分未知データのスコアを、大きい順に１０個合算して得られる値を統合スコアとして生成する。

なお、所定の数は１０に限られない。例えば所定の数が１の場合には、スコア合算部１６４は、各未知データに含まれる部分未知データのスコアのうち、最大のスコアを、その未知データの統合スコアとして算出することになる。また、所定の数として「各未知データの項目数」を設定した場合、スコア合算部１６４は、各未知データに含まれる部分未知データのスコアの総和を統合スコアとして算出してもよい。この場合、各未知データが含む部分未知データの数の相違を吸収するために、スコア合算部１６４は、各未知データに含まれる部分未知データのスコアの総和を部分未知データの数で除算した値、すなわち、部分未知データのスコアの平均値を、統合スコアとして算出してもよい。

図４は、実施形態に係るデータ分析システム１の性能を評価した結果を示すグラフであり、データ分析システム１を特許無効調査に適用した結果を示すグラフである。当該グラフの横軸は、正規化ランク（未知データに対して算出されたスコアの高い順に付けた順位を、０〜１の範囲に正規化したランク）を示し、縦軸は、再現率（Recall Rate；抽出されたデータの網羅性を示す指標を示す。図４に示す例においては、データ分析システム１は、（１）所与の登録特許における特許請求の範囲の記載、および（２）数千件の未知の特許文献からランダム抽出したおよそ数百件の特許文献の記載を抽出し、上記（１）に正解ラベル（分類情報）を対応付け、上記（２）に不正解ラベル（分類情報）を対応付けることによって準備される各訓練データを用いて学習している。図４に示す再現率の例において、横軸は評価統合部１６０が生成した統合スコアが０．０〜１．０の範囲となるように正規化した正規化ランクを示している。この正規化ランクは、値が小さいほど強い関係性（すなわち、スコアが高いこと）を示している。

図４に示す例において、実線で示すグラフは、スコア合算部１６４が各未知データについて、その未知データに含まれる部分未知データのスコアを、大きい順に１０個合算して得られる値を統合スコアとして生成した場合の例（以下、「第１例」という。）を示している。また図４において破線で示すグラフは、スコア合算部１６４が各未知データに含まれる部分未知データのスコアのうちの最大のスコアを、その未知データの統合スコアとして算出した場合の例（以下、「第２例」という。）を示している。さらに、図４において２点鎖線で示すグラフは、未知データを部分未知データに分割することなく、データ評価部１５０が評価した場合の例（以下、「第３例」という。）を示している。

図４に示すように、第２例においては、正規化ランクがおよそ０．４弱のときに、全ての無効資料が見つかっている。つまり、数千件の未知データを正規化ランクに基づいて整列すると、およそ上位４０％弱の中に全ての無効資料が入っていることを示している。第１例においては、正規化ランクが０．２強のときに、全ての無効資料が全て見つかっている。つまり、数千件の未知データを正規化ランクに基づいて整列すると、およそ上位２０％の中に全ての無効資料が入っていることを示している。図４から、部分未知データのスコアの最大値を統合スコアとして採用するよりも、スコアの上位１０個の総和を統合スコアとする方が、データ分析システム１の性能がよくなることを示している。

また、第３例においては、正規化ランクがおよそ０．５のときに、全ての無効資料が全て見つかっている。すなわち、数千件の未知データの半数を調査することで、全ての無効資料が始めて出現することを示している。

人手で無効資料調査をする場合を考える。仮に、一人の人間が一つの特許文献に目を通して、その文献が所与の特許請求の範囲の記載と関連するか否かを判断するために、平均で３０秒の時間を要するとする。この場合、例えば５０００件の特許文献を全て調査するためには、２５００分（およそ１．７日）の時間を要する。当然ながら一人の人間が無効資料調査する場合には休憩時間も必要とするため、実際にはさらに時間を要することになる。また、複数の人間で手分けして無効資料調査する場合には、人によって判断の基準にずれが生じかねない。

実施の形態に係るデータ分析システム１は、関係性評価部１２０の評価結果に基づいて、全ての未知データについて同一の基準によって訓練データ（すなわち無効化対象とする特許請求の範囲の記載）との関係性を判断する。このため、人手による調査と比較して文献による関係性の判断のぶれを抑制することができる。さらに、データ分析システム１を用いることにより、５分程度の時間で調査すべき文献を２０％〜４０％に減らすことができる。このため、特許調査にかかるユーザの負担を大幅に軽減することができる。

図５は、実施形態に係るデータ分析システム１の性能を評価した結果を示すグラフであり、データ分析システム１を先行技術文献調査に適用した結果を示すグラフである。図５に示す例は、あらかじめユーザが作成した先行技術調査の対象とする発明の要約を訓練データの正解データとし、数千件の未知の特許文献からランダム抽出した数百件の特許文献を不正解データとした場合の再現率を示している。数千件の未知の特許文献には、あらかじめ人手で抽出した数件の先行技術文献が含まれている。

図５に示す例において、実線で示すグラフは、スコア合算部１６４が各未知データについて、その未知データに含まれる部分未知データのスコアを、大きい順に１０個合算して得られる値を統合スコアとして生成した場合の例（以下、「第４例」という。）を示している。また図４において破線で示すグラフは、スコア合算部１６４が各未知データに含まれる部分未知データのスコアのうちの最大のスコアを、その未知データの統合スコアとして算出した場合の例（以下、「第５例」という。）を示している。

図５に示すように、第５例においては、正規化ランクが０．２弱のときに、数件の先行技術文献が全て出現している。つまり、数千件の未知データを正規化ランクに基づいて整列すると、上位２０％弱の中に全ての先行技術文献が入っていることを示している。第４例においては、正規化ランクがおよそ０．１のときに、数件の先行技術文献が全て見つかっている。つまり、数千件の未知データを正規化ランクに基づいて整列すると、上位１０％の中に全ての先行技術文献が入っていることを示している。図４および図５から、部分未知データのスコアの最大値を統合スコアとして採用するよりも、スコアの上位１０個の総和を統合スコアとする方が、データ分析システム１の性能がよくなることを示している。しかしながら、いずれにしてもデータ分析システム１を用いることにより、ユーザの先行技術文献の負担を大幅に減らすことができる。

図６は、実施の形態に係るデータ分析装置１００が実行するデータ分析処理の流れを説明するフローチャートである。本フローチャートにおける処理は、例えばデータ分析装置１００が起動したときに開始する。

実施の形態に係るデータ分析装置１００が実行するデータ分析処理は、大きく分けて学習過程Ｓ１００と分析過程Ｓ２００とに分かれる。まず学習過程Ｓ１００において、訓練データのデータ要素と分類情報との関係性が評価される。その後、分析過程Ｓ２００において、学習過程Ｓ１００の評価結果に基づいて、分析対象とする複数の未知データそれぞれについて、訓練データとの関係性が分析される。以下、学習過程Ｓ１００と分析過程Ｓ２００とのそれぞれについてより詳細に説明する。

学習過程Ｓ１００は、以下に述べるデータ取得ステップＳ１１０、Ｓ１２０、データ要素抽出ステップＳ１３０、関係性評価ステップＳ１４０、および評価格納ステップＳ１５０を含む。

データ取得部１１０は、訓練データを取得する（Ｓ１１０）。データ取得部１１０はまた、訓練データを分類する分類情報を取得する（Ｓ１２０）。データ取得部１１０が取得する訓練データと分類情報との組み合わせが、訓練データセットとなる。

関係性評価部１２０は、データ取得部１１０が取得した訓練データに含まれるデータ要素を抽出する（Ｓ１３０）。関係性評価部１２０はまた、抽出したそれぞれのデータ要素と分類情報との関係性を評価する（Ｓ１４０）。評価格納部１３０は、関係性評価部１２０の評価結果を、評価したデータ要素と対応付けて記憶部２００中の評価記憶部２２０に格納する（Ｓ１５０）。評価格納部１３０が評価記憶部２２０に格納した評価結果が、分析過程Ｓ２００において参照される。

分析過程Ｓ２００は、データ取得ステップＳ２１０、未知データ生成ステップＳ２２０、データ評価ステップＳ２３０、およびスコア統合ステップＳ２４０を含む。

データ取得部１１０は、文書データ記憶部２１０に格納された複数の未知データを取得する（Ｓ２１０）。部分データ生成部１４０は、データ取得部１１０が取得した複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する（Ｓ２２０）。データ評価部１５０は、記憶部２００中の評価記憶部２２０に格納された評価結果に基づいて、部分未知データそれぞれと訓練データとの関係性を示すスコアを算出する（Ｓ２３０）。評価統合部１６０は、未知データを分解して得られた部分未知データについてデータ評価部１５０が算出したスコアを、未知データごとに統合した統合スコアを生成する（Ｓ２４０）。

図７は、実施の形態に係る評価統合部１６０が実行する統合スコア生成処理の流れを説明するフローチャートであり、図６におけるスコア統合ステップＳ２４０の処理をより詳細に説明する図である。評価統合部１６０が実行する統合スコア生成処理は、未知データ選択ステップＳ２４２、指標ソートステップＳ２４４、およびスコア合算ステップＳ２４６を含む。

整列部１６２は、文書データ記憶部２１０に格納されている未知データの中から一つの未知データを選択する（Ｓ２４２）。整列部１６２は、選択した未知データから分割された部分未知データについてデータ評価部１５０が評価したスコアを降順または昇順でソートする（Ｓ２４４）。

スコア合算部１６４は、整列部１６２がソートしたスコアを、大きい順に所定数のスコアを合算し、統合スコアとする（Ｓ２４６）。整列部１６２は、文書データ記憶部２１０に格納されている全ての未知データを選択し終わるまでの間（Ｓ２４８のＮｏ）、上述した未知データ選択ステップＳ２４２、指標ソートステップＳ２４４、およびスコア合算ステップＳ２４６の処理を継続する。整列部１６２が文書データ記憶部２１０に格納されている全ての未知データを選択し終わると（Ｓ２４８のＹｅｓ）、本フローチャートにおける処理は終了する。

以上説明したように、実施の形態に係るデータ分析システムは、調査の目的とする訓練データと、調査対象とする複数の未知データの中から取得した所定数の未知データとを含むデータを学習データとして学習する。この学習過程において、関係性評価部１２０は、訓練データの内のデータ要素と、未知データの内のデータ要素との関係性を評価し、評価したデータ要素と対応づけて記憶部２００に格納する。この評価結果を用いて複数の未知データ全てについて訓練データとの関係性を示すスコアを算出する。これにより、一定の基準で機械的に未知データを分析することが可能となり、大量の未知データの中から特定の思想や事案等を記載したデータと関係するデータを見つけ出すことを支援することができる。

特に、実施の形態に係るデータ分析システム１は、特許の無効資料調査や特許出願前の先行技術調査が主な適用先として想定されている。特許文献は、一般に、段落や特許請求の範囲等の複数の項目を含む所定の書式にしたがって作成された文書データである。部分データ生成部１４０は、特許文献における項目を単位として未知データを分割し、部分未知データを生成する。これにより、分析対象のデータの構造を利用した分析が可能となり、データ分析の精度を向上することができる。

［付記事項］
本発明は上述したそれぞれの実施の形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施の形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施の形態についても、本発明の技術的範囲に含まれる。さらに、各実施の形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成できる。

本発明の一態様に係るデータ分析システム１において、関係性評価部１２０は、データ要素と当該データ要素を含む既判断データに対してユーザが判断した結果（分類情報）との依存関係を表す指標（例えば、伝達情報量）を、所定の基準の１つとして、当該データ要素を評価することができる。

本発明の一態様に係るデータ分析システム１は、未知データの出願人、権利者、発明者、著者（以下、「権利所持者等」という。）のうちいずれに関連するものであるかを示す権利所持者等特定情報を設定し、権利所持者等を指定し、指定された権利所持者等に対応する権利所持者等特定情報が設定された所定のファイルを検索し、検索された所定のファイルが、調査の目的とする技術に関連するものであるか否かを示す付帯情報を設定し、付帯情報に基づいて、調査の目的とする技術に関連する所定のファイルを出力する。

本発明の一態様に係るデータ分析システム１は、データに対して、調査の目的とする技術（すなわち訓練データに記載された技術）との関係性を示す分別符号を付与するために、ユーザから分別符号の入力を受け付け、データを分別符号ごとに分別し、分別されたデータにおいて共通して出現するデータ要素を解析・選定し、選定されたデータ要素をデータから探索し、探索した結果と、データ要素を解析した結果とを用いて、分別符号とデータとの関係性を示すスコアを算出し、算出したスコアに基づいて、データに分別符号を付与する。

本発明の一態様に係るデータ分析システム１は、記憶部２００に、（１ａ）分別符号（分類情報）Ａ、（１ｂ）分別符号Ａが付与されたデータに含まれるデータ要素、（１ｃ）分別符号Ａとデータ要素との対応関係を示すデータ要素対応情報、（２ａ）分別符号Ｂ、（２ｂ）分別符号Ｂが付与されたデータにおいて出現頻度が高い関連データ要素、（２ｃ）分別符号Ｂと関連データ要素との対応関係を示す関連データ要素対応情報が保存されており、上記（１ｃ）のデータ要素対応情報に基づいて、上記（１ｂ）のデータ要素を含むデータに対して分別符号Ａを付与し、分別符号Ａを付与しなかったデータから、上記（２ｂ）の関連データ要素を含むデータを抽出し、関連データ要素の評価値・数に基づいてスコアを算出し、そのスコアと上記（２ｃ）の関連データ要素対応情報に基づいて、スコアが一定値を超過したデータに分別符号Ｂを付与し、分別符号Ｂを付与しなかったデータに対して、ユーザから分別符号Ｃの付与を受け付ける。

本発明の一態様に係るデータ分析システム１は、ユーザが調査の目的とする技術に関連するか否かを判断するためのデータ要素をデータベースに登録し、データベースに登録されたデータ要素をデータから検索し、検索されたデータ要素を含むセンテンスを、データから抽出し、抽出されたセンテンスから抽出される特徴量により、調査の目的とする技術との関連度合いを示すスコアを算出し、スコアに応じてセンテンスの強調の程度を変化させる。

本発明の一態様に係るデータ分析システム１は、ユーザによる調査の目的とする技術との関係性判断の結果、または関係性判断の進捗速度を実績情報として記録し、結果または進捗速度に関する予測情報を生成し、実績情報および予測情報を比較し、比較結果に基づいて、ユーザの関係性判断に対する評価を呈示するアイコンを生成する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術と未知データとの関係性を示す結果情報について、ユーザから入力を受け付け、データに共通して出現するデータ要素の特徴から、そのデータ要素の評価値を結果情報ごとに算出し、評価値に基づいてデータ要素を選定し、選定されたデータ要素とその評価値とから、データのスコアを算出し、スコアに基づいて再現率を算出する。

本発明の一態様に係るデータ分析システム１は、データをユーザに対して表示し、レビューの対象データに対して、ユーザが調査の目的とする技術に関連するか否かの判断に基づいて付与した識別情報（タグ）を受け付け、タグを受け付けた対象データの特徴量と、データの特徴量とを比較し、比較結果に基づいて、所定のタグに対応するデータのスコアを更新し、更新されたスコアに基づいて、表示されるデータの表示順番を制御する。

本発明の一態様に係るデータ分析システム１は、ソースコードが更新された際には、更新されたソースコードを記録し、記録されたソースコードから実行可能ファイルを作成し、実行可能ファイルを検証するために実行し、実行した検証結果を送信し、検証結果の配信をサーバが受け付ける。なお、ソースコートは例えば、Ruby、Perl、Python、ActionScript、JavaScript（登録商標）などのスクリプト言語、C++、Objective-C、Java（登録商標）などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。

本発明の一態様に係るデータ分析システム１は、ユーザが調査の目的とする技術との関係性について判断するデータと、データを分類するための分類条件をユーザに選択させるための分類ボタンとを表示し、ユーザが選択した分類ボタンに関する情報を選択情報として受け付け、選択情報に基づいてデータを分析した結果によってデータを分類し、分類した結果に基づいてデータを表示する。

本発明の一態様に係るデータ分析システム１は、音声・画像データの付帯情報をそれぞれ確認し、付帯情報に基づいて音声・画像データを分類し、分類した音声・画像データの付帯情報に含まれる要素を抽出し、抽出した要素に基づいて類似度を解析し、類似度に基づいて統合して解析する。なお音声データは、既知の音声認識技術を用いて文字情報に変換してもよい。

本発明の一態様に係るデータ分析システム１は、パスワードで保護されたパスワード付ファイルを抽出し、パスワードの候補となる候補単語が登録された辞書ファイルを用いて、パスワード付ファイルに対して候補単語を入力し、パスワード解除済ファイルに対して、ユーザが行った調査の目的とする技術との関係性の判断結果を受け付ける。

本発明の一態様に係るデータ分析システム１は、バイナリ形式の検索対象ファイルのデータを、複数のブロックに分割し、ブロックのデータを、バイナリ形式の検索先ファイルから検索し、検索された結果を出力する。

本発明の一態様に係るデータ分析システム１は、調査対象となる対象デジタル情報を選択し、特定事項と関係性を有する複数の単語の組み合せを格納し、選択された対象デジタル情報の中に、格納されている複数の単語の組み合せが含まれているか否かを検索し、含まれている場合、形態素解析の結果に基づいて、対象デジタル情報の特定事項との関係性を判断し、判断結果を対象デジタル情報に対応づける。

本発明の一態様に係るデータ分析システム１は、画像情報・音声情報から画像群・音声群を抽出し、画像群・音声群に分別符号を付与するために、ユーザから分別符号の入力を受け付け、画像群・音声群を分別符号ごとに分別し、分別された画像群・音声群において共通して出現するデータ要素を解析・選定し、選定したデータ要素を、画像情報・音声情報から探索し、探索した結果とデータ要素を解析した結果とを用いて、スコアを算出し、算出したスコアに基づいて、画像情報・音声情報に分別符号を付与し、スコアの算出結果および分別結果を画面に表示し、再現率と規格化順位との関係に基づいて、再確認に必要な画像数・音声数を算出する。

本発明の一態様に係るデータ分析システム１は、記憶部２００に、（１ａ）分別符号Ａ、（１ｂ）分別符号Ａが付与されたデータに含まれるデータ要素、（１ｃ）分別符号Ａとデータ要素との対応関係を示すデータ要素対応情報、（２ａ）分別符号Ｂ、（２ｂ）分別符号Ｂが付与されたデータにおいて出現頻度が高い関連データ要素、（２ｃ）分別符号Ｂと関連データ要素との対応関係を示す関連データ要素対応情報が保存されており、上記（１ｃ）のデータ要素対応情報に基づいて、上記（１ｂ）のデータ要素を含むデータに対して分別符号Ａを付与し、分別符号Ａを付与しなかったデータから、上記（２ｂ）の関連データ要素を含むデータを抽出し、関連データ要素の評価値・数に基づいてスコアを算出し、そのスコアと上記（２ｃ）の関連データ要素対応情報に基づいて、スコアが一定値を超過したデータに分別符号Ｂを付与し、分別符号Ｂを付与しなかったデータに対して、医師から分別符号Ｃの付与を受け付け、分別符号Ｃを付与されたデータを解析し、解析した結果に基づいて、分別符号が付与されていないデータに対して分別符号Ｄを付与する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術との関係性を示すスコアを部分未知データごとに算出する。算出したスコアに基づいて所定の順序でデータを抽出し、抽出されたデータに対して、ユーザが調査の目的とする技術との関係性に基づいて付与した分別符号を受け付け、分別符号に基づいて、抽出されたデータを分別符号ごとに分別し、分別されたデータにおいて、共通して出現するデータ要素を解析・選定し、選定したデータ要素をデータから探索し、探索結果と解析結果とを用いて、スコアをデータごとに再度算出する。

本発明の一態様に係るデータ分析システム１は、調査基礎データベース（不図示）に、調査の目的とする技術に関連する情報が格納されており、調査の目的とする技術のカテゴリの入力を受け付け、受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、調査基礎データベースから必要な情報の種類を抽出する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術に関して、案件ごとの分別作業結果を含む案件調査結果を収集し、調査の目的とする技術に関して調査するための調査モデルパラメータを登録し、新たな調査案件の調査内容が入力されると、登録された調査モデルパラメータを検索して、入力情報に関連した調査モデルパラメータを抽出し、抽出した調査モデルパラメータを用いて調査モデルの出力を行い、調査モデル出力結果から新たな調査案件の調査を実施するための事前情報を構成する。

本発明の一態様に係るデータ分析システム１は、権利所持者等に関する情報を取得し、その情報に基づいて、一定時間ごとに、更新されたデジタル情報を取得し、取得されたデジタル情報に関する、記録先情報、ファイル名、メタデータに基づいて、取得されたデジタル情報を構成する複数のファイルを、所定の保存場所に整理し、整理された複数のファイルの状況を、デジタル情報にアクセスした権利所持者等の状況が把握できるよう可視化した状況分布を作成する。権利所持者等に関する情報には、新たに公開された権利所持者等の特許出願や、新たに登録された特許権の情報、新たに公開された論文の情報等も含まれる。

本発明の一態様に係るデータ分析システム１は、デジタル情報に関連付けられているメタデータを取得し、特定事項と関係を有する第１デジタル情報とメタデータとの関係に基づいて、重みづけパラメーターセットを更新し、重みづけパラメーターセットを用いて、形態素とデジタル情報との関係性を更新する。

本発明の一態様に係るデータ分析システム１は、対象データに対して手動で付与された分別符号を受け付け、対象データの関係性スコアを計算し、関係性スコアに基づいて、分別符号の正誤を判断し、正誤判断の結果に基づいて、対象データに付与すべき分別符号を決定する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術が属するカテゴリの入力を受け付け、受け付けたカテゴリに基づいて調査を行い、調査の結果を報告するための報告書を作成し、調査基礎データベースに、調査の目的とする技術に関連する情報を格納し、受け付けたカテゴリに基づいて、調査の対象とする調査カテゴリを判定し、必要な情報の種類を調査基礎データベースから抽出し、抽出した情報の種類を医師に提示し、提示された情報の種類に対応した、分別符号の付与に利用されるデータ要素の入力を、医師から受け付け、データに対して自動で分別符号を付与する。

本発明の一態様に係るデータ分析システム１は、主体の公開情報を取得し、公開情報を分析し、主体の外的要素を出力し、特定の振る舞いをした行動主体の行動外的要素に基づいた行動発生モデルを格納し、主体の外的要素から行動発生モデルに適合する行動要因を抽出して格納し、主体の内部情報を取得し、内部情報を分析し、主体の内的要素を出力し、内的要素と行動要因との類似性に基づいて、解析対象を自動で特定する。

本発明の一態様に係るデータ分析システム１は、デジタル情報と特定事項との関係性を示す関係性情報をユーザから取得し、デジタル情報と特定事項との関連に応じて決定される関係性スコアを、デジタル情報ごとに算出し、関係性スコアの所定の範囲ごとに、各範囲に含まれる関係性スコアを有するデジタル情報の総数に対して、その範囲に含まれるデジタル情報に付与された関係性情報の数の比率を算出し、各範囲のそれぞれに対応づけられた複数の区画を、比率に基づいて色相、明度、または彩度を変化させて表示する。

本発明の一態様に係るデータ分析システム１は、データと分別符号との結びつきの強さを示すスコアを時系列的に算出し、算出されたスコアから、スコアの時系列的な変化を検出し、検出されたスコアの時系列的な変化を判定するに際し、所定の基準値を超えたスコアの変化した時期を判定した結果に基づいて、調査案件と抽出されたデータの関連度を調査判定する。

本発明の一態様に係るデータ分析システム１は、特定事項と関係性を有するものであって、共起表現を含む複数のデータ要素に対応づけられる重み付け情報を格納し、デジタル情報にスコアを対応づけ、スコアに基づいて、デジタル情報から標本となる標本デジタル情報を抽出し、抽出された標本デジタル情報を解析することで、重み付け情報を更新する。

本発明の一態様に係るデータ分析システム１は、複数のデータに含まれるそれぞれのデータを分類可能な指標であるカテゴリを選択し、スコアをカテゴリごとに算出する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術を、当該所定の行為の進展（例えば特許審査状況、請求項の補正、訂正状況など）に応じて分類するフェーズを、スコアに基づいて特定し、フェーズの時間的な遷移に基づいて、特定されたフェーズの変化を推定する。

本発明の一態様に係るデータ分析システム１は、動作を表す動詞が音声に含まれる場合、動作の対象を表す目的語を特定し、動詞および目的語を含む音声の属性を示すメタデータと、その動詞および目的語とを関連付け、関連付けに基づいて、音声と症状との関係性を評価し、症状に関連する複数の人物の関係性を表示する。

本発明の一態様に係るデータ分析システム１は、データ群に含まれるデータが、データ群と調査の目的とする技術との関連度を示す分別符号と結びつく強さを示すスコアを算出し、算出されたスコアに応じて、そのスコアをユーザに報告し、調査の目的とする技術の調査種類（例えば、無効調査や先行技術調査等の種類）に応じて、調査レポートを出力する。

本発明の一態様に係るデータ分析システム１は、データ（例えば、請求項の文言）に含まれるセンテンスに所定のデータ要素が含まれるか否かを示すデータ要素ベクトルを、センテンスごとに生成し、データ要素ベクトルを、所定のデータ要素と他のデータ要素との相関を示す相関マトリクスにそれぞれ乗じることによって、センテンスごとに相関ベクトルを得、全ての相関ベクトルについて合算した値に基づいて、スコアを算出する。

本発明の一態様に係るデータ分析システム１は、調査の目的とする技術と関係するか否かがユーザによって分別された分別データに含まれるデータ要素の重みづけを学習し、調査の目的とする技術と関係するか否かがユーザによって未だ分別されていない未分別データから、分別データに含まれるデータ要素を探索し、探索されたデータ要素と学習されたデータ要素の重みづけを用いて、未分別データと分別符号との結びつきの強さを評価したスコアを算出する。このとき、データ分析システム１は、データを要約可能な概念（オントロジ）を抽出することができる。例えば、データ分析システム１は、選択された対象概念ごとに、その下位概念のキーワードをそれぞれ対応する対象概念にマッピングしたデータベースを、訓練データを分析することによって作成し、データ（未知データ、部分未知データなど）に対して形態素分析を実行し、上記データベースを参照して当該データの内容に対応する対象概念を抽出することができる。これにより、データ分析システム１は、訓練データを構成するデータ要素と、未知データ（または部分未知データ）を構成するデータ要素とが互いに異なる場合であっても、両者の概念が共通する場合であれば、当該未知データ（または部分未知データ）を高く評価する（すなわち、データに含まれる意味・概念を考慮したデータ評価を可能にする）ことができる。さらに、データ分析システム１は、当該抽出した結果に基づいて当該データをクラスタリングし、分類結果の全体像（要約）をユーザに提示してよい。

上記実施の形態においては、データ分析システム１が「特許調査システム」として実現される例（すなわち、データ分析システム１が分析する対象が、特許文献等である例）を説明したが、データ分析システム１は、以下にも適用することができる。

また、データ分析システム１は、インターネット応用システムに適用することもできる。この場合、当該インターネット応用システムは、訓練データ（例えば、ユーザがＳＮＳに投稿したメッセージ、ウェブサイトに掲載されたお勧め情報、ユーザまたは団体のプロフィールなど）と所定の事案（例えば、当該ユーザの嗜好と他のユーザの嗜好とが類似していること、当該ユーザの嗜好とレストランの属性とが一致していることなど）を示す分類情報との関連性を評価することによって、例えば、当該ユーザと気の合いそうな他のユーザを一覧表示させたり、当該ユーザの嗜好に合ったレストランの情報を提示したり、当該ユーザに危害を与えかねない団体を警告したりすることができる。これにより、インターネット応用システム（データ分析システム１）は、インターネットの利便性を向上させることができる。

また、データ分析システム１は、ドライビング支援システムに適用することもできる。この場合、当該ドライビング支援システムは、訓練データ（例えば、車載センサ・カメラ・マイクなどから取得されるデータ）と所定の事案（例えば、熟練ドライバによる運転中に、当該熟練ドライバが着目した情報など）を示す分類情報との関連性を評価することによって、例えば、運転を安全・快適にし得る有用な情報を自動的に抽出することができる。

また、データ分析システム１は、金融関連システムに適用することもできる。この場合、当該金融関連システムは、訓練データ（例えば、銀行に対する届け出書類、株価の時価など）と所定の事案（例えば、不正目的のおそれがあること、株価が上昇すること）を示す分類情報との関連性を評価することによって、例えば、不正目的を有する届け出を摘発したり、将来の株価を予測したりすることができる。

さらに、データ分析システム１は、実績評価システムにも適用することができる。この場合、当該実績評価システムは、訓練データ（例えば、営業部員が会社に提出する日報、コンサルタントが顧客に提出する分析資料）と所定の事案（例えば、当該営業部員が販売実績を上げること、当該コンサルタントから顧客から評価されること）を示す分類情報との関連性を評価することによって、例えば、営業部員・コンサルタントの人事評価を行ったり、プロジェクトの成否を評価したりすることができる。

例えば、医療応用システム（電子カルテ、看護記録、患者の日記などをデータとして、傷病者の特定の危険行動を起こすか否かを推定するシステム）に適用できる。この場合、医療応用システムは、訓練データ（例えば、電子カルテ、看護記録、患者の日記など）に含まれるデータ要素を抽出し、当該データが患者の特定の危険行動と結びつくか否か、に基づいて未知データを評価する。このとき、訓練データについて、患者の特定の危険行動と結びつくデータであるかあるいはそうではないデータであるかの判断をユーザが入力してもよい。

そして、データ評価部１５０は、未知データ（例えば、電子カルテ、看護記録、患者の日記など）に含まれるデータ要素）の評価結果に基づいて患者の特定の危険行動の推測を行うことができる。このとき、部分データ生成部１４０が未知データを部分未知データに細分化し、データ評価部１５０が、各部分未知データについて評価する。

また、データ分析システム１は、メール監査システムに適用することもできる。この場合、メール監査システムは、（例えば、ネットワーク上を日々流通する電子メールをデータとし）ユーザがその内容から、当該電子メールの作成者が組織に対して不満を感じているか否か（あるいは、不正を行う可能性があるか否か）の評価を行う。

そして、部分データ生成部１４０は、未知データ（例えば、新たな電子メール）を、部分未知データに細分化する。データ評価部１５０は、各部分未知データを評価する。これによって、例えば、会社内において、メールを作成した社員が、会社に対して不平、不満を感じているか否か（あるいは不正を働きそうか）を推測して、社員による不正行為（例えば、情報漏洩）のリスクを未然に防止することができる。また、その際には、未知データの作成者が不平、不満を感じていると評価された未知データが、何に対して不平、不満（例えば、報酬に対する不満、労務環境に対する不満など）を感じているのかについて、クラスタリングすることにより、例えば、「不平・不満を表現していない：９２％、報酬に対する不満を表現している：３％、労務環境に対する不満を表現している：２％、その他：３％」というように、不平・不満を表現するメールが占める割合を可視化することができる。さらに、未知データを細分化して評価することにより、きめ細やかな分析が可能となる。

また、更には、電子メールについては、当該電子メールに含まれる感情表現に基づいて、人物相関図の作成にも利用することができる。例えば、ある組織内部において、立場が下位の者から上位の者に対して電子メールを送信する際には、ネガティブな内容を含むメールを送信しにくい一方で、立場が上位の者から下位の者に対して電子メールを送信する際には、比較的送信しやすいことから、感情分析の結果と電子メールの送信者と宛先とから、組織内のメンバーの上下関係を推測することができる。上記データ分析システム１は、そのために当該相関関係を推定する推定部を含んで良い。例えば、推定部は、Ａという人物からＢという人物に対して送信された所定数の電子メールから、データ要素を抽出して、電子メールを作成したユーザＡの感情を肯定的なものが多いか、否定的なものが多いかを検出する。そして、推定部は、肯定的なものが多いと検出された場合にはＡという人物はＢという人物よりも立場的に下位の人物であると推定し、肯定的なものが多いと検出された場合にはＡという人物はＢという人物よりも立場的に上位の人物であると推定する。

さらに、データ分析システム１は、実績評価システムにも適用することができる。この場合、当該実績評価システムは、分類情報（例えば、営業部員が会社に提出する日報、コンサルタントが顧客に提出する分析資料、何らかの企画についてのユーザアンケート）について肯定的か否定的かを評価し、分類情報に含まれる感情表現を示すデータ要素を評価する。そして、未分類情報として、例えば、店舗におけるユーザアンケートから感情分析を行って、店舗の運営状況（例えば、客が店員の接客態度に対する不満を抱いているか否か、商品の陳列状況に満足しているか否かなど）の判断材料にすることができる。
さらに、データ分析システム１は、知的財産評価システム、マーケティング支援システム、ドライビング支援システムなどにも適用することができる。

さらに、データ分析システム１は、ディスカバリー支援システムにも適用することができる。ディスカバリー支援システムは、例えば、訴訟関係者（カストディアン）から収集されたデータが本件訴訟に関係するか否かを、当該データに対してスコアを算出することによって序列化する（すなわち、データと本件訴訟との関係性を評価する）。

さらに、データ分析システム１は、フォレンジックシステムにも適用することができる。フォレンジックシステムは、例えば、容疑者（調査対象）から押収したデータが犯罪に関係するか否かを、当該データに対してスコアを算出することによって序列化する（すなわち、データと犯罪との関係性を評価する）。

このように、データ分析システム１は、特許調査システムだけでなく、フォレンジックシステム、ディスカバリー支援システム、医療応用システム、メール監査システム、インターネット応用システム、ドライビング支援システム、金融関連システム、実績評価システムなど、データと所定の事案との関連性を評価することによって目的を達成する任意のシステムに適用することができる。いずれの場合においても、データ分析システム１は、未知データの少なくとも一部を構成する部分未知データに分割し、訓練データに基づいて当該部分未知データに対してスコアを算出することによって、当該部分未知データおよび／または未知データを評価することができる。

特に、データ分析システム１は、複数のデータを含むデータ群を、「人間の思考および行動の結果によるデータの集合体」として捉え、例えば、人間の行動に関連する分析、人間の行動を予測する分析、人間の特定の行動を検知する分析、人間の特定の行動を抑制する分析などを行うことによって、データからパターンを抽出し、当該パターンと所定の事案との関連性を評価することができる。

１データ分析システム、１００データ分析装置、１１０データ取得部、１２０関係性評価部、１３０評価格納部、１４０部分データ生成部、１５０データ評価部、１６０評価統合部、１６２整列部、１６４スコア合算部、１７０出力部、１８０スコア算出部、２００記憶部、２１０文書データ記憶部、２２０評価記憶部。

本発明は、例えば、特許調査の負担を軽減することができるデータ分析技術に利用可能である。また、ディスカバリー支援システム、フォレンジックシステム、メール監査システム、インターネット応用システム、医療応用システム、実績評価システム、ドライビング支援システム、プロジェクト評価システムなど、多様なデータ分析技術に利用可能である。

上記課題を解決するために、本発明の一態様に係るデータ分析システムは、プロセッサが、データ分析プログラムを実行して、データを分類情報に基づいて分析するデータ分析システムであって、前記プロセッサは、訓練データと当該訓練データを分類する分類情報との組み合わせを設定し、前記訓練データに含まれるデータ要素と前記分類情報との関係性を評価し、データ分析の対象とする未知データを複数の部分に分割し、当該複数の部分の夫々を部分未知データとし、前記関係性の評価結果に基づいて、前記複数の部分未知データを夫々評価し、前記部分未知データの評価に基づいて前記未知データを評価する、ように構成されている。本発明はさらに、データ分析方法、データ分析のためのプログラム、及び、このプログラムが格納された記録媒体に関する。

本発明によれば、大量の未知データの中から特定の思想や事案等を記載したデータと関係するデータを見つけ出すことを支援する技術を提供することができる。

このように、データ分析システム１は、特許調査システムだけでなく、フォレンジックシステム、ディスカバリー支援システム、医療応用システム、メール監査システム、インターネット応用システム、ドライビング支援システム、金融関連システム、実績評価システムなど、データと所定の事案との関連性を評価することによって目的を達成する任意のシステムに適用することができる。いずれの場合においても、データ分析システム１は、未知データの少なくとも一部を構成する部分未知データに分割し、訓練データに基づいて当該部分未知データに対してスコアを算出することによって、当該部分未知データおよび／または未知データを評価することができる。
既述の実施形態によって、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得部と、訓練データに含まれるデータ要素と分類情報との関係性を評価する関係性評価部と、分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成部と、関係性評価部の評価結果に基づいて、部分未知データそれぞれを評価するデータ評価部とを備えるデータ分析システムが提供される。
データ評価部は、部分未知データと分類情報との関係性の強さを示すスコアを算出することによって、当該部分未知データそれぞれを評価してもよい。データ評価部による評価結果を統合した統合指標を生成する評価統合部をさらに備えてもよい。データ評価部は、部分未知データに含まれるデータ要素と分類情報との関係性が強い場合は、弱い場合と比較して値が大きくなるように、当該部分未知データと分類情報との関係性の強さを示すスコアを算出し、評価統合部は、データ評価部が算出したスコアを、大きい順に所定数合算した統合スコアを、統合指標値として生成してもよい。未知データは、複数の項目を含む所定の書式にしたがって作成された文書データであり、部分データ生成部は、項目を単位として未知データを分割し、部分未知データを生成してもよい。
さらに、既述の実施形態によれば、訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得ステップと、訓練データに含まれるデータ要素と分類情報との関係性を評価する関係性評価ステップと、分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成ステップと、関係性評価ステップによる評価結果に基づいて、部分未知データそれぞれを評価するデータ評価ステップと、をプロセッサが実行するデータ分析方法が提供される。

上記課題を解決するために、本発明の一態様に係るデータ分析システムは、データ分析用のプロセッサを備え、当該プロセッサが、データ分析プログラムを実行して、データを分析するデータ分析システムであって、前記プロセッサは、データに分類情報が組み合わされた訓練データを設定し、前記分類情報は、所定の事案と前記データとの関連性について入力されたものであり、前記訓練データに含まれるデータ要素と前記分類情報との関係性を評価し、データ分析の対象とする未知データを、夫々データ要素を有する、複数の部分に分割して、当該複数の部分の夫々を部分未知データとし、前記関係性の評価結果に基づいて、前記複数の部分未知データを夫々評価し、前記複数の部分未知データの評価を利用して前記未知データの前記所定事案に対する関連性の評価の程度が変化するように構成されている。本発明はさらに、データ分析方法、データ分析のためのプログラム、及び、このプログラムが格納された記録媒体に関する。

Claims

訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得部と、
前記訓練データに含まれるデータ要素と前記分類情報との関係性を評価する関係性評価部と、
分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成部と、
前記関係性評価部の評価結果に基づいて、前記部分未知データそれぞれを評価するデータ評価部とを備えるデータ分析システム。
前記データ評価部は、前記部分未知データと前記分類情報との関係性の強さを示すスコアを算出することによって、当該部分未知データそれぞれを評価する請求項１に記載のデータ分析システム。
前記データ評価部による評価結果を統合した統合指標を生成する評価統合部をさらに備える請求項１または２に記載のデータ分析システム。
前記データ評価部は、前記部分未知データに含まれるデータ要素と前記分類情報との関係性が強い場合は、弱い場合と比較して値が大きくなるように、当該部分未知データと前記分類情報との関係性の強さを示すスコアを算出し、
前記評価統合部は、前記データ評価部が算出したスコアを、大きい順に所定数合算した統合スコアを、前記統合指標として生成する請求項３に記載のデータ分析システム。
前記未知データは、複数の項目を含む所定の書式にしたがって作成された文書データであり、
前記部分データ生成部は、前記項目を単位として未知データを分割し、部分未知データを生成する請求項１から３のいずれか一項に記載のデータ分析システム。
訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得ステップと、
前記訓練データに含まれるデータ要素と前記分類情報との関係性を評価する関係性評価ステップと、
分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成ステップと、
前記関係性評価ステップによる評価結果に基づいて、前記部分未知データそれぞれを評価するデータ評価ステップとをプロセッサが実行するデータ分析方法。
訓練データと当該訓練データを分類する分類情報との組み合わせを複数含むデータセットを、訓練データセットとして取得するデータ取得機能と、
前記訓練データに含まれるデータ要素と前記分類情報との関係性を評価する関係性評価機能と、
分析の対象とする複数の未知データそれぞれを、各未知データの一部を構成する部分未知データに分割する部分データ生成機能と、
前記関係性評価機能による評価結果に基づいて、前記部分未知データそれぞれを評価するデータ評価機能とをコンピュータに実現させるデータ分析プログラム。