JPWO2015049769A1 - Data analysis system and method - Google Patents
Data analysis system and method Download PDFInfo
- Publication number
- JPWO2015049769A1 JPWO2015049769A1 JP2015540326A JP2015540326A JPWO2015049769A1 JP WO2015049769 A1 JPWO2015049769 A1 JP WO2015049769A1 JP 2015540326 A JP2015540326 A JP 2015540326A JP 2015540326 A JP2015540326 A JP 2015540326A JP WO2015049769 A1 JPWO2015049769 A1 JP WO2015049769A1
- Authority
- JP
- Japan
- Prior art keywords
- analysis
- metadata
- data
- hierarchy
- accuracy
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
データ分析システムは、入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、非構造データ取得部が取得した非構造データからメタデータを抽出し、抽出したメタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、入力した分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、階層管理メタデータを参照して分析用データを段階的に作成し、作成した分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、分析精度の向上に寄与したメタデータを含む重要カラムリストを作成するデータ分析部、および、データ分析部が作成した分析用データを参照し、分析精度を求める分析精度評価部を有する。The data analysis system extracts and extracts metadata from the non-structured data acquired by the non-structured data acquisition unit that acquires non-structured data corresponding to the structural data specified in the input analysis input information. The metadata extraction unit that creates the hierarchy management metadata indicating the hierarchical structure between the selected metadata, the target axis specified in the input analysis input information, and the hierarchy management metadata as the analysis result corresponding to the target analysis accuracy The analysis data is created step by step, and based on the created analysis data, an important column list is created that includes metadata that contributes to the improvement of analysis accuracy when the analysis accuracy exceeds the target analysis accuracy. And an analysis accuracy evaluation unit that obtains the analysis accuracy with reference to the analysis data created by the data analysis unit.
Description
本発明は、データ分析システム及びその方法に関し、特に非構造データを構造データと組み合わせたデータ分析システム及びその方法に関する。 The present invention relates to a data analysis system and method, and more particularly, to a data analysis system and method for combining unstructured data with structural data.
構造データに関連する非構造データを用いてデータ分析する技術が、特許文献1に記載されている。特許文献1の記載は、非構造データであるテキストデータから重要キーワードを抽出し、構造データから生成した階層構造の中から重要キーワードに基づいて、少なくとも一つの階層構造を集計キーとして選択し、選択された集計キーとキーワードとから作成した共起表に基づいて、テキストデータを集計し、集計キーに基づいて構造データを集計し、集計された構造データと集計されたテキストデータとを統合することにより、統合化データベースを作成する技術である。
従来から多様なデータが電子データとして管理されており、このような電子データは収集され、分析に用いられることが有用である。電子データには、構造情報をもつ構造データと、形式が定まらない非構造データがある。 Conventionally, various data are managed as electronic data, and it is useful that such electronic data is collected and used for analysis. Electronic data includes structural data having structural information and unstructured data whose format is not fixed.
特許文献1の技術は、共起関係を用いて、構造データと非構造データ(テキストファイル)を対応付けているが、対応付けた結果が持つ意味の分析には至っていない。
The technique of
データ分析では、何を目的に、どの程度の分析精度が求められるかが重要である。さもないと、分析結果が何を意味するかが不明になるからである。また、分析結果が意味するところを明確にするためには、より単純な(明快な)分析結果を得ることが必要である。 In data analysis, what is the purpose and what level of accuracy is required is important. Otherwise, it will be unclear what the analysis results mean. Moreover, in order to clarify the meaning of the analysis result, it is necessary to obtain a simpler (clear) analysis result.
開示するデータ分析システムは、入力した分析入力情報に指定された構造データに対応する非構造データを取得する非構造データ取得部、非構造データ取得部が取得した非構造データからメタデータを抽出し、抽出したメタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、入力した分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、階層管理メタデータを参照して分析用データを段階的に作成し、作成した分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、分析精度の向上に寄与したメタデータを含む重要カラムリストを作成するデータ分析部、および、データ分析部が作成した分析用データを参照し、分析精度を求める分析精度評価部を有する。 The disclosed data analysis system extracts metadata from the non-structured data acquired by the non-structured data acquisition unit that acquires non-structured data corresponding to the structural data specified in the input analysis input information. A metadata extraction unit for creating a hierarchical management metadata indicating a hierarchical structure between the extracted metadata, a hierarchical management metadata as an analysis result corresponding to the target axis and target analysis accuracy specified in the input analysis input information Analytical data is created step by step, and based on the created analytical data, an important column list that includes metadata that contributes to improving analytical accuracy when the analytical accuracy exceeds the target analytical accuracy And a data analysis unit that creates an analysis accuracy by referring to the data for analysis created by the data analysis unit.
本発明によれば、データ分析システムは、より単純な(明快な)分析結果を出力することができる。 According to the present invention, the data analysis system can output a simpler (clear) analysis result.
以下、図面を用いて本発明の実施形態を説明する。 Hereinafter, embodiments of the present invention will be described with reference to the drawings.
図1に、データ分析システム(以下、分析システム)の構成例を示す。分析システムは、入力した分析入力情報10に指定された構造データ16に対応する非構造データを取得する非構造データ取得部11、非構造データ取得部11が取得した非構造データから、各種辞書などを用いてメタデータを抽出し、抽出したメタデータ間の階層構造を作成し、階層管理メタデータ17を作成するメタデータ抽出部12、構造データ16や階層管理メタデータ17を入力し、階層管理メタデータ17を参照し、分析用データ18を段階的に作成しながら、入力した分析入力情報10に指定された目的軸及び分析精度に対応する分析結果として精度向上率管理テーブル19及び重要カラムリスト20を作成するデータ分析部13、データ分析部13が作成した分析用データ18を参照し、分析精度を評価する分析精度評価部15を有する。
FIG. 1 shows a configuration example of a data analysis system (hereinafter, analysis system). The analysis system includes a non-structured
分析システムは、非構造データ取得部11、メタデータ抽出部12、データ分析部13及び分析精度評価部15などの処理部を実行するCPU、及び、分析入力情報10、構造データ16、階層管理メタデータ17、分析用データ18、精度向上率管理テーブル19及び重要カラムリスト20などを格納するメモリを備え、分析入力情報10を入力し、分析結果を出力する入出力装置と接続するコンピュータにより動作する。
The analysis system includes a CPU that executes processing units such as an unstructured
図1では、図示を省略している、各処理部が用いるワークエリア、各種辞書やファイルなどは、メモリまたは外部に接続する記憶装置に格納されている。 In FIG. 1, a work area, various dictionaries, files, and the like used by each processing unit, which are not shown, are stored in a memory or a storage device connected to the outside.
図2に、入出力装置(図示略)から分析システムに入力される分析入力情報10の例を示す。分析入力情報10は、分析対象の構造データを一意に識別する構造データのテーブルID101、分析対象の構造データと後述するメタデータとの関連性の強さを示す分析目標精度102、分析目標精度102に到達するために、分析を繰り返す場合にメタデータの階層をたどる回数の上限を指定する認識レベル限界値103、および、分析対象の構造データのカラムを示す目的軸カラム104を含む。認識レベルは、具体的に後述するが、階層構造をなすメタデータの階層レベルである。
FIG. 2 shows an example of
図3に、構造データの例を示す。図3に示す構造データは、分析入力情報10のテーブルID101で特定される構造データTable-1(16)の例である。構造データ16は、ここでは患者名161、治療費162、病名163及び年齢164を含む。この構造データを基に、分析システムは、分析入力情報10の目的軸カラム104が示す治療費162に関する分析を実行する。
FIG. 3 shows an example of the structure data. The structure data shown in FIG. 3 is an example of the structure data Table-1 (16) specified by the
図4に、非構造データ取得部11の処理フローチャートを示す。非構造データ取得部11は、入力装置から分析入力情報10を入力する(S110)。分析入力情報10のテーブルID101に対応する構造データ16を取得し、記憶する(S111)。取得する構造データは、図3に示すような構造データ16であり、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム(ここでは、病院の会計システム)に格納されていてもよい。
FIG. 4 shows a process flowchart of the unstructured
非構造データ取得部11は、構造データ16の各レコードと対応する非構造データを検索し、対応付ける(S112)。非構造データ取得部11が検索する非構造データは、テキストファイル、音声ファイル、映像ファイルのような、一般にファイルとしてファイル管理システムにより管理されるデータ(以下、ファイルと呼ぶ。)である。検索するファイルは、分析システム内の記憶装置に予め格納されていてもよいし、他のシステム(ここの例では、病院のカルテ管理システム)に格納されていてもよい。検索するためのキーは、構造データ16の各レコードのカラムの内容である。図3に示す構造データ16の例では、患者名161、病名163または年齢164であり(各カラムの内容のOR検索)、第1番目(#1)のレコードでは、患者名161がA、病名163がインフルエンザ、年齢164が30歳である。治療費162を検索キーとしてもよいが、治療費162は分析対象のカラムであるので除外してもよく、ここでは除外している。検索するためのキーとして、構造データ16のレコードを識別するID(図3では、#)を含めてもよい。なぜならば、検索対象のファイルに、構造データを識別するID(#)を含んでいることがあるからである。
The unstructured
構造データ16の各レコードと検索したファイルとの対応付けについて説明する。分り易い方法としては、検索したファイルを分析システム内に読み込み、検索キーを含む構造データ16のレコードと、対応表などを用いて検索したファイルをリンクさせる。簡単には、構造データ16の各レコードと、検索したファイルを特定できる、ファイル名を含むパス名との対応表を作成すればよい。対応付け方法は、他にも種々あるが、システム構築や運用の容易さなどにより選択されればよい。
The association between each record of the
非構造データ取得部11は、構造データ16の各レコード対応に、検索したファイルからメタデータを抽出するためにメタデータ抽出部12を起動する(S113)。メタデータ抽出部12を起動する際のパラメータは、構造データ16の各レコードと検索したファイルとの対応表である。
The unstructured
メタデータ抽出部12の処理を説明する前に、メタデータ抽出部12が使用するデータやルールなどを説明する。メタデータ抽出部12が抽出するメタデータは、階層構造を持つ。最下位の階層のメタデータを第1階層メタデータと呼び、その上の階層のメタデータを順次第2階層メタデータ、第3階層メタデータ、・・・と呼ぶことにする。なお、後述する認識レベルはメタデータの階層に対応し、たとえば、認識レベル1は第1階層メタデータに対応する。
Before describing the processing of the
第1階層メタデータは、いわゆるキーワードである。分析システムは、図示を省略するがキーワード辞書を持っている。キーワード辞書は、医療などの分野の用語辞書を基に予め作成しておく。医療などの分野に限らず用語辞書は、その分野の用語として病名などの名詞は網羅されているが、その分野で多用される形容詞や副詞が網羅されていることは少ない。そこで、分析システムによる分析に足りる用語を含むキーワード辞書を予め用意する。 The first hierarchy metadata is a so-called keyword. Although not shown, the analysis system has a keyword dictionary. The keyword dictionary is created in advance based on a term dictionary in a field such as medicine. The term dictionary is not limited to medical fields, but includes nouns such as disease names as terms in the field, but few adjectives and adverbs that are frequently used in the field. Therefore, a keyword dictionary including terms sufficient for analysis by the analysis system is prepared in advance.
図5に、要約辞書500の一例を示す。要約辞書500は、ある階層のメタデータからその上位の階層のメタデータを取得するために用いられる。ここでは、第1階層メタデータ501から第2階層メタデータ502を取得するために用いるものとして説明する。第1階層メタデータ501は、前述のようにキーワード辞書に含まれる用語である。第2階層メタデータ502は、キーワード辞書に含まれる用語であってもよいが、キーワード辞書に含まれる用語よりも抽象的概念、キーワード辞書に含まれる用語を包含する概念などの、キーワード辞書に含まれる用語の上位概念を表す用語である。他の観点では、第2階層メタデータ502は、第1階層メタデータ501の要約や組み合わせた意味をもつ用語でもよい。ここでは、図5の要約辞書500では、「解熱」、「早い」、「効く」、「医者」、「処置」の上位概念は「効果」である。同様に、「吐き気」「頭痛」の上位概念は「副作用」である。
FIG. 5 shows an example of the
図6に、ポジティブ基準辞書600の一例を示す。ポジティブ基準辞書600は、用語601とポジティブ度点数602の対応表であり、ポジティブ度点数602は用語601の肯定的な意味を正数、否定的な意味を負数で示し、肯定・否定の意味合いの強さをその値で表す。ポジティブ基準辞書の使い方は後述する。ポジティブ基準辞書に記載されていない用語のポジティブ度点数はゼロとする。なお、ポジティブ度基準辞書は、事前に分析システムに保持させ、分析システムの運用に伴い学習した結果を反映する。学習した結果の反映とは、ポジティブ度点数の変更、用語の追加/削除などである。
FIG. 6 shows an example of the
図7に、解析・信頼度計算ルールの一例を示す。図7(A)に示すルールAは、第2階層メタデータを解析するためのルール例であり、図7(B)に示すルールBは、第3階層メタデータを解析するためのルール例である。ルールAは、ある階層メタデータ名とそのメタデータが抽出されたファイルにおける出現回数を入力とし、計算ルールA-1を適用して、その階層の上位階層メタデータ、上位階層メタデータ値を求め、計算ルールA-2を適用して、上位階層メタデータの信頼度を算出することを表している。 FIG. 7 shows an example of the analysis / reliability calculation rule. Rule A shown in FIG. 7A is an example of a rule for analyzing the second hierarchy metadata, and rule B shown in FIG. 7B is an example of a rule for analyzing the third hierarchy metadata. is there. Rule A uses a hierarchical metadata name and the number of occurrences in the file from which the metadata was extracted as input, and applies calculation rule A-1 to find the upper hierarchical metadata and upper hierarchical metadata values for that hierarchy. In other words, the calculation rule A-2 is applied to calculate the reliability of the upper layer metadata.
図7(B)に示すルールBは、第2階層メタデータ値を入力とし、計算ルールB-1を適用して、第3階層メタデータと第3階層メタデータ値を求め、計算ルールB-2を適用して、第3階層メタデータ値の信頼度を計算するルール例である。解析・信頼度計算ルールの適用については、メタデータ抽出部12の処理の中で説明する。
Rule B shown in FIG. 7 (B) receives the second hierarchy metadata value as input, applies calculation rule B-1 to obtain the third hierarchy metadata and the third hierarchy metadata value, and calculates rule B- It is an example of a rule that applies 2 and calculates the reliability of the third hierarchy metadata value. The application of the analysis / reliability calculation rule will be described in the process of the
図8に、メタデータ抽出部12の処理フローチャートを示す。メタデータ抽出部12は、S120〜S122を繰り返し実行するが、分り易くするために、繰り返しに関して図示を省略する。繰り返しとは、構造データ16の各レコード(#1〜#4)に関して、S112で対応付けられたファイル(非構造データ)について繰り返すことである。たとえば、構造データ16の#1のレコードに複数ファイルが対応付けられていれば、複数ファイルの各々に関して繰り返し、これらの複数ファイルに関する繰り返しを各レコード(#1〜#4)に関して繰り返す。図8のS120〜S122は、構造データ16のあるレコードに対応付けられたあるファイルに関する処理を示している。
FIG. 8 shows a processing flowchart of the
メタデータ抽出部12は、構造データ16の処理対象レコードの各カラムの内容とキーワード辞書を用いて、対応付けられているファイルから第1階層メタデータを抽出し、抽出した各第1階層メタデータの出現数を第1階層メタデータ値とする(S120)。なお、第1階層メタデータを抽出に当たっては、所定の値(閾値)を超える出現数のキーワード又は、出現数の上位から所定数のキーワードを選択する。構造データ16の処理対象レコードの各カラムの内容もキーワード辞書の各キーワードと同様に扱う。この場合は、目的軸カラム104が示す治療費162をキーワードとして含めた方が、目的軸カラム104の内容と他のキーワード(第1階層メタデータ)の関係が明らかになる。
The
図9に、第1階層メタデータの抽出例を示す。図9(A)は、構造データ16の#1のレコードに対応付けられた、患者名Aのカルテがファイル#1として示してあり、図9(B)は、構造データ16の#2のレコードに対応付けられた、患者名Bのカルテがファイル#2として示してある。ファイル#1やファイル#2から、図中下線で示すキーワードが、自然言語処理を用いて抽出される。この段階では、形態素解析によりキーワードとなり得る名詞、動詞、形容詞、副詞などの、意味を持つ用語が抽出される。意味を持たない、助詞や助動詞などは抽出の対象外である。図9の例は、ファイル#1やファイル#2がテキストファイルであるカルテであるので、自然言語処理が使用されるが、音声ファイルや映像ファイルの場合は、特徴抽出技術を用い、音声をテキストに変換したり、映像を対応する(映像の内容を表す)テキストに変換することにより、テキストファイルの場合と同様に処理する。
FIG. 9 shows an example of extracting the first hierarchy metadata. FIG. 9A shows the chart of the patient name A associated with the
図9(A)は、ファイル#1(患者Aのカルテ)からは患者Aの発熱やX薬に関するキーワード、図9(B)は、ファイル#2(患者Bのカルテ)から患者Bの経過情報に関するキーワードが抽出されている。これら抽出されたキーワードから、さらに構造データ16の処理対象レコードの各カラムの内容とキーワード辞書を参照して、第1階層メタデータを抽出する。抽出結果の例を、図9の下部に示す。
9A is a keyword related to the fever and X medicine of patient A from file # 1 (patient A's chart), and FIG. 9B is the progress information of patient B from file # 2 (patient B's chart). Keywords related to are extracted. The first hierarchy metadata is extracted from these extracted keywords with reference to the contents of each column of the processing target record of the
第1階層メタデータ値について説明する。図10に、信頼度計算表1000を示す。信頼度計算表1000は分析システムのメモリのワークエリアに作成される。信頼度計算表1000は、第1階層メタデータと第1階層メタデータ値の対応表1001と第2階層メタデータ、第2階層メタデータ値とその信頼度1002を含む。第2階層メタデータ、第2階層メタデータ値とその信頼度1002に関しては、後述する。第1階層メタデータ値は、第1階層メタデータの出現回数である。図10では、対応表1001として、図9(A)に対応して、ファイル#1(患者名Aのカルテ)から抽出された第1階層メタデータと第1階層メタデータ値を示している。たとえば、第1階層メタデータ「解熱」はファイル#1に20回出現したことを示している。
The first hierarchy metadata value will be described. FIG. 10 shows a reliability calculation table 1000. The reliability calculation table 1000 is created in the work area of the analysis system memory. The reliability calculation table 1000 includes a correspondence table 1001 between the first hierarchy metadata and the first hierarchy metadata value, the second hierarchy metadata, the second hierarchy metadata value, and its
メタデータ抽出部12は、信頼度計算表1000の第1階層メタデータと第1階層メタデータ値の対応表1001に基づいて、第2階層メタデータとその値及びその信頼度1002を算出し、信頼度計算表1000に格納する(S121)。メタデータ抽出部12は、図7(A)に示した解析・信頼度計算ルールに基づいて、要約辞書500を用いて、第1階層メタデータと第1階層メタデータ値の対応表1001から、要約辞書500の上位階層メタデータ502に含まれる第2階層メタデータ/値1002を算出する。
The
具体例を説明する。第1階層メタデータと第1階層メタデータ値の対応表1001の内容に図7(A)に示した解析・信頼度計算ルールのルールAを適用する。計算ルールA‐1は、入力の第1階層メタデータの中で、出現回数が最大の第1階層メタデータを、その第1階層メタデータが属する第2階層メタデータとし、第1階層メタデータから第2階層メタデータ値を求めるルールを示している。対応表1001の第1階層メタデータ値である出現回数が最大の第1階層メタデータは「早い」である。要約辞書500を参照すると、第1階層メタデータ「早い」は第2階層メタデータ「効果」に属するので、出力する第2階層メタデータを「効果」とする。また、出現回数が最大の第1階層メタデータの「早い」を第2階層メタデータ値(ここでのメタデータ値は、数値ではなく、文字列である。)とする。
A specific example will be described. The rule A of the analysis / reliability calculation rule shown in FIG. 7A is applied to the contents of the correspondence table 1001 between the first hierarchy metadata and the first hierarchy metadata value. In the calculation rule A-1, the first hierarchy metadata having the maximum number of appearances in the input first hierarchy metadata is set as the second hierarchy metadata to which the first hierarchy metadata belongs, and the first hierarchy metadata. The rule which calculates | requires a 2nd hierarchy metadata value from is shown. The first hierarchy metadata with the maximum number of appearances, which is the first hierarchy metadata value of the correspondence table 1001, is “early”. Referring to the
第2階層メタデータ値「早い」の信頼度を算出するために、図7(A)に示した解析・信頼度計算ルールの計算ルールA‐2を用いる。計算ルールA‐2は、計算ルールA‐1で求めた第2階層メタデータ値に指定した第1階層メタデータの出現回数を、第2階層メタデータに属する第1階層メタデータの出現回数の和で割った値を信頼度とすることを表している。第1階層メタデータと第1階層メタデータ値の対応表1001を参照すると、第2階層メタデータ「効果」に属する第1階層メタデータの出現回数の合計(第1階層メタデータ値の合計)は111である。したがって、第2階層メタデータ値「早い」の信頼度は80/111≒0.7となる。 In order to calculate the reliability of the second hierarchy metadata value “early”, the calculation rule A-2 of the analysis / reliability calculation rule shown in FIG. 7A is used. The calculation rule A-2 is the number of appearances of the first hierarchy metadata specified in the second hierarchy metadata value obtained by the calculation rule A-1 as the number of appearances of the first hierarchy metadata belonging to the second hierarchy metadata. The value divided by the sum represents the reliability. Referring to the correspondence table 1001 of the first hierarchy metadata and the first hierarchy metadata value, the total number of appearances of the first hierarchy metadata belonging to the second hierarchy metadata “effect” (total of the first hierarchy metadata values) Is 111. Therefore, the reliability of the second hierarchy metadata value “early” is 80 / 111≈0.7.
以上のようにして求めた、第2階層メタデータ、第2階層メタデータ値、第2階層メタデータ値の信頼度を、信頼度計算表1000の第2階層メタデータ/値1002に格納する。
The reliability of the second hierarchy metadata, the second hierarchy metadata value, and the second hierarchy metadata value obtained as described above is stored in the second hierarchy metadata /
図7(A)に示した解析・信頼度計算ルールに基づいて、抽出した第1階層メタデータ名であるキーワードとその出現数である第1階層メタデータ値から、要約辞書500を用いて、認識レベル2であるメタデータの第2階層メタデータ及び第2階層メタデータ値の決定と信頼度を算出することを説明した。算出結果を、後述する階層管理メタデータモデルに適用し階層管理メタデータを作成する。ここで、第2階層メタデータは、前述のように、階層直下の第1階層メタデータの要約や組み合わせた意味をもつ用語となり、その値(上記の例では、「早い」)が第2階層メタデータ値である。信頼度は、各階層メタデータがそのメタデータ値を持つ確からしさを意味する数値である。上記の例では、第2階層メタデータ「効果」において、信頼度は第2階層メタデータ値「早い」の確からしさを表す。
Based on the analysis / reliability calculation rule shown in FIG. 7 (A), from the extracted keyword, which is the first hierarchy metadata name, and the first hierarchy metadata value, which is the number of appearances, using the
次に、メタデータ抽出部12は、第2階層メタデータ、第2階層メタデータ値、信頼度を導出したのと同様に、認識レベル3であるメタデータの第3階層メタデータ、第3階層メタデータ値、及び信頼度を導出する(S122)。導出結果をメタデータ管理階層モデルに適用して階層管理メタデータとしてデータを保持する。
Next, the
第3階層メタデータも第2階層メタデータと同様に、第2階層メタデータを要約した意味をもつ用語であり、その値が第3階層メタデータ値である。メタデータは階層により抽象化レベルが異なるので、要約辞書500を各階層間に関して用意する。このように要約辞書500を用意することにより、認識レベル及びメタデータの階層を多階層にできる。階層数は、分析システムを適用する分野に依存して決められる。また、キーワード辞書や要約辞書500の内容を、分析システムを適用する分野の特性に合わせて用意しておくことにより、各階層のメタデータとしての用語の特徴を、分析システムを適用する分野に適合するものにできる。分析システムを適用する分野に適合させた一例として、第3階層メタデータ値について説明する。
Similarly to the second hierarchy metadata, the third hierarchy metadata is a term having a meaning that summarizes the second hierarchy metadata, and the value thereof is the third hierarchy metadata value. Since the abstraction level of metadata differs depending on the hierarchy, a
第3階層メタデータ値は、第2階層メタデータ値と同様に、第3階層メタデータに属する第2階層メタデータとしてもよいが、ここでは、第3階層メタデータ値は、観点を変えて、良い意味か悪い意味かを示す「ポジティブ」と「ネガティブ」とする。信頼度は、第2階層メタデータ値と同様に、第3階層メタデータ値の確からしさを表す。観点を変えてとは、分析システムを適用する分野に依存して、望ましい観点があるからである。 Similarly to the second hierarchy metadata value, the third hierarchy metadata value may be the second hierarchy metadata belonging to the third hierarchy metadata. However, here, the third hierarchy metadata value is changed from a viewpoint. , “Positive” and “Negative” indicating good or bad meaning. The reliability indicates the likelihood of the third hierarchy metadata value, similarly to the second hierarchy metadata value. Changing the viewpoint is because there is a desirable viewpoint depending on the field to which the analysis system is applied.
図7(B)に示した解析・信頼度計算ルールを適用した、第3階層メタデータ、第3階層メタデータ値、及び信頼度の導出について説明する。図7(B)に示す計算ルールB-1は、図6に示したポジティブ基準辞書を参照し、第2階層メタデータ値(図6の用語601)に対応するポジティブ度点数602を取得し、全ての第2階層メタデータ値のポジティブ度点数の合計が正の数ならばポジティブ、負の数ならばネガティブを、第3階層メタデータ値に設定する。なお、第3階層メタデータは、要約辞書500を使用して設定してもよいが、任意に設定してもよい。ここでは、第3階層メタデータを要約と呼び、最上位階層であるとする。
Described below is derivation of the third hierarchy metadata, the third hierarchy metadata value, and the reliability to which the analysis / reliability calculation rule shown in FIG. 7B is applied. The calculation rule B-1 shown in FIG. 7 (B) refers to the positive reference dictionary shown in FIG. 6 and acquires the
図7(B)に示す計算ルールB-2は、第3階層メタデータ値がポジティブならば、全ての第2階層メタデータ中のポジティブ度点数が正である第2階層メタデータの割合、ネガティブならば、全ての第2階層メタデータ中のポジティブ度点が負である第2階層メタデータの割合を信頼度とすることを表している。なお、計算ルールB-2に、ポジティブ度点数の総和の絶対値または平均値を信頼度とするように設定してもよい。具体的な数値による計算例の説明を省略するが、次に説明する図11の階層管理メタデータ17に示す数値になったものとして、説明を続ける。
In the calculation rule B-2 shown in FIG. 7B, if the third hierarchy metadata value is positive, the ratio of the second hierarchy metadata in which the positive score in all the second hierarchy metadata is positive, negative Then, it represents that the ratio of the 2nd hierarchy metadata in which the positive score in all the 2nd hierarchy metadata is negative is made into reliability. The calculation rule B-2 may be set so that the absolute value or the average value of the sum of the positive score is set as the reliability. Although description of specific numerical examples is omitted, the description will be continued assuming that the numerical values shown in the
次に、メタデータ抽出部12は、第1階層、第2階層及び第3階層のメタデータ及びそれらの信頼度を入力した階層管理メタデータ17を生成する(S123)。図11に、階層管理メタデータ17の一例を示す。階層管理メタデータ17は、構造データ16の各レコードに対応付けたファイル(170)F1、F2、F3、F4の各ファイル対応に、S120〜S122の処理により抽出又は算出した第1階層171、第2階層172及び第3階層173のメタデータ及びそれらの信頼度を示す。なお、図11では、第1階層メタデータ171と第2階層メタデータ172との対応関係が分かるように、第1階層メタデータ171を第2階層メタデータ172(たとえば、患者名)対応にまとめてある。
Next, the
図12は、階層管理メタデータ17をツリー状に図示した例である。図12の#3として示す図は、図11のファイル(170)F3に対応した、第3階層メタデータ値がネガティブの例である。図12の#4として示す図は、図11のファイル(170)F4に対応した、第3階層メタデータ値がポジティブの例である。図11及び図12の数値に関する説明は省略する。
FIG. 12 is an example in which the
なお、ここまで第1階層メタデータとその出現回数である第1階層メタデータ値から第2階層メタデータ、第2階層メタデータから第3階層メタデータを導出する例を示した。一般には、メタデータ管理階層モデルの階層の数は任意である。任意のメタデータ群を元に、その任意のメタデータ群から他のメタデータ群(上位のメタデータ群)を生成することを繰り返すことで、メタデータ群間で階層構造を持つ階層管理メタデータ17を生成できる。分析システムが分析対象とする分野や望まれる分析精度に応じて、階層数が決定される。
In addition, the example which derived | led-out the 2nd hierarchy metadata from the 1st hierarchy metadata and the 1st hierarchy metadata value which is the appearance frequency so far, and the 3rd hierarchy metadata from the 2nd hierarchy metadata was shown so far. In general, the number of hierarchies in the metadata management hierarchy model is arbitrary. Hierarchical management metadata that has a hierarchical structure between metadata groups by repeating generation of other metadata groups (higher metadata groups) from any metadata group based on any
以上のように、階層管理メタデータ17を出力として、メタデータ抽出部12は処理を終了する。
As described above, the
図4の非構造データ取得部11の説明に戻る。非構造データ取得部11は、入力分析情報10、構造データ16、及びメタデータ抽出部12が生成した階層管理メタデータ17をデータ分析部13へ出力し(S114)、データ分析部13を起動して処理を終了する。
Returning to the description of the unstructured
図13に、データ分析部13の処理フローチャートを示す。データ分析部13は、非構造データ取得部11からの起動に応答して、分析入力情報10、構造データ16及び階層管理メタデータ17を入力する。構造データ16を分析用データ18として格納する。分析用データ18については後述する。
FIG. 13 shows a processing flowchart of the
データ分析部13は、認識レベルの最大値を認識レベルの変数nに設定する(S130)。認識レベル1、2、・・・は、図11に示す階層管理メタデータ17の第1階層メタデータ、第2階層メタデータ、・・・に対応する。本実施形態は、図11に示すように第3階層メタデータまでの例であるので、認識レベル最大値を3とする。
The
データ分析部13は、認識レベルnに対応するメタデータ名を階層管理メタデータ17から取得し、メタデータ名リストを作成する(S131)。データ分析部13は、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、分析用データ18にその値を新しいカラムとして追加する(S132)。
The
図14に、分析用データ18の変化例を示す。図14では、図が見にくくなるのを避けるために符号を省略する。図14(A)は、データ分析部13の起動に伴って入力された構造データ16の内容が分析用データ18として格納されている。認識レベルn=3のとき、分析用データ18に新しいカラムとして追加される値は第3階層メタデータの値であり、分析用データ18の最右欄に追加された結果を、図14(B)に示す。
FIG. 14 shows a change example of the
データ分析部13は、分析用データ18をパラメータとして分析精度評価部15を実行する(S133)。分析精度評価部15は、分析用データ18の分析精度を出力する。分析精度評価部15の処理については後述する。
The
データ分析部13は、前回の(S131〜S140のループにおける前回のループの)分析精度からの精度向上率を算出する(S134)。認識レベルnが認識レベル最大値のときは、前回の分析精度がないので、前回の分析精度を0として精度向上率を算出する。データ分析部13は、算出した精度向上率を精度向上率管理テーブルに格納する(S135)。後述する分析精度評価部15は、分析用データ18として図14(B)をパラメータとすると、分析精度を50%として出力する。
The
図15に、精度向上率管理テーブル19の一例を示す。精度向上率管理テーブル19は、認識レベル1501、追加メタデータ1502、分析精度1503および精度向上率1504の対応表である。データ分析部13は、分析精度評価部15が出力した分析精度と共に、そのときの認識レベル、分析用データ18への追加メタデータと共に精度向上率を、精度向上率管理テーブル19の対応する欄に格納する。
FIG. 15 shows an example of the accuracy improvement rate management table 19. The accuracy improvement rate management table 19 is a correspondence table of the
データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102を比較する(S136)。分析目標精度102が、分析精度評価部15が出力した分析精度より低くければ(分析精度が分析目標精度102を達成したならば)、S142へ進む。分析目標精度102が分析精度より低ければ、S137へ進む。
The
データ分析部13は、認識レベルnが分析入力情報10の認識レベル限界値103以上ならばS138へ進む。認識レベルnが認識レベル限界値103より低い場合、分析不可(141)として処理を終了する。たとえば、認識レベルnが3で、認識レベル限界値は1のときは、S138へ進む。
If the recognition level n is greater than or equal to the recognition
データ分析部13は、分析用データ18に追加した各メタデータの中で、信頼度の一番低いメタデータを決定する(S138)。分析用データ18が図14(B)の場合、追加したメタデータは第3階層メタデータ(要約)の一つであるので、その第3階層メタデータ(要約)を信頼度の一番低いメタデータとする。信頼度は、図7に示した解析、信頼度計算ルールを適用した値であり、図14(B)では追加した第3階層メタデータ(要約)のカッコ内の値(図中、0.9)である。
The
データ分析部13は、S138で決定したメタデータの直下の認識レベルのメタデータがあるかを判定し(S139)、ある場合は、認識レベルの変数nにn-1を設定し(S140)、S131へ戻る。ない場合は、分析不可(S141)として処理を終了する。決定したメタデータの直下の認識レベルのメタデータがあるかの判定は、階層管理メタデータ17を参照してもよいが、認識レベル(整数)の最小値を1としているので、nが2以上(1より大)であるかを判定してもよい。
The
データ分析部13のS131からのループ(繰り返し)について、説明を加える。データ分析部13は、S140でn=2としたとき、S131において、階層管理メタデータ17の第2階層メタデータを参照して、新たなメタデータ名リスト{薬名、患者名、効果、副作用}を作成する。新たなメタデータ名リスト{薬名、患者名、効果、副作用}に対応して、S132において、認識レベルn=2のとき、分析用データ18に新しいカラムとして第2階層メタデータの値が追加された結果を、図14(C)に示す。図14(C)に示すように、患者名がメタデータ名リストに含まれるが、患者名は構造データ16の一つとして分析用データ18に含まれているので、重複を避けるために追加しない。
The loop (repetition) from S131 of the
後述する分析精度評価部15は、分析用データ18として図14(C)をパラメータとすると、分析精度を、「薬名」に関して50%、「効果」に関して75%、「副作用」に関して50%として出力する。したがって、図15の精度向上率管理テーブル19の分析精度1503に、分析精度評価部15が出力した各々の分析精度を格納すると共に、認識レベルn=1のときの分析精度50%からの各々の精度向上率を精度向上率1504に格納する。
The analysis
データ分析部13は、認識レベルn=2のとき、最高の分析精度が75%であり、S136において、分析精度評価部15が出力した分析精度75%が、分析入力情報10の分析目標精度102である80%を達成していないので、S138において、メタデータ名リスト{薬名、患者名、効果、副作用}の中で信頼度が最も低い(数値例を省略)メタデータとして「効果」が決定される。データ分析部13は、ループ処理によりS131において、「効果」の直下の第1階層メタデータ名リストとして{解熱、早い、効く、医者、処置}を作成し、分析データ18に、作成したメタデータ名リストに対応する値を、階層管理メタデータ17から取得し、その値を新しいカラムとして追加する。図14(D)が第1階層メタデータを追加した例である。ただし、一部の第1階層メタデータ「解熱」を追加した例を図示している。
The
データ分析部13は、分析精度評価部15が出力した分析精度と分析入力情報10の分析目標精度102の比較の結果、分析精度が分析目標精度102を達成したならば、精度向上率管理テーブル19を参照して、精度向上率が高いカラムを重要カラムリストに入力する(S142)。図16に、重要カラムリストの一例を示す。重要カラムリスト20は、分析精度が分析目標精度102を達成したときの、精度向上率テーブル19の追加メタデータ1502及び精度向上率1504を、重要メタデータ1601及び精度向上率1602に格納するテーブルであり、後述する分析システムとしての分析結果出力の準備のためのテーブルである。重要メタデータ1601は、分析精度向上に基も寄与したメタデータである。分析入力情報10の分析目標精度102は80%であり、第1階層メタデータ「解熱」に関する分析精度は100%であるので、このときの分析精度評価結果が重要カラムリスト20に反映される。
As a result of the comparison between the analysis accuracy output from the analysis
データ分析部13は、重要カラムリスト20および分析用データ18を、出力装置を介して出力し(S143)、処理を終了する。出力する分析用データ18は、説明した例では、図14(D)になるが、分析精度が分析目標精度102を認識レベル2で達成した場合は、図14(C)になる。同様に、認識レベル3で達成した場合は、図14(B)になる。
The
図17に、分析精度評価部15の処理フローチャートを示す。分析精度評価部15は、データ分析部13から起動され、分析入力情報10および分析用データ18を入力とし、純度を算出し、その算出結果を分析精度として出力する。
FIG. 17 shows a process flowchart of the analysis
分析精度評価部15は、分析入力情報10の目的軸カラム104の内容を正解データとする(S150)。図2に示す分析入力情報10の目的軸カラム104の内容は「治療費」であるので、この「治療費」を正解データとする。
The analysis
分析精度評価部15は、入力した分析用データ18を対象として、正解データをN個のグループに分類するクラスタリングを実行し、その結果を正解パターンとして記憶する(S151)。入力した分析用データ18が、図14(C)の状態(データ分析部13が分析用データ18に第2階層メタデータを追加した状態)として、具体例を説明する。「治療費」が正解データであるので、$10の患者名A及びBと$1000の患者名C及びDの2グループに分類する。分類基準としての閾値は、2グループの場合、(最大値+最小値)/2としてもよいし、入出力装置を介して入力してもよい。一般にNグループに分類する場合、入出力装置を介して入力する。
The analysis
分析精度評価部15は、分析精度評価対象データである分析用データ18のメタデータの各々に関してクラスタリングを実行し、各々を分類パターンとして記憶する(S152)。たとえば、メタデータ「効果」に関してクラスタリングを実行し、「早い」のグループの患者名A、B及びDと「処置」のグループの患者名Cの2グループに分類する。
The analysis
分析精度評価部15は、正解データを対象とした正解パターンと、メタデータの分類パターンの一致率を算出し、その算出結果を分析精度として(S153)、データ分析部13へ処理を戻す。一致率とは、正解パターンにおける1グループに属するデータと、分類パターンにおける1グループのデータの数の割合である。この割合を求めるために純度を用いる。上述の例では、「治療費」を正解データとする正解パターンは、患者名A及びBのグループ1と患者名C及びDのグループ2である。分析精度評価対象データをメタデータ「効果」とする分類パターンは、「早い」の患者名A、B及びDのグループ3と「処置」の患者名Cのグループ4である。患者名A及びBは、正解パターンのグループ1と分類パターンのグループ3に属し、グループ1ならば100%の確率でグループ3という関係が成り立つ。一方、グループ2に属する、患者名Cはグループ3に属し、患者名Dグループ4に属し、グループ2ならば、50%の確率でグループ3又はグループ4に属するという関係が成り立つ。この正解パターンを前提として、分析精度評価対象データである「効果」を分類したグループに属する確率が最大となる組み合わせは、グループ1と3、グループ2と4として求めることができる。このときのそれぞれの生起確率100%と50%を加算し、その加算したグループ数2で割った数値である75%が純度として計算される。このようにして求めた純度を分析精度とする。
The analysis
図18に、分析システムを使用するための、入出力装置(図示略)に表示する画面例を示す。画面は、ユーザが分析入力情報10の各項目を入力するための入力画面「入力」、分析システムによる分析を実行するための「実行」ボタン1805、及び分析結果を表示する出力画面「2.出力」を含む。
FIG. 18 shows an example of a screen displayed on an input / output device (not shown) for using the analysis system. The screen includes an input screen “input” for the user to input each item of the
入力画面「入力」は、構造データのテーブルID101を入力する構造データ1801、分析目標精度102を入力する分析目標精度1802、認識レベル限界値103を入力する認識レベル限界値1803、および目的軸カラム104を入力する目的軸指定1804の各欄を有する。構造データ1801は、「参照」を指定入力し、表示される構造データを選択入力する欄である。分析目標精度1802及び認識レベル限界値1803は、図示するように、数値入力する欄である。目的軸指定1804は、構造データ1801の欄の構造データの選択入力に応答して表示される構造データのカラムを選択入力する。
The input screen “input” includes the
ユーザによる分析入力情報10の各項目の入力、さらに「実行」ボタン1805の押下に応答して、分析システムは実行を開始し、実行が終了すると、出力画面「2.出力」を入出力装置に表示する。分析システムは出力画面に、分析用データ1806及び重要カラムリスト1807である。分析用データ1806は、図14に示した、分析システムによる分析精度が分析目標精度102を超えた段階の分析用データ18の内容である。図18では、図14(D)の分析用データ18の内容を表示している。重要カラムリスト1807は、図16に示した重要カラムリスト20の内容である。
In response to input of each item of the
本実施形態によれば、分析システムは、より単純な(明快な)分析結果を出力することができる。構造データに関連する可能性が高いメタデータを優先的に分析するので、データ分析にかかる時間を短縮できる。 According to this embodiment, the analysis system can output a simpler (clear) analysis result. Since metadata that is highly likely to be related to structural data is preferentially analyzed, the time required for data analysis can be reduced.
10:分析入力情報、11:非構造データ取得部、12:メタデータ抽出部、13:データ分析部、15:分析精度評価部、16:構造データ、17:階層管理メタデータ、18:分析用データ、19:精度向上率管理テーブル、20重要カラムリスト。 10: Analysis input information, 11: Unstructured data acquisition unit, 12: Metadata extraction unit, 13: Data analysis unit, 15: Analysis accuracy evaluation unit, 16: Structural data, 17: Hierarchy management metadata, 18: For analysis Data, 19: Accuracy improvement rate management table, 20 important column list.
Claims (12)
前記非構造データ取得部が取得した前記非構造データから、メタデータを抽出し、抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成するメタデータ抽出部、
入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成するデータ分析部、および
前記データ分析部が作成した前記分析用データを参照し、前記分析精度を求める分析精度評価部を有することを特徴とするデータ分析システム。An unstructured data acquisition unit that acquires unstructured data corresponding to the structured data specified in the input analysis input information,
A metadata extraction unit that extracts metadata from the non-structured data acquired by the non-structured data acquisition unit and creates hierarchical management metadata indicating a hierarchical structure between the extracted metadata.
As analysis results corresponding to the target axis and target analysis accuracy specified in the input analysis input information, analysis data is created step by step with reference to the hierarchy management metadata, and based on the generated analysis data A data analysis unit that creates an important column list including the metadata that has contributed to the improvement of the analysis accuracy when the analysis accuracy exceeds the target analysis accuracy, and the data for analysis created by the data analysis unit And a data analysis system comprising an analysis accuracy evaluation unit for obtaining the analysis accuracy.
入力した分析入力情報に指定された構造データに対応する非構造データを取得し、
取得した前記非構造データからメタデータを抽出し、
抽出した前記メタデータの間の階層構造を示す階層管理メタデータを作成し、
入力した前記分析入力情報に指定された目的軸及び目標分析精度に対応する分析結果として、前記階層管理メタデータを参照して分析用データを段階的に作成し、
作成した前記分析用データを参照し、前記分析精度を求め、
作成した前記分析用データに基づいて、分析精度が前記目標分析精度を超えた段階の、前記分析精度の向上に寄与した前記メタデータを含む重要カラムリストを作成することを特徴とするデータ分析方法。A data analysis method in a data analysis system, the data analysis system comprising:
Get unstructured data corresponding to the structural data specified in the input analysis input information,
Extract metadata from the acquired unstructured data,
Create hierarchical management metadata indicating the hierarchical structure between the extracted metadata,
As the analysis result corresponding to the target axis and target analysis accuracy specified in the input analysis input information, the analysis data is created step by step with reference to the hierarchy management metadata.
Referring to the created analysis data, the analysis accuracy is obtained,
A data analysis method comprising: creating an important column list including the metadata that contributes to the improvement of the analysis accuracy at a stage where the analysis accuracy exceeds the target analysis accuracy based on the generated analysis data .
前記分析入力情報は、前記構造データ、前記目標分析精度、前記分析用データを作成する段階の限界を示す認識レベル限界値、及び、前記構造データの分析対象項目を示す前記目的軸を含むことを特徴とする請求項7記載のデータ分析方法。The data analysis system includes:
The analysis input information includes the structure data, the target analysis accuracy, a recognition level limit value indicating a limit of a stage of creating the analysis data, and the target axis indicating an analysis target item of the structure data. 8. A data analysis method according to claim 7, wherein
前記非構造データから、分析対象の分野のキーワード辞書を用いて前記メタデータを第1階層メタデータとして抽出し、
前記第1階層メタデータと前記第1階層メタデータの上位概念を表す用語との対応関係を示す辞書を用いて、抽出した前記第1階層メタデータに対応する、前記辞書に含まれる用語を第2階層メタデータとして抽出し、
さらに前記第2階層メタデータと前記第2階層メタデータの上位概念を表す用語の対応関係を示す他の辞書を用いて、抽出した前記第2階層メタデータに対応する、前記他の辞書に含まれる用語を第3階層メタデータとして抽出し、
抽出した前記第1階層メタデータ、前記第2階層メタデータ及び前記第3階層メタデータの間の前記階層構造を示す前記階層管理メタデータを作成することを特徴とする請求項8記載のデータ分析方法。The data analysis system includes:
From the unstructured data, extract the metadata as the first hierarchy metadata using a keyword dictionary of the field to be analyzed,
Using a dictionary indicating a correspondence relationship between the first hierarchy metadata and a term representing a superordinate concept of the first hierarchy metadata, the terms included in the dictionary corresponding to the extracted first hierarchy metadata are Extracted as two-level metadata,
Further, using another dictionary indicating the correspondence relationship between the second hierarchy metadata and terms representing the higher-level concept of the second hierarchy metadata, included in the other dictionary corresponding to the extracted second hierarchy metadata Extracted terms as third-level metadata,
9. The data analysis according to claim 8, wherein the hierarchy management metadata indicating the hierarchy structure between the extracted first hierarchy metadata, the second hierarchy metadata, and the third hierarchy metadata is created. Method.
前記非構造データから、所定の値を超える出現数のキーワード及び出現数の上位から所定数のキーワードのいずれか一方のキーワードであり、前記キーワード辞書に含まれる前記メタデータを前記第1階層メタデータとして抽出することを特徴とする請求項9記載のデータ分析方法。The data analysis system includes:
From the unstructured data, any one of keywords having an appearance number exceeding a predetermined value and a predetermined number of keywords from the top of the appearance number, and the metadata included in the keyword dictionary is the first hierarchy metadata The data analysis method according to claim 9, wherein the data analysis method is extracted as:
前記階層管理メタデータに含まれる最上位階層のメタデータから前記分析用データを段階的に作成し、作成した前記分析用データに基づいて、前記分析精度が前記目標分析精度を超えたかを判定することを特徴とする請求項10記載のデータ分析方法。The data analysis system includes:
The analysis data is created step by step from the top-level metadata included in the hierarchy management metadata, and it is determined whether the analysis accuracy exceeds the target analysis accuracy based on the generated analysis data The data analysis method according to claim 10.
前記分析用データの段階的な作成が、前記認識レベル限界値に達したとき、分析不可であるとすることを特徴とする請求項11記載のデータ分析方法。The data analysis system includes:
12. The data analysis method according to claim 11, wherein the stepwise creation of the analysis data cannot be analyzed when the recognition level limit value is reached.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2013/076992 WO2015049769A1 (en) | 2013-10-03 | 2013-10-03 | Data analysis system and method therefor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6081609B2 JP6081609B2 (en) | 2017-02-15 |
JPWO2015049769A1 true JPWO2015049769A1 (en) | 2017-03-09 |
Family
ID=52778379
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015540326A Active JP6081609B2 (en) | 2013-10-03 | 2013-10-03 | Data analysis system and method |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP6081609B2 (en) |
WO (1) | WO2015049769A1 (en) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7124961B2 (en) * | 2019-05-09 | 2022-08-24 | 富士通株式会社 | Information processing device, information processing system and information processing program |
CN111063446B (en) * | 2019-12-17 | 2023-06-16 | 医渡云(北京)技术有限公司 | Method, apparatus, device and storage medium for standardizing medical text data |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012226705A (en) * | 2011-04-22 | 2012-11-15 | Nippon Telegr & Teleph Corp <Ntt> | Structure processing method of non-structured data |
-
2013
- 2013-10-03 JP JP2015540326A patent/JP6081609B2/en active Active
- 2013-10-03 WO PCT/JP2013/076992 patent/WO2015049769A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2015049769A1 (en) | 2015-04-09 |
JP6081609B2 (en) | 2017-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11194797B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and providing schema-less query support data extraction | |
US9720944B2 (en) | Method for facet searching and search suggestions | |
US11157550B2 (en) | Image search based on feature values | |
US9799040B2 (en) | Method and apparatus for computer assisted innovation | |
CN108121829A (en) | The domain knowledge collection of illustrative plates automated construction method of software-oriented defect | |
JP5621773B2 (en) | Classification hierarchy re-creation system, classification hierarchy re-creation method, and classification hierarchy re-creation program | |
CN108090068B (en) | Classification method and device for tables in hospital database | |
US11194798B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format with mapped dependencies and providing schema-less query support for searching table data | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
JP2005122295A (en) | Relationship figure creation program, relationship figure creation method, and relationship figure generation device | |
US11308083B2 (en) | Automatic transformation of complex tables in documents into computer understandable structured format and managing dependencies | |
JP2024502730A (en) | Medical data element automated classification method and system based on depth map matching | |
JP2011248596A (en) | Searching system and searching method for picture-containing documents | |
JP3765801B2 (en) | Parallel translation expression extraction apparatus, parallel translation extraction method, and parallel translation extraction program | |
Consoli et al. | A quartet method based on variable neighborhood search for biomedical literature extraction and clustering | |
Babur et al. | Towards statistical comparison and analysis of models | |
JP6081609B2 (en) | Data analysis system and method | |
WO2023246849A1 (en) | Feedback data graph generation method and refrigerator | |
JP2001184358A (en) | Device and method for retrieving information with category factor and program recording medium therefor | |
JP2014089646A (en) | Electronic data processor and electronic data processing method | |
JP2008165572A (en) | Data classification device and data classification program | |
JP5954742B2 (en) | Apparatus and method for retrieving documents | |
Szymczak et al. | Coreference detection in XML metadata | |
WO2016176310A1 (en) | Conceptual document analysis and characterization | |
KR101088483B1 (en) | Method and apparatus for mapping the heterogeneous classification systems |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170110 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20170118 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6081609 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |