JPWO2016147276A1 - データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 - Google Patents

データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 Download PDF

Info

Publication number
JPWO2016147276A1
JPWO2016147276A1 JP2015558258A JP2015558258A JPWO2016147276A1 JP WO2016147276 A1 JPWO2016147276 A1 JP WO2016147276A1 JP 2015558258 A JP2015558258 A JP 2015558258A JP 2015558258 A JP2015558258 A JP 2015558258A JP WO2016147276 A1 JPWO2016147276 A1 JP WO2016147276A1
Authority
JP
Japan
Prior art keywords
data
information
unknown
unit
medicine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2015558258A
Other languages
English (en)
Other versions
JP6301966B2 (ja
Inventor
秀樹 武田
秀樹 武田
彰晃 花谷
彰晃 花谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ubic Inc
Original Assignee
Ubic Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ubic Inc filed Critical Ubic Inc
Publication of JPWO2016147276A1 publication Critical patent/JPWO2016147276A1/ja
Application granted granted Critical
Publication of JP6301966B2 publication Critical patent/JP6301966B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/22Social work or social welfare, e.g. community support activities or counselling services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H70/00ICT specially adapted for the handling or processing of medical references
    • G16H70/40ICT specially adapted for the handling or processing of medical references relating to drugs, e.g. their side effects or intended usage
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/20ICT specially adapted for the handling or processing of patient-related medical or healthcare data for electronic clinical trials or questionnaires

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Primary Health Care (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Artificial Intelligence (AREA)
  • Business, Economics & Management (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computing Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Child & Adolescent Psychology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Toxicology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本発明に係るデータ分析システムは、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得部と、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から前記医薬に関する情報のパターンを学習する学習部と、所定の情報源から未知データを取得する未知データ取得部と、前記学習されたパターンに基づいて前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価部と、前記未知データに含まれる医薬に関する情報を前記データ評価部による評価に応じて前記ユーザに提示する提示部と、を備える。

Description

本発明は、データを分析するデータ分析システム及びデータ分析方法並びにデータ分析プログラムに関する。
現在、医療においては、様々な傷病や薬剤に関するデータが蓄積しており、また、日々の医療の進歩により、そのデータは増加の一途をたどっている。そのため、それらのデータの整理を行うことは必須の業務となっている。
特許文献1及び2においては、ユーザが所望する医療情報を、タッチパネル等の直観的なユーザインターフェースを用いて、より直観的な操作で、より容易に取得可能にする医療情報表示装置等が開示されている。
特開2012−048602号公報 再表2012−029265号公報
しかしながら、特許文献1及び2に開示された装置は、所望の医療情報を適切に絞り込むためのものではあるが、そのための情報はユーザが入力する必要があるものの、それらの入力データは膨大な量になるため、仕分けをするだけでも膨大な労力を要する。例えば、薬剤でいえば、医薬品有害事象(以下、副作用という)に関する情報などは、報告が義務付けられているものの、それらの報告のうち、実際に副作用として認定すべきものか否かは医療に携わるものによる判断が必要になるものの、逐一各報告を見て、その報告に記載されている副作用を認定するという作業だけでも、大変な労力となる。
そこで、本発明においては、上記問題に鑑みて、未知のデータを受け付けて、その未知のデータがどのような事案との関連性が高いかを提示するデータ分析システムを提供することを目的とする。
上記課題を解決するために、本発明の一実施態様に係るデータ分析システムは、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得部と、訓練データの少なくとも一部を構成するデータ要素が分類情報に応じて出現する分布から、医薬に関する情報のパターンを学習する学習部と、所定の情報源から未知データを取得する未知データ取得部と、学習されたパターンに基づいて、取得された未知データを複数の分類基準ごとに評価するデータ評価部と、未知データに含まれる医薬に関する情報を、データ評価部による評価に応じてユーザに提示する提示部とを備える。
また、本発明の一実施態様に係るデータ分析方法は、コンピュータが実行するものであって、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得ステップと、訓練データの少なくとも一部を構成するデータ要素が分類情報に応じて出現する分布から、医薬に関する情報のパターンを学習する学習ステップと、所定の情報源から未知データを取得する未知データ取得ステップと、学習されたパターンに基づいて、取得された未知データを複数の分類基準ごとに評価するデータ評価ステップと、未知データに含まれる医薬に関する情報を、データ評価ステップにおける評価に応じてユーザに提示する提示ステップとを含む。
また、本発明の一実施態様に係るデータ分析プログラムは、コンピュータに、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得機能と、訓練データの少なくとも一部を構成するデータ要素が分類情報に応じて出現する分布から、医薬に関する情報のパターンを学習する学習機能と、所定の情報源から未知データを取得する未知データ取得機能と、学習されたパターンに基づいて、取得された未知データを複数の分類基準ごとに評価するデータ評価機能と、未知データに含まれる医薬に関する情報を、データ評価機能による評価に応じてユーザに提示する提示機能とを実現させる。
また、未知データ取得部は、医療関係者を所定の情報源とし、当該医療関係者から報告される報告情報を未知データとして取得することとしてもよい。
また、未知データ取得部は、医薬に関する情報を収集するデータベースを所定の情報源とし、データベースに含まれる情報を未知データとして取得することとしてもよい。
また、学習部は、訓練データから当該訓練データの少なくとも一部を構成するデータ要素を抽出する抽出部と、抽出されたデータ要素各々の重み付け値を算出する算出部とを含み、抽出されたデータ要素と算出された重み付け値とを対応付けることにより、医薬に関する情報のパターンを学習することとしてもよい。
また、抽出部は、データ要素として、感情表現に係る形態素を抽出し、算出部は、感情表現に係る形態素の重み付け値を算出し、データ評価部は、未知データに含まれる感情表現に係る形態素に基づいて複数の分類基準ごとに当該未知データを評価することとしてもよい。
また、データ分析システムは、さらに、所定の医薬に関する情報である関連情報を予め記憶する記憶部を備え、提示部は、さらに、取得された未知データと関連すると推定される関連情報を、医薬に関する情報とともに提示することとしてもよい。
また、医薬に関する情報は、薬剤の効能又は副作用に関する情報であることとしてもよい。
また、医薬に関する情報は、医薬に関する所定の観点についての医療関係者の意見に関する情報であることとしてもよい。
本発明の一態様に係るデータ分析システム及びデータ分析方法並びにデータ分析プログラムは、複数の異なる事案を対象とした学習データ毎に、未知のデータの評価を提示するので、ユーザは、その未知のデータの内容を見ずとも、ある程度どのような事案との関連性が高いかを認識することができる。
実施の形態に係るデータ分析システムの機能構成を示すブロック図である。 データ分析のための教師データの作成処理を示すフローチャートである。 未知データの入力を受け付けた場合の学習データ毎のスコア算出処理を示すフローチャートである。 結果情報の一例を示すデータ概念図である。 事案の具体例を示すイメージ図である。 事案の具体例を示すイメージ図である。 事案の具体例を示すイメージ図である。
<実施の形態>
本発明に係るデータ分析システムの一実施態様について、図面を参照しながら説明する。
<概要>
従来、薬剤については、新規の副作用らしきものを発見した場合には、医療関係者・監督官庁等に薬剤とその副作用について報告することを定める医薬品・医療機器等安全性情報報告制度という制度がある。当該制度を利用することにより、例えば、医薬品について新たな副作用を発見し、副作用として認定することがある。一般に市販される医薬品などは多くの実験や臨床試験を経て、副作用がないものとして販売されるものの、その検体数の関係などから発見されにくい副作用が潜在している可能性がある。そのような副作用が発見された場合に備えて、当該制度が存在する。この活動は、ファーマコビジランス(pharmacovigilance)と呼称され、医薬品の監視活動を意味する。
しかし、当該制度により医療関係者等から上げられる報告は多数に上るため、実際に副作用として認定すべきか否か、薬剤と副作用とは因果関係があるか、重篤な報告があるか否かの仕分けは、大変な労力となる。そのため、数多ある報告について、例えば副作用と関連性の高い可能性がある報告とそうでない報告との分別も困難を極めることから、この分別を支援するシステムの開発が切望されている。
一方、医療関係の情報を提供するものとして、医療に関わる様々な情報が集積される医療ポータルサイトがあることが知られているが、蓄積されている情報は多岐にわたり、その中から所望の情報を取得するのは医療関係者であっても困難が伴う。例えば、ある薬剤についての様々なユーザの使用感を集積したページがあったとして、そのコメントの中から必要な重要情報を拾っていくのはコメントが多数に上る場合に逐一コメントを見て確認していくのは煩雑な作業となり、時間がかかるという問題がある。従来においてもキーワードを用いた検索システムはあるものの、そのデータの中に当該キーワードが存在しない場合には必要なデータであっても検索にヒットしない場合もあることから、より柔軟かつ高精度に数多あるデータの中から所望のデータを分別してくれるシステムの開発もまた切望されている。
そこで、本実施の形態に係るデータ分析システムは、入力されたデータについて、複数ある事案のいずれの事案との関連性が高いか否かを分析する。そのために、データ分析システムは、まず、複数ある事案のうちの一つの事案に関連するデータと関連しないデータとからデータ要素を抽出し、そのデータ要素各々の重み付け値を算出し、各データ要素と対応する重み付け値を対応付けて、それを第1の学習データとして記憶する。これを事案毎に行い、事案の件数分の学習データを生成する。
次に、データ分析システムは、いずれの事案との関連性が高いのかの分析がなされていない未知データの入力を受け付ける。そして、データ分析システムは、未知データからデータ要素を抽出し、各学習データについて算出されているデータ要素の重み付け値に基づき、学習データ毎の未知データの評価値(スコア、当該未知データとスコアを算出するのに用いた学習データが示す事案との関連性を定量化した値)を算出する。
これによって、データ分析システムは、スコアの多寡に応じて、未知データがいずれの事案との関連性が高いかを判断するための指標を提示することができる。
したがって、データ分析システムは、複数の基準(訓練データ)に基づく指標を提示することができるので、例えば、薬剤の副作用報告の場合であれば、多数挙げられた報告の中から、実際に副作用として認定すべき可能性が高い報告を示唆できる。また、例えば、医療ポータルサイトの場合であれば、様々に寄せられたコメントの中から重篤な情報を示唆することができる。
以下、データ分析システムの詳細について説明する。
<構成>
図1は、データ分析システム100の機能構成を示すブロック図である。
図1に示すように、データ分析システム100は、通信部110と、入力部120と、制御部130と、記憶部140と、表示部150とを含む。
通信部110は、ネットワークを介して他の機器にアクセスする機能を有する。また、通信部110は、ユーザ端末との通信が確立できる場合に、制御部130から伝達された未知データのスコアを、当該ユーザ端末に送信する機能も有する。
入力部120は、分類情報として、何を基準として分類するか否かについての情報の入力を受け付ける。すなわち、分類情報は、所定の事案(複数の事案のうちの一つの事案)に関連するか、又は、関連しないかを示す情報である。また、入力部120は、データが所定の事案に関連するか否かを示す情報をユーザから受け付けて制御部130に伝達する機能を有する。
制御部130は、記憶部140に記憶されている各種データを参照しながら、データ分析システム100の各部を制御する機能を有するプロセッサである。制御部130は、データ分析システム100が有する各種機能を統括的に制御する。
制御部130は、受付部131と、データ抽出部132と、分類情報受付部133と、データ分類部134と、要素抽出部135と、要素評価部136と、評価格納部137と、未知データ評価部138と、提示部139とを含む。
受付部131は、通信部110を介してネットワーク(例えば、インターネット、イントラネットなど)にアクセスし、当該ネットワーク上のデータを取得して、当該ウェブページ情報を記憶部140に記録する機能を有する。ここで、データ分析システム100が取り扱うデータは、文書データ(例えば、薬剤に関する資料や、その薬剤の副作用を記載した資料、ウェブにおいて取り交わされた各種コメント、電子メール、プレゼンテーション資料、表計算資料、打ち合わせ資料、契約書、組織図、事業計画書など、少なくとも一部にテキストを含むデータを主に指すが、画像データ、音声データ、映像データなど、任意のデータを広く含む。なお、受付部131は、データ分析システム100が備えるインターフェース(例えば、USBポートなど)を介して、接続された記録媒体(例えば、USBメモリ)からデータを受け付けることとしてもよい。
データ抽出部132は、記憶部140に記憶されているデータから必要に応じたデータを抽出する機能を有する。データ抽出部132は、データ要素の重み付け値を算出するために用いるデータをデータ分類部134に伝達する。また、データ抽出部132は、スコアが算出されていない未知データを記憶部140から抽出し、未知データ評価部138に伝達する。
分類情報受付部133は、所定の事案に対する分類情報を、入力部120から受け付ける。
ここで、例えば、所定の事案とは、「薬剤の副作用」であったり、「薬剤の効能評価」であったり、「ウェブページの特定の話題」であったりしてよく、様々な事案が該当し得る。また、分類情報は、例えば、「薬剤の副作用」の場合であれば、「副作用に関連する」、「副作用に関連しない」という分類情報を用いることが考えられ、「薬剤の効能評価」であれば、「とても良い」、「良い」、「普通」、「悪い」、「とても悪い」という分類情報を用いることが考えられ、「ウェブページの特定の話題」であれば、「話題に関連する」、「話題に関連しない」という分類情報を用いることが考えられる。分類の内容、及び、分類情報は、ユーザが定めることとする。また、上述の例に示したように分類情報は、2段階以上であれば、いくつあってもよい。
データ分類部134は、分類情報受付部133において受け付けられた分類情報のうち、データ抽出部132から伝達されたデータがいずれに該当するかを、入力部120からの入力に基づいて、決定する。データ分類部134は、データ抽出部132から伝達されたデータにいずれの分類に該当するかを示す分類情報を対応付けることで、データを分類する。データ分類部134は、分類情報を対応付けたデータを要素抽出部135に伝達する。データ分類部134は、例えば、データ抽出部132から伝達されたデータが、薬剤の副作用として発熱に関連するものである場合に、入力部120からの入力に従って、当該データに発熱の副作用に関連することを示す分類情報を付与する。ユーザにより指定された分類情報が対応付けられた(ラベリングされた)データを訓練データと呼称する。
要素抽出部135は、データ分類部134により分類情報が対応付けられたウェブページから、データ要素を抽出する機能を有する。ここで、要素抽出部135は、例えば、(1)データが文書データの場合、当該文書データに含まれるキーワード(いわゆる、形態素)、センテンス、段落などをデータ要素として抽出し、(2)データが音声データの場合、当該音声データに含まれる部分音声をデータ要素として抽出し、(3)データが画像データの場合、当該画像データに含まれる部分画像をデータ要素として抽出し、(4)データが映像データの場合、当該映像データに含まれるフレーム画像(又は、複数のフレーム画像の組み合わせ)をデータ要素として抽出することができる。
要素抽出部135が抽出するデータ要素は、所定の選定基準に従ってデータ分析システム100により選定される。ここでデータ要素を選定する手法としては、一例として、分類情報で示される分類に該当する訓練データに頻出するデータ要素を用いるとよい。例えば、データ要素は、分類情報が所定の事案に「関連する」又は「関連しない」の2値で管理するとした場合に、所定の事案に関連する訓練データから抽出されたキーワードから、所定の事案に関連しない訓練データから抽出されたキーワードを除去した残りのキーワードをデータ要素として選定することとしてもよい。また、データ要素は、データ分析システム100に対してユーザが入力部120を用いて指定することとしてもよい。
要素評価部136は、要素抽出部135が抽出した各データ要素を予め定められた所定の評価基準に従って評価する機能を有する。要素評価部136は、所定の評価基準として、データ要素について分類情報との依存関係を示す伝達情報量を用いて評価することとしてよい。例えば、要素抽出部135が、ウェブページに含まれる文書情報(テキスト)からデータ要素としてキーワードを抽出した場合に、当該キーワードの重み(weight)値を算出することによって当該キーワードを評価する。
要素評価部136は、要素抽出部135が抽出した各データ要素の重みを所定のアルゴリズムに従って算出する。ここでは、話を簡単にするために、分類情報は、所定の事案に「関連する」と「関連しない」の2値で処理を行うものとする。
要素評価部136は、算出したデータのスコアについて、ユーザが所定の事案に関連すると判断した訓練データのスコアが、ユーザが所定の事案に関連しないと判断した訓練データのスコアよりも上位に位置するようになるまで、各データ要素の評価値を繰り返し再評価し、その重みを算出しなおすことができる。具体的には、まず、要素評価部136は、一度算出した重みに基づいて、訓練データのスコアを算出する。要素評価部136は、スコアに従って、訓練データを並べる。このとき、データ分析システム100による評価においては、所定の事案に関連する訓練データが上位に、所定の事案に関連しない訓練データが下位に並ぶようになっていることが望ましい。そこで、要素評価部136は、例えば、所定の事案に関連する訓練データのスコアが上位に並ぶように、そして、所定の事案に関連しない訓練データのスコアがその下位に並ぶようになるまで、当該算出を実行する。
要素評価部136は、データ要素の重み付け値wgtについて、例えば、以下の式(1)を用いて算出する。
Figure 2016147276
ここで、wgtは、学習前のi番目の選定キーワードの重み付け値の初期値を示す。また、wgtは、L回目学習後のi番目の選定キーワードの重みを示す。γはL回目の学習における学習パラメータを意味し、θは学習効果の閾値を意味する。
要素評価部136は、算出した各データ要素に対応付けてそれぞれの重み付け値を評価格納部137に伝達する。
評価格納部137は、要素評価部136から伝達された各データ要素とその重み付け値を対応付けて記憶部140に格納する機能を有する。
未知データ評価部138は、データ抽出部132から伝達された未知データを、記憶部140に記憶されているデータ要素の重み付け値を用いて、所定の事案に関連するか否かを評価する機能を有する。
具体的には、未知データ評価部138は、データ抽出部132から伝達された未知データ(分類情報が対応付けられていない(ラベリングされていない)データ)に含まれるデータ要素を特定する。そして、当該データ要素の評価値を、記憶部140に格納されている各データ要素の重み付け値を参照して特定する。そして、未知データ評価部138は、未知データに含まれるデータ要素各々の重み付け値を統合して、予め定められた範囲内の値(例えば、0〜10000の間)をとるように、スケーリングして当該未知データのスコアとして算出する。
より具体的には、例えば、未知データ評価部138は、未知データから抽出されたデータ要素についてのデータ要素ベクトルを生成する。データ要素ベクトルは、記憶部140に評価付けされているデータ要素が未知データに含まれるか否かに基づくベクトル(bag of words)である。
未知データ評価部138は、記憶部140に未知データに重み付け値が対応付けられているデータ要素が含まれている場合に、データ要素ベクトルの対応するベクトル値を「0」から「1」に変更する。そして、こうして未知データから抽出されたデータ要素に基づいて、その未知データについてのデータ要素ベクトルを生成する。未知データ評価部138は、生成したデータ要素ベクトルと、各データ要素の評価値(重み)との内積を計算することにより、未知データのスコアSを算出する(下記式(2)参照)。
Figure 2016147276
ここで、sはキーワードベクトルを表し、wは重みベクトルを表す。なお、Tは転置を意味する。なお、未知データ評価部138は、上記のように、未知データ毎に1つのスコアを算出することもできるし、未知データを所定の区切り(例えば、センテンス、段落、所定の長さで分割された部分音声、所定数のフレームを含む部分動画など)で分けた単位毎に1つのスコアを算出することもできる(詳細については後述する)。
提示部139は、未知データ評価部138により算出された未知データのスコアを提示する機能を有する。なお、提示部139は、未知データのスコアに関する情報をユーザに提示すると記載したが、これは一例であり、その他にも例えば、スコアの高いものから降順でウェブページを提示することとしてもよいし、所定のスコア以上の未知データを提示することとしてもよい。提示部139は、必要に応じて、未知データとそのスコアを含む提示情報を、通信部110又は表示部150に伝達する。例えば、提示部139は、通信部110がユーザの通信端末と通信可能に接続されている場合には、提示情報を通信部110に伝達し、それ以外の場合には表示部150に伝達する。
記憶部140は、データ分析システム100が、データ分析のために用いるために必要とするプログラム及び各種データを記憶する機能を有する記録媒体である。記憶部140は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、半導体メモリ、フラッシュメモリなどにより実現される。なお、図1では、データ分析システム100が記憶部140を備える構成を示しているが、記憶部140は、データ分析システム100外部のものであって、データ分析システム100と通信可能に接続された記憶装置であってもよい。記憶部140は、データ要素の重み付け値を対応付けて記憶する。
表示部150は、制御部130から出力された表示データに基づく画像を表示する機能を有するモニターである。表示部150は、例えば、LCD(Liquid Crystal Display)や、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)ディスプレイなどにより実現されてよい。本実施の形態においては、表示部150は、提示部139から伝達された学習データ毎の未知データのスコアを表示する。
<動作>
図2は、データ分析システム100の、訓練データを分析し、データ要素の評価を算出する際の動作を示すフローチャートである。
図2に示すように、データ分析システムのデータ抽出部132は訓練データをデータ分類部134に伝達する(ステップS201)。一方で、分類情報受付部133は、訓練データに対する分類の指定(例えば、所定の事案に関連する、関連しないなど)を受け付ける(ステップS202)。
データ分類部134は、入力部120からユーザの指定による分類情報を訓練データに対応付けることにより分類する(ステップS203)。例えば、データ分類部134は、訓練データが所定の事案に関連するとの指定を、入力部120を介して受け付けていた場合に、訓練データに対して所定の事案に関連するという分類情報を対応付ける。
要素抽出部135は、訓練データ(所定の事案に関するか否かの分類情報が対応付け(ラベリング)された情報であって、例えば、薬剤の効能情報、薬剤の副作用の症例報告書など)からデータ要素を抽出する(ステップS204)。
要素評価部136は、要素抽出部135が抽出したデータ要素各々を評価し、その重み付け値を算出する(ステップS205)。要素評価部136は、算出した重み付け値を要素評価部136に伝達する。
要素評価部136は、データ要素の重み付け値に、他のデータ要素に対して算出された重み付け値を加味した重み付け値を、上記式(2)を用いて、算出する(ステップS206)。要素評価部136は、算出した重み付け値と対応するデータ要素を評価格納部137に伝達する。
評価格納部137は、伝達された重み付け値と対応するデータ要素を示す情報とを対応付けてi(iは、0以上の整数であって、それまでに記憶されている学習データに対応付けられている番号以外の数字であり、学習データを識別する情報である。)番目の学習データとして記憶部140に格納する(ステップS207)。
データ分析システム100は、各事案毎に、当該事案に関連するデータと関連しないデータとからデータ要素を抽出し、そのデータ要素の重み付け値を算出して、データ要素に対応付けた学習データを生成する。従って、データ分析システム100は、必要な事案毎の学習データ、すなわち、複数の学習データを生成し、記憶することとなる。これにより、データ分析システム100は、複数の事案との関連性を示す指標となるスコアを算出できるようになる。
図2に示す処理を実行することにより、データ分析システム100は、未知データを評価するための前段階としてデータ要素の重み付け値を算出し、記憶することができる。
以上が、データ要素の各評価を決定するまでのデータ分析システム100の動作である。図2に示す処理は、未知データを分類するために、ユーザが指定した分類がなされた(分類情報が対応付けられた)訓練データを取得し、当該訓練データに含まれるパターン(例えば、キーワード、概念的には、当該キーワードの分布、当該訓練データによって表される意味・概念など)を抽出する処理でもある。図2に示す処理により、未知データを所定の事案に関連するか否かを特定するための前処理が完了する。
図3は、データ分析システム100の未知データのスコアを算出する際の動作を示すフローチャートである。
図3に示すように、データ分析システム100の未知データ評価部138は、データ抽出部132から未知データを受け付ける(ステップS301)。
未知データ評価部138は、データ抽出部132から伝達された未知データからデータ要素を抽出する(ステップS302)。
未知データ評価部138は、学習データを特定するための変数iを0に初期化する(ステップS303)。
未知データ評価部138は、i番目の学習データを記憶部140から読み出す(ステップS304)。
未知データ評価部138は、i番目の学習データにおいて抽出したデータ要素に対応付けられている重み付け値を特定し、当該重み付け値を記憶部140から取得する(ステップS305)。
そして、未知データ評価部138は、取得した各データ要素の評価に基づいて(例えば、前述した式(2)を用いて)、当該データ要素を抽出したウェブページのスコアを算出する(ステップS306)。
未知データ評価部138は、全学習データについてスコアを算出したか否かを、iが全学習データの個数よりも1少ない値であるか否かに基づいて判定する(ステップS307)。
全学習データについてのスコアを算出している場合には(ステップS307のYES)、未知データ評価部138は、算出した各学習データのスコアを、各学習データが示す事案の情報に対応付けて提示部139に伝達する。そして、提示部139は、伝達された事案の情報とスコアとを対応付けた結果情報をユーザに提示する(ステップS308)。結果情報は、提示部139から通信部110又は表示部150に伝達され、ユーザに提示される。
一方、全学習データについてのスコアを算出していない場合には(ステップS307のNO)、未知データ評価部138は、iに1加算し(ステップS309)、ステップS304に戻る。
提示部139が提示する結果情報の一例を図4に示す。
図4は、結果情報400の一例を示すテーブルである。図4に示すように結果情報400は、未知データ識別情報401と、事案識別情報402と、スコア403とを含むテーブルである。
未知データ識別情報401は、データ分析システム100に入力された未知データであって、分析対象のデータがどのデータであるかを識別するための情報である。
事案識別情報402は、スコアがどの事案に対応するかを識別するための情報である。
スコア403は、対応する事案のデータ分析システム100による分析により算出されたスコアを示す情報である。
当該結果情報400を提示することによりユーザは未知データがどの事案との関連性が高いのかを認識することができる。例えば、図4の例で言えば、未知データ「#12201」は、「事案C」との関連性がある可能性が高いことが、そのスコアが他の事案のスコアよりも高いことから理解することができる。なお、図4では、結果情報400の一例として表を提示することとしているが、これは、当該表に基づいて生成されるグラフなどであってもよい。
図3に示す処理を実行することにより、データ分析システム100は、入力された未知データについて、各事案との関連性の高低を示す指標を提示することができる。
図3に示す処理は、未知のデータを、所定の事案に関連するか否かを評価するためのスコアを算出する処理であると言える。言い換えれば、訓練データから抽出されたパターンが、未知データに含まれるか否かを分析することによって、当該未知データと所定の事案(例えば、薬剤に関連するか、薬剤の副作用に関連するか、ある観点に合致しているかなど)との関連性を評価する処理でもあると言える。
<データ例>
以下に、訓練データと未知データとについての具体例を説明する。
(例1)
図5を用いて、訓練データと未知データについての一具体例を説明する。
図5は、未知のデータとして、薬剤の副作用に関連するか否かを分類したい場合の訓練データ又は未知データの一具体例を示す図である。図5は、副作用情報500の一例を示すものであり、例えば、薬剤情報501と、効能情報502と、症例情報503とを含む。
薬剤情報501は、薬剤に関する基本情報を示す情報である。ここで基本情報は、例えば、薬剤の名称、主成分、許認可情報、製造元などの情報を含んでよい。
効能情報502は、薬剤がどのような傷病に対して効果があるのかを示す情報である。
症例情報503は、薬剤情報501で示される薬剤Aについて副作用に関する症例情報であり、医者の見解や患者の感想などの情報を含む。
データ分析システム100は、症例情報503として何点かの薬剤Aの副作用と関連する副作用情報500と、薬剤Aの副作用と関連しない副作用情報500とを、訓練データとして何点かの入力を受け付け、これらからデータ要素を抽出して重み付け値を算出し、薬剤Aの副作用に関する学習データとして記憶する。
また、データ分析システム100は、新たな症例情報を受け付けた場合には、症例情報503に記載の内容に対して分析を行い、いずれの副作用との関連性が高いかを示すスコアを各学習データ毎に算出し、提示する。
例えば、症例情報の中に「倦怠感」という単語が登場する場合には、「倦怠感」という語がデータ要素として抽出され、重み付け値が対応付けられる可能性があり、その重み付け値が学習データとして記憶される。そして、新たな未知データを受け付けた場合に、当該未知データからデータ要素を抽出し、その中に「倦怠感」がある場合には、当該薬剤の副作用を示す情報である可能性が高い情報として高いスコアが提示されることになる。これによって、薬剤の副作用に関すると思しき未知データが入力された場合に、多数の副作用毎の学習データそれぞれについてのスコアが提示され、関連性が高いと推定される副作用の学習データに基づくスコアは高い値になることから、関連性の高い副作用がわかるとともに、今までに認定(発見)されていなかった副作用についても、そのスコアが高ければ新たな副作用として発見し得る。また、これらのスコアが低ければ、未知データが副作用との関連性は低いものとして分類することもできるので、不要な報告を閲覧するための時間を短縮することもできる。したがって、データ分析システム100は、未知データが副作用に関連する可能性が高いか低いかで分類したり、どのような副作用と関連性が高そうかなどの分類をしたりすることができるので、多数の薬剤の副作用に関する報告が挙げられた場合の分類の支援を行うことができる。
また、未知データが薬剤の副作用に関するものか否かの分類をするにあたっての分類は、上述の特定の副作用毎の分類以外の手法を用いてもよい。
例えば、「副作用と関連する」「副作用と関連しない」という分類で第1の学習データを作成し、「重篤である(医療関係者から見てデータの重要性が高い)」「重篤でない」という分類で第2の学習データを作成し、「特定の薬剤に関連する」「特定の薬剤に関連しない」という分類で第3の学習データを作成するなどして、複数の基準の分類で学習データを作成し、それぞれの学習データに基づいて未知データのスコアを算出することとしてもよい。この場合には、全ての学習データに基づくスコアが高い(一定の閾値以上)報告を、特定の薬剤の副作用に関連する可能性が高い報告として分類することができる。なお、ここでは、薬剤の副作用としているが、これは薬剤に限るものではなく、例えば、医療機器の弊害などであってもよい。
(例2)
図6を用いて、訓練データと未知データについての別の一具体例を説明する。
図6は、ウェブ上で、質問者が質問した観点についての、多種多様なユーザの意見が述べられた、所謂、ネット掲示板のようなウェブページの一例を示す図である。ここでの観点は、例えば、薬剤の効果、所望の薬剤を作成するにあたって必要と思われる薬品、特定の傷病の治療にあたっての効果的手法、など医薬に関するものである。
掲示板600は、様々なユーザのコメント601〜605を含む。これらのコメントについて、本当に話題と関連するか否かの仕分けもまた煩雑な作業となり得るが、データ分析システム100を用いれば、各コメントについて話題との関連性があるか否かを判断するための指標(スコア)を提示することができる。コメント601〜605は、話題と関連するコメントもあれば、関連しないコメントもある。
掲示板600のような情報の場合には、データ分析システム100は、各コメントが話題と関連するか否かを分類する。
データ分析システム100は、ユーザの各コメントについて話題「○○」と関係するコメントと関係しないコメントとを何点か指定する。そして、指定したコメントを訓練データとして、データ要素を抽出し、それぞれ話題「○○」と関連するか否かを示す分類情報に従って、重み付け値を算出し、記憶部140に記憶する。これにより話題「○○」に関する学習データが生成される。
また、その他の話題についても同様にして学習データを生成する。
そして、学習データを生成した後に、データ分析システム100は、分類していない各コメントについて話題と関連するか否かを判定するための指標(スコア)を算出し、提示する。
図6に示すような、データを用いることで、例えば、新たな薬品開発や、薬剤の改良などのためのマーケティングなどに利用することができる。掲示板600において、話題と関連するコメントを特定(スコアの高いコメントを特定)することで、全てのコメントを読まずとも、必要なコメントを抽出できる。
また、データ分析システム100は、定められた話題とは関係のない話題であって、他の学習データの話題と関係する場合には、その学習データとの関連性も高いスコアとなって提示することができる。すなわち、データ分析システム100は、ある定められた話題を議論するスレッドの中のコメントでありながら、他の話題との関連性も評価することができる。本例の場合、データ分析システム100は、特にポータルサイト運営システムとしての活用が見込める。
したがって、例えば、ある医者が、「花粉症の対処」について様々な意見を知りたい場合に、「花粉症に関連する」、「花粉症に関連しない」という分類に基づく学習データと、「対処に関連する」「対処に関連しない」という分類に基づく学習データなどの複数の学習データがあれば、多数ある花粉症の話題の中から、本当に「花粉症の対処」について述べている可能性が高いコメントをピックアップ(分類、選別)することができる。
(例3)
図7を用いて、訓練データと未知データについての更なる一具体例を説明する。
図7は、薬剤について、その薬剤を利用したユーザの使用感などを示すウェブページの一例を示す図である。
図7に示すようにウェブページ700は、薬品情報701と、薬品情報701で示される薬品を使用した患者の使用感などを示すコメント702〜704を含む。
薬品情報701は、薬剤に関する基本情報を示す情報である。ここで基本情報は、例えば、薬剤の名称、主成分、許認可情報、製造元、処方の仕方などの注意事項の情報を含んでよい。
コメント702〜704は、薬品情報701を使用した患者の使用感などや、当該薬品に対する意見などの情報を含む。なお、コメントには、薬品情報701とは全く関係のないコメントが含まれることもある。
このようなウェブページ700を扱う場合にも、上記(例2)と同様に、コメントについて、薬品情報701で示される薬品との関連性があるコメントと関連性のないコメントとを何点か指定し、それらのコメントからデータ要素を抽出する。そして、データ分析システム100は、抽出したデータ要素に重み付け値を算出し、薬品Aに関する学習データとして記憶部140に記憶する。
また、データ分析システム100は、その他の薬品についても同様に学習データを生成し、記憶部140に記憶する。
そして、データ分析システム100は、各薬品の各コメントについて、それぞれの薬品との関連性を評価するための指標(スコア)を提示する。これにより、データ分析システム100は、ユーザが薬品Aに対する感想を記載したつもりでも、実際には薬品Bに対するコメントとして記載した場合に、当該コメントが薬品Aに対するものである可能性を示唆することができる。
例えば、「薬品Aに関する」「薬品Aに関しない」という分類で作成された学習データと、「効能に関する」「効能に関しない」という分類で作成された学習データとがあれば、複数あるコメントの中から両方のスコアが高い未知データを、薬品Aの効能に関連する可能性の高いデータとして分別することができるし、そこにさらに、「20歳代のユーザに関する」「20歳代のユーザに関しない」という分類で作成された学習データがあれば、「20歳代のユーザに対する薬品Aの効能」に関連する可能性の高い未知データ(コメント)を分類、選択することもできる。
<まとめ>
上述の処理により、未知データを評価するにあたっては、医薬に関する複数ある学習データについての関連性を評価したスコアを提示することになるので、入力された未知データがどのような医薬の知見との関連性が高いかを判断し易くなる。特に上述の具体例で示したような薬剤の効能、薬剤の副作用、観点などについては、様々な種類があることから、1つの学習データからでは1つの事案との関連性だけしか評価できず評価としては心もとない一面があったところ、データ分析システム100は、様々な事案との関連性を評価したスコアを提示することにより、未知データの多角的分析精度の向上が見込める。
<変形例>
上記実施の形態に係る発明の一実施態様を説明したが、本発明に係る思想がこれに限られないことは言うまでもない。以下、本発明に係る思想として含まれる各種変形例について説明する。
(1)上記実施の形態においては、未知データ評価部138は、データ要素ベクトルと各データ要素の重みの内積をとることで、未知データのスコアを算出することとしたが、当該算出方法は一例に過ぎない。未知データ評価部138は、その他の算出方法を用いて未知データのスコアを算出することとしてもよい。例えば、未知データ評価部138は、上記式(2)に換えて、以下の式(3)を用いて、未知データのスコアSを算出してもよい。
Figure 2016147276
ここで、mjは、j番目のキーワードの出現頻度を表し、wiは、i番目のキーワードの重みを表す。
(2)上記実施の形態においては、データ要素間の共起に基づく重み付け値を算出することとしているが、未知データを評価する段階において、更に、共起に基づくスコア算出を行ってもよい。その手法の詳細をここに説明する。
例えば、評価対象の未知データにおいて、データ要素として、第1キーワードと第2キーワードとが出現するとする。このとき、未知データ評価部138は、第1キーワードが未知データに出現する際に、当該未知データにおいて、第2キーワードが出現する頻度(第1キーワードと第2キーワードとの間の相関。共起ともいう)を考慮したスコアリングを実行してもよい。
この場合、未知データ評価部138は、第1キーワードと第2キーワードとの相関(共起)を表す相関行列(共起行列)Cを用いて、上記式(2)に換えて、以下の式(4)にしたがってスコアを算出することとしてもよい。
Figure 2016147276
なお、上記相関行列Cは、所定のテキストを所定数だけ含む学習用データを用いて、予め最適化されているものとする。例えば、あるテキストにおいて「価格」というキーワードが出現する場合、当該キーワードに対する他のキーワードの出現数を0〜1の間に正規化した値(最尤推定値ともいう)が、上記相関行列Cの要素に格納される。
式(4)を用いることにより、キーワード間の相関関係を考慮したスコアを算出できるため、より高い精度で未知データのスコアを算出することができる。
なお、ここでは、スコアを算出する際に、共起関係を考慮することとしているが、事前の重み付け値を算出する際に、共起関係を考慮した上で重み付け値を算出することとしてもよい。すなわち、一度、各データ要素の重み付け値を算出した後に、データ要素の重み付け値に、他のデータ要素に対して算出された重み付け値を加味して(例えば、所定の係数をかけた重み付け値を加算する)データ要素の重み付け値を算出することとしてもよい。
(3)上記実施の形態においては、詳細に説明していないが、未知データ評価部138は、未知データに含まれる部分データ(例えば、センテンス、段落、所定の長さで分割した部分音声、所定数のフレームを含む部分動画など)毎にスコアを算出し、そのスコアに基づいて未知データのスコアを算出することとしてもよい。その手法の詳細をここに説明する。
未知データ評価部138は、部分データ毎に所定のデータ要素(例えば、キーワード)が含まれるか否かを示すベクトルを、当該部分データ毎に生成する。そして、未知データ評価部138は、下記式(5)にしたがって未知データのスコアリングを実行する。
Figure 2016147276
ここで、sは、i番目の部分データに対応するベクトルである。なお、式(5)においては、共起も考慮した数式(共起行列Cを用いている)であることに注意されたい。当該、共起行列は、含まなくともよい。
上記式(5)におけるTFnormは、以下の式(6)のように算出することができる。
Figure 2016147276
ここで、上記式(6)において、TFは、i番目のデータ要素(キーワード)の出現頻度(Term Frequency)を表し、sjiは上記i番目のキーワードベクトルのj番目の要素を表し、cjiは相関行列Cのj行i列の要素を表す。
上記式(5)、(6)を統合すると、未知データ評価部138は、以下の式(7)を計算することにより、部分データスコアベースで、ウェブページ毎にスコアを算出することができる。
Figure 2016147276
上記式(7)において、wは、重みベクトルwのi番目の要素である。
以上のように、データ分析システム100は、データの一部に含まれる意味(例えば、センテンスの文意)を反映したスコアリングを実行できるので、より高い精度で未知データのスコアを提示することができる。
(4)上記実施の形態においては、提示部139は算出したスコアを提示するのみであるが、その他に、所定の事案に関連する可能性の他のデータを提示することとしてもよい。
例えば、データ分析システム100は、生成した学習データに、関連する関連情報を対応付けて、記憶部140に記憶しておく。ここで関連情報は、例えば、上記例1の場合で言えば、すでに薬剤の副作用として認定されている副作用に関する情報などであってよい。そして、提示部139は、その関連する情報を、事案毎のスコアに対応付けて提示することとしてもよい。
(5)上記実施の形態においては、特に記載していないが、要素評価部の評価対象として、未知データを作成したユーザ(例えば、ウェブページの記事を記載したユーザや症例情報を作成した医者など)の感情を対象としてもよい。具体的には、未知データ上でいわゆる感情を表す単語(形容詞、形容動詞)に重きをおいた評価を実行してもよい。
この場合には、キーワードとして、予め、形容詞や形容動詞を指定しておくとよい。
当該評価方法についての一具体例を説明する。
まず、データ分析システム100の要素評価部136は、訓練データに含まれるデータ要素(ユーザの感情表現を含むデータ要素、例えば、「楽しい」、「悲しい」などの形態素)に対する感情評価を対応付けて記憶する。例えば、訓練データに含まれるテキストについて、予め定められたキーワード(当該キーワードは、テキストの場合では、感情に関する文言)が当該テキストに含まれるか否かを探索する。含まれていた場合に、当該キーワードを所定の基準に従って算出した感情スコアを当該キーワードに対応付けて記憶部140に記憶しておく。
そして、未知データ評価部138は、未知データから、予め定められた感情に係るキーワードを抽出する。そして、抽出したキーワードに対して、記憶部140において対応付けられている感情スコアを参照する。未知データ評価部138は、未知データから抽出されたキーワード各々の感情スコアを統合して、未知データの感情スコアとする。
例えば、テキストに、「この薬品の効果は高かったのが喜ばしい。ただし、躁状態に近しい状態になるのが少々残念だ。」という文章が含まれていたとする。そして、キーワードとして、予め、「喜ばしい」「残念」が記憶部140に格納され、それぞれ、「+1.4」、「+0.1」という感情スコアが対応付けられているとする。この場合、未知データ評価部138は、当該テキストに対する感情スコアとしては、例えば、両者を加算して、「+1.5」という感情スコアを算出する。
提示部139は、このようにして算出された感情スコアを、未知データのスコアとして提示してもよい。
なお、データ分析システム100は、上記構成を実現するために、キーワードに対する感情スコアを格納する感情格納部、未知データからデータ要素を抽出し、そのデータ要素として感情に係るキーワードを抽出する感情抽出部を備えてもよい。
(6)上記実施の形態においては、文書情報(テキスト)を分析する例を説明したが、上述したように、音声や画像、映像に対する分析を行ってもよい。
例えば、音声の場合であれば、音声そのものを分析の対象としてもよいし、音声認識により音声を文書に変換したうえでの分析を実行してもよい。
音声そのものを分析する場合には、音声を所定の長さの部分音声に分割して、部分音声を分析の対象とする。例えば、「この映画が面白い」という音声が得られた場合、データ分析システム100は、「映画」及び「面白い」という部分音声を当該音声から抽出し、当該部分音声を評価した結果に基づいて、未知の音声と分類情報との関連性を評価することができる。このような場合、データ分析システム100は、時系列データの分類アルゴリズム(例えば、マルコフモデル、カルマンフィルタなど)を利用して音声を分類できる。
音声をテキストに変換する場合には、上記実施の形態に示した場合と同様に分類すればよい。音声のテキストへの変換には、任意の音声認識アルゴリズム(例えば、隠れマルコフモデルを用いた認識方法など)を用いればよい。
あるいは、データ分析システム100は、動画を分析することもできる。この場合にはデータ分析システム100は、動画に含まれるフレーム画像を抽出し、任意のパターンマッチングにより、動画のフレーム内に、あらかじめ定められたデータ要素としての画像(事物や人物など)が含まれるか否かにより、動画を解析し、分類情報との関連性を評価することとしてもよい。
(7)上記実施の形態に示したデータ分析システム100は、医療応用システムで用いる例を説明したが、その他の様々なシステムに適用することができる。
例えば、ディスカバリー支援システム、フォレンジックシステム、メール監査システム、インターネット応用システム、知財調査システム、実績評価システム(プロジェクト評価システム)、ドライビング支援システム、取引管理システム、コールセンターエスカレーションシステム、マーケティングシステムなど、少なくとも一部において、構造定義が不完全なデータ(非構造化データ、例えば、自然言語を含む文書データ)を扱う任意のシステムに適用できる。
例えば、メール監査システムを例に挙げて説明すると、不正に関するメールを特定したい場合に、予め、不正に関係するメールと不正に関係しないメールとを教師データとして、データ要素を抽出して、その重み付け値を算出する。当該重み付け値は、不正に関係するメールに多く出現したデータ要素ほど高い値になるとする。
また、さらに、不正以外に、組織に対する不満に関するメールを特定したい場合に、予め、不満に関係するメールと不満に関係しないメールとを教師データとして、データ要素を抽出して、その重み付け値を算出する。当該重み付け値は、不満に関係するメールに多く出現したデータ要素ほど高い値になるとする。
そして、未知のメールを入力として、未知データ評価部138は、記憶部140に記憶されている重み付け値を用いて、未知のメールのスコアを算出する。つまり、この場合、データ分析システムは、不正に関するメールかどうかと、不満に関するメールかどうかとを判断するためのスコアを提示する。
また、ディスカバリー支援システムでは訴訟関連書類の分類、フォレンジックシステムでは捜査書類の分類、インターネット応用システムでは、ウェブページの分類、知財調査システムでは特許明細書の分類などに適用することができる。
(8)上記実施の形態においては、提示部139は、未知データの学習データ毎のスコアを提示することとしたが、これはその限りではない。提示部139は、スコア以外の未知データを評価し得る情報であれば他の情報を知見情報として提示することとしてもよい。
例えば、複数の未知データが入力された場合に、その複数の未知データそれぞれについて、各学習データ毎のスコアを算出し、全ての学習データについて一定の閾値以上となる未知データそのものを提示することとしてもよい。これにより、データ分析システムは、所定の事案と関連性が高い可能性がある未知データを提示することができる。
(9)データ分析システム100(情報処理装置)の各機能部は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよい。データ分析システム100の各機能部は、1又は複数の集積回路により実現されても良いし、複数の機能部が1の集積回路により実現されてもよい。
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記ゲームプログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(又はCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該ゲームプログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
なお、上記データ分析プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。また、上記データ分析プログラムによって実現される各機能を実現する各部を備えた情報処理装置と、上記各機能とは異なる残りの機能を実現する各部を備えたサーバとを含む分散型のデータ分析システムも、本発明の範疇に入る。
(10)本発明を諸図面や実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易であることに注意されたい。従って、これらの変形や修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各ステップ等に含まれる機能等は再配置可能であり、複数の手段やステップ等を1つに組み合わせたり、或いは分割したりすることが可能である。
(11)上記実施の形態及び各種変形例に示す構成を適宜組み合わせることとしてもよい。
<補足>
ここに本発明に係るデータ分析システムの一実施態様とその効果について述べる。
(a)本発明に係るデータ分析システムは、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得部(132、133)と、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習部(134〜137)と、所定の情報源から未知データを取得する未知データ取得部(131、132)と、前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価部(138)と、前記未知データに含まれる医薬に関する情報を、前記データ評価部による評価に応じて前記ユーザに提示する提示部(139)とを備える。
また、本発明に係るデータ分析方法は、コンピュータが実行するものであって、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得ステップと、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習ステップと、所定の情報源から未知データを取得する未知データ取得ステップと、前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価ステップと、前記未知データに含まれる医薬に関する情報を、前記データ評価ステップにおける評価に応じて前記ユーザに提示する提示ステップとを含む。
また、本発明に係るデータ分析プログラムは、コンピュータに、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得機能と、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習機能と、所定の情報源から未知データを取得する未知データ取得機能と、前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価機能と、前記未知データに含まれる医薬に関する情報を、前記データ評価機能による評価に応じて前記ユーザに提示する提示機能とを実現させる。
これにより、未知データの、複数の学習データが各々対応する事案との関連性を評価することができるので、当該未知データについて多角的な評価をすることができる。
(b)上記(a)に係るデータ分析システムにおいて、前記未知データ取得部は、医療関係者を前記所定の情報源とし、当該医療関係者から報告される報告情報を前記未知データとして取得することとしてもよい。
これにより、データ分析システムは、医療関係者から報告される報告情報を複数の分類基準ごとに評価することができるので、当該報告情報の分類を支援することができる。
(c)上記(a)または(b)に係るデータ分析システムにおいて、未知データ取得部は、前記医薬に関する情報を収集するデータベースを前記所定の情報源とし、当該データベースに含まれる情報を前記未知データとして取得することとしてもよい。
これにより、データ分析システムは、例えば、医療ポータルサイトにあげられている多くの情報を未知データとして分析することができるので、数多ある情報の中から所望の情報と関連する情報であるか否かを分類する支援を行うことができる。
(d)上記(a)から(c)のいずれかに係るデータ分析システムは、前記学習部は、前記訓練データから当該訓練データの少なくとも一部を構成するデータ要素を抽出する抽出部(135)と、前記抽出されたデータ要素各々の重み付け値を算出する算出部(136)とを含み、前記抽出されたデータ要素と前記算出された重み付け値とを対応付ける(137)ことにより、前記医薬に関する情報のパターンを学習することとしてもよい。
これにより、データ分析システムは、データを構成するデータ要素に対する重み付け値を算出することで情報のパターンを学習することができる。
(e)上記(a)から(d)のいずれかに係るデータ分析システムは、前記抽出部は、前記データ要素として、感情表現に係る形態素を抽出し、前記算出部は、前記感情表現に係る形態素の重み付け値を算出し、前記データ評価部は、前記未知データに含まれる感情表現に係る形態素に基づいて前記複数の分類基準ごとに当該未知データを評価することとしてもよい。
これにより、データ分析システムは、未知データに含まれる感情表現に基づく評価を実行することができる。とくに、薬剤の副作用や薬剤の使用感などには医療関係者やユーザの主観が混じることも考えられることから、感情表現に基づく評価は一定の信頼がおける評価となりやすいと考えられるため、データ分析システムは、未知データに対して、より高精度の評価ができる。
(f)上記(a)から(e)のいずれかに係るデータ分析システムは、前記データ分析システムは、さらに、所定の医薬に関する情報である関連情報を予め記憶する記憶部を備え、前記提示部は、さらに、前記取得された未知データと関連すると推定される関連情報を、前記医薬に関する情報とともに提示することとしてもよい。
これにより、データ分析システムは、更なる情報を提示することができるので、これを見たユーザは、未知データが事案との関連をより客観的かつより正確に評価を判断することができるようになる。
(g)上記(a)から(f)のいずれかに係るデータ分析システムは、前記医薬に関する情報は、薬剤の効能又は副作用に関する情報であることとしてもよい。
これにより、データ分析システムは、薬剤の効能又は副作用に関する情報の分析を支援することができる。
(h)上記(a)から(f)のいずれかに係るデータ分析システムは、前記医薬に関する情報は、医薬に関する所定の観点についての医療関係者の意見に関する情報であることとしてもよい。
これにより、データ分析システムは、医薬に関する観点についての情報の分析を支援することができる。
本発明は、パーソナルコンピュータ、サーバ装置、ワークステーション、メインフレームなど、任意のコンピュータに広く適用することができる。
100 データ分析システム
110 通信部
120 入力部
130 制御部
131 受付部
132 データ抽出部
133 分類情報受付部
134 データ分類部
135 要素抽出部
136 要素評価部
137 評価格納部
138 未知データ評価部
139 提示部
140 記憶部
150 表示部

そこで、本発明においては、上記問題に鑑みて、未知のデータを受け付けて、その未知のデータがどのような事案との関連性が高いかを提示するデータ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体を提供することを目的とする。
上記課題を解決するために、本発明に係るデータ分析システムは、記憶装置と、前記記憶装置に記録されたデータを分析するプロセッサと、を備えるデータ分析システムであって、前記プロセッサは、前記記憶装置から複数の訓練データを取得し、所定の事案に関連するという第1の分類情報と、前記所定の事案に関係しないという第2の分類情報とを含む分類情報を前記複数の訓練データの夫々に付与することによって、当該複数の訓練データの夫々を分類し、前記複数の訓練データの夫々からデータ要素を抽出し、前記複数の訓練データの夫々に対して付与された前記分類情報に基づいて、前記抽出されたデータ要素を評価し、当該データ要素の評価に基づいて前記複数の訓練データの夫々を評価し、当該複数の訓練データの夫々を評価する際、前記第1の分類情報が付与された訓練データの評価が前記第2の分類情報が付与された訓練データの評価より上位になるように、前記データ要素の評価を繰り返し、前記記憶装置から複数の未知データを取得し、前記繰り返しによって決定されたデータ要素の評価に基づいて、前記複数の未知データの夫々を評価し、当該評価は当該複数の未知データの夫々にスコアを付けることを、前記評価された複数の未知データのうちの少なくとも一つに含まれる情報をユーザに提示する、ように構成されている。本発明は、さらに、データ分析方法、データ分析のためのプログラム、及び、記録媒体に関する。
本発明によれば、複数の異なる事案を対象とした学習データ毎に、未知のデータの評価を提示するので、ユーザは、その未知のデータの内容を見ずとも、ある程度どのような事案との関連性が高いかを認識することができる。
あるいは、データ分析システム100の各機能部により実現される機能は、CPU(Central Processing Unit)を用いてソフトウェアによって実現してもよい。この場合、データ分析システム100は、各機能を実現するソフトウェアであるデータ分析プログラムの命令を実行するCPU、上記ゲームプログラム及び各種データがコンピュータ(又はCPU)で読み取り可能に記録されたROM(Read Only Memory)又は記憶装置(これらを「記録媒体」と称する)、上記データ分析プログラムを展開するRAM(Random Access Memory)などを備えている。そして、コンピュータ(又はCPU)が上記データ分析プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記データ分析プログラムは、当該データ分析プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。本発明は、上記データ分析プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
<補足>
ここに既述の実施態様とその効果について述べる。
(a)データ分析システムは、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得部(132、133)と、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習部(134〜137)と、所定の情報源から未知データを取得する未知データ取得部(131、132)と、前記取得された未知データに含まれる医薬に関する情報をユーザに提示可能となるように、当該未知データを前記複数の分類基準ごとに評価するデータ評価部(138)と、前記評価された未知データの評価結果に応じて表示させることによって、当該未知データに含まれる医薬に関する情報を前記ユーザに提示する提示部(139)とを備える。
また、データ分析方法は、コンピュータが実行するものであって、医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得ステップと、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習ステップと、所定の情報源から未知データを取得する未知データ取得ステップと、前記取得された未知データに含まれる医薬に関する情報をユーザに提示可能となるように、当該未知データを前記複数の分類基準ごとに評価するデータ評価ステップと、前記評価された未知データの評価結果に応じて表示させることによって、当該未知データに含まれる医薬に関する情報を前記ユーザに提示する提示ステップとを含む。
また、データ分析プログラムは、コンピュータに、薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得機能と、前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習機能と、所定の情報源から未知データを取得する未知データ取得機能と、前記取得された未知データに含まれる医薬に関する情報をユーザに提示可能となるように、当該未知データを前記複数の分類基準ごとに評価するデータ評価機能と、前記評価された未知データの評価結果に応じて表示させることによって、当該未知データに含まれる医薬に関する情報を前記ユーザに提示する提示機能とを実現させる。
(h)上記(a)から(f)のいずれかに係るデータ分析システムは、前記医薬に関する情報は、薬剤の効能に関する情報であることとしてもよい。
これにより、データ分析システムは、薬剤の効能に関する情報の分析を支援することができる。
既述の実施形態において、未知データ取得部は、医療関係者を所定の情報源とし、当該医療関係者から報告される報告情報を未知データとして取得することとしてもよい。
また、未知データ取得部は、医薬に関する情報を収集するウェブサイトを所定の情報源とし、当該ウェブサイトに含まれる情報を未知データとして取得することとしてもよい。
また、学習部は、訓練データから当該訓練データの少なくとも一部を構成するデータ要素を抽出する抽出部と、抽出されたデータ要素各々の重み付け値を算出する算出部とを含み、抽出されたデータ要素と算出された重み付け値とを対応付けることにより、医薬に関する情報のパターンを学習することとしてもよい。
また、抽出部は、データ要素として、感情表現に係る形態素を抽出し、算出部は、感情表現に係る形態素の重み付け値を算出し、データ評価部は、未知データに含まれる感情表現に係る形態素に基づいて複数の分類基準ごとに当該未知データを評価することとしてもよい。
また、データ分析システムは、さらに、所定の医薬に関する情報である関連情報を予め記憶する記憶部を備え、提示部は、さらに、取得された未知データと関連すると推定される関連情報を、医薬に関する情報とともに提示することとしてもよい。
また、医薬に関する情報は、薬剤の副作用に関する情報であることとしてもよい。
また、医薬に関する情報は、医薬に関する所定の観点についての医療関係者の意見に関する情報であることとしてもよい。
また、医薬に関する情報は、薬剤の効能に関する情報であることとしてもよい。

Claims (10)

  1. 医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得部と、
    前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習部と、
    所定の情報源から未知データを取得する未知データ取得部と、
    前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価部と、
    前記未知データに含まれる医薬に関する情報を、前記データ評価部による評価に応じて前記ユーザに提示する提示部と
    を備えるデータ分析システム。
  2. 前記未知データ取得部は、医療関係者を前記所定の情報源とし、当該医療関係者から報告される報告情報を前記未知データとして取得する
    ことを特徴とする請求項1に記載のデータ分析システム。
  3. 前記未知データ取得部は、前記医薬に関する情報を収集するデータベースを前記所定の情報源とし、当該データベースに含まれる情報を前記未知データとして取得する
    ことを特徴とする請求項1に記載のデータ分析システム。
  4. 前記学習部は、
    前記訓練データから当該訓練データの少なくとも一部を構成するデータ要素を抽出する抽出部と、
    前記抽出されたデータ要素各々の重み付け値を算出する算出部とを含み、
    前記抽出されたデータ要素と前記算出された重み付け値とを対応付けることにより、前記医薬に関する情報のパターンを学習する
    ことを特徴とする請求項1から3のいずれか一項に記載のデータ分析システム。
  5. 前記抽出部は、前記データ要素として、感情表現に係る形態素を抽出し、
    前記算出部は、前記感情表現に係る形態素の重み付け値を算出し、
    前記データ評価部は、前記未知データに含まれる感情表現に係る形態素に基づいて前記複数の分類基準ごとに当該未知データを評価する
    ことを特徴とする請求項1から4のいずれか一項に記載のデータ分析システム。
  6. 前記データ分析システムは、さらに、所定の医薬に関する情報である関連情報を予め記憶する記憶部を備え、
    前記提示部は、さらに、前記取得された未知データと関連すると推定される関連情報を、前記医薬に関する情報とともに提示する
    ことを特徴とする請求項1から5のいずれか一項に記載のデータ分析システム。
  7. 前記医薬に関する情報は、薬剤の効能又は副作用に関する情報である
    ことを特徴とする請求項1から6のいずれか一項に記載のデータ分析システム。
  8. 前記医薬に関する情報は、医薬に関する所定の観点についての医療関係者の意見に関する情報である
    ことを特徴とする請求項1から6のいずれか一項に記載のデータ分析システム。
  9. 医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得ステップと、
    前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習ステップと、
    所定の情報源から未知データを取得する未知データ取得ステップと、
    前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価ステップと、
    前記未知データに含まれる医薬に関する情報を、前記データ評価ステップにおける評価に応じて前記ユーザに提示する提示ステップとを、コンピュータが実行するデータ分析方法。
  10. コンピュータに、
    医薬に関する情報を含む訓練データと当該訓練データを複数の分類基準に基づいて分類する複数の分類情報との組み合わせを取得する訓練データ取得機能と、
    前記訓練データの少なくとも一部を構成するデータ要素が前記分類情報に応じて出現する分布から、前記医薬に関する情報のパターンを学習する学習機能と、
    所定の情報源から未知データを取得する未知データ取得機能と、
    前記学習されたパターンに基づいて、前記取得された未知データを前記複数の分類基準ごとに評価するデータ評価機能と、
    前記未知データに含まれる医薬に関する情報を、前記データ評価機能による評価に応じて前記ユーザに提示する提示機能とを実現させるデータ分析プログラム。

JP2015558258A 2015-03-13 2015-03-13 データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体 Expired - Fee Related JP6301966B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/057592 WO2016147276A1 (ja) 2015-03-13 2015-03-13 データ分析システム及びデータ分析方法並びにデータ分析プログラム

Publications (2)

Publication Number Publication Date
JPWO2016147276A1 true JPWO2016147276A1 (ja) 2017-04-27
JP6301966B2 JP6301966B2 (ja) 2018-03-28

Family

ID=56918569

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015558258A Expired - Fee Related JP6301966B2 (ja) 2015-03-13 2015-03-13 データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体

Country Status (3)

Country Link
US (1) US20180011977A1 (ja)
JP (1) JP6301966B2 (ja)
WO (1) WO2016147276A1 (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10949492B2 (en) 2016-07-14 2021-03-16 International Business Machines Corporation Calculating a solution for an objective function based on two objective functions
WO2019193781A1 (ja) * 2018-04-04 2019-10-10 パナソニックIpマネジメント株式会社 感情推定装置、感情推定方法及びプログラム
US10957431B2 (en) * 2018-04-20 2021-03-23 International Business Machines Corporation Human resource selection based on readability of unstructured text within an individual case safety report (ICSR) and confidence of the ICSR
US11146580B2 (en) * 2018-09-28 2021-10-12 Adobe Inc. Script and command line exploitation detection
CN109657918B (zh) * 2018-11-19 2023-07-18 平安科技(深圳)有限公司 关联评估对象的风险预警方法、装置和计算机设备
US10395648B1 (en) * 2019-02-06 2019-08-27 Capital One Services, Llc Analysis of a topic in a communication relative to a characteristic of the communication
JP7367353B2 (ja) * 2019-06-25 2023-10-24 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム
WO2021112141A1 (ja) * 2019-12-03 2021-06-10 富士フイルム株式会社 文書作成支援装置、方法およびプログラム
CN111477344B (zh) * 2020-04-10 2023-06-09 电子科技大学 一种基于自加权多核学习的药物副作用识别方法
WO2022202359A1 (ja) * 2021-03-23 2022-09-29 テルモ株式会社 情報処理装置、情報処理方法およびプログラム

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185547A (ja) * 2002-12-06 2004-07-02 Hitachi Ltd 医療データ解析システム及び医療データ解析方法
JP2008276344A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
JP2011159078A (ja) * 2010-01-29 2011-08-18 Fujitsu Ltd 情報処理装置、判定プログラム及び判定方法
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2012123837A (ja) * 2005-11-29 2012-06-28 Children's Hospital Medical Center 薬物選択及び投薬の最適化及び個別化
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013093019A (ja) * 2011-10-05 2013-05-16 A & T Corp 医療意思決定支援データベースおよび医療意思決定支援方法
JP2013535756A (ja) * 2010-08-13 2013-09-12 インテリメディシン インコーポレイテッド 個別化された医薬品の生産のためのシステムおよび方法
JP2014511159A (ja) * 2011-03-10 2014-05-12 テヴァ ファーマスーティカル インダストリーズ エルティーディー. 健康管理の改善のための方法、システム、及びプログラム
JP2014519076A (ja) * 2011-04-28 2014-08-07 ゼネラル・エレクトリック・カンパニイ 薬理データの全体論的分析および可視化を用いて薬効を評価するための装置、システム、および方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1899937A4 (en) * 2005-07-07 2010-09-15 Sermo Inc METHOD AND DEVICE FOR MANAGING INFORMATION BROKERAGE SERVICE
US8612455B2 (en) * 2010-10-06 2013-12-17 Treato Ltd. System and method for detecting personal experience event reports from user generated internet content
KR101330158B1 (ko) * 2013-07-12 2013-11-15 주식회사 메조미디어 텍스트의 감정지수 분석 방법 및 컴퓨터 판독 가능한 기록 매체

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004185547A (ja) * 2002-12-06 2004-07-02 Hitachi Ltd 医療データ解析システム及び医療データ解析方法
JP2012123837A (ja) * 2005-11-29 2012-06-28 Children's Hospital Medical Center 薬物選択及び投薬の最適化及び個別化
JP2008276344A (ja) * 2007-04-26 2008-11-13 Just Syst Corp 多重トピック分類装置、多重トピック分類方法、および多重トピック分類プログラム
JP2011159078A (ja) * 2010-01-29 2011-08-18 Fujitsu Ltd 情報処理装置、判定プログラム及び判定方法
JP2011170786A (ja) * 2010-02-22 2011-09-01 Nomura Research Institute Ltd 文書分類システムおよび文書分類プログラムならびに文書分類方法
JP2013535756A (ja) * 2010-08-13 2013-09-12 インテリメディシン インコーポレイテッド 個別化された医薬品の生産のためのシステムおよび方法
JP2014511159A (ja) * 2011-03-10 2014-05-12 テヴァ ファーマスーティカル インダストリーズ エルティーディー. 健康管理の改善のための方法、システム、及びプログラム
JP2014519076A (ja) * 2011-04-28 2014-08-07 ゼネラル・エレクトリック・カンパニイ 薬理データの全体論的分析および可視化を用いて薬効を評価するための装置、システム、および方法
WO2013001893A1 (ja) * 2011-06-28 2013-01-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 主観的な階層クラスタリングにおける特徴量ごとの重みを求める情報処理装置、方法、およびプログラム
JP2013093019A (ja) * 2011-10-05 2013-05-16 A & T Corp 医療意思決定支援データベースおよび医療意思決定支援方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
後藤正幸, 外1名, 入門 パターン認識と機械学習, vol. 初版, JPN6016031995, 30 April 2014 (2014-04-30), pages 29 - 31, ISSN: 0003382459 *

Also Published As

Publication number Publication date
WO2016147276A1 (ja) 2016-09-22
US20180011977A1 (en) 2018-01-11
JP6301966B2 (ja) 2018-03-28

Similar Documents

Publication Publication Date Title
JP6301966B2 (ja) データ分析システム、データ分析方法、データ分析のためのプログラム、及び、このプログラムの記録媒体
Asif et al. Sentiment analysis of extremism in social media from textual information
TWI598755B (zh) 資料分析系統、資料分析方法、內儲資料分析程式的電腦程式產品及內儲資料分析程式的記錄媒體
Sharit et al. Online information search performance and search strategies in a health problem-solving scenario
US20130198126A1 (en) System and method for prioritizing resumes based on a job description
US20160019293A1 (en) Interpreting and Distinguishing Lack of an Answer in a Question Answering System
Davahli et al. Identification and prediction of human behavior through mining of unstructured textual data
Siahaan et al. User story extraction from natural language for requirements elicitation: Identify software-related information from online news
Panja Information Retrieval Systems in Healthcare: Understanding Medical Data Through Text Analysis
JP5942052B1 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Alasmari et al. Hybrid machine learning approach for Arabic medical web page credibility assessment
Noor et al. Depression Detection In Social Media Using Bagging Classifier
EP3089053A1 (en) Data evaluation system, data evaluation method, and data evaluation program
Garg WellXplain: Wellness concept extraction and classification in Reddit posts for mental health analysis
Graco et al. Toward knowledge-driven data mining
Al-Obeidat et al. Twitter sentiment analysis to understand students' perceptions about online learning during the Covid'19
JP6490989B2 (ja) データ分析システム、データ分析方法、およびデータ分析プログラム
Invernici et al. Exploring the evolution of research topics during the COVID-19 pandemic
Samah et al. Aspect-Based Classification and Visualization of Twitter Sentiment Analysis Towards Online Food Delivery Services in Malaysia
Wong et al. Language independent models for COVID-19 fake news detection: Black box versus white box models
Banerjee et al. Distinguishing between authentic and fictitious user-generated hotel reviews
Balaga et al. Hadoop techniques for concise investigation of big data in multi-format data sets
Dimitriadis Applying topic modelling algorithms on twitter messages in greek language
Anule et al. Review of sentiment analysis: An hybrid approach
Nordell et al. ChatGPT’s Perception on Reddit: A Data-driven Topic Modeling Study

Legal Events

Date Code Title Description
A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20160823

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161124

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161206

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20161209

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20170224

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171225

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180301

R150 Certificate of patent or registration of utility model

Ref document number: 6301966

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: R3D04

LAPS Cancellation because of no payment of annual fees