WO2015141724A1

WO2015141724A1 - 医薬品有害事象抽出方法及び装置

Info

Publication number: WO2015141724A1
Application number: PCT/JP2015/058052
Authority: WO
Inventors: 勇気小阪; 和世成田; 森永　聡; あゆみ遠藤; 香織山田; 愛子熊野; 真希駒嶺
Original assignee: 日本電気株式会社
Priority date: 2014-03-20
Filing date: 2015-03-18
Publication date: 2015-09-24
Also published as: TWI596564B; TW201610905A; JP6410289B2; JP2015184693A; US10886025B2; US20170083670A1

Abstract

　医薬品とそれに関連した有害事象との組み合わせを抽出する方法は、医薬品と傷病の組み合わせである、正例の組み合わせ、負例の組み合わせ、及び正例でも負例でもない組み合わせの各々ごとに、患者に関する医療情報データから医療イベントを抽出し、医療イベントの時系列情報に基づいて属性データを生成することと、正例及び負例の属性データに基づいて判別モデルを学習することと、正例でも負例でもない組み合わせに対応する属性データを判別モデルに入力してスコアを求めることと、を有する。

Description

医薬品有害事象抽出方法及び装置

　本発明は、医薬品により引き起こされる有害事象を情報処理によって抽出する方法及び装置に関し、特に、医薬品による未知の有害事象を幅広く抽出できる医薬品有害事象抽出方法及び装置に関する。

　医薬品は、政府の認可を受けてから市販されることになるが、市販されて多数の患者に処方されると、予期せぬ医薬品有害事象が起こって重大な健康被害をもたらす場合がある。なぜならば、政府の認可を受けるために実施される治験は、医薬品の有効性を検証するために、限られた数の患者に対して短期間で実施されることから、治験で医薬品の全ての医薬品有害事象を検出することは難しいからである。そのため、医薬品の市販後調査を実施して、まだ見つかっていない医薬品有害事象を早期に検出し、その医薬品有害事象の発生を防止するための安全対策を行うことが、医薬品規制当局の重要な役割である。

　近年の市販後調査では、主に自発報告を分析して医薬品有害事象の検出が行われている。自発報告とは、医師、患者、製薬企業によって自発的に提供される、医薬品有害事象としての疑いのある事象に関するレポートのことである。しかしながら、自発報告には、臨床現場で実際に起こった医薬品有害事象全てが報告されるとは限らないため、自発報告から医薬品有害事象を検出しても、まだ見つかっていない全ての医薬品有害事象を検出することは難しいという欠点があった。

　この欠点を補うため、近年では、患者が受けた医療に関する情報である医療情報データを分析して、未知の医薬品有害事象に関する情報を抽出する取組みが検討されている。自発報告とは違って、医療情報データには、膨大な数の患者の臨床現場で実際に起こった診療履歴が、長期間にわたって詳細に記載されている。そのため、医療情報データを分析することにより、自発報告では報告されていない医薬品有害事象を検出できるのではないかと期待されている。医療情報データは、医療報酬明細書及び調剤報酬明細書から得られるデータ、診療録から得られるデータなどである。医療報酬明細書及び調剤報酬明細書はレセプトなどとも呼ばれており、診療録は、カルテや医療記録(medical record)とも呼ばれるものである。

　特に、政府によるあるいは民間企業による医療保険制度や健康保険制度を用いて患者が医療機関で受診した場合には、医療報酬明細書や調査報酬明細書は医療保険や健康保険の運営者のもとに集められる。したがって、医療保険や健康保険の運営者やその委託を受けた者の手元に集められた膨大な量の医療報酬明細書や調査報酬明細書を解析することにより、未知の医薬品有害事象を検出し得ることが期待されている。

　本発明の関連技術として非特許文献１には、各患者ごとにその患者に対してどの医薬品が処方されたかとその患者においてどの傷病がいつ発生したかとを示す時系列データを取得し、取得した時系列データに基づいて機械学習によって医薬品有害事象を抽出する方法が開示されている。非特許文献１の方法では、医薬品有害事象を表す組み合わせとして既に知られている「医薬品と傷病」の組み合わせを正例とし、医薬品有害事象ではない組み合わせとして既に知られている「医薬品と傷病」の組み合わせを負例とする。例えば、ある医薬品が解熱剤であってその解熱剤を服用したときに有害事象として発疹が発生することが知られているのであれば、「当該医薬品と発疹」の組み合わせは正例となる。患者に発熱が観察されて解熱剤が処方されている場合は、解熱剤そのものが発熱に対処して熱を下げるための薬剤であるので、「解熱剤と発熱」の組み合わせは負例に分類される。

　非特許文献１の方法では、正例と、負例と、正例でもなく負例でもない「医薬品と傷病」の組み合わせと、上述した医薬品の処方及び傷病の発生の時系列データとを入力として、「医薬品と傷病」の組み合わせごとに、医薬品の処方期間において傷病がいつ何回発生したかを示す属性データを作成し、正例に対応する属性データと負例に対応する属性データに基づいて、属性データから「医薬品と傷病」の組み合わせが有害事象である疑わしさを示すスコアを算出するモデルを学習する。以下、このモデルを「判別モデル」と呼ぶ。そして、学習した判別モデルに、正例でもなく負例でもない「医薬品と傷病」の組み合わせに対応する属性データを入力して、「医薬品と傷病」の組み合わせごとに上述のスコアを算出する。このスコアは、正例でも負例でもない入力された「医薬品と傷病」の組み合わせが医薬品有害事象であることの可能性の程度を示すものであるから、算出されたスコアに基づいて、医薬品有害事象であると疑われる「医薬品と傷病」の組み合わせを抽出する。

　非特許文献１に記載された技術は、基本的には、入力した医薬品と傷病との時系列データ上で、医薬品の処方期間における傷病の発生のみに注目して、医薬品の処方についての時系列情報と観察された傷病の時系列情報とから、有害事象を表す「医薬品と傷病」の組み合わせを抽出する技術である。

"OMOP Cup Grand Prize 'Best Submission' Report"、Foundation for the National Institute of Health、［2014年1月18日検索］、インターネット〈ＵＲＬ：http://omop.fnih.org/sites/default/files/Vogel_Progress_prize_methods_GP_0.pdf〉 R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin, "LIBLINEAR: A library for large linear classification," Journal of Machine Learning Research, 9(2008), 1871-1874. J. Zhou, J. Chen and J. Ye, "MALSAR: Multi-tAsk Learning via Structural Regularization," Arizona State University, 2012、［2014年2月26日検索］、インターネット〈ＵＲＬ：http://www.public.asu.edu/~jye02/Software/MALSAR〉 Chawla, N. V., Bowyer, K. W., Hall, L. O., and Kegelmeyer, W. P., "Smote: Synthetic minority over-sampling technique," Journal of Artificial Intelligence Research, 16:321-357 (2002). Xu-Ying Liu and Jianxin Wu and Zhi-Hua Zhou, "Exploratory Under-Sampling for Class-Imbalance Learning," Data Mining, 2006. ICDM '06. Sixth International Conference on. Sugiyama, M., Suzuki, T., Nakajima, S., Kashima, H., von Buenau, P., and Kawanabe, M, "Direct importance estimation for covariate shift adaptation," Annals of the Institute of Statistical Mathematics, vol. 60, no. 4, pp. 699-746, 2008.

　医薬品安全対策での実用上、医療情報データから医薬品有害事象を高精度に抽出することが要求される。ここで高精度とは、間違いが少なく、幅広い種類の有害事象を抽出することである。なぜならば、有害事象による健康被害を防ぐためには、正確に幅広い種類の有害事象を把握することが重要であるからである。

　非特許文献１に記載された技術のように、正例と負例とを判別するための規則を導き出すためには、判別モデルの学習に用いる属性データに関し、正例と負例との間で何らかの差異が存在することが必要になる。もし、差異が存在しなければ、正例に大きなスコア、負例に小さなスコアを割り振ることによって正例と負例とを分類しようとするときに、正例と負例とを区別するようなスコアを算出することができない。

　非特許文献１に記載された技術では、正例と負例のそれぞれについて、医薬品の処方期間における、傷病の発生時期と発生回数を示す属性データを作成して、その属性データを入力している。しかしながら、非特許文献１において用いられている属性データでは、有害事象を示す組み合わせ（正例の組み合わせ）と有害事象ではない組み合わせ（負例の組み合わせ）との間でそれらの属性データの内容の差異が小さい場合がある。このような場合には、医薬品と傷病の時系列情報から作成した属性データだけからでは、有害事象を示す組み合わせと有害事象ではない組み合わせを判別することが難しい。したがって、非特許文献１に記載された技術には、間違いが少なく、幅広く有害事象を示す組み合わせのみを抽出することができない、という課題がある。

　以下、有害事象を示す組み合わせと有害事象ではない組み合わせとの間で属性データの差異が小さくなる場合の一例を説明する。

　有害事象ではない組み合わせは、医薬品の処方によって引き起こされるとは考えにくい傷病を示すものであり、その一例としては、ある傷病とその傷病の治療を目的として処方される医薬品との「医薬品と傷病」の組み合わせが挙げられる。この組み合わせは、傷病が発生してから、その傷病の治療を目的として医薬品が処方されるため、医薬品と傷病の時系列情報上では、医薬品の処方と傷病の発生が同日に発生している回数が多い。一方、有害事象の中にも、医薬品を処方してすぐに症状が出る、アレルギー反応などの有害事象がある。このような有害事象を示す傷病も、医薬品と傷病の時系列情報上では、医薬品の処方と同日に発生している回数が多い。そのため、有害事象を示す組み合わせと有害事象ではない組み合わせとの間で、医薬品の処方後から傷病がいつ何回発生したかを示す属性データの内容の差異が小さくなる場合がある。この場合は、判別モデルを用いても、有害事象を示す組み合わせと有害事象ではない組み合わせを区別することができないことになる。

　そこで本発明の目的は、このような関連技術の課題を解決し、医薬品とその医薬品に関連した有害事象との組み合わせを精度よく抽出できる医薬品有害事象抽出方法及び装置を提供することにある。

　本発明の医薬品有害事象抽出方法は、医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出方法であって、医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　各患者における医療イベントの時系列情報を含む医療情報データを用い、前記正例の組み合わせの各々ごと、前記負例の組み合わせの各々ごと、及び、前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成することと、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習することと、
　前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出することと、
　前記正例負例以外の組み合わせの各々について算出されたスコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出することと、
　を有し、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随してその医療行為が行われたことを示すイベントの少なくとも一方を含んでいる。

　本発明の医薬品有害事象抽出装置は、医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出装置であって、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　記憶装置に格納された各患者における医療イベントの時系列情報を含む医療情報データを用い、前記記憶装置に格納された前記正例の組み合わせの各々ごと、前記記憶装置に格納された前記負例の組み合わせの各々ごと、及び、前記記憶装置に格納された前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成して前記記憶装置に格納する属性作成手段と、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習する学習手段と、
　前記記憶装置に格納された前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出する算出手段と、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出する抽出手段と、
　を有し、
　前記各患者における医療イベントは、患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる。

　本発明によれば、医薬品とその医薬品に関連した有害事象との組み合わせを精度よく抽出できるようになる。

本発明の実施の一形態の医薬品有害事象抽出装置の構成を示すブロック図である。図１に示す医薬品有害事象抽出装置の動作を示すフローチャートである。第１の期間と第２の期間の関係を示す図である。第１から第４までの期間の関係を示す図である。変形例１の医薬品有害事象抽出装置の構成を示すブロック図である。図５に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例２の医薬品有害事象抽出装置の構成を示すブロック図である。図７に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例３の医薬品有害事象抽出装置の構成を示すブロック図である。図９に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例４の医薬品有害事象抽出装置の構成を示すブロック図である。図１１に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例５の医薬品有害事象抽出装置の構成を示すブロック図である。図１３に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例６の医薬品有害事象抽出装置の構成を示すブロック図である。図１５に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例７の医薬品有害事象抽出装置の構成を示すブロック図である。図１１に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例８の医薬品有害事象抽出装置の構成を示すブロック図である。図１９に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例９の医薬品有害事象抽出装置の構成を示すブロック図である。図２１に示す医薬品有害事象抽出装置の動作を示すフローチャートである。変形例１０の医薬品有害事象抽出装置の構成を示すブロック図である。図２３に示す医薬品有害事象抽出装置の動作を示すフローチャートである。

　次に、本発明の実施の形態について図面を参照して説明する。

　最初に、医療イベントの時系列情報について説明する。

　診療報酬明細書、調剤報酬明細書及び診療録情報などの医療情報データは、患者についての医療に関する日付ごとの記録を含んでいるから、患者ごとの医療イベントの時系列情報とみなすことができる。ここで、医療イベントとは、ある患者がある時点で、その患者において傷病が観察されたこと、特定の医薬品が処方されたこと、特定の診療行為を受けたこと、あるいは特定の傷病の診断を受けたこと等の、特定の患者の特定の時点に生じた医療関係の事象（イベント）を指すものである。ここではさらに一般的に、医療情報データに含まれる、特定の患者の特定の時点における特定の項目に関する記載事項、医療費、診療科、入院などの、広い意味での医療に関係する情報も医療イベントと述べることにする。そこで本明細書では、医療イベントを、患者に発生した傷病を含むとともに、患者に対して行われた医療行為、及び、患者に対して行われた医療行為に付随してその医療行為が行われたことを示すイベント、を含むものとして定義する。言うまでもなく、「入院」という医療イベントは、特定の患者が特定の時点で入院したことを表し、「医療費」という医療イベントは、特定の患者の特定の時点における特定の金額の医療費が請求されることを表し、「診療科」という医療イベントは、特定の患者が特定の時点で受診した診療科を表している。例えば、特定の診療科における治療行為、医薬品の処方、入院などの処置などが医療行為に含まれ、医療行為に付随して当該医療行為が行われたことを示すイベントとしては、医療費の請求などが挙げられる。

　また、医療イベントの時系列情報とは、例えば、以下に示すように、ある患者Ｘについて特定の医薬品Ａが処方されたかどうかを、適当な時間単位（例えば１か月）で区切って表現したものを指すこととする。

　　患者Ｘ，医薬品Ａ：0, 0, 0, 1, 1, 0, 0
　ここでは、当該イベントの発生ありを「１」、発生なしを「０」で表している。この例では、患者Ｘにおける医薬品Ａの処方は、最初の３ヶ月間（すなわち１か月目から３か月目）は行われず、続く２か月間（４か月目及び５か月目）には行われ、さらに続く２か月間（６か月目及び７か月目）には行われなかったことを表している。

　上記の例では、医薬品処方の有無を「０」と「１」との二値データによって表したが、二値データに限らず、適当な単位で処方量を表して、
　　患者Ｘ，医薬品Ａ：0, 0, 0, 2.3, 6.18, 0, 0
などのように細かく情報を表現してもよい。

　また、上記の例では、医薬品処方を表す医療イベントを表しているが、各医薬品が処方された診療科の情報を付与して、
　　患者Ｘ，医薬品Ａ、内科：0, 0, 0, 1, 1, 0, 0
　　患者Ｘ，医薬品Ａ、外科：0, 0, 0, 1, 0, 0, 0
などのように、医療イベントを詳細に表現してもよい。

　また、医療情報データに含まれる医療イベントの種類として、医療費がある。このイベントは、特定の患者の特定の時点における特定の金額の医療費が請求されることを表している。医療費の医療イベントの時系列情報の例としては、次のように、ある患者Ｘについて、いくらの医療費が請求されたかを、適当な単位（例えば診療報酬における点数）で請求額を表したものを指すこととする。

　　患者Ｘ，医療費：300, 550, 90, 140, 2500, 600, 0
　医療情報データには、膨大な数の患者に関する複数の種類の医療イベントの時系列情報が含まれている。例えば、次の例は、２人の患者の複数の種類の医療イベントの時系列情報を示している。

　　患者Ｘ、医薬品Ａ　　　　　：0, 0, 0, 1, 1, 0, 0
　　患者Ｘ、医薬品Ｂ　　　　　：0, 0, 0, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｃ　　　　：0, 0, 1, 1, 1, 0, 0
　　患者Ｘ、診断病名Ｄ　　　　：0, 0, 0, 0, 1, 1, 0
　　患者Ｘ、入院　　　　　　　：0, 0, 0, 0, 1, 0, 0
　　患者Ｘ、内科（診療科）　　：0, 0, 1, 1, 1, 1, 0

　　患者Ｙ、医薬品Ａ　　　　　：0, 0, 1, 1, 1, 1, 1
　　患者Ｙ、医薬品Ｃ　　　　　：0, 0, 0, 1, 1, 1, 0
　上記の例は、患者Ｘに医薬品Ａ、Ｂが処方されたこと、患者Ｘに診療行為Ｃが施されたこと、患者Ｘに病名Ｄの診断がなされたこと、患者Ｘが入院したこと、患者Ｘが内科を受診したことについて、それぞれいつ発生したのかを表している。また、患者Ｙに医薬品Ａ、Ｃの処方がいつ発生したのかも表している。

　以降、簡単のため、「診断病名」という医療イベントを「傷病」として表すこととする。上記の例において、「診断病名」を「傷病」として表すと下記のようになる。

　　患者Ｘ、医薬品Ａ　　　　　：0, 0, 0, 1, 1, 0, 0
　　患者Ｘ、医薬品Ｂ　　　　　：0, 0, 0, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｃ　　　　：0, 0, 1, 1, 1, 0, 0
　　患者Ｘ、傷病Ｄ　　　　　　：0, 0, 0, 0, 1, 1, 0
　　患者Ｘ、入院　　　　　　　：0, 0, 0, 0, 1, 0, 0
　　患者Ｘ、内科（診療科）　　：0, 0, 1, 1, 1, 1, 0

　　患者Ｙ、医薬品Ａ　　　　　：0, 0, 1, 1, 1, 1, 1
　　患者Ｙ、医薬品Ｃ　　　　　：0, 0, 0, 1, 1, 1, 0
　図１は、本発明の実施の一形態の医薬品有害事象抽出装置の構成を示している。この医薬品有害事象抽出装置は、医療情報データに含まれる多数の患者での医療イベントの時系列情報に基づいて、「医薬品と傷病」の組み合わせの中から、有害事象を表す組み合わせを抽出する機能を有する。特にこの装置は、各組み合わせについて算出したスコア、すなわち、有害事象としての疑わしさを表す数値に基づいて、有害事象を表す組み合わせを抽出する。以下の説明では、文脈上明らかな限り、「医薬品と傷病」の組み合わせのことを単に「組み合わせ」と呼ぶ。

　図１に示すように医薬品有害事象抽出装置は、データ処理を実行する処理装置１１と、処理装置１１に接続し、医薬品有害事象の抽出の対象となる医療情報データや判別モデル、スコア、抽出結果など、処理装置１１でのデータ処理に必要であったりデータ処理の結果生じたデータを記憶するための記憶装置１２と、通信インターフェース（Ｉ/Ｆ部）１３と、操作入力部１４と、画面表示部１５と備えている。通信インタフェース部１３、操作入力部１４及び画面表示部１５は、いずれも処理装置１１に接続している。

　通信インタフェース部１３は、専用のデータ通信回路からなり、通信回線を介して接続された図示しない各種装置と処理装置１１との間でデータ通信を行う機能を有している。操作入力部１４は、キーボードやマウスなどの操作入力装置からなり、オペレータの操作を検出して処理装置１１に出力する機能を有している。画面表示部１５は、ＬＣＤ（液晶表示装置）やＰＤＰ（プラズマ表示パネル）などの画面表示装置からなり、処理装置１１からの指示に応じて、操作メニューや選定結果などの各種情報を画面表示する機能を有している。

　記憶装置１２は、ハードディスクや半導体メモリ装置などで構成されている。図１に示す医薬品有害事象抽出装置では、記憶装置１２に記憶される主な情報は、医療情報データ５１、正例の組み合わせ５２、負例の組み合わせ５３、正例負例以外の組み合わせ５４、正例負例フラグ５５、属性データ５６、判別モデル５７、有害事象スコア５８、抽出条件５９、抽出結果６０及び制御パラメータ６９である。記憶装置１２には、ここで述べたもの以外にも、医薬品有害事象抽出装置の動作に使用される情報が格納されてもよい。以下、これらの情報について説明する。

　医療情報データ５１は、上述したように診療報酬明細書や調剤報酬明細書、診療録などから得られる情報であり、これは、患者ごとの医療イベントの時系列情報として表される。本実施形態では、医療情報データ５１は、ある患者がある時点で、（ａ）特定の医薬品が処方されること、（ｂ）特定の傷病が観察されること、（ｃ）特定の診療行為を受けること、（ｄ）特定の金額の医療費が請求されること、（ｅ）特定の診療科にかかること、及び（ｆ）入院をすることからなる、特定の患者の特定の時点に生じた医療イベントから構成される。医療イベントの詳細については後述するが、ここで挙げた以外の項目であっても広い意味で医療に関連する項目であれば、本発明における医療イベントとして用いることができる。また本発明では、医薬品有害事象となる「医薬品と傷病」の組み合わせをどのようにして見出すかによっては、ここで述べた（ｃ）～（ｆ）のうちの一部の医療イベントを使用しないようにすることも可能である。非特許文献１に関連して説明したように、医薬品の処方及び傷病の発生の時系列データからでは精度よく医薬品有害事象の抽出を行うことができないから、本実施形態では、医薬品の処方期間において、傷病だけでなく、傷病の発生以外の医療イベントにも着目することとする。本実施形態では、医療情報データは、診療報酬明細書及び調剤報酬明細書のいずれかから得られる情報であることが好ましい。

　本発明は、医薬品の処方を原因として有害事象という結果が生じたかどうかを判別できるようにするためのものであるから、原因となる事象（先行する事象すなわち医薬品の処方）と結果となり得る事象（後続する事象すなわち観察された傷病）とを組み合わせた事例を考えて、この組み合わせごとに医薬品に関連した有害事象であるかを考えることにある。そこで、本実施形態では、いずれも「医薬品と傷病」の組み合わせである、正例の組み合わせ５２、負例の組み合わせ５３及び正例負例以外の組み合わせ５４を考える。正例の組み合わせ５２は、医薬品有害事象を表す組み合わせとして既に知られている「医薬品と傷病」の組み合わせである。負例の組み合わせ５３は、医薬品有害事象ではない組み合わせとして既に知られている「医薬品と傷病」の組み合わせである。これらに対し、正例負例以外の組み合わせ５４は、「医薬品と傷病」の組み合わせであるが、正例の組み合わせでも負例の組み合わせでもないものを意味する。したがって、正例負例以外の組み合わせ５４は、医薬品有害事象を表す組み合わせとしても、医薬品有害事象ではない組み合わせとしても知られていない組み合わせである。

　正例負例フラグ５５は、正例と負例の組み合わせが、正例の組み合わせか、負例の組み合わせかを示す、組み合わせ別のフラグ値である。フラグ値としては、例えば、正例の組み合わせには正例を示す値を、負例の組み合わせには負例を示す値を示す値を設定する。

　属性データ５６は、正例、負例、正例負例以外の組み合わせについて、組み合わせごとに医療情報データ上の特徴を表すデータのことである。本実施形態での属性データの詳細については後述する。

　判別モデル５７は、組み合わせに対応する属性データと、組み合わせが有害事象に対応するものか否かとの関係を示すモデルである。判別モデル５７の形式としては、例えば、ロジスティック回帰モデル、線形サポートベクトルマシン（ＳＶＭ：Support Vector Machine）モデルなどが考えられる。

　有害事象スコア５８は、判別モデル５７によって、正例負例以外の組み合わせ５４の各々に対して算出された有害事象としての疑わしさを示す値である。値が大きいほど、有害事象として強く疑わしい。

　抽出条件５９は、正例負例以外の組み合わせ５４の中から、有害事象を表す組み合わせを抽出するにあたって、満たすべき条件を示すものである。抽出条件の例としては、抽出する組み合わせの有害事象スコアの閾値、抽出する組み合わせの最大数などである。

　抽出結果６０は、正例負例以外の組み合わせ５４の中から、有害事象を表す組み合わせとして抽出された組み合わせのリストである。

　制御パラメータ６９は、処理装置１１において医薬品有害事象の抽出の処理の実行条件などを定める各種のパラメータである。

　次に、処理装置１１について説明する。

　本実施形態の医薬品有害事象抽出装置は、正例の組み合わせ５２と負例の組み合わせ５３とによって判別モデル５７を学習し、その後、正例負例以外の組み合わせ５４を判別モデル５７に適用して、その正例負例以外の組み合わせ５４に対する有害事象スコア５８を得ようとするものである。このような処理を実行するために、処理装置１１には、入力部２１、属性データ作成部２２、判別モデル学習部２３、有害事象スコア算出部２４及び抽出部２５が設けられる。属性データ作成部２２は属性作成手段に相当し、判別モデル学習部２３は学習手段に相当し、有害事象スコア算出部２４は算出手段に相当し、抽出部２５は抽出手段に相当する。

　入力部２１は、通信インタフェース部１３または操作入力部１４から、医療情報データ、正例の組み合わせ、負例の組み合わせ、正例負例以外の組み合わせ、抽出条件などこの医薬品有害事象抽出装置での処理に必要な情報を入力して、それらを記憶装置１２に格納する。ここでは、入力部１２に与えられる医療情報データは、診療報酬明細書や調剤報酬明細書から抜き出された患者ごとの医療イベントの時系列情報であるものとする。近年では診療報酬明細書や調剤報酬明細書は予め規定されたデータフォーマットによって電子データとして作成されるが、このデータフォーマット自体が医療イベントの時系列情報を表すようになっているので、診療報酬明細書や調剤報酬明細書から患者ごとの医療イベントの時系列情報を抽出することは極めて容易に行うことができる。

　属性データ作成部２２は、正例の組み合わせ５２、負例の組み合わせ５３、正例負例以外の組み合わせ５４及び医療情報データ５１を記憶装置１２から読み込み、読み込んだ医療情報データ５１に対して前処理を行った後に、読み込んだ情報を用いて属性データを作成し、その属性データを記憶装置１２に格納する。医療情報データなどのデータ形式によっては、必ずしも前処理を行わなくてもよい。

　判別モデル学習部２３は、記憶装置１２から、正例の組み合わせ５２及び負例の組み合わせ５３と、属性データ５６のうち正例と負例に対応する属性データと、正例負例フラグ５５とを読みこみ、判別モデル５７を学習し、学習後の判別モデル５７を記憶装置１２に保存する機能を有する。

　有害事象スコア算出部２４は、記憶装置１２から、正例負例以外の組み合わせ５４、及びその正例負例以外の組み合わせに対応した属性データを読み込み、この読み込んだ属性データを判別モデルに入力して、正例負例以外の組み合わせの各々ごとに有害事象スコアを算出し、算出した有害事象スコアを記憶装置１２に保存する機能を有する。

　抽出部２５は、記憶装置１２から有害事象スコア５８及び抽出条件５９を読み込み、抽出条件を満たすようにして、正例負例以外の組み合わせの中から有害事象と疑わしい組み合わせを抽出し、その抽出結果を記憶装置１２に保存する機能を有する。また抽出部２５は、上記の抽出結果を画面表示部１５に出力し、あるいは通信インタフェース部１３を通じて外部に出力する機能を有する。

　次に図２を参照して、図１に示した医薬品有害事象抽出装置の動作を説明する。この医薬品有害事象抽出装置の動作は、属性データ作成フェーズＳ１、学習フェーズＳ２、有害事象スコア算出フェーズ及び抽出フェーズＳ４の４つに大きく分けられ、これらのフェーズがこの順で実行される。

　属性データ作成フェーズＳ１では、ステップＳ１１において、入力部２１が、医療情報データと、正例、負例、及び正例負例以外の各組み合わせとを通信インタフェース部１３または操作入力部１４から受け取って、記憶装置１２に格納する。次に属性データ作成部２２が、ステップＳ１２において、医療情報データ５１、正例の組み合わせ４２、負例の組み合わせ５３、及び正例負例以外の組み合わせ５４を記憶装置１２から読み出し、医療情報データ５１に対して前処理を行い、その後、ステップＳ１３において、読み出した各組み合わせに対応する属性データを作成し、作成した属性データを記憶装置１２に格納する。

　属性データは、組み合わせに関して、入力した医療イベントの時系列情報上で、組み合わせの医薬品と傷病が、同一患者に共起した時点の周辺の時期において、他の医療イベントが発生したり、発生していなかったりする特徴を示すデータである。

　学習フェーズＳ２では、ステップＳ２１において、判別モデル学習部２３が、記憶装置１２から、正例の組み合わせ５２と、負例の組み合わせ５３と、それら正例及び負例に対応する属性データ５６と、正例負例フラグ５５と、判別モデル５７とを呼び出して、これらを用いてステップＳ２２において判別モデルを学習する。学習された判別モデルは記憶装置１２に戻される。

　有害事象スコア算出フェーズＳ３では、ステップＳ３１において、有害事象スコア算出部２４が、記憶装置１２から、判別モデル５７と、正例負例以外の組み合わせ５４と、その組み合わせに対応した属性データとを読み出し、読み出した属性データをステップＳ３２において判別モデルに適用し、有害事象スコアを算出する。算出された有害事象スコアは記憶装置１２に格納される。

　抽出フェーズＳ４では、まずステップＳ４１において入力部２１が抽出条件を通信インタフェーズ部１３または操作入力部１４から受け取り、記憶装置１２に格納する。次にステップＳ４２において抽出部２５が、記憶装置１２から有害事象スコア５８及び抽出条件５９を読み出し、正例負例以外の組み合わせから、抽出条件を満たすように有害事象を表す組み合わせを抽出し、その抽出結果を記憶装置１２に保存する。その後、ステップＳ４３において抽出部２５は、上記の抽出結果を画面表示部１５に出力し、あるいは通信インタフェース部１３を通じて外部に出力する。このとき、有害事象として強く判別された、より有害事象スコアの高い組み合わせを優先的に抽出して、有害事象スコアの低い組み合わせは優先的に抽出されないようにすることが好ましい。すなわち、有害事象として疑わしい順に、正例負例以外の組み合わせをソートして出力することが好ましい。また、本実施形態では、種々の医薬品に対する「医薬品と傷病」との組み合わせを多数入力することができるが、その場合、有害事象であると疑わしい組み合わせを医薬品ごとに知ることが便利であるから、有害事象スコアの順でソートした結果を、さらに、医薬品の種類別に出力することが好ましい。

　続いて、属性生成フェーズＳ１、学習フェーズＳ２、有害事象スコア算出フェーズＳ３、及び抽出フェーズＳ４の動作をより詳細に説明する。

　（１）属性生成フェーズＳ１の詳細：
　（１－１）ステップＳ１１：
　ステップＳ１１では、記憶装置１２から、医療情報データ５１と、正例、負例、正例負例以外の組み合わせ（すなわち正例の組み合わせ５２、負例の組み合わせ５３及び正例負例以外の組み合わせ５４）と、期間長条件とを読み出す。以下に、正例、負例、正例負例以外の組み合わせの例を示す。属性生成フェーズＳ１では、正例か、負例か、正例負例以外の組み合わせかということは意識せず、全て、組み合わせとして同一に扱う。期間長条件は、制御パラメータ６９の一つとして、予め、記憶装置１２に格納されている。

　以下に、記憶装置１２から読み出した、組み合わせの例を示す。

　　（医薬品Ａ、傷病Ｃ）、（医薬品Ｂ、傷病Ｂ）、（医薬品Ｃ、傷病Ａ）、…
　また、以下に、入力した医療情報データ５１の例を示す。入力した医療情報データが下記のデータであったとする。本説明では、時間単位を月とした場合を例にとるが、時間単位は日でも週でも年でも構わない。以降は、簡単のため、時間単位を月とした場合を例に説明することとする。

　　患者Ｘ、医薬品Ａ、内科　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、医薬品Ｂ、内科　：1, 0, 1, 0, 0, 0, 0
　　患者Ｘ、傷病Ａ　　　　　：0, 0, 0, 0, 1, 0, 0
　　患者Ｘ、診療行為Ｃ　　　：1, 0, 1, 1, 1, 0, 0
　　患者Ｘ、診療行為Ｄ　　　：0, 0, 1, 1, 1, 0, 0
　　患者Ｘ、入院　　　　　　：0, 1, 0, 1, 1, 0, 0
　　患者Ｘ、内科（診療科）　：0, 0, 1, 1, 1, 0, 0
　　患者Ｘ、医療費　　　　　：300, 550, 90, 140, 2500, 600, 0

　　患者Ｙ、医薬品Ａ、内科　：0, 0, 0, 0, 1, 0, 0
　　患者Ｙ、医薬品Ｃ、皮膚科：0, 0, 1, 0, 1, 0, 0
　　患者Ｙ、傷病Ａ　　　　　：0, 0, 1, 0, 1, 0, 0
　　患者Ｘ、傷病Ｄ　　　　　：0, 0, 0, 0, 1, 1, 0
　　患者Ｙ、入院　　　　　　：0, 0, 0, 0, 1, 0, 0
　　患者Ｙ、内科（診療科）　：0, 0, 1, 0, 1, 1, 0
　　患者Ｙ、皮膚科（診療科）：0, 0, 0, 0, 1, 0, 0
　　患者Ｙ、医療費　　　　　：0, 0, 190, 0, 1650, 400, 0

　　患者Ｚ、医薬品Ｂ、内科　：0, 1, 1, 1, 0, 0, 0
　　患者Ｚ、傷病Ａ　　　　　：0, 1, 1, 0, 0, 0, 0
　　患者Ｚ、傷病Ｄ　　　　　：0, 0, 0, 1, 0, 0, 1
　　患者Ｚ、診療行為Ｃ　　　：0, 1, 1, 1, 0, 0, 1
　　患者Ｚ、入院　　　　　　：0, 1, 0, 1, 0, 0, 0
　　患者Ｚ、内科（診療科）　：0, 0, 1, 1, 0, 0, 0
　　患者Ｚ、外科（診療科）　：0, 0, 1, 1, 0, 0, 1
　　患者Ｚ、医療費　　　　　：0, 390, 550, 1000, 0, 0, 300
　（１－２）ステップＳ１２：
　ステップＳ１２では、ステップＳ１１において記憶装置１２から読み出した医療情報データ５１に対して、以下に説明する前処理を行うことによって、次のステップで行う属性データの作成に必要となる新たな医療イベントの時系列情報を作成する。さらに、記憶装置１２から読み出した医療情報データ５１に含まれる各医療イベントの時系列情報は、ある決められた単位での医療イベントに関する時系列情報を扱う必要はないため、医療イベントの単位を別の単位に変換して、変換した単位での医療イベントの時系列情報を新たに作成する。さらに、実数などの二値データ以外の時系列情報が医療情報データ５１に含まれている場合には、属性データを作成しやすくするために、それらを二値データに変換する。

　属性データの作成に必要となる新たな医療イベントの時系列情報としては、「同時診療行為」、「併用医薬品」、「診療科変化」の３つの時系列情報がある。これら新しい医療イベントは、それぞれ、次のような意味を表す。

　「同時診療行為」は、特定の患者が特定の時点で、同時点で予め定めた閾値以上の種類の診療行為が行われたことを表す医療イベントである。また、「併用医薬品」は、特定の患者が特定の時点で、同時点で予め定めた閾値以上の種類数の医薬品が処方されたことを表す医療イベントである。そして、「診療科変化」は、特定の患者が特定の時点において、ある特定の医薬品が処方された診療科とは異なる診療科から他の医薬品が処方されたことを表す医療イベントである。

　これら「同時診療行為」、「併用医薬品」、及び「診療科変化」の医療イベントの時系列情報は、入力した診療報酬明細書や診療得情報などの医療情報データに直接含まれていれば、改めて作成する必要はない。しかし、含まれていない場合には、医療情報データに対して、前処理を行って、これらの医療イベントを新たに作成する必要がある。医療情報データから、「同時診療行為」、「併用医薬品」、「診療科変化」の３つの医療イベントの時系列情報を作成方法について以下に説明する。

　前処理として、「同時診療行為」の医療イベントの時系列情報を作成する例を示す。同一の患者に関し、（変換前）として示すように、診療行為の種別ごとに複数の時系列情報があったとする。その患者が月ごとに何件の診療行為を受けたかをカウントすることによって、（変換後）に示すように、「同時診療行為」の医療イベントの時系列情報を作成できる。下記の例では、閾値を２０、１０、７、５とした場合について説明する。閾値は、制御パラメータ６９の一つである。

　（変換前）
　　患者Ｘ、診療行為Ａ　　　：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｂ　　　：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｃ　　　：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｄ　　　：0, 0, 1, 0, 1, 0, 0
　　患者Ｘ、診療行為Ｅ　　　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、診療行為Ｆ　　　：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、診療行為Ｇ　　　：0, 0, 1, 0, 0, 1, 0
　（変換後）
　　患者Ｘ、同時診療行為（２０種類以上）：0, 0, 0, 0, 0, 0, 0
　　患者Ｘ、同時診療行為（１０種類以上）：0, 0, 0, 0, 0, 0, 0
　　患者Ｘ、同時診療行為（７種類以上）　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、同時診療行為（５種類以上）　：0, 0, 1, 0, 0, 1, 0

　次に、前処理として、「併用医薬品」の医療イベントの時系列情報を作成する例を示す。同一の患者に関し、（変換前）として示すように、医薬品の種別ごとに複数の時系列情報があったとする。その患者が月ごとに何件の医薬品が処方されたかをカウントすることによって、（変換後）に示すように、「併用医薬品」の医療イベントの時系列情報を作成できる。下記の例では、閾値を２０、１０、７、５とした場合について説明する。

　（変換前）
　　患者Ｘ、医薬品Ａ、内科：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｂ、外科：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｃ、内科：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｄ、内科：0, 0, 1, 0, 1, 0, 0
　　患者Ｘ、医薬品Ｅ、内科：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、医薬品Ｆ、内科：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｇ、内科：0, 0, 1, 0, 0, 1, 0
　（変換後）
　　患者Ｘ、併用医薬品（２０種類以上）：0, 0, 0, 0, 0, 0, 0
　　患者Ｘ、併用医薬品（１０種類以上）：0, 0, 0, 0, 0, 0, 0
　　患者Ｘ、併用医薬品（７種類以上）　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、併用医薬品（５種類以上）　：0, 0, 1, 0, 0, 1, 0
　次に、前処理として、「診療科変化」の医療イベントの時系列情報を作成する例を示す。同一の患者に関し、（変換前）として示すように、医薬品とその医薬品が処方された診療科の組み合わせの種別ごとに複数の時系列情報があったとする。医薬品とその医薬品が処方された診療科に関する組み合わせごとに、その医薬品が処方された診療科とは異なる診療科からなんらかの医薬品が処方された月かどうかを調べることによって、（変換後）に示すように、「診療科変化」の医療イベントの時系列情報を作成できる。以下に、「診療科変化」の医療イベントの時系列情報の作成例を示す。

　（変換前）
　　患者Ｘ、医薬品Ａ、内科　　　：0, 0, 1, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｂ、外科　　　：0, 1, 0, 0, 0, 1, 0
　　患者Ｘ、医薬品Ｃ、皮膚科　　：0, 0, 0, 1, 1, 1, 0
　（変換後）
　　患者Ｘ、診療科変化（医薬品Ａ）：0, 1, 0, 1, 1, 0, 0
　　患者Ｘ、診療科変化（医薬品Ｂ）：0, 0, 1, 1, 1, 0, 0
　　患者Ｘ、診療科変化（医薬品Ｃ）：0, 1, 1, 0, 0, 0, 0

　記憶装置１２から読み出した医療情報データ５１に含まれる各医療イベントの時系列情報は、ある決められた単位での医療イベントに関する時系列情報を扱う必要はないため、医療イベントの単位を別の単位に変換して、変換した単位での医療イベントの時系列情報を新たに作成する。

　例えば、傷病の時系列情報は、ＩＣＤ１０コード（疾病及び関連保健問題の国際統計分類（ＩＣＤ：International Statistical Classification of Diseases and Related Health Problems）第１０版コード）への変換表を用いて、ＩＣＤ１０単位の傷病の履歴を表す新たな医療イベントの時系列情報を作成する。さらに、医薬品の時系列は、ＡＴＣコード（解剖治療化学分類法（ＡＴＣ： Anatomical Therapeutic Chemical Classification System））への変換表を用いて、ＡＴＣコード単位の医薬品の処方履歴を表す新たな医療イベントの時系列情報を作成する。以降は、前処理として、「傷病」の医療イベントの時系列情報をＩＣＤ１０単位に変換した場合の例を示す。（変換前）として示すように、患者Ｘに対して、ある特定の月において、「心筋症」または「続発性心筋症」として診断されていた場合があったとする。この場合は、「心筋症」と「続発性心筋症」は、同じＩ４２９というＩＣＤ１０コードに対応するため、（変換後）に示すように、Ｉ４２９という傷病に関する時系列情報を作成できる。

　（変換前）
　　患者Ｘ、心筋症　　　　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、続発性心筋症　：0, 0, 0, 0, 0, 1, 0

　（変換後）
　　患者Ｘ、心筋症　　　　：0, 0, 1, 0, 0, 0, 0
　　患者Ｘ、続発性心筋症　：0, 0, 0, 0, 0, 1, 0
　　患者Ｘ、Ｉ４２９　　　：0, 0, 1, 0, 0, 1, 0

　医療情報データに、実数などの二値データ以外の時系列情報が含まれている場合には、属性データを作成しやすくするために、それらを二値データに変換する。例えば、「医療費」の医療イベントの時系列情報は、実数の時系列情報として、医療情報データに記載されている場合がある。そこで、「医療費」の医療イベントの時系列情報を変換対象の例として、以降説明する。

　医薬品有害事象の検出には、「医薬費」の金額などの詳細な情報を扱うよりも、高額な医療費なのか、あるいは少額の医療費なのか、などのように、大まかな情報の粒度に変換したほうが適している。また、医療情報データに含まれる他の医療イベントのように、０／１の二値データの形式に変換することによって、医療情報データに含まれる医療イベントの時系列情報を同じ形式に揃えることができるため、医療情報データの扱いが容易になるというメリットもある。

　そこで一定の閾値（例えば１０００）を設定してこの閾値以上であるかどうかを「０」及び「１」で表すこととして、閾値以上かどうかで「医療費」の医療イベントを表すようにデータを変換する。この閾値も制御パラメータ６９の一つである。

　以下に、変換前と変換後の「医療費」の医療イベントの例を示す。下記の例では、閾値を１０００（４桁）、１００（３桁）として場合について説明する。

　（変換前）
　　患者Ｘ，医療費：300, 550, 90, 140, 2500, 600, 0
　（変換後）
　　患者Ｘ，医療費（１０００以上）：0, 0, 0, 0, 1, 0, 0
　　患者Ｘ，医療費（１００以上）　：1, 1, 0, 1, 1, 1, 0

　（１－２）ステップＳ１３：
　ステップＳ１３では属性データを作成する。本実施形態において属性データＸ_nは、一般に、複数個の要素からなるベクトルとして表される。「医薬品と傷病」の組み合わせごとにその組み合わせを識別される番号が付与されるとして、１番目の組み合わせ（すなわちｎ＝１）は、要素の数が７であるとすると、
　Ｘ₁＝(0,0,3,2,1,0,0)
となる。これは、ｎ＝１である組み合わせについて、属性項目１の値が０、属性項目２の値が０、属性項目３の値が３、属性項目４の値が２、属性項目５の値が１、属性項目６の値が０、属性項目７の値が０、ということを示している。作成された属性データは記憶装置１２に格納される。

　属性データは、各組み合わせに関して、組み合わせの医薬品と傷病が、医療情報データ上で、同一患者に共起した時点の周辺の時期において、医療情報データに含まれる医療イベントが発生していたり、発生していなかったりする特徴を示すデータである。これは、有害事象が起きるタイミングにおいては、当該患者において、これまでよりも高額医療費が発生したり、入院が発生したり、これまで処方されていた医薬品が中止になったり、有害事象を治療するための何らかの医薬品や診療行為が新規追加、医薬品が処方された診療科とは違う診療科にかかる、というようなことが起きるだろうという知見に基づいて、作成されるものである。

　医療情報データから医薬品有害事象を高精度に検出するためには、有害事象が起きた場合と有害事象が起きていない場合との間で、属性データに何らかの差異が存在することが必要になる、そのため、有害事象が起きるタイミングで、特定の医療イベントが発生していたり、発生していなかったりするような特徴を属性データとして表現することによって、有害事象が起きた場合と有害事象が起きていない場合との間で、属性データに何らかの差異が生じると考えられる。

　次に、属性データの作成方法について詳細を説明する。属性データの種類は大きく分けて、例えば次の６種類がある。

　（パターン属性データ）
　１つ目は、パターン属性データである。この属性データは、図３に示すように、組み合わせの医薬品と傷病について、同一患者に、医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、その発生した時点を基準として、その前後の予め定められた第２の期間内において、予め定めた種類の医療イベントの発生の有無の順序を表すパターンを抽出して、医療情報データ全体における各パターンの発生率を表す属性データである。第１及び第２の期間の長さは、制御パラメータ６９の一つである期間長条件によって定められる。

　この属性は、有害事象が起きる場合とそうではない場合で、組み合わせに含まれる傷病が発生する前後の期間において、高額医療費や入院などの医療イベントが発生したり、発生しなかったりする順序に何らかの差異が現れるだろうという考えに基づいて作成されるものである。

　例えば、有害事象を示す組み合わせに含まれる傷病が発生する前の期間では、高額医療費が発生していないが、傷病の発生後の期間では、高額医療費が毎時点で連続して発生するようなパターンの発生率が高く、一方で、有害事象ではない組み合わせに含まれる傷病が発生後の期間では、高額医療費が毎時点で連続して発生するようなパターンの発生率は低い、というように差異が現れると考えられる。

　パターン属性データの具体的な一例を説明する。ある患者に関し、基準時を中心とする前後合わせて７か月という期間を考えてその期間の各１か月ごとに入院があったかなかったかを「０」（入院なし）、「１」（入院有り）で表すとすると、この７か月の期間で少なくとも１回は入院した場合には、「０」と「１」との組み合わせで表わされるパターンは全部で１２７通り（＝２⁷－１）ある。そこでこの１２７通りのパターンの各々を属性項目として、各パターンの発生率を属性項目における値とすることができる。

　（発生率）
　２つ目の種類の属性データは、発生率属性データである。この属性データは、図３に示すように、組み合わせの医薬品と傷病について、同一患者に、医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、医薬品処方後から傷病が発生するまでの期間における、予め定めた種類の医療イベントの発生率を示す属性データである。

　この属性データは、有害事象が起きる場合とそうではない場合で、組み合わせに含まれる医薬品が処方された後から傷病が発生した間の期間において、高額医療費や入院などの医療イベントが発生する割合に、何らかの差異が現れるだろう、という考えに基づいて作成されるものである。

　例えば、有害事象を示す組み合わせに含まれる医薬品が処方された時点から傷病が発生する時点の間の期間においては、医薬品処方によって患者が体の不調を訴えて、医師の診察を受けた際に、患者の体調を検査するための種々の診療行為が同時期に実施されて、同時診療行為数（１０以上）というイベントが発生する場合などが考えられるため、同時診療行為数（１０以上）の医療イベントの発生率が高いと考えられる。一方で、有害事象ではない組み合わせに含まれる医薬品が処方された時点から傷病が発生する時点の間の期間においては、医薬品処方によって患者が体の不調を訴えて、医師の診察を受けることもないので、同時診療行為数（１０以上）の医療イベントの発生率が低いと考えられる。

　（遷移確率）
　３つ目の種類の属性データは、遷移確率属性データである。この属性データは、図４に示す通り、組み合わせの医薬品と傷病について、同一患者に、医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、その発生した時点を基準として、その前の予め定められた第３の期間とその後の予め定められた第４の期間において、予め定めた種類の医療イベントの発生または未発生の遷移確率を表す属性データである。

　この属性データは、有害事象が起きる場合とそうではない場合で、組み合わせに含まれる傷病が発生する前の期間と後の期間において、高額医療費や入院などの医療イベントの発生の有無の順序に、何らかの差が現れるだろう、という考えに基づいて作成されるものである。

　例えば、有害事象を示す組み合わせに含まれる傷病が発生する前の期間では、高額医療費が発生せず、傷病の発生後の期間では、有害事象を治療するために伴って高額医療費が発生するというように、高額医療費の医療イベントが、未発生から発生というように遷移する確率が高くなると考えられる。一方で、有害事象ではない組み合わせに含まれる傷病が発生する前と後の期間では、両期間ともに、高額医療費が発生しないと考えらえるため、高額医療費の医療イベントが、未発生から未発生というように遷移する確率が高くなると考えられる。

　（イベント発生比率の差）
　４つ目の種類の属性データは、イベント発生比率差属性データである。この属性データは、組み合わせの医薬品と傷病について、同一患者に、医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、その発生した時点を基準として、その前の予め定められた第３の期間における予め定めた種類の医療イベントの第１の発生率と、その後の予め定められた第４の期間における予め定めた種類の医療イベントの第２の発生率を用いて、第１の発生率と第２の発生率に差はないという帰無仮説と、差があるという対立仮説をおいて、２群の比率の差の検定を行い、帰無仮説が正しいときに帰無仮説が却下される確率を示すｐ値を表す属性データである。

　この属性は、有害事象が起きる場合とそうではない場合では、組み合わせに含まれる傷病が発生する前と後の期間において、高額医療費や入院などの医療イベントの発生率に差が生じるだろうという考えに基づいて作成されるものである。

　例えば、有害事象を示す組み合わせに含まれる傷病が発生する前の期間では、高額医療費が発生する確率が低いが、傷病の発生後の期間では、有害事象を治療するために高額医療費が発生する確率が高いと考えられるため、傷病の発生前後で、発生率に差があり、ｐ値が小さくなると考えられる。一方で、有害事象ではない組み合わせに含まれる傷病が発生する前と後の期間では、両期間ともに、高額医療費が発生する確率が低いと考えられるため、傷病の発生前後で、発生率に差がなく、ｐ値が大きくなると考えられる。

　（異常値）
　５つ目の種類の属性データは、異常値属性データである。この属性データは、入力された各組み合わせの医薬品と傷病について、同一患者に医薬品が処方された時点を基点にして、その前後の予め定められた第２の期間内において、予め定めた種類の医療イベントが発生したり、発生しなかったりする順番を表すパターンを抽出した結果をまとめた第１の医療イベントパターン集合と、同一患者に医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、傷病が発生した時点を基準として、その前後の予め定められた第２の期間内で、予め定めた種類の医療イベントが発生したり、発生しなかったりする順番を表すパターンを抽出した結果をまとめた第２の医療イベントパターン集合とを用いて、第１の医療イベントパターン集合を用いて、医療イベントのパターンを確率モデルで学習して、第２の医療イベントパターン集合に含まれる各パターンが、学習した確率モデルから生成されるパターンとして、どれくらい異常であるかを表す数値を属性データとする。

　この属性は、有害事象が起きる場合とそうではない場合で、組み合わせに含まれる傷病が発生する前後の期間において、高額医療費や入院などの医療イベントが発生したり、発生しなかったりする順序に何らかの差異が現れるだろうと考えられる。

　さらに、そもそも、医薬品が処方されて有害事象が発生するのは、稀であり、ほとんどの場合は、医薬品が処方されても有害事象が発生しないと考えられる。そのため、有害事象が起こるか起こらないかに限らず、患者に当該医薬品が処方されたタイミングでの当該医療イベントの発生パターンを確率モデルで学習すると、患者に医薬品が処方されて有害事象が発生したタイミングでの医療イベントの発生パターンは、非常に稀に発生するような発生パターンを示しているのではないかと考えられる。

　そこで、患者に当該医薬品が処方されたタイミングでの当該医療イベントの発生パターンを確率モデルで学習しておいて、学習した確率モデルから生成されるパターンとして異常である程度を示す数値を属性データとすることで、この属性データに、有害事象が起きる場合とそうではない場合の差異が現れるだろうと考えられる。

　例えば、医薬品が処方されて有害事象が起こった場合は、有害事象を治療するのに伴って高額医療費が毎時点で連続して発生するようなパターンが起きると考えられるが、一方で、患者に医薬品が処方されたタイミングでの医療イベントの時系列情報には、高額医療費が毎時点で連続して発生するようなパターンは起きにくいと考えられる。

　確率モデルとしては例えばマルコフ確率モデルを用いることができ、この場合は、医療イベントの発生パターンをマルコフ過程として扱って学習済みのマルコフ確率モデルに入力することより、属性データが算出される。あるいは、確率モデルとして、ナイーブベイズモデルを用いることができる。

　（外れ値）
　６つ目の種類の属性データは、外れ値属性データである。この属性データは、入力された各組み合わせの医薬品と傷病に関する上述したパターン属性データを用いて、各組み合わせのパターン属性データが、入力された他の組み合わせのパターン属性データと比較して、パターン属性データの各属性項目の値の大小の傾向が、外れている度合いを表す属性データである。

　この属性は、有害事象は稀に起こるような事象であり、組み合わせの多くは、有害事象を示さない組み合わせであることと、パターン属性データの各属性項目の値の大小の傾向は、有害事象を示さない組み合わせ同士では似ているが、有害事象を示す組み合わせと比較すると似ていないということから、組み合わせ全体の中では、有害事象を示す組み合わせの属性データの各属性項目の値の大小の傾向は、他の多くの組み合わせと比べて、大きく外れているのではないかという考えに基づいて、作成されるものである。

　例えば、有害事象を示す組み合わせについて、医薬品が処方されて傷病が起こった場合は、高額医療費が毎時点で連続して発生しているというようなパターンの発生率が高いと考えられるが、その他多くの有害事象を示さない組み合わせについては、高額医療費が毎時点で連続して発生しているというようなパターンの発生率は低いと考えられる。そのため、高額医療費が毎時点で連続して発生しているというようなパターンの発生率という観点からは、有害事象を示す組み合わせが他の組み合わせと比べて、外れていると考えられる。

　この属性データの作成には、他から外れている度合を算出する技術を使う。これに関連する技術は、外れ値検出技術として知られており、その中でも、一般的な手法の一つとして知られているのが、１クラスサポートベクターマシン（ワンクラスＳＶＭ(support vector machine)）である。１クラスサポートベクターマシンとは、入力したデータのうち、高密度に分布するデータを正例として判別して正の値の出力し、そうでないデータを負例として判別して負の値を出力するように判別モデルを学習し、この学習した判別モデルを用いることによって、低密度に分布するデータ（つまり、入力した他のデータからは外れているデータ）を入力すると、負の値を出力する手法である。

　上記の６種類以外の属性データとして、種々の変形例の属性データがある。以下、変形例の属性データについて説明する。

　（指示関数）
　変形例の属性データは、例えば、指示関数属性データである。この属性データは、入力された各組み合わせの医薬品と傷病に関して、傷病がどのＩＣＤ１０コードに属するのかを表す属性データである。

　この属性は、有害事象を表す組み合わせに含まれる傷病と同一のＩＣＤ１０コードに属する傷病は、同様に有害事象であろうという考えに基づいて作成されるものである。ＩＣＤ１０コードは、傷病の分類分けをするためのコードであるため、ＩＣＤ１０コードが同じであれば、傷病の種類も似ていると考えられる。そのため、ある傷病が医薬品の有害事象であるならば、ＩＣＤ１０コードが同一の別の傷病も同一の医薬品の有害事象を示しているのではないかと考えられる。

　指示関数属性データの具体的な作成方法を説明する。記憶装置１２から読み出した正例、負例、正例負例でもない組み合わせに含まれる、全ての種類の医薬品と傷病名の中から、ユニークな医薬品の種類のリストとユニークな傷病名の種類のリストを作成する。また、ユニークな傷病名の種類のリストに含まれる各傷病名を、ＩＣＤ１０へのコード変換表を用いてＩＣＤ１０単位に変換し、さらに、そのうちのユニークなＩＣＤ１０の種類を示すリストを作成する。そして、ユニークな医薬品の種類のリストとユニークなＩＣＤ１０の種類のリストを用いて、医薬品とＩＣＤ１０の全ての組み合わせを表すリストを新たに作成する。例えば、医薬品の種類が１０種類で、ＩＣＤ１０の種類が１００種類であった場合は、１０００通りの医薬品とＩＣＤ１０の組み合わせを表すリストとなる。

　そして、このリストに記載の組み合わせの各々を属性項目として、正例または負例または正例でも負例でもない「医薬品と傷病」のそれぞれの組合せについて、まず、組み合わせに含まれる傷病をＩＣＤ１０へのコード変換表を用いてＩＣＤ１０単位に変換し、その組み合わせに含まれる医薬品とＩＣＤ１０の組合せが、属性項目が示す医薬品とＩＣＤ１０の組合せと一致したら、「１」、一致しなければ、「０」の値を属性項目における値とする。

　以上、本実施形態で用いることができる種々の属性データを説明したが、属性データとしては、ここで挙げたもの以外のものも使用できる。また、本実施形態では、予め定める医療イベントの種類を変えて、同じように上記の属性データを作成するとよい。医療イベントの種類としては、例えば、入院、医療費（４桁以上）、医療費（３桁以上）、同時診療行為（２０種類以上）、同時診療行為（１０種類以上）、同時診療行為（７種類以上）、同時診療行為（５種類以上）、併用医薬品数（２０種類以上）、併用医薬品数（１０種類以上）、併用医薬品数（７種類以上）、併用医薬品数（５種類以上）などや、ＩＣＤ１０単位に変換した後の傷病に関する医療イベントやＡＴＣ単位に変換した後の医薬品の処方に関する医療イベントなどがある。

　また、患者の性別や年代別に、同じように上記の属性データを作成してもよい。例えば、男性で２０代の患者における入院イベントの発生率を属性データとすることができる。これは、男性で２０代の同一患者に医薬品が処方された後から、予め定められた長さの第１の期間内において傷病が発生した場合に、医薬品処方後から傷病が発生するまでの期間における、予め定めた種類の医療イベントの発生率を示す属性データを求めることに相当する。

　また、「医薬品と傷病」の組み合わせに関する属性データを求める際に、その医薬品の処方に関して初回処方だけを考えて属性データを作成してもよい。また、医薬品の処方後の、第１の期間において、傷病が複数時点にわたり発生している場合があるが、その場合に、初回の傷病のみを基点にして、属性データを作成するということに限ってもよい。または、初回の処方のみに限らずに、２回目以降のそれぞれの傷病を基点にして、それぞれ属性データを作成してもよい。または、上記の医薬品の処方を限定する条件と、基点とする傷病を限定する条件を組み合わせてもよい。

　（２）学習フェーズＳ２の詳細：
　（２－１）ステップＳ２１：
　ステップＳ２１では、記憶装置１２から、正例の組み合わせ５２と、負例の組み合わせ５３と、それらの正例及び負例に対応する正例負例フラグ５５及び属性データ５６とを読み出す。正例、負例の組み合わせをＮ個読み出したとして、各組み合わせを組み合わせ番号ｎ（ｎ＝１，…，Ｎ）と記すこととする。また、有害事象フラグをＹ_n（ｎ＝１，…，Ｎ）とする。すなわち、Ｙ_nは、組み合わせｎが、正例の組み合わせか（Ｙ_n＝１）、負例の組み合わせか（Ｙ_n＝－１）を表すフラグである。また、読み出した属性データをＸ_n（ｎ＝１，２，…，Ｎ）とする。Ｘ_nは、上述したように組み合わせｎに対応する属性データである。

　（２－２）ステップＳ２２：
　本実施形態において判別モデルに入力して求める値は、有害事象スコアＳ(Ｘ_n)である。ステップＳ２２では、この値を算出するための判別モデルを定めてそのパラメータを学習する。この有害事象スコアＳ(Ｘ_n)は、組み合わせｎの有害事象としての疑わしさの強度を表す。以下、有害事象スコアＳ(Ｘ_n)を算出する判別モデルを学習する動作を説明する。

　判別モデルとしては、例えば、正例負例フラグＹ_n＝１である正例の組み合わせに対応する属性データＸ_nが与えられた場合に、あるＸ_nのＹ_n＝１である強さを表すスコアを出力可能な線形サポートベクトルマシン（以降、線形ＳＶＭという）を用いると良い。線形ＳＶＭは、Ｘ_nから、Ｙ_n＝１かＹ_n＝－１かを判別する二値判別問題によく適用されるモデルである。また、ロジスティック回帰モデルなどの他の判別モデルを用いてもよい。

　以下では、線形ＳＶＭを例に、判別モデルを学習する動作を説明する。

　線形ＳＶＭでは、重みベクトルＷをＭ次元の重みベクトルとすると、正例の組み合わせの属性データに正の値を出力して、負例の組み合わせの属性データに負の値を出力することで正例と負例を判別する、次の線形判別関数を用いる。

　　　ｆ(Ｘ_n，Ｗ)＝Ｗ^T Ｘ_n　　　　…(1)
ここで、上付き文字の“Ｔ”はベクトルの転置を表す。

　判別モデルの学習データとして、正例と負例の組み合わせに関する（Ｘ_n，Ｙ_n）、（ｎ＝１，…，Ｎ）が与えられた場合に、線形ＳＶＭでは、以下の目的関数を最小化することによって、重みベクトルＷの値を算出する。

　右辺第１項は、判別誤差の和を表している。Ｙ_nとＷ^T Ｘ_nの符号が一致するときは誤差ゼロであるが、符号が一致しないときは、誤差の分だけ右辺第１項が大きくなる。右辺第２項は罰則項を表している。｜Ｗ｜はＷのノルムである。通常は、ノルム２やノルム１を用いる。パラメータＣは、第１項（正例と負例の判別の誤りを小さくするか）と第２項（罰則項）のバランスを調整するパラメータである。パラメータＣは、制御パラメータ６９として事前に与えてよい。あるいは、パラメータＣについての複数の候補を与え、クロスバリデーション法を用いて最適なＣを自動的に選択するようにしてもよい。

　Ｌ(Ｗ)を最小化するパラメータの値をＷ^*として、判別モデルのパラメータをＷ^*とする。なお、Ｌ(Ｗ)を最小化するＷを求める方法としては、様々な最適化手法が提案されている。例えば、非特許文献２に記載の方法などがある。

　学習フェーズＳ２の処理結果である判別モデルは、上記学習したモデルパラメータＷ^*によって表現（定義）される。

　（３）有害事象スコア算出フェーズＳ３の詳細：
　（３－１）ステップＳ３１：
　ステップＳ３１では、記憶装置１２から、学習済みの判別モデル５７と、正例負例以外の組み合わせ５４と、その組み合わせに対応した属性データを読み出す。Ｋ個の正例負例以外の組み合わせとその組み合わせに対応した属性データをＫ個ずつ読み出したとする。ここで、読み出した属性データをＸ_k（ｋ＝１，２，…，Ｋ）とする。

　（３－２）ステップＳ３２：
　ステップＳ３２では、呼び出した判別モデルＷ^*を用いて、Ｘ_kの有害事象スコアＳ(Ｘ_k)を計算する。具体的には、
　Ｓ(Ｘ_k)　＝　Ｗ^*T Ｘ_k　　　　…(3)
として計算する。計算された有害事象スコアＳ(Ｘ_k)は記憶装置１２に格納される。

　（４）抽出フェーズＳ４の詳細：
　（４－１）ステップＳ４１：
　ステップＳ４１では、記憶装置１２から、Ｋ個の正例負例以外の組み合わせと、その各組み合わせに対応した有害事象スコアＳ(Ｘ_k)（ｋ＝１，…，Ｋ）と、抽出条件とを読み出す。ここでは、例えば、抽出する組み合わせ数の最大数や有害事象スコアの閾値を抽出条件とする。

　（４－２）ステップＳ４２：
　抽出する組み合わせの数の最大数Ｈを抽出条件とする場合は、有害事象スコアで組み合わせをソートして、有害事象スコアが大きい方からＨ個を抽出する。また、有害事象スコアの閾値Ｔを条件とする場合は、有害事象スコアで組み合わせをソートして、有害事象スコアの値がＴ以上の組み合わせを上から順番に抽出する。

　（４－３）ステップＳ４３：
　ステップＳ４３では、ステップＳ４２で抽出した抽出結果である、有害事象として疑いの強い組み合わせのリストを記憶装置１２に保存する。または、抽出結果を画面表示部１５に出力し、あるいは通信インタフェース部１３を通じて外部に出力する。

　このように本実施形態によれば、医療情報データに基づいて、正例負例以外の組み合わせの中から、有害事象として疑わしさを表す有害事象スコアに基づいて、抽出条件を満たすように、有害事象の組み合わせを抽出することができる。

　本実施形態では、「医薬品と傷病」の組み合わせを対象として所定期間内の医療イベントの時系列情報から属性データを求める際に、医療イベントとして、患者に医薬品が処方されたこととその患者において傷病が観察されたことを含むとともに、その患者に対して行われた医療行為及びその医療行為に付随してその医療行為が行われたことを示すイベントの少なくとも一方を含んでいるものを使用する。患者に有害事象が起こった場合には、それを治療するために、いずれかの診療科を受診して、それを検査・治療するための診療行為が実施され、その分の医療費が請求されることになるため、診療行為と、入院と、医療費と、診療科の医療イベントの時系列情報には、有害事象が起こった場合と起こっていない場合において、何らかの違いが現れる。

　そのため、有害事象の組み合わせと有害事象ではない組み合わせに関して、医薬品の処方期間における傷病の発生回数に関する属性データが同じ内容であった場合でも、診療行為、診療科、医療費、入院の有無の医療イベントの発生に関する多種類の属性データを作成することによって、有害事象の組み合わせと有害事象ではない組み合わせに関して、属性データが同じ内容になることを防ぐことができるようになる。本実施形態から明らかになるように、本発明によれば、医薬品と傷病の発生の時系列情報に加えて少なくとも他の１種類の医療イベント情報を用いて属性データを作成することにより、医薬品と傷病の発生のみを用いて属性データを作成する場合に比べ、より間違いが少なく、幅広く有害事象を抽出できるようになる。

　以上説明した本実施形態の医薬品有害事象抽出装置において、処理装置１１内に設けられる入力部２１、属性データ作成部２２、判別モデル学習部２３、有害事象スコア算出部２４及び抽出部２５は、それぞれ専用のハードウェアをして構成することができる。あるいは、ＣＰＵ（中央処理装置）などのマイクロプロセッサとその周辺回路とを備えたコンピュータによって、処理装置１１の全体を構成することができる。コンピュータによって処理装置１１を実現する場合には、上述した入力部２１、属性データ作成部２２、判別モデル学習部２３、有害事象スコア算出部２４及び抽出部２５の機能を実行するためのプログラムをコンピュータに読み込ませてコンピュータに実行させればよい。このプログラムは、通信インタフェース部１３などを介して外部装置から読み込まれ、あるいは、コンピュータ読み取り可能な記憶媒体から読み込まれ、予め、記憶装置１２、あるいは、記憶装置１２とは別に設けられたプログラム用のメモリに格納される。さらには、属性データの作成、判別モデルの学習、有害事象スコアの算出、有害事象に対応する示す組み合わせの抽出の全てまたは一部を複数のプロセッサで分散して実行するようにしてもよい。

　以上、本発明の実施の一形態を挙げて説明したが、本発明は以上の実施形態にのみ限定されず、その他各種の付加変更が可能である。以下、上述した実施形態に関する種々の変形例を説明する。なお、各変形例による医薬品有害事象抽出装置においても、コンピュータに対応するプログラムを読み込ませて実行させることにより、各処理装置１１を実現することができる。

　［変形例１］
　図５は、変形例１による医薬品有害事象抽出装置の構成を示している。図１に示した医薬品有害事象抽出装置では、正例の組み合わせと負例の組み合わせと正例負例以外の組み合わせの３種類を予め入力する必要がある。ところで、医療情報データ５１に含まれる各患者ごとの医療イベントの時系列情報には医薬品処方の時系列情報とどの傷病がいつ発生したかの時系列情報も含まれているから、正例、負例及び正例負例以外の組み合わせを仕分ける何らかの仕組みがあれば、正例の組み合わせと負例の組み合わせと正例負例以外の組み合わせの３種類を予め入力することなく、医薬品有害情報事象の抽出を行えるはずである。そこで、図４に示したものは、図１に示した装置において、「医薬品と傷病」の組み合わせごとにそれが正例に分類されるべきか負例に分類されるべきかを記載した正例負例辞書６１を記憶装置１２内に配置するようにした上で、医療情報データ５１に含まれる各患者ごとの医療イベントの時系列情報から「医薬品と傷病」の組み合わせを抽出し、抽出した組み合わせが正例なのか負例なのか、または正例負例以外かを正例負例辞書６１に基づいて自動的に分類する組み合わせ抽出部２６を処理装置１１内に設けたものである。組み合わせ抽出部２６は組み合わせ抽出手段に相当する。

　図６は、図６に示した変形例１の医薬品有害事象抽出装置の動作を示している。この装置では、図２に示した動作における属性作成フェーズＳ１の前に、医療情報データから「医薬品と傷病」の組み合わせを抽出し、正例負例辞書６１を参照して、抽出した組み合わせを正例の組み合わせと負例の組み合わせと正例負例以外の組み合わせとに分ける組み合わせ抽出フェーズＳ５を設けている。

　組み合わせ抽出フェーズＳ５においては、まず、ステップＳ５１において、入力部２１が、医療情報データ、対象医薬品及び正例負例辞書を受け取って記憶装置１２に格納する。次に、ステップＳ５２において、組み合わせ抽出部２６が、医療情報データ５１から、組み合わせを抽出する。その際、制御パラメータ６９に含まれている期間長条件を参照し、例えば、ある患者において、ある医薬品処方の後の第１の期間の間（図３を参照）に発生している傷病がある場合は、当該医薬品と当該傷病の組み合わせを対象として抽出する。そして、正例負例辞書６１を参照して、抽出した組み合わせが正例か負例かを判定し、正例であれば正例の組み合わせとして記憶装置１２に格納し、負例であれば負例の組み合わせとして記憶装置１２に格納し、それ以外の場合には、正例負例以外の組み合わせとして記憶装置１２に格納する。

　ステップＳ５２が終了した後は、図２に示した場合と同様に、属性作成フェーズＳ１、学習フェーズＳ２、有害事象スコア算出フェーズＳ３及び抽出フェーズＳ４が順に実行される。

　［変形例２］
　図７は、変形例２による医薬品有害事象抽出装置の構成を示している。医薬品有害事象の抽出において、ある医薬品に関しておよそ関係がないと思われる傷病がある。このような傷病も含めて「医薬品と傷病」の組み合わせも対象として有害事象の抽出を行おうとすると、演算時間が長くなったり、精度の低下が起こるおそれがある。そこで図７に示した医薬品有害事象抽出装置は、図５に示した装置における正例負例辞書の代わりに正例負例ストップワード辞書６２が記憶装置１２に格納されるようにしたものである。図７に示したものでは、正例負例ストップワード辞書６２は、変形例１での正例負例辞書６１に、さらに、処理対象とする組み合わせとしては考えない傷病のリストをストップワードのリストとして格納したものである。変形例２では、正例負例ストップワード辞書６２を用いることにより、ストップワードに該当する傷病を含む組み合わせを使用しないようにしている。

　図８は、図７に示す変形例２の医薬品有害事象抽出装置の動作を示している。変形例２での動作は、図５に示した変形例１の動作における組み合わせ抽出フェーズＳ５の代わりに、正例負例ストップワード辞書６２を参照することにより、医療情報データから抽出した「医薬品と傷病」の組み合わせの中から不要な組み合わせを除去して残りを正例の組み合わせまたは負例の組み合わせとして抽出する組み合わせ抽出フェーズＳ５ａを設けたものである。組み合わせ抽出フェーズＳ５ａでは、まず。ステップＳ５３において、入力部２１が、医療情報データ、対象医薬品、期間長条件、及び正例負例ストップワード辞書を受け取って記憶装置１２に格納する。次に、ステップＳ５４において、組み合わせ抽出部２６が、医療情報データ５１から、組み合わせを抽出する。その際、制御パラメータ６９に含まれている期間長条件を参照し、例えば、ある患者において、ある医薬品処方の後の第１の期間の間（図３を参照）に発生している傷病がある場合は、当該医薬品と当該傷病の組み合わせを対象として抽出する。そして、正例負例ストップワード辞書６２を参照して、抽出された組み合わせがストップワードであるかどうかをまず判定し、ストップワードであるときはその組み合わせを除外し、残りの組み合わせについて、正例負例ストップワード辞書６２を参照して正例であるか負例であるかを判定し、正例であれば正例の組み合わせとして記憶装置１２に格納し、負例であれば負例の組み合わせとして記憶装置１２に格納し、それ以外の場合には、正例負例以外の組み合わせとして記憶装置１２に格納する。

　ステップＳ５４が終了した後は、図２に示した場合と同様に、属性作成フェーズＳ１、学習フェーズＳ２、有害事象スコア算出フェーズＳ３及び抽出フェーズＳ４が順に実行される。

　［変形例３］
　図９は、変形例３の医薬品有害事象抽出装置の構成を示している。これまで述べてきた例では、複数種類の医薬品に対して単一の判別モデルを使用してきたが、変形例３では医薬品の種類ごとに異なる判別モデルを使用する。したがって記憶装置１２内には、図１に示した装置における判別モデル５７及び有害事象スコア５８の代わりに、複数の医薬品判別モデル６３及び複数の医薬品別有害事象スコア６４が格納されることになる。

　図１０は、図９に示す変形例３の医薬品有害事象抽出装置の動作を示している。変形例３での動作は、図２に示した動作での学習フェーズＳ２及び有害事象スコア算出フェーズＳ３の代わりに、それぞれ、学習フェーズＳ２ａ及び有害事象スコア算出フェーズＳ３ａを設けたものである。学習フェーズＳ２ａでは、図２の学習フェーズＳ２におけるステップＳ２１を実行したのち（ただし判別モデル５７の代わりに医薬品別判別モデル６３が呼び出される）、判別モデル学習部２３が、ステップＳ２３において、医薬品の種類ごとに正例の組み合わせと負例の組み合わせを分割し、ステップ２４において、医薬品の種類に応じて対応する医薬品別判別モデル６３を学習し、結果を記憶装置１２に格納する。また、有害事象スコア算出フェーズＳ３ａでは、図２の有害事象スコア算出フェーズＳ３のステップＳ３１を実行した後、有害事象スコア算出部２４が、医薬品の種類に応じて属性データを対応する医薬品別判別モデル６３に適用して、医薬品別有害事象スコアを算出する。算出された医薬品有害事象スコアは記憶装置１２に格納される。

　また変形例３では、学習フェーズＳ２ａにおいて、別々に医薬品別判別モデルを学習するのではなく、同時に学習するマルチタスク学習手法を採用してもよい。マルチタスク学習手法は、関連する複数のモデル（本実施形態においては判別モデル）を同時に学習する学習手法であり、個別に学習するよりも、各モデルのパフォーマンスが高くなる（本実施形態に即して言えば、判別モデルが正例負例を判別する性能が高くなる）ようにモデルを学習できる場合があることが知られている。マルチタスク学習手法の代表例が非特許文献３に記載されている。マルチタスク学習手法には、様々な種類があるが、その中でも最も一般的な方法の１つであるTrace-Norm Regularized Multi-Task Learning（トレースノルム正則化マルチタスク学習）を用いてもよい。この方法は、複数のモデルのそれぞれのモデルパラメータを、複数のモデル共通の低次元空間内に存在するように同時に学習する方法である。

　さらに、マルチタスク学習手法は、同時に学習するモデル（本実施形態では判別モデル）の間に、何かしらの強い関連性があるほど、各モデルのパフォーマンス（本実施形態の例では判別モデルが正例負例を判別する性能）がより高くなるようにモデルを学習できることが知られている。そのため、本実施形態においては、全ての医薬品別判別モデルの学習にマルチタスク学習手法を採用するのではなく、下記に示す変形例３－１で説明するように、薬効が同じ医薬品に関する医薬品別判別モデルの単位で、マルチタスク学習手法を採用するとよい。そうすることで、さらに、マルチタスク学習手法を採用する効果が得られると考えられる。なぜならば、薬効が同じであれば、医薬品の処方によって引き起こされる有害事象の種類も似ていると考えられるからである。

　さらに、変形例３では、変形例１と同様に正例負例辞書を設けて正例の組み合わせと負例の組み合わせとを自動的に抽出するようにしてもよく、変形例２と同様の正例負例ストップワード辞書を設けて正例の組み合わせと負例の組み合わせとを自動的に抽出しつつ、不要な組み合わせが使用されないようにしてもよい。

　［変形例３－１］
　変形例３では、医薬品の種類ごとに異なる判別モデルを使用してきたが、その一つのバリエーションとして、変形例３－１では、薬効ごとに異なる判別モデルを使用する。すなわち、薬効が同じ複数の医薬品に対して単一の判別モデルを使用する。この変形例３－１は、「医薬品の種類」として、医薬品の銘柄などはなく「医薬品の薬効」を用いたものに相当する。したがって、記憶装置１２内には、図９に示した装置における複数の医薬品判別モデル６３及び複数の医薬品別有害事象スコア６４の代わりに、複数の薬効別判別モデル及び複数の薬効別有害事象スコアが格納されることになる。

　変形例３－１の医薬品有害事象抽出装置の動作は、図１０に示した変形例３での動作と同様のものであるが、ステップＳ２４において医薬品別の判別モデルの学習を行う代わりに、薬効別の判別モデルの学習を行い、ステップＳ３３での医薬品別の有害事象スコアの算出の代わりに、薬効別の有害事象スコアの算出を行うことになる。

　［変形例３－２］
　これまで述べてきた例では、正例と負例の組み合わせの医療情報データ上の頻度には無関係に、正例と負例の組み合わせを判別モデルで学習してきたが、変形例３－２では、医療情報データ上の頻度が高い正例と負例の組み合わせと、頻度が低い正例と負例の組み合わせをそれぞれ別々の判別モデルで学習する。したがって、記憶装置１２内には、図９に示した装置における複数の医薬品判別モデル６３及び複数の医薬品別有害事象スコア６４の代わりに、頻度の高低別の判別モデル及び頻度の高低別の有害事象スコアが格納されることになる。

　共起する頻度という点で共通の特性がある正例と負例を判別するための判別モデルを学習する場合、頻繁に共起するような医薬品と傷病の組み合わせと稀にしか共起しないような医薬品と傷病の組み合わせとが混ざっている中から有害事象を抽出するよりも、変形例３－２に示すように、頻繁に共起するような組み合わせと稀にしか共起しないような組み合わせとを別々に扱うことにより、正例負例を判別する性能が高くなると考えられる。例えば、有害事象には、頻繁に起こるような軽い有害事象から稀に起きて重大な有害事象まで様々な種類があるため、頻繁に共起するような医薬品と傷病の正例の組み合わせと負例の組み合わせを用いて判別モデルを学習すると、同じように頻繁に起こるような有害事象を検出できると考えられる。また、一方で、稀に共起するような医薬品と傷病の正例の組み合わせと負例の組み合わせを用いて判別モデルを学習すると、稀に起こるような有害事象が検出できると考えられる。このように、頻度の高低別に判別モデルを学習することによって、有害事象の検出精度が高くなると期待させる。

　変形例３－２の医薬品有害事象抽出装置の動作は、図１０に示した変形例３での動作と同様のものであるが、ステップＳ２３において組み合わせを分割する際に、ある閾値を設定して、頻度が閾値以上の組み合わせと頻度が閾値未満の組み合わせとに分割し、ステップＳ２４において医薬品別の判別モデルの学習を行う代わりに、高頻度か低頻度かに応じて対応する頻度別判別モデルを学習し、ステップＳ３３での医薬品別の有害事象スコアの算出において、組み合わせの頻度の高低に応じて、対応する頻度別判別モデルに属性データを適用して、頻度別有害事象スコアを算出することになる。

　なお、学習フェーズで用いる頻度の閾値としては、複数候補を予め準備した上で、クロスバリデーション法によって求めた最適な閾値を使用すればよい。

　［変形例４］
　図１１は、変形例４の医薬品有害事象抽出装置の構成を示している。図１１に示す装置は、図１に示す装置において、有害事象スコアの順にソートされて正例負例以外の組み合わせが抽出されたとして、この抽出された正例負例以外の組み合わせに対してグルーピングを行うようにしたものである。図１１に示す装置は、図１に示した装置に対し、処理装置１１内にグルーピング部２７を設けるとともに、記憶装置１２内に、グルーピング済み組み合わせ６５、グルーピング済み有害事象スコア６６、及びグルーピング条件６７を格納するようにした構成を有する。グルーピング部２７はグルーピング手段に相当する。

　正例負例以外の組み合わせをグルーピングすることで、例えば、有害事象を示す組み合わせの一つ一つの有害事象としての疑わしさを表すスコアは小さい場合でも、傷病のグループごとにスコアをまとめ上げると、他の傷病グループと比べて有害事象を示す組み合わせが含まれる傷病グループのスコアが相対的に大きくなり、その傷病グループがスコア上位に上がる可能性が考えられる。そこで変形例４では、正例負例以外の組み合わせのそれぞれに対して有害事象スコアを出力した後に、各組み合わせの傷病名を何らかの基準を用いてグルーピングして、同じ傷病グループに属する複数の組み合わせのスコアを一つにまとめあげて、グルーピング済み有害事象スコアを算出し、そして、グルーピング済み組み合わせとグルーピング済み有害事象スコアをセットで出力するようにしている。

　図１２は、図１１に示した変形例４の医薬品有害事象抽出装置の動作を示している。変形例４での動作は、図２に示した動作における有害事象スコア算出フェーズＳ３と抽出フェーズＳ４の間に、グルーピングフェーズＳ６を設けたものである。グルーピングフェーズＳ６では、グルーピング部２７が、まずステップＳ６１において、記憶装置１２から、正例負例以外の組み合わせ５４、有害事象スコア５８、及びグルーピング条件７１を読み出し、ステップＳ６２において、正例負例以外の組み合わせ５４のグルーピングを実行し、グルーピング済み組み合わせと、それに対応したグルーピング済み有害事象スコアを記憶装置１２に格納する。グルーピングフェーズＳ６に引き続く抽出フェーズＳ４では、グルーピング済み組み合わせ６５とグルーピング済み有害事象スコア６６とに基づいて、有害事象であると疑わしい組み合わせが抽出される。

　また、変形例１と同様に正例負例辞書を設けて正例の組み合わせと負例の組み合わせとを自動的に抽出するようにしてもよく、変形例２と同様の正例負例ストップワード辞書を設けて正例の組み合わせと負例の組み合わせとを自動的に抽出しつつ、不要な組み合わせが使用されないようにしてもよい。

　変形例４において、各組み合わせの傷病名をグルーピングする条件として様々なものが考えられるが、例えば、ＩＣＤ１０コード（疾病及び関連保健問題の国際統計分類（ＩＣＤ：International Statistical Classification of Diseases and Related Health Problems）第１０版コード）の上４桁（細分類）が同じ各組み合わせの傷病名が、同じ傷病グループに含まれるようにしてもよい。

　また、グルーピング済み組み合わせに含まれる複数の組み合わせのスコアを一つにまとめあげてグルーピング済み有害事象スコアを算出する方法としても、様々なものが考えられる。グルーピング済み有害事象スコアの計算方法が異なるとスコア上位に抽出されやすくなるグルーピング済み組み合わせの傾向が異なるため、どのような性質をもったグルーピング済み組み合わせをスコア上位に上げたいか、という目的に応じて計算方法を決める必要がある。下記に、種々のグルーピング済み有害事象スコア算出方法とその特徴について簡単に説明する。

　例えば、同じＩＣＤ１０コード（上４桁）に属する傷病を含んだ複数の組み合わせの各々のスコアの平均値を、グルーピング済み有害事象スコアとする方法としてもよい。平均値をグルーピング済み有害事象スコアとすることによって、同じグループに属する組み合わせのスコアが、平均的に高いグループがスコア上位に抽出される。または、ある一部の組み合わせのスコアが極端に大きいだけの場合でも、そのグループはスコア上位に抽出されることになる。

　または、同じＩＣＤ１０コード（上４桁）に属する傷病を含んだ複数の組み合わせの各々のスコアの最大値を、グルーピング済み有害事象スコアとする方法としてもよい。最大値をグルーピング済み有害事象スコアとすることによって、同じグループに属する組み合わせのうち１種類でも有害事象の疑いが強い（スコアの値が大きい）組み合わせが含まれているグループが、スコア上位に抽出されやすくなる。

　または、同じＩＣＤ１０コード（上４桁）に属する傷病を含んだ複数の組み合わせの各々のスコアの中央値を、グルーピング済み有害事象スコアとする方法としてもよい。中央値をグルーピング済み有害事象スコアとすることによって、同じグループに属する複数の組み合わせのスコアが全体的に高いグループがスコア上位に抽出される。ある一部の組み合わせの有害事象スコアが極端に大きいだけの場合は、そのグループはスコア上位に抽出されにくい。

　または、同じＩＣＤ１０コード（上４桁）に属する傷病を含んだ複数の組み合わせの各々のスコアのうち、正のスコアのみを合計した値を、グルーピング済み有害事象スコアとする方法としてもよい。このように算出することによって、同じグループに正の大きいスコアをもつ組み合わせが数多く含まれるグループがスコア上位に抽出されやすくなる。

　さらに、正例負例以外の全ての組み合わせに付与された有害事象スコアが０～１の範囲の値になるように正規化した後に、同じＩＣＤ１０コード（上４桁）に属する組み合わせの各有害事象スコアの合計値をグルーピング済み有害事象スコアとする方法としてもよい。正規化した後に合計値をとることによって、同じグループにスコアの大きい組み合わせが数多く含まれていて、かつ、同じグループに含まれる組み合わせの数が多い傷病グループがスコア上位に抽出されやすくなる。ランキングのスコアの値を全て０－１の間に正規化してからグルーピング処理を行うため、同じグループに正規化前のスコアの値が小さい（負に大きい）組み合わせがあっても、合計値が下がらない。同じグループに属する組み合わせが多いグループのグルーピング済み有害事象スコアが大きくなる傾向がある。

　また、正例負例以外の全ての組み合わせに付与された有害事象スコアが０～１の範囲の値になるように正規化した後に、同じＩＣＤ１０コード（上４桁）に属する組み合わせの各有害事象スコアの平均値をグルーピング済み有害事象スコアとする方法としてもよい。正規化した後に平均値をとることによって、同じグループに属する複数の組み合わせのスコアが全体的に高いグループがスコア上位に抽出される。スコアの値を全て０－１の間に正規化してからグルーピング処理を行うため、同じグループに正規化前のスコアの値が小さい（負に大きい）組み合わせがあっても、合計値が下がらない。平均値をとることで、同じグループに属する組み合わせが多い組み合わせのグルーピング済み有害事象スコアが大きくなる傾向を抑える。

　以上の説明では、ＩＣＤ１０コード、特にその上４桁に基づいてグルーピングを行っているが、ＩＣＤ１０コード以外の傷病分類体系、例えば、ＩＣＤ９コード（ＩＣＤ第９版コード）を用いてグルーピングを行ってもよい。

　［変形例５］
　図１３は、変形例５の医薬品有害事象抽出装置の構成を示している。医療情報データから得られる「医薬品と傷病」の組み合わせには、ノイズと考えられるものが含まれることがある。そこで変形例５の装置では、図１に示した装置において、記憶装置１２にノイズの組み合わせ７１を格納しておき、有害事象と疑わしい組み合わせを抽出する際に、ノイズの組み合わせに該当するものを除外するようにしている。

　ここで、ノイズの組み合わせとは、有害事象とは考えにくい組み合わせのことである。例えば、組み合わせに含まれる医薬品と傷病について、医薬品の初回処方以降３か月以内に、傷病が出現している患者数がゼロの組み合わせをノイズと見なすことができる。初回処方以降３か月以内に一度も発生していない傷病は、当該医薬品によって引き起こされた有害事象としての疑いが弱いと考えられるためである。また、例えば、組み合わせに含まれる医薬品と傷病について、医薬品の処方以降３か月以内に傷病がどの患者にも発生していないような組み合わせをノイズと見なしてもよい。医薬品が処方される前から患者に発生していた傷病は、有害事象としての疑いが弱いと考えられるためである。

　図１４は、図１３に示す変形例５の医薬品有害事象抽出装置の動作を示している。変形例５での動作は、図２に示した動作における抽出フェーズＳ４を一部変更して抽出フェーズＳ４ａとしたものである。抽出フェーズＳ４ａでは、まずステップＳ４４において入力部２１が抽出条件及びノイズの組み合わせを通信インタフェーズ部１３または操作入力部１４から受け取り、記憶装置１２に格納する。次にステップＳ４５において抽出部２５が、記憶装置１２から有害事象スコア５８、抽出条件５９及びノイズの組み合わせ７１を、正例負例以外の組み合わせから、ノイズの組み合わせに該当せずかつ抽出条件を満たすように、有害事象を表す組み合わせを抽出し、その抽出結果を記憶装置１２に保存する。その後、抽出部２５は、図２に示したステップＳ４３、すなわち抽出結果の出力を行う。

　［変形例６］
　図１５は、変形例６の医薬品有害事象抽出装置の構成を示している。上述した変形例５では、ノイズの組み合わせを予め与えているが、変形例６では、ノイズであると判断するための条件すなわちノイズ条件だけを与え、組み合わせの中からノイズの組み合わせを自動的に抽出できるようにしている。そのような変形例６の装置は、変形例５の装置において、ノイズの組み合わせを行うノイズ抽出部３１を処理装置１１内に設けるともに、記憶装置１２にはさらにノイズ条件７２も格納されるようにしたものである。ノイズ抽出部３１はノイズ抽出手段に相当する。

　ノイズ条件としては、例えば、医療情報データ上で、医薬品の初回処方以降３か月以内に、傷病が出現している患者数がゼロの場合に、その「医薬品と傷病」の組み合わせをノイズとするという条件を用いることができる。初回処方以降３か月以内に一度も発生していない傷病は、当該医薬品によって引き起こされた有害事象としての疑いが弱いと考えられるためである。また、例えば、医薬品の処方以降３か月以内に傷病がどの患者にも発生していないような組み合わせをノイズとするという条件でもよい。医薬品が処方される前から患者に発生していた傷病は、有害事象としての疑いが弱いと考えられるためである。

　図１６は、図１５に示す変形例６の医薬品有害事象抽出装置の動作を示している。変形例６での動作は、図１４に示す変形例５での動作において、属性作成フェーズＳ１の前にノイズ抽出フェーズＳ７を実行するとともに、抽出フェーズＳ４ａを一部変更して抽出フェーズＳ４ｂとしたものである。ノイズ抽出フェーズＳ７では、まずステップＳ７１において、入力部２１が、医療情報データとノイズ条件とを通信インタフェース部１３または操作入力部１４から受け取って、記憶装置１２に格納する。次にステップＳ７２において、ノイズ抽出部３１が、記憶装置１２から医療情報データとノイズ条件とを読み取り、医療情報データのうちノイズ条件を満たすものを検索し、検索結果に基づいて、ノイズとなる組み合わせを見つけ出し、これを記憶装置１２に格納する。一方、抽出フェーズＳ４ｂでは、図２に示す抽出フェーズＳ４のステップ４１を実行して入力部２１が抽出条件を通信インタフェーズ部１３または操作入力部１４から受け取り記憶装置１２に格納し、次に、ステップＳ４５において抽出部２５が、記憶装置１２から有害事象スコア５８、抽出条件５９及びノイズの組み合わせ７１を、正例負例以外の組み合わせから、ノイズの組み合わせに該当せずかつ抽出条件を満たすように、有害事象を表す組み合わせを抽出し、その抽出結果を記憶装置１２に保存する。その後、抽出部２５は、図２に示したステップＳ４３、すなわち抽出結果の出力を行う。

　［変形例７］
　図１７は、変形例７の医薬品有害事象抽出装置の構成を示している。医薬品有害事象の抽出のために正例の組み合わせと負例の組み合わせとを用いる場合、正例と負例のいずれか一方が他方よりも数が多くなることがあるが、正例と負例との間で件数の偏りがある場合には判別モデルの学習の精度が低下して、医薬品有害事象の抽出の精度が低下するおそれがある。そこで変形例７では、正例の組み合わせと負例の組み合わせとの間での個数の偏りを補正するために、図１に示す医薬品有害事象処理装置において、処理装置１１内に、正例と負例との間の件数の偏りを補正する偏り補正部３２を設け、記憶装置１２内に補正済み正例の組み合わせ７３と補正済み負例の組み合わせ７４とを格納するようにしている。偏り補正部３２は、補正手段に相当するものであって、正例と負例のうち件数の少ない方について擬似例（擬似正例あるいは擬似負例）を生成するか、正例と負例のうち件数の多い方からいくつかの組み合わせを削除することにより、正例と負例との間の件数の偏りを補正する。生成する数が異なるように擬似正例と擬似負例の両方を生成して正例と負例との間の件数の偏りを補正してもよく、また、削除する数が異なるように正例と負例の両方を削除して正例と負例との間の件数の偏りを補正してもよい。このような補正が行われた後の正例の組み合わせ及び負例の組み合わせをそれぞれ補正済み正例の組み合わせ及び補正済み負例の組み合わせとしている。判別モデル５７の学習に際しては、補正済み正例の組み合わせ７３及び補正済み負例の組み合わせ７４を使用して、正例と負例との間で件数が偏らないようにして判別モデル５７の学習が行われるようにする。

　図１８は、図１７に示す変形例７の医薬品有害事象抽出装置の動作を示している。変形例７での動作は、図２に示した動作において、属性作成フェーズＳ１の直後に偏り補正フェーズＳ８を実行するとともに、学習フェーズＳ２の代わりに、補正済み正例及び補正済み負例の組み合わせを利用して判別モデルの学習を行う学習フェーズＳ２ｂを設けたものである。

　偏り補正フェーズＳ８では、偏り補正部３２が、まずステップＳ８１において、正例の組み合わせ５２と負例の組み合わせ５３とそれらの属性データ５６と正例負例フラグ５５とを記憶装置１２から受け取り、次に、ステップＳ８２において、擬似正例及び擬似負例の組み合わせの少なくとも一方を生成して記憶装置１２に格納する偏り補正の処理を実行する。擬似正例及び擬似負例の組み合わせは、実際の医療情報データから導出されたものではないが、正例の組み合わせや負例の組み合わせとして判別モデルの学習に使用できるように、「医薬品と傷病」の組み合わせとして擬似的に生成したデータである。擬似的に正例または負例を生成する方法としては、例えば、非特許文献４に記載された方法を用いることができる。

　あるいはステップＳ８２では、偏り補正部３２が、正例か負例のどちらかの件数が多い方の組み合わせを削除する補正を行って記憶装置１２に格納する偏り補正の処理を実行する。正例か負例のどちらかの件数が多い方の組み合わせの中から削除する組み合わせをどのように選択するかの方法として、例えば、非特許文献５に記載されている方法を用いることができる。

　なお、ステップＳ８２において、正例及び負例の一方に対して擬似例の生成または組み合わせの削除を行った場合、正例及び負例のうち、このような擬似例の生成や組み合わせの削除が行われなかったものについては、最初の正例または負例の組み合わせがそのまま補正済みの組み合わせとなる。

　学習フェーズＳ２ｂでは、判別モデル学習部２３が、ステップＳ２５において、記憶装置１２から、補正済み正例の組み合わせ７３と、補正済み負例の組み合わせ７４と、これらの組み合わせに対応する属性データ５６と、正例負例フラグ５５と、判別モデル５７とを呼び出して、これらを用いて図２に示した場合と同様にステップＳ２２において判別モデルを学習する。学習された判別モデルは記憶装置１２に戻される。学習ステップＳ２ｂに引き続いて、図２に示した有害事象スコア算出フェーズＳ３及び抽出フェーズＳ４がそのまま実行される。

　［変形例８］
　図１９は、変形例８の医薬品有害事象抽出装置の構成を示している。これまで述べてきた例は、学習データ（正例の組み合わせ及び負例の組み合わせ）の属性データ空間上の分布と評価データ（正例負例以外の組み合わせ）の分布とが似ているという仮定をおいて、正例の組み合わせと負例の組み合わせとを用いて判別モデルを学習して、正例負例以外の組み合わせの中から、属性データが正例と類似する組み合わせに対して高い有害事象スコアをつけることによって、高精度に医薬品有害事象を抽出できるようにしたものである。しかしながら、学習データの属性データ空間上の分布と評価データの分布との間に違いがある場合には、そのまま正例及び負例の組み合わせを用いて判別モデルを学習したとしても、その判別モデルを用いて正例負例以外の組み合わせの中から高精度に医薬品有害事象を抽出することが難しくなるおそれがある。

　一方、本発明では、既に有害事象として知られている正例の組み合わせと既に有害事象ではないと知られている負例の組み合わせとを学習データとし、各組み合わせに関して、医療情報データから属性データを作成しているが、この医療情報データの中には、医師が既知の有害事象の発現を抑えるために施した医療イベントの履歴の影響や、医師が有害事象ではないと知っている状況で施した医療イベントの履歴の影響などが入っていると考えられる。このため、正例の組み合わせまたは負例の組み合わせと有害事象かそうでないかが未だはっきりとわかっていない組み合わせとの間には、属性データ空間上の分布に何らかの違いがあると考えられる。

　学習データの属性データ空間上の分布と評価データの分布とに違いがある状況は、与えられた入力（本実施形態では、「医薬品と傷病」の組み合わせに該当する）に対する出力（本実施形態では有害事象スコアに該当する）の規則性が、学習データ（判別モデルの学習に用いる正例及び負例の組み合わせ）と評価データ（正例負例以外の組み合わせ）とでは変わらないが、与えられた学習データと評価データの属性データ空間上の分布が違ってしまう共変量シフトが起こっている状況として解釈することができる。

　そこで変形例８では、共変量シフトが起こっている場合でも、判別モデルを用いて正例と負例を高精度に判別できる学習手法として知られている、共変量シフト学習手法を適用する。

　共変量シフト学習手法を適用するためには、学習データを用いて判別モデルを学習する際に、評価データの分布を事前に知っておく必要があるが、本実施形態の手法は、評価データ（正例負例以外の組み合わせ）が予めわかっているため、共変量シフト学習手法が適用できる状況にある。一般的な機械学習の問題では、予め評価データがわかっている状況は稀であり、評価データが予めわかっていることは、本実施形態の特徴の一つである。

　代表的な共変量シフト学習手法の例が、非特許文献６に記載されている。この手法は、評価データの属性データ空間上の密度が高い領域に位置する学習データに大きい重みを付けて、重みを考慮して判別モデルを学習する手法である。つまり、評価データと属性データが類似する、重みが大きい学習データをより重点的に学習して、属性データが類似しない、重みが小さい学習データは判別モデルの学習にあまり反映しないようにする方法である。

　評価データにおける組み合わせｘの密度をｐ_test(ｘ)、学習データにおけるの組み合わせｘの密度をｐ_train(ｘ)とすると、組み合わせｘの重みＷ(ｘ)は、以下の式で導出される。

　上式は、組み合わせｘに対し、評価データの属性データ空間上の密度が高いときに、より大きな重みが付与されることを示している。言い換えれば、学習データに含まれる組み合わせｘは、評価データの属性データ空間上の密度が高いほど、大きな重みを得る。一般に、このような密度ｐ_test(ｘ)，ｐ_train(ｘ)の推定は高コストであるため、計算コストを抑える方法が求められる。非特許文献６には、直接的にｐ_test(ｘ)及びｐ_train(ｘ)を推定することなく、密度Ｗ(ｘ)を直接推定することによって計算コストを抑える技術が記載されている。変形例８では、共変量シフト下での学習手法として、非特許文献６のような手法を用いてもよい。

　また、変形例８では、正例負例以外の組み合わせと同質な正例と負例の組み合わせを探索して、その正例と負例の組み合わせを重点的に学習することによって、密度または密度比を推定しない方法を用いてもよい。この方法では、属性データ空間でのユークリッド距離に基づいて、同質な正例と負例の組み合わせを探索する。以降は、この方法を用いる場合を例に変形例８における装置とその動作を説明する。

　変形例８の装置は、共変量シフト処理によって補正済み正例の組み合わせ及び補正済み負例の組み合わせを生成するようにしたものであって、図１７に示した装置における偏り補正部３２の代わりに、共変量シフト処理を実行する共変量シフト処理部３３を設けたものである。変形例８における補正済み正例及び補正済み負例の組み合わせは、変形例７の場合と同様に、擬似正例や擬似負例の組み合わせを生成して追加したり、あるいは元の正例及び負例の組み合わせの一部を削除することによって得られるものである。共変量シフト部３３は、共変量シフト手段に相当する。上述したように属性データは多次元ベクトルとして表されるから、この多次元ベクトルを含むベクトル空間を属性データ空間と呼ぶこととすると、共変量シフト処理によって擬似正例及び擬似負例の組み合わせを作成する場合には、属性データ空間において正例負例以外の組み合わせの属性データが存在する近傍に擬似正例や擬似負例の属性データが配置されるように各組み合わせを作成することが好ましい。共変量シフト処理によって元の正例及び負例の組み合わせの一部を削除する場合には、属性データ空間において正例負例以外の組み合わせの属性データから遠く離れているような属性データに対応する正例の組み合わせや負例の組み合わせを削除することが好ましい。

　図２０は、図１９に示す変形例８の医薬品有害事象抽出装置の動作を示している。変形例８の動作は、図１８に示した変形例７の動作における偏り補正フェーズＳ８を共変量シフトフェーズＳ９に置き換えたものである。共変量シフトフェーズＳ９では、共変量シフト処理部３３が、まずステップＳ９１において、正例の組み合わせ５２と負例の組み合わせ５３とそれらの属性データ５６と正例負例フラグ５５とを記憶装置１２から受け取り、次に、ステップＳ９２において、共変量シフト処理により、擬似正例の組み合わせ及び擬似負例の組み合わせの少なくとも一方を生成し、元の正例及び負例の組み合わせとともにこれらを補正済み正例の組み合わせ７３及び補正済み負例の組み合わせ７４として記憶装置１２に格納する。あるいはステップＳ９２では、共変量シフト部３３が、正例及び負例の組み合わせの一部を削除する補正を行って、一部削除を行った後の正例及び負例の組み合わせを補正済み正例の組み合わせ７３及び補正済み負例の組み合わせ７４として記憶装置１２に格納する。擬似正例や擬似負例の組み合わせの生成及び追加と、元の正例及び負例の組み合わせの一部の削除とを同時に行って、その結果を補正済み正例の組み合わせ７３及び補正済み負例の組み合わせ７４としてもよい。

　ここで、共変量シフト処理について、簡単に処理の流れを説明する。

　組み合わせｘの属性データはｄ次元のベクトルであるとして、ｘのｋ番目のベクトル要素をｘ_kで表す。正例負例以外の組み合わせを示す評価データをＤ_testで表し、正例と負例の組み合わせを表す学習データをＤ_trainとする。

　評価データＤ_testの中心点（セントロイド）ｘ^cとは、各ベクトル要素が

で計算されるベクトルである。ここで、ｎは、評価データ数（つまり、正例負例以外の組み合わせ数）であるとする。評価データＤ_testのセントロイド距離平均ｍｅａｎとは、式

で計算される、評価データからセントロイドへの距離の平均である。ここで、サンプルｘⁱとサンプルｘ^jのユークリッド距離は、ｄｉｓｔ(ｘⁱ, ｘ^j)で表され、具体的には式

で計算される。テストデータＤ_testのセントロイド距離偏差ｓｔｄｅｖとは、式

で計算される、評価データからセントロイドへの距離の標準偏差である。

　同様に、評価データＤ_testのセントロイド距離メディアンｍｅｄｉａｎは、評価データからセントロイドへの距離のメディアン（中央値）であるとする。セントロイド距離偏差ｓｔｄｅｖの計算には、ｍｅａｎを使用することもあれば、ｍｅａｎの代わりにｍｅｄｉａｎを使用してもよいものとする。

　この方法では、ユークリッド距離空間を利用し、評価データのセントロイドへのユークリッド距離が小さい学習データを、評価データの分布に対しても近い学習データであると見なして、重点的に学習することとする。また、さらなる簡略化のため、重みの値は２，１，０の３通りしかないものとする。つまり、重点的に学習する学習データには重み２を、逆に判別モデルに反映させたくない学習データには重み０を、それ以外の学習データには重み１を与える。そして、重み２の学習データについては複製（すなわち擬似正例あるいは擬似負例の組み合わせ）を作って学習データに加え、重み０の学習データは除去する（すなわち、対応する正例あるいは負例の組み合わせを削除する）ことする。計算手順は以下の通りとなる。

　１：評価データのセントロイドｘ^c、セントロイド距離平均ｍｅａｎ、及びセントロイド距離偏差ｓｔｄｅｖを計算し、学習データｘの重みｗ(ｘ)を計算する。具体的には、各学習データｘについて、セントロイドｘ^cへの距離ｄｉｓｔ(ｘ, ｘ^c)を計算して、重みＷ(ｘ)を次式で得る。

ここで、ａ及びｂは正数パラメータである。上式では、ｍｅａｎの代わりにセントロイド距離メディアンｍｅｄｉａｎを使用してもよい。ｍｅａｎを使用するか、ｍｅｄｉａｎを使用するかも、パラメータとして選択できるものとする。これらのパラメータは、記憶装置１２において制御パラメータ６９として格納されるものである。

　２：ｗ(ｘ)が２のとき、学習データにｘをもう一つ追加する。ｗ(ｘ)が０のとき、学習データからｘを除去する。

　上記のように、共変量シフト処理として、擬似正例の組み合わせ及び擬似負例の組み合わせを追加したり、属性データ空間において正例負例以外の組み合わせの属性データから遠く離れているような属性データに対応する正例の組み合わせ及び負例の組み合わせを削除する。

　［変形例９］
　図２１は、変形例９の医薬品有害事象抽出装置の構成を示している。医薬品有害事象の抽出においては、その有害事象が重篤な健康被害をもたらすものであるかそうでないかを考慮することは重要である。重篤な健康被害をもたらす有害事象は、より早期に検出することが好ましい。そこで図２１に示す変形例９の装置では、正例の組み合わせを、重篤な有害事象に対応する組み合わせ（これを「正例（重篤）の組み合わせ」とする）と、重篤でない有害事象に対応する組み合わせ（これを「正例（非重篤）の組み合わせ」とする）とに分けるものとする。「重篤」であるか「非重篤」であるかは、重篤度の違いを反映している。負例の組み合わせもあるので、変形例３は三値判別問題に関連することになる。そこで図２１に示した変形例９の装置は、図１に示した装置と比べ、記憶装置１２において、正例の組み合わせ５２と判別モデル５７を格納する代わりに、正例（重篤）の組み合わせ８１、正例（非重篤）の組み合わせ８２、正例（重篤）判別モデル８３、正例（非重篤）判別モデル８４、及び負例判別モデル８５を格納し、さらに、正例（重篤）スコア８６、正例（非重篤）スコア８７及び負例スコア８８を格納するようにしたものである。

　図２２は、図２１に示す変形例９の医薬品有害事象抽出装置の動作を示している。変形例９の動作は、図２に示した動作での学習フェーズＳ２及び有害事象スコア算出フェーズＳ３の代わりに、それぞれ、学習フェーズＳ２ｃ及び有害事象スコア算出フェーズＳ３ｂを設けたものである。

　学習フェーズＳ２ｃでは、ステップＳ２６において、判別モデル学習部２３が、記憶装置１２から、正例（重篤）の組み合わせ８１と、正例（非重篤）の組み合わせ８２と、負例の組み合わせ５３と、それら正例（重篤）、正例（非重篤）及び負例に対応する属性データ５６と、正例負例フラグ５５と、正例（重篤）判別モデル８３と、正例（非重篤）判別モデル８４と、負例判別モデル８５とを呼び出し、ステップＳ２７において、正例（重篤）の組み合わせを正例とし、それ以外（正例（非重篤）と負例）を負例として、正例（重篤）判別モデル８５を学習し、正例（非重篤）の組み合わせを正例とし、それ以外（正例（重篤）と負例）を負例として、正例（非重篤）判別モデル８６を学習し、負例の組み合わせを正例とし、その他（正例（重篤）と正例（非重篤））を負例として、負例判別モデル８５を学習する。学習された各判別モデル８４～８６は記憶装置１２に戻される。

　有害事象スコア算出フェーズＳ３ｂでは、有害事象スコア算出部２４が、ステップＳ３１において、記憶装置１２から、正例（重篤）判別モデル８３と、正例（非重篤）判別モデル８４と、負例判別モデル８５と、正例負例以外の組み合わせ５４と、その組み合わせに対応した属性データとを読み出す。

　有害事象スコア算出部２４は、続いてステップＳ３４において、読み出した属性データを正例（重篤）判別モデル８３に適用し正例（重篤）スコアを算出して記憶装置１２に格納し、ステップＳ３５において、読み出した属性データを正例（非重篤）判別モデル８４に適用し正例（非重篤）スコアを算出して記憶装置１２に格納し、ステップＳ３６において、読み出した属性データを負例判別モデル８５に適用し負例スコアを算出して記憶装置１２に格納する。

　最後にステップＳ４において、抽出部２５は、記憶装置１２から、各正例負例以外の組み合わせと各組み合わせの正例（重篤）スコア、正例（非重篤）スコア及び負例スコアを読み出して、下記の例に示すような規則順にそって順番に抽出する。

　１：正例（重篤）スコアと正例（非重篤）スコアが正で、負例スコアが負となる組み合わせを、正例（重篤）スコアの降順に並べて抽出；
　２：正例（重篤）スコアが正で、正例（非重篤）スコアと負例スコアが負となる組み合わせを、正例（重篤）スコアの降順に並べて抽出；
　３：正例（非重篤）スコアが正で、正例（重篤）スコアと負例スコアが負となる組み合わせを、正例（非重篤）スコアの降順に並べて抽出；
　４：正例（重篤）スコアと正例（非重篤）スコアと負例スコアが全て負となる組み合わせは、負例スコアの絶対値の大きさで降順に並べて抽出；
　５：負例スコアが正で、正例（重篤）スコアが正で、正例（非重篤）スコアが負となる組み合わせを、正例（重篤）スコアの降順に並べて抽出；
　６：負例スコアが正で、正例（重篤）スコアが負で、正例（非重篤）スコアが正となる組み合わせを、正例（非重篤）スコアの降順に並べて抽出；
　７：負例スコアが正で、正例（重篤）スコアと正例（非重篤）スコアが負となる組み合わせを、負例スコアの昇順に並べて抽出；
　また、上記の例の方法ではない規則順に沿って順番に抽出してもよい。

　変形例９では、何らかの重篤度を導入して正例を重篤と非重篤の２通りに分けているが、重篤度に応じて３段階以上に正例を分けることも可能である。

　［変形例１０］
　図２３は、変形例１０の医薬品有害事象抽出装置の構成を示している。変形例４では抽出された組み合わせに対するグルーピングを行っているが、変形例１０の装置では、入力する医療情報データの段階でグルーピング（事前グルーピングとも呼ぶ）を行う。例えば、同じ薬効を示す複数の医薬品がある場合、これら複数の医薬品を１種類の医薬品として扱う方が好ましい場合がある。そこで変形例１０の装置は、図１に示した装置において、処理装置１１内にグルーピングを行うグルーピング部２８を設け、記憶装置１２にはグルーピング条件６７とグルーピング済み医療情報データ６８を格納するようにしている。グルーピング部２８は、事前グルーピング手段に相当する。

　図２４は、図２３に示す変形例１０の医薬品有害事象抽出装置の動作を示している。変形例１０の動作は、図２に示した動作における属性作成フェーズＳ１の代わりに、グルーピング済み医療情報データに対応した属性作成フェーズＳ１ａを実施し、さらに、グルーピング済み医療情報データ作成のために、属性作成フェーズＳ１ａの前段にグルーピングフェーズＳ６ａを設けたものである。グルーピングフェーズＳ６ａでは、ステップＳ６３において、入力部２１が、医療情報データと、正例、負例、正例負例以外の組み合わせと、グルーピング条件とを通信インタフェース部１３または操作入力部１４から受け取って、記憶装置１２に格納する。このとき、正例、負例、正例負例以外の組み合わせとしては、グルーピングに対応したものを使用する。次にステップＳ６４において、グルーピング部２８が、記憶装置１２から医療情報データ５１とグルーピング条件６７とを読み出し、グルーピング条件に基づいて医療情報データのグルーピングを行い、結果をグルーピング済み医療情報データとして記憶装置１２に格納する。属性作成フェーズＳ１ａでは、属性データ作成部２２が、まずステップＳ１４において、グルーピング済み医療情報データ６８、正例の組み合わせ４２、負例の組み合わせ５３、正例負例以外の組み合わせ５４及び制御パラメータ６９を記憶装置１２から読み出し、次に、ステップＳ１２において前処理を行い、ステップＳ１３において、読み出した各組み合わせに対応する属性データを作成し、作成した属性データを記憶装置１２に格納する。これ以降は、図２に示した動作での学習フェーズＳ２、有害事象スコア算出フェーズＳ３及び抽出フェーズが実行される。

　変形例１０では、薬効が同じ医薬品をグルーピングする場合には、グルーピング条件として、同薬効群のリスト（同じ薬効を示す医薬品のリスト）を使用する。そして、グルーピング部２８は、医療情報データに含まれている医薬品名であって同薬効群のリストに記載の医薬品名を、同薬効群名に置き換える処理を実行する。学習フェーズでは、薬効群名に置き換えれているグルーピング済み医療情報データに加えて、同薬効群名で医薬品が示されている正例、負例、正例負例以外の組み合わせを入力として、判別モデルを学習し、その後、有害事象スコア算出フェーズＳ３において、その学習済みの判別モデルを用いて有害事象スコアを算出する。

　また変形例１０では、傷病名におけるグルーピングを行うこともできる。傷病名のグルーピングを行う場合にはＩＣＤ１０コードを用いることが好ましい。ＩＣＤ１０コードの他に、ＩＣＤ９コードなども用いることができる。ＩＣＤ１０コードによるグルーピングを行う場合には、グルーピング条件として、ＩＣＤ１０コードと傷病名の対応表を使用し、グルーピング部２８によって、医療情報データに含まれている傷病名をＩＣＤ１０コードに読み替える処理を実行する。学習フェーズでは、ＩＣＤ１０コードに傷病名が置き換えられているグルーピング済み医療情報データに加えて、ＩＣＤ１０コードによって傷病が示されている正例、負例、正例負例以外の組み合わせを入力として、判別モデルを学習し、その後、有害事象スコア算出フェーズＳ３において、その学習済みの判別モデルを用いて有害事象スコアを算出する。

　以上、本実施形態の種々の変形例を説明したが、これらの変形例は、変形例２と変形例３のように原理上組み合わせることができないものを除き、任意に組み合わせることができる。

　上述した実施形態及び変形例では、医療イベントの時系列情報から「医薬品と傷病」の組み合わせごとの属性データを求める際に、医療イベントとして、患者に対する医薬品の処方と患者において観察された傷病を含むとともに、患者に対して行われた医療行為及びその医療行為に付随してその医療行為が行われたことを示すイベントの少なくとも一方を含んでいるものを使用する。患者に有害事象が起こった場合には、それを治療するために、いずれかの診療科を受診して、それを検査・治療するための診療行為が実施され、その分の医療費が請求されることになるため、診療行為と、入院と、医療費と、診療科などの医療イベントの時系列情報には、有害事象が起こった場合と起こっていない場合において、何らかの違いが現れることが期待される。上述した実施形態や各変形例では、医薬品の処方期間における、傷病の発生のみに着目した属性データを使用するのではなく、有害事象の発生の有無に応じたこのような違いが反映されているであろう属性データを使用するため、より間違いが少なく、幅広く有害事象を抽出できるようになる。

　以上、実施形態やその変形例を参照して本発明を説明したが、本発明は上記の実施形態及び変形例に限定されるものではない。本発明の構成や詳細には、本発明の範囲内で当業者が理解し得る様々な変更をすることができる。

　この出願は、２０１４年３月２０日に出願された日本国特許出願：特願２０１４－５７６３５を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　上記の実施形態の一部又は全部は、以下の付記のようにも記載され得るが、以下には限られるものではない。

［付記１］
　医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出方法であって、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　各患者における医療イベントの時系列情報を含む医療情報データを用い、前記正例の組み合わせの各々ごと、前記負例の組み合わせの各々ごと、及び、前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成することと、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習することと、
　前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出することと、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出することと、
　を有し、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる、医薬品有害事象抽出方法。

［付記２］
　前記医療イベントは、前記患者における、新たに処方された医薬品、対応する組み合わせで規定している傷病以外の傷病、入院の有無、医療費の請求、及び当該患者がかかった診療科の少なくとも１つ以上を含む、付記１に記載の方法。

［付記３］
　前記属性データは、前記各組み合わせに関して、前記医療情報データ上で当該組み合わせの医薬品と傷病が同一患者に共起した時点の周辺の時期において、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方である医療イベントが発生していたり、発生していなかったりする特徴を示すデータである、付記１または２に記載の方法。

［付記４］
　前記属性データは、
　医薬品の処方から予め定められた第１の期間内に傷病が発生した場合に、当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとして、前記傷病が発生した時点を含む予め定められた長さの第２の期間における予め定めた種類の医療イベントの発生の有無を時系列に表したパターン、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記医薬品の処方から前記傷病が発生するまでの期間内における予め定めた種類の医療イベントの発生率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点を含む予め定められた長さの第２の期間において予め定めた種類の医療イベントが発生したか未発生であったかの遷移確率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点の前後において予め定めた種類の医療イベントの発生率に有意の差がないとする帰無仮説と有意の差があるとする対立仮説をおいて検定を行い、一方の仮説が正しいときに当該仮説が却下される確率、
　入力された各組み合わせの医薬品と傷病について、同一患者に医薬品が処方された時点を基点にして、該基点の前後で予め定められた第３の期間内において、予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第１の医療イベントパターン集合と、前記同一患者に医薬品が処方された後から前記第１の期間内において傷病が発生した場合に、傷病が発生した時点を基準としてその前後の前記第３の期間内で、前記予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第２の医療イベントパターン集合と、を用いて、前記第１の医療イベントパターン集合を用いて確率モデルで学習して、前記第２の医療イベントパターン集合に含まれる各パターンが、学習した前記確率モデルから生成されるパターンとして、どれくらい異常であるかを表す数値、及び、
　入力された各組み合わせの医薬品と傷病に関する前記パターン属性データを用いて、各組み合わせのパターン属性データにおける各属性項目の値の大小の傾向に基づき、当該パターン属性データが、入力された他の組み合わせのパターン属性データと比較してどれだけ外れているかの度合い、
　の少なくとも１つを用いる、付記３に記載の方法。

［付記５］
　前記属性データは、入力された各組み合わせの医薬品と傷病に関して、傷病がどのＩＣＤ１０コードに属するのかを表すデータを含む、付記３または４に記載の方法。

［付記６］
　前記医療情報データに含まれる複数の医療イベントの時系列情報から、前記医療情報データには直接は含まれないが前記属性データの生成に用いる新たな医療イベントの時系列情報を生成する前処理を実行することをさらに有する、付記１～５のいずれか１項に記載の方法。

［付記７］
　前記属性データを生成する前に、前記医療情報データから前記組み合わせを抽出し、抽出された組み合わせを辞書に基づいて前記正例の組み合わせと前記負例の組み合わせとに分類することをさらに備える、付記１～６のいずれか１項に記載の方法。

［付記８］
　無視すべき傷病をさらに記載した前記辞書を使用し、
　前記無視すべき傷病以外の傷病を含む前記抽出した組み合わせを前記正例の組み合わせと前記負例の組み合わせとに分類する、付記７に記載の方法。

［付記９］
　医薬品の種類ごとの前記判別モデルを使用し、前記医薬品の種類ごとに前記有害事象スコアを算出する、付記１～８のいずれか１項に記載の方法。

［付記１０］
　前記医療情報データにおける各組み合わせの頻度の高低の別に応じて異なる前記判別モデルを使用し、前記頻度の高低の別ごとに前記有害事象スコアを算出する、付記１～８のいずれか１項に記載の方法。

［付記１１］
　前記スコアに基づいて医薬品有害事象の疑いが高い組み合わせから抽出結果を出力する、付記１～１０のいずれか１項に記載の方法。

［付記１２］
　医薬品の種類別に前記抽出結果を出力する、付記１１に記載の方法。

［付記１３］
　前記抽出された前記正例負例以外の組み合わせをグルーピングすることを有する、付記１～１０のいずれか１項に記載の方法。

［付記１４］
　前記抽出された正例負例以外の組み合わせから、ノイズであるとみなされる組み合わせに該当する正例負例以外の組み合わせを抽出から除外することを有する、付記１～１３のいずれか１項に記載の方法。

［付記１５］
　ノイズ条件に基づき、入力された組み合わせがノイズであるとみなされる組み合わせかどうかを判断することと、
　前記ノイズであるとみなされる組み合わせに該当する前記正例負例以外の組み合わせを前記抽出結果から除外する、付記１～１３のいずれか１項に記載の方法。

［付記１６］
　擬似正例となる組み合わせを生成して追加することと、擬似負例となる組み合わせを生成して追加することと、前記正例の組み合わせ及び前記負例の組み合わせの一部を削除することとの少なくとも一つを実行して補正済み正例の組み合わせ及び補正済み負例の組み合わせを生成し、
　前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせに基づく属性データを生成して前記判別モデルの学習を行う、
　付記１～１５のいずれか１項に記載の方法。

［付記１７］
　前記正例の組み合わせ及び前記負例の組み合わせにおける偏りを補正するように前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせを生成する、付記１６に記載の方法。

［付記１８］
　共変量シフト学習を適用して前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせを生成する、付記１６に記載の方法。

［付記１９］
　有害事象としての傷病の重篤度の違いに応じて正例の組み合わせが分割され、正例の組み合わせを判別する重篤度ごとの判別モデルと負例の組み合わせを判別する判別モデルとを使用する、付記１～１８のいずれか１項に記載の方法。

［付記２０］
　グルーピング条件に基づいて医薬品または傷病をグループ化することによって前記医療情報データをグルーピングしてグルーピング済み医療情報データとし、
　前記グルーピング済み医療情報データを用い、前記グループ化された医薬品または傷病に応じた前記属性データを作成する、付記１～１９のいずれか１項に記載の方法。

［付記２１］
　医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出装置であって、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　記憶装置に格納された各患者における医療イベントの時系列情報を含む医療情報データを用い、前記記憶装置に格納された前記正例の組み合わせの各々ごと、前記記憶装置に格納された前記負例の組み合わせの各々ごと、及び、前記記憶装置に格納された前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成して前記記憶装置に格納する属性作成手段と、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習する学習手段と、
　前記記憶装置に格納された前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出する算出手段と、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出する抽出手段と、
　を有し、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる、医薬品有害事象抽出装置。

［付記２２］
　前記医療イベントは、前記患者における、新たに処方された医薬品、対応する組み合わせで規定している傷病以外の傷病、入院の有無、医療費の請求、及び当該患者がかかった診療科の少なくとも１つ以上を含む、付記２１に記載の装置。

［付記２３］
　前記属性データは、前記各組み合わせに関して、前記医療情報データ上で当該組み合わせの医薬品と傷病が同一患者に共起した時点の周辺の時期において、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方である医療イベントが発生していたり、発生していなかったりする特徴を示すデータである、付記２１または２２に記載の装置。

［付記２４］
　前記属性データは、
　医薬品の処方から予め定められた第１の期間内に傷病が発生した場合に、当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとして、前記傷病が発生した時点を含む予め定められた長さの第２の期間における予め定めた種類の医療イベントの発生の有無を時系列に表したパターン、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記医薬品の処方から前記傷病が発生するまでの期間内における予め定めた種類の医療イベントの発生率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点を含む予め定められた長さの第２の期間において予め定めた種類の医療イベントが発生したか未発生であったかの遷移確率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点の前後において予め定めた種類の医療イベントの発生率に有意の差がないとする帰無仮説と有意の差があるとする対立仮説をおいて検定を行い、一方の仮説が正しいときに当該仮説が却下される確率、
　入力された各組み合わせの医薬品と傷病について、同一患者に医薬品が処方された時点を基点にして、該基点の前後で予め定められた第３の期間内において、予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第１の医療イベントパターン集合と、前記同一患者に医薬品が処方された後から前記第１の期間内において傷病が発生した場合に、傷病が発生した時点を基準としてその前後の前記第３の期間内で、前記予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第２の医療イベントパターン集合と、を用いて、前記第１の医療イベントパターン集合を用いて確率モデルで学習して、前記第２の医療イベントパターン集合に含まれる各パターンが、学習した前記確率モデルから生成されるパターンとして、どれくらい異常であるかを表す数値、及び、
　入力された各組み合わせの医薬品と傷病に関する前記パターン属性データを用いて、各組み合わせのパターン属性データにおける各属性項目の値の大小の傾向に基づき、当該パターン属性データが、入力された他の組み合わせのパターン属性データと比較してどれだけ外れているかの度合い、
　の少なくとも１つを用いる、付記２１または２２に記載の装置。

［付記２５］
　前記属性データは、入力された各組み合わせの医薬品と傷病に関して、傷病がどのＩＣＤ１０コードに属するのかを表すデータを含む、付記２３または２４に記載の装置。

［付記２６］
　前記属性作成手段は、前記医療情報データに含まれる複数の医療イベントの時系列情報から、前記医療情報データには直接は含まれないが前記属性データの生成に用いる新たな医療イベントの時系列情報を生成する前処理を実行する、付記２１～２５のいずれか１項に記載の装置。

［付記２７］
　前記医療情報データから前記組み合わせを抽出し、抽出された組み合わせを辞書に基づいて前記正例の組み合わせと前記負例の組み合わせとに分類して前記記憶装置に格納する組み合わせ抽出手段をさらに備える、付記２１～１６のいずれか１項に記載の装置。

［付記２８］
　前記辞書は、無視すべき傷病をさらに記載しており、前記組み合わせ抽出手段は、前記無視すべき傷病以外の傷病を含む前記抽出した組み合わせを前記正例の組み合わせと前記負例の組み合わせとに分類する、付記２７に記載の装置。

［付記２９］
　医薬品の種類ごとに前記判別モデルが設けられ、前記算出手段は前記医薬品の種類ごとに前記有害事象スコアを算出する、付記２１～２８のいずれか１項に記載の装置。

［付記３０］
　前記医療情報データにおける各組み合わせの頻度の高低の別に応じた異なる前記判別モデルが設けられ、前記算出手段は前記頻度の高低の別ごとに前記有害事象スコアを算出する、付記２１～２８のいずれか１項に記載の装置。

［付記３１］
　前記抽出手段は、前記スコアに基づいて医薬品有害事象の疑いが高い組み合わせから抽出結果を出力する、付記２１～３０のいずれか１項に記載の装置。

［付記３２］
　前記抽出手段は、医薬品の種類別に前記抽出結果を出力する、付記３１に記載の装置。

［付記３３］
　前記抽出手段で得られた結果に対してグルーピングを行うグルーピング手段を有する付記２１～３０のいずれか１項に記載の装置。

［付記３４］
　前記抽出手段は、ノイズであるとみなされる組み合わせに該当する前記正例負例以外の組み合わせを抽出から除外する、付記２１～３３のいずれか１項に記載の装置。

［付記３５］
　ノイズ条件に基づき、入力された組み合わせがノイズであるとみなされる組み合わせかどうかを判断するノイズ抽出手段をさらに備え、
　前記抽出手段は、前記ノイズであるとみなされる組み合わせに該当する前記正例負例以外の組み合わせを抽出から除外する、付記２１～３３のいずれか１項に記載の装置。

［付記３６］
　擬似正例となる組み合わせを生成して追加することと、擬似負例となる組み合わせを生成して追加することと、前記正例の組み合わせ及び前記負例の組み合わせの一部を削除することとの少なくとも一つを実行して補正済み正例の組み合わせ及び補正済み負例の組み合わせを生成する補正手段を備え、
　前記属性作成手段は、前記補正済み正例の組み合わせに対応する属性データ及び前記補正済み負例の組み合わせに基づく属性データを作成し、
　前記学習手段は、前記補正済み正例の組み合わせに対応する属性データ及び前記補正済み負例の組み合わせに対応する属性データによって判別モデルを学習する、付記２１～３５のいずれか１項に記載の装置。

［付記３７］
　前記補正手段は、前記正例の組み合わせ及び前記負例の組み合わせにおける偏りを補正するように前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせを生成する、付記３６に記載の装置。

［付記３８］
　前記補正手段は、共変量シフト学習を適用して前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせを生成する共変量シフト手段である、付記３６に記載の装置。

［付記３９］
　有害事象としての傷病の重篤度の違いに応じて正例の組み合わせが分割され、正例の組み合わせを判別する重篤度ごとの判別モデルと負例の組み合わせを判別する判別モデルとを使用する、付記３１～３８のいずれか１項に記載の装置。

［付記４０］
　グルーピング条件に基づいて医薬品または傷病をグループ化することによって前記医療情報データをグルーピングしてグルーピング済み医療情報データとし、該グルーピング済み医療情報データを前記記憶装置に格納する事前グルーピング手段を有し、
　前記属性作成手段は、前記グルーピング済み医療情報データを用い、前記グループ化された医薬品または傷病に応じた前記属性データを作成する、付記３１～３９のいずれか１項に記載の装置。

［付記４１］
　医薬品と傷病の組み合わせが入力するコンピュータを、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られて組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして
　各患者における医療イベントの時系列情報を含む医療情報データを用い、前記正例の組み合わせの各々ごと、前記負例の組み合わせの各々ごと、前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成する属性作成手段、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習する学習手段、
　前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出する算出手段、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出する抽出手段、
　として機能させ、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる、プログラム。

　１１　　処理装置
　１２　　記憶装置
　１３　　通信インタフェース（Ｉ／Ｆ）部
　１４　　操作入力部
　１５　　画面表示部
　２１　　入力部
　２２　　属性データ作成部
　２３　　判別モデル学習部
　２４　　有害事象スコア算出部
　２５　　抽出部
　２６　　組み合わせ抽出部
　２７，２８　　グルーピング部
　３１　　ノイズ抽出部
　３２　　偏り補正部
　３３　　共変量シフト処理部

Claims

　医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出方法であって、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　各患者における医療イベントの時系列情報を含む医療情報データを用い、前記正例の組み合わせの各々ごと、前記負例の組み合わせの各々ごと、及び、前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成することと、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習することと、
　前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出することと、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出することと、
　を有し、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる、医薬品有害事象抽出方法。
　前記医療イベントは、前記患者における、新たに処方された医薬品、対応する組み合わせで規定している傷病以外の傷病、入院の有無、医療費の請求、及び当該患者がかかった診療科の少なくとも１つ以上を含む、請求項１に記載の方法。
　前記属性データは、前記各組み合わせに関して、前記医療情報データ上で当該組み合わせの医薬品と傷病が同一患者に共起した時点の周辺の時期において、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方である医療イベントが発生していたり、発生していなかったりする特徴を示すデータである、請求項１または２に記載の方法。
　前記属性データは、
　医薬品の処方から予め定められた第１の期間内に傷病が発生した場合に、当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとして、前記傷病が発生した時点を含む予め定められた長さの第２の期間における予め定めた種類の医療イベントの発生の有無を時系列に表したパターン、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記医薬品の処方から前記傷病が発生するまでの期間内における予め定めた種類の医療イベントの発生率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点を含む予め定められた長さの第２の期間において予め定めた種類の医療イベントが発生したか未発生であったかの遷移確率、
　前記第１の期間内に傷病が発生した場合に当該医薬品と当該傷病との組み合わせを属性データ生成の対象となる組み合わせとし、前記傷病が発生した時点の前後において予め定めた種類の医療イベントの発生率に有意の差がないとする帰無仮説と有意の差があるとする対立仮説をおいて検定を行い、一方の仮説が正しいときに当該仮説が却下される確率、
　入力された各組み合わせの医薬品と傷病について、同一患者に医薬品が処方された時点を基点にして、該基点の前後で予め定められた第３の期間内において、予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第１の医療イベントパターン集合と、前記同一患者に医薬品が処方された後から前記第１の期間内において傷病が発生した場合に、傷病が発生した時点を基準としてその前後の前記第３の期間内で、前記予め定めた種類の医療イベントの発生と未発生の順番を表すパターンを抽出した結果をまとめた第２の医療イベントパターン集合と、を用いて、前記第１の医療イベントパターン集合を用いて確率モデルで学習して、前記第２の医療イベントパターン集合に含まれる各パターンが、学習した前記確率モデルから生成されるパターンとして、どれくらい異常であるかを表す数値、及び、
　入力された各組み合わせの医薬品と傷病に関する前記パターン属性データを用いて、各組み合わせのパターン属性データにおける各属性項目の値の大小の傾向に基づき、当該パターン属性データが、入力された他の組み合わせのパターン属性データと比較してどれだけ外れているかの度合い、
　の少なくとも１つを用いる、請求項３に記載の方法。
　前記属性データは、入力された各組み合わせの医薬品と傷病に関して、傷病がどのＩＣＤ１０コードに属するのかを表すデータを含む、請求項３または４に記載の装置。
　前記医療情報データに含まれる複数の医療イベントの時系列情報から、前記医療情報データには直接は含まれないが前記属性データの生成に用いる新たな医療イベントの時系列情報を生成する前処理を実行することをさらに有する、請求項１乃至５のいずれか１項に記載の方法。
　前記属性データを生成する前に、前記医療情報データから前記組み合わせを抽出し、抽出された組み合わせを辞書に基づいて前記正例の組み合わせと前記負例の組み合わせとに分類することをさらに備える、請求項１乃至６のいずれか１項に記載の方法。
　医薬品の種類ごとの前記判別モデルを使用し、前記医薬品の種類ごとに前記有害事象スコアを算出する、請求項１乃至７のいずれか１項に記載の方法。
　前記医療情報データにおける各組み合わせの頻度の高低の別に応じて異なる前記判別モデルを使用し、前記頻度の高低の別ごとに前記有害事象スコアを算出する、請求項１乃至７のいずれか１項に記載の方法。
　前記抽出された前記正例負例以外の組み合わせをグルーピングすることを有する、請求項１乃至９のいずれか１項に記載の方法。
　擬似正例となる組み合わせを生成して追加することと、擬似負例となる組み合わせを生成して追加することと、前記正例の組み合わせ及び前記負例の組み合わせの一部を削除することとの少なくとも一つを実行して補正済み正例の組み合わせ及び補正済み負例の組み合わせを生成し、
　前記補正済み正例の組み合わせ及び前記補正済み負例の組み合わせに基づく属性データを生成して前記判別モデルの学習を行う、
　請求項１乃至１０のいずれか１項に記載の方法。
　有害事象としての傷病の重篤度の違いに応じて正例の組み合わせが分割され、正例の組み合わせを判別する重篤度ごとの判別モデルと負例の組み合わせを判別する判別モデルとを使用する、請求項１乃至１１のいずれか１項に記載の方法。
　グルーピング条件に基づいて医薬品または傷病をグループ化することによって前記医療情報データをグルーピングしてグルーピング済み医療情報データとし、
　前記グルーピング済み医療情報データを用い、前記グループ化された医薬品または傷病に応じた前記属性データを作成する、請求項１乃至１２のいずれか１項に記載の方法。
　医薬品と傷病の組み合わせであって医薬品有害事象に該当する組み合わせを抽出する医薬品有害事象抽出装置であって、
　医薬品有害事象を表す組み合わせとして既に知られている組み合わせを正例の組み合わせとし、医薬品有害事象ではない組み合わせとして既に知られている組み合わせを負例の組み合わせとし、正例の組み合わせでも負例の組み合わせでもない与えられた組み合わせを正例負例以外の組み合わせとして、
　記憶装置に格納された各患者における医療イベントの時系列情報を含む医療情報データを用い、前記記憶装置に格納された前記正例の組み合わせの各々ごと、前記記憶装置に格納された前記負例の組み合わせの各々ごと、及び、前記記憶装置に格納された前記正例負例以外の組み合わせの各々ごとに、前記医療イベントの時系列情報に基づいて属性データを生成して前記記憶装置に格納する属性作成手段と、
　前記正例の組み合わせに対応する属性データ及び前記負例の組み合わせに対応する属性データによって判別モデルを学習する学習手段と、
　前記記憶装置に格納された前記正例負例以外の組み合わせに対応する属性データを前記判別モデルに入力してスコアを算出する算出手段と、
　前記正例負例以外の組み合わせの各々について算出された前記スコアに抽出条件を適用して、医薬品有害事象の疑いのある前記正例負例以外の組み合わせを抽出する抽出手段と、
　を有し、
　前記各患者における医療イベントは、当該患者に対する医薬品の処方と当該患者において観察された傷病とを含み、
　前記各患者における医療イベントは、さらに、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方を含んでいる、医薬品有害事象抽出装置。
　前記医療イベントは、前記患者における、新たに処方された医薬品、対応する組み合わせで規定している傷病以外の傷病、入院の有無、医療費の請求、及び当該患者がかかった診療科の少なくとも１つ以上を含む、請求項１４に記載の装置。
　前記属性データは、前記各組み合わせに関して、前記医療情報データ上で当該組み合わせの医薬品と傷病が同一患者に共起した時点の周辺の時期において、当該患者に対して行われた医療行為及び当該患者に対して行われた医療行為に付随して当該医療行為が行われたことを示すイベントの少なくとも一方である医療イベントが発生していたり、発生していなかったりする特徴を示すデータである、請求項１４または１５に記載の装置。
　前記医療情報データから前記組み合わせを抽出し、抽出された組み合わせを辞書に基づいて前記正例の組み合わせと前記負例の組み合わせとに分類して前記記憶装置に格納する組み合わせ抽出手段をさらに備える、請求項１４乃至１６のいずれか１項に記載の装置。
　前記抽出手段で得られた結果に対してグルーピングを行うグルーピング手段を有する請求項１４乃至１７に記載の装置。
　擬似正例となる組み合わせを生成して追加することと、擬似負例となる組み合わせを生成して追加することと、前記正例の組み合わせ及び前記負例の組み合わせの一部を削除することとの少なくとも一つを実行して補正済み正例の組み合わせ及び補正済み負例の組み合わせを生成する補正手段を備え、
　前記属性作成手段は、前記補正済み正例の組み合わせに対応する属性データ及び前記補正済み負例の組み合わせに基づく属性データを作成し、
　前記学習手段は、前記補正済み正例の組み合わせに対応する属性データ及び前記補正済み負例の組み合わせに対応する属性データによって判別モデルを学習する、請求項１４乃至１８のいずれか１項に記載の装置。
　グルーピング条件に基づいて医薬品または傷病をグループ化することによって前記医療情報データをグルーピングしてグルーピング済み医療情報データとし、該グルーピング済み医療情報データを前記記憶装置に格納する事前グルーピング手段を有し、
　前記属性作成手段は、前記グルーピング済み医療情報データを用い、前記グループ化された医薬品または傷病に応じた前記属性データを作成する、請求項１４乃至１９のいずれか１項に記載の装置。