WO2016142990A1

WO2016142990A1 - 検索プログラム、検索方法および検索装置

Info

Publication number: WO2016142990A1
Application number: PCT/JP2015/056638
Authority: WO
Inventors: 江朗勝田
Original assignee: 富士通株式会社
Priority date: 2015-03-06
Filing date: 2015-03-06
Publication date: 2016-09-15
Also published as: JP6521053B2; JPWO2016142990A1; US20170372014A1

Abstract

　患者情報の類似検索にかかる時間を短縮すること。　検索装置（１）は、記憶部（１ａ）と演算部（１ｂ）とを有する。記憶部（１ａ）は、複数の患者のそれぞれに関する複数の患者情報のうち、それぞれが類似する患者情報の集合である患者情報群（１１，１２，１３）をそれぞれ代表する複数の代表患者情報（１１ａ，１２ａ，１３ａ）を少なくとも記憶する。演算部（１ｂ）は、代表患者情報（１１ａ，１２ａ，１３ａ）の中から、指定された指定患者情報（３０）との類似度が最も高い患者情報（１３ａ）を特定する。演算部（１ｂ）は、患者情報（１３ａ）が属する患者情報群（１３）に含まれる患者情報の中から、指定患者情報（３０）との類似度が最も高い患者情報（１３ｂ）を特定する。

Description

検索プログラム、検索方法および検索装置

　本発明は検索プログラム、検索方法および検索装置に関する。

　近年、医療分野でのデータベースの活用に関する研究が進んでいる。例えば、患者個人についての検査結果や診断結果などを含む患者情報が多数登録されたデータベースを用いて、類似症例を検索することが研究されている。また、データベースの例としては、患者個人についての臨床病理情報や画像診断データ、病変部位におけるゲノム／オミックス情報などを統合した疾患オミックス統合データベースの研究が進んでいる。

　また、原画像とテンプレート画像とのマッチングに関する技術の一例として、次のような技術が提案されている。この技術では、原画像の解像度を変換した階層的な画像が用いられ、最初に、最も解像度の低い最上層の画像を用いてマッチングが行われる。その際、最上層の画像から、テンプレート画像との相関値がしきい値以上である点群が複数抽出され、各点群において最大の相関値を有する点が探索点に決定される。

特開平７－４９９４９号公報

　ところで、上記のような患者情報が登録されたデータベースから、ある患者の患者情報と類似する患者情報を検索する処理では、データベースに登録された情報が多いほど検索処理に時間がかかるという問題がある。例えば、データベースに登録された患者情報の数が多いほど検索処理時間は長くなり、また、各患者情報に含まれる情報の項目数が多いほど検索処理時間は長くなる。

　１つの側面では、本発明は、患者情報の類似検索にかかる時間を短縮することが可能な検索プログラム、検索方法および検索装置を提供することを目的とする。

　１つの態様では、検索プログラムが提供される。この検索プログラムは、複数の患者のそれぞれに関する複数の患者情報を記憶する記憶部から複数の患者情報を取得可能なコンピュータに、複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を記憶部から取得して、複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、複数の患者情報群のうち、第１の患者情報が属する特定患者情報群に含まれる患者情報を記憶部から取得して、特定患者情報群に含まれる患者情報の中から、指定患者情報との類似度が最も高い第２の患者情報を特定する、処理を実行させる。

　また、１つの態様では、検索方法が提供される。この検索方法は、複数の患者のそれぞれに関する複数の患者情報を記憶する記憶部から複数の患者情報を取得可能なコンピュータが、複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を記憶部から取得して、複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、複数の患者情報群のうち、第１の患者情報が属する特定患者情報群に含まれる患者情報を記憶部から取得して、特定患者情報群に含まれる患者情報の中から、指定患者情報との類似度が最も高い第２の患者情報を特定する。

　また、１つの態様では、検索装置が提供される。この検索装置は、記憶部と演算部とを有する。記憶部は、複数の患者のそれぞれに関する複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を少なくとも記憶する。演算部は、複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、複数の患者情報群のうちの第１の患者情報が属する特定患者情報群に含まれる患者情報の中から、指定患者情報との類似度が最も高い第２の患者情報を特定する。

　１つの側面では、患者情報の類似検索にかかる時間を短縮できる。
　本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

第１の実施の形態の検索装置を示す図である。第２の実施の形態の情報処理システムを示す図である。サーバのハードウェア例を示す図である。情報処理システムの機能例を示す図である。患者データベースの例を示す図である。マップテーブルの例を示す図である。代表患者テーブルの例を示す図である。患者グループテーブルの例を示す図である。類似患者検索の前処理の例について説明するための図である。類似患者の検索処理の例について説明するための図である。前処理部による前処理手順の例（その１）を示すフローチャートである。前処理部による前処理手順の例（その２）を示すフローチャートである。類似検索の処理手順の例を示すフローチャートである。

　以下、本実施の形態について図面を参照して説明する。
　［第１の実施の形態］
　図１は、第１の実施の形態の検索装置を示す図である。検索装置１は、複数の患者情報の中から、指定された患者情報と類似する患者情報、または当該患者情報に対応する患者を検索する装置である。検索装置１は、記憶部１ａおよび演算部１ｂを有する。

　記憶部１ａは、ＲＡＭ（Random Access Memory）などの揮発性記憶装置でもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性記憶装置でもよい。演算部１ｂは、例えば、プロセッサである。プロセッサには、ＣＰＵ（Central Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、ＦＰＧＡ（Field Programmable Gate Array）などを含み得る。また、演算部１ｂは、マルチプロセッサであってもよい。

　記憶部１ａは、類似検索の対象となる複数の患者情報を記憶する。患者情報は、対応する患者に関する様々な情報を含む。例えば、患者情報は、患者の性別などの属性情報、患者の診断結果、患者の検査結果、治療法の実施の有無、患者の状態（病状）やその状態になるまでの期間などの情報を含み得る。本実施の形態では例として、記憶部１ａは、類似検索の対象となる複数の患者情報が登録された患者情報データベース１０を記憶する。

　なお、検索装置１内の記憶部１ａは、類似検索の対象となるすべての患者情報を記憶している必要はない。例えば、これらの複数の患者情報が検索装置１の外部に存在する外部装置に記憶され、検索装置は、外部装置から処理に必要な患者情報だけを読み出して記憶部１ａに記憶してもよい。

　ところで、患者情報データベース１０内の患者情報は、複数の患者情報群にあらかじめ分類されている。患者情報群は、類似する患者情報の集合である。図１の例では、患者情報データベース１０内の患者情報は、３つの患者情報群１１～１３に分類されている。なお、患者情報データベース１０内の各患者情報は、複数の患者情報群に属していてもよい。

　また、患者情報群に属する患者情報の１つは、その患者情報群を代表する代表患者情報が設定されている。図１の例では、患者情報群１１に属する患者情報のうち、患者情報１１ａが代表患者情報に設定されている。また、患者情報群１２に属する患者情報のうち、患者情報１２ａが代表患者情報に設定されている。さらに、患者情報群１３に属する患者情報のうち、患者情報１３ａが代表患者情報に設定されている。なお、図１では、患者情報群１１～１３のそれぞれを代表する患者情報１１ａ，１２ａ，１３ａの集合を、代表患者情報群２０として示している。

　これらの複数の代表患者情報は、互いの類似度ができるだけ低い方が望ましい。例えば、複数の代表患者情報は、点間距離が対応する患者情報間の非類似度を示すように設定された座標空間に患者情報データベース１０内の各患者情報を投影した場合に、各代表患者情報に対応する位置がその座標空間において分散するように、患者情報データベース１０内の患者情報の中から選択される。

　なお、各患者情報群に含める患者情報の選択処理や、患者情報群ごとの代表患者情報の選択処理は、検索装置１に実行されてもよいし、検索装置１以外の装置に実行されてもよい。

　演算部１ｂは、検索キーとなる患者情報である指定患者情報３０の指定を受け付ける。すると、演算部１ｂは、まず、患者情報データベース１０内の患者情報のうち、患者情報群１１～１３のそれぞれの代表患者情報（すなわち、代表患者情報群２０に含まれる患者情報１１ａ，１２ａ，１３ａ）を検索対象として検索処理を実行する。具体的には、演算部１ｂは、指定患者情報３０と各代表患者情報との類似度を算出し、代表患者情報の中から、指定患者情報３０との類似度が最も高い患者情報を特定する（ステップＳ１）。図１の例では、患者情報群１３を代表する患者情報１３ａが特定されたものとする。

　次に、演算部１ｂは、特定された患者情報１３ａが属する患者情報群１３を検索対象として検索処理を実行する。具体的には、演算部１ｂは、指定患者情報３０と患者情報群１３に属する各患者情報との類似度を算出し、患者情報群１３に属する患者情報の中から、指定患者情報３０との類似度が最も高い患者情報を特定する（ステップＳ２）。

　図１の例では、患者情報１３ｂが特定されたものとする。演算部１ｂは、検索結果として、例えば、特定された患者情報１３ｂ、または患者情報１３ｂに対応する患者の識別情報を出力する。

　以上の第１の実施の形態では、検索装置１による検索対象は、代表患者情報群２０に属する患者情報と、１つの代表患者情報に対応する患者情報群に属する患者情報とに限定される。これにより、患者情報データベース１０内のすべての患者情報を検索対象とした場合と比較して、患者情報間の類似度の演算回数が低減される。その結果、類似検索にかかる時間が短縮される。

　また、患者情報は、それぞれが類似する患者情報の集合である複数の患者情報群に分類され、最初に検索対象とされる各代表患者情報は、各患者情報群を代表する患者情報とされる。そして、その中で指定患者情報に最も類似する代表患者情報が特定され、特定された代表患者情報が属する患者情報群、すなわち、特定された代表患者情報に類似する複数の患者情報が、次の検索対象とされる。このような処理により、患者情報データベース１０内の患者情報のうち、指定患者情報との類似度が実際に最も高い患者情報が、検索対象から漏れる可能性が低くなる。したがって、検索精度を維持しながら、検索処理にかかる時間を短縮することができる。

　なお、前述のように、検索装置１内の記憶部１ａは、類似検索の対象となる患者情報データベース１０内のすべての患者情報を記憶している必要はない。例えば、患者情報データベース１０が外部装置に記憶されている場合、検索装置１は、患者情報データベース１０内の患者情報のうち、少なくとも、代表患者情報群２０に含まれる代表患者情報と、ステップＳ１で特定された患者情報が属する患者情報群に含まれる患者情報とを、外部装置から記憶部１ａに読み込む。

　［第２の実施の形態］
　図２は、第２の実施の形態の情報処理システムを示す図である。第２の実施の形態の情報処理システムは、サーバ１００および端末装置２００を含む。サーバ１００および端末装置２００は、ネットワーク９００を介して接続されている。ネットワーク９００は、ＬＡＮ（Local Area Network）でもよいし、ＷＡＮ（Wide Area Network）やインターネットなどの広域ネットワークでもよい。

　サーバ１００は、複数の患者情報が登録された患者データベースを記憶する。患者情報には、患者に関する複数項目の情報が登録される。例えば、患者の性別などの属性情報、患者の診断結果、患者の検査結果、治療法の実施の有無、患者の状態（病状）やその状態になるまでの期間などの情報が、患者情報に登録される。

　また、サーバ１００は、端末装置２００からの検索依頼に応じて、ある患者と患者情報の内容が類似する患者を患者データベースから検索し、端末装置２００に送信する。このような検索は、“類似症例検索”とも呼ばれる。以下、検索依頼において指定される患者を「クエリ患者」、検索によって患者データベースから抽出される患者を「類似患者」と記載する場合がある。

　なお、サーバ１００は、図１の検索装置１の一例である。
　端末装置２００は、ユーザが使用するクライアントコンピュータである。
　図３は、サーバのハードウェア例を示す図である。サーバ１００は、プロセッサ１０１、ＲＡＭ１０２、ＨＤＤ１０３、画像信号処理部１０４、入力信号処理部１０５、読み取り装置１０６および通信インタフェース１０７を有する。各ユニットがサーバ１００のバスに接続されている。

　プロセッサ１０１は、サーバ１００全体を制御する。プロセッサ１０１は、例えば、ＣＰＵ、ＤＳＰ、ＡＳＩＣまたはＦＰＧＡなどである。また、プロセッサ１０１は、複数のプロセッシング要素を含むマルチプロセッサであってもよい。さらに、プロセッサ１０１は、ＣＰＵ、ＤＳＰ、ＡＳＩＣ、ＦＰＧＡなどのうちの２以上の要素の組み合わせであってもよい。

　ＲＡＭ１０２は、サーバ１００の主記憶装置である。ＲＡＭ１０２は、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部を一時的に記憶する。また、ＲＡＭ１０２は、プロセッサ１０１による処理に用いる各種データを記憶する。

　ＨＤＤ１０３は、サーバ１００の補助記憶装置である。ＨＤＤ１０３は、内蔵した磁気ディスクに対して、磁気的にデータの書き込みおよび読み出しを行う。ＨＤＤ１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。サーバ１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の補助記憶装置を備えてもよく、複数の補助記憶装置を備えてもよい。

　画像信号処理部１０４は、プロセッサ１０１からの命令に従って、サーバ１００に接続されたディスプレイ８０１に画像を出力する。ディスプレイ８０１としては、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ（ＬＣＤ：Liquid Crystal Display）、有機ＥＬ（Electro-Luminescence）ディスプレイなど各種のディスプレイを用いることができる。

　入力信号処理部１０５は、サーバ１００に接続された入力デバイス８０２から入力信号を取得し、プロセッサ１０１に出力する。入力デバイス８０２としては、マウスやタッチパネルなどのポインティングデバイスやキーボードなどの各種の入力デバイスを用いることができる。サーバ１００には、複数の種類の入力デバイスが接続されてもよい。

　読み取り装置１０６は、記録媒体８０３に記録されたプログラムやデータを読み取る装置である。記録媒体８０３として、例えば、フレキシブルディスク（ＦＤ：Flexible Disk）やＨＤＤなどの磁気ディスク、ＣＤ（Compact Disc）やＤＶＤ（Digital Versatile Disc）などの光ディスク、光磁気ディスク（ＭＯ：Magneto-Optical disk）を使用できる。また、記録媒体８０３として、例えば、フラッシュメモリカードなどの不揮発性の半導体メモリを使用することもできる。読み取り装置１０６は、例えば、プロセッサ１０１からの命令に従って、記録媒体８０３から読み取ったプログラムやデータをＲＡＭ１０２またはＨＤＤ１０３に格納する。

　通信インタフェース１０７は、ネットワーク９００を介して端末装置２００と通信を行う。通信インタフェース１０７は、有線通信インタフェースでもよいし、無線通信インタフェースでもよい。

　なお、端末装置２００もサーバ１００と同様のハードウェアにより実現できる。
　図４は、情報処理システムの機能例を示す図である。サーバ１００は、記憶部１１０、前処理部１２１および検索処理部１２２を有する。記憶部１１０は、例えば、ＲＡＭ１０２またはＨＤＤ１０３に確保した記憶領域として実装される。前処理部１２１および検索処理部１２２の処理は、例えば、プロセッサ１０１が所定のプログラムを実行することで実現される。

　記憶部１１０は、患者データベース１１１、マップテーブル１１２、代表患者テーブル１１３および患者グループテーブル１１４を記憶する。患者データベース１１１には、多数の患者情報が登録されている。マップテーブル１１２、代表患者テーブル１１３および患者グループテーブル１１４は、検索処理部１２２での検索処理のために前処理部１２１によって作成される情報である。

　前処理部１２１は、検索処理部１２２での類似患者の検索処理の実行のための前処理を実行する。前処理部１２１は、まず、患者データベース１１１に登録された、多次元情報である患者情報を、２次元、３次元といった低次元の情報に変換する。前処理部１２１は、変換後の次元の座標空間における各患者の位置を示すマップ（散布図）を作成する。マップの作成には、例えば、主成分分析または多次元尺度構成法が用いられる。これにより、マップ上での患者間の距離は、対応する患者情報間の類似度を示すようになる。

　マップテーブル１１２には、マップ上の各患者の座標が登録される。すなわち、マップテーブル１１２は、作成されるマップに対応する実体的な情報である。そして、マップテーブル１１２に登録された患者の座標は、その患者についての次元変換後の患者情報を示す。

　また、前処理部１２１は、マップテーブル１１２に基づいて、全患者の中から複数の代表患者を特定する。代表患者は、マップ上の患者の分布領域内で分散するように特定される。特定された代表患者は、代表患者テーブル１１３に登録される。なお、代表患者テーブル１１３には、代表患者に対応する患者データベース１１１内の患者情報も登録されてもよい。

　また、前処理部１２１は、特定した代表患者のそれぞれに対応する患者グループを特定する。患者グループには、全患者のうち、マップにおいて代表患者を中心とした一定距離範囲に存在する患者が含められる。すなわち、患者グループには、代表患者と患者情報がある程度類似する患者が属する。患者グループテーブル１１４には、各患者グループに属する患者の識別情報（患者ＩＤ）が登録される。

　検索処理部１２２は、端末装置２００から、類似患者の検索依頼を受信する。検索依頼には、クエリ患者の患者情報が含まれる。また、検索依頼には、クエリ患者を識別する患者ＩＤのみが含まれていてもよい。この場合、検索処理部１２２は、患者データベース１１１を参照し、検索依頼に含まれる患者ＩＤに対応する患者情報を取得する。

　検索処理部１２２は、クエリ患者の患者情報に対する各代表患者の患者情報の類似度を算出する。検索処理部１２２は、類似度を算出した結果から患者情報がクエリ患者に最も類似している代表患者を特定する。検索処理部１２２は、患者グループテーブル１１４を参照し、特定した代表患者が属するグループを特定する。検索処理部１２２は、クエリ患者の患者情報に対する特定したグループに属する各患者の患者情報の類似度を算出する。検索処理部１２２は、類似度を算出した結果から患者情報がクエリ患者に最も類似している患者を類似患者として特定する。制御部１２０は、検索結果として特定した類似患者の情報を端末装置２００に送信する。ここで、端末装置２００に送信される情報とは、類似患者の患者ＩＤでもよいし、類似患者の患者情報の全部または一部の情報でもよい。これにより、検索の結果を端末装置２００のディスプレイに表示させることができる。

　なお、記憶部１１０に記憶される情報のうち、少なくとも患者データベース１１１は、サーバ１００の外部の記憶装置に記憶されていてもよい。この場合、サーバ１００は、患者データベース１１１に登録された患者情報を外部の記憶装置から取得して利用する。

　図５は、患者データベースの例を示す図である。患者データベース１１１は、記憶部１１０に格納される。患者データベース１１１は、例えば、患者ＩＤ、性別、年齢、ＩＮＦ（Interferon）治療、ＴＡＥ（Transcatheter Arterial Embolization）、ＲＦＡ（RadioFrequency Ablation）、ＡＬＴ（Alanine Aminotransferase）、ＰＬＴ（Platelet）、ステージ、生存期間、再発および無再発期間の項目を含む。患者データベース１１１における１つの患者ＩＤに対応するレコードが、その患者ＩＤに対応する患者についての患者情報である。

　患者ＩＤの項目には、患者を識別するための情報が登録される。性別の項目には、性別を識別する情報が登録される。性別の項目には、“１”（男性）または“０”（女性）が登録される。年齢の項目には、年齢を示す数値が登録される。

　ＩＮＦ治療の項目には、肝炎の治療法の一種であるＩＮＦ治療を行ったか否かを示す情報が登録される。ＩＮＦ治療の項目には、“１”（ＩＮＦ治療を行った）または“０”（ＩＮＦ治療を行っていない）が登録される。ＴＡＥの項目には、肝臓がんの治療法の一種であるＴＡＥを行ったか否かを示す情報が登録される。ＴＡＥの項目には、“１”（ＴＡＥを行った）または“０”（ＴＡＥを行っていない）が登録される。ＲＦＡの項目には、肝臓がんの治療法の一種であるＲＦＡを行ったか否かを示す情報が登録される。ＲＦＡの項目には、“１”（ＲＦＡを行った）または“０”（ＲＦＡを行っていない）が登録される。

　ＡＬＴの項目には、ＡＬＴの検査値が登録される。ＰＬＴの項目には、ＰＬＴの検査値が登録される。ステージの項目には、所定種類のがんの進行度を示す情報が登録される。ステージの項目には、例えば、０～４のいずれかが登録される。数字が大きいほどがんの進行度が高いことを示す。生存期間の項目には、治療開始からの生存期間を示す情報が登録される。

　再発の項目には、病気が再発したか否かを示す情報が登録される。再発の項目には、“１”（再発した）または“０”（再発していない）が登録される。無再発期間の項目には、治療開始から病気が再発していない期間を示す数値が登録される。再発の項目に“１”が登録されている場合、無再発期間の項目には、治療開始から病気が再発するまでの期間が登録される。

　以上の図５の例において、性別および年齢は、患者の属性情報の一例であり、ＩＮＦ治療、ＴＡＥおよびＲＦＡは、患者に対する治療法の実施の有無を示す情報の一例であり、ＡＬＴおよびＰＬＴは、患者の検査結果の一例である。また、ステージは、患者の状態を示す情報の一例であり、再発は、患者がある状態になったか否かを示す情報の一例である。ステージおよび再発は、患者の診断結果の一例とも言える。生存期間および再発は、患者がある状態になるまでの期間を示す情報の一例である。

　また、患者データベース１１１には、患者の検査結果の一例として、病変部位における遺伝子発現量が登録されてもよい。遺伝子発現量は、例えば、ＤＮＡプローブごとに登録される。さらに、患者データベース１１１には、患者の検査結果の一例として、Ｘ線やＭＲＩ（Magnetic Resonance Imaging）などによる撮影画像（またはその画像へのリンク）が登録されてもよい。

　図６は、マップテーブルの例を示す図である。マップテーブル１１２は、記憶部１１０に格納される。マップテーブル１１２は、患者ごとのレコードを有する。各レコードには、患者ＩＤおよび座標が登録される。患者ＩＤは、患者を識別するための識別情報である。座標は、マップにおける位置情報を示す。この位置情報は、患者データベース１１１に登録された対応する患者情報を低次元の情報に変換して得られた情報に対応する。

　図７は、代表患者テーブルの例を示す図である。代表患者テーブル１１３は、記憶部１１０に格納される。代表患者テーブル１１３は、代表患者ごとのレコードを有する。各レコードには、患者データベース１１１から抽出された、代表患者の患者情報が登録される。図７に示すように、代表患者テーブル１１３のレコードは、患者ＩＤによって識別される。なお、代表患者テーブル１１３には、代表患者の患者ＩＤのみが登録されてもよい。

　図８は、患者グループテーブルの例を示す図である。患者グループテーブル１１４は、記憶部１１０に格納される。患者グループテーブル１１４は、患者グループごとのレコードが登録される。各レコードには、患者グループを識別するグループＩＤと、患者グループに属する患者を識別する患者ＩＤとが登録される。図８の例では、グループＩＤ“００１”の患者グループに対して、患者ＩＤ“１０１０１６２”，“１０１７６４８”の患者が属していることを示す。なお、ある患者グループのレコードには、その患者グループの代表患者についての患者ＩＤも含まれる。

　図９は、類似患者検索の前処理の例について説明するための図である。前処理部１２１は、患者データベース１１１に基づいて、類似患者の検索時に利用する各種の情報を作成する、次のような前処理を実行する。

　図５に示したように、患者データベース１１１に登録された患者情報は、多数の項目を有する多次元の情報である。前処理部１２１は、まず、ステップＳ１１に示すように、このような患者情報をより低次元の情報に変換し、変換後の次元の座標空間に各患者情報が投影されたマップ３００を作成する。前処理部１２１は、変換後の次元の座標空間における各患者情報についての投影位置を示す座標を、マップテーブル１１２に登録する。

　なお、各患者情報は、患者を識別する患者ＩＤによって識別される。そこで、以下の説明では、マップ３００を形成する座標空間における患者情報の投影位置を、マップ３００上の「患者の位置」と記載する場合があり、また、投影位置を示す座標を、マップ３００上の「患者の座標」と記載する場合がある。

　ここで、マップ３００を形成する座標空間は、点間距離が対応する患者情報間の類似性の度合いを示すように設定される。より具体的には、点と点との距離が近いほど、各点に対応する患者情報間の類似度は高い。このようなマップ３００の作成には、例えば、主成分分析または多次元尺度構成法が用いられる。

　また、マップ３００の次元は、マップ３００を用いた処理の負荷を低減するために、２次元または３次元であることが望ましい。以下の説明では、例として、２次元のマップ３００を作成するものとする。この場合、患者情報は、２次元の情報（すなわち、２つの座標軸の各方向に対する位置を示す情報）に変換される。

　主成分分析が用いられる場合、患者情報の各項目の値を変数とする線形結合式の係数について、各項目の値の分散または相関が最大となるような係数が求められる。実際には、例えば、前処理部１２１は、各項目の値の分散共分散行列または相関係数行列の固有値および固有ベクトルを算出し、最も大きい固有値に対応する主成分を第１主成分、その次に大きい固有値に対応する主成分を第２主成分とする。前処理部１２１は、第１主成分および第２主成分にそれぞれ対応する患者ごとの主成分スコアを、２次元座標空間における各軸方向の位置情報として出力する。

　また、多次元尺度構成法を用いる場合、前処理部１２１は、患者データベース１１１内の患者と患者とのすべての組み合わせについて、患者情報間の非類似度（類似性が高いほど小さい値をとる指標）を算出する。非類似度は、例えば、コサイン類似度、ｐｅａｒｓｏｎ相関係数などの類似度に基づいて算出される。前処理部１２１は、算出された患者情報間の非類似度が２次元空間上の距離と一致するように、各患者情報に対応する点を２次元空間上に位置付ける。この位置付け処理は、例えば、Ｙｏｕｎｇ－Ｈｏｕｓｅｈｏｌｄｅｒの定理に基づいて行われる。

　次に、ステップＳ１２に示すように、前処理部１２１は、すべての患者の中から所定人数（ｍ人）の代表患者を特定する。ただし、ｍは、２以上であり、全患者数より小さい整数とされる。代表患者は、すべての患者の中から、マップ３００上で均等に分布するように（すなわち、分散するように）選択される。なお、図９に示したマップ３００ａは、マップ３００から代表患者の位置のみを抽出して示したものである。

　例えば、前処理部１２１は、次の条件を満たすようになるまで、全患者からｍ人の患者をランダムに選択する。
　（条件）マップ３００において、全患者の位置の標準偏差σ１と、選択した患者の位置についての標準偏差σ２とがほぼ一致する。

　ここで、計算対象の患者数をｎ、マップ３００における各患者の座標を（ｘ_n，ｙ_n）、ｎ人の患者の位置に対する重心Ｓｄを（ｘ₀，ｙ₀）、ｎ人の患者の位置の標準偏差をσとすると、重心Ｓｄおよび標準偏差σは次の式（１），（２）によってそれぞれ求められる。

　重心Ｓｄは、式（１）に全患者の座標を代入することで求められ、標準偏差σ１は、式（２）に全患者の座標と重心Ｓｄの座標とを代入することで求められる。また、標準偏差σ２は、式（２）にランダムに選択された各患者の座標と重心Ｓｄの座標とを代入することで求められる。なお、標準偏差σ２の算出では、重心Ｓｄの代わりに、ランダムに選択された各患者の位置に対する重心の値が式（２）に代入されてもよい。

　条件は、次のように判定される。例えば、標準偏差σ１と標準偏差σ２との差分の絶対値が、標準偏差σ１（または標準偏差σ２）の所定割合以下である場合に、条件を満たすと判定される。この所定割合とは、０より大きく１より小さい値であり、例えば５％である。また、別の例として、標準偏差σ１と標準偏差σ２との差分の絶対値が所定のしきい値以下の場合に、条件を満たすと判定される。

　前処理部１２１は、ランダムに選択した各患者について上記の条件が満たされた場合、選択した各患者を代表患者として特定し、各代表患者の患者ＩＤを代表患者テーブル１１３に登録する。また、本実施の形態では、前処理部１２１は、代表患者テーブル１１３に、代表患者の患者ＩＤだけでなく、代表患者についての患者情報をすべて代表患者テーブル１１３に登録する。

　次に、前処理部１２１は、ステップＳ１３に示すように、特定した代表患者のそれぞれに対応する患者グループを特定する。患者グループには、全患者のうち、マップ３００において代表患者を中心とした一定距離範囲に存在する患者が含められる。これにより、患者グループには、代表患者と患者情報がある程度類似する患者が属するようになる。図９では、例えば、代表患者３０１に対応する患者グループ３１１には患者３１１ａ～３１１ｄが属し、代表患者３０２に対応する患者グループ３１２には患者３１２ａ～３１２ｄが属する。

　前処理部１２１は、患者グループテーブル１１４に代表患者ごとのレコードを作成し、代表患者の患者グループに属する患者の患者ＩＤを、患者グループテーブル１１４の対応するレコードに登録する。

　なお、患者グループを設定するための距離範囲は、マップ３００上の代表患者を除くすべての患者が少なくとも１つの患者グループに属するように設定される。また、マップ３００において、隣接する患者グループの範囲は重複してもよい。この場合、同じ患者が複数の患者グループに属することが許容される。

　図１０は、類似患者の検索処理の例について説明するための図である。
　検索処理部１２２は、端末装置２００から、クエリ患者４００に類似する患者の検索依頼を受信する。検索処理部１２２は、まず、代表患者のみを検索の対象として類似患者の検索を行う。すなわち、検索処理部１２２は、クエリ患者４００の患者情報に対する各代表患者の患者情報の類似度を算出する。例えば、検索処理部１２２は、コサイン類似度、ｐｅａｒｓｏｎ相関係数、ｓｐｅａｒｍａｎ相関係数、ｋｅｎｄａｌｌ相関係数などを用いて、類似度を算出する。

　例えば、コサイン類似度を用いる場合、検索処理部１２２は、クエリ患者４００の患者情報に含まれる各項目を評価してベクトルを作成する。また、検索処理部１２２は、各代表患者の患者情報に含まれる各項目を評価して、代表患者ごとのベクトルを作成する。検索処理部１２２は、クエリ患者の患者情報から作成したベクトルと、各代表患者の患者情報から作成したベクトルとに基づいて類似度を算出する。

　ステップＳ２１に示すように、検索処理部１２２は、類似度を算出した結果からクエリ患者４００の患者情報に最も類似する代表患者３０１を特定する。
　次に、ステップＳ２２に示すように、検索処理部１２２は、患者グループテーブル１１４を参照して、代表患者３０１が属する患者グループ３１１を特定する。そして、検索処理部１２２は、患者グループ３１１に属する患者（代表患者を含む）を検索の対象として類似患者の検索を行う。すなわち、クエリ患者４００の患者情報に対する、患者グループ３１１に属する各患者の患者情報の類似度を算出する。なお、類似度の算出方法は、代表患者を検索の対象とした上記の検索時と同様の方法が用いられる。

　ステップＳ２３に示すように、検索処理部１２２は、検索の結果、患者グループ３１１に属する患者の中から、例えば、クエリ患者４００の患者情報に最も類似する患者３１１ｃを特定する。検索処理部１２２は、検索結果として、例えば、特定された患者３１１ｃの患者ＩＤ、あるいは、患者３１１ｃの患者情報を端末装置２００に送信する。

　以上の図１０の処理では、検索処理部１２２は、検索依頼を受信したとき、患者データベース１１１に登録されたすべての患者を検索の対象とするのではなく、代表患者のみを検索の対象として類似患者の検索を行う。そして、検索処理部１２２は、検索によって特定された代表患者が属する患者グループを特定し、特定した患者グループに属する患者だけを検索の対象として類似患者の検索を行う。

　このような処理により、患者データベース１１１に登録されたすべての患者を検索の対象とした場合と比較して、患者情報間の類似度演算回数が大幅に低減する。このため、検索依頼を受信してから検索処理が終了するまでにかかる時間が大幅に短縮される。例えば、患者データベース１１１に登録された患者数が１００００人、代表患者の数が１００人、各患者グループに属する患者数が１００人であるとする。この場合に、患者データベース１１１に登録されたすべての患者を検索の対象として類似患者を検索すると、類似度の演算回数は１００００回となる。一方、図１０の処理によれば、類似度の演算回数は２００回に抑制される。これにより、例えば、全患者を検索対象とした場合に検索処理に数時間かかっていた場合でも、図１０の処理により検索処理を数分や数秒で終了させることが可能になる。

　また、図９に示したように、患者間の距離が患者情報間の類似度（正確には非類似度）を示すようなマップ３００が作成され、マップ３００上でできるだけ分散するように複数の代表患者が選択される。そして、患者情報がクエリ患者と類似する代表患者が属する患者グループが特定され、特定された患者グループ内の患者が詳細な検索対象とされる。このような処理により、患者情報がクエリ患者と最も類似する真の患者が検索対象から漏れる可能性が低くなる。したがって、検索精度を維持しながら、検索処理時間を短縮することができる。

　次に、サーバ１００の処理手順についてフローチャートを用いて説明する。
　図１１は、前処理部による前処理手順の例（その１）を示すフローチャートである。以下、図１１に示す処理をステップ番号に沿って説明する。図１１の処理は、定期的に実行される。例えば、定期的とは、１週間に１回である。

　（Ｓ３１）前処理部１２１は、患者データベース１１１を参照し、主成分分析または多次元尺度構成法を用いてマップを作成する。実際には、前処理部１２１は、患者データベース１１１に登録された各患者の患者ＩＤとマップにおける座標との対応関係をマップテーブル１１２に登録する。

　（Ｓ３２）前処理部１２１は、マップにおける全患者の位置に対する重心Ｓｄを算出する。重心Ｓｄは、前述の式（１）に、マップテーブル１１２から読み出した全患者の座標を代入することで算出される。

　（Ｓ３３）前処理部１２１は、マップにおける全患者の位置についての標準偏差σ１を算出する。標準偏差σ１は、前述の式（２）に、マップテーブル１１２から読み出した全患者の座標とステップＳ３２で算出された重心Ｓｄの座標とを代入することで算出される。そして、処理をステップＳ４１に進める。

　図１２は、前処理部による前処理手順の例（その２）を示すフローチャートである。以下、図１２に示す処理をステップ番号に沿って説明する。
　（Ｓ４１）前処理部１２１は、マップテーブル１１２（または患者データベース１１１）に登録された患者の中から、ｍ人の患者をランダムに選択する。

　（Ｓ４２）前処理部１２１は、ステップＳ４１で選択した各患者のマップ上の位置についての標準偏差σ２を算出する。標準偏差σ２は、前述の式（２）に、マップテーブル１１２から読み出した、ステップＳ４１で選択した各患者の座標と、ステップＳ３２で算出された重心Ｓｄとを代入することで算出される。

　（Ｓ４３）前処理部１２１は、ステップＳ３３で算出された標準偏差σ１とステップＳ４２で算出された標準偏差σ２とがほぼ一致するかを判定する。すなわち、前処理部１２１は、前述の条件が満たされているかを判定する。条件が満たされている場合、処理をステップＳ４４に進める。この場合、ステップＳ４１で選択されたｎ人の患者が代表患者として特定される。一方、条件が満たされていない場合、処理をステップＳ４１に進める。

　（Ｓ４４）前処理部１２１は、代表患者テーブル１１３にｍ個のレコードを作成し、特定された各代表患者の患者情報をそれぞれ個別のレコードに登録する。また、前処理部１２１は、患者グループテーブル１１４にｍ個のレコードを作成し、各レコードにユニークなグループＩＤを登録する。そして、前処理部１２１は、特定された各代表患者の患者ＩＤを、患者グループテーブル１１４における個別のレコードに登録する。

　（Ｓ４５）前処理部１２１は、代表患者を１人選択する。
　（Ｓ４６）前処理部１２１は、マップテーブル１１２を参照し、ステップＳ４５で選択した代表患者の位置と、マップテーブル１１２に登録されたその他のすべての患者の位置との距離（ユークリッド距離）を算出する。

　（Ｓ４７）前処理部１２１は、ステップＳ４６で距離の算出対象とされたその他の患者の中から、代表患者との距離が所定距離以内である患者をすべて選択する。前処理部１２１は、選択した各患者の患者ＩＤを、患者グループテーブル１１４における代表患者に対応するレコードに登録する。

　（Ｓ４８）前処理部１２１は、すべての代表患者を選択済みかを判定する。未選択の代表患者が存在する場合、処理をステップＳ４５に進める。すべての代表患者を選択済みである場合、処理を終了する。

　なお、図１１および図１２の処理は、例えば、サーバ１００とは別の情報処理装置において実行されてもよい。
　図１３は、類似検索の処理手順の例を示すフローチャートである。以下、図１３に示す処理をステップ番号に沿って説明する。

　（Ｓ５１）検索処理部１２２は、端末装置２００から、クエリ患者に類似する類似患者の検索依頼を受信する。検索依頼には、クエリ患者の患者情報が含まれる。また、検索依頼には、クエリ患者を識別する患者ＩＤのみが含まれていてもよい。この場合、検索処理部１２２は、患者データベース１１１を参照し、検索依頼に含まれる患者ＩＤに対応する患者情報を取得する。なお、この場合、以下の処理では、患者データベース１１１に登録された患者情報のうち、クエリ患者の患者情報を除く患者情報が検索対象となる。

　（Ｓ５２）検索処理部１２２は、代表患者テーブル１１３を参照し、すべての代表患者の患者情報を取得する。検索処理部１２２は、クエリ患者の患者情報に対する各代表患者の患者情報の類似度を算出する。検索処理部１２２は、類似度を算出した結果からクエリ患者の患者情報に最も類似する代表患者を特定する。

　（Ｓ５３）検索処理部１２２は、患者グループテーブル１１４を参照し、特定した代表患者が属する患者グループを特定する。
　（Ｓ５４）検索処理部１２２は、患者データベース１１１を参照し、特定した患者グループに属するすべての患者の患者情報を取得する。検索処理部１２２は、クエリ患者の患者情報に対する、取得した各患者情報の類似度を算出する。検索処理部１２２は、類似度を算出した結果からクエリ患者の患者情報に最も類似する患者を特定する。

　（Ｓ５５）検索処理部１２２は、類似検索の検索結果として、ステップＳ５４で特定した患者の患者情報または患者ＩＤを端末装置２００に出力する。そして、処理を終了する。

　なお、第１の実施の形態の情報処理は、例えば、検索装置１に用いられるプロセッサに、プログラムを実行させることで実現できる。第２の実施の形態の情報処理は、例えば、プロセッサ１０１にプログラムを実行させることで実現できる。プログラムは、コンピュータ読み取り可能な記録媒体に記録できる。

　例えば、プログラムを記録した記録媒体を配布することで、プログラムを流通させることができる。また、例えば、前処理部１２１と検索処理部１２２とにそれぞれ相当する機能を実現するプログラムを別個のプログラムとし、各プログラムを別個に配布してもよい。また、前処理部１２１と検索処理部１２２の機能が別個のコンピュータにより実現されてもよい。コンピュータは、例えば、記録媒体に記録されたプログラムを、ＲＡＭ１０２やＨＤＤ１０３などの記憶装置に格納し（インストールし）、当該記憶装置からプログラムを読み込んで実行してもよい。

　上記については単に本発明の原理を示すものである。さらに、多数の変形、変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応するすべての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

　１　検索装置
　１ａ　記憶部
　１ｂ　演算部
　１０　患者情報データベース
　１１，１２，１３　患者情報群
　１１ａ，１２ａ，１３ａ　患者情報
　２０　代表患者情報群
　３０　指定患者情報
　Ｓ１，Ｓ２　ステップ

Claims

　複数の患者のそれぞれに関する複数の患者情報を記憶する記憶部から前記複数の患者情報を取得可能なコンピュータに、
　前記複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を前記記憶部から取得して、前記複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、
　前記複数の患者情報群のうち、前記第１の患者情報が属する特定患者情報群に含まれる患者情報を前記記憶部から取得して、前記特定患者情報群に含まれる患者情報の中から、前記指定患者情報との類似度が最も高い第２の患者情報を特定する、
　処理を実行させる検索プログラム。
　前記複数の代表患者情報は、点間距離が対応する患者情報間の非類似度を示すように設定された座標空間に前記複数の患者情報を投影した場合に、前記複数の代表患者情報にそれぞれ対応する位置が前記座標空間において分散するように、前記複数の患者情報の中から選択される、
　請求項１記載の検索プログラム。
　前記複数の患者情報群にそれぞれ属する患者情報は、前記座標空間における位置が、前記複数の代表患者情報のうち対応する代表患者情報についての前記座標空間における位置から一定距離の範囲内に含まれる患者情報である、
　請求項２記載の検索プログラム。
　前記複数の患者情報の中から所定個数の選択患者情報をランダムに選択し、
　前記座標空間における前記複数の患者情報のそれぞれの位置の分散度合いと、前記座標空間における前記所定個数の選択患者情報のそれぞれの位置の分散度合いとの類似性を示す指標が所定のしきい値以上である場合に、前記所定個数の選択患者情報のそれぞれを前記複数の代表患者情報のそれぞれとして選択する、
　処理を前記コンピュータにさらに実行させる請求項２または３記載の検索プログラム。
　前記座標空間は、前記複数の患者情報に基づいて、主成分分析または多次元尺度構成法を用いて設定される、
　請求項２乃至４のいずれか１項に記載の検索プログラム。
　複数の患者のそれぞれに関する複数の患者情報を記憶する記憶部から前記複数の患者情報を取得可能なコンピュータが、
　前記複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を前記記憶部から取得して、前記複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、
　前記複数の患者情報群のうち、前記第１の患者情報が属する特定患者情報群に含まれる患者情報を前記記憶部から取得して、前記特定患者情報群に含まれる患者情報の中から、前記指定患者情報との類似度が最も高い第２の患者情報を特定する、
　検索方法。
　複数の患者のそれぞれに関する複数の患者情報のうち、それぞれが類似する患者情報の集合である複数の患者情報群をそれぞれ代表する複数の代表患者情報を少なくとも記憶する記憶部と、
　前記複数の代表患者情報の中から、指定された指定患者情報との類似度が最も高い第１の患者情報を特定し、前記複数の患者情報群のうちの前記第１の患者情報が属する特定患者情報群に含まれる患者情報の中から、前記指定患者情報との類似度が最も高い第２の患者情報を特定する演算部と、
　を有する検索装置。