WO2024010081A1

WO2024010081A1 - 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

Info

Publication number: WO2024010081A1
Application number: PCT/JP2023/025234
Authority: WO
Inventors: 賢文佐藤; 良一内山
Original assignee: 国立大学法人熊本大学
Priority date: 2022-07-08
Filing date: 2023-07-07
Publication date: 2024-01-11

Abstract

【課題】　多項目同時測定データを活用し、既知の変異と、未知の変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供する。【解決手段】高精度判定システム１は、未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、　生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成する判定部と、前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、格納した当該各種データを少なくとも提供する提供部と、を備える。

Description

多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

　本発明は、多項目同時測定データを活用し、既知の変異と、未知の変異と、を検出し可視化する高精度診断方法及びプログラムに関する。

　例えば、塩基配列の変異、つまり遺伝子変異、を検出するには、全ゲノムシーケンス（Ｗｈｏｌｅ　Ｇｅｎｏｍｅ　Ｓｅｑｕｅｎｃｉｎｇ：ＷＧＳ）を用いてゲノムを解析する方法が最も包括的な手法である。しかしながら、ＷＧＳは高度な解析機器、技術、高価な試薬を必要とするため、簡便で迅速に遺伝子の変異を定量的に検出し、診断する技術が求められている。

　簡便で迅速に変異箇所を定量的に検出する技術の一つとして、例えば、ＤＮＡマイクロアレイを用いた多項目同時遺伝子関連検査が挙げられる。多項目同時遺伝子関連検査により、既知の遺伝子変異の有無が変異箇所ごとに多項目同時測定データとして検出することが可能である。

　従来、前述した多項目同時測定データから変異箇所の有無が検出され、既知の典型的な変異パターンと合致するか否かで、既知の変異か未知の変異かが診断されている。

　例えば、特許文献１では、リード配列（シーケンシング対象塩基配列の配列情報）の各々を参照配列と比較して１つ１つのリード配列から塩基の変異を検出し、その結果を解析することで、変異のパターン及びその頻度を算出する解析方法が開示されている。

　また、特許文献２では、遺伝子変異の傾向を調べるために、配列のより広い領域の変異を検出し、それらの変異パターンを解析して、広い配列領域内での遺伝子変異の傾向を解析することを優先するという考え方が開示されている。

　さらに、非特許文献１では、ウイルスの遺伝子から進化距離をｐ距離で求め、多次元尺度構成法を用いてユークリッド空間に布置する方法が開示されている。

特開２０１８－１３０１１４特開２０２１－１２６１２５

特集学生の研究活動報告―国内学会大会・国際会議参加記22，［online］，［令和４年５月２０日検索］，インターネット，<https://www.rikou.ryukoku.ac.jp/journal/journal69/RJ69S-19.pdf>

　しかしながら、特許文献１、特許文献２、非特許文献１、に記載の技術では、既知の遺伝子変異を判別と、未知の遺伝子変異を検出と、遺伝子変異の差異の進化距離を可視化することは可能であるが、
　既知の変異と、未知の変異とを分類して可視化した上で、未知の変異が既知のどの変異に近いかを高精度で示し、未知の変異であるという解析結果の判断根拠を視覚的に示すことはできない。

　本発明は、多項目同時測定データを活用し、既知の変異と、未知の変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供する。

　本発明では、以下のような解決手段を提供する。

　第１の特徴に係る発明は、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定システムであって、
　未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、
　取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、
　生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成する判定部と、
前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、
　格納した当該各種データを少なくとも提供する提供部と、を備えることを特徴とする高精度判定システムを提供する。

　第１の特徴に係る発明によれば、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化するために、未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得し、取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成し、生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成し、未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納し、格納した当該各種データを少なくとも提供する。

　第１の特徴に係る発明は、高精度診断システムのカテゴリであるが、高精度診断方法、及びプログラムであっても同様の作用、効果を奏する。

　第２の特徴に係る発明は、第１の特徴に係る発明である高精度診断システムであって、
　前記多項目同時測定データおよび前記既存データは塩基配列に係るデータであって、前記多項目同時測定データを活用し、既知の遺伝子変異と、未知の遺伝子変異と、を検出し可視化する高精度診断システムであって、
　前記多項目同時測定データと、既知の塩基配列データと、を少なくとも取得する取得部と、
　取得した前記多項目同時測定データと、前記塩基配列データと、からk近傍法を用いて分類し、局所外れ値因子法を用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータを生成する学習モデルを作成する学習モデル作成部と、
　前記学習モデルに基づいて、生成された前記多項目変異部位パターンデータと、前記学習モデルの学習データと、から多次元尺度構成法を用いて２次元散布図を診断データとして生成する診断部と、
　前記多項目同時測定データと、前記既存データと、前記多項目変異部位パターンデータと、前記診断データと、を少なくとも格納する格納部と、
　格納した当該各種データを少なくとも提供する提供部と、
　を備える高精度診断システムを提供する。

　第２の特徴に係る発明によれば、第１の特徴に係る発明であって、前記分類部は、k近傍法（ｋ－Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ，ｋＮＮ）を用いて取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定存データと、の近似性を解析して定量化し、局所外れ値因子法（Ｌｏｃａｌ　Ｏｕｔｌｉｅｒ　Ｆａｃｔｏｒ，ＬＯＦ）を用いて前記既知の試料と前記傾向が異なる未知の試料を分類し、前記判定部は、多次元尺度構成法（ＭＤＳ：Ｍｕｌｔｉ－Ｄｉｍｅｎｓｉｏｎａｌ　Ｓｃａｌｉｎｇ）を用いて、前記分類データから２次元散布図を判定データとして生成する。

　第３の特徴に係る発明は、第１の特徴または第２の特徴に係る発明であって、前記多項目同時測定データは、前記未知の試料および前記既知の試料から得た核酸配列に係るデータである。

　第４の特徴に係る発明は、第１の特徴または第２の特徴に係る発明である高精度診断システムであって、既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を判定する高精度診断システムを提供する。

　第４の特徴に係る発明によれば、第１の特徴または第２の特徴に係る発明である高精度診断システムにおいて、既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を診断する。

　第５の特徴に係る発明は、第３の特徴に係る発明である高精度診断システムであって、前記未知の試料および前記既知の試料は、がん細胞である高精度診断システムを提供する。

　第６の特徴に係る発明は、前記多項目同時測定データは、特定タンパク質の存在量を測定したデータであって、病態を判定する高精度診断システムを提供する。

　第７の特徴に係る発明は、第１の特徴に係る発明であって、定量化した一つ乃至複数の項目を、一つ乃至複数のパターンとして認識して分類精度を向上する学習モデルを作成する学習モデル作成部と、
　前記学習モデルに基づいて、前記分類データからパターンデータを生成するパターンデータ生成部と、を更に備え、
　前記格納部は、前記パターンデータおよび前記学習モデルを少なくとも格納し、前記提供部は、前記パターンデータを少なくとも提供する。

　本発明によれば、多項目同時測定データから、既知の変異と、未知の変異と、を高精度に検出し、検出した結果を解析して可視化した上で判断根拠を視覚的に示すことが可能な高精度診断システムを提供することが可能となる。

図１は、高精度診断システム１の概要図である。図２は、高精度診断システム１の構成図である。図３は、高精度診断システム１のコンピュータ２が実行する高精度診断処理の手順を示すフローチャート図である。図４は、ユーザ端末３が表示するコンピュータ２が作成した多項目変異部位パターンデータの表示画面の一例である。図５は、ユーザ端末３が表示するコンピュータ２が作成した診断データの表示画面の一例である。

　以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これらは一例であって、本発明の技術的範囲は、これに限られるものではない。

　[高精度診断システム１の概要］
　図１は、高精度診断システム１の概要を説明するための図である。

　図１に示すように、高精度診断システム１は、例えば、遺伝子変異の診断に利用するためのコンピュータシステムであり、コンピュータ２と、ユーザ端末３と、を少なくとも含むシステムである。コンピュータ２とユーザ端末３とは、ネットワーク４を介して通信可能である。

　高精度診断システム１のコンピュータ２は、高精度診断システム１を制御するためのコンピュータであって、例えば、物理的に１台または複数のコンピュータで実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。

　高精度診断システム１のユーザ端末３は、コンピュータ２に多項目同時測定データ１０１と、塩基配列データ１０２と、多項目変異部位パターンデータ１０３と、診断データ１０４と、を送受信するための端末であって、パソコンやノートパソコン、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等であってもよい。

まず、コンピュータ２の取得部２０１は、ユーザ端末３から、多項目同時測定データ１０１と、塩基配列データ１０２と、を少なくとも取得する（ステップＳ０１）。本発明において、多項目同時測定データ１０１とは、例えば、マイクロアレイなどの多項目同時遺伝子関連検査により得られたデータであるものとする。ここで、多項目同時測定データ１０１は、遺伝子の変異箇所ごとに閾値が設定され、変異の有り無しという０か１かというデータに置換されたものであってよいし、変異箇所の変異型によって定量的に置換されたものであってもよい。また、塩基配列データ１０２とは、例えば、ＷＧＳを用いてゲノム解析された、遺伝子が変異した変異体に対して本来的にその生物あるいは微生物が備える遺伝子型を有する野生株（Ｗｉｌｄ　Ｔｙｐｅ　Ｓｔｒａｉｎ：ＷＴ）の塩基配列データと、既知の変異遺伝子を有する変異株（Ｍｕｔａｎｔ：ＭＵＴ）の塩基配列データと、を少なくとも含む塩基配列データであるものとする。ここで、塩基配列データ１０２は、多項目同時測定データ１０１に準じて遺伝子の変異箇所ごとに定量性の有るデータに置換されたものであってよい。なお、該データの取得タイミングについては限定されず、当該データのデータ形式も限定されない。

次に、コンピュータ２の学習モデル作成部２０２は、取得した少なくとも、多項目同時測定データ１０１と、塩基配列データ１０２と、からkＮＮを用いて分類し、ＬＯＦを用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータ１０３を生成する学習モデル１０を作成する（ステップＳ０２）。ここで、多項目変異部位パターンデータ１０３とは、例えば、変異箇所をパネルとして変異箇所の変異型によって定量的に置換されたバーコードパターンであってよい。また、当該データが既知の遺伝子変異であった場合、塩基配列データ１０２を参照して既知の変異型の名称を紐づけて多項目変異部位パターンデータ１０３が作成されてもよい。また、当該データが未知の遺伝子変異であった場合、例えば、Ａｔｙｐｉｃａｌなどの予め定義づけられた名称を紐づけて作成されてもよい。

次に、コンピュータ２の診断部２０３は、学習モデル１０に基づいて生成された多項目変異部位パターンデータ１０３と、学習モデル１０の学習データと、からＭＤＳを用いて作成した２次元散布図を診断データ１０４として生成する（ステップＳ０３）。ここで、診断データ１０４とは、例えば、学習モデル１０が生成した多項目変異部位パターンデータ１０３が未知の変異を示した場合、学習モデル１０の判断根拠を既知の変異との相違を距離として２次元散布図で可視化したデータである。

　次に、コンピュータ２の格納部２０４は、取得した多項目同時測定データ１０１と、塩基配列データ１０２と、生成した多項目変異部位パターンデータ１０３と、診断データ１０４と、を少なくともコンピュータ２に格納する（ステップ０４）。

　最後に、コンピュータ２の提供部２０５は、格納部２０４が格納した当該データを少なくともユーザ端末３を介して提供する（ステップ０５）。

以上が高精度診断システム１の概要である。

　[高精度診断システム１の構成］
　図２は、高精度診断システム１の構成を説明するための図である。

　図２に示すように、高精度診断システム１のコンピュータ２は、制御部（非図示）として、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＧＰＵ（Ｇｒａｐｈｉｃｓ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）等を備え、通信部（非図示）として、他の端末や装置等と通信可能にするためのデバイス、例えば、ＩＥＥＥ８０２．１１に準拠したＷｉ―Ｆｉ（Ｗｉｒｅｌｅｓｓ―Ｆｉｄｅｌｉｔｙ）対応デバイス等を備える。
また、コンピュータ２は、記憶部（非図示）として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。ストレージ部はネットワーク通信可能な外部に存在してもよい。

　コンピュータ２において、制御部が所定のプログラムを読み込むことにより、通信部、記憶部と協働して、取得部２０１、学習モデル作成部２０２、診断部２０３、格納部２０４、提供部２０５を実現する。

　ユーザ端末３は、コンピュータ、スマートフォン、タブレット端末等の電子デバイスであり、上述したコンピュータ２と、ネットワーク４を介してデータ通信可能に接続されている。ユーザ端末３は１台である必要はなく、複数台あってもよい。

　ユーザ端末３は、端末制御部（非図示）として、上述したコンピュータ２における制御部と同様に、ＣＰＵ、ＧＰＵ、ＲＡＭ、ＲＯＭ等を備える。ユーザ端末３は、通信部（非図示）として、他の端末や装置等と通信可能にするためのデバイスを備える。また、ユーザ端末３は、入出力部（非図示）として、データを入出力する入出力デバイス等を備える。また、ユーザ端末３は、記憶部（非図示）として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。

以上が高精度診断システム１の構成である。

　[遺伝子変異高精度診断処理］
図３は、高精度診断システム１のコンピュータ２が実行する遺伝子変異高精度診断処理の手順を示すフローチャート図である。図３に基づいて、コンピュータ２が実行する遺伝子変異高精度診断処理について説明する。

　まず、コンピュータ２の取得部２０１は、多項目同時測定データ１０１と、塩基配列データ１０２と、を少なくとも取得する（ステップＳ３０１）。該データはコンピュータ２にすでに保存されているものでもよいし、ユーザ端末３と、公衆回線網等のネットワーク４を介して、データ通信可能に接続し、取得したものでもよい。

次に、コンピュータ２の学習モデル作成部２０２は、取得した少なくとも、多項目同時測定データ１０１と、塩基配列データ１０２と、からkＮＮを用いて既知の遺伝子変異を分類し、ＬＯＦを用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータ１０３を生成する学習モデル１０を作成する（ステップＳ３０２）。

　次に、コンピュータ２の学習モデル１０は、多項目同時測定データ１０１から既知の遺伝子変異を分類し、未知の遺伝子変異を検出して多項目変異部位パターンデータ１０３を生成する（ステップＳ３０３）。

　ここで、ｋＮＮを用いた既知の遺伝子変異の分類方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
多項目同時測定データ１０１は、新型コロナ変異ウイルスの多項目同時遺伝子関連検査により得られたデータであり、遺伝子の変異箇所ごとに閾値が設定され、変異箇所の変異型によって定量性のあるデータ、例えば、変異箇所をパネルとして示し、パネルの色の濃淡によって出力値がことなり、多項目で検出されたパネルをバーコードパターンとして置換されたものとする。
また、塩基配列データ１０２は、新型コロナ変異ウイルスのＷＴから得られた塩基配列データ、あるいは既知の変異遺伝子を有する変異型の塩基配列データ、を少なくとも含む塩基配列データであり、多項目同時測定データ１０１に準じて遺伝子の変異箇所ごとに定量性の有るデータに置換されたものとする。

既知の遺伝子変異の分類は、まず、ｎ番目の変異部位の出力値（連続値）をα_nで表す。この際、ある変異型の出力はベクトルα＝（α_１，α_２，…，α_ｎ）としてｎ次元空間のベクトルで表現できる。ウイルス量でベクトルの要素の大きさが変わるため、ベクトルαをベクトルの大きさで割る正規化を行う。これによって、ｎ次元の単位円周上に各症例が配置され、原点からどちらの方向を向いているかで各症例が分類される。もし、同じパネルのバーコードパターンで色の濃さ（出力値の大きさ）が異なっていたとしても、パネルのバーコードパターンが同じであれば、同じ方向を向くために同じ変異型として分類される。
学習モデル作成部２０２が行う学習では、上述した塩基配列データ１０２を学習のための教師データとして当該処理を行い、ｎ次元空間上に学習データを配置し、既知の変異型の名称を紐づけ、学習モデル１０を作成する。
新規に取得した多項目同時測定データ１０１を、テストデータ（ベクトルβ＝（β_１，β_２，…，β_ｎ））として分類する場合は、ｉ番目の学習データ（ベクトルα_ｉ）とテストデータ（ベクトルβ）のユークリッド距離を計算し、最も近い距離の学習データを求めて、学習データの変異型の名称を紐づけて、多項目変異部位パターンデータ１０３を生成する（ステップＳ３０３ａ）。

次に、ＬＯＦを用いた未知の遺伝子変異の検出方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
まず、ｘからｘ’への到達可能距離は、下記の数式１で定義される。ここで、ｘ^（ｋ）は、学習データ｛ｘ_ｉ｝ⁿ _ｉ＝１のうち、ｘにｋ番目に近い症例を表す。このとき、ｘの局所到達可能密度は下記の数式２と定義される。この局所到達可能密度を用いて、ｘのＬＯＦは、下記の数式３で定義される。
ＬＯＦｋ（ｘ）は、ｘ^（ｉ）の局所到達可能密度の平均とｘの局所到達可能密度の比である。もし、学習データｘ^（ｉ）の周辺は密度が高いが、テストデータｘの周辺の密度が低いとき、ＬＯＦの値は大きな値となる。この場合、学習データにない未知のパターンであると判断し、未知の遺伝子変異として検出し、多項目変異部位パターンデータ１０３を生成する（ステップＳ３０３ｂ）。

図４は、新型コロナ変異ウイルスを対象とした場合の、ユーザ端末３が表示するコンピュータ２が生成した多項目変異部位パターンデータ１０３の表示画面の一例である。図４に示すようにコンピュータ２が生成した多項目変異部位パターンデータ１０３は、Ｄｅｌｔａ型などの既知の新型コロナ変異ウイルスの分類と、未知の新型コロナ変異ウイルスの検出と、を行い、変異部位パターン、例えば、２次元データの個々の値を色や濃淡として表現した可視化グラフの一種であるｈｅａｔｍａｐ、として表示される。

　このように、既知の遺伝子変異を分類すること、未知の遺伝子変異を検出すること、が可能となるが、学習モデル１０がなぜそのように判断したかの根拠の提示が難しく、学習モデル１０の提示した結果を信頼して活用することが難しい。

そこで、コンピュータ２の診断部２０３は、多項目変異部位パターンデータ１０３と、学習モデル１０の学習データと、からＭＤＳを用いてデータ分布を可視化した２次元散布図を診断データ１０４として生成する（ステップＳ３０４）。

ここで、ＭＤＳを用いたデータ分布の可視化方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
多項目同時測定データ１０１の出力値はｎ次元データになるため、各症例はｎ次元空間上のひとつの点と分布する。このとき、ｎ次元データを２次元データ（または３次元データ）に次元縮約することができれば、散布図で表示することができるため、テストデータがどの既知の変異に近いのか、未知の変異であるのかを直感的に判断できようになり、学習モデル１０の提示した結果の判断根拠とすることが可能となる。そこで、ＭＤＳを用いて次元集約を行う。ＭＤＳは次の手順で新しい軸を構成する。
まず、入力ｉと入力ｊのユークリッド距離からなる距離行列ｄ_ｉｊを求め、原点がｎ個の入力データの重心になるように移動する変換行列Ｚ_ｉｊを求める（数式４）。

次に、行列Ｚ_ｉｊの固有ベクトルで与えられる軸上の座標値として新しい座標点を決定する。ＭＤＳは、データ間のユークリッド距離を保持した形の線形変換であるから、ｎ次元空間上での各症例の相対的な位置関係を２次元空間上で再現したものと解釈できる。
学習データを用いてｎ次元データを２次元データに次元縮約する変換式を求め、それをテストデータに適用することで、テストデータの２次元空間上の位置を求める。多項目同時測定データ１０１の出力値は、例えば（１，０）や（０，１）として、バーコードのパターンとして表現されるため、各症例はｎ次元空間上で線形独立な関係にある軸に沿って分布する。
ＭＤＳは、各症例のユークリッド距離を保持した形で、正規直交関係にある固有ベクトルによって新しい２軸を求める手法であるため、多項目同時測定データ１０１のバーコードパターンの数学的性質を考慮した次元縮約法であることが発明のポイントである。
また、次元縮約の手法として頻繁に用いられるt分布型確率的近傍埋め込み法（Ｔ－ｄｉｓｔｒｉｂｕｔｅｄ　Ｓｔｏｃｈａｓｔｉｃ　Ｎｅｉｇｈｂｏｒ　Ｅｍｂｅｄｄｉｎｇ，：ｔ－ＳＮＥ）では、新しいテストデータが入力される度に軸が新たに形成されるため、学習とテストを別々に行うことができない。したがって、固定した既知の変異の2次元分布上にテストデータの分布を加えることができるＭＤＳの方が、t－ＳＮＥよりも優位であると考えられる。

図５は、新型コロナ変異ウイルスを対象とした場合の、ユーザ端末３が表示するコンピュータ２が生成した診断データ１０４の表示画面の一例である。
。図５に示すようにコンピュータ２が生成した診断データ１０４は、Ｄｅｌｔａ型などの既知の新型コロナ変異ウイルスの分類と、未知の新型コロナ変異ウイルスの検出と、を行った多項目変異部位パターンデータ１０３から、２次元散布図を診断データとして生成し、学習モデル基づいて生成された多項目変異部位パターンデータ１０３の妥当性を視覚的に示すことが可能である。

　以上が、高精度診断処理である。

　このように高精度診断処理によれば、多項目同時遺伝子関連検査に係る多項目同時測定データを活用し、既知の遺伝子変異と、未知の遺伝子変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供することができる。

高精度診断システム１は、上述した新型コロナ変異ウイルスだけでなく、例えば、がん細胞の遺伝子変異の検出や、特定タンパク質の検出による他の疾患の診断検査としても有用性がある。

［がん細胞の遺伝子変異の検出による診断］
癌に関する至適治療法を提案するＡＩシステムとして利用可能である。近年，がんの増殖に関係する遺伝子異常が次々に明らかになっており、現在は、がん細胞の遺伝子変異の検査を経て，条件が合えば、大きな効果が期待できる分子標的薬を用いる治療が行われている。例えば，肺腺がんに関する遺伝子異常として、ＥＧＦＲ遺伝子変異、ＡＬＫ融合遺伝子、ＨＥＲ２遺伝子変異、ＭＥＴ遺伝子変異、ＲＯＳ１融合遺伝子、ＢＲＡＦ遺伝子変異、ＲＥＴ融合遺伝子、ＲＡＳ遺伝子変異などが知られている。もし、ＥＧＦＲ遺伝子のみに変異があれば、分子標的薬ゲフィチニブが劇的に効く可能性が高い。など、がん細胞の遺伝子変異と分子標的薬がセットなった診断と治療を施すゲノム医療が行われている。
がん細胞の遺伝子変異の有無を調べる検査の結果は、本発明におけるパネルパターンの出力と同様に考えることができる。そのためがん細胞の遺伝子変異の有無の情報を本発明と同じアルゴリズムで分析することによって，有効な分子標的薬の選択が可能となり、至適治療法を提案するＡＩシステムを構築して利用することが可能になる、また、既知のパターンと異なると判別されれば分子標的薬が奏効しない症例であると予測することも可能である。

［特定タンパク質の検出］
それぞれ異なるタンパク質に特異的に反応するものを結合した１００種類のカラーコードビーズを使用した「Ｂｉｏ－ＰｌｅｘＴＭサスペンションアレイシステム」などのデータは、新型コロナ多項目同時測定変異データと同様に最大１００種類の異なった生体成分（タンパクや核酸）多項目情報が取得される。炎症性サイトカインのパネルを使用して得られる、炎症性サイトカインに関する多項目データを活用して、炎症病態を診断することに、本発明手法の有用性が期待される。

　以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない

１   高精度診断システム
２   コンピュータ
３   ユーザ端末
４   ネットワーク

Claims

　多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定システムであって、
　未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、
　取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、
　生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成する判定部と、
前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、
　格納した当該各種データを少なくとも提供する提供部と、を備えることを特徴とする高精度判定システム。
　前記分類部は、k近傍法（ｋ－Ｎｅａｒｅｓｔ　Ｎｅｉｇｈｂｏｒ，ｋＮＮ）を用いて取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定存データと、の近似性を解析して定量化し、局所外れ値因子法（Ｌｏｃａｌ　Ｏｕｔｌｉｅｒ　Ｆａｃｔｏｒ，ＬＯＦ）を用いて前記既知の試料と前記傾向が異なる未知の試料を分類し、前記判定部は、多次元尺度構成法（ＭＤＳ：Ｍｕｌｔｉ－Ｄｉｍｅｎｓｉｏｎａｌ　Ｓｃａｌｉｎｇ）を用いて、前記分類データから２次元散布図を判定データとして生成する
請求項１に記載の高精度判定システム。
　前記多項目同時測定データは、前記未知の試料および前記既知の試料から得た核酸配列に係るデータである請求項１または請求項２に記載の高精度判定システム。
　既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を判定する請求項１または請求項２に記載の高精度判定システム。
　前記未知の試料および前記既知の試料は、がん細胞である請求項３に記載の高精度判定システム。
　前記多項目同時測定データは、特定タンパク質の存在量を測定したデータであって、病態を判定する請求項１または請求項２に記載の高精度判定システム。
　定量化した一つ乃至複数の項目を、一つ乃至複数のパターンとして認識して分類精度を向上する学習モデルを作成する学習モデル作成部と、
　前記学習モデルに基づいて、前記分類データからパターンデータを生成するパターンデータ生成部と、を更に備え、
　前記格納部は、前記パターンデータおよび前記学習モデルを少なくとも格納し、前記提供部は、前記パターンデータを少なくとも提供する、請求項１に記載の高精度判定システム。
　コンピュータが実行し、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定方法であって、
　未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得するステップと、
　取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成するステップと、
　生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成するステップと、
前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納するステップと、
　格納した当該各種データを少なくとも提供するステップと、を備えることを特徴とする高精度判定方法。
　多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化するコンピュータに、
　未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得するステップ、
　取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成するステップ、
　生成された前記分類データを次元圧縮して２次元散布図を判定データとして生成するステップ、
前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納するステップ、
　格納した当該各種データを少なくとも提供するステップ、を実行させるためのプログラム。