WO2024010081A1 - 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム - Google Patents

多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム Download PDF

Info

Publication number
WO2024010081A1
WO2024010081A1 PCT/JP2023/025234 JP2023025234W WO2024010081A1 WO 2024010081 A1 WO2024010081 A1 WO 2024010081A1 JP 2023025234 W JP2023025234 W JP 2023025234W WO 2024010081 A1 WO2024010081 A1 WO 2024010081A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
simultaneous measurement
measurement data
item simultaneous
unknown
Prior art date
Application number
PCT/JP2023/025234
Other languages
English (en)
French (fr)
Inventor
賢文 佐藤
良一 内山
Original Assignee
国立大学法人熊本大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人熊本大学 filed Critical 国立大学法人熊本大学
Publication of WO2024010081A1 publication Critical patent/WO2024010081A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to a highly accurate diagnostic method and program that utilizes multi-item simultaneous measurement data to detect and visualize known mutations and unknown mutations.
  • WGS whole genome sequencing
  • Multi-item simultaneous gene-related testing allows the presence or absence of known genetic mutations to be detected for each mutation site as multi-item simultaneous measurement data.
  • the presence or absence of a mutation site is detected from the multi-item simultaneous measurement data described above, and whether the mutation is a known mutation or an unknown mutation is diagnosed based on whether or not it matches a known typical mutation pattern.
  • each lead sequence (sequence information of a base sequence to be sequenced) is compared with a reference sequence, base mutations are detected from each lead sequence, and the results are analyzed.
  • An analysis method for calculating mutation patterns and their frequencies is disclosed.
  • Patent Document 2 discloses that in order to investigate trends in genetic mutations, mutations in a wider region of the sequence are detected, their mutation patterns are analyzed, and trends in genetic mutations within a wider sequence region are analyzed. The concept of giving priority to
  • Non-Patent Document 1 discloses a method of determining the evolutionary distance from a virus gene as a p-distance and placing it in Euclidean space using a multidimensional scaling method.
  • Patent Document 1 Patent Document 2, and Non-Patent Document 1
  • Patent Document 2 it is possible to identify known genetic mutations, detect unknown genetic mutations, and visualize the evolutionary distance of differences in genetic mutations.
  • After classifying and visualizing known mutations and unknown mutations it shows with high accuracy which known mutations the unknown mutation is close to, and visually provides the basis for the analysis result that it is an unknown mutation. cannot be shown.
  • the present invention utilizes multi-item simultaneous measurement data to classify known mutations and unknown mutations with high precision, analyze and visualize the classification results, and visually show the basis for judgment with high accuracy. Provide diagnostic systems.
  • the present invention provides the following solution.
  • the invention is a high-precision determination system that utilizes multi-item simultaneous measurement data to detect and visualize known samples and unknown samples, an acquisition unit that acquires at least multi-item simultaneous measurement data of an unknown sample and multi-item simultaneous measurement data of a known sample; Analyzing and quantifying the similarity between the acquired multi-item simultaneous measurement data of the unknown sample and the multi-item simultaneous measurement data of the known sample, classifying the unknown sample having a different tendency from the known sample, a classification unit that generates classification data; a determination unit that compresses the dimensions of the generated classification data and generates a two-dimensional scatter diagram as determination data; a storage unit that stores at least the unknown multi-item simultaneous measurement data, the known multi-item simultaneous measurement data, the classification data, and the determination data; Provided is a high-precision determination system comprising: a providing unit that provides at least the various stored data.
  • the multi-item simultaneous measurement data of the unknown sample and the known in order to detect and visualize a known sample and an unknown sample by utilizing the multi-item simultaneous measurement data, the multi-item simultaneous measurement data of the unknown sample and the known , and analyze and quantify the similarity between the obtained multi-item simultaneous measurement data of the unknown sample and the multi-item simultaneous measurement data of the known sample. , classify unknown samples with different trends from known samples, generate classification data, dimensionally compress the generated classification data to generate a two-dimensional scatter diagram as judgment data, and generate unknown multi-item simultaneous measurement data. , the known multi-item simultaneous measurement data, the classification data, and the determination data, and provides at least the stored various data.
  • the invention according to the first feature is in the category of high-precision diagnostic systems, similar actions and effects can be achieved even in high-precision diagnostic methods and programs.
  • the invention according to the second characteristic is a high-precision diagnostic system, which is the invention according to the first characteristic,
  • the multi-item simultaneous measurement data and the existing data are data related to base sequences, and the multi-item simultaneous measurement data is utilized to detect and visualize known genetic mutations and unknown genetic mutations.
  • a system an acquisition unit that acquires at least the multi-item simultaneous measurement data and known base sequence data; Classify the acquired multi-item simultaneous measurement data and the base sequence data using the k-nearest neighbor method, and detect unknown genetic mutations that have a different tendency from known genetic mutations using the local outlier factor method; a learning model creation unit that creates a learning model that generates multi-item mutation site pattern data; a diagnostic unit that generates a two-dimensional scatter diagram as diagnostic data using a multidimensional scaling method from the generated multi-item mutation site pattern data and the learning data of the learning model based on the learning model; a storage unit that stores at least the multi-item simultaneous measurement data, the existing data, the multi-item mutation site pattern data, and the diagnostic data; a providing unit that provides at least the various stored data; To provide a high-precision diagnostic system equipped with
  • the classification unit performs multi-item classification of the unknown sample obtained using the k-nearest neighbor method (k-Nearest Neighbor, kNN). Analyze and quantify the similarity between the simultaneous measurement data and the multi-item simultaneous measurement existing data of the known sample, and use the local outlier factor method (LOF) to compare the known sample and the trend.
  • LEF local outlier factor method
  • the determination unit uses multi-dimensional scaling (MDS) to generate a two-dimensional scatter diagram as determination data from the classification data.
  • the invention according to the third feature is the invention according to the first feature or the second feature, wherein the multi-item simultaneous measurement data is data related to nucleic acid sequences obtained from the unknown sample and the known sample. It is.
  • the invention according to the fourth characteristic is a high-precision diagnostic system which is the invention according to the first characteristic or the second characteristic, and which determines between a known new coronavirus mutant virus and an unknown new coronavirus mutant virus. Provides high-precision diagnostic systems.
  • a known new coronavirus mutant virus and an unknown new coronavirus mutant virus are diagnosed. .
  • the invention according to the fifth feature provides a high-precision diagnostic system, which is the invention according to the third feature, in which the unknown sample and the known sample are cancer cells.
  • the invention according to a sixth aspect provides a highly accurate diagnostic system for determining a pathological condition, in which the multi-item simultaneous measurement data is data obtained by measuring the abundance of a specific protein.
  • the invention related to the seventh feature is the invention related to the first feature, which creates a learning model that recognizes one or more quantified items as one or more patterns and improves classification accuracy.
  • a learning model creation department that further comprising a pattern data generation unit that generates pattern data from the classification data based on the learning model,
  • the storage unit stores at least the pattern data and the learning model, and the providing unit provides at least the pattern data.
  • the present invention it is possible to detect known mutations and unknown mutations from multi-item simultaneous measurement data with high accuracy, analyze and visualize the detected results, and visually show the basis for judgment. This makes it possible to provide a highly accurate diagnostic system.
  • FIG. 1 is a schematic diagram of a high-precision diagnostic system 1.
  • FIG. 2 is a configuration diagram of the high-precision diagnostic system 1.
  • FIG. 3 is a flowchart showing the procedure of high-precision diagnostic processing executed by the computer 2 of the high-precision diagnostic system 1.
  • FIG. 4 is an example of a display screen of multi-item mutation site pattern data created by the computer 2 and displayed by the user terminal 3.
  • FIG. 5 is an example of a display screen of diagnostic data created by the computer 2, which is displayed by the user terminal 3.
  • FIG. 1 is a diagram for explaining an overview of a high-precision diagnostic system 1. As shown in FIG. 1
  • a high-precision diagnostic system 1 is, for example, a computer system for use in diagnosing genetic mutations, and is a system that includes at least a computer 2 and a user terminal 3. Computer 2 and user terminal 3 can communicate via network 4 .
  • the computer 2 of the high-precision diagnostic system 1 is a computer for controlling the high-precision diagnostic system 1, and may be realized physically by one or more computers, or may be realized by a virtual computer such as a cloud computer. It may be realized with a standard device.
  • the user terminal 3 of the high-precision diagnostic system 1 is a terminal for transmitting and receiving multi-item simultaneous measurement data 101, base sequence data 102, multi-item mutation site pattern data 103, and diagnostic data 104 to and from the computer 2.
  • it may be a personal computer, a notebook computer, a mobile terminal such as a smartphone or a tablet terminal, a wearable terminal such as a head-mounted display such as smart glasses, or a smart watch.
  • the acquisition unit 201 of the computer 2 acquires at least the multi-item simultaneous measurement data 101 and the base sequence data 102 from the user terminal 3 (step S01).
  • the multi-item simultaneous measurement data 101 is, for example, data obtained by a multi-item simultaneous gene-related test such as a microarray.
  • the multi-item simultaneous measurement data 101 may be data in which a threshold value is set for each mutation site of the gene and replaced with data indicating the presence or absence of a mutation, 0 or 1, or depending on the mutation type of the mutation site. It may be one that is quantitatively substituted.
  • the nucleotide sequence data 102 is, for example, a wild type strain (WT) that has a genotype originally possessed by the organism or microorganism for a mutant whose gene has been mutated, whose genome has been analyzed using WGS. ) and base sequence data of a mutant strain (Mutant: MUT) having a known mutant gene.
  • WT wild type strain
  • MUT base sequence data of a mutant strain
  • the base sequence data 102 may be replaced with quantitative data for each gene mutation site in accordance with the multi-item simultaneous measurement data 101. Note that the timing of acquiring the data is not limited, and the data format of the data is also not limited.
  • the learning model creation unit 202 of the computer 2 uses kNN to classify at least the acquired multi-item simultaneous measurement data 101 and base sequence data 102, and uses LOF to classify known genetic mutations and trends.
  • a learning model 10 is created that detects different unknown genetic mutations and generates multi-item mutation site pattern data 103 (step S02).
  • the multi-item mutation site pattern data 103 may be, for example, a barcode pattern in which the mutation site is used as a panel and quantitatively replaced by the variant type of the mutation site.
  • the multi-item mutation site pattern data 103 may be created by referring to the base sequence data 102 and linking the names of the known mutations.
  • the data is an unknown genetic mutation, it may be created by linking a predefined name such as Atypical, for example.
  • the diagnosis unit 203 of the computer 2 diagnoses a two-dimensional scatter diagram created using MDS from the multi-item mutation site pattern data 103 generated based on the learning model 10 and the learning data of the learning model 10. It is generated as data 104 (step S03).
  • the diagnostic data 104 is, for example, when the multi-item mutation site pattern data 103 generated by the learning model 10 indicates an unknown mutation, the learning model 10 uses the difference from the known mutation as the distance and uses 2. This is data visualized in a dimensional scatter diagram.
  • the storage unit 204 of the computer 2 stores at least the acquired multi-item simultaneous measurement data 101, the base sequence data 102, the generated multi-item mutation site pattern data 103, and the diagnostic data 104. (Step 04).
  • the providing unit 205 of the computer 2 provides the data stored in the storage unit 204 via at least the user terminal 3 (step 05).
  • FIG. 2 is a diagram for explaining the configuration of the high-precision diagnostic system 1.
  • the computer 2 of the high -precision diagnostic system 1 is a control unit (non -viewed), as a CPU (Central Processing Unit), GPU (GRAPHICS PROCESSING UNIT), RAM (RANDOM AcceS MEMOR). Y), ROM (READ ONLY)
  • a communication unit (not shown)
  • a device for enabling communication with other terminals, devices, etc. such as a Wi-Fi (Wireless-Fidelity) compatible device compliant with IEEE 802.11, etc. is provided.
  • the computer 2 includes a data storage unit such as a hard disk, a semiconductor memory, a recording medium, a memory card, etc. as a storage unit (not shown).
  • the storage unit may exist externally and can communicate with the network.
  • control unit by reading a predetermined program, the control unit cooperates with the communication unit and the storage unit to realize an acquisition unit 201, a learning model creation unit 202, a diagnosis unit 203, a storage unit 204, and a provision unit 205. .
  • the user terminal 3 is an electronic device such as a computer, a smartphone, or a tablet terminal, and is connected to the computer 2 described above via the network 4 so as to be capable of data communication.
  • the number of user terminals 3 does not need to be one, and there may be multiple user terminals.
  • the user terminal 3 includes a CPU, GPU, RAM, ROM, etc. as a terminal control unit (not shown), similar to the control unit in the computer 2 described above.
  • the user terminal 3 includes a device as a communication unit (not shown) that enables communication with other terminals, devices, and the like.
  • the user terminal 3 also includes an input/output unit (not shown), such as an input/output device that inputs and outputs data.
  • the user terminal 3 includes a data storage unit such as a hard disk, a semiconductor memory, a recording medium, a memory card, etc. as a storage unit (not shown).
  • FIG. 3 is a flowchart showing the procedure of a gene mutation high-precision diagnosis process executed by the computer 2 of the high-precision diagnosis system 1. Based on FIG. 3, a high-precision genetic mutation diagnosis process executed by the computer 2 will be described.
  • the acquisition unit 201 of the computer 2 acquires at least the multi-item simultaneous measurement data 101 and the base sequence data 102 (step S301).
  • the data may be already stored in the computer 2, or may be obtained by connecting the user terminal 3 to a network 4 such as a public line network for data communication.
  • the learning model creation unit 202 of the computer 2 classifies known genetic mutations using kNN from at least the acquired multi-item simultaneous measurement data 101 and base sequence data 102, and classifies known genetic mutations using LOF.
  • a learning model 10 is created that detects unknown genetic mutations that have different tendencies from genetic mutations and generates multi-item mutation site pattern data 103 (step S302).
  • the learning model 10 of the computer 2 classifies known genetic mutations from the multi-item simultaneous measurement data 101, detects unknown genetic mutations, and generates multi-item mutation site pattern data 103 (step S303).
  • the multi-item simultaneous measurement data 101 is data obtained by a multi-item simultaneous gene-related test for the new coronavirus mutant virus, and a threshold value is set for each gene mutation location, and quantitative data is obtained depending on the variant type of the mutation location. For example, it is assumed that the mutation location is shown as a panel, the output value varies depending on the shade of the color of the panel, and the panel detected in multiple items is replaced as a barcode pattern.
  • the base sequence data 102 is base sequence data that includes at least base sequence data obtained from WT of the new coronavirus mutant virus or base sequence data of a mutant type having a known mutant gene, and is multi-item simultaneous measurement data. 101, each mutation location of a gene is replaced with quantitative data.
  • the output value (continuous value) of the nth mutation site is expressed as ⁇ n .
  • the barcode patterns on the same panel differ in color density (output value size)
  • the barcode patterns on the panels are the same, they will be classified as the same variant because they face the same direction.
  • Ru In the learning performed by the learning model creation unit 202, the above-mentioned base sequence data 102 is used as training data for learning, and the processing is performed, the learning data is arranged in an n-dimensional space, the names of known variants are linked, A learning model 10 is created.
  • the reachable distance from x to x' is defined by Equation 1 below.
  • the locally reachable density of x is defined as the following equation 2.
  • the LOF of x is defined by Equation 3 below.
  • LOFk(x) is the ratio of the average locally reachable density of x (i) to the locally reachable density of x.
  • step S303b If the density around the learning data x (i) is high but the density around the test data x is low, the value of LOF becomes a large value. In this case, it is determined that it is an unknown pattern that is not in the learning data, and is detected as an unknown genetic mutation, and multi-item mutation site pattern data 103 is generated (step S303b).
  • FIG. 4 is an example of a display screen of the multi-item mutation site pattern data 103 generated by the computer 2 and displayed by the user terminal 3 when the new coronavirus mutant virus is targeted.
  • the multi-item mutation site pattern data 103 generated by the computer 2 is subjected to classification of known novel coronavirus mutant viruses such as the Delta type and detection of unknown novel coronavirus mutant viruses, and to generate mutation site patterns. For example, it is displayed as a heatmap, which is a type of visualization graph that expresses individual values of two-dimensional data as colors and shades.
  • the diagnostic unit 203 of the computer 2 generates, as diagnostic data 104, a two-dimensional scatter diagram that visualizes the data distribution using MDS from the multi-item mutation site pattern data 103 and the learning data of the learning model 10 (step S304).
  • the output value of the multi-item simultaneous measurement data 101 is n-dimensional data, each case is distributed as one point on the n-dimensional space.
  • the n-dimensional data can be reduced to 2-dimensional data (or 3-dimensional data), it can be displayed in a scatter plot, so you can see which known mutations the test data is close to, and which unknown mutations are close to. It becomes possible to intuitively judge whether there is any such information, and it becomes possible to use the result presented by the learning model 10 as a basis for judgment. Therefore, dimension aggregation is performed using MDS.
  • the MDS configures a new axis using the following steps.
  • a distance matrix d ij consisting of the Euclidean distance between input i and input j is found, and a transformation matrix Z ij is found that moves the origin so that it becomes the center of gravity of n pieces of input data (Equation 4).
  • a new coordinate point is determined as a coordinate value on the axis given by the eigenvector of the matrix Z ij . Since MDS is a linear transformation that maintains the Euclidean distance between data, it can be interpreted as reproducing the relative positional relationship of each case in an n-dimensional space in a two-dimensional space.
  • a conversion formula for dimensionally reducing n-dimensional data to two-dimensional data is determined using the learning data, and by applying it to the test data, the position of the test data in the two-dimensional space is determined.
  • the output value of the multi-item simultaneous measurement data 101 is expressed as a barcode pattern, for example (1, 0) or (0, 1), so each case is represented by axes that are linearly independent in an n-dimensional space. distributed along. MDS is a method that maintains the Euclidean distance of each case and calculates two new axes using eigenvectors in an orthogonal relationship. The point of the invention is that it is a contract law.
  • t-SNE stochastic neighbor embedding
  • MDS which can add the distribution of test data onto the fixed two-dimensional distribution of known mutations, is considered to be superior to t-SNE.
  • FIG. 5 is an example of a display screen of the diagnostic data 104 generated by the computer 2 and displayed by the user terminal 3 when the new coronavirus mutant virus is targeted.
  • the diagnostic data 104 generated by the computer 2 is multi-item mutation site pattern data 103 that classifies known novel coronavirus mutant viruses such as Delta type and detects unknown novel coronavirus mutant viruses. From this, it is possible to generate a two-dimensional scatter diagram as diagnostic data and visually demonstrate the validity of the multi-item mutation site pattern data 103 generated based on the learning model.
  • the above is the high-precision diagnostic processing.
  • high-precision diagnostic processing utilizes multi-item simultaneous measurement data related to multi-item simultaneous gene-related tests to classify known genetic mutations and unknown genetic mutations with high accuracy. It is possible to provide a highly accurate diagnosis system that visually shows the basis for judgment after analyzing and visualizing it.
  • the high-precision diagnostic system 1 is useful not only for the above-mentioned novel coronavirus mutant virus but also as a diagnostic test for other diseases by detecting genetic mutations in cancer cells and detecting specific proteins, for example.
  • the molecular targeting drug gefitinib is likely to be dramatically effective.
  • Genomic medicine is being used to diagnose and treat cancer cells using genetic mutations and molecular-targeted drugs.
  • the results of a test for determining the presence or absence of genetic mutations in cancer cells can be considered in the same way as the output of a panel pattern in the present invention. Therefore, by analyzing information on the presence or absence of genetic mutations in cancer cells using the same algorithm as the present invention, it becomes possible to select effective molecular target drugs, and construct and utilize an AI system that proposes optimal treatment methods. Furthermore, if the pattern is determined to be different from known patterns, it is possible to predict that the case will not respond to molecular target drugs.

Landscapes

  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)

Abstract

【課題】 多項目同時測定データを活用し、既知の変異と、未知の変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供する。 【解決手段】高精度判定システム1は、未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、 生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成する判定部と、前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、格納した当該各種データを少なくとも提供する提供部と、を備える。

Description

多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム
 本発明は、多項目同時測定データを活用し、既知の変異と、未知の変異と、を検出し可視化する高精度診断方法及びプログラムに関する。
 例えば、塩基配列の変異、つまり遺伝子変異、を検出するには、全ゲノムシーケンス(Whole Genome Sequencing:WGS)を用いてゲノムを解析する方法が最も包括的な手法である。しかしながら、WGSは高度な解析機器、技術、高価な試薬を必要とするため、簡便で迅速に遺伝子の変異を定量的に検出し、診断する技術が求められている。
 簡便で迅速に変異箇所を定量的に検出する技術の一つとして、例えば、DNAマイクロアレイを用いた多項目同時遺伝子関連検査が挙げられる。多項目同時遺伝子関連検査により、既知の遺伝子変異の有無が変異箇所ごとに多項目同時測定データとして検出することが可能である。
 従来、前述した多項目同時測定データから変異箇所の有無が検出され、既知の典型的な変異パターンと合致するか否かで、既知の変異か未知の変異かが診断されている。
 例えば、特許文献1では、リード配列(シーケンシング対象塩基配列の配列情報)の各々を参照配列と比較して1つ1つのリード配列から塩基の変異を検出し、その結果を解析することで、変異のパターン及びその頻度を算出する解析方法が開示されている。
 また、特許文献2では、遺伝子変異の傾向を調べるために、配列のより広い領域の変異を検出し、それらの変異パターンを解析して、広い配列領域内での遺伝子変異の傾向を解析することを優先するという考え方が開示されている。
 さらに、非特許文献1では、ウイルスの遺伝子から進化距離をp距離で求め、多次元尺度構成法を用いてユークリッド空間に布置する方法が開示されている。
特開2018-130114 特開2021-126125
特集学生の研究活動報告―国内学会大会・国際会議参加記22,[online],[令和4年5月20日検索],インターネット,<https://www.rikou.ryukoku.ac.jp/journal/journal69/RJ69S-19.pdf>
 しかしながら、特許文献1、特許文献2、非特許文献1、に記載の技術では、既知の遺伝子変異を判別と、未知の遺伝子変異を検出と、遺伝子変異の差異の進化距離を可視化することは可能であるが、
 既知の変異と、未知の変異とを分類して可視化した上で、未知の変異が既知のどの変異に近いかを高精度で示し、未知の変異であるという解析結果の判断根拠を視覚的に示すことはできない。
 本発明は、多項目同時測定データを活用し、既知の変異と、未知の変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供する。
 本発明では、以下のような解決手段を提供する。
 第1の特徴に係る発明は、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定システムであって、
 未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、
 取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、
 生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成する判定部と、
前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、
 格納した当該各種データを少なくとも提供する提供部と、を備えることを特徴とする高精度判定システムを提供する。
 第1の特徴に係る発明によれば、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化するために、未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得し、取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成し、生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成し、未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納し、格納した当該各種データを少なくとも提供する。
 第1の特徴に係る発明は、高精度診断システムのカテゴリであるが、高精度診断方法、及びプログラムであっても同様の作用、効果を奏する。
 第2の特徴に係る発明は、第1の特徴に係る発明である高精度診断システムであって、
 前記多項目同時測定データおよび前記既存データは塩基配列に係るデータであって、前記多項目同時測定データを活用し、既知の遺伝子変異と、未知の遺伝子変異と、を検出し可視化する高精度診断システムであって、
 前記多項目同時測定データと、既知の塩基配列データと、を少なくとも取得する取得部と、
 取得した前記多項目同時測定データと、前記塩基配列データと、からk近傍法を用いて分類し、局所外れ値因子法を用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータを生成する学習モデルを作成する学習モデル作成部と、
 前記学習モデルに基づいて、生成された前記多項目変異部位パターンデータと、前記学習モデルの学習データと、から多次元尺度構成法を用いて2次元散布図を診断データとして生成する診断部と、
 前記多項目同時測定データと、前記既存データと、前記多項目変異部位パターンデータと、前記診断データと、を少なくとも格納する格納部と、
 格納した当該各種データを少なくとも提供する提供部と、
 を備える高精度診断システムを提供する。
 第2の特徴に係る発明によれば、第1の特徴に係る発明であって、前記分類部は、k近傍法(k-Nearest Neighbor,kNN)を用いて取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定存データと、の近似性を解析して定量化し、局所外れ値因子法(Local Outlier Factor,LOF)を用いて前記既知の試料と前記傾向が異なる未知の試料を分類し、前記判定部は、多次元尺度構成法(MDS:Multi-Dimensional Scaling)を用いて、前記分類データから2次元散布図を判定データとして生成する。
 第3の特徴に係る発明は、第1の特徴または第2の特徴に係る発明であって、前記多項目同時測定データは、前記未知の試料および前記既知の試料から得た核酸配列に係るデータである。
 第4の特徴に係る発明は、第1の特徴または第2の特徴に係る発明である高精度診断システムであって、既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を判定する高精度診断システムを提供する。
 第4の特徴に係る発明によれば、第1の特徴または第2の特徴に係る発明である高精度診断システムにおいて、既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を診断する。
 第5の特徴に係る発明は、第3の特徴に係る発明である高精度診断システムであって、前記未知の試料および前記既知の試料は、がん細胞である高精度診断システムを提供する。
 第6の特徴に係る発明は、前記多項目同時測定データは、特定タンパク質の存在量を測定したデータであって、病態を判定する高精度診断システムを提供する。
 第7の特徴に係る発明は、第1の特徴に係る発明であって、定量化した一つ乃至複数の項目を、一つ乃至複数のパターンとして認識して分類精度を向上する学習モデルを作成する学習モデル作成部と、
 前記学習モデルに基づいて、前記分類データからパターンデータを生成するパターンデータ生成部と、を更に備え、
 前記格納部は、前記パターンデータおよび前記学習モデルを少なくとも格納し、前記提供部は、前記パターンデータを少なくとも提供する。
 本発明によれば、多項目同時測定データから、既知の変異と、未知の変異と、を高精度に検出し、検出した結果を解析して可視化した上で判断根拠を視覚的に示すことが可能な高精度診断システムを提供することが可能となる。
図1は、高精度診断システム1の概要図である。 図2は、高精度診断システム1の構成図である。 図3は、高精度診断システム1のコンピュータ2が実行する高精度診断処理の手順を示すフローチャート図である。 図4は、ユーザ端末3が表示するコンピュータ2が作成した多項目変異部位パターンデータの表示画面の一例である。 図5は、ユーザ端末3が表示するコンピュータ2が作成した診断データの表示画面の一例である。
 以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これらは一例であって、本発明の技術的範囲は、これに限られるものではない。
 [高精度診断システム1の概要]
 図1は、高精度診断システム1の概要を説明するための図である。
 図1に示すように、高精度診断システム1は、例えば、遺伝子変異の診断に利用するためのコンピュータシステムであり、コンピュータ2と、ユーザ端末3と、を少なくとも含むシステムである。コンピュータ2とユーザ端末3とは、ネットワーク4を介して通信可能である。
 高精度診断システム1のコンピュータ2は、高精度診断システム1を制御するためのコンピュータであって、例えば、物理的に1台または複数のコンピュータで実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
 高精度診断システム1のユーザ端末3は、コンピュータ2に多項目同時測定データ101と、塩基配列データ102と、多項目変異部位パターンデータ103と、診断データ104と、を送受信するための端末であって、パソコンやノートパソコン、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等であってもよい。
まず、コンピュータ2の取得部201は、ユーザ端末3から、多項目同時測定データ101と、塩基配列データ102と、を少なくとも取得する(ステップS01)。本発明において、多項目同時測定データ101とは、例えば、マイクロアレイなどの多項目同時遺伝子関連検査により得られたデータであるものとする。ここで、多項目同時測定データ101は、遺伝子の変異箇所ごとに閾値が設定され、変異の有り無しという0か1かというデータに置換されたものであってよいし、変異箇所の変異型によって定量的に置換されたものであってもよい。また、塩基配列データ102とは、例えば、WGSを用いてゲノム解析された、遺伝子が変異した変異体に対して本来的にその生物あるいは微生物が備える遺伝子型を有する野生株(Wild Type Strain:WT)の塩基配列データと、既知の変異遺伝子を有する変異株(Mutant:MUT)の塩基配列データと、を少なくとも含む塩基配列データであるものとする。ここで、塩基配列データ102は、多項目同時測定データ101に準じて遺伝子の変異箇所ごとに定量性の有るデータに置換されたものであってよい。なお、該データの取得タイミングについては限定されず、当該データのデータ形式も限定されない。
次に、コンピュータ2の学習モデル作成部202は、取得した少なくとも、多項目同時測定データ101と、塩基配列データ102と、からkNNを用いて分類し、LOFを用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータ103を生成する学習モデル10を作成する(ステップS02)。ここで、多項目変異部位パターンデータ103とは、例えば、変異箇所をパネルとして変異箇所の変異型によって定量的に置換されたバーコードパターンであってよい。また、当該データが既知の遺伝子変異であった場合、塩基配列データ102を参照して既知の変異型の名称を紐づけて多項目変異部位パターンデータ103が作成されてもよい。また、当該データが未知の遺伝子変異であった場合、例えば、Atypicalなどの予め定義づけられた名称を紐づけて作成されてもよい。
次に、コンピュータ2の診断部203は、学習モデル10に基づいて生成された多項目変異部位パターンデータ103と、学習モデル10の学習データと、からMDSを用いて作成した2次元散布図を診断データ104として生成する(ステップS03)。ここで、診断データ104とは、例えば、学習モデル10が生成した多項目変異部位パターンデータ103が未知の変異を示した場合、学習モデル10の判断根拠を既知の変異との相違を距離として2次元散布図で可視化したデータである。
 次に、コンピュータ2の格納部204は、取得した多項目同時測定データ101と、塩基配列データ102と、生成した多項目変異部位パターンデータ103と、診断データ104と、を少なくともコンピュータ2に格納する(ステップ04)。
 最後に、コンピュータ2の提供部205は、格納部204が格納した当該データを少なくともユーザ端末3を介して提供する(ステップ05)。
以上が高精度診断システム1の概要である。
 [高精度診断システム1の構成]
 図2は、高精度診断システム1の構成を説明するための図である。
 図2に示すように、高精度診断システム1のコンピュータ2は、制御部(非図示)として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備え、通信部(非図示)として、他の端末や装置等と通信可能にするためのデバイス、例えば、IEEE802.11に準拠したWi―Fi(Wireless―Fidelity)対応デバイス等を備える。
また、コンピュータ2は、記憶部(非図示)として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。ストレージ部はネットワーク通信可能な外部に存在してもよい。
 コンピュータ2において、制御部が所定のプログラムを読み込むことにより、通信部、記憶部と協働して、取得部201、学習モデル作成部202、診断部203、格納部204、提供部205を実現する。
 ユーザ端末3は、コンピュータ、スマートフォン、タブレット端末等の電子デバイスであり、上述したコンピュータ2と、ネットワーク4を介してデータ通信可能に接続されている。ユーザ端末3は1台である必要はなく、複数台あってもよい。
 ユーザ端末3は、端末制御部(非図示)として、上述したコンピュータ2における制御部と同様に、CPU、GPU、RAM、ROM等を備える。ユーザ端末3は、通信部(非図示)として、他の端末や装置等と通信可能にするためのデバイスを備える。また、ユーザ端末3は、入出力部(非図示)として、データを入出力する入出力デバイス等を備える。また、ユーザ端末3は、記憶部(非図示)として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージ部を備える。
以上が高精度診断システム1の構成である。
 [遺伝子変異高精度診断処理]
図3は、高精度診断システム1のコンピュータ2が実行する遺伝子変異高精度診断処理の手順を示すフローチャート図である。図3に基づいて、コンピュータ2が実行する遺伝子変異高精度診断処理について説明する。
 まず、コンピュータ2の取得部201は、多項目同時測定データ101と、塩基配列データ102と、を少なくとも取得する(ステップS301)。該データはコンピュータ2にすでに保存されているものでもよいし、ユーザ端末3と、公衆回線網等のネットワーク4を介して、データ通信可能に接続し、取得したものでもよい。
次に、コンピュータ2の学習モデル作成部202は、取得した少なくとも、多項目同時測定データ101と、塩基配列データ102と、からkNNを用いて既知の遺伝子変異を分類し、LOFを用いて既知の遺伝子変異と傾向が異なる未知の遺伝子変異を検出し、多項目変異部位パターンデータ103を生成する学習モデル10を作成する(ステップS302)。
 次に、コンピュータ2の学習モデル10は、多項目同時測定データ101から既知の遺伝子変異を分類し、未知の遺伝子変異を検出して多項目変異部位パターンデータ103を生成する(ステップS303)。
 ここで、kNNを用いた既知の遺伝子変異の分類方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
多項目同時測定データ101は、新型コロナ変異ウイルスの多項目同時遺伝子関連検査により得られたデータであり、遺伝子の変異箇所ごとに閾値が設定され、変異箇所の変異型によって定量性のあるデータ、例えば、変異箇所をパネルとして示し、パネルの色の濃淡によって出力値がことなり、多項目で検出されたパネルをバーコードパターンとして置換されたものとする。
また、塩基配列データ102は、新型コロナ変異ウイルスのWTから得られた塩基配列データ、あるいは既知の変異遺伝子を有する変異型の塩基配列データ、を少なくとも含む塩基配列データであり、多項目同時測定データ101に準じて遺伝子の変異箇所ごとに定量性の有るデータに置換されたものとする。
既知の遺伝子変異の分類は、まず、n番目の変異部位の出力値(連続値)をαnで表す。この際、ある変異型の出力はベクトルα=(α,α,…,α)としてn次元空間のベクトルで表現できる。ウイルス量でベクトルの要素の大きさが変わるため、ベクトルαをベクトルの大きさで割る正規化を行う。これによって、n次元の単位円周上に各症例が配置され、原点からどちらの方向を向いているかで各症例が分類される。もし、同じパネルのバーコードパターンで色の濃さ(出力値の大きさ)が異なっていたとしても、パネルのバーコードパターンが同じであれば、同じ方向を向くために同じ変異型として分類される。
学習モデル作成部202が行う学習では、上述した塩基配列データ102を学習のための教師データとして当該処理を行い、n次元空間上に学習データを配置し、既知の変異型の名称を紐づけ、学習モデル10を作成する。
新規に取得した多項目同時測定データ101を、テストデータ(ベクトルβ=(β,β,…,β))として分類する場合は、i番目の学習データ(ベクトルα)とテストデータ(ベクトルβ)のユークリッド距離を計算し、最も近い距離の学習データを求めて、学習データの変異型の名称を紐づけて、多項目変異部位パターンデータ103を生成する(ステップS303a)。
次に、LOFを用いた未知の遺伝子変異の検出方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
まず、xからx’への到達可能距離は、下記の数式1で定義される。ここで、x(k)は、学習データ{xn i=1のうち、xにk番目に近い症例を表す。このとき、xの局所到達可能密度は下記の数式2と定義される。この局所到達可能密度を用いて、xのLOFは、下記の数式3で定義される。
LOFk(x)は、x(i)の局所到達可能密度の平均とxの局所到達可能密度の比である。もし、学習データx(i)の周辺は密度が高いが、テストデータxの周辺の密度が低いとき、LOFの値は大きな値となる。この場合、学習データにない未知のパターンであると判断し、未知の遺伝子変異として検出し、多項目変異部位パターンデータ103を生成する(ステップS303b)。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-M000002
Figure JPOXMLDOC01-appb-M000003
図4は、新型コロナ変異ウイルスを対象とした場合の、ユーザ端末3が表示するコンピュータ2が生成した多項目変異部位パターンデータ103の表示画面の一例である。図4に示すようにコンピュータ2が生成した多項目変異部位パターンデータ103は、Delta型などの既知の新型コロナ変異ウイルスの分類と、未知の新型コロナ変異ウイルスの検出と、を行い、変異部位パターン、例えば、2次元データの個々の値を色や濃淡として表現した可視化グラフの一種であるheatmap、として表示される。
 このように、既知の遺伝子変異を分類すること、未知の遺伝子変異を検出すること、が可能となるが、学習モデル10がなぜそのように判断したかの根拠の提示が難しく、学習モデル10の提示した結果を信頼して活用することが難しい。
そこで、コンピュータ2の診断部203は、多項目変異部位パターンデータ103と、学習モデル10の学習データと、からMDSを用いてデータ分布を可視化した2次元散布図を診断データ104として生成する(ステップS304)。
ここで、MDSを用いたデータ分布の可視化方法を、新型コロナ変異ウイルスを例として更に詳しく説明する。
多項目同時測定データ101の出力値はn次元データになるため、各症例はn次元空間上のひとつの点と分布する。このとき、n次元データを2次元データ(または3次元データ)に次元縮約することができれば、散布図で表示することができるため、テストデータがどの既知の変異に近いのか、未知の変異であるのかを直感的に判断できようになり、学習モデル10の提示した結果の判断根拠とすることが可能となる。そこで、MDSを用いて次元集約を行う。MDSは次の手順で新しい軸を構成する。
まず、入力iと入力jのユークリッド距離からなる距離行列dijを求め、原点がn個の入力データの重心になるように移動する変換行列Zijを求める(数式4)。
Figure JPOXMLDOC01-appb-M000004
次に、行列Zijの固有ベクトルで与えられる軸上の座標値として新しい座標点を決定する。MDSは、データ間のユークリッド距離を保持した形の線形変換であるから、n次元空間上での各症例の相対的な位置関係を2次元空間上で再現したものと解釈できる。
学習データを用いてn次元データを2次元データに次元縮約する変換式を求め、それをテストデータに適用することで、テストデータの2次元空間上の位置を求める。多項目同時測定データ101の出力値は、例えば(1,0)や(0,1)として、バーコードのパターンとして表現されるため、各症例はn次元空間上で線形独立な関係にある軸に沿って分布する。
MDSは、各症例のユークリッド距離を保持した形で、正規直交関係にある固有ベクトルによって新しい2軸を求める手法であるため、多項目同時測定データ101のバーコードパターンの数学的性質を考慮した次元縮約法であることが発明のポイントである。
また、次元縮約の手法として頻繁に用いられるt分布型確率的近傍埋め込み法(T-distributed Stochastic Neighbor Embedding,:t-SNE)では、新しいテストデータが入力される度に軸が新たに形成されるため、学習とテストを別々に行うことができない。したがって、固定した既知の変異の2次元分布上にテストデータの分布を加えることができるMDSの方が、t-SNEよりも優位であると考えられる。
図5は、新型コロナ変異ウイルスを対象とした場合の、ユーザ端末3が表示するコンピュータ2が生成した診断データ104の表示画面の一例である。
。図5に示すようにコンピュータ2が生成した診断データ104は、Delta型などの既知の新型コロナ変異ウイルスの分類と、未知の新型コロナ変異ウイルスの検出と、を行った多項目変異部位パターンデータ103から、2次元散布図を診断データとして生成し、学習モデル基づいて生成された多項目変異部位パターンデータ103の妥当性を視覚的に示すことが可能である。
 以上が、高精度診断処理である。
 このように高精度診断処理によれば、多項目同時遺伝子関連検査に係る多項目同時測定データを活用し、既知の遺伝子変異と、未知の遺伝子変異と、を高精度に分類し、分類した結果を解析して可視化した上で判断根拠を視覚的に示す高精度診断システムを提供することができる。
高精度診断システム1は、上述した新型コロナ変異ウイルスだけでなく、例えば、がん細胞の遺伝子変異の検出や、特定タンパク質の検出による他の疾患の診断検査としても有用性がある。
[がん細胞の遺伝子変異の検出による診断]
癌に関する至適治療法を提案するAIシステムとして利用可能である。近年,がんの増殖に関係する遺伝子異常が次々に明らかになっており、現在は、がん細胞の遺伝子変異の検査を経て,条件が合えば、大きな効果が期待できる分子標的薬を用いる治療が行われている。例えば,肺腺がんに関する遺伝子異常として、EGFR遺伝子変異、ALK融合遺伝子、HER2遺伝子変異、MET遺伝子変異、ROS1融合遺伝子、BRAF遺伝子変異、RET融合遺伝子、RAS遺伝子変異などが知られている。もし、EGFR遺伝子のみに変異があれば、分子標的薬ゲフィチニブが劇的に効く可能性が高い。など、がん細胞の遺伝子変異と分子標的薬がセットなった診断と治療を施すゲノム医療が行われている。
がん細胞の遺伝子変異の有無を調べる検査の結果は、本発明におけるパネルパターンの出力と同様に考えることができる。そのためがん細胞の遺伝子変異の有無の情報を本発明と同じアルゴリズムで分析することによって,有効な分子標的薬の選択が可能となり、至適治療法を提案するAIシステムを構築して利用することが可能になる、また、既知のパターンと異なると判別されれば分子標的薬が奏効しない症例であると予測することも可能である。
[特定タンパク質の検出]
それぞれ異なるタンパク質に特異的に反応するものを結合した100種類のカラーコードビーズを使用した「Bio-PlexTMサスペンションアレイシステム」などのデータは、新型コロナ多項目同時測定変異データと同様に最大100種類の異なった生体成分(タンパクや核酸)多項目情報が取得される。炎症性サイトカインのパネルを使用して得られる、炎症性サイトカインに関する多項目データを活用して、炎症病態を診断することに、本発明手法の有用性が期待される。
 以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない
1   高精度診断システム
2   コンピュータ
3   ユーザ端末
4   ネットワーク

 

Claims (9)

  1.  多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定システムであって、
     未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得する取得部と、
     取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成する分類部と、
     生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成する判定部と、
    前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納する格納部と、
     格納した当該各種データを少なくとも提供する提供部と、を備えることを特徴とする高精度判定システム。
  2.  前記分類部は、k近傍法(k-Nearest Neighbor,kNN)を用いて取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定存データと、の近似性を解析して定量化し、局所外れ値因子法(Local Outlier Factor,LOF)を用いて前記既知の試料と前記傾向が異なる未知の試料を分類し、前記判定部は、多次元尺度構成法(MDS:Multi-Dimensional Scaling)を用いて、前記分類データから2次元散布図を判定データとして生成する
    請求項1に記載の高精度判定システム。
  3.  前記多項目同時測定データは、前記未知の試料および前記既知の試料から得た核酸配列に係るデータである請求項1または請求項2に記載の高精度判定システム。
  4.  既知の新型コロナ変異ウイルスと、未知の新型コロナ変異ウイルスと、を判定する請求項1または請求項2に記載の高精度判定システム。
  5.  前記未知の試料および前記既知の試料は、がん細胞である請求項3に記載の高精度判定システム。
  6.  前記多項目同時測定データは、特定タンパク質の存在量を測定したデータであって、病態を判定する請求項1または請求項2に記載の高精度判定システム。
  7.  定量化した一つ乃至複数の項目を、一つ乃至複数のパターンとして認識して分類精度を向上する学習モデルを作成する学習モデル作成部と、
     前記学習モデルに基づいて、前記分類データからパターンデータを生成するパターンデータ生成部と、を更に備え、
     前記格納部は、前記パターンデータおよび前記学習モデルを少なくとも格納し、前記提供部は、前記パターンデータを少なくとも提供する、請求項1に記載の高精度判定システム。
  8.  コンピュータが実行し、多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化する高精度判定方法であって、
     未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得するステップと、
     取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成するステップと、
     生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成するステップと、
    前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納するステップと、
     格納した当該各種データを少なくとも提供するステップと、を備えることを特徴とする高精度判定方法。
  9.  多項目同時測定データを活用し、既知の試料と、未知の試料と、を検出し可視化するコンピュータに、
     未知の試料の多項目同時測定データと、既知の試料の多項目同時測定データと、を少なくとも取得するステップ、
     取得した前記未知の試料の多項目同時測定データと、前記既知の試料の多項目同時測定データと、の近似性を解析して定量化し、既知の試料と傾向が異なる未知の試料を分類し、分類データを生成するステップ、
     生成された前記分類データを次元圧縮して2次元散布図を判定データとして生成するステップ、
    前記未知の多項目同時測定データと、前記既知の多項目同時測定データと、前記分類データと、前記判定データと、を少なくとも格納するステップ、
     格納した当該各種データを少なくとも提供するステップ、を実行させるためのプログラム。
     
PCT/JP2023/025234 2022-07-08 2023-07-07 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム WO2024010081A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022110810 2022-07-08
JP2022-110810 2022-07-08

Publications (1)

Publication Number Publication Date
WO2024010081A1 true WO2024010081A1 (ja) 2024-01-11

Family

ID=89453627

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/025234 WO2024010081A1 (ja) 2022-07-08 2023-07-07 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム

Country Status (1)

Country Link
WO (1) WO2024010081A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147202A (ja) * 2017-03-06 2018-09-20 公立大学法人秋田県立大学 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置
US20180336316A1 (en) * 2017-05-16 2018-11-22 Life Technologies Corporation Methods for compression of molecular tagged nucleic acid sequence data
JP2021179867A (ja) * 2020-05-15 2021-11-18 株式会社D’isum ゲノム分析装置及び方法
JP2022527316A (ja) * 2019-04-02 2022-06-01 グレイル, インコーポレイテッド ウィルスに関連した癌のリスクの層別化

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018147202A (ja) * 2017-03-06 2018-09-20 公立大学法人秋田県立大学 生物配列分析方法、進化予測方法、生物配列分析プログラム、及び生物配列分析装置
US20180336316A1 (en) * 2017-05-16 2018-11-22 Life Technologies Corporation Methods for compression of molecular tagged nucleic acid sequence data
JP2022527316A (ja) * 2019-04-02 2022-06-01 グレイル, インコーポレイテッド ウィルスに関連した癌のリスクの層別化
JP2021179867A (ja) * 2020-05-15 2021-11-18 株式会社D’isum ゲノム分析装置及び方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
MATSUMURA REO, NAKAYA TOMOKI: "Detection of Spatial Clusters of Virus Clade Composition of the 2019 Novel Coronavirus Using Spatial Scan Statistics for Multinomial Data: Epidemic Trends and Genetic Variations at a Global Scale", PROCEEDINGS OF THE GEOGRAPHICAL INFORMATION SYSTEMS SOCIETY OF JAPAN, 1 January 2020 (2020-01-01), pages 1 - 6, XP093125809, Retrieved from the Internet <URL:https://www.gisa-japan.org/content/files/conferences/proceedings/2020cd/papers/P-09.pdf> [retrieved on 20240131] *

Similar Documents

Publication Publication Date Title
Levine et al. Data-driven phenotypic dissection of AML reveals progenitor-like cells that correlate with prognosis
Asyali et al. Gene expression profile classification: a review
de Ridder et al. Pattern recognition in bioinformatics
Shannon et al. Analyzing microarray data using cluster analysis
US6868342B2 (en) Method and display for multivariate classification
Gong et al. Quantitative characterization of CD8+ T cell clustering and spatial heterogeneity in solid tumors
Dhawan et al. Guidelines for using sigQC for systematic evaluation of gene signatures
JP2005531853A (ja) Snp遺伝子型クラスタリングのためのシステムおよび方法
US20210073352A9 (en) System and method for drug target and biomarker discovery and diagnosis using a multidimensional multiscale module map
JP2003500663A (ja) 実験データの正規化のための方法
JP4138486B2 (ja) データに含まれる複数の特徴の分類方法
Cuperlovic-Culf et al. Determination of tumour marker genes from gene expression data
WO2024010081A1 (ja) 多項目同時測定データを活用した高精度診断システム、高精度診断方法及びプログラム
Zhan et al. Conformational analysis of chromosome structures reveals vital role of chromosome morphology in gene function
Zhang Ancestral informative marker selection and population structure visualization using sparse Laplacian eigenfunctions
CN115881218A (zh) 用于全基因组关联分析的基因自动选择方法
Cook et al. Exploring gene expression data, using plots
EP2335175B1 (en) Method of determining a reliability indicator for signatures obtained from clinical data and use of the reliability indicator for favoring one signature over the other
Islam et al. Mining gene expression profile with missing values: An integration of kernel PCA and robust singular values decomposition
Seno et al. A method for clustering gene expression data based on graph structure
JP4302466B2 (ja) 発現プロファイル解析システム、発現プロファイル解析方法、発現プロファイル解析プログラム、およびそのプログラムを記録した記録媒体
Ahmad et al. On the statistical analysis of the GS-NS0 cell proteome: imputation, clustering and variability testing
CN109920474A (zh) 绝对定量方法、装置、计算机设备和存储介质
Kozak et al. Multiparametric analysis of high content screening data
Eichler Bioinformatics/biostatistics: microarray analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23835612

Country of ref document: EP

Kind code of ref document: A1