WO2023136296A1 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
WO2023136296A1
WO2023136296A1 PCT/JP2023/000620 JP2023000620W WO2023136296A1 WO 2023136296 A1 WO2023136296 A1 WO 2023136296A1 JP 2023000620 W JP2023000620 W JP 2023000620W WO 2023136296 A1 WO2023136296 A1 WO 2023136296A1
Authority
WO
WIPO (PCT)
Prior art keywords
mutation
filter
sequence
rank
classification
Prior art date
Application number
PCT/JP2023/000620
Other languages
English (en)
French (fr)
Inventor
和明 横山
Original Assignee
国立大学法人東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東京大学 filed Critical 国立大学法人東京大学
Publication of WO2023136296A1 publication Critical patent/WO2023136296A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Definitions

  • the present invention relates to an information processing device, an information processing method, and a program.
  • Non-Patent Document 1 It has long been widely known that mutations in the base sequences contained in the genetic information of somatic cells can cause diseases. In recent years, information about what diseases various somatic cell mutations are associated with has been collected, recorded in a database, and widely used (see Non-Patent Document 1).
  • the present invention has been made in view of this situation, and aims to improve the efficiency and convenience of analyzing the degree of possibility of a mutation affecting the onset and progression of a disease.
  • an information processing device includes: An information processing device that selects a target sequence mutation that has a harmful risk in a subject, Based on the first classification criteria, each of a plurality of sequence mutations identified by sequencing the nucleic acid contained in the subject is classified into the highest category that is most likely to be selected as the target sequence mutation, and the a first filtering means for classifying into one of each of one or more low categories with a lower possibility; classification criterion setting means for setting, as a second classification criterion, a classification criterion that is different from the first classification criterion for classifying into the high category and is registered in a database or a list; a second filtering means for reclassifying, among the sequence variants classified into the low category by the first filtering means, sequence variants satisfying the second classification criteria into the high category; Prepare.
  • the information processing method and program of one aspect of the present invention are the method and program corresponding to the information processing apparatus of one aspect of the present invention.
  • FIG. 2 is a block diagram showing an example of the functional configuration of the analyzer of FIG. 1;
  • FIG. FIG. 3 shows a configuration example of mutated base sequence information accepted by the analyzer of FIG. 2.
  • FIG. 3 shows a configuration example of analysis result information output from the analysis apparatus of FIG. 2.
  • FIG. FIG. 3 is a block diagram showing an example of a detailed functional configuration of a common filter unit in the analysis device of FIG. 2;
  • FIG. 3 is a block diagram showing an example of a detailed functional configuration of a seed gene filter section in the analyzer of FIG.
  • FIG. 2 It is a schematic diagram explaining the significance of adopting a seed gene filter part among the analyzers of FIG. 3 is a diagram showing an example of a screen for inputting parameters to a seed gene filter unit and a rescue filter in the analyzer of FIG. 2;
  • FIG. 7 is a flowchart for explaining an example of the flow of analysis processing in the analysis device having the functional configuration of FIG. 6;
  • FIG. 10 is a flowchart illustrating the details of the flow of common filter processing in the analysis processing of FIG. 9;
  • FIG. FIG. 10 is a flowchart for explaining the details of the flow of seed gene filter processing in the analysis processing of FIG. 9;
  • FIG. FIG. 10 is a flowchart for explaining the details of the flow of rescue filter processing in the analysis processing of FIG. 9;
  • FIG. 6 is a block diagram showing an example different from FIG. 5 in the detailed functional configuration of a common filter unit in the analysis device of FIG. 2;
  • FIG. 14 is a flowchart for explaining the details of the flow of common filter processing by a common filter unit having the functional configuration of FIG. 13;
  • FIG. 13 is a diagram illustrating an example of inference using an AI model generated or updated by machine learning in the rescue filtering process of FIG. 12;
  • FIG. FIG. 13 is a diagram illustrating an example of updating an AI model when using an AI model generated or updated by machine learning in the rescue filtering process of FIG. 12;
  • FIG. 1 is a block diagram showing an example of the hardware configuration of an analysis device according to an embodiment of an information processing device of the invention.
  • the analyzer 1 identifies an individual subject to analysis and sample identification information for identifying a sample obtained from the individual, as well as a base sequence mutation site and the content of the mutation extracted from the genetic information of the sample by sequence alignment.
  • Accepts mutated base sequence information that represents mutation status (sequence mutation), including A mutational state (sequence mutation) may be a single nucleotide mutation or a structural mutation such as a chromosomal translocation that spans multiple genes.
  • the mutation site and the contents of the mutation are the position of the mutation (information indicating what base it is from one side of the chromosome when compared with the reference genome information, etc.) It contains information indicating which base the power base is mutated to.
  • GRCh38 (hg38) and GRCh37 (hg19) are used as reference genome information necessary for NGS analysis.
  • the analyzer 1 determines whether or not a plurality of predetermined classification conditions are satisfied for each mutation state (sequence mutation) represented by the received mutation base sequence information. mutation) is classified into a provisional rank. Then, based on the provisional ranks classified for each mutation state (sequence mutation), the analyzer 1 classifies the degree of pathological possibility for each mutation state (sequence mutation) into a classification different from the above-described classification conditions. Depending on whether or not the conditions are satisfied, the set provisional rank is changed to reclassify. The operation of this analyzer 1 will be described later in detail.
  • the analysis device 1 includes a CPU (Central Processing Unit) 11, a ROM (Read Only Memory) 12, a RAM (Random Access Memory) 13, a bus 14, an input/output interface 15, an input section 16, and an output section 17. , a storage unit 18 , a communication unit 19 , and a drive 20 .
  • a CPU Central Processing Unit
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the CPU 11 executes various processes according to programs recorded in the ROM 12 or programs loaded from the storage unit 18 to the RAM 13 .
  • the RAM 13 also stores data necessary for the CPU 11 to execute various processes.
  • the CPU 11, ROM 12 and RAM 13 are interconnected via a bus 14.
  • An input/output interface 15 is also connected to this bus 14 .
  • An input unit 16 , an output unit 17 , a storage unit 18 , a communication unit 19 and a drive 20 are connected to the input/output interface 15 .
  • the input unit 16 is composed of, for example, a keyboard or the like, and inputs various information.
  • the output unit 17 includes a display such as a liquid crystal display, a speaker, and the like, and outputs various information as images and sounds.
  • the storage unit 18 is composed of a DRAM (Dynamic Random Access Memory) or the like, and stores various data.
  • the communication unit 19 communicates with another device (for example, an information processing device of a terminal (not shown) for browsing analysis results) via a network N including the Internet.
  • a removable medium 31 such as a magnetic disk, an optical disk, a magneto-optical disk, or a semiconductor memory is mounted in the drive 20 as appropriate.
  • a program read from the removable medium 31 by the drive 20 is installed in the storage unit 18 as necessary.
  • the removable medium 31 can also store various data stored in the storage unit 18 in the same manner as the storage unit 18 .
  • FIG. 2 is a block diagram showing an example of the functional configuration of the analyzer of FIG. 1;
  • a data receiving unit 51 As shown in FIG. 2, in the analysis device 1, a data receiving unit 51, a setting receiving unit 52, a common filter unit 53, a seed gene filter unit 54, a rescue filter unit 55, a rank determination unit 56, The analysis result output unit 57 functions.
  • the data receiving unit 51 receives mutated base sequence information representing the state of base sequence mutation (sequence mutation) extracted from the genetic information of the sample to be analyzed by sequence alignment.
  • FIG. 3 shows a configuration example of mutated base sequence information accepted by the analyzer of FIG.
  • the mutated base sequence information includes, for each mutation state (sequence mutation) (each line in the figure), the number (Chr) of the chromosome where the base sequence of the mutation state (sequence mutation) was found, and , the start position (Start), the end position (End), the original base sequence (Ref), the extracted mutated base sequence (hereinafter referred to as "sequence mutation") (Alt), and the sequence It is information relating at least the rate of mutation (allele frequency: AF).
  • the mutated base sequence information of this example for each mutation state (sequence mutation) (each line in the figure), the depth and the count number (AltCount ), etc., are associated with indicators related to quality.
  • the length of the base sequence may be "1" (in this case, the base sequence information is information representing any one of A, T, C, and G bases).
  • This mutated base sequence information may also include information on individual cases (information on disease name, treatment history, tumor ratio, etc.).
  • the data receiving unit 51 receives the mutant base sequence information (time-series information) extracted from the same individual at different timings (there may be more than one) from the timing at which the mutant base sequence information to be analyzed is extracted. may be accepted. In this case, the data receiving unit 51 receives an input specifying the mutation base sequence information at the time of analysis.
  • the setting acceptance unit 52 accepts analysis settings.
  • This setting includes, for example, the setting of which filter to use in the common filter unit 53 and the setting of parameters. It should be noted that the settings in the seed gene filter section 54 and the rescue filter section 55 are performed in the seed gene filter section 54 and the rescue filter section 55 respectively in this example in order to facilitate understanding of the present embodiment. However, it may be performed in this setting receiving unit 52 .
  • a specific example of setting of the common filter section 53 will be described together with the configuration of the common filter section 53 below.
  • the operation of the common filter unit 53 primarily evaluates the possibility of being pathological (for example, the possibility of being a driver mutation) based on various information that affects the interpretation of the analysis result of the mutation. done.
  • This evaluation result is represented by one of four ranks MYC1 to MYC4, which will be described later.
  • the reason why it is described as “primarily” is that in this example, in addition to the evaluation of the common filter unit 53, the seed gene filter unit 54 and the rescue filter unit 55 perform re-evaluation (review of rank).
  • the information affecting the interpretation includes (1) incidental information of the mutation obtained during analysis, and (2) information related to the mutation listed in literature and databases.
  • incidental information of the mutation obtained at the time of analysis includes (a) information on detection accuracy and reliability (probability that the mutation is not an error in detection), (b) mutation allele frequency ( (c) Time-series information, ie, whether or not the mutation is repeatedly detected in samples from the same case at different time points.
  • the common filter unit 53 selects a plurality of mutation states (sequence mutations) received by the data receiving unit 51 (when the time-series information is received, the mutation states (sequence mutation ), hereinafter referred to as “mutation state (sequence mutation) to be analyzed”), based on each of a plurality of predetermined classification criteria, the mutation state (sequence mutation) is ranked MYC1 to MYC4. By classifying it into one of them, a primary evaluation is performed.
  • a detailed configuration example of the common filter unit 53 will be described later with reference to FIGS. 5 and 13. FIG.
  • rank MYC1 and rank MYC2 are ranks indicating that the sequence mutation has a high possibility of being a driver mutation, that is, was evaluated as a driver mutation candidate.
  • Rank MYC1 is more likely to be a true driver mutation than rank MYC2.
  • Rank MYC3 is a rank indicating that the sequence variant was assessed as unlikely to be a driver variant (and therefore not treated as a driver variant candidate). That is, rank MYC3 is a rank indicating that the sequence mutation was evaluated as a non-detrimental mutation.
  • the rank MYC4 is an evaluation that the possibility of the sequence mutation being a driver mutation is almost 0, that is, a rank indicating that the mutation is in a region where known SNPs and errors are likely to occur.
  • the reason why the plurality of mutation states (sequence mutations) received by the data receiving unit 51 is classified into four ranks MYC1 to MYC4 is as follows. That is, since the number of mutation states (sequence mutations) is too large (for example, tens of thousands to hundreds of millions), a user such as a medical specialist can efficiently perform the task of finding the true driver mutation. It is for Specifically, it is intended to allow a user such as an expert to focus on the mutation states (sequence mutations) classified into rank MYC1 or rank MYC2 and to find true driver mutations. be.
  • the mutation state (sequence mutation) of rank MYC1 is defined to be more likely to be a true driver mutation, so for users such as experts, the mutation state of rank MYC1 It is more efficient to focus specifically on (sequence variation).
  • the common filter unit 53 is configured by a filter using classification criteria common to all cancers and hereditary diseases. Therefore, in the primary evaluation by the common filter unit 53, depending on the type of cancer or hereditary disease, many true driver mutations are included in sequence mutations of rank MYC2, or conversely, sequence mutations of rank MYC1 are included. It may contain many false positives. Details of this point will be described later with reference to FIG.
  • the primary evaluation result of the common filter unit 53 is adopted as it is, even if the mutation state (sequence mutation) of the rank MYC1 is particularly focused on, a user such as an expert cannot identify the true driver mutation. It is difficult to find out properly, and after all the mutation status (sequence variation) of rank MYC2 must be ascertained as well as rank MYC1. Therefore, one or more drivers classified into rank MYC1 or rank MYC2 by the common filter unit 53 so that true drivers for the type of cancer or hereditary disease to which the user should focus are accumulated in the rank MYC1.
  • a filter that performs re-evaluation (re-classification) on mutation status (sequence mutation) is adopted as a seed gene filter in this embodiment.
  • a functional block equipped with this seed gene filter is the seed gene filter unit 54 . That is, the seed gene filter unit 54 performs primary evaluation by the common filter unit 53, for each of one or more mutation states (sequence mutations) classified into ranks MYC1 and MYC2, among a plurality of carcinomas and hereditary disease types. Re-evaluation is performed by reclassifying the mutation status (sequence mutation) into either rank MYC1 or MYC2 using classification criteria set by the user according to the type of interest.
  • a detailed example of the seed gene filter unit 54 will be described later with reference to FIGS. 6 to 8. FIG.
  • one or more mutation states (sequence mutations) classified into rank MYC3 as a primary evaluation by the common filter unit 53 and one or more mutation states (sequence mutations) reclassified into rank MYC2 by the seed gene filter unit 54 ) may also contain true driver mutations. Therefore, in the present embodiment, a filter is adopted as a rescue filter so that a user such as an expert does not miss such a true driver mutation.
  • a functional block equipped with this rescue filter is the rescue filter unit 55 . That is, the rescue filter unit 55 selects one or more mutation states (sequence mutations) classified into rank MYC3 by the common filter unit 53 as a primary evaluation, and one or more mutation states (sequence mutations) reclassified into rank MYC2 by the seed gene filter unit 54. By maintaining the mutation state (sequence mutation) at rank MYC3 or MYC2 or reclassifying it at rank MYC1 for each of the above mutation states (sequence mutations) (including those in which rank MYC2 is maintained), Re-evaluate.
  • the classification method of the rescue filter unit 55 is not particularly limited. A method of classifying using a model (AI model, etc.) obtained by machine learning may also be used. Details of the rescue filter unit 55 will be described later with reference to FIG. 8 and the like.
  • the rank determination unit 56 performs mutation according to the rank (any of the ranks MYC1 to MYC4) for each of a plurality of mutation states (sequence mutations) output by the common filter unit 53, the seed gene filter unit 54, or the rescue filter unit 55.
  • a rank value representing the degree of likelihood of being pathological is determined for each condition (sequence variation).
  • the rank determination unit 56 generates information (hereinafter referred to as “analysis result information”) in which each rank value is associated with each of a plurality of mutation states (sequence mutations), and provides it to the analysis result output unit 57. do.
  • the rank value representing the degree of the likelihood of being pathological may be a value newly calculated based on the ranks MYC1 to MYC4, but here, for convenience of explanation, the ranks MYC1 to MYC4 are adopted as they are. shall be
  • the analysis result output unit 57 outputs the analysis result information by outputting it from the output unit 17 (for example, display) in FIG. 1 or by transmitting it from the communication unit 19 to another device (not shown).
  • FIG. 4 shows a configuration example of analysis result information output from the analysis device of FIG.
  • the analysis result information includes, for each mutation state (sequence mutation) (each line in the figure), the number (Chr) of the chromosome where the base sequence of the mutation state (sequence mutation) was found, It is information that associates at least the start position (Start), the end position (End), the original base sequence (Ref), the sequence variation (Alt), and the rank value (MYC).
  • the analysis result information in the example of FIG. 4 is also associated with record information R regarding determination for each mutation state (sequence mutation) (each line in the figure).
  • the record information R related to determination is what kind of classification of the filter used for analysis of the target mutation state (sequence mutation) among the common filter unit 53, the seed gene filter unit 54, and the rescue filter unit 55. (parameter setting for each filter, judgment content based on classification criteria, etc.).
  • a user such as an expert refers not only to the rank value (MYC) but also to the recorded information R regarding this judgment, for example, when it is evaluated as pathogenic (when classified as rank MYC1) , and whether the reason for the judgment is mainly based on the judgment of the time-series filter or the judgment of the database filter or the like can be distinguished. Also, users such as experts were originally classified as rank MYC1 by the common filter unit 53, or were classified as rank MYC1 by reclassification by the seed gene filter unit 54 and the rescue filter unit 55. It is possible to recognize whether or not. This helps the user, such as an expert, to understand the nature of the mutation.
  • FIG. 5 is a block diagram showing an example of a detailed functional configuration of a common filter unit in the analysis device of FIG. 2;
  • the common filter unit 53 is provided with a basic filter 531 , a time series filter 532 , a database filter 533 , a function prediction filter 534 and a quality filter 535 .
  • the basic filter 531 sets a rank (for example, rank MYC4) representing a benign mutation when the mutation state (sequence mutation) to be analyzed can be determined to be benign. If the basic filter 531 cannot determine that the mutation state (sequence mutation) to be analyzed is benign, it sets a rank (for example, rank MYC3) indicating that the mutation is not benign.
  • rank MYC4 representing a benign mutation when the mutation state (sequence mutation) to be analyzed can be determined to be benign. If the basic filter 531 cannot determine that the mutation state (sequence mutation) to be analyzed is benign, it sets a rank (for example, rank MYC3) indicating that the mutation is not benign.
  • the case where it can be judged to be benign means that the overlapping part of the base sequence of a known mutation that causes canceration and the mutated base sequence corresponding to the mutation state (sequence mutation) is a relatively short overlapping part.
  • the region in which the mutation represented by the mutation state (sequence mutation) is located is an intron region
  • the mutation state (sequence mutation) is registered in a database such as an SNP database that accumulates mutations without abnormalities, or when the GDI This corresponds to the case where the mutation state (sequence mutation) can be determined to be benign based on the (Gene Damage Index).
  • GDI is an index showing how much damage is accumulated in healthy individuals for each gene. This indicates the possibility that it is a gene that cannot be
  • the basic filter 531 is a SNP, which is a threshold value for the length of the overlapping portion between the base sequence of a known mutation that causes canceration and the like and the mutated base sequence corresponding to the mutation state (sequence mutation) from the setting receiving unit 52.
  • Information specifying the database to determine whether or not, parameters for each database (benign threshold used as a standard for determining whether or not benign, or compared with a value registered as a probability of SNP in the database) Accept at least one setting.
  • Basic filter 531 determines whether the mutational state (sequence mutation) under analysis is benign based on the accepted settings.
  • segmental duplication refers to the duplication of genes at adjacent sites during the evolution of vertebrates in a 10 kb to 300 kb clustered region of the chromosome, or the gene duplication at a completely separate genome. It is a duplicate. It is known that when a sequence variation is located in a segmental overlap region, the sequence variation is the result of a detection error that occurred when mapping the sequencing result to the reference, and is likely to be a false positive.
  • the basic filter 531 sets a rank indicating that it is a benign mutation. More specifically, the basic filter 531 detects the aforementioned detection error if the sequence variation is located in a segmental overlapping region and the index indicating how homologous the segmental overlapping region index exceeds the threshold. Since there is a high possibility that the mutation is a benign mutation, a rank is set. Also, for example, the basic filter 531 sets a rank indicating that the mutation is a benign mutation if the region in which the mutation represented by the mutation state (sequence mutation) is located is an intron region.
  • the basic filter 531 may set a rank indicating a benign mutation based on the result of searching the specified SNP database even if the above two conditions are not satisfied.
  • a mutation represented by a mutation state (sequence mutation) is registered in the SNP database by searching, and the value registered as the probability of being the SNP is a predetermined benign judgment threshold for the SNP database. If it exceeds , set a rank indicating that it is a benign mutation.
  • the basic filter 531 refers to the GDI of the gene in which the mutation state (sequence mutation) exists even if the conditions up to this point are not satisfied, and if the GDI is greater than a predetermined GDI threshold, the benign mutation Set a rank that indicates that
  • the analyzer 1 can, for example, pre-screen genes that cannot (or have a sufficiently low possibility of) becoming cancer driver mutations.
  • this basic filter 531 which of the plurality of conditions for judging benignity predetermined by the setting receiving unit 52 is used (or not all the conditions are used, the operation as the basic filter 531 is performed). (whether or not to pass the process by setting ranks to rank MYC3 for all mutation states (sequence mutations)) may be accepted.
  • the basic filter 531 determines whether or not the conditions set for use are satisfied.
  • the time-series filter 532 extracts the mutation state (sequence mutation) included in the time-series information corresponding to the mutation state (sequence mutation) to be analyzed. variation) to determine whether or not the same variation exists in the time-series information extracted at different timings.
  • the time-series filter 532 uses the mutation state (sequence mutation) to be analyzed and the corresponding mutation state (sequence mutation) included in the time-series information.
  • the first predetermined amount is, for example, the minimum value that is subtracted from or added to the rank associated with the mutation state (sequence mutation) in one calculation.
  • the initial rank is rank MYC3.
  • the rank is set to rank MYC2 by subtracting "1" as one predetermined amount.
  • the time-series filter 532 uses the mutation state (sequence mutation) to be analyzed and the corresponding mutation state (sequence mutation) included in the time-series information. Set (in this case, since the initial rank is rank MYC3, it is set to rank MYC3 as it is), and the process is passed to the database filter 533 .
  • the time-series filter 532 may receive setting of thresholds for depth, other sequence quality, mutation allele frequency, and the like from the setting receiving unit 52 .
  • the threshold set here for example, “20”
  • the time series filter 532 detects the same mutation state (sequence mutation ) without judging whether or not there has been, the rank is set as it is (here, since the initial rank is rank MYC3, it is set as rank MYC3), and the processing is passed to the database filter 533 .
  • the time-series filter 532 is applied when the data receiving unit 51 does not accept time-series information (as the variant base sequence information, only the variant base sequence information to be analyzed is accepted). ), the rank is set as it is (here, the initial rank is rank MYC3, so it is set to rank MYC3) without judging whether or not there is the same mutation state (sequence mutation). , may pass processing to database filter 533 .
  • the time-series filter 532 sets the rank as it is without judging whether or not there is the same mutation state (sequence mutation). (Since the initial rank is MYC3 here, it is set to MYC3 as it is) and the process is passed to the database filter 533 .
  • the database filter 533 determines whether or not the mutation state (sequence mutation) to be analyzed is registered in a database (for example, COSMIC Cancer Database, etc.) that accumulates information about mutations that should be treated as predetermined problems. Information on the mutation status (sequence mutation) is sent to the database server and examined, and if it is registered, it is ranked as having a mutation that should be considered a problem (for example, "1" is selected as the first predetermined amount from the current rank). minus) to pass the process to the quality filter 535 .
  • a database for example, COSMIC Cancer Database, etc.
  • the database filter 533 subtracts "1" as the first predetermined amount from the rank MYC3 at that time, sets the rank to the rank MYC2, and then processes the quality filter 535. will be passed.
  • the database filter 533 sets the rank as it is and predicts the function. Pass processing to filter 534 .
  • the rank at this time remains the rank MYC3.
  • this database filter 533 accepts from the setting acceptance unit 52 the setting of what kind of database to use as the database that stores the information on the mutations that should be considered as the problem.
  • the database filter 533 accumulates information on the mutation state (sequence mutation) to be analyzed, which should be the problem. If the mutation is registered in any of the databases listed above, it is ranked as having a mutation that should be considered a problem.
  • the function prediction filter 534 refers to a database that evaluates the pathogenicity of mutations, and if a mutation related to the mutation state (sequence mutation) to be analyzed is registered in the database as pathogenic, The process is passed to quality filter 535, setting a rank (eg, current rank minus "1" as the first predetermined amount) as having a pathogenic variant.
  • a rank eg, current rank minus "1" as the first predetermined amount
  • the basic filter 531 passes the processing, the time-series filter 532 passes the processing with the rank as it is, and the database filter 533 Since the function prediction filter 534 makes a judgment when the process is passed with the rank as it is, the function prediction filter 534 selects "1" as the first predetermined amount from the rank MYC3 at that time. After subtracting and setting the rank to the rank MYC2, the processing is passed to the quality filter 535 .
  • this function prediction filter 534 refers to a database that evaluates the pathogenicity of mutations, and if a mutation related to the mutation state (sequence mutation) to be analyzed is not registered in the database as being pathogenic, (Or if it is registered but unknown, or if it is registered as benign or presumed to be benign), the rank is set as it is and the process is passed to the quality filter 535 . In this example, the rank at this time remains MYC3.
  • this function prediction filter 534 also accepts the setting of what kind of database to use from the setting receiving unit 52 .
  • the quality filter 535 evaluates the depth when the mutation state (sequence mutation) to be analyzed is sequenced and the quality of other sequencing processing of the mutation state (sequence mutation) to be analyzed. In addition to the depth, there are well-known indicators such as the number of counts of mutation states (sequence mutations) as indicators of this quality. The quality filter 535 combines these (or the combination is (according to the accepted combination of indicators). When combining a plurality of indices, the quality filter 535 determines that the quality is sufficient when all the indices satisfy the condition that the quality is sufficiently high.
  • the quality filter 535 determines that the quality of the sequence processing of the mutation state (sequence mutation) to be analyzed is sufficient (sufficiently high) based on this evaluation, the judgment is ranked as appropriate (for example, the current subtract "1" from the rank as the first predetermined amount), and output the rank to the seed gene filter unit 54, the rescue filter unit 55, and the rank determination unit 56.
  • the quality filter 535 cannot determine that the quality of the sequence processing of the mutation state (sequence mutation) to be analyzed is sufficient (sufficiently high)
  • the rank is set as it is and the seed gene filter unit 54 and rescue The rank is output to the filter section 55 and the rank determination section 56 .
  • FIG. 6 is a block diagram showing an example of a detailed functional configuration of a seed gene filter section in the analyzer of FIG. 2;
  • the seed gene filter unit 54 is provided with a seed gene filter 541 , a parameter setting receiving unit 542 and a seed gene information acquiring unit 543 .
  • Seed gene filter 541 uses predetermined classification criteria for each of one or more mutation states (sequence mutation) classified into rank MYC1 or MYC2 as a primary evaluation by common filter unit 53, and the mutation state (sequence mutation ) to either rank MYC1 or MYC2.
  • being reclassified to rank MYC1 (including maintaining rank MYC1) is hereinafter referred to as an "upgrade.”
  • being reclassified to rank MYC2 (including maintaining rank MYC1) is hereinafter referred to as a “downgrade.”
  • the seed gene filter 541 upgrades the classification target to rank MYC1 when the classification target satisfies the classification criteria, and the classification target is If the classification criteria are not met, the rank is downgraded (maintained) to MYC2.
  • the seed gene filter 541 when the mutation state (sequence mutation) of the classification target is classified as rank MYC1, upgrades (maintains) the rank to MYC1 when the classification target satisfies the classification criteria, and the classification target is Downgrade to rank MYC2 if the classification criteria are not met.
  • the classification criteria are the same when the classification target is classified into the rank MYC1 and the classification target is classified into the rank MYC2. It is not particularly limited to this. For example, if the classification target is classified into rank MYC1, the first class classification criteria will be adopted, and if the classification target is classified into rank MYC2, the second class classification criteria will be adopted.
  • the seed gene filter 541 can also function as a filter that performs only one of upgrade and downgrade according to settings by a user such as an expert.
  • the parameter setting receiving unit 542 receives parameters for setting the classification criteria of the seed gene filter 541 .
  • the parameter setting acceptance unit 542 accepts parameters specified by the user according to the type of cancer or hereditary disease that the user should pay attention to. Then, the parameter setting receiving unit 542 sets the classification criteria of the seed gene filter 541 based on the received parameters.
  • the parameter setting acceptor 542 may accept a parameter that indicates a “database or list” appropriate for the type of cancer or genetic disease that the user should focus on. In such a case, for example, the criterion of being registered in the “database or list” indicated by the parameter is set by the parameter setting receiving unit 542 as the classification criterion of the seed gene filter 541 .
  • the parameter setting acceptance unit 542 may accept a parameter indicating the type of cancer or hereditary disease that the user should pay attention to.
  • a parameter indicating the type of carcinoma or hereditary disease indicated by the parameter is registered in the above-mentioned "database or list” is used as the classification criterion of the seed gene filter 541. set by Furthermore, for example, a parameter indicating the minimum number of registrations in the above-mentioned “database or list” may be accepted by the parameter setting acceptance unit 542 .
  • the criterion that the number of items registered in the above-mentioned "database or list" is equal to or greater than the minimum number of registrations indicated by the parameter is set by the parameter setting acceptance unit 542 as the classification criterion of the seed gene filter 541. set.
  • the seed gene information acquisition unit 543 adopts information used for determining whether or not the mutation state (sequence mutation) to be classified in the seed gene filter 541 satisfies the classification criteria as seed gene information.
  • the seed gene information the "database or list” itself, or search results for the "database or list”, or the like is adopted. That is, for example, the database includes coordinates (positions) on the reference genome, statistical information about the mutations, and information about the cases, for mutations reported (sampled) in cases of a certain type of cancer or hereditary disease. ing.
  • the list includes information for each sample of mutations reported (sampled) in cases of a certain type of cancer or genetic disease.
  • a report (sample) for a given type of cancer or hereditary disease "a base at given coordinates of a given gene has changed to another base (which base) is different”. It includes information such as "the base in the sequence that determines when and where the gene works (expression regulatory sequence) has changed to a different base (which base)”.
  • Expression control sequences include, for example, enhancers, promoters, non-protein-coding RNAs, and the like.
  • the information of the gene (nucleotide sequence) contained in the seed gene information or the information of the mutation of the base at the predetermined coordinates in the expression regulatory sequence is compared with the sequence mutation of the judgment material. That is, the seed gene filter 541 uses the seed gene information to determine whether the mutation state (sequence mutation) to be classified satisfies the classification criteria, upgrades when the classification criteria are satisfied, and sets the classification criteria. Downgrade if not satisfied.
  • the first merit is that, regardless of the type of cancer or hereditary disease, it is only necessary to approve the setting of parameters that are likely to be accepted by the parameter setting receiving unit 542 when applying for pharmaceutical approval in Japan. is.
  • a second advantage is that seed gene information can be easily updated.
  • a third advantage is that reanalysis (using the seed gene filter 541) is easy with settings (such as parameters) set by a user such as an expert.
  • FIG. 7 is a schematic diagram for explaining the significance of adopting the seed gene filter section in the analyzer of FIG.
  • the bar graph on the left side of FIG. 7 shows the number of sequence mutations of rank MYC1 and rank MYC2 as a primary evaluation result by the common filter unit 53 . If the result of the primary evaluation by the common filter unit 53 is adopted as it is, the number of sequence mutations of rank MYC1 increases (accordingly, interpretation by users such as experts becomes inefficient). That is, as described above, in the primary evaluation by the common filter unit 53, depending on the type of carcinoma or hereditary disease, many true driver mutations are included in the rank MYC2 sequence mutations.
  • MYC1 sequence mutations may contain many false positives. Therefore, if the primary evaluation result of the common filter unit 53 is adopted as it is, even if the mutation state (sequence mutation) of the rank MYC1 is particularly focused on, a user such as an expert cannot identify the true driver mutation. It is difficult to find out appropriately, and after all, the problem arises that the mutation status (sequence mutation) of rank MYC2 must also be confirmed in the same way as rank MYC1.
  • the cause of this problem is that, as described above, the common filter unit 53 is composed of filters using classification criteria common to all cancers and hereditary diseases. This is because important genes and expression regulatory sequences have not been weighted in the types of interest for users such as homes.
  • a seed gene filter unit 54 is employed to solve this problem. That is, the bar graph on the right side of FIG. 7 shows the result of the primary evaluation by the common filter unit 53 and the re-evaluation by the seed gene filter unit 54 .
  • the seed gene filter unit 54 uses parameters specified by the user according to the types of carcinomas and genetic diseases that the user, such as an expert, focuses on, and sets the classification criteria. Get seed gene information.
  • the seed gene filter 541 sequentially sets each of the mutation states (sequence mutations) of the ranks MYC1 and MYC2 shown on the left side of FIG. If the classification criteria are met, upgrade is performed, and if the classification criteria are not met, downgrade is performed.
  • true driver mutations for types of carcinomas and hereditary diseases that are of interest to users such as experts are accumulated in rank MYC1.
  • a user such as an expert only needs to focus on checking the rank MYC1, so it is possible to reduce the possibility of overlooking the true driver variation.
  • FIG. 8 is a diagram showing an example of a screen for inputting parameters to the seed gene filter section and the rescue filter section of the analyzer of FIG.
  • an area SUG is for a user such as an expert to specify parameters for setting classification criteria for upgrading the seed gene filter 541 .
  • a user such as an expert can designate and operate parameters for setting classification criteria for upgrading the seed gene filter 541 from three viewpoints.
  • the setting of the classification standard from the first viewpoint is indicated by "1" in FIG. 8, and is to set the classification standard using COSMIC as the database.
  • a user such as an expert desires to set the classification criteria from the first point of view, he or she performs an operation to check the box on the right indicated by "1" in FIG.
  • two parameters can be specified.
  • the designation of the first parameter is made in the designation field A1.
  • the specification column A1 is a column in which a user such as an expert specifies (inputs) a cutoff value (minimum number of registrations) in COSMIC.
  • the parameter setting receiving unit 542 sets a classification criterion that more than the cutoff value (minimum number of registrations) is registered in COSMIC as a classification criterion for upgrading the seed gene filter 541 .
  • the specification of the second parameter is made in the specification column A2.
  • a user such as an expert designates whether all carcinomas are to be adopted as the classification criteria, or whether the user such as an expert designates only carcinomas registered in COSMIC. This is a column for (input operation).
  • the parameter setting acceptance unit 542 sets the classification criterion that all carcinomas registered in COSMIC are registered as being equal to or greater than the cutoff value (minimum number of registrations) for upgrading the seed gene filter 541.
  • the cutoff value minimum number of registrations
  • the parameter setting acceptance unit 542 sets the classification criterion that all carcinomas registered in COSMIC are registered as being equal to or greater than the cutoff value (minimum number of registrations) for upgrading the seed gene filter 541.
  • the cutoff value minimum number of registrations
  • the parameter setting acceptance unit 542 registers at least the above-mentioned cutoff value (minimum number of registrations) for any one of the one or more carcinomas specified by the user such as an expert and registered in COSMIC.
  • the classifier that the seed gene filter 541 is the classifier for the seed gene filter 541 upgrade.
  • the setting of the classification standard from the second viewpoint is indicated by "2" in FIG. 8, and is to set the classification standard using a database or list other than COSMIC. If a user such as an expert desires to set the classification criteria from the second point of view, he or she performs an operation to check the box on the right indicated by "2" in FIG.
  • a user such as an expert designates a weighted gene (for example, a gene in the guideline) or a cancer database as a parameter in the designation field A3.
  • the parameter setting acceptance unit 542 uses the classification standard that is registered in the “weighted gene (eg, gene in guidelines) or cancer database” specified by a user such as an expert as a seed. Set as sorting criteria for gene filter 541 upgrades.
  • the setting of the classification criteria of the third aspect is indicated by "3" in FIG. 8, and is to set the classification criteria using the genes specified by the user himself, such as an expert. If the user, such as an expert, desires to set the classification criteria from the third point of view, he or she performs an operation to check the box on the right indicated by "3" in FIG.
  • a user such as an expert designates a gene to be weighted by the user himself/herself in the designation column A4.
  • the parameter setting acceptance unit 542 sets the classification criteria that correspond to the weighted genes and expression regulatory sequences specified by the user such as an expert as the classification criteria for upgrading the seed gene filter 541. do.
  • the sorting criteria for seed gene filter 541 upgrade As an example of the sorting criteria for seed gene filter 541 upgrade, the sorting criteria of three aspects have been described.
  • the classification criteria of these three viewpoints are not exclusive, and it is possible to specify a combination of two or more. If more than one sorting criterion is specified (if two or more of the boxes to the right of "1" to "3" are checked), an OR condition, i.e. at least one of the two or more sorting criteria. A condition is adopted that is determined to be satisfied if one is satisfied.
  • the mutation state (sequence mutation) of the classification target is classified into rank MYC2
  • the seed gene filter 541 ranks MYC1 when the classification target satisfies at least one of two or more classification criteria. upgrade to.
  • Seed Gene Filter 541 upgrades to rank MYC1 if a classifier's mutational status (sequence mutation) is classified with rank MYC1 when the classifier meets at least one of two or more classification criteria. (main
  • the area SDG is for a user such as an expert to perform a designation operation in order to exhibit the downgrade function of the seed gene filter 541 . That is, in order to exhibit the downgrade function of the seed gene filter 541, a user such as an expert performs an operation of checking the right box labeled "4" in FIG. In this case, if one or more of the above three classification criteria are specified (one or more of the boxes to the right of "1" to "3" are checked), one or more classifications Failure to meet any of the criteria will result in a downgrade.
  • the seed gene filter 541 downgrades (maintains) to rank MYC2 when the classification target does not satisfy any of the one or more classification criteria. ).
  • Seed Gene Filter 541 downgrades a classifier's mutational status (sequence mutation) to rank MYC2 if the classifier has been classified with rank MYC1 if the classifier does not meet any one or more of the classification criteria.
  • the area RS is used by a user such as an expert to specify parameters for setting the classification criteria of the rescue filter unit 55 .
  • a user such as an expert, specifies one or more of a plurality of databases or lists as parameters.
  • the rescue filter unit 55 sets, as the classification standard for the rescue filter unit 55, a classification standard that is registered in one or more databases or lists specified by a user such as an expert. That is, the rescue filter unit 55 selects one or more mutation states (sequence mutations) classified into rank MYC3 by the common filter unit 53 as a primary evaluation, and one or more mutation states (sequence mutations) reclassified into rank MYC2 by the seed gene filter unit 54.
  • Each of the above mutation states (sequence mutations) (including those in which the rank MYC2 is maintained) is sequentially set as a classification target.
  • the rescue filter unit 55 reclassifies to rank MYC1 when the mutation state (sequence mutation) to be classified satisfies the classification criteria, and maintains rank MYC3 or MYC2 when the classification criteria are not satisfied.
  • the rescue filter section 55 set in the screen example of FIG. 8 employs a rule-based method.
  • the classification method of the rescue filter unit 55 is not particularly limited to this, and as described above, a classification method using a model (AI model or the like) obtained by machine learning may be employed.
  • the rescue filter unit 55 when this method is adopted will be described below.
  • the learning device obtains, for a given nucleic acid, information indicating known sequence mutations at risk of harm, as well as public databases, databases of human genetic polymorphisms, drug-gene interactions, and drug-discoverable genomes.
  • the learning device uses the clinical significance information of at least a portion of the database of resources and the database of drug responses as learning information sets, performing predetermined machine learning using a plurality of the learning information sets.
  • the learning device when a predetermined sequence mutation of rank MYC2 or MYC3 is input, the learning device generates or outputs a model (for example, an AI model) that is reclassified and output as rank MYC1 or maintained and output as rank MYC2 or MYC3.
  • Update means re-learning by adding a learning information set.
  • the learning device may be provided as part of the analysis device 1 or may be provided as a device different from the analysis device 1 .
  • ClinVar database for diseases associated with human genome diversity and genetic diseases
  • COSMIC described above
  • dbsnp can be employed as a human gene polymorphism database
  • DGId can be employed as a database for drug-gene interactions and genomic resources for drug discovery.
  • PharmGKB or OncoKB can be adopted as a drug response database.
  • the rescue filter unit 55 has one or more mutation states (sequence mutations) classified into rank MYC3 as a primary evaluation by the common filter unit 53, and reclassified into rank MYC2 by the seed gene filter unit 54.
  • One or more mutation states (sequence mutations) are sequentially set as classification targets.
  • the rescue filter unit 55 inputs the mutation state (sequence mutation) to be classified into the model (AI model, etc.) generated or updated by the above-described learning device, and if the output of the model is rank MYC1, Reclassify to rank MYC1, otherwise maintain rank MYC3 or MYC2.
  • FIG. 9 is a flowchart explaining an example of the flow of analysis processing in the analysis device having the functional configuration of FIG.
  • step S1 the setting receiving unit 52 and the parameter setting receiving unit 542 receive settings such as parameters.
  • step S2 the data receiving unit 51 determines a predetermined mutation state (sequence mutation data) among the mutation base sequence information extracted by sequence alignment from the genetic information of the sample to be analyzed as a processing target.
  • step S3 the common filter unit 53 performs common filter processing on the array variation data to be processed, and outputs the provisional rank of the process target. Details of the common filtering process will be described with reference to FIG. 10 .
  • step S4 the analysis device 1 determines whether or not the provisional rank (output of the common filter unit 53) of the sequence mutation data to be processed is the rank MYC4.
  • step S4 If the provisional rank (output of the common filter unit 53) is the rank MYC4, a determination of "YES" is made in step S4, and the process proceeds to step S9.
  • step S9 the rank determination unit 56 records the rank MYC4 as the provisional rank of the sequence mutation data to be processed. After that, the process proceeds to step S10. Processing after step S10 will be described later.
  • step S5 the analysis apparatus 1 determines whether or not the provisional rank (output of the common filter section 53) of the sequence mutation data to be processed is the rank MYC3.
  • step S5 If the provisional rank (output of the common filter unit 53) is rank MYC3, it is determined as "YES" in step S5, and the process proceeds to step S8. The processing of step S8 will be described later.
  • step S5 the provisional rank (output of the common filter unit 53) is rank MYC1 or 2, it is determined as "NO" in step S5, and the process proceeds to step S6.
  • step S6 the seed gene filter unit 54 applies seed gene filter processing to the sequence mutation data to be processed. The details of the seed gene filtering process will be described with reference to FIG. 11 .
  • step S7 the analysis device 1 determines whether or not the provisional rank (output of the seed gene filter unit 54) of the sequence mutation data to be processed is the rank MYC2.
  • step S9 the rank determination unit 56 records the rank MYC1 as the provisional rank of the sequence mutation data to be processed. After that, the process proceeds to step S10. Processing after step S10 will be described later.
  • step S7 if the provisional rank (output of the seed gene filter unit 54) is the rank MYC2, it is determined as "YES" in step S7, and the process proceeds to step S8.
  • the temporary rank as the output result of the seed gene filter unit 54 is the rank MYC2 (step S7 “YES”), or the temporary rank as the output result of the common filter unit 53 is the rank MYC3 (step S5 “YES”).
  • the rescue filter unit 55 executes rescue filter processing on the sequence mutation data to be processed. The details of the rescue filter process will be described with reference to FIG. 12 .
  • the rank determination unit 56 records the output result of the rescue filter unit 55 (rank MYC1, rank MYC2, or rank MYC3) as the provisional rank of the sequence mutation data to be processed.
  • step S9 when the provisional rank of the sequence mutation data to be processed is recorded in step S9, the process proceeds to step S10.
  • step S10 the analyzer 1 determines whether ranks have been recorded for all sequence variation data. If there is sequence mutation data for which no rank has been recorded, a determination of "NO” is made in step S10, the process returns to step S2, and the subsequent processes are repeated. In this way, as a result of repeating the loop processing of steps S2 to S10 "NO", when the ranks of all sequence mutation data are recorded, "YES" is determined in step S10, and the process proceeds to step Proceed to S11.
  • step S11 the analysis result output unit 57 generates analysis result information, outputs it from the output unit 17 (for example, display) in FIG. Output. This completes the analysis process.
  • FIG. 10 is a flow chart explaining the details of the flow of the common filtering process in step S3 in the analysis process of FIG.
  • step S21 the basic filter 531 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the basic filter. If the mutation state (sequence mutation) to be processed has no possibility of pathogenicity according to the conditions of the basic filter, it is determined as "NO" in step S21, the provisional rank is set to rank MYC4, and the processing is continued. The process proceeds to step S27.
  • step S27 the common filter section 53 outputs a provisional rank as a common filter section. As a result, the common filtering process in step S3 of FIG. 9 ends, and the process proceeds to step S4.
  • step S21 If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the basic filter, it is determined to be "YES" in step S21, the provisional rank is set to rank MYC3, and the processing is continued. Proceed to step S22.
  • step S22 the time-series filter 532 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the time-series filter. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the time-series filter, it is determined to be "YES" in step S22, the provisional rank is set to rank MYC2, and processing is performed. goes to step S25. The processing after step S25 will be described later. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the time series filter, it is determined as "NO" in step S22, the provisional rank is set to rank MYC3, and processing is performed. goes to step S23.
  • step S23 the database filter 533 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the database filter. If the mutation status (sequence mutation) to be processed has the possibility of pathogenicity according to the database filter conditions, it is determined to be "YES" in step S23, the provisional rank is set to rank MYC2, and the processing is continued. Proceed to step S25. The processing after step S25 will be described later. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the time-series filter, it is determined as "NO" in step S23, the provisional rank is set to rank MYC3, and processing is performed. goes to step S24.
  • step S24 the function prediction filter 534 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the function filter. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the condition of the function filter, it is determined as "YES" in step S24, the provisional rank is set to rank MYC2, and the processing is continued. Proceed to step S25. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the condition of the function filter, it is determined as "NO" in step S24, the provisional rank is set to rank MYC3, and the processing is continued. Proceed to step S25.
  • step S25 quality filter 535 determines whether the quality is sufficient. If the quality of the results of the processing of steps S21 to S24 (the filter results of the basic filter 531, the time series filter 532, the database filter 533, and the function prediction filter 534) is sufficient, a determination of "YES" is made in step S25. , the process proceeds to step S26. In step S26, the quality filter 535 has determined that the quality is sufficient, so it subtracts "1", which is the first predetermined amount, from the provisional rank.
  • step S21 If the quality of the results of the processing of steps S21 to S24 (the filter results of the basic filter 531, the time series filter 532, the database filter 533, and the function prediction filter 534) is not sufficient, it is determined as "NO" in step S25, The process proceeds to step S27.
  • step S27 the common filter section 53 outputs a provisional rank as a common filter section.
  • step S3 of FIG. 9 ends, and the process proceeds to step S4.
  • FIG. 11 is a flowchart for explaining the details of the flow of seed gene filter processing in the analysis processing of FIG.
  • the seed gene filter unit 54 determines whether or not the provisional rank of the sequence mutation data to be processed is the rank MYC1. If the provisional rank is rank MYC1, a determination of "YES" is made in step S41, and the process proceeds to step S42. If the provisional rank is rank MYC2, a determination of "NO" is made in step S41, and the process proceeds to step S45. Processing after step S45 will be described later.
  • step S42 the seed gene filter 541 determines whether or not the sequence variation data to be processed satisfies the classification criteria for upgrading. If the mutation state (sequence mutation) to be processed satisfies the classification criteria for upgrade, a determination of "YES" is made in step S42, and the process proceeds to step S43. In step S43, the seed gene filter 541 maintains (upgrades) the provisional rank to MYC1. Then, the process proceeds to step S48. The processing of step S48 will be described later.
  • step S42 If the mutation state (sequence mutation) to be processed does not satisfy the classification criteria for upgrading, a determination of "NO" is made in step S42, and the process proceeds to step S44.
  • step S44 the seed gene filter 541 changes (downgrades) the provisional rank to MYC2. Then, the process proceeds to step S48. The processing of step S48 will be described later.
  • step S45 the seed gene filter 541 determines whether or not the sequence mutation data to be processed satisfies the classification criteria for upgrading.
  • step S45 If the mutation status (sequence mutation) to be processed satisfies the classification criteria for upgrade, a determination of "YES" is made in step S45, and the process proceeds to step S46.
  • step S46 the seed gene filter 541 maintains (downgrades) the temporary rank at MYC2. Then, the process proceeds to step S48. The processing of step S48 will be described later.
  • step S45 If the mutation state (sequence mutation) to be processed does not satisfy the classification criteria for upgrading, a determination of "NO" is made in step S45, and the process proceeds to step S47.
  • step S47 the seed gene filter 541 changes (upgrades) the provisional rank to MYC1. Then, the process proceeds to step S48.
  • step S48 the seed gene filter unit 54 outputs a provisional rank for the seed gene filter unit.
  • step S6 of FIG. 9 ends, and the process proceeds to step S7.
  • FIG. 12 is a flow chart for explaining the details of the flow of the rescue filter process in step S8 in the analysis process of FIG.
  • the rescue filter unit 55 determines whether the sequence mutation data to be processed satisfies the rescue filter condition. If the mutation state (sequence mutation) to be processed does not satisfy the rescue filter conditions, it is determined as "NO" in step S61, and the process proceeds to step S62.
  • the rescue filter unit 55 maintains (downgrades) the provisional rank at rank MYC3 or MYC2. Then, the process proceeds to step S64. The processing of step S64 will be described later.
  • step S61 If the mutation state (sequence mutation) to be processed satisfies the rescue filter condition, a determination of "YES" is made in step S61, and the process proceeds to step S63.
  • step S63 the rescue filter unit 55 changes (upgrades) the provisional rank to MYC1. Then, the process proceeds to step S64.
  • step S64 the rescue filter unit 55 outputs a provisional rank for the rescue filter unit.
  • the rescue filter process in step S8 of FIG. 9 ends, and the process proceeds to step S9.
  • the rescue filter processing described above is an example of processing by the rescue filter unit 55 that employs a rule-based method. That is, when a method of classifying using a model obtained by machine learning (AI model, etc.) is adopted, the rescue filter process inputs the sequence data to be processed into the model, and outputs the model. is output as a rank.
  • AI model machine learning
  • the common filter unit 53 is not particularly limited to the example of FIG. 5, and can take various forms having the following configuration. Specifically, for example, the common filter unit 53 can have a configuration as shown in FIG.
  • FIG. 13 is a block diagram showing an example different from FIG. 5 in the detailed functional configuration of the common filter section 53 in the analysis device of FIG.
  • the common filter part of the example of FIG. 13 is useful in analysis of mutation status (sequence mutation) as follows. Therefore, the following description will be made assuming that the mutation state (sequence mutation) is to be analyzed.
  • the mutation state sequence mutation
  • fusion of two genes in a specific combination due to chromosomal translocation, inversion, or the like causes proliferation of cancer cells.
  • the BCR-ABL fusion gene in which the BCR gene and the ABL gene are fused by chromosomal translocation, is known to proliferate leukemic cells.
  • the common filter unit 53 has a basic filter 531 , a time series filter 532 , a fusion gene filter 536 , a storage position filter 537 , a structure filter 538 and a quality filter 539 .
  • a nucleotide sequence encoding a plurality of combinations of candidate genes known to cause driver mutation in a fusion gene in which two candidate genes of a specific combination are fused is stored in the storage unit 18 for each fusion gene.
  • One area is stored.
  • base sequences encoding the BCR gene and the ABL gene are stored in one region of the storage unit 18 . That is, the analysis device 1 can acquire the following information and use it for information processing.
  • the analyzer 1 acquires the base sequences of two candidate genes that are driver mutation candidates in a fusion gene (hereinafter referred to as first fusion gene) in which candidate genes of a specific combination are fused, for each first fusion gene.
  • first fusion gene a fusion gene
  • the analysis device 1 extracts the base sequences of the two candidate genes included in the plurality of first fusion genes stored in the storage unit 18 as the first fusion gene. It is acquired from the storage unit 18 every time.
  • an external server (not shown) may store base sequences encoding a plurality of candidate genes for the first fusion gene.
  • the analysis apparatus 1 may acquire, for each first fusion gene, base sequences in which two candidate genes for the first fusion gene are encoded from an external server via the communication unit 19 .
  • a fusion gene in which a specific candidate gene is fused with another gene, may cause the proliferation of cancer cells.
  • a fusion gene in which the ALK gene is fused with another gene is known to induce proliferation of cancer cells.
  • the storage unit 18 stores the base sequences of a plurality of candidate genes that are driver mutation candidates in a fusion gene fused with another gene (hereinafter also referred to as a second fusion gene).
  • the analyzer 1 acquires the base sequences of candidate genes that are driver mutation candidates in the second fusion gene fused with another gene. For example, the analyzer 1 acquires the base sequences of multiple candidate genes for the second fusion gene from the storage unit 18 . The analysis device 1 may acquire the base sequences of multiple candidate genes for the second fusion gene from an external server via the communication unit 19 .
  • the analyzer 1 acquires conserved sequence position information indicating the position of a conserved sequence, which is a base sequence conserved between genomes of different species. For example, the analysis device 1 acquires stored sequence position information from the storage unit 18 . The analysis device 1 may acquire the stored array position information from an external server via the communication unit 19 .
  • the basic filter 531 is the same as in FIG. 2 except that it does not perform processing specific to single nucleotide polymorphisms.
  • the basic filter 531 sets a rank (for example, rank MYC4) representing a benign mutation when the mutation state to be analyzed can be determined to be benign, and the filter is set as the next filter. Output the result.
  • rank MYC4 representing a benign mutation when the mutation state to be analyzed can be determined to be benign
  • the filter is set as the next filter.
  • the basic filter 531 sets a rank (for example, rank MYC3) indicating that the mutation is not benign. Pass the process.
  • the basic filter 531 receives, from the setting receiving unit 52, information specifying a threshold for the length of overlap between the base sequence of a known mutation that causes cancer and the mutated base sequence corresponding to the mutation state, Accept the settings of parameters (compared with values registered as benign judgment thresholds that serve as criteria for judging benign or not), and determine whether the mutation state to be analyzed based on the settings is benign determine whether or not
  • the basic filter 531 detects that the overlapping portion between the base sequence of a known mutation that causes canceration and the mutated base sequence corresponding to the mutation state is shorter than a predetermined length threshold.
  • a rank is set to indicate that the mutation is benign.
  • the basic filter 531 also sets a rank indicating that the mutation is a benign mutation if the region in which the mutation is located is an intron region, which is represented by the mutation status.
  • the basic filter 531 searches the specified database even if the above two conditions are not satisfied, and the mutation represented by the mutation state is registered in the database by the search, and the value registered as the probability of being the mutation is If the mutation exceeds a benign judgment threshold predetermined for the database, a rank indicating that the mutation is a benign mutation is set.
  • the time-series filter 532 differs from the example of the common filter unit 53 in FIG. 5 is the same as the example of the common filter unit 53 of FIG.
  • the time-series filter 532 refers to the mutation state information included in the time-series information corresponding to the mutation state to be analyzed, and determines whether the same mutation is present in the time-series information extracted at different timings. do.
  • the time-series filter 532 uses the mutation state to be analyzed and the corresponding mutation state included in the time-series information, and if the same mutation exists, the analysis target is considered to be potentially pathological.
  • the rank corresponding to the mutation state (for example, the rank minus "2" as the second predetermined amount) is determined, and the process is passed to the quality filter 539 .
  • the basic filter 531 passes the process, so the initial rank is rank MYC3. By subtracting "2" from the second predetermined amount, the rank is set to rank MYC1.
  • the second predetermined amount is a value greater than the first predetermined amount.
  • the time-series filter 532 uses the mutation state to be analyzed and the corresponding mutation state included in the time-series information, and if the same mutation does not exist, sets the rank as it is (here, the initial rank is Since it is rank MYC3, it is set to rank MYC3 as it is) and the processing is passed to the database filter 533 .
  • the time-series filter 532 may receive setting of thresholds for depth, other sequence quality, mutation allele frequency, and the like from the setting receiving unit 52 . For example, when the depth related to the corresponding mutation state included in the time series information does not exceed the threshold set here (for example, "20"), the time series filter 532 determines whether the same mutation state exists. (Since the original rank is rank MYC3, it is set to rank MYC3 as it is), and the processing is passed to the database filter 533 .
  • the threshold set here for example, "20”
  • the time-series filter 532 is applied when the data receiving unit 51 does not accept time-series information (as the mutant base sequence information, the mutant base sequence to be analyzed is If only sequence information is accepted), the rank is set as it is without judging whether or not there is the same mutation state (here, the initial rank is rank MYC3, so it is set as rank MYC3). to pass processing to database filter 533 .
  • the time-series filter 532 sets the rank as it is without judging whether or not there is the same mutation state (here, initially is rank MYC3, it is set to rank MYC3 as it is), and the processing is passed to the fusion gene filter 536 .
  • a mutated base sequence corresponding to one of the mutation states included in the mutated base sequence information is hereinafter also referred to as a mutated base sequence.
  • the fusion gene filter 536 determines whether or not a fusion gene obtained by fusing two genes that are respectively similar to the two candidate genes for the first fusion gene acquired by the analyzer 1 is included in the mutant base sequence. More specifically, the fusion gene filter 536 filters two nucleotide sequences encoding two candidate genes of the first fusion gene and the mutation nucleotide sequence for the plurality of first fusion genes acquired by the analyzer 1. It is determined for each first fusion gene whether or not both degrees of similarity with at least a part of the base sequence are equal to or higher than a threshold. The degree of similarity is represented, for example, by the proportion of matching alignments between two base sequences. Two base sequences are determined to be similar when the proportion of alignments of the two base sequences that match is equal to or greater than a threshold.
  • the fusion gene filter 536 matches the base sequence encoding the BCR gene in the BCR-ABL first fusion gene obtained by the analyzer 1 by fusing the BCR gene and the ABL gene, and the mutation base sequence. Obtain the degree of similarity with the base sequence. Next, the fusion gene filter 536 obtains the degree of similarity between the nucleotide sequence encoding the ABL gene in the BCR-ABL first fusion gene and the corresponding nucleotide sequence in the mutant nucleotide sequence.
  • the fusion gene filter 536 determines whether the two degrees of similarity obtained are equal to or greater than the threshold.
  • the threshold value is, for example, a value at which the activity of the protein encoded by the first fusion gene and the activity of the protein represented by the mutated nucleotide sequence are assumed to be the same.
  • the fusion gene filter 536 detects a fusion gene in which two genes similar to two candidate genes of the first fusion gene are fused in the mutant base sequence when both of the two obtained similarities are equal to or higher than the threshold value. It is determined that
  • the fusion gene filter 536 repeats the same determination for another first fusion gene acquired by the analyzer 1 when at least one of the two obtained similarities is less than the threshold.
  • the fusion gene filter 536 for all the first fusion genes acquired by the analyzer 1, when at least one of the two similarities obtained is less than the threshold value, for any first fusion gene, the first fusion gene It is determined that the mutated base sequence does not contain a fusion gene in which two genes that are respectively similar to the two candidate genes are fused.
  • the fusion gene filter 536 also detects the similarity between the base sequences of the two candidate genes for the first fusion gene acquired by the analyzer 1 and the base sequences of the two fusion genes included in the mutant base sequence. When the degree is 65% or more and 100% or less, it may be determined that the mutated nucleotide sequence contains a fusion gene in which two genes that are respectively similar to two candidate genes for the first fusion gene are fused. .
  • the degree of similarity between the base sequences of the two candidate genes of the first fusion gene and the base sequences of the two genes of the fusion gene contained in the mutant base sequence is 80%. If it is 100% or less, it may be determined that the mutated nucleotide sequence contains a fusion gene in which two genes that are respectively similar to two candidate genes for the first fusion gene are fused.
  • the fusion gene filter 536 may transmit the mutation base sequence corresponding to the mutation state to be analyzed to an external server that stores combinations of multiple first fusion gene candidate genes.
  • the fusion gene filter 536 checks whether or not a fusion gene of two genes similar to two candidate genes of the first fusion gene registered in the database of the external server is included in the mutation base sequence.
  • the fusion gene filter 536 filters the fusion genes of two genes that are similar to two candidate genes for one of the plurality of first fusion genes registered in the database of the external server.
  • the fusion gene filter 536 determines whether or not a fusion gene in which a gene having a base sequence similar to the base sequence of the candidate gene for the second fusion gene acquired by the analyzer 1 is fused with another gene is included in the mutant base sequence. judge. More specifically, the fusion gene filter 536 filters the nucleotide sequences of the candidate genes of the second fusion genes and the nucleotide sequences of one of the fusion genes included in the mutant nucleotide sequence for the plurality of second fusion genes acquired by the analyzer 1. A degree of similarity with the sequence is determined for each second fusion gene. The fusion gene filter 536 determines whether the calculated similarity is equal to or greater than a threshold.
  • the threshold value is a value at which the activity of the protein encoded by the second fusion gene and the activity of the protein represented by the mutated nucleotide sequence are assumed to be the same.
  • the fusion gene filter 536 determines that the mutation base sequence includes a fusion gene of a gene similar to the candidate gene for the second fusion gene acquired by the analysis device 1 when the obtained similarity is equal to or greater than the threshold.
  • the fusion gene filter 536 repeats the same determination for another candidate gene of the second fusion gene acquired by the analysis apparatus 1 when the obtained similarity is less than the threshold.
  • the fusion gene filter 536 if the obtained similarity is less than the threshold value for all the second fusion genes acquired by the analysis device 1, the fusion gene of the gene similar to any candidate gene of the second fusion gene is a mutation base. Determine that the array does not contain.
  • the fusion gene filter 536 determines that the degree of similarity between the base sequence of the candidate gene for the second fusion gene acquired by the analyzer 1 and the base sequence of one of the fusion genes included in the mutant base sequence is If it is 65% or more and 100% or less, it is determined that the mutant nucleotide sequence contains a fusion gene in which a gene with a nucleotide sequence similar to the nucleotide sequence of the candidate gene for the second fusion gene is fused with another gene.
  • the degree of similarity between the base sequence of the candidate gene for the second fusion gene and the base sequence of one gene in the fusion gene included in the mutant base sequence is 80% or more and 100%. In the following cases, it may be determined that the mutant base sequence contains a fusion gene in which a gene having a base sequence similar to the base sequence of the candidate gene for the second fusion gene is fused with another gene.
  • the fusion gene filter 536 may transmit the mutated base sequence to an external server that stores a plurality of second fusion genes.
  • the fusion gene filter 536 checks whether or not the mutated base sequence contains a fusion gene of a gene similar to any of the plurality of candidate genes for the second fusion gene registered in the database of the external server.
  • the fusion gene filter 536 receives a notification from an external server indicating that the mutant base sequence contains a fusion gene of a gene similar to any of the plurality of registered candidate genes of the second fusion gene, It may be determined that the mutated nucleotide sequence contains a gene similar to the candidate gene of the two fusion genes.
  • the fusion gene filter 536 determines a rank based on the determination result of whether or not a fusion gene in which two genes that are respectively similar to two candidate genes for the first fusion gene are fused is included in the mutated base sequence. For example, the fusion gene filter 536 selects, for any one of the plurality of first fusion genes acquired by the analyzer 1, a fusion gene obtained by fusing two genes that are respectively similar to two candidate genes of the first fusion gene. If it is determined that it is contained in, the rank corresponding to the potentially pathological mutation state to be analyzed is determined (for example, "2" is selected as the second predetermined amount from the rank (subtract) passes the process to quality filter 539 .
  • the fusion gene filter 536 refers to the base sequences of two candidate genes for the first fusion gene that are known to be relatively likely to be driver mutations, and the mutation status is pathological. The degree of certain possibility can be accurately estimated by the rank.
  • the fusion gene filter 536 determines the rank based on the determination result of whether or not the mutant base sequence contains a fusion gene in which a gene with a base sequence similar to the base sequence of the candidate gene for the second fusion gene is fused with another gene. For example, when the fusion gene filter 536 determines that the mutated base sequence contains a gene similar to any of the candidate genes of the plurality of second fusion genes acquired by the analyzer 1, there is a possibility of being pathological. Then, the rank corresponding to the mutation state to be analyzed is determined (for example, "1" is subtracted from the rank as the first predetermined amount), and the process is passed to the storage position filter 537.
  • the fusion gene filter 536 determines that the fusion gene of the candidate gene similar to the two candidate genes of the first fusion gene acquired by the analyzer 1 is not included in the mutation base sequence, or If it is determined that the fused gene of a gene similar to the candidate gene is not contained in the mutated base sequence, the rank is set as it is (here, the initial rank is MYC3, so the rank is set as MYC3), Pass processing to save location filter 537 .
  • the fusion gene filter 536 can accurately present the degree of possibility that the mutation state is pathological by rank by referring to the base sequence of the candidate gene for the second fusion gene.
  • the conserved position filter 537 determines a rank according to whether or not the position of a conserved sequence, which is a nucleotide sequence conserved between genomes of different species, is included in the mutation sites of the mutation status. More specifically, the conserved position filter 537 determines whether the position of the conserved sequence indicated by the conserved sequence position information acquired by the analyzer 1 is included in the mutation site.
  • the conserved position filter 537 determines that the mutation site includes a conserved sequence position, the rank corresponding to the mutation state to be analyzed as potentially pathological is determined (for example, the rank minus "1" as the first predetermined amount), and pass processing to structure filter 538 .
  • the conserved position filter 537 determines that the position of the conserved sequence is not included in the mutation site, it sets the rank as it is and passes the processing to the structure filter 538 . In this way, the conserved position filter 537 can use the information indicating the position of the conserved sequence to accurately present the degree of possibility that the mutation state corresponding to this mutation site is pathological by rank. .
  • the structure filter determines whether or not the mutation state represented by the mutant base sequence information is a structural mutation such as a chromosomal translocation.
  • the structure filter 538 determines whether the mutation state represented by the mutated base sequence information is a chromosomal translocation, and determines the rank based on this determination result.
  • the structure filter 538 refers to the contents of mutations and mutation sites included in the mutation state indicated by the mutation base sequence information, and determines whether or not chromosomal translocation has occurred.
  • the structure filter 538 divides the mutated base sequence corresponding to the mutation state into a plurality of base sequences, and specifies the position on the genome for each divided base sequence, thereby determining whether the mutation state is a chromosomal translocation. It may be determined whether
  • the structure filter 538 determines whether the mutation state represented by the mutation base sequence information is a mutation that extends to multiple genes, and determines the rank based on this determination result.
  • the structure filter 538 refers to the contents of mutations and mutation sites included in any of the mutation states indicated by the mutation base sequence information, and determines whether or not mutations have occurred in multiple genes.
  • the structure filter 538 divides the mutated base sequence corresponding to the mutation state into a plurality of base sequences, and specifies the position on the genome for each divided base sequence, thereby determining whether the mutation state is a mutation that extends to multiple genes. It may be determined whether
  • Information indicating a plurality of registered genes involved in canceration of cells is registered in advance in the storage unit 18 .
  • the information indicating the registered gene is, for example, identification information for identifying the registered gene and information indicating the position of the registered gene on the chromosome.
  • the structure filter 538 may determine whether or not the mutation state represented by the mutated base sequence information is deletion of the registered gene, and determine the rank based on this determination result.
  • the structure filter 538 refers to the contents of mutations and mutation sites included in any mutation state indicated by the mutation base sequence information, and determines whether any of the plurality of registered genes registered in the storage unit 18 has been deleted. determine whether or not
  • chromosomal position information of enhancers that control the expression of genes involved in canceration of cells is registered in advance.
  • the structure filter 538 determines that a translocation, inversion, deletion, or the like has occurred, the oncogene whose mutation state represented by the mutation base sequence information is registered in the storage unit 18 is stored in the storage unit 18. It is also possible to determine whether or not the deregulation abnormality is located in the vicinity of the registered enhancer, and determine the rank based on this determination result.
  • the structure filter 538 determines that the mutation state represented by the mutation base sequence information forms a fusion gene such as a first fusion gene or a second fusion gene due to translocation, deletion, etc., and the two genes forming the fusion gene. is the first candidate gene and the second candidate gene, is the orientation of the first candidate gene and the second candidate gene the same (for example, if the first candidate gene is 5′ ⁇ 3′ and the second candidate gene is 5′ ⁇ 3′ direction, or combination of first candidate gene 3′ ⁇ 5′ and second candidate gene 3′ ⁇ 5′) to determine whether or not a functional fusion gene is formed. may be determined, and the rank may be determined based on this determination result.
  • Sequence information related to amino acid translation (codons) of gene regions and RNA splicing is registered in advance in the storage unit 18 .
  • the structure filter 538 determines whether a functional fusion gene will be formed based on the information of the above items when it is determined that the mutation state represented by the mutation base sequence information forms a fusion gene due to translocation, deletion, or the like. The presence or absence may be determined, and the rank may be determined based on this determination result.
  • the structure filter 538 divides the mutated base sequence into multiple base sequences and identifies the position on the genome for each divided base sequence.
  • the structure filter 538 compares the position of the specified base sequence on the genome with the positions of a plurality of registered genes registered in the storage unit 18 to determine whether deletion of any of the registered genes has occurred. may be determined.
  • Structural filter 538 determines the rank corresponding to the mutational state to be analyzed as potentially pathological if it determines that a translocation has occurred. For example, structure filter 538 subtracts "1" as the first predetermined amount from the rank corresponding to the mutation state. On the other hand, if it is determined that translocation has not occurred, the rank corresponding to the mutation state to be analyzed is left unchanged.
  • the structure filter 538 determines that a mutation that spans multiple genes occurs, the rank corresponding to the mutation state to be analyzed as possibly pathological (for example, the rank corresponding to the mutation state minus "1" as the first predetermined amount). On the other hand, the structure filter 538 leaves the rank corresponding to the mutation state as it is when it determines that a structural mutation that spans multiple genes has not occurred.
  • the structure filter 538 determines that any of the plurality of registered genes registered in the storage unit 18 is deleted, the structure filter 538 further extracts a first predetermined amount from the rank corresponding to the mutation state to be analyzed. Subtract and pass processing to quality filter 539 .
  • the structure filter 538 determines that none of the plurality of genes registered in the storage unit 18 is deleted, the rank corresponding to the mutation state to be analyzed remains unchanged, and the quality filter 539 pass the process to In this way, the structure filter 538 determines whether structural mutations such as chromosomal translocations, mutations in multiple genes, deletions of genes involved in canceration of cells, etc. have occurred. , the degree of likelihood that a mutational state is pathological can be presented more accurately by rank.
  • FIG. 14 is a flowchart for explaining the details of the flow of common filter processing by the common filter unit having the functional configuration of FIG.
  • the basic filter 531 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the basic filter. If the mutation state (sequence mutation) to be processed does not have the possibility of pathogenicity according to the conditions of the basic filter, it is determined to be "NO" in step S81, and the process proceeds to step S89.
  • step S89 the common filter section 53 outputs a provisional rank for the common filter section. As a result, the common filtering process in step S3 of FIG. 14 ends, and the process proceeds to step S4.
  • step S81 If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the basic filter, "YES" is determined in step S81, and the process proceeds to step S82.
  • step S82 the time-series filter 532 determines whether or not there is a possibility of pathogenicity in the sequence mutation data to be processed according to the conditions of the time-series filter. If the mutation state (sequence mutation) to be processed has the possibility of pathogenicity according to the conditions of the time-series filter, a determination of "YES" is made in step S82, and the process proceeds to step S87. Processing after step S87 will be described later. If the mutation state (sequence mutation) to be processed does not have the possibility of pathogenicity according to the conditions of the basic filter, it is determined as "NO" in step S82, and the process proceeds to step S83.
  • step S83 the fusion gene filter 536 determines whether or not the sequence variation data to be processed includes fusion genes of genes similar to the two candidate genes of the first fusion gene. If the mutation state (sequence mutation) to be processed includes a fusion gene of genes similar to the two candidate genes of the first fusion gene, a determination of "YES" is made in step S83, and the process proceeds to step S87. move on. Processing after step S87 will be described later. If the mutation state (sequence mutation) to be processed does not include a fusion gene of genes similar to the two candidate genes of the first fusion gene, it is determined "NO" in step S83, and the process proceeds to step S84. move on.
  • step S84 the fusion gene filter 536 determines whether the sequence variation data to be processed includes a fusion gene of a gene similar to the candidate gene for the second fusion gene.
  • step S85 the conserved position filter 537 determines whether the position of the conserved sequence is included in the mutation site for the sequence mutation data to be processed.
  • step S86 the structure filter 538 determines whether or not the sequence mutation data to be processed contains various structural changes.
  • step S87 quality filter 539 determines whether the quality is sufficient. If the quality of the results of the processing of steps S81 to S86 (filter results of the basic filter 531, time series filter 532, fusion gene filter 536, storage position filter 537, and structure filter 538) is sufficient, "YES , and the process proceeds to step S88. In step S88, the quality filter 539 determines that the quality is sufficient, so the first predetermined amount "1" is subtracted from the provisional rank.
  • step S87 If the quality of the results of the processing of steps S81 to S86 (filter results of the basic filter 531, time-series filter 532, fusion gene filter 536, storage position filter 537, and structure filter 538) is not sufficient, "NO" in step S87. is determined, and the process proceeds to step S89.
  • step S89 the common filter section 53 outputs a provisional rank for the common filter section.
  • step S3 of FIG. 9 ends, and the process proceeds to step S4.
  • the seed gene filter section 54 and the rescue filter section 55 are employed for the common filter section 53, but the present invention is not particularly limited to this. That is, compared to the case where only the common filter unit 53 is employed, any filter that can improve the efficiency and convenience of analyzing the degree of possibility of a mutation affecting the onset and progression of a disease is sufficient.
  • the following filter section can be employed.
  • the common filter section 53 should have the following configuration. That is, the common filter unit 53 included in the analyzer 1 that selects target sequence mutations that have a harmful risk in the subject, sequences the nucleic acids contained in the subject, and identifies each of the plurality of sequence mutations. , Based on the first classification criteria, a high category (eg MYC1) that is most likely to be selected as the target sequence mutation and one or more low categories (eg MYC2, MYC3, MYC4) that are less likely to be selected. classified into any of the following.
  • a high category eg MYC1
  • MYC2, MYC3, MYC4 low categories
  • a configuration having a classification criteria setting unit and a second filtering unit as described below can be adopted as a filter unit that employs a rule-based method, after the common filter unit 53 .
  • the classification criterion setting unit sets the classification criterion registered in the database or list, which is different from the first classification criterion for classifying into the high category, to the second classification criterion (for example, the seed gene filter 541 classification criteria and the classification criteria of the rescue filter unit 55 that employs a rule-based method).
  • the second filtering unit reclassifies, among the sequence variants classified into the low category by the common filter unit 53, sequence variants satisfying the second classification criteria into the high category.
  • a configuration having the following second filtering section as a filter section that employs a machine learning technique such as AI in the subsequent stage of the common filter section 53 can be adopted.
  • a learning device collects, for a given nucleic acid, information indicating known sequence mutations with harmful risks, public databases, databases of human gene polymorphisms, interactions between drugs and genes, and possible drug discovery.
  • a predetermined sequence by executing predetermined machine learning using a plurality of learning information sets, using clinical significance information of at least a part of mutations in a database related to genomic resources and a database of drug responses as learning information sets
  • a mutation When a mutation is input, it generates or updates a model (eg, AI model) that outputs the degree of likelihood (eg, ranks MYC1 to MYC4) that the sequence mutation is the target sequence mutation.
  • updating means re-learning by adding a learning information set.
  • the learning device may be provided as part of the analysis device 1 or may be provided as a device different from the analysis device 1 .
  • the second filtering unit reclassifies, among the sequence variants classified into the low category by the common filter unit 53, those sequence variants with a certain degree of possibility of being output from the model into the high category. .
  • the rescue filter process is performed by classifying the sequence data to be processed into the model. , and output the output of the model as a higher rank.
  • An example of inference using an AI model or the like obtained by machine learning and generation or updating of the AI model will be described below with reference to FIGS. 15 and 16.
  • FIG. 15 is a diagram illustrating an example of inference using an AI model or the like generated or updated by machine learning in the rescue filtering process of FIG. 12 .
  • the inputs and outputs in the inference using the AI model include “MYC (after AI correction)", “pathogenicity of mutation by AI estimation”, and “rule-based MYC ( There are items of “Before correction)", “Chr”, “Coordinates”, “Reference sequence”, and “Mutant sequence”.
  • the item “Chr” is the number of the chromosome in which the mutation state (sequence mutation) nucleotide sequence was found, as described above with reference to FIG. 3 and the like.
  • the item “coordinates” is the coordinates (position) on the reference genome described above in the description of FIG. 6 and the like.
  • the item “Reference sequence” is the base sequence (one base in the example of FIG. 15) at the above-mentioned “coordinates” on the reference genome.
  • the item “mutant sequence” is the base sequence (one base in the example of FIG. 15) at the mutation site (coordinates described above) of the base sequence extracted from the genetic information of the sample by sequence alignment.
  • these pieces of information are input to the rescue filter unit 55, and classification is performed by a rule-based method using classification criteria different from those adopted by the common filter unit 53 and the seed gene filter unit 54. can be done.
  • the item of “rule-based MYC (before correction)” is determined by the rescue filter unit 55 using classification criteria different from those adopted by the common filter unit 53 and the seed gene filter unit 54 . It is the rank of the results classified by the base method.
  • the rescue filter unit 55 can employ a method of classification using a model (AI model or the like) obtained by machine learning.
  • a model AI model or the like
  • Various outputs of the model (AI model, etc.) obtained by machine learning employed by the rescue filter unit 55 can be employed.
  • MYC after AI correction
  • pathogenicity of mutation by AI estimation is a model that is regarded as an expert, and is the presence or absence of pathogenicity of mutation by a model (AI model, etc.) obtained by machine learning. . That is, for example, a predetermined rule-based method (expert (e.g., a method that uses the judgment criteria of the above as a rule) is generated as a model.
  • expert e.g., a method that uses the judgment criteria of the above as a rule
  • the rescue filter unit 55 can output "MYC (after AI correction)” as an inference result by a classification method using a model (AI model, etc.) obtained by machine learning.
  • a model (AI model, etc.) obtained by machine learning adopted by the rescue filter unit 55 does not output “pathogenicity of mutation estimated by AI”, but outputs “MYC (after AI correction)”. It may be learned to output.
  • FIG. 16 is a diagram illustrating an example of updating an AI model when using an AI model generated or updated by machine learning in the rescue filtering process of FIG. 12 . That is, the item "MYC (after confirmation by experts)" in FIG. This is the rank MYC resulting from the judgment of the family.
  • MYC after confirmation by experts
  • the fourth line the fifth line including the item names of the table shown in FIG. 16
  • MYC (after confirmation by experts)" is different from “MYC (after AI correction)”. Therefore, a model obtained by machine learning (AI model, etc.) learns (a model obtained by machine learning (AI model, etc.) is trained so that output information IL is output when input information ID is input. update).
  • the rescue filter unit 55 learns so that the model (AI model, etc.) obtained by machine learning reproduces "MYC (after confirmation by an expert)". That is, the accuracy of the rescue filter unit 55 that employs a model (AI model or the like) obtained by machine learning is improved. In other words, by using a model (AI model) obtained by machine learning, it is possible to improve the accuracy of the rescue filtering process of FIG. 12 .
  • an AI model or the like generated or updated by machine learning may be used in the seed gene filtering process.
  • a model (such as an AI model) proposes correction values for optimization with respect to thresholds (cutoff values) and parameters used in seed gene filtering based on clinical information and rank MYC after confirmation by experts. may be generated by learning to do
  • a model (such as an AI model) can use, as clinical information, the provisional rank by the common filter unit 53 and the seed gene information acquired by the seed gene information acquisition unit 543 as at least part of learning data. Also, the model (AI model, etc.) can use the information of "MYC (after confirmation by expert)" in FIG. 16 as at least part of the learning data. This allows the model (such as an AI model) to output correction values for optimization with respect to thresholds (cutoff values) and parameters used in seed gene filtering. A user such as an expert confirms the correction values proposed by the model (AI model, etc.) and determines what values are actually used as thresholds (cutoff values) and parameters used in the seed gene filtering process. do.
  • a user such as an expert examines the correction values proposed by the model (AI model), and then decides the parameters to be input to the example screen shown in FIG. 8, for example.
  • AI model a model
  • users such as experts can adopt thresholds (cutoff values) and parameters used in seed gene filtering that are considered more suitable. Become.
  • this implements a rule-based AI that is familiar to medical specialists and an eclectic AI that combines the best of machine learning.
  • the rank MYC itself is assigned in the seed gene filtering process on a rule basis, and its parameters are explicable parameters.
  • the correction value of the parameter is performed by a model (AI model or the like).
  • AI model or the like
  • processing using an AI model has generally been a black box because it has not been possible to explain on what grounds the processing (for example, filtering processing) was performed.
  • the above-described models (such as the AI model) can solve this by outputting correction values for optimization with respect to explainable thresholds (cutoff values) and parameters.
  • system configuration shown in FIG. 4 and the hardware configuration of the analysis device 1 shown in FIG. 5 are merely examples for achieving the object of the present invention, and are not particularly limited.
  • the functional block diagram shown in FIG. 6 is merely an example and is not particularly limited. That is, it is sufficient if the information processing system is provided with a function capable of executing the above-described series of processes as a whole, and what kind of functional blocks are used to realize this function is not particularly limited to the example of FIG. .
  • the locations of the functional blocks are not limited to those shown in FIG. 6, and may be arbitrary.
  • the above-described processing is configured to be performed on the analysis device 1 side, but the configuration is not limited to this, and at least part of the processing is performed on the side of another information processing device (not shown).
  • the functional blocks necessary for executing the analysis processing are provided on the analysis apparatus 1 side, this is merely an example.
  • At least part of the functional blocks arranged on the analysis device 1 side may be provided on the information processing device side (not shown).
  • a program constituting the software is installed in a computer or the like from a network or a recording medium.
  • the computer may be a computer built into dedicated hardware. Also, the computer may be a computer capable of executing various functions by installing various programs, such as a server, a general-purpose smart phone, or a personal computer.
  • a recording medium containing such a program is not only composed of a removable medium (not shown) that is distributed separately from the main body of the device, but is also composed of a recording medium provided in advance in the main body of the device. .
  • the steps of writing a program recorded on a recording medium are not necessarily processed chronologically according to the order, but may be executed in parallel or individually. It also includes the processing to be performed.
  • the term "system” means an overall device composed of a plurality of devices, a plurality of means, or the like.
  • the information processing system to which the present invention is applied is sufficient if it has the following configuration, and can take various embodiments.
  • the information processing apparatus to which the present invention is applied is An information processing device (e.g., the analysis device 1 in FIG. 2) that selects target sequence mutations (e.g., cancer driver mutations) that have a deleterious risk in a subject, Each of the plurality of sequence mutations identified by sequencing the nucleic acid contained in the subject is selected as the target sequence mutation based on the first classification criteria, the highest category (for example, Rank MYC1 in the specification) and one or more low categories with a lower probability (for example, ranks MYC2 to MYC4 in the specification).
  • First filtering means for example, The common filter unit 53 in FIGS. 2 and 5
  • Classification standard setting means for example, Fig.
  • a second filtering means for example, the Seed Gene filter in FIG. 2 for reclassifying sequence mutations satisfying the second classification criteria into the high category among the sequence mutations classified into the low category by the first filtering means.
  • the seed gene filter 541 of FIG. 6 of the unit 54 and the rescue filter of the rescue filter unit 55 of FIG. 2 that employs a rule-based method It is enough to have As a result, among the results of filtering by the first filtering means, the sequence mutations classified into the high category with the highest possibility of being selected as the target sequence mutation, but which should be classified into the low category, are reclassified into the low category.
  • sequence mutations classified into a category with a low probability of being selected as the target sequence mutation but a sequence mutation that should be classified into a high category are classified into a high category.
  • the classification criteria setting means Entering the minimum number of registered specimens in the database (for example, the cutoff value of the number of COSMIC registered specimens entered in the designation column A1 in FIG. 8) as a parameter for setting the second classification criteria, A classification criterion that more than the minimum registration number is registered in the database can be set as the second classification criterion.
  • the classification criteria setting means Input a specific database or a specific list (for example, a database to be entered in the designation field A3 or the region RS in FIG. 8 or a guideline containing genes to be weighted) as a parameter for setting the second classification criteria, A classification criterion of being registered in the specific database or the specific list can be set as the second classification criterion.
  • the classification criteria setting means inputting a predetermined disease (for example, carcinoma specified by the user in the specification column A2 in FIG. 8) as a parameter for setting the second classification criteria; At least one of the classification criteria of being registered in a database or list related to the predetermined disease and the classification criteria of being registered as a sequence variation related to the predetermined disease in the database or list as the second classification criteria can be set.
  • a predetermined disease for example, carcinoma specified by the user in the specification column A2 in FIG. 8
  • the classification criterion means includes: As a parameter for setting the second classification criteria, information indicating the specific nucleic acid or the sequence of the specific nucleic acid (for example, a user-specified weighting sequence entered in the specification column A4 in FIG. 8, or a user-specified specification Sequences (for example, regulatory regions such as genes, microRNAs, untranslated regions, and transcription control elements such as promoters and enhancers. In particular, positional information on hg19 and GRCH38/hg38, which are called genomic coordinates in humans). , A classification criterion that the specific nucleic acid corresponds to sequence variation or is registered in the database or the list can be set as the second classification criterion.
  • information indicating the specific nucleic acid or the sequence of the specific nucleic acid for example, a user-specified weighting sequence entered in the specification column A4 in FIG. 8, or a user-specified specification Sequences (for example, regulatory regions such as genes, microRNAs, untranslated regions, and transcription
  • the second filtering means further classifies, among the sequence variants classified into the high category by the first filtering means, sequence variants that do not satisfy the second classification criteria into the low category (for example, "downgrade” as referred to in the specification).
  • an information processing system to which the present invention is applied is An information processing system (information processing system including the analyzer 1 in FIG. 2) that selects a target sequence mutation that has a harmful risk in a subject, For a given nucleic acid, information indicating known sequence variants that pose an adverse risk, as well as public databases, databases of human genetic polymorphisms, databases of drug-gene interactions and drug discovery genomic resources, and drug response databases.
  • the sequence mutation is the above a learning means for generating or updating a model (for example, an AI model) that outputs the degree of possibility of the target sequence mutation;
  • a model for example, an AI model
  • Each of the plurality of sequence mutations identified by sequencing the nucleic acid contained in the subject is classified into the highest category (for example, MYC1 ), and one or more low categories (eg, MYC2, MYC3, MYC4) with a lower possibility (eg, the common filter unit 53 in FIGS. 2 and 5).
  • the rescue filter unit 55 in FIG. 2 to which a machine learning method such as AI is applied It is enough to have
  • ClinVar database for diseases associated with human genome diversity and genetic diseases
  • COSMIC described above
  • dbsnp can be employed as a human gene polymorphism database
  • DGId can be employed as a database for drug-gene interactions and genomic resources for drug discovery.
  • PharmGKB or OncoKB can be adopted as a drug response database.
  • an information processing device for example, the analysis device 1 in FIG. 2 that selects a target sequence mutation that has a harmful risk in a subject, For a given nucleic acid, information indicating known sequence variants that pose an adverse risk, as well as public databases, databases of human genetic polymorphisms, databases of drug-gene interactions and drug discovery genomic resources, and drug response databases.
  • the sequence When a given sequence mutation obtained as a result of performing predetermined machine learning using a plurality of the learning information sets, with the clinical significance information of at least a part of the mutations as the learning information set, the sequence When a model that outputs the degree of possibility that the mutation is the target sequence mutation is stored in a predetermined storage medium, Each of the plurality of sequence mutations identified by sequencing the nucleic acid contained in the subject is classified into a category with the highest possibility of being selected as the target sequence mutation, based on predetermined classification criteria, and A first filtering means (for example, the common filter unit 53 in FIGS.
  • a second filtering means for reclassifying, among the sequence mutations classified into the low category by the first filtering means, sequence mutations output from the model whose degree of possibility is equal to or higher than a certain level, into the high category.
  • the rescue filter unit 55 in FIG. 2 to which a machine learning method such as AI is applied can be provided.
  • Reference Signs List 1 analysis device 11 CPU 18 storage unit 20 drive 31 removable medium 51 data receiving unit 52 setting receiving unit 53 Common filter unit 54 Seed gene filter unit 55 Rescue filter unit 56 Rank determination unit 57 Analysis result output unit 531 Basic filter 532 ... time series filter, 533 ... database filter, 534 ... function prediction filter, 535 ... quality filter, 541 ... seed gene filter, 542 ... parameter setting receiving unit, 543 ... seed Gene information acquisition part

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Public Health (AREA)
  • Biotechnology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Pathology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることを課題とする。 被検体が有するがんのドライバー変異を選定する分析装置1の共通フィルタ部53は、被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、目的配列変異と選定される可能性が一番高いランクMYC1と当該可能性がそれより低いランクMYC2乃至MYC4の夫々とのうち何れかに分類する。パラメータ設定受入部542は、ランクMYC1に分類するための第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する。シードジーンフィルタ541は、ランクMYC2乃至MYC4に分類された配列変異のうち第2分類基準を満たす配列変異を、ランクMYC1に分類しなおす。これにより、上記課題を解決する。

Description

情報処理装置、情報処理方法、及びプログラム
 本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
 従来より、体細胞の遺伝情報に含まれる塩基配列の突然変異により、疾病が生じる場合があることは広く知られている。近年では、種々の体細胞変異に関して、どのような疾病に関係するかといった情報が収集されてデータベースに記録されており、広く利用されている(非特許文献1参照)。
 また、近年、網羅的な塩基配列解析技術(例えば次世代シークエンサ)の進歩により、一回の変異の分析で検出される変異は、検体あたり数百から数百万と、膨大な量となっており、当該変異一つ一つにつき、人為的にその結果の解釈を行うのは効率的でなく、現実的でもない。そこで分析結果の人間による解釈を補助する装置が要望されている。
COSMIC Release v94 is live!、[online]、2021年3月28日、[令和3年10月8日検索]、インターネット<URL:https://cosmic-blog.sanger.ac.uk/Release-v94/>
 しかしながら、上述の従来のデータベースには、単に、その症例において生じていた変異が記録されているに過ぎなかった。そのため、データベースを利用して塩基配列の変異を分析するだけでは、そのデータベースに記録された変異が生じているか否かを判断できるものの、がんなどの病気の形成や進行に直接影響する変異(例えばがんに対するドライバー変異)であるか否かは断定できなかった。
 即ち、変異の分析結果の解釈には、他に考慮すべき事項が多岐にわたるため、ドライバー変異であるか否かを判定することは困難であった。
 そこで、本出願人は、病気の発生や進行に影響する変異である可能性の程度を提示する分析装置を実現するための技術を特許出願している(国際出願番号PCT/JP2020/037499明細書参照)。
 しかしながら、このような分析装置よりもさらに、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることが要望されている。
 本発明は、このような状況に鑑みてなされたものであり、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることを目的とする。
 上記目的を達成するため、本発明の一態様の情報処理装置は、
 被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、
 前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段と、
 前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定手段と、
 前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段と、
 を備える。
 本発明の一態様の情報処理方法及びプログラムの夫々は、本発明の一態様の情報処理装置に対応する方法及びプログラムの夫々である。
 本発明によれば、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることができる。
本発明の情報処理装置の一実施形態に係る分析装置のハードウェア構成の一例を示すブロック図である。 図1の分析装置の機能的構成の一例を示すブロック図である。 図2の分析装置に受け入れられる変位塩基配列情報の構成例を示している。 図2の分析装置から出力される分析結果情報の構成例を示している。 図2の分析装置のうち共通フィルタ部の詳細な機能的構成の一例を示すブロック図である。 図2の分析装置のうちシードジーンフィルタ部の詳細な機能的構成の一例を示すブロック図である。 図2の分析装置のうちシードジーンフィルタ部を採用することの意義を説明する模式図である。 図2の分析装置のうちシードジーンフィルタ部及びレスキューフィルタへのパラメータ入力における画面例を示す図である。 図6の機能的構成を有する分析装置における分析処理の流れの一例を説明するフローチャートである。 図9の分析処理のうち共通フィルタ処理の流れの詳細を説明するフローチャートである。 図9の分析処理のうちシードジーンフィルタ処理の流れの詳細を説明するフローチャートである。 図9の分析処理のうちレスキューフィルタ処理の流れの詳細を説明するフローチャートである。 図2の分析装置のうち共通フィルタ部の詳細な機能的構成のうち図5と異なる一例を示すブロック図である。 図13の機能的構成を有する共通フィルタ部による共通フィルタ処理の流れの詳細を説明するフローチャートである。 図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルを用いた推論の例について説明する図である。 図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルの更新の例について説明する図である。
 以下、本発明の実施形態について、図面を用いて説明する。
 図1は、本発明の情報処理装置の一実施形態に係る分析装置のハードウェア構成の一例を示すブロック図である。
 分析装置1は、分析の対象となる個体と、個体から得た検体とを識別する検体識別情報とともに、当該検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異箇所及び変異の内容を含む変異状態(配列変異)を表す変異塩基配列情報を受け入れる。変異状態(配列変異)は、一塩基の変異であってもよく、複数の遺伝子に及ぶ染色体の転座等の構造変異であってもよい。具体的に変異箇所及び変異の内容とは、変異のあった位置(リファレンスとなるゲノム情報と比較した場合に、染色体上の一方側から何番目の塩基であるかを示す情報等)と、あるべき塩基がどの塩基に変異しているのかを表す情報を含むものである。NGS解析に必要なリファレンスとなるゲノム情報には、例えばヒトにおいては、GRCh38(hg38)やGRCh37(hg19)が用いられる。
 分析装置1は、受け入れた変異塩基配列情報が表す変異状態(配列変異)ごとに、予め定められた複数の分類条件を満たすか否かにより、受け入れた変異塩基配列情報に含まれる変異状態(配列変異)ごとに暫定ランクに分類する。
 そして、分析装置1は、この変異状態(配列変異)ごとに分類された暫定ランクに基づいて、変異状態(配列変異)ごとの病的である可能性の程度を上述の分類条件とは異なる分類条件を満たすか否かにより、設定された暫定ランクを変更することで、分類しなおす。この分析装置1の動作については後に詳しく述べる。
 分析装置1は、CPU(Central Processing Unit)11と、ROM(Read Only Memory)12と、RAM(Random Access Memory)13と、バス14と、入出力インターフェース15と、入力部16と、出力部17と、記憶部18と、通信部19と、ドライブ20とを備えている。
 CPU11は、ROM12に記録されているプログラム、又は、記憶部18からRAM13にロードされたプログラムに従って各種の処理を実行する。
 RAM13には、CPU11が各種の処理を実行する上において必要なデータ等も適宜記憶される。
 CPU11、ROM12及びRAM13は、バス14を介して相互に接続されている。このバス14にはまた、入出力インターフェース15も接続されている。入出力インターフェース15には、入力部16、出力部17、記憶部18、通信部19及びドライブ20が接続されている。
 入力部16は、例えばキーボード等により構成され、各種情報を入力する。
 出力部17は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
 記憶部18は、DRAM(Dynamic Random Access Memory)等で構成され、各種データを記憶する。
 通信部19は、インターネットを含むネットワークNを介して他の装置(例えば図示せぬ分析結果を閲覧する端末の情報処理装置等)との間で通信を行う。
 ドライブ20には、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリ等よりなる、リムーバブルメディア31が適宜装着される。ドライブ20によってリムーバブルメディア31から読み出されたプログラムは、必要に応じて記憶部18にインストールされる。
 また、リムーバブルメディア31は、記憶部18に記憶されている各種データも、記憶部18と同様に記憶することができる。
 このような図1の分析装置1の各種ハードウェアと各種ソフトウェアとの協働により、各種処理の実行が可能になる。
 以下、図2を参照して、本実施形態の分析装置1がこのような各種処理を実行するための機能的構成について説明する。
 図2は、図1の分析装置の機能的構成の一例を示すブロック図である。
 図2に示すように、分析装置1においては、データ受入部51と、設定受入部52と、共通フィルタ部53と、シードジーンフィルタ部54と、レスキューフィルタ部55と、ランク決定部56と、分析結果出力部57とが機能する。
 データ受入部51は、分析の対象となる検体の遺伝情報からシーケンスアライメントにより抽出された、塩基配列の変異状態(配列変異)を表す変異塩基配列情報を受け入れる。
 図3は、図2の分析装置に受け入れられる変位塩基配列情報の構成例を示している。
 図3に示すように、変位塩基配列情報は、変異状態(配列変異)毎(同図中各行毎)に、当該変異状態(配列変異)の塩基配列が見い出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(以下、「配列変異」と呼ぶ)(Alt)と、配列変異の割合(アレル頻度:AF)とを少なくとも関連付けた情報である。
 本例の変位塩基配列情報においては、変異状態(配列変異)毎(同図中各行毎)に、これらの情報に対してさらに、深度(depth)や変異状態(配列変異)のカウント数(AltCount)等、品質に関係する指標等が関連付けられている。なお、塩基配列の長さは「1」(この場合、塩基配列の情報はA,T,C,Gのいずれかの塩基を表す情報となる)であってもよい。
 またこの変異塩基配列情報には、個体の症例等に関する情報(病名や治療歴、腫瘍割合などの情報)が含まれてもよい。
 また、このデータ受入部51は、同じ個体から、分析の対象とする変異塩基配列情報を抽出したタイミングとは異なるタイミング(複数あってもよい)で抽出された変異塩基配列情報(時系列情報)を受け入れてもよい。この場合は、データ受入部51は、分析の対象とする時点の変異塩基配列情報の指定の入力を受けておく。
 設定受入部52は、分析の設定を受け入れる。この設定は、例えば、共通フィルタ部53において、どのフィルタを用いるかという設定や、パラメータの設定を含む。
 なお、シードジーンフィルタ部54及びレスキューフィルタ部55の夫々における設定は、本実施形態の理解を容易なものとすべく本例ではシードジーンフィルタ部54及びレスキューフィルタ部55の夫々において行われるものとするが、この設定受入部52において行われてもよい。
 この共通フィルタ部53の設定の具体例は、次の共通フィルタ部53の構成とともに説明する。
 本実施の形態では、共通フィルタ部53の動作により、変異の分析結果の解釈に影響する種々の情報に基づく、病的である可能性(例えばドライバー変異である可能性)に関する評価が一次的に行われる。この評価結果は、後述する4段階のランクMYC1乃至MYC4のうち何れかにより表される。
 一次的にと記載したのは、本例では、共通フィルタ部53の評価に対してさらに、シードジーンフィルタ部54やレスキューフィルタ部55において再評価(ランクの見直し)が行われるからである。
 ここで、解釈に影響する情報には、(1)分析の際に得られる当該変異の付帯情報、及び(2)文献やデータベースに収載された変異に関連する情報、が含まれる。このうち(1)分析の際に得られる当該変異の付帯情報には、(a)検出精度や信頼性の情報(変異が検出エラーでない確率)、(b)変異のアレル頻度(同一変異を持つ細胞集団の全体に占める割合に関連する指標)、(c)時系列情報、すなわち同一症例の他の時点での検体において繰り返して当該変異が検出されているか否か、などがある。
 また、(2)文献やデータベースに収載された変異に関連する情報には、当該変異が疾患のドライバー変異として記載されているか否か(あるいはどの程度の頻度で記述がされているか)を表す情報が含まれる。SNP(single nucleotide polymorphism)データベースにも登録がある場合、変異アレルはどの程度の対立アレル頻度で、当該人種においてSNPとして報告されているかという情報が文献やデータベースに収載されていてもよい。さらには、機能予測として、当該変異がコード化されたたんぱく質の立体構造や機能に影響を与えるか、例えばがんの病態形成に関わるとして実験などにより示されているか予測されているか否かを表す情報などが文献やデータベースに収載されていてもよい。
 共通フィルタ部53は、データ受入部51が受け入れた複数の変異状態(配列変異)(時系列情報を受け入れたときには、そのうち分析の対象として指定された変異塩基配列情報に含まれる変異状態(配列変異)、以下、「分析対象とする変異状態(配列変異)」と呼ぶ)毎に、予め定められた複数の分類基準の夫々に基づいて、その変異状態(配列変異)を、ランクMYC1乃至MYC4のうち何れかに分類することで、一次的な評価を行う。
 なお、共通フィルタ部53の詳細な構成例については、図5や図13を参照して後述する。
 ここで、ランクMYC1及びランクMYC2が、配列変異がドライバー変異の可能性が高い、即ちドライバー変異候補であると評価されたことを示すランクである。
 ランクMYC1の方が、ランクMYC2よりも高確率で真のドライバー変異である可能性が高いことを示している。
 ランクMYC3は、配列変異がドライバー変異の可能性が低い(それ故にドライバー変異候補としては取り扱わない)と評価されたことを示すランクである。即ち、ランクMYC3は、配列変異が有害でない変異と評価されたことを示すランクである。
 ランクMYC4は、配列変異がドライバー変異の可能性はほぼ0であるという評価、即ち既知のSNP、errorが起こりやすい領域の変異であることを示すランクである。
 このようなデータ受入部51が受け入れた複数の変異状態(配列変異)毎に4段階のランクMYC1乃至MYC4に分類される理由は次の通りである。即ち、当該複数の変異状態(配列変異)の個数はあまりに多数(例えば数万から数億個)であるため、専門医等のユーザが真のドライバー変異を見つけ出す作業を効率的に行うことができるようにするためである。
 具体的には、専門家等のユーザが、ランクMYC1又はランクMYC2に分類された変異状態(配列変異)に的を絞って、真のドライバー変異を見つけ出す作業を行うことができるようにするためである。
 ここで、上述したように、ランクMYC1の変異状態(配列変異)の方が真のドライバー変異の可能性が高いという定義をしているため、専門家等のユーザにとっては、ランクMYC1の変異状態(配列変異)に特に的を絞った方が効率的である。
 しかしながら、詳細については後述するが、共通フィルタ部53は、全てのがんや遺伝病で共通な分類基準を用いたフィルタにより構成されている。したがって、共通フィルタ部53による一次的な評価では、癌腫や遺伝病の種類によっては、ランクMYC2の配列変異の中に真のドライバー変異が多く含まれていたり、逆に、ランクMYC1の配列変異の中に偽陽性が多く含まれている場合がある。この点の詳細については、図7を用いて後述する。
 したがって、共通フィルタ部53の一次的な評価結果をそのまま採用してしまうと、ランクMYC1の変異状態(配列変異)に特に的を絞ったとしても、専門家等のユーザは、真のドライバー変異を適切に見つけ出すことは困難であり、結局のところランクMYC2の変異状態(配列変異)もランクMYC1と同等に確認しなければならない。
 そこで、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類にとっての真のドライバーがランクMYC1に集積されるように、共通フィルタ部53によりランクMYC1又はランクMYC2に分類された1以上の変異状態(配列変異)を対象として再評価(再分類)を行うフィルタが、シードジーンフィルタとして本実施形態では採用されている。
 このシードジーンフィルタを搭載する機能ブロックが、シードジーンフィルタ部54である。
 即ち、シードジーンフィルタ部54は、共通フィルタ部53による一次的な評価としてランクMYC1又はMYC2に分類された1以上の変異状態(配列変異)毎に、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類に応じてユーザにより設定された分類基準を用いて、その変異状態(配列変異)を、ランクMYC1又はMYC2のうち何れかに再分類することで、再評価を行う。
 なお、シードジーンフィルタ部54の詳細例については、図6乃至図8を参照して後述する。
 一方、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)や、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の中にも、真のドライバー変異が含まれている可能性がある。
 そこで、このような真のドライバー変異を専門家等のユーザが見逃さないようにするためのフィルタが、レスキューフィルタとして本実施形態では採用されている。
 このレスキューフィルタを搭載する機能ブロックが、レスキューフィルタ部55である。
 即ち、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)毎に、その変異状態(配列変異)を、ランクMYC3若しくはMYC2に維持するか、又はランクMYC1に再分類することで、再評価を行う。
 ここで、レスキューフィルタ部55の分類手法は、特に限定されず、共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いて分類するルールベースの手法でもよいし、機械学習により得られたモデル(AIモデル等)を用いて分類する手法でもよい。
 なお、レスキューフィルタ部55の詳細については、図8等を参照して後述する。
 ランク決定部56は、共通フィルタ部53、シードジーンフィルタ部54、又はレスキューフィルタ部55が出力する複数の変異状態(配列変異)毎のランク(ランクMYC1乃至MYC4のうちの何れか)に従い、変異状態(配列変異)毎の病的である可能性の程度を表すランク値を決定する。ランク決定部56は、複数の変異状態(配列変異)の夫々に対して、各ランク値を関連付けた情報(以下、「分析結果情報」と呼ぶ)を生成して、分析結果出力部57に提供する。
 なお、この病的である可能性の程度を表すランク値は、ランクMYC1乃至MYC4に基づいて新たに演算された値であってもよいが、ここでは説明の便宜上、ランクMYC1乃至MYC4がそのまま採用されるものとする。
 分析結果出力部57は、分析結果情報を、図1の出力部17(例えばディスプレイ)から出力したり、通信部19から図示せぬ他装置に対して送信することで出力する。
 図4は、図2の分析装置から出力される分析結果情報の構成例を示している。
 図4に示すように、分析結果情報は、変異状態(配列変異)毎(同図中各行毎)に、当該変異状態(配列変異)の塩基配列が見い出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、配列変異(Alt)と、ランク値(MYC)とを少なくとも関連付けた情報である。
 図4の例の分析結果情報には、さらに、変異状態(配列変異)毎(同図中各行毎)に、判断に関する記録情報Rも関連付けられている。
 判断に関する記録情報Rとは、共通フィルタ部53、シードジーンフィルタ部54、及びレスキューフィルタ部55の夫々のうち、対象の変異状態(配列変異)の分析に用いられたフィルタについて、どのような分類がなされたのか(各フィルタ毎のパラメータ設定や分類基準に基づく判定内容等)を表す情報である。
 専門家等のユーザは、ランク値(MYC)のみならず、この判断に関する記録情報Rを併せて参照することで、例えば病原性ありと評価されたときに(ランクMYC1に分類されたときに)、その判断の理由が、主に時系列フィルタの判断に基づくものであるか、データベースフィルタ等の判断に基づくものであるかを区別して扱うことができる。また、専門家等のユーザは、共通フィルタ部53により元々ランクMYC1と分類されたものであるのか、それとも、シードジーンフィルタ部54やレスキューフィルタ部55の再分類によりランクMYC1となったものであるのか等を認識することができる。このことは、専門家等のユーザにとって変異の性質の理解に役立つ。
 以上、図2を参照して、図1の分析装置1の機能的構成の一例について説明した。
 さらに以下、図5乃至図8を参照して、図2の分析装置1のうち、共通フィルタ部53、シードジーンフィルタ部54、及びレスキューフィルタ部55の夫々について、その詳細な機能的構成を順次説明していく。
 図5は、図2の分析装置のうち共通フィルタ部の詳細な機能的構成の一例を示すブロック図である。
 図5において、共通フィルタ部53には、基本フィルタ531と、時系列フィルタ532と、データベースフィルタ533と、機能予測フィルタ534と、クオリティフィルタ535とが設けられている。
 ここで基本フィルタ531は、分析の対象とする変異状態(配列変異)が良性であると判断できる場合に、良性変異であることを表すランク(例えばランクMYC4)を設定する。また、基本フィルタ531は、分析の対象とする変異状態(配列変異)が良性であると判断できなければ、良性変異でないことを表すランク(例えばランクMYC3)を設定する。
 ここで良性と判断できる場合とは、がん化等を引き起こす既知の変異の塩基配列と変異状態(配列変異)に対応する変異した塩基配列との重複部分が比較的短い重複部分である場合、変異状態(配列変異)が表す変異の位置する領域がイントロン領域である場合、SNPデータベース等のように異常がない変異を蓄積したデータベースに変異状態(配列変異)が登録されている場合、又はGDI(Gene Damage Index)に基づいて変異状態(配列変異)が良性と判断できる場合等が相当する。
 ここでGDIは、各遺伝子について健常人にどれだけダメージが蓄積されているかを表す指標であり、人によって大きいダメージを受けていても(多様性があっても)、変異によって病的になると考えられない遺伝子である可能性を示す。
 基本フィルタ531は、設定受入部52から、がん化等を引き起こす既知の変異の塩基配列と変異状態(配列変異)に対応する変異した塩基配列との重複部分の長さの閾値、SNPであるか否かを判断するデータベースを特定する情報、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値、又はデータベースにSNPである確率などとして登録された値と比較される)の少なくともいずれかの設定を受け入れる。基本フィルタ531は、受け入れた設定に基づいて、分析の対象とする変異状態(配列変異)が良性であるか否かを判断する。
 具体的には例えば、基本フィルタ531は、配列変異が文節的重複(segmental duplication)と呼ばれる部位(以下、「文節的重複領域」と適宜呼ぶ)に位置する場合、良性変異であることを表すランクを設定する。
 ここで、文節的重複は、染色体の10kb乃至300kbのまとまった領域において、脊椎動物の進化の過程で遺伝子が複製されて隣り合う部位で遺伝子重複するか、あるいは全く離れた別のゲノム上で遺伝子重複したものである。そして、配列変異が文節的重複領域に位置する場合、当該配列変異は、シークエンス結果のリファレンスへのマッピング時に生じた検出エラーの結果であり、偽陽性の可能性が高い事が知られている。
 そこで、上述したように、配列変異が文節的重複と呼ばれる部位に位置する場合、基本フィルタ531は、良性変異であることを表すランクを設定する。
 より具体的には、基本フィルタ531は、配列変異が文節的重複領域に位置し、当該文節的重複領域の指標がどの程度相同であるかを示す指標が閾値を超える場合は、上述の検出エラーである可能性が高い為、良性変異であることを表すランクを設定する。
 また例えば、基本フィルタ531は、変異状態(配列変異)が表す変異の位置する領域がイントロン領域であれば、良性変異であることを表すランクを設定する。
 さらに基本フィルタ531は、上記2つの条件を満たさなくとも、指定されたSNPデータベースを検索した結果に基づいて、良性変異であることを表すランクを設定してもよい。基本フィルタ531は、例えば、検索によって変異状態(配列変異)が表す変異がSNPデータベースに登録され、かつ、そのSNPである確率として登録された値が、当該SNPデータベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すランクを設定する。
 また基本フィルタ531は、ここまでの条件を満たさない場合であっても、当該変異状態(配列変異)が存在する遺伝子のGDIを参照して、予め定められたGDI閾値より大きい場合に、良性変異であることを表すランクを設定する。
 これにより分析装置1は、例えばがんのドライバー変異となり得ない(あるいはその可能性が十分低い)遺伝子を予めふるいわけることが可能となる。
 またこの基本フィルタ531では、設定受入部52から予め定めた、良性と判断するための複数の条件のうち、どの条件を利用するか(あるいはすべての条件を利用せず、基本フィルタ531としての動作をせずに、すべての変異状態(配列変異)についてランクをランクMYC3に設定して処理をパスするか否か)の設定を受け入れてもよい。
 この例では基本フィルタ531は、利用すると設定された条件に限って、当該条件を満たすか否かを判断することとなる。
 時系列フィルタ532は、基本フィルタ531が処理をパスした(ランクMYC3が設定された)場合に、分析の対象とする変異状態(配列変異)に対応する、時系列情報に含まれる変異状態(配列変異)の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
 時系列フィルタ532は、分析の対象とする変異状態(配列変異)と、時系列情報に含まれる対応する変異状態(配列変異)とを用い、同じ変異が存在する場合に、問題とするべき変異があるものとしてランク(例えば現在のランクから第1として「1」を引く)を設定してクオリティフィルタ535に処理をパスする。第1所定量は、例えば、変異状態(配列変異)にかかるランクから1回の演算において減算又は加算される最小値である。ここでの例では基本フィルタ531が処理をパスしているので、当初のランクはランクMYC3であり、ここで時系列フィルタ532が問題とするべき変異があるものとしたときには、このランクMYC3から第1所定量として「1」を引いてランクをランクMYC2と設定することとなる。
 一方、時系列フィルタ532は、分析の対象とする変異状態(配列変異)と、時系列情報に含まれる対応する変異状態(配列変異)とを用い、同じ変異が存在しないときには、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
 なお、時系列フィルタ532は、設定受入部52から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態(配列変異)に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ532は、同じ変異状態(配列変異)があったか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
 さらに本実施の形態の例では、この時系列フィルタ532は、データ受入部51が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態(配列変異)があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスしてもよい。
 また設定受入部52から時系列フィルタ532を利用しない設定が入力されている場合、時系列フィルタ532は、同じ変異状態(配列変異)があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままMYC3に設定)して、データベースフィルタ533へ処理をパスする。
 データベースフィルタ533は、分析の対象とする変異状態(配列変異)が、予め定められた問題とするべき変異に関する情報を蓄積したデータベース(例えばCOSMIC Cancer Databaseなど)に登録されているか否かを、当該データベースのサーバへ変異状態(配列変異)に関する情報を送信して調べ、登録されている場合に、問題とするべき変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスする。ここでの例では、分析の対象とする変異状態(配列変異)について、基本フィルタ531が処理をパスし、さらに時系列フィルタ532においてランクをそのままとした状態で処理がパスされたときに、このデータベースフィルタ533が判断をすることとなるので、データベースフィルタ533は、その際のランクMYC3から第1所定量として「1」を引いて、ランクをランクMYC2に設定した上で、クオリティフィルタ535に処理をパスすることとなる。
 またこのデータベースフィルタ533は、分析の対象とする変異状態(配列変異)が、上記問題とするべき変異に関する情報を蓄積したデータベースに登録されていなかった場合に、ランクをそのままに設定して機能予測フィルタ534に処理をパスする。ここでの例では、このときのランクはランクMYC3のままとなる。
 なお、このデータベースフィルタ533は、上記問題とするべき変異に関する情報を蓄積したデータベースとして、どのようなデータベースを利用するかの設定を、設定受入部52から受け入れておく。
 この設定では、複数のデータベースを用いるべき旨の指示がされてもよく、この場合、データベースフィルタ533は、分析の対象とする変異状態(配列変異)が、上記問題とするべき変異に関する情報を蓄積したデータベースのいずれかに登録されていた場合に、問題とするべき変異があるものとしてランクを設定する。
 機能予測フィルタ534は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態(配列変異)に係る変異が、病原性のあるものとしてデータベースに登録されている場合に、病原性の変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスする。
 ここで変異の病原性を評価したデータベースとしては、SIFTや、PolyPhen2など広く知られたものがある。また、これらのデータベースのうちには、病原性の有無について多段階で評価しているものがあるが、このような場合は、この機能予測フィルタ534は、例えば病原性の疑いがあるとの判断段階にある場合に、病原性の変異があるものとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、クオリティフィルタ535に処理をパスするものとする。
 ここでの例では、分析の対象とする変異状態(配列変異)について、基本フィルタ531が処理をパスし、時系列フィルタ532においてランクをそのままとした状態で処理がパスされ、さらにデータベースフィルタ533においてもランクがそのままの状態で処理がパスされたときに、この機能予測フィルタ534が判断をすることとなるので、機能予測フィルタ534は、その際のランクMYC3から第1所定量として「1」を引いて、ランクをランクMYC2に設定した上で、クオリティフィルタ535に処理をパスすることとなる。
 またこの機能予測フィルタ534は、変異の病原性を評価したデータベースを参照して、分析の対象とする変異状態(配列変異)に係る変異が、病原性のあるものとしてデータベースに登録されていなければ(または登録されていても不明であるとか、良性ないし良性と推定される場合として登録されている場合)、ランクをそのままに設定してクオリティフィルタ535に処理をパスする。ここでの例では、このときのランクはMYC3のままとなる。
 なお、この機能予測フィルタ534においても、どのようなデータベースを利用するかの設定を、設定受入部52から受け入れておくものとする。
 クオリティフィルタ535は、分析の対象とする変異状態(配列変異)をシーケンスしたときの深度や、その他の、分析の対象とする変異状態(配列変異)のシーケンス処理の品質を評価する。この品質の指標については、深度のほか、変異状態(配列変異)のカウント数など、広く知られた指標があり、クオリティフィルタ535は、これらを組み合わせて(あるいはその組み合わせを、設定受入部52から受け入れ、当該受け入れた指標の組み合わせに従って)品質の評価を行う。なお、クオリティフィルタ535は、複数の指標を組み合わせる場合は、すべての指標により、品質が十分高いとの条件を満たす場合に、品質が十分であると判断することとする。
 クオリティフィルタ535は、この評価により、分析の対象とする変異状態(配列変異)のシーケンス処理の品質が十分である(十分高い)と判断したときに、判断が適性であるとしてランク(例えば現在のランクから第1所定量として「1」を引く)を設定して、シードジーンフィルタ部54やレスキューフィルタ部55、ランク決定部56に当該ランクを出力する。またこのクオリティフィルタ535は、分析の対象とする変異状態(配列変異)のシーケンス処理の品質が十分である(十分高い)と判断できないときには、ランクをそのままに設定してシードジーンフィルタ部54やレスキューフィルタ部55、ランク決定部56に当該ランクを出力する。
 以上、図5を参照して、図2の分析装置1のうち共通フィルタ部53の詳細な機能的構成について説明した。
 次に、図6乃至図8を参照して、図2の分析装置1のうちシードジーンフィルタ部54の詳細な機能的構成について説明する。
 図6は、図2の分析装置のうちシードジーンフィルタ部の詳細な機能的構成の一例を示すブロック図である。
 図6において、シードジーンフィルタ部54には、シードジーンフィルタ541と、パラメータ設定受入部542と、シードジーン情報取得部543とが設けられている。
 シードジーンフィルタ541は、共通フィルタ部53による一次的な評価としてランクMYC1又はMYC2に分類された1以上の変異状態(配列変異)毎に、所定の分類基準を用いて、その変異状態(配列変異)を、ランクMYC1又はMYC2のうち何れかに再分類するフィルタである。
 ここで、ランクMYC1に再分類されること(ランクMYC1を維持することを含む)を、以下、「アップグレード」と呼ぶ。これに対して、ランクMYC2に再分類されること(ランクMYC1を維持することを含む)を、以下、「ダウングレード」と呼ぶ。
 具体的には例えば、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が分類基準を満たすときにはランクMYC1にアップグレードさせ、当該分類対象が分類基準を満たさないときにはランクMYC2にダウングレード(維持)させる。
 また例えば、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が分類基準を満たすときにはランクMYC1にアップグレード(維持)させ、当該分類対象が分類基準を満たさないときにはランクMYC2にダウングレードさせる。
 なお、分類基準は、本例では理解を容易なものとするために、分類対象がランクMYC1に分類されている場合もランクMYC2に分類されている場合にも同一種類が採用されているが、特にこれに限定されない。例えば、分類対象がランクMYC1に分類されている場合には第1種分類基準が採用される一方、分類対象がランクMYC2に分類されている場合にも第2種分類基準が採用されるようにしてもよい。
 また、図8を参照して後述するように、シードジーンフィルタ541は、専門家等のユーザの設定により、アップグレードとダウングレードのうち一方のみを行うフィルタとして機能させることもできる。
 パラメータ設定受入部542は、シードジーンフィルタ541の分類基準を設定するためのパラメータを受け入れる。例えばパラメータ設定受入部542は、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類に応じて当該ユーザにより指定されたパラメータを受け入れる。そして、パラメータ設定受入部542は、受け入れたパラメータに基づいて、シードジーンフィルタ541の分類基準を設定する。
 例えば、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類にとって適切な「データベース又はリスト」を示すパラメータが、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、パラメータにより示される「データベース又はリスト」に登録されているという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
 さらに例えば、複数の癌腫や遺伝病の種類のうちユーザが着目すべき種類を示すパラメータが、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、上述の「データベース又はリスト」において、パラメータにより示される癌腫や遺伝病の種類のものとして登録されているという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
 さらに例えば、上述の「データベース又はリスト」における最低登録数を示すパラメータ等が、パラメータ設定受入部542により受け入れられる場合がある。このような場合、例えば、上述の「データベース又はリスト」に登録されている件数が、パラメータにより示される最低登録数以上であるという基準が、シードジーンフィルタ541の分類基準としてパラメータ設定受入部542により設定される。
 なお、パラメータの設定の詳細な具体例については、図8を参照して後述する。
 シードジーン情報取得部543は、シードジーンフィルタ541において分類対象の変異状態(配列変異)が分類基準を満たすか否かを判断するために用いる情報を、シードジーン情報として採用する。
 シードジーン情報としては、「データベース又はリスト」自体、或いは、当該「データベース又はリスト」に対する検索結果等が採用される。
 即ち例えば、データベースには、ある癌腫や遺伝病の種類の症例において報告(サンプル)された変異について、リファレンスゲノム上における座標(位置)と当該変異に関する統計情報と、その症例に関する情報とが含まれている。具体的には例えば、報告された変異について、全サンプルのうち、「所定遺伝子の所定座標の塩基が、他の塩基(何れの塩基)に変異していた」という報告(サンプル)がいくつ存在したか、という統計情報が、含まれる。
 また例えば、リストには、ある癌腫や遺伝病の種類の症例において報告(サンプル)された変異がサンプル毎の情報として含まれる。
 このように、データベース又はリストには、所定の癌腫や遺伝病の種類における報告(サンプル)として、「所定遺伝子の所定座標の塩基が異なる他の塩基(何れの塩基)に変化していた」という情報や、「遺伝子がいつ・どこではたらくかを決める配列(発現調節配列)の塩基が異なる他の塩基(何れの塩基)に変化していた」という情報が含まれる。発現調節配列には例えばエンハンサーやプロモーター、非タンパクコードRNAなどが含まれる。
 つまり、このようなシードジーン情報に含まれる当該遺伝子(塩基配列)や発現調節配列における所定座標の塩基の変異の情報と、判断材料の配列変異とが比較される。
 即ち、シードジーンフィルタ541は、シードジーン情報を用いて、分類対象の変異状態(配列変異)が分類基準を満たすか否かを判定し、分類基準を満たす場合にはアップグレードをし、分類基準を満たさない場合にはダウングレードをする。
 このようなシードジーンフィルタ部54を採用することで、次のような第1乃至第3のメリットを生ずることが可能になる。
 即ち、第1のメリットは、癌腫や遺伝病の種類を問わず、日本国の薬事承認申請においては、パラメータ設定受入部542により受け入れられる可能性のあるパラメータの設定の承認だけ行えばよいというものである。
 第2のメリットは、シードジーン情報のアップデートが容易というものである。
 第3のメリットは、専門家等のユーザの(パラメータ等の)設定による(シードジーンフィルタ541を用いた)再解析が容易であるというものである。
 さらに、このようなシードジーンフィルタ部54を採用することの技術的意義について、図7を参照して説明する。
 図7は、図2の分析装置のうちシードジーンフィルタ部を採用することの意義を説明する模式図である。
 図7の左方の棒グラフは、共通フィルタ部53による一次的な評価の結果として、ランクMYC1及びランクMYC2の配列変異の個数を示すものである。
 共通フィルタ部53による一次的な評価の結果をそのまま採用すると、ランクMYC1の配列変異の個数が多くなる(その分だけ、専門家等のユーザの解釈が非効率になる)という課題が生じる。
 即ち、上述したように、共通フィルタ部53による一次的な評価では、癌腫や遺伝病の種類によっては、ランクMYC2の配列変異の中に真のドライバー変異が多く含まれていたり、逆に、ランクMYC1の配列変異の中に偽陽性が多く含まれている場合がある。
 したがって、共通フィルタ部53の一次的な評価結果をそのまま採用してしまうと、ランクMYC1の変異状態(配列変異)に特に的を絞ったとしても、専門家等のユーザは、真のドライバー変異を適切に見つけ出すことは困難であり、結局のところランクMYC2の変異状態(配列変異)もランクMYC1と同等に確認しなければならない、という課題が生じる。
 この課題が生じる要因は、上述したように、共通フィルタ部53は、全てのがんや遺伝病で共通な分類基準を用いたフィルタにより構成されており、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類において重要な遺伝子や発現調節配列に重みづけができていないためである。
 シードジーンフィルタ部54は、この課題を解決するために採用されている。
 即ち、図7の右方の棒グラフは、共通フィルタ部53による一次的な評価の結果に対して、さらに、シードジーンフィルタ部54による再評価した結果を示している。
 上述したように、シードジーンフィルタ部54は、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類に応じてユーザにより指定されたパラメータを用いて、分類基準を設定すると共に、シードジーン情報を取得する。シードジーンフィルタ541は、図7の左方に示されるランクMYC1及ぶMYC2の変異状態(配列変異)の夫々を分類対象に順次設定して、シードジーン情報を用いて、分類対象が分類基準を満たすか否かを判定し、分類基準を満たす場合にはアップグレードをし、分類基準を満たさない場合にはダウングレードをする。
 その結果、図7の右方の棒グラフに示すように、癌腫や遺伝病の種類のうち、専門家等のユーザにとって着目する種類にとっての真のドライバー変異がランクMYC1に集積されるようになる。
 これにより、専門家等のユーザは、ランクMYC1を重点的に確認すれば良いので、真のドライバー変異を見逃すことを減少させることができる。
 図8は、図2の分析装置のうちシードジーンフィルタ部及びレスキューフィルタ部へのパラメータ入力における画面例を示す図である。
 図8の画面例において、領域SUGは、シードジーンフィルタ541のアップグレードのための分類基準を設定するためのパラメータを、専門家等のユーザが指定操作するためのものである。
 領域SUGには、3つの観点から、シードジーンフィルタ541のアップグレードのための分類基準を設定するためのパラメータを、専門家等のユーザが指定操作することができる。
 1つ目の観点の分類基準の設定は、図8中「1」と表記されたものであり、データベースとしてCOSMICを用いた分類基準を設定するというものである。
 専門家等のユーザは、1つ目の観点での分類基準の設定を所望する場合、図8中「1」と表記された右方のボックスをチェックする操作をする。
 この第1の観点では、2つのパラメータの指定が可能である。
 1つ目のパラメータの指定は指定欄A1によりなされる。
 指定欄A1は、COSMICにおけるカットオフ値(最低登録件数)を、専門家等のユーザが指定(入力操作)する欄である。パラメータ設定受入部542は、COSMICに当該カットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
 2つめのパラメータの指定は指定欄A2によりなされる。
 指定欄A2は、分類基準として採用する対象を、全癌腫にするのか、それとも、専門家等のユーザが指定する癌腫でCOSMICに登録されたものに限定するのかを、専門家等のユーザが指定(入力操作)する欄である。
 専門家等のユーザは、全癌腫を所望する場合、「All cancers」と記載された左方のボックスをチェックする操作をする。この場合、パラメータ設定受入部542は、COSMICに登録されている全癌腫を対象として上述のカットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
 これに対して、専門家等のユーザは、癌腫の指定を所望する場合、「Specific tissu type」と記載された左方のボックスをチェックする操作をし、さらに、その下方の欄に記載されている複数の癌腫の中から1以上を指定する。この場合、パラメータ設定受入部542は、専門家等のユーザにより指定された1以上の癌腫のうち何れかでCOSMICに登録されているものを対象として上述のカットオフ値(最低登録件数)以上登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
 2つ目の観点の分類基準の設定は、図8中「2」と表記されたものであり、データベース又はリストとしてCOSMIC以外を用いた分類基準を設定するというものである。
 専門家等のユーザは、2つ目の観点での分類基準の設定を所望する場合、図8中「2」と表記された右方のボックスをチェックする操作をする。
 この第2の観点では、専門家等のユーザは、指定欄A3により、重みづけをする遺伝子(例えば、ガイドラインにある遺伝子)又はがんのデータベースをパラメータとして指定する。この場合、パラメータ設定受入部542は、専門家等のユーザにより指定された「重みづけをする遺伝子(例えば、ガイドラインにある遺伝子)又はがんのデータベース」に登録されているという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
 3つ目の観点の分類基準の設定は、図8中「3」と表記されたものであり、専門家等のユーザ自身が指定する遺伝子を用いた分類基準を設定するというものである。
 専門家等のユーザは、3つ目の観点での分類基準の設定を所望する場合、図8中「3」と表記された右方のボックスをチェックする操作をする。
 この第3の観点では、専門家等のユーザは、指定欄A4により、当該ユーザ自身が重みづけをする遺伝子を指定する。この場合、パラメータ設定受入部542は、専門家等のユーザ自身により指定された重みづけをする遺伝子や発現調節配列に該当するという分類基準を、シードジーンフィルタ541のアップグレードのための分類基準として設定する。
 シードジーンフィルタ541のアップグレードのための分類基準の一例として、3つの観点の分類基準について説明した。これら3つの観点の分類基準は排他的なものではなく、2以上組み合わせて指定することが可能である。2つ以上の分類基準が指定された場合(「1」乃至「3」の右方のボックスのうち2つ以上がチェックされた場合)、OR条件、即ち2つ以上の分類基準のうち少なくとも1つが満たす場合には満たすと判定されるという条件が採用される。
 具体的には、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が2つ以上の分類基準のうち少なくとも1つを満たすときにはランクMYC1にアップグレードさせる。同様に、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が2つ以上の分類基準のうち少なくとも1つを満たすときにはランクMYC1にアップグレード(維持)させる。
 なお、図8の画面例において、領域SDGは、シードジーンフィルタ541のダウングレードの機能を発揮させるために、専門家等のユーザが指定操作するためのものである。
 即ち、シードジーンフィルタ541のダウングレードの機能を発揮させるためには、専門家等のユーザは、図8中「4」と表記された右方のボックスをチェックする操作をする。
 この場合、上述の3つの観点の分類基準のうち1以上が指定されている(「1」乃至「3」の右方のボックスのうち1つ以上がチェックされている)場合、1以上の分類基準の何れも満たさないときにはダウングレードの対象になる。
 即ち、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC2に分類されている場合、当該分類対象が1以上の分類基準のうち何れも満たさないときにはランクMYC2にダウングレード(維持)させる。同様に、シードジーンフィルタ541は、分類対象の変異状態(配列変異)がランクMYC1に分類されている場合、当該分類対象が1以上の分類基準の何れも満たさないときにはランクMYC2にダウングレードさせる。
 ここで、図8の画面例において、領域RSは、レスキューフィルタ部55の分類基準を設定するためのパラメータを、専門家等のユーザが指定操作するためのものである。
 専門家等のユーザは、複数のデータベース又はリストのうち1以上をパラメータとして指定する。この場合、レスキューフィルタ部55は、専門家等のユーザにより指定された1以上のデータベース又はリストのうち何れかに登録されているという分類基準を、レスキューフィルタ部55の分類基準として設定する。
 即ち、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の夫々を分類対象として順次設定する。
 レスキューフィルタ部55は、分類対象の変異状態(配列変異)が分類基準を満たす場合にはランクMYC1に再分類し、分類基準を満たさない場合にはランクMYC3若しくはMYC2を維持する。
 なお、図8の画面例で設定されるレスキューフィルタ部55は、ルールベースの手法が採用されたものである。
 ただし、レスキューフィルタ部55の分類手法は、特にこれに限定されず、上述のように、機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用されてもよい。以下、この手法が採用された場合のレスキューフィルタ部55について説明する。
 図示はしないが、学習装置は、所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行する。これにより、学習装置は、ランクMYC2若しくはMYC3の所定の配列変異を入力すると、ランクMYC1として再分類して出力するか又はランクMYC2若しくはMYC3で維持して出力するモデル(例えばAIモデル)を生成又は更新する。
 ここで、更新するとは、学習情報セットを追加して再学習することを意味する。また、学習装置は、分析装置1の一部として設けられてもよいし、分析装置1とは異なる装置として設けられてもよい。
 例えば、公共データベースとしては、ClinVar(ヒトゲノムの多様性と関連する疾患、遺伝疾患についてのデータベース)や上述のCOSMICを採用することができる。
 また例えば、ヒト遺伝子多型のデータベースとして、dbsnpを採用することができる。
 また例えば、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベースとして、DGIdを採用することができる。
 また例えば、薬物応答のデータベースとして、PharmGKBやOncoKBを採用することができる。
 この場合、レスキューフィルタ部55は、共通フィルタ部53による一次的な評価としてランクMYC3に分類された1以上の変異状態(配列変異)、及び、シードジーンフィルタ部54によりランクMYC2に再分類された1以上の変異状態(配列変異)(ランクMYC2が維持されたものも含む)の夫々を分類対象として順次設定する。
 レスキューフィルタ部55は、分類対象の変異状態(配列変異)を、上述の学習装置により生成又は更新されたモデル(AIモデル等)に入力し、当該モデルの出力がランクMYC1であると場合にはランクMYC1に再分類し、それ以外の場合にはランクMYC3若しくはMYC2を維持する。
 以上、図6乃至図8を参照して、分析装置1の機能的構成について説明した。
 次に、図9以降の図面を参照して、分析装置1の処理について説明する。
 図9は、図6の機能的構成を有する分析装置における分析処理の流れの一例を説明するフローチャートである。
 ステップS1において、設定受入部52やパラメータ設定受入部542は、パラメータ等の設定を受け入れる。
 ステップS2において、データ受入部51は、分析の対象となる検体の遺伝情報からシーケンスアライメントにより抽出された変異塩基配列情報のうち、所定の変異状態(配列変異データ)を処理対象として決定する。
 ステップS3において、共通フィルタ部53は、処理対象の配列変異データに対して共通フィルタ処理を施すことで、当該処理対象の暫定ランクを出力する。
 なお、共通フィルタ処理の詳細は、図10を用いて説明する。
 ステップS4において、分析装置1は、処理対象の配列変異データの暫定ランク(共通フィルタ部53の出力)がランクMYC4であるか否かを判定する。
 暫定ランク(共通フィルタ部53の出力)がランクMYC4である場合には、ステップS4において「YES」と判定されて、処理はステップS9に進む。
 ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、ランクMYC4を記録する。その後処理はステップS10に進む。なお、ステップS10以降の処理は後述する。
 これに対して、暫定ランク(共通フィルタ部53の出力)がランクMYC1乃至3の何れかである場合には、ステップS4において「NO」と判定されて、処理はステップS5に進む。
 ステップS5において、分析装置1は、処理対象の配列変異データの暫定ランク(共通フィルタ部53の出力)がランクMYC3であるか否かを判定する。
 暫定ランク(共通フィルタ部53の出力)がランクMYC3である場合には、ステップS5において「YES」と判定されて、処理はステップS8に進む。ステップS8の処理については後述する。
 これに対して、暫定ランク(共通フィルタ部53の出力)がランクMYC1又は2である場合には、ステップS5において「NO」と判定されて、処理はステップS6に進む。
 ステップS6において、シードジーンフィルタ部54は、処理対象の配列変異データに対して、シードジーンフィルタ処理を施す。
 なお、シードジーンフィルタ処理の詳細は、図11を用いて説明する。
 ステップS7において、分析装置1は、処理対象の配列変異データの暫定ランク(シードジーンフィルタ部54の出力)がランクMYC2であるか否かを判定する。
 暫定ランク(シードジーンフィルタ部54の出力)がランクMYC1である場合には、ステップS7において「NO」と判定されて、処理はステップS9に進む。
 ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、ランクMYC1を記録する。その後処理はステップS10に進む。なお、ステップS10以降の処理は後述する。
 これに対して、暫定ランク(シードジーンフィルタ部54の出力)がランクMYC2である場合には、ステップS7において「YES」と判定されて、処理はステップS8に進む。
 このようにして、シードジーンフィルタ部54の出力結果としての暫定ランクがランクMYC2(ステップS7「YES」)か、又は、共通フィルタ部53の出力結果としての暫定ランクがランクMYC3(ステップS5「YES」)の場合、ステップS8において、レスキューフィルタ部55は、処理対象の配列変異データに対してレスキューフィルタ処理を実行する。
 なお、レスキューフィルタ処理の詳細は、図12を用いて説明する。
 ステップS9において、ランク決定部56は、処理対象の配列変異データの暫定ランクとして、レスキューフィルタ部55の出力結果(ランクMYC1、ランクMYC2、又はランクMYC3)を記録する。
 このようにして、ステップS9において処理対象の配列変異データの暫定ランクが記録されると、処理はステップS10に進む。
 ステップS10において、分析装置1は、全ての配列変異データについてランクを記録したか否かを判定する。
 ランクが記録されていない配列変異データが存在する場合には、ステップS10において「NO」と判定されて、処理はステップS2に戻され、それ以降の処理が繰り返される。
 このようにして、ステップS2乃至S10「NO」のループ処理が繰り返された結果、全ての配列変異データのランクが記録された場合には、ステップS10において「YES」と判定されて、処理はステップS11に進む。
 ステップS11において、分析結果出力部57は、分析結果情報を生成して、図1の出力部17(例えばディスプレイ)から出力したり、通信部19から図示せぬ他装置に対して送信することで出力する。
 これにより、分析処理は終了となる。
 さらに、以下、分析処理のうち、ステップS3の共通フィルタ処理、ステップS6のシードジーンフィルタ処理、及びステップS8のレスキューフィルタ処理の夫々の詳細について、その順に説明する。
 図10は、図9の分析処理のうちステップS3の共通フィルタ処理の流れの詳細を説明するフローチャートである。
 ステップS21において、基本フィルタ531は、処理対象の配列変異データについて、基本フィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性なしである場合には、ステップS21において「NO」と判定されて、暫定ランクがランクMYC4に設定されて、処理はステップS27に進む。
 ステップS27において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
 これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
 処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありである場合には、ステップS21において「YES」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS22に進む。
 ステップS22において、時系列フィルタ532は、処理対象の配列変異データについて、時系列フィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS22において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。なお、ステップS25以降の処理は後述する。
 処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS22において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS23に進む。
 ステップS23において、データベースフィルタ533は、処理対象の配列変異データについて、データベースフィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)がデータベースフィルタの条件により病原性の可能性ありである場合には、ステップS23において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。なお、ステップS25以降の処理は後述する。
 処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS23において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS24に進む。
 ステップS24において、機能予測フィルタ534は、処理対象の配列変異データについて、機能フィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)が機能フィルタの条件により病原性の可能性ありである場合には、ステップS24において「YES」と判定されて、暫定ランクがランクMYC2に設定されて、処理はステップS25に進む。
 処理対象の変異状態(配列変異)が機能フィルタの条件により病原性の可能性ありである場合には、ステップS24において「NO」と判定されて、暫定ランクがランクMYC3に設定されて、処理はステップS25に進む。
 ステップS25において、クオリティフィルタ535は、クオリティは十分か否かを判定する。
 ステップS21乃至S24の処理の結果(基本フィルタ531、時系列フィルタ532、データベースフィルタ533及び機能予測フィルタ534のフィルタ結果)のクオリティが十分である場合には、ステップS25において「YES」と判定されて、処理はステップS26に進む。
 ステップS26において、クオリティフィルタ535は、クオリティは十分と判断されたため、暫定ランクから第1所定量である「1」を引く。
 ステップS21乃至S24の処理の結果(基本フィルタ531、時系列フィルタ532、データベースフィルタ533及び機能予測フィルタ534のフィルタ結果)のクオリティが十分でない場合には、ステップS25において「NO」と判定されて、処理はステップS27に進む。
 ステップS27において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
 これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
 図11は、図9の分析処理のうちシードジーンフィルタ処理の流れの詳細を説明するフローチャートである。
 ステップS41において、シードジーンフィルタ部54は、処理対象の配列変異データについて、暫定ランクがランクMYC1か否かを判定する。
 暫定ランクがランクMYC1である場合には、ステップS41において「YES」と判定されて、処理はステップS42に進む。
 暫定ランクがランクMYC2である場合には、ステップS41において「NO」と判定されて、処理はステップS45に進む。ステップS45以降処理については後述する。
 ステップS42において、シードジーンフィルタ541は、処理対象の配列変異データについて、アップグレードのための分類基準を満たすか否かを判定する。
 処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たす場合には、ステップS42において「YES」と判定されて、処理はステップS43に進む。
 ステップS43において、シードジーンフィルタ541は、暫定ランクをMYC1で維持(アップグレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
 処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たさない場合には、ステップS42において「NO」と判定されて、処理はステップS44に進む。
 ステップS44において、シードジーンフィルタ541は、暫定ランクをMYC2に変更(ダウングレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
 ステップS45において、シードジーンフィルタ541は、処理対象の配列変異データについて、アップグレードのための分類基準を満たすか否かを判定する。
 処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たす場合には、ステップS45において「YES」と判定されて、処理はステップS46に進む。
 ステップS46において、シードジーンフィルタ541は、暫定ランクをMYC2で維持(ダウングレード)する。そして、処理は、ステップS48に進む。ステップS48の処理については後述する。
 処理対象の変異状態(配列変異)がアップグレードのための分類基準を満たさない場合には、ステップS45において「NO」と判定されて、処理はステップS47に進む。
 ステップS47において、シードジーンフィルタ541は、暫定ランクをMYC1に変更(アップグレード)する。そして、処理は、ステップS48に進む。
 ステップS48において、シードジーンフィルタ部54は、シードジーンフィルタ部としての暫定のランクを出力する。
 これにより、図9のステップS6の共通フィルタ処理は終了し、処理はステップS7に進む。
 図12は、図9の分析処理のうちステップS8のレスキューフィルタ処理の流れの詳細を説明するフローチャートである。
 ステップS61において、レスキューフィルタ部55は、処理対象の配列変異データについて、レスキューフィルタ条件を満たすか否かを判定する。
 処理対象の変異状態(配列変異)がレスキューフィルタ条件を満たさない場合には、ステップS61において「NO」と判定されて、処理はステップS62に進む。
 ステップS62において、レスキューフィルタ部55は、暫定ランクをランクMYC3又はMYC2で維持(ダウングレード)する。そして、処理は、ステップS64に進む。ステップS64の処理については後述する。
 処理対象の変異状態(配列変異)がレスキューフィルタ条件を満たす場合には、ステップS61において「YES」と判定されて、処理はステップS63に進む。
 ステップS63において、レスキューフィルタ部55は、暫定ランクをMYC1に変更(アップグレード)する。そして、処理は、ステップS64に進む。
 ステップS64において、レスキューフィルタ部55は、レスキューフィルタ部としての暫定のランクを出力する。
 これにより、図9のステップS8のレスキューフィルタ処理は終了し、処理はステップS9に進む。
 なお、以上のレスキューフィルタ処理は、ルールベースの手法が採用されたレスキューフィルタ部55の処理例である。
 即ち、機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用された場合には、レスキューフィルタ処理は、処理対象の配列データを当該モデルに入力して、当該モデルの出力をランクとして出力するといった単純な処理になる。
 以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
 例えば、共通フィルタ部53は、図5の例に特に限定されず、次のような構成を有する各種各様な形態を取ることができる。具体的には例えば、共通フィルタ部53は、図13に示すような構成を取ることもできる。
 図13は、図2の分析装置のうち共通フィルタ部53の詳細な機能的構成のうち図5と異なる一例を示すブロック図である。
 図13の例の共通フィルタ部は、以下のような変異状態(配列変異)の分析において有用である。従って、以下のような変異状態(配列変異)を分析するものとして、説明する。
 まず前提として、特定の組み合わせの2つの遺伝子が染色体の転座や逆位等に起因して融合することにより、がん細胞の増殖を引き起こすことが知られている。例えば、BCR遺伝子とABL遺伝子とが染色体の転座により融合したBCR-ABL融合遺伝子は、白血病細胞を増殖させることが知られている。
 共通フィルタ部53は、基本フィルタ531と、時系列フィルタ532と、融合遺伝子フィルタ536と、保存位置フィルタ537と、構造フィルタ538と、クオリティフィルタ539とを有する。
 また、特定の組み合わせの2つの候補遺伝子が融合した融合遺伝子においてドライバー変異を引き起こすことが知られている複数の組み合わせの候補遺伝子がコード化された塩基配列が融合遺伝子ごとにそれぞれ、記憶部18の一領域記憶されている。例えば、BCR遺伝子とABL遺伝子とがコード化された塩基配列が記憶部18の一領域に記憶されている。
 即ち、分析装置1は以下の情報を取得し、情報処理に用いることができる。
 分析装置1は、特定の組み合わせの候補遺伝子が融合した融合遺伝子(以下、第1融合遺伝子)においてドライバー変異候補となる2つの候補遺伝子の塩基配列を第1融合遺伝子ごとに取得する。図13の共通フィルタ部53が採用された例では、分析装置1は、記憶部18に記憶されている複数の第1融合遺伝子に含まれる2つの候補遺伝子のそれぞれの塩基配列を第1融合遺伝子ごとに記憶部18から取得する。
 また、外部サーバ(図示せず)が複数の第1融合遺伝子の候補遺伝子がコード化された塩基配列を記憶していてもよい。分析装置1は、通信部19を介して、外部サーバから第1融合遺伝子の2つの候補遺伝子がコード化された塩基配列を第1融合遺伝子ごとに取得してもよい。
 特定の候補遺伝子と他の遺伝子とが融合した融合遺伝子ががん細胞の増殖を引き起こすことがある。例えば、ALK遺伝子が他の遺伝子と融合した融合遺伝子は、がん細胞の増殖を引き起こすことが知られている。記憶部18には、他の遺伝子と融合した融合遺伝子(以下、第2融合遺伝子ともいう)においてドライバー変異候補となる複数の候補遺伝子の塩基配列が記憶されている。
 分析装置1は、他の遺伝子と融合した第2融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列を取得する。例えば、分析装置1は、複数の第2融合遺伝子の候補遺伝子の塩基配列を記憶部18から取得する。分析装置1は、通信部19を介して、複数の第2融合遺伝子の候補遺伝子の塩基配列を外部サーバから取得してもよい。
 分析装置1は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置を示す保存配列位置情報を取得する。例えば、分析装置1は、保存配列位置情報を記憶部18から取得する。分析装置1は、通信部19を介して、保存配列位置情報を外部サーバから取得してもよい。
 基本フィルタ531は、一塩基多型に特有の処理を実行しない点を除いて、図2と同様である。基本フィルタ531は、分析の対象とする変異状態が、良性であると判断できる場合に、良性変異であることを表すランク(例えばランクMYC4)を設定して、次のフィルタとして設定されたフィルタにその結果を出力する。また、基本フィルタ531は、分析の対象とする変異状態が、良性であると判断できなければ、良性変異でないことを表すランク(例えばランクMYC3)を設定し、次のフィルタとして設定されたフィルタに処理をパスする。
 基本フィルタ531は、設定受入部52からがん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分の長さの閾値を特定する情報と、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値などとして登録された値と比較される)の設定を受け入れて、当該設定に基づいて分析の対象とする変異状態が、良性であるか否かを判断する。
 具体的に基本フィルタ531は、がん化等を引き起こす既知の変異の塩基配列と変異状態に対応する変異した塩基配列との重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異であることを表すランクを設定する。また基本フィルタ531は、そうでなくても、変異状態が表す、変異の位置する領域がイントロン領域であれば、良性変異であることを表すランクを設定する。
 さらに基本フィルタ531は、上記2つの条件を満たさなくとも、指定されたデータベースを検索し、検索によって変異状態が表す変異がデータベースに登録され、かつ、その変異である確率として登録された値が、当該データベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すランクを設定する。
 時系列フィルタ532は、分析の対象とする変異状態に対応するランクから減算する値が図5の共通フィルタ部53の例と異なることや、時系列フィルタ532による演算後のランクの出力先が図5の共通フィルタ部53の例と異なることを除いて、図5の共通フィルタ部53の例と同様である。時系列フィルタ532は、分析の対象とする変異状態に対応する、時系列情報に含まれる変異状態の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
 時系列フィルタ532は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在する場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランク(例えばランクから第2所定量として「2」を引く)を決定してクオリティフィルタ539に処理をパスする。ここでの例では基本フィルタ531が処理をパスしているので、当初のランクはランクMYC3であり、ここで時系列フィルタ532が病的である可能性があるものとしたときには、このランクMYC3から第2所定量として「2」を引いてランクをランクMYC1と設定することとなる。第2所定量は、第1所定量より大きい値である。
 一方、時系列フィルタ532は、分析の対象とする変異状態と、時系列情報に含まれる対応する変異状態とを用い、同じ変異が存在しないときには、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
 なお、時系列フィルタ532は、設定受入部52から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する変異状態に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ532は、同じ変異状態があったか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスする。
 さらに、この時系列フィルタ532は、図5の共通フィルタ部53の例と同様に、データ受入部51が時系列情報を受け入れていない場合(変異塩基配列情報としては、分析の対象とする変異塩基配列情報だけを受け入れている場合)には、同じ変異状態があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、データベースフィルタ533へ処理をパスしてもよい。
 また設定受入部52から時系列フィルタ532を利用しない設定が入力されている場合、時系列フィルタ532は、同じ変異状態があるか否かを判断することなく、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、融合遺伝子フィルタ536へ処理をパスする。
 以下、変異塩基配列情報に含まれるいずれかの変異状態に対応する変異している塩基配列を変異塩基配列ともいう。融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ536は、分析装置1が取得した複数の第1融合遺伝子について、第1融合遺伝子の2つの候補遺伝子がコード化された2つの塩基配列と、変異塩基配列に含まれる少なくとも一部の塩基配列との類似度が2つとも閾値以上であるか否かを第1融合遺伝子ごとに判定する。類似度は、例えば2つの塩基配列のアライメントが一致する割合により表される。2つの塩基配列のアライメントが一致する割合が閾値以上である場合に、2つの塩基配列が類似すると判定される。
 一例としては、融合遺伝子フィルタ536は、分析装置1が取得したBCR遺伝子とABL遺伝子とが融合したBCR-ABL第1融合遺伝子においてBCR遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。次に、融合遺伝子フィルタ536は、BCR-ABL第1融合遺伝子においてABL遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。
 融合遺伝子フィルタ536は、求めた2つの類似度が2つとも閾値以上であるか否かを判定する。閾値は、例えば、第1融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
 融合遺伝子フィルタ536は、求めた2つの類似度が2つとも閾値以上である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定する。
 一方、融合遺伝子フィルタ536は、求めた2つの類似度のうち、少なくとも一方の類似度が閾値未満である場合に、分析装置1が取得した別の第1融合遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ536は、分析装置1が取得した全ての第1融合遺伝子について、求めた2つの類似度の少なくとも一方が閾値未満である場合に、どの第1融合遺伝子についても、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていないと判定する。
 また、融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ65%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ536は、第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ80%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 また、融合遺伝子フィルタ536は、複数の第1融合遺伝子の候補遺伝子の組み合わせを記憶している外部サーバへ、分析対象の変異状態に対応する変異塩基配列を送信してもよい。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれているか否かを調べる。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている複数の第1融合遺伝子のうち、いずれかの第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれていることを示す通知を外部サーバから受信した場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 融合遺伝子フィルタ536は、分析装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ536は、分析装置1が取得した複数の第2融合遺伝子について、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれる融合遺伝子の一方の遺伝子の塩基配列との類似度を第2融合遺伝子ごとに求める。融合遺伝子フィルタ536は、求めた類似度が閾値以上であるか否かを判定する。閾値は、第2融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
 融合遺伝子フィルタ536は、求めた類似度が閾値以上である場合に、分析装置1が取得した第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含むと判定する。融合遺伝子フィルタ536は、求めた類似度が閾値未満である場合に、分析装置1が取得した別の第2融合遺伝子の候補遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ536は、分析装置1が取得した全ての第2融合遺伝子について、求めた類似度が閾値未満である場合に、どの第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子も変異塩基配列が含んでいないと判定する。
 また、融合遺伝子フィルタ536は、分析装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が65%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が80%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 また、融合遺伝子フィルタ536は、複数の第2融合遺伝子を記憶している外部サーバへ、変異塩基配列を送信してもよい。融合遺伝子フィルタ536は、外部サーバのデータベースに登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいるか否かを調べる。融合遺伝子フィルタ536は、登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいることを示す通知を外部サーバから受信した場合に、第2融合遺伝子の候補遺伝子と類似する遺伝子を変異塩基配列が含んでいると判定してもよい。
 融合遺伝子フィルタ536は、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かの判定結果によりランクを決定する。例えば、融合遺伝子フィルタ536は、分析装置1が取得した複数の第1融合遺伝子のいずれかについて、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定した場合に、病的である可能性があるものと、分析の対象とする変異状態に対応するランクを決定して(例えばランクから第2所定量として「2」を引く)クオリティフィルタ539に処理をパスする。
 このようにして、融合遺伝子フィルタ536は、ドライバー変異である可能性が比較的高いことが知られている第1融合遺伝子の2つの候補遺伝子の塩基配列を参照して、変異状態が病的である可能性の程度をランクにより精度よく推定することができる。
 融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子を変異塩基配列が含むか否かの判定結果によりランクを決定する。例えば、融合遺伝子フィルタ536は、分析装置1が取得した複数の第2融合遺伝子のいずれかの候補遺伝子と類似する遺伝子を変異塩基配列が含むと判定した場合に、病的な可能性があるものと分析の対象とする変異状態に対応するランクを決定して(例えばランクから第1所定量として「1」を引く)保存位置フィルタ537に処理をパスする。
 融合遺伝子フィルタ536は、分析装置1が取得した第1融合遺伝子の2つの候補遺伝子とそれぞれ類似する候補遺伝子の融合遺伝子が変異塩基配列に含まれていないと判定した場合や、第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含んでいないと判定した場合に、ランクをそのままに設定(ここでは当初のランクがランクMYC3であるので、そのままランクMYC3に設定)して、保存位置フィルタ537へ処理をパスする。
 融合遺伝子の2つの候補遺伝子の組み合わせの一方が記憶部18に登録されていない場合であっても、特定の候補遺伝子を含む第2融合遺伝子についてはドライバー変異となる可能性があることが知られている。融合遺伝子フィルタ536は、第2融合遺伝子の候補遺伝子の塩基配列を参照することにより、変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
 異なる生物種のゲノムの間において保存された保存配列は、細胞の生理活性に重要な役割を果たしていることが多い。このため、保存配列の位置に変異が生じている場合、変異状態が病的である可能性が比較的高くなる。保存位置フィルタ537は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が、変異状態の変異箇所に含まれるか否かによりランクを決定する。より詳しくは、保存位置フィルタ537は、分析装置1が取得した保存配列位置情報が示す保存配列の位置が、変異箇所に含まれるか否かを判定する。
 保存位置フィルタ537は、変異箇所に保存配列の位置が含まれると判定した場合に、病的である可能性があるものと分析の対象とする変異状態に対応するランクを決定して(例えばランクから第1所定量として「1」を引く)、構造フィルタ538に処理をパスする。一方、保存位置フィルタ537は、変異箇所に保存配列の位置が含まれていないと判定した場合に、ランクをそのままに設定して、構造フィルタ538へ処理をパスする。このようにして、保存位置フィルタ537は、保存配列の位置を示す情報を利用して、この変異箇所に対応する変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
 また、染色体の転座や重要な遺伝子の欠失、複数の遺伝子に及ぶ変異等の構造変異が生じている場合、これらの構造変異が病的である可能性は比較的高いことが知られている。構造フィルタは、変異塩基配列情報が表す変異状態が染色体の転座等の構造変異であるか否かを判定する。
 構造フィルタ538は、変異塩基配列情報が表す変異状態が染色体の転座であるか否かを判定し、この判定結果によりランクを決定する。構造フィルタ538は、変異塩基配列情報が示す変異状態に含まれる変異の内容や変異箇所を参照して、染色体の転座が生じているか否かを判定する。また、構造フィルタ538は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が染色体の転座であるか否かを判定してもよい。
 構造フィルタ538は、変異塩基配列情報が表す変異状態が複数の遺伝子に及ぶ変異であるか否かを判定し、この判定結果によりランクを決定する。構造フィルタ538は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、複数の遺伝子に及ぶ変異が生じているか否かを判定する。構造フィルタ538は、変異状態に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、変異状態が複数の遺伝子に及ぶ変異であるか否かを判定してもよい。
 記憶部18には、細胞のがん化等に関与する複数の登録遺伝子を示す情報が予め登録されている。登録遺伝子を示す情報は、例えば、登録遺伝子を識別するための識別情報や登録遺伝子の染色体上の位置を示す情報である。構造フィルタ538は、変異塩基配列情報が表す変異状態が登録遺伝子の欠失であるか否かを判定し、この判定結果によりランクを決定してもよい。構造フィルタ538は、変異塩基配列情報が示すいずれかの変異状態に含まれる変異の内容や変異箇所を参照して、記憶部18に登録されている複数の登録遺伝子のいずれかが欠失したか否かを判定する。
 記憶部18には、細胞のがん化等に関与する遺伝子の発現を制御するエンハンサーの染色体上の位置情報が予め登録されている。構造フィルタ538は、転座、逆位、欠失等が生じていると判定した場合において、変異塩基配列情報が表す変異状態が記憶部18に登録されているがん遺伝子が、記憶部18に登録されているエンハンサーの近傍に位置する脱制御異常であるか否かを判定し、この判定結果によりランクを決定してもよい。
 記憶部18には、遺伝子領域のゲノムにおける向き(5’→3’,3’→5’)の情報が予め登録されている。構造フィルタ538は、転座や欠失等により、変異塩基配列情報が表す変異状態が第1融合遺伝子や第2融合遺伝子等の融合遺伝子を形成すると判定した場合において融合遺伝子を形成する2つの遺伝子を第一候補遺伝子及び第二候補遺伝子とすると、第一候補遺伝子と第二候補遺伝子の向きがそれぞれ同一の方向であるか(例えば、第一候補遺伝子5’→3’で第二候補遺伝子も5’→3’方向、もしくは、第一候補遺伝子3’→5’で第二候補遺伝子3’→5’の組み合わせであるか)を判定し、機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりランクを決定してもよい。
 記憶部18には、遺伝子領域のアミノ酸翻訳(コドン)やRNAのスプライシングに関わる配列情報が予め登録されている。構造フィルタ538は、転座や欠失等により、変異塩基配列情報が表す変異状態が融合遺伝子を形成すると判定した場合において、上記項目の情報を元に機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりランクを決定してもよい。
 また、構造フィルタ538は、変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定する。構造フィルタ538は、特定した塩基配列のゲノム上の位置と、記憶部18に登録されている複数の登録遺伝子の位置とを比較することにより、いずれかの登録遺伝子の欠失が生じたか否かを判定してもよい。
 構造フィルタ538は、転座が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランクを決定する。例えば、構造フィルタ538は、変異状態に対応するランクから第1所定量として「1」を引く。一方、転座が生じていないと判定した場合に、分析の対象とする変異状態に対応するランクをそのままとする。
 構造フィルタ538は、複数の遺伝子に及ぶ変異が生じていると判定した場合に、病的である可能性があるものとして分析の対象とする変異状態に対応するランク(例えば変異状態に対応するランクから第1所定量として「1」を引く)を決定する。一方、構造フィルタ538は、複数の遺伝子に及ぶ構造変異が生じていないと判定した場合に、変異状態に対応するランクをそのままとする。
 構造フィルタ538は、記憶部18に登録されている複数の登録遺伝子のいずれかが欠失していると判定した場合に、分析の対象とする変異状態に対応するランクから第1所定量をさらに引いてクオリティフィルタ539に処理をパスする。一方、構造フィルタ538は、記憶部18に登録されている複数の遺伝子がいずれも欠失していないと判定した場合に、分析の対象とする変異状態に対応するランクをそのままとし、クオリティフィルタ539に処理をパスする。このようにして、構造フィルタ538は、染色体の転座や複数の遺伝子に及ぶ変異、細胞のがん化等に関与する遺伝子の欠失等の構造変異が生じているか否かを判定することにより、変異状態が病的である可能性の程度をランクにより精度よく提示することができる。
 図14は、図13の機能的構成を有する共通フィルタ部による共通フィルタ処理の流れの詳細を説明するフローチャートである。
 ステップS81において、基本フィルタ531は、処理対象の配列変異データについて、基本フィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありではない場合には、ステップS81において「NO」と判定されて、処理はステップS89に進む。
 ステップS89において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
 これにより、図14のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
 処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありである場合には、ステップS81において「YES」と判定されて、処理はステップS82に進む。
 ステップS82において、時系列フィルタ532は、処理対象の配列変異データについて、時系列フィルタの条件により病原性の可能性ありか否かを判定する。
 処理対象の変異状態(配列変異)が時系列フィルタの条件により病原性の可能性ありである場合には、ステップS82において「YES」と判定されて、処理はステップS87に進む。なお、ステップS87以降の処理は後述する。
 処理対象の変異状態(配列変異)が基本フィルタの条件により病原性の可能性ありではない場合には、ステップS82において「NO」と判定されて、処理はステップS83に進む。
 ステップS83において、融合遺伝子フィルタ536は、処理対象の配列変異データについて、第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むか否かを判定する。
 処理対象の変異状態(配列変異)が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むである場合には、ステップS83において「YES」と判定されて、処理はステップS87に進む。なお、ステップS87以降の処理は後述する。
 処理対象の変異状態(配列変異)が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むではない場合には、ステップS83において「NO」と判定されて、処理はステップS84に進む。
 ステップS84において、融合遺伝子フィルタ536は、処理対象の配列変異データについて、第2融合遺伝子の候補遺伝子に類似する遺伝子の融合遺伝子を含むかを判定する。
 ステップS85において、保存位置フィルタ537は、処理対象の配列変異データについて、変位箇所に保存配列の位置が含まれるかを判定する。
 ステップS86において、構造フィルタ538は、処理対象の配列変異データについて、各種の構造変位を含むか否かを判定する。
 ステップS87において、クオリティフィルタ539は、クオリティは十分か否かを判定する。
 ステップS81乃至S86の処理の結果(基本フィルタ531、時系列フィルタ532、融合遺伝子フィルタ536、保存位置フィルタ537及び構造フィルタ538のフィルタ結果)のクオリティが十分である場合には、ステップS87において「YES」と判定されて、処理はステップS88に進む。
 ステップS88において、クオリティフィルタ539において、クオリティは十分と判断されたため、暫定ランクから第1所定量である「1」を引く。
 ステップS81乃至S86の処理の結果(基本フィルタ531、時系列フィルタ532、融合遺伝子フィルタ536、保存位置フィルタ537及び構造フィルタ538のフィルタ結果)のクオリティが十分でない場合には、ステップS87において「NO」と判定されて、処理はステップS89に進む。
 ステップS89において、共通フィルタ部53は、共通フィルタ部としての暫定のランクを出力する。
 これにより、図9のステップS3の共通フィルタ処理は終了し、処理はステップS4に進む。
 以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
 例えば、上述の実施形態において、共通フィルタ部53に対して、シードジーンフィルタ部54やレスキューフィルタ部55が採用されたが、特にこれに限定されない。即ち、共通フィルタ部53のみを採用した場合に比較して、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性を向上させることができるフィルタであれば足り、例えば次のようなフィルタ部を採用することができる。
 即ち、まず前提として、共通フィルタ部53は、次のような構成を取れば足りる。
 即ち、被検体が有する、有害リスクのある目的配列変異を選定する分析装置1に含まれる共通フィルタ部53は、被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、目的配列変異と選定される可能性が一番高い高カテゴリ(例えばMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えばMYC2、MYC3、MYC4)の夫々とのうち何れかに分類する。
 この場合、例えば、共通フィルタ部53の後段に、ルールベースの手法を採用したフィルタ部として、次のような分類基準設定部と第2フィルタリング部とを有する構成を採用することができる。
 即ち、分類基準設定部は、高カテゴリに分類するための第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準(例えばシードジーンフィルタ541の分類基準や、ルールベースの手法を採用したレスキューフィルタ部55の分類基準)として設定する。
 第2フィルタリング部は、共通フィルタ部53により低カテゴリに分類された配列変異のうち、第2分類基準を満たす配列変異を、高カテゴリに分類しなおす。
 また例えば、共通フィルタ部53の後段に、AI等の機械学習の手法を採用したフィルタ部として、次のような第2フィルタリング部とを有する構成を採用することができる。
 まず前提として、図示せぬ学習装置は、所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が目的配列変異である可能性の度合い(例えばランクMYC1乃至MYC4)を出力するモデル(例えばAIモデル)を生成又は更新する。
 ここで、更新するとは、学習情報セットを追加して再学習することを意味する。また、学習装置は、分析装置1の一部として設けられてもよいし、分析装置1とは異なる装置として設けられてもよい。
 この場合、第2フィルタリング部は、共通フィルタ部53により低カテゴリに分類された配列変異のうち、当該モデルから出力される可能性の度合いが一定以上である配列変異を、高カテゴリに分類しなおす。
 ここで、上述したように、レスキューフィルタ部55に機械学習により得られたモデル(AIモデル等)を用いて分類する手法が採用された場合、レスキューフィルタ処理は、処理対象の配列データを当該モデルに入力して、当該モデルの出力をより高いランクとして出力するといった処理とすることもできる。
 以下、図15及び図16を用いて、機械学習により得られたAIモデル等を用いた推論や当該AIモデルの生成又は更新の例について説明する。
 図15は、図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデル等を用いる場合において、当該AIモデルを用いた推論の例について説明する図である。
 AIモデルを用いた推論における入力や出力には、例えば、図15に示す表に示すように、「MYC(AI補正後)」、「AI推定による変異の病原性」、「ルールベースのMYC(補正前)」、「Chr」、「座標」、「Reference配列」、「変異配列」の項目が存在する。
 「Chr」の項目は、図3等の説明で上述した、変異状態(配列変異)の塩基配列が見い出された染色体の番号である。
 「座標」の項目は、図6等の説明で上述した、リファレンスゲノム上における座標(位置)である。
 「Reference配列」の項目は、リファレンスゲノム上における上述の「座標」における塩基配列(図15の例では1つの塩基)である。
 「変異配列」の項目は、検体の遺伝情報からシーケンスアライメントにより抽出された塩基配列の変異箇所(上述の座標)における塩基配列(図15の例では1つの塩基)である。
 上述したように、レスキューフィルタ部55には、これらの情報が入力され、共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いてルールベースの手法により分類することができる。
 ここで、図15における、「ルールベースのMYC(補正前)」の項目は、レスキューフィルタ部55により共通フィルタ部53やシードジーンフィルタ部54で採用されたものとは異なる分類基準を用いてルールベースの手法により分類された結果のランクである。
 さらに、レスキューフィルタ部55は、機械学習により得られたモデル(AIモデル等)を用いて分類する手法を採用することができる。
 なお、レスキューフィルタ部55が採用する機械学習により得られたモデル(AIモデル等)の出力は、各種各様なものを採用することができるが、ここでは、ランクを補正するために変異の病原性が有るか否かの指標を「MYC(AI補正後)」を出力するものとする。
 ここで、図15における「AI推定による変異の病原性」は、専門家にみたてたモデルであって、機械学習により得られたモデル(AIモデル等)による、変異の病原性の有無である。即ち例えば、上述の「Chr」、「座標」、「Reference配列」、「変異配列」の情報が入力され、変異の病原性の有無を推定して出力する、所定のルールベースの手法(専門家の判断基準をルールとした手法等)がモデルとして生成される。その結果、「AI推定による変異の病原性」が有りと判断された変異については、「ルールベースのMYC(補正前)」から所定量である「1」が引かれた「MYC(AI補正後)」が、レスキューフィルタ部55から出力される。
 このように、レスキューフィルタ部55では、機械学習により得られたモデル(AIモデル等)を用いて分類する手法により、「MYC(AI補正後)」が推論結果として出力することができる。
 なお、例えば、レスキューフィルタ部55が採用する機械学習により得られたモデル(AIモデル等)は、「AI推定による変異の病原性」を出力するものではなく、「MYC(AI補正後)」を出力するように学習されてもよい。
 図16は、図12のレスキューフィルタ処理において機械学習により生成又は更新されるAIモデルを用いる場合において、当該AIモデルの更新の例について説明する図である。
 即ち、図16における、「MYC(専門家確認後)」の項目は、図15に含まれる各種情報を、専門家が判断や精密検査の結果を反映する等して確認した後、即ち、専門家の判断が反映された結果のランクMYCである。
 図16に示す表の4行目(項目名を含めると5行目)においては、「MYC(専門家確認後)」と、「MYC(AI補正後)」とが異なっている。
 そこで、機械学習により得られたモデル(AIモデル等)は、入力情報IDが入力された場合に、出力情報ILが出力されるように学習(機械学習により得られたモデル(AIモデル等)の更新)を行うことができる。これにより、レスキューフィルタ部55は、機械学習により得られたモデル(AIモデル等)は、「MYC(専門家確認後)」を再現するように学習される。即ち、機械学習により得られたモデル(AIモデル等)が採用されたレスキューフィルタ部55の精度が向上する。換言すれば、機械学習により得られたモデル(AIモデル)を利用することにより、図12のレスキューフィルタ処理の精度を向上させることができるようになる。
 以上、レスキューフィルタ部55において、機械学習により生成又は更新されるAIモデル等を用いる場合において、当該AIモデルを用いた推論を行うことで精度を向上させることができることについて説明した。
 以下、さらに、シードジーンフィルタ処理、即ち、シードジーンフィルタ部54における処理において、機械学習により生成又は更新されるAIモデル等が用いられる例について、説明する。
 即ち、シードジーンフィルタ処理において、機械学習により生成また更新されるAIモデル等が用いられてもよい。
 例えば、モデル(AIモデル等)は、臨床情報及び専門家により確認後のランクMYCに基づいて、シードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータに関して最適化するための補正値の提案をするための学習がなされて生成されてもよい。
 モデル(AIモデル等)は、臨床情報として、共通フィルタ部53による暫定のランク及びシードジーン情報取得部543により取得されるシードジーン情報を学習データの少なくとも一部として用いることができる。
 また、モデル(AIモデル等)は、図16における「MYC(専門家確認後)」の情報を学習データの少なくとも一部として用いることができる。
 これにより、モデル(AIモデル等)は、シードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータに関して最適化するための補正値を出力することができる。専門家等のユーザは、モデル(AIモデル等)により提案された補正値を確認し、実際にシードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータとしてどのような値を用いるのかを判断する。即ち、専門家等のユーザは、モデル(AIモデル)により提案された補正値を検討した上で、例えば、図8の例の画面例に入力するパラメータを決定する。
 これにより、モデル(AIモデル等)の提案により、専門家等のユーザは、より好適であると考えられるシードジーンフィルタ処理において用いられる閾値(カットオフ値)やパラメータを採用することができるようになる。
 また、これにより、専門医に馴染みのあるルールベースAI、且つ、機械学習のいいとこ取りの折衷型AIが実装されると言える。換言すれば、シードジーンフィルタ処理におけるランクMYCの付与そのものはルールベースにより行われ、そのパラメータは説明可能なパラメータとなっている。そして、そのパラメータの補正値がモデル(AIモデル等)により、行われる。
 従来、AIモデルを用いた処理については、どのような根拠でその処理(例えば、フィルタリングの処理)が行われたのかの説明可能性が担保されず、ブラックボックスとなることが通常であった。
 しかしながら、上述したモデル(AIモデル等)は、説明可能な閾値(カットオフ値)やパラメータに関して最適化するための補正値を出力することで、これを解消することができるのである。
 これにより、人間と同じ方法での、説明可能性(ルールベース)を担保したフィルタリングによる解釈の作業効率の改善と、モデル(AIモデル等)によるルール(特徴量)の改善によるフィルタリング精度の向上が実現される。
 また、図4に示すシステム構成、図5に示す分析装置1のハードウェア構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
 また、図6に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理システムに備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特に図6の例に限定されない。
 また、機能ブロックの存在場所も、図6に限定されず、任意でよい。
 例えば、図6の例において、上述の処理は分析装置1側で行われる構成となっているが、これに限定されず、図示せぬ他の情報処理装置側で処理の少なくとも一部が行われてもよい。
 即ち、分析処理の実行に必要となる機能ブロックは、分析装置1側が備える構成となっているが、これは例示に過ぎない。分析装置1側に配置された機能ブロックの少なくとも一部を、図示せぬ情報処理装置側が備える構成としてもよい。
 また、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。
 また、1つの機能ブロックは、ハードウェア単体で構成してもよいし、ソフトウェア単体で構成してもよいし、それらの組み合わせで構成してもよい。
 一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、コンピュータ等にネットワークや記録媒体からインストールされる。
 コンピュータは、専用のハードウェアに組み込まれているコンピュータであってもよい。
 また、コンピュータは、各種のプログラムをインストールすることで、各種の機能を実行することが可能なコンピュータ、例えばサーバの他汎用のスマートフォンやパーソナルコンピュータであってもよい。
 このようなプログラムを含む記録媒体は、装置本体とは別に配布される図示せぬリムーバブルメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態で提供される記録媒体等で構成される。
 なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
 以上まとめると、本発明が適用される情報処理システムは、次のような構成を取れば足り、各種各様な実施形態を取ることができる。
 即ち、本発明が適用される情報処理装置は、
 被検体が有する、有害リスクのある目的配列変異(例えばがんのドライバー変異)を選定する情報処理装置(例えば、図2の分析装置1)であって、
 前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリ(例えば、明細書中のランクMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えば、明細書中のランクMYC2乃至MYC4)の夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
 前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定手段(例えば、図2のシードジーンフィルタ部54の図6のパラメータ設定受入部542や、ルールベースの手法を採用した図2のレスキューフィルタ部55の一部)と、
 前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えば、図2のシードジーンフィルタ部54の図6のシードジーンフィルタ541やルールベースの手法を採用した図2のレスキューフィルタ部55のレスキューフィルタ)と、
 を備えれば足りる。
 これにより、第1フィルタリング手段によるフィルタリングの結果のうち、目的配列変異と選定される可能性が一番高い高カテゴリに分類されたものの低カテゴリに分類されるべき配列変異が低いカテゴリに分類されなおし、目的配列変異と選定される可能性が低いカテゴリに分類されたものの高いカテゴリに分類されるべき配列変異が高いカテゴリに分類される。その結果、病気の発生や進行に影響する変異である可能性の程度の分析効率や利便性が向上される。
 さらに、前記分類基準設定手段は、
  前記第2分類基準を設定するためのパラメータとして前記データベースの最低登録件数(例えば図8の指定欄A1に入力されるCOSMICの登録検体数のカットオフ値)を入力し、
  当該データベースに前記最低登録件数以上登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
 さらに、前記分類基準設定手段は、
  前記第2分類基準を設定するためのパラメータとして特定データベース又は特定リスト(例えば図8の指定欄A3や領域RSで入力するデータベースや重み付けをする遺伝子が含まれているガイドライン)を入力し、
  前記特定データベース又は前記特定リストに登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
 さらに、前記分類基準設定手段は、
  前記第2分類基準を設定するためのパラメータとして所定の疾患(例えば図8の指定欄A2においてユーザが指定する癌腫)を入力し、
 前記所定の疾患に関するデータベース又はリストに登録されているという分類基準と、データベース又はリストにおいて前記所定の疾患に関する配列変異として登録されているという分類基準とのうち少なくとも一方を、前記第2分類基準として設定する、ことができる。
 さらに、前記分類基準手段は、
 前記第2分類基準を設定するためのパラメータとして、特定核酸を示す情報又は当該特定核酸の配列(例えば図8の指定欄A4に入力する、ユーザ指定の重みづけをする配列や、ユーザ指定の特定配列(例えば遺伝子や、マイクロRNA、非翻訳領域や、プロモーター・エンハンサーといった転写制御エレメントなどの調節領域など。特に、ヒトではgenomic coordinatesと呼ばれるhg19やGRCH38/hg38)上での位置情報)を入力し、
 前記特定核酸の配列変異に該当するか、若しくは、前記データベース又は前記リストに登録されているという分類基準を、前記第2分類基準として設定する、ことができる。
 さらに、前記第2フィルタリング手段は、さらに、前記第1フィルタリング手段により前記高カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たさない配列変異を、前記低カテゴリに分類しなおす(例えば明細書でいう「ダウングレード」をする)、ことができる。
 また、本発明が適用される情報処理システムは、
 被検体が有する、有害リスクのある目的配列変異を選定する情報処理システム(図2の分析装置1を含む情報処理システム)であって、
 所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習を実行することで、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデル(例えばAIモデル)を生成又は更新する学習手段と、
 前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリ(例えばMYC1)と、当該可能性がそれより低い1以上の低カテゴリ(例えばMYC2、MYC3、MYC4)の夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
 前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えばAI等の機械学習の手法が適用された図2のレスキューフィルタ部55)と、
 を備えれば足りる。
 例えば、公共データベースとしては、ClinVar(ヒトゲノムの多様性と関連する疾患、遺伝疾患についてのデータベース)や上述のCOSMICを採用することができる。
 また例えば、ヒト遺伝子多型のデータベースとして、dbsnpを採用することができる。
 また例えば、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベースとして、DGIdを採用することができる。
 また例えば、薬物応答のデータベースとして、PharmGKBやOncoKBを採用することができる。
 さらに、被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置(例えば図2の分析装置1)であって、
 所定の核酸について、有害リスクのある既知の配列変異を示す情報、並びに、公共データベース、ヒト遺伝子多型のデータベース、薬物と遺伝子の相互作用及び創薬可能なゲノム資源に関するデータベース、及び薬物応答のデータベースのうちの少なくとも一部の変異の臨床的意義情報を学習情報セットとして、複数の当該学習情報セットを用いる所定の機械学習が実行された結果として得られる、所定の配列変異を入力すると、当該配列変異が前記目的配列変異である可能性の度合いを出力するモデルが所定の記憶媒体に記憶されている場合において、
 前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、所定の分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段(例えば、図2や図5の共通フィルタ部53)と、
 前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記モデルから出力される前記可能性の度合いが一定以上である配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段(例えば、例えばAI等の機械学習の手法が適用された図2のレスキューフィルタ部55)と、
 を備えることができる。
 1・・・分析装置、11・・・CPU、18・・・記憶部、20・・・ドライブ、31・・・リムーバルメディア、51・・・データ受入部、52・・・設定受入部、53・・・共通フィルタ部、54・・・シードジーンフィルタ部、55・・・レスキューフィルタ部、56・・・ランク決定部、57・・・分析結果出力部、531・・・基本フィルタ、532・・・時系列フィルタ、533・・・データベースフィルタ、534・・・機能予測フィルタ、535・・・クオリティフィルタ、541・・・シードジーンフィルタ、542・・・パラメータ設定受入部、543・・・シードジーン情報取得部

Claims (8)

  1.  被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、
     前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリング手段と、
     前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定手段と、
     前記第1フィルタリング手段により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリング手段と、
     を備える情報処理装置。
  2.  前記分類基準設定手段は、
      前記第2分類基準を設定するためのパラメータとして前記データベースの最低登録件数を入力し、
      当該データベースに前記最低登録件数以上登録されているという分類基準を、前記第2分類基準として設定する、
     請求項1に記載の情報処理装置。
  3.  前記分類基準設定手段は、
      前記第2分類基準を設定するためのパラメータとして特定データベース又は特定リストを入力し、
      前記特定データベース又は前記特定リストに登録されているという分類基準を、前記第2分類基準として設定する、
     請求項1又は2に記載の情報処理装置。
  4.  前記分類基準設定手段は、
      前記第2分類基準を設定するためのパラメータとして所定の疾患を入力し、
     前記所定の疾患に関するデータベース又はリストに登録されているという分類基準と、データベース又はリストにおいて前記所定の疾患に関する配列変異として登録されているという分類基準とのうち少なくとも一方を、前記第2分類基準として設定する、
     請求項1乃至3のうち何れか1項に記載の情報処理装置。
  5.  前記分類基準設定手段は、
     前記第2分類基準を設定するためのパラメータとして、特定核酸を示す情報又は当該特定核酸の配列を入力し、
     前記特定核酸の配列変異に該当するか、若しくは、前記データベース又は前記リストに登録されているという分類基準を、前記第2分類基準として設定する、
     請求項1乃至4のうち何れか1項に記載の情報処理装置。
  6.  前記第2フィルタリング手段は、さらに、前記第1フィルタリング手段により前記高カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たさない配列変異を、前記低カテゴリに分類しなおす、
     請求項1乃至5のうち何れか1項に記載の情報処理装置。
  7.  被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置が実行する情報処理方法であって、
     前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリングステップと、
     前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定ステップと、
     前記第1フィルタリングステップの処理により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリングステップと、
     を含む情報処理方法。
  8.  被検体が有する、有害リスクのある目的配列変異を選定するコンピュータに、
     前記被検体に含まれる核酸を配列決定して特定された複数の配列変異の夫々を、第1分類基準に基づいて、前記目的配列変異と選定される可能性が一番高い高カテゴリと、当該可能性がそれより低い1以上の低カテゴリの夫々とのうち何れかに分類する第1フィルタリングステップと、
     前記高カテゴリに分類するための前記第1分類基準とは異なる分類基準であって、データベース又はリストに登録されているという分類基準を、第2分類基準として設定する分類基準設定ステップと、
     前記第1フィルタリングステップの処理により前記低カテゴリに分類された前記配列変異のうち、前記第2分類基準を満たす配列変異を、前記高カテゴリに分類しなおす第2フィルタリングステップと、
     を含む制御処理を実行させるプログラム。
PCT/JP2023/000620 2022-01-13 2023-01-12 情報処理装置、情報処理方法、及びプログラム WO2023136296A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022003784A JP2023102987A (ja) 2022-01-13 2022-01-13 情報処理装置、情報処理方法、及びプログラム
JP2022-003784 2022-01-13

Publications (1)

Publication Number Publication Date
WO2023136296A1 true WO2023136296A1 (ja) 2023-07-20

Family

ID=87279178

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/000620 WO2023136296A1 (ja) 2022-01-13 2023-01-12 情報処理装置、情報処理方法、及びプログラム

Country Status (2)

Country Link
JP (1) JP2023102987A (ja)
WO (1) WO2023136296A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015506024A (ja) * 2011-12-08 2015-02-26 コーニンクレッカ フィリップス エヌ ヴェ 全ゲノム配列を使用する生物学的細胞評価およびこれを使用する腫瘍治療計画
JP2018081698A (ja) * 2011-11-07 2018-05-24 キアゲン レッドウッド シティ, インコーポレイテッドQiagen Redwood City, Inc. 原因ゲノム変異の同定の方法およびシステム
US20190006048A1 (en) * 2015-03-02 2019-01-03 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム
JP2022500020A (ja) * 2018-09-07 2022-01-04 ザ・チルドレンズ・ホスピタル・オブ・フィラデルフィアThe Children’S Hospital Of Philadelphia リンパ系疾患の診断および治療のための組成物および方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018081698A (ja) * 2011-11-07 2018-05-24 キアゲン レッドウッド シティ, インコーポレイテッドQiagen Redwood City, Inc. 原因ゲノム変異の同定の方法およびシステム
JP2015506024A (ja) * 2011-12-08 2015-02-26 コーニンクレッカ フィリップス エヌ ヴェ 全ゲノム配列を使用する生物学的細胞評価およびこれを使用する腫瘍治療計画
US20190006048A1 (en) * 2015-03-02 2019-01-03 Strand Life Sciences Private Limited Apparatuses and methods for determining a patient's response to multiple cancer drugs
JP2022500020A (ja) * 2018-09-07 2022-01-04 ザ・チルドレンズ・ホスピタル・オブ・フィラデルフィアThe Children’S Hospital Of Philadelphia リンパ系疾患の診断および治療のための組成物および方法
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム

Also Published As

Publication number Publication date
JP2023102987A (ja) 2023-07-26

Similar Documents

Publication Publication Date Title
Halu et al. The multiplex network of human diseases
US20200279620A1 (en) Methods and systems for interpretation and reporting of sequence-based genetic tests using pooled allele statistics
Mandelker et al. Navigating highly homologous genes in a molecular diagnostic setting: a resource for clinical next-generation sequencing
Ainscough et al. A deep learning approach to automate refinement of somatic variant calling from cancer sequencing data
Freudenberg et al. A similarity-based method for genome-wide prediction of disease-relevant human genes
EP3916731A1 (en) Methods and systems for interpretation and reporting of sequence-based genetic tests
Yin et al. Using the structure of genome data in the design of deep neural networks for predicting amyotrophic lateral sclerosis from genotype
US20220215900A1 (en) Systems and methods for joint low-coverage whole genome sequencing and whole exome sequencing inference of copy number variation for clinical diagnostics
US20230222311A1 (en) Generating machine learning models using genetic data
Raimondi et al. Multilevel biological characterization of exomic variants at the protein level significantly improves the identification of their deleterious effects
Umlai et al. Genome sequencing data analysis for rare disease gene discovery
König et al. Computational assessment of feature combinations for pathogenic variant prediction
WO2023136296A1 (ja) 情報処理装置、情報処理方法、及びプログラム
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
US20220293214A1 (en) Methods of analyzing genetic variants based on genetic material
Liu et al. Performance evaluation of computational methods for splice-disrupting variants and improving the performance using the machine learning-based framework
Meissner et al. Prediction of turn types in protein structure by machine‐learning classifiers
Zhu et al. A robust pipeline for ranking carrier frequencies of autosomal recessive and X-linked Mendelian disorders
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
Hassan et al. Integrated rules classifier for predicting pathogenic non-synonymous single nucleotide variants in human
Veeramachaneni Data analysis in rare disease diagnostics
Boudellioua Semantic Prioritization of Novel Causative Genomic Variants in Mendelian and Oligogenic Diseases
Niehus Multi-Sample Approaches and Applications for Structural Variant Detection
Urtis HELPER: UNA PIATTAFORMA BIOINFORMATICA PER LA PERSONALIZZAZIONE DELLE PIPELINE NGS
De Paoli et al. Digenic variant interpretation with hypothesis-driven explainable AI

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23740304

Country of ref document: EP

Kind code of ref document: A1