WO2023181370A1 - 情報処理装置、情報処理方法、及び情報処理プログラム - Google Patents

情報処理装置、情報処理方法、及び情報処理プログラム Download PDF

Info

Publication number
WO2023181370A1
WO2023181370A1 PCT/JP2022/014507 JP2022014507W WO2023181370A1 WO 2023181370 A1 WO2023181370 A1 WO 2023181370A1 JP 2022014507 W JP2022014507 W JP 2022014507W WO 2023181370 A1 WO2023181370 A1 WO 2023181370A1
Authority
WO
WIPO (PCT)
Prior art keywords
filter
sequence
information processing
category
processing device
Prior art date
Application number
PCT/JP2022/014507
Other languages
English (en)
French (fr)
Inventor
和明 横山
Original Assignee
国立大学法人 東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人 東京大学 filed Critical 国立大学法人 東京大学
Priority to PCT/JP2022/014507 priority Critical patent/WO2023181370A1/ja
Publication of WO2023181370A1 publication Critical patent/WO2023181370A1/ja

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12MAPPARATUS FOR ENZYMOLOGY OR MICROBIOLOGY; APPARATUS FOR CULTURING MICROORGANISMS FOR PRODUCING BIOMASS, FOR GROWING CELLS OR FOR OBTAINING FERMENTATION OR METABOLIC PRODUCTS, i.e. BIOREACTORS OR FERMENTERS
    • C12M1/00Apparatus for enzymology or microbiology
    • C12M1/34Measuring or testing with condition measuring or sensing means, e.g. colony counters
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection

Definitions

  • the present invention relates to a base sequence information processing device, an information processing method, and an information processing program.
  • Non-Patent Document 1 information on the types of diseases that various base sequence mutations in somatic cells are related to is recorded in databases and is widely used.
  • next-generation sequencers NGS
  • NGS next-generation sequencers
  • COSMIC Release v94 is live!, [online], March 28, 2021, [searched October 8, 2021], Internet ⁇ URL: https://cosmic-blog.sanger.ac.uk/Release- v94/>
  • the purpose of the present invention is to more accurately present the degree of possibility that variations in base sequences affect the occurrence and progression of diseases.
  • An information processing device that solves the above problems is an information processing device that selects a target sequence mutation that has a deleterious risk in the base sequence of a test subject, and comprises a nucleic acid contained in the test subject.
  • a filtering unit that classifies one or more sequence variations identified by sequencing into each category according to the degree of harmful risk based on one or more classification criteria, and a sequence to which the category to which it belongs is known.
  • a control unit that classifies a base sequence containing a mutation into each category according to the degree of harmful risk based on at least one of the classification criteria, and compares the classification results with the category to which it belongs;
  • the information processing device has an information processing device.
  • An information processing method is a method for selecting a target sequence variation having a harmful risk in a nucleotide sequence of a subject, the method being a method for selecting a target sequence mutation having a harmful risk in a nucleotide sequence, which is identified by sequencing a nucleic acid contained in the subject.
  • a filtering step of classifying one or more sequence variations into categories according to the degree of harmful risk based on one or more classification criteria, and a nucleotide sequence containing sequence variations to which the category to which it belongs is known, It has a control step of classifying into each category according to the degree of harmful risk based on at least one of the classification criteria and comparing the result of the classification with the category to which it belongs.
  • An information processing program is configured to cause a computer to function as the above information processing device.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to an embodiment of the present invention.
  • FIG. 1 is a functional block diagram illustrating an example of each function of an information processing device according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram illustrating an example of a filtering unit of an information processing device according to an embodiment of the present invention.
  • FIG. 2 is an explanatory diagram illustrating an example of base sequence information input to an information processing device according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram illustrating an example of a filter processing unit of an information processing device according to an embodiment of the present invention.
  • FIG. 2 is an explanatory diagram illustrating an example of output information output by an information processing device according to an embodiment of the present invention.
  • FIG. 1 is a block diagram showing a configuration example of an information processing device according to an embodiment of the present invention.
  • FIG. 1 is a functional block diagram illustrating an example of each function of an information processing device according to an embodiment of the
  • FIG. 2 is a functional block diagram illustrating an example of a control unit of an information processing device according to an embodiment of the present invention.
  • 2 is a flowchart illustrating an example of the operation of the filtering unit of the information processing device according to an embodiment of the present invention.
  • 3 is a flowchart illustrating an example of the operation of a filter processing unit of an information processing device according to an embodiment of the present invention.
  • 2 is a flowchart illustrating an example of the operation of a control unit and an adjustment unit of an information processing device according to an embodiment of the present invention.
  • FIG. 2 is a functional block diagram illustrating an example of a filter processing unit of an information processing device according to a second embodiment of the present invention. It is a flow chart showing an example of operation of a filter processing unit of an information processing device according to a second embodiment of the present invention.
  • the information processing device 1 is an information processing device 1 that selects target sequence mutations that have a deleterious risk in base sequences, and selects nucleic acids contained in individuals or specimens (hereinafter also referred to as specimens) that are the targets of information processing. It has a filtering unit 2 that classifies one or more sequence variations identified by sequencing into categories depending on the degree of harmful risk, based on one or more classification criteria. In addition, the information processing device 1 classifies base sequences containing sequence variations to which the category to which they belong is known, into each category according to the degree of harmful risk based on at least one of the classification criteria, and It has a control unit 3 that compares the classification result with the category to which it should belong.
  • the filtering section 2 and control section 3 of this information processing device 1 will be described in detail later.
  • sequence variation refers to the state of variation in a base sequence, including the position and type of variation.
  • the sequence variation may be, for example, a single nucleotide variation or a structural variation such as a chromosomal translocation involving multiple genes.
  • Base sequence information is information that represents sequence variation, including the location of the mutation (location on the chromosome when compared to the reference genome information (for example, the number of bases from one side of the reference base sequence) (information indicating whether the base or base sequence that should exist) may include information indicating what kind of base or base sequence has been mutated into the base or base sequence that should originally exist.
  • Genomic information that serves as a reference is, for example, genomic information necessary for NGS analysis, and includes GRCh38 (hg38) and GRCh37 (hg19) in humans.
  • the base sequence information may include information extracted by sequence alignment as information representing sequence variations.
  • the base sequence information may be information obtained by sequencing the base sequence with a next-generation sequencer or the like.
  • the base sequence may be a nucleic acid obtained from a subject or may be artificially synthesized.
  • the base sequence information may include, for example, files in FASTQ format, SAM (Sequence Alignment Map) format, and BAM format as information obtained by sequencing.
  • the term "adverse risk” refers to the possibility that diseases including cancer may occur.
  • a sequence variation that has an adverse risk means that the variation in the base sequence has the possibility of causing a disease such as cancer, and a sequence variation that does not have an adverse risk means that the variation in the base sequence has no possibility of causing such a disease. It means mutation.
  • a sequence variation intended for selection by the information processing device 1 is particularly referred to as a "target sequence variation.”
  • FIG. 1 is a block diagram showing a schematic configuration of an information processing device 1.
  • the information processing device 1 includes a control section 11, a storage section 12, a communication section 13, a display section 14, an operation reception section 15, and a drive 16.
  • Each component is communicably connected to each other via a bus 18.
  • the control unit 11 includes a CPU (Central Processing Unit), and controls each component and performs various calculation processes according to a program.
  • CPU Central Processing Unit
  • RAM Random Access Memory
  • the communication unit 13 communicates with other devices (for example, an information processing device of a terminal that views analysis results (not shown), etc.) via a network N including the Internet.
  • the display unit 14 is comprised of a display such as a liquid crystal display, a speaker, etc., and outputs various information as images and sounds.
  • the operation reception unit 15 includes a touch sensor, a pointing device such as a mouse, a keyboard, etc., and accepts various operations from the user.
  • the display unit 14 and the operation reception unit 15 may constitute a touch panel by superimposing a touch sensor as the operation reception unit 15 on a display surface as the display unit 14.
  • the operation reception unit 15 may include a drive 16.
  • a removable medium 17 made of a magnetic disk, an optical disk, a magneto-optical disk, a semiconductor memory, etc. can be appropriately installed in the drive 16.
  • the program read from the removable medium 17 by the drive 16 is installed in the storage unit 12 as necessary.
  • the removable medium 17 can also store various data stored in the storage unit 12 in the same way as the storage unit 12.
  • FIG. 2 is a block diagram showing the functional configuration of the control unit 11 of the information processing device 1 according to the present embodiment.
  • the control unit 11 of the information processing device 1 functions as the filtering unit 2, the control unit 3, and the adjustment unit 4 by reading programs and executing processes.
  • the filtering unit 2 classifies one or more sequence variations identified by sequencing a nucleic acid contained in a subject into categories depending on the degree of harmful risk, based on one or more classification criteria.
  • FIG. 3 is a block diagram showing an example of a functional configuration for executing various processes related to the filtering section 2 in the information processing device 1. As shown in FIG. As shown in FIG. 3, the filtering section 2 includes a first data receiving section 21, a first setting receiving section 22, a first filter processing section 23, a category determining section 24, and an analysis result output section 25. Function. (1st data reception department) The first data receiving unit 21 receives base sequence information including one or more sequence variations identified by sequencing a nucleic acid contained in a subject.
  • the base sequence information accepted by the first data receiving unit 21 will also be referred to as first base sequence information.
  • the first base sequence information may include, in addition to information representing sequence variations, specimen identification information for identifying an individual to be subjected to information processing and a specimen obtained from the individual.
  • FIG. 4 shows an example of the structure of the first base sequence information accepted by the first data receiving unit 21 in the information processing device 1 shown in FIG.
  • the first base sequence information includes, for each sequence variation (each line in the figure), the number (Chr) of the chromosome where the base sequence of the sequence variation was found, and the start position (Start). At least the end position (End), the original base sequence (Ref), the extracted mutated base sequence (Alt), and the proportion of mutated base sequences (allele frequency: AF). This is the associated information.
  • the base sequence information accepted by the second data receiving unit 31, which will be described later includes information regarding the category to which it belongs, which will be described later.
  • the length of the base sequence may be "1" (in this case, the information on the base sequence is information representing any of the bases A, T, C, and G).
  • the first base sequence information may also include information regarding the individual's case (information such as disease name, treatment history, tumor percentage, etc.).
  • the first data receiving unit 21 may accept information (time series information) regarding base sequences extracted from the same subject at different timings (there may be more than one). In this case, the first data receiving unit 21 may receive input of time series of base sequence information to be analyzed.
  • the first setting receiving unit 22 receives settings for analyzing the base sequence information received by the first data receiving unit 21.
  • This setting includes, for example, setting of the type of filter used in the filter processing section described later and setting of classification criteria for each filter.
  • the degree of harmful risk is evaluated by the operation of the filter processing unit based on various pieces of information that affect the interpretation of the analysis results of base sequence variations.
  • the evaluation result of the degree of harmful risk is expressed by one of the categories MYC1 to MYC4, which will be described later.
  • the information that affects the interpretation includes (1) additional information about the mutation obtained during analysis, and (2) information related to the mutation listed in literature and databases.
  • (1) additional information about the mutation obtained during analysis includes (a) information on detection accuracy and reliability (e.g., probability that the mutation is not a detection error), (b) allele frequency of the mutation (e.g., (c) time-series information (e.g., whether the mutation has been repeatedly detected in samples from the same case at other times); and so on.
  • Information related to mutations listed in literature and databases includes information indicating whether the mutation in question is described as a driver mutation of the disease (or how often it is described). is included. If the variant allele is also registered in a single nucleotide polymorphism (SNP) database, information on how often the variant allele is reported as an SNP in the race may be included in the literature or database. Furthermore, as a function prediction, it indicates whether the mutation in question affects the three-dimensional structure or function of the encoded protein, for example, whether it has been shown or predicted by experiments to be involved in the pathogenesis of cancer. Information etc. may be listed in documents or databases.
  • SNP single nucleotide polymorphism
  • the first filter processing unit 23 categorizes sequence variations included in the base sequence information received by the first data reception unit 21 into categories according to the degree of harmful risk based on one or more predetermined classification criteria. It is classified into one of MYC1, MYC2, MYC3, and MYC4. Note that a detailed configuration example of the first filter processing section 23 will be described later with reference to FIG. 5.
  • MYC1 and MYC2 are categories with a high risk of harm. For example, in MYC1 and MYC2, mutations in the base sequences are likely to be driver mutations. MYC1 has a higher deleterious risk than MYC2, indicating that it is more likely to be a true driver mutation.
  • MYC3 is a category with lower harmful risk than MYC1 and MYC2.
  • MYC3 is a category indicating that a mutation in the base sequence has been evaluated as having a low possibility of being a driver mutation (therefore, it is not treated as a driver mutation candidate). That is, MYC3 is a category indicating that the sequence variation has been evaluated as a non-deleterious variation.
  • MYC4 is a category with lower harmful risk than MYC3.
  • MYC4 is a category that indicates, for example, that the possibility of a base sequence mutation being a driver mutation is approximately 0, or that it is a known SNP or mutation in a region where errors are likely to occur.
  • FIG. 5 is a block diagram showing an example of a detailed functional configuration of the first filter processing section 23.
  • the first filter processing unit 23 is provided with a basic filter 231, a time series filter 232, a database filter 233, a function prediction filter 234, and a quality filter 235.
  • the basic filter 231 sets a category (for example, MYC4) indicating that the variation is benign. Further, if the basic filter 231 cannot determine that the sequence mutation to be analyzed is benign, it determines that there is a harmful risk, and sets a category (for example, MYC3) indicating that the sequence mutation is not a benign mutation.
  • a category for example, MYC4
  • a case that can be judged to be benign means that the overlap between the nucleotide sequence of a known mutation that causes cancer, etc. and the nucleotide sequence corresponding to the sequence mutation is a relatively short overlap region, and the sequence mutation represents If the region where the mutation is located is an intron region, if the sequence mutation is registered in a database that accumulates mutations without abnormalities such as an SNP database, or if the sequence mutation is benign based on GDI (Gene Damage Index). This corresponds to cases where it can be determined that
  • GDI is an index that expresses how much damage has been accumulated in healthy people for each gene, and even if people have suffered great damage (even if there is diversity), mutations can pose a harmful risk. Indicates the possibility of an unthinkable gene.
  • the basic filter 231 receives information from the first setting receiving unit 22, including a threshold value for the length of the overlapping portion between the base sequence of a known mutation that causes cancer and the mutated base sequence corresponding to the sequence mutation, and whether or not it is an SNP. At least any of the following: information that specifies the database to be used for determining whether the SNP is a SNP, or parameters for each database (compared with a benignity threshold, which is a standard for determining whether or not it is benign, or a value registered in the database as the probability of SNP, etc.) Accept the settings. The basic filter 231 determines whether the sequence variation to be analyzed is benign based on the accepted settings.
  • the basic filter 231 sets a category indicating that it is a benign variation. Segmental duplications occur during the evolution of vertebrates in large regions of 10 to 300 kb of chromosomes, where genes are duplicated at adjacent sites or on completely separate genomes. It is something. If the sequence variation is located in a segmental duplication, it is considered to be a detection error that occurred during mapping of the sequence results to the reference, and is likely to be a false positive. Therefore, if a sequence variation is located in a clause-wise duplication region, it is treated as a benign variation.
  • a category is set to indicate that it is a benign mutation.
  • the basic filter 231 sets a category indicating that the mutation is a benign mutation if the region where the mutation represented by the sequence mutation is located is an intron region.
  • the basic filter 231 may set a category indicating a benign mutation based on the result of searching the specified SNP database even if the above two conditions are not satisfied.
  • the basic filter 231 detects, for example, that a mutation represented by a sequence variation is registered in an SNP database through a search, and a value registered as the probability of being the SNP exceeds a benign judgment threshold predetermined for the SNP database. If so, set a category to indicate that it is a benign mutation.
  • the basic filter 231 refers to the GDI of the gene in which the sequence mutation exists, and determines that it is a benign mutation if it is larger than a predetermined GDI threshold. Set the category to represent.
  • this basic filter 231 determines which condition to use from a plurality of conditions for determining benignity predetermined by the first setting receiving unit 22 (or not to use all conditions, You may accept the setting (whether or not to set the category to MYC3 for all sequence variations and pass the process without taking any action).
  • the basic filter 231 determines whether or not only the conditions set for use are satisfied.
  • time series filter 232 refers to the sequence variation information included in the time series information that corresponds to the sequence variation targeted for analysis, and It is determined whether the same variation exists in time-series information extracted at different timings.
  • the time-series filter 232 uses the sequence variation to be analyzed and the corresponding sequence variation included in the time-series information, and when the same variation exists, the time-series filter 232 classifies it as having the variation to be considered (for example, the current subtracting "1" from the category of "1" as the first predetermined amount) and passing the processing to the quality filter 235.
  • the first predetermined amount is, for example, the minimum value that is subtracted from or added to the category related to the sequence variation in one operation.
  • the basic filter 231 passes the processing, so the initial category is MYC3, and when it is assumed that there is a variation that should be considered by the time series filter 232, the first category is selected from this MYC3. "1" is subtracted as a quantitative value and the category is set as MYC2.
  • the time series filter 232 uses the sequence variation to be analyzed and the corresponding sequence variation included in the time series information, and when the same variation does not exist, sets the category as it is (here, the initial category is Since it is MYC3, it is set as MYC3) and the processing is passed to the database filter 233.
  • the time series filter 232 may receive threshold settings regarding depth, other sequence quality, mutant allele frequency, etc. from the first setting receiving unit 22. For example, if the depth of the corresponding sequence variation included in the time series information does not exceed the threshold set here (for example, "20"), the time series filter 232 determines whether or not there is the same sequence variation.
  • the category is set as is (here, the initial category is MYC3, so it is set as is to MYC3), and the process is passed to the database filter 233.
  • the time series filter 232 determines whether or not there is the same sequence variation.
  • the category may be set as is (here, the initial category is MYC3, so it is set as MYC3) without determining whether the category is the same or not, and the processing may be passed to the database filter 233.
  • the time series filter 232 sets the category as it is without determining whether there is the same sequence variation ( Here, since the initial category is MYC3, it is set as MYC3) and the process is passed to the database filter 233.
  • the database filter 233 determines whether or not the sequence variation to be analyzed is registered in a database (for example, COSMIC Cancer Database) that stores information on mutations to be considered as a predetermined problem, based on the server of the database. Find out by communicating. If the sequence variation is registered in the database, set a category (for example, subtract "1" as the first predetermined amount from the current category) as a mutation that should be considered a problem (has a harmful risk), Processing is passed to the quality filter 235.
  • the basic filter 231 passes the processing as having a harmful risk, and the time series filter 232 processes it with the category unchanged. passes, and the database filter 233 determines that there is a harmful risk, the database filter 233 subtracts "1" from MYC3 as the first predetermined amount, sets the category to MYC2, and then filters the quality filter 235. Pass the process.
  • the database filter 233 sets the category as is and processes it in the functional prediction filter 234. pass. In this example, the category at this time remains MYC3.
  • this database filter 233 accepts settings from the first setting receiving unit 22 as to what kind of database is to be used as the database that stores information regarding the mutation to be considered as the above-mentioned problem.
  • an instruction may be given to use multiple databases, and in this case, the database filter 233 determines whether the sequence variation to be analyzed is one of the databases that have accumulated information regarding the variation to be considered as the problem. If the mutation is registered as a mutation, the category is set as if there is a mutation that should be considered a problem.
  • the functional prediction filter 234 refers to a program (including a machine learning program) that evaluates or predicts the harmful risk of a mutation, or to a database that publishes evaluation results and predicted values of harmful risks. If the sequence variation to be analyzed is registered in a program or database as having a deleterious risk, it is classified as having a deleterious risk mutation (for example, from the current category to the first predetermined amount). 1'') and passes the processing to the quality filter 235.
  • the functional prediction filter 234 selects a category (for example, subtracting "1" as the first predetermined amount from the current category) as having a harmful risk. ) to pass the processing to the quality filter 235.
  • the function prediction filter 234 can detect deletions or duplications of promoters involved in important gene expression, deletions or insertions that cause abnormal splicing of important genes, or It may also be possible to predict whether deletion or insertion of noncoding RNA important for regulation will occur.
  • the functional prediction filter 234 sets a category (for example, subtracting "1" as the first predetermined amount from the current category) as having a harmful risk.
  • the processing may be passed to the quality filter 235.
  • the basic filter 231 passes the processing as a sequence variation to be analyzed as having a harmful risk, and the time series filter 232 processes it with the category unchanged. If the function prediction filter 234 determines that there is a harmful risk when the database filter 233 also passes the process with the category unchanged, the function prediction filter 234 selects the first After subtracting "1" as a predetermined amount and setting the category to MYC2, processing is passed to the quality filter 235.
  • this functional prediction filter 234 refers to the database in which the harmful risks of mutations have been evaluated, and if the mutation related to the sequence mutation to be analyzed is not registered in the database as having a harmful risk (or has not been registered). (If it is registered as benign or presumed to be benign), the category is set as is and processing is passed to the quality filter 235. In this example, the category at this time remains MYC3.
  • this function prediction filter 234 also accepts the setting of what kind of database to use from the first setting acceptance unit 22.
  • the quality filter 235 determines the depth at which the sequence variation to be analyzed is sequenced, the quality score for each base (for example, Phred quality score), the mapping quality score to the reference genome, and the mutation call between cancer cells and normal cells.
  • the quality of sequence processing can be evaluated by using indicators such as statistical values of statistical tests (Fisher test, etc.), read sequence bias toward either side that supports mutations in paired-end reads that read the base sequence from both sides, etc. Evaluate.
  • this quality index there are widely known indexes such as the count number of sequence variations in addition to the depth, and the quality filter 235 combines these (or accepts the combination from the first setting receiving unit 22), (according to the accepted combination of indicators). Note that when combining a plurality of indicators, the quality filter 235 determines that the quality is sufficient if all the indicators satisfy the condition that the quality is sufficiently high.
  • the quality filter 235 determines that the determination is appropriate and changes it to a category (for example, the first category from the current category). (subtract "1") as the predetermined amount, and output the category to the category determining section 24.
  • the quality filter 235 sets the category as is and outputs the category to the category determination unit 24.
  • At least one of the classification criteria provided for each filter can be changed or selected. Furthermore, it is also possible to execute the filtering unit 2 and the control unit 3 after changing or selecting at least one of the classification criteria. Thereby, the information processing device 1 can more accurately determine the harmful risk of sequence variation.
  • the category determination unit 24 determines a category value representing the degree of harmful risk for each sequence variation according to the category (any one of MYC1 to MYC4) for each one or more sequence variations output by the filter processing unit.
  • the category determination unit 24 generates information (hereinafter referred to as “analysis result information”) in which each category value is associated with each of the plurality of sequence variations, and provides the information to the analysis result output unit 25.
  • the category value representing the degree of harmful risk may be a value newly calculated based on MYC1 to MYC4, but here, for convenience of explanation, MYC1 to MYC4 will be adopted as is.
  • the analysis result output unit 25 outputs the analysis result information by outputting it from the display unit 14 (for example, a display) in FIG. 1 or by transmitting it from the communication unit 13 to another device (not shown).
  • FIG. 6 shows a configuration example of analysis result information output from the information processing device 1.
  • the analysis result information includes the chromosome number (Chr) where the base sequence of the sequence mutation is located, the start position (Start), and the end position for each sequence mutation (for each row in the figure). (End), an original base sequence (Ref), a sequence variation (Alt), and a category value (MYC).
  • the analysis result information in the example of FIG. 6 is further associated with record information R regarding determination for each sequence variation (each row in the figure).
  • Recorded information R regarding judgment refers to what kind of classification was made for the filter used in the analysis of the target sequence variation in the filter processing unit (parameter settings of each filter, judgment content based on classification criteria, etc.) This is information representing.
  • the mutations in the base sequence information accepted by the first data receiving unit 21 are classified into four levels of MYC1 to MYC4 indicating harmful risks, and therefore a large number of mutations exist (for example, from tens of thousands to hundreds of millions). ) Users such as medical specialists will be able to efficiently find mutations with a high risk of harmful effects, such as true driver mutations, from among mutations. For example, users such as experts will be able to focus on sequence mutations classified as MYC1 and MYC2 to find true driver mutations.
  • the information processing device 1 classifies base sequences containing sequence variations to which the category to which they belong is known into each of the categories based on at least one of the above-mentioned classification criteria, and as a result of the classification. It has a control section 3 that compares the category with the category to which it belongs. If the results of the comparison match, it can be confirmed that the classification process of the information processing device 1 is being performed appropriately. On the other hand, if the comparison results do not match, it can be confirmed that the classification process by the information processing device 1 may not be performed appropriately.
  • the control unit 3 classifies a sequence variation whose category includes a known base sequence into each category according to the degree of harmful risk, based on at least one of the classification criteria, The result of the classification is compared with the category to which it belongs.
  • FIG. 7 is a block diagram showing an example of a functional configuration for executing various processes related to the control unit 3 in the information processing device 1.
  • the control section 3 includes a second data receiving section 31, a second setting receiving section 32, a second filter processing section 33, a comparison section 34, and a comparison result output section 35. Function.
  • the second data receiving unit 31 receives base sequence information (hereinafter also referred to as second base sequence information) that includes information representing a base sequence containing one or more sequence variations to which the category to which it belongs is known (hereinafter also referred to as second base sequence information).
  • base sequence information hereinafter also referred to as second base sequence information
  • nucleotide sequences containing sequence variations to which the category to which it belongs is known include sequence variations to which the category to which it should belong is known, nucleotide sequences to which the category to which it should belong is known but has no mutation; including.
  • the category to which it should belong is any one of MYC1, MYC2, MYC3, and MYC4, which are categories according to the degree of harmful risk described above.
  • the configuration example of the second base sequence information accepted by the second data reception unit 31 is the same as the configuration example of the first base sequence information accepted by the first data reception unit 21 shown in FIG. 4, so a description thereof will be omitted.
  • the base sequence information accepted by the second data receiving unit 31 includes information regarding the category to which each sequence variation should belong.
  • the base sequences containing sequence variations to which the categories to which they belong are known may be two or more types to which the categories to which they belong are different.
  • two or more types of nucleotide sequences that belong to different categories and are classified into the control section 3 are a sequence mutation that causes a specific disease (has a harmful risk), and a sequence mutation that causes a specific disease. (no harmful risk).
  • the base sequences that do not cause a specific disease include sequence mutations that pose no harmful risk and base sequences that do not have mutations.
  • the control unit 3 processes a base sequence that includes a sequence mutation that causes a specific cancer and a base sequence that does not include a sequence mutation that causes that specific cancer. This makes it possible to determine whether the determination function of the second filter processing unit 33 is working normally in both cases where there is a harmful risk and cases where there is no harmful risk.
  • the second base sequence information includes VCF (Variant Call Format) format, FASTQ format, SAM (Sequence Alignment Map) format, BAM (Binary Alignment Map) format, etc. output from next-generation sequencers, etc.
  • the file is may be included.
  • the VCF format is a file format used to save base mutation data, and when sequencing data is mapped to a reference sequence, the bases on the reference sequence and the bases on the sequencing data mapped there, etc. Information is listed.
  • the FASTQ format file contains the base sequence and the base call quality for each base.
  • a SAM format file is a file showing the result of mapping a FASTQ read sequence to a reference sequence
  • a BAM format file is a compressed format of the SAM format to make it easier for computers to process. .
  • These files may represent base sequences containing arbitrary sequence variations, and by providing such files to the control unit 3, it becomes possible to classify the arbitrary sequence variations more accurately. . More specifically, for example, if any sequence variation is a hotspot where mutations are concentrated in a gene, the above file containing information on the hotspot can be provided to the control unit 3 to detect the hotspot in the hotspot. It becomes possible to classify mutations more accurately. This allows the filtering unit 2 to more reliably classify mutations at the hot spot.
  • a target sequence mutation with a deleterious risk in a nucleotide sequence of a subject is a driver mutation of a specific disease
  • two or more types of nucleotide sequences that belong to different categories are It may include a sequence mutation that becomes a driver mutation for a specific disease and a base sequence that does not become a driver mutation for the specific disease.
  • the target sequence mutation in the nucleotide sequence of a sample obtained from a patient is a driver mutation of a certain leukemia
  • the sequence mutation that is the driver mutation of the leukemia and the nucleotide sequence that does not include the driver mutation of the leukemia. is processed by the control unit 3. This makes it possible to understand whether the information processing device 1 has accurately classified the driver mutation of the specific disease.
  • the second setting receiving unit 32 receives settings for analyzing the second base sequence information received by the second data receiving unit 31.
  • This setting includes, for example, a setting as to what kind of classification criteria is used for the filter in the second filter processing unit 33, which will be described later.
  • the base sequence information received by the second data receiving unit 31 is processed by the operation of the second filter processing unit 33, based on various information that affects the interpretation of mutation analysis results. , an assessment is made regarding adverse risks (e.g., possible driver mutations). Similar to the evaluation result by the filtering section 2, this evaluation result is also classified into one of the categories MYC1 to MYC4. The information that affects the evaluation (classification) method and interpretation by the second filter processing unit 33 is the same as that of the filtering unit 2, so a description thereof will be omitted.
  • the second filter processing unit 33 classifies base sequences containing sequence variations to which the category to which they should belong, which is included in the base sequence information received by the second data receiving unit 31, is known, based on at least one classification criterion, to classify the base sequences as harmful risks. It is classified into one of MYC1, MYC2, MYC3, and MYC4, which are categories according to the degree of the problem. MYC1, MYC2, MYC3, and MYC4 are as described in the column of the first filter processing unit 23. Further, in this specification, for convenience of explanation, the second filter processing section 33 is described separately from the first filter processing section 23, but each classification standard and each filter used in the second filter processing section 33 are as follows. It may be common to the first filter processing section 23, or the second filter processing section 33 and the first filter processing section 23 may be a common filter processing section.
  • the comparing unit 34 compares the category (one of MYC1 to MYC4) output by the second filter processing unit 33 and the degree of known harmful risk for each mutation in the base sequence information accepted by the second data receiving unit 31. Compare the categories (any of MYC1 to MYC4) according to the following. Further, the comparison unit 34 provides the comparison results of each mutation to the comparison result output unit 35.
  • the value representing this comparison result may be a value newly calculated based on MYC1 to MYC4, but here, for convenience of explanation, MYC1 to MYC4 are assumed to be adopted as they are.
  • the comparison result output unit 35 outputs information regarding the comparison result by the comparison unit 34 from the display unit 14 (for example, a display) in FIG. 1, or transmits it from the communication unit 13 to another device (not shown). Output with .
  • the information processing device 1 includes an adjustment unit 4 that adjusts the classification criteria in the filtering unit 2 and/or the control unit 3 and/or the classification result in the filtering unit 2 based on the comparison result in the control unit 3. It may have.
  • the adjustment unit 4 the information processing device 1 can calibrate standards, etc. in filter processing, so that the degree of harmful risk of mutations in the base sequence of a subject can be classified more accurately. I can do it.
  • the adjustment unit 4 calibrates the classification criteria of each filter of the filter processing unit based on the comparison result so that the category output by the filter processing unit matches the known category. .
  • the adjustment unit 4 determines that, as a result of comparison by the comparison unit 34 in the control unit 3, for a certain sequence variation, if the category output by the filter processing unit and the category according to the degree of known harmful risk do not match, It is also possible to perform the classification process by the filtering section 2 again after the adjustment by the adjustment section 4 is completed, without using the classification results of the filtering section 2. Further, the adjustment unit 4 may have a function of displaying the content of the problem that has occurred as an error message based on the comparison result of the comparison unit 34 in the control unit 3. For example, it is possible to display at what stage of filter processing a problem occurs.
  • sequence variations classified by the control unit 3 may be those obtained by sequencing a standard composition of nucleic acids containing sequence variations to which the category to which they belong is known. That is, a standard composition of nucleic acids containing sequence variations to which the category to which they belong is known is sequenced by a sequencing device such as a next-generation sequencer, and the information on the sequencing results is subjected to processing by the control unit 3. You can.
  • the control unit 3 classifies information on the results of sequencing the standard composition, and compares the classification results with known categories to which the standard composition should originally belong. It is possible to confirm whether or not the sequence determination performed by the sequencing device, the sequencing preprocessing process, etc.) was correct.
  • the conditions for sequencing the standard composition and the conditions for sequencing the nucleic acid contained in the subject may be the same.
  • the conditions for sequencing the above-mentioned standard composition using a next-generation sequencer or the like may be the same as the conditions for sequencing a nucleic acid contained in a specimen derived from a patient or the like.
  • the control unit 3 by providing the control unit 3 with the results of sequencing a standard composition to which the category to which it belongs is known, it can be confirmed whether or not the sequencing conditions were correct. Therefore, by setting the same conditions for sequencing the nucleic acids contained in the specimen and the standard composition, it is also possible to confirm whether the conditions for sequencing the nucleic acids contained in the specimen were correct.
  • the adjustment unit 4 can adjust, in the basic filter 231, a threshold value for the length of the overlapping portion between the base sequence of a known mutation that causes canceration and the base sequence corresponding to the sequence mutation. For example, if a sequence variation is located in this clause-wise overlap region and the index of the clause-wise overlap region exceeds a threshold, the basic filter 231 selects a category indicating that it is a benign variation because there is a high possibility of an error. set, but this threshold can be adjusted. This allows the basic filter 231 to adjust the classification criteria for setting categories.
  • the adjustment unit 4 can change the SNP database used by the basic filter 231. Further, the adjustment unit 4 can also be configured to use a plurality of SNP databases in the basic filter 231. Further, in the basic filter 231, if the mutation represented by the sequence variation is registered in the SNP database, and the value registered in the database as the probability of being an SNP exceeds the benign judgment threshold in the basic filter 231, Although a category indicating a benign mutation is set, the adjustment unit 4 can change the benign judgment threshold in the basic filter 231. This adjustment also allows the basic filter 231 to adjust the classification criteria for setting the category of benign mutation.
  • the basic filter 231 refers to the GDI of the gene in which the sequence mutation exists, and sets a category that indicates a benign mutation when the GDI is larger than a predetermined GDI threshold.
  • the GDI threshold can also be adjusted.
  • the adjustment unit 4 can adjust the classification criteria by which the basic filter 231 sets categories.
  • the adjustment unit 4 determines which conditions to use (or which operate as the basic filter 231 without using all the conditions) from a plurality of conditions for determining benignity predetermined by the first setting receiving unit 22 or the like. It is also possible to set the category to MYC3 for all sequence variations and change whether or not to pass the process.
  • the time series filter 232 uses the sequence variation to be analyzed and the corresponding sequence variation included in the time series information, and when the same variation exists, sets a category as having the variation to be considered as a problem.
  • the adjustment unit 4 can adjust the control unit 3 to use time series information different from the time series information used for the time series filter 232. .
  • the adjustment unit 4 can adjust these settings. For example, it is also possible to adjust the categories classified by the time series filter 232 by changing the depth threshold related to the corresponding sequence variation included in the time series information.
  • the database filter 233 checks whether the sequence variation to be analyzed is registered in a database that stores information on mutations by transmitting information on sequence variations to the database server. If it is registered, a category is set as having a mutation that should be considered a problem.
  • the adjustment unit 4 can change the database to be used in the database filter 233. Thereby, the adjustment unit 4 can also adjust the categories set by the database filter 233.
  • the functional prediction filter 234 refers to a program or database that has evaluated the harmful risk of a mutation, and if the sequence mutation to be analyzed is registered in the database as having a harmful risk, the functional prediction filter 234 determines whether the mutation has a harmful risk.
  • the adjustment unit 4 can be set to refer to a program or database other than the referenced one, and thereby the category set by the function prediction filter 234 can be adjusted.
  • the quality filter 235 determines the depth at which the sequence variation to be analyzed is sequenced, the quality score for each base (for example, Phred quality score), the mapping quality score to the reference genome, and the mutation call between cancer cells and normal cells.
  • the quality of the sequence processing of sequence variations to be analyzed is evaluated using quality indicators such as statistical tests (such as Fisher's test) and statistical values of the bias of support reads for mutations in paired-end reads.
  • the adjustment unit 4 can adjust the categories set by the quality filter 235 by changing the evaluation criteria of these indicators representing the quality of the sequence.
  • the information processing device 1 includes a re-execution unit that re-executes the processing by the filtering unit 2 and the control unit 3 after the adjustment unit 4 changes or selects at least one of these classification criteria. You can leave it there. This enables classification using calibrated classification standards and filters, thereby improving the classification accuracy of the information processing device 1.
  • FIG. 8 is a flowchart illustrating an example of a series of flows in the filtering section 2 of the information processing device 1 having the functional configuration of FIG. 3.
  • step S1 the first setting acceptance unit 22 accepts settings for analyzing base sequence information.
  • the first filter processing unit 23 also accepts settings regarding what kind of classification criteria to use the filter.
  • step S2 the first data receiving unit 21 determines, as a processing target, a predetermined sequence variation among the base sequence information extracted by sequence alignment from the genetic information of the subject to be analyzed.
  • step S3 the first filter processing unit 23 performs filter processing on the sequence variation to be processed, and outputs the category to be processed. Details of the filter processing in the first filter processing section 23 will be explained separately using FIG. 9.
  • step S4 the information processing device 1 determines whether categories have been recorded for all sequence variations.
  • step S4 determines whether there is a sequence variation for which no category has been recorded. If there is a sequence variation for which no category has been recorded, the determination in step S4 is "NO", the process returns to step S2, and the subsequent processes are repeated. In this way, as a result of repeating the loop processing of steps S2 to S4 "NO", if all the sequence variation categories are recorded, a determination of "YES" is made in step S4, and the processing is continued in step S5. Proceed to.
  • step S5 the analysis result output unit 25 generates analysis result information and outputs it from the display unit 14 (for example, a display) in FIG. 1 or transmits it from the communication unit 13 to another device (not shown). Output by This ends the analysis process.
  • step S31 the basic filter 231 determines whether or not the sequence variation to be processed has a harmful risk based on the conditions of the basic filter 231.
  • step S31 determines whether the sequence variation to be processed has no harmful risk according to the conditions of the basic filter 231 has no harmful risk according to the conditions of the basic filter 231. If the determination in step S31 is "NO", the category is set to MYC4, and the process proceeds to step S37 or step 35.
  • step S37 the first filter processing unit 23 outputs the category as the first filter processing unit 23.
  • step S3 in FIG. 9 ends, and the process proceeds to step S4. Note that the process when the process proceeds to step S35 will be described later.
  • step S31 If the sequence variation to be processed has a harmful risk according to the conditions of the basic filter 231, a determination of "YES" is made in step S31, the category is set to MYC3, and the process proceeds to step S32.
  • step S32 the time series filter 232 determines whether or not the sequence variation to be processed has a harmful risk based on the conditions of the time series filter 232. If the sequence variation to be processed has a harmful risk according to the conditions of the time series filter 232, a determination of "YES" is made in step S32, the category is set to MYC2, and the process proceeds to step S35. Note that the processing after step S35 will be described later.
  • step S32 determines whether the sequence variation to be processed does pose a harmful risk according to the conditions of the time series filter 232. If the sequence variation to be processed does not pose a harmful risk according to the conditions of the time series filter 232, the determination in step S32 is "NO", the category is set to MYC3, and the process proceeds to step S33.
  • step S33 the database filter 233 determines whether or not the sequence variation to be processed has a harmful risk based on the conditions of the database filter 233.
  • step S33 determines whether the sequence variation to be processed has a harmful risk according to the conditions of the database filter 233 has a harmful risk according to the conditions of the database filter 233. If the sequence variation to be processed has a harmful risk according to the conditions of the database filter 233, the determination in step S33 is "YES", the category is set to MYC2, and the process proceeds to step S35. Note that the processing after step S35 will be described later.
  • step S33 If the sequence variation to be processed does not pose a harmful risk according to the conditions of the time series filter 232, the determination in step S33 is "NO", the category is set to MYC3, and the process proceeds to step S34.
  • step S34 the function prediction filter 234 determines whether or not there is a harmful risk for the sequence variation to be processed, based on the conditions of the function prediction filter 234.
  • step S34 If the sequence variation to be processed poses a harmful risk according to the conditions of the functional prediction filter 234, a determination of "YES" is made in step S34, the category is set to MYC2, and the process proceeds to step S35.
  • step S34 determines whether the sequence variation to be processed has no harmful risk according to the conditions of the functional prediction filter 234. If the determination in step S34 is "NO", the category is set to MYC3, and the process proceeds to step S35.
  • step S35 the quality filter 235 determines whether the quality is sufficient.
  • step S35 the quality filter 235 subtracts "1", which is the first predetermined amount, from the category because it is determined that the quality is sufficient.
  • step S35 If the quality of the processing results of steps S31 to S34 (filter results of the basic filter 231, time series filter 232, database filter 233, and function prediction filter 234) is not sufficient, the determination in step S35 is "NO", The process advances to step S37.
  • step S37 the first filter processing unit 23 outputs the category.
  • the filtering process in step S3 in FIG. 9 ends, and the process proceeds to step S4.
  • FIG. 10 is a flowchart illustrating an example of a series of flows in the control unit 3 and adjustment unit 4 of the information processing device 1 having the functional configuration of FIG. 7.
  • step S1c the second setting acceptance unit 32 accepts settings for analyzing second base sequence information regarding a base sequence containing a known sequence variation to which the category to which it belongs belongs is known.
  • the second filter processing unit 33 also accepts settings regarding what sorting criteria to use the filter.
  • step S2c the second data receiving unit 31 determines the base sequence to be analyzed. If there are multiple base sequences, select and determine the base sequence to be analyzed from among the multiple mutations.
  • FIG. 10 shows a case where the base sequence to be analyzed by the control unit 3 is a sequence mutation to which the category to which it belongs is known, the control unit 3 has a known category to which it belongs, and the sequence mutation is detected by the control unit 3. It is also possible to analyze base sequences that do not have the same nucleotide sequence.
  • step S3c the second filter processing unit 33 performs filter processing on the sequence variation to be processed, and outputs the category to be processed.
  • the filtering process in the second filtering unit 33 is similar to the filtering process in the first filtering unit 23 described using FIG. 9, so a description thereof will be omitted.
  • step S4c the information processing device 1 determines whether categories have been recorded for all sequence variations. If there is a sequence variation for which a category has not been recorded, the determination in step S4c is "NO", the process returns to step S2c, and the subsequent processes are repeated.
  • step S4c if all the sequence variation categories are recorded, a determination of "YES" is made in step S4c, and the process returns to step S5c. Proceed to.
  • step S5c regarding the sequence variation in the second base sequence information accepted by the second data receiving unit 31, the category (one of MYC1 to MYC4) output by the second filter processing unit 33 and the known Compare the category to which it belongs (any one of MYC1 to MYC4).
  • the category output by the filter processing unit is consistent with the known category to which it should belong (for example, if they match), the result indicates that they are consistent. is output, and the processing by the control section 3 ends.
  • the adjustment unit 4 adjusts the classification criteria or the classification results into each of the categories in step S6c. Details of the adjustment method in the adjustment section 4 will be described in the column of the adjustment section 4.
  • steps S2c to S5c are performed again on the sequence variations included in the second base sequence information, and the categories output by the filter processing unit are compared with the categories according to the degree of known harmful risks. If the results are consistent, the process by the control unit 3 ends. Note that if the comparison results are not consistent, the processes of steps S2c to S6c described above may be repeated, and the process by the control unit 3 may be terminated when consistency is achieved.
  • processing by the filtering unit 2 may be executed after the processing by the control unit 3 is completed.
  • the present invention is not limited to the above-described embodiment (also referred to as the first embodiment), and may include modifications within the range that can achieve the purpose of the present invention. Improvements and the like are considered to be included in the present invention.
  • the filter processing section is not particularly limited to the example of the first filter processing section 23 and the second filter processing section 33 shown in FIG. 5, and can take various forms having different filter configurations.
  • an information processing apparatus 1 that employs the third filter processing section 43 having the configuration shown in the block diagram of FIG. 11 will be described.
  • the second embodiment of the information processing device 1 is the same as the first embodiment described above except for the configuration described below (for example, the third filter processing unit 43 and the adjustment unit 4 that adjusts it). Since the second embodiment has a configuration similar to that of the first embodiment, a description of the configuration similar to that of the first embodiment will be omitted.
  • the third filter processing unit 43 in the example of FIG. 11 is useful in the analysis of sequence variations as described below.
  • the premise is that two genes in a specific combination are fused due to chromosomal translocation or inversion. This is known to cause the proliferation of cancer cells.
  • the BCR-ABL fusion gene in which the BCR gene and ABL gene are fused by chromosomal translocation, is known to cause leukemia cells to proliferate.
  • the third filter processing unit 43 includes a basic filter 231, a time series filter 232, a fusion gene filter 236, a storage position filter 237, a structure filter 238, and a quality filter 235.
  • base sequences encoding multiple combinations of candidate genes that are known to cause driver mutations in a fusion gene in which two specific combinations of candidate genes are fused are stored in the storage unit 12 for each fusion gene.
  • One area is stored.
  • base sequences encoding the BCR gene and ABL gene are stored in one area of the storage unit 12.
  • the information processing device 1 can acquire the following information and use it for information processing.
  • the information processing device 1 acquires, for each first fusion gene, the base sequences of two candidate genes that are driver mutation candidates in a fusion gene in which a specific combination of candidate genes is fused (hereinafter referred to as a first fusion gene).
  • a first fusion gene the base sequences of two candidate genes that are driver mutation candidates in a fusion gene in which a specific combination of candidate genes is fused.
  • an external server (not shown) may store base sequences in which candidate genes of a plurality of first fusion genes are encoded.
  • the information processing device 1 may acquire, for each first fusion gene, base sequences in which two candidate genes of the first fusion gene are encoded from an external server via the communication unit 13 .
  • a fusion gene that is a fusion of a specific candidate gene and another gene may cause the proliferation of cancer cells.
  • a fusion gene in which the ALK gene is fused with another gene is known to cause cancer cell proliferation.
  • the storage unit 12 stores base sequences of a plurality of candidate genes that are driver mutation candidates in a fusion gene fused with another gene (hereinafter also referred to as a second fusion gene).
  • the information processing device 1 acquires the base sequence of a candidate gene that is a driver mutation candidate in a second fusion gene that is fused with another gene. For example, the information processing device 1 acquires the base sequences of candidate genes of a plurality of second fusion genes from the storage unit 12. The information processing device 1 may acquire the base sequences of candidate genes of the plurality of second fusion genes from an external server via the communication unit 13 .
  • the information processing device 1 acquires conserved sequence position information indicating the position of a conserved sequence, which is a base sequence conserved between the genomes of different biological species. For example, the information processing device 1 acquires storage array position information from the storage unit 12. The information processing device 1 may acquire storage array position information from an external server via the communication unit 13.
  • the basic filter 231 is similar to the filter processing section shown in FIG. 5, except that it does not perform processing specific to single nucleotide polymorphisms.
  • the basic filter 231 sets a category representing the benign variation (for example, MYC4), and applies the category to the filter set as the next filter. Output the results.
  • the basic filter 231 sets a category indicating that it is not a benign mutation (for example, MYC3), and processes it in the filter set as the next filter. pass.
  • the basic filter 231 receives information from the first setting receiving unit 22 that specifies the threshold of the length of the overlapping portion between the base sequence of a known mutation that causes cancer and the mutated base sequence corresponding to the sequence mutation, and the database. Based on the settings, the sequence variation to be analyzed is determined to be benign. Determine whether it exists or not.
  • the basic filter 231 detects when the overlapping portion between the base sequence of a known mutation that causes cancer and the mutated base sequence corresponding to the sequence mutation is shorter than a predetermined length threshold. Set a category to indicate a benign mutation. Furthermore, even if this is not the case, if the region represented by the sequence variation where the mutation is located is an intron region, the basic filter 231 sets a category indicating that the mutation is a benign mutation.
  • the basic filter 231 searches the specified database even if the above two conditions are not met, and the mutation represented by the sequence mutation is registered in the database by the search, and the value registered as the probability of being that mutation is If the mutation exceeds a predetermined benignity determination threshold for the database, a category indicating a benign mutation is set.
  • the time series filter 232 differs from the example of the filter processing unit in FIG. 5 in that the value to be subtracted from the category corresponding to the sequence variation targeted for analysis, and the output destination of the category after calculation by the time series filter 232 is in FIG.
  • This example is similar to the example of the filter processing section shown in FIG. 5, except that it is different from the example of the filter processing section shown in FIG.
  • the time series filter 232 refers to the sequence variation information included in the time series information that corresponds to the sequence variation targeted for analysis, and determines whether the same variation exists in the time series information extracted at different timings. do.
  • the time series filter 232 uses the sequence variation to be analyzed and the corresponding sequence variation included in the time series information, and if the same variation exists, the sequence variation to be analyzed as having a harmful risk. (for example, subtracting "2" as the second predetermined amount from the category) is determined and the process is passed to the structural filter 238.
  • the initial category is MYC3
  • the time series filter 232 determines that there is a harmful risk
  • "2" is added as the second predetermined amount from this MYC3.
  • the category is set as MYC1.
  • the second predetermined amount is a value larger than the first predetermined amount.
  • the time series filter 232 uses the sequence variation to be analyzed and the corresponding sequence variation included in the time series information, and when the same variation does not exist, sets the category as it is (here, the initial category is Since it is MYC3, it is set as MYC3) and the processing is passed to the database filter 233.
  • the time series filter 232 may receive threshold settings regarding depth, other sequence quality, mutant allele frequency, etc. from the first setting receiving unit 22. For example, if the depth of the corresponding sequence variation included in the time series information does not exceed the threshold set here (for example, "20"), the time series filter 232 determines whether or not there is the same sequence variation.
  • the category is set as is (here, the initial category is MYC3, so it is set as is to MYC3), and the process is passed to the database filter 233.
  • the time series filter 232 determines whether or not there is the same sequence variation. Instead, the category may be set as is (here, the initial category is MYC3, so it is set as MYC3) and the processing may be passed to the database filter 233.
  • the time series filter 232 sets the category as it is (here Since the initial category is MYC3, it is set to MYC3 as is) and the process is passed to the fusion gene filter 236.
  • the fusion gene filter 236 determines whether the mutant base sequence includes a fusion gene in which two genes respectively similar to the two candidate genes of the first fusion gene acquired by the information processing device 1 are fused. More specifically, the fusion gene filter 236 selects, for the plurality of first fusion genes acquired by the information processing device 1, two base sequences encoded with two candidate genes of the first fusion gene, and one that is included in the mutant base sequence. For each first fusion gene, it is determined whether or not the degree of similarity with at least some of the base sequences contained in the first fusion gene is equal to or higher than a threshold value. The degree of similarity is expressed, for example, by the rate at which two base sequences match in alignment. Two base sequences are determined to be similar when the proportion of alignments between the two base sequences is equal to or greater than a threshold value.
  • the fusion gene filter 236 detects the correspondence between the base sequence encoded by the BCR gene and the mutant base sequence in the BCR-ABL first fusion gene obtained by the information processing device 1 in which the BCR gene and the ABL gene are fused. Find the degree of similarity with the base sequence. Next, the fusion gene filter 236 determines the degree of similarity between the base sequence in which the ABL gene is encoded in the BCR-ABL first fusion gene and the corresponding base sequence in the mutant base sequence.
  • the fusion gene filter 236 determines whether the two obtained similarities are both greater than or equal to a threshold value.
  • the threshold value is, for example, a value at which it is assumed that the activity of the protein encoded by the first fusion gene is similar to the activity of the protein indicated by the mutant base sequence.
  • the fusion gene filter 236 determines that the mutant base sequence includes a fusion gene in which two genes that are similar to the two candidate genes of the first fusion gene are fused, when both of the two calculated degrees of similarity are equal to or higher than a threshold value. It is determined that the
  • the fusion gene filter 236 repeats the same determination for another first fusion gene obtained by the information processing device 1.
  • the fusion gene filter 236 filters the first fusion gene for any first fusion gene when at least one of the two obtained similarities is less than a threshold for all the first fusion genes acquired by the information processing device 1. It is determined that the mutant base sequence does not contain a fusion gene in which two genes similar to the two candidate genes are fused.
  • the fusion gene filter 236 also detects the difference between the base sequences of the two candidate genes of the first fusion gene acquired by the information processing device 1 and the base sequences of the two genes of the fusion gene included in the mutant base sequence. Even if it is determined that the mutant base sequence contains a fusion gene in which two genes that are similar to each of the two candidate genes of the first fusion gene are fused when the degree of similarity is 65% or more and 100% or less. good.
  • the fusion gene filter 236 has a similarity of 80% between the base sequences of the two candidate genes of the first fusion gene and the base sequences of the two genes of the fusion gene included in the mutant base sequence. If the difference is 100% or less, it may be determined that the mutant base sequence contains a fusion gene in which two genes respectively similar to the two candidate genes of the first fusion gene are fused.
  • the fusion gene filter 236 may transmit the mutant base sequence corresponding to the sequence mutation to be analyzed to an external server that stores combinations of candidate genes for a plurality of first fusion genes.
  • the fusion gene filter 236 checks whether the mutant base sequence contains a fusion gene of two genes that are respectively similar to the two candidate genes of the first fusion gene registered in the database of the external server.
  • the fusion gene filter 236 detects the mutated base sequence of the fusion genes of two genes that are respectively similar to the two candidate genes of any of the first fusion genes among the plurality of first fusion genes registered in the database of the external server.
  • the mutant base sequence contains a fusion gene that is a fusion of two genes that are similar to the two candidate genes of the first fusion gene. You may.
  • the fusion gene filter 236 determines whether the mutant base sequence includes a fusion gene in which a gene with a base sequence similar to the base sequence of the second fusion gene candidate gene acquired by the information processing device 1 is fused with another gene. Determine whether More specifically, for the plurality of second fusion genes acquired by the information processing device 1, the fusion gene filter 236 calculates the base sequence of the candidate gene of the second fusion gene and the base sequence of one of the fusion genes included in the mutant base sequence. The degree of similarity with the base sequence is determined for each second fusion gene. The fusion gene filter 236 determines whether the obtained similarity is greater than or equal to a threshold value.
  • the threshold value is a value at which it is assumed that the activity of the protein encoded by the second fusion gene is similar to the activity of the protein indicated by the mutant base sequence.
  • the fusion gene filter 236 determines that the mutant base sequence includes a fusion gene of a gene similar to the candidate gene of the second fusion gene acquired by the information processing device 1 when the calculated degree of similarity is greater than or equal to the threshold value.
  • the fusion gene filter 236 repeats the same determination for another second fusion gene candidate gene acquired by the information processing device 1 when the calculated similarity is less than the threshold value.
  • the fusion gene filter 236 mutates any fusion gene of a gene similar to any candidate gene of the second fusion gene, when the calculated degree of similarity is less than a threshold for all the second fusion genes acquired by the information processing device 1. It is determined that the base sequence is not included.
  • the fusion gene filter 236 also measures the degree of similarity between the base sequence of the candidate gene of the second fusion gene acquired by the information processing device 1 and the base sequence of one of the genes in the fusion gene included in the mutant base sequence. is 65% or more and 100% or less, it is determined that the mutant nucleotide sequence contains a fusion gene in which a gene with a nucleotide sequence similar to the nucleotide sequence of the candidate gene of the second fusion gene is fused with another gene. You may.
  • the fusion gene filter 236 determines that the degree of similarity between the base sequence of the candidate gene of the second fusion gene and the base sequence of one gene in the fusion gene included in the mutant base sequence is 80% or more and 100%. In the following cases, it may be determined that the mutant base sequence includes a fusion gene in which a gene with a base sequence similar to the base sequence of the candidate gene of the second fusion gene is fused with another gene.
  • the fusion gene filter 236 may transmit the mutant base sequence to an external server that stores a plurality of second fusion genes.
  • the fusion gene filter 236 checks whether the mutant base sequence includes a fusion gene of a gene similar to any of the plurality of second fusion gene candidate genes registered in the database of the external server.
  • the fusion gene filter 236 receives a notification from an external server indicating that the mutant base sequence includes a fusion gene of a gene similar to any of the registered second fusion gene candidate genes, It may be determined that the mutant base sequence contains a gene similar to the candidate gene of the two fused genes.
  • the fusion gene filter 236 determines the category based on the determination result of whether the mutant base sequence includes a fusion gene in which two genes similar to the two candidate genes of the first fusion gene are fused. For example, the fusion gene filter 236 determines whether any of the plurality of first fusion genes acquired by the information processing device 1 is a fusion gene in which two genes respectively similar to two candidate genes of the first fusion gene are fused. If it is determined that the sequence is included in the sequence, it is assumed that there is a harmful risk, and the category corresponding to the sequence variation to be analyzed is determined (for example, by subtracting "2" as the second predetermined amount from the category). Processing is passed to filter 238.
  • the fusion gene filter 236 refers to the base sequences of the two candidate genes of the first fusion gene that are known to have a relatively high probability of being a driver mutation, and determines the deleterious risk of the sequence variation. The degree can be estimated accurately by category.
  • the fusion gene filter 236 determines the category based on the determination result of whether the mutant base sequence includes a fusion gene in which a gene with a base sequence similar to the base sequence of the candidate gene of the second fusion gene is fused with another gene. For example, when the fusion gene filter 236 determines that the mutant base sequence includes a gene similar to any candidate gene of the plurality of second fusion genes acquired by the information processing device 1, the fusion gene filter 236 analyzes the mutant base sequence as having a harmful risk. The category corresponding to the target sequence variation is determined (for example, "1" is subtracted as the first predetermined amount from the category), and the process is passed to the storage position filter 237.
  • the fusion gene filter 236 is used when it is determined that the mutant base sequence does not include a fusion gene of a candidate gene that is similar to the two candidate genes of the first fusion gene acquired by the information processing device 1, or when the second fusion gene If it is determined that the mutant base sequence does not contain a fusion gene of a gene similar to the candidate gene of Processing is passed to position filter 237.
  • the second fusion gene containing the specific candidate gene may be a driver mutation. ing.
  • the fusion gene filter 236 can accurately present the degree of harmful risk of sequence variation by category.
  • the conserved position filter 237 determines the category based on whether the position of a conserved sequence, which is a base sequence conserved between the genomes of different biological species, is included in the mutation site of sequence variation.
  • the preservation position filter 237 sets a threshold based on a value indicating the degree of preservation (an output value of a preservation degree prediction tool such as GERP or phylop PhastCons), and uses only preserved sequences exceeding the threshold for classification. be able to.
  • the storage location filter 237 determines a category corresponding to a sequence mutation that poses a deleterious risk and is the target of analysis (for example, selects the first location from the category). subtract “1” as a quantitative value), and pass the processing to the structure filter 238.
  • the storage position filter 237 determines that the mutation location does not include the position of the storage sequence
  • the storage position filter 237 sets the category as is and passes the process to the structure filter 238. In this way, the storage location filter 237 can use the information indicating the location of the storage sequence to accurately present the degree of harmful risk of the sequence mutation corresponding to this mutation location by category.
  • the structural filter 238 determines whether the sequence variation represented by the base sequence information is a structural variation such as chromosomal translocation.
  • the structure filter 238 determines whether the sequence variation represented by the base sequence information is a chromosomal translocation, and determines the category based on the determination result.
  • the structural filter 238 determines whether or not a chromosomal translocation has occurred by referring to the content of the mutation and the mutation location included in the sequence mutation indicated by the base sequence information.
  • the structural filter 238 divides a mutant base sequence corresponding to a sequence variation into a plurality of base sequences, and identifies the position on the genome of each divided base sequence to determine whether the sequence variation is a chromosomal translocation. It may be determined whether or not.
  • the structure filter 238 determines whether the sequence variation represented by the base sequence information is a mutation that extends to multiple genes, and determines the category based on the result of this determination.
  • the structural filter 238 refers to the content of the mutation and the mutation location included in any of the sequence mutations indicated by the base sequence information, and determines whether or not a mutation that affects multiple genes has occurred.
  • the structural filter 238 divides a mutant base sequence corresponding to a sequence variation into multiple base sequences and identifies the position on the genome of each divided base sequence, thereby determining whether the sequence variation is a mutation that affects multiple genes. It may be determined whether or not.
  • Information indicating a plurality of registered genes involved in cell canceration, etc. is registered in advance in the storage unit 12.
  • the information indicating the registered gene is, for example, identification information for identifying the registered gene or information indicating the position of the registered gene on the chromosome.
  • the structure filter 238 may determine whether the sequence variation represented by the base sequence information is a deletion of a registered gene, and determine the category based on the result of this determination.
  • the structure filter 238 refers to the mutation content and mutation location included in any of the sequence mutations indicated by the base sequence information, and determines whether any of the plurality of registered genes registered in the storage unit 12 has been deleted. Determine whether
  • the storage unit 12 has registered in advance information on the positions of enhancers on the chromosome that control the expression of genes involved in cell canceration, etc.
  • the structural filter 238 determines that a translocation, inversion, deletion, etc. has occurred, the cancer gene whose sequence mutation represented by the nucleotide sequence information is registered in the storage unit 12 is registered in the storage unit 12. It is also possible to determine whether or not the decontrol abnormality is located in the vicinity of the enhancer that has been detected, and to determine the category based on the result of this determination.
  • the structure filter 238 selects two genes that form a fusion gene when it is determined that the sequence variation represented by the base sequence information will form a fusion gene such as a first fusion gene or a second fusion gene due to translocation, deletion, etc. If the first candidate gene and second candidate gene are ' ⁇ 3' direction, or a combination of first candidate gene 3' ⁇ 5' and second candidate gene 3' ⁇ 5'), and determine whether a functional fusion gene is formed. The category may be determined based on the determination result.
  • Sequence information related to amino acid translation (codons) of gene regions and splicing of RNA is registered in advance in the storage unit 12.
  • the structural filter 238 determines that the sequence variation represented by the nucleotide sequence information will form a fusion gene due to translocation, deletion, etc.
  • the structure filter 238 determines whether or not a functional fusion gene will be formed based on the information in the above items.
  • the category may be determined based on the determination result.
  • the structural filter 238 divides the mutant base sequence into a plurality of base sequences, and identifies the position on the genome for each divided base sequence.
  • the structural filter 238 compares the position of the specified base sequence on the genome with the positions of a plurality of registered genes registered in the storage unit 12 to determine whether deletion has occurred in any of the registered genes. may be determined.
  • the structural filter 238 determines a category corresponding to the sequence variation to be analyzed as having a deleterious risk. For example, the structure filter 238 subtracts "1" from the category corresponding to sequence variation as the first predetermined amount. On the other hand, if it is determined that no translocation has occurred, the category corresponding to the sequence variation targeted for analysis is left unchanged.
  • the structural filter 238 selects a category corresponding to the sequence mutation to be analyzed as having a harmful risk (for example, the first place from the category corresponding to the sequence mutation). Subtract “1” for quantification). On the other hand, when the structural filter 238 determines that a structural variation that extends to a plurality of genes does not occur, it leaves the category corresponding to the sequence variation unchanged.
  • the structural filter 238 determines that one of the plurality of registered genes registered in the storage unit 12 is deleted, the structural filter 238 further extracts a first predetermined amount from the category corresponding to the sequence variation to be analyzed. Then, processing is passed to the structure filter 238. On the other hand, when the structural filter 238 determines that none of the plurality of genes registered in the storage unit 12 is deleted, the structural filter 238 leaves the category corresponding to the sequence variation targeted for analysis as is, and the structural filter 238 Pass the process. In this way, the structural filter 238 determines whether a structural mutation such as a chromosomal translocation, a mutation affecting multiple genes, or a deletion of a gene involved in cell canceration has occurred. , it is possible to accurately present the degree of deleterious risk of sequence variation by category.
  • FIG. 12 is a flowchart illustrating details of the flow of filter processing by the third filter processing section 43 having the functional configuration of FIG. 11.
  • step S41 the basic filter 231 determines whether or not the sequence variation to be processed has a harmful risk based on the conditions of the basic filter 231. If the sequence variation to be processed does not pose a harmful risk according to the conditions of the basic filter 231, the determination in step S41 is "NO", the category is set to MYC4, and the process proceeds to step S49.
  • step S49 the third filter processing unit 43 outputs the category.
  • step S41 If the sequence variation to be processed has a harmful risk according to the conditions of the basic filter 231, a determination of "YES" is made in step S41, the category is set to MYC3, and the process proceeds to step S42.
  • step S42 the time series filter 232 determines whether or not the sequence variation to be processed has a harmful risk based on the conditions of the time series filter 232.
  • step S42 If the sequence variation to be processed has a harmful risk according to the conditions of the time-series filter 232, a determination of "YES" is made in step S42, the category is set to MYC2, and the process proceeds to step S47. Note that the processing after step S47 will be described later.
  • step S42 determines whether the sequence variation to be processed does pose a harmful risk according to the conditions of the time series filter 232. If the sequence variation to be processed does not pose a harmful risk according to the conditions of the time series filter 232, the determination in step S42 is "NO", the category is set to MYC3, and the process proceeds to step S43.
  • step S43 the fusion gene filter 236 determines whether or not the sequence variation to be processed includes a fusion gene of genes similar to the two candidate genes of the first fusion gene.
  • step S43 If the sequence variation to be processed includes a fusion gene of a gene similar to the two candidate genes of the first fusion gene (that is, if there is a harmful risk), a determination of "YES" is made in step S43, and the category is changed. It is set to MYC2, and the process proceeds to step S47. Note that the processing after step S47 will be described later.
  • step S43 If the sequence variation to be processed does not include a fusion gene of a gene similar to the two candidate genes of the first fusion gene (that is, if there is no harmful risk), the determination is "NO" in step S43, and the category is is set to MYC3, and the process proceeds to step S44.
  • step S44 the fusion gene filter 236 determines whether the sequence variation to be processed includes a fusion gene of a gene similar to the candidate gene of the second fusion gene.
  • step S45 the storage location filter 237 determines whether the mutation location includes the location of the storage sequence for the sequence mutation to be processed.
  • step S46 the structural filter 238 determines whether or not the sequence variation to be processed includes various structural variations. In each filter of steps S44 to S46, if it is determined that there is a harmful risk, the category is set to MYC2. On the other hand, if it is determined that there is no harmful risk, the category is set to MYC3.
  • step S47 the quality filter 235 determines whether the quality is sufficient.
  • step S47 If the quality of the processing results of steps S41 to S46 (results of the filter processing of the basic filter 231, time series filter 232, fusion gene filter 236, storage position filter 237, and structure filter 238) is sufficient, in step S47 If the determination is "YES", the process proceeds to step S48. In step S47, since the quality is determined to be sufficient, "1" is subtracted from the category.
  • step S47 If the quality of the processing results of steps S41 to S46 (filter results of the basic filter 231, time series filter 232, fusion gene filter 236, storage position filter 237, and structure filter 238) is not sufficient, "NO" is selected in step S47. If so, the process proceeds to step S49. In this case, in step S47, it is determined that the quality is not sufficient, so "1" is not subtracted from the category.
  • step S49 the third filter processing unit 43 outputs the category.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by adjusting the threshold value.
  • the information processing device 1 obtains the base sequences of two candidate genes of the first fusion gene and the two candidate genes of the fusion gene included in the mutant base sequence. If the degree of similarity between the nucleotide sequences of two genes is 65% or more and 100% or less, a fusion gene that is a fusion of two genes that are similar to the two candidate genes of the first fusion gene has a mutant nucleotide sequence. It can be determined that it is included.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by adjusting the range of similarity ratios involved in determination.
  • the degree of similarity between the base sequences of the two candidate genes of the first fusion gene and the base sequences of the two genes of the fusion gene included in the mutant base sequence is 75% or more and 100% or less, fusion occurs. It can be determined that the gene is included in the mutant base sequence, or it can be determined that the fused gene is included in the mutant base sequence when the ratio is 85% or more and 100% or less.
  • the mutant base sequence corresponding to the sequence mutation to be analyzed is sent to an external server that stores combinations of candidate genes for a plurality of first fusion genes.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by changing the external server to be used.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by adjusting the similarity threshold.
  • the base sequence of the candidate gene of the second fusion gene acquired by the information processing device 1 and the base sequence of one of the genes in the fusion gene included in the mutant base sequence are used.
  • a fusion gene in which a gene with a nucleotide sequence similar to the nucleotide sequence of the candidate gene of the second fusion gene is fused with another gene is considered to be a mutant nucleotide when the degree of similarity between the nucleotide sequence and the nucleotide sequence is 65% or more and 100% or less. It can be determined that it is included in the array.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by adjusting the range of similarity ratios involved in determination.
  • the degree of similarity between the base sequence of the candidate gene of the second fusion gene and the base sequence of one gene in the fusion gene included in the mutant base sequence is 75% or more and 100% or less, fusion occurs. It can be determined that the gene is included in the mutant base sequence, or it can be determined that the fused gene is included in the mutant base sequence when the ratio is 85% or more and 100% or less.
  • the mutant base sequence is transmitted to an external server that stores a plurality of second fusion genes, and based on the results of the investigation in the external server, the second fusion gene filter 236 is It may be determined that the mutant base sequence contains a gene similar to the candidate gene.
  • the adjustment unit 4 can adjust the determination result by the fusion gene filter 236 by changing the external server to be used.
  • the storage position filter 237 determines whether the position of the storage sequence indicated by the storage sequence position information acquired by the information processing device 1 is included in a mutation site, and is used to determine whether or not it is a storage sequence. By changing the threshold set in , the classification criteria and determination results of the storage location filter 237 can be adjusted.
  • the structural filter 238 determines whether or not a structural polymorphism of the chromosome (for example, translocation, deletion, insertion, etc.) has occurred by referring to the content of the mutation and the mutation location included in the sequence mutation indicated by the base sequence information.
  • the adjustment unit 4 can adjust the determination result by the structural filter 238 by changing the content of the mutation or the mutation location to be referred to.
  • the structural filter 238 divides a mutant base sequence corresponding to a sequence variation into a plurality of base sequences, and identifies the position on the genome of each divided base sequence to determine whether the sequence variation is a chromosomal translocation. It may be determined whether or not.
  • the adjustment unit 4 can adjust the determination result by the structural filter 238 by changing the unit of division.
  • the sequence variation represented by the base sequence information is a deletion located near the enhancer of the cancer gene. It may be determined whether or not there is a control abnormality, and the category may be determined based on the determination result.
  • the adjustment unit 4 can adjust the determination result by adjusting the criteria by which the structural filter 238 determines that there is an out-of-control abnormality.
  • system configuration shown in FIG. 1 and the configuration of the control unit 11 of the information processing device 1 shown in FIG. 2 are merely examples for achieving the purpose of the present invention, and are not particularly limited.
  • FIGS. 2, 3, 5, 7, and 11 are merely examples, and are not particularly limited. In other words, it is sufficient that the information processing device 1 is equipped with a function that can execute the above-mentioned series of processes as a whole, and what kind of functional blocks are used to realize this function is particularly explained in the examples in these figures. Not limited.
  • the locations of the functional blocks are not limited to those shown in FIGS. 2, 3, 5, 7, and 11, and may be arbitrary.
  • the above-mentioned processing is performed on the information processing device 1 side, but the configuration is not limited to this, and at least a part of the processing is performed on the side of another information processing device (not shown). May be done. That is, although the functional blocks required to execute the analysis process are provided in the information processing apparatus 1 side, this is merely an example. At least a portion of the functional blocks arranged on the information processing device 1 side may be provided in another information processing device (not shown).
  • the means and methods for performing various processes in the system according to the embodiments described above can be realized by either a dedicated hardware circuit or a programmed computer.
  • the program may be provided on a computer-readable recording medium such as a flexible disk or CD-ROM, or may be provided online via a network such as the Internet.
  • a program recorded on a computer-readable recording medium is usually transferred to and stored in the storage unit 12 such as a hard disk.
  • the above program may be provided as a standalone application software, or may be incorporated into the software of the device as a function of the system.
  • the step of writing a program to be recorded on a recording medium is not only a process that is performed chronologically in accordance with the order, but also a process that is not necessarily performed chronologically but in parallel or individually. It also includes the processing to be executed.
  • an embodiment of the present invention may include a standard nucleic acid composition that contains a nucleic acid containing a known sequence variation to which the category belongs and is used in the information processing device 1 described above.
  • the category to which it belongs is data that includes known sequence variations, and can also include standard nucleic acid data used in the information processing device 1 described above.
  • system refers to an overall device composed of a plurality of devices, a plurality of means, etc.
  • the present invention includes the following aspects and forms.
  • An information processing device that selects a target sequence mutation that has a harmful risk in a subject, a filtering unit that classifies one or more sequence variations identified by sequencing the nucleic acid contained in the subject into each category according to the degree of harmful risk, based on one or more classification criteria; A base sequence containing a sequence variation to which the category to which it belongs is known is classified into each of the categories according to the degree of harmful risk based on at least one of the classification criteria, and the results of the classification are classified into the categories to which it belongs.
  • An information processing device comprising: a control unit that compares an appropriate category;
  • the information processing device including an adjustment unit that adjusts the classification standard and/or the classification result in the filtering unit based on the comparison result in the control unit.
  • nucleotide sequences containing sequence variations to which the categories to which they belong are known are two or more types to which the categories to which they belong are different.
  • the two or more types of base sequences that belong to different categories include a sequence variation that causes a specific disease and a base sequence that does not cause the specific disease, according to [3].
  • Information processing device includes a sequence variation that causes a specific disease and a base sequence that does not cause the specific disease, according to [3].
  • the target sequence mutation is a driver mutation of a specific disease
  • the information processing device according to [4], wherein the two or more types of sequence variations include a sequence variation that causes the specific disease and a sequence variation that does not cause the specific disease.
  • the base sequence classified by the control section is one obtained by sequencing a standard composition of nucleic acids containing sequence variations to which the category to which it belongs is known, according to any one of [1] to [7].
  • Information processing device is one obtained by sequencing a standard composition of nucleic acids containing sequence variations to which the category to which it belongs is known, according to any one of [1] to [7].
  • a method for selecting a target sequence variation that has an adverse risk in a subject comprising: a filtering step of classifying one or more sequence variations identified by sequencing the nucleic acid contained in the subject into each category according to the degree of harmful risk, based on one or more classification criteria; A base sequence containing a sequence variation to which the category to which it belongs is known is classified into each of the categories according to the degree of harmful risk based on at least one of the classification criteria, and the results of the classification are classified into the categories to which it belongs.
  • An information processing method comprising: a control process for contrasting categories.
  • Standard nucleic acid data that is data that includes a known sequence variation to which it belongs, and is used in the information processing device according to any one of [1] to [9].
  • the information processing device of the present invention is capable of presenting more accurate analysis results in devices that perform analysis on the possibility that mutations in base sequences affect the occurrence and progression of diseases, so it is useful in the medical field and other fields. It is applicable to a wide range of fields such as the life science field and is industrially useful.
  • Comparison result output section, 43...Third filter processing unit 231 ...Basic filter, 232...Time series filter, 233...Database filter, 234...Function prediction filter, 235...quality filter, 236...Fusion gene filter, 237...Save position filter, 238...Structure filter.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Analytical Chemistry (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Immunology (AREA)
  • Genetics & Genomics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Medicinal Chemistry (AREA)
  • Hematology (AREA)
  • Urology & Nephrology (AREA)
  • Food Science & Technology (AREA)
  • Cell Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Sustainable Development (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

遺伝情報に関する情報処理装置、情報処理方法、及び情報処理プログラムに関する。 被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング部2と、所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて、前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール部3と、を有する情報処理装置、情報処理方法、及び情報処理プログラムを提供する。

Description

情報処理装置、情報処理方法、及び情報処理プログラム
 本発明は、塩基配列の情報処理装置、情報処理方法、及び情報処理プログラムに関する。
 従来、体細胞の遺伝情報に含まれる塩基配列の突然変異に起因して疾病が生じる場合があることは広く知られている。例えば、遺伝子内に生じた一塩基多型(SNP)や構造多型(SV)などの変異は、がんなどの疾病の原因となり得る。近年では、体細胞における種々の塩基配列の変異がどのような疾病に関係するかといった情報がデータベースに記録されており、幅広く利用されている(非特許文献1参照)。
 また、近年、網羅的な塩基配列解析技術(例えば次世代シーケンサー(NGS))の進歩により、個人レベルにおける全ゲノムの解析が可能となったことから、一回の変異の分析で検出される変異は、検体あたり数百~数百万と膨大な量となっており、それぞれの変異につき、人為的にその結果の解釈を行うのは効率的でなく、現実的でもない。そこで分析結果の人間による解釈を補助する装置が要望されている。
COSMIC Release v94 is live!、[online]、2021年3月28日、[令和3年10月8日検索]、インターネット<URL: https://cosmic-blog.sanger.ac.uk/Release-v94/>
 上述のデータベースを利用し、検体の塩基配列を解析することにより、その検体の塩基配列に変異が生じているか否かを判断することができる。しかしながら、それだけの情報で、塩基配列に存在する変異が疾病に直接影響するもの(例えば、がんに対するドライバー変異)であると簡単に判断することはできない。塩基配列の変異が疾病に直接影響すると判断するためには、当該変異以外にも考慮すべき項目が多岐にわたるためである。ところが、そのような多岐にわたる項目を考慮し、検体の塩基配列の変異がどの程度疾病の発生に影響する可能性があるかについて、分析することは行われていなかった。
 そこで、本出願人は、塩基配列の変異が病気の発生や進行に影響する可能性の程度を提示する分析装置を実現するための技術を特許出願している(国際出願番号PCT/JP2020/037499明細書参照)。
 本発明は、塩基配列の変異が病気の発生や進行に影響する可能性の程度を、より正確に提示することを目的とする。
 上記課題を解決する本発明の一態様に係る情報処理装置は、被検体が有する、塩基配列上の有害リスクのある目的配列変異を選定する情報処理装置であって、前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング部と、所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて、前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール部と、を有する情報処理装置を有する。
 本発明の一態様に係る情報処理方法は、被検体が有する、塩基配列上の有害リスクのある目的配列変異を選定する方法であって、前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング工程と、所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール工程と、を有する。
 本発明の一態様に係る情報処理プログラムは、コンピュータを上記の情報処理装置として機能させるように構成される。
 本発明によれば、塩基配列の変異が病気の発生や進行に影響する可能性の程度を、より正確に提示することができる。
本発明の一実施形態に係る情報処理装置の構成例を示すブロック図である。 本発明の一実施形態に係る情報処理装置の各機能の例を表す機能ブロック図である。 本発明の一実施形態に係る情報処理装置のフィルタリング部の例を表す機能ブロック図である。 本発明の一実施形態に係る情報処理装置に入力される塩基配列情報の例を表す説明図である。 本発明の一実施形態に係る情報処理装置のフィルタ処理部の例を表す機能ブロック図である。 本発明の一実施形態に係る情報処理装置が出力する出力情報の一例を表す説明図である。 本発明の一実施形態に係る情報処理装置のコントロール部の例を表す機能ブロック図である。 本発明の一実施形態に係る情報処理装置のフィルタリング部の動作例を表す流れ図である。 本発明の一実施形態に係る情報処理装置のフィルタ処理部の動作例を表す流れ図である。 本発明の一実施形態に係る情報処理装置のコントロール部及び調整部の動作例を表す流れ図である。 本発明の第2の実施形態に係る情報処理装置のフィルタ処理部の例を表す機能ブロック図である。 本発明の第2の実施形態に係る情報処理装置のフィルタ処理部の動作例を表す流れ図である。
 以下、本発明の一実施形態について添付図面を参照して詳細に説明する。ただし、この実施形態は例であり、本発明はこれに限定されるものではない。
 本発明の第1の実施形態について図面を参照しながら説明する。
 情報処理装置1は、塩基配列上の有害リスクのある目的配列変異を選定する情報処理装置1であって、情報処理の対象となる個体や検体(以下、被検体ともいう)に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング部2を有する。加えて、情報処理装置1は、所属すべきカテゴリが既知である配列変異を含む塩基配列を、分類基準の少なくとも1つに基づいて、有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を当該所属すべきカテゴリと対比するコントロール部3を有する。この情報処理装置1のフィルタリング部2及びコントロール部3については後に詳しく述べる。
 本明細書において、「配列変異」は、変異の位置や種類を含む、塩基配列の変異の状態を意味する。配列変異は、例えば、一塩基の変異であってもよく、複数の遺伝子に及ぶ染色体の転座等の構造変異であってもよい。
 当該配列変異を表す情報を含む情報を「塩基配列情報」と呼ぶ。塩基配列情報は、配列変異を表す情報として、変異のあった位置(リファレンスとなるゲノム情報と比較した場合の染色体上の位置(例えば、リファレンスとなる塩基配列の一方側から何番目の塩基であるかを示す情報)など)において、本来あるべき塩基や塩基配列がどのような塩基や塩基配列に変異しているのかを表す情報を含んでもよい。リファレンスとなるゲノム情報とは例えば、NGS解析に必要なゲノム情報であり、ヒトにおいては、GRCh38(hg38)やGRCh37(hg19)が挙げられる。加えて、塩基配列情報は、配列変異を表す情報として、シーケンスアライメントにより抽出された情報を含んでもよい。
 また、塩基配列情報は、塩基配列を次世代シーケンサーなどでシーケンシングすることによって取得された情報であってもよい。塩基配列は、被検体から得られた核酸であってもよいし、人工的に合成されたものであってもよい。塩基配列情報には、シーケンシングによって取得される情報として、例えば、FASTQ形式、SAM(Sequence Alignment Map)形式、BAM形式のファイルが含まれてもよい。
 本明細書における有害リスクとは、がんを含む疾患が生じる可能性を意味する。例えば、有害リスクがある配列変異とは、その塩基配列の変異によりがんなどの疾患が生じる可能性があることを意味し、有害リスクがない配列変異とは、その可能性がない塩基配列の変異を意味する。なお、情報処理装置1による選定を目的とする配列変異を、特に「目的配列変異」という。
 図1は、情報処理装置1の概略構成を示すブロック図である。図1に示すように、情報処理装置1は、それぞれ制御部11、記憶部12、通信部13、表示部14、操作受付部15、ドライブ16と、を備えている。各構成要素は、バス18を介して相互に通信可能に接続されている。
 制御部11は、CPU(Central Processing Unit)を備え、プログラムに従い、各構成要素の制御や各種の演算処理を実行する。
 記憶部12は、予め各種プログラムや各種データを記憶するROM(Read Only Memory)、作業領域として一時的にプログラムやデータを記憶するRAM(Random Access Memory)、各種プログラムや各種データを記憶するハードディスク等を備える。
 通信部13は、インターネットを含むネットワークNを介して他の装置(例えば図示せぬ分析結果を閲覧する端末の情報処理装置等)との間で通信を行う。
 表示部14は、液晶等のディスプレイやスピーカ等により構成され、各種情報を画像や音声として出力する。
 操作受付部15は、タッチセンサーや、マウス等のポインティングデバイス、キーボード等を備え、ユーザの各種操作を受け付ける。なお、表示部14及び操作受付部15は、表示部14としての表示面に、操作受付部15としてのタッチセンサーを重畳することによって、タッチパネルを構成してもよい。操作受付部15は、ドライブ16を有していてもよい。
 ドライブ16には、磁気ディスク、光ディスク、光磁気ディスク、あるいは半導体メモリ等よりなる、リムーバブルメディア17が適宜装着され得る。ドライブ16によってリムーバブルメディア17から読み出されたプログラムは、必要に応じて記憶部12にインストールされる。
 また、リムーバブルメディア17は、記憶部12に記憶されている各種データも、記憶部12と同様に記憶することができる。
 このような図1の情報処理装置1の各種ハードウェアと各種ソフトウエアとの協働により、各種処理の実行が可能になる。
 図2は、本実施形態に係る情報処理装置1の制御部11の機能構成を示すブロック図である。図2に示すように、情報処理装置1の制御部11は、プログラムを読み込んで処理を実行することによって、フィルタリング部2やコントロール部3、調整部4として機能する。
 <フィルタリング部>
 フィルタリング部2は、被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類する。図3は、情報処理装置1においてフィルタリング部2に関わる各種処理を実行するための機能的構成の一例を示すブロック図である。図3に示すように、フィルタリング部2においては、第1データ受入部21と、第1設定受入部22と、第1フィルタ処理部23と、カテゴリ決定部24と、分析結果出力部25とが機能する。
(第1データ受入部)
 第1データ受入部21は、被検体に含まれる核酸を配列決定して特定された1以上の配列変異を含む塩基配列情報を受け入れる。以下、第1データ受入部21が受け入れた塩基配列情報を、第1塩基配列情報ともいう。当該第1塩基配列情報には、配列変異を表す情報に加えて、情報処理の対象となる個体及び、当該個体から得た検体を識別する検体識別情報などが含まれてもよい。
 図4は、図3の情報処理装置1に第1データ受入部21で受け入れられる第1塩基配列情報の構成例を示している。
 図4に示すように、第1塩基配列情報は、配列変異毎(同図中各行毎)に、当該配列変異の塩基配列が見出された染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、抽出された変異している塩基配列(Alt)と、変異している塩基配列の割合(アレル頻度:AF)とを少なくとも関連付けた情報である。これらに加え、後述する第2データ受入部31で受け入れられた塩基配列情報には、後述する所属すべきカテゴリに関する情報が含まれている。
 本例の第1塩基配列情報においては、配列変異毎(同図中各行毎)に、これらの情報に対してさらに、深度(depth)や配列変異のカウント数(AltCount)等、品質に関係する指標等が関連付けられている。なお、塩基配列の長さは「1」(この場合、塩基配列の情報はA,T,C,Gのいずれかの塩基を表す情報となる)であってもよい。
 また第1塩基配列情報には、個体の症例等に関する情報(病名や治療歴、腫瘍割合などの情報)が含まれてもよい。
 また、第1データ受入部21においては、同じ被検体から、異なるタイミング(複数あってもよい)で抽出された塩基配列に関する情報(時系列情報)を受け入れてもよい。この場合は、第1データ受入部21は、分析の対象とする塩基配列情報の時系列の入力を受けてもよい。
 (第1設定受入部)
 第1設定受入部22は、第1データ受入部21にて受け入れた塩基配列情報を分析するための設定を受け付ける。この設定は、例えば、後述するフィルタ処理部に用いるフィルタの種類の設定や、各フィルタにおける分類基準の設定を含む。
 (フィルタ処理部)
 本実施の形態では、フィルタ処理部の動作により、塩基配列の変異の分析結果の解釈に影響する種々の情報に基づく、有害リスクの程度の評価が行われる。この有害リスクの程度の評価結果は、後述するカテゴリMYC1~MYC4のうちいずれかにより表される。
 ここで、解釈に影響する情報には、(1)分析の際に得られる当該変異の付帯情報、及び(2)文献やデータベースに収載された変異に関連する情報、が含まれる。このうち(1)分析の際に得られる当該変異の付帯情報には、(a)検出精度や信頼性の情報(例えば、変異が検出エラーでない確率)、(b)変異のアレル頻度(例えば、同一変異を持つ細胞集団の全体に占める割合に関連する指標)、(c)時系列情報(例えば、すなわち同一症例の他の時点での検体において繰り返して当該変異が検出されているか否か)、などがある。
 また、(2)文献やデータベースに収載された変異に関連する情報には、当該変異が疾患のドライバー変異として記載されているか否か(あるいはどの程度の頻度で記述がされているか)を表す情報が含まれる。SNP(single nucleotide polymorphism)データベースにも登録がある場合、変異アレルはどの程度の対立アレル頻度で、当該人種においてSNPとして報告されているかという情報が文献やデータベースに収載されていてもよい。さらには、機能予測として、当該変異がコード化されたたんぱく質の立体構造や機能に影響を与えるか、例えばがんの病態形成に関わるとして実験などにより示されているか予測されているか否かを表す情報などが文献やデータベースに収載されていてもよい。
 (第1フィルタ処理部)
 第1フィルタ処理部23は、第1データ受入部21が受け入れた塩基配列情報に含まれる配列変異を、予め定められた1つ以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリであるMYC1、MYC2、MYC3、及びMYC4のうちいずれかに分類する。なお、第1フィルタ処理部23の詳細な構成例については、図5を参照して後述する。
 ここで、MYC1及びMYC2は有害リスクが高いカテゴリである。例えば、MYC1及びMYC2は、塩基配列の変異がドライバー変異である可能性が高い。MYC1の方が、MYC2よりも有害リスクが高く、高確率で真のドライバー変異である可能性が高いことを示している。
 MYC3は、MYC1及びMYC2よりも有害リスクが低いカテゴリである。例えば、MYC3は、塩基配列における変異がドライバー変異である可能性が低い(それ故にドライバー変異候補としては取り扱わない)と評価されたことを示すカテゴリである。即ち、MYC3は、配列変異が有害でない変異と評価されたことを示すカテゴリである。
 MYC4は、MYC3よりも有害リスクが低いカテゴリである。MYC4は、例えば、塩基配列の変異がドライバー変異の可能性はほぼ0であるという評価や、既知のSNP、errorが起こりやすい領域の変異であることを示すカテゴリである。
 図5は、第1フィルタ処理部23の詳細な機能的構成の一例を示すブロック図である。図5において、第1フィルタ処理部23には、基本フィルタ231と、時系列フィルタ232と、データベースフィルタ233と、機能予測フィルタ234と、クオリティフィルタ235とが設けられている。
 〈基本フィルタ〉
 基本フィルタ231は、分析の対象とする配列変異が良性であると判断できる場合に、良性変異であることを表すカテゴリ(例えばMYC4)を設定する。また、基本フィルタ231は、分析の対象とする配列変異が良性であると判断できなければ、有害リスクありとし、良性変異でないことを表すカテゴリ(例えばMYC3)を設定する。
 ここで良性と判断できる場合とは、がん化等を引き起こす既知の変異の塩基配列と、配列変異に対応する塩基配列と、の重複部分が比較的短い重複部分である場合、配列変異が表す変異の位置する領域がイントロン領域である場合、SNPデータベース等のように異常がない変異を蓄積したデータベースに配列変異が登録されている場合、又はGDI(Gene Damage Index)に基づいて配列変異が良性と判断できる場合等が相当する。
 ここでGDIは、各遺伝子について健常人にどれだけダメージが蓄積されているかを表す指標であり、人によって大きいダメージを受けていても(多様性があっても)、変異によって有害リスクを有すると考えられない遺伝子である可能性を示す。
 基本フィルタ231は、第1設定受入部22から、がん化等を引き起こす既知の変異の塩基配列と配列変異に対応する変異した塩基配列との重複部分の長さの閾値、SNPであるか否かを判断するデータベースを特定する情報、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値、又はデータベースにSNPである確率などとして登録された値と比較される)の少なくともいずれかの設定を受け入れる。基本フィルタ231は、受け入れた設定に基づいて、分析の対象とする配列変異が良性であるか否かを判断する。
 例えば、基本フィルタ231は、配列変異が、文節的重複(segmental duplication)と呼ばれる部位に位置する場合は、良性変異であることを表すカテゴリを設定する。文節的重複は、染色体の10~300kbのまとまった領域において、脊椎動物の進化の過程で、遺伝子が複製されて隣り合う部位で遺伝子重複するか、あるいは全く離れた別のゲノム上で遺伝子重複したものである。配列変異が文節的重複に位置する場合、シークエンス結果のリファレンスへのmapping時に生じた検出エラーであり、偽陽性の可能性が高いと考えられる。従って、配列変異が文節的重複領域に位置している場合は良性変異とみなす処理を施す。具体的には、配列変異がこの文節的重複領域に位置し、当該文節的重複領域の指標が閾値を超える場合は、エラーの可能性が高いため、良性変異であることを表すカテゴリを設定する。また基本フィルタ231は、配列変異が表す変異の位置する領域がイントロン領域であれば、良性変異であることを表すカテゴリを設定する。
 さらに基本フィルタ231は、上記2つの条件を満たさなくとも、指定されたSNPデータベースを検索した結果に基づいて、良性変異であることを表すカテゴリを設定してもよい。基本フィルタ231は、例えば、検索によって配列変異が表す変異がSNPデータベースに登録され、かつ、そのSNPである確率として登録された値が、当該SNPデータベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すカテゴリを設定する。
 また基本フィルタ231は、ここまでの条件を満たさない場合であっても、当該配列変異が存在する遺伝子のGDIを参照して、予め定められたGDI閾値より大きい場合に、良性変異であることを表すカテゴリを設定する。
 これにより情報処理装置1は、例えばがんのドライバー変異となり得ない(あるいはその可能性が十分低い)遺伝子を予めふるいわけることが可能となる。
 またこの基本フィルタ231では、第1設定受入部22から予め定めた、良性と判断するための複数の条件から、どの条件を利用するか(あるいは全ての条件を利用せず、基本フィルタ231としての動作をせずに、全ての配列変異についてカテゴリをMYC3に設定して処理をパスするか否か)の設定を受け入れてもよい。
 この例では基本フィルタ231は、利用すると設定された条件に限って、当該条件を満たすか否かを判断することとなる。
 〈時系列フィルタ〉
 時系列フィルタ232は、基本フィルタ231が処理をパスした(MYC3が設定された)場合に、分析の対象とする配列変異に対応する、時系列情報に含まれる配列変異の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
 時系列フィルタ232は、分析の対象とする配列変異と、時系列情報に含まれる対応する配列変異とを用い、同じ変異が存在する場合に、問題とするべき変異があるものとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定してクオリティフィルタ235に処理をパスする。第1所定量は、例えば、配列変異に係るカテゴリから1回の演算において減算又は加算される最小値である。ここでの例では基本フィルタ231が処理をパスしているので、当初のカテゴリはMYC3であり、ここで時系列フィルタ232が問題とするべき変異があるものとしたときには、このMYC3から第1所定量として「1」を引いてカテゴリをMYC2と設定することとなる。
 一方、時系列フィルタ232は、分析の対象とする配列変異と、時系列情報に含まれる対応する配列変異とを用い、同じ変異が存在しないときには、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスする。
 なお、時系列フィルタ232は、第1設定受入部22から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する配列変異に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ232は、同じ配列変異があったか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスする。
 さらに本実施の形態の例では、この時系列フィルタ232は、第1データ受入部21で受け入れた第1塩基配列情報に時系列情報が含まれていない場合には、同じ配列変異があるか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスしてもよい。
 また、第1設定受入部22から時系列フィルタ232を利用しない設定が入力されている場合、時系列フィルタ232は、同じ配列変異があるか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスする。
 〈データベースフィルタ〉
 データベースフィルタ233は、分析の対象とする配列変異が、予め定められた問題とするべき変異に関する情報を蓄積したデータベース(例えばCOSMIC Cancer Databaseなど)に登録されているか否かを、当該データベースのサーバと通信することにより調べる。当該配列変異がデータベースに登録されている場合、問題とするべき変異がある(有害リスクがある)ものとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスする。ここで各フィルタによる一連の処理の例を挙げると、分析の対象とする配列変異について、基本フィルタ231が有害リスクがあるとして処理をパスし、時系列フィルタ232においてカテゴリをそのままとした状態で処理がパスした場合に、データベースフィルタ233が有害リスクがあると判断をすると、データベースフィルタ233は、MYC3から第1所定量として「1」を引いて、カテゴリをMYC2に設定した上で、クオリティフィルタ235に処理をパスする。
 また、データベースフィルタ233は、分析の対象とする配列変異が、上記問題とするべき変異に関する情報を蓄積したデータベースに登録されていなかった場合に、カテゴリをそのままに設定して機能予測フィルタ234に処理をパスする。ここでの例では、このときのカテゴリはMYC3のままとなる。
 なお、このデータベースフィルタ233は、上記問題とするべき変異に関する情報を蓄積したデータベースとして、どのようなデータベースを利用するかの設定を、第1設定受入部22から受け入れておく。
 この設定では、複数のデータベースを用いるべき旨の指示がされてもよく、この場合、データベースフィルタ233は、分析の対象とする配列変異が、上記問題とするべき変異に関する情報を蓄積したデータベースのいずれかに登録されていた場合に、問題とするべき変異があるものとしてカテゴリを設定する。
 〈機能予測フィルタ〉
 機能予測フィルタ234は、変異の有害リスクを評価したり予測したりするプログラム(機械学習プログラムを含む)や、有害リスクの評価結果や予測値を公開したデータベースを参照する。そして、分析の対象とする配列変異が、有害リスクのあるものとしてプログラムやデータベースに登録されている場合に、有害リスクのある変異を有するものとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定し、クオリティフィルタ235に処理をパスする。
 ここで変異の有害リスクを評価したプログラムとしては、SIFTや、PolyPhen2、SnpEff、VEPなど広く知られたものがある。また、これらのプログラムやデータベースには、有害リスクの有無についてスコアによる閾値を設けたり、多段階で評価しているものがある。例えば、これらのプログラムやデータベースにおいて有害リスクの有無が判断段階にある場合にも、この機能予測フィルタ234は、有害リスクあるものとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスするものとする。
 また、機能予測フィルタ234は、上述したプログラムやデータベースを参照することで、重要な遺伝子発現に関わるプロモーターの欠失や重複、重要な遺伝子のスプライシングの異常をもたらす欠失や挿入、重要な遺伝子発現制御に重要なnoncoding RNAの欠失や挿入などが引き起こされるかを予測しても良い。これらのプログラムにおいて有害リスクの有無が判断段階にある場合に、この機能予測フィルタ234は、有害リスクあるものとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定して、クオリティフィルタ235に処理をパスしても良い。
 ここで各フィルタによる一連の処理の例を挙げると、分析の対象とする配列変異について、基本フィルタ231が有害リスクありとして処理をパスし、時系列フィルタ232においてカテゴリをそのままとした状態で処理がパスされ、さらにデータベースフィルタ233においてもカテゴリがそのままの状態で処理がパスされたときに、この機能予測フィルタ234が有害リスクありと判断した場合、機能予測フィルタ234は、その際のMYC3から第1所定量として「1」を引いて、カテゴリをMYC2に設定した上で、クオリティフィルタ235に処理をパスすることとなる。
 またこの機能予測フィルタ234は、変異の有害リスクを評価したデータベースを参照して、分析の対象とする配列変異に係る変異が、有害リスクがあるものとしてデータベースに登録されていなければ(又は登録されていても不明であるとか、良性又は良性と推定される場合として登録されている場合)、カテゴリをそのままに設定してクオリティフィルタ235に処理をパスする。ここでの例では、このときのカテゴリはMYC3のままとなる。
 なお、この機能予測フィルタ234においても、どのようなデータベースを利用するかの設定を、第1設定受入部22から受け入れておくものとする。
 〈クオリティフィルタ〉
 クオリティフィルタ235は、分析の対象とする配列変異をシーケンスしたときの深度や、各塩基に対するクオリティスコア(例えば、Phredクオリティスコア)、リファレンスゲノムへのマッピングクオリティスコア、がん細胞と正常細胞の変異コールにおける統計学的検定(Fisher検定など)の統計値、塩基配列を両側から読むペアエンドリードにける変異をサポートするリード配列のいずれかの側への偏り具合などの指標を用いることでシーケンス処理の品質を評価する。この品質の指標については、深度のほか、配列変異のカウント数など、広く知られた指標があり、クオリティフィルタ235は、これらを組み合わせて(あるいはその組み合わせを、第1設定受入部22から受け入れ、当該受け入れた指標の組み合わせに従って)品質の評価を行う。なお、クオリティフィルタ235は、複数の指標を組み合わせる場合は、全ての指標により、品質が十分高いとの条件を満たす場合に、品質が十分であると判断することとする。
 クオリティフィルタ235は、この評価により、分析の対象とする配列変異のシーケンス処理の品質が十分である(十分高い)と判断したときに、判断が適性であるとしてカテゴリ(例えば現在のカテゴリから第1所定量として「1」を引く)を設定して、カテゴリ決定部24に当該カテゴリを出力する。またこのクオリティフィルタ235は、分析の対象とする配列変異のシーケンス処理の品質が十分である(十分高い)と判断できないときには、カテゴリをそのままに設定してカテゴリ決定部24に当該カテゴリを出力する。
 なお、各フィルタに設けられた分類基準の少なくとも1つは、変更又は取捨選択が可能である。さらに、分類基準の少なくとも1つを変更又は選択した後に、フィルタリング部2及びコントロール部3を実行することも可能である。これにより、情報処理装置1は、配列変異が有する有害リスクをより正確に判定することができる。
 (カテゴリ決定部)
 カテゴリ決定部24は、フィルタ処理部が出力する1以上の配列変異毎のカテゴリ(MYC1~MYC4のうちのいずれか)に従い、配列変異毎の有害リスクの程度を表すカテゴリ値を決定する。カテゴリ決定部24は、複数の配列変異のそれぞれに対して、各カテゴリ値を関連付けた情報(以下、「分析結果情報」と呼ぶ)を生成して、分析結果出力部25に提供する。
 なお、この有害リスクの程度を表すカテゴリ値は、MYC1~MYC4に基づいて新たに演算された値であってもよいが、ここでは説明の便宜上、MYC1~MYC4がそのまま採用されるものとする。
 (分析結果出力部)
 分析結果出力部25は、分析結果情報を、図1の表示部14(例えばディスプレイ)から出力したり、通信部13から図示せぬ他装置に対して送信したりすることで出力する。
 図6は、情報処理装置1から出力される分析結果情報の構成例を示している。図6に示すように、分析結果情報は、配列変異毎(同図中各行毎)に、当該配列変異の塩基配列が位置する染色体の番号(Chr)と、開始位置(Start)と、終了位置(End)と、本来あるべき塩基配列(Ref)と、配列変異(Alt)と、カテゴリ値(MYC)とを少なくとも関連付けた情報である。
 図6の例の分析結果情報には、さらに、配列変異毎(同図中各行毎)に、判断に関する記録情報Rも関連付けられている。
 判断に関する記録情報Rとは、フィルタ処理部のうち、対象の配列変異の分析に用いられたフィルタについて、どのような分類がなされたのか(各フィルタのパラメータ設定や分類基準に基づく判定内容等)を表す情報である。
 上述のように、第1データ受入部21が受け入れた塩基配列情報中の変異が、有害リスクを示す4段階のMYC1~MYC4に分類されることにより、多数存在する(例えば数万から数億個)変異の中から、専門医等のユーザが、有害リスクの高い変異、例えば真のドライバー変異を見つけ出す作業を効率的に行うことができるようになる。例えば、専門家等のユーザは、MYC1やMYC2に分類された配列変異に的を絞って、真のドライバー変異を見つけ出す作業を行うことができるようになる。
 <コントロール部>
 一方で、情報処理装置1による分類の信頼性を高めるためには、上述した分類処理が適切に実施されているかを確認する必要がある。そこで本実施形態に係る情報処理装置1は、所属すべきカテゴリが既知である配列変異を含む塩基配列を、上述の分類基準の少なくとも1つに基づいてカテゴリの各々へ分類し、その分類の結果を所属すべきカテゴリと対比するコントロール部3を有する。当該対比の結果が一致していた場合は、情報処理装置1の分類処理が適切に実施されていることを確認できる。一方で、当該対比の結果が一致していない場合は、情報処理装置1による分類処理が適切に実施されていない可能性があることを確認できる。
 本実施形態に係るコントロール部3は、所属すべきカテゴリが既知を含む塩基配列である配列変異を、分類基準の少なくとも1つに基づいて、有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を所属すべきカテゴリと対比する。
 図7は、情報処理装置1においてコントロール部3に関わる各種処理を実行するための機能的構成の一例を示すブロック図である。図7に示すように、コントロール部3においては、第2データ受入部31と、第2設定受入部32と、第2フィルタ処理部33と、対比部34と、対比結果出力部35と、が機能する。
 (第2データ受入部)
 第2データ受入部31は、所属すべきカテゴリが既知である1つ以上の配列変異を含む塩基配列を表す情報を含んだ塩基配列情報(以下、第2塩基配列情報ともいう)を受け入れる。ここで、所属すべきカテゴリが既知である配列変異を含む塩基配列には、所属すべきカテゴリが既知である配列変異と、所属すべきカテゴリが既知であるが変異を有さない塩基配列と、を含む。所属すべきカテゴリとは、上述した有害リスクの程度に応じたカテゴリであるMYC1、MYC2、MYC3、及びMYC4のいずれかである。
 第2データ受入部31で受け入れられる第2塩基配列情報の構成例は、図4に示した第1データ受入部21で受け入れられる第1塩基配列情報の構成例と同等であるため説明を割愛するが、第2データ受入部31で受け入れられた塩基配列情報には、各配列変異の所属すべきカテゴリに関する情報が含まれている。
 一実施形態において、所属すべきカテゴリが既知である配列変異を含む塩基配列は、所属すべきカテゴリが異なる2種以上であってもよい。コントロール部3にて、所属すべきカテゴリが異なる2種以上の塩基配列についてフィルタ処理を行うことにより、後述する対比部34による対比の結果がより詳細なものとなり、フィルタ処理の精度をより詳細に把握できることとなる。
 また、一実施形態において、コントロール部3に分類される所属すべきカテゴリが異なる2種以上の塩基配列は、特定の疾患の原因となる(有害リスクのある)配列変異と、特定の疾患の原因とならない(有害リスクのない)塩基配列と、を含んでもよい。ここで、特定の疾患の原因とならない塩基配列には、有害リスクのない配列変異と、変異を有さない塩基配列と、を含む。例えば、特定のがんの原因となる配列変異を含む塩基配列と、その特定のがんの原因となる配列変異を含まない塩基配列をコントロール部3にて処理する。これにより、有害リスクがある場合とない場合の両方について第2フィルタ処理部33の判定機能が正常に働いているかを判断することが可能となる。
 また、第2塩基配列情報には、次世代シーケンサー等から出力される、VCF(Variant Call Format)形式、FASTQ形式、SAM(Sequence Alignment Map)形式、及びBAM(Binary Alignment Map)形式などのファイルが含まれ得る。VCF形式は、塩基の変異データの保存する際に利用するファイル形式であり、シーケンシングデータをリファレンス配列にマッピングしたとき、リファレンス配列上の塩基とそこにマッピングされたシーケンシングデータ上の塩基などの情報が記載されている。FASTQ形式のファイルには、塩基配列と、塩基ごとのベースコールのクオリティと、が含まれている。SAM形式のファイルは、FASTQのリード配列をリファレンスとなる配列にマッピングした結果を示したファイルであり、BAM形式のファイルは、BAM形式はSAM形式をコンピュータが処理しやすいように圧縮した形式である。
 これらのファイルは任意の配列変異を含む塩基配列を表すものであってもよく、このようなファイルをコントロール部3に供することにより、当該任意の配列変異をより正確に分類することが可能となる。より具体的には、例えば、任意の配列変異が遺伝子において変異が集中するホットスポットである場合、当該ホットスポットの情報を含んだ上記のファイルを、コントロール部3に供することにより、当該ホットスポットにおける変異をより正確に分類することが可能となる。これによりフィルタリング部2における当該ホットスポットにおける変異の分類もより確実に行うことができる。
 また、一実施形態において、被検体が有する塩基配列上の有害リスクのある目的配列変異が特定の疾患のドライバー変異である場合には、所属すべきカテゴリが異なる2種以上の塩基配列は、当該特定の疾患のドライバー変異となる配列変異と、当該特定の疾患のドライバー変異とならない塩基配列と、を含んでもよい。例えば、患者から取得した検体が有する塩基配列上の目的配列変異が、ある白血病のドライバー変異である場合には、当該白血病のドライバー変異である配列変異と、当該白血病のドライバー変異を含まない塩基配列をコントロール部3にて処理する。これにより、情報処理装置1が当該特定の疾患のドライバー変異について正確に分類しているかを把握することが可能となる。
 (第2設定受入部)
 第2設定受入部32は、第2データ受入部31にて受け入れた第2塩基配列情報を分析するための設定を受け付ける。この設定は、例えば、後述する第2フィルタ処理部33において、どのような分類基準に基づいたフィルタを用いるかという設定を含む。
 コントロール部3では、フィルタリング部2と同様に、第2データ受入部31にて受け入れた塩基配列情報が第2フィルタ処理部33の動作により、変異の分析結果の解釈に影響する種々の情報に基づく、有害リスク(例えばドライバー変異である可能性)に関する評価が行われる。この評価結果も、フィルタリング部2による評価結果と同様に、カテゴリMYC1~MYC4のうちいずれかに分類される。第2フィルタ処理部33による評価(分類)の方法や解釈に影響する情報は、フィルタリング部2と同様であるため、説明を割愛する。
 (第2フィルタ処理部)
 第2フィルタ処理部33は、第2データ受入部31が受け入れた塩基配列情報に含まれる所属すべきカテゴリが既知である配列変異を含む塩基配列を、少なくとも1つの分類基準に基づいて、有害リスクの程度に応じたカテゴリであるMYC1、MYC2、MYC3、及びMYC4のうちいずれかに分類する。MYC1、MYC2、MYC3、及びMYC4は、第1フィルタ処理部23の欄で説明した通りである。また、本明細書では説明の便宜のため、第2フィルタ処理部33を、第1フィルタ処理部23と分けて記載したが、第2フィルタ処理部33に用いられる各分類基準及び各フィルタは、第1フィルタ処理部23と共通であってもよく、第2フィルタ処理部33と第1フィルタ処理部23とが共通のフィルタ処理部であってもよい。
 (対比部)
 対比部34は、第2データ受入部31が受け入れた塩基配列情報における変異毎に、第2フィルタ処理部33が出力するカテゴリ(MYC1~MYC4のうちのいずれか)と、既知の有害リスクの程度に応じたカテゴリ(MYC1~MYC4のうちのいずれか)を対比する。また、対比部34は、各変異の対比の結果を、対比結果出力部35に提供する。
 なお、この対比結果を表す値は、MYC1~MYC4に基づいて新たに演算された値であってもよいが、ここでは説明の便宜上、MYC1~MYC4がそのまま採用されるものとする。
 (対比結果出力部)
 対比結果出力部35は、対比部34による対比結果に関する情報を、図1の表示部14(例えばディスプレイ)から出力したり、通信部13から図示せぬ他の装置に対して送信したりすることで出力する。
 <調整部>
 一実施形態に係る情報処理装置1は、コントロール部3における対比の結果に基づいて、フィルタリング部2及び/又はコントロール部3における分類基準及び/又はフィルタリング部2における分類の結果を調整する調整部4を有していてもよい。当該調整部4を有することにより、情報処理装置1は、フィルタ処理における基準等の較正を実施することができるため、被検体が有する塩基配列における変異の有害リスクの程度をより正確に分類することができる。
 例えば、コントロール部3における対比部34での対比の結果、ある配列変異について、フィルタ処理部が出力するカテゴリと、既知の有害リスクの程度に応じたカテゴリと、が異なる場合は、フィルタ処理部において配列変異の有害リスクの程度が正確に分類されていないこととなる。このような場合に、調整部4は、フィルタ処理部の各フィルタの分類基準等を対比結果に基づいて較正することにより、フィルタ処理部が出力するカテゴリが、既知のカテゴリと一致するようにする。
 また、調整部4は、コントロール部3における対比部34の対比の結果、ある配列変異について、フィルタ処理部が出力するカテゴリと、既知の有害リスクの程度に応じたカテゴリと、が一致しない場合は、フィルタリング部2の分類結果を採用せずに、調整部4による調整が終了した後に、再度フィルタリング部2による分類処理を行うようにすることもできる。また、調整部4は、コントロール部3における対比部34の対比の結果に基づき、生じた問題の内容をエラーメッセージで表示する機能を有していてもよい。例えば、フィルタ処理のどの段階で問題が生じたかを表示することができる。
 また、コントロール部3で分類する配列変異は、所属すべきカテゴリが既知の配列変異を含む核酸の標準組成物を配列決定したものであってもよい。すなわち、所属すべきカテゴリが既知の配列変異を含む核酸の標準組成物を、次世代シーケンサー等のシーケンシング装置によるシーケンスで配列決定し、その配列決定の結果の情報をコントロール部3による処理に供してもよい。コントロール部3にて、標準組成物を配列決定した結果の情報を分類し、当該分類の結果を本来標準組成物が所属すべき既知のカテゴリと比較することにより、配列決定の条件(例えば、シーケンシング装置での配列決定やシーケンシングの前処理工程など)が正しかったか否かの確認をすることができる。
 この際、当該標準組成物についての配列決定の条件と、被検体に含まれる核酸を配列決定する条件と、が同じであってもよい。例えば、上記の標準組成物を次世代シーケンサー等にてシーケンシングする際の条件と、患者等に由来する被検体に含まれる核酸をシーケンシングする際の条件と、は同じであってもよい。上述した通り、所属すべきカテゴリが既知の標準組成物を配列決定した結果をコントロール部3に供することにより、配列決定の条件が正しかったか否かを確認できる。そのため、被検体に含まれる核酸と標準組成物との配列決定の条件を同じものにすることにより、被検体に含まれる核酸の配列決定の条件が正しかったか否かも併せて確認することができる。
 以下、調整部4における各フィルタの調整について具多的な例を挙げて説明するが、調整部4における調整はこれに限られるものではない。
 《基本フィルタの調整の例》
 調整部4は、基本フィルタ231において、がん化等を引き起こす既知の変異の塩基配列と、配列変異に対応する塩基配列と、の重複部分の長さの閾値を調整することができる。例えば、基本フィルタ231は、配列変異がこの文節的重複領域に位置し、当該文節的重複領域の指標が閾値を超える場合は、エラーの可能性が高いため、良性変異であることを表すカテゴリを設定するが、この閾値を調整することができる。これにより、基本フィルタ231がカテゴリを設定する分類基準を調整することができる。
 また、調整部4は、基本フィルタ231で使用されるSNPデータベースを変更することができる。また、調整部4は、基本フィルタ231において複数のSNPデータベースを用いるように設定することもできる。また、基本フィルタ231においては、配列変異が表す変異が、SNPデータベースに登録され、かつ、SNPである確率として当該データベースに登録された値が、基本フィルタ231における良性判断閾値を超えている場合、良性変異であることを表すカテゴリを設定するが、調整部4は基本フィルタ231における良性判断閾値を変更することができる。当該調整によっても、基本フィルタ231が良性変異であるとのカテゴリを設定する分類基準を調整することができる。
 また、基本フィルタ231では、当該配列変異が存在する遺伝子のGDIを参照して、予め定められたGDI閾値より大きい場合に、良性変異であることを表すカテゴリを設定するが、調整部4はこのGDI閾値を調整することもできる。当該調整によっても、調整部4は、基本フィルタ231がカテゴリを設定する分類基準を調整することができる。
 また、調整部4は、第1設定受入部22等で予め定めた良性と判断するための複数の条件から、利用する条件(あるいは全ての条件を利用せず、基本フィルタ231としての動作をせずに、全ての配列変異についてカテゴリをMYC3に設定して処理をパスするか否か)を変更することもできる。
 《時系列フィルタの調整の例》
 時系列フィルタ232は、分析の対象とする配列変異と、時系列情報に含まれる対応する配列変異とを用い、同じ変異が存在する場合に、問題とするべき変異があるものとしてカテゴリを設定する。ここで、例えば、時系列情報が複数含まれる場合に、調整部4は、コントロール部3で時系列フィルタ232に用いた時系列情報とは別の時系列情報を用いるように調整することができる。
 また、時系列フィルタ232が深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を予め受け付けている場合、調整部4はこれらの設定を調整することができる。例えば、時系列情報に含まれる対応する配列変異に係る深度の閾値を変更することで、時系列フィルタ232が分類するカテゴリを調整することも可能である。
 《データベースフィルタの調整の例》
 データベースフィルタ233は、分析の対象とする配列変異が変異に関する情報を蓄積したデータベースに登録されているか否かを、当該データベースのサーバへ配列変異に関する情報を送信して調べる。そして、登録されている場合は、問題とするべき変異があるものとしてカテゴリを設定する。調整部4は、このデータベースフィルタ233において、使用するデータベースを変更することができる。これにより、調整部4はデータベースフィルタ233が設定するカテゴリを調整することも可能となる。
 《機能予測フィルタの調整の例》
 機能予測フィルタ234は、変異の有害リスクを評価したプログラムやデータベースを参照し、分析の対象とする配列変異が、有害リスクのあるものとしてデータベースに登録されている場合に、有害リスクのある変異があるものとしてカテゴリを設定する。調整部4は、参照したものとは別のプログラムやデータベースを参照するように設定することができ、これにより、機能予測フィルタ234が設定するカテゴリを調整することができる。
 《クオリティフィルタの調整の例》
 クオリティフィルタ235は、分析の対象とする配列変異をシーケンスしたときの深度や、各塩基に対するクオリティスコア(例えば、Phredクオリティスコア)、リファレンスゲノムへのマッピングクオリティスコア、がん細胞と正常細胞の変異コールにおける統計学的検定(Fisher検定など)、ペアエンドリードにおける変異のサポートリードの偏り具合の統計値などの品質に関する指標を用いて、分析の対象とする配列変異のシーケンス処理の品質を評価する。調整部4は、シーケンスの品質を表すこれらの指標の評価基準を変更することにより、クオリティフィルタ235の設定するカテゴリを調整することができる。
 以上、調整部4による各フィルタにける分類基準の調整方法を述べた。なお、一実施形態に係る情報処理装置1は、調整部4においてこれら分類基準の少なくとも1つを変更又は選択した後に、フィルタリング部2及びコントロール部3による処理を再度実行する再実行部を有していてもよい。これにより、較正された分類基準やフィルタを用いた分類が可能となるため、情報処理装置1の分類の精度が向上する。
 次に、図8以降の図面を参照して、情報処理装置1の処理について説明する。
 図8は、図3の機能的構成を有する情報処理装置1のフィルタリング部2における一連の流れの例を説明するフローチャートである。
 ステップS1において、第1設定受入部22は、塩基配列情報を分析するための設定を受け付ける。ここで第1フィルタ処理部23において、どのような分類基準に基づいたフィルタを用いるかという設定も受け入れる。
 ステップS2において、第1データ受入部21は、分析の対象となる被検体の遺伝情報からシーケンスアライメントにより抽出された塩基配列情報のうち、所定の配列変異を処理対象として決定する。
 ステップS3において、第1フィルタ処理部23は、処理対象の配列変異に対してフィルタ処理を施すことで、当該処理対象のカテゴリを出力する。第1フィルタ処理部23におけるフィルタ処理の詳細については、図9を用いて別途説明する。
 続いてステップS4において、情報処理装置1は、全ての配列変異についてカテゴリを記録したか否かを判定する。
 カテゴリが記録されていない配列変異が存在する場合には、ステップS4において「NO」と判定されて、処理はステップS2に戻され、それ以降の処理が繰り返される。このようにして、ステップS2~S4「NO」のループ処理が繰り返された結果、全ての配列変異のカテゴリが記録された場合には、ステップS4において「YES」と判定されて、処理はステップS5に進む。
 ステップS5において、分析結果出力部25は、分析結果情報を生成して、図1の表示部14(例えばディスプレイ)から出力したり、通信部13から図示せぬ他装置に対して送信したりすることで出力する。これにより、分析処理は終了となる。
 以下に、ステップS3のフィルタ処理の詳細について、図9のフローチャートを用いて説明する。
 ステップS31において、基本フィルタ231は、処理対象の配列変異について、基本フィルタ231の条件により有害リスクありか否かを判定する。
 処理対象の配列変異が基本フィルタ231の条件により有害リスクなしである場合には、ステップS31において「NO」と判定されて、カテゴリがMYC4に設定されて、処理はステップS37又はステップ35に進む。
 ステップS37に進んだ場合、第1フィルタ処理部23は、第1フィルタ処理部23としてのカテゴリを出力する。これにより、図9のステップS3のフィルタ処理は終了し、処理はステップS4に進む。なお、ステップS35に進んだ場合の処理は後述する。
 処理対象の配列変異が基本フィルタ231の条件により有害リスクありである場合には、ステップS31において「YES」と判定されて、カテゴリがMYC3に設定されて、処理はステップS32に進む。
 ステップS32において、時系列フィルタ232は、処理対象の配列変異について、時系列フィルタ232の条件により有害リスクありか否かを判定する。処理対象の配列変異が時系列フィルタ232の条件により有害リスクありである場合には、ステップS32において「YES」と判定されて、カテゴリがMYC2に設定されて、処理はステップS35に進む。なお、ステップS35以降の処理は後述する。
 処理対象の配列変異が時系列フィルタ232の条件により有害リスクなしである場合には、ステップS32において「NO」と判定されて、カテゴリがMYC3に設定されて、処理はステップS33に進む。
 ステップS33において、データベースフィルタ233は、処理対象の配列変異について、データベースフィルタ233の条件により有害リスクありか否かを判定する。
 処理対象の配列変異がデータベースフィルタ233の条件により有害リスクありである場合には、ステップS33において「YES」と判定されて、カテゴリがMYC2に設定されて、処理はステップS35に進む。なお、ステップS35以降の処理は後述する。
 処理対象の配列変異が時系列フィルタ232の条件により有害リスクなしである場合には、ステップS33において「NO」と判定されて、カテゴリがMYC3に設定されて、処理はステップS34に進む。
 ステップS34において、機能予測フィルタ234は、処理対象の配列変異について、機能予測フィルタ234の条件により有害リスクありか否かを判定する。
 処理対象の配列変異が機能予測フィルタ234の条件により有害リスクありである場合には、ステップS34において「YES」と判定されて、カテゴリがMYC2に設定されて、処理はステップS35に進む。
 処理対象の配列変異が機能予測フィルタ234の条件により有害リスクなしである場合には、ステップS34において「NO」と判定されて、カテゴリがMYC3に設定されて、処理はステップS35に進む。
 ステップS35において、クオリティフィルタ235は、クオリティは十分か否かを判定する。
 ステップS31~S34の処理の結果(基本フィルタ231、時系列フィルタ232、データベースフィルタ233及び機能予測フィルタ234のフィルタ結果)のクオリティが十分である場合には、ステップS35において「YES」と判定されて、処理はステップS36に進む。ステップS36において、クオリティフィルタ235は、クオリティは十分と判断されたため、カテゴリから第1所定量である「1」を引く。
 ステップS31~S34の処理の結果(基本フィルタ231、時系列フィルタ232、データベースフィルタ233及び機能予測フィルタ234のフィルタ結果)のクオリティが十分でない場合には、ステップS35において「NO」と判定されて、処理はステップS37に進む。
 ステップS37において、第1フィルタ処理部23は、カテゴリを出力する。これにより、図9のステップS3のフィルタ処理は終了し、処理はステップS4に進む。
 図10は、図7の機能的構成を有する情報処理装置1のコントロール部3及び調整部4における一連の流れの例を説明するフローチャートである。
 ステップS1cにおいて、第2設定受入部32は、所属すべきカテゴリが既知の配列変異を含む塩基配列に関する第2塩基配列情報を分析するための設定を受け付ける。ここで第2フィルタ処理部33において、どのような分類基準に基づいたフィルタを用いるかという設定も受け入れる。
 ステップS2cにおいて、第2データ受入部31は、分析の対象とする塩基配列を決定する。塩基配列が複数ある場合は、複数の変異の中から、分析の対象となる塩基配列を選択し決定する。なお、図10では、コントロール部3の分析対象とする塩基配列が、所属するカテゴリが既知である配列変異である場合を示すが、コントロール部3では、所属すべきカテゴリが既知であり、変異を有さない塩基配列を分析対象とすることもできる。
 ステップS3cにおいて、第2フィルタ処理部33は、処理対象の配列変異に対してフィルタ処理を施すことで、当該処理対象のカテゴリを出力する。第2フィルタ処理部33におけるフィルタ処理は、図9を用いて説明した第1フィルタ処理部23におけるフィルタ処理と同様であるため説明を割愛する。
 第2塩基配列情報に、複数の配列変異が含まれている場合は、ステップS4cにおいて、情報処理装置1は、全ての配列変異についてカテゴリを記録したか否かを判定する。カテゴリが記録されていない配列変異が存在する場合には、ステップS4cにおいて「NO」と判定されて、処理はステップS2cに戻され、それ以降の処理が繰り返される。
 このようにして、ステップS2c~S4c「NO」のループ処理が繰り返された結果、全ての配列変異のカテゴリが記録された場合には、ステップS4cにおいて「YES」と判定されて、処理はステップS5cに進む。
 続いて、ステップS5cにおいて、第2データ受入部31が受け入れた第2塩基配列情報における配列変異について、第2フィルタ処理部33が出力したカテゴリ(MYC1~MYC4のうちのいずれか)と、既知の所属すべきカテゴリ(MYC1~MYC4のうちのいずれか)を対比する。対比の結果、フィルタ処理部が出力したカテゴリと、既知の所属すべきカテゴリとの整合性が取れている場合(例えば、これらが一致していた場合)は、整合性が取れている旨の結果を出力し、コントロール部3による処理は終了する。
 一方、対比の結果、第2塩基配列情報における配列変異について、フィルタ処理部が出力したカテゴリと、既知の所属すべきカテゴリとの整合性が取れていない場合(例えば、これらが一致していない場合)は、ステップS6cにおいて調整部4は、分類基準又はカテゴリの各々への分類の結果を調整する。調整部4における調整方法についての詳細は調整部4の欄で述べる。
 調整後、第2塩基配列情報に含まれる配列変異に対して、ステップS2c~S5cの処理を再度実施し、フィルタ処理部が出力したカテゴリと、既知の有害リスクの程度に応じたカテゴリとの対比結果の整合性が取れた場合は、コントロール部3による処理は終了する。なお、対比結果の整合性が取れない場合は、上記のステップS2c~S6cの処理を繰り返し行い、整合性が取れた時点でコントロール部3による処理が終了してもよい。
 なお、コントロール部3による処理が終了した後に、フィルタリング部2による処理が実行されてもよい。
 以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態(第1の実施形態とも呼ぶ)に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
 例えば、フィルタ処理部は、図5に示した第1フィルタ処理部23及び第2フィルタ処理部33の例に特に限定されず、異なるフィルタ構成を有する各種各様な形態を取ることができる。以下に、本発明に係る情報処理装置1の第2の実施形態として、図11のブロック図に示す構成を有する第3フィルタ処理部43を採用した情報処理装置1について説明する。なお、情報処理装置1の第2の実施形態は、下記に説明する構成(例えば、第3フィルタ処理部43と、それを調整する調整部4)以外は、上述の第1の実施形態と同様の構成を有するため、第1の実施形態と同様の構成についての説明は割愛する。
 図11の例の第3フィルタ処理部43は、以下のような配列変異の分析において有用である
 まず前提として、特定の組み合わせの2つの遺伝子が染色体の転座や逆位等に起因して融合することにより、がん細胞の増殖を引き起こすことが知られている。例えば、BCR遺伝子とABL遺伝子とが染色体の転座により融合したBCR-ABL融合遺伝子は、白血病細胞を増殖させることが知られている。
 第3フィルタ処理部43は、基本フィルタ231と、時系列フィルタ232と、融合遺伝子フィルタ236と、保存位置フィルタ237と、構造フィルタ238と、クオリティフィルタ235とを有する。
 また、特定の組み合わせの2つの候補遺伝子が融合した融合遺伝子においてドライバー変異を引き起こすことが知られている複数の組み合わせの候補遺伝子がコード化された塩基配列が融合遺伝子ごとにそれぞれ、記憶部12の一領域記憶されている。例えば、BCR遺伝子とABL遺伝子とがコード化された塩基配列が記憶部12の一領域に記憶されている。
 即ち、情報処理装置1は以下の情報を取得し、情報処理に用いることができる。
 情報処理装置1は、特定の組み合わせの候補遺伝子が融合した融合遺伝子(以下、第1融合遺伝子)においてドライバー変異候補となる2つの候補遺伝子の塩基配列を第1融合遺伝子ごとに取得する。図11の第3フィルタ処理部43が採用された例では、情報処理装置1は、記憶部12に記憶されている複数の第1融合遺伝子に含まれる2つの候補遺伝子のそれぞれの塩基配列を第1融合遺伝子ごとに記憶部12から取得する。
 また、外部サーバ(図示せず)が複数の第1融合遺伝子の候補遺伝子がコード化された塩基配列を記憶していてもよい。情報処理装置1は、通信部13を介して、外部サーバから第1融合遺伝子の2つの候補遺伝子がコード化された塩基配列を第1融合遺伝子ごとに取得してもよい。
 特定の候補遺伝子と他の遺伝子とが融合した融合遺伝子が、がん細胞の増殖を引き起こすことがある。例えば、ALK遺伝子が他の遺伝子と融合した融合遺伝子は、がん細胞の増殖を引き起こすことが知られている。記憶部12には、他の遺伝子と融合した融合遺伝子(以下、第2融合遺伝子ともいう)においてドライバー変異候補となる複数の候補遺伝子の塩基配列が記憶されている。
 情報処理装置1は、他の遺伝子と融合した第2融合遺伝子においてドライバー変異候補となる候補遺伝子の塩基配列を取得する。例えば、情報処理装置1は、複数の第2融合遺伝子の候補遺伝子の塩基配列を記憶部12から取得する。情報処理装置1は、通信部13を介して、複数の第2融合遺伝子の候補遺伝子の塩基配列を外部サーバから取得してもよい。
 情報処理装置1は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置を示す保存配列位置情報を取得する。例えば、情報処理装置1は、保存配列位置情報を記憶部12から取得する。情報処理装置1は、通信部13を介して、保存配列位置情報を外部サーバから取得してもよい。
 〈基本フィルタ〉
 基本フィルタ231は、一塩基多型に特有の処理を実行しない点を除いて、図5に示すフィルタ処理部と同様である。基本フィルタ231は、分析の対象とする配列変異が、良性であると判断できる場合に、良性変異であることを表すカテゴリ(例えばMYC4)を設定して、次のフィルタとして設定されたフィルタにその結果を出力する。また、基本フィルタ231は、分析の対象とする配列変異が、良性であると判断できなければ、良性変異でないことを表すカテゴリ(例えばMYC3)を設定し、次のフィルタとして設定されたフィルタに処理をパスする。
 基本フィルタ231は、第1設定受入部22からがん化等を引き起こす既知の変異の塩基配列と配列変異に対応する変異した塩基配列との重複部分の長さの閾値を特定する情報と、データベースごとのパラメータ(良性か否かを判断する基準となる良性判断閾値などとして登録された値と比較される)の設定を受け入れて、当該設定に基づいて分析の対象とする配列変異が、良性であるか否かを判断する。
 具体的に基本フィルタ231は、がん化等を引き起こす既知の変異の塩基配列と配列変異に対応する変異した塩基配列との重複部分が予め定めた長さの閾値より短い重複部分である場合は良性変異であることを表すカテゴリを設定する。また基本フィルタ231は、そうでなくても、配列変異が表す、変異の位置する領域がイントロン領域であれば、良性変異であることを表すカテゴリを設定する。
 さらに基本フィルタ231は、上記2つの条件を満たさなくとも、指定されたデータベースを検索し、検索によって配列変異が表す変異がデータベースに登録され、かつ、その変異である確率として登録された値が、当該データベースについて予め定められた良性判断閾値を超えている場合、良性変異であることを表すカテゴリを設定する。
 〈時系列フィルタ〉
 時系列フィルタ232は、分析の対象とする配列変異に対応するカテゴリから減算する値が図5のフィルタ処理部の例と異なることや、時系列フィルタ232による演算後のカテゴリの出力先が図5のフィルタ処理部の例と異なることを除いて、図5のフィルタ処理部の例と同様である。時系列フィルタ232は、分析の対象とする配列変異に対応する、時系列情報に含まれる配列変異の情報を参照して、異なるタイミングで抽出した時系列情報においても同じ変異があったか否かを判断する。
 時系列フィルタ232は、分析の対象とする配列変異と、時系列情報に含まれる対応する配列変異とを用い、同じ変異が存在する場合に、有害リスクがあるものとして分析の対象とする配列変異に対応するカテゴリ(例えばカテゴリから第2所定量として「2」を引く)を決定して構造フィルタ238に処理をパスする。ここでの例では基本フィルタ231が処理をパスしているので、当初のカテゴリはMYC3であり、ここで時系列フィルタ232が有害リスクありとしたときには、このMYC3から第2所定量として「2」を引いてカテゴリをMYC1と設定することとなる。第2所定量は、第1所定量より大きい値である。
 一方、時系列フィルタ232は、分析の対象とする配列変異と、時系列情報に含まれる対応する配列変異とを用い、同じ変異が存在しないときには、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスする。
 なお、時系列フィルタ232は、第1設定受入部22から深度や、その他のシーケンスクオリティ、変異アレル頻度等に関する閾値の設定を受けていてもよい。例えば時系列情報に含まれる対応する配列変異に係る深度がここで設定された閾値(例えば「20」)を超えない場合には、時系列フィルタ232は、同じ配列変異があったか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスする。
 さらに、この時系列フィルタ232は、図5のフィルタ処理部の例と同様に、第1データ受入部21が時系列情報を受け入れていない場合には、同じ配列変異があるか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、データベースフィルタ233へ処理をパスしてもよい。
 また第1設定受入部22から時系列フィルタ232を利用しない設定が入力されている場合、時系列フィルタ232は、同じ配列変異があるか否かを判断することなく、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、融合遺伝子フィルタ236へ処理をパスする。
 〈融合遺伝子フィルタ〉
 以下、塩基配列情報に含まれるいずれかの配列変異に対応する塩基配列を変異塩基配列ともいう。融合遺伝子フィルタ236は、情報処理装置1が取得した第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ236は、情報処理装置1が取得した複数の第1融合遺伝子について、第1融合遺伝子の2つの候補遺伝子がコード化された2つの塩基配列と、変異塩基配列に含まれる少なくとも一部の塩基配列との類似度が2つとも閾値以上であるか否かを第1融合遺伝子ごとに判定する。類似度は、例えば2つの塩基配列のアライメントが一致する割合により表される。2つの塩基配列のアライメントが一致する割合が閾値以上である場合に、2つの塩基配列が類似すると判定される。
 一例としては、融合遺伝子フィルタ236は、情報処理装置1が取得したBCR遺伝子とABL遺伝子とが融合したBCR-ABL第1融合遺伝子においてBCR遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。次に、融合遺伝子フィルタ236は、BCR-ABL第1融合遺伝子においてABL遺伝子がコード化された塩基配列と、変異塩基配列における対応する塩基配列との類似度を求める。
 融合遺伝子フィルタ236は、求めた2つの類似度が2つとも閾値以上であるか否かを判定する。閾値は、例えば、第1融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
 融合遺伝子フィルタ236は、求めた2つの類似度が2つとも閾値以上である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定する。
 一方、融合遺伝子フィルタ236は、求めた2つの類似度のうち、少なくとも一方の類似度が閾値未満である場合に、情報処理装置1が取得した別の第1融合遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ236は、情報処理装置1が取得した全ての第1融合遺伝子について、求めた2つの類似度の少なくとも一方が閾値未満である場合に、どの第1融合遺伝子についても、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていないと判定する。
 また、融合遺伝子フィルタ236は、情報処理装置1が取得した第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ65%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ236は、第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ80%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 また、融合遺伝子フィルタ236は、複数の第1融合遺伝子の候補遺伝子の組み合わせを記憶している外部サーバへ、分析対象の配列変異に対応する変異塩基配列を送信してもよい。融合遺伝子フィルタ236は、外部サーバのデータベースに登録されている第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれているか否かを調べる。融合遺伝子フィルタ236は、外部サーバのデータベースに登録されている複数の第1融合遺伝子のうち、いずれかの第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子の融合遺伝子が変異塩基配列に含まれていることを示す通知を外部サーバから受信した場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 融合遺伝子フィルタ236は、情報処理装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれているか否かを判定する。より詳しくは、融合遺伝子フィルタ236は、情報処理装置1が取得した複数の第2融合遺伝子について、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれる融合遺伝子の一方の遺伝子の塩基配列との類似度を第2融合遺伝子ごとに求める。融合遺伝子フィルタ236は、求めた類似度が閾値以上であるか否かを判定する。閾値は、第2融合遺伝子がコード化されたタンパク質の活性と、変異塩基配列が示すタンパク質の活性とが同様であることが想定される値である。
 融合遺伝子フィルタ236は、求めた類似度が閾値以上である場合に、情報処理装置1が取得した第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含むと判定する。融合遺伝子フィルタ236は、求めた類似度が閾値未満である場合に、情報処理装置1が取得した別の第2融合遺伝子の候補遺伝子について同様の判定を繰り返す。融合遺伝子フィルタ236は、情報処理装置1が取得した全ての第2融合遺伝子について、求めた類似度が閾値未満である場合に、どの第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子も変異塩基配列が含んでいないと判定する。
 また、融合遺伝子フィルタ236は、情報処理装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が65%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。好ましくは、融合遺伝子フィルタ236は、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が80%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定してもよい。
 また、融合遺伝子フィルタ236は、複数の第2融合遺伝子を記憶している外部サーバへ、変異塩基配列を送信してもよい。融合遺伝子フィルタ236は、外部サーバのデータベースに登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいるか否かを調べる。融合遺伝子フィルタ236は、登録されている複数の第2融合遺伝子の候補遺伝子のいずれかと類似する遺伝子の融合遺伝子を変異塩基配列が含んでいることを示す通知を外部サーバから受信した場合に、第2融合遺伝子の候補遺伝子と類似する遺伝子を変異塩基配列が含んでいると判定してもよい。
 融合遺伝子フィルタ236は、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれているか否かの判定結果によりカテゴリを決定する。例えば、融合遺伝子フィルタ236は、情報処理装置1が取得した複数の第1融合遺伝子のいずれかについて、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定した場合に、有害リスクがあるものとして、分析の対象とする配列変異に対応するカテゴリを決定して(例えばカテゴリから第2所定量として「2」を引く)構造フィルタ238に処理をパスする。
 このようにして、融合遺伝子フィルタ236は、ドライバー変異である可能性が比較的高いことが知られている第1融合遺伝子の2つの候補遺伝子の塩基配列を参照して、配列変異の有害リスクの程度をカテゴリにより精度よく推定することができる。
 融合遺伝子フィルタ236は、第2融合遺伝子の候補遺伝子の塩基配列と類似する塩基配列の遺伝子が他の遺伝子と融合した融合遺伝子を変異塩基配列が含むか否かの判定結果によりカテゴリを決定する。例えば、融合遺伝子フィルタ236は、情報処理装置1が取得した複数の第2融合遺伝子のいずれかの候補遺伝子と類似する遺伝子を変異塩基配列が含むと判定した場合に、有害リスクがあるものと分析の対象とする配列変異に対応するカテゴリを決定して(例えばカテゴリから第1所定量として「1」を引く)保存位置フィルタ237に処理をパスする。
 融合遺伝子フィルタ236は、情報処理装置1が取得した第1融合遺伝子の2つの候補遺伝子とそれぞれ類似する候補遺伝子の融合遺伝子が変異塩基配列に含まれていないと判定した場合や、第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含んでいないと判定した場合に、カテゴリをそのままに設定(ここでは当初のカテゴリがMYC3であるので、そのままMYC3に設定)して、保存位置フィルタ237へ処理をパスする。
 融合遺伝子の2つの候補遺伝子の組み合わせの一方が記憶部12に登録されていない場合であっても、特定の候補遺伝子を含む第2融合遺伝子についてはドライバー変異となる可能性があることが知られている。融合遺伝子フィルタ236は、第2融合遺伝子の候補遺伝子の塩基配列を参照することにより、配列変異の有害リスクの程度をカテゴリにより精度よく提示することができる。
 〈保存位置フィルタ〉
 異なる生物種のゲノムの間において保存された保存配列は、細胞の生理活性に重要な役割を果たしていることが多い。このため、保存配列の位置に変異が生じている場合、配列変異の有害リスクが比較的高くなる。保存位置フィルタ237は、異なる生物種のゲノムの間において保存された塩基配列である保存配列の位置が、配列変異の変異箇所に含まれるか否かによりカテゴリを決定する。ここで、保存位置フィルタ237は、保存の程度を示す値(GERPやphylop PhastConsなどの保存度の予測ツールの出力値)に基づいた閾値を設け、当該閾値を上回る保存配列のみを、分類に用いることができる。
 保存位置フィルタ237は、変異箇所に保存配列の位置が含まれると判定した場合に、有害リスクがあるものと分析の対象とする配列変異に対応するカテゴリを決定して(例えばカテゴリから第1所定量として「1」を引く)、構造フィルタ238に処理をパスする。一方、保存位置フィルタ237は、変異箇所に保存配列の位置が含まれていないと判定した場合に、カテゴリをそのままに設定して、構造フィルタ238へ処理をパスする。このようにして、保存位置フィルタ237は、保存配列の位置を示す情報を利用して、この変異箇所に対応する配列変異の有害リスクの程度をカテゴリにより精度よく提示することができる。
 また、染色体の転座や重要な遺伝子の欠失、複数の遺伝子に及ぶ変異等の構造変異が生じている場合、これらの構造変異の有害リスクは比較的高いことが知られている。構造フィルタ238は、塩基配列情報が表す配列変異が染色体の転座等の構造変異であるか否かを判定する。
 〈構造フィルタ〉
 構造フィルタ238は、塩基配列情報が表す配列変異が染色体の転座であるか否かを判定し、この判定結果によりカテゴリを決定する。構造フィルタ238は、塩基配列情報が示す配列変異に含まれる変異の内容や変異箇所を参照して、染色体の転座が生じているか否かを判定する。また、構造フィルタ238は、配列変異に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、配列変異が染色体の転座であるか否かを判定してもよい。
 構造フィルタ238は、塩基配列情報が表す配列変異が複数の遺伝子に及ぶ変異であるか否かを判定し、この判定結果によりカテゴリを決定する。構造フィルタ238は、塩基配列情報が示すいずれかの配列変異に含まれる変異の内容や変異箇所を参照して、複数の遺伝子に及ぶ変異が生じているか否かを判定する。構造フィルタ238は、配列変異に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、配列変異が複数の遺伝子に及ぶ変異であるか否かを判定してもよい。
 記憶部12には、細胞のがん化等に関与する複数の登録遺伝子を示す情報が予め登録されている。登録遺伝子を示す情報は、例えば、登録遺伝子を識別するための識別情報や登録遺伝子の染色体上の位置を示す情報である。構造フィルタ238は、塩基配列情報が表す配列変異が登録遺伝子の欠失であるか否かを判定し、この判定結果によりカテゴリを決定してもよい。構造フィルタ238は、塩基配列情報が示すいずれかの配列変異に含まれる変異の内容や変異箇所を参照して、記憶部12に登録されている複数の登録遺伝子のいずれかが欠失したか否かを判定する。
 記憶部12には、細胞のがん化等に関与する遺伝子の発現を制御するエンハンサーの染色体上の位置情報が予め登録されている。構造フィルタ238は、転座、逆位、欠失等が生じていると判定した場合において、塩基配列情報が表す配列変異が記憶部12に登録されているがん遺伝子が、記憶部12に登録されているエンハンサーの近傍に位置する脱制御異常であるか否かを判定し、この判定結果によりカテゴリを決定してもよい。
 記憶部12には、遺伝子領域のゲノムにおける向き(5’→3’,3’→5’)の情報が予め登録されている。構造フィルタ238は、転座や欠失等により、塩基配列情報が表す配列変異が第1融合遺伝子や第2融合遺伝子等の融合遺伝子を形成すると判定した場合において融合遺伝子を形成する2つの遺伝子を第一候補遺伝子及び第二候補遺伝子とすると、第一候補遺伝子と第二候補遺伝子の向きがそれぞれ同一の方向であるか(例えば、第一候補遺伝子5’→3’で第二候補遺伝子も5’→3’方向、もしくは、第一候補遺伝子3’→5’で第二候補遺伝子3’→5’の組み合わせであるか)を判定し、機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりカテゴリを決定してもよい。
 記憶部12には、遺伝子領域のアミノ酸翻訳(コドン)やRNAのスプライシングに関わる配列情報が予め登録されている。構造フィルタ238は、転座や欠失等により、塩基配列情報が表す配列変異が融合遺伝子を形成すると判定した場合において、上記項目の情報に基づき、機能的な融合遺伝子が形成されるかの有無を判定し、この判定結果によりカテゴリを決定してもよい。
 また、構造フィルタ238は、変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定する。構造フィルタ238は、特定した塩基配列のゲノム上の位置と、記憶部12に登録されている複数の登録遺伝子の位置とを比較することにより、いずれかの登録遺伝子の欠失が生じたか否かを判定してもよい。
 構造フィルタ238は、転座が生じていると判定した場合に、有害リスクがあるものとして分析の対象とする配列変異に対応するカテゴリを決定する。例えば、構造フィルタ238は、配列変異に対応するカテゴリから第1所定量として「1」を引く。一方、転座が生じていないと判定した場合に、分析の対象とする配列変異に対応するカテゴリをそのままとする。
 構造フィルタ238は、複数の遺伝子に及ぶ変異が生じていると判定した場合に、有害リスクがあるものとして分析の対象とする配列変異に対応するカテゴリ(例えば配列変異に対応するカテゴリから第1所定量として「1」を引く)を決定する。一方、構造フィルタ238は、複数の遺伝子に及ぶ構造変異が生じていないと判定した場合に、配列変異に対応するカテゴリをそのままとする。
 構造フィルタ238は、記憶部12に登録されている複数の登録遺伝子のいずれかが欠失していると判定した場合に、分析の対象とする配列変異に対応するカテゴリから第1所定量をさらに引いて構造フィルタ238に処理をパスする。一方、構造フィルタ238は、記憶部12に登録されている複数の遺伝子がいずれも欠失していないと判定した場合に、分析の対象とする配列変異に対応するカテゴリをそのままとし、構造フィルタ238に処理をパスする。このようにして、構造フィルタ238は、染色体の転座や複数の遺伝子に及ぶ変異、細胞のがん化等に関与する遺伝子の欠失等の構造変異が生じているか否かを判定することにより、配列変異の有害リスクの程度をカテゴリにより精度よく提示することができる。
 図12は、図11の機能的構成を有する第3フィルタ処理部43によるフィルタ処理の流れの詳細を説明するフローチャートである。
 ステップS41において、基本フィルタ231は、処理対象の配列変異について、基本フィルタ231の条件により有害リスクありか否かを判定する。処理対象の配列変異が基本フィルタ231の条件により有害リスクなしの場合には、ステップS41において「NO」と判定されて、カテゴリがMYC4に設定されて、処理はステップS49に進む。
 ステップS49において、第3フィルタ処理部43は、カテゴリを出力する。
 処理対象の配列変異が基本フィルタ231の条件により有害リスクありである場合には、ステップS41において「YES」と判定されて、カテゴリがMYC3に設定されて、処理はステップS42に進む。
 ステップS42において、時系列フィルタ232は、処理対象の配列変異について、時系列フィルタ232の条件により有害リスクありか否かを判定する。
 処理対象の配列変異が時系列フィルタ232の条件により有害リスクありである場合には、ステップS42において「YES」と判定されて、カテゴリがMYC2に設定されて、処理はステップS47に進む。なお、ステップS47以降の処理は後述する。
 処理対象の配列変異が時系列フィルタ232の条件により有害リスクなしの場合には、ステップS42において「NO」と判定されて、カテゴリがMYC3に設定されて、処理はステップS43に進む。
 ステップS43において、融合遺伝子フィルタ236は、処理対象の配列変異について、第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含むか否かを判定する。
 処理対象の配列変異が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含む場合(すなわち、有害リスクありの場合)には、ステップS43において「YES」と判定されて、カテゴリがMYC2に設定され、処理はステップS47に進む。なお、ステップS47以降の処理は後述する。
 処理対象の配列変異が第1融合遺伝子の2つの候補遺伝子に類似する遺伝子の融合遺伝子を含まない場合(すなわち、有害リスクなしの場合)には、ステップS43において「NO」と判定されて、カテゴリがMYC3に設定され、処理はステップS44に進む。
 ステップS44において、融合遺伝子フィルタ236は、処理対象の配列変異について、第2融合遺伝子の候補遺伝子に類似する遺伝子の融合遺伝子を含むかを判定する。
 ステップS45において、保存位置フィルタ237は、処理対象の配列変異について、変異箇所に保存配列の位置が含まれるかを判定する。
 ステップS46において、構造フィルタ238は、処理対象の配列変異について、各種の構造変異を含むか否かを判定する。ステップS44~S46の各フィルタにおいて、有害リスクありと判断された場合は、カテゴリがMYC2に設定される。一方で、有害リスクなしと判断された場合は、カテゴリがMYC3に設定される。
 ステップS47において、クオリティフィルタ235は、クオリティは十分か否かを判定する。
 ステップS41~S46の処理の結果(基本フィルタ231、時系列フィルタ232、融合遺伝子フィルタ236、保存位置フィルタ237及び構造フィルタ238のフィルタ処理の結果)のクオリティが十分である場合には、ステップS47において「YES」と判定されて、処理はステップS48に進む。ステップS47において、クオリティは十分と判断されたため、カテゴリから「1」を引く。
 ステップS41~S46の処理の結果(基本フィルタ231、時系列フィルタ232、融合遺伝子フィルタ236、保存位置フィルタ237及び構造フィルタ238のフィルタ結果)のクオリティが十分でない場合には、ステップS47において「NO」と判定されて、処理はステップS49に進む。この場合、ステップS47において、クオリティは十分ではないと判断されたため、カテゴリから「1」を引かない。
 ステップS49において、第3フィルタ処理部43は、カテゴリを出力する。
 下記に、第2の実施形態における第3フィルタ処理部43の各フィルタに対する調整部4による調整方法の例を述べる。なお、基本フィルタ231、時系列フィルタ232及びクオリティフィルタ235の調整の例については、第1の実施形態と同様であるため説明を割愛する。
 《融合遺伝子フィルタの調整例》
 上述したように、融合遺伝子フィルタ236の一実施形態では、第1融合遺伝子の2つの候補遺伝子がコード化された2つの塩基配列と、変異塩基配列に含まれる少なくとも一部の塩基配列との類似度が2つとも閾値以上である場合に、融合遺伝子が変異塩基配列に含まれていると判定する。ここで調整部4は、当該閾値を調整することにより、融合遺伝子フィルタ236による判定結果を調整することができる。
 また、上述したように、融合遺伝子フィルタ236の一実施形態では、情報処理装置1が取得した第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との間の類似度がそれぞれ65%以上100%以下である場合に、第1融合遺伝子の2つの候補遺伝子にそれぞれ類似する2つの遺伝子が融合した融合遺伝子が変異塩基配列に含まれていると判定することができる。ここで調整部4は、判定に関わる類似度の割合の範囲を調整することにより、融合遺伝子フィルタ236による判定結果を調整することができる。例えば、第1融合遺伝子の2つの候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子の2つの遺伝子の塩基配列との類似度がそれぞれ75%以上100%以下である場合に融合遺伝子が変異塩基配列に含まれていると判定するとすることもできるし、85%以上100%以下である場合に融合遺伝子が変異塩基配列に含まれていると判定するとすることもできる。
 また、上述したように、融合遺伝子フィルタ236の一実施形態では、複数の第1融合遺伝子の候補遺伝子の組み合わせを記憶している外部サーバへ、分析対象の配列変異に対応する変異塩基配列を送信し、外部サーバにおける調査結果に基づき、融合遺伝子が変異塩基配列に含まれていると判定することができる。ここで調整部4は、使用する外部サーバを変更することにより、融合遺伝子フィルタ236による判定結果を調整することができる。
 また、上述した通り、融合遺伝子フィルタ236の一実施形態では、情報処理装置1が取得した複数の第2融合遺伝子について、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれる融合遺伝子の一方の遺伝子の塩基配列との類似度を第2融合遺伝子ごとに求める。そして、融合遺伝子フィルタ236は、求めた類似度が閾値以上である場合に、情報処理装置1が取得した第2融合遺伝子の候補遺伝子と類似する遺伝子の融合遺伝子を変異塩基配列が含むと判定する。ここで調整部4は、当該類似度の閾値を調整することにより、融合遺伝子フィルタ236による判定結果を調整することができる。
 また、上述したように融合遺伝子フィルタ236の一実施形態では、情報処理装置1が取得した第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度が65%以上100%以下である場合に、第2融合遺伝子の候補遺伝子の塩基配列に類似する塩基配列の遺伝子と他の遺伝子とが融合した融合遺伝子が変異塩基配列に含まれていると判定することができる。ここで調整部4は、判定に関わる類似度の割合の範囲を調整することにより、融合遺伝子フィルタ236による判定結果を調整することができる。例えば、第2融合遺伝子の候補遺伝子の塩基配列と、変異塩基配列に含まれている融合遺伝子における一方の遺伝子の塩基配列との間の類似度がそれぞれ75%以上100%以下である場合に融合遺伝子が変異塩基配列に含まれていると判定するとすることもできるし、85%以上100%以下である場合に融合遺伝子が変異塩基配列に含まれていると判定するとすることもできる。
 また、上述したように融合遺伝子フィルタ236の一実施形態では、複数の第2融合遺伝子を記憶している外部サーバへ、変異塩基配列を送信し、外部サーバにおける調査の結果に基づき、第2融合遺伝子の候補遺伝子と類似する遺伝子を変異塩基配列が含んでいると判定してもよい。ここで調整部4は、使用する外部サーバを変更することにより、融合遺伝子フィルタ236による判定結果を調整することができる。
 《保存位置フィルタの調整例》
 保存位置フィルタ237は、情報処理装置1が取得した保存配列位置情報が示す保存配列の位置が、変異箇所に含まれるか否かを判定するが、保存配列であるか否かの判断に用いるために設定した閾値を変更することにより、保存位置フィルタ237の分類基準や判定結果を調整することができる。
 《構造フィルタの調整例》
 構造フィルタ238は、塩基配列情報が示す配列変異に含まれる変異の内容や変異箇所を参照して、染色体の構造多型(例えば、転座、欠損、挿入など)が生じているか否かを判定するが、調整部4は参照する変異の内容や変異個所を変更することにより、構造フィルタ238による判定結果を調整することができる。また、構造フィルタ238は、配列変異に対応する変異塩基配列を複数の塩基配列に分割し、分割した塩基配列ごとにゲノム上の位置を特定することにより、配列変異が染色体の転座であるか否かを判定してもよい。これに対し、調整部4は、分割の単位を変更することにより、構造フィルタ238による判定結果を調整することができる。
 また、構造フィルタ238の一実施形態では、転座、逆位、欠失等が生じていると判定した場合において、塩基配列情報が表す配列変異が、がん遺伝子のエンハンサーの近傍に位置する脱制御異常であるか否かを判定し、この判定結果によりカテゴリを決定してもよい。ここで、調整部4は、脱制御異常であると構造フィルタ238が判断する基準を調整することで、判定結果を調整することができる。
 以上、本発明の一実施形態について説明したが、本発明は、上述の実施形態に限定されるものではなく、本発明の目的を達成できる範囲での変形、改良等は本発明に含まれるものとみなす。
 また、図1に示すシステム構成、図2に示す情報処理装置1の制御部11の構成は、本発明の目的を達成するための例示に過ぎず、特に限定されない。
 また、図2、図3、図5、図7及び図11に示す機能ブロック図は、例示に過ぎず、特に限定されない。即ち、上述した一連の処理を全体として実行できる機能が情報処理装置1に備えられていれば足り、この機能を実現するためにどのような機能ブロックを用いるのかは、特にこれらの図の例に限定されない。
 また、機能ブロックの存在場所も、図2、図3、図5、図7及び図11に限定されず、任意でよい。例えば、図2の例において、上述の処理は情報処理装置1側で行われる構成となっているが、これに限定されず、図示していない他の情報処理装置側で処理の少なくとも一部が行われてもよい。即ち、分析処理の実行に必要となる機能ブロックは、情報処理装置1側が備える構成となっているが、これは例示に過ぎない。情報処理装置1側に配置された機能ブロックの少なくとも一部を、図示せぬ他の情報処理装置側が備える構成としてもよい。
 上述した実施形態に係るシステムにおける各種処理を行う手段及び方法は、専用のハードウェア回路、又はプログラムされたコンピュータのいずれによっても実現することが可能である。上記プログラムは、例えば、フレキシブルディスク及びCD-ROM等のコンピュータ読み取り可能な記録媒体によって提供されてもよいし、インターネット等のネットワークを介してオンラインで提供されてもよい。この場合、コンピュータが読み取り可能な記録媒体に記録されたプログラムは、通常、ハードディスク等の記憶部12に転送され記憶される。また、上記プログラムは、単独のアプリケーションソフトとして提供されてもよいし、システムの一機能としてその装置のソフトウエアに組み込まれてもよい。
 なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、その順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
 また、本発明の一実施形態は、所属すべきカテゴリが既知の配列変異を含む核酸を含有し、上述した情報処理装置1で用いられる標準核酸組成物を含みえる。また、所属すべきカテゴリが既知の配列変異を含むデータであって、上述の情報処理装置1で用いられる標準核酸データをも含みえる。
 また、本明細書において、システムの用語は、複数の装置や複数の手段等より構成される全体的な装置を意味するものとする。
 本発明は、下記態様および形態を包含する。
 [1]被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、
 前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング部と、
 所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて、前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール部と、を有する情報処理装置。
 [2]前記コントロール部における対比の結果に基づいて、前記分類基準及び/又は前記フィルタリング部における分類の結果を調整する調整部を含む、[1]に記載の情報処理装置。
 [3]前記所属すべきカテゴリが既知である配列変異を含む塩基配列は、所属すべきカテゴリが異なる2種以上である、[1]又は[2]に記載の情報処理装置。
 [4]前記所属すべきカテゴリが異なる2種以上の塩基配列は、特定の疾患の原因となる配列変異と、前記特定の疾患の原因とならない塩基配列と、を含む、[3]に記載の情報処理装置。
 [5]前記目的配列変異は、特定の疾患のドライバー変異であり、
 前記2種以上の配列変異は、前記特定の疾患の原因となる配列変異と、前記特定の疾患の原因とならない配列変異と、を含む、[4]に記載の情報処理装置。
 [6]前記分類基準は、変更又は取捨選択が可能である、[1]~[5]のいずれかに記載の情報処理装置。
 [7]前記分類基準を変更又は選択した後に、前記フィルタリング部及び前記コントロール部を実行する、[6]に記載の情報処理装置。
 [8]前記コントロール部で分類する塩基配列は、所属すべきカテゴリが既知の配列変異を含む核酸の標準組成物を配列決定したものである、[1]~[7]のいずれかに記載の情報処理装置。
 [9]前記標準組成物についての配列決定の条件と、前記被検体に含まれる核酸を配列決定する条件と、が同じである、[8]に記載の情報処理装置。
 [10]被検体が有する、有害リスクのある目的配列変異を選定する方法であって、
 前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング工程と、
 所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール工程と、を有する情報処理方法。
 [11]コンピュータを[1]~[9]のいずれかに記載の情報処理装置として機能させるための情報処理プログラム。
 [12]所属すべきカテゴリが既知の配列変異を含む核酸を含有し、[1]~[9]のいずれかに記載の情報処理装置で用いられる標準核酸組成物。
 [13]所属すべきカテゴリが既知の配列変異を含むデータであって、[1]~[9]のいずれかに記載の情報処理装置で用いられる標準核酸データ。
 本発明の情報処理装置は、塩基配列の変異が病気の発生や進行に影響する可能性についての分析を実施する装置において、より正確な分析結果を提示することが可能であるため、医療分野や生命科学分野などの広い分野に適応可能であり、産業上有用である。
 1・・・情報処理装置、
 2・・・フィルタリング部、
 3・・・コントロール部、
 4・・・調整部、
 11・・・制御部、
 12・・・記憶部、
 13・・・通信部、
 14・・・表示部、
 15・・・操作受付部、
 16・・・ドライブ、
 17・・・リムーバブルメディア
 18・・・バス
 21・・・第1データ受入部、
 22・・・第1設定受入部、
 23・・・第1フィルタ処理部、
 24・・・カテゴリ決定部、
 25・・・分析結果出力部、
 31・・・第2データ受入部、
 32・・・第2設定受入部、
 33・・・第2フィルタ処理部、
 34・・・対比部、
 35・・・対比結果出力部、
 43・・・第3フィルタ処理部
 231・・・基本フィルタ、
 232・・・時系列フィルタ、
 233・・・データベースフィルタ、
 234・・・機能予測フィルタ、
 235・・・クオリティフィルタ、
 236・・・融合遺伝子フィルタ、
 237・・・保存位置フィルタ、
 238・・・構造フィルタ。

Claims (13)

  1.  被検体が有する、有害リスクのある目的配列変異を選定する情報処理装置であって、
     前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング部と、
     所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて、前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール部と、を有する情報処理装置。
  2.  前記コントロール部における対比の結果に基づいて、前記分類基準及び/又は前記フィルタリング部における分類の結果を調整する調整部を含む、請求項1に記載の情報処理装置。
  3.  前記所属すべきカテゴリが既知である配列変異を含む塩基配列は、所属すべきカテゴリが異なる2種以上である、請求項1又は2に記載の情報処理装置。
  4.  前記所属すべきカテゴリが異なる2種以上の塩基配列は、特定の疾患の原因となる配列変異と、前記特定の疾患の原因とならない塩基配列と、を含む、請求項3に記載の情報処理装置。
  5.  前記目的配列変異は、特定の疾患のドライバー変異であり、
     前記2種以上の配列変異は、前記特定の疾患の原因となる配列変異と、前記特定の疾患の原因とならない配列変異と、を含む、請求項4に記載の情報処理装置。
  6.  前記分類基準は、変更又は取捨選択が可能である、請求項1~5のいずれか1項に記載の情報処理装置。
  7.  前記分類基準を変更又は選択した後に、前記フィルタリング部及び前記コントロール部を実行する、請求項6に記載の情報処理装置。
  8.  前記コントロール部で分類する塩基配列は、所属すべきカテゴリが既知の配列変異を含む核酸の標準組成物を配列決定したものである、請求項1~7のいずれか1項に記載の情報処理装置。
  9.  前記標準組成物についての配列決定の条件と、前記被検体に含まれる核酸を配列決定する条件と、が同じである、請求項8に記載の情報処理装置。
  10.  被検体が有する、有害リスクのある目的配列変異を選定する方法であって、
     前記被検体に含まれる核酸を配列決定して特定された1以上の配列変異を、1以上の分類基準に基づいて、有害リスクの程度に応じたカテゴリの各々へ分類するフィルタリング工程と、
     所属すべきカテゴリが既知である配列変異を含む塩基配列を、前記分類基準の少なくとも1つに基づいて前記有害リスクの程度に応じたカテゴリの各々へ分類し、その分類の結果を前記所属すべきカテゴリと対比するコントロール工程と、を有する情報処理方法。
  11.  コンピュータを請求項1~9のいずれか1項に記載の情報処理装置として機能させるための情報処理プログラム。
  12.  所属すべきカテゴリが既知の配列変異を含む核酸を含有し、請求項1~9のいずれか1項に記載の情報処理装置で用いられる標準核酸組成物。
  13.  所属すべきカテゴリが既知の配列変異を含むデータであって、請求項1~9のいずれか1項に記載の情報処理装置で用いられる標準核酸データ。
PCT/JP2022/014507 2022-03-25 2022-03-25 情報処理装置、情報処理方法、及び情報処理プログラム WO2023181370A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/014507 WO2023181370A1 (ja) 2022-03-25 2022-03-25 情報処理装置、情報処理方法、及び情報処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/014507 WO2023181370A1 (ja) 2022-03-25 2022-03-25 情報処理装置、情報処理方法、及び情報処理プログラム

Publications (1)

Publication Number Publication Date
WO2023181370A1 true WO2023181370A1 (ja) 2023-09-28

Family

ID=88100277

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/014507 WO2023181370A1 (ja) 2022-03-25 2022-03-25 情報処理装置、情報処理方法、及び情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023181370A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140100792A1 (en) * 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP2021000082A (ja) * 2019-06-19 2021-01-07 シスメックス株式会社 患者検体の核酸配列の解析方法、解析結果の提示方法、提示装置、提示プログラム、及び患者検体の核酸配列の解析システム
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140100792A1 (en) * 2012-10-04 2014-04-10 Sequenom, Inc. Methods and processes for non-invasive assessment of genetic variations
JP2021000082A (ja) * 2019-06-19 2021-01-07 シスメックス株式会社 患者検体の核酸配列の解析方法、解析結果の提示方法、提示装置、提示プログラム、及び患者検体の核酸配列の解析システム
WO2021070739A1 (ja) * 2019-10-08 2021-04-15 国立大学法人 東京大学 分析装置、分析方法及びプログラム

Similar Documents

Publication Publication Date Title
US10354747B1 (en) Deep learning analysis pipeline for next generation sequencing
Sun et al. SHOREmap v3. 0: fast and accurate identification of causal mutations from forward genetic screens
CN109243530B (zh) 遗传变异判定方法、系统以及存储介质
US20220223229A1 (en) Analyzing device, analyzing method and storage medium storing program
CN112634987B (zh) 一种单样本肿瘤dna拷贝数变异检测的方法和装置
US20220277811A1 (en) Detecting False Positive Variant Calls In Next-Generation Sequencing
CN116386718B (zh) 检测拷贝数变异的方法、设备和介质
CN108304694B (zh) 基于二代测序数据分析基因突变的方法
CN111180013B (zh) 检测血液病融合基因的装置
EP4016533B1 (en) Method and apparatus for machine learning based identification of structural variants in cancer genomes
Whitehouse et al. Timesweeper: accurately identifying selective sweeps using population genomic time series
KR101770962B1 (ko) 유전자 서열 기반 개인 마커에 관한 정보를 제공하는 방법 및 이를 이용한 장치
Smith et al. Benchmarking splice variant prediction algorithms using massively parallel splicing assays
CN117393042A (zh) 一种预测错义突变致病性的分析方法
WO2023181370A1 (ja) 情報処理装置、情報処理方法、及び情報処理プログラム
CN114067908B (zh) 一种评估单样本同源重组缺陷的方法、装置和存储介质
JPWO2019132010A1 (ja) 塩基配列における塩基種を推定する方法、装置及びプログラム
CN111028885B (zh) 一种检测牦牛rna编辑位点的方法及装置
Wu et al. InvBFM: finding genomic inversions from high-throughput sequence data based on feature mining
WO2023136297A1 (ja) 情報処理システム、情報処理装置、情報処理方法、及びプログラム
WO2023136296A1 (ja) 情報処理装置、情報処理方法、及びプログラム
KR102404947B1 (ko) 기계학습 기반의 유전체 구조 변이 식별 방법 및 장치
EP4297037A1 (en) Device for determining an indicator of presence of hrd in a genome of a subject
CN115662507B (zh) 一种基于小样本SNPs线性拟合的测序样本同源性检测方法及系统
US20220189581A1 (en) Method and apparatus for classification and/or prioritization of genetic variants

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22933508

Country of ref document: EP

Kind code of ref document: A1