WO2022019331A1 - ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム - Google Patents

ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム Download PDF

Info

Publication number
WO2022019331A1
WO2022019331A1 PCT/JP2021/027331 JP2021027331W WO2022019331A1 WO 2022019331 A1 WO2022019331 A1 WO 2022019331A1 JP 2021027331 W JP2021027331 W JP 2021027331W WO 2022019331 A1 WO2022019331 A1 WO 2022019331A1
Authority
WO
WIPO (PCT)
Prior art keywords
mutation
virus
data
amino acid
sequence
Prior art date
Application number
PCT/JP2021/027331
Other languages
English (en)
French (fr)
Inventor
康悦 小笠原
Original Assignee
国立大学法人東北大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人東北大学 filed Critical 国立大学法人東北大学
Priority to US18/017,039 priority Critical patent/US20230298700A1/en
Priority to DE112021003912.1T priority patent/DE112021003912T5/de
Priority to JP2022538042A priority patent/JPWO2022019331A1/ja
Publication of WO2022019331A1 publication Critical patent/WO2022019331A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/70Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving virus or bacteriophage

Definitions

  • the present invention relates to a virus mutation predictor, a virus mutation prediction method, and a program.
  • the present application claims priority based on Japanese Patent Application No. 2020-12556 filed in Japan on July 22, 2020, the contents of which are incorporated herein by reference.
  • the virus is characterized by its inability to self-proliferate, and can propagate using other cells. That is, the virus utilizes various enzymes such as the host polymerase to help the growth. It is known that there are DNA virus and RNA virus in the virus.
  • the DNA virus uses the virus genomic DNA of the host RNA polymerase to synthesize messenger RNA, synthesizes a protein, and the virus proliferates. It is known that DNA viruses have fewer gene mutations than RNA viruses because they have a mechanism to correct DNA replication errors that occur during proliferation.
  • RNA virus undergoes many mutations and changes as the infection spreads, as typified by influenza. That is, RNA viruses have more gene mutations than DNA viruses.
  • coronaviruses such as the new coronavirus (SARS-CoV-2) and SARS are also RNA viruses, and mutations have been observed.
  • SARS-CoV-2 new coronavirus
  • coronavirus has an RNA calibrating enzyme in the viral genome, large-scale gene deletions, base substitutions over several bases, and mutations are unlikely to occur. Therefore, it is known that there are many point mutations in coronavirus.
  • a point mutation is a change due to a deletion, substitution, or insertion of a base.
  • RNA editing enzyme is involved in the point mutation of RNA virus.
  • the point mutation is caused by RNA editing enzymes such as ADARs and APOBECs.
  • Point mutations in RNA viruses have been presented with results suggesting the involvement of ADARs in particular.
  • the 5'side 2 bases are expressed as -2 and the 3'side 2 bases are expressed as +2 for the part of the surrounding base sequence when the mutation part by the RNA editing enzyme is set to 0.
  • -2 to +2 base sequence is characteristic (see, for example, Non-Patent Document 1).
  • HA hemagglutinin
  • RNA viruses such as the new coronavirus cause mutations.
  • the antibody and antigen tests used in the diagnosis made prior to the viral mutation become ineffective, and the therapeutic agent becomes ineffective.
  • Viral mutations have the problem that the position of the mutation on the genome and the replaced base can only be known after the mutation has occurred. In order to create an antibody test or an antigen test kit, it was necessary to identify the mutation site after the mutation occurred and then create a new protein to be used for the antibody test or the antigen test. Therefore, it takes a lot of time to make a diagnostic drug and a therapeutic drug corresponding to a new mutation.
  • the present invention has been made in view of the above problems, and provides a virus mutation prediction device, a virus mutation prediction method, and a program capable of predicting a virus mutation in advance before the mutation occurs. With the goal.
  • the present invention includes the following aspects.
  • C (cytosine) or G (guanine) is extracted from the acquisition unit for acquiring the gene sequence data of the virus genome and the acquired gene sequence data of the genome, and mutation from C or G to U (uracil) is performed.
  • C or G is changed to U, it is confirmed whether there is an amino acid mutation, and the sequence with the amino acid mutation is separated as a non-synonymous substitution.
  • a separation unit that separates non-synonymous sequences as synonymous substitutions
  • a learning unit that learns using the synonymous substitution sequence data as training data
  • a prediction unit that predicts mutations in the virus using the learned results.
  • the base sequence of the extracted context changes with the extraction unit that extracts the context in which the mutation from G to A, A to G, U to C, T to C occurs or occurs, the amino acid mutation occurs.
  • the separator that separates the sequence with the amino acid mutation as a non-synonymous substitution and the sequence without the amino acid mutation as a synonymous substitution, and the sequence data of the synonymous substitution as training data.
  • a virus mutation prediction device including a learning unit for learning and a prediction unit for predicting a mutation of the virus using the learned result.
  • the virus mutation prediction device further includes a sampling unit that selects a predetermined number from the synonymous substitutions, and the learning unit uses the sequence data of the synonymous substitutions selected by the sampling unit as learning data.
  • the virus mutation predictor is a feature amount in which two bases out of four types of RNA bases A (adenine), U, G, and C are selected and characterized, and is a feature amount during learning. Further includes a feature amount addition selection unit for adding the feature amount used in the above, and the learning unit also uses the feature amount for the learning data.
  • the range of the context is -3 to +3 or more and -10 to +10 or less.
  • the virus is SARS-CoV-2.
  • the acquisition unit acquires the gene sequence data of the virus genome, and the extraction unit extracts C (cytosine) or G (guanine) from the acquired gene sequence data of the genome, and U from C or G. Extract the context in which the mutation to (uracil) occurs or occur, check if there is an amino acid mutation when the separator changes from C or G to U, and use the sequence with the amino acid mutation as a non-synonymous substitution. Separated, the sequence without the amino acid mutation is separated as a synonymous substitution, the learning unit learns using the sequence data of the synonymous substitution as the training data, and the prediction unit uses the learned result to describe the above.
  • a virus mutation prediction method that predicts virus mutations.
  • the acquisition unit acquires the gene sequence data of the genome of the virus, and the extraction unit acquires C (cytosine), G (guanine), A (adenin), U (uracil) from the acquired gene sequence data of the genome.
  • C cytosine
  • G guanine
  • A adenin
  • U uracil
  • T thymine
  • the context in which the mutation from G to A, A to G, U to C, or T to C occurs or occurs is extracted, and the nucleotide sequence of the extracted context changes in the separator. If so, it is confirmed whether or not there is an amino acid mutation, the sequence having the amino acid mutation is separated as a non-synonymous substitution, the sequence without the amino acid mutation is separated as a synonymous substitution, and the learning unit determines the sequence of the synonymous substitution.
  • a computer acquire the gene sequence data of the virus genome, extract C (cytosine) or G (guanine) from the acquired gene sequence data of the genome, and transfer from C or G to U (uracil).
  • C cytosine
  • G guanine
  • U uracil
  • a program that separates a sequence without a gene as a synonymous substitution trains the sequence data of the synonymous substitution as training data, and predicts a mutation of the virus using the learned result.
  • C cytosine
  • G guanine
  • A adenine
  • U uracil
  • T thymine
  • viral mutations can be predicted in advance before mutations occur.
  • SARS-CoV-2 virus [Outline of SARS-CoV-2 virus] Currently, vaccines, diagnostic methods, and therapeutic methods for SARS-CoV-2 are required. Vaccines and antibody tests are based on the SARS-CoV-2 protein (or gene sequence). According to genomic analysis, SARS-CoV-2 has several variants that fall into three types: A, B, and C. As a result, it is necessary to collect variants of SARS-CoV-2 for vaccine and antibody testing.
  • SARS-CoV-2 variants contain several gene mutations, but the effect of these mutations on infection is unknown. Mutations are introduced into the virus by self-renewal errors and cell-derived RNA editing enzymes. RNA editing enzymes are known to cause mutations in RNA viruses.
  • RNA editing enzymes such as adenosine deaminase (ADAR) that act on RNA, mRNA editing enzymes for apolypoprotein B, and catalytic polypeptides (APOBECs) have been studied in RNA virus infections.
  • ADAR is an enzyme that extracts an amino group from adenosine and converts it into inosine, and is a function that mainly acts on double-stranded RNA.
  • APOBECs a family of cytidine deaminase, are enzymes that extract amino groups from cytidine and convert them to uracil.
  • APOBECs have been reported to function using ssDNA as a substrate.
  • APOBEC1, APOBEC3A and APOBEC3G also recognize ssRNA as a substrate.
  • the place where the mutation can enter in the future and the base to be replaced are predicted. do. If a viral mutation can be predicted in advance, it will be possible to prepare a diagnostic agent or a therapeutic agent corresponding to the new mutation, and the diagnostic agent or the therapeutic agent can be applied immediately after the mutation occurs.
  • FIG. 1 is a diagram showing an example of the configuration of the virus mutation prediction device 1 according to the present embodiment.
  • the virus mutation prediction device 1 includes an acquisition unit 11, a storage unit 12, an extraction unit 13, a separation unit 14, a sampling unit 15, a feature amount addition selection unit 16, a learning unit 17, a prediction unit 18, and an output unit. 19 and an operation unit 20 are provided.
  • the virus mutation prediction device 1 acquires data from the DB (database) 2 via the network NW.
  • the virus mutation prediction device 1 learns the characteristics of the gene mutation from the acquired data and predicts the mutation.
  • the acquisition unit 11 is, for example, a wireless network circuit.
  • the acquisition unit 11 acquires data from DB2 (for example, GISAID (International Promotion Organization for Bird Influenza Information Sharing; https://www.gisaid.org/)) via the network NW.
  • the data are, for example, the gene sequence of the world genome of SARS-CoV-2 and are plural.
  • the storage unit 12 stores the acquired acquired genomic data of SARS-CoV-2.
  • the storage unit 12 stores information indicating whether or not the regularization parameter C has been mutated.
  • the storage unit 12 stores the confirmation result of confirming whether or not there is an amino acid mutation when the C (cytosine) or G (guanine) is changed to U (uracil).
  • the storage unit 12 stores algorithms, programs, threshold values, and the like necessary for learning and prediction.
  • Extraction unit 13 extracts C from the acquired SARS-CoV-2 genome.
  • the extraction unit 13 also extracts from the acquired SARS-CoV-2 genome the context in which the C or G to U mutation occurs or occurs.
  • the context is a set of sequences of several bases before and after the mutation site.
  • Separation unit 14 extracts the mutant portion from C or G to U of the acquired SARS-CoV-2 genomic data, and maps the extracted mutant portion onto one genome.
  • the separation unit 14 stores information indicating whether C or G has been mutated in the storage unit 12.
  • the separation unit 14 confirms whether or not there is an amino acid mutation, and stores the confirmation result in the storage unit 12.
  • the separation unit 14 confirms whether or not there is an amino acid mutation, separates the sequence having the amino acid mutation as a non-synonymous substitution, and separates the sequence without the amino acid mutation as a synonymous substitution. ..
  • the sampling unit 15 selects the first predetermined number of amino acid substitutions without amino acid substitutions (synonymous substitutions). In order to suppress noise, the sampling unit 15 selects a second predetermined number, which is smaller than the first predetermined number, as learning data from the selected first predetermined number.
  • the sampling process does not necessarily have to be performed. In this case, all synonymous substitutions may be used for the training data. Further, the sampling unit 15 may select a first predetermined number of data having no amino acid substitution (synonymous substitution) and use this as training data.
  • the feature amount addition selection unit 16 adds a feature amount (parameter).
  • the feature amount will be described later.
  • the feature amount is an amount in which two bases are selected and characterized from the four types of RNA bases A, U, G, and C.
  • the learning unit 17 uses the selected second predetermined number as learning data and the rest of the first predetermined number as test data.
  • the learning unit 17 performs learning using the feature amount and the learning data.
  • the learning unit 17 does not have to use the feature amount for learning.
  • the learning unit 17 learns using an algorithm such as a neural network, a support vector machine, reinforcement learning, or deep learning. In addition, learning may be performed using artificial intelligence (AI: Artificial Interigence).
  • AI Artificial Interigence
  • the prediction unit 18 predicts a point mutation using the learned result.
  • the output unit 19 displays information indicating the result predicted by the prediction unit 18 on the image display device 3.
  • the image display device 3 may be, for example, a tablet terminal or the like.
  • the operation unit 20 is, for example, a touch panel sensor, a mouse, or the like provided on the image display device 3.
  • the operation unit 20 detects the operation result operated by the user.
  • FIG. 2 is a diagram showing the distribution of point mutations in the SARS-CoV-2 genome.
  • the upper figure of FIG. 2 is a diagram (g1) showing the position of each gene of the full-length ssRNA.
  • the histogram g2 at the bottom of FIG. 2 shows the number of mutations at each position.
  • the vertical axis is the number of mutations and the horizontal axis is the number of bases (bp).
  • the average number of point mutations per 150 nucleotides (bins) was about 28, but it was observed that the frequency of point mutations was high in some places.
  • FIG. 3 is a diagram showing the number of point mutations for each gene.
  • the horizontal axis is the gene name and the vertical axis is the number of mutations.
  • ORF-1a and ORF-1b had many point mutations.
  • FIG. 4 is a diagram showing the point mutation rate per 100 bases of each gene.
  • the horizontal axis is the gene name and the vertical axis is the point mutation rate per 100 bases.
  • the frequency of point mutations was highest in the 5'-untranslated region (UTR) and 3'-UTR.
  • FIG. 5 is a diagram showing the results of examining the mutated nucleobase.
  • the horizontal axis is the number of substituted bases after a point mutation, and the vertical axis is a base (A (adenine), U, G (guanine), C).
  • A adenine
  • U adenine
  • G guanine
  • C a base
  • FIG. 6 is a diagram showing the results of investigating from which base each base is mutated.
  • the horizontal axis is the original base and the number of substituted bases at the time of each point mutation, and the vertical axis is from base to base.
  • C and G particularly C
  • G is predominantly mutated to A
  • A is predominantly mutated to G
  • U is dominated by C.
  • C to U and G to A are introduced by APOBEC
  • a to G and U to C are introduced by ADAR.
  • the mutation from C to U is also written as CtoU.
  • FIG. 7 is a diagram showing a mutation pattern of each gene.
  • FIG. 8 is a diagram showing the number of mutations obtained by dividing the number of point mutations in each gene by the gene length.
  • the horizontal axis is the gene name.
  • the vertical axis of FIG. 7 is the number of mutations.
  • the vertical axis of FIG. 8 is the number of mutations per 100 bases. From FIGS. 7 and 8, the mutation of CtoU was predominant, although there were some differences for each gene.
  • CtoU and GtoA are consistent with APOBEC
  • AtoG and CtoU are consistent with the mutations introduced by ADAR. Therefore, the inventors investigated the context of one base upstream and downstream for these four mutations.
  • FIG. 9 is a diagram showing the characteristics of the base sequences on both sides of the point mutation in CtoU.
  • FIG. 10 is a diagram showing the characteristics of the base sequences on both sides of the point mutation in GtoA.
  • FIG. 11 is a diagram showing the characteristics of the base sequences on both sides of the point mutation in AtoG.
  • FIG. 12 is a diagram showing the characteristics of the base sequences on both sides of the point mutation in UtoC.
  • the horizontal axis is the base name
  • the vertical axis is the ratio [%] of each of A, U, G, and C.
  • the graph on the left shows the base (-1) on the 5'side of the mutation site
  • the graph on the right shows the base (-1) on the 3'side of the mutation site.
  • the horizontal direction is the position of the context. Further, each numerical value is the number of each base AUGC at each position. As shown in FIG. 13, A and U were very large before and after C to be replaced. The reason for this is considered to be the bias that SARS-CoV-2 contains a large amount of A and U (A is 30%, U is 32%).
  • FIG. 14 is a diagram showing an increase / decrease [%] from the expected value corresponding to each base in all C contexts of the SARS-CoV-2 sequence.
  • the horizontal direction is the position of the context.
  • U was high at positions +2 and +1 and G was high at -1 (p ⁇ 10 ⁇ -3, fisher's exact test).
  • G was high at -1 (p ⁇ 10 ⁇ -3, fisher's exact test).
  • p ⁇ 0.01, fisher's exact test there was less C (p ⁇ 0.01, fisher's exact test).
  • FIG. 15 is a diagram showing the ratio of the context of all cytosine residues in the unmasked region of the reference sequence.
  • FIG. 16 is a flowchart of a learning procedure by the virus mutation prediction device 1 according to the present embodiment.
  • Step S1 The acquisition unit 11 acquires the genomic data of SARS-CoV-2 from DB2 (for example, GISAID).
  • DB2 for example, GISAID
  • the acquisition unit 11 stores the acquired genomic data of SARS-CoV-2 in the storage unit 12.
  • Step S2 The extraction unit 13 selects C or G from the acquired SARS-CoV-2 genome.
  • the extraction unit 13 also extracts the context g11 (FIG. 17) in which the C or G to U mutation occurs or occurs from the acquired SARS-CoV-2 genome.
  • FIG. 17 is an image diagram of mapping and mutation record.
  • the context is, for example, three ways (-2 to +2, -3 to +3, -10 to +10).
  • Step S3 The separation unit 14 extracts the mutant portion from C or G to U of the acquired genomic data of SARS-CoV-2, and maps the extracted mutant portion onto one genome (FIG. 17).
  • Step S4 The separation unit 14 stores information indicating whether C or G has been mutated in the storage unit 12 (FIG. 17). For example, the separation unit 14 stores the case of mutation from C or G to U as 1, and stores C or G as 0 as a numerical value.
  • Step S5 When the separation unit 14 changes from C or G to U, it confirms whether or not there is an amino acid mutation, and stores the confirmation result in the storage unit 12.
  • step S6 When the separation unit 14 determines that there is an amino acid mutation (step S5; YES), the separation unit 14 proceeds to the process of step S6.
  • step S5; NO When the separation unit 14 determines that there is no amino acid mutation (step S5; NO), the separation unit 14 proceeds to the process of step S7.
  • Step S6 The separation unit 14 determines that the substitution is non-synonymous, and this data is also used for learning.
  • Step S7 The separation unit 14 determines that the substitution is synonymous, and uses this data for learning. Mutations were confirmed at 675 sites out of about 1800 sites that were synonymously substituted. After the processing, the separating unit 14 proceeds to the processing of step S8.
  • Step S8 The sampling unit 15 selects 1000 pieces (500 with mutation, 500 without mutation) without amino acid substitution (synonymous substitution) (first random sampling). The sampling unit 15 performs this random selection 5 times and selects 1000 amino acid substitutions without amino acid substitutions (synonymous substitutions).
  • Step S9 Generally, in machine learning, the learning data is often set to 60 to 80%, so the sampling unit 15 selects 800 out of 1000 selected pieces as training data (second random). sampling). The sampling unit 15 makes random selections five times to select 800 pieces. The sampling unit 15 does not have to perform this process.
  • Step S10 The learning unit 17 uses the selected 800 pieces as learning data and the remaining 200 pieces as test data.
  • the learning unit 17 uses the learning data even if there is no mutation.
  • Step S11 Feature amount addition
  • the number of feature quantities is an example and is not limited to this.
  • the feature amount is a combination of two bases selected in the context as shown in FIG.
  • Step S12 The learning unit 17 performs learning using the feature amount and the learning data.
  • Step S13 The prediction unit 18 predicts a point mutation using the learned result. The forecast will be described later.
  • the context may be -3 to +3 or more and -10 to +10 or less.
  • -3 to +3 or more and -10 to +10 or less include -4 to +4, ..., -9 to +9.
  • FIG. 18 is a diagram showing an example of a combination of two positions when a synonymous substitution (no amino acid mutation) is used. For example, in “1_G 4_G" on the first line, 1_G indicates G at position +1 and 4_G indicates G at position +4. Further, “-2_T 1_G” on the second line indicates the context of TNCG.
  • FIG. 19 is a diagram showing an example of the selected top 30 feature quantities.
  • the hatching g21 represents an increase, and the hatching g22 represents a decrease.
  • the feature amount selected is not limited to 30.
  • FIG. 20 is a diagram showing an example of the relationship between the context and the score when no feature amount is added or selected.
  • FIG. 21 is a diagram showing an example of the relationship between the context and the score when the feature amount is added / selected.
  • the horizontal axis is the context ⁇ (-2, +2), (-3, +3), (-10, +10) ⁇
  • the vertical axis is the score.
  • the points are the regularization parameter C values in logistic regression, 0.0001, 0.001, 0.01, 0.1, 1.0, 10.0, 100.0, in order from the left. It is 1000.0.
  • the regularization parameter indicates that the larger the value, the easier it is to learn.
  • the score indicates the correct answer rate, and the variation indicates the robustness against the bias of the data.
  • the prediction unit 18 calculates and predicts by multiplying by a coefficient according to the rank of the top 30 by adding the feature amount (top 30).
  • the features (among the top 30), there are really important ones and noise.
  • FIG. 22 is a diagram showing the context and the average value of the scores for each regularization parameter when the feature amount is added / selected.
  • FIG. 23 is a diagram showing the context and the standard deviation of the score for each regularization parameter when the feature amount is added / selected. In the comparison between contexts -2 to +2 and 3 to +3 as shown in FIGS. 22 and 23, the scores from -3 to +3 are higher and the variation (standard deviation) is smaller. A high score indicates a high percentage of correct answers, and a small variation indicates that the obtained results are highly valid, and is considered to be practical.
  • the score was higher and the variation was smaller in -10 to +10 than in Context-3 to +3. Therefore, the context is better from -3 to +3 than from -2 to +2, and better from -10 to +10 than from -3 to +3. That is, the context of -10 to +10 was the best.
  • FIG. 24 is a flowchart of the mutation prediction processing procedure according to the embodiment.
  • the above-mentioned learning is performed in advance at the time of prediction.
  • Step S101 The prediction unit 18 calculates the score of the predicted result, and causes the image display device 3 to display the calculated score via the output unit 19. As a result, the image display device 3 displays a graph of the relationship between the context and the score, as shown in FIG. 25, for example.
  • FIG. 25 is a diagram showing an example of information displayed on the image display device 3 at the time of mutation prediction.
  • the operation unit 20 outputs the selection information selected by the user to the prediction unit 18.
  • Step S103 The prediction unit 18 performs statistical processing as shown in FIG. 26 with a predetermined algorithm (for example, logistic regression) for the regular parameters of the selected context.
  • FIG. 26 is a diagram showing an example of the result of logistic regression calculation.
  • the vertical axis of FIG. 26 is the score, and the straight line g42 is the threshold value for the presence or absence of mutation.
  • the prediction unit 18 displays a graph as shown in FIG. 26 on the image display device 3.
  • Step S104 The user looks at the displayed image (FIG. 26) and selects a point having a mutation, for example, point g43.
  • the operation unit 20 outputs the selection information selected by the user to the prediction unit 18.
  • Step S105 The prediction unit 18 maps the selected point to the position g44 on one SARS-CoV-2 genome as shown in FIG. 27, and displays the mapped image on the image display device 3.
  • FIG. 27 is a diagram showing mutation records and mutation predictions.
  • Step S106 When the prediction unit 18 detects that the extraction portion is selected by operating the operation unit 20 in the displayed image (FIG. 27), the prediction unit 18 displays where in FIG. 26 it corresponds (backcast). function). In addition, the prediction unit 18 may display all of FIGS. 25 to 27 in one screen, or at least one may be displayed and switched to be displayed. In this embodiment, for example, FIG. 26 and FIG. 27 can be bidirectionally selected and mapped in this way.
  • the processing procedure shown in FIG. 24 is an example and is not limited to this.
  • the virus genome is searched based on the characteristic sequences of several bases before and after the mutation of the virus gene, and the mutations (C or G to U) so far are used as teacher data for machine learning to predict the mutation. I did it.
  • this correct answer rate is the correct answer rate that includes not only mutations due to RNA editing enzymes but also mutations, and by distinguishing between mutations and mutations that are only RNA editing enzymes, the correct answer rate for prediction of mutations by RNA editing enzymes is It is easy to imagine that the rate is higher.
  • the AUC (Area Under the Curve) score was used as the correct answer rate. The calculation of the AUC score and the like will be described later.
  • the present embodiment it is an invention that enables the development of an ultra-early diagnostic kit. Further, according to the present embodiment, not only the diagnostic kit but also the effect of the vaccine, the effect of the viral antibody drug, and the authentication or cancellation of the immune passport can be determined. In addition, according to the present embodiment, it is possible to select a candidate for a therapeutic agent, so that ultra-early treatment is possible.
  • variant-1 (5'-AUUUAUGUUCUUUCCC-3'; at2946-2965 region in EPI_ISL_419308)
  • variant-2 (5'-AUUUAUUGUUCUUUUCUCUUUCCC-3';'; EPI_ISL_418420 regions 14392-14411)
  • variant-4 (5'-AAACCUUUGAGAGAGUU-3'; EPI_ISL_419846 regions 22946-22965).
  • a U-free sequence (5'-GACAGAGAGAGAACAAG-3') was used as a negative control to induce TLR7-mediated cytokine production.
  • ssRNA synthesized by Japan Genetic Research Institute Co., Ltd. (Sendai City, Miyagi Prefecture) was used.
  • the human monocytic leukemia cell line THP-1 is an RPMI-1640 medium supplemented with 10% FCS, 55 mM 2-mercaptoethanol, 100 mM non-essential amino acids (NEAAs), 1 mM pyruvate and 20 mM ml-1 penicillin and streptomycin. Maintained in.
  • FIG. 28 is a diagram showing a phylogenetic tree.
  • the inventors collected the gene sequence from GISAID based on the Wuhan type (W) reported in the early stage, and created the phylogenetic tree of FIG. 28.
  • FIG. 28 is a diagram showing a phylogenetic tree.
  • the four sequences consist of a first variant (variant-1, Japanese type), a second variant (variant-2, Georgia type), a third variant (variant-3, French type), and a fourth variant (variant-4,). It is derived from (Australian type).
  • W shows the original SARS-CoV-2 sequence reported in Wuhan.
  • FIG. 29 is a diagram showing the mutation sites of various mutants in the genome of the four selected mutants and the positions of the RNA sequences used in the pseudo-infection model.
  • the lateral direction is (bp)
  • the downward triangle is VtoU (V is all bases except U)
  • the upward triangle is UtoV
  • the squares indicate the sequence of ssRNA used for cell stimulation.
  • the number of U in the full-length ssRNA of each SARS-CoV-2 mutant is significantly increased as compared with the original isolated strain.
  • the frequency of point mutations for U was much higher than the frequency of U for A, G, or C.
  • the ability of full-length mutated ssRNA to induce inflammatory cytokines is much greater than in the original isolate.
  • FIG. 30 is a diagram showing the induction of TNF- ⁇ production by ssRNA.
  • ssRNA For the measurement of human TNF- ⁇ , cells were cultured in the presence of PMA (0.2 ng / ml, Sigma Aldrich, St. Louis, MO, USA) and DOTAP (10 ⁇ g, Roche Diagnostics, Mannheim, Germany). It was stimulated with 160 (pmol) ssRNA.
  • PMA 0.2 ng / ml
  • DOTAP DOTAP
  • W-1 indicates an early Wuhan type
  • variant-1 indicates a mutant type
  • FIG. 31 is a diagram showing the induction of IL-6 production by ssRNA.
  • ssRNA For the measurement of human IL-6, cells were cultured in the presence of PMA (50 ng / ml) and stimulated with DOTAP (15 ⁇ g) with 480 (pmol) ssRNA. IL-6 production was measured after 48 hours of stimulation.
  • the ssRNA sequence lacking the U residue did not upregulate the production of TNF- ⁇ , as shown in FIG.
  • the increase in U number induced by point mutation increased cytokine production of variant-1, 3 and 4 compared to stimulation with Wuhan-type reference ssRNA sequences.
  • the production of IL-6 was lower than that of TNF- ⁇ , but the same tendency was observed in the production of IL-6.
  • the acquisition unit acquires the gene sequence data of the virus genome.
  • the extraction unit extracts C (cytosine) or G (guanine) from the acquired genomic sequence data, and extracts the context in which the mutation from C or G to U (uracil) occurs or occurs.
  • C or G to U uracil
  • the base sequence of the extracted context changes from C or G to U, it is confirmed whether or not there is an amino acid mutation. Mutations caused by RNA editing enzymes are thought to occur with or without amino acid mutations because they act directly on genomic RNA to induce mutations.
  • the separation unit separates the sequence having the amino acid mutation as a non-synonymous substitution, and separates the sequence without the amino acid mutation as a synonymous substitution. Then, the learning unit learns by using the sequence data of the synonymous substitution as the learning data, and the prediction unit predicts the virus mutation by using the learned result.
  • FIG. 32 is a diagram showing an example of processing contents and an example of processing procedure of the analysis program according to the present embodiment.
  • the vertical direction is the main processing and the horizontal direction is the processing procedure.
  • the analysis program reads the file to be analyzed (step S211), sets the explanatory variables and objective functions (step S212), and defines the function for creating the feature quantity (step S212).
  • step S213) the range of the base sequence and the parameters for grid search are set (step S214).
  • the objective variable is the presence or absence of mutation, and the explanatory variables are the dummy base sequence and the base ratio.
  • the function for creating the feature amount takes a range of the base sequence (example: -3 to +3) as an argument, and the base ratio ("A", "G", "C", "T” for one record is the whole. % Is included) is a function to calculate.
  • the analysis program creates features (step S221) in the learning process (step S220), optimizes parameters by grid search (step S222), and executes cross-validation and learning of various models (step S223). ), Calculate the AUC scores of various models (step S224).
  • the ratio of the base is calculated using the function for creating the feature amount, and the base sequence is made into a dummy variable by using the function for dummyizing the variable specified in the argument.
  • the ACU score is the area of the part below the curve of the graph when the ROC (Receiver Operating Characteristic Curve) curve is created. For example, it takes a value from 0 to 1, and the closer the value is to 1, the better the discriminant ability. Indicates high.
  • the analysis program outputs the AUC scores of various models in the accuracy evaluation process (step S230) (step S231), and calculates the summary statistic of the AUC score (step S232).
  • the analysis program represents the coefficients of the regression equation in a histogram and plots them in a box plot (step S241), and plots the ROC curves of various models (step S242).
  • FIG. 33 is a diagram showing an example of hyperparameter values of each model optimized by performing a grid search for each range of the base sequence.
  • the model is LightGBM, a technique that combines logistic regression with decision trees and gradient boosting.
  • the analysis condition of FIG. 33 is that the number of cross-validations is five.
  • the range of the base sequence is -2 to +2, -3 to +3, -5 to +5, and -10 to +10.
  • the hyperparameters used for the verification of logistic regression are C: [0.0001, 0.001, 0.01, 0.1, 1,10,100,1000], and the hyperparameters used for the verification of LightGBM are.
  • Num_leaves [10,31,64], learning_late: [0.01,0.1,1].
  • the strength of regularization in logistic regression tends to increase as the range of the base sequence expands.
  • the hyperparameter "learning_rate" of LightGBM was constant at 0.01.
  • FIGS. 34 to 37 show the analysis results of A, C, G, T, A_percent, G_percent, C_percent, and T_percent.
  • A_percent, G_percent, C_percent, and T_percent are the ratio of bases per record.
  • 0 to 4 are coefficients for each crossing number, and for example, a bar graph of 0 is a coefficient at the time of the first cross-validation.
  • the horizontal axis is a parameter and the vertical axis is a rate.
  • the vertical axis is the rate.
  • FIGS. 34 to 36 are diagrams showing the coefficients of the regression equation in a histogram in the range of the base sequence ⁇ 10 to +10.
  • FIG. 37 is a diagram in which a histogram of the coefficients of the regression equation is plotted in a box plot in the range of the base sequence ⁇ 10 to +10.
  • the values of -6T, -2G, -2T, -1G, -1T, + 5A and the like were large.
  • the values of -2T and + 1G were large.
  • the values of -2T, -1G, and + 1G were large.
  • the values of -2T, -1G, and + 1G were large.
  • the values of -2T, -1G, -1T, + 1G and the like were large. It should be noted that such a correlation coefficient was used to visualize the weight for each base, which will be described later.
  • FIG. 38 is a diagram showing an outline and features of the compared learning models. As shown in FIG. 38, the models are logistic regression, SVM (Support Vector Machine), decision tree, random forest, XGBoost, and LightGBM.
  • FIG. 39 is a diagram showing an example of the result of analyzing the summary statistic of the AUC score for each model.
  • the correlation coefficients of the logistic regressions of the ranges -2 to +2, -3 to +3, -5 to +5, and -10 to 10 of the base sequence are used, and the third decimal place and the following are rounded down.
  • Image g101 of FIG. 39 shows ROC (ROC_xgt) of XDBost, ROC (ROC_tree) of a decision tree, and ROC (ROC_lgb) of LightGBM.
  • Image g102 shows ROC (ROC_svm) of SVM, ROC (ROC_tf) of random forest, and ROC (ROC_llr) of logistic regression.
  • ROC_xgt of XDBost
  • ROC_tree ROC
  • ROC_lgb ROC
  • Image g102 shows ROC (ROC_svm) of SVM, ROC (ROC_tf) of random forest, and
  • the scores are 55.4% for the base sequence range -10 to +10, 56.0% for the base sequence range -2 to +2, and 56.6% for the base sequence range -3 to +3.
  • the range of the base sequence -5 to +5 was 56.2%.
  • the overall logistic regression score was high. In other models, scores of about 52 to 57% were obtained.
  • FIG. 40 is a diagram showing an example of an AUC score before processing.
  • FIG. 41 is a diagram showing an example of the AUC score after processing.
  • the correlation coefficients of the logistic regressions of the ranges -2 to +2, -3 to +3, -5 to +5, and -10 to +10 of the base sequence are used to indicate the third decimal place and below. Truncate to show summary statistics.
  • the following variables that do not exist in the data before processing were deleted, and then the AUC score after processing was calculated.
  • the deleted variables are A_percent, G_percent, C_percent, and T_percent.
  • the AUC score before processing when logistic regression is used is about 51 to 54%, but the AUC score after processing is improved to about 56 to 57%.
  • FIGS. 42 to 43 show an example of the comparison result in the range of the base sequence -2 to +2.
  • FIG. 42 is a diagram showing the ROC curve of each model having the range of the base sequence -2 to +2; the number of cross-validations of the first time.
  • FIG. 43 is a diagram showing the ROC curve of each model having the range of base sequence -2 to +2; the number of cross-validations is the second.
  • the algorithms used are Logistic Regression, SVM, Decision Tree, Random Forest, XGBoost, and Light GBM shown in FIG. 38.
  • the line g201 is an XGBoost
  • the line g202 is a decision tree
  • the line g203 is a Light GBM
  • the line g205 is an SVM
  • the line g205 is a random forest
  • the line g206 is a logistic regression ROC curve.
  • the program that realizes the function of the virus mutation prediction device 1 so as to perform the above-mentioned analysis and the like has the following functions.
  • I. The first function that reads the file to be analyzed and deletes the "1" record that is not used in the analysis.
  • II. Execute the second function for calculating the base ratio, calculate the base ratio of the data read in I, and store it in a new variable.
  • III. Of the data read in I, the variables of the base sequence (for example, columns C to V of the file) are converted into dummy variables by using the third function.
  • a grid search is executed using the fourth function to optimize the parameters of various models (Fig. 33).
  • V. Perform 5-fold cross-validation using the fifth function.
  • the variables II and III are set as explanatory variables, and the presence or absence of mutation (for example, column B of the file) among the data read by I is set as the objective variable in the first method, and learning of each model is executed.
  • the first method performs machine learning by designating the test data to be classified as the first argument and the correct answer as a result of classifying into the second argument.
  • the AUC score of each model is calculated using the sixth function.
  • the summary statistic of the AUC score of each model is calculated by the second method for extracting statistical information (for example, FIGS. 38 to 43).
  • the third method is used to plot the coefficients of logistic regression (eg, FIGS. 34-36).
  • the third method is a method that outputs the confidence interval as an error bar with the average value of the given vector (array composed of numerical values) as the height.
  • X Using the third method, the coefficients are plotted in a box plot (eg, FIG. 37).
  • XI The ROC curve of each model is plotted using the plotting fourth method (eg, FIGS. 42-43).
  • the above-mentioned functions, functions, and methods of I to XI are examples, and the present invention is not limited to these.
  • FIG. 44 is a diagram showing an example of a method of dividing learning data by cross-validation five times. How to divide training data and test data is a very important issue. Therefore, in the present embodiment, the training data and the test data are divided as shown in FIG. 44, and the training data and the test data are exchanged for each intersection for learning.
  • FIG. 45 is a diagram for explaining a method of measuring generalization performance.
  • Stratified KFold was performed as shown in FIG. 45 as a method for measuring generalization performance.
  • the data is divided into training and testing while maintaining the distribution ratio.
  • the examples shown in FIGS. 44 and 45 are examples, and are not limited to these.
  • FIG. 46 is a boxplot based on the range of each base sequence and each learning model when mutating from G to U.
  • FIG. 47 is a boxplot based on the range of each base sequence and each learning model when mutating from G to A.
  • FIG. 48 is a boxplot based on the range of each base sequence and each learning model when mutating from A to G.
  • FIG. 49 is a boxplot based on the range of each base sequence and each learning model when mutating from U to C (or T (thymine) to C).
  • TtoC is expressed in DNA notation, but U to C in RNA notation.
  • xgb indicates XGBoost
  • Tree indicates a decision tree
  • Lab indicates LightGBM
  • Svm indicates SVM
  • rf indicates random forest
  • Lr indicates logistic regression.
  • the average value of the correct answer rate in the range of the base sequence -10 to +10 is 56.4% for XGBoost, 53.0% for the decision tree, and 50.0% for LightGBM. SVM was 51.4%, random forest was 54.0%, and logistic regression was 54.0%. As shown in FIG. 46, in the case of the mutation from G to U, the result of the combination of the base sequence range -10 to +10 and the model XGBoost was the best.
  • the average value of the correct answer rate in the range of -5 to +5 of the base sequence is 62.2% for XGBoost, 57.0% for decision tree, and 62.8 for LightGBM. %, SVM was 52.6%, Random Forest was 64.2%, and Logistic Regression was 60.2%.
  • the average value of the correct answer rate in the range of base sequence -10 to +10 is 60.6% for XGBoost, 56.6% for decision tree, 61.6% for Light GBM, 54.4% for SVM, and random forest. Was 64.2% and logistic regression was 59.8%.
  • FIG. 47 in the case of the mutation from G to A, the result of the combination of the base sequence range -10 to +10 or -5 to +5 and the model random forest was the best.
  • the average value of the correct answer rate in the range of base sequence -2 to +2 is 58.0% for XGBoost, 56.4% for decision tree, 60.2% for Light GBM, and so on. SVM was 48.8%, random forest was 57.2%, and logistic regression was 58.2%.
  • the result of the combination of the base sequence range -2 to +2 and the model Light GBM was the best.
  • the average value of the correct answer rate in the range of -5 to +5 of the base sequence is 61.0% for XGBoost, 62.4% for decision tree, and 64 for LightGBM. 0.0%, SVM was 55.0%, Random Forest was 62.4%, and Logistic Regression was 62.6%.
  • SVM was 55.0%
  • Random Forest was 62.4%
  • Logistic Regression was 62.6%.
  • the result of the combination of the base sequence range -5 to +5 and Light GBM was the best.
  • XGBoost decision tree
  • LightGBM decision tree
  • SVM random forest
  • logistic regression logistic regression
  • a program for realizing all or part of the functions of the virus mutation predictor 1 in the present invention is recorded on a computer-readable recording medium, and the program recorded on the recording medium is read into the computer system. By executing this, all or some of the treatments performed by the virus mutation prediction device 1 may be performed. Further, for machine learning, various learning methods such as a deep learning method may be used, or processing may be performed using artificial intelligence (AI: Artificial Interigence).
  • AI Artificial Interigence
  • the term "computer system” as used herein includes hardware such as an OS and peripheral devices. Further, the "computer system” shall also include a WWW system provided with a homepage providing environment (or display environment).
  • the "computer-readable recording medium” refers to a portable medium such as a flexible disk, a magneto-optical disk, a ROM, or a CD-ROM, and a storage device such as a hard disk built in a computer system.
  • a "computer-readable recording medium” is a volatile memory (RAM) inside a computer system that serves as a server or client when a program is transmitted via a network such as the Internet or a communication line such as a telephone line. In addition, it shall include those that hold the program for a certain period of time.
  • the above program may be transmitted from a computer system in which this program is stored in a storage device or the like to another computer system via a transmission medium or by a transmission wave in the transmission medium.
  • the "transmission medium” for transmitting a program refers to a medium having a function of transmitting information, such as a network (communication network) such as the Internet or a communication line (communication line) such as a telephone line.
  • the above program may be for realizing a part of the above-mentioned functions.
  • a so-called difference file (difference program) may be used, which can realize the above-mentioned function in combination with a program already recorded in the computer system.
  • Virus mutation prediction device 1 ... Virus mutation prediction device, 2 ... DB, 3 ... Image display device, 11 ... Acquisition unit, 12 ... Storage unit, 13 ... Extraction unit, 14 ... Separation unit, 15 ... Sampling unit, 16 ... Feature amount addition selection unit, 17 ... learning unit, 18 ... prediction unit, 19 ... output unit, 20 ... operation unit, A ... adenine, U ... uracil, G ... guanine, C ... cytosine, T ... thymine

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

ウイルス変異予測装置は、ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得したゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する抽出部と、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、アミノ酸変異がある配列を非同義置換として分離し、アミノ酸変異がない配列を同義置換であるとして分離する分離部と、同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、ウイルスの変異を予測する予測部と、を備える。

Description

ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム
 本発明は、ウイルス変異予測装置、ウイルス変異予測方法、およびプログラムに関する。
 本願は、2020年 7月22日に、日本に出願された特願2020-125563号に基づき優先権を主張し、その内容をここに援用する。
 ウイルスは、自己増殖できないことが特徴であり、他細胞を利用して増殖することができる。すなわち、ウイルスは、宿主のポリメラーゼなどの種々の酵素を利用して増殖に役立てている。ウイルスには、DNAウイルスとRNAウイルスが存在することが知られている。DNAウイルスは、ウイルスゲノムDNAを、宿主のRNAポリメラーゼを利用し、メッセンジャーRNAを合成して、タンパク質を合成してウイルスは増殖する。DNAウイルスには、増殖の過程で生じたDNA複製のミスを修正する機構が備わっているので、RNAウイルスと比較すると遺伝子の変異が少ないことが知られている。
 RNAウイルスは、インフルエンザに代表されるように感染が伝播するにしたがって多くの変異が入りウイルスが変化していくことが知られている。つまり、RNAウイルスは、DNAウイルスに比べ遺伝子変異が多い。例えば、新型コロナウイルス(SARS-CoV-2)やSARS等のコロナウイルスもRNAウイルスであり、変異が観察されている。しかし、コロナウイルスは、RNA校正酵素をウイルスゲノム内に有しているため、大規模な遺伝子の欠失や数塩基にわたる塩基置換、変異は起こりにくい。そのため、コロナウイルスでは、点変異が多いことが知られている。なお、点変異とは、塩基の欠失、置換、挿入による変化である。
 RNAウイルスの点変異には、宿主のRNA編集酵素が関与していることが知られている。新型コロナウイルスの変異においては、RNA編集酵素、ADARsやAPOBECsなどにより点変異が引き起こされていることを示している。RNAウイルスの点変異では、特にADARsの関与を示唆する結果が提示されている。加えて、RNAウイルスの点変異では、RNA編集酵素による変異部分を0としたときの周囲の塩基配列の部分について5’側2塩基を-2と表記、3’側2塩基を+2と表記すると、-2から+2の塩基配列に特徴があることを示している(例えば、非特許文献1参照)。
 現在、ウイルスの変異予測については、インフルエンザウイルスについて予測が始まっており、ヘマグルチニン(HA)の構造を指標に変異予測がなされている。しかし、新型コロナウイルスなどRNA校正酵素をもつウイルスの変異の予測は、まだ行われていない。
Di Giorgio, S.,et al. Evidence for host-dependent RNA editing in the transcriptome of SARS-CoV-2. Science Advances: eabb5813, 2020.
 新型コロナウイルスなどのRNAウイルスは変異を起こす。ウイルス変異が起こった場合は、ウイルス変異前に作成された診断に用いられる抗体検査や抗原検査が無効になる、および治療薬が無効になる。ウイルス変異は、ゲノム上の変異の位置や置換された塩基について、変異が起こってからしかわからないという問題がある。抗体検査や抗原検査キットを作成するためには、変異が起こったのち変異部位を特定してから、新たに抗体検査や抗原検査に利用するタンパク質を作成する必要があった。そのため、新たな変異に対応する診断薬や治療薬をつくるためには、多くの時間を要している。
 本発明は、上記の問題点に鑑みてなされたものであって、ウイルス変異を、変異が起こる前に事前に予測することができるウイルス変異予測装置、ウイルス変異予測方法、およびプログラムを提供することを目的とする。
 本発明は以下の態様を含む。
 [1]ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する抽出部と、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
 [2]ウイルスのゲノムの遺伝子配列データを取得する取得部と、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、前記同義置換の配列データを学習データに用いて学習する学習部と、学習された結果を用いて、前記ウイルスの変異を予測する予測部と、を備えるウイルス変異予測装置。
 [3]前記ウイルス変異予測装置は、前記同義置換から所定数を選ぶサンプリング部、を更に備え、前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる。
 [4]前記ウイルス変異予測装置は、RNA塩基A(アデニン)、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、前記学習部は、前記特徴量も学習データに用いる。
 [5]前記ウイルス変異予測装置において、前記コンテキストの範囲は、-3から+3以上、-10から+10以下である。
 [6]前記ウイルス変異予測装置において、前記ウイルスは、SARS-CoV-2である。
 [7]取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
 [8]取得部が、ウイルスのゲノムの遺伝子配列データを取得し、抽出部が、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出し、分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、学習部が、前記同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、ウイルス変異予測方法。
 [9]コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出させ、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。
 [10]コンピュータに、ウイルスのゲノムの遺伝子配列データを取得させ、
 取得された前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出させ、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、前記同義置換の配列データを学習データに用いて学習させ、学習された結果を用いて、前記ウイルスの変異を予測させる、プログラム。
 本発明によれば、ウイルス変異を、変異が起こる前に事前に予測することができる。
実施形態に係るウイルス変異予測装置の構成の一例を示す図である。 SARS-CoV-2ゲノムにおける点突然変異の分布を示す図である。 遺伝子ごとの点突然変異の数を示す図である。 各遺伝子の100塩基あたりの点突然変異率を示す図である。 変異した核酸塩基を調べた結果を示す図である。 それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。 各遺伝子の変異パターンを示す図である。 各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。 CtoUにおける点変異の両側の塩基配列の特徴を示す図である。 GtoAにおける点変異の両側の塩基配列の特徴を示す図である。 AtoGにおける点変異の両側の塩基配列の特徴を示す図である。 UtoCにおける点変異の両側の塩基配列の特徴を示す図である。 CからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストの特徴を示す図である。 SARS-CoV-2のシークエンスの全てのCのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減[%]を示す図である。 参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。 実施形態に係るウイルス変異予測装置による学習手順のフローチャートである。 マッピングと変異記録のイメージ図である。 同義置換(アミノ酸変異なし)を用いた場合の2つのポジションの組み合わせ例を示す図である。 選択された上位30の特徴量の一例を示す図である。 特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。 特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。 特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。 特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。 実施形態に係る変異予測の処理手順のフローチャートである。 変異予測時に画像表示装置上に表示される情報の一例を示す図である。 ロジスティック回帰計算した結果例を示す図である。 変異記録と変異予測を示す図である。 系統樹を示す図である。 選んだ4つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したRNA配列の位置を示す図である。 ssRNAによるTNF-α産生の誘導を示す図である。 ssRNAによるIL-6産生の誘導を示す図である。 実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。 塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。 塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。 塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。 塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。 塩基配列の範囲-10~+10;回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。 比較した学習モデルの概要と特徴を示す図である。 モデル別AUCスコアの要約統計量を解析した結果例を示す図である。 処理前のAUCスコア例を示す図である。 処理後のAUCスコア例を示す図である。 塩基配列の範囲-2~+2;交差検証回数が1回目の各モデルのROC曲線を示す図である。 塩基配列の範囲-2~+2;交差検証回数が2回目の各モデルのROC曲線を示す図である。 5回の交差検証による学習データの分割方法例を示す図である。 汎化性能を測定する方法を説明するための図である。 GからUへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。 GからA(アデニン)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。 AからGへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。 UからC(T(チミン)からC)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。
 以下、本発明の実施の形態について図面を参照しながら説明する。なお、以下の実施形態では、対象ウイルスがSARS-CoV-2の例を説明する。
 [SARS-CoV-2ウイルスの概略]
 現在、SARS-CoV-2に対するワクチン、診断法、治療法が求められている。ワクチンや抗体検査は、SARS-CoV-2のタンパク質(または遺伝子配列)をもとに作成される。ゲノム分析によれば、SARS-CoV-2には、A、B、Cの3つのタイプに分類されるいくつかのバリアントがある。この結果、ワクチンや抗体検査のためには、SARS-CoV-2の変異型を収集する必要性がある。
 これらのSARS-CoV-2バリアントに、いくつかの遺伝子変異が含まれているが、これらの変異が感染に及ぼす影響は不明である。ウイルスには、突然変異が自己複製時のエラーや細胞由来のRNA編集酵素によって、ウイルスに導入される。RNA編集酵素は、RNAウイルスに変異を引き起こすことが知られている。
 RNAに作用するアデノシンデアミナーゼ(ADAR)などのRNA編集酵素やアポリポ蛋白質BのmRNA編集酵素、触媒ポリペプチド(APOBECs)は、RNAウイルス感染症において研究されてきた。ADARは、アデノシンからアミノ基を抽出してイノシンに変換する酵素であり、主に二本鎖RNAに作用する機能である。シチジンデアミナーゼの一族であるAPOBECsは、シチジンからアミノ基を抽出してウラシルに変換する酵素である。また、APOBECsは、ssDNAを基質として機能することが報告されている。さらに、APOBEC1、APOBEC3A、APOBEC3GもssRNAを基質として認識する。しかし、SARS-CoV-2変異体の変異が、宿主のRNA編集によって誘導されるか否かは、まだ不明である。
 そこで、本実施形態では、RNA編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測する。ウイルス変異を、事前に予測することができれば、新変異に対応する診断薬や治療薬を準備する時間ができ、変異が起こった後すぐに、診断薬や治療薬を適用できる。
 [ウイルスの点変異予測装置の構成例]
 図1は、本実施形態に係るウイルス変異予測装置1の構成の一例を示す図である。図1のように、ウイルス変異予測装置1は、取得部11、記憶部12、抽出部13、分離部14、サンプリング部15、特徴量追加選択部16、学習部17、予測部18、出力部19、および操作部20を備える。
 ウイルス変異予測装置1は、DB(データベース)2からネットワークNWを介してデータを取得する。ウイルス変異予測装置1は、取得したデータから遺伝子変異の特徴を学習させ、変異を予測する。
 取得部11は、例えば無線ネットワーク回路である。取得部11は、DB2(例えばGISAID(鳥インフルエンザ情報共有の国際推進機構;https://www.gisaid.org/))からネットワークNWを介してデータを取得する。データは、例えばSARS-CoV-2の世界のゲノムの遺伝子配列であり、複数である。
 記憶部12は、取得された取得したSARS-CoV-2のゲノムデータを記憶する。記憶部12は、正則化パラメーターCが変異を受けたか否かを示す情報を記憶する。記憶部12は、C(シトシン)またはG(グアニン)からU(ウラシル)に変わった時、アミノ酸変異があるかが確認された確認結果を記憶する。記憶部12は、学習、予測に必要なアルゴリズム、プログラム、閾値等を記憶する。
 抽出部13は、取得したSARS-CoV-2のゲノムから、Cを抽出する。抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGからUへの変異が起こる、または起こったコンテキストも抽出する。なお、コンテキストとは、変異部位の前後数塩基の配列のセットである。
 分離部14は、取得したSARS-CoV-2のゲノムデータのCまたはGからUへの変異部分を抽出し、抽出した変異部分を1ゲノム上にマッピングする。分離部14は、CまたはGが変異を受けたか否かを示す情報を記憶部12に記憶させる。分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部12に記憶させる。分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、アミノ酸変異がある配列を非同義置換として分離し、アミノ酸変異がない配列を同義置換であるとして分離する。
 サンプリング部15は、アミノ酸置換のない(同義置換)のものを第1所定数選ぶ。サンプリング部15は、ノイズを抑えるため、選択した第1所定数のうち、第1所定数より少ない第2所定数を学習データとして選ぶ。なお、サンプリング処理は、必ずしも行わなくてもよい。この場合は、同義置換全てを学習データに用いてもよい。また、サンプリング部15は、アミノ酸置換のない(同義置換)のものを第1所定数選び、これを学習データとしてもよい。
 特徴量追加選択部16は、特徴量(パラメーター)を追加する。なお、特徴量については後述する。例えば、特徴量は、RNA塩基A、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である。
 学習部17は、選ばれた第2所定数を学習データとし、第1所定数の残りをテストデータとする。学習部17は、特徴量と学習データを用いて学習を行う。なお、学習部17は、学習に特徴量を用いなくてもよい。なお、学習部17は、例えば、ニューラルネットワーク、サポートベクターマシン、強化学習、ディープラーニング等のアルゴリズムを用いて学習する。また、人工知能(AI: Artificial Interigence)を用いて学習してもよい。
 予測部18は、学習された結果を用いて、点変異を予測する。
 出力部19は、予測部18が予測した結果を示す情報を、画像表示装置3上に表示させる。なお、画像表示装置3は、例えばタブレット端末等であってもよい。
 操作部20は、例えば、画像表示装置3上に設けられているタッチパネルセンサー、マウス等である。操作部20は、利用者が操作した操作結果を検出する。
 [SARS-CoV-2の解析結果]
 ここで、発明者らが行ったSARS-CoV-2の解析結果を説明する。発明者らは、GISAIDから収集したSARS-CoV-2の世界のゲノム7800遺伝子配列を網羅的に解析した。なお、収集の際、重複している配列、収集日が不明瞭な配列等は除外した。この結果、GISAIDから7804個の配列を取得した。
 まず、取得した配列に対して系統ネットワーク解析を行い系統樹作成した結果、5000回以上の点突然変異の頻度が算出された。
 次に、これらの点突然変異の位置を解析した。図2は、SARS-CoV-2ゲノムにおける点突然変異の分布を示す図である。なお、図2の上の図は、全長ssRNAの各遺伝子の位置を示す図(g1)である。図2の下のヒストグラムg2は、各位置での突然変異の数を示す。ヒストグラムg2において、縦軸は変異数であり、横軸は塩基数(bp)である。図2のように、150ヌクレオチド(ビン)あたりの点突然変異の平均数は約28個であったが、いくつかの場所で点突然変異の頻度が高くなっていることが観察された。
 次に、各遺伝子における点突然変異の偏りをさらに解析するために、遺伝子ごとの点突然変異の数をカウントした。図3は、遺伝子ごとの点突然変異の数を示す図である。図3において、横軸は遺伝子名であり、縦軸は変異数である。図3のように、ORF-1aとORF-1bは、点突然変異が多かった。
 しかし、図2のように、ORF-1aとORF-1bは他の領域に比べて非常に長いため、より多くの突然変異が発生する可能性がある。このため、各遺伝子の100塩基あたりの点突然変異率を推定した。図4は、各遺伝子の100塩基あたりの点突然変異率を示す図である。図4において、横軸は遺伝子名であり、縦軸は100塩基あたりの点突然変異率である。図4のように、遺伝子長で正規化した場合は、5’-非翻訳領域(UTR)と3’-UTRで点突然変異の頻度が最も高かった。
 これらの結果は、点突然変異がSARS-CoV-2変異体に存在することを示している。
 次に、発明者らは、遺伝子変異の可視化することで、遺伝子変異の特徴について解析した。
 図5は、変異した核酸塩基を調べた結果を示す図である。横軸は点突然変異後の置換塩基数であり、縦軸は塩基(A(アデニン)、U、G(グアニン)、C)である。図5のように、Uへの変異が半分以上の割合を占めていることが分かった。
 図6は、それぞれの塩基がどの塩基から変異しているか調べた結果を示す図である。横軸は各点突然変異時の元の塩基と置換塩基数であり、縦軸は塩基から塩基である。この結果、Uへの変異は、C、G(特にC)からの変異が多いことが分かった。また、その他にもGはA、AはG、UはCへの変異が優位であることが分かった。CからUとGからAはAPOBECによって導入され、AからGとUからCはADARによって導入されることが知られている。なお、実施形態では、例えばCからUの変異をCtoUとも書く。
 図7は、各遺伝子の変異パターンを示す図である。図8は、各遺伝子における点突然変異の数を遺伝子長で割った変異数を示す図である。図7と図8において、横軸は遺伝子名である。図7の縦軸は変異数である。図8の縦軸は100ベースごとの変異数である。図7、図8より、遺伝子ごとに多少の違いはありながらも、CtoUの変異が優位であった。
 さらに、図5~図8で観測された変異のうち、CtoUとGtoAはAPOBEC、AtoGとCtoUは、ADARによって導入される変異と一致している。このため、発明者らは、この4つの変異について上流下流1塩基のコンテキストを調べた。
 図9は、CtoUにおける点変異の両側の塩基配列の特徴を示す図である。図10は、GtoAにおける点変異の両側の塩基配列の特徴を示す図である。図11は、AtoGにおける点変異の両側の塩基配列の特徴を示す図である。図12は、UtoCにおける点変異の両側の塩基配列の特徴を示す図である。図9~図12において、横軸は塩基名であり、縦軸はA、U、G、Cそれぞれの割合[%]である。また、図9~図12において、左のグラフは突然変異部位の5’側の塩基(-1)を示し、右のグラフは突然変異部位の3’側の塩基(-1)を示す。
 図9のように、CtoUの変異においては、5’側、3’側では、共にAとUが多く隣接していた。一方、図10のように、GtoAの変異において、5’側にはAとUが多く隣接し、3’側にはGとUが多く隣接していた。なお、これに相補的な配列は、[C/U]C、C[A/U]である。
 図11のように、AtoGの変異においては、5’側ではAとUが多く隣接し、3’側ではUとGが多く隣接していた。また、図12のように、UtoCの変異においては、5’側にUが多く隣接し、3’側にはGとUが多く隣接していた。なお、これに相補的な配列は、CA、[A/C]Cである。
 次に、一番多く観測されたCからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストについて、より詳細に検討した結果を説明する。図13は、CからUへの変異(n=2401)の上流下流3塩基ずつのコンテキストの特徴を示す図である。なお、0は突然変異部位を示し、負の数字と正の数字はそれぞれ上流側と下流側の部位を示す。図13において、横方向はコンテキストの位置である。また、各数値は、各位置における塩基AUGCそれぞれの数である。図13のように、置換されるC前後にはAとUが非常に多くなっていた。この理由は、SARS-CoV-2にAとUが多く含まれているバイアスを受けていると考えられる(Aが30%、Uが32%)。
 図13のような特徴が得られたため、SARS-CoV-2のシークエンスの全てのCのコンテキストについて調べ、期待値とし、それぞれの塩基について、該当する期待値からの増減[%]を調べた。図14は、SARS-CoV-2のシークエンスの全てのCのコンテキストにおいて、それぞれの塩基に該当する期待値からの増減[%]を示す図である。図14において、横方向はコンテキストの位置である。図14のように、位置+2、+1ではUが高く、-1ではGが高くなっていた(p<10^-3, fisher exact test)。一方、位置+1では、Cが少なくなっていた(p<0.01,fisher exact test)。これは、変異を導入するAPOBECの基質特異性を示唆している可能性がある。なお、C-to-U変異におけるシトシン残基の上流側(-3)および下流側(+3)のコンテキストの期待値は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率から算出した(図15)。図15は、参照配列のアンマスク領域の全シトシン残基のコンテキストの比率を示す図である。
 以上のような解析によって、以下の4つの遺伝子変異の特徴を発見した。
I.ウラシル(U)変異が多い
II.シトシン(C)からウラシル(U)への変異が多い
III.遺伝子変異にはRNA編集酵素が関与している
IV.ウラシル変異の前後1塩基から3塩基には特徴的な配列がある
 [学習手順]
 次に、ウイルス変異予測装置1による学習手順例を説明する。なお、実施形態では、SARS-CoV-2のゲノムを教師データとして使用した。図16は、本実施形態に係るウイルス変異予測装置1による学習手順のフローチャートである。
 (ステップS1)取得部11は、DB2(例えばGISAID)からSARS-CoV-2のゲノムデータを取得する。取得部11は、取得したSARS-CoV-2のゲノムデータを記憶部12に記憶させる。
 (ステップS2)抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGを選び出す。抽出部13は、取得したSARS-CoV-2のゲノムから、CまたはGからUへの変異が起こる、または起こったコンテキストg11(図17)も抽出する。図17は、マッピングと変異記録のイメージ図である。なお、コンテキストは、例えば3通り(-2から+2、-3から+3、-10から+10)である。
 (ステップS3)分離部14は、取得したSARS-CoV-2のゲノムデータのCまたはGからUへの変異部分を抽出し、抽出した変異部分を1ゲノム上にマッピングする(図17)。
 (ステップS4)分離部14は、CまたはGが変異を受けたか否かを示す情報を記憶部12に記憶させる(図17)。分離部14は、例えば、CまたはGからUに変異した場合を1と記憶させ、CまたはGのままを0として数値化して記憶させる。
 (ステップS5)分離部14は、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、確認結果を記憶部12に記憶させる。分離部14は、アミノ酸変異があると判別した場合(ステップS5;YES)、ステップS6の処理に進める。分離部14は、アミノ酸変異がないと判別した場合(ステップS5;NO)、ステップS7の処理に進む。
 (ステップS6)分離部14は、非同義置換であると判別し、このデータも学習に使用する。
 (ステップS7)分離部14は、同義置換であると判別し、このデータを学習に使用する。なお、同義置換となる約1800部位のうち675部位で変異を確認した。処理後、分離部14は、ステップS8の処理に進める。
 (ステップS8)サンプリング部15は、アミノ酸置換のない(同義置換)のものを1000個(変異有500、無500)に選ぶ(第1ランダムサンプリング)。なお、サンプリング部15は、このランダムな選択を、5回行ってアミノ酸置換のない(同義置換)のものを1000個選択する。
 (ステップS9)一般的に機械学習の際には、学習データを60から80%とすることが多いため、サンプリング部15は、選択した1000個のうち800個を学習データとして選ぶ(第2ランダムサンプリング)。なお、サンプリング部15は、ランダムな選択を、5回行って800個を選ぶ。なお、サンプリング部15は、この処理は、行わなくてもよい。
 (ステップS10)学習部17は、選んだ800個を学習データとし、残り200個をテストデータとする。なお、学習部17は、変異なしも学習データに使用する。
 (ステップS11)特徴量追加選択部16は、特徴量(パラメーター)を追加する。例えば、-10から+10の塩基配列において、RNA塩基は、A、U、G、Cの4種類あり、20塩基の配列があることから、特徴量は80種類(=4×20)となる。このうち、2塩基を選んで特徴づけるため、80の2乗の6400種類あるが、組み合わせなので、特徴量はその半分の3200通りになる。続けて、特徴量追加選択部16は、3200通りのパラメーターの中で、例えば上位30を選び出す。なお、特徴量の個数は一例であり、これに限らない。特徴量追加選択部16は、基準にx二乗検定を選択し、SelectKBest(chi2、K=30)を用いた。なお、この特徴量は、学習の際、スコア(ここでのスコアは正答率と同義)を向上させるために用いられる。なお、特徴量は、図19のように、コンテキストの中で選ばれた2塩基の組み合わせである。
 (ステップS12)学習部17は、特徴量と学習データを用いて学習を行う。
 (ステップS13)予測部18は、学習された結果を用いて、点変異を予測する。なお、予測については後述する。
 なお、上述した例では、コンテキストが3通り(-2から+2、-3から+3、-10から+10)の例を示したが、これに限らない。コンテキストは、-3から+3以上、-10から+10以下であればよい。なお、-3から+3以上、-10から+10以下とは、-4から+4、・・・、-9から+9を含む。
 図18は、同義置換(アミノ酸変異なし)を用いた場合の2つのポジションの組み合わせ例を示す図である。例えば1行目の「1_G 4_G」は、1_Gが位置+1のGを示し、4_Gが位置+4のGを示す。また、2行目の「-2_T 1_G」は、TNCGのコンテキストを示している。
 図19は、選択された上位30の特徴量の一例を示す図である。なお、ハッチングg21は増加を表し、ハッチングg22は減少を表している。なお、選択される特徴量は、30個に限らない。
 [特徴有無によるスコアの比較]
 ここで、特徴量を追加しなかった場合と追加かした場合の学習結果のスコアの差を説明する。1000部位のランダムサンプリングしたもののうち、800部位を学習データとし、200部位をテストデータとし、交差検証を行った(n=5)。結果を図20と図21に示す。
 図20は、特徴量追加無し・選択無しの場合のコンテキストとスコアの関係例を示す図である。図21は、特徴量追加有り・選択有りの場合のコンテキストとスコアの関係例を示す図である。図20と図21において、横軸はコンテキスト{(-2、+2)、(-3、+3)、(-10、+10)}であり、縦軸はスコアである。また、各コンテキストにおいて点は、ロジスティック回帰における正則化パラメーターC値であり、左から順に0.0001、0.001、0.01、0.1、1.0、10.0、100.0、1000.0である。1つの点は交差検証のスコア(n=5)の平均値である。なお、正則化パラメーターは、値が大きいほど学習しやすいことを示している。また、スコアは正答率を示し、ばらつきはデータの偏りに対する頑健性を示す。
 特徴量追加無し・選択無しの場合は、図20のようにコンテキストの範囲を増やしても学習結果のスコアが向上しなかった。これに対して、特徴量追加有り・選択有りの場合は、図21の矢印g31のように、コンテキストの範囲を増やすと学習結果のスコアが向上した。このように、特徴量の追加、選択は、変異予測に有効であることが分かった。
 実施形態では、上述したように機械学習で変異を予測させるために、特徴量を加え800個を学習させる。その時、予測部18は、特徴量(上位30)を加えたことで上位30の順位に応じて、係数をかけて計算して予測している。特徴量(上位30の中でも)の中でも、真に重要なものとノイズがある。
 C値を学習のしやすさと表現したが、その意味は、特徴量をもとに係数をかけて計算しているものの、その中にもノイズが含まれているので、C値で分類した(C値が小さければノイズなし、大きければノイズを含む)。
 例えば、C=0.0001であれば、ノイズを拾っていない学習のため、学習しきれていず、C=1000であれば、ノイズも拾って学習している、ということである。
 図21では、適正のC値(-3から+3、‐10から+10とも)は、スコアが上がりきった最初の位置(C=0.1か、1.0)が適正値と考えられる(真の特徴量の係数で計算できている可能性が高い)。なお、過学習は、ノイズを拾うので、ノイズをいかに少なくし、真に重要な特徴量を学ばせるかが重要となる。
 図22は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの平均値を示す図である。図23は、特徴量追加有り・選択有りの場合のコンテキストと正則化パラメーター毎のスコアの標準偏差を示す図である。
 図22、図23のようにコンテキスト-2から+2と、3から+3との比較では、-3から+3の方が、スコアが高いこと、かつ、ばらつき(標準偏差)が小さい。スコアが高いと正答率が高く、ばらつきが小さいと得られる結果の妥当性が高いことを示すため、実用的になっていると考えられる。
 さらに、コンテキスト-3から+3よりも-10から+10の方が、よりスコアが高く、ばらつきも小さかった。したがって、コンテキストは、-2から+2よりも-3から+3の方が良く、-3から+3よりも-10から+10が良い。すなわち、-10から+10のコンテキストが一番良かった。
 [変異予測]
 次に、本実施形態における変異予測の例を説明する。図24は、実施形態に係る変異予測の処理手順のフローチャートである。なお、予測に際して、上述した学習が予め行われている。
 (ステップS101)予測部18は、予測した結果のスコアを算出し、算出したスコアを出力部19を介して画像表示装置3に表示させる。この結果、画像表示装置3には、例えば図25のような、コンテキストとスコアの関係のグラフが表示される。図25は、変異予測時に画像表示装置3上に表示される情報の一例を示す図である。
 (ステップS102)利用者は、表示された画像(図25)を見て、例えばコンテキスト-3から+3のC=0.1の領域g41を選択する。操作部20は、利用者によって選択された選択情報を予測部18に出力する。
 (ステップS103)予測部18は、選択されたコンテキストの正則パラメーターに対して、所定のアルゴリズム(例えばロジスティック回帰)で図26のような統計的処理を行う。図26は、ロジスティック回帰計算した結果例を示す図である。図26の縦軸はスコアであり、直線g42は変異有無の閾値である。予測部18は、図26のようなグラフを画像表示装置3上に表示させる。
 (ステップS104)利用者は、表示された画像(図26)を見て、変異有りの点、例えば点g43を選択する。操作部20は、利用者によって選択された選択情報を予測部18に出力する。
 (ステップS105)予測部18は、選択された点を、図27のように1つのSARS-CoV-2ゲノム上の位置g44にマッピングし、マッピングした画像を画像表示装置3上に表示させる。図27は、変異記録と変異予測を示す図である。
 (ステップS106)予測部18は、表示された画像(図27)において抽出部分を操作部20が操作されて選択されたことを検出した際、図26のどこに相当するかを表示する(バックキャスト機能)。なお、予測部18は、1つの画面内に、図25~図27の全てを表示してもよく、すくなくとも1つを表示して切り替えて表示するようにしてもよい。本実施形態では、このように、例えば図26と図27で双方向に選択、マッピングできる。
 なお、図24に示した処理手順は一例であり、これに限らない。
 上述したように、新型コロナウイルスの世界のゲノム7800遺伝子配列を網羅的に解析したところ、ウイルス遺伝子変異には特徴があることが判明した。その特徴は、1)ウラシル(U)変異が多いこと、2)シトシン(C)からウラシル(U)への変異が多いこと、3)遺伝子変異にはRNA編集酵素が関与していること、4)ウラシル変異の前後1塩基から3塩基には特徴的な配列があること、がわかった。また、コロナウイルスはRNA校正酵素をもつため、変異が点変異に限定され、かつRNA編集酵素による変異が顕在化していると考えられた。その結果、本実施形態では、RNA編集酵素に着目して、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索することで、将来変異が入りうる場所、および置き換わる塩基を予測することが可能となった。すなわち、本実施形態によれば、新型コロナウイルスの将来起こりうる変異を予測することができるようになった。
 本実施形態では、ウイルス遺伝子変異の前後数塩基の特徴的配列をもとにウイルスゲノムを検索し、これまでの変異(CまたはGからU)を教師データとして、機械学習させ、変異を予測するようにした。
 この結果、本実施形態では、60から70%の精度正答率でウイルス変異を予測することが可能となった。ただし、この正答率は、RNA編集酵素による変異のみならず突然変異も含んだ正答率であり、突然変異とRNA編集酵素のみの変異を区別することで、RNA編集酵素による変異予測の正答率はより高率になっていることは容易に想像できる。なお、上記においてAUC(Area Under the Curve)スコアを正答率として用いた。AUCスコアの算出等については後述する。
 これにより、本実施形態によれば、ウイルス変異を、変異が起こる前に事前に予測できれば、ウイルス感染診断において、事前に診断キットを準備することができる。本実施形態によれば、超早期診断キットの開発を可能とする発明である。また、本実施形態によれば、診断キットのみならず、ワクチンの効果判定や、ウイルス抗体医薬の効果判定、免疫パスポートの認証や取り消しも可能とする。加えて、本実施形態によれば、治療薬の候補選択も可能となることから、超早期治療を可能とする。
 [検証結果]
 以下、上記の学習、予測について、検証した結果の一例を説明する。
 点変異によりウイルスゲノムのUが増えることが明らかとなった。Uが増加することによる、炎症の増強が考えられるため、炎症性サイトカイン産生が変化するか否かを調べた。細胞刺激アッセイのために、4つの異なる配列、EPI_ISL_419308、EPI_ISL_415644、EPI_ISL_418420、およびEPI_ISL_419846をSARS-CoV-2バリアントから選択した。これらの変異配列は、それぞれ日本、ジョージア州、フランス、オーストラリアで検出されたものである。
 作業者は、4種類の変異体のそれぞれの一本鎖RNA(ssRNA)の全長の中から、Uへの変異が観察された1つの領域を抽出し、合成した。
 これらの異なるバリアントから得られたssRNAの配列は以下の通りであった。variant-1(5’-AUUUAUUGUUCUUUUACCC-3’;at2946-2965 region in EPI_ISL_419308)、variant-2(5’-AUUUAUUGUUCUUUUUCUUUUACCC-3’;EPI_ISL_415644の11041~11060領域)、バリアント-3(5’-UUUCUACAGUGUCCCACUU-3’;EPI_ISL_418420の14392~14411領域)、およびバリアント-4(5’-AAACCUUUGAGAGAGUU-3’;EPI_ISL_419846の22946~22965領域)。
 変異したSARS-CoV-2配列の対照として、参照配列(MN908947)と同じ領域を用いた。それぞれの異なる4種類の変異体に対応する参照配列は以下の通りであった。武漢-1(5’-AUGUAAUGUUCUCCC-3’;at 3023-3042 region)、武漢-2(5’-UCUCUAUGUCUCUCUCCUCCC-3’;at 11066-11085 region)、武漢-3(5’-UCUCUAUCAGUCCCUCCCUCCUCUCU-3’;at 14390-14409 region、11066-11085領域)、武漢-3(5’-UCUCUACCUACGUGUCCCCUCU-3’;14390-14409領域)、および武漢-4(5’-AAACCCUACUUUGUAGAGAGUAUAU-3’;22946-22965領域)。
 TLR7媒介サイトカイン産生の誘導には、Uを含まない配列(5’-GACAGAGAGAGAACAAG-3’)をネガティブコントロールとして用いた。検証には、株式会社日本遺伝子研究所(宮城県仙台市)が合成したssRNAを用いた。
 ヒト単球性白血病細胞株THP-1は、10%FCS、55mM 2-メルカプトエタノール、100mM 非必須アミノ酸(NEAAs)、1mM ピルビン酸および20mM ml-1の各ペニシリンおよびストレプトマイシンを添加したRPMI-1640培地で維持した。
 4×10^5細胞を、96ウェル平底プレートを用いて150μl RPMIで培養した。Yan Liらに準じて疑似感染モデルを行った。
 発明者らは、初期に報告された武漢型(W)をもとに、GISAIDより遺伝子配列を収集して、図28の系統樹を作成した。図28は、系統樹を示す図である。検証では、各RNA配列の全長内でのUへの点突然変異の頻度を調べるために、SARS-CoV-2変異体から以下の4つの異なる配列を選んだ。4つの配列は、第1バリアント(variant-1、日本型)、第2バリアント(variant-2、ジョージア型)、第3バリアント(variant-3、フランス型)、および第4バリアント(variant-4、オーストラリア型)に由来している。また、図28において、Wは、武漢で報告されたオリジナルのSARS-CoV-2配列を示す。
 図29は、選んだ4つの変異型を各種変異型のゲノム上の変異部位と、疑似感染モデルの際に使用したRNA配列の位置を示す図である。図29において、横方向は(bp)であり、下向き三角形はVtoU(VはU以外のすべての塩基)であり、上向き三角形はUtoVであり、四角は細胞刺激に用いたssRNAの配列を示す。図29のように、各SARS-CoV-2変異体の全長ssRNA内のUの数は、元の単離株と比較して有意に増加している。また、図29のように、Uに対する点突然変異の頻度は、A、G、またはCに対するUの頻度よりもはるかに高かった。このように、完全長の変異したssRNAの炎症性サイトカインを誘導する能力は、元の分離株よりもはるかに大きい。これらの結果は、SARS-CoV-2遺伝子変異が炎症性活性化の亢進を引き起こすメカニズムの一つである可能性を示唆している。
 これまでのいくつかの研究では、U-rich ssRNAがTLR7シグナルを介して自然免疫細胞を刺激し、炎症性サイトカインを産生することが示されている。このように、点突然変異に起因する多数のU残基が、ヒトマクロファージによる炎症性サイトカインの誘導を促進しているのではないかという仮説を立てた。
 この仮説を検証するために、SARS-CoV-2変異体のUリッチ領域で刺激されたヒト単球/マクロファージ細胞株THP-1におけるTNF-αおよびIL(インターロイキン)-6の産生を解析した。図30は、ssRNAによるTNF-α産生の誘導を示す図である。ヒトTNF-αの測定のために、細胞をPMA(0.2ng/ml、Sigma Aldrich、St.Louis、MO、USA)の存在下で培養し、DOTAP(10μg、Roche Diagnostics、Mannheim、Germany)を用いて160(pmol)のssRNAで刺激した。サイトカインの検出のため、ヒトTNF-αおよびIL-6は、OptEIAセット(BD Bioscience、San Diego、CA USA)を用いて培養上清中で測定した。TNF-αの産生は、18時間の刺激後に測定した。
 なお、図30と図31において、例えばW-1は初期の武漢型を示し、variant-1は変異型を示す。
 図31は、ssRNAによるIL-6産生の誘導を示す図である。ヒトIL-6の測定のために、細胞をPMA(50ng/ml)の存在下で培養し、DOTAP(15μg)を用いて480(pmol)のssRNAを用いて刺激した。IL-6の産生は、48時間の刺激後に測定した。
 値は平均±SD(n=6)である。データは、類似の結果を有する2つの独立した実験の代表である。
 なお、フィッシャー厳密検定は、Python 3ベースパッケージのscipy 1.4.1を用いて片側検定で行った。また、Mann-Whitney U検定は、Prism 8 ソフトウェア(GraphPad Software、San Diego、CA)を用いて実施した。P<0.05の値は、有意性を示す。
 図30のように、予想通り、U残基を欠いたssRNA配列は、TNF-αの産生をアップレギュレートしなかった。点突然変異によって誘導されたU数の増加は、武漢型の参照ssRNA配列による刺激と比較して、variant-1、3、4のサイトカイン産生を増加させた。
 また、図31のように、TNF-αに比べてIL-6の産生は低かったが、IL-6の産生には同様の傾向が観察された。これらの結果は、SARS-CoV-2ゲノム内のUへの点変異が、TNF-αやIL-6などの炎症性サイトカインの産生増加を刺激する能力をもたらすことを示している。すなわち、U変異の予測は、炎症性サイトカイン産生の増強も予測できるため、患者の炎症の症状、重症化も判別が可能となる。
 そして、本実施形態では、取得部が、ウイルスのゲノムの遺伝子配列データを取得する。抽出部が、取得したゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する。
 本実施形態では、上述したように、抽出したコンテキストの塩基配列がCまたはGからUに変わった場合、アミノ酸変異があるかを確認する。RNA編集酵素による変異は、ゲノムRNAに直接作用して変異を誘導するためにアミノ酸変異の有無にかかわらずおこると考えられる。しかしその一方で、アミノ酸変異がある場合は、変異の要因にかかわらずウイルスの生存にかかわる変異があるため存在しないウイルス、存在しないゲノムデータもあるはずである。そのため、アミノ酸変異を含む変異データ自体が偏ったデータであると考えられる。従って、学習データするのには、アミノ酸変異のないデータを用いるのが妥当である。
 そこで、本実施形態では、分離部が、アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する。そして、学習部が、同義置換の配列データを学習データに用いて学習し、予測部が、学習された結果を用いて、ウイルスの変異を予測する。
 [解析プログラム]
 ここで、上述したウイルス変異予測装置1をソフトウエアプログラムである解析プログラムで実現した例を説明する。図32は、本実施形態に係る解析プログラムの処理内容例と処理手順例を示す図である。図32において、縦方向は主な処理であり、横方向は処理手順である。
 解析プログラムは、前処理(ステップS210)で、解析を行う対象のファイルを読み込み(ステップS211)、説明変数・目的関数の設定を行い(ステップS212)、特徴量作成用の関数を定義し(ステップS213)、塩基配列の範囲およびグリッドサーチ用パラメーターの設定を行う(ステップS214)。
 なお、目的変数とは変異の有無であり、説明変数はダミー化した塩基配列および塩基割合の2つである。特徴量作成用の関数は、例えば塩基配列の範囲(例:-3~+3)を引数として、塩基割合(1レコードに対して「A」「G」「C」「T」がそれぞれ全体の何%含まれているか)を算出する関数である。
 解析プログラムは、学習プロセス(ステップS220)で、特徴量の作成を行い(ステップS221)、グリッドサーチによるパラメーターの最適化を行い(ステップS222)、交差検証・各種モデルの学習を実行し(ステップS223)、各種モデルのAUCスコアを算出する(ステップS224)。
 なお、特徴量の作成では、特徴量作成用の関数を用いて塩基の割合を算出し、引数に指定した変数をダミー化する関数を用いて塩基配列のダミー変数化を行う。また、ACUスコアは、ROC(Receiver Operating Characteristic Curve)曲線を作成した時に、グラフの曲線より下の部分の面積であり、例えば0から1までの値をとり、値が1に近いほど判別能が高いことを示す。
 解析プログラムは、精度評価処理(ステップS230)で、各種モデルのAUCスコアを出力し(ステップS231)、AUCスコアの要約統計量を算出する(ステップS232)。
 解析プログラムは、データ可視化処理(ステップS240)で、回帰式の係数をヒストグラムで表し箱ひげ図でプロットし(ステップS241)、各種モデルのROC曲線をプロットする(ステップS242)。
 [モデルのハイパーパラメータの最適化の解析]
 次に、モデルのハイパーパラメータの最適化について解析した結果例を説明する。解析では、各モデルのハイパーパラメータについて、塩基配列の範囲ごとにグリッドサーチを行い、最適化した数値を算出した。
 図33は、塩基配列の範囲ごとにグリッドサーチを行い、最適化した各モデルのハイパーパラメータの値の例を示す図である。図32の例では、モデルはロジスティック回帰と、決定木と勾配ブースティングを組み合わせた手法であるLightGBMである。図33の解析条件は、交差検証の回数が5回である。塩基配列の範囲は、-2~+2、-3~+3、-5~+5、および-10~+10である。ロジスティック回帰の検証に使用したハイパーパラメータは、C:[0.0001,0.001,0.01,0.1,1,10,100,1000]であり、LightGBMの検証に使用したハイパーパラメータは、num_leaves:[10,31,64]、learning_rate:[0.01,0.1,1]である。
 図33のように、塩基配列の範囲が広がるにつれてロジスティック回帰における正則化の強さが増す傾向にある。また、LightGBMのハイパーパラメータ「learning_rate」は0.01で一定であった。
 [塩基配列の範囲別ロジスティック回帰の相関係数比較]
 次に、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10についてロジスティック回帰の相関係数を比較した結果の一例として塩基配列の範囲-10~+10の結果を、図34~図37に示す。解析では、塩基配列の範囲別に各変数のロジスティック回帰の相関係数をプロットし、グループ間の比較を行った。なお、図34~図36では、A、C,G、T、A_percent、G_percent、C_percent、およびT_percentの解析結果を示している。なお、A_percent、G_percent、C_percent、およびT_percentは、1レコードあたりの塩基の割合である。また、図34~図36において、0~4は交差回数毎の係数であり、例えば0の棒グラフが1回目の交差検証時の係数である。図34~図36において、横軸はパラメーター、縦軸は率である。図37において、縦軸は率である。
 図34~図36は、塩基配列の範囲-10~+10;回帰式の係数をヒストグラムで表した図である。図37は、塩基配列の範囲-10~+10;回帰式の係数のヒストグラムを箱ひげ図でプロットした図である。図34~図36のように、塩基配列の範囲-10~+10では、-6T、-2G、-2T、-1G、-1T、+5A等の値が大きかった。
 また、塩基配列の範囲-2~2では、-2T、+1Gの値が大きかった。塩基配列の範囲-3~3では、-2T、-1G、+1Gの値が大きかった。塩基配列の範囲-5~5では、-2T、-1G、-1T、+1G等の値が大きかった。
 なお、このような相関係数は、後述する塩基ごとの重みを可視化するために使用した。
 [モデル別AUCスコアの要約統計量]
 次に、モデル別AUCスコアの要約統計量を解析した結果例を説明する。解析では、学習アルゴリズムごとにAUCスコアの要約統計量を算出した。
 図38は、比較した学習モデルの概要と特徴を示す図である。図38のように、モデルは、ロジスティック回帰、SVM(Support Vector Machine)、決定木、ランダムフォレスト、XGBoost、およびLight GBMである。
 図39は、モデル別AUCスコアの要約統計量を解析した結果例を示す図である。なお、図39では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~10それぞれのロジスティック回帰の相関係数を用いて、小数点第3位以下を切り捨てて要約統計量を示している。図39の画像g101は、XDBoostのROC(ROC_xgt)、決定木のROC(ROC_tree)、LightGBMのROC(ROC_lgb)を示している。画像g102は、SVMのROC(ROC_svm)、ランダムフォレストのROC(ROC_tf)、ロジスティック回帰のROC(ROC_lr)を示している。図39において、交差検証によってデータを5つに分割しているため、各要約統計量のcountが5になっている。meanはスコア(正答率と同義)であり、stdは標準偏差であり、minは最小値で、maxは最大値である。
 図39のように、スコアは、塩基配列の範囲-10~+10が55.4%、塩基配列の範囲-2~+2が56.0%、塩基配列の範囲-3~+3が56.6%、塩基配列の範囲-5~+5が56.2%であった。このように、全体的にはロジスティック回帰のスコアが高めであった。他のモデルでも、52~57%程度のスコアが得られた。
 次に、モデルとしてロジスティック回帰を用いた場合の処理前と処理後のAUCスコアについて説明する。
 図40は、処理前のAUCスコア例を示す図である。図41は、処理後のAUCスコア例を示す図である。なお、図40、図41では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10それぞれのロジスティック回帰の相関係数を用いて、小数点第3位以下を切り捨てて要約統計量を示している。また、図40、図41では、比較のため、処理前のデータに存在しない以下の変数を削除してから、処理後のAUCスコアを算出した。なお、削除した変数(ハイパーパラメータ)は、A_percent,G_percent,C_percent,T_percentである。
 図40、図41のように、ロジスティック回帰を用いた場合の処理前のAUCスコアは約51~54%程度であるが、処理後のAUCスコアは約56~57%程度と向上している。
 [モデル別ROC曲線]
 次に、モデル別ROC曲線を用いて解析した結果例を説明する。解析では、塩基配列の範囲-2~+2、-3~+3、-5~+5および-10~+10それぞれに対して、学習アルゴリズム毎にROC曲線をプロットし、モデル間の比較を行った。比較結果の一例として、塩基配列の範囲-2~+2の比較結果例を図42~図43に示す。図42は、塩基配列の範囲-2~+2;交差検証回数が1回目の各モデルのROC曲線を示す図である。図43は、塩基配列の範囲-2~+2;交差検証回数が2回目の各モデルのROC曲線を示す図である。図42~図43において、横軸は誤答率(1.0=100%)、縦軸はスコア(1.0=100%)である。なお、用いたアルゴリズムは、図38に示したロジスティック回帰(Logistic Regression)、SVM、決定木(Decision Tree)、ランダムフォレスト(Random Forest)、XGBoost、およびLight GBMである。なお、図42~図43において、線g201はXGBoost、線g202は決定木、線g203はLight GBM、線g205はSVM、線g205はランダムフォレスト、線g206はロジスティック回帰それぞれのROC曲線である。
 図42~図43、および塩基配列の範囲-3~+3、-5~+5および-10~+10それぞれの結果から、いずれのモデルを用いても同等の結果が得られたが、他のモデルと比較するとSVMのROCの面積の差異が塩基配列の範囲によって大きかった。
 [機械学習の実装例]
 上述した解析等を行えるように、ウイルス変異予測装置1の機能を実現したプログラムは、以下のような機能を備える。
 I.解析対象のファイル読み込み、解析で用いない”1”のレコードを削除する第1関数。
 II.塩基割合算出用の第2関数を実行し、Iで読み込んだデータの塩基割合を算出し、新たな変数に格納する。
 III.Iで読み込んだデータのうち、塩基配列の変数(ファイルの例えばC~V列)を、第3関数を用いてダミー変数化する。
 IV.第4関数を用いてグリッドサーチを実行し、各種モデルのパラメーターを最適化する(図33)。
 V.第5関数を用いて5分割交差検証を実行する。
 VI.II、IIIの変数を説明変数、Iで読み込んだデータのうち変異の有無(ファイルの例えばB列)を目的変数として第1メソッドに設定し、各モデルの学習を実行する。なお、第1メソッドは、第一引数に分類対象のテストデータを、第二引数に分類した結果の正しい答えを指定することで、機械学習を行う。
 VII.VIの学習結果をもとに、第6関数を用いて各モデルのAUCスコアを算出する。
 VIII.各モデルのAUCスコアの要約統計量を、統計情報を抽出する第2メソッドで算出する(例えば図38~図43)。
 IX.第3メソッドを用いて、ロジスティック回帰の係数をプロットする(例えば図34~図36)。なお、第3メソッドは、与えられたベクトル(数値で構成される配列)の平均値を高さとして、信頼区間をエラーバーとして出力するメソッドである。
 X. 第3メソッドを用いて、係数を箱ひげ図でプロットする(例えば図37)。
 XI.プロットする第4メソッドを用いて、各モデルのROC曲線をプロットする(例えば図42~図43)。
 なお、上述したI~XIの機能、関数、メソッドは一例であり、これに限らない。
 [学習データの分割方法、汎化性能を測定する方法]
 次に、学習データの分割方法、汎化性能を測定する方法を説明する。
 図44は、5回の交差検証による学習データの分割方法例を示す図である。
 学習データやテストデータをどのように分割するのは非常に重要な問題である。このため、本実施形態では、図44のようにトレーニングデータとテストデータとを分割し、交差毎にトレーニングデータとテストデータとを入れ替えて学習を行うようにした。
 図45は、汎化性能を測定する方法を説明するための図である。
 本実施形態では、汎化性能を計測する方法として図45のようにStratifiedKFoldを行った。この処理では、分布の比率を維持したままデータを訓練用とテスト用に分割する。
 なお、図44、図45に示した例は一例であり、これに限らない。
 [GtoU,GtoA,AtoG,UtoC]
 上述した例では、C(シトシン)またはG(グアニン)からU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する例を説明したが、これに限らない。以下に他の変異例に対する学習結果例を、図46~図49に示す。なお、この場合は、GからU、GからA、AからG、またはUからC(またはT(チミン)からC)への変異が起こるまたは起こったコンテキストを抽出する。なお、学習や推定では、RNA表記されているものについてU(ウラシル)を抽出し、DNA表記されているものについてT(チミン)を抽出する。
 図46は、GからUへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図47は、GからAへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図48は、AからGへ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。図49は、UからC(またはT(チミン)からC)へ変異する場合の各塩基配列の範囲と各学習モデルによる箱ひげ図である。なお、図49では、DNA表記でTtoCと表記しているが、RNA表記ではUからCである。
 なお、以下の説明において、xgbはXGBoost、Treeは決定木、LabはLight GBM、SvmはSVM、rfはランダムフォレスト、Lrはロジスティック回帰を示す。
 GからUへの変異の場合、例えば、塩基配列の範囲-10~+10の正答率の平均値は、XGBoostが56.4%、決定木が53.0%、Light GBMが50.0%、SVMが51.4%、ランダムフォレストが54.0%、ロジスティック回帰が54.0%であった。
 図46のように、GからUへの変異の場合は、塩基配列の範囲-10~+10、モデルXGBoostの組み合わせの結果が最も良かった。
 また、GからAへの変異の場合、例えば、塩基配列の範囲-5~+5の正答率の平均値は、XGBoostが62.2%、決定木が57.0%、Light GBMが62.8%、SVMが52.6%、ランダムフォレストが64.2%、ロジスティック回帰が60.2%であった。また、塩基配列の範囲-10~+10の正答率の平均値は、XGBoostが60.6%、決定木が56.6%、Light GBMが61.6%、SVMが54.4%、ランダムフォレストが64.2%、ロジスティック回帰が59.8%であった。
 図47のように、GからAへの変異の場合は、塩基配列の範囲-10~+10または-5~+5、モデルランダムフォレストの組み合わせの結果が最も良かった。
 AからGへの変異の場合、例えば、塩基配列の範囲-2~+2の正答率の平均値は、XGBoostが58.0%、決定木が56.4%、Light GBMが60.2%、SVMが48.8%、ランダムフォレストが57.2%、ロジスティック回帰が58.2%であった。
 図48のように、AからGへの変異の場合は、塩基配列の範囲-2~+2、モデルLight GBMの組み合わせの結果が最も良かった。
 U(またはT)からCへの変異の場合、例えば、塩基配列の範囲-5~+5の正答率の平均値は、XGBoostが61.0%、決定木が62.4%、Light GBMが64.0%、SVMが55.0%、ランダムフォレストが62.4%、ロジスティック回帰が62.6%であった。
 図49のように、U(またはT)からCへの変異の場合は、塩基配列の範囲-5~+5、Light GBMの組み合わせの結果が最も良かった。
 以上のように、本実施形態の手法を用いる場合は、XGBoost、決定木、Light GBM、SVM、ランダムフォレスト、ロジスティック回帰を学習モデルとして用いることができる。この結果、本実施形態によれば、学習された結果を用いて、点変異を精度良く予測することでできる。
 また、本実施形態によれば、GからUへ変異する場合に加え、GからAに変異する場合、AからGに変異する場合、およびTからCに変異する場合にも、本実施形態の手法を用いて、学習された結果を用いて点変異を予測することができる。
 なお、上述した説明と図におけるコンテキストの表記について説明する。
 本明細書中でコンテキストの表記は、変異部分を0とし、上流側をマイナス(-)、下流側をプラス(+)で表記している。また、図や明細書の中では、プラス表記がある記載と無い記載(例えば“1_G”と“+1_G”)があるが、同じコンテキストを表している。また、図と明細書において、例えば“1_G”と“+1_G”と“1G”と“+1G”のように数字とアルファベットとの間にアンダーバーがある表記と無い表記とが混在しているが、これらは同じコンテキストを表している。
 また、塩基配列の範囲については、例えば-2から+2について、明細書と図で“-2-+2”または“-2~+2”と記載している。
 なお、本発明におけるウイルス変異予測装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによりウイルス変異予測装置1が行う全ての処置または一部の処理を行ってもよい。また、機械学習には、ディープラーニング法など種々の学習法を用いてもよく、人工知能(AI: Artificial Interigence)を用いて処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
 また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
 以上、本発明を実施するための形態について実施形態を用いて説明したが、本発明はこうした実施形態に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形および置換を加えることができる。
 1…ウイルス変異予測装置、2…DB、3…画像表示装置、11…取得部、12…記憶部、13…抽出部、14…分離部、15…サンプリング部、16…特徴量追加選択部、17…学習部、18…予測部、19…出力部、20…操作部、A…アデニン、U…ウラシル、G…グアニン、C…シトシン、T…チミン

Claims (10)

  1.  ウイルスのゲノムの遺伝子配列データを取得する取得部と、
     取得した前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出する抽出部と、
     CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
     前記同義置換の配列データを学習データに用いて学習する学習部と、
     学習された結果を用いて、前記ウイルスの変異を予測する予測部と、
     を備えるウイルス変異予測装置。
  2.  ウイルスのゲノムの遺伝子配列データを取得する取得部と、
     取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出する抽出部と、
     抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離する分離部と、
     前記同義置換の配列データを学習データに用いて学習する学習部と、
     学習された結果を用いて、前記ウイルスの変異を予測する予測部と、
     を備えるウイルス変異予測装置。
  3.  前記同義置換から所定数を選ぶサンプリング部、を更に備え、
     前記学習部は、前記サンプリング部によって選ばれた前記同義置換の配列データを学習データに用いる、
     請求項1または請求項2に記載のウイルス変異予測装置。
  4.  RNA塩基A(アデニン)、U、G、Cの4種類のうち、2塩基が選ばれて特徴づけられた量である特徴量であって、学習の際に用いられる前記特徴量を追加する特徴量追加選択部、を更に備え、
     前記学習部は、前記特徴量も学習データに用いる、
     請求項1から請求項3のうちのいずれか1項に記載のウイルス変異予測装置。
  5.  前記コンテキストの範囲は、-3から+3以上、-10から+10以下である、
     請求項1から請求項4のいずれか1項に記載のウイルス変異予測装置。
  6.  前記ウイルスは、SARS-CoV-2である、
     請求項1から請求項5のいずれか1項に記載のウイルス変異予測装置。
  7.  取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
     抽出部が、取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出し、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、
     分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
     学習部が、前記同義置換の配列データを学習データに用いて学習し、
     予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、
     ウイルス変異予測方法。
  8.  取得部が、ウイルスのゲノムの遺伝子配列データを取得し、
     抽出部が、取得した前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出し、
     分離部が、抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離し、前記アミノ酸変異がない配列を同義置換であるとして分離し、
     学習部が、前記同義置換の配列データを学習データに用いて学習し、
     予測部が、学習された結果を用いて、前記ウイルスの変異を予測する、
     ウイルス変異予測方法。
  9.  コンピュータに、
     ウイルスのゲノムの遺伝子配列データを取得させ、
     取得された前記ゲノムの遺伝子配列データからC(シトシン)またはG(グアニン)を抽出させ、CまたはGからU(ウラシル)への変異が起こるまたは起こったコンテキストを抽出し、
     分離部が、CまたはGからUに変わった時、アミノ酸変異があるかを確認させ、前記アミノ酸変異がある配列を非同義置換として分離させ、アミノ酸変異がない配列を同義置換であるとして分離させ、
     前記同義置換の配列データを学習データに用いて学習させ、
     学習された結果を用いて、前記ウイルスの変異を予測させる、
     プログラム。
  10.  コンピュータに、
     ウイルスのゲノムの遺伝子配列データを取得させ、
     取得された前記ゲノムの遺伝子配列データからC(シトシン)、G(グアニン)、A(アデニン)、U(ウラシル)またはT(チミン)を抽出し、GからA、AからG、UからC、TからCへの変異が起こるまたは起こったコンテキストを抽出させ、
     抽出されたコンテキストの塩基配列が変化した場合、アミノ酸変異があるかを確認し、前記アミノ酸変異がある配列を非同義置換として分離させ、前記アミノ酸変異がない配列を同義置換であるとして分離させ、
     前記同義置換の配列データを学習データに用いて学習させ、
     学習された結果を用いて、前記ウイルスの変異を予測させる、
     プログラム。
PCT/JP2021/027331 2020-07-22 2021-07-21 ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム WO2022019331A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US18/017,039 US20230298700A1 (en) 2020-07-22 2021-07-21 Device for predicting mutation of virus, method for predicting mutation of virus, and program
DE112021003912.1T DE112021003912T5 (de) 2020-07-22 2021-07-21 Vorrichtung zum prognostizieren einer mutation eines virus, verfahren zum prognostizieren einer mutation eines virus, und programm
JP2022538042A JPWO2022019331A1 (ja) 2020-07-22 2021-07-21

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-125563 2020-07-22
JP2020125563 2020-07-22

Publications (1)

Publication Number Publication Date
WO2022019331A1 true WO2022019331A1 (ja) 2022-01-27

Family

ID=79729156

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/027331 WO2022019331A1 (ja) 2020-07-22 2021-07-21 ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム

Country Status (5)

Country Link
US (1) US20230298700A1 (ja)
JP (1) JPWO2022019331A1 (ja)
DE (1) DE112021003912T5 (ja)
TW (1) TW202217830A (ja)
WO (1) WO2022019331A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024171375A1 (ja) * 2023-02-16 2024-08-22 富士通株式会社 情報処理プログラム,情報処理方法および情報処理装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020125563A1 (zh) 2018-12-20 2020-06-25 厦门凯浦瑞运动器材有限公司 一种简易型多功能训练器

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
MATYÁŠEK ROMAN, KOVAŘÍK ALEŠ: "Mutation Patterns of Human SARS-CoV-2 and Bat RaTG13 Coronavirus Genomes Are Strongly Biased Towards C>U Transitions, Indicating Rapid Evolution in Their Hosts", GENES, vol. 11, no. 7, pages 1 - 13, XP055890032, DOI: 10.3390/genes11070761 *
SALAMA MOSTAFA A., HASSANIEN ABOUL ELLA, MOSTAFA AHMAD: "The prediction of virus mutation using neural networks and rough set techniques", EURASIP JOURNAL ON BIOINFORMATICS AND SYSTEMS BIOLOGY, vol. 2016, no. 1, 1 December 2016 (2016-12-01), pages 10, XP055890036, DOI: 10.1186/s13637-016-0042-0 *
WRIGHT ERIK S., LAKDAWALA SEEMA S., COOPER VAUGHN S.: "SARS-CoV-2 genome evolution exposes early human adaptations", BIORXIV, 26 May 2020 (2020-05-26), pages 1 - 17, XP055890025, Retrieved from the Internet <URL:https://www.biorxiv.org/content/10.1101/2020.05.26.117069v1.full.pdf> [retrieved on 20220210], DOI: 10.1101/2020.05.26.117069 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024171375A1 (ja) * 2023-02-16 2024-08-22 富士通株式会社 情報処理プログラム,情報処理方法および情報処理装置

Also Published As

Publication number Publication date
DE112021003912T5 (de) 2023-07-13
TW202217830A (zh) 2022-05-01
JPWO2022019331A1 (ja) 2022-01-27
US20230298700A1 (en) 2023-09-21

Similar Documents

Publication Publication Date Title
CN112133365B (zh) 评估肿瘤微环境的基因集、评分模型及其应用
Gregori et al. Viral quasispecies complexity measures
Gan et al. Omicron Spike protein has a positive electrostatic surface that promotes ACE2 recognition and antibody escape
CN111785328A (zh) 基于门控循环单元神经网络的冠状病毒序列识别方法
Barrie et al. Elevated genetic risk for multiple sclerosis emerged in steppe pastoralist populations
WO2022019331A1 (ja) ウイルス変異予測装置、ウイルス変異予測方法、およびプログラム
CN114686591A (zh) 基于基因表达情况的肺鳞癌免疫治疗疗效预测模型及其构建方法和应用
CN113903395A (zh) 一种改进粒子群优化的bp神经网络拷贝数变异检测方法与系统
CN112037863B (zh) 一种早期nsclc预后预测系统
Kumar et al. Genetic affinities and adaptation of the South-west coast populations of India
Souza et al. Detecting clustered independent rare variant associations using genetic algorithms
CN116486913A (zh) 基于单细胞测序从头预测调控突变的系统、设备和介质
Barrie et al. Elevated genetic risk for multiple sclerosis originated in Steppe Pastoralist populations
CN115458054A (zh) 基于sigma+预测突变致病性分析方法、系统及设备
CN115691666A (zh) 基于sigma预测突变致病性分析方法、系统及设备
WO2018223185A1 (en) Methods of determining the likelihood of hepatitis b virus recrudescence
JP2024501141A (ja) 遺伝子データを分析するためのコンピュータ実施方法および装置
KR20220103819A (ko) 개인의 생물학적 상태를 예측하기 위한 시스템, 방법 및 유전자 시그니처
Morales-Arce et al. Inferring the distribution of fitness effects in patient-sampled and experimental virus populations: two case studies
CN112397200A (zh) 一种非综合征型唇腭裂遗传风险预测模型
Hua et al. Combining protein-protein interactions information with support vector machine to identify chronic obstructive pulmonary disease related genes
NL2030705B1 (en) Method for establishing comparative transcriptomics database of animal models of coronavirus infections
CN117743957B (zh) 一种基于机器学习的Th2A细胞的数据分选方法及相关设备
Ismaeel et al. Enhancement of a Novel Method for Mutational Disease Prediction using Bioinformatics Techniques and Backpropagation Algorithm
Wong et al. Hybrid feature selection to identify important single nucleotide polymorphism for asthma classification

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21846790

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022538042

Country of ref document: JP

Kind code of ref document: A

122 Ep: pct application non-entry in european phase

Ref document number: 21846790

Country of ref document: EP

Kind code of ref document: A1