WO2020008968A1 - 情報処理システム、変異検出システム、記憶媒体および情報処理方法 - Google Patents

情報処理システム、変異検出システム、記憶媒体および情報処理方法 Download PDF

Info

Publication number
WO2020008968A1
WO2020008968A1 PCT/JP2019/025290 JP2019025290W WO2020008968A1 WO 2020008968 A1 WO2020008968 A1 WO 2020008968A1 JP 2019025290 W JP2019025290 W JP 2019025290W WO 2020008968 A1 WO2020008968 A1 WO 2020008968A1
Authority
WO
WIPO (PCT)
Prior art keywords
sequence
genome
mutation
test
information processing
Prior art date
Application number
PCT/JP2019/025290
Other languages
English (en)
French (fr)
Inventor
萩原 久
喜典 三品
英房 山本
侑子 菅
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to US17/257,691 priority Critical patent/US20210158896A1/en
Priority to EP19830867.8A priority patent/EP3819906A4/en
Priority to JP2020528816A priority patent/JP7129015B2/ja
Publication of WO2020008968A1 publication Critical patent/WO2020008968A1/ja

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1089Design, preparation, screening or analysis of libraries using computer algorithms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/50Mutagenesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search

Definitions

  • the present invention relates to an information processing system, a mutation detection system, a storage medium, and an information processing method.
  • Patent Document 1 describes a method for detecting the presence of DNA (DeoxyriboNucleic Acid) corresponding to soybean event MON87705 in a sample.
  • Patent Document 2 discloses a step of introducing at least one selected from the group consisting of a guide RNA (RiboNucleic Acid) 1 targeting an arbitrary site of genomic DNA and an expression cassette thereof into a cell or a non-human organism. Genome editing methods are described.
  • Patent Document 3 describes a method for modifying a targeted site of double-stranded DNA.
  • Patent Document 1 cannot detect an unspecified artificial mutation site.
  • Patent Documents 2 and 3 do not disclose a method for detecting an artificial mutation site.
  • An object of the present invention is to provide an information processing system, a mutation detection system, a storage medium, and an information processing method that enable detection of an unspecified artificial mutation site in a nucleic acid sequence in view of the above-described problems.
  • a functional prediction result obtaining unit that obtains a result of predicting functionality for a test target gene having a sequence different from a reference genome, and a functional prediction result A determination unit that determines the introduction of an artificial mutation based on the result obtained by the obtaining unit.
  • a genome purification unit for extracting and purifying a genome from a cell or a virus, a genome sequence determination unit for determining a sequence of a genome obtained by the genome purification unit, and the information processing system And a mutation detection system provided.
  • a computer obtains a result of predicting the functionality of a sequence of a test target gene having a sequence different from that of a reference genome in a sequence of a test genome, and obtains the functionality.
  • a storage medium storing an information processing program, characterized in that the determination of the introduction of an artificial mutation is performed from the predicted result.
  • an information processing system a mutation detection system, a storage medium, and an information processing method capable of detecting an unspecified artificial mutation site in a nucleic acid sequence.
  • FIG. 2 is a block diagram illustrating a hardware configuration example of the information processing system according to the first embodiment.
  • FIG. 2 is a functional block diagram of the information processing system according to the first embodiment.
  • 3 is a flowchart illustrating an outline of a process performed by the information processing system according to the first embodiment. It is a schematic diagram for explaining comparative analysis.
  • FIG. 3 is a schematic diagram for explaining selection of a unique sequence portion partially or wholly including a region containing a gene to be tested.
  • FIG. 3 is a schematic diagram for explaining an alignment for specifying a mutation-introduced portion.
  • FIG. 3 is a schematic diagram for explaining extraction of a mutation-introduced site having a sequence different from a reference genome and including a PAM sequence and a target sequence from a sequence of a test genome. It is a block diagram showing the example of hardware constitutions of the mutation detection system concerning a 2nd embodiment. It is a functional block diagram of the mutation detection system concerning a 2nd embodiment. It is a functional block diagram of an information processing system concerning a 3rd embodiment.
  • FIG. 1 is a block diagram illustrating a hardware configuration example of an information processing system 10 according to the present embodiment.
  • the information processing system 10 may be, for example, an artificial mutation site detection device. Further, the information processing system 10 may be a comparative information processing system.
  • the information processing system 10 has a computer function.
  • the information processing system 10 may be configured integrally with a desktop PC (Personal Computer), a laptop PC, a tablet PC, a smartphone, or the like.
  • the information processing system 10 has a function of detecting an unspecified artificial mutation site in a nucleic acid sequence.
  • the information processing system 10 can detect an artificial mutation site by determining the introduction of an artificial mutation from the result of predicting the functionality of a test target gene having a sequence different from the reference genome in the sequence of the test genome.
  • the information processing system 10 detects, for example, an artificial mutation site in a plant genome edited for the production of an illegal drug, and detects an artificial mutation site in a genome in which a mutation has been artificially introduced for the purpose of muscle enhancement.
  • the present invention can be applied to detection, detection of an artificial mutation site for the purpose of modifying an individual identification region in a human tissue, detection of an artificial mutation site introduced into a tissue such as the brain for the purpose of producing biological weapons and the like.
  • the information processing system 10 includes a CPU (Central Processing Unit) 101, a RAM (Random Access Memory) 102, a ROM (Read Only Memory) 103, and an HDD (Hard Disk Drive) in order to realize a function as a computer that performs arithmetic and storage. 104 is provided.
  • the information processing system 10 includes a communication I / F (interface) 105, a display device 106, and an input device 107.
  • the CPU 101, the RAM 102, the ROM 103, the HDD 104, the communication I / F 105, the display device 106, and the input device 107 are mutually connected via a bus 110.
  • the display device 106 and the input device 107 may be connected to the bus 110 via a driving device (not shown) for driving these devices.
  • the components of the information processing system 10 are illustrated as an integrated device, but some of these functions may be configured by an external device.
  • the display device 106 and the input device 107 may be external devices that are different from the components of the computer including the CPU 101 and the like.
  • the CPU 101 performs predetermined operations according to programs stored in the ROM 103, the HDD 104, and the like, and also has a function of controlling each unit of the information processing system 10.
  • the RAM 102 is configured by a volatile storage medium, and provides a temporary memory area required for the operation of the CPU 101.
  • the ROM 103 is configured by a nonvolatile storage medium, and stores necessary information such as a program used for the operation of the information processing system 10.
  • the HDD 104 is a storage device that is configured from a nonvolatile storage medium and stores a genome sequence and the like.
  • the communication I / F 105 is a communication interface based on standards such as Wi-Fi (registered trademark) and 4G, and is a module for performing communication with other devices.
  • the display device 106 is a liquid crystal display, an OLED (Organic Light Emitting Diode) display, or the like, and is used for displaying moving images, still images, characters, and the like.
  • the input device 107 is a button, a touch panel, a keyboard, a pointing device, or the like, and is used by a user to operate the information processing system 10.
  • the display device 106 and the input device 107 may be integrally formed as a touch panel.
  • the hardware configuration shown in FIG. 1 is merely an example, and other devices may be added, or some of the devices may not be provided. In addition, some devices may be replaced with another device having a similar function. Furthermore, some of the functions may be provided by another device via a network, and the functions of the present embodiment may be realized by being distributed to a plurality of devices.
  • the HDD 104 may be replaced by an SSD (Solid State Drive) using a semiconductor device such as a flash memory, or may be replaced by a cloud storage.
  • SSD Solid State Drive
  • FIG. 2 is a functional block diagram of the information processing system 10 according to the present embodiment.
  • the information processing system 10 includes a functional prediction result acquisition unit 121, a mutation introduction part specifying unit 122, a mutation introduction site extraction unit 123, a determination unit 124, a display unit 125, and a storage unit 126.
  • the CPU 101 loads the program stored in the ROM 103 or the like into the RAM 102 and executes the program, thereby realizing the functions of the functional prediction result obtaining unit 121, the mutation-introducing portion specifying unit 122, the mutation-introducing site extracting unit 123, and the determining unit 124. I do. The processing performed by these units will be described later.
  • the display unit 125 displays information acquired or extracted by the functional prediction result acquisition unit 121, the mutation introduction part identification unit 122, the mutation introduction site extraction unit 123, and the determination unit 124.
  • the CPU 101 realizes the function of the display unit 125 by controlling the display device 106.
  • the storage unit 126 stores data or the like obtained or extracted by the functional prediction result obtaining unit 121, the mutation-introducing part specifying unit 122, the mutation-introducing site extracting unit 123, and the determining unit 124.
  • the CPU 101 implements the function of the storage unit 126 by controlling the HDD 104.
  • FIG. 3 is a flowchart illustrating an outline of processing performed by the information processing system 10 according to the present embodiment. The outline of the processing performed by the information processing system 10 will be described with reference to the flowchart of FIG. In the following description, when the term sequence is used as a term relating to a genome or a gene, it may refer to the base sequence of the genome or the gene, respectively.
  • the functional prediction result obtaining unit 121 obtains a result of predicting the functionality of a test gene having a sequence different from the reference genome in the sequence of the test genome.
  • the test genome is a genome to be tested for the presence or absence of an artificially introduced mutation, and the reference genome has a sequence homologous to the test genome before the artificially introduced mutation.
  • the test target gene is a gene that contributes to a trait that is assumed to be obtained by introducing an artificial mutation to be detected.
  • the individual having the test genome is not particularly limited as long as it has the genome, and examples thereof include humans, non-human animals, plants, yeasts, molds, eubacteria and viruses.
  • the reference genome is preferably the genome of the parent strain of the individual having the test genome.
  • Examples of the parent strain include an individual one generation before the individual having the test genome or a clone of an individual having the test genome.
  • the genome of the individual of the previous generation or the clone of the individual having the test genome has the same sequence as the test genome. That is, since the sequence other than the artificial mutation site is originally the same, the load of detecting the artificial mutation site can be reduced, and the possibility of erroneous detection can be reduced.
  • the genomic sequence of a tissue different from the tissue having the test genome of the same individual originally has the same sequence. Therefore, for the same reason as described above, it is preferable that the reference genome is a tissue of an individual having the test genome and a genome of a tissue different from the tissue having the test genome.
  • the test genome before receiving this editing is The reference genome can be obtained from the same tissue as the owning tissue.
  • the test genome and the reference genome originally have the same sequence because they are derived from the same tissue of the same individual. Therefore, for the same reason as described above, the reference genome is preferably a genome obtained from the same tissue as the tissue having the test genome, and is preferably a genome obtained before the test genome. .
  • test gene having a sequence different from the reference genome in the sequence of the test genome can be determined, for example, as follows.
  • the functional prediction result acquisition unit 121 first specifies a portion having a sequence different from the reference genome in the sequence of the test genome by comparing and analyzing the sequence of the test genome and the sequence of the reference genome.
  • the identification of the portion having a sequence different from the reference genome in the sequence of the test genome by the comparative analysis may be performed by an information processing system different from the information processing system 10.
  • the sequence of the test genome and the sequence of the reference genome to be subjected to the comparative analysis may be the sequence of the entire genome, or if the site where the mutation may be introduced is limited to a specific region, the sequence of the specific region may be used. It may be a genome sequence. Since it is possible to detect all the introduced mutations without giving them, it is preferable to obtain the sequence of the entire genome and subject the sequence of the entire genome to comparative analysis. However, when it is highly certain that the mutation introduction site is limited to a specific region, the genome sequence may be obtained only for the specific region. For example, when it is clear that genes involved in obtaining a specific trait are limited to specific candidates, only the genomic sequence of the region corresponding to the candidate gene may be obtained.
  • the sequence of the test genome and the sequence of the reference genome can be determined by extracting the genome from the virus itself when the cell or individual is a virus, and analyzing the base sequence of the extracted genome.
  • the cell for example, if the individual is yeast, mold, or the like, the individual can be used as it is as a cell to be subjected to genome extraction.
  • a part of the tissue can be collected and used as a cell to be subjected to genome extraction.
  • intraoral cells and saliva that can be collected painlessly can be used as tissues to be subjected to genome extraction.
  • the extraction of the genome from the cells or the virus body can be performed by performing an appropriate treatment according to the individual having the genome. Alternatively, it may be performed using a commercially available kit or the like suitable for an individual having a genome. For example, when extracting from human oral cells, NucleoSpin (registered trademark) DNA Forensic (manufactured by Takara Bio Inc.) or the like can be used.
  • NucleoSpin registered trademark
  • DNA Forensic manufactured by Takara Bio Inc.
  • the base sequence of the genome obtained by the extraction is, for example, commercially available DNA such as NextSeq series, HiSeq X series (manufactured by Illumina) or PacBio (registered trademark) RS II / Sequel (registered trademark) system (manufactured by PackBio). It can be determined by using a sequencer.
  • Reference genome sequences are published by public institutions such as NHGRI (National Human Genome Research Institute), NCBI (National Center for Biotechnology Information), DDBJ (DNA Data Bank of Japan), and Tohoku Medical Megabank Organization. Sequences in a database may be used. When acquiring a sequence from a database, a sequence having high homology to the sequence of the reference genome is selected and used. Examples of the sequence having a high homology with the sequence of the reference genome include a genomic sequence of an individual belonging to the same species.
  • Comparative analysis can be performed by a comparative analysis program such as BLASTZ.
  • FIG. 4 is a schematic diagram for explaining the comparative analysis.
  • the sequence 401 of the test genome is compared with the sequence 402 of the reference genome, and the test genome having a sequence corresponding to the partial sequence 403 in the reference genome and having a different sequence from the partial sequence 403 in the reference genome.
  • the mutation site 404 inside is specified.
  • the mutation site 404 specified by the comparative analysis is, specifically, a portion in which one or more bases have been deleted, inserted, or substituted when compared with the reference genome.
  • Mutation sites include artificial mutation sites, spontaneous mutation (mutation) sites, and sites resulting from species diversity.
  • mutation sites include artificial mutation sites, spontaneous mutation (mutation) sites, and sites resulting from species diversity.
  • by setting the reference genome to the genome of the parent strain or the genome of the tissue of the same individual it is possible to prevent the unique sequence portion from containing a site caused by species diversity. Therefore, the load of detecting an artificial mutation site is reduced, and the possibility of erroneous detection can be reduced.
  • the functional prediction result acquisition unit 121 sets the sequence including the mutation site and a part of the same sequence as the reference genome adjacent to the mutation site as the unique sequence portion, and sets the test target gene among the unique sequence portions.
  • a unique sequence portion that partially or entirely includes the region containing the sequence is selected.
  • the selection of the unique sequence portion partially or wholly including the region containing the gene to be tested may be performed by an information processing system different from the information processing system 10.
  • the length of the same sequence as the reference genome, which is included in the unique sequence portion can be arbitrarily determined.
  • the sequence portion corresponding to the test target gene in the selected unique sequence portion is the test target gene having a sequence different from the reference genome in the sequence of the test genome.
  • FIG. 5 is a schematic diagram for explaining selection of a unique sequence portion partially or wholly including a region containing a gene to be tested.
  • the functional prediction result acquisition unit 121 performs a homology search of the first test control sequence 503 and the second test control sequence 504 using the sequences of all the unique sequence portions 501 as a population 502.
  • the first test control sequence 503 is a sequence containing a partial sequence or the entire sequence of the test target gene.
  • the sequence of the gene to be tested can be obtained, for example, from databases published by public institutions such as NHGRI, NCBI, DDBJ Center and Tohoku Medical Megabank Organization.
  • the first test control sequence 503 is preferably as long as possible, and most preferably contains the entire sequence of the gene to be tested.
  • the second test control sequence 504 is a sequence adjacent to the sequence of the test target gene.
  • the sequence adjacent to the test gene sequence used as the second test control sequence 504 may be an upstream sequence or a downstream sequence of the test gene sequence.
  • a plurality of second test control sequences 504 may be prepared. For example, as shown in FIG. 5, a second test control sequence 504 adjacent to the sequence of the test gene and a second test control sequence 504 adjacent to the sequence of the test gene downstream.
  • the control sequence 504 may be prepared and used.
  • the length of the second test control sequence can be determined arbitrarily, but is preferably shorter than the length of the sequence included in the unique sequence portion 501 and identical to the reference genome. By making the length of the second test control sequence shorter than the length of the same sequence as the reference genome included in the unique sequence portion 501, it is possible to suppress search omissions due to homology search.
  • the functional prediction result acquisition unit 121 determines the homology between the sequence of the unique sequence portion 501 searched by the homology search and the first test control sequence 503, and / or the second test control sequence.
  • a unique sequence portion 501 having a homology with 504 higher than a specified value is selected.
  • the selected unique sequence portion 501 is a portion that includes a part or all of the target gene region.
  • the prescribed value of homology serving as a criterion can be arbitrarily determined according to the gene to be examined and the like.
  • the unique sequence portion containing the test gene into which the mutation has been introduced is , Having high homology with the first test control sequence.
  • the unique sequence portion containing the gene to be tested into which the mutation has been introduced has a low homology with the first test control sequence.
  • the unique sequence portion includes a part of the same sequence as the reference genome adjacent to a sequence different from the reference genome. That is, the unique sequence portion includes a sequence in which no mutation has been introduced, adjacent to the gene to be tested in which a mutation has been introduced, and this sequence is a portion corresponding to the second test control sequence. Therefore, when the introduced mutation significantly changes the sequence of the test target gene, for example, even if the mutation deletes all of the test target gene, high homology with the second test control sequence is obtained. It can be selected as a unique sequence part having.
  • the functional prediction result acquisition unit 121 may determine that the mutation site in the unique sequence portion is not included in the portion corresponding to the first test control sequence, but is included in the portion corresponding to the second test control sequence. Does not select its unique sequence portion. This is because such a unique sequence portion is not considered to be an artificial mutation to be detected.
  • the mutation into which the gene to be tested is introduced, it is determined whether or not the mutation is a mutation that loses the function originally possessed by the gene to be tested. Criteria are predetermined.
  • Insertion or deletion of a base number that is not a multiple of 3 especially in the upstream side (5 'end side) of the gene to be tested causes a frame shift in the translation process of gene expression, so that the mutation that loses the function originally possessed by the gene to be tested Is likely to be
  • a mutation in which a termination codon is introduced by a base substitution or insertion, particularly at the upstream side (5 'end side) of the gene to be tested may cause immature messenger RNA during the transcription process of gene expression. It is highly likely that the mutation is a mutation that loses the function inherent in the gene to be tested.
  • a mutation that deletes most or all of the gene to be tested can also be a mutation that loses the function inherent in the gene to be tested.
  • a function different from the function originally possessed by the test gene is acquired.
  • a criterion for judging whether or not to perform is determined in advance.
  • an article search engine such as PubMed may be used to obtain and refer to academic articles based on keywords related to the target trait.
  • the structure of a peptide (protein) to be translated is predicted based on the amino acid sequence read from the nucleotide sequence of the gene to be tested, and the data is stored in a database such as PDB (Protein Data Bank).
  • PDB Protein Data Bank
  • step S101 the functionality prediction result acquisition unit 121 acquires a result of predicting functionality according to a certain standard as described above.
  • step S102 the mutation-introducing portion specifying unit 122 acquires a result of specifying a mutation-introducing portion containing a PAM sequence and a target sequence, which can be used for editing using the CRISPR-Cas9 system, for the sequence containing the gene to be tested. .
  • the sequence containing the gene to be tested corresponds to the selected unique sequence portion described above.
  • the PAM sequence and the target sequence are a protospacer flanking motif (Protospacer @ Adjacent @ Motif) used for editing using the CRISPR-Cas9 system and a target sequence flanking the PAM sequence, respectively.
  • FIG. 6 is a schematic diagram for explaining an alignment for specifying a mutation-introduced portion.
  • the mutation-introducing portion specifying section 122 can specify a mutation-introducing portion as follows. First, the PAM sequence 601 is aligned with the selected unique sequence portion 501. Subsequently, the position of the PAM sequence 601 is specified, and a sequence having a specific number of bases adjacent to the upstream of the PAM sequence 601 is specified as the target sequence 602. Alignment can be performed by pairwise alignment or the like. The identification of the mutation-introduced portion may be performed by an information processing system different from the information processing system 10.
  • Examples of a combination of a strain derived from Cas9 nuclease used for editing using the CRISPR-Cas9 system and a PAM sequence recognized by each subtype of the Cas9 nuclease include, for example, 5′-NGG (Streptococcus pyogenes, II 5'-CCN (Sulfolobus @ solfataricus, IA type), 5'-TCN (Sulfolobus @ solfataricus, IA2 type), 5'-TTC (Haloquadratum @ walsbyi, IB type), 5'-AWG (type) Escherichia coli, IE type), 5′-CC (Escherichia coli, IF type), 5′-CC (Pseudomonas ⁇ aeruginosa, IF type), 5′-NNAGAA (Streptococcus thermotherus, II-A) And 5′-NGG (Streptococcus agalactia
  • the number of bases of the sequence specified as the target sequence is determined according to each subtype of Cas9 nuclease corresponding to the PAM sequence whose position is specified. For example, when the Cas9 nuclease used for editing using the CRISPR-Cas9 system is derived from Streptococcus pyogenes, type II, it has 19 or 20 bases.
  • a mutation is introduced into a portion corresponding to the target sequence adjacent to the PAM sequence. Therefore, when a base that differs between the sequence of the test genome and the sequence of the reference genome in the unique sequence portion is present in the target sequence, it is a mutation artificially introduced using the CRISPR-Cas9 system. Can be considered.
  • step S103 the mutation-introduced site extraction unit 123, when a sequence different from the reference genome in the sequence of the test genome is present in the target sequence in the result obtained by the mutation-introduced part identification unit 122, differs from the reference genome.
  • a mutation introduction site having a sequence and including a PAM sequence and a target sequence is extracted from the sequence of the test genome.
  • the mutagenesis site extraction unit 123 has a sequence different from the reference genome, and extracts the mutagenesis site including the PAM sequence and the target sequence from the sequence of the test genome, for example, a unique sequence selected as follows. This can be done by acquiring the information of the part.
  • FIG. 7 is a schematic diagram for explaining extraction of a mutation-introduced site having a sequence different from that of the reference genome and including the PAM sequence and the target sequence from the sequence of the test genome.
  • the mutation introduction site extraction unit 123 uses the sequences of all the unique sequence portions 501 as a population 502 and a PAM sequence 601 that is identified as having a sequence different from the reference genome in the sequence of the test genome and the target A homology search is performed for the combination of the sequences 602. Subsequently, the mutation introduction site extraction unit 123 selects a unique sequence whose homology is higher than a predetermined value.
  • the specified value can be set arbitrarily. Note that an information processing system different from the information processing system 10 may perform homology search and selection of a unique sequence having a homology higher than a specified value for a combination of the PAM sequence 601 and the target sequence 602.
  • the functional prediction result acquisition unit 121 specifies the site as a unique sequence portion by the comparative analysis described above.
  • the site into which a non-specific mutation has been introduced has high homology by performing a homology search as described above. It is identified as a unique sequence portion and can be selected. That is, when the result extracted by the mutation-introduced site extraction unit 123 includes a unique sequence portion having a homology higher than a certain value defined by the specified value, editing using the CRISPR-Cas9 system is performed. Can be considered.
  • the determination unit 124 determines the introduction of an artificial mutation.
  • the determination unit 124 can detect an artificial mutation site by determining that an artificial mutation has been introduced.
  • the determination unit 124 determines that the artificial mutation has been introduced by including, for example, that the result extracted by the mutation-introduced site extraction unit 123 includes one or more unique sequence portions having homology higher than a certain value defined by a specified value. Can be determined.
  • the information processing system 10 includes the functional prediction result acquiring unit 121, the mutation-inducing part specifying unit 122, and the mutation-inducing site extracting unit 123 in the present embodiment, the present invention is not limited to this.
  • the information processing system 10 may not include the mutation introduction site extraction unit 123, and may include only the functional prediction result acquisition unit 121 and the mutation introduction part identification unit 122.
  • the determining unit 124 determines that the artificial mutation has been introduced, for example, when the result obtained by the mutation-introducing part specifying unit 122 includes that the mutation is specified to be present in the target sequence. Can be.
  • the information processing system 10 may not include the mutation introduction part specifying unit 122 and the mutation introduction site extraction unit 123, and may include only the functional prediction result acquisition unit 121.
  • the determination unit 124 It can be determined that it has been introduced.
  • the method used to introduce the artificial mutation to be detected is not limited to editing using the CRISPR-Cas9 system.
  • the information processing system 10 preferably has the mutation-introducing part specifying unit 122, and more preferably has the mutation-introducing site extracting unit 123.
  • the information processing system 10 described above can constitute a mutation detection system together with the genome purification unit and the genome sequence determination unit.
  • FIG. 8 is a block diagram illustrating a hardware configuration example of the mutation detection system according to the second embodiment.
  • the mutation detection system 80 includes a genome purification device 801, a DNA sequencer 802, and the information processing system 10.
  • the configuration of the information processing system 10 is the same as described above.
  • the hardware configuration shown in FIG. 8 is an example, and other devices may be added, or some devices may not be provided. In addition, some devices may be replaced with another device having a similar function. Furthermore, some of the functions may be provided by another device via a network, and the functions of the present embodiment may be realized by being distributed to a plurality of devices.
  • FIG. 9 is a functional block diagram of the mutation detection system 80 according to the second embodiment.
  • the genome purification device 801 implements the function of the genome purification unit 891, and the DNA sequencer 802 implements the function of the genome sequence determination unit 892.
  • the genome purification unit 891 purifies the genome from cells or individuals having the test genome. Furthermore, the genome may be purified from cells or individuals of the parent strain of the individual having the test genome, or from cells of the tissue of the individual having the test genome. Extraction of a genome from a cell or a virus body can be performed by performing an appropriate treatment suitable for an individual having a genome.
  • the genome sequence determination unit 892 determines the base sequence of the genome purified by the genome purification unit 891.
  • the base sequence to be determined may be the whole base sequence of the genome or the base sequence of a specific region of the genome, but it is preferable to determine the whole base sequence of the genome.
  • the nucleotide sequence of the genome can be determined, for example, by next-generation sequencing.
  • the information processing system 10 detects an artificial mutation site using the base sequence of the genome determined by the genome sequence determination unit 892. The details of the detection of the artificial mutation site in the information processing system 10 are the same as described above.
  • FIG. 10 is a functional block diagram of an information processing system 30 according to the third embodiment.
  • the information processing system 30 includes a functionality prediction result acquisition unit 321 and a determination unit 324.
  • the functional prediction result acquisition unit 321 acquires a result of predicting the functionality of the test target gene having a sequence different from the reference genome in the sequence of the test genome.
  • the determination unit 324 determines the introduction of the artificial mutation.
  • an information processing system capable of detecting an unspecified artificial mutation site in a nucleic acid sequence can be provided.
  • a functional prediction result obtaining unit for obtaining a result of predicting the functionality of the test target gene having a sequence different from the reference genome
  • a determination unit that determines the introduction of an artificial mutation from the result obtained by the functional prediction result acquisition unit
  • Supplementary note 1 further comprising a mutation-introducing portion specifying section for obtaining a result of specifying a mutation-introducing portion containing a PAM sequence and a target sequence, which can be used for editing using the CRISPR-Cas9 system for the sequence containing the test target gene.
  • (Appendix 5) 4. The information processing system according to claim 1, wherein the reference genome is a tissue of an individual having the test genome, and is a genome of a tissue different from the tissue having the test genome. .
  • a genome purification unit that extracts and purifies the genome from cells or viruses;
  • a genome sequencing unit for determining the sequence of the genome obtained in the genome purification unit, 7.
  • the information processing system according to any one of supplementary notes 1 to 6,
  • a mutation detection system comprising:
  • An information processing method comprising:
  • Supplementary note 11 further comprising a mutation-introducing portion specifying step of obtaining a result of specifying a mutation-introducing portion containing a PAM sequence and a target sequence, which can be used for editing using the CRISPR-Cas9 system, for the sequence containing the test target gene.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Organic Chemistry (AREA)
  • Biotechnology (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Abstract

被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、該機能性予測結果取得部で取得した結果から人工変異の導入を判定する判定部と、を備える、ことを特徴とする情報処理システムが提供される。

Description

情報処理システム、変異検出システム、記憶媒体および情報処理方法
 本発明は、情報処理システム、変異検出システム、記憶媒体および情報処理方法に関する。
 特許文献1には、試料中の大豆事象MON87705に対応するDNA(DeoxyriboNucleic Acid)の存在を検出する方法が記載されている。また、特許文献2には、ゲノムDNAの任意部位を標的とするガイドRNA(RiboNucleic Acid)1およびその発現カセットからなる群より選択される少なくとも1種等を細胞または非ヒト生物に導入するステップを含むゲノム編集方法が記載されている。さらに、特許文献3には、二本鎖DNAの標的化された部位を改変する方法が記載されている。
特表2012-503989号公報 特開2018-011525号公報 特許第6206893号公報
 特許文献1に記載の方法では、不特定の人工変異部位を検出することができない。また特許文献2および3には、人工変異部位を検出する方法について記載されていない。
 本発明の目的は、上述した課題を鑑み、核酸配列における不特定の人工変異部位の検出を可能にする情報処理システム、変異検出システム、記憶媒体および情報処理方法を提供することにある。
 本発明の一観点によれば、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、該機能性予測結果取得部で取得した結果から人工変異の導入を判定する判定部と、を備える、ことを特徴とする情報処理システムが提供される。
 本発明の他の観点によれば、細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、上記情報処理システムと、を備えることを特徴とする、変異検出システムが提供される。
 本発明のさらに他の観点によれば、コンピュータに、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、該機能性を予測した結果から人工変異の導入を判定する、ことを実行させる、ことを特徴とする情報処理プログラムを記憶した記憶媒体が提供される。
 本発明のまたさらに他の観点によれば、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、を有する、ことを特徴とする情報処理方法が提供される。
 本発明によれば、核酸配列における不特定の人工変異部位の検出を可能にする情報処理システム、変異検出システム、記憶媒体および情報処理方法を提供することができる。
第1実施形態に係る情報処理システムのハードウェア構成例を示すブロック図である。 第1実施形態に係る情報処理システムの機能ブロック図である。 第1実施形態に係る情報処理システムにより行われる処理の概略を示すフローチャートである。 比較解析を説明するための模式図である。 検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜を説明するための模式図である。 変異導入部分を特定するためのアラインメントを説明するための模式図である。 参照ゲノムと異なる配列を有し、PAM配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を説明するための模式図である。 第2実施形態に係る変異検出システムのハードウェア構成例を示すブロック図である。 第2実施形態に係る変異検出システムの機能ブロック図である。 第3実施形態に係る情報処理システムの機能ブロック図である。
 以下、図面を参照して、本発明の例示的な実施形態を説明する。図面において同様の要素または対応する要素には同一の符号を付し、その説明を省略または簡略化することがある。
 [第1実施形態]
 図1は、本実施形態に係る情報処理システム10のハードウェア構成例を示すブロック図である。情報処理システム10は、例えば、人工変異部位検出装置であり得る。また、情報処理システム10は、比較情報処理システムとしてもよい。情報処理システム10は、コンピュータの機能を有する。例えば、情報処理システム10は、デスクトップPC(Personal Computer)、ラップトップPC、タブレットPC、スマートフォン等と一体に構成されていてもよい。情報処理システム10は核酸配列における不特定の人工変異部位を検出する機能を備える。情報処理システム10は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果から人工変異の導入を判定することで、人工変異部位を検出できる。
 情報処理システム10は、例えば、違法薬物の生産のために編集された植物のゲノムにおける人工変異部位の検出、筋肉増強を目的として人為的に変異が導入された組織中のゲノムにおける人工変異部位の検出、ヒトの組織における個体識別領域の改変を目的とした人工変異部位の検出、生物兵器等の製造を目的として脳などの組織に導入された人工変異部位の検出等に適用され得る。
 情報処理システム10は、演算および記憶を行うコンピュータとしての機能を実現するため、CPU(Central Processing Unit)101、RAM(Random Access Memory)102、ROM(Read Only Memory)103およびHDD(Hard Disk Drive)104を備える。また、情報処理システム10は、通信I/F(インターフェース)105、表示装置106および入力装置107を備える。CPU101、RAM102、ROM103、HDD104、通信I/F105、表示装置106および入力装置107は、バス110を介して相互に接続される。なお、表示装置106および入力装置107は、これらの装置を駆動するための不図示の駆動装置を介してバス110に接続されてもよい。
 図1では、情報処理システム10を構成する各部が一体の装置として図示されているが、これらの機能の一部は外付け装置により構成されていてもよい。例えば、表示装置106および入力装置107は、CPU101等を含むコンピュータの機能を構成する部分とは別の外付け装置であってもよい。
 CPU101は、ROM103、HDD104等に記憶されたプログラムに従って所定の動作を行うとともに、情報処理システム10の各部を制御する機能をも有する。RAM102は、揮発性記憶媒体から構成され、CPU101の動作に必要な一時的なメモリ領域を提供する。ROM103は、不揮発性記憶媒体から構成され、情報処理システム10の動作に用いられるプログラム等の必要な情報を記憶する。HDD104は、不揮発性記憶媒体から構成され、ゲノム配列等の記憶を行う記憶装置である。
 通信I/F105は、Wi-Fi(登録商標)、4G等の規格に基づく通信インターフェースであり、他の装置との通信を行うためのモジュールである。表示装置106は、液晶ディスプレイ、OLED(Organic Light Emitting Diode)ディスプレイ等であって、動画、静止画、文字等の表示に用いられる。入力装置107は、ボタン、タッチパネル、キーボード、ポインティングデバイス等であって、利用者が情報処理システム10を操作するために用いられる。表示装置106および入力装置107は、タッチパネルとして一体に形成されていてもよい。
 なお、図1に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。さらに、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。例えば、HDD104は、フラッシュメモリ等の半導体素子を用いたSSD(Solid State Drive)に置換されていてもよく、クラウドストレージに置換されていてもよい。
 図2は、本実施形態に係る情報処理システム10の機能ブロック図である。情報処理システム10は、機能性予測結果取得部121、変異導入部分特定部122、変異導入部位抽出部123、判定部124、表示部125および記憶部126を有する。
 CPU101は、ROM103等に記憶されたプログラムをRAM102にロードして実行することにより、機能性予測結果取得部121、変異導入部分特定部122、変異導入部位抽出部123および判定部124の機能を実現する。これらの各部で行われる処理については後述する。表示部125は、機能性予測結果取得部121、変異導入部分特定部122、変異導入部位抽出部123および判定部124で取得あるいは抽出された情報を表示する。CPU101は、表示装置106を制御することにより表示部125の機能を実現する。記憶部126は、機能性予測結果取得部121、変異導入部分特定部122、変異導入部位抽出部123および判定部124で取得あるいは抽出されたデータ等を記憶する。CPU101は、HDD104を制御することにより記憶部126の機能を実現する。
 図3は、本実施形態に係る情報処理システム10により行われる処理の概略を示すフローチャートである。図3のフローチャートに沿って情報処理システム10により行われる処理の概略を説明する。なお、以下の説明において、配列という語がゲノムあるいは遺伝子に係る語として用いられるときは、それぞれゲノムあるいは遺伝子の塩基配列を指す場合がある。
 図3のステップS101において、機能性予測結果取得部121は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する。被検ゲノムは、人為的に変異が導入されたことの有無を検査する対象となるゲノムであり、参照ゲノムは、人為的に変異が導入される前の被検ゲノムと相同的な配列を有するゲノムである。また、検査対象遺伝子は、検出対象とする人工変異の導入により獲得されることが想定される形質に寄与する遺伝子である。
 被検ゲノムを有する個体としては、ゲノムを有する個体であれば特に制限がなく、例えば、ヒト、ヒト以外の動物、植物、酵母、カビ、真性細菌およびウイルス等が挙げられる。
 参照ゲノムは、被検ゲノムを有する個体の親株のゲノムであることが好ましい。親株としては、被検ゲノムを有する個体の一世代前の個体もしくは被検ゲノムを有する個体のクローンが挙げられる。これら一世代前の個体のゲノムもしくは被検ゲノムを有する個体のクローンのゲノムは、被検ゲノムと同一の配列を有する。つまり、人工変異部位以外の配列が本来同じであるため、人工変異部位の検出の負荷が小さくて済み、また誤検出の可能性も低くすることができる。
 被検ゲノムを有する個体が複数の組織を有する高等な生物である場合は、同一個体の、被検ゲノムを有する組織とは異なる組織のゲノム配列も本来同一の配列を有する。そのため、先に述べたのと同じ理由で、参照ゲノムは、被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムであることが好ましい。
 また、例えば、被検ゲノムを有する組織と同じ組織の一部が、ゲノム編集を受けるよりも前に採取され、保管されていたと推定される場合は、この編集を受ける前の、被検ゲノムを有する組織と同じ組織から参照ゲノムを得ることもできる。この場合、被検ゲノムと参照ゲノムは、互いに同一個体の同一組織に由来するため、本来同一の配列を有する。よって、先に述べたのと同じ理由で、参照ゲノムは、被検ゲノムを有する組織と同じ組織から得られたゲノムであって、被検ゲノムよりも先に得られたゲノムであることが好ましい。
 被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子は、例えば、次のようにして定めることができる。
 機能性予測結果取得部121は、まず、被検ゲノムの配列と、参照ゲノムの配列とを比較解析することで、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する部分を特定する。なお、比較解析による被検ゲノムの配列中の、参照ゲノムと異なる配列を有する部分の特定は、情報処理システム10とは別の情報処理システムが行っても良い。
 比較解析に供する被検ゲノムの配列および参照ゲノムの配列としては、全ゲノムの配列でも良いし、変異が導入される可能性のある部位が特定の領域に限られる場合は、その特定の領域のゲノムの配列でも良い。導入された変異をもらさずに全て検出できることから、全ゲノムの配列を取得し、全ゲノムの配列を比較解析に供することが好ましい。ただし、変異の導入部位が特定の領域に限られることの確かさが高いときは、特定の領域に限ってゲノムの配列を取得しても良い。例えば、特定の形質を獲得するのに関わる遺伝子が、特定の候補に限られることが明らかであるような場合は、その候補となる遺伝子に対応する領域のゲノム配列のみを取得しても良い。
 被検ゲノムの配列および参照ゲノムの配列は、細胞、または個体がウイルスの場合はウイルス本体からゲノムを抽出し、抽出したゲノムの塩基配列を解析することで決定することができる。細胞は、例えば、個体が酵母やカビ等であれば、個体をそのままゲノム抽出に供する細胞として用いることができる。また、例えば、個体がヒト、ヒト以外の動物および植物であれば、組織の一部を採取してゲノム抽出に供する細胞として用いることができる。このとき、例えば個体がヒトやヒト以外の動物であれば、無痛で採取できる口腔内細胞や唾液を、ゲノム抽出に供する組織として用いることができる。
 細胞、またはウイルス本体からのゲノムの抽出は、ゲノムを有する個体に合わせた適切な処理を施すことにより行うことができる。またゲノムを有する個体に合わせて適切な市販のキット等を用いて行っても良い。例えば、ヒトの口腔内細胞等から抽出する場合であれば、NucleoSpin(登録商標) DNA Forensic(タカラバイオ社製)等を用いることができる。
 抽出により得られたゲノムの塩基配列は、例えば、NextSeq シリーズ、HiSeq X シリーズ(イルミナ社製)やPacBio(登録商標) RS II/Sequel(登録商標) システム(パックバイオ社製)等の市販のDNAシーケンサーを用いることにより決定することができる。
 参照ゲノムの配列としては、NHGRI(National Human Genome Research Institute)、NCBI(National Center for Biotechnology Information)、DDBJ(DNA Data Bank of Japan)センターおよび東北メディカル・メガバンク機構等の公的機関により公開されているデータベースにある配列を用いてもよい。データベースから配列を取得する場合は、参照ゲノムの配列と相同性が高い配列を選択して用いる。参照ゲノムの配列と相同性が高い配列としては、例えば、同じ種に属する個体のゲノム配列が挙げられる。
 比較解析は、例えば、BLASTZ等の比較解析プログラムにより行うことができる。図4は比較解析を説明するための模式図である。比較解析では、被検ゲノムの配列401と、参照ゲノムの配列402を比較し、参照ゲノム中の部分配列403と対応する部位であり、参照ゲノム中の部分配列403と異なる配列を有する被検ゲノム中の変異部位404を特定する。比較解析により特定した、変異部位404は、具体的には、参照ゲノムと比較したときに1つ以上の塩基が欠失、挿入または置換された部分である。
 変異部位は、人工変異部位、自然変異(突然変異)部位および種の多様性に起因する部位を含む。これらのうち、参照ゲノムを、親株のゲノムあるいは同一個体の組織が有するゲノムとすることで、固有配列部分に種の多様性に起因する部位が含まれないようにすることができる。そのため、人工変異部位の検出の負荷が小さくなり、また誤検出の可能性も低くすることができる。
 続いて、機能性予測結果取得部121は、変異部位と、変異部位に隣接する参照ゲノムと同一の配列の一部とを含む配列を固有配列部分とし、固有配列部分のうち、検査対象遺伝子を含む領域を一部または全部含む固有配列部分を選抜する。なお、検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜は、情報処理システム10とは別の情報処理システムが行っても良い。固有配列部分が含む、参照ゲノムと同一の配列の長さは、任意に定めることができる。選抜された固有配列部分中の、検査対象遺伝子に対応する配列部分が、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子である。
 検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜は、具体的には、例えば、次のようにして行うことができる。
 図5は、検査対象遺伝子を含む領域を一部または全部含む固有配列部分の選抜を説明するための模式図である。まず、機能性予測結果取得部121は、全ての固有配列部分501の配列を母集団502として第1の検査用対照配列503および第2の検査用対照配列504の相同性検索を行う。
 第1の検査用対照配列503は、検査対象遺伝子の一部の配列または全配列を含む配列である。検査対象遺伝子の配列は、例えば、NHGRI、NCBI、DDBJセンターおよび東北メディカル・メガバンク機構等の公的機関により公開されているデータベースより取得することができる。人工変異部位の検出の感度を高めるため、第1の検査用対照配列503は長いほど好ましく、検査対象遺伝子の全配列を含むことが最も好ましい。
 また、第2の検査用対照配列504は、検査対象遺伝子の配列に隣接する配列である。第2の検査用対照配列504として用いる検査対象遺伝子の配列に隣接する配列は、検査対象遺伝子の配列の上流の配列でも良いし下流の配列でも良い。また、第2の検査用対照配列504は複数用意してもよい。例えば、図5に示すように、検査対象遺伝子の配列の上流に隣接する配列である第2の検査用対照配列504と、検査対象遺伝子の配列の下流に隣接する配列である第2の検査用対照配列504とを用意して用いても良い。第2の検査用対照配列の長さは任意に定めることができるが、固有配列部分501が含む、参照ゲノムと同一の配列の長さよりも短いことが好ましい。第2の検査用対照配列を、固有配列部分501が含む、参照ゲノムと同一の配列の長さよりも短くすることで、相同性検索による検索漏れを抑制することができる。
 続いて、機能性予測結果取得部121は、相同性検索により検索された固有配列部分501の配列と、第1の検査用対照配列503との相同性、および/または第2の検査用対照配列504との相同性が、規定値よりも高い固有配列部分501を選抜する。選抜された固有配列部分501は、検査対象遺伝子領域を一部または全部含む部分である。判断基準となる相同性の規定値は、検査対象遺伝子等に応じて任意に定めることができる。
 人工変異が検査対象遺伝子に導入されている場合であって、導入された変異が検査対象遺伝子の配列を大きく変更するものでない場合は、その変異が導入された検査対象遺伝子を含む固有配列部分は、第1の検査用対照配列と高い相同性を有し、選抜される。
 人工変異が検査対象遺伝子に導入されている場合であって、導入された変異が検査対象遺伝子の配列を大きく変更するものである場合は、その変異が導入された検査対象遺伝子を含む固有配列部分は、第1の検査用対照配列との相同性が低くなる。しかし固有配列部分は、参照ゲノムと異なる配列に隣接する参照ゲノムと同一の配列を一部含む。すなわち、固有配列部分は、変異が導入された検査対象遺伝子に隣接する、変異が導入されていない配列を含み、この配列は、第2の検査用対照配列に対応する部分である。そのため、導入された変異が検査対象遺伝子の配列を大きく変更するものである場合、例えば検査対象遺伝子を全て欠失させるような変異であっても、第2の検査用対照配列と高い相同性を有する固有配列部分として選抜することができる。
 ただし、機能性予測結果取得部121は、固有配列部分中の変異部位が、第1の検査用対照配列に対応する部分に含まれず、第2の検査用対照配列に対応する部分に含まれる場合は、その固有配列部分を選抜しない。そのような固有配列部分は、検出の対象とする人工変異ではないと考えられるためである。
 被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の機能性の予測は、対象とする検査対象遺伝子に合わせて予め定めた基準に沿って行うことができる。ここで機能性とは、人工変異の導入により想定される形質の獲得を意味する。
 すなわち、例えば、検査対象遺伝子が導入された変異により本来有する機能を失うことで、想定された形質が獲得される場合は、検査対象遺伝子が本来有する機能を失う変異であるか否かを判断する基準を予め定める。検査対象遺伝子の特に上流側(5’末端側)における3の倍数でない塩基数の挿入または欠失は、遺伝子発現の翻訳過程でフレームシフトを起こすことから、検査対象遺伝子が本来有する機能を失う変異である可能性が高い。また、検査対象遺伝子の特に上流側(5’末端側)に、塩基置換または挿入により終止コドンが導入される変異も、遺伝子発現の転写過程で未成熟な伝令RNAを生成する原因となることから、検査対象遺伝子が本来有する機能を失う変異である可能性が高い。さらに、検査対象遺伝子の大半または全てを欠失させる変異も、検査対象遺伝子が本来有する機能を失う変異となり得る。
 また、例えば、被検ゲノム中には本来存在しない検査対象遺伝子が変異として導入され、検査対象遺伝子が有する機能により、想定された形質が獲得される場合は、検査対象遺伝子が導入されたか否かを判断する基準として定めることができる。
 さらに、例えば、導入された変異により検査対象遺伝子が本来有する機能とは異なる機能を獲得することで、想定された形質が獲得される場合は、検査対象遺伝子が本来有する機能とは異なる機能を獲得するか否かを判断する基準を予め定める。
 機能性を予測するために用いる基準を定めるにあたっては、例えばPubMed等の論文検索エンジンを利用し、対象とする形質に関するキーワードを元に学術論文を取得し、参照しても良い。また、例えばJpred等のプログラムを利用し、検査対象遺伝子の塩基配列から読み取ったアミノ酸配列を元に翻訳されるペプチド(タンパク質)の構造を予測したり、またPDB(Protein Data Bank)等のデータベースにあるタンパク質の立体構造を参照したりしても良い。
 ステップS101において機能性予測結果取得部121は、上記のように一定の基準に沿って機能性を予測した結果を取得する。
 ステップS102において、変異導入部分特定部122は、検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する。
 ここで、検査対象遺伝子を含む配列は、上記における選抜された固有配列部分に対応する。また、PAM配列およびターゲット配列は、それぞれCRISPR-Cas9システムを用いた編集に利用されるプロトスペーサー隣接モチーフ(Protospacer Adjacent Motif)およびPAM配列に隣接する標的配列である。
 図6は、変異導入部分を特定するためのアラインメントを説明するための模式図である。例えば、変異導入部分特定部122は、変異導入部分の特定を、次のようにして行うことができる。まず、上記の選抜された固有配列部分501に対してPAM配列601をアラインメントする。続いて、PAM配列601の位置を特定し、さらにPAM配列601の上流に隣接する特定の塩基数の配列を、ターゲット配列602として特定する。アラインメントはペアワイズアラインメント等により行うことができる。なお、変異導入部分の特定は、情報処理システム10とは異なる情報処理システムが行っても良い。
 CRISPR-Cas9システムを用いた編集に利用されるCas9ヌクレアーゼが由来する菌種と、そのCas9ヌクレアーゼの各亜型により認識されるPAM配列の組み合わせとしては、例えば、5’-NGG(Streptococcus pyogenes、II型)、5’-CCN(Sulfolobus solfataricus、I-A1型)、5’-TCN(Sulfolobus solfataricus、I-A2型)、5’-TTC(Haloquadratum walsbyi、I-B型)、5’-AWG(Escherichia coli、I-E型)、5’-CC(Escherichia coli、I-F型)、5’-CC(Pseudomonas aeruginosa、I-F型)、5’-NNAGAA(Streptococcus thermophilus、II-A型)、5’-NGG(Streptococcus agalactiae、II-A型)が挙げられる。
 ターゲット配列として特定する配列の塩基数は、位置を特定したPAM配列に対応したCas9ヌクレアーゼの各亜型に応じて定める。例えば、CRISPR-Cas9システムを用いた編集に利用されるCas9ヌクレアーゼがStreptococcus pyogenes、II型由来のものである場合は19または20塩基である。
 CRISPR-Cas9システムを用いた編集では、PAM配列に隣接するターゲット配列に対応する部分に変異が導入される。そのため、固有配列部分における被検ゲノムの配列と参照ゲノムの配列とで異なっている塩基が、ターゲット配列中に存在する場合は、CRISPR-Cas9システムを利用して人工的に導入された変異であると考えることができる。
 ステップS103において、変異導入部位抽出部123は、変異導入部分特定部122が取得した結果において、被検ゲノムの配列中の参照ゲノムと異なる配列がターゲット配列中に存在したときに、参照ゲノムと異なる配列を有し、PAM配列およびターゲット配列を含む変異導入部位を被検ゲノムの配列から抽出する。
 変異導入部位抽出部123は、参照ゲノムと異なる配列を有し、PAM配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を、例えば、次のようにして選抜された固有配列部分の情報を取得することで行うことができる。
 図7は、参照ゲノムと異なる配列を有し、PAM配列およびターゲット配列を含む変異導入部位の被検ゲノムの配列からの抽出を説明するための模式図である。変異導入部位抽出部123は、まず、全ての上記固有配列部分501の配列を母集団502として、被検ゲノムの配列中の参照ゲノムと異なる配列が存在することが特定されたPAM配列601とターゲット配列602の組み合わせについて相同性検索を行う。続いて、変異導入部位抽出部123は、相同性が規定値よりも高い固有配列を選抜する。規定値は任意に定めることができる。なお、PAM配列601とターゲット配列602の組み合わせについての相同性検索および相同性が規定値よりも高い固有配列の選抜は情報処理システム10とは異なる情報処理システムが行ってもよい。
 CRISPR-Cas9システムを用いた編集では、目的とした部位と異なる部位に、非特異的に編集がなされることがあることが知られている。そのため、被検ゲノムの配列に、CRISPR-Cas9システムを用いて人工変異が導入された場合、検査対象遺伝子以外の配列にも同時に変異が導入されている可能性がある。被検ゲノム中の非特異的に変異が導入された部位は、参照ゲノムと異なる配列を有するため、先に述べた比較解析により機能性予測結果取得部121は固有配列部分として特定する。
 また、CRISPR-Cas9システムを用いた編集では、PAM配列およびターゲット配列が含まれるため、非特異的に変異が導入された部位は、上記のように相同性検索を行うことで高い相同性を有する固有配列部分として特定され、選抜することができる。つまり、変異導入部位抽出部123によって抽出された結果が、規定値で定められる一定の値よりも高い相同性を有する固有配列部分を含んでいたときには、CRISPR-Cas9システムを用いた編集が行われたと考えることができる。
 ステップS104において、判定部124は、人工変異の導入を判定する。判定部124は人工変異が導入されたことを判定することで、人工変異部位を検出することができる。判定部124は、例えば、変異導入部位抽出部123によって抽出された結果が、規定値で定められる一定の値よりも高い相同性を有する固有配列部分を1つ以上含むことをもって、人工変異が導入されたと判定することができる。
 本実施形態では、情報処理システム10が、機能性予測結果取得部121、変異導入部分特定部122および変異導入部位抽出部123を全て含む例を示したが、これに限らない。
 例えば、情報処理システム10は、変異導入部位抽出部123を有さず、機能性予測結果取得部121および変異導入部分特定部122のみを有してもよい。このとき判定部124は、例えば、変異導入部分特定部122で取得した結果が、変異がターゲット配列中に存在することを特定したことを含んでいたときに、人工変異が導入されたと判定することができる。
 また、例えば、情報処理システム10は、変異導入部分特定部122および変異導入部位抽出部123を有さず、機能性予測結果取得部121のみを有してもよい。このとき判定部124は、例えば、機能性予測結果取得部121で取得した結果が、変異が導入された検査対象遺伝子が機能性を有すると予測されたことを含んでいたときに、人工変異が導入されたと判定することができる。また、検出対象とする人工変異が導入されるのに用いられる方法は、CRISPR-Cas9システムを用いた編集に限定されない。
 判定部124で判定された結果の確度を高める観点から、情報処理システム10は、変異導入部分特定部122を有することが好ましく、さらに変異導入部位抽出部123を有することがより好ましい。
 [第2実施形態]
 上述した情報処理システム10は、ゲノム精製部およびゲノム配列決定部とともに変異検出システムを構成することができる。
 図8は、第2実施形態に係る変異検出システムのハードウェア構成例を示すブロック図である。変異検出システム80は、ゲノム精製装置801と、DNAシーケンサー802と、情報処理システム10を備える。情報処理システム10の構成は、先ほど述べたのと同様である。なお、図8に示されているハードウェア構成は例示であり、これら以外の装置が追加されていてもよく、一部の装置が設けられていなくてもよい。また、一部の装置が同様の機能を有する別の装置に置換されていてもよい。さらに、一部の機能がネットワークを介して他の装置により提供されてもよく、本実施形態を構成する機能が複数の装置に分散されて実現されるものであってもよい。
 図9は、第2実施形態に係る変異検出システム80の機能ブロック図である。ゲノム精製装置801はゲノム精製部891の機能を実現し、DNAシーケンサー802はゲノム配列決定部892の機能を実現する。
 ゲノム精製部891は、被検ゲノムを有する細胞あるいは個体からゲノムを精製する。さらに、被検ゲノムを有する個体の親株の細胞あるいは個体、または被検ゲノムを有する個体の組織の細胞からゲノムを精製しても良い。細胞、またはウイルス本体からのゲノムの抽出は、ゲノムを有する個体に合わせた適切な処理を施すことにより行うことができる。
 ゲノム配列決定部892では、ゲノム精製部891で精製されたゲノムの塩基配列を決定する。決定する塩基配列はゲノムの全塩基配列でも良いし、ゲノムの特定の領域の塩基配列でも良いが、ゲノムの全塩基配列を決定することが好ましい。ゲノムの塩基配列は、例えば次世代シーケンシングにより決定することができる。
 情報処理システム10は、ゲノム配列決定部892で決定したゲノムの塩基配列を用い、人工変異部位を検出する。情報処理システム10における人工変異部位の検出の詳細は、上で述べたのと同様である。
 [第3実施形態]
 図10は、第3実施形態に係る情報処理システム30の機能ブロック図である。情報処理システム30は、機能性予測結果取得部321および判定部324を備える。機能性予測結果取得部321は、被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する。判定部324は、人工変異の導入を判定する。
 本実施形態によれば、核酸配列における不特定の人工変異部位を検出することができる情報処理システムを提供することができる。
 なお、上述の実施形態は、いずれも本発明を実施するにあたっての具体化の例を示したものに過ぎず、これらによって本発明の技術的範囲が限定的に解釈されてはならないものである。すなわち、本発明はその技術思想、又はその主要な特徴から逸脱することなく、様々な形で実施することができる。
 上述の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下には限られない。
 (付記1)
 被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、
 該機能性予測結果取得部が取得した結果から人工変異の導入を判定する判定部と、
 を備える、ことを特徴とする情報処理システム。
 (付記2)
 前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定部をさらに備える、付記1に記載の情報処理システム。
 (付記3)
 前記変異導入部分特定部が取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出部をさらに備える、付記2に記載の情報処理システム。
 (付記4)
 前記参照ゲノムが、前記被検ゲノムを有する個体の親株のゲノムである、付記1~3のいずれか1項に記載の情報処理システム。
 (付記5)
 前記参照ゲノムが、前記被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムである、付記1~3のいずれか1項に記載の情報処理システム。
 (付記6)
 前記参照ゲノムが、前記被検ゲノムを有する組織と同じ組織から得られたゲノムであって、前記被検ゲノムよりも先に得られたゲノムである、付記1~3のいずれか1項に記載の情報処理システム。
 (付記7)
 細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、
 該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、
 付記1~6のいずれか1項に記載の情報処理システムと、
 を備えることを特徴とする、変異検出システム。
 (付記8)
 コンピュータに、
 被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、
 該機能性を予測した結果から人工変異の導入を判定する、
 ことを実行させる、ことを特徴とする情報処理プログラムが記憶された記憶媒体。
 (付記9)
 さらに、コンピュータに、
 前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する、
 ことを実行させる、情報処理プログラムが記憶された付記8に記載の記憶媒体。
 (付記10)
 さらに、コンピュータに、
 前記変異導入部分を特定した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する、
 ことを実行させる、情報処理プログラムが記憶された付記9に記載の記憶媒体。
 (付記11)
 被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、
 該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、
 を有する、ことを特徴とする情報処理方法。
 (付記12)
 前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定ステップをさらに有する、付記11に記載の情報処理方法。
 (付記13)
 前記変異導入部分特定ステップが取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出ステップをさらに有する、付記12に記載の情報処理方法。
 この出願は、2018年7月3日に出願された日本出願特願2018-126455を基礎とする優先権を主張し、その開示の全てをここに取り込む。
10、30    情報処理システム
80       変異検出システム
101      CPU
102      RAM
103      ROM
104      HDD
105      通信I/F
106      表示装置
107      入力装置
110      バス
121、321  機能性予測結果取得部
122      変異導入部分特定部
123      変異導入部位抽出部
124、324  判定部
125      表示部
126      記憶部
801      ゲノム精製装置
802      DNAシーケンサー
891      ゲノム精製部
892      ゲノム配列決定部

Claims (13)

  1.  被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得部と、
     該機能性予測結果取得部が取得した結果から人工変異の導入を判定する判定部と、
     を備える、ことを特徴とする情報処理システム。
  2.  前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定部をさらに備える、請求項1に記載の情報処理システム。
  3.  前記変異導入部分特定部が取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出部をさらに備える、請求項2に記載の情報処理システム。
  4.  前記参照ゲノムが、前記被検ゲノムを有する個体の親株のゲノムである、請求項1~3のいずれか1項に記載の情報処理システム。
  5.  前記参照ゲノムが、前記被検ゲノムを有する個体の組織であって、前記被検ゲノムを有する組織とは異なる組織が有するゲノムである、請求項1~3のいずれか1項に記載の情報処理システム。
  6.  前記参照ゲノムが、前記被検ゲノムを有する組織と同じ組織から得られたゲノムであって、前記被検ゲノムよりも先に得られたゲノムである、請求項1~3のいずれか1項に記載の情報処理システム。
  7.  細胞またはウイルスからゲノムを抽出し、精製するゲノム精製部と、
     該ゲノム精製部で得られたゲノムの配列を決定するゲノム配列決定部と、
     請求項1~6のいずれか1項に記載の情報処理システムと、
     を備えることを特徴とする、変異検出システム。
  8.  コンピュータに、
     被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子の配列について、機能性を予測した結果を取得し、
     該機能性を予測した結果から人工変異の導入を判定する、
     ことを実行させる、ことを特徴とする情報処理プログラムが記憶された記憶媒体。
  9.  さらに、コンピュータに、
     前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する、
     ことを実行させる、情報処理プログラムが記憶された請求項8に記載の記憶媒体。
  10.  さらに、コンピュータに、
     前記変異導入部分を特定した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する、
     ことを実行させる、情報処理プログラムが記憶された請求項9に記載の記憶媒体。
  11.  被検ゲノムの配列中の、参照ゲノムと異なる配列を有する検査対象遺伝子について機能性を予測した結果を取得する機能性予測結果取得ステップと、
     該機能性予測結果取得ステップで取得した結果から人工変異の導入を判定するステップと、
     を有する、ことを特徴とする情報処理方法。
  12.  前記検査対象遺伝子を含む配列について、CRISPR-Cas9システムを用いた編集に利用可能な、PAM配列およびターゲット配列を含む変異導入部分を特定した結果を取得する変異導入部分特定ステップをさらに有する、請求項11に記載の情報処理方法。
  13.  前記変異導入部分特定ステップが取得した結果において、前記被検ゲノムの配列中の前記参照ゲノムと異なる配列が前記ターゲット配列中に存在したときに、前記参照ゲノムと異なる配列を有し、前記PAM配列および前記ターゲット配列を含む変異導入部位を前記被検ゲノムの配列から抽出する変異導入部位抽出ステップをさらに有する、請求項12に記載の情報処理方法。
PCT/JP2019/025290 2018-07-03 2019-06-26 情報処理システム、変異検出システム、記憶媒体および情報処理方法 WO2020008968A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
US17/257,691 US20210158896A1 (en) 2018-07-03 2019-06-26 Information processing system, mutation detection system, storage medium, and information processing method
EP19830867.8A EP3819906A4 (en) 2018-07-03 2019-06-26 INFORMATION PROCESSING SYSTEM, MUTATION DETECTION SYSTEM, STORAGE MEDIUM AND INFORMATION PROCESSING METHOD
JP2020528816A JP7129015B2 (ja) 2018-07-03 2019-06-26 情報処理システム、変異検出システム、記憶媒体および情報処理方法

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-126455 2018-07-03
JP2018126455 2018-07-03

Publications (1)

Publication Number Publication Date
WO2020008968A1 true WO2020008968A1 (ja) 2020-01-09

Family

ID=69060969

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/025290 WO2020008968A1 (ja) 2018-07-03 2019-06-26 情報処理システム、変異検出システム、記憶媒体および情報処理方法

Country Status (4)

Country Link
US (1) US20210158896A1 (ja)
EP (1) EP3819906A4 (ja)
JP (1) JP7129015B2 (ja)
WO (1) WO2020008968A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS626893B2 (ja) 1977-07-08 1987-02-14 Taisei Corp
JP2012503989A (ja) 2008-09-29 2012-02-16 モンサント テクノロジー エルエルシー 大豆遺伝子組換え事象mon87705およびその検出方法
JP2015501974A (ja) * 2011-11-07 2015-01-19 インジェヌイティ システムズ インコーポレイテッド 原因ゲノム変異の同定の方法およびシステム。
JP2016531569A (ja) * 2013-08-09 2016-10-13 プレジデント アンド フェローズ オブ ハーバード カレッジ ヌクレアーゼプロファイリングシステム
JP2018011525A (ja) 2016-07-19 2018-01-25 国立大学法人大阪大学 ゲノム編集方法
JP2018126455A (ja) 2017-02-10 2018-08-16 サミー株式会社 回胴式遊技機

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3434776A1 (en) * 2012-12-12 2019-01-30 The Broad Institute, Inc. Methods, models, systems, and apparatus for identifying target sequences for cas enzymes or crispr-cas systems for target sequences and conveying results thereof
DK3066201T3 (en) * 2013-11-07 2018-06-06 Editas Medicine Inc CRISPR-RELATED PROCEDURES AND COMPOSITIONS WITH LEADING GRADES

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS626893B2 (ja) 1977-07-08 1987-02-14 Taisei Corp
JP2012503989A (ja) 2008-09-29 2012-02-16 モンサント テクノロジー エルエルシー 大豆遺伝子組換え事象mon87705およびその検出方法
JP2015501974A (ja) * 2011-11-07 2015-01-19 インジェヌイティ システムズ インコーポレイテッド 原因ゲノム変異の同定の方法およびシステム。
JP2016531569A (ja) * 2013-08-09 2016-10-13 プレジデント アンド フェローズ オブ ハーバード カレッジ ヌクレアーゼプロファイリングシステム
JP2018011525A (ja) 2016-07-19 2018-01-25 国立大学法人大阪大学 ゲノム編集方法
JP2018126455A (ja) 2017-02-10 2018-08-16 サミー株式会社 回胴式遊技機

Also Published As

Publication number Publication date
EP3819906A4 (en) 2021-09-15
EP3819906A1 (en) 2021-05-12
JPWO2020008968A1 (ja) 2021-07-15
JP7129015B2 (ja) 2022-09-01
US20210158896A1 (en) 2021-05-27

Similar Documents

Publication Publication Date Title
US11837328B2 (en) Methods and systems for detecting sequence variants
Schlötterer et al. Sequencing pools of individuals—mining genome-wide polymorphism data without big funding
Cotney et al. The evolution of lineage-specific regulatory activities in the human embryonic limb
Visel et al. A high-resolution enhancer atlas of the developing telencephalon
KR102371953B1 (ko) 서열 정렬 방법 및 시스템
DK2970958T3 (en) METHODS FOR SEQUENCING THE IMMUN REPERTOIR
Long et al. Dissecting complex traits using the Drosophila synthetic population resource
Taskiran et al. Cell-type-directed design of synthetic enhancers
KR20220136449A (ko) 서열 변이체 검출 방법 및 시스템
Hughes et al. A massively parallel reporter assay reveals context-dependent activity of homeodomain binding sites in vivo
McPherson A defining decade in DNA sequencing
Whalen et al. Enhancer function and evolutionary roles of human accelerated regions
Hibsh et al. De novo transcriptome assembly databases for the central nervous system of the medicinal leech
Pérez-Zamorano et al. Identification of cis-regulatory sequences reveals potential participation of lola and Deaf1 transcription factors in Anopheles gambiae innate immune response
AlMomin et al. Draft genome sequence of the silver pomfret fish, Pampus argenteus
Lowe et al. Evaluating a lightweight transcriptome assembly pipeline on two closely related ascidian species
Goswami et al. RNA-Seq for revealing the function of the transcriptome
WO2020008968A1 (ja) 情報処理システム、変異検出システム、記憶媒体および情報処理方法
KR20200102182A (ko) 염기 서열 클러스터링 기법을 이용한 생물종 분류 방법 및 장치
Chalmel et al. Toward understanding the core meiotic transcriptome in mammals and its implications for somatic cancer
KR101906970B1 (ko) 분산 처리를 이용한 핵산 서열의 분석 방법 및 장치, 핵산 서열 분석을 위한 분산 처리 시스템
Wang et al. SRY: an effective method for sorting long reads of sex-limited chromosome
Piertney High-throughput DNA sequencing and the next generation of molecular markers in wildlife research
Cres et al. DL-TODA: A Deep Learning Tool for Omics Data Analysis. Biomolecules 2023, 13, 585
Tan Computational genomics of regulatory elements and regulatory territories

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19830867

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2020528816

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2019830867

Country of ref document: EP

Effective date: 20210203