WO2016208826A1 - Method and device for analyzing gene - Google Patents

Method and device for analyzing gene Download PDF

Info

Publication number
WO2016208826A1
WO2016208826A1 PCT/KR2015/012922 KR2015012922W WO2016208826A1 WO 2016208826 A1 WO2016208826 A1 WO 2016208826A1 KR 2015012922 W KR2015012922 W KR 2015012922W WO 2016208826 A1 WO2016208826 A1 WO 2016208826A1
Authority
WO
WIPO (PCT)
Prior art keywords
gene
translocation
data
candidate gene
gene pairs
Prior art date
Application number
PCT/KR2015/012922
Other languages
French (fr)
Korean (ko)
Inventor
박웅양
신현태
김나영
Original Assignee
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회복지법인 삼성생명공익재단 filed Critical 사회복지법인 삼성생명공익재단
Priority to SG11201707653TA priority Critical patent/SG11201707653TA/en
Priority to CN201580078100.9A priority patent/CN107408162B/en
Priority claimed from KR1020150168829A external-priority patent/KR101881838B1/en
Publication of WO2016208826A1 publication Critical patent/WO2016208826A1/en
Priority to SA517380743A priority patent/SA517380743B1/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations

Definitions

  • a method and apparatus for analyzing genes and more particularly, a method and apparatus for analyzing data regarding translocation genes.
  • a genome is all the genetic information of a living thing.
  • various technologies such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology have been developed.
  • Analysis of genetic information such as nucleic acid sequences, proteins, etc., is widely used to find genes that express diseases such as diabetes and cancer, or to identify correlations between genetic diversity and individual expression characteristics.
  • the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression. Therefore, genetic data such as nucleic acid sequences, proteins, etc. of an individual are essential data for identifying current and future disease-related information to prevent disease or select an optimal treatment method at an early stage of disease.
  • Recently, with the development of sequencing technology many attempts have been made to discover various kinds of structural variations, but the generation of significant amounts of false positives or false negatives is still in bioinformatics. Disprove many challenging elements).
  • a method of analyzing a gene obtains data about split reads and discreetly aligned paired-end reads from next generation sequencing (NGS) data of a test sample.
  • NGS next generation sequencing
  • the identifying may include extracting, from the extracted first candidate gene pairs, second candidate gene pairs including a gene in which a plurality of split reads having breakpoints belonging to the same coverage are arranged.
  • the transgenic gene is identified from the extracted second candidate gene pairs.
  • the gene included in the extracted second candidate gene pairs may have the number of split leads having the break point belonging to the same coverage to be greater than or equal to a predetermined threshold.
  • the identifying may include a third candidate in which the fusion direction between different genes among the extracted second candidate gene pairs is from 5 'end to 3' end, or from 3 'end to 5' end. Extracting gene pairs, wherein the translocation gene is identified from the extracted second candidate gene pairs.
  • the NGS data includes data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
  • BAM binary version of SAM
  • SAM Sequence Alignment / Map
  • the acquiring step may acquire data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for the split leads and the PE leads from the data of the BAM format or the SAM format.
  • CIGAR Compact Idiosyncratic Gapped Alignment Report
  • the NGS data is generated by targeted sequencing to identify base sequences of target genes in the test sample.
  • test sample is a biopsy sample or formalin-fixed, paraffin-embedded (FFPE) sample.
  • FFPE formalin-fixed, paraffin-embedded
  • a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
  • an apparatus for analyzing a gene may include data about split reads and paired-end reads that are discreetly aligned from next generation sequencing (NGS) data of a test sample.
  • a lead analyzing unit to obtain; And extracting the first candidate gene pairs that are likely to be translocation within the chromosome of the test sample using the split reads and the PE reads, and the break points represented by the split reads and the first read.
  • a translocation identifier that identifies a translocation gene among the first candidate gene pairs based on a fusion direction of the first candidate gene pairs.
  • the translocation identifier extracts second candidate gene pairs including a gene in which a plurality of split leads having breakpoints belonging to the same coverage are arranged among the extracted first candidate gene pairs, and the translocation gene is extracted. Second candidate gene pairs.
  • the gene included in the extracted second candidate gene pairs may have the number of split leads having the break point belonging to the same coverage to be greater than or equal to a predetermined threshold.
  • the translocation identifier may further include a third candidate gene in which the fusion direction between different genes is from 5 'end to 3' end, or from 3 'end to 5' end among the extracted second candidate gene pairs. Pairs are extracted and the translocation gene is identified from the extracted second candidate gene pairs.
  • the NGS data includes data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
  • BAM binary version of SAM
  • SAM Sequence Alignment / Map
  • the read analyzer obtains data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for the split leads and the PE leads from the data of the BAM format or the SAM format.
  • CIGAR Compact Idiosyncratic Gapped Alignment Report
  • the NGS data is generated by targeted sequencing to identify base sequences of target genes in the test sample.
  • test sample is a biopsy sample or formalin-fixed, paraffin-embedded (FFPE) sample.
  • FFPE formalin-fixed, paraffin-embedded
  • FIG. 1 is a view for explaining a gene analysis apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
  • FIG. 3 is a diagram for describing PE leads according to an exemplary embodiment.
  • FIG. 4 is a diagram illustrating misaligned PE leads according to an exemplary embodiment.
  • FIG. 5 is a diagram for describing split leads, according to an exemplary embodiment.
  • FIG. 6 is a diagram for describing an IGV (Integrative Genomics Viewer) screenshot comparing reads obtained from a biopsy sample of a subject according to an embodiment with reference gene data.
  • IGV Intelligent Genomics Viewer
  • FIG. 7 is a diagram illustrating an IGV screenshot comparing reads obtained from an FFPE sample of a subject according to an embodiment with reference gene data.
  • FIG. 8 is a flowchart of a method of identifying a translocation gene by extracting candidate gene pairs from the translocation identification unit, according to an exemplary embodiment.
  • FIG. 9 is a diagram for describing extracting second candidate gene pairs using break points of split reads, according to an exemplary embodiment.
  • FIG. 10 is a diagram for explaining extraction of third candidate gene pairs using appropriateness of a fusion direction according to one embodiment.
  • FIG. 11 is a diagram illustrating a result of identifying translocation genes of EML4 (echinoderm microtubule-associated protein-like 4) and ALK (anaplastic lymphoma kinase) according to one embodiment.
  • EML4 echinoderm microtubule-associated protein-like 4
  • ALK anaplastic lymphoma kinase
  • FIG. 12 is a flowchart of a method of analyzing a gene, according to an embodiment.
  • FIG. 13 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
  • a method of analyzing a gene obtains data about split reads and discreetly aligned paired-end reads from next generation sequencing (NGS) data of a test sample.
  • NGS next generation sequencing
  • a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
  • an apparatus for analyzing a gene may include data about split reads and paired-end reads that are discreetly aligned from next generation sequencing (NGS) data of a test sample.
  • a lead analyzing unit to obtain; And extracting the first candidate gene pairs that are likely to be translocation within the chromosome of the test sample using the split reads and the PE reads, and the break points represented by the split reads and the first read.
  • a translocation identifier that identifies a translocation gene among the first candidate gene pairs based on a fusion direction of the first candidate gene pairs.
  • a part when a part is connected to another part, it includes not only a case where the part is directly connected, but also an electric part connected between other components in between. .
  • a part when a part includes a certain component, this means that the component may further include other components, not to exclude other components unless specifically stated otherwise.
  • the terms "... unit”, “... module” described in the embodiments means a unit for processing at least one function or operation, which is implemented in hardware or software, or a combination of hardware and software. Can be implemented.
  • FIG. 1 is a view for explaining a gene analysis apparatus according to an embodiment.
  • the genetic analysis apparatus 10 may transfer translocation to a test gene of a test sample by using reference gene data 20 of a normal population and test gene data 30 obtained from a test biological sample of a test subject. translocation) genes can be identified.
  • the test gene data 30 received by the genetic analysis device 10 may be NGS data obtained by next generation sequencing (NGS), and the NGS data may be in a binary version of SAM (BAM) format or SAM ( Sequence Alignment / Map) format may include genetic data.
  • BAM format or SAM format can usually be used as a format that describes data relating to short reads.
  • the file in BAM format or SAM format may include text data about start point of read, direction of read, mapping quality, FLAG indicating alignment order, Compact Idiosyncratic Gapped Alignment Report (CIGAR) string, and the like. .
  • FLAG is an alignment pair of a primary alignment-primary alignment pair, a primary alignment-secondary alignment pair, a secondary alignment-primary alignment pair, or a secondary alignment-secondary alignment pair. It may be an identifier for identifying. By creating various alignment pairs, various supporting reads can be obtained.
  • Reference gene data 20 may be obtained from a database already known in the art such as the National Center for Biotechnology Information (NCBI), Gene®Expression Omnibus (GEO), or the like, or to analyze a subject's genes. It may be from biological samples of the recruited people.
  • NCBI National Center for Biotechnology Information
  • GEO Gene®Expression Omnibus
  • the reference genes included in the reference gene data 20 or the test genes included in the test gene data 30 may be obtained from biopsy tissue, formalin-fixed tissue, or paraffin-embedded tissue. It may be obtained.
  • Translocation refers to a phenomenon in which a cleavage occurs in a portion of a chromosome and the cleaved fragment is bound to another portion or another chromosome in the same chromosome, which in turn means structural variation of the chromosome.
  • the genetic analysis apparatus 10 may determine whether the translocation gene exists in the test gene data 30 obtained from the test sample of the subject compared with the reference gene data 20 obtained from the normal population.
  • the gene analyzed by the genetic analysis device 10 may refer to a nucleic acid such as DNA (deoxyribonucleic acid), RNA (ribonucleic acid), and the like.
  • the normal population may refer to a population composed of ordinary people who have not found a specific disease, such as cancer or a tumor, and the subject may refer to a patient where a specific disease such as cancer or a tumor is found. have. Meanwhile, in the present embodiments, the normal population and the subject may correspond to other animals other than humans.
  • the genetic analysis apparatus 10 may be implemented with at least one processor having a function of data processing for analyzing various genetic data 20 and 30 to identify translocation genes and performing various algorithms.
  • FIG. 2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
  • the genetic analysis apparatus 10 may include a read analyzer 110 and a translocation identifier 120.
  • the gene analysis apparatus 10 shown in FIG. 2 only shows the components related to the present embodiment in order to prevent the features of the present embodiment from being blurred, the gene analysis apparatus 10 is shown in FIG. In addition to the components, other general purpose components may be further included.
  • the read analyzer 110 splits reads and discordantly aligned PE from next generation sequencing (NGS) data of the test sample, which is included in the test gene data 30 described above with reference to FIG. 1. Obtain data about paired-end leads.
  • NGS next generation sequencing
  • the NGS data included in the test gene data 30 is data in a BAM format or a SAM format, and the read analyzer 110 reads each of the split leads and the PE leads from the data in the BAM format or the SAM format.
  • Text data regarding a start point of a read, a read direction, a mapping quality, a FLAG indicating an order of alignment, and a compact Idiosyncratic Gapped Alignment Report (CIGAR) string may be acquired.
  • NGS techniques such as whole genome sequencing (WGS), whole exome sequencing (WES), and the like are known.
  • WGS whole genome sequencing
  • WES whole exome sequencing
  • the NGS data according to the present embodiment may be generated by targeted sequencing for identifying nucleotide sequences of some target genes, but not the entire genome in a test sample.
  • test sample may be a biopsy sample obtained from the subject, a formalin-fixed paraffin-embedded (FFPE) sample.
  • FFPE formalin-fixed paraffin-embedded
  • the translocation identifier 120 extracts the first candidate gene pairs that are likely to be translocation in the chromosome of the test sample using split reads and mismatched PE reads.
  • a gene sequenced into split reads, or a gene sequenced into mismatched PE leads, may be considered a candidate with a high probability that the nucleotide sequence of some of the genes may differ from the reference gene (the gene of normal person).
  • the translocation identifier 120 identifies the translocation gene among the first candidate gene pairs based on the break points indicated by the split leads and the fusion direction of the first candidate gene pairs.
  • the translocation identifier 120 may extract second candidate gene pairs including genes in which a plurality of split leads having break points belonging to the same coverage are arranged among the first candidate gene pairs. That is, the translocation gene can be identified from second candidate gene pairs compressed to a narrower range than the first candidate gene pairs.
  • the number of split leads having break points belonging to the same coverage may be greater than or equal to a predetermined threshold. Coverage refers to an error range of break points that can be considered the same break point in consideration of sequencing errors. For example, when the predetermined threshold is three, genes having three or more split leads having break points within the same coverage may be included in the second candidate gene pairs.
  • the predetermined threshold value may be variously changed.
  • the translocation identifier 120 may include a third candidate gene pair having a fusion direction between 5'ends and 3'ends or between 3'ends and 5'ends among the second candidate gene pairs. Can extract them. That is, the translocation gene can be identified from third candidate gene pairs compressed to a narrower range than the second candidate gene pairs. For example, a fusion gene in which the 3 ′ end of gene A and the 3 ′ end of gene B are combined may be a meaningless fusion gene that does not have a function of biological expression. Therefore, the translocation identification unit 120 extracts the third candidate gene pairs by filtering gene pairs having inappropriate fusion directions among the second candidate gene pairs in consideration of the fusion direction.
  • the translocation identification unit 120 may finally determine that the gene pair included in the third candidate gene pairs is a translocation gene.
  • FIG. 3 is a diagram for describing PE leads according to an exemplary embodiment.
  • sequencing of PE means sequencing a test gene of a test sample at both ends, respectively.
  • the nucleic acid (DNA, RNA, etc.) 300 of the test sample to be sequenced is 500bp (base pair) in size. If the read size is set to 100 bp, PE leads 310 and 320 may be generated by sequencing from both ends of nucleic acid 300. Since the read size is smaller than the size of the nucleic acid 300, separate reads may not be generated for the remaining portions of the nucleic acid 300. Meanwhile, the sequencing of the PE according to the present exemplary embodiment may sequence not only the exon 305 but also the intron to obtain the PE leads 310 and 320. The reason for using the sequencing of the PE will be described in more detail with reference to FIG. 4.
  • FIG. 4 is a diagram illustrating misaligned PE leads according to an exemplary embodiment.
  • the transgenic gene may be a combination of different genes within the same chromosome or different genes within different chromosomes.
  • the gene sequence on the 5 'end and the gene sequence on the 3' end of the translocation gene are derived from different genes.
  • the nucleotide sequence of the PE leads 410 and 420 will be clear from the nucleotide sequence of the reference gene of the normal person corresponding to the sequencing positions.
  • the PE lead 410 is mapped to any gene 401 present in chromosome 2 and the PE lead 420 is present in chromosome 3 based on the nucleotide sequence of the reference gene of a normal person. ), It can be inferred that each of the PE leads 410 and 420 may have originated from a fusion gene (translocation gene) present in the test sample. Such leads may be defined as misaligned PE leads 410 and 420. Gene pairs 401 and 402 mapped to such mismatched PE leads 410 and 420 may be included in the first candidate gene pairs described above.
  • FIG. 5 is a diagram for describing split leads, according to an exemplary embodiment.
  • the split read 510 refers to a read having a nucleotide sequence only partially matching the base sequence of the reference gene and not matching the other portion.
  • a read corresponding to the test gene of the test sample matches the base sequence of the corresponding reference gene, it can be considered that there is no structural variation in the base sequence of the test gene.
  • the split read 510 if only a part of the base sequence of the reference gene and some of the others do not match, it can be inferred that the base sequence of the test gene is different from the base sequence of the reference gene. Accordingly, the genes 501 and 502 mapped to the split read 510 may be included in the first candidate gene pairs described above.
  • the split read 511 matches only 75 base sequences with gene A 501 and the remaining 25 base sequences do not match gene A 501. Is not the lead.
  • the split read 512 matches only 80 nucleotide sequences with the gene A 501 and the remaining 20 nucleotide sequences do not match the gene A 501. to be.
  • the read analyzer 110 of FIG. 1 may obtain data of such split leads from data of a BAM format or a SAM format.
  • FIG. 6 is a diagram for describing an IGV (Integrative Genomics Viewer) screenshot comparing reads obtained from a biopsy sample of a subject according to an embodiment with reference gene data.
  • IGV Intelligent Genomics Viewer
  • the leads 610 that match the nucleotide sequence of a reference gene are displayed in gray color.
  • the reads 620 that do not match the base sequence of the reference gene are displayed in various colors other than gray. That is, the leads 620 represented in various colors are likely to correspond to, for example, misaligned PE leads or split leads.
  • the read analyzer 110 of FIG. 1 obtains data on reads 620 having a nucleotide sequence different from that of the reference gene.
  • FIG. 7 is a diagram illustrating an IGV screenshot comparing reads obtained from an FFPE sample of a subject according to an embodiment with reference gene data.
  • the chromosomal location of the reference gene (eg, ALK gene) in the IGV screenshot 700 shown in FIG. 7 is similar to the chromosomal location in the IGV screenshot 600 shown in FIG. 6.
  • IGV screenshot 700 is more colorful than IGV screenshot (600 in FIG. 6). This means that there are more reads (eg, PE reads, split reads) that do not match the nucleotide sequence of the reference gene than in the case of FIG. 6. The reason is that in the case of Fig. 7, the reference gene is obtained from the FFPE sample. Since the life of the biopsy sample is short, FFPE is an essential treatment to maintain the biochemical properties of the biopsy sample for a long time. Unlike the biopsy sample, the FFPE sample has chemical variations and structural variations due to the FFPE treatment, so that there are many more mismatched leads than the case of FIG. 6.
  • the FFPE sample has chemical variations and structural variations due to the FFPE treatment, so that there are many more mismatched leads than the case of FIG. 6.
  • the test gene of the test sample is obtained from the biopsy sample or the FFPE sample, removes false positive or false negative judgments, Or can be reduced. It will be described more continuously below.
  • FIG. 8 is a flowchart of a method of identifying a translocation gene by extracting candidate gene pairs from the translocation identification unit, according to an exemplary embodiment.
  • the translocation identification unit 120 uses the data regarding the split reads and the mismatched PE reads acquired by the read analysis unit 110 to identify the first candidate gene pairs that are likely to be translocations. Extract.
  • the translocation identifier 120 may use the split reads using data regarding reads that match the nucleotide sequence of the reference gene in the IGV screenshot 600 or 700 described above with reference to FIG. 6 or 7.
  • the first candidate gene pairs may be extracted by various combinations of genes mapped to and genes mapped to mismatched PE leads.
  • the translocation identifier 120 extracts second candidate gene pairs including genes in which a plurality of split leads having break points belonging to the same coverage are aligned. As described above, if the number of split leads with break points belonging to the same coverage is above a predetermined threshold, the gene mapped to those split leads is considered to be more likely to have the actual break points of the translocation gene. Can be. Accordingly, the translocation identifier 120 selects, among the first candidate gene pairs, genes in which a plurality of split leads having breakpoints belonging to the same coverage are arranged as second candidate gene pairs. That is, genes included in the second candidate gene pairs may be genes that are more likely to be translocation genes than genes included in the first candidate gene pairs.
  • the translocation identifier 120 extracts third candidate gene pairs in which the fusion direction between different genes is 5 'to 3' end or 3 'to 5' end. Even if the pairs of genes that are expected to be fusion genes (translocation genes) included in the second candidate gene pairs are not translocation genes when the fusion direction is inappropriate. Accordingly, whether the fusion direction of the different genes is appropriate, that is, the translocation identifier 120 determines that the fusion direction of the gene pairs included in the second candidate gene pairs is 5 'to 3' end or 3 'to 5'. 'Determine whether it is properly bound in the direction of the end, and filter the appropriate gene pairs as third candidate gene pairs. That is, genes included in the third candidate gene pairs may be genes that are more likely to be translocation genes than genes included in the second candidate gene pairs.
  • the translocation identifier 120 identifies that the gene pairs included in the third candidate gene pairs correspond to the translocation gene.
  • FIG. 9 is a diagram for describing extracting second candidate gene pairs using break points of split reads, according to an exemplary embodiment.
  • a plurality of split leads 910 may be mapped to a gene (gene X) 900 of a test sample.
  • the gene X 900 to which the split leads 910 are mapped may be included in the first candidate gene pairs.
  • Data for the break points 920 may be mapped to the split leads 910, respectively. Since the split reads 910 may exist due to various causes such as sequencing error, gene insertion, gene deletion, etc., even if multiple split reads 910 are mapped to gene X 900, gene X ( 900) cannot be determined to be a part of the translocation gene.
  • the translocation gene is assigned to gene X 900. It can be considered that there is a high possibility that a break point of. Thus, if the number of split leads 930 having break points 940 belonging to the same coverage is greater than or equal to a predetermined threshold, gene X 900 is identified as likely to correspond to a portion of the translocation gene. That is, gene X 900 may be extracted as being a gene included in the second candidate gene pairs.
  • the break points represented by the split leads 930 having the actual break points may not be exactly the same due to various reasons such as sequencing errors. Therefore, it may be desirable for the translocation identifier 120 to determine whether the breakpoint exists within a predetermined range (ie, coverage), rather than determining whether the breakpoint is the same value.
  • FIG. 10 is a diagram for explaining extraction of third candidate gene pairs using appropriateness of a fusion direction according to one embodiment.
  • translocation identifier 120 determines gene X ( 1010) and the fusion direction of the gene Y (1020) can be determined.
  • the fusion genes 1030 and 1040 on chromosome 2 (1001) and chromosome 1002 are combined with the 3 'end of gene X (1010) and the 5' end of gene Y (1020), and thus, translocation identifier 120 It may be determined that the fusion direction of the fusion gene 1030 is appropriate.
  • the fusion genes 1030 and 1040 having the proper fusion direction are the third candidate gene pairs, and thus, the translocation identifier 120 determines that the gene pairs included in the third candidate gene pairs It is judged that it is a translocation gene.
  • the actual translocation gene is identified by eliminating or reducing false positive judgments through the determination of the break point and the fusion direction. I can do it.
  • FIG. 11 illustrates a result of identifying translocation genes of EML4 (echinoderm microtubule-associated protein-like 4) and ALK, according to an exemplary embodiment.
  • FIG. 11 data is shown for the translocation gene of EML4-ALK identified through the analysis of translocation genes described above.
  • the IGV screenshot 1101 on the right shows the leads mapped to EML4, and the IGV screenshot 1102 on the left shows the leads mapped to ALK.
  • Leads mapped to EML4 are split at break point coverage of 42536701 to 42559688, and leads mapped to ALK are split at breakpoint coverage of 29415639 to 29446500.
  • 39 supporting leads were used to identify the translocation gene of EML4-ALK.
  • FIG. 11 is only a simulation result of verifying the identification result of the translocation gene by applying the gene analysis method described in the present embodiments to a test sample of an actual patient, and thus the present embodiments are not limited by FIG. 11.
  • the gene analysis method includes steps that are processed in time series in the gene analysis apparatus 10 described in the foregoing figures. Therefore, even if omitted below, the contents described above may be applied to the genetic analysis method of FIG. 12.
  • the read analyzer 110 obtains data regarding split leads and mismatched PE leads from next generation sequencing (NGS) data of a test sample.
  • NGS next generation sequencing
  • the translocation identifier 120 extracts the first candidate gene pairs that are likely to be translocated in the chromosome of the test sample using split reads and mismatched PE reads.
  • the translocation identifier 120 identifies the translocation gene among the first candidate gene pairs based on the break points indicated by the split leads and the fusion direction of the first candidate gene pairs.
  • FIG. 13 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
  • the computing device 1 includes a genetic analysis device (processor) 10, a data interface 11, and a memory 12.
  • the computing device 1 shown in FIG. 13 has only general components related to the present embodiment in order to prevent the features of the present embodiment from being blurred. Therefore, the computing device 1 shown in FIG. Components may be further included.
  • the data interface 11 receives the reference gene data 20 of the normal population and the test gene data 30 of the subject described in FIG. 1. That is, the data interface 11 may be implemented in hardware of a wired / wireless network interface for the computing device 1 to communicate with other external devices. The data interface 11 transmits the received genetic data 20 and 30 to the genetic analysis device (processor) 10.
  • the data interface 11 may receive the test gene data 30 of the test subject from an external next-generation sequencing device, a microarray, or the like for sequencing the test gene of the test subject.
  • the memory 12 is hardware for storing data to be processed in the computing device 1 and the processed results, and memory chips such as random access memory (RAM), read only memory (ROM), or a hard disk (HDD). drive, solid state drive (SSD), and the like. That is, the memory 12 may store the genetic data 20 and 30 received by the data interface 11 and store the first to third candidate gene pairs processed by the genetic analysis device (processor) 10. Relevant data, data on the identified transgenes, etc. can be stored.
  • RAM random access memory
  • ROM read only memory
  • HDD hard disk
  • SSD solid state drive
  • Genetic analysis device (processor) 10 is a module implemented in one or more processing units, which may be implemented as a combination of a microprocessor having an array of multiple logic gates and a memory module storing a program that can be executed on the microprocessor. have. Genetic analysis device (processor) 10 may be implemented in the form of a module of an application program. The genetic analysis device (processor) 10 is a hardware device for processing the gene analysis described above with reference to FIGS. 1 to 12.
  • Information about the translocation gene identified by the genetic analysis device (processor) 10 is transmitted via the data interface 11 to another external device, such as a display device, another computing device, or the like, or an external network, eg For example, it can be transmitted over the Internet, public database (DB) server.
  • another external device such as a display device, another computing device, or the like, or an external network, eg For example, it can be transmitted over the Internet, public database (DB) server.
  • DB public database
  • the translocation gene can be detected from cancer tissue of a subject (eg, a cancer patient). Furthermore, even if genes (test genes) of cancer tissue (test sample) obtained from a subject are slightly damaged chemically by FFPE treatment, the translocation gene can be accurately determined.
  • the device may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a button, and the like. And a user interface device.
  • Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor.
  • the computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc).
  • the computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • the medium is readable by the computer, stored in the memory, and can be executed by the processor.
  • This embodiment can be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions.
  • an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them.
  • the present embodiment includes various algorithms implemented in C, C ++, Java (data structures, processes, routines or other combinations of programming constructs). It may be implemented in a programming or scripting language such as Java), an assembler, or the like.
  • the functional aspects may be implemented with an algorithm running on one or more processors.
  • the present embodiment may employ the prior art for electronic environment setting, signal processing, and / or data processing.
  • Terms such as “mechanism”, “element”, “means” and “configuration” can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

A method and a device for analyzing a gene obtain data related to reads from next-generation sequencing (NGS) data of a sample to be tested, extract candidate gene pairs having a possibility of chromosomal translocation from the sample to be tested by using the reads, and identify translocation genes among the candidate gene pairs.

Description

유전자를 분석하는 방법 및 장치Methods and apparatus for analyzing genes
유전자를 분석하는 방법 및 장치에 관한 것으로서, 특히 전좌(translocation) 유전자에 관한 데이터를 분석하는 방법 및 장치에 관한다.A method and apparatus for analyzing genes, and more particularly, a method and apparatus for analyzing data regarding translocation genes.
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체의 시퀀싱(sequencing)을 위하여, DNA 칩 및 차세대 서열화(Next Generation Sequencing) 기술, 차차세대 서열화(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 핵산 서열, 단백질 등과 같은 유전 정보들은 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 핵산 서열, 단백질 등과 같은 유전자 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 최근, 시퀀싱 기술의 발달로 다양한 종류의 구조적 변이(structure variation)를 발굴해내는 시도가 많아졌지만, 여전히 상당한 양의 위양성(false positive)나 위음성(false negative) 결과의 발생은 여전히 바이오인포매틱스(bioinformatics)의 도전적인 요소가 많이 남아있음을 반증한다.A genome is all the genetic information of a living thing. For sequencing of an individual's genome, various technologies such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology have been developed. Analysis of genetic information such as nucleic acid sequences, proteins, etc., is widely used to find genes that express diseases such as diabetes and cancer, or to identify correlations between genetic diversity and individual expression characteristics. In particular, the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression. Therefore, genetic data such as nucleic acid sequences, proteins, etc. of an individual are essential data for identifying current and future disease-related information to prevent disease or select an optimal treatment method at an early stage of disease. Recently, with the development of sequencing technology, many attempts have been made to discover various kinds of structural variations, but the generation of significant amounts of false positives or false negatives is still in bioinformatics. Disprove many challenging elements).
유전자를 분석하는 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.To provide a method and apparatus for analyzing a gene. The technical problem to be achieved by the present embodiment is not limited to the technical problems as described above, and further technical problems can be inferred from the following embodiments.
일 측면에 따르면, 유전자를 분석하는 방법은, 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 단계; 상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하는 단계; 및 상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 단계를 포함한다.According to one aspect, a method of analyzing a gene obtains data about split reads and discreetly aligned paired-end reads from next generation sequencing (NGS) data of a test sample. Making; Extracting first candidate gene pairs that are likely for translocation in the chromosome of the test sample using the split reads and the PE reads; And identifying a translocation gene among the first candidate gene pairs based on break points indicated by the split leads and a fusion direction of the first candidate gene pairs.
또한, 상기 식별하는 단계는 상기 추출된 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출하는 단계를 포함하고, 상기 전좌 유전자는 상기 추출된 제 2 후보 유전자 쌍들로부터 식별된다.The identifying may include extracting, from the extracted first candidate gene pairs, second candidate gene pairs including a gene in which a plurality of split reads having breakpoints belonging to the same coverage are arranged. The transgenic gene is identified from the extracted second candidate gene pairs.
또한, 상기 추출된 제 2 후보 유전자 쌍들에 포함된 상기 유전자는 상기 동일한 커버리지에 속한 상기 브레이크 포인트를 갖는 상기 스플릿 리드들의 개수가 소정 임계값 이상일 수 있다.In addition, the gene included in the extracted second candidate gene pairs may have the number of split leads having the break point belonging to the same coverage to be greater than or equal to a predetermined threshold.
또한, 상기 식별하는 단계는 상기 추출된 제 2 후보 유전자 쌍들 중에서, 서로 다른 유전자들 간의 상기 퓨전 방향이 5’엔드(end)부터 3’엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출하는 단계를 포함하고, 상기 전좌 유전자는 상기 추출된 제 2 후보 유전자 쌍들로부터 식별된다.In addition, the identifying may include a third candidate in which the fusion direction between different genes among the extracted second candidate gene pairs is from 5 'end to 3' end, or from 3 'end to 5' end. Extracting gene pairs, wherein the translocation gene is identified from the extracted second candidate gene pairs.
또한, 상기 NGS 데이터는 BAM(binary version of SAM) 포맷 또는 SAM(Sequence Alignment/Map) 포맷의 데이터를 포함한다.In addition, the NGS data includes data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
또한, 상기 획득하는 단계는 상기 BAM 포맷 또는 상기 SAM 포맷의 데이터로부터, 상기 스플릿 리드들 및 상기 PE 리드들 각각에 대한 FLAG 및 CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링의 데이터를 획득한다.In addition, the acquiring step may acquire data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for the split leads and the PE leads from the data of the BAM format or the SAM format.
또한, 상기 NGS 데이터는 상기 피검 샘플에서 표적 유전자들의 염기서열을 식별하기 위한 표적 시퀀싱(targeted sequencing)에 의해 생성된다.In addition, the NGS data is generated by targeted sequencing to identify base sequences of target genes in the test sample.
또한, 상기 피검 샘플은 생검 샘플 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 샘플이다.In addition, the test sample is a biopsy sample or formalin-fixed, paraffin-embedded (FFPE) sample.
다른 측면에 따르면, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.According to another aspect, there is provided a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
또 다른 측면에 따르면, 유전자를 분석하는 장치는, 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 리드 분석부; 및 상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하고, 상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 전좌 식별부를 포함한다.According to another aspect, an apparatus for analyzing a gene may include data about split reads and paired-end reads that are discreetly aligned from next generation sequencing (NGS) data of a test sample. A lead analyzing unit to obtain; And extracting the first candidate gene pairs that are likely to be translocation within the chromosome of the test sample using the split reads and the PE reads, and the break points represented by the split reads and the first read. And a translocation identifier that identifies a translocation gene among the first candidate gene pairs based on a fusion direction of the first candidate gene pairs.
또한, 상기 전좌 식별부는 상기 추출된 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출하고, 상기 전좌 유전자는 상기 추출된 제 2 후보 유전자 쌍들로부터 식별된다.The translocation identifier extracts second candidate gene pairs including a gene in which a plurality of split leads having breakpoints belonging to the same coverage are arranged among the extracted first candidate gene pairs, and the translocation gene is extracted. Second candidate gene pairs.
또한, 상기 추출된 제 2 후보 유전자 쌍들에 포함된 상기 유전자는 상기 동일한 커버리지에 속한 상기 브레이크 포인트를 갖는 상기 스플릿 리드들의 개수가 소정 임계값 이상일 수 있다.In addition, the gene included in the extracted second candidate gene pairs may have the number of split leads having the break point belonging to the same coverage to be greater than or equal to a predetermined threshold.
또한, 상기 전좌 식별부는 상기 추출된 제 2 후보 유전자 쌍들 중에서, 서로 다른 유전자들 간의 상기 퓨전 방향이 5’엔드(end)부터 3’엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출하고, 상기 전좌 유전자는 상기 추출된 제 2 후보 유전자 쌍들로부터 식별된다.The translocation identifier may further include a third candidate gene in which the fusion direction between different genes is from 5 'end to 3' end, or from 3 'end to 5' end among the extracted second candidate gene pairs. Pairs are extracted and the translocation gene is identified from the extracted second candidate gene pairs.
또한, 상기 NGS 데이터는 BAM(binary version of SAM) 포맷 또는 SAM(Sequence Alignment/Map) 포맷의 데이터를 포함한다.In addition, the NGS data includes data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
또한, 상기 리드 분석부는 상기 BAM 포맷 또는 상기 SAM 포맷의 데이터로부터, 상기 스플릿 리드들 및 상기 PE 리드들 각각에 대한 FLAG 및 CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링의 데이터를 획득한다.In addition, the read analyzer obtains data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for the split leads and the PE leads from the data of the BAM format or the SAM format.
또한, 상기 NGS 데이터는 상기 피검 샘플에서 표적 유전자들의 염기서열을 식별하기 위한 표적 시퀀싱(targeted sequencing)에 의해 생성된다.In addition, the NGS data is generated by targeted sequencing to identify base sequences of target genes in the test sample.
또한, 상기 피검 샘플은 생검 샘플 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 샘플이다.In addition, the test sample is a biopsy sample or formalin-fixed, paraffin-embedded (FFPE) sample.
상기된 바에 따르면, 피검체의 피검 샘플로부터 추출된 피검 유전자로부터 전좌 유전자가 존재하는지를 보다 정확하게 분석해 낼 수 있다.As described above, it is possible to analyze more accurately whether the translocation gene exists from the test gene extracted from the test sample of the test subject.
도 1은 일 실시예에 따른 유전자 분석 장치를 설명하기 위한 도면이다.1 is a view for explaining a gene analysis apparatus according to an embodiment.
도 2는 일 실시예에 따른 유전자 분석 장치의 하드웨어 구성들을 도시한 블록도이다.2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
도 3은 일 실시예에 따른 PE 리드들을 설명하기 위한 도면이다.3 is a diagram for describing PE leads according to an exemplary embodiment.
도 4는 일 실시예에 따라 불일치 정렬된 PE 리드들을 설명하기 위한 도면이다.4 is a diagram illustrating misaligned PE leads according to an exemplary embodiment.
도 5는 일 실시예에 따른 스플릿 리드들을 설명하기 위한 도면이다.5 is a diagram for describing split leads, according to an exemplary embodiment.
도 6은 일 실시예에 따른 피검체의 생검 샘플로부터 획득된 리드들을 레퍼런스 유전자 데이터와 비교한 IGV(Integrative Genomics Viewer) 스크린샷을 설명하기 위한 도면이다.FIG. 6 is a diagram for describing an IGV (Integrative Genomics Viewer) screenshot comparing reads obtained from a biopsy sample of a subject according to an embodiment with reference gene data. FIG.
도 7은 일 실시예에 따른 피검체의 FFPE 샘플로부터 획득된 리드들을 레퍼런스 유전자 데이터와 비교한 IGV 스크린샷을 설명하기 위한 도면이다.7 is a diagram illustrating an IGV screenshot comparing reads obtained from an FFPE sample of a subject according to an embodiment with reference gene data.
도 8은 일 실시예에 따라 전좌 식별부에서 후보 유전자 쌍들을 추출하여 전좌 유전자를 식별하는 방법의 흐름도이다.8 is a flowchart of a method of identifying a translocation gene by extracting candidate gene pairs from the translocation identification unit, according to an exemplary embodiment.
도 9는 일 실시예에 따라 스플릿 리드들의 브레이크 포인트들을 이용하여 제 2 후보 유전자 쌍들을 추출하는 것을 설명하기 위한 도면이다.9 is a diagram for describing extracting second candidate gene pairs using break points of split reads, according to an exemplary embodiment.
도 10은 일 실시예에 따라 퓨전 방향의 적절성을 이용하여 제 3 후보 유전자 쌍들을 추출하는 것을 설명하기 위한 도면이다.FIG. 10 is a diagram for explaining extraction of third candidate gene pairs using appropriateness of a fusion direction according to one embodiment. FIG.
도 11은 일 실시예에 따라 EML4(echinoderm microtubule-associated protein-like 4) 및 ALK(anaplastic lymphoma kinase)의 전좌 유전자를 식별한 결과를 설명하기 위한 도면이다.FIG. 11 is a diagram illustrating a result of identifying translocation genes of EML4 (echinoderm microtubule-associated protein-like 4) and ALK (anaplastic lymphoma kinase) according to one embodiment.
도 12는 일 실시예에 따라 유전자를 분석하는 방법의 흐름도이다.12 is a flowchart of a method of analyzing a gene, according to an embodiment.
도 13은 일 실시예에 따른 컴퓨팅 장치의 하드웨어 구성들을 도시한 블록도이다.13 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
일 측면에 따르면, 유전자를 분석하는 방법은, 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 단계; 상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하는 단계; 및 상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 단계를 포함한다.According to one aspect, a method of analyzing a gene obtains data about split reads and discreetly aligned paired-end reads from next generation sequencing (NGS) data of a test sample. Making; Extracting first candidate gene pairs that are likely for translocation in the chromosome of the test sample using the split reads and the PE reads; And identifying a translocation gene among the first candidate gene pairs based on break points indicated by the split leads and a fusion direction of the first candidate gene pairs.
다른 측면에 따르면, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.According to another aspect, there is provided a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
또 다른 측면에 따르면, 유전자를 분석하는 장치는, 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 리드 분석부; 및 상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하고, 상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 전좌 식별부를 포함한다.According to another aspect, an apparatus for analyzing a gene may include data about split reads and paired-end reads that are discreetly aligned from next generation sequencing (NGS) data of a test sample. A lead analyzing unit to obtain; And extracting the first candidate gene pairs that are likely to be translocation within the chromosome of the test sample using the split reads and the PE reads, and the break points represented by the split reads and the first read. And a translocation identifier that identifies a translocation gene among the first candidate gene pairs based on a fusion direction of the first candidate gene pairs.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.The terminology used in the present embodiments is to select general terms widely used now, considering the functions of the present embodiments, but this will vary depending on the intention or precedent of the person skilled in the art, the emergence of new technologies, etc. Can be. In addition, in certain cases, there is also a term arbitrarily selected, in which case the meaning will be described in detail in the description of the corresponding embodiment. Therefore, the terms used in the present embodiments should be defined based on the meanings of the terms and the contents throughout the embodiments, rather than simply the names of the terms.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 “...부”, “...모듈”의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the descriptions of the embodiments, when a part is connected to another part, it includes not only a case where the part is directly connected, but also an electric part connected between other components in between. . In addition, when a part includes a certain component, this means that the component may further include other components, not to exclude other components unless specifically stated otherwise. In addition, the terms "... unit", "... module" described in the embodiments means a unit for processing at least one function or operation, which is implemented in hardware or software, or a combination of hardware and software. Can be implemented.
본 실시예들에서 사용되는 “구성된다” 또는 “포함한다” 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Terms such as “consisting of” or “comprising” as used in the present embodiments should not be construed as necessarily including all of the various components or steps described in the specification, and some of the components or It is to be understood that some steps may not be included or may further include additional components or steps.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.The description of the following embodiments should not be construed as limiting the scope of rights, and it should be construed as belonging to the scope of the embodiments as can be easily inferred by those skilled in the art. Hereinafter, only exemplary embodiments will be described in detail with reference to the accompanying drawings.
도 1은 일 실시예에 따른 유전자 분석 장치를 설명하기 위한 도면이다.1 is a view for explaining a gene analysis apparatus according to an embodiment.
도 1을 참고하면, 유전자 분석 장치(10)는 정상인 집단의 레퍼런스 유전자 데이터(20) 및 피검체의 피검 생물학적 샘플로부터 획득된 피검 유전자 데이터(30)를 이용하여, 피검 샘플의 피검 유전자에 전좌(translocation) 유전자가 존재하는지 여부를 식별할 수 있다.Referring to FIG. 1, the genetic analysis apparatus 10 may transfer translocation to a test gene of a test sample by using reference gene data 20 of a normal population and test gene data 30 obtained from a test biological sample of a test subject. translocation) genes can be identified.
유전자 분석 장치(10)에서 수신하는 피검 유전자 데이터(30)는, 차세대 시퀀싱(next generation sequencing, NGS)에 의해 획득된 NGS 데이터일 수 있고, NGS 데이터는 BAM(binary version of SAM) 포맷 또는 SAM(Sequence Alignment/Map) 포맷의 유전자 데이터를 포함할 수 있다. BAM 포맷 또는 SAM 포맷은 보통 짧은 리드들(short reads)에 관한 데이터를 서술하는 포맷으로 이용될 수 있다. BAM 포맷 또는 SAM 포맷의 파일에는 리드(read)의 시작 포인트, 리드의 방향(direction), 매핑 퀄리티, 얼라인먼트의 차수를 나타내는 FLAG, CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링 등에 관한 텍스트 데이터가 포함될 수 있다. 여기서, FLAG는 1차(primary) 얼라인먼트-1차 얼라인먼트 쌍, 1차 얼라인먼트-2차(secondary) 얼라인먼트 쌍, 2차 얼라인먼트-1차 얼라인먼트 쌍 또는 2차 얼라인먼트-2차 얼라인먼트 쌍 중 어느 얼라인먼트 쌍인지를 구분하기 위한 식별자일 수 있다. 다양한 얼라인먼트 쌍을 생성함으로써 다양한 서포팅 리드들(supporting reads)을 확보할 수 있다.The test gene data 30 received by the genetic analysis device 10 may be NGS data obtained by next generation sequencing (NGS), and the NGS data may be in a binary version of SAM (BAM) format or SAM ( Sequence Alignment / Map) format may include genetic data. The BAM format or SAM format can usually be used as a format that describes data relating to short reads. The file in BAM format or SAM format may include text data about start point of read, direction of read, mapping quality, FLAG indicating alignment order, Compact Idiosyncratic Gapped Alignment Report (CIGAR) string, and the like. . Here, FLAG is an alignment pair of a primary alignment-primary alignment pair, a primary alignment-secondary alignment pair, a secondary alignment-primary alignment pair, or a secondary alignment-secondary alignment pair. It may be an identifier for identifying. By creating various alignment pairs, various supporting reads can be obtained.
레퍼런스 유전자 데이터(20)는, NCBI(National Center for Biotechnology Information), Gene Expression Omnibus (GEO) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득되거나, 또는 피검체의 피검 유전자들을 분석하기 위하여 모집된 사람들의 생물학적 샘플들로부터 획득된 것일 수 있다. Reference gene data 20 may be obtained from a database already known in the art such as the National Center for Biotechnology Information (NCBI), Gene®Expression Omnibus (GEO), or the like, or to analyze a subject's genes. It may be from biological samples of the recruited people.
한편, 레퍼런스 유전자 데이터(20)에 포함된 레퍼런스 유전자들 또는 피검 유전자 데이터(30)에 포함된 피검 유전자들은, 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded) 조직으로부터 획득된 것일 수 있다.Meanwhile, the reference genes included in the reference gene data 20 or the test genes included in the test gene data 30 may be obtained from biopsy tissue, formalin-fixed tissue, or paraffin-embedded tissue. It may be obtained.
전좌는, 염색체의 일부분에 절단이 일어나고, 그 절단된 단편이 같은 염색체 내의 다른 부분 또는 다른 염색체에 결합된 현상을 의미하는 것으로써, 결국 염색체의 구조적 변이(structure variation)를 의미한다.Translocation refers to a phenomenon in which a cleavage occurs in a portion of a chromosome and the cleaved fragment is bound to another portion or another chromosome in the same chromosome, which in turn means structural variation of the chromosome.
유전자 분석 장치(10)는 정상인 집단으로부터 획득된 레퍼런스 유전자 데이터(20) 대비 피검체의 피검 샘플로부터 획득된 피검 유전자 데이터(30)에 전좌 유전자가 존재하는지 여부를 판단할 수 있다. 여기서, 유전자 분석 장치(10)에 의해 분석되는 유전자는 DNA(deoxyribonucleic acid), RNA(ribonucleic acid) 등과 같은 핵산을 의미할 수 있다.The genetic analysis apparatus 10 may determine whether the translocation gene exists in the test gene data 30 obtained from the test sample of the subject compared with the reference gene data 20 obtained from the normal population. Here, the gene analyzed by the genetic analysis device 10 may refer to a nucleic acid such as DNA (deoxyribonucleic acid), RNA (ribonucleic acid), and the like.
본 실시예들에서, 정상인 집단은 특정 질병, 예를 들어 암, 종양 등이 발견되지 않은 일반 사람들로 구성된 집단을 의미하고, 피검체는 암, 종양 등과 같은 특정 질병이 발견된 환자를 의미할 수 있다. 한편, 본 실시예들에서 정상인 집단, 피검체는 인간이 아닌, 다른 동물들에 해당될 수도 있다.In the present embodiments, the normal population may refer to a population composed of ordinary people who have not found a specific disease, such as cancer or a tumor, and the subject may refer to a patient where a specific disease such as cancer or a tumor is found. have. Meanwhile, in the present embodiments, the normal population and the subject may correspond to other animals other than humans.
유전자 분석 장치(10)는 유전자 데이터들(20 및 30)을 분석하여 전좌 유전자를 식별하기 위한 다양한 명령어들, 다양한 알고리즘들을 수행하는 데이터 프로세싱의 기능을 갖는 적어도 하나의 프로세서로 구현될 수 있다.The genetic analysis apparatus 10 may be implemented with at least one processor having a function of data processing for analyzing various genetic data 20 and 30 to identify translocation genes and performing various algorithms.
도 2는 일 실시예에 따른 유전자 분석 장치의 하드웨어 구성들을 도시한 블록도이다.2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
도 2를 참고하면, 유전자 분석 장치(10)는 리드 분석부(110) 및 전좌 식별부(120)를 포함할 수 있다. 한편, 도 2에 도시된 유전자 분석 장치(10)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 유전자 분석 장치(10)는 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.Referring to FIG. 2, the genetic analysis apparatus 10 may include a read analyzer 110 and a translocation identifier 120. On the other hand, since the gene analysis apparatus 10 shown in FIG. 2 only shows the components related to the present embodiment in order to prevent the features of the present embodiment from being blurred, the gene analysis apparatus 10 is shown in FIG. In addition to the components, other general purpose components may be further included.
리드 분석부(110)는 앞서 도 1에서 설명된 피검 유전자 데이터(30)에 포함된, 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치 정렬된(discordantly aligned) PE(paired-end) 리드들에 관한 데이터를 획득한다.The read analyzer 110 splits reads and discordantly aligned PE from next generation sequencing (NGS) data of the test sample, which is included in the test gene data 30 described above with reference to FIG. 1. Obtain data about paired-end leads.
피검 유전자 데이터(30)에 포함된 NGS 데이터는, BAM 포맷 또는 SAM 포맷의 데이터로서, 리드 분석부(110)는 BAM 포맷 또는 SAM 포맷의 데이터로부터, 스플릿 리드들 및 PE 리드들 각각에 대한 리드(read)의 시작 포인트, 리드의 방향(direction), 매핑 퀄리티, 얼라인먼트의 차수를 나타내는 FLAG, CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링 등에 관한 텍스트 데이터들을 획득할 수 있다.The NGS data included in the test gene data 30 is data in a BAM format or a SAM format, and the read analyzer 110 reads each of the split leads and the PE leads from the data in the BAM format or the SAM format. Text data regarding a start point of a read, a read direction, a mapping quality, a FLAG indicating an order of alignment, and a compact Idiosyncratic Gapped Alignment Report (CIGAR) string may be acquired.
일반적으로, 피검 샘플로부터 피검 유전자의 염기서열을 분석하기 위한 시퀀싱 기술로서, WGS(whole genome sequencing), WES(whole exome sequencing) 등과 같은 NGS 기술들이 알려져 있다. 다만, 본 실시예에 따른 NGS 데이터는 피검 샘플에서 전체 게놈이 아닌, 일부의 표적 유전자들(target genes)의 염기서열을 식별하기 위한 표적 시퀀싱(targeted sequencing)에 의해 생성될 수 있다.Generally, as a sequencing technique for analyzing the sequence of a test gene from a test sample, NGS techniques such as whole genome sequencing (WGS), whole exome sequencing (WES), and the like are known. However, the NGS data according to the present embodiment may be generated by targeted sequencing for identifying nucleotide sequences of some target genes, but not the entire genome in a test sample.
한편, 피검 샘플은 피검체로부터 획득된 생검 샘플, 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 샘플일 수 있다.On the other hand, the test sample may be a biopsy sample obtained from the subject, a formalin-fixed paraffin-embedded (FFPE) sample.
전좌 식별부(120)는 스플릿 리드들 및 불일치 정렬된 PE 리드들을 이용하여 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출한다. 스플릿 리드들로 시퀀싱된 유전자, 또는 불일치 정렬된 PE 리드들로 시퀀싱된 유전자는, 유전자 일부의 염기서열이 레퍼런스 유전자(정상인의 유전자)와 차이가 있을 가능성이 높은 후보로 간주될 수 있다. The translocation identifier 120 extracts the first candidate gene pairs that are likely to be translocation in the chromosome of the test sample using split reads and mismatched PE reads. A gene sequenced into split reads, or a gene sequenced into mismatched PE leads, may be considered a candidate with a high probability that the nucleotide sequence of some of the genes may differ from the reference gene (the gene of normal person).
전좌 식별부(120)는 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별한다.The translocation identifier 120 identifies the translocation gene among the first candidate gene pairs based on the break points indicated by the split leads and the fusion direction of the first candidate gene pairs.
보다 상세하게 설명하면, 전좌 식별부(120)는 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출할 수 있다. 즉, 전좌 유전자는, 제 1 후보 유전자 쌍들보다 좁은 범위로 압축된 제 2 후보 유전자 쌍들로부터 식별될 수 있다. 여기서, 제 2 후보 유전자 쌍들에 포함된 유전자는, 동일한 커버리지에 속한 브레이크 포인트를 갖는 스플릿 리드들의 개수가 소정 임계값 이상일 수 있다. 커버리지는, 시퀀싱 오차를 고려하여 동일한 브레이크 포인트라 간주될 수 있는 브레이크 포인트의 오차 범위를 의미한다. 예를 들어, 소정 임계값이 3개인 경우, 동일한 커버리지 내에 속한 브레이크 포인트를 갖는 스플릿 리드들의 개수가 3개 이상인 유전자가 제 2 후보 유전자 쌍들에 포함될 수 있다. 다만, 소정 임계값은 다양하게 바뀔 수 있다.In more detail, the translocation identifier 120 may extract second candidate gene pairs including genes in which a plurality of split leads having break points belonging to the same coverage are arranged among the first candidate gene pairs. That is, the translocation gene can be identified from second candidate gene pairs compressed to a narrower range than the first candidate gene pairs. Here, in the genes included in the second candidate gene pairs, the number of split leads having break points belonging to the same coverage may be greater than or equal to a predetermined threshold. Coverage refers to an error range of break points that can be considered the same break point in consideration of sequencing errors. For example, when the predetermined threshold is three, genes having three or more split leads having break points within the same coverage may be included in the second candidate gene pairs. However, the predetermined threshold value may be variously changed.
나아가서, 전좌 식별부(120)는 제 2 후보 유전자 쌍들 중에서, 서로 다른 유전자들 간의 퓨전 방향이 5’엔드(end)부터 3’엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출할 수 있다. 즉, 전좌 유전자는, 제 2 후보 유전자 쌍들보다 더 좁은 범위로 압축된 제 3 후보 유전자 쌍들로부터 식별될 수 있다. 예를 들어, 유전자 A의 3’엔드와 유전자 B의 3’엔드가 결합된 퓨전 유전자의 경우에는, 생물학적 발현의 기능을 갖지 않는 무의미한 퓨전 유전자일 수 있다. 따라서, 전좌 식별부(120)는 퓨전 방향을 고려하여 제 2 후보 유전자 쌍들 중에서 퓨전 방향이 부적절한 유전자 쌍들을 필터링하여 제 3 후보 유전자 쌍들을 추출한다.Further, the translocation identifier 120 may include a third candidate gene pair having a fusion direction between 5'ends and 3'ends or between 3'ends and 5'ends among the second candidate gene pairs. Can extract them. That is, the translocation gene can be identified from third candidate gene pairs compressed to a narrower range than the second candidate gene pairs. For example, a fusion gene in which the 3 ′ end of gene A and the 3 ′ end of gene B are combined may be a meaningless fusion gene that does not have a function of biological expression. Therefore, the translocation identification unit 120 extracts the third candidate gene pairs by filtering gene pairs having inappropriate fusion directions among the second candidate gene pairs in consideration of the fusion direction.
전좌 식별부(120)는, 최종적으로, 제 3 후보 유전자 쌍들에 포함된 유전자 쌍은 전좌 유전자인 것으로 판단할 수 있다.The translocation identification unit 120 may finally determine that the gene pair included in the third candidate gene pairs is a translocation gene.
도 3은 일 실시예에 따른 PE 리드들을 설명하기 위한 도면이다.3 is a diagram for describing PE leads according to an exemplary embodiment.
도 3을 참고하면, PE의 시퀀싱은 피검 샘플의 피검 유전자를 양쪽 엔드들에서 각각 시퀀싱하는 것을 의미한다. 본 실시예들에서는 표적 시퀀싱을 수행하는 것으로 앞서 설명되었으므로, 시퀀싱될 피검 샘플의 핵산(DNA, RNA 등)(300)은 500bp(base pair)의 크기인 것으로 가정할 수 있다. 리드 크기가 100bp인 것으로 설정된 경우, PE 리드들(310 및 320)은 핵산(300)의 양쪽 엔드들로부터 시퀀싱되어 생성될 수 있다. 리드 크기가 핵산(300)의 크기보다 작으므로, 핵산(300)의 나머지 부분들에 대해서는 별도의 리드들이 생성되지 않을 수 있다. 한편, 본 실시예에 따른 PE의 시퀀싱은 엑손(305)뿐만 아니라, 인트론도 함께 시퀀싱하여 PE 리드들(310 및 320)을 획득할 수 있다. PE의 시퀀싱을 이용하는 이유에 대해서는 도 4를 참조하여 보다 상세하게 설명하도록 한다.Referring to FIG. 3, sequencing of PE means sequencing a test gene of a test sample at both ends, respectively. In the present exemplary embodiment, since it has been described above to perform target sequencing, it may be assumed that the nucleic acid (DNA, RNA, etc.) 300 of the test sample to be sequenced is 500bp (base pair) in size. If the read size is set to 100 bp, PE leads 310 and 320 may be generated by sequencing from both ends of nucleic acid 300. Since the read size is smaller than the size of the nucleic acid 300, separate reads may not be generated for the remaining portions of the nucleic acid 300. Meanwhile, the sequencing of the PE according to the present exemplary embodiment may sequence not only the exon 305 but also the intron to obtain the PE leads 310 and 320. The reason for using the sequencing of the PE will be described in more detail with reference to FIG. 4.
도 4는 일 실시예에 따라 불일치 정렬된 PE 리드들을 설명하기 위한 도면이다.4 is a diagram illustrating misaligned PE leads according to an exemplary embodiment.
전좌 유전자는 동일 염색체 내의 서로 다른 유전자가 결합되거나 또는 다른 염색체들 내의 서로 다른 유전자가 결합된(퓨전된) 것일 수 있다. 결국, 전좌 유전자의 5’엔드 쪽의 유전자 염기서열과 3’엔드 쪽의 유전자 염기서열은 각각 서로 다른 유전자들로부터 유래된 것이다. 따라서, PE 리드들(410 및 420)의 염기서열은, 그 시퀀싱 위치들에 대응되는 정상인의 레퍼런스 유전자의 염기서열과는 차이가 명백할 것이다.The transgenic gene may be a combination of different genes within the same chromosome or different genes within different chromosomes. As a result, the gene sequence on the 5 'end and the gene sequence on the 3' end of the translocation gene are derived from different genes. Thus, the nucleotide sequence of the PE leads 410 and 420 will be clear from the nucleotide sequence of the reference gene of the normal person corresponding to the sequencing positions.
도 4를 참고하면, 정상인의 레퍼런스 유전자의 염기서열을 기준으로 PE 리드(410)가 염색체 2 내에 존재하는 어느 유전자(401)에 매핑되고 PE 리드(420)가 염색체 3 내에 존재하는 다른 유전자(402)에 매핑된 경우, PE 리드들(410 및 420) 각각은 피검 샘플에 존재하는 퓨전 유전자(전좌 유전자)로부터 기인되었을 가능성이 있다는 점을 유추할 수 있다. 이와 같은 리드들은 불일치 정렬된 PE 리드들(410 및 420)이라 정의될 수 있다. 이와 같은 불일치 정렬된 PE 리드들(410 및 420)에 매핑된 유전자 쌍(401 및 402)은 앞서 설명된 제 1 후보 유전자 쌍들에 포함될 수 있다.Referring to FIG. 4, the PE lead 410 is mapped to any gene 401 present in chromosome 2 and the PE lead 420 is present in chromosome 3 based on the nucleotide sequence of the reference gene of a normal person. ), It can be inferred that each of the PE leads 410 and 420 may have originated from a fusion gene (translocation gene) present in the test sample. Such leads may be defined as misaligned PE leads 410 and 420. Gene pairs 401 and 402 mapped to such mismatched PE leads 410 and 420 may be included in the first candidate gene pairs described above.
도 5는 일 실시예에 따른 스플릿 리드들을 설명하기 위한 도면이다.5 is a diagram for describing split leads, according to an exemplary embodiment.
도 5를 참고하면, 스플릿 리드(510)는 레퍼런스 유전자의 염기서열과 일부만 일치하고 나머지 일부와는 일치하지 않는 염기서열을 갖는 리드를 의미한다. 피검 샘플의 피검 유전자에 대응되는 어느 리드가, 대응되는 레퍼런스 유전자의 염기서열과 일치하는 경우에는, 그 피검 유전자의 염기서열에는 구조적 변이가 없는 것으로 간주될 수 있다. 하지만, 스플릿 리드(510)와 같이, 레퍼런스 유전자의 염기서열과 일부만 일치하고 나머지 일부는 일치하지 않는다면, 피검 유전자의 염기서열은 레퍼런스 유전자의 염기서열과 차이가 있다는 점을 유추할 수 있다. 따라서, 이와 같은 스플릿 리드(510)에 매핑된 유전자들(501 및 502)은 앞서 설명된 제 1 후보 유전자 쌍들에 포함될 수 있다.Referring to FIG. 5, the split read 510 refers to a read having a nucleotide sequence only partially matching the base sequence of the reference gene and not matching the other portion. When a read corresponding to the test gene of the test sample matches the base sequence of the corresponding reference gene, it can be considered that there is no structural variation in the base sequence of the test gene. However, as in the split read 510, if only a part of the base sequence of the reference gene and some of the others do not match, it can be inferred that the base sequence of the test gene is different from the base sequence of the reference gene. Accordingly, the genes 501 and 502 mapped to the split read 510 may be included in the first candidate gene pairs described above.
예를 들어, 스플릿 리드(511)의 CIGAR 스트링이 75M25S인 경우, 스플릿 리드(511)는 75개의 염기서열만 유전자 A(501)와 일치하고 나머지 25개의 염기서열은 유전자 A(501)와 일치하지 않는 리드이다. 또한, 스플릿 리드(512)의 CIGAR 스트링이 80M20S인 경우, 스플릿 리드(512)는 80개의 염기서열만 유전자 A(501)와 일치하고 나머지 20개의 염기서열은 유전자 A(501)와 일치하지 않는 리드이다. 리드 분석부(도 1의 110)는 BAM 포맷 또는 SAM 포맷의 데이터로부터 이와 같은 스플릿 리드들의 데이터를 획득할 수 있다.For example, if the CIGAR string of the split read 511 is 75M25S, the split read 511 matches only 75 base sequences with gene A 501 and the remaining 25 base sequences do not match gene A 501. Is not the lead. In addition, when the CIGAR string of the split read 512 is 80M20S, the split read 512 matches only 80 nucleotide sequences with the gene A 501 and the remaining 20 nucleotide sequences do not match the gene A 501. to be. The read analyzer 110 of FIG. 1 may obtain data of such split leads from data of a BAM format or a SAM format.
도 6은 일 실시예에 따른 피검체의 생검 샘플로부터 획득된 리드들을 레퍼런스 유전자 데이터와 비교한 IGV(Integrative Genomics Viewer) 스크린샷을 설명하기 위한 도면이다.FIG. 6 is a diagram for describing an IGV (Integrative Genomics Viewer) screenshot comparing reads obtained from a biopsy sample of a subject according to an embodiment with reference gene data. FIG.
도 6을 참고하면, IGV 스크린샷(600)에서, 레퍼런스 유전자(예를 들어, ALK(anaplastic lymphoma kinase) 유전자)의 염기서열과 일치하는 리드들(610)은 회색 컬러로 표시된다. 하지만, 레퍼런스 유전자의 염기서열과 일치하지 않는 리드들(620)에 대해서는 회색이 아닌 다양한 컬러들로 표시된다. 즉, 다양한 컬러들로 표시되는 리드들(620)은 예를 들어, 불일치 정렬된 PE 리드들 또는 스플릿 리드들에 해당될 가능성이 높다. 따라서, 리드 분석부(도 1의 110)는 이와 같이 레퍼런스 유전자와 다른 염기서열을 갖는 리드들(620)에 대한 데이터를 획득한다.Referring to FIG. 6, in the IGV screenshot 600, the leads 610 that match the nucleotide sequence of a reference gene (eg, an analogous lymphoma kinase (ALK) gene) are displayed in gray color. However, the reads 620 that do not match the base sequence of the reference gene are displayed in various colors other than gray. That is, the leads 620 represented in various colors are likely to correspond to, for example, misaligned PE leads or split leads. Thus, the read analyzer 110 of FIG. 1 obtains data on reads 620 having a nucleotide sequence different from that of the reference gene.
도 7은 일 실시예에 따른 피검체의 FFPE 샘플로부터 획득된 리드들을 레퍼런스 유전자 데이터와 비교한 IGV 스크린샷을 설명하기 위한 도면이다.7 is a diagram illustrating an IGV screenshot comparing reads obtained from an FFPE sample of a subject according to an embodiment with reference gene data.
도 7에 도시된 IGV 스크린샷(700)에서 레퍼런스 유전자(예를 들어, ALK 유전자)의 염색체 위치는 도 6에 도시된 IGV 스크린샷(600)에서의 염색체 위치와 유사하다.The chromosomal location of the reference gene (eg, ALK gene) in the IGV screenshot 700 shown in FIG. 7 is similar to the chromosomal location in the IGV screenshot 600 shown in FIG. 6.
하지만, 앞서 설명된 도 6과 달리, IGV 스크린샷(700)은 IGV 스크린샷(도 6의 600)보다 컬러풀하다. 이는 레퍼런스 유전자의 염기서열과 일치하지 않는 리드들(예를 들어, PE 리드들, 스플릿 리드들)이 도 6의 경우보다 많다는 것을 의미한다. 그 이유로서, 도 7의 경우에서 레퍼런스 유전자는 FFPE 샘플로부터 획득된 것이기 때문이다. 생검 샘플의 수명은 짧으므로, FFPE는 생검 샘플의 생화학적 특성을 오랜 기간 유지시키기 위해 필수적인 처리이다. 생검 샘플과 달리 FFPE 샘플은 FFPE 처리에 의한 화학적 변이, 구조적 변이가 발생되므로, 일치하지 않는 리드들이 도 6의 경우보다 많아질 수 밖에 없다. 그 결과, 유전자 분석 결과에 위양성(false positive) 또는 위음성(false negative)의 판단들이 다수 포함될 수 있다. 그러나, 본 실시예들에 따르면, 레퍼런스 유전자, 피검 샘플의 피검 유전자가 생검 샘플로부터 획득된 것이거나 또는 FFPE 샘플로부터 획득된 것일지라도, 위양성(false positive) 또는 위음성(false negative)의 판단들을 제거하거나 또는 줄일 수 있다. 이하에서 보다 계속적으로 설명하도록 한다.However, unlike FIG. 6 described above, IGV screenshot 700 is more colorful than IGV screenshot (600 in FIG. 6). This means that there are more reads (eg, PE reads, split reads) that do not match the nucleotide sequence of the reference gene than in the case of FIG. 6. The reason is that in the case of Fig. 7, the reference gene is obtained from the FFPE sample. Since the life of the biopsy sample is short, FFPE is an essential treatment to maintain the biochemical properties of the biopsy sample for a long time. Unlike the biopsy sample, the FFPE sample has chemical variations and structural variations due to the FFPE treatment, so that there are many more mismatched leads than the case of FIG. 6. As a result, a plurality of judgments of false positive or false negative may be included in the genetic analysis result. However, according to the present embodiments, even if the reference gene, the test gene of the test sample is obtained from the biopsy sample or the FFPE sample, removes false positive or false negative judgments, Or can be reduced. It will be described more continuously below.
도 8은 일 실시예에 따라 전좌 식별부에서 후보 유전자 쌍들을 추출하여 전좌 유전자를 식별하는 방법의 흐름도이다.8 is a flowchart of a method of identifying a translocation gene by extracting candidate gene pairs from the translocation identification unit, according to an exemplary embodiment.
801 단계에서, 전좌 식별부(120)는, 리드 분석부(110)에 의해 획득된 스플릿 리드들 및 불일치 정렬된 PE 리드들에 관한 데이터를 이용하여, 전좌의 가능성이 있는 제 1 후보 유전자 쌍들을 추출한다. 예를 들어, 전좌 식별부(120)는, 앞서 도 6 또는 도 7에서 설명된 IGV 스크린샷(600 또는 700)에서 레퍼런스 유전자의 염기서열과 일치하는 리드들에 관한 데이터를 이용하여, 스플릿 리드들에 매핑된 유전자들, 불일치 정렬된 PE 리드들에 매핑된 유전자들을 다양하게 조합하여 제 1 후보 유전자 쌍들을 추출할 수 있다.In step 801, the translocation identification unit 120 uses the data regarding the split reads and the mismatched PE reads acquired by the read analysis unit 110 to identify the first candidate gene pairs that are likely to be translocations. Extract. For example, the translocation identifier 120 may use the split reads using data regarding reads that match the nucleotide sequence of the reference gene in the IGV screenshot 600 or 700 described above with reference to FIG. 6 or 7. The first candidate gene pairs may be extracted by various combinations of genes mapped to and genes mapped to mismatched PE leads.
802 단계에서, 전좌 식별부(120)는, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출한다. 앞서 설명된 바와 같이, 동일한 커버리지에 속한 브레이크 포인트를 갖는 스플릿 리드들의 개수가 소정 임계값 이상인 경우, 그 스플릿 리드들에 매핑된 유전자는 전좌 유전자의 실제 브레이크 포인트를 갖고 있을 가능성이 보다 높은 것으로 간주될 수 있다. 따라서, 전좌 식별부(120)는, 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를, 제 2 후보 유전자 쌍들로 선별한다. 즉, 제 2 후보 유전자 쌍들에 포함된 유전자들은 제 1 후보 유전자 쌍들에 포함된 유전자들보다, 전좌 유전자일 가능성이 높은 유전자들일 수 있다.In operation 802, the translocation identifier 120 extracts second candidate gene pairs including genes in which a plurality of split leads having break points belonging to the same coverage are aligned. As described above, if the number of split leads with break points belonging to the same coverage is above a predetermined threshold, the gene mapped to those split leads is considered to be more likely to have the actual break points of the translocation gene. Can be. Accordingly, the translocation identifier 120 selects, among the first candidate gene pairs, genes in which a plurality of split leads having breakpoints belonging to the same coverage are arranged as second candidate gene pairs. That is, genes included in the second candidate gene pairs may be genes that are more likely to be translocation genes than genes included in the first candidate gene pairs.
803 단계에서, 전좌 식별부(120)는, 서로 다른 유전자들 간의 퓨전 방향이 5’엔드부터 3’ 엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출한다. 제 2 후보 유전자 쌍들에 포함된, 퓨전 유전자(전좌 유전자)인 것으로 예상되는 유전자 쌍들이라 할지라도, 퓨전 방향이 부적절한 경우에는 전좌 유전자에 해당되지 않는다. 따라서, 서로 다른 유전자들의 퓨전 방향이 적절한지, 즉 전좌 식별부(120)는, 제 2 후보 유전자 쌍들에 포함된 유전자 쌍들의 퓨전 방향이 5’엔드부터 3’엔드의 방향 또는 3’엔드부터 5’엔드의 방향으로 적절하게 결합되었는지를 판단하고, 퓨전 방향이 적절한 유전자 쌍들을 제 3 후보 유전자 쌍들로서 필터링한다. 즉, 제 3 후보 유전자 쌍들에 포함된 유전자들은 제 2 후보 유전자 쌍들에 포함된 유전자들보다, 전좌 유전자일 가능성이 보다 높은 유전자들일 수 있다.In operation 803, the translocation identifier 120 extracts third candidate gene pairs in which the fusion direction between different genes is 5 'to 3' end or 3 'to 5' end. Even if the pairs of genes that are expected to be fusion genes (translocation genes) included in the second candidate gene pairs are not translocation genes when the fusion direction is inappropriate. Accordingly, whether the fusion direction of the different genes is appropriate, that is, the translocation identifier 120 determines that the fusion direction of the gene pairs included in the second candidate gene pairs is 5 'to 3' end or 3 'to 5'. 'Determine whether it is properly bound in the direction of the end, and filter the appropriate gene pairs as third candidate gene pairs. That is, genes included in the third candidate gene pairs may be genes that are more likely to be translocation genes than genes included in the second candidate gene pairs.
804 단계에서, 전좌 식별부(120)는, 제 3 후보 유전자 쌍들이 추출된 경우, 제 3 후보 유전자 쌍들에 포함된 유전자 쌍들은 전좌 유전자에 해당되는 것으로 식별한다.In operation 804, when the third candidate gene pairs are extracted, the translocation identifier 120 identifies that the gene pairs included in the third candidate gene pairs correspond to the translocation gene.
도 9는 일 실시예에 따라 스플릿 리드들의 브레이크 포인트들을 이용하여 제 2 후보 유전자 쌍들을 추출하는 것을 설명하기 위한 도면이다.9 is a diagram for describing extracting second candidate gene pairs using break points of split reads, according to an exemplary embodiment.
도 9를 참고하면, 피검 샘플의 어느 유전자(유전자 X)(900)에는 복수의 스플릿 리드들(910)이 매핑될 수 있다. 이 스플릿 리드들(910)이 매핑된 유전자 X(900)는 제 1 후보 유전자 쌍들에 포함될 수 있다. 스플릿 리드들(910)에 대해서는 각각 브레이크 포인트(920)에 대한 데이터가 함께 매핑될 수 있다. 스플릿 리드들(910)은 시퀀싱 에러, 유전자 삽입, 유전자 결실 등과 같은 다양한 원인들로 인해 존재할 수 있으므로, 유전자 X(900)에 다수의 스플릿 리드들(910)이 매핑되어 있다 할지라도, 유전자 X(900)가 바로 전좌 유전자의 일부에 해당되는 것으로 판단할 수 없다.9, a plurality of split leads 910 may be mapped to a gene (gene X) 900 of a test sample. The gene X 900 to which the split leads 910 are mapped may be included in the first candidate gene pairs. Data for the break points 920 may be mapped to the split leads 910, respectively. Since the split reads 910 may exist due to various causes such as sequencing error, gene insertion, gene deletion, etc., even if multiple split reads 910 are mapped to gene X 900, gene X ( 900) cannot be determined to be a part of the translocation gene.
하지만, 유전자 X(900)에 매핑된 스플릿 리드들(910) 중 동일한 커버리지에 속한 브레이크 포인트(940)를 갖는 다수의 스플릿 리드들(930)이 매핑된 경우에는, 유전자 X(900)에 전좌 유전자의 브레이크 포인트가 존재할 가능성이 높은 것으로 간주될 수 있다. 따라서, 동일한 커버리지에 속한 브레이크 포인트(940)를 갖는 스플릿 리드들(930)의 개수가 소정 임계값 이상인 경우, 유전자 X(900)는 전좌 유전자의 일부에 해당될 가능성이 높은 것으로 식별된다. 즉, 유전자 X(900)는 제 2 후보 유전자 쌍들에 포함된 유전자인 것으로 추출될 수 있다.However, when a plurality of split leads 930 having break points 940 belonging to the same coverage among the split leads 910 mapped to gene X 900 are mapped, the translocation gene is assigned to gene X 900. It can be considered that there is a high possibility that a break point of. Thus, if the number of split leads 930 having break points 940 belonging to the same coverage is greater than or equal to a predetermined threshold, gene X 900 is identified as likely to correspond to a portion of the translocation gene. That is, gene X 900 may be extracted as being a gene included in the second candidate gene pairs.
한편, 실제 브레이크 포인트를 갖는 스플릿 리드들(930)이 나타내는 브레이크 포인트는 시퀀싱 오차 등의 다양한 원인으로 인해, 완벽하게 동일하지 않을 수 있다. 따라서, 전좌 식별부(120)는, 브레이크 포인트가 동일한 수치인지 여부를 판단하기 보다는, 일정 범위(즉, 커버리지) 내에 브레이크 포인트가 존재하는지 여부를 판단하는 것이 바람직할 수 있다.Meanwhile, the break points represented by the split leads 930 having the actual break points may not be exactly the same due to various reasons such as sequencing errors. Therefore, it may be desirable for the translocation identifier 120 to determine whether the breakpoint exists within a predetermined range (ie, coverage), rather than determining whether the breakpoint is the same value.
도 10은 일 실시예에 따라 퓨전 방향의 적절성을 이용하여 제 3 후보 유전자 쌍들을 추출하는 것을 설명하기 위한 도면이다.FIG. 10 is a diagram for explaining extraction of third candidate gene pairs using appropriateness of a fusion direction according to one embodiment. FIG.
도 10을 참고하면, 염색체 2(1001) 상의 유전자 X(1010)와 염색체 3(1002) 상의 유전자 Y(1020)가 제 2 후보 유전자 쌍들에 포함된 경우, 전좌 식별부(120)는 유전자 X(1010) 및 유전자 Y(1020)의 퓨전 방향을 판단할 수 있다.Referring to FIG. 10, when gene X 1010 on chromosome 2 1001 and gene Y 1020 on chromosome 3 1002 are included in the second candidate gene pairs, translocation identifier 120 determines gene X ( 1010) and the fusion direction of the gene Y (1020) can be determined.
염색체 2(1001) 상 및 염색체(1002)에서 퓨전 유전자들(1030 및 1040)는 유전자 X(1010)의 3’엔드와 유전자 Y(1020)의 5’엔드와 결합되었으므로, 전좌 식별부(120)는 퓨전 유전자(1030)의 퓨전 방향은 적절하다고 판단할 수 있다.The fusion genes 1030 and 1040 on chromosome 2 (1001) and chromosome 1002 are combined with the 3 'end of gene X (1010) and the 5' end of gene Y (1020), and thus, translocation identifier 120 It may be determined that the fusion direction of the fusion gene 1030 is appropriate.
제 2 후보 유전자 쌍들 중에서, 이와 같이 퓨전 방향이 적절한 퓨전 유전자들(1030 및 1040)은 제 3 후보 유전자 쌍들에 해당되고, 결국 전좌 식별부(120)는 제 3 후보 유전자 쌍들에 포함된 유전자 쌍들은 전좌 유전자인 것으로 판단한다.Among the second candidate gene pairs, the fusion genes 1030 and 1040 having the proper fusion direction are the third candidate gene pairs, and thus, the translocation identifier 120 determines that the gene pairs included in the third candidate gene pairs It is judged that it is a translocation gene.
앞서 FFPE 샘플의 경우(도 7), 다수의 위양성(false positive)의 리드들이 추출된다 할지라도, 위와 같이 브레이크 포인트의 판단 및 퓨전 방향의 판단을 통해 위양성 판단을 제거하거나 줄이면서 실제 전좌 유전자를 식별해 낼 수 있다.In the case of the FFPE sample (FIG. 7), even if a plurality of false positive leads are extracted, the actual translocation gene is identified by eliminating or reducing false positive judgments through the determination of the break point and the fusion direction. I can do it.
도 11은 일 실시예에 따라 EML4(echinoderm microtubule-associated protein-like 4) 및 ALK의 전좌 유전자를 식별한 결과를 설명하기 위한 도면이다.FIG. 11 illustrates a result of identifying translocation genes of EML4 (echinoderm microtubule-associated protein-like 4) and ALK, according to an exemplary embodiment.
도 11을 참고하면, 앞서 설명된 전좌 유전자의 분석 방법들을 통해 식별된 EML4-ALK의 전좌 유전자에 대한 데이터가 도시되어 있다. 우측의 IGV 스크린샷(1101)에는 EML4에 매핑된 리드들이 표시되어 있고, 좌측의 IGV 스크린샷(1102)에는 ALK에 매핑된 리드들이 표시되어 있다. EML4에 매핑된 리드들은 42536701~42559688의 브레이크 포인트 커버리지에서 스플릿되고, ALK에 매핑된 리드들은 29415639~29446500의 브레이크 포인트 커버리지에서 스플릿되었음을 알 수 있다. 그리고, EML4-ALK의 전좌 유전자를 식별하기 위한 서포팅 리드들은 39개가 이용되었다. 도 11은 본 실시예들에서 설명된 유전자 분석 방법을 실제 환자의 피검 샘플에 적용하여 전좌 유전자의 식별 결과를 검증한 시뮬레이션 결과일 뿐이므로, 본 실시예들은 도 11에 의해 제한되지 않는다.Referring to FIG. 11, data is shown for the translocation gene of EML4-ALK identified through the analysis of translocation genes described above. The IGV screenshot 1101 on the right shows the leads mapped to EML4, and the IGV screenshot 1102 on the left shows the leads mapped to ALK. Leads mapped to EML4 are split at break point coverage of 42536701 to 42559688, and leads mapped to ALK are split at breakpoint coverage of 29415639 to 29446500. In addition, 39 supporting leads were used to identify the translocation gene of EML4-ALK. FIG. 11 is only a simulation result of verifying the identification result of the translocation gene by applying the gene analysis method described in the present embodiments to a test sample of an actual patient, and thus the present embodiments are not limited by FIG. 11.
도 12는 일 실시예에 따라 유전자를 분석하는 방법의 흐름도이다. 도 12를 참고하면, 유전자 분석 방법은 앞선 도면들에서 설명된 유전자 분석 장치(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라 하더라도 앞선 도면들에서 설명되었던 내용들은 도 12의 유전자 분석 방법에도 적용될 수 있다.12 is a flowchart of a method of analyzing a gene, according to an embodiment. Referring to FIG. 12, the gene analysis method includes steps that are processed in time series in the gene analysis apparatus 10 described in the foregoing figures. Therefore, even if omitted below, the contents described above may be applied to the genetic analysis method of FIG. 12.
1201 단계에서, 리드 분석부(110)는 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들 및 불일치 정렬된 PE 리드들에 관한 데이터를 획득한다.In operation 1201, the read analyzer 110 obtains data regarding split leads and mismatched PE leads from next generation sequencing (NGS) data of a test sample.
1202 단계에서, 전좌 식별부(120)는 스플릿 리드들 및 불일치 정렬된 PE 리드들을 이용하여 피검 샘플의 염색체 내 전좌의 가능성이 있는 제 1 후보 유전자 쌍들을 추출한다.In step 1202, the translocation identifier 120 extracts the first candidate gene pairs that are likely to be translocated in the chromosome of the test sample using split reads and mismatched PE reads.
1203 단계에서, 전좌 식별부(120)는 스플릿 리드들이 나타내는 브레이크 포인트들 및 제 1 후보 유전자 쌍들의 퓨전 방향에 기초하여, 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별한다.In operation 1203, the translocation identifier 120 identifies the translocation gene among the first candidate gene pairs based on the break points indicated by the split leads and the fusion direction of the first candidate gene pairs.
도 13은 일 실시예에 따른 컴퓨팅 장치의 하드웨어 구성들을 도시한 블록도이다.13 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
도 13을 참고하면, 컴퓨팅 장치(1)는 유전자 분석 장치(프로세서)(10), 데이터 인터페이스(11) 및 메모리(12)를 포함한다. 한편, 도 13에 도시된 컴퓨팅 장치(1)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 도 13에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.Referring to FIG. 13, the computing device 1 includes a genetic analysis device (processor) 10, a data interface 11, and a memory 12. On the other hand, the computing device 1 shown in FIG. 13 has only general components related to the present embodiment in order to prevent the features of the present embodiment from being blurred. Therefore, the computing device 1 shown in FIG. Components may be further included.
데이터 인터페이스(11)는 앞서 도 1에서 설명된, 정상인 집단의 레퍼런스 유전자 데이터(20) 및 피검체의 피검 유전자 데이터(30)를 수신한다. 즉, 데이터 인터페이스(11)는 컴퓨팅 장치(1)가 외부의 다른 디바이스들과 통신하기 위한 유/무선 네트워크 인터페이스의 하드웨어로 구현될 수 있다. 데이터 인터페이스(11)는 수신된 유전자 데이터(20 및 30)를 유전자 분석 장치(프로세서)(10)로 전송한다.The data interface 11 receives the reference gene data 20 of the normal population and the test gene data 30 of the subject described in FIG. 1. That is, the data interface 11 may be implemented in hardware of a wired / wireless network interface for the computing device 1 to communicate with other external devices. The data interface 11 transmits the received genetic data 20 and 30 to the genetic analysis device (processor) 10.
데이터 인터페이스(11)는 피검체의 피검 유전자를 시퀀싱하기 위한 외부의 차세대 시퀀싱 장치, 마이크로어레이 등으로부터 피검체의 피검 유전자 데이터(30)를 수신할 수 있다.The data interface 11 may receive the test gene data 30 of the test subject from an external next-generation sequencing device, a microarray, or the like for sequencing the test gene of the test subject.
메모리(12)는 컴퓨팅 장치(1) 내에서 처리될 데이터들 및 처리가 완료된 결과들을 저장하기 위한 하드웨어로서, RAM(random access memory), ROM(read only memory) 등의 메모리 칩들 또는 HDD(hard disk drive), SSD(solid state drive) 등의 스토리지를 포함한다. 즉, 메모리(12)는 데이터 인터페이스(11)에 의해 수신된 유전자 데이터(20 및 30)을 저장할 수 있고, 유전자 분석 장치(프로세서)(10)에 의해 처리된 제 1 내지 제 3 후보 유전자 쌍들에 관한 데이터, 식별된 전좌 유전자에 대한 데이터 등도 저장할 수 있다.The memory 12 is hardware for storing data to be processed in the computing device 1 and the processed results, and memory chips such as random access memory (RAM), read only memory (ROM), or a hard disk (HDD). drive, solid state drive (SSD), and the like. That is, the memory 12 may store the genetic data 20 and 30 received by the data interface 11 and store the first to third candidate gene pairs processed by the genetic analysis device (processor) 10. Relevant data, data on the identified transgenes, etc. can be stored.
유전자 분석 장치(프로세서)(10)는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 유전자 분석 장치(프로세서)(10)는 응용 프로그램의 모듈 형태로 구현될 수도 있다. 유전자 분석 장치(프로세서)(10)는 앞서 도 1 내지 도 12에서 설명된 유전자 분석을 처리하는 하드웨어 장치이다.Genetic analysis device (processor) 10 is a module implemented in one or more processing units, which may be implemented as a combination of a microprocessor having an array of multiple logic gates and a memory module storing a program that can be executed on the microprocessor. have. Genetic analysis device (processor) 10 may be implemented in the form of a module of an application program. The genetic analysis device (processor) 10 is a hardware device for processing the gene analysis described above with reference to FIGS. 1 to 12.
유전자 분석 장치(프로세서)(10)에 의해 식별된 전좌 유전자에 대한 정보는 데이터 인터페이스(11)를 통해 외부의 다른 디바이스, 예를 들어 디스플레이 디바이스, 다른 컴퓨팅 장치 등으로 전송되거나, 또는 외부 네트워크, 예를 들어 인터넷, 공개 데이터베이스(DB) 서버 상으로 전송될 수 있다.Information about the translocation gene identified by the genetic analysis device (processor) 10 is transmitted via the data interface 11 to another external device, such as a display device, another computing device, or the like, or an external network, eg For example, it can be transmitted over the Internet, public database (DB) server.
앞서 설명된 본 실시예들에 따르면, 피검체(예를 들어, 암 환자)의 암 조직으로부터 전좌 유전자를 검출할 수 있다. 나아가서, 피검체로부터 획득된 암 조직(피검 샘플)의 유전자들(피검 유전자들)이 FFPE 처리에 의하여 화학적으로 약간 손상된다 할지라도, 전좌 유전자를 정확하게 판단할 수 있다.According to the embodiments described above, the translocation gene can be detected from cancer tissue of a subject (eg, a cancer patient). Furthermore, even if genes (test genes) of cancer tissue (test sample) obtained from a subject are slightly damaged chemically by FFPE treatment, the translocation gene can be accurately determined.
본 실시예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다. The device according to the embodiments may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a button, and the like. And a user interface device. Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor. The computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc). The computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. The medium is readable by the computer, stored in the memory, and can be executed by the processor.
본 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.This embodiment can be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions. For example, an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them. Similar to the components that may be implemented in software programming or software elements, the present embodiment includes various algorithms implemented in C, C ++, Java (data structures, processes, routines or other combinations of programming constructs). It may be implemented in a programming or scripting language such as Java), an assembler, or the like. The functional aspects may be implemented with an algorithm running on one or more processors. In addition, the present embodiment may employ the prior art for electronic environment setting, signal processing, and / or data processing. Terms such as "mechanism", "element", "means" and "configuration" can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
본 실시예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. Specific implementations described in this embodiment are examples, and do not limit the technical scope in any way. For brevity of description, descriptions of conventional electronic configurations, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.
본 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다.In the present specification (particularly in the claims), the use of the term “above” and similar indicating terminology may correspond to both the singular and the plural. In addition, when a range is described, it includes the individual values which belong to the said range (if there is no description contrary to it), and it is the same as describing each individual value which comprises the said range in detailed description. Finally, if there is no explicit order or contrary to the steps constituting the method, the steps may be performed in a suitable order. It is not necessarily limited to the order of description of the above steps.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.

Claims (17)

  1. 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 단계;Obtaining, from next generation sequencing (NGS) data of the test sample, data relating to split reads and discreetly aligned paired-end reads;
    상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하는 단계; 및Extracting first candidate gene pairs that are likely for translocation in the chromosome of the test sample using the split reads and the PE reads; And
    상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 단계를 포함하는, 유전자를 분석하는 방법.Identifying a translocation gene among the first candidate gene pairs based on the break points indicated by the split leads and the fusion direction of the first candidate gene pairs. Way.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 식별하는 단계는The identifying step
    상기 추출된 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출하는 단계를 포함하고,Extracting, from the extracted first candidate gene pairs, second candidate gene pairs comprising a gene in which a plurality of split leads having breakpoints belonging to the same coverage are arranged;
    상기 전좌 유전자는The translocation gene is
    상기 추출된 제 2 후보 유전자 쌍들로부터 식별되는, 방법.Identified from the extracted second candidate gene pairs.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 추출된 제 2 후보 유전자 쌍들에 포함된 상기 유전자는The gene included in the extracted second candidate gene pairs is
    상기 동일한 커버리지에 속한 상기 브레이크 포인트를 갖는 상기 스플릿 리드들의 개수가 소정 임계값 이상인, 방법.And the number of split leads with the breakpoint belonging to the same coverage is greater than or equal to a predetermined threshold.
  4. 제 2 항에 있어서,The method of claim 2,
    상기 식별하는 단계는The identifying step
    상기 추출된 제 2 후보 유전자 쌍들 중에서, 서로 다른 유전자들 간의 상기 퓨전 방향이 5’엔드(end)부터 3’엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출하는 단계를 포함하고,Among the extracted second candidate gene pairs, extracting third candidate gene pairs in which the fusion direction between different genes is from 5 'end to 3' end, or from 3 'end to 5' end. Including,
    상기 전좌 유전자는The translocation gene is
    상기 추출된 제 2 후보 유전자 쌍들로부터 식별되는, 방법.Identified from the extracted second candidate gene pairs.
  5. 제 1 항에 있어서,The method of claim 1,
    상기 NGS 데이터는The NGS data is
    BAM(binary version of SAM) 포맷 또는 SAM(Sequence Alignment/Map) 포맷의 데이터를 포함하는, 방법.A method comprising data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
  6. 제 5 항에 있어서,The method of claim 5,
    상기 획득하는 단계는The acquiring step
    상기 BAM 포맷 또는 상기 SAM 포맷의 데이터로부터, 상기 스플릿 리드들 및 상기 PE 리드들 각각에 대한 FLAG 및 CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링의 데이터를 획득하는, 방법.Obtaining data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for each of the split leads and the PE leads from the data of the BAM format or the SAM format.
  7. 제 1 항에 있어서,The method of claim 1,
    상기 NGS 데이터는The NGS data is
    상기 피검 샘플에서 표적 유전자들의 염기서열을 식별하기 위한 표적 시퀀싱(targeted sequencing)에 의해 생성되는, 방법.Generated by targeted sequencing to identify base sequences of target genes in the test sample.
  8. 제 1 항에 있어서,The method of claim 1,
    상기 피검 샘플은The test sample is
    생검 샘플 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 샘플인, 방법. The biopsy sample or formalin-fixed, paraffin-embedded (FFPE) sample.
  9. 제 1 항 내지 제 8 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A non-transitory computer-readable recording medium having recorded thereon a program for executing the method of claim 1.
  10. 피검 샘플의 차세대 시퀀싱(NGS) 데이터로부터, 스플릿 리드들(split reads) 및 불일치(discordantly) 정렬된 PE(paired-end) 리드들에 관한 데이터를 획득하는 리드 분석부; 및A read analysis unit for obtaining data about split reads and discreetly aligned paired-end (PE) reads from next generation sequencing (NGS) data of a test sample; And
    상기 스플릿 리드들 및 상기 PE 리드들을 이용하여 상기 피검 샘플의 염색체 내 전좌(translocation)의 가능성이 있는 제 1 후보 유전자 쌍들을 추출하고, 상기 스플릿 리드들이 나타내는 브레이크 포인트들(break points) 및 상기 제 1 후보 유전자 쌍들의 퓨전(fusion) 방향에 기초하여, 상기 제 1 후보 유전자 쌍들 중에서 전좌 유전자를 식별하는 전좌 식별부를 포함하는, 유전자를 분석하는 장치.The split reads and the PE leads are used to extract first candidate gene pairs that are likely to be translocation within the chromosome of the test sample, and the break points represented by the split reads and the first And a translocation identifier that identifies a translocation gene among the first candidate gene pairs based on a fusion direction of candidate gene pairs.
  11. 제 10 항에 있어서,The method of claim 10,
    상기 전좌 식별부는The translocation identification unit
    상기 추출된 제 1 후보 유전자 쌍들 중에서, 동일한 커버리지에 속한 브레이크 포인트를 갖는 복수의 스플릿 리드들이 정렬된 유전자를 포함하는 제 2 후보 유전자 쌍들을 추출하고,Among the extracted first candidate gene pairs, extracting second candidate gene pairs including a gene in which a plurality of split leads having breakpoints belonging to the same coverage are arranged;
    상기 전좌 유전자는The translocation gene is
    상기 추출된 제 2 후보 유전자 쌍들로부터 식별되는, 장치.And identify from the extracted second candidate gene pairs.
  12. 제 11 항에 있어서,The method of claim 11,
    상기 추출된 제 2 후보 유전자 쌍들에 포함된 상기 유전자는The gene included in the extracted second candidate gene pairs is
    상기 동일한 커버리지에 속한 상기 브레이크 포인트를 갖는 상기 스플릿 리드들의 개수가 소정 임계값 이상인, 장치.And the number of split leads with the breakpoint belonging to the same coverage is greater than or equal to a predetermined threshold.
  13. 제 11 항에 있어서,The method of claim 11,
    상기 전좌 식별부는The translocation identification unit
    상기 추출된 제 2 후보 유전자 쌍들 중에서, 서로 다른 유전자들 간의 상기 퓨전 방향이 5’엔드(end)부터 3’엔드이거나, 또는 3’엔드부터 5’엔드인 제 3 후보 유전자 쌍들을 추출하고,Among the extracted second candidate gene pairs, extracting third candidate gene pairs in which the fusion direction between different genes is 5 'end to 3' end, or 3 'end to 5' end,
    상기 전좌 유전자는The translocation gene is
    상기 추출된 제 2 후보 유전자 쌍들로부터 식별되는, 장치.And identify from the extracted second candidate gene pairs.
  14. 제 10 항에 있어서,The method of claim 10,
    상기 NGS 데이터는The NGS data is
    BAM(binary version of SAM) 포맷 또는 SAM(Sequence Alignment/Map) 포맷의 데이터를 포함하는, 장치.A device comprising data in a binary version of SAM (BAM) format or a Sequence Alignment / Map (SAM) format.
  15. 제 14 항에 있어서,The method of claim 14,
    상기 리드 분석부는The lead analysis unit
    상기 BAM 포맷 또는 상기 SAM 포맷의 데이터로부터, 상기 스플릿 리드들 및 상기 PE 리드들 각각에 대한 FLAG 및 CIGAR(Compact Idiosyncratic Gapped Alignment Report) 스트링의 데이터를 획득하는, 장치.Obtaining data of FLAG and Compact Idiosyncratic Gapped Alignment Report (CIGAR) strings for each of the split leads and the PE leads from data in the BAM format or the SAM format.
  16. 제 10 항에 있어서,The method of claim 10,
    상기 NGS 데이터는The NGS data is
    상기 피검 샘플에서 표적 유전자들의 염기서열을 식별하기 위한 표적 시퀀싱(targeted sequencing)에 의해 생성되는, 장치.And generated by targeted sequencing to identify base sequences of target genes in the test sample.
  17. 제 10 항에 있어서,The method of claim 10,
    상기 피검 샘플은The test sample is
    생검 샘플 또는 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 샘플인, 장치.The device, which is a biopsy sample or a formalin-fixed, paraffin-embedded (FFPE) sample.
PCT/KR2015/012922 2015-06-24 2015-11-30 Method and device for analyzing gene WO2016208826A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
SG11201707653TA SG11201707653TA (en) 2015-06-24 2015-11-30 Method and device for analyzing genes
CN201580078100.9A CN107408162B (en) 2015-06-24 2015-11-30 Method and apparatus for analyzing gene
SA517380743A SA517380743B1 (en) 2015-06-24 2017-01-18 Method and apparatus for analyzing genes

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20150089448 2015-06-24
KR10-2015-0089448 2015-06-24
KR1020150168829A KR101881838B1 (en) 2015-06-24 2015-11-30 Method and apparatus for analyzing translocation of gene
KR10-2015-0168829 2015-11-30

Publications (1)

Publication Number Publication Date
WO2016208826A1 true WO2016208826A1 (en) 2016-12-29

Family

ID=57585051

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/012922 WO2016208826A1 (en) 2015-06-24 2015-11-30 Method and device for analyzing gene

Country Status (1)

Country Link
WO (1) WO2016208826A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491441A (en) * 2019-05-06 2019-11-22 西安交通大学 A kind of gene sequencing data simulation system and method for simulation crowd background information

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013033169A1 (en) * 2011-08-31 2013-03-07 Sanofi Methods of identifying genomic translocations associated with cancer

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013033169A1 (en) * 2011-08-31 2013-03-07 Sanofi Methods of identifying genomic translocations associated with cancer

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
FERNANDEZ-CUESTA ET AL.: "Identification of Novel Fusion Genes in Lung Cancer Using Breakpoint Assembly of Transcriptome Sequencing Data", GENOME BIOLOGY, vol. 16, no. 1, 5 January 2015 (2015-01-05), pages 1 - 11, XP021210398 *
HAYES ET AL.: "Bellerophon: A Hybrid Method for Detecting Interchromo-Somal Rearrangements at Base Pair Resolution Using Next-Generation Sequencing Data", BMC BIOINFORMATICS, vol. 14, no. supplement 5, 2013, pages 1 - 9, XP021146346 *
RAUSCH ET AL.: "DELLY: Structural Variant Discovery by Integrated Paired-End and Split-Read Analysis", BIOINFORMATICS, vol. 28, no. 18, 2012, pages i333 - i339, XP055340997 *
SCHRODER ET AL.: "Socrates: Identification of Genomic Rearrangements in Tumour Genomes by Re-Aligning Soft Clipped Reads", GENOME ANALYSIS, vol. 30, no. 8, 2014, pages 1064 - 1072, XP055233373 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110491441A (en) * 2019-05-06 2019-11-22 西安交通大学 A kind of gene sequencing data simulation system and method for simulation crowd background information
CN110491441B (en) * 2019-05-06 2022-04-22 西安交通大学 Gene sequencing data simulation system and method for simulating crowd background information

Similar Documents

Publication Publication Date Title
Kremer et al. Genetic diagnosis of Mendelian disorders via RNA sequencing
Kofler et al. Tempo and mode of transposable element activity in Drosophila
Rebolledo-Jaramillo et al. Maternal age effect and severe germ-line bottleneck in the inheritance of human mitochondrial DNA
Duzkale et al. A systematic approach to assessing the clinical significance of genetic variants
Nishio et al. Deafness gene variations in a 1120 nonsyndromic hearing loss cohort: molecular epidemiology and deafness mutation spectrum of patients in Japan
Lefebure et al. Evolutionary dynamics of complete Campylobacter pan-genomes and the bacterial species concept
Alsaihati et al. Canine tumor mutational burden is correlated with TP53 mutation across tumor types and breeds
Hsu et al. NMD Classifier: A reliable and systematic classification tool for nonsense-mediated decay events
Hassan et al. De novo reconstruction of the Toxoplasma gondii transcriptome improves on the current genome annotation and reveals alternatively spliced transcripts and putative long non-coding RNAs
WO2017135768A1 (en) Method and system for predicting risk of developing genetic disorder in putative offspring
Bademci et al. Identification of copy number variants through whole-exome sequencing in autosomal recessive nonsyndromic hearing loss
Rossello et al. Next-generation sequence analysis of cancer xenograft models
Martin-Morales et al. Novel genetic mutations detected by multigene panel are associated with hereditary colorectal cancer predisposition
WO2021071181A1 (en) Method for predicting resistance to anticancer immunotherapeutic agent, and analysis apparatus
Men et al. Identification of a novel CNV at 8q13 in a family with branchio‐oto‐renal syndrome and epilepsy
Govender et al. Benchmarking taxonomic classifiers with Illumina and Nanopore sequence data for clinical metagenomic diagnostic applications
Normand et al. An introduction to high-throughput sequencing experiments: design and bioinformatics analysis
CN111292809A (en) Method, electronic device, and computer storage medium for detecting RNA level gene fusion
Luzón-Toro et al. Next-generation-based targeted sequencing as an efficient tool for the study of the genetic background in Hirschsprung patients
CN107408162B (en) Method and apparatus for analyzing gene
WO2016208826A1 (en) Method and device for analyzing gene
WO2016208827A1 (en) Method and device for analyzing gene
Steyaert et al. Systematic analysis of paralogous regions in 41,755 exomes uncovers clinically relevant variation
WO2017204414A1 (en) Method and apparatus for analyzing degree of cross-contamination of sample
Rauf et al. Unveiling forensically relevant biogeographic, phenotype and Y-chromosome SNP variation in Pakistani ethnic groups using a customized hybridisation enrichment forensic intelligence panel

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15896460

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 11201707653T

Country of ref document: SG

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15896460

Country of ref document: EP

Kind code of ref document: A1