WO2016208827A1 - Method and device for analyzing gene - Google Patents

Method and device for analyzing gene Download PDF

Info

Publication number
WO2016208827A1
WO2016208827A1 PCT/KR2015/012925 KR2015012925W WO2016208827A1 WO 2016208827 A1 WO2016208827 A1 WO 2016208827A1 KR 2015012925 W KR2015012925 W KR 2015012925W WO 2016208827 A1 WO2016208827 A1 WO 2016208827A1
Authority
WO
WIPO (PCT)
Prior art keywords
depths
genes
gene
cnv
copy number
Prior art date
Application number
PCT/KR2015/012925
Other languages
French (fr)
Korean (ko)
Inventor
박웅양
김상철
남재용
Original Assignee
사회복지법인 삼성생명공익재단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 사회복지법인 삼성생명공익재단 filed Critical 사회복지법인 삼성생명공익재단
Priority to CN201580078172.3A priority Critical patent/CN107408163B/en
Priority to SG11201707649SA priority patent/SG11201707649SA/en
Priority claimed from KR1020150168833A external-priority patent/KR101828052B1/en
Publication of WO2016208827A1 publication Critical patent/WO2016208827A1/en
Priority to SA517380741A priority patent/SA517380741B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Definitions

  • the present invention relates to a method and apparatus for analyzing genes, and more particularly, to a method and apparatus for analyzing genes of copy number variation (CNV).
  • CNV copy number variation
  • a genome is all the genetic information of a living thing.
  • various technologies such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology have been developed.
  • Analysis of genetic information such as nucleic acid sequences, proteins, etc., is widely used to find genes that express diseases such as diabetes and cancer, or to identify correlations between genetic diversity and individual expression characteristics.
  • the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression. Therefore, genetic data such as nucleic acid sequences, proteins, etc. of an individual are essential data for identifying current and future disease-related information to prevent disease or to select an optimal treatment method at an early stage of disease.
  • Techniques for accurately analyzing individual genetic data and diagnosing an individual's disease using genome detection equipment that detects single nucleotide polymorphism (SNP) and copy number variation (CNV) as genetic information of an organism are being studied.
  • a method of analyzing a gene comprises: generating a reference data set relating to depths of reads aligned to each of the reference genes by performing deep sequencing on reference genes; Analyzing depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And comparing the analyzed depths with depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene is present among the test genes.
  • CNV copy number variation
  • the analyzing step analyzes the depth of the reads aligned with exon sites of the test genes.
  • the presence of the copy number variation (CNV) gene may be determined by comparing the depths between the reference genes and the test genes for the same exon region.
  • the determining may include exon sites of which the difference in depths of exon sites corresponding to each other between the reference genes and the test genes are not statistically significant among the exon sites of the test genes. If so, the copy number mutation (CNV) gene is determined to exist.
  • CNV copy number mutation
  • the generating may further include obtaining lead-depths corresponding to the reference genes for each of the people through the deep sequencing of a plurality of people's gene data; Clustering the people into different groups according to the obtained distribution of lead-depths; Acquiring standard depths of each of the reference genes representing each of the groups by normalizing the read-depths acquired for each of the reference genes per group, wherein the reference data set includes the groups For each, data representing standard depths of each of the reference genes is included.
  • the determining may further include determining a group among the groups having the smallest statistical difference between the distribution of the analyzed depths and the distribution of the standard depths; And determining whether the copy number variation (CNV) gene is present by comparing the analyzed depths with standard depths corresponding to the determined group.
  • CNV copy number variation
  • the method further includes obtaining the genetic data of the people from public genomic data or public HapMap data.
  • the reference genes or the test genes may be obtained from biopsy tissue, formalin-fixed, paraffin-embedded (FFPE) tissue.
  • FFPE paraffin-embedded
  • the method may further include performing an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
  • a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
  • an apparatus for analyzing a gene may include: a reference data generator configured to generate a reference data set about depths of reads aligned with each of the reference genes by performing deep sequencing on reference genes; An analysis unit which analyzes depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And a determining unit determining whether a copy number variation (CNV) gene exists among the test genes by comparing the analyzed depths with depths of the reference genes included in the reference data set.
  • CNV copy number variation
  • the analysis unit analyzes the depth of the reads aligned with exon sites of the test genes.
  • the determination unit determines the existence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
  • CNV copy number variation
  • the determination unit when there is an exon region of the exon regions of the test genes, the difference in the depth of the exon regions corresponding to each other between the reference genes and the test genes are not statistically significant (significant) It is determined that the copy number mutation (CNV) gene is present.
  • CNV copy number mutation
  • the reference data generator obtains read-depths corresponding to the reference genes for each of the people through the deep sequencing of a plurality of people's gene data, and according to the distribution of the read-depths. Clustering the people into different groups, normalizing the read-depths obtained for each of the reference genes per group, thereby obtaining standard depths of each of the reference genes representing each of the groups, and The reference data set includes, for each of the groups, data representing standard depths of each of the reference genes.
  • the determination unit may determine a group having the smallest statistical difference between the distribution of the analyzed depths and the distribution of the standard depths among the groups, and compare the analyzed depths with the standard depths corresponding to the determined group. Thus, it is determined whether the copy number mutation (CNV) gene is present.
  • CNV copy number mutation
  • the reference data generator obtains the genetic data of the people from public genomic data or public map data (HapMap).
  • the reference genes or the test genes may be obtained from biopsy tissue, formalin-fixed, paraffin-embedded (FFPE) tissue.
  • FFPE paraffin-embedded
  • the determination unit when it is determined that the copy number variation (CNV) gene is present among the test genes, the determination unit performs an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
  • CNV copy number variation
  • FIG. 1 is a view for explaining a gene analysis apparatus according to an embodiment.
  • FIG. 2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
  • FIG. 3 is a flowchart of a method of generating a reference data set according to an embodiment.
  • FIG. 4 is a diagram for describing obtaining lead-depths corresponding to reference genes for each of a plurality of people (eg, normal people), according to an exemplary embodiment.
  • 5 is a diagram for describing deep sequencing of exon regions according to an embodiment.
  • FIG. 6 is a diagram illustrating clustering people into different groups according to a distribution of lead-depths obtained from a normal group 400 according to an embodiment.
  • FIG. 7 is a diagram for describing standard depths of each of reference genes representing a group according to an embodiment.
  • FIG. 8 is a diagram for describing deep sequencing of test genes obtained from biological samples of a subject, according to an exemplary embodiment.
  • CNV copy number variation
  • FIG. 10 illustrates a method for determining whether a copy number variation (CNV) gene is present according to an embodiment.
  • FIG. 11 is a flowchart of a method of analyzing a gene, according to an embodiment.
  • FIG. 12 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
  • a method of analyzing a gene comprises: generating a reference data set relating to depths of reads aligned to each of the reference genes by performing deep sequencing on reference genes; Analyzing depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And comparing the analyzed depths with depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene is present among the test genes.
  • CNV copy number variation
  • a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
  • an apparatus for analyzing a gene may include: a reference data generator configured to generate a reference data set about depths of reads aligned with each of the reference genes by performing deep sequencing on reference genes; An analysis unit which analyzes depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And a determining unit determining whether a copy number variation (CNV) gene exists among the test genes by comparing the analyzed depths with depths of the reference genes included in the reference data set.
  • CNV copy number variation
  • a part when a part is connected to another part, it includes not only a case where the part is directly connected, but also an electric part connected between other components in between. .
  • a part when a part includes a certain component, this means that the component may further include other components, not to exclude other components unless specifically stated otherwise.
  • the terms "... unit”, “... module” described in the embodiments means a unit for processing at least one function or operation, which is implemented in hardware or software, or a combination of hardware and software. Can be implemented.
  • FIG. 1 is a view for explaining a gene analysis apparatus according to an embodiment.
  • the genetic analysis apparatus 10 uses a genetic data 20 obtained from a normal population and a genetic data 30 obtained from a subject, thereby replicating copy number (CNV) to a subject gene of a subject.
  • CNV copy number
  • the genetic data 20 and the genetic data 30 received by the genetic analysis apparatus 10 may correspond to the genetic data in the FASTQ file format obtained by next generation sequencing (NGS).
  • the FASTQ format is usually a text-based format that stores biological sequences, such as nucleotide sequences, and corresponding quality scores.
  • the genetic analysis apparatus 10 according to the present embodiment is not limited to the FASTQ format, and the genetic data 20 and 30 in other formats can also be analyzed.
  • Gene data 20 of the normal population is obtained from a database (DB) already known in the art, such as the National Center for Biotechnology Information (NCBI), Gene® Expression Omnibus (GEO), or the like. It may be obtained from a biological sample of people recruited to. That is, the genetic data 20 may be obtained from public genomic data or public map data. Meanwhile, the reference genes included in the genetic data 20 or the test genes included in the genetic data 30 may be obtained from biopsy tissue, formalin-fixed tissue, or paraffin-embedded tissue. It may be.
  • DB database
  • NCBI National Center for Biotechnology Information
  • GEO Gene® Expression Omnibus
  • Copy number variation is known to mean a variation in a gene that appears to be repeated or lacking or amplified in a relatively large region of a particular chromosome compared to a reference genome. That is, the genetic analysis apparatus 10 may determine whether there is an abnormally deleted or amplified gene in the genetic data 30 obtained from the subject compared to the genetic data 20 obtained from a normal population.
  • the gene analyzed by the genetic analysis device 10 may refer to a nucleic acid such as DNA (deoxyribonucleic acid), RNA (ribonucleic acid), and the like.
  • the normal population may refer to a population composed of ordinary people who have not found a specific disease, such as cancer or a tumor, and the subject may refer to a patient where a specific disease such as cancer or a tumor is found. have. Meanwhile, in the present embodiments, the normal population and the subject may correspond to other animals other than humans.
  • the genetic analysis apparatus 10 may be implemented with at least one processor having a function of data processing for performing various instructions and various algorithms for analyzing the gene data 20 and 30 to identify a copy number variation (CNV) gene. Can be.
  • processor having a function of data processing for performing various instructions and various algorithms for analyzing the gene data 20 and 30 to identify a copy number variation (CNV) gene. Can be.
  • CNV copy number variation
  • FIG. 2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
  • the genetic analysis apparatus 10 may include a reference data generator 110, an analyzer 120, and a determiner 130.
  • the gene analysis apparatus 10 shown in FIG. 2 only shows the components related to the present embodiment in order to prevent the features of the present embodiment from being blurred, the gene analysis apparatus 10 is shown in FIG. In addition to the components, other general purpose components may be further included.
  • the reference data generator 110 receives the gene data 20 obtained from the normal population described above with reference to FIG. 1, and generates a reference data set using the received gene data 20.
  • the reference data generator 110 performs deep sequencing of reference genes included in the gene data 20, thereby providing depths of reads aligned with each of the reference genes. Create a reference data set for (depths). Deep sequencing is a technique for sequencing nucleic acids such as DNA fragments, RNA fragments, and the like by repeatedly aligning leads to nucleic acids such as DNA fragments, RNA fragments, and the like. As a result of deep sequencing, data regarding depths corresponding to the number of reads complementarily bound to nucleic acids such as DNA fragments, RNA fragments, and the like can be obtained.
  • the term “depth” may be used interchangeably as the same meaning as the term “read-depth”.
  • the reference data generator 110 first read-depth corresponding to reference genes for each of the people through deep sequencing on the genetic data (20 of FIG. 1) of a plurality of people (eg, normal people). Acquire them. Then, the reference data generator 110 clusters people into different groups according to the obtained distribution of read-depths. The reference data generator 110 obtains standard depths of each of the reference genes representing each of the groups by normalizing the read-depths obtained for each of the reference genes for each group. As a result, the reference data set generated by the reference data generator 110 may include data representing standard depths of each of the reference genes for each of the groups.
  • the analyzer 120 receives the gene data 30 obtained from the subject, described above with reference to FIG. 1, and performs deep sequencing on the test genes included in the gene data 30 to each of the test genes. Analyze the depths of the aligned reads.
  • deep sequencing performed by the reference data generator 110 and the analyzer 120 may be performed on exon sites in the reference gene or the test gene.
  • the data of the depths analyzed by the reference data set generated by the reference data generator 110 or the analyzer 120 corresponding to the deep sequencing result may be related to the depths of the exon sites. Only data may be included, and data regarding depths of reads aligned to intron sites may not be included.
  • the exemplary embodiments are not limited thereto, and depth data of intron portions may be included.
  • the determination unit 130 compares the depths analyzed by the analyzer 120 with the depths of the reference genes included in the reference data set generated by the reference data generator 110. Then, the determination unit 130 determines whether there is a copy number variation (CNV) gene among the test genes. In this case, the determination unit 130 may determine the presence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
  • CNV copy number variation
  • the determination unit 130 includes an exon region in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes is not statistically significant among the exon regions of the test genes. In this case, it can be determined that a copy number variation (CNV) gene is present.
  • CNV copy number variation
  • the determination unit 130 detects or identifies that the gene corresponding to the exon region whose difference in depth in the corresponding exon regions is not statistically significant corresponds to the copy number variation (CNV) gene. Further, when it is determined that there is a copy number variation (CNV) gene among the test genes, the determination unit 130 selects a drug (for example, an anticancer agent) corresponding to the detected copy number variation (CNV) gene. Annotations can be performed to identify them.
  • a drug for example, an anticancer agent
  • FIG. 3 is a flowchart of a method of generating a reference data set according to an embodiment.
  • the generation of the reference data set includes steps processed in time series in the reference data generator 110 described above.
  • the reference data generator 110 acquires read-depths corresponding to reference genes for each of a plurality of people (eg, normal people).
  • the reference data generator 110 clusters people into different groups according to the obtained distribution of read-depths.
  • step 303 the reference data generator 110 normalizes the read-depths acquired for each of the reference genes for each group.
  • step 304 the reference data generator 110 obtains standard depths of each of the reference genes representing each of the groups.
  • FIG. 4 is a diagram for describing obtaining lead-depths corresponding to reference genes for each of a plurality of people (eg, normal people), according to an exemplary embodiment.
  • the description of FIG. 4 may relate to the method performed in step 301 of FIG. 3.
  • the reference data generator 110 may acquire read-depths by performing deep sequencing using the genetic data 401 obtained from a database (DB) 40.
  • DB database
  • Database (DB) 40 stores genetic data 401 of a plurality of people (eg, normal people) classified into normal population 400.
  • Genetic data 401 may be obtained using various sequencing means, such as next generation sequencing (NGS), microarrays, and the like on biological samples taken from a plurality of people.
  • NGS next generation sequencing
  • the genetic data 401 may be data about a whole genome or data about a HapMap.
  • Database (DB) 40 corresponds to a database (DB) already known in the art, such as NCBI, GEO, etc., or stores genetic data 401 of people recruited to analyze subject genes of a subject. It may be built to.
  • the reference data generator 110 performs deep sequencing on genes (ie, reference genes) of individuals of the normal population 400 included in the gene data 401.
  • the reference data generator 110 may perform deep sequencing on reference genes 411 of the “person 1” 410 included in the normal population 400.
  • the genes 1, ..., gene n (n is a natural number) included in the reference genes 411 are aligned with the leads 415, and the reference genes 411 Data for the depths (lead-depths) of the leads 415 aligned to each other are obtained.
  • the reference data generator 110 performs deep sequencing on the reference genes 421 of the “person 1” 420 included in the normal population 400, and arranges each of the reference genes 421. Data about the depths (lead-depths) of the read leads 425 are obtained.
  • the reference data generator 110 may acquire data of read-depths by performing deep sequencing on reference genes of individual individuals of the normal population 400 included in the gene data 401.
  • 5 is a diagram for describing deep sequencing of exon regions according to an embodiment.
  • an individual's reference gene comprises gene a, gene b and gene c
  • the result of deep sequencing may be the depth of leads 510 aligned to exon a1 in gene a and Data of the depths of the reads aligned to exon a2, the depths of the reads aligned to exon b1 in gene b and the depths of the leads aligned to exon b2, and the depths of the reads aligned to exon c in gene c.
  • the exemplary embodiments are not limited thereto, and the deep sequencing result may include data of depths of reads aligned with the intron regions 505.
  • the analysis unit 120 of FIG. 2 may analyze the depths of reads aligned with each of the exon sites in the test genes by performing deep sequencing on the exon sites in the test genes.
  • FIG. 6 is a diagram illustrating clustering people into different groups according to a distribution of lead-depths obtained from a normal group 400 according to an embodiment. The description of FIG. 6 may relate to the method performed in step 302 of FIG. 3.
  • the reference data generator 110 groups people having a similar distribution of depths to cluster individuals of the normal group 400 into different groups.
  • clustering may be performed by statistically analyzing the distribution of read-depth for each reference gene (exon) using a known trend analysis algorithm, a clustering algorithm, or the like.
  • reference genes of people belonging to group 1 may have a similar distribution of each gene and depth pair.
  • reference genes of people in group 1 may be obtained from biopsy samples of people in group 1
  • reference genes of people in group M M (M is a natural number) may be obtained from FFPE of people in group M. It may be one obtained from the samples.
  • FIG. 7 is a diagram for describing standard depths of each of reference genes representing a group according to an embodiment. The description of FIG. 7 may relate to the methods performed in steps 303 and 304 of FIG. 3.
  • the reference data generator 110 normalizes the read-depths acquired for each of the reference genes for each group, and represents each of the reference genes representing each of the groups. Obtain standard depths.
  • the reference data generator 110 calculates an average of various depths for “exon 1”. By doing so, it is possible to standardize the depth for “Exon 1”. Similarly, the reference data generator 110 calculates an average of various depths with respect to each of the other reference genes (eg, “Exon 43”, “Exon 3543”, “Exon 5623”, etc.), and thus, each gene ( Exon) can be calculated. As a result, the reference data generator 110 may acquire standard depths of each of the reference genes, which represent each of the clustered groups. Meanwhile, in the present embodiment, for convenience of description, the average of the depths is calculated to take a representative value. However, in the present embodiment, the representative value of the depths may be calculated using other types of statistics besides the average.
  • FIG. 8 is a diagram for describing deep sequencing of test genes obtained from biological samples of a subject, according to an exemplary embodiment.
  • the analysis unit 120 of FIG. 2 performs depth sequencing of test genes on the basis of the gene data 30 of the test subject 800 to determine depths of reads aligned with each of the test genes. Analyze them.
  • the genetic data 30 of the subject 800 may be obtained through next generation sequencing (NGS) on a biopsy sample 810 or an FFPE sample 825 taken from some tissue of the subject 800.
  • NGS next generation sequencing
  • the FFPE sample 825 is a sample by FFPE treatment 820 for some tissue of the subject 800.
  • the analysis unit 120 of FIG. 2 analyzes the depths of the reads aligned with the test genes of the test subject 800 according to the deep sequencing methods described above with reference to FIGS. 4 and 5, thereby providing depth data of the test genes ( 830 may be obtained.
  • CNV copy number variation
  • the determination unit 130 determines a group among the groups clustered by the reference data generation unit 110 having the smallest statistical difference between the distribution of the depths analyzed from the test genes and the distribution of the standard depths. do. That is, the determination unit 130 determines at least one group among the clustered groups (eg, the groups of FIG. 6) having a statistical tendency similar to the distribution of depths analyzed from the test genes. In this case, the determination unit 130 may determine a group having the smallest standard deviation between the distribution of the depths analyzed from the test genes and the distribution of the standard depths.
  • the present invention is not limited thereto, and other statistics may be used in addition to the standard deviation to select a group having a tendency similar to the distribution of depths analyzed from the test genes.
  • the determination unit 130 compares the analyzed depths analyzed from the test genes and the standard depths corresponding to the determined group. More specifically, the determination unit 130 compares the depth of each of the test genes (exons) with the depths of the corresponding reference genes (corresponding exons). For example, assuming that “exon 1” and “exon 43” exist in both the test genes and the reference genes, the determination unit 130 may determine the “exon 1” of the analysis unit 120. The depth is compared with the standard depth of "Exon 1", and the depth of "Exon 43" analyzed by the analyzer 120 is compared with the standard depth of "Exon 43".
  • “exon 1” and “exon 43” are arbitrary terms for indicating that they are different exons.
  • the determination unit 130 determines whether a copy number variation (CNV) gene is present as a result of the comparison. At this time, the determination unit 130, if there is an exon region of the exon regions of the test genes, the difference in the depth of the exon regions corresponding to each other between the reference genes and the test genes are not statistically significant (significant) It can be determined that the copy number variation (CNV) gene is present.
  • CNV copy number variation
  • the determination unit 130 determines that the depth of any exon analyzed by the analysis unit 120 is standard. It may be determined that the copy number variation (CNV) gene is present when it exceeds 4 times the depth.
  • the threshold is not limited thereto and may be variously changed. For example, when the standard depth of “exon 1” is 1000, the threshold for determining significance may be 4000. Therefore, when the depth of the "exon 1" of the subject analyzed by the analysis unit 120 is 5000, the determination unit 130 may determine that the gene of "exon 1" is a copy number variation (CNV) gene. Can be.
  • FIG. 10 illustrates a method for determining whether a copy number variation (CNV) gene is present according to an embodiment.
  • the depths indicated by solid lines correspond to reference genes (exons)
  • the depths indicated by solid lines correspond to reference genes (exons)
  • the depths indicated by dashed lines correspond to test genes (exons).
  • the determination unit 130 compares the depths of the exons analyzed by the analysis unit 120 and the standard depths, as described above in the drawings.
  • the determination unit 130 may be an exon region (“exon a”) in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes among the exon sites of the test genes is not statistically significant. Is present, the test gene of "exon a” has been identified as a copy number mutation (CNV) gene, it can be determined that the copy number mutation (CNV) gene is present.
  • CNV copy number mutation
  • the determination unit 130 may annotate for identifying a drug (eg, an anticancer agent) corresponding to the copy number variation (CNV) gene. Can be performed.
  • a drug eg, an anticancer agent
  • the gene analysis method includes steps that are processed in time series in the gene analysis apparatus 10 described in the foregoing figures. Therefore, even if omitted below, the contents described above may be applied to the genetic analysis method of FIG. 11.
  • the reference data generator 110 performs deep sequencing on the reference genes to generate a reference data set about depths of reads aligned with each of the reference genes.
  • the analyzer 120 analyzes the depths of the reads aligned with each of the test genes by performing deep sequencing on the test genes.
  • the determination unit 130 compares the analyzed depths with the depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene exists among the test genes.
  • CNV copy number variation
  • FIG. 12 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
  • the computing device 1 includes a genetic analysis device (processor) 10, a data interface 11, and a memory 12.
  • the computing device 1 shown in FIG. 12 has only general components related to the present embodiment in order to prevent the features of the present embodiment from being blurred. Therefore, the computing device 1 shown in FIG. Components may be further included.
  • the data interface 11 receives the genetic data 20 of the normal population and the genetic data 30 of the subject described above in FIG. 1. That is, the data interface 11 may be implemented in hardware of a wired / wireless network interface for the computing device 1 to communicate with other external devices. The data interface 11 transmits the received genetic data 20 and 30 to the genetic analysis device (processor) 10.
  • Data interface 11 may receive genetic data 20 of a normal population from database DB (40 in FIG. 4).
  • the data interface 11 may receive the genetic data 30 of the subject from an external next-generation sequencing apparatus, a microarray, or the like for sequencing the subject gene of the subject.
  • the memory 12 is hardware for storing data to be processed in the computing device 1 and the processed results, and memory chips such as random access memory (RAM), read only memory (ROM), or a hard disk (HDD). drive, solid state drive (SSD), and the like. That is, the memory 12 may store the gene data 20 and 30 received by the data interface 11, and the reference data set processed by the genetic analysis device (processor) 10, for the genes to be tested. Deep sequencing data, data for identified copy number variation (CNV) genes can also be stored.
  • RAM random access memory
  • ROM read only memory
  • HDD hard disk
  • SSD solid state drive
  • Genetic analysis device (processor) 10 is a module implemented in one or more processing units, which may be implemented as a combination of a microprocessor having an array of multiple logic gates and a memory module storing a program that can be executed on the microprocessor. have. Genetic analysis device (processor) 10 may be implemented in the form of a module of an application program. Genetic analysis device (processor) 10 is a hardware device for processing the gene analysis described above in FIGS.
  • the information about the copy number variation (CNV) gene identified by the genetic analysis device (processor) 10 may be transmitted via the data interface 11 to another external device such as a display device, another computing device, or the like, Or on an external network, such as the Internet, a public database (DB) server.
  • another external device such as a display device, another computing device, or the like
  • an external network such as the Internet, a public database (DB) server.
  • DB public database
  • a copy number variation (CNV) gene may be generated only by a biopsy sample or an FFPE sample of the cancer tissue of the subject. Can be detected.
  • genes of cancer tissue test genes
  • reference to reference genes under similar conditions FFPE treatment
  • CNV cloned mutation
  • the device may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a button, and the like. And a user interface device.
  • Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor.
  • the computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc).
  • the computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion.
  • the medium is readable by the computer, stored in the memory, and can be executed by the processor.
  • This embodiment can be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions.
  • an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them.
  • the present embodiment includes various algorithms implemented in C, C ++, Java (data structures, processes, routines or other combinations of programming constructs). It may be implemented in a programming or scripting language such as Java), an assembler, or the like.
  • the functional aspects may be implemented with an algorithm running on one or more processors.
  • the present embodiment may employ the prior art for electronic environment setting, signal processing, and / or data processing.
  • Terms such as “mechanism”, “element”, “means” and “configuration” can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
  • connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.

Abstract

A method and a device for analyzing a gene: generate a reference data set by carrying out deep sequencing of reference genes; analyze, by carrying out deep sequencing of genes to be inspected, the depth of the genes to be inspected; and determine, by comparing the analyzed depth and the depth of the reference genes included in the reference data set, whether copy-number variation (CNV) genes exist in the genes to be inspected.

Description

유전자를 분석하는 방법 및 장치Methods and apparatus for analyzing genes
유전자를 분석하는 방법 및 장치에 관한 것으로서, 특히 복제수 변이(copy number variation, CNV)의 유전자를 분석하는 방법 및 장치에 관한다.The present invention relates to a method and apparatus for analyzing genes, and more particularly, to a method and apparatus for analyzing genes of copy number variation (CNV).
유전체(genome)란 한 생물이 가지는 모든 유전 정보를 말한다. 어느 한 개인의 유전체의 시퀀싱(sequencing)을 위하여, DNA 칩 및 차세대 서열화(Next Generation Sequencing) 기술, 차차세대 서열화(Next Next Generation Sequencing) 기술 등 여러 기술들이 개발되고 있다. 핵산 서열, 단백질 등과 같은 유전 정보들은 분석은 당뇨병, 암과 같은 질병을 발현시키는 유전자를 찾거나, 유전적 다양성과 개체의 발현 특성 간의 상관관계 등을 파악하기 위하여 폭넓게 활용된다. 특히, 개인으로부터 수집된 유전 데이터는 서로 다른 증상이나 질병의 진행과 관련된 개인의 유전적인 특징을 규명하는데 있어서 중요하다. 따라서, 개인의 핵산 서열, 단백질 등과 같은 유전 데이터는 현재와 미래의 질병 관련 정보를 파악하여 질병을 예방하거나 질병의 초기 단계에서 최적의 치료 방법을 선택할 수 있도록 하는 핵심적인 데이터이다. 생물의 유전 정보들로서 SNP(Single Nucleotide Polymorphism), CNV(Copy Number Variation) 등을 검출하는 유전체 검출 장비를 활용하여 개인의 유전 데이터를 정확히 분석하고, 개인의 질병을 진단하는 기술들이 연구 중에 있다.A genome is all the genetic information of a living thing. For sequencing of an individual's genome, various technologies such as DNA chips, Next Generation Sequencing technology, and Next Next Generation Sequencing technology have been developed. Analysis of genetic information such as nucleic acid sequences, proteins, etc., is widely used to find genes that express diseases such as diabetes and cancer, or to identify correlations between genetic diversity and individual expression characteristics. In particular, the genetic data collected from the individual is important in identifying the genetic characteristics of the individual associated with different symptoms or disease progression. Therefore, genetic data such as nucleic acid sequences, proteins, etc. of an individual are essential data for identifying current and future disease-related information to prevent disease or to select an optimal treatment method at an early stage of disease. Techniques for accurately analyzing individual genetic data and diagnosing an individual's disease using genome detection equipment that detects single nucleotide polymorphism (SNP) and copy number variation (CNV) as genetic information of an organism are being studied.
유전자를 분석하는 방법 및 장치를 제공하는데 있다. 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 이하의 실시예들로부터 또 다른 기술적 과제들이 유추될 수 있다.To provide a method and apparatus for analyzing a gene. The technical problem to be achieved by the present embodiment is not limited to the technical problems as described above, and further technical problems can be inferred from the following embodiments.
일 측면에 따르면, 유전자를 분석하는 방법은, 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 단계; 피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 단계; 및 상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 단계를 포함한다.According to one aspect, a method of analyzing a gene comprises: generating a reference data set relating to depths of reads aligned to each of the reference genes by performing deep sequencing on reference genes; Analyzing depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And comparing the analyzed depths with depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene is present among the test genes.
또한, 상기 분석하는 단계는 상기 피검 유전자들의 엑손 부위들에 정렬된 상기 리드들의 상기 뎁스를 분석한다.In addition, the analyzing step analyzes the depth of the reads aligned with exon sites of the test genes.
또한, 상기 판단하는 단계는 동일한 엑손 부위 별로 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간의 상기 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자의 존재를 판단한다.In the determining, the presence of the copy number variation (CNV) gene may be determined by comparing the depths between the reference genes and the test genes for the same exon region.
또한, 상기 판단하는 단계는 상기 피검 유전자들의 엑손 부위들 중, 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우, 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단한다.The determining may include exon sites of which the difference in depths of exon sites corresponding to each other between the reference genes and the test genes are not statistically significant among the exon sites of the test genes. If so, the copy number mutation (CNV) gene is determined to exist.
또한, 상기 생성하는 단계는 복수의 사람들의 유전자 데이터에 대한 상기 딥 시퀀싱을 통해, 상기 사람들 각각에 대하여 상기 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하는 단계; 상기 획득된 리드-뎁스들의 분포에 따라 상기 사람들을 서로 다른 그룹들로 클러스터링하는 단계; 그룹 마다 상기 레퍼런스 유전자들 각각에 대해 획득된 상기 리드-뎁스들을 표준화함으로써, 상기 그룹들 각각을 대표하는 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 획득하는 단계를 포함하고, 상기 레퍼런스 데이터 세트는 상기 그룹들 각각에 대하여, 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 나타내는 데이터를 포함한다.The generating may further include obtaining lead-depths corresponding to the reference genes for each of the people through the deep sequencing of a plurality of people's gene data; Clustering the people into different groups according to the obtained distribution of lead-depths; Acquiring standard depths of each of the reference genes representing each of the groups by normalizing the read-depths acquired for each of the reference genes per group, wherein the reference data set includes the groups For each, data representing standard depths of each of the reference genes is included.
또한, 상기 판단하는 단계는 상기 그룹들 중, 상기 분석된 뎁스들의 분포와 상기 표준 뎁스들의 분포 간의 통계적인 차이가 가장 작은 그룹을 결정하는 단계; 및 상기 분석된 뎁스들과 상기 결정된 그룹에 대응되는 표준 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 단계를 포함한다.The determining may further include determining a group among the groups having the smallest statistical difference between the distribution of the analyzed depths and the distribution of the standard depths; And determining whether the copy number variation (CNV) gene is present by comparing the analyzed depths with standard depths corresponding to the determined group.
또한, 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 상기 사람들의 상기 유전자 데이터를 획득하는 단계를 더 포함한다.The method further includes obtaining the genetic data of the people from public genomic data or public HapMap data.
또한, 상기 레퍼런스 유전자들 또는 상기 피검 유전자들은 생검 조직, 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것일 수 있다.In addition, the reference genes or the test genes may be obtained from biopsy tissue, formalin-fixed, paraffin-embedded (FFPE) tissue.
또한, 상기 피검 유전자들 중 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우, 상기 복제수 변이(CNV) 유전자에 대응되는 약물을 식별하기 위한 어노테이션을 수행하는 단계를 더 포함한다.In addition, when it is determined that the copy number variation (CNV) gene is present among the test genes, the method may further include performing an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
다른 측면에 따르면, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.According to another aspect, there is provided a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
또 다른 측면에 따르면, 유전자를 분석하는 장치는, 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 레퍼런스 데이터 생성부; 피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 분석부; 및 상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 판단부를 포함한다.According to another aspect, an apparatus for analyzing a gene may include: a reference data generator configured to generate a reference data set about depths of reads aligned with each of the reference genes by performing deep sequencing on reference genes; An analysis unit which analyzes depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And a determining unit determining whether a copy number variation (CNV) gene exists among the test genes by comparing the analyzed depths with depths of the reference genes included in the reference data set.
또한, 상기 분석부는 상기 피검 유전자들의 엑손 부위들에 정렬된 상기 리드들의 상기 뎁스를 분석한다.In addition, the analysis unit analyzes the depth of the reads aligned with exon sites of the test genes.
또한, 상기 판단부는 동일한 엑손 부위 별로 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간의 상기 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자의 존재를 판단한다.In addition, the determination unit determines the existence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
또한, 상기 판단부는 상기 피검 유전자들의 엑손 부위들 중, 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우, 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단한다.In addition, the determination unit, when there is an exon region of the exon regions of the test genes, the difference in the depth of the exon regions corresponding to each other between the reference genes and the test genes are not statistically significant (significant) It is determined that the copy number mutation (CNV) gene is present.
또한, 상기 레퍼런스 데이터 생성부는 복수의 사람들의 유전자 데이터에 대한 상기 딥 시퀀싱을 통해, 상기 사람들 각각에 대하여 상기 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하고, 상기 획득된 리드-뎁스들의 분포에 따라 상기 사람들을 서로 다른 그룹들로 클러스터링하고, 그룹 마다 상기 레퍼런스 유전자들 각각에 대해 획득된 상기 리드-뎁스들을 표준화함으로써, 상기 그룹들 각각을 대표하는 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 획득하고, 상기 레퍼런스 데이터 세트는 상기 그룹들 각각에 대하여, 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 나타내는 데이터를 포함한다.In addition, the reference data generator obtains read-depths corresponding to the reference genes for each of the people through the deep sequencing of a plurality of people's gene data, and according to the distribution of the read-depths. Clustering the people into different groups, normalizing the read-depths obtained for each of the reference genes per group, thereby obtaining standard depths of each of the reference genes representing each of the groups, and The reference data set includes, for each of the groups, data representing standard depths of each of the reference genes.
또한, 상기 판단부는 상기 그룹들 중, 상기 분석된 뎁스들의 분포와 상기 표준 뎁스들의 분포 간의 통계적인 차이가 가장 작은 그룹을 결정하고, 상기 분석된 뎁스들과 상기 결정된 그룹에 대응되는 표준 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단한다.The determination unit may determine a group having the smallest statistical difference between the distribution of the analyzed depths and the distribution of the standard depths among the groups, and compare the analyzed depths with the standard depths corresponding to the determined group. Thus, it is determined whether the copy number mutation (CNV) gene is present.
또한, 상기 레퍼런스 데이터 생성부는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 상기 사람들의 상기 유전자 데이터를 획득한다.In addition, the reference data generator obtains the genetic data of the people from public genomic data or public map data (HapMap).
또한, 상기 레퍼런스 유전자들 또는 상기 피검 유전자들은 생검 조직, 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것일 수 있다.In addition, the reference genes or the test genes may be obtained from biopsy tissue, formalin-fixed, paraffin-embedded (FFPE) tissue.
또한, 상기 판단부는 상기 피검 유전자들 중 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우, 상기 복제수 변이(CNV) 유전자에 대응되는 약물을 식별하기 위한 어노테이션을 수행한다.In addition, when it is determined that the copy number variation (CNV) gene is present among the test genes, the determination unit performs an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
상기된 바에 따르면, 피검체의 피검 유전자로부터 복제수 변이(CNV) 유전자가 존재하는지를 보다 정확하게 분석해 낼 수 있다.As described above, it is possible to analyze more accurately whether the copy number variation (CNV) gene is present from the test gene of the subject.
도 1은 일 실시예에 따른 유전자 분석 장치를 설명하기 위한 도면이다.1 is a view for explaining a gene analysis apparatus according to an embodiment.
도 2는 일 실시예에 따른 유전자 분석 장치의 하드웨어 구성들을 도시한 블록도이다.2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
도 3은 일 실시예에 따른 레퍼런스 데이터 세트를 생성하는 방법의 흐름도이다.3 is a flowchart of a method of generating a reference data set according to an embodiment.
도 4는 일 실시예에 따라 복수의 사람들(예를 들어, 정상인들) 각각에 대하여 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하는 것을 설명하기 위한 도면이다.FIG. 4 is a diagram for describing obtaining lead-depths corresponding to reference genes for each of a plurality of people (eg, normal people), according to an exemplary embodiment.
도 5는 일 실시예에 따라 엑손 부위들에 대한 딥 시퀀싱을 설명하기 위한 도면이다.5 is a diagram for describing deep sequencing of exon regions according to an embodiment.
도 6은 일 실시예에 따라 정상인 집단(400)으로부터 획득된 리드-뎁스들의 분포에 따라 사람들을 서로 다른 그룹들로 클러스터링하는 것을 설명하기 위한 도면이다.FIG. 6 is a diagram illustrating clustering people into different groups according to a distribution of lead-depths obtained from a normal group 400 according to an embodiment.
도 7은 일 실시예에 따라 어느 그룹을 대표하는, 레퍼런스 유전자들 각각의 표준 뎁스들을 설명하기 위한 도면이다.FIG. 7 is a diagram for describing standard depths of each of reference genes representing a group according to an embodiment.
도 8은 일 실시예에 따라 피검체의 생물학적 샘플로부터 획득된 피검 유전자들에 대한 딥 시퀀싱을 수행하는 것을 설명하기 위한 도면이다.FIG. 8 is a diagram for describing deep sequencing of test genes obtained from biological samples of a subject, according to an exemplary embodiment.
도 9는 일 실시예에 따른 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 방법의 흐름도이다.9 is a flowchart of a method of determining whether a copy number variation (CNV) gene is present according to an embodiment.
도 10은 일 실시예에 따라 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 것을 설명하기 위한 도면이다.FIG. 10 illustrates a method for determining whether a copy number variation (CNV) gene is present according to an embodiment.
도 11은 일 실시예에 따라 유전자를 분석하는 방법의 흐름도이다.11 is a flowchart of a method of analyzing a gene, according to an embodiment.
도 12는 일 실시예에 따른 컴퓨팅 장치의 하드웨어 구성들을 도시한 블록도이다.12 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
일 측면에 따르면, 유전자를 분석하는 방법은, 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 단계; 피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 단계; 및 상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 단계를 포함한다.According to one aspect, a method of analyzing a gene comprises: generating a reference data set relating to depths of reads aligned to each of the reference genes by performing deep sequencing on reference genes; Analyzing depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And comparing the analyzed depths with depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene is present among the test genes.
다른 측면에 따르면, 상기 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체를 제공한다.According to another aspect, there is provided a computer-readable recording medium having recorded thereon a program for executing the method on a computer.
또 다른 측면에 따르면, 유전자를 분석하는 장치는, 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 레퍼런스 데이터 생성부; 피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 분석부; 및 상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 판단부를 포함한다.According to another aspect, an apparatus for analyzing a gene may include: a reference data generator configured to generate a reference data set about depths of reads aligned with each of the reference genes by performing deep sequencing on reference genes; An analysis unit which analyzes depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And a determining unit determining whether a copy number variation (CNV) gene exists among the test genes by comparing the analyzed depths with depths of the reference genes included in the reference data set.
본 실시예들에서 사용되는 용어는 본 실시예들에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 기술분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 임의로 선정된 용어도 있으며, 이 경우 해당 실시예의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서, 본 실시예들에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 실시예들의 전반에 걸친 내용을 토대로 정의되어야 한다.The terminology used in the present embodiments is to select general terms widely used now, considering the functions of the present embodiments, but this will vary depending on the intention or precedent of the person skilled in the art, the emergence of new technologies, etc. Can be. In addition, in certain cases, there is also a term arbitrarily selected, in which case the meaning will be described in detail in the description of the corresponding embodiment. Therefore, the terms used in the present embodiments should be defined based on the meanings of the terms and the contents throughout the embodiments, rather than simply the names of the terms.
실시예들에 대한 설명들에서, 어떤 부분이 다른 부분과 연결되어 있다고 할 때, 이는 직접적으로 연결되어 있는 경우뿐 아니라, 그 중간에 다른 구성요소를 사이에 두고 전기적으로 연결되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 포함한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 실시예들에 기재된 “...부”, “...모듈”의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.In the descriptions of the embodiments, when a part is connected to another part, it includes not only a case where the part is directly connected, but also an electric part connected between other components in between. . In addition, when a part includes a certain component, this means that the component may further include other components, not to exclude other components unless specifically stated otherwise. In addition, the terms "... unit", "... module" described in the embodiments means a unit for processing at least one function or operation, which is implemented in hardware or software, or a combination of hardware and software. Can be implemented.
본 실시예들에서 사용되는 “구성된다” 또는 “포함한다” 등의 용어는 명세서 상에 기재된 여러 구성 요소들, 도는 여러 단계들을 반드시 모두 포함하는 것으로 해석되지 않아야 하며, 그 중 일부 구성 요소들 또는 일부 단계들은 포함되지 않을 수도 있고, 또는 추가적인 구성 요소 또는 단계들을 더 포함할 수 있는 것으로 해석되어야 한다.Terms such as “consisting of” or “comprising” as used in the present embodiments should not be construed as necessarily including all of the various components or steps described in the specification, and some of the components or It is to be understood that some steps may not be included or may further include additional components or steps.
하기 실시예들에 대한 설명은 권리범위를 제한하는 것으로 해석되지 말아야 하며, 해당 기술분야의 당업자가 용이하게 유추할 수 있는 것은 실시예들의 권리범위에 속하는 것으로 해석되어야 할 것이다. 이하 첨부된 도면들을 참조하면서 오로지 예시를 위한 실시예들을 상세히 설명하기로 한다.The description of the following embodiments should not be construed as limiting the scope of rights, and it should be construed as belonging to the scope of the embodiments as can be easily inferred by those skilled in the art. Hereinafter, only exemplary embodiments will be described in detail with reference to the accompanying drawings.
도 1은 일 실시예에 따른 유전자 분석 장치를 설명하기 위한 도면이다.1 is a view for explaining a gene analysis apparatus according to an embodiment.
도 1을 참고하면, 유전자 분석 장치(10)는 정상인 집단으로부터 획득된 유전자 데이터(20) 및 피검체로부터 획득된 유전자 데이터(30)를 이용하여, 피검체의 피검 유전자에 복제수 변이(CNV) 유전자가 존재하는지 여부를 식별할 수 있다.Referring to FIG. 1, the genetic analysis apparatus 10 uses a genetic data 20 obtained from a normal population and a genetic data 30 obtained from a subject, thereby replicating copy number (CNV) to a subject gene of a subject. The presence of a gene can be identified.
유전자 분석 장치(10)에서 수신하는 유전자 데이터(20) 및 유전자 데이터(30)는, 차세대 시퀀싱(next generation sequencing, NGS)에 의해 획득된 FASTQ 파일 포맷의 유전자 데이터에 해당될 수 있다. FASTQ 포맷은 보통 뉴클레오티드 서열과 같은 생물학적 서열과, 그에 대응되는 퀄리티 스코어를 저장하는 텍스트 기반 포맷(text-based format)이다. 다만, 본 실시예에 따른 유전자 분석 장치(10)는, FASTQ 포맷에 제한되지 않고, 다른 포맷의 유전자 데이터(20 및 30)도 분석이 가능하다.The genetic data 20 and the genetic data 30 received by the genetic analysis apparatus 10 may correspond to the genetic data in the FASTQ file format obtained by next generation sequencing (NGS). The FASTQ format is usually a text-based format that stores biological sequences, such as nucleotide sequences, and corresponding quality scores. However, the genetic analysis apparatus 10 according to the present embodiment is not limited to the FASTQ format, and the genetic data 20 and 30 in other formats can also be analyzed.
정상인 집단의 유전자 데이터(20)는, NCBI(National Center for Biotechnology Information), Gene Expression Omnibus (GEO) 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)로부터 획득되거나, 또는 피검체의 피검 유전자들을 분석하기 위하여 모집된 사람들의 생물학적 샘플로부터 획득된 것일 수 있다. 즉, 유전자 데이터(20)는 공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 획득된 것일 수 있다. 한편, 유전자 데이터(20)에 포함된 레퍼런스 유전자들 또는 유전자 데이터(30)에 포함된 피검 유전자들은, 생검 조직, 포르말린-고정 조직 또는 파라핀-내장(Formalin-fixed, paraffin-embedded) 조직으로부터 획득된 것일 수 있다. Gene data 20 of the normal population is obtained from a database (DB) already known in the art, such as the National Center for Biotechnology Information (NCBI), Gene® Expression Omnibus (GEO), or the like. It may be obtained from a biological sample of people recruited to. That is, the genetic data 20 may be obtained from public genomic data or public map data. Meanwhile, the reference genes included in the genetic data 20 or the test genes included in the genetic data 30 may be obtained from biopsy tissue, formalin-fixed tissue, or paraffin-embedded tissue. It may be.
복제수 변이(CNV)는, 레퍼런스 게놈(reference genome)과 비교하여 특정 염색체의 상대적으로 큰 영역이 결손되거나 증폭되어 반복적으로 나타나는 유전자 내의 변이를 의미하는 것으로 알려져 있다. 즉, 유전자 분석 장치(10)는 정상인 집단으로부터 획득된 유전자 데이터(20) 대비 피검체로부터 획득된 유전자 데이터(30)에 비정상적으로 결손되거나 증폭된 유전자가 존재하는지 여부를 판단할 수 있다. 여기서, 유전자 분석 장치(10)에 의해 분석되는 유전자는 DNA(deoxyribonucleic acid), RNA(ribonucleic acid) 등과 같은 핵산을 의미할 수 있다.Copy number variation (CNV) is known to mean a variation in a gene that appears to be repeated or lacking or amplified in a relatively large region of a particular chromosome compared to a reference genome. That is, the genetic analysis apparatus 10 may determine whether there is an abnormally deleted or amplified gene in the genetic data 30 obtained from the subject compared to the genetic data 20 obtained from a normal population. Here, the gene analyzed by the genetic analysis device 10 may refer to a nucleic acid such as DNA (deoxyribonucleic acid), RNA (ribonucleic acid), and the like.
본 실시예들에서, 정상인 집단은 특정 질병, 예를 들어 암, 종양 등이 발견되지 않은 일반 사람들로 구성된 집단을 의미하고, 피검체는 암, 종양 등과 같은 특정 질병이 발견된 환자를 의미할 수 있다. 한편, 본 실시예들에서 정상인 집단, 피검체는 인간이 아닌, 다른 동물들에 해당될 수도 있다.In the present embodiments, the normal population may refer to a population composed of ordinary people who have not found a specific disease, such as cancer or a tumor, and the subject may refer to a patient where a specific disease such as cancer or a tumor is found. have. Meanwhile, in the present embodiments, the normal population and the subject may correspond to other animals other than humans.
유전자 분석 장치(10)는 유전자 데이터(20 및 30)를 분석하여 복제수 변이(CNV) 유전자를 식별하기 위한 다양한 명령어들, 다양한 알고리즘들을 수행하는 데이터 프로세싱의 기능을 갖는 적어도 하나의 프로세서로 구현될 수 있다.The genetic analysis apparatus 10 may be implemented with at least one processor having a function of data processing for performing various instructions and various algorithms for analyzing the gene data 20 and 30 to identify a copy number variation (CNV) gene. Can be.
도 2는 일 실시예에 따른 유전자 분석 장치의 하드웨어 구성들을 도시한 블록도이다.2 is a block diagram illustrating hardware configurations of a gene analysis apparatus according to an exemplary embodiment.
도 2를 참고하면, 유전자 분석 장치(10)는 레퍼런스 데이터 생성부(110), 분석부(120) 및 판단부(130)를 포함할 수 있다. 한편, 도 2에 도시된 유전자 분석 장치(10)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 유전자 분석 장치(10)는 도 2에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.Referring to FIG. 2, the genetic analysis apparatus 10 may include a reference data generator 110, an analyzer 120, and a determiner 130. On the other hand, since the gene analysis apparatus 10 shown in FIG. 2 only shows the components related to the present embodiment in order to prevent the features of the present embodiment from being blurred, the gene analysis apparatus 10 is shown in FIG. In addition to the components, other general purpose components may be further included.
레퍼런스 데이터 생성부(110)는 앞서 도 1에서 설명된, 정상인 집단으로부터 획득된 유전자 데이터(20)를 수신하고, 수신된 유전자 데이터(20)를 이용하여 레퍼런스 데이터 세트를 생성한다.The reference data generator 110 receives the gene data 20 obtained from the normal population described above with reference to FIG. 1, and generates a reference data set using the received gene data 20.
보다 상세하게는, 레퍼런스 데이터 생성부(110)는 유전자 데이터(20)에 포함된 레퍼런스 유전자들에 대한 딥 시퀀싱(deep sequencing)을 수행함으로써 레퍼런스 유전자들 각각에 정렬된 리드들(reads)의 뎁스들(depths)에 관한 레퍼런스 데이터 세트를 생성한다. 딥 시퀀싱이란, DNA 절편, RNA 절편 등과 같은 핵산들에 리드들을 반복적으로 정렬시킴으로써, DNA 절편, RNA 절편 등과 같은 핵산들을 시퀀싱하는 기술이다. 딥 시퀀싱의 결과, DNA 절편, RNA 절편 등과 같은 핵산들에 상보적으로 결합된 리드들의 개수에 대응되는 뎁스들에 관한 데이터가 획득될 수 있다. 본 실시예들에서, “뎁스”의 용어는 “리드-뎁스(read-depth)”의 용어와 동일한 의미로서 혼용되어 사용될 수 있다.In more detail, the reference data generator 110 performs deep sequencing of reference genes included in the gene data 20, thereby providing depths of reads aligned with each of the reference genes. Create a reference data set for (depths). Deep sequencing is a technique for sequencing nucleic acids such as DNA fragments, RNA fragments, and the like by repeatedly aligning leads to nucleic acids such as DNA fragments, RNA fragments, and the like. As a result of deep sequencing, data regarding depths corresponding to the number of reads complementarily bound to nucleic acids such as DNA fragments, RNA fragments, and the like can be obtained. In the present embodiments, the term “depth” may be used interchangeably as the same meaning as the term “read-depth”.
레퍼런스 데이터 생성부(110)는 먼저, 복수의 사람들(예를 들어, 정상인들)의 유전자 데이터(도 1의 20)에 대한 딥 시퀀싱을 통해, 사람들 각각에 대하여 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득한다. 그리고 나서, 레퍼런스 데이터 생성부(110)는 획득된 리드-뎁스들의 분포에 따라 사람들을 서로 다른 그룹들로 클러스터링한다. 레퍼런스 데이터 생성부(110)는 그룹 마다 레퍼런스 유전자들 각각에 대해 획득된 리드-뎁스들을 표준화함으로써, 그룹들 각각을 대표하는 레퍼런스 유전자들 각각의 표준 뎁스들을 획득한다. 결국, 레퍼런스 데이터 생성부(110)에 의해 생성된 레퍼런스 데이터 세트는, 그룹들 각각에 대하여, 레퍼런스 유전자들 각각의 표준 뎁스들을 나타내는 데이터를 포함할 수 있다.The reference data generator 110 first read-depth corresponding to reference genes for each of the people through deep sequencing on the genetic data (20 of FIG. 1) of a plurality of people (eg, normal people). Acquire them. Then, the reference data generator 110 clusters people into different groups according to the obtained distribution of read-depths. The reference data generator 110 obtains standard depths of each of the reference genes representing each of the groups by normalizing the read-depths obtained for each of the reference genes for each group. As a result, the reference data set generated by the reference data generator 110 may include data representing standard depths of each of the reference genes for each of the groups.
분석부(120)는 앞서 도 1에서 설명된, 피검체로부터 획득된 유전자 데이터(30)를 수신하고, 유전자 데이터(30)에 포함된 피검 유전자들에 대해 딥 시퀀싱을 수행함으로써 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석한다.The analyzer 120 receives the gene data 30 obtained from the subject, described above with reference to FIG. 1, and performs deep sequencing on the test genes included in the gene data 30 to each of the test genes. Analyze the depths of the aligned reads.
한편, 레퍼런스 데이터 생성부(110) 및 분석부(120)에 의해 수행되는 딥 시퀀싱은, 레퍼런스 유전자 또는 피검 유전자 내의 엑손(exon) 부위들에 대해 수행될 수 있다. 다시 말하면, 딥 시퀀싱 결과에 해당되는, 레퍼런스 데이터 생성부(110)에서 생성된 레퍼런스 데이터 세트 또는 분석부(120)에 의해 분석된 뎁스들의 데이터에는, 엑손(exon) 부위들에서의 뎁스들에 관한 데이터만이 포함되고, 인트론 부위들에 정렬된 리드들의 뎁스들에 관한 데이터는 포함되지 않을 수 있다. 다만, 본 실시예들은 이에 제한되지 않고, 인트론 부위들에 대한 뎁스 데이터가 포함될 수도 있다.Meanwhile, deep sequencing performed by the reference data generator 110 and the analyzer 120 may be performed on exon sites in the reference gene or the test gene. In other words, the data of the depths analyzed by the reference data set generated by the reference data generator 110 or the analyzer 120 corresponding to the deep sequencing result may be related to the depths of the exon sites. Only data may be included, and data regarding depths of reads aligned to intron sites may not be included. However, the exemplary embodiments are not limited thereto, and depth data of intron portions may be included.
판단부(130)는 분석부(120)에 의해 분석된 뎁스들을, 레퍼런스 데이터 생성부(110)에 의해 생성된 레퍼런스 데이터 세트에 포함된 레퍼런스 유전자들에 대한 뎁스들과 비교한다. 그리고 나서, 판단부(130)는 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단한다. 이때, 판단부(130)는 동일한 엑손 부위 별로 레퍼런스 유전자들 및 피검 유전자들 간의 뎁스들을 비교함으로써, 복제수 변이(CNV) 유전자의 존재를 판단할 수 있다.The determination unit 130 compares the depths analyzed by the analyzer 120 with the depths of the reference genes included in the reference data set generated by the reference data generator 110. Then, the determination unit 130 determines whether there is a copy number variation (CNV) gene among the test genes. In this case, the determination unit 130 may determine the presence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
판단부(130)는 판단 기준으로서, 피검 유전자들의 엑손 부위들 중, 레퍼런스 유전자들 및 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우에, 복제수 변이(CNV) 유전자가 존재하는 것으로 판단할 수 있다.As a criterion of determination, the determination unit 130 includes an exon region in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes is not statistically significant among the exon regions of the test genes. In this case, it can be determined that a copy number variation (CNV) gene is present.
판단부(130)는 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의하지 않은 엑손 부위에 대응되는 유전자가 복제수 변이(CNV) 유전자에 해당되는 것으로 검출 또는 식별한다. 나아가서, 판단부(130)는 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우에는, 검출된 복제수 변이(CNV) 유전자에 대응되는 약물(예를 들어, 항암제 등)을 식별하기 위한 어노테이션(annotation)을 수행할 수 있다.The determination unit 130 detects or identifies that the gene corresponding to the exon region whose difference in depth in the corresponding exon regions is not statistically significant corresponds to the copy number variation (CNV) gene. Further, when it is determined that there is a copy number variation (CNV) gene among the test genes, the determination unit 130 selects a drug (for example, an anticancer agent) corresponding to the detected copy number variation (CNV) gene. Annotations can be performed to identify them.
도 3은 일 실시예에 따른 레퍼런스 데이터 세트를 생성하는 방법의 흐름도이다. 도 3을 참고하면, 레퍼런스 데이터 세트의 생성은 앞서 설명된 레퍼런스 데이터 생성부(110)에서 시계열적으로 처리되는 단계들을 포함한다.3 is a flowchart of a method of generating a reference data set according to an embodiment. Referring to FIG. 3, the generation of the reference data set includes steps processed in time series in the reference data generator 110 described above.
301 단계에서, 레퍼런스 데이터 생성부(110)는, 복수의 사람들(예를 들어, 정상인들) 각각에 대하여 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득한다.In operation 301, the reference data generator 110 acquires read-depths corresponding to reference genes for each of a plurality of people (eg, normal people).
302 단계에서, 레퍼런스 데이터 생성부(110)는, 획득된 리드-뎁스들의 분포에 따라 사람들을 서로 다른 그룹들로 클러스터링한다.In operation 302, the reference data generator 110 clusters people into different groups according to the obtained distribution of read-depths.
303 단계에서, 레퍼런스 데이터 생성부(110)는, 그룹 마다, 레퍼런스 유전자들 각각에 대해 획득된 리드-뎁스들을 표준화한다.In step 303, the reference data generator 110 normalizes the read-depths acquired for each of the reference genes for each group.
304 단계에서, 레퍼런스 데이터 생성부(110)는, 그룹들 각각을 대표하는 레퍼런스 유전자들 각각의 표준 뎁스들을 획득한다.In step 304, the reference data generator 110 obtains standard depths of each of the reference genes representing each of the groups.
도 4는 일 실시예에 따라 복수의 사람들(예를 들어, 정상인들) 각각에 대하여 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하는 것을 설명하기 위한 도면이다. 도 4의 설명은, 도 3의 301 단계에서 수행되는 방법과 관련된 것일 수 있다.FIG. 4 is a diagram for describing obtaining lead-depths corresponding to reference genes for each of a plurality of people (eg, normal people), according to an exemplary embodiment. The description of FIG. 4 may relate to the method performed in step 301 of FIG. 3.
도 4를 참고하면, 레퍼런스 데이터 생성부(110)는 데이터베이스(DB)(40)로부터 획득된 유전자 데이터(401)를 이용하여 딥 시퀀싱을 수행함으로써, 리드-뎁스들을 획득할 수 있다.Referring to FIG. 4, the reference data generator 110 may acquire read-depths by performing deep sequencing using the genetic data 401 obtained from a database (DB) 40.
데이터베이스(DB)(40)는 정상인 집단(400)으로 분류된 복수의 사람들(예를 들어, 정상인들) 개개인의 유전자 데이터(401)를 저장하고 있다. 유전자 데이터(401)는 복수의 사람들로부터 채취된 생물학적 샘플들에 대해 차세대 시퀀싱(NGS), 마이크로어레이 등과 같은 다양한 시퀀싱 수단들을 이용하여 획득된 것일 수 있다. 한편, 유전자 데이터(401)는, 전유전체(whole genome)에 대한 데이터이거나, 또는 합맵(HapMap)에 대한 데이터일 수 있다.Database (DB) 40 stores genetic data 401 of a plurality of people (eg, normal people) classified into normal population 400. Genetic data 401 may be obtained using various sequencing means, such as next generation sequencing (NGS), microarrays, and the like on biological samples taken from a plurality of people. On the other hand, the genetic data 401 may be data about a whole genome or data about a HapMap.
데이터베이스(DB)(40)는, NCBI, GEO 등과 같은 당해 기술분야에서 이미 공지된 데이터베이스(DB)에 해당되거나, 또는 피검체의 피검 유전자들을 분석하기 위하여 모집된 사람들의 유전자 데이터(401)를 저장하기 위하여 구축된 것일 수 있다.Database (DB) 40 corresponds to a database (DB) already known in the art, such as NCBI, GEO, etc., or stores genetic data 401 of people recruited to analyze subject genes of a subject. It may be built to.
레퍼런스 데이터 생성부(110)는, 유전자 데이터(401)에 포함된, 정상인 집단(400)의 개개인들의 유전자들(즉, 레퍼런스 유전자들)에 대해 딥 시퀀싱을 수행한다. 예를 들어, 레퍼런스 데이터 생성부(110)는, 정상인 집단(400)에 포함된 “사람 1”(410)의 레퍼런스 유전자들(411)에 대해 딥 시퀀싱을 수행할 수 있다. 레퍼런스 유전자(411)에 대한 딥 시퀀싱의 결과, 레퍼런스 유전자들(411)에 포함된 유전자 1, ..., 유전자 n (n은 자연수) 각각에는 리드들(415) 정렬되고, 레퍼런스 유전자들(411) 각각에 정렬된 리드들(415)의 뎁스들(리드-뎁스들)에 대한 데이터가 획득된다. 마찬가지로, 레퍼런스 데이터 생성부(110)는, 정상인 집단(400)에 포함된 “사람 1”(420)의 레퍼런스 유전자들(421)에 대해서도 딥 시퀀싱을 수행하고, 레퍼런스 유전자들(421) 각각에 정렬된 리드들(425)의 뎁스들(리드-뎁스들)에 대한 데이터를 획득한다. 레퍼런스 데이터 생성부(110)는, 유전자 데이터(401)에 포함된 정상인 집단(400)의 개개인들의 레퍼런스 유전자들에 대해 딥 시퀀싱을 수행함으로써, 리드-뎁스들의 데이터를 획득할 수 있다.The reference data generator 110 performs deep sequencing on genes (ie, reference genes) of individuals of the normal population 400 included in the gene data 401. For example, the reference data generator 110 may perform deep sequencing on reference genes 411 of the “person 1” 410 included in the normal population 400. As a result of deep sequencing for the reference gene 411, the genes 1, ..., gene n (n is a natural number) included in the reference genes 411 are aligned with the leads 415, and the reference genes 411 Data for the depths (lead-depths) of the leads 415 aligned to each other are obtained. Similarly, the reference data generator 110 performs deep sequencing on the reference genes 421 of the “person 1” 420 included in the normal population 400, and arranges each of the reference genes 421. Data about the depths (lead-depths) of the read leads 425 are obtained. The reference data generator 110 may acquire data of read-depths by performing deep sequencing on reference genes of individual individuals of the normal population 400 included in the gene data 401.
도 5는 일 실시예에 따라 엑손 부위들에 대한 딥 시퀀싱을 설명하기 위한 도면이다.5 is a diagram for describing deep sequencing of exon regions according to an embodiment.
도 5를 참고하면, 정상인 집단(400)의 개개인들의 유전자들에 해당되는 레퍼런스 유전자들에 대한 딥 시퀀싱은, 인트론 부위들(505)을 제외하고, 엑손 부위들에 정렬된 리드들의 뎁스들(리드-뎁스들)을 획득한다. 예를 들어, 어느 개인의 레퍼런스 유전자(핵산(500))가 유전자 a, 유전자 b 및 유전자 c를 포함하는 경우, 딥 시퀀싱의 결과는 유전자 a 내의 엑손 a1에 정렬된 리드들(510)의 뎁스 및 엑손 a2에 정렬된 리드들의 뎁스, 유전자 b 내의 엑손 b1에 정렬된 리드들의 뎁스 및 엑손 b2에 정렬된 리드들의 뎁스, 및 유전자 c 내의 엑손 c에 정렬된 리드들의 뎁스의 데이터를 포함할 수 있다. 다만, 본 실시예들은 이에 제한되지 않고, 딥 시퀀싱의 결과에는 인트론 부위들(505)에 정렬된 리드들의 뎁스들의 데이터가 포함될 수도 있다.Referring to FIG. 5, deep sequencing of reference genes corresponding to genes of individuals in the normal population 400, except for intron sites 505, the depths of the reads aligned with the exon sites (leads). -Depths). For example, if an individual's reference gene (nucleic acid 500) comprises gene a, gene b and gene c, the result of deep sequencing may be the depth of leads 510 aligned to exon a1 in gene a and Data of the depths of the reads aligned to exon a2, the depths of the reads aligned to exon b1 in gene b and the depths of the leads aligned to exon b2, and the depths of the reads aligned to exon c in gene c. However, the exemplary embodiments are not limited thereto, and the deep sequencing result may include data of depths of reads aligned with the intron regions 505.
한편, 도 5에 도시된 엑손 부위들에 대한 딥 시퀀싱은, 레퍼런스 유전자들뿐만 아니라, 피검체로부터 획득된 피검 유전자들에 대해서도 적용된다. 즉, 분석부(도 2의 120)는 피검 유전자들 내 엑손 부위들에 대해 딥 시퀀싱을 수행함으로써 피검 유전자들 내 엑손 부위들 각각에 정렬된 리드들의 뎁스들을 분석할 수 있다.Meanwhile, deep sequencing of the exon sites shown in FIG. 5 is applied not only to reference genes but also to test genes obtained from a subject. That is, the analysis unit 120 of FIG. 2 may analyze the depths of reads aligned with each of the exon sites in the test genes by performing deep sequencing on the exon sites in the test genes.
도 6은 일 실시예에 따라 정상인 집단(400)으로부터 획득된 리드-뎁스들의 분포에 따라 사람들을 서로 다른 그룹들로 클러스터링하는 것을 설명하기 위한 도면이다. 도 6의 설명은, 도 3의 302 단계에서 수행되는 방법과 관련된 것일 수 있다.FIG. 6 is a diagram illustrating clustering people into different groups according to a distribution of lead-depths obtained from a normal group 400 according to an embodiment. The description of FIG. 6 may relate to the method performed in step 302 of FIG. 3.
정상인 집단(400)의 개개인들은 서로 다른 유전자들을 갖고 있기 때문에, 개개인들마다 딥 시퀀싱으로 분석된, 특정 유전자(또는 특정 엑손)에 대응되는 뎁스는 서로 다를 수 있다. 또는, 이 밖에도, 개개인들로부터 획득된 생물학적 샘플에 대한 화학적 처리(예를 들어, FFPE(Formalin-fixed, paraffin-embedded)) 여부, 딥 시퀀싱 오차 등으로 인해, 개개인들의 레퍼런스 유전자들 각각에 대한 뎁스들의 분포 경향은 서로 다를 수 있다. 따라서, 레퍼런스 데이터 생성부(110)는 뎁스들의 분포가 비슷한 경향을 갖는 사람들끼리 그룹핑하여, 정상인 집단(400)의 개개인들을 서로 다른 그룹들로 클러스터링한다. 여기서, 클러스터링은, 공지의 추세 분석 알고리즘, 클러스터링 알고리즘 등을 이용하여 각 레퍼런스 유전자(엑손)에 대한 리드-뎁스의 분포를 통계적으로 분석함으로써 수행될 수 있다.Since individuals in the normal population 400 have different genes, the depths corresponding to specific genes (or specific exons) analyzed by deep sequencing for each individual may be different. Or, in addition, the depth of each of the individual reference genes, due to chemical processing (eg, formalin-fixed, paraffin-embedded (FFPE) (FFPE), deep sequencing errors, etc.) obtained from the individual The distribution tendency of these may be different. Therefore, the reference data generator 110 groups people having a similar distribution of depths to cluster individuals of the normal group 400 into different groups. Here, clustering may be performed by statistically analyzing the distribution of read-depth for each reference gene (exon) using a known trend analysis algorithm, a clustering algorithm, or the like.
도 6을 참고하면, 그룹 1에 속한 사람들의 레퍼런스 유전자들에 대해 딥 시퀀싱을 수행한 결과, 그룹 1에 속한 사람들의 레퍼런스 유전자들은, 각 유전자와 뎁스 쌍의 분포가 비슷한 경향을 가질 수 있다. 또한, 다른 그룹들도 마찬가지이다. 예를 들어, 그룹 1에 속한 사람들의 레퍼런스 유전자들은 그룹 1에 속한 사람들의 생검 샘플들로부터 획득된 것일 수 있고, 그룹 M (M은 자연수)에 속한 사람들의 레퍼런스 유전자들은 그룹 M에 속한 사람들의 FFPE 샘플들로부터 획득된 것일 수 있다.Referring to FIG. 6, as a result of deep sequencing of reference genes of people belonging to group 1, reference genes of people belonging to group 1 may have a similar distribution of each gene and depth pair. The same also applies to other groups. For example, reference genes of people in group 1 may be obtained from biopsy samples of people in group 1, and reference genes of people in group M (M is a natural number) may be obtained from FFPE of people in group M. It may be one obtained from the samples.
도 7은 일 실시예에 따라 어느 그룹을 대표하는, 레퍼런스 유전자들 각각의 표준 뎁스들을 설명하기 위한 도면이다. 도 7의 설명은, 도 3의 303 단계 및 304 단계에서 수행되는 방법들과 관련된 것일 수 있다.FIG. 7 is a diagram for describing standard depths of each of reference genes representing a group according to an embodiment. The description of FIG. 7 may relate to the methods performed in steps 303 and 304 of FIG. 3.
도 7을 참고하면, 클러스터링이 완료된 경우, 레퍼런스 데이터 생성부(110)는 각 그룹마다, 레퍼런스 유전자들 각각에 대해 획득된 리드-뎁스들을 표준화하여, 그룹들 각각을 대표하는, 레퍼런스 유전자들 각각의 표준 뎁스들을 획득한다.Referring to FIG. 7, when clustering is completed, the reference data generator 110 normalizes the read-depths acquired for each of the reference genes for each group, and represents each of the reference genes representing each of the groups. Obtain standard depths.
어느 레퍼런스 유전자(예를 들어, “엑손 1”)에 대하여, 그룹 x에 속한 사람들마다 뎁스가 다양한 값을 갖는 경우, 레퍼런스 데이터 생성부(110)는 “엑손 1”에 대한 다양한 뎁스들의 평균을 계산함으로써, “엑손 1”에 대한 뎁스를 표준화할 수 있다. 마찬가지로, 레퍼런스 데이터 생성부(110)는 다른 레퍼런스 유전자들(예를 들어, “엑손 43”, “엑손 3543”, “엑손 5623” 등) 각각에 대하여도 다양한 뎁스들의 평균을 계산함으로써, 각 유전자(엑손)에 대한 표준 뎁스를 계산할 수 있다. 이로써, 레퍼런스 데이터 생성부(110)는 클러스터링된 그룹들 각각을 대표하는, 레퍼런스 유전자들 각각의 표준 뎁스들을 획득할 수 있다. 한편, 본 실시예에서는 설명의 편의를 위하여, 뎁스들의 평균을 계산하여 대푯값을 취하는 것으로 설명되었으나, 본 실시예들은 평균 외에도 다른 종류의 통계량을 이용하여 뎁스들의 대푯값이 계산될 수도 있다.For a reference gene (eg, “exon 1”), when the depths of the people in the group x have various values, the reference data generator 110 calculates an average of various depths for “exon 1”. By doing so, it is possible to standardize the depth for “Exon 1”. Similarly, the reference data generator 110 calculates an average of various depths with respect to each of the other reference genes (eg, “Exon 43”, “Exon 3543”, “Exon 5623”, etc.), and thus, each gene ( Exon) can be calculated. As a result, the reference data generator 110 may acquire standard depths of each of the reference genes, which represent each of the clustered groups. Meanwhile, in the present embodiment, for convenience of description, the average of the depths is calculated to take a representative value. However, in the present embodiment, the representative value of the depths may be calculated using other types of statistics besides the average.
도 8은 일 실시예에 따라 피검체의 생물학적 샘플로부터 획득된 피검 유전자들에 대한 딥 시퀀싱을 수행하는 것을 설명하기 위한 도면이다.FIG. 8 is a diagram for describing deep sequencing of test genes obtained from biological samples of a subject, according to an exemplary embodiment.
도 8을 참고하면, 분석부(도 2의 120)는 피검체(800)의 유전자 데이터(30)에 기초하여, 피검 유전자들에 대한 딥 시퀀싱을 수행함으로써 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석한다.Referring to FIG. 8, the analysis unit 120 of FIG. 2 performs depth sequencing of test genes on the basis of the gene data 30 of the test subject 800 to determine depths of reads aligned with each of the test genes. Analyze them.
피검체(800)의 유전자 데이터(30)는 피검체(800)의 일부 조직으로부터 채취된 생검 샘플(810) 또는 FFPE 샘플(825)에 대한 차세대 시퀀싱(NGS)을 통해 획득된 것일 수 있다. 여기서, FFPE 샘플(825)은 피검체(800)의 일부 조직에 대한 FFPE 처리(820)에 의한 샘플이다.The genetic data 30 of the subject 800 may be obtained through next generation sequencing (NGS) on a biopsy sample 810 or an FFPE sample 825 taken from some tissue of the subject 800. Here, the FFPE sample 825 is a sample by FFPE treatment 820 for some tissue of the subject 800.
분석부(도 2의 120)는 앞서 도 4 및 도 5에서 설명된 딥 시퀀싱 방식들에 따라, 피검체(800)의 피검 유전자들에 정렬된 리드들의 뎁스를 분석함으로써, 피검 유전자들의 뎁스 데이터(830)를 획득할 수 있다.The analysis unit 120 of FIG. 2 analyzes the depths of the reads aligned with the test genes of the test subject 800 according to the deep sequencing methods described above with reference to FIGS. 4 and 5, thereby providing depth data of the test genes ( 830 may be obtained.
도 9는 일 실시예에 따른 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 방법의 흐름도이다. 도 9를 참고하면, 복제수 변이(CNV) 유전자의 판단은 앞서 설명된 판단부(130)에서 시계열적으로 처리되는 단계들을 포함한다.9 is a flowchart of a method of determining whether a copy number variation (CNV) gene is present according to an embodiment. Referring to FIG. 9, the determination of the copy number mutation (CNV) gene includes steps that are processed in time series in the determination unit 130 described above.
901 단계에서, 판단부(130)는, 레퍼런스 데이터 생성부(110)에 의해 클러스터링된 그룹들 중, 피검 유전자들로부터 분석된 뎁스들의 분포와 표준 뎁스들의 분포 간의 통계적인 차이가 가장 작은 그룹을 결정한다. 즉, 판단부(130)는, 클러스터링된 그룹들(예를 들어, 도 6의 그룹들) 중, 피검 유전자들로부터 분석된 뎁스들의 분포와 비슷한 통계적 경향을 갖는 적어도 하나의 어느 그룹을 결정한다. 이때, 판단부(130)는 피검 유전자들로부터 분석된 뎁스들의 분포와 표준 뎁스들의 분포 간의 표준 편차가 가장 작은 그룹을 결정할 수 있다. 다만, 이에 제한되지 않고, 피검 유전자들로부터 분석된 뎁스들의 분포와 비슷한 경향을 갖는 그룹을 선택하기 위하여, 표준 편차 외에, 다른 통계량들이 이용될 수도 있다.In operation 901, the determination unit 130 determines a group among the groups clustered by the reference data generation unit 110 having the smallest statistical difference between the distribution of the depths analyzed from the test genes and the distribution of the standard depths. do. That is, the determination unit 130 determines at least one group among the clustered groups (eg, the groups of FIG. 6) having a statistical tendency similar to the distribution of depths analyzed from the test genes. In this case, the determination unit 130 may determine a group having the smallest standard deviation between the distribution of the depths analyzed from the test genes and the distribution of the standard depths. However, the present invention is not limited thereto, and other statistics may be used in addition to the standard deviation to select a group having a tendency similar to the distribution of depths analyzed from the test genes.
902 단계에서, 판단부(130)는, 피검 유전자들로부터 분석된 분석된 뎁스들과, 결정된 그룹에 대응되는 표준 뎁스들을 비교한다. 보다 상세하게는, 판단부(130)는, 피검 유전자들(엑손들) 각각의 뎁스를, 대응되는 레퍼런스 유전자(대응되는 엑손)의 뎁스와 비교한다. 예를 들어, 피검 유전자들 및 레퍼런스 유전자들 모두에 “엑손 1” 및 “엑손 43”이 존재하는 경우를 가정하면, 판단부(130)는 분석부(120)에 의해 분석된 “엑손 1”의 뎁스를 “엑손 1”의 표준 뎁스와 비교하고, 분석부(120)에 의해 분석된 “엑손 43”의 뎁스를 “엑손 43”의 표준 뎁스와 비교한다. 여기서, “엑손 1” 및 “엑손 43”는 서로 다른 엑손들인 것을 나타내기 위한 임의의 용어들이다.In operation 902, the determination unit 130 compares the analyzed depths analyzed from the test genes and the standard depths corresponding to the determined group. More specifically, the determination unit 130 compares the depth of each of the test genes (exons) with the depths of the corresponding reference genes (corresponding exons). For example, assuming that “exon 1” and “exon 43” exist in both the test genes and the reference genes, the determination unit 130 may determine the “exon 1” of the analysis unit 120. The depth is compared with the standard depth of "Exon 1", and the depth of "Exon 43" analyzed by the analyzer 120 is compared with the standard depth of "Exon 43". Here, "exon 1" and "exon 43" are arbitrary terms for indicating that they are different exons.
903 단계에서, 판단부(130)는 비교 결과, 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단한다. 이때, 판단부(130)는 피검 유전자들의 엑손 부위들 중, 레퍼런스 유전자들 및 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우, 복제수 변이(CNV) 유전자가 존재하는 것으로 판단할 수 있다.In operation 903, the determination unit 130 determines whether a copy number variation (CNV) gene is present as a result of the comparison. At this time, the determination unit 130, if there is an exon region of the exon regions of the test genes, the difference in the depth of the exon regions corresponding to each other between the reference genes and the test genes are not statistically significant (significant) It can be determined that the copy number variation (CNV) gene is present.
보다 구체적으로, 뎁스의 차이가 유의하지 않다고 판단하기 위한 임계값이 표준 뎁스의 4배인 것으로 설정된 경우를 가정하면, 판단부(130)는 분석부(120)에 의해 분석된 어느 엑손의 뎁스가 표준 뎁스의 4배를 초과하는 경우에 복제수 변이(CNV) 유전자가 존재하는 것으로 판단할 수 있다. 다만, 임계값은 이에 제한되지 않고 다양하게 바뀔 수 있다. 예를 들면, “엑손 1”의 표준 뎁스가 1000인 경우, 유의성을 판단하기 위한 임계값은 4000일 수 있다. 따라서, 분석부(120)에 의해 분석된, 피검체의 “엑손 1”의 뎁스가 5000인 경우, 판단부(130)는 “엑손 1”의 유전자는 복제수 변이(CNV) 유전자인 것으로 판단할 수 있다.More specifically, assuming that the threshold value for determining that the difference in depth is not significant is set to be 4 times the standard depth, the determination unit 130 determines that the depth of any exon analyzed by the analysis unit 120 is standard. It may be determined that the copy number variation (CNV) gene is present when it exceeds 4 times the depth. However, the threshold is not limited thereto and may be variously changed. For example, when the standard depth of “exon 1” is 1000, the threshold for determining significance may be 4000. Therefore, when the depth of the "exon 1" of the subject analyzed by the analysis unit 120 is 5000, the determination unit 130 may determine that the gene of "exon 1" is a copy number variation (CNV) gene. Can be.
도 10은 일 실시예에 따라 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 것을 설명하기 위한 도면이다.FIG. 10 illustrates a method for determining whether a copy number variation (CNV) gene is present according to an embodiment.
도 10을 참고하면, 실선으로 표시된 뎁스들은 레퍼런스 유전자(엑손)에 대응되고, 실선으로 표시된 뎁스들은 레퍼런스 유전자(엑손)에 대응되고, 일점쇄선으로 표시된 뎁스들은 피검 유전자(엑손)에 대응된다.Referring to FIG. 10, the depths indicated by solid lines correspond to reference genes (exons), the depths indicated by solid lines correspond to reference genes (exons), and the depths indicated by dashed lines correspond to test genes (exons).
판단부(130)는 앞서 도면들에서 설명된 바와 같이, 분석부(120)에 의해 분석된 엑손들의 뎁스들과, 표준 뎁스들을 비교한다. 판단부(130)는 피검 유전자들의 엑손 부위들 중, 레퍼런스 유전자들 및 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위(“엑손 a”)가 존재하는 경우, “엑손 a”의 피검 유전자는 복제수 변이(CNV) 유전자로 식별되었기 때문에 복제수 변이(CNV) 유전자가 존재하는 것으로 판단할 수 있다.The determination unit 130 compares the depths of the exons analyzed by the analysis unit 120 and the standard depths, as described above in the drawings. The determination unit 130 may be an exon region (“exon a”) in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes among the exon sites of the test genes is not statistically significant. Is present, the test gene of "exon a" has been identified as a copy number mutation (CNV) gene, it can be determined that the copy number mutation (CNV) gene is present.
한편, 판단부(130)는 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우, 복제수 변이(CNV) 유전자에 대응되는 약물(예를 들어, 항암제)을 식별하기 위한 어노테이션을 수행할 수 있다.Meanwhile, when it is determined that the copy number variation (CNV) gene is present among the test genes, the determination unit 130 may annotate for identifying a drug (eg, an anticancer agent) corresponding to the copy number variation (CNV) gene. Can be performed.
도 11은 일 실시예에 따라 유전자를 분석하는 방법의 흐름도이다. 도 11을 참고하면, 유전자 분석 방법은 앞선 도면들에서 설명된 유전자 분석 장치(10)에서 시계열적으로 처리되는 단계들을 포함한다. 따라서, 이하 생략된 내용이라 하더라도 앞선 도면들에서 설명되었던 내용들은 도 11의 유전자 분석 방법에도 적용될 수 있다.11 is a flowchart of a method of analyzing a gene, according to an embodiment. Referring to FIG. 11, the gene analysis method includes steps that are processed in time series in the gene analysis apparatus 10 described in the foregoing figures. Therefore, even if omitted below, the contents described above may be applied to the genetic analysis method of FIG. 11.
1101 단계에서, 레퍼런스 데이터 생성부(110)는 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성한다.In step 1101, the reference data generator 110 performs deep sequencing on the reference genes to generate a reference data set about depths of reads aligned with each of the reference genes.
1102 단계에서, 분석부(120)는 피검 유전자들에 대해 딥 시퀀싱을 수행함으로써 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석한다.In operation 1102, the analyzer 120 analyzes the depths of the reads aligned with each of the test genes by performing deep sequencing on the test genes.
1103 단계에서, 판단부(130)는 분석된 뎁스들을 레퍼런스 데이터 세트에 포함된 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단한다.In operation 1103, the determination unit 130 compares the analyzed depths with the depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene exists among the test genes.
도 12는 일 실시예에 따른 컴퓨팅 장치의 하드웨어 구성들을 도시한 블록도이다.12 is a block diagram illustrating hardware configurations of a computing device according to an embodiment.
도 12를 참고하면, 컴퓨팅 장치(1)는 유전자 분석 장치(프로세서)(10), 데이터 인터페이스(11) 및 메모리(12)를 포함한다. 한편, 도 12에 도시된 컴퓨팅 장치(1)는 본 실시예의 특징이 흐려지는 것을 방지하기 위하여 본 실시예에 관련된 구성요소들만이 도시되어 있을 뿐이므로, 도 12에 도시된 구성요소들 외에 다른 범용적인 구성요소들이 더 포함될 수 있다.Referring to FIG. 12, the computing device 1 includes a genetic analysis device (processor) 10, a data interface 11, and a memory 12. On the other hand, the computing device 1 shown in FIG. 12 has only general components related to the present embodiment in order to prevent the features of the present embodiment from being blurred. Therefore, the computing device 1 shown in FIG. Components may be further included.
데이터 인터페이스(11)는 앞서 도 1에서 설명된, 정상인 집단의 유전자 데이터(20) 및 피검체의 유전자 데이터(30)를 수신한다. 즉, 데이터 인터페이스(11)는 컴퓨팅 장치(1)가 외부의 다른 디바이스들과 통신하기 위한 유/무선 네트워크 인터페이스의 하드웨어로 구현될 수 있다. 데이터 인터페이스(11)는 수신된 유전자 데이터(20 및 30)를 유전자 분석 장치(프로세서)(10)로 전송한다.The data interface 11 receives the genetic data 20 of the normal population and the genetic data 30 of the subject described above in FIG. 1. That is, the data interface 11 may be implemented in hardware of a wired / wireless network interface for the computing device 1 to communicate with other external devices. The data interface 11 transmits the received genetic data 20 and 30 to the genetic analysis device (processor) 10.
데이터 인터페이스(11)는 데이터베이스(DB)(도 4의 40)로부터 정상인 집단의 유전자 데이터(20)를 수신할 수 있다. 그리고, 데이터 인터페이스(11)는 피검체의 피검 유전자를 시퀀싱하기 위한 외부의 차세대 시퀀싱 장치, 마이크로어레이 등으로부터 피검체의 유전자 데이터(30)를 수신할 수 있다. Data interface 11 may receive genetic data 20 of a normal population from database DB (40 in FIG. 4). The data interface 11 may receive the genetic data 30 of the subject from an external next-generation sequencing apparatus, a microarray, or the like for sequencing the subject gene of the subject.
메모리(12)는 컴퓨팅 장치(1) 내에서 처리될 데이터들 및 처리가 완료된 결과들을 저장하기 위한 하드웨어로서, RAM(random access memory), ROM(read only memory) 등의 메모리 칩들 또는 HDD(hard disk drive), SSD(solid state drive) 등의 스토리지를 포함한다. 즉, 메모리(12)는 데이터 인터페이스(11)에 의해 수신된 유전자 데이터(20 및 30)을 저장할 수 있고, 유전자 분석 장치(프로세서)(10)에 의해 처리된 레퍼런스 데이터 세트, 피검 유전자들에 대한 딥 시퀀싱 데이터, 식별된 복제수 변이(CNV) 유전자에 대한 데이터도 저장할 수 있다.The memory 12 is hardware for storing data to be processed in the computing device 1 and the processed results, and memory chips such as random access memory (RAM), read only memory (ROM), or a hard disk (HDD). drive, solid state drive (SSD), and the like. That is, the memory 12 may store the gene data 20 and 30 received by the data interface 11, and the reference data set processed by the genetic analysis device (processor) 10, for the genes to be tested. Deep sequencing data, data for identified copy number variation (CNV) genes can also be stored.
유전자 분석 장치(프로세서)(10)는 하나 이상의 프로세싱 유닛들로 구현된 모듈로서, 다수의 논리 게이트들의 어레이를 갖는 마이크로프로세서와 이 마이크로프로세서에서 실행될 수 있는 프로그램이 저장된 메모리 모듈의 조합으로 구현될 수도 있다. 유전자 분석 장치(프로세서)(10)는 응용 프로그램의 모듈 형태로 구현될 수도 있다. 유전자 분석 장치(프로세서)(10)는 앞서 도 1 내지 도 11에서 설명된 유전자 분석을 처리하는 하드웨어 장치이다.Genetic analysis device (processor) 10 is a module implemented in one or more processing units, which may be implemented as a combination of a microprocessor having an array of multiple logic gates and a memory module storing a program that can be executed on the microprocessor. have. Genetic analysis device (processor) 10 may be implemented in the form of a module of an application program. Genetic analysis device (processor) 10 is a hardware device for processing the gene analysis described above in FIGS.
유전자 분석 장치(프로세서)(10)에 의해 식별된 복제수 변이(CNV) 유전자에 대한 정보는 데이터 인터페이스(11)를 통해 외부의 다른 디바이스, 예를 들어 디스플레이 디바이스, 다른 컴퓨팅 장치 등으로 전송되거나, 또는 외부 네트워크, 예를 들어 인터넷, 공개 데이터베이스(DB) 서버 상으로 전송될 수 있다.The information about the copy number variation (CNV) gene identified by the genetic analysis device (processor) 10 may be transmitted via the data interface 11 to another external device such as a display device, another computing device, or the like, Or on an external network, such as the Internet, a public database (DB) server.
앞서 설명된 본 실시예들에 따르면, 피검체(예를 들어, 암 환자)의 정상 혈액을 확보할 수 없을지라도, 피검체의 암 조직의 생검 샘플 또는 FFPE 샘플만으로도 복제수 변이(CNV) 유전자를 검출할 수 있다. 나아가서, 피검체로부터 획득된 암 조직의 유전자들(피검 유전자들)이 FFPE 처리에 의하여 화학적으로 약간 손상된다 할지라도, 비슷한 조건(FFPE 처리)의 레퍼런스 유전자들을 참조하여 복제수 변이(CNV) 유전자의 존재를 판단하므로, 복제수 변이(CNV) 유전자를 정확하게 검출할 수 있다.According to the embodiments described above, even if normal blood of a subject (for example, a cancer patient) cannot be obtained, a copy number variation (CNV) gene may be generated only by a biopsy sample or an FFPE sample of the cancer tissue of the subject. Can be detected. Furthermore, although genes of cancer tissue (test genes) obtained from a subject may be slightly damaged chemically by FFPE treatment, reference to reference genes under similar conditions (FFPE treatment) may be used to determine the number of cloned mutation (CNV) genes. By determining the presence, it is possible to accurately detect the copy number variation (CNV) gene.
본 실시예들에 따른 장치는 프로세서, 프로그램 데이터를 저장하고 실행하는 메모리, 디스크 드라이브와 같은 영구 저장부(permanent storage), 외부 장치와 통신하는 통신 포트, 터치 패널, 키(key), 버튼 등과 같은 사용자 인터페이스 장치 등을 포함할 수 있다. 소프트웨어 모듈 또는 알고리즘으로 구현되는 방법들은 상기 프로세서상에서 실행 가능한 컴퓨터가 읽을 수 있는 코드들 또는 프로그램 명령들로서 컴퓨터가 읽을 수 있는 기록 매체 상에 저장될 수 있다. 여기서 컴퓨터가 읽을 수 있는 기록 매체로 마그네틱 저장 매체(예컨대, ROM(read-only memory), RAM(random-access memory), 플로피 디스크, 하드 디스크 등) 및 광학적 판독 매체(예컨대, 시디롬(CD-ROM), 디브이디(DVD: Digital Versatile Disc)) 등이 있다. 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템들에 분산되어, 분산 방식으로 컴퓨터가 판독 가능한 코드가 저장되고 실행될 수 있다. 매체는 컴퓨터에 의해 판독가능하며, 메모리에 저장되고, 프로세서에서 실행될 수 있다. The device according to the embodiments may include a processor, a memory for storing and executing program data, a persistent storage such as a disk drive, a communication port for communicating with an external device, a touch panel, a key, a button, and the like. And a user interface device. Methods implemented by software modules or algorithms may be stored on a computer readable recording medium as computer readable codes or program instructions executable on the processor. The computer-readable recording medium may be a magnetic storage medium (eg, read-only memory (ROM), random-access memory (RAM), floppy disk, hard disk, etc.) and an optical reading medium (eg, CD-ROM). ) And DVD (Digital Versatile Disc). The computer readable recording medium can be distributed over network coupled computer systems so that the computer readable code is stored and executed in a distributed fashion. The medium is readable by the computer, stored in the memory, and can be executed by the processor.
본 실시예는 기능적인 블록 구성들 및 다양한 처리 단계들로 나타내어질 수 있다. 이러한 기능 블록들은 특정 기능들을 실행하는 다양한 개수의 하드웨어 또는/및 소프트웨어 구성들로 구현될 수 있다. 예를 들어, 실시 예는 하나 이상의 마이크로프로세서들의 제어 또는 다른 제어 장치들에 의해서 다양한 기능들을 실행할 수 있는, 메모리, 프로세싱, 로직(logic), 룩 업 테이블(look-up table) 등과 같은 직접 회로 구성들을 채용할 수 있다. 구성 요소들이 소프트웨어 프로그래밍 또는 소프트웨어 요소들로 실행될 수 있는 것과 유사하게, 본 실시예는 데이터 구조, 프로세스들, 루틴들 또는 다른 프로그래밍 구성들의 조합으로 구현되는 다양한 알고리즘을 포함하여, C, C++, 자바(Java), 어셈블러(assembler) 등과 같은 프로그래밍 또는 스크립팅 언어로 구현될 수 있다. 기능적인 측면들은 하나 이상의 프로세서들에서 실행되는 알고리즘으로 구현될 수 있다. 또한, 본 실시예는 전자적인 환경 설정, 신호 처리, 및/또는 데이터 처리 등을 위하여 종래 기술을 채용할 수 있다. “매커니즘”, “요소”, “수단”, “구성”과 같은 용어는 넓게 사용될 수 있으며, 기계적이고 물리적인 구성들로서 한정되는 것은 아니다. 상기 용어는 프로세서 등과 연계하여 소프트웨어의 일련의 처리들(routines)의 의미를 포함할 수 있다.This embodiment can be represented by functional block configurations and various processing steps. Such functional blocks may be implemented in various numbers of hardware or / and software configurations that perform particular functions. For example, an embodiment may include an integrated circuit configuration such as memory, processing, logic, look-up table, etc. that may execute various functions by the control of one or more microprocessors or other control devices. You can employ them. Similar to the components that may be implemented in software programming or software elements, the present embodiment includes various algorithms implemented in C, C ++, Java (data structures, processes, routines or other combinations of programming constructs). It may be implemented in a programming or scripting language such as Java), an assembler, or the like. The functional aspects may be implemented with an algorithm running on one or more processors. In addition, the present embodiment may employ the prior art for electronic environment setting, signal processing, and / or data processing. Terms such as "mechanism", "element", "means" and "configuration" can be used widely and are not limited to mechanical and physical configurations. The term may include the meaning of a series of routines of software in conjunction with a processor or the like.
본 실시예에서 설명하는 특정 실행들은 예시들로서, 어떠한 방법으로도 기술적 범위를 한정하는 것은 아니다. 명세서의 간결함을 위하여, 종래 전자적인 구성들, 제어 시스템들, 소프트웨어, 상기 시스템들의 다른 기능적인 측면들의 기재는 생략될 수 있다. 또한, 도면에 도시된 구성 요소들 간의 선들의 연결 또는 연결 부재들은 기능적인 연결 및/또는 물리적 또는 회로적 연결들을 예시적으로 나타낸 것으로서, 실제 장치에서는 대체 가능하거나 추가의 다양한 기능적인 연결, 물리적인 연결, 또는 회로 연결들로서 나타내어질 수 있다. Specific implementations described in this embodiment are examples, and do not limit the technical scope in any way. For brevity of description, descriptions of conventional electronic configurations, control systems, software, and other functional aspects of the systems may be omitted. In addition, the connection or connection members of the lines between the components shown in the drawings by way of example shows a functional connection and / or physical or circuit connections, in the actual device replaceable or additional various functional connections, physical It may be represented as a connection, or circuit connections.
본 명세서(특히 특허청구범위에서)에서 “상기”의 용어 및 이와 유사한 지시 용어의 사용은 단수 및 복수 모두에 해당하는 것일 수 있다. 또한, 범위(range)를 기재한 경우 상기 범위에 속하는 개별적인 값을 포함하는 것으로서(이에 반하는 기재가 없다면), 상세한 설명에 상기 범위를 구성하는 각 개별적인 값을 기재한 것과 같다. 마지막으로, 방법을 구성하는 단계들에 대하여 명백하게 순서를 기재하거나 반하는 기재가 없다면, 상기 단계들은 적당한 순서로 행해질 수 있다. 반드시 상기 단계들의 기재 순서에 한정되는 것은 아니다.In the present specification (particularly in the claims), the use of the term “above” and similar indicating terminology may correspond to both the singular and the plural. In addition, when a range is described, it includes the individual values which belong to the said range (if there is no description contrary to it), and it is the same as describing each individual value which comprises the said range in detailed description. Finally, if there is no explicit order or contrary to the steps constituting the method, the steps may be performed in a suitable order. It is not necessarily limited to the order of description of the above steps.
이제까지 본 발명에 대하여 그 바람직한 실시예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 그러므로 개시된 실시예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 한다. 본 발명의 범위는 전술한 설명이 아니라 특허청구범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.So far I looked at the center of the preferred embodiment for the present invention. Those skilled in the art will appreciate that the present invention can be implemented in a modified form without departing from the essential features of the present invention. Therefore, the disclosed embodiments should be considered in descriptive sense only and not for purposes of limitation. The scope of the present invention is shown in the claims rather than the foregoing description, and all differences within the scope will be construed as being included in the present invention.

Claims (19)

  1. 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 단계;Generating a reference data set relating to depths of reads aligned to each of the reference genes by performing deep sequencing on reference genes;
    피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 단계; 및Analyzing depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And
    상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 단계를 포함하는, 유전자를 분석하는 방법.Comparing the analyzed depths with depths of the reference genes included in the reference data set to determine whether a copy number variation (CNV) gene is present among the test genes. How to Analyze.
  2. 제 1 항에 있어서,The method of claim 1,
    상기 분석하는 단계는The analyzing step
    상기 피검 유전자들의 엑손 부위들에 정렬된 상기 리드들의 상기 뎁스를 분석하는, 방법.Analyzing the depth of the reads aligned with exon sites of the test genes.
  3. 제 2 항에 있어서,The method of claim 2,
    상기 판단하는 단계는The determining step
    동일한 엑손 부위 별로 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간의 상기 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자의 존재를 판단하는, 방법.And determining the presence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
  4. 제 1 항에 있어서,The method of claim 1,
    상기 판단하는 단계는The determining step
    상기 피검 유전자들의 엑손 부위들 중, 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우, 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단하는, 방법.The copy number variation when there is an exon region in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes is not statistically significant among the exon regions of the test genes. (CNV) The method of determining that the gene is present.
  5. 제 1 항에 있어서,The method of claim 1,
    상기 생성하는 단계는The generating step
    복수의 사람들의 유전자 데이터에 대한 상기 딥 시퀀싱을 통해, 상기 사람들 각각에 대하여 상기 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하는 단계;Acquiring lead-depths corresponding to the reference genes for each of the people through the deep sequencing on a plurality of people's genetic data;
    상기 획득된 리드-뎁스들의 분포에 따라 상기 사람들을 서로 다른 그룹들로 클러스터링하는 단계; 및Clustering the people into different groups according to the obtained distribution of lead-depths; And
    그룹 마다 상기 레퍼런스 유전자들 각각에 대해 획득된 상기 리드-뎁스들을 표준화함으로써, 상기 그룹들 각각을 대표하는 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 획득하는 단계를 포함하고,Normalizing the read-depths obtained for each of the reference genes per group, thereby obtaining standard depths of each of the reference genes representing each of the groups,
    상기 레퍼런스 데이터 세트는The reference data set is
    상기 그룹들 각각에 대하여, 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 나타내는 데이터를 포함하는, 방법.For each of the groups, data representing standard depths of each of the reference genes.
  6. 제 5 항에 있어서,The method of claim 5,
    상기 판단하는 단계는The determining step
    상기 그룹들 중, 상기 분석된 뎁스들의 분포와 상기 표준 뎁스들의 분포 간의 통계적인 차이가 가장 작은 그룹을 결정하는 단계; 및Determining a group of the groups having the smallest statistical difference between the distribution of the analyzed depths and the distribution of the standard depths; And
    상기 분석된 뎁스들과 상기 결정된 그룹에 대응되는 표준 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 단계를 포함하는, 방법.Determining whether the copy number variation (CNV) gene is present by comparing the analyzed depths with standard depths corresponding to the determined group.
  7. 제 5 항에 있어서,The method of claim 5,
    공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 상기 사람들의 상기 유전자 데이터를 획득하는 단계를 더 포함하는, 방법.Obtaining the genetic data of the people from public genomic data or public map data.
  8. 제 1 항에 있어서,The method of claim 1,
    상기 레퍼런스 유전자들 또는 상기 피검 유전자들은The reference genes or the test genes
    생검 조직, 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인, 방법.Biopsy tissue, obtained from formalin-fixed, paraffin-embedded (FFPE) tissue.
  9. 제 1 항에 있어서,The method of claim 1,
    상기 피검 유전자들 중 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우, 상기 복제수 변이(CNV) 유전자에 대응되는 약물을 식별하기 위한 어노테이션을 수행하는 단계를 더 포함하는, 방법.If it is determined that the copy number variation (CNV) gene is present among the test genes, further comprising performing an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
  10. 제 1 항 내지 제 9 항 중에 어느 한 항의 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체.A computer-readable recording medium having recorded thereon a program for executing the method of any one of claims 1 to 9.
  11. 레퍼런스 유전자들에 대한 딥 시퀀싱을 수행함으로써 상기 레퍼런스 유전자들 각각에 정렬된 리드들의 뎁스들에 관한 레퍼런스 데이터 세트를 생성하는 레퍼런스 데이터 생성부;A reference data generator which generates a reference data set about depths of reads aligned with each of the reference genes by performing deep sequencing on reference genes;
    피검 유전자들에 대해 상기 딥 시퀀싱을 수행함으로써 상기 피검 유전자들 각각에 정렬된 리드들의 뎁스들을 분석하는 분석부; 및An analysis unit which analyzes depths of reads aligned with each of the test genes by performing the deep sequencing on the test genes; And
    상기 분석된 뎁스들을 상기 레퍼런스 데이터 세트에 포함된 상기 레퍼런스 유전자들에 대한 뎁스들과 비교함으로써, 상기 피검 유전자들 중 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는 판단부를 포함하는, 유전자를 분석하는 장치.Comparing the analyzed depths with the depths for the reference genes included in the reference data set, a gene comprising a determination unit for determining whether there is a copy number variation (CNV) gene of the test genes Device to analyze.
  12. 제 11 항에 있어서,The method of claim 11,
    상기 분석부는The analysis unit
    상기 피검 유전자들의 엑손 부위들에 정렬된 상기 리드들의 상기 뎁스를 분석하는, 장치.And analyzing the depth of the reads aligned with exon sites of the test genes.
  13. 제 12 항에 있어서,The method of claim 12,
    상기 판단부는The determination unit
    동일한 엑손 부위 별로 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간의 상기 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자의 존재를 판단하는, 장치.And determining the presence of the copy number variation (CNV) gene by comparing the depths between the reference genes and the test genes for the same exon region.
  14. 제 11 항에 있어서,The method of claim 11,
    상기 판단부는The determination unit
    상기 피검 유전자들의 엑손 부위들 중, 상기 레퍼런스 유전자들 및 상기 피검 유전자들 간에 서로 대응되는 엑손 부위들에서의 뎁스의 차이가 통계적으로 유의(significant)하지 않은 엑손 부위가 존재하는 경우, 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단하는, 장치.The copy number variation when there is an exon region in which the difference in the depth of exon regions corresponding to each other between the reference genes and the test genes is not statistically significant among the exon regions of the test genes. (CNV) A device that determines that a gene is present.
  15. 제 11 항에 있어서,The method of claim 11,
    상기 레퍼런스 데이터 생성부는The reference data generation unit
    복수의 사람들의 유전자 데이터에 대한 상기 딥 시퀀싱을 통해, 상기 사람들 각각에 대하여 상기 레퍼런스 유전자들에 대응되는 리드-뎁스들을 획득하고,Through the deep sequencing of a plurality of people's genetic data, obtain lead-depths corresponding to the reference genes for each of the people,
    상기 획득된 리드-뎁스들의 분포에 따라 상기 사람들을 서로 다른 그룹들로 클러스터링하고,Clustering the people into different groups according to the obtained distribution of lead-depths,
    그룹 마다 상기 레퍼런스 유전자들 각각에 대해 획득된 상기 리드-뎁스들을 표준화함으로써, 상기 그룹들 각각을 대표하는 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 획득하고,Standardizing the read-depths acquired for each of the reference genes per group, thereby obtaining standard depths of each of the reference genes representing each of the groups,
    상기 레퍼런스 데이터 세트는The reference data set is
    상기 그룹들 각각에 대하여, 상기 레퍼런스 유전자들 각각의 표준 뎁스들을 나타내는 데이터를 포함하는, 장치.For each of the groups, data representing standard depths of each of the reference genes.
  16. 제 15 항에 있어서,The method of claim 15,
    상기 판단부는The determination unit
    상기 그룹들 중, 상기 분석된 뎁스들의 분포와 상기 표준 뎁스들의 분포 간의 통계적인 차이가 가장 작은 그룹을 결정하고,Among the groups, determine a group having the smallest statistical difference between the distribution of analyzed depths and the distribution of standard depths
    상기 분석된 뎁스들과 상기 결정된 그룹에 대응되는 표준 뎁스들을 비교함으로써, 상기 복제수 변이(CNV) 유전자가 존재하는지 여부를 판단하는, 장치.And comparing the analyzed depths with standard depths corresponding to the determined group to determine whether the copy number variation (CNV) gene is present.
  17. 제 15 항에 있어서,The method of claim 15,
    상기 레퍼런스 데이터 생성부는The reference data generation unit
    공개 게놈 데이터 또는 공개 합맵(HapMap) 데이터로부터 상기 사람들의 상기 유전자 데이터를 획득하는, 장치.And obtain the genetic data of the people from public genomic data or public map map data.
  18. 제 11 항에 있어서,The method of claim 11,
    상기 레퍼런스 유전자들 또는 상기 피검 유전자들은The reference genes or the test genes
    생검 조직, 포르말린-고정 파라핀-내장(Formalin-fixed, paraffin-embedded, FFPE) 조직으로부터 획득된 것인, 장치.The biopsy tissue, obtained from formalin-fixed, paraffin-embedded (FFPE) tissue.
  19. 제 11 항에 있어서,The method of claim 11,
    상기 판단부는The determination unit
    상기 피검 유전자들 중 상기 복제수 변이(CNV) 유전자가 존재하는 것으로 판단된 경우, 상기 복제수 변이(CNV) 유전자에 대응되는 약물을 식별하기 위한 어노테이션을 수행하는, 장치.And when it is determined that the copy number variation (CNV) gene is present among the test genes, an annotation for identifying a drug corresponding to the copy number variation (CNV) gene.
PCT/KR2015/012925 2015-06-24 2015-11-30 Method and device for analyzing gene WO2016208827A1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201580078172.3A CN107408163B (en) 2015-06-24 2015-11-30 Method and apparatus for analyzing gene
SG11201707649SA SG11201707649SA (en) 2015-06-24 2015-11-30 Method and device for analyzing gene
SA517380741A SA517380741B1 (en) 2015-06-24 2017-01-18 Method and apparatus for analyzing gene

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2015-0089449 2015-06-24
KR20150089449 2015-06-24
KR1020150168833A KR101828052B1 (en) 2015-06-24 2015-11-30 Method and apparatus for analyzing copy-number variation (cnv) of gene
KR10-2015-0168833 2015-11-30

Publications (1)

Publication Number Publication Date
WO2016208827A1 true WO2016208827A1 (en) 2016-12-29

Family

ID=57585062

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/012925 WO2016208827A1 (en) 2015-06-24 2015-11-30 Method and device for analyzing gene

Country Status (1)

Country Link
WO (1) WO2016208827A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194208A (en) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 A kind of genetic analysis annotates method and apparatus
CN111599408A (en) * 2020-04-15 2020-08-28 至本医疗科技(上海)有限公司 Gene variation cis-trans position relation detection method, device, equipment and storage medium

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120208706A1 (en) * 2010-12-30 2012-08-16 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120208706A1 (en) * 2010-12-30 2012-08-16 Foundation Medicine, Inc. Optimization of multigene analysis of tumor samples

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
AJAY ET AL.: "Accurate and Comprehensive Sequencing of Personal Genomes", GENOME RESEARCH, vol. 21, no. 9, 2011, pages 1498 - 1505, XP055239158 *
FUJIMOTO ET AL.: "Whole-Genome Sequencing and Comprehensive Variant Analysis of a Japanese Individual Using Massively Parallel Sequencing", NATURE GENETICS, vol. 42, no. 11, 2010, pages 931 - 938, XP055287427 *
KRUMM ET AL.: "Copy Number Variation Detection and Genotyping from Exome Sequence Data", GENOME RESEARCH, vol. 22, no. 8, 2012, pages 1525 - 1532, XP055341007 *
WU ET AL.: "Copy Number Variation Detection from 1000 Genomes Project Exon Capture Sequencing Data", BMC BIOINFORMATICS, vol. 13, no. 1, 2012, pages 1 - 19, XP021138467 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107194208A (en) * 2017-04-25 2017-09-22 北京荣之联科技股份有限公司 A kind of genetic analysis annotates method and apparatus
CN107194208B (en) * 2017-04-25 2020-10-02 荣联科技集团股份有限公司 Gene analysis annotation method and device
CN111599408A (en) * 2020-04-15 2020-08-28 至本医疗科技(上海)有限公司 Gene variation cis-trans position relation detection method, device, equipment and storage medium
CN111599408B (en) * 2020-04-15 2022-05-06 至本医疗科技(上海)有限公司 Gene variation cis-trans position relation detection method, device, equipment and storage medium

Similar Documents

Publication Publication Date Title
Wright et al. Paediatric genomics: diagnosing rare disease in children
Paul et al. Increased DNA methylation variability in type 1 diabetes across three immune effector cell types
Zook et al. A robust benchmark for germline structural variant detection
Sekizuka et al. TGS-TB: total genotyping solution for Mycobacterium tuberculosis using short-read whole-genome sequencing
Nishio et al. Deafness gene variations in a 1120 nonsyndromic hearing loss cohort: molecular epidemiology and deafness mutation spectrum of patients in Japan
EP2926288B1 (en) Accurate and fast mapping of targeted sequencing reads
Griffin et al. Accurate mitochondrial DNA sequencing using off-target reads provides a single test to identify pathogenic point mutations
Tekin et al. A next-generation sequencing gene panel (MiamiOtoGenes) for comprehensive analysis of deafness genes
CN107408163B (en) Method and apparatus for analyzing gene
CN110383385B (en) Method for detecting mutation load from tumor sample
Yamamoto et al. Challenges in detecting genomic copy number aberrations using next-generation sequencing data and the eXome Hidden Markov Model: a clinical exome-first diagnostic approach
WO2017135768A1 (en) Method and system for predicting risk of developing genetic disorder in putative offspring
Olson et al. Variant calling and benchmarking in an era of complete human genome sequences
Zhang et al. Statistical method evaluation for differentially methylated CpGs in base resolution next-generation DNA sequencing data
KR20190122909A (en) Noninvasive prenatal molecular karyotyping from maternal plasma
EP3631657A1 (en) System and method for detecting gene fusion
Kishikawa et al. A metagenome-wide association study of gut microbiome in patients with multiple sclerosis revealed novel disease pathology
Bademci et al. Identification of copy number variants through whole-exome sequencing in autosomal recessive nonsyndromic hearing loss
WO2021071181A1 (en) Method for predicting resistance to anticancer immunotherapeutic agent, and analysis apparatus
Cho et al. Prevalence of rare genetic variations and their implications in NGS-data interpretation
Govender et al. Benchmarking taxonomic classifiers with Illumina and Nanopore sequence data for clinical metagenomic diagnostic applications
US20220068434A1 (en) Monitoring mutations using prior knowledge of variants
JP2021101629A (en) System and method for genome analysis and gene analysis
WO2016208827A1 (en) Method and device for analyzing gene
Luzón-Toro et al. Next-generation-based targeted sequencing as an efficient tool for the study of the genetic background in Hirschsprung patients

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15896461

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15896461

Country of ref document: EP

Kind code of ref document: A1