WO2021137563A1 - 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법 - Google Patents

국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법 Download PDF

Info

Publication number
WO2021137563A1
WO2021137563A1 PCT/KR2020/019240 KR2020019240W WO2021137563A1 WO 2021137563 A1 WO2021137563 A1 WO 2021137563A1 KR 2020019240 W KR2020019240 W KR 2020019240W WO 2021137563 A1 WO2021137563 A1 WO 2021137563A1
Authority
WO
WIPO (PCT)
Prior art keywords
ethnicity
race
country
subject
standard genome
Prior art date
Application number
PCT/KR2020/019240
Other languages
English (en)
French (fr)
Inventor
박종화
조윤성
이황열
김학민
Original Assignee
주식회사 클리노믹스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클리노믹스 filed Critical 주식회사 클리노믹스
Publication of WO2021137563A1 publication Critical patent/WO2021137563A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B10/00ICT specially adapted for evolutionary bioinformatics, e.g. phylogenetic tree construction or analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Definitions

  • the present invention relates to a method of providing an identity analysis service using a standard genome map by country, ethnicity, and race, and by constructing a standard genome map and comparing the DNA sample of the subject with the standard genome map of the subject's country, ethnicity, and race It provides a platform to understand
  • the genotype position and mutation are extracted by comparing it with the human standard genome map (GRCh), and at the same time, the entire length of multiple races is extracted. Since the genome sequence must be collected and produced and processed in the same process, and the genetic similarity of the test subject and the comparison group must be compared, it is essential to establish a standard genome map database, which is a comparison object for each country, ethnicity, and race in the world.
  • GRCh human standard genome map
  • a standard genome map for each country, ethnicity, and race existing in the world is constructed and databased, and after construction, the DNA sequence of the subject is mapped to the standard genome map, and then through sequence comparison.
  • data that can be biased can be removed, and the resource wastage of reinterpreting the entire group of comparison objects to be compared can be prevented, and the similarity of variants can be compared to the standard genome for each country, ethnicity, and race.
  • To provide a method of providing an identity analysis service using a standard genome map for each country, ethnicity, and race that can easily determine identities including countries, ethnicities, and races based on similarities sorted by priority by comparison with maps. can
  • the technical task to be achieved by the present embodiment is not limited to the technical task as described above, and other technical tasks may exist.
  • an embodiment of the present invention provides a test step for producing genotype information from a DNA sample extracted from a subject, and a standard genome for each country, ethnicity, and race in which genotype information is established. After mapping on the map, extracting variants by comparing sequences, based on the sequence mapping rate and variant rate, the subject's genotype information and country , aligning the similarity of the standard genome map by ethnicity and race, and deriving an identity including the country, ethnicity, and race of the subject based on the aligned similarity.
  • a standard genome map for each country, ethnicity, and race existing in the world is constructed and databased, and the DNA sequence of the subject is mapped to the standard genome map after construction. Then, by extracting variants through sequence comparison, data that can be biased can be removed, and the waste of resources for reinterpreting the entire group of comparison objects to be compared can be prevented, and the similarity of variants can be compared by country and ethnicity. , and by comparing with the standard genomic map for each race, it is possible to easily determine the identity, including the country, ethnicity, and race, based on the similarity sorted by priority.
  • 1 is a view for explaining an identity analysis service providing system using a standard genome map for each country, ethnicity, and race according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating an identity analysis service providing server included in the system of FIG. 1 .
  • FIG. 3 is a diagram for explaining an embodiment in which an identity analysis service using a standard genome map for each country, ethnicity, and race according to an embodiment of the present invention is implemented.
  • FIG. 4 is a diagram illustrating a process in which data is transmitted/received between components included in the system for providing an identity analysis service using the standard genome map for each country, ethnicity, and race of FIG. 1 according to an embodiment of the present invention.
  • FIG. 5 is an operation flowchart illustrating a method of providing an identity analysis service using a standard genome map for each country, ethnicity, and race according to an embodiment of the present invention.
  • a "part" includes a unit realized by hardware, a unit realized by software, and a unit realized using both.
  • one unit may be implemented using two or more hardware, and two or more units may be implemented by one hardware.
  • mapping or matching with the terminal means mapping or matching the terminal's unique number or personal identification information, which is the identification data of the terminal. can be interpreted as
  • an identity analysis service providing system 1 using a standard genome map for each country, ethnicity, and race includes at least one test subject terminal 100 , an identity analysis service providing server 300 , and at least one administrator.
  • the terminal 400 may be included.
  • the identity analysis service providing system 1 using the standard genome map for each country, ethnicity, and race of FIG. 1 is only one embodiment of the present invention, the present invention is not limitedly interpreted through FIG. 1 .
  • each component of FIG. 1 is generally connected through a network 200 .
  • at least one testee terminal 100 may be connected to the identity analysis service providing server 300 through the network 200 .
  • the identity analysis service providing server 300 may be connected to at least one testee terminal 100 and at least one manager terminal 400 through the network 200 .
  • at least one manager terminal 400 may be connected to the identity analysis service providing server 300 through the network 200 .
  • the network refers to a connection structure in which information exchange is possible between each node, such as a plurality of terminals and servers, and an example of such a network includes RF, 3rd Generation Partnership Project (3GPP) network, Long Term (LTE). Evolution) network, 5th Generation Partnership Project (5GPP) network, WIMAX (World Interoperability for Microwave Access) network, Internet, LAN (Local Area Network), Wireless LAN (Wireless Local Area Network), WAN (Wide Area Network) , PAN (Personal Area Network), Bluetooth (Bluetooth) network, NFC network, satellite broadcasting network, analog broadcasting network, DMB (Digital Multimedia Broadcasting) network, and the like are included, but are not limited thereto.
  • 3GPP 3rd Generation Partnership Project
  • LTE Long Term
  • Evolution Fifth Generation Partnership Project
  • 5GPP Fifth Generation Partnership Project
  • WIMAX Worldwide Interoperability for Microwave Access
  • Internet Internet
  • LAN Local Area Network
  • Wireless LAN Wireless Local Area Network
  • WAN
  • At least one test subject terminal 100 is a terminal that wants to identify the country, ethnicity, and race using an identity analysis service-related web page, app page, program or application using a standard genome map for each country, ethnicity, and race can To this end, the examinee terminal 100 may be a terminal that transmits a test request event to the identity analysis service providing server 300 , and receives and outputs the result from the identity analysis service providing server 300 .
  • the at least one testee terminal 100 may be implemented as a computer capable of accessing a remote server or terminal through a network.
  • the computer may include, for example, navigation, a laptop equipped with a web browser, a desktop, and a laptop.
  • the at least one testee terminal 100 may be implemented as a terminal capable of accessing a remote server or terminal through a network.
  • the at least one terminal 100 is, for example, a wireless communication device that guarantees portability and mobility, such as navigation, Personal Communication System (PCS), Global System for Mobile communications (GSM), Personal Digital Cellular (PDC), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) ) terminal, a smart phone, a smart pad, a tablet PC, etc. may include all kinds of handheld-based wireless communication devices.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA(W-Code Division Multiple Access) Wideband Internet
  • Wibro Wireless Broadband Internet
  • the identity analysis service providing server 300 may be a server that provides an identity analysis service web page, an app page, a program or an application using a standard genome map for each country, ethnicity, and race.
  • the identity analysis service providing server 300 may be a server that collects data on at least one country-specific, ethnic-specific, and racial-specific genetic sample.
  • the collection may be collected by an input method from at least one manager terminal 400 or may be collected from a directly connected gene analysis device, but is not limited thereto.
  • the identity analysis service providing server 300 deciphers and produces the collected genetic sample, selects a representative sample using at least one type of analysis method, and compiles information on the representative sample into a database for country, ethnicity, and It may be a server that databaseizes the standard genome map for each race.
  • the identity analysis service providing server 300 when there is a request from the subject terminal 100, receives data about the DNA sample from the manager terminal 400, and a standard genome map (by country, ethnicity, and race) It may be a server that calculates the degree of similarity based on the sequence mapping rate and mutation rate through comparison with the standard genome map).
  • the identity analysis service providing server 300 sorts the standard genome map to be compared in the order having the highest degree of similarity based on the degree of similarity, checks each percentage by country, ethnicity, and race, and displays the result It may be a server that transmits to the examinee terminal 100 .
  • the standard genome map was made into a database by country, ethnicity, and race.
  • the DNA sample and the gene sample are the same kind of material, but for constructing a database, the genetic sample is defined and the subject's is defined as the DNA sample, so that both comparison objects are distinguished.
  • the identity analysis service providing server 300 may be implemented as a computer capable of accessing a remote server or terminal through a network.
  • the computer may include, for example, navigation, a laptop equipped with a web browser, a desktop, and a laptop.
  • the at least one manager terminal 400 may be a terminal of a manager or an employee who uses an identity analysis service-related web page, an app page, a program or an application using a standard genome map for each country, ethnicity, and race.
  • the at least one manager terminal 400 may be a terminal for inputting data about a gene sample for constructing a standard genome map.
  • the at least one manager terminal 400 may be a terminal for inputting data on the DNA sample of the examinee, and may be a terminal that performs inspection before transmitting the result to the terminal 100 of the examinee.
  • the at least one manager terminal 400 may be implemented as a computer that can access a remote server or terminal through a network.
  • the computer may include, for example, navigation, a laptop equipped with a web browser, a desktop, and a laptop.
  • the at least one manager terminal 400 may be implemented as a terminal capable of accessing a remote server or terminal through a network.
  • At least one manager terminal 400 is, for example, as a wireless communication device that guarantees portability and mobility, navigation, PCS (Personal Communication System), GSM (Global System for Mobile communications), PDC (Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) ) terminal, a smart phone, a smart pad, a tablet PC, etc. may include all kinds of handheld-based wireless communication devices.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA(W-Code Division Multiple Access) Wideband Internet
  • Wibro Wireless Broadband Internet
  • FIG. 2 is a block diagram illustrating an identity analysis service providing server included in the system of FIG. 1, and FIG. 3 is an identity analysis service using standard genome maps for countries, ethnicities, and races according to an embodiment of the present invention. It is a diagram for explaining an embodiment in which is implemented.
  • the identity analysis service providing server 300 may include a sword type unit 310 , an extraction unit 320 , an alignment unit 330 , a derivation unit 340 , and a configuration unit 350 . .
  • the identity analysis service providing server 300 includes national, ethnic , When transmitting an identity analysis service application, program, app page, web page, etc. using the standard genome map for each race, at least one test subject terminal 100, and at least one manager terminal 400, the country, ethnicity , and an identity analysis service application, program, app page, web page, etc. using the standard genome map for each race can be installed or opened.
  • the service program may be driven in at least one examinee terminal 100 and at least one manager terminal 400 by using a script executed in a web browser.
  • the web browser is a program that enables the use of a web (WWW: world wide web) service, and refers to a program that receives and displays hypertext written in HTML (hyper text mark-up language), for example, Netscape , Explorer, Chrome, and the like.
  • the application means an application on the terminal, for example, includes an app (app) executed in a mobile terminal (smartphone).
  • the weaning gene is determined according to the DNA base sequence. Therefore, the analysis of the DNA base sequence can be said to be the most basic of biological information analysis.
  • the raw data generated through the sequencing process is generally generated in size of 1 TB (small organism) or more, including intermediate files.
  • the short reads of the raw data generated in this way are used to start assembly work, such as a kind of puzzle-solving game.
  • WGS Whole Genome Sequencing
  • the goal of assembly is to finally compose the target genome through over-sampling of reads at random positions using reads smaller than a single genome.
  • WGS processing requires high computational complexity, a complex process is required to efficiently use data.
  • OLC Overlap/Layout/Consensus
  • DBG De Bruijin Graph
  • OLC is expressed using an overlapping graph of reads.
  • This method is mainly used for long reads like the Sanger sequencing method, and there are algorithms such as Celera assembler, AMOS, Phrap, and Newbler.
  • the DBG method is a graph representation of all possible substrings of a fixed-size string, and the edges are connected with a perfect overlap of suffix-to-prefix, and the connection of reads is extended using this graph.
  • the DBG algorithm targets reads with a size of about 25-100bp and does not align between sequences, so assembly calculation is shorter than OLC, but errors in K-mers can make the graph inaccurate, and K-mers are sensitive to sequencing errors. can be done
  • OLC consists of overlap, layout, and consensus steps, it is easy to configure algorithm modularity, so optimization for each module is possible, but it requires a lot of time and computational cost in the overlap step.
  • the test unit 310 may perform a test for generating genotype information from a DNA sample extracted from a subject.
  • the subject's DNA sample is a sample collected from blood, saliva, oral epithelial cells, etc.
  • DNA is extracted from the DNA sample
  • genotype information can be produced by full-length genome decoding and DNA chip method. Detoxification and genotype production methods can be used in various commercialized platforms, and is not limited to any one experimental method or platform.
  • the extraction unit 320 may extract genotype information by mapping the genotype information to a standard genomic map for each country, ethnicity, and race, and then comparing the sequences to extract variants.
  • the established standard genome map for each country, ethnicity, and race is MDS (Multiple Dimensional Scaling) after decoding at least one country, ethnicity, and race-specific genetic sample by at least one kind of sequencing method.
  • MDS Multiple Dimensional Scaling
  • it may be constructed by selecting a representative sample using Principle Component Analysis (PCA).
  • PCA Principle Component Analysis
  • the consensus method disclosed in Korean Patent No. 10-1930253 (notice on December 18, 2018) of the present applicant may be used, one standard genome may be used, and the sequence decoding and assembling The method is not limited to any one method. Not only the de novo method, but also the method through re-sequencing is possible.
  • the representative sample may be a sample of 1 person to a sample of 1000 people, but is not limited thereto.
  • the standard genome map for each country, ethnicity, and race may be processed and stored like big data.
  • big data means that data cannot be analyzed in a normal time on a desktop or workstation using a tool, but can be calculated only by using a specific algorithm and very powerful computing power.
  • a high-performance computer such as a supercomputer is required for the data produced through the NGS process for experiments such as genome assembly, BLAST, and genome annotation processing.
  • the genome assembly is divided into a de novo assembly that analyzes a previously unknown genomic sequence and a reference assembly that maps to a reference sequence.
  • mapping the final whole genome sequence can be extracted through sequence indexing, search, alignment, mapping, pairing, and sequence extraction.
  • various types of indexing techniques can be used to quickly map a large amount of 100 bp reads generated through NGS to the 3 billion bp reference sequence of the Human Genome Project.
  • mapping can be performed by comparing it with a hash table of a reference sequence, or memory space can be reduced through indexing using LF mapping, and parallel processing can be used to process large amounts of data in a cloud computing environment. Algorithms can also be applied.
  • a cDNA (complementary DNA) library may be further prepared.
  • the core of the genetic phenomenon of all living things appears as the flow of genetic information, and this flow of genetic information includes the replication process that creates new DNA from existing DNA, the transcription process that creates RNA using DNA as a template, and the It is divided into the translation process that produces protein from RNA.
  • the replication process is the process of duplicating the DNA sequence itself in order to transmit the genetic information stored in DNA to the next generation.
  • the transcription process is a step in which the genetic information stored in DNA is transferred to RNA, and the RNA produced at this time is called mRNA.
  • tissue-specific cDNA (complementary DNA) library can be further prepared by isolating the mRNA.
  • cDNA refers to DNA synthesized by reverse transcriptase and DNA polymerase using mRNA as a template, and is called complementary DNA because it has a complementary arrangement to mRNA.
  • Analysis of large cDNA libraries has been used to study the functional genomics of genes and proteins, and therefore, the production of comprehensive non-overlapping cDNAs is an important goal for genomic studies of human and model animal organisms.
  • web-based search programs provided by public databases such as NCBI, Ensembl, DDBJ, and UCSC are mainly used. There is a limit to the number of genes, and there is a difficulty in searching another web database for functional analysis of genes.
  • a large-capacity cDNA library automated analysis pipeline may be further provided.
  • the analysis pipeline is first, the pre-processing of sequencing data, Second, it may include a BLAST process that compares with a reference sequence, third, a process of confirming the full-length cDNA structure, fourth, a function analysis process, and finally a database process. At this time, the cDNA library that has already been pretreated can be proceeded from the second process.
  • the image file provided as a result of the sequencing machine is converted into a sequence file that can be processed by the computer, and only the sequence with a Phred score of 20 or higher (sequencing accuracy 99%) is extracted and the original cDNA is extracted. It is the process of removing a vector sequence that is not a sequence.
  • the next step is to check which gene the cDNA is of against a reference sequence database.
  • the reference gene of cDNA is identified in the standard reference sequence database (RefSeq DB), and cDNA with no results or low sequence similarity in the first database is compared with UniGene DB. A reference gene can be found.
  • the third step is to check whether the full-length cDNA structure is present.
  • Each cDNA is compared with the reference gene sequence and classified as Full-length CDS, Full Candidate, Partial CDS, Non-CDS, and Unknown.
  • a full-length CDS contains the start codon of the coding sequence (CDS) and either ends with a vector sequence or contains poly-A in the sequence.
  • Full Candidate can be classified as cDNA sequenced to the middle region of CDS without vector sequence or poly-A, although it contains a 5′ UTR or start codon.
  • cDNA to which a reference gene is assigned can be tagged with additional annotations or tags such as gene information, Gene Ontology (GO), Cytoband, OMIM, etc. for functional analysis.
  • GO Gene Ontology
  • OMIM OMIM
  • a cDNA library is constructed with the collected gene samples while constructing the above-described standard genome map, it is possible to produce a comprehensive non-overlapping full-length cDNA with complete sequences for each country, ethnicity, and race. , it is valuable as an important resource to accurately determine the exon and intron structures of genes. In particular, it can be used as a more important resource when the selective splicing form and low-expression gene are difficult to reconstruct by sequencing of RNA sequencing.
  • the aligning unit 330 may align the genotype information of the subject and the similarity of the standard genome map for each country, ethnicity, and race based on the sequence mapping rate and the variation rate.
  • the variation rate is It can be based on the number of variants (Number). In this case, the number of variations is counted by any one or a combination of at least one of Single Nucleotide Polymorphism, Indels, Copy-Number Variation, and Structural Variation.
  • a preset weighting is given to the total number of mutations.
  • the number of mutations can be corrected. For example, in a DNA sequence extracted from a DNA sample of a subject, if there is an SV, that is, a genomic structural variation, weight is given to the fact that the genomic structural variation exists, and then this is added to the mononucleotide polymorphism information to determine the total variation number can be corrected.
  • the mutations simultaneously found in the standard genome map for each country, ethnicity, and race and the DNA sequence of the subject are genetic characteristics common to the country, ethnicity, and race.
  • the mutations found in the standard genome map for a specific country, ethnicity, and race and the DNA sequence of a subject can be considered to be unique genetic characteristics of a specific country, ethnicity, and race.
  • the aligning unit 330 aligns the similarity between the genotype information of the subject and the standard genome map for each country, ethnicity, and race based on the sequence mapping rate and the variation rate of the sequence.
  • the degree of similarity to the mutation of the sequence of the standard genome map for each country, ethnicity, and race can be measured.
  • the mapping similarity is the degree of sequence similarity between both data, for example, if the B sequence of the A subject and the B sequence of the C standard genome map are the same, and assuming that the B sequence occupies 10% of the total sequence , A subject may have 10% similarity to the C standard genome map.
  • the standard genome map is divided by country, ethnicity, and race, it will be self-evident that the overall similarity can be calculated only by comparing them all.
  • the derivation unit 340 may derive an identity including the country, ethnicity, and race of the examinee based on the aligned similarity. For example, assuming that subject A has 40% similarity to country B, 30% similarity to country C, 20% similarity to country D, and 10% similarity to country E, it is possible to have an identity in the order of BCDE. . That is, subject A has a 40% chance of being a national of country B, a 30% chance of being a citizen of country C, a 20% chance of being a citizen of country D, and a 10% chance of being a citizen of country E. Similarly, for each ethnicity or race, the probability of being white, the likelihood of being yellow, the likelihood of being black, the likelihood of being Indian, etc. can be extracted by each percentage.
  • the derivation unit 340 selects the country, ethnicity, and race having the highest similarity as the country, ethnicity, and race of the examinee. and race can be judged.
  • the derivation unit 340 may use an artificial intelligence algorithm for classifying the DNA sample of the subject using the characteristics of country, ethnicity, and race. For example, by using a clustering algorithm based on unsupervised learning, it is possible to use a method of reducing similarity between samples belonging to the same cluster and having a small similarity between samples belonging to different clusters.
  • cluster analysis may be used to finally discover a group of similar characteristics while merging objects with similar characteristics. For example, a group of country A and a group of country B may exist. This group of subjects can be classified through cluster analysis, and when a new test is requested after identifying the characteristics of the cluster, the object of the new subject can be classified.
  • a neural network SOM Self-Organizing Maps
  • This is a method of mapping given multidimensional data to the closest cluster when the number of clusters is known. Randomly selected elements are input to the map constituting the elastic network, and the weight of the map is repeatedly modified at the same time until there is no cluster movement of the input data.
  • the weight vector update function used to update the weight vector has values of 0 and 1 as the learning rate, and is readjusted together with the winner neuron when the weight is modified.
  • the weight vector of each output node is moved in the direction of the input data included in the output node (the output node is selected as the winner).
  • This change in motion is very distracting at the beginning, but becomes almost unchanged when the number of input vectors exceeds a certain level and is stabilized.
  • This method is suitable for complex multidimensional data clustering, and the results are easy to visualize, and the user can control the clustering results.
  • a nonlinear hyperplane is formed by transferring it to a higher dimension using a kernel function. In the case of nonlinearity, the calculation of the inner product of the kernel function may be required to perform the same calculation as in the linear case.
  • the hyperplane can be obtained as a nonlinear separation function in the original space. Since the shape of the hyperplane changes in various ways according to the selection of the kernel function, an appropriate kernel function must be selected.
  • the selection of the kernel function has the disadvantage that there is no selection criterion yet, so the result is different depending on the data. For example, a Gaussian RBF kernel can be used.
  • the resultant percentages of country, ethnicity, and race may be respectively output.
  • learning, training, and testing processes are required to produce a desired result.
  • the clustering algorithm in the procedure for calculating the standardized data probability, the Euclidean similarity and cosine relation among various similarity measures may be used, but the present invention is not limited thereto.
  • the configuration unit 350 derives the identity including the country, ethnicity, and race of the examinee based on the similarity aligned in the derivation unit 340 , and then averages the sum of the aligned similarities by country, ethnicity, and race A percentage may be calculated, and a composition ratio of countries, ethnicities, and races may be output according to the calculated percentages.
  • the pre-constructed standard genome map for each country, ethnicity, and race may be a map constructed from a genetic sample of a human that has existed in the past as well as a genetic sample of a living human being in the present. Accordingly, the ancestor of the subject may be derived through mapping and calculating the similarity between the map constructed from the human genetic sample existing in the past and the DNA sample of the subject.
  • the identity analysis service providing server 300 collects a result of decoding a genetic sample for at least one country, ethnicity, and race from at least one manager terminal 400, and among them A standard genome map is constructed by selecting a representative sample.
  • the identity analysis service providing server 300 performs sequencing, maps to a standard genome map, compares sequences, and extracts mutations in any country It outputs what percentage of human beings are mixed, what is the percentage of the gene of which ethnicity, and what percentage of the gene of which race is.
  • the identity analysis service providing server 300 transmits the result to the examinee terminal 100, it may be transmitted after the inspection of the manager terminal 400, but it is to exclude that the inspection does not proceed no. In such a case, it is not necessary to repeatedly perform the process of comparing the human genome map with the subject and comparing the genome map with the comparison sample one by one in the prior art. That is, in one embodiment of the present invention, by comparing the variation in the region where the genotype is confirmed in all countries, ethnicities, and races to be compared with the test subject, it can be biased by the data production method used in constructing the standard genome.
  • the genetic mutation may use a human standard genome or a Korean standard genome.
  • the similarity is measured by comparing the mutations of the standard genome for each ethnicity and the subject (subject vs. the standard genome for each ethnicity).
  • A can determine that Koreans are the ancestors.
  • the degree of similarity is calculated numerically, a person who is 70% Korean and a person who is 60% Korean have the same Korean ancestor, but the degree is different.
  • FIG. 4 is a diagram illustrating a process in which data is transmitted/received between components included in the system for providing an identity analysis service using the standard genome map for each country, ethnicity, and race of FIG. 1 according to an embodiment of the present invention.
  • FIG. 4 an example of a process in which data is transmitted and received between the respective components will be described with reference to FIG. 4 , but the present application is not limited to such an embodiment, and the example shown in FIG. 4 according to the various embodiments described above will be described. It is apparent to those skilled in the art that the data transmission/reception process may be changed.
  • the identity analysis service providing server 300 receives data for a gene sample from at least one manager terminal 400 (S4100), and decodes the gene for each country, ethnicity, and race (S4200) , by selecting a representative sample among them (S4300), to build a standard genome map (S4400).
  • the identity analysis service providing server 300 receives the test request from the subject terminal 400 (S4200), receives data about the subject's DNA sample from the manager terminal 400 (S4300), and the standard genome map and A comparison between DNA samples is started (S4400).
  • the identity analysis service providing server 300 calculates the mapping rate of the sequences, that is, the degree of matching, the rate of mutation, the degree of mutation, and the like (S4710), and calculates the degree of similarity.
  • sorting (S4800) and calculating percentages by country, ethnicity, and race, respectively (S4900) the test result may be provided to the subject terminal 100 (S4920).
  • Matters not described for the method of providing an identity analysis service using the standard genome map for each country, ethnicity, and race of FIG. 4 are identified using the standard genome map for each country, ethnicity, and race through FIGS. 1 to 3 above. Since it is the same as or easily inferred from the described content of the analysis service providing method, the following description will be omitted.
  • the identity analysis service providing server performs a screening step of producing genotype information from a DNA sample extracted from a subject ( S5100 ).
  • the identity analysis service providing server maps the genotype information to the established standard genome map for each country, ethnicity, and race, and then compares the sequences to extract variants (S5200) , aligns the similarity between the genotype information of the subject and the standard genome map for each country, ethnicity, and race based on the sequence mapping rate and the variation rate (S5300).
  • the identity analysis service providing server derives the identity including the country, ethnicity, and race of the examinee based on the aligned similarity (S5400).
  • Matters not described above for the method of providing an identity analysis service using the standard genome map for each country, ethnicity, and race of FIG. 5 are identified using the standard genome map for each country, ethnicity, and race through FIGS. 1 to 4 above. Since it is the same as or easily inferred from the described content of the analysis service providing method, the following description will be omitted.
  • the method of providing an identity analysis service using the standard genome map by country, ethnicity, and race includes instructions executable by a computer, such as an application or program module executed by a computer. It may also be implemented in the form of a recording medium.
  • Computer-readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media. Also, computer-readable media may include all computer storage media. Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • the method for providing an identity analysis service using the standard genome map for each country, ethnicity, and race includes an application basically installed in a terminal (which is a program included in a platform or operating system basically installed in the terminal) may include), and may be executed by an application (ie, a program) installed directly on the master terminal by a user through an application providing server such as an application store server, an application, or a web server related to the corresponding service.
  • an application that is, a program
  • installed basically in a terminal or installed directly by a user may be implemented and recorded in a computer-readable recording medium such as a terminal.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medical Informatics (AREA)
  • Biophysics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Physiology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Bioethics (AREA)
  • Animal Behavior & Ethology (AREA)
  • Artificial Intelligence (AREA)
  • Ecology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Evolutionary Computation (AREA)
  • Public Health (AREA)
  • Software Systems (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법이 제공되며, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계, 및 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계를 포함한다.

Description

국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법
본 발명은 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 관한 것으로, 표준게놈지도를 구축하고, 피검자의 DNA 시료와 표준게놈지도를 비교함으로써 피검자의 국가, 민족, 및 인종을 파악할 수 있는 플랫폼을 제공한다.
최근 과학기술학 연구들은 인간 유전체 프로젝트(Human Genome Project, HGP) 이후 집단 간 유전적 변이가 주요 주제로 떠오르고 고속 대량 염기서열 분석 기술이 구현되기 시작하면서 세계 각지에서 진행되고 있는 국가 단위의 유전체 프로젝트들에 초점을 맞춘다. 국가 단위 유전체 프로젝트는, 자국민의 건강 문제의 해결은 물론, 지구적 생의학 시장 진출을 목표로 영토 내 인구 집단에 대한 생체 정보를 체계적으로 수집하는 바이오뱅크의 건설이나 다양한 유전체 서열분석 프로젝트들의 형태로 전개되어 왔다. 과학기술학 연구자들은 이런 활동이 국민, 종족, 인종과 같은 사회문화적, 정치적 범주들을 생물학적 실재로 구상화시키고 있으며, 특히 국가 유전체 프로젝트들의 참여자들이 자국민의 유전체 연구 성과를 상업화하는 가운데 자국민 집단의 유전적 특성에 어떠한 성격을 부여하는지, 그리고 그것이 해당 집단에 대한 정체성 담론과 진행 중인 정치적 논쟁들과 어떻게 연루되는지에 대한 관심이 커지고 있다.
이때, 참조 표준을 위한 게놈지도 구축 방법이 연구 및 개발되었는데, 이와 관련하여, 선행기술인 한국등록특허 제10-1930253호(2018년12월18일 공고)에는, NGS(Next Generation Sequencing) 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 시퀀싱 및 맵핑 기술을 이용하여 참조표준 게놈지도(Reference Genome Map)를 구축하고, 공통 돌연변이(SNP, indel)들의 정보를 구축된 참조표준 게놈지도에 통합하며, NGS 단서열 해독, PacBio 긴서열 해독, Illumnina TSLR 긴서열 해독 등의 3개 이상의 시퀀싱 및 맵핑 기술을 이용하여 참조표준 게놈지도를 구축함으로써 짧은 시간에 적은 비용으로 참조표준 게놈지도를 조립할 수 있고, 공통 돌연변이의 정보를 구축된 참조표준 게놈지도에 통합함으로써, 게놈 상의 각 포지션에 집단 공통(consensus)의 서열을 보유하도록 적용가능한 구성이 개시되어 있다.
다만, 상술한 방법을 이용한다고 할지라도 피검사자의 전장유전체서열(Whole Genome Sequences)를 해독한 후, 인간표준게놈지도(GRCh)와 비교하여 유전형의 위치와 변이를 추출하고, 동시에 복수의 인종의 전장유전체서열을 수집 및 생산하여 동일한 과정으로 처리해야 하고, 피검사자와 비교 그룹의 유전적 유사성을 모두 비교해야 하므로, 필수적으로 전세계의 각 국가, 민족, 및 인종별로 비교객체인 표준게놈지도 데이터베이스의 구축이 요구된다. 또, 구축을 한다고 할지라도 이를 비교할 때 피검사자에 대한 변이를 배제하지 않는 경우, 비교하려는 비교객체 전체집단의 재해독이 불가피하므로 인력 자원 뿐만 아니라, 인프라 자원의 낭비로 이어지는 문제점 등이 있었다.
[선행기술]
한국등록특허 제10-1930253호(2018년12월18일 공고)
본 발명의 일 실시예는, 전세계에 존재하는 국가별, 민족별, 및 인종별 표준게놈지도를 구축하여 데이터베이스화하고, 구축 후 피검사자의 DNA 서열을 표준게놈지도에 매핑한 후, 서열 비교를 통하여 변이(Variants)를 추출함으로써 편향될 수 있는 데이터를 제거하고, 비교하려는 비교객체 전체집단의 재해독을 하는 자원낭비를 막을 수 있으며, 변이의 유사성을 각 국가별, 민족별, 및 인종별 표준게놈지도와 비교함으로써 우선순위로 정렬된 유사성에 기반하여 국가, 민족, 및 인종을 포함한 정체성을 용이하게 판단할 수 있는, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 제공할 수 있다. 다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계, 및 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 전세계에 존재하는 국가별, 민족별, 및 인종별 표준게놈지도를 구축하여 데이터베이스화하고, 구축 후 피검사자의 DNA 서열을 표준게놈지도에 매핑한 후, 서열 비교를 통하여 변이(Variants)를 추출함으로써 편향될 수 있는 데이터를 제거하고, 비교하려는 비교객체 전체집단의 재해독을 하는 자원낭비를 막을 수 있으며, 변이의 유사성을 각 국가별, 민족별, 및 인종별 표준게놈지도와 비교함으로써 우선순위로 정렬된 유사성에 기반하여 국가, 민족, 및 인종을 포함한 정체성을 용이하게 판단할 수 있다.
도 1은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템을 설명하기 위한 도면이다.
도 2는 도 1의 시스템에 포함된 정체성 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이다.
도 3은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미하며, 하나 또는 그 이상의 다른 특징이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
명세서 전체에서 사용되는 정도의 용어 "약", "실질적으로" 등은 언급된 의미에 고유한 제조 및 물질 허용오차가 제시될 때 그 수치에서 또는 그 수치에 근접한 의미로 사용되고, 본 발명의 이해를 돕기 위해 정확하거나 절대적인 수치가 언급된 개시 내용을 비양심적인 침해자가 부당하게 이용하는 것을 방지하기 위해 사용된다. 본 발명의 명세서 전체에서 사용되는 정도의 용어 "~(하는) 단계" 또는 "~의 단계"는 "~ 를 위한 단계"를 의미하지 않는다.
본 명세서에 있어서 '부(部)'란, 하드웨어에 의해 실현되는 유닛(unit), 소프트웨어에 의해 실현되는 유닛, 양방을 이용하여 실현되는 유닛을 포함한다. 또한, 1개의 유닛이 2개 이상의 하드웨어를 이용하여 실현되어도 되고, 2개 이상의 유닛이 1개의 하드웨어에 의해 실현되어도 된다.
본 명세서에 있어서 단말, 장치 또는 디바이스가 수행하는 것으로 기술된 동작이나 기능 중 일부는 해당 단말, 장치 또는 디바이스와 연결된 서버에서 대신 수행될 수도 있다. 이와 마찬가지로, 서버가 수행하는 것으로 기술된 동작이나 기능 중 일부도 해당 서버와 연결된 단말, 장치 또는 디바이스에서 수행될 수도 있다.
본 명세서에서 있어서, 단말과 매핑(Mapping) 또는 매칭(Matching)으로 기술된 동작이나 기능 중 일부는, 단말의 식별 정보(Identifying Data)인 단말기의 고유번호나 개인의 식별정보를 매핑 또는 매칭한다는 의미로 해석될 수 있다.
이하 첨부된 도면을 참고하여 본 발명을 상세히 설명하기로 한다.
도 1은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템을 설명하기 위한 도면이다. 도 1을 참조하면, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템(1)은, 적어도 하나의 피검자 단말(100), 정체성 분석 서비스 제공 서버(300), 적어도 하나의 관리자 단말(400)을 포함할 수 있다. 다만, 이러한 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템(1)은, 본 발명의 일 실시예에 불과하므로, 도 1을 통하여 본 발명이 한정 해석되는 것은 아니다.
이때, 도 1의 각 구성요소들은 일반적으로 네트워크(network, 200)를 통해 연결된다. 예를 들어, 도 1에 도시된 바와 같이, 적어도 하나의 피검자 단말(100)은 네트워크(200)를 통하여 정체성 분석 서비스 제공 서버(300)와 연결될 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 네트워크(200)를 통하여 적어도 하나의 피검자 단말(100), 적어도 하나의 관리자 단말(400)과 연결될 수 있다. 또한, 적어도 하나의 관리자 단말(400)은, 네트워크(200)를 통하여 정체성 분석 서비스 제공 서버(300)와 연결될 수 있다.
여기서, 네트워크는, 복수의 단말 및 서버들과 같은 각각의 노드 상호 간에 정보 교환이 가능한 연결 구조를 의미하는 것으로, 이러한 네트워크의 일 예에는 RF, 3GPP(3rd Generation Partnership Project) 네트워크, LTE(Long Term Evolution) 네트워크, 5GPP(5th Generation Partnership Project) 네트워크, WIMAX(World Interoperability for Microwave Access) 네트워크, 인터넷(Internet), LAN(Local Area Network), Wireless LAN(Wireless Local Area Network), WAN(Wide Area Network), PAN(Personal Area Network), 블루투스(Bluetooth) 네트워크, NFC 네트워크, 위성 방송 네트워크, 아날로그 방송 네트워크, DMB(Digital Multimedia Broadcasting) 네트워크 등이 포함되나 이에 한정되지는 않는다.
하기에서, 적어도 하나의 라는 용어는 단수 및 복수를 포함하는 용어로 정의되고, 적어도 하나의 라는 용어가 존재하지 않더라도 각 구성요소가 단수 또는 복수로 존재할 수 있고, 단수 또는 복수를 의미할 수 있음은 자명하다 할 것이다. 또한, 각 구성요소가 단수 또는 복수로 구비되는 것은, 실시예에 따라 변경가능하다 할 것이다.
적어도 하나의 피검자 단말(100)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하여 국가, 민족, 및 인종을 파악하고자 하는 단말일 수 있다. 이를 위하여, 피검자 단말(100)은, 정체성 분석 서비스 제공 서버(300)로 검사요청 이벤트를 전송하고, 그 결과를 정체성 분석 서비스 제공 서버(300)로부터 수신하여 출력하는 단말일 수 있다.
여기서, 적어도 하나의 피검자 단말(100)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 피검자 단말(100)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 피검자 단말(100)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
정체성 분석 서비스 제공 서버(300)는, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 제공하는 서버일 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 적어도 하나의 국가별, 민족별, 및 인종별 유전자 샘플에 대한 데이터를 수집하는 서버일 수 있다. 여기서, 수집은 적어도 하나의 관리자 단말(400)로부터 입력하는 방법으로 수집될 수도 있고, 직접 연결된 유전자 분석 장치로부터 수집될 수도 있으며, 어느 하나에 한정하지는 않는다. 또한, 정체성 분석 서비스 제공 서버(300)는, 수집된 유전자 샘플을 해독 및 생산하여 적어도 하나의 종류의 분석법을 이용하여 대표 샘플을 선정하고, 대표 샘플에 대한 정보를 데이터베이스화하여 국가, 민족, 및 인종별 표준게놈지도를 데이터베이스화하는 서버일 수 있다. 그리고, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(100)의 요청이 존재하는 경우, 관리자 단말(400)로부터 DNA 시료에 대한 데이터를 입력받고, 표준게놈지도(국가, 민족, 및 인종별 표준게놈지도와 동일한 용어로 정의한다)와 비교를 통하여 서열 매핑율 및 변이율에 기초하여 유사도를 산출하는 서버일 수 있다. 또한, 정체성 분석 서비스 제공 서버(300)는, 유사도에 근거하여 가장 높은 유사도를 가지는 순서대로 비교대상인 표준게놈지도를 정렬하고, 국가별, 민족별, 및 인종별로 각각의 퍼센테이지를 확인하여 그 결과를 피검자 단말(100)로 전송하는 서버일 수 있다. 이때, 표준게놈지도는 국가별, 민족별, 및 인종별로 데이터베이스화었음은 상술한 바와 같다. 또한, DNA 시료와 유전자 샘플은 동일한 종류의 물질이나, 데이터베이스를 구축하기 위한 것은 유전자 샘플로, 피검자의 것은 DNA 시료로 정의하여 양 비교대상을 구분하기로 한다.
여기서, 정체성 분석 서비스 제공 서버(300)는, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다.
적어도 하나의 관리자 단말(400)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 관련 웹 페이지, 앱 페이지, 프로그램 또는 애플리케이션을 이용하는 관리자 또는 직원의 단말일 수 있다. 이때, 적어도 하나의 관리자 단말(400)은, 표준게놈지도를 구축하기 위한 유전자 샘플에 대한 데이터를 입력하는 단말일 수 있다. 또, 적어도 하나의 관리자 단말(400)은, 피검자의 DNA 시료에 대한 데이터를 입력하는 단말일 수 있고, 그 결과를 피검자 단말(100)로 전송하기 이전에 검수를 진행하는 단말일 수 있다.
여기서, 적어도 하나의 관리자 단말(400)은, 네트워크를 통하여 원격지의 서버나 단말에 접속할 수 있는 컴퓨터로 구현될 수 있다. 여기서, 컴퓨터는 예를 들어, 네비게이션, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(Desktop), 랩톱(Laptop) 등을 포함할 수 있다. 이때, 적어도 하나의 관리자 단말(400)은, 네트워크를 통해 원격지의 서버나 단말에 접속할 수 있는 단말로 구현될 수 있다. 적어도 하나의 관리자 단말(400)은, 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, 네비게이션, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), Wibro(Wireless Broadband Internet) 단말, 스마트폰(smartphone), 스마트 패드(smartpad), 타블렛 PC(Tablet PC) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
도 2는 도 1의 시스템에 포함된 정체성 분석 서비스 제공 서버를 설명하기 위한 블록 구성도이고, 도 3은 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스가 구현된 일 실시예를 설명하기 위한 도면이다.
도 2를 참조하면, 정체성 분석 서비스 제공 서버(300)는, 검형부(310), 추출부(320), 정렬부(330), 도출부(340), 구성부(350)를 포함할 수 있다.
본 발명의 일 실시예에 따른 정체성 분석 서비스 제공 서버(300)나 연동되어 동작하는 다른 서버(미도시)가 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)로 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 전송하는 경우, 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)은, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 애플리케이션, 프로그램, 앱 페이지, 웹 페이지 등을 설치하거나 열 수 있다. 또한, 웹 브라우저에서 실행되는 스크립트를 이용하여 서비스 프로그램이 적어도 하나의 피검자 단말(100), 및 적어도 하나의 관리자 단말(400)에서 구동될 수도 있다. 여기서, 웹 브라우저는 웹(WWW: world wide web) 서비스를 이용할 수 있게 하는 프로그램으로 HTML(hyper text mark-up language)로 서술된 하이퍼 텍스트를 받아서 보여주는 프로그램을 의미하며, 예를 들어 넷스케이프(Netscape), 익스플로러(Explorer), 크롬(chrome) 등을 포함한다. 또한, 애플리케이션은 단말 상의 응용 프로그램(application)을 의미하며, 예를 들어, 모바일 단말(스마트폰)에서 실행되는 앱(app)을 포함한다.
도 2를 통하여 본 발명의 정체성 분석 서비스를 설명하기 이전에, 게놈 분석에 대한 개념을 간략히 설명하기로 한다.
생물의 특성을 결정하는 것은 유전자에 있고 이유전자는 DNA 염기 서열에 따라서 결정된다. 따라서 DNA 염기 서열을 분석하는 것은 생명체 정보분석의 가장 기본이라 할 수 있다. 이때, 시퀀싱 과정을 통해 나온 로우(Raw) 데이터는 중간 생성 파일등을 포함해서 일반적으로 1 TB(작은 생물체) 이상으로 생성된다. 계산생물학에서는 이렇게 생성한 로우 데이터의 short read들을 이용하여 일종의 퍼즐 맞추기 게임과 같은 어셈블리 작업을 시작한다. WGS(Whole Genome Sequencing)에서 어셈블리는 아주 작은 하나의 게놈 보다도 작은 read들을 이용하여 임의의 위치에 있는 read들을 over-sampling을 통하여 최종적으로 목적 게놈으로 구성하는 것이 목표이다. 하지만 WGS 처리는 높은 계산 복잡도를 요구하기 때문에 데이터를 효율적으로 사용하기 위해서는 복잡한 처리과정이 필요하다.
어셈블리를 하기위해서는 크게 두 가지의 알고리즘으로 분류할 수 있다. 그래프 오버랩을 이용하는 OLC(Overlap/Layout/Consensus)와 K-mer를 통하여 생성한 그래프를 이용하는 DBG(De Bruijin Graph) 방식이다. OLC는 read들의 오버랩된 그래프를 이용하여 표현하는데 그래프를 구성하기 위해서는 먼저 시퀀스간 정렬을 통하여 오버랩을 계산하여야 한다. 이 방식은 Sanger 시퀀싱 방식과 같이 긴 read들에 주로 사용되고 있으며 Celera assembler, AMOS, Phrap, Newbler등의 알고리즘들이 있다. DBG방식의 알고리즘은 고정 크기 스트링의 모든 가능한 서브 스트링을 그래프 표현한 것으로 간선은 suffix-to-prefix의 완벽한 오버랩으로 연결되며 이그래프를 이용하여 read들의 연결을 확장한다. DBG 알고리즘은 25-100bp 정도 크기의 read들을 목표로 하고 있으며 시컨스간 정렬을 하지 않기 때문에 어셈블리 계산이 OLC보다 단축되지만 K-mer의 오류가 그래프를 부정확하게 만들 수 있고 K-mer는 시퀀싱 오류에 민감해질 수 있다. 반면에 OLC는 overlap, layout, consensus 단계로 구성되기 때문에 알고리즘 모듈화를 구성하기 용이하여 모듈별 최적화가 가능하지만 오버랩 단계에서 매우 많은 시간과 계산 비용을 필요로 한다.
상술한 기본 개념을 바탕으로 도 2를 통하여 본 발명의 일 실시예를 설명하기로 한다.
검형부(310)는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형을 실시할 수 있다. 이때, 피검자의 DNA 시료는, 혈액, 타액, 구강상피세포 등으로부터 채취한 시료이며, 이 DNA 시료로부터 DNA를 추출하고, 전장유전체해독 및 DNA 칩(Chip) 방식으로 유전형 정보를 생산할 수 있다. 해독 및 유전형 생산 방식은 상용화된 다양한 플랫폼이 이용될 수 있으며, 어느 하나의 실험방법이나 플랫폼으로 한정하지는 않는다.
추출부(320)는, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출할 수 있다. 이때, 기 구축된 국가, 민족, 및 인종별 표준게놈지도는, 적어도 하나의 국가, 민족, 및 인종별 유전자 샘플을 적어도 하나의 종류의 해독법(Sequencing)으로 해독한 후, MDS(Multiple Dimensional Scaling) 또는 PCA(Principle Component Analysis)를 이용하여 대표 샘플을 선정함으로써 구축될 수 있다. 여기서, 본 출원인의 한국등록특허 제10-1930253호(2018년12월18일 공고)에 개시된 컨센서스(Consensus) 방법이 이용될 수도 있고, 하나의 표준 게놈을 이용할 수도 있으며, 서열을 해독하고 조립하는 방법은 어느 하나의 방법에 한정하지는 않는다. 신해독(De novo) 방법 뿐만 아니라, 재해독(Re-Sequencing)을 통한 방법도 가능하다. 여기서, 대표 샘플은 1인의 샘플 내지 1000인의 샘플일 수 있으나, 이에 한정하지는 않는다.
이때, 국가, 민족, 및 인종별 표준게놈지도는, 빅데이터와 같이 처리 및 저장될 수 있다. 일반적으로 빅데이터는 툴을 이용하여 데스크탑이나 워크스테이션에서 일반적인 시간 내에 데이터를 분석할 수 있는 것이 아니라 특정한 알고리즘과 아주 강력한 컴퓨팅 파워를 이용해야 계산이 가능한 것을 의미한다. 인간 게놈 프로젝트를 시작으로 DNA분석이 더욱 저렴해지면서 게놈 정보를 생산하는 가격이 계속 감소하고 있다. 그에 따라서 과거와 비교할 수 없을 정도의 수많은 게놈 정보가 생산되고 있으며, NGS 과정을 통하여 생산된 데이터는 게놈 어셈블리, BLAST, 게놈 주석 처리 등의 실험을 위해서는 슈퍼컴퓨터 같은 고성능 컴퓨터가 요구되고 있다. 게놈 어셈블리는 기존에 알려지지 않은 게놈 서열을 분석하는 De Novo Assembly와 참조 서열에 매핑하는 Reference Assembly으로 나뉜다. 매핑의 과정으로는 서열 인덱싱, 검색, 정렬, 매핑, 페어링, 서열추출과정을 거쳐 최종적인 전체 게놈 시퀀스를 추출할 수 있다. 이때, 인간 게놈 프로젝트의 30억 bp의 참조 서열에 NGS를 통해 생성된 다량의 100bp정도의 read들을 빠른 시간 내에 매핑 처리를 하기 위해서 다양한 형식의 인덱싱 기법을 이용할 수 있다. 예를 들어, 짧은 read들의 정렬 알고리즘으로 참조 서열의 해쉬 테이블과 비교하여 매핑을 하거나, LF 매핑을 이용하여 인덱싱을 통한 메모리 공간을 줄일 수도 있고, 클라우드 컴퓨팅 환경에서 대용량 자료를 처리하기 위해서 병렬처리를 알고리즘을 적용할 수도 있다.
이때, 본 발명의 일 실시예에 따른 방법에서는, cDNA(complementary DNA) 라이브러리를 더 제작할 수도 있다. 모든 생물의 유전현상의 핵심은 유전정보의 흐름으로 나타나고, 이 유전정보의 흐름은 기존 DNA에서 새로운 DNA를 생성하는 복제 과정(Replication), DNA를 주형으로 삼아 RNA를 생성하는 전사 과정 (Transcription), RNA에서 단백질을 생성하는 번역 과정(Translation)으로 나누어져있다. 복제 과정은 DNA 속에 저장되어 있는 유전정보를 다음 세대로 전달하기 위해 DNA 서열 자체를 복제하는 과정이다. 전사 과정은 DNA 속에 저장되어 있는 유전정보를 RNA로 이동시키는 단계로, 이때 생성된 RNA를 mRNA라고 한다. 전사과정을 통해 mRNA로 옮겨진 유전정보는 번역 과정으로 통해 아미노산으로 번역되고 펩타이드 결합을 이루면서 단백질 형태로 변환된다. 한 개체의 모든 세포는 동일한 유전체를 지니고 있지만 특정한 세포, 조직, 기관에 따라 발현되는 유전자의 종류나 발현량은 각기 다르다. 유전자가 발현되려면 mRNA로 전사가 일어나야하기 때문에 일반적으로 세포 내의 mRNA 양은 그 유전자의 발현되는 정도와 비례한다. 각 기관별로 특이적으로 발현되는 유전자와 모든 기관에서 발현되는 유전자가 무엇인지 알 수 있다면 각 기관의 기능 및 특성을 이해하고 나아가 질병의 예방 및 치료에 도움이 될 수 있으므로, 각 조직이나 기관에서 발현되는 mRNA를 분리하여 조직 특이적인 cDNA(complementary DNA) 라이브러리를 더 제작할 수 있다.
cDNA는 mRNA를 주형으로 역전사 효소와 DNA polymerase에 의해 합성된 DNA를 말하며, 이는 mRNA에 상보적 배열을 가지므로 상보적 DNA라고 불린다. 대량의 cDNA 라이브러리의 분석은 유전자와 단백질의 기능적 유전체 연구에 사용되어 왔고, 따라서, 포괄적인 비 중복 cDNA의 생산은 인간 및 모델 동물 생물체의 유전체 연구에 중요한 목표이다. 이때, 특정 cDNA 서열을 분석하고자 할 때, 주로 NCBI, Ensembl, DDBJ, UCSC 등 공용 데이터베이스에서 제공하는 웹 기반 검색 프로그램을 사용하지만, 이러한 시스템들은 자원의 한계, 속도 저하 등의 이유로 분석 데이터의 업로드 용량과 수량에 제한을 두고 있으며, 유전자의 기능적 분석을 하기 위해 또 다른 웹 데이터베이스를 검색해야 하는 어려움이 존재한다.
따라서, 본 발명의 일 실시예에서는, 대용량 cDNA 라이브러리 자동화 분석 파이프라인을 더 구비할 수도 있다. 적어도 하나의 관리자 단말(400)에서 수집된 각 유전자 샘플로, cDNA 라이브러리 구축 후, 대용량 염기서열 데이터를 쉽게 처리하지 못하는 문제를 해결하기 위하여, 분석 파이프라인은 첫 번째로, 시퀀싱 데이터의 전처리 과정, 두 번째로, 참조 서열과 비교하는 BLAST 과정, 세 번째로, 전장 cDNA 구조를 확인하는 과정, 네 번째로, 기능 분석 과정, 마지막으로 데이터베이스화 과정을 포함할 수 있다. 이때, 이미 전처리가 된 cDNA 라이브러리는 두 번째 과정부터 진행할 수 있다.
먼저, cDNA 라이브러리 시퀀싱 데이터의 전처리는 시퀀싱 머신에서 결과로 제공하는 이미지 파일을 컴퓨터로 처리할 수 있는 서열파일로 변환 후, Phred score 20 이상(시퀀싱 정확도 99%)으로 확실한 서열만 추출하고 cDNA 본연의 서열이 아닌 벡터서열은 제거하는 과정이다. 깨끗한 서열이 얻어지면, 그 다음 단계로 참조 서열 데이터베이스에 대조하여 해당 cDNA가 어떤 유전자인지 확인하게 된다. 여기서 사용되는 데이터베이스는 두 가지인데, 먼저 표준 참조서열 데이터베이스 (RefSeq DB)에서 cDNA의 참조 유전자를 확인하고 첫 번째 데이터베이스에서 결과가 없거나 서열의 유사성이 낮은 cDNA는 유니진 데이터베이스(UniGene DB)와 비교하여 참조 유전자를 찾아낼 수 있다. 세 번째 과정은, 전장 cDNA 구조 여부를 확인하는 단계이다. 각 cDNA는 참조 유전자 서열과 대조하여 Full length CDS, Full Candidate, Partial CDS, Non-CDS, Unknown으로 분류된다. Full length CDS는 coding sequence(CDS)의 개시 코돈을 포함하며 벡터 서열로 시퀀싱이 끝나거나 서열에 poly-A를 포함한다. Full Candidate는 5′ UTR이나 개시 코돈을 포함하고 있지만 벡터 서열이나 poly-A 없이 CDS 중간 영역까지 시퀀싱된 cDNA로 분류할 수 있다. 또, 참조 유전자의 CDS를 부분적으로 포함하고 있지만 개시코돈이 포함되지 않은 cDNA 들은 모두 Partial CDS로 할당하고, CDS가 없는 유전자로 정의된 cDNA는 NonCDS, BLAST 결과가 없는 cDNA는 Unknown으로 분류할 수 있다.
전장 cDNA를 얻은 후에 참조 유전자 서열과 대조하여 선택적 스플라이싱 구조와 변이(SNP, INDEL)를 찾고, 시각적으로 볼 수 있는 정렬 파일을 만들어 사용자가 직접 확인할 수 있도록 한다. 네 번째로, 참조 유전자가 할당된 cDNA는 기능 분석을 위해 유전자 정보, Gene Ontology(GO), Cytoband, OMIM 등 추가 주석이나 태그를 태깅할 수 있다. 마지막으로 모든 분석이 완료되면 cDNA 라이브러리 분석 정보를 데이터베이스화하여 체계적으로 관리가 가능하다. 물론, 상술한 방법으로 cDNA 라이브러리를 구축하지 않아도 되고, 라이브러리 자체를 구축하지 않아도 본 발명의 정체성 분석에는 문제가 없다. 다만, 상술한 표준게놈지도를 구축하면서, 수집된 유전자 샘플로 cDNA 라이브러리를 함께 구축하는 경우, 각 국가별, 민족별, 및 인종별로, 완전한 서열을 가진 포괄적인 비 중복 전장 cDNA의 생산이 가능해지고, 유전자의 exon, intron 구조를 정확하게 결정하는 중요한 자원으로써 가치가 있다. 특히, 선택적 스플라이싱 형태 및 저 발현 유전자가 RNA 시퀀싱의 염기서열 분석에 의해 재구성되기 어려운 경우 더욱 중요한 자원으로 이용될 수 있다.
정렬부(330)는, 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 수 있다. 정렬부(330)에서 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 때, 변이율은 변이 수(Number)에 기반할 수 있다. 이때, 변이 수는, 단염기다형성(Single Nucleotide Polymorphism), 삽입결실(Indels), 복제수변이(Copy-Number Variation), 및 게놈구조적변이(Structural Variation) 중 어느 하나 또는 적어도 하나의 조합에 의해 카운팅될 수 있다. 여기서, 적어도 하나의 조합이 이루어지는 경우, 단염기다형성, 삽입결실, 복제수변이, 및 게놈구조적변이 중 어느 하나가 피검자의 DNA 시료에서 발견되면, 기 설정된 가중치(Weighting)를 부여하여 전체 변이의 수인 변이 수를 보정할 수 있다. 예를 들어, 피검자의 DNA 시료로부터 추출된 DNA 서열에서, SV, 즉 게놈구조적변이가 존재하는 경우, 게놈구조적변이가 존재한다는 사실에 가중치를 부여한 후, 이를 단염기다형성 정보에 추가하여 전체 변이의 수를 보정할 수 있다.
이때, 국가, 민족, 및 인종별 표준게놈지도와, 피검자의 DNA 서열에서 동시에 발견되는 변이는, 해당 국가, 민족, 및 인종에 공통적인 유전적 특성이다. 이에 반하여, 특정 국가, 민족, 및 인종별 표준게놈지도와, 피검자의 DNA 서열에서 발견된 변이는 특정 국가, 민족, 및 인종의 고유한 유전적 특성이라고 볼 수 있다. 이러한 정보를 통합하고 분석함으로써 피검자의 유전적 구성이 어떠한지, 어느 국가, 민족, 및 인종에 가까운지, 어느 조상을 가졌는지를 확인할 수 있는 것이다. 예를 들어, A,B,C,D 국가와, 피검자의 DNA 서열에서 공통적으로 동시에 발견된 변이 [1]이 존재한다면, A,B,C,D 국가와 피검자에게서 모두 발견되는 변이로 정의할 수 있다. 이에 반하여, E 국가와, 피검자의 DNA 서열에서만 동시에 발견된 변이 [2]가 존재한다면, 이는 E 국가의 고유한 유전적 특성이라고 할 수 있다. 이에 따라, 피검자는 [2] 변이를 가진 E 국가의 국민일 가능성이 높아지는 것이다.
이와 같이, 정렬부(330)에서 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬할 때, 변이가 발생된 서열을 이용하여 국가, 민족, 및 인종별 표준게놈지도의 서열의 변이와의 유사도를 측정할 수 있다. 이때, 매핑 유사도는, 서열이 양 데이터 간 유사한 정도, 예를 들어, A 피검자의 B 서열과, C 표준게놈지도의 B 서열이 동일하고, 전체 서열 중 B 서열이 차지하는 비중이 10%라고 가정하면, A 피검자는 C 표준게놈지도와 유사성이 10%일 수 있다. 여기서, 표준게놈지도는, 각 국가별, 민족별, 인종별로 구분되어 있으므로, 이를 각각 모두 비교해야 총체적인 유사도가 계산될 수 있음은 자명하다 할 것이다.
도출부(340)는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출할 수 있다. 예를 들어, A 피검자가 B 국가와 유사도가 40%, C 국가와 유사도가 30%, D 국가와 유사도가 20%, E 국가와 유사도가 10%라고 가정하면, B-C-D-E 순의 정체성을 가질 수 있다. 즉, A 피검자는, B 국가 국민일 가능성이 40%, C 국가의 국민일 가능성이 30%, D 국가의 국민일 가능성이 20%, E 국가의 국민일 가능성이 10%인 것이다. 마찬가지로, 각 민족이나 인종에 대해서도 각각의 퍼센테이지로 백인일 가능성, 황인일 가능성, 흑인일 가능성, 인디언일 가능성 등을 추출해낼 수 있다. 자신은 아시안이라고 생각했지만, 자신의 유전자에 흑인의 유전자가 25% 포함되어 있다면, 자신의 조상 중 흑인이 존재했을 가능성을 유추해볼 수 있고, 유전적 동일성을 파악할 수 있게 된다. 따라서, 도출부(340)는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출할 때, 유사도가 최고값을 가지는 국가, 민족, 및 인종을 피검자의 국가, 민족, 및 인종으로 판단할 수 있다.
이때, 도출부(340)는, 국가, 민족, 및 인종의 특징을 이용하여 피검자의 DNA 시료를 분류하는 인공지능 알고리즘을 이용할 수도 있다. 예를 들어, 비감독 학습(Unsupervised Learning) 기반의 클러스터링 알고리즘을 이용하여, 같은 군집 내에 속한 표본들끼리는 유사성이 높고, 서로 다른 군집 간에 속하는 표본들끼리는 유사성을 작게 하는 방법을 이용할 수 있다. 클러스터링 알고리즘을 이용하는 경우, 국가, 민족, 및 인종 간 유전자의 상호 관련성을 쉽게 분석할 수 있다. 이때, 클러스터 분석(Cluster Analysis)은, 비슷한 특성을 가진 객체를 합쳐가면서 최종적으로 유사 특성의 그룹을 발굴하는데 사용될 수 있는데, 예를 들어, A 국가의 그룹과, B 국가의 그룹이 존재할 수 있다. 이러한 피검자의 그룹을 군집분석을 통하여 분류할 수 있도록 하고, 군집의 특성을 파악하여 이후 신규 검사가 의뢰된 경우, 신규 피검자의 객체를 분류해낼 수 있다.
또는, 은닉 마르코프 모델과 SVM 모델을 결합하여 클러스터링 함으로써 더 효율적인 분류 결과를 얻을 수도 있고, likelihood를 최댓점을 사용하여 매개 변수 학습 효과를 통해 국가, 민족, 및 인종의 특징을 분류하고 서포트 벡터 머신(Support Vector Machine)을 통하여 피검자의 DNA 시료를 분류 및 분석할 수 있다. 이때, 신경회로망 SOM(Self-Organizing Maps) 알고리즘을 이용할 수 있다. 이는, 클러스터의 개수가 알려져 있을 때 주어진 다차원 데이터들을 가장 근접한 클러스터에 사상(mapping)시켜주는 방법이다. Elastic network를 구성하는 map에 임의로 선택한 원소를 입력하여, 동시에 map의 가중치(weight)를 반복적으로 수정하여 입력 데이터들의 클러스터 이동이 없을 때까지 반복한다. 가중치 벡터의 갱신을 위해서 사용되는 가중치 벡터 갱신 함수는 학습율로서 0과 1의 값을 가지게 되며 가중치 수정시에 승자 뉴런과 함께 재조정된다.
가중치 벡터 갱신 함수에 따라 각 출력 노드의 가중치 벡터는 그 출력 노드에 포함된(그 출력 노드를 승자로 택한) 입력 데이터 방향으로 이동하게 된다. 이 움직임의 변화는 초기에는 매우 산만하나, 입력 벡터의 수가 어느 정도 이상이 되면 거의 변하지 않고 안정화된다. 이 방법은 복잡한 다차원 데이터 클러스터링에 알맞으면서 결과의 가시화가 쉽고, 클러스터링 결과를 사용자가 제어할 수 있다. 또, 서포트 벡터 머신은, 선형으로 나눌 수 없는 경우에는 커널함수(kernel function)를 이용하여 고차원에 전사시키는 방법으로 비선형적인 초평면을 형성시킨다. 비선형의 경우 선형에서와 같은 계산을 하기 위해서 커널함수 내적의 계산이 요구될 수 있다. 공간에서의 선형 분리 초평면은 원래의 공간에서 비선형 분리 함수로 얻을 수 있다. 커널함수의 선택에 따라 초평면의 형태가 다양하게 바뀌므로 적절한 커널함수의 선택이 이루어져야 한다. 커널함수의 선택은 아직까지 그 선택 기준이 없는 단점을 가지고 있어서 데이터에 따라 그 결과가 다르게 나타나는데, 예를 들어, 가우시안(Gaussian) RBF 커널을 이용할 수 있다.
상술한 인공지능 알고리즘을 이용하여 빅데이터를 모델링하는 경우, 질의(Query)가 입력되었을 때, 결과값인 국가, 민족, 및 인종의 퍼센테이지가 각각 출력될 수 있다. 이를 위하여, 원하는 결과값이 나오도록 학습, 훈련, 및 테스트하는 과정이 요구된다. 이때, 클러스터링 알고리즘을 이용하지만, 표준화 데이터 확률을 계산하는 절차에서는, 다양한 유사성 척도 중에서 유클리디안 유사도 및 코사인 관계식을 이용할 수 있지만, 이에 한정되는 것은 아니다.
구성부(350)는, 도출부(340)에서 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출한 후, 정렬된 유사도의 합을 평균화하여 국가, 민족, 및 인종별 퍼센트를 산출하고, 산출된 퍼센트에 따라 국가, 민족, 및 인종의 구성비율을 출력할 수 있다. 이때, 기 구축된 국가, 민족, 및 인종별 표준게놈지도는, 현재에 생존하는 인간의 유전자 샘플 뿐만 아니라, 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도일 수 있다. 이에 따라, 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도와, 피검자의 DNA 시료 간의 매핑 및 유사도 산출을 통하여 피검자의 조상이 도출될 수 있다.
예를 들어, 옛사람의 뼈를 분자유전학적으로 분석하는 경우, 예를 들어, 몽골 샤하르톨고이 지역의 흉노 적색분에서 출토된 옛사람의 뼈가 노출되었다고 가정하자. 이때, 추출된 DNA가 3.9533pg/ul의 정량값이 측정되었고, 성별은 형질인류학과 아멜로제닌 유전자 분석으로 여성으로 판별되었고, 미토콘드리아 DNA 하플로그룹은 U4a2에 속하였으며, 상염색체 STR 분석 결과 9좌위 모두 분석값이 나왔다고 가정하면, 혈연관계까지 함께 분석 및 표준게놈지도의 데이터베이스화가 가능하다. 이렇게 유적지에서 발굴된 미이라나 토기 또는 무덤 등에서 발굴된 DNA를 이용하여 표준게놈지도를 만드는 경우, 만들어진 표준게놈지도와 피검자의 DNA 시료를 비교분석, 즉 매핑하는 과정을 통하여 피검자의 조상을 알아낼 수 있게 된다.
이하, 상술한 도 2의 정체성 분석 서비스 제공 서버의 구성에 따른 동작 과정을 도 3을 예로 들어 상세히 설명하기로 한다. 다만, 실시예는 본 발명의 다양한 실시예 중 어느 하나일 뿐, 이에 한정되지 않음은 자명하다 할 것이다.
도 3을 참조하면, (a) 정체성 분석 서비스 제공 서버(300)는 적어도 하나의 관리자 단말(400)로부터 적어도 하나의 국가, 민족, 및 인종에 대한 유전자 샘플을 해독한 결과를 수집하고, 이 중 대표 샘플을 선정하여 표준게놈지도를 구축한다. 이때, (b) 피검자의 DNA 시료를 추출한 경우, 정체성 분석 서비스 제공 서버(300)는, 염기서열분석을 실시하고, 표준게놈지도에 매핑하며, 서열을 비교하고 변이를 추출하는 과정을 통하여 어느 국가의 사람인이 몇 퍼센트가 섞였는지, 어느 민족의 유전자가 몇 퍼센트인지, 어느 인종의 유전자가 몇 퍼센트인지를 각각 출력하게 된다.
(c) 그리고, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(100)로 그 결과를 전송하는데, 관리자 단말(400)의 검수 후 전송이 될 수도 있으나 이를 검수가 진행되지 않는 것을 배제하는 것은 아니다. 이렇게 검사를 진행하는 경우, 종래에 인간의 게놈지도와 피검자를 비교하고, 또 게놈지도와 비교샘플을 하나하나 비교해야 했던 과정을 반복적으로 수행하지 않아도 된다. 즉, 본 발명의 일 실시예에는, 비교대상이 되는 모든 국가, 민족, 및 인종에서 유전형이 확인되는 영역의 변이를 피검사자와 비교함으로써, 표준게놈 구축시 사용된 데이터의 생산방법에 의해 편향될 수 있는(대표 샘플 선정 과정 등에서 발생하는 편향성) 변이를 배제하고, 피검자의 DNA 시료를 해독하는 것만으로도 비교가능한 영역을 최대한 활용할 수 있으며, 비교하려는 전체 집단에 대한 불필요한 재해독 비용을 방지할 수 있게 된다.
예를 들어, 한국 민족에 속한다고 생각하는 A 피검자의 한국인의 게놈을 해독하거나, 유전자 칩으로 검사하여 그 사람의 유전자 변이를 확보한다고 가정하자. 이때, 유전자 변이는, 인간 표준게놈을 이용할 수도 있고, 한국인의 표준게놈을 이용할 수도 있다. 이렇게 추출된 변이를 가지고, 300개의 민족별 표준게놈을 비교하는 경우, 민족별 표준게놈과 피검자의 변이를 비교하여 유사도를 측정한다(피검자VS민족별 표준게놈). 이때, 가장 높은 유사도를 가지는 표준게놈이, 한국인의 표준게놈이라면, A는 한국인이 조상이라고 판단할 수 있다. 또, 유사도가 수치로 산출되므로, 한국인이 70%인 사람과, 한국인이 60%인 사람은 같은 한국인을 조상으로 하고 있지만 그 정도는 다르다. 또, A가 한국인의 표준게놈에 가까운 정도가 많을 수 있는데, 이 수치들의 합을 평균화하여 한국인의 유사도를 300개의 표준게놈과 비교함으로써, A가 속하는 다른 민족의 구성비율도 구할 수 있다.
이와 같은 도 2 및 도 3의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1을 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 4는 본 발명의 일 실시예에 따른 도 1의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 시스템에 포함된 각 구성들 상호 간에 데이터가 송수신되는 과정을 나타낸 도면이다. 이하, 도 4를 통해 각 구성들 상호간에 데이터가 송수신되는 과정의 일 예를 설명할 것이나, 이와 같은 실시예로 본원이 한정 해석되는 것은 아니며, 앞서 설명한 다양한 실시예들에 따라 도 4에 도시된 데이터가 송수신되는 과정이 변경될 수 있음은 기술분야에 속하는 당업자에게 자명하다.
도 4를 참조하면, 정체성 분석 서비스 제공 서버(300)는, 적어도 하나의 관리자 단말(400)로부터 유전자 샘플에 대한 데이터를 입력받고(S4100), 국가, 민족, 인종별 유전자를 해독하며(S4200), 그 중 대표 샘플을 선정함으로써(S4300), 표준게놈지도를 구축한다(S4400).
이때, 정체성 분석 서비스 제공 서버(300)는, 피검자 단말(400)로부터 검사를 의뢰받으면(S4200), 관리자 단말(400)로부터 피검자의 DNA 시료에 대한 데이터를 입력받고(S4300), 표준게놈지도와 DNA 시료 간의 비교를 시작한다(S4400). 여기서, 정체성 분석 서비스 제공 서버(300)는, 서열의 매핑율, 즉 일치하는 정도와, 변이율, 변이가 되었는지, 변이가 일치하는 정도는 어느 정도인지 등을 각각 산출하고(S4710), 유사도로 정렬하고(S4800), 국가, 민족, 및 인종별 퍼센테이지를 각각 산출함으로써(S4900), 피검자 단말(100)로 검사 결과를 제공할 수 있다(S4920).
상술한 단계들(S4100~S4920)간의 순서는 예시일 뿐, 이에 한정되지 않는다. 즉, 상술한 단계들(S4100~S4920)간의 순서는 상호 변동될 수 있으며, 이중 일부 단계들은 동시에 실행되거나 삭제될 수도 있다.
이와 같은 도 4의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 3을 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5는 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법을 설명하기 위한 동작 흐름도이다. 도 5를 참조하면, 정체성 분석 서비스 제공 서버는, 피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계를 진행한다(S5100).
그리고, 정체성 분석 서비스 제공 서버는, 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하고(S5200), 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 피검자의 유전형 정보와 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬한다(S5300).
마지막으로, 정체성 분석 서비스 제공 서버는, 정렬된 유사도에 기반하여 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출한다(S5400).
이와 같은 도 5의 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대해서 설명되지 아니한 사항은 앞서 도 1 내지 도 4를 통해 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법에 대하여 설명된 내용과 동일하거나 설명된 내용으로부터 용이하게 유추 가능하므로 이하 설명을 생략하도록 한다.
도 5를 통해 설명된 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은, 컴퓨터에 의해 실행되는 애플리케이션이나 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다.
전술한 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은, 단말기에 기본적으로 설치된 애플리케이션(이는 단말기에 기본적으로 탑재된 플랫폼이나 운영체제 등에 포함된 프로그램을 포함할 수 있음)에 의해 실행될 수 있고, 사용자가 애플리케이션 스토어 서버, 애플리케이션 또는 해당 서비스와 관련된 웹 서버 등의 애플리케이션 제공 서버를 통해 마스터 단말기에 직접 설치한 애플리케이션(즉, 프로그램)에 의해 실행될 수도 있다. 이러한 의미에서, 전술한 본 발명의 일 실시예에 따른 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법은 단말기에 기본적으로 설치되거나 사용자에 의해 직접 설치된 애플리케이션(즉, 프로그램)으로 구현되고 단말기에 등의 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 정체성 분석 서비스 제공 서버에서 실행되는 정체성 분석 서비스 제공 방법에 있어서,
    피검자로부터 추출된 DNA 시료로부터 유전형 정보를 생산하는 검형 단계;
    상기 유전형 정보를 기 구축된 국가, 민족, 및 인종별 표준게놈지도에 매핑(Mapping)한 후, 서열(Sequences)을 비교하여 변이(Variants)를 추출하는 단계;
    상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계; 및
    상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계;
    를 포함하는 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  2. 제 1 항에 있어서,
    상기 기 구축된 국가, 민족, 및 인종별 표준게놈지도는,
    적어도 하나의 국가, 민족, 및 인종별 유전자 샘플을 적어도 하나의 종류의 해독법(Sequencing)으로 해독한 후, MDS(Multiple Dimensional Scaling) 또는 PCA(Principle Component Analysis)를 이용하여 대표 샘플을 선정함으로써 구축되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  3. 제 1 항에 있어서,
    상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계에서,
    상기 변이율은 변이 수(Number)에 기반하고, 상기 변이 수는, 단염기다형성(Single Nucleotide Polymorphism), 삽입결실(Indels), 복제수변이(Copy-Number Variation), 및 게놈구조적변이(Structural Variation) 중 어느 하나 또는 적어도 하나의 조합에 의해 카운팅되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  4. 제 3 항에 있어서,
    상기 적어도 하나의 조합이 이루어지는 경우, 단염기다형성, 삽입결실, 복제수변이, 및 게놈구조적변이 중 어느 하나가 상기 피검자의 DNA 시료에서 발견되면, 기 설정된 가중치(Weighting)를 부여하여 전체 변이의 수인 변이 수를 보정하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  5. 제 1 항에 있어서,
    상기 서열의 매핑율(Sequence Mapping Rate) 및 변이율(Variant Rate)에 기초하여 상기 피검자의 유전형 정보와 상기 국가, 민족, 및 인종별 표준게놈지도의 유사도를 정렬하는 단계는,
    상기 변이가 발생된 서열을 이용하여 상기 국가, 민족, 및 인종별 표준게놈지도의 서열의 변이와의 유사도를 측정하는 단계;
    를 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  6. 제 1 항에 있어서,
    상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계는,
    상기 유사도가 최고값을 가지는 국가, 민족, 및 인종을 상기 피검자의 국가, 민족, 및 인종으로 판단하는 단계;
    를 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  7. 제 1 항에 있어서,
    상기 정렬된 유사도에 기반하여 상기 피검자의 국가, 민족, 및 인종을 포함한 정체성을 도출하는 단계 이후에,
    상기 정렬된 유사도의 합을 평균화하여 국가, 민족, 및 인종별 퍼센트를 산출하고, 상기 산출된 퍼센트에 따라 국가, 민족, 및 인종의 구성비율을 출력하는 단계;
    를 더 포함하는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  8. 제 1 항에 있어서,
    상기 기 구축된 국가, 민족, 및 인종별 표준게놈지도는,
    현재에 생존하는 인간의 유전자 샘플 및 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도인 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  9. 제 8 항에 있어서,
    상기 과거에 존재했던 인간의 유전자 샘플로부터 구축된 지도와, 상기 피검자의 DNA 시료 간의 매핑 및 유사도 산출을 통하여 상기 피검자의 조상이 도출되는 것인, 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법.
  10. 제 1 항 내지 제 9 항 중 어느 한 항의 방법을 실행하기 위한 프로그램을 기록한 컴퓨터로 판독가능한 기록매체.
PCT/KR2020/019240 2020-01-02 2020-12-28 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법 WO2021137563A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2020-0000398 2020-01-02
KR1020200000398A KR102138165B1 (ko) 2020-01-02 2020-01-02 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

Publications (1)

Publication Number Publication Date
WO2021137563A1 true WO2021137563A1 (ko) 2021-07-08

Family

ID=71893984

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2020/019240 WO2021137563A1 (ko) 2020-01-02 2020-12-28 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

Country Status (2)

Country Link
KR (1) KR102138165B1 (ko)
WO (1) WO2021137563A1 (ko)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102138165B1 (ko) * 2020-01-02 2020-07-27 주식회사 클리노믹스 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법
KR102405758B1 (ko) 2021-11-19 2022-06-08 주식회사 클리노믹스 집단과 질병군, 품종 등의 혼합체 또는 잡종의 특이적 표준게놈 데이터 생성과 유전적 집단 구성 판별 시스템 및 방법
KR102529401B1 (ko) * 2022-10-26 2023-05-08 주식회사 쓰리빌리언 변이 출현 빈도를 이용한 인종 예측 시스템 및 방법

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090105921A (ko) * 2006-11-30 2009-10-07 네이비제닉스 인크. 유전자 분석 시스템 및 방법
US7729863B2 (en) * 2003-12-17 2010-06-01 Fred Hutchinson Cancer Research Center Methods and materials for canine breed identification
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
KR20170141059A (ko) * 2016-06-14 2017-12-22 제노플랜코리아 주식회사 유전자 데이터와 환경 데이터 기반의 비만위험도 추정 방법 및 장치
KR102138165B1 (ko) * 2020-01-02 2020-07-27 주식회사 클리노믹스 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7729863B2 (en) * 2003-12-17 2010-06-01 Fred Hutchinson Cancer Research Center Methods and materials for canine breed identification
KR20090105921A (ko) * 2006-11-30 2009-10-07 네이비제닉스 인크. 유전자 분석 시스템 및 방법
JP2016048251A (ja) * 2010-07-05 2016-04-07 ソニー株式会社 生体情報処理方法および装置、並びに記録媒体
KR20170141059A (ko) * 2016-06-14 2017-12-22 제노플랜코리아 주식회사 유전자 데이터와 환경 데이터 기반의 비만위험도 추정 방법 및 장치
KR102138165B1 (ko) * 2020-01-02 2020-07-27 주식회사 클리노믹스 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CARAMEL QUIN: "Hands-on review: AncestryDNA test kit", 18 November 2019 (2019-11-18), pages 1 - 6, XP055825582, Retrieved from the Internet <URL:https://eandt.theiet.org/content/articles/2019/11/hands-on-review-ancestrydna-test-kit/> *
TAO HUANG, YANG SHU , YU-DONG CAI: "Genetic differences among ethnic groups", BMC GENOMICS, vol. 16, no. 1, 1093, 21 December 2015 (2015-12-21), pages 1 - 10, XP055700079, DOI: 10.1186/s12864-015-2328-0 *

Also Published As

Publication number Publication date
KR102138165B1 (ko) 2020-07-27

Similar Documents

Publication Publication Date Title
Nissen et al. Improved metagenome binning and assembly using deep variational autoencoders
WO2021137563A1 (ko) 국가, 민족, 및 인종별 표준게놈지도를 이용한 정체성 분석 서비스 제공 방법
Hou et al. DeepSF: deep convolutional neural network for mapping protein sequences to folds
Collins et al. The human genome project
JP2017500004A (ja) 遺伝子試料について遺伝子型解析するための方法およびシステム
Makałowski et al. Bioinformatics of nanopore sequencing
Molidor et al. New trends in bioinformatics: from genome sequence to personalized medicine
Arowolo et al. Optimized hybrid investigative based dimensionality reduction methods for malaria vector using KNN classifier
US8972406B2 (en) Generating epigenetic cohorts through clustering of epigenetic surprisal data based on parameters
CN111710364B (zh) 一种菌群标记物的获取方法、装置、终端及存储介质
Shekhar et al. Identification of cell types from single-cell transcriptomic data
Ringeling et al. Linear-time cluster ensembles of large-scale single-cell RNA-seq and multimodal data
Nayak et al. Quality Control Pipeline for Next Generation Sequencing Data Analysis
Özgür et al. Application of deep learning technique in next generation sequence experiments
Seal et al. CASSL: A cell-type annotation method for single cell transcriptomics data using semi-supervised learning
Sofi et al. Bioinformatics for everyone
Alquran et al. A comprehensive framework for advanced protein classification and function prediction using synergistic approaches: Integrating bispectral analysis, machine learning, and deep learning
Zheng et al. Methods for evaluating unsupervised vector representations of genomic regions
Wang et al. Poisson-based self-organizing feature maps and hierarchical clustering for serial analysis of gene expression data
Alberink et al. Repeatability and reproducibility of earprint acquisition
Gudodagi et al. Investigations and Compression of Genomic Data
Álvarez-Jarreta et al. MEvoLib v1. 0: the first molecular evolution library for Python
Yu et al. Revisit of machine learning supported biological and biomedical studies
Burt Comparative mapping in farm animals
Davis et al. Understanding cellular function and disease with comparative pathway analysis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20908937

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 20908937

Country of ref document: EP

Kind code of ref document: A1