KR20210129977A - Method for making individual reference genome map and system thereof - Google Patents

Method for making individual reference genome map and system thereof Download PDF

Info

Publication number
KR20210129977A
KR20210129977A KR1020200048171A KR20200048171A KR20210129977A KR 20210129977 A KR20210129977 A KR 20210129977A KR 1020200048171 A KR1020200048171 A KR 1020200048171A KR 20200048171 A KR20200048171 A KR 20200048171A KR 20210129977 A KR20210129977 A KR 20210129977A
Authority
KR
South Korea
Prior art keywords
genome
information
target
generating
dna
Prior art date
Application number
KR1020200048171A
Other languages
Korean (ko)
Inventor
박종화
김병철
조윤성
김학민
Original Assignee
주식회사 클리노믹스
울산과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 클리노믹스, 울산과학기술원 filed Critical 주식회사 클리노믹스
Priority to KR1020200048171A priority Critical patent/KR20210129977A/en
Publication of KR20210129977A publication Critical patent/KR20210129977A/en

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Databases & Information Systems (AREA)
  • Zoology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Epidemiology (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioethics (AREA)
  • Software Systems (AREA)
  • Wood Science & Technology (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

The present invention relates to a method of generating an entity-individual standard genome map and a system thereof. According to an objective thereof, long-range genome sequence interaction information, which already exists and is closest to entity samples such as a human, an animal, a plant, and the like, is retrieved and used to generate an individual standard genome map, and, as a result, a reduction can be made in costs for individually generating individual standard genome maps with respect to individuals, a small group of relatives and many with genetic diversity. According to one embodiment, the method includes the following steps of: (a) generating DNA whole genome sequence decoding information by decoding a DNA sequence with respect to a target entity; (b) selecting a reference entity having long-range gene sequence interaction information which is closest to the target entity using the DNA whole genome sequence decoding information of the target entity; and (c) generating an individual standard genome map with respect to the target entity by assembling de novo whole genomes using the long-range gene sequence interaction information of the reference entity and the DNA whole genome sequence decoding information of the target entity.

Description

개체 개별 표준게놈지도의 생성 방법 및 그 시스템{METHOD FOR MAKING INDIVIDUAL REFERENCE GENOME MAP AND SYSTEM THEREOF}Method and system for generating individual standard genome map {METHOD FOR MAKING INDIVIDUAL REFERENCE GENOME MAP AND SYSTEM THEREOF}

본 발명의 실시예는 개체 개별 표준게놈지도의 생성 방법 및 그 시스템에 관한 것으로, 더욱 상세하게는 유전적 상관성이 높은 원거리 표준게놈지도 정보를 이용한 사람 개개인이나 동물, 식물 표준게놈지도 생성 방법 및 시스템에 관한 것이다.An embodiment of the present invention relates to a method and system for generating a standard genome map for individual individuals, and more particularly, a method and system for generating a standard genome map for individuals, animals, and plants using remote standard genome map information with high genetic correlation. is about

2001년 인간표준게놈지도 초안이 발표된 이후로, 현재까지 유럽인, 동아시아인 및 아프리카인 등 약 수십 개의 추가 인간 표준게놈지도가 발표되어 왔다. 또한, 동식물, 균류, 미생물 또한 표준게놈지도가 계속 구축이 되고 있다. 이러한 표준화된 게놈지도 정보를 이용하면, 개개인이나 개개의 동식물 단서열, 혹은 장서열의 DNA 조각을 생산하고 이를 정렬(mapping)하여 일종의 표준게놈지도를 만들 수가 있다. Since the draft human standard genome map was published in 2001, about dozens of additional human standard genome maps, including Europeans, East Asians, and Africans, have been published. In addition, standard genome maps for animals and plants, fungi, and microorganisms are continuously being constructed. Using this standardized genome map information, it is possible to create a kind of standard genome map by producing DNA fragments of individual or individual animal and plant single sequences or long sequences and mapping them.

이러한 표준게놈지도의 생성 방식의 단점은, 그 표준게놈지도의 뼈대는 온전히 자신의 것이 아니라는 것이다. 만약, 표준게놈지도가 자기 자신과 아주 가까운 개체이면, 설사 자기 게놈의 뼈대가 아니라도, 그 유사상이 매우 높기 때문에, 거의 자신의 것과 같다고 볼 수 있다. 게놈지도의 뼈대 정보는 보통 원거리 유전자서열 상호작용정보에서 도출이 되는데, 이러한 정보를 생산하는데 드는 비용이 상당히 비싸다.The disadvantage of this standard genome map generation method is that the skeleton of the standard genome map is not entirely ours. If the standard genome map is an individual that is very close to itself, even if it is not a skeleton of its own genome, since the similarity is very high, it can be considered almost identical to its own. The skeleton information of the genome map is usually derived from distant gene sequence interaction information, and the cost of producing such information is quite expensive.

이와 같이 개개인이나 개별 동식물의 개체의 표준게놈지도(reference genome)를 생성하기 위한 비용이 상당히 많이 든다. 원거리 유전자서열 상호작용정보(long mate-pair sequence)와, 단서열(short reads) 및 장서열(long reads) 해독서열 정보를 대량으로 생산하여 활용하는 비싼 해독(sequencing)을 하기 때문이다. As such, the cost for generating a reference genome of an individual or individual animal and plant individuals is quite high. This is because expensive sequencing is performed to produce and utilize long mate-pair sequence information, short reads and long reads, in large quantities.

비교적 저렴하게 개개인의 표준게놈지도 작성을 하는 한 가지 방법은, 이미 알려진 인간 표준게놈지도(예를 들어, 국제 인간표준인 GRCh38, 한국인 게놈 표준인 KOREF 등)에 개개인의 전장서열(whole genome sequence)을 정렬해서 만들 수가 있다. 동식물이나 미생물의 경우도 이러한 기존에 존재하는 표준게놈이 있는 경우, 표준게놈지도의 뼈대(genome structure)를 활용하여, 개개인과 각각의 개체의 표준게놈지도를 만들 수 있다. One way to create an individual standard genome map at a relatively low cost is to insert an individual's whole genome sequence into a known human standard genome map (eg, the international human standard GRCh38, the Korean genome standard KOREF, etc.) can be created by sorting In the case of animals and plants or microorganisms, if there is such an existing standard genome, a standard genome map of each individual and each individual can be created by using the genome structure of the standard genome map.

그러나, 이러한 방법의 단점은 자신에게 가장 가까운 원거리(long distance) 유전자 서열정보를 알 수가 없고 일반적으로 사용하는 기존의 1개의 표준을 쓴다는 것이다. However, the disadvantage of this method is that the closest long distance gene sequence information cannot be known, and one commonly used standard is used.

따라서, 서열정렬기반 일반적 표준 유래 개개인 표준게놈지도를 만드는 것보다, 자기 자신의 게놈에 가장 가까운 인간이나, 동식물의 원거리 서열 상호작용 정보를 활용할 수 있다면, 비용을 줄이면서 조금이라도 더 자신의 본래 게놈구조에 맞는 개개인 표준게놈지도를 만들 수가 있다. Therefore, rather than making an individual standard genome map derived from a sequence alignment-based general standard, if you can utilize the distant sequence interaction information of humans or animals and plants that are closest to your own genome, you can reduce the cost and improve your original genome even a little. It is possible to create individual standard genome maps that fit the structure.

특히, 개개인의 표준게놈지도(personal reference genome)를 만들 때 가까운 친척이나, 같은 인족에서 기원한 원거리의 게놈서열들이 서로 상호작용하는 정보를 사용하면, 표준게놈지도의 구축이 용이하고, 편리하면서도 인간표준게놈보다도 자신에게 더 가까운 원거리 정보를 사용하게 된다. 이런 원거리 서열연관성 정보는 다양한 방법으로 생산이 가능하지만, 모두 비용이 많이 든다.In particular, when creating an individual's personal reference genome, if close relatives or distant genomic sequences originating from the same genus interact with each other, the construction of the standard genome map is easy, convenient, and human. It uses distant information closer to itself than the standard genome. Such distant sequence association information can be produced in a variety of ways, but all are expensive.

특허등록공보 제10-1930253호(등록일자: 2018년12월12일)Patent Registration Publication No. 10-1930253 (Registration Date: December 12, 2018) 등록특허공보 제10-0314666호(등록일자: 2001년11월01일)Registered Patent Publication No. 10-0314666 (Registration Date: November 01, 2001)

본 발명의 실시예는, 인간, 동물, 식물 등의 개체 샘플과 가장 가깝고 이미 존재하는 원거리 게놈서열 상호작용정보를 찾아서 개별 표준게놈지도를 생성하는데 활용함으로써 개개인, 인족 관계 있는 소수 그룹 및 유전적 다양성이 존재하는 다수에 대한 개별 표준게놈지도를 각각 생성하는데 필요한 비용(유전자 해독 비용)을 절감할 수 있는 개체 개별 표준게놈지도의 생성 방법 및 그 시스템을 제공한다.In an embodiment of the present invention, individuals, racial minority groups and genetic diversity are found by finding the closest and already existing remote genome sequence interaction information with individual samples such as humans, animals, plants, etc. and utilizing them to generate individual standard genome maps. Provided are a method and a system for generating an individual standard genome map that can reduce the cost (gene decoding cost) required for generating an individual standard genome map for a large number of existing individuals.

본 발명의 일 실시예에 따른 개체 개별 표준게놈지도의 생성 방법은, (a) 대상개체에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성하는 단계; (b) 상기 대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 단계; 및 (c) 상기 참조개체의 원거리 유전자서열 상호작용정보와 상기 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 조립하여 상기 대상개체에 대한 개별 표준게놈지도를 생성하는 단계를 포함한다.A method for generating an individual standard genome map according to an embodiment of the present invention comprises the steps of: (a) generating DNA full-length sequence decoding information by decoding a DNA sequence for a subject; (b) selecting a reference object having the closest distant gene sequence interaction information to the target object using the full-length DNA sequence decoding information of the target object; and (c) assembling a leader genome using the remote gene sequence interaction information of the reference object and the full-length DNA sequence decoding information of the target object to generate an individual standard genome map for the target object.

또한, 상기 (b)단계는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다.In addition, the step (b) asks whether genetic distance, phylogenetic tree, whole genome sequence mapping rate, variant numbers, and neighborhood A reference object having the closest distant gene sequence interaction information to the target object may be selected using at least one of the questionnaire information and the evolutionary relationship information.

또한, 상기 (c)단계는, (c-1) 상기 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립을 진행하는 단계; 및 (c-2) 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행할 수 있다.In addition, the step (c) includes: (c-1) performing the primary assembly of the leader genome based on the full-length DNA sequence decoding information of the subject; and (c-2) using the distant gene sequence interaction information of the reference object to perform secondary assembly of the first assembled leader genome.

또한, 상기 (c)단계는, (c-3) 상기 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 상기 대상개체의 DNA 서열을 매핑(mapping)하고, 매핑된 정보에서 해당 종에 대하여 미리 구축된 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행하는 단계; 및 (c-4) 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 단계를 포함할 수 있다.In addition, in step (c), (c-3) if there is a standard genome map of the species to which the target object belongs, the DNA sequence of the target object is mapped to the standard genome map of the corresponding species, and the mapped separating a region that is structurally inconsistent with a pre-built standard genome map for the relevant species from the information and proceeding with the primary assembly of the leader genome; and (c-4) performing secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference entity.

또한, 상기 (c)단계는, 조립된 선도게놈정보에 대한 에러와 갭을 줄여 대상개체에 대한 개별 표준게놈지도를 제공할 수 있다.In addition, in step (c), it is possible to provide an individual standard genome map for a target object by reducing errors and gaps for the assembled leader genome information.

또한, 인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 각각 생성하는 경우, (d) 상기 그룹 중 일부 대상개체를 대표대상개체로 임의 선정하는 단계; (e) 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 단계; (f) 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 단계; 및 (g) 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립을 진행하는 단계를 더 포함할 수 있다.In addition, when individual standard genome maps are generated for each individual in a racial group, (d) randomly selecting some target objects from the group as representative target objects; (e) generating DNA full-length sequence decoding information by deciphering the DNA sequences for the representative object and the general object other than the representative object; (f) selecting a reference object having the closest distant gene sequence interaction information to the representative object using the full-length DNA sequence decoding information of the representative object; and (g) assembling the lead genome using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. may include more.

또한, 유전적 다양성이 존재하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성하는 경우, (h) 상기 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 상기 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정하는 단계; (i) 각 그룹 별로 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 단계; (j) 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정하는 단계; 및 (k) 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립을 진행하는 단계를 더 포함할 수 있다.In addition, in the case of generating individual standard genome maps for a plurality of target objects having genetic diversity, (h) calculating the mutual genetic distance for the plurality of target objects, and based on the calculated genetic distance classifying the plurality of target objects into at least two groups, and selecting at least one representative target object having genetic representativeness from among the target objects in each classified group; (i) generating DNA full-length sequence decoding information by deciphering the DNA sequences for the representative object and the general object other than the representative object for each group; (j) selecting each reference object having the closest distant gene sequence interaction information to the representative object by using the full-length DNA sequence decoding information of the representative object; and (k) assembling the leader genome using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. may include more.

본 발명의 다른 실시예에 따른 개체 개별 표준게놈지도의 생성 시스템은, 대상개체에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성하는 제1 DNA 정보 해독부; 상기 대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 참조개체 선정부; 및 상기 참조개체의 원거리 유전자서열 상호작용정보와 상기 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 조립하여 상기 대상개체에 대한 개별 표준게놈지도 생성하는 개별 표준게놈지도 생성부를 포함할 수 있다.A system for generating an individual standard genome map according to another embodiment of the present invention includes: a first DNA information decoding unit for generating DNA full-length sequence decoding information by decoding a DNA sequence for a target entity; a reference object selection unit for selecting a reference object having the closest distant gene sequence interaction information to the target object using the full-length DNA sequence decoding information of the target object; and an individual standard genome map generation unit that assembles a leader genome using the remote gene sequence interaction information of the reference object and the full-length DNA sequence decoding information of the target object to generate an individual standard genome map for the target object. .

또한, 상기 참조개체 선정부는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다.In addition, the reference object selection unit, a genetic distance (genetic distance), a phylogenetic tree (phylogenetic tree), whole genome sequence mapping rate (whole genome sequence mapping rate), the number of variants (variant numbers), a questionnaire asking whether the neighbor (neighborhood) The reference object having the closest distant gene sequence interaction information to the target object may be selected using at least one of information and evolutionary relationship information.

또한, 상기 개별 표준게놈지도 생성부는, 상기 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립을 진행하는 제1 선도게놈 조립부; 및 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 제2 선도게놈 조립부를 포함할 수 있다.In addition, the individual standard genome map generating unit may include: a first leader genome assembly unit for performing primary assembly of the leader genome based on the full-length DNA sequence decoding information of the target subject; and a second leader genome assembly unit for performing secondary assembly of the firstly assembled leader genome using the distant gene sequence interaction information of the reference entity.

또한, 상기 개별 표준게놈지도 생성부는, 상기 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 상기 대상개체의 DNA 서열을 매핑(mapping)하고, 매핑된 정보에서 해당 종에 대하여 미리 구축된 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행하는 제3 선도게놈 조립부; 및 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 제4 선도게놈 조립부를 포함할 수 있다.In addition, the individual standard genome map generation unit, if there is a standard genome map of the species to which the target object belongs, maps the DNA sequence of the target object to the standard genome map of the corresponding species, and from the mapped information to the corresponding species a third leader genome assembly unit for first assembling the leader genome by separating regions that are structurally inconsistent with the standard genome map constructed in advance for and a fourth leader genome assembly unit for performing secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference entity.

또한, 상기 개별 표준게놈지도 생성부는, 조립된 선도게놈정보에 대한 에러와 갭을 줄여 대상개체에 대한 개별 표준게놈지도를 제공할 수 있다.In addition, the individual standard genome map generating unit may provide an individual standard genome map for a target object by reducing errors and gaps with respect to the assembled leader genome information.

또한, 인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 각각 생성하는 인족 그룹 대 개별 표준게놈지도 생성부를 더 포함하고, 상기 인족 그룹 대상 개별 표준게놈지도 생성부는, 상기 그룹 중 일부 대상개체를 대표대상개체로 임의 선정하는 제1 대표대상개체 선정부; 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 그룹 대상 DNA 정보 해독부; 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 그룹 대상 참조개체 선정부; 및 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립을 진행하는 그룹 대상 선도게놈 조립부를 포함할 수 있다.In addition, it further includes a racial group versus individual standard genome map generator for generating individual standard genome maps for each individual within the racial group, wherein the individual standard genome map generator for the racial group represents some target entities in the group a first representative target object selection unit for arbitrarily selecting a target object; a group target DNA information decoding unit for generating DNA full-length sequence decoding information by decoding the DNA sequences for the representative target object and the general target object other than the representative target object; a group target reference object selection unit for selecting a reference object having the closest distant gene sequence interaction information to the representative target object using the full-length DNA sequence decoding information of the representative object; and group target leader genome assembly in which the leader genome is assembled using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the full-length DNA sequence decoding information of the general object may include wealth.

또한, 유전적 다양성이 존재하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성하는 다중 대상 개별 표준게놈지도 생성부를 더 포함하고, 상기 다중 대상 개별 표준게놈지도 생성부는, 상기 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 상기 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정하는 제2 대표대상개체 선정부; 각 그룹 별로 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 다중 대상 DNA 정보 해독부; 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정하는 다중 대상 참조개체 선정부; 및 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립을 진행하는 다중 대상 선도게놈 조립부를 더 포함할 수 있다. In addition, it further includes a multi-target individual standard genome map generator for generating individual standard genome maps for a plurality of target objects in which genetic diversity exists, wherein the multi-target individual standard genome map generator comprises: calculates a mutual genetic distance to , classifies the plurality of subjects into at least two groups based on the calculated genetic distance, a second representative target object selection unit for selecting representative target objects, respectively; a multi-target DNA information decoding unit for generating DNA full-length sequence decoding information by decoding the DNA sequences for the representative target object and the general target object other than the representative target object for each group; a multi-target reference object selection unit for selecting reference objects having the closest distant gene sequence interaction information to the representative object using the full-length DNA sequence decoding information of the representative object; and assembling a leader genome by using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object. It may include more wealth.

본 발명에 따르면, 인간, 동물, 식물 등의 개체 샘플과 가장 가깝고 이미 존재하는 원거리 게놈서열 상호작용정보를 찾아서 개별 표준게놈지도를 생성하는데 활용함으로써 개개인, 인족 관계 있는 소수 그룹 및 유전적 다양성이 존재하는 다수에 대한 개별 표준게놈지도를 각각 생성하는데 필요한 비용(유전자 해독 비용)을 절감할 수 있는 개체 개별 표준게놈지도의 생성 방법 및 그 시스템을 제공할 수 있다.According to the present invention, individuals, racial minority groups, and genetic diversity exist by finding the closest and already existing remote genome sequence interaction information with individual samples such as humans, animals, and plants and using it to generate individual standard genome maps. It is possible to provide a method and system for generating individual standard genome maps for individuals, which can reduce the cost (gene decoding cost) required for generating individual standard genome maps for a large number of individuals.

도 1은 본 발명의 일 실시예에 따른 개체 개별 표준게놈지도의 생성 방법을 설명하기 위해 나타낸 흐름도이다.
도 2는 본 발명의 일 실시예에 따른 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 그룹 대상 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이다.
도 4는 본 발명의 일 실시예에 따른 다중 대상 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이다.
도 5는 본 발명의 다른 실시예에 따른 개체 개별 표준게놈지도의 생성 시스템의 구성을 나타낸 블록도이다.
도 6은 본 발명의 다른 실시예에 따른 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이다.
도 7은 본 발명의 다른 실시예에 따른 그룹 대상 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이다.
도 8은 본 발명의 다른 실시예에 따른 다중 대상 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이다.
1 is a flowchart illustrating a method of generating an individual standard genome map according to an embodiment of the present invention.
2 is a flowchart illustrating a method for generating an individual standard genome map according to an embodiment of the present invention.
3 is a flowchart illustrating a method for generating an individual standard genome map for a group according to an embodiment of the present invention.
4 is a flowchart illustrating a method for generating a multi-target individual standard genome map according to an embodiment of the present invention.
5 is a block diagram showing the configuration of a system for generating individual standard genome maps according to another embodiment of the present invention.
6 is a block diagram showing the configuration of an individual standard genome map generator according to another embodiment of the present invention.
7 is a block diagram showing the configuration of a group target individual standard genome map generator according to another embodiment of the present invention.
8 is a block diagram showing the configuration of a multi-target individual standard genome map generator according to another embodiment of the present invention.

본 명세서에서 사용되는 용어에 대해 간략히 설명하고, 본 발명에 대해 구체적으로 설명하기로 한다.Terms used in this specification will be briefly described, and the present invention will be described in detail.

본 발명에서 사용되는 용어는 본 발명에서의 기능을 고려하면서 가능한 현재 널리 사용되는 일반적인 용어들을 선택하였으나, 이는 당 분야에 종사하는 기술자의 의도 또는 판례, 새로운 기술의 출현 등에 따라 달라질 수 있다. 또한, 특정한 경우는 출원인이 임의로 선정한 용어도 있으며, 이 경우 해당되는 발명의 설명 부분에서 상세히 그 의미를 기재할 것이다. 따라서 본 발명에서 사용되는 용어는 단순한 용어의 명칭이 아닌, 그 용어가 가지는 의미와 본 발명의 전반에 걸친 내용을 토대로 정의되어야 한다.The terms used in the present invention have been selected as currently widely used general terms as possible while considering the functions in the present invention, but these may vary depending on the intention or precedent of a person skilled in the art, the emergence of new technology, and the like. In addition, in a specific case, there is a term arbitrarily selected by the applicant, and in this case, the meaning will be described in detail in the description of the corresponding invention. Therefore, the term used in the present invention should be defined based on the meaning of the term and the overall content of the present invention, rather than the name of a simple term.

명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있음을 의미한다. 또한, 명세서에 기재된 "...부", "모듈" 등의 용어는 적어도 하나 이상의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어 또는 소프트웨어로 구현되거나 하드웨어와 소프트웨어의 결합으로 구현될 수 있다.When a part "includes" a certain element throughout the specification, this means that other elements may be further included, rather than excluding other elements, unless otherwise stated. In addition, terms such as "...unit" and "module" described in the specification mean a unit that processes at least one function or operation, which may be implemented as hardware or software, or a combination of hardware and software. .

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다. Hereinafter, with reference to the accompanying drawings, embodiments of the present invention will be described in detail so that those of ordinary skill in the art can easily carry out the embodiments of the present invention. However, the present invention may be embodied in many different forms and is not limited to the embodiments described herein. And in order to clearly explain the present invention in the drawings, parts irrelevant to the description are omitted, and similar reference numerals are attached to similar parts throughout the specification.

도 1은 본 발명의 일 실시예에 따른 개체 개별 표준게놈지도의 생성 방법을 설명하기 위해 나타낸 흐름도이고, 도 2는 본 발명의 일 실시예에 따른 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이고, 도 3은 본 발명의 일 실시예에 따른 그룹 대상 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이며, 도 4는 본 발명의 일 실시예에 따른 다중 대상 개별 표준게놈지도 생성 방법을 설명하기 위해 나타낸 흐름도이다. 1 is a flowchart illustrating a method of generating an individual standard genome map according to an embodiment of the present invention, and FIG. 2 is a flowchart illustrating a method of generating an individual standard genome map according to an embodiment of the present invention. 3 is a flowchart illustrating a method for generating an individual standard genome map for a group according to an embodiment of the present invention, and FIG. 4 describes a method for generating a multi-target individual standard genome map according to an embodiment of the present invention. This is a flow chart shown to do so.

도 1을 참조하면, 본 발명의 일 실시예에 따른 개체 개별 표준게놈지도의 생성 방법(S1000)은, 개별 표준게놈지도 생성 시스템을 이용하여 생물체의 개체에 대한 개별 표준게놈지도를 생성하기 위한 방법에 관한 것으로, 구체적으로는 DNA 해독정보 생성 단계(S100), 참조개체 선정 단계(S200), 개별 표준게놈지도 생성 단계(S300), 그룹 대상 개별 표준게놈지도 생성 단계(S400) 및 다중 대상 개별 표준게놈지도 생성 단계(S500) 중 적어도 하나를 포함할 수 있다.Referring to FIG. 1 , the method for generating an individual standard genome map ( S1000 ) according to an embodiment of the present invention is a method for generating an individual standard genome map for an individual of an organism using an individual standard genome map generation system Specifically, DNA decoding information generation step (S100), reference object selection step (S200), individual standard genome map generation step (S300), group target individual standard genome map generation step (S400), and multiple target individual standards It may include at least one of the genomic map generation step ( S500 ).

상기 DNA 해독정보 생성 단계(S100)는, 인간이나 동물, 식물, 균류, 미생물 등 대상개체(또는 목표개체)에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 이때, DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, 이러한 DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.The DNA decoding information generation step (S100) may generate DNA full-length sequence decoding information by decoding a DNA sequence for a target entity (or target entity), such as humans, animals, plants, fungi, and microorganisms. In this case, short reads and/or long reads can be generated through DNA sequence translation, and various publicly disclosed decoding methods can be applied as such a DNA sequence reading method, in this embodiment It is not limited to a specific detoxification method.

상기 참조개체 선정 단계(S200)는, 대상개체의 DNA 전장서열 해독정보를 이용하여 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보(예를 들어 Hi-C 정보)가 있는 참조개체를 선정할 수 있다. 이러한 참조개체 선정 단계(S200)는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 더불어, 원거리 게놈서열 상호작용정보는 Hi-C, Mate-pair, Long reads, whole genome maps 등을 통해 생성될 수 있으며, 다양한 실험 및 분석 방법을 통해 생성될 수 있다. In the reference object selection step (S200), the reference object having the closest distant gene sequence interaction information (eg, Hi-C information) to the object object can be selected using the full-length DNA sequence decoding information of the object object. . This reference object selection step (S200), genetic distance (genetic distance), phylogenetic tree (phylogenetic tree), whole genome sequence mapping rate (whole genome sequence mapping rate), the number of variants (variant numbers), whether the neighbor (neighborhood) The reference object having the closest gene sequence interaction information with the target object may be selected by using at least one of the questionnaire information asked and the evolutionary relationship information. In addition, distant genome sequence interaction information can be generated through Hi-C, Mate-pair, Long reads, whole genome maps, etc., and can be generated through various experiments and analysis methods.

상기 개별 표준게놈지도 생성 단계(S300)는, 참조개체의 원거리 유전자서열 상호작용정보와 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈(de novo 게놈)을 조립함으로써 대상개체에 대한 개별 표준게놈지도를 생성할 수 있다. The individual standard genome map generation step (S300) is, by assembling a lead genome (de novo genome) using the remote gene sequence interaction information of the reference object and the DNA full-length sequence decoding information of the target object, and thereby individual standard genomes for the target object. You can create a map.

이러한 개별 표준게놈지도 생성 단계(S300)는 두 가지 진행 방법의 적용이 가능하며 선택적으로 적용할 수 있다.In this individual standard genome map generation step ( S300 ), two processing methods can be applied and can be selectively applied.

첫 번째 방법(A)은, 도 2에 도시된 바와 같이 제1 선도게놈 1차 조립 단계(S310)와 제1 선도게놈 2차 조립 단계(S320)를 포함할 수 있다.The first method (A) may include a first step of assembling the first leader genome ( S310 ) and a second step of assembling the first leader genome ( S320 ) as shown in FIG. 2 .

상기 제1 선도게놈 1차 조립 단계(S310)는, 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립(ex. contig assembly)을 진행할 수 있다.In the first lead genome first assembly step ( S310 ), the lead genome may be first assembled (eg, contig assembly) based on the full-length DNA sequence decoding information of the subject.

상기 제1 선도게놈 2차 조립 단계(S320)는, 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립(ex. scaffold assembly)을 진행할 수 있다.In the second assembling step of the first leader genome ( S320 ), secondary assembly (eg, scaffold assembly) of the first-assembled leader genome may be performed using the distant gene sequence interaction information of the reference entity.

두 번째 방법(B)은, 도 2에 도시된 바와 같이 제2 선도게놈 1차 조립 단계(S330)와 제2 선도게놈 2차 조립 단계(S340)를 포함할 수 있다.The second method (B) may include a first assembling step S330 of a second leader genome and a second assembling step S340 of a second leader genome, as shown in FIG. 2 .

상기 제2 선도게놈 1차 조립 단계(S330)는, 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 대상개체의 DNA 서열을 정렬(mapping)하여 reference-guided를 조립하고, 매핑된 정보에서 해당 종에 대하여 미리 구축되어 있는 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행할 수 있다. 여기서, 표준게놈지도와 구조적으로 불일치하는 영역은 예를 들어 구조 변이가 발견되는 부분일 수 있다.In the second lead genome first assembly step (S330), if there is a standard genome map of the species to which the subject belongs, the reference-guided is assembled by mapping the DNA sequence of the subject to the standard genome map of the species. The first assembly of the leader genome can be carried out by isolating regions that are structurally inconsistent with the pre-built standard genome map for the species in the mapped information. Here, the region structurally inconsistent with the standard genome map may be, for example, a region in which a structural variation is found.

상기 제2 선도게놈 2차 조립 단계(S340)는, 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행할 수 있다.In the second assembling of the second leader genome ( S340 ), the second assembly of the first assembled leader genome may be performed using the distant gene sequence interaction information of the reference entity.

이러한 개별 표준게놈지도 생성 단계(S300)에서 선도게놈을 조립하는 과정이나 DNA 서열을 정렬(mapping)하는 과정은 다양한 조립 및 정렬 방법이 적용될 수 있으며, 본 실시예에서는 특정한 방법을 한정하지 않는다.Various assembly and alignment methods may be applied to the process of assembling the leader genome or mapping the DNA sequence in the step of generating the individual standard genome map ( S300 ), and the present embodiment does not limit the specific method.

또한, 개별 표준게놈지도 생성 단계(S300)에서는, 조립된 선도게놈정보에 대한 에러와 갭(gap)을 줄여 대상개체에 대한 개별 표준게놈지도를 제공할 수 있다.In addition, in the step of generating the individual standard genome map ( S300 ), it is possible to provide an individual standard genome map for the target object by reducing errors and gaps in the assembled lead genome information.

상기 그룹 대상 개별 표준게놈지도 생성 단계(S400)는, 인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 모두 생성(예를 들어, 가족이나 친척과 같은 인족의 멤버의 개개인 표준게놈지도를 한꺼번에 작성할 경우)할 수 있다. 이를 위해, 그룹 대상 개별 표준게놈지도 생성 단계(S400)는 도 3에 도시된 바와 같이 제1 대표대상개체 선정 단계(S410), 그룹 대상 DNA 정보 해독 단계(S420), 그룹 대상 참조개체 선정 단계(S430) 및 그룹 대상 선도게놈 조립 단계(S440)를 포함할 수 있다. In the group target individual standard genome map generation step (S400), all individual standard genome maps for each individual within the racial group are generated (for example, individual standard genomic maps of members of the racial group such as family or relatives are created at once case) can be done. To this end, the group target individual standard genome map generation step (S400) is, as shown in FIG. 3, the first representative target object selection step (S410), the group target DNA information decoding step (S420), the group target reference object selection step ( S430) and a group target leader genome assembly step (S440).

상기 제1 대표대상개체 선정 단계(S410)는, 그룹 중 일부 대상개체를 대표대상개체로 임의 선정할 수 있다. 즉, 제1 대표대상개체 선정 단계(S410)에서는 모두의 원거리 유전자서열 상호작용정보를 생성하지 않고, 한 사람이나 두 사람 등 해당 그룹을 유전적으로 대표적일 수 있는 일부 사람의 원거리 유전자서열 상호작용정보를 임의로 정하여 생성할 수 있다.In the first representative target object selection step ( S410 ), some target objects in the group may be arbitrarily selected as representative target objects. That is, in the first representative target object selection step (S410), the long-distance gene sequence interaction information of some people who may be genetically representative of the group, such as one person or two people, is not generated without generating all of the distant gene sequence interaction information. can be arbitrarily determined and created.

상기 그룹 대상 DNA 정보 해독 단계(S420)는, 대표대상개체와 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 예를 들어, 한 가족이 부모와 자녀 3명으로 구성되어, 총 5명의 개인 표준게놈지도를 만들 경우, 아버지의 유전자 샘플 하나로 원거리 유전자서열 상호작용정보를 생성한 후, 5명 모두 해당 정보를 활용하여 개개인 표준게놈지도를 생성할 수 있다.The group target DNA information decoding step (S420) may generate DNA full-length sequence decoding information by decoding the DNA sequences for the general target object other than the representative target object and the representative target object, respectively. For example, if a family consists of three parents and three children, and a standard genome map is made for a total of five people, the information is used for all five people after generating distant gene sequence interaction information with one gene sample from the father. Thus, individual standard genome maps can be generated.

이러한 그룹 대상 DNA 정보 해독 단계(S420)에서는, DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.In this group target DNA information decoding step (S420), short reads and / and long reads can be generated through DNA sequence decoding, and as a DNA sequence decoding method, various public reading methods are used. It can be applied, and in this embodiment, it is not limited to a specific decryption method.

상기 그룹 대상 참조개체 선정 단계(S430)는, 대표대상개체의 DNA 전장서열 해독정보를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 이러한 그룹 대상 참조개체 선정 단계(S430)는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 더불어, 원거리 게놈서열 상호작용정보는 Hi-C, Mate-pair, Long reads, whole genome maps 등을 통해 생성될 수 있으며, 다양한 실험 및 분석 방법을 통해 생성될 수 있다. In the group target reference object selection step (S430), a reference object having the closest distant gene sequence interaction information with the representative target object may be selected using the full-length DNA sequence decoding information of the representative target object. This group target reference object selection step (S430), genetic distance (genetic distance), phylogenetic tree (phylogenetic tree), whole genome sequence mapping rate (whole genome sequence mapping rate), the number of variants (variant numbers), neighborhood (neighborhood) Using at least one of the questionnaire information asking whether or not there is, and the evolutionary relationship information, the reference object having the closest distant gene sequence interaction information to the representative object may be selected. In addition, distant genome sequence interaction information can be generated through Hi-C, Mate-pair, Long reads, whole genome maps, etc., and can be generated through various experiments and analysis methods.

상기 그룹 대상 선도게놈 조립 단계(S440)는, 참조개체의 원거리 유전자서열 상호작용정보, 대표대상개체의 DNA 전장서열 해독정보, 및 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립하는 과정을 진행할 수 있다. In the group target leader genome assembly step (S440), the leader genome is assembled using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. process can proceed.

상기 다중 대상 개별 표준게놈지도 생성 단계(S500)는, 유전적 다양성이 존재(유전적 다양성이 큰 다수의 그룹을 대상으로 하는 경우)하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성할 수 있다. 이를 위해, 다중 대상 개별 표준게놈지도 생성 단계(S500)는 도 4에 도시된 바와 같이 제2 대표대상개체 선정 단계(S510), 다중 대상 DNA 정보 해독 단계(S520), 다중 대상 참조개체 선정 단계(S530) 및 다중 대상 선도게놈 조립 단계(S540)를 포함할 수 있다.The multi-target individual standard genome map generation step (S500) is to generate individual standard genome maps for a plurality of target objects in which genetic diversity exists (when targeting a large number of groups with large genetic diversity). can To this end, the multi-target individual standard genome map generation step (S500) is as shown in FIG. 4, the second representative target object selection step (S510), the multi-target DNA information decoding step (S520), the multi-target reference object selection step ( S530) and a multi-target leader genome assembly step (S540).

상기 제2 대표대상개체 선정 단계(S510)는, 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정할 수 있다. 즉, 하나의 샘플이 아닌 두 개 또는 세 개 이상의 유전적 대표성을 갖는 샘플을 유전적 거리 상에서의 적절한 배치를 위해 정해서 할 수가 있다. In the second representative target object selection step (S510), mutual genetic distances for a plurality of target objects are calculated, and based on the calculated genetic distances, a plurality of target objects are classified into at least two groups, and classified At least one representative object having genetic representativeness among the object objects in each group may be selected, respectively. That is, not one sample, but two or three or more genetic representative samples can be determined for proper placement on the genetic distance.

예를 들어, 100명의 한 지역 사람들에 대한 게놈정보를 해독하고, 해독된 게놈정보를 제공하고자 할 경우, 100명의 사람들의 유전적 거리를 측정한 후, 그 그룹 내에서 유전적 거리에 따른 그룹으로 분류 할 수 있는지를 확인하고, 적어도 2개의 그룹으로 분류될 수 있는 경우, 각 그룹별로 유전적 대표성을 갖는 사람(즉, 해당 그룹 내에서 유전적으로 가장 중간 위치에 있는 사람)을 선정할 수 있다. 이때, 2개의 그룹으로 분류되면, 각 그룹에서 가장 중간적 대표성을 가지는 사람을 선정하고, 그 두 명의 대표자에 한해서 원거리 유전자서열 상호작용 정보를 생산하고, 나머지 사람들은 그 두 명 중에 자신과 가장 가까운 대표자의 원거리 유전자서열 상호작용정보를 활용하여, 자신의 개인 표준게놈지도를 만들 수 있다. For example, if you want to decode genomic information about 100 people in a local area and provide the decoded genomic information, measure the genetic distance of 100 people and then divide the genetic distance into a group within the group. It is confirmed that classification is possible, and if it can be classified into at least two groups, a person with genetic representativeness for each group (that is, a person with the most genetically intermediate position within the group) can be selected. At this time, if classified into two groups, the person with the most intermediate representative from each group is selected, and distant gene sequence interaction information is produced only for the two representatives, and the rest of the two people are the closest to themselves. You can create your own personal standard genome map by using the representative's distant gene sequence interaction information.

상기 다중 대상 DNA 정보 해독 단계(S520)는, 각 그룹 별로 대표대상개체와 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 다중 대상 DNA 정보 해독 단계(S520)에서는 DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.The multi-target DNA information decoding step ( S520 ) may generate DNA full-length sequence decoding information by decoding the DNA sequences for the general target object other than the representative target object and the representative target object for each group. In the multi-target DNA information decoding step (S520), short reads and/or long reads may be generated through DNA sequence decoding, and various publicly disclosed decoding methods may be applied as a DNA sequence decoding method. may be, and this embodiment is not limited to a specific decoding method.

상기 다중 대상 참조개체 선정 단계(S530)는, 대표대상개체의 DNA 전장서열 해독정보를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정할 수 있다.In the multi-target reference object selection step (S530), the reference object having the closest distant gene sequence interaction information with the representative object may be selected using the full-length DNA sequence decoding information of the representative object.

상술한 예에서, 100명의 대상자가 70명과 30명으로 두 개의 그룹으로 분류될 경우, 각 70명, 30명의 대표적인 사람의 원거리 유전자서열 상호작용정보를 가장 정밀히 생성하고, 나머지 69명, 49명의 사람들은 그 사람의 원거리 유전자서열 상호작용정보를 활용하여 개인 표준게놈지도를 각각 생성을 할 수 있다. 이러한 경우, 많은 비용 절감이 있고, 실제 상호 간의 게놈구조가 비슷한 사람들끼리 그룹을 만들었으므로, 표준게놈지도의 정밀도도 크게 손상이 되지 않는다. 특히, 가족이니 대가족의 경우, 서로간의 게놈구조는 매우 비슷하므로, 비용 절약이 상대적으로 클 수 있다. In the above example, when 100 subjects are classified into two groups of 70 and 30, the distant gene sequence interaction information of each 70 and 30 representative people is most precisely generated, and the remaining 69 and 49 people are can generate individual standard genome maps using the person's distant gene sequence interaction information. In this case, there is a lot of cost savings, and since a group is made of people with similar genomic structures to each other, the precision of the standard genome map is not significantly impaired. In particular, in the case of a large family or a family, since the genome structure of each other is very similar, cost savings can be relatively large.

상기 다중 대상 선도게놈 조립 단계(S540)는, 참조개체의 원거리 유전자서열 상호작용정보, 대표대상개체의 DNA 전장서열 해독정보, 및 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립하는 과정을 진행할 수 있다.In the multi-target leader genome assembly step (S540), the leader genome is assembled using the remote gene sequence interaction information of the reference object, the DNA full-length sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. process can proceed.

도 5는 본 발명의 다른 실시예에 따른 개체 개별 표준게놈지도의 생성 시스템의 구성을 나타낸 블록도이고, 도 6은 본 발명의 다른 실시예에 따른 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이고, 도 7은 본 발명의 다른 실시예에 따른 그룹 대상 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이며, 도 8은 본 발명의 다른 실시예에 따른 다중 대상 개별 표준게놈지도 생성부의 구성을 나타낸 블록도이다. 5 is a block diagram showing the configuration of a system for generating individual standard genome maps according to another embodiment of the present invention, and FIG. 6 is a block diagram showing the configuration of an individual standard genome map generator according to another embodiment of the present invention. , FIG. 7 is a block diagram showing the configuration of a group target individual standard genome map generator according to another embodiment of the present invention, and FIG. 8 is a block showing the configuration of a multi-target individual standard genome map generator according to another embodiment of the present invention It is also

도 5를 참조하면, 본 발명의 일 실시예에 따른 개체 개별 표준게놈지도의 생성 방법(S1000)은, 개별 표준게놈지도 생성 시스템을 이용하여 생물체의 개체에 대한 개별 표준게놈지도를 생성하기 위한 방법에 관한 것으로, 구체적으로 개체 개별 표준게놈지도 생성 시스템(1000)은 DNA 정보 해독부(100), 참조개체 선정부(200), 개별 표준게놈지도 생성부(300), 그룹 대상 개별 표준게놈지도 생성부(400) 및 다중 대상 개별 표준게놈지도 생성부(500) 중 적어도 하나를 포함할 수 있다.Referring to FIG. 5 , the method for generating an individual standard genome map ( S1000 ) according to an embodiment of the present invention is a method for generating an individual standard genome map for an individual of an organism using an individual standard genome map generation system Specifically, the individual standard genome map generation system 1000 includes the DNA information decoding unit 100, the reference entity selection unit 200, the individual standard genome map generation unit 300, and the individual standard genome map generation for the group. It may include at least one of the unit 400 and the multi-target individual standard genome map generation unit 500 .

상기 DNA 정보 해독부(100)는, 인간이나 동물, 식물, 균류, 미생물 등 대상개체(또는 목표개체)에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 이때, DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, 이러한 DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.The DNA information decoding unit 100 may generate DNA full-length sequence decoding information by decoding a DNA sequence for a target entity (or target entity), such as humans, animals, plants, fungi, and microorganisms. In this case, short reads and/or long reads can be generated through DNA sequence translation, and various publicly disclosed decoding methods can be applied as such a DNA sequence reading method, in this embodiment It is not limited to a specific detoxification method.

상기 참조개체 선정부(200)는, 대상개체의 DNA 전장서열 해독정보를 이용하여 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보(예를 들어 Hi-C 정보)가 있는 참조개체를 선정할 수 있다. 이러한 참조개체 선정부(200)는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 더불어, 원거리 게놈서열 상호작용정보는 Hi-C, Mate-pair, Long reads, whole genome maps 등을 통해 생성될 수 있으며, 다양한 실험 및 분석 방법을 통해 생성될 수 있다. The reference object selector 200 may select a reference object having the closest distant gene sequence interaction information (eg, Hi-C information) to the object by using the full-length DNA sequence decoding information of the object. . The reference object selection unit 200 determines whether a genetic distance, a phylogenetic tree, a whole genome sequence mapping rate, a number of variants, and a neighbor The reference object having the closest gene sequence interaction information with the target object may be selected by using at least one of the questionnaire information asked and the evolutionary relationship information. In addition, distant genome sequence interaction information can be generated through Hi-C, Mate-pair, Long reads, whole genome maps, etc., and can be generated through various experiments and analysis methods.

상기 개별 표준게놈지도 생성부(300)는, 참조개체의 원거리 유전자서열 상호작용정보와 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈(de novo 게놈)을 조립함으로써 대상개체에 대한 개별 표준게놈지도를 생성할 수 있다. The individual standard genome map generation unit 300 uses the remote gene sequence interaction information of the reference object and the DNA full-length sequence decoding information of the target object to assemble a lead genome (de novo genome), thereby creating an individual standard genome for the target object. You can create a map.

이러한 개별 표준게놈지도 생성부(300)는 두 가지 진행 방법의 적용이 가능하며 선택적으로 적용할 수 있다.The individual standard genome map generation unit 300 can apply two processing methods and can be selectively applied.

첫 번째 방법(A)은, 도 6에 도시된 바와 같이 제1 선도게놈 조립부(310)와 제2 선도게놈 조립부(320)를 포함할 수 있다.The first method (A) may include a first leader genome assembly unit 310 and a second leader genome assembly unit 320 as shown in FIG. 6 .

상기 제1 선도게놈 조립부(310)는, 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립(ex. contig assembly)을 진행할 수 있다.The first leader genome assembly unit 310 may perform a primary assembly (ex. contig assembly) of the leader genome based on the full-length DNA sequence decoding information of the subject.

상기 제2 선도게놈 조립부(320)는, 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립(ex. scaffold assembly)을 진행할 수 있다.The second leader genome assembly unit 320 may perform secondary assembly (eg, scaffold assembly) of the firstly assembled leader genome using the distant gene sequence interaction information of the reference entity.

두 번째 방법(B)은, 도 6에 도시된 바와 같이 제3 선도게놈 조립부(330)와 제4 선도게놈 조립부(340)를 포함할 수 있다.The second method (B) may include a third leader genome assembly unit 330 and a fourth leader genome assembly unit 340 as shown in FIG. 6 .

상기 제3 선도게놈 조립부(330)는, 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 대상개체의 DNA 서열을 정렬(mapping)하여 reference-guided를 조립하고, 매핑된 정보에서 해당 종에 대하여 미리 구축되어 있는 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행할 수 있다. 여기서, 표준게놈지도와 구조적으로 불일치하는 영역은 예를 들어 구조 변이가 발견되는 부분일 수 있다.The third lead genome assembly unit 330, when there is a standard genome map of the species to which the subject belongs, aligns the DNA sequence of the subject to the standard genome map of the species to assemble a reference-guided, In the mapped information, the first assembly of the leader genome can be carried out by separating regions that are structurally inconsistent with the pre-established standard genome map for the relevant species. Here, the region structurally inconsistent with the standard genome map may be, for example, a region in which a structural variation is found.

상기 제4 선도게놈 조립부(340)는, 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행할 수 있다.The fourth leader genome assembly unit 340 may perform secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference entity.

이러한 개별 표준게놈지도 생성부(300)에서 선도게놈을 조립하는 과정이나 DNA 서열을 정렬(mapping)하는 과정은 다양한 조립 및 정렬 방법이 적용될 수 있으며, 본 실시예에서는 특정한 방법을 한정하지 않는다.Various assembly and alignment methods may be applied to the process of assembling the leader genome or the process of mapping the DNA sequence in the individual standard genome map generator 300 , and the present embodiment is not limited to a specific method.

또한, 개별 표준게놈지도 생성부(300)에서는, 조립된 선도게놈정보에 대한 에러와 갭을 줄여 대상개체에 대한 개별 표준게놈지도를 제공할 수 있다.In addition, the individual standard genome map generating unit 300 may provide an individual standard genome map for a target object by reducing errors and gaps with respect to the assembled lead genome information.

상기 그룹 대상 개별 표준게놈지도 생성부(400)는, 인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 모두 생성(예를 들어, 가족이나 친척과 같은 인족의 멤버의 개개인 표준게놈지도를 한꺼번에 작성할 경우)할 수 있다. 이를 위해, 그룹 대상 개별 표준게놈지도 생성부(400)는 도 7에 도시된 바와 같이 제1 대표대상개체 선정부(410), 그룹 대상 DNA 정보 해독부(420), 그룹 대상 참조개체 선정부(430) 및 그룹 대상 선도게놈 조립부(440)를 포함할 수 있다. The group target individual standard genome map generation unit 400 generates all individual standard genome maps for each individual within the racial group (eg, to create individual standard genomic maps for members of racial groups such as family or relatives at once case) can be done. To this end, the group target individual standard genome map generation unit 400, as shown in FIG. 7, includes a first representative target object selection unit 410, a group target DNA information decoding unit 420, and a group target reference object selection unit ( 430) and a group target leader genome assembly unit 440 .

상기 제1 대표대상개체 선정부(410)는, 그룹 중 일부 대상개체를 대표대상개체로 임의 선정할 수 있다. 즉, 제1 대표대상개체 선정부(410)에서는 모두의 원거리 유전자서열 상호작용정보를 생성하지 않고, 한 사람이나 두 사람 등 해당 그룹을 유전적으로 대표적일 수 있는 일부 사람의 원거리 유전자서열 상호작용정보를 임의로 정하여 생성할 수 있다.The first representative target object selection unit 410 may arbitrarily select some target objects in the group as the representative target objects. That is, the first representative target object selection unit 410 does not generate the long-distance gene sequence interaction information of all, but the long-distance gene sequence interaction information of some people who may be genetically representative of the group, such as one or two people. can be arbitrarily determined and created.

상기 그룹 대상 DNA 정보 해독부(420)는, 대표대상개체와 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 예를 들어, 한 가족이 부모와 자녀 3명으로 구성되어, 총 5명의 개인 표준게놈지도를 만들 경우, 아버지의 유전자 샘플 하나로 원거리 유전자서열 상호작용정보를 생성한 후, 5명 모두 해당 정보를 활용하여 개개인 표준게놈지도를 생성할 수 있다.The group target DNA information decoding unit 420 may generate DNA full-length sequence decoding information by decoding the DNA sequences for the general target object other than the representative target object and the representative target object, respectively. For example, if a family consists of three parents and three children, and a standard genome map is made for a total of five people, the information is used for all five people after generating distant gene sequence interaction information with one gene sample from the father. Thus, individual standard genome maps can be generated.

이러한 그룹 대상 DNA 정보 해독부(420)에서는, DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.In this group target DNA information decoding unit 420, short reads and / and long reads can be generated through DNA sequence decoding, and as a DNA sequence decoding method, various public reading methods are used. It can be applied, and in this embodiment, it is not limited to a specific decryption method.

상기 그룹 대상 참조개체 선정부(430)는, 대표대상개체의 DNA 전장서열 해독정보를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 이러한 그룹 대상 참조개체 선정부(430)는, 유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정할 수 있다. 더불어, 원거리 게놈서열 상호작용정보는 Hi-C, Mate-pair, Long reads, whole genome maps 등을 통해 생성될 수 있으며, 다양한 실험 및 분석 방법을 통해 생성될 수 있다. The group target reference object selection unit 430 may select a reference object having the closest distant gene sequence interaction information to the representative target object using the full-length DNA sequence decoding information of the representative target object. This group target reference object selection unit 430, genetic distance (genetic distance), phylogenetic tree (phylogenetic tree), whole genome sequence mapping rate (whole genome sequence mapping rate), the number of variants (variant numbers), neighborhood (neighborhood) Using at least one of the questionnaire information asking whether or not there is, and the evolutionary relationship information, the reference object having the closest distant gene sequence interaction information to the representative object may be selected. In addition, distant genome sequence interaction information can be generated through Hi-C, Mate-pair, Long reads, whole genome maps, etc., and can be generated through various experiments and analysis methods.

상기 그룹 대상 선도게놈 조립부(440)는, 참조개체의 원거리 유전자서열 상호작용정보, 대표대상개체의 DNA 전장서열 해독정보, 및 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립하는 과정을 진행할 수 있다. The group target leader genome assembly unit 440 assembles the leader genome using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. process can proceed.

상기 다중 대상 개별 표준게놈지도 생성부(500)는, 유전적 다양성이 존재(유전적 다양성이 큰 다수의 그룹을 대상으로 하는 경우)하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성할 수 있다. 이를 위해, 다중 대상 개별 표준게놈지도 생성부(500)는 도 8에 도시된 바와 같이 제2 대표대상개체 선정부(510), 다중 대상 DNA 정보 해독부(520), 다중 대상 참조개체 선정부(530) 및 다중 대상 선도게놈 조립부(540)를 포함할 수 있다.The multi-target individual standard genome map generating unit 500 may generate individual standard genome maps for a plurality of target objects in which genetic diversity exists (when targeting a large number of groups with large genetic diversity). can To this end, the multi-target individual standard genome map generator 500 includes a second representative target object selection unit 510, a multi-target DNA information decoding unit 520, and a multi-target reference object selection unit ( 530) and a multi-target leader genome assembly unit 540.

상기 제2 대표대상개체 선정부(510)는, 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정할 수 있다. 즉, 하나의 샘플이 아닌 두 개 또는 세 개 이상의 유전적 대표성을 갖는 샘플을 유전적 거리 상에서의 적절한 배치를 위해 정해서 할 수가 있다. The second representative target object selection unit 510 calculates mutual genetic distances for a plurality of target objects, classifies the plurality of target objects into at least two groups based on the calculated genetic distances, and classifies At least one representative object having genetic representativeness among the object objects in each group may be selected, respectively. That is, not one sample, but two or three or more genetic representative samples can be determined for proper placement on the genetic distance.

예를 들어, 100명의 한 지역 사람들에 대한 게놈정보를 해독하고, 해독된 게놈정보를 제공하고자 할 경우, 100명의 사람들의 유전적 거리를 측정한 후, 그 그룹 내에서 유전적 거리에 따른 그룹으로 분류 할 수 있는지를 확인하고, 적어도 2개의 그룹으로 분류될 수 있는 경우, 각 그룹별로 유전적 대표성을 갖는 사람(즉, 해당 그룹 내에서 유전적으로 가장 중간 위치에 있는 사람)을 선정할 수 있다. 이때, 2개의 그룹으로 분류되면, 각 그룹에서 가장 중간적 대표성을 가지는 사람을 선정하고, 그 두 명의 대표자에 한해서 원거리 유전자서열 상호작용 정보를 생산하고, 나머지 사람들은 그 두 명 중에 자신과 가장 가까운 대표자의 원거리 유전자서열 상호작용정보를 활용하여, 자신의 개인 표준게놈지도를 만들 수 있다. For example, if you want to decode genomic information about 100 people in a local area and provide the decoded genomic information, measure the genetic distance of 100 people and then divide the genetic distance into a group within the group. It is confirmed that classification is possible, and if it can be classified into at least two groups, a person with genetic representativeness for each group (that is, a person with the most genetically intermediate position within the group) can be selected. At this time, if classified into two groups, the person with the most intermediate representative from each group is selected, and distant gene sequence interaction information is produced only for the two representatives, and the rest of the two people are the closest to themselves. You can create your own personal standard genome map by using the representative's distant gene sequence interaction information.

상기 다중 대상 DNA 정보 해독부(520)는, 각 그룹 별로 대표대상개체와 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성할 수 있다. 다중 대상 DNA 정보 해독부(520)에서는 DNA 서열 해독을 통해 단서열(short reads) 또는/및 장서열(long reads)을 생성할 수 있으며, DNA 서열 해독 방법으로는 공개된 다양한 해독 방법을 적용할 수 있으며, 본 실시예에서는 특정 해독 방법으로 한정하는 것은 아니다.The multi-target DNA information decoding unit 520 may generate DNA full-length sequence decoding information by decoding the DNA sequences for the general target object other than the representative target object and the representative target object for each group. The multi-target DNA information decoding unit 520 may generate short reads and/or long reads through DNA sequence decoding, and various publicly disclosed decoding methods may be applied as the DNA sequence decoding method. may be, and this embodiment is not limited to a specific decoding method.

상기 다중 대상 참조개체 선정부(530)는, 대표대상개체의 DNA 전장서열 해독정보를 이용하여 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정할 수 있다.The multi-target reference object selection unit 530 may select reference objects having the closest distant gene sequence interaction information to the representative object by using the full-length DNA sequence decoding information of the representative object.

상술한 예에서, 100명의 대상자가 70명과 30명으로 두 개의 그룹으로 분류될 경우, 각 70명, 30명의 대표적인 사람의 원거리 유전자서열 상호작용정보를 가장 정밀히 생성하고, 나머지 69명, 49명의 사람들은 그 사람의 원거리 유전자서열 상호작용정보를 활용하여 개인 표준게놈지도를 각각 생성을 할 수 있다. 이러한 경우, 많은 비용 절감이 있고, 실제 상호 간의 게놈구조가 비슷한 사람들끼리 그룹을 만들었으므로, 표준게놈지도의 정밀도도 크게 손상이 되지 않는다. 특히, 가족이니 대가족의 경우, 서로간의 게놈구조는 매우 비슷하므로, 비용 절약이 상대적으로 클 수 있다. In the above example, when 100 subjects are classified into two groups of 70 and 30, the distant gene sequence interaction information of each 70 and 30 representative people is most precisely generated, and the remaining 69 and 49 people are can generate individual standard genome maps using the person's distant gene sequence interaction information. In this case, there is a lot of cost savings, and since a group is made of people with similar genomic structures to each other, the precision of the standard genome map is not significantly impaired. In particular, in the case of a large family or a family, since the genome structure of each other is very similar, cost savings can be relatively large.

상기 다중 대상 선도게놈 조립부(540)는, 참조개체의 원거리 유전자서열 상호작용정보, 대표대상개체의 DNA 전장서열 해독정보, 및 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립하는 과정을 진행할 수 있다.The multi-target leader genome assembly unit 540 assembles each lead genome by using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object. process can proceed.

본 발명의 실시예에 따른 개체 개별 표준게놈지도의 생성 방법(S1000) 및 시스템(1000)은, 쌍둥이나, 형제, 가족, 친척 등 이미 매우 가까운 게놈의 유사성을 가진 사람(혈육관계에 있는 사람)이나 동식물의 경우, 굳이 자신만의 게놈상 원거리 유전자서열정보를 생산하지 않고, 미리 생산되어 만들어져 있는 가까운 게놈의 원거리 게놈서열 상호작용정보를 활용함으로써 그 생산 과정을 생략하고도, 원하는 정도의 효과를 얻을 수 있다.The method (S1000) and the system (1000) for generating an individual standard genome map according to an embodiment of the present invention is a person (a person in a blood relationship) who already has very close genome similarity, such as twins, brothers, family members, and relatives. However, in the case of plants and animals, the desired effect can be achieved without omitting the production process by using the distant genome sequence interaction information of the nearby genome that has been produced and made in advance, rather than producing their own genome sequence information. can be obtained

특히, Hi-C(Chromosome conformation capture)(염색체 정합 캡처)라고 불리는 방법을 이용하여, 인간 및 동식물의 게놈서열의 원거리 상호작용정보를 표준화하고, 그 표준화된 개체/종에 속하는 샘플에 대한 표준게놈지도를 생성해야 할 경우, 각 샘플의 Hi-C 정보를 생산하지 않고도, 유전적으로 가장 가깝고 표준화된 원거리 유전자서열 상호작용정보를 활용하여 게놈조립정보를 제공함으로써 표준게놈지도 생성에 필요한 비용을 절약할 수 있다. In particular, using a method called Hi-C (Chromosome conformation capture) (chromosome conformation capture), long-distance interaction information of human and animal and plant genome sequences is standardized, and the standard genome for samples belonging to the standardized individual/species When it is necessary to generate a map, without producing Hi-C information of each sample, it is possible to save the cost required for generating a standard genome map by providing genome assembly information using the genetically closest and standardized distant gene sequence interaction information. can

또한, 가족이나 친척과 같은 인족에 대한 표준게놈지도를 각각 생성하는 경우, 멤버 모두에 대한 원거리 유전자서열 상호작용정보를 생성할 필요 없이 한 사람만의 원거리 유전자서열 상호작용정보를 생산하고, 생성된 정보에 나머지 멤버들의 전장서열정보를 활용함으로써 비용 절감과 더불어, 인간표준게놈지도를 이용하는 것보다도 더 정확하고 자신과 가까운 원거리 표준게놈지도 초안을 만들 수 있다. In addition, in the case of generating a standard genome map for a human race such as a family or a relative, it is not necessary to generate the long-distance gene sequence interaction information for all members, but only one person produces the long-distance gene sequence interaction information, By using the full-length sequence information of the remaining members for information, it is possible to reduce costs and create a more accurate and closer long-distance standard genome map than using a human standard genome map.

예를 들어, 한 가족이 부모와 자녀가 3명이면, 총 5명의 개인 표준게놈지도를 만들 경우, 아버지의 샘플만 원거리 유전자 상호작용 서열을 생산한 후, 5명 모두 아버지의 게놈지도 뼈대만을 사용하여 게놈지도를 작성할 수가 있다. For example, if a family has three parents and three children, if a total of five individual standard genome maps are made, only the father's sample produces distant gene interaction sequences, and then all five use only the father's genome map skeleton. Thus, a genome map can be created.

추가적인 사항으로, 이러한 방법을 이용할 경우 전장게놈 서열정보 생산도 유전적으로 매우 가까운 사람들과 같이 할 경우, 해독의 깊이도 인간의 경우 보통 쓰는 30x의 깊이가 아니라, 15x 등 해독량만으로도 원하는 수준의 해독 결과를 제공할 수 있어 해독 관련 비용을 획기적으로 줄일 수 있다. In addition, when using this method, if the full-length genome sequence information is produced with people who are genetically very close, the depth of decoding is not the depth of 30x that is normally used in humans, but the desired level of decoding results only with the amount of decoding such as 15x. can be provided, which can dramatically reduce the cost of detoxification.

이에 따라, 원거리 유전자서열 상호작용정보 제공과 더불어 전체적 해독량의 비용 절감도 가능하다. Accordingly, it is possible to provide remote gene sequence interaction information and reduce the cost of the overall decoding amount.

이상에서 설명한 것은 본 발명에 의한 개체 개별 표준게놈지도의 생성 방법 및 시스템을 실시하기 위한 하나의 실시예에 불과한 것으로서, 본 발명은 상기 실시예에 한정되지 않고, 이하의 특허청구범위에서 청구하는 바와 같이 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변경 실시가 가능한 범위까지 본 발명의 기술적 정신이 있다고 할 것이다.What has been described above is only one embodiment for implementing the method and system for generating an individual standard genome map according to the present invention, and the present invention is not limited to the above embodiment, but as claimed in the claims below Likewise, without departing from the gist of the present invention, it will be said that the technical spirit of the present invention exists to the extent that various modifications can be made by anyone with ordinary knowledge in the field to which the invention pertains.

S1000: 개체 개별 표준게놈지도의 생성 방법
S100: DNA 해독정보 생성 단계
S200: 참조개체 선정 단계
S300: 개별 표준게놈지도 생성 단계
S310: 제1 선도게놈 1차 조립 단계
S320: 제1 선도게놈 2차 조립 단계
S330: 제2 선도게놈 1차 조립 단계
S340: 제2 선도게놈 2차 조립 단계
S400: 그룹 대상 개별 표준게놈지도 생성 단계
S410: 대표대상개체 선정 단계
S420: DNA 정보 해독 단계
S430: 참조개체 선정 단계
S440: 선도게놈 조립 단계
S500: 다중 대상 개별 표준게놈지도 생성 단계
S510: 대표대상개체 선정 단계
S520: DNA 정보 해독 단계
S530: 참조개체 선정 단계
S540: 선도게놈 조립 단계
1000: 개체 개별 표준게놈지도의 생성 시스템
100: DNA 정보 해독부
200: 참조개체 선정부
300: 개별 표준게놈지도 생성부
310: 제1 선도게놈 조립부
320: 제2 선도게놈 조립부
330: 제3 선도게놈 조립부
340: 제4 선도게놈 조립부
400: 그룹 대상 개별 표준게놈지도 생성부
410: 제1 대표대상개체 선정부
420: 그룹 대상 DNA 정보 해독부
430: 그룹 대상 참조개체 선정부
440: 그룹 대상 선도게놈 조립부
500: 다중 대상 개별 표준게놈지도 생성부
510: 제2 대표대상개체 선정부
520: 다중 대상 DNA 정보 해독부
530: 다중 대상 참조개체 선정부
540: 다중 선도게놈 조립부
S1000: Method for generating individual standard genome maps
S100: DNA decoding information generation step
S200: Reference object selection step
S300: Individual standard genome map generation step
S310: first step of assembling the first leader genome
S320: Second assembly step of the first leader genome
S330: first assembly stage of the second leader genome
S340: Second leader genome secondary assembly step
S400: Step of generating individual standard genome maps for groups
S410: Representative target object selection step
S420: DNA information decoding step
S430: Reference object selection step
S440: Lead genome assembly stage
S500: Multi-target individual standard genome map generation step
S510: Representative target object selection stage
S520: DNA information decoding step
S530: Reference object selection step
S540: Lead genome assembly stage
1000: system for generating individual standard genome maps
100: DNA information decoding unit
200: reference object selection unit
300: Individual standard genome map generation unit
310: first lead genome assembly unit
320: second lead genome assembly unit
330: third lead genome assembly unit
340: fourth leader genome assembly unit
400: Individual standard genome map generation unit for group
410: first representative target object selection unit
420: group target DNA information decoding unit
430: group target reference object selection unit
440: group target leader genome assembly part
500: Multi-target individual standard genome map generation unit
510: second representative target object selection unit
520: multi-target DNA information decoding unit
530: multi-target reference object selection unit
540: multi-lead genome assembly unit

Claims (14)

개별 표준게놈지도 생성 시스템을 이용하여 생물체의 개체에 대한 개별 표준게놈지도를 생성하기 위한 방법에 관한 것으로,
(a) 대상개체에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성하는 단계;
(b) 상기 대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 단계; 및
(c) 상기 참조개체의 원거리 유전자서열 상호작용정보와 상기 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 조립하여 상기 대상개체에 대한 개별 표준게놈지도를 생성하는 단계를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
It relates to a method for generating an individual standard genome map for an organism of an organism using an individual standard genome map generation system,
(a) generating DNA full-length sequence decoding information by decoding the DNA sequence for the subject;
(b) selecting a reference entity having the closest distant gene sequence interaction information to the target entity using the full-length DNA sequence decoding information of the target entity; and
(c) assembling a leader genome using the remote gene sequence interaction information of the reference object and the full-length DNA sequence decoding information of the target object to generate an individual standard genome map for the target object A method for generating individual standard genome maps.
제1 항에 있어서,
상기 (b)단계는,
유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
Step (b) is,
Genetic distance, phylogenetic tree, whole genome sequence mapping rate, number of variants, questionnaire information asking about neighborhood, and evolutionary relationship information A method of generating an individual standard genome map for an individual, characterized in that selecting a reference object having the closest distant gene sequence interaction information to the target object using at least one of the
제1 항에 있어서,
상기 (c)단계는,
(c-1) 상기 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립을 진행하는 단계; 및
(c-2) 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 단계를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
Step (c) is,
(c-1) performing the primary assembly of the leader genome based on the full-length DNA sequence decoding information of the subject; and
(c-2) A method of generating an individual standard genome map for an individual, comprising the step of performing secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference entity.
제1 항에 있어서,
상기 (c)단계는,
(c-3) 상기 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 상기 대상개체의 DNA 서열을 매핑(mapping)하고, 매핑된 정보에서 해당 종에 대하여 미리 구축된 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행하는 단계; 및
(c-4) 상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 단계를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
Step (c) is,
(c-3) If there is a standard genome map of the species to which the target object belongs, the DNA sequence of the target object is mapped to the standard genome map of the corresponding species, and a pre-built performing primary assembly of the lead genome by separating regions that are structurally inconsistent with the standard genome map; and
(c-4) A method of generating an individual standard genome map for an individual, comprising the step of performing secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference entity.
제1 항에 있어서,
상기 (c)단계는,
조립된 선도게놈정보에 대한 에러와 갭을 줄여 대상개체에 대한 개별 표준게놈지도를 제공하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
Step (c) is,
A method of generating an individual standard genome map for an individual, characterized in that it provides an individual standard genome map for a target object by reducing errors and gaps for the assembled lead genome information.
제1 항에 있어서,
인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 각각 생성하는 경우,
(d) 상기 그룹 중 일부 대상개체를 대표대상개체로 임의 선정하는 단계;
(e) 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 단계;
(f) 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 단계; 및
(g) 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립을 진행하는 단계를 더 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
When generating individual standard genome maps for each individual within a racial group,
(d) randomly selecting some target objects from the group as representative target objects;
(e) generating DNA full-length sequence decoding information by deciphering the DNA sequences for the representative object and the general object other than the representative object;
(f) selecting a reference object having the closest distant gene sequence interaction information to the representative object using the full-length DNA sequence decoding information of the representative object; and
(g) the step of assembling each lead genome using the remote gene sequence interaction information of the reference object, the DNA full-length sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object, respectively. A method for generating individual standard genome maps, comprising:
제1 항에 있어서,
유전적 다양성이 존재하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성하는 경우,
(h) 상기 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 상기 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정하는 단계;
(i) 각 그룹 별로 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 단계;
(j) 상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정하는 단계; 및
(k) 상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립을 진행하는 단계를 더 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 방법.
According to claim 1,
In the case of generating individual standard genome maps for a large number of target individuals in which genetic diversity exists,
(h) calculating mutual genetic distances for the plurality of target objects, classifying the plurality of target objects into at least two groups based on the calculated genetic distances, and among the objects in each classified group selecting at least one representative object having genetic representativeness, respectively;
(i) generating DNA full-length sequence decoding information by deciphering the DNA sequences for the representative object and the general object other than the representative object for each group;
(j) selecting each reference object having the closest distant gene sequence interaction information to the representative object by using the full-length DNA sequence decoding information of the representative object; and
(k) using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object to assemble the leader genome, respectively. A method for generating individual standard genome maps, comprising:
생물체의 개체에 대한 개별 표준게놈지도를 생성하기 위한 시스템에 관한 것으로,
대상개체에 대한 DNA 서열을 해독하여 DNA 전장서열 해독정보를 생성하는 제1 DNA 정보 해독부;
상기 대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 참조개체 선정부; 및
상기 참조개체의 원거리 유전자서열 상호작용정보와 상기 대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 조립하여 상기 대상개체에 대한 개별 표준게놈지도 생성하는 개별 표준게놈지도 생성부를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
It relates to a system for generating an individual standard genomic map for an organism of an organism, comprising:
a first DNA information decoding unit for generating DNA full-length sequence decoding information by decoding the DNA sequence for the subject;
a reference object selection unit for selecting a reference object having the closest distant gene sequence interaction information to the target object using the full-length DNA sequence decoding information of the target object; and
It comprises an individual standard genome map generator that assembles a leader genome using the remote gene sequence interaction information of the reference object and the full-length DNA sequence decoding information of the target object to generate an individual standard genome map for the target object. A system for generating individual standard genome maps.
제8 항에 있어서,
상기 참조개체 선정부는,
유전적 거리(genetic distance), 계통수(phylogenetic tree), 전장유전자서열 매핑율(whole genome sequence mapping rate), 변이 개수(variant numbers), 근연(neighborhood) 여부를 묻는 설문정보, 및 진화적 유연관계 정보 중 적어도 하나를 이용하여 상기 대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
The reference object selection unit,
Genetic distance, phylogenetic tree, whole genome sequence mapping rate, number of variants, questionnaire information asking about neighborhood, and evolutionary relationship information A system for generating individual standard genome maps for individuals, characterized in that selecting a reference object having the closest distant gene sequence interaction information to the target object using at least one of
제8 항에 있어서,
상기 개별 표준게놈지도 생성부는,
상기 대상개체의 DNA 전장서열 해독정보를 기반으로 선도게놈을 1차 조립을 진행하는 제1 선도게놈 조립부; 및
상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 제2 선도게놈 조립부를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
The individual standard genome map generation unit,
a first leader genome assembly unit for performing primary assembly of a leader genome based on the full-length DNA sequence decoding information of the target object; and
and a second leader genome assembly unit for performing secondary assembly of the firstly assembled leader genome using the distant gene sequence interaction information of the reference object.
제8 항에 있어서,
상기 개별 표준게놈지도 생성부는,
상기 대상개체가 속한 종의 표준게놈지도가 있는 경우, 해당 종의 표준게놈지도에 상기 대상개체의 DNA 서열을 매핑(mapping)하고, 매핑된 정보에서 해당 종에 대하여 미리 구축된 표준게놈지도와 구조적으로 불일치하는 영역을 분리시켜 선도게놈을 1차 조립을 진행하는 제3 선도게놈 조립부; 및
상기 참조개체의 원거리 유전자서열 상호작용정보를 이용하여 1차 조립된 선도게놈을 2차 조립을 진행하는 제4 선도게놈 조립부를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
The individual standard genome map generation unit,
When there is a standard genome map of the species to which the target object belongs, the DNA sequence of the target object is mapped to the standard genome map of the corresponding species, and the standard genome map and structural a third leader genome assembly unit for first assembling the leader genome by separating the regions that do not match; and
and a fourth leader genome assembly unit for performing secondary assembly of the first assembled leader genome using the distant gene sequence interaction information of the reference object.
제8 항에 있어서,
상기 개별 표준게놈지도 생성부는,
조립된 선도게놈정보에 대한 에러와 갭을 줄여 대상개체에 대한 개별 표준게놈지도를 제공하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
The individual standard genome map generation unit,
A system for generating an individual standard genome map for an individual, characterized in that it provides an individual standard genome map for a target object by reducing errors and gaps for the assembled lead genome information.
제8 항에 있어서,
인족 그룹 내 각 개체들에 대한 개별 표준게놈지도를 각각 생성하는 인족 그룹 대상 개별 표준게놈지도 생성부를 더 포함하고,
상기 인족 그룹 대상 개별 표준게놈지도 생성부는,
상기 그룹 중 일부 대상개체를 대표대상개체로 임의 선정하는 제1 대표대상개체 선정부;
상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 그룹 대상 DNA 정보 해독부;
상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 선정하는 그룹 대상 참조개체 선정부; 및
상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 이용하여 선도게놈을 각각 조립을 진행하는 그룹 대상 선도게놈 조립부를 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
Further comprising an individual standard genome map generating unit for a human group for generating an individual standard genome map for each individual within the ethnic group,
The individual standard genome map generation unit for the ethnic group,
a first representative target object selection unit that randomly selects some target objects from the group as representative target objects;
a group target DNA information decoding unit for generating DNA full-length sequence decoding information by decoding the DNA sequences for the representative target object and the general target object other than the representative target object;
a group target reference object selection unit for selecting a reference object having the closest distant gene sequence interaction information to the representative target object using the full-length DNA sequence decoding information of the representative object; and
The group target leader genome assembly unit for assembling the leader genome using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object Generating system of individual individual standard genome map, characterized in that it includes.
제8 항에 있어서,
유전적 다양성이 존재하는 다수의 대상개체들에 대한 개별 표준게놈지도를 각각 생성하는 다중 대상 개별 표준게놈지도 생성부를 더 포함하고,
상기 다중 대상 개별 표준게놈지도 생성부는,
상기 다수의 대상개체에 대한 상호 유전적 거리를 계산하고, 계산된 유전적 거리에 기초하여, 상기 다수의 대상개체를 적어도 두 개의 그룹으로 분류하고, 분류된 각 그룹 내 대상개체들 중 유전적 대표성을 갖는 적어도 하나의 대표대상개체를 각각 선정하는 제2 대표대상개체 선정부;
각 그룹 별로 상기 대표대상개체와 상기 대표대상개체를 제외한 나머지 일반대상개체에 대한 DNA 서열을 각각 해독하여 DNA 전장서열 해독정보를 생성하는 다중 대상 DNA 정보 해독부;
상기 대표대상개체의 DNA 전장서열 해독정보를 이용하여 상기 대표대상개체와 가장 가까운 원거리 유전자서열 상호작용정보가 있는 참조개체를 각각 선정하는 다중 대상 참조개체 선정부; 및
상기 참조개체의 원거리 유전자서열 상호작용정보, 상기 대표대상개체의 DNA 전장서열 해독정보, 및 상기 일반대상개체의 DNA 전장서열 해독정보를 활용하여 선도게놈을 각각 조립을 진행하는 다중 대상 선도게놈 조립부를 더 포함하는 것을 특징으로 하는 개체 개별 표준게놈지도의 생성 시스템.
9. The method of claim 8,
Further comprising a multi-target individual standard genome map generator for generating individual standard genome maps for a plurality of target objects in which genetic diversity exists,
The multi-target individual standard genome map generation unit,
Calculating the mutual genetic distance for the plurality of target objects, classifying the plurality of target objects into at least two groups based on the calculated genetic distance, and genetic representativeness among the objects in each classified group a second representative target object selection unit for selecting at least one representative target object, respectively;
a multi-target DNA information decoding unit for generating DNA full-length sequence decoding information by decoding the DNA sequences for the representative target object and the general target object other than the representative target object for each group;
a multi-target reference object selection unit for selecting reference objects having the closest distant gene sequence interaction information to the representative object using the full-length DNA sequence decoding information of the representative object; and
A multi-target leader genome assembly unit for assembling a leader genome by using the remote gene sequence interaction information of the reference object, the full-length DNA sequence decoding information of the representative object, and the DNA full-length sequence decoding information of the general object Generating system of individual individual standard genome map, characterized in that it further comprises.
KR1020200048171A 2020-04-21 2020-04-21 Method for making individual reference genome map and system thereof KR20210129977A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200048171A KR20210129977A (en) 2020-04-21 2020-04-21 Method for making individual reference genome map and system thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200048171A KR20210129977A (en) 2020-04-21 2020-04-21 Method for making individual reference genome map and system thereof

Publications (1)

Publication Number Publication Date
KR20210129977A true KR20210129977A (en) 2021-10-29

Family

ID=78231438

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200048171A KR20210129977A (en) 2020-04-21 2020-04-21 Method for making individual reference genome map and system thereof

Country Status (1)

Country Link
KR (1) KR20210129977A (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090861A1 (en) * 2021-11-19 2023-05-25 주식회사 클리노믹스 System and method for generating specific standard genome data of mixture or hybrid of populations, disease populations, breeds, etc., and determining genetic population composition

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100314666B1 (en) 2000-07-28 2001-11-17 이종인 A method and network system for genome genealogy and family genome information service
KR101930253B1 (en) 2017-01-13 2018-12-18 주식회사 클리노믹스 Apparatus and method constructing consensus reference genome map

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100314666B1 (en) 2000-07-28 2001-11-17 이종인 A method and network system for genome genealogy and family genome information service
KR101930253B1 (en) 2017-01-13 2018-12-18 주식회사 클리노믹스 Apparatus and method constructing consensus reference genome map

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023090861A1 (en) * 2021-11-19 2023-05-25 주식회사 클리노믹스 System and method for generating specific standard genome data of mixture or hybrid of populations, disease populations, breeds, etc., and determining genetic population composition

Similar Documents

Publication Publication Date Title
Li et al. Genome sequencing and assembly by long reads in plants
Paritosh et al. A chromosome‐scale assembly of allotetraploid Brassica juncea (AABB) elucidates comparative architecture of the A and B genomes
Yunusbayev et al. The genetic legacy of the expansion of Turkic-speaking nomads across Eurasia
Redecker et al. An evidence-based consensus for the classification of arbuscular mycorrhizal fungi (Glomeromycota)
Chandrasekar et al. Updating phylogeny of mitochondrial DNA macrohaplogroup m in India: dispersal of modern human in South Asian corridor
Henson et al. Next-generation sequencing and large genome assemblies
Översti et al. Human mitochondrial DNA lineages in Iron-Age Fennoscandia suggest incipient admixture and eastern introduction of farming-related maternal ancestry
Abdelkrim et al. Fast, cost-effective development of species-specific microsatellite markers by genomic sequencing
Hibbett A phylogenetic overview of the Agaricomycotina
Liu et al. The mitochondrial genome of Morchella importuna (272.2 kb) is the largest among fungi and contains numerous introns, mitochondrial non-conserved open reading frames and repetitive sequences
Coetzee et al. Armillaria root-rot pathogens: species boundaries and global distribution
Marchi et al. The genomic origins of the world’s first farmers
Aguirre et al. Optimizing ddRADseq in non-model species: A case study in Eucalyptus dunnii Maiden
Braglia et al. New insights into interspecific hybridization in Lemna L. sect. Lemna (Lemnaceae Martinov)
Gugerli et al. Community genetics in the time of next‐generation molecular technologies
Aragona et al. New-generation sequencing technology in diagnosis of fungal plant pathogens: a dream comes true?
Celis et al. Evolutionary and biogeographical implications of degraded LAGLIDADG endonuclease functionality and group I intron occurrence in stony corals (Scleractinia) and mushroom corals (Corallimorpharia)
Li et al. Phylogenomics reveals accelerated late Cretaceous diversification of bee flies (Diptera: Bombyliidae)
Arora et al. A high-density intraspecific SNP linkage map of pigeonpea (Cajanas cajan L. Millsp.)
Pérez et al. Multilocus intron trees reveal extensive male-biased homogenization of ancient populations of chamois (Rupicapra spp.) across Europe during Late Pleistocene
KR20210129977A (en) Method for making individual reference genome map and system thereof
Margaryan et al. Genetic diversity of Armenian grapevine (Vitis vinifera L.) germplasm: Molecular characterization and parentage analysis
Liu et al. Comparative analyses of chloroplast genomes provide comprehensive insights into the adaptive evolution of Paphiopedilum (Orchidaceae)
Sudheesh et al. Application of genomics approaches for the improvement in ascochyta blight resistance in chickpea
De Castro et al. Disentangling phylogenetic relationships in a hotspot of diversity: The butterworts (Pinguicula L., Lentibulariaceae) endemic to Italy

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X601 Decision of rejection after re-examination