KR102252977B1 - Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용 - Google Patents

Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용 Download PDF

Info

Publication number
KR102252977B1
KR102252977B1 KR1020190025377A KR20190025377A KR102252977B1 KR 102252977 B1 KR102252977 B1 KR 102252977B1 KR 1020190025377 A KR1020190025377 A KR 1020190025377A KR 20190025377 A KR20190025377 A KR 20190025377A KR 102252977 B1 KR102252977 B1 KR 102252977B1
Authority
KR
South Korea
Prior art keywords
sequence
code
dna
sum
base
Prior art date
Application number
KR1020190025377A
Other languages
English (en)
Other versions
KR20200106761A (ko
Inventor
손인식
김현주
Original Assignee
주식회사 헤세그
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 헤세그 filed Critical 주식회사 헤세그
Priority to KR1020190025377A priority Critical patent/KR102252977B1/ko
Priority to US17/434,122 priority patent/US20220139500A1/en
Priority to EP19918443.3A priority patent/EP3937177A4/en
Priority to CN201980089597.2A priority patent/CN113614834B/zh
Priority to JP2021553075A priority patent/JP7275301B2/ja
Priority to PCT/KR2019/003570 priority patent/WO2020179962A1/ko
Publication of KR20200106761A publication Critical patent/KR20200106761A/ko
Priority to KR1020210023395A priority patent/KR102280758B1/ko
Application granted granted Critical
Publication of KR102252977B1 publication Critical patent/KR102252977B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/10Nucleic acid folding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/20Sequence assembly
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/50Compression of genetic data
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Biochemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 (a) C, T, A, G인 4가지 염기에 각각 00, 01, 10, 11로 명명하고, (b) 각 염기가 G와 C 그리고 A와 T의 염기 쌍을 이루었을 때는 5'에서 3'방향으로 각각 G와 C의 경우에는 1100, C와 G의 경우에는 0011, A와 T의 경우에는 1001, T와 A의 경우에는 0110으로 명명하는 DNA를 코드 표준화하는 방법에 관한 것으로, 본 발명의 DNA 코드 표준화 방법은 염기 서열 내의 특정 패턴 및 2차 구조, 염기 서열 변이 파악 등에 용이한 방법을 제공하고 SNP 등의 질병 특이적인 서열 변이를 이용함으로써 질병의 예측을 용이하게 하는 등 DNA 단편이나 압타머 등의 염기 서열 내에 존재하는 특정 패턴 파악에 용이한 방법을 제공한다.

Description

DNA 코드화 방법 및 그 코드화 방법의 의생명공학적 응용{A METHOD CODING STANDARDIZATION OF DNA AND A BIOTECHNOLOGICAL USE OF THE METHOD}
본 발명은 DNA의 코드 표준화 방법 및 그 방법의 최적화된 의생명공학적 응용에 관한 것이다.
생명체에서 유전물질로 존재하는 DNA(DeoxyriboNucleic Acid)는 단백질로 발현되는 유전자 부위와 비유전자 부위로 구성되어 있다. DNA의 화학 구조는 Deoxyribose인 오탄당의 5'탄소에 인산기와 1'탄소에 염기(base)가 연결되어 뉴클레오티드(Nucloeotide)라는 단위체를 형성하는데 이 때, 뉴클레오티드에 연결된 염기의 종류에 따라 DNA의 서열이 결정된다.
염기의 종류는 2가지 계열로 구분되며 고리 구조가 2개인 퓨린 계열의 염기와 고리구조가 1개인 피리미딘 계열이 있다. 퓨린 계열은 다시 구아닌(G)과 아데닌(A), 피리미딘 계열은 시토신(C)과 티민(T)등이 있으며 RNA의 경우 오탄당의 2'탄소에 -OH기가 연결되어 있는 것과 염기의 구성이 티민 대신 우라실(U)로 치환되어 있는 차이가 있다. 퓨린계열의 G는 피리미딘인 C와 수소결합으로 상보적인 쌍을 이루며 A는 T와 쌍을 이룬다. 이 때, G와 C의 상보 결합은 3개의 수소결합으로 연결되어 있기 때문에 2개의 수소결합을 이루는 A와 T의 결합보다 더 강한 결합을 이루고 있다.
DNA의 뉴클레오티드 단위체는 5'탄소에 연결된 인산기가 또 다른 단위체의 3'탄소 -OH기와 인산다이에스터 결합(Phosphodiester bond)으로 연결되어 하나의 가닥을 이룬다. 인산 다이에스터 결합으로 연결된 2개의 상보적인 단일가닥들은 상보 염기의 수소결합으로 이중 나선 구조를 형성하고 있다. 이러한 이중나선구조는 1953년 왓슨과 크릭에 의해 소개되었다. [Watson, J. D., & Crick, F. H. (1953). Molecular structure of nucleic acids. Nature, 171(4356), 737-738.]
DNA 중 유전자 부위의 염기서열은 3개의 염기 코드가 단백질을 구성하는 하나의 아미노산(Amino acid)으로 번역되어 연결되면서 단백질이 합성되는데 중요한 역할을 한다. DNA는 mRNA로 전사된 후 염기서열의 순서에 따라 20가지의 아미노산으로 번역되는데 번역되는 아미노산이 tRNA에 의해 연결되면서 단백질이 형성되어 세포 내의 구성 물질로 존재하고, 생체 내 여러 반응을 매개하는 효소로써 작용하기도 한다.
인간의 DNA의 경우 30억 개의 염기쌍(bp)을 가지며 한 사람당 GB단위의 데이터 용량을 가진다. 이 용량을 인구 수로 환산하면 PB단위로도 부족한 실정이다. 때문에 인간의 모든 DNA sequence를 분석하기보다는 질병 특이적인 SNP(Single Nucleotide polymorphism, 염기다형성)부위 등을 분석함으로써 짧은 DNA 절편의 sequence로 질병 예측 분석이 이루어지고 있지만, 이마저도 모든 유전자의 SNP 부위를 분석해내지 못한 실정이며, 이를 분석하기 위한 다양한 프로그램 개발이 필요하다.
[선행 특허 문헌]
대한민국 공개특허 10-2016-0001455
본 발명은 상기 문제점을 해결하고, 상기의 필요성에 의해 안출된 것으로 본 발명의 목적은 DNA 염기를 각 염기의 분자량이 고려된 2진수 코드(1 염기당 2 bit)로 표준화하여 염기 서열 내에 존재하는 특정 패턴 파악에 최적화된 방법을 제공하는 것이다.
본 발명의 다른 목적은 염기서열의 코드합을 이용한 상보 결합 여부 및 패턴 파악에 용이한 방법을 제공하고 DNA 단편이나 DNA 압타머의 패턴 및 기능을 예측하는데 용이한 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 염기서열의 코드만으로 서열 간의 분자량 비율과 각 염기의 비율 등을 파악하는데 용이한 방법을 제공하는 것이다.
본 발명의 또 다른 목적은 염기 서열 내의 변이 파악에 용이한 방법을 제공하고 SNP 등의 질병 특이적인 서열 변이를 이용함으로써 질병 예측에 용이한 방법을 제공하는 것이다.
상기의 목적을 달성하기 위하여 본 발명은 다음 단계를 포함하는 DNA의 코드 표준화하는 방법을 제공한다: (a) C, T, A, G인 4가지 염기에 각각 00, 01, 10, 11로 명명하고, (b) 각 염기가 G와 C 그리고 A와 T의 염기 쌍을 이루었을 때는 5'에서 3'방향으로 각각 G와 C의 경우에는 1100, C와 G의 경우에는 0011, A와 T의 경우에는 1001, T와 A의 경우에는 0110으로 명명한다.
또한 본 발명은 다음 단계를 포함하는 DNA의 코드 표준화를 이용한 특정 DNA 단편이나 압타머의 특정패턴이나 2차 구조 확인하는데 최적화된 정보 제공 방법을 제공한다:(a) 특정 DNA 단편 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및 (b) 상기 수치로 명명화된 코드의 배열과 각 코드 합의 배열을 비교하는 단계.
본 발명의 일 구현예에 있어서, 상기 코드의 배열과 각 코드 합의 배열을 비교하는 단계는 상기 (a) 단계의 00, 01, 10, 및 11의 이진수의 수 배열을 십진수로 변형한 후에 각 서열의 합이 3이 되는 코드의 배열이 2 쌍 이상 양 끝에 배열되어 있는 경우에 스템 구조를 형성할 수 있다고 판단하며, 서로 마주보고 있는 서열의 코드합이 3보다 크거나 작아 상보 결합을 이룰 수 없는 서열이 3개 이상 중심에 연결되어 있을 때 루프 구조를 형성한다고 판단하는 것을 특징으로 하는 DNA의 코드 표준화를 이용한 특정 DNA 단편이나 압타머의 특정패턴이나 2차 구조 확인하는데 최적화된 정보 제공 방법이 바람직하나 이에 한정되지 아니한다.
또한 본 발명은 다음 단계를 포함하는 DNA의 코드 표준화를 이용한 특정 DNA 단편의 염기서열 변이 존재 여부에 대한 정보제공 방법을 제공한다:(a) 특정 DNA 단편 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및 (b) 상기 수치로 명명화된 코드의 합을 비교하는 단계.
본 발명의 일 구현예에 있어서, 상기 코드의 합을 비교하는 단계는 상기 (a) 단계의 00, 01, 10, 및 11의 이진수의 수 배열을 십진수로 변형한 후 그 합을 구한 후에 정상 서열과 비교하여 1 내지 3의 차이가 있는 경우에 변이가 존재한다고 판단하는 것을 특징으로 하는 것이 바람직하나 이에 한정되지 아니한다.
본 발명의 다른 구현예에 있어서, 상기 방법은 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하여 얻어진 코드의 각각 수치를 비교함으로써 변이 서열의 위치를 확인할 수 있는 것이 바람직하나 이에 한정되지 아니한다.
또 본 발명은 컴퓨터-판독가능 매체에 저장되어, 컴퓨터로 하여금 이하의 단계들을 수행하도록 하기 위한 특정 DNA 단편이나 압타머의 특정패턴이나 2차 구조 확인하는데 최적화된 정보제공용 컴퓨터 프로그램으로서, 상기 단계들은:(a) 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및 (b) 상기 (a) 단계의 00, 01, 10, 및 11의 이진수의 수 배열을 십진수로 변형한 후에 각 서열의 합이 3이 되는 코드의 배열이 2 쌍 이상 양 끝에 배열되어 있는 경우에 스템 구조를 형성할 수 있다고 판단하며, 서로 마주보고 있는 서열의 코드합이 3보다 크거나 작아 상보 결합을 이룰 수 없는 서열이 3개 이상 중심에 연결되어 있을 때 루프 구조를 형성한다고 판단하는 단계를 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램을 제공한다.
또한 본 발명은 컴퓨터-판독가능 매체에 저장되어, 컴퓨터로 하여금 이하의 단계들을 수행하도록 하기 위한 특정 DNA 단편의 염기서열 변이 존재 여부에 대한 정보제공용 컴퓨터 프로그램으로서, 상기 단계들은:(a) 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및 (b) 상기 (a) 단계의 이진수의 수 배열을 십진수로 변형한 후 그 합을 구한 후에 정상 서열과 비교하여 1 내지 3의 차이가 있는 경우에 변이가 존재한다고 판단하는 것을 경우에 변이가 존재한다고 판단하는 단계를 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램을 제공한다.
또한 본 발명은 컴퓨터-판독가능 매체에 저장되어, 컴퓨터로 하여금 이하의 단계들을 수행하도록 하기 위한 특정 DNA 단편의 염기서열 변이 서열에 대한 위치에 대한 정보제공용 컴퓨터 프로그램으로서, 상기 단계들은:(a) 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및 (b) 상기 (a)단계의 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하여 얻어진 코드의 각각 수치를 비교함으로써 변이 서열의 위치를 확인하는 단계를 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램을 제공한다.
이하 본 발명을 설명한다.
본 발명은 DNA의 각각 분자량이 작은 순으로 C, T, A, G인 4가지 염기에 각각 00, 01, 10, 11의 코드로 명명하고, 각 염기가 G와 C 그리고 A와 T의 염기 쌍을 이루었을 때 각각 분자량의 합이 코드합의 비율과 일치하도록 코드를 명명하는 방법을 제공한다.
또한 본 발명은 SELEX를 이용하여 확인된 각 화합물에 특이적인 압타머를 코드로 표준화함으로써 각 화합물에 존재하는 반응기와 결합하는 특정 패턴을 파악하고 빅데이터로 활용하여 예측할 수 있는 시스템을 구축한다.
또한 본 발명은 DNA의 서열을 코드로 표준화한 후 각 서열의 값을 십진수로 변환하고 그의 합을 도출함으로써 각 서열의 변이 유무를 확인하고 특정 질병의 SNP존재 여부를 빠르게 파악할 수 있는 방법을 제공한다.
본 발명은 DNA를 코드로 표준화함으로써 염기 서열 내에 존재하는 특정 패턴 파악에 용이한 방법을 제공한다.
본 발명은 특정 타겟 및 화학구조와 결합하는 DNA Sequence 패턴을 파악하고 이를 빅데이터로 활용함으로써 해당 화학 구조 단위에 결합하는 압타머(Aptamer)를 예측하고 SELEX(Systematic evolution of ligands by exponential enrichment) 시뮬레이션 프로그램화에 필요한 정보를 제공한다.
또 본 발명은 DNA를 염기 분자량이 반영된 코드로 표준화함으로써 염기서열의 코드만으로 서열 간의 분자량 비율과 각 염기의 비율 등을 파악하는데 최적화한 방법을 제공한다.
또한 본 발명은 DNA를 염기 분자량이 반영된 코드로 표준화함으로써 염기 서열내 변이 파악에 용이한 방법을 제공하고 코드의 합과 배열 순서 비교에 최적화된 방법을 제공함으로써 SNP등의 질병 특이적인 변이 파악 가능하며 질병 예측에 용이한 방법을 제공한다.
본 발명을 통하여 알 수 있는 바와 같이, 본 발명의 DNA 코드 표준화 방법은 염기 서열 내의 변이 파악에 용이한 방법을 제공하고 SNP 등의 질병 특이적인 서열 변이를 이용함으로써 질병의 예측을 용이하게 하는 등 염기 서열 내에 존재하는 특정 패턴 파악에 용이한 방법을 제공한다.
도 1은 DNA의 분자 구조 및 결합 질량비의 원리를 반영하여 지정한 코드 값을 분자량이 작은 염기에서 큰 순으로 C, T, A, G를 00, 01, 10, 11 값의 2진수로 지정한 것을 나타낸 그림,
도 2는 지정된 2진수의 코드가 각각 G와 C, A와 T의 염기가 쌍을 이룰 때 각 코드 합의 비율이 1:1로 실제 질량비와 동일한 비율을 가지도록 설계한 것을 나타낸 그림,
도 3은 6가지 서열의 코드 변환 값을 나타낸 것으로, 각 서열의 코드 합과 각 서열의 분자량을 비교하여 나타낸 그림,
도 4는 DNA 서열의 코드를 이용하여 예시 서열의 패턴을 확인한 것으로 각 서열의 코드 합에 따라 상보 결합의 가능 여부를 확인하고, 그 결합의 수와 연결된 염기의 수에 따라 스템-루프 구조 형성과 패턴을 확인한 그림, 및
도 5는 유방암 환자에게서 확인되는 SNP서열에 코드를 적용하여 본 발명의 코드 표준화 효율성을 확인한 것으로 Exon 2로부터 14번째에 있는 A염기가 G로 변이되어 있는 SNP 서열을 코드로 변환하고 이진수의 수 배열로 배치한 후 코드합을 구하여 정상 서열과 변이 서열의 코드 합을 비교한 그림.
이하 본 발명을 비한정적인 실시예를 통하여 상세하게 설명한다. 단 하기 실시예는 본 발명을 예시하기 위한 의도로 기재된 것으로서 본 발명의 범위는 하기 실시예에 의하여 제한되는 것으로 해석되지 아니한다.
실시예 1: 각 염기의 분자량에 따른 코드 표준화
DNA의 서열을 결정하는 각 4가지의 염기를 컴퓨터 언어인 이진법 두자리의 수로 나타내어 코드로 표준화하기 위해 각 염기의 분자량을 분석하여 도 1에 표기하였다. 각각의 염기 G, A, T, C와 1개의 인산기가 연결된 데옥시리보뉴클레오타이드(deoxyribonucleotide)를 각각 dGMP, dAMP, dTMP, dCMP로 표기하였다.
각 염기는 G, A, T, C 순으로 큰 값을 가지며, G와 수소결합으로 쌍을 이루는 C 그리고 A와 상보 결합하는 T의 분자량을 각각 합하여 비교한 결과 654.4(=347.2+307.2)와 653.4(=331.2+322.2)로 대략 1:1의 동등한 분자 질량을 가진 채 서로 쌍을 이루고 있는 것을 확인하였다. G와 C의 분자량의 합보다 A와 T의 분자량의 합이 1이 적은 것은 G≡는 질소(N)가, A=T는 탄소(C), 수소(H)가 다른 결합쌍에 비해 1개씩 더 있으며, N의 분자량과 C+H의 분자량 합의 차이만큼(14>12+1) 각 쌍의 분자량 합의 차이(=1)가 존재하기 때문이다. 따라서 A와 T는 수소 결합이 가능한 O나 N의 부재로 2개의 수소결합을 이뤄 3개 수소결합을 이루고 있는 G≡결합보다는 약한 결합을 이루는 특성이 있다.
따라서 각 염기의 코드는 상기 DNA의 분자 구조 및 결합 질량비의 원리를 반영하여 지정하였다. 부여된 각 염기의 코드는 분자량이 작은 염기에서 큰 순으로 C, T, A, G를 00, 01, 10, 11 값의 2진수로 지정하였다. (도 1)
지정된 코드의 값은 각각 G와 C, A와 T의 염기가 쌍을 이룰 때 각각의 코드합 비율이 1:1로 실제 질량비와 동일한 비율을 가지도록 설계하였다. (도 2)
코드합은 각 염기의 코드를 십진수로 변환한 뒤 각 코드 값의 합을 나타낸 것으로 G와 C, A와 T의 각각의 코드합은 '3'으로 동일하다.
실시예 2: DNA 단편 및 압타머(Aptamer)의 분자량 비율 반영 최적화
DNA의 각 염기 분자량에 따라 질량이 낮은 순에서 높은 순으로 코드를 지정하였기 때문에 DNA 단편의 총 코드 합은 각 서열의 분자량의 비율이 반영되어 계산되었다. (도 3) 코드의 분자량 반영 비율을 확인하여 6개의 예시 서열로 코드합과 분자량을 비교하였다.
상기 예시서열은 코드의 분자량 반영 비율을 확인하기 위한 의도로 예시된 서열로서 범위는 서열번호 1 내지 6의 서열에 제한되는 것으로 해석되지 아니한다.
상기 서열번호 1 내지 6의 서열은 아래와 같다.
5' AGAGCTCGCGCCGGAGTTCTCAATGCAAGAGC 3' (서열번호 1)
5' GCGGCGGTGGCCTGAAGTCTGGCGGTGGCCCC 3' (서열번호 2)
5' GCGGCGGTGGCCAGAAGTCTCGCGGTGGCGGC 3' (서열번호 3)
5' GTGGAGGCGGTGGCCAGTCTCGCGGTGGCGGC 3' (서열번호 4)
5' GTGGCGGTGGCCAGCATAGTGGCGGTGGCCAG 3' (서열번호 5)
5' GTGGAGGCGGTGGCCGTGGAGGCGGAGGCCGC 3' (서열번호 6)
상기 6개의 예시 서열은 32 mer의 염기서열이고, 염기의 길이는 동일하나 염기의 종류와 순서는 다양하게 구성한 것으로 각 염기의 코드 변환 값을 도 3에 표기하였다. 코드 합은 각 염기의 코드를 십진수로 변환한 후 총 합을 구한 것으로 각 서열의 염기 구성에 따라 코드 합 또한 각 서열의 분자량이 반영되어 계산되었다.
각 서열의 분자량(Mw)과 비교하였을 때 분자량이 작을수록 코드 합의 값이 작은 값으로 확인되며 분자량이 큰 서열일 경우 코드 합은 큰 값으로 계산되었다. (도 3)
이와 같이 분자량의 비율을 반영하여 코드를 지정하고 변환한 결과 코드합을 이용함으로써 각 서열의 분자량의 비를 비교하는데 최적화하였다.
실시예 3: DNA 단편 및 압타머의 패턴 확인의 최적화
DNA 단편 및 압타머의 서열을 2진수 염기 코드로 변환하고 각 서열을 비교함으로써 서열 내에 포함되어 있는 특정 패턴 및 2차구조(secondary structure) 등을 파악하는데 최적화하였다. 이를 파악하기 위해 9개의 염기서열로 구성된 DNA 서열을 예시 서열로 활용하였다. (도 4)
상기 예시 서열은 코드의 패턴을 예시하기 위한 의도로 기재된 것으로서 범위는 서열번호 7의예시 서열에 제한되는 것으로 해석되지 아니한다.
상기 서열번호 7의 예시 서열은 아래와 같다.
5' GCGGTGGCG 3' (서열번호 7)
상기 예시서열을 염기 코드로 변환하여 나열한 수는 아래와 같다.
11 00 11 11 01 11 11 00 11 (예시서열 코드 1)
각 염기는 수소 결합을 이룰 수 있는 상보 염기와의 코드합이 '3'이 되도록 코드가 설계되어 있으며, 이러한 서열의 배열은 DNA 압타머 서열에서 스템 구조를 이룰 수 있다. (도 4; Stem)
DNA의 스템-루프(Stem-loop) 구조의 패턴은 대부분 양 끝에 스템 구조를 이룰 수 있는 염기가 2개 이상 연결되어 있으며, 서로 마주보고 있는 서열의 코드합이 3보다 크거나 작아 상보 결합을 이룰 수 없는 서열이 3개 이상 중심에 연결되어 있을 때 루프 구조가 형성될 수 있는 특성이 있다.
상기 예시 서열은 두 가지의 스템-루프 구조를 이룰 수 있으며 이는 염기 코드 배열로 간단히 확인할 수 있다. 첫번째 11 염기 코드와 상보결합을 이룰 수 있는 서열은 바로 옆의 00 코드를 제외한 8번째 00 코드의 염기(도 4; ①붉은색 화살표)이며, 두번째의 00 코드와의 상보결합이 가능한 염기는 6번째 11(도 4; ③초록색 화살표)과 7번째 11, 9번째 11 코드가 있다. 이와 동일하게 3번째 11 코드의 염기는 8번째 00 (도 4; ②푸른색 화살표)코드와 상보 결합이 가능하다. 이 때, 스템-루프 구조의 스템 부위는 2개 이상의 염기가 연결되어야 구조를 이루기 때문에 도3에 붉은색 화살표에 연결된 염기의 상보결합이나 푸른색 화살표에 연결된 염기의 상보 결합이 스템 구조(도 4; 점선 둥근 원)를 이룰 수 있으며 초록색 화살표의 상보결합은 단일 상보결합으로 스템 구조를 이룰 수 없다. 스템 구조를 이룰 수 있는 두 가지의 경우 모두 루프 구조를 형성할 수 있는 4개의 염기가 가운데에 존재하므로 스템-루프 구조 형성이 가능한 것으로 예측된다.
이와 같이 각 염기를 코드로 표준화함으로써 염기 코드 합에 따라 각 염기와의 상보 결합 가능 여부를 예측할 수 있으며 각 서열의 상보 결합의 수와 그에 연결된 염기의 수에 따라 DNA 서열의 2차 구조 및 패턴 등을 예측하는데 용이한 것으로 확인하였다.
실시예 4: 코드 표준화로 인한 SNP 파악의 최적화
DNA 서열을 코드로 변환하고 각 서열의 코드합을 비교함으로써 특정 DNA 단편의 염기서열 변이 여부를 파악하는데 최적화하였다. SNP서열은 염기 1개가 변이된 DNA 단편 서열이기 때문에 코드를 SNP 서열에 적용하고 정상 서열과 비교함으로써 변이 존재 여부와 위치를 파악하는데 용이한 것을 확인하였다. 다양한 SNP 서열 중에 하나이며 84%의 유방암 환자에게서 확인되는 CD44유전자의 SNP 서열에 적용하여 코드 표준화의 효율성을 확인하였다. [Zhou, J., Nagarkatti, P. S., Zhong, Y., Creek, K., Zhang, J., & Nagarkatti, M. (2010). Unique SNP in CD44 intron 1 and its role in breast cancer development. Anticancer research, 30(4), 1263-1272.]
상기 유방암 환자의 SNP 서열은 유전자의 첫번째 인트론(intron 1)의 위치에 존재하는 서열 중 엑손(Exon 2)으로부터 14번째에 있는 A염기가 G로 변이되어 있는 것이며, 이 서열을 코드로 변환하여 이진수의 배열로 배치한 후 코드합을 구하여 정상 서열과 변이 서열의 코드 합을 비교하였다. (도 5)
정상 서열과 변이 서열의 코드를 각각 10진수로 변형한 후 합을 구하였을 때 정상 서열은 39이며, 변이 서열은 40으로 변이 서열이 정상 서열보다 1이 큰 값으로 확인되었다. 이와 같이 코드합만으로 DNA 절편 내에 변이 존재 여부를 학인 할 수 있으며 이때 변이된 염기의 종류에 따라 코드합은 1~3정도 차이 날 수 있다. 또한 변이된 코드의 각각 수치를 비교함으로써 서열의 위치까지 확인할 수 있다.
이와 같이 정상 대조군에서 확인되는 DNA 단편 서열들과 질병 실험군에서 확인되는 특정 변이 서열을 코드로 변환하고 코드합을 비교함으로써 서열 간의 차이를 빠르게 확인하고 SNP 존재 여부를 간편하게 탐색할 수 있으며, 확인된 SNP 서열에 코드합을 적용하여 질병 진단에 활용할 수 있다.
<110> SON, In sik <120> A METHOD CODING STANDARDIZATION OF DNA AND A BIOTECHNOLOGICAL USE OF THE METHOD <130> P19-0005HS <160> 7 <170> KopatentIn 2.0 <210> 1 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 1 agagctcgcg ccggagttct caatgcaaga gc 32 <210> 2 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 2 gcggcggtgg cctgaagtct ggcggtggcc cc 32 <210> 3 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 3 gcggcggtgg ccagaagtct cgcggtggcg gc 32 <210> 4 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 4 gtggaggcgg tggccagtct cgcggtggcg gc 32 <210> 5 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 5 gtggcggtgg ccagcatagt ggcggtggcc ag 32 <210> 6 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 6 gtggaggcgg tggccgtgga ggcggaggcc gc 32 <210> 7 <211> 9 <212> DNA <213> Artificial Sequence <220> <223> Oligonucleotide <400> 7 gcggtggcg 9

Claims (9)

  1. 삭제
  2. 삭제
  3. 삭제
  4. 삭제
  5. 삭제
  6. 삭제
  7. 컴퓨터-판독가능 매체에 저장되어, 컴퓨터로 하여금 이하의 단계들을 수행하도록 하기 위한 특정 DNA 단편이나 압타머의 특정패턴이나 2차 구조 확인하는데 최적화된 정보제공용 컴퓨터 프로그램으로서, 상기 단계들은:
    (a) 특정 DNA 단편의 염기서열의 C, T, A, 및 G를 각각 00, 01, 10, 11로 명명하는 단계; 및
    (b) 상기 (a) 단계의 00, 01, 10, 및 11의 이진수의 수 배열을 십진수로 변형한 후에 각 서열의 합이 3이 되는 코드의 배열이 2 쌍 이상 양 끝에 배열되어 있는 경우에 스템 구조를 형성할 수 있다고 판단하며, 서로 마주보고 있는 서열의 코드합이 3보다 크거나 작아 상보 결합을 이룰 수 없는 서열이 3개 이상 중심에 연결되어 있을 때 루프 구조를 형성한다고 판단하는 단계를 포함하는, 컴퓨터-판독가능 매체에 저장된 컴퓨터 프로그램.

  8. 삭제
  9. 삭제
KR1020190025377A 2019-03-05 2019-03-05 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용 KR102252977B1 (ko)

Priority Applications (7)

Application Number Priority Date Filing Date Title
KR1020190025377A KR102252977B1 (ko) 2019-03-05 2019-03-05 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
US17/434,122 US20220139500A1 (en) 2019-03-05 2019-03-27 Dna coding method and biomedical engineering application of same coding method
EP19918443.3A EP3937177A4 (en) 2019-03-05 2019-03-27 DNA CODING PROCESS AND APPLICATION TO BIOMEDICAL ENGINEERING OF THE SAME CODING PROCESS
CN201980089597.2A CN113614834B (zh) 2019-03-05 2019-03-27 脱氧核糖核酸编码化方法及其编码化方法的医药生命工程用途
JP2021553075A JP7275301B2 (ja) 2019-03-05 2019-03-27 Dnaのコード化方法及びそのコード化方法の生命工学的応用
PCT/KR2019/003570 WO2020179962A1 (ko) 2019-03-05 2019-03-27 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
KR1020210023395A KR102280758B1 (ko) 2019-03-05 2021-02-22 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190025377A KR102252977B1 (ko) 2019-03-05 2019-03-05 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Related Child Applications (2)

Application Number Title Priority Date Filing Date
KR1020200162752A Division KR20200136354A (ko) 2020-11-27 2020-11-27 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
KR1020210023395A Division KR102280758B1 (ko) 2019-03-05 2021-02-22 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Publications (2)

Publication Number Publication Date
KR20200106761A KR20200106761A (ko) 2020-09-15
KR102252977B1 true KR102252977B1 (ko) 2021-05-17

Family

ID=72338682

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190025377A KR102252977B1 (ko) 2019-03-05 2019-03-05 Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용

Country Status (5)

Country Link
US (1) US20220139500A1 (ko)
EP (1) EP3937177A4 (ko)
JP (1) JP7275301B2 (ko)
KR (1) KR102252977B1 (ko)
WO (1) WO2020179962A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20230070674A (ko) * 2021-11-15 2023-05-23 주식회사 넥스모스 신규한 압타머 및 그 압타머를 유효성분으로 포함하는 인지 기능 개선 및 항노화용 조성물
CN116092575A (zh) * 2023-02-03 2023-05-09 中国科学院地理科学与资源研究所 基于gmns法则的g-dna结构判别方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040153255A1 (en) 2003-02-03 2004-08-05 Ahn Tae-Jin Apparatus and method for encoding DNA sequence, and computer readable medium
KR100537523B1 (ko) * 2003-02-03 2005-12-19 삼성전자주식회사 Dna 서열 부호화 장치 및 방법
WO2005024562A2 (en) 2003-08-11 2005-03-17 Eloret Corporation System and method for pattern recognition in sequential data
KR20130068185A (ko) * 2011-12-14 2013-06-26 한국전자통신연구원 염기서열 맵핑 장치 및 그것의 염기서열 맵핑 방법
CN103336916B (zh) 2013-07-05 2016-04-06 中国科学院数学与系统科学研究院 一种测序序列映射方法及系统
KR20160001455A (ko) 2014-06-27 2016-01-06 한국생명공학연구원 데이터 저장용 dna 메모리 기술

Also Published As

Publication number Publication date
WO2020179962A1 (ko) 2020-09-10
EP3937177A1 (en) 2022-01-12
JP2022525042A (ja) 2022-05-11
EP3937177A4 (en) 2022-12-07
US20220139500A1 (en) 2022-05-05
KR20200106761A (ko) 2020-09-15
JP7275301B2 (ja) 2023-05-17
CN113614834A (zh) 2021-11-05

Similar Documents

Publication Publication Date Title
US11676682B1 (en) Methods for accurate sequence data and modified base position determination
KR102252977B1 (ko) Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
AU2013292610A1 (en) System and methods for detecting genetic variation
Witherspoon et al. Human population genetic structure and diversity inferred from polymorphic L1 (LINE-1) and Alu insertions
KR20220006116A (ko) 단백질 조작 및 생산을 위한 방법 및 시스템
CN107958139B (zh) 一种用于dna编码化合物文库的核苷酸双链的计算机编码方法
Gao et al. Cell type–specific analysis by single-cell profiling identifies a stable mammalian tRNA–mRNA interface and increased translation efficiency in neurons
KR20180041331A (ko) 분자결합핵산 선정과 표적분자 동정 방법 및 키드, 그리고 그들의 용도
KR102280758B1 (ko) Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
KR20200136354A (ko) Dna 코드화 방법 및 그 코드화 방법의 의생명공학적 응용
CN106929507A (zh) 引物组、锚定引物、试剂盒、文库构建及基因测序方法
US20220344006A1 (en) Computer implemented method to optimize physical-chemical properties of biological sequences
CN113614834B (zh) 脱氧核糖核酸编码化方法及其编码化方法的医药生命工程用途
Vaishnav et al. A comprehensive fitness landscape model reveals the evolutionary history and future evolvability of eukaryotic cis-regulatory DNA sequences
Zhao et al. Predicting gene expression level in E. coli from mRNA sequence information
US20210317517A1 (en) Methods for asymmetric dna library generation and optionally integrated duplex sequencing
US20210407624A1 (en) Systems and methods for analyzing sequencing data
Jetlin et al. Tries based rna structure prediction
Gilmore High throughput investigative dermatology in 2012 and beyond: A new era beckons
Chen et al. Simulations of SELEX against complex receptors with a condensed statistical model
Niu et al. A novel strategy to identify the regulatory DNA-organized cooperations among transcription factors
Yamaguchi et al. A genetic programming based system for the prediction of secondary and tertiary structures of RNA
He et al. Human transcription factor combinations mapped by footprinting with deaminase
Meyer et al. Maximizing the potential of genomic and transcriptomic studies by nanopore sequencing
Gao et al. Analysis at single-cell resolution identifies a stable mammalian tRNA-mRNA interface and increased translation efficiency in neurons

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
A107 Divisional application of patent
N231 Notification of change of applicant
GRNT Written decision to grant