KR101666506B1 - 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법 - Google Patents

대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법 Download PDF

Info

Publication number
KR101666506B1
KR101666506B1 KR1020150052999A KR20150052999A KR101666506B1 KR 101666506 B1 KR101666506 B1 KR 101666506B1 KR 1020150052999 A KR1020150052999 A KR 1020150052999A KR 20150052999 A KR20150052999 A KR 20150052999A KR 101666506 B1 KR101666506 B1 KR 101666506B1
Authority
KR
South Korea
Prior art keywords
primer
primers
candidate
filtering
condition
Prior art date
Application number
KR1020150052999A
Other languages
English (en)
Inventor
김민수
구재형
김혜린
강나나
전강욱
김선호
Original Assignee
재단법인대구경북과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 재단법인대구경북과학기술원 filed Critical 재단법인대구경북과학기술원
Priority to KR1020150052999A priority Critical patent/KR101666506B1/ko
Priority to US14/824,678 priority patent/US11062790B2/en
Priority to GB1514871.1A priority patent/GB2538574A/en
Priority to GBGB1904630.9A priority patent/GB201904630D0/en
Application granted granted Critical
Publication of KR101666506B1 publication Critical patent/KR101666506B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • G06F19/20
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biotechnology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Medical Informatics (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Zoology (AREA)
  • Microbiology (AREA)
  • Immunology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)

Abstract

본 발명은 주어진 서열 데이터베이스에 대해 사용자에 의해 주어진 여러 필터링 제약조건들을 만족하고 그 특이성(Specificity)이 검증된 유효한 모든 커버리지(Coverage)의 프라이머쌍들을 디자인하는 방법에 관한 것으로, 주어진 DNA 서열 데이터베이스 상에 존재하는 모든 적합한 프라이머 쌍들을 빠짐없이 구하며, 커버리지(coverage)가 1인 프라이머들 뿐만 아니라 커버리지가 1보다 큰 프라이머들도 모두 구함으로써, 사용자가 결과 프라이머들 중 생물학적 실험의 성공률이 높은 프라이머들을 쉽게 선택할 수 있도록 프라이머 랭킹을 부여할 수 있도록 한 것이다.

Description

대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법{A method for the thorough design of valid and target-specific primers for large-scale DNA sequence database}
본 발명은 프라이머를 디자인 방법에 관한 것으로, 특히 주어진 서열 데이터베이스에 대해 사용자에 의해 주어진 여러 필터링 제약조건들을 만족하고 그 특이성(Specificity)이 검증된 유효한 모든 커버리지(Coverage)의 프라이머쌍들을 디자인하는 방법에 관한 것이다.
일반적으로, DNA를 합성할 때 시작점이 되는 짧은 단일 가닥의 DNA를 프라이머(Primer)라고 하는데, 이 프라이머는 DNA 시퀀싱(Sequencing)이나 중합효소 연쇄반응(Polymerase Chain Reaction)과 같은 DNA 중합효소와 관련된 생물학적 실험을 수행하는 병원, 연구소, 대학교 등에서 표준 기술로 널리 사용되고 있다.
도 1은 분리된 DNA가닥(202)에 각각 정방향 프라이머(Forward Primer)(205)와 역방향 프라이머(Reverse Primer)(203)가 각 표적 정방향 탬플릿(Template)(201)과 역방향 탬플릿(207)에 결합하여 DNA 중합효소가 합성된 예를 나타낸 도이다.
도 1에 도시된 바와 같이 양쪽의 새로운 역방향 가닥(204)과 정방향 가닥(206)에서 DNA합성은 5'에서 3'으로이루어진다.
적절한 프라이머와 함께 표적 DNA 서열을 빠르게 증폭시키는 방법인 PCR(Polymerase Chain Reaction)은 다양한 분야에서 사용될 수 있다. 예를 들어 알려지지 않거나 관계가 먼 다른 종들 간에 관련 유전자의 계통발생학적 분석, 유전질환 돌연변이 유무를 검출하기 위한 DNA 유전자 검사, HIV나 항생제 내성이 생긴 박테리아 같은 전염성 위험이 있는 질병진단 연구, 유전자 지문과 친자확인을 통한 법의학적 분석, 분자 마커(Molecular Marker)를 이용한 미소부수체(Microsatellite) 발견을 통한 집단 생물학 연구를 들 수 있다.
또한, 실시간 PCR (Real Time PCR)로도 알려진 정량적 PCR(Quantitative PCR, qPCR)은 선택된 유전자 발현 변화의 유효성을 확인하는 하이 스루풋(High-Throuhput) 실험 결과를 확인하는데 널리 쓰이고 있다. 여기서, PCR 기반의 실험 성공은 표적 서열(Target Sequence)에 적합한 프라이머 디자인 여부에 크게 달려있다.
이와 같은 종래의 기술들은 아래의 네 가지 한계점들을 가지고 있다.
첫째, 프라이머 디자인 제약 조건과 특이성 검증을 동시에 검사하지 못하는 문제점을 가지고 있다. 특정 하나의 서열에서 또는 다수의 서열에 대해 프라이머를 디자인할 때, 프라이머의 여러 가지 제약 조건을 고려해야 한다. 예를 들어, Single Primer Filtering Constraints으로 프라이머의 길이, 온도(℃), GC Content(%), Self-Complementarity, 연속된 염기, end stability (ΔG value)가 있고, pair primer filtering constraints로 한 프라이머 쌍의 길이 차이, 한 프라이머 쌍의 온도 차이, amplicon 길이, 그리고 3'pair-complementarity가 있다.
상기 언급한 Single Primer Filtering Constraints와 pair primer filtering constraints를 고려하여 프라이머를 손으로 디자인하는 것은 시간이 많이 소요되고 쉽게 잘못된 결과를 얻을 수 있다. 따라서 적절한 프라이머를 디자인하기 위해 상기 언급한 Single Primer Filtering Constraints와 Pair Primer Filtering Constraints를 검사할 수 있는 많은 자동화 방법들이 고안되었다.
하지만, 종래의 기술들은 프라이머 디자인 제약 조건 외에 추가적으로 확인해야 할 특이성 검증을 동시에 수행하지 못한다. 특이성 검증은 디자인된 프라이머가 표적 서열만 증폭할 수 있도록 비 표적 서열에 대해 상동성 테스트(Homology Test)를 수행하는 것이다.
종래의 방법들은 이러한 특이성 검증을 상기 제약 조건들을 만족하는 프라이머들에 대해 추가적으로 BLAST와 같은 툴을 사용하여 부분적으로 해결하고 있다. 따라서, 사용자들은 일반적으로 개발된 서로 다른 두 개의 툴을 병행하여 프라이머 디자인 제약 조건과 특이성 검증을 위해 사용하고 있지만, 주어진 서열 데이터베이스에 존재하면서 여러 디자인 제약 조건들과 특이성 검증을 동시에 만족하는 프라이머 결과를 얻지 못하고 있다.
둘째, 하나의 표적 서열을 위한 종래 방법들은 오직 특정 표적 서열에 대해서 프라이머들을 디자인하기 때문에, 동일한 조건을 만족하는 수십에서 수백 개의 프라이머들을 요구하는 qPCR 실험을 수행할 때 문제점을 가지고 있다.
qPCR은 유전자 발현의 양을 분석하는데 널리 쓰이는 실험방법으로 게놈적 규모(Genomic Scale)에서 동일하고 엄격한 제약(예를 들어 매우 유사한 결과의 크기)을 만족하고 특이성이 검증된 프라이머들이 요구된다.
지금까지 qPCR 실험에서 비 표적 서열 증폭은 흔하게 발생하는 문제이며, 이 문제는 프라이머가 동일한 제약 조건을 만족하지 않을 경우 더 큰 문제였기 때문에, 종래의 기술들은 적은 수의 서열 데이터에 대해 동일한 조건을 만족하는 프프라이머를 디자인하는데 집중하고 있었다. 그러나 유전자 발현의 양을 대규모로 분석하는데 효과적인 qPCR 실험에서 이러한 종래의 기술로 디자인된 프라이머는 복잡한 비교처리를 통한 특이성 검증을 수행하지 않기 때문에 적합하지 않다.
셋째, 더욱이 특정 다수의 서열에 대해서 프라이머들을 디자인할 때, 종래 기술들은 서열 데이터베이스에 유효한 프라이머들이 존재함에도 불구하고 모두 완전하게 찾지 못하는 문제점을 가지고 있다. 이것은 주로 첫 번째 단계인 Multiple Sequence Alignment(MSA)가 휴리스틱(Heuristic)한 방법이기 때문이다. 최적의 MSA의 복잡도는 본질적으로 NP-complete이기 때문에, 아주 적은 몇 개의 서열에서 조차 최적의 정렬을 구하는 것은 컴퓨터 측면에서 불가능한 일이다. 이 때문에 대부분의 CLUSTALW와 같은 MSA 툴들은 휴리스틱한 방법이며, MSA 결과를 기반으로 디자인된 프라이머들 또한 완전하지 않다.
게다가 만약 어떤 주어진 서열들에서 최적의 MSA를 구할 수 있다고 하더라도 하나의 고정된 정렬에서 모든 가능한 프라이머들을 완전히 찾기는 어렵다. 왜냐하면 어떤 프라이머는 최적이 아닌 정렬의 보존된 영역에 존재할 수 있기 때문이다. 이처럼 휴리스틱한 방법을 기반으로 한 종래의 기술들이 유효한 모든 프라이머들을 찾지 못하기 때문에, 후각 수용체(Olfactory Receptor)와 같이 상동성(Homology)이 높은 가족과 서열에 내재된 특별한 프라이머가 적게 존재할 경우, qPCR과 같이 다수의 유효한 프라이머를 요구하는 실험에서 필요한 프라이머를 제공하지 못하는 문제점이 있다.
넷째, 다수의 표적 서열을 위한 기존 방법들은 프라이머를 찾지 못한 유전자(Gene)들에 대해 비슷한 프라이머의 세트인 Degenerate 프라이머를 디자인하여 문제를 해결하고자 하였으나, PCR 증폭의 정밀도가 떨어지는 문제점을 가지고 있다. Degenerate 프라이머는 본질적으로 Degeneracy와 커버리지(Coverage)의 균형을 지켜야한다.
통상적으로 프라이머의 축중을 너무 높이게 되면 PCR 증폭의 정밀도가 크게 떨어지게 된다. 또한, 최근에 Degenerate 프라이머들이 그다지 효과적이지 않다는 연구결과가 나왔다. Degenerate 프라이머들이 계통발생학 연구에 있어서 어느 정도 수위의 편향된 결과를 가져와 사용된 프로파일이 정확하게 종군의 범위를 표현하지 않을 수도 있다. Non-degenerate 프라이머를 사용하면 Degenerate 프라이머를 사용한 것과 같은 양질의 분류학적 범위를 얻을 수 있다.
Degenerate 프라이머를 사용하면 PCR의 정밀도가 크게 증가한다는 연구도 발표되었다. 이렇게 기존 발표된 연구들에서 우리는 다수의 표적 서열에서 디자인된 Non-degenerate 프라이머와 같은 커버리지를 갖는 Degenerate 프라이머보다 더 나을 수 있다고 말할 수 있다.
본 발명의 목적은 상기 종래 기술에 따른 문제점들을 해결하기 위한 것으로, 본 발명의 목적은 주어진 서열 데이터베이스에 대해 사용자에 의해 주어진 여러 필터링 제약조건들을 만족하고 그 특이성이 검증된 유효한 모든 커버리지의 프라이머 쌍들을 디자인하는 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법을 제공함에 있다.
상기한 종래 기술에서 언급한 문제점들에 대한 구체적인 해결 목적을 살려보면, 먼저, 종기 기술에서의 첫 번째 문제에 대한 본 발명의 해결 방법은 각 표적 서열로부터 디자인된 후보 프라이머 집합과 모든 입력 서열로부터 추출 가능한 모든 서브시퀀스(Subsequence)들 사이의 복잡한 대규모 조인을 통해 각 표적 서열들에서 주어진 제약 조건들과 특이성 조건들을 모두 만족하는, 즉 검증(Validation)을 통과한 유효한 프라이머쌍들을 디자인할 수 있다.
상기 종래 기술에서의 두 번째 문제에 대한 본 발명의 해결 방법은 수 만내지 수 십 만개에 이르는 입력 서열들에 대해 동일한 제약 조건들을 만족하는 모든 유효한 프라이머 쌍들을 찾을 수 있으므로 그 결과를 qPCR과 같은 실험에서 곧바로 사용할 수 있다.
그리고, 세 번째 문제에 대한 본 발명의 해결 방법은 서열 정렬(Sequence Alignment)이나 어떤 휴리스틱(Heuristic) 기반의 방법들에 의존하지 않고 맵듀스(MapReduce) 프레임워크가 제공하는 키 값 기반의 조인 방법을 사용함으로써 입력 서열 데이터베이스 존재하는 모든 유효한 프라이머들을 단 한 개도 빠짐없이 모두 찾을 수 있다 (프라이머 결과 개수는 수 천 만개 수준).
마지막으로 네 번째 문제에 대해 본 발명의 해결 방법은 커버리지가 1인 프라이머들 뿐만 아니라 커버리지가 1보다 큰, 즉 다수의 표적 서열을 증폭시킬 수 있는 Non-Degenerate Primer들을 빠짐없이 모두 찾음으로써 PCR 실험에 있어서 커버리지와 정밀도를 모두 만족시키는 프라이머 결과를 사용자에게 제시할 수 있다.
본 발명에 따르면, 주어진 DNA 서열 데이터베이스를 받아 모든 가능한 최소길이와 최대길이 사이를 갖는 후보 프라이머들의 부분서열들을 추출하는 제1 단계; 상기 제1 단계에서 추출된 후보 프라이머들의 부분 서열들에 대해, 입력받은 Single Filtering 조건들을 적용하여 조건을 만족하지 않는 프라이머의 부분 서열을 제외하는 제2 단계; 상기 제1 단계에서 추출된 후보 프라이머들의 부분 서열들인 Map1과, 상기 제2 단계에서 얻어진 Single Filtering 조건들을 통과한 후보 프라이머의 부분 서열 세트인 Map2를 페어조인을 하여 Map1의 프라이머와 Map2의 프라이머가 5' 끝부분을 제외하고 나머지 부분이 동일하면, Map2의 프라이머를 제거하는 제3 단계; 상기 제3 단계에서 Single Filtering 조건들을 통과한 후보 프라이머의 부분 서열인 Map2를 기 설정된 5' Cross-Hybridization Filtering 조건을 통과시켜, 통과된 후보 프라이머를 상기 Map1의 프라이머와 페어조인을 하여 Map1의 프라이머와 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머가 주어진 불일치치수(#mismatch)를 제외한 나머지가 동일하면, 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 제거하는 제4 단계; 상기 제4 단계 결과에서 여전히 남아있는 General Cross-Hybridization Filtering조건을 위반하는 False-Positive 프라이머들을 제거하는 제5 단계; 상기 제5 단계 결과에서 남아 있는 프라이머를 포워드 프라이머 세트와 리버스 프라이머 세트로 나누고, 나누어진 포워드 및 리버스 프라이머 세트에 대해 셀프조인을 위한 기 설정된 필터링 조건들을 적용하여 조건을 만족하지 않는 프라이머를 제외하는 제6 단계; 및 상기 제 6 단계를 통과한 프라이머 쌍들에 대해 패널티 점수를 계산하여 같은 sidset 그룹 내에서 패널티 점수에 따라 순차 정렬하는 제7 단계를 포함할 수 있다.
상기 제1 단계는, DNA 데이터베이스를 서열 번호인 sid와 서열 데이터 S를 <k1:sid, v1:S> 쌍의 형태로 받아 모든 가능한 최소길이와 최대길이 사이를 갖는 후보 프라이머의 부분서열을 추출하는 단계; 상기 추출된 후보 프라이머의 부분 서열에 대해 역방향 상보적 프라이머를 만들어 표시를 하며 추출하는 단계; 및 같은 프라이머가 나타나는 sid의 세트로 sidset를 생성하고 포맷 변환을 하는 단계를 포함한다.
상기 제2 단계는, 복수개의 Single Filtering 조건을 적용하여 조건을 만족하지 않는 프라이머를 제외한다.
상기 복수개의 Single Filtering 조건은, 온도(℃), GC content (%), Self-Complementarity, 3' End Self-Complementary, 연속된 염기, end stability (ΔG value)이다.
상기 제3 단계는, 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 single filtering을 통과는 후보 프라이머의 세트인 Map2, 두 개의 입력을 받아 5'끝에 사용자로부터 주어진 특정 길이의 부분과 나머지 부분으로 나누어 저장하는 단계; 및 Map1과 Map2의 페어조인을 수행하면서, 만약 Map1의 프라이머와 Map2의 프라이머가 5' 끝 부분을 제외하고 나머지 부분이 똑같다면, Map2의 프라이머는 제거하는 단계를 포함한다.
상기 제4 단계는, 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 상기 5' Cross-Hybridization Filtering 조건을 통과는 후보 프라이머의 세트를 입력받아 여러 개의 시드로 나누어 저장하는 단계; 및 상기 Map1의 프라이머와 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 페어조인을 수행하면서, Map1의 프라이머와 5' Cross-Hybridization Filtering 조건을 통과한 후보 프라이머가 주어진 불일치수(#mismatch)를 제외한 나머지가 동일하다면, 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 제거하는 단계를 포함한다.
상기 제5 단계는, 같은 k2:sidset
Figure 112016067701710-pat00041
P
Figure 112016067701710-pat00042
sid
Figure 112016067701710-pat00043
?pos로 모인 list(v2:filtered)중에 하나라도 거짓(False)이 있으면 해당 프라이머를 제거한다.
상기 제6 단계는, 포맷 변환을 통해 같은 sid를 갖는 후보 프라이머를 그룹화 하는 단계; 상기 그룹에 속해 있는 후보 프라이머를 DNA 서열 데이터베이스에서 추출할 때 수행했던 표시에 따라 표시가 없는 정방향 프라이머와 표시가 있는 역방향 프라이머 두 세트로 분리하는 단계; 및 복수개의 Pair Primer Filtering 조건을 적용하여 조건을 만족하지 않는 프라이머는 제외하는 단계를 포함한다.
상기 복수개의 Pair Primer Filtering 조건은, 길이 차이, 온도 차이, 생성물의 길이, Pair-Complementary, 3'End Pair-Complementary을 포함한다.
상기 제7 단계는, 정방향과 역방향 프라이머 각각에 대해 Single Primer Filtering 조건에 해당하는 패널티 점수를 계산하는 단계; 상기 계산된 두 패널티 점수의 합에 Pair Primer Filtering 조건에 해당하는 쌍 프라이머 패널티 점수를 계산하여 계산된 패널티 점수를 합산하는 단계; 같은 sidset에 따라 프라이머를 그룹화하여 특정 Reduce로 보내는 단계; 상기 합산된 패널티 점수에 대해 상기 그룹화된 프라이머에 순서를 부여하는 단계; 및 상기 순서가 부여된 그룹화된 프라이머의 출력 포맷을 변환하는 단계를 포함한다.
본 발명에 따르면, 주어진 서열 데이터베이스에 대해 사용자에 의해 주어진 여러 필터링 제약조건들을 만족하고 그 특이성이 검증된 유효한 모든 커버리지의 프라이머쌍들을 디자인할 수 있다.
또한, 본 발명은 프라이머 디자인을 Single/Pair filtering 제약조건과 상동성 테스트(Homology Test)를 하나의 통합된 방법으로 검사하여 사용자가 추가의 툴을 사용하지 않아도 되기 때문에 유효성을 확인하는 과정에서 실수가 발생하지 않는다.
또한, 본 발명의 실험 결과 실제 29,064개의 사람과 23,874개의 쥐 전체 CCDS(Consensus CDS) 데이터에 대한 실험을 통하여, 각각 서열 데이터베이스에 대해 97%와 95%를 증폭할 수 있는 37,236,621개와 48,532,297개의 프라이머들을 디자인 하였다.
또한, 사람의 경우 최대 25 커버리지를, 쥐의 경우 최대 20 커버리지를 각각 보여주었다. 따라서, 본 발명에서 디자인된 프라이머는 1 이상의 커버리지를 보이기 때문에, 사용자는 추가적인 유효성 테스트 없이 Degenerate 프라이머 대신 사용할 수 있다.
클러스터의 컴퓨터 효율성과 확장성 측면에서 본 발명은 상기 전체 사람 또는 쥐의 CCDS 서열 데이터베이스에서 모든 가능한 프라이머 쌍들을 디자인 하는데 40대의 컴퓨터를 사용하여 한두 시간 안에, 10대의 컴퓨터 클러스터를 사용하여 두세 시간 안에 디자인하여 매우 효과적이다. 또한, 105,180 사람 DNA 서열 데이터에서 40대의 컴퓨터로 일곱 시간 내에 모든 가능한 프라이머 쌍들을 디자인하였다.
본 발명은 완전한 세트의 프라이머 쌍들을 디자인하기 때문에, 필터링 조건을 변경하지 않는다면 주어진 입력 서열 데이터베이스에 대해 한 번 구해진 프라이머 결과를 데이터베이스화시켜서 PCR 실험에 반복적으로 사용할 수 있다. 일반적으로 실험실에서 사용하는 필터링 조건은 바뀌는 일은 매우 드물기 때문에 서열 데이터베이스가 존재하는 각 생물 종(Species)에 대해 한 번씩만 프로그램을 실행시키고 그 결과를 데이터베이스에 저장함으로써 방대하고 완벽한 프라이머 데이터베이스를 구축할 수 있다.
뿐만 아니라, 본 발명은 스케일 아웃(Scale-out) 특성을 가지는 맵리듀스 프레임워크를 기반으로 하기 때문에, 사용자가 컴퓨터를 클러스터에 더 추가함으로써 프라이머를 구하는 시간을 더욱 단축할 수 있다.
도 1은 일반적인 정방향 프라이머(Forward Primer)와 역방향 프라이머(Reverse Primer)가 표적서열과 결합된 상태를 나타낸 도면.
도 2는 본 발명을 구현하기 위한 시스템 구성을 나타낸 도면.
도 3은 본 발명에 따른 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법을 나타낸 흐름도.
도 4는 도 3에 도시된 S302단계의 후보 프라이머 추출 동작에 대한 상세 흐름도.
도 5는 도 3에 도시된 S303단계의 Single Filtering동작에 대한 상세 흐름도.
도 6은 도 3에 도시된 S304 단계의 5' Cross-Hybridization Filtering 동작에 대한 상세 흐름도.
도 7은 도 6에 도시된 5'Cross-Hybridization Filtering 동작의 적용 예시도.
도 8은 도 3에 도시된 S306 단계의 General Cross-Hybridization Filtering 동작의 상세 흐름도.
도 9a와 9b는 도 3에 도시된 S306단계와 S308단계의 동작의 적용 예시도.
도 10은 도 3에 도시된 S308 단계의 Duplicate Removing동작에 대한 상세 흐름도.
도 11은 도 3에 도시된 S310 단계의 Pair Filtering동작의 상세 흐름도.
도 12는 도 3에 도시된 S311단계의 프라이머 정렬(Primer Sorting) 동작의 상세 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 도면부호는 동일 구성 요소를 지칭한다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 본 발명에 따른 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법에 대하여 상세하게 설명해 보기로 한다.
도 2는 본 발명을 구현하기 위한 시스템 구성도이다.
도 2에 도시된 바와 같이, 시스템은 크게 맵리듀스 프라이머(MapReduce Primer: MR-Primer)(102), 맵리듀스 프라이머(102)를 구동시키는 하둡(Hadoop)(103), 그리고 하둡 분산 파일 시스템인 HDFS(Hadoop Distributed FileSystem)(105)를 포함한다. 여기서 하둡(103)과 HDFS(105) 프레임워크 클러스터는 하나의 마스터 노드(101)와 여러 개의 슬레이브 노드들(106)로 구성된다.
상기 맵리듀스 프라이머(102)는 하둡(103)과 HDFS(105) 프레임워크 상에서 실행되며, 사용자에 의해 주어진 DNA 서열 데이터베이스는 상기 각 슬레이브 노드들(106)의 HDFS(105)에 분산 저장된다.
상기 마스터 노드(101)에서 사용자가 맵리듀스 프라이머(102)의 프로그램을 실행시키면, 상기 각 슬레이브 노드(106)들에 프로그램이 전송되어 각 HDFS(105)에 저장되어 있는 DNA 서열에 대해 프로그램 수행을 시작한다.
상기 맵리듀스 프라이머(102) 프로그램의 구체적인 실행 순서는 도 3과 같다. 즉, 도 3에 도시된 바와 같이 하둡 프레임워크 관점에서 상기 맵리듀스 프라이머(102)의 실행 시 저수준 연산들은 마스터 노드(101)의 잡 트랙커(Job tracker)(103)와 슬레이브 노드(106)들의 테스크 트랙커(Task Tracker)(104)들에 의해 이루어진다.
도 3은 본 발명에 따른 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법을 나타낸 흐름도이다.
도 3에 도시된 바와 같이, 주어진 DNA 서열 데이터베이스를 받아 모든 가능한 최소길이(minL)와 최대길이(maxL) 사이를 갖는 부분서열들의 후보 프라이머를 추출한다(S301, S302).
이어, 상기 S302 단계에서 추출된 후보 프라이머들에 대해, 입력받은 Single Primer Filtering 조건들을 적용하여 조건을 만족하지 않는 프라이머는 제외시킨다(S303).
그리고, 상기 S302 단계에서 얻어진 모든 가능한 부분서열인 Map 1과 상기 S303 단계에서 얻어진 Single Primer Filtering 조건을 통과한 후보 프라이머 세트인 Map 2를 페어 조인(Pair Join)을 하면서 만약 Map1의 프라이머와 Map2의 프라이머가 5'끝부분을 제외하고 나머지 부분이 똑같다면, Map2의 프라이머를 제거한다(S304).
그러나, 상기 S302 단계에서 얻어진 모든 가능한 부분서열인 Map1과 상기 S304 단계에서 얻어진 Single Primer Filtering과 5'Cross-Hybridization Filtering을 통과한 후보 프라이머 세트인 Map2를 페어 조인을 하여 Map1의 프라이머와 Map2의 프라이머가 주어진 불일치수(#mismatch)를 제외한 나머지가 같다면, Map2의 프라이머를 제거한다(S305).
여기서, 상기 S304 단계에서 여전히 남아있는 General Cross-Hybridization Filtering 조건을 위반하는 False-Positive 프라이머들을 제거한다(S306).
상기 S306 단계 결과에서 포워드 프라이머 세트와 리버스 프라이머 세트, 두 세트로 나누어 두 세트에 대해 셀프 조인 계산에서 프라이머 쌍들을 위한 필터링 조건들을 적용하여 조건을 만족하지 않는 프라이머는 제외한다(S310).
그리고, 상기 S3010 단계를 통과한 프라이머 쌍들에 대해 페널티(Penalty) 점수를 계산하여 같은 sidset 그룹 내에서 페널티에 따라 순차 정렬하여 순차 정렬된 프라이머 쌍의 결과를 얻게 되는 것이다(S311, S312).
상기한 S302단계의 동작을 도 4를 참조하여 좀 더 구체적으로 살펴보기로 하자.
도 4는 도 3에 도시된 S302단계의 후보 프라이머 추출 동작에 대한 상세 흐름도이다.
도 4에 도시된 바와 같이, S402 단계와 S403 단계에서, Map은 DNA 데이터베이스를 서열 번호인 sid와 서열 데이터 S를 쌍인 <k1:sid, v1:S> 형태로 받아 모든 가능한 최소길이(minL)와 최대길이(maxL) 사이를 갖는 후보 프라이머에 대한 부분서열을 윈도우 슬라이딩 방식으로 추출한다.
즉, 길이 |S|인 서열에서 0부터 |S|-minL를 시작점으로 길이 minL에서 maxL까지 증가하여 순차적으로 부분서열을 추출한다. 이때, pos는 시작점이 되고 P는 시작점 pos에서 minL과 maxL 사이의 길이에 해당하는 부분서열, 후보 프라이머가 된다. 길이 minL과 maxL 값은 Single Primer Filtering 조건 중 하나로 사용자로부터 입력받는다.
이어, S404 단계에서, Map은 역방향 상보적 프라이머도 표시를 하며 추출한다.
모든 컴퓨터로부터 구해진 Map의 출력물은 셔플(Shuffle)되어 각 리듀스(Reduce)로 입력된다.
그리고, S406 단계에서는 리듀스가 <k3:P, v3:sidset
Figure 112015036618330-pat00004
sid
Figure 112015036618330-pat00005
pos>로 출력 포맷이 바뀌게 되는데, 여기서 P는 프라이머 후보, sidset은 P가 나온 서열 번호의 세트, sid는 P가 나온 하나의 특정 서열의 번호, 그리고 pos는 sid 서열 내에 P가 발견된 위치를 뜻한다. 여기서 sidset, sid, 그리고 pos는
Figure 112015036618330-pat00006
기호 연산자에 의해 합쳐져 v3는 하나의 텍스트 값이 된다.
정리하면, 주어진 DNA 서열 데이터베이스로부터 사용자에 의해 주어진 최소길이, minL와 최대길이, maxL 사이를 갖는 부분서열을 추출하는 방법은, DNA 데이터베이스를 서열 번호인 sid와 서열 데이터 S를 <k1:sid, v1:S> 쌍의 형태로 받아 모든 가능한 최소길이, minL와 최대길이, maxL 사이를 갖는 부분서열을 추출한다.
그리고, 상기 추출된 프라이머에 대해 역방향 상보적 프라이머를 만들어 표시하며 추출하고, 같은 프라이머가 나타내는 sid의 세트로 sidset를 생성하고 포맷 변환을 수행하는 것이다.
그리고, 도 3에 도시된 S303단계의 Single Filtering동작에 대하여 도 5를 참조하여 단계적으로 설명해 보자.
도 5는 도 5는 도 3에 도시된 S303단계의 Single Filtering동작에 대한 상세 흐름도로서, 도 3의 S303 단계는 일곱 개의 Single Primer Filtering 조건들을 적용하여 상기 S302 단계에서 추출된 후보 프라이머의 특성을 확인한다.
도 5에 도시된 바와 같이, S502, S503 단계 내지 S509 단계에서처럼, 조건으로 온도(℃), GC content (%), self-complementarity, 3'end self-complementary, 연속된 염기, 그리고 end stability (ΔG value)를 순차적으로 확인한다. 여기서, 프라이머 길이는 이미 도 3의 S302 단계에서 확인되었다.
상기 조건들은 모두 사용자에 의해 값이 정의될 수 있다. 특히 온도를 계산하기 위해 여러 공식들이 제안되었지만 본 발명에서는 그 중에 알려진 제일 정확한 공식(예를 들면, SantaLucia Jr, J. and Hicks, D. (2004) The thermodynamics of DNA structural motifs. Annu. Rev. Biophys. Biomol. Struct., 33, 415-440.)을 적용하였다. 비슷하게 end stability를 계산하기 위해 마찬가지로 가장 정확한 nearest neighbor thermodynamics 방법을 적용하였다. 여기서, 도 3의 S303에서는 Reduce Functions은 사용하지 않는다.
정리하면, DNA 서열 데이터베이스에서 추출된 부분서열을 후보 프라이머로 사용하여 Single Filtering 조건을 적용하는 방법은, 일곱 개의 Single Primer Filtering 조건 (온도(℃), GC content (%), self-complementarity, 3'end self-complementary, 연속된 염기, 그리고 end stability (ΔG value)) 을 적용하여 조건을 만족하지 않는 프라이머는 제외하는 것이다.
그리고, 도 3에 도시된 S304 단계에 대한 동작을 도 6을 참조하여 살펴보자.
도 6은 도 3에 도시된 S304 단계의 5' Cross-Hybridization Filtering Round의 상세 동작 흐름도이다.
도 6에 도시된 바와 같이 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 상기 Single Filtering을 통과하는 후보 프라이머의 세트인 Map2 두 개의 입력을 받는다(S603, S603, S604). 이 단계의 목적은 5'Cross-Hybridization Filtering 제약조건을 만족하지 않는 프라이머 후보를 제거하는 것이다.
그리고, 두 개의 셋 R1, R2 각 그룹의 Map1과 Map2로부터 후보 프라이머를 분리한다(S605).
이어, Reduce에서 두 세트의 페어조인을 수행하고, 페어 조인을 수행할 때, 만약 Map1의 프라이머와 Map2의 프라이머가 5'끝부분을 제외하고 나머지 부분이 똑같다면, Map2의 프라이머는 제거한다(S606 내지 S609).
정리하면, Single Filtering을 통과한 후보 프라이머들에 대해 5'Cross-Hybridization Filtering을 적용하는 방법은, 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 Single Filtering을 통과하는 후보 프라이머의 세트인 Map2, 두 개의 입력을 받아 5'끝에 사용자로부터 주어진 특정 길이의 부분과 나머지 부분으로 나누어 저장한다.
그리고, Map1과 Map2의 페어조인을 수행하면서, 만약 Map1의 프라이머와 Map2의 프라이머가 5'끝부분을 제외하고 나머지 부분이 똑같다면, Map2의 프라이머는 제거하는 것이다.
상기와 같은 5'Cross-Hybridization Filtering 동작의 적용 예시에 대하여 도 7을 참조하여 살펴보자.
도 7은 도 6에 도시된 5'Cross-Hybridization Filtering 동작의 적용 예시도이다.
도 7에 도시된 바와 같이, Map2의 프라이머(b)가 Map1의 프라이머(a)와 5'끝부분을 제외한 부분이 같다면, 프라이머(b)는 제거된다.
그리고 Map2의 프라이머(c)는 Map1의 프라이머(a)와 매우 비슷하기 때문에 제거되어야 하지만, 5'Cross-Hybridization 제약조건을 위반하지 않기 때문에 다음 단계인 General Cross-Hybridization Filtering에서 제거되는 것이다.
한편, 도 3에 도시된 S306 단계의 구체적인 동작에 대하여 도 8을 참조하여 살펴보자.
도 8은 도 3의 S306단계인 General Cross-Hybridization Filtering 동작의 상세 흐름도이다.
도 8을 참조하면, 상기 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 상기 Single Filtering과 5'Cross-Hybridization Filtering을 통과하는 후보 프라이머의 세트인 Map2, 두 개의 입력을 받는다.
그리고, 두 세트 간에 페어 조인을 수행할 때, 만약 Map1의 프라이머와 Map2의 프라이머가 주어진 불일치수 (#mismatch)를 제외한 나머지가 같다면, Map2의 프라이머는 제거된다.
이 과정을 효과적으로 수행하기 위해, S803 단계에서는 Map이 각 프라이머를 여러 개의 시드(Seed)로 나누어 그 포맷을 <k1:P, v1:sidset
Figure 112015036618330-pat00007
sid
Figure 112015036618330-pat00008
pos> 형태에서 (<k2:seed, v2:sidset
Figure 112015036618330-pat00009
sid
Figure 112015036618330-pat00010
pos
Figure 112015036618330-pat00011
preP
Figure 112015036618330-pat00012
sufP>)의 형태로 바꾸어 저장한다.
하나의 프라이머에서 생성될 수 있는 시드의 길이는 다음 정의에 의한다. k개의 불일치를 갖는 m 길이 서열에서 적어도 정확히 일치하는 m/(k+1) 염기를 포함한다. 출력 형태에서 preP는 프라이머의 시드 왼쪽부분을, sufP는 프라이머의 시드 오른쪽 부분을 의미한다. 따라서, preP, seed, sufP의 결합은 원래 프라이머와 같다.
Map의 모든 출력물은 셔플되어 같은 시드를 갖고 있는 Map1과 Map2에서 온 모든 프라이머는 특정 Reduce로 입력된다. 따라서 각 Reduse에서 같은 시드를 갖고 있는 프라이머 세트에 대해 General Cross-Hybridization Filtering 조건을 확인할 수가 있다.
정리하면, Single Filtering과 5'Cross-Hybridization Filtering을 통과한 후보 프라이머에 대해 General Cross-Hybridization Filtering을 적용하는 방법은, 주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 Single Filtering과 5'Cross-Hybridization Filtering을 통과는 후보 프라이머의 세트인 Map2, 두 개의 입력을 받아 여러 개의 seed로 나누어 저장한다.
그리고, Map1과 Map2의 페어조인을 수행하면서, 만약 Map1의 프라이머와 Map2의 프라이머가 주어진 불일치수 (#mismatch)를 제외한 나머지가 같다면, Map2의 프라이머는 제거하는 것이다.
이러한 동작에 대하여 도 9a 및 도 9b를 참조하여 살펴보자.
도 9는 도 3에 도시된 S306단계와 S308단계의 동작의 적용 예시도이다.
도 9 (a)에 도시된 바와 같이, Map1의 프라이머(a)와 비교할 때, Map2의 프라이머(c)와 프라이머(d)는 각각 두 개와 열 개의 불일치 염기를 갖고 있다. 하나의 불일치에 대해 확인할 때 (#mismatch = 1), 도 9b에서 시드의 길이는 아홉이 되고 (a), (c), 그리고 (d) 사이에 공통의 시드는 없다. 따라서 프라이머(c)와 프라이머(d)는 프라이머(a)와 함께 같은 Reduce로 모아지지 않고, 제거되지도 않는다.
그러나 도 9의 (b)에서 다음 iteration에서 (#mismatch = 2) 시드 길이는 여섯이 되고 프라이머 (a) 와 (c) 사이에, 프라이머 (a)와 (d) 사이에 공통 시드가 있다.
프라이머(a)와 (c)는 특정 리듀스에서 모아지고, preP와 sufP에서 불일치 염기 개수는 두 개로 확인되어 결과적으로 프라이머(c)는 제거된다.
그리고, 프라이머(a)와 (d) 사이에 불일치 염기 개수는 너무 많기 때문에 프라이머(d)는 통과된다. 만약 프라이머가 성공적으로 통과하면 Reduce 출력으로 v3:filtered는 참(true)으로 출력되고 그렇지 않으면 거짓(false)으로 출력된다.
도 10은 도 3에 도시된 S308 단계의 상세 흐름도로서, 상기 단계의 동작에서 여전히 General Cross-Hybridization Filtering을 위반하는 False-Positive Primer가 남아 있을 수 있다.
예를 들어, 도 9에 프라이머(d)는 프라이머(a)와 검사를 하였을 때, 통과하였다. 그러나 프라이머(d)는 Map1에 있는 다른 프라이머(b)와 매우 비슷하기 때문에, 제거되어야 한다. #mismatch = 2 iteration에서 프라이머(d)에 세 개의 시드가 생성될 수 있기 때문에, S1004 단계의 Reduce에서 (d)를 위한 출력물로 전부 세 개의 출력 쌍이 <k3, v3> 형태로 생성된다. 그 중에 프라이머(a)와 테스트된 프라이머(d)의 필터링된 결과는 참(true)인 반면에, 프라이머(b)와 테스트된 (d)의 필터링된 결과는 거짓(false)이다. 두 경우 모두 같은 sidset
Figure 112015036618330-pat00013
P
Figure 112015036618330-pat00014
sid
Figure 112015036618330-pat00015
pos의 포맷을 k2로 갖고 있기 때문에 같은 Reduce로 모이게 된다. 도 8의 S803단계에서 만약 어느 한 개의 필터링된 결과가 거짓이면, 도 8의 S804 단계의 Reduce는 해당 프라이머를 출력하지 않는다. 따라서 예제에서 프라이머(d)는 제거된다.
도 11은 도 3에 도시된 S310 단계의 Pair Filtering 동작의 상세 흐름도이다.
도 11에 도시된 바와 같이, S1103 단계에서는 Map에서 상기 단계 결과를 <k2:sid, list(v2:sidset
Figure 112015036618330-pat00016
P
Figure 112015036618330-pat00017
pos)>로 변환하여 같은 서열에 속해 있는 모든 프라이머 후보가 특정 Reduce로 모이게 된다.
그 후에 Reduce는 후보 프라이머는 정방향 프라이머 세트와 역방향 프라이머 세트, 두 세트로 나누어 두 세트에 대해 셀프조인 계산을 수행한다(S1105~S1117).
셀프 조인 계산에서 리듀스는 다섯 개의 프라이머 쌍을 위한 필터링 조건을 적용한다. 조건에는 S1108 단계에서 S1112단계와 같이 온도 차이, 길이 차이, 생성물의 길이, Pair-Complementary, 그리고 3'End Pair-Complementary에 대해 순차적으로 검사한다. 이 값들은 모두 프로그램이 실행될 때, 사용자에 의해 정의될 수 있다.
그리고, Reduce의 출력에서 f.P는 정방향 프라이머 r.P는 해당 f.P와 쌍이 되는 역방향 프라이머 f.pos는 f.P의 위치, 그리고 r.pos는 r.P의 위치를 각각 나타내도록 출력한다(S1113).
정리하면, Single Filtering, 5'Cross-Hybridization Filtering, General Cross-Hybridization Filtering을 통과한 후보 프라이머들에 대해 Pair Filtering 조건을 적용하는 방법은, 포맷 변환을 통해 같은 sid를 갖는 후보 프라이머를 그룹화한다.
이어, 상기 그룹에 속해 있는 후보 프라이머를 DNA 서열 데이터베이스에서 추출할 때 했던 표시에 따라 표시가 없는 정방향 프라이머와 표시가 있는 역방향 프라이머 두 세트로 분리한다.
그리고, 다섯 개의 Pair Primer Filtering 조건 (길이 차이, 온도 차이, 생성물의 길이, Pair-Complementary, 그리고 3'End Pair-Complementary)을 적용하여 조건을 만족하지 않는 프라이머는 제외하는 것이다.
도 12는 도 3의 마지막 단계인 Primer Sorting 즉, S311 단계의 상세 흐름도이다.
도 3의 S310 단계를 통과한 디자인 된 모든 프라이머 쌍들은 제약조건의 차이로 똑같이 효과적이진 않기 때문에, S311 단계에서는 모든 프라이머 쌍들을 계산된 패널티(Penalty) 점수에 따라 정렬한다.
다시 말해, 도 12에 도시된 바와 같이, S1203 단계에서 Map은 정방향과 역방향 프라이머 각각에 대해 페널티를 계산하여(Single Primer Penalty) 두 패널티의 합으로 쌍 프라이머 패널티를(Pair Primer Penalty) 계산한다.
상기 정방향과 역방향 프라이머 패널티(Single Penalty)는 상기 언급했던 Single Filtering Constraints에 대해 패널티를 계산한 것으로 길이, 온도, GC content, Self-Complementarity, 3'End Self-Complementarity 그리고 End Stability가 해당된다. 즉, 정방향과 역방향 프라이머 두 개의 싱글 패널티를 더하여 상기 언급했던 Pair Filtering Constraints에 대해 계산한 페널티를 더한다.
Pair Filtering Constraints로 길이 차이, 온도 차이, 생성물의 길이, Pair-Complementarity, 그리고 3'End Pair-Complementarity가 해당된다. 프라이머 쌍에 대해 패널티를 계산한 후, S1204 단계에서 Map은 <k2:<sidset, penalty>, v2:sid
Figure 112015036618330-pat00018
f.P
Figure 112015036618330-pat00019
f.pos
Figure 112015036618330-pat00020
r.P
Figure 112015036618330-pat00021
r.pos>의 형태로 출력하는데, 여기서 k2는 sidset과 패널티의 쌍으로 출력된다.
상기 계산된 페널티에 따라 정렬하기 위해 S1205 단계의 Partitioner 과정과 S1206 단계의 Comparator 과정을 거친다.
상기 S1205 단계의 Partitioner 과정에서 같은 sidset에 따라 프라이머들을 그룹화하여 특정 Reduce로 보내준다.
그리고, S1206 단계의 Comparator 과정에서는 파티션(Partition)된 그룹 내에서 키(Key)의 패널티를 이용하여 순서를 부여한다.
이어, 마지막 S1207 단계에서 <k3:sidset
Figure 112015036618330-pat00022
f.P
Figure 112015036618330-pat00023
r,P, v3:sid
Figure 112015036618330-pat00024
f.pos
Figure 112015036618330-pat00025
r.pos>로 출력포맷을 변환하는데, 여기서 프라이머 쌍인 <f.P, r.P>는 sid 해당 서열에서 <f.pos, r.pos>의 위치에서 찾아진다.
정리하면, primer 쌍들의 패널티를 계산하여 해당 sidset 그룹 내에서 정렬하는 방법은, 정방향과 역방향 프라이머 각각에 대해 Single Filtering 조건에 해당하는 패널티를 계산한다.
그리고, 상기 계산된 두 패널티의 합에 Pair Filtering 조건에 해당하는 Pair Primer Penalty를 계산하여 각각 더하게 된다.
이어, 상기 sidset에 따라 프라이머를 그룹화하여 특정 Reduce로 보내주고, 상기 계산된 패널티에 대해 상기 그룹으로 묶인 프라이머에 순서를 부여한 후, 출력 포맷을 변환하는 것이다.
한편, 본 발명에 따른 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법을 실시 예에 따라 설명하였지만, 본 발명의 범위는 특정 실시 예에 한정되는 것은 아니며, 본 발명과 관련하여 통상의 지식을 가진 자에게 자명한 범위 내에서 여러 가지의 대안, 수정 및 변경하여 실시할 수 있다.
따라서, 본 발명에 기재된 실시 예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시 예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.

Claims (10)

  1. 주어진 DNA 서열 데이터베이스를 받아 모든 가능한 최소길이와 최대길이 사이를 갖는 후보 프라이머들의 부분서열들을 추출하는 제1 단계;
    상기 제1 단계에서 추출된 후보 프라이머들의 부분 서열들에 대해, 입력받은 Single Filtering 조건들을 적용하여 조건을 만족하지 않는 프라이머의 부분 서열을 제외하는 제2 단계;
    상기 제1 단계에서 추출된 후보 프라이머들의 부분 서열들인 Map1과, 상기 제2 단계에서 얻어진 Single Filtering 조건들을 통과한 후보 프라이머의 부분 서열 세트인 Map2를 페어조인을 하여 Map1의 프라이머와 Map2의 프라이머가 5' 끝부분을 제외하고 나머지 부분이 동일하면, Map2의 프라이머를 제거하는 제3 단계;
    상기 제3 단계에서 Single Filtering 조건들을 통과한 후보 프라이머의 부분 서열인 Map2를 기 설정된 5' Cross-Hybridization Filtering 조건을 통과시켜, 통과된 후보 프라이머를 상기 Map1의 프라이머와 페어조인을 하여 Map1의 프라이머와 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머가 주어진 불일치치수(#mismatch)를 제외한 나머지가 동일하면, 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 제거하는 제4 단계;
    상기 제4 단계 결과에서 여전히 남아있는 General Cross-Hybridization Filtering조건을 위반하는 False-Positive 프라이머들을 제거하는 제5 단계;
    상기 제5 단계 결과에서 남아 있는 프라이머를 포워드 프라이머 세트와 리버스 프라이머 세트로 나누고, 나누어진 포워드 및 리버스 프라이머 세트에 대해 셀프조인을 위한 기 설정된 필터링 조건들을 적용하여 조건을 만족하지 않는 프라이머를 제외하는 제6 단계; 및
    상기 제 6 단계를 통과한 프라이머 쌍들에 대해 패널티 점수를 계산하여 같은 sidset 그룹 내에서 패널티 점수에 따라 순차 정렬하는 제7 단계를 포함하는 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  2. 제1항에 있어서,
    상기 제1 단계는,
    DNA 데이터베이스를 서열 번호인 sid와 서열 데이터 S를 <k1:sid, v1:S> 쌍의 형태로 받아 모든 가능한 최소길이와 최대길이 사이를 갖는 후보 프라이머의 부분서열을 추출하는 단계;
    상기 추출된 후보 프라이머의 부분 서열에 대해 역방향 상보적 프라이머를 만들어 표시를 하며 추출하는 단계; 및
    같은 프라이머가 나타나는 sid의 세트로 sidset를 생성하고 포맷 변환을 하는 단계를 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  3. 제1항에 있어서,
    상기 제2 단계는,
    복수개의 Single Filtering 조건을 적용하여 조건을 만족하지 않는 프라이머를 제외하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  4. 제3항에 있어서,
    상기 복수개의 Single Filtering 조건은, 온도(℃), GC content (%), Self-Complementarity, 3' End Self-Complementary, 연속된 염기, end stability (ΔG value)인 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  5. 제1항에 있어서,
    상기 제3 단계는,
    주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 single filtering을 통과는 후보 프라이머의 세트인 Map2, 두 개의 입력을 받아 5'끝에 사용자로부터 주어진 특정 길이의 부분과 나머지 부분으로 나누어 저장하는 단계; 및
    Map1과 Map2의 페어조인을 수행하면서, 만약 Map1의 프라이머와 Map2의 프라이머가 5' 끝 부분을 제외하고 나머지 부분이 똑같다면, Map2의 프라이머는 제거하는 단계를 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  6. 제1항에 있어서,
    상기 제4 단계는,
    주어진 DNA 서열 데이터베이스에서 추출된 모든 가능한 부분서열인 Map1과 상기 5' Cross-Hybridization Filtering 조건을 통과는 후보 프라이머의 세트를 입력받아 여러 개의 시드로 나누어 저장하는 단계; 및
    상기 Map1의 프라이머와 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 페어조인을 수행하면서, Map1의 프라이머와 5' Cross-Hybridization Filtering 조건을 통과한 후보 프라이머가 주어진 불일치수(#mismatch)를 제외한 나머지가 동일하다면, 상기 5' Cross-Hybridization Filtering 조건을 통과한 프라이머를 제거하는 단계를 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  7. 제1항에 있어서,
    상기 제5 단계는,
    같은 k2:sidset
    Figure 112015036618330-pat00026
    P
    Figure 112015036618330-pat00027
    sid
    Figure 112015036618330-pat00028
    ?pos로 모인 list(v2:filtered)중에 하나라도 거짓(False)이 있으면 해당 프라이머를 제거하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  8. 제1항에 있어서,
    상기 제6 단계는,
    포맷 변환을 통해 같은 sid를 갖는 후보 프라이머를 그룹화 하는 단계;
    상기 그룹에 속해 있는 후보 프라이머를 DNA 서열 데이터베이스에서 추출할 때 수행했던 표시에 따라 표시가 없는 정방향 프라이머와 표시가 있는 역방향 프라이머 두 세트로 분리하는 단계; 및
    복수개의 Pair Primer Filtering 조건을 적용하여 조건을 만족하지 않는 프라이머는 제외하는 단계를 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  9. 제8항에 있어서,
    상기 복수개의 Pair Primer Filtering 조건은, 길이 차이, 온도 차이, 생성물의 길이, Pair-Complementary, 3'End Pair-Complementary을 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.
  10. 제1항에 있어서,
    상기 제7 단계는,
    정방향과 역방향 프라이머 각각에 대해 Single Primer Filtering 조건에 해당하는 패널티 점수를 계산하는 단계;
    상기 계산된 두 패널티 점수의 합에 Pair Primer Filtering 조건에 해당하는 쌍 프라이머 패널티 점수를 계산하여 계산된 패널티 점수를 합산하는 단계;
    같은 sidset에 따라 프라이머를 그룹화하여 특정 Reduce로 보내는 단계;
    상기 합산된 패널티 점수에 대해 상기 그룹화된 프라이머에 순서를 부여하는 단계; 및
    상기 순서가 부여된 그룹화된 프라이머의 출력 포맷을 변환하는 단계를 포함하는 것인 대규모 DNA 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법.

KR1020150052999A 2015-04-15 2015-04-15 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법 KR101666506B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020150052999A KR101666506B1 (ko) 2015-04-15 2015-04-15 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법
US14/824,678 US11062790B2 (en) 2015-04-15 2015-08-12 Method for thoroughly designing valid and ranked primers for genome-scale DNA sequence database
GB1514871.1A GB2538574A (en) 2015-04-15 2015-08-20 Method for thoroughly designing valid and ranked primers for genome-scale DNA sequence database
GBGB1904630.9A GB201904630D0 (en) 2015-04-15 2015-08-20 Method for thoroughly designing valid and ranked rprimers for genome-scale DNA sequence database

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150052999A KR101666506B1 (ko) 2015-04-15 2015-04-15 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법

Publications (1)

Publication Number Publication Date
KR101666506B1 true KR101666506B1 (ko) 2016-10-14

Family

ID=54292000

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150052999A KR101666506B1 (ko) 2015-04-15 2015-04-15 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법

Country Status (3)

Country Link
US (1) US11062790B2 (ko)
KR (1) KR101666506B1 (ko)
GB (2) GB201904630D0 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180002109A (ko) * 2016-06-28 2018-01-08 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR20180015690A (ko) * 2018-01-30 2018-02-13 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR20220063977A (ko) 2020-11-11 2022-05-18 한국과학기술원 Gpu를 활용하여 대규모 dna 서열 데이터베이스에서 프라이머 제한 조건과 특이성 조건을 동시에 만족하는 유효한 모든 프라이머들을 빠르게 디자인하는 방법 및 장치

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11961590B2 (en) 2017-04-17 2024-04-16 Seegene, Inc. Methods for preparing optimal combination of oligonucleotides
CN108256289B (zh) * 2018-01-17 2020-10-16 湖南大地同年生物科技有限公司 一种基于目标区域捕获测序基因组拷贝数变异的方法
CN109658982B (zh) * 2018-12-25 2020-06-19 人和未来生物科技(长沙)有限公司 一种用于基因测序的引物设计方法及系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム
KR101138864B1 (ko) * 2005-03-08 2012-05-14 삼성전자주식회사 프라이머 및 프로브 세트를 설계하는 방법, 그에 의하여 설계된 프라이머 및 프로브 세트, 상기 세트를 포함하는 키트, 상기 방법을 컴퓨터가 수행할 수 있도록 하는 프로그램을기록한 컴퓨터 판독가능한 매체 및 상기 세트를 이용한 표적 서열의 동정 방법

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070269820A1 (en) * 2005-12-16 2007-11-22 Syngenta Participations Ag Methods for the detection of nucleic acid encoding ALPHA-amylase

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001258568A (ja) * 2000-03-22 2001-09-25 Hitachi Ltd プライマー設計システム
KR101138864B1 (ko) * 2005-03-08 2012-05-14 삼성전자주식회사 프라이머 및 프로브 세트를 설계하는 방법, 그에 의하여 설계된 프라이머 및 프로브 세트, 상기 세트를 포함하는 키트, 상기 방법을 컴퓨터가 수행할 수 있도록 하는 프로그램을기록한 컴퓨터 판독가능한 매체 및 상기 세트를 이용한 표적 서열의 동정 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
한국콘텐츠학회(2012) *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180002109A (ko) * 2016-06-28 2018-01-08 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR101889146B1 (ko) 2016-06-28 2018-08-17 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR20180015690A (ko) * 2018-01-30 2018-02-13 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR101912555B1 (ko) 2018-01-30 2018-10-26 재단법인대구경북과학기술원 다수의 목표 유전자를 검출할 수 있는 특이성 조건을 만족하는 유효한 프라이머 세트와 프루브 세트를 동시에 디자인하는 방법
KR20220063977A (ko) 2020-11-11 2022-05-18 한국과학기술원 Gpu를 활용하여 대규모 dna 서열 데이터베이스에서 프라이머 제한 조건과 특이성 조건을 동시에 만족하는 유효한 모든 프라이머들을 빠르게 디자인하는 방법 및 장치
KR102509751B1 (ko) * 2020-11-11 2023-03-15 한국과학기술원 Gpu를 활용하여 대규모 dna 서열 데이터베이스에서 프라이머 제한 조건과 특이성 조건을 동시에 만족하는 유효한 모든 프라이머들을 빠르게 디자인하는 방법 및 장치

Also Published As

Publication number Publication date
US20160306915A1 (en) 2016-10-20
GB201904630D0 (en) 2019-05-15
US11062790B2 (en) 2021-07-13
GB2538574A (en) 2016-11-23
GB201514871D0 (en) 2015-10-07

Similar Documents

Publication Publication Date Title
KR101666506B1 (ko) 대규모 dna 시퀀스 데이터베이스에 대해 특이성 조건을 만족하는 유효한 모든 프라이머들을 디자인하는 방법
Ciuffreda et al. Nanopore sequencing and its application to the study of microbial communities
US20180225416A1 (en) Systems and methods for visualizing a pattern in a dataset
Harper et al. Detecting SARS-CoV-2 variants with SNP genotyping
Siegwald et al. Assessment of common and emerging bioinformatics pipelines for targeted metagenomics
Meysman et al. On the viability of unsupervised T-cell receptor sequence clustering for epitope preference
Kang et al. miRTrace reveals the organismal origins of microRNA sequencing data
Powell et al. Empirical evaluation of partitioning schemes for phylogenetic analyses of mitogenomic data: an avian case study
Chappidi et al. Using Mothur to determine bacterial community composition and structure in 16S ribosomal RNA datasets
US11286516B2 (en) Method for rapid design of valid high-quality primers and probes for multiple target genes in QPCR experiments
Yang et al. A DNA barcode library for North American Pyraustinae (Lepidoptera: Pyraloidea: Crambidae)
Bowman et al. Efficient nucleic acid extraction and 16S rRNA gene sequencing for bacterial community characterization
Hwang et al. CLUSTOM: a novel method for clustering 16S rRNA next generation sequences by overlap minimization
Kinsella et al. Enhanced bioinformatic profiling of VIDISCA libraries for virus detection and discovery
Kim et al. MRPrimerV: a database of PCR primers for RNA virus detection
Tausch et al. Patholive—real-time pathogen identification from metagenomic illumina datasets
Wang et al. Gene selection and evolutionary modeling affect phylogenomic inference of Neuropterida based on transcriptome data
Foster et al. Assessment of inter-laboratory differences in SARS-CoV-2 consensus genome assemblies between public health laboratories in Australia
Nagy et al. Large-scale nucleotide sequence alignment and sequence variability assessment to identify the evolutionarily highly conserved regions for universal screening PCR assay design: an example of influenza A virus
Achouri et al. VODKA2: a fast and accurate method to detect non-standard viral genomes from large RNA-seq data sets
Holding et al. Data generation and network reconstruction strategies for single cell transcriptomic profiles of CRISPR-mediated gene perturbations
Westfall et al. Optimized SMRT-UMI protocol produces highly accurate sequence datasets from diverse populations—Application to HIV-1 quasispecies
Meysman et al. The workings and failings of clustering T-cell receptor beta-chain sequences without a known epitope preference
Lomsadze et al. Bioinformatics pipeline for human papillomavirus short read genomic sequences classification using support vector machine
Lima et al. The Nothoaspis amazoniensis complete mitogenome: a comparative and phylogenetic analysis

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190924

Year of fee payment: 4