KR20200023547A - 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법 - Google Patents

복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법 Download PDF

Info

Publication number
KR20200023547A
KR20200023547A KR1020207005706A KR20207005706A KR20200023547A KR 20200023547 A KR20200023547 A KR 20200023547A KR 1020207005706 A KR1020207005706 A KR 1020207005706A KR 20207005706 A KR20207005706 A KR 20207005706A KR 20200023547 A KR20200023547 A KR 20200023547A
Authority
KR
South Korea
Prior art keywords
sequence
probing
sequences
oligonucleotide
nucleic acid
Prior art date
Application number
KR1020207005706A
Other languages
English (en)
Other versions
KR102335277B1 (ko
Inventor
장미현
Original Assignee
주식회사 씨젠
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 씨젠 filed Critical 주식회사 씨젠
Publication of KR20200023547A publication Critical patent/KR20200023547A/ko
Application granted granted Critical
Publication of KR102335277B1 publication Critical patent/KR102335277B1/ko

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 종래의 방식 즉 경험적이고 매뉴얼적인 방식과는 완전히 다른 접근방식으로서, 복수의 타겟 핵산서열을 검출하는데 이용되는 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 제공하는 최적화 로직에 관한 것이다. 또한, 본 발명의 최적화 로직은 (i) 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위해 제한된 개수의 축퇴성 염기 및/또는 유니버설 염기가 최적 도입된 올리고뉴클레오타이드의 제작, 그리고 (ii) 복수의 타겟 핵산서열에서 프로빙 구역의 결정에 이용될 수 있다.

Description

복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법
관련출원에 대한 교차참조
본 특허출원은 2017년 8월 11일에 대한민국 특허청에 출원된 대한민국 특허출원 제2017-0102502호에 대하여 우선권을 주장하며, 상기 특허출원들의 개시 사항은 본 명세서에 참조로서 삽입된다.
기술분야
본 발명은 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작, 그리고 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 기술에 관한 것이다.
병원체들의 타겟 핵산분자를 검출하고 이러한 타겟 핵산분자들을 아이덴티파이 하는 다양한 기술들이 개발되었고, 이를 통칭하여 분자진단(molecular diagnosis)이라 한다. 분자진단 기술들 대부분은 프라이머 및 프로브와 같은 타겟 핵산분자-혼성화 올리고뉴클레오타이드를 이용한다.
현재까지 분자진단 기술들은 많은 발전을 하였다. 그러나 유전적 다양성(genetic diversity) 또는 유전적 변이성(genetic variability)을 나타내는 지놈을 갖는 병원체의 진단과 관련하여서는 현재까지도 해결하여야 하는 기술적 과제들이 있다.
유전적 다양성 또는 유전적 변이성은 다양한 지놈에서 보고 되어 있다. 특히, 유전적 다양성은 바이러스 지놈에서 가장 빈번히 발생한다(Bastien N. et al., Journal of Clinical Microbiology, 42:3532(2004); Peret TC. et al., Journal of Infectious Diseases, 185:1660(2002); Ebihara T. et al., Journal of Clinical Microbiology, 42:126(2004); Jenny-Avital ER. et al. Clinical Infectious Diseases, 32:1227(2001); Duffy S. et. al., Nat. Rev. Genet. 9(4):267-76(2008); Tong YG et. al., Nature. 22:526(2015)).
유전적 다양성이 있는 병원체를 검출하는 경우, 이 병원체의 특정 타겟 핵산분자의 핵산서열을 고려하여 올리고뉴클레오타이드를 디자인하고 이를 이용하면 위음성 결과가 나올 가능성이 있다. 따라서, 미지 시료에 특정 병원체가 존재하는지를 판정하기 위해서는, 이 특정 병원체의 하나의 타겟 핵산분자에 대하여 공지된 유전적 다양성의 모든 핵산서열들 또는 가능한 많은 핵산서열들을 고려하여 프로브 또는 프라이머를 디자인 하여야 한다. 이러한 유전적 다양성을 나타내는 타겟 핵산분자를 검출하기 위하여, 크게 두 가지 방식이 개발되었다.
첫 번째 방법은 유전적 다양성을 나타내는 타겟 핵산분자의 복수의 핵산서열에 혼성화 되는 복수의 올리고뉴클레오타이드를 이용하여, 타겟 핵산분자를 검출한다. 예컨대, 인플루엔자 A 바이러스의 M 유전자를 타겟으로 하는 경우, M 유전자에 대하여 공지된 모든 핵산서열들을 얼라인먼트 하고, 이 핵산서열들을 모두 커버할 수 있는 프로브를 디자인 한다. 이 경우, 하나의 프로브로 다양한 서열의 M 유전자를 모두 커버할 수 없기 때문에, 복수의 프로브(프로빙 위치가 서로 다른 프로브들)를 디자인한다.
두 번째 방법은 축퇴성 올리고뉴클레오타이드를 디자인 하는 것이다. 통상적으로, 유전적 다양성을 갖는 특정 유전자의 모든 핵산서열들에서 일 구역을 찾아내고, 이 구역에 혼성화 하는 축퇴성 프라이머 또는 프로브(변이 위치에 축퇴성 염기를 포함)를 이용하여 소망하는 커버리지로 특정 유전자를 검출한다(참조: 미국 특허 제8735063호, 제8318423호 및 제8685649호).
상기 방법 중 두 번째 방법과 관련하여서는, 타겟 핵산분자의 다양성의 핵산서열들을 검출하는데 이용되는 올리고뉴클레오타이드에 축퇴성 염기를 최적 적용하는 것이 가장 중요하다. 분석의 편의성, 효율성 및 경제성을 고려하면, 축퇴성 염기가 최적 적용된 올리고뉴클레오타이드를 이용하여 최대 타겟 커버리지로 타겟 핵산분자를 검출하는 것이 바람직하다.
종래에는 분석자들이 타겟 핵산분자의 다양성의 핵산서열들을 검출하기 위하여, 순서대로 혹은 무작위적으로 프로브들에 축퇴성 염기를 적용하면서 복수의 타겟 핵산서열을 최대로 커버하는 축퇴성 염기의 적용 위치 및 개수를 결정하였다.
서열들을 최대한 커버할 수 있는지를 결정하기 위하여 프로브의 특정 위치에 제한된 개수의 축퇴성 염기를 순서대로 또는 무작위적으로 적용하는 종래의 방법은 타겟 핵산서열의 수가 적은 경우에는 제안할 수 있다. 그러나, 타겟 핵산서열의 수가 훨씬 많고 최대한의 서열을 커버하는 축퇴성 올리고뉴클레오타이드를 제공하고자 하는 경우에는, 상기 종래 방법은 장시간 소요될 뿐만 아니라 정확도가 떨어지는 문제점이 있다.
발명자가 아는 한(To our best knowledge), 본 발명에서 달성하고자 하는 기술적 과제, 즉 (i) 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작, 그리고 (ⅱ) 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역의 결정을 최적화 로직(optimization logic)으로 해결한 선행기술은 없다.
본 명세서 전체에 걸쳐 다수의 인용문헌 및 특허 문헌이 참조되고 그 인용이 표시되어 있다. 인용된 문헌 및 특허의 개시 내용은 그 전체로서 본 명세서에 참조로 삽입되어 본 발명이 속하는 기술 분야의 수준 및 본 발명의 내용이 보다 명확하게 설명된다.
본 발명자들은 보다 개선된 신속성 및 정확성을 가지고 복수의 타겟 핵산서열, 특히 유전적 다양성을 나타내는 타겟 핵산분자의 복수의 핵산서열(구체적으로, 타겟 핵산서열들)을 최대한 커버하도록 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기를 최적 적용하는 기술을 개발하고자 하였다. 그 결과, 본 발명자들은 종래의 방식 즉 경험적이고 매뉴얼적인 방식과는 완전히 다른 접근방식으로서, 복수의 타겟 핵산서열을 검출하는 데 이용되는 올리고뉴클레오타이드(예컨대, 프로브 및 프라이머)에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 위한 최적화 로직을 개발하였다. 또한, 본 발명자들은 상기 최적화 로직이 (i) 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작, 그리고 (ii) 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역의 결정에 이용될 수 있음을 규명하였다.
따라서, 본 발명의 목적은 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법을 제공하는 데 있다.
본 발명의 다른 목적은 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 제공하는 데 있다.
본 발명의 또 다른 목적은 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체를 제공하는 데 있다.
본 발명의 다른 목적은 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체를 제공하는 데 있다.
본 발명의 다른 목적 및 이점은 하기의 실시예, 청구범위 및 도면에 의해 보다 명확하게 된다.
본 발명의 기술적 요지는 복수의 타겟 핵산서열, 구체적으로 서열 유사성을 갖는 복수의 타겟 핵산서열을 동시에 검출하는 것과 관련하여, 분석자가 직면할 수 있는(encountered) 결정 사항들, 구체적으로 (i) 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위해 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입의 결정, 및 (ii) 복수의 타겟 핵산서열에서 프로빙 구역의 결정을 효율적으로 실시하는 것이다.
본 발명자들은 이러한 결정들에 대하여 가장 이상적인 최적화 로직 2가지를 개발하였고, 이들 로직 사이에는 공통 사항이 있으며, 이 2가지 로직에 따라 본 발명은 크게 2가지 양태로 나누어진다. 이하 본 발명을 상세하게 설명한다.
Ⅰ. 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작
본 발명의 일 양태에 따르면, 본 발명은 다음 단계를 포함하는 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법을 제공한다:
(a) 복수의 타겟 핵산서열의 동일한 프로빙 구역(probing region)에 있는 서열 유사성을 갖는 서열들 각각을 프로빙 서열 또는 올리고뉴클레오타이드 서열로 선택하여 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 제공하는 단계;
(b) 상기 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택하는 단계; 및
(c) (ⅰ) 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 (ⅱ) 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하고 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하는 단계.
본 발명의 첫 번째 양태는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하는데 이용되는 올리고뉴클레오타이드(예컨대, 프로브 및 프라이머)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 제공하는 방법에 관한 것이다. 달리 표현하면, 본 발명의 첫 번째 방법은 올리고뉴클레오타이드에 도입할 축퇴성 염기 및/또는 유니버설 염기는 제한된 수로 주어지고, 검출대상 타겟 핵산서열에 대한 올리고뉴클레오타이드의 타겟 커버리지를 최대화하는 최적화 방법이다.
본 명세서에서 축퇴성 염기 및/또는 유니버설 염기의 수를 언급하면서 사용되는 용어 “소정의 허용 개수”또는“제한된 개수”는 “소정의 허용 개수 이하”또는“제한된 개수 이하”의 축퇴성 염기 및/또는 유니버설 염기를 올리고뉴클레오타이드에 도입하여 복수의 타겟 핵산서열을 최대 타겟 커버리지로 검출하는 것을 의미한다. 예를 들어, 올리고뉴클레오타이드에 도입할 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수가 3이라는 것은, 3개 이하의 축퇴성 염기 및/또는 유니버설 염기를 올리고뉴클레오타이드에 도입하여 복수의 타겟 핵산서열을 최대 타겟 커버리지로 검출하는 것을 나타낸다.
도 2는 본 발명의 일 구현예에 따라 본 발명을 실시하는 과정들의 흐름도이다. 본 발명의 방법을 도 2를 참조하여 설명하면 다음과 같다:
단계 (a): 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 제공 (110)
우선, 본 단계에서 복수의 타겟 핵산서열의 동일한 프로빙 구역(probing region)에 있는 서열 유사성을 갖는 서열들 각각을 프로빙 서열 또는 올리고뉴클레오타이드 서열로 선택하여 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들이 제공된다. 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들은 단계 (b)에서 이들 중 어느 하나는 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드로 선택되며, 단계 (c)에서 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 결정할 때 고려 요소가 된다.
본 명세서에서 용어 “타겟 핵산분자”, “타겟 분자” 또는 “타겟 핵산”은 검출하고자 하는 유기체 내 뉴클레오타이드 분자를 의미한다. 타겟 핵산분자는 일반적으로 특정 이름이 붙여져 있으며, 지놈 전체 및 지놈을 구성하는 모든 뉴클레오타이드 분자(예컨대, 유전자, 슈도유전자, 비-코딩 서열분자, 비해독 구역 및 지놈의 일부 구역)를 포함한다.
타겟 핵산분자는 예컨대, 원핵세포(예건대, Mycoplasma pneumoniae , Chlamydophila pneumoniae , Legionella pneumophila , Haemophilus influenzae , Streptococcus pneumoniae , Bordetella pertussis , Bordetella parapertussis , Neisseria meningitidis , Listeria monocytogenes , Streptococcus agalactiae , Campylobacter, Clostridium difficile , Clostridium perfringens , Salmonella, Escherichia coli , Shigella, Vibrio , Yersinia enterocolitica , Aeromonas , Chlamydia trachomatis , Neisseria gonorrhoeae , Trichomonas vaginalis , Mycoplasma hominis , Mycoplasma genitalium , Ureaplasma urealyticum , Ureaplasma parvum , Mycobacterium tuberculosis), 진핵세포(예컨대, 원생동물과 기생동물, 균류, 효모, 고등 식물, 하등 동물 및 포유동물과 인간을 포함하는 고등동물), 바이러스 또는 비로이드의 핵산을 포함한다. 상기 진핵세포 중 기생충(parasite)의 예는 Giardia lamblia , Entamoeba histolytica , Cryptosporidium, Blastocystis hominis , Dientamoeba fragilis , Cyclospora cayetanensis를 포함한다. 상기 바이러스의 예는 호흡기 질환을 유발하는 인플루엔자 A 바이러스(Flu A), 인플루엔자 B 바이러스(Flu B), 호흡 씬시티얼 바이러스 A(Respiratory syncytial virus A: RSV A), 호흡 씬시티얼 바이러스 B(Respiratory syncytial virus B: RSV B), 파라인플루엔자 바이러스 1(PIV 1), 파라인플루엔자 바이러스 2(PIV 2), 파라인플루엔자 바이러스 3(PIV 3), 파라인플루엔자 바이러스 4(PIV 4), 메타뉴모바이러스(MPV), 인간 엔테로바이러스(HEV), 인간 보카바이러스(HBoV), 인간 라이노바이러스(HRV), 코로나바이러스 및 아데노바이러스; 위장관 질환을 유발하는 유발하는 노로바이러스, 로타바이러스, 아데노바이러스, 아스트로바이러스 및 사포바이러스를 포함한다. 또한, 상기 바이러스의 예는 HPV(human papillomavirus), MERS-CoV(Middle East respiratory syndrome-related coronavirus), 댕기바이러스(Dengue virus), HSV(Herpes simplex virus), HHV(Human herpes virus), EMV(Epstein-Barr virus), VZV(Varicella zoster virus), CMV(Cytomegalovirus), HIV, 간염 바이러스 및 폴리오바이러스를 포함한다.
본 명세서에서 용어 “타겟 핵산서열” 또는 “타겟 서열”은 타겟 핵산분자를 특정 핵산서열로 나타낸 것이다.
하나의 타겟 핵산분자, 예컨대 하나의 타겟 유전자는 하나의 특정 타겟 핵산서열을 가질 수 있거나, 혹은 유전적 다양성 또는 유전적 변이성을 나타내는 타겟 핵산분자인 경우에는 복수의 다양성 타겟 핵산서열을 가질 수 있다. 유전적 다양성을 나타내는 타겟 핵산분자를 위음성 결과 없이 검출하고자 하는 경우에는, 복수의 다양성 타겟 핵산서열을 커버할 수 있는 복수의 올리고뉴클레오타이드 조합 또는 축퇴성 염기 및/또는 유니버설 염기가 도입된 올리고뉴클레오타이드가 통상적으로 요구된다.
본 발명에서의 복수의 타겟 핵산서열은 서열 유사성을 갖는 타겟 핵산서열들이다. 구체적으로, 상기 서열 유사성을 갖는 타겟 핵산서열들은 하나의 타겟 핵산분자의 복수의 타겟 핵산서열이거나 또는 둘 이상의 타겟 핵산분자의 복수의 타겟 핵산서열일 수 있다.
본 발명의 일 구현예에 따르면, 본 발명에서의 복수의 타겟 핵산서열은 유전적 다양성을 갖는 하나의 타겟 핵산분자의 서열 유사성을 갖는 복수의 핵산서열들이다.
예를 들어, 본 발명에서 이용되는 복수의 타겟 핵산서열은 바이러스의 지놈 서열과 같이 유전적 다양성을 나타내는 타겟 핵산 분자의 서열 유사성을 갖는 복수의 핵산서열들이다. 예를 들어, 인플루엔자 A 바이러스를 검출하고자 하며 M 유전자를 타겟 핵산분자로 정한 경우, 인플루엔자 A 바이러스의 M 유전자의 다양성 타겟 핵산서열들이 본 발명에서 이용될 수 있다. 인플루엔자 A 바이러스는 다양한 서브타입 및 변이체(variants)를 포함하며, 이들의 지놈 서열은 서로 차이가 있다. 따라서 인플루엔자 A 바이러스를 위음성 결과 없이 검출하고자 하면, 이러한 유전적 다양성에 따른 인플루엔자 A 바이러스의 타겟 핵산분자의 다양한 타겟 핵산서열들을 고려하여 올리고뉴클레오타이드를 디자인하여야 한다.
보다 구체적으로, 상기 복수의 타겟 핵산서열은 유전적 다양성을 가지고 있는 바이러스 또는 박테리아의 전체 지놈 서열, 지놈의 일부 서열 또는 하나의 유전자의 복수의 핵산서열이다.
본 발명의 일 구현예에 따르면, 상기 복수의 타겟 핵산서열은 동일한 기능, 동일한 구조 또는 동일한 유전자명을 가지는 복수의 유기체의 호모로그(homologue)에 대응하는 복수의 핵산서열이다. 상기 유기체는 하나의 속, 종, 아종, 서브타입, 지노타입, 시로타입, 스트레인, 분리종(isolate) 또는 재배종(cultivar)에 속한 유기체를 의미한다. 상기 호모로그는 단백질 및 핵산분자를 포함한다. 상기 구현예는, 동일한 기능(예컨대, 핵산서열에 의해 코딩되는 단백질의 생물학적 기능), 동일한 구조(예컨대, 핵산서열에 의해 코딩되는 단백질의 3차 구조) 또는 동일한 유전자명을 가지는 복수의 유기체의 상동성(homologous)의 생체분자들(예컨대, 단백질 또는 핵산)의 복수의 핵산서열을 본 발명에 이용하는 것이다. 예를 들어, HPV 타입 16의 E5 유전자에 대하여 공지된 복수의 핵산서열은 HPV 타입 16의 분리종들의 핵산서열로 고려될 수 있다. HPV 타입 16을 검출하기 위하여 타겟 핵산분자로서 E5 유전자를 이용하는 경우, HPV 타입 16의 E5 유전자의 복수의 다양성 핵산서열들을 커버할 수 있도록 축퇴성 염기 및/또는 유니버설 염기를 올리고뉴클레오타이드에 도입하여야 한다.
본 발명의 일 구현예에 따르면, 타겟 핵산서열은 어느 생물학적 분류(예컨대, 속, 종, 서브타입, 지노타입, 시로타입 및 서브종)의 하위에 속하는 핵산서열들을 포함한다. 예를 들어, 타겟 핵산서열이 HPV 타입 16인 경우, 타겟 핵산서열은 그 하위 분류에 속하는 핵산서열들을 포함할 수 있다.
본 발명의 일 구현예에 따르면, 상기 복수의 타겟 핵산서열은 최소 3개, 최소 5개, 최소 10개, 최소 20개, 최소 30개, 최소 40, 최소 50개, 최소 60개, 최소 70개, 최소 80개, 최소 90개 또는 최소 100개의 핵산서열이다.
복수의 타겟 핵산서열은 다양한 서열 데이터베이스를 이용하여 제공할 수 있다. 예를 들어, GenBank, EMBL(European Molecular Biology Laboratory) 서열 데이터베이스 및 DDBJ(DNA DataBank of Japan)와 같은 공중 접근가능한 데이터베이스로부터 소망하는 복수의 타겟 핵산서열을 수집하고 제공할 수 있다.
본 발명의 일 구현예에 따르면, 상기 복수의 타겟 핵산 서열들은 본 발명의 단계 (a) 이전에 얼라인먼트 된다. 본 발명에서 타겟 핵산서열들의 얼라인먼트는 당업계에 공지된 다양한 방법(예컨대, 글로벌 얼라인먼트 및 로컬 얼라인먼트) 및 알고리즘에 따라 실시할 수 있다.
얼라인먼트에 대한 다양한 방법 및 알고리즘은 Smith and Waterman, Adv . Appl . Math. 2:482(1981); Needleman and Wunsch, J. Mol . Bio. 48:443(1970); Pearson and Lipman, Methods in Mol . Biol. 24: 307-31(1988); Higgins and Sharp, Gene 73:237-44(1988); Higgins and Sharp, CABIOS 5:151-3(1989); Corpet et al., Nuc . Acids Res. 16:10881-90(1988); Huang et al., Comp. Appl . BioSci . 8:155-65(1992) and Pearson et al., Meth . Mol . Biol . 24:307-31(1994)에 개시되어 있다. NCBI Basic Local Alignment Search Tool (BLAST) (Altschul et al., J. Mol . Biol . 215:403-10(1990))은 NCBI (National Center for Biological Information) 등에서 접근 가능하며, 인터넷 상에서 blastn, blasm, blastx, tblastn and tblastx와 같은 서열 분석 프로그램과 연동되어 이용할 수 있다. BLAST는 http://www.ncbi.nlm.nih.gov/BLAST/에서 접속 가능하다. 이 프로그램을 이용한 서열 유사성 비교 방법은 http://www.ncbi.nlm.nih.gov/BLAST/blast_help.html에서 확인할 수 있다.
본 발명에 따르면, 복수의 타겟 핵산서열을 얼라인먼트하고, 동일한 프로빙 구역에 있는 서열 유사성을 갖는 서열들 각각을 프로빙 서열 또는 올리고뉴클레오타이드 서열로 채택한다.
본 명세서에서 용어 “프로빙 구역”은 프라이머 및 프로브와 같은 올리고뉴클레오타이드가 타겟-특이적 혼성화 하는데 적합한 타겟 핵산서열의 일 구역을 의미하며, 이 용어는 프라이밍 구역을 포괄한다.
예를 들어, A에서부터 J까지 10개의 타겟 핵산서열들이 있는 경우, A에서부터 J까지의 타겟 핵산서열들을 얼라인먼트하고, 서열 유사성이 있는 일정 길이의 동일 구역의 서열들을 A에서부터 J까지의 타겟 핵산서열들의 프로빙 서열로 선택한다.
본 발명의 일 구현예에 따르면, 프로빙 서열로 선택하는데 적합한 서열 유사성을 갖는 프로빙 구역들은 20-100%, 30-100%, 40-100%, 50-100%, 60-100%, 70-100%, 80-100% 또는 90-100%의 서열 유사성을 갖는다.
동일한 프로빙 구역에 있는 서열 유사성을 갖는 서열들 각각은 복수의 타겟 핵산서열 각각에 대한 프로빙 서열로 선택할 수 있고 또한 올리고뉴클레오타이드 서열로 선택할 수 있다. 본 명세서에서, 단계 (c)에서 최종적으로 제작되는 최대 타겟 커버리지의 올리고뉴클레오타이드를 제외한 올리고뉴클레오타이드는 최대 타겟 커버리지의 올리고뉴클레오타이드 제작을 위해 이용되는 올리고뉴클레오타이드이다. 이 올리고뉴클레오타이드의 서열은 프로빙 서열에 혼성화 하거나 또는 그의 상보적인 서열에 혼성화 하는 서열을 포함할 수 있다. 상기 올리고뉴클레오타이드가 프로빙 서열의 상보적 서열에 혼성화 되는 서열인 경우, 상기 프로빙 서열이 올리고뉴클레오타이드의 서열일 수 있다. 즉, 최종적으로 제작되는 최대 타겟 커버리지의 올리고뉴클레오타이드는 복수의 프로빙 서열 또는 복수의 올리고뉴클레오타이드를 이용하여 제공될 수 있다.
본 발명의 일 구현예에 따르면, 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들은 각각 고유의 일련번호가 부여된다.
단계 (b): 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 선택 (120)
이어, 상기 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택한다.
상기 선택되는 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 단계 (c)에서 (ⅰ) 상기 복수의 프로빙 서열들 또는 (ⅱ) 상기 복수의 올리고뉴클레오타이드들과 매치 여부를 결정하는 기준이 되며, 이들 사이에 미스매치되는 위치(들)에 축퇴성 염기 및/또는 유니버설 염기를 도입하는 데 있어 도입 대상이 된다.
이러한 목적으로 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 상기 복수의 프로빙 서열들 중 또는 상기 복수의 올리고뉴클레오타이드들 중 임의로 어느 하나를 선택하여 이용할 수 있다.
본 발명의 일구현예에 따르면, 상기 레퍼런스 프로빙 서열은 상기 복수의 프로빙 서열들 중에서 동일한 서열이 가장 많은 프로빙 서열이고, 상기 레퍼런스 올리고뉴클레오타이드는 상기 복수의 올리고뉴클레오타이드 중에서 동일한 서열이 가장 많은 올리고뉴클레오타이드이다.
본 발명에 의해 제공되는 올리고뉴클레오타이드는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하도록 축퇴성 염기 및/또는 유니버설 염기를 최적 도입하여 제작되는 것이므로, 상기 복수의 프로빙 서열들 중에서 동일한 서열이 가장 많은 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드 중에서 동일한 서열이 가장 많은 올리고뉴클레오타이드를 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드로 선택하는 것이 바람직하다.
단계 (c): 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드의 제공 (130)
그 다음, (ⅰ) 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 (ⅱ) 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하고 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 채택하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공한다.
본 발명에서 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기를 도입하는 위치(들)를 결정하는 데 있어, 비교의 기준은 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드이고, 비교의 대상은 (ⅱ) 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들이다. 따라서, 본 발명에서 축퇴성 염기 및/또는 유니버설 염기를 도입하기 위한 매치 또는 미스매치의 비교는 4가지의 형태, 구체적으로 레퍼런스 프로빙 서열과 복수의 프로빙 서열들, 레퍼런스 프로빙 서열과 복수의 올리고뉴클레오타이드들, 레퍼런스 올리고뉴클레오타이드와 복수의 프로빙 서열들, 또는 레퍼런스 올리고뉴클레오타이드와 복수의 올리고뉴클레오타이드들 사이에서 가능하다.
본 명세서에서 축퇴성 염기 및/또는 유니버설 염기의 도입 위치(들)를 언급하면서 사용되는 용어 “미스매치”는 비교되는 두 서열의 방향성이 같은 경우에는 두 서열의 동일한 위치에 대응되는 두 염기가 동일하지 않음을 의미하고, 방향성이 다른 경우에는 두 서열에서 대응되는 두 염기는 비상보적임을 나타낸다. 예를 들어, 미스매치의 비교 기준인 레퍼런스 올리고뉴클레오타이드의 서열과 미스매치의 비교 대상인 복수의 프로빙 서열들 모두 5’to 3’의 방향성을 갖고 대응되는 염기가 레퍼런스 올리고뉴클레오타이드는 “A”이고 비교 대상인 프로빙 서열의 염기는 “A”를 제외한 다른 염기인 경우에, 레퍼런스 올리고뉴클레오타이드에서 염기“A” 및 이에 대응되는 프로빙 서열의 염기가 있는 위치는 미스매치 되는 위치가 된다. 또는 미스매치의 비교 기준인 레퍼런스 올리고뉴클레오타이드의 서열은 5’to 3’의 방향성을 갖고, 미스매치의 비교 대상인 복수의 프로빙 서열들은 3’to 5’의 방향성을 갖으며 대응되는 염기가 레퍼런스 올리고뉴클레오타이드는 “A”이고 비교 대상인 프로빙 서열의 염기는 “T”를 제외한 다른 염기인 경우에 레퍼런스 올리고뉴클레오타이드의 “A”및 이에 비상보적인 염기가 있는 프로빙 서열의 위치는 미스매치되는 위치가 된다.
본 발명에서 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기는 (ⅰ)레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 (ⅱ) 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입된다. 본 발명에서 축퇴성 염기 및/또는 유니버설 염기의 도입 대상은 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드이다.
본 발명에서 도입되는 축퇴성 염기 및/또는 유니버설 염기의 소정의 허용 개수는 구체적으로 7개 이하, 5개 이하, 4개 이하 또는 3개 이하이다. 또는 본 발명에서 도입되는 축퇴성 염기 및/또는 유니버설 염기의 사용 비율은 구체적으로 25% 이하, 20% 이하, 18% 이하, 16% 이하, 14% 이하, 12% 이하, 10% 이하, 8% 이하 또는 6% 이하이다. 상기 축퇴성 염기 또는 유니버설 염기의 사용 비율은 축퇴성 염기 또는 유니버설 염기가 도입된 올리고뉴클레오타이드의 총 뉴클레오타이드 중에서 축퇴성 염기 또는 유니버설 염기의 비율을 나타낸다.
본 발명에서 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기를 도입하여 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 한다.
본 명세서에서 축퇴성 염기 및/또는 유니버설 염기의 도입을 언급하면서 사용되는 용어 “최대 매치”는 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 동일한 서열을 갖는 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들의 개수가 최대로 되는 것을 의미하며, 상기 최대 매치는 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들의 총 개수에 대하여 비율 또는 퍼센티지로 표현할 수 있다.
본 발명에서 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입하여 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드가 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되는 경우, 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드의 서열로 선택한다.
상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 프로빙 서열로부터 선택된 올리고뉴클레오타이드 서열은 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 프로빙 서열과 최대 매치되는 복수의 프로빙 서열들에 해당하는 복수의 타겟 핵산서열들을 검출하는데 이용할 수 있다. 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 올리고뉴클레오타이드 서열로부터 선택된 올리고뉴클레오타이드 서열은 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 올리고뉴클레오타이드와 최대 매치되는 복수의 올리고뉴클레오타이드 서열에 해당하는 복수의 타겟 핵산서열들을 검출하는데 이용할 수 있다.
최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하는 것은, (ⅰ) 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 그대로 올리고뉴클레오타이드의 서열로 선택하는 것과 (ⅱ) 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열의 상보적인 서열을 올리고뉴클레오타이드의 서열로 선택하는 것을 모두 포괄한다.
본 발명에서 제공되는 올리고뉴클레타이드를 언급하면서 사용되는 용어 “타겟 커버리지”는 상기 제공된 올리고뉴클레오타이드가 상기 복수의 타겟 핵산서열과 특이적으로 혼성화 하는 비율을 나타내는 값이다.
구체적으로, 용어 “타겟 커버리지”는 상기 제공된 올리고뉴클레오타이드가 실질적 상보성으로(구체적으로, 완전한 상보성으로 또는 완전한 매치로) 혼성화 되는 타겟 핵산서열의 상기 복수의 타겟 핵산서열에 대한 비율을 의미한다. 상기 타겟 커버리지는 상기 비율 또는 퍼센티지로 표현될 수 있다.
본 발명의 일 구현예에 따르면, 상기 올리고뉴클레오타이드는 프로브 및/또는 프라이머이다. 본 명세서에서 사용되는 용어“프로브(probe)"는 타겟 핵산서열에 상보적인 부위 또는 부위들을 포함하는 단일-가닥 핵산 분자를 의미한다. 본 명세서에서 사용되는 용어“프라이머”는 타겟 핵산서열에 상보적인 프라이머 연장 산물의 합성이 유도되는 조건, 즉, 뉴클레오타이드와 DNA 중합효소와 같은 중합제의 존재, 그리고 적합한 온도와 pH의 조건에서 합성의 개시점으로 작용할 수 있는 올리고뉴클레오타이드를 의미한다.
본 발명에서 제공되는 올리고뉴클레오타이드는 타겟 핵산서열에 혼성화 되는 서열로 구성된 통상적인 프라이머 및 프로브 구조를 가질 수 있다. 또는, 본 발명에서 제공되는 올리고뉴클레오타이드의 구조를 변형하여 독특한 구조를 가지는 올리고뉴클레오타이드를 제공할 수 있다. 예를 들어, 본 발명에서 제공되는 올리고뉴클레오타이드는 스콜피온 프라이머, 몰리큘러 비이컨 프로브, 선라이즈 프라이머, 하이비이컨 프로브, 태깅 프로브, DPO 프라이머 또는 프로브(WO 2006/095981), 및 PTO 프로브(참조: WO 2012/096523)의 구조를 가질 수 있다.
본 발명에서 제공되는 올리고뉴클레오타이드는 통상적인(conventional) 프라이머 또는 프로브에 축퇴성 염기 및/또는 유니버설 염기가 도입된 축퇴성 염기-포함 올리고뉴클레오타이드 및/또는 유니버설 염기-포함 올리고뉴클레오타이드와 같은 변형 올리고뉴클레오타이드이다. 본 명세서에서 사용되는 용어 “통상적인 프라이머”, “통상적인 프로브” 및 “통상적인 올리고뉴클레오타이드”는 축퇴성 염기 또는 비자연-염기가 도입되지 않은 일반적인 프라이머, 프로브 및 올리고뉴클레오타이드를 의미한다. 본 발명의 일 구현예에 따르면, 축퇴성 염기-포함 올리고뉴클레오타이드 또는 유니버설 염기-포함 올리고뉴클레오타이드가 본 발명에서 제공되는 경우, 올리고뉴클레오타이드의 최소 50%, 최소 60%, 최소 70%, 최소 80%, 최소 90% 또는 최소 95%는 비변형 올리고뉴클레오타이드이다. 상기 축퇴성 염기는 당업계에 공지된 다음의 다양한 축퇴성 염기를 포함한다: R: A 또는 G; Y: C 또는 T; S: G 또는 C; W: A 또는 T; K: G 또는 T; M: A 또는 C; B: C 또는 G 또는 T; D: A 또는 G 또는 T; H: A 또는 C 또는 T; V: A 또는 C 또는 G; N: A 또는 C 또는 G 또는 T. 상기 유니버설 염기는 당업계에 공지된 다음의 다양한 유니버설 염기를 포함한다: 디옥시이노신, 이노신, 7-디아자-2'-디옥시이노신, 2-아자-2'-디옥시이노신, 2'-OMe 이노신, 2'-F 이노신, 디옥시 3-니트로피롤, 3-니트로피롤, 2'-OMe 3-니트로피롤, 2'-F 3-니트로피롤, 1-(2'-디옥시-베타-D-리보푸라노실)-3-니트로피롤, 디옥시 5-니트로피롤, 5-니트로인돌, 2'-OMe 5-니트로인돌, 2'-F 5-니트로인돌, 디옥시 4-니트로벤즈이미다졸, 4-니트로벤즈이미다졸, 디옥시 4-아미노벤즈이미다졸, 4-아미노벤즈이미다졸, 디옥시 네불라린, 2'-F 네불라린, 2'-F 4-니트로벤즈이미다졸, PNA-5-인트로인돌, PNA-네불라린, PNA-이노신, PNA-4-니트로벤즈이미다졸, PNA-3-니트로피롤, 모르포리노-5-니트로인돌, 모르포리노-네불라린, 모르포리노-이노신, 모르포리노-4-니트로벤즈이미다졸, 모르포리노-3-니트로피롤, 포스포라미데이트-5-니트로인돌, 포스포라미데이트-네불라린, 포스포라미데이트-이노신, 포스포라미데이트-4-니트로벤즈이미다졸, 포스포라미데이트-3-니트로피롤, 2'-0-메톡시에틸이노신, 2'-0-메톡시에틸 네불라린, 2'-0-메톡시에틸 5-니트로인돌, 2'-0-메톡시에틸 4-니트로-벤즈이미다졸, 2'-0-메톡시에틸 3-니트로피롤 및 상기 염기의 조합. 보다 구체적으로, 상기 유니버설 염기는 디옥시이노신, 이노신, 또는 이들의 조합이다.
본 발명의 일 구현예에 따르면, 최대 타겟 커버리지를 위하여 도입되는 염기는 축퇴성 염기이다. 축퇴성 올리고뉴클레오타이드는 축퇴성 올리고뉴클레오타이드에 의해 나타내는 복수의 올리고뉴클레오타이드를 포함한다. 본 명세서에서 특별하게 다르게 언급하지 않는 한, 축퇴성 올리고뉴클레오타이드는 단수의 올리고뉴클레오타이드가 아니라 축퇴성 올리고뉴클레오타이드에 의해 나타내는 복수의 올리고뉴클레오타이드를 포함하는 소군(subgroup)을 의미한다.
본 발명에서 제공되는 올리고뉴클레오타이드는 하기의 추가적인 기준들 중 최소 하나의 기준을 만족하는 프로브 또는 프라이머일 수 있다: (i) 35-85℃의 Tm 값, (ii) 15-50 뉴클레오타이드의 길이, (iii) GC 컨텐츠가 30-80% 인 뉴클레오타이드 서열, (iv) 상기 올리고뉴클레오타이드가 헤어핀 구조를 형성하는 ΔG 값이 -8.0 kcal/mol 이상; (v) 상기 올리고뉴클레오타이드가 호모 다이머를 형성하는 경우, 호모 다이머의 형성에 관여하는 연속적인 뉴클레오타이드의 비율이 65% 이하; (vi) 상기 올리고뉴클레오타이드가 다른 올리고뉴클레오타이드와 헤테로 다이머를 형성하는 경우, 헤테로 다이머의 형성에 관여하는 뉴클레오타이드의 비율이 70% 이하; 그리고 (vii) 상기 올리고뉴클레오타이드가 다른 올리고뉴클레오타이드와 헤테로 다이머를 형성하는 경우, 헤테로 다이머의 형성에 관여하는 연속적인 뉴클레오타이드의 비율이 65% 이하.
본 발명의 일구현예에 따르면, 본 발명의 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하며; 상기 단계 (c)는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 상기 복수의 서열 패턴들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 서열 패턴들에 최대 매치가 되도록 하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하여 실시한다.
상기 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 서열의 동일성에 따라 그룹화하여 복수의 서열 패턴을 수득함으로써, 비교의 기준으로서 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 미스매치 여부를 비교하는 비교 대상으로서의 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 개수를 줄일 수 있어, 최대의 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하는 시간을 단축시킬 수 있다.
상술한 단계 (c)는 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 복수의 서열 패턴들에도 동일하게 적용된다.
본 발명의 일 구현예에 따르면, 복수의 서열 패턴들은 각각 고유의 일련번호가 부여된다.
본 발명의 일 구현예에 따르면, 상기 레퍼런스 프로빙 서열은 상기 복수의 서열 패턴 중에서 서열 패턴으로 그룹화된 프로빙 서열이 가장 많은 서열 패턴의 프로빙 서열이고, 상기 레퍼런스 올리고뉴클레오타이드는 상기 복수의 서열 패턴 중에서 서열 패턴으로 그룹화된 올리고뉴클레오타이드가 가장 많은 서열 패턴의 올리고뉴클레오타이드이다.
본 발명의 특징 중 하나는 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하는데 이용되는 올리고뉴클레오타이드에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 최적 도입하는데 있어, 최적화 로직으로서 선형계획법(linear programming)을 응용한 것이다.
본 발명에 이용되는 “선형계획법(linear programming)”은 주어진 선형인 제약조건식(변수 ≥ 0인 변수의 비음수 조건식 포함)을 만족시키면서 선형인 목적 함수를 최대 또는 최소화 하는 최적화 기법이다. 선형계획법은 문제들을 표현하기 위해 수학적 모델을 사용하며, 목적식과 제한조건식 모두 선형의 형태(즉, 1차 함수)이다.
본 발명의 일 구현예에 따르면, 상기 단계 (c)는 다음의 제한식 1 및 2를 만족하면서 다음의 목적식 1를 달성하도록 실시한다:
목적식 1
Figure pct00001
상기 목적식 1에서, Max:은 최대화를 나타내고, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이며, i는 1 내지 r의 프로빙 서열들 또는 올리고뉴클레오타이드들의 일련번호이고;
제한식 1
Figure pct00002
상기 제한식 1에서, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; D Lim 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
제한식 2
Figure pct00003
상기 제한식 2에서, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non - sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j i번 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 올리고뉴클레오타이드의 j번째 위치의 상기 레퍼런스 올리고뉴클레오타이드에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열에 대하여 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 i번 올리고뉴클레오타이드에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내고; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내며; for all i,j는 상기 프로빙 서열 또는 올리고뉴클레오타이드 모두의 모든 위치에 적용됨을 의미한다.
본 발명에서 선형계획법을 적용할 문제는 최대 타겟 커버리지를 나타내도록 제한된 개수의 축퇴성 염기 및/또는 유니버설 염기를 올리고뉴클레오타이드에 도입해야 하는 것이다.
최대의 타겟 커버리지가 결정되기 위해서는 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 최대 매치가 되는 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들 각각의 선택 여부가 결정되어야 한다.
따라서, 본 발명에서는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)인 x i 를 결정변수로 채택한다. 여기에서 i는 1 내지 r의 프로빙 서열 또는 올리고뉴클레오타이드들의 일련번호이고, 상기 r은 마지막 프로빙 서열 또는 올리고뉴클레오타이드의 일련번호 이다.
x i 는 결정 변수로서 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 바이너리 변수(binary variable)이므로, i번 프로빙 서열 또는 i번 올리고뉴클레오타이드를 선택하지 않는 경우에는 비선택값(x non-sel )으로 나타내고, i번 프로빙 서열 또는 i번 올리고뉴클레오타이드를 선택하는 경우에는 선택값(x sel )으로 나타낸다. 구체적으로, 비선택값(x non-sel )은 0이고 선택값(x sel )은 0 이외의 값이다. 보다 구체적으로, 비선택값(x non-sel )은 0이고, 선택값(x sel )은 1이다.
제한된 개수의 축퇴성 염기 및/또는 유니버설 염기를 올리고뉴클레오타이드에 도입해야 하므로, 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 어느 위치에 축퇴성 염기 및/또는 유니버설 염기의 도입할 것인지 여부가 결정되어야 한다. 따라서, 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수인 d j 를 결정 변수로 채택한다. 여기에서, j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고, 상기 c는 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에서 마지막 위치의 일련번호이다.
c는 특별히 제한되지 않으며, 예를 들어, 10-100, 10-80, 10-50, 10-40, 10-30, 15-100, 15-80, 15-50, 15-40, 15-30, 20-100, 20-80, 20-50, 20-40, 20-30, 25-100, 25-80, 25-50, 25-40, 25-30, 30-100, 30-80, 30-50, 30-40, 35-100, 35-80, 35-50 또는 35-40의 정수일 수 있다.
d j 는 결정 변수로서 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 바이너리 변수이므로, 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하지 않는 경우에는 비도입값(d non-int )으로 나타내고, 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는 경우에는 도입값(d int )으로 나타낸다. 구체적으로, 비도입값(d non-int )은 0이고 도입값(d int )은 0 이외의 값이다. 보다 구체적으로, 비도입값(d non-int )은 0이고, 도입값(d int )은 1이다.
본 발명에서 제공되는 올리고뉴클레오타이드는 최대의 타겟 커버리지를 가져야 하므로, 축퇴성 염기 및/또는 유니버설 염기가 도입된 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 매치되는 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 개수가 최대한 많아야 한다. 따라서, 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들에 대한 선택값 및 비선택값의 합이 목적함수가 되고, 상기 목적함수를 최대화 하여야 한다. 따라서, 본 발명에서의 목적식은 상기 목적식 1과 같이 나타낼 수 있다.
그리고, 본 발명에서는 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 제한된 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입하여, 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드와 최대 매치가 되어야 한다. 즉, 최대 매치 또는 최대의 타겟 커버리지를 위해 제한된 개수의 축퇴성 염기 및/또는 유니버설 염기를 이용해야 한다. 따라서, 본 발명에서는 이러한 제한 조건에 의해 상기 제한식 1을 설정한다.
상기 제한식 1에서, D Lim 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수를 나타낸다.
본 발명에서 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수 D Lim 은 구체적으로 7개, 5개, 4개 또는 3개 이다.
본 발명의 최적화 로직에서는 축퇴성 염기 및/또는 유니버설 염기를 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들과 최대 매치가 되도록 하는 것이므로, 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 도입후의 매치여부와 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 복수의 올리고뉴클레오타이드 중 i번 올리고뉴클레오타이드의 선택여부와 관련된 제한식이 필요하며, 이러한 이유로 상기 제한식 2가 설정된다.
축퇴성 염기 및/또는 유니버설 염기를 도입하지 않은 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드 사이의 매치 또는 미스매치 여부를 나타내는 매치 또는 비매치값은 변수가 아닌 상수이다. 이에, i번 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 올리고뉴클레오타이드의 j번째 위치의 상기 레퍼런스 올리고뉴클레오타이드에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수인 a i,j 가 채택된다.
구체적으로, 축퇴성 염기 및/또는 유니버설 염기의 도입 전 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열의 j번째 위치와 매치인 경우, 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 i번 올리고뉴클레오타이드의 j번째 위치와 매치인 경우에는 a i,j 는 매치값을 갖고, 비매치인 경우에는 a i,j 는 비매치값을 갖는다. 구체적으로, 비매치값은 0이고 매치값은 0 이외의 값이다. 보다 구체적으로, 비매치값은 0이고, 매치값은 1이다.
그리고, 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열에 대하여 또는 상기 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 i번 올리고뉴클레오타이드에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 변수인 a i,j + d j 가 채택된다.
구체적으로, 축퇴성 염기 및/또는 유니버설 염기를 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 도입시키고, j+1 번째 위치는 도입시키지 않은 경우, 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열의 j번째 위치와 매치되거나, 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 i번 올리고뉴클레오타이드의 j번째 위치와 매치되는 경우에는 a i,j + d j 는 매치값을 갖고, 비매치인 경우에는 a i,j + d j 는 비매치값을 갖는다. 또한, 레퍼런스 프로빙 서열의 j+1번째 위치가 i번 프로빙 서열의 j+1번째 위치와 매치이거나, 레퍼런스 올리고뉴클레오타이드의 j+1번째 위치가 i번 올리고뉴클레오타이드의 j+1번째 위치와 매치인 경우에는 a i,j+1 + d j+1 는 매치값을 갖고, 비매치인 경우에는 a i,j + d j+1 는 비매치값을 갖는다. 구체적으로, 비매치값은 0이고 매치값은 0 이외의 값이다. 보다 구체적으로, 비매치값은 0이고, 매치값은 1 또는 2이다.
여기에서, a i,j + d j 의 매치값 및/또는 비매치값을 원소로 갖는 집합 {a i,j + d j }의 최소값이 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non - sel ) 또는 선택값(x sel )을 갖는 바이너리 변수 x i 보다는 크거나 같아야 한다. 예를 들어, a i,j + d j 의 매치값 및/또는 비매치값을 원소로 갖는 집합 {a i,j + d j }의 최소값이 비매치값을 갖는 경우, 상기 {a i,j + d j }의 최소값은 비선택값(x non-sel )을 갖는 x i 와 같아야 하고, a i,j + d j 의 매치값 및/또는 비매치값을 원소로 갖는 집합 {a i,j + d j }의 최소값이 매치값을 갖는 경우, 상기 {a i,j + d j }의 최소값이 선택값(x sel )를 갖는 x i 와 같거나 커야 한다.
달리 표현하면, 축퇴성 염기 및/또는 유니버설 염기가 도입되고 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 대하여 매치되는 i번 프로빙 서열 또는 i번 올리고뉴클레오타이드의 j번째 위치의 a i,j + d j 의 값(매치값)은 상기 선택값(x sel )과 동일하거나 크며; 축퇴성 염기 및/또는 유니버설 염기가 도입되지 않고 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 대하여 매치되는 i번 프로빙 서열 또는 i번 올리고뉴클레오타이드의 j번째 위치의 a i,j + d j 의 값(매치값)은 상기 선택값(x sel )과 동일하거나 크고; 축퇴성 염기 및/또는 유니버설 염기가 도입되지 않고 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 대하여 비매치되는 i번 프로빙 서열 또는 i번 올리고뉴클레오타이드의 j번째 위치의 a i,j + d j 의 값(비매치값)은 상기 비선택값(x non-sel )과 동일하거나 크며 상기 선택값(x sel )보다 작다.
이러한 제한 조건을 만족하도록 상기 제한식 2가 설정된 것이다.
상기 방법을 상기 제한식 1 및 2를 만족하면서 상기 목적식 1를 달성하도록 실시하면, 최적해(optimal solution)로 결정변수 d j x i 값을 구할 수 있고, x i 값의 합을 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 총 개수로 나누면 본 발명에 의해 제공되는 올리고뉴클레오타이드의 최대 타겟 커버리지를 구할 수 있다.
본 발명의 일구현예에 따르면, 상기 방법은 검출대상 타겟 핵산서열을 선별하고, 상기 방법은 상기 소정의 허용 개수의 최소 하나의 축퇴성 염기 및/또는 유니버설 염기가 도입되고, 상기 선별된 타겟 핵산서열에 혼성화 되는 올리고뉴클레오타이드를 제공한다.
상기 제한식 1 및 2를 만족하면서 상기 목적식 1를 달성하도록 실시하여 구한 최적해(optimal solution)인 x i 값을 통하여 검출대상 타겟 핵산서열의 선별할 수 있고, 최적해인 d j 값을 통하여 상기 선별된 검출대상 타겟 핵산서열에 혼성화 되는 상기 소정의 허용 개수 범위의 축퇴성 염기 및/또는 유니버설 염기가 도입된 올리고뉴클레오타이드를 제공할 수 있다.
하나의 목적식을 통하여, 축퇴성 염기 및/또는 유니버설 염기가 최적 도입된 올리고뉴클레오타이드뿐만 아니라, 타겟팅 되는 즉, 상기 올리고뉴클레오타이드에 의해 커버되는 타겟 핵산서열을 선별할 수 있는 것은 흥미로운 발견이다.
본 발명의 일 구현예에 따르면, 상기 제한식 1은 다음의 제한식 1-1 및 1-2이다:
제한식 1-1
Figure pct00004
제한식 1-2
Figure pct00005
상기 d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위 및 b+1 내지 c의 제 2 부위를 포함하며; 그리고 D Lim1 D Lim2 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 2 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이다.
상기 제한식 1을 상기 제한식 1-1 및 1-2로 수정하여, 본 발명의 단계 (c)는 상기 제한식 1-1, 1-2 및 2를 만족하면서 상기 목적식 1을 달성하도록 실시 될 수 있다.
본 발명에서, 선형 계획법(linear programming)은 하나의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 두 개의 상이한 부위들에 독립적으로 또는 동시에 적용될 수 있고, 구체적으로 동시에 적용될 수 있다.
상기 제한식 1-1 및 1-2에서 바이너리 변수 d j , 위치들 j의 일련번호 및 마지막 일련번호 c에 대한 설명은 상기 제한식 1에서의 설명과 동일하므로, 이들 사이의 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위 및 b+1 내지 c의 제 2 부위를 포함한다.
b는 상기 제 1 부위의 마지막 위치의 일련번호이고, b+1은 상기 제 2 부위의 첫 번째 위치의 일련번호이며, c는 상기 제 2 부위의 마지막 위치의 일련번호이다.
상기 제 1 부위 및 제 2 부위의 길이는 서로 같거나 다를 수 있다. 구체적으로, 상기 제 1 부위는 상기 제 2 부위보다 길 수 있다.
b는 특별히 제한되지 않으며, 예를 들어, 15-40, 15-30 또는 20-25의 정수일 수 있다.
D Lim1 D Lim2 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 2 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이다.
D Lim1 D Lim2 는 서로 같거나 다를 수 있고, 또는 D Lim1 D Lim2 보다 클 수 있다. 택일적으로, 상기 제한식 1의 D Lim D Lim1 D Lim2 의 합과 같거나 다를 수 있다.
상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 상기 제 1 부위에 도입되는 상기 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수인 D Lim1 는 구체적으로 6, 4, 3 또는 2이다. 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 상기 제 2 부위에 도입되는 상기 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수인 D Lim2 는 구체적으로 5, 3, 2 또는 1이다.
본 발명의 일 구현예에 따르면, 상기 제한식 1은 다음의 제한식 1-1 및 1-3이다:
제한식 1-1
Figure pct00006
제한식 1-3
Figure pct00007
상기 d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위, b+1 내지 b+(n- 1)의 제 2 부위, 및 b+n 내지 c의 제 3 부위를 포함하며; D Lim1 D Lim3 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 3 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이고; 그리고 상기 제 2 부위는 유니버설 염기들, 비-자연 염기들 또는 상기 제 2 부위의 염기들에 비-상보적인 염기들을 포함하는 분할 부위(separation portion)를 나타낸다.
상기 제한식 1을 상기 제한식 1-1 및 1-3으로 수정하여, 본 발명의 단계 (c)는 상기 제한식 1-1, 1-3 및 2를 만족하면서 상기 목적식 1을 달성하도록 실시 될 수 있다.
본 발명에서, 선형 계획법(linear programming)은 하나의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드 내의 3개의 상이한 부위들 중 상기 분할 부위 이외의 두 개의 상이한 부위들에 독립적으로 또는 동시에 적용될 수 있고, 구체적으로 두 개의 상이한 부위들에 동시에 적용될 수 있다.
상기 제한식 1-1 및 1-3에서 바이너리 변수 d j , 위치들 j의 일련번호 및 상기 제 1 부위의 마지막 일련번호 b에 대한 설명은 상기 제한식 1-1 및 1-2에서의 설명과 동일하므로, 이들 사이의 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위, b+1 내지 b+(n- 1)의 제 2 부위, 및 b+n 내지 c의 제 3 부위를 포함한다.
b는 상기 제 1 부위의 마지막 위치의 일련번호이고, b+1은 상기 제 2 부위의 첫 번째 위치의 일련번호이며, b+(n- 1)은 상기 제 2 부위의 마지막 위치의 일련번호이고, b+n은 상기 제 3 부위의 첫 번째 위치의 일련번호이며, 그리고 c는 상기 제 3 부위의 마지막 위치의 일련번호이다.
또한, n은 2-10, 3-10, 4-8 또는 5-7의 정수이다.
하나의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 분할 부위인 제 2 부위에 의해 제 1 부위 및 제 3 부위로 분리되고, 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기는 상기 제 1 부위 및 제 3 부위에 독립적으로 또는 동시에 도입된다.
상기 제 2 부위는 유니버설 염기들, 비-자연 염기들 또는 상기 제 2 부위의 염기들에 비-상보적인 염기들을 포함하는 분할 부위(separation portion)를 나타낸다.
상기 분할 부위로서 상기 제 2 부위는 유니버설 염기들, 비-자연 염기들 또는 상기 제 2 부위의 염기들에 비-상보적인 염기들을 가지는 비-연속적인 또는 연속적인 뉴클레오타이드들을 포함한다.
상기 분할 부위로서 상기 제 2 부위에 포함되는 유니버설 염기들, 비-자연 염기들 또는 상기 제 2 부위의 염기들에 비-상보적인 염기들의 개수는 2-9, 3-9, 4-8 또는 5-7이다.
상기 유니버설 염기에 대한 상술한 설명은 상기 제 2 부위에 포함되는 유니버설 염기에 적용된다.
본 명세서에 사용되는 용어“비-자연 염기”는 수소-결합 염기 쌍들을 형성할 수 있는, 아데닌(A), 구아닌(G), 티민(T), 시토신(C) 및 우라실(U)과 같은 자연 염기들의 유도체를 의미한다. 본 명세서에서 사용되는 용어“비-자연 염기”는 예를 들어, 미국 특허 제5432272호, 제5965364호, 제6001983호 및 제6037120호에 기재된 바와 같이, 모 화합물(mother compounds)로서의 자연 염기들과 상이한 염기 쌍 패턴들을 가지는 염기들을 포함한다. 비-자연 염기들의 구체적인 예는 K, X, H, J, M, N, iso-C, iso-G, iso-dC 및 iso-dG를 포함한다.
상기 제 2 부위의 염기들에 비-상보적인 염기들은, 예를 들어, 상기 제 2 부위에서 j = b + 1b + 2 위치들의 염기들이 각각 A 및 G인 경우, 각각 C 또는 G, 및 A 또는 T를 포함한다.
본 발명에 의해 제공되는 올리고뉴클레오타이드에서 분할 부위는 3개의 부위 중에서 가장 낮은 Tm을 갖는 것이 필수적이며, 이에 의해 제 1 및 2 부위들이 주형 핵산에 어닐링되는 조건 하에서 분할 부위는 비염기쌍 버블 구조를 형성하며, 주형 핵산에 대한 어닐링 특이성 측면에서 제 1 및 제 2 부위들 중 하나는 다른 부위로부터 분리 되고, 결국 상기 올리고뉴클레오타이드의 어닐링 특이성은 제 1 및 제 2 부위들에 의해 이중으로 결정되어 올리고뉴클레오타이드의 전체 어닐링 특이성이 상당히 개선된다.
제 1 부위 및 제 3 부위의 길이는 서로 같거나 다를 수 있다. 구체적으로, 상기 제 1 부위는 상기 제 3 부위 보다 더 길 수 있다.
D Lim1 D Lim3 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 3 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이다.
D Lim1 D Lim3 은 서로 같거나 다를 수 있고, 또는 D Lim1 D Lim3 보다 클 수 있다. 택일적으로, 상기 제한식 1의 D Lim D Lim1 D Lim3 의 합과 같거나 다를 수 있다.
상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 상기 제 1 부위에 도입되는 상기 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수인 D Lim1 는 구체적으로 6, 4, 3 또는 2이다. 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 상기 제 3 부위에 도입되는 상기 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수인 D Lim3 은 구체적으로 5, 3, 2 또는 1이다.
본 명세서에서, 용어 “커버리지(coverage)”는 지정된 어닐링 조건 또는 엄격 조건하에서 올리고뉴클레오타이드(프라이머 또는 프로브)가 타겟 핵산서열에 선택적으로 혼성화될 정도로 충분히 상보적인 것을 의미하며, 용어 “실질적으로 상보적(substantially complementary)” 및 “완전히 상보적(perfectly complementary)”인 것을 모두 포괄하는 의미를 갖는다. 구체적으로, 본 명세서에서 용어 “커버리지(coverage)”는 완전히 상보적인 것을 의미한다.
본 명세서에서 사용된 용어 “혼성화(hybridization)”는 상보적인 단일쇄 핵산으로부터 이중쇄 핵산을 형성함을 의미한다. 타겟 핵산서열에 혼성화 되는 올리고뉴클레오타이드는 타겟 핵산서열에 완전히 상보적인 서열뿐만 아니라, 특정 엄격조건 하에서 타겟 핵산서열에 대하여 특이적으로 혼성화 하는데 충분한 서열도 포함한다. 예를 들어, 올리고뉴클레오타이드는 그의 특이성(specificity)이 훼손되지 않는 한, 타겟 핵산서열에 대하여 하나 이상의 비상보적 뉴클레오타이드(즉, 미스매치)를 포함할 수 있다. 따라서, 본 발명에서 올리고뉴클레오타이드는 타겟 핵산서열에 대하여 부분적 상보적 및 완전 상보적(perfectly complementary) 서열을 포함할 수 있으며, 구체적으로 완전히 상보적인 서열(또는 매칭 서열)을 포함한다.
본 발명에서 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하는 경우에는, 본 발명의 단계 (c)는 다음과 같이 실시할 수 있다.
본 발명의 일구현예에 따르면, 상기 단계 (c)는 다음의 제한식 3 및 4를 만족하면서 다음의 목적식 2를 달성하도록 실시한다:
목적식 2
Figure pct00008
상기 목적식 2에서, Max:은 최대화를 나타내고, p i 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 개수 또는 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드의 개수이고, x i 는 프로빙 서열들의 i번 서열 패턴 또는 올리고뉴클레오타이드들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이고, i는 1 내지 r의 프로빙 서열들의 서열 패턴들 또는 올리고뉴클레오타이드들의 서열 패턴들의 일련번호이며;
제한식 3
Figure pct00009
상기 제한식 3에서, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; D Lim 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
제한식 4
Figure pct00010
상기 제한식 4에서, x i 는 프로빙 서열들의 i번 서열 패턴 또는 올리고뉴클레오타이드들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 또는 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드의 j번째 위치의 상기 레퍼런스 올리고뉴클레오타이드에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열에 대하여, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내며; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내고; for all i,j는 상기 프로빙 서열 또는 올리고뉴클레오타이드 모두의 모든 위치에 적용됨을 의미한다.
상기 목적식 1, 제한식 1 및 2를 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들의 복수의 서열 패턴에 적용하기 위해서, 상기 목적식 1, 제한식 1 및 2를 복수의 서열 패턴에 대한 목적식 2, 제한식 3 및 4로 재구성된다. 따라서, 상기 목적식 1, 제한식 1 및 2에서 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들에 대한 설명은 목적식 2, 제한식 3 및 4에서 복수의 서열패턴에 대한 설명으로 표현한다. 그리고, 상기 목적식 1, 제한식 1 및 2과 목적식 2, 제한식 3 및 4 사이에 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
상기 목적식 2에서, p i 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 개수 또는 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드의 개수를 나타낸다.
상기 방법을 상기 제한식 3 및 4를 만족하면서 상기 목적식 2를 달성하도록 실시하면, 최적해(optimal solution)로 결정변수 d j x i 값을 구할 수 있다.
프로빙 서열들의 i번 서열 패턴 또는 올리고뉴클레오타이드들의 i번 서열 패턴의 비선택값(x non-sel ) 또는 선택값(x sel )을 해(solution)로서 구하면, 각 서열 패턴의 x i 와 각 서열 패턴에 속하는 프로빙 서열의 개수 또는 올리고뉴클레오타이드의 개수 p i 를 곱하고, 모든 서열 패턴에 대해서 p i x i 의 곱의 값을 합하면 본 발명에 의해 제공되는 올리고뉴클레오타이드에 의해 검출되는 타겟 핵산서열의 개수를 구할 수 있다. 그리고 상기 검출되는 타겟 핵산서열의 개수를 총 타겟 핵산서열의 개수로 나누어 본 발명에 의해 제공되는 올리고뉴클레오타이드의 최대 타겟 커버리지를 결정할 수 있다.
본 발명의 일 구현예에 따르면, 상기 제한식 3은 다음의 제한식 3-1 및 3-2이다:
제한식 3-1
Figure pct00011
제한식 3-2
Figure pct00012
상기 d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위 및 b+1 내지 c의 제 2 부위를 포함하며; 그리고 D Lim1 D Lim2 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 2 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이다.
본 발명의 일 구현예에 따르면, 상기 제한식 3은 다음의 제한식 3-1 및 3-3이다:
제한식 3-1
Figure pct00013
제한식 3-3
Figure pct00014
상기 d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드는 1 내지 b의 제 1 부위, b+1 내지 b+(n-1)의 제 2 부위, 및 b+n 내지 c의 제 3 부위를 포함하며; n은 2 내지 10의 정수이고; D Lim1 D Lim3 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 제 1 및 제 3 부위들에 각각 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이고; 그리고 상기 제 2 부위는 유니버설 염기들, 비-자연 염기들 또는 상기 제 2 부위의 염기들에 비-상보적인 염기들을 포함하는 분할 부위(separation portion)를 나타낸다.
상기 제한식 1-1 내지 1-3에 대한 설명은 상기 제한식 3-1 내지 3-3의 설명과 동일하므로, 이들 사이에 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
본 발명의 방법은 바이러스와 같은 유전전 다양성을 갖는 복수의 병원체를 검출하거나, 박테리아 속(예컨대, Campylobacter, Salmonella, Shigella, Vibrio, Aeromonas)를 스크리닝 하기 위하여 올리고뉴클레오타이드를 디자인할 때, 특히 유용하다.
Ⅱ. 복수의 타겟 핵산서열에서 프로빙 구역의 결정
본 발명의 두 번째 양태에 따르면, 본 발명은 다음 단계를 포함하는 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 제공한다:
(a) 복수의 타겟 핵산서열에서 하나의 후보 프로빙 구역(probing region)을 선택하고 상기 후보 프로빙 구역에 있는 서열들을 복수의 프로빙 서열들로 제공하는 단계; (b) 상기 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수 의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 하는 단계; 및 (c) 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하는 단계.
프로빙 구역은 프라이머 또는 프로브가 혼성화 되는 부위로서 서로 다른 유기체들 사이에 보존적으로 유지된 서열, 즉 보존적 서열을 포함하는 보존성 구역을 의미한다. 보존성 구역은 생물학적으로 매우 중요한 부위로서, 서로 다른 유기체들 사이에 다른 핵산분자들에서 서열이 유사하거나 또는 동일한 부위를 나타낸다. 보존성 구역은 계통학적 연구에 매우 중요한 지표로 이용되며, 또한 서로 다른 유기체들을 멀티플렉스 방식으로 검출할 때 프로빙 부위로서 이용된다.
본 발명에 따르면, 서로 다른 유기체들 사이에 보존적으로 유지된 서열을 독특한 방식으로 결정할 수 있으며, 이 보존적 서열을 포함하는 보존성 구역은 프라이머 또는 프로브가 혼성화 되는 부위(즉, 프로빙 구역)로서 이용될 수 있다.
본 발명은 프로빙 구역을 결정하는 방법으로 표현되었으나, 이는 보존성 구역을 결정하는 방법으로 표현될 수도 있다. 상술한 본 발명에 따라 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여 상기 복수의 프로빙 서열들이 서로 최대 매치가 되고 상기 최대 매치가 소정의 커버리지 이상인 경우, 상기 후보 프로빙 구역은 프로빙 구역으로 제시될 수 있다.
본 발명의 두 번째 방법은 상술한 본 발명의 첫 번째 방법에 기반한 것이므로, 이 둘 사이의 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
도 3은 본 발명의 다른 구현예에 따라 본 발명을 실시하는 과정들의 흐름도이다. 본 발명의 방법을 도 3을 참조하여 설명하면 다음과 같다:
단계 (a): 복수의 프로빙 서열들의 제공 (210)
우선, 본 단계에서 복수의 타겟 핵산서열에서 하나의 후보 프로빙 구역(probing region)을 선택하고 상기 후보 프로빙 구역에 있는 서열들을 복수의 프로빙 서열들로 제공한다.
본 발명의 일 구현예에 따르면, 상기 복수의 타겟 핵산서열은 상기 단계 (a) 이전에 얼라인먼트 된다.
본 발명의 두 번째 방법의 단계 (a)에서 타겟 핵산서열 및 얼라인먼트에 대한 설명과 본 발명의 첫 번째 방법과 동일하므로, 이 둘 사이의 공통된 내용은 본 명세서의 복잡성을 초래하는 과도한 중복을 피하기 위하여 그 기재를 생략한다.
본 발명의 단계 (a)에서 제공되는 복수의 프로빙 서열들은 단계 (b)에서 미스매치 여부를 판단하는 비교 기준 및 대상이 되며, 이들의 최대 매치를 위하여 축퇴성 염기 및/또는 유니버설 염기를 도입하는 도입 대상이 된다.
본 발명의 일 구현예에 따르면, 상기 복수의 프로빙 서열들은 각각 고유의 일련번호가 부여된다.
본 발명의 일구현예에 따르면, 상기 단계 (a)는 상기 복수의 타겟 핵산서열의 얼라인먼트(alignment)에서 위치-상이한 최소 2개의 후보 프로빙 구역(probing region)을 선택하고, 상기 최소 2개의 후보 프로빙 구역 각각에 있는 서열들을 복수의 프로빙 서열들로 제공하여 실시된다.
단계 (b): 복수의 프로빙 서열들이 서로 최대 매치가 되도록 축퇴성 염기 및/또는 유니버설 염기의 도입 (220)
이어, 상기 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 한다.
본 발명의 두 번째 방법의 단계 (b)에서는 상술한 본 발명의 첫 번째 방법과 달리 매치 여부를 결정하는 기준으로서 레퍼런스 프로빙 서열을 제공하지 않고 실시할 수 있다. 프로빙 구역을 결정하는 본 발명의 두 번째 방법의 단계 (b)에서는 복수의 프로빙 서열들이 비교 대상일 뿐만 아니라 축퇴성 염기 및/또는 유니버설 염기를 도입하는 도입 대상이 된다. 예를 들어, 1 내지 3번의 프로빙 서열들에 있어서, 1번 프로빙 서열의 3번 위치에 염기는 “A”이고, 동일한 위치의 2번 프로빙 서열의 염기는 “C”이며, 동일한 위치의 3번 프로빙 서열의 염기는 “G”인 경우, 1 내지 3번의 프로빙 서열들의 3번 위치에서 서로 미스매치가 되고 있으므로, 최대 매치를 위하여 1 내지 3번의 프로빙 서열들의 3번 위치에 축퇴성 염기 V (A 또는 C 또는 G)를 도입할 수 있다.
본 명세서에서 축퇴성 염기 및/또는 유니버설 염기의 도입을 언급하면서 사용되는 용어“최대 매치”는 축퇴성 염기 및/또는 유니버설 염기를 도입하여 복수의 프로빙 서열들에 동일한 서열이 최대한 많이 포함되어 있음을 의미하며, 상기 최대 매치는 복수의 프로빙 서열들의 총 개수에 대하여 비율 또는 퍼센티지로 표현할 수 있다.
본 발명의 두 번째 방법의 단계 (b)에서의 축퇴성 염기 및/또는 유니버설 염기에 대한 설명은 본 발명의 첫 번째 방법과 동일하므로, 이 둘 사이의 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여 그 기재를 생략한다.
본 발명의 일 구현예에 따르면, 상기 단계 (b)는 상기 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열로 선택하고 상기 레퍼런스 프로빙 서열과 상기 복수의 프로빙 서열들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열에 도입하여 상기 복수의 프로빙 서열들에 최대 매치가 되도록 하여 실시한다.
본 발명의 단계 (b)에서 미스매치 여부를 판단하기 위한 비교의 기준, 그리고 축퇴성 염기 및/또는 유니버설 염기의 도입 대상으로서의 레퍼런스 프로빙 서열을 복수의 프로빙 서열들 중에서 선택할 수 있다.
예를 들어, 1 내지 3번의 프로빙 서열들에 있어서, 1번 프로빙 서열의 3번 위치에 염기는 “A”이고, 동일한 위치의 2번 프로빙 서열의 염기는 “C”이며, 동일한 위치의 3번 프로빙 서열의 염기는 “G”인 경우, 1번 프로빙 서열을 레퍼런스 프로빙 서열로 선택하고, 2 및 3번의 프로빙 서열들을 비교하여 1 내지 3번의 프로빙 서열들이 서로 최대 매치가 되도록 레퍼런스 프로빙 서열인 1번의 프로빙 서열의 3번 위치에 축퇴성 염기 V (A 또는 C 또는 G)를 도입할 수 있다.
본 발명의 일구현예에 따르면, 상기 레퍼런스 프로빙 서열은 상기 복수의 프로빙 서열들 중에서 동일한 서열이 가장 많은 프로빙 서열이다.
본 발명의 일구현예에 따르면, 상기 단계 (b)는 상기 최소 2개의 후보 프로빙 구역 각각에 대하여 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 실시한다.
단계 (c): 프로빙 구역의 결정 (230)
그 다음, 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정한다.
본 발명에서 프로빙 구역을 언급하면서 사용되는 용어 “커버리지”는 축퇴성 염기 및/또는 유니버설 염기가 도입된 복수의 프로빙 서열들이 서로 완전히 매치되는(perfectly matched) 서열의 비율을 의미한다. 상기 커버리지는 상기 비율 또는 퍼센티지로 표현될 수 있다.
상기 커버리지는 복수의 프로빙 서열들의 총 개수에 대하여 20% 이상, 40% 이상, 60% 이상, 80% 이상, 90% 이상 또는 100%이다.
축퇴성 염기 및/또는 유니버설 염기의 도입으로 복수의 프로빙 서열들이 최대 매치가 되고, 상기 최대 매치가 소정의 커버리지 이상인 경우, 상기 복수의 프로빙 서열들이 속하는 후보 프로빙 구역은 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정된다.
본 발명의 일구현에에 따르면, 상기 단계 (c)는 상기 최소 2개의 후보 프로빙 구역 중에서 (i) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내는 후보 프로빙 구역, (ii) 상기 최대 매치가 소정의 커버리지 이상이고 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 후보 프로빙 구역, 또는 (iii) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내면서 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 또는 그의 일부 타겟 핵산서열을 검출하기 위한 프로빙 구역으로 결정하여 실시한다.
예를 들어, 상기 복수의 타겟 핵산서열의 얼라인먼트(alignment)에서 위치-상이한 후보 프로빙 구역(probing region) 1 내지 3을 선택하고 소정의 커버리지가 90% 이상이며, 3개 이하의 축퇴성 염기를 상기 후보 프로빙 구역 1 내지 3 각각의 복수의 프로빙 서열들에서 서로 미스매치되는 위치(들)에 도입하여, 상기 후보 프로빙 구역 1은 1개의 축퇴성 염기를 도입하여 최대 매치율 95%, 상기 후보 프로빙 구역 2는 2개의 축퇴성 염기를 도입하여 최대 매치율 99%, 그리고 상기 후보 프로빙 구역 3은 3개의 축퇴성 염기를 도입하여 최대 매치율 99%를 나타낸 경우, 프로빙 구역을 결정하는 기준 (i)에 따르면, 3개의 범위내에서 축퇴성 염기의 도입 개수의 제한을 받지 않으므로 90% 커버리지 이상이면서 가장 큰 최대 매치 99%를 나타내는 후보 프로빙 구역 2 및 3을 프로빙 구역으로 결정할 수 있다. 택일적으로, 기준 (ii)에 따르면, 상기 후보 프로빙 구역 1 내지 3 모두 최대 매치율이 소정의 커버리지 이상이나, 최대 매치를 위하여 가장 적은 개수, 즉 1개의 축퇴성 염기를 이용한 후보 프로빙 구역 1을 프로빙 구역으로 결정할 수 있다. 택일적으로, 프로빙 구역을 결정하는 기준 (i)에 따르면, 최대 매치율이 소정의 커버리지 이상이고, 가장 큰 최대 매치 및 이를 위해 가장 적은 개수의 축퇴성 염기를 도입한 상기 후보 프로빙 구역 2를 프로빙 구역으로 결정할 수 있다.
본 발명의 일구현예에 따르면, 상기 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하며; 상기 단계 (b)는 상기 복수의 서열 패턴들 사이에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 서열 패턴들이 서로 최대 매치가 되도록 실시하며; 및 상기 단계 (c)는 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 서열 패턴이 속하는 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하여 실시한다.
본 발명의 일 구현예에 따르면, 상기 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 최소 2개의 후보 프로빙 구역 각각의 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하며; 상기 단계 (b)는 상기 최소 2개의 후보 프로빙 구역 각각에 대하여 상기 복수의 서열 패턴들 사이에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 서열 패턴들이 서로 최대 매치가 되도록 실시하며; 및 상기 단계 (c)는 상기 최소 2개의 후보 프로빙 구역 중에서 (i) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내는 서열 패턴의 후보 프로빙 구역, (ii) 상기 최대 매치가 소정의 커버리지 이상이고 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 서열 패턴의 후보 프로빙 구역 또는 (iii) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내면서 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 서열 패턴의 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 또는 그의 일부 타겟 핵산서열을 검출하기 위한 프로빙 구역으로 결정하여 실시한다.
상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화하여 복수의 서열 패턴을 수득함으로써, 미스매치 여부를 비교하는 비교대상으로서의 복수의 프로빙 서열들의 개수를 줄일 수 있어, 프로빙 구역을 결정하는 시간을 단축시킬 수 있다.
상술한 단계 (b) 및 (c)는 복수의 프로빙 서열들의 복수의 서열 패턴들에도 동일하게 적용된다.
본 발명의 일 구현예에 따르면, 상기 복수의 서열 패턴들은 각각 고유의 일련번호가 부여된다.
본 발명의 일구현예에 따르면, 상기 레퍼런스 프로빙 서열은 상기 복수의 서열 패턴 중에서 프로빙 서열이 가장 많은 서열 패턴의 프로빙 서열이다.
본 발명의 특징 중 다른 하나는 후보 프로빙 구역에 있는 복수의 프로빙 서열들에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 최적 도입하여 프로빙 구역으로 결정하는 데, 최적화 로직으로서 선형계획법(linear programming)을 응용한 것이다.
본 발명의 두 번째 방법에서의 “선형계획법(linear programming)”에 대한 설명은 본 발명의 첫 번째 방법과 동일하므로, 이 둘 사이의 공통된 내용을 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
본 발명의 일구현예에 따르면, 상기 단계 (b)는 다음의 제한식 5 및 6을 만족하면서 다음의 목적식 3을 달성하도록 실시한다:
목적식 3
Figure pct00015
상기 목적식 3에서, Max:은 최대화를 나타내고, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열의 선택 여부에 대한 비선택값(x non - sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이며, i는 1 내지 r의 프로빙 서열들의 일련번호이고;
제한식 5
Figure pct00016
상기 제한식 5에서, d j 는 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며; j는 1 내지 c의 프로빙 서열 또는 레퍼런스 프로빙 서열의 위치들의 일련번호이고; D Lim 은 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
제한식 6
Figure pct00017
상기 제한식 6에서, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j 는 복수의 프로빙 서열의 j번째 위치에서 서로 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이며, d j 는 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non - int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 복수의 프로빙 서열에서 j번째 위치가 서로 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이며; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내고; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내며; for all i,j는 상기 프로빙 서열 모두의 모든 위치에 적용됨을 의미한다.
상기 목적식 1, 제한식 1 및 2를 프로빙 구역을 결정하기 위한 방법에 적용하기 위해서, 상기 목적식 1, 제한식 1 및 2를 미스매치의 비교 기준 및 대상, 그리고 축퇴성 염기 및/또는 유니버설 염기의 도입 대상인 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열에 대하여 목적식 3, 제한식 5 및 6으로 재구성 된다. 따라서, 상기 목적식 1, 제한식 1 및 2를 미스매치의 비교 기준 및 대상, 그리고 축퇴성 염기 및/또는 유니버설 염기의 도입 대상인 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열에 대한 것으로 적용하여, 목적식 3, 제한식 5 및 6을 표현한다. 그리고, 상기 목적식 1, 제한식 1 및 2와 목적식 3, 제한식 5 및 6 사이에 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
본 발명에서 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하거나; 또는 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 최소 2개의 후보 프로빙 구역 각각의 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하는 경우에는, 본 발명의 단계 (b)는 다음과 같이 실시할 수 있다.
본 발명의 일구현예에 따르면, 상기 단계 (b)는 다음의 제한식 7 및 8을 만족하면서 다음의 목적식 4를 달성하도록 실시한다:
목적식 4
Figure pct00018
상기 목적식 4에서, Max:은 최대화를 나타내고, p i 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 개수이며, x i 는 프로빙 서열들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이고, i는 1 내지 r의 프로빙 서열들의 서열 패턴들의 일련번호이며;
제한식 7
Figure pct00019
상기 제한식 7에서, d j 는 상기 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열의 위치들의 일련번호이며; D Lim 은 상기 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이고;
제한식 8
Figure pct00020
상기 제한식 8에서, x i 는 프로빙 서열들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이며, a i,j 는 서열 패턴들 각각의 프로빙 서열들의 j번째 위치에서 서로 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 서열 패턴의 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 서열 패턴들 각각의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 서열 패턴들 각각의 프로빙 서열들에서 j번째 위치가 서로 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 서열 패턴의 프로빙 서열에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내며; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내고; for all i,j는 상기 프로빙 서열 모두의 모든 위치에 적용됨을 의미한다.
상기 목적식 3, 제한식 5 및 6을 복수의 프로빙 서열들의 복수의 서열 패턴에 적용하기 위해서, 상기 목적식 3, 제한식 5 및 6을 복수의 서열 패턴에 대한 목적식 4, 제한식 7 및 8로 재구성 된다. 따라서, 상기 목적식 3, 제한식 5 및 6에서 복수의 프로빙 서열들에 대한 변수들 및 상수들은 목적식 4, 제한식 7 및 8에서 복수의 서열패턴에 대한 것으로 수정된다. 그리고, 상기 목적식 3, 제한식 5 및 6과 목적식 4, 제한식 7 및 8 사이에 공통된 내용은 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
Ⅲ. 기록매체, 장치 및 프로그램
본 발명의 다른 양태에 따르면, 본 발명은 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체를 제공하며, 상기 방법은 다음의 단계를 포함한다: (a) 복수의 타겟 핵산서열의 동일한 구역(region)에 있는 서열 유사성을 갖는 서열들 각각을 올리고뉴클레오타이드 서열로 선택하여 복수의 올리고뉴클레오타이드들을 제공하는 단계; (b) 상기 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택하는 단계; 및 (c) 상기 레퍼런스 올리고뉴클레오타이드와 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하고 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하는 단계.
본 발명의 또 다른 양태에 따르면, 본 발명은 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작하는 방법을 실행하기 위한 프로세서를 구현하는, 컴퓨터 해독가능한 기록매체에 저장되는 컴퓨터 프로그램을 제공하며, 상기 방법은 상술한 기록매체에 기재된 방법과 동일하다.
본 발명의 다른 양태에 따르면, 본 발명은 (a) 컴퓨터 프로세서, 및 (b) 상기 컴퓨터 프로세서에 커플링된 상기 본 발명의 컴퓨터 해독가능한 기록매체를 포함하는, 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작하기 위한 장치를 제공한다.
본 발명의 또 다른 양태에 따르면, 본 발명은 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체를 제공하며, 상기 방법은 다음의 단계를 포함한다: (a) 복수의 타겟 핵산서열에서 하나의 후보 프로빙 구역(probing region)을 선택하고 상기 후보 프로빙 구역에 있는 서열들을 복수의 프로빙 서열들로 제공하는 단계; (b) 상기 복수의 프로빙 서열들에서 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 하는 단계; 및 (c) 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하는 단계.
본 발명의 다른 양태에 따르면, 본 발명은 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 실행하기 위한 프로세서를 구현하는, 컴퓨터 해독가능한 기록매체에 저장되는 컴퓨터 프로그램을 제공하며, 상기 방법은 상술한 기록매체에 기재된 방법과 동일하다.
본 발명의 또 다른 양태에 따르면, 본 발명은 (a) 컴퓨터 프로세서, 및 (b) 상기 컴퓨터 프로세서에 커플링된 상기 본 발명의 컴퓨터 해독가능한 기록매체를 포함하는, 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하기 위한 장치를 제공한다.
본 발명의 기록 매체, 장치 및 컴퓨터 프로그램은 상술한 본 발명의 방법을 컴퓨터에서 실시할 수 있도록 한 것으로서, 이들 사이에 공통된 내용은 반복 기재에 의한 본 명세서의 과도한 복잡성을 피하기 위하여 그 기재를 생략한다.
프로그램 지시들은, 프로세서에 의해 실행될 때, 프로세서가 상술한 본 발명의 방법을 실행하도록 한다. 올리고뉴클레오타이드를 제작하는 방법을 실행하는 프로그램 지시들은 다음의 지시를 포함할 수 있다: (i) 복수의 타겟 핵산서열의 동일한 프로빙 구역(probing region)에 있는 서열 유사성을 갖는 서열들 각각을 프로빙 서열 또는 올리고뉴클레오타이드로 선택하여 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 제공하도록 하는 지시; (ⅱ) 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열 또는 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택하도록 하는 지시; (ⅲ) 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하는 지시; 또는 (ⅳ) 최소 하나의 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하여 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하도록 하는 지시. 또한, 프로그램 지시는 다음의 지시들 중 최소 하나를 포함할 수 있다: (ⅴ) 핵산서열들에 대한 데이터베이스로부터 복수의 타겟 핵산서열을 수집하도록 하는 지시, 및 (ⅵ) 복수의 타겟 핵산서열을 얼라인먼트 하도록 하는 지시.
본 발명의 기록매체 또는 장치는 핵산서열들에 대한 데이터베이스를 포함할 수 있다.
본 발명의 방법은 프로세서에서 실행되며, 상기 프로세서는 독립 실행형 컴퓨터(stand alone computer) 또는 네트워크 부착 컴퓨터에 있는 프로세서일 수 있다.
컴퓨터 해독가능한 기록매체는 당업계에 공지된 다양한 저장 매체, 예컨대, CD-R, CD-ROM, DVD, 플래쉬 메모리, 플로피 디스크, 하드 드라이브, 포터블 HDD, USB, 마그네틱 테이프, MINIDISC, 비휘발성 메모리 카드, EEPROM, 광학 디스크, 광학 저장매체, RAM, ROM, 시스템 메모리 및 웹 서버를 포함하나, 이에 한정되는 것은 아니다.
본 발명에 의해 제공되는 올리고뉴클레오타이드, 타겟 핵산서열 및/또는 프로빙 구역은 다양한 방식으로 제공될 수 있다. 예를 들어, 제공되는 올리고뉴클레오타이드, 타겟 핵산서열 및/또는 프로빙 구역은 네트워크 연결(예컨대, LAN, VPN, 인터넷 및 인트라넷) 또는 직접 연결(예컨대, USB 또는 다른 직접 유선 연결 또는 무선 연결)에 의해 데스크탑 컴퓨터 시스템과 같은 별도의 시스템에 제공될 수 있고, 또는 CD, DVD, 플로피 디스크 및 포터블 HDD와 같은 포터블 매체 상에 제공될 수 있다. 유사하게, 제공된 올리고뉴클레오타이드, 타겟 핵산서열 및/또는 프로빙 구역은, 노트북 또는 데스크탑 컴퓨터 시스템과 같은 클라이언트에 네트워크 연결(예컨대, LAN, VPN, 인터넷, 인트라넷 및 무선 통신 네트워크)을 통하여 서버 시스템에 제공될 수 있다.
본 발명을 실행하는 프로세서를 구현하는 지시들은 로직 시스템에 포함될 수 있다. 상기 지시는, 비록 소프트웨어 기록 매체(예컨대, 포터블 HDD, USB, 플로피 디스크, CD 및 DVD)로 제공될 수 있지만, 다운로드 가능하고 메모리 모듈(예컨대, 하드 드라이브 또는 로컬 또는 부착 RAM 또는 ROM과 같은 다른 메모리)에 저장될 수 있다. 본 발명을 실행하는 컴퓨터 코드는, C, C++, Java, Visual Basic, VBScript, JavaScript, Perl 및 XML과 같은 다양한 코딩 언어로 실행될 수 있다. 또한, 다양한 언어 및 프로토콜은 본 발명에 따른 데이터와 명령의 외부 및 내부 저장과 전달에 이용될 수 있다.
컴퓨터 프로세서는 하나의 프로세서가 상술한 퍼포먼스를 모두 하도록 구축될 수 있다. 택일적으로, 프로세서 유닛은 여러 개의 프로세서가 각각의 퍼포먼스를 실행하도록 구축할 수 있다.
본 발명의 특징 및 이점을 요약하면 다음과 같다:
(a) 본 발명은 유전적 다양성을 나타내는 타겟 핵산분자의 복수의 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드를 디자인함에 있어서, 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드를 선택하는 전략을 채택하여 축퇴성 염기 및/또는 유니버설 염기-도입된 올리고뉴클레오타이드를 제공함으로써 보다 로직적이고(logical) 효율적인 방법을 제시하고 있다. 본 발명의 일 구현예에 따르면, 본 발명은 본 발명에서 채택하고 있는 로직을 수학적 로직으로 전환하여 이를 컴퓨터 프로그램화 함으로써, in silico 방식으로 적절한 개수의 축퇴성 염기가 도입된 최대 타겟 커버리지의 올리고뉴클레오타이드를 제공한다.
(b) 본 발명은 축퇴성 염기 및/또는 유니버설 염기-도입된 올리고뉴클레오타이드를 제공함에 있어서, 타겟 커버리지 및 올리고뉴클레오타이드의 효율성(efficiency)를 모두 고려한다. 축퇴성 염기-도입된 올리고뉴클레오타이드는 타겟 커버리지는 증가시키지만 올리고뉴클레오타이드의 효율성은 감소시켜, 특히 멀티플렉스 검출에 있어서 올리고뉴클레오타이드 사이의 간섭을 크게 야기시키는 문제점을 갖는다. 따라서, 타겟 커버리지 및 도입되는 축퇴성 염기의 개수를 모두 고려하여 올리고뉴클레오타이드를 제작하여야 하며, 이러한 기술적 목적이 본 발명에 의해 달성된다. 본 발명에 따르면, 타겟 커버리지 및 올리고뉴클레오타이드의 효율성 측면에서 최적인 올리고뉴클레오타이드를 보다 로직적이고 효율적으로 제시할 수 있다.
(c) 유전적 다양성을 나타내는 타겟 핵산분자의 복수의 핵산서열을 최대의 타겟 커버리지로 검출하기 위하여, 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기를 도입하는 경우, 종래의 방법은 경험적이고 매뉴얼적인 방식이었으며, 이는 시간-소비적이고 노동-소비적인 방식이며 신속성 및 정확성이 떨어졌다.
본 발명의 일 구현예에 따르면, 상술한 종래의 방식과는 다르게 논리적이고 자동화적(logical and automatic) 방식으로 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 제시할 수 있다. 올리고뉴클레오타이드에 축퇴성 염기 및/또는 유니버설 염기의 최적 도입을 제시함에 있어서, 본 발명의 방법은 종래의 어떠한 방법보다 신속성 및 정확성이 우수하다.
(d) 본 발명의 일 구현예에 따르면, 본 발명의 최적화 로직은 (i) 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위해 제한된 개수의 축퇴성 염기 및/또는 유니버설 염기가 최적 도입된 올리고뉴클레오타이드의 제작, 그리고 (ii) 복수의 타겟 핵산서열에서 프로빙 구역의 결정에 이용될 수 있다.
도 1은 본 발명의 일 실시예에 따라, 레퍼런스 프로브(레퍼런스 올리고뉴클레오타이드)에 대한 다양한 서열 패턴의 프로브의 매치 여부를 나타내는 매치값 및 비매치값을 이진수 행렬(binary matrix)(A={a i , j , a i , j ∈ (0,1)})로 나타낸 결과를 보여준다.
도 2는 본 발명의 일 실시예에 따라 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드를 제작하는 과정을 나타낸 흐름도이다.
도 3은 본 발명의 일 실시예에 따라 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 과정을 나타낸 흐름도이다.
이하, 실시예를 통하여 본 발명을 더욱 상세히 설명하고자 한다. 이들 실시예는 오로지 본 발명을 보다 구체적으로 설명하기 위한 것으로서, 본 발명의 요지에 따라 본 발명의 범위가 이들 실시예에 의해 제한되지 않는다는 것은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 있어서 자명할 것이다.
실시예
실시예 1: 타겟 핵산서열의 얼라인먼트 (alignment) 및 서열 패턴(pattern)의 분류(grouping)
복수의 타겟 핵산서열로서, NCBI(National Center for Biotechnology Information)로부터 수집한 엔테로바이러스(Enterovirus)의 5’UTR 서열들을 얼라인먼트하고, 상기 수집한 서열들을 서열의 동일성에 따라 서열 패턴으로 분류하였다. 그 결과 총 531개의 타겟 핵산서열에서, 서열 유사성을 나타내는 한 구역에 대하여 총 20개의 서열 패턴이 분류되었으며, 이 중에서 가장 많은 중복 서열을 포함하는 20번 서열 패턴의 서열을 레퍼런스 핵산서열(즉, 레퍼런스 올리고뉴클레오타이드)로 선택하였다. 그리고, 상기 레퍼런스 핵산서열과 비교하여 변이(variation)가 3개 이내인 서열을 포함하는 서열 패턴을 정리하였으며, 그 결과는 아래 표 1에 정리하였다.
Figure pct00021
상기 표 1에서 i는 서열 패턴들의 일련번호이고, 서열 패턴들의 서열들은 각각 서열번호 1 내지 20이다. 상기 표 1에서의 개수(p i )는 각 서열 패턴에 속하는 타겟 핵산서열의 개수를 나타낸다. 그리고, 상기 표 1의 서열 패턴은 검출 대상 타겟 핵산서열이면서 또한 올리고뉴클레오타이드 서열(프라이머 및/또는 프로브)를 나타낸다. 예를 들어, 상기 표 1의 20번 서열 패턴의 핵산서열을 프로브로 디자인할 경우, 상기 20번 서열 패턴의 핵산서열과 상보적인 서열을 포함하는 핵산서열을 검출하는데 상기 프로브는 이용될 수 있으며, 상기 20번 서열 패턴의 핵산서열과 상보적인 서열로 프로브를 디자인할 경우, 상기 20번 서열 패턴의 핵산서열을 포함하는 핵산서열을 검출하는데 상기 프로브는 이용될 수 있기 때문이다. 그리고, 아래 실시예에서 축퇴성 염기를 도입하는 데 있어, 상기 표 1의 서열은 프로브를 나타내는 것으로 표현하였다(레퍼런스 프로브: 20번 서열 패턴의 프로브, 20번 패턴 까지의 총 프로브 개수: 531개).
실시예 2: 선형 계획법(linear programming algorithm)을 이용하여 프로브간에 최대 매치가 되도록 프로브에 제한된 개수(3개)의 축퇴성 염기의 도입
상기 복수의 타겟 핵산서열을 최대 타겟 커버리지로 검출하는데 하나의 프로브가 이용되는 경우, 선형 계획법을 응용하여 프로브에 축퇴성 염기의 최적 적용에 적합한 최적화 로직을 만들었다.
구체적으로, 상기 표 1의 20개의 서열 패턴을 이용하였다. 제공될 프로브는 최대의 타겟 커버리지로 타겟 핵산서열을 검출해야 하고 축퇴성 염기를 프로브의 미스매치 위치에 도입을 해야 하므로, 프로브의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel =0) 및 선택값(x sel =1)으로 이루어진 바이너리 변수(binary variable)인 x i 및 레퍼런스 프로브 (실시예 1의 레퍼런스 핵산서열을 레퍼런스 프로브로 제공)의 j번째 위치에 축퇴성 염기를 도입하는지를 나타내는 비도입값(d non-int =0) 및 도입값(d int =1)으로 이루어진 바이너리 변수인 d j 를 결정 변수로 설정하였다. 그리고, i는 1 내지 20의 프로브의 서열 패턴의 일련번호이고, j는 1 내지 20의 레퍼런스 프로브의 위치의 일련번호이다.
목적함수는 선택된 프로브 서열패턴들에 속하는 프로브의 개수 Z=1x 1+1x 2+3x 3+1x 4+1x 5+1x 6+2x 7+1x 8+5x 9+1x 10+3x 11+2x 12+2x 13+1x 14+1x 15+1x 16+1x 17+86x 18+4x 19+413x 20가 되며, 이를 최대화 하고자 한다.
프로브에 제한된 개수(3개)의 축퇴성 염기를 도입하고자 하므로, 제한식은 d 1+d 2+d 3+d 4+d 5+d 6+d 7+d 8+d 9+d 10+d 11+d 12+d 13+d 14+d 15+d 16+d 17+d 18+d 19+d 20≤3과 같이 표현할 수 있다.
실시예 1의 프로브 서열 매치 패턴을 고려하여 선형계획법을 이용하기 위해 상기 표 1의 프로브 서열에서 20번 서열 패턴의 프로브를 레퍼런스 프로브로 하여 레퍼런스 프로브와 매치되는 경우에는 1, 매치되지 않는 경우에는 0으로 표시하여 행렬 A=a i,j 로 표시하였으며, 그 결과는 도 1과 같다.
도 1에서 볼 수 있듯이, 20번째 행(i = 20)의 원소와 같이 프로브의 서열 패턴이 완전히 매치하는 경우에는 모든 j에 대하여 a i,j = 1이므로 최소 a i,j 가 1임을 알 수 있었다.
또한, 레퍼런스 프로브와 프로브 서열 패턴 사이에 최대 매치가 되도록, 레퍼런스 프로브에 축퇴성 염기를 도입하기 전에 매치여부와 축퇴성 염기를 도입한 후에 매치여부와 관련하여 제한식이 필요하였고, 도 1의 17, 18, 19 및 20번째 패턴(i = 17, 18, 19, 20)을 아래 표 2와 같이 정리하여 설명하면 다음과 같다:
Figure pct00022
레퍼런스 프로브에 축퇴성 염기를 도입하기 전에 매치여부와 관련하여, a i,j 는 프로브의 i번 서열 패턴에 속하는 프로브의 j번째 위치의 상기 레퍼런스 프로브에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수로서, 매치값은 1이고, 비매치값은 0이다. 구체적으로, 상기 표 2에서 20번 패턴의 프로브를 레퍼런스 프로브로 선택하였을 때, 20번 패턴의 프로브는 레퍼런스 프로브이므로 a 20,j 는 프로브의 모든 위치에서 매치값 1을 가지게 된다. 그러나, 17번 패턴의 프로브는 18번 및 20번 위치에서 미스매치이므로, 이를 표현하기 위해서 a 17,18 a 17,20 은 0으로 나타내었고, 그 외 위치는 매치이므로 1로 나타내었다. 그리고, 18번 패턴의 프로브도 20번 패턴의 프로브(레퍼런스 프로브)와 매치 또는 미스매치 여부를 바이너리 상수로 표현하여, 18번 위치에서 미스매치임을 표현하였다. 또한, 19번 패턴의 프로브도 20번 패턴의 프로브(레퍼런스 프로브)와 매치 또는 미스매치 여부를 확인하여 19번 위치에서만 0, 그리고 그 외 위치에서는 1로 표현하였다. 즉, 레퍼런스 프로브인 20번 패턴의 프로브는 모두 매치이므로 a i,j 는 1로 표현되나, 레퍼런스 프로브와 미스매치되는 17번 내지 19번 패턴의 프로브의 a i,j 는 1 또는 0으로 표현되었다.
그리고, 표 2의 설명과 관련하여 레퍼런스 프로브에 제한된 개수, 예컨대 2개의 축퇴성 염기를 도입하여 17번 및 18번 패턴의 프로브와도 최대 매치가 되도록 하는 경우, 레퍼런스 프로브의 18번 및 20번 위치에 축퇴성 염기를 도입하여 17번 및 18번 패턴의 프로브와 매치되도록 하였고, 이 경우 축퇴성 염기가 도입된 또는 도입되지 않은 레퍼런스 프로브의 j번째 위치가 프로브의 i번 서열 패턴에 속하는 프로브에 대하여 매치 또는 미스매치 되는지 여부를 변수 a i,j + d j 로 나타내었다.
레퍼런스 프로브의 18번 및 20번 위치에 축퇴성 염기를 도입하여, 17번 및 18번 패턴의 프로브는 레퍼런스 프로브에 모두 매치되었으므로, 17번 및 18번 패턴의 프로브의 a i,j + d j 는 모두 1 이상이 되나, 19번 패턴의 프로브는 여전히 19번 위치가 매치되지 않아 a 19,19 + d 19 는 0의 값을 갖는 것을 알 수 있었다.
따라서, 레퍼런스 프로브에 축퇴성 염기를 도입하여 매치되는 프로브 패턴을 선택하기 위해서는 프로브 패턴의 모든 위치에서 a i,j + d j 의 값은 최소값 1을 가져야 하고, 최소값이 0인 경우에는 프로브 패턴의 최소 어느 한 위치에서 레퍼런스 프로브와 미스매치가 됨을 나타내므로, 이러한 프로브 패턴은 선택할 수 없다.
즉, 매치 여부와 축퇴성 염기 도입 여부에 대한 i 번의 프로브 패턴 선택 제한식은 x i min {a i,j + d j , for all j}이며 이를 선형계획법에 맞게 선형 제한식으로 풀어쓰면 모든 j에 대하여 x i a i,j + d j 을 만족해야 한다.
이러한 제한식을 표 1의 모든 서열 패턴에 적용하면, 각 서열 패턴들은 x i a i,1 + d 1 , x i a i,2 + d 2 , x i a i,3 + d 3 , x i a i,4 + d 4 , x i a i,5 + d 5 , x i a i,6 + d 6 , x i a i,7 + d 7 , x i a i,8 + d 8 , x i a i,9 + d 9 , x i a i,10 + d 10 , x i a i,11 + d 11 , x i a i,12 + d 12 , x i a i,13 + d 13 , x i a i,14 + d 14 , x i a i,15 + d 15 , x i a i,16 + d 16 , x i a i,17 + d 17 , x i a i,18 + d 18 , x i a i,19 + d 19 x i a i,20 + d 20 을 만족하여야 한다.
위 제한식들을 만족하면서 목적식을 달성하도록 프로그램 MATLAB R2015b(MathWorks 회사)을 이용하여 상기 선형계획법 문제의 최적해를 구하였고, 그 결과는 d 2=1, d 18=1 및 d 19=1, 그리고 j=2, 18 및 19 이외의 위치에서의 d j=0 으로 계산되었으며, x 3=1, x 18=1, x 19=1 및 x 20=1, 그리고 i=3, 18, 19 및 20 이외의 서열 패턴에서의 x i=0 으로 계산되었다.
레퍼런스 프로브의 j=2, 18 및 19 위치에 축퇴성 염기를 도입하면, i=3, 18, 19 및 20의 서열 패턴과 매치되고, 서열 패턴 i=3, 18, 19 및 20에 포함되는 프로브의 개수는 각각 p 3=3, p 18=86, p 19=4 및 p 20=413이며, 총 531개 프로브 중 506개의 프로브가 매치됨(매치율 95.3%)을 알 수 있었다.
레퍼런스 프로브의 j=2, 18 및 19 위치에 축퇴성 염기가 도입되어야 함을 결정한 다음, 상기 표 1의 서열을 비교하여 레퍼런스 프로브의 j=2에는 축퇴성 염기 S(G 또는 C), j=18에는 축퇴성 염기 M(A 또는 C), 그리고 j=19에는 축퇴성 염기 K(G 또는 T)를 도입하였다. 이렇게 축퇴성 염기가 도입된 프로브를 이용하면 표 1의 복수의 타겟 핵산서열에 대한 최대 타겟 커버리지는 95.3%가 됨을 확인하였다.
실시예 3: 선형계획법 문제의 최적해 검증
상기 실시예 2에서 구한 선형계획법 문제의 최적해를 검증해 보았다. 우선 상기 표 1의 프로브 서열에서 20번 서열 패턴의 프로브를 레퍼런스 프로브로 하여 레퍼런스 프로브와 매치되는 경우에는 1, 매치되지 않는 경우에는 0으로 표시하였고(a i,j ), 각 서열 패턴에서 a i,j 의 최소값을 표시하였으며, 그 결과는 아래 표 3에 정리하였다.
Figure pct00023
그리고, 3개 이하의 축퇴성 염기를 도입하도록 실시예 2에서 구한 d 2=1, d 18=1 및 d 19=1, 그리고 j=2, 18 및 19 이외의 위치에서의 d j=0을 상기 표 3에 대입하고, 각 서열 패턴에서 a i,j + d j 의 최소값을 표시하였으며, 그 결과는 아래 표 4에 정리하였다.
Figure pct00024
그리고, 표 4에서 모든 서열 패턴에 대하여 x i min {a i,j + d j }을 만족하는 서열 패턴을 선택한 결과는 아래 표 5와 같이 표시하였다.
Figure pct00025
상기 표 5에서 볼 수 있듯이, 레퍼런스 프로브에 축퇴성 염기를 도입하여 x i min {a i,j + d j }을 만족하는 서열 패턴은 20번 서열 패턴 이외에 i=3, 18 및 19임을 확인할 수 있었고, 실시예 2에서 구한 결과와 일치함을 확인할 수 있었다.
비교예 1: 경험적이고 매뉴얼적인 방식으로 프로브간에 최대 매치가 되도록 프로브에 제한된 개수(3개)의 축퇴성 염기의 도입
경험적이고 매뉴얼적인 방식으로 상기 복수의 타겟 핵산서열을 최대 타겟 커버리지로 검출하기 위하여 3개 이하의 축퇴성 염기가 도입된 프로브를 제공하였다.
구체적으로, 상기 표 1의 20개의 서열 패턴에서, 우선 20번 서열 패턴의 프로브가 가장 많은 중복 서열인 413개의 프로브 서열을 포함하고 그 다음으로 18번 서열 패턴이 86개의 중복 서열을 포함하므로, 20번 및 18번 서열 패턴을 선택하였다. 그 결과 18번 위치(j=18)에 축퇴성 염기를 도입하면 499개의 프로브 서열들이 상기 레퍼런스 프로브에 매치됨을 확인하였다. 여기에 상기 표 1에서 세번째로 서열 패턴에 속하는 서열의 개수가 많은 9번 서열 패턴을 선택하여 축퇴성 염기를 도입하면 504개의 프로브 서열들이 상기 레퍼런스 프로브에 매치됨을 확인하였다. 이 경우 7번, 8번, 10번 및 18번 위치(j=7, 8, 10 및 18)에 축퇴성 염기를 도입해야 한다. 그러나, 축퇴성 염기를 3개 이하로 도입하기로 하는 제한 조건을 만족하지 못하므로 20번, 18번 및 9번 서열 패턴을 선택할 수 없다.
그 다음, 20번, 18번 및 15번 서열 패턴을 선택해 보았다. 이 경우 16번 및 18번 위치(j=16 및 18)에 축퇴성 염기를 도입하여 20번 서열 패턴에 포함된 서열 413개, 18번 서열 패턴에 포함된 서열 86개 및 15번 서열 패턴에 포함된 서열 1개를 포함하여 총 500개의 프로브 서열을 매치 시킬 수 있음을 확인하였다.
이러한 매뉴얼적인 과정을 반복하여 레퍼런스 프로브의 j=2, 18 및 19 위치에 축퇴성 염기를 도입하면, i=3, 18, 19 및 20의 서열 패턴과 매치되고, 총 531개 프로브 중 506개의 프로브가 매치된다는 것을 확인하였다. 이러한 매뉴얼적인 방식으로 축퇴성 염기의 도입 위치 및 서열패턴의 선택여부를 결정하는 데 선형 계획법을 이용하는 방법(실시예 2)에 비해서 약 56배 더 많은 시간이 소요되었다.
이상으로 본 발명의 특정한 부분을 상세히 기술하였는바, 당업계의 통상의 지식을 가진 자에게 있어서 이러한 구체적인 기술은 단지 바람직한 구현 예일 뿐이며, 이에 본 발명의 범위가 제한되는 것이 아닌 점은 명백하다. 따라서 본 발명의 실질적인 범위는 첨부된 청구항과 그의 등가물에 의하여 정의된다고 할 것이다.
<110> Seegene, Inc. <120> Methods for Preparing Oligonucleotides for Detecting Target Nucleic Acid Sequences with a Maximum Coverage <130> PP180036KR <150> KR 2017-0102502 <151> 2017-08-11 <160> 20 <170> KoPatentIn 3.0 <210> 1 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 1 catcaggccc ctgaatgcgg 20 <210> 2 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 2 cttccgtccc ctgaatgcgt 20 <210> 3 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 3 cgtccggccc ctgaatgcgg 20 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 4 ccaccggccc ctgcatgcgg 20 <210> 5 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 5 ccaccggccc ctgaatgcgg 20 <210> 6 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 6 cctgcggccc ctgcttgcgg 20 <210> 7 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 7 cctcgggcac ctgaatgcgg 20 <210> 8 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 8 cctccagccc ctgaatgcgt 20 <210> 9 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 9 cctccgtgct ctgaatgcgg 20 <210> 10 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 10 cctccgggcc ctgattgctg 20 <210> 11 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 11 cctccggacc ctgaatacgt 20 <210> 12 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 12 cctccggcac ctgaatgggg 20 <210> 13 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 13 cctccggccc cagaatgagg 20 <210> 14 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 14 cctccggccc ccgaatgcgg 20 <210> 15 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 15 cctccggccc ctgaaagcgg 20 <210> 16 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 16 cctccggccc ctgaatggac 20 <210> 17 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 17 cctccggccc ctgaatgggc 20 <210> 18 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 18 cctccggccc ctgaatgagg 20 <210> 19 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 19 cctccggccc ctgaatgctg 20 <210> 20 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> a part of 5 UTR sequence of Enterovirus <400> 20 cctccggccc ctgaatgcgg 20

Claims (23)

  1. 다음 단계를 포함하는 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법:
    (a) 복수의 타겟 핵산서열의 동일한 프로빙 구역(probing region)에 있는 서열 유사성을 갖는 서열들 각각을 프로빙 서열 또는 올리고뉴클레오타이드 서열로 선택하여 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 제공하는 단계;
    (b) 상기 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택하는 단계; 및
    (c) (ⅰ) 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 (ⅱ) 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 프로빙 서열들 또는 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하고 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하는 단계.
  2. 제 1 항에 있어서, 상기 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들 또는 복수의 올리고뉴클레오타이드들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하며; 상기 단계 (c)는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드와 상기 복수의 서열 패턴들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 서열 패턴들에 최대 매치가 되도록 하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하여 실시하는 것을 특징으로 하는 방법.
  3. 제 1 항 또는 제 2 항에 있어서, 상기 레퍼런스 프로빙 서열은 상기 복수의 프로빙 서열들 중에서 동일한 서열이 가장 많은 프로빙 서열 또는 상기 복수의 서열 패턴 중에서 서열 패턴으로 그룹화된 프로빙 서열이 가장 많은 서열 패턴의 프로빙 서열이고, 상기 레퍼런스 올리고뉴클레오타이드는 상기 복수의 올리고뉴클레오타이드 중에서 동일한 서열이 가장 많은 올리고뉴클레오타이드 또는 상기 복수의 서열 패턴 중에서 서열 패턴으로 그룹화된 올리고뉴클레오타이드가 가장 많은 서열 패턴의 올리고뉴클레오타이드인 것을 특징으로 하는 방법.
  4. 제 1 항에 있어서, 상기 단계 (c)는 다음의 제한식 1 및 2를 만족하면서 다음의 목적식 1를 달성하도록 실시하는 것을 특징으로 하는 방법:
    목적식 1
    Figure pct00026

    상기 목적식 1에서, Max:은 최대화를 나타내고, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이고, i는 1 내지 r의 프로빙 서열들 또는 올리고뉴클레오타이드들의 일련번호이고;
    제한식 1
    Figure pct00027

    상기 제한식 1에서, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; D Lim 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
    제한식 2
    Figure pct00028

    상기 제한식 2에서, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열 또는 상기 복수의 올리고뉴클레오타이드들 중 i번 올리고뉴클레오타이드의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j i번 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 올리고뉴클레오타이드의 j번째 위치의 상기 레퍼런스 올리고뉴클레오타이드에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열에 대하여 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 i번 올리고뉴클레오타이드에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내며; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내고; for all i,j는 상기 프로빙 서열 또는 올리고뉴클레오타이드 모두의 모든 위치에 적용됨을 의미한다.
  5. 제 2 항에 있어서, 상기 단계 (c)는 다음의 제한식 3 및 4를 만족하면서 다음의 목적식 2를 달성하도록 실시하는 것을 특징으로 하는 방법:
    목적식 2
    Figure pct00029

    상기 목적식 2에서, Max:은 최대화를 나타내고, p i 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 개수 또는 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드의 개수이고, x i 는 프로빙 서열들의 i번 서열 패턴 또는 올리고뉴클레오타이드들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이고, i는 1 내지 r의 프로빙 서열들의 서열 패턴들 또는 올리고뉴클레오타이드들의 서열 패턴들의 일련번호이고;
    제한식 3
    Figure pct00030

    상기 제한식 3에서, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 위치들의 일련번호이고; D Lim 은 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
    제한식 4
    Figure pct00031

    상기 제한식 4에서, x i 는 프로빙 서열들의 i번 서열 패턴 또는 올리고뉴클레오타이드들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 또는 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드의 j번째 위치의 상기 레퍼런스 올리고뉴클레오타이드에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 레퍼런스 프로빙 서열 또는 레퍼런스 올리고뉴클레오타이드의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열에 대하여, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 올리고뉴클레오타이드의 j번째 위치가 올리고뉴클레오타이드들의 i번 서열 패턴에 속하는 올리고뉴클레오타이드에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내며; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내고; for all i,j는 상기 프로빙 서열 또는 올리고뉴클레오타이드 모두의 모든 위치에 적용됨을 의미한다.
  6. 제 4 항 또는 제 5 항에 있어서, 상기 x i 의 비선택값(x non-sel )은 0이고, 선택값(x sel )은 1인 것을 특징으로 하는 방법.
  7. 제 4 항 또는 제 5 항에 있어서, 상기 d j 의 비도입값(d non-int )은 0이고, 도입값(d int )은 1인 것을 특징으로 하는 방법.
  8. 제 4 항 또는 제 5 항에 있어서, 상기 D Lim 는 3인 것을 특징으로 하는 방법.
  9. 제 4 항 또는 제 5 항에 있어서, 상기 a i,j 의 비매치값은 0이고, 매치값은 1인 것을 특징으로 하는 방법.
  10. 제 1 항에 있어서, 상기 복수의 타겟 핵산서열은 유전적 다양성을 나타내는 하나의 타겟 핵산분자의 서열 유사성을 갖는 복수의 핵산서열인 것을 특징으로 하는 방법.
  11. 제 1 항에 있어서, 상기 복수의 타겟 핵산서열은 동일한 기능, 동일한 구조 또는 동일한 유전자명을 가지는 복수의 유기체의 호모로그(homologue)에 대응하는 복수의 핵산서열인 것을 특징으로 하는 방법.
  12. 제 1 항에 있어서, 상기 올리고뉴클레오타이드는 프로브 또는 프라이머인 것을 특징으로 하는 방법.
  13. 제 1 항에 있어서, 상기 방법은 검출대상 타겟 핵산서열을 선별하고, 상기 방법은 상기 소정의 허용 개수의 최소 하나의 축퇴성 염기 및/또는 유니버설 염기가 도입되고, 상기 선별된 타겟 핵산서열에 혼성화 되는 올리고뉴클레오타이드를 제공하는 것을 특징으로 하는 방법.
  14. 다음 단계를 포함하는 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법:
    (a) 복수의 타겟 핵산서열에서 하나의 후보 프로빙 구역(probing region)을 선택하고 상기 후보 프로빙 구역에 있는 서열들을 복수의 프로빙 서열들로 제공하는 단계;
    (b) 상기 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 하는 단계; 및
    (c) 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하는 단계.
  15. 제 14 항에 있어서, 상기 단계 (b)는 상기 복수의 프로빙 서열들 중 어느 하나를 레퍼런스 프로빙 서열로 선택하고 상기 레퍼런스 프로빙 서열과 상기 복수의 프로빙 서열들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 프로빙 서열에 도입하여 상기 복수의 프로빙 서열들에 최대 매치가 되도록 하여 실시하는 것을 특징으로 하는 방법.
  16. 제 14 항에 있어서, 상기 단계 (a)는 상기 복수의 타겟 핵산서열의 얼라인먼트(alignment)에서 위치-상이한 최소 2개의 후보 프로빙 구역(probing region)을 선택하고, 상기 최소 2개의 후보 프로빙 구역 각각에 있는 서열들을 복수의 프로빙 서열들로 제공하여 실시되며; 상기 단계 (b)는 상기 최소 2개의 후보 프로빙 구역 각각에 대하여 복수의 프로빙 서열들에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 실시하고; 및 상기 단계 (c)는 상기 최소 2개의 후보 프로빙 구역 중에서 (i) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내는 후보 프로빙 구역, (ii) 상기 최대 매치가 소정의 커버리지 이상이고 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 후보 프로빙 구역, 또는 (iii) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내면서 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 또는 그의 일부 타겟 핵산서열을 검출하기 위한 프로빙 구역으로 결정하여 실시하는 것을 특징으로 하는 방법.
  17. 제 14 항에 있어서, 상기 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하고; 상기 단계 (b)는 상기 복수의 서열 패턴들 사이에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 서열 패턴들이 서로 최대 매치가 되도록 실시하며; 및 상기 단계 (c)는 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 서열 패턴이 속하는 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하여 실시하는 것을 특징으로 하는 방법.
  18. 제 16 항에 있어서, 상기 방법은 상기 단계 (a)와 (b) 사이에 단계 (a-1) 상기 최소 2개의 후보 프로빙 구역 각각의 상기 복수의 프로빙 서열들을 서열의 동일성에 따라 그룹화 하여 복수의 서열 패턴을 수득하는 단계를 추가적으로 포함하고; 상기 단계 (b)는 상기 최소 2개의 후보 프로빙 구역 각각에 대하여 상기 복수의 서열 패턴들 사이에서 서로 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 서열 패턴들이 서로 최대 매치가 되도록 실시하며; 및 상기 단계 (c)는 상기 최소 2개의 후보 프로빙 구역 중에서 (i) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내는 서열 패턴의 후보 프로빙 구역, (ii) 상기 최대 매치가 소정의 커버리지 이상이고 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 서열 패턴의 후보 프로빙 구역 또는 (iii) 상기 최대 매치가 소정의 커버리지 이상이고 가장 큰 최대 매치를 나타내면서 최대 매치를 위하여 최소의 개수의 축퇴성 염기 및/또는 유니버설 염기를 도입한 서열 패턴의 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 또는 그의 일부 타겟 핵산서열을 검출하기 위한 프로빙 구역으로 결정하여 실시하는 것을 특징으로 하는 방법.
  19. 제 15 항에 있어서, 상기 레퍼런스 프로빙 서열은 상기 복수의 프로빙 서열들 중에서 동일한 서열이 가장 많은 프로빙 서열 또는 상기 복수의 서열 패턴 중에서 프로빙 서열이 가장 많은 서열 패턴의 프로빙 서열인 것을 특징으로 하는 방법.
  20. 제 14 항 내지 제 16 항 중 어느 한 항에 있어서, 상기 단계 (b)는 다음의 제한식 5 및 6을 만족하면서 다음의 목적식 3을 달성하도록 실시하는 것을 특징으로 하는 방법:
    목적식 3
    Figure pct00032

    상기 목적식 3에서, Max:은 최대화를 나타내고, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이며, i는 1 내지 r의 프로빙 서열들의 일련번호이고;
    제한식 5
    Figure pct00033

    상기 제한식 5에서, d j 는 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며; j는 1 내지 c의 프로빙 서열 또는 레퍼런스 프로빙 서열의 위치들의 일련번호이고; D Lim 은 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이며;
    제한식 6
    Figure pct00034

    상기 제한식 6에서, x i 는 상기 복수의 프로빙 서열들 중 i번 프로빙 서열의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이고, a i,j 는 복수의 프로빙 서열의 j번째 위치에서 서로 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이며, d j 는 상기 복수의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 복수의 프로빙 서열에서 j번째 위치가 서로 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 프로빙 서열에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이며; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내고; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내며; for all i,j는 상기 프로빙 서열 모두의 모든 위치에 적용됨을 의미한다.
  21. 제 17 항 또는 제 18 항에 있어서, 상기 단계 (b)는 다음의 제한식 7 및 8을 만족하면서 다음의 목적식 4를 달성하도록 실시하는 것을 특징으로 하는 방법:
    목적식 4
    Figure pct00035

    상기 목적식 4에서, Max:은 최대화를 나타내고, p i 는 프로빙 서열들의 i번 서열 패턴에 속하는 프로빙 서열의 개수이며, x i 는 프로빙 서열들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수(binary variable)이고, i는 1 내지 r의 프로빙 서열들의 서열 패턴들의 일련번호이며;
    제한식 7
    Figure pct00036

    상기 제한식 7에서, d j 는 상기 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이고; j는 1 내지 c의 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열의 위치들의 일련번호이며; D Lim 은 상기 서열 패턴의 프로빙 서열 또는 레퍼런스 프로빙 서열에 도입되는 축퇴성 염기 및/또는 유니버설 염기의 제한된 개수이고;
    제한식 8
    Figure pct00037

    상기 제한식 8에서, x i 는 프로빙 서열들의 i번 서열 패턴의 선택 여부에 대한 비선택값(x non-sel ) 및 선택값(x sel )으로 이루어진 바이너리 변수이며, a i,j 는 서열 패턴들 각각의 프로빙 서열들의 j번째 위치에서 서로 매치 또는 미스매치 여부를 나타내는 바이너리 상수, 또는 i번 서열 패턴의 프로빙 서열의 j번째 위치의 상기 레퍼런스 프로빙 서열에 대한 매치 또는 미스매치 여부를 나타내는 바이너리 상수이고, d j 는 상기 서열 패턴들 각각의 프로빙 서열 또는 레퍼런스 프로빙 서열의 j번째 위치에 축퇴성 염기 및/또는 유니버설 염기를 도입하는지를 나타내는 비도입값(d non-int ) 및 도입값(d int )으로 이루어진 바이너리 변수이며, a i,j + d j 는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 서열 패턴들 각각의 프로빙 서열들에서 j번째 위치가 서로 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이고, 또는 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 또는 도입되지 않은 상기 레퍼런스 프로빙 서열의 j번째 위치가 i번 서열 패턴의 프로빙 서열에 대하여 매치 또는 미스매치 되는지 여부를 나타내는 바이너리 변수이며; {a i,j + d j }는 a i,j + d j 를 원소로 포함하는 집합을 나타내고; min{a i,j + d j }는 집합 {a i,j + d j }의 원소들 중에서 최소값을 나타내며; for all i,j는 상기 프로빙 서열 모두의 모든 위치에 적용됨을 의미한다.
  22. 서열 유사성을 갖는 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체로서, 상기 방법은 다음의 단계를 포함한다:
    (a) 복수의 타겟 핵산서열의 동일한 구역(region)에 있는 서열 유사성을 갖는 서열들 각각을 올리고뉴클레오타이드 서열로 선택하여 복수의 올리고뉴클레오타이드들을 제공하는 단계;
    (b) 상기 복수의 올리고뉴클레오타이드들 중 어느 하나를 레퍼런스 올리고뉴클레오타이드로 선택하는 단계; 및
    (c) 상기 레퍼런스 올리고뉴클레오타이드와 상기 복수의 올리고뉴클레오타이드들 사이에 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 레퍼런스 올리고뉴클레오타이드에 도입하여 상기 복수의 올리고뉴클레오타이드들에 최대 매치가 되도록 하고 최소 하나의 상기 축퇴성 염기 및/또는 유니버설 염기가 도입된 상기 레퍼런스 올리고뉴클레오타이드의 서열을 올리고뉴클레오타이드의 서열로 선택하여 상기 최대 타겟 커버리지를 갖는 올리고뉴클레오타이드를 제공하는 단계.
  23. 서열 유사성을 갖는 복수의 타겟 핵산서열에서 프로빙 구역을 결정하는 방법을 실행하기 위한 프로세서를 구현하는 지시를 포함하는 컴퓨터 해독가능한 기록매체로서, 상기 방법은 다음의 단계를 포함한다:
    (a) 복수의 타겟 핵산서열에서 하나의 후보 프로빙 구역(region)을 선택하고 상기 후보 프로빙 구역에 있는 서열들을 복수의 프로빙 서열들로 제공하는 단계;
    (b) 상기 복수의 프로빙 서열들에서 미스매치 되는 위치(들)에 소정의 허용 개수의 축퇴성 염기 및/또는 유니버설 염기를 상기 복수의 프로빙 서열들에 도입하여, 상기 복수의 프로빙 서열들이 서로 최대 매치가 되도록 하는 단계; 및
    (c) 상기 최대 매치가 소정의 커버리지 이상인 경우 상기 후보 프로빙 구역을 상기 복수의 타겟 핵산서열 모두 또는 그의 일부를 검출하기 위한 프로빙 구역으로 결정하는 단계.
KR1020207005706A 2017-08-11 2018-08-10 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법 KR102335277B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
KR1020170102502 2017-08-11
KR20170102502 2017-08-11
PCT/KR2018/009178 WO2019031916A2 (en) 2017-08-11 2018-08-10 METHODS FOR PREPARING OLIGONUCLEOTIDES FOR DETECTING TARGET NUCLEIC ACID SEQUENCES HAVING MAXIMUM COVERAGE

Publications (2)

Publication Number Publication Date
KR20200023547A true KR20200023547A (ko) 2020-03-04
KR102335277B1 KR102335277B1 (ko) 2021-12-07

Family

ID=65271566

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020207005706A KR102335277B1 (ko) 2017-08-11 2018-08-10 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법

Country Status (4)

Country Link
US (1) US11837326B2 (ko)
EP (1) EP3665688A4 (ko)
KR (1) KR102335277B1 (ko)
WO (1) WO2019031916A2 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220148678A1 (en) * 2019-02-28 2022-05-12 Seegene, Inc. Methods for determining a designable region of oligonucleotides

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170053061A1 (en) * 2015-08-18 2017-02-23 uBiome, Inc. Method and system for multiplex primer design

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8318423B2 (en) 2004-07-06 2012-11-27 Focus Diagnostics, Inc. Methods and compositions for detecting rhinoviruses
WO2007064758A2 (en) * 2005-11-29 2007-06-07 Intelligent Medical Devices, Inc. Methods and systems for designing primers and probes
JP2009521235A (ja) 2005-12-23 2009-06-04 シーメンス・ヘルスケア・ダイアグノスティックス・インコーポレーテッド Hcvの遺伝子型同定のための方法及び試薬
US20090198479A1 (en) * 2007-07-27 2009-08-06 Bulla Jr Lee A Methods to design probes and primers
US8685649B2 (en) 2010-06-10 2014-04-01 The United States Of America As Represented By The Secretary Of The Navy RT-LAMP assay for the detection of pan-serotype dengue virus

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170053061A1 (en) * 2015-08-18 2017-02-23 uBiome, Inc. Method and system for multiplex primer design

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
BMC BIOINFORMATICS *

Also Published As

Publication number Publication date
EP3665688A4 (en) 2021-05-05
WO2019031916A2 (en) 2019-02-14
WO2019031916A3 (en) 2019-05-09
KR102335277B1 (ko) 2021-12-07
US20200152290A1 (en) 2020-05-14
US11837326B2 (en) 2023-12-05
EP3665688A2 (en) 2020-06-17

Similar Documents

Publication Publication Date Title
US9951384B2 (en) Genotyping by next-generation sequencing
CA2801468C (en) Prostate cancer associated circulating nucleic acid biomarkers
US20110003701A1 (en) System and method for improved processing of nucleic acids for production of sequencable libraries
JP2008526249A5 (ko)
JP2012514977A (ja) 新規ゲノム配列決定戦略
JP2021094038A (ja) 核酸を調製するための等温方法および関連組成物
CN103582887A (zh) 提供核苷酸序列数据
US20140287946A1 (en) Nucleic acid control panels
KR102335277B1 (ko) 복수의 타겟 핵산서열을 최대의 타겟 커버리지로 검출하기 위한 올리고뉴클레오타이드의 제작방법
KR101613612B1 (ko) 표적 염기를 검출하기 위한 rna를 함유한 프로브를 제조하기 위한 방법
EP3476938A1 (en) Method and kit for synthesizing nucleic acid under constant temperature conditions
KR102412183B1 (ko) 올리고뉴클레오타이드 최적 조합의 제공방법
CN110818757A (zh) 核苷酸类似物以及筛选dna聚合酶的方法
US20220148678A1 (en) Methods for determining a designable region of oligonucleotides
US20200216879A1 (en) Method for producing dna probe and method for analyzing genomic dna using the dna probe
KR20220062323A (ko) 올리고뉴클레오타이드 세트들의 최적 조합을 제공하는 방법
US20230230656A1 (en) Computer-implemented method for providing coverage of oligonucleotide set for plurality of nucleic acid sequences
EP4105327A1 (en) Method for synthesizing nucleic acid under constant temperature conditions, kit, and application
CN102191314A (zh) 一种基于pcr的低成本、简单、高效的snp检测方法
US20240096448A1 (en) Computer-implemented method for preparing oligonucleotides used to detect nucleotide mutation of interest
JP5530185B2 (ja) 核酸検出方法及び核酸検出用キット
WO2021262422A1 (en) Method and system of dna and rna detection

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant