KR101953651B1 - 쿼리 서열의 유전형 또는 아형 분류 방법 - Google Patents

쿼리 서열의 유전형 또는 아형 분류 방법 Download PDF

Info

Publication number
KR101953651B1
KR101953651B1 KR1020180020553A KR20180020553A KR101953651B1 KR 101953651 B1 KR101953651 B1 KR 101953651B1 KR 1020180020553 A KR1020180020553 A KR 1020180020553A KR 20180020553 A KR20180020553 A KR 20180020553A KR 101953651 B1 KR101953651 B1 KR 101953651B1
Authority
KR
South Korea
Prior art keywords
sequences
sequence
subtype
analysis
hiv
Prior art date
Application number
KR1020180020553A
Other languages
English (en)
Other versions
KR20180021055A (ko
Inventor
김상수
Original Assignee
(주)오믹시스
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)오믹시스 filed Critical (주)오믹시스
Priority to KR1020180020553A priority Critical patent/KR101953651B1/ko
Publication of KR20180021055A publication Critical patent/KR20180021055A/ko
Application granted granted Critical
Publication of KR101953651B1 publication Critical patent/KR101953651B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2132Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on discrimination criteria, e.g. discriminant analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/2433Single-class perspective, e.g. one-against-all classification; Novelty detection; Outlier detection
    • G06K9/6234
    • G06K9/6284
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Public Health (AREA)
  • Epidemiology (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Software Systems (AREA)
  • Bioethics (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

본 발명은 쿼리 서열의 유전형 또는 아형 분류 방법에 관한 것이다. 보다 상세하게는, 본 발명은 (i) 유전형 또는 아형이 알려진 다종의 바이러스의 염기 서열을 참조 서열로 채택하여 이들의 다중 정렬에 있어서의 서열들간의 거리를 계산하여 거리 행렬을 구하는 단계; (ii) 상기 거리 행렬에 대한 다차원 척도화를 통하여 상기 참조 서열을 군집화하여 얻은 군집에 대하여 판별 분석을 실행하여 상기 참조 서열을 분류할 수 있는 판별식을 유도하고, 상기 판별식에 따라 쿼리 서열의 유전형 또는 아형을 분류하는 단계를 포함하는, 쿼리 서열의 유전형 또는 아형 분류 방법에 대한 것이다.

Description

쿼리 서열의 유전형 또는 아형 분류 방법{METHOD FOR CLASSFYING GENOTYPE OR SUBTYPE OF QUERY SEQUENCE}
본 발명은 쿼리 서열의 유전형 또는 아형 분류 방법에 관한 것이다. 보다 상세하게는, 본 발명은 (i) 유전형 또는 아형이 알려진 다종의 바이러스의 염기 서열을 참조 서열로 채택하여 이들의 다중 정렬에 있어서의 서열들간의 거리를 계산하여 거리 행렬을 구하는 단계; (ii) 상기 거리 행렬에 대한 다차원 척도화를 통하여 상기 참조 서열을 군집화하여 얻은 군집에 대하여 판별 분석을 실행하여 상기 참조 서열을 분류할 수 있는 판별식을 유도하고, 상기 판별식에 따라 쿼리 서열의 유전형 또는 아형을 분류하는 단계를 포함하는, 쿼리 서열의 유전형 또는 아형 분류 방법에 대한 것이다.
바이러스의 다양한 변이를 추적하기 위하여는 정밀한 유전형 검사가 필수적이다. 최근 들어 공개용 데이터베이스에 등재되는 바이러스의 염기서열의 숫자가 빠른 속도로 증가하고 있다. 예를 들면, NCBI 유전자 은행에 새롭게 등재되는 HIV-1과 HCV의 염기 서열은 매 3년 마다 거의 두 배로 증가하고 있다. 이러한 바이러스들은 또한 매우 광범위한 유전형 다양성을 보여주고 있으며 소위 유전형(genotype)과 아형(subtype)으로 분류되고 있다.
따라서 이렇게 염기서열 유사성을 기준으로 하는 바이러스 혈통들의 유전형 검사는 바이러스의 변이와 전염병 그리고 항바이러스제와 백신을 연구하기 위한 가장 기초적인 단계들 중의 하나가 되었다.
바이러스 아형 분류를 위하여 사용되어 온 종래의 대표적인 방법들로는, (1) 소위 참조 서열로 지칭되는 각 아형의 대표 서열과 쿼리 서열간의 최상의 매치를 찾아내는 최근접이웃방법(nearest neighbor method); (2)쿼리 가지(query branch)의 단원성 그룹을 찾아보는 계통발생학적 방법이 알려져 있다. 아형은 애초부터 독립적 군체로서 정의되어 왔기 때문에 이러한 직관적으로 건실한 방법이 널리 사용되어 왔고, 또한 여러 경우에 있어서 상당히 성공적이었다.
그러나 새롭게 밝혀지는 바이러스 서열들의 숫자가 증가함에 따라, 명료하게 아형일 수 없는 통계적 이상점(outlier) 또는 이들 방법이 적용될 수 없는 통계적 이상점을 관찰하게 된다. 최근의 보고에 따르면, HIV-1 염기 서열에 대한 이러한 서로 다른 자동 아형 분류 방법은 아형 B와 C에 대한 경우를 제외하고는 상호 50% 이하의 일치도를 나타내었다(Gifford R, de Oliveira T, Rambaut A, Myers RE, Gale CV, DunnD, Shafer R, Vandamme AM, Kellam P, Pillay D: UK Collaborative Group on HIV Drug Resistance: Assessment of automatedgenotyping protocols as tools for surveillanceof HIV-1 genetic diversity. AIDS 2006, 20: 1521-1529). 이러한 불일치의 여러 이유들 중의 하나는 일탈과 재조합에 의해 야기되는 복잡성의 증가이다. 또한 매우 밀접하게 연관된(B 및 D) 또는 유래가 동일한(A 및 CRF01_AE) 아형들이 이러한 방법들에서 매우 낮은 일치도를 나타내었다.
본 발명자들은 이러한 통계적 이상점의 원인이 되는 문제점은 아형 하나 당 참조 서열의 숫자가 너무 적다는 점이라고 판단한다. 이들 방법들은 두개 내지 네개의 참조 서열을 사용하였다. 고품위의 전장 유전자 서열들에서 전문가들이 조심스럽게 선택하여 각 아형의 다양성을 가능한 한 최대한 커버하도록 하는 것이다. 그러나 아형 하나 당 참조 서열의 개수가 본질적으로 적기 때문에 아형 예측치 신뢰도를 정할 수 없다. 염기쌍 별 정렬의 E값이 낮다는 점 또는 계통분류학적 트리(tree)의 높은 부트스트랩(bootstrap) 값은 단위 조작의 신뢰도를 나타내지만 아형 분류의 신뢰도를 반드시 보장하는 것은 아니다.
통계적 신뢰도 측정의 문제점을 주목하게 되면, 각각의 아형의 다중 서열 정렬(multiple sequence alignment, MSA)로부터 제작되는 위치-특이적인 기록 매트릭스의 통계적 모델에 기반을 둔 방법인 STAR법의 도입이 요구된다. 그러나 현재 이것의 적용에도 제한이 따른다. 이 방법은 소수의 참조 서열(11개의 아형 모두 합쳐 141개)의 HIV-1 아미노산 서열에만 적용되고 1,000 이하의 서열에 대하여 평가되어 왔다.
최근에 이르러 뉴클레오티드의 성분 조성 조건에 근거한 새로운 유전형(아형) 분석방법이 소개되었다. 이 방법은 다중서열정렬을 사용치 아니한다는 점이 독특하고 아직까지는 높은 정확도를 나타낸다. 그러나 이 방법 역시 42개에 불과한 참조 서열을 사용하고 1156개의 서열에 적용되었다. 이러한 바이러스 염기 서열의 폭발적인 증가세를 감안한다면, 이러한 종래 방법의 적용 사례는 기껏해야 만개 중의 얼마인 것으로 오히려 너무 적다.
쿼리 염기 서열을 분류하려고 시도하기 전에 각각의 아형의 개체가 군집(cluster)을 얼마나 잘 형성하고 있는지 여부를 평가하는 것이 중요하다. 최소 일부라도 중복되는 두어 개 이상의 아형을 제외하고는 참조 서열들이 아형별로 가장 잘 분리되는 경우를 고려한다: 소수의 참조 서열에 의존하는 방법들에서는 이러한 문제점들이 드러나지 아니하며 자명한 아형으로 높은 점수로 표시한다. 서열 범위를 따라 돌연변이 속도가 변화하기 때문에 각각의 유전자 분절(gene segment)의 계통분류에 미치는 영향력 역시 변동할 수 있다. 이러한 점은 비교적 짧은 부분 염기서열에 대하여 특히 중요하다. 종래에는 유전형(또는 아형)분석에서 서열 부위 일부라도 관찰되지 아니하는 경우에는, 확연하게 군집을 형성하는 잘 알려진 참조 서열이라고 하더라도 분석되지 아니할 수 있는 문제가 있었다.
이와 가장 근접한 방법들은 참조 서열들 간의 정렬이 아니라 오직 쿼리 서열과 참조 서열간의 정렬에 관한 것이기 때문에 이러한 백그라운드 분류 모델의 유효성을 평가하는 것은 아니다. 트리 구조에 근거한(tree-based) 방법들 중의 하나인 REGA는 쿼리 서열이 참조 서열의 집단이 형성하는 군집의 안쪽에 있는지 바깥 쪽에 있는지에 관한 것이다(de Oliveira T, Deforche K, Cassol S, Salminen M, Paraskevis D, Seebregts C, Snoeck J, van Rensburg EJ, Wensing AM, van de Vijver DA, Boucher CA, Camacho R, Vandamme AM: An automatedgenotyping system for analysis of HIV-1 and other microbial sequences. Bioinformatics 2005, 21: 3797-3800). 그러나 현재까지는 그러한 측정치를 정량적으로 나타낼 수 있는 수단은 알려진 바 없다.
따라서 본 발명자들은, 참조 서열들 간의 거리에 기초하여 백그라운드 분류 모델을 도출하고; 각각의 쿼리 서열의 유효성을 재평가하며; 사후확률(posterior probability)에 대한 유전형(또는 아형) 분석의 통계적 중요성에 주목하여 새로운 본 발명의 바이러스의 유전형(또는 아형) 분류 방법을 개발하였다.
그러므로, 본 발명의 분류 방법은 수많은 참조 서열이 존재하는 경우에 특히 적합하다. 본 발명의 방법의 일 실시태양은 현재 생물학 분야에서 널리 사용되고 있는 잘 확립된 통계적 수단인 주요좌표 분석법(principal coordinate analysis, PCoA)과 선형 판별 분석법(linear discriminant analysis, LDA)을 조합함으로써 목적을 달성한다. 전통적인 다차원 척도화(multidimensional scaling, MDS)로도 알려져 있는 주요좌표 분석법(PCoA)은 서열들 간의 거리 관계를 최대한 보전하면서 서열들을 고차원의 주요좌표 공간에 도시한다. 이 방법은 계통발생학적 분석에 사용되는 트리 기반(tree based) 분류법을 보충하는 방법으로서 서열 분석의 추세의 발전에 널리 기여하였다.
아형 분석은 계통발생학적 트리(tree)에서 확연하게 구별되는 단일 계통 그룹으로 정의되기 때문에 각각의 아형은 적절한 고차원이 선택되는 경우에는 MDS 공간에서 잘 구별되는 군집을 형성해야만 한다. 이러한 경우에는 이들 군집을 구별 짓는 3차원 이상의 면을 발견할 수 있게 되며 이러한 고차원의 면을 기준으로 쿼리 서열을 구별 짓는다. 이를 위하여 본 발명의 방법은 직접적이며 강력한 구별방법인 LDA를 MDS 좌표에 적용시키는 것이며, 쿼리 서열을 구성원들의 가장 높은 후방 확률을 나타내는 유전형으로 분류하게 된다.
이러한 확률은 어떠한 애매모호한 경우를 검출하는 경우에 유용할 수 있다. 본 방법의 발명은, 오류 분류 율을 측정함으로써 모델의 유효성을 평가하는데 사용될 수 있는, 단일잔류 교차타당성(LOOCV, Leave-one-out cross-validation) 방법을 통하여 LDA모델을 테스트한다. 염기서열을 좌표로 나타내기 때문에 유전형(또는 아형) 분석의 통계적 이상점을 찾아내는 간단한 수단으로 활용할 수 있다.
본 발명자들은, NCBI GenBank(뉴클레오티드)과 GenPept(단백질)에서 구할 수 있는 모든 HIV-1과 HCV 서열들에 대하여 컴퓨터상에서 본 발명의 방법을 평가하였다.
본 발명의 기본적인 목적은 (i) 유전형 또는 아형이 알려진 다종의 바이러스의 염기 서열을 참조 서열로 채택하여 이들의 다중 정렬에 있어서의 서열들간의 거리를 계산하여 거리 행렬을 구하는 단계; (ii) 상기 거리 행렬에 대한 다차원 척도화를 통하여 상기 참조 서열을 군집화하여 얻은 군집에 대하여 판별 분석을 실행하여 상기 참조 서열을 분류할 수 있는 판별식을 유도하고, 상기 판별식에 따라 쿼리 서열의 유전형 또는 아형을 분류하는 단계를 포함하는, 쿼리 서열의 유전형 또는 아형 분류 방법을 제공하는 것이다.
전술한 본 발명의 기본적인 목적은 (i) 유전형 또는 아형이 알려진 다종의 바이러스의 염기 서열을 참조 서열로 채택하여 이들의 다중 정렬에 있어서의 서열들간의 거리를 계산하여 거리 행렬을 구하는 단계; (ii) 상기 거리 행렬에 대한 다차원 척도화를 통하여 상기 참조 서열을 군집화하여 얻은 군집에 대하여 판별 분석을 실행하여 상기 참조 서열을 분류할 수 있는 판별식을 유도하고, 상기 판별식에 따라 쿼리 서열의 유전형 또는 아형을 분류하는 단계를 포함하는, 쿼리 서열의 유전형 또는 아형 분류 방법을 제공함으로써 달성될 수 있다.
상기 (i)단계는 상기 다중 정렬로부터 삽입-결실 돌연변이(indel)를 제거하는 단계를 추가로 포함할 수 있다.
또한, 상기 (ii)단계의 다차원 척도화는 주요좌표 분석법인 것이 바람직하다.
또한, 또한, 상기 (ii)단계의 판별 분석은 선형 판별 분석법, 이차 판별 분석법, 최근접이웃방법, 서포트 벡터 머신 또는 선형 분류자와 같은 다양한 방법으로부터 선택될 수 있다.
본 발명의 방법은 HIV-1 또는 HCV와 같이 급속히 변이하는 바이러스의 서열을 분석하여 이들의 유전형 또는 아형을 정확히 결정하는데 효과적으로 사용될 수 있다. 또한, 본 발명의 방법은 뉴클레오티드 서열과 단백질(펩타이드) 서열 모두에 적용할 수 있다.
더욱이, 본 발명의 방법은 SNP와 같은 다형 마커(polymorphic marker)의 거리 행렬에 기초하여 각 개체를 개체군(population group)으로 분류하는 데에도 적용될 수 있다.
도 1은 본 발명에 따른 바이러스의 유전형 분석(또는 아형 분석) 방법의 개념을 나타내는 다이어그램이다. 구들(spheres)은, A 내지 D의 4개의 그룹으로 군집화된 알려진 서열들을 나타내고, 군집의 경계는 블록 원(block circle)으로 표시되어 있다. 각 군집 내의 짙은 구들은 각각의 참조 서열들을 나타내고 쿼리 서열은 별표로서 표시되어 있다. 상기 쿼리 서열이 B 군집과 D 군집의 경계에 위치하기 때문에, 쿼리 서열의 유전형(또는 아형)은 알기 어렵다. 반면에, 최근접이웃방법에 의하여 상기 쿼리 서열을 최근접 참조 서열에 할당할 수 있는데, 이러한 경우는 D 군집에서 발생한다. 분류 방법이 알려진 서열들의 군집화 패턴을 고려하지 않고 최근접 참조 서열과의 거리에 의존한다면, 그 결과는 참조 서열의 선택에 대하여 견고하지 않을 수 있다.
도 2는 HIV-1 서열을 제1(V1), 제2(V2) 및 제3(V3) 주좌표축을 따라서 나타낸 전형적인 MDS 플롯을 보여준다. 참조 서열들은 이들의 아형에 따라 색-코드화된(color-coded) 작은 원으로서 표시되어 있다. 명확성을 위하여, F 내지 K 아형들은 표시하지 않았다. 쿼리 서열은 B('+') 아형의 중간에 위치하였다.
도 3은 각 유전자 분절에 대한 MDS 차원(k)에 의하여 LOOCV 오류율을 조사한 결과를 나타낸다. 참조 서열들의 유전형(또는 아형) 예측에 대한 LOOCV 오류율을, (a) HIV-1 뉴클레오티드, (b) HIV-1 단백질, (c) HCV 뉴클레오티드 및 (d) HCV 단백질 서열들의 각 유전자 분절에 대하여 MDS 차원(k)을 1부터 50까지 변화시키면서 측정하였다. 특별히 높은 오류율을 보이는 일부 유전자 분절을 표시하였다. 서열 유형에 상관없이, 오류율은 k=10 이후부터 변화가 없었고, 이 결과를 다음 분석에 사용하였다.
도 4는 유전자 분절에 따른 LOOCV 오류율의 대표적인 슬라이딩 윈도우를 보여준다. (a) HIV-1 env 뉴클레오티드 및 (b) HCV e2 단백질 서열들의 유전자 분절을 따라서 슬라이딩 윈도우에 LOOCV 오류율을 도시하였다. 두 경우 모두에 대하여 MDS 차원을 k=10에서 설정하였다. 전체 리스트는 도 8 및 도 9에 나타나 있다.
도 5는 HIV-1 뉴클레오티드 '주요' 분석에 대한 이상치(O)의 밀도 분포를 나타낸다. 시험한 161,440개의 사례들 중에서, 본 발명의 방법에 의한 159,261개의 예측이 LANL 아형 정보(실선)와 일치한 반면에, 나머지 예측(점선)은 일치하지 않았다. 도 5는 R 통계 패키지에서 수행된 핵밀도추정(kernel density estimation) 함수를 사용하여 생성되었다. O > 2에 의하여 여과되 부분은 음영처리 하였다. 불일치하는 경우의 상당한 부분이 여과된 반면, 일치하는 경우에 있어서의 손실은 최소화되었다는 사실을 주목해야 한다.
도 6은 HIV-1 과돌연변이된(hypermutated) 서열에 대한 이상치의 박스플롯(box plot)을 보여준다. 종래 연구들(Janini M, Rogers M, Birx DR, McCutchan FE: Humanimmunodeficiency virus type 1 DNA sequences genetically damaged by hypermutation are often abundant in patient peripheral bolld mononuclear cells and may be generated duringnear-simultaneous infection and activation of CD4(+) T cells. J Virol 2001, 75(17): 7973-7986; Gandhi SK, Siliciano JD, Bailey JR, Siliciano RF, Blankson JN: Role of APOBEC3G/F-mediated hypermutation in the control of humanimmunodeficiency virus type 1 in elite suppressors. J Virol 2008, 82(6): 3125-3130; Land AM, Ball TB, LuoM, Pilon Rm, Sandstrom P, Embree JE, Wachihi C, Kimani J, Plummer FA: Humanimmunodeficiency virus (HIV) type 1 proviral hypermutation correlates with CD4 count in HIV-infected women from Kenya. J Virol 2008, 82(16): 8172-8182)에 의하여 보고된 561개의 비기능적(non-functional) 서열 및 1,519개의 기능적(functional) 서열들에 대하여, 각 서열이 비기능적인지 아닌지 여부를 특별히 표시한, 이상치(O) 파라미터의 박스 플롯을 도시하였다.
도 7은 HIV-1 서열의 아형 분석을 위한 본 발명의 방법을 위한 웹 서버에 대한 스크린샷(screenshot)이다. 도 7(a)는 입력 화면, (b) 내지 (d)는 출력의 첫번째 페이지부터 마지막 페이지를 보여준다.
도 8은 HIV-1 뉴클레오티드(상부 패널) 및 단백질(하부 패널) 서열에 대한 슬라이딩 윈도우 내에서의 LOOCV 오류율을 보여준다((a) env, (b) gag, (c) nef, (d) pol, (e) vif 및 (f) vpu를 나타낸다).
도 9는 HCV 뉴클레오티드(상부 패널) 및 단백질(하부 패널) 서열에 대한 슬라이딩 윈도우 내에서의 LOOCV 오류율을 보여준다((a) utr, (b) arfp, (c) core, (d) e1, (e) e2, (f) ns2, (g) ns3, (h) ns4a, (i) ns4b, (j) ns5a, (k) ns5b, (l) okamoto, (m) p7).
도 10은 HIV-1 '주요' 분석에 대한 이상치 및 LOOCV 오류율을 보여주는 히스토그램이다. 본 발명의 방법에 따른 이상치에 대한 예측이 LANL 데이터와 일치하는 이상치 분포는 (a) 1.0 부근에 집중한 좁은 피크를 보였고, (b) 불일치하는 이상치는 10.0까지 길게 이어지는 꼬리를 보였다. 낮은 신뢰도을 갖는 사례들(이상치 < 2.0)을 여과한 후에도, 여전히 (c) 일치하는 사례들 보다 (d) 불일치하는 사례들에 대하여 더 높은 오류율을 갖는 사례들이 비교적 많이 있었다. 그러나 이들의 비율이 크지 않았고 이들의 값에 근거하는 어떠한 여과 과정을 수행하지 않았다.
이하, 다음의 실시예 및 도면을 들어 본 발명을 보다 구체적으로 설명하고자 한다. 그러나 다음의 실시예 및 도면에 대한 설명은 본 발명의 구체적인 실시 태양을 특정하여 설명하고자 하는 것일 뿐이며, 본 발명의 권리범위를 이들에 기재된 내용으로 한정하거나 제한해석하고자 의도하는 것은 아니다.
전체 과정
본 발명의 방법은 참조 서열을 갖는 쿼리의 다중서열정렬(multiple sequence alignment, MSA)을 생성함으로써 시작한다. 종래의 방법과는 달리, 본 발명의 방법은, 양질이면서 신중하게 할당된 유전형(또는 아형)의 참조 서열을 많이 필요로 한다. LANL(Los Alamos National Laboratory) 데이터베이스는 HIV-1(http://www.hiv.lanl.gov/) 및 HCV(http://hcv.lanl.gov/) 서열에 대한 이러한 MSA를 배포하고 있다. 또한, LANL는 상기 MSA에서 각 서열에 대한 아형 정보를 제공하고 있다. 총 3,591개의 뉴클레오티드 서열(단백질에 대하여 3,478개)이 2007년 출시된 HIV-1 MSA에 포함되는 한편, 총 3,093개의 뉴클레오티드 서열(단백질에 대하여 3,077개)이 HCV MSA에 존재하였다. 일부 아형에 대해, 100개 이상의 서열이 상기 MSA에서 발견되었고, 일부 참조 서열에만 포함된 아형이 드물게 존재하였음에 주목해야 한다. 본 발명의 방법은 전체 분산(global variance)에 기초한 귀납적 해결법을 제공한다. 다른 방법들과의 적정한 비교를 위해, 본 발명자들은 MSA를 창조하기보다는 이러한 참조 MSA에 대한 쿼리를 정렬함으로써 상기 공개된 데이터베이스로부터 이용 가능한 참조 서열의 MSA를 따르기로 하였다. 이것은 웹 서버 적용에 대해 필수 실행 시간을 줄이는 이점이 있다. 한 벌의 프로그램, 즉 hmmbuild, hmmcalibratehmmalign(http://hmmer.janelia.org/)이 이 단계에 이용된다. PERL 스크립트를 사용하여 상기 MSA에서 삽입-결실 돌연변이(indel)를 제거한 후, 이러한 서열들 사이의 쌍별 거리 행렬(pairwise distance matrix)은 주크-칸토어 수정법(Jukes-Cantor correction)을 이용하는 EMBOSS 패키지(http://emboss.sourceforge.net/)의 distmat을 사용하여 계산된다.
다음 단계는, 상기 거리행렬(distance matrix)을 그 성분들이 상기 구해진 좌표들의 내적과 동일한 행렬로 바꾸는, 소위 주좌표분석(PCoA)이다. 상기 결과로 얻어진 행렬의 비정칙값분해(singular value decomposition)를 통해, 고유벡터 및 관련 고유값 집합이 더 낮은 특정 차원으로 얻어진다. 다음에, 쌍별 유클리드 거리가 상기 최초 거리의 근사치에 가까운 서열의 다차원 좌표가 고유벡터 및 고유값을 포함하는 단순 행렬 연산으로부터 회복된다. 각 고유값은, 소위 주좌표(PC: principal coordinate)라고 불리는, 대응 고유벡터에 의해 정의된 축을 따라 포획된(captured) 분산량이다. 편의상 상기 고유값을 내림차순으로 분류하고 최상위 일부 성분을 취함으로써 차원 축소를 달성한다. 상기 그룹 내 분산이 무시해도 될 정도라면, 상위 PC 또는 MDS 차원의 수, k는 최대 N-1이어야 한다(여기서 N은 참조 그룹의 수이다). 그러나, 고려되는 상기 서열 영역에 따라, 아형은 차아형과 같은 하나 이상의 군집으로 분할되는, 복잡한 군집화 패턴을 나타낼 수 있다. 따라서, 본 발명자들은 1 내지 50의 값을 갖는 k에 대해 상기 참조 서열의 교차타당성 오류를 검사했던 경험적 방법을 택하였다. 이러한 단계는 R 통계 시스템(http://www.rproject.org/)의 cmdscale로 수행된다(상기 MDS 결과의 전형적인 플롯에 대해서는 도 2를 참조). 이어서, 상기 참조서열의 아형에 따라 상기 참조서열을 가장 잘 분류하고 상기 아형을 쿼리에 할당하는 판별 모델을 개발하는 것이다. 여기서, K-최근접이웃(K-Nearest Neighbour, K-NN), 서포트 벡터 머신(Support Vector Machine, SVM), 선형분류자(linear classifiers) 및 기타 다른 분류법과 같은 다양한 분류법을 적용할 수 있다. 상기 참조서열들이 이들의 아형 소속(subtype membership)에 따라 잘 군집화된다면, 선형 판별 분석(LDA) 또는 이차 판별 분석(quadratic discriminant analysis, QDA)과 같은 매우 단순한 방법으로도 충분하다. 이들 양쪽 모두는 가우스 판별 함수를 각 그룹 중심(group center)에 적용함으로써 실행되는 한편, 이들 간의 차이점은 전체(LDA) 또는 그룹(QDA) 공분산(covariance)이 사용되었는지 여부이다. 그룹 내 분산이 각 그룹별로 서로 다를 수도 있기 때문에, QDA가 보다 더 적합할 수 있다. 그러나, 어떤 유전형(또는 아형)에 대한 소수의 참조 서열로는 QDA가 불안정해지기 때문에, 위에서 언급된 표본 크기 불균형 문제점은 QDA를 적용하기 어렵게 한다. 다른 한편으로는, 일반적으로 LDA는 전체 공분산을 상기 모든 아형에 적용하기 때문에 이러한 문제점에 보다 더 강할 수 있다. QDA 만큼 엄밀하지는 않아도, 이러한 귀납적 접근법은, 상기 그룹 분산이 서로 너무 다르지 않는 한, 상당히 잘 실행된다. 일단 상기 선형 판별법이 상기 참조 서열을 기준으로 하여 계산되면, 특정 그룹에 속하는 사후확률(posterior probability)이 상기 쿼리로부터 그룹 중심까지의, 소위 마할라노비스 거리(Mahalanobis distance)의 함수로서 주어진다. 이어서, 상기 쿼리에 대하여, 최대 사후추정(maximum a posteriori estimate, MAP), 즉 최대 확률을 갖는 아형이 할당된다. 상기 사후확률은 각 아형에 대한 참조서열의 수에 비례하는 이전 확률에 의해 척도화된다. 이러한 단계는 R 통계 시스템의 MASS 패키지의 lda로 수행된다(http://www.r-project.org/).
예측 모델의 교차타당성
상기 선형 판별 모델의 타당성이 상기 참조 서열의 유전형(또는 아형) 소속의 LOOCV에 의해 평가된다. 상기 참조 서열 각각에 대해, 각 참조서열의 유전형(또는 아형)이 나머지 참조 서열로부터 생성되는 모델에 의해 예측된다. 상기 타당성 검사에 참여한 참조 서열의 총수에 대한 오분류된 참조서열의 수의 비율인, 오분류 오류율(misclassification error rate)은 상기 백그라운드 분류 능력(background classification power)에 대한 민감한 수단이다. 공개된 데이터베이스의 많은 바이러스 서열은 전체 게놈이 아니라 소수의 유전자 또는 유전자의 일부분이므로, 이들의 계통발생학적 신호는 바뀔 수 있다. 따라서 본 발명자들은 LOOCV를 사용하여 각 예측의 분류 능력을 재평가하였다. 상기 참조 서열이 주어진 쿼리에 대한 MDS 공간 내에서 제대로 구별되지 않는다면, 이 결과는 LOOCV에서 높은 오분류율에 해당한다는 증거일 것이다.
이상점(Outlier) 검출
상기 참조 서열이 낮은 LOOCV 오류율을 갖는 아형에 의해 잘 분리되더라도, 상기 쿼리 서열 자체가 비정상적일 가능성이 있고: 그것은, 일부 아형의 중앙에 위치한, 두 개 이상의 아형의 복합물일 수 있으며(재조합체의 경우); 단지 하나의 아형 군집(그 아형에 대해 1에 가까운 사후 확률 값을 갖는다)에 가까울 수 있으나 상기 군집 주변부로부터 먼 외부에 있을 수 있다(발산의 경우). 다변량 분석 분야에서, 상기 표본 중심으로부터 마할라노비스 거리를 계산하고 카이제곱 분포와 비교함으로써 이상점를 검출하는 것이 관례적이다. 마할라노비스 거리가 이미 상기 LDA 사후확률의 계산에 포함되었기 때문에, 본 발명자들은 다소 분명한 수단, 즉 이상치(outlierness) O를 제안하는데, 상기 이상치(O)는 상기 쿼리로부터, 상기 방향을 따라 아형에 속하는 상기 참조 서열의 최대 발산에 관련된 상기 군집 중심까지의 유클리드 거리이다:
Figure 112018018246026-pat00001
…… (식 1)
여기서, XQ, XR 및 XC는 각각 상기 쿼리의 MDS 벡터, 상기 참조 서열 중 하나, 및 상기 참조 그룹 S의 중심이다. 상기 그룹 S는, 상기 쿼리로 분류된 유전형(또는 아형)에 속하는 모든 참조 서열을 포함한다. O가 1.0보다 작다면, 상기 쿼리는 상기 군집 내부에 존재하고, 그렇지 않다면, 외부에 존재한다. 본 발명자들은 이것에 기초한 간단한 귀납적인 필터를 개발하였다: 예를 들어, 약간의 발산을 허용하기 위해 역치(threshold)를 2.0으로 설정할 수 있다. 또한, 상기 쿼리가 참조서열 그룹에 의해 형성된 군집의 내부 또는 외부에 존재하는지 알기 위한 트리 토폴로지(tree topology)를 검사함으로써, REGA가 이상점 검출 과정을 수행한다.
재조합 감지를 위한 내포 분석(Nested Analysis)
재조합 바이러스 균주의 특성을 밝히기 위한 표준 절차는 재조합 지점(recombination spot)의 위치를 찾기 위해 상기 서열에 따라서 부트스캐닝하는 것을 포함한다. 수백 개의 CPU를 갖는 군집 팜(cluster farm)이 사용되지 않는다면, 상기 표준 절차는 긴 서열에만 적용할 수 있고 큰 표본 크기에 의존하는 본 발명의 방법과 같은 도구에 대하여 웹을 통하여 수행되기에는 실질적으로 너무 많은 시간을 요한다. 부트스캐닝을 실행하는 대신에, (a) 하나 이상의 유전자를 둘러싸는 쿼리에 대한 유전자에 의해 아형 유전자를 예측하는 단계; (b) 재조합 참조 서열을 포함하는 내포 방식으로 상기 분석의 재반복하는 단계를 따르는 접근법에 의해 상기 재조합 문제점을 대처하였다.
HIV-1 및 HCV는 수십 개의 유전자를 포함하고 따라서 전체 게놈 서열의 유전자 분석에 의한 유전자가 단일 유전자 분석보다 10배의 시간이 걸리지 않을 수 있다. 다른 아형이 높은 신뢰도로 쿼리의 다른 유전자 성분에 할당된다면, 이는 재조합체의 경우임을 암시하는 것일 수 있다. 일부 재조합체에 대하여, 상기 중단점(breakpoint)이 유전자의 중앙에서 발생할 수 있다. 이러한 경우, 분류의 사후 확률은 단 하나의 아형에 의해 좌우되지 않지만 두 번째 정도는 무시할 수 없는 P 값을 가질 수 있다. 본 발명자들은 0.01보다 큰 P 값을 갖는 아형 및 관련된 재조합 아형에 집중함으로써 내포 방식으로 예측 과정을 반복하였다. 예를 들어, A 또는 G 그룹 중 어느 하나의 P 값이 0.01보다 크다면, HIV-1 아형의 내포 분석 단계에서의 상기 참조서열이 CRF02_AG 그룹을 포함하게 된다.
웹 서버 개발
뉴클레오티드 서열을 쿼리로서 수용하고 상기 쿼리의 각 유전자 분절(gene segment)을 위한 유전형(또는 아형) 예측하는 아파치 웹 서버를 각각의 HIV-1과 HCV 위해 개발하였다. 또한, 아미노산 서열을 쿼리로서 수용하는 대응하는 단백질 버전(protein-version)도 개발하였다. 이들은 http://www.muldas.org/MuLDAS/에서 자유롭게 이용할 수 있다. PERL로 작성된 각 CGI 프로그램은 각각 HMMER, EMBOSS 및 R의 배포 웹사이트로부터 다운로드한 구성 프로그램을 래핑(wrap)한다. 거리 행렬의 계산이 대부분의 실행시간을 소비하기 때문에, 계산 업무를 몇 개의 계산 노드, 전형적으로 4개의 계산 노드로 나누고, 각 계산 노드는 열(row) 부분을 병렬적으로 계산하고, 계산 결과를 마스터 노드에 의해 통합하였다. 1000-bp HIV-1 뉴클레오티드 서열의 전형적인 아형 예측은 인텔 제온 CPU 리눅스 박스(Intel Xeon CPU Linux box)에서 약 20초 정도 걸렸다. 상기 웹 서버들은, 각 아형에 대한 사후 P 값, 상기 예측 모델에 대한 단일 잔류 교차 타당성(leave-one-out cross-validation) 결과, 상기 이상점 검출 결과뿐만 아니라, 상기 쿼리의 MAP 유전형(또는 아형)을 보고하였다(도 7 참조). 최상위 3개의 PC에서 상기 쿼리 및 상기 참조서열의 3D 플롯이 PNG 포맷으로 제공되고 GGobi를 사용하는 다음의 동적 양방향 시각화(dynamic interactive visualization)를 위해 상기 쿼리 및 참조의 모든 PC를 묘사하는 XML 파일을 다운로드받을 수 있다(http://www.ggobi.org/)(도 2). 특히 이것은 군집화 품질을 시각적으로 검사하고 잠재적인 새로운 형태 또는 재조합체를 구별할 수 있게 하는 이상점 검출 결과를 확인하는데 유용하다. HIV-1에 대하여, 위에서 설명된 바와 같이 상기 내포 분석을 재반복하였고 그 결과를 보고하였다.
또한 상기 웹사이트는, 예측 서버와 동일한 방법에 의해 예측되는, HIV-1 아형 및 HCV 유전형의 사전계산된 결과를 저장하는 데이터베이스 서버를 작동시킨다. NCBL GenBank와 GenPept에서 HIV-1 또는 HCV 서열의 모든 새로운 엔트리(entries)가 정기적으로 매일 다운로드되고, 이들의 유전형(또는 아형)이 상기 데이터베이스에서 예측되고 저장된다. 상기 결과는 NCBL GI수 또는 프라이머리 액세션(primary accession)에 의해 검색될 수 있다. 또한 사후 확률, LOOCV율, 이상치, 유전형(또는 아형) 또는 유전자 분절과 같은 시스템에 의해 계산된 특성에 의해 상기 엔트리를 쿼리화하는 것이 가능하다. 상기 검색된 결과는 LANL 데이터베이스로부터 가져온 상기 유전형(또는 아형) 정보를 포함한다.
결과
NCBI GenBank와 GenPept로부터 다운로드 받은 HIV-1과 HCV의 서열 데이터 집합을 사용하여 본 발명을 시험하였다. 참조 서열로서 사용되지 아니한 154,280개의 HIV-1 서열(8,770개의 재조합체 포함) 및 48,334개의 HCV 서열(재조합체 불포함)에 대한 뉴클레오티드 서열의 아형 정보를 LANL 웹사이트로부터 검색하였고, 상기 뉴클레오티드 서열로부터 유래한 단백질 서열(154,280개의 HIV-1 서열 및 48,334개의 HCV 서열)의 아형 정보의 기원을 찾는데 이용하였다. 상기 서열 중 일부에 대한 유전형/아형을 원래의 제출자로부터 받았고 나머지는 LANL로부터 할당받았다.
시험 데이터 집합의 유전자형(또는 아형) 명명법
HIV 서열을 M(주요부), N(비주요부), U(비분류부) 및 O(외집단)으로 분류하였다. 이용가능한 대부분의 서열은 M 그룹에 속하였다. N 그룹과 O 그룹이 M 그룹으로부터 멀리 떨어져 있기 때문에, M 그룹의 아형은 이러한 원거리 그룹을 포함하는 MDS 플롯 내에서 잘 구별되지 않았다. 결과적으로, 본 발명자들은 M 그룹의 서열을 아형, 즉 A-D, F-H, J 및 K로 분류하는데 초점을 맞추었다. M 그룹의 아형 중에서, 종종 A와 F는 각각 차아형(sub-subtype)인 A1과 A2, 그리고 F1과 F2로서 추가로 나뉘었다.
그러나 새로운 서열이 아형 수준에서 LANL 데이터베이스에 계속해서 보고되고 있다. 이는 LANL에 의하여 제작된 MSA에 포함되는 서열에 있어서도 마찬가지였다.
본 발명을 사용하여 비교적 짧은 서열에 대한 차아형을 구별하는 것은, 관련된 아형 서열만을 사용하는 '내포' 분석('nested' analysis)을 요한다. 이러한 이유로 인하여, 본 발명자들은 차아형을 구별하려 하지 않았고 아형 수준에서 분류하였다. M 그룹 내의 서로 다른 아형들은 재결합하여 새로운 균주를 형성할 수 있다.
상기 균주가 3명 이상의 역학(疫學)적으로 독립적인 환자로부터 발견된다면, 순환 재조합 형태(circulating recombinant form, CRF)이라 부른다. CRF 중에서, CRF01_AE는 A와 현재는 멸종된 E를 재조합함으로써 형성되었고, A 아형과 구별되는 큰 군을 구성한다.
본 발명자들은 상기 M 그룹과 CRF01_AE 아형을 '주요' 아형으로 부르고 이들에 대하여 '주요' 분석으로서 본 발명의 방법을 수행하였다. LANL에 의하여 주요 그룹으로 분류된 모든 시험 대상 뉴클레오티드 서열의 아형과 유전자 분절에 따른 통계자료에 대한 분석을 표 1(a)에 나타내었다(대응하는 단백질 서열에 대하여는 표 2(a) 참조). 분포는 전혀 균일하지 않았고 편향적이었으며; H, J 및 K 아형에 속하는 서열은 드물었고; 특히 vifvpr과 같은 보조단백질에 대하여는, B 아형 이외의 균주들이 너무 희소하여 분류 정확도를 평가할 수 없었다.
[표 1]
HIV-1 M 그룹과 CRF01_AE의 뉴클레오티드 서열에 대한 벤치마크 시험 결과
(a) 여과(filtering) 전의 아형 당 유전자 분절의 수
Figure 112018018246026-pat00002
(b) 이상치 여과(outlierness filtering) 후의 아형 당 유전자 분절의 수(O<2.0)
Figure 112018018246026-pat00003
(c) LANL 표준(gold standard)을 사용한 경우의 여과 전 아형 예측 일치도(%)
Figure 112018018246026-pat00004
(d) LANL 표준을 사용한 경우의 이상치 여과(O<2.0) 후 아형 예측 일치도(%)
Figure 112018018246026-pat00005
(e) 여과 전 혼동표(confusion table)(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00006
(f) 이상치 여과(O<2.0) 후의 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00007
[표 2]
HIV-1 M 그룹과 CRF01_AE의 단백질 서열에 대한 벤치마크 시험 결과
(a) 여과 전의 아형 당 유전자 분절의 수
Figure 112018018246026-pat00008
(b) 이상치 여과 후의 아형 당 유전자 분절의 수(O<2.0)
Figure 112018018246026-pat00009
(c) LANL 표준을 사용한 경우의 여과 전 아형 예측 일치도(%)
Figure 112018018246026-pat00010
(d) LANL 표준을 사용한 경우의 이상치 여과(O<2.0) 후 아형 예측 일치도(%)
Figure 112018018246026-pat00011
(e) 여과 전 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00012
(f) 이상치 여과(O<2.0) 후의 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00013
HCV 서열은 현재 1 내지 6 유전형으로 분류되고 이들의 아형에는 "a" 내지 "k"가 뒤에 붙는다(예를 들면, 1a, 2k, 6h 등). LANL 웹사이트로부터 다운로드 받은 다중 서열 정렬은, 본 발명에서 참조 서열로서 사용될 아형 하나마다 소수의 서열만을 포함하였기 때문에, 본 발명을 아형 수준에서 적용하는 것이 어려웠다. 이러한 유전형들은 서로 대략 등거리에 있기 때문에, 본 발명을 유전형 수준에서 적용하였고, 하나의 유전형으로부터 유래된 모든 아형들을 하나의 그룹으로 묶었다. HCV 뉴클레오티드 및 단백질 시험 서열들에 대한 분석을 각각 표 3(a)와 표 4(a)에 나타내었다.
[표 3]
HCV 뉴클레오티드 서열에 대한 벤치마크 시험 결과
(a) 여과 전의 아형 당 유전자 분절의 수
Figure 112018018246026-pat00014
(b) 이상치 여과 후의 아형 당 유전자 분절의 수(O<2.0)
Figure 112018018246026-pat00015
(c) LANL 표준을 사용한 경우의 여과 전 아형 예측 일치도(%)
Figure 112018018246026-pat00016
(d) LANL 표준을 사용한 경우의 이상치 여과(O<2.0) 후 아형 예측 일치도(%)
Figure 112018018246026-pat00017
(e) 여과 전 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00018
(f) 이상치 여과(O<2.0) 후의 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00019
(g) NCBI 유전형 분석 도구를 사용한 표 3(f)에서의 불일치의 재분석
Figure 112018018246026-pat00020
(h) REGA 유전형 분석 도구를 사용한 표 3(f)에서의 불일치의 재분석
Figure 112018018246026-pat00021
[표 4]
HCV 단백질 서열에 대한 벤치마크 시험 결과
(a) 여과 전의 아형 당 유전자 분절의 수
Figure 112018018246026-pat00022
(b) 이상치 여과 후의 아형 당 유전자 분절의 수(O<2.0)
Figure 112018018246026-pat00023
(c) LANL 표준을 사용한 경우의 여과 전 아형 예측 일치도(%)
Figure 112018018246026-pat00024
(d) LANL 표준을 사용한 경우의 이상치 여과(O<2.0) 후 아형 예측 일치도(%)
Figure 112018018246026-pat00025
(e) 여과 전 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00026
(f) 이상치 여과(O<2.0) 후의 혼동표(좌측은 LANL, 상부는 본 발명의 방법)
Figure 112018018246026-pat00027
MDS 차원의 결정 및 모델의 타당성 평가
판별 모델은 오직 참조 서열만으로 만들어지고, 따라서 이의 타당성은 대개 쿼리 서열 자체와는 무관하다. 반면에, 계통발생학적 신호(phylogenetic signals)는 게놈에 따라 변하기 때문에, 게놈의 어느 유전자 및 어느 부분이 쿼리에 대응하는지는 판별 능력에 있어서 매우 중요하다. 뉴클레오티드 서열에서 주어진 변이성에 대하여, 대응하는 단백질 서열은 음성 선택(negative selection) 또는 양성 선택(positive selection)으로 인하여 매우 다른 변이성을 보여준다. 본 발명자들은 이러한 문제점을 LOOCV 에러율을 사용하여 대처하였으며, 상기 LOOCV 에러율은, 참조 서열의 나머지 부분에 기초한 분류 예측으로부터 잘못 분류된 참조 서열 개수를 세어 측정된다.
먼저, 전체 유전자 분절 각각에 대한 오류율을 조사하여 최적 MDS 차원, k를 구하였다. 그리고 k 값을 갖는 각 유전자 분절의 슬라이딩 윈도우(sliding window)에서의 오류율을 조사하였다. 본 발명의 판별 모델의 분류 능력은 점점 더 높은 k 값에서 상기 서열을 나타냄으로써 증가할 수 있다. 본 발명자들은 k 값을 1 부터 50까지 변화시키면서 LOOCV를 실행하여 오분류 오류율(misclassification error rate)을 조사하였다.
도 3에 나타나 있듯이, 오류율이 급격히 감소하여 k≥10에서는 안정 수준에 이르렀다. HCV 5'-UTR 뉴클레오티드, HIV-1 5'-tat 뉴클레오티드 및 vpr/vpu 단백질 서열을 제외하고, k≥10에서 뛰어난 성능(오류율 < 5%)을 보였다. HCV 5'-UTR은 매우 보존적(conserved)인 것으로 알려져 있고, 유전형을 분류하는 것이 매우 어렵다. HIV-1에 대하여, 짧은 유전자 분절은 일반적으로 더 나쁜 성능을 보였다. k를 10에서 50까지 증가시킬 때 연산 오버헤드(computational overhead)가 주목할 만큼 증가하지 않지만, k가 크면 과적합 상태(overfitting)가 될 수 있다. 따라서, 예측 웹 서버가 k 값을 변경시키는 것을 허용함에도 불구하고, 전체 분석에서 k=10을 사용하였다.
다음에, 슬라이딩 윈도우(10bp 단계에서 100 bp 윈도우 또는 4 aa 단계에서 40 aa 윈도우)에서의 LOOCV 오류율을 측정함으로써 게놈 또는 각 유전자 분절에 대한 판별 능력의 변동을 측정하였다. HIV-1 env 및 HCV e2에 대한 대표적인 플롯이 도 4에 나타나 있다(전체 리스팅에 대해서는 도 8 및 도 9 참조). 몇몇 뚜렷한 피크가 관찰됨에도 불구하고, 일반적으로, 오류율은 상기 유전자 분절에 대하여 상당히 낮았다. HIV-1 env에서의 주피크(dominant peak)는 V3 루프에 상응하고 HCV e2 단백질의 프로파일은 1b 유전형 중에서 서열 변이성을 측정한 엔트로피 플롯과 매우 유사하다. 만일 쿼리 서열이 주로 이러한 영역으로 이루어졌다면, 높은 서열 변이성은 본 발명의 방법이 최적 성능을 내지 못하게 한다. 트리기반(tree-based) 방법에 있어서, 이러한 현상은 혼합 유전형(또는 아형)으로 이루어진 가지들(branches)을 만들게 된다. 이러한 경우에, 군집화 품질에 대한 평가는 모호해진다.
반면에, 본 발명은 몇가지 품질 보증 수단, 즉 LOOCV 오류율, 소속의 사후확률(posterior probability of membership), 및 다차원 공간에서 서열의 분포를 검사할 수 있는 능력을 제공한다. 상기 LOOCV 오류율이 대략 10%인 경우에서조차도, 다른 유전형(또는 아형)에 의한 오염을 무시할만한 다차원 공간의 영역에서 쿼리가 발견된다면 상기 유전형 분석(또는 아형 분석)은 여전히 타당하다.
성능 시험
쿼리의 주요 부분이 양호한 발생계통학적 신호를 포함하는 한, 위에서 제기한 문제점은 심각한 문제는 아니다. 이러한 문제점은, 참조 패널(reference panel)에 포함되지 않은 모든 실제 서열에 대하여 본 발명에 따른 유전형 분석을 실행하고 LOOCV 오류율을 표로 만듦으로써 해결될 수 있다. 표 5는 HIV-1과 HCV의 모든 비재조합 뉴클레오티드 및 단백질 서열에 대하여 본 발명의 방법을 실행한 결과의개요를 보여준다. LOOCV 오류율은 매우 작았고, 평균 및 중간값(median)은 5% 미만이었다. HIV-1 뉴클레오티드 및 HCV 단백질 서열에 대하여, 90%를 초과하는 경우에서 LOOCV 오류율이 3% 미만이었고, 상응하는 HCV 뉴클레오티드 및 HIV-1 단백질 서열의 90% 백분위수(percentile)는 LOOCV 오류율이 10%를 초과하였다.
[표 5]
Figure 112018018246026-pat00028
12009년 1월 20일자 데이터 기준
2주요 분석만 행함(M 그룹 및 CRF01)
3최대사후확률
다음에, 분류에 대한 사후확률을 조사하였는데, 92%를 초과하는 경우에서 0.90 이상의 최대 사후확률을 보였으며, 이는 대부분의 경우에 있어서 명확한 호출(unambiguous call)을 의미한다(표 5). HIV-1 M 그룹 및 CRF01_AE 서열에 대하여 LANL로부터 얻은 데이터에 대한 본 발명에 따른 예측의 총괄 일치율(overall concordance rate)은 95%를 넘었고, HCV에 대한 데이터에 대해서는 93%를 초과하였다(표 5).
HIV-1 및 HCV 뉴클레오티드 서열의 각 유전자 및 유전형(또는 아형)에 대한 일치율이 각각 표 6 및 표 7에 나타나 있다(상세한 사항은 표 1 및 표 3 참조). 예를 들어 H, J 및 K 아형 각각으로부터 2-3개의 참조 서열만이 이용가능한 경우처럼, 어떤 유전자-아형 조합에 있어서 소수의 참조 서열만이 이용가능하다면, 그러한 카테고리에 대한 아형 분류 통계적 모델은 신뢰할 수 없다. 또한, 이러한 카테고리에서 시험 서열은 극히 드물었다(표 1(a) 및 표 3(a)). 상기 아형으로부터 보다 많은 서열을 찾지 않는다면, 이들의 분류에 본 발명을 사용하는 것은 어려운 문제이다.
[표 6]
Figure 112018018246026-pat00029
§주요 분석만 행함(M 그룹 및 CRF01)
정확도(%)는 100×(Matched/Total)로 주어지고, Matched는 본 발명의 방법과 LANL 간에 일치하는 경우의 수이다.
[표 7]
Figure 112018018246026-pat00030
정확도(%)는 100×(Matched/Total)로 주어지고, Matched는 본 발명의 방법과 LANL 간에 일치하는 경우의 수이다.
이상점 여과(Outlier filtering)
쿼리가 대응 참조 서열과 얼마나 잘 군집화하였는지에 대한 지표로서 식 (1)의 O를 이상치(outlierness value)로 제안하여, 상기 이상치의 분포를 조사하였다. O에 대한 밀도 플롯을 보면, 일치 예측(concordant prediction)(실선)에 대해서는 1.0 부근에서 명확한 피크를 보였고, 불일치 예측(discordant prediction)(점선)에 대해서는 10.0까지 긴 꼬리를 보였다(도 5)(관련 히스토그램은 도 10). O=2.0에서의 컷오프(cutoff)로 인하여 일치 예측에 대한 피해를 최소화하면서 분류 오류를 절반 이상 줄이는 것으로 보인다. 총괄 일치율이 이미 매우 높았기 때문에, 뉴클레오티드 서열에 대해서 단지 약간의 향상만이 관찰되었다. 그러나 단백질 서열에 대해서는 보다 주목할 만한 향상이 관찰되었다(표 5). 일치율에 있어서 가장 현저한 향상을 보인 것은 HIV-1 gagpol 단백질 서열(각각 91.3% 및 93.8%에서 92.2% 및 95.2%로 향상) 그리고 HCV e2ns2 단백질 서열(각각 90.6% 및 52.1%에서 91.9% 및 100%로 향상)이었다.
HIV-1 내포 분석 결과 평가
많은 HIV-1 서열이 LANL에 의하여 순환 재조합 형태(CRF)라고 평가되었다. 이러한 8,719개의 서열의 총 9,145개의 뉴클레오티드 유전자 분절에 대하여, 본 발명의 방법에 따른 내포 분석에 의하여 아형을 할당하였다. 각 유전자 분절에 대한 주요 분석을 한 후에, 사후확률이 0.01 보다 큰 아형을 동정하였고 대응하는 참조 서열을 풀(pool)에 수집하였다. 이러한 아형으로부터 유래하는 CRF 참조 서열도 상기 풀에 추가하였다.
다음에, 상기 참조 서열 풀에 기초하여 본 발명의 분류 모델을 수립하여 쿼리 서열에 적용하였다. 각 쿼리에 대하여 참조 서열 풀을 재수집하였다. 총 5,068개의 뉴클레오티드 유전자 분절이 여과 단계를 통과하였고(O≤2.0), 93.6%의 총괄 정확도(overall accuracy)(표 8; 단백질 서열에 대한 통계자료는 표 9)로 명확한 호출을 보였다(사후확률≥0.99). CRF에 대하여 유전자 분절 또는 아형 당 참조 서열의 개수가 많지 않기 때문에 본 명세서의 결과에 대한 정확도는 주의깊게 해석해야 한다는 점을 주목해야 한다.
[표 8]
내포 분석으로부터의 HIV-1 재조합 뉴클레오티드 서열에 대한 벤치마크 시험 결과
Figure 112018018246026-pat00031
[표 9]
내포 분석으로부터의 HIV-1 재조합 단백질 서열에 대한 벤치마크 시험 결과
Figure 112018018246026-pat00032
pol 서열에 대하여 보인 비교적 높은 정확도(표 8 및 표 9)는 고무적인데, 이는 상기 분절의 유전자가 항바이러스 치료의 표적이고 치료 요법을 돕는 최근의 내성 스크리닝이 이러한 서열을 점점 더 많이 생성하기 때문이다.
이러한 성공에도 불구하고, 여전히 여과 단계를 통과하지 못한 서열들이 있다. 분류 도구로서 본 발명은 알려져 있는 아형들 중에 아형을 할당하는 것이고, 따라서 새로운 아형을 탐색하는 것은 아니다.
그러나 본 발명은, 이상치 및 사후확률 집합의 측면에서, 이러한 이상점 서열들의 분석에 대한 중요한 단서들을 제공할 수 있다. 확정적 재조합체 분석(definitive recombinant analysis)에 대하여, 서열에 대한 부트스캐닝 또는 슬라이딩 윈도우 분석이 필요하다.
아형 결정 방법
사후확률(P) 및 이상치(O)와 같은 보고된 파라미터들이 합리적인 경우에만 예측 결과를 수용할 수 있다는 것이 전술한 바로부터 명백하다. 고도로 신뢰성 있는 유전형(또는 아형) 할당을 위해서는 P가 0.99 이상이고 O가 2.0 미만이어야 한다. 이러한 기준을 100,654개의 HCV 뉴클레오티드 유전자 분절 서열에 직접 적용하면 허위 양성률(false positive rate)이 약 2.6%이고, 약 13.6%에 대하여 결정을 하지 못하게 된다.
HIV-1 서열에 대한 아형 결정은 HCV 서열의 유전형 분석만큼 직접적이지 않은데, 이는 HIV-1의 경우에는 재조합 형태에 관한 문제를 처리해야 하기 때문이다. 비재조합체 또는 CRF로 미리 나누어 놓은 HIV-1 서열 집합에 대하여 본 발명은 높은 분류 정확도를 보였다. 실제로, 본 발명자들은 분석 전에 쿼리가 재조합인지 여부를 알지 못했다. HIV-1 서열에 대하여, 본 발명은 '주요' 분석을 실행한 후 '내포' 분석을 실행한다. 다음에, 통계자료를 정렬된 방식으로 정리하기 위하여 자동결정과정이 필요하다. 예를 들면, 상기 주요 분석과 내포 분석의 결과가 서로 다르면, 사용자가 혼란스러울 수 있다. 본 발명의 목적은 예측 범위를 지나치게 손상시키지 않으면서 정확도를 최대화하는 것이다. 전술한 여과 기준에 기초하여, 본 발명자들은 다음과 같은 전략을 제안한다: (i) 내포 분석의 결과에 대한 군집화가 엄밀한 경우(O≤2.0)에만 상기 내포 분석 결과를 수용하고; (ii) 그렇지 않으면, 주요 분석과 내포 분석이 서로 일치하고 이상치들 중 하나가 2.0 이하인 경우에만 결과를 수용하며; 또는 (iii) 이상치가 1.0 이하이고 P 값이 0.99 이상인 경우에만 주요 분석의 결과를 수용한다. 본 발명자들은 LANL로부터 아형 정보를 입수할 수 있는 177,198개의 HIV-1 뉴클레오티드 서열(유전자 분절)에 상기 전략을 적용하였다(표 10 참조). 총 138,452개의 서열이 98.9% 정확도로 상기 (i)단계를 통과하였고, 상기 (i)단계에서 남은 38,746개의 서열에 대하여 적용된 상기 (ii)단계에서 94.6%의 정확도로 27,401개의 서열을 산출하였다. 이러한 결정 과정의 상기 (i) 내지 (iii) 단계를 통하여 총 서열의 94.2%에 대하여 98.0%의 총괄 예상 정확도를 보였고, 10,248개의 서열(5.8%)은 아형 할당을 하지 않았다. 종래의 방법이 정확도를 낮추어 예측 범위를 극대화할 수 있지만, 본 발명은 오분류를 최소화하고 '중간지대(twilight zone)'에 대한 처분을 사용자에게 맡긴다.
[표 10]
HIV-1 뉴클레오티드 유전자 분절에 대한 각 아형 결정 단계의 정확도 및 적용범위(coverage)
Figure 112018018246026-pat00033
*2, 4 및 6번 서열 집합는 각각 (i), (ii) 및 (iii) 결정단계에 상응한다.
비교예
본 발명자들은, HIV-1 서열의 아형 분석과 HCV 유전형 분석에 있어서 LANL 데이터베이스에서 제공하는 사실상 최상 기준과 비교하여 본 발명의 방법의 효과를 검증하였다. 본 방법의 발명은 핵산이나 단백질 양자 모두에 대하여 탁월한 분석 능력을 나타내었으며, 또 기타 다른 자동화 된 유전형(또는 아형) 분석법에 대비할 때 우수하였다.
대부분의 종래의 방법들이, 상당한 불일치를 나타내더라도, 본 발명의 방법과 유사하게 LANL과의 일치율을 보고하고 있다. 그러나 종래의 방법들은 시험 경우 수가 매우 제한적이며, 본 발명의 방법처럼 전장의 염기를 기준으로 하는 것이 아니다. 또한 이제까지 알려진 모든 방법들은 서열정렬 또는 계통분류학 분야에서 이미 잘 알려지고 확립된 핵심 알고리듬에 기초하고 있음에 주목하여야 한다. 그러하므로 이들 종래의 방법을 적절하게 실시하기 위하여는 쿼리 서열이 오직 하나의 유전형(아형)으로 충분하게 집중되어 있는 경우, 쿼리 서열의 분류가 제대로 이루어져야만 한다.
그러므로, 상궤에서 벗어나거나 재조합 서열인 문제가 되는 쿼리 서열을 분석하는 경우에는 이들 방법들간의 차이를 이해하는 것이 매우 중요하다. 일반적으로 활용될 수 있는 시험 패널이 존재하지 아니하기 때문에 본 발명자들 고유의 평가 패널을 형성하였다: 하나의 패널 서열은 본 발명의 방법과 LANL에 서로 일치하지 아니하는 것이었으며 나머지 다른 패널 서열들은 본 발명의 방법을 통계적 이상치로 평가하였다.
본 발명자들은, 가장 복잡한 아형 분석 방법들 중의 하나로 알려진 REGA를 독립적으로 사용하여 시험 결과의 적정성을 평가하였다(표 11 참조). 본 발명의 방법과 REGA의 결과는 일치하였으며 모두 96.6%의 예측 신뢰도를 나타내었다. REGA 모델에서는 문제가 되는 경우를 배제하기 위하여 일련의 체크 포인트를 채택한다. REGA 모델에서는 부트스트랩 값이 너무 낮거나 쿼리 서열이 아형 군집의 외부에 있거나 기저부에 있는 경우 아형 분석이 이루어지지 아니한다.
[표 11]
HIV-1 뉴클레오티드 서열에 대한 본 발명의 방법과 LANL 간의 불일치의 REGA 결과
Figure 112018018246026-pat00034
REGA 모델을 사용하여 결과를 낼 수 없었던 그러한 1,214건의 사안에서 2/3 정도는 REGA 모델의 신뢰도 체크를 통과할 수 없었던 경우들이다. 본 발명의 방법의 통계적 이상치 배제를 통하여도 이와 거의 비슷한 수의 경우들이 배제되었다(O〉2.0). 그러나 이러한 두 가지 배제 결과가 합치되는 것이, 본 방법의 발명으로는 분석되지만 REGA 모델로는 배제되는 414건들 중에서 179건에 이를 만큼 많지는 아니하였다. 비록 모든 HIV-1 벤치 마크 시험 케이스의 0.1%에 불과한 것들이었지만 면밀하게 분석해보면 향후 그러한 케이스가 증가할 것임을 고려하면 중요한 것이 된다. 추측컨대, 이들 경우들이, 소수의 참조 서열에 기반을 둔 아형 분석 방법은 쿼리 서열에 대하여 확정적인 아형 판단을 하지 못하지만 본 발명의 방법은 통계적 유의성을 갖는 예측을 가능케 하는 경우들일 수 있다.
LANL 모델로부터 얻어지는 유전형 분석 결과와 본 발명의 방법으로 예측되는 유전형 분석 결과 간의 혼동표(confusion table)에 의하여 다수의 오분류 사례가 이상치 여과에 저항하는 상황, 예를 들면, 본래 LANL에 의하여 4형 유전형으로 할당된 1,200개 이상의 서열이 본 발명의 방법에 의하여 1형 유전형으로 예측된 상황이 있는 것으로 밝혀졌다(표 3(e) 및 (f)). NCBI 유전형 분석 도구와 REGA를 사용하여 이러한 사례들을 독립적으로 시험한 결과 LANL 결과를 사용한 경우(11% - 13%) 보다 본 발명의 방법을 사용한 경우(85% - 88%)에서 더 높은 일치율을 보였다(표 3(g) 및 (h)). 이러한 경우들은 좀 더 자세히 분석하는 것이 필요하지만 그럼에도 불구하고 본 발명의 방법은 HCV의 유전형 분석에 있어서 성공적이었다.
과돌연변이는 부모로부터 거리가 있는 유사종(quasi-species)을 창출하며, 유전자 일부의 기능을 상실하기도 한다. 본 발명의 방법이 어떻게 그러한 염기서열들을 분류하는지 알게 되면 매우 흥미롭다. 염기서열이 일반에 공개된 데이터베이스에 기탁된 HIV-1의 과돌연변이체에 관한 연구 보고가 14건 있었다. 이러한 2,308건의 염기 서열들 중에서 2,279개의 염기 서열들에 대하여 본 발명의 방법으로 유전형 분석을 시도하였다. 기능이 없는 유전자 부위를 갖는 서열들이 온전한 서열들보다 더 일치하지 아니하는 경향이 있기 때문에 본 발명자들은 동일한 연구 결과로부터 유래되는 두 가지의 그룹간에 발산도(degree of divergence)를 비교해 보고자 하였다. 이상의 14건의 보고서들 중에서 세 건에서 염기 서열들이 비기능성 인지 여부를 나타내고 있다. 본 발명자들은 561개의 비 기능성 염기 서열과 1,519개의 염기 서열에 대하여 통계적 이상치, O를 측정하였다. 도 6에 나타낸 바와 같이 전자는 후자에 비하여 분명하게 높은 O 값을 나타내었다. 이러한 사실은 본 발명의 방법이 과돌연변이의 사전 배제 작업에 매우 효과적임을 보여준다.
이하에서는, 본 발명의 방법과는 다른 종래의 방법들을 사용한 과돌연변이 염기 서열의 유전형 분석을 설명한다. 자니니 등(Janini M, Rogers M, Birx DR, McCutchan FE: Humanimmunodeficiency virus type 1 DNA sequences genetically damaged by hypermutation are often abundant in patient peripheral blood mononuclear cells and may be generated duringnear-simultaneous infection and activation of CD4(+) T cells. J Virol 2001, 75:7973-7986)은 과돌연변이 때문에 비기능성 프로테아제를 암호화하는 297개 염기쌍의 HIV-1 pol 유전자(GenBank 등록번호 AY036374.1과 GI:15192372)를 설명하고 있다. 최초의 GenBank상의 기록은 이 염기 서열을 A형 아형이라고 분류하고 있다. NCBI 유전형 분석 방법에서도 이 염기 서열을 분명한 A형 아형으로 분류하고 있지만, 과돌연변이의 명백한 흔적은 없다. 계통분류학적 가지의 위상형상은 이례적이지만, REGA HIV 아형 분석법은 이 염기서열을 부트스트랩이 약간 높은(74%) A형 아형으로 분류하였다. 본 발명의 방법 역시 높은 신뢰도(P=1.0)로서 이 염기 서열을 A형 아형으로 분류하였으나 공지된 A형 아형 참조 서열보다 열배 이상 거리가 있다(O group =10.56). 735개의 모든 참조 서열들에 의하여 둘러 쌓인 최대 반경과 대비하여 볼 때, 그것은 거의 4배 정도의 발산도(O all =3.99)이었다.

Claims (4)

  1. 다종의 바이러스의 서열의 분류 유형의 정보를 저장하는 하나 이상의 데이터베이스, 사용자의 쿼리 서열의 입력을 수신하는 클라이언트 컴퓨터, 상기 데이터베이스 및 상기 클라이언트 컴퓨터와 연결되고, 프로세서 및 메모리를 포함하는 웹 서버를 포함하는 시스템의 쿼리 서열의 유전형 또는 아형 분류 방법으로서, 상기 웹 서버가
    상기 클라이언트 컴퓨터로부터 상기 쿼리 서열을 수신하는 단계;
    상기 데이터베이스 내에 저장된 분류 유형으로부터, 유전형 또는 아형이 알려진 다종의 바이러스의 염기 서열을 참조 서열로 채택하는 단계;
    상기 참조 서열의 다중 정렬에 있어서의 서열들 간의 거리를 계산하여 거리 행렬을 구하는 단계;
    상기 거리 행렬에 대한 다차원 척도화를 통하여 상기 참조 서열을 군집화하여 얻은 군집에 대하여 판별 분석을 실행하여 상기 참조 서열을 분류하는 판별식을 유도하는 단계;
    상기 판별식에 따라, 동일한 유형의 바이러스에 대하여 레트로바이러스 또는 플라비바이러스 쿼리 서열을 분류하는 단계; 및
    상기 분류된 쿼리 서열을 상기 클라이언트 컴퓨터에게 제공하는 단계를 포함하는, 쿼리 서열의 유전형 또는 아형 분류 방법.
  2. 제1항에 있어서,
    상기 거리 행렬을 구하는 단계는, 상기 서열들 간의 거리를 계산하기 전에, 상기 다중 정렬로부터 삽입-결실 돌연변이(indel)를 제거하는 것을 더 포함하는 것을 특징으로 하는 쿼리 서열의 유전형 또는 아형 분류 방법.
  3. 제1항에 있어서,
    상기 판별식을 유도하는 단계에서, 상기 다차원 척도화는 주요좌표 분석법인 것을 특징으로 하는 쿼리 서열의 유전형 또는 아형 분류 방법.
  4. 제1항에 있어서,
    상기 판별식을 유도하는 단계에서, 상기 판별 분석은 선형 판별 분석 및 이차 판별 분석으로 이루어진 군으로부터 선택되는 것을 특징으로 하는 쿼리 서열의 유전형 또는 아형 분류 방법.
KR1020180020553A 2018-02-21 2018-02-21 쿼리 서열의 유전형 또는 아형 분류 방법 KR101953651B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180020553A KR101953651B1 (ko) 2018-02-21 2018-02-21 쿼리 서열의 유전형 또는 아형 분류 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180020553A KR101953651B1 (ko) 2018-02-21 2018-02-21 쿼리 서열의 유전형 또는 아형 분류 방법

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
KR1020100017999A Division KR20110098400A (ko) 2010-02-26 2010-02-26 쿼리 서열의 유전형 또는 아형 분류 방법

Publications (2)

Publication Number Publication Date
KR20180021055A KR20180021055A (ko) 2018-02-28
KR101953651B1 true KR101953651B1 (ko) 2019-03-04

Family

ID=61401621

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180020553A KR101953651B1 (ko) 2018-02-21 2018-02-21 쿼리 서열의 유전형 또는 아형 분류 방법

Country Status (1)

Country Link
KR (1) KR101953651B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116646010B (zh) * 2023-07-27 2024-03-29 深圳赛陆医疗科技有限公司 人源性病毒检测方法及装置、设备、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Gifford et al., AIDS, Vol. 20, No. 11, pp.1521-1529 (2006. 7. 13.)
Myers et al., Bioinformatics, Vol. 21, No. 17, pp.3535-3540 (2005. 7. 26.)

Also Published As

Publication number Publication date
KR20180021055A (ko) 2018-02-28

Similar Documents

Publication Publication Date Title
US10169532B2 (en) Query sequence genotype or subtype classification method
Zhang et al. Identifying transcriptomic signatures and rules for SARS-CoV-2 infection
Shriner et al. Potential impact of recombination on sitewise approaches for detecting positive natural selection
Mei Probability weighted ensemble transfer learning for predicting interactions between HIV-1 and human proteins
US20020115070A1 (en) Methods and apparatus for analyzing gene expression data
CA2304876A1 (en) Methods for classifying samples and ascertaining previously unknown classes
Tanchotsrinon et al. A high performance prediction of HPV genotypes by Chaos game representation and singular value decomposition
Henningsson et al. DISSEQT—DIStribution-based modeling of SEQuence space Time dynamics
KR101953651B1 (ko) 쿼리 서열의 유전형 또는 아형 분류 방법
Kim et al. A classification approach for genotyping viral sequences based on multidimensional scaling and linear discriminant analysis
Gregory DiRienzo et al. Non‐parametric methods to predict HIV drug susceptibility phenotype from genotype
Afify et al. A comparative study of protein sequences classification-based machine learning methods for COVID-19 virus against HIV-1
CN116469485A (zh) 一种针对多种病毒的新型活性化合物计算筛选方法
Bulla et al. Improving Hidden Markov Models for classification of human immunodeficiency virus-1 subtypes through linear classifier learning
Bozek et al. V3 loop sequence space analysis suggests different evolutionary patterns of CCR5-and CXCR4-tropic HIV
Qu et al. Biogeographical Ancestry Inference from Genotype: A Comparison of Ancestral Informative SNPs and Genome-wide SNPs
Raj et al. Identifying hosts of families of viruses: a machine learning approach
Alipour et al. Leveraging machine learning for taxonomic classification of emerging astroviruses
Tadepalli et al. Anomaly detection-based recognition of near-native protein structures
Babatunde et al. A comparison of Boosting techniques for Classification of Microarray data
Weitschek et al. Classifying bacterial genomes with compact logic formulas on k-Mer frequencies
Aamir et al. Classification of Retroviruses Based on Genomic Data Using RVGC.
EP4239638A1 (en) Method for determining viral contamination
Romero Better understanding genomic architecture with the use of applied statistics and explainable artificial intelligence
Varghaei Studying Genetic Diversity and Evolutionary Pattern in Human Immunodeficiency Virus: Utilizing Sequencing Data and Machine learning

Legal Events

Date Code Title Description
A107 Divisional application of patent
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant