KR20190114989A

KR20190114989A - 암 검출용 프로브 조합

Info

Publication number: KR20190114989A
Application number: KR1020197023143A
Authority: KR
Inventors: 여우위 린; 야춘 왕; 셩타이 청
Original assignee: 티씨엠 바이오테크 인터내셔널 코포레이션
Priority date: 2017-02-07
Filing date: 2018-02-06
Publication date: 2019-10-10
Also published as: CN110573628A; ES2961464T3; EP3580353A1; US20180223380A1; EP3580353A4; KR102327119B1; JP2020503067A; WO2018145627A1; JP6799175B2; TW201833332A; TWI726191B; US11319602B2; CN110573628B; EP3580353B1; SG11201907220UA

Abstract

암을 검출하기 위한 프로브 조합은 부분 B형 간염 바이러스(HBV) 표적화 프로브의 하나 이상의 세트를 포함한다. 부분 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 프로브의 정렬된 세트의 모든 서열이 HBV 유전자형의 게놈의 기준 서열 또는 게놈 상의 동향 반복(DR) 영역과 대응된다. 프로브의 정렬된 세트에서, 각각의 프로브는 프로브의 길이의 일부분이 하나 또는 둘의 인접한 프로브와 중첩된다. 프로브 조합은 암 핫스팟 유전자를 표적화하는 핫스팟 유전자 표적화 프로브의 하나 이상의 세트, 예컨대 CTNNB1, TERT, 및 TP53 유전자, 람다 파지 게놈의 일부를 표적화하는 외인성 유전자 표적화 프로브의 하나 이상의 세트, 및 내인성 유전자를 표적화하는 내인성 유전자 표적화 프로브, 예컨대 GAPDH 및 GdX 유전자를 추가로 포함할 수 있다.

Description

암 검출용 프로브 조합

관련 출원의 상호 참조

본 발명은 2017년 2월 7일자로 출원된 미국 가특허 출원 번호 62/456087의 우선권을 주장하며, 이의 전문은 본원에 참고 인용된다.

본 발명의 분야

본 발명은 프로브 조합, 더욱 구체적으로는 암 검출용 서열 특이적 프로브의 조합에 관한 것이다.

헤파드나비리다에(Hepadnaviridae)는간염, 간세포 암종(HCC) 및 간경변증의 발병과 관련된 것으로 보고된 바 있는 바이러스 패밀리이다. B형 간염 바이러스(HBV)는 헤파드나바이러스 패밀리의 가장 일반적인 구성원 중 하나이며 유전자형 A 내지 J로 분류될 수 있는 소 DNA 바이러스이다. HBV에 감염된 대부분의 성인은 회복할 수 있지만, HBV 감염 환자의 약 5-10%는 바이러스를 제거하지 못하고 만성적으로 감염되게 된다. 만성 HBV 감염자는 HBV가 숙주 게놈으로 통합되어 간세포에서 유전적 및 후성적 변이를 일으킬 수 있기 때문에 HCC가 발병할 위험이 높다.

HBV 통합부 검출을 위한 몇가지 방법이 보고된 바 있다. 예를 들면, 지앙(Jiang)의 "간세포 암종 환자의 게놈으로의 B형 간염 바이러스 통합의 효과"(Genome Res.　(2012) 22,　593-601) 및 성(Sung)의 "간세포 암종에서의 재발성 HBV 통합부의 게놈 전수 조사"(Nature Genetics　(2012) 44,　765-769)에는 HCC 간 샘플에서 HBV 통합부 검출을 위해 전체 게놈 시퀀싱을 이용하는 것으로 개시되었다. 하지만, 이러한 직접 시퀀싱 방법의 효율은 좋지 않았다. 지앙이 보고한 바에 따르면, 각 데이타 세트에 대해 평균 25백만 내지 35백만개 정도의 75-bp 리드를 생성하였고, 지앙의 데이타 세트를 위한 전형적인 HBV의 수 및 접합부 리드는 각각 6백만개 및 단지 400개의 리드였다. 또한, 순환 종양 DNA(ctDNA) 샘플로부터 HBV 통합부를 검출할 수 있는 직접 시퀀싱 기반 연구가 아직 없었다.

나중에, 리(Li)의 "HIVID: 낮은 커버리지 시퀀싱을 이용한 HBV 통합부 검출을 위한 효과적인 방법"(Genomics (2013) 102:4,　338-344)" 및 자오(Zhao)의 "간세포 암종에서의 HBV 통합부의 게놈 및 종양 선호도"(Nature Communications (2016) 7:12992)에는 HBV 통합부의 검출을 위한 HBV 게놈을 서열을 따라 디자인된 서열 포획 프로브의 사용이 개시되었다. 하지만, 리 및 자오는 모두 그들의 프로브의 디자인 근거와 관련하여 분명한 아이디어를 제공하지 못했다. 또한, 리 및 자오에 의해 보고된 프로브의 효율성은 좋지 않았다. 리 및 자오는 모두 평균 인간 비율이 83.7% 정도로 높았고, 평균 HBV 정렬 비율 및 평균 통합부 비율은 각각 0.08% 및 0.01%로 낮았으며, 이는 프로브가 여전히 HBV 통합부 검출에 있어 비효율적이고 비효과적이었음을 시사한다.

본 발명은 프로브 조합 패널, 및 바이러스 DNA 및 바이러스-숙주 접합부를 포획하는 데 있어 고도로 민감하고 효과적인, 이를 이용한 분석 방법론을 제공한다.

본 발명의 실시양태는 암 검출을 위한 프로브 조합을 제공한다. 프로브 조합은 부분 B형 간염 바이러스(HBV) 표적화 프로브의 하나 이상의 세트를 포함한다. 부분 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 정렬된 부분 HBV 표적화 프로브의 전체 서열은 HBV 유전자형의 게놈의 동향 반복(DR; direct repeat) 영역의 기준 서열과 대응된다. 부분 HBV 표적화 프로브의 정렬된 세트에서, 각각의 부분 HBV 표적화 프로브는 부분 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 부분 HBV 표적화 프로브와 중첩된다.

바람직한 실시양태에서, HBV 유전자형은 유전자형 A, 유전자형 B, 유전자형 C, 유전자형 D, 유전자형 E, 유전자형 F, 유전자형 G, 유전자형 H, 유전자형 I 및 유전자형 J를 포함한다.

바람직한 실시양태에서, DR 영역의 기준 서열은 서열번호 3-32를 포함한다.

바람직한 실시양태에서, 프로브 조합은 전체 HBV 표적화 프로브의 하나 이상의 세트를 포함하거나 추가로 포함한다. 전체 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 정렬된 전체 HBV 표적화 프로브의 전체 서열은 HBV 유전자형의 게놈의 기준 서열과 대응된다. 전체 HBV 표적화 프로브의 정렬된 세트에서, 각각의 전체 HBV 표적화 프로브는 전체 HBV 표적화 프로브 중 하나의 길이의 일부분이 하나 또는 둘의 인접한 전체 HBV 표적화 프로브와 중첩된다.

바람직한 실시양태에서, 프로브 조합은 핫스팟 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 핫스팟 유전자 표적화 프로브의 각각의 세트의 서열을 정렬시키는 경우, 정렬된 핫스팟 유전자 표적화 프로브의 전체 서열은 암 핫스팟 유전자의 기준 서열과 대응된다. 핫스팟 유전자 표적화 프로브의 정렬된 세트에서, 각각의 핫스팟 유전자 표적화 프로브는 핫스팟 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 핫스팟 유전자 표적화 프로브와 중첩된다.

바람직한 실시양태에서, 암 핫스팟 유전자는 CTNNB1, TERT, 및 TP53 유전자를 포함한다.

바람직한 실시양태에서, 암 핫스팟 유전자의 기준 서열은 서열번호 33-41을 포함한다.

바람직한 실시양태에서, 프로브 조합은 외인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 외인성 유전자 표적화 프로브의 서열을 정렬시키는 경우, 외인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열은 외인성 유전자의 기준 서열과 대응된다. 외인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 외인성 유전자 표적화 프로브는 외인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 외인성 유전자 표적화 프로브와 중첩된다.

바람직한 실시양태에서, 외인성 유전자는 람다 파지에서 유래한다.

바람직한 실시양태에서, 외인성 유전자의 기준 서열은 서열번호 42-54를 포함한다.

바람직한 실시양태에서, 프로브 조합은 내인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 내인성 유전자 표적화 프로브의 서열을 정렬시키는 경우, 내인성 유전자 표적화 프로브의 정렬된 세트의 서열은 내인성 유전자의 기준 서열과 대응된다. 내인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 내인성 유전자 표적화 프로브는 내인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 내인성 유전자 표적화 프로브와 중첩된다.

바람직한 실시양태에서, 내인성 유전자는 GAPDH 및 GdX 유전자를 포함한다.

바람직한 실시양태에서, 내인성 유전자의 기준 서열은 서열번호 55 및 서열번호 56을 포함한다.

바람직하게는, 각종 실시양태의 프로브 조합에 의해 검출된 암은 간세포 암종을 포함한다.

바람직하게는, 각종 실시양태의 프로브 조합은 HBV에 감염된 대상자의 시료에 대해 수득한 DNA로부터 바이러스-숙주 접합부를 갖는 표적 뉴클레오티드 단편을 포획하는 데 사용된다.

바람직하게는, 시료로부터 수득한 DNA는 대상자의 게놈 DNA 및 순환 종양 DNA(ctDNA)를 포함한다.

바람직하게는, 시료는 생체액 및 간 조직을 포함한다.

요약하면, 전술된 실시양태에 따른 본 발명은 바이러스 감염 및 바이러스 감염 유도 암의 검출을 위한 강력한 다목적 도구를 제공한다. 본 발명의 실시양태는 다양한 유형의 DNA 바이러스 및 바이러스 통합부의 존재를 검출하는 데 적용될 수 있다. 실시양태에 따라 디자인된 프로브 조합은 최적의 바이러스/숙주 서열 커버리지를 보장하고, 유전적 안정성을 고려하며, 이에 따라 고도로 민감하고, 효율적이며, 신뢰성이 있는 것으로 입증된다.

첨부된 도면은 본 발명의 하나 이상의 실시양태를 도시하고, 서술된 설명과 함께, 본 발명의 원리를 설명한다. 가능한 한, 실시양태의 동일 또는 유사 요소를 지칭하기 위해, 도면 전반에 걸쳐 동일 참조 번호를 사용한다.
도 1은 본 발명의 실시양태에 따라 기준 서열을 수득하는 단계를 나타내는 순서도이다;
도 2a 및 2b는 본 발명의 실시양태에 따른 프로브의 디자인 개념을 나타내는 개략도이다;
도 3은 본 발명의 실시양태에 따라 디자인된 프로브의 선택적 하이브리드화를 나타내는 실험 결과이다;
도 4a 및 4b는 본 발명의 실시양태에 따라 디자인된 프로브의 특이성을 나타내는 실험 결과이다;
도 5a는 본 발명의 실시양태에 따라 프로브 조합을 사용하여 쌍을 이룬 종양 게놈 DNA(gDNA) 샘플에서 다양한 유전적 영역에서의 차세대 시퀀싱(NGS) 결과를 나타내는 히트 맵 전환된 막대 차트이다;
도 5b는 본 발명의 실시양태에 따라 프로브 조합을 사용하여 쌍을 이룬 혈장 순환 종양 DNA(ctDNA) 샘플에서 다양한 유전적 영역에서의 NGS 결과를 나타내는 히트 맵 전환된 막대 차트이다;
도 6은 본 발명의 실시양태에 따라 프로브 조합을 사용하여 종양 gDNA 샘플에서 다양한 유전적 영역에서의 NGS 결과를 나타내는 히트 맵 전환된 막대 차트이다;
도 7은 본 발명의 실시양태에 따라 프로브 조합에 의해 하이브리드화된 DNA 샘플의 NGS 통계학을 나타내는 실험 결과이다.
통상적인 실시에 따라, 각종 기술된 피처들은 일정한 비례로 도시되지 않고, 본 개시내용과 관련된 피처를 강조하도록 도시된다. 유사 참조 기호는 도면 및 본문 전반에 걸쳐 유사 요소를 나타낸다.

본 발명은 이하 본 발명의 각종 예시적 실시양태를 도시하는 첨부 도면을 참조하여 보다 완전하게 기술된다. 하지만, 본 발명은 많은 상이한 형태로 구체화될 수 있고, 본원에 제시된 실시양태로 한정되는 것으로 해석해서는 안된다. 오히려, 이러한 실시양태들은 본 개시내용이 철저하며 완전하도록 하게 하고, 당업자에게 본 개시내용의 범위를 충분히 전달하도록 제공된다. 유사 참조 번호는 전반에 걸쳐 유사 요소를 지칭한다.

본원에 사용된 용어는 특정 실시양태를 기술하기 위한 것이고, 본 개시내용을 한정하려는 것이 아니다. 본원에 사용된 바와 같이, 단수 형태("a", "an" 및 "the")는 문맥상 분명히 달리 제시하지 않는 한, 마찬가지로 복수 형태를 포함하는 것을 의도한다. 당업자라면, 용어 "포함하다" 및/또는 "포함하는" 또는 "함유하다" 및/또는 "함유하는" 또는 "갖다" 및/또는 "갖는"은, 본원에 사용되는 경우, 언급된 특징, 영역, 정수, 단계, 조작, 요소 및/또는 성분의 존재 하에 명시되나, 하나 이상의 다른 특징, 영역, 정수, 단계, 조작, 요소, 성분 및/또는 이의 그룹의 존재 또는 첨가를 배제하지 않는다는 것을 이해할 것이다.

당업자라면 용어 "및/또는" 및 "적어도 하나"는 관련하여 나열된 목록 중 하나 이상의 일부 및 모든 조합을 포함하는 것을 이해할 것이다. 또한, 용어 제1, 제2, 제3 등이 각종 요소, 성분, 영역, 부품 및/또는 섹션을 기술하는 데 본원에서 사용될 수 있지만, 이러한 요소, 성분, 영역, 부품 및/또는 섹션은 이러한 용어에 의해 한정되지 않아야 한다는 것을 이해하여야 한다. 이러한 용어는 하나의 요소, 성분, 영역, 층 또는 섹션으로부터 또다른 요소, 성분, 영역, 부품 또는 섹션을 구별하는 것에만 사용된다. 따라서, 하기 논의된 제1 요소, 성분, 영역, 부품 또는 섹션은 본 개시내용의 교시로부터 벗어나지 않고 제2 요소, 성분, 영역, 층 또는 섹션을 지칭할 수 있다.

달리 정의되지 않는 한, 본원에 사용된 모든 용어(기술적 및 과학적 용어 포함)는 본 개시내용이 속하는 분야의 당업자에 의해 일반적으로 이해되는 바와 동일한 의미를 갖는다. 당업자라면, 일반적으로 사용되는 사전에 정의된 것과 같은 용어는 관련 업계 및 본 개시내용의 문맥에서 그 의미와 일치하는 의미를 갖는 것으로 해석되어야 하고, 본원에 명시적으로 정의되지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않아야 한다는 것을 또한 이해할 것이다.

본 발명의 측면은 서열 표적화 프로브의 하나 이상의 세트를 포함하는 프로브 조합을 제공한다. 프로브는 단일 가닥 올리고뉴클레오티드 및 폴리뉴클레오티드, 예컨대 단일 가닥 데옥시리보핵산(ssDNA), 리보핵산(RNA), 및 인공 뉴클레오티드를 포함할 수 있다. 프로브 조합은 바이러스 감염 또는 바이러스 감염 유도된 암, 특히 DNA 바이러스에 의해 야기되거나 이와 관련된 것의 검출에 사용될 수 있다. 일부 실시양태에서, 프로브 조합은 B형 간염 바이러스(HBV), 인체 유두종바이러스(HPV), 엡스타인-바 바이러스(EBV), 헤르페스 바이러스 8(HHV-8), 인간 T-림프영양성 바이러스(HTLV), 메르켈 세포 폴리오마바이러스(MCV), 또는 다른 DNA 바이러스에 의한 감염을 검출하는 데 사용될 수 있다. 다른 실시양태에서, 프로브 조합은 간세포 암종, 간암, 자궁경부암, 음경암, 항문암, 질암, 외음부암, 경구암, 인두암, 비인두암, 두경부암, 림프종, 원발성 삼출 림프종, 위암, 카포시 육종, 메르켈 세포 암종, 또는 DNA 바이러스에 의한 감염과 관련된 다른 암을 검출하는 데 사용될 수 있다.

본 발명의 실시양태에 따르면, 프로브 조합은 전체 바이러스 서열 표적화 프로브의 하나 이상의 세트를 포함한다. 전체 바이러스 서열 표적화 프로브의 각각의 세트의 서열을 정렬시키는 경우, 전체 바이러스 서열 표적화 프로브의 정렬된 세트의 전체 서열은 표적 바이러스의 유전자형의 게놈의 기준 서열과 대응된다. 표적 바이러스는 전술된 DNA 바이러스의 다양한 유전자형을 포함할 수 있다. 예를 들면, HBV가 표적 바이러스인 경우에, 이의 유전자형은 유전자형 A, 유전자형 B, 유전자형 C, 유전자형 D, 유전자형 E, 유전자형 F, 유전자형 G, 유전자형 H, 유전자형 I 및 유전자형 J를 포함할 수 있다. 바이러스 게놈의 기준 서열은 NCBI GenBank로부터 검색될 수 있거나 또는 임상 시료로부터 수득된 서열로부터 산출될 수 있다. 예를 들면, HBV 유전자형 A에 대한 기준 서열은 NCBI GenBank (https://www.ncbi.nlm.nih.gov/genbank/) 수탁 번호 AP007263, HE974383 또는 HE974381로부터 검색될 수 있고; HBV 유전자형 B에 대한 기준 서열은 GenBank 수탁 번호 AB981581, AB602818, 또는 AB554017로부터 검색될 수 있고; HBV 유전자형 C에 대한 기준 서열은 GenBank 수탁 번호 LC360507, AB644287 또는 AB113879로부터 검색될 수 있고; HBV 유전자형 D에 대한 기준 서열은 GenBank 수탁 번호 HE815465, HE974382 또는 AB554024로부터 검색될 수 있고; HBV 유전자형 E에 대한 기준 서열은 GenBank 수탁 번호 HE974380, HE974384, AP007262로부터 검색될 수 있고; HBV 유전자형 F에 대한 기준 서열은 GenBank 수탁 번호 DQ823095, AB036909 또는 AB036920로부터 검색될 수 있고; HBV 유전자형 G에 대한 기준 서열은 GenBank 수탁 번호 AB625342, HE981176 또는 GU563559로부터 검색될 수 있고; HBV 유전자형 H에 대한 기준 서열은 GenBank 수탁 번호 AB298362, AB846650, AB516395로부터 검색될 수 있고; HBV 유전자형 I에 대한 기준 서열은 GenBank 수탁 번호 EU833891, KF214680 또는 KU950741로부터 검색될 수 있고; HBV 유전자형 J에 대한 기준 서열은 GenBank 수탁 번호 AB486012로부터 검색될 수 있다.

예시적 실시양태에서, 프로브 조합은 전체 HBV 표적화 프로브의 2개의 세트를 포함한다. 전체 HBV 표적화 프로브의 하나의 세트의 서열을 정렬시키는 경우, 정렬된 전체 HBV 표적화 프로브의 전체 서열은 HBV 유전자형 B의 게놈(서열번호 1)의 기준 서열과 대응된다. 또한, 전체 HBV 표적화 프로브의 나머지 세트의 서열을 정렬시키는 경우, 정렬된 전체 HBV 표적화 프로브의 전체 서열은 HBV 유전자형 C의 게놈(서열번호 2)의 기준 서열과 대응된다. 예시적 실시양태에서, HBV 게놈의 기준 서열은 도 1에 도시된 바와 같이 수득된다. 단계 S1에서와 같이, DNA는 만성 HBV 감염 환자의 시료, 예컨대 생체액(예, 혈액, 림프, 소변, 땀, 타액, 눈물, 또는 장액) 및 조직(예, 간 조직)으로부터 추출되었다. 추출된 DNA는 환자의 게놈 DNA(gDNA) 및/또는 순환 종양 DNA(ctDNA)를 함유한다. 단계 S2에서와 같이, 추출된 DNA는 NCBI GenBank로부터 검색된 각종 HBV 유전자형의 기지 서열에 따라 시퀀싱되고 분류된다. 예시적 실시양태에서, HBV 유전자형 B 및 HBV 유전자형 C는 대만의 간세포 암종(HCC) 환자 중에서 그 이환율을 위해 선택되었지만; 본 발명의 실시양태는 HBV의 유전자형 B 및 C로만 제한되지 않고, 지속적인 감염을 유발할 수 있는 모든 DNA 바이러스의 다양한 유전자형을 포괄한다. 단계 S3에서와 같이, 선택된 유전자형의 각각의 서열은 클루스탈(Clustal) 알고리즘에 의해 정렬되고 산출되어 서열의 각 위치에서 주요 대립유전자(즉, 가장 공통적인 뉴클레오티드)에 따라 바이러스 유전자형의 공통 서열을 수득한다. 최종적으로, 공통 서열은 바이러스 유전자형의 기준 서열로서 사용된다. 예시적 실시양태에서, HBV 게놈의 기준 서열은 HBV 유전자형 B 또는 C 게놈의 3191개의 염기쌍(bp) 모두를 각각 포괄하는 HBV 유전자형 B 및 유전자형 C의 공통 서열을 포함한다.

실시양태에서, 바이러스 서열 표적화 프로브는, 전체 바이러스 서열 표적화 프로브의 서열을 정렬시키는 경우, 각각의 전체 바이러스 서열 표적화 프로브가 전체 바이러스 서열 표적화 프로브의 길이의 일부분이 바로 인접한 전체 바이러스 서열 표적화 프로브와 중첩되도록 다자인된다. 예시적 실시양태에서, 도 2a에 도시된 바와 같이, 각각의 전체 HBV 표적화 프로브는 전체 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 바로 인접한 전체 HBV 표적화 프로브와 중첩된다. 서열 중첩 부분은 다양할 수 있고, 도 2b에 도시된 바와 같이, 바람직하게는 50%(2X 타일링 밀도로 표시) 또는 75%(4X 타일링 밀도로 표시)이다. 프로브가 2X 타일링 밀도로 길이 120 bp를 연장하도록 디자인되는 예시적 실시양태에 있어서, 각각의 프로브는 60 bp의 바로 인접한 프로브와 중첩된다. 또한, 프로브가 4X 타일링 밀도로 길이 120 bp인 경우, 각각의 프로브는 90 bp의 바로 인접한 프로브와 중첩된다.

추가로, 바이러스 게놈의 구조가 또한 프로브를 디자인할 때 고려될 수 있다. 예시적 실시양태에서, HBV 게놈이 본질적으로 원형인 것을 고려하면, HBV 게놈의 기준 서열의 말단 3191번 위치를 넘어서 연장된 전체 HBV 표적화 프로브의 마지막 프로브는 기준 서열의 시작(즉, 1번 위치)에서 계속되도록 디자인된다. 예를 들면, 길이가 120 bp이고, HBV 게놈의 기준 서열의 3121번 위치에서 시작하는 프로브는 3121-3191번 위치에 상응하는 71-bp 영역, 이어서 1-49번 위치에 상응하는 49-bp 영역으로 이루어진다.

당업자라면 본 발명의 실시양태는 프로브의 길이를 제한하지 않고; 프로브의 길이는 비용, 포획 효율, 감도, 특이성 또는 다른 특정 관심에 따라 디자인될 수 있다는 것을 이해할 것이다. 일부 실시양태에서, 임의의 제시된 기준 서열의 프로브의 가능한 수 또는 양(N)은 하기 식 (1)에 따라 계산될 수 있다.

...(1)

식 1에서, L은 기준 서열의 길이를 나타내고, P는 프로브의 길이를 나타내고, 이는 최소 길이(min으로 표시) 내지 최대 길이(max로 표시)의 범위일 수 있다. 예를 들면, 50 bp 내지 120 bp 범위의 총 220,597개의 프로브가 HBV 유전자형 B 또는 C 게놈의 3191-bp-길이의 기준 서열에 대해 디자인될 수 있다.

본 발명의 실시양태에 따르면, 프로브 조합은 부분 바이러스 서열 표적화 프로브의 하나 이상의 세트를 포함한다. 부분 바이러스 서열 표적화 프로브의 서열을 정렬시키는 경우, 부분 바이러스 서열 표적화 프로브의 정렬된 세트의 전체 서열은 표적 바이러스의 게놈 상의 특정 영역의 기준 서열과 대응된다. 부분 바이러스 서열 표적화 프로브의 정렬된 세트에서, 각각의 부분 바이러스 서열 표적화 프로브는 부분 바이러스 서열 표적화 프로브의 길이의 일부분이 바로 인접한 부분 바이러스 서열 표적화 프로브와 중첩된다. 일부 실시양태에서, 특정 영역은 HBV 게놈 상의 동향 반복 1(DR1)과 동향 반복 2(DR2) 사이의 영역을 포함할 수 있다. 다른 실시양태에서, 특정 영역은 DR1과 DR2 사이의 영역 + 소정의 길이에 도달 하기 위해 상기 영역의 두 단부로부터 연장된 2개의 연장된 영역일 수 있다. 예를 들면, 동향 반복(DR) 영역에 대해 960-bp-길이의 기준 서열을 정의할 때, DR1 및 DR2는 바이러스 게놈 상의 360-370번 및 594-604번 위치에 위치한다고 가정하면, DR 영역의 기준 서열은 영역의 각 단부로부터 360 bp의 추가 연장을 한 DR1과 DR2 사이의 영역으로서 정의될 수 있다. 결과적으로, HBV 유전자형 A 게놈 상의 DR 영역의 기준 서열은 서열번호 3-5일 수 있고; HBV 유전자형 B 게놈 상의 DR 영역의 기준 서열은 서열번호 6-9일 수 있고; HBV 유전자형 C 게놈 상의 DR 영역의 기준 서열은 서열번호 10-13일 수 있고; HBV 유전자형 D 게놈 상의 DR 영역의 기준 서열은 서열번호 14-16일 수 있고; HBV 유전자형 E 게놈 상의 DR 영역의 기준 서열은 서열번호 17-19일 수 있고; HBV 유전자형 F 게놈 상의 DR 영역의 기준 서열은 서열번호 20-22일 수 있고; HBV 유전자형 G 게놈 상의 DR 영역의 기준 서열은 서열번호 23-25일 수 있고; HBV 유전자형 H 게놈 상의 DR 영역의 기준 서열은 서열번호 26-28일 수 있고; HBV 유전자형 게놈 I 상의 DR 영역의 기준 서열은 서열번호 29-31일 수 있고; HBV 유전자형 J 게놈 상의 DR 영역의 기준 서열은 서열번호 32일 수 있다.

예시적 실시양태에서, 프로브 조합은 부분 HBV 표적화 프로브의 두 세트를 포함할 수 있다. 부분 HBV 표적화 프로브의 하나의 세트의 서열을 정렬시키는 경우, 정렬된 부분 HBV 표적화 프로브의 전체 서열은 HBV 유전자형 B의 게놈의 동향 반복(DR) 영역(서열번호 9) 또는 HBV 유전자형 C 게놈의 DR 영역(서열번호 13)의 기준 서열과 대응된다. DR 영역은 1190-2234번 위치, 1231-2190번 위치 또는 HBV 게놈 상의 다른 특정 영역으로서 정의될 수 있다. 전술된 바와 유사하게, 각각의 부분 HBV 표적화 프로브는 부분 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 바로 인접한 부분 HBV 표적화 프로브와 중첩된다. 서열 중첩 부분은, 비제한적으로 50%(즉, 2X 타일링 밀도) 또는 75%(즉, 4X 타일링 밀도)일 수 있다.

DR 영역(서열번호 9, 13)의 기준 서열에 대한 부분 HBV 표적화 프로브의 가능한 수는 전술된 식 (1)에 따라 산출될 수 있다. 예를 들면, 50 bp 내지 120 bp 범위의 총 62,196개의 프로브가 HBV 게놈의 DR 영역의 960-bp-길이 기준 서열에 대해 디자인될 수 있다.

본 발명의 실시양태에 따르면, 프로브 조합은 전체 바이러스 서열 프로브 세트 및 부분 바이러스 서열 프로브 세트를 포함한다. 전체 및 부분 바이러스 서열 프로브는 조합되어 바이러스 게놈의 기준 서열보다 서열 커버리지를 향상시킨다. 예시적 실시양태에서, 부분 HBV 표적화 프로브는 DR 영역에서 전체 HBV 표적화 프로브 사이를 커버하도록 디자인된다. 예를 들면, 전체 HBV 표적화 프로브가 길이 120 bp이고, 1번, 61번, 및 121번 위치(2X 타일링 밀도)에서 시작하는 것으로 가정하면, 2X 타일링을 갖는 부분 HBV 표적화 프로브는 31번, 91번, 및 151번에서 시작한다. 다시 말해, DR 영역은 4X 타일링 밀도(즉, 각 쇄가 그 바로 인접한 쇄의 75%와 중첩됨)로 두 세트의 프로브(즉, 전체 HBV 표적화 프로브 및 부분 HBV 표적화 프로브)에 의해 커버된다.

본 발명의 실시양태에 따르면, 프로브 조합은 핫스팟 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 핫스팟 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 핫스팟 유전자 표적화 프로브의 정렬된 세트의 전체 서열은 암 핫스팟 유전자의 기준 서열과 대응된다. 핫스팟 유전자 표적화 프로브의 정렬된 세트에서, 각각의 핫스팟 유전자 표적화 프로브는 핫스팟 유전자 표적화 프로브의 길이의 일부분이 바로 인접한 핫스팟 유전자 표적화 프로브와 중첩된다. 서열 중첩 부분은, 비제한적으로 50%(즉, 2X 타일링 밀도) 또는 75%(즉, 4X 타일링 밀도)일 수 있다.

암 핫스팟 유전자의 기준 서열은 NCBI 유전자 데이타베이스로부터 검색가능하다. 암 핫스팟 유전자는, 비제한적으로 NCBI 유전자 데이타베이스(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)에 따라 Entrez Gene ID에 의해 확인되는 바와 같이 하기 유전자 중 적어도 하나를 포함할 수 있다: ABL1 (Entrez Gene ID: 25), ABL2 (Entrez Gene ID: 27), ACSL3 (Entrez Gene ID: 2181), AF15Q14 (Entrez Gene ID: 57082), AF1Q (Entrez Gene ID: 10962), AF3p21 (Entrez Gene ID: 51517), AF5q31 (Entrez Gene ID: 27125), AKAP9 (Entrez Gene ID: 10142), AKT1 (Entrez Gene ID: 207), AKT2 (Entrez Gene ID: 208), ALDH2 (Entrez Gene ID: 217), ALK (Entrez Gene ID: 238), ALO17 (Entrez Gene ID: 57674), APC (Entrez Gene ID: 11789), ARHGEF12 (Entrez Gene ID: 23365), ARHH (Entrez Gene ID: 399), ARID1A (Entrez Gene ID: 8289), ARID2 (Entrez Gene ID: 196528), ARNT (Entrez Gene ID: 405), ASPSCR1 (Entrez Gene ID: 79058), ASXL1 (Entrez Gene ID: 171023), ATF1 (Entrez Gene ID: 466), ATIC (Entrez Gene ID: 471), ATM (Entrez Gene ID: 472), ATRX (Entrez Gene ID: 546), BAP1 (Entrez Gene ID: 8314), BCL10 (Entrez Gene ID: 8915), BCL11A (Entrez Gene ID: 53335), BCL11B (Entrez Gene ID: 64919), BCL2 (Entrez Gene ID: 596), BCL3 (Entrez Gene ID: 602), BCL5 (Entrez Gene ID: 603), BCL6 (Entrez Gene ID: 604), BCL7A (Entrez Gene ID: 605), BCL9 (Entrez Gene ID: 607), BCOR (Entrez Gene ID: 54880), BCR (Entrez Gene ID: 613), BHD (Entrez Gene ID: 50947), BIRC3 (Entrez Gene ID: 330), BLM (Entrez Gene ID: 641), BMPRIA (Entrez Gene ID: 12166), BRAF (Entrez Gene ID: 673), BRCA1 (Entrez Gene ID: 672), BRCA2 (Entrez Gene ID: 675), BRD3 (Entrez Gene ID: 8019), BRD4 (Entrez Gene ID: 23476), BRIP1 (Entrez Gene ID: 83990), BTG1 (Entrez Gene ID: 694), BUB1B (Entrez Gene ID: 701), C15orf55 (Entrez Gene ID: 144535), C16orf75 (Entrez Gene ID: 387882), CANT1 (Entrez Gene ID: 124583), CARD11 (Entrez Gene ID: 84433), CARs (Entrez Gene ID: 833), CBFB (Entrez Gene ID: 865), CBL (Entrez Gene ID: 867), CBLB (Entrez Gene ID: 868), CBLC (Entrez Gene ID: 23624), CCNB1IP1 (Entrez Gene ID: 57820), CCND1 (Entrez Gene ID: 595), CCND2 (Entrez Gene ID: 894), CCND3 (Entrez Gene ID: 896), CCNE1 (Entrez Gene ID: 898), CD273 (Entrez Gene ID: 80380), CD274 (Entrez Gene ID: 29126), CD74 (Entrez Gene ID: 972), CD79A (Entrez Gene ID: 973), CD79B (Entrez Gene ID: 974), CDH1 (Entrez Gene ID: 999), CDH11 (Entrez Gene ID: 1009), CDK12 (Entrez Gene ID: 51755), CDK4 (Entrez Gene ID: 1019), CDK6 (Entrez Gene ID: 1021), CDKN2A (Entrez Gene ID: 1029), CDKN2C (Entrez Gene ID: 1031), CDX2 (Entrez Gene ID: 1045), CEBPA (Entrez Gene ID: 1050), CEP1 (Entrez Gene ID: 11064), CHCHD7 (Entrez Gene ID: 79145), CHEK2 (Entrez Gene ID: 11200), CHIC2 (Entrez Gene ID: 26511), CHN1 (Entrez Gene ID: 1123), CIC (Entrez Gene ID: 23152), CIITA (Entrez Gene ID: 4261), CLTC (Entrez Gene ID: 1213), CLTCL1 (Entrez Gene ID: 8218), CMKOR1 (Entrez Gene ID: 57007), CoL1A1 (Entrez Gene ID: 1277), CPBP (Entrez Gene ID: 1316), COX6C (Entrez Gene ID: 1345), CREB1 (Entrez Gene ID: 1385), CREB3L1 (Entrez Gene ID: 90993), CREB3L2 (Entrez Gene ID: 64764), CREBBP (Entrez Gene ID: 1387), CRLF2 (Entrez Gene ID: 64109), CRTC3 (Entrez Gene ID: 64784), CTNNB1 (카테닌 베타 1; Entrez Gene ID: 1499), CYLD (Entrez Gene ID: 1540), D10S170 (Entrez Gene ID: 8030), DAXX (Entrez Gene ID: 1616), DDB2 (Entrez Gene ID: 1643), DDX10 (Entrez Gene ID: 1662), DDX5 (Entrez Gene ID: 1655), DDX6 (Entrez Gene ID: 1656), DEK (Entrez Gene ID: 7913), DICER1 (Entrez Gene ID: 23405), DNMT3A (Entrez Gene ID: 1788), DUX4 (Entrez Gene ID: 100288687), EBF1 (Entrez Gene ID: 1879), EGFR (Entrez Gene ID: 1956), EIF4A2 (Entrez Gene ID: 1974), ELF4 (Entrez Gene ID: 2000), ELK4 (Entrez Gene ID: 2005), ELKS (Entrez Gene ID: 23085), ELL (Entrez Gene ID: 8178), ELN (Entrez Gene ID: 2006), EML4 (Entrez Gene ID: 27436), EP300 (Entrez Gene ID: 2033), EPS15 (Entrez Gene ID: 2060), ERBB2 (Entrez Gene ID: 2064), ERCC2 (Entrez Gene ID: 2068), ERCC3 (Entrez Gene ID: 2071), ERCC4 (Entrez Gene ID: 2072), ERCC5 (Entrez Gene ID: 2073), ERG (Entrez Gene ID: 2078), ETV1 (Entrez Gene ID: 2115), ETV4 (Entrez Gene ID: 2118), ETV5 (Entrez Gene ID: 2119), ETV6 (Entrez Gene ID: 2120), EVI1 (Entrez Gene ID: 2122), EWsR1 (Entrez Gene ID: 2130), EXT1 (Entrez Gene ID: 2131), EXT2 (Entrez Gene ID: 2132), EZH2 (Entrez Gene ID: 2146), FACL6 (Entrez Gene ID: 23305), FAM22A (Entrez Gene ID: 728118), FAM22B (Entrez Gene ID: 729262), FAM46C (Entrez Gene ID: 54855), FANCA (Entrez Gene ID: 2175), FANCC (Entrez Gene ID: 2176), FANCD2 (Entrez Gene ID: 2177), FANCE (Entrez Gene ID: 2178), FANCF (Entrez Gene ID: 2188), FANCG (Entrez Gene ID: 2189), FBXO11 (Entrez Gene ID: 80204), FBXW7 (Entrez Gene ID: 55294), FCGR2B (Entrez Gene ID: 2213), FEV (Entrez Gene ID: 54738), FGFR1 (Entrez Gene ID: 2260), FGFR1OP (Entrez Gene ID: 11116), FGFR2 (Entrez Gene ID: 2263), FGFR3 (Entrez Gene ID: 2261), FH (Entrez Gene ID: 2271), FHIT (Entrez Gene ID: 2272), FIP1L1 (Entrez Gene ID: 81608), FLI1 (Entrez Gene ID: 2313), FLT3 (Entrez Gene ID: 2322), FNBP1 (Entrez Gene ID: 23048), FOXL2 (Entrez Gene ID: 668), FOXO1 (Entrez Gene ID: 2308), FOXO3A (Entrez Gene ID: 2309), FOXP1 (Entrez Gene ID: 27086), FSTL3 (Entrez Gene ID: 10272), FUBP1 (Entrez Gene ID: 8880), FUS (Entrez Gene ID: 2521), FVT1 (Entrez Gene ID: 2531), GAS7 (Entrez Gene ID: 8522), GATA1 (Entrez Gene ID: 2623), GATA2 (Entrez Gene ID: 2624), GATA3 (Entrez Gene ID: 2625), GMPS (Entrez Gene ID: 8833), GNA11 (Entrez Gene ID: 2767), GNAQ (Entrez Gene ID: 2776), GNAS (Entrez Gene ID: 2778), GOLGA5 (Entrez Gene ID: 9950), GOPC (Entrez Gene ID: 57120), GPC3 (Entrez Gene ID: 2719), GPHN (Entrez Gene ID: 10243), GRAF (Entrez Gene ID: 23092), HCMOGT-1 (Entrez Gene ID: 92521), HEAB (Entrez Gene ID: 10978), HERPUD1 (Entrez Gene ID: 9709), HEY1 (Entrez Gene ID: 23462), HIP1 (Entrez Gene ID: 3092), HIST1H4I (Entrez Gene ID: 8294), HLF (Entrez Gene ID: 3131), HLXB9 (Entrez Gene ID: 3110), HMGA1 (Entrez Gene ID: 3159), HMGA2 (Entrez Gene ID: 8091), HNRNPA2B1 (Entrez Gene ID: 3181), HOOK3 (Entrez Gene ID: 84376), HOXA11 (Entrez Gene ID: 3207), HOXA13 (Entrez Gene ID: 3209), HOXA9 (Entrez Gene ID: 3205), HOXC11 (Entrez Gene ID: 3227), HOXC13 (Entrez Gene ID: 3229), HOXD11 (Entrez Gene ID: 3237), HOXD13 (Entrez Gene ID: 3239), HRAS (Entrez Gene ID: 3265), HRPT2 (Entrez Gene ID: 79577), HSPCA (Entrez Gene ID: 3320), HSPCB (Entrez Gene ID: 3326), IDH1 (Entrez Gene ID: 3417), IDH2 (Entrez Gene ID: 3418), IGH@ (Entrez Gene ID: 3492), IGK@ (Entrez Gene ID: 50802), IGL@ (Entrez Gene ID: 3535), IKZF1 (Entrez Gene ID: 10320), IL2 (Entrez Gene ID: 3558), IL21R (Entrez Gene ID: 50615), IL6ST (Entrez Gene ID: 3572), IL7R (Entrez Gene ID: 3575), IRF4 (Entrez Gene ID: 3662), IRTA1 (Entrez Gene ID: 83417), ITK (Entrez Gene ID: 3702), JAK1 (Entrez Gene ID: 3716), JAK2 (Entrez Gene ID: 3717), JAK3 (Entrez Gene ID: 3718), JAZF1 (Entrez Gene ID: 221895), JUN (Entrez Gene ID: 3725), KDR (Entrez Gene ID: 3791), KIAA1549 (Entrez Gene ID: 57670), KIT (Entrez Gene ID: 3815), KLK2 (Entrez Gene ID: 3817), KRAS (Entrez Gene ID: 3845), KTN1 (Entrez Gene ID: 3895), LAF4 (Entrez Gene ID: 3899), LASP1 (Entrez Gene ID: 3927), LCK (Entrez Gene ID: 3932), LCP1 (Entrez Gene ID: 3936), LCX (Entrez Gene ID: 80312), LHFP (Entrez Gene ID: 10186), LIFR (Entrez Gene ID: 3977), LMO1 (Entrez Gene ID: 4004), LMO2 (Entrez Gene ID: 4005), LPP (Entrez Gene ID: 4026), LYL1 (Entrez Gene ID: 4066), MADH4 (Entrez Gene ID: 4089), MAF (Entrez Gene ID: 4094), MAFB (Entrez Gene ID: 9935), MALT1 (Entrez Gene ID: 10892), MAML2 (Entrez Gene ID: 84441), MAP2K4 (Entrez Gene ID: 6416), MDM2 (Entrez Gene ID: 4193), MDM4 (Entrez Gene ID: 4194), MDS1 (Entrez Gene ID: 2122), MDS2 (Entrez Gene ID: 259283), MECT1 (Entrez Gene ID: 23373), MED12 (Entrez Gene ID: 9968), MEN1 (Entrez Gene ID: 4221), MET (Entrez Gene ID: 4233), MITF (Entrez Gene ID: 4286), MKL1 (Entrez Gene ID: 57591), MLF1 (Entrez Gene ID: 4291), MLH1 (Entrez Gene ID: 4292), MLL (Entrez Gene ID: 4297), MLL2 (Entrez Gene ID: 8085), MLL3 (Entrez Gene ID: 58508), MLLT1 (Entrez Gene ID: 4298), MLLT10 (Entrez Gene ID: 8028), MLLT2 (Entrez Gene ID: 4299), MLLT3 (Entrez Gene ID: 4300), MLLT4 (Entrez Gene ID: 4301), MLLT6 (Entrez Gene ID: 4302), MLLT7 (Entrez Gene ID: 4303), MN1 (Entrez Gene ID: 4330), MPL (Entrez Gene ID: 4352), MSF (Entrez Gene ID: 10801), MSH2 (Entrez Gene ID: 4436), MSH6 (Entrez Gene ID: 2956), MsI2 (Entrez Gene ID: 124540), MSN (Entrez Gene ID: 4478), MTCP1 (Entrez Gene ID: 4515), MUC1 (Entrez Gene ID: 4582), MUTYH (Entrez Gene ID: 4595), MYB (Entrez Gene ID: 4602), MYC (Entrez Gene ID: 4609), MYCL1 (Entrez Gene ID: 4610), MYCN (Entrez Gene ID: 4613), MYD88 (Entrez Gene ID: 4615), MYH11 (Entrez Gene ID: 4629), MYH9 (Entrez Gene ID: 4627), MYST4 (Entrez Gene ID: 23522), NACA (Entrez Gene ID: 4666), NBS1 (Entrez Gene ID: 4683), NCOA1 (Entrez Gene ID: 8648), NCOA2 (Entrez Gene ID: 10499), NCOA4 (Entrez Gene ID: 8031), NDRG1 (Entrez Gene ID: 10397), NF1 (Entrez Gene ID: 4763), NF2 (Entrez Gene ID: 4771), NFE2L2 (Entrez Gene ID: 4780), NFIB (Entrez Gene ID: 4781), NFKB2 (Entrez Gene ID: 4791), NIN (Entrez Gene ID: 51199), NKX2-1 (Entrez Gene ID: 7080), NONO (Entrez Gene ID: 4841), NOTCH1 (Entrez Gene ID: 4851), NOTCH2 (Entrez Gene ID: 4853), NPM1 (Entrez Gene ID: 4869), NR4A3 (Entrez Gene ID: 8013), NRAS (Entrez Gene ID: 4893), NSD1 (Entrez Gene ID: 64324), NTRK1 (Entrez Gene ID: 4914), NTRK3 (Entrez Gene ID: 4916), NUMA1 (Entrez Gene ID: 4926), NUP214 (Entrez Gene ID: 8021), NUP98 (Entrez Gene ID: 4928), OLIG2 (Entrez Gene ID: 10215), OMD (Entrez Gene ID: 4958), PAFAHIB2 (Entrez Gene ID: 5049), PALB2 (Entrez Gene ID: 79728), PAX3 (Entrez Gene ID: 5077), PAX5 (Entrez Gene ID: 5079), PAX7 (Entrez Gene ID: 5081), PAX8 (Entrez Gene ID: 7849), PBRM1 (Entrez Gene ID: 55193), PBX1 (Entrez Gene ID: 5087), PCM1 (Entrez Gene ID: 5108), PCSK7 (Entrez Gene ID: 9159), PDE4DIP (Entrez Gene ID: 9659), PDGFB (Entrez Gene ID: 5155), PDGFRA (Entrez Gene ID: 5156), PDGFRB (Entrez Gene ID: 5159), PER1 (Entrez Gene ID: 5187), PHOX2B (Entrez Gene ID: 8929), PICALM (Entrez Gene ID: 8301), PIK3CA (Entrez Gene ID: 5290), PIK3R1 (Entrez Gene ID: 5295), PIM1 (Entrez Gene ID: 5292), PLAG1 (Entrez Gene ID: 5324), PML (Entrez Gene ID: 5371), PMS1 (Entrez Gene ID: 5378), PMS2 (Entrez Gene ID: 5395), PMX1 (Entrez Gene ID: 5396), PNUTL1 (Entrez Gene ID: 5413), POU2AFI (Entrez Gene ID: 5450), POU5F1 (Entrez Gene ID: 5460), PPARG (Entrez Gene ID: 5468), PPP2R1A (Entrez Gene ID: 5518), PRCC (Entrez Gene ID: 5546), PRDM1 (Entrez Gene ID: 639), PRDM16 (Entrez Gene ID: 63976), PRF1 (Entrez Gene ID: 5551), PRKAR1A (Entrez Gene ID: 5573), PRO1073 (Entrez Gene ID: 57018), PSIP2 (Entrez Gene ID: 11168), PTCH (Entrez Gene ID: 5727), PTEN (Entrez Gene ID: 5728), PTPN11 (Entrez Gene ID: 5781), RAB5EP (Entrez Gene ID: 9135), RAD51L1 (Entrez Gene ID: 5890), RAF1 (Entrez Gene ID: 5894), RALGDS (Entrez Gene ID: 5900), RANBP17 (Entrez Gene ID: 64901), RAP1GDS1 (Entrez Gene ID: 5910), RARA (Entrez Gene ID: 5914), RB1 (Entrez Gene ID: 5925), RBM15 (Entrez Gene ID: 64783), RECQL4 (Entrez Gene ID: 9401), REL (Entrez Gene ID: 5966), RET (Entrez Gene ID: 5979), ROS1 (Entrez Gene ID: 6098), RPL22 (Entrez Gene ID: 6146), RPN1 (Entrez Gene ID: 6184), RuNDC2A (Entrez Gene ID: 92017), RUNX1 (Entrez Gene ID: 861), RUNXBP2 (Entrez Gene ID: 7994), SBDS (Entrez Gene ID: 51119), SDH5 (Entrez Gene ID: 54949), SDHB (Entrez Gene ID: 6390), SDHC (Entrez Gene ID: 6391), SDHD (Entrez Gene ID: 6392), SEPT6 (Entrez Gene ID: 23157), SET (Entrez Gene ID: 6418), SETD2 (Entrez Gene ID: 29072), SF3B1 (Entrez Gene ID: 23451), SFPQ (Entrez Gene ID: 6421), SFRS3 (Entrez Gene ID: 6428), SH3GL1 (Entrez Gene ID: 6455), SIL (Entrez Gene ID: 6491), SLC45A3 (Entrez Gene ID: 85414), SMARCA4 (Entrez Gene ID: 6597), SMARCB1 (Entrez Gene ID: 6598), SMO (Entrez Gene ID: 6608), SOCS1 (Entrez Gene ID: 8651), SOX2 (Entrez Gene ID: 6657), SRGAP3 (Entrez Gene ID: 9901), SRSF2 (Entrez Gene ID: 6427), SS18L1 (Entrez Gene ID: 26039), SSH3BP1 (Entrez Gene ID: 10006), SSX1 (Entrez Gene ID: 6756), SSX2 (Entrez Gene ID: 6757), SSX4 (Entrez Gene ID: 6759), STK11 (Entrez Gene ID: 6794), STL (Entrez Gene ID: 7955), SUFU (Entrez Gene ID: 51684), SUZ12 (Entrez Gene ID: 23512), SYK (Entrez Gene ID: 6850), TAF15 (Entrez Gene ID: 8148), TAL1 (Entrez Gene ID: 6886), TAL2 (Entrez Gene ID: 6887), TCEA1 (Entrez Gene ID: 6917), TCF1 (Entrez Gene ID: 6927), TCF12 (Entrez Gene ID: 6938), TCF3 (Entrez Gene ID: 6929), TCF7L2 (Entrez Gene ID: 6934), TCL1A (Entrez Gene ID: 8115), TCL6 (Entrez Gene ID: 27004), TET2 (Entrez Gene ID: 54790), TERT (텔로머라아제 역전사효소; Entrez Gene ID: 7015), TFE3 (Entrez Gene ID: 7030), TFEB (Entrez Gene ID: 7942), TFG (Entrez Gene ID: 10342), TFPT (Entrez Gene ID: 29844), TFRC (Entrez Gene ID: 7037), THRAP3 (Entrez Gene ID: 9967), TIF1 (Entrez Gene ID: 8805), TLX1 (Entrez Gene ID: 3195), TLX3 (Entrez Gene ID: 30012), TMPRSS2 (Entrez Gene ID: 7113), TNFAIP3 (Entrez Gene ID: 7128), TNFRSF14 (Entrez Gene ID: 8764), TNFRSF17 (Entrez Gene ID: 608), TNFRSF6 (Entrez Gene ID: 355), TOP1 (Entrez Gene ID: 7150), TP53 (종양 단백질 p53; Entrez Gene ID: 7157), TPM3 (Entrez Gene ID: 7170), TPM4 (Entrez Gene ID: 7171), TPR (Entrez Gene ID: 7175), TRA@ (Entrez Gene ID: 6955), TRB@ (Entrez Gene ID: 6957), TRD@ (Entrez Gene ID: 6964), TRIM27 (Entrez Gene ID: 5987), TRIM33 (Entrez Gene ID: 51592), TRIP11 (Entrez Gene ID: 9321), TSC1 (Entrez Gene ID: 7248), TSC2 (Entrez Gene ID: 7249), TSHR (Entrez Gene ID: 7253), TTL (Entrez Gene ID: 150465), U2AF1 (Entrez Gene ID: 7307), USP6 (Entrez Gene ID: 9098), VHL (Entrez Gene ID: 7428), WAS (Entrez Gene ID: 7454), WHSC1 (Entrez Gene ID: 7468), WHSC1L1 (Entrez Gene ID: 54904), WIF1 (Entrez Gene ID: 11197), WRN (Entrez Gene ID: 7486), WT1 (Entrez Gene ID: 7490), WTX (Entrez Gene ID: 139285), XPA (Entrez Gene ID: 7507), XPC (Entrez Gene ID: 7508), XPO1 (Entrez Gene ID: 7514), YWHAE (Entrez Gene ID: 7531), ZNF145 (Entrez Gene ID: 7704), ZNF198 (Entrez Gene ID: 7750), ZNF278 (Entrez Gene ID: 23598), ZNF331 (Entrez Gene ID: 55422), ZNF384 (Entrez Gene ID: 171017), ZNF521 (Entrez Gene ID: 25925), ZNF9 (Entrez Gene ID: 7555), and ZRSR2 (Entrez Gene ID: 8233)

실시양태에서, 선택된 암 핫스팟 유전자의 기준 서열의 말단 영역(예, 첫 60 bp 및 마지막 60 bp)이 단일 프로브에 의해서만 커버되고, 2X 타일링 경우 2개의 프로브로 커버되는 비말단 영역과 비교하여 더 낮은 포획 효율을 유도할 수 있다는 것을 고려할 때, 암 핫스팟 유전자의 기준 서열은 서열의 양 말단을 넘어 연장될 수 있다. 예를 들면, CTNNB1 유전자의 엑손 3은 길이가 228 bp이고; 서열의 두 말단에서의 75 bp의 연장은 CTNNB1 엑손 3(서열번호 33)의 378-bp-길이 기준 서열을 유도한다. 암 핫스팟 유전자의 다른 기준 서열은 유사한 방식으로 디자인될 수도 있다. 또한, 엑손의 연장된 영역(들)이 이의 인접한 엑속 또는 연장된 영역과 중첩되는 경우, 2개의 연장된 기준 서열은 엑손과 모든 연장된 영역을 커버하는 단일 기준 서열로 통합될 수 있다.

암 핫스팟 유전자에 대한 핫스팟 유전자 표적화 프로브의 가능한 수는 전술된 식 (1)에 따라 산출될 수 있다. 예를 들면, 50 bp 내지 120 bp 범위의 총 20,874개의 프로브가 CTNNB1 엑손 3(서열번호 33)의 378-bp-길이 기준 서열을 위해 디자인될 수 있다. 또한, 50-120 bp 범위의 총 41,819개의 프로브가 TERT 프로모터(서열번호 34)의 673-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 bp 범위의 총 49,345개의 프로브가 TP53 엑손 2/3/4(서열번호 35)의 779-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 bp 범위의 총 31,524개의 프로브가 TP53 엑손 5/6(서열번호 36)의 528-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 범위의 총 12,496개의 프로브가 TP53 엑손 7(서열번호 37)의 260-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 bp 범위의 총 26,199개의 프로브가 TP53 엑손 8/9(서열번호 39)의 453-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 bp 범위의 총 12,283개의 프로브가 TP53 엑손 10(서열번호 40)의 257-bp-길이 기준 서열을 위해 디자인될 수 있다. 50-120 bp 범위의 총 10,508개의 프로브가 TP53 엑손 11(서열번호 41)의 232-bp-길이 기준 서열을 위해 디자인될 수 있다.

본 발명의 실시양태에 따르면, 프로브 조합은 음성 대조군 및 정량을 위한 외인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 외인성 유전자 표적화 프로브의 세트 중 하나의 서열을 정렬시키는 경우, 외인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열은 외인성 유전자의 기준 서열과 대응된다. 외인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 외인성 유전자 표적화 프로브는 외인성 유전자 표적화 프로브의 길이의 일부분이 바로 인접한 외인성 유전자 표적화 프로브와 중첩된다. 서열 중첩 부분은, 비제한적으로 50%(즉, 2X 타일링 밀도) 또는 75%(즉, 4X 타일링 밀도)일 수 있다.

외인성 유전자의 기준 서열은 NCBI 유전자 데이타베이스로부터 검색가능하다. 외인성 유전자는 람다 파지, 이.콜라이(E.coli), 효모, φX174, 또는 다른 일반적인 미생물에서 유래할 수 있다. 외인성 유전자에 대한 외인성 유전자 표적화 프로브의 가능한 수는 전술된 식 (1)에 따라 산출될 수 있다. 예를 들면, 총 478,682개의 프로브는 람다 파지 게놈(GenBank 수탁 번호 NC_001416)의 48502-bp-길이 기준 서열에 대한 서열일 수 있다.

실시양태에서, 외인성 유전자 표적화 프로브의 서열에 상응하는 뉴클레오티드 단편의 외부 공급원(예, 스파이크인(spike-in) DNA)이 필요하다. 다시 말해, 인간 게놈이, 그의 간염 B 또는 HCC 상황과 무관하게, 외인성 유전자 표적화 프로브의 서열과 유사한 게놈 영역을 함유하지 않기 때문에, 외인성 유전자 표적화 프로브는, 외인성 유전자 표적화 프로브의 서열에 상응한 뉴클레오티드 단편이 검출 과정 동안 외부에서 첨가되지 않는다면 이론적으로 인간 샘플의 게놈(gDNA) 또는 순환 종양 DNA(ctDNA)로부터 어떠한 뉴클레오티드 단편도 포획하지 않는다. 외인성 유전자 표적화 프로브에 의해 포획된 모든 뉴클레오티드 단편이 이론적으로 외부에서 첨가된 뉴클레오티드 단편이기 때문에, 외부에서 첨가된 뉴클레오티드 단편의 양 및 질은 조작될 수 있으므로, 이에 따라 절대 정량에 대한 신뢰성있는 수단을 제공한다.

예시적 실시양태에서, 람다 파지 게놈(서열번호 42-45) 상의 4개의 120-bp 영역이 하기 선별 기준에 따라 람다 표적화 프로브를 디자인하기 위해 선택되었다: a) 인간 또는 HBV 게놈과의 상동성 없음; b) 람다 파지 게놈 중 유일함; c) 소정 범위 내의 GC 함량; d) 긴 모노머 서열 없음(예, AAAAA); 및/또는 e) 프라이머3, 네트프라이머, 및 다른 프라이머 디자인 알고리즘에 의해 예측된 유의적인 2차 구조가 없음. 하기 표 1에 예시된 바와 같이, 전체 HBV 표적화 프로브, 부분 HBV 표적화 프로브, 핫스팟 유전자 표적화 프로브, 및 외인성 유전자 표적화 프로브는 바이러스-숙주 접합부 유무에 관계 없이 HBV DNA를 함유하는 표적 뉴클레오티드 단편을 포획하는 데 조합하여 사용될 수 있다.

하기 표 2에 제시된 또다른 예시적 실시양태에 있어서, 추가의 람다 표적화 프로브는 2X 또는 4X 타일링 밀도에서 4개의 120-bp 영역(서열번호 46-49) 중 하나의 하류에서 연장된 영역을 커버하도록 디자인될 수 있다. 람다 표적화 프로브의 추가의 세트 (또는 카피)는 또한 HBV 표적화 프로브의 2개의 카피(2N)(하나는 유전자형 B 및 다른 하나는 유전자형 C) 및 핫스팟 유전자 표적화 프로브의 1개의 카피(1N)를 시뮬레이션하는 데 사용될 수 있으며, 이에 따라 람다 게놈 상의 연장된 영역에 상응하는 2X/1N, 2X/2N, 4X/1N, 및 4X/2N 람다 표적화 프로브의 조합을 유도한다.

추가로, GC 함량은 낮은 GC 비율(GC=0.3, 커버리지=0.6X), 최적의 GC 비율(GC=0.48, 커버리지=1.3X), 및 높은 GC 비율(0.7, 커버리지=0.4X)을 갖는 샘플 중에서 대략 3배 차이를 나타내는 시퀀싱 커버리지에 영향을 미치는 것으로 보고되었다. 따라서, 상기 표 2에 나타낸 바와 같이, 람다 표적화 프로브의 추가 세트는 또한 프로브의 GC 함량을 내부적으로 제어하도록 디자인될 수 있다. 람다 파지 게놈(서열번호 50-54) 상의 5개의 120-bp 영역은 하기 선별 기준에 따라 선택되었다: a) 인간 또는 HBV 게놈과의 상동성 없음; b) 람다 파지 게놈 중 유일함; c) 소정 범위 내의 GC 함량; d) 긴 모노머 서열 없음(예, AAAAA); 및 e) 프라이머3, 네트프라이머, 및 다른 프라이머 디자인 알고리즘에 의해 예측된 유의적인 2차 구조가 없음. 결과적으로, 0.3, 0.4, 0.5, 0.6, 및 0.68의 GC 함량을 가진 5개의 120-bp-길이 영역은 람다 표적화 프로브의 5개의 추가 세트(1X/1N)를 디자인하기 위해 선택된다.

본 발명의 실시양태에 따르면, 프로브 조합은 양성 내부 대조군 및 상대 정량을 위한 내인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함한다. 내인성 유전자 표적화 프로브의 세트 중 하나의 서열을 정렬시키는 경우, 내인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열은 내인성 유전자의 기준 서열과 대응된다. 내인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 내인성 유전자 표적화 프로브는 내인성 유전자 표적화 프로브의 길이의 일부분이 바로 인접한 내인성 유전자 표적화 프로브와 중첩된다. 서열 중첩 부분은, 비제한적으로 50%(즉, 2X 타일링 밀도) 또는 75%(즉, 4X 타일링 밀도)일 수 있다.

내인성 유전자의 기준 서열은 NCBI 유전자 데이타베이스로부터 검색가능하다. 실시양태에서, 내인성 유전자는 인간 게놈의 내재적인 것이며, 비제한적으로 NCBI 유전자 데이타베이스(www.ncbi.nlm.nih.gov/entrez/query.fcgi?db=gene)에 따라 Entrez Gene ID에 의해 확인되는 바와 같이, 하기 유전자 중 적어도 하나를 포함할 수 있다: GAPDH(글리세랄데하이드-3-포스페이트 데히드로게나아제; Entrez Gene ID: 2597), UBL4A (유비퀴틴 유사 4A; GdX; Entrez Gene ID: 8266), HPRT1 (Entrez Gene ID: 3251), TBP (Entrez Gene ID: 6908), B2M (Entrez Gene ID: 567), RPL13A (Entrez Gene ID: 23521), RN18S1 (Entrez Gene ID: 100008588), C1orf43 (Entrez Gene ID: 25912), CHMP2A (Entrez Gene ID: 27243), EMC7 (Entrez Gene ID: 56851), GPI (Entrez Gene ID: 2821), PSMB2 (Entrez Gene ID: 5690), PSMB4 (Entrez Gene ID: 5692), RAB7A (Entrez Gene ID: 7879), REEP5 (Entrez Gene ID: 7905), SNRPD3 (Entrez Gene ID: 6634), VCP (Entrez Gene ID: 7415), VPS29 (Entrez Gene ID: 51699), ACTB (Entrez Gene ID: 60), PPIA (Entrez Gene ID: 5478), GUSB (Entrez Gene ID: 2990), HSP90AB1 (Entrez Gene ID: 3326), RPLP0 (Entrez Gene ID: 6175), TFRC (Entrez Gene ID: 7037), UBC (Entrez Gene ID: 7316).

내인성 유전자를 위한 내인성 유전자 표적화 프로브의 가능한 수는 전술된 식 (1)에 따라 산출될 수 있다. 예를 들면, 50 bp 내지 120 bp 범위의 총 113,458개의 프로브가 GAPDH 유전자의 1682-bp-길이 기준 서열을 위해 디자인될 수 있다. 또한, 50 bp 내지 120 bp 범위의 총 248,429개의 프로브는 GdX 유전자의 3583-bp-길이 기준 서열을 위해 디자인될 수 있다.

실시양태에서, 내인성 유전자는 서열 검출의 신뢰성을 향상시키기 위해 선택되고; 즉, 내인성 유전자는 안정하게 발현되고 종양에서 변이가 발견되지 않은 공통 가사 유전자로 채택된다. 당업자라면 암 핫스팟 유전자만의 검출에 따른 정량은 암 핫스팟 유전자, 예컨대 CTNNB1, TP53, TERT, 및 상기 나열된 다른 암 관련 유전자의 구조적 변이로서 신뢰성이 없을 수 있고, 종양 샘플에서 보고되었으며 결실, 복제, 또는 다른 구조적 변이로 인한 종양형성시 이의 카피수가 변할 수 있다는 것을 이해할 수 있다. 따라서, 상기 표 2에 제시된 예시적 실시양태에 있어서, 2X 타일링 밀도에서 GAPDH 유전자(서열번호 55) 상의 프로브 표적화 240-bp 영역 및 2X 타일링에서 GdX 유전자(서열번호 56)의 프로브 표적화 240-bp 영역이 내부 대조군으로서 프로브 조합에 포함된다. GAPDH 및 GdX 유전자 상의 240-bp 영역은 소정의 영역으로부터 HBV 게놈, 긴 모노머, 유의적인 2차 구조, 또는 GC 함량에 대한 상동성을 갖지 않는다. GdX 유전자를 채택하는 것의 추가 장점은 GdX가 또한 테스트 대상자의 성별을 확인하는 데에도 사용될 수 있다는 점이다.

본 발명의 일부 실시양태에서, 프로브는 각각 검출 및 정량을 용이하게 하기 위해 마커 분자로 표지된다. 마커 분자는, 비제한적으로 비오틴, 형광 단백질, 발광 단백질, 항체, 방사성 화합물, 또는 이의 임의의 조합을 포함할 수 있다..

본 발명의 또다른 측면은 DNA 바이러스에 의한 감염(예, HBV, HPV, EBV, HHV-8, HTLV, MCV, 또는 다른 DNA 바이러스) 또는 바이러스 감염 관련 암(예, 간세포 암종, 자궁경부암, 비인두암, 림프종, 메르켈 세포 암종, 또는 DNA 바이러스에 의한 감염과 관련된 다른 암)을 검출하기 위한 방법을 제공한다. 실시양태에서, 상기 방법은 대상자의 시료로부터 핵산을 추출하는 단계; 핵산을 증폭하는 단계; 핵산과, 상기 언급된 각종 실시양태에 따른 프로브 조합을 하이브리드화하여 표적 뉴클레오티드 단편을 포획하는 단계; 표적 뉴클레오티드 단편을 시퀀싱하는 단계; 및 표적 뉴클레오티드 단편을 분석하는 단계를 포함한다.

실시양태에서, 핵산은 바이러스 핵산, 숙주 게놈 핵산, 및 바이러스-숙주 접합부를 갖는 핵산을 포함할 수 있고, DNA, RNA, 또는 폴리뉴클레오티드일 수 있다. 핵산의 추출은 침전, 크로마토그래피 및/또는 자성 비드 포획에 의해 수행될 수 있다. 핵산이 추출된 시료는 생체액(예, 혈액, 땀, 타액, 눈물, 소변, 림프, 또는 장액) 또는 조직(예, 간 조직)일 수 있다. 추출된 핵산의 증폭은 DNA 클로닝, 중합효소 연쇄반응(PCR), 역전사 PCR(RT-PCR), 네스티드 PCR, 정량(qPCR) 및/또는 디지털 PCR에 의해 수행될 수 있다. 표적 뉴클레오티드 단편은 하이브리드화(예, 서던 블롯 하이브리드화, 계내 하이브리드화, 또는 노던 블롯 하이브리드화) 및/또는 록다운(예, 비드 기반 방법 또는 칩 기반 방법)을 통한 프로브 조합에 의해 포획될 수 있다. 포획된 표적 핵산은 NGS(예, 초병렬 시퀀싱, 단일 분자 시퀀싱, 또는 나노스트링(NanoString)). 맥심-길버트(Maxam-Gilbert) 시퀀싱, 생어(Sanger) 시퀀싱, 파이로시퀀싱, 및/또는 DNA 마이크로어레이에 의해 시퀀싱될 수 있다.

대안적인 실시양태에서, 증폭 단계 및 하이브리드화 단계는 역전될 수 있다. 다시 말해, 본 발명의 또다른 실시양태에 따른 방법은 피험자의 시료로부터 핵산을 추출하는 단계; 핵산과 본 발명의 다양한 실시양태에 따른 프로브 조합을 하이브리드화하여 표적 뉴클레오티드 단편을 포획하는 단계; 포획된 표적 뉴클레오티드 단편을 증폭시키는 단계; 표적 뉴클레오티드 단편을 시퀀싱하는 단계; 및 표적 뉴클레오티드 단편을 분석하는 단계를 포함한다.

프로브 조합에 의해 포획된 표적 핵산의 분석 및 정량은 다음과 같이 수행될 수 있다. 원시 리드(RR: raw read)는 NGS 시퀀싱 기기로부터 직접 생성된다. 원시 리드 중 저품질의 리드는 고품질 리드(HQR)를 얻기 위해 제외된다. HQR은 고유 리드(UR)로 압축되고; 다시 말해, 완전히 동일한 서열을 갖는 HQR은 단일 고유 리드로 축약되고, 이의 카피수(중복성)와 관련된 정보가 보유된다. 최종적으로, 중복성이 낮은 UR은　고 중복성 고유 리드(HRUR)를 유도하기 위해 제외된다. 또한, 고 중복성 고유 리드에 포함된 리드(RiHRUR)의 총 수는 압축 프로세스 동안 보유된 중복성 정보에 의해 산출될 수 있다.

실시양태에서, NGS 데이타 세트를 분석하는 데 채택된 생물정보학 분석 방법론은 하기 표 3에 요약된다.

상기 표 3은 또한 본 실시양태의 방법론과 자오에 의해 보고된 것을 비교하고 있다. 표 3에 제시된 바와 같이, 둘 사이의 일부 주요 차이점은 다음을 포함한다: 자오는 부근의 접합부를 병합하지만, 본 실시양태의 방법론은 서열 유사성을 기초로 접합부를 병합한다. 또한, 자오는 고유 접합부만을 고려하여 복사된 리드를 제거하지만, 본 실시양태의 방법론은 5 미만의 중복성을 가진 리드를 제외하고, 중복 정보를 보유하고, 단일 고유 접합부에 대한 리드의 총 수를 기초로 접합부를 정량화한다.

프로브 특이성의 유효성

본 발명의 실시양태에 따라 디자인된 프로브 표적화 TP53 엑손 2-11(서열번호 35-38, 40-41)은 HCC 환자의 HCC 종양 게놈 DNA(gDNA), 비종양 gDNA, 및 ctDNA에 의해 하이브리드화되었고 qPCR에 의해 정량화되었다. 척추동물 중에 보존되고 간에서 고도로 발현되는 마이크로RNA miR-122는 또한 음성 대조군으로 정량화되었다.

상기 표 4에서 입증된 바와 같이, 세가지 샘플 유형 모두에서 miR-122보다 TP53의 유의적으로 높은 하이브리드화후 보존율은 TP53 단편이 TP53 표적 프로브에 의해 성공적으로 하이브리드화되었고, 포획되었고, 회수되었으며; 그에 반해, TP53 표적 프로브는 miR-122에 대한 특이성이 없기 때문에 절차 중 miR-122 단편이 씻겨나갔음을 나타낸다. 표 4는 또한 게놈 DNA로부터 TP53 표적 프로브에 의해 포획된 TP53 단편의 양이 miR-122 단편보다 250배 이상 높고, ctDNA로부터 포획된 TP53 단편이 miR-122 단편보다 10배 이상 농축되었음을 나타낸다. 이 결과는 TP53 표적 프로브가 서열 특이적이며 DNA 샘플로부터 TP53 유전자 단편을 선택적으로 포획할 수 있다는 것을 입증하였다.

한편, 표 5에 제시된 바와 같이, 총 26개의 HCC 종양 gDNA 샘플을, 상기 표 1에 나열된 프로브 조합에 의해 농후화시키고, HBV 게놈, HBV-인간 접합부("접합부"로 표시) 및 암 핫스팟 유전자(CTNNB1, TERT, 및 TP53 포함)의 존재의 분석을 위해 차세대 시퀀싱(NGS)으로 시퀀싱하였다. HBV-인간 접합부는 인간 게놈 내의 HBV 통합부를 나타낸다. 표 5의 숙주 게놈 비율은 인간 게놈에 대해 포획된 서열의 산출된 길이 비율이다. 표 5에서 입증되는 바와 같이, 산출된 숙주 게놈 비율과 관찰된 NGS 리드 비율 간의 유의적 차이는 프로브 조합에 의한 HBV 게놈, 암 핫스팟 유전자 및 HBV-인간 접합부의 성공적인 농후화를 나타내었다.

당업자라면 숙주 게놈에 있어서 추정된 3 kb 접합부 길이는 단일 접합부가 150 bp의 검출 범위를 갖는 것으로 추정함으로써 산출되었다는 것을 이해할 것이다. 따라서, 두개의 접합부를 유도하는 단일 통합 사건은 300 bp의 접합부 영역으로 표시된다. 환자당 10개의 검출가능한 접합부의 개략적 추정을 사용하여, 개별 환자의 추정된 접합부 길이는 3 kb(즉, 300 bp × 10)로 설정되었다. 이후 통합된 HBV(자유형 비통합 HBV 제외)의 길이는 32.15 kb(즉, 3.215 kb × 10)로 추정되었다. 본원에 제시된 인간 게놈의 접합부 및 HBV 비율의 추정은 매우 대략적이며 대부분 과다추정일 가능성이 있으며, 접합부 및 HBV의 농후화 효율을 과소 추정하게 된다.

이하 도 3에 따르면. 본 발명의 실시양태에 따라 디자인된 접합부 표적 프로브는 특이적 바이러스-숙주 접합부를 갖는 DNA 단편을 선택적으로 포획하는 것으로 입증된다. HCC 종양 gDNA 샘플은 세명의 HCC 환자(pt3, pt11 및 pt15로 표시)의 종양(T로 표시) 및 비종양(N으로 표시) 조직으로부터 수집되고, 각각 pt3 및 pt11에서 HBV-인간 접합부의 서열에 따라 디자인된 프로브 1(pt3 접합부로 표시) 및 프로브 2(pt11 접합부로 표시)와 하이브리드화되었다. 도 3에 도시된 웨스턴 블롯 분석은 프로브 1이 환자 pt3의 종양 gDNA와 선택적으로 하이브리화되고 프로브 2가 환자 pt11의 종양 gDNA와 선택적으로 하이브리드화된 것을 나타내었다. NTC는 "템플릿 대조군 없음"을 나타내고 실험에 음성 대조군으로 사용되는 반면; PBGD(즉, 포르포빌리노겐 데아미나아제 유전자) 및 miR-122는 양성 대조군으로 사용되었다.

이하, 도 4a 및 4b를 참조한다. 이후 프로브 1(pt3 접합부로 표시)은 환자 pt3의 게놈 DNA 및 혈청 DNA에서 HBV-인간 접합부의 존재를 검출하는 데 사용되었다. 도 4a에 도시된 바와 같이, pt3 특이적 HBV-인간 접합부는 환자 pt3의 종양 gDNA 및 수술전(OP전) 및 수술 후(OP후) 혈청 DNA에서 관찰되었다. 이러한 접합부는 환자 pt11 또는 비-HCC HBV 양성 환자("정상"으로 표시)에서 관찰되지 않았다. 유사하게, 도 4b에 도시된 바와 같이, 프로브 2(pt11 접합부로 표시)를, 환자 pt11의 게놈 DNA 및 혈청 DNA에서 HBV-인간 접합부의 존재를 검출하는 데 사용하는 경우, pt11 특이적 HBV-인간 접합부는 환자 pt11의 종양 gDNA 및 수술 전(OP전) 혈청 DNA에서 관찰되었다. 이러한 접합부는 환자 pt15 또는 비-HCC HBV 양성 환자("정상"으로 표시)에서 관찰되지 않았다.

포획 효율의 유효성

표 2에 상기 나열된 프로브 조합이 상이한 샘플 유형에서 프로브 조합의 포획 효율을 결정하기 위해 한쌍의 종양 gDNA 및 혈장 ctDNA 샘플(즉, 단일 HCC 환자로부터의 DNA 샘플)에서 DNA 단편을 분석하는 데 사용되었다. 표 6에서 NGS 통계에 제시한 바와 같이, 종양 gDNA는 혈장 ctDNA보다 전체 HBV, 부분 HBV, 및 HBV-인간 접합부 리드에서 10-18배 더 높고, 이는 종양 gDNA 샘플에서 프로브 조합의 더 높은 포획 효율을 입증하였다. 또한, 종양 gDNA 샘플에서 확인된 10개의 접합부 유형 중 8개는 유의적인 리드 수(>947)를 나타내어, 접합부 회수율이 75%임을 나타내었다.

도 5a 및 도 5b는 각각의 프로브에 의해 포획된 시퀀싱된 NGS 리드의 예측된 비율을 나타내는 히트 맵 전환된 막대 차트이다. 한편, 도 6에는 동일 프로브 조합을 사용하여 또다른 HCC 환자의 종양 gDNA 샘플의 NGS 결과가 도시된다(표 2에서와 같음).

이하, 도 7을 참조한다. HBV DNA의 검출 및 인간 게놈으로의 HBV 통합 이외에, 본 발명의 실시양태에 따른 프로브 조합은 또한 암 관련 유전자 돌연변이를 검출할 수도 있다. 도 8에 도시된 바와 같이, 유전자형 B HBV 감염이 있는 남성 및 여성 HCC 환자로부터의 DNA 샘플의 NGS 분석 결과, 상이한 수의 고유 HBV-인간 접합부("접합부 유형"으로 표시), TERT 또는 MLL4 영역("TERT/MLL4 통합부"로 표시)에서 검출된 고유 접합부, 및 환자들 중 TERT 프로모터 또는 CTNNB1 엑손 3 영역("TERT/CTNNB1 돌연변이"로 표시)에서 기지의 암 핫스팟 돌연변이가 밝혀졌다.

이점 및 장점

본 발명의 실시양태에 따른 프로브 조합 및 분석적 방법론은 종래 기술보다 유의적으로 우월한 감도 및 효율을 나타낸다. 표 7에 제시된 바와 같이 리에 의해 보고된 결과와 비교하여, 바람직한 본 발명의 실시양태의 프로브 조합에 의해 포획된 표적 뉴클레오티드 단편(표 1에서와 같음)은 유의적으로 더 높은 HBV 비율, 더 높은 접합부 리드, 및 더 낮은 인간 비율을 갖는다.

또한, 본 발명의 실시양태에 따른 바이러스-숙주 접합부를 확인하기 위해 생물정보학 분석 방법론을 이용한 자오에 의해 보고된 NGS 데이타 세트의 분석은 자오의 리드의 97.5%가 인간이며, 단지 1.49% HBV, 1.43% 부분 HBV 및 1% 접합부임을 또한 나타내어, HBV 단편 및 HBV-인간 접합부의 농후화에 있어서 기존의 HBV 포획 프로브의 열악한 효율을 재확인하였다. 추가로, 자오가 단지 157개의 접합부를 확인하는 것으로 보고되었지만, 본 발명의 실시양태의 분석적 방법론에 의한 자오의 NGS 데이타 세트의 분석은 469개의 접합부를 밝히고 자오의 접합부의 거의 80%를 회수한다. 이러한 결과는 본 발명의 실시양태의 분석적 방법론이 바이러스 통합부의 검출에 있어 고도로 민감하며 기존 기술보다 유의적으로 더 많은 바이러스-숙주 접합부를 확인할 수 있음을 입증한다.

또한, 지앙 및 성의 직접 시퀀싱 접근법과 비교하여, 본 발명의 실시양태에 따른 프로브 조합 및 분석적 방법론은 전형적인 NGS 데이타 세트에서 약 5백만개의 150-bp 리드만을 생성하지만(즉, 총 뉴클레오티드에 있어서 지앙보다 리드수가 80% 또는 60% 적음); 5백만개의 리드로부터 307,101개의 HBV 리드 및 69,198개의 접합부 리드를 확인할 수 있다. 결과는 또한 본 발명의 실시양태가 민감할뿐만 아니라 또한 바이러스 통합부 확인에 있어 고도로 효율적임을 입증한다.

요약하면, 전술된 실시양태에 따른 본 발명은 바이러스 감염 및 바이러스 감염 유도된 암의 검출을 위한 강력한 다목적의 도구를 제공한다. 본 발명의 실시양태는 다양한 유형의 DNA 바이러스 및 바이러스 통합부의 존재를 검출하는 데 적용될 수 있다. 본 개시내용에 따라 디자인된 프로브 조합은 최적의 바이러스/숙주 서열 커버리지를 보장하고, 유전적 안정성을 고려하며, 이에 따라 고도로 민감하고, 효율적이며, 신뢰성이 있는 것으로 입증된다.

앞서 설명은 단지 본 개시내용의 실시양태이며 본 개시내용의 범위를 한정하려는 것이 아니다. 본 개시내용의 청구범위 및 명세서에 따른 많은 변이 및 변형은 여전히 청구된 개시내용의 범위 내에 있다. 또한, 각각의 실시양태 및 청구범위는 개시된 장점 또는 특성 모두를 달성할 필요는 없다. 또한, 요약 및 명칭은 단지 특허 문헌 검색을 용이하게 하는 역할을 하며 청구된 개시내용의 범위를 어떤 방식으로도 한정하려는 것이 아니다.

SEQUENCE LISTING <110> TCM BIOTECH INTERNATIONL CORP. <120> PROBE COMBINATION FOR DETECTION OF CANCER <150> US 62/456,087 <151> 2017-02-07 <160> 56 <170> PatentIn version 3.5 <210> 1 <211> 3191 <212> DNA <213> Hepatitis B virus <400> 1 ctccaccact ttccaccaaa ctcttcaaga tcccagagtc agggccctgt actttcctgc 60 tggtggctcc agttcaggaa cagtgagccc tgctcagaat actgtctctg ccatatcgtc 120 aatcttatcg aagactgggg accctgtacc gaacatggag aacatcgcat caggactcct 180 aggacccctg ctcgtgttac aggcggggtt tttcttgttg acaaaaatcc tcacaatacc 240 acagagtcta gactcgtggt ggacttctct caattttcta gggggaacac ccgtgtgtct 300 tggccaaaat tcgcagtccc aaatctccag tcactcacca acctgttgtc ctccaatttg 360 tcctggttat cgctggatgt gtctgcggcg ttttatcatc ttcctctgca tcctgctgct 420 atgcctcatc ttcttgttgg ttcttctgga ctatcaaggt atgttgcccg tttgtcctct 480 aattccagga tcatcaacaa ccagcaccgg accatgcaaa acctgcacaa ctcctgctca 540 aggaacctct atgtttccct catgttgctg tacaaaacct acggacggaa actgcacctg 600 tattcccatc ccatcatctt gggctttcgc aaaataccta tgggagtggg cctcagtccg 660 tttctcttgg ctcagtttac tagtgccatt tgttcagtgg ttcgtagggc tttcccccac 720 tgtctggctt tcagttatat ggatgatgtg gtattggggg ccaagtctgt acaacatctt 780 gagtcccttt atgccgctgt taccaatttt cttttgtctt tgggtataca tttaaaccct 840 cacaaaacaa aaagatgggg atattccctt aacttcatgg gatatgtaat tgggagttgg 900 ggcacattgc cacaggaaca tattgtacaa aaaatcaaaa tgtgttttag gaaacttcct 960 gtaaacaggc ctattgattg gaaagtatgt caacgaattg tgggtctttt ggggtttgcc 1020 gcccctttca cgcaatgtgg atatcctgct ttaatgcctt tatatgcatg tatacaagca 1080 aaacaggctt ttactttctc gccaacttac aaggcctttc taagtaaaca gtatctgaac 1140 ctttaccccg ttgctcggca acggcctggt ctgtgccaag tgtttgctga cgcaaccccc 1200 actggttggg gcttggccat aggccatcag cgcatgcgtg gaacctttgt gtctcctctg 1260 ccgatccata ctgcggaact cctagccgct tgttttgctc gcagcaggtc tggagcaaaa 1320 ctcatcggga ctgacaattc tgtcgtgctc tcccgcaagt atacatcatt tccatggctg 1380 ctaggctgtg ctgccaactg gatcctgcgc gggacgtcct ttgtttacgt cccgtcggcg 1440 ctgaatcccg cggacgaccc ctcccggggc cgcttggggc tctaccgccc gcttctccgc 1500 ctgttgtacc gaccgaccac ggggcgcacc tctctttacg cggactcccc gtctgtgcct 1560 tctcatctgc cggaccgtgt gcacttcgct tcacctctgc acgtcgcatg gagaccaccg 1620 tgaacgccca ccggaacctg cccaaggtct tgcataagag gactcttgga ctttcagcaa 1680 tgtcaacgac cgaccttgag gcatacttca aagactgtgt gtttactgag tgggaggagt 1740 tgggggagga gattaggtta aaggtctttg tactaggagg ctgtaggcat aaattggtgt 1800 gttcaccagc accatgcaac tttttcacct ctgcctaatc atctcatgtt catgtcctac 1860 tgttcaagcc tccaagctgt gccttgggtg gctttggggc atggacattg acccgtataa 1920 agaatttgga gcttctgtgg agttactctc ttttttgcct tctgacttct ttccttctat 1980 tcgagatctc ctcgacaccg cctctgctct gtatcgggag gccttagagt ctccggaaca 2040 ttgttcacct caccatacgg cactcaggca agctattctg tgttggggtg agttaatgaa 2100 tctagccacc tgggtgggaa gtaatttgga agatccagca tccagggaat tagtagtcag 2160 ctatgtcaac gttaatatgg gcctaaaaat cagacaacta ttgtggtttc acatttcctg 2220 tcttactttt ggaagagaaa ctgttcttga atatttggtg tcttttggag tgtggattcg 2280 cactcctcct gcatatagac caccaaatgc ccctatctta tcaacacttc cggaaactac 2340 tgttgttaga cgaagaggca ggtcccctag aagaagaact ccctcgcctc gcagacgaag 2400 gtctcaatcg ccgcgtcgca gaagatctca atctcgggaa tctcaatgtt agtattcctt 2460 ggacacataa ggtgggaaac tttacggggc tttattcttc tacggtacct tgctttaatc 2520 ctaaatggca aactccttct tttcctgaca ttcatttgca ggaggacatt gttgatagat 2580 gtaagcaatt tgtggggccc cttacagtaa atgaaaacag gagactaaaa ttaattatgc 2640 ctgctaggtt ttatcccaat gttactaaat atttgccctt agataaaggg atcaaacctt 2700 attatccaga gcatgtagtt aatcattact tccagacgag acattattta cacactcttt 2760 ggaaggcggg tatcttatat aaaagagagt ccacacgtag cgcctcattt tgcgggtcac 2820 catattcttg ggaacaagat ctacagcatg ggaggttggt cttccaaacc tcgaaaaggc 2880 atggggacaa atctttctgt ccccaatccc ctgggattct tccccgatca tcagttggac 2940 cctgcattca aagccaactc agaaaatcca gattgggacc tcaacccgca caaggacaac 3000 tggccggacg ccaacaaggt gggagtggga gcattcgggc cagggttcac ccctccccat 3060 gggggactgt tggggtggag ccctcaggct cagggcatac tcacaactgt gccagcagct 3120 cctcctcctg cctccaccaa tcggcagtca ggaaggcagc ctactccctt atctccacct 3180 ctaagggaca c 3191 <210> 2 <211> 3191 <212> DNA <213> Hepatitis B virus <400> 2 ctccacaaca ttccaccaag ctctgctaga tcccagagtg aggggcctat actttcctgc 60 tggtggctcc agttccggaa cagtaaaccc tgttccgact actgcctcac ccatatcgtc 120 aatcttctcg aggactgggg accctgcacc gaacatggag aacacaacat caggattcct 180 aggacccctg ctcgtgttac aggcggggtt tttcttgttg acaagaatcc tcacaatacc 240 acagagtcta gactcgtggt ggacttctct caattttcta gggggagcac ccacgtgtcc 300 tggccaaaat tcgcagtccc caacctccaa tcactcacca acctcttgtc ctccaatttg 360 tcctggctat cgctggatgt gtctgcggcg ttttatcata ttcctcttca tcctgctgct 420 atgcctcatc ttcttgttgg ttcttctgga ctaccaaggt atgttgcccg tttgtcctct 480 acttccagga acatcaacta ccagcacggg accatgcaag acctgcacga ttcctgctca 540 aggaacctct atgtttccct cttgttgctg tacaaaacct tcggacggaa actgcacttg 600 tattcccatc ccatcatcct gggctttcgc aagattccta tgggagtggg cctcagtccg 660 tttctcctgg ctcagtttac tagtgccatt tgttcagtgg ttcgtagggc tttcccccac 720 tgtttggctt tcagttatat ggatgatgtg gtattggggg ccaagtctgt acaacatctt 780 gagtcccttt ttacctctat taccaatttt cttttgtctt tgggtataca tttgaaccct 840 aataaaacca aacgttgggg ctactccctt aacttcatgg gatatgtaat tggaagttgg 900 ggtactttac cacaggaaca tattgtacta aaaatcaagc aatgttttcg aaaactgcct 960 gtaaatagac ctattgattg gaaagtatgt caaagaattg tgggtctttt gggctttgct 1020 gcccctttta cacaatgtgg ctatcctgcc ttaatgcctt tatatgcatg tatacaatct 1080 aagcaggctt tcactttctc gccaacttac aaggcctttc tgtgtaaaca atatctgaac 1140 ctttaccccg ttgcccggca acggtcaggt ctctgccaag tgtttgctga cgcaaccccc 1200 actggatggg gcttggccat aggccatcgg cgcatgcgtg gaacctttgt ggctcctctg 1260 ccgatccata ctgcggaact cctagcagct tgttttgctc gcagccggtc tggagcgaaa 1320 cttatcggca ccgacaactc tgttgtcctc tctcggaaat acacctcctt tccatggctg 1380 ctagggtgtg ctgccaactg gatcctgcgc gggacgtcct ttgtctacgt cccgtcggcg 1440 ctgaatcccg cggacgaccc gtctcggggc cgtttgggac tctaccgtcc ccttcttcat 1500 ctgccgttcc ggccgaccac ggggcgcacc tctctttacg cggtctcccc gtctgtgcct 1560 tctcatctgc cggaccgtgt gcacttcgct tcacctctgc acgtcgcatg gagaccaccg 1620 tgaacgccca ccaggtcttg cccaaggtct tacataagag gactcttgga ctctcagcaa 1680 tgtcaacgac cgaccttgag gcatacttca aagactgttt gtttaaagac tgggaggagt 1740 tgggggagga gattaggtta atgatctttg tactaggagg ctgtaggcat aaattggtct 1800 gttcaccagc accatgcaac tttttcacct ctgcctaatc atctcatgtt catgtcctac 1860 tgttcaagcc tccaagctgt gccttgggtg gctttggggc atggacattg acccgtataa 1920 agaatttgga gcttctgtgg agttactctc ttttttgcct tctgacttct ttccttctat 1980 tcgagatctc ctcgacaccg cctctgctct gtatcgggag gccttagagt ctccggaaca 2040 ttgttcacct caccatacag cactcaggca agctattctg tgttggggtg agttgatgaa 2100 tctggccacc tgggtgggaa gtaatttgga agacccagca tccagggaat tagtagtcag 2160 ctatgtcaat gttaatatgg gcctaaaaat cagacaacta ttgtggtttc acatttcctg 2220 tcttactttt ggaagagaaa ctgttcttga gtatttggtg tcttttggag tgtggattcg 2280 cactcctccc gcttacagac caccaaatgc ccctatctta tcaacacttc cggaaactac 2340 tgttgttaga cgacgaggca ggtcccctag aagaagaact ccctcgcctc gcagacgaag 2400 gtctcaatcg ccgcgtcgca gaagatctca atctcgggaa tctcaatgtt agtatccctt 2460 ggactcataa ggtgggaaac tttactgggc tttattcttc tactgtacct gtctttaatc 2520 ctgagtggca aactccctcc tttcctcaca ttcatttaca ggaggacatt attaatagat 2580 gtcaacaata tgtgggccct cttacagtta atgaaaaaag gagattaaaa ttaattatgc 2640 ctgctaggtt ctatcctaac cttaccaaat atttgccctt ggataaaggc attaaacctt 2700 attatcctga acatgcagtt aatcattact tcaaaactag gcattattta catactctgt 2760 ggaaggctgg cattctatat aagagagaaa ctacacgcag cgcctcattt tgtgggtcac 2820 catattcttg ggaacaagag ctacagcatg ggaggttggt cttccaaacc tcgacaaggc 2880 atggggacga atctttctgt tcccaatcct ctgggattct ttcccgatca ccagttggac 2940 cctgcgttcg gagccaactc aaacaatcca gattgggact tcaaccccaa caaggatcac 3000 tggccagagg caaatcaggt aggagcggga gcattcgggc cagggttcac cccaccacac 3060 ggcggtcttt tggggtggag ccctcaggct cagggcatat tgacaacagt gccagcagca 3120 cctcctcctg cctccaccaa tcggcagtca ggaagacagc ctactcccat ctctccacct 3180 ctaagagaaa g 3191 <210> 3 <211> 960 <212> DNA <213> Hepatitis B virus <400> 3 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagccggtc tggagcaaag ctcatcggaa ctgacaattc tgtcgtcctc 120 tcgcggaaat atacatcgtt tccatggctg ctaggctgtg ctgccaactg gatccttcgc 180 ggaacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc ctctcggggc 240 cgcttgggac tctctcgtcc ccttctccgt ctgccgttcc agccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggtccgtgt gcacttcgct 360 tcacctctgc acgttgcatg gagaccaccg tgaacgccca tcagatcctg cccaaggtct 420 tacataagag gactcttgga ctcccagcaa tgtcaacgac cgaccttgag gcctacttca 480 aagactgtgt gtttaaggac tgggaggagc tgggggagga gattaggtta aaggtctttg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgta catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gctactgtgg agttactctc 720 gtttttgcct tctgacttct ttccttccgt cagagatctc ctagacaccg cctcagctct 780 gtatcgagaa gccttagagt ctcctgagca ttgctcacct caccatactg cactcaggca 840 agccattctc tgctgggggg aattgatgac tctagctacc tgggtgggta ataatttgga 900 agatccagca tccagggatc tagtagtcaa ttatgttaat actaacatgg gtttaaagat 960 <210> 4 <211> 960 <212> DNA <213> Hepatitis B virus <400> 4 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagccggtc tggagcaaag ctcatcggaa ctgacaattc tgtcgtcctc 120 tcgcggaaat atacatcgtt tccatggctg ctaggctgta ctgccaactg gatccttcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ctctcggggc 240 cgcttgggac tctctcgtcc ccttctccgt ctgccgttcc agccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggtccgtgt gcacttcgct 360 tcacctctgc acgttgcatg gagaccaccg tgaacgccca tcagatcctg cccaaggtct 420 tacataagag gactcttgga ctcccagcaa tgtcaacgac cgaccttgag gcctacttca 480 aagactgtgt gtttaaggac tgggaggagc tgggggagga gattaggtta atgatctttg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgta catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gctactgtgg agttactctc 720 gtttttgcct tctgacttct ttccttccgt cagagatctc ctagacaccg cctcagctct 780 gtatcgagaa gccttagagt ctcctgagca ttgctcacct caccatactg cactcaggca 840 agccattctc tgctgggggg aattgatgac tctagctacc tgggtgggta ataatttgga 900 agatccagca tccagggatc tagtagtcaa ttatgttaat actaacatgg gtttaaagat 960 <210> 5 <211> 960 <212> DNA <213> Hepatitis B virus <400> 5 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagccggtc tggagcaaaa ctcatcggga ctgacaattc tgtcgtcctt 120 tctcggaaat atacatcctt cccatggctg ctaggttgta ctgccaactg gattcttcga 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc ctcgcgaggt 240 cgcttgggac tctatcgtcc ccttctccgt ctgccgtacc gtccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggtccgtgt gcacttcgct 360 tcacctctgc acgttgcatg gagaccaccg tgaacgccca tcagatcctg cccaaggtct 420 tatataagag gactcttgga ctcccagcaa tgtcaacgac cgaccttgag gcctacttca 480 aagactgtgt gtttaaagac tgggaggagt tgggggagga gattaggtta aaggtttatg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccatc atcatgcaac tttttcacct 600 ctgcctaatc atctcttgta catgtcccac ttttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gctacagtgg agttactctc 720 gtttttgcct tctgacttct ttccttccgt ccgggatcta ctagatacag cctcagctct 780 gtatcgggaa gcattagagt ctcctgagca ttgctcacct caccatacag cactcaggca 840 agccattctc tgctgggggg atgtactgga tctatctacc tgggtgggtg ctaatttgca 900 agatccagca tccagggatc tagtagtcaa ttatgttaat actaacatgg gcctaaagtt 960 <210> 6 <211> 960 <212> DNA <213> Hepatitis B virus <400> 6 cgcatgcgtg gaacctttgt gtctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggggcaaaa ctcatcggga ctgacaattc tgtcgtgctc 120 tcccgcaagt atacatcgtt cccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ctcccggggc 240 cgcttggggc tctaccgccc gcttctccgc ctgttgtacc gtccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctrc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccggaacctg cccaaggtct 420 tgcataagag gactcttgga ctttcmgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttaatgag tgggaggagt tgggggagga gaktaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtgy gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttagggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct catgacttct ttccttctat tcgagatctc ctcgacaccg cctctgcttt 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacgg cactcaggca 840 agctattctg tgttggggtg agttgatgaa tctagccacc tgggtgggaa gtaatttgga 900 agatccagca tccagggaat tagtcgttag ctatgtcaac gttaatatgg gcmtaaaaat 960 <210> 7 <211> 960 <212> DNA <213> Hepatitis B virus <400> 7 cgcatgcgtg gaacctttgt gtctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcgaaa ctcatcggga ctgacaattc tgtcgtgctc 120 tcccgcaagt atacatcgtt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ctcccggggc 240 cgcttggggc tctaccgccc gcttctccgt ctgccgtacc gaccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcgtctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gaaaccaccg tgaacgccca ccggaacctg cccaaggtct 420 tgcacaagag gactcttgga ctttcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttcatgag tgggaggagc tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctagtc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttgggac atggacattg acccttataa agaatttgga gctactgtgg agttactctc 720 ttttttgcct tctgacttct ttccgtcggt acgagacctc ctagataccg ctgctgctct 780 gtatcgggaa gccttagaat ctcctgaaca ttgctcacct caccacacag cactcaggca 840 agctattctg tgctgggggg aattaatgac tctagctacc tgggtgggta ataatttaga 900 agatccagcg tccagggatc tagtagtcaa ttatgttaac actaacatgg gcctaaagat 960 <210> 8 <211> 960 <212> DNA <213> Hepatitis B virus <400> 8 cgcatgcgtg ggacctttgt gtctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcgaaa cttatcggga ctgacaattc cgttgtcctt 120 tcccgcaaat atacatcgtt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc ctcccggggc 240 cgcttggggc tctaccgccc gcttctccgt ctgccgtacc gaccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcgtctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccggaacttg cccaaggtct 420 tgcataagag gactcttgga ctttcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttaatgag tgggaggagt tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgacttct ttccttctat tcgagatctt ctcgacaccg cctctgctct 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacgg cactcaggca 840 agctattctg tgttggggtg agttaatgaa tctagccacc tgggtgggaa gtaatttgga 900 agacccagca tccagggaat tagtagtcag ctatgtcaat gttaatatgg gcctaaaaat 960 <210> 9 <211> 960 <212> DNA <213> Hepatitis B virus <400> 9 cgcatgcgtg gaacctttgt gtctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcaaaa ctcatcggga ctgacaattc tgtcgtgctc 120 tcccgcaagt atacatcatt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ctcccggggc 240 cgcttggggc tctaccgccc gcttctccgc ctgttgtacc gaccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccggaacctg cccaaggtct 420 tgcataagag gactcttgga ctttcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttactgag tgggaggagt tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtgt gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgacttct ttccttctat tcgagatctc ctcgacaccg cctctgctct 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacgg cactcaggca 840 agctattctg tgttggggtg agttaatgaa tctagccacc tgggtgggaa gtaatttgga 900 agatccagca tccagggaat tagtagtcag ctatgtcaac gttaatatgg gcctaaaaat 960 <210> 10 <211> 960 <212> DNA <213> Hepatitis B virus <400> 10 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagcagct 60 tgttttgctc gcagccggtc tggagctaaa cttatcggga ctgacaactc tgttgtcctc 120 tcgcggaaat acacctcctt cccatggctg ctcgggtgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc atctcggggc 240 cgtttgggcc tctaccgtcc ccttcttcac ctgccgttcc agccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccaggtcttg cccaagctct 420 tacataagag gactcttgga ctctcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcccct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgacttct ttccttctat tcgagatctc ctcgataccg cctctgctct 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacag cactcaggca 840 agctattctg tgttggggtg agttgatgaa tctggccacc tgggtgggaa gtaatttgga 900 agacccagca tccagggaat tagtagtcag ctatgtcaat gttaatatgg gcctaaaaat 960 <210> 11 <211> 961 <212> DNA <213> Hepatitis B virus <400> 11 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagcggct 60 twgttttgct cgcagccggt ctggagcgaa cctcatcggc accgacaact ctgttgtcct 120 ctctcggaag tacacctcct ttccatggct gctaggatgt gctgccaact ggatcctgcg 180 cgggacgtcc tttgtctacg tcccgtcggc gctgaatccc gcggacgacc cctctcgggg 240 ccgcttgggg atctaccgtc ccctcctccg tctgccgttc cggccgacca cggggcgcac 300 ctctctttac gcggtctccc cgtctgtgcc ttctcatctg ccggaccgtg tgcacttcgc 360 ttcacctctg cacgtcgcat ggagaccacc gtgaacgccc accaggtctt gcccaaggtc 420 ttgcataaga ggactcttgg actctcagca atgtcaacga ccgaccttga ggcatacttc 480 aaagactgtg tgtttaaaga ctgggaggag ttgggggagg agattaggtt aaaggtcttt 540 gtactaggag gctgtaggca taaattggtc tgttcaccag caccatgcaa ctttttcacc 600 tctgcctaat catctcatgt tcatgtccta ctgttcaagc ctccaagctg tgccttgggt 660 ggctttgggg catggacatt gacccttata aagaatttgg agcttctgtg gagttactct 720 cttttttgcc gtctgatttc tttccatcta ttcgagatct cctagacact gcctcagctc 780 tgtatcggga agccttagag tctccggaac attgttcacc tcaccataca gcactcaggc 840 aagctgttct gtgttggggt gaattaatga atctggctac ctgggtggga agtaatttgg 900 aagatccagc atccagggaa ttagtagtca gttatgtcaa tgttaatatg ggcttaaaga 960 t 961 <210> 12 <211> 960 <212> DNA <213> Hepatitis B virus <400> 12 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctggcagct 60 tgttttgctc gcagccggtc tggagcgaaa cttatcggga ctgacaactc tgttgtcctt 120 tctcggaaat acacctcctt cccatggctg ctcggatgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc gtctcggggc 240 cgtttgggcc tctaccgtcc ccttctgcag ctgccgttcc ggccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccaggtcttg cccaaggtct 420 tacataagag gactcttgga ctctcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgacttct ttccttctat tcgagatctc ctcgacaccg cctctgcact 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacag cactcaggca 840 agctattctg tgttggggtg agttgatgaa tctggccacc tgggtgggaa gtaatttgga 900 agacccagca tccagggaat tagtagtcag ctatgtcaat gttaacatgg gcctaaaaat 960 <210> 13 <211> 960 <212> DNA <213> Hepatitis B virus <400> 13 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagcagct 60 tgttttgctc gcagccggtc tggagcgaaa cttatcggca ccgacaactc tgttgtcctc 120 tctcggaaat acacctcctt tccatggctg ctagggtgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc gtctcggggc 240 cgtttgggac tctaccgtcc ccttcttcat ctgccgttcc ggccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccaggtcttg cccaaggtct 420 tacataagag gactcttgga ctctcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gattaggtta atgatctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccgtataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgacttct ttccttctat tcgagatctc ctcgacaccg cctctgctct 780 gtatcgggag gccttagagt ctccggaaca ttgttcacct caccatacag cactcaggca 840 agctattctg tgttggggtg agttgatgaa tctggccacc tgggtgggaa gtaatttgga 900 agacccagca tccagggaat tagtagtcag ctatgtcaat gttaatatgg gcctaaaaat 960 <210> 14 <211> 960 <212> DNA <213> Hepatitis B virus <400> 14 cgcgtgcgtg gaaccttttc ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcaaac attatcggga ctgataactc tgttgtcctc 120 tcccgcaaat atacatcgta tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcctg cggacgaccc ttctcggggt 240 cgcttgagac tctctcgtcc ccttctccgt ctgccgttcc gaccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccgaatgttg cccaaggtct 420 tacataagag gactcttgga ctctctgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gattagatta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gcgcaccggc gccatgcacc tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacatcg acccttataa agaatttgga gctactgtgg agttactctc 720 gtttttgcct tctgacttct ttccttcagt acgagatctt ctagataccg cctcagctct 780 gtatcgggaa gccttagagt ctcctgagca ttgttcacct caccatactg cactcaggca 840 agcaattctt tgctgggggg aactaatgac tctagctacc tgggtgggtg ttaatttgga 900 agatccagca tctagagacc tagtagtcag ttatgtcaac actaatatgg gcctaaagtt 960 <210> 15 <211> 960 <212> DNA <213> Hepatitis B virus <400> 15 cgcatgcgtg gaaccttttt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcaaac attctcggga ctgacaactc tgttgtcctc 120 tcccgcaaat atacatcgtt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcgrcg ctgaatcccg cggacgaccc gtctcggggc 240 cgcttggggc cctgtcgtcc tcttctctgc ctgccgttcc gaccgagcac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccaaagcttg cccaaggtct 420 tacataagag gactcttgga ctctctgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaacgac tgggaggagt tgggggagga gattaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttagggc atggacattg acccttataa agaatttgsa gcttctgtgc agttactctc 720 gtttttgcct gttsacttct ttccttccgt acgagatctt ctagataccg cctcagctct 780 gtatcgggat gctttagagt ctcctgagca tttgtcaccg caccatactg cactcaggca 840 agcaattctt tgctggggag aattaatgac tctagctacc tgggtgggta ctaatttaga 900 agatcaagca tctagggacc tagtagtcag ttatgtcaac amtaatatgg gcctaaagtt 960 <210> 16 <211> 957 <212> DNA <213> Hepatitis B virus <400> 16 cgcatgcgtg gaacctttgt ggctcctctt ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagccggtc tggagcaaac attattggga ctgataactc tgttgtcctc 120 tcccgcaaat atacatcgtt tccatggctg ctaggccgtg ctgccaactg ggtcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ttctcggggt 240 cgcttgggac tctctcgtcc ccttctccgt ctgccgttcc gaccgaccac ggggcgcacc 300 tctctttacg cggactcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccaattgccc aaggtcttac 420 ataagaggac tcttggactc tctgcaatgt caacgaccga ccttgaggca tacttcaaag 480 actgtttgtt taaagactgg gaggagttgg gggaggagat tagattaaag gtctttgtac 540 taggaggctg taggcataaa ttggtctgcg caccagcacc atgcaacttt ttcacctctg 600 cctaatcatc tcttgttcat gtcctactgt tcaagcctcc aagctgtgcc ttgggtggct 660 ttggggcatg gacattgacc cttataaaga atttggagct accgtggagt tactctcatt 720 tttgccttct gacttctttc cttcggtacg agatcttcta gataccgcct cagctctgta 780 tcgggaagct ttagagtctc ttgagcattg ttcacctcac catactgcac tcaggcaagc 840 aattctttgc tggggggaac taatgactct agctacctgg gtgggagtta atttggaaga 900 tccagcatct agggacctag tagtcagtta tgtcaacact aatatgggcc taaagtt 957 <210> 17 <211> 960 <212> DNA <213> Hepatitis B virus <400> 17 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcraaa cttatcggga cggataattc tgtcgtcctc 120 tcccggaaat atacatcgtt tccatggctg ctaggctgtg ctgccaactg gatcctgcga 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc gtctcggggt 240 cgcttggggg tctatcgtcc ccttctccgt ctrccgttcc agccgwccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcgcctgc cggwccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccagatattg cccaaggtct 420 tatataagag gactcttgga ctctctgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gattagatta atgatctttg 540 tactaggagg ctgtaggcat aaawtggtct gcgtaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcgtgtt catgtcctac tgttcaagcc tccaagctgt gccttgagtg 660 gctttaggac atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 gtttttgcct tctgacttct ttccttcagt aagagatctt ctagataccg cctctgctct 780 gtttcgggat gccttagaat ctcctgagca ttgttcacct caccatactg cactcaggca 840 agccattctt tgctggggag atgtaatgaa tctagctaca tgggtgggtg caaatttgga 900 agatccaaca tccagggacc tggtagtcgg ttatgtcaat agtaatatgg gcctaaagtt 960 <210> 18 <211> 960 <212> DNA <213> Hepatitis B virus <400> 18 cgcatgcgtg gaacctttgy ggctcctctg ccgatccata ctgcggaact cctggccgct 60 tgttttgctc gcagcaggtc tggagcgaaa cttattggaa cggataattc tgtcgttctc 120 tcccggaaat atacatcatt tccatggctg ctaggctgtg ctgccaactg gatcctgcga 180 gggacgtcct ttgtctacgt cccgtcagcg ctgaatcctg cggacgaccc gtctcggggt 240 cgcttgggga tctatcgtcc ccttctccgt ctgccgttcc ggccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gaaaccaccg tgaacgccca ccaaatcttg cccaaggtct 420 tatataagag gactcttgga ctctctgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgctt gtttaaagac tgggaggagt tgggggagga gattagatta atgatctttg 540 tactaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttaggac atggacattg acccttataa agaatttgga gctwctgtgg agttactctc 720 ktttttgcct catgacttct ttccttcaat aagagatctt ctagataccg ccacagctct 780 gtatcgggat gccttagaat ctcctgagca ttgttcacct caccacacgg cactcaggca 840 agccattctt tgctgggggg atgtaatgaa tctagctacc tgggtgggtg taaatttgga 900 agatccagca tccagggacc tggtagtcgg ttatgtcaat actaatatgg gcctaaagtt 960 <210> 19 <211> 960 <212> DNA <213> Hepatitis B virus <400> 19 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgttttgctc gcagcaggtc tggagcgaaa ctcataggga cagataattc tgtcgttctc 120 tcccggaaat atacatcatt tccatggctg ctaggctgtg ctgccaactg gatcctgcga 180 gggacgtcct ttgtctacgt cccgtcagcg ctgaatcctg cggacgaccc ctctcggggc 240 cgcttggggg tctatcgtcc ccttctccgt ctgccgttcc ggccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca ccagatcttg cccaaggtct 420 tacataagag gactcttgga ctctctgcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgttt gtttaaagac tgggaggagt tgggggagga gactagatta atgatctttg 540 tactaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttgggac atggacattg acccttataa agaatttgga gctactgtgg agttactctc 720 gtttttgcct tctgacttct ttccttcagt aagagatctt ctagataccg cctctgctct 780 gtatcgggat gccttagaat ctcctgagca ttgttcacct caccatactg cactcaggca 840 agccattctt tgctggggag aattaatgac tctagctacc tgggtgggtg taaatttgga 900 agatccagca tccagggacc tagtagtcag ttatgtcaat actaatatgg gcctaaagtt 960 <210> 20 <211> 960 <212> DNA <213> Hepatitis B virus <400> 20 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact ccttgcagct 60 tgtttcgctc gcagccggtc tggagcgaaa ctcatcggca cagacaactc tgttgtcctc 120 tctaggaagt acacctcctt cccatggctg ctcggttgtg ctgccaactg gatcctacgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatccag cggacgatcc ctctcggggt 240 cgcttggggc tgtatcgccc ccttctccgt ctgccgttcc agccgacgac gggtcgcacc 300 tctctttacg cggcctcccc gtctgttcct tctcgtctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgcccc tcgaagcttg ccaacagtct 420 tacataagcg gactcttgga ctttcaggaa ggtcaatcac ctggatcgaa gaatacatca 480 aagactgtgt atttaaggac tgggaggagc tgggggagga gattaggtta aaggtctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg aattactctc 720 ttttttgcct tctgacttct tcccgtcagt tcgggaccta ctcgacaccg cttcagccct 780 ctaccgggat gctttagaat caccagaaca ttgcacacct aaccataccg ctctcaggca 840 agctatattg tgctggggtg agttaatgac tttggcttcc tgggtgggca ataacttgga 900 agatcctgct gctagggacc tagtggttaa ctatgtcaat actaacatgg gcctaaaaat 960 <210> 21 <211> 960 <212> DNA <213> Hepatitis B virus <400> 21 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact ccttgcagcc 60 tgtttcgctc gcagccggtc tggagcgaac attatcggca cagacaactc tgttgtcctc 120 tctaggaagt acacctcctt tccatggctg ctcggttgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ttcccggggt 240 cgcttggggc tgtaccgccc ccttcttcgt ctgccgttcc agccgacgac gggtcgcacc 300 tctctttacg cggactcccc gtctgttcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgcccc ctggaatctg ccaacagtct 420 tacataagag gactcttgga ctttcaggac ggtcaatgac ctggatcgaa gaatacatca 480 aagactgtgt atttaaggac tgggaggagc tgggggagga gatcaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg aattgctctc 720 ttttttgcct tctgatttct tcccgtctgt tcgggaccta ctcgacaccg cttcagccct 780 ttaccgggat gctctagagt caccggaaca ttgcaccccc aatcataccg ctctcaggca 840 agctattttg tgctggggtg agttaatgac tttggcttcc tgggtgggta ataatttgga 900 agaccctgca gctagggatt tagtagttaa ttatgtcaac actaatatgg gcctgaaaat 960 <210> 22 <211> 960 <212> DNA <213> Hepatitis B virus <400> 22 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact ccttgcagcc 60 tgtttcgctc gcagccggtc tggagcgaac attatcggca cagacaactc tgttgtcctc 120 tctaggaagt acacctcctt tccatggctg ctcggttgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtttacgt cccgtcggcg ctgaatcccg cggacgaccc ttcccggggt 240 cgcttggggc tctaccgccc ccttcttcgt ctgccgttcc agccgacgac gggtcgcacc 300 tctctttacg cggactcccc gtctgttcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgcccc ctggaatctg ccaacagtct 420 tacataagag gactcttgga ctttcaggac ggtcaatgac ctggatcgaa gaatacatca 480 aagactgtgt atttaaggac tgggaggagc tgggggagga gatcaggtta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttggc gcttctgtgg aattgctctc 720 ttttttgcct tctgatttct tcccgtctgt tcgggaccta ctcgacaccg cttcagccct 780 ttaccgggat gctctagagt caccggaaca ttgcaccccc aatcataccg ctctcaggca 840 agctattttg tgctggggtg agttaatgac tttggcttcc tgggtgggta ataatttgga 900 agaccctgca gctagggatt tagtagttaa ttatgtcaac actaatatgg gcctgaaaat 960 <210> 23 <211> 996 <212> DNA <213> Hepatitis B virus <400> 23 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagctgct 60 tgttttgctc gcagccggtc tggagcaaaa ctcattggga ctgacaattc tgtcgtcctt 120 tctcggaaat atacatcctt tccatggctg ctaggctgtg ctgccaactg gatccttcgc 180 gggacgtcct ttgtttacgt cccgtcagcg ctgaatccag cggacgaccc ctcccggggc 240 cgtttggggc tctgtcgccc ccttctccgt ctgccgttcc tgccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgttcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgttacatg gaaaccgcca tgaacacctc tcatcatctg ccaaggcagt 420 tatataagag gactcttgga ctgtttgtta tgtcaacaac cggggtggag aaatacttca 480 aggactgtgt ttttgctgag tgggaagaat taggcaatga gtccaggtta atgacctttg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccagc accatgtaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttagggc atggatagaa caactttgcc atatggcctt tttggcttag acattgaccc 720 ttataaagaa tttggagcta ctgtggagtt gctctcgttt ttgccttctg actttttccc 780 gtctgttcgt gatcttctcg acaccgcttc agctttgtac cgggaatcct tagagtcctc 840 tgatcattgt tcgcctcacc atacagcact caggcaagca atcctgtgct ggggtgagtt 900 gatgactcta gccacctggg tgggtaataa tttggaagat ccagcatcca gagatttggt 960 ggtcaattat gttaatacta atatgggttt aaaaat 996 <210> 24 <211> 996 <212> DNA <213> Hepatitis B virus <400> 24 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagctgct 60 tgttttgctc gcagccggtc tggagcaaaa ctcattggga ctgacaattc tgtcgtcctt 120 tctcggaaat atacatcctt tccatggctg ctaggctgtg ctgccaactg gatccttcgc 180 gggacgtcct ttgtttacgt cccgtcagcg ctgaatccag cggacgaccc ctcccggggc 240 cgtttggggc tctgtcgccc ccttctccgt ctgccgttcc tgccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgttcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgttacatg gaaaccgcca tgaacacctc tcatcatcta ccaaggcagt 420 tatataagag gactcttgga ctgtttgtta tgtcaacaac cgggatggag aaatacttca 480 aggactgtgt ttttgctgag tgggaagaat taggcaatga gtccaggtta atgacctttg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccagc accatgtaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttagggc atggatagaa caactttgcc atatggcctt tttggcttag acattgaccc 720 ttataaagaa tttggagcta ctgtggagtt gctctcgttt ttgccttctg actttttccc 780 gtctgttcgt gatcttctcg acaccgcttc agctttgtac cgggaatcct tagagtcctc 840 tgatcattgt tcgcctcacc atacagcact caggcaagca attctgtgct ggggtgagtt 900 gatgactcta gctacctggg tgggtaataa tttggaagat ccagcatcca gagatttggt 960 ggtcaattat gttaatacta atatgggttt aaaaat 996 <210> 25 <211> 999 <212> DNA <213> Hepatitis B virus <400> 25 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagctgct 60 tgttttgctc gcagccggtc tggagcgaaa ctcattggga ctgacaattc tgtcgtcctt 120 tctcggaaat atacatcctt tccatggctg ctaggctgtg ctgccaactg gatccttcgc 180 gggacgtcct ttgtttacgt cccgtcagcg ctgaatccag cggacgaccc ctcccggggc 240 cgtttggggc tctgtcgccc ccttctccgt ctgccgttcc tgccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgttcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgttacatg gaaaccgcca tgaacacctc tcatcatctg ccaaggcagt 420 tatataagag gactcttgga ctgtttgtta tgtcaacaac cggggtggag aaatacttca 480 aggactggtg tgtttttgct gagtgggaag aattaggcaa tgagtccagg ttaatgacct 540 ttgtattagg aggctgtagg cataaattgg tctgcgcacc agcaccaatg caacttttca 600 cctctgccta atcatctctt gttcatgtcc tactgttcaa gcctccaagc tgtgccttgg 660 gtggctttag ggcatggata gaacaacttt gccatatggc ctttttggct tagacattga 720 cccttataaa gaatttggag ctactgtgga gttgctctcg tttttgcctt ctgacttttt 780 cccgtctgtt cgtgatcttc tcgacaccgc ttcagctttg taccgggaat ccttagagtc 840 ctctgatcat tgttcgcctc accatacagc actcaggcaa gcaatcctgt gctggggtga 900 gttgatgact ctagctacct gggtgggtaa taatttggaa gatccagcat ccagagattt 960 ggtggtcaat tatgttaata ctaatatggg tttaaaaat 999 <210> 26 <211> 960 <212> DNA <213> Hepatitis B virus <400> 26 cgcatgcgcg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgtttcgctc gcagcaggtc tggagcggac attatcggca ctgacaactc cgttgtcctt 120 tctcggaagt acacctcctt cccatggctg ctaggatgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcgtggt 240 cgcttggggc tctgccgccc tcttctccgc ctgccgttcc ggccgacgac gggtcgcacc 300 tctctttacg cggactcccc gcctgtgcct tctcatctgc cggcccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgcccc ttggaacttg ccaacaacct 420 tacataagag gactcttgga ctttcgcccc ggtcaacgac ctggattgag gaatacatca 480 aagactgtgt atttaaggac tgggaggagt cgggggagga gttgaggtta aaggtctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 atttttgcct tctgacttct tcccgtctgt ccgggaccta ctcgacaccg cttcagccct 780 ctaccgagat gccttagaat caccagaaca ttgcaccccc aaccacactg ctctcaggca 840 agctattttg cgctggggtg agttgatgac cttggcttcc tgggtgggca ataatttaga 900 ggatcctgca gcaagagatc tagtagttaa ttatgtcaat actaacatgg gcctaaaaat 960 <210> 27 <211> 960 <212> DNA <213> Hepatitis B virus <400> 27 cgcatgcgcg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagccgct 60 tgtttcgctc gcagcaggtc tggagcggac attatcggca ctgacaactc cgttgtcctt 120 tctcggaagt acacctcctt cccatggctg ctaggttgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcgtggt 240 cgcttggggc tctgccgccc tcttctccgc ctgtcgttcc ggccgacgac gggtcgcacc 300 tctctttacg cggactcccc gcctgtgcct tctcatctgc cggcccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgcccc ttggaacttg ccaacaacct 420 tacataagag gactcttgga ctttcgcccc ggtcaacgac ctggattgag gaatacatca 480 aagactgtgt atttaaggac tgggaggagt cgggggagga gttgaggtta aaggtctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atcttttgtt catgtcccac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 atttttgcct tctgacttct tcccgtctgt ccgggaccta ctcgacaccg cttcagccct 780 ctaccgagat gccttagaat caccagaaca ttgcaccccc aaccacactg ctctcaggca 840 agctattttg tgctggggtg agttgatgac attggcttcc tgggtgggca ataatttaga 900 ggatcctgca gcaagagatc tagtagttaa ttatgtcaat actaacatgg gcctaaaaat 960 <210> 28 <211> 960 <212> DNA <213> Hepatitis B virus <400> 28 cgcatgcgcg gaacctttta ggctccgctg ccgatccata ctgcggaact cctagcagct 60 tgtttcgctc gcagccggtc tggagcggac attatcggca ctgacaactc cgttgtcctt 120 tctcggaagt acacctcctt cccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcgtggt 240 cgcttggggc tatgccgccc tcttctccgc ctgccgttcc ggccgacgac gggtcgcacc 300 tctctttacg cggactcccc acctgtgcct ttacatcggc cggcccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg ggaaccaccg tgaacgcccc ttggaacttg ccaacaacct 420 tatataagag gactcttgga ctttcgcccc ggtcaacgac ctggattgag gaatacatca 480 aagactgtgt atttaaggac tgggaggagt cgggggagga gtcgaggtta atgatctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc agcttttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttgggac atggacatcg acccttataa agaatttgga gcttctgtgg agttactctc 720 mtttttgcct tctgatttct tcccgtctgt ccgggaccta ctcgacaccg cttcagccct 780 cttccgagat gccttagaat cacccgaaca ttgcaccccc caccayacag ctctcaggca 840 agctattttg tgctggggtg agttgatgac tttggcttcc tgggtgggca ataatttaga 900 tgatcctgca tccagagatc tagtagttaa ttatgtcaat actaacatgg gcctaaaact 960 <210> 29 <211> 960 <212> DNA <213> Hepatitis B virus <400> 29 cgcatgcgtg gaacctttgc agctccactg ccgatccata ctgcggaact gctagctgcc 60 tgttttgctc gcagccggtc tggagcaaaa cttatcggga ctgataattc tgtcgtcctt 120 tcacggaaat atacatcatt tccatggctg ctaggctgtg ctgccaactg gatcatgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcggggc 240 cgtttgggga tctaccgtcc ccttctccgt ctgccgtacc ggccgtccac ggggcgcacc 300 tctctttacg cggactcccc gtgtgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca cctggtattg cccaaggtat 420 tgcataagag gactcttgga ctctcggcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttaaagac tgggaggagc tgggggagga gattaggcta aaggtctttg 540 tactaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgatttct ctccgtctgt tcgagatcta ctcgacaccg cctcagctct 780 ctaccgggag gccttagagt ctccggaaca ttgttcacct caccatacag cacttaggca 840 agctgtcctg tgttggggtg agttgatgac tctagctacc tgggtgggaa gtaatttgga 900 cgaccctgga tccagggatt tagtagtcac ctatgtcaat gttaatatgg gcctaaagtt 960 <210> 30 <211> 960 <212> DNA <213> Hepatitis B virus <400> 30 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata cggcggaact gctagctgcc 60 tgttttgctc gcagcaggtc tggggcaaat cttatcggga ctgataattc tgtcgtcctt 120 tcgcggaaat atacatcatt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcggggc 240 cgcttgggga tctaccgtcc ccttcttcgc ctgccgttcc ggccgtccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggaccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgacca cctgaccttg cccaaggtct 420 tgcataagag gactcttgga ctcccagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttaaagac tgggaggagt tgggggagga gatcaggtta aagatttatg 540 tattaggagg ctgtaggcat aaattggtct gcgcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttaggac atggacattg acccttataa agaatttgga gcttctttgg agttactctc 720 ttttttgcct tctgatttct ttccatctgt tcgagatctc ctcgacaccg cctcagcttt 780 gtatcgggag gccttagagt ctcctgaaca ttgtacacct caccatacag cactcaggca 840 agcggtaata tgttggggtg agttgatgac tctagctact tgggtgggaa gtaatttgga 900 agaccctgcc tccagggatt tagtagtcag ctatgtcaat ggtcatatgg gcctaaaatt 960 <210> 31 <211> 960 <212> DNA <213> Hepatitis B virus <400> 31 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact gctagctgcc 60 tgttttgctc gcagcaggtc tggagcaaac attataggga ctgataattc cgtcgtcctt 120 tcgcggaaat atacgtcctt tccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcctg cggacgaccc ctctcggggc 240 cgcttgggga tctaccgtcc ccttcttcgt ctgccgttcc ggccgtccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtgcct tctcatctgc cggcccgtgt gcacttcgct 360 tcacctctgc acgtcgcatg gagaccaccg tgaacgccca cctgaccttg cccaaggtat 420 tgcataagag gactcttgga ctctcagcaa tgtcaacgac cgaccttgag gcatacttca 480 aagactgtgt gtttaaagac tgggaggagt tgggggagga gatcaggtta aaggtctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcatgtt catgtcctac tgttcaagcc tccaagttgt gccttgggtg 660 gctttggggc atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgatttct ttccatctat tcgagatctc ctcgacaccg cctcagcttt 780 gtatcgggag gccttagagt ctcctgaaca ttgttcacct caccatacag cactcaggca 840 agctgttcta tgttggggtg agttgatgac tctagctacc tgggtgggaa gtaatttgga 900 agaccctgcc tccagggatt tagtagtcag ctatgtcaat gttaatatgg ggctaaaaat 960 <210> 32 <211> 960 <212> DNA <213> Hepatitis B virus <400> 32 cgcatgcgtg gaacctttgt ggctcctctg ccgatccata ctgcggaact cctagcagct 60 tgttttgctc gcagcaggtc tggggcaaac ctactcggga cagataattc tgtggtttta 120 tcacggaagt atacgtcctt cccatggctg ctaggctgtg ctgccaactg gatcctgcgc 180 gggacgtcct ttgtctacgt cccgtcggcg ctgaatcccg cggacgaccc gtctcggggc 240 aagttgggcc tctaccgtcc tcttctccgt ctgccgttcc gaccgaccac ggggcgcacc 300 tctctttacg cggtctcccc gtctgtacct tctcatctgc cggcccgtgt gcacttcgct 360 tcacctctgc acgttgcatg gagaccaccg tgaacgcccc ctggaatttg ccaagagtgt 420 tacataagcg gactcttgga ctttcggaca tgtcaacgtc cgcaattgag acatacttca 480 aggactgtgt atttaaagac tgggaggagt caggggagga gattaggtta atgatctttg 540 tattaggagg ctgtaggcat aaattggtct gttcaccagc accatgcaac tttttcacct 600 ctgcctaatc atctcttgtt catgtcctac tgttcaagcc tccaagctgt gccttgggtg 660 gctttagggc atggacattg acccttataa agaatttgga gcttctgtgg agttactctc 720 ttttttgcct tctgatttct ttccgtcaat cagagacctc ctcgacaccg cctcagctct 780 ataccgagaa gccttagagt ctccagaaca ttgctcacct caccatacag cacttaggca 840 agctgtgcta tgttggggtg agttgatgaa tctggctacc tgggtgggaa gtaatttgga 900 agacccagca tccagggaac ttgtagtcag ctatgttaac attaatatgg gcctaaaaat 960 <210> 33 <211> 378 <212> DNA <213> Homo sapiens <400> 33 tatcacagat tctttttttt taaattaaag taacatttcc aatctactaa tgctaatact 60 gtttcgtatt tatagctgat ttgatggagt tggacatggc catggaacca gacagaaaag 120 cggctgttag tcactggcag caacagtctt acctggactc tggaatccat tctggtgcca 180 ctaccacagc tccttctctg agtggtaaag gcaatcctga ggaagaggat gtggatacct 240 cccaagtcct gtatgagtgg gaacagggat tttctcagtc cttcactcaa gaacaagtag 300 ctggtaagag tattattttt cattgcctta ctgaaagtca gaatgcagtt ttgagaacta 360 aaaagttagt gtataata 378 <210> 34 <211> 673 <212> DNA <213> Homo sapiens <400> 34 gtcgcctgcg ctgctctccg catgtcgctg gttccccccg gccgccctca accccagccg 60 gacgccgacc ccggggaggc ccacctggcg gaaggagggg gcggcggggg gcggccgtgc 120 gtcccagggc acgcacacca ggcactgggc caccagcgcg cggaaagccg ccgggtcccc 180 gcgctgcacc agccgccagc cctggggccc caggcgccgc acgaacgtgg ccagcggcag 240 cacctcgcgg tagtggctgc gcagcaggga gcgcacggct cggcagcggg gagcgcgcgg 300 catcgcgggg gtggccgggg ccagggcttc ccacgtgcgc agcaggacgc agcgctgcct 360 gaaactcgcg ccgcgaggag agggcggggc cgcggaaagg aaggggaggg gctgggaggg 420 cccggagggg gctgggccgg ggacccggga ggggtcggga cggggcgggg tccgcgcgga 480 ggaggcggag ctggaaggtg aaggggcagg acgggtgccc gggtccccag tccctccgcc 540 acgtgggaag cgcggtcctg ggcgtctgtg cccgcgaatc cactgggagc ccggcctggc 600 cccgacagcg cagctgctcc gggcggaccc gggggtctgg gccgcgcttc cccgcccgcg 660 cgccgctcgc gct 673 <210> 35 <211> 779 <212> DNA <213> Homo sapiens <400> 35 ggttccttct ctgcaggccc aggtgaccca gggttggaag tgtctcatgc tggatcccca 60 cttttcctct tgcagcagcc agactgcctt ccgggtcact gccatggagg agccgcagtc 120 agatcctagc gtcgagcccc ctctgagtca ggaaacattt tcagacctat ggaaactgtg 180 agtggatcca ttggaagggc aggcccacca cccccacccc aaccccagcc ccctagcaga 240 gacctgtggg aagcgaaaat tccatgggac tgactttctg ctcttgtctt tcagacttcc 300 tgaaaacaac gttctggtaa ggacaagggt tgggctgggg acctggaggg ctggggacct 360 ggagggctgg ggggctgggg ggctgaggac ctggtcctct gactgctctt ttcacccatc 420 tacagtcccc cttgccgtcc caagcaatgg atgatttgat gctgtccccg gacgatattg 480 aacaatggtt cactgaagac ccaggtccag atgaagctcc cagaatgcca gaggctgctc 540 cccccgtggc ccctgcacca gcagctccta caccggcggc ccctgcacca gccccctcct 600 ggcccctgtc atcttctgtc ccttcccaga aaacctacca gggcagctac ggtttccgtc 660 tgggcttctt gcattctggg acagccaagt ctgtgacttg cacggtcagt tgccctgagg 720 ggctggcttc catgagactt caatgcctgg ccgtatcccc ctgcatttct tttgtttgg 779 <210> 36 <211> 528 <212> DNA <213> Homo sapiens <400> 36 gctgccgtct tccagttgct ttatctgttc acttgtgccc tgactttcaa ctctgtctcc 60 ttcctcttcc tacagtactc ccctgccctc aacaagatgt tttgccaact ggccaagacc 120 tgccctgtgc agctgtgggt tgattccaca cccccgcccg gcacccgcgt ccgcgccatg 180 gccatctaca agcagtcaca gcacatgacg gaggttgtga ggcgctgccc ccaccatgag 240 cgctgctcag atagcgatgg tgagcagctg gggctggaga gacgacaggg ctggttgccc 300 agggtcccca ggcctctgat tcctcactga ttgctcttag gtctggcccc tcctcagcat 360 cttatccgag tggaaggaaa tttgcgtgtg gagtatttgg atgacagaaa cacttttcga 420 catagtgtgg tggtgcccta tgagccgcct gaggtctggt ttgcaactgg ggtctctggg 480 aggaggggtt aagggtggtt gtcagtggcc ctccaggtga gcagtagg 528 <210> 37 <211> 260 <212> DNA <213> Homo sapiens <400> 37 aaaaaggcct cccctgcttg ccacaggtct ccccaaggcg cactggcctc atcttgggcc 60 tgtgttatct cctaggttgg ctctgactgt accaccatcc actacaacta catgtgtaac 120 agttcctgca tgggcggcat gaaccggagg cccatcctca ccatcatcac actggaagac 180 tccaggtcag gagccacttg ccaccctgca cactggcctg ctgtgcccca gcctctgctt 240 gcctctgacc cctgggccca 260 <210> 38 <211> 436 <212> DNA <213> Homo sapiens <400> 38 cctggttttt taaatgggac aggtaggacc tgatttcctt actgcctctt gcttctcttt 60 tcctatcctg agtagtggta atctactggg acggaacagc tttgaggtgc gtgtttgtgc 120 ctgtcctggg agagaccggc gcacagagga agagaatctc cgcaagaaag gggagcctca 180 ccacgagctg cccccaggga gcactaagcg agcctggttt tttaaatggg acaggtagga 240 cctgatttcc ttactgcctc ttgcttctct tttcctatcc tgagtagcac tgcccaacaa 300 caccagctcc tctccccagc caaagaagaa accactggat ggagaatatt tcacccttca 360 ggtactaagt cttgggacct cttatcaagt ggaaagtttc cagtctaaca ctcaaaatgc 420 cgttttcttc ttgact 436 <210> 39 <211> 453 <212> DNA <213> Homo sapiens <400> 39 cctggttttt taaatgggac aggtaggacc tgatttcctt actgcctctt gcttctcttt 60 tcctatcctg agtagtggta atctactggg acggaacagc tttgaggtgc gtgtttgtgc 120 ctgtcctggg agagaccggc gcacagagga agagaatctc cgcaagaaag gggagcctca 180 ccacgagctg cccccaggga gcactaagcg aggtaagcaa gcaggacaag aagcggtgga 240 ggagaccaag ggtgcagtta tgcctcagat tcacttttat cacctttcct tgcctctttc 300 ctagcactgc ccaacaacac cagctcctct ccccagccaa agaagaaacc actggatgga 360 gaatatttca cccttcaggt actaagtctt gggacctctt atcaagtgga aagtttccag 420 tctaacactc aaaatgccgt tttcttcttg act 453 <210> 40 <211> 257 <212> DNA <213> Homo sapiens <400> 40 caattgtaac ttgaaccatc ttttaactca ggtactgtgt atatacttac ttctccccct 60 cctctgttgc tgcagatccg tgggcgtgag cgcttcgaga tgttccgaga gctgaatgag 120 gccttggaac tcaaggatgc ccaggctggg aaggagccag gggggagcag ggctcactcc 180 aggtgagtga cctcagcccc ttcctggccc tactcccctg ccttcctagg ttggaaagcc 240 ataggattcc attctca 257 <210> 41 <211> 232 <212> DNA <213> Homo sapiens <400> 41 ttggtcaggg aaaaggggca cagaccctct cactcatgtg atgtcatctc tcctccctgc 60 ttctgtctcc tacagccacc tgaagtccaa aaagggtcag tctacctccc gccataaaaa 120 actcatgttc aagacagaag ggcctgactc agactgacat tctccacttc ttgttcccca 180 ctgacagcct cccaccccca tctctccctc ccctgccatt ttgggttttg gg 232 <210> 42 <211> 120 <212> DNA <213> Lambda phage <400> 42 ctggtgccgc cgcaatggcc attaaccgcg ttgcttcatc cgcgatatcg cagtcggcgt 60 cacaggttgc ccgtgagaca aaggtacgcc ggaaactggt aaaggaaagg gccaggctga 120 <210> 43 <211> 120 <212> DNA <213> Lambda phage <400> 43 acgtgtcggc ggagcagatt gcgtatgttg ctcagttgca gcgttccggc gatgaagccg 60 gggcattgca ggcggcgaac gaggccgcaa cgaaagggtt tgatgaccag acccgccgcc 120 <210> 44 <211> 120 <212> DNA <213> Lambda phage <400> 44 gccgtggtgg ctggtctgcc gggggacgat tcataagttc cgctgtgtgc cgcatctcac 60 cgggcggcgc tttgagcacg gtgtgacgga ctgttacaca ctgttccggg atgcttatca 120 <210> 45 <211> 120 <212> DNA <213> Lambda phage <400> 45 catgtaccgg gcgatgttat tgaaatctgc gatgatgact atgccggtat cagcaccggt 60 ggtcgtgtgc tggcggtgaa cagccagacc cggacgctga cgctcgaccg tgaaatcacg 120 <210> 46 <211> 240 <212> DNA <213> Lambda phage <400> 46 ctggtgccgc cgcaatggcc attaaccgcg ttgcttcatc cgcgatatcg cagtcggcgt 60 cacaggttgc ccgtgagaca aaggtacgcc ggaaactggt aaaggaaagg gccaggctga 120 aaagggccac ggtcaaaaat ccgcaggcca gaatcaaagt taaccggggg gatttgcccg 180 taatcaagct gggtaatgcg cgggttgtcc tttcgcgccg caggcgtcgt aaaaaggggc 240 <210> 47 <211> 240 <212> DNA <213> Lambda phage <400> 47 catgtaccgg gcgatgttat tgaaatctgc gatgatgact atgccggtat cagcaccggt 60 ggtcgtgtgc tggcggtgaa cagccagacc cggacgctga cgctcgaccg tgaaatcacg 120 ctgccatcct ccggtaccgc gctgataagc ctggttgacg gaagtggcaa tccggtcagc 180 gtggaggttc agtccgtcac cgacggcgtg aaggtaaaag tgagccgtgt tcctgacggt 240 <210> 48 <211> 180 <212> DNA <213> Lambda phage <400> 48 acgtgtcggc ggagcagatt gcgtatgttg ctcagttgca gcgttccggc gatgaagccg 60 gggcattgca ggcggcgaac gaggccgcaa cgaaagggtt tgatgaccag acccgccgcc 120 tgaaagagaa catgggcacg ctggagacct gggcagacag gactgcgcgg gcattcaaat 180 <210> 49 <211> 180 <212> DNA <213> Lambda phage <400> 49 gccgtggtgg ctggtctgcc gggggacgat tcataagttc cgctgtgtgc cgcatctcac 60 cgggcggcgc tttgagcacg gtgtgacgga ctgttacaca ctgttccggg atgcttatca 120 tctggcgggg attgagatgc cggactttca tcgtgaggat gactggtggc gtaacggcca 180 <210> 50 <211> 120 <212> DNA <213> Lambda phage <400> 50 agttatacat tctgccatag attatagcta aggcatgtaa taattcgtaa tcttttagcg 60 tattagcgac ccatcgtctt tctgatttaa taatagatga ttcagttaaa tatgaaggta 120 <210> 51 <211> 120 <212> DNA <213> Lambda phage <400> 51 cacacaacac catatgcatt taagtcgctt gaaattgcta taagcagagc atgttgcgcc 60 agcatgatta atacagcatt taatacagag ccgtgtttat tgagtcggta ttcagagtct 120 <210> 52 <211> 120 <212> DNA <213> Lambda phage <400> 52 gctgacagcc tgattgcaaa attcaaagaa gcgggcggaa cggtcagaga gattgatgta 60 tgagcagagt caccgcgatt atctccgctc tggttatctg catcatcgtc tgcctgtcat 120 <210> 53 <211> 120 <212> DNA <213> Lambda phage <400> 53 agaaacgaat gctgcagcgt cacaacaatc agccgccacg tctgcctcca ccgcggccac 60 gaaagcgtca gaggccgcca cttcagcacg agatgcggtg gcctcaaaag aggcagcaaa 120 <210> 54 <211> 120 <212> DNA <213> Lambda phage <400> 54 atcgccgtgc tgccggtgtc cggcacgctg gtcagccgga cgcgggcgct gcagccgtac 60 tcggggatga ccggttacaa cggcattatc gcccgtctgc aacaggctgc cagcgatccg 120 <210> 55 <211> 240 <212> DNA <213> Homo sapiens <400> 55 gaaaagagct aggaaggaca ggcaacttgg caaatcaaag ccctgggact agggggttaa 60 aatacagctt cccctcttcc cacccgcccc agtctctgtc ccttttgtag gagggactta 120 gagaaggggt gggcttgccc tgtccagtta atttctgacc tttactcctg ccctttgagt 180 ttgatgatgc tgagtgtaca agcgttttct ccctaaaggg tgcagctgag ctaggcagca 240 <210> 56 <211> 240 <212> DNA <213> Homo sapiens <400> 56 gattacgaga ggtccctgag tcgcctgacg ctggacgaca tcgaacggtt ggccagccgc 60 ttcctgcacc ctgaagtgac tgagacaatg gagaagggct tctccaaata gaattctcgg 120 agcatgggga ggtgcccaac gccaggctac cgctgcatgt cgcactaagt gtgttctcct 180 gttgcagttg ggctcatcat cgtcatagct ggcatgtacc tggctctggc caggtgctag 240

Claims

부분 B형 간염 바이러스(HBV) 표적화 프로브의 하나 이상의 세트를 포함하는 암을 검출하기 위한 프로브 조합으로서,
부분 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 부분 HBV 표적화 프로브의 정렬된 세트의 전체 서열이 HBV 유전자형의 게놈 상의 동향 반복(DR; direct repeat) 영역의 기준 서열과 대응되고,
부분 HBV 표적화 프로브의 정렬된 세트에서, 각각의 부분 HBV 표적화 프로브는 부분 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 부분 HBV 표적화 프로브와 중첩되는 것인, 암을 검출하기 위한 프로브 조합.
제1항에 있어서, HBV 유전자형은 유전자형 A, 유전자형 B, 유전자형 C, 유전자형 D, 유전자형 E, 유전자형 F, 유전자형 G, 유전자형 H, 유전자형 I 및 유전자형 J를 포함하는 것인 프로브 조합.
제1항에 있어서, DR 영역의 기준 서열은 서열번호 3-32를 포함하는 것인 프로브 조합.
제1항에 있어서, 전체 HBV 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
전체 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 전체 HBV 표적화 프로브의 정렬된 세트의 전체 서열이 HBV 유전자형의 게놈의 기준 서열과 대응되고,
전체 HBV 표적화 프로브의 정렬된 세트에서, 각각의 전체 HBV 표적화 프로브는 전체 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 전체 HBV 표적화 프로브와 중첩되는 것인 프로브 조합.
제4항에 있어서, 핫스팟 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
핫스팟 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 핫스팟 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 암 핫스팟 유전자의 기준 서열과 대응되고,
핫스팟 유전자 표적화 프로브의 정렬된 세트에서, 각각의 핫스팟 유전자 표적화 프로브는 핫스팟 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 핫스팟 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제5항에 있어서, 암 핫스팟 유전자는 CTNNB1 유전자, TERT 유전자, 및 TP53 유전자를 포함하는 것인 프로브 조합.
제5항에 있어서, 암 핫스팟 유전자의 기준 서열은 서열번호 33-41을 포함하는 것인 프로브 조합.
제5항에 있어서, 외인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
외인성 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 외인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 외인성 유전자의 기준 서열과 대응되고,
외인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 외인성 유전자 표적화 프로브는 외인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 외인성 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제8항에 있어서, 외인성 유전자는 람다 파지에서 유래하는 것인 프로브 조합.
제8항에 있어서, 외인성 유전자의 기준 서열은 서열번호 42-54를 포함하는 것인 프로브 조합.
제8항에 있어서, 내인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
내인성 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 내인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 내인성 유전자의 기준 서열과 대응되고,
내인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 내인성 유전자 표적화 프로브는 내인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 내인성 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제11항에 있어서, 내인성 유전자는 GAPDH 유전자 및 GdX 유전자를 포함하는 것인 프로브 조합.
제11항에 있어서, 내인성 유전자의 기준 서열은 서열번호 55 및 서열번호 56을 포함하는 것인 프로브 조합.
제1항에 있어서, 암은 간세포 암종을 포함하는 것인 프로브 조합.
제1항에 있어서, HBV에 감염된 대상자의 시료에 대해 수득한 DNA로부터 바이러스-숙주 접합부를 갖는 표적 뉴클레오티드 단편을 포획하는 데 사용되는 프로브 조합.
제15항에 있어서, DNA는 대상자의 게놈 DNA 및 순환 종양 DNA를 포함하는 것인 프로브 조합.
제15항에 있어서, 시료는 생체액 및 간 조직을 포함하는 것인 프로브 조합.
전체 HBV 표적화 프로브의 하나 이상의 세트를 포함하는 암을 검출하기 위한 프로브 조합으로서,
전체 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 전체 HBV 표적화 프로브의 정렬된 세트의 전체 서열이 HBV 유전자형의 게놈의 기준 서열과 대응되고,
전체 HBV 표적화 프로브의 정렬된 세트에서, 각각의 전체 HBV 표적화 프로브는 전체 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 전체 HBV 표적화 프로브와 중첩되는 것인, 암을 검출하기 위한 프로브 조합.
제18항에 있어서, HBV 유전자형은 유전자형 A, 유전자형 B, 유전자형 C, 유전자형 D, 유전자형 E, 유전자형 F, 유전자형 G, 유전자형 H, 유전자형 I 및 유전자형 J를 포함하는 것인 프로브 조합.
제18항에 있어서, 부분 B형 간염 바이러스(HBV) 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
부분 HBV 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 부분 HBV 표적화 프로브의 정렬된 세트의 전체 서열이 HBV 유전자형의 게놈 상의 동향 반복(DR) 영역의 기준 서열과 대응되고,
부분 HBV 표적화 프로브의 정렬된 세트에서, 각각의 부분 HBV 표적화 프로브는 부분 HBV 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 부분 HBV 표적화 프로브와 중첩되는 것인 프로브 조합.
제20항에 있어서, DR 영역의 기준 서열은 서열번호 3-32를 포함하는 것인 프로브 조합.
제20항에 있어서, 핫스팟 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
핫스팟 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 핫스팟 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 암 핫스팟 유전자의 기준 서열과 대응되고,
핫스팟 유전자 표적화 프로브의 정렬된 세트에서, 각각의 핫스팟 유전자 표적화 프로브는 핫스팟 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 핫스팟 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제22항에 있어서, 암 핫스팟 유전자는 CTNNB1 유전자, TERT 유전자, 및 TP53 유전자를 포함하는 것인 프로브 조합.
제22항에 있어서, 암 핫스팟 유전자의 기준 서열은 서열번호 33-41을 포함하는 것인 프로브 조합.
제22항에 있어서, 외인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
외인성 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 외인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 외인성 유전자의 기준 서열과 대응되고,
외인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 외인성 유전자 표적화 프로브는 외인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 외인성 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제25항에 있어서, 외인성 유전자는 람다 파지에서 유래하는 것인 프로브 조합.
제25항에 있어서, 외인성 유전자의 기준 서열은 서열번호 42-54를 포함하는 것인 프로브 조합.
제25항에 있어서, 내인성 유전자 표적화 프로브의 하나 이상의 세트를 추가로 포함하고,
내인성 유전자 표적화 프로브의 각 세트의 서열을 정렬시키는 경우, 내인성 유전자 표적화 프로브의 정렬된 세트의 전체 서열이 내인성 유전자의 기준 서열과 대응되고,
내인성 유전자 표적화 프로브의 정렬된 세트에서, 각각의 내인성 유전자 표적화 프로브는 내인성 유전자 표적화 프로브의 길이의 일부분이 하나 또는 둘의 인접한 내인성 유전자 표적화 프로브와 중첩되는 것인 프로브 조합.
제26항에 있어서, 내인성 유전자는 GAPDH 유전자 및 GdX 유전자를 포함하는 것인 프로브 조합.
제26항에 있어서, 내인성 유전자의 기준 서열은 서열번호 55 및 서열번호 56을 포함하는 것인 프로브 조합.
제18항에 있어서, 암은 간세포 암종을 포함하는 것인 프로브 조합.
제18항에 있어서, HBV에 감염된 대상자의 시료에 대해 수득한 DNA로부터 바이러스-숙주 접합부를 갖는 표적 뉴클레오티드 단편을 포획하는 데 사용되는 프로브 조합.
제32항에 있어서, DNA는 대상자의 게놈 DNA 및 순환 종양 DNA를 포함하는 것인 프로브 조합.
제32항에 있어서, 시료는 생체액 및 간 조직을 포함하는 것인 프로브 조합.