KR102503884B1

KR102503884B1 - 시토신 변형의 중아황산염-유리 염기-해상도 식별

Info

Publication number: KR102503884B1
Application number: KR1020207022948A
Authority: KR
Inventors: 춘샤오 쑹; 이빈 휴
Original assignee: 루드비히 인스티튜트 포 캔서 리서치 리미티드
Priority date: 2018-01-08
Filing date: 2019-01-08
Publication date: 2023-03-07
Anticipated expiration: 2039-01-08
Also published as: WO2019136413A4; US20250011861A1; US12071660B2; NZ765943A; IL275850A; AU2022235598B2; JP2021509587A; BR112020013718A2; CN115181783A; KR20230030037A; EP3737748A4; US11987843B2; KR102768046B1; CN111971386A; US20210317519A1; US11959136B2; AU2022235598A1; MX2022010611A; CA3087915A1; US20200370114A1

Abstract

본 개시는 핵산 서열 내 5-메틸시토신, 5-하이드록시메틸시토신, 5-카르복실시토신 및/또는 5-포르밀시토신의 위치의 중아황산-유리 식별을 위한 방법을 제공한다.

Description

시토신 변형의 중아황산염-유리 염기-해상도 식별

관련 출원에 대한 상호 참조

본 출원은 2018년 1월 8일에 출원된 미국 가출원 제62/614,798호, 2018년 4월 20일에 출원된 미국 가출원 제62/660,523호 및 2018년 11월 26일에 출원된 미국 가출원 제62/771,409호의 이익을 주장하며, 이들 각각은 그 전체가 참조로서 본원에 통합된다.

기술분야

본 개시는 핵산 서열 내 5-메틸시토신, 5-하이드록시메틸시토신, 5-카르복실시토신 및/또는 5-포르밀시토신의 위치를 식별하는 방법을 제공한다.

5-메틸시토신(5mC) 및 5-하이드록시메틸시토신(5hmC)은 포유류 게놈에서 발견된 2개의 주요 후성유전적 마크(epigenetic mark)이다. 5hmC는 텐-일레븐 트랜스로케이션(TET) 패밀리 디옥시게나아제에 의해 5mC로부터 생성된다. Tet는 5hmC를 5-포르밀시토신(5fC) 및 5-카르복실시토신(5caC)으로 추가로 산화시킬 수 있는데, 이들은 5mC 및 5hmC와 비교했을 때 포유류 게놈에서 존재량이 훨씬 더 낮다(5hmC보다 10배 내지 100배 낮음). 5mC와 5hmC는 유전자 조절으로부터 정상 성장에 이르는 광범위한 생물학적 과정에서 함께 중요한 역할을 한다. 비정상적인 DNA 메틸화 및 히드록시메틸화는 다양한 질환에 연루되어 왔고, 이들은 널리 인정된 암의 특징이다. 따라서, DNA 서열에서 5mC 및 5hmC를 결정하는 것은 기본 연구에 중요할 뿐만 아니라 진단과 치료를 포함하는 임상적 응용에도 가치가 있다.

5fC 및 5caC는 5mC의 2개의 최종 산화된 유도체이며, 염기 절제 복구 경로에서 티민 DNA 글리코실라아제(TDG)에 의해 미변형 시토신으로 전환될 수 있다. 따라서, 5fC 및 5caC는 활성 탈메틸화 과정에서 2개의 중요한 핵심 중간체이며, 이는 배아 발생에서 중요한 역할을 한다. 5fC 및 5caC는 이러한 맥락에서 발견되며, 거의 완전한 5mC 탈메틸화의 표시자의 역할을 할 수 있다. 5fC 및 5caC는 특이적 단백질에 결합하여 RNA 중합효소 II의 비율 및 특이성에 영향을 미치는 것과 같은 추가의 기능을 할 수도 있다.

또한, 5mC는 안정적이고 고도로 풍부한 tRNA와 rRNA 및 mRNA 모두에서 식별된 전사후 RNA 변형이다. 또한, 5mC는 snRNA(작은 핵 RNA), miRNA(마이크로 RNA), lncRNA(긴 비암호화 RNA) 및 eRNA(인핸서 RNA)에서 검출되었다. 그러나, 상이한 유기체의 특정 RNA 유형에서는 5mC의 발생에 차이가 있는 것으로 보인다. 예를 들어, 5mC는 박테리아에서 유래된 tRNA와 mRNA에는 존재하지 않는 것으로 보이는 반면, 진핵생물과 고세균(archaea)의 tRNA와 mRNA에서는 발견되어 왔다.

5hmC는 RNA에서도 검출되었다. 예를 들어, 초파리(Drosophila) 및 마우스에서 유래된 mRNA는 5hmC를 함유하는 것으로 밝혀졌다. DNA에서 5mC를 산화시키는 동일한 효소군은 포유류 총 RNA에서 5hmC의 형성을 촉매하는 것으로 보고되었다. 파리(fly)의 경우, 5hmC 항체를 이용한 메틸화 RNA 면역 침강 시퀀싱(MerIP-seq)을 사용하는 전사체의 폭넓은 연구를 통해 많은 mRNA 코딩 서열에서 5hmC의 존재를 검출하였고, 뇌에서는 특히 높은 수준이었다. 활성 번역은 RNA에서 높은 수준의 5hmC와 관련이 있으며, RNA에 5hmC 축적을 담당하는 TET 효소가 없는 파리는 뇌 발달 장애가 있음이 또한 보고되었다.

DNA 메틸화 및 히드록시메틸화 검정에 대한 현재의 최적 표준(gold standard) 및 가장 널리 사용되는 방법은 아황산 시퀀싱(BS)과 이로부터 유도된 방법들, 예컨대 Tet-보조형 아황산염 시퀀싱(TAB-Seq) 및 산화 아황산염 시퀀싱(oxBS) 등이다. 이들 방법 모두는, 5mC 및/또는 5hmC를 온전하게 남기면서 비메틸화 시토신을 우라실로 전환하기 위해 중아황산염 처리(bisulfite treatment)를 사용한다. 우라실을 티민으로서 판독하는 중아황산염-처리 DNA의 PCR 증폭을 통해, 각각의 시토신의 변형 정보를 단일 염기 해상도(C의 T로의 전이가 비메틸화 시토신의 위치를 제공함)에서 추론할 수 있다. 그러나, 중아황산염 시퀀싱에는 적어도 2개의 큰 단점이 있다. 첫째, 중아황산염 처리는 가혹한 화학 반응으로서, 요구되는 산성 및 열 조건에서의 탈푸린화(depurination)으로 인해 90%가 넘는 DNA가 분해된다. 이러한 분해로 인해, 순환식 무세포 DNA 및 단세포 시퀀싱을 포함하는 임상 샘플과 같은 저입력 샘플에 이를 적용하는 것은 심각한 한계가 있다. 둘째, 중아황산 시퀀싱은 미변형 시토신의 티미르로의 완전한 전환에 의존한다. 미변형 시토신은 인간 게놈 내 총 시토신의 약 95%를 차지한다. 이들 위치 모두를 티미딘으로 전환하면 서열 복잡성이 심각하게 감소되고, 이는 낮은 시퀀싱 정확도, 낮은 맵핑율, 불균일한 게놈 커버리지 및 시퀀싱 비용 증가로 이어진다. 또한, 중아황산염 시퀀싱 방법은 미변형 시토신이 티민으로 불완전하게 전환됨으로 인해 5mC 및 5hmC을 오검출(false detection)하기 쉽다.

중아황산염 시퀀싱은 RNA에서 시토신 메틸화를 검출하는 데에도 사용되어 왔다. 메틸화-RNA-면역침전과 같이 RNA에서 5mC를 검출하기 위한 다른 방법과 달리, RNA-중아황산염-시퀀싱(RNA-BS-seq)은 RNA에서 특정 C 위치의 메틸화 정도를 결정할 수 있다는 장점이 있다. 그러나, RNA-BS-seq는 DNA의 중아황산염 시퀀싱에 대해 전술된 동일한 단점으로 인한 문제를 안고 있다. 특히, 반응 조건은 RNA의 실질적 분해를 야기할 수 있다.

미변형 시토신에 영향을 주지 않으면서 염기-해상도에서 변형된 시토신(5mC 및 5hmC)을 정량적으로 검출할 수 있는 온화한 반응(mild reaction)인 DNA 메틸화 및 히드록시메틸화 분석 방법이 필요하다. 마찬가지로, 미변형 시토신에 영향을 주지 않으면서 변형된 시토신을 염기-해상도에서 정량적으로 검출할 수 있는 온화한 반응 조건을 사용하는 RNA 메틸화 및 히드록시메틸화 분석 방법이 필요하다.

본 발명은 핵산에서 5-메틸시토신, 5-하이드록시메틸시토신, 5-카르복실시토신 및/또는 5-포르밀시토신 중 하나 이상의 위치를 식별하는 방법을 제공한다. 본원에 기술된 방법은, 미변형 시토신에 영향을 주지 않으면서 변형된 시토신을 염기-해상도에서 정량적으로 검출하는 온화한 반응을 포함하는 DNA 또는 RNA 메틸화 및 히드록시메틸화 분석을 가능하게 한다. 보란 변이체(예: 피리딘 보란 및 2-피콜린 보란(pic-BH₃)의한 TET 산화와 환원을 조합함으로써 5mC 및 5hmC를 식별하는 새로운 방법이 본원에 제공되며, 이는 본원에서 TAPS((TET Assisted Pyridine borane Sequencing, 즉 TET에 의한 피리딘 보란 시퀀싱)로서 지칭된다(표 1). TAPS는 미변형 시토신에 영향을 주지 않으면서 높은 감수성과 특이성으로 변형을 직접 검출하며, 다른 시토신 변형을 검출하는 데 사용될 수 있다. 이는 비파괴적이며, RNA 및 DNA를 최대 10 kbs까지 보존한다. 중아황산염 시퀀싱과 비교했을 때, TAPS는 맵핑율이 더 높고, 커버리지가 더 균일하며 시퀀싱 비용이 더 낮은데, 이는 정확도가 더 높고, 더 포괄적이며 더 저렴한 메틸롬(methylome) 분석을 가능하게 한다. 이 방법의 변형으로서, 산화 단계를 사용하지 않는 방법이 본원에 기술된 바와 같은 5fC 및/또는 5caC를 식별하는데 사용된다.

일 양태에서, 본 발명은 표적 핵산에서 5-메틸시토신(5mC)을 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;

b. 핵산을 변형시키는 단계로서, 다음의 단계를 포함하는 단계:

i. 핵산 샘플 내 5-하이드록시메틸시토신(5hmC)에 차단기(blocking group)를 첨가하는 단계;

ii. 핵산 샘플 내 5mC를 5-카르복실시토신(5caC) 및/또는 5-포르밀시토신(5fC)으로 전환시키는 단계; 및

iii. 5caC 및/또는 5fC를 디하이드로우라실(DHU)로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계; 및

c. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5mC의 위치를 제공하는 것인 단계를 포함한다.

표적 핵산에서 5mC를 식별하는 방법의 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산 내 각각의 위치에 있는 5mC의 정량적 수치를 제공한다. 구현예에서, 핵산은 DNA이다. 다른 구현예에서, 핵산은 RNA이다.

또 다른 양태에서, 본 발명은 표적 핵산에서 5mC 또는 5hmC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;

i. 핵산 샘플 내 5mC 및 5hmC를 5-카르복실시토신(5caC) 및/또는 5fC로 전환시키는 단계; 및

ii. 5caC 및/또는 5fC를 DHU로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계를 포함하는, 단계; 및

c. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5mC 또는 5hmC의 위치를 제공하는 것인 단계를 포함한다.

5mC 또는 5hmC를 식별하는 방법의 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산 내 각각의 위치에 있는 5mC 또는 5hmC의 정량적 수치를 제공한다. 구현예에서, 핵산은 DNA이다. 다른 구현예에서, 핵산은 RNA이다.

또 다른 양태에서, 본 발명은 표적 핵산에서 5mC를 식별하고 5hmC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산에서 5mC를 식별하는 단계로서,

i. 표적 핵산을 포함하는 제1 핵산 샘플을 제공하는 단계;

ii. 제1 샘플에서 핵산을 변형시키는 단계로서, 다음의 단계를 포함하는 단계:

1. 제1 핵산 샘플 내 5-하이드록시메틸시토신(5hmC)에 차단기를 첨가하는 단계;

2. 제1 핵산 샘플 내 5mC를 5caC 및/또는 5fC로 전환시키는 단계; 및

3. 변형된 표적 핵산을 포함하는 변형된 제1 DNA 샘플을 제공하도록 5caC 및/또는 5fC를 DHU로 전환시키는 단계;

iii. 변형된 표적 핵산의 카피 수를 임의로 증폭하는 단계; 및

iv. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5mC의 위치를 제공하는 것인 단계;

b. 표적 핵산에서 5mC 또는 5hmC를 식별하는 단계로서, 다음의 단계를 포함하는 단계:

i. 표적 핵산을 포함하는 제2 핵산 샘플을 제공하는 단계;

ii. 제2 샘플에서 핵산을 변형시키는 단계로서, 다음의 단계를 포함하는 단계:

1. 제2 핵산 샘플 내 5mC 및 5hmC를 5caC 및/또는 5fC로 전환시키는 단계; 및

2. 5caC 및/또는 5fC를 DHU로 전환시켜 변형된 표적 핵산을 포함하는 변형된 제2 핵산 샘플을 제공하는 단계;

iii. 변형된 표적 핵산의 카피 수를 임의로 증폭하는 단계;

iv. 제2 샘플로부터 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5mC 또는 5hmC의 위치를 제공하는 것인 단계; 및

c. 단계 (a) 및 (b)의 결과를 비교하는 단계로서, 단계 (b)에 존재하지만 단계 (a)에는 존재하지 않는 C의 T로의 전이는 표적 핵산에서 5hmC의 위치를 제공하는 것인 단계를 포함한다.

표적 핵산에서 5mC를 식별하고 5hmC를 식별하는 구현예에서, 단계 (a)에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산에서 5mC의 정량적 수치를 제공하고; 단계 (b)에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산에서 5mC 또는 5hmC의 정량적 수치를 제공하며; 단계 (c)에서, 단계 (b)에서 식별되지만 단계 (a)에서는 식별되지 않는 C의 T로의 전이 백분율의 차이는 표적 핵산 내 각각의 위치에 있는 5hmC의 정량적 수치를 제공한다. 구현예에서, 핵산은 DNA이다. 다른 구현예에서, 핵산은 RNA이다.

본 발명의 구현예에서, 핵산 샘플 내 5hmC에 첨가된 차단기는 당류(sugar)이다. 구현예에서, 당류는 자연 발생 당류이거나 변형된 당류, 예를 들어 글루코오스 또는 변형된 글루코오스이다. 본 발명의 구현예에서, 차단기는 핵산 샘플을 당류에 결합된 UDP, 예를 들어 UDP-글루코오스 또는 글루코실트란스퍼라아제 효소의 존재 하에 변형된 글루코스에 결합된 UDP(예: T4 박테리오파지 β-글루코실트란스퍼라아제(βGT) 및 T4 박테리오파지 α-글루코실트란스퍼라아제(αGT) 및 이들의 유도체 및 유사체)와 접촉시킴으로써 5hmC에 첨가된다.

본 발명의 구현예에서, 핵산 샘플 중의 5mC를 5caC 및/또는 5fC로 전환시키는 단계 및 핵산 샘플 중의 5mC 및 5hmC를 5caC 및/또는 5fC로 전환시키는 단계는 각각 핵산 샘플을 텐-일레븐 트랜스로케이션(TET) 효소와 접촉시키는 단계를 포함한다. 추가 구현예에서, TET 효소는 인간 TET1, TET2 및 TET3; 쥣과 Tet1, Tet2 및 Tet3; 네글레리아 TET(NgTET); 재흙물버섯(Coprinopsis cinerea, CcTET) 및 이들의 유도체 또는 유사체 중 하나 이상이다. 구현예에서, TET 효소는 NgTET이다.

또 다른 양태에서, 본 발명은 표적 핵산에서 5caC 또는 5fC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;

b. 5caC 및/또는 5fC를 DHU로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계;

c. 변형된 표적 핵산의 카피 수를 임의로 증폭하는 단계; 및

d. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5caC 또는 5fC의 위치를 제공하는 것인 단계를 포함한다.

표적 핵산에서 5caC 또는 5fC를 식별하는 방법의 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산 내 각각의 위치에 있는 5caC 또는 5fC의 정량적 수치를 제공한다.

또 다른 양태에서, 본 발명은 표적 핵산에서 5caC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;

b. 핵산 샘플 내 5fC에 차단기를 첨가하는 단계;

c. 5caC를 DHU로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계;

d. 변형된 표적 핵산의 카피 수를 임의로 증폭하는 단계; 및

e. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5caC의 위치를 제공하는 것인 단계를 포함한다.

표적 핵산에서 5caC를 식별하는 방법의 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산 내 각각의 위치에 있는 5caC의 정량적 수치를 제공한다. 구현예에서, 핵산은 DNA이다. 다른 구현예에서, 핵산은 RNA이다.

본 발명의 구현예에서, 핵산 샘플 내 5fC에 차단기를 첨가하는 단계는, 예를 들어, 하이드록실아민 유도체(예를 들어, O-에틸하이드록실아민), 하이드라진 유도체, 및 하이드라지드 유도체를 포함하는 알데히드 반응성 화합물과 핵산을 접촉시키는 단계를 포함한다.

또 다른 양태에서, 본 발명은 표적 핵산에서 5fC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;

b. 핵산 샘플 내 5caC에 차단기를 첨가하는 단계;

c. 5fC를 DHU로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계;

d. 변형된 표적 핵산의 카피 수를 임의로 증폭하는 단계;

e. 변형된 표적 핵산의 서열을 검출하는 단계로서, 표적 핵산과 비교해 변형된 표적 핵산의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 핵산에서 5fC의 위치를 제공하는 것인 단계를 포함한다.

표적 핵산에서 5fC를 식별하는 방법의 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 핵산 내 각각의 위치에 있는 5fC의 정량적 수치를 제공한다. 구현예에서, 핵산(샘플 및 표적)은 DNA이다. 구현예에서, 핵산(샘플 및 표적)은 RNA이다.

구현예에서, 핵산 샘플 내 5caC에 차단기를 첨가하는 단계는, 예를 들어, 1-에틸-3-(3-디메틸아미노프로필)카르보디이미드(EDC) 및 (ii) 아민(예컨대, 에틸아민), 하이드라진, 또는 하이드록실아민 화합물을 포함하는 같은 카르복실산 유도체화 시약과 핵산 샘플을 접촉시키는 단계를 포함한다.

본 발명의 구현예에서, 상기 방법은 변형된 표적 핵산의 카피 수를 증폭시키는 단계를 추가로 포함한다. 구현예에서, 이러한 증폭 단계는 변형된 표적 핵산의 서열을 검출하는 단계 이전에 수행된다. 변형된 표적 핵산이 DNA일 때, 카피 수를 증폭시키는 단계는 중합효소 연쇄 반응(PCR), 프라이머 연장 및/또는 클로닝을 수행함으로써 달성될 수 있다. 변형된 표적 핵산이 RNA일 때, 카피 수를 증폭시키는 단계는 올리고(dT) 프라이머(mRNA의 경우), 무작위 프라이머 및/또는 유전자 특이적 프라이머를 사용하는 RT-PCR에 의해 달성될 수 있다.

본 발명의 구현예에서, DNA 샘플은 피코그램 양의 DNA를 포함한다. 본 발명의 구현예에서, DNA 샘플은 약 1 pg 내지 약 900 pg의 DNA, 약 1 pg 내지 약 500 pg의 DNA, 약 1 pg 내지 약 100 pg의 DNA, 약 1 pg 내지 약 50 pg의 DNA, 약 1 내지 약 10 pg의 DNA, 약 200 pg 미만, 약 100 pg 미만, 약 50 pg DNA 미만, 약 20 pg DNA 미만 및 약 5 pg 미만의 DNA를 포함한다. 본 발명의 다른 구현예에서, DNA 샘플은 나노그램 양의 DNA를 포함한다. 본 발명의 구현예에서, DNA 샘플은 약 1 내지 약 500 ng의 DNA, 약 1 내지 약 200 ng의 DNA, 약 1 내지 약 100 ng의 DNA, 약 1 내지 약 50 ng의 DNA, 약 1 ng 내지 약 10 ng의 DNA, 약 1 ng 내지 약 5 ng의 DNA, 약 100 ng 미만의 DNA, 약 50 ng 미만의 DNA, 약 5 ng 미만의 DNA 또는 약 2 ng 미만의 DNA를 포함한다. 본 발명의 구현예에서, DNA 샘플은 순환하는 세포-유리 DNA(cfDNA)를 포함한다. 본 발명의 구현예에서, DNA 샘플은 마이크로그램 양의 DNA를 포함한다.

본 발명의 구현예에서, 5caC 및/또는 5fC를 DHU로 전환시키는 단계는, 예를 들어, 피리딘 보란, 2-피콜린 보란(pic-BH₃), 보란, 소듐 보로하이드라이드, 소듐 시아노보로하이드라이드 및 소듐 트리아세톡시보로하이드라이드를 포함하는 환원제와 핵산 샘플을 접촉시키는 단계를 포함한다. 바람직한 구현예에서, 환원제는 pic-BH₃ 및/또는 피리딘 보란이다.

본 발명의 구현예에서, 변형된 표적 핵산의 서열을 결정하는 단계는 사슬 종결 시퀀싱, 마이크로어레이, 고 처리량 시퀀싱 및 제한 효소 분석을 포함한다.

도 1 보란 함유 화합물 스크리닝 5caC를 DHU로 전환하기 위해 보란 함유 화합물을 11량체 올리고뉴클레오티드("올리고")에서 스크리닝하였고, 변환율은 MALDI에 의해 추정하였다. 2-피콜린 보란(pic-보란), 보란 피리딘 및 터트-부틸아민 보란은 5caC를 DHU로 완전히 전환시킬 수 있었던 반면, 에틸렌디아민 보란과 디메틸아민 보란은 약 30%의 전환율을 나타냈다. 디시클로헥실아민 보란, 모르폴린 보란, 4-메틸모르폴린 보란 및 트리메틸아민 보란의 경우 검출 가능한 생성물이 측정되지 않았다(n.d.). 다른 환원제, 예컨대 소듐 보로하이드라이드 및 소듐 트리(아세톡시)보로하이드라이드는 산성 매질에서 빠르게 분해되어 불완전한 전환을 야기하였다. 소듐 시아노보로하이드라이드는 산성 조건 하에서 시안화수소를 형성할 가능성이 있어 사용하지 않았다. Pic-보란과 피리딘 보란을 선택하였는데, 이는 완전한 전환, 낮은 독성 및 높은 안정성 때문이었다.
도 2a~2b. DNA 올리고에 대한 Pic-보란 반응. (도 2a) pic-보란으로 처리한 5caC-함유 11량체 모델 DNA의 MALDI 특성 분석. 계산된 질량(m/z)은 각 그래프의 상단에 표시되어 있고, 관찰된 질량은 피크의 좌측에 표시되어 있다. (도 2b) dC 및 다양한 시토신 유도체의 전환율은 HPLC-MS/MS에 의해 정량화하였다. 데이터는 3가지 복제물의 평균 ± SD로 표시하였다.
도 3a~3b. 단일 뉴클레오시드 pic-보란 반응. ¹H 및 ¹³C NMR 결과는 2'-데옥시-5,6-디하이드로우리딘에 대한 이전 보고서와 일치하였다(I. Aparici-Espert 등 J. Org. Chem. 81, 4031-4038 (2016) 참조). (도 3a) 단일 뉴클레오시드 pic-보란반응 생성물의 ¹H NMR (MeOH-d₄, 400 MHz) 차트. δ ppm: 6.28 (t, 1H, J = 7 Hz), 4.30 (m, 1H), 3.81 (m, 1H), 3.63 (m, 2H), 3.46 (m, 2H), 2.65 (t, 2H, J = 6 Hz), 2.20 (m, 1H), 2.03 (m, 1H). (도 3b) 단일 뉴클레오시드 pic-보란반응 생성물의 ¹³C NMR (MeOH-d₄, 400 MHz) 차트. δ ppm: 171.56 (CO), 153.54 (CO), 85.97 (CH), 83.86 (CH), 70.99 (CH), 61.92 (CH₂), 36.04 (CH₂), 35.46 (CH₂), 30.49 (CH₂).
도 4a~4b. 5caC의 DHU로의 보란 전환을 보여주고 5caC의 DHU로의 보란 반응에 대한 제안 메커니즘을 보여주는 도표(도 4a); 및 5fC의 DHU로의 보란 전환을 보여주고 5fC의 DHU로의 보란 반응에 대한 제안 메커니즘을 보여주는 도표(도 4b).
도 5a~5b. (도 5a)복제물이 티민으로서 작용할 때, TAPS 방법이 5mC 및 5hmC 둘 다를 DHU로 전환시킴을 보여주는 도표. (도 5b) TAPS, TAPSβ 및 CAPS 방법의 개요.
도 6. 5fC 및 5caC의 차단과 상관없이 pic-보란에 의해 처리된 5fC 및 5caC 함유 모델 DNA 올리고의 MALDI 특성 분석. 5fC 및 5caC는 pic-BH₃에 의해 디하이드로우라실(DHU)로 전환된다. 5fC는 하이드록실아민 유도체, 예컨대, 옥심(oxime)이 되어 pic-보란 전환에 저항하게 될 O-에틸하이드록실아민(EtONH₂)에 의해 차단하였다. 5caC는 EDC 접합을 통해 에틸아민에 의해 차단하고, pic-보란에 의한 전환을 차단하는 아미드로 전환시켰다. 계산된 MS(m/z)는 각 그래프의 상단에 표시되어 있고, 관찰된 MS는 피크의 좌측에 표시되어 있다.
도 7. 5hmC의 차단과 상관없이 KRuO ₄ 및 pic-보란으로 처리한 5mC 및 5hmC 함유 모델 DNA 올리고의 MALDI 특성 분석. 5hmC는 글루코오스가 포함된 βGT로 차단하여 5gmC로 전환시킬 수 있었다. 5mC, 5hmC 및 5gmC는 pic-보란에 의해 전환시킬 수 없었다. 5hmC는 KRuO₄에 의해 5fC로 산화된 다음 pic-보란에 의해 DHU로 전환될 수 있었다. 계산된 MS(m/z)는 각 그래프의 상단에 표시되어 있고, 관찰된 MS는 피크의 좌측에 표시되어 있다.
도 8a~8b. 제한 효소 소화는 TAPS가 5mC를 T로 효과적으로 전화시킬 수 있음을 보여준다. (도 8a) TAPS에 의해 야기된 서열 변화를 확인하기 위한 제한 효소 분해 검정의 도시. (도 8b) TAPS에 의해 야기된 C-T 전이를 확인하기 위한 TaqαI-분해 시험. TAPS는, TaqαI 제한 부위를 갖고 5개의 완전히 메틸화된 CpG 부위(5mC) 및 이의 비메틸화 대조군(C)을 함유하는 222 bp 모델 DNA 상에서 수행하였다. PCR-증폭된 222 bp 모델 DNA는 5mC, C 및 C TAPS에 나타낸 바와 같이 TaqαI에 의해 약 160 bp 및 약 60 bp의 단편으로 절단될 수 있다. 메틸화된 DNA 상에서의 TAPS 후, T(mC)GA 서열은 TTGA로 전환되고, 5mC-TAPS 레인에 도시된 바와 같이 TaqαI 분해에 의해 더 이상 절단되지 않는다.
도 9a~9b. 222 bp 모델 DNA 및 mESC gDNA 상에서의 TAPS. (도 9a) TAPS 이전(5mC, C) 및 이후(5mC TAPS, C TAPS)의, 5개의 완전히 메틸화된 CpG 부위 및 이의 비메틸화 대조군을 함유하는 222 bp 모델 DNA에 대한 생거 시퀀싱 결과. 5mC만이 TAPS 방법에 의해 T로 전환된다. (도 9b) NgTET1 산화 이후 및 pic-보란 환원 이후, mESCs gDNA 대조군에서 상대적인 변형 수준의 HPLC-MS/MS 정량화. 데이터는 3가지 복제물의 평균 ± SD로 표시하였다.
도 10a~10d, TAPS는 아황산염과 비교하여 유의한 DNA 분해를 일으키지 않았다. 얼음조에서 냉각시키기 전(도 10a) 및 후(도 10b)의, 222 bp 비메틸화 DNA, 222 bp 메틸화 DNA 및 mESC gDNA의 아가로오스 겔 이미지. TAPS 후에는 검출 가능한 DNA 분해가 관찰되지 않았고, DNA는 이중 가닥으로 남아 있었으며 냉각시키지 않고도 시각화할 수 있었다. 중아황산염 전환은 분해를 생성하였고, DNA는 단일 가닥이 되었으며 얼음으로 냉각시킨 후에야 시각화할 수 있었다. (도 10c) TAPS와 중아황산염으로 처리한 다양한 단편 길이의 mESC gDNA를 얼음을 이용해 냉각시키기 전(좌측 패널)과 후(우측 패널)의 아가로오스 겔 이미지. TAPS 후에 DNA는 이중 가닥을 유지하였고 겔 상에서 직접 시각화할 수 있었다. 중아황산염 처리는 샘플에 더 많은 손상과 단편화를 초래하였고, DNA는 단일 가닥이 되었으며 얼음으로 냉각시킨 후에야 시각화할 수 있었다. TAPS 전환은 도 15에 도시된 바와 같은 단편 길이와 관계없이 모든 gDNA에 대해 완전했다. (도 10d) TAPS 전과 후의 222 bp 모델 DNA의 아가로오스 겔 이미지(3개의 독립적 반복체)는 반응 후 검출 가능한 분해를 나타내지 않았다.
도 11. TAPS 전후의 모델 DNA 간의 증폭 곡선과 용융 곡선의 비교. qPCR 검정은 증폭 곡선에서 TAPS 전후의 모델 DNA에 대해 사소한 차이를 나타냈다. TAPS 이후, 메틸화된 DNA(5mC)의 용융 곡선은 낮은 온도로 이동하여 가능한 Tm-감소형 C-T 전환을 나타낸 반면, 비메틸화 DNA(C)의 경우 이동이 없었다.
도 12. 생거 시퀀싱에 의해 입증된 바와 같이 TAPS, TAPSβ 및 CAPS 이후에 유도된 완전한 C-T 전이. 단일 메틸화 및 단일 하이드록시메틸화 CpG 부위를 함유하는 모델 DNA를 본원에 기술된 바와 같이 제조하였다. TAPS 전환은 본원에 기술된 바와 같은 NgTET1 산화 및 피리딘 보란 환원 프로토콜에 따라 수행하였다. TAPSβ 전환은 5hmC 차단, NgTET1 산화 및 피리딘 보란 환원 프로토콜에 따라 수행하였다. CAPS 전환은 5hmC 산화 및 피리딘 보란 환원 프로토콜에 따라 수행하였다. 전환 후, 1 ng의 전환된 DNA 샘플을 Taq DNA 중합효소에 의해 PCR 증폭시키고 생거 시퀀싱에 맞게 처리하였다. TAPS는 5mC 및 5hmC 둘 다를 T로 전환시켰다. TAPSβ는 5mC를 선택적으로 전환시킨 반면, CAPS는 5hmC로 선택적으로 전환시켰다. 3가지 방법 중 어느 것도 미변형 시토신 및 다른 염기에 대한 전환을 초래하지 않았다.
도 13a~13b. (도 13a) TAPS는 다양한 DNA 및 RNA 중합효소와 호환가능하며, 생거 시퀀싱으로 나타난 바와 같이 완전한 C-T 전이를 유도한다. 중합효소 시험을 위한 메틸화된 CpG 부위를 함유하는 모델 DNA 및 프라이머 서열이 본원에 기술되어 있다. TAPS 처리 후, 5mC는 DHU로 전환되었다. KAPA HiFi 우라실 + 중합효소, Taq 중합효소, 및 Vent exo-중합효소는 DHU를 T로서 판독하게 될 것이고, 따라서 PCR 후에 완전한 C-T 전환을 유도하게 될 것이다. 대안적으로, 클레나우 단편, Bst DNA 중합효소, 및 phi29 DNA 중합효소를 포함하는 등온 중합효소 및 비오틴-표지된 프라이머로 프라이머 연장을 수행하였다. 새로 합성한 DNA 가닥을 Dynabeads MyOne Streptavidin C1에 의해 분리한 다음 Taq 중합효소를 사용해 PCR 증폭시키고 생거 시퀀싱에 맞게 처리하였다. T7 RNA 중합효소는 DHU를 효율적으로 우회하여 DHU 부위 반대 쪽에 아데닌을 삽입할 수 있는데, 이는 RT-PCR과 생거 시퀀싱에 의해 입증된다. (도 13b) 특정 다른 상업화된 중합효소는 DNA를 함유하는 DHU을 효율적으로 증폭하지 않았다. TAPS 처리 후, 5mC는 DHU로 전환되었다. KAPA HiFi 우라실 + 중합효소 및 Taq 중합효소는 DHU를 T로서 판독하게 될 것이고, 따라서 완전한 C-T 전환을 유도하게 될 것이다. KAPA HiFi 중합효소, Pfu 중합효소, Phusion 중합효소 및 NEB Q5 중합효소(미도시)를 포함하여 특정 다른 상업화된 중합효소로는 낮은 C-T 전환이 관찰되거나 C-T 전환이 관찰되지 않았다.
도 14. DHU는 T 및 C와 비교해 PCR 바이어스를 나타내지 않는다. 하나의 DHU/U/T/C 변형을 함유하는 모델 DNA를 본원에 기술된 바와 같이 상응하는 DNA 올리고와 합성하였다. DHU/U/T/C 변형을 갖는 각 모델 DNA에 대한 표준 곡선은 모델 DNA 입력의 1:10 연속 희석물과의 qPCR 반응에 기초하여 플롯팅하였다(0.1 pg에서 1 ng까지, 모든 qPCR 실험은 3회 실시함). 로그 농도(ng) 값과 평균 Ct 값 간의 회귀선의 기울기는 Excel의 SLOPE 함수로 계산하였다. PCR 효율은 다음의 식을 사용하여 계산하였다: 효율(%) = (10^(-1/기울기)-1)*100%. 증폭 인자는 다음의 식을 사용하여 계산하였다: 증폭 인자=10^(-1/기울기). DHU 또는 T 또는 C 변형을 갖는 모델 DNA에 대한 PCR 효율은 거의 같았는데, 이는 DHU가 규칙적인 염기로서 판독될 수 있고 PCR 바이어스를 야기하지 않을 것임을 입증한 것이다.
도 15a~15b. TAPS는 DNA 단편 길이에 상관없이 5mC를 T로 완전히 전환시켰다. (도 15a) TaqαI-분해 검정의 아가로오스 겔 이미지를 통해 DNA 단편 길이에 관계없이 모든 샘플에서 5mC의 T로의 완전한 전환을 확인하였다. 람다 게놈에서 유래된 194 bp 모델 서열을 TAPS 후 PCR 증폭하고 TaqαI 효소로 분해하였다. 전환되지 않은 샘플에서 증폭한 PCR 생성물은 절단될 수 있었지만, TAPS 처리한 샘플에서 증폭한 생성물은 온전한 상태를 유지하였는데, 이는 제한 부위의 소실 및 이에 따른 완전한 5mC-T 전환을 시사한다. (도 15b) C-T 전환율은 겔 밴드 정량화에 의해 추정하였고, 시험된 모든 DNA 단편 길이에 대해 100%로 나타났다.
도 16. 상이한 TAPS 조건에 대한 전환 및 위양성. mTet1과 피리딘 보란의 조합은, NgTET1 또는 pic-보란을 사용하는 다른 조건들에 비해, 메틸화된 C의 최고 전환율(96.5%, 완전히 CpG 메틸화된 람다 DNA로 계산함) 및 미변형 C의 최저 전환율(0.23%, 2 kb의 미변형 스파이크-인으로 계산함)을 달성하였다. 막대 위에는 시험된 모든 시토신 부위의 전환율 +/- SE를 표시하였다.
도 17a~17b. 짧은 스파이크-인(spike-in)에 대한 전환율. 5mC 및 5hmC를 함유하는 120량체-1(도 17a) 및 120량체-2(도 17b). 2개의 가닥 모두에서 5mC 및 5hmC 부위에 대한 거의 완전한 전환을 달성하였다. 변형 상태가 포함된 실제 서열은 상단과 하단에 도시되어 있다.
도 18a~18e. 전장 게놈 중아황산염 시퀀싱(WGBS: Whole Genome Bisulfite Sequencing) 대비 개선된 TAPS 시퀀싱의 정확도. (도 18a) TAPS 처리된 DNA에서 5mC 및 5hmC의 전환율. 좌측: 알려진 위치에서 메틸화 또는 하이드록시메틸화된 합성 스파이크-인(CpN). (18b) 미변형된 2 kb 스파이크-인으로 인한 TAPS 위양율. (18c) 하나의 단일 코어 Intel Xeon CPU를 이용해 1백만개의 모의 판독을 처리할 때 TAPS 및 WGBS의 총 실행 시간. (18d) 게놈에 맵핑된 모든 시퀀싱된 판독 쌍(절사 후)의 분획. (18e) Illumina BasEspace에 의해 보고된 바와 같이, 모든 시퀀싱된 판독 쌍에서 첫 번째 및 두 번째 판독에 대한 염기 당 시퀀싱 정확도 점수. 상단: TAPS. 하단: WGBS.
도 19a~19b. WGBS에 비해 TAPS의 균일한 커버리지가 더 많고 커버되지 않는 위치는 더 적었다. 가닥 모두에 대해 연산한, WGBS와 TAPS 간의 모든 염기(도 19a) 및 CpG 부위(도 19b)에 걸친 커버리지 깊이 비교. "TAPS(다운 샘플링함)"의 경우, 모든 맵핑된 TAPS 판독 중 무작위 판독을 선택하여 중앙 값 커버리지를 WGBS의 중앙 값 커버리지에 일치시켰다. 커버리지가 50Х를 초과하는 위치는 마지막 빈(bin)에 도시된다.
도 20. 모든 염색체에 걸친 변형 수준의 분포. CpG의 커버리지에 따라 가중치를 부여하고 윈도우 크기가 10인 가우시안 가중 이동 평균 필터를 사용하여 평활화한, 마우스 염색체를 따르는 100 kb 윈도우에서의 평균 변형 수준.
도 21a~21e. TAPS 및 WGBS에 의한 게놈 전체에 걸친 메틸롬(methylome) 측정치의 비교. (도 21a) 모든 마우스 CpG 섬(20개의 윈도우로 비닝됨) 및 4 kbp의 측면 영역(50개의 동일한 크기의 윈도우로 비닝됨)에서의 평균 시퀀싱 커버리지 깊이. 시퀀싱 깊이의 차이를 설명하기 위해, 맵핑된 모든 TAPS 판독을 다운샘플링하여 게놈 전체에 걸쳐 맵핑된 WGBS의 중간 값을 일치시켰다. (도 21b) TAPS 단독, TAPS 및 WGBS 모두 또는 WGBS 단독에 의한 적어도 3개의 판독에 의해 커버된 CpG 부위. (도 21c) TAPS 단독, TAPS 및 WGBS 또는 WGBS 단독에 의해 검출된 변형 수준 > 0.1인 적어도 3개의 판독에 의해 커버된 CpG 부위의 수. (도 21d) TAPS 및 WGBS에 대한 변형 수준(%)의 염색체 분포의 예. 윈도우 크기가 10인 가우시안 가중 이동 평균 필터를 사용하여 평활화한, 마우스 염색체 4를 따르는 100 kb 윈도우 당 변형된 CpG의 평균 분획. (도 21e) TAPS 및 WGBS 둘 다에서 적어도 3개의 판독에 의해 커버된 CpG 부위의 수를 나타내는 히트맵으로서, 각 방법에 의해 측정된 변형 수준별로 분류한 것. 더 나은 대비를 위해, 두 방법 모두에서 변형되지 않은 CpG를 함유하는 제1 빈은 색도에서 제외시키고 별모양으로 표시하였다.
도 22. CpG 섬 주위의 변형 수준. CpG 섬(20개의 윈도우에 비닝됨) 및 4 kbp 측면 영역(50개의 동일한 크기의 윈도우에 비닝됨)에서의 평균 변형 수준. 커버리지가 3판독 미만인 빈은 무시하였다.
도 23a~b. TAPS는 WGBS보다 더 작은 커버리지-변형 바이어스를 나타낸다. 모든 CpG 부위를 이들의 커버리지에 따라 비닝하였으며, 변형의 평균 값(원) 및 중앙 값(삼각형)은 각각의 빈에 도시되어 있다(WGBS의 경우 도 23a, TAPS의 경우(도 23b). 100개가 넘는 판독에 의해 커버된 CpG 부위는 마지막 빈에 도시되어 있다. 선은 데이터 점들을 통과하는 선형 피팅을 나타낸다.
도 24a~24c. dsDNA 및 ssDNA 라이브러리 제조 키트로 제조한 저-입력 gDNA 및 세포-유리 DNA DNA TAPS. (도 24a) dsDNA 라이브러리 키트 NEBNext Ultra II 또는 KAPA Hyperplus 키트를 이용해, 최저 1 ng의 쥣과 배아 줄기세포(mESC) 게놈 DNA(gDNA)를 사용해 시퀀싱 라이브러리를 성공적으로 작제하였다. ssDNA 라이브러리 키트 Accel-NGS Methyl-Seq 키트는 입력 DNA 양을 0.01 ng의 mESC gDNA까지(도 24b) 또는 1 ng의 세포-유리 DNA까지(도 24c) 더 낮추기 위해 사용하였다.
도 25a~25b. dsDNA KAPA Hyperplus 라이브러리 제조 키트로 제조된 저 입력 gDNA 및 세포-유리 DNA TAPS 라이브러리. 시퀀싱 라이브러리는 KAPA Hyperplus 키트를 이용해 적게는 1 ng의 mESC gDNA(도 25a) 및 세포-유리 DNA를 사용해 성공적으로 작제하였다. 세포-유리 DNA는 혈장 뉴클레아제 분해로 인해 약 160 bp(뉴클레오좀 크기)의 예리한 길이 분포를 갖는다. 라이브러리 작제 후, 이는 약 300 bp가 되는데, 이는 도 25b에서의 예리한 밴드이다.
도 26a~26d. 고품질의 세포-유리 DNA TAPS. (도 26a) TAPS 처리된 cfDNA에서 5mC의 전환율. (도 26b) TAPS 처리된 cfDNA에서의 위양성율. (도 26c) 게놈에 고유하게 맵핑된 모든 시퀀싱된 판독 쌍의 분획. (도 26d) 게놈에 독특하게 맵핑되고, 이후 PCR 복제 판독이 제거된 모든 시퀀싱된 판독 쌍의 분획. CHG 및 CHH는 비-CpG 컨텍스트이다.
도 27. TAPS는 유전자 변이체를 검출할 수 있다. 메틸화(MOD, 상단 열) 및 C에서 T로의 SNP(하단 열)는 원래 상단 가닥(OT)/원래 하단 가닥(OB)(좌측 컬럼) 및 OT에 상보적인 가닥(CTOT) 및 OB에 상보적인 가닥(CTOB)(우측 컬럼)에서 뚜렷한 염기 분포 패턴을 나타냈다.

본 발명은 서열에서 5mC 및 5hmC를 검출하기 위한 중아황산염-유리, 염기-해상도 방법을 제공하며, 이는 본원에서 TAPS라 부른다. TAPS는 미변형 시토신에 영향을 주지 않으면서 염기-해상도에서 5mC 및 5hmC를 직접적으로 및 정량적으로 검출하기 위한 완화된 효소 반응 및 화학 반응으로 이루어진다. 또한, 본 발명은 미변형 시토신에 영향을 주지 않으면서 염기 해상도에서 5fC 및 5caC를 검출하는 방법을 제공한다. 따라서, 본원에 제공된 방법은 5mC, 5hmC, 5fC 및 5caC의 맵핑을 제공하고, 중아황산염 시퀀싱과 같은 이전 방법의 단점을 극복한다.

5mC를 식별하는 방법

일 양태에서, 본 발명은 표적 DNA에서 5-메틸시토신(5mC)을 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

b. DNA를 변형시키는 단계로서, 다음의 단계를 포함하는 단계:

i. DNA 샘플 내 5-하이드록시메틸시토신(5hmC)에 차단기를 첨가하는 단계;

ii. DNA 샘플 내 5mC를 5-카르복실시토신(5caC) 및/또는 5-포르밀시토신(5fC)으로 전환시키는 단계; 및

iii. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5caC 및/또는 5fC를 DHU로 전환시키는 단계;

c. 변형된 표적 DNA의 서열을 검출하되, 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T) 으로의 전이가 비교되는 단계를 포함한다.

표적 DNA에서 5mC를 식별하는 방법의 구현예에서, 상기 방법은 표적 DNA에서 변형이 식별된 각 위치에서 5mC 변형의 빈도에 대한 정량적인 척도를 제공한다. 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 DNA 내 각각의 위치에 있는 5mC의 정량적 수치를 제공한다.

5hmC를 포함하지 않고 표적 DNA에서 5mC를 식별하기 위해, 샘플 내 5hmC가 5caC 및/또는 5fC로의 전환을 겪지 않도록 이를 차단한다. 본 발명의 방법에서, 차단기를 5hmC에 첨가함으로써 샘플 DNA 내의 5hmC에게 후속 단계에 대한 비반응성이 부여된다. 일 구현예에서, 차단기는 당류이며, 변형된 당류, 예를 들어 글루코오스 또는 6-아지드-글루코오스 (6-아지도-6-데옥시-D-글루코오스)를 포함한다. 하나 이상의 글루코실트란스퍼라아제 효소의 존재 하에 DNA 샘플을 우리딘 디포스페이트(UDP)-당류와 접촉시킴으로써, 당류 차단기가 5hmC의 하이드록시메틸기에 첨가된다.

구현예에서, 글루코실트란스퍼라아제는 T4 박테리오파지 β-글루코실트란스퍼라아제(βGT), T4 박테리오파지 α-글루코실트란스퍼라아제(αGT) 및 이들의 유도체와 유사체이다. βGT는 베타-D-글루코실 (글루코오스) 잔기가 UDP-글루코오스로부터 핵산 내 5-하이드록시메틸시토신 잔기로 이동하는 화학 반응을 촉매하는 효소이다.

차단기가, 예를 들어 글루코오스라는 언급은, 글루코실 모이어티(예: 베타-D-글루코실 잔기)가 5hmC에 첨가되어 글루코실 5-하이드록시메틸 시토신이 수득됨을 지칭하는 것이다. 당류 차단기는, 글루코실트란스퍼라아제 효소의 기질이면서 5hmC의 5caC 및/또는 5fC로의 후속 전환을 차단하는 임의의 당류 또는 변형된 당류일 수 있다. 그런 다음, DNA 샘플 내 5mC를 5caC 및/또는 5fC로 전환시키는 단계가 본원에 제공된 방법에 의해, 예컨대 TET 효소를 사용하는 산화에 의해 달성된다. 그리고 5caC 및/또는 5fC를 DHU로 전환시키는 단계가 본원에 제공된 방법에 의해, 예컨대 보란 산화(borane oxidation)에 의해 달성된다.

5-메틸시토신(5mC)을 식별하는 방법은 표적 RNA에서 5mC의 위치를 식별하고 이의 정량적 척도를 제공하도록 RNA 샘플에 대해 수행될 수 있다.

5mC 또는 5hmC를 (함께) 식별하는 방법

또 다른 양태에서, 본 발명은 표적 DNA에서 5mC 또는 5hmC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

i. DNA 샘플 내 5mC 및 5hmC를 5-카르복실시토신(5caC) 및/또는 5fC로 전환시키는 단계; 및

ii. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5caC 및/또는 5fC를 DHU로 전환시키는 단계;

c. 변형된 표적 DNA의 서열을 검출하는 단계로서, 표적 DNA와 비교해 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 DNA에서 5mC 또는 5hmC의 위치를 제공하는 것인 단계를 포함한다.

표적 DNA에서 5mC 또는 5hmC를 식별하는 방법의 구현예에서, 상기 방법은 표적 DNA에서 변형이 식별된 각 위치에서 5mC 또는 5hmC 변형의 빈도에 대한 정량적인 척도를 제공한다. 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 DNA 내 각각의 위치에 있는 5mC 또는 5hmC의 정량적 수치를 제공한다.

5mC 또는 5hmC를 식별하기 위한 이러한 방법은 5mC 및 5hmC의 위치를 제공하지만, 2개의 시토신 변형을 구별하지는 않는다. 오히려, 5mC 및 5hmC 둘 다가 DHU로 전환된다. DHU의 존재가 직접 검출되거나, DHU가 T로 전환되는 공지된 방법에 의해 변형된 DNA가 복제될 수 있다.

5mC 또는 5hmC를 식별하는 방법은 표적 RNA에서 5mC 또는 5hmC의 위치를 식별하고 이의 정량적 척도를 제공하도록 RNA 샘플에 대해 수행될 수 있다.

5mC를 식별하고 5hmC를 식별하는 방법

본 발명은 (i) 본원에 기술된 제1 DNA 샘플 상에서 5mC를 식별하는 방법을 수행하고, (ii) 본원에 기술된 제2 DNA 샘플 상에서 5mC 또는 5hmC를 식별하는 방법을 수행함으로써 표적 DNA에서 5mC를 식별하고 5hmC를 식별하는 방법을 제공한다. 5mC의 위치는 (i)에 의해 제공된다. (i) 및 (ii)의 결과를 비교함으로써(여기서, C의 T로의 전이는 (ii)에서 검출되지만 (i)에서는 ㄱ머출되지 않음) 표적 DNA 내 5hmC의 위치가 제공된다. 구현예에서, 제1 및 제2 DNA 샘플은 동일한 DNA 샘플로부터 유래된다. 예를 들어, 제1 및 제2 샘플은 분석 대상 DNA를 포함하는 샘플로부터 취한 별도의 분취액일 수 있다.

5mC 및 5hmC(차단되지 않음)는 DHU로 전환되기 전에 5fC와 5caC로 변환되기 때문에, DNA 샘플에 존재하는 임의의 5fC 및 5caC는 5mC 및/또는 5hmC로서 검출되게 된다. 그러나, 정상적인 조건 하에서는 게놈 DNA에서 5fC 및 5caC의 수준이 극히 낮으므로, 이는 종종 DNA 샘플에서 메틸화 및 히드록시메틸화를 분석할 때 사용될 수 있을 것이다. 5fC 및 5caC 신호는, 예를 들어, 히드록실아민 접합 및 EDC 커플링에 의해 5fC 및 5caC가 DHU로 전환되지 않도록 각각 보호함으로써 제거될 수 있다.

상기 방법은 5mC 위치 및 백분율을 5mC 또는 5hmC의 위치 및 백분율과 (함께) 비교함으로써 표적 DNA 내 5hmC의 위치 및 백분율을 식별한다. 대안적으로, 표적 DNA 내 5hmC 변형의 위치 및 빈도를 직접 측정할 수 있다. 따라서, 일 양태에서, 본 발명은 표적 DNA에서 5mC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

i. DNA 샘플 내 5hmC를 5fC로 전환시키는 단계; 및

ii. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5fC를 DHU로 전환시키는 단계;

c. 변형된 표적 DNA의 서열을 검출하는 단계로서, 표적 DNA와 비교해 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 DNA에서 5mC의 위치를 제공하는 것인 단계를 포함한다.

구현예에서, 5hmC를 5fC로 전환시키는 단계는 DNA를, 예를 들어, (본원에 참조로서 통합된 문헌[Science. 2012, 33, 934-937 및 WO2013017853]에 기술된 바와 같이) 과루테늄산칼륨(KRuO₄)과 접촉시키거나; (본원에 참조로서 통합된 문헌[Chem. Commun., 2017,53, 5756-5759 및 WO2017039002]에 기술된 바와 같이) Cu(II)/TEMPO (과염소산구리(II) 및 2,2,6,6-테트라메틸피페리딘-1-옥실(TEMPO))와 접촉시킴으로써 5hmC를 5fC로 산화시키는 단계를 포함한다. 그런 다음, DNA 샘플 내 5fC는 본원에 기술된 방법에 의해, 예를 들어 보란 반응에 의해 DHU로 전환된다.

5mC를 식별하고 5hmC를 식별하는 방법은 표적 RNA에서 5mC 및 5hmC의 위치를 식별하고 이의 정량적 척도를 제공하도록 RNA 샘플에 대해 수행될 수 있다.

5caC 또는 5fC를 식별하는 방법

일 양태에서, 본 발명은 표적 DNA에서 5caC 또는 5fC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

b. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5caC 및/또는 5fC를 DHU로 전환시키는 단계;

c. 변형된 표적 DNA의 카피 수를 임의로 증폭하는 단계;

d. 변형된 표적 DNA의 서열을 검출하는 단계로서, 표적 DNA와 비교해 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 DNA에서 5caC 또는 5fC의 위치를 제공하는 것인 단계를 포함한다.

5fC 또는 5caC를 식별하기 위한 이러한 방법은 5fC 또는 5caC의 위치를 제공하지만, 이들 2개의 시토신 변형을 구별하지는 않는다. 오히려, 5fC 및 5caC 둘 다가 DHU로 전환되는데, 이는 본원에 기술된 방법에 의해 검출된다.

5caC를 식별하는 방법

또 다른 양태에서, 본 발명은 표적 DNA에서 5caC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

b. DNA 샘플 내 5fC에 차단기를 첨가하는 단계;

c. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5caC를 DHU로 전환시키는 단계;

d. 변형된 표적 DNA의 카피 수를 임의로 증폭하는 단계; 및

e. 변형된 표적 DNA의 서열을 결정하는 단계로서, 표적 DNA와 비교해 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 DNA에서 5caC의 위치를 제공하는 것인 단계를 포함한다.

표적 DNA에서 5caC를 식별하는 방법의 구현예에서, 상기 방법은 표적 DNA에서 변형이 식별된 각 위치에서 5caC 변형의 빈도에 대한 정량적인 척도를 제공한다. 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 DNA 내 각각의 위치에 있는 5caC의 정량적 수치를 제공한다.

이 방법에서는, 5fC가 차단되어 (5mC 및 5hmC는 DHU로 전환되지 않음) 표적 DNA에서 5caC가 식별될 수 있게 한다. 본 발명의 구현예에서, DNA 샘플 내 5fC에 차단기를 첨가하는 단계는, 예를 들어, 하이드록실아민 유도체, 하이드라진 유도체 및 하이드라지드 유도체를 포함하는 알데히드 반응성 화합물과 DNA를 접촉시키는 단계를 포함한다. 히드록실아민 유도체는 아스하이드록실아민; 하이드록실아민 하이드로클로라이드; 하이드록실암모늄 산 설페이트; 하이드록실아민 포스페이트; O-메틸하이드록실아민; O-헥실하이드록실아민; O-펜틸하이드록실아민; O-벤질하이드록실아민; 및 특히 O-에틸하이드록실아민(EtONH2), O-알킬화 또는 O-아릴화 하이드록실아민, 이들의 산 또는 염을 포함한다. 하이드라진 유도체는 N-알킬하이드라진, N-아릴하이드라진, N-벤질히드라진, N,N-디알킬하이드라진, N,N-디아릴하이드라진, N,N-디벤질하이드라진, N,N-알킬벤질하이드라진, N,N-아릴벤질하이드라진 및 N,N-알킬아릴하이드라진을 포함한다. 하이드라지드 유도체는 -톨루엔설포닐하이드라지드, N-아실하이드라지드, N,N-알킬아실하이드라지드, N,N-벤질아실하이드라지드, N,N-아릴아실하이드라지드, N-설포닐하이드라지드, N,N-알킬설포닐하이드라지드, N,N-벤질설포닐하이드라지드 및 N,N-아릴설포닐하이드라지드를 포함한다.

5caC를 식별하는 방법은 표적 RNA에서 5caC의 위치를 식별하고 이의 정량적 척도를 제공하도록 RNA 샘플에 대해 수행될 수 있다.

5fC를 식별하는 방법

또 다른 양태에서, 본 발명은 표적 DNA에서 5fC를 식별하는 방법을 제공하며, 상기 방법은:

a. 표적 DNA를 포함하는 DNA 샘플을 제공하는 단계;

b. DNA 샘플 내 5caC에 차단기를 첨가하는 단계;

c. 변형된 표적 DNA를 포함하는 변형된 DNA 샘플을 제공하도록 5fC를 DHU로 전환시키는 단계;

d. 변형된 표적 DNA의 카피 수를 임의로 증폭하는 단계;

e. 변형된 표적 DNA의 서열을 검출하는 단계로서, 표적 DNA와 비교해 변형된 표적 DNA의 서열에서 시토신(C)의 티민(T)으로의 전이는 표적 DNA에서 5fC의 위치를 제공하는 것인 단계를 포함한다.

표적 DNA에서 5fC를 식별하는 방법의 구현예에서, 상기 방법은 표적 DNA에서 변형이 식별된 각 위치에서 5fC 변형의 빈도에 대한 정량적인 척도를 제공한다. 구현예에서, 각각의 전이 위치에 있는 T의 백분율은 표적 DNA 내 각각의 위치에 있는 5fC의 정량적 수치를 제공한다.

차단기를 DNA 샘플 내 5caC에 첨가하는 단계는 (i) DNA 샘플을 커플링제(coupling agent), 예를 들어, 카르보디아미드 유도체와 같은 카로복실산 유도체 시약, 예컨대 l-에틸-3-(3-디메틸아미노프로필)카르보디이미드(EDC) 또는 N,N'-디시클로헥실카르보디이미드(DCC)와 접촉시키고, (ii) DNA 샘플을 아민, 하이드라진 또는 하이드록실아민 화합물과 접촉시킴으로써 달성될 수 있다. 따라서, 예를 들어, 5caC는 DNA 샘플을 EDC로 처리한 다음 벤질아민, 에틸아민 또는 다른 아민으로 처리하여, 예를 들어, pic-BH₃에 의해 5caC가 DHU로 전환되는 것을 차단하는 아미드를 형성함으로써 차단될 수 있다. EDC-촉매 5caC 커플링은 WO2014165770에 기술되어 있고, 동 문헌은 본원에 참조로서 통합된다.

5fC를 식별하는 방법은 표적 RNA에서 5fC의 위치를 식별하고 이의 정량적 척도를 제공하도록 RNA 샘플에 대해 수행될 수 있다.

핵산 샘플 / 표적 핵산

본 발명은 미변형 시토신에 영향을 주지 않으면서 표적 핵산에서 염기-해상도로 5-메틸시토신, 5-하이드록시메틸시토신, 5-카르복실시토신 및/또는 5-포르밀시토신 중 하나 이상의 위치를 정량적으로 식별하는 방법을 제공한다. 구현예에서, 표적 핵산은 DNA이다. 다른 구현예에서, 표적 핵산은 RNA이다. 마찬가지로, 표적 핵산을 포함하는 핵산 샘플은 DNA 샘플이거나 RNA 샘플일 수 있다.

표적 핵산은 시토신 변형(즉, 5mC, 5hmC, 5fC 및/또는 5caC)을 갖는 임의의 핵산일 수 있다. 표적 핵산은 샘플 내의 단일 핵산 분자이거나, 샘플 내 핵산 분자의 전체 집단(또는 이의 하위집합)일 수 있다. 표적 핵산은 공급원(예를 들어, 세포, 조직 샘플 등)에서 유래된 천연 핵산이거나, 예를 들어, 단편화, 복구 및 시퀀싱용 어댑터와의 결합에 의해 고 처리량 시퀀싱-준비 형태로 사전 전환될 수 있다. 따라서, 표적 핵산은 본원에 기술된 방법을 사용해 (예를 들어, 개별 표적의 서열을 결정함으로써) 개별적으로 분석하거나 (예를 들어, 고 처리량 또는 차세대 시퀀싱 방법에 의해) 단체로 분석할 수 있는 표적 핵산의 라이브러리를 생성할 수 있도록, 복수의 핵산 서열을 포함할 수 있다.

핵산 샘플은 모네라계(박테리아), 원생생물계, 균류, 식물계, 및 동물계에서 유래된 유기체로부터 수득될 수 있다. 핵산 샘플은 환자 또는 대상체로로부터, 환경 샘플로부터, 또는 관심 유기체로부터 수득될 수 있다. 구현예에서, 핵산 샘플은 세포 또는 세포 집합체, 체액, 조직 샘플, 기관 및 세포기관으로부터 추출되거나 유도된다.

RNA 샘플 / 표적 RNA

본 발명은 미변형 시토신에 영향을 주지 않으면서 표적 RNA에서 염기-해상도로 5-메틸시토신, 5-하이드록시메틸시토신, 5-카르복실시토신 및/또는 5-포르밀시토신 중 하나 이상의 위치를 정량적으로 식별하는 방법을 제공한다. 구현예에서, RNA는 mRNA(메신저 RNA), tRNA(전달 RNA), rRNA(리보솜 RNA), snRNA(소핵 RNA), miRNA(마이크로 RNA), lncRNA(긴 비코딩 RNA) 및 eRNA(인핸서 RNA) 중 하나 이상이다. 표적 RNA는 샘플 내의 단일 RNA 분자이거나, 샘플 내 RNA 분자의 전체 집단(또는 이의 하위집합)일 수 있다. 따라서, 표적 RNA는 본원에 기술된 방법을 사용해 (예를 들어, 개별 표적의 서열을 결정함으로써) 개별적으로 분석하거나 (예를 들어, 고 처리량 또는 차세대 시퀀싱 방법에 의해) 단체로 분석할 수 있는 표적 RNA의 라이브러리를 생성할 수 있도록, 복수의 RNA 서열을 포함할 수 있다.

DNA 샘플 / 표적 DNA

본 발명의 방법은 중아황산염 시퀀싱과 같은 방법과 관련된 실질적인 분해를 회피하는 온화한 효소 반응 및 화학 반응을 이용한다. 따라서, 본 발명의 방법은 순환하는 세포-유리 DNA와 같은 저-입력 샘플의 분석 및 단일 세포 분석에 유용하다.

본 발명의 구현예에서, DNA 샘플은 피코그램 양의 DNA를 포함한다. 본 발명의 구현예에서, DNA 샘플은 약 1 pg 내지 약 900 pg의 DNA, 약 1 pg 내지 약 500 pg의 DNA, 약 1 pg 내지 약 100 pg의 DNA, 약 1 pg 내지 약 50 pg의 DNA, 약 1 내지 약 10 pg의 DNA, 약 200 pg 미만, 약 100 pg 미만, 약 50 pg DNA 미만, 약 20 pg DNA 미만 및 약 5 pg 미만의 DNA를 포함한다. 본 발명의 다른 구현예에서, DNA 샘플은 나노그램 양의 DNA를 포함한다. 본 발명의 방법에 사용하기 위한 샘플 DNA는 단일 세포 또는 벌크 DNA 샘플의 DNA를 포함하는 임의의 양일 수 있다. 구현예에서, 본 발명의 방법은 약 1 내지 약 500 ng의 DNA, 약 1 내지 약 200 ng의 DNA, 약 1 내지 약 100 ng의 DNA, 약 1 내지 약 50 ng의 DNA, 약 1 내지 약 10 ng의 DNA, 약 2 내지 약 5 ng의 DNA, 약 100 ng 미만의 DNA, 약 50 ng 미만의 DNA, 5 ng 미만의 DNA, 및 2 ng 미만의 DNA를 포함하는 DNA 상에서 수행될 수 있다. 본 발명의 구현예에서, DNA 샘플은 마이크로그램 양의 DNA를 포함한다.

본원에 기술된 방법에 사용되는 DNA 샘플은, 예를 들어 체액, 조직 샘플, 기관, 세포기관, 또는 단일 세포를 포함하는 임의의 공급원으로부터 유래할 수 있다. 구현예에서, DNA 샘플은 혈액 내에서 발견되는 순환하는 세포-유리 DNA(세포-유리 DNA 또는 cfDNA)이며 세포 내에는 존재하지 않는다. cfDNA는 당업계에 공지된 방법을 사용하여 혈액 또는 혈장으로부터 단리할 수 있다. 예를 들어, 순환 핵산 키트(Qiagen)를 포함하여 cfDNA의 단리에 이용할 수 있는 상업적 키트가 있다. DNA 샘플은 항체 면역 침강, 염색질 면역 침강, 제한 효소 분해-기반 농축, 혼성화-기반 농축, 또는 화학적 표지화-기반 농축을 포함하되 이들로 한정되지 않는 농축 단계로부터 생성될 수 있다.

표적 DNA는 시토신 변형(즉, 5mC, 5hmC, 5fC 및/또는 5caC)을 갖는 임의의 DNA일 수 있으며, 이에는 조직, 기관, 세포 및 세포기관으로부터 정제된 DNA 단편 또는 게놈 DNA가 포함되지만 이들로 한정되지는 않는다. 표적 DNA는 샘플 내의 단일 DNA 분자이거나, 샘플 내 DNA 분자의 전체 집단(또는 이의 하위집합)일 수 있다. 표적 DNA는 공급원에서 유래된 천연 DNA이거나, 예를 들어, 단편화, 복구 및 시퀀싱용 어댑터와의 결합에 의해 고 처리량 시퀀싱-준비 형태로 사전 전환될 수 있다. 따라서, 표적 DNA는, 본원에 기술된 방법을 사용해 (예를 들어, 개별 표적의 서열을 결정함으로써) 개별적으로 분석하거나 (예를 들어, 고 처리량 또는 차세대 시퀀싱 방법에 의해) 단체로 분석할 수 있는 표적 DNA의 라이브러리를 생성할 수 있도록, 복수의 DNA 서열을 포함할 수 있다.

5mC 및 5hmC의 5caC 및/또는 5fC로의 전환

본 발명의 구현예, 예컨대 본원에 기술된 TAPS 방법은 5caC 및 5hmC를 (또는 5hmC가 차단된 경우 5mC만을) 5caC 및/또는 5fC로 전환시키는 단계를 포함한다. 본 발명의 구현예에서, 본 단계는 DNA 또는 RNA 샘플을 텐 일레븐 트랜스로케이션(TET) 효소와 접촉시키는 단계를 포함한다. TET 효소는 5mC 상의 N5 메틸기로 산소 분자의 전달을 촉매하여 5-하이드록시메틸시토신(5hmC)를 형성하는 효소집단이다. 추가로, TET는 5hmC의 5fC로의 산화를 촉매하고, 5fC의 산화를 촉매하여 5caC를 형성한다(도 5a 참조). 본 발명의 방법에 유용한 TET 효소는 인간 TET1, TET2 및 TET3; 쥣과 Tet1, Tet2 및 Tet3; 네글레리아 TET(NgTET); 재흙물버섯(Coprinopsis cinerea, CcTET) 및 이들의 유도체 또는 유사체 중 하나 이상을 포함한다. 구현예에서, TET 효소는 NgTET이다. 다른 구현예에서, TET 효소는 인간 TET1(hTET1)이다.

5caC 및/또는 5fC의 DHU로의 전환

본 발명의 방법은 핵산 샘플 내 5caC 및/또는 5fC를 DHU로 전환시키는 단계를 포함한다. 본 발명의 구현예에서, 본 단계는, 예를 들어, 피리딘 보란, 2-피콜린 보란(pic-BH₃), 보란, 소듐 보로하이드라이드, 소듐 시아노보로하이드라이드 및 소듐 트리아세톡시보로하이드라이드와 같은 보란 환원제를 포함하는 환원제와 DNA 또는 RNA 샘플을 접촉시키는 단계를 포함한다. 바람직한 구현예에서, 환원제는 피리딘 보란 및/또는 pic-BH₃이다.

변형된 표적 핵산의 카피 수 증폭

본 발명의 방법은 변형된 표적 핵산의 카피 수를 당업계에 공지된 방법에 의해 증폭(증가)시키는 단계를 임의로 포함할 수 있다. 변형된 표적 핵산이 DNA인 경우, 카피 수는 예를 들어, PCR, 클로닝 및 프라이머 연장에 의해 증가될 수 있다. 개별 표적 DNA의 카피 수는 특정 표적 DNA 서열에 특이적인 프라이머를 사용하여 PCR에 의해 증폭될 수 있다. 대안적으로, 복수의 상이한 변형된 표적 DNA 서열이 표준 기술에 의해 DNA 벡터로 클로닝되어 증폭될 수 있다. 본 발명의 구현예에서, 복수의 상이한 변형된 표적 DNA 서열의 카피 수는 PCR에 의해 증가하여 차세대 시퀀싱을 위한 라이브러리를 생성하는데, 여기서, 예를 들어, 이중-가닥 어댑터 DNA가 이전에 샘플 DNA에 (또는 변형된 샘플 DNA에) 연결되었고, PCR은 어댑터 DNA에 상보적인 프라이머를 사용하여 수행된다.

변형된 표적 핵산의 서열 검출

본 발명의 구현예에서, 상기 방법은 변형된 표적 핵산의 서열을 검출하는 단계를 포함한다. 변형된 표적 DNA 또는 RNA는 미변형 표적 DNA 또는 RNA 내에 5mC, 5hmC, 5fC 및 5caC 중 하나 이상이 존재했던 위치에 DHU를 함유한다. DHU는 DNA 복제 및 시퀀싱 방법에서 T로서 작용한다. 따라서, 시토신 변형은 C의 T로의 전이를 식별하는, 당업계에 공지된 임의의 직접 또는 간접 방법에 의해 검출될 수 있다. 이러한 방법은 생거 시퀀싱, 마이크로어레이 및 차세대 시퀀싱 방법과 같은 시퀀싱 방법을 포함한다. C의 T로의 전이는 제한 효소 분석에 의해 검출될 수도 있는데, 이 경우 C의 T로의 전이는 제한 엔도뉴클레아제 인식 서열을 제거하거나 도입한다.

키트

추가로, 본 발명은 표적 DNA에서 5mC 및 5hmC의 식별을 위한 키트를 제공한다. 이러한 키트는 본원에 기술된 방법에 의해 5mC 및 5hmC를 식별하기 위한 시약을 포함한다. 키트는 본원에 기재된 방법에 의해 5caC를 식별하고 5fC를 식별하기 위한 시약을 포함할 수도 있다. 구현예에서, 키트는 TET 효소, 보란 환원제 및 방법을 수행하기 위한 지침을 포함한다. 추가의 구현예에서, TET 효소는 TET1이고, 보란 환원제는 피리딘 보란, 2-피콜린 보란(pic-BH3), 보란, 소듐 보로하이드라이드, 소듐 시아노보로하이드라이드 및 소듐 트리아세톡시보로하이드라이드로 이루어진 군 중 하나 이상으로부터 선택된다. 추가 구현예에서, TET1 효소는 NgTet1 또는 쥣과 Tet1이고, 보란 환원제는 피리딘 보란 및/또는 pic-BH₃이다.

구현예에서, 키트는 5hmC 차단기(blocking group) 및 글루코실트란스퍼라아제 효소를 추가로 포함한다. 추가의 구현예에서, 5hmC 차단기는 우리딘 디포스페이트(UDP)-당류이며, 여기서 당류는 글루코오스 또는 글루코오스 유도체이고, 글루코실트랜스퍼라제 효소는 T4 박테리오파지 β-글루코실트란스퍼라아제(βGT), T4 박테리오파지 α-글루코실트란스퍼라아제(αGT), 및 이들의 유도체와 유사체이다.

구현예에서, 키트는 과루테늄산칼륨(KRuO4) 및/또는 Cu(II)/TEMPO(과염소산구리(II) 및 2,2,6,6-테트라메틸피페리딘-1-옥실(TEMPO))로부터 선택된 산화제를 추가로 포함한다.

구현예에서, 키트는 핵산 샘플에서 5fC를 차단하기 위한 시약을 포함한다. 구현예에서, 키트는, 예를 들어, 하이드록실아민 유도체, 하이드라진 유도체 및 하이드라드 유도체를 포함하는 알데히드 반응성 화합물을 포함한다. 구현예에서, 키트는 본원에 기술된 바와 같이 5caC를 차단하기 위한 시약을 포함한다.

구현예에서, 키트는 DNA 또는 RNA를 단리하기 위한 시약을 포함한다. 구현예에서 키트는 샘플로부터 저 입력 DNA를 단리하기 위한 (예를 들어 혈액, 혈장 또는 혈청으로부터 cfDNA를 단리하기 위한) 시약을 포함한다.

실시예

방법

모델 DNA의 제조.

MALDI 및 HPLC-MS/MS 시험용 DNA 올리고. C, 5mC 및 5hmC를 포함하는 DNA 올리고뉴클레오티드("올리고")를 Integrated DNA Technologies(IDT)로부터 구입하였다. 모든 서열과 변형은 도 6 및 도 7에서 확인할 수 있다. 5fC를 갖는 DNA 올리고는 C-테일링(C-tailing) 방법에 의해 합성하였다: DNA 올리고 5'-GTCGACCGGATC-3' 및 5'-TTGGATCCGGTCGACTT-3'을 어닐링한 다음, 5-포르밀-2'-dCTP (Trilink Biotech) 및 클레나우 단편 3'→5' 엑소- (New England Biolabs)와 함께 NEBuffer 2에서 2시간 동안 37℃에서 인큐베이션하였다. 생성물은 Bio-Spin P-6 겔 컬럼(Bio-Rad)으로 정제하였다.

5caC를 갖는 DNA 올리고는 Expedite 8900 핵산 합성 시스템을 사용하여 표준 포스포라미디트(Sigma) 5-카르복시-dC-CE 포스포라미디트(Glen Research)로 합성하였다. 이후의 탈보호 및 정제는 Glen-Pak 카트리지(Glen Research)를 사용해 제조업체의 지침에 따라 수행하였다. 정제된 올리고뉴클레오티드는 Voyager-DE MALDI-TOF(matrix-assisted laser desorption ionization time-of-flight(매트릭스-보조 레이저 탈착 이온화 비행시간)) 생체 분광분석 워크스테이션에 의해 특성을 분석하였다.

전환 시험을 위한 222 bp 모델 DNA. 5개의 CpG 부위를 포함하는 222 bp 모델 DNA를 생성하기 위해, 박테리오파지 람다 DNA(Thermo Fisher)를 Taq DNA 중합효소(New England Biolabs)를 사용해 PCR 증폭하고 AMPure XP 비드(Beckman Coulter)로 정제하였다. 프라이머 서열은 다음과 같다: FW-5'-CCTGATGAAACAAGCATGTC-3', RV-5'-CAUTACTCACUTCCCCACUT-3'. PCR 산물의 역가닥 내 우라실 염기를 USER 효소(New England Biolabs)로 제거하였다. 그런 다음, 100 ng의 정제된 PCR 산물을 1x NEBuffer 2, 0.64 mM S-아데노실메티오닌 및 20 U M.SssI CpG 메틸트란스퍼라아제(New England Biolabs)를 함유하는 20 μl 용액에서 2시간 동안 37℃에서 메틸화하고, 이어서 65℃에서 20분 동안 열로 불활성화하였다. 메틸화된 222 bp 모델 DNA를 AMPure XP 비드로 정제하였다.

생거 시퀀싱을 이용한 TAPS, TCTGβ 및 CAPS용 모델 DNA 검증. 5 mM 트리스-Cl(pH 7.5), 5 mM MgCl₂ 및 50 mM NaCl을 함유하는 어닐링 완충액 중에서 단일 5mC 부위 및 단일 5hmC 부위를 함유하는 34 bp DNA 올리고를 다른 DNA 올리고와 어닐링한 다음, 400 U T4 리가아제(NEB)를 함유하는 반응물 중에서 25℃에서 1시간 동안 결합시키고, 1.8X AMPure XP 비드로 정제하였다.

결합 반응 후에 우라실 링커를 USER 효소로 제거하여 최종 생성물 서열(5'에서 3' 방향)을 생성하였다:

AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTCCCGA ^m CGCATGATCTGTACTTGATCGAC ^hm CGTGCAACGATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG. 모델 DNA의 증폭을 위한 PCR 프라이머는: P5: 5'-AATGATACGGCGACCACCGAG-3' 및 P7: 5'-CAAGCAGAAGACGGCATACGAG-3'이었다.

중합효소 시험 및 생거 시퀀싱을 위한 모델 DNA. 중합효소 시험 및 생거 시퀀싱을 위한 모델 DNA는 상이한 DNA 올리고를 사용한 것을 제외하고는 상기 동일한 결합 방법으로 제조하였다:

최종 생성물 서열(5'에서 3' 방향)은 다음과 같았다: AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTAGGTGCGCTAAGTTCTAGATCGCCAACTGGTTGTGGCCTTAGCAGTCT ^m CGATCAGCTG ^m CTACTGTA ^m CGTAGCATCTATAGCCGGCTTGCTCTCTCTGCCTCTAGCAGCTGCTCCCTATAGTGAGTCGTATTAACGATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG. 모델 DNA를 증폭시키기 위한 PCR 프라이머는 위에 제공된 P5 및 P7 프라이머이다. 프라이머 연장을 위한 비오틴-표지된 프라이머 서열은 P7 프라이머의 5' 말단에 비오틴 결합시킨다. T7 RNA 중합효소 전사 후 RT-PCR용 PCR 프라이머는 P5 프라이머 및 RT: 5'-TGCTAGAGGCAGAGAGAGCAAG-3'이었다.

PCR 바이어스 시험을 위한 모델 DNA. PCR 바이어스 시험을 위한 모델 DNA는 상이한 DNA 올리고를 사용한 것을 제외하고는 상기 동일한 결합 방법으로 제조하였다:

최종 생성물 서열(5'에서 3' 방향): AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCGATCTAGGTGCGCTAAGTTCTAGATCGCCAACTGGTTGTGGCCTTAGCAGTCTXGATCAGCTGCTACTGTACGTAGCATCTATAGCCGGCTTGCTCTCTCTGCCTCTAGCAGCTGCTCCCTATAGTGAGTCGTATTAACGATCGGAAGAGCACACGTCTGAACTCCAGTCACGCCAATATCTCGTATGCCGTCTTCTGCTTG (여기서, X= DHU 또는 U 또는 T 또는 C임). 모델 DNA를 증폭시키기 위한 PCR 프라이머는 위에 제공된 P5 및 P7 프라이머이다.

메틸화 박테리오파지 람다 게놈 DNA의 제조

Mg²⁺-유리 완충액(10 mM 트리스-Cl pH 8.0, 50 mM NaCl, 및 10 mM EDTA) 중에서, 1 μg의 비메틸화 박테리오파지 람다 DNA(Promega)를 37℃에서 2시간 동안 0.64 mM SAM 및 0.8 U/μl M.SssI 효소를 함유하는 50 μL 반응물에 메틸화하였다. 그런 다음, 0.5 μL의 M.SssI 효소 및 1 μL의 SAM을 첨가하고, 반응물을 37

에서 2 시간 동안 추가로 인큐베이션하였다. 이어서, 메틸화된 DNA를 1X Ampure XP 비드를 이용해 정제하였다. 완전한 메틸화를 보장하기 위해, 전체 절차를 NEBuffer 2에서 반복하였다. 그런 다음, HpaII 분해 검정으로 DNA 메틸화를 검증하였다. CutSmart 완충액(NEB) 중에서, 2 U의 HpaII 효소(NEB)를 사용해 50 ng의 메틸화된 DNA와 비메틸화 DNA를 10 μL의 반응물에 37℃에서 1시간 동안 분해시켰다. 분해 산물을 분해되지 않은 람다 DNA 대조군과 함께 1% 아가로오스 겔 상에 흘렸다. 검정 후에 비메틸화 람다 DNA는 분해된 반면 메틸화된 람다 DNA는 온전하게 유지되어, 완전한 CpG 메틸화를 확인하였다. 람다 DNA의 서열은 다음의 GenBank - EMBL 수탁번호로 확인할 수 있다: J02459.

2 kb 미변형 스파이크-인 대조군의 제조

2 kb 스파이크-인 대조군(2 kb-1, 2, 3)을, 1 ng DNA 템플릿, 0.5 μM 프라이머, 1 U Phusion 하이파이 DNA 중합효소(Thermo Fisher)를 함유하는 반응물 중에서 pNIC28-Bsa4 플라스미드(Addgene, 카달로그 번호 26103)로부터 PCR 증폭시켰다. PCR 프라이머 서열은 표 2에 열거되어 있다.

PCR 산물은 Zymo-Spin 컬럼을 이용해 정제하였다. 2 kb 미변형 대조군 서열 (5'에서 3' 방향):

CACAGATGTCTGCCTGTTCATCCGCGTCCAGCTCGTTGAGTTTCTCCAGAAGCGTTAATGTCTGGCTTCTGATAAAGCGGGCCATGTTAAGGGCGGTTTTTTCCTGTTTGGTCACTGATGCCTCCGTGTAAGGGGGATTTCTGTTCATGGGGGTAATGATACCGATGAAACGAGAGAGGATGCTCACGATACGGGTTACTGATGATGAACATGCCCGGTTACTGGAACGTTGTGAGGGTAAACAACTGGCGGTATGGATGCGGCGGGACCAGAGAAAAATCACTCAGGGTCAATGCCAGCGCTTCGTTAATACAGATGTAGGTGTTCCACAGGGTAGCCAGCAGCATCCTGCGATGCAGATCCGGAACATAATGGTGCAGGGCGCTGACTTCCGCGTTTCCAGACTTTACGAAACACGGAAACCGAAGACCATTCATGTTGTTGCTCAGGTCGCAGACGTTTTGCAGCAGCAGTCGCTTCACGTTCGCTCGCGTATCGGTGATTCATTCTGCTAACCAGTAAGGCAACCCCGCCAGCCTAGCCGGGTCCTCAACGACAGGAGCACGATCATGCGCACCCGTGGGGCCGCCATGCCGGCGATAATGGCCTGCTTCTCGCCGAAACGTTTGGTGGCGGGACCAGTGACGAAGGCTTGAGCGAGGGCGTGCAAGATTCCGAATACCGCAAGCGACAGGCCGATCATCGTCGCGCTCCAGCGAAAGCGGTCCTCGCCGAAAATGACCCAGAGCGCTGCCGGCACCTGTCCTACGAGTTGCATGATAAAGAAGACAGTCATAAGTGCGGCGACGATAGTCATGCCCCGCGCCCACCGGAAGGAGCTGACTGGGTTGAAGGCTCTCAAGGGCATCGGTCGAGATCCCGGTGCCTAATGAGTGAGCTAACTTACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCCAGGGTGGTTTTTCTTTTCACCAGTGAGACGGGCAACAGCTGATTGCCCTTCACCGCCTGGCCCTGAGAGAGTTGCAGCAAGCGGTCCACGCTGGTTTGCCCCAGCAGGCGAAAATCCTGTTTGATGGTGGTTAACGGCGGGATATAACATGAGCTGTCTTCGGTATCGTCGTATCCCACTACCGAGATATCCGCACCAACGCGCAGCCCGGACTCGGTAATGGCGCGCATTGCGCCCAGCGCCATCTGATCGTTGGCAACCAGCATCGCAGTGGGAACGATGCCCTCATTCAGCATTTGCATGGTTTGTTGAAAACCGGACATGGCACTCCAGTCGCCTTCCCGTTCCGCTATCGGCTGAATTTGATTGCGAGTGAGATATTTATGCCAGCCAGCCAGACGCAGACGCGCCGAGACAGAACTTAATGGGCCCGCTAACAGCGCGATTTGCTGGTGACCCAATGCGACCAGATGCTCCACGCCCAGTCGCGTACCGTCTTCATGGGAGAAAATAATACTGTTGATGGGTGTCTGGTCAGAGACATCAAGAAATAACGCCGGAACATTAGTGCAGGCAGCTTCCACAGCAATGGCATCCTGGTCATCCAGCGGATAGTTAATGATCAGCCCACTGACGCGTTGCGCGAGAAGATTGTGCACCGCCGCTTTACAGGCTTCGACGCCGCTTCGTTCTACCATCGACACCACCACGCTGGCACCCAGTTGATCGGCGCGAGATTTAATCGCCGCGACAATTTGCGACGGCGCGTGCAGGGCCAGACTGGAGGTGGCAACGCCAATCAGCAACGACTGTTTGCCCGCCAGTTGTTGTGCCACGCGGTTGGGAATGTAATTCAGCTCCGCCATCGCCGCTTCCACTTTTTCCCGCGTTTTCGCAGAAACGTGGCTGGCCTGGTTCACCACGCGGGAAACGGTCTGATAAGAGACACCGGCATACTCTGCGACATCGTATAACGTTACTGGTTTCACATTCACCACCCT

120량체 스파이크-인 대조군의 제조

120량체 스파이크-인 대조군을 프라이머 연장에 의해 제조하였다. 올리고 서열 및 프라이머는 표 3에 열거되어 있다.

간략하게, 120량체-1 스파이크-인의 경우, 5 mM 트리스-Cl (pH 7.5), 5 mM MgCl₂ 및 50 mM NaCl을 함유하는 어닐링 완충액 중에서 3 μM 올리고를 10 μM 프라이머와 어닐링하였다. 120량체-2 스파이크-인의 경우, 5 μM 올리고를 7.5 μM 프라이머와 어닐링하였다. 프라이머 연장은 0.4 μM dNTP (120량체-1: dATP/dGTP/dTTP/dhmCTP, 120mer-2: dATP/dGTP/dTTP/dCTP) 및 5 U의 클레나우 중합효소(New England Biolabs)가 포함된 NEB 완충액 2 중에서 37℃에서 1시간 동안 수행하였다. 반응 이후, 스파이크-인 대조군을 Zymo-Spin 컬럼(Zymo Research) 상에서 정제하였다. 그런 다음, 120량체 스파이크-인 대조군을 NEB 완충액 2 중에서 0.64 mM SAM 및 0.8 U/μl M.SssI 효소를 함유하는 50 μl 반응물에 2시간 동안 37℃에서 메틸화하고, Zymo-Spin 컬럼으로 정제하였다. 사용된 모든 스파이크-인 서열은 https://figshare.com/s/80c3ab713c261262494b에서 다운로드할 수 있다.

N5mCNN 및 N5hmCNN으로 합성 스파이크-인 생성하기

N5mCNN 및 N5hmCNN 서열을 갖는 합성 올리고를 어닐링 및 연장 방법에 의해 생성하였다. 올리고 서열은 하기 표 4에 나열되어 있다.

간략하게, 10 μM N5mCNN 및 N5hmCNN 올리고(IDT)를 5 mM 트리스-Cl(pH 7.5), 5 mM MgCl₂ 및 50 mM NaCl을 함유하는 어닐링 완충액 중에서 함께 어닐링하였다. 연장은 0.4 mM dNTP (dATP/dGTP/dTTP/dCTP) 및 5 U의 클레나우 중합효소(NEB)가 포함된 NEB 완충액 2 중에서 37℃에서 1시간 동안 수행하였다. 반응 이후, 스파이크-인 대조군을 Zymo-Spin 컬럼(Zymo Research) 상에서 정제하였다. N5mCNN 및 N5hmCNN(5'에서 3' 방향)을 갖는 합성 스파이크-인:

GAAGATGCAGAAGACAGGAAGGATGAAACACTCAGGCGCACGCTGGCATNmCNNGACAAACCACAAGAACAGGCTAGTGAGAATGAAGGGATATGTTTGTAAGATGGTCNNGNATCTTGGGTTGTGTGGTGGATGTTGGCGTTGGTGGGTTTCAGAGTTGG. 상보 가닥(5'에서 3' 방향): CCAACTCTGAAACCCACCAACGCCAACATCCACCACACAACCCAAGATNhmCNN GACCATCTTACAAACATATCCCTTCATTCTCACTAGCCTGTTCTTGTGGTTTGTCNNGNATGCCAGCGTGCGCCTGAGTGTTTCATCCTTCCTGTCTTCTGCATCTTC.

DNA 분해 및 HPLC-MS/MS 분석

DNA 샘플을 2 U의 뉴클레아제 P1 (Sigma-Aldrich) 및 10 nM 탈아미나아제 억제제 에리트로-9-아미노-β-헥실-α-메틸-9H-푸린-9-에탄올 하이드로클로라이드 (Sigma-Aldrich)로 분해하였다. 37℃에서 밤새 인큐베이션한 후, 샘플을 6 U의 알칼리성 포스파타아제(Sigma-Aldrich) 및 0.5 U의 포스파디에스테라아제 I(Sigma-Aldrich)로 3시간 동안 37℃에서 추가로 처리하였다. 분해된 DNA 용액을 Amicon Ultra-0.5 mL 10 K 원심분리 필터(Merck Millipore)로 여과하여 단백질을 제거하고, HPLC-MS/MS 분석을 실시하였다.

HPLC-MS/MS 분석은 6495B 삼중 사극 질량 분광계(Triple Quadrupole Mass Spectrometer, Agilent)와 결합된 1290 인피니티 LC 시스템(Agilent)으로 수행하였다. ZORBAX Eclipse Plus C18 컬럼(2.1 x 150 mm, 1.8-마이크론, Agilent)을 사용하였다. 컬럼 온도를 40℃로 유지하였고, 용매계는 10 mM 초산암모늄(pH 6.0, 용매 A) 및 물-아세토니트릴(60/40, v/v, 용매 B)을 함유하는 물이었으며, 유속은 0.4 mL/분이었다. 구배는: 0~5분; 0 용매 B; 5~8분; 0~5.63% 용매 B; 8~9분; 5.63% 용매 B; 9~16분; 5.63~13.66% 용매 B; 16~17분; 13.66~100% 용매 B; 17~21분; 100% 용매 B; 21~24.3분; 100~0% 용매 B; 24.3~25분; 0% 용매 B였다. MS의 동적 다중 반응 모니터링 모드(dMRM)를 정량화를 위해 사용하였다. 공급원-의존적 파라미터들은 다음과 같았다: 가스 온도 230℃, 가스 흐름 14 L/분, 분무기 40 psi, 시스 가스(sheath gas) 온도 400℃, 시스 가스 흐름 11 L/분, 양이온 모드에서 모세관 전압 1500 V, 노즐 전압 0 V, 고압 RF 110 V 및 저압 RF 80 V(둘 다 양이온 모드에서임). 모든 화합물에 대한 단편화 전압은 380 V인 반면, 다른 화합물 의존적 파라미터들은 표 5에 요약된 바와 같았다.

NgTET1의 발현 및 정제

His-태그된 NgTET1 단백질(GG739552.1)을 암호화하는 pRSET-A 플라스미드를 설계하고 Invitrogen으로부터 구입하였다. 단백질을 대장균(E. coli) BL21 (DE3) 박테리아에서 발현시키고, 일부 변형 사례와 함께 이전에 기술된 바와 같이 정제하였다(본원에 참조로서 통합된 J. E. Pais 등의 문헌[Biochemical characterization of a Naegleria TET-like oxygenase and its application in single molecule sequencing of 5-methylcytosine. Proc. Natl. Acad. Sci. U.S.A. 112, 4316-4321 (2015)] 참조). 간략하게, 단백질 발현의 경우, 밤새 소규모 배양한 박테리아를 OD600이 0.7~0.8 사이가 될 때까지 37℃에서 200 rpm으로 LB 배지에서 성장시켰다. 그런 다음, 배양물을 실온까지 냉각시키고, 0.2 mM 이소프로필-β-d-1-티오갈락토피라노시드(IPTG)로 표적 단백질 발현을 유도하였다. 세포를 18℃에서 180 rpm으로 18시간 동안 더 유지하였다. 이어서, 세포를 수확하고 20 mM HEPES (pH 7.5), 500 mM NaCl, 1 mM DTT, 20 mM 이미다졸, 1 μg/mL 류펩틴, 1 μg/mL 펩스타틴 A 및 1 mM PMSF를 함유하는 완충액 중에 재현탁시켰다. EmulsiFlex-C5 고압 균질화기로 세포를 파괴하고, 용해물을 4℃에서 1시간 동안 30,000 x g로 원심분리하여 정화하였다. 수집한 상청액을 Ni-NTA 수지 상에 로딩하고, 20 mM HEPES (pH 7.5), 500 mM 이미다졸, 2 M NaCl, 1 mM DTT를 함유하는 완충액으로 NgTET1 단백질을 용리하였다. 그런 다음, 수집된 분획을 HiLoad 16/60 Sdx 75 (20 mM HEPES pH 7.5, 2 M NaCl, 1 mM DTT)를 이용해 정제하였다. 그런 다음, NgTET1을 함유하는 분획을 수집하고, 20 mM HEPES (pH 7.0), 10 mM NaCl, 1 mM DTT를 함유하는 완충액으로 완충액 교환하고, HiTrap HP SP 컬럼에 로딩하였다. 염 구배로 순수 단백질을 용리하고, 수집하고, 20 mM 트리스-Cl (pH 8.0), 150 mM NaCl 및 1 mM DTT를 함유하는 최종 완충액으로 완충액 교환하였다. 그런 다음, 단백질을 130 μM까지 농축시키고, 글리세롤(30% v/v)과 혼합하고, 분취액을 -80℃에서 보관하였다.

mTET1CD의 발현 및 정제

N-말단이 플래그-태그된 mTET1CD 촉매 도메인(NM_001253857.2, 4371-6392)을 KpnI와 BamH1 제한 부위 사이에서 pcDNA3-플래그로 클로닝하였다. 단백질 발현을 위해, 1 mg 플라스미드를 밀도가 1 Х 10⁶세포/mL인 1 L의 Expi293F(Gibco) 세포 배지 내로 형질감염시키고, 5% CO₂ 하에 37℃, 170 rpm에서 48시간 동안 세포를 성장시켰다. 이어서, 원심분리에 의해 세포를 수확하고, 50 mM 트리스-Cl pH = 7.5, 500 mM NaCl, 1X 완전한 프로테아제 억제제 칵테일(Sigma), 1 mM PMSF, 1% 트라이톤 X-100을 함유하는 용해 완충액에 재현탁시키고, 얼음 상에서 20분 동안 인큐베이션하였다. 그런 다음, 세포 용해물을 4℃에서 30분 동안 30000 Х g로 원심분리하여 정화하였다. 수집한 상청액을 ANTI-FLAG M2 친화도 겔(Sigma) 상에서 정제하고, 순수 단백질을 20 mM HEPES pH = 8.0, 150 mM NaCl, 0.1 mg/mL 3X 플래그 펩티드(Sigma), 1X 완전한 프로테아제 억제제 칵테일(Sigma), 1 mM PMSF를 함유하는 완충액으로 용리하였다. 수집한 분획을 농축시키고, 20 mM HEPES pH = 8.0, 150 mM NaCl 및 1 mM DTT를 함유하는 최종 완충액으로 완충액 교환하였다. 농축시킨 단백질을 글리세롤(30% v/v)과 혼합하고, 액체 질소에서 동결시키고, 분취액을 -80℃에서 저장하였다. 재조합 mTET1CD의 활성과 정확도는 MALDI 질량 분석계 분석에 의해 검사하였다. 이러한 검정에 기초하면, 재조합 mTET1CD는 완전히 활성이며 5mC의 5caC로의 산화를 촉진할 수 있다. 시험된 모델 올리고의 임의의 상당한 분해를 MALDI에 의해 검출하여 단백질에 뉴클레아제가 없는 것을 확인하였다.

TET 산화

NgTET1 산화. 222 bp 모델 DNA 올리고의 Tet 산화를 위해, 100 ng의 222 bp DNA를 50 mM MOPs 완충액(pH 6.9), 100 mM 황산철(II)암모늄, 1 mM a-케토글루타르산염, 2 mM 아스코르브산, 1 mM 디티오트레이톨(DTT), 50 mM NaCl, 및 5 μM NgTET를 함유하는 20 μl 용액 중에 37℃에서 1시간 동안 인큐베이션하였다. 그 이후, 반응 혼합물에 0.4 U의 프로테이나아제 K(New England Biolabs)를 첨가하고 37℃에서 30분 동안 인큐베이션 하였다. 생성물은 제조자의 지침에 따라 Zymo-Spin 컬럼(Zymo Research)으로 정제하였다.

게놈 DNA의 NgTET1 산화를 위해, 500 ng의 게놈 DNA를 50 mM MOPS 완충액(pH 6.9), 100 mM 황산철(II)암모늄, 1 mM a-케토글루타르산염, 2 mM 아스코르브산, 1 mM 디티오트레이톨, 50 mM NaCl 및 5 μM NgTET1을 함유하는 50 μl 용액 중에 37℃에서 1시간 동안 인큐베이션하였다. 그 이후, 반응 혼합물에 4 U의 프로테이나아제 K(New England Biolabs)를 첨가하고 37℃에서 30분 동안 인큐베이션 하였다. 생성물은 제조자의 지침에 따라 1.8X Ampure 비드를 이용해 정화하였다.

mTET1 산화. 100 ng의 게놈 DNA를 50 mM HEPES 완충액(pH 8.0), 100 μM 황산철(II)암모늄, 1 mM a-케토글루타르산염, 2 mM 아스코르브산, 1 mM 디티오트레이톨, 100 mM NaCl, 1.2 mM APT 및 4 μM mTET1CD를 함유하는 50 μl 용액 중에 37℃에서 80분 동안 인큐베이션하였다. 그 이후, 반응 혼합물에 0.8 U의 프로테이나아제 K(New England Biolabs)를 첨가하고 50℃에서 1시간 동안 인큐베이션 하였다. 생성물은 제조자의 지침에 따라 Bio-Spin P-30 겔 컬럼(Bio-Rad) 및 1.8X Ampure XP 비드를 이용해 정화하였다.

보란 환원

pic-BH ₃ 환원 MeOH 중 25 μL의 5 M α-피콜린-보란(pic-BH₃, Sigma-Aldrich) 및 5 μL의 3 M 초산나트륨 용액(pH 5.2, Thermo Fisher)을 20 μl DNA 샘플에 첨가하고 60℃에서 1시간 동안 인큐베이션하였다. 생성물은 제조자의 지침에 따라, 222 bp에 대해서는 Zymo-Spin 컬럼(Zymo Research)으로 정제하거나, 올리고에 대해서는 마이크로 Bio-Spin 6 컬럼(Bio-Rad)으로 정제하였다.

대안적으로, 100 mg의 2-피콜린-보란(pic-보란, Sigma-Aldrich)을 187 μL의 DMSO에 용해시켜 약 3.26 M 용액을 수득하였다. 각각의 반응에 대해, 25 μL의 pic-보란 용액 및 5 μL의 3 M 초산나트륨 용액(pH 5.2, Thermo Fisher)을 20 μL의 DNA 샘플에 첨가하고, 70℃에서 3시간 동안 인큐베이션하였다. 생성물은 제조자의 지침에 따라, 게놈 DNA에 대해서는 Zymo-Spin 컬럼으로 정제하거나, DNA 올리고에 대해서는 마이크로 Bio-Spin 6 컬럼(Bio-Rad)으로 정제하였다.

피리딘 보란 환원. Eppendorf ThermoMixer 내에서, 35 μL의 물 중 50~100 ng의 산화 DNA를 600 mM 초산나트륨 용액(pH = 4.3) 및 1 M 피리딘 보란을 함유하는 50 μl 반응물에서 37℃에서 16시간 동안 850 rpm으로 환원시켰다. 생성물은 Zymo-Spin 칼럼으로 정제하였다.

단일 뉴클레오시드 pic-보란 반응. MeOH 중 500 μL의 3.26 M 2-피콜린-보란(pic-보란, Sigma-Aldrich) 및 500 μl의 3 M 초산나트륨 용액(pH 5.2, Thermo Fisher)을 10 mg의 2'-데옥시시티딘-5-카르복실산 나트륨 염(Berry&Associates)에 첨가하였다. 혼합물을 60℃에서 1시간 동안 교반하였다. 생성물을 HPLC로 정제하여 순수 화합물을 백색 발포체로서 수득하였다. C₉H₁₄N₂O₅Na: 253.0800에 대해 계산된 고 해상도 MS (Q-TOF) m/z [M + Na]+는 253.0789로 확인됨.

5hmC 차단

5hmC 차단은 50 mM HEPES 완충액(pH 8), 25 mM MgCl₂, 200 μM 우리딘 디포스포글루코오스(UDP-Glc, New England Biolabs) 및 10 U βGT(Thermo Fisher), 및 10 μM 5hmC DNA 올리고를 함유하는 20 μl 용액 중에서 37℃에서 1시간 동안 수행하였다. 생성물은 제조자의 지침에 따라 마이크로 Bio-Spin 6 컬럼(Bio-Rad)으로 정제하였다.

5fC 차단

5fC 차단은 100 mM MES 완충액(pH 5.0), 10 mM O-에틸하이드록시아민(Sigma- Aldrich), 및 10 μM 5fC DNA 올리고 중에서 37℃에서 2시간 동안 수행하였다. 생성물은 제조자의 지침에 따라 마이크로 Bio-Spin 6 컬럼(Bio-Rad)으로 정제하였다.

5caC 차단

5caC 차단은 75 mM MES 완충액(pH 5.0), 20 mM N-하이드록시숙신이미드(NHS, Sigma-Aldrich), 20 mM 1-(3-디메틸아미노프로필)-3-에틸카르보디이미드 하이드로클로라이드(EDC, Fluorochem), 및 10 μM 5caC DNA 올리고 중에서 37℃에서 0.5시간 동안 수행하였다. 그런 다음, 완충액을 제조자의 지침에 따라 마이크로 Bio-Spin 6 컬럼(Bio-Rad)을 사용하여 100 mM 인산나트륨(pH 7.5), 150 mM NaCl로 교환하였다. 10 mM 에틸아민(Sigma-Aldrich)을 올리고에 첨가하고, 37℃에서 1시간 동안 인큐베이션하였다. 생성물은 제조자의 지침에 따라 마이크로 Bio-Spin 6 컬럼(Bio-Rad)으로 정제하였다.

5hmC 산화

46 μL의 5hmC DNA 올리고를 진탕 인큐베이터에서 2.5 μL의 1 M NaOH로 37℃에서 30분 동안 변성시킨 다음, 50 mM NaOH 및 15 mM 과루테늄칼륨(KRuO4, Sigma-Aldrich)를 함유하는 1.5 μL의 용액으로 얼음 위에서 1시간 동안 산화시켰다. 생성물은 제조자의 지침에 따라 마이크로 Bio-Spin 6 컬럼으로 정제하였다.

TaqαI 검정에 의한 TAPS 전환의 검증

TAPS 후 5mC 전환은, TaqαI 제한 부위(TCGA)를 함유하는 표적 영역의 PCR 증폭 및 이어지는 TaqαI 분해에 의해 시험하였다. 예를 들어, 우리의 TAPS 라이브러리에서의 5mC 전환은, CpG 메틸화 람다 DNA 스파이크-인 대조군으로부터 증폭되는 단일 TaqαI 제한 부위를 함유하는 194 bp 앰플리콘에 기초하여 시험될 수 있다. 194 bp 앰플리콘으로부터 증폭된 PCR 산물을 TaqαI 제한 효소로 분해하고, 분해 산물은 2% 아가로스 겔 상을 이용해 검사한다. 미전환 대조군 DNA 상에서 증폭된 PCR 산물은 TaqαI에 의해 분해되어 겔 상에서 2개의 밴드를 나타낸다. TAPS-전환 샘플에서, 제한 부위는 C-T 전이로 인해 소실하므로, 194 bp 앰플리콘은 온전하게 유지될 것이다. 전체 전환 수준은 분해된 겔 밴드 및 분해되지 않은 겔 밴드의 정량화에 기초하여 평가될 수 있으며, 성공적인 TAP를 위해서는 샘플이 95%보다 높아야 한다.

간략하게, 전환된 DNA 샘플은 상응하는 프라이머가 포함된 Taq DNA 중합효소(New England Biolabs)로 PCR 증폭시켰다. PCR 산물을 1X CutSmart 완충액(New England Biolabs) 중에서 4단위의 TaqαI 제한 효소(New England Biolabs)로 65℃에서 30분 동안 인큐베이션하고, 2% 아가로오스 겔 전기영동에 의해 검사하였다.

정량적 중합효소 연쇄 반응 (qPCR)

TAPS 전후의 모델 DNA 간의 증폭 곡선과 용융 곡선을 비교하기 위해(도 11), 1 ng의 DNA 샘플을 1Х LightCycler 480 고해상도 용융 마스터 믹스(Roche Diagnostics Corporation), 250 nM의 프라이머 FW-CCTGATGAAACAAGCATGTC 및 RV-CATTACTCACTTCCCCACTT 및 3 mM의 MgSO₄를 함유하는 19 μL의 PCR 마스터 믹스 내에 첨가하였다. PCR 증폭을 위해, 초기 변성화 단계를 95℃에서 10분 동안 수행하고, 이어서 95℃에서 40사이클의 5초 변성화, 맞춤식 어닐링 온도에서 5초 어닐링, 및 72℃에서 5초 연신(elongation)을 수행하였다. 최종 단계에는 95℃에서 1분, 70℃에서 1분, 및 65℃ 내지 95℃의 용융 곡선(0.02℃씩 단계적 증분, 각각의 획득 이전에 5초 동안 유지)을 포함시켰다.

다른 검정을 위해, 필요한 양의 DNA 샘플을 1Х 패스트 SYBR 그린 마스터 믹스(Thermo Fisher), 200 nM의 정방향 및 역방향 프라이머를 함유하는 19 μL의 PCR 마스터 믹스 내에 첨가함으로써 qPCR을 수행하였다. PCR 증폭을 위해, 초기 변성화 단계를 95℃에서 20초 동안 수행하고, 이어서 95℃에서 40사이클의 3초 변성화, 20초 어닐링, 및 60℃에서 연신을 수행하였다.

HpaII-qPCR 검정에 의한 mESC gDNA에서 C ^m CGG 메틸화 수준의 검증.

50 μL 반응물 중에서, 1 μg mESC gDNA를 50단위의 HpaII(NEB, 50단위/μL) 및 1X CutSmart 완충액과 함께 37℃에서 16시간 동안 인큐베이션하였다. 대조군 반응을 위해서는 HpaII를 첨가하지 않았다. 1 μL 프로테이나아제 K를 반응물에 첨가하고 40℃에서 30분 동안 인큐베이션한 다음, 95℃에서 10분 동안 인큐베이션하여 프로테이나아제 K를 불활성화시켰다. HpaII 분해 샘플 또는 대조군 샘플의 Ct 값은 특정 CCGG 위치에 상응하는 프라이머 세트(표 9에 열거됨)를 사용해 상기와 같이 qPCR 검정으로 측정하였다.

생거 시퀀싱

PCR 산물은 엑소뉴클레아제 I과 새우 알칼라인 포스파타아제(New England Biolabs) 또는 Zymo-Spin 컬럼에 의해 정제하고, 생거 시퀀싱에 맞게 처리하였다.

상이한 길이를 갖는 단편에 대한 DNA 손상 시험.

mESC 게놈 DNA를 0.5%의 CpG 메틸화 람다 DNA로 스파이크-인화하여 단편화되지 않은 상태로 두거나 Covaris M220 장비로 초음파처리하고, Ampure XP 비드를 이용해 500~1 kb 또는 1 kb~3 kb로 크기를 선별하였다. 200 ng의 DNA를 mTET1CD로 단독 산화시키고 전술한 바와 같이 피리딘 보란 복합체로 환원시키거나, 제조자의 프로토콜에 따라 EpiTect 중아황산염 키트(Qiagen)로 전환시켰다. TAPS 및 중아황산염 전환 전후의 DNA 10 ng을 1% 아가로오스 겔 위로 흘렸다. 중아황산염으로 전환된 겔을 시각화하기 위해, 샘플을 얼음조에서 10분 동안 냉각시켰다. TAPS 샘플에서 5mC 전환은 전술한 바와 같이 TaqαI 분해 검정에 의해 시험하였다.

mESC 배양 및 게놈 DNA의 단리

15% FBS(Gibco), 2 mM L-글루타민(Gibco), 1% 비필수 아미노산(Gibco), 1% 페니실린/스트렙타비딘(Gibco), 0.1 mM β-메르캅토에탄올(Sigma), 1000단위/mL LIF(Millipore), 1 μM PD0325901(Stemgent), 및 3 μM CHIR99021(Stemgent)로 보충된 Dulbecco의 변형된 이글 배지(DMEM) 내의 젤라틴 코팅된 플레이트 상에서 마우스 ESC(mESC) E14를 배양하였다. 배양물을 37℃ 및 5% CO₂에 유지시키고, 2일마다 계대시켰다.

게놈 DNA의 단리를 위해, 실온에서 1000 x g로 5분 동안 원심분리하여 세포를 수확하였다. DNA는 제조자의 프로토콜에 따라 Quick-DNA Plus 키트(Zymo Research)로 추출하였다.

TAPS 및 WGBS를 위한 mESC gDNA의 제조.

전장 게놈 중아황산염 시퀀싱(WGBS)을 위해, 0.5%의 비메틸화 람다 DNA로 mESC gDNA를 스파이크-인화시켰다. 전장 게놈 TAPS를 위해, 0.5%의 메틸화 람다 DNA 및 0.025%의 미변형 2 kb 스파이크-인 대조군으로 mESC gDNA를 스파이크-인화시켰다. DNA 샘플을 Covaris M220 장비에 의해 단편화하고 Ampure XP 비드를 이용해 200~400 bp로 크기를 선별하였다. Ampure XP 비드로 크기를 선별한 후, 0.25%의 N5mCNN 및 N5hmCNN 대조군 올리고로 TAPS용 DNA를 추가로 스파이크-인화시켰다.

전장 게놈 중아황산염 시퀀싱

전장 게놈 중아황산염 시퀀싱(WGBS)을 위해, 0.5%의 비메틸화 박테리오파지 람다 DNA로 스파이크-인화시킨 200 ng의 단편화된 mESC gDNA를 사용하였다. 제조자의 프로토콜에 따라, KAPA HyperPlus 키트(Kapa Biosystems)로 메틸화 어댑터(NextFlex)의 말단-복구식 A-테일링 반응 및 연결을 수행하였다. 이어서, Illumina의 프로토콜에 따라 EpiTect 중아황산염 키트(Qiagen)를 사용해 DNA에 대한 중아황산염 전환을 수행하였다. KAPA 하이파이 우라실 플러스 중합효소(Kapa Biosystems)로 최종 라이브러리를 6사이클 동안 증폭시키고, 1X Ampure 비드를 이용해 정화시켰다. WGBS 시퀀싱 라이브러리는, 15% PhiX 대조군 라이브러리 스파이크-인이 포함된 NextSeq 고출력 키트를 사용해 NextSeq 500 시퀀서(Illumina) 상에서 80 bp 페어드-엔드 시퀀싱하였다.

전장 게놈 TAPS

전장 게놈 TAPS를 위해, 0.5%의 메틸화 람다 DNA 및 0.025%의 미변형 2 kb 스파이크-인 대조군으로 스파이크-인화된 100 ng의 단편화된 mESC gDNA를 사용하였다. 제조자의 프로토콜에 따라, KAPA HyperPlus 키트를 사용해 말단-복구식 A-테일링 반응을 수행하고, Illumina 다중화 어댑터와의 연결을 수행하였다. 연결된 DNA를 mTET1CD로 2회 산화시킨 다음, 전술한 프로토콜에 따라 피리딘 보란으로 환원시켰다. KAPA 하이파이 우라실 플러스 중합효소로 최종 시퀀싱 라이브러리를 5사이클 동안 증폭시키고, 1X Ampure 비드를 이용해 정화시켰다. 전장 TAPS 시퀀싱 라이브러리는, 1% PhiX 대조군 라이브러리 스파이크-인이 포함된 하나의 NextSeq 고출력 키트를 사용해 NextSeq 500 시퀀서(Illumina) 상에서 80 bp 페어드-엔드 시퀀싱하였다.

dsDNA 라이브러리 제조 키트를 사용한 저입력 전장 게놈 TAPS

전장 게놈 TAPS를 위해 전술한 바와 같이 제조한 mESC gDNA를 저입력 전장-게놈 TAPS에 사용하였다. 간략하게, 100 ng, 10 ng 및 1 ng의 mESC gDNA를 함유하는 샘플을 전술한 프로토콜에 따라 NgTET1로 1회 산화시켰다. 제조자의 프로토콜에 따라 NEBNext 울트라 II(New England Biolabs) 또는 KAPA HyperPlus 키트로 말단-복구식 A-테일링 반응 및 연결을 수행하였다. 이어서, 전술한 바와 같이 DNA가 pic-보란 반응을 거치게 하였다. 전환된 라이브러리를 KAPA 하이파이 우라실 플러스 중합효소로 증폭시키고 1X Ampure 비드로 정화하였다.

ssDNA 라이브러리 제조 키트를 사용한 저입력 전장 게놈 TAPS

전장 게놈 TAPS를 위해 전술한 바와 같이 제조한 mESC gDNA를 저입력 전장-게놈 TAPS에 사용하였다. 간략하게, 100 ng, 10 ng, 1 ng, 100 pg 및 10 pg의 mESC gDNA를 함유하는 샘플을 NgTET1로 1회 산화시키고 전술한 바와 같이 pic-보란으로 환원시켰다. 시퀀싱 라이브러리는 제조업체의 프로토콜에 따라 Accel-NGS 메틸-Seq DNA 라이브러리 키트(Swift Biosciences)로 제조하였다. 최종 라이브러리를 KAPA 하이파이 우라실 플러스 중합효소로 6사이클(100 ng), 9사이클(10 ng), 13사이클(1 ng), 16사이클(100 pg) 및 21사이클(10 pg) 동안 증폭시키고 0.85X Ampure 비드를 이용해 정화하였다.

다른 실험에서, 전장 게놈 TAPS를 위해 전술한 바와 같이 제조한 mESC gDNA를 저입력 전장-게놈 TAPS에 사용하였다. 간략하게, 100 ng, 10 ng 및 1 ng의 mESC gDNA를 함유하는 샘플을 말단-복구식 A-테일링 반응에 사용하고, 제조자의 프로토콜에 따라 KAPA HyperPlus 키트를 사용해 Illumina 다중화 어댑터에 연결하였다. 그런 다음, 연결된 샘플을 mTET1CD로 1회 산화시킨 다음, 전술한 프로토콜에 따라 피리딘 보란으로 환원시켰다. 전환된 라이브러리를 KAPA 하이파이 우라실 플러스 중합효소로 5사이클(100 ng), 8사이클(10 ng) 및 13사이클(1 ng) 동안 증폭시키고 1X Ampure XP 비드를 이용해 정화하였다.

세포-유리 DNA TAPS

세포-유리 DNA TAPS 샘플을 10 ng 및 1 ng의 세포-유리 DNA 샘플로 제조하였다. 간략하게, 샘플을 NgTET1로 1회 산화시키고 전술한 바와 같이 pic-보란으로 환원시켰다. 시퀀싱 라이브러리는 제조업체의 프로토콜에 따라 Accel-NGS 메틸-Seq DNA 라이브러리 키트(Swift Biosciences)로 제조하였다. 최종 라이브러리를 KAPA 하이파이 우라실 플러스 중합효소로 9사이클(10 ng) 및 13사이클(1 ng) 동안 증폭시키고 0.85X Ampure 비드를 이용해 정화하였다.

다른 실험에서, 세포-유리 DNA TAPS 샘플을 전장 게놈 TAPS에 대해 전술한 바와 같이 10 ng 및 1 ng의 세포-유리 DNA 샘플로부터 제조하였다. 간략하게, 세포-유리 DNA 샘플을 말단-복구식 A-테일링 반응에 사용하고, 제조자의 프로토콜에 따라 KAPA HyperPlus 키트를 사용해 Illumina 다중화 어댑터에 연결하였다. 그런 다음, 연결된 샘플을 mTET1CD로 1회 산화시킨 다음, 전술한 프로토콜에 따라 피리딘 보란으로 환원시켰다. 전환된 라이브러리를 KAPA 하이파이 우라실 플러스 중합효소로 7사이클(10 ng) 및 13사이클(1 ng) 동안 증폭시키고 1X Ampure XP 비드를 이용해 정화하였다.

WGBS 데이터 처리

페어드-엔드 판독을 Illumina BasEspace로부터 FASTQ로서 다운로드하고 이어서 Trim Galore! v0.4.4로 정확도를 트리밍(quality-trimmed)하였다(https://www.bioinformatics.babraham.ac.uk/projects/trim_galore/). 트리밍 후 적어도 하나의 판독이 35 bp보다 짧은 판독 쌍은 제거하였다. 트리밍한 판독은 --no_overlap 옵션을 사용하는 Bismark v0.19을 사용해 마우스 게놈의 mm9 버전, 람다 파지 및 PhiX(Illumina iGENOMES 유래 서열)을 결합하는 게놈에 맵핑하였다(참조로서 본원에 통합된 문헌[F. Krueger, S. R. Andrews, Bismark: a flexible aligner and methylation caller for Bisulfite-Seq applications. Bioinformatics 27, 1571-1572 (2011)] 참조). 'three-C' 필터를 사용하여 비전환율이 과도한 판독을 제거하였다. Picard v1.119 (http://broadinstitute.github.io/picard/) MarkDuplicates 사용하여 PCR 복제물을 호출하였다. 인공 산물(artefacts)을 맵핑하는 경향이 있는 것으로 알려진 영역을 다운로드하여 (https://sites.google.com/site/anshulkundaje/projects/blacklists) 추가의 분석에서 제외시켰다(참조로서 본원에 통합된 문헌[E. P. Consortium, An integrated encyclopedia of DNA elements in the human genome. Nature 489, 57-74 (2012)] 참조).

TAPS 데이터 전처리

페어드-엔드 판독을 Illumina BaseSpace에서 다운로드하고 이어서 Trim Galore! v0.4.4를 사용해 정확도를 트리밍하였다. 트리밍 후 적어도 하나의 판독이 35 bp보다 짧은 판독 쌍은 제거하였다. 트리밍한 판독은, 기본 파라미터로 BWA mem v.0.7.15(참조로서 본원에 통합된 문헌[H. Li, R. Durbin, Fast and accurate short read alignment with Burrows-Wheeler transform. Bioinformatics 25, 1754-1760 (2009)] 참조)를 사용해 스파이크-인 서열, 람다 파지, 및 마우스 게놈의 mm9 버전을 결합하는 게놈에 맵핑하였다. 인공 산물을 맵핑하는 경향이 있는 것으로 알려진 영역을 다운로드하여 (https://sites.google.com/site/anshulkundaje/projects/blacklists) 추가의 분석에서 제외시켰다(E. P. Consortium, Nature 489, 57-74 (2012) 참조).

TAPS에서 전환된 염기의 검출

맞춤형 python3 스크립트(MF-filter.py)를 사용하여 정렬된 판독을 원래 상단(OT) 및 원래 하단(OB) 표준으로 분할하였다. 그런 다음, Picard MarkDuplicates를 사용해 OT 및 OB 상에서 PCR 복제물을 각각 제거하였다. 판독 쌍 중 중첩 세그먼트는 BamUtil clipOverlap(https://github.com/statgen/bamUtil)을 사용하여 중복이 제거되고, 맵핑된 OT 및 OB 판독 상에서 각각 제거하였다. 그런 다음, samtools mpileup 및 맞춤형 python3 스크립트(MF-caller_MOD.py)를 사용하여 변형된 염기를 검출하였다.

TAPS 및 WGBS의 시퀀싱 정확도 분석

Illumina BaseSpace에서 다운로드한 원래 FASTQ 파일로부터 뉴클레오티드 유형 당 정확도 점수 통계를 python3 스크립트(MF-phredder.py)를 사용해 추출하였다.

TAPS 및 WGBS의 커버리지 분석

염기 당 게놈 커버리지 파일은 Bedtools v2.25 genomecov를 사용해 생성하였다(참조로서 본원에 통합된 문헌[A. R. Quinlan, I. M. Hall, BEDTools: a flexible suite of utilities for comparing genomic features. Bioinformatics 26, 841-842 (2010)] 참조). TAPS와 WGBS 간의 상대 커버리지 분포를 비교하기 위해, samtools view의 -s 옵션을 사용하여 TAPS 판독을 WGBS에서 상응하는 커버리지 중앙 값에 맞게 서브샘플링하였다. WGBS 및 서브샘플링된 TAPS의 커버리지를 비교하는 분석에서, TAPS 및 WGBS 모두의 밤 파일(bam file)에 클립오버랩(clipOverlap)을 사용하였다.

TAPS 및 WGBS에 의해 측정된 시토신 변형의 분석

염기 당 변형된 판독의 분획을 Bismark 출력 및 MF-caller_MOD.py의 출력으로부터 각각 산출하였다. Bedtools intersect를 사용해 교차(intersection)을 수행하고, 통계적 분석 및 도면은 R 및 Matlab에서 생성하였다. IGV v2.4.6을 사용하여 게놈 영역을 시각화하였다(참조로서 본원에 통합된 문헌[J. T. Robinson 등의 Integrative genomics viewer. Nat. Biotechnol. 29, 24-26 (2011)] 참조). CGI 주변의 커버리지 및 변형 수준을 도표화하기 위해, mm9에 대한 모든 CGI 좌표를 UCSC 게놈 브라우저에서 다운로드하고, 20개의 윈도우로 비닝하고, (다음 CGI까지의 거리에 절반에 도달하지 않는 한) 최대 50개의 윈도우 크기인 80 bp만큼 양측으로 연장하였다. 각각의 빈에서 (CpG에 있어서) 평균 변형 수준 및 (모든 염기, 모든 가닥에서) 커버리지는 Bedtools 맵을 사용해 연산하였다. 각각의 빈에 대한 값에 대해 다시 평균을 내고, 이어서 Matlab에서 도표화하였다.

데이터 처리 시간 시뮬레이션

람다 파지 게놈에 기초하여 ART42를 사용해 합성 페어-엔드 시퀀싱 판독을 시뮬레이션하였다(사용된 파라미더: -p -ss NS50 --errfree --minQ 15 -k 0 -nf 0 -l 75 -c 1000000 -m 240 -s 0 -ir 0 -ir2 0 -dr 0 -dr2 0 -sam -rs 10), 이어서, 맞춤형 phthon3 스크립트를 사용해 모든 CpG 위치의 50%를 변형된 것으로 표시하고, 2개의 라이브러리를 TAPS(전환으로 변형된 염기) 또는 WGBS(전환으로 변형되지 않은 염기) 중 하나로서 생성하였다. 그런 다음, 종이에서 각 방법에 사용된 파이프라인을 따라 판독을 처리하였다. 처리 시간은 Linux 커맨드 시간을 사용해 측정하였다. 분석의 모든 단계는 250 GB의 메모리를 갖는 하나의 Intel Xeon CPU를 이용해 단일 스레드 방식(single-threaded mode)으로 수행하였다.

결과 및 논의

pic-BH₃은 이전에 알려지지 않은 환원성 탈카르복실화/탈아미노화 반응(decarboxylation/deamination reaction)에 의해 5fC 및 5caC를 DHU로 쉽게 변환할 수 있음을 밝혀냈다(도 4). MALDI를 사용했을 때, 반응은 단일 뉴클레오시드와 올리고뉴클레오티드 모두에서 정량적인 것으로 나타났다(도 2~3 및 6~7).

매트릭스 보조 레이저 탈착/이온화 질량 분석법(MALDI)에 의해 모니터링했을 때, 5caC와 반응할 수 있는 화학물질을 스크리닝하기 위한 모델로서 11량체 5caC-함유 DNA 올리고를 사용하였다. 특정 보란 함유 화합물은 5caC 올리고와 효율적으로 반응하여 41 Da의 분자량을 감소시키는 것으로 밝혀졌다(도 1 및 2). 피리딘 보란 및 그 유도체인 2-피콜린 보란(pic-보란)은 상업적으로 이용 가능하고 환경적으로 양호한 환원제이므로 이들을 추가 연구를 위해 선택하였다.

단일 5caC 뉴클레오시드에 대한 반응을 반복하여 피리딘 보란 및 pic-보란이 5caC를 디하이드로우라실(DHU)로 전환시킨다는 것을 확인하였다 (도 3, 도 4b). 흥미롭게도, 피리딘 보란 및 pic-보란은 겉보기 환원성 탈카르복실화/탈아미노화 메커니즘을 통해서도 5fC를 DHU로 전환시키는 것으로 밝혀졌다(도 4c 및 도 6). 2가지 반응 모두의 상세한 메커니즘은 아직 정의되지 않았다. HPLC-MS/MS에 의한 DNA 올리고에 대한 보란 반응의 정량적 분석을 통해, pic-보란은 약 98% 효율로 5caC 및 5fC를 DHU로 전환시키며 비메틸화 시토신, 5mC 또는 5hmC에 대한 활성을 갖지 않음을 확인하였다(도 2b).

우라실 유도체로서의 DHU는 DNA 및 RNA 중합효소 둘 다에 의해 티민으로서 인식될 수 있다. 따라서, 보란 환원은 5caC-T 및 5fC-T 전이를 유도하는데 사용될 수 있고, 5fC 및 5caC의 염기-해상도 시퀀싱에 사용될 수 있는데, 이를 피리딘 보란 시퀀싱("PS")으로 지칭한다(표 6). 5fC 및 5caC의 T로의 보란 환원은 히드록실아민 접합(참조로서 본원에 통합된 문헌[C. X. Song 등 Genome-wide profiling of 5-formylcytosine reveals its roles in epigenetic priming. Cell 153, 678-691 (2013)] 참조) 및 EDC 커플링(X. Lu et al., Chemical modification-assisted bisulfite sequencing (CAB-Seq) for 5-carboxylcytosine detection in DNA. J. Am. Chem. Soc. 135, 9315-9317 (2013)] 참조)을 통해 각각 차단될 수 있다(도 6). 이러한 차단은 PS를 사용하여 5fC 또는 5caC를 특이적으로 시퀀싱할 수 있게 한다(표 6).

또한, TET 효소는 5caC와 5hmC를 5caC로 산화시키고, 이어서 5caC가 본원에서 TET-보조 피리딘 보란 시퀀싱("TAPS: TET-Assisted Pyridine borane Sequencing")으로 불리는 과정에서 보란 환원을 거치게 하는 데 사용될 수 있다(도 5a~b, 표 1). TAPS는 5mC 및 5hmC의 C-T 전이를 유도할 수 있으며, 따라서 5mC 및 5hmC의 염기-해상도 검출에 사용될 수 있다.

또한, β-글루코실트란스퍼라아제(βGT)는 글루코오스로 5hmC를 표지할 수 있고, 이에 의해 5hmC를 TET 산화(M. Yu 등 Base-resolution analysis of 5-hydroxymethylcytosine in the mammalian genome. Cell 149, 1368-1380 (2012) 참조) 및 보란 환원(도 7)으로부터 보호하여, 본원에서 TAPSβ로 지칭되는 과정에서 5mC만을 선택적으로 시퀀싱할 수 있게 한다(도 5b, 표 1). 그런 다음, 5hmC 부위를 TAPSβ의 감산에 의해 TAPS 측정치로부터 차감할 수 있다. 대안적으로, 산화성 중아황산염 시퀀싱(oxBS)(문헌[M. J. Booth 등 Quantitative Sequencing of 5-Methylcytosine and 5-Hydroxymethylcytosine at Single-Base Resolution. Science 336, 934-937 (2012) 참조)에 이전에 사용된 시약인 과루테늄산칼륨(KRuO₄)이 5hmC를 5fC로 특이적으로 산화시키는 화학적 산화제로서 TET를 대신하여 사용될 수 있다(도 7). 본원에서 화학-보조 피리딘 보란 시퀀싱("CAPS")으로 지칭되는 이러한 접근법은 5hmC를 특이적으로 시퀀싱하는 데 사용될 수 있다(도 5b, 표 1). 따라서, TAPS 및 관련 방법은 원칙적으로 모든 4개의 시토신 후성유전적 변형을 시퀀싱하기 위한 포괄적인 세트를 제공 할 수있다(도 5b, 표1, 표 6).

TAPS 단독으로도 게놈에서 기존의 5fC 및 5caC를 검출할 것이다. 그러나, 정상적인 조건 하에서는 게놈 DNA에서 5fC 및 5caC의 수준이 극히 낮으므로, 이는 사용될 수 있을 것이다. 특정 조건 하에서, 5fC 및 5caC 신호를 완전히 제거하고자 하는 경우, 5fC 및 5caC를 각각 히드록실아민 접합과 EDC 커플링에 의해 보호하여 DHU로의 전환을 방지함으로써 이를 쉽게 달성될 수 있다.

TAPS 성능은, 현재 표준이면서 5mC 및 5hmC의 염기-해상도 맵핑에 가장 광범위하게 사용되는 중아황산염 시퀀싱과 비교하여 평가하였다. 네글레리아 TET-유사 옥시게나아제(NgTET1) 및 마우스 Tet1(mTet1)을 사용하였는데, 이는 이들 모두가 시험관 내에서 5mC를 5caC로 효율적으로 산화시킬 수 있기 때문이다. 5mC-T 전이를 확인하기 위해, 완전히 메틸화된 CpG 부위를 함유하는 모델 DNA에 TAPS를 적용하였는데, TAPS는 제한 효소 분해(도 8a~8b) 및 생거 시퀀싱(도 9a)에 의해 입증된 바와 같이, 5mC를 T로 효과적으로 전환시킬 수 있음을 보여주었다. TAPSβ 및 CAPS를 생거 시퀀싱에 의해서도 검증하였다(도 12).

TAPS를 마우스 배아 줄기 세포(mESC) 유래의 게놈 DNA(gDNA)에도 적용하였다. HPLC-MS/MS 정량화는, 예상대로, 5mC가 mESC gDNA에서 시토신 변형의 98.5%를 차지하고; 나머지는 5hmC(1.5%) 및 미량의 5fC 및 5caC로 이루어지되, DHU는 없다는 것을 보여주었다(도 9b). TET 산화 후, 약 96%의 시토신 변형이 5caC로 산화되었고 3%는 5fC로 산화되었다(도 9b). 보란 환원 후, 시토신 변형의 99%가 DHU로 전환되었다(도 9b). 이들 결과는 TET 산화 및 보란 환원 모두가 게놈 DNA에 효율적으로 작용함을 입증하는 것이다.

TET 산화 및 보란 환원 모두는 온화한 반응으로서, 중아황산염에 비해 주목할만한 DNA 분해가 없으며(도 10a~10d) 더 많은 DNA를 회수할 수 있게한다. 중아황산염 시퀀싱에 비해 또 다른 주목할 만한 이점은 TAPS가 비파괴적이고 최대 10 kb의 길이까지 DNA를 보존할 수 있다는 것이다(도 10c). 또한, DNA는 TAPS 후 이중가닥으로 유지되고(도 10a~10c), 전환은 DNA 길이와 무관하다(도 15a~15b).

또한, DHU는 천연 염기에 가깝기 때문에, 다양한 DNA 중합효소 및 등온 DNA 또는 RNA 중합효소와 호환 가능하고(도 13a~13b), T/C와 비교하여 PCR 도중에 바이어스를 나타내지 않는다(도 14).

전장 게놈 시퀀싱을 mESC gDNA의 2개의 샘플에 대해 수행하였는데, 비교를 위해, 하나는 TAPS를 사용해 전환하였고 다른 하나는 표준 전장 게놈 중아황산염 시퀀싱(WGBS)을 사용하여 전환하였다.

TAPS의 정확성을 평가하기 위해, 길이가 다른 스파이크-인을 첨가하였는데, 이들는 전혀 변형시키지 않았거나, (상기 방법을 사용해) CpG 메틸트란스퍼라아제(M.SssI) 또는 GpC 메틸트란스퍼라아제(M.CviPI)를 사용해 시험관 내에서 메틸화한 것이었다. 5mC 및 5hmC를 함유하는 짧은 스파이크-인(120량체-1 및 120량체-2)의 경우, 2가지 CpG 및 비-CpG 컨텍스트에서, 양쪽 가닥 상에 2가지 변형 모두의 거의 완전한 전환이 관찰되었다(도 17a~17b).

WGBS의 경우 200 ng를 사용한 것에 비해, TAPS의 경우 100ng의 gDNA를 사용하였다. TAPS의 정확도를 평가하기 위해, 3가지 상이한 유형의 스파이크-인 대조군을 첨가하였다. 모든 CpG가 완전히 메틸화된 람다 DNA를 사용하여 위음율(5mC의 비-전환율)을 추정하였고; 2 kb의 미변형 앰플리콘을 사용하여 위양율(미변형 C의 전환율)을 추정하였으며; 임의의 다른 염기에 의해 둘러싸인 메틸화 C 및 하이드록시메틸화 C(각각, N5mCNN 및 N5hmCNN) 모두를 함유하는 합성 올리고 스파이크-인을 사용해 상이한 서열 컨텍스트에서 5mC 및 5hmC에 대한 전환율을 비교하였다. mTet1과 피리딘 보란의 조합은 최고의 5mC 전환율을 달성 하였고(람다 스파이크-인 및 합성 스파이크-인에서 각각 96.5% 및 97.3%) 미변형 C의 최저 전환율(0.23%)을 달성하였다(도 18a~18b, 도 16). 위양율이 단 0.23%일 때, 2.7% 내지 3.5%인 위음율은 중아황산염 시퀀싱과 비슷한데: 최근의 연구에 의하면, 9개의 상업용 중아황산염 키트가 각각 1.7%와 0.6%의 평균 위음율 및 위양율을 갖는다(Holmes, E.E. 등 Performance evaluation of kits for bisulfite-conversion of DNA from tissues, cell lines, FFPE tissues, aspirates, lavages, effusions, plasma, serum, and urine. PLoS One 9, e93933 (2014) 참조). 합성 스파이크-인은 TAPS가 5mC 및 5hmC에 대해 잘 작용하며, 비-CpG 컨텍스트에서만 TAPS의 성능이 약간 떨어진다는 것을 시사한다. 5hmC에 대한 변환은 5mC보다 8.2% 더 낮으며, 비-CpG의 컨텍스트에 대한 변환은 CpG 컨텍스트보다 11.4% 더 낮다(도 18a).

WGBS 데이터는 정렬 단계 및 변경 호출 단계 둘 다를 위한 특별한 소프트웨어를 필요로 한다. 대조적으로, 우리의 처리 파이프라인은 표준 게놈 정렬자(bwa)를 사용하고, 이어서 "asTair"로 부르는 맞춤형 변형 검출 도구를 사용한다. 시뮬레이션된 WGBS 및 TAPS 판독(동일한 반메틸화 소스 서열로부터 유래됨)을 처리할 때, TAPS/asTair는 WGBS/Bismark 보다 3배 이상 빨랐다(도 18c).

거의 모든 시토신을 티민으로 전환하기 때문에, WGBS 라이브러리는 일루미나 시퀀싱에 부정적으로 영향을 미칠 수 있는 극도로 치우친 뉴클레오티드 조성을 포함한다. 결과적으로, WGBS 판독은 TAPS에 비해 시토신/구아닌 염기쌍에서 실질적으로 더 낮은 시퀀싱 정확도 점수를 나타냈다(도 18e). 뉴클레오티드 조성 바이어스를 보상하기 위해, 적어도 10% 내지 20% PhiX DNA(염기 균형 대조군 라이브러리)가 일반적으로 WGBS 라이브러리에 첨가된다(예를 들어, Illumina's Whole-Genome Bisulfite Sequencing on the HiSeq 3000/HiSeq 4000 Systems 참조). 따라서, 우리는 WGBS 라이브러리에 15% PhiX를 보충하였다. 이는, BS-전환된 판독의 정보 함량 감소 및 중아황산염 처리로 인한 DNA 분해와 함께 WGBS의 맵핑율을 TAPS에 비해 상당히 낮추는 결과를 야기했다(도 18d 및 표 7).

따라서, 동일한 시퀀싱 비용(1회의 NextSeq 고출력 가동)에 대해, TAPS의 평균 깊이가 WGBS의 평균 깊이를 초과하였다(각각 21배 및 13.1배; 표 8). 또한, TAPS는 WGBS와 동일한 시퀀싱 깊이까지 다운샘플링한 후에도 커버되지 않는 영역이 더 적었고, 더 많은 균일한 커버리지 분포를 나타냈다(사분위수 범위: 각각 9 및 11; 도 19a 및 도 8).

예를 들어, CpG 섬(CGI)은, WGBS와 TAPS 간의 시퀀싱 깊이 차이를 제어한 경우에도, 특히 TAPS에 의해 전체적으로 더 잘 커버된 반면(도 21a), 둘 다는 CGI 내에서 동등한 탈메틸화를 나타냈다(도 22). 또한, WGBS는 고도로 커버된 CpG 부위에서 변형 수준의 감소에 있어서 약간의 바이어스를 나타낸 반면(도 23a), 우리의 결과는 TAPS가 변형 커버리지 바이어스를 거의 나타내지 않는다는 것을 시사한다(도 23b). 이들 결과는, TAPS가 시퀀싱 비용을 효율적으로 절반으로 줄이면서 WGBS에 비해 시퀀싱 정확도를 극적으로 개선하였음을 입증한다.

TAPS에 의한 더 높고 더 균일한 게놈 커버리지는 적어도 3개의 판독에 의해 더 많은 수의 CpG 부위가 커버될 수 있게 하였다. TAPS를 사용하면, 마우스 게놈 내 전체 43,205,316개의 CpG 부위 중 88.3%가 이러한 수준으로 커버되었는데, 이는 WGBS를 사용했을 때 단 77.5%인 것과 비교된다(도 21b 및 도 19b). TAPS 및 WGBS는 염색체 영역에 걸쳐 메틸화 측정을 고도로 상관시켰다(도 21d 및 도 20). 뉴클레오티드 당 기준으로는, 2가지 방법 모두에서 32,755,271개의 CpG 위치가 적어도 3개의 판독에 의해 커버되었다(도 21b). 이들 부위 내에서, 우리는 "변형된 CpG"를 적어도 10%의 변형 수준을 갖는 모든 CpG 위치로서 정의하였다(L. Wen 등 Whole-genome analysis of 5-hydroxymethylcytosine and 5-methylcytosine at base resolution in the human brain. Genome Biology 15, R49 (2014) 참조). 이러한 임계값을 사용했을 때, 95.8%의 CpG가 TAPS와 WGBS 간에 일치하는 변형 상태를 나타냈다. 적어도 3개의 판독에 의해 커버되고 WGBS에서 변형된 것으로 확인된 모든 CpG 중 98.5%가 TAPS에 의해 변형된 것으로 재호출되었는데, 이는 WGBS와 TAPS가 잘 일치함을 나타낸다(도 21c). WGBS 및 TAPS 둘 다에서, 적어도 3개의 판독에 의해 커버된 각 CpG 당 변형 수준을 비교할 때, TAPS와 WGBS간의 양호한 상관관계가 관찰되었다(Pearson r = 0.63, p < 2e-16, 도 21e). 특히, TAPS는 WGBS가 누락시킨 고도로 변형된 CpG 위치의 하위집합을 식별하였다(도 21e, 하단 우측 코너). 우리는, 직교 제한 분해 및 실시간 PCR 검정을 사용해 이들 CpG 중 7개를 추가로 검증하여, 이들 모두가 완전히 메틸화되고/되거나 하이드록시메틸화됨을 확인하였다(표 9).

TAPS, WGBS 및 HpaII-qPCR 검정에 의해 정량화된 mESC gDNA에서 CmCGG 메틸화 수준의 비교. TAPS 및 WGBS에 의한 커버리지 및 메틸화 수준(^mC%)를 가닥 당 연산하였다. HpaII-qPCR 검정에서 HpaII 분해 샘플(Ct_HpaII) 또는 대조군 샘플(Ct_Ctrl)에 대한 Ct 값은 3회의 평균이었다. mC%는 다음 식을 사용하여 계산된다: ^mC% = 2^( Ct_Ctrl -Ct_HpaII)*100%.
C^mCGG의 위치	TAPS		WGBS		HpaII-qPCR 검정
C^mCGG의 위치	커버리지	^mC%	커버리지	^mC%	Ct_HpaII	Ct_Ctrl	^mC%	전방향 및 역방향 프라이머(5'~3')
chr6: 135868201	17	100%	11	0%	29.628	29.642	101.0%	GCTGCAGATTGGAGCCAAAG TTGATGGTGATGGTGGAGCC
chr3:31339449	15	100%	10	0%	22.162	22.111	96.5%	TCAGTGCTCATGGACTCATACT ATACCCTGGGAGCAAAGTTGTTG
chr4:128271030	12	100%	10	0%	31.304	31.279	98.3%	CCCACTAGACATGCTCTGCC CAAAATGTTGCTTGCCTTCCG
chr1:58635199	11	100%	8	0%	22.008	22.026	101.3%	TCCCTGAGCCCTGATCTAGT AATACTGGCTGACCGGTTCT
chr14:36331351	11	100%	14	0%	21.228	21.053	88.6%	ACACCACAGCAGAAGAGAGC TAGGATTGTTGCACAGGCCA
chr19:42893499	11	100%	18	0%	22.515	22.558	103.0%	GCTGAGCTGTATCCTTGAGGT ACACGTGGGTATTCCACAGC
chr3:113611193	10	100%	5	0%	22.439	22.545	107.6%	GTGGATCTTCAGTGGTGGCA ATGCTCCCTCATCCTTTGCA
*음성 CCGG 부위*
chr19: 9043049	25	0%	17	0%	27.11	21.409	1.9%	AGCCTCTGAACTTGACTGCC GCCTGGAACTCCTGACAGTC
*양성 CCGG 부위*
chr15: 39335961	16	100%	4	100%	22.163	22.248	106.1%	GGTCCTTGATCCACCCAGAC ACATGGTGCTGGTCTAACCG

종합하면, 이들 결과는 TAPS가 WGBS를 직접적으로 대체할 수 있음을 나타내고, 실제로 WGBS보다 메틸롬에 대해 더 포괄적인 관점을 제공한다.

마지막으로, TAPS를 저 입력 DNA로 시험하였고, TAPS는 1 ng 정도로 적은 gDNA로도 작용하고, 일부 경우에는 이는 단일 세포 수준에 가까운 10 pg의 gDNA로도 작용하는 것으로 나타났다. TAPS는 적게는 1 ng의 순환하는 세포-유리 DNA로도 효과적으로 작용한다. 이러한 결과는 저 입력 DNA 및 임상 적용에 대한 TAPS의 능력을 입증한다(도 24a~24c, 도 25a~25b).

1~2 ml의 혈장에서 수득한 하나의 건강한 샘플, 하나의 바렛 식도(Barrett's) 샘플, 및 하나의 췌장암 샘플에서 유래된 3개의 순환하는 세포-유리 DNA 샘플(cfDNA)에 대해 TAPS를 시험하였다. 표준 TAPS 프로토콜을 따랐고, 각각의 샘플은 약 10x 커버리지까지 시퀀싱하였다. cfDNA TAPS 결과의 분석은 TAPS가, 높은 5mC 전환율(도 26a), 낮은 위양율(미변형 시토신의 전환, 도 26b), 높은 맵핑율(도 26c), 및 낮은 PCR 복제율(도 26d)을 포함하여, 벌크 게놈 DNA에서와 같은 고-정확도 메틸롬 시퀀싱을 저-입력 cfDNA로부터 제공한다는 것을 보여주었다. 이들 결과는 cfDNA로부터 질환을 진단하는 TAPS의 능력을 입증한다.

TAPS는 C-T 유전자 변이체 또는 단일 뉴클레오티드 다형성(SNP)으로부터의 메틸화를 구별할 수도 있으므로, 유전자 변이체를 검출할 수 있다. TAPS에 있어서 메틸화 및 C-T SNP는 상이한 패턴으로 나타나는데: 메틸화는 원래 상단 가닥(OT)/원래 하단 가닥(OB)에서 T/G 판독을 생성하고, OT에 상보적인 가닥(CTOT) 및 OB에 상보적인 가닥(CTOB)에서 A/C 판독을 생성하는 반면, C-T SNP는 OT/OB 및 (CTOB/CTOT)에서 T/A 판독을 생성한다(도 27). 이는 1회의 실험 및 시퀀싱 수행에서, 메틸화 정보 및 유전자 변이체 둘 다를 제공하는 TAPS의 유용성을 더 증가시킨다. 본원에 개시된 TAPS 방법의 이러한 능력은 게놈 분석을 후성유전자 분석과 통합할 수 있게 하고, 표준 전장 게놈 시퀀싱(WGS)을 수행할 필요성을 제거함으로써 시퀀싱 비용을 실질적으로 감소시킬 수 있다.

요약하자면, 우리는 시토신의 후성유전적 변형을 위한 일련의 PS-유래 중아황산염-유리 염기-해상도 시퀀싱 방법을 개발하였으며, 전체 메틸롬 시퀀싱에 대한 TAPS의 유용성을 입증하였다. 미변형 시토신에 영향을 주지 않으면서 높은 민감도와 특이성으로 염기-해상도에서 5mC 및 5hmC를 직접 검출하는 온화한 효소 반응 및 화학 반응을 사용함으로써, TAPS는 절반의 시퀀싱 비용으로 높은 정확도 및 더 완전한 메틸롬을 제공함에 있어서 중아황산염 시퀀싱을 능가한다. 이와 같이, TAPS는 DNA 메틸시토신 및 하이드록시메틸시토신 분석에서 새로운 표준으로서 중아황산염 시퀀싱을 대체할 수 있다. 최근에 보고된 중아황산염 5fC 시퀀싱 방법(B. Xia 등 Bisulfite-free, base-resolution analysis of 5-formylcytosine at the genome scale. Nat. Methods 12, 1047-1050 (2015); C. Zhu 등 Single-Cell 5-Formylcytosine Landscapes of Mammalian Early Embryos and ESCs at Single-Base Resolution. Cell Stem Cell 20, 720-731 (2017) 참조)에서의 시토신에 대한 벌키한 변형을 도입하는 대신에, TAPS는 변형된 시토신을 일반적인 중합효소에 의해 T로서 "판독"될 수 있는, 천연 염기에 가까운 DHU로 전환시키며, PCR-유리 DNA 시퀀싱과 잠재적으로 호환될 수 있다. TAPS는 파이로시퀀싱, 메틸화-민감성 PCR, 제한 분해, MALDI 질량 분석법, 마이크로어레이 및 전장 게놈 시퀀싱을 포함하지만 이에 한정되지 않는 다양한 하류 분석과 호환될 수 있다. TAPS는 긴 DNA를 보존할 수 있기 때문에, SMRT 시퀀싱 및 나노포어 시퀀싱과 같은 긴 판독 시퀀싱 기술과 조합되면, 맵핑하기 어려운 특정 영역을 조사하는 데 매우 가치가 있을 수 있다. 또한, 풀다운 방법(pull-down method)을 TAPS와 결합하여 시퀀싱 비용을 더 낮출 수 있고, 염기-해상도 정보를 저해상도 친화도 기반 맵에 추가하는 것도 가능하다. 본원에서, TAPS가 분석에 필요한 비용, 복잡성 및 시간을 줄이면서 일상적인 용도로 WGBS를 직접 대체할 수 있음을 입증하였다. 이는 학술 연구 및 임상 진단에 있어서 후성유전학적 분석의 보다 광범위한 채택으로 이어질 수 있다.

<110> Ludwig Institute for Cancer Research Ltd. <120> BISULFITE-FREE, BASE-RESOLUTION IDENTIFICATION OF CYTOSINE MODIFICATIONS <130> 084276.00229 <140> PCT/US19/12627 <141> 2019-01-08 <150> 62/614,798 <151> 2018-01-08 <150> 62/771,409 <151> 2018-11-26 <150> 62/660,523 <151> 2018-04-20 <160> 80 <170> PatentIn version 3.5 <210> 1 <211> 12 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 1 gtcgaccgga tc 12 <210> 2 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 2 ttggatccgg tcgactt 17 <210> 3 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 3 cctgatgaaa caagcatgtc 20 <210> 4 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 4 cautactcac utccccacut 20 <210> 5 <211> 36 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n=methylcytosine <220> <221> misc_feature <222> (29)..(29) <223> n = hydroxymethylcytosine <400> 5 cccgangcat gatctgtact tgatcgacng tgcaac 36 <210> 6 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 6 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 7 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 7 ngatcggaag agcacacgtc tgaactccag tcacgccaat atctcgtatg ccgtcttctg 60 cttg 64 <210> 8 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 8 tcttccgauc gttgcacggu cgatcaagua cagatcatgc gucgggagau cggaag 56 <210> 9 <211> 157 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (64)..(64) <223> n = methylcytosine <220> <221> misc_feature <222> (87)..(87) <223> n = hydroxymethylcytosine <400> 9 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctcc 60 cgangcatga tctgtacttg atcgacngtg caacgatcgg aagagcacac gtctgaactc 120 cagtcacgcc aatatctcgt atgccgtctt ctgcttg 157 <210> 10 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 10 aatgatacgg cgaccaccga g 21 <210> 11 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 11 caagcagaag acggcatacg ag 22 <210> 12 <211> 34 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (9)..(9) <223> n = methylcytosine <220> <221> misc_feature <222> (19)..(19) <223> n = methylcytosine <220> <221> misc_feature <222> (27)..(27) <223> n = methylcytosine <400> 12 agcagtctng atcagctgnt actgtangta gcat 34 <210> 13 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 13 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 14 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 14 ngatcggaag agcacacgtc tgaactccag tcacgccaat atctcgtatg ccgtcttctg 60 cttg 64 <210> 15 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 15 naggtgcgct aagttctaga tcgccaactg gttgtggcct t 41 <210> 16 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 16 nctatagccg gcttgctctc tctgcctcta gcagctgctc cctatagtga gtcgtattaa 60 c 61 <210> 17 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 17 atctagaact tagcgcacct agatcggaag agcgtcgtgt 40 <210> 18 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 18 agagagcaag ccggctatag atgctacgta cagtagcagc tgatcaagac tgctaaggcc 60 acaaccagtt ggcg 74 <210> 19 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 19 agacgtgtgc tcttccgatc gttaatacga ctcactatag gg 42 <210> 20 <211> 255 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (107)..(107) <223> n = methylcytosine <220> <221> misc_feature <222> (117)..(117) <223> n = methylcytosine <220> <221> misc_feature <222> (125)..(125) <223> n = methylcytosine <400> 20 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctag 60 gtgcgctaag ttctagatcg ccaactggtt gtggccttag cagtctngat cagctgntac 120 tgtangtagc atctatagcc ggcttgctct ctctgcctct agcagctgct ccctatagtg 180 agtcgtatta acgatcggaa gagcacacgt ctgaactcca gtcacgccaa tatctcgtat 240 gccgtcttct gcttg 255 <210> 21 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 21 tgctagaggc agagagagca ag 22 <210> 22 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (9)..(9) <223> n= DHU or U or T or C <400> 22 agcagtctng atcagct 17 <210> 23 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 23 gctactgtac gtagcat 17 <210> 24 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 24 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatct 58 <210> 25 <211> 64 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 25 ngatcggaag agcacacgtc tgaactccag tcacgccaat atctcgtatg ccgtcttctg 60 cttg 64 <210> 26 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 26 naggtgcgct aagttctaga tcgccaactg gttgtggcct t 41 <210> 27 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (1)..(1) <223> n = phosphorylation <400> 27 nctatagccg gcttgctctc tctgcctcta gcagctgctc cctatagtga gtcgtattaa 60 c 61 <210> 28 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 28 atctagaact tagcgcacct agatcggaag agcgtcgtgt 40 <210> 29 <211> 74 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 29 agagagcaag ccggctatag atgctacgta cagtagcagc tgatcaagac tgctaaggcc 60 acaaccagtt ggcg 74 <210> 30 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 30 agacgtgtgc tcttccgatc gttaatacga ctcactatag gg 42 <210> 31 <211> 255 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (107)..(107) <223> n = DHU or U or T or C <400> 31 aatgatacgg cgaccaccga gatctacact ctttccctac acgacgctct tccgatctag 60 gtgcgctaag ttctagatcg ccaactggtt gtggccttag cagtctngat cagctgctac 120 tgtacgtagc atctatagcc ggcttgctct ctctgcctct agcagctgct ccctatagtg 180 agtcgtatta acgatcggaa gagcacacgt ctgaactcca gtcacgccaa tatctcgtat 240 gccgtcttct gcttg 255 <210> 32 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 32 cacagatgtc tgcctgttca 20 <210> 33 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 33 agggtggtga atgtgaaacc 20 <210> 34 <211> 2018 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 34 cacagatgtc tgcctgttca tccgcgtcca gctcgttgag tttctccaga agcgttaatg 60 tctggcttct gataaagcgg gccatgttaa gggcggtttt ttcctgtttg gtcactgatg 120 cctccgtgta agggggattt ctgttcatgg gggtaatgat accgatgaaa cgagagagga 180 tgctcacgat acgggttact gatgatgaac atgcccggtt actggaacgt tgtgagggta 240 aacaactggc ggtatggatg cggcgggacc agagaaaaat cactcagggt caatgccagc 300 gcttcgttaa tacagatgta ggtgttccac agggtagcca gcagcatcct gcgatgcaga 360 tccggaacat aatggtgcag ggcgctgact tccgcgtttc cagactttac gaaacacgga 420 aaccgaagac cattcatgtt gttgctcagg tcgcagacgt tttgcagcag cagtcgcttc 480 acgttcgctc gcgtatcggt gattcattct gctaaccagt aaggcaaccc cgccagccta 540 gccgggtcct caacgacagg agcacgatca tgcgcacccg tggggccgcc atgccggcga 600 taatggcctg cttctcgccg aaacgtttgg tggcgggacc agtgacgaag gcttgagcga 660 gggcgtgcaa gattccgaat accgcaagcg acaggccgat catcgtcgcg ctccagcgaa 720 agcggtcctc gccgaaaatg acccagagcg ctgccggcac ctgtcctacg agttgcatga 780 taaagaagac agtcataagt gcggcgacga tagtcatgcc ccgcgcccac cggaaggagc 840 tgactgggtt gaaggctctc aagggcatcg gtcgagatcc cggtgcctaa tgagtgagct 900 aacttacatt aattgcgttg cgctcactgc ccgctttcca gtcgggaaac ctgtcgtgcc 960 agctgcatta atgaatcggc caacgcgcgg ggagaggcgg tttgcgtatt gggcgccagg 1020 gtggtttttc ttttcaccag tgagacgggc aacagctgat tgcccttcac cgcctggccc 1080 tgagagagtt gcagcaagcg gtccacgctg gtttgcccca gcaggcgaaa atcctgtttg 1140 atggtggtta acggcgggat ataacatgag ctgtcttcgg tatcgtcgta tcccactacc 1200 gagatatccg caccaacgcg cagcccggac tcggtaatgg cgcgcattgc gcccagcgcc 1260 atctgatcgt tggcaaccag catcgcagtg ggaacgatgc cctcattcag catttgcatg 1320 gtttgttgaa aaccggacat ggcactccag tcgccttccc gttccgctat cggctgaatt 1380 tgattgcgag tgagatattt atgccagcca gccagacgca gacgcgccga gacagaactt 1440 aatgggcccg ctaacagcgc gatttgctgg tgacccaatg cgaccagatg ctccacgccc 1500 agtcgcgtac cgtcttcatg ggagaaaata atactgttga tgggtgtctg gtcagagaca 1560 tcaagaaata acgccggaac attagtgcag gcagcttcca cagcaatggc atcctggtca 1620 tccagcggat agttaatgat cagcccactg acgcgttgcg cgagaagatt gtgcaccgcc 1680 gctttacagg cttcgacgcc gcttcgttct accatcgaca ccaccacgct ggcacccagt 1740 tgatcggcgc gagatttaat cgccgcgaca atttgcgacg gcgcgtgcag ggccagactg 1800 gaggtggcaa cgccaatcag caacgactgt ttgcccgcca gttgttgtgc cacgcggttg 1860 ggaatgtaat tcagctccgc catcgccgct tccacttttt cccgcgtttt cgcagaaacg 1920 tggctggcct ggttcaccac gcgggaaacg gtctgataag agacaccggc atactctgcg 1980 acatcgtata acgttactgg tttcacattc accaccct 2018 <210> 35 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Template <400> 35 atactcatca ttaaacttcg cccttaccta ccacttcgtg tatgtagata ggtagtatac 60 aattgatatc gaaatgagta cgtagatagt agaaagtaag atggaggtga gagtgagagt 120 <210> 36 <211> 38 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 36 atactcatca ttaaacttcg cccttaccta ccacttcg 38 <210> 37 <211> 120 <212> DNA <213> Artificial Sequence <220> <223> Template <220> <221> misc_feature <222> (23)..(23) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (23)..(23) <223> n = 5-hydroxymethylcytosine <220> <221> misc_feature <222> (37)..(37) <223> n = 5-hydroxymethylcytosine <220> <221> misc_feature <222> (49)..(49) <223> n = 5-hydroxymethylcytosine <400> 37 gcggcgtgat actggtcccg agnctgaagt taggccnggg atgactgana gtcttccgag 60 accgacgaca caggtctccc tatagtgagt cgtattatgg cgagagaatg aatctccatc 120 <210> 38 <211> 42 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 38 gatggagatt cattctctcg ccataatacg actcactata gg 42 <210> 39 <211> 90 <212> DNA <213> Artificial Sequence <220> <223> Template <220> <221> misc_feature <222> (50)..(50) <223> n = A or G or T or C <220> <221> misc_feature <222> (51)..(51) <223> n = methylcytosine <220> <221> misc_feature <222> (52)..(52) <223> n = A or G or T or C <220> <221> misc_feature <222> (53)..(53) <223> n = A or G or T or C <400> 39 gaagatgcag aagacaggaa ggatgaaaca ctcaggcgca cgctggcatn nnngacaaac 60 cacaagaaca ggctagtgag aatgaaggga 90 <210> 40 <211> 90 <212> DNA <213> Artificial Sequence <220> <223> Template <220> <221> misc_feature <222> (49)..(49) <223> n = A or G or T or C <220> <221> misc_feature <222> (50)..(50) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (51)..(51) <223> n = A or G or T or C <220> <221> misc_feature <222> (52)..(52) <223> n = A or G or T or C <400> 40 ccaactctga aacccaccaa cgccaacatc caccacacaa cccaagatnn nngaccatct 60 tacaaacata tcccttcatt ctcactagcc 90 <210> 41 <211> 160 <212> DNA <213> Artificial Sequence <220> <223> Template <220> <221> misc_feature <222> (50)..(50) <223> n = A or G or T or C <220> <221> misc_feature <222> (51)..(51) <223> n = methylcytosine <220> <221> misc_feature <222> (52)..(52) <223> n = A or G or T or C <220> <221> misc_feature <222> (53)..(53) <223> n = A or G or T or C <220> <221> misc_feature <222> (109)..(109) <223> n = A or G or T or C <220> <221> misc_feature <222> (110)..(110) <223> n = A or G or T or C <220> <221> misc_feature <222> (112)..(112) <223> n = A or G or T or C <400> 41 gaagatgcag aagacaggaa ggatgaaaca ctcaggcgca cgctggcatn nnngacaaac 60 cacaagaaca ggctagtgag aatgaaggga tatgtttgta agatggtcnn gnatcttggg 120 ttgtgtggtg gatgttggcg ttggtgggtt tcagagttgg 160 <210> 42 <211> 160 <212> DNA <213> Artificial Sequence <220> <223> Template <220> <221> misc_feature <222> (49)..(49) <223> n = A or G or T or C <220> <221> misc_feature <222> (50)..(50) <223> n =hydroxymethylcytosine <220> <221> misc_feature <222> (51)..(51) <223> n = A or G or T or C <220> <221> misc_feature <222> (52)..(52) <223> n = A or G or T or C <220> <221> misc_feature <222> (108)..(108) <223> n = A or G or T or C <220> <221> misc_feature <222> (109)..(109) <223> n = A or G or T or C <220> <221> misc_feature <222> (111)..(111) <223> n = A or G or T or C <400> 42 ccaactctga aacccaccaa cgccaacatc caccacacaa cccaagatnn nngaccatct 60 tacaaacata tcccttcatt ctcactagcc tgttcttgtg gtttgtcnng natgccagcg 120 tgcgcctgag tgtttcatcc ttcctgtctt ctgcatcttc 160 <210> 43 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 43 cctgatgaaa caagcatgtc 20 <210> 44 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 44 cattactcac ttccccactt 20 <210> 45 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 45 gctgcagatt ggagccaaag ttgatggtga tggtggagcc 40 <210> 46 <211> 45 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 46 tcagtgctca tggactcata ctataccctg ggagcaaagt tgttg 45 <210> 47 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 47 cccactagac atgctctgcc caaaatgttg cttgccttcc g 41 <210> 48 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 48 tccctgagcc ctgatctagt aatactggct gaccggttct 40 <210> 49 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 49 acaccacagc agaagagagc taggattgtt gcacaggcca 40 <210> 50 <211> 41 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 50 gctgagctgt atccttgagg tacacgtggg tattccacag c 41 <210> 51 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 51 gtggatcttc agtggtggca atgctccctc atcctttgca 40 <210> 52 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 52 agcctctgaa cttgactgcc gcctggaact cctgacagtc 40 <210> 53 <211> 40 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 53 ggtccttgat ccacccagac acatggtgct ggtctaaccg 40 <210> 54 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = 5-carboxylcytosine <400> 54 tcgacnggat c 11 <210> 55 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = DHU <400> 55 tcgacnggat c 11 <210> 56 <211> 13 <212> DNA <213> Artificial Sequence <220> <223> primer <220> <221> misc_feature <222> (13)..(13) <223> n = 5-formylcytosine <400> 56 gtcgaccgga tcn 13 <210> 57 <211> 13 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (13)..(13) <223> 5 oxime cytosine <400> 57 gtcgaccgga tcn 13 <210> 58 <211> 13 <212> DNA <213> Artificial Sequence <220> <223> Prime <220> <221> misc_feature <222> (13)..(13) <223> n = Dihydrouracil <400> 58 gtcgaccgga tcn 13 <210> 59 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = 5-carboxylcytosine <400> 59 tcgacnggat c 11 <210> 60 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = amide cytosine <400> 60 tcgacnggat c 11 <210> 61 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = Dihydrouracil <400> 61 tcgacnggat c 11 <210> 62 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = 5-Methylcytosine <400> 62 tcgacnggat c 11 <210> 63 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = 5-formylcytosine <400> 63 tcgacnggat c 11 <210> 64 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = 5-hydroxymethylcytosine <400> 64 tcgacnggat c 11 <210> 65 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = glucosyl-5-hydroxymethyl-cytosine <400> 65 tcgacnggat c 11 <210> 66 <211> 11 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = Dihydrouracil <400> 66 tcgacnggat c 11 <210> 67 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = Methylcytosine <400> 67 cctgtngagc 10 <210> 68 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 68 cctgtcgagc 10 <210> 69 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 69 cctgttgagc 10 <210> 70 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 70 agtcttgatc 10 <210> 71 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = Methylcytosine <400> 71 agtctngatc 10 <210> 72 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (6)..(6) <223> n = Methylcytosine <400> 72 cctgtngagc 10 <210> 73 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 73 cctgttgagc 10 <210> 74 <211> 10 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 74 cctgtcgagc 10 <210> 75 <211> 116 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (19)..(19) <223> n = Methylcytosine <220> <221> misc_feature <222> (34)..(34) <223> n = Methylcytosine <220> <221> misc_feature <222> (57)..(57) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (67)..(67) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (78)..(78) <223> n = hydroxymethylcytosine <400> 75 atactcatca ttaaacttng cccttaccta cttngtgtat gatgataggt agtatanaat 60 tgatatngaa atgagtangt agatagtaga aagtaagatg gaggtgagag tgagag 116 <210> 76 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 76 atactcatca ttaaacttcg cccttaccta ccacttcgtg tatgtagata ggtagtatac 60 aattgatatc gaaatgagta cgtagatagt agaaagtaag atggaggtga gagtgagag 119 <210> 77 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (20)..(20) <223> n = Methylcytosine <220> <221> misc_feature <222> (38)..(38) <223> n = Methylcytosine <220> <221> misc_feature <222> (71)..(71) <223> n = Methylcytosine <220> <221> misc_feature <222> (82)..(82) <223> n = Methylcytosine <400> 77 tatgagtagt aatttgaagn gggaatggat ggtgaagnac atacatatat ccatcatatg 60 ttaactatag ntttactcat gnatctatca tctttcattc tacctccact ctcactctc 119 <210> 78 <211> 113 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (2)..(2) <223> n = Methylcytosine <220> <221> misc_feature <222> (16)..(16) <223> n = Methylcytosine <220> <221> misc_feature <222> (20)..(20) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (34)..(34) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (46)..(46) <223> n = hydroxymethylcytosine <220> <221> misc_feature <222> (54)..(54) <223> n = Methylcytosine <220> <221> misc_feature <222> (60)..(60) <223> n = Methylcytosine <220> <221> misc_feature <222> (63)..(63) <223> n = Methylcytosine <220> <221> misc_feature <222> (88)..(88) <223> n = Methylcytosine <220> <221> misc_feature <222> (98)..(98) <223> n = Methylcytosine <400> 78 gngtgatact ggtccngagn ctgaagttag gccngggatg actganagtc ttcngagacn 60 gangacacag gtctccctat agtgagtngt attatggnga gagaatgaat ctc 113 <210> 79 <211> 113 <212> DNA <213> Artificial Sequence <220> <223> Primer <400> 79 gcgtgatact ggtcccgagc ctgaagttag gcccgggatg actgacagtc ttccgagacc 60 gacgacacag gtctccctat agtgagtcgt attatggcga gagaatgaat ctc 113 <210> 80 <211> 113 <212> DNA <213> Artificial Sequence <220> <223> Primer <220> <221> misc_feature <222> (3)..(3) <223> n = Methylcytosine <220> <221> misc_feature <222> (17)..(17) <223> n = Methylcytosine <220> <221> misc_feature <222> (35)..(35) <223> n = Methylcytosine <220> <221> misc_feature <222> (55)..(55) <223> n = Methylcytosine <220> <221> misc_feature <222> (61)..(61) <223> n = Methylcytosine <220> <221> misc_feature <222> (64)..(64) <223> n = Methylcytosine <220> <221> misc_feature <222> (89)..(89) <223> n = Methylcytosine <220> <221> misc_feature <222> (99)..(99) <223> n = Methylcytosine <400> 80 cgnactatga ccagggntcg gacttcaatc cgggncctac tgactgtcag aaggntctgg 60 ntgntgtgtc cagagggata tcactcagna taataccgnt ctcttactta gag 113

Claims

표적 핵산에서 5-메틸시토신(5mC) 또는 5-하이드록시메틸시토신(5hmC)을 식별하는 방법으로서, 상기 방법은:
상기 표적 핵산을 포함하는 핵산 샘플을 제공하는 단계;
상기 표적 핵산을 변형시키는 단계로서, 다음의 단계를 포함하는 단계:
상기 핵산 샘플을 텐-일레븐 트랜스로케이션(TET) 효소와 접촉시켜, 하나 이상의 5-카르복실시토신 (5caC) 또는 5-포르밀시토신(5fC) 잔기가 생성되도록 함에 의해 상기 핵산 샘플 내 5mC 및 5hmC를 5caC 및/또는 5fC로 전환시키는 단계; 및
상기 표적 핵산을 보란 환원제로 처리함에 의해 상기 5caC 및/또는 5fC를 디하이드로우라실 (DHU)로 전환시켜 변형된 표적 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계; 및
상기 변형된 표적 핵산의 서열을 검출하는 단계
를 포함하고;
상기 표적 핵산과 비교하여 상기 변형된 표적 핵산 서열에서 시토신 (C)의 티민(T)으로의 전이 또는 시토신(C)의 DHU로의 전이가 상기 표적 핵산에서 5mC 또는 5hmC의 위치를 제공하는, 방법.
제1항에 있어서, 상기 보란 환원제는 2-피콜린 보란인, 방법.
제1항에 있어서, 상기 변형된 표적 핵산의 서열을 검출하는 단계는 사슬 종결 시퀀싱, 마이크로어레이, 고 처리량 시퀀싱 및 제한 효소 분석 중 하나 이상을 포함하는, 방법.
제1항에 있어서, 상기 TET 효소는 인간 TET1, TET2 및 TET3; 쥣과 Tet1, Tet2 및 Tet3; 네글레리아(Naegleria) TET(NgTET); 및 재흙물버섯(Coprinopsis cinerea)(CcTET)으로 이루어진 군으로부터 선택되는, 방법.
제1항에 있어서, 하나 이상의 변형된 시토신을 차단하는 단계를 추가로 포함하는, 방법.
제5항에 있어서, 상기 차단하는 단계는 당류를 5hmC에 첨가함을 포함하는, 방법.
제1항에 있어서, 상기 방법은 하나 이상의 핵산 서열의 카피 수를 증폭하는 단계를 추가로 포함하는, 방법.
핵산 샘플을 화학적으로 변형시키기 위한 방법으로서, 상기 방법은:
5-카르복실시토신 (5caC) 및/또는 5-포르밀시토신 (5fC)을 포함하는 핵산 샘플을 제공하는 단계; 및
상기 핵산을 보란 환원제로 처리함에 의해 상기 5caC 및/또는 5fC를 디하이드로우라실 (DHU)로 전환시켜 변형된 핵산을 포함하는 변형된 핵산 샘플을 제공하는 단계를 포함하는, 방법.
제8항에 있어서, 상기 보란 환원제는 2-피콜린 보란(pic-BH3), 보란, 소듐 보로하이드라이드, 소듐 시아노보로하이드라이드 및 소듐 트리아세톡시보로하이드라이드로 이루어진 군으로부터 선택되는, 방법.
제8항에 있어서, 상기 보란 환원제는 2-피콜린 보란인, 방법.
제8항에 있어서, 상기 변형된 핵산의 서열을 검출하는 단계를 추가로 포함하는, 방법.
제11항에 있어서, 상기 변형된 핵산의 서열을 검출하는 단계는 사슬 종결 시퀀싱, 마이크로어레이, 고 처리량 시퀀싱 및 제한 효소 분석 중 하나 이상을 포함하는, 방법.
제11항에 있어서, 상기 변형된 핵산의 서열을 검출하는 단계는 상기 핵산 샘플에서 정량적 수준의 하나 이상의 시토신 변형을 제공하는, 방법.
제8항에 있어서, 상기 방법은 하나 이상의 핵산 서열의 카피 수를 증폭하는 단계를 추가로 포함하는, 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제