KR20240036638A - 핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법 - Google Patents

핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법 Download PDF

Info

Publication number
KR20240036638A
KR20240036638A KR1020247005663A KR20247005663A KR20240036638A KR 20240036638 A KR20240036638 A KR 20240036638A KR 1020247005663 A KR1020247005663 A KR 1020247005663A KR 20247005663 A KR20247005663 A KR 20247005663A KR 20240036638 A KR20240036638 A KR 20240036638A
Authority
KR
South Korea
Prior art keywords
nucleic acid
cancer
nucleotides
nucleotide
nucleic acids
Prior art date
Application number
KR1020247005663A
Other languages
English (en)
Inventor
에릭 아리아지
파울라 에스퀘티니
아니샤 테와리
데이비드 바인베르크
Original Assignee
프리놈 홀딩스, 인크.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 프리놈 홀딩스, 인크. filed Critical 프리놈 홀딩스, 인크.
Publication of KR20240036638A publication Critical patent/KR20240036638A/ko

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6858Allele-specific amplification
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12PFERMENTATION OR ENZYME-USING PROCESSES TO SYNTHESISE A DESIRED CHEMICAL COMPOUND OR COMPOSITION OR TO SEPARATE OPTICAL ISOMERS FROM A RACEMIC MIXTURE
    • C12P19/00Preparation of compounds containing saccharide radicals
    • C12P19/26Preparation of nitrogen-containing carbohydrates
    • C12P19/28N-glycosides
    • C12P19/30Nucleotides
    • C12P19/34Polynucleotides, e.g. nucleic acids, oligoribonucleotides
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2535/00Reactions characterised by the assay type for determining the identity of a nucleotide base or a sequence of oligonucleotides
    • C12Q2535/122Massive parallel sequencing

Abstract

본 개시 내용은 핵산 시퀀싱 라이브러리 품질 및 핵산 메틸화 프로파일링을 개선하는 데 유용한 5hmC 시퀀싱의 개선된 분해능을 위한 올리고뉴클레오티드 어댑터 조성물, 방법, 및 시스템을 제공한다. 또한, 개선된 올리고뉴클레오티드 어댑터를 적용하는 방법 및 기계 학습 분류자 생성, 및 암과 같은 세포 증식성 장애의 검출을 위한 시퀀싱 방법도 제공된다. 개선된 올리고뉴클레오티드 어댑터를 적용하는 방법 및 핵산 시퀀싱 라이브러리 품질 및 핵산 메틸화 프로파일링을 개선하기 위한 시퀀싱 방법과 함께 표적화된 핵산 농축을 적용하는 방법도 제공된다.

Description

핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법
관련 출원에 대한 상호 참조
본 출원은 2021년 7월 20일에 출원된 미국 특허 가출원 제63/223,661호의 이익을 주장하며, 이는 그 전체 내용이 본원에 참고로 포함된다.
분야
본 개시 내용은 일반적으로 핵산 서열의 메틸화 분석을 수행하기 위한 개선된 어댑터 및 방법에 관한 것이다. 본 개시 내용은 핵산 메틸화 패턴 분석에 유용할 수 있는 5-히드록시메틸화 시토신에 대한 시퀀싱 분해능을 개선하기 위한 시퀀싱 어댑터 및 사용 방법에 관한 것이다.
DNA 메틸화는 CpG 디뉴클레오티드의 시토신에서 주로 발생하며 유전자 조절에서 기능적 역할을 하는 후성유전학적 표식으로 작용한다. 메틸화 표식은 유전되며 게놈 전체에 걸친 프로파일은 조직마다 다르다. 암에서는 유전자 특이적 메틸화 프로파일이 이상해질 수 있지만 메틸화가 암 진단 및 예후에 유용한 바이오마커로 표시되도록 하는 기원 조직과의 유사성을 유지한다.
5-메틸시토신(5mC) 및 5-히드록시메틸시토신(5hmC)은 시토신의 5-탄소 위치에서의 후생유전학적 변형의 두 가지 형태이며 각각 유전자 침묵 및 활성화와 연관되어 있다. 이러한 메틸화 표식은 암의 존재를 추론하기 위한 분류 모델을 구축하는 데 사용될 수 있는 다양한 유형의 정보를 제공한다. 높은 민감도와 특이도로 질환을 추론하는 분류 모델을 생성하려면 고품질 서열 정보가 바람직하며, 이러한 정보는 샘플 처리 및 시퀀싱 중에 손실되어 모델의 정확도에 영향을 미칠 수 있다.
5hmC를 식별하기 위해 여러 가지 시퀀싱 방법이 사용될 수 있다. 그러나 이러한 방법에는 상업적 스크리닝 및 진단 용도 채택에 영향을 미치는 장점과 단점, 예를 들어 뉴클레오티드 분해능 부족, 위양성 5hmC 호출, 높은 샘플 입력량 요건, 직접 판독이 아닌 차감을 통한 추론, 및 핵산 샘플로부터 시퀀싱을 위해 생성된 시퀀싱 라이브러리의 품질이 있다. 따라서, 질환 진단, 예후, 및 진행의 분류 모델에 유용할 수 있는 핵산 시퀀싱을 통해 제공되는 히드록시메틸화 상태 정보의 품질을 개선하기 위한 도구 및 방법이 필요할 수 있다.
본 개시 내용은 핵산 시퀀싱 동안 히드록시메틸화 시토신의 개선된 검출에 관한 조성물, 방법, 및 시스템을 제공한다. 본원에 기재된 이러한 방법에 사용되는 방법 및 조성물은 핵산 시퀀싱 전에 사용되는 TAB-seq 및 ACE-seq와 같은 비메틸화 시토신과 메틸화 시토신 전환 방법의 한계를 극복하는 데 사용될 수 있다. 다양한 측면에서, 5hmC, 또는 5-(β-글루코실옥시메틸)시토신(5gmC)과 5-카르복시시토신(5caC) 또는 5-카르복시메틸시토신(5cxmC)의 조합을 함유하는 변형된 어댑터를 사용하고, 이러한 어댑터를 생물학적 샘플의 핵산 단편에 결찰시켜 샘플 내 히드록시메틸화 서열 정보의 분해능을 개선할 수 있다.
한 측면에서, 본 개시 내용은 하나 이상의 5hmC, 5gmC, 5caC, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 올리고뉴클레오티드 어댑터를 제공하며, 이는 핵산 시퀀싱을 위한 생물학적 샘플 내 핵산 분자에 대한 결찰에 사용될 수 있다. 일부 실시양태에서, 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에는 시토신 뉴클레오티드가 없다. 일부 실시양태에서, 시토신 뉴클레오티드는 어댑터의 UMI 부분에 존재하지만, 어댑터의 비-UMI 부분에는 존재하지 않는다. 일부 실시양태에서, 시토신 뉴클레오티드는 어댑터의 프라이머 결합 부위 부분에는 존재하지만, 어댑터의 비프라이머 결합 부위 부분에는 존재하지 않는다. 올리고뉴클레오티드는 핵산 서열의 비메틸화 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 조건으로 처리하기 전에 핵산 서열에 결찰할 수 있으며 하류 증폭 및 시퀀싱 방법을 위한 프라이머에 혼성화할 수 있다.
또 다른 측면에서, 본 개시 내용은 생물학적 샘플 내 핵산의 히드록시메틸화 상태 데이터를 제공하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 핵산 또는 이의 유도체 중 적어도 일부를 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키지만 히드록시메틸화 시토신 뉴클레오티드는 전환시키지 않는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계; 및
d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 β-글루코실트랜스퍼라제(β-GT)/UDP-글루코오스에 의해 글루코실화하여 5hmC 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함한다.
일부 실시양태에서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 이들의 조합을 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드를 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5gmC 및 5caC 뉴클레오티드를 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함한다.
일부 실시양태에서, 전환 조건은 β-GT, 시토신 디옥시게나제 효소, 카르복시메틸트랜스퍼라제, 아포지질단백질 B mRNA 편집 촉매 폴리펩티드 유사 단백질(AID/APOBEC), 또는 이들의 조합에 의한 처리를 포함한다.
일부 실시양태에서, 시토신 디옥시게나제 효소는 텐일레븐 전위 단백질 1(TET1), 텐일레븐 전위 단백질 2(TET2), 텐일레븐 전위 단백질 3(TET3), 또는 이들의 기능적 변이체를 포함한다.
일부 실시양태에서, 방법은 a) 후에 또는 b) 전에 올리고뉴클레오티드 어댑터를 TET 효소로 처리하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 서열 농축을 수행하는 단계를 추가로 포함한다.
일부 실시양태에서, 서열 농축은 표적 포획 혼성화를 포함한다.
일부 실시양태에서, 결찰된 핵산 중 적어도 일부는 시퀀싱 전에 증폭된다.
일부 실시양태에서, 방법은 시퀀싱 전에 결찰된 핵산 중 적어도 일부를 증폭시키는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 증폭 전에 핵산 시퀀싱 라이브러리를 제조하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 핵산 서열을 참조 게놈에 정렬하는 단계를 추가로 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5hmC 포스포라미다이트를 사용하여 화학적으로 합성된다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5gmC 및 5caC 뉴클레오티드를 포함하며, 여기서 올리고뉴클레오티드 어댑터는 적어도 부분적으로 포스포라미다이트 화학을 사용하여 5mC 함유 올리고뉴클레오티드를 합성하고 5mC 함유 올리고뉴클레오티드를 TET 효소 및 β- GT/UDP-글루코오스로 효소적으로 처리하여 생성된다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 말단 데옥시뉴클레오티딜 트랜스퍼라제(TdT) 매개 효소적 올리고뉴클레오티드 합성을 사용하여 합성된다.
일부 실시양태에서, 방법은 SAM 의존성 C5-메틸트랜스퍼라제(C5-MT) 또는 다른 DNA 시토신-5 메틸트랜스퍼라제를 사용하여 5mC 함유 올리고뉴클레오티드의 비메틸화 시토신 뉴클레오티드를 메틸화하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 생물학적 샘플로부터 단리된 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시키는 단계를 추가로 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 효소적 올리고뉴클레오티드 합성 기술을 사용하여 합성된다.
일부 실시양태에서, 생물학적 샘플은 무세포 DNA(cfDNA)를 포함한다.
일부 실시양태에서, 핵산은 cfDNA이다.
일부 실시양태에서, 생물학적 샘플은 개체로부터 얻거나 유래되고, 히드록시메틸화 상태 데이터는 비정상적 세포 상태 또는 질환과 연관되며 개체가 비정상적 세포 상태 또는 질환을 갖는 것으로 분류한다.
일부 실시양태에서, 비정상적 세포 상태 또는 질환은 1기 암, 2기 암, 3기 암, 또는 4기 암이다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 고유한 분자 식별자를 포함한다.
일부 실시양태에서, 생물학적 샘플은 체액, 대변, 결장 유출물, 소변, 뇌척수액, 혈장, 혈청, 전혈, 단리된 혈액 세포, 혈액으로부터 단리된 세포, 및 이들의 조합으로 이루어진 군으로부터 선택된다.
일부 실시양태에서, 방법은 선택적으로 히드록시메틸화 상태 데이터를 특징화하는 단계, 및 사전 지정된 또는 사전 선택된 생물학적 특성에 따라 생물학적 샘플을 그룹으로 분류하도록 훈련된 기계 학습 모델을 사용하여 특징화된 히드록시메틸화 상태 데이터를 처리하는 단계를 추가로 포함한다.
일부 실시양태에서, 특징화된 히드록시메틸화 상태 데이터는 생물학적 샘플 내 핵산 서열의 특성에 대응한다.
일부 실시양태에서, 핵산 서열의 특성은 대상체에서 전암, 암, 또는 암의 병기의 존재 또는 부재, 또는 암의 예후로부터 선택된다.
또 다른 측면에서, 본 개시 내용은 올리고뉴클레오티드 어댑터를 생성하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 적어도 부분적으로 포스포라미다이트 화학에 의해 5mC 함유 올리고뉴클레오티드를 합성하는 단계; 및
b) 5mC 함유 올리고뉴클레오티드를 TET 효소 및 β-GT/UDP-글루코오스와 접촉시켜 5mC 뉴클레오티드를 5gmC 또는 5caC 뉴클레오티드로 전환시켜 올리고뉴클레오티드 어댑터를 생성하는 단계.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 말단 데옥시뉴클레오티딜 트랜스퍼라제(TdT) 매개 효소적 올리고뉴클레오티드 합성을 사용하여 합성된다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5gmC 및 5caC 뉴클레오티드를 포함한다.
일부 실시양태에서, 방법은 SAM 의존성 C5-메틸트랜스퍼라제(C5-MT) 또는 다른 DNA 시토신-5 메틸트랜스퍼라제를 사용하여 5mC 함유 올리고뉴클레오티드의 비메틸화 시토신 뉴클레오티드를 메틸화하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 생물학적 샘플로부터 단리된 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시키는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시 내용은 올리고뉴클레오티드 어댑터를 생성하는 방법을 제공하며, 이 방법은 다음을 포함한다:
적어도 부분적으로 포스포라미다이트 화학에 의해 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 함유하는 올리고뉴클레오티드를 합성하여 올리고뉴클레오티드 어댑터를 생성하는 단계.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 효소적 올리고뉴클레오티드 합성 기술을 사용하여 합성된다.
일부 실시양태에서, 방법은 생물학적 샘플로부터 단리된 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시키는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시 내용은 기계 학습 모델을 훈련하여 생물학적 샘플 내 핵산에 대한 히드록시메틸화 프로파일을 생성하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 핵산 중 적어도 일부를 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 히드록시메틸화 프로파일을 생성하는 단계.
일부 실시양태에서, e)는 히드록시메틸화 상태 데이터를 특징화하는 단계를 추가로 포함한다. 일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 5hmC 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함한다.
일부 실시양태에서, 생물학적 샘플은 무세포 DNA(cfDNA)를 포함한다.
또 다른 측면에서, 본 개시 내용은 개체로부터 얻거나 유래된 생물학적 샘플 내 cfDNA의 히드록시메틸화 프로파일을 결정하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) cfDNA를 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플 내 cfDNA 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 cfDNA를 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 cfDNA 또는 이의 유도체 중 적어도 일부를 결찰된 cfDNA 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 cfDNA를 생성하는 단계;
d) 전환된 cfDNA 중 적어도 일부를 시퀀싱하여 전환된 cfDNA의 핵산 서열을 얻어 cfDNA의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 전환된 cfDNA의 핵산 서열을 참조 핵산 서열에 정렬하여 생물학적 샘플의 히드록시메틸화 프로파일을 결정하는 단계.
일부 실시양태에서, 방법은 시퀀싱 전에 결찰된 cfDNA를 증폭시키는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 증폭 전에 핵산 시퀀싱 라이브러리를 제조하는 단계를 추가로 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 결찰된 cfDNA 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함한다.
일부 실시양태에서, 히드록시메틸화 프로파일은 비정상적 세포 상태 또는 질환과 연관되며 개체가 비정상적 세포 상태 또는 질환을 갖는 것으로 분류한다.
일부 실시양태에서, 비정상적 세포 상태 또는 질환은 1기 암, 2기 암, 3기 암, 또는 4기 암이다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 고유한 분자 식별자를 포함한다.
일부 실시양태에서, 전환 조건은 화학적 방법, 효소적 방법, 또는 이들의 조합의 사용을 포함한다.
일부 실시양태에서, 전환 조건은 비설파이트, 아황산 수소염, 디설파이트, 또는 이들의 조합에 의한 처리를 포함한다.
일부 실시양태에서, 생물학적 샘플은 체액, 대변, 결장 유출물, 소변, 뇌척수액, 혈장, 혈청, 전혈, 단리된 혈액 세포, 혈액으로부터 단리된 세포, 및 이들의 조합으로 이루어진 군으로부터 선택된다.
또 다른 측면에서, 본 개시 내용은 생물학적 샘플에 대한 분류자를 생성하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계,
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 핵산 중 적어도 일부를 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 분류자를 생성하는 단계.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 b) 후에 또 c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 포함한다.
또 다른 측면에서, 본 개시 내용은 개체로부터 얻거나 유래된 생물학적 샘플에 대한 분류자를 생성하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계,
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드를 포함하지 않는 것인 단계;
c) 결찰된 핵산 중 적어도 일부를 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 분류자를 생성하는 단계.
또 다른 측면에서, 본 개시 내용은 대상체에서 세포 증식성 장애를 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 대상체로부터 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 핵산 중 적어도 일부를 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 건강한 대상체와 세포 증식성 장애가 있는 대상체를 구별할 수 있도록 훈련된 기계 학습 모델을 사용하여 히드록시메틸화 상태 데이터를 처리하여 세포 증식성 장애의 존재 또는 감수성과 연관된 출력값을 제공함으로써 대상체에서 세포 증식성 장애의 존재 또는 감수성을 표시하는 단계.
일부 실시양태에서, 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함한다.
일부 실시양태에서, 세포 증식성 장애는 결장직장암, 유방암, 난소암, 전립선암, 폐암, 췌장암, 자궁암, 간암, 식도암, 위암, 갑상선암, 또는 방광암을 포함한다.
일부 실시양태에서, 기계 학습 모델은 사전 선택된 민감도 및 특이도로 세포 증식성 장애를 검출하도록 맞춰진다.
일부 실시양태에서, 기계 학습 모델은 적어도 약 80%의 민감도로 세포 증식성 장애의 존재 또는 감수성을 분류한다.
일부 실시양태에서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 이들의 조합을 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드 대신에 5hmC 뉴클레오티드를 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합의 혼합물을 포함한다.
일부 실시양태에서, 전환 조건은 β-GT, 시토신 디옥시게나제 효소, 카르복시메틸트랜스퍼라제, AID/APOBEC, 또는 이들의 조합에 의한 처리를 포함한다.
일부 실시양태에서, 시토신 디옥시게나제 효소는 TET1, TET2, TET3, 또는 이들의 기능적 변이체를 포함한다.
일부 실시양태에서, 방법은 a) 후에 또는 b) 전에 올리고뉴클레오티드 어댑터를 TET 효소로 처리하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 b) 후에 또는 c) 전에 서열 농축을 수행하는 단계를 추가로 포함한다.
일부 실시양태에서, 서열 농축은 표적 포획 혼성화를 포함한다.
일부 실시양태에서, 방법은 시퀀싱 전에 결찰된 핵산 중 적어도 일부를 증폭시키는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 핵산 서열을 참조 게놈에 정렬하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 히드록시메틸화 상태 데이터를 특징화하는 단계, 및 사전 지정된 또는 사전 선택된 생물학적 특성에 따라 생물학적 샘플을 그룹으로 분류하도록 훈련된 기계 학습 모델을 사용하여 특징화된 히드록시메틸화 상태 데이터를 처리하는 단계를 추가로 포함한다.
일부 실시양태에서, 특징화된 히드록시메틸화 상태 데이터는 생물학적 샘플 내 핵산 서열의 특성에 대응한다.
일부 실시양태에서, 핵산 서열의 특성은 대상체에서 전암, 암 또는 암의 병기의 존재 또는 부재, 또는 암의 예후로부터 선택된다.
또 다른 측면에서, 본 개시 내용은 이전에 질환 치료를 받은 대상체에서 최소 잔존 질환을 모니터링하는 방법을 제공하며, 방법은 기준선 히드록시메틸화 상태로서 히드록시메틸화 프로파일을 결정하는 단계, 및 추가로 하나 이상의 사전 결정된 시점 각각에서 히드록시메틸화 프로파일을 결정하는 단계를 포함하며, 여기서 기준선 히드록시메틸화 상태로부터 히드록시메틸화 프로파일의 변화는 대상체의 기준선 히드록시메틸화 상태에서 최소 잔존 질환 상태의 변화를 나타낸다.
일부 실시양태에서, 최소 잔존 질환은 치료에 대한 반응, 종양 부하, 수술 후 잔존 종양, 재발, 2차 선별검사, 1차 선별검사, 또는 암 진행으로 표시된다.
일부 실시양태에서, 방법은 치료에 대한 대상체의 반응을 결정하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 대상체에서 종양 부하를 모니터링하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 수술 후 대상체에서 잔존 종양을 검출하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 대상체의 재발을 검출하는 단계를 추가로 포함한다.
일부 실시양태에서, 방법은 대상체에 대한 2차 선별검사로서 수행된다.
일부 실시양태에서, 방법은 대상체에 대한 1차 선별검사로서 수행된다.
일부 실시양태에서, 방법은 대상체에서 암 진행을 모니터링하는 단계를 추가로 포함한다.
또 다른 측면에서, 본 개시 내용은 하나 이상의 프로세서에 의해 실행될 때, 생물학적 샘플 내 핵산에 결찰되는 올리고뉴클레오티드 어댑터를 사용하여 생성된 핵산 라이브러리로부터 얻은 히드록시메틸화 상태 데이터에 기초하여 대상체를 세포 증식성 장애를 갖는 것으로 또는 세포 증식성 장애를 갖지 않는 것으로 분류하기 위한 분류자를 구현하도록 작동 가능한, 저장된 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체를 제공하며, 여기서 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 세포 증식성 장애를 검출하기 위한 분류자는 세포 증식성 장애의 기원 조직을 결정하도록 추가로 구성된다.
일부 실시양태에서, 분류자는 훈련 생물학적 샘플로부터 얻은 훈련 벡터를 사용하여 훈련되고, 여기서 훈련 생물학적 샘플의 제1 하위세트는 세포 증식성 장애를 갖는 것으로 식별되고, 훈련 생물학적 샘플의 제2 하위세트는 세포 증식성 장애를 갖지 않는 것으로 식별된다.
또 다른 측면에서, 본 개시 내용은 핵산을 시퀀싱하여 생물학적 샘플 내 핵산 분자의 히드록시메틸화 상태 데이터를 제공하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
c) 결찰된 핵산 중 적어도 일부를 핵산 중 비메틸화 및 메틸화 시토신을 우라실로 전환시키지만 히드록시메틸화 시토신은 전환시키지 않는 데 필요한 전환 조건에 적용하는 단계; 및
d) 핵산을 시퀀싱하여 핵산의 핵산 서열을 얻어 핵산 분자의 히드록시메틸화 상태 데이터를 제공하는 단계.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는다.
일부 실시양태에서, 방법은 결찰 작업 후에 결찰된 핵산을 β-GT/UDP-글루코오스에 의해 글루코실화하여 5hmC 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 포함한다.
일부 실시양태에서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 둘 다의 조합을 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 설계된 올리고뉴클레오티드 어댑터 서열에서 시토신 뉴클레오티드 대신에 모두 5hmC 뉴클레오티드를 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 설계된 올리고뉴클레오티드 어댑터 서열에서 시토신 뉴클레오티드 대신에 5gmC, 5caC, 및/또는 5cxmC 뉴클레오티드의 혼합물을 포함한다.
일부 실시양태에서, 효소적 처리는 β-글루코실트랜스퍼라제(β-GT), 시토신 디옥시게나제 효소(예컨대 TET1, TET2, TET3, 또는 그의 기능적 변이체), 카르복시메틸트랜스퍼라제, 또는 AID/ APOBEC 중 하나 이상에 의한 처리를 포함한다.
일부 실시양태에서, 서열 농축 작업은 작업 b) 후에 또는 c) 전에 수행된다.
일부 실시양태에서, 서열 농축 작업은 표적 포획 혼성화이다.
일부 실시양태에서, 결찰된 핵산은 시퀀싱 전에 증폭된다.
일부 실시양태에서, 시퀀싱으로부터 얻은 핵산 서열은 참조 게놈에 정렬된다.
일부 실시양태에서, 5hmC-함유 어댑터 올리고뉴클레오티드는 5-히드록시메틸 변형된 시티딘 포스포라미다이트를 사용하여 화학적으로 합성될 수 있다.
일부 실시양태에서, 5gmC와 5caC의 혼합물을 함유하는 어댑터 올리고뉴클레오티드는 먼저 포스포라미다이트 화학을 사용하여 5mC 함유 어댑터를 합성한 후, 이를 TET 효소와 β-GT/UDP-글루코오스로 효소적으로 처리하여 생성될 수 있다.
올리고뉴클레오티드 시퀀싱 어댑터를 제조하는 방법으로서, 이 방법은 다음을 포함한다:
a) 포스포라미다이트 화학에 의해 5mC를 함유하는 올리고뉴클레오티드를 합성하는 단계;
b) 5mC 뉴클레오티드에서 올리고뉴클레오티드를 산화시키기에 충분한 조건 하에서 TET 효소와 β-GT/UDP-글루코오스로 올리고뉴클레오티드를 전환시키는 단계; 및
c) 산화된 올리고뉴클레오티드를 생물학적 샘플로부터 단리된 다중핵산 분자에 결찰시키는 단계.
일부 실시양태에서, 5hmC 함유 어댑터는 말단 데옥시뉴클레오티딜 트랜스퍼라제(TdT) 매개 효소적 올리고 합성을 사용하는 효소 올리고뉴클레오티드 합성을 사용하여 직접 합성될 수 있다.
일부 실시양태에서, 5gmC와 5caC의 혼합물을 함유하는 어댑터는 먼저 효소 올리고뉴클레오티드 합성 기술을 사용하여 5mC 함유 어댑터를 합성한 후, 이를 TET 효소와 β-GT/UDP-글루코오스로 효소적으로 처리하여 생성될 수 있다.
일부 실시양태에서, 5mC를 함유하는 어댑터는 SAM 의존성 C5-메틸트랜스퍼라제(C5-MT), 또는 기타 DNA 시토신-5 메틸트랜스퍼라제를 사용하여 비메틸화 시토신을 함유하는 어댑터를 메틸화하여 생헝될 수 있다.
올리고뉴클레오티드 시퀀싱 어댑터를 제조하는 방법으로서, 이 방법은 다음을 포함한다:
a) 포스포라미다이트 화학에 의해 5gmC, 5caC, 및/또는 5cxmC를 함유하는 올리고뉴클레오티드를 합성하는 단계; 및
b) 합성된 올리고뉴클레오티드를 생물학적 샘플로부터 단리된 다중핵산 분자에 결찰시키는 단계.
일부 실시양태에서, 5caC 함유 어댑터는 효소 올리고뉴클레오티드 합성 기술을 사용하여 직접 합성될 수 있다.
또 다른 측면에서, 개체로부터 얻거나 유래된 생물학적 샘플에 대한 히드록시메틸화 프로파일을 생성하기 위한 방법이 제공되며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 올리고뉴클레오티드 어댑터를 생물학적 샘플의 핵산에 결찰시키는 단계로서, 어댑터는 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 것인 단계;
c) 결찰된 핵산을 핵산 중 비메틸화 시토신 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 전환 조건에 적용하는 단계;
d) 핵산의 서열을 분석하여 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 히드록시메틸화 상태 데이터를 특징화하고, 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 메틸화 프로파일을 생성하는 단계.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드는 포함하지 않는다.
일부 실시양태에서, 방법은 결찰된 핵산을 β-GT/UDP-글루코오스에 의해 글루코실화하여 5hmC를 5gmC로 전환시킨 후 핵산 내 비메틸화 및 메틸화 시토신을 우라실로 전환하는 데 필요한 전환 조건을 적용하는 단계를 포함한다.
일부 실시양태에서, 핵산 샘플은 무세포 DNA(cfDNA) 샘플이다.
또 다른 측면에서, 본 개시 내용은 개체로부터 얻거나 유래된 cfDNA 샘플의 히드록시메틸화 프로파일을 결정하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 올리고뉴클레오티드 어댑터를 생물학적 샘플 내 핵산에 결찰시키는 단계로서, 어댑터는 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 것인 단계;
c) 결찰된 핵산을 생물학적 샘플의 핵산 중 비메틸화 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 전환 조건에 적용하는 단계,
d) 핵산을 시퀀싱하여 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 전환된 핵산 분자의 핵산 서열을 참조 핵산 서열에 정렬하여 개체의 히드록시메틸화 프로파일을 결정하는 단계.
일부 실시양태에서, 증폭 전에 핵산 시퀀싱 라이브러리가 제조된다.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드는 포함하지 않는다.
일부 실시양태에서, 참조 핵산 서열은 참조 게놈이다.
일부 실시양태에서, 방법은 결찰된 핵산을 β-GT/UDP-글루코오스에 의해 글루코실화하여 5hmC를 5gmC로 전환시킨 후 핵산 내 비메틸화 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 전환 조건에 적용하는 단계를 포함한다.
일부 실시양태에서, 히드록시메틸화 프로파일은 비정상적 세포 상태 또는 질환과 연관되며 개체가 비정상적 세포 상태 또는 질환을 갖는 것으로 분류한다.
일부 실시양태에서, 고유한 분자 식별자를 포함하는 올리고뉴클레오티드 어댑터는 a) 전에 cfDNA 샘플 내 전환되지 않은 핵산에 결찰된다.
일부 실시양태에서, 핵산 분자는 화학적 방법, 효소적 방법, 또는 이들의 조합을 사용하여 시토신에서 우라실로의 전환 조건에 적용된다.
일부 실시양태에서, 생물학적 샘플 내 cfDNA는 비설파이트, 아황산 수소염, 디설파이트, 또는 이들의 조합으로 처리된다.
일부 실시양태에서, 대상체로부터 얻은 생물학적 샘플은 핵산 분자를 함유하며 체액, 대변, 결장 유출액, 소변, 뇌척수액, 혈장, 혈청, 전혈, 단리된 혈액 세포, 혈액으로부터 단리된 세포, 또는 이들의 조합이다.
일부 실시양태에서, 세포 증식성 장애는 1기 암, 2기 암, 3기 암, 및 4기 암으로부터 선택된다.
또 다른 측면에서, 개체로부터 얻거나 유래된 핵산 샘플에 대한 분류자를 생성하기 위한 방법이 제공되며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플의 핵산에 올리고뉴클레오티드 어댑터를 결찰시키는 단계로서, 어댑터는 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 것인 단계;
c) 결찰된 핵산을 핵산 중 비메틸화 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 전환 조건에 적용하는 단계;
d) 핵산을 시퀀싱하여 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 분류자를 생성하는 단계.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는다.
일부 실시양태에서, 방법은 결찰된 핵산을 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 C를 5gmC로 전환시킨 후 핵산 내 비메틸화 및 메틸화 시토신을 우라실로 전환하는 데 필요한 전환 조건에 적용하는 단계를 포함한다.
또 다른 측면에서, 본 개시 내용은 대상체에서 세포 증식성 장애를 검출하는 방법을 제공하며, 이 방법은 다음을 포함한다:
a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
b) 생물학적 샘플의 핵산에 올리고뉴클레오티드 어댑터를 결찰시키는 단계로서, 어댑터는 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 것인 단계;
c) 결찰된 핵산을 핵산 중 비메틸화 및 메틸화 시토신을 우라실로 전환시키는 데 필요한 전환 조건에 적용하는 단계;
d) 핵산을 시퀀싱하여 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
f) 건강한 대상체와 세포 증식성 장애가 있는 대상체를 구별할 수 있도록 훈련된 기계 학습 모델을 사용하여 히드록시메틸화 상태 데이터를 처리하여 세포 증식성 장애의 존재와 연관된 출력값을 제공함으로써 대상체의 세포 증식성 장애의 존재를 나타내는 단계.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드는 포함하지 않는다.
일부 실시양태에서, 이 방법은 결찰된 핵산을 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 C를 5gmC로 전환시킨 후 핵산 중 비메틸화 및 메틸화 시토신을 우라실로 전환하는 데 필요한 전환 조건에 적용하는 단계를 포함한다.
다양한 실시양태에서, 다양한 유형의 세포 증식성 장애는 결장직장암, 유방암, 난소암, 전립선암, 폐암, 췌장암, 자궁암, 간암, 식도암, 위암, 갑상선암, 또는 방광암으로부터 선택된다.
일부 실시양태에서, 기계 학습 분류자는 결장직장암, 유방암, 난소암, 전립선암, 폐암, 췌장암, 자궁암, 간암, 식도암, 위암, 갑상선암, 또는 방광암, 또는 이들의 조합인 세포 증식성 장애에 대한 암 진단 및 확증 진단의 필요에 따라 검출될 다양한 유형의 세포 증식성 장애에 대해 사전 선택된 민감도 및 특이도를 제공하도록 맞춰진다.
일부 실시양태에서, 기계 학습 모델은 적어도 약 80%의 민감도에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 90%의 민감도에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 95%의 민감도에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 70%의 양성 예측 값(PPV)에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 80%의 PPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 90%의 PPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 95%의 PPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 99%의 PPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 80%의 음성 예측 값(NPV)에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 90%의 NPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 95%의 NPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 99%의 NPV에서 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 0.90의 AUC(곡선하 면적)로 대상체의 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 0.95의 AUC로 대상체의 암의 존재 또는 감수성을 분류한다. 일부 실시양태에서, 기계 학습 모델은 적어도 약 0.99의 AUC로 대상체의 암의 존재 또는 감수성을 분류한다.
일부 실시양태에서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 둘 다의 조합을 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 사전 결정된 올리고뉴클레오티드 어댑터 서열에서 어댑터의 플로우 셀 결합 영역 및 선택적으로 또한 프라이머 결합 부위에 시토신 뉴클레오티드 대신에 모든 5hmC 뉴클레오티드를 포함한다.
일부 실시양태에서, 올리고뉴클레오티드 어댑터는 설계된 올리고뉴클레오티드 어댑터 서열에 시토신 뉴클레오티드 및 5cxmC 또는 5caC 및 5gm의 혼합물을 포함한다.
일부 실시양태에서, 효소적 처리는 β-글루코실트랜스퍼라제(β-GT), 시토신 디옥시게나제 효소(예컨대 TET1, TET2, TET3, 또는 이들의 기능적 변이체), 카르복시메틸트랜스퍼라제, 또는 AID/APOBEC에 의한 처리를 포함한다.
일부 실시양태에서, TET 효소의 효소적 처리 사용은 결찰 전에 어댑터에 발생한다.
일부 실시양태에서, 서열 농축 작업은 작업 b) 후에 또는 c) 전에 수행된다.
일부 실시양태에서, 서열 농축 작업은 표적 포획 혼성화이다.
일부 실시양태에서, 결찰된 핵산은 시퀀싱 전에 증폭된다.
일부 실시양태에서, 시퀀싱으로부터 얻은 핵산 서열은 참조 게놈에 정렬된다.
일부 실시양태에서, 히드록시메틸화 상태 데이터는 사전 지정된 또는 사전 선택된 생물학적 특성에 따라 샘플을 그룹으로 분류하도록 훈련된 훈련 기계 학습 모델을 사용하여 특징화되고 처리된다.
일부 실시양태에서, 특징 세트는 기계 학습 모델을 사용하여 처리될 핵산 서열로부터 식별된다. 특징 세트는 생물학적 샘플 내 핵산 서열의 특성에 대응할 수 있다.
일부 실시양태에서, 핵산 서열의 특성은 샘플을 얻은 개체에서 전암, 암 또는 암의 병기의 존재 또는 부재, 또는 암의 예후로부터 선택된다.
또 다른 측면에서, 본 개시 내용은 다음을 포함하는 이전에 질환 치료를 받은 대상체에서 최소 잔존 질환을 모니터링하는 방법을 제공한다:
기준선 히드록시메틸화 상태로서 본원에 기재된 바와 같이 히드록시메틸화 프로파일을 결정하고 분석을 반복하여 하나 이상의 사전 결정된 시점에서 히드록시메틸화 프로파일을 결정하는 단계로서, 기준선으로부터의 변화는 대상체의 기준선에서 최소 잔존 질환 상태의 변화를 나타내는 것인 단계.
일부 실시양태에서, 최소 잔존 질환은 치료에 대한 반응, 종양 부하, 수술 후 잔존 종양, 재발, 2차 선별검사, 1차 선별검사, 및 암 진행으로부터 선택된다.
또 다른 측면에서, 치료에 대한 반응을 결정하기 위한 방법이 제공된다.
또 다른 측면에서, 종양 부하를 모니터링하기 위한 방법이 제공된다.
또 다른 측면에서, 수술 후 잔존 종양을 검출하는 방법이 제공된다.
또 다른 측면에서, 재발을 검출하기 위한 방법이 제공된다.
다른 측면에서, 2차 선별검사로서 사용하기 위한 방법이 제공된다.
다른 측면에서, 1차 선별검사로서 사용하기 위한 방법이 제공된다.
다른 측면에서, 암 진행을 모니터링하기 위한 방법이 제공된다.
한 측면에서, 본 개시 내용은 세포 증식성 장애를 검출하기 위한 기계 학습 모델 분류자를 포함하는 시스템을 제공하며, 이 시스템은 다음을 포함한다:
a) 생물학적 샘플 내 핵산에 대한 올리고뉴클레오티드 어댑터를 사용하여 생성된 핵산 라이브러리로부터 얻은 히드록시메틸화 상태 데이터를 기초로 하여 대상체를 세포 증식성 장애를 갖는 것으로 또는 세포 증식성 장애를 갖지 않는 것으로 분류하도록 작동 가능한 분류자를 포함하는 컴퓨터 판독 가능 매체로서, 어댑터는 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고 시토신 뉴클레오티드는 포함하지 않는 것인 컴퓨터 판독 가능 매체; 및
b) 컴퓨터 판독 가능 매체에 저장된 명령어를 실행하기 위한 하나 이상의 프로세서.
일부 실시양태에서, 어댑터는 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 5hmC, 5gmC, 5caC, 5cxmC, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드는 포함하지 않는다.
일부 실시양태에서, 세포 증식성 장애를 검출하기 위한 기계 학습 모델 분류자는 기원 조직 결정을 포함한다.
일부 실시양태에서, 시스템은 컴퓨터 시스템의 메모리에 로딩된 분류자, 훈련 생물학적 샘플로부터 훈련 벡터를 사용하여 훈련된 기계 학습 모델, 세포 증식성 장애를 갖는 것으로 식별된 훈련 생물학적 샘플의 제1 하위세트 및 세포 증식성 장애를 갖지 않는 것으로 식별된 훈련 생물학적 샘플의 제2 하위세트를 포함한다.
본 개시 내용의 추가적인 측면 및 이점은 본 개시 내용의 예시적인 실시양태만이 제시되고 설명되는 다음의 상세한 설명으로부터 당업자에게 쉽게 명백해질 것이다. 이해되는 바와 같이, 본 개시 내용은 다른 다양한 실시양태가 가능하며, 그 여러 세부 사항은 모두 본 개시 내용에서 벗어나지 않고 다양하고 명백한 측면에서 변형될 수 있다. 따라서, 도면 및 설명은 본질적으로 예시적인 것이며 제한적인 것으로 간주되어서는 안 된다.
참고에 의한 포함
본 명세서에 언급된 모든 간행물, 특허, 및 특허 출원은 각각의 개별 간행물, 특허, 또는 특허 출원이 참고로 포함되도록 구체적이고 개별적으로 표시된 것과 동일한 정도로 본원에 참고로 포함된다. 참고로 포함된 간행물, 특허, 또는 특허 출원이 명세서에 포함된 개시 내용과 모순되는 경우, 명세서는 그러한 모순되는 자료를 대체하고/거나 우선시하도록 의도된다.
본 개시 내용의 예는 이제 첨부된 도면을 참조하여 단지 예로서 설명될 것이다. 본 발명의 신규 특징은 첨부된 청구범위에서 구체적으로 설명된다. 본 발명의 특징과 장점은 본 발명의 원리가 활용되는 예시적인 실시양태를 설명하는 다음의 상세한 설명과 첨부 도면(또한 "그림" 및 "도")을 참조하여 더 잘 이해될 것이다. 그 중:
[도 1a] [도 1b]는 예시적인 어댑터(도 1a) 및 그의 사용 방법(도 1b)을 보여주는 개략도를 제공한다. [도 1a]는 히드록시메틸화 시퀀싱에 사용되는 어댑터의 일반화된 예를 제공한다. 어댑터는 플로우 셀 및 프라이머 결합 영역에 5hmC, 5gmC, 5caC, 또는 5cxmC의 변형된 시토신 중 어느 것이든 포함할 수 있다. UMI 영역의 시토신은 비변형되거나 5mC, 5hmC, 5gmC, 5caC, 또는 5cxmC로 변형될 수 있다. 5m(5-메틸), 5hm(5-히드록시메틸), 5gm(β-글루코실-5-히드록시메틸), 5ca(5-카르복실), 5cxm(5-카르복시메틸), UMI(고유 분자 바코드). [도 1b]는 히드록시메틸화 시퀀싱을 위한 어댑터를 생성하는 공정 예를 제공한다. 어댑터는 (i) mC 뉴클레오티드 또는 (ii) 탈아미노화로부터 보호해야 하는 위치에서 5hmC, 5gmC, 5caC, 또는 5cxmC 뉴클레오티드의 조합을 사용하여 설계하고 합성할 수 있다. 공정 (i)의 경우, 합성된 어댑터는 결찰에 사용하기 전에 산화되고 선택적으로 (*) 글루코실화될 수 있다. 공정 (ii)의 경우 어댑터를 결찰에 사용할 준비가 되어 있다. C(시토신), m(메틸), 5hm(5-히드록시메틸), 5gm(β-글루코실-5-히드록시메틸), 5ca(5-카르복실), 5cxm(5-카를복시메틸).
[도 2]는 예시적인 5hmC-seq 분석 개요도를 제공한다. 5hmC-seq 분석의 작업은 하류 효소 전환으로부터 보호된 어댑터로 시작된다. 표적 농축 작업은 선택 사항이다(*).
[도 3]은 본원에 제공된 방법을 구현하기 위해 기계 학습 모델 및 분류자로 프로그래밍되거나 구성된 컴퓨터 시스템의 개략도를 제공한다.
본 발명의 다양한 실시양태가 본원에 제시되고 설명되었지만, 이러한 실시양태는 단지 예로서 제공된다는 것이 당업자에게 명백할 것이다. 본 발명을 벗어나지 않으면서 당업자는 다양한 변형, 변화 및 대체를 생각해 낼 수 있다. 본원에 기재된 본 발명의 실시양태에 대한 다양한 대안이 이용될 수 있다는 것을 이해해야 한다.
본 개시 내용은 일반적으로 생물학적 샘플 내 핵산의 시토신 히드록시메틸화 상태 시퀀싱에 유용한 올리고뉴클레오티드 어댑터 조성물에 관한 것이다. 시토신의 5-탄소 위치에서 DNA 메틸화(5-메틸시토신; 5mC)는 유전자 침묵, 뉴클레오솜 위치 지정, 및 염색질 구성에서 기능적 역할을 하는 후생유전학적 표식이다. 인간에서, DNA 메틸화는 CpG 디뉴클레오티드의 시토신에서 주로 발생한다. 메틸화 표식은 유전되며 게놈 전체에 걸친 프로파일은 조직마다 다르다. 암에서는 유전자 특이적 메틸화 프로파일이 이상해지지만 기원 조직과 유사성을 유지한다. 이러한 특성은 메틸화 표식이 암 진단 및 예후에 매우 유용한 바이오마커로 만든다.
순환하는 무세포 DNA(cfDNA)는 죽어가는 아폽토시스 또는 괴사 세포로부터 혈액으로 방출되며, 따라서 인체 전체에 걸친 세포 사멸의 스냅샷을 나타낸다. 종양에서는 세포의 일부가 지속적으로 죽고 무세포 종양 유래 DNA(ctDNA) 단편으로서 DNA를 순환계로 방출한다. 종양 특이적 DNA 메틸화 패턴에 대한 지식은 cfDNA를 검사하고 주어진 단편이 종양에서 유래했는지 정상 세포 유형에서 유래했는지 여부를 결정하기 위한 메틸화 지도로 활용될 수 있다.
히드록시메틸화는 시토신의 5-탄소 위치(5hmC)에서의 또 다른 후생유전학적 변형이다. 이 변형은 활성 탈메틸화에 관여할 수 있으며 유전자 발현을 조절하는 역할을 할 수 있다. 활성 탈메틸화 경로에서는 5mC의 반복 산화의 첫 번째 작업으로 5hmC가 생성될 수 있다. 5hmC의 게놈 전체 분포에 대한 조사는 유전자 발현과 강력하게 연관되는 역동적인 환경을 입증하였다. 5hmC 프로파일의 변화는 세포 증식성 장애를 포함한 광범위한 질환 상태와 연관될 수 있다.
본원에 사용되는 바와 같이, 용어 "세포 증식성 장애"는 일반적으로 세포의 무질서하거나 비정상적 증식을 포함하는 장애 또는 질환을 의미할 수 있다. 일부 비제한적인 예에서, 장애는 결장직장 세포 증식, 전립선 세포 증식, 폐 세포 증식, 유방 세포 증식, 췌장 세포 증식, 난소 세포 증식, 자궁 세포 증식, 간 세포 증식, 식도 세포 증식, 위 세포 증식, 또는 갑상선 세포 증식이다. 일부 실시양태에서, 세포 증식성 장애는 결장 선암종, 간 간세포 암종, 폐 선암종, 폐 편평 세포 암종, 난소 중증 낭선암종, 췌장 선암종, 전립선 선암종, 또는 직장 선암종이다. 본원에 사용되는 바와 같이, 용어 "정상" 또는 "건강한"은 일반적으로 세포 증식성 장애를 갖지 않는 세포, 조직, 혈장, 혈액, 생물학적 샘플, 또는 대상체를 의미할 수 있다.
분류 모델 및 관련 임상 스크리닝 방법의 민감도를 높이려면 생물학적 샘플 내 핵산의 개선된 품질의 히드록시메틸화 정보를 포착하는 라이브러리 제조의 개선이 필요할 수 있다.
I. 효소적 히드록시메틸화 시퀀싱을 위한 라이브러리 제조 및 어댑터 결찰
생물학적 샘플의 핵산 분자에서 5hmC, 5-포르밀시토신(5fC) 및 5caC를 검출하기 위한 시퀀싱 라이브러리를 제조하는 방법이 제공된다. 이러한 방법은 확장 가능하고 관리하기 쉬운 개선된 라이브러리 수율 및 품질을 제공할 수 있으며, 다른 히드록시메틸화 시퀀싱 접근법에 비해 개선된 어댑터 보호를 제공한다. 이러한 방법은 또한 긴 리드(read) 시퀀싱 접근법보다 더 비용 효율적이고 오류 발생 가능성이 낮은 짧은 리드 시퀀싱으로 염기 분해능 5hmC 데이터를 제공할 수 있다.
본원에 기재된 방법은 DNA 히드록시메틸화 시퀀싱 적용분야뿐만 아니라 비메틸화 시퀀싱 적용분야에도 허용되는 라이브러리를 제공함으로써 단일 샘플로부터의 다중 적용분야를 위한 시퀀싱 데이터를 제공한다. 생성된 원시 시퀀싱 데이터는 히드록시메틸화 상태 분석뿐만 아니라 더 일반적인 cfDNA 분석, 예를 들어, 복제본 수 변경, 생식세포 변이체 검출, 체세포 변이체 검출, 뉴클레오솜 위치 확인, 전사 인자 프로파일링, 염색질 면역침전 등에 사용될 수 있다.
A. 시퀀싱 적용분야를 위한 어댑터 결찰
한 측면에서, 본 방법은 히드록시메틸화 프로파일링을 위한 핵산 서열의 무결성 및 정보를 보존할 수 있다. 한 예에서, 5hmC 보호 및 APOBEC 전환(예를 들어, 탈아미노화) 전에 dsDNA 어댑터 결찰을 결합하면 단편 종점 정보를 보존하는 동시에 라이브러리 제조를 위한 가능한 최고 수준의 라이브러리 복잡성을 제공함으로써 히드록시메틸화 ctDNA와 같은 희귀 이벤트를 검출하는 데 더 큰 민감도를 제공할 수 있다. 이 방법은 샘플 표적 농축에 적용하거나 게놈 전체 시퀀싱에 직접 적용할 수 있다.
샘플 핵산의 5hmC 보호 및 APOBEC 전환 이전에 어댑터 결찰을 수행하면 복잡도가 높은 라이브러리를 생성하면서 종점 정보를 유지하는 dsDNA 의존성 어댑터 결찰 방법을 구현할 수 있다. 또한, cfDNA(모달 크기 = 167 염기쌍, bp)와 같이 샘플 핵산의 단편 길이가 작은 경우 어댑터 결찰을 통해 DNA 길이를 어댑터 길이의 약 2배로 늘릴 수 있으며(양면 결찰로 인해), 이는 고체상 가역적 고정화(SPRI) 비드 기반 반응 정리 작업 중 회수 효율이 크게 향상되어 결찰되지 않은 cfDNA에 비해 이점을 제공한다. 생물학적 샘플 내 핵산 서열의 종점 정보를 보존하면 cfDNA의 단편화 패턴을 보다 정확하게 분석할 수 있으며, 이는 기계 학습 모델의 특징으로 사용될 수 있다. 보호/전환 작업 흐름 공정 전에 어댑터 올리고뉴클레오티드를 결찰시키기 위해, 플로우 셀 표면 또는 시퀀싱 프라이머 결합 부위에 결합하는 올리고뉴클레오티드 어댑터의 시토신을 먼저 변형시키거나 전환 작업 중에 발생하는 탈아미노화로부터 보호하는데, 그 이유는 변환 중 C에서 T로의 치환이 시퀀싱을 방해할 수 있기 때문이다. 일부 실시양태에서, 이 접근법은 플로우 셀 부착 및 시퀀싱 프라이머 결합을 위한 어댑터 설계 중에 시토신이 일반적으로 위치하게 되는 서열 위치에서 5hmC, 또는 5gmC와 5caC의 혼합물을 함유하는 어댑터를 사용하여 TAB-seq 및 ACE-seq의 한계를 감소시키거나 제거할 수 있다. 긴 리드 시퀀싱과 결합된 5hmC-Seal과 달리 이러한 방법은 짧은 리드 시퀀싱을 사용하며, 이는 일부 실시양태에서는 본원에 논의된 적용분야에 더 적합할 수 있다.
일부 실시양태에서, 5hmC 함유 어댑터 올리고뉴클레오티드는 5-hmC 포스포라미다이트를 사용하여 직접 합성될 수 있다. 5hmC 함유 어댑터를 cfDNA에 결찰시킨 후, 어댑터 올리고뉴클레오티드뿐만 아니라 샘플 핵산 라이브러리 삽입물의 5hmC 뉴클레오티드도 히드록시메틸화 시토신의 표지 작업 중 β-글루코실트랜스퍼라제(β-GT) 및 기질인 UDP-글루코오스를 사용하여 글루코실화될 수 있다. 샘플 핵산에서 히드록시메틸화 시토신의 글루코실화는 변형된 시토신이 예를 들어 비설파이트 또는 APOBEC 효소를 사용한 후속 처리에 의해 탈아미노화되는 것을 방지할 수 있다.
일부 실시양태에서, 5gmC와 5caC의 혼합물을 함유하는 올리고뉴클레오티드 어댑터는 먼저 포스포라미다이트 화학을 사용하여 5mC 함유 어댑터를 합성한 후, 이를 TET 효소와 β-GT/UDP-글루코오스로 효소적으로 처리하여 생성될 수 있다. 5mC를 함유하는 어댑터의 화학적 합성은 초기 잘림이 적은 제품을 사용하여 더 효율적일 수 있으며 5hmC 포함 어댑터보다 비용이 저렴할 수 있다.
일부 실시양태에서, 5hmC 함유 어댑터는 효소적 올리고뉴클레오티드 합성 기술을 사용하여 생성될 수 있다. 일부 실시양태에서, 효소적 올리고뉴클레오티드 합성 방법은 공급된 데옥시뉴클레오티드를 DNA의 3'-OH 말단에 부착하는 주형 독립적 중합효소인 말단 데옥시뉴클레오티드 전이효소(TdT)를 사용한다.
한 예에서, 올리고뉴클레오티드 어댑터는 시퀀싱 라이브러리를 생산하기 위해 생물학적 샘플 내 핵산 단편 집단의 5' 및 3' 말단에 결찰될 수 있다. 한 예에서, 핵산 어댑터 집합은 4 bp, 5 bp, 및 6 bp 고유한 분자 식별자(UMI) 서열에 이어 T/A 오버행 결찰을 가능하게 하기 위해 마지막 위치(예를 들어, 3' 말단)에 불변 티미딘(T)의 동일한 부분을 포함하는 샘플의 핵산 단편에 결찰된다. 따라서, UMI는 라이브러리 삽입 핵산에 인접하게 위치할 수 있다. 시퀀싱 중에 UMI는 5' 말단에서 리드의 일부로 시퀀싱될 수도 있다(또는 UMI는 시퀀싱 리드 수준에서 라이브러리 삽입체와 직렬이 될 수 있음). 불변 T는 시퀀싱된 위치에서 염기 다양성을 유지하기 위해 3개 위치에 걸쳐 점착말단이 될 수 있다. 대조적으로, 불변 티미딘이 있는 단일 길이 UMI를 사용하면 불변 티미딘에 해당하는 위치에서 낮은 복잡성 시퀀싱이 발생하여 시퀀싱 품질이 저하될 수 있다. 각 UMI의 처음 4 bp는 2 이상의 편집 거리를 갖고 뉴클레오티드와 색상 균형이 맞는 4 bp 코어 UMI 서열 세트를 포함한다. 가변 길이 UMI 서열에도 불구하고 단일 길이 코어 UMI를 사용하면 UMI 추출 및 중복 제거를 위해 단일 길이 UMI용으로 구축된 생물정보학 도구의 사용이 용이해질 수 있다. 따라서, 4-bp 코어 서열은 생물정보학 도구에 5, 6, 또는 7개의 염기(불변 T 포함)를 트리밍하여 정확한 cfDNA 종점 정보를 유지하도록 정보를 주는 인식 서열로서 역할을 할 수 있다. UMI를 사용하면 시퀀싱 후 리드 중복 제거, 단일 가닥 오류 수정, 및 이중체 재구성을 허용할 수 있으므로 리드의 역 상보체를 사용하여 오류 수정(이중 가닥 오류 수정이라고도 함)을 향상시킬 수 있다. 또 다른 예에서, 고유 이중 인덱스(UDI)는 시퀀싱 후 샘플 바코드 및 샘플 역다중화를 제공하기 위해 라이브러리 제조 중에 UMI 함유 어댑터에 추가될 수 있는 추가 서열이다. 다양한 예에서, UDI 서열의 길이는 4 bp, 5 bp, 6 bp, 7 bp, 8 bp, 또는 12 bp이다.
다양한 실시양태에서, 올리고뉴클레오티드 어댑터는 5' 티미딘 오버행을 갖는 4 bp 내지 6 bp 길이의 UMI를 포함할 수 있다. UMI는 고유하지 않도록 설계된다(예를 들어, 특정하고 제한된 서열 세트로부터 추출됨).
일부 실시양태에서, 일부 UMI는 하나 이상의 메틸시토신 염기를 함유한다. 효소적 메틸화 전환 반응(TET 산화 및 APOBEC 탈아미노화 포함)의 효율은 UMI 불일치율에 따라 설계된 UMI의 특정하고 제한된 서열 세트와 일치하지 않는 UMI의 비율을 기준으로 평가할 수 있다. UMI 불일치율은 시퀀싱 라이브러리 품질을 평가하기 위한 내장된 품질 관리 메트릭(metric)으로 사용될 수 있다. 또한, 생물정보학 파이프라인에서 완벽한 UMI 일치가 필요하다면, UMI 불일치율을 필터로 사용하여 불완전한 전환으로 인해 품질이 저하될 수 있는 개별 리드를 제거할 수 있다.
다양한 실시양태에서, UMI 불일치율은 6% 미만, 5% 미만, 4% 미만, 3% 미만, 또는 2% 미만이다.
일부 실시양태에서, UMI는 효소 활성을 모니터링하는 데 사용될 수 있는 변형을 함유하는 하나 이상의 시토신을 함유한다. 이러한 변형된 염기의 비제한적인 예에는 5mC, 5hmC, 5fC, 및 5cxmC가 포함된다.
일부 예에서, 어댑터 핵산에 존재하는 시토신은 어댑터에서 C에서 T로의 전환을 방지하기 위해 5-메틸기 또는 5-히드록시메틸기로 변형된다.
한 예에서, 어댑터 핵산에 존재하는 시토신은 어댑터에서 시토신(C)에서 우라실(U)로의 전환을 방지하기 위해 5hmC, 5gmC, 5caC, 또는 5cxmC 기로 변형된다.
[도 1a]는 히드록시메틸화 시퀀싱에 사용되는 어댑터의 일반화된 예를 제공한다. 어댑터는 플로우 셀 및 프라이머 결합 영역에 5hmC, 5gmC, 5caC, 또는 5cxmC의 변형된 시토신 중 어느 것이든 포함할 수 있다. UMI 영역의 시토신은 비변형되거나 5mC, 5hmC, 5gmC, 5caC, 또는 5cxmC로 변형될 수 있다. 5m(5-메틸), 5hm(5-히드록시메틸), 5gm(β-글루코실-5-히드록시메틸), 5ca(5-카복실), 5cxm(5-카복시메틸), UMI(고유 분자 바코드).
[도 1b]는 히드록시메틸화 시퀀싱을 위한 어댑터를 생성하는 공정 예를 제공한다. 어댑터는 (i) mC 뉴클레오티드 또는 (ii) 탈아미노화로부터 보호해야 하는 위치에서 5hmC, 5gmC, 5caC, 또는 5cxmC 뉴클레오티드의 조합을 사용하여 설계하고 합성할 수 있다. 공정 (i)의 경우, 합성된 어댑터는 결찰에 사용하기 전에 산화되고 선택적으로 (*) 글루코실화될 수 있다. 공정 (ii)의 경우 어댑터를 결찰에 사용할 준비가 되어 있다. C(시토신), m(메틸), 5hm(5-히드록시메틸), 5gm(β-글루코실-5-히드록시메틸 또는 5-(β-글루코실옥시메틸)시토신), 5ca(5-카르복실), 5cxm(5-카르복시메틸).
[ 2]는 예시적인 5hmC-seq 분석 개요도를 제공한다. 5hmC-seq 분석의 작업은 하류 효소 전환으로부터 보호된, 예를 들어 [도 1b]로부터 생성된, 어댑터로 시작된다. 표적 농축 작업은 선택 사항이다(*).
이 접근법의 한 가지 장점은 전환 전 어댑터 결찰이 비설파이트 전환 후 ssDNA 어댑터 결찰을 수행하는 접근법과 비교하여 단편 종점 및 길이 정보를 유지한다는 것일 수 있다. 어댑터를 결찰시키기 전에 핵산이 상당히 분해되면 유익한 단편 종점 및 길이 정보가 손실될 수 있다.
C에서 U로의 효소적(예를 들어, APOBEC 사용) 전환은 샘플 핵산 단편에 대해 덜 분해적일 수 있으며 비설파이트 전환 방법과 비교하여 더 완전하고 균일한 적용 범위를 초래할 수 있다. DNA의 비설파이트 분해는 균일하지 않을 수 있으므로, 일부 서열은 히드록시메틸화 시퀀싱에서 조사되는 바로 그 부위인 CG 디뉴클레오티드를 포함한 다른 서열보다 우선적으로 분해될 수 있다. 따라서 효소적 접근법은 동일한 수의 고유한 리드를 사용하는 비설파이트 전환 방법보다 CpG 부위의 더 높은 적용 범위를 제공할 수 있으며, 표적 농축 적용 시 캡처된 리드의 더 큰 균일성을 제공할 수 있다. 또한, 비-비설파이트 방법(예를 들어, 효소적 전환)은 생물학적 신호의 분해능 증가, 특히 핵산 서열에서 5mC와 5hmC를 구별하는 능력을 제공할 수 있다. 이 정보와 추가 분해능은 계산적 접근법과 기타 방법에 도움이 될 수 있다.
일부 예에서, 샘플 DNA 또는 바코딩된 DNA의 비변형, 메틸화 및 히드록시메틸화 시토신 핵염기를 우라실 핵염기로 전환시키는 효소 반응에 DNA 또는 바코딩된 DNA를 적용하는 단계는 효소적 전환을 수행하는 단계를 포함한다.
다양한 예에서, 생물학적 샘플 내 핵산에서 5hmC의 글루코실화는 5hmC를 탈아미노화로부터 보호한다. 데아미나제는 비변형된 C, 5mC, 및 5hmC를 U 또는 이의 유도체로 전환하는 데 사용될 수 있다. 데아미나제의 비제한적 예에는 APOBEC(아포지질단백질 B mRNA 편집 효소, 촉매 폴리펩티드 유사)가 포함된다. 본원에 기재된 실시양태는 비메틸화 또는 메틸화 시토신의 탈아미노화에서 서열 편향을 극복하기에 충분한 양으로 APOBEC를 활용한다. 더욱이, 비설파이트 전환보다는 APOBEC 전환을 포함하는 실시양태는 생물학적 샘플 내 핵산에 실질적으로 더 적은 손상을 제공할 수 있다.
일부 예에서, 5hmC 시퀀싱 방법은 TET 디옥시게나제 없이 핵산 샘플의 분취량을 β-GT와 접촉시킨 후 시티딘 데아미나제(예를 들어, APOBEC)로 처리하여 분취량의 실질적으로 모든 5hmC가 글루코실화되고, 실질적으로 모든 비변형 시토신과 5mC가 우라실로 전환된 반응 생성물을 생성하는 단계를 포함할 수 있다. PCR 증폭 후 우라실은 티미딘으로 치환되므로 시퀀싱 시 시토신과 5mC를 구별할 수 없게 된다. 생성된 반응 생성물을 시퀀싱하고 참조 서열과 비교하여 5hmC를 시토신 및 5mC와 구별할 수 있다. 이들 모이어티의 구별로 이들 변형된 뉴클레오티드를 참조 서열에 맵핑할 수 있다. 참조 핵산 서열은 임의의 β-GT 또는 데아미나제와 반응하지 않는 핵산 샘플을 시퀀싱하여 얻을 수 있다. 대안적으로, 참조 서열은 공지된 참조 핵산 서열(예를 들어, 서열 데이터베이스 또는 참조 게놈으로부터 얻음)인 경우 맵핑을 위해 사용될 수 있다.
B. 5hmC 핵산 시퀀싱
Tet 보조 비설파이트 시퀀싱(TAB-seq), 5hmC 선택적 화학 표지 기술(예를 들어, 5hmC-seal), APOBEC 결합 후생유전학적 시퀀싱(ACE-seq), 및 DNA 면역침전 결합 화학 변형 보조 비설파이트 염기 시퀀싱(DIP-CAB-seq)을 비롯한 여러 시퀀싱 방법을 사용하여 5hmC를 식별할 수 있다. 각 방법에는 장점과 단점이 있을 수 있다.
TAB-seq에서, 5hmC 뉴클레오티드는 T4 β-글루코실트랜스퍼라제(β-GT)를 사용하여 5-(β-글루코실옥시메틸)시토신(5gmC)에 대한 변형에 의해 보호되고, 5mC 염기는 mTet1을 사용하여 5caC로 전환된다. 이어서, 모든 C 및 5caC 뉴클레오티드는 각각 U 또는 5caU로의 비설파이트 전환에 의해 탈아미노화될 수 있다. 그러나 비설파이트는 DNA의 90-99%를 분해할 수 있으므로 TAB-seq는 단일 염기 5hmC 분해능을 달성하는 동시에 TAB-seq는 비설파이트 매개 분해를 완화하기 위해 상대적으로 많은 양의 DNA가 필요할 수 있다. 따라서 높은 DNA 질량 요건은 TAB-seq가 제한된 분석물일 수 있는 cfDNA 샘플에서 5hmC를 시퀀싱하는 데 채택되는 것을 방해할 수 있다.
5hmC-Seal에서, β-GT는 아지드 변형 글루코오스(UDP-6-N3-Glu)로 5hmC를 표지하는 데 사용되며, 아지드 기는 클릭 화학을 통해 비오틴의 후속 공유 부착을 허용한다. 스트렙타비딘 비드는 결합되지 않은 단편이 세척되는 동안 비오틴-5gmC 함유 DNA 단편을 친화성 포획하는 데 사용된다. 그 후 포획된 DNA 단편은 PCR 증폭 및 시퀀싱된다. 이 기술에는 짧은 리드 시퀀싱 방법을 사용하여 다른 변형/비변형된 C 염기로부터 5hmC를 명확하게 하는 작업은 포함되지 않는다(예를 들어, 5gmC가 C로 판독됨). 결과적으로 이 방법은 하나 이상의 5hmC를 함유하는 cfDNA 단편만 식별할 수 있지만 5hmC의 수와 구체적인 위치는 알지 못한다. 긴 리드 시퀀싱 기술인 SMRT 시퀀싱을 사용하면 5hmC-Seal 포획된 DNA 단편으로부터 5hmC의 단일 뉴클레오티드 분해능을 얻을 수 있다. 짧은 리드 시퀀싱은 긴 리드 시퀀싱보다 선호될 수 있으며, 이는 더 비용 효율적이고 오류 발생 가능성이 낮다.
TAB-seq와 마찬가지로 ACE-seq는 β-GT를 사용하여 글루코오스 모이어티로 5hmC를 보호한다. TAB-seq와 달리 ACE-seq의 전환/탈아미노화 작업은 비설파이트에 의해 화학적으로 대신에 APOBEC에 의해 효소적으로 매개된다. 따라서 ACE-seq은 TAB-seq보다 적은 양의 입력 DNA를 요구할 수 있지만 이 방법은 여전히 단점이 있을 수 있다. 첫째, cfDNA 입력량은 예를 들어 단지 약 4 ㎕(글루코실화 반응의 총 부피인 약 5 ㎕와 기질, 효소 및 농축된 완충 성분의 총 부피인 약 1 ㎕ 사이의 차이로 추정됨)로 매우 낮을 수 있다. cfDNA 샘플은 일반적으로 수백 피코그램(pg)/㎕ 미만 범위(예를 들어, ~200 pg/㎕)이다. 따라서 이 방법은 cfDNA 농축을 위한 해결책을 고안하지 않고서는 낮은 cfDNA 질량 입력량(<1-2 ng)만 지원할 수 있다. 따라서 이러한 낮은 cfDNA 입력량은 질환 적용분야에서 바이오마커로서 cfDNA에서 매우 드문 5hmC를 식별하는 방법의 민감도를 본질적으로 제한할 수 있다. 둘째, ACE-seq에서 어댑터 결찰 전에 cfDNA의 효소적 글루코실화 및 탈아미노화가 수행된다. 일반적으로 dsDNA 의존적 어댑터 결찰은 NGS 적용분야의 첫 번째 작업이다. 그러나 탈아미노화 전에 어댑터 결찰을 수행하면 어댑터의 C가 U로 탈아미노화되어 Illumina 플랫폼 시퀀싱 적용분야와 호환되지 않는다. 결찰 전에 cfDNA를 탈아미노화하면 어댑터 시토신이 변경되지 않은 상태로 유지될 수 있다. 그러나 탈아미노화로 인한 cfDNA 삽입물의 C에서 U로의 전환으로 인해 비상보적 가닥이 생성될 수 있다. 따라서 cfDNA의 탈아미노화 후 어댑터 결찰 전략에는 기존의 ssDNA 기반 결찰 접근법이 필요할 수 있다. ACE-seq에서는 Illumina 어댑터 서열을 도입하기 위해 Accel Methyl-NGS 키트(Swift Biosciences)를 사용하여 ssDNA 기반 결찰을 수행할 수 있다. 그러나 이 특정 ssDNA 결찰 방법은 ssDNA의 3' 말단에 알려지지 않은 수의 낮은 복잡성 염기를 추가하여(두 번째 가닥 합성을 위한 프라이머 결합 부위 역할을 함) 3' 종점 정보를 지울 수 있다. 추가로, ssDNA 기반 결찰을 요구하면 이중체 UMI 전략을 사용하여 주어진 리드의 역 상보체를 검출할 가능성이 무효화될 수 있다(cfDNA가 결찰 전에 변성되기 때문에). 따라서 ssDNA 기반 라이브러리는 역 상보체 가닥 정보를 손실할 수 있으며, 이로 인해 시퀀싱 오류가 더 많이 억제된다.
테스트 전환된 핵산 서열이 특정 CpG 유전자좌의 참조 C에 해당하는 T인 경우, C는 원래 테스트 핵산 단편에서 비메틸화되었다. 대조적으로, 테스트 전환된 핵산 서열과 참조 서열 둘 다 특정 CpG 유전자좌에서 C인 경우, C는 원래 테스트 핵산 단편에서 히드록시메틸화되었다.
일부 예에서, 전환된 핵산 분자의 핵산 서열은 약 50-500x, 약 25-1000x, 약 50-500x, 약 250-750x, 약 500-200x, 약 750-1500x, 또는 약 100-2000x 사이의 깊이에서 시퀀싱된다. 일부 실시양태에서, 핵산 서열은 100x 초과 또는 500x 초과의 깊이에서 시퀀싱된다.
일부 예에서, 전환된 핵산 분자의 핵산 서열은 약 500x, 약 1000x, 약 2000x, 약 3000x, 약 4000x, 약 5000x, 약 6000x, 약 7000x, 약 8000x, 약 9000x, 약 10000x의 깊이 또는 5000x 초과의 깊이에서 시퀀싱된다.
일부 예에서, 전환된 핵산 분자의 핵산 서열은 약 300x 고유한, 약 400x 고유한, 약 500x 고유한, 약 600x 고유한, 약 700x 고유한, 약 800x 고유한, 약 900x 고유한, 또는 약 1000x 고유한 깊이, 또는 500x 더 고유한 깊이에서 시퀀싱된다.
C. 히드록시메틸화 프로파일링
다양한 예에서, 효소적 히드록시메틸화 시퀀싱이 완료되면, 생물학적 샘플 내 핵산의 히드록시메틸화 상태를 분석하기 위해 분석법을 사용할 수 있다. 일부 예에서, 전체 게놈 효소적 히드록시메틸 시퀀싱("WG EHM-seq")은 게놈의 거의 모든 시티딘 뉴클레오티드의 DNA 히드록시메틸화 상태를 특성화함으로써 고해상도 시퀀싱을 제공한다. 표적화된 효소 히드록시메틸 시퀀싱("TEHM-seq")과 같은 다른 표적화된 방법이 메틸화 분석에 유용할 수 있다.
cfDNA의 히드록시메틸화 프로파일은 정렬 방법을 적용하여 전체 게놈 또는 인간 참조 게놈의 표적화된 히드록시메틸 시퀀싱으로부터 히드록시메틸 시퀀싱 리드를 맵핑함으로써 식별할 수 있다. 서열 정렬 방법의 비제한적 예에는 bwa-meth, bismark, Last, GSNAP, BSMAP, NovoAlign, Bison, Metagenomic Phylogenetic Analysis (for example, MetaPhlAn2), BLAT, Burrows-Wheeler Aligner (BWA), Bowtie, Bowtie2, Bfast, BioScope, CLC bio, Cloudburst, Eland/Eland2, GenomeMapper, GnuMap, Karma, MAQ, MOM, Mosaik, MrFAST/MrsFAST, PASS, PerM, RazerS, RMAP, SSAHA2, Segemehl, SeqMap, SHRiMP, Slider/SliderII, Srprism, Stampy, vmatch, ZOOM, 및 SOAP/SOAP 정렬 도구가 포함된다.
히드록시메틸 시퀀싱에서 이중체-UMI를 사용하면 핵산 분자의 실제 히드록시메틸화 상태를 결정하는 정확도가 높아질 수 있다. 이 방법은 예를 들어 추출(DNA 손상), 라이브러리 제조(말단 복구 채우기), 효소적 전환(과소전환 또는 과대전환), PCR(염기 통합 오류), 및 시퀀싱(염기 호출 오류) 중에 도입될 수 있는 오류를 설명할 수 있다. 히드록시메틸화 상태 결정의 정확도가 높아지면 이러한 히드록시메틸화 기반 후성유전학적 서열 차이를 사용하여 집단을 계층화하기 위한 특징화 및 분류자 생성이 개선될 수 있다. 이 방법은 오류 수정을 위해 색인 바코드에 의존하지 않는다.
D. 핵산 농축 방법과의 결합
또 다른 측면에서, 방법은 원하는 핵산의 농축을 포함한다. 일부 실시양태에서, 본 히드록시메틸 시퀀싱 방법은 원하는 핵산 서열이 농축된 핵산 샘플에 대해 수행될 수 있다. 일부 실시양태에서, 본 발명의 히드록시메틸 시퀀싱 방법은 핵산 농축 작업을 포함한다. 일부 실시양태에서, 핵산 농축 방법은 히드록시메틸화된 무세포 DNA를 시퀀싱하는 방법과 결합될 수 있다. 일부 실시양태에서, 방법은 cfDNA 샘플 중 히드록시메틸화된 DNA 분자에만 친화성 태그를 추가하는 단계, 친화성 태그로 태그된 DNA 분자를 농축하는 단계, 및 농축된 DNA 분자를 시퀀싱하는 단계를 포함한다. 일부 실시양태에서, 상보적 핵산 분자를 농축 방법에 사용하여 암 진행, 검출, 예후, 또는 치료 반응에 연관된 메틸화 상태를 갖는 게놈 서열을 표적화한다.
일부 실시양태에서, 핵산은 크기, 핵염기 함량 또는 핵산 서열에 의해 사전 결정된다. 특정 농축 방법은 미국 특허 공개 번호 US20200123616 및 국제 특허 공개 번호 WO2017176630A1과 같이 본원에 기재된 방법과 결합하여 적용될 수 있으며, 이들 각각은 본원에 참고로 포함된다.
"농축한다" 및 "농축"이라는 용어는 특정 특징을 갖는 분석물(예를 들어, 히드록시메틸시토신을 함유하는 핵산)을 특징을 갖지 않는 분석물(예를 들어, 히드록시메틸시토신을 함유하지 않는 핵산)로부터 부분적으로 정제하는 것을 의미한다.
농축은 특징을 갖는 분석물(예를 들어, 히드록시메틸시토신을 함유하는 핵산)의 농도를 특징을 갖지 않은 분석물에 비해 적어도 2배, 적어도 5배, 또는 적어도 10배 증가시킬 수 있다. 농축 후, 샘플 내 분석물의 적어도 10%, 적어도 20%, 적어도 50%, 적어도 80%, 또는 적어도 90%가 농축에 사용되는 특징을 가질 수 있다. 예를 들어, 농축된 조성물 중 핵산 분자의 적어도 10%, 적어도 20%, 적어도 50%, 적어도 80%, 또는 적어도 90%가 포획 태그를 포함하도록 변형된 하나 이상의 히드록시메틸시토신을 갖는 가닥을 함유할 수 있다. 명세서 전반에 걸쳐 용어의 다른 정의가 나타날 수 있다.
본 방법의 농축 작업은 자성 스트렙타비딘 비드를 사용하여 수행할 수 있지만, 다른 지지체가 사용될 수 있다. 위에서 언급한 바와 같이, 농축된 cfDNA 분자(히드록시메틸화된 cfDNA 분자에 해당)는 PCR에 의해 증폭된 후 시퀀싱될 수 있다. 이러한 실시양태에서, 농축된 cfDNA 샘플은 추가된 어댑터(또는 이의 상보체)에 혼성화하는 하나 이상의 프라이머를 사용하여 증폭될 수 있다. 일부 실시양태에서, 농축된 DNA 샘플은 PCR 증폭 전에, 예를 들어 APOBEC를 사용하여, 탈아미노화된다. 이러한 작업 순서는 농축된 DNA의 5hmC 변형에 대한 염기 분해능 결정을 가능하게 할 수 있다.
일부 실시양태에서, 탈아미노화된 농축 DNA는 Y자형 어댑터에 혼성화하는 하나 이상의 프라이머를 사용하여 증폭될 수 있다. Y자형 어댑터(Y-어댑터)가 추가되는 실시양태에서, 어댑터-결찰된 핵산은 2개의 프라이머, 즉 어댑터의 상부 가닥의 단일 가닥 영역에 혼성화하는 제1 프라이머, 및 Y-어댑터(또는 루프 절단 후 헤어핀 어댑터)의 하부 가닥의 단일 가닥 영역의 상보체에 혼성화하는 제2 프라이머를 사용하여 PCR에 의해 증폭될 수 있다. 예를 들어, 일부 실시양태에서 사용된 Y-어댑터는 P5 및 P7 아암(이 서열은 Illumina의 시퀀싱 플랫폼과 호환 가능함)을 가질 수 있으며 증폭 산물은 하나에는 P5 서열이 있고 다른 하나에는 P7 서열이 있을 수 있다. 이러한 증폭 산물은 Illumina 시퀀싱 기판에 혼성화되어 시퀀싱될 수 있다. 일부 실시양태에서, 증폭에 사용되는 프라이머 쌍은 Y-어댑터에 혼성화하는 3' 말단 및 P5 서열 또는 P7 서열을 갖는 5' 꼬리를 가질 수 있다. 이들 실시양태에서, 증폭 산물은 또한 하나에는 P5 서열이 있고 다른 하나에는 P7 서열이 있을 수 있다. 이러한 증폭 산물은 Illumina 시퀀싱 기판에 혼성화되어 시퀀싱될 수 있다. 이러한 증폭 작업은 제한된 주기 PCR(예를 들어, 5-20주기)에 의해 수행될 수 있다.
(a) 순환하는 무세포 DNA를 포함하는 샘플을 얻는 단계, (b) 샘플에서 히드록시메틸화된 DNA를 농축하는 단계, 및 (c) 하나 이상의 표적 유전자좌(예를 들어, 적어도 1, 적어도 2, 적어도 3, 적어도 4, 적어도 5, 또는 적어도 10개의 표적 유전자좌) 각각에 (해당하는 서열을 갖도록) 맵핑되는 농축된 히드록시메틸화된 DNA에서 핵산의 양을 독립적으로 정량화하는 단계를 포함하는 방법이 또한 제공된다. 이 방법은 다음을 추가로 포함할 수 있다: (d) 농축된 히드록시메틸화 DNA 내 하나 이상의 핵산 서열이 대조군에 비해 농축된 히드록시메틸화 DNA에서 과다 표현되거나 과소 표현되는지를 결정하는 단계. 농축된 히드록시메틸화 DNA에서 과다 표현되거나 과소 표현되는 핵산의 정체(및 특정 경우에는 농축된 히드록시메틸화 DNA에서 해당 핵산이 과다 표현되거나 과소 표현되는 정도)를 사용하여 진단하거나, 치료를 결정하거나 예측할 수 있다. 예를 들어, 일부 경우에, 농축된 히드록시메틸화 DNA를 분석하여 위에서 논의한 바와 같이 표현형과 상관관계가 있는 시그니처를 식별할 수 있다. 일부 실시양태에서, 하나 이상의 표적 유전자좌(예를 들어, 아래 나열된 유전자/간격) 각각에 맵핑되는 농축된 히드록시메틸화 DNA 내 핵산 분자의 양은 qPCR, 디지털 PCR, 어레이, 시퀀싱 또는 임의의 다른 정량적 방법에 의해 정량화될 수 있다.
일부 실시양태에서, 방법은 cfDNA 샘플 내 하나 이상의 히드록시메틸시토신 및 메틸시토신 뉴클레오티드를 포함하는 DNA 분자에 표지를 부착하는 단계로서, 히드록시메틸시토신 뉴클레오티드는 제1 포획 태그로 표지되고 메틸시토신 뉴클레오티드는 제1 포획 태그와 상이한 제2 포획 태그로 표지되어 표지된 샘플을 생성하는 단계; 표지된 DNA 분자를 농축하는 단계; 및 농축된 DNA 분자를 시퀀싱하는 단계를 포함할 수 있다. 방법의 이러한 실시양태는 하나 이상의 히드록시메틸시토신을 포함하는 DNA 분자 및 하나 이상의 메틸시토신 뉴클레오티드를 포함하는 DNA 분자를 별도로 농축하는 단계를 포함할 수 있다. 표지는 위에서 설명한 방법이나 형광 표지 대신에 포획 태그가 사용되는 문헌[Song et al. "Simultaneous single-molecule epigenetic imaging of DNA methylation and hydroxymethylation", Proc. Natl. Acad. Sci. 2016 113: 4338-43, 이는 본원에 참고로 포함됨]으로부터 응용될 수 있다.
일부 실시양태에서, 농축 방법은 DNA를 범용 어댑터, 예를 들어 cfDNA 단편의 양쪽 말단에 결찰하는 어댑터에 결찰시킴으로써 구현될 수 있다. 일부 경우에, Y-어댑터(또는 헤어핀 어댑터)를 cfDNA의 말단에 결찰시켜 가닥의 3' 말단에 추가된 태그 서열과 동일하거나 상보적이지 않은 5' 태그 서열이 포함된 상단 가닥을 갖는 이중 가닥 DNA 분자를 생성함으로써 범용 어댑터를 구현할 수 있다. 본 방법의 초기 작업에 사용되는 DNA 단편은 사전에 변성되지 않은 비증폭 DNA일 수 있다. [도 1a]에 도시된 바와 같이, 이 작업은 폴리머라제를 사용하여 cfDNA의 말단을 연마(예를 들어 평활화)하는 단계, 예를 들어 Taq 폴리머라제를 사용하여, 단편을 A-꼬리화하는 단계, 및 T-꼬리화 Y-어댑터를 A-꼬리화 단편에 결찰시키는 단계를 필요로 할 수 있다. 이 초기 결찰 작업은 제한된 양의 cfDNA에 대해 수행될 수 있다. 예를 들어, 어댑터가 결찰되는 cfDNA는 200 ng 미만의 DNA, 예를 들어, 10 pg 내지 200 ng, 100 pg 내지 200 ng, 1 ng 내지 200 ng, 5 ng 내지 50 ng, 또는 10,000 ng 미만(게놈에 따라 예를 들어, 5,000개 미만, 1,000개 미만, 500개 미만, 100개 미만, 또는 10개 미만 반수체 게놈 등가물)을 함유할 수 있다. 일부 실시양태에서, 방법은 50 ng 미만의 cfDNA(대략 5 mL의 혈장에 해당함) 또는 대략 1 mL의 혈장에 해당하는 10ng 미만의 cfDNA를 사용하여 수행된다. 예를 들어, Newman et al.("An ultrasensitive method for quantitating circulating tumor DNA with broad patient coverage", Nat Med. 2014 20: 548-54, 이는 본원에 참고로 포함됨)은 1-5 mL 혈장으로부터 단리된 7-32 ng cfDNA의 라이브러리를 설명한다. 이는 2,121-9,697개의 반수체 게놈(반수체 게놈당 3.3 pg으로 가정)에 해당한다. cfDNA에 결찰된 어댑터에는 시퀀싱된 분자의 다중화 및 정량 분석을 용이하게 하는 분자 바코드가 포함될 수 있다. 구체적으로, 어댑터는 샘플이 결찰되는, 샘플을 식별하는 분자 바코드를 포함하고 있다는 점에서 "색인화"될 수 있으며, 이를 통해 시퀀싱 전에 샘플을 모을 수 있다. 대안적으로 또는 추가적으로, 어댑터는 무작위 바코드 등을 포함할 수 있다. 이러한 어댑터는 단편에 결찰될 수 있으며 특정 영역에 해당하는 실질적으로 모든 단편은 상이한 서열로 태그된다. 이를 통해 PCR 중복을 식별하고 분자 수를 계산할 수 있다.
이 방법 구현의 다음 작업에서, cfDNA의 히드록시메틸화된 DNA 분자는 화학선택적 기, 예를 들어 클릭 반응에 참여할 수 있는 기로 표지된다. 이 작업은 어댑터 결찰된 cfDNA를 DNA β-글루코실트랜스퍼라제(예를 들어, T4 DNA β-글루코실트랜스퍼라제(여러 판매자에 의해 시판됨), 하지만 다른 DNA β-글루코실트랜스퍼라제가 존재함) 및 예를 들어 UDP-6-N3-GIU(예를 들어, 아지드를 함유한 UDP 글루코오스)와 함께 인큐베이션하여 수행할 수 있다. 이 작업은 예를 들어, 미국 특허 공개 번호 US20110301045(이는 본원에 참고로 포함됨) 또는 Song et al("Selective chemical labeling reveals the genome-wide distribution of 5-hydroxymethylcytosine", Nat. Biotechnol. 2011 29: 68-72, 이는 본원에 참고로 포함됨)로부터 응용된 프로토콜을 사용하여 수행될 수 있다.
이 방법 구현의 다음 작업은 고리첨가(클릭) 반응을 통해 화학선택적으로 변형된 DNA에 비오틴 모이어티를 추가하는 단계를 포함한다. 이 작업은 반응이 완료된 후, 예를 들어 적절한 시간 후(예를 들어 30분 이상 후) 글루코실트랜스퍼라제 반응에 비오티닐화 반응물, 예를 들어 디벤조사이클로옥틴 변형 비오틴을 직접 첨가함으로써 수행될 수 있다. 일부 실시양태에서, 비오티닐화된 반응물은 일반식 B-L-X일 수 있으며, 여기서 B는 비오틴 모이어티이고, L은 링커이고, X는 고리첨가 반응을 통해 cfDNA에 첨가된 화학선택적 기와 반응하는 기이다. 특정 경우에, 링커는 화합물을 수성 환경에서 가용성이 더 크게 만들 수 있으며, 따라서 폴리에틸렌글리콜(PEG) 링커 또는 이의 등가물을 함유할 수 있다. 일부 실시양태에서, 첨가된 화합물은 디벤조사이클로옥틴-PEGn-비오틴일 수 있으며, 여기서 N은 2-10, 예를 들어 4이다. 디벤조사이클로옥틴-PEG4-비오틴은 비교적 친수성이고 최대 0.35 mM의 농도까지 수성 완충액에 가용성이다. 이 작업에서 첨가된 화합물은 절단 가능한 결합을 함유할 필요가 없으며, 예를 들어 이황화 결합 등을 함유하지 않는다. 이 작업에서, 고리첨가 반응은 히드록시메틸화된 cfDNA에 첨가된 아지도 기와 비오틴 모이어티에 연결된 알키닐 기(예를 들어, 디벤조사이클로옥틴 기) 사이에서 있을 수 있다. 다시, 이 작업은 미국 특허 공개 번호 US20110301045 또는 Song et al.(" "Selective chemical labeling reveals the genome-wide distribution of 5-hydroxymethylcytosine", Nat. Biotechnol. 2011 29: 68-72, 이는 본원에 참고로 포함됨)으로부터 응용한 프로토콜을 사용하여 수행될 수 있다.
본 방법의 농축 작업은 자성 스트렙타비딘 비드를 사용하여 수행될 수 있지만, 다른 지지체가 사용될 수 있다. 위에서 언급한 바와 같이, 농축된 cfDNA 분자(히드록시메틸화된 cfDNA 분자에 해당)는 PCR에 의해 증폭된 다음 시퀀싱된다.
이러한 실시양태에서, 농축된 DNA 샘플은 추가된 어댑터(또는 그의 상보체)에 혼성화하는 하나 이상의 프라이머를 사용하여 증폭될 수 있다. Y-어댑터가 추가되는 실시양태에서, 어댑터-결찰된 핵산은 2개의 프라이머, 즉 어댑터의 상부 가닥의 단일 가닥 영역에 혼성화하는 제1 프라이머, 및 Y-어댑터(또는 루프 절단 후 헤어핀 어댑터)의 하부 가닥의 단일 가닥 영역의 상보체에 혼성화하는 제2 프라이머를 사용하여 PCR에 의해 증폭될 수 있다. 예를 들어, 일부 실시양태에서, 사용된 Y-어댑터는 P5 및 P7 아암(예를 들어, Illumina의 시퀀싱 플랫폼과 호환 가능한 서열을 가짐)을 가질 수 있으며 증폭 산물은 하나에는 P5 서열이 있고 다른 하나에는 P7 서열이 있을 수 있다. 이러한 증폭 산물은 Illumina 시퀀싱 기판에 혼성화되어 시퀀싱될 수 있다. 일부 실시양태에서, 증폭에 사용되는 프라이머 쌍은 Y-어댑터에 혼성화하는 3' 말단 및 P5 서열 또는 P7 서열을 갖는 5' 꼬리를 가질 수 있다. 이들 실시양태에서, 증폭 산물은 또한 하나에는 P5 서열이 있고 다른 하나에는 P7 서열이 있을 수 있다. 이러한 증폭 산물은 Illumina 시퀀싱 기판에 혼성화되어 시퀀싱될 수 있다. 이러한 증폭 작업은 제한된 주기 PCR(예를 들어, 5-20주기)에 의해 수행될 수 있다.
시퀀싱 작업은 임의의 편리한 차세대 시퀀싱 방법을 사용하여 수행될 수 있으며 적어도 10,000, 적어도 50,000, 적어도 100,000, 적어도 500,000, 적어도 1백만, 적어도 1천만, 적어도 1억, 또는 최소 10억 개의 서열 리드를 초래할 수 있다. 일부 경우에, 리드는 쌍말단(paired-end) 리드이다. 프라이머는 증폭을 위해 사용될 수 있으며 프라이머 연장이 사용되는 임의의 차세대 시퀀싱 플랫폼, 예를 들어 Illumina의 가역적 터미네이터 방법, Roche의 파이로시퀀싱 방법(454), Life Technologies의 결찰에 의한 시퀀싱(SOLiD 플랫폼), Life Technologies의 Ion Torrent 플랫폼 또는 Pacific Biosciences의 형광 염기 절단 방법에서의 사용과 호환될 수 있다. 그러한 방법의 예는 다음 참고문헌 Margulies et al. ("Genome sequencing in microfabricated high-density picolitre reactors", Nature 2005;437:376-380); Ronaghi et al. ("Real-time DNA sequencing using detection of pyrophosphate release", Anal Biochem. 1996;242:84-89); Shendure et al. ("Accurate Multiplex Polony Sequencing of an Evolved Bacterial Genome", Science 2005;309:1728-1732); Imelfort et al. ("De novo sequencing of plant genomes using second-generation technologies", Brief Bioinform. 2009;10:609-618); Fox et al. ("Applications of ultra-high-throughput sequencing", Methods Mol Biol. 2009;553:79-108); Appleby et al. ("New technologies for ultra-high throughput genotyping in plants", Methods Mol Biol. 2009;513:19-39); English et al. ("Mind the Gap: Upgrading Genomes with Pacific Biosciences RS Long-Read Sequencing Technology", PLoS ONE. 2012;7:e47768); and Morozova et al. ("Applications of next-generation sequencing technologies in functional genomics", Genomics. 2008;92:255-264)에 설명되어 있으며, 이들 각각은 본원에 참고로 포함되며, 각 작업에 대한 모든 출발 제품, 시약 및 최종 제품을 포함하여, 방법의 일반적인 설명 및 방법의 특정 작업에 사용될 수 있다.
일부 실시양태에서, 시퀀싱된 샘플은 복수의 샘플로부터 얻은 DNA 분자 풀을 포함할 수 있으며, 여기서 샘플 내 핵산은 그 공급원을 표시하는 분자 바코드를 함유한다. 일부 실시양태에서, 핵산은 단일 공급원(예를 들어, 단일 유기체, 바이러스, 조직, 세포, 대상체 등)으로부터 유래될 수 있다. 다른 실시양태에서, 핵산 샘플은 복수의 공급원로부터 추출된 핵산 풀(예를 들어, 복수의 유기체, 조직, 세포, 대상체 등으로부터의 핵산 풀)일 수 있으며, 여기서 "복수"는 두 개 이상을 의미한다. 따라서 일부 실시양태에서, 핵산 샘플은 2개 이상의 공급원, 3개 이상의 공급원, 5개 이상의 공급원, 10개 이상의 공급원, 50개 이상의 공급원, 100개 이상의 공급원, 500개 이상의 공급원, 1000개 이상의 공급원, 5000개 이상의 공급원, 최대 약 10,000개 이상의 공급원으로부터의 핵산을 포함할 수 있다. 분자 바코드로 다양한 공급원으로부터의 서열을 분석한 후 구별할 수 있다.
서열 리드는 컴퓨터에 의해 분석될 수 있으며, 이에 따라 아래에 설명된 작업을 수행하기 위한 명령어는 적합한 물리적 컴퓨터 판독 가능 저장 매체에 기록될 수 있는 프로그래밍으로 제시될 수 있다.
II. 컴퓨터 시스템 및 기계 학습 방법
A. 샘플 특징
기계 학습 및 패턴 인식과 관련하여 본원에 사용되는 바와 같이, 용어 "특징"은 관찰되는 현상의 개별 측정 가능한 속성 또는 특성을 의미할 수 있다. 특징은 숫자일 수 있지만 문자열 및 그래프와 같은 구조적 특징은 구문 패턴 인식에 사용될 수 있다. '특징'의 개념은 선형회귀와 같은 통계기법에서 사용되는 설명변수의 개념과 관련이 있을 수 있다.
일부 실시양태에서, 히드록시메틸화 상태 데이터는 사전 지정된 또는 사전 선택된 생물학적 특성에 따라 샘플을 그룹으로 분류하도록 훈련된 훈련 기계 학습 모델을 사용하여 특징화되고 처리된다.
일부 실시양태에서, 특징 세트는 기계 학습 모델을 사용하여 처리될 핵산 서열로부터 식별된다. 특징 세트는 생물학적 샘플의 핵산 서열의 특성에 대응할 수 있다.
일부 실시양태에서, 핵산 서열의 특성은 샘플을 얻은 개체의 암 또는 암의 병기의 존재 또는 부재, 또는 암의 예후로부터 선택된다.
훈련 샘플은 예를 들어 임상 질문에 의해 표시되는 바와 같이, 원하는 분류를 기반으로 선택될 수 있다. 서로 다른 하위 집합은 예를 들어, 하위 집합에 할당된 표지에 따라 결정되는 바와 같이, 서로 다른 특성을 가질 수 있다. 훈련 생물학적 샘플의 첫 번째 하위 집합은 지정된 특성을 갖는 것으로 식별될 수 있고, 훈련 생물학적 샘플의 두 번째 하위 집합은 지정된 특성을 갖지 않는 것으로 식별될 수 있다. 특성의 예로는 다양한 질환이나 장애가 있을 수 있지만 중간 분류나 측정도 포함될 수 있다. 이러한 특성의 예에는 암 또는 암의 병기의 존재, 또는 암의 예후(예를 들어 치료되지 않거나 암의 치료에 반응하여)가 포함되지만 이에 제한되지는 않는다. 예를 들어, 암은 결장직장암, 간암, 폐암, 췌장암, 또는 유방암일 수 있다.
일부 실시양태에서, 특징은 기계 학습 분석을 위한 특징 매트릭스를 사용하여 처리된다.
복수의 분석에 대해, 시스템은 기계 학습 모델을 사용하여 처리할 특징 세트를 식별할 수 있다. 시스템은 각 분자 클래스에 대한 분석을 수행하고 측정된 값으로부터 특징 벡터를 형성할 수 있다. 시스템은 기계 학습 모델을 사용하여 특징 벡터를 처리하고 생물학적 샘플이 지정된 특성을 가지고 있는지에 대한 출력 분류를 얻을 수 있다.
일부 실시양태에서, 기계 학습 모델은 개체의 두 그룹 또는 클래스, 개체 집단의 특징 또는 집단의 특징을 구별하는 분류자를 출력한다. 일부 실시양태에서, 분류자는 훈련 기계 학습 분류자이다.
일부 실시양태에서, 암 조직 내 바이오마커의 정보용 유전자좌 또는 특징을 분석하여 프로파일을 형성한다. 수신자 작동 특성(ROC) 곡선은 두 집단(예를 들어 치료제에 반응하는 개체와 반응하지 않는 개체)을 구별하는 데 있어 특정 특징(예를 들어 본원에 설명된 임의의 바이오마커 및/또는 임의의 추가 생체의학적 정보)의 성과를 플로팅하는 데 유용할 수 있다. 전체 집단(예를 들어, 사례 및 대조군)의 특징 데이터는 단일 특징의 값을 기준으로 오름차순으로 정렬될 수 있다.
일부 실시양태에서, 질환은 진행성 선종(AA), 결장직장암(CRC), 결장직장 암종, 또는 염증성 장 질환이다.
"입력 특징" 또는 "특징"이라는 용어는 샘플의 출력 분류(표지), 예를 들어 조건, 서열 내용(예를 들어 돌연변이), 제안된 데이터 수집 작업, 또는 제안된 치료법을 예측하기 위해 모델에 의해 사용되는 변수를 의미할 수 있다. 변수의 값은 샘플에 대해 결정될 수 있으며 분류를 결정하는 데 사용될 수 있다. 유전자 데이터의 입력 특징의 예에는 게놈에 대한 서열 데이터(예를 들어, 서열 리드)의 정렬과 관련된 정렬 변수 및 비정렬 변수(예를 들어, 서열 리드의 서열 내용, 단백질 또는 자가항체의 측정값, 또는 게놈 영역에서 평균 메틸화 수준과 관련됨)가 포함된다.
다양한 실시양태에서, 핵산 서열의 히드록시메틸화 상태는 다음을 포함하도록 특징화될 수 있다: 1) 단일 CpG 부위 특징(예를 들어, C에 대한 5hmC의 비율 또는 % 히드록시메틸화), 5mC에 대한 5hmC의 비율, CpG 부위에 대한 총 메틸화(5mC+5hmC)에 대한 5hmC의 비율; 2) 단일 CH 부위(예를 들어, C에 대한 5hmC의 비율 또는 % 히드록시메틸화), 5mC에 대한 5hmC의 비율, CH 부위에 대한 총 메틸화(5mC+5hmC)에 대한 5hmC의 비율); 3) 단편 수준 5hmC 특징(예를 들어, 단편에 ≥X 5hmC CpG 부위가 있는 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, CpG 부위의 ≥X%가 5hmC인 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, 단편에 ≥X 5hmC 부위(CpG뿐만 아니라)가 있는 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, C(CpG 부위뿐만 아니라)의 ≥X%가 각 단편에 걸쳐 5hmC인 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것). 및 4) 영역 수준 5hmC 특징(예를 들어, 단편에 ≥X 5hmC CpG 부위가 있는 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, CpG 부위의 ≥X%가 5hmC인 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, 단편에 ≥X 5hmC 부위(CpG뿐만 아니라)가 있는 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것, C(CpG 부위뿐만 아니라)의 ≥X%가 각 유전자 본체에 걸쳐서 및 각 유전자 본체에 대해 5hmC인 경우 cfDNA 단편을 히드록시메틸화된 것으로 호출하는 것은 C에 대한 5hmC 의 비율 또는 % 히드록시메틸화를 포함하는 것을 특징화함), 5mC에 대한 5hmC의 비율, 총 메틸화(5mC+5hmC)에 대한 5hmC의 비율, 또는 이들의 조합(여기서 X는 임의의 수임).
일부 실시양태에서, 유전자 본체 서열 전반에 걸쳐 특징화하는 것은 엑손만(예를 들어, 주어진 유전자에 대한 모든 엑손을 함께 집합시킴으로써), 전사 시작 부위 영역(예를 들어, TSS를 둘러싸는 1-kb 영역), 인핸서, CpG 셸프(shelf), CpG 해안(shore) 또는 CpG 섬을 포함할 수 있다.
변수의 값은 샘플에 대해 결정되고 분류를 결정하는 데 사용될 수 있다. 유전자 데이터의 입력 특징의 예에는 서열 데이터(예를 들어, 서열 리드)의 게놈과의 정렬과 관련된 정렬 변수 및 비-정렬 변수(예를 들어, 서열 리드의 서열 내용, 단백질 또는 자가항체의 측정값, 또는 게놈 영역의 평균 메틸화 수준과 관련됨)가 포함된다. 다양한 예에서, V-플롯 측정치, 전사 인자 결합 분석, FREE-C 디콘볼루션, 전사 시작 부위에 대한 cfDNA 측정 및 cfDNA 단편에 대한 DNA 히드록시메틸화 수준과 같은 유전적 특징이 기계 학습 방법 및 모델에 의해 처리될 입력 특징으로 사용될 수 있다.
일부 예에서, 시퀀싱 정보는 전사 시작 부위, 전사 인자 결합 부위, 염색질 개방 및 폐쇄 상태, 뉴클레오솜 위치 또는 점유 등을 포함하지만 이에 제한되지 않는 복수의 유전적 특징에 관한 정보를 포함한다.
B. 데이터 분석
일부 실시양태에서, 본 개시 내용은 소프트웨어 애플리케이션, 컴퓨팅 하드웨어, 또는 둘 다에서 실현되는 데이터 분석을 갖는 시스템, 방법 또는 키트를 제공한다. 다양한 실시양태에서, 분석 애플리케이션 또는 시스템은 적어도 데이터 수신 모듈, 데이터 사전 처리 모듈, 데이터 분석 모듈(하나 이상의 게놈 데이터 유형에 대해 연산할 수 있음), 데이터 해석 모듈, 또는 데이터 시각화 모듈을 포함한다. 일부 실시양태에서, 데이터 수신 모듈은 검사실 하드웨어 또는 기기를 검사실 데이터를 처리하는 컴퓨터 시스템과 연결하는 컴퓨터 시스템을 포함할 수 있다. 일부 실시양태에서, 데이터 사전 처리 모듈은 분석을 준비하기 위해 데이터에 대한 연산을 수행하는 하드웨어 시스템 또는 컴퓨터 소프트웨어를 포함할 수 있다. 사전 처리 모듈에서 데이터에 적용될 수 있는 연산의 예로는 아핀 변환, 노이즈 제거 작업, 데이터 정리, 형식 재지정, 또는 서브샘플링이 포함된다. 하나 이상의 게놈 물질로부터 게놈 데이터를 분석하는 데 특화된 데이터 분석 모듈은 예를 들어 조립된 게놈 서열을 취하고 확률적 및 통계적 분석을 수행하여 질환, 병리학, 상태, 위험, 병태 또는 표현형과 관련된 비정상적인 패턴을 식별할 수 있다. 데이터 해석 모듈은 식별된 비정상적인 패턴과 건강 상태, 기능 상태, 예후 또는 위험 간의 관계에 대한 이해를 지원하기 위해 통계, 수학 또는 생물학으로부터 도출된 분석 방법을 사용할 수 있다. 데이터 시각화 모듈은 수학적 모델링, 컴퓨터 그래픽 또는 렌더링 방법을 사용하여 결과의 이해 또는 해석을 용이하게 할 수 있는 데이터의 시각적 표현을 생성할 수 있다.
다양한 실시양태에서, 기계 학습 방법은 샘플 집단에서 샘플을 구별하기 위해 적용된다. 일부 실시양태에서, 건강한 선종 샘플과 진행성 선종 샘플 사이에서 샘플을 구별하기 위해 기계 학습 방법이 적용된다.
일부 실시양태에서, 메틸화 기반 예측 엔진을 훈련하는 데 사용되는 하나 이상의 기계 학습 작업은 일반화된 선형 모델, 일반화된 가산 모델, 비모수적 회귀 연산, 랜덤 포레스트 분류, 공간 회귀 연산, 베이지안 회귀 모델, 시계열 분석, 베이지안 네트워크, 가우스 네트워크, 의사 결정 트리 학습 연산, 인공 신경망, 순환 신경망, 강화 학습 연산, 선형/비선형 회귀 연산, 지원 벡터 머신, 클러스터링 연산, 및 유전 알고리즘 연산 중 하나 이상을 포함한다.
다양한 실시양태에서, 컴퓨터 처리 방법은 로지스틱 회귀, 다중 선형 회귀(MLR), 차원 축소, 부분 최소 제곱(PLS) 회귀, 주성분 회귀, 오토인코더, 변이 오토인코더, 특이값 분해, 푸리에 기저, 웨이블릿, 판별 분석, 지원 벡터 머신, 의사결정 트리, 분류 및 회귀 트리(CART), 트리 기반 방법, 랜덤 포레스트, 그래디언트 부스트 트리, 로지스틱 회귀, 행렬 분해, 다차원 척도 구성법(MDS), 차원 축소 방법, t- 분포 확률적 임베딩(t-SNE), 다층 퍼셉트론(MLP), 네트워크 클러스터링, 뉴로 퍼지 및 인공 신경망으로부터 선택된다.
일부 실시양태에서, 본원에 공개된 방법은 개체 또는 복수의 개체로부터의 샘플의 핵산 시퀀싱 데이터에 대한 컴퓨터 분석을 포함할 수 있다. 분석은 확률적 모델링, 통계적 모델링, 기계적 모델링, 네트워크 모델링 또는 통계적 추론을 기반으로 서열 변이체를 식별하기 위해 서열 데이터로부터 추론된 변이체를 식별할 수 있다. 분석 방법의 비제한적인 예로는 주성분 분석, 오토인코더, 특이값 분해, 푸리에 기저, 웨이블릿, 판별 분석, 회귀, 지원 벡터 머신, 트리 기반 방법, 네트워크, 행렬 분해 및 클러스터링이 포함된다. 변이체의 비제한적인 예에는 생식계열 변이 또는 체세포 돌연변이가 포함된다. 일부 실시양태에서, 변이체는 관찰된 변이체를 지칭할 수 있다. 관찰된 변이체는 과학적으로 확인되거나 문헌으로 보고될 수 있다. 일부 실시양태에서, 변이체는 생물학적 변화와 연관된 추정 변이체를 지칭할 수 있다. 생물학적 변화는 관찰되거나 관찰되지 않을 수 있다(예를 들어, 알려지거나 알려지지 않음). 일부 실시양태에서, 추정 변이체는 문헌에 보고될 수 있지만 아직 생물학적으로 확인되지는 않았다.
대안적으로, 추정 변이체는 문헌에 보고되지 않을 수 있지만, 본원에 개시된 컴퓨터 분석에 기초하여 추론될 수 있다. 일부 실시양태에서, 생식계열 변이체는 자연적 또는 정상적인 변이를 유도하는 핵산을 의미할 수 있다.
자연적 또는 정상적인 변이에는 예를 들어 피부색, 머리 색깔, 및 정상 체중이 포함될 수 있다. 일부 실시양태에서, 체세포 돌연변이는 획득된 변이 또는 비정상적인 변이를 유도하는 핵산을 의미할 수 있다. 후천적 또는 비정상적인 변이에는 예를 들어 암, 비만, 병태, 증상, 질환, 및 장애가 포함될 수 있다. 일부 실시양태에서, 분석은 생식계열 변이체 사이에서 구별하는 것을 포함할 수 있다. 생식계열 변이체에는 예를 들어 개인적인 변이체 및 체세포 돌연변이가 포함될 수 있다. 일부 실시양태에서, 식별된 변이체는 의료 방법론, 진단의 정확성 및 비용 절감을 개선하기 위해 임상의 또는 다른 건강 전문가에 의해 사용될 수 있다.
또한, 증폭 및/또는 시퀀싱 기술, 체세포 돌연변이 및 생식세포 변이체를 통해 도입된 핵산의 서열 오류를 구별할 수 있는 개선된 방법 및 컴퓨팅 시스템 또는 소프트웨어 매체가 본원에 제공된다. 제공되는 방법에는 환자로부터 얻은 모든 샘플의 정렬된 시퀀싱 데이터로부터 변이체를 동시에 호출하고 점수를 매기는 단계가 포함될 수 있다.
환자 이외의 대상체로부터 얻은 샘플도 사용할 수 있다. 또한, 이전에 시퀀싱 분석 또는 표적 시퀀싱 분석(예를 들어, 표적 리시퀀싱 분석)으로 분석한 대상체로부터 다른 샘플을 수집할 수도 있다. 본원에 개시된 방법, 컴퓨팅 시스템, 또는 소프트웨어 매체는 변이 또는 돌연변이(예를 들어, 생식계열 또는 체세포 - 복제수 변이, 단일 뉴클레오티드 변이, 삽입결실, 유전자 융합을 포함함)의 식별 및 정확도를 개선하고, 위양성 및 위음성 식별 수를 감소시킴으로써 검출 한계를 낮출 수 있다.
C. 분류자 생성
일부 측면에서, 본 시스템 및 방법은 cfDNA의 생물학적 샘플의 메틸화 시퀀싱으로부터 유래된 특징 정보에 기초하여 생성된 분류자를 제공한다. 분류자는 cfDNA와 같은 생물학적 샘플에서 식별된 메틸화 서열 특징을 기반으로 집단 내 그룹을 구별하기 위한 예측 엔진의 일부를 형성할 수 있다.
일부 실시양태에서, 분류자는 메틸화 정보의 유사한 부분을 통일된 형식 및 통일된 규모로 포맷하여 메틸화 정보의 정규화하는 단계; 정규화된 메틸화 정보를 컬럼형 데이터베이스에 저장하는 단계; 저장된 정규화된 메틸화 정보에 하나 이상의 하나의 기계 학습 작업을 적용하여 특정 집단에 대해 하나 이상의 특징의 조합을 맵핑하는 메틸화 예측 엔진을 훈련하는 단계; 접근된 필드 정보에 메틸화 예측 엔진을 적용하여 그룹과 연관된 메틸화를 식별하는 단계; 및 개체를 그룹으로 분류하는 단계에 의해 생성된다.
특이도는 질환이 없는 사람들 사이에서 음성 테스트가 나올 확률로 정의될 수 있다. 특이도는 음성으로 테스트 무병자 수를 전체 무병자 수로 나눈 값과 같다.
다양한 실시양태에서, 모델, 분류자, 또는 예측 테스트는 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99%의 특이도를 갖는다.
민감도는 질환이 있는 사람들 사이에서 양성 테스트가 나올 확률로 정의될 수 있다. 민감도는 양성으로 테스트된 질환 개체 수를 전체 질환 개체 수로 나눈 값과 같다.
다양한 실시양태에서, 모델, 분류자, 또는 예측 테스트는 적어도 40%, 적어도 45%, 적어도 50%, 적어도 55%, 적어도 60%, 적어도 65%, 적어도 70%, 적어도 75%, 적어도 80%, 적어도 85%, 적어도 90%, 적어도 95%, 또는 적어도 99%의 민감도를 갖는다.
일부 실시양태에서, 그룹은 건강한(무증상), 염증성 장 질환, AA 또는 CRC이다.
D. 디지털 처리 장치
일부 실시양태에서, 디지털 처리 장치 또는 그의 용도가 본원에 기재된다. 일부 실시양태에서, 디지털 처리 장치는 장치의 기능을 수행하는 하나 이상의 하드웨어 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), 또는 텐서 처리 장치(TPU)를 포함할 수 있다. 일부 실시양태에서, 디지털 처리 장치는 실행 가능 명령어를 수행하도록 구성된 운영 체제를 포함할 수 있다. 일부 실시양태에서, 디지털 처리 장치는 선택적으로 컴퓨터 네트워크에 연결될 수 있다. 일부 실시양태에서, 디지털 처리 장치는 선택적으로 장치가 월드 와이드 웹(World Wide Web)에 액세스하도록 인터넷에 연결될 수 있다. 일부 실시양태에서, 디지털 처리 장치는 선택적으로 클라우드 컴퓨팅 인프라에 연결될 수 있다. 일부 실시양태에서, 디지털 처리 장치는 선택적으로 인트라넷에 연결될 수 있다. 일부 실시양태에서, 디지털 처리 장치는 선택적으로 데이터 저장 장치에 연결될 수 있다.
적합한 디지털 처리 장치의 비제한적인 예에는 서버 컴퓨터, 데스크톱 컴퓨터, 랩톱 컴퓨터, 노트북 컴퓨터, 서브노트북 컴퓨터, 넷북 컴퓨터, 넷패드 컴퓨터, 셋톱 컴퓨터, 휴대용 컴퓨터, 인터넷 기기, 모바일 스마트폰, 및 태블릿 컴퓨터가 포함된다. 적합한 태블릿 컴퓨터에는 예를 들어 부클렛, 슬레이트, 및 컨버터블 구성을 갖춘 것들이 포함될 수 있다.
일부 실시양태에서, 디지털 처리 장치는 실행 가능 명령어를 수행하도록 구성된 운영 체제를 포함할 수 있다. 예를 들어, 운영 체제에는 장치의 하드웨어를 관리하고 애플리케이션 실행을 위한 서비스를 제공하는 프로그램 및 데이터를 포함한 소프트웨어가 포함될 수 있다. 운영 체제의 비제한적인 예로는 Ubuntu, FreeBSD, OpenBSD, NetBSD®, Linux, Apple® Mac OS X Server®, Oracle® Solaris®, Windows Server®, 및 Novell® NetWare®이 포함된다. 적합한 개인용 컴퓨터 운영 체제의 비제한적인 예로는 Microsoft® Windows®, Apple® Mac OS X®, UNIX®, 및 GNU/Linux®와 같은 UNIX 유사 운영 체제가 포함된다. 일부 실시양태에서, 운영 체제는 클라우드 컴퓨팅에 의해 제공될 수 있고, 클라우드 컴퓨팅 리소스는 하나 이상의 서비스 제공자에 의해 제공될 수 있다.
일부 실시양태에서, 장치는 저장 장치 및/또는 메모리 장치를 포함할 수 있다. 저장 및/또는 메모리 장치는 임시적 또는 영구적으로 데이터나 프로그램을 저장하는 데 사용되는 하나 이상의 물리적 장치일 수 있다. 일부 실시양태에서, 장치는 휘발성 메모리일 수 있으며 저장된 정보를 유지하기 위해 전력이 필요할 수 있다. 일부 실시양태에서, 장치는 비휘발성 메모리일 수 있으며 디지털 처리 장치에 전원이 공급되지 않을 때 저장된 정보를 유지할 수 있다. 일부 실시양태에서, 비휘발성 메모리는 플래시 메모리를 포함할 수 있다. 일부 실시양태에서, 비휘발성 메모리는 동적 랜덤 액세스 메모리(DRAM)를 포함할 수 있다. 일부 실시양태에서, 비휘발성 메모리는 강유전성 랜덤 액세스 메모리(FRAM)를 포함할 수 있다. 일부 실시양태에서, 비휘발성 메모리는 상변화 랜덤 액세스 메모리(PRAM)를 포함할 수 있다. 일부 실시양태에서, 장치는 예를 들어 CD-ROM, DVD, 플래시 메모리 장치, 자기 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브, 및 클라우드 컴퓨팅 기반 저장소를 포함하는 저장 장치일 수 있다. 일부 실시양태에서, 저장 및/또는 메모리 장치는 본원에 개시된 것과 같은 장치들의 조합일 수 있다.
일부 실시양태에서, 디지털 처리 장치는 시각 정보를 사용자에게 전송하기 위한 디스플레이를 포함할 수 있다. 일부 실시양태에서, 디스플레이는 음극선관(CRT)일 수 있다. 일부 실시양태에서, 디스플레이는 액정 디스플레이(LCD)일 수 있다. 일부 실시양태에서, 디스플레이는 박막 트랜지스터 액정 디스플레이(TFT-LCD)일 수 있다. 일부 실시양태에서, 디스플레이는 유기 발광 다이오드(OLED) 디스플레이일 수 있다. 일부 실시양태에서, OLED 디스플레이는 수동 매트릭스 OLED(PMOLED) 또는 능동 매트릭스 OLED(AMOLED) 디스플레이일 수 있다. 일부 실시양태에서, 디스플레이는 플라즈마 디스플레이일 수 있다. 일부 실시양태에서, 디스플레이는 비디오 프로젝터일 수 있다. 일부 실시양태에서, 디스플레이는 본원에 개시된 것과 같은 장치들의 조합일 수 있다.
일부 실시양태에서, 디지털 처리 장치는 사용자로부터 정보를 수신하고 처리하는 입력 장치를 포함할 수 있다. 일부 실시양태에서, 입력 장치는 키보드일 수 있다. 일부 실시양태에서, 입력 장치는 예를 들어 마우스, 트랙볼, 트랙 패드, 조이스틱, 게임 컨트롤러 또는 스타일러스를 포함하는 포인팅 장치일 수 있다. 일부 실시양태에서, 입력 장치는 터치 스크린 또는 멀티 터치 스크린일 수 있다. 일부 실시양태에서, 입력 장치는 음성 또는 기타 사운드 입력을 캡처하는 마이크일 수 있다. 일부 실시양태에서, 입력 장치는 모션 또는 시각적 입력을 캡처하는 비디오 카메라일 수 있다. 일부 실시양태에서, 입력 장치는 본원에 개시된 것과 같은 장치들의 조합일 수 있다.
E. 비일시적 컴퓨터 판독 가능 저장 매체
일부 실시양태에서, 본원에 개시된 주제는 선택적으로 네트워크로 연결된 디지털 처리 장치의 운영 체제에 의해 실행 가능 명령어를 포함하는 프로그램으로 코딩된 하나 이상의 비일시적 컴퓨터 판독 가능 저장 매체를 포함할 수 있다. 일부 실시양태에서, 컴퓨터 판독 가능 저장 매체는 디지털 처리 장치의 유형 구성요소일 수 있다. 일부 실시양태에서, 컴퓨터 판독 가능 저장 매체는 선택적으로 디지털 처리 장치로부터 제거 가능하다. 일부 실시양태에서, 컴퓨터 판독 가능 저장 매체는 예를 들어 CD-ROM, DVD, 플래시 메모리 장치, 솔리드 스테이트 메모리, 자기 디스크 드라이브, 자기 테이프 드라이브, 광학 디스크 드라이브, 클라우드 컴퓨팅 시스템 및 서비스 등을 포함할 수 있다. 일부 실시양태에서, 프로그램 및 명령어를 매체에 영구적으로, 실질적으로 영구적으로, 반영구적으로, 또는 비일시적으로 코딩될 수 있다.
F. 컴퓨터 시스템
본 개시 내용은 본 개시 내용의 방법을 구현하도록 프로그래밍된 컴퓨터 시스템을 제공한다. [ 3]은 환자 데이터, 생물학적 데이터, 생물학적 서열, 또는 참조 서열을 저장, 처리, 식별, 또는 해석하도록 프로그래밍되거나 구성된 컴퓨터 시스템(101)을 도시한다. 컴퓨터 시스템(101)은 본 개시 내용의 환자 데이터, 생물학적 데이터, 생물학적 서열, 또는 참조 서열의 다양한 측면을 처리할 수 있다. 컴퓨터 시스템(101)은 사용자의 전자 장치일 수도 있고, 전자 장치에 대하여 원격 위치한 컴퓨터 시스템일 수도 있다. 전자 장치는 모바일 전자 장치일 수 있다.
컴퓨터 시스템(101)은 단일 코어 또는 멀티 코어 프로세서, 또는 병렬 처리를 위한 복수의 프로세서일 수 있는 중앙 처리 장치(CPU, 또한 "프로세서" 및 "컴퓨터 프로세서")(105)를 포함한다. 컴퓨터 시스템(101)은 또한 통신을 위한 메모리 또는 메모리 위치(110)(예를 들어, 랜덤 액세스 메모리, 읽기 전용 메모리, 플래시 메모리), 전자 저장 장치(115)(예를 들어, 하드 디스크), 하나 이상의 다른 시스템과 통신하기 위한 통신 인터페이스(120)(예를 들어, 네트워크 어댑터), 및 캐시, 기타 메모리, 데이터 저장 장치, 및/또는 전자 디스플레이 어댑터와 같은 주변 장치(125)를 포함한다. 메모리(110), 저장 장치(115), 인터페이스(120) 및 주변 장치(125)는 마더보드와 같은 통신 버스(실선)를 통해 CPU(105)와 통신한다. 저장 장치(115)는 데이터를 저장하기 위한 데이터 저장 장치(또는 데이터 저장소)일 수 있다. 컴퓨터 시스템(101)은 통신 인터페이스(120)의 도움으로 컴퓨터 네트워크("네트워크")(130)에 작동적으로 커플링될 수 있다. 네트워크(130)는 인터넷, 인터넷 및/또는 엑스트라넷, 또는 인터넷으로 통신하는 인트라넷 및/또는 엑스트라넷일 수 있다. 일부 실시양태에서 네트워크(130)는 통신 및/또는 데이터 네트워크이다. 네트워크(130)는 클라우드 컴퓨팅과 같은 분산 컴퓨팅을 가능하게 할 수 있는 하나 이상의 컴퓨터 서버를 포함할 수 있다. 일부 실시양태에서, 네트워크(130)는 컴퓨터 시스템(101)의 도움으로 컴퓨터 시스템(101)에 커플링된 장치가 클라이언트 또는 서버로서 동작할 수 있게 하는 피어 투 피어 네트워크를 구현할 수 있다.
CPU(105)는 프로그램이나 소프트웨어로 구현될 수 있는 일련의 기계 판독 가능 명령어를 실행할 수 있다. 명령어는 메모리(110)와 같은 메모리 위치에 저장될 수 있다. 명령어는 CPU(105)로 전달될 수 있으며, 이는 본 개시 내용의 방법을 구현하기 위해 후속적으로 CPU(105)를 프로그래밍하거나 구성할 수 있다. CPU(105)에 의해 수행되는 작업의 예로는 페치, 디코딩, 실행, 및 라이트백(writeback)이 포함될 수 있다.
CPU(105)는 집적 회로와 같은 회로의 일부일 수 있다. 시스템(101)의 하나 이상의 다른 구성요소가 회로에 포함될 수 있다. 일부 실시양태에서, 회로는 주문형 집적 회로(ASIC)이다.
저장 장치(115)는 파일, 예를 들어 드라이버, 라이브러리, 및 저장된 프로그램을 저장할 수 있다. 저장 장치(115)는 사용자 데이터, 예를 들어 사용자 선호도, 사용자 프로그램을 저장할 수 있다. 일부 실시양태에서, 컴퓨터 시스템(101)은 인트라넷 또는 인터넷을 통해 컴퓨터 시스템(101)과 통신하는 원격 서버에 위치하는 것과 같이 컴퓨터 시스템(101) 외부에 있는 하나 이상의 추가 데이터 저장 장치를 포함할 수 있다.
컴퓨터 시스템(101)은 네트워크(130)를 통해 하나 이상의 원격 컴퓨터 시스템과 통신할 수 있다. 예를 들어, 컴퓨터 시스템(101)은 사용자의 원격 컴퓨터 시스템과 통신할 수 있다. 원격 컴퓨터 시스템의 예로는 개인용 컴퓨터(예를 들어, 휴대용 PC), 슬레이트 또는 태블릿 PC(예를 들어, Apple® iPad, Samsung® Galaxy Tab), 전화기, 스마트폰(예를 들어, Apple® iPhone, Android 지원 장치, Blackberry®), 또는 개인용 디지털 단말기가 포함된다. 사용자는 네트워크(130)를 통해 컴퓨터 시스템(101)에 접속할 수 있다.
본원에 기재된 바와 같은 방법은 예를 들어 메모리(110) 또는 전자 저장 장치(115)와 같은 컴퓨터 시스템(101)의 전자 저장 위치에 저장된 기계(예를 들어, 컴퓨터 프로세서) 실행 가능 코드를 통해 구현될 수 있다. 기계 실행 가능 코드 또는 기계 판독 가능 코드는 소프트웨어 형태로 제공될 수 있다. 사용 중에, 코드는 프로세서(105)에 의해 실행될 수 있다. 일부 실시양태에서, 코드는 저장 장치(115)로부터 검색되어 프로세서(105)에 의한 즉시 액세스를 위해 메모리(110)에 저장될 수 있다. 일부 실시양태에서, 전자 저장 장치(115) 배제될 수 있으며, 기계 실행 가능 명령어는 메모리(110)에 저장된다.
코드는 코드를 실행하도록 적응된 프로세서를 갖는 기계와 함께 사용하기 위해 프리컴파일되고 구성될 수 있거나 런타임 동안 해석되거나 컴파일될 수 있다. 코드는 프리컴파일, 해석 또는 컴파일된 방식으로 코드를 실행할 수 있도록 선택할 수 있는 프로그래밍 언어로 제공될 수 있다.
컴퓨터 시스템(101)과 같이 본원에 제공된 시스템 및 방법의 측면은 프로그래밍으로 구현될 수 있다. 기술의 다양한 측면은 일반적으로 기계(또는 프로세서) 실행 가능 코드 및/또는 기계 판독 가능 매체 유형에 전달되거나 구현되는 관련 데이터 형태의 "제품" 또는 "제조품"으로 간주될 수 있다. 기계 실행 가능 코드는 메모리(예를 들어, 읽기 전용 메모리, 랜덤 액세스 메모리, 플래시 메모리) 또는 하드 디스크와 같은 전자 저장 장치에 저장될 수 있다.
III. 사용 방법
가. 질환의 검출 및 진단
본원에 제공된 방법 및 시스템은 인공 지능 기반 접근법을 사용하여 예측 분석을 수행하여 대상체(환자)로부터 획득한 데이터를 분석하여 암(예를 들어, CRC)에 걸린 대상체의 진단 결과를 생성할 수 있다. 예를 들어, 애플리케이션은 획득된 데이터에 예측 알고리즘을 적용하여 암에 걸린 대상체의 진단을 생성할 수 있다. 예측 알고리즘은 암에 걸린 대상체의 진단을 생성하기 위해 획득된 데이터를 처리하도록 구성된 기계 학습 기반 예측기와 같은 인공 지능 기반 예측기를 포함할 수 있다.
일부 실시양태에서, 본원에 기재된 생성물 또는 공정을 사용하여 검출 또는 평가되는 암에는 유방암, 난소암, 폐암, 결장암, 과형성 폴립, 선종, 결장직장암, 고도 이형성증, 저도 이형성증, 전립선 비대증, 전립선암, 흑색종, 췌장암, 뇌암(예컨대 교모세포종), 혈액 악성종양, 간세포암종, 자궁경부암, 자궁내막암, 두경부암, 식도암, 위장관 간질종양(GIST), 신장 세포 암종 (RCC) 또는 위암을 포함하지만 이에 제한되지는 않는다. 결장직장암은 CRC Dukes B 또는 Dukes C-D일 수 있다. 혈액 악성종양은 B 세포 만성 림프구성 백혈병, B 세포 림프종-DLBCL, B 세포 림프종-DLBCL-배중심형, B 세포 림프종-DLBCL-활성화 B 세포형, 및 버킷 림프종일 수 있다.
일부 실시양태에서, 본원에 기재된 생성물 또는 공정은 전암 병태, 예컨대 광선각화증, 위축성 위염, 구강백반증, 홍색형성증, 림프종양 육아종증, 전백혈병, 섬유증, 자궁 경부 이형성증(cervical dysplasia/uterine cervical dysplasia), 색소성 건피증, 바렛 식도, 결장직장 폴립, 또는 악성 종양으로 발전할 가능성이 있는 기타 비정상적 조직 성장 또는 병변을 검출 또는 평가하는 데 사용될 수 있다. HIV 및 HPV와 같은 형질전환 바이러스 감염도 방법에 따라 평가할 수 있는 표현형을 나타낸다.
본 방법에 의해 특성화되는 암은 제한 없이 암종, 육종, 림프종 또는 백혈병, 생식 세포 종양, 모세포종 또는 기타 암일 수 있다. 암종에는 상피 신생물, 편평 세포 신생물, 편평 세포 암종, 기저 세포 신생물, 기저 세포 암종, 이행 세포 유두종 및 암종, 선종 및 선암종(샘), 선종, 선암종, 증식 위벽염, 인슐린종, 글루카곤종, 가스트린종, 비포마, 담관암종, 간세포 암종, 선양 낭성 암종, 충수 카르시노이드 종양, 프로락틴종, 종양세포종, 허슬 세포 선종, 신장 세포 암종, 그라위츠 종양, 다발성 내분비 선종, 자궁내막양 선종, 부속기 및 피부 부속기 신생물, 점액표피양 신생물, 낭성, 점액성 및 장액성 신생물, 낭선종, 복막 가성점액종, 유관, 소엽 및 수질 신생물, 세엽 세포 신생물, 복합 상피 신생물, 와틴 종양, 흉선종, 특수 생식선 신생물, 성삭 간질 종양, 포막종, 과립막 세포 종양, 남성배세포종, 세르톨리-레이디그 세포 종양, 사구 종양, 부신경절종, 크롬친화세포종, 사구 종양, 모반 및 흑색종, 멜라닌세포 모반, 악성 흑색종, 흑색종, 결절성 흑색종, 이형성 모반, 악성 흑색점 흑색종, 표재 확산 흑색종, 및 악성 선단 흑자성 흑색종이 제한 없이 포함된다. 육종에는 아스킨 종양, 포도상 육종, 연골육종, 유잉 육종, 악성 혈관내피종, 악성 신경초종, 골육종, 연조직 육종(폐포 연부 육종, 혈관 육종, 엽상낭육종, 피부 섬유 육종, 데스모이드 종양, 결합조직형성 소원형세포 종양, 상피양 육종, 골외성 연골 육종, 골외성 골육종, 섬유 육종, 혈관주위 세포종, 혈관 육종, 카포시 육종, 평활근육종, 지방육종, 림프관육종, 림프육종, 악성 섬유성 조직구종, 신경섬유육종, 횡문근육종 및 윤활막육종 포함)이 제한 없이 포함된다. 림프종 및 백혈병에는 만성 림프구성 백혈병/소림프구성 림프종, B 세포 전림프구성 백혈병, 림프형질구성 림프종(예컨대, 발덴스트롬 마크로글로불린혈증), 비장 변연부 림프종, 형질세포 골수종, 형질세포종, 단클론성 면역글로불린 침착 질환, 중쇄 질환, 맥아 림프종으로도 불리는 결절외 변연부 B 세포 림프종, 결절 변연부 B 세포 림프종(nmzl), 여포성 림프종, 외투세포 림프종, 미만성 거대 B 세포 림프종, 종격동(흉선) 거대 B 세포 림프종, 혈관내 거대 B 세포 림프종, 원발성 삼출성 림프종, 버킷 림프종/백혈병, T 세포 전림프구성 백혈병, T 세포 거대 과립형 림프구성 백혈병, 공격성 NK 세포 백혈병, 성인 T 세포 백혈병/림프종, 림프절외 NK/T 세포 림프종, 비강형, 장질환형 T 세포 림프종, 간비장 T 세포 림프종, 모세포 NK 세포 림프종, 균상식육종/세자리 증후군, 원발성 피부 CD30 양성 T 세포 림프증식성 장애, 원발성 피부 역형성 대세포 림프종, 림프종모양 구진증, 혈관면역모구 T 세포 림프종, 말초 T 세포 림프종, 상세불명, 역형성 대세포 림프종, 고전적 호지킨 림프종(결절성 경화, 혼합 세포성, 림프구 풍부, 림프구 고갈 또는 비고갈), 및 결절성 림프구 우세형 호지킨 림프종이 제한 없이 포함된다. 생식 세포 종양에는 배아종, 미분화배아종, 정상피종, 비배아종 배세포 종양, 배아 암종, 내배엽동 종양, 융모암종, 기형종, 다배아종, 및 생식선모세포종이 제한 없이 포함된다. 모세포종에는 신모세포종, 수모세포종 및 망막모세포종이 제한 없이 포함된다. 기타 암에는 순측 암종, 후두 암종, 하인두 암종, 혀 암종, 타액선 암종, 위 암종, 선암종, 갑상선암(수질 및 유두 갑상선 암종), 신장 암종, 신장 실질 암종, 자궁경부 암종, 자궁체 암종, 자궁내막 암종, 융모막 암종, 고환 암종, 요로 암종, 흑색종, 뇌종양 예컨대 교모세포종, 성상세포종, 수막종, 수모세포종 및 말초 신경외배엽 종양, 담낭암종, 기관지 암종, 다발성 골수종, 기저세포종, 기형종, 망막모세포종, 맥락막 흑색종, 정상피종, 횡문근육종, 두개인두종, 골육종, 연골육종, 근육종, 지방육종, 섬유육종, 유잉 육종 및 형질세포종이 제한 없이 포함된다.
추가 실시양태에서, 분석 중인 암은 비소세포 폐암 및 소세포 폐암(소세포 암종(귀리 세포암), 혼합 소세포/대세포 암종, 및 복합 소세포암종)을 포함한 폐암, 결장암, 유방암, 전립선암, 간암, 췌장암, 뇌암, 신장암, 난소암, 위암, 피부암, 골암, 위암, 유방암, 췌장암, 신경교종, 교모세포종, 간세포 암종, 유두상 신장 암종, 두경부 편평 세포 암종, 백혈병, 림프종, 골수종, 또는 고형 종양일 수 있다.
추가 실시양태에서, 암은 급성 림프모구성 백혈병; 급성 골수성 백혈병; 부신피질 암종; AIDS 관련 암; AIDS 관련 림프종; 항문암; 맹장암; 성상세포종; 비정형 기형/간상 종양; 기저 세포 암종; 방광암; 뇌간 신경교종; 뇌종양(뇌간 신경교종, 중추 신경계 비정형 기형/간상 종양, 중추 신경계 배아 종양, 성상세포종, 두개인두종, 상의모세포종, 상의세포종, 수모세포종, 수질상피종, 중간 분화의 송과체 실질 종양, 천막상 원시 신경외배엽 종양 및 송과체모세포종 포함); 유방암; 기관지 종양; 버킷 림프종; 원발 부위 미상 암; 카르시노이드 종양; 원발 부위 미상 암종; 중추신경계 비정형 기형/간상 종양; 중추신경계 배아 종양; 자궁 경부암; 소아암; 척색종; 만성 림프구성 백혈병; 만성 골수성 백혈병; 만성 골수증식성 장애; 결장암; 결장직장암; 두개인두종; 피부 T 세포 림프종; 내분비 췌장 섬 세포 종양; 자궁내막암; 상의모세포종; 상의세포종; 식도암; 감각신경모세포종; 유잉 육종; 두개외 생식세포 종양; 생식선외 생식세포 종양; 간외 담관암; 담낭암; 위암(gastric/stomach cancer); 위장 카르시노이드 종양; 위장관 간질 세포 종양; 위장관 기질 종양(GIST); 임신성 영양막 종양; 신경교종; 털세포 백혈병; 두경부암; 심장암; 호지킨 림프종; 하인두암; 안내 흑색종; 섬 세포 종양; 카포시 육종; 신장암; 랑게르한스 세포 조직구증가증; 후두암; 입술암; 간암; 악성 섬유성 조직구종 골암; 수모세포종; 수질상피종; 흑색종; 메르켈 세포 암종; 메르켈 세포 피부 암종; 중피종; 원발성 잠복을 동반한 전이성 편평경부암; 구강암; 다발성 내분비 신생물 증후군; 다발성 골수종; 다발성 골수종/형질 세포 신생물; 균상 식육종; 골수이형성증후군; 골수증식성 신생물; 비강암; 비인두암; 신경 모세포종; 비호지킨 림프종; 비흑색종 피부암; 비소세포폐암; 구강암(oral cancer; oral cavity cancer); 구강인두암; 골육종; 기타 뇌 및 척수 종양; 난소암; 난소 상피암; 난소 생식세포 종양; 난소 저악성 잠재성 종양; 췌장암; 유두종증; 부비동암; 부갑상선암; 골반암; 음경암; 인두암; 중간 분화의 송과체 실질 종양; 송과체모세포종; 뇌하수체 종양; 형질세포 신생물/다발성 골수종; 흉막폐 모세포종; 원발성 중추신경계(CNS) 림프종; 원발성 간세포성 간암; 전립선암; 직장암; 신장암; 신장세포(신장)암; 신장세포암; 호흡기도암; 망막모세포종; 횡문근육종; 타액선암; 세자리 증후군; 소세포 폐암; 소장암; 연조직 육종; 편평 세포 암종; 편평경부암; 위암(stomach/gastric cancer); 천막상 원시 신경외배엽 종양; T 세포 림프종; 고환암; 인후암; 흉선암종; 흉선종; 갑상선암; 이행세포암; 신우 및 요관의 이행세포암; 영양막 종양; 요관암; 요도암; 자궁암; 자궁 육종; 질암; 외음부암; 발덴스트롬 마크로글로불린혈증; 또는 윌름 종양일 수 있다. 본 개시 내용의 방법은 이들 암 및 기타 암을 특성화하는데 사용될 수 있다. 따라서, 표현형을 특성화하는 것은 본원에 개시된 암 중 하나의 진단, 예후, 또는 테라노시스(theranosis)를 제공하는 것일 수 있다.
기계 학습 예측기는 데이터세트 예를 들어, 입력으로서 암에 걸린 환자의 하나 이상의 코호트 세트로부터 개체의 생물학적 샘플의 다중 분석물 분석을 수행함으로써 생성된 데이터 세트 및 기계 학습 예측기에 대한 출력으로서 대상체의 임상 진단(병기 결정 및/또는 종양 분획) 결과를 사용하여 훈련될 수 있다.
훈련 데이터 세트(예를 들어, 개체의 생물학적 샘플의 다중 분석물 분석을 수행하여 생성된 데이터 세트)는 예를 들어 공통 특성(특징)을 갖는 하나 이상의 대상체 세트 및 결과(표지)로부터 생성될 수 있다. 훈련 데이터 세트는 특징 세트 및 진단과 관련된 특징에 대응하는 표지 세트를 포함할 수 있다. 특징은 예를 들어 cfDNA 분석 측정의 특정 범위 또는 범주, 예컨대, 참조 게놈의 각 빈(게놈 창) 세트 내에 겹치거나 속하는 건강한 샘플과 질환 샘플로부터 얻은 생물학적 샘플의 cfDNA 단편 수와 같은 특성을 포함할 수 있다. 예를 들어, 주어진 시점에 주어진 대상체로부터 수집된 특징 세트는 주어진 시점에 대상체의 식별된 암을 나타낼 수 있는 진단 시그니처로 집합적으로 작용할 수 있다. 특성에는 대상체의 진단 결과, 예를 들어 하나 이상의 암에 대한 진단 결과를 나타내는 표지가 포함될 수도 있다.
표지는 예를 들어 대상체의 임상 진단(예를 들어, 병기 결정 및/또는 종양 분획) 결과와 같은 결과를 포함할 수 있다. 결과에는 대상체의 암과 관련된 특성이 포함될 수 있다. 예를 들어, 특성은 대상체가 하나 이상의 암에 걸렸음을 나타낼 수 있다.
훈련 세트(예를 들어, 훈련 데이터세트)는 하나 이상의 대상체 세트(예를 들어, 하나 이상의 암에 걸렸거나 걸리지 않은 환자의 회고적 및/또는 전향적 코호트)에 대응하는 데이터 세트의 무작위 샘플링에 의해 선택될 수 있다. 대안적으로, 훈련 세트(예를 들어, 훈련 데이터세트)는 하나 이상의 대상체 세트(예를 들어, 하나 이상의 암에 걸렸거나 걸리지 않은 환자의 회고적 및/또는 전향적 코호트)에 대응하는 데이터 세트의 비례 샘플링에 의해 선택될 수 있다. 훈련 세트는 하나 이상의 대상체 세트(예를 들어, 다른 임상 현장 또는 시험의 환자)에 대응하는 데이터 세트에 걸쳐 균형을 이룰 수 있다. 기계 학습 예측기는 진단 정확도 측정치에 대응하는 최소 원하는 값을 갖는 것과 같이 정확도 또는 성능에 대해 특정 사전 결정된 조건이 충족될 때까지 훈련될 수 있다. 예를 들어, 진단 정확도 측정치는 대상체의 하나 이상의 암의 진단, 병기 결정 또는 종양 분획의 예측에 대응할 수 있다.
진단 정확도 측정의 예에는 암(예를 들어, 결장직장암)을 검출하거나 예측하는 진단 정확도에 해당하는 민감도, 특이도, PPV, NPV, 정확도 및 ROC 곡선의 AUC가 포함될 수 있다.
또 다른 측면에서, 본 개시 내용은 대상체에서 암을 식별하는 방법을 제공하며, 이 방법은 (a) 상기 대상체로부터의 무세포 핵산(cfNA) 분자를 포함하는 생물학적 샘플을 제공하는 단계; (b) 상기 대상체로부터의 상기 cfNA 분자를 메틸화 시퀀싱하여 복수의 cfNA 시퀀싱 리드를 생성하는 단계; (c) 상기 복수의 cfNA 시퀀싱 리드를 참조 게놈에 정렬하는 단계; (d) 상기 참조 게놈의 제1 복수의 게놈 영역 각각에서 상기 복수의 cfNA 시퀀싱 리드의 정량적 측정값을 생성하여 제1 cfNA 특징 세트를 생성하는 단계로서, 상기 참조 게놈의 상기 제1 복수의 게놈 영역은 적어도 약 10개의 별개의 영역, 상기 적어도 약 10개의 별개의 영역 각각을 포함하는 것인 단계; 및 (e) 상기 제1 cfNA 특징 세트에 훈련된 알고리즘을 적용하여 상기 대상체가 상기 암에 걸릴 가능성을 생성하는 단계를 포함한다.
일부 실시양태에서, 방법은 질환 또는 세포 증식성 장애를 가질 위험이 있는 대상체로부터 사전 결정된 관심 영역(ROI)에서 측정된 히드록시메틸화 수준을 유사한 사전 결정된 ROI에 대해 정상 또는 건강한 대상체에서 측정된 히드록시메틸화 수준의 데이터베이스에 대해 비교하는 단계; 및 유사한 사전 결정된 ROI에 대해 정상 또는 건강한 대상체에서 측정된 히드록시메틸화 수준의 데이터베이스에서 정상 또는 건강한 대상체의 사전 결정된 ROI와 비교하여 대상체의 사전 결정된 ROI에서 차등적으로 히드록시메틸화된 핵산 단편을 정량화함으로써 대상체가 세포 증식성 장애를 가질 위험이 증가되었음을 결정하는 단계를 포함할 수 있다.
예를 들어, 이러한 사전 결정된 조건은 암(예를 들어, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 민감도가 예를 들어 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함하는 것일 수 있다.
또 다른 예로서, 이러한 사전 결정된 조건은 암(예를 들어, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 특이도가 예를 들어 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함하는 것일 수 있다.
또 다른 예로서, 이러한 사전 결정된 조건은 암(예를 들어, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 PPV가 예를 들어 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함하는 것일 수 있다.
또 다른 예로서, 이러한 사전 결정된 조건은 암(예를 들어, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 NPV가 예를 들어 적어도 약 50%, 적어도 약 55%, 적어도 약 60%, 적어도 약 65%, 적어도 약 70%, 적어도 약 75%, 적어도 약 80%, 적어도 약 85%, 적어도 약 90%, 적어도 약 95%, 적어도 약 96%, 적어도 약 97%, 적어도 약 98%, 또는 적어도 약 99%의 값을 포함하는 것일 수 있다.
또 다른 예로서, 이러한 사전 결정된 조건은 암(예를 들어, 결장직장암, 유방암, 췌장암, 또는 간암)을 예측하는 ROC 곡선의 AUC가 적어도 약 0.50, 적어도 약 0.55, 적어도 약 0.60, 적어도 약 0.65, 적어도 약 0.70, 적어도 약 0.75, 적어도 약 0.80, 적어도 약 0.85, 적어도 약 0.90, 적어도 약 0.95, 적어도 약 0.96, 적어도 약 0.97, 적어도 약 0.98, 또는 적어도 약 0.99의 값을 포함하는 것일 수 있다.
임의의 전술한 측면의 일부 예에서, 방법은 대상체에서 질환의 진행을 모니터링하는 단계를 추가로 포함하며, 여기서 모니터링은 유전자 서열 특징에 적어도 부분적으로 기초한다. 일부 예에서 질환은 암이다.
일부 실시양태에서, 본원에 기재된 방법은 환자 샘플에서 총 메틸화 신호에 대한 5-히드록시메틸화 신호의 기여도를 결정하는 데 유용하다. 총 메틸화 신호는 메틸화 검출을 위한 비설파이트 또는 효소 기반 라이브러리 제조를 포함한 다양한 시퀀싱 방법에서 유래될 수 있다. 진단의 민감도나 특이도에 부정적인 영향을 미치는 노이즈에 대한 5hmC의 기여도는 테스트 성능을 향상시키기 위해 총 메틸화 신호에서 제거될 수 있다.
일부 실시양태에서, 본원에 기재된 방법은 5hmC 검출에 유용하며 산화 비설파이트 시퀀싱(oxBS-seq)과 유사한 방식으로 사용될 수 있다. 5mC를 전환하지 않고 C, 5hmC, 5fC, 및 5caC 염기를 우라실로 전환하면 5mC만 검출할 수 있다. 총 메틸화 신호에서 5hmC 신호를 빼면 염기 분해능에서 "진정한 메틸" 신호를 얻을 수 있지만 더 낮은 DNA 입력량을 사용한다. 총 메틸화 신호에서 5hmC를 빼면 DNA의 "진정한 메틸" 또는 5mC 신호의 판독값을 제공한다. oxBS-seq는 5hmC에서 5fC로의 화학적 산화에 이어 높은 DNA 입력량이 필요한 비설파이트 전환을 수반할 수 있다.
일부 실시양태에서, 본원에 기재된 방법은 유전자 발현의 예측을 개선하기 위해 단독으로 또는 총 메틸화 신호와 조합하여 뉴클레오티드 분해능 5hmC를 분석하는 데 유용하다. 예측을 위한 특징에는 프로모터, 인핸서, UTR 및 유전자 본체와 같은 관련 게놈 특징에서 CpG 또는 단편 수준당 5hmC 수준 및 5hmC/5mC 비율이 포함될 수 있다.
일부 실시양태에서, 본원에 기재된 방법은 다양한 조직, 세포 유형 및 암 유형에서 뉴클레오티드 수준의 5hmC 시그니처를 수집하는 데 유용하며, 이로써 과거 5hmC 조직 지도의 분해능을 증가시킨다. 이러한 데이터 분석은 암 진단 및 예후를 위해 기원 조직의 보다 민감하고 구체적인 결정에 사용될 수 있다.
일부 실시양태에서, 본원에 기재된 방법은 암 치료에 대한 환자 반응에 대한 바이오마커 발견에 유용하다. cfDNA 내 5hmC 신호의 존재도 또는 조직 특이적 5hmC 신호의 존재는 하나 이상의 암 유형에 대한 치료 후 잔존 질환을 추적하는 데 사용될 수 있다.
일부 실시양태에서, 본원에 기재된 방법은 약물 치료에 반응하거나 적극적으로 반응할 가능성이 있는 환자, 약물에 대한 환자 반응의 유효성, 또는 치료로 인해 부작용이 발생할 위험이 있는 환자를 식별하기 위한 동반 진단 방법에 약물 표적 유전자에 대한 cfDNA 유래 5hmC 서열 데이터 정보를 사용할 수 있다.
실시예
실시예 1: 5hmC 함유 핵산의 분해능 개선을 위한 변형된 올리고뉴클레오티드 어댑터의 사용
본원에 기재된 방법은 환자 샘플 내 무세포 또는 게놈 DNA 분자로부터 뉴클레오티드 분해 5hmC 시퀀싱 라이브러리를 생성하는 데 사용할 수 있다. 게놈 전체 또는 표적화 영역에 대해 라이브러리를 생성할 수 있다. 5hmC DNA 변형 분석은 암 검출을 위한 바이오마커 발견, 기원 조직 결정, 암 예후, 및 동반 진단 개발을 포함하여 많은 적용분야를 가질 수 있다. 특징화된 히드록시메틸화 상태 데이터는 질환의 특징적인 바이오마커(하위 유형 계층화 포함)를 식별하거나 질환 검출을 위해 개별 샘플을 분류하는 데 유용한 기계 학습 모델을 훈련하기 위한 히드록시메틸화 프로파일링을 포함한 적용분야를 위한 입력으로 사용할 수 있다.
방법
5hmC 검출을 위한 효소적 히드록시메틸화 시퀀싱(EHM-seq) 방법은 다음 작업을 포함할 수 있다:
a. 5mC 어댑터의 효소적 산화 및 선택적으로 글루코실화;
b. 입력 DNA의 말단 제조;
c. 효소적으로 산화된 어댑터를 사용하여 입력 DNA에 대한 어댑터 결찰;
d. DNA 분자 내 C 및 5mC의 β-글루코실화 및 효소적 탈아미노화에 의한 5hmC 보호; 및
e. 전환된 입력 결찰 DNA의 시퀀싱.
A) 5mC 어댑터의 효소적 산화
어댑터에서 5mC의 효소적 산화는 먼저 5hmC로, 이어서 5fC로, 궁극적으로 5caC로 효소적으로 산화시키는 동시에 동일한 반응에서 5hmC를 5gmC로 글루코실화하는 단계를 포함할 수 있다. 이러한 방식으로, 5caC와 5gmC를 U로의 하류 전환으로부터 보호할 수 있다.
5mC 산화 및 5caC 및/또는 5gmC로의 글루코실화는 5hmC 검출을 위해 결찰된 DNA 분자에 적용할 수 있는 U로의 하류 효소적 전환으로부터 어댑터를 보호한다.
5mC 어댑터를 효소적으로 산화시키는 것에 대한 대안은 후속 어댑터 결찰 반응에 사용하기 위해 5hmC 함유 어댑터를 합성하는 것일 수 있다.
B) 입력 DNA의 말단 제조 및 A- 테일링
말단 복구는 3'-5' 엑소뉴클레아제 활성을 갖는 DNA 폴리머라제를 사용하여 5' 오버행을 채우고 3' 오버행을 제거하여 평활 말단 DNA를 생성한다. 그 후 A-테일링으로 단일 A 뉴클레오티드를 3' 말단에 부착하여 후속 고효율 T/A-결찰 작업을 가능하게 한다. 또는, 평활 말단 결찰을 사용하여 어댑터를 DNA 분자에 부착하는 경우 A-테일링 작업을 생략할 수 있다.
C) 어댑터 결찰 및 라이브러리 제조
효소적으로 산화된 어댑터를 최종 농도 1 μM의 샘플 DNA 분자와의 어댑터 결찰 반응에 첨가한다. 어댑터 결찰 후, 세정 작업을 수행하고 어댑터 결찰된 DNA 분자를 최종 부피로 용출시킨다.
D) 5hmC에서 5gmC로의 글루코실화에 의한 보호
결찰된 DNA를 글루코실화한다. 글루코실화 후, 세정 작업을 수행하고 글루코실화된 어댑터 결찰된 DNA 분자를 최종 부피로 용출시킨다.
세정된 β-GT 보호된 DNA를 변성시킨 후 즉시 얼음 위에서 인큐베이션한다. 변성된 DNA는 APOBEC 반응 조건을 거쳐 효소적 전환을 완료한다.
그 후 전환된 DNA를 PCR 증폭시킬 수 있고 표적 농축 및/또는 시퀀싱에 적용할 수 있다.
히드록시메틸화 분석/ 특징화
5hmC는 인핸서, 프로모터, 및 유전자 본체를 포함하는 게놈의 유전자 영역에서 우선적으로 나타난다. 본원에 기재된 방법에 의해 생성된 데이터의 유용한 특징화를 사용하여 평균 히드록시메틸화 수준(유전자 본체와 중복되어 검출된 히드록시메틸화 CpG의 수 나누기 유전자 본체와 중복되는 CpG의 총수)과 같은 유전자 본체에 걸친 총 5hmC 메트릭을 계산한다. 이 메트릭의 한 가지 가능한 적용 분야는 샘플의 질환 상태를 분류하는 것이다.
포유동물 게놈에서 시토신 메틸화 및 히드록시메틸화의 분석은 전통적으로 CpG 맥락에서 시토신의 메틸화에 초점을 맞추었는데, 이는 CpG 메틸화가 포유동물에서 시토신 메틸화의 대다수를 구성하기 때문이다. 그러나 CpG가 아닌 메틸화, 즉 CH 메틸화는 생물학적으로 기능적일 수 있다. 핵산 서열의 히드록시메틸 상태는 유전자 본체에 걸친 평균 CH 히드록시메틸화 수준을 포함하도록 특징화될 수 있다. 일단 특징화되면, 히드록시메틸화 상태 데이터는 질환의 특징적인 바이오마커(하위 유형 계층화 포함)를 식별하거나 질환 검출을 위해 개별 샘플을 분류하는 데 유용한 기계 학습 모델을 훈련하기 위한 히드록시메틸화 프로파일링을 포함한 적용분야를 위해 처리될 수 있다.

Claims (72)

  1. a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
    b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
    c) 결찰된 핵산 또는 이의 유도체 중 적어도 일부를, 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키지만 히드록시메틸화 시토신 뉴클레오티드는 우라실 뉴클레오티드로 전환시키지 않는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계; 및
    d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계
    를 포함하는, 생물학적 샘플 내 핵산의 히드록시메틸화 상태 데이터를 제공하는 방법.
  2. 제1항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 방법.
  3. 제1항에 있어서, b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 β-글루코실트랜스퍼라제(β-GT)/UDP-글루코오스에 의해 글루코실화하여 5hmC 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함하는 방법.
  4. 제1항에 있어서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 이들의 조합을 포함하는 것인 방법.
  5. 제1항에 있어서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드를 포함하는 것인 방법.
  6. 제1항에 있어서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 방법.
  7. 제1항에 있어서, 전환 조건은 β-GT, 시토신 디옥시게나제 효소, 카르복시메틸트랜스퍼라제, 아포지질단백질 B mRNA 편집 촉매 폴리펩티드 유사 단백질(AID/APOBEC), 또는 이들의 조합에 의한 처리를 포함하는 것인 방법.
  8. 제7항에 있어서, 시토신 디옥시게나제 효소는 텐일레븐 전위 단백질 1(TET1), 텐일레븐 전위 단백질 2(TET2), 텐일레븐 전위 단백질 3(TET3), 또는 이들의 기능적 변이체를 포함하는 것인 방법.
  9. 제1항에 있어서, b) 후에 또는 c) 전에 서열 농축을 수행하는 단계를 추가로 포함하는 방법.
  10. 제9항에 있어서, 서열 농축은 표적 포획 혼성화를 포함하는 것인 방법.
  11. 제1항에 있어서, 결찰된 핵산 중 적어도 일부를 시퀀싱 전에 증폭시키는 것인 방법.
  12. 제1항에 있어서, 5hmC 포스포라미다이트를 사용하여 올리고뉴클레오티드 어댑터를 화학적으로 합성하는 것인 방법.
  13. 제1항에 있어서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드 및 5caC 뉴클레오티드를 포함하며, 올리고뉴클레오티드 어댑터는 적어도 부분적으로 포스포라미다이트 화학을 사용하여 5mC 함유 올리고뉴클레오티드를 합성하고 5mC 함유 올리고뉴클레오티드를 TET 효소 및 β-GT/UDP-글루코오스로 효소적으로 처리하여 생성되는 것인 방법.
  14. a) 적어도 부분적으로 포스포라미다이트 화학에 의해 5mC 함유 올리고뉴클레오티드를 합성하는 단계; 및
    b) 5mC 함유 올리고뉴클레오티드를 TET 효소 및 β-GT/UDP-글루코오스와 접촉시켜 5mC 뉴클레오티드를 5gmC 뉴클레오티드 또는 5caC 뉴클레오티드로 전환시켜 올리고뉴클레오티드 어댑터를 생성하는 단계
    를 포함하는, 올리고뉴클레오티드 어댑터를 생성하는 방법.
  15. 제14항에 있어서, 말단 데옥시뉴클레오티딜 트랜스퍼라제(TdT) 매개 효소적 올리고뉴클레오티드 합성을 사용하여 올리고뉴클레오티드 어댑터를 합성하는 것인 방법.
  16. 제14항에 있어서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드 및 5caC 뉴클레오티드를 포함하는 것인 방법.
  17. 제14항에 있어서, SAM 의존성 C5-메틸트랜스퍼라제(C5-MT) 또는 다른 DNA 시토신-5 메틸트랜스퍼라제를 사용하여 5mC 함유 올리고뉴클레오티드의 비메틸화 시토신 뉴클레오티드를 메틸화하는 단계를 추가로 포함하는 방법.
  18. 제14항에 있어서, 생물학적 샘플로부터 단리된 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시키는 단계를 추가로 포함하는 방법.
  19. 적어도 부분적으로 포스포라미다이트 화학에 의해 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 함유하는 올리고뉴클레오티드를 합성하여 올리고뉴클레오티드 어댑터를 생성하는 단계
    를 포함하는, 올리고뉴클레오티드 어댑터를 생성하는 방법.
  20. 제19항에 있어서, 효소적 올리고뉴클레오티드 합성 기술을 사용하여 올리고뉴클레오티드 어댑터를 합성하는 것인 방법.
  21. 제19항에 있어서, 생물학적 샘플로부터 단리된 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시키는 단계를 추가로 포함하는 방법.
  22. a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
    b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
    c) 결찰된 핵산 중 적어도 일부를, 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
    d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
    e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 히드록시메틸화 프로파일을 생성하는 단계
    를 포함하는, 기계 학습 모델을 훈련하여 생물학적 샘플 내 핵산에 대한 히드록시메틸화 프로파일을 생성하는 방법.
  23. 제22항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 방법.
  24. 제22항에 있어서, b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 5hmC 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함하는 방법.
  25. 제22항에 있어서, 생물학적 샘플은 무세포 DNA(cfDNA)를 포함하는 것인 방법.
  26. a) cfDNA를 함유하는 생물학적 샘플을 얻는 단계;
    b) 생물학적 샘플 내 cfDNA 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 cfDNA를 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
    c) 결찰된 cfDNA 또는 이의 유도체 중 적어도 일부를, 결찰된 cfDNA 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 cfDNA를 생성하는 단계;
    d) 전환된 cfDNA 중 적어도 일부를 시퀀싱하여 전환된 cfDNA의 핵산 서열을 얻어 cfDNA의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
    e) 전환된 cfDNA의 핵산 서열을 참조 핵산 서열에 정렬하여 생물학적 샘플의 히드록시메틸화 프로파일을 결정하는 단계
    를 포함하는, 개체로부터 얻거나 유래된 생물학적 샘플 내 cfDNA의 히드록시메틸화 프로파일을 결정하는 방법.
  27. 제26항에 있어서, 시퀀싱 전에 결찰된 cfDNA의 적어도 일부를 증폭시키는 단계를 추가로 포함하는 방법.
  28. 제27항에 있어서, 증폭 전에 핵산 시퀀싱 라이브러리를 제조하는 단계를 추가로 포함하는 방법.
  29. 제26항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 방법.
  30. 제26항에 있어서, b) 후에 또는 c) 전에 결찰된 cfDNA 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함하는 방법.
  31. 제26항에 있어서, 히드록시메틸화 프로파일은 비정상적 세포 상태 또는 질환과 연관되며 개체를 비정상적 세포 상태 또는 질환을 갖는 것으로 분류하는 것인 방법.
  32. 제31항에 있어서, 비정상적 세포 상태 또는 질환은 1기 암, 2기 암, 3기 암, 또는 4기 암인 방법.
  33. 제26항에 있어서, 올리고뉴클레오티드 어댑터는 고유한 분자 식별자를 포함하는 것인 방법.
  34. 제26항에 있어서, 전환 조건은 화학적 방법, 효소적 방법, 또는 이들의 조합의 사용을 포함하는 것인 방법.
  35. 제26항에 있어서, 전환 조건은 비설파이트, 아황산 수소염, 디설파이트, 또는 이들의 조합에 의한 처리를 포함하는 것인 방법.
  36. 제26항에 있어서, 생물학적 샘플은 체액, 대변, 결장 유출물, 소변, 뇌척수액, 혈장, 혈청, 전혈, 단리된 혈액 세포, 혈액으로부터 단리된 세포, 및 이들의 조합으로 이루어진 군으로부터 선택되는 것인 방법.
  37. a) 핵산을 함유하는 생물학적 샘플을 얻는 단계;
    b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
    c) 결찰된 핵산 중 적어도 일부를, 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
    d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
    e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 분류자를 생성하는 단계
    를 포함하는, 생물학적 샘플에 대한 분류자를 생성하는 방법.
  38. 제37항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 방법.
  39. 제37항에 있어서, c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함하는 방법.
  40. a) 핵산을 함유하는 생물학적 샘플을 얻는 단계,
    b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하고, 시토신 뉴클레오티드를 포함하지 않는 것인 단계;
    c) 결찰된 핵산 중 적어도 일부를, 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
    d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
    e) 히드록시메틸화 상태 데이터를 사용하여 기계 학습 모델을 훈련하여 분류자를 생성하는 단계
    를 포함하는, 개체로부터 얻거나 유래된 생물학적 샘플에 대한 분류자를 생성하는 방법.
  41. a) 대상체로부터 핵산을 함유하는 생물학적 샘플을 얻는 단계;
    b) 생물학적 샘플 내 핵산 중 적어도 일부에 올리고뉴클레오티드 어댑터를 결찰시켜 결찰된 핵산을 생성하는 단계로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 단계;
    c) 결찰된 핵산 중 적어도 일부를, 결찰된 핵산 중 비메틸화 및 메틸화 시토신 뉴클레오티드를 우라실 뉴클레오티드로 전환시키는 전환 조건에 적용하여 전환된 핵산을 생성하는 단계;
    d) 전환된 핵산 중 적어도 일부를 시퀀싱하여 전환된 핵산의 핵산 서열을 얻어 핵산의 히드록시메틸화 상태 데이터를 제공하는 단계; 및
    e) 건강한 대상체와 세포 증식성 장애가 있는 대상체를 구별할 수 있도록 훈련된 기계 학습 모델을 사용하여 히드록시메틸화 상태 데이터를 처리하여 세포 증식성 장애의 존재 또는 감수성과 연관된 출력값을 제공함으로써 대상체에서 세포 증식성 장애의 존재 또는 감수성을 나타내는 단계
    를 포함하는, 대상체에서 세포 증식성 장애를 검출하는 방법.
  42. 제41항에 있어서, 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 방법.
  43. 제41항에 있어서, b) 후에 또는 c) 전에 결찰된 핵산 중 적어도 일부를 적어도 부분적으로 β-GT/UDP-글루코오스에 의해 글루코실화하여 히드록시메틸화 시토신 뉴클레오티드를 5gmC 뉴클레오티드로 전환시키는 단계를 추가로 포함하는 방법.
  44. 제41항에 있어서, 세포 증식성 장애는 결장직장암, 유방암, 난소암, 전립선암, 폐암, 췌장암, 자궁암, 간암, 식도암, 위암, 갑상선암, 또는 방광암을 포함하는 것인 방법.
  45. 제41항에 있어서, 기계 학습 모델은 사전 선택된 민감도 및 특이도로 세포 증식성 장애를 검출하도록 맞춰지는 것인 방법.
  46. 제41항에 있어서, 기계 학습 모델은 적어도 약 80%의 민감도로 세포 증식성 장애의 존재 또는 감수성을 분류하는 것인 방법.
  47. 제41항에 있어서, 전환 조건은 비설파이트 처리, 효소적 처리, 또는 이들의 조합을 포함하는 것인 방법.
  48. 제41항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드 대신에 5hmC 뉴클레오티드를 포함하는 것인 방법.
  49. 제41항에 있어서, 올리고뉴클레오티드 어댑터는 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 방법.
  50. 제41항에 있어서, 전환 조건은 β-GT, 시토신 디옥시게나제 효소, 카르복시메틸트랜스퍼라제, AID/APOBEC, 또는 이들의 조합에 의한 처리를 포함하는 것인 방법.
  51. 제50항에 있어서, 시토신 디옥시게나제 효소는 TET1, TET2, TET3, 또는 이들의 기능적 변이체를 포함하는 것인 방법.
  52. 제41항에 있어서, a) 후에 또는 b) 전에 올리고뉴클레오티드 어댑터를 TET 효소로 처리하는 단계를 추가로 포함하는 방법.
  53. 제41항에 있어서, b) 후에 또는 c) 전에 서열 농축을 수행하는 단계를 추가로 포함하는 방법.
  54. 제53항에 있어서, 서열 농축은 표적 포획 혼성화를 포함하는 것인 방법.
  55. 제41항에 있어서, 시퀀싱 전에 결찰된 핵산 중 적어도 일부를 증폭시키는 단계를 추가로 포함하는 방법.
  56. 제41항에 있어서, 핵산 서열을 참조 게놈에 정렬하는 단계를 추가로 포함하는 방법.
  57. 제41항에 있어서, 히드록시메틸화 상태 데이터를 특징화하는 단계, 및 사전 지정된 또는 사전 선택된 생물학적 특성에 따라 생물학적 샘플을 그룹으로 분류하도록 훈련된 기계 학습 모델을 사용하여 특징화된 히드록시메틸화 상태 데이터를 처리하는 단계를 추가로 포함하는 방법.
  58. 제41항에 있어서, 특징화된 히드록시메틸화 상태 데이터는 생물학적 샘플 내 핵산 서열의 특성에 대응하는 것인 방법.
  59. 제58항에 있어서, 핵산 서열의 특성은 대상체에서 전암, 암 또는 암의 병기의 존재 또는 부재, 또는 암의 예후로부터 선택되는 것인 방법.
  60. 이전에 질환 치료를 받은 대상체에서 최소 잔존 질환을 모니터링하는 방법으로서, 기준선 히드록시메틸화 상태로서 히드록시메틸화 프로파일을 결정하는 단계, 및 추가로 하나 이상의 사전 결정된 시점 각각에서 히드록시메틸화 프로파일을 결정하는 단계를 포함하며, 기준선 히드록시메틸화 상태로부터 히드록시메틸화 프로파일의 변화는 대상체의 기준선 히드록시메틸화 상태에서 최소 잔존 질환 상태의 변화를 나타내는 것인 방법.
  61. 제60항에 있어서, 최소 잔존 질환을 치료에 대한 반응, 종양 부하, 수술 후 잔존 종양, 재발, 2차 선별검사, 1차 선별검사, 또는 암 진행으로 나타내는 것인 방법.
  62. 제60항에 있어서, 치료에 대한 대상체의 반응을 결정하는 단계를 추가로 포함하는 방법.
  63. 제60항에 있어서, 대상체에서 종양 부하를 모니터링하는 단계를 추가로 포함하는 방법.
  64. 제60항에 있어서, 수술 후 대상체에서 잔존 종양을 검출하는 단계를 추가로 포함하는 방법.
  65. 제60항에 있어서, 대상체의 재발을 검출하는 단계를 추가로 포함하는 방법.
  66. 제60항에 있어서, 대상체에 대한 2차 선별검사로서 수행되는 방법.
  67. 제60항에 있어서, 대상체에 대한 1차 선별검사로서 수행되는 방법.
  68. 제60항에 있어서, 대상체에서 암 진행을 모니터링하는 단계를 추가로 포함하는 방법.
  69. 하나 이상의 프로세서에 의해 실행될 때, 생물학적 샘플 내 핵산에 결찰되는 올리고뉴클레오티드 어댑터를 사용하여 생성된 핵산 라이브러리로부터 얻은 히드록시메틸화 상태 데이터에 기초하여 대상체를 세포 증식성 장애를 갖는 것으로 또는 세포 증식성 장애를 갖지 않는 것으로 분류하기 위한 분류자를 구현하도록 작동 가능한, 저장된 명령어를 포함하는 비일시적 컴퓨터 판독 가능 매체로서, 올리고뉴클레오티드 어댑터는 5hmC 뉴클레오티드, 5gmC 뉴클레오티드, 5caC 뉴클레오티드, 5cxmC 뉴클레오티드, 또는 이들의 조합을 포함하는 것인 비일시적 컴퓨터 판독 가능 매체.
  70. 제69항에 있어서, 올리고뉴클레오티드 어댑터는 올리고뉴클레오티드 어댑터의 플로우 셀 결합 영역 또는 프라이머 결합 부위에 시토신 뉴클레오티드를 포함하지 않는 것인 비일시적 컴퓨터 판독 가능 매체.
  71. 제69항에 있어서, 세포 증식성 장애를 검출하기 위한 분류자는 세포 증식성 장애의 기원 조직을 결정하도록 추가로 구성되는 것인 비일시적 컴퓨터 판독 가능 매체.
  72. 제69항에 있어서, 분류자는 훈련 생물학적 샘플로부터 얻은 훈련 벡터를 사용하여 훈련되고, 훈련 생물학적 샘플의 제1 하위세트는 세포 증식성 장애를 갖는 것으로 식별되고, 훈련 생물학적 샘플의 제2 하위세트는 세포 증식성 장애를 갖지 않는 것으로 식별되는 것인 비일시적 컴퓨터 판독 가능 매체.
KR1020247005663A 2021-07-20 2022-07-19 핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법 KR20240036638A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163223661P 2021-07-20 2021-07-20
US63/223,661 2021-07-20
PCT/US2022/037557 WO2023003851A1 (en) 2021-07-20 2022-07-19 Compositions and methods for improved 5-hydroxymethylated cytosine resolution in nucleic acid sequencing

Publications (1)

Publication Number Publication Date
KR20240036638A true KR20240036638A (ko) 2024-03-20

Family

ID=84979544

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020247005663A KR20240036638A (ko) 2021-07-20 2022-07-19 핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법

Country Status (4)

Country Link
KR (1) KR20240036638A (ko)
AU (1) AU2022313872A1 (ko)
CA (1) CA3226127A1 (ko)
WO (1) WO2023003851A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019060716A1 (en) 2017-09-25 2019-03-28 Freenome Holdings, Inc. SAMPLE EXTRACTION METHODS AND SYSTEMS
CN116287166A (zh) * 2023-04-19 2023-06-23 纳昂达(南京)生物科技有限公司 甲基化测序接头及其应用

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011127136A1 (en) * 2010-04-06 2011-10-13 University Of Chicago Composition and methods related to modification of 5-hydroxymethylcytosine (5-hmc)
US9309556B2 (en) * 2010-09-24 2016-04-12 The Board Of Trustees Of The Leland Stanford Junior University Direct capture, amplification and sequencing of target DNA using immobilized primers
PL2737085T3 (pl) * 2011-07-29 2017-06-30 Cambridge Epigenetix Limited Sposoby wykrywania modyfikacji nukleotydów
JP6224689B2 (ja) * 2012-03-15 2017-11-01 ニユー・イングランド・バイオレイブス・インコーポレイテツド シトシンとこれの修飾物とを識別するための、およびメチローム分析のための方法および組成物
WO2016164363A1 (en) * 2015-04-06 2016-10-13 The Regents Of The University Of California Methods for determing base locations in a polynucleotide

Also Published As

Publication number Publication date
AU2022313872A1 (en) 2024-02-22
CA3226127A1 (en) 2023-01-26
WO2023003851A1 (en) 2023-01-26

Similar Documents

Publication Publication Date Title
Li Modern epigenetics methods in biological research
US20230323446A1 (en) Methods and systems for high-depth sequencing of methylated nucleic acid
US10718010B2 (en) Noninvasive diagnostics by sequencing 5-hydroxymethylated cell-free DNA
KR20240036638A (ko) 핵산 시퀀싱에서 개선된 5-히드록시메틸화 시토신 분해능을 위한 조성물 및 방법
US20230101485A1 (en) Methods and systems for detecting colorectal cancer via nucleic acid methylation analysis
US20210108274A1 (en) Pancreatic ductal adenocarcinoma evaluation using cell-free dna hydroxymethylation profile
US20220136037A1 (en) Methods of predicting age, and identifying and treating conditions associated with aging
US20230178181A1 (en) Methods and systems for detecting cancer via nucleic acid methylation analysis
EP3853383A1 (en) Cell-free dna hydroxymethylation profiles in the evaluation of pancreatic lesions
KR20240046525A (ko) 세포-유리 dna에 대한 tet-보조 피리딘 보란 시퀀싱과 관련된 조성물 및 방법
WO2023183468A2 (en) Tcr/bcr profiling for cell-free nucleic acid detection of cancer