KR20240034650A - 다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치 - Google Patents

다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치 Download PDF

Info

Publication number
KR20240034650A
KR20240034650A KR1020230111504A KR20230111504A KR20240034650A KR 20240034650 A KR20240034650 A KR 20240034650A KR 1020230111504 A KR1020230111504 A KR 1020230111504A KR 20230111504 A KR20230111504 A KR 20230111504A KR 20240034650 A KR20240034650 A KR 20240034650A
Authority
KR
South Korea
Prior art keywords
prime
pegrna
target
efficiency
editing efficiency
Prior art date
Application number
KR1020230111504A
Other languages
English (en)
Inventor
김형범
유구상
김희권
박진만
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to PCT/KR2023/012794 priority Critical patent/WO2024053921A1/ko
Publication of KR20240034650A publication Critical patent/KR20240034650A/ko

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6811Selection methods for production or design of target specific oligonucleotides or binding molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • G16B15/30Drug targeting using structural data; Docking or binding prediction
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B45/00ICT specially adapted for bioinformatics-related data visualisation, e.g. displaying of maps or networks
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • G16B50/40Encryption of genetic data
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/165Mathematical modelling, e.g. logarithm, ratio

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Organic Chemistry (AREA)
  • Medical Informatics (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Zoology (AREA)
  • Evolutionary Biology (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Microbiology (AREA)
  • Library & Information Science (AREA)
  • Databases & Information Systems (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Plant Pathology (AREA)
  • Analytical Chemistry (AREA)
  • Epidemiology (AREA)
  • Public Health (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Immunology (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

다양한 세포 유형 및 다양한 프라임에디터 종류에 대한 pegRNA의 프라임에디팅 효율 예측 모델의 학습 방법, 상기 방법에 의해 학습된 프라임에디팅 효율 예측 모델을 이용한 프라임에디팅 효율 예측 방법 및 장치를 제공한다. 또한, 비표적 프라임에디팅 효율 예측 모델의 학습 방법, 상기 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델을 이용한 비표적 프라임에디팅 효율 예측 방법 및 장치를 제공한다.

Description

다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치{Method and apparatus for predicting prime editing efficiency of diverse prime editors in various cell types}
다양한 세포 유형 및 다양한 프라임에디터 종류에 대한 프라임에디팅 효율 예측 모델의 학습 방법, 상기 방법에 의해 학습된 프라임에디팅 효율 예측 모델을 이용한 프라임에디팅 효율 예측 방법 및 장치에 관한 것이다. 또한, 비표적 프라임에디팅 효율 예측 모델의 학습 방법, 상기 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델을 이용한 비표적 프라임에디팅 효율 예측 방법 및 장치에 관한 것이다.
프라임에디팅(Prime editing)을 통해서 12개의 모든 가능한 점 돌연변이, 작은 삽입 및 결실(인델), 그리고 이러한 변화들의 조합을 유전체 DNA에 도입할 수 있다 (Anzalone, A.V. et al., 2019).
프라임에디터(Prime editor, PE)는 Cas9 nickase-reverse transcriptase (RT)의 융합 단백질과 프라임에디팅 가이드 RNA(prime editing guide RNA, pegRNA)로 구성된다. pegRNA는 가이드 서열, tracrRNA 스캐폴드, 역전사 주형(reverse transcription template, RTT) 및 프라이머 결합 부위(primer binding site, PBS)를 포함한다. PE1, PE2, PE3, PE4 및 PE5를 포함하여, 여러 개의 프라임에디터들이 보고되었다(Anzalone et al., 2019; Chen et al., 2021). 널리 사용되는 프라임에디터인 PE2는 PE1의 보다 효율적인 버전이다. PE3은 PE2와 추가적인 단일 가이드 RNA(single guide RNA, sgRNA)로 구성된다. PE3은 종종 의도된 편집의 효율이 더 높고, PE2보다 더 높은 수준의 의도하지 않은 인델(indel)을 유도한다. PE4 및 PE5는 MMR(mismatch repair) 시스템을 억제하는 MLH1dn(MLH1의 우성 음성(dominant negative) 형태)을 각각 PE2 및 PE3과 결합하여 효율과 정밀도를 높임으로써 생성한 것이다. PE2max, PE3max, PE4max 및 PE5max는 각각 PE2, PE3, PE4 및 PE5의 개선된 버전이다(Chen et al., 2021).
효율적인 프라임에디팅을 위해 pegRNA를 설계하는 것은 어려운 일이다. 하나의 의도된 편집을 위해 수백 또는 수천 개의 pegRNA를 설계할 수 있으며, 가장 효율적인 버전을 선택하기 위해서는 종종 광범위한 실험이 필요하다.
Anzalone, A.V. et al. (2019). Search-and-replace genome editing without double-strand breaks or donor DNA. Nature 576, 149-157. Chen et al. (2021). Enhanced prime editing systems by manipulating cellular determinants of editing outcomes. Cell 184, 5635-5652.e5629.
프라임에디팅의 적용은 효율의 부족으로 인해 제한되는 경우가 많으며, 다양한 실험 조건에서 원하는 편집을 생성하기 위해 가장 효율적인 pegRNA 및 프라임에디터를 결정하는 데에는 상당한 시간과 자원이 요구될 수 있다. 여기에서, 본 발명자들은 3,979개의 epegRNA와 표적 서열을 포함하여 총 338,996쌍의 pegRNA에 대한 프라임에디팅 효율을 무오류 방식으로 평가하였다. 이러한 데이터 세트를 통해, 프라임에디팅 효율에 영향을 미치는 요인들을 체계적으로 결정할 수 있었다. 그런 다음, DeepPrime 및 DeepPrime-FT라는 계산 모델을 개발하였는데, 이 모델들은 최대 3개의 염기쌍에 대해 가능한 모든 편집 유형에 대한 7가지 세포 유형에서 8가지 프라임에디팅 시스템에 대하여 프라임에디팅 효율을 예측할 수 있다.
본 발명자들은 또한 일치하지 않는 표적에서 프라임에디팅 효율을 광범위하게 프로파일링하고, 그러한 표적에서의 편집 효율을 예측하는 계산 모델을 개발했다.
프라임에디팅 효율 결정 요인에 대해 향상된 우리의 지식과 더불어, 이러한 계산 모델들은 프라임에디팅 응용을 크게 촉진할 것이다.
일 양상은 프라임에디팅 효율 예측 모델의 학습 방법을 제공하는 것이다.
다른 양상은 프라임에디팅 효율 예측 방법을 제공하는 것이다.
다른 양상은 프라임에디팅 효율 예측 장치를 제공하는 것이다.
다른 양상은 프라임에디팅 효율 예측 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공하는 것이다.
다른 양상은 비표적 프라임에디팅 효율 예측 모델의 학습 방법을 제공하는 것이다.
다른 양상은 비표적 프라임에디팅 효율 예측 방법을 제공하는 것이다.
다른 양상은 비표적 프라임에디팅 효율 예측 장치를 제공하는 것이다.
다른 양상은 비표적 프라임에디팅 효율 예측 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공하는 것이다.
일 양상은 프라임에디팅(Prime editing) 효율 예측 모델의 학습 방법을 제공한다.
구체적으로, 다양한 세포 유형 및 다양한 프라임에디터 종류에 대한 pegRNA의 프라임에디팅 효율 예측 모델의 학습 방법을 제공한다. 보다 구체적으로, 다양한 세포 유형 및 다양한 프라임에디터 종류에서 최대 3-nt 길이의 모든 유형의 편집에 대한 pegRNA의 프라임에디팅 효율 예측 모델의 학습 방법을 제공한다. 보다 더 구체적으로, 7가지 세포 유형 및 8가지 프라임에디팅 종류에서 1-nt 내지 3-nt 길이의 모든 유형의 편집에 대한 pegRNA의 프라임에디팅 효율 예측 모델의 학습 방법을 제공한다.
상기 방법은 세포 유형 및 프라임에디터 종류에 따른 pegRNA의 프라임에디팅 효율에 대한 데이터 세트를 수득하는 단계; 및 상기 데이터 세트를 이용하여, 세포 유형 및 프라임에디터 종류와 프라임에디팅 효율 간의 관계를 딥러닝을 이용하여 학습시키는 단계를 포함한다.
"프라임에디팅(Prime editing)"은 4세대 유전자 가위 "프라임에디터(Prime editor, PE)"에 의한, DNA 이중가닥 절단 없이 한 가닥의 DNA만 절단하여 유전자 변화를 도입할 수 있는 게놈 편집 방법이다.
용어 "프라임에디터"는 "프라임에디팅 시스템"과 상호교환적으로 사용될 수 있다. 프라임에디터는 Cas9 nickase-reverse transcriptase (RT) 융합 단백질 및 프라임에디팅 가이드 RNA (pegRNA)를 포함한다. 본 명세서에서, 프라임에디터는 Cas9 nickase-RT 융합 단백질만을 포함하는 것을 의미할 수도 있고, Cas9 nickase-RT 융합 단백질과 pegRNA를 함께 포함하는 것을 의미할 수도 있다. 예를 들어, 세포 내에 pegRNA를 별도로 도입한 경우, 여기에 프라임에디터를 도입하였다는 것은 Cas9 nickase-RT 융합 단백질만을 도입한 것을 의미할 수 있다. 즉, pegRNA가 이미 도입되어 있는 경우 프라임에디터의 도입은 Cas9 nickase-RT 융합 단백질만을 도입한 것을 의미할 수 있다. 일 구체예에서, 프라임에디터는 Cas9 nickase-RT 융합단백질을 의미할 수 있다. 상기 Cas9 nickase는 Cas9 H850A일 수 있다. 프라임에디터에 사용되는 "Cas9 nickase"는 한 가닥의 DNA를 절단 (nick)하도록 변형된 것일 수 있다.
상기 세포 유형은 2개 이상의 다양한 세포 유형을 포함할 수 있으며, 특정 유형 및 특정 개수에 제한되지 않는다. 일 구체예에서, 상기 세포 유형은 HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3 중 2종 이상을 포함할 수 있다. 일 구체예에서, 상기 세포 유형은 HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3를 모두 포함할 수 있다. 일 구체예에서, 상기 세포 유형은 HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3에 더하여, 공지된 세포를 추가적으로 포함할 수 있다.
기존의 프라임에디팅 효율 예측 모델들은 오직 1개의 세포 유형(예: HEK293T)에서의 프라임에디팅 효율에 대한 데이터 세트를 이용하여 학습되었다는 한계가 있었다. 그러나, 향후 프라임에디팅을 유전자 교정 치료제로 활용하기 위해서는 필연적으로 다양한 세포(예: 다양한 암세포, 다양한 동물의 세포 등)를 대상으로 프라임에디팅 효율 예측이 필요할 것이다. 상기 일 양상에 따른 학습 방법에 의하면, 다양한 세포 유형에서의 프라임에디팅 효율에 대한 데이터 세트를 이용하여 학습된 프라임에디팅 효율 예측 모델을 구축할 수 있다. 그 결과로 얻은 예측 모델을 이용하면, 개별적 실험을 통하지 않고도 다양한 세포 유형에서 높은 프라임에디팅 효율을 보이는 프라임에디터 종류와 pegRNA를 선정할 수 있다.
상기 프라임에디터 종류는 2개 이상의 다양한 프라임에디터 종류를 포함할 수 있으며, 특정 종류 및 특정 개수에 제한되지 않는다. 일 구체예에서, 상기 프라임에디터 종류는 PE2, PE2max, PE2max-e, PE4max, PE4max-e, NRCH-PE2, NRCH-PE2max 및 NRCH-PE4max 중 2종 이상을 포함할 수 있다. 일 구체예에서, 상기 프라임에디터 종류는 PE2, PE2max, PE2max-e, PE4max, PE4max-e, NRCH-PE2, NRCH-PE2max 및 NRCH-PE4max를 모두 포함할 수 있다. 일 구체예에서, 상기 프라임에디터 종류는 PE2, PE2max, PE2max-e, PE4max, PE4max-e, NRCH-PE2, NRCH-PE2max 및 NRCH-PE4max에 더하여, 공지된 프라임에디터 또는 향후 새롭게 개발될 프라임에디터를 추가적으로 포함할 수 있다.
상기 일 양상에 따른 학습 방법에 의하면, 다양한 세포 유형에서의 다양한 프라임에디터 종류에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트를 이용하여 학습된 프라임에디팅 효율 예측 모델을 구축할 수 있다. 즉, 상기 일 양상에 따른 학습 방법에 의하면, 다양한 세포 유형 및 다양한 프라임에디터 종류의 조합에 따른 pegRNA의 프라임에디팅 효율을 예측하는 모델을 구축할 수 있다.
일 구체예에서, 상기 데이터 세트는 특정 세포 유형에서 특정 프라임에디터 종류에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트를 2종 이상 포함할 수 있다. 예시적으로, 상기 데이터 세트는 하기 데이터 세트 중 2종 이상, 또는 18종 모두를 포함할 수 있다:
1) A549 세포에서 PE2max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
2) A549 세포에서 PE2max-e에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
3) A549 세포에서 PE4max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
4) A549 세포에서 PE4max-3에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
5) DLD1 세포에서 NRCH-PE4max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
6) DLD1 세포에서 PE2max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
7) DLD1 세포에서 PE4max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
8) HCT116 세포에서 PE2에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
9) HEK293T 세포에서 NRCH-PE2에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
10) HEK293T 세포에서 NRCH-PE2max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
11) HEK293T 세포에서 PE2에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
12) HEK293T 세포에서 PE2max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
13) HEK293T 세포에서 PE2max-e에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
14) HEK293T 세포에서 PE4max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
15) HEK293T 세포에서 PE4max-e에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
16) HeLa 세포에서 PE2max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트;
17) MDA-MB-231 세포에서 PE2에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트; 및
18) NIH3T3 세포에서 NRCH-PE4max에 의해 유도된 프라임에디팅 효율에 대한 데이터 세트.
"프라임에디팅 효율"은 프라임에디터 및 pegRNA에 의한 유전자 편집 효율을 의미한다. 상기 프라임에디팅 효율은 표적 서열 내에서 의도하지 않은 돌연변이 없이 pegRNA에 의해 유도된 편집이 발생한 비율로 나타낼 수 있다. 상기 프라임에디팅 효율은 백분율로 표시될 수 있다.
"프라임에디팅 효율에 대한 데이터 세트"는 기존의 공지된 데이터일 수도 있고, 당업자가 적절히 채택할 수 있는 임의의 방법으로 직접 수득한 데이터일 수 있으며, 프라임에디팅 효율 예측 모델을 생성할 수 있는 데이터라면, 데이터가 수득되는 방법은 제한되지 않는다. 일 구체예에서, 상기 프라임에디팅 효율에 대한 데이터 세트는 고처리량(high-throughput) 실험을 통해 pegRNA 및 그에 상응하는 표적 서열을 사용하여 분석한 프라임에디팅 효율 데이터 세트일 수 있다.
구체적으로, 상기 프라임에디팅 효율에 대한 데이터 세트는, pegRNA를 암호화하는 뉴클레오티드 서열 및 상기 pegRNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 플라스미드 라이브러리를 제작하는 단계; 세포에 프라임에디터 및 상기 플라스미드 라이브러리를 도입하는 단계; 상기 세포로부터 수득한 DNA를 이용하여 딥시퀀싱을 수행하는 단계; 및 상기 딥시퀀싱으로 수득한 데이터로부터 프라임에디팅 효율을 분석하는 단계를 포함하는 방법을 수행하여 수득된 것일 수 있다. 여기에서, 상기 세포의 유형 및 프라임에디터의 종류에 대한 상세는 상술한 바와 같다.
상기 프라임에디팅 효율에 대한 데이터 세트는, 1-nt 내지 3-nt 길이의 모든 유형의 편집에 대한 pegRNA 암호화 서열 및 표적 서열 쌍의 정보를 포함하는 것일 수 있다.
상기 편집의 유형은 치환(substitution), 삽입(insertion) 및 결실(deletion)을 포함할 수 있다.
상기 프라임에디팅 효율에 대한 데이터 세트는 1-nt, 2-nt 또는 3-nt 길이의 치환, 삽입 또는 결실 편집을 유도하는 pegRNA 서열 및 그에 상응하는 표적 서열 쌍의 정보와, 세포 유형 및 프라임에디터 종류에 따른 상기 pegRNA에 의해 유도된 프라임에디팅 효율에 대한 정보를 포함하는 것일 수 있다.
상기 pegRNA의 RTT(Reverse Transcription Template) 길이는 최대 50-nt일 수 있으나, 이에 제한되지 않는다.
상기 pegRNA의 PBS(Primer Binding Site) 길이는 1-nt 내지 17-nt일 수 있으나, 이에 제한되지 않는다.
상기 플라스미드 라이브러리는 PBS 길이, RTT 길이, 편집 위치, 편집 유형, PAM(protospacer adjacent motif) 공동 편집 여부, 및 편집될 뉴클레오티드의 개수가 각각 상이한 pegRNA들을 설계하는 단계; 및 설계된 각각의 pegRNA를 암호화하는 뉴클레오티드 서열 및 상기 pegRNA가 목적하는 표적 뉴클레오티드 서열의 쌍을 포함하는 올리고뉴클레오티드를 제조하는 단계에 의해 제작될 수 있다.
상기 편집 위치는 닉킹 부위를 기준으로 계산되는 것일 수 있다. 예를 들어, 상기 편집 위치는, 닉킹 부위로부터 +1, +2, +3 등으로 표현될 수 있다.
"닉킹 부위(nicking site)"란 표적 서열에서 Cas9-nickase에 의해 절단되는 부위를 의미한다.
"역전사 효소(reverse transcriptase, RT)"는 RNA를 주형으로 하고, 이에 상보적인 새로운 DNA를 합성하는 효소이다.
"pegRNA(prime editing guide RNA)"는 표적 서열을 인식하는 가이드 서열(guide sequence), tracrRNA 스캐폴드 서열, 역전사 개시에 필요한 프라이머 결합 부위(primer binding site, PBS), 및 원하는 유전적 변화를 포함하는 RT 주형(Reverse Transcriptase Template, RTT)을 포함한다.
상기 pegRNA에서 가이드 서열은 표적 서열과 전부 또는 일부 상보적인 서열을 포함한다.
"표적 서열(target sequence)"은 pegRNA가 목적하는 표적 뉴클레오티드 서열을 의미한다. 상기 표적 서열은 pegRNA가 표적으로 할 것으로 예상되는 서열일 수 있다. 상기 표적 서열은 공지된 게놈 서열 중 일부 서열일 수 있고, 본 발명의 모델을 이용하는 사용자가 분석하고자 하는 서열을 임의로 설계한 서열일 수도 있다. 일 양상에 따른 방법에 의해 학습된 프라임에디팅 효율 예측 모델은 표적 부위에 제한이 없기 때문에 다양한 유전질환에 활용할 수 있다.
"올리고뉴클레오티드(oligonucleotide)"는 수 개 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 의미한다. 상기 올리고뉴클레오티드의 길이는 100 nts 내지 300 nts, 100 nts 내지 250 nts, 또는 100 nts 내지 200 nts일 수 있으나, 이에 제한되는 것은 아니며, 당업자가 적절히 조절할 수 있다.
상기 올리고뉴클레오티드에 포함되는 pegRNA를 암호화하는 뉴클레오티드 서열은 가이드 서열, RTT 서열, PBS 서열 등을 포함할 수 있다.
상기 올리고뉴클레오티드에 포함되는 표적 뉴클레오티드 서열은 PAM (protospacer adjacent motif) 및 RTT 결합 영역을 포함할 수 있다. 상기 RTT 결합 영역은 RTT에 전부 또는 일부 상보적인 서열을 포함할 수 있다.
상기 올리고뉴클레오티드는 바코드 서열(barcode sequence)을 더 포함할 수 있다. 따라서, 상기 올리고뉴클레오티드는 pegRNA를 암호화하는 서열, 바코드 서열 및 상기 pegRNA가 목적하는 표적 서열을 포함할 수 있다. 상기 바코드 서열의 개수는 1개, 2개, 또는 그 이상일 수 있다. 상기 바코드 서열은 당업자가 목적에 따라 적절히 설계할 수 있다. 예를 들어, 상기 바코드 서열은 딥시퀀싱 수행 후 각각의 pegRNA 및 그에 상응하는 표적 서열 쌍이 식별될 수 있게 하는 것일 수 있다.
상기 올리고뉴클레오티드는 PCR 증폭될 수 있도록 프라이머가 결합될 수 있는 추가의 서열을 더 포함할 수 있다.
"라이브러리"는 특성이 다른 동종의 물질이 2종 이상 포함된 집단 (pool 또는 population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 뉴클레오티드 서열이 다른 2종 이상의 올리고뉴클레오티드, 예컨대 pegRNA, 및/또는 표적 서열이 다른 2종 이상의 올리고뉴클레오티드를 포함하는 집단일 수 있다. 또한, 플라스미드 라이브러리는 특성이 다른 2종 이상의 플라스미드들의 집단, 예컨대 다른 종류의 올리고뉴클레오티드가 포함된 플라스미드들의 집단일 수 있다.
"벡터"는 상기 올리고뉴클레오티드 또는 프라임에디터를 세포 내에 전달할 수 있도록 하는 매개체를 의미할 수 있다. 구체적으로, 벡터는 각각의 pegRNA 암호화 서열 및 표적 서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 또한, 벡터는 프라임에디터를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있으나, 이에 제한되지 않는다. 상기 바이러스 벡터는 렌티바이러스 벡터 또는 레트러바이러스 벡터 등이 사용될 수 있으나, 이에 제한되지 않는다. 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물(예: 올리고뉴클레오티드 또는 프라임에디터)가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다. 상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.
상기 벡터를 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물을 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다. 상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 이에 제한되는 것은 아니다.
상기 벡터가 도입될 수 있는 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있으나, 그 예로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포) 등의 동물 세포; 또는 식물 세포가 될 수 있다. 일 구체예에서, 상기 세포의 종류는 HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3 중에서 선택될 수 있다.
본원에서 제작된 플라스미드 라이브러리는 pegRNA 암호화 서열 및 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 플라스미드 집단을 말한다. 이때 각각의 플라스미드들은 pegRNA 암호화 서열 및/또는 표적 서열이 다른 올리고뉴클레오티드를 포함하는 것일 수 있다.
프라임에디팅을 유도하기 위하여, 세포에 프라임에디터 및 플라스미드 라이브러리를 도입할 수 있다. 상기 프라임에디터는 Cas9 nickase-RT 융합 단백질 등을 포함하는 프라임에디팅 시스템 구성물을 의미할 수 있다. 상기 프라임에디터는 벡터에 의해 세포 내로 도입될 수도 있고, 프라임에디터 그 자체로 세포 내에 도입될 수도 있으며, 세포 내에서 프라임에디터가 활성을 나타낼 수 있는 한 그 도입 방법은 제한되지 않는다. 여기에서, 벡터에 관한 설명은 상술한 바와 같다.
상기 세포에서는 pegRNA 및 표적 서열을 포함하는 올리고뉴클레오티드, 및 프라임에디터에 의해 프라임에디팅이 일어날 수 있다. 즉, 도입된 표적 서열에 대하여 유전자 편집이 일어날 수 있다.
상기 프라임에디터 및 플라스미드 라이브러리가 도입된 세포로부터 DNA를 수득하는 방법은 당업계에 공지된 다양한 DNA 분리 방법을 이용하여 수행될 수 있다.
각각의 세포들로부터 수득한 DNA를 서열 분석하여, 도입된 표적 서열에서의 유전자 편집 효율을 검출할 수 있다. 상기 서열 분석 방법은 프라임에디팅 효율 데이터를 얻을 수 있다면, 특정 방법에 제한되는 것은 아니나, 예를 들어 딥시퀀싱을 이용할 수 있다.
상기 딥시퀀싱으로 수득한 데이터로부터 프라임에디팅 효율을 분석하는 단계는 프라임에디팅 효율을 계산하는 단계를 포함할 수 있다.
상기 프라임에디팅 효율은 pegRNA 서열, 세포 유형, 프라임에디터 종류에 따라 다르게 나타날 수 있다.
"딥러닝(deep learning)"은 컴퓨터가 사람처럼 생각하고 배울 수 있도록 하는 인공지능(AI) 기술로서, 인공신경망 이론을 기반으로 복잡한 비선형 문제를 기계가 스스로 학습해결 할 수 있도록 하는 기술이다. 상기 딥-러닝 기술을 이용하여, 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론, 판단할 수 있게 되고, 음성, 이미지 인식과 사진 분석 등에 광범위하게 활용하는 것이 가능하다. 즉, 딥러닝은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의될 수 있다.
상기 일 양상에 따른 학습 방법에서, 상기 딥러닝은 게이트 순환 유닛(GRU: Gated Recurrent Unit)을 갖춘 합성곱 신경망(CNN: convolutional neural network)을 기반으로 하여 수행되는 것일 수 있으나, 이에 제한되지 않는다.
일 실시예에서, +1 내지 +30번 위치에서 1-nt 내지 3-nt 치환, 삽입 또는 결실을 도입하기 위해 설계된 가변 PBS 및 RTT 길이를 갖는 pegRNA에 의해 유도된 모든 표적 유전자에서의 프라임에디팅 효율을 예측하는 딥러닝 기반 계산 모델을 개발하였으며, 이를 DeepPrime으로 명명하였다. 또한, 상기 DeepPrime을 7개의 다른 세포 유형에서 두 가지 유형의 스캐폴드 서열을 포함하는 8개의 다른 프라임에디팅 시스템에 의해 유도된 프라임에디팅 효율의 18개 데이터 세트로 미세조정하여, DeepPrime-FT를 개발하였다. 상기 DeepPrime-FT를 사용하여, 최대 3개의 염기쌍에 대해 가능한 모든 편집 유형에 대한 다양한 세포 유형에서 다양한 프라임에디터 종류에 대하여 프라임에디팅 효율을 예측할 수 있다.
다른 양상은 프라임에디팅 효율 예측 방법을 제공한다. 상기 방법은 상기 일 양상에 따른 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델을 이용한 프라임에디팅 효율 예측 방법일 수 있다.
구체적으로, 다양한 세포 유형 및 다양한 프라임에디터 종류에 대한 pegRNA의 프라임에디팅 효율 예측 모델을 제공한다. 보다 구체적으로, 다양한 세포 유형 및 다양한 프라임에디터 종류에서 최대 3-nt 길이의 모든 유형의 편집에 대한 pegRNA의 프라임에디팅 효율 예측 모델을 제공한다. 보다 더 구체적으로, 7가지 세포 유형 및 8가지 프라임에디팅 종류에서 1-nt 내지 3-nt 길이의 모든 유형의 편집에 대한 pegRNA의 프라임에디팅 효율 예측 모델을 제공한다.
상기 방법은 세포 유형, 프라임에디터 종류, 및 표적 서열에 대한 정보를 입력받는 단계; 및 상기 일 양상에 따른 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 프라임에디팅 효율을 예측하는 단계를 포함한다.
상기 입력받는 정보는 세포 유형, 프라임에디터 종류, 및 표적 서열을 포함한다.
상기 세포 유형 및 프라임에디터 종류에 대한 상세는 상술한 바와 같다.
상기 세포 유형 및 프라임에디터 종류는 사용자가 원하는 실험 조건에 따라 적절히 선택할 수 있다. 예를 들어, 상기 세포 유형 및 프라임에디터 종류는 사용자가 확인하고자 하는 실험 조건에 부합하도록 선택할 수 있다.
상기 표적 서열은 프라임에디팅 효율을 분석 또는 예측하고자 하는 pegRNA의 표적 뉴클레오티드 서열을 의미한다. 상기 표적 서열은 프라임에디팅 효율을 확인하고자 하는 개체의 유전체 서열에서 유래한 것일 수 있고, 또는 당업계에 공지된 방법으로 설계 및 합성된 임의의 서열일 수도 있으나, 프라임에디팅 효율 예측을 위해 본 발명의 방법에 적용될 수 있는 서열이라면, 그 종류를 제한하지 않는다. 상기 표적 서열은 특정 부위에 제한되지 않으므로, 상기 방법은 다양한 유전질환에 활용될 수 있다.
상기 표적 서열에 대한 정보는 편집되지 않은(Unedited) 서열(즉, 편집 전 서열)과 편집된(Edited) 서열(즉, 편집 후 서열)의 쌍을 포함할 수 있다. 상기 편집되지 않은 서열은 야생형(wild-type, WT) 서열일 수 있다. 상기 편집된 서열은 pegRNA에 의해 의도된 편집이 도입된 서열일 수 있다.
상기 표적 서열의 길이는 10-nt 내지 150-nt, 20-nt 내지 150-nt, 30-nt 내지 150-nt, 10-nt 내지 130-nt, 20-nt 내지 130-nt, 30-nt 내지 130-nt, 40-nt 내지 130-nt, 50-nt 내지 130-nt, 10-nt 내지 100-nt, 20-nt 내지 100-nt, 30-nt 내지 100-nt, 40-nt 내지 100-nt, 또는 50-nt 내지 100-nt일 수 있으나, 이에 제한되지 않는다.
상기 표적 서열은 PAM(protospacer adjacent motif), 및 프로토스페이서 서열을 포함할 수 있으나, 이에 제한되지 않는다. 상기 PAM 및 프로토스페이서 서열은 프라임에디터가 표적 서열을 인식하는 과정에 관여하는 서열이다.
상기 정보는 편집 길이 및 편집 유형에 대한 정보를 더 포함할 수 있다.
상기 편집 길이는 1-nt, 2-nt 또는 3-nt 중에서 선택될 수 있다.
상기 편집 유형은 치환, 삽입 또는 결실 중에서 선택될 수 있다.
상기 정보는 pegRNA의 RTT 길이 및 PBS 길이에 대한 정보를 더 포함할 수 있다.
상기 pegRNA의 RTT 길이에 대한 정보는 최대 RTT 길이일 수 있다. 상기 최대 RTT 길이는 50-nt 이하의 임의의 길이 중에서 선택될 수 있으나, 이에 제한되지 않는다.
상기 pegRNA의 PBS 길이는 최소 PBS 길이 및 최대 PBS 길이일 수 있다. 상기 최소 PBS 길이 및 최대 PBS 길이는 1-nt 내지 17-nt의 범위의 임의의 길이 중에서 선택될 수 있으나, 이에 제한되지 않는다.
상기 예측하는 단계에서, 세포 유형 및 프라임에디터 종류에 따른 pegRNA의 프라임에디팅 효율을 예측하는 것일 수 있다.
상기 방법은 pegRNA 서열 및 그 pegRNA에 대해 예측된 프라임에디팅 예측 점수를 출력하는 단계를 더 포함할 수 있다.
상기 출력된 프라임에디팅 예측 점수는, 프라임에디팅 효율에 대해 산출된 수치, 또는 미리 설정된 기준값에 대한 상대적인 수치로 나타낼 수 있으나, 출력되는 정보의 형태나 종류는 제한되지 않는다.
상기 출력된 pegRNA 서열은 가이드 서열, PBS 서열 및 RTT 서열을 포함할 수 있다.
상기 출력은 pegRNA를 프라임에디팅 예측 점수가 높은 순서대로 정렬하는 방식으로 출력하는 것일 수 있다.
상기 일 양상에 따른 프라임에디팅 효율 예측 방법에 의하면, 다양한 세포 유형 및 다양한 프라임에디터 종류에 대해 프라임에디팅 효율이 높은 pegRNA 서열을 선정할 수 있다. 따라서, 개별적 실험을 통하지 않고도, 특정 세포 유형에서 높은 프라임에디팅 효율을 나타내는 프라임에디터 종류와 pegRNA 서열을 선정할 수 있다.
다른 양상은 프라임에디팅 효율 예측 장치를 제공한다. 상기 장치는 상기 일 양상에 따른 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델을 이용한 프라임에디팅 효율 예측 장치일 수 있다. 상기 장치는 상기 일 양상에 따른 프라임에디팅 효율 예측 방법을 구현한 장치일 수 있다. 따라서, 상기 프라임에디팅 효율 예측 모델의 학습 방법, 상기 프라임에디팅 효율 예측 모델, 및 상기 프라임에디팅 효율 예측 방법과 관련된 설명이 동일하게 적용될 수 있다.
상기 장치는 세포 유형, 프라임에디터 종류, 및 표적 서열에 대한 정보를 입력받는 입력부; 및 상기 일 양상에 따른 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 프라임에디팅 효율을 예측하는 예측부를 포함할 수 있다.
상기 표적 서열에 대한 정보는 편집되지 않은 서열과 편집된 서열의 쌍을 포함할 수 있다.
상기 정보는 편집 길이 및 편집 유형에 대한 정보를 더 포함할 수 있다.
상기 방법은 pegRNA 서열 및 그 pegRNA에 대해 예측된 프라임에디팅 예측 점수를 출력하는 출력부를 더 포함할 수 있다.
상기 출력부는 pegRNA를 프라임에디팅 예측 점수가 높은 순서대로 정렬하는 방식으로 출력하는 것일 수 있다.
상기 출력된 pegRNA 서열은 가이드 서열, PBS 서열 및 RTT 서열을 포함할 수 있다.
다른 양상은 상기 일 양상에 따른 프라임에디팅 효율 예측 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다.
상기 프로그램은 상기 프라임에디팅 효율 예측 모델 또는 상기 프라임에디팅 효율 예측 방법을 컴퓨터 프로그래밍 언어로 구현한 것일 수 있다.
상기 프로그램을 구현할 수 있는 컴퓨터 프로그래밍 언어는 Python, C, C++, 자바(Java), 포트란(Fortran), 비쥬얼 베이직(Visual Basic) 등이 있으나 이에 제한되지 않는다. 상기 프로그램은 USB 메모리, CDROM(compact disc read only memory), 하드 디스크, 자기 디스켓, 또는 그와 유사한 매체 또는 기구 등의 기록 매체로 저장될 수 있으며, 내부 또는 외부 네트워크 시스템에 연결될 수 있다. 예를 들면, 컴퓨터 시스템은 HTTP, HTTPS, 또는 XML 프로토콜을 이용하여 NCBI GenBank와 같은 서열 데이터베이스에 접속하여 표적 유전자 및 상기 유전자의 조절 영역의 핵산서열을 검색할 수 있다.
상기 프로그램은 온라인 또는 오프라인으로 제공될 수 있다.
다른 양상은 비표적(off-target) 프라임에디팅 효율 예측 모델의 학습 방법을 제공한다. 구체적으로, 불일치(mismatched) 표적 서열에서의 프라임에디팅 효율 예측 모델의 학습 방법을 제공한다.
"비표적(off-target) 프라임에디팅 효율"은 프라임에디터 및 pegRNA에 의한, 원하지 않는 위치에 발생한 유전자 편집 효율을 의미한다. 비표적 프라임에디팅의 발생은 유전자가위의 안전성을 낮출 수 있다. 따라서, pegRNA의 비표적 프라임에디팅 효율을 예측함으로써, 비표적 프라임에디팅이 발생할 가능성이 없거나 매우 낮은 pegRNA를 선정할 수 있고, 선정된 pegRNA는 안전성이 높을 것으로 예상할 수 있다.
상기 방법은 일치 표적 서열 및 불일치 표적 서열에서의 pegRNA의 프라임에디팅 효율에 대한 데이터 세트를 수득하는 단계; 및 상기 데이터 세트를 이용하여, 비표적 프라임에디팅에 영향을 미치는 특징과 비표적 프라임에디팅 효율 간의 관계를 딥러닝을 이용하여 학습시키는 단계를 포함한다.
상기 일치(matched) 표적 서열에서의 pegRNA의 프라임에디팅 효율이란 pegRNA가 목적하는 표적 서열에서 pegRNA에 의해 의도된 편집이 발생한 비율을 의미할 수 있다.
상기 불일치(mismatched) 표적 서열에서의 pegRNA의 프라임에디팅 효율이란 pegRNA가 목적하지 않는 서열에서 pegRNA에 의해 유도된 편집이 발생한 비율을 의미할 수 있다.
상기 비표적 프라임에디팅 효율은, 불일치 표적 서열에서 pegRNA에 의해 유도된 프라임에디팅 효율일 수 있다. 상기 비표적 프라임에디팅 효율은 불일치 표적 서열에서의 pegRNA에 의해 유도된 프라임에디팅 효율을 일치 표적 서열에서의 pegRNA에 의해 유도된 프라임에디팅 효율로 나눈 상대적 편집 효율일 수 있다.
일 구체예에서, 상기 데이터 세트는 상기 일 양상에 따른 프라임에디팅 효율 예측 모델의 학습 방법에서 사용된 데이터 세트를 추가로 포함할 수 있다. 즉, 상기 데이터 세트는 세포 유형 및 프라임에디터 종류에 따른 일치 표적 서열 및 불일치 표적 서열에서의 pegRNA의 프라임에디팅 효율에 대한 데이터 세트를 포함할 수 있다. 그에 따라, 다양한 세포 유형 및 다양한 프라임에디터 종류의 조합에 따른 pegRNA의 비표적 프라임에디팅 효율을 예측하는 모델을 구축할 수 있다.
상기 프라임에디팅 효율에 대한 데이터 세트는, pegRNA를 암호화하는 뉴클레오티드 서열 및 상기 pegRNA의 일치 또는 불일치 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 플라스미드 라이브러리를 제작하는 단계; 세포에 프라임에디터 및 상기 플라스미드 라이브러리를 도입하는 단계; 상기 세포로부터 수득한 DNA를 이용하여 딥시퀀싱을 수행하는 단계; 및 상기 딥시퀀싱으로 수득한 데이터로부터 프라임에디팅 효율을 분석하는 단계를 포함하는 방법을 수행하여 수득된 것일 수 있다.
상기 프라임에디팅 효율에 대한 데이터 세트는, 1-nt 내지 3-nt 길이의 모든 유형의 편집에 대한 pegRNA 암호화 서열 및 표적 서열 쌍의 정보를 포함하는 것일 수 있다.
상기 편집의 유형은 치환, 삽입 및 결실을 포함할 수 있다.
상기 표적 서열은 일치 표적 서열 및 불일치 표적 서열을 포함할 수 있다.
상기 프라임에디팅 효율에 대한 데이터 세트는 1-nt, 2-nt 또는 3-nt 길이의 치환, 삽입 또는 결실 편집을 유도하는 pegRNA 서열 및 그의 표적 서열(일치 표적 서열 또는 불일치 표적 서열) 쌍의 정보와, 상기 pegRNA에 의해 유도된 프라임에디팅 효율에 대한 정보를 포함하는 것일 수 있다.
상기 플라스미드 라이브러리는 불일치 위치, RTT 길이, PBS 길이, 편집 유형, 및 불일치 개수가 각각 상이한 pegRNA-표적 서열 쌍을 설계하는 단계; 및 설계된 각각의 pegRNA를 암호화하는 뉴클레오티드 서열 및 그의 표적 뉴클레오티드 서열의 쌍을 포함하는 올리고뉴클레오티드를 제조하는 단계에 의해 제작될 수 있다.
상기 불일치 위치는 pegRNA와 상호작용하는 표적 서열 위치 중 불일치하는 서열의 위치를 의미할 수 있다.
상기 불일치 개수는 1개 내지 10개, 또는 1개 내지 6개일 수 있다.
상기 비표적 프라임에디팅에 영향을 미치는 특징은 비표적 프라임에디팅에 관여하는 요소에 대한 정보로부터 추출된 것일 수 있다. 상기 비표적 프라임에디팅에 영향을 미치는 특징은 비표적 프라임에디팅 효율 데이터를 분석하여 추출된 특징일 수 있다. 상기 비표적 프라임에디팅 효율에 영향을 미치는 특징은 상기 비표적 프라임에디팅 효율 예측 모델에 의해 추출될 수도 있고, 별도의 방법을 수행하여 추출된 특징을 이용할 수도 있다.
일 구체예에서, 상기 비표적 프라임에디팅에 영향을 미치는 특징은 불일치 위치, 불일치 개수, 불일치 유형, pegRNA의 PBS(Primer Binding Site) 길이, 및 pegRNA의 RTT(Reverse Transcription Template) 길이 중 어느 하나 이상을 포함할 수 있으나, 이에 제한되지 않는다.
상기 불일치 유형은 퓨린-피리미딘 염기 쌍 형성을 유발하는 불일치, 퓨린-퓨린 염기 쌍 형성을 유발하는 불일치, 및 피리미딘-피리미딘 쌍 형성을 유발하는 불일치를 포함할 수 있다.
일 실시예에서, 47,839쌍의 pegRNA와 일치 및 불일치 표적 서열들의 프라임에디팅 효율에 대한 데이터 세트를 이용하여 상기 DeepPrime을 미세조정하였으며, 그 결과 DeepPrime-Off를 개발하였다. 상기 DeepPrime-Off는 불일치 표적과 pegRNA 서열의 쌍에 대한 서열 정보를 입력으로 추가하여, 이들 간의 상호 작용을 고려했다. 상기 DeepPrime-Off를 사용하면, 불일치 표적 서열에서 pegRNA에 의해 유도된 프라임에디팅 효율을 예측할 수 있다.
다른 양상은 비표적(off-target) 프라임에디팅 효율 예측 방법을 제공한다.
상기 방법은 표적 서열 및 pegRNA 서열에 대한 정보를 입력받는 단계; 및
상기 일 양상에 따른 학습 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 비표적 프라임에디팅 효율을 예측하는 단계를 포함한다.
상기 표적 서열에 대한 정보는 불일치 표적 서열을 포함할 수 있다.
상기 방법은 상기 pegRNA에 대해 예측된 비표적 프라임에디팅 예측 점수를 출력하는 단계를 더 포함할 수 있다.
다른 양상은 비표적(off-target) 프라임에디팅 효율 예측 장치를 제공한다.
상기 장치는 표적 서열 및 pegRNA 서열에 대한 정보를 입력받는 입력부; 및
상기 일 양상에 따른 학습 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 비표적 프라임에디팅 효율을 예측하는 예측부를 포함할 수 있다.
상기 표적 서열에 대한 정보는 불일치 표적 서열을 포함할 수 있다.
상기 장치는 상기 pegRNA에 대해 예측된 비표적 프라임에디팅 예측 점수를 출력하는 출력부를 더 포함할 수 있다.
다른 양상은 상기 일 양상에 따른 비표적 프라임에디팅 효율 예측 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다.
중복되는 내용은 본 명세서의 복잡성을 고려하여 생락하며, 본 명세서에서 달리 정의되지 않은 용어들은 본 발명이 속하는 기술분야에서 통상적으로 사용되는 의미를 갖는 것이다.
일 양상에 따른 프라임에디팅 효율 예측 모델의 학습 방법, 이를 이용한 프라임에디팅 효율 예측 방법 및 장치에 의하면, 다양한 세포 유형에서 다양한 프라임에디터 종류에 대한 프라임에디팅 효율을 예측할 수 있다. 또한, 상기 프라임에디팅 효율 예측 방법 및 장치는 표적 부위에 제한이 없으므로 다양한 유전질환에 대해 활용될 수 있다.
일 양상에 따른 비표적 프라임에디팅 효율 예측 모델의 학습 방법, 이를 이용한 프라임에디팅 효율 예측 방법 및 장치에 의하면, 일치하지 않는 표적에서 프라임에디팅 효율을 예측할 수 있다.
상기 방법들 및 장치들을 사용하면, 다양한 세포 유형에서 프라임에디터와 pegRNA의 다양한 조합에 대해 일치 및/또는 불일치 표적에서 프라임에디팅 효율을 예측함으로써, 가장 효율적이고 구체적인 프라임에디터와 pegRNA의 조합을 선정할 수 있다. 따라서, 상기 방법들 및 장치들은 유전자 편집에 의한 질병 치료 등 유전자 가위를 적용하는 모든 분야에서 유용하게 사용될 수 있다.
도 1. PE2 효율의 고처리량 프로파일링
(A) 본 연구에 사용된 쌍별 라이브러리 구조의 도식적 표현. hU6, 인간 U6 프로모터; pT, 폴리 T 서열. 도 8A도 참조하라. (B, C) (B) 가능한 모든 길이(1~17 nts)의 PBS 또는 (C) 다양한 길이(5~35 nts)의 RTT로 평균 효율을 보여주는 히트 맵. 도 9A도 참조하라. (D) 1-bp 치환이 도입되었을 때 편집 위치가 PE2 효율에 미치는 영향. (E-G) 오른쪽 상동성 암(RHA) 길이가 프라임에디팅 효율에 미치는 영향. 도 9C도 참조하라. (H) 편집된 염기쌍의 수가 프라임에디팅 효율에 미치는 영향. 오차 막대는 95% 신뢰 구간을 나타낸다. (I-J) 길이가 다른 삽입(I) 또는 결실(J)이 도입되었을 때 평균 프라임에디팅 효율을 나타내는 선 도표. (K) 마지막 주형 위치에서 상이한 뉴클레오티드를 갖는 pegRNA에 의해 유도된 프라임에디팅 효율. 상자에서 위쪽, 중간 및 아래쪽 선은 각각 25번째, 50번째 및 75번째 백분위수를 나타내고 수염은 최소값과 최대값을 나타낸다. 박스 도표의 십자 표시는 평균 프라임에디팅 효율을 나타낸다. pegRNA 및 표적 서열 쌍의 수 n = 70,911(시토신; C), 66,321(티민; T), 66,589(아데닌; A) 및 84,972(구아닌; G). 도 9D 및 9F도 참조하라. (H, K) 프라임에디팅 효율에 통계적으로 유의한 차이가 없는 실험 그룹들의 하위 집합(P < 0.05, ANOVA에 이어 사후 터키 테스트)은 평균 프라임 효율의 순위대로 문자 a, b, c, d 및 e로 표시되어 있다.
도 2. 프라임에디팅 효율과 연관된 인자들
(A) 상관 계수에 대해 임계값 0.7을 사용하여 다중공선성을 고려한 후 Tree SHAP에서 결정한 프라임에디팅 효율과 연관된 20가지 가장 중요한 특징들. 다중공선성으로 인해 제거된 인자들은 해당 인자 옆에 볼드체로 표시되거나(다중공선성을 고려하지 않은 순위는 괄호 안에 표시됨) 또는 이 범례에 표시되어 있음; i) PBS + RTT 영역 내 U의 개수(19번), PBS + RTT 영역 내 UU의 개수(37번째), ii) RTT에 상응하는 표적 영역의 Tm, RTT 영역의 Tm 및 역전사된 cDNA, iii) RTT의 길이, PBS + RTT 영역 내 U의 개수, RTT 영역 내 UU의 개수, iv) 74-nt 표적 서열의 Tm, 표적 서열 내 GC 카운트, PBS + RTT 영역 내 GC 함량, v) RTT 영역 내 CG의 개수. 요약 바이올린 도표(왼쪽 그래프)는 x축의 위치가 SHAP 값을 반영하도록 각 pegRNA 및 표적 서열의 쌍을 점으로 나타낸 것이다. 높은 SHAP 값은 해당 특징이 높은 프라임에디팅 효율과 연관되어 있음을 나타낸다. 빨간색 또는 파란색 점은 각각 관련 특징의 값이 높거나 낮음을 나타낸다. 겹쳐진 점은 y축 방향으로 약간 떨어져 있어 밀도가 뚜렷하다. Tm은 용융 온도이다. pegRNA 및 표적 서열 쌍의 수(즉, 요약 도표에서 특징당 점의 수) n = 259,910. 도 10A도 참조하라. (B-F) PBS 관련 특징(B, C) 및 RHA 관련 특징(D-F)이 평균 프라임에디팅 효율에 미치는 영향. Tm은 용융 온도이다. 도 10B-G도 참조하라. (G) 편집 위치 및 길이가 치환(왼쪽), 삽입(중간) 및 결실(오른쪽)에 대한 평균 프라임에디팅 효율에 미치는 영향.
도 3. 프라임에디팅 효율 예측을 위한 계산 모델의 개발
(A) DeepPrime 개발에 사용된 딥러닝 알고리즘의 도식적 표현. GRU는 게이트 순환 유닛이다. (B, C) 프라임에디팅 효율을 예측하는 모델을 개발하는 데 사용된 기계 학습 알고리즘의 교차 검증. 각 점은 5겹 교차 검증에서 측정된 프라임에디팅 효율과 예측된 프라임에디팅 효율 사이의 피어슨(B) 또는 스피어만의 상관 계수(C)를 나타낸다. 상관 계수의 수 n=5. 상위 2개 알고리즘의 통계적 비교가 표시되어 있다(양측 슈타이거 검정). 막대 및 오차 막대는 각각 스피어만 또는 피어슨의 상관 계수의 평균 및 표준 편차를 나타낸다. CNN, 합성곱 신경망; GRU, 게이트 순환 유닛; LSTM(long short-term memory), 장단기 기억; LightGBM(Light Gradient Boosting Machine), 라이트 그레디언트 부스팅 머신; XGBoost(extreme Gradient Boosting), 익스트림 그레디언트 부스팅; GBR(Gradient Boosting Regression), 그레디언트 부스팅 회귀; RT(Random Forest), 랜덤 포레스트. (D-F) ClinVar_Test를 시험 데이터 세트로 사용한 DeepPrime 평가. 각 도트 색상은 가우시안 커널과 함께 커널 밀도 추정을 사용하여 결정했다. 데이터세트 ClinVar_Test는 편집 유형과 길이(E) 또는 편집 위치(F)에 따라 각각 9개 또는 30개의 데이터 하위 집합으로 분할되어 모델 평가에 사용되었다. (F) 측정된 PE2 효율과 예측된 PE2 효율 사이의 피어슨과 스피어만 상관 계수는 각각 실선과 점선으로 표시되어 있다. (G, H) 프라임에디팅 효율의 독립적인 시험 데이터 세트를 사용한 DeepPrime 평가. 시험 데이터 세트로는 이전 연구에서 통합된 표적 서열(G, Jang et al., 2021)과 내인성 부위(H, 프라임에디팅에 관한 리우(Liu) 연구진의 초기 연구, Anzalone et al., 2019)에서 측정된 프라임에디팅 효율을 사용하였다. (D, E, G, H) 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA의 개수(n)를 나타내었다.
도 4. 프라임에디팅 효율의 개선
(A) 기존 및 최적화된 스캐폴드를 포함하는 pegRNA와 함께 PE2를 사용한 프라임에디팅 효율의 비교. (B) PAM 공동 편집이 PE2 효율에 미치는 영향. PAM 공동 편집을 사용한 평균 프라임에디팅 효율은 PAM 공동 편집을 사용하지 않은 경우에 대해 정규화하였다. (C) 각각의 3-nt PAM 서열로 표적 서열에서 가장 높은 평균 효율을 보인 프라임에디터는 다른 색상을 사용하여 표시되어 있다. (D) 각 3-nt 후보 PAM 서열을 포함하는 표적 서열에서 임의의 PE2 변이체에 의해 유도된 최대 평균 편집 효율을 보여주는 히트 맵. (E-F) NGG PAM 서열이 있는 표적에서 PE2 대 PE2max(E) 및 PE4max(F)에 의해 유도된 프라임에디팅 효율 사이의 상관관계. (G-M) HEK293T 세포에서 PE2, PE2max, PE4max 및 NRCH-PE4max에 의해 유도된 프라임에디팅 효율과 NGG PAM 서열이 있는 표적에서 다른 세포 유형의 프라임에디팅 효율 사이의 상관관계. (N-P) pegRNA 대 epegRNA를 사용하여 PE2max 및 PE4max에 의해 유도된 프라임에디팅 효율 사이의 상관관계. (A, E-M) 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA의 개수(n)를 나타내었다. 검정색 점선은 y = x를 나타낸다.
도 5. DeepPrime-FT의 개발과 성능
(A) DeepPrime-FT 개발의 개략도. (B, C) 예측 및 측정된 프라임에디팅 효율 사이의 피어슨 및 스피어만(C) 상관 계수의 히트 맵은 세포 유형, pegRNA 스캐폴드, 프라임에디터 및 PAM 서열과 같은 실험 조건에 대한 이들의 의존성을 보여준다. epegRNA를 사용한 프라임에디팅은 프라임에디터의 이름에 "-e"를 추가하여 표시하였다(예: PE2max-e). 굵은 선으로 둘러싸인 각 상자는 훈련 데이터 세트와 동일한 실험 조건으로 생성된 시험 데이터 세트를 사용하여 평가된 모델의 피어슨 또는 스피어만 상관 계수를 나타낸다. 피어슨과 스피어만 상관 계수 모두에 동일한 색상 그레디언트가 사용되었다.
도 6. DeepPrime 및 DeepPrime-FT의 적용
(A, B) DeepPrime, 고활성 pegRNA의 특징들, DeepSpCas9 점수 또는 무작위 선택에 기반한 합리적 접근법(합리적 설계)을 사용하여 설계한 pegRNAs의 예측된 효율로서, 병원성/병원성일 가능성이 있는 돌연변이들로 ClinVar에 보고된 것들의 (A) 수정 및 (B) 생성에 대해 예측된 것. 설계 당 pegRNA의 개수 n = 64,327. 상위 2개 방법의 통계적 비교를 나타내었다(ANOVA에 이어 터키 사후 테스트). (C) 이전 연구에서(Erwood et al., 2022) DeepPrime, DeepPrime-FT 및 합리적 설계를 사용하여 선택한 pegRNAs의 예측된 효율로서, NPC1BRCA2로의 변이체 도입에 대해 예측된 것. 설계 당 pegRNA의 수 n = 426. (D) 표적당 8개의 pegRNA 중 DeepPrime 점수가 가장 높은 pegRNA의 측정된 PE 효율 순위 분포. pegRNA 세트의 개수 n = 845. (E) 표적당 모든 시험된 pegRNA 중 DeepPrime 점수가 가장 높은 pegRNA의 측정된 PE 효율 백분위수 순위 분포. pegRNA 세트의 개수 n = 9. (D, E) 괄호 안의 백분율은 DeepPrime에 의해 선택된 pegRNA로 해당 순위(D) 또는 백분위수 순위(E)을 가지는 것들의 분율을 나타낸다. (F, G) BRCA2 내 내인성 부위들에서 예측된 프라임에디팅 효율과 실험적으로 측정된 프라임에디팅 효율의 비교. 시험된 pegRNA 및 표적 서열 쌍의 개수(n) = 12(DeepPrime-FT) 및 12(Erwood et al. 2022). 각 측정은 중복의 평균이다. (A-C, F) 상자에서 상단, 중간 및 하단 라인은 각각 25번째, 50번째 및 75번째 백분위수를 나타낸다; 수염은 10번째 및 90번째 백분위수(A-C) 또는 최소값 및 최대값(F)을 나타낸다. (G) 내인성 부위에서 PE2max의 예측된 프라임에디팅 효율과 실험적으로 측정된 프라임에디팅 효율 사이의 상관관계. (H-J) 내인성 부위에서 PE3 및 PE5의 예측된 프라임에디팅 효율과 측정된 프라임에디팅 효율 사이의 상관관계. (G-J) 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA 및 표적 서열 쌍(n)의 개수를 나타내었다. 점선은 추세선을 나타낸다.
도 7. 불일치 표적 서열에서의 프라임에디팅 효율의 고처리량 평가
(A, B) 불일치 표적 서열에서 불일치 위치와 개수가 PE2(A) 및 PE2max(B)의 효율에 미치는 영향. 상대적 편집 효율은 불일치 표적 서열에서의 프라임에디팅 효율을 일치 표적 서열에서의 표적(on-target) 효율로 나누어 계산하였다. (A) 오차 막대는 95% 신뢰 구간을 나타낸다. (C) 시험한 세포주에서 PE2max 및 PE4max에 대한 일반적인 특이도 및 활성. (D) PBS 길이가 불일치 표적 서열에서의 프라임에디팅 효율에 미치는 영향. (E, F, G) RTT 길이(E), 불일치 유형 및 해당 위치(F), 의도된 편집 유형(G)이 불일치 표적 서열에서 프라임에디팅 효율에 미치는 영향. (H) DeepPrime-Off의 미세 조정 기반 개발의 개략도. (I, J) DeepPrime-Off의 평가. 통합 표적 서열(PE2-Off_Test)(I) 및 내인성 부위(J)에서 얻은 데이터를 시험 데이터 세트로 사용했다. 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA의 개수(n)를 나타내었다. (J) 측정된 프라임에디팅 효율이 불일치 부위에서 < 0.1%인 경우, 딥 시퀀싱 오류로 보고, 비표적 프라임에디팅 활성이 없는 것으로 간주했다.
도 8. 도 1과 도 2와 관련하여, 프라임에디팅 효율의 고처리량 평가
(A) 본 연구에서 pegRNA, cDNA 및 넓은 표적 서열 내에서 위치가 지정되는 방식을 보여주는 개략도. pegRNA 내의 위치와 pegRNA로부터 생성된 cDNA는 Cas9 니케이즈의 닉킹 부위에서 시작하여 번호를 매긴다. 넓은 표적 서열 내의 위치는 PAM으로부터 상류의 20번째 뉴클레오티드가 1번 위치가 되고, NGG PAM의 뉴클레오티드가 21-23번 위치가 되도록 지정된다. LHA(left homology arm), 왼쪽 상동성 팔; RHA(right homology arm), 오른쪽 상동성 팔; PAM(protospacer adjacent motif), 프로토스페이서 인접 모티프. (B) Library-ClinVar에 포함된 pegRNA의 선택 과정을 나타내는 개략도. ClinVar 데이터베이스에서 크기가 1에서 3 bps 범위인 병원성 또는 병원성 가능성이 있는 치환, 삽입 및 결실을 선택했다. 표적 서열을 확인하고 PBS 및 RTT 길이가 무작위로 결정된(RTT의 최소 길이는 편집 위치에 따라 결정됨) 후보 pegRNA를 설계하였다. ClinVar 데이터베이스에 있는 대부분의 변이체는 단일 뉴클레오티드 변이체이기 때문에, 2-bp 및 3-bp 변이체를 도입하도록 설계된 pegRNA의 비율은 의도된 1-bp 편집당 표적 서열의 상대적 개수를 줄이고 무작위로 생성된 3-bp 변이체를 추가함으로써 증가시켰다. (C) Library-Profiling(왼쪽) 및 Library-ClinVar(오른쪽)를 사용한 고처리량 실험의 복제본에서 얻은 프라임에디팅 효율 간의 상관관계. 각 점의 색깔은 인접한 점의 밀도에 의해 결정되었다. 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA의 개수(n)를 표시하였다.
도 9. 도 1과 관련하여, PBS, RTT 및 RHA 길이 그리고 마지막 주형 뉴클레오티드가 프라임에디팅 효율에 미치는 영향.
(A) 주어진 PBS 및 RTT 길이에 대한 평균 프라임에디팅 효율을 보여주는 히트맵. 노란색과 녹색 상자는 각각 사용 가능한 모든 RTT 길이로 테스트했을 때 각 PBS 길이에 대해 가장 높은 평균 프라임에디팅 효율, 그리고 그 반대의 경우를 나타낸다. (B) 프라임에디팅 효율에 대한 RHA 길이의 영향을 설명하기 위해 제안된 메커니즘. (C) RHA 길이가 프라임에디팅 효율에 미치는 영향. 히트맵은 다양한 RHA 길이에서 1- 내지 3-bp 치환(Sub), 삽입(Ins) 및 결실(Del)에 대한 평균 프라임에디팅 효율을 나타낸다. (D) 마지막 주형 위치에 있는 뉴클레오티드가 평균 프라임에디팅 효율에 미치는 영향을 보여주는 히트맵. Library-ClinVar의 pegRNA는 RTT 길이와 인코딩된 편집 유형에 따라 집단으로 구성하였다. 히트맵의 각 값은 평균 편집 효율을 나타낸다. (E) 편집 유형이 내인성 부위에서 프라임에디팅 효율에 미치는 영향. 각 점은 각 표적 서열에서 측정된 효율을 나타낸다. 표적 서열의 개수(n) = 편집 유형당 13개. (F) 마지막 주형 위치에서 상이한 뉴클레오티드를 갖는 pegRNA에 의해 유도된 프라임에디팅 효율. 프라임에디팅 효율에서 통계적으로 유의한(P < 0.05, ANOVA 이후 터키 사후 검정) 차이가 없는 실험 집단들의 하위 집합은 평균 프라임에디팅 효율의 순서대로 문자 a, b, c 및 d로 표시하였다. (E, F) 상자에서 위쪽, 중간 및 아래쪽 선은 각각 25번째, 50번째 및 75번째 백분위수를 나타내고 수염은 최소값과 최대값을 나타낸다. 박스 플롯의 더하기 기호는 평균 프라임에디팅 효율을 나타낸다.
도 10. 도 2와 관련하여, 프라임에디팅 효율과 연관된 PBS 및 RHA 특징들
(A) Tree SHAP(SHapley Additive exPlanations)에 의해 결정된 프라임에디팅 효율과 연관된 20가지 가장 중요한 특징들. 요약 바이올린 도표(왼쪽 그래프)는 x축의 위치가 SHAP 값을 반영하도록 각 pegRNA 및 표적 서열 쌍을 점으로 나타낸다. 높은 SHAP 값은 해당 특징이 높은 프라임에디팅 효율과 연관되어 있음을 나타낸다. 빨간색 또는 파란색 점은 각각 관련 특징의 높거나 낮은 값을 나타낸다. 중첩되는 점은 y축 방향으로 약간 떨어뜨려서 밀도가 분명히 보이게 하였다. Tm, 용융 온도. pegRNA 및 표적 서열 쌍의 개수(즉, 요약 플롯에서 특징 당 점의 개수) n = 259,910. (B-G) PBS 관련 특징(B, C) 및 RHA 관련 특징(D-G)이 평균 프라임에디팅 효율에 미치는 영향. (B-G) Library-ClinVar에 포함되어 있는 총 288,793개의 pegRNA가 분석에 사용되었다.
도 11. 도 3과 관련하여, DeepPrime 및 DeepPE에 대한 훈련 데이터 세트의 비교
(A) ClinVar_Train 및 HT_Train에서 PBS-RTT 조합의 범위 비교. 히트맵은 주어진 PBS-RTT 조합에 대한 pegRNA 및 표적 서열 쌍의 개수를 나타낸다. 분석에서 제외된 PBS-RTT 조합들은 회색으로 표시하였다. (B) ClinVar_Train과 HT_Train의 편집 유형, 길이 및 위치의 범위의 비교. 히트맵은 주어진 의도된 편집에 대한 pegRNA 및 표적 서열 쌍의 개수를 나타낸다. 분석에서 제외된 의도된 편집은 회색으로 표시하였다.
도 12. 도 3과 관련하여, 훈련 데이터 세트의 크기에 따른 PE2의 프라임 효율을 예측하는 딥러닝 기반 계산 모델들의 성능
작은 크기의 훈련 데이터 세트는 DeepPrime용 훈련 데이터 세트에서 무작위로 서브샘플링을 수행하여 생성하였다. 편집 유형(A)과 편집 길이(B)에 따른 모델들의 성능을 나타내었다. Y축에 표시된 값들은 5겹 교차 검증의 평균을 나타낸다.
도 13. 도 4와 관련하여, PE2, NRCH-PE2 및 NG-PE2의 PAM 호환성 및 epegRNA가 PE 효율에 미치는 영향
(A-E) 동일한 PAM 서열을 갖는 표적 서열에서 SpCas9 뉴클레아제 및 PE2 변이체의 활성 사이의 상관관계. 64개의 서로 다른 PAM 서열(NXXX, 여기서 X는 바뀜)이 있는 표적 서열에서 SpCas9 변이체에 의해 유도된 평균 인델 빈도 및 PE2 변이체에 의해 유도된 평균 프라임에디팅 효율. 각 점은 NXXX PAM 서열 당 결과를 나타낸다. 피어슨(r) 및 스피어만(R) 상관 계수를 나타내었다. 분석된 PAM 서열의 개수 n = 64. (F-G) 64개의 서로 다른 PAM 서열을 포함하는 표적 서열에서 PE2(F), NRCH-PE2(G) 및 NG-PE2(H)에 의해 유도된 평균 프라임에디팅 효율을 나타내는 히트맵. 이들 64개의 가능한 PAM 서열들 중에서, 평균 프라임에디팅 빈도가 1%보다 높은 서열들은 빨간색(굵은) 윤곽선으로 표시하였다. (I, J) HEK293T 및 A549 세포주에서 pegRNA를 사용했을 때의 프라임에디팅 효율과 epegRNA를 사용했을 때의 프라임에디팅 효율의 비교. epegRNA를 사용했을 때의 프라임에디팅은 프라임에디터의 이름에 "-e"를 추가하여 표시했다(예: PE2max-e). 시험한 표적 및 pegRNA 쌍의 개수(n) = 1,469(I, HEK293T 세포주) 및 2,001(J, A549 세포주). 상자에서 위쪽, 중간 및 아래쪽 선은 각각 25번째, 50번째 및 75번째 백분위수를 나타내고 수염은 최소값과 최대값을 나타낸다. 박스 플롯의 더하기 기호는 평균 프라임에디팅 효율을 나타낸다. (I) 통계적 유의성(paired t-test)을 나타내었다. (J) 프라임에디팅 효율에서 통계적으로 유의한(P < 0.05, ANOVA 이후 터키 사후 검정) 차이가 없는 실험 집단들의 하위 집합은 평균 프라임에디팅 효율의 순서대로 문자 a 및 b로 표시하였다.
도 14. 도 7과 관련하여, 불일치 표적 서열에서의 프라임에디팅 효율의 고처리량 평가와 예측
(A) HEK293T 세포주에서 불일치 표적 서열에서 PE4max 시스템에 의해 유도된 프라임에디팅 효율에 불일치 개수가 미치는 영향. (B) HEK293T, DLD1, A549 및 NIH3T3 세포주 내 불일치 표적 서열에서 PE4max 시스템에 의해 유도된 프라임에디팅 효율에 불일치 위치가 미치는 영향. LM, 우성 음성 형태의 MLH1(MLH1dn)의 렌티바이러스 전달; VM, 조작된 바이러스 유사 입자를 사용한 MLH1dn의 전달. (A, B) 상대적 편집 효율은 불일치 표적 서열에서의 프라임에디팅 효율을 일치 표적 서열에서의 표적(on-target) 효율로 나누어 계산하였다. 이 분석에 사용된 pegRNA에는 11-nt 길이의 PBS와 12-, 20- 또는 30-nt 길이의 RTT가 포함되었으며, 의도된 편집은 pegRNA의 +5 위치에서 인코딩된 G에서 C로의 전환이었다. 표적 서열의 1에서 29번 위치에서 가능한 모든 1-bp 불일치가 1-bp 불일치 집단에 포함되었고, 2-에서 6-bp 불일치 집단에서는 불일치의 유형과 위치가 무작위로 선택되었다(세부 사항에 관하여는 방법 참조). 오차 막대는 95% 신뢰 구간을 나타낸다. (C-E) DeepPrime-Off의 평가. PE-Off_Test 데이터 세트는 의도된 편집 유형(C), RTT 길이(D) 및 편집 위치(E)에 따라 각각 3개, 5개 및 2개의 데이터 하위 집합으로 분할되었다. 이 데이터 하위 집합들을 모델 평가에 사용하였다. (F, G) 비표적 부위를 식별하기 위한 DeepPrime-Off의 적용. 3,571,521쌍의 pegRNA 및 최대 3개의 불일치가 있는 잠재적 비표적 부위에 대한 DeepPrime-Off 점수의 분포. 검은색 화살표(x축 방향)와 보라색 화살표(y축 방향)는 다음과 같이 실험적 평가를 위해 선택된 쌍을 나타내는 것으로서, 이들은 불일치 부위에서 예측된 비표적 효과가 없는 26개의 pegRNA(x축 방향)와 불일치 부위에서 예측된 비표적 효과가 있는 19개의 pegRNA(y축 방향)이다. (G) (F)에서 선택된 45(= 26 + 19)쌍의 실험적 평가. (C-E, G) 피어슨(r) 및 스피어만(R) 상관 계수와 pegRNA 및 표적 서열 쌍(n)의 개수를 나타내었다.
이하 본 발명을 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실시예에 한정되는 것은 아니다.
[방법]
데이터 및 코드 가용성
이 연구의 표적 딥 시퀀싱 데이터는 NCBI Sequence Read Archive(SRA; https://www.ncbi.nlm.nih.gov/sra/)에 accession no. PRJNA906920으로 제출되었다. DeepPrime, DeepPrime-FT 및 DeepPrime-Off의 소스 코드와 프라임에디팅 효율 계산에 사용되는 사용자 지정 파이썬 스크립트는 https://github.com/yumin-c/DeepPrime 및 https://github.com/hkimlab/DeepPrime에서 이용 가능하다.
세포주 배양 및 선별 조건
HEK293T, HCT116, HeLa, DLD1, A549 및 NIH3T3 세포를 10% 태아 소 혈청(FBS, RDT)이 보충된 Dulbecco's Modified Eagle Medium(DMEM, Thermo Fisher Scientific)에서 배양했다. MDA-MB-231 세포주는 10% FBS가 보충된 HEPES(Thermo Fisher Scientific)가 포함된 RPMI 1640 배지에서 배양했다. 모든 세포주는 37℃ 및 5% CO2에서 80% 컨플루언시 미만으로 유지되었고 3-4일마다 계대 배양하였다. PE2- 또는 PE 변이체-인코딩 렌티바이러스로 형질도입된 세포는 10 pg/ml 블라스티시딘 S(BSD)를 사용하여 선별하였고, 쌍별(pairwise) 라이브러리가 있는 세포는 1 pg/ml 퓨로마이신을 사용하여 선별하였다.
올리고뉴클레오티드 라이브러리 설계
pegRNA-표적 서열 쌍을 포함하는 올리고뉴클레오티드 풀은 Twist Bioscience(San Francisco, CA)가 합성하였다. 각 올리고뉴클레오타이드에는 다음과 같은 요소가 포함되어 있는데, 이들은 19-nt 가이드 서열, BsmBI 제한 부위 #1, 10~15-nt의 바코드 서열(바코드 1), BsmBI 제한 부위 #2, RTT 서열, PBS 서열, poly-T 서열, 14~18-nt의 바코드 서열(바코드 2), 그리고 PAM 및 RTT 결합 부위를 포함하는 상응하는 74-nt 넓은 표적 서열이다(도 1A). 바코드 1은 PCR 증폭 동안 주형 전환을 최소화하기 위해 포함되었고, 바코드 2(표적 서열의 상류에 위치)는 딥 시퀀싱 후 개별 pegRNA 및 표적 서열 쌍을 식별하기 위한 것이었다. 서열에 의도하지 않은 BsmBI 제한 부위를 포함하는 올리고뉴클레오티드는 제외되었다.
Library-Profiling의 설계
프라임에디팅 효율에 영향을 미치는 요인을 평가하기 위해, 본 발명자들은 47,839쌍의 pegRNA 및 표적 서열로 구성된 라이브러리를 설계하고, 이를 Library-Profiling이라고 명명하였다. 본 발명자들의 이전 연구(Kim et al., 2019)에서 높은 수준의 SpCas9 유도 인델 빈도를 나타낸 40개의 시드 표적 서열(즉, PAM에 근접한 20개의 뉴클레오티드)을 선택하였는데, 20가지 경우에, 쌍을 이룬 sgRNAs는 70%-75%의 인델 빈도를 유도하였고, 다른 20개의 경우에는 쌍을 이룬 sgRNAs가 50%-55%의 인델 빈도를 유도했다. 이 시드 표적 서열들 각각에 대하여, 다양한 범위의 PBS 및 RTT 길이와 다양한 위치, 길이 및 유형의 편집을 가진 74-nt 넓은 표적 서열(도 1A)과 pegRNA 서열의 쌍들을 준비하였다. BsmBI 절단 부위를 포함하는 총 81개의 올리고뉴클레오티드를 제외하였다. 아래 목록에 자세히 설명된 바와 같이, pegRNA-표적 서열 쌍들을 7개의 그룹으로 분류했다. Library-Profiling 내에서 특정 pegRNA-표적 쌍을 평가했지만 최종 분석에서는 제외했다.
i. PBS 길이의 영향: pegRNA는 길이가 5, 12, 20, 33 및 50 nts로 고정된 RTT를 길이 범위가 1 내지 17 nts인 PBS와 조합하여 포함했다. 의도된 편집은 +5 G에서 C로의 전환으로 설정되었다.
ii. RTT 길이의 영향: pegRNA는 길이가 7, 12, 17nts로 고정된 PBS를 길이 범위가 5 내지 40 nts인 RTT 그리고 길이가 42, 44, 46, 48, 50 nts인 RTT와 조합하여 포함했다. 의도된 편집은 +5 G에서 C로의 전환으로 설정되었다.
iii. 편집 위치의 영향: pegRNA는 12-nt PBS를 길이가 5, 12, 20, 30 및 50 nt인 RTT와 조합하여 포함했으며, 의도된 편집에는 모든 편집 위치에서 가능한 모든 1-bp 치환(A*C*G*T에서 T*G*C*A로)이 포함되었다.
iv. 편집 유형의 영향: pegRNA는 12-nt PBS를 길이 범위가 1 내지 40 nt인 RTT와 조합하여 포함하였으며, 의도된 편집은 닉킹 부위로부터 +1, +5, +12 및 +20 위치에서 1-bp 치환, 3-bp 삽입(AGG 또는 CCT) 또는 3-bp 결실이었다. 최소 RHA 길이는 치환 및 삽입의 경우 0 nt이고 결실의 경우 1 nt였다.
v. PAM 공동 편집의 효과: pegRNA는 12-nt PBS 및 22-nt RTT를 포함하였으며, 닉킹 부위로부터 +1, +2, +3, +4 및 +8 위치에서 A*C*G*T에서 T*G*C*A로의 1-bp 치환을 설치하고, 동시에 +5 및 +6 위치(즉, NGG PAM에서)에서 16개의 가능한 모든 PAM 공동 편집을 설치하도록 설계되었다.
vi. 치환된 뉴클레오티드의 개수의 영향: pegRNA는 12-nt PBS 및 22-nt RTT를 포함했다. 닉킹 부위로부터 +1, +2, +4, +7, +8, +9, +10, +11, +12, +13, +14 위치 중에서, 최대 10개의 편집 위치가 치환 설치를 위해 무작위로 선택되었다. 1 내지 10개의 편집 위치를 무작위로 선택하는 것을 5회 반복하여, 시드 표적 서열 당 55개의 pegRNA를 생성했다.
vii. 삽입되거나 결실된 뉴클레오티드의 개수의 영향: pegRNA는 12-nt PBS 및 22-nt RTT를 포함하였으며, 의도된 편집은 1- 내지 10-, 12-, 15- 또는 20-nt 삽입 또는 1- 내지 10-, 12-, 15-, 20- 또는 30-nt 결실이었다. 편집은 닉킹 부위로부터 +2, +5, +10 및 +15 위치에 설치되도록 설계되었다. 삽입은 유형 I: 'AGGATCGATCCTGTACTTGC' 및 유형 II: 'CCTGACAACGCTTAGACAGA'의 두 가지 주형 서열에서 유도하여, 원하는 크기의 삽입이 주형 서열의 5' 말단에서 스플라이싱되었다. 예를 들어, 의도된 4-bp 삽입은 유형 I 및 유형 II에 대해 각각 AGGA 또는 CCTG를 삽입하기 위한 두 개의 pegRNA를 생성할 것이다.
Library-ClinVar 설계
질병 관련 돌연변이의 설치 및 수정에 대한 프라임에디팅 효율을 평가하기 위해, 본 발명자들은 549,168쌍의 pegRNA 및 표적 서열의 라이브러리를 설계하였다. 본 발명자들은 ClinVar 데이터베이스(2020년 4월 20일 버전)(Landrum et al., 2016)에서 1 내지 3-bp 연속 치환, 삽입 또는 결실로 구성되고 병원성 또는 병원성일 가능성이 있는 것으로 분류된 64,326개의 고유 변이체를 선택했다. 그런 다음, ClinVar 변이체를 설치하거나 수정할 수 있는 60-nt 플랭킹 창 내에서 NGG PAM 서열을 포함하는 가능한 모든 가이드를 추출했다. 각 변이체를 포함하는 74-nt 표적 서열을 추출하고, PBS 길이(1~17nt)와 RTT 길이(변이체를 편집하는 데 필요한 최소 길이부터 최대 50 nt까지의 범위)의 모든 가능한 조합들로 편집 창 범위를 +1 내지 +30까지로 하여 pegRNA를 설계했다. 최종 pegRNA 라이브러리는 각 시드 표적에 대해 무작위로 선택된 8개의 pegRNA로 구성되었다. ClinVar 데이터베이스에서 나온 변이체들 대부분이 단일 뉴클레오티드 변이체였기 때문에, 1-bp 편집이 필요한 표적 서열의 상대적인 개수를 줄임으로써 2-bp 및 3-bp 변이체를 도입하기 위한 pegRNA의 비율이 증가했다. 3-bp 삽입 및 치환에 있어서는, 이러한 변이체 유형에 대한 표적 서열의 수가 제한되어 있기 때문에, 무작위로 생성된 변이체들이 포함되었다. 마지막으로, 내부 BsmBI 절단 부위가 있는 올리고뉴클레오티드는 선별 과정에서 제거했다.
Library-Small의 설계
다양한 세포주에서 기존 또는 최적화된 스캐폴드를 사용하여 PE 변이체 및 pegRNA의 편집 효율을 평가하기 위해, 본 발명자들은 6,000쌍의 pegRNA 및 표적 서열로 구성된 Library-Small을 구성했다. 먼저, ClinVar_Train 데이터 세트에서 2,990개의 pegRNA-표적 서열 쌍(질병 모델링의 경우 1,495쌍, 치료제의 경우 1,495쌍)을 선택하였는데, 절반은 무작위로 선택하였고 나머지 절반은 0%, 0~1%, 1~5% 및 5% 이상의 편집 효율 범위들에서 비례적으로 선택했다. 또한 PE 변이체들의 PAM 호환성을 결정하기 위해 NGG PAM 서열을 NNN으로 무작위로 변경하여 2,990개의 추가적인 pegRNA 및 표적 서열 쌍들을 준비했다. 마지막으로, 본 발명자들의 이전 연구에서 가장 높은 편집 효율을 보인 20개의 pegRNA가 양성 대조군으로서 5배 중복(5 x 4 pegRNA)으로 포함되었다.
Library-epegRNA의 설계
조작된(engineered) pegRNA(epegRNA)의 편집 효율을 평가하기 위해서, 상응하는 표적 서열과 쌍을 이루는 6,000개의 epegRNA 서열(각각 3' 말단에 8-nt 링커 및 tevopreQ1 구조 모티프를 가짐)로 구성된 Library-epegRNA를 구성했다. 추가된 링커를 제외하고, 이 6,000개의 epegRNA 서열은 Library-Small의 pegRNA 서열과 동일했다. 각 epegRNA에 대한 8-nt 링커 서열은 pegRNA 링커 식별 도구 (pegLIT: pegRNA Linker Identification Tool)을 사용하여 설계하였다.
Library-Off의 설계
프라임에디팅의 특이성에 영향을 미치는 요인들을 평가하기 위해, 본 발명자들은 완전 일치 및 불일치 표적 서열과 쌍을 이루는 pegRNA 서열로 구성된 Library-Off를 구성했다. 본 발명자들의 이전 및 현재의 고처리량 연구에서 높은 프라임에디팅 효율을 보인 pegRNA를 선택했다. 프라임 효율 특이성에 영향을 미치는 요인을 체계적으로 조사하기 위해, Library-Off의 구성 요소를 6개 그룹으로 구성했다. 각 그룹은 프라임에디팅 특이성의 다른 측면을 다루기 위해 특정 불일치 패턴 또는 pegRNA 특성을 가진 40개의 표적(on-target) 시드 서열로 구성되었다. 해당 표적들에는 높은 효율을 보인 공통 시트 서열이 이전 연구에서 4개 그리고 현재 연구에서 31개 포함되었으며, 이에 더해 5개의 공통 시드 서열이 포함되었다. 그러나, 표적 서열에 2개 이상의 불일치가 있는 경우, 프라임에디팅 특이성을 보다 면밀히 조사하기 위해 10개의 추가 시드 서열을 포함시켰다. Library-Off는 다른 분석에 사용된 올리고뉴클레오티드 또는 내부 BsmBI 절단 부위를 포함하는 올리고뉴클레오티드를 제외하고, 총 48,263개의 pegRNA-표적 쌍으로 구성되었다. 각각의 비표적 프로파일링 그룹을 아래에서 자세히 설명한다.
i. 단일 염기 분해능에서 불일치 위치의 영향: 표적 서열은 pegRNA와 상호작용하는 모든 영역에 상응하는 모든 표적 서열 위치(1~29)에서 1-bp 불일치의 영향을 조사하도록 설계되었다. pegRNA는 11-nt PBS 및 12-nt RTT로 설계되었으며, 의도된 편집은 +5 G에서 C로의 전환으로 설정되었다.
ii. RTT 길이의 영향: pegRNA는 11-nt PBS를 길이가 10, 12, 15, 20 및 30 nt인 RTT와 조합하여 포함했다. 표적 서열의 불일치는 2, 5, 9, 17, 19, 25, 28, 31, 35 및 44번 위치에 분포되었다. 의도된 편집은 +5 G에서 C로의 전환으로 설정되었다.
iii. PBS 길이의 영향: pegRNA는 12-nt RTT를 길이가 7, 11 및 15 nt인 PBS와 조합하여 포함했다. 표적 서열의 불일치는 PBS에 상응하는 영역 및 19, 21, 23, 25 및 28번 위치에 분포되었다. 의도된 편집은 +5 G에서 C로의 전환으로 설정되었다.
iv. 편집 유형이 비표적(off-target) 프라임에디팅에 미치는 영향: pegRNA는 11-nt PBS 및 12-nt RTT를 포함했다. 의도된 편집은 1-bp 전환(GC*AT), 1-bp 결실 및 G 삽입과 함께 +5 G에서 C로의 전환을 유도하거나, 또는 두 가지 유형의 1-bp 전환(GC*AT와 GT *AC)과 1-bp 전이(AG*CT)을 닉킹 부위로부터 각각 +1 또는 +9 위치에서 유도하도록 설정되었다. 표적 서열의 불일치는 2, 5, 9, 17, 18, 25 및 28번 위치에 분포하였다.
v. 불일치 개수의 영향: 이러한 조건에서 프라임에디팅을 평가하기 위해 pegRNA에 대해 2~6개의 불일치가 있는 표적을 설계했다. pegRNA는 11-nt PBS를 길이가 12, 20 및 30 nt인 RTT와 조합하여 포함했다. 의도된 편집 유형은 +5 G에서 C로의 전환으로 설정되었다. 1~29번 표적 위치에서(pegRNA가 12nt RTT를 포함할 때 pegRNA 결합 영역에 상응하는 모든 위치), 본 발명자들은 무작위로 2~6개 위치를 선택하여 불일치를 도입했다. 12-nt RTT를 포함하는 pegRNA의 경우, 두 개의 불일치 위치를 갖는 100개의 시드 표적을 선택하고, 나머지 불일치 개수(3~6개)에 대하여 50개의 시드 표적을 선택하였다. 20- 또는 30-nt RTT를 포함하는 pegRNA의 경우, 각각의 테스트된 불일치 개수(2~6개)에 대해 10개의 시드 표적을 선택했다.
vi. 비표적(off-target) 대조군: 이전에 보고된(Kim et al., 2020a) pegRNA-불일치 표적 쌍을 대조군으로 포함시켰다.
플라스미드 라이브러리 제작
pegRNA-암호화 서열 및 상응하는 표적 서열의 쌍을 포함하는 플라스미드 라이브러리를 다음과 같은 2단계 클로닝 공정을 사용하여 제조하였다. (단계 I) 깁슨 조립 및 (단계 II) 제한 효소-유도 절단 및 결찰. 이전에 보고된 방법(Shen et al., 2017)에서 채택 및 수정된 2단계 클로닝 절차를 사용하여, PCR을 통한 올리고뉴클레오티드 증폭 동안 쌍을 이룬 가이드 서열과 표적 서열 사이의 분리를 방지하였다(Du et al., 2017).
단계 I: pegRNA-암호화 서열 및 표적 서열 쌍을 포함하는 초기 플라스미드 라이브러리의 구성. 각각의 경우에, 올리고뉴클레오티드 풀을 Phusion Polymerase(NEB)를 사용하여 PCR을 통해 15 사이클로 증폭하고 겔 정제하였다. Lenti_gRNA-Puro 플라스미드(Addgene #84752) 및 Lenti_gRNA-Puro-hMLHdn 플라스미드를 BsmBI 효소(NEB)로 55°C에서 최소 3시간 동안 분해했다. 이어서, 선형화된 벡터를 Quick CIP(NEB, M0525L) 1㎕로 37℃에서 10분 동안 처리한 후 겔 정제를 수행하였다. Gibson 조립을 사용하여, 선형화된 Lenti_gRNA-Puro 또는 Lenti_gRNA-Puro-hMLHdn 벡터와 함께 증폭된 올리고뉴클레오티드 풀을 조립하였다. 이소프로판올 침전을 사용하여 조립된 생성물을 농축한 다음 MicroPulser(BioRad)를 사용하여 전기천공가능(electrocompetent) 세포(Lucigen)로 형질전환했다. 그 다음 SOC 배지를 형질전환 혼합물에 첨가하고, 이를 37℃에서 1시간 동안 배양하였다. 이어서, 세포를 도말하고 50 pg/ml 카르베니실린을 함유한 Luria-Bertani(LB) 한천 플레이트에서 인큐베이션했다. 배양물의 작은 분획(0.1, 0.01 및 0.001 ㎕)을 라이브러리 커버리지를 결정할 수 있도록 별도로 도말하였다. QIAGEN Plasmid Maxi 키트(QIAGEN)를 사용하여 수확된 전체 콜로니에서 플라스미드를 추출하였다. 이러한 초기 플라스미드 라이브러리의 계산된 커버리지는 Library-Profiling/ClinVar, Library-Off, Library-Small-PE2 및 Library-Small-PE4에 대한 각각의 라이브러리 내 올리고뉴클레오티드 수의 각각 986X, 2,486X, 2,210X 및 500X였다.
단계 II: sgRNA 스캐폴드 삽입. 각각의 경우에, 단계 I에서 생성된 초기 플라스미드 라이브러리를 BsmBI로 최소 6시간 동안 분해한 후, 37℃에서 10분 동안 Quick CIP 1㎕로 처리하였다. 분해된 생성물을 0.6% 아가로스 겔 상에서 크기 선택 후 겔 정제하였다. 이어서, 기존 또는 최적화된 스캐폴드 서열을 포함하는 삽입 DNA 단편을, 각각 lentiGuide-Puro 플라스미드(Addgene #52963) 또는 화학적으로 합성된 올리고뉴클레오티드(IDT)로부터, Phusion DNAB 폴리머라아제 그리고 BsmBI 인식 서열을 포함하는 프라이머 세트를 사용하여 PCR 증폭하였으며, 이어서 T-블런트 벡터 클로닝(Solgent)을 수행하였다. T-블런트 벡터를 최소 12시간 동안 BsmBI로 절단하고, 2% 아가로스 겔에서 겔 정제하여 적절한 5'- 및 3'-오버행을 갖는 기존의 또는 최적화된 스캐폴드 서열을 분리하였다. 정제된 삽입물을, T4 리가아제(Enzynomics)를 사용하여 16℃에서 3시간 동안, 분해된 초기 플라스미드 라이브러리 벡터와 결찰시켰다(벡터:삽입물 = 1:10, w/w). 결찰 생성물을 이소프로판올 침전을 통해 정제하고, Endura 전기천공가능(electrocompetent) 세포(Lucigen)로 전기천공하였다. 콜로니를 수확하고 최종 플라스미드 라이브러리를 QIAGEN Plasmid Maxi 키트를 사용하여 추출했다. 이러한 초기 플라스미드 라이브러리의 계산된 커버리지는 Library-Profiling/ClinVar, Library-Off, 기존 스캐폴드를 포함하는 Library-Small, 최적화된 스캐폴드와 hMLHIdn를 포함하는 Library-Small의 올리고뉴클레오티드 수의 각각 353X, 6,371X, 6,015X, 8,630X 및 1,183X였다.
PE 변이체-암호화 플라스미드의 제작
pLenti-PE2-BSD(Addgene #161514) 및 pLenti-NG-PE2-BSD(Addgene #176933) 플라스미드를 사용하여 각각 PE2 및 NG-PE2에 의해 유도된 프라임에디팅 효율을 평가하였다. 다른 PE 변이체 암호화 플라스미드의 생성을 위해, pLenti-PE2-BSD 플라스미드를 XbaI 및 EcoRI 제한 효소(NEB)로 절단하고 1 μL의 Quick CIP로 37°C에서 10분 동안 처리했다. 각각 pCMV-PEmax-P2A-BSD(Addgene #174821) 및 pCMV-Cas9-NRCH(Addgene # 136926)에서 온 PE2max 및 Cas9-NRCH 인코딩 서열을 Phusion High-Fidelity DNA Polymerase를 사용하여 PCR로 증폭했다. 생성된 앰플리콘과 분해된 pLenti-PE2-BSD 백본 벡터를 1% 또는 2% 아가로스 겔 전기영동을 통해 분리하고, MEGAquick-spin™ Plus Total Fragment DNA Purification Kit(iNtRON Biotechnology, 17290)를 사용하여 정제하고, 제조사의 프로토콜에 따라 NEBuilder HiFi DNA 어셈블리 마스터 믹스(NEB, E2621L)를 사용하여 조립하였다. PE2max, NRCH-PE2 및 NRCH-PE2max를 암호화하는 조립된 플라스미드들을 각각 pLenti-PE2max-BSD, pLenti-NRCH-PE2-BSD 및 pLenti-NRCH-PE2max라고 부른다.
렌티바이러스의 생성
HEK293T 세포를 DMEM이 포함된 100-mm 또는 150-mm 세포 배양 접시(55,000개 세포/cm2)에 시딩했다. 15시간 후, DMEM을 25μM 클로로퀸 디포스페이트를 포함하는 새로운 배지로 교환한 후, 해당 세포를 최대 5시간 동안 배양하였다. 전이 플라스미드, psPAX2(Addgene #12260) 및 pMD2.G(Addgene #12259)를 4:3:1의 중량비로 혼합하고, PEI MAX(Polysciences)를 사용하여 HEK293T 세포에 공동 형질감염시켰다. 형질감염 후 15시간에, 배양 배지를 신선한 유지 배지로 교체하였다. 형질감염 후 48시간에, 렌티바이러스 함유 상등액을 수집하고, Millex-HV 0.45-μm 저단백질 결합막(Millipore)을 통해 여과하고, 분주한 후, -80℃에 보관하였다. 바이러스 역가를 결정하기 위해, 바이러스 분취의 연속 희석물을 폴리브렌(8 μg/ml)의 존재 하에 세포로 형질도입하였다. 형질도입되지 않은 세포와 연속적으로 희석된 바이러스로 형질도입된 세포 모두 퓨로마이신(Invitrogen)의 존재하에 유지하였다. 형질도입이 이루어지지 않은 거의 모든 세포가 죽었을 때, 생존 세포의 수를 세어 이전에 설명한 바와 같이 바이러스 역가를 추정했다(Shalem et al., 2014).
PE2- 및 PE 변이체-발현 세포주의 제작
본 발명자들은 이전 연구에서 생산된 PE2 발현 HCT116 및 MDA-MB-231 세포주를 채택했다. PE2- 또는 PE 변이체-발현 HEK293T, HeLa, DLD1, A549 및 NIH3T3 세포의 생성을 위해, PE2- 또는 PE 변이체-암호화 렌티바이러스를 0.8 μg/mL의 폴리브렌과 함께 0.3의 MOI로 세포에 형질도입하였다. 형질도입 후 24~48시간에, 형질도입되지 않은 세포를 10 μg/mL의 BSD를 사용하여 제거하였다. BSD 선별 후, PCR 및 Sanger 시퀀싱을 사용하여 PE2- 및 PE 변이체 암호화 서열의 렌티바이러스 전달을 확인했다. 각 세포주는 10 μg/ml의 BSD로 지속적으로 유지되었다.
PE2, PE2max, NRCH-PE2 및 NRCH-PE2max의 고처리량 평가
렌티바이러스 플라스미드 라이브러리 형질도입 전 24시간에, PE2- 또는 PE 변이체-발현 세포를 150-mm 배양 접시에 시딩하였다. 다음으로, PE2- 또는 PE-변이체 발현 세포를 8 μg/ml의 폴리브렌과 함께 0.5의 MOI에서 pegRNA-표적 쌍별 라이브러리로 형질도입하였다. Library-Profiling 및 Library-ClinVar에 대해 pegRNA-표적 서열 쌍 수보다 500배 이상의 커버리지를 달성하기 위해, 총 6x108개 세포를 사용하였으며; Library-Small, Library-epegRNA 및 Library-Off에 대해 2,000X 커버리지를 달성하기 위해, Library-Small 및 Library-epegRNA에 총 2.4 x 106 개 세포를, 그리고 Library-Off에 2 x 108개 세포를 사용했다. 형질도입 후 12시간에, 배양 배지를 10% FBS 및 2 μg/ml 퓨로마이신을 함유하는 DMEM으로 교체하였다. Library-Small 및 Library-epegRNA의 경우 형질도입 후 7일에, Library-Profiling 및 Library-ClinVar의 경우 형질도입 후 8일에, Library-Off의 경우 형질도입 후 10일에 세포를 수확했다.
PE4max 및 NRCH-PE4max 시스템의 고처리량 평가
Library-Small을 사용하여 HEK293T 세포에서 PE4max 및 NRCH-PE4max 유도 편집 효율의 고처리량 평가를 위해, 본 발명자들은 hMLH1dn 인코딩 플라스미드의 일시적 형질감염을 사용하여 hMLH1dn을 전달했다. pEGIP 플라스미드(Addgene #26777)를 EcoRV(NEB)로 절단하고 각각 pEGIP 및 pEF1a-hMLH1dn에서 온 eGFP- 및 hMLH1dn-암호화 서열을 PCR로 증폭했다. 이 선형화된 플라스미드 및 두 개의 삽입물을 Gibson 조립하여, pLenti-EF1a-hMLH1dn-eGFP(Addgene#191104)를 구축하였다. 고처리량 실험을 위해, PE2max를 발현하는 HEK293T 세포 3.6 x 107개를 3개의 150-mm 배양 접시에 시딩하고 PEI를 사용하여 30 μg의 pLenti-hMLHIdn-eGFP 플라스미드로 형질감염했다. 형질감염 후 12시간에, 세포를 0.5의 MOI에서 8 μg/ml의 폴리브렌을 사용하여 Library-Small로 감염시켰다. 퓨로마이신을 사용하여 세포를 선별하고, Library-Small 형질도입 후 7일에 수확했다.
Library-Small을 사용하여 DLD1, A549 및 NIH3T3 세포에서 PE4max 및 NRCH-PE4max 유도 편집 효율을 평가하기 위해, 렌티바이러스 벡터를 사용하여 hMLH1dn을 세포에 전달했다. pLenti-gRNA_Puro를 BsiWI-HF(NEB)를 사용하여 절단하고, Gibson 조립을 사용하여 pEF1a-hMLH1dn(Addgene #174824)에서 증폭된 MLH1dn-암호화 서열과 조립하였다. 조기 전사 종료를 억제하기 위해, hMLH1dn의 I34 위치에 침묵 돌연변이를 도입하여 AATAAA 신호 서열을 파괴했다. 생성된 플라스미드, 즉 pLenti-gRNA-hMLHIdn-Puro라고 명명한 플라스미드를 55℃에서 6시간 동안 BsmBI로 절단하고 "플라스미드 라이브러리 제작" 부분에 설명한 바와 같이 Library-Small-hMLH1dn의 제작에 사용했다. 형질도입 전 24시간에 PE2max- 또는 NRCH-PE2max-발현 세포를 150-mm 배양 접시에 시딩하였다. 세포를 8 μg/ml의 폴리브렌과 함께 0.5의 MOI에서 Library-Small-hMLH1dn으로 형질도입하였다. 형질도입 후 48시간에, 배지를 퓨로마이신을 포함하는 신선한 배지로 교환하였다. 형질도입 후 7일에 세포를 수확하고 딥 시퀀싱을 수행했다.
Library-Off를 사용하여 PE4 시스템을 평가하기 위해, 렌티바이러스 벡터 또는 조작된 바이러스 유사 입자(engineered virus-like particle, eVLP)를 사용하여 HEK293T, DLD1, A549 및 NIH3T3 세포에 hMLHIdn을 전달했다. 렌티바이러스 벡터를 생성하기 위해, Agel과 Mlul을 사용하여 pLenti-EF1a-hMLH1dn-eGFP를 절단하고 하이그로마이신 B 내성 유전자(Hygro)-P2A-hMLHIdn과 결찰했다. 생성된 플라스미드, 즉 pLenti-EF1a-hMLH1dn-Hygro로 명명된 플라스미드는 렌티바이러스 생산에 사용하였다. 다음으로, PE2max-발현 HEK293T, DLD1 및 A549 세포주를 hMLH1dn-P2A-Hygro-암호화 렌티바이러스로 형질도입한 후, 세포를 100 μg/ml 하이그로마이신에서 선택했다. eVLP-매개 hMLH1dn 전달을 위해, pCMV-MMLVgag-3xNES-Cas9(Addgene#181752)를 백본 벡터로 사용하고 pLenti-EF1a-hMLH1dn-Hygro의 hMLH1dn-암호화 서열을 삽입하여 pCMV-MMLV-gag-hMLH1dn이라고 명명한 플라스미드를 생성했다. hMLH1dn을 포함하는 eVLP를 생성하기 위해, HEK293T 세포를 150-mm 배양 접시에 시딩하고(1.2 x 107개 세포/접시), 16-20시간 동안 인큐베이션했다. 다음으로, pCMV-VSV-G(Addgene #8454), pBS-CMV-gagpol(Addgene #35614) 및 pCMV-MMLV-gag-hMLH1dn 플라스미드를 8.2:73.5:18.4의 비율로 조합하여 총 25 μg을 생성하고, 제조자의 지시에 따라 Lipofectamine 2000을 사용하여 세포에 형질감염시켰다. 형질감염 6시간 후, 배양 배지를 신선한 DMEM 20 ml로 교체하고, 추가로 40시간 후에, eVLP가 포함된 배지를 수확하고, 600 g에서 5분 동안 원심분리하여 세포 파괴물을 제거하였다. 다음으로, hMLH1dn-eVLP를 포함하는 상등액을 수집하고 4℃에서 보관하였다. eVLP-매개 hMLH1dn 전달을 위해, PE2max-발현 HEK293T, DLD1, A549 및 NIH3T3 세포에 7 내지 10 ml의 hMLHIdn-eVLP를 사용하여 형질도입하였다.
편집의 유형이 프라임에디팅 효율에 미치는 영향을 평가하기 위한 pegRNA 설계
내인성 부위에서의 편집 유형이 프라임에디팅 효율에 미치는 영향을 확인하기 위해(도 9E), 측정된 효율이 높은(15~35%) 13개의 pegRNA를 선택하여 ClinVar_Train 데이터세트로부터 병원성/병원성일 가능성이 있는 1-bp 치환을 생성하였다. 각각의 1-bp 치환 유도 pegRNA에 대해, 동일한 RHA 길이를 가진 두 개의 추가 pegRNA를 생성하였는데, 이들은 표적 부위의 동일한 위치에서 1-bp 삽입 또는 결실을 도입하도록 설계되었다.
pegRNAs의 합리적 설계
ClinVar 돌연변이 모델링을 위한 pegRNA의 합리적 설계는 다음과 같이 수행되었다.
1) 의도된 편집의 +/- 60 nt 내에서 NGG PAM을 찾은 후, PAM에 의해 결정된 스페이서를 사용하여 가능한 모든 pegRNA를 설계한다. 최대 RTT 길이는 40 nt이다.
2) pegRNA의 스페이서를 기준으로, DeepSpCas9 ≥ 30인 것만 선택한다. 전체 pegRNA 중 DeepSpCas9 점수가 30 이상인 pegRNA가 없다면, 전체 스페이서 중 DeepSpCas9 점수가 가장 높은 스페이서 하나만 선택하고 그 스페이서로 구성된 pegRNA만 선택한다.
3) 단계 2에서 선택한 pegRNA 중, 편집 위치를 +5 또는 +6로만 선택한다. 없다면 이 과정을 생략한다.
4) 단계 3에서 선택한 pegRNA 중, RHA 길이가 7 이상인 것들 중에서, 마지막 주형 뉴클레오티드가 'C'이고 가장 짧은 RTT를 선택한다. 모든 pegRNA의 RHA 길이가 6 이하라면, RHA 길이가 가장 긴 RTT를 선택한다.
5) 단계 4에서 선택한 RTT가 12보다 작거나 같으면 PBS 길이 11을 선택하고, RTT가 13보다 크거나 같으면 PBS 길이 12를 선택한다.
비표적(off-target) 부위 후보의 선택
ClinVar에서 보고된 병원성 돌연변이의 PE2max 기반 생성 및 수정과 관련된 비표적(off-target) 효과를 조사하기 위해, 본 발명자들은 288,793개의 pegRNA의 효율을 평가하고 그 중 프라임에디팅 효율이 > 5%인 45,691개를 식별했다. 이 45,691개의 pegRNA에 대한 잠재적인 비표적 부위를 식별하기 위해, Cas-OFFinder를 사용하여 가이드 서열 내에서 최대 3개의 불일치를 허용하여 3,625,682개의 pegRNA와 잠재적인 비표적 부위의 쌍들을 식별했다. 본 발명자들은 DeepPrime-Off를 사용하여 이 3,625,682 쌍에서 프라임에디팅 효율을 예측했으며, 그 중 대다수(3,196,758, 88%)는 비표적 효과가 없을 것으로 예상되었다. 빈도 > 0%로 프라임에디팅 효과를 유도할 것으로 예측된 19쌍과, 프라임에디팅 효과를 유도하지 않을 것으로 예측된 26쌍을 선택했다. 아래에 설명된 바와 같이, 본 발명자들은 내인성 부위에서 개별 프라임에디팅 실험을 수행하여 비표적 효과가 발생하는지 여부를 평가했다.
내인성 부위에서의 프라임에디팅
내인성 부위에서의 프라임에디팅 효율을 측정하기 위해, 최적화된 pegRNA 스캐폴드가 있는 총 77개의 pegRNA를 암호화하는 서열을 pU6-pegRNA-GG-acceptor(Addgene #132777)에 클로닝했다. 편집 유형의 효과를 확인하고(도 9E) BRCA2에서 편집 효율을 평가하기 위해(도 6F), HEK293T 세포를 22시간 전에 웰 당 5.0x104 세포의 밀도로 48-웰 플레이트에 시딩했다. 제조업체의 지시에 따라, PE2max를 인코딩하는 플라스미드(pLenti-EF1a-PE2max-BSD, 300ng)와 pegRNA를 인코딩하는 플라스미드(100 ng)의 혼합물로 세포를 0.8 μL의 Lipofectamine 3000과 0.6 μL의 P3000 시약을 사용하여 형질감염시켰다. 밤새 인큐베이션한 후, 배양 배지를 퓨로마이신(2 μg ml-1)을 포함하는 DMEM으로 교체하였다. 형질감염 후 7일에 세포를 수확하였다. 비표적(off-target) 프라임에디팅 빈도를 결정하기 위해(도 14G), HEK293T 세포를 22시간 전에 웰 당 1.0 x 105개 세포의 밀도로 48-웰 플레이트에 시딩하였다. PE2max 및 pegRNA를 암호화하는 플라스미드를 상기 기재한 바와 같이 전달하고, 형질감염 후 6일에 세포를 수확하였다.
딥 시퀀싱
고처리량 실험에서의 프라임에디팅 효율 분석을 위해, Wizard genomic DNA Purification kit(Promega)를 사용하여, 수확된 세포로부터 유전체 DNA를 추출했다. Library-Profiling 및 Library-ClinVar의 경우, HEK293T 세포의 게놈 DNA 5,760 μg를 PCR에 사용하여 960X보다 큰 커버리지를 달성했는데, 이는 106개 세포 당 10 μg의 유전체 DNA가 있다고 가정한 것이다. 200 nM의 각 프라이머 세트, 10 μg 유전체 DNA 및 25 μL 2X Taq PCR Smart mix(SolGent)를 사용하여 총 576개의 독립적인 50-μl PCR 반응을 수행하였는데, 그 조건은 다음과 같다: 95°C에서 10분 후, 95°C에서 30초, 60°C에서 30초, 72°C에서 40초로 구성된 사이클 22회, 이어서 72°C에서 5분 동안 최종 신장. Library-Small 및 Library-Off 모두에 대해 2,000X보다 큰 커버리지를 생성하기 위해, 각 샘플에 대해 각각 최소 120 μg 및 1 mg의 유전체 DNA를 사용하여 PCR을 수행했다. Library-Small 및 Library-Off에 대해 각각 총 24회 및 200회의 독립적인 50-μl PCR 반응을 수행하였는데, 5 μg의 유전체 DNA, 500 nM의 각 프라이머 세트, 200 μM의 dNTP, DNA 중합효소 및 반응 완충액를 사용하였다. Library-Small 및 Library-Off에 대해 각각 1~2U의 Q5 High-Fidelity DNA 중합효소 및 Phusion DNA 중합효소를 다음과 같은 조건에서 사용하였다: Q5 High-Fidelity DNA 중합효소의 경우, 98°C에서 5분, 이어서 98°C에서 30초, 57 또는 60°C에서 30초, 72°C에서 40초로 구성된 사이클 25회, 이어서 72°C에서 5분 동안 최종 신장. Phusion DNA 중합효소의 경우, 95°C에서 10분, 이어서 95°C에서 30초, 57°C에서 30초, 72°C에서 40초로 구성된 사이클 25회, 이어서 72°C에서 5분 동안 최종 신장. PCR 산물을 모아 MEGAquick-spin Total Fragment DNA Purification Kit(iNtRON Biotechnology)로 겔 정제하고 NovaSeq(Illumina)를 사용하여 서열 분석을 수행하였다.
내인성 부위에서의 프라임에디팅 효율을 측정하기 위해(도 9E도 6F), 세포를 100 μL의 용해 완충액(10 mM Tris-HCl, pH 7.0, 0.05% SDS 및 25 μg/ml 프로테이나제K)에서 37℃에서 1시간 동안 용해하였다. 이어서 해당 용해물을 80°C에서 15분 동안 인큐베이션하여 효소를 변성시켰다. 첫 번째 PCR은 25 μL의 2X Taq PCR Smart mix, 5 μL의 세포 용해물 및 200 nM 프라이머 세트를 사용하여 50 μL의 반응 부피에서 수행하였는데, 조건은 다음과 같다: 95°C에서 1분, 이어서 95°C에서 30초, 60°C에서 30초, 72°C에서 30초로 구성된 사이클 35회, 이어서 72°C에서 2분간 최종 신장. Illumina 어댑터 서열을 추가하기 위해, 0.5 μL의 첫 번째 PCR 생성물, 25 μL의 2X Taq PCR Smart mix 및 200 nM 프라이머 세트를 사용하여 총 반응 부피 50 μL로 두 번째 PCR을 수행하였는데, 조건은 다음과 같다: 95°C에서 1분, 이어서 95°C에서 30초, 60°C에서 30초, 72°C에서 30초로 구성된 사이클 12회, 이어서 72°C에서 2분 동안 최종 신장. 잠재적인 비표적(off-target) 부위 분석을 위해(도 14G), Wizard 유전체 DNA 정제 키트(Promega)를 사용하여 수확된 세포로부터 유전체 DNA를 추출하였다. 그런 다음, 유전체 DNA 80~100 ng, 200 nM 프라이머 세트, Q5 High-Fidelity DNA Polymerase (NEB)로 첫번째 PCR 반응을 수행하였는데, 조건은 다음과 같다: 98°C에서 1분, 이어서 98°C에서 30초, 60°C에서 30초, 72°C에서 30초로 이루어진 서아쿨 12회, 이어서 72°C에서 2분 동안 최종 신장. 두 번째 PCR 반응의 경우, 첫 번째 PCR 산물 2 μL를 Q5 High-Fidelity DNA Polymerase와 200 nM 인덱싱 프라이머 세트를 사용하여 총 반응 부피 50 μL로 증폭했는데, 조건은 다음과 같다: 98°C에서 1분, 이어서 98°C에서 30초, 60°C에서 30초, 72°C에서 30초로 이루어진 사이클 12회, 이어서 72°C에서 2분 동안 최종 신장. 두 번째 PCR의 산물을 겔 정제하고 딥 시퀀싱을 수행하였다. Illumina 어댑터와 고유한 i7 및 i5 바코드를 포함한 PCR 프라이머를 사용하여, 유전체 DNA에서 pegRNA-암호화 영역, 통합 바코드 및 표적 서열을 PCR 증폭했다.
프라임에디팅 효율의 분석
딥 시퀀싱 데이터 분석을 위해, 이전 연구(Kim et al., 2021)에서 채택 및 확장된 자체 제작 파이썬 스크립트를 사용했다. 각 pegRNA 및 표적 서열 쌍은 36-nt 서열(pegRNA의 PBS 도메인을 포함하는 12-nt 서열 + 18-nt 바코드 + 4-nt 5' 표적 서열의 이웃 서열 및 2-nt 5' 표적 서열을 포함하는 6-nt 서열로 구성됨)을 통해 확인되었다. 넓은 표적 서열 내에서 의도하지 않은 돌연변이 없이 지정된 편집을 포함하는 판독은 PE2 유도 돌연변이를 나타내는 것으로 간주되었다. 어레이 합성 및 PCR 증폭 과정에서 발생하는 배경(background) 프라임에디팅 빈도를 제외하기 위해, 아래와 같이 PE2가 없을 때 결정된 배경 프라임에디팅 빈도를 사용하여 관찰된 프라임에디팅 빈도를 정규화했다.
딥 시퀀싱 데이터를 필터링하여 분석의 정확성을 높였다. 딥 시퀀싱 판독 수가 200 미만이거나 배경 프라임에디팅 빈도가 5% 이상인 pegRNA 및 표적 서열 쌍은 이전에 보고된 바와 같이 제외되었다(Kim et al., 2021). 무작위 오류로 인한 결과의 노이즈를 줄이기 위해 필터링 단계들을 적용했다. 먼저, 고처리량 시퀀싱 판독들을 바코드에 따라 WT 또는 편집된 판독으로 분류하였다. 그런 다음, 무작위 오류가 포함된 WT 판독 또는 예상되는 의도된 편집 이외의 변이체를 포함하는 편집된 판독을 제거하였다. 총 200회 미만의 WT 및 편집된 판독은 연구에서 모두 제거되었으며, PE2로 처리되지 않은 해당 표본에서 프라임에디팅 배경 빈도가 5% 미만인 것만 고려하였다. Library-ClinVar, -Profiling, -Small, -epegRNA 및 -Off에 대하여, 바코드로 분류된 복제물의 고처리량 시퀀싱 판독의 수를 결합하고 PE 효율 데이터를 얻었다.
불일치 표적 서열에서의 프라임에디팅 효율의 분석
불일치 표적 서열에서의 편집을 분석하기 위해, 본 발명자들은 편집이 있는 서열을 i) 의도된 편집만으로 구성된 불완전 편집, ii) 상응하는 RTT 영역의 불일치 뉴클레오티드에서의 편집으로만 구성된 불완전 편집, 그리고 iii) 둘 다를 포함하는 완전한 편집의 세 그룹으로 분리하였다. 원하지 않는 표적 부위에서의 변경 사항은 어느 것이든 프라임에디팅에 좋지 않을 수 있으므로, 완전한 편집의 효율을 상기 두 가지 유형의 불완전 편집의 빈도와 결합하여 비표적 프라임에디팅 효율을 결정했다. 또한, pegRNA에 상응하는 표적 cDNA 영역 내 모든 유형의 편집을 평가하여, 의도한 편집이 제대로 도입되었는지 여부와 의도하지 않은 편집이 얼마나 널리 퍼졌는지 확인했다.
기계 학습을 위한 데이터 가공
pegRNA 및 상응하는 표적 서열에서 특징들을 추출하기 위해, 본 발명자들은 biopython(1.79), ViennaRNA 패키지(2.5.0) 및 DeepSpCas9(Kim et al., 2019)를 사용하여 Tm, GC 수, GC 함량, 최소 자유 에너지 및 DeepSpCas9 점수를 계산하였다. 이러한 특징들은 맞춤형 파이썬 스크립트에 의해 PBS, RTT, RTT-PBS 및 RHA의 길이를 포함한 다른 서열-기반 특징들, 그리고 의도된 편집 유형, 위치 및 길이와 조합되었다. 각 데이터 세트는 층화 무작위 표집(stratified random sampling)을 통해 훈련-데이터 세트 및 시험-데이터 세트로 분리함으로써, 모델 개발을 위한 훈련 데이터 세트 또는 시험 데이터 세트 내에 표적 서열들 간에 겹치는 부분이 없도록 하였다.
기존 기계 학습-기반 모델의 개발
ClinVar_Test 데이터 세트 상에서 훈련된 기계 학습 모델을 비교하기 위해, 본 발명자들은 Pycaret 패키지(Ali, 2020)를 사용하여 Lasso, Ridge, ElasticNet, Huber, 랜덤 포레스트(random forest), 그래디언트 부스팅(gradient boosting), XGboost, CatBoost 및 LightGBM 회귀 모델을 생성했다. 모델 훈련을 위해, 넓은 표적, PBS 및 RTT 서열에서 위치-의존적 및 -비의존적 뉴클레오티드와 디뉴클레오티드를 추출했다. 또한, z-점수로 정규화한 Tm, GC 수, GC 함량, 최소 자유 에너지 및 DeepSpCas9 점수가 포함되었다. 종합하여, 총 2,956개의 특징들이 기존 기계 학습 기반 모델의 학습에 사용되었다. 무작위 그리드 검색을 사용하여 150개의 모델을 검색하여 매개변수를 최적화하였다. 측정된 효율과 예측된 효율 사이의 스피어만 상관 계수를 평가 지표로 사용하였다. 성능 비교를 위해, 본 발명자들은 5-배(5-fold) 교차 검증을 수행하고 각각의 검증에서 스피어만 상관 계수를 비교했다.
DeepPrime의 개발
DeepPrime은 가변 PBS 및 RTT 길이를 가진 pegRNA에 의해 유도된 모든 표적 유전자에서의 프라임에디팅 효율을 예측하는 딥러닝 기반 계산 모델로서 개발되었으며, +1 내지 +30번 위치에서 1- 내지 3-bp 치환, 삽입 또는 결실을 도입하기 위해 설계되었다. DeepPrime은 PyTorch로 구현되었으며, 편집되지 않은(WT) 서열과 프라임에디팅된 서열의 쌍을 입력으로 사용한다. 입력 서열의 처리 모듈은 4개의 합성곱 레이어(convolutional layer)와 게이트 순환 유닛(Gated Recurrent Unit: GRU) 레이어로 구성되어 있다. 각 합성곱 레이어는 너비가 3이고 스트라이드가 1인 커널을 사용했으며, 길이 보존을 위해 양쪽 끝에 패딩이 0이었다. 4개의 합성곱 레이어 각각에 대해 각각 128, 108, 108, 128개의 채널이 있었고, 평균 풀링은 2, 3, 4번째 합성곱 작업 후에 수행되었다. 커널 크기 2와 스트라이드 2가 풀링 작업에 사용되었다. 입력 서열은 4개의 채널(즉, A, T, G, C)로 원-핫(one-hot) 암호화되었고, 합성곱 모듈에 공급되었다. 이어서, 최종 합성곱 레이어에서 얻은 출력이 양방향 GRU에 공급되어 장거리 상호 작용을 훈련하고 입력 서열의 위치 특징을 보존했다. GRU 은닉 상태는 128차원이었고, 최종 은닉 상태는 12차원 벡터로 선형 투영되었다. 또한, DeepPrime에는 “생물특징(biofeatures)”이라고 부르는 pegRNA와 표적 서열의 물리화학적 특성 (Tm, GC 수, GC 함량, 가이드의 최소 자가 폴딩 자유 에너지 및 RTT-PBS 및 DeepSpCas9 점수를 포함함)을 분석하기 위한 별도의 4개-레이어 인지 모듈을 갖는다. 그 결과, 128차원 잠재 벡터가 추출되었고, 12차원 GRU 출력에 연결되어 140차원 벡터가 생성되었다. 마지막으로, 해당 벡터를 선형 투영하여 softplus를 통해 단일 회귀 부동 소수점 값을 산출했다. 합성곱 레이어에 대하여는 가우시안 오차 선형 유닛(Gaussian error linear units: GELU) 활성화를 사용했고, 다른 레이어에는 정류 오차 선형 유닛(rectified error linear units: ReLU)을 사용했다. 또한, 모델 학습을 가속화하기 위해, 각 합성곱 후와 최종 선형 프로젝션 전에 배치 정규화를 적용했다. 모든 하이퍼파라미터(예: 은닉 차원, 레이어의 개수, 커널 크기, 스트라이드, 채널 개수, 학습 속도 및 에포크 횟수)는 Optuna의 베이지안 검색을 통해 최적하였다. 모델을 훈련하기 위해, AdamW 옵티마이저와 학습률의 코사인 어닐링을 웜 재시작과 함께 사용했다. 상이한 랜덤 시드로 5개의 모델을 독립적으로 훈련하였고, 그들의 예측값을 평균하여 최종 예측을 얻었다. DeepPrime의 최적 하이퍼파라미터는 다음과 같다:
옵티마이저 스케줄러 모델
배치 크기 학습 속도 가중치 감소 에포크 회수 T_0 T_mult 은닉 크기 모델의 개수
2048 5.E-03 5.E-02 10 10 1 128 5
데이터 대표성의 불균형 해결
훈련 데이터 세트에는, PE 효율이 낮은 데이터의 비율이 높았는데, 이는 PE 효율이 높은 사례의 대표성을 제한하였다. 이러한 불균형 문제를 해결하기 위해, 높은 오프셋(off-set) 계수를 사용하여 분포가 낮은 데이터의 손실을 최소화하여 모델이 희귀 데이터에 대해 보다 민감하게 훈련될 수 있도록 했다. 곱해진 계수(μ)는 데이터 분포의 제곱근의 역수를 간단한 함수로 모사하여 얻어지며 아래와 같다.
여기서, x는 측정된 프라임에디팅 효율(%)이다.
또한, 편집 유형 내 특정 데이터 불균형을 해결하기 위해, 치환에 비해 비례적으로 희귀한, 삽입 및 결실에 해당하는 손실에 0.7 및 0.6의 가중치를 곱했다. 삽입 및 결실에 적용되는 가중치는 5-fold 교차 검증을 사용하는 분석에 의해 결정되었다.
DeepPrime-FT의 개발
기본 모델인 DeepPrime의 미세조정(fine-tuning)을 위해 전이 학습을 적용했다. 7개의 다른 세포 유형에서 두 가지 유형의 스캐폴드 서열을 포함하는 8개의 다른 프라임에디팅 시스템에 의해 유도된 프라임에디팅 효율의 18개 데이터 세트로 미세조정하여, 18개의 모델을 생성했다. DeepPrime의 최종 가중치는 이러한 모델들의 초기 가중치로 사용하였다. 미세조정된 모든 모델들에 대해 배치 크기를 512로 설정하고, 학습률, 가중치 감쇠 계수 및 에포크 횟수를 포함한 최적의 하이퍼파라미터를 Optuna를 사용하여 결정했다. 18개 모델에 대한 최적의 하이퍼파라미터는 다음과 같다:
세포주 PE 시스템 옵티마이저 스케줄러 모델
배치 크기 학습 속도 가중치 감소 에포크 회수 T_0 (스케줄러를 사용하는 경우) T_mu lt 은닉 크기 모델의 개수
A549 PE2max 512 1.E-02 2.E-02 40 20 1 128 20
A549 PE2max-e 512 2.E-03 1.E-02 100 - - 128 20
A549 PE4max 512 5.E-03 2.E-02 50 25 1 128 20
A549 PE4max-e 512 1.E-02 2.E-02 100 50 1 128 20
DLD1 NRCH-PE4max 512 4.E-03 2.E-02 100 - - 128 20
DLD1 PE2max 512 2.E-03 2.E-02 100 - - 128 20
DLD1 PE4max 512 1.E-03 0.E+00 100 - - 128 20
HCT116 PE2 512 8.E-03 1.E-02 50 - - 128 20
HEK293T NRCH-PE2 512 1.E-02 1.E-02 50 - - 128 20
HEK293T NRCH-PE2max 512 4.E-03 1.E-02 50 - - 128 20
HEK293T PE2 512 2.E-03 1.E-02 100 - - 128 20
HEK293T PE2max 512 1.E-03 0.E+00 100 - - 128 20
HEK293T PE2max-e 512 1.E-02 1.E-02 100 50 1 128 20
HEK293T PE4max 512 5.E-03 1.E-02 100 - - 128 20
HEK293T PE4max-e 512 5.E-03 1.E-02 50 - - 128 20
HeLa PE2max 512 1.E-02 2.E-02 50 25 1 128 20
MDA-MB-231 PE2 512 5.E-03 1.E-02 100 - - 128 20
NIH3T3 NRCH-PE4max 512 2.E-03 2.E-02 100 - - 128 20
DeepPrime-Off의 개발
DeepPrime-Off는 "DeepPrime-FT의 개발" 부분에서 설명한 바와 같이, DeepPrime을 미세조정하여 개발되었다. DeepPrime-Off를 훈련하기 위해, AdamW 옵티마이저와 학습률의 코사인 어닐링을 웜 재시작과 함께 사용했다. 또한, 불일치 표적과 pegRNA 서열의 쌍에 대한 서열 정보를 입력으로 추가하여, 이들 간의 상호 작용을 고려했다. 추가적으로, 데이터 증가 및 손실 가중치를 사용하여 데이터 부족 및 편향 문제를 해결했다.
비표적 데이터 증강
데이터 다양성의 한계를 극복하기 위해, 본 발명자들은 비표적 프로파일링에서 얻은 다음과 같은 관찰 사항들을 기반으로 하여 두 가지 새로운 데이터 증강 기술을 적용했다. 첫째, 서열 불일치가 6개 이상일 때 편집 효율이 0%로 수렴되는 것을 발견했다. 따라서, 표적 서열이 가이드 서열과 40% 불일치를 나타내도록 수정된 제로-라벨 데이터 포인트를 도입하여 데이터를 5%를 증가시켰다. 또한, pegRNA와 표적 DNA 상호 작용에 해당하는 영역 외부에 있는 서열이 PE 효율에 영향을 미치지 않는다는 것을 발견했다. 따라서, 비-PE 상호 작용 영역에 무작위 돌연변이를 추가하는 데이터 증강 기술을 사용하였다.
비표적 손실 가중
Library-Off 데이터의 상당 부분이 편집 위치가 +5인 pegRNA를 포함했기 때문에, 편집 위치가 +5가 아닌 데이터의 설명력은 제한적으로 낮을 수 있다. 이 문제를 해결하기 위해, 본 발명자들은 편집 위치가 +5일 때 상대적으로 작은 가중치 값인 0.25를 손실에 곱하여, 대표성 부족으로 인해 다른 편집 위치에서 회귀 오류가 감소하는 문제를 완화했다. DeepPrime-Off 훈련 중에 사용된 하이퍼파라미터는 배치 크기 256, 학습 속도 4 x 10-2, 가중치 감쇠 1 x 10-2, 에포크 횟수 5회이며, 이들은 모두 Optuna를 사용하여 결정하였다. 5개의 모델이 독립적으로 훈련되었고, 그들의 예측은 최종 예측 점수로 평균화되었다. DeepPrime-Off에 대한 최적 하이퍼파라미터는 다음과 같다:
옵티마이저 배치 크기 256
학습 속도 4.E-02
가중치 감쇠 1.E-02
에포크 횟수 5
스케줄러 T_0 5
T_mult 1
모델 은닉 크기 128
모델 개수 5
증강 비표적 돌연변이 비율 (비표적 효율이 0%인 더미 데이터에 대한 데이터의 변환 부분) 0.05
표적 (표적 DNA의 비-상호작용 부위에서 뉴클레오티드를 돌연변이 시킴) 1
트리-기반 기계 학습 모델의 해석 및 특징 분석
PE 효율을 예측하는 모델에 대한 각 특징의 기여도를 정량화하기 위해, 본 발명자들은 SHAP(Shapley Additive exPlanations, 0.40.0) 파이썬 패키지를 사용하여 Shapley 값을 분석했다. 상관 계수가 0.7 이상인 연관 특징들을 제거하거나 제거하지 않고 위에서 설명한 것과 동일한 방식으로 LightGBM(Light Gradient Boosting Machine) 모델을 훈련했다. 예측 모델에 대한 각 특징의 글로벌 기여도를 결정하기 위해, 전체 훈련 데이터 세트의 SHAP 값을 사용하고 각 특징의 Shapley 값을 비교하여 로컬 상호 작용 효과를 측정했다.
정량화 및 통계적 분석
상이한 pegRNA를 사용하는 실험 간의 프라임에디팅 효율을 비교하기 위해, 본 발명자들은 일원 분산 분석(ANOVA)과 양면 터키(Tukey) 사후 검정을 사용했다. 예측 모델의 예측 점수 간의 스피어만 상관 관계를 비교하기 위해(도 3B, 도 3C), 양면 슈타이거(Steiger) 검정을 사용했는데, 이 방법은 정확히 동일한 데이터 세트에서 두 개의 종속 상관 계수를 검정하기 위한 것이다. 통계적 유의성을 결정하기 위해, GraphPad Prism 8, PASW Statistics(버전 17.0, IBM) 및 Microsoft Excel(버전 16.0, Microsoft Corporation)을 사용했다. 쌍별 라이브러리를 사용하여 PE2 효율에 대한 고처리량 평가를 수행하기 위해, 두 명의 다른 실험자가 독립적으로 형질 감염시킨 두 개의 복제본에서 얻은 고처리량 시퀀싱 판독의 수를 결합했다.
[결과]
다섯개의 쌍별 라이브러리를 사용하여 수행한 PE2 효율의 고처리량 평가
PE2 효율의 고처리량 평가를 위해, 본 발명자들은 pegRNA-인코딩 서열과 이에 상응하는 표적 서열(도 1A 및 도 8A)의 렌티바이러스 쌍별(pairwise) 라이브러리들을 PE2-발현 HEK293T 세포에 전달했다. 본 발명자들은 5개의 쌍별 라이브러리를 준비하고 이를 각각 Library-Profiling, Library-ClinVar, Library-Small, Library-epegRNA 및 Library-Off라고 이름을 붙였다(방법, 도 8B). 프라임에디터-발현 HEK293T 세포주를 이 라이브러리들 중 하나로 형질도입하고, 편집 효율을 딥시퀀싱으로 결정했다. 두 개의 독립적인 복제물은 강한 상관관계를 보였다(Library-Profiling 및 Library-ClinVar의 경우 피어슨 상관 계수(r) = 0.90 및 0.92, 스피어만 상관 계수(R) = 0.94 및 0.92)(도 8C).
프라임에디팅 효율에 영향을 주는 인자들의 분석
12-nt 및 20-nt 길이를 갖는 RTT를 포함하는 pegRNA를 사용하여 편집 효율에 대한 PBS 길이의 영향을 결정했을 때, 가장 높은 평균 효율은 각각 11-nt(평균 효율, 13%) 및 12-nt(8.5%) 길이의 PBS에서 관찰되었는데(도 1B), 이 결과는, 비록 12-nt PBS는 이전 연구에서 시험하지 않았지만, 우리의 이전 연구 결과와 일치하는 것이다(Kim et al., 2021). Library-ClinVar를 사용하여 유사한 분석을 수행했을 때 비슷한 경향이 관찰되었다(도 9A). 이러한 결과를 바탕으로, 본 발명자들은 RTT 길이가 12nt 이하인 경우 11-nt PBS를 사용하고, RTT 길이가 12nt를 초과하는 경우 12-nt PBS를 사용할 것을 제안한다. 다음으로, RTT 길이의 영향을 평가하였으며, 12- ± 2-nt 길이의 RTT를 사용할 때 가장 효율적인 평균 프라임에디팅 효율이 관찰됨을 발견했다(도 1C). Library-ClinVar를 사용한 분석(도 9A)에서의 관찰 사항들은 우리의 이전 분석(Kim et al., 2021)과 일치하였다.
편집 위치의 영향을 결정했을 때, 평균 편집 효율은 RTT의 끝에서 약 5 nts전의 위치에서부터 급격히 감소했는데(예: RTT 길이가 12 nts일 때 효율이 급격히 감소한 위치는 +7(= 12 nts - 5 nts))(도 1D), 이는 오른쪽 상동성 팔(RHA: right homology arm, 즉 8A에 나오는 RTT의 오른쪽 부분)의 최소 길이 요구 조건이 있음을 시사한다. PBS 및 RTT 길이와는 달리, RHA 길이의 중요성은 광범위하게 분석되지 않았다. 프라임에디팅 과정에서, RHA가 너무 짧으면 5' 플랩보다는 3' 플랩에 대한 평형화를 강하게 선호할 수 있는데, 이중 후자는 편집된 서열을 유전체에 통합하는 데 필요하다(도 9B). 편집 위치와 유형이 다른 pegRNA를 사용하여 RHA 길이의 영향을 결정했을 때, 편집 위치에 관계없이, 치환, 삽입 및 결실에 각각 5-nt, 7-nt 및 9-nt RHA가 필요했다(도 1E-G). 또한, Library-ClinVar를 사용한 분석에서 유사한 RHA 요구 조건을 관찰했다(도 9C). 그러나 이러한 결과를 종합하여 간단하게 요약하자면, 모든 편집 유형 및 위치에 대해 9-nt 또는 적어도 7-nt RHA를 사용할 것을 권장한다. 또한 치환에 대한 전체 프라임에디팅 효율은 삽입 및 결실에 대한 효율보다 약간 더 높았다(도 9C, 도 9D). 통계적으로 유의하지는 않았지만 유사한 약한 경향이 내인성 부위의 프라임에디팅에서도 관찰되었다(도 9E).
그런 다음, 편집된 뉴클레오티드의 수가 프라임에디팅에 미치는 영향을 평가했다. 편집된 뉴클레오티드의 수가 증가함에 따라 효율은 최대 3bps까지의 치환에 대해서는 유사했고, 4- 내지 10-bp의 치환에 대해서는 감소했다(도 1H). 효율은 최대 약 3 내지 5 bps의 삽입 및 결실에 대해서는 유사했고, 그 후 삽입 또는 결실된 서열의 길이가 증가함에 따라 효율이 감소했다(도 1I, 1J). 이러한 결과들은, 특히 3개를 초과하는 뉴클레오티드에 있어서, 편집된 뉴클레오티드의 수가 증가함에 따라 PE2 효율이 감소하는 경향이 있음을 보여준다. 또한, 효율적인 프라임에디팅을 위해 마지막 주형 위치에서 선호되는 뉴클레오티드는, 편집 유형 및 RTT 길이에 관계없이, C > T > A > G의 순서임을 발견했다(도 1K, 도 9D, 도 9F).
또한, 프라임에디팅 효율의 결정 요인을 식별하기 위해 다중공선성(multicollinearity)을 고려하거나 고려하지 않는 방식으로 SHAP(SHapley Additive exPlanations) 분석을 수행했다(도 2A, 도 10A). 가장 중요한 특징은 PBS의 GC 개수(선호됨)였으며, 이는 PBS의 길이(복합적임, 너무 높은 값은 비선호됨), PBS의 용융 온도(Tm), PBS의 GC 함량, PBS 내 C의 개수(선호됨), 및 PBS 내 G의 개수(선호됨)와 연관되어 있었다. 두번째로 중요한 특징은 RHA의 길이(다중공선성이 고려되지 않은 경우 선호됨)와 RHA의 Tm(다중공선성이 고려된 경우 선호됨)이었는데, 이 둘은 모두 RHA의 GC 함량(낮은 값은 비선호됨; 중간에서 낮은 값은 선호됨; 매우 높은 값은 매우 비선호됨) 그리고 RHA의 GC 개수(낮은 값은 매우 비선호됨, 중간에서 높은 값은 매우 선호됨, 매우 높은 값은 아주 약간 선호됨)와 연관되어 있었다. 세 번째로 중요한 특징은 상응하는 표적 서열에서 DeepSpCas9 점수(선호됨)였는데, 이는 우리의 이전 연구 결과와 일치한다(Kim et al., 2021). 우리가 각각의 중요한 특징에 대해 전체 최적 범위를 결정하기는 했지만, 각 특징에 대한 값의 최적 범위가 다른 특징들의 값에 따라 종종 달라진다는 점도 발견하였는데(도 2B-2G, 도 10B-G), 이는 효율적인 pegRNA를 수동으로 설계하는 것을 어렵게 만든다.
DeepPrime의 개발
본 발명자들이 이전에 개발한 PE2 활성 예측 모델인 DeepPE, PE_type 및 PE_position은 주로 훈련 데이터 세트의 불충분으로 인해 편집 유형, 편집 위치, 및 PBS 및 RTT 길이에 대하여 범위가 제한되었다(Kim et al., 2021). Library-ClinVar로 생성된 프라임에디팅 효율 데이터 세트에는, +1에서 +30까지의 모든 편집 위치에서의 치환, 삽입 및 결실을 포함하여, 1, 2 또는 3 bps를 포함하는 모든 유형의 편집에 대한 PBS 및 RTT 길이의 850(=17x50) 가지 조합들이 포함된 288,793 쌍의 pegRNA 인코딩 서열 및 표적 서열 정보가 포함되어 있다. 이 데이터 세트는 무작위 샘플링에 의해 ClinVar_Train(n = 259,910) 및 ClinVar_Test(n = 28,883)의 두 개의 데이터 세트들로 분할되었다(동일한 표적 서열은 두 데이터 세트 간에 공유되지 않음). DeepPE의 훈련 데이터 세트와 비교할 때, ClinVar_Train 데이터 세트는 6.7배 더 크고, 35배 더 넓은 범위의 PBS-RTT 길이 조합(도 11A), 582배 더 많은 편집 유형 및 위치 조합(도 11B), 그리고 30배(= 52,723/1,756) 더 많은 표적 서열을 포함한다. 본 발명자들은 ClinVar_Train을 훈련 데이터로 사용하여, 9개의 기존 기계 학습 알고리즘과 6개의 딥러닝 알고리즘을 비교하여, PE2가 주어진 표적 서열에서 원하는 편집을 유도하는 효율을 예측하는 모델을 개발했다. 5배 교차 검증을 사용하여 이 15개 알고리즘의 성능을 비교했을 때, 게이트 순환 유닛(GRU: Gated Recurrent Unit)을 갖춘 합성곱 신경망(CNN: convolutional neural network) 기반 알고리즘의 성능(도 3A)이 그 다음으로 뛰어난 알고리즘(주의 모듈을 갖춘 CNN)의 성능보다 유의하게 높았다(P ≤ 9.3 x 10-3 및 8.8 x 10-3, 슈타이거의 피어슨 및 스피어만 상관 관계 검정)(도 3B-C). 따라서, 본 발명자들은 GRU 기반 계산 모델을 갖춘 CNN을 개발하고 DeepPrime이라고 명명하였다. 훈련 데이터 세트 크기가 모델 성능에 미치는 영향을 결정했을 때, 데이터 세트에 약 180,000개 이상의 데이터 포인트가 포함되어 있을 때 성능이 거의 안정적임을 발견했다(도 12A-B). 그러나 결실 및 3-bp 편집에 대한 예측의 정확도는 상대적으로 낮았는데, 이는 아마 library ClinVar 설계에서 데이터 포인트를 보강한 후에도 이러한 종류의 데이터 포인트가 상대적으로 적었기 때문일 것이다(도 8B).
ClinVar_Test를 사용하여 평가했을 때, DeepPrime은 피어슨 상관 계수(r) 0.84와 스피어만 상관 계수(R) 0.86의 높은 성능을 보였다(도 3D). DeepPrime이 모든 편집 유형에서 높은 성능을 나타내는지 여부를 확인하기 위해, 9가지 의도된 편집의 유형(예: 1-, 2- 또는 3-bp 치환, 삽입 및 결실)을 대표하는 9개의 ClinVar_Test 하위 집합을 사용하여 성능을 평가하였으며, 높은 피어슨 상관 계수(r)와 스피어만 상관 계수(R)(r의 범위는 0.76에서 0.89(평균 0.82, 중앙값 0.81)이고 R 범위는 0.70에서 0.88(평균 0.80, 중앙값 0.83))를 관찰하였다(도 3E). 또한, 의도한 편집의 위치에 따라 DeepPrime이 얼마나 잘 성능을 발휘하는지 확인했을 때, r의 범위는 +1에서 +30 위치에서 0.68에서 0.85(평균 0.79, 중앙값 0.80)이었고, R의 범위는 +1에서 +27 위치에서 0.63에서 0.88이었고, +28에서 +30 위치에서 0.47에서 0.58(+1에서 +30 위치에서 평균 0.75, 중앙값 0.78)이었다(도 3F). 종합하면, 이 결과들은 DeepPrime이 편집 유형, 길이 및 위치 전반에 걸쳐 프라임에디팅 효율을 정확하게 예측할 수 있음을 보여준다.
본 발명자들은 이전 연구에서, 어떤 주어진 의도된 편집에 대해 가장 높은 효율을 가진 pegRNA를 식별하기 위해 고처리량 평가 실험을 수행했다(Jang et al., 2021). 본 발명자들은 DeepPrime에 의해 예측된 효율과 실험적으로 측정된 효율 사이에 높은 상관관계를 관찰했다(도 3G). 더 나아가, 의도된 편집을 위한 100개의 가능한 pegRNA 중 DeepPrime이 제안한 pegRNA는 실험적으로 제안된 것과 동일했다. 또한, 내인성 부위에서의 프라임에디팅에 대한 초기 연구(독립 연구)(Anzalone et al., 2019)에서 얻은 PE2 효율 데이터를 사용하여 DeepPrime을 시험하였을 때, 해당 모델은 피어슨 상관 계수와 스피어만 상관 계수가 각각 r = 0.74 및 R = 0.74로 높았으며, 이는 내인성 부위에서의 PE2 효율을 예측하는 DeepPrime의 성능이 우수함을 시사한다(도 3H).
최적화된 pegRNA 스캐폴드, PAM 최적 공동 편집 및 PE 변이체를 사용한 프라임에디팅 효율의 개선
5-nt 더 긴 루프와 TTTT 서열 대신 TTTC가 있는 최적화된 sgRNA 스캐폴드가 Cas9 활성을 개선했기 때문에, 본 발명자들은 Library-Small을 사용하여 pegRNA의 프라임에디팅 효율을 기존 및 최적화된 스캐폴드와 비교하였다. 본 발명자들은 최적화된 pegRNA가 pegRNA-표적 서열 쌍의 79%(1,674/2,132)에 대하여 기존의 pegRNA보다 더 높은 효율을 나타내어, 평균 효율이 통계적으로 유의미한 1.25배 증가한다는 것을 발견했는데(도 4A), 이는 최적화된 pegRNA 스캐폴드를 사용함으로써 프라임에디팅 효율을 자주 개선할 수 있음을 시사한다.
의도된 편집과 함께 공동 편집을 통해 NGG PAM을 중단하면 의도한 프라임에디팅의 효율을 향상시킬 수 있다. NGG PAM 편집의 효과를 조사하기 위해, 가능한 15가지 유형 모두의 PAM 공동 편집이 있거나 없는 pegRNA를 사용했다. 이러한 PAM 공동 편집을 통해 평균 프라임에디팅 효율이 1.7 내지 1.2배 증가했으며, 가장 높은 평균 편집 효율은 NGG PAM이 NAT로 편집되었을 때 관찰되었다(도 4B). NGG PAM의 아주 밀접한(synonymous) 편집을 유도할 필요가 있을 때는, 두 개 이상의 비-GG 서열을 종종 사용할 수 있다.
의도한 편집 부위 근처에 NGG PAM 서열의 부재로 인해 효율적인 프라임에디팅의 적용이 종종 제한될 수 있다. 표적 서열의 범위를 확장하기 위해, SpCas9-NG (NG-PE2)와 SpCas9-NRCH (NRCH-PE2)를 기반으로 두 개의 PE2 변이체를 생성하였다. 프라임에디팅과 뉴클레아제 유도 인델 생성의 평균 효율을 비교했을 때, PE 변이체 전반에 걸쳐 높은 상관관계를 발견하였는데(r의 범위는 0.85에서 0.97(평균 0.93, 중앙값 0.97), R의 범위는 0.75에서 0.89(평균 0.81, 중앙값 0.78)(도 13A-E), 이는 Cas9 및 상응하는 Cas9 기반 PE가 유사한 PAM 호환성을 가진다는 사실을 지지한다.
다음으로 3-nt PAM 서열(NXXX, 여기서 X는 바뀜)을 포함하는 표적 서열에서 PE2, NRCH-PE2 및 NG-PE2의 평균 프라임에디팅 활성을 결정했다. PAM을 pegRNA(최적화 스캐폴드 사용)-표적 라이브러리의 형질도입 후 7일에 평균 프라임에디팅 효율이 1%보다 높은 서열로 정의한다면, 64개 중 12개(19%), 64개 중 30개(47%) 및 64개 중 26개(41%)의 3-nt 잠재 PAM 서열들이 각각 PE2, NRCH-PE2 및 NG-PE2에 의해 PAM으로 사용될 수 있다(도 13F-H). 3개의 PE2 변이체들의 PAM 호환성을 종합적으로 고려했을 때, 64개의 잠재적 3-nt PAM 서열들 중 35개(55%)가 PE2 변이체 중 적어도 하나에 의해 PAM으로 사용될 수 있음을 발견했다(도 4C-D).
PE2max 및 PE4max를 포함하여 최근에 조작된 프라임에디터를 사용하여 프라임에디팅 효율을 향상시킬 수도 있다. PE4max는 PE2의 개선된 버전인 PE2max, 그리고 MMR을 억제하는 MLH1dn의 조합이다. 프라임에디팅 효율 사이의 높은 상관관계를 PE2 vs PE2max(r = 0.91, R = 0.96) 및 PE2 vs PE4max(r = 0.88, R = 0.96)사이에서 관찰했으며, HEK293T 세포에서 PE2의 프라임에디팅 효율과 비교했을 때, PE2max 및 PE4max가 각각 1.9배 및 2.7배 개선된 프라임에디팅 효율을 나타냄을 발견했다(도 4E-F).
프라임에디팅의 효율은 적어도 부분적으로는 MMR 관련 구성요소의 발현 수준이 다르기 때문에 세포 유형에 따라 달라질 수 있다. HEK293T 세포에서 측정된 PE2, PE2max, PE4max 및 NRCH-PE4max의 효율을 HCT116, MDA-MB-231, HeLa, A549, DLD1 및 NIH3T3 세포와 같은 다른 유형의 세포에서 측정한 것과 비교했을 때, 다양한 상관관계를 발견했는데 (r의 범위는 0.63에서 0.89, R의 범위는 0.80에서 0.93)(도 4G-M), 이는 세포 유형에 따라 프라임에디팅 효율이 달라질 수 있다는 사실을 뒷받침한다. 또한, epegRNA의 사용이 프라임에디팅 효율을 증가시키는 것으로 이전 연구에서 나타났지만, 몇 배로 증가하느냐는 세포 유형 및 프라임에디터에 따라 달랐다. 즉, HEK293T 세포와 A549 세포에서 시험했을 때, 일반 pegRNA 대신 epegRNA를 사용한 경우, PE2max의 평균 효율이 HEK293T 세포에서는 1.5배 증가하였으며, A549 세포에서는 PE2max와 PE4max의 평균 효율이 각각 4.1배와 0.89배 증가했다(도 4N-P, 도 12I, 도 12J).
DeepPrime-FT의 개발
다양한 유형의 세포에서 서로 다른 프라임에디터에 의해 유도된 프라임에디팅 효율의 예측이 이루어진다면, 주어진 다양한 실험 조건에 대해 적절한 PE 변이체 및 pegRNA의 선택이 크게 용이해질 것이다. 주어진 의도된 편집을 도입하기 위해 적절한 PE 변이체 및 pegRNA를 선택하는 일을 돕기 위해, 본 발명자들은 다양한 실험 조건에서 프라임에디팅 효율을 예측하는 계산 모델을 개발했다. 7개의 서로 다른 세포주(HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3)에서 PE2-, PE2max-, PE2max-e(epegRNA가 포함된 PE2), PE4max-, PE4max-e(epegRNA가 포함된 PE4max), NRCH-PE2, NRCH-PE2max 또는 NRCH-PE4max로 유도된 프라임에디팅 효율에 관한 18개 데이터 세트를 Library-Small을 사용하여 생성하였으며, 이를 훈련 및 시험 데이터 세트로 분할했다. 그 후, 본 발명자들은 훈련 데이터 세트를 사용하여 DeepPrime을 미세 조정하여 18가지 상이한 계산 모델들을 개발하고 이를 집합적으로 DeepPrime-FT라고 명명하였다(도 5A). 19개의 시험 데이터 세트를 사용하여 DeepPrime 및 DeepPrime-FT의 성능을 평가했을 때, DeepPrime이 세포 유형, 스캐폴드 및 프라임에디터 전반에 걸쳐 좋은 성능을 보임을 알게 되었으며(r, 평균 0.58, 중앙값 0.57, 범위 0.42에서 0.83; R, 평균 0.73, 중앙값 0.75, 범위 0.51에서 0.86), 미세 조정으로 성능이 더욱 향상되었다는 것도 알게 되었다(r, 평균 0.71, 중앙값 0.74, 범위 0.51에서 0.83; R, 평균 0.80, 중앙값 0.82, 범위 0.57에서 0.89) (도 5B 및 도 5C). DeepPrime에 대한 스피어만 상관 계수는 세포 유형, 스캐폴드 및 프라임에디터 시스템 전반에 걸쳐 자주 피어슨 상관 계수보다 높았는데, 이는 pegRNA 효율의 순위가 선형 척도에서 상대적 pegRNA 효율보다 상대적으로 더 잘 보존됨을 의미할 수 있다. 세포 유형과 프라임에디터 시스템 전반에 걸쳐, SHAP 분석에 의해 결정된 중요한 특징이 주로 공유되었으며, 위에서 설명한 프라임에디팅 효율에 영향을 미치는 요인의 영향도, 동일하지는 않지만, 유사하게 관찰되었는데(데이터 미도시), 이는 세포 유형과 프라임에디터 시스템 전반에 걸쳐 DeepPrime이 좋은 성능을 보인 것과 일치하는 것이다. 따라서 연구자는 실험 조건 전반에 걸쳐 대략적인 DeepPrime 기반 예측을 기반으로 pegRNA를 선택할 수 있지만, 예측 정확도를 최대화하기 위해서는, 세포 유형, 스캐폴드 및 프라임에디터 버전과 관련하여 실험 조건을 가장 근접하게 반영하는 미세 조정 모델을 선택할 수도 있다.
DeepPrime 및 DeepPrime-FT 적용의 예시
다음으로 본 발명자들은 DeepPrime 및 DeepPrime-FT가 ClinVar(Landrum et al., 2020; Landrum et al., 2016)에서 보고된 병원성 및 병원성일 가능성이 있는 돌연변이의 효율적인 생성 및 수정에 활용될 수 있는지 여부를 결정했다. 다음과 같이 세 가지 접근 방식을 사용하여 주어진 표적 프라임에디팅의 예에 있어서 가장 높은 효율을 가질 것으로 예상되는 pegRNA를 설계했다: i) DeepPrime을 사용하였으며, ii) 고효율 pegRNA의 공통 특징들을 사용하여 pegRNA를 합리적으로 설계했으며(방법 참조), iii) 예측된 Cas9 활성을 나타내는 DeepSpCas9 점수만 활용했는데(Kim et al., 2019), 이는 프라임에디팅 효율과 상관관계를 갖는다(Kim et al., 2021). 음성 대조군으로서 pegRNAs를 무작위로 설계하였다. 설계된 pegRNA의 예상 효율을 기준으로 pegRNA 설계 접근 방식들이 다음과 같은 순위를 가짐을 발견했다: 변이체 수정의 경우, DeepPrime(평균 및 중앙값 예상 프라임에디팅 효율 = 9.0% 및 7.6%) >> 합리적 설계(4.6% 및 2.4%) > DeepSpCas9 점수 기반 설계(3.2% 및 1.1%) > 무작위 설계 1(1.2% 및 0.3%) = 무작위 설계 2(1.2% 및 0.3%)(도 6A); 변이체 생성의 경우, DeepPrime(평균 및 중앙값 예상 프라임에디팅 효율 = 10% 및 9.2%) >> 합리적 설계(5.3% 및 3.1%) > DeepSpCas9 점수 기반 설계(3.8% 및 1.4%) > 무작위 설계 1(1.4% 및 0.3%) = 무작위 설계 2(1.4% 및 0.3%)(도 6B). 특히 DeepPrime을 사용하여 설계된 pegRNA의 평균 및 중간 예측 효율이 합리적으로 설계된 pegRNA보다 각각 2.0배 및 3.2배(변이체 수정의 경우) 및 1.9배 및 2.9배(변이체 생성의 경우) 높다는 점을 감안할 때, DeepPrime은 돌연변이 수정 또는 생성을 위한 효율적인 pegRNA 설계에 매우 유용할 것이다.
Erwood 등은 최근 프라임에디팅을 사용하여 NPC1BRCA2에서 변이체를 생성하였다. 본 발명자들은 DeepPrime 기반 pegRNA 설계가 합리적 pegRNA 설계와 비교했을 때 변이체 생성의 평균 효율을 2.1배 향상시킬 수 있었을 것임을 발견했다(도 6C). 또한, NRCH-PE2와 DeepPrime-FT 또는 PE2max와 DeepPrime-FT를 사용했더라면, 평균 프라임에디팅 효율은 PE2와 함께 합리적으로 설계된 pegRNA를 사용하여 얻은 것보다 각각 4.5배 또는 7.7배 더 높을 수 있었을 것이다. 종합하면, 이러한 분석 결과는 개선된 PE와 결합된 DeepPrime 및 DeepPrime-FT가 효율적인 생성이 가능하게 함으로써, 변이체의 기능 평가를 용이하게 할 수 있음을 알려준다.
ClinVar_Test에서 어떤 주어진 편집에 대한 8개의 pegRNA 중에서 DeepPrime이 선택한 pegRNA의 효율 순위를 결정했을 때, 그 중 50%와 25%가 각각 1위와 2위를 차지했다(도 6D). 내인성 부위에서 이전 실험 결과(Anzalone et al., 2019)를 사용하여 유사한 분석을 수행한 결과, 56%와 11%가 각각 상위 10%와 10~20% 사이에 순위를 차지했다(도 6E).
본 발명자들은 또한 내인성 부위에서 프라임에디팅 효율을 비교했다. 이 상황에서 DeepPrime-FT는 DeepPrime-FT 기반 pegRNA 설계가 이전에 발표된 설계보다 평균 PE2max 효율이 2.3배 더 높을 것이라고 예측했다. HEK293T 세포에서 수행된 실험에서는 DeepPrime 기반 pegRNA 설계가 이전에 발표된 설계보다 평균 PE2max 효율이 3.5배 더 높은 것으로 나타났다(도 6F). 내인성 부위에서 측정된 프라임에디팅 효율과 DeepPrime-FT에 의해 예측된 효율은 높은 상관성을 보였다(r = 0.82 및 R = 0.83)(도 6G). 이러한 결과는 DeepPrime-FT 기반 설계를 통해 프라임에디팅이 효율적으로 이어질 수 있음을 뒷받침한다.
DeepPrime이 내인성 부위에서 PE3 및 PE5와 같은 시험되지 않은 다른 프라임에디팅 시스템의 효율을 예측할 수 있는지 여부를 확인하기 위해, 이전에 발표된 데이터를 사용하여 이를 평가했다(Anzalone et al., 2019; Chen et al., 2021). DeepPrime은 시험된 프라임에디팅 시스템(PE3, r = 0.65, 0.63, R = 0.61, 0.59; PE5, r = 0.68, R = 0.64)에서 관찰된 성능만큼 좋지는 않았지만, PE3 및 PE5의 효율을 예측함에 있어서 좋은 성능을 보였다(도 6H-J). 이 약간 낮은 성능은 PE3 및 PE5의 활성이 pegRNA뿐만 아니라, 그 활성이 DeepPrime에 의해 예측되지 않는, 사용된 sgRNA에 의해 영향을 받을 수 있다는 사실 때문일 수 있다.
불일치 표적 서열에서의 프라임에디팅 효율의 고처리량 프로파일링
프라임에디팅은 표적 서열과 pegRNA 사이에 불일치가 있는 경우에도 일어날 수 있으며, 그 결과로 비표적(off-target) 프라임에디팅이 발생한다. 따라서, 본 발명자들은 Library-Off에서 총 47,839쌍의 pegRNA와 일치 및 불일치 표적 서열들을 사용하여 프라임에디팅 효율을 광범위하게 조사했다.
먼저 HEK293T 세포에서 불일치 위치 및 불일치 뉴클레오티드의 수가 프라임에디팅 효율에 미치는 영향을 조사했다. PE2 및 PE4max의 상대 편집 효율(=불일치를 포함하는 표적 서열에서 pegRNA의 효율/일치된 표적 서열에서 pegRNA의 효율)이 불일치 위치가 17번 위치에 가까워질수록 감소한다는 것을 발견했는데, 이 위치에서는 가장 낮은 상대적 프라임에디팅 효율이 관찰되었다(도 7A, 도 14A). 1번 위치와 2번 위치에서는 상대적 편집 효율이 높았는데, 이는 불일치에 대한 SpCas9 뉴클레아제의 내성이 이 위치들에서 가장 높다는 결과와 일치한다(Kim et al., 2020b; Kim et al., 2020c). 11번 위치에서부터, 상대적 효율이 15번 위치까지 점차 감소했으며, 16번과 17번 위치에서 급격히 감소했다. 가장 낮은 내성은 16번과 17번 위치에서 관찰되었으며, 이는 이러한 위치, 특히 17번 위치에서의 불일치가 역전사를 방지한다는 사실에 기인하는데, 역전사는 프라임에디팅에 필요한 것이다. 18번(pegRNA의 위치 +1에 해당)부터 29번 위치까지는 pegRNA의 RTT 도메인에 해당되는데, 이 위치에서는 불일치 내성이 상대적으로 높았으며, 이는 이 영역의 불일치가 추가 편집으로 간주될 수 있기 때문이다. 다른 2개 또는 3개의 세포주에서 PE2 대신 PE2max 또는 PE4max의 불일치 내성을 평가했을 때, 불일치 위치에 따라 불일치 내성의 일관된 경향을 관찰했다(도 7B, 도 14B). 이러한 유사한 경향에도 불구하고, 프라임에디팅 활성 및 특이도의 일반적인 수준은 세포 유형 및 프라임에디터에 따라 달랐다(도 7B, 도 7C, 도 14B). 흥미롭게도, 본 발명자들은 프라임에디팅의 일반적인 활성과 특이도 사이에 절충적인 경향을 관찰했는데, 이전 연구에서 상이한 SpCas9 변이체들을 비교할 때 이와 유사한 경향이 관찰되었다(Kim et al., 2020c; Schmid-Burgk et al., 2020). 불일치의 수가 증가함에 따라 상대적 프라임에디팅 효율이 감소했다(도 7A, 도 14A). 또한 PBS 길이가 짧을수록 3번 내지 17번 위치에서의 불일치 내성이 낮았다(도 7D). 반면, RTT의 길이는 불일치 내성에 거의 영향을 미치지 않았으며, 불일치가 25번 위치(pegRNA의 +8 위치)에 위치한 경우와 RTT 길이가 10 nt인 경우에만 예외였다. 따라서 RHA는 단지 뉴클레오티드 두 개의 길이를 가지며, 이는 불일치를 추가적인 편집으로 간주하는 경우 일반적으로 요구되는 RHA 길이에 비해 훨씬 짧은 것이다(도 7E).
다음으로 본 발명자들은 불일치 유형이 불일치 표적 서열에서 프라임에디팅 효율에 영향을 미치는지 여부를 조사했다. 모든 테스트된 위치에 있어서, 동요(wobble) 및 비동요(non-wobble) 퓨린-피리미딘 염기 쌍 형성을 초래하는 불일치에 대한 내성은 퓨린-퓨린 또는 피리미딘-피리미딘 쌍 형성을 유발하는 불일치에 대한 내성보다 약간 더 높거나 적어도 유사했으며(도 7F), 이는 이전 연구에서 Cas12a(Kim et al., 2017) 및 SpCas9(Kim et al., 2020b)를 사용한 실험에서 얻은 결과와 부분적으로 일치한다.
지금까지 설명한 실험에서 본 발명자들은 pegRNA의 +5 위치에 인코딩된, 의도된 G에서 C로의 전환과 일치하지 않는 표적 서열에서의 프라임에디팅 효율을 평가했다. 다음으로, 인코딩된 편집이 다른 유형이고 다른 위치에 있는 pegRNA를 사용할 때 유사한 불일치 내성 경향이 관찰될 것인지 여부를 조사했다. 본 발명자들은, 의도된 편집이 +9 위치(표적 서열의 26번 위치에 해당)에 인코딩된 경우를 제외하고는, 의도한 편집 유형 및 위치에 관계없이 불일치 위치의 효과가 일반적으로 유사하다는 것을 알게 되었다. 이 경우 불일치를 추가 편집으로 간주하면, 28번 위치에서의 불일치로 인해 RHA의 길이가 너무 짧아졌다(단지 1 nt)(도 7G).
다음으로, 본 발명자들은 불일치 표적 서열에서의 프라임에디팅 효율을 예측하기 위한 계산 모델을 개발했다. Library-Off를 사용하여 측정된 프라임에디팅 효율을 포함하는 데이터 세트를 PE2-Off로 명명하고 이를 계층화된 무작위 샘플링(방법 참조)에 의해 PE2-Off_Train(n = 18,085) 및 PE2-Off_Test(n = 4,522)로 분할했다. PE2-Off_Train을 사용하여 DeepPrime을 미세 조정하여, DeepPrime-Off(도 7H)를 개발했는데, 이는 불일치 표적 서열에서 pegRNA에 의해 유도된 프라임에디팅 효율을 예측하는 것이다. PE2-Off_Test를 시험 데이터 세트로 사용하여 평가했을 때, 측정된 편집 효율과 예측된 편집 효율 사이의 피어슨 및 스피어만 상관 계수는 0.77 및 0.70(도 7I)으로, 성능이 강력함을 시사한다. DeepPrime-off가 편집 유형, 위치 및 RTT 길이 전반에 걸쳐 높은 성능을 보이는지 결정하기 위해, PE2-Off_Test의 11개 하위 집합에서도 성능을 평가했는데, 이들 하위 집합들은 3가지 다른 유형의 의도된 편집, 2가지 다른 의도된 편집 위치 및 5가지 다른 RTT 길이를 대표하는 것이다. 각 편집 유형(r = 0.56~0.77(평균 0.70), R = 0.66~0.79(평균 0.69)), 편집 위치(r = 0.53~0.78(평균 0.66), R = 0.53~0.82(평균 0.68)), 그리고 RTT 길이(r = 0.56~0.84(평균 0.74), R = 0.59~0.83(평균 0.71))에 대해 높은 피어슨(r) 및 스피어만(R) 상관 계수가 관찰되었으며(도 14C-E), 이는 이 변수들 전반에 걸쳐 성능이 좋음을 시사한다. 또한, 이전 연구에서 내인성 부위에서 216쌍의 pegRNA에 대해 독립적으로 결정한 비표적 효과를 사용하여 DeepPrime-Off를 평가했을 때(Kim et al., 2020a), r = 0.93 및 R = 0.999이었는데(도 7J); 활성이 없는 190쌍을 무작위로 제거하여 비표적 프라임에디팅 활성이 있는 쌍과 없는 쌍의 수를 동일하게 하면(둘 다 13), r = 0.89 및 R = 0.92이었고, 이는 내인성 부위에서 비표적 효과를 예측하는 DeepPrime-Off의 성능이 좋음을 나타낸다.
PE2max로 구동되는 병원성 돌연변이의 생성 및 수정과 관련된 잠재적 비표적 효과를 찾기 위해, 3,571,521쌍의 pegRNA와 최대 3개의 불일치가 있는 잠재적 비표적 부위들을 확인했다(방법 참조). DeepPrime-Off는 이들 중 3,183,918쌍(89%)이 프라임에디팅 효과를 나타내지 않을 것이며, 나머지 387,603쌍(11%)은 빈도 > 0%에서 프라임에디팅 효과를 나타낼 것이라고 예측했다(도 14F). 프라임에디팅 효과가 없는 것으로 예측된 3,183,918쌍 중 26쌍을 임의로 시험했을 때 그러한 효과를 감지하지 못했으며, 내인성 부위에서 프라임에디팅 효과를 가질 것으로 예측된 387,603쌍 중 19쌍을 테스트했을 때, 그 19쌍 중 2쌍에서 비표적 효과를 관찰했다(도 14G). 이러한 데이터는 DeepPrime-Off가 잠재적인 비표적 부위의 수를 줄이고 시험해야 하는 것들의 우선 순위를 지정하는 데 유용할 수 있음을 시사한다.
본 발명자들은 주어진 의도된 편집에 대한 DeepPrime, DeepPrime-FT 및 DeepPrime-Off의 결과를 보여주는 웹 도구를 http://deepcrispr.info/DeepPrime에서 제공한다. 관련 파이썬 패키지도 https://pypi.org/project/genet/에서 제공한다.
[결론]
의도된 단일 편집이 주어지는 경우, 원하는 편집 부위 근처에 잠재적인 표적 서열이 여러 개 있는 경우가 많다. 또한 이론적으로 표적 서열당 최소 850개의 pegRNA(= 17개 PBS 길이 x 50개 RTT 길이)를 설계할 수 있다. 4개의 잠재적 표적 염기서열이 있는 경우, 설계할 수 있는 pegRNA의 수는 3,400(=850 x 4)에 이른다. DeepPrime 및 DeepPrime-FT는 수천 개의 pegRNA 효율을 예측할 수 있으므로, 실제 실험을 수행하지 않고도 몇 분 안에 가장 효율적인 pegRNA를 식별할 수 있다.
요약하자면, 본 발명자들은 무오류 방식으로 전례 없는 규모의 프라임에디팅 효율 데이터를 생성했다. 본 발명자들은 프라임에디팅의 결정 요인을 광범위하게 특성화하고, 여러 세포 유형 및 다양한 프라임에디터에 대하여 프라임에디팅 효율을 예측하는 계산 모델을 개발했다. 본 발명자들은 또한 불일치 표적 서열에서 프라임에디팅 효율을 광범위하게 프로파일링하고, 이러한 부위에서 프라임에디팅 효율을 예측하는 계산 모델을 개발했다. 이 모델들을 사용하면, 프라임에디터와 pegRNA의 다양한 조합에 대해 일치 및/또는 불일치 표적에서 프라임에디팅 효율을 계산적으로 예측함으로써 가장 효율적이고 구체적인 조합을 선택할 수 있다.
참고문헌
Kim, et al. (2019). SpCas9 activity prediction by DeepSpCas9, a deep learning-based model with high generalization performance. Sci. Adv. 5, eaax9249.
Landrum, et al. (2016). ClinVar: public archive of interpretations of clinically relevant variants. Nucleic Acids Res. 44, D862-868.
Kim, et al. (2020a). Unbiased investigation of specificities of prime editing systems in human cells. Nucleic Acids Res. 48, 10576-10589.
Shen, et al. (2017). Combinatorial CRISPR-Cas9 screens for de novo mapping of genetic interactions. Nat. Methods 14, 573-576.
Du, et al. (2017). Genetic interaction mapping in mammalian cells using CRISPR interference. Nat. Methods 14, 577-580.
Shalem, et al. (2014). Genome-scale CRISPR-Cas9 knockout screening in human cells. Science 343, 84-87.
Kim, et al. (2021). Predicting the efficiency of prime editing guide RNAs in human cells. Nat. Biotechnol. 39, 198-206.
Jang, et al. (2021). Application of prime editing to the correction of mutations and phenotypes in adult mice with liver and eye diseases. Nat. Biomed. Eng. 6, 181-194.
Landrum, et al. (2020). ClinVar: improvements to accessing data. Nucleic Acids Res. 48, D835-D844.
Erwood et al., (2022). Saturation variant interpretation using CRISPR prime editing. Nat Biotechnol. 2022 Jun; 40(6):885-895.
Chen, et al. (2021). Enhanced prime editing systems by manipulating cellular determinants of editing outcomes. Cell 184, 5635-5652.e5629.
Kim, et al. (2020b). High-throughput analysis of the activities of xCas9, SpCas9-NG and SpCas9 at matched and mismatched target sequences in human cells. Nat. Biomed. Eng. 4, 111-124.
Kim, et al. (2020c). Prediction of the sequence-specific cleavage activity of Cas9 variants. Nat. Biotechnol. 38, 1328-1336.
Schmid-Burgk, et al. (2020). Highly Parallel Profiling of Cas9 Variant Specificity. Mol. Cell 78, 794-800 e798.
Kim, et al. (2017). In vivo high-throughput profiling of CRISPR-Cpf1 activity. Nat. Methods 14, 153-159.

Claims (27)

  1. 세포 유형 및 프라임에디터(Prime editor, PE) 종류에 따른 pegRNA의 프라임에디팅(Prime editing) 효율에 대한 데이터 세트를 수득하는 단계; 및
    상기 데이터 세트를 이용하여, 세포 유형 및 프라임에디터 종류와 프라임에디팅 효율 간의 관계를 딥러닝을 이용하여 학습시키는 단계를 포함하는,
    프라임에디팅 효율 예측 모델의 학습 방법.
  2. 청구항 1에 있어서, 상기 세포 유형은 HEK293T, HCT116, DLD1, MDA-MB-231, A549, HeLa 및 NIH3T3 중 2종 이상을 포함하는 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  3. 청구항 1에 있어서, 상기 프라임에디터 종류는 PE2, PE2max, PE2max-e, PE4max, PE4max-e, NRCH-PE2, NRCH-PE2max 및 NRCH-PE4max 중 2종 이상을 포함하는 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  4. 청구항 1에 있어서, 상기 프라임에디팅 효율은 표적 서열 내에서 의도하지 않은 돌연변이 없이 pegRNA에 의해 유도된 편집이 발생한 비율로 나타내지는 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  5. 청구항 1에 있어서, 상기 프라임에디팅 효율에 대한 데이터 세트는,
    pegRNA를 암호화하는 뉴클레오티드 서열 및 상기 pegRNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 플라스미드 라이브러리를 제작하는 단계;
    세포에 프라임에디터 및 상기 플라스미드 라이브러리를 도입하는 단계;
    상기 세포로부터 수득한 DNA를 이용하여 딥시퀀싱을 수행하는 단계; 및
    상기 딥시퀀싱으로 수득한 데이터로부터 프라임에디팅 효율을 분석하는 단계를 포함하는 방법을 수행하여 수득된 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  6. 청구항 1에 있어서, 상기 프라임에디팅 효율에 대한 데이터 세트는,
    1-nt 내지 3-nt 길이의 모든 유형의 편집에 대한 pegRNA 암호화 서열 및 표적 서열 쌍의 정보를 포함하는 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  7. 청구항 6에 있어서, 상기 pegRNA의 RTT(Reverse Transcription Template) 길이는 최대 50-nt이고, PBS(Primer Binding Site) 길이는 1-nt 내지 17-nt인 것인, 프라임에디팅 효율 예측 모델의 학습 방법.
  8. 세포 유형, 프라임에디터 종류, 및 표적 서열에 대한 정보를 입력받는 단계; 및
    청구항 1의 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 프라임에디팅 효율을 예측하는 단계를 포함하는,
    프라임에디팅 효율 예측 방법.
  9. 청구항 8에 있어서, 상기 표적 서열에 대한 정보는 편집되지 않은 서열과 편집된 서열의 쌍을 포함하는 것인, 프라임에디팅 효율 예측 방법.
  10. 청구항 8에 있어서, 상기 정보는 편집 길이 및 편집 유형에 대한 정보를 더 포함하는 것인, 프라임에디팅 효율 예측 방법.
  11. 청구항 8에 있어서, pegRNA 서열 및 그 pegRNA에 대해 예측된 프라임에디팅 예측 점수를 출력하는 단계를 더 포함하는, 프라임에디팅 효율 예측 방법.
  12. 세포 유형, 프라임에디터 종류, 및 표적 서열에 대한 정보를 입력받는 입력부; 및
    청구항 1의 학습 방법에 의해 학습된 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 프라임에디팅 효율을 예측하는 예측부를 포함하는,
    프라임에디팅 효율 예측 장치.
  13. 청구항 12에 있어서, 상기 표적 서열에 대한 정보는 편집되지 않은 서열과 편집된 서열의 쌍을 포함하는 것인, 프라임에디팅 효율 예측 장치.
  14. 청구항 12에 있어서, 상기 정보는 편집 길이 및 편집 유형에 대한 정보를 더 포함하는 것인, 프라임에디팅 효율 예측 장치.
  15. 청구항 12에 있어서, pegRNA 서열 및 그 pegRNA에 대해 예측된 프라임에디팅 예측 점수를 출력하는 출력부를 더 포함하는, 프라임에디팅 효율 예측 장치.
  16. 청구항 8에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
  17. 일치 표적 서열 및 불일치 표적 서열에서의 pegRNA의 프라임에디팅 효율에 대한 데이터 세트를 수득하는 단계; 및
    상기 데이터 세트를 이용하여, 비표적 프라임에디팅에 영향을 미치는 특징과 비표적 프라임에디팅 효율 간의 관계를 딥러닝을 이용하여 학습시키는 단계를 포함하는,
    비표적(off-target) 프라임에디팅 효율 예측 모델의 학습 방법.
  18. 청구항 17에 있어서, 상기 비표적 프라임에디팅 효율은, 불일치 표적 서열에서 pegRNA에 의해 유도된 프라임에디팅 효율인 것인, 비표적(off-target) 프라임에디팅 효율 예측 모델의 학습 방법.
  19. 청구항 17에 있어서, 상기 프라임에디팅 효율에 대한 데이터 세트는,
    pegRNA를 암호화하는 뉴클레오티드 서열 및 상기 pegRNA의 일치 또는 불일치 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 플라스미드 라이브러리를 제작하는 단계;
    세포에 프라임에디터 및 상기 플라스미드 라이브러리를 도입하는 단계;
    상기 세포로부터 수득한 DNA를 이용하여 딥시퀀싱을 수행하는 단계; 및
    상기 딥시퀀싱으로 수득한 데이터로부터 프라임에디팅 효율을 분석하는 단계를 포함하는 방법을 수행하여 수득된 것인, 비표적(off-target) 프라임에디팅 효율 예측 모델의 학습 방법.
  20. 청구항 17에 있어서, 상기 비표적 프라임에디팅에 영향을 미치는 특징은 불일치 위치, 불일치 개수, 불일치 유형, pegRNA의 PBS(Primer Binding Site) 길이, 및 pegRNA의 RTT(Reverse Transcription Template) 길이 중 어느 하나 이상을 포함하는 것인, 비표적(off-target) 프라임에디팅 효율 예측 모델의 학습 방법.
  21. 표적 서열 및 pegRNA 서열에 대한 정보를 입력받는 단계; 및
    청구항 17의 학습 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 비표적 프라임에디팅 효율을 예측하는 단계를 포함하는,
    비표적(off-target) 프라임에디팅 효율 예측 방법.
  22. 청구항 21에 있어서, 상기 표적 서열에 대한 정보는 불일치 표적 서열을 포함하는 것인, 비표적 프라임에디팅 효율 예측 방법.
  23. 청구항 21에 있어서, 상기 pegRNA에 대해 예측된 비표적 프라임에디팅 예측 점수를 출력하는 단계를 더 포함하는, 비표적 프라임에디팅 효율 예측 방법.
  24. 표적 서열 및 pegRNA 서열에 대한 정보를 입력받는 입력부; 및
    청구항 17의 학습 방법에 의해 학습된 비표적 프라임에디팅 효율 예측 모델에 상기 정보를 적용하여 pegRNA의 비표적 프라임에디팅 효율을 예측하는 예측부를 포함하는,
    비표적(off-target) 프라임에디팅 효율 예측 장치.
  25. 청구항 24에 있어서, 상기 표적 서열에 대한 정보는 불일치 표적 서열을 포함하는 것인, 비표적 프라임에디팅 효율 예측 장치.
  26. 청구항 24에 있어서, 상기 pegRNA에 대해 예측된 비표적 프라임에디팅 예측 점수를 출력하는 출력부를 더 포함하는, 비표적 프라임에디팅 효율 예측 방법.
  27. 청구항 17에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
KR1020230111504A 2022-09-07 2023-08-24 다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치 KR20240034650A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/KR2023/012794 WO2024053921A1 (ko) 2022-09-07 2023-08-29 다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20220113791 2022-09-07
KR1020220113791 2022-09-07

Publications (1)

Publication Number Publication Date
KR20240034650A true KR20240034650A (ko) 2024-03-14

Family

ID=90249166

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230111504A KR20240034650A (ko) 2022-09-07 2023-08-24 다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치

Country Status (1)

Country Link
KR (1) KR20240034650A (ko)

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Anzalone, A.V. et al. (2019). Search-and-replace genome editing without double-strand breaks or donor DNA. Nature 576, 149-157.
Chen et al. (2021). Enhanced prime editing systems by manipulating cellular determinants of editing outcomes. Cell 184, 5635-5652.e5629.

Similar Documents

Publication Publication Date Title
Arbab et al. Determinants of base editing outcomes from target library analysis and machine learning
Kulcsár et al. Crossing enhanced and high fidelity SpCas9 nucleases to optimize specificity and cleavage
Cong et al. Tiger swallowtail genome reveals mechanisms for speciation and caterpillar chemical defense
Payen et al. High-throughput identification of adaptive mutations in experimentally evolved yeast populations
Huminiecki et al. Divergence of spatial gene expression profiles following species-specific gene duplications in human and mouse
Duan et al. Adaptation of A-to-I RNA editing in Drosophila
Chen et al. Biogenesis, identification, and function of exonic circular RNAs
Shi et al. Discovery of cancer drug targets by CRISPR-Cas9 screening of protein domains
Ke et al. Quantitative evaluation of all hexamers as exonic splicing elements
WO2019118949A1 (en) Systems and methods for predicting repair outcomes in genetic engineering
Yu et al. Prediction of efficiencies for diverse prime editing systems in multiple cell types
RUIZ‐TRILLO et al. Insights into the evolutionary origin and genome architecture of the unicellular opisthokonts Capsaspora owczarzaki and Sphaeroforma arctica
Yang et al. Human long noncoding RNAs are substantially less folded than messenger RNAs
US20230022311A1 (en) Methods and compositions involving crispr class 2, type vi guides
Jordan et al. A computational reconstruction of Papio phylogeny using Alu insertion polymorphisms
Schirman et al. A broad analysis of splicing regulation in yeast using a large library of synthetic introns
Li et al. Comparative optimization of combinatorial CRISPR screens
Jones et al. An evolutionarily conserved RNA structure in the functional core of the lincRNA Cyrano
Sasaki et al. Conditional GWAS of non-CG transposon methylation in Arabidopsis thaliana reveals major polymorphisms in five genes
Huang et al. Species-specific chromatin landscape determines how transposable elements shape genome evolution
Ren et al. High-throughput PRIME-editing screens identify functional DNA variants in the human genome
Ye et al. Comprehensive isoform-level analysis reveals the contribution of alternative isoforms to venom evolution and repertoire diversity
Koeppel et al. Predicting efficiency of writing short sequences into the genome using prime editing
Forconi et al. Transcriptional activity of transposable elements in coelacanth
KR20240034650A (ko) 다양한 세포 유형에서 다양한 프라임에디터의 프라임에디팅 효율 예측 방법 및 장치