KR20220159911A - 염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템 - Google Patents

염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템 Download PDF

Info

Publication number
KR20220159911A
KR20220159911A KR1020220064208A KR20220064208A KR20220159911A KR 20220159911 A KR20220159911 A KR 20220159911A KR 1020220064208 A KR1020220064208 A KR 1020220064208A KR 20220064208 A KR20220064208 A KR 20220064208A KR 20220159911 A KR20220159911 A KR 20220159911A
Authority
KR
South Korea
Prior art keywords
mutation
dna
base
cells
base conversion
Prior art date
Application number
KR1020220064208A
Other languages
English (en)
Inventor
김형범
김영광
이승호
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to US17/825,394 priority Critical patent/US20220392569A1/en
Publication of KR20220159911A publication Critical patent/KR20220159911A/ko

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • G16B30/10Sequence alignment; Homology search
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Chemical & Material Sciences (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Theoretical Computer Science (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Analytical Chemistry (AREA)
  • Medical Informatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Immunology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Engineering & Computer Science (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

염기 변환 유전자 가위 및 가이드 RNA를 이용한 종양 돌연변이의 기능을 평가하기 위한 방법, 돌연변이 평가 시스템 및 상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체에 관한 것이다.

Description

염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템{Method for evaluating the function of cancer mutations through base editor and evaluation system using the same}
염기 변환 유전자 가위 및 가이드 RNA를 이용한 종양 돌연변이의 기능을 평가하기 위한 방법, 돌연변이 평가 시스템 및 상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체에 관한 것이다.
종양은 세포의 DNA 염기서열의 돌연변이로 인해 발생하는 질병이다. 대용량 유전자 분석기술 (시퀀싱 기술)의 발전으로 종양에서 수많은 돌연변이가 발견되고 있으나, 그중에서 종양의 발생 및 악성도와 관련되는 중요한 돌연변이를 판별하기 어려워 환자에서 발견되는 돌연변이 정보를 활용하는데 어려움이 있었다.
특정 돌연변이가 종양 발생에 미치는 영향을 알기 위해서 종전에는 통계적으로 종양에서 많이 관찰되는 변이를 찾는 방법을 사용하였으나, 이 방법은 돌연변이와 종양 발생 및 증식의 인과관계를 특정할 수 없다는 한계가 있었다. 또한 기존의 기술로는 유전체 전체에 걸쳐 다양한 돌연변이를 대량으로 유도하는 것이 불가능했다.
한편, 최근 DNA의 절단 없이도 유전체를 교정할 수 있는 염기변환 유전자가위 (Base Editors)가 개발되었으며, 그 예로 아데닌 염기변환 유전자가위 (Adenine Base Editor, ABE) 및 사이토신 염기변환 유전자가위 (Cytosine Base Editors, CBE)가 있다. 사이토신 염기교정 유전자가위는 자연 유래의 사이토신 탈아미노화효소 (Cytosine Deaminase)를 dCas9 또는 nCas9에 융합시켜 구축하고, 유전자의 절단이나 추가적인 도너 (donor) DNA의 삽입 없이도 사이토신을 티민으로 교정할 수 있다. 반면에 아데닌 염기변환 유전자가위 (Adenine Base Editors)는 RNA 대신에 DNA를 타겟으로 하는, 인위적으로 변형시킨 아데노신 탈아미노화효소 (Adenosine Deaminase)를 Cas9 변이체 (variants)에 융합시켜 구축하고, 아데닌을 구아닌으로 교정할 수 있다고 알려진 바 있다. 이러한 염기변환 유전자 가위는 난치성 유전질환 연구와 치료에 진전을 가져올 도구로 주목을 받고 있으며, 또한 유전자 교정기법 및 이를 통한 연구가 진행중에 있다.
특히 상기 차세대 유전자 가위 기술인 염기 변환 유전자가위를 이용해 인간 종양에서 관찰되는 단일염기 종양변이 중 세포 증식에 미치는 영향을 평가하는 방법에 대한 관심도가 높아지고 있다.
일 양상은 가이드 RNA 및 염기 변환 유전자 가위를 활용한 종양 돌연변이의 기능을 평가하기 위한 방법을 제공한다.
일 양상은 가이드 RNA 및 염기 변환 유전자 가위를 활용한 종양 돌연변이 평가 시스템을 제공한다.
다른 양상은 상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다.
일 양상은 가이드 RNA 및 염기 변환 유전자 가위를 활용한 종양 돌연변이의 기능을 평가하기 위한 방법을 제공한다.
상기 종양 돌연변이의 기능을 평가하기 위한 방법은 가이드 RNA를 암호화하는 뉴클레오티드 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열 및 상기 가이드 RNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리를 생성하는 단계;
염기 변환 유전자 가위를 발현하는 세포에 상기 세포 라이브러리를 형질 도입하여 배양하는 단계;
상기 형질 도입된 세포를 배양 후 수확하고 딥 시퀀싱을 수행하여 염기변환 효율 및 염기변환으로 인한 단백질 돌연변이의 빈도의 수준 데이터를 측정하는 단계; 및
상기 측정된 데이터를 분석하여 세포 라이브러리에 도입된 돌연변이의 기능을 평가하는 단계를 포함한다.
본 발명자들은 고처리량(high-throughput) 실험을 통해, 10만개의 돌연변이를 유도할 수 있는 가이드 RNA 암호화 서열 및 상응하는 표적 서열을 사용하여 각각의 돌연변이가 유도된 세포 라이브러리를 제작하여, 이를 염기 변환 유전자 가위를 발현하는 세포에 형질 도입하고, 표적 염기서열을 차세대 시퀀싱 기술을 통해 대량의 돌연변이의 효율을 확인하였다. 또한 이를 통해 약 3만여 개의 염기변환 유전자가위의 염기교정 결과를 단일염기 수준으로 정확히 파악할 수 있음을 확인하여 대량의 데이터 분석이 가능함을 확인하였다.
상기 용어 "염기변환 유전자가위 (Base Editors, BE)"는 단일 염기 교정 수단으로서, 보다 구체적으로 사이토신 탈아미노화효소 또는 아데닌 탈아미노화효소를 Cas9 니카아제 (nickase)의 N-말단에 융합시킴으로써 구축될 수 있다. 상기 염기변환 유전자 가위는 사이토신 염기변환 유전자가위 (Cytosine Base Editor, CBEs) 및 아데닌 염기변환 유전자가위 (Adenine Base Editor, ABE)를 포함할 수 있다. 상기 BE는 이중 가닥 절단을 일으키지 않으면서, ABE는 특정 부위에서 아데닌을 구아닌으로 교정하며 CBE는 특정 부위에서 사이토신을 티민으로 교정한다. 본 명세서 내에서 상기 염기변환 유전자 가위는 염기 편집 유전자가위, 염기 편집기 또는 염기 변환자와 혼용하여 사용할 수 있다.
용어 "가이드(guide) RNA"는 유전체 편집을 통해 표적 핵산을 인식하여 표적 핵산을 절단, 삽입, 또는 연결시키는 폴리뉴클레오티드를 말한다. 상기 가이드 RNA는 표적 핵산에 상보적인 서열을 포함할 수 있다. 상기 가이드 RNA는 상기 표적 핵산에서 PAM의 5' 방향 또는 3' 방향으로 연속적인 2 내지 24 뉴클레오티드(예, 20 nt 내외)(이하, 'nt'라 함)의 뉴클레오티드 서열과 상보적인 폴리뉴클레오티드를 포함할 수 있다. 상기 가이드 RNA의 길이는 10 nt 내지 100 nt, 10 nt 내지 90 nt, 10 nt 내지 80 nt, 10 nt 내지 70 nt, 10 nt 내지 60 nt, 10 nt 내지 50 nt, 15 nt 내지 50 nt, 20 nt 내지 50 nt일 수 있다. 상기 가이드 RNA는 예를 들면 single 가이드 RNA(sgRNA)일 수 있다.
상기 “염기변환의 효율”은 염기변환 유전자가위에 의한 유전자 편집 효율을 의미한다. 염기변환의 효율은 염기변환 유전자 가위를 통한 유전자 교정을 수행하였을 때, 표적 서열 내에서 의도하지 않은 돌연변이 없이 염기변환 유전자 가위 및 가이드 RNA에 의해 유도된 편집이 발생하는 비율로 계산될 수 있다. 상기 염기변환의 효율은 백분율로 표시될 수 있다.
“표적 서열(target sequence)”은 sgRNA가 목적하는 표적 뉴클레오티드 서열을 의미한다. 상기 표적 서열은 sgRNA가 표적으로 할 것으로 예상되는 서열일 수 있다. 상기 표적 서열은 공지된 게놈 서열 중 일부 서열일 수 있고, 본 발명의 시스템을 이용하는 당업자가 분석하고자 하는 서열을 임의로 설계한 서열일 수도 있다.
“올리고뉴클레오티드(oligonucleotide)”는 수 개 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 의미한다. 상기 올리고뉴클레오티드의 길이는 100 nts 내지 300 nts, 100 nts 내지 250 nts, 또는 100 nts 내지 200 nts일 수 있으나, 이에 제한되는 것은 아니며, 당업자가 적절히 조절할 수 있다.
상기 올리고뉴클레오티드는 바코드 서열(barcode sequence)을 더 포함할 수 있다. 따라서, 상기 올리고뉴클레오티드는 sgRNA를 암호화하는 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열, 바코드 서열 및 상기 sgRNA가 목적하는 표적 서열을 포함할 수 있다. 상기 바코드 서열의 개수는 1개, 2개, 또는 그 이상일 수 있다. 상기 바코드 서열은 당업자가 목적에 따라 적절히 설계할 수 있다. 예를 들어, 상기 바코드 서열은 딥시퀀싱 수행 후 각각의 sgRNA 및 그에 상응하는 표적 서열 쌍이 식별될 수 있게 하는 것일 수 있다.
“라이브러리”는 특성이 다른 동종의 물질이 2종 이상 포함된 집단 (pool 또는 population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 뉴클레오티드 서열이 다른 2종 이상의 올리고뉴클레오티드, 예컨대 sgRNA, 및/또는 표적 서열이 다른 2종 이상의 올리고뉴클레오티드를 포함하는 집단일 수 있다. 또한, 세포 라이브러리는 특정이 다른 2종 이상의 세포, 예컨대 세포에 포함되는 올리고뉴클레오티드가 다른 세포들의 집단일 수 있다.
“벡터”는 상기 올리고뉴클레오티드를 세포 내에 전달할 수 있도록 하는 매개체를 의미할 수 있다. 구체적으로, 벡터는 각각의 sgRNA 암호화 서열 및 표적 서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있으나, 이에 제한되지 않는다. 상기 바이러스 벡터는 렌티바이러스 벡터 또는 레트로바이러스 벡터 등이 사용될 수 있으나, 이에 제한되지 않는다. 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물, 즉 올리고뉴클레오티드가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다. 상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.
상기 벡터를 라이브러리를 제조하기 위한 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물, 즉 벡터를 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다. 상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 이에 제한되는 것은 아니다.
상기 벡터가 도입될 수 있는 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있으나, 그 예로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포), HBEC30KT 세포, HBEC30KT-shTP53 세포 등의 동물 세포; 또는 식물 세포가 될 수 있다.
상기 세포 라이브러리에 염기 변환을 유도하기 위하여 염기 변환 유전자가위를 도입할 수 있다. 상기 염기 변환 유전자가위는 벡터에 의해 세포 내로 도입될 수도 있고, 염기 변환 유전자가위 그 자체로 세포 내에 도입될 수도 있으며, 세포 내에서 염기 변환 유전자가위가 활성을 나타낼 수 있는 한 그 도입 방법은 제한되지 않는다. 여기에서, 벡터에 관한 설명은 상술한 바와 같다.
상기 세포 라이브러리에서는 도입된 sgRNA 및 표적 서열을 포함하는 올리고뉴클레오티드, 및 염기 변환 유전자가위에 의해 염기 변환이 일어날 수 있다. 즉, 도입된 표적 서열에 대하여 유전자 편집이 일어날 수 있다.
상기 방법에 있어서 형질 도입된 세포의 수확은 세포의 배양 후 10일 및 24일째에 이루어질 수 있다.
상기 세포 라이브러리로부터 DNA를 수득하는 방법은 당업계에 공지된 다양한 DNA 분리 방법을 이용하여 수행될 수 있다.
세포 라이브러리를 구성하는 각각의 세포들은 도입된 표적 서열에서 유전자 편집이 발생한 것으로 예상되므로, 표적 서열을 서열 분석하여 염기 변환의 효율을 검출할 수 있다. 상기 서열 분석 방법은 염기 변환의 효율 데이터를 얻을 수 있다면, 특정 방법에 제한되는 것은 아니나, 예를 들어 딥시퀀싱을 이용할 수 있다.
“염기변환의 효율에 대한 데이터”는 기존의 공지된 데이터일 수도 있고, 당업자가 적절히 채택할 수 있는 임의의 방법으로 직접 수득한 데이터일 수 있으며, 염기변환의 효율을 예측할 수 있는 예측 모델을 생성할 수 있는 데이터라면, 데이터가 수득되는 방법은 제한되지 않는다. 일 구체예에서, 고처리량(high-throughput) 실험을 통해 가이드 RNA 및 그에 상응하는 표적 서열을 사용하여 분석한 염기변환의 효율 데이터일 수 있다. 상기 염기변환의 효율은 하기의 수학식 4에 의하여 도출될 수 있다.
Figure pat00001
(수학식 4)
상기 방법에 있어서 측정된 데이터의 분석은 염기변환의 효율과 염기 변환으로 인한 단백질 돌연변이의 빈도가 기준에 상응하는 경우의 유효데이터로 분류하고 이를 분석하는 단계를 포함하는 것일 수 있다.
상기 염기 변환으로 인한 단백질 돌연변이의 빈도는 단일 염기 변환에 의한 단일염기변이(SNV)로 인하여 나타나는 단백질 변이 빈도를 의미하는 것일 수 있다.
상기 기준은 표적 서열 내 염기 변환의 효율이 60% 이상인 것; 및 의도된 단백질 변이의 빈도가 의도되지 않은 단백질 변이 빈도 대비 75% 이상인 것일 수 있다. 일 구체예로 염기변환 유전자 가위를 통한 표적 서열 내 염기 변환의 효율이 60%로서 즉 전체 리드의 60%이상이 염기변환이 나타나고 또한 이를 통해 의도된 일차(primary) 단백질 변이가 전체 변이 대비 75%이상을 차지하는 경우 sgRNA를 활용한 고 처리량 방법이 실제 단일 아미노산 변이가 나타나는 것과 동일하다고 판단할 수 있어, 이를 통한 세포의 성장(proliferation 또는 outgrowing, 본 명세서 내에서 혼용가능) 또는 고갈(depletion)로 효과적으로 분류할 수 있다.
본 명세서에서 변이와 돌연변이는 혼용하여 사용될 수 있다.
본 명세서에서 “성장(outgrowing)”은 세포가 증식할 수 있는 상태로서, 예를 들면 암 세포의 증식을 유도할 수 있는 영향을 유도하는 돌연변이를 의미하는 것일 수 있고, 이는 야생형 대비 변이를 통해 세포의 수가 증가하는 것을 의미하는 것일 수 있다.
“중성”은 세포의 증식에는 영향을 주지 않는 돌연변이를 의미하는 것일 수 있다. 또한 “고갈(depletion)”은 세포가 증식하지 않는 상태로서 세포 증식의 반대 의미로 사용되는 것일 수 있고, 세포가 성장하지 않는 상태를 의미하는 것으로서, 본 명세서 내에서는 상기 “성장” 변이의 반대 의미로 사용되는 것일 수 있다.
일 구체예에서 예를 들면, 염기 편집된 변이의 빈도가 감소하고 염기 편집이 나타나지 않은 야생형의 빈도가 증가하는 경우에 “성장” 변이로 분류할 수 있으며, 이와 반대로 염기 편집된 변이의 빈도가 증가하고 염기 편집이 나타나지 않은 야생형의 빈도가 감소하면 이를 “고갈” 변이로 분류할 수 있다.
본 명세서 내 기재된 상기 방법은 서열의 분석 및 서열 리드의 측정 및 판독은, 예를 들면 UMI 카운트를 구하기 위하여 차세대 시퀀싱(Next-Generation Sequencing :NGS) 방법을 사용하여 수행할 수 있다. 구체적으로, 상기 방법에서 UMI 카운트를 구하는 것은 NGS에 의하여 측정된 수많은 리드(read)들 중에서 해당 위치에 무작위적으로 넣은 UMI를 읽고, 이의 개수를 세는 것으로 수행할 수 있다.
본 방법에서는 UMI 카운트의 정확도를 높이기 위하여 UMI 카운트를 in-house Python 스크립트를 사용하여 정렬 바코드에 따라 8nt UMI 시퀀스를 계산하고 분석할 수 있다. 또한 상기 UMI 카운트는 정규화하여 사용될 수 있으며, MAGECK(MAGeCK 0.5.9.3) 분석을 통해 해석될 수 있다. 또한 본 발명에서는 분류의 정확도를 높이기 위하여 형질 도입된 세포의 배양 후 10일째 UMI 카운트가 50 미만인 데이터를 분석에서 제외할 수 있다.
상기 방법에 있어서, 돌연변이의 기능을 평가하는 단계는 각 돌연변이를 세포의 성장 변이(outgrowing) 또는 고갈(depletion) 변이로 분류하는 단계를 포함하는 것일 수 있다. 또한 상기 돌연변이의 기능을 평가하는 단계는 일 구체예에서 확인한 바와 같이, 항암제 내성 관련 변이를 평가할 수 있어, EGFR 억제제 아파티닙(afatinib)에 대한 내성을 부여하는 변이를 분류하는 단계를 포함하는 것일 수 있다.
또한 상기 방법은 돌연변이의 기능을 고갈 및 성장의 이외의 변이를 분류할 수 있고 이는 고갈 및 성장의 사잇값으로서, 유사고갈, 유사중성(고갈 가능성 있음), 중성, 유사중성(성장 가능성 있음) 및 유사성장 변이로 기능을 분류하는 평가 방법을 이용할 수 있다.
상기 방법에 있어서, 돌연변이의 기능을 평가하기 위하여 sgRNA의 양성/음성 로그 배수 변화(LFC) 및 P-값을 이용할 수 있고, 이는 MAGeCK 알고리즘으로 상기 값을 구할 수 있다. 또한 상기 방법에 있어서 돌연변이의 기능을 평가하기 위하여 UMI 카운트 수 분석을 통한 UMI CPM(백만당 개수) LFC를 추가로 이용하여 성장 및 고갈 변이로의 분류를 보다 정확하게 수행할 수 있다. 이러한 UMI CPM LFC(log fold change)는 아래의 수학식 6 및 수학식 7에 의하여 구할 수 있다.
Figure pat00002
(수학식 6)
Figure pat00003
(수학식 7)
또한 상기 방법은 컴퓨터를 이용한 시스템에서 구현될 수 있다.
일 양상은 염기 변환 유전자 가위에 의한 염기 변환 효율 및 염기 변환을 통한 단백질 돌연변이의 빈도의 수준 데이터를 입력받는 정보 입력부; 상기 정보 입력부에서 입력 받은 데이터를 이용하여 기준에 상응하는 경우의 유효데이터로 분류하는 데이터 분류부; 및 상기 데이터 분류부를 통해 분류된 데이터를 분석하여 측정된 데이터를 분석하여 돌연변이의 기능을 평가하는 데이터 평가부를 포함하는, 종양 돌연변이 평가 시스템을 제공한다.
상기 시스템에서 염기 변환 유전자 가위는 사이토신 염기 변환 유전자가위(cytosine base editor:CBE) 및 아데닌 염기 변환 유전자가위(adenine base editor :ABE)인 것일 수 있다.
상기 시스템은 전술한 방법을 활용한 구성을 이용하기 때문에, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략하나, 중복되는 구성에 대한 설명은 상기 설명한 바와 같다.
또한 상기 시스템에서 상기 기준은 표적 서열 내 염기 변환의 효율이 60% 이상인 것; 및 의도된 단백질 변이의 빈도가 의도되지 않은 단백질 변이 빈도 대비 75% 이상인 것일 수 있다.
또한 상기 시스템에서 상기 염기 변환 유전자 가위에 의한 염기 변환 효율 및 염기 변환을 통한 단백질 돌연변이의 빈도의 수준 데이터는 가이드 RNA를 암호화하는 뉴클레오티드 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열 및 상기 가이드 RNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리를 생성하는 단계; 염기 변환 유전자 가위를 발현하는 세포에 상기 세포 라이브러리를 형질 도입하여 배양하는 단계; 및 상기 형질 도입된 세포를 배양 후 수확하고 딥 시퀀싱을 수행하여 염기변환 효율 및 염기변환으로 인한 단백질 돌연변이의 빈도의 수준 데이터를 측정하는 단계를 수행하여 수득된 것일 수 있다.
상기 데이터를 측정하는 단계에서 형질도입된 세포의 배양 후 수확은 형질도입된 세포를 배양하고 10일 및 24일 이후에 수확하고 딥 시퀀싱을 수행한 것일 수 있다.
상기 올리고뉴클레오티드는 바코드 서열(barcode sequence)을 더 포함할 수 있다. 따라서, 상기 올리고뉴클레오티드는 sgRNA를 암호화하는 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열, 바코드 서열 및 상기 sgRNA가 목적하는 표적 서열을 포함할 수 있다. 상기 바코드 서열의 개수는 1개, 2개, 또는 그 이상일 수 있다. 상기 바코드 서열은 당업자가 목적에 따라 적절히 설계할 수 있다. 예를 들어, 상기 바코드 서열은 딥시퀀싱 수행 후 각각의 sgRNA 및 그에 상응하는 표적 서열 쌍이 식별될 수 있게 하는 것일 수 있다.
상기 시스템에서 돌연변이의 기능을 평가하는 데이터 평가부는 각 돌연변이를 세포의 성장 변이(outgrowing) 또는 고갈(depletion) 변이로 분류할 수 있다. 또한 상기 돌연변이의 기능을 평가하는 데이터 평가부는 일 구체예에서 확인한 바와 같이, 항암제 내성 관련 변이를 평가할 수 있어, EGFR 억제제 아파티닙(afatinib)에 대한 내성을 부여하는 변이를 분류할 수 있다.
상기 시스템은 데이터 평가부에서 평가된 데이터를 출력하는 출력부를 더 포함할 수 있다. 상기 출력부가 출력하는 돌연변이 기능 평가에 대한 정보는, 염기 변환의 효율에 대해 산출된 수치, 또는 미리 설정된 기준값에 대한 상대적인 수치로 나타낼 수 있으나, 출력되는 정보의 형태나 종류는 제한되지 않는다.
다른 양상은 상기 종양 돌연변이의 기능을 평가하기 위한 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다.
상기 기록매체는 전술한 방법을 이용하기 때문에, 이 둘 사이에 공통된 내용은 본 명세서의 과도한 복잡성을 피하기 위하여, 그 기재를 생략한다.
상기 프로그램은 상기 종양 돌연변이 평가 시스템 또는 상기 종양 돌연변이의 기능을 평가하기 위한 방법을 컴퓨터 프로그래밍 언어로 구현한 것일 수 있다.
상기 프로그램을 구현할 수 있는 컴퓨터 프로그래밍 언어는 Python, C, C++, 자바(Java), 포트란(Fortran), 비쥬얼 베이직(Visual Basic) 등이 있으나 이에 제한되지 않는다. 상기 프로그램은 USB 메모리, CDROM(compact disc read only memory), 하드 디스크, 자기 디스켓, 또는 그와 유사한 매체 또는 기구 등의 기록 매체로 저장될 수 있으며, 내부 또는 외부 네트워크 시스템에 연결될 수 있다. 예를 들면, 컴퓨터 시스템은 HTTP, HTTPS, 또는 XML 프로토콜을 이용하여 GenBank(http://www.ncbi.nlm.nih.gov/nucleotide), Catalogue of Somatic Mutations in Cancer (COSMIC)과 같은 서열 데이터베이스에 접속하여 표적 유전자 및 상기 유전자의 조절 영역의 핵산서열을 검색할 수 있다.
상기 프로그램은 온라인 또는 오프라인으로 제공될 수 있다.
일 양상에 따른 방법은 인간 종양에서 관찰되는 약 3만 내지 10만여개의 단일염기 종양변이를 직접 세포에 도입하여 종양 돌연변이와 세포의 증식과의 관계를 확인하고 이를 통해 돌연변이가 세포 증식에 미치는 영향을 기준으로 변이의 기능을 분류할 수 있다. 또한 일 양상의 방법 및 시스템에 따르면 약 10만개의 종양 돌연변이의 기능을 한꺼번에 평가할 수 있고 염기변환 유전자를 통한 염기 교정의 결과를 단일 염기 수준으로 정확히 파악할 수 있으므로 종양 데이터 베이스에서 추출한 돌연변이 형태와 일치하는 돌연 변이를 정확히 추출할 수 있으며, 항암제 내성을 가지는 돌연변이를 효과적으로 발굴할 수 있다.
도 1은 rtTA(pLVX-EF1a-rtTA-네오마이신), CBE(TRE3G-AncBE4max-PGK-하이그로마이신) 및 ABE(TRE3G-ABEmax-PGK-하이그로마이신)의 발현에 사용되는 렌티바이러스 벡터맵을 모식화한 도이다. 상기 벡터를 사용하여 P-C 및 P-A 세포를 제조하였으며, rtTA: 역테트라사이클린 조절된 트랜스활성화제; Anc689APOBEC: 코돈 최적화 ancestral APOBEC1(AncBE4max); TadA: tRNA 아데노신 디아미나제; bis-bpNLS: N- 및 C-말단 모두에서 이중입자(biparticle) 핵 국소화 신호; TRE3G: 테트라사이클린 반응 요소 3G 프로모터.
도 2는 고유한 분자 식별자(UMI)가 있는 sgRNA-인코딩 및 표적 서열 쌍의 렌티바이러스 라이브러리 생성하기 위한 방법을 모식화한 도이다. 20-nt 가이드 서열을 포함하는 올리고뉴클레오티드 및 해당 표적 서열을 합성하고 pLenti-gRNA-puro 벡터에 클로닝하여 플라스미드 라이브러리 1을 생성하였고, 플라스미드 라이브러리 2를 생성하기 위하여 이후 플라스미드를 BsmBI 제한 효소로 분해하고 sgRNA 스캐폴드 서열 및 UMI를 포함하는 단편과 연결하였다. 플라스미드 라이브러리 2에서 생성된 렌티바이러스 라이브러리는 독시사이클린 유도 방식으로 사이토신 염기 편집 유전자가위(CBE) 또는 아데닌 염기 편집 유전자가위(ABE)를 발현하는 세포로 형질도입되었다.
도 3은 소규모 라이브러리 C1, C2 및 A1을 디자인을 하는 방법을 모식화한 것(도 3A) 및 C3 및 A2를 디자인하는 방법을 모식화한 것(도 3B)을 나타내었다. 또한 도 3C는 생물학적 복제물 간 통합된 표적 서열에서 비동의 염기 편집 효율 간의 상관관계를 나타낸 도이다. 도 3C의 염기 편집 효율은 각 라이브러리를 P-C 또는 P-A 세포로 초기 형질도입한 지 10일 후에 측정하였다; 각 복제에서 100개 이상의 raw 리드 수를 가진 sgRNA만 포함하였다; 피어슨 상관 계수(r)가 표시를 표시하였고 sgRNA의 수 n = 3,181(라이브러리 C1), 3,063(라이브러리 C2) 및 1,520(라이브러리 A1)이다.
도 4는 대체 표적서열에서 표적 뉴클레오티드 C(도 4A) 또는 A(도 4B)에 대해 표시된 영역의 각 위치에서 측정된 염기 편집 효율을 확인한 도이다. 위치(position) 1은 타겟 시퀀스의 5' 끝이고 위치 20은 NGG PAM의 바로 앞 상류를 의미한다. 분석 대상 서열(n)의 수는 다음과 같다: 도 4A에서 n = 5,865 (위치-4), 5,393 (위치-3), 5,782 (위치-2), 5,815 (위치-1), 5,292 (위치1), 5,614 (위치2), 5,697, 6,394, 10,586, 9,382, 8,837, 5,421, 6,130, 5,339, 5,541, 5,796, 5,058, 5,723, 5,955, 5,348, 5,779, 5,437, 4,884, 5,502 (위치20); 도 4B에서 n = 19,475 (위치-4), 20,753 (위치-3), 20,110 (위치-2), 19,425 (위치-1), 19,984 (위치1), 20,004 (위치2), 17,873, 24,870, 35,421, 33,186, 32,807, 19,895, 19,195, 20,227, 19,549, 18,986, 20,367, 18,793, 18,361, 20,478, 19,605, 20,975, 21,542, 22,952 (위치20)
도 5는 기능 분류 방법을 순서화하여 나타낸 도이다. 구체적으로, (1단계)50개 이상의 고유한 분자 식별자(UMI)를 포함하는 sgRNA를 MAGECK 분석을 위한 입력으로 사용하였다. (2단계) 통합된 표적 서열에서 60% 미만의 비동의 염기 편집 효율과 관련된 sgRNA를 제거하였다. (3단계) sgRNA는 MAGeCK-UMI 분석에서 얻은 정규화된 로그 배수 변화(nLFC) 및 P-값에 따라 그룹화하였다. 컷오프 값은 각 라이브러리의 비표적화 대조군의 분포에 의해 결정되었다. (4단계) 성장 및 고갈 그룹의 경우 UMI CPM(백만당 개수) LFC를 추가로 고려하여 유사 성장과 성장, 유사 고갈과 고갈을 추가적으로 분류하여 성장 및 고갈 그룹으로의 잘못된 분류를 방지하였다. 각 그룹으로 분류된 sgRNA 및 돌연변이 단백질의 수는 아래 표에 나타내었다(표는 라이브러리 C, C1, C2, C3, A, A1, A2 및 dA를 기반으로 하는 통합 결과를 나타냄).
도 6은 sgRNA-인코딩 서열 및 대체 타겟 서열 쌍의 라이브러리를 포함하는 렌티바이러스 벡터 맵을 모식화한도이다. 여기서 UMI는 8-nt unique molecular identifier이다.
도 7은 변이체의 CBE 및 ABE 매개된 고처리량 평가(high-throughput evaluations) 방법을 모식화하여 나타낸 도이다.
도 8은 생물학적 복제물의 통합된 표적 서열에서 비동의 염기 편집 효율 간의 상관관계를 나타낸 도이다. 각 도트의 색상은 인접한 도트(즉, 도트 반경의 3배 거리 내에 있는 도트)의 수에 의해 결정되었고, 피어슨 상관 계수(r)를 표시하였다.
도 9는 라이브러리 C2의 통합된 표적 서열에서 결정된 비동의 염기 편집 효율에 따라 필수 유전자를 표적으로 하는 190개 sgRNA의 중앙값(median) 정규화 로그 배수 변화(LFC)의 분포를 나타낸 도이다: NT, 비표적화 sgRNA; sgRNA의 수 n = 99(NT), 13(<20%), 17(20%~40%), 31(40%~60%), 129(>60%). (NT와 비교, two-sided Student's t test, NS, 유의하지 않음, *P = 6.1 x 10-7, **P = 2.3 x 10-21).
도 10은 라이브러리 C 및 A에 대한 nLFC의 볼케이노 플롯 및 sgRNA의 robust rank aggregation (RRA) P-값의 음의 로그를 확인한 도로서, sgRNA의 기능적 분류를 나타낸 도로서, 비표적화 sgRNA는 검은색(진한점)으로 표시하였다.
도 11은 라이브러리 C 및 A와 소규모 라이브러리 C1, C2 및 A1의 통합 표적 서열에서 비동의 염기 편집 효율 간 상관관계를 나타낸 도이다.
도 12는 소규모 라이브러리 C1, C2 및 A1에 대한 nLFC의 볼케이노 플롯과 sgRNA의 RRA P-값의 음의 로그를 나타낸 도이다.
도 13은 라이브러리 C 및 A와 소규모 라이브러리 C1, C2 및 A1을 사용하여 만든 기능 분류 간의 상관 관계를 보여주는 히트맵을 확인한 도이다.;색상 강도는 각 행의 각 셀 내 변이체의 상대적 수에 의해 결정되었다. D: 고갈, LD: 유사 고갈, LND: 유사 중성 (고갈 가능성 있음), N: 중성, LNO: 중성(성장 가능성 있음), LO: 유사 성장, O: 성장.
도 14는 라이브러리 C3, A2및 dA에 대한 nLFC의 볼케이노 플롯과 sgRNA의 RRA P-값의 음의 로그를 나타낸 도이다.
도 15는 sgRNA 및 관련 염기 편집 변이체의 개별 검증을 고처리량 기능 분류방법에 관한 도로서, 도 15A는 각 sgRNA 및 변이체의 기능을 검증하기 위한 실험을 모식화한 도로서, 경쟁적 증식(상단) 및 대립유전자 빈도 추적(하단)을 확인한 도이다. 도 15B는 개별 검증 실험에서 내인성 표적 부위에서 염기 편집에 의해 유도된 염기 편집 결과 서열의 빈도와 고처리량 실험에서 상응하는 통합 표적 서열 사이의 상관관계를 나타낸 도이다; 스피어만 상관(R) 및 피어슨 상관(r) 계수를 표시하였고, 빈도가 1% 이상인 염기 편집 결과를 포함하였다; 염기 편집 결과 시퀀스의 수 n = 57. 도 15C는 개별 대립 유전자 빈도 추적 및 고처리량 실험에 의해 결정된 sgRNA-유도 염기 편집으로 인한 표현형의 상관관계를 확인한 도이다; sgRNA의 수 n = 20. 도 15D는 개별 경쟁 증식 분석 및 고처리량 실험에 의해 결정된 sgRNA 유도 염기 편집으로 인한 표현형의 상관관계를 확인한 도이다; sgRNA의 수 n = 24; 중성/중성 가능성이 있는 그룹과의 비교에 의해 결정된 통계적 유의성을 표시하였다(양측 Mann-Whitney U 테스트).
도 16은 염기 변환-매개의 돌연변이를 통한 EGFR 티로신 키나아제 억제제인 아파티닙에 대한 내성 돌연변이를 확인하는 실험에 관한 도로서, 도 16A는 EGFR 티로신 키나아제 억제제인 아파티닙에 대한 내성을 부여하는 변이체의 CBE 매개 고처리량 평가방법을 모식화한 도이며, 도 16B는 염기 변환-매개의 돌연변이를 통한 EGFR 티로신 키나아제 억제제인 아파티닙에 대한 내성 돌연변이를 확인한 실험에서 nLFC의 화산 플롯 및 sgRNA의 RRA P-값의 음의 로그를 나타낸 도이며, 도 16C는 각 그룹으로 분류된 sgRNA 및 단백질 변이체의 수를 표시한 도이다.
도 17은 sgRNA 및 단백질 변이체와 관련된 유전자의 상관관계를 확인한 도로서, 도 17A(상단)은 성장 표현형으로 확인된 군에서 주목할만한 유전자 군에는 암 유전자 센서스(Cancer Gene Census, CGC)가 포함되었고, 이의 기능 분류를 확인한 도이며, 도 17A (하단) 는 상기 동일한 분석을 29,060개의 기능적으로 분류된 단백질 변이체를 사용하여 수행하였고, 이의 결과를 나타낸 도이다; 도 17B의 왼쪽 도는 고갈 표현형과 관련된 주목할만한 유전자 군을 확인하였고, 이를 확인한 결과를 나타낸 도이고, 도 17B 오른쪽 도는 동일한 방법으로 sgRNA 대신 기능적으로 분류된 29,060개의 단백질 변이체를 사용하여 분석을 수행한 결과를 나타낸 도이다.
이하 본 발명을 실험예 및 실시예를 통하여 보다 상세하게 설명한다. 그러나, 이들 실험예 및 실시예는 본 발명을 예시적으로 설명하기 위한 것으로 본 발명의 범위가 이들 실험예 및 실시예에 한정되는 것은 아니다.
실험예
1. 라이브러리 C 및 A 설계
COSMIC(Catalog Of Somatic Mutations In Cancer) 데이터베이스 (출시 버전 84)에서 인간 암 조직에서 발견된 단일 염기서열 변이(single-nucleotide variants : SNV)를 추출하였다. COSMIC에 나열된 돌연변이를 2018년 3월 웹사이트에서 확인하였다. 데이터베이스에서 인간 암에서 발견되는 458,189개의 C>T SNV와 255,580개의 A>G SNV를 획득하였다. 높은 빈도의 염기 편집을 달성하기 위해, NGG PAM의 말단이 CBE 및 ABE 모두에 대해 위치 1(position)로 지정되도록 번호가 매겨진 프로토스페이서 위치 4~7에 걸쳐 있는 고도로 활성인 4-bp 활성 창을 설계하였다. CBE 및 ABE를 사용하여 생성할 수 있는 C>T 153,425개 및 A>G 35,163개를 식별하였다.
다음으로, sgRNA 서열 및 해당 게놈 표적 서열에서 BsmBI 절단 부위가 있는 모든 돌연변이를 걸러냈다. 동의(synonymous) SNV를 필터링한 후 고효율로 생성할 수 없는 SNV를 제거하였다. Cas9 뉴클레아제 활성이 낮을 때 기본 편집 효율성이 일반적으로 낮으므로, 계산적으로 예측된 SpCas9 활동을 나타내는 가장 낮은 DeepSpCas9 점수를 가진 표적 서열의 10%를 제거하였다. 이러한 단계 후, 각각 CBE 및 ABE를 사용하여 84,806 C>T SNV 및 23,176 A>G SNV를 유도할 수 있는 80,203 및 23,008 sgRNA를 1차 선택하였다.
음성 대조군으로 라이브러리 C에 500개의 sgRNA를 추가하고 라이브러리 A에 139개의 sgRNA를 추가하였다. 인간 게놈의 어떤 서열도 표적으로 삼지 않으며(비표적화 대조군 sgRNA), 인간 세포에서 게놈 전체의 Cas9 유도 녹아웃 스크리닝에서 음성 대조군으로 사용하는 sgRNA를 음성 대조군 sgRNA로 사용하였다. 동의돌연변이(synonymous mutation) 유도 sgRNA를 음성 대조군의 유형 중 하나로 사용하였고, 이러한 sgRNA를 라이브러리 C에 3,028개의 sgRNA를 포함하고 라이브러리 A에 466개의 sgRNA를 포함시켰다. 이러한 sgRNA 그룹은 719개 유전자의 Cancer Gene Census에서 발견되는 동의 SNV를 유도할 수 있으며, 이는 암 진화와 관련된 전문적으로 선별된 유전자 카탈로그를 나타낸다.
2. 세포주 및 배양
HBEC30KT(RRID: CVCL-AS83) 세포는 CDK4 및 hTERT의 안정적인 발현에 의해 불멸화된 정상 인간 기관지 상피 세포이다. 상기 세포는 손상되지 않은 증식의 접촉 억제를 나타내며 종양 발생 가능성이 없다. HBEC30KT-shTP53 세포(P 세포)를 TP53 표적화 shRNA를 HBEC30KT 세포로 렌티바이러스를 전달하여 생성하였다. TP53, KRAS 및 LKB1(STK11)과 같은 발암성 유전자의 산물에 대한 면역블롯 분석을 통하여 P 세포가 p53 단백질의 감소된 발현을 제외하고는 정상 일치하는 대조군 HBEC30KT 세포와 유사한 것을 확인하였다.
P 세포는 0.02mg/ml 인슐린, 0.01mg/ml 트랜스페린(transferrin), 25nM 아셀렌산나트륨(sodium selenite), 50nM 하이드로코르티손, 10mM HEPES, 1ng/ml가 EGF, 0.01mM 에탄올아민, 0.01mM O-포스포릴에탄올아민, 0.1nM 트리요오도티로닌(triiodothyronine), 2mg/ml 소 혈청 알부민, 0.5mM 피루브산나트륨 2% Tet 시스템 승인 소 태아 혈청(FBS, Clontech) 및 1% 스트렙토마이신 페니실린-스트렙토마이신 (GIBCO)이 보충된 ACL4 배지(RPMI 1640(GIBCO, 2.05mM L-글루타민)에서 37℃, 5% CO2의 조건으로 배양되었다. HEK293T 세포(American Type Culture Collection)는 37℃, 5% CO2의 조건에서 10% FBS(GIBCO)가 포함된 둘베코수정이글배지 (DMEM, GIBCO)에서 배양되었다.
3. 클로닝
클로닝에 사용된 모든 프라이머를 하기 표 1에 나타내었다. 모든 뉴클레오티드는 마크로젠(한국)에서 구입하였다. 또한 실험에 사용한 각 바이러스 벡터의 모식도를 도 1에 나타내었다.
서열번호 프라이머 시퀀스
1 BE-Nterm-FP CCACAACACTTTTGTCTTATACTTGGCCGCCACCATGAAACGGAC
2 BE-Nterm-RP AGTTCCAGGGGGTGATGGTTTCCTCGCTCTTTCTGGTCATCCAGG
3 BE-Cterm-FP ATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAG
4 BE-Cterm-RP ATTCCATATGACGCGTCCCGGGATCTTAGACTTTCCTCTTCTTCTTGGGCTCG
5 TRE3G-PGK-FP GATCCCGGGACGCGTCATATGGAATT
6 TRE3G-PGK-RP CGCGGTGAGTTCAGGCTTTTTCATGGTAAGCTTGGGCTGCAGGTCG
7 lenti-hygro-FP ATGAAAAAGCCTGAACTCAC
8 lenti-hygro-RP TCATTATTCCTTTGCCCTCGGACGAG
9 WPRE-FP TCCGAGGGCAAAGGAATAATGACGGGGCGCGTCTGGAACAATCA
10 WPRE-RP CAACACAGGCGAGCAGCCATGGAAAGGACGTCAGCTTCC
11 EF1a-FP GGTAGTCTCAAGCTGGCCGGCCTGCTCTGGTGCCTGGCCTCGC
12 EF1a-RP GAGTAGTGAGAAATTCGTGGCACCAGATCCTCTAGACTGCAGATCGGCACCGGGCTTGCGGGTC
13 p2A-EGFP-FP GCCACGAATTTCTCACTACTCAAGCAGGCCGGTGATGTCGAGGAAAACCCTGGTCCTGTGAGCAAGGGCGAGGAGCT
14 p2A-EGFP-RP GATTGTCGACTTAACGCGTTTACTTGTACAGCTCGTCCATG
15 WPRE-LTR-FP CATGGACGAGCTGTACAAGTAAACGCGTTAAGTCGACAATCA
16 WPRE-LTR-RP AAAAAAATTAGTCAGCCATGGGGCGGAGAATGGGCGGAAC
17 Oligo-Amplifying-FP TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC
18 Oligo-Amplifying-RP GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT
19 Improved scaffods with UMI GTTTCAGAGCTATGCTGGAAACAGCATAGCAAGTTGAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTNNNNNNNNTTTGGGAGACGCGATCGAT
20 Scaffold-Amplifying FP CAAGCTTGGTACCGAGCTCGTTTTCGTCTCTGTTTCAGAGCTATGCTGG
21 Scaffold-Amplifying-RP TATAGGGCGAATTGGGCCCTATCGATCGCGTCTCCCAAA
22 1st Deep sequencing FP-A ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGAAAAAGTGGCACCGAGTCG
23 1st Deep sequencing FP-B ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTTGAAAAAGTGGCACCGAGTCG
24 1st Deep sequencing FP-C ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGCTTGAAAAAGTGGCACCGAGTCG
25 1st Deep sequencing RP-A GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAAGTCGAGTAAGCTGACCGCTGAAG
26 1st Deep sequencing RP-B GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTAAGTCGAGTAAGCTGACCGCTGAAG
27 1st Deep sequencing RP-C GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTATTAAGTCGAGTAAGCTGACCGCTGAAG
28 및 29 2nd Illuimina indexing FP AATGATACGGCGACCACCGAGATCTACAC (8bp barcode) ACACTCTTTCCCTACACGAC
30 및
31
2nd Illuimina indexing RP CAAGCAGAAGACGGCATACGAGAT (8bp barcode) GTGACTGGAGTTCAGACGTGT
pLenti-TRE3G-AncCBE4max-PGK-hygro를 제조하기 위해 Gibson 어셈블리를 사용하여 다음 6개의 DNA 단편을 결합하였다. (i) BamHI-NcoI 분해 pLVX-TRE3G(Clontech, 631187) 기반 렌티바이러스 백본, (ii) AncAPOBEC1 및 서열번호 1 및 2의 프라이머를 사용하여 pCMV-AncBE4max25(Addgene #112094)로부터 PCR을 통해 증폭된 nCas9의 N-말단 영역(D10A) 을 인코딩하는 서열, (iii) 서열번호 3 및 4의 프라이머를 사용하여 pCMV-AncBE4max로부터 증폭된 nCas9(D10A)의 C-말단 영역 및 2X 우라실 글리코실라제 억제제(glycosylase inhibitor) 을 인코딩하는 서열, (iv) 서열번호 5 및 6의 프라이머를 사용하여 pLVX-TRE3G에서 증폭된 PGK 프로모터, (v) 서열번호 7 및 8의 프라이머를 사용하여 pLenti HRE Luc pGK Hygro(Addgene #118706)에서 증폭된 하이그로마이신 내성 유전자, 및 (vi) 서열번호 9 및 10의 프라이머를 사용하여 pLVX-TRE3G로부터 증폭된 WPRE 요소.
pLenti-TRE3G-ABEmax-PGK-hygro를 제조하기 위해 Gibson 어셈블리를 사용하여 다음 6개의 DNA 단편을 결합하였다. (i) BamHI-NcoI 분해 pLVX-TRE3G(Clontech, 631187) 기반 렌티바이러스 백본, (ii) 서열번호 1 및 2의 프라이머를 사용하여 pCMV-ABE4max (Addgene #112098)로부터 증폭된 nCas9(D10A)의 N-말단 영역 및 ecTadA를 인코딩하는 서열 (iii) 서열번호 3 및 4의 프라이머를 사용하여 pCMV-ABE4max로부터 증폭된 nCas9(D10A)의 C-말단 부분을 인코딩하는 서열, (iv) 서열번호 5 및 6의 프라이머를 사용하여 pLVX-TRE3G로부터 증폭된 PGK 프로모터, (v) 서열번호 7 및 8의 프라이머를 사용하여 pLenti HRE Luc pGK Hygro(Addgene #118706)로부터 증폭된 하이그로마이신 내성 유전자, 및 (vi) 서열번호 9 및 10의 프라이머를 사용하여 pLVX-TRE3G로부터 증폭된 WPRE 요소.
pLenti-Guide-Puro-p2A-EGFP를 생성하기 위해 Gibson 어셈블리를 사용하여 다음 4개의 DNA 단편을 결합하였다. (i) FseI-NcoI 분해된 lentiguide-puro(Addgene, 52963) 기반 렌티바이러스 백본, (ii) 서열번호 11 및 12의 프라이머를 사용하여 lentiguide-puro로부터 증폭된 EF-1a 및 퓨로마이신 내성 유전자를 인코딩하는 서열, (iii) 서열번호 13 및 14의 프라이머를 사용하여 pCMV-AncBE4max-p2A-GFP(Addgene #112100)에서 증폭된 p2A 및 강화된 녹색 형광 단백질(enhanced green fluorescent protein: EGFP)을 인코딩하고 (iv) 서열번호 15 및 16의 프라이머를 사용하여 lentiguide-puro에서 증폭된 WPRE 및 LTR 단편.
모든 PCR-증폭 DNA 단편은 25 사이클의 증폭과 60℃의 어닐링 온도로 Phusion High-Fidelity DNA 중합효소(NEB)를 사용하여 생성한 후 1% 아가로스 겔에서 전기영동하여 크기를 선택하였다. Gibson 어셈블리 반응은 NEBuilder HiFi DNA Assembly Master Mix(NEB)를 사용하여 수행되었다.
4. 렌티바이러스 제조
HEK293T 세포를 형질감염 24시간 전에 배지 당 5 X 106개 세포의 밀도로 100-mm 배양 접시에 접종하였다. 형질감염 당일 상기 배지를 25 μM 클로로퀸 디포스페이트(chloroquine diphosphate)가 포함된 10 mL의 DMEM으로 교환한 후 5시간 동안 세포를 배양하였다. 관심 유전자, psPAX2 및 pMD2.G를 포함하는 트랜스퍼 플라스미드를 1.64:1.3:0.72 pmol의 몰비로 혼합하고 500 μL의 Opti-MEM(Life Technology)에 희석하였다. 폴리에틸렌이민(PEI)을 500μL의 총 부피로 Opti-MEM에 희석하고 μg DNA:μg PEI의 비가 1:3이 되도록 DNA 혼합물에 첨가하여 총 부피가 1000μL가 되도록 하였다. 혼합물을 20분 동안 인큐베이션하고 세포에 첨가하였다. 높은 바이러스 역가를 달성하기 위해 PEI:DNA 혼합물로 처리한 후 카페인(Sigma-Aldrich, C0750)을 4mM의 최종 농도로 배양 배지에 첨가하였다. 형질감염 12시간 후, 4mM의 카페인이 보충된 10mL의 성장 배지를 첨가하여 세포를 배양시켰다. 24시간 후, 성장 배지를 수확하고 2000g에서 10분 동안 원심분리하여 세포 파편을 펠렛화하였다. 상층액은 Millex-HV 0.45-μm 저단백결합막(Millipore)을 통해 여과하고 분취액으로 나누어 사용할 때까지 -80°C에서 동결 보관하였다.
5. 염기 편집 유전자가위를 발현하는 세포주의 제조
180만 P 세포를 웰당 1.5Ⅹ105개 세포로 6-웰 배양 플레이트에 플레이팅하였다. 0.4의 감염 다중도(MOI)에서 10μg/ml의 폴리브렌(Sigma-Aldrich)이 보충된 네오마이신 내성 유전자(pLVX-EF1a-Tet3G(Clontech, 631359))를 갖는 EF1a-rtTA(역 테트라사이클린 조절된 전사활성화제)를 인코딩하는 서열을 갖는 바이러스로 세포를 감염시켰다. 6-웰 플레이트를 37℃에서 2시간 동안 1000g으로 원심분리하였다. 원심분리 후, 세포를 밤새 인큐베이션한 다음, 1.0 mg/mL의 G418 디설페이트 염(Sigma-Aldrich)을 함유하는 성장 배지로 새로 갈아주었다. 선택 10일 후, rtTA(P-rtTA)를 포함하는 P 세포를 유지하고 염기 편집 유전자가위를 발현하는 세포주로 이후 사용하였다.
염기 편집 유전자가위를 발현하는 세포주를 제조하기 위해 180만 P-rtTA 세포를 웰당 1.5 X 105개 세포로 6웰 배양 플레이트에 플레이팅하였다. 세포를 상기 기재된 바와 같이 독시사이클린-의존성 염기 편집 유전자가위(Lenti-TRE3G-AncCBE4max-PGK-hygro 또는 Lenti-TRE3G-ABEmax-PGK-hygro)를 코딩하는 바이러스 운반 서열로 감염시켰다. 형질감염 다음날, 세포를 80㎍/ml의 하이그로마이신 B Gold(InvivoGen)를 함유하는 성장 배지로 리프레시시켰다. 선별 10일 후, 수득된 염기 편집 유전자가위-발현 세포주(P-C 또는 P-A 세포)를 분취하여 스크리닝에 사용하였다.
6. 플라스미드 라이브러리 구축
플라스미드 구축을 위한 풀링된 150-nt 올리고뉴클레오티드는 Twist Bioscience에 의해 어레이합성되었다. 라이브러리의 각 플라스미드는 다음 요소를 포함하도록 설계하였고, 이의 과정을 도 2에 나타내었다: (i) 3' 말단에 U6 프로모터가 있는 19-nt 상동성 암(arm), (ii) 20-nt 서열의 G를 가진 5' 말단에 19-nt sgRNA 가이드 서열, (iii) 양쪽에 BsmBI 절단 부위가 있는 무작위 20-nt 서열(각각 11 nt), (iv) 20-nt(라이브러리 C, A, 및 A1) 또는 19-nt(라이브러리 C1 및 C2) 각 sgRNA에 해당하는 고유한 바코드 서열, (v) 내인성 게놈 표적 유전자좌와 동일한 PAM(4+23-nt 표적 서열과 PAM+3-nt), 및 (vi) 20-nt 상동성 암(arm).
풀링된 올리고뉴클레오티드는 서열번호 17 및 18의 프라이머 및 Phusion High-Fidelity DNA 폴리머라제(NEB)를 사용하여 증폭된 후 2% 아가로스 겔에서 전기영동으로 크기를 선택하였다. 앰플리콘은 NEBuilder HiFi DNA Assembly Master Mix(NEB)를 사용하여 BsmBI로 분해한 후 선형화된 Lenti-gRNA-Puro(Addgene, 84752)로 조립되었다. 200ng의 선형화된 벡터와 120ng의 정제된 올리고뉴클레오티드가 하나의 Gibson 어셈블리 반응(총 부피 20μL)에 사용되었다. CBE 및 ABE 라이브러리(C 및 A 라이브러리로 지정)에 대해 각각 총 16개 및 8개의 반응이 수행되었다. 어셈블리 반응 후 혼합물을 모아 MEGAquick-spin Total Fragment DNA Purification kit(iNtRON Biotechnology, 한국)를 사용하여 농축하고 최대 12 및 8개의 전기천공 반응에 사용하여 라이브러리 복잡성을 최대화하였다.
개선된 형태의 sgRNA 스캐폴드 및 UMI가 합성되었고(IDT, 서열번호 19의 프라이머) 서열번호 20및 21의 프라이머를 사용하여 증폭되었다. 생성된 앰플리콘을 BsmBI로 분해하고 정제하였다. 그런 다음 60ng의 끈적한(sticky) 말단 sgRNA 스캐폴드-UMI 단편과 상기 반응으로 제조된 BsmBI로 분해된 250ng의 스캐폴드 없는 플라스미드 라이브러리를 사용하여 라이게이션 반응을 수행하였다. CBE 및 ABE 라이브러리에 대해 각각 총 16개 및 8개의 반응이 수행되었다. 반응 혼합물을 모으고, 농축하고, 최대 12개 및 8개의 전기천공 반응에 사용하였다.
7. CBE 및 ABE를 사용한 SNV의 고처리량(High-throughput) 평가방법
렌티바이러스 라이브러리 C 및 A의 형질도입 24시간 전에 각 복제에서 sgRNA 라이브러리의 2000배 커버 범위(즉, 평균 2,000개 세포/sgRNA)를 가능케하는 1억 6800만 P-C 세포와 4800만 P-A 세포가 이중으로 시딩하였다. 다른 복제실험에서는 세포는 다른날 렌티바이러스 라이브러리의 다른 배치로 형질도입되었다. 각 복제물의 세포를 0.3의 MOI에서 10㎍/ml의 폴리브렌으로 렌티바이러스 라이브러리 C 또는 A로 감염시켜, 모든 sgRNA가 대략 600개 세포에서 나타내도록 하였다. 형질감염 24시간 후, 배지는 CBE 또는 ABE의 발현을 유도하기 위해 20㎍/ml의 퓨로마이신(Invitrogen) 및 2㎍/ml의 독시사이클린 하이클레이트(Sigma)를 함유하는 새로운 배지로 교체되었고, 세포를 추가적으로 9일 동안 이러한 조건에서 배양하고 감염 후 10일째에 sgRNA 라이브러리의 약 1000~1500배 커버범위로 수확하였다. 형질도입되지 않은 P 세포는 기관지 상피 세포의 불멸화에 사용되는 낮은 수준의 퓨로마이신 내성 유전자를 발현하기 때문에 배지에서 퓨로마이신의 농도는 비정상적으로 높았다. 추가적으로 14일 동안 sgRNA 라이브러리(즉, P-C 세포, 83,731 sgRNA x 2,000 세포/sgRNA = ~168백만 세포, P-A 세포, 23,613 sgRNA x 2,000 세포/sgRNA = ~4800만 세포)의 커버범위가 약 2000배가 될 정도로 충분한 숫자로 유지하기 위하여 남은 세포를 배양하였다. 형질감염 후 24일째에, 게놈 DNA 추출을 위해 세포를 수확하였다.
소규모 라이브러리 C1, C2 및 A1을 포함하는 실험에서도 세포가 실험 전반에 걸쳐 sgRNA 라이브러리의 10,000배 커버범위에 충분한 수로 유지되었다는 점을 제외하고는 동일한 방법을 사용하였다. 라이브러리 C3, A2 및 dA를 포함하는 실험에서 역시, 세포가 sgRNA 라이브러리의 3,000배 커버범위에 충분한 수로 유지된다는 점을 제외하고는 동일한 방법을 사용하였다.
라이브러리 eC와 관련된 실험에서 2,400만 개의 P-C 세포가 이중으로 시딩되어 각 복제에서 sgRNA 라이브러리의 6000배 커버 범위가 생성되었다. 다른 복제실험에서, 세포는 다른 날 렌티바이러스 라이브러리의 다른 배치로 형질도입되었다. 세포를 상기 기술한 바와 같이 렌티바이러스 라이브러리로 감염시킨 후, 배지를 20㎍/ml의 퓨로마이신(Invitrogen) 및 2㎍/ml의 독시사이클린 하이클레이트(Sigma)를 함유하는 배지로 교체하였다. 세포를 추가로 9일 동안 인큐베이션하고 감염 후 10일째에 sgRNA 라이브러리의 약 2000배 커버 범위로 수확하였다. 퓨로마이신 및 독시사이클린의 제거 시, 세포 집단을 sgRNA당 2,000개 세포의 표현으로 약물 및 미처리 암(arm)으로 나누었고, 상기 세포 집단을 sgRNA 라이브러리의 적어도 3,000배 커버 범위에 해당할 정도의 충분한 수로 유지시켰다. 약물을 처리한 암(arm)의 세포를 추가적으로 10일 동안 10nM 아파티닙(Santa Cruz Biotechnology, Dallas, TX)을 함유하는 EGF-무함유 ACL-4 배지로 3-4일마다 배양하고 계대하였다. 약물이 처리되지 않은 암(arm)의 세포를 완전한 ACL-4 배지와 함께 10일 동안 배양하였다.
8. 게놈 DNA 준비 및 딥 시퀀싱
제조사의 프로토콜에 따라 Wizard Genomic DNA Purification Kit(Promega)를 사용하여 게놈 DNA를 추출하였다.
분리된 게놈 DNA를 주형으로 사용하여 통합된 바코드 및 표적 서열을 증폭하고 2X Pfu PCR Smart mix(Solgent)를 사용하여 2개의 PCR 단계를 통해 딥 시퀀싱을 위해 준비하였다. 첫 번째 단계에서 게놈 DNA를 다중 50μl 반응물로 나누었고, 상기 다중 반응물은 2.5μg의 게놈 DNA, 서열번호 22, 23 및 24의 20pmol의 정방향 프라이머 혼합물, 서열번호 25, 26 및 27의 20pmol의 역방향 프라이머 혼합물 및 25 μL의 PCR 프리믹스를 포함한다. PCR 사이클링 매개변수는 다음과 같았다: 95℃에서 개시 2분 반응; 95℃에서 30초, 60℃에서 30초, 72℃에서 40초 조건으로 24 사이클; 및 72℃에서 최종 5분 연장반응. 각 실험에 대한 게놈 DNA의 총량은 106개 세포당 6.6μg의 게놈 DNA를 가정할 때 라이브러리의 1000X 이상의 커버범위를 나타냈다.
i) 라이브러리 C: 복제 실험당 360개의 개별 50μL 반응(DNA 900μg, ~1600X 커버 범위)
ii) 라이브러리 A: 복제 실험당 96개의 개별 50μL 반응(DNA 240μg, ~1500X 커버 범위)
iii) 라이브러리 C1: 복제 실험당 40개의 개별 50μL 반응(DNA 100μg, ~3800X 커버 범위)
iv) 라이브러리 A1: 복제 실험당 20개의 개별 50μL 반응(DNA 50μg, ~3800X 커버 범위)
v) 라이브러리 C2: 복제 실험당 80개의 개별 50μL 반응(DNA 200μg, ~7,600X 커버 범위)
vi) 라이브러리 C3: 복제 실험당 80개의 개별 50μL 반응(DNA 200μg, ~15,000X 커버 범위)
vii) 라이브러리 A2: 복제 실험당 80개의 개별 50μL 반응(DNA 200μg, ~15,000X 커버 범위)
viii) 라이브러리 eC: 복제 실험당 80개의 개별 50μL 반응(DNA 200μg, ~7,500X 커버 범위)
ix) 라이브러리 dA: 복제 실험당 80개의 개별 50μL 반응(DNA 200μg, ~7,600X 커버 범위)
각 실험의 앰플리콘을 모아 MEGAquick-spin Total Fragment DNA Purification 키트로 농축하고 아가로스 겔 전기영동으로 앰플리콘의 크기를 선택하였다.
시퀀싱 어댑터와 바코드를 부착하기 위해 수행된 두 번째 PCR 단계에서는 첫 번째 단계에서 총 250ng의 정제된 PCR 산물을 라이브러리를 스크리닝하기 위하여 8개의 개별 50μL 반응에 사용했으며 총 40ng의 정제된 첫 번째 단계의 PCR 산물을 라이브러리를 집약하기 위하여 두 개의 개별 50μL 반응에 20pmol의 서열번호 28 및 29의 Illumina 인덱싱 프라이머와 함께 사용하였다. PCR 사이클링 매개변수는 다음과 같다: 95℃에서 개시 2분 반응; 95℃에서 30초, 60℃에서 30초, 72℃에서 40초의 조건으로 8 사이클; 및 최종 5분 연장반응. 각 실험의 앰플리콘은 아가로스 겔 전기영동으로 크기를 선택하고, HiSeq 2500 시스템(Illumina) 및 NextSeq 550 시스템(Illumina)을 사용하여 시퀀싱하였다.
9. 소규모 라이브러리의 설계
C1(3,261개의 sgRNA 포함), C2(3,170개의 sgRNA), C3(1,941개의 sgRNA), A1(1,595개의 sgRNA), A2(2,082개의 sgRNA), dA(3,136개의 sgRNA), 및 eC(4,157개의 sgRNA)로 이루어진 7개의 개별적인 소규모 라이브러리를 설계하였고, 이를 설계하는 과정을 도 3A 및 도 3B에 나타내었다.
라이브러리 C1 및 A1: 라이브러리 C1 및 A1을 생성하기 위해 라이브러리 C 및 A에서 각각 857 및 1,538 sgRNA를 무작위로 선택하였다. 또한 라이브러리 C와 A에서 UMI 수가 50개 미만으로 적어 분석되지 않은 2,404개 및 47개 sgRNA가 포함되었다. 마지막으로 100 및 50개의 비표적화 sgRNA가 각 라이브러리에 포함되었다.
라이브러리 C2 : 라이브러리 C2를 생성하기 위해 라이브러리 C에서 1,710개의 sgRNA를 무작위로 선택하였다. 또한 라이브러리 C의 낮은 UMI 수로 인해 분석되지 않은 1,240개의 sgRNA를 포함하였다. 또한 염기 편집으로 유도된 정지 코돈 생성에 의해 필수 유전자의 파괴를 매개하는 sgRNA를 포함하였다. 필수 유전자 후보군으로, 먼저 팬-암(pan-caner) 코어 피트니스(fitness) 유전자와 BAGEL 필수 유전자 세트를 선택하여 123개의 유전자를 선별하였다. 상기 124개의 선별된 유전자로부터 54개의 관련된 필수 세포 구조 및 처리과정에 필수적인 65개의 유전자를 선택하였다: 리보솜 단백질(39개 유전자), DNA 복제(2개 유전자), RNA 중합효소(4개 유전자), 프로테아좀(8개 유전자) 및 스플라이소좀(12개 유전자). CRISPR-iSTOP 툴을 사용하여 이러한 유전자에서 정지 코돈을 유도하는 sgRNA를 설계하고 DeepCBE 툴에서 예측한 고효율로 정지 코돈을 유도할 수 있는 220개의 sgRNA를 선택하였다. 마지막으로 100개의 비표적화 sgRNA를 라이브러리에 포함시켰다.
라이브러리 C3 및 A2: 라이브러리 C3 및 A2를 생성하기 위해 라이브러리 C/C1/C2 및 A/A1의 이전 스크리닝에서 각각 매우 고갈되었던 100개 및 48개 sgRNA를 처음에 선택하였다. 다음으로, 라이브러리 C/C1/C2 및 A/A1의 이전 스크리닝에서 각각 290개 및 163개 sgRNA를 무작위로 선택하였다. 이후, COSMIC(데이터 릴리스 버전 84) 및 TCGA 데이터베이스(데이터 릴리스 버전 29.0)에 기록된 알려진 종양 억제 유전자에서 1,151 및 1,468개의 SNV를 유도하도록 설계된 sgRNA가 라이브러리 C3 및 A2에 각각 포함되었다(상기SNV는 표준 활동 창(위치 4~8)에서 CBE 또는 ABE 표준 작업 창(canonical activity window)에 의해 생성될 수 있다). 마지막으로 400개의 비표적화 sgRNA가 각 라이브러리에 포함되었다.
라이브러리 dA: 라이브러리 dA를 생성하기 위해 먼저 비동의(nonsynonymous) 대 동의(synonymous) 돌연변이(dN/dS)의 비율이 높은 369개의 고 신뢰도 드라이버 유전자를 선택하였다. 이 중에서 표준 활동 창(위치 4~8) 내에서 ABE가 생성할 수 있는 2,797개의 SNV를 선택하였다. 다음으로, 이전 라이브러리 스크리닝에서 고갈(depleting)/유사 고갈 (likely depleting) 및 성장(outgrowing)/유사 성장 (likely outgrowing)이 있는 것으로 분류된 각각 53개 및 23개의 sgRNA가 포함되었다. 마지막으로 263개의 비표적화 sgRNA가 포함되어 3,136개의 sgRNA를 포함하는 라이브러리가 생성되었다.
라이브러리 eC: 먼저 EGF/EGFR 신호 전달 경로와 관련된 162개의 유전자를 선택하였다. 이 중에서 표준 활동 창(위치 4~8) 내에서 CBE가 생성할 수 있는 COSMIC 및 TCGA에 기록된 3,967개의 SNV를 선택하고, 이러한 SNV를 유도하도록 설계된 sgRNA를 포함시켰다. 다음으로, 이전 스크리닝에서 다양한 분류(6개는 성장, 4개는 유사 성장, 8개는 성장 가능성, 1개는 중성 및 평가되지 않은 5개)의 24개 sgRNA가 포함되었다. 마지막으로 166개의 비표적화 sgRNA가 포함되어 4,157개의 sgRNA를 포함하는 라이브러리를 생성하였다.
10. 개별 기능 평가를 위한 sgRNA의 선택
먼저 소규모 라이브러리에서 고갈 및 성장 그룹에서 각각 가장 유의하게 고갈되고 성장하는 즉, 가장 낮은 P-값을 갖는 sgRNA 중 6개 및 7개를 선택하였다. 대표적인 성장 sgRNA 7개 모두 TP53 관련 돌연변이(Cg.TP53_p.Q192*, Cg.TP53_p.T155I, Cg.TP53_p.Q100*, Ag.TP53_p.R280G, Ag.TP53_p.N239D, Ag.TP53_p.K120E, Ag.TP53_p.K351E)를 유도하는 것으로 예측되었다. 가장 유의하게 고갈되는 6개의 sgRNA 중 5개는 공통 필수 유전자에서 돌인변이(Cg.POLR1C_p.A6V, Cg.MMS22L_p.R661*, Cg.POLR2B_p.P714L, Ag.CTCF_p.H312R, Ag.SRSF1_p.D139G)를 유도하는 것으로 예측되었다. 다음으로, 유사 성장이 있는 것으로 분류된 4개의 sgRNA(Cg.PTPN14_p.Q110* 및Cg.CDC23_p.T381M)와 유사 중성인(Cg.ACOX3_p.Q145* 및 Cg.KMT2C_p.R1906*)인 sgRNA를 임의로 선택하였다. 또한, p53 단백질을 불안정하게 만드는 것으로 알려진 돌연변이를 도입할 것으로 예측된 하나의 TP53 관련 sgRNA(Ag.TP53_p.T125A)를 선택하였다. 그러나 라이브러리 C만 상기 sgRNA를 포함하고 이는 라이브러리 C에서 유사 성장으로 분류되었다. 또한 유사중성인 것으로 분류된 두 개의 sgRNA(성장 가능성이 있는)를 선택했지만, 이는 대조군에 비해 공통 필수 유전자에 미스센스(missense) 돌연변이(Ag.POLE_p.Y1889C and Ag.ACTL6A_p.T405A)를 도입할 것으로 예측되었다. 마지막으로, 유사성장 또는 성장을 보일것으로 분류된 8개의 sgRNA를 추가로 선택하였다. 검증을 위해 하기 표 2의 28개의 sgRNA를 선택하였다.
Figure pat00004
Lenti-Guide-Puro 벡터(Addgene, #52963)에 sgRNA 인코딩 시퀀스를 개별적으로 복제하였다. sgRNA당 120만 염기 편집 유전자가위를 발현하는 세포를 형질도입 24시간 전에 100mm 배양 접시에 접종하였다. 세포를 낮은 MOI(~0.4)에서 상기 개별 sgRNA를 인코딩하는 서열을 보유하는 렌티바이러스로 이중으로 감염시켰다. 또한, GFP 양성 대조군에 대해 위와 같이 기본 편집기를 발현하는 세포를 시딩하였다. 이 경우, 빈 sgRNA 카세트와 퓨로마이신 내성 유전자-p2A-GFP 융합 유전자를 보유하는 렌티바이러스를 사용하여 낮은 MOI(~0.4)에서 세포를 감염시켰다. 형질도입 다음날, 배지는 20㎍/ml의 퓨로마이신(Invitrogen) 및 2㎍/ml의 독시사이클린 하이클레이트(Sigma)를 함유하는 새로운 배지로 교체하여 염기 편집 유전자가위의 발현을 유도하였다; 이러한 조건은 48시간 동안 유지되었다. 퓨로마이신을 제거한 후, 세포를 독시사이클린 처리로 추가 7일 동안 유지하였다.
11. 경쟁적 생장 분석
감염 10일 후, 후보 히트 sgRNA(GFP-)를 인코딩하는 렌티바이러스로 형질도입된 세포와 양성 대조군 렌티바이러스(GFP+)로 형질도입된 세포를 혼합하고 삼중으로 함께 성장시켰다. 세포를 3일 또는 4일마다 샘플링하고 혼합물에서 GFP+ 대 GFP- 세포의 비율을 세로 유세포 분석을 통해 정량화하였다. 세포가 기하급수적인 성장률을 보인다고 가정하면, 시간 t1과 t2에서의 세포 수(N)는 하기의 수학식 1로 설명할 수 있고, f0은 기준 세포의 절대 적합도(fitness)이고 f_gRNA는 형질도입된 sgRNA에 의하여 유도된 적합도 변화도이다.
Figure pat00005
(수학식 1)
특정 시점 ti와 기준 시점 t0 사이의 fgRNA,ti는 하기의 수학식 2에 의하여 구할 수 있다.
Figure pat00006
(수학식 2)
GFP- 세포 수(NgRNA)와 GFP+ 세포 수(Nc) 사이의 비율은 경쟁적 생장 분석에서 얻었고, GFP+ 세포의 상대 적합도가 기준 세포의 적합도(f0)와 같다고 가정하였다. 특정 시점 ti와 기준 시점 t0 사이의 상대 농축(EgRNA,ti)은 다음의 수식으로 결정되었다.
Figure pat00007
(수학식 3)
12. 개별 sgRNA의 형질도입 후 대립유전자 빈도의 확인
개별 sgRNA 및 염기 변환 유전자 가위를 보유하는 세포는 감염 후 10일후에 독시사이클린을 제거한 후 이중으로 시딩되었다. 상기 세포를 추가로 2주 동안 배양하고 감염 후 10, 17 및 24일에 수확하였다. 각 sgRNA 표적 게놈 부위는 부위 특이적 프라이머를 사용하여 증폭되었고 딥 시퀀싱으로 분석되었다.
3회의 연속 PCR을 통해 딥 시퀀싱을 위한 앰플리콘을 준비하였다. 1μg의 게놈 DNA, Q5 DNA 중합효소(NEB) 및 20pmol의 '증폭' 프라이머를 사용하여 단일 20μl 반응에서 첫 번째 PCR 단계를 수행하였다. 두 번째 단계는 3μL의 첫 번째 단계 PCR 생성물과 20pmol의 상기 표 1의 '어댑터' 프라이머를 사용하여 수행되었다. 상기 개별 sgRNA의 실험에서 사용한 프라이머는 하기 표 3에 나타내었다.
Sg.ID GN19 guide sequence Amplifying_FP Amplifying_RP Adaptor_FP Adaptor_RP
Cg.TP53_p.T155I,p.T155T GGCAccCGCGTCCGCGCCA
(서열번호: 32)
- - ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGCCCAGGGTCCCCAGGCC
(서열번호: 33)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTCTCCAGCCCCAGCTGCTC
(서열 번호: 34)
Cg.TP53_p.Q100* CTTcCcAGAAAACCTACCA(서열 번호: 35) - - ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCCCTGTCATCTTCTGTCCC
(서열 번호: 36)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAATGCAGGGGGATACGGCCA
(서열 번호: 37)
Cg.CDC23_p.T381M Aacacgtctgctgctatcc(서열 번호: 38) TGGGTGTTTTGCCAGGACTT
(서열 번호: 39)
CAAGTGACCAGGCTTACCGA
(서열 번호: 40)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTGGTGCCTGGACACTAATGGG
(서열 번호: 41)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTGCCCGAGGCCATACCAAG
(서열 번호: 42)
Cg.PTPN14_p.Q110* GCTTcAGCAAGAGGCCACA(서열 번호: 43) CTTACCTCACATGGGCGCTT
(서열 번호: 44)
TTATATGGCACACAGGGGGA
(서열 번호: 45)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCAAGAGCCAGCAAGCACGAT
(서열 번호: 46)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGGCACACAGGGGGAAAATGC
(서열 번호: 47)
Cg.TP53_p.Q192* CCTcAGCATCTTATCCGAG(서열 번호: 48) ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTGCCCAGGGTCCCCAGGCC(서열 번호: 49) GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGGGCCACTGACAACCACCC
(서열 번호: 50)
Cg.POLR1C_p.A6V TCAGGcGGTGGAGGAAATG(서열 번호: 51) TGGGATCGGCCGGAACAC
(서열 번호: 52)
CCCAGGCATCATCATAACCGG
(서열 번호: 53)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCGCGATATTTAAGATTCCAGGAGGC
(서열 번호: 54)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACGAATTTGTCCACGAAGGGACAG
(서열 번호: 55)
Cg.MMS22L_p.R661* ATGTcGAGAATCTGAACTT(서열 번호: 56) GAGAGCCCTCATTTGGAAGGGTC(서열 번호: 57) CGGATATATTCAACCTGTACTGATTTATGCCC
(서열 번호: 58)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTGGTACAGAGACAGACTATCTGGACCC
(서열 번호: 59)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTGAAAACCATACCTGATTCTGGCC
(서열 번호: 60)
Cg.POLR2B_p.P714L TTCcTGATCATAACCAGGT(서열 번호: 61) TTAGTTGGCAGGATCTTGTGGC(서열 번호: 62) CATACCTGCTGGCAGCTCTCTA
(서열 번호: 63)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAGGATCTTGTGGCCAGTG
(서열 번호: 64)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCCCTCCAGATAAGACTACAGAGTTACTTTC
(서열 번호: 65)
Cg.POLG_p.Q1029* GGTCcAGAGAGAAACTGCA(서열 번호: 66) TGATATGTGAACATTCCTTGCCAAGGC(서열 번호: 67) TGCTCCAAAGGTAGCAAGATACCTC
(서열 번호: 68)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCCCAGGTATCGGCTGTCG
(서열 번호: 69)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGCATCCAAGCTCTTCTGGGG
(서열 번호: 70)
Cg.ACOX3_p.Q145* ATTcAAAAGATCTTCAGGA(서열 번호: 71) ACTCTTCTTACCTGCCCCCT(서열 번호: 72) CAAGAAGAGCATAAGCCCCCT
(서열 번호: 73)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTTTCTTACCTGCCCCCTGTTG
(서열 번호: 74)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAGAAGAGCATAAGCCCCCTGG
(서열 번호: 75)
Cg.KMT2C_p.R1906* CCCCTcGACCACCTCCTGT(서열 번호: 76) AGACTTCTCAGCCACCCTCA(서열 번호: 77) CAGGGGATGGCCTATTTGCT
(서열 번호: 78)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTGACTTCTCAGCCACCCTCAC
(서열 번호: 79)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTCCACTGGTGCAGCAGAAT
(서열 번호: 80)
Ag.TP53_p.R280G GGGAGAGACCGGCGCACAG(서열 번호: 81) - - ACACTCTTTCCCTACACGACGCTCTTCCGATCTGGGACAGGTAGGACCTGATT
(서열 번호: 82)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTACCGCTTCTTGTCCTGCTTG
(서열 번호: 83)
Ag.TP53_p.N239D TGTGTaACAGTTCCTGCAT(서열 번호: 84) GAAGCTTACAGAGGCTAAGGGC(서열 번호: 85) GTAAGGAGATTCCCCGCCGG
(서열 번호: 86)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGCTTGCCACAGGTCTCC
(서열 번호: 87)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCAGTGTGCAGGGTGGCAAG
(서열 번호: 88)
Ag.TP53_p.K120E GCCAAGTCTGTGACTTGCA(서열 번호: 89) - - ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCCCTGTCATCTTCTGTCCC(서열 번호: 90) GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAATGCAGGGGGATACGGCCA
(서열 번호: 91)
Ag.TP53_p.K351E ACTCAAGGATGCCCAGGCT(서열 번호: 92) TGCATGTTGCTTTTGTACCGT(서열 번호: 93) CTGGGACCCAATGAGATGGG
(서열 번호: 94)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTCTCCCCCTCCTCTGTTG
(서열 번호: 95)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGAAGGCAGGGGAGTAGGGCC
(서열 번호: 96)
Ag.TP53_p.T125A TGCACGGTCAGTTGCCCTG(서열 번호: 97) - - ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCCCTGTCATCTTCTGTCCC(서열 번호: 98) GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTAATGCAGGGGGATACGGCCA
(서열 번호: 99)
Ag.CTCF_p.H312R ATCaCCTTAACACACACAC(서열 번호: 100) CAGTTACACGTGTCCACGGC
(서열 번호: 101)
CCAGGCATCTATTGCCTGAGAC
(서열 번호: 102)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGTTACACGTGTCCACGGC
(서열 번호: 103)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCTTCCTTTAAATTCCCGCTGGAGTC
(서열 번호: 104)
Ag.SRSF1_p.D139G AGGaTCACATGCGTGAAGC(서열 번호: 105) CGAGGATTGCTGCTGTGGTG(서열 번호: 106) CAACCTTGCCTGAATCCTTACCTTG
(서열 번호: 107)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTCCAGCTCTCTTTACCTGGTATCACTTAAG
(서열 번호: 108)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTCGTACAAACTCCACGACACCAG
(서열 번호: 109)
Ag.POLE_p.Y1889C AGTaCATCACCAGCAGGTG(서열 번호: 110) GGACCCTCAGCTCTTTTCCC(서열 번호: 111) CTTCCTGAACTTGCCCAACTCAAG
(서열 번호: 112)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGGTGCCCTCTGGCTCTC
(서열 번호: 113)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGCACCTCAGGGGGTCATTTTAGC
(서열 번호: 114)
Ag.ACTL6A_p.T405A GGGTaCCTTTCAACAGATG(서열 번호: 115) AGGTGGGAGCATCCCTTGAAC
(서열 번호: 116)
AGCCTAAGGTAAAAAGCATAGGCAG
(서열 번호: 117)
ACACTCTTTCCCTACACGACGCTCTTCCGATCTTGGCTGACAGAGCAAGACCTTCTC
(서열 번호: 118)
GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTGGAAGGTAGAAGCTTGGGAACTC
(서열 번호: 119)
상기 표 3에서 사용한 증폭(Amplifying) 프라이머는 어댑터 프라이머로 증폭이 잘 되지 않는 경우에 한하여 증폭이 추가로 필요한 경우에 사용하였다. 세 번째 단계는 2μL의 첫 번째 단계 PCR 산물과 20pmol의 서열번호 28 및 29의 Illumina 인덱싱 프라이머를 사용하여 시퀀싱 어댑터와 바코드 서열을 부착하기 위해 수행되었다. 모든 경우에 PCR 사이클링 매개변수는 다음과 같다: 98℃에서 개시 2분 반응; 98℃에서 30초, 58℃에서 30초, 72℃에서 1분 30초로 20사이클; 및 72℃에서 최종 5분 연장반응.
13. 대체 표적 시퀀스의 염기 편집 결과의 분석
라이브러리에서 생성된 딥 시퀀싱 데이터를 이전 연구(Song, M. et al. Sequence-specific prediction of the efficiencies of adenine and cytosine base editors. Nature biotechnology 38, 1037-1043 (2020))에서 활용한 사용자 지정 Python 스크립트를 사용하여 분석하였다. 가이드 RNA 및 이에 상응하는 대체 서열은 TTTG 서열(BsmBI 제한 부위에 대한 공통 4-nt 서열), 표적 서열의 상류에 위치한 고유한 바코드 서열(라이브러리 C, A 및 A1의 경우 20 nt 길이; 라이브러리 C1 및 C2의 경우 19nt 길이), 대체 표적 서열의 다운스트림 4nt 서열(라이브러리 C 및 A의 경우에만) 을 포함하는 '분류 바코드'를 사용하여 추출되었다. 예상되는 절단 부위를 둘러싼 8-nt 영역 근처에 위치한 삽입 또는 결실을 인델인 것으로 간주하였다.
염기 편집 효율성 및 대립유전자 빈도 분석을 위해 판독값을 고유한 바코드 시퀀스별로 정렬하고 인델이 포함된 판독값은 추가 분석에서 제외하였다. ABE와 CBE의 경우, 각각 G로 변환된 A 또는 T로 변환된 C의 염기 편집만 고려하였다. 두 복제 모두에서 100개 미만의 리드를 가진 쌍을 걸러냈고, 각 sgRNA 표적 부위의 각 위치에서 A>G 또는 C>T 변환 효율을 다음의 수식으로 계산하고 이를 확인한 결과를 도 4에 나타내었다.
Figure pat00008
(수학식 4)
편집된 염기의 비율 분석을 위해 염기 편집 창에서 염기서열 결과에 따라 바코드로 정렬된 각 리드를 분석하였다. 표준 염기 편집 창(위치 4에서 8까지)의 외부에서 의도하지 않은 아미노산 변경 가능성을 배제하기 위해 위치 1에서 20까지 sgRNA 표적 부위의 전체 길이를 분석하였다. 염기 편집 결과의 비율을 다음의 수학식 5로 계산하였다.
Figure pat00009
(수학식 5)
다음으로, Python 스크립트를 사용하여 뉴클레오티드 편집에서 파생된 결과 비율을 코돈 기반 결과 비율로 변환하였다. 비동의 염기 편집 효율은 표적 유전자의 아미노산 코돈을 변경한 염기 편집 결과의 합으로 계산되었다.
14. MAGECK 분석
UMI 분석을 위해 in-house Python 스크립트를 사용하여 정렬 바코드에 따라 8nt UMI 시퀀스를 계산하고 분석하였다. 상기 in-house Python 스크립트는 이전연구 (Clement, K. et al. CRISPResso2 provides accurate and rapid genome editing sequence analysis. Nature biotechnology 37, 224-226 (2019))에서 제시한 분류 기준을 참고하여 시퀀싱 오류로 인한 UMI의 잘못된 식별을 최소화하기 위해 방향성 네트워크를 사용하여 UMI를 통합하였다. 단 하나의 뉴클레오티드만 다를 때와 리드 카운트 배수 차이가 3 이상일 때 서로 다른 UMI를 결합하였다. 하나의 뉴클레오티드가 다른 UMI의 리드 카운트 폴드의 차이가 3보다 작을 때 UMI는 결합되지 않고 고유한 것으로 간주되었다. UMI 기반 MAGECK 분석을 위해 각 sgRNA의 모든 UMI에 대한 리드 카운트를 포함하는 UMI 리드 카운트 테이블을 생성하였다. UMI 리드 횟수는 RPM으로 정규화되었다. 24일째와 10일째 샘플 사이의 리드 카운트 변화의 배수 변화(fold change)와 통계적 유의성을 계산하기 위해 MAGECK(MAGeCK 0.5.9.3) 분석을 수행하였다. 이러한 분석을 위해 기능 분류의 정확도를 높이기 위해 10일째에 50개 미만의 UMI를 포함하는 sgRNA를 제외하였다.
각 sgRNA에 대해 UMI 파생 클론의 4개 내부 그룹(replicateUMI)을 사용하여 4개의 내부 복제를 기반으로 sgRNA의 배수 변화와 중요성을 이전 연구(Zhu, S. et al. Guide RNAs with embedded barcodes boost CRISPR-pooled screens. Genome biology 20, 20 (2019))에서와 같이 계산하였다. 4개의 replicateUMI가 같거나 비슷한 수의 UMI를 갖도록 각 replicateUMI 에 무작위로 UMI를 할당하였다. 그런 다음, 각 복제 UMI에서 10일 및 24일의 샘플의 중앙 RPM을 계산하고 MAGECK 분석을 위한 입력으로 사용하여 sgRNA의 양성/음성 LFC 및 P-값을 유도하였다. MAGECK 알고리즘에서 계산된 LFC 값은 nLFC를 얻기 위해 중앙값을 뺐다. robust rank aggregation (RRA) P-값(y축)의 음의 로그에 대한 nLFC(x축)를 플롯하면 volcano 플롯이 생성되었다. volcano 플롯에 사용된 P-값은 음수와 양수 P-값 중 더 낮은 값을 선택하였다. 반복 실험의 결과를 결합할 때 nLFC의 백분위수 순위와 P-값은 반복 실험에서 평균을 냈다.
15. UMI 카운트 분석
UMI 카운트 분석은 10일째와 24일째 사이의 총 UMI 카운트로 척도화된 CPM의 배수 변화를 사용하여 수행되었다. LFC(log fold change)를 계산하기 위해 10일째 또는 24일째 샘플에서 UMI 카운트 0을 처리하기 위해 모든 카운트에 pseudo-카운트 1을 추가하였다.
Figure pat00010
(수학식 6)
Figure pat00011
(수학식 7)
16. sgRNA의 기능적 분류
UMI 기반 분석의 경우 10일째의 원시(raw) 리드 횟수가 5개 미만인 모든 UMI를 추가 분석에서 제외하였다. 기능 분류 시스템을 도 5의 순서도로 요약하여 나타내었다.
도 5에서 확인한 바와 같이, 10일째에 UMI가 50개 이하인 sgRNA를 추가 분석에서 제외하였다(1단계). sgRNA에 의해 유도된 비동의 염기 편집 효율이 대체 표적 서열에서 60% 미만인 경우 추가 분석에서 sgRNA도 제외하였다(2단계). 나머지 sgRNA를 각 라이브러리의 비표적화 대조군 sgRNA의 분포에 의해 결정된 컷오프 값을 사용하여 nLFC 및 P-값에 따라 분류하였다.
최종적으로, sgRNA를 다음과 같이 7개의 그룹으로 분류하였다:
(1) 고갈(Depleting): nLFC 및 P-값이 비표적화 sgRNA의 0.3번째 백분위 수에서 해당 값보다 작고, UMI CPM 배수 변화가 비표적화 sgRNA의 1번째 백분위수에서 해당 값보다 작은 값을 갖는 sgRNA
(2) 유사 고갈(Likely depleting): nLFC 및 P-값이 각각 비표적화 sgRNA의 5번째 및 1번째 백분위수에서 해당 값보다 작았지만 고갈로 분류되지 않은 sgRNA
(3) 유사 중성(Likely neutral, 고갈 가능성 있음(Possibly depleting)): nLFC가 0 미만이고 고갈, 유사 고갈 또는 중성으로 분류되지 않은 sgRNA
(4) 중성(Neutral): nLFC가 비표적화 sgRNA의 20번째 백분위수와 80번째 백분위수 사이에 있고 P-값이 비표적화 sgRNA의 20번째 백분위수에서 해당 값보다 큰 값을 갖는 sgRNA
(5) 유사 중성 (Likely neutral, 성장 가능성 있음(Possibly outgrowing)): nLFC가 0보다 크고 또한 성장, 유사성장 또는 중립으로 분류되지 않은 sgRNA
(6) 유사 성장: nLFC가 95번째 백분위수에서 해당 값보다 크고 P-값이 비표적화 sgRNA의 1번째 백분위수에서 해당 값보다 작으나 성장으로 분류되지 않은 sgRNA
(7) 성장: nLFC가 99.7번째 백분위수에서 해당 값보다 크고 P-값이 비표적화 sgRNA의 0.3번째 백분위수에서 해당 값보다 작으며, 또한 UMI CPM 배수 변화가 sgRNA 비표적화 sgRNA의 99번째 백분위수의 해당 값보다 큰 값을 가지는 sgRNA
2개의 바코드가 있는 sgRNA의 경우 두 바코드의 UMI를 후속 분석을 위해 결합하였다. 어떤 sgRNA 라이브러리를 사용하느냐에 따라 sgRNA의 기능적 분류가 다른 경우, sgRNA에 대한 UMI(UMI CPM) 값이 더 큰 라이브러리에서 분류를 선택하였다. 대체 서열에서 염기-편집 비동의 서열 중 변이 대립유전자 상대빈도가 75% 이상인 경우 대립유전자의 기능적 분류가 해당 sgRNA와 동일하다고 판단하였다.
17. 통계학적 유의도
염기 편집 효율(도 9)에 따른 sgRNA의 LFC 값, 표적 sgRNA 및 비표적화 sgRNA 대조군의 농축 값을 비교하기 위해(도 15D), 양측 스튜던트 t-검정을 사용하였다. 통계적 유의성은 PASW Statistics(버전 18.0, IBM)를 사용하여 계산되었다. 단방향 분산 분석을 사용한 후 Dunn의 사후 테스트를 사용하여 스코어 빈 간의 염기 변환 효율성을 비교하였다. 분류된 모든 sgRNA 중 공통 필수 유전자(common essential genes: CEG) 또는 암 유전자 조사(cancer gene census :CGC) 유전자에서 돌연변이를 도입할 것으로 예측되는 sgRNA의 비율을 결정하기 위해 Fisher's exact 테스트는 파이썬 라이브러리의 기능인 scipy.stats.fisher_exact를 사용하여 수행되었다.
18. 데이터 가용성 및 코드 가용성
딥시퀀싱 데이터를 수탁 번호 PRJNA667758로 NCBI Sequence Read Archive에 제출하였다. UMI를 사용하여 MAGECK 입력 파일을 생성하는 데 사용되는 사용자 지정 Python 스크립트는 github(https://github.com/oreolic/CancerLibrary)에서 사용하였다.
실시예
실시예 1. 염기편집기를 사용하여 암 관련 돌연변이의 생성
CBE 및 ABE를 사용하여 내인성 표적 서열에 암 관련 전이 돌연변이를 도입하기 위해 먼저 독시사이클린 반응 방식으로 CBE 또는 ABE를 발현하는 세포주를 제조하였다. HBEC30KT 세포는 정상 폐 세포에서 파생된 불멸화 비종양유발성 기관지 상피 세포이다. 상기 HBEC30KT 를 TP53(HBEC30KT-shTP53, 이하 'P 세포'로 지칭)을 표적으로 하는 짧은 헤어핀 RNA(shRNA)를 렌티바이러스로 발현하는 HBEC30KT 세포를 전암 세포로 사용하였다. P 세포는 낮은 수준의 TP53 mRNA를 발현하지만, 유전자 세트 농축 분석은 p53 경로가 상향 조절되었음을 보여주었다. HBEC30KT 세포와 유사하게, P 세포는 세포 확장을 위해 표피 성장 인자(EGF)를 필요로 하며 비종양 유발성세포이며, 상기 P세포에 역테트라사이클린이 조절된 트랜스활성제(rtTA)와 도 1에 나타난 염기 편집 유전자가위(CBE 또는 ABE)를 발현하는 렌티바이러스 벡터를 P 세포에 순차적으로 형질도입하였다. 독시사이클린 유도성 방식으로 CBE 또는 ABE를 발현하는 생성된 세포주를 각각 P-C 또는 P-A 세포로 명명하였다.
인간 암 조직에서 관찰되는 전이 돌연변이를 포함하도록 CBE 또는 ABE에 의해 변형될 수 있는 표적 서열을 확인하기 위하여 COSMIC (Catalog of Somatic Mutations in Cancer)를 사용하여 84,806개의 C>T 및 G>A 단일 뉴클레오티드 변이체(single-nucleotide variants: SNV) 및 23,176개의 A>G 및 T>C SNV 를 높은 예측 효율로 CBE 및 ABE에 의해 상기 SNV를 생성할 수 있는 각각 80,203 및 23,008 sgRNA를 확인하였다. 또한 sgRNA의 두 가지 음성 대조군을 추가하였다: 첫 번째 그룹은 인간 게놈의 어떤 서열도 표적으로 삼지 않는 sgRNA를 포함하고(이하, 비표적화 sgRNA 또는 NT), 두 번째 그룹은 CBE 또는 ABE와 함께 동의 돌연변이를 유도하는 sgRNA로 구성된다. 도 2에 나타난 상기 과정의 결과로 CBE와 ABE에 대해 각각 83,731 및 23,613 sgRNA를 확인하였다. 염기 편집 효율 및 결과를 확인하기 위하여 대체 표적 서열에 대한sgRNA-인코딩하는 렌티바이러스 벡터로서 실험에 사용한 벡터를 도 6에 모식화하여 나타내었다.
sgRNA 인코딩하는 서열 및 표적 서열의 83,731개(CBE의 경우) 및 23,613개(ABE의 경우) 쌍의 각각 라이브러리 C 및 A로 명명된 렌티바이러스 라이브러리를 생성하였다. 바코드 및 sgRNA 인코딩 서열의 셔플링 빈도는 약 4.3%이며, 이는 기능 평가에 실질적으로 영향을 미치지 않았다. 또한, 형질도입된 세포 및 후속 분석의 추적을 위해 두 라이브러리의 sgRNA 인코딩 및 표적 서열 사이에 8-뉴클레오티드(nt) 길이의 고유한 분자 식별자(unique molecular identifier :UMI)를 추가하였다. 각각 라이브러리 C와 A를 P-C 및 P-A 세포에 이중으로 형질도입하였다. 또한 상기 세포를 포함한 배양 배지에 독시사이클린을 보충하여 CBE 또는 ABE 발현을 유도하였다. 이러한 일련의 과정을 도 7에 나타내었다. 통합된 표적 서열에서 염기 편집 효율이 초기 형질도입 후 10일째에 측정되었을 때 효율이 높았으며(도 4A 및 4B), 위치 4, 5, 6 및 7에서의 중앙값 효율성은 CBE의 경우 37%, 59%, 61% 및 53%이고 ABE의 경우 16%, 68%, 68% 및 59%였다. 독립적인 생물학적 복제에서 아미노산 변경 또는 비동의 편집 효율성을 비교하였고 이를 도 8에 나타내었으며, 도 8에서 확인한 결과 Pearson 상관 계수가 0.93 및 0.97로서 높은 상관 관계가 확인되었다. 매우 낮은 레벨의 인델이 통합된 표적 서열에서 확인하였다. 따라서 이러한 sgRNA를 후속 분석에서 음성 대조군으로 사용하지 않았다.
다음으로, 통합된 표적 서열에서 염기 편집 효율과 표현형 변화 사이의 관계를 확인하였다. 생성한 상기 C2 라이브러리에서 65개의 선별된 필수 유전자를 표적으로 하는 190개의 고유 sgRNA를 사용하여 대체 서열에서 비동의 염기 편집 효율이 60% 이상일 때 sgRNA-형질도입된 세포가 강력한 고갈이 나타나는 것을 도 9에서 확인하였다. 따라서, 대체 서열에서 60% 미만의 염기 편집 효율과 관련된 sgRNA가 내인성 표적 부위에서 불충분한 염기 편집을 초래할 수 있으며, 이는 그러한 sgRNA와 관련된 가능한 성장 또는 고갈 표현형을 가릴수도 있음을 확인하였다. 증식 및 생존의 증가 또는 감소와 같은 성장 표현형에 대한 매개변수로서 내인성 부위에서의 염기 편집 효율과 상응하는 sgRNA의 로그 배수 변화(log fold changes:LFC) 사이의 관계를 수학적으로 계산할 때, LFC 및 편집 효율은 상관관계가 있었다. 또한 염기 편집 효율이 60% 미만인 경우 필수 유전자에서 정지 코돈을 유도하는 sgRNA의 비율이 효율이 60%보다 높을 때보다 더 많은 비율로 중성으로 분류되었다. 따라서 기능 분류에서 10일째에 UMI 수가 불충분한 염기 편집효율이 60%이하인 비효율적인 sgRNA를 제외하였다.
실시예 2. 암 관련 돌연변이의 기능적 분류
세포 증식 및 생존에 대한 CBE 및 ABE에 의해 생성된 변이의 기능적 효과를 평가하기 위해, 상기 돌연변이 함유 세포 집단을 독시사이클린 없이 14일 동안 배양하였다. 게놈 DNA는 라이브러리 C 및 A의 초기 형질도입 후 10일(기준) 및 24일에 세포 집단으로부터 분리되었고, sgRNA 및 표적 서열 쌍 및 UMI의 상대 빈도를 평가하기 위해 딥시퀀싱을 수행하였다. 각 sgRNA에 대한 중앙값 LFC와 P 값을 계산하였다. -log10(P-값)과 각 sgRNA의 LFC 중앙값에 따라, 각 sgRNA를 기능적으로 고갈, 유사고갈, 유사중성(고갈 가능성 있음), 중성, 유사중성(성장 가능성 있음), 유사성장 및 성장으로 대조군 비표적화 sgRNA의 분포를 사용하여 분류하였다(도 5 및 도 10).
각 UMI 값의 풍부함의 변화(즉, UMI의 RPM(reads per million :백만당 리드 수)의 LFC) 외에도 각 sgRNA에 대한 UMI의 수(즉, UMI의 LFC가 백만 당 수(counts per million :CPM))를 기능적 분류를 위하여 활용하였다. sgRNA에 의해 유도된 돌연변이가 고갈되면 각 sgRNA에 대한 UMI의 수는 감소하였다. 따라서 각 sgRNA에 대한 UMI 수를 Cas9 기반 스크리닝에서 hit calling의 정확도를 높이기 위한 추가 매개변수로 사용하였다. 잘못된 고갈 또는 성장으로 분류되는 sgRNA의 수를 줄이기 위해, RPM 및 P-값의 LFC와 관련하여 고갈 또는 성장 기준을 충족하는 sgRNA를 UMI CPM의 LFC가 고갈 또는 성장으로 판단되지 않으면 유사고갈 또는 유사 성장으로 분류하였다.
실시예 3. 다양한 규모에서의 기능평가 방법의 확인
상기 실시예를 통하여 확인한 다량의 돌연변이 데이터의 평가방법이 다양한 규모에서도 적용 가능한지 여부와 분류 결과가 독립적인 라이브러리를 사용하여 재현 가능한지 여부를 확인하기 위한 실험을 수행하였고, 이러한 실험의 과정을 도 3A 및 3B에 나타내었다. 이를 위하여 각각 C1, C2 및 A1이라는 3개의 더 작은 라이브러리(CBE의 경우 3,261 및 3,170개의 고유 sgRNA와 ABE의 경우 1,595개의 고유 sgRNA 포함)를 준비하였다(도 3A 및 3B). 도 3C에서 확인한 바와 같이, 라이브러리 C, C1 및 C2와 라이브러리 A 및 A1의 동일한 통합 표적 서열에서 비동의 염기 편집 효율 사이의 높은 상관관계가 확인되었다. 아울러 이와 같은 관계는 도 11에서도 확인할 수 있었다.
따라서, 상기 실시예 2 및 실험예에서 확인된 방법을 사용하여, 라이브러리 C1, C2 및 A1의 sgRNA의 기능적 분류를 수행하였고, 이를 도 12에 나타내었다. 도 12에서 확인한 바와 같이, 소규모의 라이브러리에서도 대규모 라이브러리 (C 및 A)의 변이 기능 분류가 잘 호환되는 것을 확인하였다. 이에 따라서, 도 13에서 확인한 바와 같이, 최종적으로 기능평가의 라이브러리 규모가 축소된 경우에도 상기 기능 평가 방법을 유용하게 활용할 수 있음을 확인하였다.
실시예 4. 추가적인 라이브러리를 통한 기능 평가 방법의 확인
대부분의 넌센스 돌연변이는 기능 상실(loss of function)로 이어지지만, 잘못된 돌연변이의 기능적 효과는 예측하기가 더 어렵다. 따라서 2개의 ABE 라이브러리를 추가로 생성하여, 돌연변이의 기능 평가를 확인하였다. 이중 하나는 262개의 드라이버 유전자(driver gene)에서 관찰된 2,797개의 미스센스 전환 돌연변이를 유도할 수 있는 dA(ABE용 드라이버) 라이브러리이고, 다른 하나는 627개의 종양 억제 유전자에서 관찰된 1,468개의 미스센스 전환 돌연변이를 유도할 수 있는 A2 라이브러리이다. 또한, 다른 라이브러리로서 116개의 종양 억제 유전자에서 관찰된 1,080개의 미스센스 전이 돌연변이와 83개의 넌센스 돌연변이를 유도하기 위해 C3이라는 다른 라이브러리를 생성하였고, 상기 실험방법으로 변이체의 기능적 효과를 평가하는 방법으로 확인하였고, 이러한 실험의 결과를 도 14에 나타내었다. 도 14에서 확인한 바와 같이, 추가적인 세 가지 라이브러리를 역시 기능 평가 방법을 유용하게 활용할 수 있음을 확인하였다.
실시예 5. 통합 결과를 기반으로 한 변이의 기능적 분류 평가 방법의 최종적 확인
최종적으로 생성한 총 8개의 라이브러리 C, C1, C2, C3, A, A1, A2 및 dA의 결과를 통합하여, sgRNA 및 관련 단백질 변이체의 분류가 명확히 이루어질 수 있는지 확인하는 실험을 수행하였다.
총 68,070개의 sgRNA는 다음과 같이 분류되었다: 282개 고갈, 691개 유사 고갈, 14,689개 유사 중성 (고갈 가능성 있음), 34,714개 중성, 17,248개 중성(성장 가능성 있음), 409개 유사 성장 및 37개의 성장.
대체 표적 서열의 분석을 통해 어떤 sgRNA가 주로 단일 단백질 변이를 고효율 방식으로 유도하는지 확인할 수 있었다. 이러한 경우에, sgRNA에 의해 유도된 표현형은 이 연구에서 sgRNA에 대한 "일차" 단백질 변이체라고 부르는 주요 단백질 변이체에 기인할 수 있다. 염기 편집 유전자가위에서 생성된 모든 단백질 변이체 간의 상대 빈도가 75%(일차 변이체가 남은 염기-편집된 변이체의 결합된 빈도보다 최소 3배보다 높은 경우) 보다 높으면 단백질 변이체를 "일차" 단백질 변이체로 분류하였다.
이에 따라 전환 돌연변이에 의해 생성된 29,060개의 단백질 변이체에 대한 기능적 분류를 제공할 수 있었다(도 5): 123개 고갈, 304개 유사 고갈, 6,281개 유사 중성(고갈 가능성 있음), 14,949개 중성, 7,228개 유사 중성 (성장 가능성 있음), 157개 유사성장, 18개의 성장.
나머지 39,012개의 기능적으로 분류된 sgRNA 각각은 2개의 아미노산 변화가 있는 단일 1차 변이체(12,820개 sgRNA) 또는 1차 변이체가 없는 변이체 그룹(26,192개 sgRNA)을 유도하였다. 39,012개의 sgRNA에 의해 유도된 변이체에서 단일 아미노산 변경의 기능적 효과 분석에 의해 결정된 변이체 그룹에서 각 변이체의 빈도와 함께 변이체 그룹의 기능적 효과를 확인하였다. 대체 표적 서열은 정확도는 낮지만 유익할 수 있으며 특히 sgRNA에 의해 유도된 표현형이 중성으로 분류되는 경우 단일 아미노산 변화의 기능적 효과를 예측하는 데 도움이 되는 것을 확인하였다. 일차 변이 없이 여러 변이를 유도한 26,192개의 sgRNA 중 대부분의 sgRNA(77%, 20,138개)는 빈도가 10%보다 높은 변이체로 판단하면 2개의 단백질 변이체를 생성하는 것으로 판단하였다. 따라서, 상기 20,138 sgRNA의 표현형은 2개의 상응하는 단백질 변이체 중 하나 또는 두개의 변이체 모두에 의하여 기인할 수 있음을 확인하였다.
실시예 6. 개별적 변이의 기능 확인을 통한 기능적 고처리량 데이터 분류 평가 방법의 검증
고처리 실험의 결과를 기반으로 이러한 평가 방법을 검증하기 위해 염기 편집으로 생성된 변이 각각의 독립적인 개별적 기능 확인을 통하여 실제적인 예측이 가능한지를 확인하기 위한 실험을 수행하였다. 고처리량 데이터 분류 평가 방법에 사용된 28개의 sgRNA를 선택하고 이러한 sgRNA를 렌티바이러스 형질도입을 통해 P-C 또는 P-A 세포에 개별적으로 전달하였다. 형질도입된 세포를 독시사이클린과 함께 7일 동안 배양하여 염기 편집을 유도하고 독시사이클린 부재 하에 추가 14일 동안 인큐베이션하였다. sgRNA을 전달한 후 개별 대립 유전자 빈도를 추적하기 위해 감염 후 6, 10, 17 및 24일에 세포를 수확하고 분석하였고 일련의 실험과정을 도 15A에 나타내었으며, 이의 분석 결과를 도 15B에 나타내었다.
도 15B에서 확인한 바와 같이, 실시예의 방법에 따른 고처리량 분류 평가 방법의 통합된 표적 서열에서 20개의 선택된 sgRNA에 의해 유도된 61개의 염기 편집 대립 유전자의 빈도와 독립적인 개별 실험에서 내인성 표적 부위의 빈도 사이에 높은 상관 관계가 나타나는 것을 확인하였다. Pearson r = 0.72, Spearman R = 0.70).
또한 딥 시퀀싱 분석을 통하여 염기 편집에 의해 생성된 변이체의 빈도가 증가하거나, 변경되지 않거나, 감소하는 패턴을 통하여 sgRNA의 개별 기능을 분류하였다. 구체적으로 10일 이후 시간이 지남에 따라 염기-편집된 변이의 빈도가 감소하고 야생형 시퀀스의 빈도가 증가하면 sgRNA를 고갈로 분류하였다. 염기-편집된 변이의 빈도가 증가하고 야생형 시퀀스의 빈도가 감소하면 sgRNA를 성장 또는 중립으로 분류하였다. 염기 편집된 변이체와 야생형 서열의 빈도가 10일 이후 시간이 지남에 따라 변하지 않았을 때, sgRNA를 중성 또는 고갈로 분류하였다. 이러한 변이 및 야생형 서열의 빈도를 기반으로 한 개별 sgRNA의 기능적 분류 결과와 상기 실시예의 방법에 따른 고처리량 데이터 평가의 결과를 분석한 결과, 도 15C에서 확인한 것과 같이 실시예의 방법에 따른 고처리량 분류 평가 방법은 개별적 평가 방법의 결과와 일치한다는 것을 발견하였다(그림 4c 및 확장 데이터 그림 8). 다만, 이러한 변이체 빈도 추적을 통하여 증식 및 중성 표현형을 구별하기 어렵기 때문에 다음으로 경쟁 증식 분석을 수행하여 sgRNA 형질도입 세포와 형질도입되지 않은 세포의 증식을 비교하는 도 15A의 하단의 방법의 실험을 수행하였다. 비표적화 sgRNA로 형질도입된 세포와 비교하여 시간 경과에 따른 sgRNA 형질도입 세포의 농축 또는 고갈을 기반으로 sgRNA를 분류하였고, 이의 실험결과를 도 15D에 나타내었다. 도 15D에서 확인한 바와 같이, 이러한 유세포 분석을 통하여, 상기 방법에 기반한 분류가 상기 실시예의 데이터 고처리량 평가의 분류와 호환 가능할 정도로 경향이 일치하는 것을 확인할 수 있어 최종적으로는 상기 실시예에 따른 고처리량 평가 방법은 대량 데이터를 평가할 수 있으면서도 개별적으로 분류 방법에 높은 정확도로서 sgRNA에 따른 기능 분류를 수행할 수 있음을 확인하였다.
실시예 7. EGF 시그널링에 따른 항암제 내성 관련 변이의 기능의 확인
상기 실시예에 따른 평가 방법은 세포 증식 및 생존력의 평가를 기반으로 한다. 특히 암의 가장 중요한 특징 중 하나가 성장 신호의 자급자족임을 감안할 때 P 세포의 증식에 필요한 성장 신호인 EGF에 대한 세포의 의존성을 평가하였다. EGF/EGF 수용체(EGFR) 신호 전달 경로와 관련된 162개 유전자에서 관찰된 3,967개의 전이 돌연변이를 유도하기 위한 eC(표피 성장 인자-CBE)라는 라이브러리를 설계하였다. eC 라이브러리를 P-C 세포로 형질도입하고 독시사이클린을 첨가하여 염기 편집을 유도하였다. 세포 집단을 EGF가 제거되고 10nM의 EGFR 억제제 아파티닙(afatinib)이 추가된 EGF 고갈군 및 미처리군인 대조군으로 나누었고, 두 군을 추가로 10일 동안 배양하였고, 일련의 실험과정을 도 16A에 나타내었고, 상기 실시예에서 확인한 실험과 유사하게 EGF 고갈군의 세포 수와 대조군의 세포 수를 비교하여 sgRNA를 기능적으로 분류하였고, 이를 확인한 결과를 도 16B와 이를 정리한 결과를 도 16C에 나타내었다.
도 16B 및 도 16C에서 확인한 바와 같이, 상기 실시예의 방법으로 통합된 표적 염기서열에서의 유전자 편집 결과를 평가한 결과 단일 아미노산 변이로 총 899개의 단백질 변이체를 기능적으로 분류할 수 있음을 확인하였다. 상기 분류된 변이체 중 항암제 아파티닙에 내성을 부여하는 1개의 변이체인 EGFR p.T790M을 확인하였고, 이러한 변이가 약제 투여에도 불구하고 활발히 증식하는 성장 변이임을 정확하게 확인할 수 있었다. 또한 2개의 고갈 변이체 SH3GL3_p.D169N 및 PIK3C2B_p.E650K와 495개의 중성 변이를 확인하였다. 아울러 실시예에서 확인한 고처리량 변이 평가 방법은 종전 VUS로 알려져 있던 EGFR_p.P753S가 유사 고갈 표현형을 가지는 것을 확인하였고, 따라서 이러한 변이를 가진 환자가 피부 편평 세포 암(cutaneous squamous cell carcinoma)을 치료하기 위해 EGFR 억제제인 세툭시맙(cetuximab) 투여 치료에 극적인 항암효과가 나타나는 실험결과와 일치하는 것을 확인하였다.
실시예 8. 고처리량 변이 기능 평가 방법을 통해 확인한 변이의 기능 확인
상기 실시예에서 확인한 기능 평가 방법에 의하여 분류된 단백질 변이체 중 대다수(28,458/29,060 = 98%)가 중성(14,949, 51%) 또는 중성일 가능성(13,509, 46%)으로 분류되는 것을 확인하였다.
또한 성장 표현형으로 확인된 군에서 주목할만한 유전자 군에는 암 유전자 센서스(Cancer Gene Census, CGC)가 포함되었고, 이의 기능 분류를 도 17A(상단)에 나타내었다. 도 17A에서 확인한 바와 같이, 기능적으로 분류된 68,070개의 sgRNA 중 9.0%(6,119개)가 CGC 유전자를 표적으로 하는 것을 확인하였다. 그러나, CGC 유전자 분획 중 성장은 15%(63/409)이며(P-값 = 2.8 X 10-5), 유사 성장은 38%(14/37)이며 (P-값 = 1.9 X10-6)인 것을 확인하였다. 상기 두 군의 CGC 유전자를 표적으로 하는 sgRNA 중에서 가장 큰 35%(27/77) 분획은 TP53을 표적으로 한 것임을 확인하였다.
동일한 분석을 29,060개의 기능적으로 분류된 단백질 변이체를 사용하여 수행하였고, 이의 결과를 도 17A 하단에 나타내었다. 도 17A에서 확인한 바와 같이, CGC 유전자 중 성장 및 유사성장으로 분류된 변이체와 가장 연관성 있는 유전자는 TP53(36%(10/28))인 것을 확인하였다.
고갈 표현형과 관련된 주목할만한 유전자 군을 확인하였고, 이를 확인한 결과를 도 17B 왼쪽에 나타내었다. 도 17B에서 확인한 바와 같이, 고갈 표현형은 공통 필수 유전자가 포함되었고, sgRNA 중에서 고갈은 52%(147/282) (P 값 = 6.9 X 10-69) 및 유사 고갈의 27%(190/691) (P 값 = 1.5 X 10-98) 가 각각 공통 필수 유전자와 연관되는 것을 확인하였고, 반면 기능적으로 분류된 모든 sgRNA의 6.1%(4,153/68,070)만이 공통 필수 유전자를 표적으로 하는 것을 확인하였다.
아울러, sgRNA 대신 기능적으로 분류된 29,060개의 단백질 변이체를 사용하여 분석을 수행하였고 이를 도 17B 오른쪽에 나타내었다. 도 17B에서 확인한 바와 같이, 왼쪽 그래프인 sgRNA에서 확인한 경향과 비슷한 결과를 확인하였다.
개별적인 변이에서 확인한 실험의 결과, EGFR에 영향을 미치는 p.Y727C 돌연변이는 실시예에 따른 고처리량 변이 분석과 개별 검증 실험 모두에서 상기 변이가 성장 표현형을 나타내는 것을 확인하였다. EGFR 활성화가 세포 증식 및 생존을 유도한다는 점을 감안할 때, ClinVar에 의해 VUS로 확인된 p.Y727C 돌연변이는 실시예의 방법에 따르는 경우 기능 획득 돌연변이(gain-of-function)로 분류될 수 있음을 확인하였다.
암에서 PHLDA1 돌연변이의 기능은 잘 알려져 있지 않았으나, 실시예에 따른 고처리량 변이 분석과 개별 검증 실험을 통해 p.Q201* 및 p.Y249C 변이체가 각각 성장 및 유사 성장 표현형이므로, 이러한 돌연변이가 세포의 생존 및 증식을 증가시킬 수 있음을 확인할 수 있었다. 또한 IRF6은 편평 세포 암에서 종양 억제 활성이 있는 것으로 알려져 있고, 또한 IRF6의 p.Y97C 돌연변이가 구순구개열을 특징으로 하는 Van der Woude 증후군의 원인으로 알려져 있다. 이에 고처리량 변이 분석과 개별 검증 실험을 수행한 결과 두 실험결과에서 모두 p.Y97C가 성장 표현형을 나타내는 것을 확인할 수 있었다. CASP8은 아폽토시스와 관련이 있으며 종양 억제인자로 알려져 있는데, 실시예에 따른 고처리량 변이 분석을 통해 종전에 기능이 알려지지 않은 p.S158F 및 p.Y507C의 두 가지 변이체가 각각의 표현형이 성장 및 유사 성장인 것을 확인하였다. 개별 검증 실험을 통해 p.S158F은 성장 표현형인 것을 확인하였다. CREBBP는 소세포 폐암(small cell lung carcinoma), 백혈병 및 림프종에 대한 종양 억제 유전자로 알려져 있고, p.Y1482H 변이체는 림프종의 기능 상실 돌연변이인 것 알려져 있었고, 이러한 변이의 기능을 실시예에 따른 고처리량 변이 분석을 통하여 p.Y1482H가 성장 표현형을 나타내는 것을 확인하였다.
SEQUENCE LISTING <110> Industry-Academic Cooperation Foundation, Yonsei University <120> Method for evaluating the function of cancer mutations through base editor and evaluation system using the same <130> PN143420 <150> KR 10-2021-0067906 <151> 2021-05-26 <160> 119 <170> PatentIn version 3.2 <210> 1 <211> 45 <212> DNA <213> Artificial <220> <223> primer sequence of BE-Nterm-FP <400> 1 ccacaacact tttgtcttat acttggccgc caccatgaaa cggac 45 <210> 2 <211> 45 <212> DNA <213> Artificial <220> <223> primer sequence of BE-Nterm-RP <400> 2 agttccaggg ggtgatggtt tcctcgctct ttctggtcat ccagg 45 <210> 3 <211> 45 <212> DNA <213> Artificial <220> <223> primer sequence of BE-Cterm-FP <400> 3 atgaccagaa agagcgagga aaccatcacc ccctggaact tcgag 45 <210> 4 <211> 53 <212> DNA <213> Artificial <220> <223> primer sequence of BE-Cterm-RP <400> 4 attccatatg acgcgtcccg ggatcttaga ctttcctctt cttcttgggc tcg 53 <210> 5 <211> 26 <212> DNA <213> Artificial <220> <223> primer sequence of TRE3G-PGK-FP <400> 5 gatcccggga cgcgtcatat ggaatt 26 <210> 6 <211> 46 <212> DNA <213> Artificial <220> <223> primer sequence of TRE3G-PGK-RP <400> 6 cgcggtgagt tcaggctttt tcatggtaag cttgggctgc aggtcg 46 <210> 7 <211> 20 <212> DNA <213> Artificial <220> <223> primer sequence of lenti-hygro-FP <400> 7 atgaaaaagc ctgaactcac 20 <210> 8 <211> 26 <212> DNA <213> Artificial <220> <223> primer sequence of lenti-hygro-RP <400> 8 tcattattcc tttgccctcg gacgag 26 <210> 9 <211> 44 <212> DNA <213> Artificial <220> <223> primer sequence of WPRE-FP <400> 9 tccgagggca aaggaataat gacggggcgc gtctggaaca atca 44 <210> 10 <211> 39 <212> DNA <213> Artificial <220> <223> primer sequence of WPRE-RP <400> 10 caacacaggc gagcagccat ggaaaggacg tcagcttcc 39 <210> 11 <211> 43 <212> DNA <213> Artificial <220> <223> primer sequence of EF1a-FP <400> 11 ggtagtctca agctggccgg cctgctctgg tgcctggcct cgc 43 <210> 12 <211> 64 <212> DNA <213> Artificial <220> <223> primer sequence of EF1a-RP <400> 12 gagtagtgag aaattcgtgg caccagatcc tctagactgc agatcggcac cgggcttgcg 60 ggtc 64 <210> 13 <211> 77 <212> DNA <213> Artificial <220> <223> primer sequence of p2A-EGFP-FP <400> 13 gccacgaatt tctcactact caagcaggcc ggtgatgtcg aggaaaaccc tggtcctgtg 60 agcaagggcg aggagct 77 <210> 14 <211> 41 <212> DNA <213> Artificial <220> <223> primer sequence of p2A-EGFP-RP <400> 14 gattgtcgac ttaacgcgtt tacttgtaca gctcgtccat g 41 <210> 15 <211> 42 <212> DNA <213> Artificial <220> <223> primer sequence of WPRE-LTR-FP <400> 15 catggacgag ctgtacaagt aaacgcgtta agtcgacaat ca 42 <210> 16 <211> 40 <212> DNA <213> Artificial <220> <223> primer sequence of WPRE-LTR-RP <400> 16 aaaaaaatta gtcagccatg gggcggagaa tgggcggaac 40 <210> 17 <211> 55 <212> DNA <213> Artificial <220> <223> primer sequence of Oligo-Amplifying-FP <400> 17 ttgaaagtat ttcgatttct tggctttata tatcttgtgg aaaggacgaa acacc 55 <210> 18 <211> 57 <212> DNA <213> Artificial <220> <223> primer sequence of Oligo-Amplifying-RP <400> 18 gagtaagctg accgctgaag tacaagtggt agagtagaga tctagttacg ccaagct 57 <210> 19 <211> 119 <212> DNA <213> Artificial <220> <223> primer sequence of Improved scaffods with UMI <220> <221> misc_feature <222> (93)..(100) <223> n is a, c, g, or t <400> 19 gtttcagagc tatgctggaa acagcatagc aagttgaaat aaggctagtc cgttatcaac 60 ttgaaaaagt ggcaccgagt cggtgctttt ttnnnnnnnn tttgggagac gcgatcgat 119 <210> 20 <211> 49 <212> DNA <213> Artificial <220> <223> primer sequence of Scaffold-Amplifying FP <400> 20 caagcttggt accgagctcg ttttcgtctc tgtttcagag ctatgctgg 49 <210> 21 <211> 39 <212> DNA <213> Artificial <220> <223> primer sequence of Scaffold-Amplifying-RP <400> 21 tatagggcga attgggccct atcgatcgcg tctcccaaa 39 <210> 22 <211> 56 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing FP-A <400> 22 acactctttc cctacacgac gctcttccga tctcttgaaa aagtggcacc gagtcg 56 <210> 23 <211> 57 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing FP-B <400> 23 acactctttc cctacacgac gctcttccga tcttcttgaa aaagtggcac cgagtcg 57 <210> 24 <211> 58 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing FP-C <400> 24 acactctttc cctacacgac gctcttccga tctcgcttga aaaagtggca ccgagtcg 58 <210> 25 <211> 61 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing RP-A <400> 25 gtgactggag ttcagacgtg tgctcttccg atctttaagt cgagtaagct gaccgctgaa 60 g 61 <210> 26 <211> 62 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing RP-B <400> 26 gtgactggag ttcagacgtg tgctcttccg atctattaag tcgagtaagc tgaccgctga 60 ag 62 <210> 27 <211> 63 <212> DNA <213> Artificial <220> <223> primer sequence of 1st Deep sequencing RP-C <400> 27 gtgactggag ttcagacgtg tgctcttccg atcttattaa gtcgagtaag ctgaccgctg 60 aag 63 <210> 28 <211> 29 <212> DNA <213> Artificial <220> <223> front part of 2nd Illuimina indexing FP <400> 28 aatgatacgg cgaccaccga gatctacac 29 <210> 29 <211> 20 <212> DNA <213> Artificial <220> <223> end part of 2nd Illuimina indexing FP <400> 29 acactctttc cctacacgac 20 <210> 30 <211> 24 <212> DNA <213> Artificial <220> <223> front part of 2nd Illuimina indexing RP <400> 30 caagcagaag acggcatacg agat 24 <210> 31 <211> 21 <212> DNA <213> Artificial <220> <223> end part of 2nd Illuimina indexing RP <400> 31 gtgactggag ttcagacgtg t 21 <210> 32 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.TP53_p.T155I,p.T155T <400> 32 ggcacccgcg tccgcgcca 19 <210> 33 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.TP53_p.T155I,p.T155T <400> 33 acactctttc cctacacgac gctcttccga tctttgccca gggtccccag gcc 53 <210> 34 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.TP53_p.T155I,p.T155T <400> 34 gtgactggag ttcagacgtg tgctcttccg atcttctcca gccccagctg ctc 53 <210> 35 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.TP53_p.Q100* <400> 35 cttcccagaa aacctacca 19 <210> 36 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.TP53_p.Q100* <400> 36 acactctttc cctacacgac gctcttccga tctcccctgt catcttctgt ccc 53 <210> 37 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.TP53_p.Q100* <400> 37 gtgactggag ttcagacgtg tgctcttccg atctaatgca gggggatacg gcca 54 <210> 38 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.CDC23_p.T381M <400> 38 aacacgtctg ctgctatcc 19 <210> 39 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.CDC23_p.T381M <400> 39 tgggtgtttt gccaggactt 20 <210> 40 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.CDC23_p.T381M <400> 40 caagtgacca ggcttaccga 20 <210> 41 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.CDC23_p.T381M <400> 41 acactctttc cctacacgac gctcttccga tctggtgcct ggacactaat ggg 53 <210> 42 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.CDC23_p.T381M <400> 42 gtgactggag ttcagacgtg tgctcttccg atctctgccc gaggccatac caag 54 <210> 43 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.PTPN14_p.Q110* <400> 43 gcttcagcaa gaggccaca 19 <210> 44 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.PTPN14_p.Q110* <400> 44 cttacctcac atgggcgctt 20 <210> 45 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.PTPN14_p.Q110* <400> 45 ttatatggca cacaggggga 20 <210> 46 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.PTPN14_p.Q110* <400> 46 acactctttc cctacacgac gctcttccga tctcaagagc cagcaagcac gat 53 <210> 47 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.PTPN14_p.Q110* <400> 47 gtgactggag ttcagacgtg tgctcttccg atctggcaca cagggggaaa atgc 54 <210> 48 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.TP53_p.Q192* <400> 48 cctcagcatc ttatccgag 19 <210> 49 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.TP53_p.Q192* <400> 49 acactctttc cctacacgac gctcttccga tctttgccca gggtccccag gcc 53 <210> 50 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.TP53_p.Q192* <400> 50 gtgactggag ttcagacgtg tgctcttccg atctagggcc actgacaacc accc 54 <210> 51 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.POLR1C_p.A6V <400> 51 tcaggcggtg gaggaaatg 19 <210> 52 <211> 18 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.POLR1C_p.A6V <400> 52 tgggatcggc cggaacac 18 <210> 53 <211> 21 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.POLR1C_p.A6V <400> 53 cccaggcatc atcataaccg g 21 <210> 54 <211> 60 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.POLR1C_p.A6V <400> 54 acactctttc cctacacgac gctcttccga tctctcgcga tatttaagat tccaggaggc 60 <210> 55 <211> 58 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.POLR1C_p.A6V <400> 55 gtgactggag ttcagacgtg tgctcttccg atctacgaat ttgtccacga agggacag 58 <210> 56 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.MMS22L_p.R661* <400> 56 atgtcgagaa tctgaactt 19 <210> 57 <211> 23 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.MMS22L_p.R661* <400> 57 gagagccctc atttggaagg gtc 23 <210> 58 <211> 32 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.MMS22L_p.R661* <400> 58 cggatatatt caacctgtac tgatttatgc cc 32 <210> 59 <211> 59 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.MMS22L_p.R661* <400> 59 acactctttc cctacacgac gctcttccga tctggtacag agacagacta tctggaccc 59 <210> 60 <211> 59 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.MMS22L_p.R661* <400> 60 gtgactggag ttcagacgtg tgctcttccg atctctgaaa accatacctg attctggcc 59 <210> 61 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.POLR2B_p.P714L <400> 61 ttcctgatca taaccaggt 19 <210> 62 <211> 22 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.POLR2B_p.P714L <400> 62 ttagttggca ggatcttgtg gc 22 <210> 63 <211> 22 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.POLR2B_p.P714L <400> 63 catacctgct ggcagctctc ta 22 <210> 64 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.POLR2B_p.P714L <400> 64 acactctttc cctacacgac gctcttccga tctgcaggat cttgtggcca gtg 53 <210> 65 <211> 64 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.POLR2B_p.P714L <400> 65 gtgactggag ttcagacgtg tgctcttccg atctccctcc agataagact acagagttac 60 tttc 64 <210> 66 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.POLG_p.Q1029* <400> 66 ggtccagaga gaaactgca 19 <210> 67 <211> 27 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.POLG_p.Q1029* <400> 67 tgatatgtga acattccttg ccaaggc 27 <210> 68 <211> 25 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.POLG_p.Q1029* <400> 68 tgctccaaag gtagcaagat acctc 25 <210> 69 <211> 52 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.POLG_p.Q1029* <400> 69 acactctttc cctacacgac gctcttccga tctccccagg tatcggctgt cg 52 <210> 70 <211> 55 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.POLG_p.Q1029* <400> 70 gtgactggag ttcagacgtg tgctcttccg atctagcatc caagctcttc tgggg 55 <210> 71 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.ACOX3_p.Q145* <400> 71 attcaaaaga tcttcagga 19 <210> 72 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.ACOX3_p.Q145* <400> 72 actcttctta cctgccccct 20 <210> 73 <211> 21 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.ACOX3_p.Q145* <400> 73 caagaagagc ataagccccc t 21 <210> 74 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.ACOX3_p.Q145* <400> 74 acactctttc cctacacgac gctcttccga tctttcttac ctgccccctg ttg 53 <210> 75 <211> 55 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.ACOX3_p.Q145* <400> 75 gtgactggag ttcagacgtg tgctcttccg atctagaaga gcataagccc cctgg 55 <210> 76 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Cg.KMT2C_p.R1906* <400> 76 cccctcgacc acctcctgt 19 <210> 77 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Cg.KMT2C_p.R1906* <400> 77 agacttctca gccaccctca 20 <210> 78 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Cg.KMT2C_p.R1906* <400> 78 caggggatgg cctatttgct 20 <210> 79 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Cg.KMT2C_p.R1906* <400> 79 acactctttc cctacacgac gctcttccga tctgacttct cagccaccct cac 53 <210> 80 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Cg.KMT2C_p.R1906* <400> 80 gtgactggag ttcagacgtg tgctcttccg atctttccac tggtgcagca gaat 54 <210> 81 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.TP53_p.R280G <400> 81 gggagagacc ggcgcacag 19 <210> 82 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.TP53_p.R280G <400> 82 acactctttc cctacacgac gctcttccga tctgggacag gtaggacctg att 53 <210> 83 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.TP53_p.R280G <400> 83 gtgactggag ttcagacgtg tgctcttccg atctaccgct tcttgtcctg cttg 54 <210> 84 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.TP53_p.N239D <400> 84 tgtgtaacag ttcctgcat 19 <210> 85 <211> 22 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.TP53_p.N239D <400> 85 gaagcttaca gaggctaagg gc 22 <210> 86 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.TP53_p.N239D <400> 86 gtaaggagat tccccgccgg 20 <210> 87 <211> 52 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.TP53_p.N239D <400> 87 acactctttc cctacacgac gctcttccga tctctgcttg ccacaggtct cc 52 <210> 88 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.TP53_p.N239D <400> 88 gtgactggag ttcagacgtg tgctcttccg atctcagtgt gcagggtggc aag 53 <210> 89 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.TP53_p.K120E <400> 89 gccaagtctg tgacttgca 19 <210> 90 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.TP53_p.K120E <400> 90 acactctttc cctacacgac gctcttccga tctcccctgt catcttctgt ccc 53 <210> 91 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.TP53_p.K120E <400> 91 gtgactggag ttcagacgtg tgctcttccg atctaatgca gggggatacg gcca 54 <210> 92 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.TP53_p.K351E <400> 92 actcaaggat gcccaggct 19 <210> 93 <211> 21 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.TP53_p.K351E <400> 93 tgcatgttgc ttttgtaccg t 21 <210> 94 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.TP53_p.K351E <400> 94 ctgggaccca atgagatggg 20 <210> 95 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.TP53_p.K351E <400> 95 acactctttc cctacacgac gctcttccga tctcttctcc ccctcctctg ttg 53 <210> 96 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.TP53_p.K351E <400> 96 gtgactggag ttcagacgtg tgctcttccg atctgaaggc aggggagtag ggcc 54 <210> 97 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.TP53_p.T125A <400> 97 tgcacggtca gttgccctg 19 <210> 98 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.TP53_p.T125A <400> 98 acactctttc cctacacgac gctcttccga tctcccctgt catcttctgt ccc 53 <210> 99 <211> 54 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.TP53_p.T125A <400> 99 gtgactggag ttcagacgtg tgctcttccg atctaatgca gggggatacg gcca 54 <210> 100 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.CTCF_p.H312R <400> 100 atcaccttaa cacacacac 19 <210> 101 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.CTCF_p.H312R <400> 101 cagttacacg tgtccacggc 20 <210> 102 <211> 22 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.CTCF_p.H312R <400> 102 ccaggcatct attgcctgag ac 22 <210> 103 <211> 53 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.CTCF_p.H312R <400> 103 acactctttc cctacacgac gctcttccga tctcagttac acgtgtccac ggc 53 <210> 104 <211> 59 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.CTCF_p.H312R <400> 104 gtgactggag ttcagacgtg tgctcttccg atctcttcct ttaaattccc gctggagtc 59 <210> 105 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.SRSF1_p.D139G <400> 105 aggatcacat gcgtgaagc 19 <210> 106 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.SRSF1_p.D139G <400> 106 cgaggattgc tgctgtggtg 20 <210> 107 <211> 25 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.SRSF1_p.D139G <400> 107 caaccttgcc tgaatcctta ccttg 25 <210> 108 <211> 62 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.SRSF1_p.D139G <400> 108 acactctttc cctacacgac gctcttccga tctccagctc tctttacctg gtatcactta 60 ag 62 <210> 109 <211> 56 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.SRSF1_p.D139G <400> 109 gtgactggag ttcagacgtg tgctcttccg atctcgtaca aactccacga caccag 56 <210> 110 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.POLE_p.Y1889C <400> 110 agtacatcac cagcaggtg 19 <210> 111 <211> 20 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.POLE_p.Y1889C <400> 111 ggaccctcag ctcttttccc 20 <210> 112 <211> 24 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.POLE_p.Y1889C <400> 112 cttcctgaac ttgcccaact caag 24 <210> 113 <211> 52 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.POLE_p.Y1889C <400> 113 acactctttc cctacacgac gctcttccga tcttgggtgc cctctggctc tc 52 <210> 114 <211> 57 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.POLE_p.Y1889C <400> 114 gtgactggag ttcagacgtg tgctcttccg atctgcacct cagggggtca ttttagc 57 <210> 115 <211> 19 <212> DNA <213> Artificial <220> <223> GN19 guide sequence of Ag.ACTL6A_p.T405A <400> 115 gggtaccttt caacagatg 19 <210> 116 <211> 21 <212> DNA <213> Artificial <220> <223> Amplifying_FP of Ag.ACTL6A_p.T405A <400> 116 aggtgggagc atcccttgaa c 21 <210> 117 <211> 25 <212> DNA <213> Artificial <220> <223> Amplifying_RP of Ag.ACTL6A_p.T405A <400> 117 agcctaaggt aaaaagcata ggcag 25 <210> 118 <211> 57 <212> DNA <213> Artificial <220> <223> Adaptor_FP of Ag.ACTL6A_p.T405A <400> 118 acactctttc cctacacgac gctcttccga tcttggctga cagagcaaga ccttctc 57 <210> 119 <211> 57 <212> DNA <213> Artificial <220> <223> Adaptor_RP of Ag.ACTL6A_p.T405A <400> 119 gtgactggag ttcagacgtg tgctcttccg atctggaagg tagaagcttg ggaactc 57

Claims (10)

  1. 가이드 RNA를 암호화하는 뉴클레오티드 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열 및 상기 가이드 RNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리를 생성하는 단계;
    염기 변환 유전자 가위를 발현하는 세포에 상기 세포 라이브러리를 형질 도입하여 배양하는 단계;
    상기 형질 도입된 세포를 배양 후 수확하고 딥 시퀀싱을 수행하여 염기변환 효율 및 염기변환으로 인한 단백질 돌연변이의 빈도의 수준 데이터를 측정하는 단계; 및
    상기 측정된 데이터를 분석하여 세포 라이브러리에 도입된 돌연변이의 기능을 평가하는 단계를 포함하는 종양 돌연변이의 기능을 평가하기 위한 방법.
  2. 청구항 1에 있어서, 상기 염기 변환 유전자 가위는 사이토신 염기 변환 유전자가위(cytosine base editor:CBE) 및 아데닌 염기 변환 유전자가위(adenine base editor :ABE)인 것인, 종양 돌연변이의 기능을 평가하기 위한 방법.
  3. 청구항 1에 있어서, 상기 측정된 데이터의 분석은
    염기변환의 효율과 염기 변환으로 인한 단백질 돌연변이의 빈도가 기준에 상응하는 경우, 유효데이터로 분류하고 이를 분석하는 것인, 종양 돌연변이의 기능을 평가하기 위한 방법
  4. 청구항 3에 있어서, 상기 기준은
    1) 표적 서열 내 염기 변환의 효율이 60% 이상인 것; 및
    2) 의도된 단백질 변이의 빈도가 의도되지 않은 단백질 변이 빈도 대비 75% 이상인 것;
    인 것인 종양 돌연변이의 기능을 평가하기 위한 방법.
  5. 청구항 1에 있어서 돌연변이의 기능을 평가하는 단계는 각 돌연변이를 세포의 성장 변이(Proliferation) 또는 고갈(depletion) 변이로 분류하는 단계를 포함하는 것인 방법.
  6. 염기 변환 유전자 가위에 의한 염기 변환 효율 및 염기 변환을 통한 단백질 돌연변이의 빈도의 수준 데이터를 입력받는 정보 입력부;
    상기 정보 입력부에서 입력 받은 데이터를 이용하여 기준에 상응하는 경우, 유효데이터로 분류하는 데이터 분류부; 및
    상기 데이터 분류부를 통해 분류된 데이터를 분석하여 측정된 데이터를 분석하여 돌연변이의 기능을 평가하는 데이터 평가부를 포함하는, 종양 돌연변이 평가 시스템.
  7. 청구항 6에 있어서, 상기 염기 변환 유전자 가위는 사이토신 염기 변환 유전자가위(cytosine base editor:CBE) 및 아데닌 염기 변환 유전자가위(adenine base editor :ABE)인 것인, 종양 돌연변이의 기능을 평가하기 위한 종양 돌연변이 평가 시스템.
  8. 청구항 6에 있어서, 상기 기준은
    1) 표적 서열 내 염기 변환의 효율이 60% 이상인 것; 및
    2) 의도된 단백질 변이의 빈도가 의도되지 않은 단백질 변이 빈도 대비 75% 이상인 것;
    인 것인 종양 돌연변이 평가 시스템.
  9. 청구항 6에 있어서, 상기 염기 변환 유전자 가위에 의한 염기 변환 효율 및 염기 변환을 통한 단백질 돌연변이의 빈도의 수준 데이터는
    가이드 RNA를 암호화하는 뉴클레오티드 서열, 고유한 분자 식별자(unique molecular identifier :UMI) 뉴클레오티드 서열 및 상기 가이드 RNA가 목적하는 표적 뉴클레오티드 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리를 생성하는 단계;
    염기 변환 유전자 가위를 발현하는 세포에 상기 세포 라이브러리를 형질 도입하여 배양하는 단계; 및
    상기 형질 도입된 세포를 배양 후 수확하고 딥 시퀀싱을 수행하여 염기변환 효율 및 염기변환으로 인한 단백질 돌연변이의 빈도의 수준 데이터를 측정하는 단계를 수행하여 수득된 것인, 종양 돌연변이 평가 시스템.
  10. 청구항 1에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.

KR1020220064208A 2021-05-26 2022-05-25 염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템 KR20220159911A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US17/825,394 US20220392569A1 (en) 2021-05-26 2022-05-26 Method for evaluating the function of cancer mutations through base editor and evaluation system using the same

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20210067906 2021-05-26
KR1020210067906 2021-05-26

Publications (1)

Publication Number Publication Date
KR20220159911A true KR20220159911A (ko) 2022-12-05

Family

ID=84391925

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220064208A KR20220159911A (ko) 2021-05-26 2022-05-25 염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템

Country Status (1)

Country Link
KR (1) KR20220159911A (ko)

Similar Documents

Publication Publication Date Title
US20210340619A1 (en) Compositions and methods for accurately identifying mutations
CN115651927B (zh) 编辑rna的方法和组合物
Elling et al. A reversible haploid mouse embryonic stem cell biobank resource for functional genomics
Papapetrou et al. Genomic safe harbors permit high β-globin transgene expression in thalassemia induced pluripotent stem cells
Kim et al. High-throughput functional evaluation of human cancer-associated mutations using base editors
Graf et al. Pramel7 mediates ground-state pluripotency through proteasomal–epigenetic combined pathways
Yang et al. Novel impact of the DNMT3A R882H mutation on GSH metabolism in a K562 cell model established by TALENs
Mehta et al. Temporal resolution of gene derepression and proteome changes upon PROTAC-mediated degradation of BCL11A protein in erythroid cells
Nilsson et al. An induced pluripotent stem cell t (7; 12)(q36; p13) acute myeloid leukemia model shows high expression of MNX1 and a block in differentiation of the erythroid and megakaryocytic lineages
KR20220159911A (ko) 염기 변환 유전자 가위를 통한 종양 돌연변이의 기능을 평가하기 위한 방법 및 이를 이용한 평가 시스템
Zhang et al. Lineage-coupled clonal capture identifies clonal evolution mechanisms and vulnerabilities of BRAFV600E inhibition resistance in melanoma
US20240018513A1 (en) Synthetic introns for targeted gene expression
US20220392569A1 (en) Method for evaluating the function of cancer mutations through base editor and evaluation system using the same
Kim et al. Single cell CRISPR base editor engineering and transcriptional characterization of cancer mutations
Tasakis Collateral genomic damage due to aberrant RNA editing activity in cancer
CN117043330A (zh) 用于靶向的基因表达的合成内含子
Kim et al. Single cell CRISPR base editor engineering and transcriptional characterization of cancer
Frisbie Neurofibromin 2 (NF2) Is Necessary for Efficient Silencing of LINE-1 Retrotransposition Events in Human Embryonic Carcinoma Cells
Märken Gene editing of BTK using CRISPR/Cas9 to study drug resistance in acute myeloid leukaemia
Mockly et al. miR-34a is not a candidate tumor suppressor