KR102412631B1 - A system for predicting base-editing efficiency and outcome product frequencies of base editors - Google Patents

A system for predicting base-editing efficiency and outcome product frequencies of base editors Download PDF

Info

Publication number
KR102412631B1
KR102412631B1 KR1020200098119A KR20200098119A KR102412631B1 KR 102412631 B1 KR102412631 B1 KR 102412631B1 KR 1020200098119 A KR1020200098119 A KR 1020200098119A KR 20200098119 A KR20200098119 A KR 20200098119A KR 102412631 B1 KR102412631 B1 KR 102412631B1
Authority
KR
South Korea
Prior art keywords
correction
nucleotide
base
efficiency
gene scissors
Prior art date
Application number
KR1020200098119A
Other languages
Korean (ko)
Other versions
KR20210018131A (en
Inventor
김형범
송명재
김희권
이성태
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Publication of KR20210018131A publication Critical patent/KR20210018131A/en
Application granted granted Critical
Publication of KR102412631B1 publication Critical patent/KR102412631B1/en

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • C12N15/85Vectors or expression systems specially adapted for eukaryotic hosts for animal cells
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Abstract

본 발명은 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템, 및 상기 시스템을 이용하여 염기교정 유전자가위의 효율 및 결과를 예측하는 방법에 관한 것이다. 일 양상에 따른 예측 시스템을 사용하면, 유전자가위를 일일이 제작하여 검증할 필요 없이 간단한 방법으로 효율 및 정확성의 예측이 가능하여 안전한 교정이 가능한 유전자가위를 선별할 수 있다. 나아가, 병원성/유사병원성 인간 점돌연변이 질환 중 염기교정 유전자가위로 질환을 만들거나 교정할 수 있는 경우들의 효율 및 결과 빈도의 예측이 가능하여 염기교정 유전자가위의 대상 질환을 선별할 수 있다.The present invention relates to a system for predicting nucleotide correction efficiency and result of nucleotide editing, and a method for predicting the efficiency and result of nucleotide correction using the system. Using the prediction system according to one aspect, it is possible to predict the efficiency and accuracy in a simple way without the need to individually manufacture and verify the gene scissors, so that it is possible to select the gene scissors that can be safely edited. Furthermore, among pathogenic/pseudopathogenic human point mutation diseases, it is possible to predict the efficiency and frequency of results in cases in which a disease can be made or corrected by nucleotide editing, so that a target disease for nucleotide correction can be selected.

Description

염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템{A system for predicting base-editing efficiency and outcome product frequencies of base editors}A system for predicting base-editing efficiency and outcome product frequencies of base editors

본 발명은 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템, 및 상기 시스템을 이용하여 염기교정 유전자가위의 효율 및 결과를 예측하는 방법에 관한 것이다.The present invention relates to a system for predicting nucleotide correction efficiency and result of nucleotide editing, and a method for predicting the efficiency and result of nucleotide correction using the system.

점돌연변이는 인간에서 병원성(pathogenic) 또는 유사병원성(likely pathogenic) 돌연변이의 절반 이상을 차지하는 가장 일반적인 형태의 병원성 돌연변이나, 이 빈도는 짧은 판독 시퀀싱의(short-read sequencing) 광범위한 사용으로 인해 편향될 수 있다. 정상 세포 및 유기체에서 이러한 병원성 점돌연변이의 생성은 관련 질환 모델의 발달로 이어질 수 있다. 반대로, 돌연변이를 가진 세포 및 유기체에서 병원성 점돌연변이의 교정은 이러한 점돌연변이의 영향에 대한 연구에 동질유전자형(isogenic) 대조군을 제공할 수 있다. 또한, 이러한 병원성 점돌연변이의 교정은 관련 질환에 대한 치료적 모달리티(modality)가 될 수 있다. 병원성 점돌연변이의 생성 및 교정 모두에 있어서, 염기교정 유전자가위(base editors)는 이중가닥 절단(double-strand break)을 생성하거나 공여자 DNA 주형을 요구하지 않고 표적화된 방식으로 하나의 염기쌍을 다른 염기쌍으로 직접 전환할 수 있어 매우 매력적인 유전체(genome) 편집 도구이다. 아데닌 염기교정 유전자가위(Adenine base editors: ABEs)는 A, T 염기쌍을 G, C 염기쌍으로 전환할 수 있고, 시토신 염기교정 유전자가위(cytosine base editors: CBEs)는 G, C 염기쌍을 A, T 염기쌍으로 전환할 수 있다.Point mutations are the most common form of pathogenic mutation, accounting for more than half of pathogenic or likely pathogenic mutations in humans, but this frequency may be biased due to the widespread use of short-read sequencing. have. The generation of these pathogenic point mutations in normal cells and organisms can lead to the development of relevant disease models. Conversely, correction of pathogenic point mutations in cells and organisms with the mutation can provide an isogenic control for studies of the effects of these point mutations. In addition, correction of these pathogenic point mutations can be a therapeutic modality for related diseases. In both the creation and correction of pathogenic point mutations, base editors convert one base pair to another in a targeted manner without generating double-strand breaks or requiring a donor DNA template. Direct conversion makes it a very attractive genome editing tool. Adenine base editors (ABEs) can convert A and T base pairs to G and C base pairs, and cytosine base editors (CBEs) convert G and C base pairs to A, T base pairs. can be converted to

그러나, i) 염기 편집 효율이 낮고/낮거나 ii) 염기 편집의 결과로 원치 않는 동시 돌연변이(concurrent mutations)가 발생하는 경우, 특히 편집가능한 윈도우(editable window) - 즉 염기교정 범위에 다수의 표적 뉴클레오티드가 있는 경우, 이러한 염기교정 유전자가위로 유도된 질환 모델 및 병원성 돌연변이의 교정은 어려울 수 있다. 따라서, 염기 편집의 효율 및 결과는 종종 질환모델 생성 전이나 생성되는 동안, 병원성 돌연변이의 치료적 교정 도중 실험적으로 측정된다. 그러나, 이와 같은 실험적 평가는 단일가닥 가이드 RNA(single-guide RNA: sgRNA)의 제조, sgRNA와 함께 ABE 또는 CBE의 전달, 이들 성분을 함유하는 세포의 수확, 표적 서열의 PCR 증폭, 및 이어지는 시퀀싱을 포함하는 시간 소모적인 다단계 과정이다. 또한, 염기 편집을 효율적인 고-처리량 스크리닝(high-throughput screening)을 위한 도구로서 사용하려면 각각의 표적 시퀀스에서 염기 편집의 효율 및 결과를 알아야 한다. 그러나, 수천 개의 표적 서열이 연구되는 경우, 이와 같이 개별 부위 각각에서의 효율을 평가하는 기존의 평가 방법은 실용적인 접근법이라 할 수 없다. 또한, 환자로부터 유래된 세포가 관련 돌연변이를 포함하는 경우에는 이와 같은 평가를 실행할 수 없다. 즉, 염기교정 유전자가위가 만들 수 있는 다양한 염기 교정결과물들의 빈도를 예측하는 방법은 현재까지 전무하다.However, if i) base editing efficiency is low and/or ii) unwanted concurrent mutations occur as a result of base editing, an editable window - i.e. a large number of target nucleotides in the base editing range If there is, it may be difficult to correct a disease model and pathogenic mutation induced by such nucleotide-correction gene scissors. Therefore, the efficiency and outcome of base editing is often measured experimentally before or during disease model generation, during therapeutic correction of pathogenic mutations. However, this experimental evaluation involves the preparation of single-guide RNA (sgRNA), delivery of ABE or CBE with the sgRNA, harvesting of cells containing these components, PCR amplification of the target sequence, and subsequent sequencing. It is a time-consuming, multi-step process that involves In addition, in order to use base editing as a tool for efficient high-throughput screening, it is necessary to know the efficiency and result of base editing in each target sequence. However, when thousands of target sequences are studied, the conventional evaluation method for evaluating the efficiency at each individual site as described above is not a practical approach. Also, such an assessment cannot be carried out if the cells derived from the patient contain the relevant mutation. In other words, there is no way to predict the frequency of various nucleotide correction results that nucleotide correction gene scissors can make.

이에, 본 발명자들은 염기교정 유전자가위의 염기교정 효율과 위치별 염기 편집 빈도를 통해 교정결과를 예측할 수 있는 in silico 방법을 개발하고자 노력하였다. 그 결과, 아데닌 염기교정 유전자가위 및 시토신 염기교정 유전자가위에 대하여 각각 13,000여개 및 14,000여개의 표적 서열에서 이의 효율 및 교정결과 빈도 데이터를 생산하고, 염기교정 유전자가위의 효율에 유의한 영향을 미치는 표적 염기 주변의 서열 컨텍스트를 탐색하여, 상기 대규모 데이터에 근거한 딥러닝(Deep learning) 방법을 통해 염기교정 유전자가위의 효율과 정확성을 동시에 예측할 수 있는 시스템을 개발하고, 나아가 인간 점돌연변이 질환에 대한 염기교정 유전자가위의 효율을 예측하여 염기교정 유전자가위로 만들 수 있는 질환 및 교정가능한 질환을 선별할 수 있음을 확인하여 본 발명을 완성하였다.Accordingly, the present inventors have tried to develop an in silico method that can predict the correction result through the nucleotide correction efficiency of nucleotide correction gene scissors and the nucleotide editing frequency for each position. As a result, the efficiency and frequency data of the correction result were produced in about 13,000 and 14,000 target sequences, respectively, for adenine nucleotide editing and cytosine nucleotide correction, respectively, and a target that significantly affects the efficiency of nucleotide correction By exploring the sequence context around the base, we develop a system that can simultaneously predict the efficiency and accuracy of base-correction gene scissors through the deep learning method based on the large-scale data, and furthermore, base correction for human point mutation diseases By predicting the efficiency of gene scissors, the present invention was completed by confirming that diseases that can be made with base-correction gene scissors and diseases that can be corrected can be selected.

일 양상은 the work aspect

염기교정 유전자가위의 표적 서열을 입력 받는 표적 서열 입력부; 및a target sequence input unit for receiving a target sequence of the base editing gene scissors; and

상기 표적 서열 입력부에서 입력 받은 표적 서열을 효율 예측 모델 및 교정결과 예측 모델에 각각 적용하여 염기교정 유전자가위의 효율 및 교정결과 스코어를 획득하고, 상기 효율 스코어와 교정결과 스코어를 곱하여 염기교정 유전자가위의 효율 및 결과를 동시에 예측하는 결과 예측부를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템을 제공하는 것이다. By applying the target sequence input from the target sequence input unit to the efficiency prediction model and the correction result prediction model, respectively, the efficiency and correction result score of the nucleotide correction gene scissors are obtained, and the efficiency score and the correction result score are multiplied by the nucleotide correction gene scissors. An object of the present invention is to provide a nucleotide correction efficiency and result prediction system for nucleotide correction gene scissors including a result prediction unit that simultaneously predicts the efficiency and the result.

다른 양상은 the other aspect

염기교정 유전자가위의 표적 서열을 설계하는 단계; 및designing a target sequence of the base editing gene scissors; and

상기 설계된 표적 서열을 일 양상에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계; 를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 방법을 제공하는 것이다.applying the designed target sequence to the base correction efficiency and result prediction system according to an aspect; It is to provide a method for predicting the nucleotide correction efficiency and result of nucleotide correction gene scissors including a.

또 다른 양상은 Another aspect is

인간 점돌연변이 데이터를 수득하는 단계; obtaining human point mutation data;

상기 인간 점돌연변이 데이터로부터 점돌연변이가 정상 염기 아데닌(A)이 비정상 염기 구아닌(G)으로 바뀌어 발생하는 경우; 정상 염기 구아닌(G)이 비정상 염기 아데닌(A)으로 바뀌어 발생하는 경우; 정상 염기 시토신(C)이 비정상 염기 티민T)으로 바뀌어 발생하는 경우; 또는 정상 염기 티민(T)이 비정상 염기 시토신(C)으로 바뀌어 발생하는 경우에 해당하는 데이터를 1차로 선별하는 단계;When the point mutation occurs from the human point mutation data, the normal base adenine (A) is changed to the abnormal base guanine (G); When the normal base guanine (G) is replaced with the abnormal base adenine (A); When the normal base cytosine (C) is replaced with the abnormal base thymine T); or first selecting data corresponding to a case in which the normal base thymine (T) is changed to the abnormal base cytosine (C);

상기 1차로 선별된 데이터 중에서 점돌연변이가 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치에 존재하는 데이터를 2차로 선별하는 단계;Secondarily selecting data in which a point mutation exists at a position 3 to 10 bp from the 5' end of the protospacer region from among the firstly selected data;

상기 2차로 선별된 데이터 중에서 병원성 또는 유사병원성 점돌연변이에 해당하는 데이터를 3차로 선별하는 단계; 및thirdly selecting data corresponding to pathogenic or pseudopathogenic point mutations from among the secondarily selected data; and

상기 3차로 선별된 데이터를 일 양상에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계를 포함하는 염기교정 유전자가위를 사용할 수 있는 인간 점돌연변이 관련 질환에 대한 정보를 제공하는 방법을 제공하는 것이다.It is to provide a method of providing information on human point mutation-related diseases that can use nucleotide correction gene scissors, including applying the tertiary selected data to a nucleotide correction efficiency and result prediction system according to an aspect.

또 다른 양상은 상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공하는 것이다.Another aspect is to provide a computer-readable recording medium in which a program for executing the method by a computer is recorded.

또 다른 양상은 Another aspect is

염기교정 유전자가위를 세포에 도입하는 단계; 를 포함하는 세포의 유전체에서 표적 뉴클레오티드를 편집하는 방법으로서,introducing base-correcting gene scissors into cells; A method of editing a target nucleotide in the genome of a cell comprising:

상기 염기교정 유전자가위는 (i) RNA-가이드 뉴클레아제 또는 이를 코딩하는 유전자, (ii) 탈아미노효소 또는 이를 코딩하는 유전자, 및 (iii) 표적 서열과 혼성화 할 수 있는 가이드 RNA 또는 이를 코딩하는 유전자를 포함하고,The base editing gene is (i) an RNA-guided nuclease or a gene encoding the same, (ii) a deaminase or a gene encoding the same, and (iii) a guide RNA capable of hybridizing with a target sequence or a guide RNA encoding the same contains a gene;

상기 표적 서열은 PAM 서열, 프로토스페이서 서열, 및 가이드 RNA에 상보적인 서열을 포함하고,wherein the target sequence comprises a PAM sequence, a protospacer sequence, and a sequence complementary to a guide RNA,

상기 가이드 RNA에 상보적인 서열은 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5'-GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA-3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5'-GCG-3', 및 5'-GCA-3'으로 이루어진 군으로부터 선택되는 서열을 포함하고,The sequence complementary to the guide RNA is 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5' -GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA -3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3 ', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5' -GCG-3', and 5'-GCA-3' comprising a sequence selected from the group consisting of,

상기 탈아미노효소는 표적 서열에서 아데닌 또는 시토신을 탈아미노화하는 것을 특징으로 하는 세포의 유전체에서 표적 뉴클레오티드를 편집하는 방법을 제공하는 것이다.The deaminase is to provide a method for editing a target nucleotide in the genome of a cell, characterized in that the deamination of adenine or cytosine in the target sequence.

또 다른 양상은 Another aspect is

염기교정 유전자가위를 포함하는 인간 점돌연변이 관련 질환의 예방 또는 치료용 약학적 조성물로서,As a pharmaceutical composition for the prevention or treatment of human point mutation-related diseases comprising base-correcting gene scissors,

상기 염기교정 유전자가위는 (i) RNA-가이드 뉴클레아제 또는 이를 코딩하는 유전자, (ii) 탈아미노효소 또는 이를 코딩하는 유전자, 및 (iii) 표적 서열과 혼성화 할 수 있는 가이드 RNA 또는 이를 코딩하는 유전자를 포함하고,The base editing gene is (i) an RNA-guided nuclease or a gene encoding the same, (ii) a deaminase or a gene encoding the same, and (iii) a guide RNA capable of hybridizing with a target sequence or a guide RNA encoding the same contains a gene;

상기 표적 서열은 PAM 서열, 프로토스페이서 서열, 및 가이드 RNA에 상보적인 서열을 포함하고,wherein the target sequence comprises a PAM sequence, a protospacer sequence, and a sequence complementary to a guide RNA,

상기 가이드 RNA에 상보적인 서열은 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5'-GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA-3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5'-GCG-3', 및 5'-GCA-3'으로 이루어진 군으로부터 선택되는 서열을 포함하고,The sequence complementary to the guide RNA is 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5' -GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA -3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3 ', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5' -GCG-3', and 5'-GCA-3' comprising a sequence selected from the group consisting of,

상기 탈아미노효소는 표적 서열에서 아데닌 또는 시토신을 탈아미노화하는 것을 특징으로 하는 인간 점돌연변이 관련 질환의 예방 또는 치료용 약학적 조성물을 제공하는 것이다. The deaminase is to provide a pharmaceutical composition for preventing or treating a human point mutation-related disease, characterized in that the deamination of adenine or cytosine in the target sequence.

본 출원의 다른 목적 및 이점은 첨부한 청구범위 및 도면과 함께 하기의 상세한 설명에 의해 보다 명확해질 것이다. 본 명세서에 기재되지 않은 내용은 본 출원의 기술 분야 또는 유사한 기술 분야 내 숙련된 자이면 충분히 인식하고 유추할 수 있는 것이므로 그 설명을 생략한다.Other objects and advantages of the present application will become more apparent from the following detailed description in conjunction with the appended claims and drawings. Content not described in this specification will be omitted because it can be sufficiently recognized and inferred by those skilled in the technical field or similar technical field of the present application.

본 출원에서 개시된 각각의 설명 및 실시형태는 각각의 다른 설명 및 실시형태에도 적용될 수 있다. 즉, 본 출원에서 개시된 다양한 요소들의 모든 조합이 본 출원의 범주에 속한다. 또한, 하기 기술된 구체적인 서술에 의하여 본 출원의 범주가 제한된다고 볼 수 없다.Each description and embodiment disclosed in this application is also applicable to each other description and embodiment. That is, all combinations of the various elements disclosed in the present application fall within the scope of the present application. In addition, it cannot be seen that the scope of the present application is limited by the detailed description described below.

일 양상은 the work aspect

염기교정 유전자가위의 표적 서열을 입력 받는 표적 서열 입력부; 및a target sequence input unit for receiving a target sequence of the base editing gene scissors; and

상기 표적 서열 입력부에서 입력 받은 표적 서열을 효율 예측 모델 및 교정결과 예측 모델에 각각 적용하여 염기교정 유전자가위의 효율 및 교정결과 스코어를 획득하고, 상기 효율 스코어와 교정결과 스코어를 곱하여 염기교정 유전자가위의 효율 및 결과를 동시에 예측하는 결과 예측부를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템을 제공한다.By applying the target sequence input from the target sequence input unit to the efficiency prediction model and the correction result prediction model, respectively, the efficiency and correction result score of the nucleotide correction gene scissors are obtained, and the efficiency score and the correction result score are multiplied by the nucleotide correction gene scissors. To provide a system for predicting nucleotide correction efficiency and result of nucleotide correction gene scissors including a result prediction unit for simultaneously predicting efficiency and result.

본원에서, 용어 "염기교정 유전자가위(Base editor)"는 4세대 유전자가위 기술이라고 불리는 크리스퍼 유전자가위에서 유래된 새로운 타입의 유전자 가위이다. 염기교정 유전자가위는 DNA 두 가닥 모두를 자르는 기존 3세대 유전자가위와 다르게, 단일 염기를 교체하는 방식으로 작동한다. 염기교정 유전자가위는 DNA 한쪽 가닥을 자르는 Nickase Cas9(nCas9)와 아데닌 또는 시토신을 분해하는 탈아미노효소로 구성되어 있으며, 구체적으로 CRISPR/Cas9의 이중가닥 DNA 절단기능을 제거한 dCas9("dead" Cas9) 또는 nCas9에 아데닌 탈아미노효소(Adenine deaminase)를 결합하여 아데닌(A)을 구아닌(G)으로 교체할 수 있는 아데닌 염기교정 유전자가위(Adenine Base Editor: ABE)와 시토신 탈아미노효소(cytosine deaminase)를 결합하여 DNA 서열 중 시토신(C)만 찾아 티민(T)으로 교체할 수 있는 시토신 염기교정 유전자가위(Cytosine Base Editor: CBE)가 있다. 예를 들어, CBE의 경우 nCas9 또는 dCas9로 잘려진 DNA 한 가닥에서 탈아미노효소가 시토신(C)을 우라실(U)로 교체하면, 우라실(U)로 바뀐 염기는 DNA 복구 과정에 의해 티민(T)이 되는 원리로 작동한다. 염기교정 유전자가위를 이용하면 특정 서열을 교정하거나 교체하여 유전자를 결손시키거나 원하는 형질로 전환할 수 있다.As used herein, the term "base editor" is a new type of gene scissors derived from the CRISPR gene editing technique called the fourth-generation gene editing technique. Unlike the existing third-generation gene scissors that cut both strands of DNA, the base-correcting gene scissors works by replacing a single base. The base editing gene scissors consists of Nickase Cas9 (nCas9) that cuts one strand of DNA and a deaminase that breaks down adenine or cytosine. Specifically, dCas9 (“dead” Cas9) that removes the double-stranded DNA cutting function of CRISPR/Cas9 Alternatively, adenine base editor (ABE) and cytosine deaminase that can replace adenine (A) with guanine (G) by binding adenine deaminase to nCas9 There is Cytosine Base Editor (CBE), which can be combined to find only cytosine (C) in the DNA sequence and replace it with thymine (T). For example, in the case of CBE, when deaminase replaces cytosine (C) with uracil (U) in one strand of DNA cut with nCas9 or dCas9, the base changed to uracil (U) is converted to thymine (T) by the DNA repair process. It works on this principle. Using base-correcting gene scissors, a gene can be deleted or transformed into a desired trait by correcting or replacing a specific sequence.

본 발명자들은 고-처리량(high-throughput) 실험을 통해 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치(20 bp 위치는 PAM 서열(5'-NGG'-3')의 바로 상류에 자리함)에서 적어도 하나의 표적 아데닌을 포함하는 13,504개, 적어도 하나의 표적 시토신을 포함하는 14,157개의 표적 서열에 대해 염기교정 유전자가위의 활성 확인 및 염기 교정결과에 대한 대규모 데이터를 확보하고, 컨볼루션 신경망을 사용한 딥러닝으로 구축한 효율 예측 모델 및 교정결과 예측 모델의 2가지 모델을 결합하여 염기교정 효율 및 염기교정 유전자가위가 만들 수 있는 모든 염기 편집 결과물들에 대한 예측 수행이 가능한 DeepABE 및 DeepCBE 예측 시스템을 개발하고(DeepBaseEditor), 상기 예측 시스템의 정확성 검증을 통해 염기교정 유전자가위의 효율 및 교정결과를 동시에 예측할 수 있음을 확인하였다.From the 5' end of the protospacer region, 3 to 10 bp positions (20 bp positions are located immediately upstream of the PAM sequence (5'-NGG'-3') through high-throughput experiments. ), secure large-scale data on the activity confirmation and nucleotide correction results of nucleotide editing for 13,504 target sequences containing at least one target adenine and 14,157 target sequences containing at least one target cytosine, and construct a convolutional neural network By combining two models, the efficiency prediction model and the correction result prediction model built with deep learning used, the DeepABE and DeepCBE prediction system that can predict the nucleotide correction efficiency and all nucleotide editing results that nucleotide correction gene scissors can make. It was developed (DeepBaseEditor), and it was confirmed that the efficiency of the base editing gene scissors and the correction result could be predicted at the same time by verifying the accuracy of the prediction system.

본 발명자들은 상기 구축된 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템이 전통적인 기계 학습(machine learning) 기반 알고리즘에 비해 우수한 성능을 가지는 것을 확인하였다.The present inventors confirmed that the nucleotide correction efficiency and result prediction system of the constructed nucleotide correction gene scissors has superior performance compared to the traditional machine learning-based algorithm.

본원에서 용어, "가이드 RNA (guide RNA)"는 표적 DNA 특이적인 RNA를 의미하며, 표적 서열과 전부 또는 일부 상보적으로 결합하여 염기교정 유전자가위의 아데닌 탈아미노효소 또는 시토신 탈아미노효소가 표적 서열 중 각각 아데닌(A)을 찾아 구아닌(G)으로, 시토신(C)을 찾아 티민(T)으로 교체할 수 있다. As used herein, the term "guide RNA (guide RNA)" refers to a target DNA-specific RNA, and all or part complementarily binds to the target sequence so that the adenine deaminase or cytosine deaminase of the base editing gene scissors is the target sequence In each of them, adenine (A) can be found and replaced with guanine (G), and cytosine (C) can be found and replaced with thymine (T).

통상적으로 가이드 RNA는 두 개의 RNA, 즉, crRNA (CRISPR RNA) 및 tracrRNA (trans-activating crRNA)를 구성요소로 포함하는 이중 RNA (dual RNA); 또는 표적 DNA 내 서열과 전부 또는 일부 상보적인 서열을 포함하는 제1부위 및 RNA-가이드 뉴클레아제와 상호작용하는 서열을 포함하는 제2 부위를 포함하는 형태를 말하나, 염기교정 유전자가위의 RNA-가이드 뉴클레아제가 표적 서열에서 활성을 가질 수 있는 형태라면 제한 없이 본 발명의 범위에 포함될 수 있다. Typically, the guide RNA comprises two RNAs, i.e., a crRNA (CRISPR RNA) and a tracrRNA (trans-activating crRNA) as a component; a dual RNA; Or it refers to a form comprising a first site comprising a sequence that is completely or partially complementary to a sequence in the target DNA and a second site comprising a sequence that interacts with an RNA-guided nuclease, but RNA- The guide nuclease may be included in the scope of the present invention without limitation as long as it has a form capable of having activity in the target sequence.

또한, 상기 가이드 RNA는 RNA-가이드 뉴클레아제가 부착되는 것을 돕는 스캐폴드(scaffold) 서열을 포함할 수 있다. In addition, the guide RNA may include a scaffold sequence that helps the RNA-guided nuclease to be attached.

본원에서 용어, "표적 서열" 또는 "타겟 서열"은 염기교정 유전자가위가 표적으로 할 것으로 예상되는 염기서열을 의미한다. 구체적으로, 염기교정 유전자가위가 가이드 RNA를 통해 표적으로 할 것으로 예상되는 서열로서, 염기교정 유전자가위가 활성을 나타내는 것으로 알려진 서열일 수 있고, 또는 본 발명의 시스템을 이용하는 당업자가 분석하고자 하는 서열을 임의로 설계한 서열일 수도 있으나, 염기교정 유전자가위가 활성을 갖거나, 또는 가질 것으로 예상되어 분석하고자 하는 서열이라면, 본 발명의 범주에 제한 없이 포함될 수 있다.As used herein, the term “target sequence” or “target sequence” refers to a nucleotide sequence expected to be targeted by the nucleotide-correcting gene scissors. Specifically, as a sequence that is expected to be targeted by the editing gene through the guide RNA, it may be a sequence known to exhibit activity, or a sequence to be analyzed by those skilled in the art using the system of the present invention. It may be an arbitrarily designed sequence, but any sequence to be analyzed because it has or is expected to have an activity of nucleotide editing may be included without limitation in the scope of the present invention.

본원에서, 염기교정 유전자가위의 활성 데이터는, 가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 염기교정 유전자가위를 도입함으로써 수득될 수 있으나, 이에 제한되지 않는다.Herein, the activity data of the base editing gene scissors can be obtained by introducing the base editing gene scissors into a cell library including an oligonucleotide including a nucleotide sequence encoding a guide RNA and a target sequence desired by the guide RNA. , but not limited thereto.

본원에서, 용어 "RNA-가이드 뉴클레아제"는 목적하는 유전체 상의 특정 위치를 인식하여 절단할 수 있는 뉴클레아제로서, 특히 가이드 RNA에 의해 표적 특이성을 갖는 뉴클레아제를 말한다. 상기 RNA-가이드 뉴클레아제는 이에 제한되는 것은 아니나, Cas9 (CRISPR-Associated Protein 9) 및 Cpf1 등이 포함될 수 있다.As used herein, the term "RNA-guided nuclease" refers to a nuclease capable of recognizing and cleaving a specific position on a desired genome, particularly a nuclease having target specificity by a guide RNA. The RNA-guided nuclease may include, but is not limited to, Cas9 (CRISPR-Associated Protein 9) and Cpf1.

본원에서, "Cas9 단백질"은 CRISPR/Cas9 시스템의 주요 단백질 구성 요소로, crRNA(CRISPR RNA) 및 tracrRNA(trans-activating crRNA)와 복합체를 형성하여 활성화된 엔도뉴클레아제(endonuclease) 또는 니카아제(nickase)를 형성한다.As used herein, "Cas9 protein" is a major protein component of the CRISPR/Cas9 system, and forms a complex with crRNA (CRISPR RNA) and tracrRNA (trans-activating crRNA) to form an activated endonuclease or nickase ( nickase) is formed.

Cas9 단백질 또는 유전자 정보는 NCBI(National Center for Biotechnology Information)의 GenBank와 같은 공지의 데이터 베이스에서 얻을 수 있으나, 가이드 RNA와 함께 표적 특이적 뉴클레아제 활성을 가질 수 있는 것이라면 모두 본 발명의 범위에 포함될 수 있다. 또한, Cas9 단백질은 단백질 전달 도메인(protein transduction domain)과 연결될 수 있다. 상기 단백질 전달 도메인은 폴리아르기닌 또는 HIV 유래의 TAT 단백질일 수 있으나, 이에 제한되지 않는다. 나아가, 상기 Cas9 단백질은 그 목적에 따라 당업자에 의해 추가적인 도메인이 적절하게 연결될 수 있다. Cas9 protein or gene information can be obtained from a known database such as GenBank of the National Center for Biotechnology Information (NCBI), but any one capable of having target-specific nuclease activity together with guide RNA is included in the scope of the present invention. can In addition, the Cas9 protein may be linked to a protein transduction domain. The protein transduction domain may be polyarginine or HIV-derived TAT protein, but is not limited thereto. Furthermore, according to the purpose of the Cas9 protein, an additional domain may be appropriately linked by a person skilled in the art.

상기 Cas9 단백질은 야생형 Cas9 뿐만 아니라, 불활성화된 Cas9 (dCas9), 또는 Cas9 니케이즈(nickase)와 같은 Cas9의 변이체를 모두 포함할 수 있다. 상기 불활성화된 Cas9은 dCas9에 FokI 뉴클레아제 도메인을 연결한 RFN (RNA-guided FokI Nuclease), 또는 dCas9에 전사활성인자 (transcription activator) 또는 억제자 도메인 (repressor domain)을 연결한 것일 수 있고, 상기 Cas9 니케이즈는 D10A Cas9 또는 H840A Cas9일 수 있으나, 이에 제한되는 것은 아니다.The Cas9 protein may include not only wild-type Cas9, but also inactivated Cas9 (dCas9), or a variant of Cas9 such as Cas9 nickase. The inactivated Cas9 may be an RNA-guided FokI nuclease (RFN) linking a FokI nuclease domain to dCas9, or a transcription activator or repressor domain linking a dCas9 to dCas9, The Cas9 kinase may be D10A Cas9 or H840A Cas9, but is not limited thereto.

상기 Cas9 단백질은 그 유래에도 제한되지 않는다. 예컨대 상기 Cas9 단백질은 스트렙토코커스 피요제네스 (Streptococcus pyogenes), 프란시셀라 노비시다 (Francisella novicida), 스트렙토코커스 써모필러스 (Streptococcus thermophilus), 레지오넬라 뉴모필라 (Legionella pneumophila), 리스테리아 이노큐아 (Listeria innocua), 또는 스트렙토코커스 뮤탄스 (Streptococcus mutans) 유래일 수 있다.The Cas9 protein is not limited to its origin. For example, the Cas9 protein may include Streptococcus pyogenes, Francisella novicida, Streptococcus thermophilus, Legionella pneumophila, Listeria innocua). Or Streptococcus mutans (Streptococcus mutans) may be derived.

본원에서는 Cas9을 바이러스 벡터에서 발현시키기 위해 Cas9의 일부를 발현할 수 있는 벡터를 제작하였다. 즉, Cas9 단백질을 바이러스 벡터에서 패키징이 가능한 크기로 나누어 각각의 벡터에서 발현시키고자 하였다. 상기와 같은 방식으로 제작된 Cas9 단백질을 split-Cas9이라 하며, split-Cas9은 기존에 크기가 커서 바이러스 벡터 등을 통해 패키징 되지 않던 Cas9 단백질을 패키징 가능한 크기로 나누어서 이들 각각을 벡터를 통해 발현시키더라도 세포 내에서 그 기능을 잃지 않음을 특징으로 한다.Herein, in order to express Cas9 in a viral vector, a vector capable of expressing a part of Cas9 was constructed. That is, the Cas9 protein was divided into sizes capable of packaging in a viral vector and expressed in each vector. The Cas9 protein produced in the above manner is called split-Cas9, and split-Cas9 divides the Cas9 protein, which has not been packaged through a viral vector, etc., due to its large size, into packagingable sizes and expresses each of them through a vector. It is characterized in that it does not lose its function in the cell.

본원에서 Cas9 단백질은 바람직하게는 dCas9, nCas9 및 SpCas9으로 이루어진 군으로부터 선택된 어느 하나일 수 있다. 일 구체예에서는 인테인(intein)-매개된 split-Cas9-기반의 ABE 및 CBE를 사용하였다. Cas9 protein herein may preferably be any one selected from the group consisting of dCas9, nCas9 and SpCas9. In one embodiment, intein-mediated split-Cas9-based ABE and CBE were used.

일 구체예에서, 상기 효율 예측 모델은In one embodiment, the efficiency prediction model is

염기교정 유전자가위의 활성 데이터를 정보 입력부를 통해 입력 받는 단계; 및receiving activity data of base-correcting gene scissors through an information input unit; and

상기 정보 입력부에서 입력 받은 데이터를 이용하여 컨볼루션 신경망(convolutional neural network: CNN)을 기반으로 한 딥러닝을 수행하여 효율 예측 모델을 생성하는 단계를 통해 생성되는 것일 수 있다. It may be generated through the step of generating an efficiency prediction model by performing deep learning based on a convolutional neural network (CNN) using the data received from the information input unit.

일 구체예에서, 상기 교정결과 예측 모델은In one embodiment, the calibration result prediction model is

염기교정 유전자가위의 교정결과 데이터를 입력 받는 정보 입력부를 통해 입력 받는 단계; 및Receiving an input through an information input unit for receiving correction result data of the base correction gene scissors; and

상기 정보 입력부에서 입력 받은 데이터를 이용하여 컨볼루션 신경망(convolutional neural network: CNN)을 기반으로 한 딥러닝을 수행하여 교정결과 예측 모델을 생성하는 단계를 통해 생성되는 것일 수 있다. It may be generated through the step of performing deep learning based on a convolutional neural network (CNN) using the data input from the information input unit to generate a correction result prediction model.

본원에서 용어, 염기교정 유전자가위의 "활성"은 염기교정 유전자가위에 의해 단일 염기가 교체되는 활성, 즉 표적 서열에서 RNA-가이드 뉴클레아제, 구체적으로 Cas9이 유전자를 절단하고, 탈아미노효소가 아데닌(A)을 구아닌(G)으로, 또는 시토신(C)을 티민(T)으로 전환하는 활성을 의미한다. 본원에서 용어, "활성 데이터"는 특정 표적 서열과 상기 염기교정 유전자가위의 관계를 추출 및 학습할 수 있는 데이터에 해당하며, 본 발명의 시스템은 상기 활성 데이터를 이용하여 효율 예측 모델을 생성할 수 있다. As used herein, the term "activity" of nucleotide editing is an activity in which a single base is replaced by nucleotide editing, that is, an RNA-guided nuclease, specifically Cas9, cleaves a gene in a target sequence, and a deaminase It refers to the activity of converting adenine (A) to guanine (G) or cytosine (C) to thymine (T). As used herein, the term "activity data" corresponds to data that can extract and learn the relationship between a specific target sequence and the base-correcting gene scissors, and the system of the present invention can generate an efficiency prediction model using the activity data. have.

구체적으로, 상기 염기교정 유전자가위의 활성 데이터는 표적 서열의 염기를 서열 분석하여 얻을 수 있다. 예컨대, 딥 시퀀싱 (deep sequencing), 또는 RNAseq을 수행하여 이에 따른 데이터를 수득할 수 있으나, 편집된 염기의 검출을 통한 염기교정 유전자가위의 활성 데이터를 얻을 수 있다면, 특정 방법에 제한되지 않는다.Specifically, the activity data of the base-correcting gene scissors can be obtained by sequencing the bases of the target sequence. For example, data may be obtained by performing deep sequencing or RNAseq, but as long as activity data of base-correcting gene scissors can be obtained through detection of an edited base, it is not limited to a specific method.

염기교정 유전자가위가 표적 서열에서 나타내는 활성을 나타낼 수 있다면, 데이터의 형태, 종류, 크기 등은 제한되지 않는다. The form, type, size, etc. of data are not limited as long as the base-editing gene scissors can exhibit the activity shown in the target sequence.

염기교정 유전자가위의 활성 데이터는 기존의 공지된 활성 데이터일 수도 있고, 또는, 당업자가 적절히 채택할 수 있는 임의의 방법으로 직접 수득한 활성 데이터일 수 있으며, 본 발명의 목적상, 염기교정 유전자가위의 활성을 예측할 수 있는 활성 예측 모델을 생성할 수 있는 데이터라면, 데이터가 수득되는 방법은 제한되지 않는다.The activity data of the base editing gene scissors may be existing known activity data, or may be activity data directly obtained by any method that can be appropriately adopted by those skilled in the art. For the purposes of the present invention, the base editing gene scissors activity data The method by which the data is obtained is not limited, as long as it is data capable of generating an activity prediction model capable of predicting the activity of

일 구체예에 있어서, 상기 염기교정 유전자가위의 활성 데이터는 염기교정 유전자가위가 목적하는 표적 뉴클레오티드 주변의 서열 컨텍스트(context)가 고려된 것일 수 있다. In one embodiment, the activity data of the base editing gene scissors may be in consideration of the sequence context around the target nucleotide of the base editing gene scissors target.

본원에서 용어, "서열 컨텍스트(context)"란 염기교정 유전자가위가 목적하는 표적 뉴클레오티드 주변의 서열 정보를 의미한다. As used herein, the term “sequence context” refers to sequence information around a target nucleotide for which base editing is to be performed.

일 구체예에 있어서, 상기 염기교정 유전자가위의 활성 데이터는In one embodiment, the activity data of the base editing gene is

가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 염기교정 유전자가위를 도입하는 단계;introducing nucleotide-correcting gene scissors into a cell library comprising a nucleotide sequence encoding a guide RNA and an oligonucleotide comprising a target sequence desired by the guide RNA;

상기 염기교정 유전자가위가 도입된 세포 라이브러리로부터 분리한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및performing deep sequencing using the DNA isolated from the cell library into which the base correction gene scissors have been introduced; and

상기 딥 시퀀싱으로부터 수득한 서열 데이터로부터 염기교정 범위 내 표적 뉴클레오티드 전환 여부를 검출하는 단계를 통해 수득할 수 있다.It can be obtained through the step of detecting whether the target nucleotide is converted within the base correction range from the sequence data obtained from the deep sequencing.

본원에서 용어, "염기교정 범위" 또는 "편집가능한 윈도우(editable window)"는 타겟 서열에서의 염기교정 유전자가위가 활성을 나타내는 염기교정 범위를 의미한다. 일 구체예에서, 상기 "염기교정 범위"는 가이드 RNA가 표적하는 프로토스페이서 내 20개의 위치 중 5'에서 3' 방향으로 위치 3 내지 10 bp 사이의 범위를 의미하며, 이를 넓은 편집가능한 윈도우라고 지칭한다. 일 구체예에서, 좁은 편집가능한 윈도우의 경우, 가이드 RNA가 표적하는 프로토스페이서 내 20개의 위치 중 5'에서 3' 방향으로 위치 4 내지 8 bp 사이의 범위를 의미한다. As used herein, the term "base correction range" or "editable window" refers to a nucleotide correction range in which nucleotide editing in a target sequence exhibits activity. In one embodiment, the "base correction range" means a range between positions 3 and 10 bp in the 5' to 3' direction among 20 positions in the protospacer targeted by the guide RNA, which is referred to as a wide editable window. do. In one embodiment, in the case of a narrow editable window, it means a range between positions 4 and 8 bp in the 5' to 3' direction out of 20 positions in the protospacer that the guide RNA targets.

본원에서 용어, 염기교정 유전자가위의 "교정결과"또는 "편집 결과"는 타겟 서열에 대한 염기교정 유전자가위 활성의 결과로 만들어지는 편집 산물(product)을 의미한다. 한편, 염기교정 범위(편집가능한 윈도우) 내에 편집가능한 타겟 뉴클레오티드가 다수 개 존재하는 경우 원하지 않는 염기가 편집될 수 있으며, 본원에서 용어, "교정결과 빈도" 또는 "염기 편집 빈도" 또는 "편집 결과 빈도"는 염기교정 유전자가위의 활성의 결과 만들어지는 각 결과물의 빈도를 의미한다. 인간 점돌연변이 관련 질환 가운데 상당수는 염기교정 범위 내에 동일 염기가 다수 개 자리하고 있어, 염기교정 유전자가위를 안전하게 사용하기 위해서는 위치별 편집 빈도를 미리 예측하는 것이 중요하다.As used herein, the term "correction result" or "editing result" of nucleotide editing refers to an editing product made as a result of nucleotide editing activity for a target sequence. On the other hand, if there are a plurality of editable target nucleotides within the base editing range (editable window), undesired bases may be edited. " means the frequency of each product produced as a result of the activity of base-correcting gene scissors. Many of the human point mutation-related diseases have multiple identical bases within the range of base editing, so it is important to predict the editing frequency for each location in advance to safely use base editing scissors.

일 구체예에 있어서, 상기 염기교정 유전자가위의 교정결과 데이터는In one embodiment, the data of the correction result of the base correction gene scissors is

가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 염기교정 유전자가위를 도입하는 단계;introducing nucleotide-correcting gene scissors into a cell library comprising a nucleotide sequence encoding a guide RNA and an oligonucleotide comprising a target sequence desired by the guide RNA;

상기 염기교정 유전자가위가 도입된 세포 라이브러리로부터 분리한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; performing deep sequencing using the DNA isolated from the cell library into which the base correction gene scissors have been introduced;

상기 딥 시퀀싱으로부터 수득한 서열 데이터로부터 염기교정 범위 내 표적 뉴클리오티드 전환 빈도를 검출하는 단계를 통해 수득될 수 있다. It can be obtained through the step of detecting the target nucleotide conversion frequency within the range of base correction from the sequence data obtained from the deep sequencing.

상기 염기교정 유전자가위의 교정결과 데이터는 기존의 공지된 데이터일 수도 있고, 또는, 당업자가 적절히 채택할 수 있는 임의의 방법으로 직접 수득한 활성 데이터일 수 있으며, 본 발명의 목적상, 염기교정 유전자가위의 교정결과를 예측할 수 있는 교정결과 예측 모델을 생성할 수 있는 데이터라면, 데이터가 수득되는 방법은 제한되지 않는다.The calibration result data of the base editing gene scissors may be known data, or may be activity data directly obtained by any method that can be appropriately adopted by those skilled in the art. For the purpose of the present invention, the base editing gene The method by which the data is obtained is not limited as long as it is data capable of generating a correction result prediction model capable of predicting the correction result of scissors.

본원에서 효율 예측 모델 및 교정결과 예측 모델 각각은, 염기교정 유전자가위의 활성 데이터 또는 교정결과 데이터가 저장된 공지된 데이터베이스를 이용하고, 상기 데이터베이스로부터 입력 받은 대규모 데이터를 이용하여 딥러닝 기술을 통해 생성될 수 있다. 즉, 염기교정 유전자가위의 활성 데이터 또는 교정결과 데이터는 직접 측정하여 수득한 것 외에, 공지된 데이터베이스, 문헌 등에서 수득하거나, 상기 데이터베이스 또는 문헌으로부터 수득한 데이터를 2차로 가공하여 수득할 수 있으며, 표적 서열과 염기편집 효율 또는 염기편집 빈도 간의 관계를 추출하고, 상기 추출된 특징을 조합하여 임의의 표적 서열에 대한 염기교정 유전자가위의 효율 및 편집결과를 예측할 수 있는 데이터라면 제한 없이 사용할 수 있다. In the present application, each of the efficiency prediction model and the correction result prediction model uses a known database in which activity data or correction result data of base correction gene scissors is stored, and is to be generated through deep learning technology using large-scale data input from the database. can That is, the activity data or calibration result data of the base-correction gene scissors can be obtained from known databases, literature, etc., in addition to those obtained by direct measurement, or obtained by secondary processing of data obtained from the database or literature, Any data capable of predicting the efficiency and editing results of nucleotide editing for any target sequence by extracting the relationship between the sequence and the nucleotide editing efficiency or nucleotide editing frequency and combining the extracted features can be used without limitation.

본원에서 용어, "올리고뉴클레오티드 (oligonucleotide)"는 수 내지 수백 개의 뉴클레오티드가 포스포다이에스터 결합으로 연결된 물질을 말하며, 본 발명의 목적상 상기 올리고뉴클레오티드는 이중나선 DNA일 수 있다. 본원에서 사용되는 상기 올리고뉴클레오티드는 상기 올리고뉴클레오티드는 10 내지 300 bp, 바람직하게는 50 내지 200 bp, 보다 바람직하게는 100 내지 180 bp의 길이를 가질 수 있으나, 이에 제한되는 것은 아니고, 분석 목적 등에 따라 당업자에 의해 적절히 조절될 수 있다. As used herein, the term “oligonucleotide” refers to a material in which several to hundreds of nucleotides are linked by a phosphodiester bond, and for the purposes of the present invention, the oligonucleotide may be double-stranded DNA. As used herein, the oligonucleotide may have a length of 10 to 300 bp, preferably 50 to 200 bp, more preferably 100 to 180 bp, but is not limited thereto, depending on the purpose of analysis, etc. It can be appropriately adjusted by those skilled in the art.

본원에서 상기 올리고뉴클레오티드는 가이드 RNA 코딩 염기서열 및 표적 서열을 포함한다. 또한, 상기 올리고뉴클레오티드는 PCR 증폭될 수 있도록 프라이머가 결합될 수 있는 추가의 서열을 포함할 수 있다.The oligonucleotide herein includes a guide RNA coding nucleotide sequence and a target sequence. In addition, the oligonucleotide may include an additional sequence to which a primer can be bound so that it can be PCR amplified.

상기 표적 서열은 10 내지 100 bp, 바람직하게는 20 내지 50 bp, 보다 더 바람직하게는 20 내지 30 bp, 가장 바람직하게는 24 내지 26 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.The target sequence may have a length of 10 to 100 bp, preferably 20 to 50 bp, more preferably 20 to 30 bp, and most preferably 24 to 26 bp, but is not particularly limited thereto.

또한, 상기 가이드 RNA 코딩 서열은 10 내지 100 bp, 바람직하게는 15 내지 50 bp, 보다 바람직하게는 20 내지 30 bp의 길이를 가질 수 있으나, 특별히 이에 제한되는 것은 아니다.In addition, the guide RNA coding sequence may have a length of 10 to 100 bp, preferably 15 to 50 bp, more preferably 20 to 30 bp, but is not particularly limited thereto.

상기 올리고뉴클레오티드는 바코드 서열을 더 포함할 수 있다. The oligonucleotide may further include a barcode sequence.

상기 바코드 서열은 각 올리고뉴클레오티드를 식별하도록 하기 위한 뉴클레오티드 서열을 의미한다. 본원에서 상기 바코드 서열은 2 이상의 반복 뉴클레오티드 (AA, TT, CC, GG)를 포함하지 않는 것일 수 있으나, 각 올리고뉴클레오티드를 식별하도록 설계된 것이라면 특별히 이에 제한되는 것은 아니다. 복수의 올리고뉴클레오티드들에 있어, 상기 바코드 서열은 각 올리고뉴클레오티드가 식별될 수 있도록 적어도 2 개의 염기가 다르도록 설계된 것일 수 있다. 상기 바코드 서열은 5 내지 50 bp의 길이를 가질 수 있으나, 특별히 이에 제한되지 않는다.The barcode sequence refers to a nucleotide sequence for identifying each oligonucleotide. The barcode sequence herein may not include two or more repeating nucleotides (AA, TT, CC, GG), but is not particularly limited thereto as long as it is designed to identify each oligonucleotide. In the plurality of oligonucleotides, the barcode sequence may be designed so that at least two bases are different so that each oligonucleotide can be identified. The barcode sequence may have a length of 5 to 50 bp, but is not particularly limited thereto.

상기 올리고뉴클레오티드는 세포에 도입되어 염색체 내에 통합 (integration)되는 것일 수 있다.The oligonucleotide may be introduced into a cell and integrated into a chromosome.

본원에서 용어, "라이브러리"는 특성이 다른 동종의 물질이 2종 이상 포함된 집단(pool or population)을 의미한다. 따라서, 올리고뉴클레오티드 라이브러리는 염기서열이 다른 2종 이상의 올리고뉴클레오티드, 예컨대 가이드 RNA, 및/또는 표적 서열이 다른 2종의 올리고뉴클레오티드를 포함하는 집단일 수 있고, 세포 라이브러리는 특성이 다른 2종 이상의 세포, 구체적으로 본 발명의 목적상 각각의 세포가 포함하는 올리고뉴클레오티드가 다른, 예컨대 도입된 가이드 RNA, 및/또는 표적 서열, 또는 종류가 다른 세포들의 집단일 수 있다.As used herein, the term “library” refers to a pool or population including two or more types of the same material having different characteristics. Accordingly, the oligonucleotide library may be a population comprising two or more types of oligonucleotides having different base sequences, such as guide RNA, and/or two types of oligonucleotides having different target sequences, and the cell library is two or more types of cells with different characteristics. , Specifically, for the purpose of the present invention, the oligonucleotides included in each cell may be different, for example, an introduced guide RNA, and/or a target sequence, or a population of cells different from each other.

본원에서 용어, "벡터"는 상기 올리고뉴클레오티드를 세포 내에 전달할 수 있도록 하는 매개체, 예컨대 유전적 작제물을 의미하는 것으로, 본원에서 벡터는 각각의 가이드 RNA 코딩 염기서열 및 표적 염기서열을 포함하는 올리고뉴클레오티드를 포함할 수 있다. 상기 벡터는 바이러스 벡터 또는 플라스미드 벡터일 수 있고, 바이러스 벡터는 구체적으로 렌티 바이러스 벡터 또는 레트로바이러스 벡터 등이 사용될 수 있으나, 이에 제한되는 것은 아니고 당업자는 본 발명의 목적을 달성할 수 있는 한 공지된 벡터를 자유롭게 사용할 수 있다.As used herein, the term "vector" refers to a medium, such as a genetic construct, that enables the delivery of the oligonucleotide into a cell, and the vector herein is an oligonucleotide comprising each guide RNA coding sequence and a target sequence. may include The vector may be a viral vector or a plasmid vector, and the viral vector may specifically be a lentiviral vector or a retroviral vector, but is not limited thereto and a vector known to those skilled in the art as long as it can achieve the object of the present invention. can be used freely.

구체적으로, 상기 벡터는 개체의 세포 내에 존재하는 경우 삽입물, 즉 올리고뉴클레오티드가 발현될 수 있도록 삽입물에 작동가능하게 연결된 필수적인 조절 요소를 포함할 수 있다.Specifically, the vector may include an essential regulatory element operably linked to the insert, ie, the oligonucleotide, so that the insert can be expressed when present in a cell of an individual.

상기 벡터는 표준적인 재조합 DNA 기술을 이용하여 제조 및 정제될 수 있다. 상기 벡터의 종류는 원핵세포 및 진핵세포 등 목적하는 세포에서 작용할 수 있도록 하는 한, 특별히 한정되지 않는다. 벡터는 프로모터, 개시코돈, 및 종결코돈 터미네이터를 포함할 수 있다. 그 외에 시그널 펩타이드를 코드하는 DNA, 및/또는 인핸서 서열, 및/또는 원하는 유전자의 5'측 및 3'측의 비번역 영역, 및/또는 선택마커 영역, 및/또는 복제가능단위 등을 적절하게 포함할 수도 있다.The vector can be prepared and purified using standard recombinant DNA techniques. The type of the vector is not particularly limited as long as it can act in target cells such as prokaryotic cells and eukaryotic cells. A vector may include a promoter, an initiation codon, and a stop codon terminator. In addition, DNA encoding the signal peptide, and/or enhancer sequence, and/or the untranslated region on the 5' side and 3' side of the desired gene, and/or a selectable marker region, and/or a replicable unit, etc. are appropriately added may include

상기 벡터를 라이브러리를 제조하기 위한 세포에 전달하는 방법은 당업계에 공지된 다양한 방법을 이용하여 달성될 수 있다. 예컨대, 칼슘 포스페이트-DNA 공침전법, DEAE-덱스트란-매개 트랜스펙션법, 폴리브렌-매개 형질 감염법, 전기충격법, 미세주사법, 리포좀 융합법, 리포펙타민 및 원형질체 융합법 등의 당 분야에 공지된 여러 방법에 의해 수행될 수 있다. 또한, 바이러스 벡터를 이용하는 경우, 감염(infection)을 수단으로 하여 바이러스 입자를 사용하여 목적물, 즉 벡터를 세포 내로 전달시킬 수 있다. 아울러, 유전자 밤바드먼트 등에 의해 벡터를 세포 내로 도입할 수 있다.A method of delivering the vector to a cell for preparing a library can be accomplished using various methods known in the art. For example, calcium phosphate-DNA co-precipitation method, DEAE-dextran-mediated transfection method, polybrene-mediated transfection method, electroshock method, microinjection method, liposome fusion method, lipofectamine and protoplast fusion method, etc. It can be carried out by a number of known methods. In addition, in the case of using a viral vector, a target object, that is, the vector can be delivered into a cell using viral particles by means of infection. In addition, the vector can be introduced into the cell by gene bambadment or the like.

상기 도입된 벡터는 세포 내에서 벡터 자체로 존재하거나, 염색체 내에 통합될 수 있으나, 특별히 이에 제한되는 것은 아니다.The introduced vector may exist as a vector itself in a cell or may be integrated into a chromosome, but is not particularly limited thereto.

본원에서 제조된 세포 라이브러리는 가이드 RNA-표적 서열을 포함하는 올리고뉴클레오티드가 도입된 세포 집단을 말한다. 이때 각각의 세포들은 벡터, 구체적으로 바이러스의 종류 및/또는 수가 다르게 도입된 것일 수 있다.The cell library prepared herein refers to a cell population into which an oligonucleotide comprising a guide RNA-target sequence has been introduced. In this case, each cell may be introduced with a vector, specifically, a different type and/or number of viruses.

상기 벡터가 도입될 수 있는 세포의 종류는, 벡터의 종류 및/또는 목적하는 세포의 종류에 따라 적절하게 당업자가 선택할 수 있으나, 그 예로, 대장균, 스트렙토미세스, 살모넬라 티피뮤리움 등의 박테리아 세포; 효모 세포; 피치아 파스토리스 등의 균류세포; 드로조필라, 스포도프테라 Sf9 세포 등의 곤충 세포; CHO(중국 햄스터 난소 세포, chinese hamster ovary cells), SP2/0(마우스 골수종), 인간 림프아구(human lymphoblastoid), COS, NSO(마우스 골수종), 293T, 보우 멜라노마 세포, HT-1080, BHK(베이비 햄스터 신장세포, baby hamster kidney cells), HEK(인간 배아신장 세포, human embryonic kidney cells), PERC.6(인간망막세포) 등의 동물 세포; 또는 식물 세포가 될 수 있다.The type of cell into which the vector can be introduced may be appropriately selected by those skilled in the art depending on the type of vector and/or the type of target cell, for example, bacterial cells such as Escherichia coli, Streptomyces, Salmonella typhimurium; yeast cells; Fungal cells such as Pichia pastoris; insect cells such as Drosophila and Spodoptera Sf9 cells; CHO (chinese hamster ovary cells), SP2/0 (mouse myeloma), human lymphoblastoid, COS, NSO (mouse myeloma), 293T, Bow melanoma cells, HT-1080, BHK ( animal cells such as baby hamster kidney cells, HEK (human embryonic kidney cells), and PERC.6 (human retinal cells); or plant cells.

본 발명의 용어, "정보 입력부"는 상술한 염기교정 유전자가위의 활성 데이터 또는 교정결과 데이터를 입력 받는 구성 요소로서, 상기 정보 입력부는 일 구체예에 따른 예측 시스템의 사용자로부터 직접 염기교정 유전자가위에 관한 데이터를 입력 받거나, 또는 미리 저장된 데이터를 입력 받는 것일 수 있으나, 이에 제한되지 않는다.As used herein, the term "information input unit" refers to a component that receives the above-described activity data or correction result data of the base-correction gene scissors, and the information input unit is directly inserted into the base-correction gene scissors by the user of the prediction system according to an embodiment. It may be to receive related data or to receive pre-stored data, but is not limited thereto.

본 발명의 시스템은 미리 수득한 염기교정 유전자가위에 관한 데이터 또는 공지된 염기교정 유전자가위에 관한 데이터가 저장된 저장부를 추가로 포함할 수 있으나, 이에 제한되지 않는다. 상기 저장부를 포함할 경우, 본 발명 시스템의 정보 입력부는 상기 저장부로부터 설정된 크기 또는 범위의 데이터를 입력 받아, 염기교정 유전자가위의 활성 또는 교정결과를 예측하는데 이용할 수 있다.The system of the present invention may further include, but is not limited to, a storage unit for storing previously obtained data on nucleotide-correction gene scissors or known data on nucleotide-correction gene scissors. When the storage unit is included, the information input unit of the system of the present invention may receive data of a size or range set from the storage unit, and may be used to predict the activity of the base editing gene scissors or the correction result.

일 구체예에서, "효율 예측 모델" 및 "교정결과 예측 모델"은 상기 정보 입력부를 통해 입력된 염기교정 유전자가위에 관한 데이터를 이용하여, 표적 서열 및 염기 편집 결과, 상기 염기 편집 결과의 빈도 간의 관계를 추출하고 조합하여, 표적 서열과 염기교정 유전자가위 간의 관계를 학습할 수 있는 예측 모델을 생성하는 단계를 통해 생성될 수 있다. 상기 효율 예측 모델 및 교정결과 예측 모델은 학습된 정보를 기반으로 딥러닝 기술을 이용하여 생성되고, 일 구체예에 따른 예측 시스템의 사용자는 상기 예측 모델을 통해 염기교정 유전자가위의 효율 및 교정결과를 예측할 수 있다. In one embodiment, the "efficiency prediction model" and the "correction result prediction model" use the data about the nucleotide correction gene inputted through the information input unit, and use the target sequence, the nucleotide editing result, and the frequency of the nucleotide editing result. By extracting and combining the relationship, it can be generated through the step of generating a predictive model capable of learning the relationship between the target sequence and the base-correcting gene scissors. The efficiency prediction model and the correction result prediction model are generated using deep learning technology based on the learned information, and the user of the prediction system according to an embodiment can check the efficiency and correction result of the base correction gene scissors through the prediction model predictable.

구체적으로, 본원의 예측 모델은 컨볼루션 신경망 (convolutional neural network, CNN)을 기반으로 하여 표적 서열 및 염기 편집 결과, 상기 염기 편집 결과의 빈도 간의 관계를 학습하는 딥-러닝을 수행하는 것일 수 있으나, 이에 제한되지 않는다.Specifically, the prediction model of the present application is based on a convolutional neural network (CNN) to perform deep-learning to learn the relationship between the target sequence and the base editing result, and the frequency of the base editing result. It is not limited thereto.

본원에서 용어, "딥러닝 (Deep Learning)"은 컴퓨터가 사람처럼 생각하고 배울 수 있도록 하는 인공지능(AI) 기술로서, 인공신경망 이론을 기반으로 복잡한 비선형 문제를 기계가 스스로 학습해결 할 수 있도록 하는 기술이다. 상기 딥러닝 기술을 이용하여, 사람이 모든 판단 기준을 정해주지 않아도 컴퓨터가 스스로 인지, 추론,·판단할 수 있게 되고, 음성 이미지 인식과 사진 분석 등에 광범위하게 활용하는 것이 가능하다.As used herein, the term "Deep Learning" is an artificial intelligence (AI) technology that enables computers to think and learn like humans. it is technology By using the deep learning technology, a computer can recognize, reason, and judge by itself without a person setting all judgment criteria, and it is possible to use it extensively for voice image recognition and photo analysis.

즉, 딥러닝(deep learning)은 여러 비선형 변환기법의 조합을 통해 높은 수준의 추상화(abstractions, 다량의 데이터나 복잡한 자료들 속에서 핵심적인 내용 또는 기능을 요약하는 작업)를 시도하는 기계학습(machine learning) 알고리즘의 집합으로 정의될 수 있다.In other words, deep learning is a machine learning that attempts high-level abstractions (summarizing core contents or functions in large amounts of data or complex data) through a combination of several nonlinear transformation methods. learning) can be defined as a set of algorithms.

본원에서 용어, "컨볼루션 신경망(convolutional neural networks: CNN)"은 제공된 정보의 일부를 표현하는 특징(feature)을 추출하고, 정보의 계층화를 통해 일반화를 이루어 내는 기술을 의미한다.As used herein, the term "convolutional neural networks (CNN)" refers to a technique for extracting a feature representing a part of provided information and generalizing the information through layering.

본 발명자들은, 유전자가위 활성 대량측정법을 이용하여 대량의 유전자가위의 효율 및 교정결과 데이터를 생산하고, 강력한 컨볼루션 신경망(convolutional neural networks: CNNs)을 사용하는 딥러닝 프레임워크를 기반으로 실제 실험 결과 값과 인공지능이 제시한 예측 값의 상관관계가 0.69~0.79에 수렴하는 높은 신뢰도를 보이는 활성 예측 모델 및 그 상관관계가 0.91~0.93에 도달하는 높은 신뢰도를 보이는 교정결과 예측 모델을 개발하고, 상기 두 모델을 결합하여 DeepABE 및 DeepCBE로 명명되는 예측 시스템을 개발하였다. 나아가, 생물학적 복제시료 및 인간 유도만능줄기 세포에서 그 정확성을 검증하였다.The present inventors produce a large amount of data on the efficiency and calibration results of gene scissors using a mass measurement method of gene scissors activity, and actual experimental results based on a deep learning framework using powerful convolutional neural networks (CNNs) Develop an active prediction model with high reliability in which the correlation between the value and the predicted value suggested by artificial intelligence converges to 0.69 to 0.79, and a correction result prediction model with high reliability in which the correlation reaches 0.91 to 0.93, and By combining the two models, a prediction system named DeepABE and DeepCBE was developed. Furthermore, the accuracy was verified in biologically replicated samples and human induced pluripotent stem cells.

본원에서 용어, "결과 예측부"는 상술한 방법으로 구축된 효율 예측 모델 및 교정결과 예측 모델에 표적 서열 입력부를 통해 입력된 표적 서열을 적용하여, 염기교정 유전자가위의 염기교정 효율 및 결과를 예측하는 구성이다. 일 구체예에서, 결과 예측부는 표적 서열 정보로부터 염기교정 유전자가위의 염기교정 효율 및 결과를 예측할 수 있으나, 예측의 정확성을 높이기 위한 요인, 예를 들어, 표적 뉴클레오티드 주변의 서열 컨텍스트(context) 또는 염색질 접근성을 추가로 고려할 수 있다.As used herein, the term “result prediction unit” refers to the efficiency prediction model and the correction result prediction model constructed by the above-described method by applying the target sequence input through the target sequence input unit to predict the nucleotide correction efficiency and result of the nucleotide correction gene scissors. is a configuration that In one embodiment, the result prediction unit can predict the nucleotide correction efficiency and result of nucleotide correction from the target sequence information, but factors for increasing the accuracy of prediction, for example, the sequence context or chromatin around the target nucleotide Accessibility may be additionally considered.

구체적으로, 상기 결과 예측부는 미리 설정된 방법에 의해 염기교정 유전자가위에 의한 표적 서열의 염기 편집 여부 또는 염기 편집 빈도를 예측하는 것일 수 있으나, 이에 제한되지 않는다. 상기 결과 예측부는 염기 편집 여부 또는 염기 편집 빈도 외에도 다른 염기교정 유전자가위의 활성을 예측할 수 있는 지표라면, 그 종류나 형태, 예측 방법에 관계없이 염기교정 유전자가위의 활성을 예측하기 위해 이용할 수 있다.Specifically, the result prediction unit may predict whether or not the base editing of the target sequence or the frequency of the base editing by the base editing gene scissors by a preset method, but is not limited thereto. If the result prediction unit is an indicator capable of predicting the activity of other nucleotide-correcting gene scissors in addition to the presence of nucleotide editing or nucleotide-editing frequency, it can be used to predict the activity of nucleotide-correction gene scissors irrespective of the type, form, or prediction method.

일 구체예에서, 상기 결과 예측부는 표적 서열 입력부에서 입력 받은 표적 서열을 효율 예측 모델 및 교정결과 예측 모델에 각각 적용하여 염기교정 유전자가위의 효율 및 교정결과 스코어를 획득하고, 상기 효율 스코어와 교정결과 스코어를 곱하여 염기교정 유전자가위의 염기교정 효율 및 결과를 예측할 수 있다.In one embodiment, the result prediction unit applies the target sequence input from the target sequence input unit to the efficiency prediction model and the correction result prediction model, respectively, to obtain the efficiency and correction result score of the base correction gene scissors, and the efficiency score and the correction result By multiplying the score, the nucleotide correction efficiency and results of nucleotide correction gene scissors can be predicted.

상기 효율 스코어는 표적 서열의 각 위치에 대하여 하기 [수학식 1]을 이용하여 산출될 수 있다.The efficiency score may be calculated using the following [Equation 1] for each position of the target sequence.

[수학식 1][Equation 1]

Figure 112020082379421-pat00001
Figure 112020082379421-pat00001

또한, 상기 교정결과 스코어는 하기 [수학식 2]을 이용하여 산출될 수 있다.In addition, the calibration result score may be calculated using the following [Equation 2].

[수학식 2][Equation 2]

Figure 112020082379421-pat00002
Figure 112020082379421-pat00002

일 양상에 따른 예측 시스템은 표적 뉴클레오티드 주변의 서열 컨텍스트 또는 표적 서열의 염색질 접근성 정보를 이용하여 상기 결과 예측부에서 예측된 염기교정 유전자가위의 활성을 최적화(fine-tuning)하는 미세 조정부를 추가로 포함할 수 있다.The prediction system according to an aspect further includes a fine-tuning unit for optimizing (fine-tuning) the activity of the base-correcting gene scissors predicted in the result prediction unit using the sequence context around the target nucleotide or chromatin accessibility information of the target sequence can do.

본 발명의 "미세 조정부"는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템의 정확성을 높이기 위해, 입력된 표적 서열의 서열 정보뿐만 아니라, 표적 뉴클레오티드 주변의 서열 컨텍스트 또는 염기교정 유전자가위의 표적 서열에 대한 염색질 접근성까지 고려하여 효율 예측 모델에서 예측된 염기교정 유전자가위의 활성을 최적화하는 구성을 의미한다.The "fine adjustment unit" of the present invention provides not only the sequence information of the input target sequence, but also the sequence context around the target nucleotide or the target sequence of the nucleotide editing gene scissors, in order to increase the nucleotide correction efficiency of nucleotide correction and the accuracy of the result prediction system. It refers to a configuration that optimizes the activity of the base-correcting gene scissors predicted in the efficiency prediction model by considering the accessibility of chromatin to

상기 염색질 접근성 정보는 공지된 데이터 베이스, 문헌 등에서 수득하거나, 또는 직접 측정할 수 있으며, 구체적으로 타겟 서열의 DNase I에 대한 민감성으로부터 계산되는 것일 수 있으나, 이에 제한되는 것은 아니다.The chromatin accessibility information may be obtained from known databases, literature, etc., or may be directly measured, and specifically may be calculated from the sensitivity of the target sequence to DNase I, but is not limited thereto.

일 구체예에서, 상기 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템은 결과 예측부에서 예측된 염기교정 유전자가위의 효율 및 결과를 출력하는 출력부를 추가로 포함할 수 있다. In one embodiment, the nucleotide correction efficiency and result prediction system of the nucleotide correction gene scissors may further include an output unit for outputting the efficiency and result of the nucleotide correction gene scissors predicted by the result prediction unit.

상기 출력부가 출력하는 염기교정 유전자가위의 염기교정 효율 및 결과에 대한 정보는 출력되는 신호의 형태나 종류는 제한되지 않는다.The information on the nucleotide correction efficiency and result of the nucleotide correction gene scissors output by the output unit is not limited in the form or type of the output signal.

다른 양상은 염기교정 유전자가위의 표적 서열을 설계하는 단계; 및Another aspect includes the steps of designing a target sequence of the base editing gene; and

상기 설계된 표적 서열을 일 양상에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 방법을 제공한다. It provides a nucleotide correction efficiency and result prediction method of nucleotide correction gene scissors, comprising applying the designed target sequence to a nucleotide correction efficiency and result prediction system according to an aspect.

일 양상에 따른 방법에 따르면, 실제 실험 결과값과 예측 모델이 제시한 예측 값의 상관관계가 0.50 내지 0.95에 수렴하는 예측 모델을 통해 염기 편집 효율 및 편집 결과의 빈도를 예측하여, 안전한 교정이 가능한 유전자가위를 선별하고, 상기 유전자가위로 질환 모델을 만들거나 교정할 수 있는 질환 정보를 제공할 수 있다. According to the method according to one aspect, by predicting the base editing efficiency and the frequency of the editing result through the prediction model in which the correlation between the actual experimental result value and the prediction value presented by the prediction model converges to 0.50 to 0.95, safe correction is possible It is possible to select the gene scissors and provide disease information capable of making or correcting a disease model with the gene scissors.

다른 양상은 the other aspect

인간 점돌연변이 데이터를 수득하는 단계; obtaining human point mutation data;

상기 인간 점돌연변이 데이터로부터 점돌연변이가 정상 염기 아데닌(A)이 비정상 염기 구아닌(G)으로 바뀌어 발생하는 경우; 정상 염기 구아닌(G)이 비정상 염기 아데닌(A)으로 바뀌어 발생하는 경우; 정상 염기 시토신(C)이 비정상 염기 티민T)으로 바뀌어 발생하는 경우; 또는 정상 염기 티민(T)이 비정상 염기 시토신(C)으로 바뀌어 발생하는 경우에 해당하는 데이터를 1차로 선별하는 단계;When the point mutation occurs from the human point mutation data, the normal base adenine (A) is changed to the abnormal base guanine (G); When the normal base guanine (G) is replaced with the abnormal base adenine (A); When the normal base cytosine (C) is replaced with the abnormal base thymine T); or first selecting data corresponding to a case in which the normal base thymine (T) is changed to the abnormal base cytosine (C);

상기 1차로 선별된 데이터 중에서 점돌연변이가 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치에 존재하는 데이터를 2차로 선별하는 단계;Secondarily selecting data in which a point mutation exists at a position 3 to 10 bp from the 5' end of the protospacer region from among the firstly selected data;

상기 2차로 선별된 데이터 중에서 병원성 또는 유사병원성 점돌연변이에 해당하는 데이터를 3차로 선별하는 단계; 및thirdly selecting data corresponding to pathogenic or pseudopathogenic point mutations from among the secondarily selected data; and

상기 3차로 선별된 데이터를 일 양상에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계를 포함하는 염기교정 유전자가위를 사용할 수 있는 인간 점돌연변이 관련 질환에 대한 정보를 제공하는 방법을 제공한다.It provides a method of providing information on human point mutation-related diseases that can use nucleotide correction gene scissors, including applying the thirdly selected data to a nucleotide correction efficiency and result prediction system according to an aspect.

상기 인간 점돌연변이 관련 질환은 점돌연변이가 프로토스페이서의 5' 말단으로부터 3 내지 10 bp 범위 내에 존재하고(본원에서, "염기교정 범위"), 및/또는 프로토스페이서의 하류(downstream)에 PAM 서열이 있는 경우에 있어서, 상기 염기교정 범위 내 정상 염기(A 또는 C)가 비정상 염기(G 또는 T)로 바뀌어서 발생하거나; 또는 상기 염기교정범위 내 정상 염기(G 또는 T)가 비정상 염기(A 또는 C)로 바뀌어서 발생하는 질환이면 제한없이 포함될 수 있다.The human point mutation-associated disease has a point mutation within a range of 3 to 10 bp from the 5' end of the protospacer (herein, "base correction range"), and/or a PAM sequence downstream of the protospacer. In some cases, it occurs because a normal base (A or C) is changed to an abnormal base (G or T) within the base correction range; Alternatively, any disease caused by changing a normal base (G or T) within the base correction range to an abnormal base (A or C) may be included without limitation.

일 구체예에 있어서, 상기 인간 점돌연변이 관련 질환은 어셔 증후군(Usher syndrome), 종양괴사인자 수용체 관련 주기적 증후군(TNF receptor-associated periodic syndrome: TRAPS), 마판 증후군(marfan syndrome), 제3형 청년기 발병 당뇨병(Type 3 form of Maturity-Onset Diabetes of the Young: MODY3), 선천성 비진행성 야맹증(Congenital stationary night blindness type 1F), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 선천근육무력증후군(congenital myasthenic syndrome: CMS), 린치증후군(Lynch syndrome) 등이 확인되었고, CBE의 경우 로이-디에츠 증후군(Loeys-Dietz syndrome: LDS), 망막색소변성증(retinitis pigmentosa), 렙틴 결핍 또는 장애(Leptin deficiency 또는 dysfunction), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 상염색체 열성 청각장애(autosomal recessive deafness), 콜레스테롤 모노옥시다제 결핍(cholesterol monooxygenase (side-chain-cleaving) deficiency) 및 진행성 근간대성간질(progressive myoclonus epilepsy)로 이루어진 군으로부터 선택되는 어느 하나일 수 있으나, 이에 제한되는 것은 아니다.In one embodiment, the human point mutation-related disease is Usher syndrome, tumor necrosis factor receptor-associated periodic syndrome (TNF receptor-associated periodic syndrome: TRAPS), Marfan syndrome (marfan syndrome), type 3 adolescence onset Diabetes (Type 3 form of Maturity-Onset Diabetes of the Young: MODY3), congenital stationary night blindness type 1F, familial hypercholesterolemia, congenital myasthenic syndrome (CMS) ), Lynch syndrome, etc. were confirmed, and in the case of CBE, Loeys-Dietz syndrome (LDS), retinitis pigmentosa, leptin deficiency or dysfunction, family The group consisting of Family hypercholesterolemia, autosomal recessive deafness, cholesterol monooxygenase (side-chain-cleaving) deficiency and progressive myoclonus epilepsy. It may be any one selected from, but is not limited thereto.

다른 양상은 상기 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체를 제공한다. Another aspect provides a computer-readable recording medium in which a program for executing the method by a computer is recorded.

상기 프로그램은 일 양상의 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템 또는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 방법을 컴퓨터 프로그래밍 언어로 구현한 것일 수 있으며, 염기교정 유전자가위의 염기교정 효율 및 결과를 예측하는데 이용될 수 있다. The program may be an embodiment of the nucleotide correction efficiency and result prediction system of nucleotide correction gene scissors or the nucleotide correction efficiency and result prediction method of nucleotide correction gene scissors of an aspect in a computer programming language, and the nucleotide correction efficiency of nucleotide correction gene scissors and predicting outcomes.

본 발명의 프로그램을 구현할 수 있는 컴퓨터 프로그래밍 언어는 Python, C, C++, 자바(Java), 포트란(Fortran), 비쥬얼 베이직(Visual Basic) 등이 있으나 이에 제한되지 않는다. 상기 프로그램은 USB 메모리, CDROM(compact disc read only memory), 하드 디스크, 자기 디스켓, 또는 그와 유사한 매체 또는 기구 등의 기록 매체로 저장될 수 있으며, 내부 또는 외부 네트워크 시스템에 연결될 수 있다. 예를 들면, 컴퓨터 시스템은 HTTP, HTTPS, 또는 XML 프로토콜을 이용하여 GenBank(http://www.ncbi.nlm.nih.gov/nucleotide)와 같은 서열 데이터베이스에 접속하여 표적 유전자 및 상기 유전자의 조절 영역의 핵산서열을 검색할 수 있다.Computer programming languages that can implement the program of the present invention include, but are not limited to, Python, C, C++, Java, Fortran, Visual Basic, and the like. The program may be stored in a recording medium such as a USB memory, compact disc read only memory (CDROM), hard disk, magnetic diskette, or similar medium or device, and may be connected to an internal or external network system. For example, the computer system accesses a sequence database such as GenBank (http://www.ncbi.nlm.nih.gov/nucleotide) using HTTP, HTTPS, or XML protocol to access a target gene and a regulatory region of the gene. of the nucleic acid sequence can be searched.

상기 프로그램은 온라인 또는 오프라인으로 제공될 수 있으며, 컴퓨터로 구현되는 전자기기와 결합되어 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템을 실행시키기 위해 기록매체에 저장된 컴퓨터 프로그램의 형태로 제공될 수 있다. The program may be provided online or offline, and it may be provided in the form of a computer program stored in a recording medium in combination with an electronic device implemented by a computer to execute a system for predicting the nucleotide correction efficiency and result of the nucleotide correction gene scissors. .

다른 양상은 염기교정 유전자가위를 세포에 도입하는 단계를 포함하는 세포의 유전체에서 표적 뉴클레오티드를 편집하는 방법으로서,Another aspect is a method of editing a target nucleotide in the genome of a cell comprising the step of introducing a base editing gene into the cell,

상기 염기교정 유전자가위는 (i) RNA-가이드 뉴클레아제 또는 이를 코딩하는 유전자, (ii) 탈아미노효소 또는 이를 코딩하는 유전자, 및 (iii) 표적 서열과 혼성화 할 수 있는 가이드 RNA 또는 이를 코딩하는 유전자를 포함하고,The base editing gene is (i) an RNA-guided nuclease or a gene encoding the same, (ii) a deaminase or a gene encoding the same, and (iii) a guide RNA capable of hybridizing with a target sequence or a guide RNA encoding the same contains a gene;

상기 표적 서열은 PAM 서열, 프로토스페이서 서열, 및 가이드 RNA에 상보적인 서열을 포함하고,wherein the target sequence comprises a PAM sequence, a protospacer sequence, and a sequence complementary to a guide RNA,

상기 가이드 RNA에 상보적인 서열은 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5'-GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA-3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5'-GCG-3', 및 5'-GCA-3'으로 이루어진 군으로부터 선택되는 서열을 포함하고,The sequence complementary to the guide RNA is 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5' -GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA -3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3 ', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5' -GCG-3', and 5'-GCA-3' comprising a sequence selected from the group consisting of,

상기 탈아미노효소는 표적 서열에서 아데닌 또는 시토신을 탈아미노화하는 것을 특징으로 하는 세포의 유전체에서 표적 뉴클레오티드를 편집하는 방법을 제공한다.The deaminase provides a method for editing a target nucleotide in the genome of a cell, characterized in that it deaminates adenine or cytosine in the target sequence.

일 구체예에서, 상기 RNA-가이드 뉴클레아제는 SpCas9, nCas9, 및 dCas9로 이루어진 군으로부터 선택되는 것일 수 있다. In one embodiment, the RNA-guided nuclease may be selected from the group consisting of SpCas9, nCas9, and dCas9.

일 구체예에서, 상기 표적 뉴클레오티드는 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치에 존재하는 것일 수 있다.In one embodiment, the target nucleotide may be present at a position 3 to 10 bp from the 5' end of the protospacer region.

다른 양상은 염기교정 유전자가위를 포함하는 인간 점돌연변이 관련 질환의 예방 또는 치료용 약학적 조성물로서,Another aspect is a pharmaceutical composition for preventing or treating a human point mutation-related disease comprising a base-correcting gene,

상기 염기교정 유전자가위는 (i) RNA-가이드 뉴클레아제 또는 이를 코딩하는 유전자, (ii) 탈아미노효소 또는 이를 코딩하는 유전자, 및 (iii) 표적 서열과 혼성화 할 수 있는 가이드 RNA 또는 이를 코딩하는 유전자를 포함하고,The base editing gene is (i) an RNA-guided nuclease or a gene encoding the same, (ii) a deaminase or a gene encoding the same, and (iii) a guide RNA capable of hybridizing with a target sequence or a guide RNA encoding the same contains a gene;

상기 표적 서열은 PAM 서열, 프로토스페이서 서열, 및 가이드 RNA에 상보적인 서열을 포함하고,wherein the target sequence comprises a PAM sequence, a protospacer sequence, and a sequence complementary to a guide RNA,

상기 가이드 RNA에 상보적인 서열은 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5'-GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA-3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5'-GCG-3', 및 5'-GCA-3'으로 이루어진 군으로부터 선택되는 서열을 포함하고,The sequence complementary to the guide RNA is 5'-TAC-3', 5'-TAT-3', 5'-TAG-3', 5'-GAT-3', 5'-CAC-3', 5' -GAC-3', 5'-CAT-3', 5'-TAA-3', 5'-CAG-3', 5'-GAG-3', 5'-AAC-3', 5'-CAA -3', 5'-GAA-3', 5'-AAT-3', 5'-AAG-3', 5'-AAA-3', 5'-TCC-3', 5'-TCG-3 ', 5'-TCT-3', 5'-TCA-3', 5'-CCC-3', 5'-CCT-3', 5'-ACC-3', 5'-CCA-3', 5'-CCG-3', 5'-ACG-3', 5'-ACT-3', 5'-ACA-3', 5'-GCC-3', 5'-GCT-3', 5' -GCG-3', and 5'-GCA-3' comprising a sequence selected from the group consisting of,

상기 탈아미노효소는 표적 서열에서 아데닌 또는 시토신을 탈아미노화하는 것을 특징으로 하는 인간 점돌연변이 관련 질환의 예방 또는 치료용 약학적 조성물을 제공한다. The deaminase provides a pharmaceutical composition for preventing or treating a human point mutation-related disease, characterized in that the deamination of adenine or cytosine in a target sequence.

일 양상에 따른 예측 시스템을 사용하면, 유전자가위를 일일이 제작하여 검증할 필요 없이 간단한 방법으로 효율 및 정확성의 예측이 가능하여 안전한 교정이 가능한 유전자가위를 선별할 수 있다. 나아가, 병원성/유사병원성 인간 점돌연변이 질환 중 염기교정 유전자가위로 질환을 만들거나 교정할 수 있는 경우들의 효율 및 결과 빈도의 예측이 가능하여 염기교정 유전자가위의 대상 질환을 선별할 수 있다.Using the prediction system according to one aspect, it is possible to predict the efficiency and accuracy in a simple way without the need to individually manufacture and verify the gene scissors, so that it is possible to select the gene scissors that can be safely edited. Furthermore, among pathogenic/pseudopathogenic human point mutation diseases, it is possible to predict the efficiency and frequency of results in cases in which a disease can be made or corrected by nucleotide editing, so that a target disease for nucleotide correction can be selected.

도 1은 대규모 활성 데이터에 기반하여 아데닌 및 시토신 염기교정 유전자가위의 특성을 분석한 도이다.
(a, b) 프로토스페이서(protospacer) 내 편집가능한 (a) 아데닌 또는 (b) 시토신의 위치와 통합된 표적 서열(integrated target sequences)에서 고-처리량 방식으로 측정된 염기 편집 빈도 사이의 관계. 통합된 표적 서열 내 프로토스페이서 영역의 위치 1 내지 20에서 측정된 염기 편집 빈도를 나타내었다. 위치 20은 PAM(NGG)의 바로 상류에 자리한다. 분석된 표적 서열의 수(n)는 다음과 같다: (a) ABE의 경우 n = 2,427 내지 2,898; (b) CBE의 경우 n = 2,847 내지 3,858. 박스에서 상단, 중앙 및 하단선은 각각 25 번째, 50 번째 및 75 번째 백분위수를 나타낸다. 수염(whiskers)은 각각 1 번째, 99 번째 백분위수 값을 나타낸다.
(c, d) 동일한 통합된 표적 서열에 대해 SpCas9-유도된 인델(indel) 빈도 및 (c) ABE- 또는 (d) CBE- 유도된 염기 전환 효율이 결정되었다. 염기 편집 효율에 대한 프로토스페이서 영역 내 염기 위치의 효과를 배제하기 위해, 동일한 프로토스페이서 영역 내 위치에 해당하는 염기를 갖는 표적 서열만을 비교하였다. 히트(heat) 색상은 육각형 빈(bin) 내 표적 서열의 수를 나타낸다. 분석된 표적 서열의 수(n)는 다음과 같다: (c) ABE의 경우 n = 2,172 내지 2,307; (d) CBE에 대해 n = 2,746 내지 2,964. 스피어만(Spearman) 상관계수(R) 및 피어슨(Pearson) 상관계수(r)를 표시하였다.
(e, f) 프로토스페이서 영역의 4' 말단으로부터 4 내지 8 bp 위치에서 (e) ABE- 및 (f) CBE- 지정된 염기 편집 빈도에 대한 표적 염기(빨간색) 주위의 서열 컨텍스트(context)의 효과. 표적 염기 전환 빈도는 각 위치에서 가장 높은 중앙값 편집 빈도를 나타내는 서열 모티프의 중앙값 빈도로 정규화되어, 상대 빈도(relative frequency)가 산출되었다. 분석된 표적 모티프의 수(n)는 다음과 같다: (e) ABE의 경우 n = 383 내지 1,413; (f) CBE의 경우 n = 498 내지 1,110. 박스에서 상단, 중앙 및 하단선은 각각 25 번째, 50 번째 및 75 번째 백분위수를 나타낸다. 수염은 각각 1 번째, 99 번째 백분위수 값을 나타낸다. 표적 염기 전환 빈도에서 통계적으로 유의미한 차이가 없는 컨텍스트 서열의 부분집합(subset)은 a, b, c, ... 및 h와 같은 문자로 표시하였다(P<0.05; one-way ANOVA 및 Tukey의 사후 검정에 의해 결정됨).
도 2는 각 위치에서 염기 편집에 대한 표적 아데닌(좌측) 또는 시토신(우측)주위의 서열 컨텍스트의 효과를 나타낸 도이다. 표적 염기는 빨간색으로 표시하였고, 상대적 염기 편집 빈도는 각 위치에서 가장 높은 중앙값 편집 빈도를 나타내는 서열 모티프의 중앙값 빈도로 정규화되었다. 분석된 표적 서열의 수(n)는 다음과 같다:
위치 4에서의 ABE: n = 159 (TAC), 106 (TAT), 99 (TAG), 126 (GAT), 143 (GAC), 176 (CAT), 219 (CAC), n = 78 (TAA), n = 169 (GAG), n = 267 (CAG), n = 146 (AAC), n = 144 (GAA), n = 158 (CAA), n = 123 (AAT); n = 166 (AAG), n = 154 (AAA);
위치 5에서의 ABE: n = 153 (TAC), 97 (TAT), 70 (TAG), 155 (GAT), 161 (GAC), 205 (CAT), 252 (CAC), 2 (TAA), 165 (GAG), 268 (CAG), 140 (AAC), 181 (GAA), 189 (CAA), 123 (AAT), 129 (AAG), 142 (AAA);
위치 6에서의 ABE: n = 186 (TAC), 103 (TAT), 117 (TAG), 163 (GAT), 188 (GAC), 168 (CAT), 226 (CAC), 80 (TAA), 194 (GAG), 306 (CAG), 135 (AAC), 165 (GAA), 117 (CAA), 130 (AAT), 176 (AAG), 143 (AAA);
위치 7에서의 ABE: n = 168 (TAC), 108 (TAT), 119 (TAG), 127 (GAT), 155 (GAC), 169 (CAT), 235 (CAC), 78 (TAA), 174 (GAG), 289 (CAG), 125 (AAC), 178 (GAA), 134 (CAA), 97 (AAT), 162 (AAG), 121 (AAA);
위치 8에서의 ABE: n = 170 (TAC), 105 (TAT), 76 (TAG), 148 (GAT), 169 (GAC), 221 (CAT), 240 (CAC), (TAA), 165 (GAG), 282 (CAG), 118 (AAC), 194 (GAA), 170 (CAA), 125 (AAT), 134 (AAG), 134 (AAA);
위치 4에서의 CBE: n = 186 (TCC), 101 (TCG), 176 (TCT), 211 (TCA), 230 (CCC), 219 (CCT), 183 (ACC), 243 (CCA), 183 (CCG), 115 (ACG), 153 (ACT), 177 (ACA), 203 (GCC), 220 (GCT), 170 (GCG), 194 (GCA);
위치 5에서의 CBE: n = 173 (TCC), 93 (TCG), 173 (TCT), 173 (TCA), 182 (CCC), 231 (CCT), 181 (ACC), 219 (CCA), 170 (CCG), 91 (ACG), 178 (ACT), 157 (ACA), 222 (GCC), 223 (GCT), 148 (GCG), 84 (GCA);
위치 6에서의 CBE: n = 198 (TCC), 108 (TCG), 157 (TCT), 174 (TCA), 192 (CCC), 195 (CCT), 193 (ACC), 195 (CCA), 176 (CCG), 104 (ACG), 152 (ACT), 161 (ACA), 228 (GCC), 159 (GCT), 154 (GCG), 200 (GCA);
위치 7에서의 CBE: n = 195 (TCC), 125 (TCG), 171 (TCT), 232 (TCA), 180 (CCC), 208 (CCT), 198 (ACC), 248 (CCA), 175 (CCG), 118 (ACG), 165 (ACT), 165 (ACA), 213 (GCC), 213 (GCT), 158 (GCG), 173 (GCA);
위치 8에서의 CBE: n = 163 (TCC), 93 (TCG), 152 (TCT), 199 (TCA), 177 (CCC), 233 (CCT), 211 (ACC), 205 (CCA), 171 (CCG), 70 (ACG), 126 (ACT), 193 (ACA), 227 (GCC), 225 (GCT), 172 (GCG), 200 (GCA).
박스에서 상단, 중앙 및 하단선은 각각 25 번째, 50 번째 및 75 번째 백분위수를 나타낸다. 수염은 각각 1 번째, 99 번째 백분위수 값을 나타낸다. 염기 편집 및 인델 빈도에서 통계적으로 유의미한 차이가 없는 컨텍스트 서열의 부분집합(subset)은 a, b, c, ... 및 j와 같은 문자로 표시하였다(P<0.05; one-way ANOVA 및 Tukey의 사후 검정에 의해 결정됨).
도 3은 프로토스페이서 영역의 5' 말단으로부터 4 내지 8 bp 위치에서 SpCas9-유도된 인델 빈도에 대한 표적 염기(빨간색) 주위의 서열 컨텍스트의 효과를 나타낸 도이다. (a) 및 (b)의 표적 서열은 각각 도 1의 (e, f)와 동일하다. 인델 빈도는 각 위치에서 가장 높은 중앙값 편집 빈도를 나타내는 서열 모티프의 중앙값 빈도로 정규화되었다. 3개 뉴클레오티드 모티프 당 분석된 표적 서열의 수(n)는 다음과 같다:
(a) n = 807 (TAC), 478 (TAT), 464 (TAG), 685 (GAT), 1,142 (GAC), 787 (CAT), 903 (CAC), 350 (TAA), 832 (GAG), 1,379 (CAG), 638 (AAC), 823 (GAA), 738 (CAA), 558 (AAT), 735 (AAG), 620 (AAA);
(b) n = 915 (TCC), 520 (TCG), 829 (TCT), 989 (TCA), 961 (CCC), 1,086 (CCT), 966 (ACC), 1,110 (CCA), 875 (CCG), 498 (ACG), 774 (ACT), 853 (ACA), 1,093 (GCC), 1,040 (GCT), 802 (GCG), 951 (GCA).
박스에서 상단, 중앙 및 하단선은 각각 25 번째, 50 번째 및 75 번째 백분위수를 나타낸다. 수염은 각각 1 번째, 99 번째 백분위수 값을 나타낸다. 염기 편집 및 인델 빈도에서 통계적으로 유의미한 차이가 없는 컨텍스트 서열의 부분집합(subset)은 a, b, c, ... 및 f와 같은 문자로 표시하였다(P<0.05; one-way ANOVA 및 Tukey의 사후 검정에 의해 결정됨).
도 4는 염기교정 유전자가위의 염기교정 효율 및 가능한 교정결과들의 빈도를 예측하는 예측 모델의 개략도이다. 편집 가능한 윈도우(볼드 및 밑줄) 내의 세 개의 아데닌(빨간색으로 표시)을 예시로서 나타내었고, ABE-편집된 결과에 대한 계산상 예측 및 실험적으로 측정된 빈도를 나타내었다. 프로토스페이서 인접 모티프(protospacer adjacent motif: PAM)은 파란색으로 표시하였고 염기 편집된 뉴클레오티드는 소문자로 표시하였다.
도 5는 ABE_efficiency, CBE_efficiency, ABE_proportion 및 CBE_proportion모델의 개발에 있어서, 교차검증을 사용하여 히든 레이어(hidden layer)의 수와 인풋 서열의 길이를 결정한 과정을 나타낸 도이다. 히트(heat) 맵은 10배 교차 검증(n=10)의 평균 (a) Spearman 상관 계수, (b) 쿨백-라이블러 발산 값을 나타낸 것이다.
도 6은 주어진 표적 서열에서 aBe- 및 CBe-유도된 염기 전환의 효율 및 결과를 예측하는 예측 모델의 개발 및 평가를 나타낸 도이다.
(a) 통합(integrated) 및 내인성(endogenous) 부위에서 ABE_efficiency, ABE_proportion 및 DeepABE의 성능 평가. 분석된 표적 서열의 수, 교정결과 빈도 및 각 결과의 효율(n)은 각각 다음과 같다: 통합된 위치의 경우 n = 438, n = 1,976 및 n = 2,124; 내인성 위치의 경우 n = 94, n = 435 및 n = 462. Spearman 상관 계수(R) 및 Pearson 상관 계수(r)를 표시하였다.
(b) 통합 및 내인성 위치에서 CBE_efficiency, CBE_proportion 및 DeepCBE의 성능 평가. 분석된 표적 서열의 수, 교정결과 빈도 및 각 결과의 효율(n)은 각각 다음과 같다: 통합된 부위의 경우 n = 482, n = 2,978 및 n = 3,107; n = 10; 내인성 부위의 경우 n = 522 및 n = 553.
(c) 동일 및 무작위 표적 쌍에 대해, 내인성 부위에서 (ABE_proportion 또는 CBE_proportion에 의해) 예측된 염기 편집 교정결과 빈도 vs. 측정된 염기 편집 교정결과 빈도 간의 대칭적(symmetrized) KL 발산 값(Kullback-Leibler divergence value)을 사용한 ABE_proportion 및 CBE_proportion의 성능 평가. 통합 부위(HT_ABE_Test (도면의 HT_ABE에 해당) 또는 HT_CBE_Test (도면의 HT_CBE에 해당)) vs. 내인성 부위(Endo_ABE_HEK293T 또는 Endo_CBE_HEK293T)에서 측정된 염기 편집 교정결과 빈도 간의 KL 발산 값을 참조 비교로서 나타내었다. 분석된 표적 서열의 수(n)는 다음과 같다: (좌측부터 우측으로) n = 59, n = 62, n = 269, n = 62, n = 52, n = 65, n = 290 및 n = 65.
(d) DeepABE / CBE 및 DeepABE / CBE-CA(염색질 접근성)의 성능 비교. 각 점은 측정된 인델 빈도와 예측된 활성 간의 Spearman 상관 계수를 나타낸다. 총 10 회에 걸친(n = 2 Х 5) 미세조정(fine-tuning) 및 후속 테스트 결과를 나타내었다(NS: 현저하지 않음).
도 7은 DeepABE 및 DeepCBE 개발의 개요를 나타낸 도이다.
도 8 및 도 9는 HEK293T (a-c), HCT116 (d) 및 U2OS (e, f) 세포의 내인성 부위에서 ABE_efficiency, ABE_proportion 및 DeepABE의 성능 평가 결과를 나타낸 도이다. 분석된 표적 서열의 수, 결과 및 각 결과의 효율(n)은 각각 다음과 같다: n = 94; n = 435; HEK293T 세포, replicate 1의 경우 n = 462; n = 87; n = 353; HEK293T, replicate 2의 경우 n = 379; n = 75; n = 316; HEK293T, replicate 3의 경우 n = 337; n = 41; n = 213; HCT116 세포의 경우 n = 244; n = 24; n = 100; U2OS 세포, replicate 1의 경우 n = 124; n = 25; n = 91; U2OS 세포, replicate 2의 경우 n = 116. Spearman 상관 계수(R) 및 Pearson 상관 계수(r)를 표시하였다.
도 10 및 도 11은 HEK293T (a-c), HCT116 (d) 및 U2OS (e, f) 세포의 내인성 부위에서 CBE_efficiency, CBE_proportion 및 DeepCBE의 성능 평가 결과를 나타낸 도이다. 분석된 표적 서열의 수, 결과 및 각 결과의 효율(n)은 각각 다음과 같다: n = 102; n = 522; HEK293T, replicate 1의 경우 n = 553; n = 95; n = 531; HEK293T, replicate 2의 경우 n = 559; n = 83; n = 413; HEK293T, replicate 3의 경우 n = 436; n = 36; n = 193; HCT116 세포의 경우 n = 203; n = 28; n = 149; U2OS 세포, replicate 1의 경우 n = 170; n = 23; n = 136; U2OS 세포, replicate 2의 경우 n = 159. Spearman 상관 계수(R) 및 Pearson 상관 계수(r)를 표시하였다.
도 12는 ABE 및 CBE-유도된 모델링 및 질환-관련 인간 점돌연변이의 교정에 대한 예측 결과. 상기 병원성 또는 유사병원성 점돌연변이는 적절한 거리에서 PAM(NGG)과 관련되며, 원칙적으로 야생형(wild-type) 서열로부터 생성되거나 위치 3 내지 10의 편집가능한 윈도우를 사용하는 ABE 또는 CBE에 의해 야생형의 서열로 전환된 것일 수 있다.
(a) 원칙적으로 ABE(녹색) 또는 CBE(주황색)를 사용하여 생성될 수 있는 질환-관련 점돌연변이의 수.
(b) 원칙적으로 ABE(녹색) 또는 CBE(주황색)를 사용하여 교정할 수 있는 질환-관련 점돌연변이의 수.
(c, d) 인간 iPSC에서 질환-관련 점돌연변이의 모델링에 대한 (c) ABE_proportion 및 CBE_proportion 및 (d) DeepABE 및 DeepCBE의 성능 평가. 모델링은 ABE 또는 CBE에 의해 정상 인간 iPSC에서 병원성/유사병원성 돌연변이를 도입함으로써 수행되었다. Spearman 상관 계수(R) 및 Pearson 상관 계수(r)를 표시하였다. (c)에서 결과의 수는 n = 465 (ABE의 경우) 및 767 (CBE의 경우) (d)에서 병원성/유사병원성 돌연변이 부위의 수는 n = 31 (ABE의 경우) 및 49 (CBE의 경우)이다.
도 13은 ABE- 및 CBE-유도된 모델링 및 질환-관련 인간 점돌연변이 교정결과를 예측한 도이다.
(a) ABE- 및 CBE-유도된 모델링 및 질환-관련 인간 점돌연변이 교정에 대한 in silico 실험 결과를 나타낸 분포도이다. 파이 차트(pie chart)에 효율 ≥ 5% (빨간색) 또는 <5% (파란색)으로 생성 또는 교정될 수 있는 병원성 및 유사병원성 점돌연변이의 수를 나타내었다. 염기교정 범위 내 단일 A 또는 C를 갖는 점돌연변이를 연한 빨간색 또는 연한 파란색으로 나타내었고, 염기교정 범위 내 2개 이상 A 또는 C를 가진 점돌연변이를 짙은 빨간색 또는 짙은 파란색으로 나타내었다. 각 파이의 영역은 상응하는 점돌연변이의 수에 비례한다.
구체적으로, (a)의 좌측 차트는 염기교정 유전자가위로 만들 수 있는 인간질환의 수를, (a)의 우측 상단 차트는 염기교정 유전자가위로 추가 변이 없이 사용 가능한 인간 질환의 수를 나타낸 것으로, 상기 파이 차트에서 염기교정 유전자가위의 효율은 본원의 "효율 스코어"와 "교정결과 스코어"를 곱하여 구한 값으로 평가하였다. (a)의 우측 하단 차트의 경우, 염기교정 유전자가위로 위험하지 않은 추가 변이를 동반하여 사용 가능한 인간 질환의 수를 나타낸 것으로, 본원의 "효율 스코어"와 "교정결과 스코어"를 곱한 뒤 위험한 변이가 없는 것으로 예측한 교정결과를 더하여 산출하였다.
(b) 염기교정 유전자가위로 만들 수 있는 교정결과의 예시를 나타낸 표이다.
1 is a diagram analyzing the characteristics of adenine and cytosine base-correcting gene scissors based on large-scale activity data.
(a, b) the relationship between the location of editable (a) adenine or (b) cytosine in the protospacer and the frequency of base editing measured in a high-throughput manner in the integrated target sequences. Base editing frequencies measured at positions 1 to 20 of the protospacer region in the integrated target sequence are shown. Position 20 is located just upstream of the PAM (NGG). The number of target sequences analyzed (n) was as follows: (a) n = 2,427 to 2,898 for ABE; (b) n = 2,847 to 3,858 for CBE. The top, center, and bottom lines in the box represent the 25th, 50th, and 75th percentiles, respectively. Whiskers represent the 1st and 99th percentile values, respectively.
(c, d) SpCas9-induced indel frequencies and (c) ABE- or (d) CBE-induced base conversion efficiencies were determined for the same integrated target sequence. In order to exclude the effect of nucleotide positions in the protospacer region on the nucleotide editing efficiency, only target sequences having bases corresponding to positions in the same protospacer region were compared. Heat color indicates the number of target sequences in hexagonal bins. The number of analyzed target sequences (n) was as follows: (c) n = 2,172 to 2,307 for ABE; (d) n = 2,746 to 2,964 for CBE. Spearman's correlation coefficient (R) and Pearson's (Pearson's) correlation coefficient (r) are indicated.
(e, f) Effect of sequence context around the target base (red) on (e) ABE- and (f) CBE-directed base editing frequencies at positions 4-8 bp from the 4' end of the protospacer region . The target base conversion frequency was normalized to the median frequency of the sequence motif representing the highest median editing frequency at each position, yielding a relative frequency. The number of target motifs analyzed (n) was as follows: (e) n = 383 to 1,413 for ABE; (f) n = 498 to 1,110 for CBE. The top, center, and bottom lines in the box represent the 25th, 50th, and 75th percentiles, respectively. The whiskers represent the 1st and 99th percentile values, respectively. Subsets of context sequences with no statistically significant differences in target base conversion frequencies were denoted by letters such as a, b, c, ... and h (P<0.05; one-way ANOVA and Tukey's post hoc). determined by the assay).
2 is a diagram showing the effect of sequence context around a target adenine (left) or cytosine (right) on base editing at each position. Target bases are shown in red, and the relative base editing frequencies were normalized to the median frequencies of sequence motifs representing the highest median editing frequencies at each position. The number of analyzed target sequences (n) is as follows:
ABE at position 4: n = 159 (TAC), 106 (TAT), 99 (TAG), 126 (GAT), 143 (GAC), 176 (CAT), 219 (CAC), n = 78 (TAA), n = 169 (GAG), n = 267 (CAG), n = 146 (AAC), n = 144 (GAA), n = 158 (CAA), n = 123 (AAT); n = 166 (AAG), n = 154 (AAA);
ABE at position 5: n = 153 (TAC), 97 (TAT), 70 (TAG), 155 (GAT), 161 (GAC), 205 (CAT), 252 (CAC), 2 (TAA), 165 ( GAG), 268 (CAG), 140 (AAC), 181 (GAA), 189 (CAA), 123 (AAT), 129 (AAG), 142 (AAA);
ABE at position 6: n = 186 (TAC), 103 (TAT), 117 (TAG), 163 (GAT), 188 (GAC), 168 (CAT), 226 (CAC), 80 (TAA), 194 ( GAG), 306 (CAG), 135 (AAC), 165 (GAA), 117 (CAA), 130 (AAT), 176 (AAG), 143 (AAA);
ABE at position 7: n = 168 (TAC), 108 (TAT), 119 (TAG), 127 (GAT), 155 (GAC), 169 (CAT), 235 (CAC), 78 (TAA), 174 ( GAG), 289 (CAG), 125 (AAC), 178 (GAA), 134 (CAA), 97 (AAT), 162 (AAG), 121 (AAA);
ABE at position 8: n = 170 (TAC), 105 (TAT), 76 (TAG), 148 (GAT), 169 (GAC), 221 (CAT), 240 (CAC), (TAA), 165 (GAG) ), 282 (CAG), 118 (AAC), 194 (GAA), 170 (CAA), 125 (AAT), 134 (AAG), 134 (AAA);
CBE at position 4: n = 186 (TCC), 101 (TCG), 176 (TCT), 211 (TCA), 230 (CCC), 219 (CCT), 183 (ACC), 243 (CCA), 183 ( CCG), 115 (ACG), 153 (ACT), 177 (ACA), 203 (GCC), 220 (GCT), 170 (GCG), 194 (GCA);
CBE at position 5: n = 173 (TCC), 93 (TCG), 173 (TCT), 173 (TCA), 182 (CCC), 231 (CCT), 181 (ACC), 219 (CCA), 170 ( CCG), 91 (ACG), 178 (ACT), 157 (ACA), 222 (GCC), 223 (GCT), 148 (GCG), 84 (GCA);
CBE at position 6: n = 198 (TCC), 108 (TCG), 157 (TCT), 174 (TCA), 192 (CCC), 195 (CCT), 193 (ACC), 195 (CCA), 176 ( CCG), 104 (ACG), 152 (ACT), 161 (ACA), 228 (GCC), 159 (GCT), 154 (GCG), 200 (GCA);
CBE at position 7: n = 195 (TCC), 125 (TCG), 171 (TCT), 232 (TCA), 180 (CCC), 208 (CCT), 198 (ACC), 248 (CCA), 175 ( CCG), 118 (ACG), 165 (ACT), 165 (ACA), 213 (GCC), 213 (GCT), 158 (GCG), 173 (GCA);
CBE at position 8: n = 163 (TCC), 93 (TCG), 152 (TCT), 199 (TCA), 177 (CCC), 233 (CCT), 211 (ACC), 205 (CCA), 171 ( CCG), 70 (ACG), 126 (ACT), 193 (ACA), 227 (GCC), 225 (GCT), 172 (GCG), 200 (GCA).
The top, center, and bottom lines in the box represent the 25th, 50th, and 75th percentiles, respectively. The whiskers represent the 1st and 99th percentile values, respectively. Subsets of context sequences without statistically significant differences in base editing and indel frequencies were denoted by letters such as a, b, c, ... and j (P<0.05; one-way ANOVA and Tukey's determined by post hoc tests).
3 is a diagram showing the effect of the sequence context around the target base (red) on the frequency of SpCas9-induced indels at positions 4 to 8 bp from the 5' end of the protospacer region. The target sequences of (a) and (b) are the same as those of (e, f) of FIG. 1 , respectively. Indel frequencies were normalized to the median frequencies of sequence motifs representing the highest median editing frequency at each position. The number of analyzed target sequences per 3 nucleotide motif (n) is:
(a) n = 807 (TAC), 478 (TAT), 464 (TAG), 685 (GAT), 1,142 (GAC), 787 (CAT), 903 (CAC), 350 (TAA), 832 (GAG), 1,379 (CAG), 638 (AAC), 823 (GAA), 738 (CAA), 558 (AAT), 735 (AAG), 620 (AAA);
(b) n = 915 (TCC), 520 (TCG), 829 (TCT), 989 (TCA), 961 (CCC), 1,086 (CCT), 966 (ACC), 1,110 (CCA), 875 (CCG), 498 (ACG), 774 (ACT), 853 (ACA), 1,093 (GCC), 1,040 (GCT), 802 (GCG), 951 (GCA).
The top, center, and bottom lines in the box represent the 25th, 50th, and 75th percentiles, respectively. The whiskers represent the 1st and 99th percentile values, respectively. Subsets of context sequences without statistically significant differences in base editing and indel frequencies were denoted by letters a, b, c, ... and f (P<0.05; one-way ANOVA and Tukey's determined by post hoc tests).
4 is a schematic diagram of a predictive model for predicting the nucleotide correction efficiency of nucleotide correction gene scissors and the frequency of possible correction results. Three adenines (indicated in red) within editable windows (bold and underlined) are shown as examples, and computationally predicted and experimentally determined frequencies for ABE-edited results are shown. A protospacer adjacent motif (PAM) is shown in blue, and base-edited nucleotides are shown in lower case letters.
5 is a diagram illustrating a process of determining the number of hidden layers and the length of an input sequence using cross-validation in the development of ABE_efficiency, CBE_efficiency, ABE_proportion and CBE_proportion models. The heat map shows the mean (a) Spearman correlation coefficient, and (b) Kullback-Leibler divergence values of 10-fold cross-validation (n=10).
6 is a diagram illustrating the development and evaluation of a predictive model for predicting the efficiency and results of aBe- and CBe-induced base conversion in a given target sequence.
(a) Performance evaluation of ABE_efficiency, ABE_proportion and DeepABE at integrated and endogenous sites. The number of target sequences analyzed, the frequency of calibration results and the efficiency (n) of each result were respectively as follows: n = 438, n = 1,976 and n = 2,124 for integrated positions; For endogenous locations, n = 94, n = 435 and n = 462. Spearman correlation coefficients (R) and Pearson correlation coefficients (r) are shown.
(b) Performance evaluation of CBE_efficiency, CBE_proportion, and DeepCBE at the integration and endogenous locations. The number of target sequences analyzed, the frequency of calibration results and the efficiency (n) of each result were respectively as follows: n = 482, n = 2,978 and n = 3,107 for integrated sites; n = 10; n = 522 and n = 553 for endogenous sites.
(c) Predicted base-editing correction frequencies (by ABE_proportion or CBE_proportion) vs. endogenous sites for identical and random target pairs. Performance evaluation of ABE_proportion and CBE_proportion using the symmetrized KL divergence value (Kullback-Leibler divergence value) between the measured base editing correction results. Integration site (HT_ABE_Test (corresponding to HT_ABE in drawing) or HT_CBE_Test (corresponding to HT_CBE in drawing)) vs. The KL divergence values between the frequencies of the base editing corrections measured at the endogenous sites (Endo_ABE_HEK293T or Endo_CBE_HEK293T) are shown as reference comparisons. The number of target sequences analyzed (n) is as follows: (from left to right) n = 59, n = 62, n = 269, n = 62, n = 52, n = 65, n = 290 and n = 65.
(d) Performance comparison of DeepABE/CBE and DeepABE/CBE-CA (chromatin accessibility). Each point represents the Spearman correlation coefficient between the measured indel frequency and the predicted activity. Fine-tuning and subsequent test results over a total of 10 runs (n = 2 Х 5) were shown (NS: not significant).
7 is a diagram showing the outline of DeepABE and DeepCBE development.
8 and 9 are diagrams illustrating performance evaluation results of ABE_efficiency, ABE_proportion and DeepABE in endogenous regions of HEK293T (ac), HCT116 (d) and U2OS (e, f) cells. The number of analyzed target sequences, the results, and the efficiency (n) of each result were respectively as follows: n = 94; n = 435; HEK293T cells, n = 462 for replicate 1; n = 87; n = 353; HEK293T, n = 379 for replicate 2; n = 75; n = 316; HEK293T, n = 337 for replicate 3; n = 41; n = 213; n = 244 for HCT116 cells; n = 24; n = 100; U2OS cells, n = 124 for replicate 1; n = 25; n = 91; For U2OS cells, replicate 2, n = 116. Spearman correlation coefficients (R) and Pearson correlation coefficients (r) are indicated.
10 and 11 are diagrams illustrating performance evaluation results of CBE_efficiency, CBE_proportion and DeepCBE in endogenous regions of HEK293T (ac), HCT116 (d) and U2OS (e, f) cells. The number of analyzed target sequences, the results, and the efficiency (n) of each result were respectively as follows: n = 102; n = 522; HEK293T, for replicate 1, n = 553; n = 95; n = 531; HEK293T, n = 559 for replicate 2; n = 83; n = 413; HEK293T, n = 436 for replicate 3; n = 36; n = 193; n = 203 for HCT116 cells; n = 28; n = 149; U2OS cells, n = 170 for replicate 1; n = 23; n = 136; U2OS cells, n = 159 for replicate 2. Spearman correlation coefficients (R) and Pearson correlation coefficients (r) are indicated.
12 is a prediction result for ABE and CBE-induced modeling and correction of disease-related human point mutations. Said pathogenic or pseudopathogenic point mutations are associated with PAM (NGG) at an appropriate distance and are in principle generated from wild-type sequences or wild-type sequences by ABE or CBE using an editable window from positions 3 to 10. may have been converted to
(a) Number of disease-associated point mutations that could in principle be generated using ABE (green) or CBE (orange).
(b) The number of disease-associated point mutations that can in principle be corrected using ABE (green) or CBE (orange).
(c, d) Performance evaluation of (c) ABE_proportion and CBE_proportion and (d) DeepABE and DeepCBE on the modeling of disease-associated point mutations in human iPSCs. Modeling was performed by introducing pathogenic/pseudopathogenic mutations in normal human iPSCs by ABE or CBE. Spearman correlation coefficient (R) and Pearson correlation coefficient (r) are indicated. The number of results in (c) is n = 465 (for ABE) and 767 (for CBE). In (d), the number of pathogenic/pseudopathogenic mutation sites is n = 31 (for ABE) and 49 (for CBE). )to be.
13 is a diagram showing predictions of ABE- and CBE-induced modeling and disease-related human point mutation correction results.
(a) Distribution diagram showing the results of in silico experiments on ABE- and CBE-induced modeling and disease-related human point mutation correction. A pie chart shows the number of pathogenic and pseudopathogenic point mutations that can be generated or corrected with efficiencies ≥ 5% (red) or <5% (blue). Point mutations with a single A or C within the base correction range are indicated in light red or light blue, and point mutations with two or more A or C within the base correction range are indicated in dark red or dark blue. The area of each pie is proportional to the number of corresponding point mutations.
Specifically, the chart on the left of (a) shows the number of human diseases that can be made with nucleotide editing, and the chart on the top right of (a) shows the number of human diseases that can be used without additional mutations with nucleotide correction. In the pie chart, the efficiency of base-correction gene scissors was evaluated as a value obtained by multiplying the "efficiency score" of the present application and the "correction result score". In the case of the lower right chart of (a), it shows the number of human diseases that can be used with additional non-dangerous mutations with base-correction gene scissors. It was calculated by adding the correction results that were predicted to be absent.
(b) A table showing examples of correction results that can be made with base-correction gene scissors.

이하 일 양상을 실시예 및 실험예를 통하여 보다 상세하게 설명한다. 그러나 이들 실시예 및 실험예는 일 양상을 예시적으로 설명하기 위한 것으로 일 양상의 범위가 이들 실시예 및 실험예에 한정되는 것은 아니며, 일 양상의 실시예 및 실험예는 당업계에서 평균적인 지식을 가진 자에게 일 양상을 보다 완전하게 설명하기 위해서 제공되는 것이다.Hereinafter, an aspect will be described in more detail through Examples and Experimental Examples. However, these Examples and Experimental Examples are for illustrative purposes of an aspect, and the scope of an aspect is not limited to these Examples and Experimental Examples, and the Examples and Experimental Examples of an aspect are average knowledge in the art. It is provided to more completely explain an aspect to those with

실험방법Experimental method

1. 올리고뉴클레오티드 라이브러리 및 플라스미드 라이브러리의 제작1. Construction of oligonucleotide library and plasmid library

Twist Bioscience Co.에 의뢰하여 총 17,840개 올리고뉴클레오티드 풀(pool)의 라이브러리를 제작하였다. 올리고뉴클레오티드 풀에 대한 표적 서열로서, 임의의 합성 서열은 sgRNA 또는 편집가능한 윈도우 내의 A 또는 C 포함 여부 등에 대한 어떠한 정보도 없이 생성되었다. 올리고뉴클레오티드 풀은 GeCKOv1 라이브러리로부터 임의로 선택된 9,824개의 표적 서열, 세포 표면 마커를 코딩(encoding)하는 유전자로부터 선택된 1,804개의 표적 서열, 베무라페닙, 셀루메티닙 및 6-티오구아닌에 대한 내성과 관련된 유전자로부터 선택된 2,484개의 표적 서열, GC 함량이 극히 낮거나 높은(≤20% 또는 ≥80%) 가이드 서열을 함유하는 998개 인풋 서열 및 관심 유전자와 관련된 인간 코딩 및 비코딩 유전자로부터 546개의 표적 서열이 포함되었다. 상기 546개의 표적 서열의 경우 표적 서열 당 다섯개의 바코드를 사용하여 각 표적 부위에 대한 5-fold 커버리지(coverage)를 생성하였다. 종합하면, 17,840개의 올리고뉴클레오티드 세트는 9,824+1,804+2,484+998+(546Х5) 개의 올리고뉴클레오티드로 구성되고, 9,824+1,804+2,484+998+546=15,656 쌍의 sgRNA-코딩 및 표적 서열을 포함한다. 이를 이용하여, HT_ABE_Train 및 HT_CBE_Train 데이터 세트를 생성하고, 이 중 546쌍은 HT_ABE_Test 및 HT_CBE_Test 데이터 세트 생성에 사용되었다. Twist Bioscience Co. was commissioned to prepare a library of a total of 17,840 oligonucleotide pools. As the target sequence for the oligonucleotide pool, any synthetic sequence was generated without any information about the sgRNA or whether it contained A or C within an editable window, etc. The oligonucleotide pool was selected from 9,824 target sequences randomly selected from the GeCKOv1 library, 1,804 target sequences selected from genes encoding cell surface markers, and genes associated with resistance to vemurafenib, selumetinib and 6-thioguanine. 546 target sequences from selected 2,484 target sequences, 998 input sequences containing guide sequences with extremely low or high GC content (≤20% or ≥80%) and human coding and non-coding genes associated with the gene of interest were included. . In the case of the 546 target sequences, five barcodes per target sequence were used to generate 5-fold coverage for each target site. Taken together, the 17,840 oligonucleotide set consists of 9,824+1,804+2,484+998+(546Х5) oligonucleotides and contains 9,824+1,804+2,484+998+546=15,656 pairs of sgRNA-coding and target sequences. Using this, the HT_ABE_Train and HT_CBE_Train data sets were generated, of which 546 pairs were used to generate the HT_ABE_Test and HT_CBE_Test data sets.

가이드 RNA 및 상응하는 표적 서열 쌍을 함유하는 플라스미드 라이브러리는 깁슨 어셈블리(Gibson assembly)와 후속하는 제한효소에 의한 절단(cutting) 및 결찰(ligation)의 2 단계 클로닝 과정을 수반하여 제작되었다.A plasmid library containing the guide RNA and the corresponding target sequence pair was constructed with a two-step cloning process of Gibson assembly followed by restriction enzyme cutting and ligation.

2. 플라스미드 벡터의 제조2. Preparation of plasmid vectors

개별 split-ABE 플라스미드의 제조를 위해, ABE7.10-코딩 서열(Addgene, no. 102919) 및 인테인-매개 split-Cas9-코딩 서열의 단편을 PCR 증폭시키고 lentiCas9-Blast(Addgene, no. 52962) 또는 pX601(Addgene, no. 61591) 플라스미드로 클로닝하였다. 생성된 플라스미드를 Lenti_Split-ABE-N-Blast, Lenti_SplitABE-C-Hygro-eGFP, AAV_Split-ABE-N 및 AAV_Split-ABE-C로 명명하였다. For the preparation of individual split-ABE plasmids, fragments of the ABE7.10-coding sequence (Addgene, no. 102919) and intein-mediated split-Cas9-coding sequence were PCR amplified and lentiCas9-Blast (Addgene, no. 52962) or pX601 (Addgene, no. 61591) plasmid. The resulting plasmids were named Lenti_Split-ABE-N-Blast, Lenti_SplitABE-C-Hygro-eGFP, AAV_Split-ABE-N and AAV_Split-ABE-C.

개별 split-BE4 플라스미드의 제조를 위해, BE4-코딩 서열(Addgene, no. 100802) 및 인테인-매개 split-Cas9-코딩 서열의 단편을 PCR 증폭시키고 lentiCas9-Blast(Addgene, no. 52962) 또는 pX601(Addgene, no. 61591) 플라스미드로 클로닝하였다. 생성된 플라스미드를 Lenti_Split-BE4-N-Blast, Lenti_Split-BE4-C-Hygro, AAV_Split-BE4-N 및 AAV_Split-BE4-C로 명명하였다.For the preparation of individual split-BE4 plasmids, fragments of the BE4-coding sequence (Addgene, no. 100802) and the intein-mediated split-Cas9-coding sequence were PCR amplified and lentiCas9-Blast (Addgene, no. 52962) or pX601 (Addgene, no. 61591) was cloned into a plasmid. The resulting plasmids were named Lenti_Split-BE4-N-Blast, Lenti_Split-BE4-C-Hygro, AAV_Split-BE4-N and AAV_Split-BE4-C.

전장 ABE7.10을 코딩하는 렌티바이러스 벡터를 제조하기 위해, pLenti6/V5-GW/LacZ 플라스미드를 구매하고(ThermoFisher) 후속 복제를 위해 변형시켰다: EcoRV 제한 효소(NEB)로 LacZ 단편을 분해하고, 우드척 간염바이러스 전사후 조절요소(posttranscriptional regulatory element of woodchuck hepatitis)의 서열을 KpnI 효소-인식 부위에 삽입하였다. pCMV-ABE7.10 (Addgene, no. 107723)으로부터의 전장 ABE-코딩 서열을 변형된 pLenti6/V5-GW/LacZ 플라스미드에 클로닝하고 생성된 플라스미드를 Lenti-ABE-Blast로 명명하였다. pcDNA-BSD 플라스미드는 BSD 유전자를 PCR 증폭시키고 Kpnl 및 EcoRI로 분해한 후 pcDNA 3.1(+) 벡터(Invitrogen)에 클로닝하여 준비하였다. To prepare the lentiviral vector encoding the full-length ABE7.10, the pLenti6/V5-GW/LacZ plasmid was purchased (ThermoFisher) and modified for subsequent replication: the LacZ fragment was digested with EcoRV restriction enzyme (NEB) and Wood The sequence of the posttranscriptional regulatory element of woodchuck hepatitis was inserted into the KpnI enzyme-recognition site. The full-length ABE-coding sequence from pCMV-ABE7.10 (Addgene, no. 107723) was cloned into the modified pLenti6/V5-GW/LacZ plasmid and the resulting plasmid was named Lenti-ABE-Blast. The pcDNA-BSD plasmid was prepared by amplifying the BSD gene by PCR, digesting it with Kpnl and EcoRI, and cloning the pcDNA 3.1(+) vector (Invitrogen).

3. 렌티바이러스의 생산3. Production of Lentiviruses

렌티바이러스 라이브러리 생산을 위해, 인간 배아 신장 세포인 HEK293T 세포(ATCC)를 준비하였다. 관심 유전자, psPAX2 및 pMD2.G를 함유하는 3개의 전달 플라스미드를 4:3:1의 중량비로 혼합하여 총 20μg의 플라스미드 혼합물을 생성하고, 리포펙타민 2000 (Invitrogen)을 사용하여 이를 HEK293T 세포에 형질감염시켰다. 형질감염 후 12 시간에 신선한 배지를 세포에 가하고, 형질 감염 후 36 시간에 바이러스를 함유한 상층액을 수득하였다. 수득된 상층액은 Millex-HV 0.45 ㎛ 저-단백질 결합 멤브레인(Millipore)으로 여과하고, 분액은 사용시까지 -80℃에 보관하였다. 바이러스 수율은 Lenti-X p24 Rapid Titer Kit(Clontech)로 측정하여 검증하였다. 바이러스 역가 산출을 위해, 순차 희석된 바이러스 분액을 8 ㎍㎖-1의 폴리브렌(polybrene)의 존재에서 HEK293T 세포에 형질도입하고, 2 ㎍㎖-1 퓨로마이신 또는 20 ㎍㎖-1 블라스티시딘(blasticidin) S (InvivoGen)의 존재에서 배양하여 산출하였다.For lentiviral library production, HEK293T cells (ATCC), which are human embryonic kidney cells, were prepared. The three transfer plasmids containing the gene of interest, psPAX2 and pMD2.G, were mixed in a weight ratio of 4:3:1 to generate a plasmid mixture of a total of 20 μg, which was transfected into HEK293T cells using Lipofectamine 2000 (Invitrogen). infected. A fresh medium was added to the cells 12 hours after transfection, and a supernatant containing virus was obtained 36 hours after transfection. The obtained supernatant was filtered through a Millex-HV 0.45 μm low-protein binding membrane (Millipore), and the aliquot was stored at -80°C until use. Virus yield was verified by measuring with Lenti-X p24 Rapid Titer Kit (Clontech). For virus titer calculation, serially diluted virus aliquots were transduced into HEK293T cells in the presence of 8 μg ml -1 polybrene, and 2 μg ml -1 puromycin or 20 μg ml -1 blasticidin It was calculated by culturing in the presence of (blasticidin) S (InvivoGen).

준비된 렌티바이러스 라이브러리의 형질도입을 위해, HEK293T 세포(9.0Х106)를 배양 접시에 밤새 배양하였다. 감염다중도(multiplicity of infection: MOI) 0.3의 렌티바이러스 라이브러리를 8 ㎍㎖-1의 폴리브렌의 존재에서 HEK293T 세포에 형질도입하고, 세포를 15~18시간 동안 배양하였다. 세포를 2 ㎍㎖-1 퓨로마이신의 존재에서 배양하여 형질도입되지 않은 세포를 제거하고, 9.0Х106세포의 양으로 세포 라이브러리를 유지하였다.For transduction of the prepared lentiviral library, HEK293T cells (9.0Х10 6 ) were cultured overnight in a culture dish. A lentiviral library with a multiplicity of infection (MOI) of 0.3 was transduced into HEK293T cells in the presence of 8 μg ml −1 polybrene, and the cells were cultured for 15 to 18 hours. Cells were cultured in the presence of 2 μgml −1 puromycin to remove non-transduced cells, and the cell library was maintained at an amount of 9.0Х10 6 cells.

4. 세포 라이브러리에 ABE, CBE의 전달4. Delivery of ABE, CBE to Cell Libraries

ABE의 경우, Lenti_Split-ABE-N-Blast 및 Lenti_Split-ABE-C-Hygro-Egfp를 1:1의 중량비로 혼합하여 총 240μg의 플라스미드 혼합물을 생성하고, 리포펙타민 2000을 사용하여 이를 5.2Х107 개 양의 세포 라이브러리로 전달하였다. CBE의 경우, Lenti_Split-BE4-N-Blast, Lenti_Split-BE4-C-Hygro 및 pcDNA-BSD를 9:9:2의 중량비로 혼합하여 총 20μg의 플라스미드 혼합물을 생성하고, 네온 형질감염 시스템 (ThermoFisher Scientific)을 사용하여 2Х106 라이브러리 세포에 전기 천공시켰다. 다음날 배양 배지를 10% FBS가 보충된 DMEM, 40μg ml-1 블라스티시딘 S (InvivoGen) 및 80μg ml-1 하이그로마이신(hygromycin) B 골드 (InvivoGen)로 교체하고, 형질감염 5일 후 배양물을 수집하여 사용하였다. For ABE, Lenti_Split-ABE-N-Blast and Lenti_Split-ABE-C-Hygro-Egfp were mixed in a weight ratio of 1:1 to produce a total of 240 μg of a plasmid mixture, which was 5.2Х10 7 using Lipofectamine 2000 Canine sheep cells were transferred to the library. For CBE, Lenti_Split-BE4-N-Blast, Lenti_Split-BE4-C-Hygro, and pcDNA-BSD were mixed in a weight ratio of 9:9:2 to generate a total of 20 μg of plasmid mixture, followed by a neon transfection system (ThermoFisher Scientific). ) was used to electroporate 2Х10 6 library cells. The next day, the culture medium was replaced with DMEM supplemented with 10% FBS, 40 μg ml -1 blasticidin S (InvivoGen) and 80 μg ml -1 hygromycin B gold (InvivoGen), and cultured 5 days after transfection. Water was collected and used.

5. 내인성 부위(endogenous sites)에서 염기 편집 빈도의 측정5. Determination of base editing frequency at endogenous sites

내인성 부위에서의 ABE 및 CBE 활성 평가를 위해, 546개 내인성 표적 중 총 153개 표적 부위가 선택되었다(DHS 부위 70개, 비-DHS 부위 83개). HEK293T 세포에 sgRNA를 코딩하는 플라스미드 100ng (pRG2; Addgene no. 104174) 및 전장-길이 ABE7.10(Lenti-ABE-Blast) 또는 split-BE4(lenti-BE4-N-Blast, lenti-BE4-C-Hygro; 1:1 비율)를 코딩하는 플라스미드 100ng의 혼합물로 형질감염시켜 각각의 활성을 측정하였다. HCT116 세포는 sgRNA(pRG2)를 코딩하는 플라스미드 100ng, split-ABE (AAV-Split-ABE7.10-N, AAV-Split-ABE7.10-C; 1:1 비율) 또는 split-BE4 (AAV-Split-BE4-N, AAV-Split-BE4-C; 1:1 비율)를 코딩하는 플라스미드 200ng 및 eGFP 및 퓨로마이신 N-아세틸트랜스퍼라제를 코딩하는 플라스미드 50ng으로 형질감염시켰다. HEK293T 또는 HCT116 세포는 각 웰당 1.0Х105 또는 4.0Х104의 밀도로 형질감염시켰다. U2OS 세포는 sgRNA를 코딩하는 플라스미드 1μg(pRG2, Addgene no. 104174), eGFP를 코딩하는 플라스미드 500ng 및 퓨로마이신 N-아세틸트랜스퍼라제(pEGFP-Puro, Addgene no. 45561) 및 전장 ABE7.10(Lenti-ABE-Blast) 또는 split-BE4 (Lenti-BE4-N-Blast, Lenti-BE4-C-Hygro; 1:1 비율)를 코딩하는 플라스미드 1μg의 혼합물로 형질감염시켰다. 플라스미드 혼합물을 네온 형질 감염 시스템(ThermoFisher Scientific)을 사용하여 1x106 U2OS 세포로 전기 천공시켰다. 밤새 배양한 후, 배양 배지를 10% FBS 및 2μg ml-1의 퓨로마이신 (InvivoGen)이 보충된 DMEM으로 교체하였다. ABE7.10 또는 BE4로 형질감염된 세포를 수집하고 5일 후(HEK293T 세포 및 U2OS 세포) 또는 3.5 일(HCT116 세포) 후 딥 시퀀싱(Deep sequencing) 하였다.For evaluation of ABE and CBE activity at endogenous sites, a total of 153 target sites out of 546 endogenous targets were selected (70 DHS sites, 83 non-DHS sites). 100 ng of plasmid encoding sgRNA in HEK293T cells (pRG2; Addgene no. 104174) and full-length ABE7.10 (Lenti-ABE-Blast) or split-BE4 (lenti-BE4-N-Blast, lenti-BE4-C- Each activity was measured by transfection with a mixture of 100 ng of plasmids encoding Hygro; 1:1 ratio). HCT116 cells were treated with 100 ng of plasmid encoding sgRNA (pRG2), split-ABE (AAV-Split-ABE7.10-N, AAV-Split-ABE7.10-C; 1:1 ratio) or split-BE4 (AAV-Split) -BE4-N, AAV-Split-BE4-C; 1:1 ratio) and 50 ng of plasmids encoding eGFP and puromycin N-acetyltransferase. HEK293T or HCT116 cells were transfected at a density of 1.0Х10 5 or 4.0Х10 4 per well. U2OS cells consisted of 1 μg of plasmid encoding sgRNA (pRG2, Addgene no. 104174), 500 ng of plasmid encoding eGFP and puromycin N-acetyltransferase (pEGFP-Puro, Addgene no. 45561) and full-length ABE7.10 (Lenti- ABE-Blast) or split-BE4 (Lenti-BE4-N-Blast, Lenti-BE4-C-Hygro; 1:1 ratio) were transfected with a mixture of 1 μg of plasmids. The plasmid mixture was electroporated into 1x10 6 U2OS cells using a neon transfection system (ThermoFisher Scientific). After overnight incubation, the culture medium was replaced with DMEM supplemented with 10% FBS and 2 μg ml -1 of puromycin (InvivoGen). Cells transfected with ABE7.10 or BE4 were collected and deep sequencing after 5 days (HEK293T cells and U2OS cells) or 3.5 days (HCT116 cells).

6. 질환 모델링 및 질환-연관 돌연변이의 교정6. Disease Modeling and Correction of Disease-Associated Mutations

인간 유도만능줄기세포에서 염기교정 유전자가위로 만들 수 있는 질환 모델링 및 질환-관련 돌연변이의 교정을 확인하였다. 먼저, ClinVar 데이터베이스의 질환 관련 점돌연변이들 중 다수 개(적어도 3개 이상)의 표적 A 또는 C들을 포함하고 좁은 편집가능한 윈도우(위치 4 내지 8)에 위치한 총 95개 돌연변이를 선택하였다. 정상 인간 iPSC를 Essential 8 배지(ThermoFisher Scientific)에서 배양하였다. 질환-관련 점돌연변이를 유도하기 위해, 인간 iPSC를 split-ABE (AAV-Split-ABE7.10-N, AAV-Split-ABE7.10-C; 1:1 비율) 또는 split-BE4 (AAV-Split-BE4-N, AAV-Split-BE4-C; 1:1 비율), sgRNA (pRG2, Addgene no. 104174)를 코딩하는 플라스미드 150 ng 및 eGFP와 퓨로마이신 N-아세틸트랜스퍼라제 (pEGFP-Puro, Addgene no. 45561)를 코딩하는 플라스미드 100ng의 혼합물 500 ng으로 형질감염시켰다. ABE 및 CBE-매개된 질환-관련 점돌연변이 교정 효율을 측정하기 위해, 병원성 점돌연변이를 포함하는 합성 표적 서열을 렌티바이러스로 정상 인간 iPSC에 전달하였다. 배양 배지에 4μg ml-1 블라스티시딘을 첨가하여 형질도입되지 않은 세포를 제거하였다. 다음으로, 리포펙타민 시약(ThermoFisher Scientific)을 사용하여 표적 서열이 도입된 iPSC를 상기 3종류의 플라스미드 혼합물로 형질감염시켰다. 형질감염 후 밤새 배양한 뒤, 배양 배지를 10μM Y-27632(Sigma-Aldrich) 및 1μg ml-1 퓨로마이신(Gibco)으로 보충된 Essential 8 배지로 교체하였다. 퓨로마이신으로 선별한 후 24시간에 배지를 제거하고 웰 당 10μM Y-27632로 보충된 Essential 8 배지를 세포에 가해주었다. 형질감염 3일 후, 세포를 수집하고 유전체 DNA를 딥 시퀀싱하여 유전자가위의 효율 및 염기 편집의 결과를 측정하였다. Disease modeling and correction of disease-related mutations that can be made with base-correcting gene scissors in human induced pluripotent stem cells were confirmed. First, a total of 95 mutations containing multiple (at least 3 or more) targets A or C among the disease-associated point mutations in the ClinVar database and located in a narrow editable window (positions 4 to 8) were selected. Normal human iPSCs were cultured in Essential 8 medium (ThermoFisher Scientific). To induce disease-associated point mutations, human iPSCs were subjected to split-ABE (AAV-Split-ABE7.10-N, AAV-Split-ABE7.10-C; 1:1 ratio) or split-BE4 (AAV-Split) -BE4-N, AAV-Split-BE4-C; 1:1 ratio), 150 ng of plasmid encoding sgRNA (pRG2, Addgene no. 104174) and eGFP with puromycin N-acetyltransferase (pEGFP-Puro, Addgene no. 45561) and transfected with 500 ng of a mixture of 100 ng of plasmid. To measure the efficiency of ABE and CBE-mediated disease-associated point mutation correction, synthetic target sequences containing pathogenic point mutations were delivered as lentiviruses into normal human iPSCs. Non-transduced cells were removed by adding 4 μg ml -1 blasticidin to the culture medium. Next, using a lipofectamine reagent (ThermoFisher Scientific), iPSCs into which the target sequence was introduced were transfected with a mixture of the three types of plasmids. After overnight incubation after transfection, the culture medium was replaced with Essential 8 medium supplemented with 10 μM Y-27632 (Sigma-Aldrich) and 1 μg ml −1 puromycin (Gibco). 24 hours after selection with puromycin, the medium was removed, and Essential 8 medium supplemented with 10 μM Y-27632 per well was added to the cells. Three days after transfection, cells were collected and genomic DNA was deep-sequenced to measure the efficiency of gene scissors and the result of base editing.

7. 딥 시퀀싱(Deep sequencing)7. Deep sequencing

Wizard Genomic DNA 정제 키트(Promega)를 사용하여 세포로부터 유전체 DNA를 분리하였다. PCR은 2Х pfu PCR Smart mix (Solgent)를 사용하여 수행하였다. 고-처리량 실험을 위해, 첫번째 PCR에서 각 세포 라이브러리에 대해 총 264μg의 유전체 DNA를 이용하여 라이브러리에 대해 1,400x 이상의 커버리지가 되도록 하였다. 생성된 PCR 산물을 단일 풀(pool)로 합한 후 MEGAquick-spin total fragment DNA 정제 키트 (iNtRON Biotechnology)로 정제하였다. 정제된 산물 중 20 ng의 시료를 Illumina 어댑터 및 바코드 서열을 함유한 프라이머를 사용하여 2차 PCR 증폭하였다.Genomic DNA was isolated from cells using the Wizard Genomic DNA Purification Kit (Promega). PCR was performed using 2Х pfu PCR Smart mix (Solgent). For high-throughput experiments, a total of 264 μg of genomic DNA was used for each cell library in the first PCR to achieve a coverage of 1,400x or greater for the library. The resulting PCR products were combined into a single pool and purified with a MEGAquick-spin total fragment DNA purification kit (iNtRON Biotechnology). A sample of 20 ng of the purified product was amplified by secondary PCR using primers containing the Illumina adapter and barcode sequence.

실험에 사용된 프라이머는 다음과 같다(5'-3').The primers used in the experiment are as follows (5'-3').

올리고뉴클레오티드 풀(pool) 증폭용 프라이머Primers for oligonucleotide pool amplification

- 정방향: TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC (서열번호 1)- Forward: TTGAAAGTATTTCGATTTCTTGGCTTTATATATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 1)

- 역방향: GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT (서열번호 2)-reverse: GAGTAAGCTGACCGCTGAAGTACAAGTGGTAGAGTAGAGATCTAGTTACGCCAAGCT (SEQ ID NO: 2)

1차 PCR 반응용 프라이머Primers for the first PCR reaction

- 정방향: ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGAAAAAGTGGCACCGAGTCG (서열번호 3)- Forward: ACACTCTTTCCCTACACGACGCTCTTCCGATCTCTTGAAAAAGTGGCACCGAGTCG (SEQ ID NO: 3)

ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTTGAAAAAGTGGCACCGAGTCG (서열번호 4)ACACTCTTTCCCTACACGACGCTCTTCCGATCTTCTTGAAAAAGTGGCACCGAGTCG (SEQ ID NO: 4)

ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGCTTGAAAAAGTGGCACCGAGTCG (서열번호 5)ACACTCTTTCCCTACACGACGCTCTTCCGATCTCGCTTGAAAAAGTGGCACCGAGTCG (SEQ ID NO: 5)

- 역방향: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAAGTCGAGTAAGCTGACCGCTGAAG (서열번호 6)- Reverse: GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTTAAGTCGAGTAAGCTGACCGCTGAAG (SEQ ID NO: 6)

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTAAGTCGAGTAAGCTGACCGCTGAAG (서열번호 7)GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTATTAAGTCGAGTAAGCTGACCGCTGAAG (SEQ ID NO: 7)

GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTATTAAGTCGAGTAAGCTGACCGCTGAAG (서열번호 8)GTGACTGGAGTTCAGACGTGTGCTCTTCCGATCTTATTAAGTCGAGTAAGCTGACCGCTGAAG (SEQ ID NO: 8)

2차 PCR 반응용 프라이머(염기서열 중앙의 소문자는 8bp 바코드 서열을 의미함)Primer for secondary PCR reaction (lowercase letters in the center of the base sequence mean 8bp barcode sequence)

- 정방향: AATGATACGGCGACCACCGAGATCTACACtatagcctACACTCTTTCCCTACACGAC (서열번호 9)- Forward: AATGATACGGCGACCACCGAGATCTACACtatagcctACACTCTTTCCCTACACGAC (SEQ ID NO: 9)

AATGATACGGCGACCACCGAGATCTACACatagaggcACACTCTTTCCCTACACGAC (서열번호 10)AATGATACGGCGACCACCGAGATCTACACatagaggcACACTCTTTCCCTACACGAC (SEQ ID NO: 10)

AATGATACGGCGACCACCGAGATCTACACcctatcctACACTCTTTCCCTACACGAC (서열번호 11)AATGATACGGCGACCACCGAGATCTACACcctatcctACACTCTTTCCCTACACGAC (SEQ ID NO: 11)

AATGATACGGCGACCACCGAGATCTACACggctctgaACACTCTTTCCCTACACGAC (서열번호 12)AATGATACGGCGACCACCGAGATCTACACggctctgaACACTCTTTCCCTACACGAC (SEQ ID NO: 12)

AATGATACGGCGACCACCGAGATCTACACaggcgaagACACTCTTTCCCTACACGAC (서열번호 13)AATGATACGGCGACCACCGAGATCTACACaggcgaagACACTCTTTCCCTACACGAC (SEQ ID NO: 13)

AATGATACGGCGACCACCGAGATCTACACtaatcttaACACTCTTTCCCTACACGAC (서열번호 14)AATGATACGGCGACCACCGAGATCTACACtaatcttaACACTCTTTCCCTACACGAC (SEQ ID NO: 14)

AATGATACGGCGACCACCGAGATCTACACcaggacgtACACTCTTTCCCTACACGAC (서열번호 15)AATGATACGGCGACCACCGAGATCTACACcaggacgtACACTCTTTCCCTACACGAC (SEQ ID NO: 15)

AATGATACGGCGACCACCGAGATCTACACgtactgacACACTCTTTCCCTACACGAC (서열번호 16)AATGATACGGCGACCACCGAGATCTACACgtactgacACACTCTTTCCCTACACGAC (SEQ ID NO: 16)

- 역방향: CAAGCAGAAGACGGCATACGAGATcgagtaatGTGACTGGAGTTCAGACGTGT (서열번호 17)- reverse: CAAGCAGAAGACGGCATACGAGATcgagtaatGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 17)

CAAGCAGAAGACGGCATACGAGATtctccggaGTGACTGGAGTTCAGACGTGT (서열번호 18)CAAGCAGAAGACGGCATACGAGATtctccggaGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 18)

CAAGCAGAAGACGGCATACGAGATaatgagcgGTGACTGGAGTTCAGACGTGT (서열번호 19)CAAGCAGAAGACGGCATACGAGATaatgagcgGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 19)

CAAGCAGAAGACGGCATACGAGATggaatctcGTGACTGGAGTTCAGACGTGT (서열번호 20)CAAGCAGAAGACGGCATACGAGATggaatctcGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 20)

CAAGCAGAAGACGGCATACGAGATttctgaatGTGACTGGAGTTCAGACGTGT (서열번호 21)CAAGCAGAAGACGGCATACGAGATttctgaatGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 21)

CAAGCAGAAGACGGCATACGAGATacgaattcGTGACTGGAGTTCAGACGTGT (서열번호 22)CAAGCAGAAGACGGCATACGAGATacgaattcGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 22)

CAAGCAGAAGACGGCATACGAGATagcttcagGTGACTGGAGTTCAGACGTGT (서열번호 23)CAAGCAGAAGACGGCATACGAGATAgcttcagGTGACTGGAGTTCAGACGTGT (SEQ ID NO:23)

CAAGCAGAAGACGGCATACGAGATgcgcattaGTGACTGGAGTTCAGACGTGT (서열번호 24)CAAGCAGAAGACGGCATACGAGATgcgcattaGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 24)

CAAGCAGAAGACGGCATACGAGATcatagccgGTGACTGGAGTTCAGACGTGT (서열번호 25)CAAGCAGAAGACGGCATACGAGATcatagccgGTGACTGGAGTTCAGACGTGT (SEQ ID NO:25)

CAAGCAGAAGACGGCATACGAGATttcgcggaGTGACTGGAGTTCAGACGTGT (서열번호 26)CAAGCAGAAGACGGCATACGAGATttcgcggaGTGACTGGAGTTTCAGACGTGT (SEQ ID NO: 26)

CAAGCAGAAGACGGCATACGAGATgcgcgagaGTGACTGGAGTTCAGACGTGT (서열번호 27)CAAGCAGAAGACGGCATACGAGATgcgcgagaGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 27)

CAAGCAGAAGACGGCATACGAGATctatcgctGTGACTGGAGTTCAGACGTGT (서열번호 28)CAAGCAGAAGACGGCATACGAGATctatcgctGTGACTGGAGTTCAGACGTGT (SEQ ID NO: 28)

8. 염기 편집 효율 및 교정결과 빈도의 분석8. Analysis of base editing efficiency and frequency of calibration results

염기 편집 효율 및 교정결과의 분석을 위해 Python scripts 프로그램을 변형하여 서열 데이터를 분석하였다. 표적 서열의 상류에 위치한 독특한 15-nt 바코드 서열을 이용하여 각각의 가이드 RNA 및 표적 서열 쌍을 식별하였다. 인델이 예상된 절단 부위(절단 부위의 가운데에 위치한 8-nt 영역) 주변의 삽입 또는 결실은 뉴클레아제로 유도된 인델로 간주하였다. 염기 편집의 효율 및 결과를 분석하기 위해, 독특한 바코드 서열로 소팅(sorting)한 리드(read)를 Python script로 정렬하고, Needleman-Wunsch 알고리즘을 사용하여 참조 서열과의 비교를 통해 인델을 포함하는 리드를 분류하였다. 편집가능한 윈도우 내의 ABE 및 CBE의 표적 뉴클레오티드가 각각 T 또는 G로 전환되었을 때, 이를 염기 편집된 것으로 카운트하였다. 그 다음, 하기 수학식에 따라 각 위치에서의 염기 편집 효율을 산출하였다. Sequence data was analyzed by modifying the Python scripts program for the analysis of base editing efficiency and proofreading results. Each guide RNA and target sequence pair was identified using a unique 15-nt barcode sequence located upstream of the target sequence. Insertions or deletions around the expected cleavage site (8-nt region in the middle of the cleavage site) for indels were considered nuclease-induced indels. To analyze the efficiency and results of base editing, reads sorted by a unique barcode sequence are aligned with a Python script, and reads containing indels are compared with a reference sequence using the Needleman-Wunsch algorithm. were classified. When the target nucleotides of ABE and CBE within the editable window were converted to T or G, respectively, they were counted as base edited. Then, the base editing efficiency at each position was calculated according to the following equation.

Figure 112020082379421-pat00003
Figure 112020082379421-pat00003

총 리드 수는 인델을 포함하는 모든 염기 콜(call)의 합계이다. 염기 편집 빈도에 대한 분석의 정확성을 증가시키기 위해, 딥 시퀀싱 데이터 중 100개 미만의 총 딥 시퀀싱 리드 카운트를 갖는 표적 서열은 제외시켰다.The total number of reads is the sum of all base calls including indels. To increase the accuracy of the analysis for base editing frequency, target sequences with a total deep sequencing read count of less than 100 in the deep sequencing data were excluded.

위치 3 내지 10의 편집가능한 윈도우 내에 단 하나의 표적 뉴클레오티드만이 존재하는 경우, 염기 편집 효율은 표적 뉴클레오티드에서의 전환 효율과 동일하고, 염기 편집의 결과는 편집되거나, 되지 않거나의 두가지 경우로 수렴한다. 다만, 표적 서열 조성이 랜덤인 경우, 편집가능한 윈도우에서 단 하나의 표적 뉴클레오티드를 가질 확률은 13%이며, 나머지 87%의 경우 하나 이상의 표적 뉴클레오티드가 존재하여 염기 편집 후 복잡한 결과를 초래한다. 이에, 교정결과의 빈도를 분석하기 위해 Python script를 사용하여 염기 편집 윈도우의 교정결과에 따라 정렬된 리드를 다시 계산하였다. 표적 뉴클레오티드 전환 효율은 위치 3 내지 10의 편집가능한 윈도우 내에서의 뉴클레오티드의 위치에 대한 영향을 받지 않으므로, 표적 뉴클레오티드가 의도하지 않은 뉴클레오티드로 전환된 경우는 제외하였다. 각 염기 편집 결과의 빈도는 하기 수학식에 따라 산출하였다.When there is only one target nucleotide within the editable window of positions 3 to 10, the base editing efficiency is equal to the conversion efficiency at the target nucleotide, and the result of base editing converges in two cases: edited or not. . However, when the target sequence composition is random, the probability of having only one target nucleotide in the editable window is 13%, and in the remaining 87%, one or more target nucleotides exist, resulting in complicated results after base editing. Accordingly, to analyze the frequency of the calibration results, the sorted reads were recalculated according to the calibration results in the base editing window using a Python script. Since the target nucleotide conversion efficiency is not affected by the position of the nucleotide within the editable window of positions 3 to 10, the case where the target nucleotide was converted to an unintended nucleotide was excluded. The frequency of each base editing result was calculated according to the following equation.

Figure 112020082379421-pat00004
Figure 112020082379421-pat00004

염기 편집 결과에 대한 분석의 정확성을 높이기 위해, 변형 카운트가 100 미만인 표적 서열(또는 iPSC를 사용한 실험의 경우 200 미만)을 필터링하고, 의도되지 않은 뉴클레오티드 전환을 포함하는 리드를 제외하였다. 염기 편집 결과의 절대적 빈도는 염기 편집 결과 빈도와 염기 편집 효율을 곱하여 산출할 수 있으며, 하기 수학식에 따라 계산할 수 있다:To increase the accuracy of the analysis of the base editing results, target sequences with a modification count of less than 100 (or less than 200 in the case of experiments using iPSCs) were filtered out, and reads containing unintended nucleotide conversions were excluded. The absolute frequency of the base editing result can be calculated by multiplying the base editing result frequency by the base editing efficiency, and can be calculated according to the following equation:

Figure 112020082379421-pat00005
Figure 112020082379421-pat00005

Figure 112020082379421-pat00006
Figure 112020082379421-pat00006

Figure 112020082379421-pat00007
Figure 112020082379421-pat00007

9. 염색질 접근성의 고려9. Consideration of chromatin accessibility

ENCODE42로부터 얻은 DNase-seq 좁은 피크 데이터를 염색질 접근성(chromatin accessibility) 고려에 사용하였다. 각 표적 위치에 대하여, bowtie43을 사용하여 23개 염기의 PAM + 프로토스페이서 서열을 hg19 인간 참조 유전체에 정렬하였다. DNase-seq 좁은 피크와 오버랩된 표적 부위를 DHS 부위로 간주하였다.DNase-seq narrow peak data obtained from ENCODE42 was used to consider chromatin accessibility. For each target position, the 23 base PAM + protospacer sequence was aligned to the hg19 human reference genome using bowtie43. The target site overlapping the DNase-seq narrow peak was considered as the DHS site.

10. 컨볼루션 신경망을 사용한 딥러닝10. Deep Learning Using Convolutional Neural Networks

풀링층(pooling layer)이 없는 컨볼루션 신경망(Convolutional neural network: CNN)을 사용하여 생성한 데이터 세트에 대해 딥러닝을 수행하고 염기교정 유전자가위의 효율과 교정결과를 예측하는 모델을 개발하였다. 학습 데이터 세트에 모델이 과적합(overfitting)되는 것을 방지하기 위해 검증 스코어를 기반으로 조기 중지(early stopping)를 사용하고, 각 층(layer)에서 드롭아웃률 0.3을 사용하였다. 모든 모델은 필터 모양(1,3); 채널 차수, 4; 스트라이드(stride) (1,1) 및 컨볼루션 층(layer)은 패딩이 적용되지 않도록 하였고, ABE_proportion, ABE_efficiency, CBE_proportion 및 CBE_efficiency 모델에 대해 각각 150, 60, 60 및 150 필터(filter)를 사용하였다. 컨볼루션 층 이후에는 하나(ABE_proportion, ABE_efficiency) 또는 두 개(CBE_proportion, CBE_efficiency)의 완전히 연결된 층이 사용되었으며, 히든 레이어의 노드(node) 수는 ABE_proportion, ABE_efficiency, CBE_proportion 및 CBE_efficiency가 각각 256, 500, 256/256 및 500/50이었다. 합성곱 연산을 거친 후, ReLU 활성화 함수를 적용하여 연산하였다. A model was developed that performed deep learning on a data set generated using a convolutional neural network (CNN) without a pooling layer and predicted the efficiency and correction result of base-correction gene scissors. To prevent overfitting the model to the training data set, early stopping was used based on the validation score, and a dropout rate of 0.3 was used in each layer. All models have a filter shape (1,3); channel order, 4; The stride (1,1) and convolution layer did not apply padding, and 150, 60, 60 and 150 filters were used for the ABE_proportion, ABE_efficiency, CBE_proportion and CBE_efficiency models, respectively. After the convolution layer, one (ABE_proportion, ABE_efficiency) or two (CBE_proportion, CBE_efficiency) fully connected layers were used. /256 and 500/50. After the convolution operation, the ReLU activation function was applied.

11. 대칭적 KL 발산(Symmetrized KL divergence)11. Symmetrized KL divergence

염기 편집 결과 분포의 유사성을 계산하기 위하여 대칭적 쿨백-라이블러 발산을 사용하였다. 0으로 나눠지는 것을 피하기 위해, 학습 데이터 세트에 0.001, 테스트 데이터 세트에 0.5의 거짓 카운트(pseudo count)를 추가한 뒤 하기 수학식에 의해 KL 발산을 계산하였다. Pi와 Qi는 각각 예측 및 평가된 빈도를 의미한다.Symmetrical Kullback-Leibler divergence was used to calculate the similarity of the distribution of base editing results. To avoid division by zero, false counts of 0.001 in the training data set and 0.5 in the test data set were added, and then the KL divergence was calculated by the following equation. P i and Q i mean predicted and evaluated frequencies, respectively.

Figure 112020082379421-pat00008
Figure 112020082379421-pat00008

12. ClinVar 데이터 분석12. ClinVar Data Analysis

인간 질환-관련 돌연변이의 모델링 및 치료적 교정을 위한 염기 편집 효율 및 결과를 검증하기 위하여, 공개적으로 사용가능한 ClinVar(v. clinvar_20190219_hg38) 데이터 세트를 필터링하여 사용하였다. 필터링은 먼저, PAM(NGG) 서열에서 적절한 거리에 있으면서, 위치 3 내지 10의 편집가능한 윈도우 내에 A 또는 C를 가진 점돌연변이를 선택한 뒤, ClinVar 데이터베이스 상에서 병원성 또는 유사병원성으로 표시된 표적 점돌연변이를 선택하는 2단계로 수행되었다.To validate base editing efficiency and results for modeling and therapeutic correction of human disease-associated mutations, the publicly available ClinVar (v. clinvar_20190219_hg38) data set was filtered and used. Filtering involves first selecting point mutations with an A or C within an editable window of positions 3 to 10 while at an appropriate distance from the PAM (NGG) sequence, and then selecting target point mutations marked as pathogenic or pseudopathogenic on the ClinVar database. This was done in two steps.

13. 통계적 유의성13. Statistical Significance

DHS 부위와 비-DHS 부위 간 염기 편집 효율을 비교하기 위해 양측 스튜던트 t-test(two-tailed Student's t-test)를 사용하였다. DeepABE/CBE와 DeepABE-CA/CBE-CA(염색질 접근성을 고려한 모델) 간 성능을 비교하기 위해 Steiger's test를 사용하였다. 표적 염기 주위의 서열 컨텍스트가 염기 편집 빈도에 미치는 영향을 확인하기 위해 one-way ANOVA 및 Tukey의 사후 검정을 사용하였다. 통계적 유의성은 PASW Statistics (v.18.0, IBM) 및 Microsoft Excel (v.16.0, Microsoft Corporation)을 사용하여 결정하였다. A two-tailed Student's t-test was used to compare the nucleotide editing efficiency between the DHS site and the non-DHS site. Steiger's test was used to compare the performance between DeepABE/CBE and DeepABE-CA/CBE-CA (a model considering chromatin accessibility). One-way ANOVA and Tukey's post hoc test were used to determine the effect of sequence context around the target base on the base editing frequency. Statistical significance was determined using PASW Statistics (v.18.0, IBM) and Microsoft Excel (v.16.0, Microsoft Corporation).

14. Python script 및 딥 시퀀싱 데이터14. Python script and deep sequencing data

일 구체예에서, DeepABE, DeepCBE, DeepCBE-CA의 Python script는 github (https://github.com/MyungjaeSong/Paired-Library, https://github.com/CRISPRJWCHOI/BaseEditing_tool)에서 제공되고, 일 구체예에서 생성한 딥 시퀀싱 데이터는 NCBI Sequence Read Archive (SRA; http://www.ncbi.nlm.nih.gov/sra/)에서 접근번호 SRP150719 (PRJNA476544)로 접근가능하다.In one embodiment, the Python scripts of DeepABE, DeepCBE, and DeepCBE-CA are provided on github (https://github.com/MyungjaeSong/Paired-Library, https://github.com/CRISPRJWCHOI/BaseEditing_tool ), and in one embodiment The deep sequencing data generated in the example is accessible from the NCBI Sequence Read Archive (SRA; http://www.ncbi.nlm.nih.gov/sra/ ) with accession number SRP150719 (PRJNA476544).

실시예Example

실시예 1. 유전자가위의 효율 및 교정결과 데이터 세트 생산Example 1. Genetic scissors efficiency and calibration result data set production

1-1. 데이터 세트의 생산1-1. production of data sets

유전자가위 대량검증을 위해, 이전 연구(Kim et al, Nat Methods, 2017)에서 사용하였던 15,656개의 가이드 RNA 코딩 및 표적 서열 쌍의 렌티바이러스 라이브러리를 사용하여 유전자가위의 효율 및 교정결과 데이터 세트를 생산하였다. 총 15,656개의 서열 쌍 중에서, 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치(위치 20은 PAM(NGG)의 바로 상류에 자리함)에서 13,504개는 적어도 하나의 표적 아데닌을 포함하였고, 14,157개는 적어도 하나의 표적 시토신을 포함하였다. 세포 라이브러리를 ABE7.10 또는 BE4를 코딩하는 플라스미드로 형질감염시키고, 형질감염 5일 후 표적 뉴클레오티드에서의 염기 전환 효율 및 염기 편집 결과를 평가하였다. 이 때 ABE 또는 CBE를 코딩하는 플라스미드 벡터는 비교적 크기가 크기 때문에, 인테인(intein)-매개된 split-Cas9-기반의 ABE 및 CBE를 함께 사용하였다. 그 결과, 4개의 독립적인 데이터 세트가 생성되었고 이를 각각 HT_ABE_Train, HT_ABE_Test, HT_CBE_Train, 및 HT_CBE_Test로 명명하였다. 또한, 96개 및 102개의 내인성(endogenous) 표적 부위에서의 ABE 및 CBE활성에 대한 데이터 세트를 생성하고, 이를 각각 Endo_ABE 및 Endo_CBE로 명명하였다. 그 결과, DNase I 과민성 영역(DHS)에 해당하는 표적 부위의 위치 3 내지 10에서의 ABE 및 CBE 활성은 비-DHS 부위에 비해 각각 1.1배(P=0.55) 또는 1.8배(P=0.0077) 높게 나타남을 확인하였다. 상기 결과를 통해, CBE 활성은 염색질 접근성이 낮은 부위보다 높은 부위에서 증가하고, ABE 활성은 염색질 접근성에 거의 영향을 받지 않음을 확인하였다.For mass validation of gene scissors, a lentiviral library of 15,656 guide RNA coding and target sequence pairs used in a previous study (Kim et al, Nat Methods, 2017) was used to produce a data set of the efficiency and proofreading result of the gene scissors. . Of the total 15,656 sequence pairs, 13,504 at positions 3 to 10 bp from the 5' end of the protospacer region (position 20 is immediately upstream of PAM(NGG)) contained at least one target adenine, and 14,157 contains at least one target cytosine. The cell library was transfected with a plasmid encoding ABE7.10 or BE4, and base conversion efficiency and base editing results at target nucleotides were evaluated 5 days after transfection. In this case, since the plasmid vector encoding ABE or CBE has a relatively large size, intein-mediated split-Cas9-based ABE and CBE were used together. As a result, four independent data sets were generated and named HT_ABE_Train, HT_ABE_Test, HT_CBE_Train, and HT_CBE_Test, respectively. In addition, data sets on ABE and CBE activities at 96 and 102 endogenous target sites were generated, and were named Endo_ABE and Endo_CBE, respectively. As a result, the ABE and CBE activities at positions 3 to 10 of the target site corresponding to the DNase I hypersensitive region (DHS) were 1.1-fold (P=0.55) or 1.8-fold (P=0.0077) higher than the non-DHS site, respectively. Appearance was confirmed. Through the above results, it was confirmed that CBE activity was increased at a site with high chromatin accessibility than at a site with low chromatin accessibility, and ABE activity was hardly affected by chromatin accessibility.

1-2. 염기교정 유전자가위 활성에 영향을 미치는 요인 탐색1-2. Searching for factors affecting the activity of base-editing gene editing

고-처리량(high-throughput) 평가를 통해 ABE- 및 CBE-지정된 염기 편집은 위치 3 내지 10에 해당하는 넓은 윈도우에서 발생하나, 상대적으로 높은 수준의 염기 편집은 ABE 및 CBE 모두 위치 4 내지 8의 좁은 윈도우에서 달성할 수 있음을 확인하였다(도 1의 a, b).Through high-throughput evaluation, ABE- and CBE-directed base editing occurs in a wide window corresponding to positions 3 to 10, but a relatively high level of base editing is observed in both ABE and CBE positions 4 to 8. It was confirmed that it can be achieved in a narrow window (FIG. 1 a, b).

동일한 표적 서열에서 Cas9의 활성과 ABE 또는 CBE의 활성을 비교할 때, ABE 또는 CBE 활성이 높을 때 대부분의 경우 Cas9 활성 역시 높아 크지는 않은 양의 상관관계가 확인되었다(도 1의 c, d). 그러나, Cas9 활성이 높은 경우 ABE 또는 CBE 활성은 때로는 높고 때로는 낮아, 결과적으로 ABE, CBE와 SpCas9 뉴클레아제 활성은 비대칭적 상관관계를 나타내었다. 나아가, 표적 서열의 각 위치에서 ABE 또는 CBE의 높은 활성 또는 Cas9의 높은 활성과 관련된 뉴클레오티드 선호도를 결정하고, 상기 비대칭적 상관관계는 표적 서열의 특정 위치에서 SpCas9 및 ABE/CBE의 뉴클레오티드 선호도가 상이하기 때문임을 확인하였다. 구체적으로, ABE/CBE의 경우 표적 뉴클레오티드에 바로 인접한 뉴클레오티드(표적 뉴클레오티드 ±1 bp)에서 강한 뉴클레오티드 선호도가 관찰되었고, 이와 같은 선호는 표적 뉴클레오티드의 위치에 관계없이 보존되었다.When the activity of Cas9 and the activity of ABE or CBE were compared in the same target sequence, in most cases when the activity of ABE or CBE was high, the activity of Cas9 was also high, confirming a non-significant positive correlation (FIG. 1 c, d). However, when Cas9 activity is high, ABE or CBE activity is sometimes high and sometimes low, and as a result, ABE, CBE, and SpCas9 nuclease activity exhibit an asymmetric correlation. Furthermore, the nucleotide preference associated with high activity of ABE or CBE or high activity of Cas9 at each position of the target sequence is determined, and the asymmetric correlation is different from the nucleotide preference of SpCas9 and ABE/CBE at a specific position of the target sequence. It was confirmed that because Specifically, in the case of ABE/CBE, a strong nucleotide preference was observed at the nucleotide immediately adjacent to the target nucleotide (±1 bp of the target nucleotide), and this preference was preserved regardless of the position of the target nucleotide.

나아가, ABE 및 CBE 활성에 대한 염기 편집에 대한 서열 컨텍스트 주변의 영향을 분석하기 위해 16개의 모든 가능한 NAN 서열에서 ABE의 염기 편집 효율을 분석한 결과, 염기 전환 효율은 TAB(특히 TAY, Y=C 또는 T)에서 가장 높고, AAC, GAA, CAA, AAT, AAG 및 AAA와 같이 A가 많은 컨텍스트(A-rich contexts)에서 가장 낮음을 확인하였다(도 1의 e). TAA의 경우, T에 따른 영향과 3' 위치의 A로 인한 영향이 상쇄되어 염기 편집 효율이 높지 않았다. 마찬가지로, 모든 가능한 NCN 서열에서 CBE의 염기 편집 효율을 분석한 결과, ABE와 유사하게 염기 전환 효율은 5' 위치가 T일 때(즉, TCN) 가장 높고, 5' 위치가 G일 때(예를 들어, GCC, GCT, GCG 및 GCA) 가장 낮음을 확인하였다(도 1의 f). ABE와 대조적으로, TCC, CCC, CCT, ACC, CCA, CCG 및 GCC와 같이 하나 또는 이웃하는 두개 위치에서 표적 뉴클레오티드가 반복되는 경우에는, C 염기의 전환 효율이 약간 더 높게 나타남을 확인하였다.Furthermore, as a result of analyzing the base editing efficiency of ABE in all 16 possible NAN sequences to analyze the effect of the sequence context surrounding on base editing on ABE and CBE activity, the base conversion efficiency was determined by TAB (especially TAY, Y=C or T), and it was confirmed that A-rich contexts such as AAC, GAA, CAA, AAT, AAG and AAA were the lowest in A-rich contexts (FIG. 1 e). In the case of TAA, the effect of T and the effect of A at the 3' position were offset, so the base editing efficiency was not high. Similarly, as a result of analyzing the base editing efficiency of CBE in all possible NCN sequences, similar to ABE, the base conversion efficiency is highest when the 5' position is T (i.e., TCN), and when the 5' position is G (e.g. For example, GCC, GCT, GCG and GCA) were confirmed to be the lowest (FIG. 1 f). In contrast to ABE, when the target nucleotide is repeated at one or two adjacent positions, such as TCC, CCC, CCT, ACC, CCA, CCG and GCC, it was confirmed that the conversion efficiency of C base is slightly higher.

이와 같은 컨텍스트 선호는 좁은 윈도우의 모든 위치(위치 4 내지 8)에서 관찰되어, 염기 편집 효율에 있어서 뉴클레오티드 컨텍스트가 강한 영향을 미침을 확인하였다(도 2). 구체적으로, 서열 컨텍스트와 관련된 표적 뉴클레오티드의 전환 효율에 대한 최대-배수 차이(maximum-fold difference)는 ABE와 CBE가 각각 45배, 13배로 나타남을 확인하였다. This context preference was observed at all positions (positions 4 to 8) of the narrow window, confirming that the nucleotide context had a strong effect on the base editing efficiency (FIG. 2). Specifically, it was confirmed that the maximum-fold difference in the conversion efficiency of the target nucleotide related to the sequence context was 45-fold and 13-fold for ABE and CBE, respectively.

반면, SpCas9에 의한 인델 생성의 경우 이와 같은 컨텍스트 선호가 거의 관찰되지 않았다(도 3).On the other hand, in the case of indel generation by SpCas9, such context preference was hardly observed (FIG. 3).

실시예 2. 염기교정 유전자가위 활성 및 결과 예측 모델의 구축Example 2. Construction of a base-correction gene scissors activity and result prediction model

2-1. 효율 예측 모델의 개발2-1. Development of Efficiency Prediction Model

실시예 1에서 생산한 유전자가위의 효율 및 교정결과 데이터와 딥 러닝(Deep learning) 기술을 이용하여 예측 모델을 구축하였다. 먼저, 딥러닝 프레임워크와 HT_ABE_Train 및 HT_CBE_Train 학습(training) 데이터 세트를 사용하여 ABE_efficiency 및 CBE_efficiency로 명명되는 유전자가위의 염기 편집 효율 예측 모델을 개발하였다(도 4). 이 때, 염기 편집 효율(base-editing efficiency)은 분석된 전체 DNA 카피 중에서 염기 편집된 뉴클레오티드의 수와 관계없이, 넓은 편집가능한 윈도우(ABE 및 CBE의 경우 위치 3 내지 10) 내 염기 편집된 서열을 가진 DNA 카피의 백분율을 지칭하며, 딥러닝 기법으로 신경망(newral network architecture)을 사용하였다. 10번 교차검증(10-fold cross validation)을 사용하여 히든 레이어(hidden layer)의 수와 인풋 서열의 길이를 결정하였다. ABE_efficiency의 경우 가장 높은 성능을 보인 2개 히든 레이어 모델과 3개 히든 레이어 모델이 비슷한 성능을 나타내어(각각 0.776 vs. 0.778) 2개의 히든 레이어 모델을 선택하였다(도 5). A predictive model was constructed using the efficiency and calibration result data of the gene scissors produced in Example 1 and deep learning technology. First, using a deep learning framework and HT_ABE_Train and HT_CBE_Train training data sets, a nucleotide editing efficiency prediction model named ABE_efficiency and CBE_efficiency was developed (FIG. 4). At this time, the base-editing efficiency was determined by analyzing the base-edited sequences within a wide editable window (positions 3 to 10 in the case of ABE and CBE) regardless of the number of base-edited nucleotides among the total DNA copies analyzed. Refers to the percentage of DNA copies possessed, and a neural network architecture is used as a deep learning technique. The number of hidden layers and the length of the input sequence were determined using 10-fold cross validation. In the case of ABE_efficiency, the two hidden layer models and the three hidden layer models that showed the highest performance showed similar performance (0.776 vs. 0.778, respectively), so two hidden layer models were selected (FIG. 5).

그 결과, ABE_efficiency 모델은 테스트 데이터 세트로 HT_ABE_Test 및 Endo_ABE_HEK293T를 사용할 때 각각 Spearman R=0.72, Pearson r=0.70(HT_ABE_Test) 및 Spearman R=0.76, Pearson r=0.70(Endo_ABE_HEK293T)의 상관 계수에 도달하여 우수한 성능을 나타내었고(도 6의 a), 유사하게 CBE_efficiency 모델 역시 HT_CBE_Test 및 Endo_CBE_HEK293T 사용 시 Spearman R=0.79, Pearson r=0.78(HT_CBE_Test) 및 Spearman R=0.69, Pearson r=0.60(Endo_CBE_HEK293T)의 상관 계수에 도달하여 우수한 성능을 나타냄을 확인하였다(도 6의 b). As a result, the ABE_efficiency model reached correlation coefficients of Spearman R=0.72, Pearson r=0.70 (HT_ABE_Test) and Spearman R=0.76, and Pearson r=0.70 (Endo_ABE_HEK293T), respectively, with HT_ABE_Test and Endo_ABE_HEK293T as test data sets, reaching excellent performance correlation coefficients. (a of FIG. 6), and similarly, the CBE_efficiency model also reached a correlation coefficient of Spearman R=0.79, Pearson r=0.78 (HT_CBE_Test) and Spearman R=0.69, Pearson r=0.60 (Endo_CBE_HEK293T) when using HT_CBE_Test and Endo_CBE_HEK293T. It was confirmed that excellent performance was obtained (FIG. 6 b).

2-2. 교정결과 예측 모델의 개발2-2. Development of calibration result prediction model

편집가능한 윈도우에 하나 이상의 표적 뉴클레오티드가 있는 경우 염기 편집의 결과로 다양한 서열이 생성되므로, 이러한 교정결과의 상대적 빈도를 예측하기 위해 또 다른 딥러닝 프레임워크와 HT_ABE_Train 및 HT_CBE_Train 학습 데이터 세트를 사용하여 ABE_proportion 및 CBE_proportion로 명명되는 교정결과 예측 모델을 개발하였다. Spearman 상관 계수 외에, 대칭적 쿨백-라이블러 발산(symmetric Kullback-Leibler (KL) divergence)을 함께 사용하여 교정결과 빈도의 유사성을 반영하였다. Since different sequences are generated as a result of base editing when there is more than one target nucleotide in the editable window, another deep learning framework and the HT_ABE_Train and HT_CBE_Train training datasets were used to predict the relative frequency of these corrections using the ABE_proportion and A correction result prediction model named CBE_proportion was developed. In addition to the Spearman correlation coefficient, symmetric Kullback-Leibler (KL) divergence was used together to reflect the similarity of the calibration results.

그 결과, ABE_proportion 모델은 각각 Pearson r=0.95(HT_ABE_Test) 및 Pearson r=0.93(Endo_ABE_HEK293T)의 높은 성능을 나타내었고(도 6의 a), 유사하게 CBE_proportion 모델 역시 Pearson r=0.95(HT_CBE_Test) 및 Pearson r=0.91(Endo_CBE_HEK293T)의 높은 성능을 나타내었다(도 6의 b). 나아가, Endo_ABE_HEK293T의 교정결과 빈도와 ABE_proportion으로부터의 예측값 간의 대칭적 KL 발산은 동일한 표적 서열에서의 Endo_ABE_HEK293T와 HT_ABE_Test 간 KL 발산 값(중앙값 KL = 0.10)과 유사하게 낮았으며(중앙값 KL = 0.11), Endo_CBE_HEK293T의 교정결과 빈도와 CBE_proportion으로부터의 예측값 간의 대칭적 KL 발산 역시 동일한 표적 서열에서의 Endo_CBE_HEK293T와 HT_CBE_Test 간 KL 발산 값(중앙값 KL = 0.18)과 유사하게 낮음을 확인하였다(중앙값 KL = 0.36)(도 6의 c). As a result, the ABE_proportion model showed high performance of Pearson r = 0.95 (HT_ABE_Test) and Pearson r = 0.93 (Endo_ABE_HEK293T), respectively (Fig. 6 a), and similarly, the CBE_proportion model also Pearson r = 0.95 (HT_CBE_Test) and Pearson r = 0.91 (Endo_CBE_HEK293T) showed a high performance (Fig. 6 b). Furthermore, the symmetric KL divergence between the calibration result frequency of Endo_ABE_HEK293T and the predicted value from ABE_proportion was similarly low (median KL = 0.11) and Endo_CBE_HEK293T between Endo_ABE_HEK293T and HT_ABE_Test (median KL = 0.10) in the same target sequence. It was confirmed that the symmetric KL divergence between the frequency and the predicted value from CBE_proportion was similarly low (median KL = 0.36) (median KL = 0.36) between Endo_CBE_HEK293T and HT_CBE_Test in the same target sequence (median KL = 0.18). ).

구체적으로, ABE 및 CBE 염기교정 유전자가위의 염기 편집 효율 및 교정결과를 예측한 결과를 하기 표 1 및 3에, 상기 염기교정 유전자가위로 만들거나 교정할 수 있는 인간 점돌연변이 질환의 예를 표 2 및 4에 나타내었다.Specifically, the results of predicting the nucleotide editing efficiency and correction results of ABE and CBE nucleotide editing are shown in Tables 1 and 3 below, and examples of human point mutation diseases that can be made or corrected with the nucleotide correction gene scissors are shown in Table 2 and 4 .

[표 1][Table 1]

ABEABE

Figure 112020082379421-pat00009
Figure 112020082379421-pat00009

[표 2][Table 2]

ABEABE

Figure 112020082379421-pat00010
Figure 112020082379421-pat00010

[표 3][Table 3]

CBECBE

Figure 112020082379421-pat00011
Figure 112020082379421-pat00011

[표 4][Table 4]

CBECBE

Figure 112020082379421-pat00012
Figure 112020082379421-pat00012

표 2 및 4에 나타낸 바와 같이, 염기교정 유전자가위로 만들거나 교정할 수 있는 인간 점돌연변이 질환의 예로서 ABE의 경우 어셔 증후군(Usher syndrome), 종양괴사인자 수용체 관련 주기적 증후군(TNF receptor-associated periodic syndrome: TRAPS), 마판 증후군(marfan syndrome), 제3형 청년기 발병 당뇨병(Type 3 form of Maturity-Onset Diabetes of the Young: MODY3), 선천성 비진행성 야맹증(Congenital stationary night blindness type 1F), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 선천근육무력증후군(congenital myasthenic syndrome: CMS), 린치증후군(Lynch syndrome) 등이 확인되었고, CBE의 경우 로이-디에츠 증후군(Loeys-Dietz syndrome: LDS), 망막색소변성증(retinitis pigmentosa), 렙틴 결핍 또는 장애(Leptin deficiency 또는 dysfunction), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 상염색체 열성 청각장애(autosomal recessive deafness), 콜레스테롤 모노옥시다제 결핍(cholesterol monooxygenase (side-chain-cleaving) deficiency), 진행성 근간대성간질(progressive myoclonus epilepsy) 등이 확인되었다. As shown in Tables 2 and 4, in the case of ABE as an example of a human point mutation disease that can be made or corrected with base-correcting gene scissors, Usher syndrome, tumor necrosis factor receptor-related periodic syndrome (TNF receptor-associated periodic) syndrome: TRAPS, marfan syndrome, Type 3 form of Maturity-Onset Diabetes of the Young: MODY3, Congenital stationary night blindness type 1F, familial high Familiar hypercholesterolemia, congenital myasthenic syndrome (CMS), Lynch syndrome, etc. were confirmed, and in the case of CBE, Loeys-Dietz syndrome (LDS), retinitis pigmentosa (retinitis pigmentosa), leptin deficiency or dysfunction, familial hypercholesterolemia, autosomal recessive deafness, cholesterol monooxygenase (side-chain-) cleaving deficiency), progressive myoclonus epilepsy, etc. were confirmed.

상기 결과로부터, 개발된 ABE_proportion 및 CBE_proportion 모델이 염기 편집의 결과 빈도를 높은 정확성으로 예측할 수 있음을 확인하였다. 한편, 이와 같은 효과는 전통적인 머신러닝 또는 얕은 신경망(예를 들어, AdaBoost, Boosted RT, SVM, Ridge, Lasso, ElasticNet, Random Forest 등)을 사용하는 경우 확인되지 않아, 일 양상에 따른 예측 시스템은 딥러닝을 이용함에 따라 매우 높은 정확도로 염기교정 유전자가위의 염기교정 효율과 교정결과를 예측할 수 있는 것임을 알 수 있었다.From the above results, it was confirmed that the developed ABE_proportion and CBE_proportion models can predict the result frequency of base editing with high accuracy. On the other hand, this effect is not confirmed when using traditional machine learning or shallow neural networks (e.g., AdaBoost, Boosted RT, SVM, Ridge, Lasso, ElasticNet, Random Forest, etc.), so the prediction system according to an aspect is deep It was found that it was possible to predict the nucleotide correction efficiency and correction result of nucleotide correction gene scissors with very high accuracy by using running.

한편, 본 발명자들은 이전 연구를 통해 내인성 부위에서의 Cas12a 효율 예측은 염색질 접근성(chromatin accessibility)을 고려함으로써 개선될 수 있음을 확인하였다. 이에 일 구현예에서, CBE는 염색질 접근성에 영향을 받았으나 ABE는 그렇지 않음을 확인하여, 염색질 접근성의 고려가 염기교정 유전자가위 효율 예측을 향상시킬 수 있는지에 대한 추가 테스트를 수행하였다. 먼저, DNase I 과민성 영역(DNase I hypersensitive: DHS) 및 비-DHS(non-DHS) 부위의 계층에서 계층화된 무작위 샘플링을 통해 Endo_CBE 데이터 세트를 짝지어진 하위 세트(paired subset)로 나누어 유사한 비율의 DHS/비-DHS 부위가 각 하위 세트에 할당되도록 하고, 각각을 Endo_CBE_1A 및 Endo_CBE_1B로 명명하였다. 상기 무작위 샘플링을 반복하여 Endo_CBE_2A, Endo_CBE_2B 등으로 명명된 4개의 데이터 세트를 추가로 생성하고, Endo_CBE_1A 데이터 세트 및 ENCODE(Encyclopedia of DNA elements)로부터 얻은 이진법의 염색질 접근성 정보를 사용하여 DeepCBE를 미세조정함으로써, 표적 서열 정보 및 염색질 접근성 둘 모두에 기초한 CBE-기반 유전자 편집 효율 및 결과 예측 모델인 DeepCBE-CA(Chromatin Accessibility)-1A를 개발하였다. On the other hand, the present inventors confirmed that the prediction of Cas12a efficiency in the endogenous site through previous studies can be improved by considering chromatin accessibility. Accordingly, in one embodiment, it was confirmed that CBE was affected by chromatin accessibility, but ABE was not, and additional tests were performed to determine whether consideration of chromatin accessibility could improve the prediction of nucleotide editing efficiency. First, the Endo_CBE data set was divided into paired subsets through stratified random sampling in the hierarchy of DNase I hypersensitive (DHS) and non-DHS (non-DHS) regions, and DHS of similar proportions /Non-DHS sites were assigned to each subset and were named Endo_CBE_1A and Endo_CBE_1B, respectively. By repeating the random sampling to generate additional four data sets named Endo_CBE_2A, Endo_CBE_2B, etc., and fine-tuning DeepCBE using the binary chromatin accessibility information obtained from the Endo_CBE_1A data set and ENCODE (Encyclopedia of DNA elements), We developed DeepCBE-CA (Chromatin Accessibility)-1A, a CBE-based gene editing efficiency and outcome prediction model based on both target sequence information and chromatin accessibility.

다음으로, 테스트 데이터 세트로 다른 데이터 세트(Endo_CBE_1B)를 사용하여 DeepCBE-CA-1A를 평가하였다. 테스트 데이터 세트와 학습(training) 데이터 세트를 서로 바꾸어 미세조정 및 후속 테스트를 반복하고(예를 들어, 미세조정을 위한 학습 데이터 세트로 Endo_CBE_1B, 테스트 데이터 세트로 Endo_CBE_1A를 사용), 다른 4쌍의 데이터 세트를 사용하여 이를 반복하였다. 총 10회의 미세조정 및 후속 테스트의 결과, 이들 미세조정된 모델의 Spearman 상관 관계는 DeepCBE의 Spearman 상관 관계와 유사하여(도 6의 d), 염색질 접근성 정보를 고려한 미세조정은 DeepCBE의 정확도를 향상시키지 않음을 확인하였다. ABE 역시, DeepABE와 Endo_ABE를 사용하여 동일하게 총 10회의 테스트를 수행한 결과, 염색질 접근성 정보의 고려는 ABE에 대한 예측 정확도를 향상시키지 않았다. Next, DeepCBE-CA-1A was evaluated using another data set (Endo_CBE_1B) as the test data set. Repeat the tuning and subsequent tests by swapping the test and training datasets (e.g., Endo_CBE_1B as the training dataset for tuning and Endo_CBE_1A as the test dataset), then use the other 4 pairs of data This was repeated using the set. As a result of a total of 10 fine-tuning and subsequent tests, the Spearman correlation of these fine-tuned models was similar to that of DeepCBE (Fig. 6d), so fine-tuning considering chromatin accessibility information did not improve the accuracy of DeepCBE. confirmed that it is not. As for ABE, a total of 10 tests were performed equally using DeepABE and Endo_ABE. As a result, consideration of chromatin accessibility information did not improve the prediction accuracy for ABE.

2-3. DeepABE 및 DeepCBE의 개발2-3. Development of DeepABE and DeepCBE

다음으로, 염기 편집된 결과의 절대적 빈도를 예측하기 위해 실시예 2-1 및 2-2에서 개발한 ABE_efficiency와 ABE_proportion을, CBE_efficiency와 CBE_proportion을 결합하여 염기교정 효율 및 염기교정 유전자가위가 만들 수 있는 모든 염기 편집 결과물들에 대한 예측 수행이 가능한 DeepABE 및 DeepCBE 모델을 생성하였다.Next, ABE_efficiency and ABE_proportion developed in Examples 2-1 and 2-2 were combined to predict the absolute frequency of the base-edited result, and CBE_efficiency and CBE_proportion were combined to improve base-editing efficiency and all the nucleotide-editing gene scissors that can be made. DeepABE and DeepCBE models capable of predicting base editing results were created.

그 결과, HT_ABE_Test 및 Endo_ABE_HEK293T로 테스트했을 때 DeepABE는 Spearman R=0.90, Pearson r=0.92(HT_ABE_Test) 및 Spearman R=0.86, Pearson r=0.80(Endo_ABE_HEK293T)의 높은 상관 계수에 도달하여 염기 편집의 결과 빈도 예측에 탁월한 성능을 나타내었다(도 6의 a). 유사하게, DeepCBE 역시 Spearman R=0.86, Pearson r=0.87(HT_CBE_Test) 및 Spearman R=0.83, Pearson r=0.71(Endo_CBE_HEK293T)의 높은 상관 계수에 도달하여 매우 우수한 성능을 나타냄을 확인하였다(도 6의 b).As a result, when tested with HT_ABE_Test and Endo_ABE_HEK293T, DeepABE reached high correlation coefficients of Spearman R=0.90, Pearson r=0.92 (HT_ABE_Test) and Spearman R=0.86, Pearson r=0.80 (Endo_ABE_HEK293T) to predict the frequency of results of base editing. showed excellent performance in (a of FIG. 6). Similarly, DeepCBE also reached a high correlation coefficient of Spearman R=0.86, Pearson r=0.87 (HT_CBE_Test) and Spearman R=0.83, Pearson r=0.71 (Endo_CBE_HEK293T), confirming that it exhibited very good performance (Fig. 6b) ).

한편, 상기 ABE_efficiency, CBE_efficiency, ABE_proportion, 및 CBE_proportion 모델은 강력한 컨볼루션 신경망(convolutional neural networks: CNNs)을 사용하는 딥러닝 프레임워크를 기반으로 하며, 구체적으로 다음과 같이 개발되었다: (1) 표적 서열 및 이웃하는 서열을 함유하는 인풋(input) 서열을 4차원 이진(binary) 행렬로 변환; (2) 위치 가중치 매트릭스(position weight matrices)를 결정하기 위해, 3-nt의 긴 필터(filter)가 4차원 이진 매트릭스를 통해 이동; (3) 완전히 연결된 층(fully connected layers)에서, 추출된 특징이 가중치 합산(weighted sum), 수정된 선형 유닛(rectified linear unit: ReLU) 활성화 함수에 따라 합쳐짐; (4) 아웃풋 층(output layer)에서, 선형 회귀를 수행하고 각 표적 서열에 대한 활성(activity) 스코어 또는 결과 빈도를 예측. DeepABE 및 DeepCBE 스코어는 ABE_proportion 및 ABE_efficiency 또는 CBE_proportion 및 CBE_efficiency 각각의 스코어를 곱하여 간단히 얻었다(도 7).On the other hand, the ABE_efficiency, CBE_efficiency, ABE_proportion, and CBE_proportion models are based on a deep learning framework using powerful convolutional neural networks (CNNs), and were specifically developed as follows: (1) a target sequence and converting an input sequence containing a neighboring sequence into a four-dimensional binary matrix; (2) a 3-nt long filter is moved through a 4-dimensional binary matrix to determine position weight matrices; (3) in fully connected layers, the extracted features are summed according to a weighted sum, rectified linear unit (ReLU) activation function; (4) In the output layer, perform linear regression and predict the activity score or result frequency for each target sequence. DeepABE and DeepCBE scores were obtained simply by multiplying the scores of ABE_proportion and ABE_efficiency or CBE_proportion and CBE_efficiency respectively ( FIG. 7 ).

2-4. DeepABE 및 DeepCBE의 정확성 검증2-4. Verification of Accuracy of DeepABE and DeepCBE

생물학적 복제시료(biological replicate)를 사용하여 실시예 2에서 구축한 예측 모델 ABE_efficiency, ABE_proportion, DeepABE, CBE_efficiency, CBE_proportion 및 DeepCBE의 정확성을 검증하였다. 구체적으로, HCT116 세포, U2OS 세포 및 HEK293T 세포의 내인성 부위(endogenous sites)에서 ABE_efficiency, ABE_proportion, DeepABE, CBE_efficiency, CBE_proportion 및 DeepCBE의 성능을 평가하였다. 그 결과, ABE_proportion, CBE_proportion 뿐만 아니라 DeepABE 및 DeepCBE 모델 모두가 모든 세포 유형에 걸쳐 우수한 성능을 나타냄을 확인하였다(도 8 내지 11).The accuracy of the prediction models ABE_efficiency, ABE_proportion, DeepABE, CBE_efficiency, CBE_proportion and DeepCBE constructed in Example 2 was verified using biological replicates. Specifically, the performance of ABE_efficiency, ABE_proportion, DeepABE, CBE_efficiency, CBE_proportion and DeepCBE in endogenous sites of HCT116 cells, U2OS cells and HEK293T cells was evaluated. As a result, it was confirmed that the ABE_proportion and CBE_proportion as well as the DeepABE and DeepCBE models showed excellent performance across all cell types ( FIGS. 8 to 11 ).

실시예 3. 인간 점돌연변이 질환에 대한 예측 모델의 적용Example 3. Application of predictive model to human point mutation disease

3-1. 인간 점돌연변이 질환 데이터에 대한 적용3-1. Application to human point mutation disease data

개발된 예측 모델과 ClinVar4에서 보고된 인간 점돌연변이 질환 데이터를 사용하여, 질환 모델링 및 염기교정 유전자가위의 인간 점돌연변이의 치료적 교정에 대한 염기 편집 효율 및 결과를 예측하였다. 질환 모델링을 위해, 적절한 거리에 PAM(NGG)이 있는 위치 3 내지 10의 편집가능한 윈도우를 사용하여 생성될 수 있는 병원성 및 유사병원성 점돌연변이를 탐색한 결과, ABE 및 CBE를 사용하여 이론적으로 생성될 수 있는 점돌연변이는 각각 2,917개 및 8,759개임을 확인하였다. 이들 점돌연변이 중 점돌연변이가 단 하나의 A 또는 C를 가지는 편집가능한 윈도우에 생기는 경우는 ABE의 경우 이중 24%(2,917개 중 691개), CBE의 경우 13%(8,759개 중 1,113개)로 나타났으며, 나머지 76% 및 87%의 점돌연변이는 각각 하나 이상의 A 또는 C를 포함하였다(도 12의 a).Using the developed predictive model and the human point mutation disease data reported in ClinVar4, we predicted the nucleotide editing efficiency and results for disease modeling and therapeutic correction of human point mutations in nucleotide editing. For disease modeling, pathogenic and pseudopathogenic point mutations that can be generated using editable windows of positions 3 to 10 with PAM (NGG) at an appropriate distance were explored. As a result, they could theoretically be generated using ABE and CBE. It was confirmed that there were 2,917 and 8,759 possible point mutations, respectively. Among these point mutations, 24% of ABEs (691 of 2,917) and 13% of CBEs (1,113 of 8,759) occurred in an editable window with only one A or C among these point mutations. , and the remaining 76% and 87% of the point mutations contained at least one A or C, respectively (FIG. 12 a).

나아가, 염기교정 유전자가위를 사용하여 교정 가능한 병원성 및 유사병원성 점돌연변이를 탐색한 결과, 원칙적으로 8,930개 및 2,873개의 돌연변이가 ABE 및 CBE를 사용하여 야생형 서열로 각각 전환될 수 있음을 확인하였다. 이들 돌연변이 중, ABE의 경우 21%(8,930개 중 1,834개), CBE의 경우 12%(2,873개 중 336개)가 편집가능한 윈도우에서 단 하나의 A 또는 C를 가진 것으로 나타났으며, 이를 통해 대부분의 염기 편집 가능한 돌연변이는 다수의 표적 뉴클레오티드를 가진 윈도우에서 발생함을 확인하였다(도 12의 b). Furthermore, as a result of searching for pathogenic and pseudopathogenic point mutations that can be corrected using nucleotide editing, it was confirmed that, in principle, 8,930 and 2,873 mutations can be converted into wild-type sequences using ABE and CBE, respectively. Of these mutations, 21% of ABEs (1,834 of 8,930) and 12% of CBEs (336 of 2,873) had only one A or C in the editable window, resulting in the majority It was confirmed that the base-editable mutation of ' occurred in a window with a large number of target nucleotides (FIG. 12 b).

상기 결과를 통해, ABE로 만들 수 있는 인간 질환의 수는 총 2,917개, CBE로 만들 수 있는 인간 질환의 수는 총 8,759개, ABE를 사용하여 교정할 수 있는 인간 질환의 수는 총 8,930개, CBE를 사용하여 교정할 수 있는 인간 질환의 수는 총 2,873개임을 확인하였다. Through the above results, the number of human diseases that can be made with ABE is a total of 2,917, the number of human diseases that can be made with CBE is a total of 8,759, the number of human diseases that can be corrected using ABE is a total of 8,930, It was confirmed that the number of human diseases that can be corrected using CBE is a total of 2,873.

3-2. 인간 유도만능줄기세포에 대한 적용3-2. Application to human induced pluripotent stem cells

인간 유도만능줄기세포(human induced pluripotent stem cells: iPSCs)와 개발된 예측 모델을 사용하여, 질환 모델링 및 염기교정 유전자가위의 인간 점돌연변이의 치료적 교정에 대한 염기 편집 효율 및 결과를 예측하였다. 그 결과, 질환 모델링과 치료 모두에서 예측된 교정효율과 측정된 교정결과 빈도 간에 유의미한 상관 관계가 있음을 확인하였다(도 12의 c, d).Using human induced pluripotent stem cells (iPSCs) and the developed predictive model, the nucleotide editing efficiency and results were predicted for disease modeling and therapeutic correction of human point mutations in nucleotide editing. As a result, it was confirmed that there was a significant correlation between the predicted correction efficiency and the measured correction result frequency in both disease modeling and treatment (FIG. 12 c, d).

3-3. 염기교정 유전자가위의 효율 예측3-3. Efficiency prediction of base-correcting gene scissors

상기 실시예 3-1 및 3-2에서 수행한 모델링을 바탕으로, 인간 점돌연변이 질환에 대한 염기교정 유전자가위의 염기교정 효율을 예측하여 효율에 따른 분포를 확인하였다(도 13). 관심있는 돌연변이를 포함하는 염기 편집 결과의 빈도가 5%보다 높을 때, 해당 모델링을 "효율적(efficient)"인 것으로 정의한다면, 편집가능한 윈도우 내 단일 A의 돌연변이 691개 중 639개(92%), 다수 A의 돌연변이 2,226개 중 1,225개(55%)가 효율적으로 모델링 되는 것으로 나타났다. 교정 가능한 점돌연변이의 경우, 염기 편집 결과 야생형 서열의 빈도가 5%보다 높을 때, 해당 모델링을 "효율적(efficient)"인 것으로 정의한다면, 편집가능한 윈도우 내 단일 A의 돌연변이 1,834개 중 1,728개(94%), 다수 A의 돌연변이 7,096개 중 4,038개(57%)가 야생형으로 전환되어 효율적으로 모델링됨을 확인하였다. Based on the modeling performed in Examples 3-1 and 3-2, the nucleotide-correction efficiency of nucleotide-correction gene scissors for human point mutation diseases was predicted, and the distribution according to the efficiency was confirmed (FIG. 13). When the frequency of base editing results containing the mutation of interest is higher than 5%, if we define the modeling as "efficient", then 639 out of 691 mutations in single A (92%) within the editable window (92%); It was found that 1,225 (55%) of 2,226 mutations in A were efficiently modeled. In the case of correctable point mutations, if the modeling is defined as "efficient" when the frequency of the wild-type sequence is higher than 5% as a result of base editing, 1,728 out of 1,834 mutations in single A within the editable window (94 %), it was confirmed that 4,038 (57%) of 7,096 mutations in A were converted to wild type and efficiently modeled.

상기 결과를 통해, 일 양상에 따른 예측 시스템을 사용하면 인간 점돌연변이 질환에 대한 염기교정 유전자가위의 염기교정 효율과 가능한 교정결과들의 빈도를 모두 예측할 수 있어, 최적의 염기교정 유전자가위를 선별 및 실제 질환에서 상기 선별된 염기교정 유전자가위가 치료효과를 나타낼지에 관한 1차적 결과를 제공할 수 있음을 확인하였다.Through the above results, using the prediction system according to an aspect, it is possible to predict both the nucleotide correction efficiency of nucleotide correction for human point mutation disease and the frequency of possible correction results, so that the optimal nucleotide correction It was confirmed that the selected base-correcting gene scissors can provide a primary result regarding whether or not a therapeutic effect will be shown in the disease.

특히, 염기교정 유전자가위의 경우 기존의 크리스퍼 유전자가위와 달리 효율 예측만으로는 유전자가위 선별에 부족함이 있고 효율뿐만 아니라 염기교정 결과도 예측할 필요가 있으므로, 일 양상에 따른 예측 시스템은 딥러닝을 통해 염기교정 유전자가위의 효율 및 다양한 염기교정 결과물의 빈도를 예측함으로써 안전한 교정이 가능한 유전자가위를 선별하고, 그에 따라 적합한 가이드 RNA를 설계하여, 유전질환의 치료에 유용하게 활용할 수 있을 것으로 기대된다.In particular, in the case of nucleotide-correction gene scissors, unlike the existing CRISPR gene scissors, efficiency prediction alone is insufficient for gene scissors selection and it is necessary to predict not only efficiency but also the nucleotide correction result. It is expected that by predicting the efficiency of the editing gene and the frequency of various nucleotide correction results, it is possible to select the gene scissors that can be safely edited, and to design an appropriate guide RNA accordingly, which is expected to be usefully used in the treatment of genetic diseases.

전술한 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.The above description is for illustration, and those of ordinary skill in the art to which the present invention pertains will understand that it can be easily modified into other specific forms without changing the technical spirit or essential features of the present invention. Therefore, it should be understood that the embodiments described above are illustrative in all respects and not restrictive.

<110> Industry-Academic Cooperation Foundation, Yonsei University <120> A system for predicting base-editing efficiency and outcome product frequencies of base editors <130> PN134603KR <160> 28 <170> KoPatentIn 3.0 <210> 1 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> primer_F for oligonucleotide pool amplification <400> 1 ttgaaagtat ttcgatttct tggctttata tatcttgtgg aaaggacgaa acacc 55 <210> 2 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_R for oligonucleotide pool amplification <400> 2 gagtaagctg accgctgaag tacaagtggt agagtagaga tctagttacg ccaagct 57 <210> 3 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> primer_F_1 for 1st PCR <400> 3 acactctttc cctacacgac gctcttccga tctcttgaaa aagtggcacc gagtcg 56 <210> 4 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_2 for 1st PCR <400> 4 acactctttc cctacacgac gctcttccga tcttcttgaa aaagtggcac cgagtcg 57 <210> 5 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> primer_F_3 for 1st PCR <400> 5 acactctttc cctacacgac gctcttccga tctcgcttga aaaagtggca ccgagtcg 58 <210> 6 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> primer_R_1 for 1st PCR <400> 6 gtgactggag ttcagacgtg tgctcttccg atctttaagt cgagtaagct gaccgctgaa 60 g 61 <210> 7 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> primer_R_2 for 1st PCR <400> 7 gtgactggag ttcagacgtg tgctcttccg atctattaag tcgagtaagc tgaccgctga 60 ag 62 <210> 8 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> primer_R_3 for 1st PCR <400> 8 gtgactggag ttcagacgtg tgctcttccg atcttattaa gtcgagtaag ctgaccgctg 60 aag 63 <210> 9 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_1 for 2nd PCR <400> 9 aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgac 57 <210> 10 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_2 for 2nd PCR <400> 10 aatgatacgg cgaccaccga gatctacaca tagaggcaca ctctttccct acacgac 57 <210> 11 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_3 for 2nd PCR <400> 11 aatgatacgg cgaccaccga gatctacacc ctatcctaca ctctttccct acacgac 57 <210> 12 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_4 for 2nd PCR <400> 12 aatgatacgg cgaccaccga gatctacacg gctctgaaca ctctttccct acacgac 57 <210> 13 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_5 for 2nd PCR <400> 13 aatgatacgg cgaccaccga gatctacaca ggcgaagaca ctctttccct acacgac 57 <210> 14 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_6 for 2nd PCR <400> 14 aatgatacgg cgaccaccga gatctacact aatcttaaca ctctttccct acacgac 57 <210> 15 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_7 for 2nd PCR <400> 15 aatgatacgg cgaccaccga gatctacacc aggacgtaca ctctttccct acacgac 57 <210> 16 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_8 for 2nd PCR <400> 16 aatgatacgg cgaccaccga gatctacacg tactgacaca ctctttccct acacgac 57 <210> 17 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_1 for 2nd PCR <400> 17 caagcagaag acggcatacg agatcgagta atgtgactgg agttcagacg tgt 53 <210> 18 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_2 for 2nd PCR <400> 18 caagcagaag acggcatacg agattctccg gagtgactgg agttcagacg tgt 53 <210> 19 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_3 for 2nd PCR <400> 19 caagcagaag acggcatacg agataatgag cggtgactgg agttcagacg tgt 53 <210> 20 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_4 for 2nd PCR <400> 20 caagcagaag acggcatacg agatggaatc tcgtgactgg agttcagacg tgt 53 <210> 21 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_5 for 2nd PCR <400> 21 caagcagaag acggcatacg agatttctga atgtgactgg agttcagacg tgt 53 <210> 22 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_6 for 2nd PCR <400> 22 caagcagaag acggcatacg agatacgaat tcgtgactgg agttcagacg tgt 53 <210> 23 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_7 for 2nd PCR <400> 23 caagcagaag acggcatacg agatagcttc aggtgactgg agttcagacg tgt 53 <210> 24 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_8 for 2nd PCR <400> 24 caagcagaag acggcatacg agatgcgcat tagtgactgg agttcagacg tgt 53 <210> 25 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_9 for 2nd PCR <400> 25 caagcagaag acggcatacg agatcatagc cggtgactgg agttcagacg tgt 53 <210> 26 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_10 for 2nd PCR <400> 26 caagcagaag acggcatacg agatttcgcg gagtgactgg agttcagacg tgt 53 <210> 27 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_11 for 2nd PCR <400> 27 caagcagaag acggcatacg agatgcgcga gagtgactgg agttcagacg tgt 53 <210> 28 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_12 for 2nd PCR <400> 28 caagcagaag acggcatacg agatctatcg ctgtgactgg agttcagacg tgt 53 <110> Industry-Academic Cooperation Foundation, Yonsei University <120> A system for predicting base-editing efficiency and outcome product frequencies of base editors <130> PN134603KR <160> 28 <170> KoPatentIn 3.0 <210> 1 <211> 55 <212> DNA <213> Artificial Sequence <220> <223> primer_F for oligonucleotide pool amplification <400> 1 ttgaaagtat ttcgatttct tggctttata tatcttgtgg aaaggacgaa acacc 55 <210> 2 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_R for oligonucleotide pool amplification <400> 2 gagtaagctg accgctgaag tacaagtggt agagtagaga tctagttacg ccaagct 57 <210> 3 <211> 56 <212> DNA <213> Artificial Sequence <220> <223> primer_F_1 for 1st PCR <400> 3 acactctttc cctacacgac gctcttccga tctcttgaaa aagtggcacc gagtcg 56 <210> 4 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_2 for 1st PCR <400> 4 acactctttc cctacacgac gctcttccga tcttcttgaa aaagtggcac cgagtcg 57 <210> 5 <211> 58 <212> DNA <213> Artificial Sequence <220> <223> primer_F_3 for 1st PCR <400> 5 acactctttc cctacacgac gctcttccga tctcgcttga aaaagtggca ccgagtcg 58 <210> 6 <211> 61 <212> DNA <213> Artificial Sequence <220> <223> primer_R_1 for 1st PCR <400> 6 gtgactggag ttcagacgtg tgctcttccg atctttaagt cgagtaagct gaccgctgaa 60 g 61 <210> 7 <211> 62 <212> DNA <213> Artificial Sequence <220> <223> primer_R_2 for 1st PCR <400> 7 gtgactggag ttcagacgtg tgctcttccg atctattaag tcgagtaagc tgaccgctga 60 ag 62 <210> 8 <211> 63 <212> DNA <213> Artificial Sequence <220> <223> primer_R_3 for 1st PCR <400> 8 gtgactggag ttcagacgtg tgctcttccg atcttattaa gtcgagtaag ctgaccgctg 60 aag 63 <210> 9 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_1 for 2nd PCR <400> 9 aatgatacgg cgaccaccga gatctacact atagcctaca ctctttccct acacgac 57 <210> 10 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_2 for 2nd PCR <400> 10 aatgatacgg cgaccaccga gatctacaca tagaggcaca ctctttccct acacgac 57 <210> 11 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_3 for 2nd PCR <400> 11 aatgatacgg cgaccaccga gatctacacc ctatcctaca ctctttccct acacgac 57 <210> 12 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_4 for 2nd PCR <400> 12 aatgatacgg cgaccaccga gatctacacg gctctgaaca ctctttccct acacgac 57 <210> 13 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_5 for 2nd PCR <400> 13 aatgatacgg cgaccaccga gatctacaca ggcgaagaca ctctttccct acacgac 57 <210> 14 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_6 for 2nd PCR <400> 14 aatgatacgg cgaccaccga gatctacact aatcttaaca ctctttccct acacgac 57 <210> 15 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_7 for 2nd PCR <400> 15 aatgatacgg cgaccaccga gatctacacc aggacgtaca ctctttccct acacgac 57 <210> 16 <211> 57 <212> DNA <213> Artificial Sequence <220> <223> primer_F_8 for 2nd PCR <400> 16 aatgatacgg cgaccaccga gatctacacg tactgacaca ctctttccct acacgac 57 <210> 17 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_1 for 2nd PCR <400> 17 caagcagaag acggcatacg agatcgagta atgtgactgg agttcagacg tgt 53 <210> 18 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_2 for 2nd PCR <400> 18 caagcagaag acggcatacg agattctccg gagtgactgg agttcagacg tgt 53 <210> 19 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_3 for 2nd PCR <400> 19 caagcagaag acggcatacg agataatgag cggtgactgg agttcagacg tgt 53 <210> 20 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_4 for 2nd PCR <400> 20 caagcagaag acggcatacg agatggaatc tcgtgactgg agttcagacg tgt 53 <210> 21 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_5 for 2nd PCR <400> 21 caagcagaag acggcatacg agatttctga atgtgactgg agttcagacg tgt 53 <210> 22 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_6 for 2nd PCR <400> 22 caagcagaag acggcatacg agatacgaat tcgtgactgg agttcagacg tgt 53 <210> 23 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_7 for 2nd PCR <400> 23 caagcagaag acggcatacg agatagcttc aggtgactgg agttcagacg tgt 53 <210> 24 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_8 for 2nd PCR <400> 24 caagcagaag acggcatacg agatgcgcat tagtgactgg agttcagacg tgt 53 <210> 25 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_9 for 2nd PCR <400> 25 caagcagaag acggcatacg agatcatagc cggtgactgg agttcagacg tgt 53 <210> 26 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_10 for 2nd PCR <400> 26 caagcagaag acggcatacg agatttcgcg gagtgactgg agttcagacg tgt 53 <210> 27 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_11 for 2nd PCR <400> 27 caagcagaag acggcatacg agatgcgcga gagtgactgg agttcagacg tgt 53 <210> 28 <211> 53 <212> DNA <213> Artificial Sequence <220> <223> primer_R_12 for 2nd PCR <400> 28 caagcagaag acggcatacg agatctatcg ctgtgactgg agttcagacg tgt 53

Claims (21)

염기교정 유전자가위의 표적 서열을 입력 받는 표적 서열 입력부; 및
상기 표적 서열 입력부에서 입력 받은 표적 서열을 효율 예측 모델 및 교정결과 예측 모델에 각각 적용하여 염기교정 유전자가위의 효율 및 교정결과 스코어를 획득하고, 상기 효율 스코어와 교정결과 스코어를 곱하여 염기교정 유전자가위의 효율 및 결과를 동시에 예측하는 결과 예측부를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
a target sequence input unit for receiving a target sequence of the base editing gene scissors; and
By applying the target sequence input from the target sequence input unit to the efficiency prediction model and the correction result prediction model, respectively, the efficiency and correction result score of the nucleotide correction gene scissors are obtained, and the efficiency score and the correction result score are multiplied by the nucleotide correction gene scissors. A nucleotide correction efficiency and result prediction system of nucleotide correction gene scissors, comprising a result prediction unit for simultaneously predicting efficiency and result.
청구항 1에 있어서,
상기 효율 예측 모델은
염기교정 유전자가위의 활성 데이터를 정보 입력부를 통해 입력 받는 단계; 및
상기 정보 입력부에서 입력 받은 데이터를 이용하여 컨볼루션 신경망(convolutional neural network: CNN)을 기반으로 한 딥러닝을 수행하여 효율 예측 모델을 생성하는 단계를 통해 생성되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The efficiency prediction model is
receiving activity data of base-correcting gene scissors through an information input unit; and
Base correction of base correction gene scissors, which is generated through the step of generating an efficiency prediction model by performing deep learning based on a convolutional neural network (CNN) using the data received from the information input unit Efficiency and outcome prediction system.
청구항 1에 있어서,
상기 교정결과 예측 모델은
염기교정 유전자가위의 교정결과 데이터를 입력 받는 정보 입력부를 통해 입력 받는 단계; 및
상기 정보 입력부에서 입력 받은 데이터를 이용하여 컨볼루션 신경망(convolutional neural network: CNN)을 기반으로 한 딥러닝을 수행하여 교정결과 예측 모델을 생성하는 단계를 통해 생성되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The calibration result prediction model is
Receiving an input through an information input unit for receiving the correction result data of the base correction gene scissors; and
The base of the base correction gene scissors, which is generated by performing deep learning based on a convolutional neural network (CNN) using the data input from the information input unit and generating a prediction model for the correction result Calibration Efficiency and Outcome Prediction System.
청구항 1에 있어서,
상기 염기교정 유전자가위는 아데닌 염기교정 유전자가위(Adenine Base Editor: ABE) 또는 시토신 염기교정 유전자가위(Cytosine Base Editor: CBE)인 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The base editing gene scissors is an adenine base editing gene scissors (Adenine Base Editor: ABE) or a cytosine base editing gene scissors (Cytosine Base Editor: CBE), the base editing efficiency and result prediction system of the base editing gene scissors.
청구항 2에 있어서,
상기 염기교정 유전자가위의 활성 데이터는 염기교정 유전자가위가 목적하는 표적 뉴클레오티드 주변의 서열 컨텍스트(context)가 고려된 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
3. The method according to claim 2,
The base editing efficiency and result prediction system of the base editing gene scissors, wherein the activity data of the base editing gene scissors is a sequence context (context) around the target nucleotide of the base editing gene scissors target.
청구항 2에 있어서,
상기 염기교정 유전자가위의 활성 데이터는
가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 염기교정 유전자가위를 도입하는 단계;
상기 염기교정 유전자가위가 도입된 세포 라이브러리로부터 분리한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계; 및
상기 딥 시퀀싱으로부터 수득한 서열 데이터로부터 염기교정 범위 내 표적 뉴클레오티드 전환 여부를 검출하는 단계를 통해 수득되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
3. The method according to claim 2,
The activity data of the base-correcting gene scissors is
introducing nucleotide-correcting gene scissors into a cell library comprising a nucleotide sequence encoding a guide RNA and an oligonucleotide comprising a target sequence desired by the guide RNA;
performing deep sequencing using the DNA isolated from the cell library into which the base correction gene scissors have been introduced; and
It is obtained through the step of detecting whether the target nucleotide is converted within the range of nucleotide correction from the sequence data obtained from the deep sequencing, nucleotide correction efficiency and result prediction system of nucleotide correction gene scissors.
청구항 3에 있어서,
상기 염기교정 유전자가위의 교정결과 데이터는
가이드 RNA를 코딩하는 염기서열 및 상기 가이드 RNA가 목적하는 표적 서열을 포함하는 올리고뉴클레오티드를 포함하는 세포 라이브러리에 염기교정 유전자가위를 도입하는 단계;
상기 염기교정 유전자가위가 도입된 세포 라이브러리로부터 분리한 DNA를 이용하여 딥 시퀀싱을 수행하는 단계;
상기 딥 시퀀싱으로부터 수득한 서열 데이터로부터 염기교정 범위 내 표적 뉴클리오티드 전환 빈도를 검출하는 단계를 통해 수득되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
4. The method according to claim 3,
The data of the correction result of the base correction gene scissors is
introducing nucleotide-correcting gene scissors into a cell library comprising a nucleotide sequence encoding a guide RNA and an oligonucleotide comprising a target sequence desired by the guide RNA;
performing deep sequencing using the DNA isolated from the cell library into which the base correction gene scissors have been introduced;
It is obtained through the step of detecting a target nucleotide conversion frequency within the range of nucleotide correction from the sequence data obtained from the deep sequencing, nucleotide correction efficiency and result prediction system of nucleotide correction gene scissors.
청구항 1에 있어서,
상기 효율 스코어는 표적 서열의 각 위치에 대하여 하기 [수학식 1]을 이용하여 산출되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
[수학식 1]
Figure 112020082379421-pat00013

The method according to claim 1,
The efficiency score is calculated using the following [Equation 1] for each position of the target sequence, the nucleotide correction efficiency and result prediction system of the nucleotide correction gene scissors.
[Equation 1]
Figure 112020082379421-pat00013

청구항 1에 있어서,
상기 교정결과 스코어는 하기 [수학식 2]을 이용하여 산출되는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
[수학식 2]
Figure 112020082379421-pat00014

The method according to claim 1,
The correction result score is calculated using the following [Equation 2], the nucleotide correction efficiency and result prediction system of the nucleotide correction gene scissors.
[Equation 2]
Figure 112020082379421-pat00014

청구항 1에 있어서,
상기 표적 서열은 24 내지 26개의 뉴클레오티드로 구성된 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The target sequence is composed of 24 to 26 nucleotides, the nucleotide correction efficiency and result prediction system of the nucleotide correction gene scissors.
청구항 1에 있어서,
상기 표적 서열은 PAM 서열 및 프로토스페이서 서열을 포함하는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The target sequence includes a PAM sequence and a protospacer sequence, a system for predicting base editing efficiency and results of base editing gene scissors.
청구항 1에 있어서,
상기 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템은 결과 예측부에서 예측된 염기교정 유전자가위의 효율 및 결과를 출력하는 출력부를 추가로 포함하는 것인, 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템.
The method according to claim 1,
The nucleotide correction efficiency and result prediction system of the nucleotide correction gene scissors further comprises an output unit for outputting the efficiency and result of the nucleotide correction gene scissors predicted by the result prediction unit, the nucleotide correction efficiency and result of the nucleotide correction gene scissors prediction system.
염기교정 유전자가위의 표적 서열을 설계하는 단계; 및
상기 설계된 표적 서열을 청구항 1에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계를 포함하는 염기교정 유전자가위의 염기교정 효율 및 결과 예측 방법.
designing a target sequence of the base editing gene scissors; and
A method for predicting nucleotide correction efficiency and result of nucleotide correction gene scissors, comprising the step of applying the designed target sequence to the nucleotide correction efficiency and result prediction system according to claim 1.
인간 점돌연변이 데이터를 수득하는 단계;
상기 인간 점돌연변이 데이터 중에서 병원성 또는 유사병원성 점돌연변이에 해당하는 데이터를 1차로 선별하는 단계;
상기 1차로 선별된 데이터 중에서 점돌연변이가 정상 염기 아데닌(A)이 비정상 염기 구아닌(G)으로 바뀌어 발생하는 경우; 정상 염기 구아닌(G)이 비정상 염기 아데닌(A)으로 바뀌어 발생하는 경우; 정상 염기 시토신(C)이 비정상 염기 티민T)으로 바뀌어 발생하는 경우; 또는 정상 염기 티민(T)이 비정상 염기 시토신(C)으로 바뀌어 발생하는 경우에 해당하는 데이터를 2차로 선별하는 단계;
상기 2차로 선별된 데이터 중에서 점돌연변이가 프로토스페이서 영역의 5' 말단으로부터 3 내지 10 bp 위치에 존재하는 데이터를 3차로 선별하는 단계;

상기 3차로 선별된 데이터를 청구항 1에 따른 염기교정 효율 및 결과 예측 시스템에 적용하는 단계를 포함하는 염기교정 유전자가위를 사용할 수 있는 인간 점돌연변이 관련 질환에 대한 정보를 제공하는 방법.
obtaining human point mutation data;
first selecting data corresponding to pathogenic or pseudopathogenic point mutations from among the human point mutation data;
a case in which a point mutation occurs by changing the normal base adenine (A) to the abnormal base guanine (G) in the firstly selected data; When the normal base guanine (G) is replaced with the abnormal base adenine (A); When the normal base cytosine (C) is replaced with the abnormal base thymine T); or secondarily selecting data corresponding to a case in which the normal base thymine (T) is changed to the abnormal base cytosine (C);
a third step of selecting data in which a point mutation exists at a position 3 to 10 bp from the 5' end of the protospacer region among the secondarily selected data;
and
A method of providing information on human point mutation-related diseases that can use nucleotide correction gene scissors, comprising the step of applying the tertiary selected data to the nucleotide correction efficiency and result prediction system according to claim 1.
청구항 14에 있어서,
상기 인간 점돌연변이 관련 질환은 어셔 증후군(Usher syndrome), 종양괴사인자 수용체 관련 주기적 증후군(TNF receptor-associated periodic syndrome: TRAPS), 마판 증후군(marfan syndrome), 제3형 청년기 발병 당뇨병(Type 3 form of Maturity-Onset Diabetes of the Young: MODY3), 선천성 비진행성 야맹증(Congenital stationary night blindness type 1F), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 선천근육무력증후군(congenital myasthenic syndrome: CMS), 린치증후군(Lynch syndrome) 등이 확인되었고, CBE의 경우 로이-디에츠 증후군(Loeys-Dietz syndrome: LDS), 망막색소변성증(retinitis pigmentosa), 렙틴 결핍 또는 장애(Leptin deficiency 또는 dysfunction), 가족성 고콜레스테롤혈증(Familial hypercholesterolemia), 상염색체 열성 청각장애(autosomal recessive deafness), 콜레스테롤 모노옥시다제 결핍(cholesterol monooxygenase (side-chain-cleaving) deficiency) 및 진행성 근간대성간질(progressive myoclonus epilepsy)로 이루어진 군으로부터 선택되는 어느 하나인 것인, 염기교정 유전자가위를 사용할 수 있는 인간 점돌연변이 관련 질환에 대한 정보를 제공하는 방법.
15. The method of claim 14,
The human point mutation-related diseases include Usher syndrome, TNF receptor-associated periodic syndrome (TRAPS), marfan syndrome, and type 3 adolescent onset diabetes (Type 3 form of Maturity-Onset Diabetes of the Young: MODY3), congenital stationary night blindness type 1F, familial hypercholesterolemia, congenital myasthenic syndrome (CMS), Lynch syndrome syndrome) were confirmed, and in the case of CBE, Loeys-Dietz syndrome (LDS), retinitis pigmentosa, leptin deficiency or dysfunction, familial hypercholesterolemia hypercholesterolemia), autosomal recessive deafness, cholesterol monooxygenase (side-chain-cleaving) deficiency, and progressive myoclonus epilepsy, any one selected from the group consisting of A method of providing information on human point mutation-related diseases that can use base-correction gene scissors.
청구항 13 내지 15 중 어느 한 항에 따른 방법을 컴퓨터로 실행하기 위한 프로그램이 기록된 컴퓨터 판독가능 기록매체.
A computer-readable recording medium in which a program for executing the method according to any one of claims 13 to 15 by a computer is recorded.
삭제delete 삭제delete 삭제delete 삭제delete 삭제delete
KR1020200098119A 2019-08-09 2020-08-05 A system for predicting base-editing efficiency and outcome product frequencies of base editors KR102412631B1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR20190097643 2019-08-09
KR1020190097643 2019-08-09

Publications (2)

Publication Number Publication Date
KR20210018131A KR20210018131A (en) 2021-02-17
KR102412631B1 true KR102412631B1 (en) 2022-06-24

Family

ID=74731987

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200098119A KR102412631B1 (en) 2019-08-09 2020-08-05 A system for predicting base-editing efficiency and outcome product frequencies of base editors

Country Status (1)

Country Link
KR (1) KR102412631B1 (en)

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3450570B1 (en) * 2016-04-28 2021-03-10 Industry-Academic Cooperation Foundation, Yonsei University Method for evaluating, in vivo, activity of rna-guided nuclease in high-throughput manner
KR102029197B1 (en) * 2017-10-31 2019-10-08 연세대학교 산학협력단 A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Bioinformatics.,34(17):i656-i663(2018.9.1.)
BioRxiv.,doi: https://doi.org/10.1101/021568(2015.6.26.)
Genetics.,212(2): 377-385(2019.4.1.)
J Chem Inf Model.,59(1):615-624(2019.1.28.)
Nat Biotechnol.,36(3):239-241(2018.3.)

Also Published As

Publication number Publication date
KR20210018131A (en) 2021-02-17

Similar Documents

Publication Publication Date Title
US11913017B2 (en) Efficient genetic screening method
Chen et al. Position effects influence HIV latency reversal
Aubry et al. Deep evolutionary comparison of gene expression identifies parallel recruitment of trans-factors in two independent origins of C4 photosynthesis
US11767534B2 (en) Multiplexed genetic reporter assays and compositions
KR20180012280A (en) Microbial strain improvement by HTP genome engineering platform
CN108221058A (en) One boar full-length genome sgRNA libraries and its construction method and application
KR102029197B1 (en) A deep-learning based system for evaluating the RNA-guided nuclease activity using deep-learning
US20230022311A1 (en) Methods and compositions involving crispr class 2, type vi guides
CN108205614A (en) A kind of structure system in full-length genome sgRNA libraries and its application
JP2019514379A (en) Methods for in vivo high-throughput evaluation of RNA-inducible nuclease activity
Mirkovic-Hösle et al. Transposon defense by endo-siRNAs, piRNAs and somatic pilRNAs in Drosophila: contributions of Loqs-PD and R2D2
WO2019204750A1 (en) Directed cell fate specification and targeted maturation
Wei et al. Deep learning of Cas13 guide activity from high-throughput gene essentiality screening
KR102412631B1 (en) A system for predicting base-editing efficiency and outcome product frequencies of base editors
Chuffart et al. Exploiting single-cell quantitative data to map genetic variants having probabilistic effects
US20230274792A1 (en) System and method for prime editing efficiency prediction using deep learning
Martyn et al. Rewriting regulatory DNA to dissect and reprogram gene expression
Chen et al. Deletion mapping of regulatory elements for GATA3 in T cells reveals a distal enhancer involved in allergic diseases
WO2020117713A1 (en) In situ readout of dna barcodes
Pizzollo et al. Differentially active and conserved neural enhancers define two forms of adaptive noncoding evolution in humans
Domingo et al. Non-linear transcriptional responses to gradual modulation of transcription factor dosage
KR20240034650A (en) Method and apparatus for predicting prime editing efficiency of diverse prime editors in various cell types
Panda Genome-Wide Regulation of Both Canonical and Non-canonical RNA-directed DNA Methylation Mechanisms in Arabidopsis thaliana
Xing Epigenetic Profiling of Active Enhancers in Mouse Retinal Ganglion Cells
Chaudhari Integration of Local and Regional Regulatory Information in the Human Genome

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant