KR20220004980A

KR20220004980A - 기능 요소의 식별 방법

Info

Publication number: KR20220004980A
Application number: KR1020217034687A
Authority: KR
Inventors: 원성 웨이; 이난 왕; 웨신 저우; 신이 장; 디 웨; 잉 류
Original assignee: 페킹 유니버시티; 에디진 인크.
Priority date: 2019-03-26
Filing date: 2020-03-26
Publication date: 2022-01-12
Also published as: EP3947788A1; US20220186210A1; AU2020248911B2; JP2022537477A; CN113939617A; AU2020248911A1; CA3134400A1; EP3947788A4; WO2020192712A1

Abstract

게놈 서열의 기능 요소를 식별하는 방법, 및 게놈 서열의 기능 요소를 식별하는데 사용되는 라이브러리가 제공된다.

Description

기능 요소의 식별 방법

본 발명은 관심 있는 게놈 영역 또는 단백질의 기능 요소를 식별하는 방법에 관한 것이다. 구체적으로, 본 발명은 본래의 생물학적 맥락에서 그 기능에 대해 중요한 요소를 식별하기 위한 하이스루풋 전략에 관련된다.

RNA 유도 CRISPR 관련 단백질 9 뉴클레아제는 이중 가닥 절단(DSB)을 발생시키고, 결과적으로 내부 복구 메커니즘, 특히 비상동 말단 연결(NHEJ)을 활성화시키는 것을 통해, 표적 게놈 유전자좌에 삽입결실(indel)(삽입 또는 결실) 및 점 돌연변이를 도입할 수 있다^{(1, 2)}. 특히 해독틀이동을 해독하는 것으로 이어지는 돌연변이유발은 유전자 발현을 완전히 폐지할 수 있음으로써, CRISPR-Cas9 시스템을 게놈 엔지니어링^(3, ⁴⁾을 위한, 또한 하이스루풋 기능 스크리닝^(5-8)도 위한 강력한 도구로 만들 수 있다. 고해상도로 조절 요소 또는 단백질 코딩 서열의 역할을 더 잘 이해하기 위해, CRISPR 매개 포화 돌연변이유발이 관련 생물학적 어세이와 함께 체용되었다^{(9, 10)}. 이들 시도는 sgRNA 코딩 영역으로부터 간접적인 시퀀싱 데이터만 수집했기 때문에, 염기 인식 해상도가 제한적이었다. 더욱이, 특히 관심 단백질이 세포 생존율에 불필요한 경우, 이러한 전략을 사용하여 완전한 기능 도메인 또는 임계 아미노산 정보를 얻을 가능성이 거의 없다. 전통적인 방법은 주로 절단 돌연변이유발(truncation mutagenesis)과 조합한 공-면역침강법(co-immunoprecipitation, co-IP)과 같은 시험관내 생화학적 어세이이지만⁽¹¹⁾, 이들 기술은 시간이 많이 걸리고, 노동 집약적이며, 해상도가 낮아서, 이들 중 어떤 것도 본래의 생물학적 맥락에서 행해질 수 없다는 것은 말할 필요도 없다. 따라서, 관심 있는 단백질 또는 게놈 서열에 대한 기능 요소를 식별하기 위한 보다 정확하고 포괄적인 전략 및 방법이 당업계에서 매우 요구된다.

본 발명은 CRESMAS(CRISPR-Empowered Saturation Mutagenesis combined with Assorted-DNA-fragment Sequencing)로 명명되는 관심 있는 게놈 영역 또는 단백질에 대한 기능 요소를 식별하기 위한 하이스루풋 전략 및 방법을 제공함으로써 상술한 요구 중 적어도 일부를 충족시킨다. 구체적으로, 본 발명은 포화 돌연변이유발을 적용하고, 표현형의 변화를 일으키는 해독틀내 돌연변이(해독틀내 결실 및 미스센스 점 돌연변이)만을 검색하여, 표적 유전자의 필수성에 관계없이 유전자 영역 또는 단백질의 기능과 관련된 임계 부위를 식별한다.

이 접근 방식을 사용하여, 본 발명자들은 6개의 단백질, 3개의 박테리아 독소 수용체 및 3개의 암치료제 표적을 맵핑하고, 약물 또는 독소 감수성에 중요한 공지된 도메인 또는 부위 및 신규 아미노산을 모두 포함하는, 단일 아미노산 해상도로 포괄적인 기능 맵을 획득했다. 이 신규한 방법은 단백질 기능을 폐지하거나 또는 약물 내성을 부여하는 임계 잔류물에 대한 포괄적이고 정확한 단일 아미노산 치환 패턴을 밝혀냈다. 엄청난 정확도와 효율성을 가진 확장 가능한(scalable) CRESMAS 전략은 고해상도에서의 다양한 단백질의 서열 대 기능 맵핑을 가능하게 하고, 또한 단백질 기능 및 약물 내성의 기계론적 연구를 가속화시킬 수 있는 가능성이 있다.

일 양태에 있어서, 본 발명은 CRISPR 시스템을 사용하여 모든 아미노산을 커버하는 다중 돌연변이를 제공하기 위해 포화 돌연변이유발을 수행하는 단계, 기능소실 표현형을 발생시키는 해독틀내 돌연변이를 검색하는 단계, 시퀀싱 분석을 위한 표적 유전자의 sgRNA 코딩 영역 및 cDNA를 PCR 증폭시키는 단계, 및 관심 단백질에 필수적인 아미노산을 식별하기 위해 시퀀싱 데이터를 분석하기 위해 계산 파이프라인을 구축하는 단계를 포함하는, 관심 단백질에 대한 기능 원소를 식별하는 방법에 관한 것이다. 일 실시형태에 있어서, 관심 단백질에 대한 기능 요소에 대한 식별은 단일 아미노산 해상도에서 이루어진다. 일 실시형태에 있어서, 관심 단백질에 대한 기능 요소에 대한 식별은 그것의 본래의 생물학적 맥락 내이다. 일 실시형태에 있어서, 해독틀내 돌연변이는 해독틀내 결실 및 미스센스 점 돌연변이이다.

일 실시형태에 있어서, CRISPR 시스템의 사용에 의한 포화 돌연변이유발은 관심 단백질의 전장에 걸쳐 있는 각각의 아미노산에 대한 sgRNA를 설계하는 단계를 포함한다. 일 실시형태에 있어서, 각각의 sgRNA는 DSB 부위 주위의 약 10bp(예를 들면 7-13, 예를 들면 8bp, 9bp, 10bp, 11bp 및 12bp)에 대해 영향을 미치도록 설계된다. 일 실시형태에 있어서, 해독틀내 결실은 "드라이버 결실"(단일 아미노산 결실만을 함유함) 또는 "패신저 결실"(다중 아미노산 결실을 함유함)로서 드라이버 결실을 포함한다.

일 실시형태에 있어서, 계산 파이프라인은:

공공의 생물정보학 도구, 예를 들면 Bowtie2 2.3.2 및 SAMtools 1.3.1을 사용하여 표적 유전자의 참조 서열에 시퀀싱 해독을 맵핑하는 단계,

미스센스 돌연변이 또는 해독틀내 결실만 보유하는 것들을 유지하기 위해 해독을 필터링하는 단계,

미스센스 돌연변이를 포함하는 단편의 경우, 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산하는 단계:

해독틀내 결실을 포함하는 단편의 경우, 각각의 아미노산의 결실 비율을 다음과 같이 계산하는 단계:

해독틀내 결실을 디코딩하고, 또한 아미노산 결실의 수에 근거하여 해독틀내 결실을 단일 아미노산 결실만 포함하는 경우에는 "드라이버 결실"로, 또는 다수의 아미노산 결실을 포함하는 경우에는 "패신저 결실"로 분류하는 단계,

실험군과 대조군 사이의 배수 변화를 계산하는 단계,

각각의 아미노산에 대한 필수 스코어가 다음과 같이 계산되는 단계로서:

돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_돌연변이= -log10(P-값)이 계산되었고,

결실 배수 변화의 경우, 우선 조정 가능한 파라미터 α가 다음과 같이 드라이버 결실 및 패신저 결실에 가중치를 가하기 위해 적용되고:

결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화이고, 그 다음 100배의 순열을 통해 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_{결실= -}log10(P-값)이 계산되고,

스코어_돌연변이 및 스코어_결실이 다음과 같이 정규화되고:

스코어_돌연변이 및 스코어_결실의 가중치가 다음과 같이 계산되고:

a = 결실 배수 변화가 있는 아미노산의 수 > 1

b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

필수 스코어가 다음과 같이 계산되는 단계를 포함한다.

필수 스코어 = W_GHIJIKLM * 스코어_GHIJIKLM + W_STUTIKLM * 스코어_STUTIKLM.

일 실시형태에 있어서, 상기 방법은 필수 스코어에 따른 기능적 중요성에 근거하여 아미노산의 순위를 매기는 단계를 추가로 포함한다.

일 양태에 있어서, 본 발명은 적어도 하나의 연속 영역 내에서 복수의 게놈 서열을 표적화할 수 있는 가이드 서열을 포함하는 복수의 CRISPR-Cas 시스템 가이드 RNA를 포함하는 게놈 서열의 기능 요소를 식별하기 위해 CRESMAS에 사용되는 라이브러리에 관한 것으로, 여기서 가이드 RNA는 연속 게놈 영역 내의 모든 1000개의 염기쌍에 대한 PAM 서열의 상류에 비중첩 분절 부위를 포함하는 적어도 100개의 게놈 서열을 표적으로 한다.

일 실시형태에 있어서, 라이브러리의 각각의 가이드 RNA는 DSB 부위 주위의 약 10bp(예를 들면 7-13, 예를 들면 8bp, 9bp, 10bp, 11bp 및 12bp)에 대해 영향을 미치도록 설계된다. 일 실시형태에 있어서, 라이브러리는 연속 게놈 영역 내의 모든 PAM 서열의 상류의 게놈 서열을 표적으로 하는 가이드 RNA를 포함한다. 일 실시형태에 있어서, PAM 서열은 적어도 하나의 Cas 단백질에 특이적이다. 일 실시형태에 있어서, CRISPR-Cas 시스템 가이드 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나를 초과하는 PAM 서열에 근거하여 선택된다. 일 실시형태에 있어서, 관심 유전자의 발현은 복수의 CRISPR-Cas 시스템 가이드 RNA 내의 적어도 하나의 가이드 RNA에 의한 상기 표적화에 의해 변경된다. 일 실시형태에 있어서, 라이브러리는 세포의 집단, 바람직하게는 진핵 세포의 집단에 도입된다. 일 실시형태에 있어서, 상기 표적화는 연속 게놈 영역의 NHEJ를 초래한다. 일 실시형태에 있어서, 표적화는 약 100개 이상의 서열, 약 1,000개 이상의 서열, 약 100,000개 이상의 서열이다.

일 실시형태에 있어서, 표적화는 하기를 포함하는 조작된, 비천연 발생 CRISPR-Cas 시스템을 포함하는 하나 이상의 벡터의 벡터 시스템을 세포의 집단의 각각의 세포에 도입하는 단계를 포함한다.

I. 조절 요소에 조작 가능하게 연결된 Cas 단백질 또는 Cas 단백질을 인코딩하는 폴리뉴클레오티드 서열, 및

Ⅱ. CRISPR-Cas 시스템 가이드 RNA

여기서, 성분 I 및 II는 동일하거나 또는 상이한 벡터 상에 있고, 전사된, 가이드 서열을 포함하는 가이드 RNA는 CRISPR-Cas 시스템의 서열-특이적 결합을 연속 게놈 영역의 표적 서열로 안내하여, Cas 단백질에 의해 연속 게놈 영역의 분절을 유도한다.

일 실시형태에 있어서, 하나 이상의 벡터는 플라스미드 벡터이다. 조절 요소는 유도성 프로모터이고, 바람직하게는 유도성 프로모터는 독시사이클린 유도성 프로모터이다.

일 양태에 있어서, 본 발명은:

(a) 선행하는 항 중 어느 한 항에 기재된 라이브러리를 적어도 하나의 Cas 단백질을 함유하도록 적합화된 세포의 집단에 도입하는 단계로서, 상기 집단의 각각의 세포는 하나 이하의 가이드 RNA를 함유하는 단계;

(b) 세포 표현형의 변화에 근거하여 세포를 적어도 2개의 그룹으로 분류하는 단계;

(c) 각 그룹에 존재하는 가이드 RNA의 상대적 표현을 결정함으로써, 세포 표현형의 변화와 관련된 게놈 부위가 각 그룹에 존재하는 가이드 RNA의 표현에 의해 결정되는 단계;

(d) 시퀀싱을 위해 표적화된 하나 이상의 유전자의 하나 이상의 cDNA 또는 DNA 서열을 증폭하는 단계;

(e) 시퀀싱 해독을 표적 유전자의 참조 서열에 맵핑하는 단계;

(f) 미스센스 돌연변이 또는 해독틀내 결실만을 보유하는 것들을 유지하도록 해독을 필터링하는 단계; 및

(g) 생물정보학 파이프라인을 적용함으로써, 세포 표현형에 대한 각각의 아미노산 또는 뉴클레오티드산의 가중치를 결정하는 단계를 포함하는 CRESMAS 방법에 관한 것이다.

일 실시형태에 있어서, 세포 표현형의 변화는 관심 유전자의 전사 및/또는 발현의 증가 또는 감소이다. 일 실시형태에 있어서, 세포는 고발현군 및 저발현군으로 분류된다. 일 실시형태에 있어서, 세포 표현형의 변화는 기능 상실 또는 기능 획득을 포함한다. 일 실시형태에 있어서, 상기 방법은 단일 아미노산 해상도에서 관심 단백질에 대한 기능 요소를 식별하기 위한 것이다.

일 실시형태에 있어서, 상기 방법은 비-코딩 RNA, 프로모터 또는 인핸서의 기능 맵을 식별하기 위한 것이다. 프로토콜의 유일한 수정은 관심 단백질의 기능 요소를 식별하는 상황에서 cDNA 대신에 게놈의 표적 영역에 대해 PCR 증폭을 행하는 것이다.

일 양태에 있어서, 본 발명은:

(a) 상술한 임의의 라이브러리를 Cas 단백질을 함유하도록 적합화된 세포의 집단에 도입하는 단계로서, 상기 집단의 각각의 세포는 하나 이하의 가이드 RNA를 함유하는 단계;

(b) 상기 세포 집단을 화학 화합물로 처리하는 단계; 및

(c) 화학 화합물로 처리 후의 가이드 RNA의 표현을 처리 전과 비교하여 결정함으로써, 가이드 RNA의 농축(enrichment)에 의해 화학 화합물 내성과 관련된 게놈 부위를 결정하는 단계;

(g) 생물정보학 파이프라인을 적용함으써, 화학 화합물 내성에 대한 각각의 아미노산 또는 뉴클레오티드산의 가중치를 결정하는 단계를 포함하는 화학 화합물 내성과 관련된 기능 요소를 스크리닝하는 방법에 관한 것이다.

소정 실시형태에 있어서, 생물정보학 파이프라인은 다음을 포함한다:

(h) 미스센스 돌연변이를 포함하는 단편의 경우, 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산하는 단계:

(i) 해독틀내 결실을 포함하는 단편의 경우, 각각의 아미노산의 결실 비율을 다음과 같이 계산하는 단계:

(j) 해독틀내 결실을 디코딩하고, 또한 아미노산 결실의 수에 근거하여 해독틀내 결실을 단일 아미노산 결실만 포함하는 경우에는 "드라이버 결실"로, 또는 다수의 아미노산 결실을 포함하는 경우에는 "패신저 결실"로 분류하는 단계,

(k) 실험군과 대조군 사이의 배수 변화를 계산하는 단계,

(l) 각각의 아미노산에 대한 필수 스코어가 다음과 같이 계산되는 단계로서:

(1) 돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_돌연변이= -log10(P-값)이 계산되고,

(2) 결실 배수 변화의 경우, 우선 조정 가능한 파라미터 α가 다음과 같이 드라이버 결실 및 패신저 결실에 가중치를 가하기 위해 적용되고:

결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화이고, 그 다음 100배의 순열을 통해 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_결실= -log10(P-값)이 계산되고,

(3) 스코어_돌연변이 및 스코어_결실이 다음과 같이 정규화되고:

(4) 스코어_돌연변이 및 스코어_결실의 가중치가 다음과 같이 계산되고:

a = 결실 배수 변화가 있는 아미노산의 수 > 1

b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

(5) 필수 스코어가 다음과 같이 계산되는 단계.

본원의 방법에서, 화학 화합물은 진핵 세포에서 하나 이상의 게놈 영역 또는 단백질의 구조 및/또는 기능에 영향을 미치는 임의의 화학 화합물일 수 있다. 예를 들면, 본원에 예시된 바와 같은 독소 또는 약물일 수 있다. 일부 실시형태에 있어서, 진핵 세포는 인간 세포이다.

일 양태에 있어서, 본 발명은 세포의 집단에 도입된 CRISPR-Cas 시스템을 사용하여 단백질을 코딩하는 게놈 유전자를 파괴함으로써 관심 단백질에 포화 돌연변이유발을 수행하는 단계, DNA 시퀀싱에 의한 표현형의 변화와 관련된 파괴된 게놈 부위를 결정하는 단계, 표적 유전자의 cDNA를 시퀀싱하는 단계, 표현형의 변화를 발생시키는 해독틀내 돌연변이를 검색하는 단계, 및 단일 아미노산 해상도에서 관심 단백질의 기능 요소를 식별하기 위해서, 시퀀싱 데이터를 분석하기 위한 생물정보학 파이프라인을 구축하는 단계를 포함하는, 관심 단백질의 기능 요소를 식별하는 방법에 관한 것이다. 이 방법에서는, 관심 단백질에 대한 기능 요소의 식별은 그 본래의 생물학적 맥락 내이다.

상기 방법에 있어서, 해독틀내 돌연변이는 해독틀내 결실 및 미스센스 돌연변이이다. 소정 실시형태에 있어서, 파괴는 하기를 포함하는 조작된, 비천연 발생 CRISPR-Cas 시스템을 포함하는 하나 이상의 벡터의 벡터 시스템을 세포의 집단의 각각의 세포에 도입하는 단계를 포함하고,

Ⅱ. 단백질을 코딩하는 게놈 유전자를 표적으로 하는 가이드 RNA,

여기서, 성분 I 및 II는 동일하거나 또는 상이한 벡터 상에 있고, 또한 전사된, 가이드 서열을 포함하는 가이드 RNA는 CRISPR-Cas 시스템의 서열-특이적 결합을 게놈 영역의 표적 서열로 안내하여, Cas 단백질에 의한 게놈 영역의 분절을 유도한다.

일 실시형태에 있어서, 하나 이상의 벡터는 플라스미드 벡터이다. 일 실시형태에 있어서, 조절 요소는 유도성 프로모터이다. 일 실시형태에 있어서, 가이드 RNA는 게놈 유전자 내의 모든 1000개 염기쌍에 대한 PAM 서열의 상류에 비중첩 분절 부위를 포함하는 적어도 100개의 게놈 서열을 표적으로 한다. 일 실시형태에 있어서, 각각의 가이드 RNA는 DSB 부위 주위의 약 10bp(예를 들면 7-13bp, 예를 들면 8bp, 9bp, 10bp, 11bp 및 12bp)에 영향을 미치도록 설계된다. 일 실시형태에 있어서, 라이브러리는 게놈 영역 내의 모든 PAM 서열의 상류의 게놈 서열을 표적으로 하는 가이드 RNA를 포함한다. 일 실시형태에 있어서, PAM 서열은 적어도 하나의 Cas 단백질에 특이적이다. 일 실시형태에 있어서, CRISPR-Cas 시스템 가이드 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나 초과의 PAM 서열에 근거하여 선택된다. 일 실시형태에 있어서, 관심 유전자의 발현은 복수의 CRISPR-Cas 시스템 가이드 RNA 내의 적어도 하나의 가이드 RNA에 의한 상기 표적화에 의해 변경된다. 일 실시형태에 있어서, 상기 표적화는 게놈 영역의 NHEJ를 초래한다.

일 양태에 있어서, 본 발명은 기능 요소, 예를 들면 본 발명의 임의의 방법에 의해 단백질의 게놈 유전자의 기능에 중요한 것으로 식별되는 게놈 부위 또는 아미노산 부위를 돌연변이시킴으로써 유전자 또는 단백질을 변형시키는 방법에 관한 것이다. 또한, 상기 방법에 의해 단백질의 기능에 중요한 것으로 확인된 아미노산 부위에서 아미노산 치환 및/또는 결실을 갖는 변이체 단백질도 고려된다.

도 1a-도 1b는 CRESMAS 워크플로를 도시한다. 라이브러리 스크리닝은 약물 또는 독소 처리에 의해 수행된 후, sgRNA 바코드 및 NGS에 대한 표적 유전자의 cDNA를 증폭시킨다. 점 돌연변이 배수 변화 계산 및 돌연변이 패턴 분석을 위해 미스센스 돌연변이만을 보유하는 해독이 수집된다. 해독틀내 결실을 포함하는 해독은 결실의 아미노산(a.a.)의 수로 분류되고, 결실 배수 변화를 계산하기 위해 수집된다. 필수 스코어는 해독틀내 결실로부터의 정보 및 미스센스 돌연변이를 모두 활용하여 계산된다.
도 2a-도 2e는 CRESMAS 스크리닝을 위한 실험 조건을 도시한다. 도 2a는 표시된 처리시간 동안 HeLa 세포 사멸에 대한 3개의 암치료제의 용량 효과를 도시한다. 도 2b는 각 sgRNA가 절단 부위로부터 10bp 상류 및 하류에 영향을 미친다는 가정하에서, 스크린에서의 각 유전자에 대한 sgRNA의 커버리지를 도시한다. x축은 각각의 아미노산에 커버되는 sgRNA의 수를 나타낸다. y축은 sgRNA에 영향을 받는 아미노산(a.a.)의 수를 나타낸다. 도 2c는 대조 라이브러리에서의 sgRNA 서열의 분포를 도시한다. 도 2d는 표적 cDNA의 PCR 증폭의 2D 도식 표시를 도시한다. 상이한 유전자에 사용된 프라이머는 표 1에 나열되어 있다. 도 2e는 표적 cDNA의 PCR 증폭(좌측) 및 평균 길이 250bp로의 DNA 단편의 전단(우측)을 도시한다.
도 3a-도 3b는 라이브러리 품질 및 편집유형 분포를 도시한다. 도 3a는 스크리닝 후 대조군 및 2개의 복제물에서 각 유전자에 대해 검출된 점 돌연변이, 삽입 및 결실의 백분율을 도시한다. 도 3b는 2개의 복제물 간의 로그 스케일에 대한 스크리닝 후의 sgRNA 배수 변화의 산포도를 도시한다.
도 4a-도 4b는 복제물의 결실 배수 변화 및 점 돌연변이 배수 변화의 산포도를 도시한다. 도 4a는 2개의 복제물 간의 스크리닝 후 결실 배수 변화의 산포도를 도시한다. 도 4b는 2개의 복제물 간의 스크리닝 후 점 돌연변이 배수 변화의 산포도를 도시한다.
도 5a-도 5c는 PA 독성 매개에서 ANTXR1에 필수적인 임계 아미노산의 CRESMA 식별을 도시한다. 도 5a는 PA 스크리닝에서 ANTXR1을 표적으로 하는 sgRNA의 평가를 도시한다. ANTXR1 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. 도 5b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. ANTXR1의 다중 도메인 개략도는 플롯 아래에 표시되고, PA 결합 부위가 표시되어 있다. 도 5c는 ANTXR1의 각각의 아미노산의 필수 스코어를 도시한다. 상위 순위의 히트는 짙은 회색으로 표시되고, 그 중 공지된 임계 아미노산은 삼각형으로 표시된다.
도 6a-도 6c는 TcdB 독성 매개에서 CSPG4에 필수적인 임계 아미노산의 CRESMAS 식별을 도시한다. 도 6a는 TcdB 스크리닝에서 CSPG4를 표적으로 하는 sgRNA의 평가를 도시한다. CSPG4 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. 도 6b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. CSPG4의 다중 도메인 개략도는 플롯 아래에 표시되고, TcdB 결합 부위가 표시되어 있다. 도 6c는 CSPG4의 각각의 아미노산의 필수 스코어를 도시한다. 상위 순위의 히트는 짙은 회색으로 표시된다.
도 7a-도 7d는 DT 독성 매개에서 HBEGF에 필수적인 임계 아미노산의 CRESMAS 식별을 도시한다. 도 7a는 DT 스크리닝에서 HBEGF를 표적으로 하는 sgRNA의 평가를 도시한다. HBEGF 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. sgRNA의 위치는 sgRNA의 절단 부위로 정의되고, 배수 변화는 각각의 아미노산의 코돈을 표적으로 하는 sgRNA의 평균 배수 변화이다. 도 7b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. 회색 막대는 다중 아미노산 결실을 나타낸다. 회색 막대의 폭은 함께 결실된 아미노산의 수와 상관관계가 있다. 각 단일 아미노산에 대한 그레이 스케일은 10%로 할당되었다. 그레이 스케일은 다양한 결실 패턴에서 특정 아미노산의 통계적 중요성을 나타내기 위해 오버레이되었다. 별표는 단백질 기능에 대해 중요한 공지된 잔기를 나타낸다. HBEGF의 다중 도메인 개략도가 플롯 아래에 표시되고, DT에 대해 공지된 결합 영역인 EGF 유사 도메인이 표시된다. 도 7c는 HBEGF의 각각의 아미노산의 필수 스코어를 도시한다. 상위 순위 히트는 짙은 회색으로 표시되고, 공지된 임계 아미노산은 삼각형으로 표시된다. 도 7d는 단일 아미노산 결실이 DT에 대한 세포 감수성에 미치는 영향을 도시한다. 세포는 다양한 농도의 DT로 처리되고, 독소 처리 48시간 후에 MTT 세포독성 어세이를 수행했다. 데이터는 평균 ± s.d., n=5로 표시된다.
도 8a-도 8c는 6-TG 사멸에서 HPRT1에 대해 필수적인 임계 아미노산의 CRESMAS 식별을 도시한다. 도 8a는 보르테조밉 스크린에서 HPRT1을 표적으로 하는 sgRNA의 평가를 도시한다. HPRT1 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. 도 8b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. HPRT1의 다중 도메인 개략도는 플롯 아래에 표시된다. 도 8c는 HPRT1의 각각의 아미노산의 필수 스코어를 도시한다. 상위 순위의 히트는 짙은 회색으로 표시된다.
도 9a-도 9e는 보르테조밉 사멸을 위해 PSMB5에 대해 필수적인 임계 아미노산의 CRESMAS 식별을 도시한다. 도 9a는 보르테조밉 스크리닝에서 PSMB5를 표적으로 하는 sgRNA의 평가를 도시한다. PSMB5 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. 도 9b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. 도 9c는 PSMB5의 각각의 아미노산의 필수 스코어를 도시한다. 상위 순위 히트는 짙은 회색으로 표시되고, 공지된 임계 아미노산은 삼각형으로 표시된다. 도 9d는 보르테조밉에의 세포 감수성에 대한 PSMB5의 표현된 점 돌연변이의 효과에 대한 9D MTT 생존율 어세이를 도시한다. 도 9e는 보르테조밉에 대해 세포 감수성에 대한 PSMB5의 표현된 점 돌연변이의 효과를 도시한다. 데이터는 평균 ± s.d., n=6으로 표시된다.
도 10a-도 10d는 BI2536 사멸에서 PLK1에 대해 필수적인 임계 아미노산의 CRESMAS 식별을 도시한다. 도 10a는 보르테조밉 스크린에서 PLK1을 표적으로 하는 sgRNA의 평가를 도시한다. PLK1 단백질에 대한 각 sgRNA의 위치는 x축을 따라 표시된다. 도 10b는 각각의 아미노산에 대응하는 결실 배수 변화 및 점 돌연변이 배수 변화를 도시한다. 도 10c는 PLK1의 각각의 아미노산의 필수 스코어를 도시한다. 최상위 히트는 짙은 회색으로 표시되고, 공지된 임계 아미노산은 삼각형으로 표시된다. 도 10d는 BI2536의 세포 감수성에 대한 PLK1의 표현된 점 돌연변이의 효과를 결정하기 위한 MTT 생존율 어세이를 도시한다.
도 11은 ssODN 공여체 트랜스펙션 여부에 관계없이 풀링된(pooled) 세포로부터 PSMB5에서의 아미노산 돌연변이의 시퀀싱 크로마토그램을 도시한다. 돌연변이된 아미노산이 표시된다.
도 12는 보르테조밉 내성 세포 클론에 대한 서열 정보를 도시한다. sgRNA 서열은 밑줄이 그어져 있고; 음영의 뉴클레오티드는 PAM 서열을 나타내고; 아래에 도트가 있는 문자와 박스 안에 표시된 문자는 각각 야생형 및 돌연변이 아미노산을 나타낸다.
도 13a-도 13h는 PSMB5 및 PLK1의 상위 순위의 히트의 점 돌연변이 패턴으 도시한다. 히트 맵은 PSMB5(도 13a) 및 PLK1(도 13b)의 상위 순위의 히트 중에서 특정 아미노산의 점 돌연변이의 다양성을 보여준다. 막대 차트는 V90PSMB5(도 13c), A386PLK1(도 13d), M104PSMB5 및 C122PSMB5(도 13e), F183PLK1 및 R136PLK1(도 13f), A105PSMB5 및 A43PSMB5(도 13g)에 대한 20개의 아미노산 치환의 백분율을 나타낸다. 20개의 아미노산은 측쇄의 특성에 따라 상이한 막대 형태로 나타낸 4개의 그룹(무극성, 극성, 산성, 염기성)으로 분류된다. 본래의 아미노산은 회색 음영으로 강조 표시된다. 도 13h는 A105PSMB5와 A43PSMB5 사이의 아미노산 분포의 산포도를 도시한다.

본원에 기재된 방법 및 도구는 게놈 편집에 대해 관심이 있을 수 있는 관련 기능 단위의 식별을 가능하게 하기 위해 게놈 영역을 조직적으로 인테로게이팅(interrogating)하는 것에 관한 것이다. 따라서, 일 양태에서, 본 발명은 딥 스캐닝 돌연변이유발 라이브러리(deep scanning mutagenesis library)를 생성하는 단계, 및 상기 라이브러리의 도입에 의해 변형된 세포의 집단 내의 표현형의 변화를 인테로게이팅하는 단계를 포함하는 게놈 영역을 인테로게이팅하는 방법을 제공한다.

따라서, 본 발명의 일 양태는 적어도 하나의 연속 게놈 영역 내의 게놈 서열을 표적화할 수 있는 가이드 서열을 포함할 수 있는 복수의 CRISPR-Cas 시스템 가이드 RNA를 포함할 수 있는 딥 스캐닝 돌연변이유발 라이브러리를 포함한다. 보다 구체적으로, 라이브러리의 가이드 RNA는 게놈 영역 내의 대표적인 게놈 서열의 수를 표적으로 해야 한다고 예상된다. 예를 들면, 가이드 RNA는 예상되는 게놈 영역 내의 적어도 50개, 보다 특히 적어도 100개의 게놈 서열을 표적으로 해야 한다.

게놈 영역을 표적으로 하는 능력은 PAM(프로토스페이서 인접 모티프); 즉, CRISPR 복합체가 인식하는 짧은 서열의 존재에 의해 결정된다. PAM에 대한 정확한 서열 및 길이 요건은 사용될 CRISPR 효소에 따라 다를 것이지만, PAM은 일반적으로 프로토스페이서에 인접한 2-5개의 염기쌍 서열(즉, 표적 서열)이다. PAM 서열은 당업계에 공지되어 있어서, 당업자는 주어진 CRISPR 효소에 사용되는 PAM 서열을 식별할 수 있을 것이다. 특정 실시형태에 있어서, PAM 서열은 적어도 하나의 Cas 단백질에 특이적이도록 선택될 수 있다. 대안적인 실시형태에 있어서, 가이드 서열 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나를 초과하는 PAM 서열에 근거하여 선택될 수 있다.

특정 실시형태에 있어서, 라이브러리는 게놈 영역 내의 모든 1000개의 염기쌍에 대한 PAM 서열의 상류에 비중첩 절단 부위를 포함하는 적어도 100개의 게놈 서열을 함유한다. 특정 실시형태에 있어서, 라이브러리는 연속 게놈 영역 내의 모든 PAM 서열의 상류의 게놈 서열을 표적으로 하는 가이드 RNA를 포함한다.

이 라이브러리는 유기체의 관심 게놈 영역을 표적으로 하는 가이드 RNA를 포함한다. 본 발명의 일부 실시형태에 있어서, 유기체 또는 피험체는 진핵생물(인간을 포함한 포유동물 포함) 또는 비인간 진핵생물 또는 비인간 동물 또는 비인간 포유동물이다. 일부 실시형태에 있어서, 유기체 또는 피험체는 비인간 동물이고, 절지동물, 예를 들면 곤충일 수 있고, 또는 선충일 수 있다. 본 발명의 일부 방법에 있어서, 유기체 또는 피험체는 식물이다. 본 발명의 일부 방법에 있어서, 유기체 또는 피험체는 포유동물, 예를 들면 인간 또는 비인간 포유동물이다. 비인간 포유동물은, 예를 들면 설치류(바람직하게는 마우스 또는 래트), 유제류 또는 영장류일 수 있다. 본 발명의 일부 방법에 있어서, 유기체 또는 피험체는 미세조류를 포함하는 조류이거나, 또는 진균이다.

본원에 제공된 방법 및 도구는 연속 게놈 영역을 인테로게이팅하는데 특히 유리하다. 이러한 연속 게놈 영역은 전체 게놈까지 포함할 수 있지만, 일반적으로 게놈 DNA의 50-100kb 영역과 같은 게놈의 제한된 영역을 포함하는 게놈의 기능 요소가 인테로게이팅되는 방법이 특히 유리하다. 특히 흥미로운 것은 코딩 게놈 영역의 인테로게이션을 위한 방법의 사용이다. 당업자는 본 발명의 방법이 관심 단백질에 대한 인테로게이션의 시나리오에서 cDNA 대신에 게놈의 표적 영역에 대해 PCR 증폭을 수행하도록, 프로토콜의 변형에 의해 관심 유전자의 코딩 영역의 영역 5' 및 3'와 같은, 비-코딩 게놈 영역의 인테로게이션에 사용될 수 있다는 것을 이해할 수 있다.

CRISPR/Cas 시스템은 관심 있는 연속 게놈 영역 내의 다수의 서열을 특이적으로 표적화하기 위해 본 발명에서 사용될 수 있다. 표적화하는 일반적으로 적어도 하나의 Cas 단백질 및 가이드 RNA를 포함하는 조작된, 비천연 발생 CRISPR-Cas 시스템을 포함하는 하나 이상의 벡터의 벡터 시스템을 세포 집단의 각각의 세포에 도입하는 단계르 포함한다. 이들 방법에 있어서, Cas 단백질 및 가이드 RNA는 시스템의 동일하거나 또는 상이한 벡터 상에 있을 수 있고, 또한 각각의 세포에 통합됨으로써, 각각의 가이드 서열은 세포 집단의 각각의 세포의 연속 게놈 영역 내의 서열을 표적으로 한다. Cas 단백질은 상기 세포에서의 발현을 보장하기 위해 조절 요소, 보다 구체적으로 세포 집단의 세포에서의 발현에 적합한 프로모터에 조작 가능하게 연결된다. 특정 실시형태에 있어서, 프로모터는 독시사이클린 유도성 프로모터와 같은 유도성 프로모터이다. 세포 집단의 세포 내에서 전사될 때, 가이드 서열을 포함하는 가이드 RNA는 연속 게놈 영역의 표적 서열에 대한 CRISPR-Cas 시스템의 서열 특이적 결합을 안내한다. 일반적으로, CRISPR-Cas 시스템의 결합은 Cas 단백질에 의한 연속 게놈 영역의 분절을 유도한다.

본 출원은 표현형의 변화와 관련된 기능 요소를 스크리닝하는 방법을 제공한다. 표현형의 변화는 세포의 DNA, RNA, 단백질 및/또는 기능 수준을 포함하는 하나 이상의 수준에서 검출 가능할 수 있다. 표현형의 변화는 세포 생존, 성장, 면역 반응, 독소나 약물과 같은 화학 화합물 내성에서 검출될 수 있다.

표현형의 변화와 관련된 게놈 부위를 스크리닝하는 방법은 본원에서 예상되는 바와 같은 관심 게놈 영역을 표적으로 하는 가이드 RNA의 라이브러리를 세포의 집단에 도입하는 단계를 포함한다. 전형적으로, 세포는 Cas 단백질을 함유하도록 적합화된다. 그러나, 특정 실시형태에 있어서, Cas 단백질은 또한 가이드 RNA와 동시에 도입될 수도 있다. 본원에서 예상하는 방법에 있어서 세포 집단으로의 라이브러리의 도입은 상기 집단의 각각의 세포가 하나 이하의 가이드 RNA를 함유하도록 하는 것이다. 그 후, 세포는 전형적으로 관찰된 표현형을 기반으로 분류되고, 표현형의 변화와 관련된 게놈 부위는 세포에서 표현형의 변화를 일으키는지의 여부를 기반으로 하여 식별된다. 전형적으로, 상기 방법은 세포를 표현형에 근거하여 적어도 2개의 그룹으로 분류하는 단계, 및 각 군에 존재하는 가이드 RNA의 상대적 표현을 결정하는 단계를 포함하며, 표현형의 변화와 관련된 게놈 부위는 각각의 군에 존재하는 가이드 RNA의 표현에 의해 결정된다.

본 출원은 마찬가지로 화학 화합물 내성과 관련된 게놈 부위에 대한 스크리닝 방법을 제공함으로써, 세포가 화학 화합물과 접촉되고, 상기 화합물에 대한 표현형 반응에 근거하여 스크리닝된다. 보다 구체적으로, 이러한 방법은 본원에서 예상되는 CRISPR/Cas 시스템 가이드 RNA의 라이브러리를 세포의 집단에 도입(Cas 단백질을 함유하도록 적합화되거나 또는 Cas 단백질이 동시에 도입됨)하는 단계, 세포의 집단을 화학 화합물로 처리하는 단계; 및 초기 시점과 비교하여 후기 시점에서 화학 화합물로 처리한 후의 가이드 RNA의 표현을 결정하는 단계를 포함할 수 있다. 이들 방법에 있어서, 화학 화합물 내성과 관련된 게놈 부위는 가이드 RNA의 농축에 의해 결정된다.

특정 실시형태에 있어서, 상기 방법은 게놈 부위를 포함하는 영역을 시퀀싱하거나 또는 전체 게놈 시퀀싱에 의해 시퀀싱하는 단계를 더 포함할 수 있다.

또한, 본 출원은 본 발명의 방법을 사용하여 약물 내성과 관련된 기능 요소를 스크리닝하는 방법에 관한 것이다.

본원에 기재된 추가 실시형태는 본원에 개시된 방법에 의해 식별된 유전자의 하나 이상의 기능 영역의 게놈 파괴를 수반하는 치료 방법 및 도구에 관한 것이다. 본원에 기재된 이들 및 추가 실시형태는 부분적으로 관심 있는 게놈 영역 또는 단백질에서 기능 영역의 발견에 근거한다.

본 출원에 예시된 특정 방법에 있어서, 커버리지 밀도를 최대화하기 위해, 프로토스페이서 인접 모티프(PAM)의 두 가지 유형인 NGG 및 NAG가 sgRNA의 설계에 포함된다. 암치료제 또는 독소를 이용한 라이브러리 스크리닝 후, sgRNA 바코드의 종래의 PCR 증폭 후 NGS 분석을 위해 게놈 DNA를 추출했다. 한편, RNA의 역전사로부터 표적 유전자의 PCR 증폭을 수행하고, 약 250bp 길이의 단편화된 PCR 산물을 NGS에 가했다. 그 다음, 점 돌연변이 또는 해독틀내 결실을 포함하는 서열만 추가 분석을 위해 유지되도록, 야생형 서열 또는 해독틀외 삽입결실 또는 해독틀내 삽입을 포함하는 것들을 필터링했다. 점 돌연변이의 경우, 동의 돌연변이 또는 넌센스 돌연변이를 필터링하고, 미스센스 돌연변이를 포함하는 것만 유지했다. 해독틀내 결실의 경우, 각 해독을 위해 야기된 아미노산 결실의 수로 돌연변이 유형을 분류한 다음, 단일 아미노산 결실만 포함된 경우 "드라이버 결실"로, 또는 다중 아미노산 결실을 포함된 경우 "패신저 결실"로 분류했다. 결실 패턴을 디코딩한 후, 결실 배수 변화를 계산했다. 마찬가지로, 미스센스 돌연변이에 대한 배수 변화도 계산했다. 다음으로, 우리는 미스센스 돌연변이, 드라이버 결실 및 패신저 결실에 대한 배수 변화의 가중 평균을 계산하기 위해 표적 유전자에 대해 윈도우 슬라이딩을 적용함으로써 필터링된 해독으로부터의 모든 정보를 활용했다. 그 다음, 우리는 순열에 의해 가중 평균의 유의한 수준을 추론하고, 각각의 아미노산에 대한 필수 스코어를 획득했다. 스코어는 해독틀내 결실 및 점 돌연변이 시나리오 모두를 모두 카운팅하고, 기능의 중요성에 근거하여 아미노산의 순위를 매길 수 있도록 각각의 아미노산의 필수성을 정량화했다. 한편, 우리는 각각의 아미노산에 대한 미스센스 돌연변이의 백분율을 카운팅함으로써 아미노산 치환 패턴을 얻으려고 시도했다. 이 간소화된 워크플로 및 생물정보학 파이프라인은 본래의 생물학적 맥락에서 단백질의 중요한 기능 요소를 식별할 수 있도록 설계되었다.

본 발명은 특정 실시형태에 관하여 소정 도면을 참조하여 기재될 것이지만, 본 발명은 이에 제한되지 않고 청구범위에 의해서만 제한된다. 청구범위에서의 참조 부호는 범위를 제한하는 것으로 해석되어서는 안 된다. 기재된 도면은 개략도일 뿐이며 비제한적이다. 도면에 있어서, 일부 요소의 크기는 예시적 목적을 위해 과장될 수 있으며, 축척에 따라 그려지지 않았을 수 있다. "포함하는"이라는 용어가 본 설명 및 청구범위에서 사용되는 경우, 다른 요소 또는 단계를 배제하지 않는다. 단수 명사를 언급할 때 부정관사나 정관사, 예를 들면 "a" 또는 "an" , "the"가 사용되는 경우, 이것은 여기에는 다른 것이 구체적으로 언급되지 않는 한, 해당 명사의 복수를 포함한다.

본 발명의 실행은 달리 명시되지 않는 한, 당업계의 기술 내에 있는 면역학, 생화학, 화학, 분자 생물학, 미생물학, 세포 생물학, 유전체학 및 재조합 DNA의 종래의 기술을 채용한다. Sambrook, Fritsch and Maniatis, MOLECULAR CLONING: A LABORATORY MANUAL, 2nd edition (1989); CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(F.M. Ausubel, et al. eds., (1987)); METHODS IN ENZYMOLOGY(Academic Press, Inc.): PGR 2: A PRACTICAL APPROACH(M.J. MacPherson, B.D. Hames 및 G.R. Taylor eds. (1995)), Harlow 및 Lane, eds. (1988) ANTIBODIES, A LABORATORY MANUAL, 및 ANIMAL CELL CULTURE (R.L Freshney, ed. (1987))를 참조한다.

하기 용어 또는 정의는 단지 본 발명의 이해를 돕기 위해 제공된다. 본 명세서에서 구체적으로 정의되지 않는 한, 본원에 사용되는 모든 용어는 본 발명의 기술 분야에서 통상의 지식을 가진 자에게 동일한 의미를 갖는다. 의사들에게는 특히 본 분야의 정의 및 용어에 대해서 Sambrook et al., Molecular Cloning: A Laboratory Manual, 2nd ed., Cold Spring Harbor Press, Plainsview, New York(1989); 및 Ausubel et al., Current Protocols in Molecular Biology(Supplement 47), John Wiley & Sons, New York(1999)이 참조된다. 본 명세서에 제공된 정의는 당업자에 의해 이해되는 범위보다 작은 범위를 갖는 것으로 해석되어서는 안된다.

유전학에서 "넌센스 돌연변이"는 조기 종결 코돈, 또는 전사된 mRNA의 넌센스 코돈, 및 절단된 불완전하고 또한 일반적으로 비기능적인 단백질 생성물을 발생시키는 DNA 서열에 있어서의 점 돌연변이이다. 넌센스 돌연변이의 기능적 효과는 코딩 DNA 내에서의 정지 코돈의 위치에 따라 다르다. 예를 들면, 넌센스 돌연변이의 효과는 원래의 정지 코돈에 대한 넌센스 돌연변이의 근접성, 및 단백질의 기능적 서브도메인이 영향을 받는 정도에 따라 다르다. 넌센스 돌연변이는 단일 뉴클레오타이드가 상이한 아미노산으로 치환되게 되도록 변화되는 점 돌연변이인 "미스센스 돌연변이"와 다르다.

"동의 치환 또는 돌연변이"는 생성된 아미노산 서열이 변형되지 않도록 단백질을 코딩하는 유전자의 엑손에서 한 염기의 다른 염기로의 진화적 치환이다. 이것은 유전자 코드가, 일부 아미노산이 하나를 초과하는 3염기쌍 코돈에 의해 코딩되는 것을 의미하는 "퇴화"되기 때문에 가능하고; 주어진 아미노산에 대한 일부 코돈은 동일한 아미노산을 코딩하는 다른 코돈과 단 하나의 염기쌍만 다르기 때문에, "정상" 염기를 대안 중 하나로 대체하는 돌연변이는 동일한 아미노산이 유전자가 번역될 때 성장하는 폴리펩티드쇄에 통합될 수 있다.

단백질은 불필요한 영역과 필수적인 영역을 모두 함유하며, 후반부 상의 돌연변이는 그 기능이 폐기된다. 그 대응하는 DNA 코딩 서열에서, 해독틀이동으로 유도하는 임의의 돌연변이는 돌연변이가 임계 부위에서 발생하든지 또는 비임계 부위에서 발생하든지 상관없이, 유전자 발현을 방해하여 그 기능을 방해할 가능성이 높다. 암치료제 또는 박테리아 독소의 단백질 표적의 경우, 해독틀내 결실 또는 점 돌연변이(넌센스 돌연변이 제외)는 이러한 돌연변이가 비임계 부위에 도달하면 내성 표현형을 생성하지 않는다. 비필수 유전자의 경우, 모든 대립 유전자의 파괴는 "기능 상실 표현형"을 달성하는데 필요하다. 이들 열성 돌연변이 유형은 임계 부위에 영향을 미치는 해독틀이동 삽입결실, 해독틀내 결실 또는 미스센스 점 돌연변이 중 하나일 수 있다. 필수 유전자의 경우, 유일한 약물 내성 시나리오는 단백질의 발현을 변경하지 않고, 따라서 세포 생존율에 대한 필수 역할을 변경하는 일 없이, 약물 표적화를 위한 임계 부위에 영향을 미치는 해독틀내 결실 또는 미스센스 돌연변이이다. 이들 돌연변이는 우성이므로, 하나의 대립유전자에서의 적절한 돌연변이는 "기능 획득 표현형"을 달성하기에 충분하다.

야생형 이배체 세포에 있어서, 유전자의 2개의 야생형 대립유전자가 있으며, 둘 다 정상 유전자 산물을 생성한다. 이형접합체(우성 또는 열성을 테스트하기 위한 중대한 유전자형)에 있어서, 단일 야생형 대립유전자는 야생형 표현형을 생성하는데 충분한 정상 유전자 산물을 제공할 수 있다. 이러한 경우에, "기능 상실 돌연변이"는 열성이다. 일부 경우에 있어서, 세포는 이형 접합체에서 야생형 유전자 산물의 총량이 동형 접합성 야생형에서 발견되는 것의 절반을 초과하도록, 단일 야생형 대립유전자의 활성 수준을 "상향 조절(upregulate)"할 수 있다. 그러나, 돌연변이 이벤트는 유전자에 대해 수 개의 새로운 기능을 부여한다. 이형 접합체에 있어서, 새로운 기능은 발현될 것이고, 따라서 "기능 획득 돌연변이"는 대부분 우성 대립유전자처럼 작용하여, 일종의 새로운 표현형을 생성할 것이다.

"포화 돌연변이유발"은 무작위 돌연변이유발 기술로, 각각의 단일 코돈 또는 코돈 세트는 해당 위치에서 모든 가능한 아미노산을 생성하도록 무작위화된다.

"코돈"은 소정 아미노산을 코딩하는 삼중항인 3개의 뉴클레오티드의 세트이다. 제 1 코돈은 해독틀을 확립함으로써 새로운 코돈을 시작한다. 단백질의 아미노산 골격 서열은 인접한 삼중항에 의해 규정된다. 코돈은 단백질 합성을 위한 유전 정보 번역의 핵심이다. "해독틀"은 mRNA 번역이 시작될 때 설정되고, 하나의 삼중항에서 다음 삼중항을 해독할 때에는 유지된다. 유전자 코드의 해독은 mRNA의 코돈을 모니터링하는 3가지 규칙의 적용을 받는다. 첫째로, 코돈을 5'에서 3' 방향으로 해독한다. 둘째로, 코돈이 중첩되지 않고, 메시지에는 간격이 없다. 상기 언급된 마지막 규칙은 메시지가 고정된 "해독틀"에서 번역된다는 것이다.

프레이밍 오류(framing error) 또는 해독틀이동(reading frame shift)라고도 칭해지는 "해독틀이동 돌연변이"는 3으로 나눌 수 없는 DNA 서열에서의 다수의 뉴클레오타이드의 삽입결실(삽입 또는 결실)로 인해 야기되는 유전적 돌연변이이다. 코돈에 의한 유전자 발현의 삼중항 특성으로 인해, 삽입 또는 결실은 해독틀을 변경할 수 있어서, 원래의 것과 완전히 다른 번역을 초래할 수 있다. 틀이동 돌연변이는 일반적으로 상이한 아미노산을 코딩하도록 돌연변이 후 코돈 해독이 일어나게 할 것이다. 또한, 해독틀이동 돌연변이는 서열에서 발견된 제 1 정지 코돈("UAA", "UGA" 또는 "UAG")을 변경할 것이다. 생성되는 폴리펩티드는 비정상적으로 짧거나 또는 비정상적으로 길 수 있으며, 또한 거의 기능적이지 않을 것이다.

"해독틀외 삽입결실(out-of-frame indel)"은 "해독틀" 외에서 유전자 코드의 해독을 야기하는 삽입 및/또는 결실(삽입결실)을 의미하는 반면, "해독틀내 내 결실"은 3으로 나누어질 수 있는 DNA 서열에서의 다수의 뉴클레오티드의 결실을 의미하며, 따라서 이 결실은 해독틀을 변경하지 않는다.

본원에서 "CRISPR 시스템"은 Cas 유전자를 인코딩하는 서열, tracr(트랜스 활성화 CRISPR) 서열(예를 들면 tracrRNA 또는 활성 부분 tracrRNA), tracr-메이트 서열(내인성 CRISPR 시스템의 맥락에서 "직접 반복" 및 tracrRNA 처리된 부분 직접 반복을 포함함), 가이드 서열(내인성 CRISPR 시스템의 맥락에서 "스페이서"라고도 지칭됨), 또는 CRISPR 유전자좌로부터의 다른 서열 및 전사체를 포함하는, CRISPR 관련("Cas") 유전자의 발현에 관여하거나 또는 활성을 유도하는 전사체 또는 기타 요소를 총괄적으로 나타낸다. 일부 실시형태에 있어서, CRISPR 시스템의 하나 이상의 요소는 유형 I, 유형 II 또는 유형 III CRISPR 시스템으로부터 유래된다.

발현 벡터 내에서, "조작 가능하게 연결된"은 관심 있는 뉴클레오티드 서열이 뉴클레오티드 서열의 발현(예를 들면 시험관내 전사/번역 시스템에서 또는 벡터가 표적 세포 내로 도입될 때 표적 세포에서)을 허용하는 방식으로 조절 서열(들)에 연결되는 것을 의미하는 것으로 의도된다.

CRISPR 복합체의 형성의 맥락에서, "표적 서열"은 가이드 서열이 상보성을 갖도록 설계된 서열을 지칭하며, 표적 서열과 가이드 서열 간의 혼성화는 CRISPR 복합체의 형성을 촉진한다. 혼성화를 유발하고 CRISPR 복합체의 형성을 촉진하기에 충분한 상보성이 있는 경우에는 완전한 상보성이 반드시 필요한 것은 아니다.

전형적으로, 내인성 CRISPR 시스템의 맥락에서, CRISPR 복합체(표적 서열에 혼성화되고 하나 이상의 Cas 단백질과 복합체화된 가이드 서열을 포함함)의 형성은 표적 서열 내 또는 근처(예를 들면 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 20, 50개 또는 그 이상의 염기쌍)에 일방 또는 양방의 스트랜드가 분절되게 한다. 또한, 이론에 얽매이지 않고, 야생형 tracr 서열의 전부 또는 일부(예를 들면 약 20, 26, 32, 45, 48, 54, 63, 67, 85개 또는 이를 초과하는 야생형 tracr 서열의 뉴클레오티드)로 이루어지거나 또는 포함할 수 있는 tracr 서열은, 예를 들면 tracr 서열의 적어도 일부를 따라 가이드 서열에 조작 가능하게 연결되는 tracr 메이트 서열의 전부 또는 일부에 혼성화함으로써, CRISPR 복합체의 일부를 형성할 수도 있다.

일부 실시형태에 있어서, tracr 서열은 tracr 메이트 서열을 혼성화하고 또한 CRISPR 복합체의 형성에 참여하기에 충분한 상보성을 갖는다. 표적 서열과 마찬가지로, 기능적이기에 충분하다면, 완전한 상보성은 필요하지 않다고 생각된다. 일부 실시형태에 있어서, tracr 서열은 최적으로 정렬되었을 때, tracr 메이트 서열의 길이를 따라 적어도 50%, 60%, 70%, 80%, 90%, 95% 또는 99%의 서열 상보성을 갖는다.

일부 실시형태에 있어서, CRISPR 시스템의 하나 이상의 요소의 발현을 구동하는 하나 이상의 벡터는 CRISPR 시스템의 요소의 발현이 하나 이상의 표적 부위에서 CRISPR 복합체의 형성을 유도하도록 숙주 세포 내로 도입된다. 또 다른 실시형태에 있어서, 숙주 세포는 Cas9 및/또는 OCT1을 안정적으로 발현하도록 조작된다.

일반적으로, 가이드 서열은 표적 서열과 혼성화하고 또한 표적 서열로 CRISPR 복합체의 서열 특이적 결합을 안내하기에 충분한 표적 폴리뉴클레오티드 서열과의 상보성을 갖는 임의의 폴리뉴클레오티드 서열이다. 일부 실시형태에 있어서, 적합한 정렬 알고리즘을 사용하여 최적으로 정렬되었을 때 가이드 서열과 그 대응하는 표적 서열 사이의 상보성의 정도는 약 50%, 60%, 70%, 75%, 80%, 85%, 90%, 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98%, 99% 이상 또는 이를 초과한다. 최적의 정렬은 서열을 정렬하기 위한 임의의 적합한 알고리즘을 사용하여 결정될 수 있으며, 비제한적인 예로는 스미스-워터만(Smith-Waterman) 알고리즘, 니들만 브니쉬(Needleman-Wunch) 알고리즘, 버로우즈-휠러 변환(Burrows-Wheeler Transform) 기반 알고리즘(예를 들면 버로우즈 휠러 얼라이너), ClustalW, Clustai X, BLAT, Novoalign(Novocraft Technologies, ELAND(I!fumma, 캘리포니아주 샌디에고), SOAP(soap. genomics. org. cn에서 입수 가능), 및 Maq(maq. sourceforge. net에서 입수 가능)를 들 수 있다. 일부 실시형태에 있어서, 가이드 서열은 약 5, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 35, 40, 45, 50, 75개 이상 또는 이를 초과하는 뉴클레오티드 길이이다. 일부 실시형태에 있어서, 가이드 서열은 약 75, 50, 45, 40, 35, 30, 25, 20, 15, 12, 11, 10개 이하 또는 그 미만의 뉴클레오티드 길이이다. 표적 서열로 CRISPR 복합체의 서열 특이적 결합을 안내하는 가이드 서열의 능력은 임의의 적합한 어세이에 의해 평가될 수 있다. 예를 들면, 테스트할 가이드 서열을 포함하여 CRISPR 복합체를 형성하기에 충분한 CRJSPR 시스템의 성분이, 예를 들면 CRISPR 서열의 성분을 인코딩하는 벡터로의 트랜스펙션에 의해 대응하는 표적 서열을 갖는 숙주 세포에 제공된 후, 본원에 기재된, 예를 들면 서베이어 어세이(Surveyor assay)에 의해 표적 서열 내에서의 우선적인 분절이 평가될 수 있다. 마찬가지로, 표적 폴리뉴클레오티드 서열의 분절은 시험관 내에 시험할 가이드 서열 및 시험 가이드 서열과는 상이한 대조 가이드 서열을 포함한, 표적 서열, CRISPR 복합체의 성분을 제공하고, 시험 가이드 서열 반응과 대조 가이드 서열 반응 간의 표적 서열에서의 결합 또는 분절의 속도를 비교함으로써 평가될 수 있다. 다른 어세이가 가능하며, 이는 당업자가 이해할 수 있을 것이다.

일부 실시형태에 있어서, CRISPR 효소는 하나 이상의 이종 단백질 도메인(예를 들면 CRISPR 효소에 추가하여 약 1, 2, 3, 4, 5, 6, 7, 8, 9, 10개 이상 또는 이를 초과하는 도메인)을 포함하는 융합 단백질의 일부이다. CRISPR 효소 융합 단백질은 임의의 추가 단백질 서열, 및 선택적으로 임의의 2개의 도메인 사이의 링커 서열을 포함할 수 있다. CRISPR 효소에 융합될 수 있는 단백질 도메인의 예는, 이에 제한되지는 않지만, 에피토프 태그, 리포터 유전자 서열, 및 하기 활성 중 하나 이상을 갖는 단백질 도메인을 포함한다: 메틸라아제 활성, 데메틸라아제 활성, 전사 활성화 활성, 전사 억제 활성, 전사 방출 인자 활성, 히스톤 변형 활성, RNA 절단 활성 및 핵산 결합 활성.

일부 양태에 있어서, 본 발명은 하나 이상의 폴리뉴클레오티드, 예를 들면 본원에 기재된 하나 이상의 벡터, 그 하나 이상의 전사체, 및/또는 이로부터 전사된 하나 이상의 단백질을 숙주 세포에 전달하는 단계를 포함하는 방법을 제공한다. 본 발명은 DNA 기반 게놈의 표적화된 변형을 가능하게 하기 위한 기본 플랫폼으로서 작용한다. 바이러스, 리포솜, 전기천공, 미세주입 및 콘쥬게이션을 포함하지만, 이에 제한되지 않는 다수의 전달 시스템과 인터페이스할 수 있다. 일부 양태에 있어서, 본 발명은 이러한 방법에 의해 생산된 세포, 및 이러한 세포를 포함하거나 또는 이러한 세포로부터 생산된 유기체(예를 들면 동물, 식물 또는 진균)를 추가로 제공한다. 일부 실시형태에 있어서, CRISPR 효소는 가이드 서열과 조합(및 선택적으로 복합화)되어 세포에 전달된다. 종래의 바이러스 및 비-바이러스 기반 유전자 이동 방법을 사용하여 포유동물 세포 또는 표적 조직에 핵산을 도입할 수 있다. 이러한 방법은 CRISPR 시스템의 구성요소를 인코딩하는 핵산을 배양물 또는 숙주 유기체의 세포에 투여하는데 사용될 수 있다. 비-바이러스 벡터 전달 시스템은 DNA 플라스미드, RNA(예를 들면 본원에 기재된 벡터의 전사체), 네이키드 핵산, 및 리포솜과 같은 전달 비히클과 복합체화된 핵산을 포함한다. 바이러스 벡터 전달 시스템은 세포로 전달하기 위한 에피솜 또는 통합 게놈을 갖는 DNA 및 RNA 바이러스를 포함한다.

CRISPR/Cas9는 gRNA를 설계하는 것의 상대적 용이성 및 사실상 모든 유전자좌를 변형시키는 Cas9의 능력으로 인해, 스크리닝 실험을 위해 본 발명에서 사용된다. 스크리닝 실험에 있어서, CRISPR 풀링된 라이브러리(CRISPR pooled library) 또는 CRISPR 라이브러리는 수천 개의 플라스미드로 이루어지며, 각각은 관심 단백질의 전체 길이에 걸쳐 상이한 표적 서열에 대해 gRNA를 포함한다. 구체적으로, 관심 단백질에 대한 포화 돌연변이유발을 달성하기 위해, sgRNA는 프로토스페이서 인접 모티프(PAM), NGG 및 NAG의 두 가지 유형을 모두 포함하도록 설계되고, 또한 각 sgRNA는 커버리지 밀도를 최대화하기 위해 DSB 부위 주변의 10bp에 영향을 미치도록 설계된다. CRISPR 스크리닝 실험은 유전자 스크리닝을 촉진시킬 수 있고, 여기서 소망하는 표현형은 알려져 있지만, 단백질의 임계 아미노산은 알려져 있지 않다. 일반적으로 CRISPR 기반 스크린은 렌티바이러스를 사용하여 "풀링된(pooled)" gRNA 라이브러리를 포유동물 Cas9 발현 세포주에 전달함으로써 수행된다. gRNA 라이브러리로 형질도입한 후, 돌연변이 세포를 관심 표현형(예를 들면 생존, 약물 또는 독소에 대한 내성, 성장 또는 증식)에 대해 스크리닝하여, 단백질 및 원하는 표현형의 기능을 위해 임계인 아미노산을 식별한다.

풀링된 렌티바이러스 gRNA 라이브러리는 렌티바이러스 전달 벡터와 특정 서열에 대한 개별 gRNA를 인코딩하는 각 벡터 및 라이브러리에 존재하는 각 서열을 표적으로 하는 수 개의 gRNA의 이종 혼합물이다.

풀링된 렌티바이러스 CRISPR 라이브러리를 사용하여 스크리닝을 수행하는 것은 라이브러리 증폭, 세포 형질도입, 유전자 스크리닝 및 데이터 분석을 포함한 다단계 프로세스이다. 간단히 말해서, gRNA 함유 플라스미드의 초기 스톡은 DNA의 총량을 증가시키기 위해 "증폭"되고, 그 다음 증폭된 라이브러리는 gRNA 단독 또는 gRNA + Cas9를 포함하는 렌티바이러스를 생성하는데 사용된다. 단일 벡터 라이브러리의 경우, 단일 gRNA와 Cas9를 모두 포함하는 렌티바이러스를 야생형 세포에 형질도입함으로써 돌연변이 세포를 1단계로 생성한다. 대부분의 경우, 다중 벡터 라이브러리의 경우, Cas9를 발현하는 세포에는 gRNA 라이브러리가 형질도입된다. 두 경우 모두, 형질도입된 세포는 gRNA와 Cas9를 모두 포함하는 세포를 농축하기 위해 선택하고, 얻어진 돌연변이 세포의 집단을 관심 있는 특정 표현형에 대해 스크리닝한다. 차세대 시퀀싱(NGS)은 스크리닝 동안에 농축되거나 고갈된 gRNA를 식별하기 위해 최종 집단으로부터의 게놈 DNA에 대해 수행된다. 마지막으로, 생물정보학 파이프라인은 검색된 데이터를 분석하도록 설계된다.

라이브러리 증폭

풀링된 렌티바이러스 CRISPR gRNA 라이브러리는 종종 DNA 앨리쿼트(aliquot)로서 전달되고, 대부분의 경우 DNA의 양이 실험에 사용하기에 충분하지 않다. 이러한 경우, 제 1 단계는 라이브러리를 "증폭"하기 위한 것이며, 전체 집단 내에서 각각의 개별 gRNA 플라스미드의 상대적 비율을 유지하면서 플라스미드 DNA의 양을 증가시키는 것을 의미한다. 증폭은 라이브러리 DNA를 박테리아로 형질전환하고, 박테리아 성장 기간 후에 플라스미드 DNA를 수확함으로써 수행된다. 대부분의 라이브러리의 경우, 전기천공법을 사용하면 형질전환 효율이 증가하기 때문에, 화학적 형질전환보다는 전기천공법이 사용된다. 대부분의 경우, 플레이트에서의 성장은 라이브러리 표현을 유지하는 데 도움이 되고 또한 빠르게 성장하는 플라스미드가 증폭 도중에 농축될 확률을 감소시키기 때문에, 형질전환된 박테리아는 적절한 항생제를 함유하는 LB 한천 플레이트에서 성장된다. 형질전환 및 증폭된 gRNA 플라스미드의 수의 추정치는 희석 플레이팅 어세이를 수행함으로써 얻어질 수 있다. 이를 위해, 형질전환 샘플을 희석하고 항생제를 함유하는 LB 플레이트에 플레이팅하고, 플레이트에서 성장하는 콜로니의 수는 증폭된 라이브러리에 존재하는 gRNA 플라스미드의 총수의 간접적인 측정치로서 사용된다. 이 분석은 기능 스크린에 사용되기 전에 최종 증폭된 라이브러리에 무엇이 있는지를 알기 위한 중요한 대조군 역할을 한다.

세포 형질도입

라이브러리가 증폭되고 표현이 확인되면, 다음 단계는 풀링된 gRNA 라이브러리를 포함하는 렌티바이러스를 생성하는 것이다. 일반적으로, HEK293T 세포는 CRISPR 라이브러리와 적절한 패키징 및 엔벨로프 벡터(예를 들면 psPAX2; Addgene, Didier Trono's lab의 플라스미드 #12260, pMD2.G; Addgene, Didier Trono's lab의 플라스미드 #12259(addgene), pVSVG 및 pR8.74)로 트랜스펙션된다. 대안적으로, 렌티바이러스 패키징 세포 유형은 gRNA 라이브러리 단독으로 트랜스펙션될 수 있다. 대부분의 프로토콜은 트랜스펙션 후 >48시간 후에 배지를 수집할 것을 권장하지만, 최대 바이러스 역가는 논의되고 있는 특정 라이브러리에 따라 다르기 때문에, 일부 최적화가 필요로 될 수 있다.

형질도입 단계의 목표는 Cas9와 단일 gRNA를 안정적으로 공동 발현하는 돌연변이 세포의 집단을 생성하는 것이다. gRNA와 Cas9를 모두 함유하는 단일 벡터 라이브러리는 돌연변이 세포가 단일 단계에서 야생형 세포로부터 직접 생성될 수 있기 때문에, 다중 벡터 시스템보다 사용하기 쉽다. 그 후, Cas9 및 gRNA에 대해 양성인 세포 집단을 분리하기 위해, 렌티바이러스 형질도입 후에 선택을 수행한다. 항생제 선택이 사용되는 경우, Cas9 및 gRNA를 함유하는 세포만을 선택하기 위해 최적의 항생제 농도를 결정하도록 사멸 곡선이 수행되어야 한다.

이론적으로, 모든 세포 유형을 스크리닝에 사용할 수 있지만, 세포의 최종 집단은 반드시 스크리닝 전에 라이브러리 표현을 유지하기에 충분한 양이어야 한다. 스크린에 필요한 정확한 세포의 수는 논의되고 있는 특정 라이브러리에 따라 다를 수 있다. 이것을 이해하는 가장 쉬운 방법은 최종 돌연변이 세포 집단으로부터 역방향으로 작업하고, 스크린의 시작 시 필요한 정확한 세포의 수를 결정하는 것이다. 예를 들면, 100× 표현에서 사용되는 10,000 gRNA의 가상 라이브러리를 취한다. 이 라이브러리를 사용하여 스크리닝을 수행하는 데 필요한 최소한의 세포는 10,000gRNAs×100세포/gRNA=10⁶세포(스크리닝을 위한 통제 조건을 포함하지 않음)이다. 다수의 gRNA를 단일 세포에 전달하면 다수의 유전적 변경이 발생하여, 어떤 돌연변이가 실제로 관찰된 표현형을 초래하는지 불분명해질 수 있기 때문에, 최종 집단의 각각의 세포는 반드시 단 하나의 gRNA만 포함해야만 한다. 따라서, 대부분의 프로토콜은 <1의 감염 다중도(MOI)(즉, 세포당 하나 미만의 바이러스 입자)로 렌티바이러스 gRNA 라이브러리를 세포에 형질도입하는 것을 권장한다.

유전자 스크리닝

유전자 스크린은 스크리닝 동안 농축되는 gRNA를 나타내는 양성, 또는 스크리닝 동안 고갈되는 gRNA를 나타내는 음성으로 광범위하게 규정될 수 있다. CRISPR 라이브러리는 돌연변이될 때 화학요법 약물에 대한 내성을 부여하는 유전자를 검색하기 위해 양성 선택 약물 스크린에 사용될 수 있다. 양성 선택 약물 스크린에서, 돌연변이 세포의 집단을 치료하는 것이 유전적 변형이 약물 내성을 촉진하는 세포를 선택적으로 농축하도록 모든 야생형 세포를 사멸시키기 위한 최적의 농도(사멸 곡선)를 결정하는 것이 중요할 수 있다. 또한, 약물의 부재시 세포 성장에 대한 주어진 gRNA의 효과 또는 비히클 자체의 효과와 같은, gRNA 분포에서 약물 독립적 변화를 제어하기 위해, 동시에 실행되는 통제 조건(예를 들면 비히클 대조군)과 게놈 DNA 내의 최종 gRNA 수를 비교하는 것은 필수적이다. 반면에, 음성 스크린은 스크리닝 도중에 집단에서 탈락하는 gRNA를 식별하고자 하는바, 이것은 나머지 집단에 비해 선택적으로 불리하다는 것을 나타낸다. 음성 선택 스크린의 간단한 예는 돌연변이 세포가 규정된 기간 동안 성장하도록 허용한 다음, 후속 시점에서의 gRNA 분포를 초기 시점과 비교하는 것이다.

데이터 분석

임의의 성공적인 스크린의 최종 결과는 표적 서열 또는 요소가 관찰된 표현형에 필수적인 gRNA에서 농축(양성 선택) 또는 고갈(음성 선택)되는 돌연변이 세포의 집단을 얻는 것이다. 따라서, 데이터 분석 단계의 목표는 실험군에서 고갈 또는 농축된 gRNA 및 서열 또는 요소를 식별하는 것이다. 세포의 최종 집단은 수천 개의 상이한 gRNA를 함유하는 것으로 생각할 수 있기 때문에, 게놈 서열의 분석은 차세대 시퀀싱(NGS)을 사용하는 것을 필요로 한다. 각각의 개별 gRNA 플라스미드는 게놈 DNA에 존재하는 다른 모든 gRNA와 구별되는 바코드를 포함한다. 따라서, CRISPR 스크린으로부터 데이터를 분석하는 제 1 단계는 gRNA가 최종 돌연변이 세포 집단에 존재하는지를 식별하기 위해서, PCR을 사용하여 게놈 DNA에 관하여 gRNA를 증폭하고, NGS를 수행하는 것이다. NGS의 최종 결과는 gRNA 서열과 표적 유전자를 추론할 수 있는 모든 바코드의 원시 카운트(raw count)이다.

서열 또는 요소가 "히트(hit)"인지의 여부를 결정하는 하나의 방법은 해당 서열 또는 요소를 표적으로 하는 gRNA가 주어진 샘플 내에서 얼마나 많이 농축 또는 고갈되었는지를 정성적으로 비교하는 것이다. 이전 섹션에서 지적했듯이, 라이브러리는 전형적으로 유전자당 다수의 상이한 gRNA를 함유하고, 또한 특정 유전자에 대한 다수의 gRNA에 걸친 일관된 농축 또는 고갈은 관찰된 표현형에 대해 특정 서열이 중요하다는 강력한 증거이다. 또한, 동일한 표적에 대한 2개의 상이한 gRNA가 동일한 비표적 효과(off-target effect)를 거의 갖지 않기 때문에, 수개의 gRNA를 갖는 것은 비표적 효과에 대한 내부 대조군으로서도 작용한다. 그러나, 히트를 규정하기 위해 임의의 임계값을 설정하면(예를 들면 6개의 gRNA 중 2개가 "히트"로 간주됨), 잠재적인 편향의 원인이 되거나 또는 위양성 또는 음성 결과로 이어질 수 있다. 이를 피하기 위해서, 다양한 통계 분석을 사용하여 편향되지 않는 방식으로 히트를 결정할 수도 있다. 각 스크린이 상이하기 때문에, 어떤 통계적 접근 방식이 특정 스크린에 가장 적합한지를 이해하는 것이 중요한다.

본 발명의 데이터 분석 프로세스에 있어서, 이들 데이터는 점 돌연변이 또는 해독틀내 결실을 포함하는 서열만 추가 분석을 위해 유지되도록, 야생형 서열 또는 해독틀외 삽입결실 또는 해독틀내 삽입을 포함하는 서열에 대해서는 필터링된다. 점 돌연변이의 경우, 동의 돌연변이 또는 넌센스 돌연변이를 필터링하고 미스센스 돌연변이를 포함하는 것만 유지한다. 해독틀내 결실의 경우, 돌연변이는 각 해독에 대해 그들이 야기한 아미노산 결실의 수에 따라, 단일 아미노산 결실만 포함된 경우에는 드라이버 결실로 또는 다중 아미노산 결실이 포함된 경우에는 패신저 결실로 분류되어야 한다. 생물정보학적 분석은 구체적으로:

돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_돌연변이= -log10(P-값)이 계산되고,

a = 결실 배수 변화가 있는 아미노산의 수 > 1

b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

필수 스코어가 다음과 같이 계산되는 단계를 포함한다.

마지막으로, 아미노산은 필수 스코어에 따라 기능적 중요성에 근거하여 순위가 매겨진다.

실시예

재료 및 방법

세포 및 시약

안정적으로 Cas9를 발현하는 HeLa 세포와 HEK293T 세포를 10% 소태아혈청(FBS, CellMax)이 포함된 둘베코 변형 이글 배지(Dulbecco's Modified Eagle Medium)(DMEM, Corning)에서 37℃에서 5% CO₂ 하에서 배양했다.

플라스미드 구축

sgRNA 벡터(pLenti-sgRNA-GFP)를 pLL3.7(Addgene) 중의 U6 프로모터를 인간 U6 프로모터, ccdB 카세트 및 sgRNA 스캐폴드로 대체하여 클로닝했다. Cas9 발현 벡터(pLenti-OC-IRES-BSD)는 이전에 보고되어 있다¹. pcDNA-HBEGF는 pHR-SFFVKRAB-dCas9-P2A-mCherry(Addgene)의 KRAB-dCas9 요소를 인간 HBEGF 코딩 서열 및 3×FLAG로 대체하여 클로닝했다. 단일 아미노산 결실을 갖는 HBEGF의 cDNA를 발현하는 벡터를 PCR 부위 특이적 돌연변이유발(PCR site-directed mutagenesis)(PfuUltraII Fusion HS DNA Polymerase, STRATAGENE)을 통해 구축했다. HBEGF에 대한 상이한 결실 돌연변이를 생성하는 데 사용되는 프라이머는 다음과 같다.

HBEGF-29-F 5'-GACCGGAAAGTCCGTTTGCAAGAGGCAG-3' (서열번호 1)

HBEGF-29-R 5'-CTAGCCCTCTCCGCCGCTCCAGGCTC-3' (서열번호 2)

HBEGF-63-F 5'-GACCGGAAAGTCCGTTTGCAAGAGGCAG-3' (서열번호 1)

HBEGF-63-R 5'-CTGCCTCTTGCAAACGGACTTTCCGGTC-3' (서열번호 3)

HBEGF-70-F 5'-GCAAGAGGCAGATCTGCTTTTGAGAGTC-3' (서열번호 4)

HBEGF-70-R 5'-GACTCTCAAAAGCAGATCTGCCTCTTGC-3' (서열번호 5)

HBEGF-115-F 5'-CGGAAATACAAGGACTGCATCCATGGAG -3' (서열번호 6)

HBEGF-115-R 5'-CTCCATGGATGCAGTCCTTGTATTTCCG -3' (서열번호 7)

HBEGF-119-F 5'-GGACTTCTGCATCCATGAATGCAAATATGTG-3' (서열번호 8)

HBEGF-119-R 5'-CACATATTTGCATTCATGGATGCAGAAGTCC -3' (서열번호 9)

HBEGF-125-F 5'-GAATGCAAATATGTGGAGCTCCGGGCTCC-3' (서열번호 10)

HBEGF-125-R 5'-GGAGCCCGGAGCTCCACATATTTGCATTC-3' (서열번호 11)

HBEGF-127-F 5'-ATGTGAAGGAGCGGGCTCCCTCCTGC -3' (서열번호 12)

HBEGF-127-R 5'-GCAGGAGGGAGCCCGCTCCTTCACAT-3' (서열번호 13)

HEBGF-133-F 5'-GCTCCCTCCTGCTGCCACCCGGGTTAC -3' (서열번호 14)

HBEGF-133-R 5'-GTAACCCGGGTGGCAGCAGGAGGGAGC -3' (서열번호 15)

HEBGF-134-F 5'-CCCTCCTGCATCCACCCGGGTTACC -3' (서열번호 16)

HBEGF-134-R 5'-GGTAACCCGGGTGGATGCAGGAGGG -3' (서열번호 17)

HEBGF-138-F 5'-CTGCCACCCGGGTCATGGAGAGAGGTGTC-3' (서열번호 18)

HBEGF-138-R 5'-GACACCTCTCTCCATGACCCGGGTGGCAG-3' (서열번호 19)

HEBGF-141-F 5'-CCGGGTTACCATGGAAGGTGTCATGGGC-3' (서열번호 20)

HBEGF-141-R 5'-GCCCATGACACCTTCCATGGTAACCCGG-3' (서열번호 21)

HEBGF-152-F 5'-GCCTCCCAGTGGAACGCTTATATACCTATG-3' (서열번호 22)

HBEGF-152-R 5'-CATAGGTATATAAGCGTTCCACTGGGAGGC-3' (서열번호 23)

HEBGF-153-F 5'-CCTCCCAGTGGAAAATTTATATACCTATGACC-3' (서열번호 24)

HBEGF-153-R 5'-GGTCATAGGTATATAAATTTTCCACTGGGAGG-3 (서열번호 25)

sgRNA 라이브러리 설계

표적 유전자의 hg19 CDS 서열을 UCSC 게놈 브라우저(https://genome.ucsc. edu/)에서 다운로드했으며, NAG 또는 NGG PAM 서열을 갖는 모든 잠재적 sgRNA를 자가 스크립트를 사용하여 라이브러리를 구축하도록 설계했다.

CRISPR / Cas9 sgRNA 라이브러리의 구축

2개의 라이브러리를 각각 3개의 약물 관련 단백질과 3개의 독소 수용체를 표적으로 하는 1,236 및 3,712 sgRNA를 포함하도록 구축했다. sgRNA를 인코딩하는 배열기반 올리고를 합성하고, BsmBI 인식 부위가 5' 말단에 포함된 대응하는 프라이머로 PCR을 통해 증폭했다. sgRNA를 인코딩하는 배열 기반 올리고의 PCR 증폭에 사용되는 이들 프라이머(약물 관련 단백질을 표적으로 하는 sgRNA 올리고를 증폭하기 위한 프라이머)는 다음과 같다.

약물 라이브러리 F 5'-TTGTGGAAAGGACGAAACCG-3' (서열번호 26)

약물 라이브러리 R 5'-TGCTGTCTCTAGCTCTACGT-3' (서열번호 27)

독소 라이브러리 F 5'-TCTTCATATCGTATCTGCG-3' (서열번호 28)

독소 라이브러리 R 5'-TAGTCGCTAGGCTATAACGT-3' (서열번호 29)

증폭된 DNA 산물을 골든 게이트 방법(Golden Gate method)을 사용하여 벡터에 결찰했다. 이어서, 결찰 혼합물을 Trans1-T1 적격 세포(Transgen)로 형질전환하여 플라스미드 라이브러리를 생성했다. sgRNA 플라스미드 라이브러리를 후속적으로 X-tremeGENE HP DNA 트랜스펙션 시약(Roche)을 사용하여, 2개의 바이러스 패키징 플라스미드, pVSVG 및 pR8.74(Addgene)와 함께 HEK293T 세포에 트랜스펙션했다. 그 다음, HeLa 세포를 낮은 MOI(~ 0.3)의 렌티바이러스로 감염시키고, 감염 48시간 후에 FACS를 통해 EGFP⁺ 세포를 수집했다.

라이브러리 스크리닝

BI2536 및 보르테조밉 스크리닝의 경우, 각 실험 복제물은 각각 3.5×10⁶ 세포를 갖는 2개의 150mm 접시로 구성되었다. 세포를 파종 24시간 후에 적절한 농도의 약물로 처리했다. 제 1 라운드의 스크리닝을 위해, 라이브러리 세포를 1.5일간 BI2536 4ng/ml 또는 3일간 보르테조밉 4ng/ml를 사용하여 배양한 후, 신선한 DMEM에서 배양했다. 내성 세포를 다시 파종하고 후속 라운드의 약물 스크리닝을 위해 5-10일 동안 배양했다. 스크리닝의 제 2 라운드를 위해, 라이브러리 세포를 4일간 5ng/ml의 BI2536 또는 5일간 8ng/ml의 보르테조밉과 함께 인큐베이팅했다. 제 3 라운드의 스크리닝을 위해, 라이브러리 세포를 3일간 6ng/ml의 BI2536과 함께 인큐베이팅했다. 6-TG 스크리닝을 위해, 총 1.8×10⁷ 라이브러리 세포를 플레이트당 3×10⁶ 세포로 150mm 페트리 접시에 프레이팅했다. 3개의 세포 플레이트를 하나의 복제물로 함께 그룹화했다. 세포를 6일간 250ng/ml의 6-TG로 처리하고, 생존하는 세포를 성장을 위해 다시 파종하고, 다음 라운드의 스크리닝에 적용했다. 제 2 및 제 3 라운드에서, 라이브러리 세포를 4일간 각각 250ng/ml 및 300ng/ml의 6-TG와 함께 인큐베이팅했다. TcdB 스크리닝을 위해, 4개의 150mm 접시에 각각 3.5×10⁶ 세포를 하나의 실험 복제물로서 플레이팅했다. 각 라운드의 스크리닝에 대해, 세포를 적절한 농도로 처리했다: 제 1 라운드의 경우 70ng/ml, 제 2 및 제 3 라운드의 경우 100ng/ml. HBEGF 및 ANTXR1 스크리닝의 세부 사항은 이전 보고서에서 설명한 것과 동일하다⁽¹⁾.

각 스크리닝으로부터의 내성 세포를 게놈 DNA 및 총 RNA 추출하기 위해 수집한 다음, 역전사를 행했다. 그 다음, PCR 증폭을 통해 얻은 표적 유전자의 sgRNA 코딩 영역과 cDNA를 차세대 시퀀신(NGS, next-generation sequencing) 분석했다.

후보 sgRNA 서열의 식별

DNeasy Blood and Tissue kit(Qiagen)를 사용하여 적절한 수의 라이브러리 세포로부터 게놈 DNA를 추출했다. 라이브러리 세포의 적절한 수는 상이한 약물/독소 처리에 따라 다르다: ANTXR1의 경우 6.25×10⁵, CSPG4의 경우 3×10⁶, HBEGF의 경우 2.5×10⁵, HPRT1의 경우 1.75×10⁵, PLK1의 경우 6.3×10⁵ 및 PSMB5의 경우 3×10⁵. sgRNA 영역은 sgRNA의 측면 서열에 어닐링된 프라이머¹를 사용하여 26 사이클의 PCR을 통해 증폭되었다. 각 복제물의 PCR 산물을 풀링하고, DNA Clean & Concentrator-5(Zymo Research Corporation)로 정제하고, 상이한 바코드(NEB #7370, #7335, #7500)로 인덱싱하고, NGS를 통해 분석했다.

cDNA 준비 및 시퀀싱

RNAprep Pure Cell/Bacteria Kit(TIANGEN)을 사용하여 라이브러리 세포로부터 전체 RNA를 추출하고, Quantscript RT Kit(TIANGEN)를 사용하여 cDNA를 합성했다. NGS용 라이브러리를 구축하기 위해 2단계 방법이 사용되었다. 제 1 단계는 cDNA의 PCR 증폭으로 구성되었다(26 사이클; PrimeSTAR HS DNA 중합효소, Takara). 상이한 유전자에 사용된 프라이머(cDNA 증폭용 프라이머)는 표 1에 나열되어 있다.

CSPG4의 코딩 서열은 길이가 약 6.9kb였으며, 그 전체 길이를 포함하는 중첩 단편(~50bp)을 얻기 위해 3개의 증폭 반응이 사용되었다. 각 cDNA 단편의 PCR 산물을 함께 풀링하고 정제했다(DNA Clean & Concentrator-5, Zymo Research Corporation). 그 다음, Covaris S2 시스템을 사용하여 각 유전자로부터의 cDNA 1㎍을 ~250bp로 전단했다. 생성된 전단 생성물을 DNA Clean & Concentrator-5 키트(Zymo Research Corporation)를 사용하여 정제 및 농축하고, NGS 분석을 위해 상이한 바코드(NEB #7370, #7335, #7500)로 인덱싱했다.

기능 도메인을 식별하기 위한 계산 방법

시퀀싱 해독을 Bowtie2 2.3.2를 사용하여 표적 유전자의 참조 서열에 맵핑하고, SAMtools 1.3.1을 사용하여 분류했다. 다음에, 우리는 미스센스 돌연변이 또는 해독틀내 결실만 수행한 것들을 유지하기 위해 해독을 필터링했다. 미스센스 돌연변이를 함유하는 단편의 경우, 우리는 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산했다:

해독틀내 결실을 포함하는 단편의 경우, 우리는 각각의 아미노산의 결실 비율을 다음과 같이 계산했다:

그 다음, 우리는 생성된 아미노산 결실의 수에 근거하여 돌연변이 유형을 분류했고, 우리는 단일 아미노산 결실만 함유하는 경우에는 "드라이버 결실"로 분류하고, 다수의 아미노산 결실을 함유하는 경우에는 "패신저 결실"로 분류했다. 돌연변이/결실 비율을 결정하고, 결실 패턴을 디코딩한 후, 실험군과 대조군 사이의 배수 변화를 계산했다.

다음으로, 각각의 아미노산에 대한 필수 스코어는 다음과 같이 계산했다: 돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포를 구축하고, 각각의 아미노산에 대해 스코어_돌연변이 = -log10(P-값)을 계산했다. 결실 배수 변화의 경우, 우리는 우선 조정 가능한 파라미터 α를 다음과 같이 드라이버 돌연변이 및 패신저 돌연변이에 가중치를 가하기 위해 적용했다:

결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화.

이어서, 100배의 순열을 통해 null 분포를 구축하고, 각각의 아미노산에 대해 스코어_{결실= -}log10(P-값)을 계산했다. 다음에, 스코어_돌연변이 및 스코어_결실을 다음과 같이 정규화했다:

그 다음, 우리는 스코어_돌연변이 및 스코어_결실의 가중치를 다음과 같이 계산했다:

a = 결실 배수 변화가 있는 아미노산의 수 > 1

b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

마지막으로, 필수 스코어를 다음과 같이 계산했다.

스크리닝 결과의 검증

PSMB5 및 PLK1의 중요 돌연변이 검증을 위해 돌연변이 부위 근처에 sgRNA를 설계했으며, 각 119 nt ssODN 공여체는 검증된 잔기에 대해 하나의 아미노산 치환을 인코딩했다. 모든 sgRNA(중요 돌연변이 검증을 위한 sgRNA 서열) 및 ssODN 공여체 서열(ssODN 공여체는 검증된 잔기에 대해 하나의 아미노산 치환을 인코딩함)은 다음과 같이 표 2에 나열되어 있다.

HeLa 세포를 6-웰 플레이트에서 1㎍의 sgRNA 및 2㎍의 ssODN 공여체로 트랜스펙션했다. 트랜스펙션 14일 후, 약물을 선택하기 24시간 전에 1.5×10⁵ 세포를 6-웰 플레이트에 파종했다. 세포를 72시간 동안 적절한 용량의 약물로 처리했다: 보르테조밉(8ng/ml); BI2536(10ng/ml). 약물 내성 세포의 게놈을 TIANamp Genomic DNA Kit(TIANGEN)를 사용하여 추출했다.

돌연변이된 유전자좌를 TransTaq DNA Polymerase High Fidelity(Transgen)를 사용하여 증폭했고, Universal DNA Purification Kit(TIANGEN)를 사용하여 정제했다. 프라이머(PSMB5 유전자에서 돌연변이된 유전자좌의 증폭을 위한 프라이머)는 표 3에 나열되어 있다.

PCR 단편을 시퀀싱을 위해 pEASY-T5 Zero Cloning Kit(Transgen)에 클로닝했다.

세포독성 어세이

세포를 약물 또는 독소 처리하기 24시간 전에 96-웰 플레이트에 파종하고(디프테리아 독소(DT)의 경우 5,000세포 및 보르테조밉의 경우 3,000세포), 상이한 농도의 보르테조밉 또는 DT를 첨가했다. 1mg/ml의 MTT(3-[4,5-디메틸티아졸-2-일]-2,5-디페닐테트라졸륨 브로마이드)를 첨가하기 전에 세포를 37℃에서 48시간(DT) 또는 72시간(보르테조밉) 동안 인큐베이팅했다. BioTek Cytation5(BioTek Instruments)를 사용하여 570nm에서의 분광 광도계 판독값을 수집했다.

결과

단백질의 기능 요소를 맵핑하는 CRESMAS 접근 방식을 테스트하기 위해, 우리는 박테리아 독소 수용체를 인코딩하는 3개의 유전자(ANTXR1, CSPG4 및 HBEGF)와 암치료제 표적을 인코딩하는 3개의 유전자(HPRT1, PLK1 및 PSMB5)를 선택했다(하기 표 4).

우리는 독소^{(8, 11)} 및 약물에 대한 라인에서, 예를 들면 HPRT1⁽¹²⁾을 표적으로 하는 6-TG(6-티오구아닌), PLK1⁽¹³⁾을 표적으로 하는 BI2536, 및 PSMB5⁽¹⁴⁾를 표적으로 하는 보르테조밉에서 적절한 사멸 조건을 결정했기 때문에, 스크리닝을 위한 CRISPR 라이브러리를 구축하기 위해 HeLa 세포를 선택했다(도 2a).

표적화된 유전자의 경우, sgRNA를 인실리코(in silico)로 설계하고, 3개의 수용체 코딩 유전자의 전체 길이를 커버하는 포화 CRISPR 라이브러리 및 3개의 약물 표적을 커버하는 또 다른 라이브러리를 구축하기 위해 풀로서 칩 상에 합성했다(도 2b).

우리는 미처리 대조군 스크린 외에 6개의 처리 각각에 대해 기능적 스크린을 2회 반복 수행했다. 6개 유전자의 sgRNA 커버리지는 각 sgRNA가 DSB 부위⁽¹⁵⁾ 주변의 10bp에 영향을 미칠 것이라고 가정하면 대략 0.99였다(도 2c). 3회의 독소(PA/LFnDTA 독소, 디프테리아 독소 또는 클로스트리디움 디피실레 독소 B) 또는 약물(6-TG, BI2536 또는 보르테조밉) 처리 후, 내성 세포를 수확하고, NGS 분석을 통한 종래의 sgRNA 판독을 위해 게놈 DNA를 추출했다^{(8, 16)}.

한편, 이들 수확된 내성 세포에 전체 RNA 분리 및 역전사를 행하여, 이후에 PCR 증폭을 위한 주형으로 사용되는 cDNA를 얻었다. 특정 프라이머를 사용한 증폭을 통해 표적 유전자의 전체 길이 cDNA를 얻었다. CSPG4와 같은 대형 유전자의 경우, 그 전체 길이를 커버하기 위해 3개의 중첩 단편을 증폭하기 위해 3쌍의 프라이머가 사용되었다. 대체 스플라이싱을 갖는 유전자의 경우, 모든 대체 전사체가 포함되도록, 특정 프라이머쌍을 설계했다(도 2d 및 표 1). NGS에 대한 크기 요건 때문에, PCR 단편은 평균 250bp의 작은 크기로 추가로 세분화되었다(도 2e). 모든 실험 절차 후, 우리는 표적 유전자 기능에 필수적인 아미노산을 식별하기 위해 시퀀싱 데이터를 분석하기 위한 계산 파이프라인을 구축했다.

대조군 라이브러리에서의 돌연변이의 비율은 6개의 표적 모두에 대해 낮은 수준이었고, 이들 숫자는 스크리닝 후 현저히 증가했고, 특히 CRISPR 라이브러리에 의해 삽입결실(indel)이 생성되었다. 모든 대조군에서 상대적으로 더 높은 점 돌연변이의 비율은 PCR 증폭 및 NGS에서 생성된 오류로 인한 것 같았다. 그럼에도 불구하고, 6개의 모든 스크리닝 후 점 돌연변이의 해독이 증가한 바, 소정의 점 돌연변이가 내성 표현형에 기여했음을 시사한다(도 3a). 그 다음, 우리는 2개의 복제물 사이의 sgRNA 배수 변화와, 결실 및 점 돌연변이 비율의 상관관계를 통해 스크린의 품질을 평가했고, 상관계수가 sgRNA 배수 변화의 경우 0.36~0.85 범위(도 3b), 결실의 경우 0.45~0.99 범위(도 4a), 및 점 돌연변이의 경우 0.61~0.99 범위(도 4)인 것을 발견했고, 이것은 우리의 방법의 높은 일관성을 나타낸다. 3개의 독소 수용체 모두가 세포 생존율에 필수적이지 않기 때문에, 스크리닝 후 이들의 sgRNA는 코딩 서열에 걸쳐 균일하게 분포되었고(도 3a, 도 5a 및 도 6a), 이는 이들 대부분이 해독틀이동 삽입결실을 생성할 수 있어, 표적 유전자 발현의 파괴를 초래할 수 있다는 것을 나타낸다. 흥미롭게도, 3개의 독소 수용체의 C-말단 부분에 대응하는 코딩 영역을 표적으로 하는 그들의 sgRNA의 대부분은 만장일치로 농축되지 않은 바(도 3a, 도 5a 및 도 6a), 이는 대부분의 세포내 C-말단 영역이 기능적으로 불필요하다는 것을 시사한다. 그럼에도 불구하고, sgRNA-코딩 영역의 NGS는 많은 서열에 대한 기능 정보를 밝힐 수 없었다.

간소화된 알고리즘을 CRESMAS 전략에 적용하면, 기능 관련 아미노산 맵을 얻을 수 있었다. 우리는 이러한 하나의 아미노산 결실 유형의 중요성에 대한 모호함이 없기 때문에, 의도적으로 드라이버 결실에 실선을 할당함과 아울러, 그 패신저 결실에는 회색선(10% 스케일)을 할당했다. 또한, 우리는 시각화를 용이하게 하기 위해 단일 미스센스 돌연변이 데이터를 결실 데이터와 하나의 플롯으로 통합했다. 단일 아미노산 결실과 마찬가지로, 미스센스 점 돌연변이로 인한 단백질 기능 상실은 영향을 받은 아미노산이 단백질 기능에 필수적인 것을 입증했다.

디프테리아 독소(DT)에 대한 수용체를 인코딩하는 HBEGF의 기능적 스크리닝을 위해, 대부분의 내성 세포는 보고된 DT-결합 부위인 EGF-유사 도메인(도 7b)에서 결실을 보유했다⁽¹⁷⁾. 필수 스코어는 다음과 같이 계산되었으며, 이하와 같이 표 6에 나타냈다.

필수 스코어를 계산함으로써(표 6), 우리는 가장 높은 스코어를 갖는 아미노산이 실제로 EGF-유사 도메인에 농축된 것을 발견했으며, 또한 독소 결합의 매개에서 이 도메인의 필수성을 확인했다. DT-HBEGF 상호작용에 필수적인 3개의 공지된 아미노산인 F115, L127 및 E141⁽¹⁷⁾은 모든 아미노산 중에서 상위 순위(21위, 15위 및 28위)에 랭크되었다. 중요하게는, CRESMAS 접근법은 수용체 기능에 중요한 것으로 보이는 이들 3개 외에도 다수의 신규 부위를 밝혀냈다(도 7c). 결과를 검증하기 위해, 우리는 렌티바이러스 감염을 통해 HeLa HBEG-/- 세포⁽⁸⁾에서 야생형 또는 돌연변이 HBEGF cDNA를 발현했다. 5개의 상위 순위의 부위(G119, K125, I133, C134, Y138), 3개의 공지된 양성 부위, 및 5개의 하위 순위 부위(L29, D63, D70, N152, R153)를 검증했다. HeLa HBEGF-/-는 DT에 대해 완전한 내성을 보였고, 야생형 HBEGF 발현은 독소에 대한 세포 감수성을 회복할 수 있었다. 이들 5개의 상위 순위 부위(G119, K125, I133, C134, Y138) 또는 공지된 양성 부위(F115, L127, E141) 중 하나의 단일 아미노산 결실을 포함하는 모든 돌연변이 HBEGF 발현은 DT에 대한 세포의 감수성을 구제하지 못한 반면, 5개의 낮은 순위 부위(L29, D63, D70, N152, R153) 중 하나가 결실된 돌연변이 HBEGF는 야생형과 마찬가지로 구제가 이루어졌다(도 7d). 이들 결과는 EGF 유사 도메인에서의 소정 아미노산이 DT 유발 세포독성에 필수적이라는 우리의 스크리닝 결과를 확인시켰다. 참고로, DT 결합 도메인 중 약간의 아미노산이 HBEGF에 대해 스크리닝되었다는 사실은 CRESMAS가 낮은 위양성률을 갖는다는 것을 나타낸다.

탄저균 독소 수용체인 ANTXR1의 경우, 모든 내성 세포가 세포질 도메인을 인코딩하는 것을 제외하고는 전체 코딩 영역에 걸쳐 다양한 결실을 보유한 바(도 5b 및 5c), 이는 탄저균 독소와 ANTXR1 간의 상호작용이 수용체의 세포외 영역에 의해 지배되었다는 것을 나타낸다. 공지된 PA-결합 부위⁽¹⁸⁾ 및 막관통 도메인에 추가하여, 다양한 수준의 중요성을 나타내는 다수의 신규 아미노산이 확인되었다(도 5b). sgRNA 시퀀싱 결과(도 5a)와 일치하여, 세포질 영역 내의 대부분의 아미노산은 불필요했고(도 5b), CRESMAS에 대한 낮은 위양성 비율을 재차 시사한다. 탄저병 독성 매개에서의 ANTXR1 기능에 중요한 상위 아미노산은 2개의 공지된 부위 H57 및 E155⁽¹⁸⁾를 포함한, 필수 스코어를 계산하여 결정했다(도 5c).

클로스트리디움 디피실리 독소 B(Clostridium difficile toxin B, TcdB)의 수용체인 CSPG4의 경우, 돌연변이의 피크는 주로 첫 번째 및 마지막 2개의 CSPG 반복부에 위치했다(도 6b 및 6c). 첫 번째 CSPG 반복부는 공지된 TcdB 결합 부위였으며⁽¹¹⁾, 마지막 2개의 반복부는 새로운 발견이었다. 중요하게도, 대부분의 유익한 데이터가 결실 돌연변이에서 비롯된 HBEGF 및 ANTXR1에 대한 상기 2개의 경우와 달리, CSPG4에서 T778에 영향을 미치는 미스센스 점 돌연변이가 매우 농축된 바(도 6b), 바로 이 아미노산이 TcdB 독성을 매개하는 수용체에 대해 임계인 것을 시사한다.

암치료제 표적을 인코딩하는 3개의 유전자에 관해서는, HPRT1이 비필수 유전자인 반면, PLK1과 PSMB5는 2개의 필수 유전자이다⁽¹⁹⁾. 비필수 표적 HPRT1의 경우, 라이브러리의 6-TG 스크리닝은 대부분의 sgRNA가 농축되고 균등하게 분포되어 있다는 것을 나타냈으며(도 8a), 이는 박테리아 독소 스크린의 결과(도 3a, 5a, 6a)와 유사한 결과였다. 단백질 전체에 걸친 각각의 아미노산의 중요한 역할은 완전히 숨겨져 있었다. CRESMAS 접근법은 6-TG에 대한 세포 감수성을 매개하는데 있어서 HPRT1 기능에 중요한 다수의 부위가 존재하는 것을 나타내었다(도 8b). 이 관찰은 4량체 HPRT1의 공지된 구조와 일치했으며, 높은 필수 스코어를 가진 부위도 균일하게 분포되어 있었다(도 8c)⁽¹²⁾.

필수 표적 PLK1 및 PSMB5의 경우, sgRNA 시퀀싱은 sgRNA가 해독틀내 돌연변이를 생성한 소정의 임계 아미노산의 대략적인 위치를 제공했다(도 9a 및 도 10a). sgRNA 농축은 간접적인 증거를 제공하고 또한 해상도가 낮았기 때문에, 우리는 CRESMAS 전략이 더 정확하고 또한 포괄적인 맵을 더욱 자세히 나타낼 것이라고 추론했다. 실제로, 단백질 기능에 중요한 것으로 나타난 PSMB5 및 PLK1 둘 다에서 더 많은 아미노산이 높은 정확도로 식별되었다(도 9b 및 도 10b). 참고로, 최종 스크리닝 결과는 미스센스 돌연변이와 다양한 수의 결실을 모두 포함했으며, 두 경우 모두 필수 스코어를 기준으로 상위 필수 아미노산을 얻었다(도 9c 및 도 10c). 재차, 우리는 보르테조밉(R78, T80, M104, A108, C122 및 G242) 및 신규 필수 잔기(도 9b-9c)와의 그 상호작용에 대해 PSMB5의 공지된 2개의 임계 부위를 모두 식별했다. 마찬가지로, 우리는 BI2536-PLK1 상호작용에 중요한 공지된 잔기 R136(22, 23), 및 신규 필수 잔기 F183(도 10b-10c)을 식별했다.

미스센스 점 돌연변이가 PSMB5와 PLK1 모두에 대한 약물 내성을 부여하는 주된 형식이었기 때문에, 검증을 위한 결실 대신에 특정 점 돌연변이를 생성하기 위해 ssODN 매개 방법⁽²⁴⁾을 사용하기로 결정했다. 우리는 PSMB5에서 9개의 아미노산 잔기(R78, T80, V90, M104, A108, D110, C111, C122 및 G242)를 선택했으며, 그 중 D110 및 C111이 대조군으로 포함되었다. 점 돌연변이에 대한 적절한 아미노산을 선택하기 위해, 스크리닝 결과 또는 이전 보고서에서의 돌연변이 유형이 우선 선택되었다. 나머지에 대해서는 모두 알라닌으로 대체했다(표 2). 하기 돌연변이, R78N, T80A, V90A, M104A, A108T, C122F 및 G242D 중 하나를 함유하는 공여체로 트랜스펙션된 세포는 다양한 수의 보르테조밉 내성 콜로니를 생성했다(도 9d). 이에 비해, D110A 및 C111A는 보르테조밉 내성 콜로니를 생성하는데 실패하여, 우리의 검증 방법이 신뢰할 수 있다는 것을 입증했다(도 9d). 흥미롭게도, C111 부위는 이전에 SW1573 및 CEM에서 PSMB5에 대한 중요성을 보고했으며^{(21, 25)}, 이는 우리의 스크리닝 및 검증 결과와 상이하다(도 9d). 이러한 차이는 아미노산의 역할이 생물학적 맥락에 영향을 받았거나 또는 우리사 내성 표현형을 발생시키는 올바른 아미노산 치환을 생성하지 못했다는 것을 시사한다. 보르테조밉 내성 풀링된 세포를 검증하기 위해서, 우리는 표적 유전자좌의 게놈 영역을 시퀀싱했고, 이들 7개의 부위 모두가 예상된 돌연변이를 포함하고 있다는 것을 확인했다(도 11 및 표 3). 결과를 더욱 검증하기 위해서, 우리는 수개의 돌연변이 풀로부터 단일 클론을 분리하고(도 12), 세포 생존율 어세이를 수행했다. 우리는 하기 점 돌연변이가 보르테조밉 내성, R78N, V90L, A108T, C122F 및 G242D를 부여했다는 것을 입증했다(도 9e). 이들 중, T80과 A108은 PSMB5와 보르테조밉의 직접적인 결합에 관여하는 것으로 보고되었고^(20-22), R78, M104 및 C122의 돌연변이는 약물 결합 부위 구조를 파괴하여 보르테조밉 내성을 부여하는 것으로 보고되었다^{(22, 26, 27)}. G242는 메커니즘이 명확하지 않았지만, 보르테조밉 감수성과 관련된 또 다른 공지된 부위였다⁽²⁷⁾. V90 부위는 새로운 발견이었다. 우리는 2개의 독립적인 V90L 클론을 선택했으며, 이들 모두에 약물 내성을 부여했다. V90이 약물 감수성을 매개하는 방법과, V90 변경이 보르테조밉 결합 포켓 주변의 구조를 변경하는지의 여부는 아직 결정되지 않은 상태이다.

PLK1의 경우, 우리는 2개의 상위 순위의 잔기(R136 및 F183) 및 1개의 잠재적 위음성 부위(C67)를 검증했다. R136은 BI2536에 대한 임계 아미노산이고, F183은 PLK1이 BI2536에 결합할 때 구조적으로 중요하다고 보고되어 있다^{(22, 23)}. 이들 3개의 부위 중 하나에 대한 점 돌연변이는 풀링된 어세이에서 BI2536 내성을 부여했다(도 10d).

미스센스 돌연변이의 경우, 각각의 아미노산은 19종류의 비동의 치환을 갖는다. 우리는 상이한 치환이 분명한 효과를 가질 수 있고, 또한 일부 변화가 임의의 표현형 차이를 생성하지 않을 수 있다고 가정했다. CRESMAS 전략이 이러한 세부 사항을 생성할 수 있는지의 여부를 확인하기 위해서, PSMB5 및 PLK1 스크리닝 각각에서 상위 10개의 히트의 미스센스 돌연변이 데이터를 검색하고, 아미노산 패턴 분석을 수행했다. 우리는 이들 아미노산에 대한 명확한 패턴 선호도를 밝혀냈으며, 이는 소정 치환만이 약물에 대한 세포 내성을 부여할 수 있다는 것을 나타낸다(도 13a-도 13b). 대부분의 부위에 대한 다중 치환은 V90PSMB5 및 A386PLK1(도 13c-도 13d)과 같은 약물 억제의 치명적인 효과를 피할 수 있는 반면, PSMB5에 대한 M104I 및 C122Y(도 13e), 및 PLK1에 대한 F183L(도 13f)와 같은 일부 부위에 대한 단일 특이적 치환만이 약물 내성을 부여할 수 있었다. R136GPLK1은 유일한 돌연변이 유형이 아니라, BI2536에 세포 내성을 부여한 우세한 형식이었다(도 13f). 또한, PSMB5에서의 2개의 부위 A105 및 A43이 0.54의 피어슨 상관계수(도 13h)를 갖는 매우 유사한 돌연변이 선호 패턴(도 13g)을 갖는 것도 흥미로웠다.

요약하면, CRESMAS는 기능에 대한 서열의 맵을 생성하는 강력한 방법이다. 잠재적인 기능 도메인을 식별하기 위해 절단 돌연변이유발을 사용하는 것은 종종 매우 힘들며, 또한 이것은 단백질 크기가 너무 크면 점점 더 어려워진다. 또한, 관심 단백질의 전체 길이에 걸쳐 있는 각각의 모든 아미노산의 중요성을 평가하는 것은 불가능하지는 않더라도 기술적으로 어렵다. Gill과 동료들은 최근에 박테리아 또는 효모에서 관심 단백질의 기능 관련 돌연변이를 맵핑하는 방법을 설명했지만, 이 방법은 상동 재조합 속도에 크게 의존적이어서, 고등 진핵생물에 대한 효과적인 적용을 방해한다⁽²⁸⁾. CRESMAS는 대형 크기의 단백질을 취급할 때 특히 강력한다. 또한, 다수의 유전자를 동시에 스캔하여 그 대응하는 단백질에 대한 기능 요소를 얻을 수 있다.

CRISPR 포화 돌연변이유발은 모든 아미노산을 포괄하는 다중 돌연변이를 제공했다. 다수의 다른 방법과 달리, 해독틀내 또는 점 돌연변이와 관련하여 작은 ㅂ비율의 NGS 데이터만이 CREMAS에 대한 유용한 해독이었다. 우리는 데이터 전처리 동안에 다수의 해독을 필터링했지만, 우리는 생물 정보학 파이프라인이 중간 정도의 시퀀싱 정도(Sequencing depth)에 대해 나머지 해독으로부터 기능 요소를 맵핑하기에 충분히 민감하다는 것을 발견했다. 6개의 시험 모두에서 단백질 기능에 중요한 대부분의 아미노산을 식별할 수 있다는 사실은 CRESMAS가 낮은 위음성 비율을 갖는다는 것을 나타낸다.

CRESMAS 접근법은 돌연변이가 단백질 기능을 폐지하는 모든 잔기를 잠재적으로 밝혀낼 수 있다. 그러나, 이것이 CRESMAS 스크리닝에서 얻은 모든 히트가 단백질 기능과 직접적으로 관련되어 있다는 것을 의미하지 않는다. 일부 잔기는 주어진 단백질의 전체 구조에 대해 중요하지만, 단백질의 효소 활성 또는 그것의 상호 작용 파트너와의 접촉을 직접적으로 매개하지 않을 수 있다. 예를 들면, 우리는 독소 엔도시토시스의 직접적인 관여 없이 수용체 기능을 유지하는데 중요한 영역인 ANTXR1(도 5b)의 막관통 도메인 내에 위치한 다수의 히트를 확인했다.

CRESMAS 전략은 연구 단백질에만 제한되지 않는다. 비-코딩 RNA, 프로모터 및 인핸서와 같은 조절 요소의 기능적 맵을 획득하는데 매우 적합하다. 프로토콜에서의 수정은 상기 기재된 cDNA 대신에 게놈 상의 표적 영역에 대해 PCR 증폭을 수행하기 위한 것이다.

참조

1. M. Jinek et al., A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity. Science 337, 816-821 (2012).

2. M.E. Burkard, A. Santamaria, P.V. Jallepalli, Enabling and disabling polo-like kinase 1 inhibition through chemical genetics. ACS chemical biology 7, 978-981 (2012).

3. L. Cong et al., Multiplex Genome Engineering Using CRISPR/Cas Systems. Science 339, 819-823 (2013).

4. P. Mali et al., RNA-guided human genome engineering via Cas9. Science 339, 823-826 (2013).

5. O. Shalem et al., Genome-scale CRISPR-Cas9 knockout screening in human cells. Science 343, 84-87 (2014).

6. T. Wang, J.J. Wei, D.M. Sabatini, E.S. Lander, Genetic screens in human cells using the CRISPR-Cas9 system. Science 343, 80-84 (2014).

7. H. Koike-Yusa, Y. Li, E.P. Tan, C. Velasco-Herrera Mdel, K. Yusa, Genome-wide recessive genetic screening in mammalian cells with a lentiviral CRISPR-guide RNA library. Nat Biotechnol 32, 267-273 (2014).

8. Y. Zhou et al., High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells. Nature 509, 487-491 (2014).

9. G.M. Findlay, E.A. Boyle, R.J. Hause, J.C. Klein, J. Shendure, Saturation editing of genomic regions by multiplex homology-directed repair. Nature 513, 120-123 (2014).

10. M.C. Canver et al., BCL11A enhancer dissection by Cas9-mediated in situ saturating mutagenesis. Nature 527, 192-197 (2015).

11. P. Yuan et al., Chondroitin sulfate proteoglycan 4 functions as the cellular receptor for Clostridium difficile toxin B. Cell Res 25, 157-168 (2015).

12. J. Duan, L. Nilsson, B. Lambert, Structural and functional analysis of mutations at the human hypoxanthine phosphoribosyl transferase (HPRT1) locus. Human mutation 23, 599-611 (2004).

13. M. Steegmaier et al., BI 2536, a potent and selective inhibitor of polo-like kinase 1, inhibits tumor growth in vivo. Curr Biol 17, 316-322 (2007).

14. D. Chen, M. Frezza, S. Schmitt, J. Kanwar, Q.P. Dou, 보르테조밉 as the first proteasome inhibitor anticancer drug: current status and future perspectives. Curr Cancer Drug Targets 11, 239-253 (2011).

15. M. van Overbeek et al., DNA Repair Profiling Reveals Nonrandom Outcomes at Cas9-Mediated Breaks. Mol Cell 63, 633-646 (2016).

16. S. Zhu et al., Genome-scale deletion screening of human long non-coding RNAs using a paired-guide RNA CRISPR-Cas9 library. Nat Biotechnol 34, 1279-1286 (2016).

17. T. Mitamura et al., Structure-function analysis of the diphtheria toxin receptor toxin binding site by site-directed mutagenesis. J Biol Chem 272, 27084-27090 (1997).

18. S. Fu et al., The structure of tumor endothelial marker 8 (TEM8) extracellular domain and implications for its receptor function for recognizing anthrax toxin. PLoS One 5, e11203 (2010).

19. T. Hart et al., High-Resolution CRISPR Screens Reveal Fitness Genes and Genotype-Specific Cancer Liabilities. Cell 163, 1515-1526 (2015).

20. S. Lu, J. Wang, The resistance mechanisms of proteasome inhibitor 보르테조밉. Biomark Res 1, 13 (2013).

21. N.E. Franke et al., Impaired 보르테조밉 binding to mutant beta5 subunit of the proteasome is the underlying basis for 보르테조밉 resistance in leukemia cells. Leukemia 26, 757-768 (2012).

22. S.A. Wacker, B.R. Houghtaling, O. Elemento, T.M. Kapoor, Using transcriptome sequencing to identify mechanisms of drug action and resistance. Nat Chem Biol 8, 235-237 (2012).

23. R.N. Murugan et al., Plk1-targeted small molecule inhibitors: molecular basis for their potency and specificity. Mol Cells 32, 209-220 (2011).

24. C.D. Richardson, G.J. Ray, M.A. DeWitt, G.L. Curie, J.E. Corn, Enhancing homology-directed genome editing by catalytically active and inactive CRISPR-Cas9 using asymmetric donor DNA. Nat Biotechnol, (2016).

25. L.H. de Wilt et al., Proteasome-based mechanisms of intrinsic and acquired 보르테조밉 resistance in non-small cell lung cancer. Biochem Pharmacol 83, 207-217 (2012).

26. E. Suzuki et al., Molecular mechanisms of 보르테조밉 resistant adenocarcinoma cells. PLoS One 6, e27996 (2011).

27. G.T. Hess et al., Directed evolution using dCas9-targeted somatic hypermutation in mammalian cells. Nat Methods, (2016).

28. A.D. Garst et al., Genome-wide mapping of mutations at single-nucleotide resolution for protein, metabolic and genome engineering. Nat Biotechnol 35, 48-55 (2017).

SEQUENCE LISTING <110> PEKING UNIVERSITY EdiGene Inc. <120> METHOD FOR IDENTIFYING FUNCTIONAL ELEMENTS <130> FD00215PCT <150> PCT/CN2019/079729 <151> 2019-03-26 <160> 114 <170> PatentIn version 3.5 <210> 1 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 1 gaccggaaag tccgtttgca agaggcag 28 <210> 2 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 2 ctagccctct ccgccgctcc aggctc 26 <210> 3 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 3 ctgcctcttg caaacggact ttccggtc 28 <210> 4 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 4 gcaagaggca gatctgcttt tgagagtc 28 <210> 5 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 5 gactctcaaa agcagatctg cctcttgc 28 <210> 6 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 6 cggaaataca aggactgcat ccatggag 28 <210> 7 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 7 ctccatggat gcagtccttg tatttccg 28 <210> 8 <211> 31 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 8 ggacttctgc atccatgaat gcaaatatgt g 31 <210> 9 <211> 31 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 9 cacatatttg cattcatgga tgcagaagtc c 31 <210> 10 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 10 gaatgcaaat atgtggagct ccgggctcc 29 <210> 11 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 11 ggagcccgga gctccacata tttgcattc 29 <210> 12 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 12 atgtgaagga gcgggctccc tcctgc 26 <210> 13 <211> 26 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 13 gcaggaggga gcccgctcct tcacat 26 <210> 14 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 14 gctccctcct gctgccaccc gggttac 27 <210> 15 <211> 27 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 15 gtaacccggg tggcagcagg agggagc 27 <210> 16 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 16 ccctcctgca tccacccggg ttacc 25 <210> 17 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 17 ggtaacccgg gtggatgcag gaggg 25 <210> 18 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 18 ctgccacccg ggtcatggag agaggtgtc 29 <210> 19 <211> 29 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 19 gacacctctc tccatgaccc gggtggcag 29 <210> 20 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 20 ccgggttacc atggaaggtg tcatgggc 28 <210> 21 <211> 28 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 21 gcccatgaca ccttccatgg taacccgg 28 <210> 22 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 22 gcctcccagt ggaacgctta tatacctatg 30 <210> 23 <211> 30 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 23 cataggtata taagcgttcc actgggaggc 30 <210> 24 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 24 cctcccagtg gaaaatttat atacctatga cc 32 <210> 25 <211> 32 <212> DNA <213> Artificial Sequence <220> <223> Primer for generating mutants for HBEGF <400> 25 ggtcataggt atataaattt tccactggga gg 32 <210> 26 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for amplifying sgRNA oligos targeting drug-associated proteins <400> 26 ttgtggaaag gacgaaaccg 20 <210> 27 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for amplifying sgRNA oligos targeting drug-associated proteins <400> 27 tgctgtctct agctctacgt 20 <210> 28 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Forward primer for amplifying sgRNA oligos targeting toxin receptors <400> 28 tcttcatatc gtatcgtgcg 20 <210> 29 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Reverse primer for amplifying sgRNA oligos targeting toxin receptors <400> 29 tagtcgctag gctataacgt 20 <210> 30 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 30 aacagcatcg gagcggaaa 19 <210> 31 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 31 tgggctttat caccactcct c 21 <210> 32 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 32 aataaaggac ccgcgaggaa g 21 <210> 33 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 33 ttttcaggag tgtgctgtcc g 21 <210> 34 <211> 18 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 34 tcccagctcc caggactc 18 <210> 35 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 35 gggtgttctg agtgtgcagt 20 <210> 36 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 36 agagagccac tgtgtggatg c 21 <210> 37 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 37 ggaagtgtgc tcgccgtcag 20 <210> 38 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 38 gggctcgtgc tgttctcac 19 <210> 39 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 39 gcaccaggca tggaagcaat 20 <210> 40 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 40 cgaaagtgac tggtgcctcg 20 <210> 41 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 41 ggtcccaatg gcagatccct 20 <210> 42 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 42 aggcgaacct ctcggcttt 19 <210> 43 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 43 caatccgccc aaagggaac 19 <210> 44 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 44 ctctgctcgg atcgaggtct 20 <210> 45 <211> 19 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 45 gatgcaggtg ggagtgagg 19 <210> 46 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 46 ttccccgacc cccttcagtg 20 <210> 47 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 47 aggatgggtc actgtgtccg t 21 <210> 48 <211> 17 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 48 tggccgacct cacttcc 17 <210> 49 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Primer for cDNA amplification <400> 49 aagtaaaaca aatagtcacc tctgc 25 <210> 50 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 50 gtaagcaccc gctgtagccc 20 <210> 51 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 51 ctatcacctt cttcaccgtc 20 <210> 52 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 52 cctgctaggc accatggctg 20 <210> 53 <211> 21 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 53 aatccgctgc gcccccagcc a 21 <210> 54 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 54 gcgcagcgga ttgcagcttc 20 <210> 55 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 55 tctgggaacg gctgttggct 20 <210> 56 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 56 tccagccatc ctcccgcacg 20 <210> 57 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 57 tcttagctga ctacgcgtaa 20 <210> 58 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 58 gtccgagatc tcgaagcact 20 <210> 59 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 59 cagcgacact caccctccgg 20 <210> 60 <211> 20 <212> DNA <213> Artificial Sequence <220> <223> sgRNA sequence for the validation of critical mutation <400> 60 ccttttcctg aatgaagatc 20 <210> 61 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 61 tttttgtggt cttatgtggc ctgttttgtg ttttcctctg atcttaacag ttccgccatg 60 gagtcatagt tgcagctgac agcaacgcta cagcgggtgc ttacattgcc tcccagacg 119 <210> 62 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 62 tttttgtggt cttatgtggc ctgttttgtg ttttcctctg atcttaacag ttccgccatg 60 gagtcatagt tgcagctgac agcagggctg ccgcgggtgc ttacattgcc tcccagacg 119 <210> 63 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 63 tttcctctga tcttaacagt tccgccatgg agtcatagtt gcagctgact ccagggctac 60 agcgggtgct tacattgcct cacagacggc caagaaggtg atagagatca acccatacc 119 <210> 64 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 64 agatgcgttc cttatttcga agctcataga ttcgacattg ccgagccaac agccgttccc 60 agaagctgca atccgctgcg ccgccagcga tggtgcctag caggtatggg ttgatctct 119 <210> 65 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 65 actccagggc tacagcgggt gcttacattg cctcccagac ggtgaagaag gtgatagaga 60 tcaacccata cctgctaggc acaatggctg ggggcaccgc ggattgcagc ttctgggaa 119 <210> 66 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 66 cagtttggag gcagctgcta cagagatgcg ttccttattt cgaagctcat agattcgaca 60 ttgccgagcc aacagccgtt cccagaagct gcaggccgct gcgcccccag ccatggtgc 119 <210> 67 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 67 cagtttggag gcagctgcta cagagatgcg ttccttattt cgaagctcat agattcgaca 60 ttgccgagcc aacagccgtt cccagaagct ggcatccgct gcgcccccag ccatggtgc 119 <210> 68 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 68 atacaccatg ttggcaagca gtttggaggc agctgctaca gagatgcgtt ccttatttcg 60 aagctcatag attcggaatt ggcgagccaa cagccgttcc cagaagctgc aatccgctg 119 <210> 69 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 69 gcaggcctat gatctggccc gtcgagccat ctaccaagcc acctacagag atgcctactc 60 aggaggtgca gtcaacctct atcacgtgcg ggaggatgac tggatccgag tctccagtg 119 <210> 70 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 70 cgcagcctcg cccaccagca cgtcgtagga ttccacggct ttttcgagga caacgacttc 60 gtgttcgtgg tgttggagct ctgtagcagg gtgagtgtcg ctgctgggga actggaact 119 <210> 71 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 71 aagagatccc ggaggtccta gtggacccac gcagccggcg gcgctatgtg cggggccgct 60 ttttgggcaa gggcggcttt gcaaaggtgt tcgagatctc ggacgcggac accaaggag 119 <210> 72 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 72 cagcctcgcc caccagcacg tcgtaggatt ccacggcttt ttcgaggaca acgacttcgt 60 gttcgtggtg ttggagctct gtaggcgggg cgtgagtgtc gctgctgggg aactggaac 119 <210> 73 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 73 ctcccagcct cctccaaatt ccagcctctt gtagtgatgt caagcacccc tgcaggctca 60 gcaactcacc tattttcacc tcgagatctt cattcagcag aaggttgccc agcttgagg 119 <210> 74 <211> 119 <212> DNA <213> Artificial Sequence <220> <223> ssODN donor encoded one amino acid substitution for a validated residue <400> 74 actccagggc tacagcgggt gcttacattg cctcccagac ggtgaagaag gtgatagaga 60 tcaacccata cctgctaggc acaatggctg ggggcgcgga ttgcagcttc tgggaacgg 119 <210> 75 <211> 24 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 75 gtgtttttgt ggtcttatgt ggcc 24 <210> 76 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 76 catgtggttg cagcttaact cac 23 <210> 77 <211> 22 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 77 gatgtgaagc tcgggtgaca tt 22 <210> 78 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 78 tcagcattga caccaagccc ttt 23 <210> 79 <211> 25 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 79 ctgctaacct catctccctt tccag 25 <210> 80 <211> 23 <212> DNA <213> Artificial Sequence <220> <223> Primer for amplification of mutated loci in PSMB5 gene <400> 80 caagcagctg catccaccct ctt 23 <210> 81 <211> 24 <212> DNA <213> Homo sapiens <400> 81 gcagctgact ccagggctac agcg 24 <210> 82 <211> 24 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (19)..(19) <223> n is a, c, g, or t <220> <221> misc_feature <222> (21)..(21) <223> n is a, c, g, or t <400> 82 gcagctgact ccagggctnc ngcg 24 <210> 83 <211> 24 <212> DNA <213> Homo sapiens <400> 83 attgcctccc agacggtgaa gaag 24 <210> 84 <211> 24 <212> DNA <213> Homo sapiens <400> 84 ctaggcacca tggctggggg cgca 24 <210> 85 <211> 24 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (12)..(12) <223> n is a, c, g, or t <400> 85 ctaggcacca tngctggggg cgca 24 <210> 86 <211> 24 <212> DNA <213> Homo sapiens <400> 86 ggcaccatgg ctgggggcgc agcg 24 <210> 87 <211> 24 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (19)..(19) <223> n is a, c, g, or t <220> <221> misc_feature <222> (21)..(21) <223> n is a, c, g, or t <400> 87 ggcaccatgg ctgggggcnc ngcg 24 <210> 88 <211> 24 <212> DNA <213> Homo sapiens <400> 88 ctgttggctc ggcaatgtcg aatc 24 <210> 89 <211> 24 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (17)..(17) <223> n is a, c, g, or t <400> 89 ctgttggctc gccaatnccg aatc 24 <210> 90 <211> 24 <212> DNA <213> Homo sapiens <400> 90 ctctaccacg tgcgggagga tggc 24 <210> 91 <211> 24 <212> DNA <213> Homo sapiens <220> <221> misc_feature <222> (6)..(6) <223> n is a, c, g, or t <220> <221> misc_feature <222> (23)..(23) <223> n is a, c, g, or t <400> 91 ctctancacg tgcgggagga tgnc 24 <210> 92 <211> 8 <212> PRT <213> Homo sapiens <400> 92 Ala Ala Asp Ser Arg Ala Thr Ala 1 5 <210> 93 <211> 8 <212> PRT <213> Homo sapiens <220> <221> MISC_FEATURE <223> X represents N or S <220> <221> misc_feature <222> (5)..(5) <223> Xaa can be any naturally occurring amino acid <400> 93 Ala Ala Asp Ser Xaa Ala Thr Ala 1 5 <210> 94 <211> 8 <212> PRT <213> Homo sapiens <400> 94 Ala Ala Asp Ser Arg Ala Ala Ala 1 5 <210> 95 <211> 8 <212> PRT <213> Homo sapiens <400> 95 Ile Ala Ser Gln Thr Val Lys Lys 1 5 <210> 96 <211> 8 <212> PRT <213> Homo sapiens <220> <221> MISC_FEATURE <223> X represents A or L <220> <221> misc_feature <222> (6)..(6) <223> Xaa can be any naturally occurring amino acid <400> 96 Ile Ala Ser Gln Thr Xaa Lys Lys 1 5 <210> 97 <211> 8 <212> PRT <213> Homo sapiens <400> 97 Leu Gly Thr Met Ala Gly Gly Ala 1 5 <210> 98 <211> 8 <212> PRT <213> Homo sapiens <220> <221> MISC_FEATURE <223> X represents I or V <220> <221> MISC_FEATURE <223> Xaa represents Ile or Val <220> <221> misc_feature <222> (4)..(4) <223> Xaa can be any naturally occurring amino acid <400> 98 Leu Gly Thr Xaa Ala Gly Gly Ala 1 5 <210> 99 <211> 8 <212> PRT <213> Homo sapiens <400> 99 Gly Thr Met Ala Gly Gly Ala Ala 1 5 <210> 100 <211> 8 <212> PRT <213> Homo sapiens <400> 100 Gly Thr Met Ala Gly Gly Thr Ala 1 5 <210> 101 <211> 8 <212> PRT <213> Homo sapiens <400> 101 Leu Leu Ala Arg Gln Cys Arg Ile 1 5 <210> 102 <211> 8 <212> PRT <213> Homo sapiens <400> 102 Leu Leu Ala Arg Gln Phe Arg Ile 1 5 <210> 103 <211> 8 <212> PRT <213> Homo sapiens <400> 103 Leu Tyr His Val Arg Glu Asp Gly 1 5 <210> 104 <211> 8 <212> PRT <213> Homo sapiens <400> 104 Leu Tyr His Val Arg Glu Asp Asp 1 5 <210> 105 <211> 33 <212> DNA <213> Homo sapiens <400> 105 tgactccagg gctacagcgg gtgcttacat tgc 33 <210> 106 <211> 33 <212> DNA <213> Homo sapiens <220> <221> mutation <222> (5)..(6) <223> substitutions <220> <221> mutation <222> (8)..(10) <223> substitutions <400> 106 tgacagcaac gctacagcgg gtgcttacat tgc 33 <210> 107 <211> 33 <212> DNA <213> Homo sapiens <400> 107 gcctcccaga cggtgaagaa ggtgatagag atc 33 <210> 108 <211> 33 <212> DNA <213> Homo sapiens <220> <221> mutation <222> (13)..(15) <223> substitutions <400> 108 gcctcccaga cgttgaagaa ggtgatagag atc 33 <210> 109 <211> 33 <212> DNA <213> Homo sapiens <400> 109 aggcaccatg gctgggggcg cagcggattg cag 33 <210> 110 <211> 33 <212> DNA <213> Homo sapiens <220> <221> mutation <222> (7)..(7) <223> substitution <220> <221> mutation <222> (20)..(22) <223> substitutions <400> 110 aggcacaatg gctgggggca ccgcggattg cag 33 <210> 111 <211> 33 <212> DNA <213> Homo sapiens <400> 111 agcttctggg aacggctgtt ggctcggcaa tgt 33 <210> 112 <211> 33 <212> DNA <213> Homo sapiens <220> <221> mutation <222> (27)..(27) <223> substitution <220> <221> mutation <222> (31)..(33) <223> substitutions <400> 112 agcttctggg aacggctgtt ggctcgccaa ttc 33 <210> 113 <211> 33 <212> DNA <213> Homo sapiens <400> 113 ctctaccacg tgcgggagga tggctggatc cga 33 <210> 114 <211> 33 <212> DNA <213> Homo sapiens <220> <221> mutation <222> (6)..(6) <223> substitution <220> <221> mutation <222> (22)..(24) <223> substitutions <400> 114 ctctatcacg tgcgggagga tgactggatc cga 33

Claims

적어도 하나의 연속 게놈 영역 내에서 복수의 게놈 서열을 표적화할 수 있는 가이드 서열을 포함하는 복수의 CRISPR-Cas 시스템 가이드 RNA를 포함하는 게놈 서열의 기능 요소를 식별하기 위해 사용되는 라이브러리로서,
상기 가이드 RNA는 상기 연속 게놈 영역 내의 모든 1000개의 염기쌍에 대한 PAM 서열의 상류에 비중첩 분절 부위를 포함하는 적어도 100개의 게놈 서열을 표적으로 하는 라이브러리.
제 1 항에 있어서,
상기 라이브러리는 상기 연속 게놈 영역 내의 모든 PAM 서열의 상류에 게놈 서열을 표적으로 하는 가이드 RNA를 포함하는 라이브러리.
제 1 항 또는 제 2 항에 있어서,
각각의 상기 가이드 RNA는 DSB 부위 주위의 약 10bp에 영향을 미치도록 설계된 라이브러리.
제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
상기 PAM 서열은 적어도 하나의 Cas 단백질에 특이적인 라이브러리.
제 1 항 내지 제 4 항 중 어느 한 항에 있어서,
상기 CRISPR-Cas 시스템 가이드 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나를 초과하는 PAM 서열에 근거하여 선택되는 라이브러리.
제 1 항 내지 제 5 항 중 어느 한 항에 있어서,
상기 표적화는 상기 연속 게놈 영역의 NHEJ를 초래하는 라이브러리.
제 1 항 내지 제 6 항 중 어느 한 항에 있어서,
세포 표현형은 변경되고, 및/또는 유전자의 전사 및/또는 발현은 상기 복수의 CRISPR-Cas 시스템 가이드 RNA 내의 적어도 하나의 가이드 RNA에 의한 상기 표적화에 의해 증가 또는 감소되는 라이브러리.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
플라스미드 라이브러리 또는 바이러스 라이브러리인 라이브러리.
제 1 항 내지 제 7 항 중 어느 한 항에 있어서,
벡터 라이브러리 또는 숙주 세포 라이브러리인 라이브러리.
(a) 제 1 항 내지 제 9 항 중 어느 한 항에 기재된 라이브러리를 적어도 하나의 Cas 단백질을 함유하도록 적합화된 세포의 집단에 도입하는 단계로서, 상기 집단의 각각의 세포는 하나 이하의 가이드 RNA를 함유하는 단계;
(b) 세포 표현형의 변화에 근거하여 상기 세포를 적어도 2개의 그룹으로 분류하는 단계;
(c) 각 그룹에 존재하는 상기 가이드 RNA의 상대적 표현을 결정함으로써, 상기 세포 표현형의 변화와 관련된 게놈 부위가 각 그룹에 존재하는 가이드 RNA의 표현에 의해 결정되는 단계;
(d) 시퀀싱을 위해 표적화된 하나 이상의 유전자의 하나 이상의 cDNA 또는 DNA 서열을 증폭하는 단계;
(e) 시퀀싱 해독을 표적 유전자의 참조 서열에 맵핑하는 단계;
(f) 미스센스 돌연변이 또는 해독틀내 결실만을 보유하는 것들을 유지하도록 상기 해독을 필터링하는 단계; 및
(g) 생물정보학 파이프라인을 적용함으로써, 상기 세포 표현형에 대한 각각의 아미노산 또는 뉴클레오티드산의 가중치를 결정하는 단계를 포함하는 게놈 서열의 기능 요소를 식별하는 방법.
제 10 항에 있어서,
상기 세포 표현형의 변화는 기능 상실, 기능 획득, 유전자 전사 감소, 유전자 전사 증가, 유전자 발현 감소 및 유전자 발현 증가로 이루어진 군에서 선택되는 방법.
제 10 항 또는 제 11 항에 있어서,
상기 게놈 서열은 기능 단백질을 인코딩하기 위한 것인 방법.
제 12 항에 있어서,
단일 아미노산 해상도에서 단백질의 기능 요소를 식별하기 위한 방법.
제 10 항 또는 제 11 항에 있어서,
상기 게놈 서열은 비-코딩 RNA 또는 유전적 조절 요소를 인코딩하기 위한 것인 방법.
제 14 항에 있어서,
상기 유전적 조절 요소는 프로모터 또는 인핸서인 방법.
제 10 항 내지 제 15 항 중 어느 한 항에 있어서,
상기 식별은 본래의 생물학적 맥락에서 이루어지는 것인 방법.
제 10 항 내지 제 16 항 중 어느 한 항에 있어서,
상기 생물정보학 파이프라인은:
(h) 미스센스 돌연변이를 포함하는 단편의 경우, 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산하는 단계:

(i) 해독틀내 결실을 포함하는 단편의 경우, 각각의 아미노산의 결실 비율을 다음과 같이 계산하는 단계:

(j) 해독틀내 결실을 디코딩하고, 또한 아미노산 결실의 수에 근거하여 해독틀내 결실을 단일 아미노산 결실만 포함하는 경우에는 "드라이버 결실"로, 또는 다수의 아미노산 결실을 포함하는 경우에는 "패신저 결실"로 분류하는 단계,
(k) 실험군과 대조군 사이의 배수 변화를 계산하는 단계,
(l) 각각의 아미노산에 대한 필수 스코어가 다음과 같이 계산되는 단계로서:
(1) 돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_돌연변이= -log10(P-값)이 계산되고,
(2) 결실 배수 변화의 경우, 우선 조정 가능한 파라미터 α가 다음과 같이 드라이버 결실 및 패신저 결실에 가중치를 가하기 위해 적용되고:
결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화이고, 그 다음 100배의 순열을 통해 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_결실= -log10(P-값)이 계산되고,
(3) 스코어_돌연변이 및 스코어_결실이 다음과 같이 정규화되고:

(4) 스코어_돌연변이 및 스코어_결실의 가중치가 다음과 같이 계산되고:
a = 결실 배수 변화가 있는 아미노산의 수 > 1
b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

(5) 필수 스코어가 다음과 같이 계산되는 단계를 포함하는 방법.
필수 스코어 = W_GHIJIKLM * 스코어_GHIJIKLM + W_STUTIKLM * 스코어_STUTIKLM.
(a) 제 1 항 내지 제 17 항 중 어느 한 항에 기재된 라이브러리를 Cas 단백질을 함유하도록 적합화된 세포의 집단에 도입하는 단계로서, 상기 집단의 각각의 세포는 하나 이하의 가이드 RNA를 함유하는 단계;
(b) 상기 세포 집단을 약물 또는 독소로 처리하고, 상기 약물 또는 독소에 대한 내성 변화에 근거하여 상기 세포를 적어도 2개의 그룹으로 분류하는 단계;
(c) 각 그룹에 존재하는 가이드 RNA의 상대적 표현을 결정함으로써, 상기 내성 변화와 관련된 게놈 부위가 각 그룹에 존재하는 가이드 RNA의 표현에 의해 결정되는 단계;
(d) 시퀀싱을 위해 표적화된 하나 이상의 유전자의 하나 이상의 cDNA 또는 DNA 서열을 증폭하는 단계;
(e) 시퀀싱 해독을 표적 유전자의 참조 서열에 맵핑하는 단계;
(f) 미스센스 돌연변이 또는 해독틀내 결실만을 보유하는 것들을 유지하도록 해독을 필터링하는 단계; 및
(g) 생물정보학 파이프라인을 적용함으로써, 상기 약물 또는 독소에 대한 내성에 대한 각각의 아미노산 또는 뉴클레오티드산의 가중치를 결정하는 단계를 포함하는 약물 또는 독소에 대한 내성과 관련된 기능 요소를 스크리닝하는 방법.
제 18 항에 있어서,
상기 게놈 서열은 기능 단백질을 인코딩하기 위한 것인 방법.
제 19 항에 있어서,
단일 아미노산 해상도에서 상기 단백질의 기능 요소를 식별하기 위한 방법.
제 18 항에 있어서,
상기 게놈 서열은 비-코딩 RNA 또는 유전적 조절 요소를 인코딩하기 위한 것인 방법.
제 21 항에 있어서,
상기 유전적 조절 요소는 프로모터 또는 인핸서인 방법.
제 18 항 내지 제 22 항 중 어느 한 항에 있어서,
상기 식별은 본래의 생물학적 맥락에 있는 방법.
제 18 항 내지 제 23 항 중 어느 한 항에 있어서,
상기 세포의 집단은 적어도 하나의 연속 영역 내에서 복수의 게놈 서열을 표적화할 수 있는 가이드 서열을 포함하는 복수의 가이드 RNA 내에 도입되고,
상기 가이드 RNA는 상기 연속 게놈 영역 내의 모든 1000개의 염기쌍에 대한 PAM 서열의 상류에 비중첩 분절 부위를 포함하는 적어도 100개의 게놈 서열을 표적으로 하는 방법.
제 24 항에 있어서,
각각의 상기 가이드 RNA는 DSB 부위 주위의 약 10bp에 영향을 미치도록 설계된 방법.
제 24 항 또는 제 25 항에 있어서,
상기 PAM 서열은 적어도 하나의 Cas 단백질에 특이적인 방법.
제 24 항 내지 제 26 항 중 어느 한 항에 있어서,
상기 CRISPR-Cas 시스템 가이드 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나를 초과하는 PAM 서열에 근거하여 선택되는 방법.
제 18 항 내지 제 27 항 중 어느 한 항에 있어서,
상기 생물정보학 파이프라인은:
(h) 미스센스 돌연변이를 포함하는 단편의 경우, 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산하는 단계:

(i) 해독틀내 결실을 포함하는 단편의 경우, 각각의 아미노산의 결실 비율을 다음과 같이 계산하는 단계:

(j) 해독틀내 결실을 디코딩하고, 또한 아미노산 결실의 수에 근거하여 해독틀내 결실을 단일 아미노산 결실만 포함하는 경우에는 "드라이버 결실"로, 또는 다수의 아미노산 결실을 포함하는 경우에는 "패신저 결실"로 분류하는 단계,
(k) 실험군과 대조군 사이의 배수 변화를 계산하는 단계,
(l) 각각의 아미노산에 대한 필수 스코어가 다음과 같이 계산되는 단계로서:
(1) 돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_돌연변이 = -log10(P-값)이 계산되고,
(2) 결실 배수 변화의 경우, 우선 조정 가능한 파라미터 α가 다음과 같이 드라이버 결실 및 패신저 결실에 가중치를 가하기 위해 적용되고:
결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화이고, 그 다음 100배의 순열을 통해 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_결실= -log10(P-값)이 계산되고,
(3) 스코어_돌연변이 및 스코어_결실이 다음과 같이 정규화되고:

(4) 스코어_돌연변이 및 스코어_결실의 가중치가 다음과 같이 계산되고:
a = 결실 배수 변화가 있는 아미노산의 수 > 1
b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

(5) 필수 스코어가 다음과 같이 계산되는 단계를 포함하는 방법.
필수 스코어 = W_GHIJIKLM * 스코어_GHIJIKLM + W_STUTIKLM * 스코어_STUTIKLM.
세포의 집단에 도입된 CRISPR-Cas 시스템을 사용하여 단백질을 코딩하는 게놈 유전자를 파괴함으로써 관심 단백질에 포화 돌연변이유발을 수행하는 단계, 표적 유전자의 DNA 및 cDNA를 시퀀싱함으로써 표현형의 변화와 관련된 파괴된 게놈 부위를 결정하는 단계, 상기 표현형의 변화를 발생시키는 해독틀내 돌연변이를 검색하는 단계, 및 단일 아미노산 해상도에서 상기 관심 단백질의 기능 요소를 식별하기 위해 생물정보학 파이프라인을 구축하는 단계를 포함하는 관심 단백질의 기능 요소를 식별하는 방법.
제 29 항에 있어서,
상기 관심 단백질에 대한 기능 요소의 식별은 그것의 본래의 생물학적 맥락 내인 방법.
제 29 항 또는 제 30 항에 있어서,
상기 해독틀내 돌연변이는 해독틀내 결실 및 미스센스 점 돌연변이인 방법.
제 29 항 내지 제 31 항 중 어느 한 항에 있어서,
상기 세포 표현형의 변화는 기능 상실, 기능 획득, 유전자 전사 감소, 유전자 전사 증가, 유전자 발현 감소, 및 유전자 발현 증가로 이루어진 군에서 선택되는 방법.
제 29 항 내지 제 32 항 중 어느 한 항에 있어서,
단일 아미노산 해상도에서 단백질에 대한 기능 요소를 식별하기 위한 방법.
제 29 항 내지 제 33 항 중 어느 한 항에 있어서,
상기 파괴는,
I. 조절 요소에 조작 가능하게 연결된 Cas 단백질 또는 Cas 단백질을 인코딩하는 폴리뉴클레오티드 서열, 및
Ⅱ. 상기 관심 단백질을 코딩하는 게놈 유전자를 표적으로 하는 가이드 RNA를 포함하는 조작된, 비천연 발생 CRISPR-Cas 시스템을 포함하는 하나 이상의 벡터의 벡터 시스템을 상기 세포의 집단의 각각의 세포에 도입하는 단계를 포함하고,
여기서, 상기 성분 I 및 II는 동일하거나 또는 상이한 벡터 상에 있고, 또한 전사된, 가이드 서열을 포함하는 가이드 RNA는 CRISPR-Cas 시스템의 서열-특이적 결합을 게놈 유전자의 표적 서열로 안내하여, 상기 Cas 단백질에 의해 연속 게놈 영역의 분절을 유도하는 방법.
제 34 항에 있어서,
상기 하나 이상의 벡터는 플라스미드 벡터인 방법.
제 34 항 또는 제 35 항에 있어서,
상기 조절 요소는 유도성 프로모터인 방법.
제 29 항 내지 제 36 항 중 어느 한 항에 있어서,
상기 집단의 각각의 세포는 하나 이하의 가이드 RNA를 함유하고, 또한 상기 세포의 집단에 도입된 복수의 가이드 RNA는 상기 관심 단백질을 코딩하는 적어도 하나의 연속 게놈 영역 내에서 복수의 게놈 서열을 표적화할 수 있는 가이드 서열을 포함하고,
상기 가이드 RNA는 상기 연속 게놈 영역 내의 모든 1000개의 염기쌍에 대한 PAM 서열의 상류에 비중첩 분절 부위를 포함하는 적어도 100개의 게놈 서열을 표적으로 하는 방법,
제 37 항에 있어서,
각각의 상기 가이드 RNA는 DSB 부위 주위의 약 10bp에 영향을 미치도록 설계되는 방법.
제 37 항 또는 제 38 항에 있어서,
상기 PAM 서열은 적어도 하나의 Cas 단백질에 특이적인 방법.
제 29 항 내지 제 39 항 중 어느 한 항에 있어서,
상기 CRISPR-Cas 시스템 가이드 RNA는 적어도 하나의 Cas 단백질에 특이적인 하나를 초과하는 PAM 서열에 근거하여 선택되는 방법.
제 29 항 내지 제 40 항 중 어느 한 항에 있어서,
상기 생물정보학 파이프라인은:
생물정보학 도구를 사용하여 상기 표적 유전자의 참조 서열에 시퀀싱 해독을 맵핑하고,
미스센스 돌연변이 또는 해독틀내 결실만 보유하는 것들을 유지하기 위해 해독을 필터링하고,
미스센스 돌연변이를 포함하는 단편의 경우, 각각의 아미노산의 돌연변이 비율을 다음과 같이 계산하고:

ii) 해독틀내 결실을 포함하는 단편의 경우, 각각의 아미노산의 결실 비율을 다음과 같이 계산하고:

ii) 해독틀내 결실을 디코딩하고, 또한 아미노산 결실의 수에 근거하여 해독틀내 결실을 단일 아미노산 결실만 포함하는 경우에는 "드라이버 결실"로, 또는 다수의 아미노산 결실을 포함하는 경우에는 "패신저 결실"로 분류하고,
iii) 실험군과 대조군 사이의 배수 변화를 계산하고,
iv) 각각의 아미노산에 대한 필수 스코어를 다음과 같이 계산하고:
(1) 돌연변이 배수 변화의 경우, 모든 배수 변화를 근거로 해서 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_{돌연변이= -}log10(P-값)이 계산되었으며,
(2) 결실 배수 변화의 경우, 우선 조정 가능한 파라미터 α가 다음과 같이 드라이버 결실 및 패신저 결실에 가중치를 가하기 위해 적용되고,
결실 배수 변화 = 드라이버 배수 변화 + α * 패신저 배수 변화이고, 그 다음 100배의 순열을 통해 null 분포가 구축되고, 각각의 아미노산에 대해 스코어_{결실= -}log10(P-값)이 계산되고,
(3) 스코어_돌연변이 및 스코어_결실이 다음과 같이 정규화되고:

(4) 스코어_돌연변이 및 스코어_결실의 가중치가 다음과 같이 계산되고:
a = 결실 배수 변화가 있는 아미노산의 수 > 1
b = 돌연변이 배수 변화가 있는 아미노산의 수 > 1

(5) 필수 스코어가 다음과 같이 계산되는 것을 포함하는 방법.
필수 스코어 = W_GHIJIKLM * 스코어_GHIJIKLM + W_STUTIKLM * 스코어_STUTIKLM.
제 41 항에 있어서,
상기 필수 스코어에 따른 기능적 중요성에 근거하여 아미노산을 순위 매기는 단계를 추가로 포함하는 방법.