TW202039845A

TW202039845A - 使用加標籤的嚮導rna構建體進行高效基因篩選的組合物和方法

Info

Publication number: TW202039845A
Application number: TW108146898A
Authority: TW
Inventors: 魏文勝; 朱詩優; 曹中正; 劉志恒; 何苑; 袁鵬飛
Original assignee: 北京大學; 大陸商博雅緝因（北京）生物科技有限公司
Priority date: 2018-12-20
Filing date: 2019-12-20
Publication date: 2020-11-01
Also published as: CN111349654B; CN111349654A

Abstract

本發明提供了使用一組或多組具有內部標籤（“iBAR”）的嚮導RNA構建體進行基因篩選的組合物、試劑盒和方法。每組具有三個或更多個靶向相同基因組基因座的嚮導RNA構建體，但嵌入有不同的iBAR序列。

Description

使用加標籤的嚮導RNA構建體進行高效基因篩選的組合物和方法

本發明涉及使用具有內部標籤（“iBAR”）的嚮導RNA構建體進行基因篩選的組合物，試劑盒和方法。

CRISPR / Cas9系統實現了以高的效率和特異性在靶標基因組位點上進行編輯^1-2 。其為數眾多的用途之一是通過將高通量彙集測序與二代測序（“NGS”）分析相結合來鑒定出編碼基因、非編碼RNA和調節元件的功能。通過將彙集的單嚮導RNA（“sgRNA”）或配對嚮導RNA（“pgRNA”）的文庫引入至表達Cas9的細胞或者與效應子結構域融合的無催化活性的Cas9（dCas9），研究人員可以通過產生多種突變、大的基因組缺失、轉錄啟動或轉錄抑制來實施多重基因篩選。

為了在任何給定的彙集的CRISPR篩選中產生高品質的gRNA細胞庫，必須在細胞庫構建期間使用低的感染複數（“MOI”）來確保每個細胞平均收納少於1個sgRNA或pgRNA以使該篩選的假陽性率（FDR）^6,10,11 最小化。為了進一步降低FDR並提高資料重現性，通常需要深入覆蓋gRNA和多個生物學複本以獲得帶有高統計學意義的命中基因，這會導致工作量增加。當實施大量的全基因組篩選時，當用於文庫構建的細胞材料有限時，或者當進行更具挑戰性的篩選（例如體內篩選）時難以獲得實驗複本或控制MOI時，可能出現額外的困難。仍然迫切需要用於真核細胞中大規模靶鑒定的可靠且高效的篩選策略。

本文提及的所有出版物，專利，專利申請和已公開的專利申請的披露均通過引用其整體而併入本文。

本申請提供了用於通過CRISPR-Cas基因編輯系統進行基因篩選的嚮導RNA構建體、文庫、組合物和試劑盒，以及基因篩選的方法。

本申請的一個方面提供了一組sgRNA^iBAR 構建體，其包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼一個sgRNA^iBAR ，其中每個sgRNA^iBAR 都具有包含嚮導序列和內部標籤（“ iBAR“）序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶標基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個sgRNA^iBAR 的iBAR序列是彼此不同的。並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶標基因組基因座。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸，例如約2-20個核苷酸或約3-10個核苷酸。在一些實施方案中，每個嚮導序列包含約17-23個核苷酸。

在根據上述任一組sgRNA^iBAR 構建體的一些實施方案中，其中每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區，並且其中iBAR序列位於第一莖序列和第二莖序列之間。在根據上述任一組sgRNA^iBAR 構建體的一些實施方案中，其中每個sgRNAiBAR序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交形成與Cas蛋白相互作用的雙鏈RNA區，並且其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。

在根據上述任一組sgRNA^iBAR 構建體的一些實施方案中，Cas蛋白是Cas9。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列位於重複-反-重複莖環的環區域中。在一些實施方案中，將每個sgRNA^iBAR 序列的iBAR序列插入重複-反-重複莖環的環區域中。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列位於莖環1、莖環2或莖環3的環區域中。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列插入莖環1、莖環2或莖環3的環區域中。

在根據上述任一組sgRNA^iBAR 構建體的一些實施方案中，每個sgRNA^iBAR 構建體是質粒。在一些實施方案中，每個sgRNA^iBAR 構建體是病毒載體，例如慢病毒載體。

[0010]本申請的一個方面提供了sgRNA^iBAR 文庫，其包含根據上述任一組sgRNA^iBAR 構建體的多組sgRNA^iBAR 構建體，其中每個組對應與不同靶標基因組基因座互補的嚮導序列。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000（例如至少約2000、5000、10000、15000、20000或更多）組的sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，不同組的sgRNA^iBAR 構建體具有iBAR序列的不同組合。

本申請的一個方面提供了製備包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫的方法，其中每個組對應多個嚮導序列中的一個，每個嚮導序列與不同的靶標基因組基因座互補，其中所述方法包括：a）為每個嚮導序列設計三個或更多（例如四個）sgRNA^iBAR 構建體，其中每個sgRNA^iBAR 構建體包含或編碼具有包含相應嚮導序列和iBAR序列的sgRNA^iBAR 序列的sgRNA^iBAR ，其中對應於三個或更多個sgRNA^iBAR 構建體中每個sgRNA^iBAR 構建體的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾相應的靶標基因組基因座; b）合成每個sgRNA^iBAR 構建體，從而產生sgRNA^iBAR 文庫。在一些實施方案中，該方法還包括提供多個嚮導序列。

在根據上述任一製備方法的一些實施方案中，每個iBAR序列包含約1-50個核苷酸，例如約2-20個核苷酸或約3-10個核苷酸。在一些實施方案中，每個嚮導序列包含約17-23個核苷酸。

在根據上述任一製備方法的一些實施方案中，其中每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列位於第一莖序列和第二莖序列之間。在根據上述任一製備方法的一些實施方案中，其中每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區，並且其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。

在根據上述任一製備方法的一些實施方案中，Cas蛋白是Cas9。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列位於重複-反-重複莖環的環區域中。在一些實施方案中，將每個sgRNA^iBAR 序列的iBAR序列插入重複-反-重複莖環的環區域中。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列位於莖環1、莖環2或莖環3的環區域中。在一些實施方案中，每個sgRNA^iBAR 序列的iBAR序列插入莖環1、莖環2或莖環3的環區域中。

在根據上述任一製備方法的一些實施方案中，每個sgRNA^iBAR 構建體是質粒。在一些實施方案中，每個sgRNA^iBAR 構建體是病毒載體，例如慢病毒載體。

還提供了使用根據上述任一製備方法的方法製備的sgRNA^iBAR 文庫，以及包含上述任一組sgRNA^iBAR 構建體或上述任一sgRNA^iBAR 文庫的組合物。

本申請的另一方面提供了篩選調節（modulate）細胞表型的基因組基因座的方法，包括：a）使初始細胞群接觸i）如上所述的sgRNA^iBAR 文庫中的任一sgRNA^iBAR 文庫並且可選ii）包含Cas蛋白或編碼Cas蛋白的核酸的Cas組分，條件是允許將sgRNA^iBAR 構建體和可選的Cas組分引入細胞中以提供修飾的細胞群; b）從經修飾的細胞群中選擇出具有經調節的表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，細胞是真核細胞，諸如哺乳動物細胞。在一些實施方案中，初始細胞群表達Cas蛋白。

[0018]在根據上述任一篩選方法的一些實施方案中，每個sgRNA^iBAR 構建體是病毒載體，並且其中sgRNA^iBAR 文庫以大於約2（例如3、4、5、6、7、8、9、10或更高）的感染複數（MOI）接觸初始細胞群。在一些實施方案中，將sgRNA^iBAR 文庫中大於約95%（例如大於約97%，98%，99%或更高）的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，該篩選以大於約1000倍（例如2000倍，3000倍，5000倍或更高）的覆蓋率進行。

在根據上述任一篩選方法的一些實施方案中，該篩選是陽性篩選。在一些實施方案中，該篩選是陰性篩選。

在根據上述篩選方法中的任一個的一些實施方案中，表型指蛋白質表達，RNA表達，蛋白質活性或RNA活性。在一些實施方案中，表型選自細胞死亡，細胞生長，細胞運動性，細胞代謝，藥物抗性，藥物敏感性和對刺激因數的回應。在一些實施方案中，表型是對刺激因數的回應，並且其中所述刺激因數選自激素，生長因數，炎性細胞因數，抗炎細胞因數，藥物，毒素和轉錄因數。

在根據上述任一篩選方法的一些實施方案中，sgRNA^iBAR 序列通過基因組測序或RNA測序獲得。在一些實施方案中，sgRNA^iBAR 序列通過二代測序(next-generation sequencing)獲得。

在根據上述篩選方法中的任一個的一些實施方案中，序列計數經歷中值比率歸一化，然後進行均值-方差建模。在一些實施方案中，基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的方差。在一些實施方案中，將從所選擇細胞群獲得的序列計數與從對照細胞群獲得的相應序列計數進行比較，以提供倍數變化。在一些實施方案中，基於每個iBAR序列的倍數變化的方向確定所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性，其中如果iBAR序列的倍數變化相對於彼此處於相反的方向，則該嚮導序列的方差增加。

在根據上述任一篩選方法的一些實施方案中，該方法還包括：驗證鑒定出的基因組基因座。

還提供了用於篩選調節細胞表型的基因組基因座的試劑盒和製品，其包含上述任一種sgRNA^iBAR 文庫。在一些實施方案中，試劑盒或製品還包含Cas蛋白或編碼Cas蛋白的核酸。

本申請提供了使用具有內部標籤（iBAR）的嚮導RNA組進行基因篩選的組合物和方法。嚮導RNA靶向特定的基因組基因座，並與三個或更多個iBAR序列相關連。包含多個嚮導RNA組（每個靶向不同的基因組基因座）的嚮導RNA文庫可用於基於CRISPR / Cas的篩選，以鑒定出調節彙集細胞庫中表型的基因組基因座。本文描述的篩選方法具有降低的錯誤發現率(false discovery rate)，因為iBAR序列允許在單個實驗中分析對應於每組嚮導RNA構建體的經過基因編輯的複本樣品。低的錯誤發現率還能夠通過將嚮導RNA文庫病毒轉導至高感染複數（MOI）的細胞來實現產生高效的細胞庫。

本文描述的實驗資料證明iBAR方法在高通量篩選中特別有利。常規的CRISPR / Cas篩選方法通常是勞動密集型的，因為當產生細胞庫時需要低的感染複數（MOI）用於慢病毒轉導，以及多個生物學複本以最小化錯誤發現率。相比之下，iBAR方法產生的篩選結果具有低得多的假陽性和假陰性率，並允許使用高MOI生成細胞庫。例如，與具有0.3的低MOI的常規CRISPR / Cas篩選相比，iBAR方法可以將起始細胞數量減少超過20倍（例如MOI為3）至超過70倍（例如MOI為10），同時保持高效率和準確性。iBAR系統特別適用於下述基於細胞的篩選，其中細胞可用量有限，或者用於體內篩選，其中病毒對特定細胞或組織的感染難以在低MOI下控制。

因此，本申請的一個方面提供了sgRNA^iBAR 構建體組，其包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和內部標籤（“iBAR”）的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座。

本申請的一個方面提供了包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫，其中每組sgRNA^iBAR 構建體包含三個或更多個sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座，並且其中每組sgRNA^iBAR 構建體對應於與不同靶基因組基因座互補的嚮導序列。

還提供了篩選調節(modulate)細胞表型的基因組基因座的方法，包括：a）使初始細胞群接觸i）包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫，其中每組sgRNA^iBAR 構建體包含三個或更多個sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中對於三個或更多個sgRNA^iBAR 構建體嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座，並且其中每組sgRNA^iBAR 構建體對應於與不同靶基因組基因座互補的嚮導序列;並且可選ii）包含Cas蛋白或編碼Cas蛋白的核酸的Cas組分，條件是允許將sgRNA^iBAR 構建體和可選的Cas組分引入細胞中以提供經修飾的細胞群; b）從經修飾的細胞群中選擇具有調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。

定義

將參照特定實施例並參考某些附圖來描述本發明，但是本發明不限於此。請求項中的任何附圖標記不應被解釋為限制範圍。在附圖中，為了說明的目的，一些元件的尺寸可能被誇大並且未按比例繪製。除非另外定義，否則本文使用的所有技術和科學術語具有與本領域普通技術人員通常理解的含義相同的含義。如有衝突，以本檔（包括定義）為准。優選的方法和材料如下所述，儘管與本文所述的那些類似或等同的方法和材料可用於實踐或測試本發明。本文提及的所有出版物、專利申請、專利和其他參考文獻都通過引用其整體而併入。本文公開的材料、方法和實施例僅是說明性的而非限制性的。

如本文所用，“內部標籤”或“iBAR”是指插入或附加於分子的標識，其可用於追蹤分子的特性和性能。例如，iBAR可以是插入或附加到CRISPR / Cas系統的嚮導RNA的短核苷酸序列，如本發明所例示。多個iBAR可用於在一個實驗中追蹤單個嚮導RNA序列的性能，從而提供用於統計分析的複本資料，而無需重複該實驗。

表述“iBAR序列置於環區”是指iBAR序列插入環區的任何兩個核苷酸之間、插入環區的5'或3'末端或取代環區的一個或多個核苷酸。

“CRISPR系統”或“CRISPR / Cas系統”統稱為參與表達和/或嚮導CRISPR相關（“Cas”）基因活性的轉錄物和其他元件。例如，CRISPR / Cas系統可包括編碼Cas基因的序列，tracr（反式啟動CRISPR）序列（例如tracrRNA或活性部分tracrRNA），tracr-伴侶序列(tracr-mate sequence)（例如在內源CRISPR系統中包含“直接重複”和tracrRNA加工的部分直接重複），嚮導序列（在內源CRISPR系統中也稱為“間隔區”），以及衍生自CRISPR基因座的其他序列和轉錄物。

在形成CRISPR複合物的背景下，“靶序列”是指嚮導序列被設計為具有互補性的序列，其中靶序列和嚮導序列之間的雜交促進CRISPR複合物的形成。如果存在足夠的互補性以引起雜交並促進CRISPR複合物的形成，則不一定需要完全互補。靶序列可包含任何多核苷酸，例如DNA或RNA多核苷酸。CRISPR複合物可包含與靶序列雜交的嚮導序列並與一種或多種Cas蛋白複合。

術語“嚮導序列”是嚮導RNA中的連續核苷酸序列，其與靶多核苷酸中的靶序列具有部分或完全互補性，並且可以通過Cas蛋白促進的堿基配對與靶序列雜交。在CRISPR / Cas9系統中，靶序列與PAM位點相鄰。 PAM序列及其在另一條鏈上的互補序列一起構成PAM位點。

術語“單嚮導RNA”，“合成嚮導RNA”和“sgRNA”可互換使用，是指包含嚮導序列和任何其它序列的多核苷酸序列，所述其它序列是sgRNA功能所必需的和/或sgRNA與一種或多種Cas蛋白相互作用形成CRISPR複合物所必需的。具有。在一些實施方案中，sgRNA包含與第二序列融合的嚮導序列，所述第二序列包含衍生自tracr RNA的tracr序列和衍生自crRNA的tracr伴侶序列。 tracr序列可以包含來自天然存在的CRISPR / Cas系統的tracrRNA的全部或部分序列。術語“嚮導序列”是嚮導RNA中指定靶位點的核苷酸序列，並且可與術語“嚮導”或“間隔區”互換使用。術語“tracr 伴侶序列”也可與術語“直接重複”互換使用。如本文所用，“sgRNA^iBAR ”是指具有iBAR序列的單嚮導RNA。

術語“可與Cas蛋白合作”是指嚮導RNA可與Cas蛋白相互作用以形成CRISPR複合物。

如本文所用，術語“野生型”是本領域技術人員理解的術語，並且是指生物體，菌株，基因或特徵的典型形式，因為它在自然界中發生，區別於突變體或變體形式。

如本文所用，術語“變體”應理解為表現出具有偏離自然界中發生模式的品質展示。

“互補性”是指核酸通過傳統的Watson-Crick堿基配對或其他非傳統類型與另一種核酸序列形成氫鍵的能力。百分比互補性表示核酸分子中可以與第二核酸序列形成氫鍵（例如Watson-Crick堿基配對）的殘基的百分比（例如10中的5、6、7、8、9、10個為50%%，60%%，70%%，80%%，90%和100%互補）。 “完全互補”意指核酸序列的所有連續殘基與第二核酸序列中相同數量的連續殘基形成氫鍵。如本文所用，“基本上互補”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、 35、40、45、50個或更多個核苷酸區域互補程度為至少60%，65%，70%，75%，80%，85%，90%，95%，97%，98%，99%或指兩個核酸在嚴格條件下雜交。

如本文所用，雜交的“嚴格條件”是指與靶序列具有互補性的核酸主要與靶序列雜交並且基本上不與非靶序列雜交的條件。嚴格條件通常是序列依賴性的，並且取決於許多因素而變化。通常，序列越長，序列與其靶序列特異性雜交的溫度越高。Tijssen（1993），Laboratory Techniques In Biochemistry And Molecular Biology-Hybridization With Nucleic Acid Probes Part 1，Second Chapter“Principles of principles of hybridization and the strategy of nucleic acid probe assay”，Elsevier，NY中詳細描述了嚴格條件的非限制性實例。

“雜交”是指其中一個或多個多核苷酸形成通過核苷酸殘基的堿基之間的氫鍵穩定的複合物的反應。氫鍵可以通過Watson Crick堿基配對，Hoogstein結合或以任何其他序列特異性的方式發生。複合物可包含形成雙螺旋結構的雙鏈，形成多鏈複合物的三條或更多條鏈，單一自雜交鏈或這些的任何組合。雜交反應可以構成更廣泛過程中的步驟，例如PCR的起始，或酶對多核苷酸的剪切。能夠與給定序列雜交的序列稱為給定序列的“互補序列”。

如本文所用的“構建體”是指核酸分子（例如，DNA或RNA）。例如，當在sgRNA的上下文中使用時，構建體是指包含sgRNA分子的核酸分子或編碼sgRNA的核酸分子。當在蛋白質的上下文中使用時，構建體是指包含可以轉錄成RNA或表達為蛋白質的核苷酸序列的核酸分子。構建體可含有與核苷酸序列可操作連接的必需調節元件，當構建體存在於宿主細胞中時，所述調節元件允許核苷酸序列的轉錄或表達。

如本文所用，“可操作地連接”是指基因的表達處於與其空間連接的調節元件（例如啟動子）的控制下。調節元件可位於其控制下的基因的5'（上游）或3'（下游）。調節元件（例如啟動子）和基因之間的距離可以與該調節元件（例如啟動子）與其天然控制的基因之間的距離大致相同，並且調節元件來源於該基因。如本領域已知的，可以適應該距離的變化而不損失調節元件（例如啟動子）中的功能。

術語“載體”用於描述可以被工程化以含有可以在宿主細胞中擴增的克隆的一種多核苷酸或多種多核苷酸的核酸分子。載體包括但不限於：單鏈，雙鏈或部分雙鏈的核酸分子; 包含一個或多個游離末端，沒有游離末端（例如環狀）的核酸分子; 包含DNA，RNA或兩者的核酸分子; 以及本領域已知的其他多核苷酸種類。一種類型的載體是“質粒”，其是指可以插入額外DNA片段的環狀雙鏈DNA環，例如通過標準分子克隆技術。某些載體能夠在引入它們的宿主細胞中自主複製（例如，具有細菌複製起點的細菌載體和游離型哺乳動物載體）。其他載體（例如，非游離型哺乳動物載體）在引入宿主細胞後整合到宿主細胞的基因組中，從而與宿主基因組一起複製。此外，某些載體能夠指導它們可操作地連接的那些基因的表達。此類載體在本文中稱為“表達載體”。重組表達載體可以包含適於在宿主細胞中表達核酸的形式的本發明的核酸，這意味著重組表達載體包括一種或多種調節元件，其可以基於用於表達的、可以與待表達的核酸序列可操作地連接的宿主細胞來選擇。

“宿主細胞”是指可以是或已經是載體或分離的多核苷酸的受體的細胞。宿主細胞可以是原核細胞或真核細胞。在一些實施方案中，宿主細胞是真核細胞，其可以在體外培養並使用本文描述的方法進行修飾。術語“細胞”包括原代受試細胞及其後代。

“感染複數”或“MOI”在本文中可互換使用，是指製劑（例如，噬菌體，病毒或細菌）與其感染靶（例如細胞或生物體）的比率。例如，當提及接種病毒顆粒的一組細胞時，感染複數或MOI是指在病毒轉導期間病毒顆粒（例如包含sgRNA文庫的病毒顆粒）的數量與混合物中存在的靶細胞的數量之間的比率。

如本文所用的細胞的“表型”是指細胞的可觀察特徵或性狀，例如其形態，發育，生物化學或生理學特性，物候節律或行為。表型可能來自細胞中基因的表達，環境因素的影響，或兩者之間的相互作用。

當在本說明書和請求項中使用術語“包括”時，不排除其他元件或步驟。

應理解，本文描述的本發明的實施方案包括“由......組成”和/或“基本上由......組成”的實施方案。

本文提及“約”某值或參數時包括了（並描述了）針對該值或參數本身的變化。例如，涉及“約X”的描述包括“X”的描述。

如本文所使用的，提及“非”某值或參數通常表示並描述“除了”某值或參數。例如，該方法不用於治療X型癌症，意味著該方法用於治療除X以外的其他類型的癌症。

本文使用的術語“約X-Y”具有與“約X至約Y”相同的含義。

如本文和所附請求項中所使用的，單數形式“一”，“一個”和“該”包括複數提及，除非上下文另有明確說明。

為了詳述本文中核苷酸的數值範圍，明確考慮其間的每個中間數。例如，對於19-21nt的範圍，除了19nt和21nt之外還考慮了數量20nt，並且對於MOI的範圍，明確考慮了它們之間的每個中間數，無論是整數還是小數。

單嚮導RNA^iBAR 文庫

本申請提供了一組或多組嚮導RNA構建體和嚮導RNA文庫，其包含具有內部標籤（iBAR）的嚮導RNA（例如單嚮導RNA）。

在一個方面，本發明涉及CRISPR / Cas嚮導RNA和編碼CRISPR / Cas嚮導RNA的構建體。每個嚮導RNA包含置於嚮導RNA區域中的iBAR序列，其不顯著干擾嚮導RNA和Cas核酸酶之間的相互作用。提供多組（例如2、3、4、5、6或更多組）嚮導RNA構建體（包括嚮導RNA分子和編碼嚮導RNA分子的核酸），其中一組中的每個嚮導RNA具有相同的嚮導序列，但不同的iBAR序列。具有不同iBAR序列的組的不同sgRNA^iBAR 構建體可用於單個基因編輯和篩選實驗以提供複本資料。

本申請的一個方面提供了一組sgRNA^iBAR 構建體，其包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座。在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中將iBAR序列置於第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。

在一些實施方案中，提供了一組sgRNA^iBAR 構建體，其包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，iBAR序列位於重複-反-重複莖的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，將iBAR序列插入重複-反-重複莖環的環區域中，和/或莖環1的環區域、莖環2的環區域或莖環3的環區域中。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。

在一些實施方案中，提供了一組sgRNA^iBAR 構建體，其包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列、第二序列和iBAR序列的sgRNA^iBAR 序列，其中嚮導序列與第二序列融合，其中第二序列包含與Cas9蛋白相互作用的重複-反-重複莖環，其中iBAR序列被置於（例如插入）重複-反-重複莖環的環區域中，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。

在一些實施方案中，提供了CRISPR / Cas嚮導RNA構建體，其包含靶向基因組基因座的嚮導序列和編碼重複：反重複雙螺旋 (Repeat:Anti-Repeat Duplex)和四元環(tetraloop)）的嚮導髮夾(guide hairpin)，其中內部標籤（iBAR）嵌入四元環中作為內部複本(replicate)。在一些實施方案中，內部標籤（iBAR）包含3個核苷酸（“nt”）-20nt（例如3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt- 8nt，5nt-7nt;優選3nt，4nt，5nt，6nt，7nt）序列，其由A，T，C和G核苷酸組成。在一些實施方案中，嚮導序列的長度為17-23、18-22、19-21個核苷酸，並且一旦轉錄髮夾序列可以與Cas核酸酶結合。在一些實施方案中，CRISPR / Cas嚮導RNA構建體還包含編碼莖環1、莖環2和/或莖環3的序列。在一些實施方案中，該嚮導序列靶向真核細胞的基因組基因，優選地，真核細胞是哺乳動物細胞。在一些實施方案中，CRISPR / Cas嚮導RNA構建體是病毒載體或質粒。

在一些實施方案中，提供了sgRNA^iBAR 文庫，其包含多個本文所述的任一組sgRNA^iBAR 構建體，其中每個組對應於與不同靶基因組基因座互補的嚮導序列。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的諸iBAR序列是相同的。在一些實施方案中，所有sgRNA^iBAR 構建體組的諸iBAR序列是相同的。

在一些實施方案中，提供了包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ; 其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中所述三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中對於三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列是彼此不同的，其中每種sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座; 其中每個組對應與不同靶基因組基因座互補的嚮導序列。在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中將iBAR序列置於第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的諸iBAR序列是相同的。

在一些實施方案中，提供了包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫，其中每組包含三個或更多個（例如，四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中所述三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中每個iBAR序列是相同的。三個或更多個sgRNA^iBAR 構建體彼此不同，其中每個sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座;其中每個組對應與不同靶基因組基因座互補的嚮導序列。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，iBAR序列位於重複-反-重複莖環的環區域中；和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，將iBAR序列插入重複-反-重複莖環的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。

在一些實施方案中，提供了包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列、第二序列和iBAR序列的sgRNA^iBAR 序列，其中所述嚮導序列與第二序列融合，其中所述第二序列包含與Cas9蛋白相互作用的重複-反-重複莖環。其中iBAR序列被置於（例如插入）重複-反-重複莖環的環區域中，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，其中每種sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座;其中每個組對應與不同靶基因組基因座互補的嚮導序列。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。

還提供了由本文所述的sgRNA^iBAR 構建體、sgRNA^iBAR 構建體組或文庫中的任一種編碼的sgRNA分子。還提供了包含sgRNA^iBAR 構建體、sgRNA^iBAR 分子、sgRNA^iBAR 組或文庫中的任一種的組合物和試劑盒。

在一些實施方案中，提供了經分離的宿主細胞，其包含本文所述的sgRNA^iBAR 構建體、sgRNA^iBAR 分子、sgRNA^iBAR 組或文庫中的任一種。在一些實施方案中，提供了宿主細胞庫，其中每個宿主細胞包含來自本文所述的sgRNA^iBAR 文庫的一種或多種sgRNA^iBAR 構建體。在一些實施方案中，宿主細胞包含或表達CRISPR / Cas系統的一種或多種組分，例如可與sgRNA^iBAR 構建體合作的Cas蛋白。在一些實施方案中，Cas蛋白是Cas9核酸酶。

本文還提供了製備包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫的方法，其中每個組對應多個嚮導序列中的一個，每個嚮導序列與不同的靶基因組基因座互補，其中所述方法包括：a）為每個嚮導序列設計三個或更多個sgRNA^iBAR 構建體，其中每個sgRNA^iBAR 構建體包含或編碼具有包含相應嚮導序列和iBAR序列的sgRNA^iBAR 序列的sgRNA^iBAR ，其中對於三個或更多個sgRNA^iBAR 構建體每個的iBAR序列是彼此不同的，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾相應的靶基因組基因座; b）合成每個sgRNA^iBAR 構建體，從而產生sgRNA^iBAR 文庫。在一些實施例中，該方法還包括設計多個嚮導序列。

iBAR序列

一組sgRNA^iBAR 構建體包含三個或更多個sgRNA^iBAR 構建體，每個構建體具有不同的iBAR序列。在一些實施方案中，一組sgRNA^iBAR 構建體包含三個sgRNA^iBAR 構建體，每個構建體具有不同的iBAR序列。在一些實施方案中，一組sgRNA^iBAR 構建體包含四個sgRNA^iBAR 構建體，每個構建體具有不同的iBAR序列。在一些實施方案中，一組sgRNA^iBAR 構建體包含五個sgRNA^iBAR 構建體，每個構建體具有不同的iBAR序列。在一些實施方案中，一組sgRNA^iBAR 構建體包含六個或更多個sgRNA^iBAR 構建體，每個構建體具有不同的iBAR序列。

iBAR序列可具有任何合適的長度。在一些實施方案中，每個iBAR序列的長度為約1-20個核苷酸（“nt”），例如約2nt-20nt，3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt-8nt，5nt-7nt中的任一個。在一些實施方案中，每個iBAR序列長約3nt，4nt，5nt，6nt或7nt。在一些實施方案中，每種sgRNA^iBAR 構建體的諸iBAR序列具有相同的長度。在一些實施方案中，不同sgRNA^iBAR 構建體的諸iBAR序列具有不同長度。

iBAR序列可具有任何合適的序列。在一些實施方案中，iBAR序列是由A，T，C和G核苷酸組成的DNA序列。在一些實施方案中，iBAR序列是由A，U，C和G核苷酸組成的RNA序列。在一些實施方案中，iBAR序列具有除A，T / U，C和G之外的非常規的或經修飾的核苷酸。在一些實施方案中每個iBAR序列是6個核苷酸長，由A，T，C和G核苷酸組成。

在一些實施方案中，與文庫中的每組sgRNA^iBAR 構建體相關的iBAR序列組彼此不同。在一些實施方案中，文庫中至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，相同組的iBAR序列用於文庫中的每組sgRNA^iBAR 構建體。沒有必要為不同組的sgRNA^iBAR 構建體設計不同的iBAR組。固定的一組iBAR可以用於文庫中的所有sgRNA^iBAR 構建體組，或者多個iBAR序列可以隨機分配到文庫中的不同組的sgRNA^iBAR 構建體。我們的iBAR策略採用簡化的分析工具（iBAR），可以在各種環境中促進大規模CRISPR / Cas篩選，用於生物醫學發現。

可以將iBAR序列置於（包括插入）嚮導RNA中的任何合適區域，其不影響gRNA在將Cas核酸酶（例如Cas9）引導至其靶位點時的效率。 iBAR序列可以位於sgRNA的3'末端或內部位置。例如，sgRNA可以包含與CRISPR複合物中的Cas核酸酶相互作用的各種莖環，並且iBAR序列可以嵌入在任一個莖環的環區域中。在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列設置在第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。

例如，CRISPR / Cas9系統的嚮導RNA可包含靶向基因組基因座的嚮導序列，和編碼下述的嚮導髮夾序列（重複：反重複雙螺旋(Repeat:Anti- Repeat Duplex)和四元環(tetraloop)）。在一些實施方案中，將內部標籤（iBAR）置於（包括插入）四元環中作為內部複本。在內源CRISPR / Cas9系統的背景下，crRNA與反式啟動crRNA（tracrRNA）雜交形成crRNA：tracrRNA雙鏈體，其被載入到Cas9上以指導具有適當的原型間隔區相鄰基序（PAM）的同源DNA序列的剪切。內源性crRNA序列可分為嚮導（20nt）和重複（12nt）區，而內源性tracrRNA序列可分為反重複序列（14nt）和三個tracrRNA莖環。在一些實施方案中，sgRNA結合靶DNA以形成T形結構，其包含嚮導：靶異源雙鏈、重複：反重複雙螺旋和莖環1-3。在一些實施方案中，重複和反重複部分通過四元環連接，重複和反重複形成重複：反重複雙螺旋，通過單核苷酸（A51）與莖環1連接，而莖環1和2通過5nt單連結頭（核苷酸63-67）連接。在一些實施方案中，嚮導序列（核苷酸1-20）和靶DNA（核苷酸10-200）通過20個Watson-Crick堿基形成嚮導：靶異雙螺旋，而且重複（核苷酸21-32）和反重複（核苷酸37-50）通過9個Watson-Crick堿基對形成重複：反重複雙螺旋（U22：A49-A26：U45和G29：C40-A32：U37）。在一些實施方案中，tracrRNA尾（核苷酸68-81和82-96）經由四個和六個Watson-Crick堿基對形成莖環2和3（A69：U80-U72：A77和G82：C96-G87：C91）。本文描述了示例性CRISPR / Cas9系統的晶體結構（Nishimasu H，等人，與嚮導RNA和靶DNA複合的cas9的晶體結構.Cell.2014; 156：935-949），其被併入本申請中整體作為參考。

在一些實施方案中，該iBAR序列位於sgRNA的重複：反重複莖環的四元環或環區域中。在一些實施方案中，將iBAR序列插入sgRNA的重複：反重複莖環的四元環或環區域中。 Cas9 sgRNA框架的四元環位於Cas9-sgRNA核糖核蛋白複合物之外，其在不影響其上游嚮導序列的活性的情況下經受各種目的的改變^9,12 。本申請的發明人已證明6-nt長的iBAR（iBAR₆ ）可以嵌入典型Cas9 sgRNA框架的四元環中，而不影響sgRNA的基因編輯效率或增加脫靶效應。

示例性iBAR₆ 產生4,096個標籤組合，這為高通量篩選提供了足夠的變化（圖1A）。為了確定這些額外iBAR序列的插入是否影響gRNA活性，構建了預定的sgRNA文庫，其靶向炭疽毒素受體基因ANTXR113與4,096個iBAR₆ 序列中的每個組合。將該sgRNA^iBAR-ANTXR1 文庫導入HeLa細胞，該細胞通過低MOI（為0.3）的慢病毒轉導不斷表達Cas9^6,7 。經過三輪PA / LFnDTA毒素處理和富集後，sgRNA及其來自抗毒素細胞的iBAR₆ 序列通過NGS分析檢測，如先前報導的那樣⁶ 。大多數未加標籤的sgRNA^iBAR-ANTXR1 和sgRNA^ANTXR1 顯著富集，而幾乎所有不靶向對照sgRNA都不存在於抗性細胞群中。重要的是，具有不同iBAR₆ 的sgRNA^iBAR-ANTXR1 的富集水準似乎在兩個生物學複本之間是隨機的（圖1B）。在計算iBAR₆ 的每個位置處的核苷酸頻率後，未從任一複本中觀察到序列偏差（圖1C）。此外，iBAR₆ 中的GC含量似乎不影響sgRNA剪切效率（圖2）。

嚮導序列

嚮導序列與靶序列雜交並指導CRISPR複合物與靶序列的序列特異性結合。在一些實施方案中，當使用合適的比對演算法進行理想比對時，嚮導序列與其相應的靶序列之間的互補程度為約或大於約75%，80%，85%，90%，91%，92% ，93%，94%，95%，96%，97%，98%，99%或更多。可以使用用於對準序列的任何合適的演算法來確定理想比對，其非限制性示例包括Smith-Waterman演算法，Needleman-Wimsch演算法，基於Burrows-Wheeler變換的演算法。在某些實施方案中，嚮導序列的長度為約或大於約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多個核苷酸。可以通過任何合適的測定來評估嚮導序列指導CRISPR複合物與靶序列的序列特異性結合的能力。例如，可以把足以形成CRISPR複合物的CRISPR系統的組分（包括待測序的嚮導序列）提供給具有相應靶序列的宿主細胞，例如通過用編碼CRISPR序列的組分的載體轉染，然後評估靶序列內的優先剪切。類似地，可以通過提供靶序列，CRISPR複合物的組分（包括待測序的嚮導序列）和不同於測試嚮導序列的對照嚮導序列，並比較結合或剪切率（在測試和對照嚮導序列反應之間的靶序列處）測定，在試管中評估靶多核苷酸序列的剪切。

在一些實施方案中，嚮導序列可以短至約10個核苷酸且長至約30個核苷酸。在一些實施方案中，嚮導序列是長度為15、16、17、18、19、20、21、 22、23或24個核苷酸中的任一個。合成嚮導序列可以是約20個核苷酸長，但可以更長或更短。舉例來說，CRISPR / Cas9系統的嚮導序列可以由與靶序列互補的20個核苷酸組成，即嚮導序列可以與PAM序列上游的20個核苷酸相同（除了DNA和RNA之間的 A / U差異）。

可以根據本領域任何已知的方法設計sgRNA^iBAR 構建體中的嚮導序列。嚮導序列可以靶向編碼區，諸如外顯子或剪接位元點，目的基因的5'非翻譯區（UTR）或3'非翻譯區（UTR）。例如，基因的閱讀框可以被嚮導RNA的靶位點處的雙鏈斷裂（DSB）介導的插入缺失所破壞。或者可以使用靶向編碼序列5'末端的嚮導RNA以高效率製造出基因敲除。可以根據某些序列特徵設計和優化嚮導序列（為了高中靶基因編輯活性和低脫靶效應）。例如，嚮導序列的GC含量可以在20%-70%的範圍內，並且可以避免含有均聚物片段的序列（例如TTTT，GGGG）。

可以將嚮導序列設計為靶向任何感興趣的基因組基因座。在一些實施方案中，嚮導序列靶向真核細胞的基因組基因座，例如哺乳動物細胞。在一些實施方案中，嚮導序列靶向植物細胞的基因組基因座。在一些實施方案中，嚮導序列靶向細菌細胞或古細菌細胞的基因組基因座。在一些實施方案中，嚮導序列靶向蛋白質編碼基因。在一些實施方案中，嚮導序列靶向編碼RNA的基因，例如小RNA（例如，microRNA，piRNA，siRNA，snoRNA，tRNA，rRNA和snRNA）、核糖體RNA或長非編碼RNA（lincRNA）。在一些實施方案中，嚮導序列靶向基因組的非編碼區。在一些實施方案中，嚮導序列靶向染色體基因座。在一些實施方案中，嚮導序列靶向染色體外基因座。在一些實施方案中，嚮導序列靶向線粒體或葉綠體基因。

在一些實施方案中，嚮導序列被設計為抑制或啟動任何目標靶基因的表達。靶基因可以是內源基因或轉基因。在一些實施方案中，靶基因可以認為是與特定表型相關的。在一些實施方案中，靶基因是不涉及特定表型的基因，諸如不認為是與特定表型相關的已知基因或未被表徵的未知基因。在一些實施方案中，靶區域位於作為靶基因的不同染色體上。

其他sgRNA組件

sgRNA^iBAR 包含促進與Cas蛋白形成CRISPR複合物的額外序列元件。在一些實施方案中，sgRNA^iBAR 包含第二序列，其包含重複-反-重複莖環。重複-反-重複莖環包含與tracr序列融合的tracr伴侶序列，所述tracr序列通過環區域與tracr伴侶序列互補。

通常，在內源CRISPR / Cas9系統的背景下，CRISPR複合物的形成（包含與靶序列雜交並與一種或多種Cas蛋白複合的嚮導序列）導致在靶序列處或者在它附近（例如在1、2、3、4、5、6、7、8、9、10、20、50或更多個堿基對內）一條或兩條鏈的剪切。 tracr序列，其可以包含野生型tracr序列的全部或部分或由其組成（例如野生型tracr序列的大約或大於約20、26、32、45、48、54、 63、67、85或更多個核苷酸），可以形成CRISPR複合物的一部分，諸如通過使至少一部分tracr序列與tracr伴侶序列（其與嚮導序列的可操作地連接）全部或部分雜交。在一些實施方案中，tracr序列與tracr伴侶序列具有足夠的互補性，以雜交並參與CRISPR複合物的形成。與靶序列一樣，認為不需要完全互補，只要有足夠的功能即可。在一些實施方案中，當理想比對時，tracr序列沿著tracr伴侶序列的長度具有至少50%，60%，70%，80%，90%，95%或99%的序列互補性。確定理想比對在本領域技術人員的能力範圍內。例如，存在公開的和商業上可用的比對演算法和程式，諸如（但不限於）ClustalW，Smith-Waterman in Matlab，Bowtie，Geneious，Biopython和SeqMan。在一些實施方案中，tracr序列長度為約或大於約5、6、7、8、9、10、11、12、 13、14、 15、16、17、18、19、20、25、30、40、50或更多個核苷酸。可以使用衍生自天然存在的CRISPR系統的任一種已知的tracr伴侶序列和tracr序列，諸如來自US8697359中描述的化膿性鏈球菌CRISPR / Cas9系統的tracr伴侶序列和tracr序列以及本文所述的那些。

在一些實施方案中，tracr序列和tracr伴侶序列包含在單個轉錄物內，使得兩者之間的雜交產生具有二級結構的轉錄物，例如莖環（也稱為髮夾），稱為“重複-反-重複莖環(repeat-anti-repeat stem loop)”。

在一些實施方案中，在沒有iBAR序列的sgRNA構建體中莖環的環區域的長度為4個核苷酸，並且這種環區域也稱為“四元環(tetraloop)”。在一些實施方案中，環區域具有序列GAAA。然而，可以使用更長或更短的環序列，也可以使用替代序列，例如包括核苷酸三聯體（例如AAA）和另外的核苷酸（例如C或G）的序列。在一些實施方案中，環區域的序列是CAAA或AAAG。在一些實施例中，將iBAR置於環區域，諸如四元環中。在一些實施方案中，將iBAR插入環區域，諸如四元環中。例如，iBAR序列可以插入第一核苷酸之前，第一核苷酸和第二核苷酸之間，第二核苷酸和第三核苷酸之間，第三核苷酸和第四核苷酸之間，或四元環中第四核苷酸之後。在一些實施方案中，iBAR序列取代環區域中的一個或多個核苷酸。

在一些實施方案中，sgRNA^iBAR 包含至少兩個或更多個莖環。在一些實施方案中，sgRNA^iBAR 具有兩個、三個、四個或五個莖環。在一些實施方案中，sgRNA^iBAR 具有至多五個髮夾。在一些實施方案中，sgRNA^iBAR 構建體還包含轉錄終止序列，諸如多T序列，例如6個T核苷酸。

在一些實施方案中，其中Cas蛋白是Cas9，每個sgRNA^iBAR 包含與第二序列融合的嚮導序列，所述第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，將iBAR序列置於重複-反-重複莖環的環區域中。在一些實施方案中，將iBAR序列插入重複-反-重複莖環的環區域中。在一些實施方案中，iBAR序列取代重複-反-重複莖環的環區域的一個或多個核苷酸。在一些實施方案中，每個sgRNA^iBAR 的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，將iBAR序列置於莖環1的環區域中。在一些實施方案中，將iBAR序列插入莖環1的環區域中。在一些實施方案中，iBAR序列取代莖環1的環區域中的一個或多個核苷酸。在一些實施方案中，將iBAR序列置於莖環2的環區域中。在一些實施方案中，將iBAR序列插入莖環2的環區域中。在一些實施方案中，iBAR序列取代莖環2的環區域的一個或多個核苷酸。在一些實施方案中，將iBAR序列置於莖環3的環區域中。在一些實施方案中，將iBAR序列插入莖環3的環區域中。在一些實施方案中，iBAR序列取代莖環3的環區域的一個或多個核苷酸。

在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列位於第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 在5’至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。

在CRISPR / Cas9系統中，嚮導RNA可用於指導Cas9核酸酶對基因組DNA的剪切。例如，嚮導RNA可以由可變序列的核苷酸間隔區（嚮導序列）組成，其以特定於序列的方式使CRISPR / Cas系統核酸酶靶向基因組位置，並且髮夾序列（其在不同的嚮導RNA中是恒定不變）允許嚮導RNA與Cas核酸酶結合。在一些實施方案中，提供了CRISPR / Cas嚮導RNA，其包含與宿主細胞中的靶基因組序列同源或互補的CRISPR / Cas可變嚮導序列並且當轉錄時能夠結合Cas核酸酶（例如Cas9）的不變髮夾序列，其中髮夾序列編碼重複：反重複雙螺旋和四元環，並且內部標籤（iBAR）嵌入四元環區域。

CRISPR / Cas9嚮導RNA的嚮導序列長度可為約17-23、18-22、 19-21個核苷酸。嚮導序列可以以序列特異性方式使Cas核酸酶靶向基因組基因座，並且可以按照本領域已知的一般原理設計。可以根據本領域的常識提供不變的嚮導RNA髮夾序列，例如，如Nishimasu等人所公開的（Nishimasu H，et al.Calco structure of cas9 in complex with guide RNA and target DNA.Cell.2009; 156：935-949）。本申請還提供了不變的嚮導RNA髮夾序列的實例，但應理解本發明不限於此並且可以使用其他不變的髮夾序列，只要它們能夠在轉錄後結合Cas核酸酶。

先前的研究表明，儘管具有48-nt tracrRNA尾部的sgRNA（稱為sgRNA（+48））是最小區域，但對於體外Cas9催化的DNA剪切（Jinek等人，2012），具有延長的tracrRNA尾部、sgRNA（+67）和sgRNA（+85）的sgRNA可以改善體內Cas9剪切活性（Hsu等人，2013）。在一些實施方案中，sgRNA^iBAR 包含莖環1、莖環2和/或莖環3。莖環1、莖環2和/或莖環3區域可以提高CRISPR / Cas9系統中的編輯效率。

Cas蛋白

本文所述的sgRNA^iBAR 構建體可以設計為與本領域已知的任一種天然存在的或工程化的CRISPR / Cas系統合作。在一些實施方案中，sgRNA^iBAR 構建體可與I型CRISPR / Cas系統合作。在一些實施方案中，sgRNA^iBAR 構建體可與II型CRISPR / Cas系統合作。在一些實施方案中，sgRNA^iBAR 構建體可與III型CRISPR / Cas系統合作。示例性CRISPR / Cas系統可以在WO2013176772，WO2014065596，WO2014018423，WO2016011080，US8697359，US8932814，US10113167B2中找到，其公開內容出於所有目的通過引用整體併入本文。

在某些實施方案中，sgRNA^iBAR 構建體可與衍生自CRISPR / Cas I型，II型或III型系統的Cas蛋白合作，其具有RNA嚮導的多核苷酸結合和/或核酸酶活性。此類Cas蛋白的實例列於例如WO2014144761 WO2014144592，WO2013176772，US20140273226和US20140273233中，其通過引用整體併入本文。

在某些實施方案中，Cas蛋白衍生自II型CRISPR-Cas系統。在某些實施方案中，Cas蛋白是Cas9蛋白或源自Cas9蛋白。在某些實施方案中，Cas蛋白是或源自細菌Cas9蛋白，包括WO2014144761鑒定出的那些。

在一些實施方案中，sgRNA^iBAR 構建體可與Cas9（也稱為Csn1和Csx12），其同源物或其修飾形式合作。在一些實施方案中，sgRNA^iBAR 構建體可與兩種或更多種Cas蛋白合作。在一些實施方案中，sgRNA^iBAR 構建體可與來自化膿性鏈球菌或肺炎鏈球菌的Cas9蛋白合作。 Cas酶是本領域已知的。例如，化膿性鏈球菌Cas9蛋白的氨基酸序列可以用登錄號Q99ZW2在SwissProt資料庫中找到。

Cas蛋白（在本文中也稱為“Cas核酸酶”）提供所需的活性，例如靶結合，靶切口或剪切活性。在某些實施方案中，所需活性是靶結合。在某些實施方案中，所需活性是靶切口或靶剪切。在某些實施方案中，所需活性還包括由與Cas蛋白或核酸酶缺陷的Cas蛋白共價融合的多肽提供的功能。這種所需活性的實例包括轉錄調節活性（活化或抑制），表觀遺傳修飾活性或靶視覺化/鑒定活性。

在一些實施方案中，sgRNA^iBAR 構建體可與Cas核酸酶合作，所述Cas核酸酶剪切靶序列，包括雙鏈剪切和單鏈剪切。在一些實施方案中，sgRNA^iBAR 構建體可與無催化活性的Cas（“dCas”）合作。在一些實施方案中，sgRNA^iBAR 構建體可與CRISPR啟動（“CRISPRa”）系統的dCas合作，其中dCas與轉錄啟動因數融合。在一些實施方案中，sgRNA^iBAR 構建體可與CRISPR干擾（CRISPRi）系統的dCas合作。在一些實施方案中，dCas與阻遏物結構域融合，諸如KRAB結構域。

在某些實施方案中，Cas蛋白是野生型Cas蛋白（諸如Cas9）或其片段的突變體。 Cas9蛋白通常具有至少兩個核酸酶（例如，DNase）結構域。例如，Cas9蛋白可具有RuvC樣核酸酶結構域和HNH樣核酸酶結構域。 RuvC和HNH結構域共同作用以剪切靶位點中的兩條鏈以在靶多核苷酸中產生雙鏈斷裂（Jinek等，Science 337：816-21）。在某些實施方案中，突變體Cas9蛋白被修飾為僅含有一個功能性核酸酶結構域（RuvC樣或HNH樣核酸酶結構域）。例如，在某些實施方案中，修飾突變體Cas9蛋白，使得一個核酸酶結構域缺失或突變，使得其不再具有功能性（即不存在核酸酶活性）。在核酸酶結構域無活性的其中一個的一些實施方案中，突變體能夠將切口引入雙鏈多核苷酸（這種蛋白質被稱為“切口酶”）但不能剪切雙鏈多核苷酸。在某些實施方案中，修飾Cas蛋白以增加核酸結合親和力和/或特異性，改變酶活性，和/或改變蛋白質的另一性質。在某些實施方案中，截短或修飾Cas蛋白以優化效應結構域的活性。在某些實施方案中，修飾或消除RuvC樣核酸酶結構域和HNH樣核酸酶結構域，使得突變體Cas9蛋白不能剪切或剪切靶多核苷酸。在某些實施方案中，相對於野生型對應物缺乏一些或所有核酸酶活性的Cas9蛋白仍然或多或少地維持靶識別活性。

在某些實施方案中，Cas蛋白是融合蛋白，其包含與另一多肽或效應結構域融合的天然存在的Cas或其變體。另一種多肽或效應結構域可以是例如剪切結構域，轉錄啟動結構域，轉錄抑制結構域或表觀遺傳修飾結構域。在某些實施方案中，融合蛋白包含經修飾的或經突變的Cas蛋白，其中所有核酸酶結構域已經失活或缺失。在某些實施方案中，Cas蛋白的RuvC和/或HNH結構域受到修飾或突變，使得它們不再具有核酸酶活性。

在某些實施方案中，融合蛋白的效應結構域是從具有所需特性的任何核酸內切酶或核酸外切酶獲得的剪切結構域。

在某些實施方案中，融合蛋白的效應結構域是轉錄啟動結構域。通常，轉錄啟動結構域與轉錄控制元件和/或轉錄調節蛋白（即轉錄因數，RNA聚合酶等）相互作用以增加和/或啟動基因的轉錄。在某些實施方案中，轉錄啟動結構域是單純皰疹病毒VP16啟動結構域，VP64（其為VP16的四聚體衍生物），NFxB p65啟動結構域，p53啟動結構域1和2，CREB（cAMP反應元件結合蛋白）啟動結構域，E2A啟動結構域或NFAT（活化T細胞核因數）啟動結構域。在某些實施方案中，轉錄啟動結構域是Gal4，Gcn4，MLL，Rtg3，Gln3，Oaf1，Pip2，Pdr1，Pdr3，Pho4或Leu3。轉錄啟動結構域可以是原始轉錄啟動結構域的野生型或經修飾或經截短的形式。

在某些實施方案中，融合蛋白的效應結構域是轉錄抑制結構域，例如誘導型cAMP早期阻遏物（ICER）結構域，Kruppel相關盒A（KRAB-A）阻遏物結構域，富含YY1甘氨酸的抑制物結構域， Sp1樣抑制因數，E（spI）抑制因數，I.kappa.B阻遏物或MeCP2。

在某些實施方案中，融合蛋白的效應結構域是表觀遺傳修飾結構域，其通過修飾組蛋白結構和/或染色體結構來改變基因表達，例如組蛋白乙醯轉移酶結構域，組蛋白脫乙醯酶結構域，組蛋白甲基轉移酶結構域，組蛋白去甲基化酶結構域，DNA甲基轉移酶結構域或DNA去甲基化酶結構域。

在某些實施方案中，Cas蛋白還包含至少一個另外的結構域，例如核定位元信號（NLS），細胞穿透或易位結構域和標誌物結構域（例如螢光蛋白標誌物）。

載體

在一些實施方案中，sgRNA^iBAR 構建體包含與嚮導RNA序列和iBAR序列可操作地連接的一種或多種調節元件。示例性的調節元件包括但不限於啟動子、增強子、內部核糖體進入位點（IRES）和其他表達控制元件（例如轉錄終止信號，諸如多腺苷酸化信號和多-U序列）。這些調節元件描述於例如Goeddel，GENE EXPRESSION TECHNOLOGY：METHODS IN ENZYMOLOGY 185，Academic Press，San Diego，Calif（1990）中。調節元件包括在許多類型的宿主細胞中指導核苷酸序列構成表達的那些和僅在某些宿主細胞中指導核苷酸序列表達的那些（例如組織特異性調節序列）。

sgRNA^iBAR 構建體可以存在於載體中。在一些實施方案中，sgRNA^iBAR 構建體是表達載體，諸如病毒載體或質粒。本領域技術人員應理解，表達載體的設計可取決於諸如待轉化的宿主細胞的選擇、所需表達水準等因素。在一些實施方案中，sgRNA^iBAR 構建體是慢病毒載體。在一些實施方案中，sgRNA^iBAR 構建體是腺病毒或腺相關病毒。在一些實施方案中，載體還包含選擇標誌物。在一些實施方案中，載體還包含編碼CRISPR / Cas系統的一種或多種元件的一種或多種核苷酸序列，例如編碼Cas核酸酶（例如Cas9）的核苷酸序列。在一些實施方案中，提供了載體系統，其包含編碼CRISPR / Cas系統的一種或多種元件的核苷酸序列的一種或多種載體，和包含本文所述的任一種sgRNA^iBAR 構建體的載體。載體可包括以下元件中的一種或多種：複製起點，調節目標多肽表達的一種或多種調節序列（諸如例如啟動子和/或增強子），和/或一種或多種更多可選擇標誌物基因（諸如例如，抗生素抗性基因和編碼螢光蛋白的基因）。

文庫

可以設計本文描述的sgRNA^iBAR 文庫以根據基因篩選的需要靶向多個基因組基因座。在一些實施方案中，設計單組sgRNA^iBAR 構建體以靶向每種目的基因。在一些實施方案中可以設計多（例如至少2、4、6、10、20或更多個，諸如4-6）組具有靶向單個目的基因的不同嚮導序列的sgRNA^iBAR 構建體。

在一些實施方案中，sgRNA^iBAR 文庫包含至少10、20、50、100、200、500、1000、2000、5000、10000、20000、50000、100000或更多組sgRNA^iBAR 構建體。在一些實施方案中，sgRNA^iBAR 文庫靶向細胞或生物體中的至少10、20、 50、100、200、500、1000、2000、5000、10000、15000或更多個基因。在一些實施方案中，sgRNA^iBAR 文庫是蛋白質編碼基因和/或非編碼RNA的全基因組文庫。在一些實施方案中，sgRNA^iBAR 文庫是靶標文庫，其靶向信號傳導途徑中的所選擇的基因或者與細胞過程相關聯。在一些實施方案中，sgRNA^iBAR 文庫用於與特定調節表型相關的全基因組篩選。在一些實施方案中，sgRNA^iBAR 文庫用於全基因組篩選以鑒定出與特定調節表型相關的至少一種靶基因。在一些實施方案中，sgRNA^iBAR 文庫被設計為靶向真核基因組，例如哺乳動物基因組。感興趣的示例性基因組包括齧齒動物（小鼠，大鼠，倉鼠，豚鼠），馴養動物（例如牛，綿羊，貓，狗，馬或兔），非人靈長類動物（例如猴）的基因組，魚類（如斑馬魚），非脊椎動物（如果蠅（Drosophila melanogaster）和秀麗隱杆線蟲（Caenorhabditis elegans））以及人類。

可以使用已知演算法設計sgRNA^iBAR 文庫的嚮導序列，所述演算法在使用者定義的清單中鑒定出具有高度靶向特異性的CRISPR / Cas靶位元點（基因組靶掃描（GT-Scan））;參見O'Brien等，Bioinformatics（2014）30：2673-2675）。在一些實施方案中可以在單個陣列上產生100,000個sgRNA^iBAR 構建體，提供足夠的覆蓋以全面篩選人類基因組中的所有基因。通過並行地合成多個sgRNA^iBAR 文庫，還可以擴大該方法以實現全基因組篩選。 sgRNA^iBAR 文庫中sgRNA^iBAR 構建體的確切數量可取決於是否篩選1）靶向基因或調節元件，2）靶向完整基因組或基因組基因的亞組。

在一些實施方案中，設計sgRNA^iBAR 文庫以靶向與基因組中的基因重疊的每個PAM序列，其中PAM序列對應Cas蛋白。在一些實施方案中，設計sgRNA^iBAR 文庫用以靶向在基因組中發現的PAM序列的次級組，其中PAM序列對應Cas蛋白。

在一些實施方案中，sgRNA^iBAR 文庫包含一個或多個不靶向基因組中任何基因組基因座的對照sgRNA^iBAR 構建體。在一些實施方案中，不靶向認定的基因組基因的sgRNA^iBAR 構建體可以作為陰性對照包含在sgRNA^iBAR 文庫中。

可使用本領域任何已知核酸合成方法和/或分子克隆方法製備本文所述的sgRNA^iBAR 構建體和文庫。在一些實施方案中，sgRNA^iBAR 文庫通過陣列上的電化學方法（例如CustomArray，Twist，Gen9），DNA印跡法（例如，Agilent）或單個寡核苷酸固相合成法（例如通過IDT）合成。可以通過PCR擴增sgRNA^iBAR 構建體並將其克隆到表達載體（例如，慢病毒載體）中。在一些實施方案中，慢病毒載體進一步編碼基於CRISPR / Cas的基因編輯系統的一種或多種組分，諸如Cas蛋白（例如Cas9）。

宿主細胞

在一些實施方案中，提供了包含宿主細胞的組合物，所述宿主細胞包含本文所述的sgRNA^iBAR 構建體、分子、組或文庫中的任一種。

在一些實施方案中，提供了編輯宿主細胞中基因組基因座的方法，包括向宿主細胞中引入嚮導RNA構建體，其包含靶向基因組基因的嚮導序列和編碼重複的嚮導髮夾序列：反重複雙螺旋和四元環，其中內部標籤（iBAR）嵌入四元環中作為內部複本，表達靶向宿主細胞中基因組基因的嚮導RNA，從而在Cas核酸酶存在下編輯靶基因組基因。

在一些實施方案中，提供了通過將本文所述的任一種sgRNA^iBAR 文庫轉染至多種宿主細胞而製備的細胞庫，其中sgRNA^iBAR 構建體存在於病毒載體（例如慢病毒載體）中。在一些實施方案中，轉染期間病毒載體和宿主細胞之間的感染複數（MOI）為至少約1。在一些實施方案中，MOI為至少約1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10或更高中的任一個。在一些實施方案中，MOI為約1、約1.5、約2、約2.5、約3、約3.5、約4、約4.5、約5、約5.5、約6、約6.5、約7、約7.5、約8.5、約9、約9.5或約10。在一些實施方案中，MOI是1-10、1-3、3-5、5-10、2-9、3-8，4-6或2-5中的任一個。在一些實施方案中，轉染期間病毒載體和宿主細胞之間的MOI小於1，例如小於0.8、0.5、0.3或更低。在一些實施方案中，MOI為約0.3至約1。

在一些實施方案中，將驅動CRISPR / Cas系統的一種或多種元件的表達的一種或多種載體引入宿主細胞中，使得CRISPR系統的元件的表達指導與sgRNA^iBAR 分子形成CRISPR複合物（在一個或多個靶位點）。在一些實施方案中，宿主細胞已經被引入Cas核酸酶或被工程化以穩定表達CRISPR / Cas核酸酶。

在一些實施方案中，宿主細胞是真核細胞。在一些實施方案中，宿主細胞是原核細胞。在一些實施方案中，宿主細胞是細胞系，例如預先建立的細胞系。宿主細胞和細胞系可以是人的細胞或細胞系，或者它們可以是非人的，哺乳動物的細胞或細胞系。宿主細胞可以源自任何組織或器官。在一些實施方案中，宿主細胞是腫瘤細胞。在一些實施方案中，宿主細胞是幹細胞或iPS細胞。在一些實施方案中，宿主細胞是神經細胞。在一些實施方案中，宿主細胞是免疫細胞，例如B細胞或T細胞。在一些實施方案中，宿主細胞難以用低MOI（例如，低於1、0.5或0.3）的病毒載體（例如慢病毒載體）轉染。在一些實施方案中，使用低MOI（例如，低於1、0.5或0.3）的CRISPR / Cas系統難以編輯宿主細胞。在一些實施方案中，宿主細胞可以有限的量獲得。在一些實施方案中，宿主細胞獲自來自個體的活組織檢查，例如來自腫瘤活組織檢查。

篩選方法

本申請還提供了使用本文所述的任一種嚮導RNA構建體，嚮導RNA文庫和細胞庫的基因篩選方法，包括高通量篩選和全基因組篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，例如哺乳動物細胞）的基因組基因座的方法，包括：a）接觸表達的初始細胞群在允許將sgRNA^iBAR 構建體導入細胞以提供經修飾的細胞群的條件下，具有本文所述的任一sgRNA^iBAR 文庫的Cas蛋白; b）從經修飾的細胞群中選擇具有經調節的表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，其中每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體），使sgRNA^iBAR 文庫以大於約2（例如在至少約3、5或10）的感染複數（MOI）與初始細胞群相接觸。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，諸如哺乳動物細胞）的基因組基因座的方法，包括：a）使初始細胞群接觸i）本文所述的任一種sgRNA^iBAR 文庫; ii）Cas組分，其包含Cas蛋白或編碼Cas蛋白的核酸相接觸，條件是允許將sgRNA^iBAR 構建體和Cas組分導入細胞中以提供經修飾的細胞群; b）從經修飾的細胞群中選擇出具有經調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，其中每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體），使sgRNA^iBAR 文庫以大於約2的感染複數（MOI）與初始細胞群相接觸（例如在至少約3、5或10）。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，諸如哺乳動物細胞）的基因組基因座的方法，包括：a）使表達Cas蛋白的初始細胞群接觸sgRNA^iBAR 文庫，其條件是允許將sgRNA^iBAR 構建體引入細胞中以提供經修飾的細胞群;其中sgRNA^iBAR 文庫包含多組sgRNA^iBAR 構建體，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中所述三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中每個iBAR序列是相同的。三個或更多個sgRNA^iBAR 構建體彼此不同，其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座;其中每組對應與不同靶基因組基因座互補的嚮導序列; b）從經修飾的細胞群中選擇出具有經調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中將iBAR序列置於第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，Cas蛋白是Cas9。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，iBAR序列位於重複-反-重複莖環的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，將iBAR序列插入重複-反-重複莖環的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中使sgRNA^iBAR 文庫與初始細胞群以大於約2（例如，至少約3、5或10）的感染複數（MOI）接觸。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，諸如哺乳動物細胞）的基因組基因座的方法，包括：a）使初始細胞群接觸i）sgRNA^iBAR 文庫和ii）Cas組分，其包含Cas蛋白或編碼Cas蛋白的核酸，條件是允許將sgRNA^iBAR 構建體導入細胞以提供經修飾的細胞群;其中sgRNA^iBAR 文庫包含多組sgRNA^iBAR 構建體，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列和iBAR序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中所述三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中每個的iBAR序列是相同的。三個或更多個sgRNA^iBAR 構建體彼此不同，其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座;其中每個組對應與不同靶基因組基因座互補的嚮導序列; b）從經修飾的細胞群中選擇具有經調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒定出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中將iBAR序列置於第一莖序列和第二莖序列之間。在一些實施方案中，每個sgRNA^iBAR 序列在5'至3'方向上包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，其中iBAR序列位於第一莖序列的3'末端和第二莖序列的5'末端之間。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，Cas蛋白是Cas9。在一些實施方案中，每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，iBAR序列位於重複-反-重複莖環的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中，將iBAR序列插入重複-反-重複莖環的環區域中，和/或莖環1、莖環2或莖環3的環區域中。在一些實施方案中每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，使sgRNA^iBAR 文庫與初始細胞群以大於約2（例如至少約3、5或10）的感染複數（MOI）接觸。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，例如哺乳動物細胞）的基因組基因座的方法，包括：a）接觸表達的初始細胞群具有sgRNA^iBAR 文庫的Cas9蛋白，其條件是允許將sgRNA^iBAR 構建體引入細胞中以提供修飾的細胞群;其中sgRNA^iBAR 文庫包含多組sgRNA^iBAR 構建體，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列、第二序列和iBAR序列的sgRNA^iBAR 序列，其中所述嚮導序列與第二序列融合，其中所述第二序列包含與Cas9蛋白相互作用的重複-反-重複莖環。其中iBAR序列被置於（例如插入）重複-反-重複莖環的環區域中，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的的iBAR序列彼此不同，其中每種sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座;其中每個組對應與不同靶基因組基因座互補的嚮導序列; b）從修飾的細胞群中選擇具有調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒別出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3.在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如，慢病毒載體）。在一些實施方案中，使sgRNA^iBAR 文庫與初始細胞群以大於約2（例如，至少約3、5或10）的感染複數（MOI）接觸。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了篩選調節細胞表型（例如真核細胞，諸如哺乳動物細胞）的基因組基因座的方法，包括：a）使初始細胞群接觸i）本文描述的sgRNA^iBAR 文庫; ii）Cas組分，其包含Cas9蛋白或編碼Cas9蛋白的核酸，條件是允許將sgRNA^iBAR 構建體和Cas組分導入細胞中以提供經修飾的細胞群;其中sgRNA^iBAR 文庫包含多組sgRNA^iBAR 構建體，其中每組包含三個或更多個（例如四個）sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ;其中每個sgRNA^iBAR 具有包含嚮導序列、第二序列和iBAR序列的sgRNA^iBAR 序列，其中所述嚮導序列與第二序列融合，其中所述第二序列包含與Cas9蛋白相互作用的重複-反-重複莖環。其中iBAR序列被置於（例如插入）重複-反-重複莖環的環區域中，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，其中每種sgRNA^iBAR 可與Cas9蛋白合作以修飾靶基因組基因座;其中每個組對應與不同靶基因組基因座互補的嚮導序列; b）從經修飾的細胞群中選擇具有經調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; e）鑒別出對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。在一些實施方案中，每個iBAR序列包含約1-50個核苷酸。在一些實施方案中，每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。在一些實施方案中，每個sgRNA^iBAR 構建體是質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，使sgRNA^iBAR 文庫與初始細胞群以大於約2（例如至少約3、5或10）的感染複數（MOI）接觸。在一些實施方案中，sgRNA^iBAR 文庫包含至少約1000組sgRNA^iBAR 構建體。在一些實施方案中，至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。在一些實施方案中，將sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入初始細胞群中。在一些實施方案中，篩選以大於約1000倍的覆蓋率進行。在一些實施方案中，篩選是陽性篩選。在一些實施方案中，篩選是陰性篩選。

在一些實施方案中，提供了用於最小化基於CRISPR / Cas的高通量基因篩選的錯誤發現率（false discovery rate, FDR）的方法，其包括：通過在同一實驗中在靶細胞中計數嚮導RNA和內部標籤（iBAR）核苷酸序列兩者，將多個嵌入了嚮導RNA的內部標籤引入到宿主細胞中以多次追蹤每個嚮導RNA的性能。在優選的實施方案中，標籤包含2nt-20nt（更優選3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt-8nt，5nt-7nt;甚至更優選3nt，4nt，5nt，6nt，7nt）由A，T，C和G組成的短序列。在優選的實施方案中，標籤嵌入在嚮導RNA的四元環區域中。在優選的實施方案中，嚮導RNA構建體是病毒載體。在優選的實施方案中，病毒抗原載體是慢病毒載體。在優選的實施方案中，嚮導RNA構建體以MOI> 1引入靶細胞（例如MOI> 1.5，MOI> 2，MOI> 2.5，MOI> 3，MOI> 3.5，MOI> 4，MOI> 4.5， MOI> 5，MOI> 5.5，MOI> 6，MOI> 6.5，MOI> 7;諸如MOI約為1，MOI約為1.5，MOI約為2，MOI約為2.5，MOI約為3，MOI為約3.5，MOI約為4， MOI約為4.5，MOI約為5，MOI約為5.5，MOI約為6，MOI約為6.5，MOI約為7）。

作為一種強大的基因組編輯工具，成簇規律間隔短回文重複序列（CRISPR）-成簇規律間隔短回文重複序列相關蛋白9（Cas9）系統已迅速發展成為基於功能的大規模篩選策略（在真核細胞中）。與常規的CRISPR / Cas篩選方法相比，本發明提供了一種新的基因篩選方法，通過該方法，篩選的假陽性率（FDR）顯著降低並且資料重現性大大增加。

最近報導了兩篇論文在sgRNA體外產生隨機標籤用於經彙集的CRISPR篩選^13,14 。假設每個sgRNA將產生所需的功能喪失（LOF）和非LOF等位基因，則計算任一給定sgRNA的所有讀數（其無法準確評估其靶向基因在陰性篩選中的重要性）。通過將一個UMI（獨特分子鑒別符）與每個sgRNA的一個編輯結果相關聯以實現單細胞譜系追蹤來降低假陰性率，或通過計數減少的RSL數量（隨機序列標誌物）（附以sgRNA以提高篩選品質）可以實現大大改善統計結果。與這兩種方法不同，本發明提供了一種使用具有iBAR序列的sgRNA組的新方法，以便能夠用以高MOI病毒感染得到的CRISPR文庫進行彙集篩選，從而減小文庫的大小並改善資料品質。

本文所述的篩選方法使用各組sgRNA構建體的文庫，每個構建體具有內部標籤（iBAR），以通過統計分析改善靶鑒別和資料重現性，並降低錯誤發現率（FDR）。在使用彙集的sgRNA文庫的常規CRISPR / Cas篩選方法中，在細胞庫構建期間使用低感染複數（MOI）產生表達gRNA的高品質細胞庫，以確保每個細胞平均含有少於1個sgRNA或配對的嚮導RNA（“pgRNA”）。因為文庫中的sgRNA分子隨機整合到轉染的細胞中，所以足夠低的MOI確保每個細胞表達單個sgRNA，從而最小化篩選的假陽性率（FDR）。為了進一步降低FDR並提高資料重現性，通常需要深入覆蓋gRNA和多個生物學複本以獲得具有高統計學意義的命中基因。當需要大量全基因組篩選時，當用於文庫構建的細胞材料有限時，或者當進行難以安排實驗複本或控制MOI的更具挑戰性的篩選（即體內篩選）時，常規篩選方法面臨困難。使用如本文所述的sgRNA^iBAR 文庫的方法通過在每個sgRNA中包含iBAR序列克服了困難，這使得能夠在具有相同嚮導序列但不同iBAR序列的每個sgRNA組內收集內部複本。例如，如實施例中所述，對於每種sgRNA具有四個核苷酸的iBAR可以提供足夠的內部複本以評估靶向相同的基因組基因座的不同sgRNA^iBAR 構建體之間的資料一致性。兩個獨立實驗之間的高度一致性表明，使用iBAR方法，一個實驗複本對於CRISPR / Cas篩選是足夠的（圖9c和表1）。由於在宿主細胞的病毒轉導期間文庫覆蓋率顯著增加且MOI較高，因此初始細胞群中的細胞數量可減少20倍以達到相同的文庫覆蓋率（表3），如實施例中描述的、所構建的基因組尺度人類文庫所示。出於同樣的原因，使用sgRNA^iBAR 的每個全基因組篩選的工作量可以按比例減少。使用具有不同iBAR序列的sgRNA，然後可以通過計數嚮導序列和相應的內部標籤（iBAR）核苷酸序列在同一實驗中多次追蹤每個嚮導序列的性能，從而大大減少FDR，並提高效率和回應。在病毒轉導步驟中使用高病毒滴度可以進一步提高轉導效率和文庫覆蓋率，例如，MOI> 1（例如MOI> 1.5，MOI> 2，MOI> 2.5，MOI> 3，MOI> 3.5 ，MOI> 4，MOI> 4.5，MOI> 5，MOI> 5.5，MOI> 6，MOI> 6.5，MOI> 7，MOI> 7.5，MOI> 8，MOI> 8.5，MOI> 9，MOI> 9.5或MOI > 10;諸如MOI約為1，MOI約為1.5，MOI約為2，MOI約為2.5，MOI約為3，MOI約為3.5，MOI約為4 MOI約為4.5，MOI約為5， MOI約為5.5，MOI約為6，MOI約為6.5，MOI約為7，MOI約為7.5，MOI約為8，MOI約為8.5，MOI約為9，MOI約為9.5，MOI約為10）。

Cas蛋白可以在體外或體內篩選中作為（i）Cas蛋白，或（ii）編碼Cas蛋白的mRNA，或（iii）編碼蛋白的線性或環狀DNA引入細胞。編碼Cas蛋白的Cas蛋白或構建體可以在組合物中為經純化的或未經純化的。將蛋白質或核酸構建體引入宿主細胞的方法是本領域公知的，並且適用於本文所述的所有需要將Cas蛋白質或其構建體引入細胞的方法。在某些實施方案中，Cas蛋白作為蛋白質遞送到宿主細胞中。在某些實施方案中，Cas蛋白由宿主細胞中的mRNA或DNA構成表達。在某些實施方案中，來自mRNA或DNA的Cas蛋白的表達在宿主細胞中是可誘導的或經誘導的。在某些實施方案中，可以使用本領域已知的重組技術將Cas蛋白以Cas蛋白：sgRNA複合物引入宿主細胞中。引入Cas蛋白或其構建體的示例性方法已描述於例如WO2014144761、WO2014144592和WO2013176772中，其通過引用整體併入本文。

在一些實施方案中，該方法使用CRISPR / Cas9系統。 Cas9是來自微生物II型CRISPR（成簇規律間隔短回文重複序列）系統的核酸酶，已顯示當與單嚮導RNA（sgRNA）配對時剪切DNA。 sgRNA將Cas9引導至靶基因組基因中的互補區域，這可導致位元點特異性雙鏈斷裂（DSB），其可通過細胞非同源末端連接（NHEJ）機制以易於錯誤的方式修復。野生型Cas9主要剪切基因組位點，其中gRNA序列後面是PAM序列（-NGG）。 NHEJ介導的Cas9誘導的DSB的修復誘導出在剪切位點處起始的大範圍突變，其通常是小的（>10bp）插入/缺失（插入缺失），但可以包括更大（> 100bp）的插入缺失。

本文描述的方法可用於鑒別出編碼基因、非編碼RNA和調節元件的功能。在一些實施方案中，將sgRNA^iBAR 文庫引入表達Cas9的細胞或與效應結構域融合的無催化活性的Cas9（dCas9）。通過高通量篩選，本領域技術人員可以通過產生多種突變，大基因組缺失，轉錄啟動或轉錄抑制來進行多種基因篩選。如實施例中所示，iBAR序列不影響sgRNA在指導Cas9或dCas9核酸酶修飾靶位點方面的效率。

本文描述的篩選方法可以應用於體外基於細胞的篩選或體內篩選。在一些實施方案中，細胞是細胞培養物中的細胞。在一些實施方案中，細胞存在於組織或器官中。在一些實施方案中，細胞存在於生物體中，諸如秀麗隱杆線蟲（C.elegans ）、蒼蠅或其他模式生物體中。

可以用CRISPR / Cas嚮導RNA文庫（例如CRISPR / Cas嚮導RNA文庫慢病毒庫）來轉導初始細胞群。在一些實施方案中，將sgRNA^iBAR 病毒載體文庫以高感染複數（MOI）（例如至少約1、2、3、4、5、6中任一個MOI）引入初始細胞群，在一些實施方案中，將sgRNA^iBAR 病毒載體文庫以低MOI引入初始細胞群，例如MOI為不大於約0.9、0.8、0.7、0.6、0.5、0.4、0.3或更低中的任一個。在一些實施方案中，初始細胞群包含不超過10⁷ 、5×10⁶ 、2×10⁶ 、10⁶ 、5×10⁵ 、2×10⁵ 、10⁵ 、5×10⁴ 、2×10⁴ 、10⁴ 或者10³ 個細胞中的任一個。在一些實施方案中，在sgRNA^iBAR 文庫中的90%，91%，92%，93%，94%，95%，96%，97%，98%，99%，99.5%或更高百分比中的任一個的sgRNA^iBAR 構建體被引入初始細胞群。在一些實施方案中，篩選以超過50倍，100倍，200倍，500倍，1000倍，2000倍，5000倍，10000倍或更高倍數中任一個的覆蓋率進行。

在將sgRNA^iBAR 文庫引入初始細胞群後，可將細胞溫育合適的一段時間以允許基因編輯。例如細胞可以孵育至少12小時，24小時，2天，3天，4天，6天，7天，8天，9天，10天，11天，12天，13天，14天或更長時間。獲得具有靶基因組基因座或目的基因的插入，敲除，敲入，啟動或抑制的經修飾細胞。在一些實施方案中，靶基因的轉錄被經修飾的細胞中的sgRNA^iBAR 構建體阻遏或抑制。在一些實施方案中，靶基因的轉錄被經修飾細胞中的sgRNA^iBAR 構建體啟動。在一些實施方案中，靶基因被經修飾細胞中的sgRNA^iBAR 構建體敲除。可以使用由sgRNA^iBAR 載體編碼的可選擇標誌物選擇出經修飾的細胞，例如螢光蛋白標記或藥物抗性標誌物。

在一些實施方案中，該方法使用設計用於靶向基因中的剪接位點或連接的sgRNA^iBAR 文庫。剪接靶向方法可用於篩選基因組中的多個（例如數千個）序列，從而闡明這些序列的功能。在一些實施方案中，剪接靶向方法用於高通量篩選中以鑒別出存活，增殖，抗藥性或其他感興趣的表型所需的基因組基因。在剪接靶向實驗中，靶向目標基因內數萬個剪接位點的sgRNA^iBAR 文庫可以例如通過作為庫的慢病毒載體遞送到靶細胞中。通過鑒別出在選擇所需表型後在細胞中富集或耗盡的sgRNA^iBAR 序列，可以系統地鑒別該表型所需的基因。

在一些實施方案中，經修飾的細胞進一步經受刺激因數（例如激素，生長因數，炎性細胞因數，抗炎細胞因數，藥物，毒素和轉錄因數）。在一些實施方案中，用藥物處理經修飾的細胞以鑒別出增加或降低細胞對藥物敏感性的基因組基因座。

在一些實施方案中，從篩選中選擇出具有經調節表型的細胞。 “調節”是指活動的改變，例如調控，下調，上調，減少，阻遏，增加，減少，去活或啟動。可以使用已知技術分離出具有經調節的基因表達或細胞表型的細胞，例如通過螢光啟動細胞分選（FACS）或通過磁啟動細胞分選。可以通過檢測細胞內或細胞表面標誌物來識別經調節的表型。在一些實施方案中，可以通過免疫螢光染色檢測細胞內或細胞表面標誌物。在一些實施方案中，內源靶基因可以用螢光報告分子標記，例如通過基因組編輯。其他適用的經調節表型篩選包括：基於對刺激因數，細胞死亡，細胞生長，細胞增殖，細胞存活，藥物抗性或藥物敏感性的回應的變化來分離出獨特的細胞群。

在一些實施方案中，經調節的表型可以是至少一種靶基因的基因表達的變化或細胞或生物體表型的變化。在一些實施方案中，表型是蛋白質表達，RNA表達，蛋白質活性或RNA活性。在一些實施方案中，細胞表型可以是對刺激因數，細胞死亡，細胞生長，藥物抗性，藥物敏感性或其組合的細胞回應。刺激因數可以是實體信號，環境信號，激素，生長因數，炎性細胞因數，抗炎細胞因數，轉錄因數，藥物或毒素，或其組合。

在一些實施方案中，選擇經修飾的細胞用於細胞增殖或存活。在一些實施方案中，經修飾的細胞在選擇劑的存在下培養。選擇劑可以是化學治療劑，細胞毒劑，生長因數，轉錄因數或藥物。在一些實施方案中，對照細胞在相同條件下培養而不存在選擇劑。在一些實施方案中，選擇可以在體內進行，例如使用模式生物。在一些實施方案中，使細胞離體接觸sgRNA^iBAR 文庫用於基因編輯，並將基因編輯的細胞引入生物體（例如作為異種移植物）以選擇出經調節的表型。

在一些實施方案中，與對照細胞中一種或多種基因的表達水準相比，選擇經修飾的細胞用於改變一種或多種基因的表達。在一些實施方案中，與對照細胞相比，基因表達的變化是基因表達的增加或減少。基因表達的變化可以通過蛋白質表達，RNA表達或蛋白質活性的變化來確定。在一些實施方案中，基因表達的變化回應於刺激因數（諸如化學治療劑，細胞毒性劑，生長因數，轉錄因數或藥物）而發生。

在一些實施方案中，對照細胞是不包含sgRNA^iBAR 構建體的細胞，或已經引入陰性對照sgRNA^iBAR 構建體的細胞，所述構建體包含不靶向細胞中任何基因組基因座的嚮導序列。在一些實施方案中，對照細胞是未暴露於刺激因數（諸如藥物）的細胞。

通過測定所選細胞群中的sgRNA^iBAR 序列來分析所選擇的具有經調節表型的細胞群。 sgRNA^iBAR 序列可通過基因組DNA的高通量測序，RT-PCR，qRT-PCR，RNA-seq或本領域已知的其他測序方法獲得。在一些實施方案中，sgRNA^iBAR 序列通過基因組測序或RNA測序獲得。在一些實施方案中，sgRNA^iBAR 序列通過二代測序獲得。

可以使用本領域任何已知的方法分析測序數據並與基因組比對。在一些實施方案中嚮導RNA的序列和相應的iBAR序列的計數由統計分析確定。在一些實施方案中序列計數經歷歸一化方法（諸如中值比歸一化）。

統計方法可用於確定在所選細胞群中增強或消耗的sgRNA^iBAR 分子的身份鑒別。示例性的統計方法包括但不限於線性回歸、廣義線性回歸和分層回歸。在一些實施方案中，序列計數在中值比歸一化後進行均值-方差建模。在一些實施方案中，MAGeCK（Li，W等人，MAGeCK使得能夠從基因組規模CRISPR / Cas9敲除篩選中強有力地鑒別出必需基因。文獻Genome Biol 15,554（2014））用於對嚮導RNA序列進行排序。

在一些實施方案中，基於使所述sgRNA^iBAR 序列中的諸iBAR序列之間的資料一致性與所述嚮導序列相對應來調整每個嚮導序列的方差。如本文所用的“資料一致性”是指對應於篩選實驗中不同iBAR序列的相同嚮導序列（例如序列計數，歸一化序列計數，排序或倍數變化）的測序結果的一致性。理論上，來自篩選的真實命中應該具有與具有相同嚮導序列但不同iBAR的sgRNA^iBAR 構建體相對應的相似歸一化序列計數、排序和/或倍數變化。

在一些實施方案中，將從選擇出的細胞群獲得的序列計數與從對照細胞群獲得的相應序列計數進行比較，以提供倍數變化。在一些實施方案中，基於每個iBAR序列的倍數變化的方向確定：所述sgRNA^iBAR 序列中的諸iBAR序列之間的資料一致性是否與所述嚮導序列相對應，其中如果倍數變化，則嚮導序列的方差增加。 iBAR序列相對於彼此處於相反的方向。在一些實施例中，將強力排序匯總應用於序列計數以確定資料一致性。

在一組sgRNA^iBAR 構建體中，可以基於該組中不同iBAR序列的預定閾值數m的富集方向的一致性來調整嚮導序列的排序，其中m是1和n之間的整數。例如，如果sgRNA^iBAR 組的至少m個iBAR序列呈現相同的倍數變化方向，即全部大於或小於對照組的那個，則排序（或方差）不變。然而，如果超過n-m個不同的iBAR序列顯示出不一致的倍數變化方向，那麼sgRNA^iBAR 組將通過降低其排序而受到降級（例如通過增加其方差）。強力排序匯總（RRA）是本領域可以使用的統計排名工具之一。本領域技術人員可以理解，進行統計排名也可以使用其它可利用的工具。本發明利用RRA計算每個基因的最終得分，以便基於每個基因的均值和方差獲得基因的排序。通過這種方式，在不同方向上顯示了相應iBAR之間有倍數變化的sgRNA可以通過增加的方差受到降級，這導致了某些基因的得分和排名更低。

在一些實施方案中，該方法用於陽性篩選，即通過鑒別在所選細胞群中增強的嚮導序列。在一些實施方案中，該方法用於陰性篩選（即通過鑒別在選擇出的細胞群中耗盡的嚮導序列）。在選擇出的細胞群中增強的嚮導序列基於序列計數或倍數變化排序高，而在所選細胞群中耗盡的嚮導序列基於序列計數或倍數變化排序低。

在一些實施方案中，該方法還包括驗證經鑒別的基因組基因座。例如，當鑒別基因組基因座時，可以重複使用相應的sgRNA^iBAR 構建體的實驗，或者可以設計一個或多個sgRNA（不含iBAR序列和/或帶有不同的嚮導序列）靶向相同的目的基因。可以將單個sgRNA^iBAR 或sgRNA構建體引入細胞中以驗證在細胞中編輯相同目的基因的效果。

進一步提供了分析來自本文描述的任一種篩選方法的測序結果的方法。示例性分析方法在實施例部分中描述，包括如MAGeCK^iBAR 演算法。

在一些實施方案中，提供了一種電腦系統，包括：輸入單元，其接收來自使用者的請求以鑒別經調節的細胞表型的基因組基因座;可操作地耦合到輸入單元的一個或多個電腦處理器，其中一個或多個電腦處理器被單獨地或共同地程式設計為：a）使用本文所述的任一種方法從基因篩選接收一組測序數據; b）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序; c）鑒別出對應於排序在預定閾值水準以上的嚮導序列的基因組基因座; d）以可讀方式呈現資料和/或生成測序數據的分析。

試劑盒和製品

本申請還提供了用於使用本文所述的sgRNA^iBAR 文庫的篩選方法的任一實施方案的試劑盒和製品。

在一些實施方案中，提供了用於篩選調節細胞表型的基因組基因座的試劑盒，其包含本文所述的任一種sgRNA^iBAR 文庫。在一些實施方案中，試劑盒還包含Cas蛋白或編碼Cas蛋白的核酸。在一些實施方案中，試劑盒還包含一種或多種sgRNA^iBAR 構建體的陽性和/或陰性對照組。在一些實施方案中，試劑盒還包含資料分析軟體。在一些實施方案中，試劑盒包含用於實施本文所述的任一種篩選方法的說明書。

在一些實施方案中，提供了用於製備可用於基因篩選的sgRNA^iBAR 文庫的試劑盒，其包含三個或更多個（例如四個）構建體，每個構建體包含不同的iBAR序列和用於插入嚮導序列以提供的克隆位點。一組sgRNA^iBAR 構建體。在一些實施方案中，構建體是載體，例如質粒或病毒載體（例如慢病毒載體）。在一些實施方案中，試劑盒包含用於製備sgRNA^iBAR 文庫和/或用於實施本文所述的任一種篩選方法的說明書。

試劑盒可以含有其他組分，例如容器，試劑，培養基，引物，緩衝液，酶等，以便於實施本文所述的任一種篩選方法。在一些實施方案中，試劑盒包含用於將sgRNA^iBAR 文庫和編碼Cas蛋白的Cas蛋白或核酸導入細胞的試劑，緩衝液和載體。在一些實施方案中，試劑盒包含引物，試劑和酶（例如聚合酶）用於製備從所選細胞中提取的sgRNA^iBAR 序列的測序文庫。

本申請的試劑盒處於合適的包裝中。合適的包裝包括但不限於小瓶，瓶子，廣口瓶，軟包裝（例如聚酯薄膜或塑膠袋）等。套件可以可選地提供額外的元件，例如緩衝劑和解釋性資訊。因此，本申請還提供了製品，其包括小瓶（例如密封小瓶），瓶子，罐子，軟包裝等。

本申請還提供了試劑盒或製品，其包含用於本文所述任一種篩選方法的任一sgRNA^iBAR 構建體，sgRNA^iBAR 分子，sgRNA^iBAR 組，細胞庫或其組合物。

實施例

以下實施例旨在作為本申請的示例，因此不應被視為以任何方式限制本發明。提供以下實施例和詳細描述是為了說明而非限制。

方法

細胞和試劑

將HeLa和HEK293T細胞系維持在補充有1%青黴素/鏈黴素和10%胎牛血清（FBS，CellMax BL102-02）的Dulbecco改良Eagle培養基（DMEM，Gibco C11995500BT）中，並在37℃下用5%CO₂ 培養。檢查所有細胞中是否存在支原體污染。

質粒構建

通過使用來自Plenti-sgRNA-Lib的BstBI（NEB，R0519）和XhoI（NEB，R0146）改變BsmBI（Thermo Scientific，ER0451）位點的位置來構建出表達慢病毒sgRNA^iBAR 的框架（Addgene，＃53121）。使用BsmBI介導的Golden Gate克隆策略將表達sgRNA和sgRNA^iBAR 的序列克隆到框架中²⁸ 。

基因組規模CRISPR sgRNA^iBAR 文庫的設計

從UCSC hg38基因組檢索基因注釋，其包含19,210個基因。對於每個基因，使用我們新開發的DeepRank演算法設計了三種不同的sgRNA，這些sgRNA在基因組中的16-bp種子區域具有至少一個錯配，具有高水準的預測靶向效率。然後我們隨機為每種sgRNA分配了4個6-bp的iBAR（iBAR₆ ）。我們設計了額外的1,000個不靶向sgRNA，每個都有4個iBAR₆ ，作為陰性對照。

CRISPR sgRNA^iBAR 質粒文庫的構建

設計85-nt DNA寡核苷酸並進行陣列合成。靶向寡核苷酸側翼序列的引物（oligo-F和oligo-R）用於PCR擴增。使用Golden Gate方法²⁸ 將PCR產物克隆到上文構建的慢病毒載體中。將連接混合物轉化到Trans1-T1感受態細胞（Transgene，CD501-03）中以獲得文庫質粒。計數轉化的克隆以確保sgRNA^iBAR 文庫的規模覆蓋至少100倍。按照標準方案（QIAGEN 12362）提取文庫質粒，並用兩種慢病毒包裝質粒pVSVG和pR8.74（Addgene，Inc）轉染到HEK293T細胞中以獲得文庫病毒。使用相同的方案構建包含針對一種靶向ANTXR1的sgRNA的所有4,096個iBAR₆ 的iBAR文庫。

篩選含有所有4,096種iBAR₆ 的sgRNA^iBAR-ANTXR1 文庫

將總共2×10⁷ 個細胞接種在150-mm培養皿上，並用MOI為0.3的文庫慢病毒感染。感染72小時後，將細胞重新接種並用1μg/ ml嘌呤黴素（Solarbio P8230）處理48小時。對於每個複本，收集5×10⁶ 個細胞用於基因組提取。在文庫感染的細胞培養15天后，使用PA / LFnDTA毒素^29,30 進行sgRNA^iBAR-ANTXR1 文庫的篩選⁷ 。然後，使用Primer-F和Primer-R擴增具有基因組DNA中的iBAR編碼區的sgRNA（TransGen，AP131-13），然後使用NEBNext Ultra DNA文庫製備試劑盒（Illumina（NEB E7370L））進行高通量測序分析（Illumina HiSeq2500）。

篩選基因組規模CRISPR / Cas9 sgRNA^iBAR 文庫，用於對TcdB細胞毒性和細胞活力必需基因重要的基因

將總共1.6×10⁸ 個細胞（MOI = 0.3），1.53×10⁷ 個細胞（MOI = 3）和4.6×10⁶ 個細胞（MOI = 10）分別鋪在150-mm培養皿上用於2個複本的sgRNA文庫構建。用不同MOI的文庫慢病毒感染細胞，並在感染後用1μg/ ml嘌呤黴素處理72小時。將sgRNA^iBAR 整合的細胞再培養15天以使基因敲除最大化。將細胞重新接種到150-mm培養皿上，用TcdB（100μg/ ml）處理10小時，然後通過重複移液移除鬆散附著的圓形細胞¹⁹ 。對於每輪篩選，將細胞在不含TcdB的新鮮培養基中培養至達約50%-60%匯合。彙集一個複本中的所有抗性細胞並進行另一輪TcdB篩選。對於隨後的三輪篩選，TcdB濃度分別為125pg / ml，150pg / ml和175pg / ml。在四輪處理後，收集抗性細胞和未處理的細胞用於基因組DNA提取，sgRNA的擴增和NGS分析。將7對引物用於PCR擴增（表1），並將PCR產物混合用於NGS。對於MOI為0.3的陰性篩選，在NGS解碼之前培養總共4.6×10⁷ （兩個複本）個整合了sgRNA^iBAR 的細胞28天。

表1.用於基因組DNA和文庫構建的PCR擴增的引物

名稱	序列	描述
Oligo-F	5’-TTGTGGAAACGTCTCAACCG (SEQ ID NO: 1)	用於陣列合成寡核苷酸的PCR擴增
Oligo-R	5’-CTCTAGCTCCGTCTCATGTT (SEQ ID NO: 2)
B-F	5’-TATATTCGAACGTCTCTAACAGCATAGCAAGTTTAAATAAGGCAGTCCGTTATCAACTTGAAAAA (SEQ ID NO: 3)	用於表達sgRNA^iBAR 的框架的構建
B-R	5'-TATACTCGAGAAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTAT (SEQ ID NO: 4)
AN-F	5’-AAGCGGAGGACAGGATTGGG (SEQ ID NO: 5)	用於為NGS（二代測序）做sgRNA^iBAR-ANTXR1 編碼區域的PCR擴增
AN-R	5’-CCTCTGTGGCCCTGGAGATG (SEQ ID NO: 6)
CSPG4-F	5’-CACGGGCCCTTTAAGAAGGT (SEQ ID NO: 7)	用於CSPG4基因的T7E1測定的PCR擴增
CSPG4-R	5’-GGACCCACTTCTCACTGTCG (SEQ ID NO: 8)
MLH1-F	5’-GTGCTCATCGTTGCCACATATTA (SEQ ID NO: 9)	用於MLH1基因的T7E1測定的PCR擴增
MLH1-R	5’-TACGTGTAACAGACACCTTGC (SEQ ID NO: 10)
MSH2-F	5’-TTGGGTGTGGTCGCCGTG (SEQ ID NO: 11)	用於MSH2基因的T7E1測定的PCR擴增
MSH2-R	5’-CACAAGCACCAACGTTCCG (SEQ ID NO: 12)
MSH6-F	5’-TTTTTAAATACTCTTTCCTTGCCTG (SEQ ID NO: 13)	用於MSH6基因的T7E1測定的PCR擴增
MSH6-R	5’-AGGGCGTTTCCTTCCTAGAG (SEQ ID NO: 14)
PMS2-F1	5’-ACACTGTCTTGGGAAATGCAA (SEQ ID NO: 15)	用於PMS2基因的T7E1測定的PCR擴增(sgRNA1,2)
PMS2-R2	5’-TGGCAGCGAGACAAAAC (SEQ ID NO: 16)
PMS2-F2	5’-CTCACTGAACACACCATGCC (SEQ ID NO: 17)	用於PMS2基因中T7E1測定的PCR擴增(sgRNA3)
PMS2-R2	5’-GGTCTCACTGTGTTGCCCAG (SEQ ID NO: 18)
1-F	5'-TACACGACGCTCTTCCGATCTTAAGTAGAGTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 19)	用於為NGS作sgRNA^iBAR 編碼區域的PCR擴增
1-R	5'-AGACGTGTGCTCTTCCGATCTTAAGTAGAGAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 20)
2-F	5'-TACACGACGCTCTTCCGATCTATCATGCTTATATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 21)
2-R	5'-AGACGTGTGCTCTTCCGATCTATCATGCTTAAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 22)
3-F	5'-TACACGACGCTCTTCCGATCTGATGCACATCTTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 23)	用於為NGS作sgRNA^iBAR 編碼區域的PCR擴增
3-R	5'-AGACGTGTGCTCTTCCGATCTGATGCACATCTAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 24)
4-F	5'-TACACGACGCTCTTCCGATCTCGATTGCTCGACTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 25)
4-R	5'-AGACGTGTGCTCTTCCGATCTCGATTGCTCGACAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 26)
5-F	5'-TACACGACGCTCTTCCGATCTTCGATAGCAATTCTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 27)
5-R	5'-AGACGTGTGCTCTTCCGATCTTCGATAGCAATTCAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 28)
6-F	5'-TACACGACGCTCTTCCGATCTATCGATAGTTGCTTTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 29)
6-R	5'-AGACGTGTGCTCTTCCGATCTATCGATAGTTGCTTAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 30)
7-F	5'-TACACGACGCTCTTCCGATCTGATCGATCCAGTTAGTATCTTGTGGAAAGGACGAAACACC (SEQ ID NO: 31)
7-R	5'-AGACGTGTGCTCTTCCGATCTGATCGATCCAGTTAGAGCTTATCGATACCGTCGACCTC (SEQ ID NO: 32)

篩選基因組規模CRISPR / Cas9 sgRNA^iBAR 文庫，用於對6-TG細胞毒性重要的基因

將總共5×10⁷ 個細胞接種在150-mm培養皿上，並獲得兩次複本。用MOI為3的文庫慢病毒感染細胞，並在感染後72小時用1μg/ ml嘌呤黴素處理。將sgRNA^iBAR 整合的細胞再培養15天，以總數5×10⁷ 重新接種，然後用200ng / ml 6-TG（Selleck）處理。對於以下兩輪篩選，6-TG濃度為250ng / ml和300ng / ml。對於每輪選擇，將藥物維持7天，並將細胞在不含6-TG的新鮮培養基中培養另外3天。然後，將一個複本中的所有抗性細胞組合在一起並進行另一輪6-TG篩選。在三輪處理後收集抗性細胞和未處理的細胞用於基因組DNA提取，用iBAR區域擴增sgRNA並深度測序分析。

陽性篩選資料分析

MAGeCK^iBAR 是使用基於MAGeCK演算法¹⁷ 的sgRNA^iBAR 文庫為篩選開發的分析策略。 MAGeCK^iBAR 充分利用了Python，Pandas，NumPy，SciPy。分析演算法包含三個主要部分：分析準備，統計測試和排序匯總(rank aggregation)。在分析準備階段，對輸入的sgRNA^iBAR 原始計數進行歸一化，然後對總體均值和方差的係數進行建模。在統計檢驗階段，我們使用檢驗來確定處理和對照歸一化讀數之間差異的顯著性。在排序匯總階段，我們匯總了針對每個基因的所有sgRNA^iBAR 的排序，以獲得最終的基因排序。

歸一化和準備

我們首先從測序數據獲得sgRNA^iBAR 的原始計數。由於測序深度和測序錯誤可能會影響sgRNA^iBAR 的原始計數，因此在進行以下分析之前需要進行歸一化。估計大小因數(size factor)以使不同測序深度的原始計數歸一化。然而，由於少數高度富集的sgRNA可能對總讀數計數具有強烈影響，因此不應在歸一化中使用與總讀數計數的比率。因此，我們選擇中值比率歸一化³¹ 。假設文庫中有n個sgRNA，i範圍從1到n，總共m個實驗（對照組和治療組），j範圍從1到m。大小因數可表示如下：

因此，我們通過計算相應的大小因數在每個實驗中獲得sgRNA^iBAR 的歸一化計數。在均值-方差建模步驟中，NB分佈用於估計生物學複本和不同處理中每個sgRNA^iBAR 的平均值和方差³² ：

我們使用MAGeCK採用的模型來計算均值和方差的係數¹⁷ 。均值-方差模型滿足以下關係：

為了確定來自庫中所有sgRNA^iBAR 的k和b係數，可以將該函數轉換為線性函數：

直接計算治療和對照計數的平均值，並且可以從平均值和係數計算相應的方差。對於CRISPR-iBAR分析，我們通過不同iBAR的表現評估了sgRNA的富集。我們為每個sgRNA設計了四個iBAR，作為內部複本。由於文庫構建期間的高MOI，一定有與真的陽性命中相關的假陽性sgRNA “搭便車”。這裡的“搭便車”用於描述靶向sgRNA的（與功能性sgRNA誤相關的）無關基因進入相同的細胞。我們基於每種sgRNA的不同iBAR的富集方向來修改sgRNA^iBAR 的方差。如果一個sgRNA的所有iBAR呈現相同的倍數變化方向，即全部大於或小於對照組的那個，那麼方差將保持不變。然而，如果一個具有不同iBAR的sgRNA顯示出不一致的倍數變化方向，那麼這種sgRNA將通過增加其方差而受到降級。不一致的sgRNA^iBAR 的最終調整方差是模型估計的方差加上從Ctrl和Exp樣本計算的實驗方差。

最後，通過治療的平均和標準化方差與對照組相比，計算sgRNA^iBAR 的得分：

其中是第i個sgRNA的治療計數的平均值，並且是第i個sgRNA的對照計數的平均值和方差。因為方差被用作計算得分的分母，所以不一致的sgRNA^iBAR 的擴大方差導致較低的得分。

統計測試和排序匯總

正態分佈用於測試治療計數。標準正態分佈中得分的兩側分別提供了較大尾部和較小尾部P值。

為了獲得基因排序，我們使用RRA方法(robust rank aggregation method)，這是用於匯總排序的適當方法³³ 。 MAGeCK通過限制富集的sgRNA¹⁷ 採用改良的RRA方法。假設一個基因在M sgRNA^iBAR 文庫中總共有n個sgRNA具有不同的iBAR;每個sgRNA^iBAR 在文庫

中都有一個排序。首先，應該通過文庫中sgRNA^iBAR 的總數來歸一化sgRNA^iBAR 的排序。我們獲得了每個

的歸一化排序

，其中

。然後，我們計算了歸一化的排序

，使得

。經整理的歸一化遵循在0和1之間均勻分佈。概率

（其中

）遵循β分佈

，使得

。對於每個基因，得分

可以通過RRA獲得並通過Bonferroni校正進一步調整³³ 。我們採用了開發了α-RRA的MAGeCK，從排序列表中選擇了最前α%的sgRNA。選擇低於閾值（例如0.25）的sgRNA的P值。在RRA計算中僅考慮一個基因的最前sgRNA，然後使

，其中

。

陰性篩選資料分析

在基於iBAR策略的高MOI的陽性篩選分析過程中，我們修改了相應標籤中具有不同倍數變化方向的sgRNA的模型估計方差。但對於陰性篩選，大多數非功能性sgRNA將保持不變。因此，基於相應標籤的倍數變化方向的方差修改演算法變得不足以證明某些sgRNA是否是假陽性結果。因此，我們直接將標籤視為內部複本。在考慮iBAR時，我們對陰性篩選進行了兩次強力排序匯總，而不是對不一致的sgRNA^iBAR 進行方差調整。第一輪強力排序匯總將sgRNA^iBAR 水準匯總為sgRNA水準，第二輪將sgRNA水準匯總為基因水準。

驗證候選基因

為了驗證每個基因，我們選擇在文庫中設計的兩個sgRNA，並將其克隆到具有嘌呤黴素選擇標誌物的慢病毒載體中。我們使用X-tremeGENE HP DNA轉染試劑（Roche）將兩種sgRNA質粒混合並用兩種慢病毒包裝質粒（pVSVG和pR8.74）共轉染到HEK293T細胞中。將穩定表達Cas9的HeLa細胞用慢病毒感染3天，並用1μg/ ml嘌呤黴素處理2天。然後，在每個孔中加入5,000個細胞，每組獲得5個複本。 24小時後，實驗組用150ng / ml 6-TG處理，對照組用正常培養基處理7天。然後，按照標準方案進行MTT（Amresco）染色和檢測。將用6-TG處理的實驗孔與未經6-TG處理的孔歸一化。

結果

我們任意設計了6-nt長的iBAR（iBAR₆ ），其產生了4,096個標籤組合，為我們的目的提供了足夠的變化（圖1A）。為了確定這些額外的iBAR序列的插入是否影響gRNA活性，我們構建了靶向炭疽毒素受體基因ANTXR116的預定sgRNA的文庫，其與所有4,096種類型的iBAR₆ 組合。這種特殊的sgRNA^iBAR-ANTXR1 文庫在HeLa細胞中構建，該細胞通過MOI為0.3的慢病毒轉導不斷表達Cas9^7,8 。經過三輪PA / LFnDTA毒素處理和富集後，如先前報導的那樣，通過NGS分析檢測sgRNA及其來自抗毒素細胞的iBAR₆ 序列⁷ 。大多數sgRNA^iBAR-ANTXR1 和未加標籤的sgRNA^ANTXR1 顯著富集，而幾乎所有不靶向的對照sgRNA在抗性細胞群中都不存在。重要的是，具有不同iBAR₆ 的sgRNA^iBAR-ANTXR1 的富集水準似乎在兩個生物學複本之間是隨機的（圖1B）。在計算iBAR₆ 的每個位置處的核苷酸頻率後，我們未能觀察到來自任一複本的核苷酸的任何偏差（圖1C）。此外，iBAR₆ 中的GC含量似乎不影響sgRNA剪切效率（圖2）。然而，有少量iBAR₆ 的附屬sgRNA^ANTXR1 在篩選複本中表現不佳。為了排除這些iBAR₆ 對sgRNA活性具有負面影響的可能性，我們從sgRNA^iBAR-ANTXR1 排序靠後處選擇了六種不同的iBAR用於進一步研究。與未加標籤的對照sgRNA^ANTXR1 相比，這些sgRNA^iBAR-ANTXR1 中的所有6個在靶位點產生DNA雙鏈斷裂（DSB）（圖1D）並且導致毒素抗性表型的ANTXR1基因破壞具有相當的效率（圖1E）。我們進一步證實了：iBAR分別針對CSPG4，MLH1和MSH2的四種不同sgRNA對sgRNA效率的影響可忽略不計（圖3）。總之，這些結果表明這種重新設計的sgRNA^iBAR 保留了足夠的sgRNA活性，使得通常可以在彙集了CRISPR的篩選中應用該策略。

基於iBAR策略，我們然後開始擴展其應用以在高MOI下實施新的sgRNA^iBAR 文庫篩選。我們按照標準程式收集文庫細胞，提取其基因組DNA用於iBAR編碼區的sgRNA PCR擴增，並進行NGS分析^7,11,12 。MAGeCK演算法可用於通過歸一化它的原始計數來計算sgRNA得分的統計學顯著性，使用負二項式（NB）模型來估計其方差，並使用具有均勻分佈的零模型確定其排序¹⁷ 。考慮到iBAR，我們評估了同一實驗複本中所有相關iBAR中任何sgRNA計數變化的一致性。該過程有效地消除了由於在細胞庫構建中的高MOI下的慢病毒感染而與功能性sgRNA相關的“搭便車者”。具體而言，對於iBAR系統，我們故意調整模型估計的方差，僅針對那些多個iBAR的倍數變化方向相反的sgRNA，導致這些異常值的P值增加。最後，我們根據sgRNA得分和生物學複本之間的技術差異確定了命中基因（圖4）。我們開發了這種基於MAGeCK的特定演算法，名為MAGeCK^iBAR ，用於分析sgRNA^iBAR 文庫篩選，其是開源的，可免費下載。

然後，我們構建了覆蓋每個經注釋的人類基因的sgRNA^iBAR 文庫。對於19,210個人類基因中的每個，使用DeepRank方法設計了三種獨特的sgRNA，為其中每種隨機分配了四個iBAR₆ 。此外，包括1,000個不靶向sgRNA，每個具有4個iBAR₆ ，作為陰性對照。為了便於統計比較，將每組3種獨特的不靶向sgRNA人工命名為陰性對照基因。 85-nt sgRNA^iBAR 寡核苷酸在電腦上設計（圖5），使用陣列合成法合成，並作為彙集文庫克隆到慢病毒框架中。表達Cas9的HeLa細胞用sgRNA^iBAR 文庫慢病毒以三種不同的MOI（0.3、3和10）轉導，對sgRNA進行400倍覆蓋以產生細胞庫，其中每個sgRNA^iBAR 被覆蓋100倍。為了評估iBAR設計對不同MOI下CRISPR篩選的影響，我們進行了陽性篩選，以鑒別出難介導型梭菌毒素B（TcdB）細胞毒性的基因，這是該厭氧桿菌的關鍵毒力因數之一¹⁸ 。我們先前已經報導了TcdB功能性受體CSPG4¹⁹ 的首次鑒別，其編碼基因也被鑒別並在基因組規模的CRISPR文庫篩選²⁰ 中排序最前。在該報導的CRISPR篩選中，UGP2基因也是排序在靠前處的，並且鑒別並證實為FZD2編碼介導TcdB對宿主細胞的殺傷作用的次級受體。值得注意的是，FZD2的作用與CSPG4相比明顯相形見絀，因此FZD2基因只能通過截短的TcdB進行鑒別，其中CSPG4相互作用區域被刪除²⁰ 。在我們的TcdB篩選中，我們使用MAGeCK^iBAR 和MAGeCK分別分析來自iBAR和傳統CRISPR篩選的資料。因此，我們從兩者中獲得了排序靠前的基因（FDR >0.15）。

為了在0.3的低MOI下篩選，鑒別CSPG4和UGP2並排序在前（圖6A），與先前的報導²⁰ 一致。在考慮iBAR時，除了CSPG4和UGP2之外，我們還確定了FZD2（圖6B）。因為FZD2是經證實的TcdB受體，其在HeLa細胞中比CSPG4發揮更弱的作用²⁰ ，這些結果表明，當以低MOI構建細胞庫時，iBAR方法提供優於傳統CRISPR篩選的品質和靈敏度。此外，CSPG4和UGP2的排序在兩個實驗複本之間的CRISPR^iBAR 篩選中更加一致，再次表明新方法的品質高得多（圖6A、6B）。在高MOI（3和10）下，CSPG4和UGP2可以從CRISPR和CRISPRiBAR篩選中分離，但後者的資料品質顯著更高（圖6C-6F）。通常，MOI越高，傳統方法的信噪比越差。在MOI為10時，在常規方法中假陽性命中的數量急劇增加，但在CRISPR^iBAR 篩選中沒有（圖6E、6F）。令人印象深刻的是，即使MOI為10，CSPG4和UGP2仍然在CRISPR^iBAR 篩選中排序靠前，儘管資料品質略有下降（圖6F）。值得注意的是，幾乎所有靶向CSPG4和UGP2的sgRNA^iBAR 在TcdB處理後都顯著富集（圖7），與使用常規方法在MOI為10時鑒別的其他基因明顯不同，例如SPPL3，這可能是假陽性結果（圖7）。比較兩個生物學複本，CSPG4和UGP2在具有所有MOI條件的CRISPR^iBAR 篩選的兩個生物學複本中均排序靠前（圖6b，6d，6f），但不是來自UGP2的排序較低的常規CRISPR篩選在MOI為3的兩個複本中均超過60（圖6C），並且在MOI為10的兩個複本中出現許多假陽性命中（圖6E）。這些結果表明，即使在高MOI下，iBAR方法仍保持資料品質，因為常規CRISPR篩選的MOI較低。另外，由於兩個實驗複本之間的高度一致性，一個生物學複本可能足以使用CRISPR^iBAR 篩選鑒別命中基因（圖6）。畢竟，可以在一個基於iBAR方法的實驗中進行多次複製。

為了進一步評估iBAR方法的功效，我們繼續進行篩選以鑒別調節細胞對6-TG²¹ 的易感性的基因，後者是可以參與過程以抑制DNA合成的癌症藥物。我們決定以MOI為3構建基因組規模的sgRNA^iBAR 文庫，以產生每個sgRNA具有高覆蓋度（2,000倍）的細胞庫，其中每個sgRNA^iBAR 被覆蓋500倍。顯示了兩個實驗複本的總讀數分佈（圖8A），並且兩個複本的參比細胞庫達到了所有最初設計的sgRNA的97%覆蓋率（圖8B）。原始文庫中超過95%的sgRNA保留了3至4個iBAR，表明大多數sgRNA具有足夠的標籤變體用於篩選和資料分析的文庫的良好品質（圖8C）。所有基因的倍數變化在兩個生物學複本之間相關性良好（圖9）。對於兩個sgRNA文庫重複的相同6-TG篩選，我們還使用MAGeCK和MAGeCK^iBAR 分析。對於MAGeCK^iBAR ，我們因此獲得了所有sgRNA^iBAR 的調整方差和平均分佈，這增強了sgRNA的方差，不同的iBAR複本之間的富集不一致（圖10）。

從具有統計學顯著性的陽性選擇出的sgRNA中，我們鑒別出排序最前的基因（FDR >0.15），其相應的sgRNA在不同的iBAR中一致地富集（圖11A），並且我們還使用MAGeCK演算法發現了這些靠前的基因。沒有考慮標籤（圖11B）。與先前的報導²² 一致，靶向HPRT1基因的sgRNA在兩種方法中排序靠前。先前報導了四種基因（MLH1，MSH2，MSH6和PMS2）參與6-TG介導的細胞死亡⁶ 。我們檢查並確認了除了針對這四種基因的一種主要設計的sgRNA之外的所有剪切活性（圖12），表明這些基因確實與我們使用的HeLa細胞中6-TG介導的細胞死亡無關（圖11C）。當分別分析兩個生物學複本時，每個複本的前20個基因與CRISPR^iBAR 篩選顯示高水準的一致性（排序的Spearman相關係數= 0.74），而使用常規方法時兩個複本的共同性較少（Spearman相關排序係數= -0.09）（圖11D和表2）。

表2：使用MAGeCK^iBAR 和MAGeCK分析的兩個生物學複本的前20個基因列表。

MAGeCK^iBAR	MAGeCK
複本 1	複本 2	複本 1	複本 2
基因	得分	基因	得分	基因	得分	基因	得分
HPRT1	4.29E-33	HPRT1	1.03E-28	HPRT1	1.16E-07	HPRT1	1.75E-06
ITGB1	1.28E-17	ITGB1	3.27E-14	AKTIP	1.46E-06	HCRTR2	4.25E-06
SRGAP2	2.84E-16	SRGAP2	4.68E-14	ITGB1	2.10E-06	AKTIP	1.72E-05
ACSBG1	3.62E-16	ACSBG1	1.41E-13	FGF13	1.51E-05	ITGB1	2.12E-05
ACTR3C	4.97E-16	PPP1R17	1.59E-12	PQLC2L	3.02E-05	CXorf51B	3.02E-05
PPP1R17	6.55E-16	AKTIP	7.93E-12	MYL6	6.03E-05	APRT	6.03E-05
CALM2	7.83E-15	KIFAP3	2.68E-11	C4BPB	6.46E-05	FGF13	7.11E-05
AUTS2	4.50E-14	CALM2	2.94E-11	CALM2	6.52E-05	EPPK1	1.27E-04
FMN2	5.66E-14	TCF21	5.73E-11	AUTS2	7.64E-05	GALR1	1.51E-04
AKTIP	9.30E-14	ISLR2	7.23E-11	VIT	9.85E-05	PQLC2L	2.11E-04
KIFAP3	1.47E-13	FMN2	1.02E-10	SPSB2	1.17E-04	SAP25	2.72E-04
TCF21	1.59E-13	TOR1AIP1	3.22E-10	FMN2	1.23E-04	HSDL1	2.94E-04
ISLR2	2.75E-12	CALCRL	3.82E-10	CALCRL	1.29E-04	LONRF2	3.14E-04
OSBPL3	3.91E-12	EVA1B	5.97E-10	SRGAP2	1.36E-04	GPAA1	3.32E-04
LRRC42	4.22E-12	SH2D1A	8.27E-10	ACTR3C	1.50E-04	SRR	3.66E-04
SH2D1A	4.41E-12	AUTS2	9.84E-10	GOLM1	1.51E-04	KCNK6	3.72E-04
EVA1B	5.76E-12	ACTR3C	3.57E-09	PPP1R17	1.52E-04	TMPRSS11E	3.82E-04
FCGR1B	9.99E-12	LRRC42	5.93E-09	KIFAP3	1.53E-04	CD93	3.92E-04
TOR1AIP1	1.47E-11	ATP6V0C	7.88E-09	PPIP5K2	1.53E-04	FMN2	4.27E-04
CALCRL	4.98E-11	PPIP5K2	1.11E-08	TOR1AIP1	1.56E-04	AUTS2	4.28E-04

注意：在兩個複本的列表中排序在前20的基因以粗體標記。

為了驗證篩選結果，我們從頭設計並組合兩個sgRNA以製備用於靶向每個候選基因的微-彙集池，並且通過慢病毒感染將每個彙集池引入HeLa細胞中（表3）。

表3用於來自6-TG篩選的候選基因功能驗證的sgRNA設計以及用於測試iBAR對活性的影響的sgRNA設計

sgRNA	序列
HPRT1_sgRNA 1	TCACCACGACGCCAGGGCTG (SEQ ID NO: 33)
HPRT1_sgRNA 2	GTTATGGCGACCCGCAGCCC (SEQ ID NO: 34)
ITGB1_sgRNA 1	ACACAGCAAACTGAACTGAT (SEQ ID NO: 35)
ITGB1_sgRNA 2	TACCTGTTTGAGCAAACACA (SEQ ID NO: 36)
SRGAP2_sgRNA 1	CAGCCAAATTCAAAAAGGAT (SEQ ID NO: 37)
SRGAP2_sgRNA 2	CCAAATTCAAAAAGGATAAG (SEQ ID NO: 38)
AKTIP_sgRNA 1	GCTTGTAGACATGCTCCAGA (SEQ ID NO: 39)
AKTIP_sgRNA 2	CACGTTATGAACCCTTTCTG (SEQ ID NO: 40)
ACTR3C_sgRNA 1	CAGGACTCTACATTGCAGTT (SEQ ID NO: 41)
ACTR3C_sgRNA 2	CGTTCCAGGACTCTACATTG (SEQ ID NO: 42)
PPP1R17_sgRNA 1	TGATGTCCACTGAGCAAATG (SEQ ID NO: 43)
PPP1R17_sgRNA 2	CAGTGGCTGCATTTGCTCAG (SEQ ID NO: 44)
ASCBG1_sgRNA 1	TGGGCAGCCGTATCCAGCTC (SEQ ID NO: 45)
ASCBG1_sgRNA 2	GCAGATGCCACGCAATTCTG (SEQ ID NO: 46)
CALM2_sgRNA 1	GTAGGCTGACCAACTGACTG (SEQ ID NO: 47)
CALM2_sgRNA 2	CAATCTGCTCTTCAGTCAGT (SEQ ID NO: 48)
TCF21_sgRNA 1	ACTCCCCCAAACATGTCCAC (SEQ ID NO: 49)
TCF21_sgRNA 2	CACATCGCTGAGGGAGCCGG (SEQ ID NO: 50)
KIFAP3_sgRNA 1	CAACACAGATATAACTTCCC (SEQ ID NO: 51)
KIFAP3_sgRNA 2	CAGGGAAGTTATATCTGTGT (SEQ ID NO: 52)
FGF13_sgRNA 1	TTGTTCTCTTTGCAGAGCCT (SEQ ID NO: 53)
FGF13_sgRNA 2	TCTTTGCAGAGCCTCAGCTT (SEQ ID NO: 54)
DUPD1_sgRNA 1	CAGATGAGTAGGCATTCTTG (SEQ ID NO: 55)
DUPD1_sgRNA 2	ATGCCTACTCATCTGCCAAG (SEQ ID NO: 56)
TECTA_sgRNA 1	TGAAAGAGACCCAAATTCTA (SEQ ID NO: 57)
TECTA_sgRNA 2	TTCGCACTTGTACAGCACCA (SEQ ID NO: 58)
GALR1_sgRNA 1	GGCGGTCGGGAACCTCAGCG (SEQ ID NO: 59)
GALR1_sgRNA 2	GTTCCCGACCGCCAGCTCCA (SEQ ID NO: 60)
OR51D1_sgRNA 1	TATGATAGGGACCAAGAGCT (SEQ ID NO: 61)
OR51D1_sgRNA 2	ATGATAGGGACCAAGAGCTG (SEQ ID NO: 62)
MLH1_sgRNA 1	ATTACAACGAAAACAGCTGA (SEQ ID NO: 63)
MLH1_sgRNA 2	CTGATGGAAAGTGTGCATAC (SEQ ID NO: 64)
MSH2_sgRNA 1	CGCGCTGCTGGCCGCCCGGG (SEQ ID NO: 65)
MSH2_sgRNA 2	GGTCTTGAACACCTCCCGGG (SEQ ID NO: 66)
MSH2_sgRNA 3	GTGAGGAGGTTTCGACATGG (SEQ ID NO: 67)
MSH6_sgRNA 1	GAAGTACAGCCTAAGACACA (SEQ ID NO: 68)
MSH6_sgRNA 2	AGCCTAAGACACAAGGATCT (SEQ ID NO: 69)
PMS2_sgRNA 1	CGACTGATGTTTGATCACAA (SEQ ID NO: 70)
PMS2_sgRNA 2	AGTTTCAACCTGAGTTAGGT (SEQ ID NO: 71)
CSPG4_sgRNA 1	GAGTTAAGTGCGCGGACACC (SEQ ID NO: 72)
CSPG4_sgRNA 2	CCACTCAGCTCCCAGCTCCC (SEQ ID NO: 73)
neg_sgRNA 1	CAATAGCAAACCGGGGCAGT (SEQ ID NO: 74)
neg_sgRNA 2	GTGACTCCATTACCAGGCTG (SEQ ID NO: 75)

通過3-（4,5-二甲基-2-噻唑基）-2,5-二苯基-2H-四唑溴化物（MTT）檢測定量sgRNA文庫對針對6-TG處理的細胞活力的影響。選擇來自CRISPR^iBAR 以及CRISPR篩選的前10個基因用於驗證。值得注意的是，鑒別出兩個不靶向的對照基因(non-targeting control genes)，排在常規CRISPR篩選的候選者列表前10中。由於我們用於生成細胞庫的高MOI，這些明顯的假陽性結果是可預測的。我們成功證實兩個複本的CRISPR^iBAR 前10候選基因均為真陽性結果;相反，來自常規方法候選者列表的前10中僅五個基因證明是真陽性（圖11E）。其中，使用兩種方法都獲得了四種基因（HPRT1，ITGB1，SRGAP2和AKTIP），而六種基因（ACTR3C，PPP1R17，ACSBG1，CALM2，TCF21和KIFAP3）僅被CRISPR^iBAR 鑒定出來並且排序在前。總之，與傳統方法相比，iBAR提高了高MOI篩選的準確性（假陽性和假陰性率很低）。

我們進一步評估了靶向前四種候選基因（HPRT1，ITGB1，SRGAP2和AKTIP）的每種sgRNA^iBAR 的性能。富集sgRNA的所有不同iBAR似乎對其附屬sgRNA的富集水準幾乎沒有影響，並且與任何特定sgRNA相關的iBAR的順序似乎是隨機的（圖13），進一步支援了我們之前關於iBAR的認識，即其不影響其附屬sgRNA的效率。在兩個複本中，在6-TG處理後，所有四種HPRT1靶向sgRNA^iBAR 顯著富集（圖11F）。其他CRISPR^iBAR 鑒定的基因的大多數sgRNA^iBAR 在6-TG選擇後富集（圖14）。相比之下，只有極少數來自常規CRISPR篩選的一些靠前基因的sgRNA^iBAR 被富集，包括FGF13（圖11G）、GALR1和兩個陰性對照基因（圖15），導致MAGeCK而非MAGeCK^iBAR 分析中的假陽性命中（圖16）。

如我們設計的，每個sgRNA的四個標籤似乎提供足夠的內部複本以評估資料一致性。兩個生物學複本之間的高度一致性表明，對於CRISPR篩選使用iBAR方法一個實驗複本是足夠的（圖6、圖11D和表2）。由於在用於文庫構建的固定數量的細胞的轉導中具有高MOI的文庫覆蓋率顯著增加，我們將文庫構建的起始細胞減少超過20倍（MOI = 3）和70倍（MOI = 10）以匹配甚至勝過使用兩個生物學複本的MOI為0.3的常規篩選結果（表4）。

表4.在不同MOI下TcdB篩選的CRISPR文庫構建所需的細胞數量比較

用在不同MOI下構建的sgRNA文庫的篩選方法	轉導率	構建人全基因組文庫所需的細胞數
CRISPR 篩選 (MOI~0.3)	26%	1.78×10⁸ (2 個複本) \| 400×為每個sgRNA
CRISPR^iBAR 篩選(MOI~3)	95%	8.14×10⁶ (1個複本) \| 100×為每個sgRNA^iBAR
CRISPR^iBAR 篩選(MOI~10)	>99.9%	2.32×10⁶ (1個複本) \| 100×為每個sgRNA^iBAR

由於多次剪切降低了細胞活力，因此以高MOI構建的CRISPR文庫對於陰性篩選而言可能具有異常的錯誤發現率^23,24 。因此，我們在MOI為0.3時進行了基因組規模的陰性篩選，以在調用必需基因方面對iBAR方法進行評估。對於使用iBAR的陽性篩選，我們修改了標籤中具有不同倍數變化方向的sgRNA的模型估計方差，以擴大方差，從而使誤相關的sgRNA受到足夠的降級。然而，對於陰性篩選，經由誤相關的sgRNA消耗對其倍數變化方向的一致性幾乎沒有影響，因為非功能性sgRNA保持不變。因此，我們僅將標籤視為內部複本，而不帶降級程式(penalty procedure)。我們使用金標準必需基因(gold-standard essential genes )²⁵ ，採用iBAR方法在低MOI下進行陰性篩選，跟傳統的方法相比，確實獲得了改進的統計學結果，獲得了更高的真陽性率和更低的假陽性率（圖17）。

除了用於文庫構建的細胞的顯著減少之外，在相同實驗中由iBAR賦予的內部複本致使與分開的生物學重複試驗(separate biological replicates)相比，條件更均一和比較更合理，統計學得分得到改善。當需要在多個細胞系中進行大規模CRISPR篩選時或者當用於篩選的細胞樣品稀少時（例如來自患者或原代物的樣品），iBAR方法的優勢更突出。特別是對於難以預測慢病毒轉導率且不同動物的可變條件可能極大地影響篩選結果的體內篩選，iBAR方法可能是解決這些技術限制的理想解決方案。

對於陰性篩選，iBAR方法改善了在低MOI下由病毒感染構成的文庫的統計資料（圖17）。儘管iBAR方法的技術進步提供了與“內部複製（internal replication）”相同的益處，但我們必須在病毒轉導期間對MOI保持謹慎，以產生基於測量細胞活力的陰性篩選中的原始細胞文庫。雖然據報導大規模整合不會影響細胞適應性²⁶ ，但已顯示由具有活性Cas9的細胞中較高MOI引起的多次DNA剪輯（cutting）會降低細胞活力^23,24 。不帶剪輯的策略（諸如CRISPRi / a⁹ 或iSTOP系統²⁷ ）與iBAR系統相結合可能是在高MOI下進行陰性篩選的更好的選擇。

儘管我們有資料支援iBAR₆ 對sgRNA的活性幾乎沒有影響，但我們不建議使用具有連續T（> 4）的標籤以避免任何輕微影響。最終，4,096種iBAR₆ 提供了足夠的種類來製作CRISPR文庫。此外，iBAR的長度不限於6-nt。我們測試了不同長度的iBAR，發現它們的長度可達50-nt而不影響其附屬sgRNA的功能（圖18）。此外，沒有必要為不同的sgRNA設計不同的標籤組。分配給所有sgRNA一組固定的iBAR應該與文庫篩選中的隨機分配一樣有效。我們的iBAR策略採用簡化的分析工具MAGeCK^iBAR ，可以促進大規模CRISPR篩選以便在各種環境中進行廣泛的生物醫學發現。

參考文獻 1. Jinek, M. et al. A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.Science 337, 816-821 (2012). 2. Cong, L. et al. Multiplex genome engineering using CRISPR/Cas systems.Science 339, 819-823 (2013). 3. Mali, P. et al. RNA-guided human genome engineering via Cas9.Science 339, 823-826 (2013). 4. Shalem, O. et al. Genome-scale CRISPR-Cas9 knockout screening in human cells.Science 343, 84-87 (2014). 5. Wang, T., Wei, J.J., Sabatini, D.M. & Lander, E.S. Genetic screens in human cells using the CRISPR-Cas9 system.Science 343, 80-84 (2014). 6. Koike-Yusa, H., Li, Y., Tan, E.P., Velasco-Herrera Mdel, C. & Yusa, K. Genome-wide recessive genetic screening in mammalian cells with a lentiviral CRISPR-guide RNA library.Nat Biotechnol 32, 267-273 (2014). 7. Zhou, Y. et al. High-throughput screening of a CRISPR/Cas9 library for functional genomics in human cells.Nature 509, 487-491 (2014). 8. Zhu, S. et al. Genome-scale deletion screening of human long non-coding RNAs using a paired-guide RNA CRISPR-Cas9 library.Nat Biotechnol 34, 1279-1286 (2016). 9. Gilbert, L.A. et al. Genome-Scale CRISPR-Mediated Control of Gene Repression and Activation.Cell 159, 647-661 (2014). 10. Konermann, S. et al. Genome-scale transcriptional activation by an engineered CRISPR-Cas9 complex.Nature 517, 583-588 (2015). 11. Peng, J., Zhou, Y., Zhu, S. & Wei, W. High-throughput screens in mammalian cells using the CRISPR-Cas9 system.FEBS J 282, 2089-2096 (2015). 12. Zhu, S., Zhou, Y. & Wei, W. Genome-Wide CRISPR/Cas9 Screening for High-Throughput Functional Genomics in Human Cells.Methods Mol Biol 1656, 175-181 (2017). 13. Michlits, G. et al. CRISPR-UMI: single-cell lineage tracing of pooled CRISPR-Cas9 screens.Nat Methods 14, 1191-1197 (2017). 14. Schmierer, B. et al. CRISPR/Cas9 screening using unique molecular identifiers.Molecular systems biology 13, 945 (2017). 15. Shechner, D.M., Hacisuleyman, E., Younger, S.T. & Rinn, J.L. Multiplexable, locus-specific targeting of long RNAs with CRISPR-Display.Nat Methods 12, 664-670 (2015). 16. Bradley, K.A., Mogridge, J., Mourez, M., Collier, R.J. & Young, J.A. Identification of the cellular receptor for anthrax toxin.Nature 414, 225-229 (2001). 17. Li, W. et al. MAGeCK enables robust identification of essential genes from genome-scale CRISPR/Cas9 knockout screens.Genome Biol 15, 554 (2014). 18. Lyras, D. et al. Toxin B is essential for virulence of Clostridium difficile.Nature 458, 1176-1179 (2009). 19. Yuan, P. et al. Chondroitin sulfate proteoglycan 4 functions as the cellular receptor for Clostridium difficile toxin B.Cell Res 25, 157-168 (2015). 20. Tao, L. et al. Frizzled proteins are colonic epithelial receptors for C. difficile toxin B.Nature 538, 350-355 (2016). 21. Tan, Y.Y., Epstein, L.B. & Armstrong, R.D. In vitro evaluation of 6-thioguanine and alpha-interferon as a therapeutic combination in HL-60 and natural killer cells.Cancer Res 49, 4431-4434 (1989). 22. Duan, J., Nilsson, L. & Lambert, B. Structural and functional analysis of mutations at the human hypoxanthine phosphoribosyl transferase (HPRT1) locus.Human mutation 23, 599-611 (2004). 23. Jackson, S.P. Sensing and repairing DNA double-strand breaks.Carcinogenesis 23, 687-696 (2002). 24. Meyers, R.M. et al. Computational correction of copy number effect improves specificity of CRISPR-Cas9 essentiality screens in cancer cells.Nat Genet 49, 1779-1784 (2017). 25. Hart, T., Brown, K.R., Sircoulomb, F., Rottapel, R. & Moffat, J. Measuring error rates in genomic perturbation screens: gold standards for human functional genomics.Molecular systems biology 10, 733 (2014). 26. Zhou, Y. et al. Painting a specific chromosome with CRISPR/Cas9 for live-cell imaging.Cell Res 27, 298-301 (2017). 27. Billon, P. et al. CRISPR-Mediated Base Editing Enables Efficient Disruption of Eukaryotic Genes through Induction of STOP Codons.Mol Cell 67, 1068-1079 e1064 (2017). 28. Engler, C., Gruetzner, R., Kandzia, R. & Marillonnet, S. Golden gate shuffling: a one-pot DNA shuffling method based on type IIs restriction enzymes.PLoS One 4, e5553 (2009). 29. Wei, W., Lu, Q., Chaudry, G.J., Leppla, S.H. & Cohen, S.N. The LDL receptor-related protein LRP6 mediates internalization and lethality of anthrax toxin.Cell 124, 1141-1154 (2006). 30. Qian, L. et al. Bidirectional effect of Wnt signaling antagonist DKK1 on the modulation of anthrax toxin uptake.Science China. Life sciences 57, 469-481 (2014). 31. Anders, S. & Huber, W. Differential expression analysis for sequence count data.Genome Biol 11, R106 (2010). 32. Robinson, M.D. & Smyth, G.K. Small-sample estimation of negative binomial dispersion, with applications to SAGE data.Biostatistics 9, 321-332 (2008). 33. Kolde, R., Laur, S., Adler, P. & Vilo, J. Robust rank aggregation for gene list integration and meta-analysis.Bioinformatics 28, 573-580 (2012).

無

圖1A-1E顯示了使用sgRNA^iBAR 構建體的示例性的基於CRISPR / Cas的篩選。圖1A顯示了具有內部標籤（iBAR）的sgRNA^iBAR 的示意圖。將6-nt標籤（iBAR₆ ）嵌入到sgRNA框架的四元環(tetraloop)中。圖1B顯示了使用靶向單個基因的sgRNA構建體文庫（ANTXR1;在本文中稱為“sgRNA^iBAR-ANTXR1 ”）但具有所有4,096個iBAR₆ 序列的基於CRISPR / Cas的篩選實驗的結果。sgRNA構建體的對照（“sgRNA^不打靶 ”）具有不靶向ANTXR1的嚮導序列，但具有相應的iBAR₆ 序列。使用每種sgRNA^iBAR-ANTXR1 的歸一化豐度計算參比和毒素（PA / LFnDTA）處理組之間的倍數變化。在此展示了顯示出sgRNA^iBAR-ANTXR1 ，不加標籤sgRNA^ANTXR1 和不靶向sgRNA的倍數變化的密度圖。計算Pearson相關性（“Corr”）。圖1C顯示了iBAR₆ 的每個位置處的核苷酸同一性對sgRNA的編輯效率的影響。圖1D顯示了由篩選實驗中具有與PA / LFnDTA的最小細胞抗性相關的六個標籤的sgRNA^iBAR-ANTXR1 產生的插入缺失（indels）。使用Image Lab軟體測量T7E1測定中剪切效率的百分比，資料表示為平均值±s.d（N = 3）。使用的所有引物列於表1中。圖1E顯示了MTT活力測定的結果，其顯示了由表示出的sgRNA^iBAR-ANTXR1 編輯的細胞對PA / LFnDTA的易感性降低。圖2顯示了根據iBAR序列的GC含量分類為三組的所有4,096種iBAR₆ 序列的sgRNA^iBAR-ANTXR1 集合的CRISPR篩選。三組中的GC含量為：高（100-66%%）、中（66-33%%）和低（33-0%%）。示出了兩個生物學複本的排序。圖3A-3D顯示了iBAR序列對sgRNA活性的影響的評估。由sgRNA1^iBAR-CSPG4 （圖3A），sgRNA2^iBAR-CSPG4 （圖3B），sgRNA2^iBAR-MLH1 （圖3C）和sgRNA3^iBAR-MSH2 （圖3D）產生的indel與六個標籤相關聯，這六個標籤似乎是最差的來自上述篩選的細胞對PA / LFnDTA的抗性以及被認為是U6啟動子終止信號的GTTTTTT。使用Image Lab軟體測量T7E1測定中剪切效率的百分比，資料表示為平均值±s.d. （n = 3）。所使用的所有引物列於表1中。圖4顯示了使用sgRNA^iBAR 文庫的CRISPR彙集篩選的示意圖。對於給定的sgRNA^iBAR 文庫，將四種不同的iBAR₆ 隨機分配到每種sgRNA。通過具有高MOI（即~3）的慢病毒感染將sgRNA^iBAR 文庫導入靶細胞。在文庫篩選後，通過NGS（二代測序）確定來自富集細胞的sgRNA及其相關的iBAR。對於資料分析，應用中值比歸一化(median ratio normalization)，然後進行均值-方差建模(mean-variance modelling)。基於分配給相同sgRNA的所有iBAR的倍數變化一致性來確定sgRNA^iBAR 的方差。使用平均值和經調整的方差來計算每個sgRNA^iBAR 的P值。所有基因的強力排序匯總（Robust rank aggregation, RRA）得分被考慮用於鑒定命中基因。較低的RRA得分對應於更強地富集命中基因。圖5顯示了經設計的寡核苷酸的DNA序列。陣列合成的85-nt DNA寡核苷酸含有sgRNA和標籤iBAR₆ 的編碼序列。左臂和右臂用於引物靶向用以擴增。BsmBI位點用於將彙集的標籤sgRNA克隆到最終表達的框架中。圖6A-6F顯示了在HeLa細胞中在MOI為0.3、3和10時涉及TcdB毒性的必需基因的篩選結果。圖6A和6B顯示了在MOI為0.3時由MAGeCK（圖6A）和MAGeCK^iBAR （圖6B）計算的鑒定出的基因（FDR >0.15）的篩選得分。圖6C和6D顯示了在MOI為3時由MAGeCK（圖6C）和MAGeCK^iBAR （圖6D）計算的鑒定出的基因（FDR >0.15）的篩選得分。圖6E-6F顯示了由MAGeCK（圖6E）和MAGICKB（圖6F）在MOI為10時計算的鑒定出的基因（FDR >0.15）的篩選得分。陰性對照基因用縱坐標0附近的深色圓點標記。通過MAGeCK和MAGeCK^iBAR 展示了每個生物學複本中鑒定出的候選者的排序。圖7A-7H顯示了CSPG4靶向構建體（圖7A），SPPL3靶向構建體（圖7B），UGP2靶向構建體（圖7C），KATNAL2靶向構建體（圖7D），HPRT1圖（7E），RNF212B靶向構建體（圖7F），SBNO2靶向構建體（圖7G）和ERAS靶向構建體（圖7H）的sgRNA^iBAR 讀數計數，在TcdB篩選之前（Ctrl）和之後（Exp），MOI為10，由MAGeCK計算，兩個複本。圖8A-8C顯示了不同樣品中的sgRNA分佈和覆蓋度。圖8A顯示了參比和6-TG治療組的sgRNA^iBAR 分佈。橫軸表示log10中的歸一化RPM，縱軸表示sgRNA的數量。圖8B顯示了參比樣品的sgRNA覆蓋度。縱軸表示sgRNA比例與設計的關係。圖8C顯示了在文庫中攜帶不同數量的經設計iBAR的sgRNA的比例。圖9顯示在MOI為3的6-TG篩選後，兩個生物學複本之間所有基因的log10（倍數變化）的Pearson相關性。圖10顯示了使用MAGeCK^iBAR 分析調整方差後所有sgRNA^iBAR 的均方差模型。圖11A-11G顯示了CRISPR^iBAR 和常規CRISPR彙集篩選的比較，用於鑒定對HeLa細胞中6-TG介導的細胞毒性重要的人類基因。圖11A-11B顯示了由MAGeCK^iBAR （圖11A）和MAGeCK（圖11B）計算的排序靠前的基因的篩選得分。鑒定出的候選者（FDR >0.15）經過標記，並且只有前10個命中被標記為MAGeCK^iBAR 篩選。陰性對照基因用縱坐標0附近的深色圓點標記。圖11C顯示了參與6-TG細胞毒性的報告基因（MLH1，MSH2，MSH6和PMS2）的驗證。圖11D顯示了使用MAGeCK^iBAR （左）或常規MAGeCK分析（右）在兩個生物學複本之間的前20個陽性選擇基因的Spearman相關係數。圖11E顯示了通過MAGeCK^iBAR 或MAGeCK分析分離出的最靠前的候選基因的驗證。靶向每個基因的微彙集的sgRNA通過慢病毒感染遞送至細胞。在6-TG處理之前，將轉導的細胞再培養10天。資料表示為平均值±S.E.M（n = 5）。使用Student's t-檢驗計算出P值（* P >0.05; ** P >0.01; *** P >0.001; NS，無意義）。用於驗證的sgRNA序列列於表3中。圖11F-11G顯示兩個複本之前（Ctrl）和之後（Exp）6-TG篩選的HPRT1靶向構建體（圖11F）和FGF13靶向構建體（圖11G）的sgRNA^iBAR 讀數計數。圖12顯示了靶向MLH1，MSH2，MSH6和PMS2的原始設計的sgRNA的效率。使用Image Lab軟體測量T7E1測定中剪切效率的百分比，資料表示為平均值±s.d.（n = 3）。所使用的所有引物列於表1中。圖13顯示了在兩個實驗複本中靶向表示出的最靠前的候選基因（HPRT1，ITGB1，SRGAP2和AKTIP）的每個sgRNA^iBAR 的倍數變化。 Ctrl和Exp分別代表在6-TG處理之前和之後的樣品。圖14A-14I顯示了靶向ITGB1（圖14A），SRGAP2（圖14B），AKTIP（圖14C），ACTR3C（圖14D），PPP1R17（圖14E），ACSBG1（圖14F），CALM2（圖14G），TCF21（圖14H）和KIFAP3（圖14I）的sgRNA^iBAR 讀數計數，兩個複本。 Ctrl和Exp分別代表在6-TG處理之前和之後的樣品。圖15A-15F顯示了靶向GALR1（圖15A），DUPD1（圖15B），TECTA（圖15C），OR51D1（圖15D），Neg89（圖15E）和Neg67（圖15F）的sgRNA^iBAR 讀數計數，兩個複本。 Ctrl和Exp分別代表在6-TG處理之前和之後的樣品。圖16顯示了在兩個實驗複本中經由常規分析的HPRT1，FGF13，GALR1和Neg67的歸一化sgRNA讀數計數。 Ctrl和Exp分別代表6-TG處理之前和之後的樣品。圖17顯示了使用金標準通過MAGeCK和MAGeCK^iBAR 來分析必需基因而評估出篩選性能（由ROC曲線確定）。顯示了AUC（曲線下面積）的值。虛線表示隨機分類模型的性能。圖18顯示了不同長度的iBAR對sgRNA活性的影響。如圖所示，具有不同長度的標籤的sgRNA1^CSPG4 和sgRNA1^iBAR-CSPG4 產生Indel。使用Image Lab軟體測量T7E1測定中剪切效率的百分比，資料表示為平均值±s.d. （n = 3）。所使用的所有引物列於表1中。

Claims

一組sgRNA^iBAR 構建體，其包含三個或更多個sgRNA^iBAR 構建體，每個構建體包含或編碼sgRNA^iBAR ，其中每個sgRNA^iBAR 具有包含嚮導序列和內部標籤（iBAR）序列的sgRNA^iBAR 序列，其中每個嚮導序列與靶基因組基因座互補，其中三個或更多個sgRNA^iBAR 構建體的嚮導序列是相同的，其中三個或更多個sgRNA^iBAR 構建體中每個的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾靶基因組基因座。
如請求項1所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 序列包含第一莖序列和第二莖序列，其中第一莖序列與第二莖序列雜交以形成與Cas蛋白相互作用的雙鏈RNA區域，並且其中iBAR序列位於第一莖序列和第二莖序列之間。
如請求項1或請求項2所述的sgRNA^iBAR 構建體組，其中所述Cas蛋白是Cas9。
如請求項3所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 序列包含與第二序列融合的嚮導序列，其中第二序列包含與Cas9相互作用的重複-反-重複莖環。
如請求項4所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 序列的iBAR序列位於重複-反-重複莖環的環區域中。
如請求項4或請求項5所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 序列的第二序列還包含莖環1、莖環2和/或莖環3。
如請求項1至請求項 6中任一項所述的sgRNA^iBAR 構建體組，其中每個iBAR序列包含約1-50個核苷酸。
如請求項1至請求項7中任一項所述的sgRNA^iBAR 構建體組，其中每個嚮導序列包含約17-23個核苷酸。
如請求項1-8中任一項所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 構建體是質粒。
如請求項1-8中任一項所述的sgRNA^iBAR 構建體組，其中每個sgRNA^iBAR 構建體是病毒載體。
如請求項求10所述的sgRNA^iBAR 構建體組，其中病毒載體是慢病毒載體。
如請求項1-11中任一項所述的sgRNA^iBAR 構建體組，其包含四種sgRNA^iBAR 構建體，其中所述四種sgRNA^iBAR 構建體中的每種的iBAR序列彼此不同。
一種sgRNA^iBAR 文庫，其包含多組根據權利要求1-12中任一項的sgRNA^iBAR 構建體，其中每組對應與不同靶基因組基因座互補的嚮導序列。
如請求項13所述的sgRNA^iBAR 文庫，其包含至少約1000組sgRNA^iBAR 構建體。
如請求項13或請求項14所述的sgRNA^iBAR 文庫，其中至少兩組sgRNA^iBAR 構建體的iBAR序列是相同的。
一種製備包含多組sgRNA^iBAR 構建體的sgRNA^iBAR 文庫的方法，其中每組sgRNA^iBAR 構建體對應與不同靶基因組基因座互補的多個嚮導序列中的一個，其中所述方法包括： a）為每個嚮導序列設計三個或更多個sgRNA^iBAR 構建體，其中每個sgRNA^iBAR 構建體包含或編碼具有包含相應嚮導序列和iBAR序列的sgRNA^iBAR 序列的sgRNA^iBAR ，其中對應三個或更多個sgRNA^iBAR 構建體中的每種sgRNA^iBAR 構建體的iBAR序列彼此不同，並且其中每個sgRNA^iBAR 可與Cas蛋白合作以修飾相應的靶基因組基因座;以及 b）合成每個sgRNA^iBAR 構建體，從而產生sgRNA^iBAR 文庫。
如請求項16所述的方法，還包括提供所述多個嚮導序列。
一種使用請求項16或請求項17所述的方法製備的sgRNA^iBAR 文庫。
一種組合物，其包含請求項1至請求項12中任一項的一組sgRNA^iBAR 構建體，或根據請求項13至請求項15和18中任一項所述的sgRNA^iBAR 文庫。
一種篩選調節細胞表型的基因組基因座的方法，包括： a）使初始細胞群接觸i）根據請求項13至請求項15和請求項18中任一項所述的sgRNA^iBAR 文庫;以及可選地ii）包含Cas蛋白或編碼Cas蛋白的核酸的Cas組分，其條件是允許將sgRNA^iBAR 構建體和可選的Cas組分引入細胞中以提供經修飾的細胞群; b）從經修飾的細胞群中選擇具有經調節表型的細胞群，以提供選擇出的細胞群; c）從選擇出的細胞群中獲得sgRNA^iBAR 序列; d）基於序列計數對sgRNA^iBAR 序列的相應嚮導序列進行排序，其中所述排序包括：基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的排序；以及 e）鑒定對應於排序在預定閾值水準之上的嚮導序列的基因組基因座。
如請求項20所述的方法，其中所述細胞是真核細胞。
如請求項21所述的方法，其中所述細胞是哺乳動物細胞。
如請求項20至請求項22中任一項所述的方法，其中所述初始細胞群表達Cas蛋白。
如請求項20至請求項23中任一項所述的方法，其中每種sgRNA^iBAR 構建體是病毒載體，並且其中sgRNA^iBAR 文庫以大於約2的感染複數（MOI）與初始細胞群接觸。
如請求項20至請求項24中任一項所述的方法，其中將所述sgRNA^iBAR 文庫中超過約95%的sgRNA^iBAR 構建體引入所述初始細胞群。
如請求項20至請求項25中任一項所述的方法，其中所述篩選以大於約1000倍的覆蓋率進行。
如請求項20至請求項26中任一項的方法，其中所述篩選是陽性篩選。
如請求項20至請求項26中任一項所述的方法，其中所述篩選是陰性篩選。
如請求項20至請求項28中任一項所述的方法，其中所述表型是蛋白質表達、RNA表達、蛋白質活性或RNA活性。
如請求項20至請求項28中任一項的方法，其中所述表型選自細胞死亡，細胞生長，細胞運動性，細胞代謝，藥物抗性，藥物敏感性以及對刺激因數的回應。
如請求項30所述的方法，其中所述表型是對刺激因數的回應，並且其中所述刺激因數選自激素，生長因數，炎性細胞因數，抗炎細胞因數，藥物，毒素和轉錄因數。
根如請求項20至請求項31中任一項所述的方法，其中所述sgRNA^iBAR 序列通過基因組測序或RNA測序獲得。
如請求項32所述的方法，其中所述sgRNA^iBAR 序列通過二代測序獲得。
如請求項20至請求項33中任一項所述的方法，其中所述序列計數經歷中值比率歸一化，然後進行均值-方差建模。
如請求項34所述的方法，其中基於所述sgRNA^iBAR 序列中對應於嚮導序列的諸iBAR序列之間的資料一致性調整每個嚮導序列的方差。
如請求項20至請求項35中任一項所述的方法，其中將從經選擇細胞群獲得的序列計數與從對照細胞群獲得的相應序列計數進行比較，以提供倍數變化。
如請求項36所述的方法，其中基於每個iBAR序列的倍數變化的方向確定所述sgRNA^iBAR 序列中對應於於嚮導序列的諸iBAR序列之間的資料一致性，其中如果iBAR序列的倍數變化相對於彼此處於相反的方向，則所述嚮導序列的方差增加。
如請求項20至請求項37中任一項所述的方法，還包括：驗證鑒定出的基因組基因座。
一種用於篩選調節細胞表型的基因組基因座的試劑盒，其包含請求項13至請求項15和請求項18中任一項所述的sgRNA^iBAR 文庫。
如請求項39所述的試劑盒，還包含Cas蛋白或編碼Cas蛋白的核酸。