TW201337618A

TW201337618A - Ｄｎａ序列之資料分析技術

Info

Publication number: TW201337618A
Application number: TW102104862A
Authority: TW
Inventors: Lakshmi Sastry-Dent; Shreedharan Sriram; Ze-Hui Cao; Navin Elango; Karthik Narayan Muthuraman
Original assignee: Dow Agrosciences Llc
Priority date: 2012-02-08
Filing date: 2013-02-07
Publication date: 2013-09-16
Also published as: EP2812831A1; AR089934A1; CN104272311A; CA2863524A1; IN2014DN05963A; TWI596493B; BR112014019047A2; IL233819A0; CN104272311B; KR20140119723A; HK1201951A1; US20130211729A1; WO2013119770A1; EP2812831A4; AU2013217079B2; AU2013217079A1; JP2015509623A; JP6314091B2

Abstract

提供用於資料分析的系統和方法。在一具體實施例中，提供一種用於分析之方法，包括電性接收序列資料、電性接收一或多個與至少一表達載體有關之參考資料序列、找出該序列資料與至少一參考資料序列之關聯性以辨識一轉殖基因側翼序列、搜尋一基因組內轉殖基因側翼序列的一或多個插入位點，以及在該搜尋步驟中當發現一或多個插入位點時，註釋該基因組以及該基因組內的一或多個插入位點。

Description

DNA序列之資料分析技術

相關申請案的交互參照

此專利申請案聲稱擁有2012年2月8日提出之美國專利臨時申請案號61/596,540以及2012年2月21日提出之美國專利臨時申請案號61/601,090的權利，藉由引述將其披露完整明確併入於此。

發明領域

本發明部分係關於序列資料之電腦化分析。更明確而言，本發明部分係關於基因組修飾例如轉殖基因插入位點之電腦化辨識和分析法。

發明背景

轉殖基因側翼序列(flanking sequences)於商業化和註冊含轉殖基因序列之產品時需要進行辨識和定性。轉殖基因側翼序列之辨識和定性對其他類型活動，諸如由EXZACT^TM精密科技品牌基因組(brand genome)修飾技術所產生之定性事件而言亦屬重要。例如，EXZACT^TM精密科技品牌基因組修飾技術係一種用於基因組修飾之尖端、多樣化和強固工具組。其係根據以及利用鋅指核酸酶(ZFNs)為基礎而設計，該酶係被設計成可與特定DNA序列結合之蛋白質。EXZACT^TM品牌技術可被用於產生生物基因組內之ZFN-促進雙股斷裂，因而導致轉殖基因於一DNA序列內特定目標基因座之靶向插入。

該轉殖基因側翼序列由基因組整合位點之染色體側翼區和整合轉殖基因所構成。該轉殖基因側翼序列可含有導因於轉殖基因整合入染色體一特定位置之缺失、倒位或插入。轉殖基因DNA、定序之選殖載體、分離轉殖側翼區序列之引子及/或銜接子、已整合轉殖基因之染色體序列，以及已經由未預期重組被插入基因組內之其他不相關DNA片段之間可存在類似核酸區域。

可使用各種方法以分離一轉殖基因側翼區序列。然後可利用傳統雙脫氧(dideoxy)測序法、鏈末端(chain termination)測序法，或經由次世代(Next Generation)測序法定序該轉殖基因側翼區序列。

如2010年Brautigma等人所述，DNA序列分析可被用於測定經分離和經擴增片段之核苷酸序列。該經擴增片段可利用鏈終止子法(亦稱為Sanger測序法)或螢光染料終止子(Dye-terminator)測序法被分離和次選殖成一載體。此外，該擴增子(amplicon)可藉由次世代測序法被定序。次世代(NGS)技術不需次選殖步驟，並且可在單次反應內完成多重測序讀序(reads)。市面上提供三種NGS服務平台，即454/生命科學/Roche之基因組測序儀FLX、Solexa之Illumina基因組分析儀以及SOLiD(即短片段核苷酸接合偵測法 (Sequencing by Oligo Ligation and Detection)之縮寫)應用生物系統。此外，目前正發展兩種單分子測序法。這些包括Helicos生物科技之真正單分子測序法(tSMS)以及Pacific生物科技之單分子實時DNA測序法(SMRT)。

由454/生命科學/Roche所上市之基因組測序儀FLX係一種使用乳化聚合酶鏈反應(emulsion PCR)和焦磷酸測序法(pyrosequencing)所產生讀序基因片段之長讀序NGS。可使用300-800鹼基之DNA片段或含3-20仟鹼基片段之基因庫。就250至400個兆鹼基之總產量而言，此反應每回可產生超過約250至400個鹼基之百萬讀序。與其他NGS技術比較，此技術每回可產生最長但是低總序列輸出之讀序。

Solexa之Illumina基因組分析儀係一種利用螢光染料標記(fluorescent dye-labeled)之可逆終止子核苷酸合成法測序及以固相橋式PCR(solid-phase bridge PCR)為基礎之短讀序NGS(short read NGS)。可使用含有高達10仟鹼基之DNA片段構建雙端(paired end)定序基因庫。該反應產生超過一億個35-76個鹼基長度之短讀序片段。每回可從30-60億鹼基產生此資料。

由Applied Biosystems(應用生物系統)上市之短片段核苷酸接合偵測(SOLiD)系統係一種短讀序技術。此NGS技術係使用高達10仟鹼基長度之破碎雙股DNA。此系統係使用染料標記寡核苷酸引子和乳化聚合酶鏈反應之接合進行定序以產生一百萬個每回高達300億個鹼基總序列輸出之短讀序。

Helicos生物科技之tSMS和Pacific生物科技之SMRT係運用一種不同方法，其使用於定序反應中之單一DNA分子。該Helicos tSMS系統可產生每回導致210億個鹼基之高達8億個短讀序。這些反應完全利用被稱為"邊合成邊測序(sequencing by synthesis)"之螢光染料標記虛擬可逆終止子核苷酸測序法。

由Pacific生物科技上市之SMRT次世代測序系統係利用實時合成定序法(sequencing by synthesis)。此技術可產生高達1000個鹼基長度之讀序而不必受限於可逆終止子(reversible terminators)。利用此技術每天可產生相當於人雙倍體基因組一倍覆蓋率之原讀序(raw read)通量。

當分辨轉殖基因DNA序列與染色體DNA側翼序列和任何染色體重組之分析DNA定序資料時，若藉由人工進行將極為耗時，特別是針對大量定序資料集(datasets)。人工辨識和註釋(annotation)該轉殖基因DNA序列以及從整合基因組內轉殖基因中分辨這些序列之重組、缺失，和添加係一項極為費勁和困難的工作，此將容易造成人為誤差。

發明概要

通過隨機嵌入法進行插入或經由同源重組法(homologous recombination)靶向一特定位點基因座時，必需使用一種高通量法以確認轉殖基因被整合入基因組內，以及用於辨識一轉殖基因之特定染色體位置。提供一種靈活、高通量轉殖基因側翼序列分析系統以分析序列資料以及定義一生物基因組內轉殖基因之插入位點(insertion sites)。在一具體實施例中，該方法的步驟包括辨識和詮釋轉殖基因和轉殖基因側翼序列，包括於例如但不侷限於一完整基因組(complete genome)之毗鄰DNA片段內的染色體側翼序列。在一具體實施例中，該分析系統包含一圖像用戶介面(GUI)、一分析流程儀(analysis pipeline)，和一用於輸入序列之綜合展示螢幕(summary display)。

在一示範性具體實施例中，本發明包括一種用於分析之方法。該方法包括：電性接收序列資料、電性接收一或多個與至少一表達載體有關之參考資料序列、找出該序列資料與至少一參考資料序列之關聯性以辨識一轉殖基因側翼序列、搜尋一基因組內轉殖基因側翼序列的一或多個插入位點，以及當發現一或多個插入位點時，註釋(annotating)該基因組以及該基因組內的一或多個插入位點。

在任何上述具體實施例之進一步具體實施例中，該參考資料進一步係關於至少一引子(primer)。在任何上述具體實施例之進一步具體實施例中，該參考資料進一步係關於至少一銜接子(adapter)。在任何上述具體實施例之進一步具體實施例中，該參考資料係關於至少一引子和一銜接子。在任何上述具體實施例之進一步具體實施例中，該參考資料進一步係關於至少一選殖載體。在任何上述具體實施例之進一步具體實施例中，該參考資料進一步係關於一右端選殖載體和一左端選殖載體。

在任何上述具體實施例之進一步具體實施例中，該參考資料進一步係關於至少一左端選殖載體、一引子、一銜接子、一右端選殖載體，和一轉殖基因表達載體序列。

在任何上述具體實施例之另一進一步具體實施例中，該參考資料進一步係關於一選殖載體、一引子，和一銜接子。在任何上述具體實施例之另一進一步具體實施例中，該參考資料進一步係關於一左端選殖載體、一右端選殖載體、一引子，和一銜接子。

在任何上述具體實施例之進一步具體實施例中，該方法進一步包括搜尋第一參考資料序列之序列資料，以及當該第一參考資料序列被定位時搜尋第二參考資料序列之序列資料。在任何上述具體實施例之進一步具體實施例中，構成該第一參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體序列。在任何上述具體實施例之進一步具體實施例中，構成該第二參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體序列，於第一參考資料序列之外獨立地選取該第二參考資料序列。在任何上述具體實施例之進一步具體實施例中，該第一參考資料序列係一表達載體以及該第二參考資料序列係一銜接子。在任何上述具體實施例之進一步具體實施例中，構成該第一和第二參考資料序列之群組係選自：一引子和一銜接子。

在任何上述具體實施例之進一步具體實施例中，找出序列資料與參考資料序列之關聯性包括尋找該參考資料序列之正合序列(exact sequence)。在任何上述具體實施例之進一步具體實施例中，找出序列資料與參考資料序列之關聯性包括於參考資料序列尋找誤差在5%鹼基對範圍內之序列。

在一附加示範性具體實施例中，本發明包括一種用於分析之系統。在該具體實施例中，該系統包括一用於接收序列資料之模組、一用於接收一或多個與至少一表達載體有關參考序列之模組，以及一可操作地找出序列資料與至少一參考資料序列關聯性之計算模組，其用於辨識一轉殖基因側翼序列、搜尋一基因組內轉殖基因側翼基因序列的一或多個插入位點，以及當發現該一或多個插入位點時註釋該基因組以及該基因組內的一或多個插入位點。

在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於至少一引子。在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於至少一銜接子。在任何上述具體實施例之進一步具體實施例中，該參考序列係關於至少一引子和一銜接子。在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於至少一表達載體序列。在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於至少一選殖載體。在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於一右端選殖載體和一左端選殖載體。

在任何上述具體實施例之進一步具體實施例中，該參考序列進一步係關於至少一左端選殖載體、一引子、一銜接子、一右端選殖載體，以及一表達載體序列。

在任何上述具體實施例之另一進一步具體實施例中，該參考序列進一步係關於至少一選殖載體、一引子，以及一銜接子。在任何上述具體實施例之另一進一步具體實施例中，該參考序列進一步係關於至少一右端選殖載體、一左端選殖載體、一引子，以及一銜接子。

在任何上述具體實施例之進一步具體實施例中，該計算模組進一步可操作以搜尋第一參考資料序列之序列資料，以及當該第一參考資料序列被定位時搜尋第二參考資料序列之序列資料。在任何上述具體實施例之進一步具體實施例中，構成該第一參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體序列。在任何上述具體實施例之進一步具體實施例中，構成該第二參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體序列，於第一參考資料序列之外獨立地選取該第二參考資料序列。在任何上述具體實施例之進一步具體實施例中，該第一參考資料序列係一表達載體以及該第二參考資料序列係一銜接子。在任何上述具體實施例之進一步具體實施例中，構成該第一和第二參考資料序列之群組係獨立地選自：一引子和一銜接子。

在任何上述具體實施例之進一步具體實施例中，找出序列資料與參考資料序列之關聯性包括尋找該參考資料序列之正合序列。在任何上述具體實施例之另一進一步具體實施例中，找出序列資料與參考資料序列之關聯性包括於參考資料序列尋找誤差在5%鹼基對範圍內之序列。

熟習本領域技術者從下列詳細說明如何執行本發明最佳示範模式之示例性具體實施例將可更加瞭解本發明之其他特徵和優點。

101‧‧‧左端選殖載體

103‧‧‧表達載體

105‧‧‧引子

107‧‧‧側翼區序列

109‧‧‧銜接子

111‧‧‧右端選殖載體

201‧‧‧樣本

203‧‧‧參考樣本訊息

205‧‧‧測序儀

207‧‧‧分析系統

209‧‧‧遙控系統

220‧‧‧流程圖

221-227、400-407、501-517、852-892、551-573、701-711‧‧‧方塊

301‧‧‧輸入裝置

302‧‧‧網路

303‧‧‧輸入模組

304‧‧‧客戶

305‧‧‧計算模組

307‧‧‧輸出模組

309‧‧‧輸出裝置

311‧‧‧視覺化模組

313‧‧‧操作系統軟件

315‧‧‧記憶體

317‧‧‧樣本資料

325‧‧‧控制器

416‧‧‧大豆事例

507‧‧‧側翼序列

603‧‧‧引子

605‧‧‧輸入序列

607‧‧‧反向互補序列

609‧‧‧序列

850‧‧‧側翼序列

圖示之詳細說明特別指附圖，其為：圖1A係根據本發明一具體實施例中包含一左端選殖載體、一引子、一表達載體、一轉殖基因側翼區序列、一銜接子，和一右端選殖載體所製成典型序列的範例圖。

圖1B係根據本發明一具體實施例於包含基因組序列片段間插入一表達載體、一引子序列和一轉殖基因側翼區序列之基因組內內插入轉殖基因的範例圖。

圖2A係根據本發明一具體實施例中從樣本輸入至分析系統的資料流(flow of data)和樣本。

圖2B係根據本發明一具體實施例中一資料分析方法的流程圖。

圖3係根據本發明一具體實施例中一資料分析儀的系統圖解。

圖4係根據本發明一具體實施例中一資料分析方法的流程圖。

圖5A係根據圖4之流程圖顯示一側翼序列辨識處理順序或方法的流程圖。

圖5B係辨識和標示一轉殖基因側翼序列之方法的流程圖。

圖5C係根據圖5A之流程圖顯示一轉殖側翼序列辨識方法之另一具體實施例的流程圖。

圖6係根據本發明一具體實施例中的一示範性序列。

圖7係根據本發明一具體實施例中一辨識系統的範輸入螢幕。

圖8係根據本發明一具體實施例中來自分析系統的一示範性輸出資料。

圖9A係顯示一表達載體、銜接子、引子，和轉殖基因側翼序列之位置的示範性螢幕。

圖9B係辨識於圖9A中的圖解輸入序列。

圖9C係辨識於圖9A中的圖解轉殖基因表達載體103序列。

圖9D係辨識於圖9A中的圖解銜接子序列。

圖9E係辨識於圖9A中的圖解引子序列。

圖9F係辨識自圖9B輸入序列之側接轉殖基因的基因組序列。

圖10係具有一引子，但是無右端選殖載體之顯示一轉殖基因側翼序列的示範性螢幕。

圖11係具有一表達載體序列，但是無選殖載體之顯示一轉殖基因側翼序列的示範性擷圖。

對應參考字元表示全部幾幅圖的對應部分。說明於此處之範例係舉例說明本發明之示範性具體實施例並且此類範例在任何情況下不得推論為本發明僅侷限於該範圍內。

圖式之詳細說明

本發明此處之具體實施例並非完全或僅侷限於所揭示之固定形式。反之，所選定用於說明之具體實施例將能使熟習本發明領域之技術者用以執行該揭示之申請標的。本發明雖然描述一分析系統之具體配置，但是應瞭解所呈示此處之概念可被用於與本發明一致的其他各種配置。再者，其雖然係討論轉殖基因側翼序列之分析方法，但是此處教示可被應用於其他序列之分析。所述系統和方法適用於辨識和定性轉殖基因側翼序列的任何分子標記法所產出之資料，以及該系統和方法可自動定位轉殖基因之插入位點或基因組內位點。在一具體實施例中，該方法和系統亦提供該插入位點周圍之毗鄰序列和局部環境，此可判斷該插入位點之局部環境或附近是否發生重排。

根據參考圖1A所示具體實施例的一種理想分離插入序列包括一左端選殖載體101、一引子105、轉殖基因側翼區序列107、轉殖基因表達載體序列103、一銜接子109，和一右端選殖載體111。該左端選殖載體101和右端選殖載體111係第一DNA序列可能插入第二DNA序列之部分選殖載體。該第二DNA序列之插入將選殖載體分成右端(3'端)選殖載體111和左端(5'端)選殖載體101。在一具體實施例中，藉由一限制酶(restriction enzyme)或經由技術中已知其他方法切割一選殖載體，此將可切斷DNA片段。於單一特定位點切割選殖載體通常可產生一已知左端選殖載體101和右端選殖載體111序列。圖1B顯示插入一基因組序列之插入序列。該表達載體103係一序列，其用於將一基因導入一標的細胞。一引子105係一短DNA序列，其用於開始DNA合成之過程。該表達載體103通常係一種用於將轉殖基因嵌入一基因組之序列。該轉殖基因側翼區序列107係該轉殖基因插入位點立即(immediately)上游或下游之基因組序列，在該具體實施例中此序列可為已知或未知。一銜接子109係一種連接或凝合至該轉殖基因側翼序列107末端之短寡核苷酸序列。在此具體實施例中，銜接子109之序列為已知，以及被用於標記該序列之末端並且亦可被用於擴增或定序該未知轉殖基因側翼序列107。該轉殖基因側翼序列107係由側接於整合轉殖基因之基因組整合位點的染色體側翼區所組成。該轉殖基因側翼序列可含有導因於將該轉殖基因整合入染色體一特定位置之缺失、倒位，或插入。在一具體實施例中，該孤立序列(isolated sequence)之順序如圖1A所示為一左端選殖載體101、一引子105、一表達載體序列103、一轉殖基因側翼區序列107、一銜接子109，以及一右端選殖載體111，然而，該序列之順序並不僅侷限於圖1A和1B。

如圖1B所示，引子105、表達載體103、轉殖基因側翼區序列107被插入一基因組序列，以及出現在基因組序列內。隨後併入銜接序列以作為部分用於分離該轉殖基因側翼序列之方法。然後利用下列所述資料分析法分析圖1A所示產生之轉殖基因側翼序列。在理想序列中，左端選殖載體101、表達載體103、引子105、銜接子109，以及右端選殖載體之序列全部為已知。實務上，該理想序列可能失去一或多段或含有變異。

圖2A顯示從樣本輸入至分析系統207之資料和樣本流程。圖2B顯示根據本發明一具體實施例之資料分析法的流程圖220。方塊221中，以例如但不侷限於ZFN-啟動轉殖基因插入程序(protocol)製備輸入樣本201。此程序中，將一或多部分已知序列，例如一引子105或銜接子109，加至亦已知其序列之標的基因組。亦可藉由其他轉殖基因插入法製備該樣本。該轉殖基因於基因組內插入一或多個位點之插入過程產生經修飾序列。圖1B為一示範性經修飾序列。

方塊223中，一或多個測序儀205從一或多個輸入樣本201產生序列資料。該測序儀205決定用於辨識插入基因組內位置之轉殖基因側翼區序列，以及確認該轉殖基因插入之特定序列。在具體實施例中該樣本資料之形式係一或多個含有序列資料之文字檔。

該輸入樣本201根據一程序或測序儀205之操作指令被載入一測序儀205內。例如，可使用ILLUMINA牌測序儀或Roche 454型測序儀。該測序儀205產生序列201相關資料。該資料包括，但不侷限於一或多個文字檔、標準流圖格式(SFF)或類似檔案、影像檔，或含有與輸入樣本201內DNA鏈序列相關資訊的其他資料檔。在一具體實施例中，該序列訊息(sequence information)亦包括可信資料(confidence data)，因而序列內各鹼基具有與其相關之可信區間，或各序列具有與其相關之可信區間。該可信區間係一種藉由測序儀計算之數學計算法，以及包括測序儀205對特定鹼基之讀序強度。在一示範性實例中，該可信區間係從1至9的整數。此實例中，可信區間指標為1意指該測序儀205之鹼基報告具有相對低可信度之DNA鏈內鹼基。可信區間指標為9意指該測序儀205之鹼基報告具有相對高可信度之DNA鏈內鹼基。在一具體實施例中，該測序儀205除了可信區間外亦提供其他資訊。例如，該測序儀205可報告一無法被讀序之鹼基。

來自測序儀205之資料被提供至分析系統207。在一具體實施例中，藉由網路或該測序儀與分析系統207間之專屬連線，或藉由從該測序儀至分析系統207之可拆卸儲存器提供該資料。在另一具體實施例中，該測序儀列印該資料至一螢幕或至一印表機，以及該資料可從例如，但不侷限於一鍵盤或一掃描器被輸入該分析系統207。在一具體實施例中，該分析系統207係測序儀中的一部分。

方塊225中，參考樣本訊息203被傳送至該分析系統207。該參考樣本訊息203包括，但不侷限於左端和右端選殖載體之序列，其以單一序列被提供、表達載體103、引子105，以及銜接子109。在一具體實施例中，該序列訊息經由網路被轉送至分析系統207。在另一具體實施例中，該參考樣本訊息203以來自測序儀205之序列訊息被傳送至該分析系統207。

方塊227中，該分析系統207從一或多個測序儀205接收序列資料，以及分析該序列資料，其將更詳述於下文。該分析系統207亦輸入所採集之參考樣本資料203。該參考樣本資料203包括，例如但不侷限於銜接子109之序列訊息、引子105、左端101及/或右端選殖載體111、表達載體103，或標的基因組序列訊息。在一具體實施例中，提供整體標的基因組序列資料至該分析系統207。在另一具體實施例中，提供整體標的基因組序列之一子集(subset)至該分析系統207。在又另一具體實施例中，該分析系統207傳送一請求全部或一部分標的基因組序列至另一系統。該由分析系統207所產生之配對序列資料和其他資料進行附加處理。附加處理包括，但不侷限於視覺化(visualization)、定量、從其他樣本或其他試驗收集資料，或比對一標的基因組序列。在一具體實施例中，該附加處理係於另一系統中進行。在另一具體實施例中，該分析系統207執行全部或一部分之附加處理。下述為附加處理的方法。

圖3顯示根據本發明一具體實施例分析系統207之組件視圖。該分析系統207包括一輸入模組303、一計算模組305、一輸出模組307，以及一視覺化模組311，其在一具體實施例中係配置於分析系統207之記憶體315內。該模組係藉由分析系統207之控制器325被執行。在一具體實施例中，該控制器325係一或多個處理器，以及該控制器325包括控制存取該控制器325和記憶體315之操作系統軟件。該記憶體315包括電腦可讀取媒體。電腦可讀取媒體為可被一或多種分析系統207處理器所存取之任何媒體，以及包括揮發和非揮發性媒體。此外，電腦可讀取媒體可為一或二者可拆卸式和不可拆卸式媒體。舉例來說，電腦可讀取媒體包括，但不侷限於RAM、ROM、EEPROM、快閃記憶體或其他記憶體裝置、CD-ROM、多樣化數位光碟(DVD)或其他光碟儲存器、磁式卡匣、磁帶、磁盤記憶體或其他磁性儲存裝置，或可用於儲存所欲資訊和可被分析系統207存取之任何其他媒體。該分析系統207可為單一系統，或相互聯繫的二或多個系統。在一具體實施例中，該分析系統207包括一或多個輸入裝置、一或多個輸出裝置、一或多個處理器，以及伴隨該一或多個處理器之記憶體。該伴隨一或多個處理器之記憶體包括，但不侷限於伴隨執行該模組之記憶體，以及伴隨資料儲存器之記憶體。在一具體實施例中，該分析系統207係伴隨一或多種網路，並且經由該一或多種網路與一或多個附加系統相聯繫。該模組可於硬體或軟件，或硬體和軟件組合內被執行。在一具體實施例中，該分析系統207亦包括容許該分析系統207存取輸入裝置、輸出裝置、處理器、記憶體，和模組之附加硬體及/或軟件。該模組或模組組合可伴隨，例如於不同系統上的一不同處理器及/或記憶體，並且該系統可被裝配於不同的位置。在一具體實施例中，該模組可於相同系統上進行一或多種處理或服務下被執行。該模組可相互聯繫並且分享資訊。雖然其被描述成分立和相互不同之模組，但是可於相同處理，或相同系統內執行其二或多種模組之功能。

該輸入模組303從一輸入裝置301接收資料。該輸入模組303亦可經過網路從另一系統接收資料。該輸入模組303例如，但不侷限於從經由一或多種網路之電腦接收一或多個訊號。該輸入模組303從輸入裝置301接收資料，以及再重排或再處理該資料成為可被計算模組305辨識之格式，因而該資料可被計算模組305所註釋。在一具體實施例中，該輸入裝置301為一客戶304，此可讓使用者與分析系統207之間產生傳送訊號或接收訊號的互動。該客戶304可經由一或多種網路302與分析系統207相聯繫。

該網路302可使用包括一或多種的：一區域網路、一廣域網路、一無線網路，例如利用IEEE 802.11x通訊協定之無線網路、一電纜網路、一光纖網路或其他光纖網路、一訊標環(token ring)網路，或任何其他種類的分封交換(packet-switched)網路。該網路302亦包括網際網路(Internet)，或包括任何其他類型之公眾或私人網路。利用"網路"一詞並不侷限於單型式或網路類型之網路，或暗指使用一網路。可使用任何通訊協定或類型之網路組合。例如，可使用二或多種分封交換網路，或與一無線網路相聯繫之分封交換網路。

該輸入裝置301可經由一專屬連線或任何其他連線類型與輸入模組303相聯繫。該輸入裝置301例如，但不侷限於經由通用串列匯流排(USB)與該輸入模組303相聯繫、經由串列或平行連線至該輸入模組303，或經由光纖或無線鏈結至該輸入模組303。該傳送亦可經由一或多種實體物件。例如，測序儀產生一或多個檔案，以及該測序儀或使用者複製該一或多個檔案至一可拆卸儲存裝置，例如一USB儲存裝置或一硬碟，然後使用者可從測序儀上取出該可拆卸儲存裝置並將其插入該分析系統207之輸入模組303。任何通訊協定可被用於該輸入裝置301與輸入模組303間之聯繫。例如可使用，但不侷限於USB通訊協定或藍芽通訊協定。

在一具體實施例中，該輸入裝置301係一測序儀。該測序儀分析一或多個樣本以及產生有關該一或多個樣本之序列資料。該測序儀可於一無線或有線連線上傳送該序列資料至輸入模組303。

在一具體實施例中，該資料形式係為一或多個檔案，或測序儀可列印該資料至一螢幕或一印表機，以及該資料藉由例如，但不侷限於一鍵盤、滑鼠或一掃描器被輸入分析系統207內。在一具體實施例中，該測序儀亦包括述於實例中之附加資料。

該計算模組305從輸入模組303接收輸入資料，以及根據該輸入資料執行一或多個處理序列(processing sequences)。該計算模組305例如，但不侷限於接收序列之序列訊息和參考樣本訊息。樣本資料包括序列訊息，例如但不侷限於引子105、左端及/或右端選殖載體111、表達載體103，及/或標的基因組。提供至分析系統207之樣本資料係來自使用者、測序儀、第三方(third party)系統、伴隨分析系統207之另一系統、二或多種這些輸入或其他適當來源之組合。該樣本資料可如標準格式之文字檔被提供至分析系統207。該文字檔可被格式化成例如，但不侷限於FASTA格式。在另一具體實施例中，該樣本資料信息可藉由將資訊打字或黏貼上一或多個文字輸入欄內而被輸入分析系統207。該資訊可被格式化成FASTA格式，或另一種標準化格式。在另一具體實施例中，可使用其他格式。例如，可使用Genbank^®格式，或另一種格式。分析系統207可接收一特定格式之樣本資料，然後再格式化成被該分析系統207進一步分析之資料。

該計算模組305運用一或多種演算法辨識輸入序列內之載體及/或銜接子109、辨識該輸入序列之方向性、根據輸入序列內之載體及/或銜接子109定位輸入序列內之轉殖基因側翼序列、若可能時，接收與輸入序列相關之基因組資訊，以及嘗試比對側翼序列與該基因組。該演算法產生與該輸入序列相關之附加定量和定性資料。此外，在一具體實施例中，該輸入序列被註釋和分析及/或視覺化。用於辨識和註釋輸入序列之演算法和過程分別被描述於圖4、5A、5B和5C之流程圖。

該計算模組305提供，例如有關該序列以及其於基因組內位置，及/或被視覺化模組用於看見一或多個序列之附加資料作為輸出資料。

該視覺化模組311接收有關輸入序列以及來自計算模組305之註釋作為輸入資料。該視覺化模組311容許使用者看見及/或操作及/或註釋該序列。在一具體實施例中，該視覺化模組311可使用基因組瀏覽器(Gbrowse)或修訂版Gbrowse。其他序列視覺化軟件程式可被用於附加具體實施例中。一使用者具有操作視覺呈現標的序列，或該標的序列和基因組之能力。該視覺化模組容許使用者觀察該標的序列於基因組內之位置，或其他目標序列於基因組內之位置。該可視化步驟容許一使用者定位基因組內之標的序列以及相對基因組內其他序列的位置或變化。此可視化有助於該轉殖基因側翼序列之分析。

該輸出模組307接收一輸入，以及傳送該輸入至一輸出裝置309。在一具體實施例中，該輸出模組307接收來自計算模組305、視覺化裝置311，或計算模組305和視覺化裝置311之輸入。該接收資料可為文數(alphanumeric)資料之形式，以及再格式化該資料成被輸出裝置309所能讀取之格式，然後將該資料傳送至輸出裝置309。該輸出模組307係與輸出裝置309相互聯繫。該輸出模組307係經由網路與例如，但不侷限於輸出裝置309相互聯繫，或經一專屬連線例如電纜或無線鏈結相互聯繫。該輸出模組307亦可再格式化接收自計算模組305之資料成為可被輸出裝置309所使用之資料。例如，該輸出模組307可產生一或多個可被輸出裝置309讀取之檔案。

在一具體實施例中，該輸出裝置309係一種視覺化系統、另一資料分析系統207，或一資料儲存系統。該輸出模組307藉由傳送一或多個電子檔至輸出裝置309而與該輸出裝置309相聯繫。該傳送可於一專屬鏈路上，例如USB連線或串列連線，或可於一或多種網路連線上。該傳送亦可經由一或多種實體物件。例如，該輸出模組307可產生一或多個檔案，以及可複製該一或多個檔案至一可卸除儲存裝置，諸如USB儲存裝置或硬碟，然後使用者可從分析系統207取下該可卸除儲存裝置以及將其插入視覺化系統、另一資料分析系統207，或資料儲存系統內。

圖4顯示根據本發明一具體實施例之資料分析法的流程圖。方塊401中，根據一或多種製備方案製備樣本，及以轉殖基因插入法產生未知樣本。

方塊403中，定序該未知樣本。根據規約或測序儀之操作指令進行定序。例如，可使用Solexa ILLUMINA牌測序儀或Roche 454型測序儀。該測序儀產生序列相關資料。該資料包括，但不侷限於一或多個文字檔或含有與樣本內DNA鏈序列相關資訊的其他資料檔。在一具體實施例中，該序列訊息亦包括可信資料，因而序列內各鹼基具有與其相關之可信區間，或各序列具有與其相關之可信區間。該可信區間係一種藉由測序儀計算之數學計算法，以及包括測序儀對特定鹼基之讀序強度。在一示範性實例中，該可信區間係從1至9的整數。此實例中，可信區間指標為1意指該測序儀之鹼基報告具有相對低可信度之DNA鏈內鹼基。可信區間指標為9意指該測序儀之鹼基報告具有相對高可信度之DNA鏈內鹼基。在一具體實施例中，該測序儀除了可信區間外亦提供其他資訊。例如，該測序儀可報告一無法被讀序之鹼基。

方塊405中，來自測序儀之資料被輸入至分析系統207，以及該系統定位及辨識各經定序輸入序列之側翼序列。各輸入序列內可能不存在側翼序列，或該系統可能無法辨識輸入序列內側翼序列之位置。系統註釋側翼序列已被定位和辨識之序列，以及該系統亦註釋側翼序列未被定位，或已被定位但未經辨識之序列。該系統產生根據序列資料以及該系統所進行分析之輸出資料。序列資料之實證分析亦參考圖5A-5C說明於下文。

方塊407中，該系統對經系統測定之序列資料和側翼序列定位資訊執行後處理分析。經系統測定序列資料和側翼序列位置資訊之後處理分析。該序列資料、標的基因組，及/或側翼序列定位資訊可被視覺化，該資料可被定性測量，及/或該資料可被定量測量。

圖5A係分析系統207用於執行側翼序列辨識之示範性方法的流程圖。方塊501中，將作為產生輸入序列一部分方案之表達載體103輸入該系統內。在一些具體實施例中，亦提供右端和左端選殖載體、引子105，及/或銜接子109的一或多個序列。在一更明確具體實施例中，亦提供右端和左端選殖載體、引子105，以及銜接子109的每一個序列。選殖載體、表達載體103、引子105，及銜接子109之序列通常為已知，因而可於基因組內進行辨識和定位。當比較該輸入序列時，可將已知序列之資訊輸入系統內而容許用於序列之辨識。

方塊503中，從測序儀或從一或多個檔案接收輸入序列。該一或多個檔案可經由，例如一網路被傳送至系統，或以另一方法被提供至該系統。若從測序儀接收序列訊息，其可經由，例如一網路被傳送至該系統。在一具體實施例中，該序列訊息係一種可被傳送至系統並且可被該系統讀取之電子表格。在一具體實施例中，該序列訊息包括驗證資料(verification data)或其他附加資料以確定傳送過程中該序列訊息未被損壞或改變。在另一具體實施例中，該序列訊息被儲存於一或多個資料庫內，以及經由例如一網路從該一或多個資料庫傳送該序列訊息至系統。此外，通過一網路從另一資料庫接收基因組訊息。例如，該基因組訊息可被儲存於公開可取得資料庫或個人資料庫，以及系統可請求該基因組訊息，然後根據該至少部分之請求將全部基因組或請求基因組部分傳送至該系統。

方塊505中，該分析系統207搜尋與已知序列包括表達載體103類似之輸入序列。若步驟501有提供時，該分析系統207可進一步搜尋與選殖載體、引子105，及/或銜接子109類似的序列。若步驟501未提供一或多個這些序列時，該分析系統207會將該序列視為未尋獲。該分析系統207可利用不同搜尋參數以尋找不同序列。例如，在一具體實施例中，當其為較短序列以及可能未經修飾時，該分析系統207可使用更嚴格的搜尋參數組以辨識引子105和銜接子109。當其較長及/或極可能於轉殖基因整合成基因組過程中已被改變時，該分析系統207可使用較不嚴格搜尋參數尋找輸入序列中的其他序列。在一具體實施例中，該分析系統207必需尋找正合序列以辨識表達載體103。在另一具體實施例中，若在最大容許誤差(margin of error)內尋找表達載體103之序列時，該分析系統207可辨識出表達載體103。例如，該最大容許誤差為該表達載體103內5%鹼基對之序列。在另一具體實施例中，該最大容許誤差係大於或小於5%。

在一具體實施例中，該分析系統207係利用LASTZ比對程式及演算法以搜尋輸入序列以及由選殖載體、轉殖基因表達載體103、引子105，及/或銜接子109序列所組成之已知序列間的類似序列。該LASTZ比對程式已述於Harris,R.S.(2007)之基因組DNA之改良雙序列比對法，博士論文，賓州大學，將其揭露藉由引述完整併入於此。該LASTZ程式執行兩種序列相似度搜尋。第一種序列相似度搜尋法係一種"精確檢索(exact search)"，其為LASTZ程式所設定之特定參數。一"精確檢索"要求95%一致性，序列間無空位(gap)，並且序列內至少有15個完美字元匹配(character matches)。一評分矩陣(scoring matrix)被用於測定序列"得分"，矩陣評分為1代表與標的序列為匹配以及-10代表與標的序列為不匹配。由於輸入序列內之引子105和銜接子109必需與樣本序列之引子105和銜接子109完全相同，而該引子105和銜接子109序列極短不易於實驗期間發生修飾作用，因此若提供輸入序列時，此搜尋法被用於辨識其內之引子105和銜接子109。第二種序列相似度搜尋法係一種"鬆散檢索(loose search)"。"鬆散檢索"與"精確檢索" 比較不需要相同的嚴格要求。此搜尋法使用LASTZ的預設參數，以及其被設計為用於尋找輸入序列內類似的轉殖基因表達載體103和選殖載體序列。一"鬆散檢索"被用於轉殖基因表達載體103和選殖載體序列，因為其較長因而極可能於實驗期間已被修飾。

輸入序列內與參考資料序列具有序列相似度之子序列(subsequences)被標示為"類型(type)"。在此具體實施例中，具有四種可能"類型"：引子105、銜接子109、轉殖基因表達載體103，和選殖載體。步驟501中未提供該一或多個引子105、銜接子109、轉殖基因表達載體103，以及選殖載體，步驟503和505則遺漏(skipped)該類型。舉例而言，輸入序列和任何選定引子105序列之間具有高度類似序列時被標示為或與"引子105類型"有關聯性。同樣，若使用者於分析中選擇含有15個轉殖基因表達載體103序列以及各具有30個類似輸入序列內子序列時，則全部450個序列將為與"轉殖基因表達載體103"有關聯性的類型。

方塊507中顯示，與引子105序列具有最高度序列相似度和比對長度(alignment length)之序列被歸類為"引子105類型"。同樣，與銜接子109序列具有最高度序列相似度和比對長度之序列被歸類為"銜接子109類型"。若輸入序列內銜接子109和引子105之間具有相同比對長度和比對分數(alignment score)時，則從全部相連序列(tied sequences)中任意地選擇序列"類型"。先辨識"引子105類型"和"銜接子109類型"兩種這此序列。先被辨識的原因為其基序(motifs) 之位置指出何種序列被擴增以及其如何定向。若可定位此兩種序列類型，其方向將可辨識該轉殖基因和選殖載體序列之位置。

方塊509中顯示，一旦完成引子105和銜接子109序列相似度之搜尋，則該分析系統207搜尋其大部分共用序列相似度。憑藉辨識出是否與引子105具有序列相似度，以兩種不同方法中之一進行此搜尋。若辨識出輸入序列內的一引子105序列，則可辨識出含該引子105之最匹配序列。在一具體實施例中，若未於步驟501中提供或於步驟507中辨識引子105，或無任何轉殖基因表達載體103序列含有與該"引子105類型"共用相似性之序列時，則視為最佳整體匹配(overall match)並且選擇具有最高序列相似度之轉殖基因表達載體103。此文中"最佳整體匹配"意指選擇具有最高度序列相似度和比對長度之匹配。

一旦定位和辨識出轉殖基因表達載體103，則嘗試經由序列相似度比對已知選殖載體以定位和辨識該選殖載體序列。一旦辨識出一可能轉殖基因表達載體103序列，則進一步定性此序列之序列上游或下游。查詢該上游選殖載體序列以辨識於開始和結束坐標序列共用相似性之選殖載體。未查詢該先前註釋序列(轉殖基因表達載體103、引子105，和銜接子109)。因此，該分析系統207搜尋其上游區域序列相似度具有先前辨識特徵之全部可能選殖載體。接著該分析系統207以類似方法搜尋其下游區域序列相似度具有先前辨識特徵選殖載體之已辨識選殖載體序列資訊。藉由選擇具有最高度序列相似度和比對長度之匹配辨識該載體。

方塊511中顯示，若可能的話辨識該輸入序列的方向性。為便於比對及進一步計算，該分析系統207嘗試以左至右方向排列輸入序列，亦即以序列5'端在左邊以及該序列之3'端在右邊。在某些情況下，該測序儀可能已經定序DNA之反義股(antisense strand)，此時該序列已被反向互補(reverse complemented)。一旦已辨識出輸入序列內各種"類型"(即，引子105、銜接子109、選殖載體，和轉殖基因表達載體103)之序列時，則系統利用此資訊辨識及/或定向該輸入序列。藉由引子105和銜接子109序列之定位測定其方向性。由於較易被視覺化，因此以正向(forward)方向較佳，其中該引子105係位於銜接子109之前。

一反義股一輸入序列之實例被示於圖6。圖6中，分析系統207所已知引子105序列為"TAAACA"。在一具體實施例中，若輸入序列605被分析系統207讀取，則該分析系統207最初可能不尋找輸入序列605內的任一引子603序列。分析系統207反向互補該輸入序列605以分析一反向互補序列607，然後比對引子105與該反向互補序列607。該分析系統207，在實例中，於反向互補序列607內尋找與引子603完全匹配的子序列。該分析系統207從已知引子603分離序列609，然後進行該反向互補序列607之分析。在一具體實施例中，該分析系統207代之以比對已知引子603之反向互補序列與序列605，以及辨識該反向互補引子序列603，而可反向互補該全部序列產生一反向互補序列607，然後以該反應互補序列607進行處理。

方塊513內顯示，若該序列於先前步驟中被反向互補時，該轉殖基因側翼序列係位於輸入序列或反向互補序列內。示範性定位法更詳述於圖5B和5C。

方塊515中顯示，若發現於先前步驟，該轉殖側翼序列係位於基因組內。轉殖基因側翼序列係位於該基因組內之整合位點(integration site)以及轉殖基因插入位點之上游或下游並且毗鄰表達載體序列。利用匹配演算法測定該整合位點。例如可使用基本區域排比搜尋工具(BLAST)演算法。該BLAST演算法述於Altschul S.F.等人，"基本區域排比搜尋工具"；J.Mol Biol.1990年十月；215(3)：403-10，藉由引述將其揭露完整併入於此。用於BLAST搜尋之輸入為轉殖基因側翼序列和基因組。該BLAST搜尋法，可能時，定位轉殖基因側翼序列被整合成基因組之位點。該BLAST搜尋法的輸出資料為可能整合位點以及適配分數之表列。使此同源性搜尋的全部遮蔽(masking)和低複雜度過濾(filtering)失效而儘可能地辨識出更多的整合位點。進行搜尋之後，剖析該輸出資料以尋找首選(top hit)，其相似度具有最高分數。一旦鑑定出其首選，此區域被視為是該轉殖基因的推定整合位點。

就一已知轉殖基因整合位點而言，可利用電腦稿本辨識被註釋於基因組內之交聯內源性上游和下游基因。剖析基因組註釋之輸入檔，及以染色體索引(indexed)該基因然後藉由起始坐標分類(sorted)。當測定出一整合位點，該系統辨識基因坐標之適當列表然後進行二元搜尋法(binary search)以辨識該整合位點之正確插入點。將出現對該轉殖基因整合位點之坐標的排序清單(sorted list)。從此點而言，從定位之整合位點正向(forward)搜尋該列表直至一序列大於10仟鹼基對為止。接著從定位之整合位點逆向(backward)搜尋該列表直至一序列大於10仟鹼基對(kb)為止。依此方法，整合位點之基因組上游和下游內基因被註釋以便進一步分析。該距離參數(distance parameter)可被改變，例如但不侷限於至該整合位點之>10 kb或<10 kb。從該整合位點之距離亦可使用其他範圍。

若一輸入序列發現有轉殖基因整合位點時，測定該轉殖基因與染色體側翼序列間之序列是否含有重排、插入，或缺失至屬重要。為給予使用者對整合位點未改變的可信度(confidence)，即整合位點未被重排或修飾而於轉殖基因整合過程中導致缺失或插入，該分析系統207計算存在於染色體側翼序列與用於任何先前所述過程中任何其他序列"類型"間之重疊數量。此分析系統的計算方法為唯一且未被任何其他序列相似度重疊之輸入序列相似度內鹼基數(unique_bases)與輸入序列相似度內鹼基總數(total_bases)的比例。

此比例可獲得對該整合位點之定量值。

在一具體實施例中，從先前圖5A內方塊之註釋資料(annotated data)可被目視呈現於方塊517中。可視化之實例顯示於圖9A和10。此外，以視覺化呈現該輸入序列、轉殖基因側翼序列，及/或其有關選殖載體、表達載體103、引子105、銜接子109或輸入序列之其他資訊。有關該轉殖基因側翼序列、選殖載體、表達載體103、引子105、銜接子109，或輸入序列之資料亦被儲存至一或多個電子檔。

圖5B係顯示標記一轉殖基因側翼序列850的一般方法之流程圖。方塊852中，用作為一部分方案以產生該輸入序列之表達載體103被輸入該系統內。在一些具體實施例中，亦提供一或多個用於右和左選殖載體、引子105、轉殖基因表達載體序列103，和銜接子109之序列。在一更明確具體實施例中，亦提供分別用於右和左選殖載體、引子105、轉殖基因表達載體序列103，和銜接子之序列。該用於選殖載體、表達載體103、引子105，和銜接子109之序列通常為已知，因而其可於輸入未知序列內被辨識和定位。當比對輸入序列時，該已知序列之訊息被輸入系統內而容許用於辨識該序列。

方塊854中，從測序儀或從一或多個檔案接收該輸入序列。該一或多個檔案可經由，例如一網路被傳送至系統，或以另一方法被提供至系統。若從測序儀接收序列訊息時，其可經由例如一網路被傳送至該系統。在一具體實施例中，該序列訊息係一種可被傳送至系統並且可被該系統讀取之電子表格。在一具體實施例中，該序列訊息包括驗證資料或其他附加資料以確定傳送過程中該序列訊息未被損壞或改變。在另一具體實施例中，該序列訊息被儲存於一或多個資料庫內，以及經由例如一網路從該一或多個資料庫傳送該序列訊息至系統。此外，通過一網路從另一資料庫接收基因組訊息。例如，該基因組訊息可被儲存於公開可取得資料庫或個人資料庫，以及系統可請求該基因組訊息，然後根據該至少部分之請求將全部基因組或請求基因組部分傳送至該系統。

方塊856中，該分析系統207搜尋輸入序列與已知序列包括第一參考序列、圖形表達載體103的相似性。若方塊858中未發現該表達載體103，則此方法進行至方塊860。缺乏表達載體103表示輸入序列的產生或處理中有錯誤。方塊860中，該輸入序列被標示為失敗(failing)並且無法比對該基因組。在一具體實施例中，當序列被視覺化時則該序列被標示成紅色。

若方塊858中發現表達載體103，則方法850進行至方塊862。在一具體實施例中，該分析系統207必需發現表達載體103之正合序列以進行至方塊862。在另一具體實施例中，該分析系統207若用於表達載體103之序列在一誤差範圍內時可進行至方塊862。例如，該誤差範圍可為表達載體103序列內鹼基對的5%。在另一具體實施例中，該誤差範圍為大於或小於5%。

方塊862中，該分析系統207搜尋輸入序列與已知序列包括第二參考序列、圖形銜接子序列109的相似性。若方塊864中未發現該銜接子序列109，則此方法進行至方塊866。若未發現銜接子序列109，則方塊864之方法進行至方塊880。在一具體實施例中，該分析系統207必需發現銜接子序列109之正合序列以進行至方塊866。在另一具體實施例中，該分析系統207若用於銜接子序列109之序列在一誤差範圍內時可進行至方塊866。例如，該誤差範圍可為銜接子序列109內鹼基對的5%。在另一具體實施例中，該誤差範圍為大於或小於5%。

若發現銜接子序列，則該方法550進行至方塊866。方塊866中，該分析系統207嘗試辨識方塊854中輸入的未知序列。在一具體實施例中，該已知銜接子在進一步處理之前從該未知序列被移除。在另一具體實施例中，該已知銜接子在進一步處理之前並未從該未知序列被移除。若辨識出該未知序列，則該方法進行至方塊870。若未辨識出該未知序列，則該方法進行至方塊878。無法辨識該未知序列表示該序列的產生或處理中有錯誤。方塊878中，該輸入序列被標示為無法處理(failing processing)。在一具體實施例中，當序列被視覺化時則該序列被標示成紅色。

方塊870中，以基因組搜尋輸入序列。在一具體實施例中，利用BLAST搜尋演算法以嘗試比對簡化輸入序列(reduced input sequence)與該基因組。方塊872中，若以輸入序列比對該基因組，則該方法進行至方塊874。若該簡化輸入序列與基因組內任何位置不匹配，則該方法進行至方塊876。

方塊874中，以該輸入序列比對一部分基因組。該分析系統207註記(notes)該輸入序列於基因組內之位置，以及亦註記該位置毗鄰區域內的目標區域(regions of interest)。在一具體實施例中，該分析系統207註記該位置於200個仟鹼基對內的目標區域。在其他具體實施例中，該分析系統207在較大或較少量鹼基對內註記目標區域。在一具體實施例中，使用者能指定分析系統207所註記位置周圍之毗鄰區域的大小。在一具體實施例中，當序列被視覺化時則該序列被標示成綠色。

方塊876中，該輸入序列被標示為無法比對該基因組。該簡化輸入序列在定序過程中可能已損壞，或可能已定序不正確(sequenced incorrectly)。在一具體實施例中，當序列被視覺化時則該序列被標示成橘色。

如前所述，若方塊864中未發現銜接子序列109，則該方法850進行至方塊880。方塊880中，該分析系統207嘗試辨識方塊854中所輸入之未知序列。若方塊882中已辨識出該未知序列，則該方法進行至方塊886。若未辨識出該未知序列，則該方法進行至方塊884。無法辨識該未知序列表示該序列的產生或處理中有錯誤。方塊884中，該輸入序列被標示為無法處理。在一具體實施例中，當序列被視覺化時則該序列被標示成紅色。

方塊886中，針對基因組搜尋輸入序列。在一具體實施例中，利用BLAST搜尋演算法以嘗試比對該簡化輸入序列與基因組。方塊888中，若以該輸入序列比對基因組，則該方法進行至方塊890。若該簡化輸入序列與基因組內任何部分不匹配，則該方法進行至方塊892。

方塊890中，以該輸入序列比對一部分基因組。該分析系統207註記該輸入序列於基因組內之位置，以及亦註記該位置毗鄰區域內的目標區域。在一具體實施例中，該分析系統207註記該位置於200個仟鹼基對內的目標區域。在其他具體實施例中，該分析系統207在較大或較少量鹼基對內註記目標區域。在一具體實施例中，使用者能指定分析系統207所註記位置周圍之毗鄰區域的大小。在一具體實施例中，當序列被視覺化時則該序列被標示成綠色。

方塊892中，該輸入序列被標示為無法比對該基因組。該簡化輸入序列在定序過程中可能已損壞，或可能已定序不正確。在一具體實施例中，當序列被視覺化時則該序列被標示成橘色。

圖5C顯示另一種標記一轉殖基因側翼序列507之方法的流程圖，其係根據步驟501所提供用於引子105、銜接子109或二者之已知序列的圖5A流程圖。方塊551中，該分析系統207搜尋輸入序列內被辨識為引子105和銜接子109之序列。

方塊553中，該分析系統207搜尋輸入序列內的銜接子109和引子105。若步驟501提供銜接子109和引子105序列並且於輸入序列內被發現時，該方法進行至方塊559。若輸入序列內未發現任一銜接子109或引子105序列，或步驟501未提供任一銜接子109或引子105序列時，則該方法進行至方塊555。在一具體實施例中，該分析系統207必需找到任一銜接子109和引子105之正合序列以進行至方塊559。在另一具體實施例中，若發現用於銜接子109和引子105之序列在一誤差範圍內時該分析系統207可進行至方塊559。例如，該誤差範圍可為銜接子109或引子105序列內鹼基對的5%。在另一具體實施例中，該誤差範圍為大於或小於5%。在另一具體實施例中，用於引子105之誤差範圍和用於銜接子109之誤差範圍各不相同。

方塊559中，從輸入序列移除用於銜接子109和引子105之已知序列，而該簡化輸入序列成為介於該銜接子109和引子105之間的序列。針對基因組搜尋該簡化輸入序列。在一具體實施例中，利用BLAST搜尋演算法以嘗試比對該簡化輸入序列與基因組。

方塊563中，若以該簡化輸入序列比對基因組，則該方法進行至方塊571。若該簡化輸入序列與基因組內任何位置不匹配，則該方法進行至方塊565，並且該輸入序列被標示為無法比對該基因組。該簡化輸入序列在定序過程中可能已損壞，或可能定序不正確，或銜接子109和引子105可能已於序列內相互鄰接而未留下簡化輸入序列。在一具體實施例中，當序列被視覺化時該序列被標示成橘色。

方塊571中，以該簡化輸入序列比對一部分基因組。該分析系統207註記該輸入序列於基因組內之位置，以及亦註記該位置毗鄰區域內的目標區域。在一具體實施例中，該分析系統207註記該位置於200個仟鹼基對內的目標區域。在其他具體實施例中，該分析系統207在較大或較少量鹼基對內註記目標區域。在一具體實施例中，使用者能指定分析系統207所註記位置周圍之毗鄰區域的大小。在一具體實施例中，當序列被視覺化時該序列被標示成綠色。

若該輸入序列內未發現任一銜接子109和引子105，或發現該銜接子109和引子105序列未於分析系統207或使用者所設定之容限(tolerances)內時，該方法從方塊553進行至方塊555。方塊555中，該分析系統207判定是否於輸入序列內發現該銜接子109或引子105序列。若於該輸入序列內發現任一銜接子109或引子105序列，則該方法進行至方塊561。若於該輸入序列內未發現任何銜接子109和引子105序列，則該方法進行至方塊557。

方塊557中，該輸入序列內未發現銜接子109或是引子105。缺乏引子105和銜接子109表示輸入序列的產生或處理中有錯誤。該輸入序列被標示為失敗，並且無法比對該基因組。在一具體實施例中，當序列被視覺化時則該序列被標示成紅色。

方塊561中，該輸入序列內發現任一銜接子109或是引子105序列。在一具體實施例中，該輸入序列內發現於誤差範圍內之銜接子109或引子105序列。若遺失銜接子109或引子105序列表示輸入序列之輸入序列延伸至該輸入序列的任一5'端或3'端，並且輸入序列未捕獲(captured)該輸入序列的全部序列。從輸入序列移除存在於該輸入序列內任何的已知銜接子109或已知引子105，因而使該輸入序列被簡化(reduced)成介於銜接子109和引子105間的序列。針對基因組搜尋該簡化輸入序列，示於方塊567。在一具體實施例中，利用BLAST搜尋演算法嘗試比對該簡化輸入序列與基因組。

方塊567中，若比對該簡化輸入序列與基因組，則該方法進行至方塊573。若該簡化輸入序列與基因組內任何位置不匹配，則該方法進行至方塊569，然後將該輸入序列標示為無法比對基因組。該簡化輸入序列在定序過程中可能已損壞，或可能定序不正確，或銜接子109和引子105可能已於序列內相互鄰接而未留下簡化輸入序列。在一具體實施例中，當序列被視覺化時則該序列被標示成橘色。

方塊573中，以該簡化輸入序列比對一部分基因組。該分析系統207註記該輸入序列於基因組內之位置，以及亦註記該位置毗鄰區域內的目標區域。在一具體實施例中，該分析系統207註記該位置於200個仟鹼基對內的目標區域。在其他具體實施例中，該分析系統207在較大或較少量鹼基對內註記目標區域。在一具體實施例中，使用者能指定分析系統207所註記位置周圍之毗鄰區域的大小。目標區域包含編碼基因序列或其他基因組訊息。目標區域可接收自第三方系統，例如該分析系統207從其接收基因組序列訊息之系統。在一具體實施例中，當序列被視覺化時該序列被標示為黃色。

圖7為用於該分析系統207之樣本輸入螢幕。使用者可選擇方塊701中的一系列輸入序列。該輸入序列可為用於提供序列訊息的標準格式，或為可被該分析系統207所剖析和辨識的格式。使用者亦可選擇一生物體基因組以針對該輸入序列進行比對。該基因組可提供自分析系統207，因而使用者可辨識一或多個該分析系統207現有的基因組，或使用者可提供一個至含有該生物體基因組之序列訊息的電子檔路徑。該基因組可為完整或部分。使用者，於方塊705中，選擇一或多個用於實驗中並且其必需存在於該輸入序列內之表達載體103。使用者，於方塊707、709和711中，分別選擇用於實驗中並且其必需存在於該輸入序列內之載體序列、引子105序列，和銜接子109序列。然後使用者按下"遞送"按鈕而開始該資料輸送過程以及進行分析。

圖8為根據本發明一具體實施例之分析系統207的一輸出範例。在該具體實施例中，表內標示為"1"之行代表其染色體側翼序列被分析系統207正確辨識的輸入序列。這些行可被彩色編碼(color coded)，例如被標成綠色以與他行區別。標示為"2"之行代表已辨識其染色體側翼序列之輸入序列，但是該分析含有異常，其原因為無法辨識出全部已知搜尋序列而使，例如無法定位輸入序列內之銜接子109。這些行可被編碼成與標示為"1"之行不同的顏色。標示為"3"之行代表無法辨識其染色體側翼序列之輸入序列。這些行被標成紅色。鄰欄(neighbors column)表示從整合位點近端之基因組序列的基因。

圖9A為分析系統207之綜合展示圖，其所提供之圖形展示圖係來自示範性大豆事例416用於一特定輸入序列的整合位點分析。在該圖像上方，展示該輸入序列之坐標。此綜合展示圖內所顯示其餘序列則相對這些坐標被註釋。於示範性螢幕中，該輸入參考序列被定向而使引子105和轉殖基因表達載體103出現於螢幕的左手邊，以及基因組側翼序列和銜接子109則出現於螢幕的右手邊。顯示已註釋用於事例416(序列辨識編號：1)(示於圖9B)的圖形展示圖以辨識其內的轉殖基因表達載體103("pDAB4468"，序列辨識編號：2)(示於圖9C)、銜接子109("Soybe-"，序列辨識編號：3)(示於圖9D)以及引子105("soybean_primer"，序列辨識編號：4)(示於圖9E)序列。已辨識染色體側翼序列被註釋為一實線(序列辨識編號：5)(示於圖9F)。在該實例中，分析系統207已比對該染色體側翼序列與大豆(Glycin max)基因組。排比該染色體側翼序列與染色體4之46003248、46004030區的序列相似值(similarity score)為780；與染色體6之11825430、11825559區的序列相似值為96；與染色體15之24517407、24517435區的序列相似值為29；以及與染色體5之37323425、37323452區的序列相似值為28。於圖中以圖形代表該輸入序列、轉殖基因表達載體103、銜接子109，以及引子105。

圖10顯示該分析系統207於擬南芥(Arabidopsis thaliana)中之應用。圖解該分析系統207之綜合展示圖，其提供用於分析一輸入序列整合位點之直觀圖形展示圖。在該圖像上方，展示該輸入序列之坐標。此綜合展示圖內所顯示其餘序列係相對這些坐標被註釋。顯示已註釋用於事例(event)之輸入序列的圖形展示圖以辨識選殖載體("pCR2.1-TOP")以及銜接子109("1mAdp-Pri")。該已辨識染色體側翼序列被註釋為一實線。該分析系統207已比對該染色體側翼序列與擬南芥基因組序列標識符(identifier)1229090、1230015，以及據報告其序列相似值為913。圖10顯示具有一引子105，但是無右端選殖載體111之轉殖基因側翼序列。

圖11顯示該分析系統207於玉米(maize)中之應用。圖解該分析系統207之綜合展示圖，其提供用於分析一輸入序列整合位點之直觀圖形展示圖。在該圖像上方，展示該輸入序列之坐標。此綜合展示圖內所顯示其餘序列係相對這些坐標被註釋。顯示已註釋用於事例之輸入序列的圖形展示圖以辨識表達載體("pEPS1027")。該已辨識染色體側翼序列被註釋為一實線。該分析系統207已比對該染色體側翼序列與玉米基因組序列。已比對該染色體側翼序列與玉米基因組序列標識符5337731、5338124，以及據報告其序列相似值為728。圖11顯示具有一表達載體103，但是無右端或左端選殖載體101、111之轉殖基因側翼序列。

本發明雖然以示範性設計作為說明，但是本發明可在本發明之精神和範圍內做進一步修飾。本申請案擬涵蓋本發明利用其一般原則下的任何變異、用途或改造物。此外，本申請案擬涵蓋此類偏離本發明但是在技術上與本發明相關以及仍屬於本申請專利範圍內已知或慣例實務的範圍。

<110> 陶氏農業科學公司

<120> DNA序列之資料分析技術

<130> DAS-P0207-02-US-e

<150> 61/596,540

<151> 2012-02-08

<150> 61/601,090

<151> 2012-02-21

<160> 8

<170> PatentIn版本3.5

<210> 1

<211> 1395

<212> DNA

<213> 人工序列

<220>

<223> 事例416輸入序列

<400> 1

<210> 2

<211> 295

<212> DNA

<213> 人工序列

<220>

<223> 轉殖基因表達載體103序列

<400> 2

<210> 3

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 銜接子109序列

<400> 3

<210> 4

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 引子105

<400> 4

<210> 5

<211> 1093

<212> DNA

<213> 人工序列

<220>

<223> 事例416基因組側翼序列

<400> 5

<210> 6

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 輸入序列605

<400> 6

<210> 7

<211> 50

<212> DNA

<213> 人工序列

<220>

<223> 反向互補序列607

<400> 7

<210> 8

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 序列609

<400> 8

201‧‧‧樣本

203‧‧‧參考樣本訊息

205‧‧‧測序儀

207‧‧‧分析系統

209‧‧‧遙控系統

220‧‧‧流程圖

221-227‧‧‧方塊

Claims

一種用於分析之方法，包括：電性接收序列資料；電性接收一或多個與至少一表達載體有關之參考資料序列；找出該序列資料與至少一參考資料序列之關聯性以辨識一轉殖基因側翼序列；搜尋一基因組內轉殖基因側翼序列的一或多個插入位點；以及在該搜尋步驟中當發現一或多個插入位點時，註釋該基因組以及該基因組內的一或多個插入位點。
如申請專利範圍第1項之方法，其中該參考資料進一步係關於至少一左端選殖載體、一引子、一銜接子，以及一右端選殖載體。
如申請專利範圍第1項之方法，其中該參考資料進一步係關於一左端選殖載體、一引子、一銜接子，以及一右端選殖載體。
如申請專利範圍第1項之方法，進一步包括：搜尋第一參考資料序列之序列資料；以及當該第一參考資料序列被定位時搜尋第二參考資料序列之序列資料。
如申請專利範圍第4項之方法，其中構成該第一參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體。
如申請專利範圍第5項之方法，其中構成該第二參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體，於第一參考資料序列之外獨立地選取該第二參考資料序列。
如申請專利範圍第4項之方法，其中該第一參考資料序列係一表達載體以及該第二參考資料序列係一銜接子。
如申請專利範圍第4項之方法，其中構成該第一和第二參考資料序列之群組係獨立地選自：一引子和一銜接子。
如申請專利範圍第1項之方法，進一步包括視覺化該轉殖基因側翼序列和該參考資料。
如申請專利範圍第1項之方法，進一步包括視覺化該基因組內的一或多個插入位點。
如申請專利範圍第1項之方法，進一步包括定性基因組上游和下游插入位點之序列訊息。
如申請專利範圍第11項之方法，其中定性基因組內於插入位點之10仟鹼基對上游以及10仟鹼基對下游的序列訊息。
如申請專利範圍第1項之方法，進一步包括：比對該序列資料與一或多個參考資料序列；以及執行該經比對序列之定性分析。
如申請專利範圍第1項之方法，進一步包括：比對該序列資料與一或多個參考資料序列；以及執行該經比對序列之定性分析。
如申請專利範圍第1項之方法，其中該基因組係至少一部分為植物基因組。
如申請專利範圍第1項之方法，其中尋找該序列資料與至少一參考資料序列之關聯性包括利用一演算法以比對至少一參考資料序列與該序列資料。
如申請專利範圍第16項之方法，其中該演算法係LASTZ演算法。
如申請專利範圍第1項之方法，其中尋找一基因組內轉殖基因側翼序列的一或多個插入位點，包括利用一演算法以定位該基因組內於序列上游和下游的至少一插入位點。
如申請專利範圍第18項之方法，其中該演算法係BLAST演算法。
一種用於分析之系統，包括：一用於接收與一序列有關序列資料之模組；一用於接收一或多個與至少一表達載體有關參考序列之模組；以及一計算模組，其可操作地找出：序列資料與至少一參考資料序列關聯性以辨識一轉殖基因側翼序列；搜尋一基因組內轉殖基因側翼基因序列的一或多個插入位點；以及當發現該一或多個插入位點時，註釋該基因組以及該基因組內的一或多個插入位點。
如申請專利範圍第20項之系統，其中該參考資料進一步係關於至少一左端選殖載體、一引子、一銜接子，以及一右端選殖載體。
如申請專利範圍第20項之系統，其中該參考資料進一步係關於一左端選殖載體、一引子、一銜接子，以及一右端選殖載體。
如申請專利範圍第20項之系統，其中該計算模組進一步可操作以：搜尋第一參考資料序列之序列資料；以及當該第一參考資料序列被定位時搜尋第二參考資料序列之序列資料。
如申請專利範圍第23項之系統，其中構成該第一參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體。
如申請專利範圍第24項之方法，其中構成該第二參考資料序列之群組係選自：一表達載體、一銜接子、一引子，以及一選殖載體，於第一參考資料序列之外獨立地選取該第二參考資料序列。
如申請專利範圍第23項之方法，其中該第一參考資料序列係一表達載體以及該第二參考資料序列係一銜接子。
如申請專利範圍第23項之方法，其中構成該第一和第二參考資料序列之群組係獨立地選自：一引子和一銜接子。
如申請專利範圍第20項之系統，進一步包括一用於視覺化該轉殖基因側翼序列之模組以及至少一個左端選殖載體、表達載體、引子、銜接子，以及右端選殖載體。
如申請專利範圍第20項之系統，進一步包括一用於視覺化該基因組內一或多個插入位點的模組。
如申請專利範圍第20項之系統，其中該計算模組進一步可操作地定性基因組內之插入位點上游和下游的序列訊息。
如申請專利範圍第30項之系統，其中該計算模組可操作地定性基因組內於插入位點之10仟鹼基對上游以及10仟鹼基對下游的序列訊息。
如申請專利範圍第20項之系統，其中該計算模組可操作地：比對該序列資料與一或多個參考資料序列；以及執行該經比對序列之定性分析。
如申請專利範圍第20項之系統，其中該計算模組可操作地：比對該序列資料與一或多個參考資料序列；以及執行該經比對序列之定性分析。
如申請專利範圍第20項之系統，其中該基因組係至少一部分為植物基因組。
如申請專利範圍第20項之系統，其中尋找該序列資料與至少一參考資料序列之關聯性包括利用一演算法以比對至少一參考資料序列與該序列資料。
如申請專利範圍第35項之系統，其中該演算法係LASTZ演算法。
如申請專利範圍第20項之系統，其中尋找一基因組內轉殖基因側翼序列的一或多個插入位點包括利用一演算法以定位該基因組內於序列上游和下游的至少一插入位點。
如申請專利範圍第37項之系統，其中該演算法係BLAST演算法。