TWI385253B

TWI385253B - 精確序列資訊及修飾鹼基位置確認的方法

Info

Publication number: TWI385253B
Application number: TW098137757A
Authority: TW
Inventors: Chao Chi Pan; Jenn Yeh Fann; Chung Fan Chiou; Hung Chi Chien; Hui Ling Chen
Original assignee: Ind Tech Res Inst
Priority date: 2008-11-07
Filing date: 2009-11-06
Publication date: 2013-02-11
Also published as: US20120295260A1; JP5483628B2; EP2740806B1; CN103484560A; ES2528253T3; US9747414B2; AU2009311073A1; US9767251B2; US20140256570A1; US10515714B2; US11676682B1; CN103484560B; AU2009311073B2; US20150379194A1; US8486630B2; US20130230909A1; US20180018425A1; EP2245187A1; EP2740806A2; PL2245187T3

Description

精確序列資訊及修飾鹼基位置確認的方法

本案係關於確認核酸序列之方法及確認核酸中修飾鹼基位置之方法。

DNA定序科技的近代發展增加了在基因體層級上高度個人化、預防醫學的可能性。而且由一或多個族群中的多個體快速獲取大量的序列資訊之可能性，可在生物醫學科學上開闢基因體改革的新狀態。

基因型間的單一鹼基差異可產生實質的表型效應。例如已有超過300個突變確認位於編碼苯丙胺酸羥化酶(PAH)的基因中，此酵素在苯丙胺酸代謝及蛋白質與神經傳遞物質的生物合成中，使苯丙胺酸(phenylalanine)轉換為酪胺酸(tyrosine)，該突變造成酵素活性喪失及高苯丙胺酸症(hyperphenylalaninaemia)及苯酮尿症(phenylketonuria)的疾病(如Jenningset al.,Eur J Hum Genet 8,683-696(2000))。

序列資訊可使用Sanger定序法獲得，Sanger定序法中，標記的雙去氧基鏈終止序列(dideoxy chain terminator)的核苷酸類似物加入於大量的引子延伸反應，解開了不同長度的產物及分析確認該加入的終止序列之相同性(如Sangeret al.,Proc Natl Acad Sci USA 74,5463-5467(1997))。確實有許多基因體序列以此技術被確認。然而以Sanger定序獲取序列資訊的成本及速度受到限制。

新的定序技術可以每日數億鹼基的驚人速度產生序列資訊，每一鹼基的成本低於Sanger定序(如Kato,Int J Clin Exp Med 2,193-202(2009))。但是，使用這些定序技術所得的原始資訊較傳統的Sanger定序產生更多的錯誤。這是因為獲得資訊來自於個體DNA分子，而非一大量族群。

例如經由合成的單一分子定序中，因為裝置錯過一微弱訊號、或者缺少來自螢光染料退色的訊號、或因為聚合酶作用太快以致未被裝置偵測到，可能會略過一鹼基。所有上述事件皆導致原始序列中的缺少的錯誤。同樣地，突變錯誤及插入錯誤也會因為潛在的較微弱訊號及較傳統方法快速的反應等簡單的原因，高頻率地發生。

低精確度的序列資訊更難以組合(assemble)。在大規模定序中，例如定序一完整的真核基因體，其DNA分子被切成較小片段。這些片段同時被定序，然後組合所得的讀取，重新構築原始樣本DNA分子的完整序列。切成片段的過程可由例如機械性切割或酵素性切斷所達成。

將序列的小讀取組合成大的基因體需要片段的讀取精確到足以正確地組合在一起。這對於由Sanger法產生的原始定序資訊通常是正確的，Sanger法可具有超過95%的原始資訊正確性。精確的單一分子定序技術可應用於偵測核酸樣本中的單一鹼基修飾或突變。然而，因為上述的限制，單一分子定序技術的原始資訊精確度可能降低。個別讀取原始序列的精確度可低至60-80%(如Harris et al.,Science 320:106-109(2008))。因此，提供精確的單一分子定序方法有其需要。

而且，DNA甲基化在基因表現調節中扮演一關鍵角色，例如在啟動子的甲基化通常導致轉錄靜止(transcriptional silencing)。甲基化也已知為基因體印記(genomic imprinting)及X染色體去活化的必要機制。然而，辨識複合的整個基因體甲基化概況(profile)的過程受到限制。因此以高生產率確認DNA甲基化概況的方法有其需要，而且此方法也提供序列的精確確認。

在一些實施例中，本發明提供一種確認核酸樣本序列之方法，包括(a)提供一環狀核酸分子，該分子包括至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及該核酸樣本，其中該插入物具有一已知序列；(b)獲取序列資訊，該序列資訊包括至少兩個插入樣本單元，其中形成一包含至少兩個插入樣本單元的核酸分子；(c)比較該插入物的序列與該插入物中的已知序列，計算步驟(b)序列資訊的至少兩個插入物之序列的分數(score)；(d)根據位於緊鄰該核酸樣本序列的重複序列的上游及下游之該插入物的一或二個序列的分數，接受或拒絕步驟(b)所得之序列資訊的核酸樣本序列之至少兩個重複序列；(e)編輯一接受序列組，該接受序列組包含步驟(d)中接受的核酸樣本序列之至少一個重複序列；及(f)使用該接受序列組，確認該核酸樣本序列。

在一些實施例中，本發明提供一種系統，包括一可操作連接於電腦裝置的定序裝置，該電腦裝置包括處理器、儲存裝置、匯流排系統(bus system)、及至少一個使用者介面元件，該儲存裝置編入包括操作系統、使用者介面軟體、及使用說明之程式，當以該處理器執行時，可選擇性地具有使用者輸入，進行一方法包括：(a)由一環狀核酸分子獲取序列資訊，該環狀分子包括至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及一核酸樣本，其中：(i)具有已知序列，(ii)該序列訊息包括至少兩個插入樣本單元的序列，及(iii)產生一核酸分子包含至少兩個插入樣本單元；(b)藉由比較該插入物的序列與該插入物的已知序列，計算步驟(a)的序列資訊之至少兩個插入物的序列的分數；(c)根據緊鄰於該核酸樣本序列的重複序列之上游及下游的插入物之一或二個序列的分數，接受或拒絕步驟(a)之序列資訊的核酸樣本序列的至少兩個重複序列；(d)編輯一接受序列組，該接受序列組包括步驟(c)接受的核酸樣本序列之至少一個重複序列；及(e)使用該接受序列組確認該核酸樣本序列，其中，使用該系統的輸出，產生至少一個(i)一核酸樣本的序列；或(ii)一指示，指示在核酸樣本中至少一個位置上有修飾鹼基。

在一些實施例中，本發明提供一種儲存裝置，編入包括操作系統、使用者介面軟體及指示說明之程式，其中當執行系統的處理器時，該系統包括定序裝置，可操作連接於一電腦裝置，該電腦裝置包括處理器、儲存裝置、匯排流系統及至少一個使用者介面元件與選擇性具有使用者輸入，進行一方法包括：(a)由一環狀核酸分子獲取序列資訊，該環狀分子包含至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及一核酸樣本，其中：(i)該插入物具有已知序列，(ii)該序列訊息包括至少兩個插入樣本單元的序列，及(iii)產生一核酸分子包含至少兩個插入樣本單元；(b)比較該插入物的序列與該插入物的已知序列，計算步驟(a)的序列資訊之至少兩個插入物的序列之分數；(c)根據緊鄰於該核酸樣本序列的重複序列之上游及下游的插入物之一或二個序列的分數，接受或拒絕步驟(a)之序列資訊的核酸樣本序列的至少兩個重複序列；(d)編輯一接受序列組，該接受序列組包含步驟(c)接受的核酸樣本序列之至少一個重複序列；及(e)使用該接受序列組，確認該核酸樣本序列，其中，該方法導致輸出用於產生至少一個(i)一核酸樣本的序列；或(ii)一指示，指示在核酸樣本中至少一個位置上有修飾鹼基。

在一些實施例中，本發明提供一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：(a)鎖住一雙股核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子(circular pair-locked molecule)；(b)經由單一分子定序獲得該環狀雙股連結分子的序列資訊，其中該序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；(c)比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列；(d)改變該環狀雙股連結分子中特定型態之鹼基的鹼基配對特異性(base-pairing specificity)，產生一改變的環狀雙股連結分子；(e)獲得該改變的環狀雙股連結分子的序列資訊，其中該序列資訊包括該改變的順向股及反向股的序列；及(f)經由比較該改變的順向股及反向股的序列，確認該雙股核酸樣本序列中修飾鹼基的位置。

在一些實施例中，本發明提供一種確認雙股核酸樣本之方法，包括：(a)鎖住核酸樣本的順向股與反向股在一起，形成一環狀雙股連結分子；(b)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及(c)比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列。

在一些實施例中，本發明提供一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：(a)鎖住核酸樣本的順向股與反向股在一起，形成一環狀雙股連結分子；(b)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及(c)比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。

在一些實施例中，本發明提供一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：(a)鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；(b)改變該環狀雙股連結分子中特定形式之鹼基的鹼基配對特異性；(c)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及(d)比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。

在一些實施例中，本發明提供一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：(a)鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；(b)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；(c)比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列；(d)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中使用至少一個區分鹼基及其修飾形式的核苷酸類似物，獲得序列資訊，該序列資訊包括在至少一個位置上加入至少一個鑑別標記的核苷酸類似物；及(e)比較該順向股及反向股之序列，確認該雙股核酸樣本序列中修飾鹼基的位置。

在一些實施例中，本發明提供一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：(a)鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；(b)經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中使用至少一個區分鹼基及其修飾形式的核苷酸類似物，獲得序列資訊，該序列資訊包括在至少一個位置上加入至少一個鑑別標記的核苷酸類似物；及(c)比較該環狀雙股連結分子的順向股及反向股之序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。

本發明之目的及優點將說明於下述之部分發明說明中，部分將由發明說明而了解，或者可藉由本發明之實施而學習。本發明之目的及優點將藉由後述的申請專利範圍特別指明之要件及組合而了解及達成。

前述之一般說明及下述之詳細發明說明應了解僅為例示，如同所聲明，不能用以限制本發明。

後附之圖式併入及構成本說明書之一部分，說明本發明的數個實施例，與發明說明一併解釋本發明之原理。

定義

為了使本發明容易了解，定義各項名詞如下。在此未定義的名詞為本發明所屬相關技術領域中具有通常知識者一般了解之意義。如”一”、”一個”及”該”非僅表示單一個體，可包括用以說明特定實例的一般群組。此述學術用語用於說明本發明之特定實例，但其用途非限制本發明，除了在申請專利範圍中描述者。

“核酸”包含寡核苷酸及多核苷酸。

“雜交的高度嚴謹條件”表示兩核酸彼此間必須具有高度同質性(homology)以進行雜交的條件。雜交的高度嚴謹條件例如在4X氯化鈉/檸檬酸鈉(SSC)中、65或70℃下雜交，或在4X SSC及50%甲醯胺中、在約42或50℃下雜交，之後伴隨至少一次、至少兩次、或至少三次在1X SSC中、65或70℃下清洗。

“解鏈溫度(melting temperature)”表示一半的核酸在溶液中為鏈解開狀態，另一半核酸為鏈未解開狀態時的溫度，假設有足夠的互補核酸存在。在寡核苷酸存在超過互補序列的情形時，解鏈溫度為一半的互補序列與該寡核苷酸連接(anneal)的溫度。當核酸插入物可形成U字型(hairpin)的情形時，解鏈溫度為一半的插入物為部分自我雜交的”U字型”時的溫度。由於解鏈溫度受週遭條件影響，此述討論的寡核苷酸解鏈溫度為在50mM氯化鈉水溶液中、具有0.5μM寡核苷酸時的解鏈溫度。解鏈溫度可由多種已知方法估算，例如使用最接近熱平衡參數(Allawiet al .,Biochemistry ,36,10581-10594(1997))及標準的熱平衡算式計算。

如果核酸分子中的一位置具有一獨特序列及其長度與組成使互補寡核苷酸具有可接受的解鏈溫度，例如從45℃至70℃、從50℃至70℃、從45℃至65℃、從50℃至65℃、從55℃至70℃、從60℃至70℃、從55℃至60℃、從60℃至65℃、或從50℃至55℃，則該位置適合引子連接。

“延伸引子、寡核苷酸、或核酸”表示在引子、寡核苷酸、或核酸上加入至少一個核苷酸。此包括以聚合酶(polymerase)或連接酶(ligase)活性催化的反應。

“定序引子”為一寡核苷酸，可連接至核酸分子中適合引子連接及定序反應中延伸的位置，以產生序列資訊。

當核酸插入物可部分自體雜交且自體雜交形式具有至少15℃的解鏈溫度時，核酸插入物可形成U字型(hairpin)。

“突出(overhang)”為位於雙股核酸分子或U字型端的單股片段。

“重複序列”為在一核酸中出現超過一次以上的序列。當重複序列存在一核酸分子中時，所有該序列，包括第一次出現的序列，都認為是重複序列。重複序列包括彼此反向互補(reverse complement)的序列，例如發生在環狀雙股連結分子(circular pair-locked molecule)中。重複序列也包括非完全相同但衍生自相同序列的序列，例如因為在合成中錯誤加入的事件或其他聚合酶的錯誤使序列不同，或者一開始相同或完整的反向互補的序列，但因為過程中的修飾作用而使序列不同，例如因為光化學轉化(photochemical transition)或重亞硫酸處理(bisulfite treatment)的修飾作用。

當核酸插入物及核酸樣本中沒有其他插入的重複序列介於該核酸插入物及核酸樣本之間時，該核酸插入物及核酸樣本緊鄰於對方的上游或下游。在單股分子中，上游表示5’端方向，下游表示3’端方向。在雙股分子中，此極性可自行決定或可根據具方向性的組成元件(例如啟動子、編碼序列等)之極性來決定，如果大多數的組成原件定位在相同方向時。啟動子的極性為RNA聚合酶開始合成的方向往下游延伸。編碼序列的極性為從起始密碼子向終止密碼子的方向往下游延伸。

如果兩個重複序列彼此為反向互補，或者其中之一或兩者為彼此反向互補的衍生物時，該二重複序列彼此為順向及反向關係，具有相反的方向(orientation)。定為順向的重複序列可為自行決定或根據如前述之該重複序列中組成元件的極性而確定。

修飾鹼基為除了腺嘌呤(adenine)、胸腺嘧啶(thymine)、鳥嘌呤(guanine)、胞嘧啶(cytosine)或尿嘧啶(uracil)以外的鹼基，可位於核酸或核苷酸中如前述之一個或一個以上的鹼基。

雙關密碼子(ambiguity code)表示一序列中的鹼基組合之密碼子，換句話說，任何表示的鹼基皆可存在，例如Y=嘧啶(C、U或T)；R=嘌呤(A或G)；W=弱(A、T或U)；S=強(G或C)；K=酮基(T、U或G)；M=胺基(C或A)；D=非C(A、G、T或U)；V=非T或U(A、C或G)；H=非G(A、C、T或U)；B=非A(C、G、T或U)。

位置權重矩陣(position weight matrix)為横列(row)對應核酸序列中的位置、直欄(column)對應鹼基，或者相反對應之矩陣，矩陣中的每一組成元件為特定位置上的特定鹼基之權重(weight)。經由加總序列各鹼基之權重，可定出該序列對照位置權重矩陣的分數(score)，例如，當序列為ACG時，分數為矩陣第1欄的A權重、第2欄的C權重、及第3欄的G權重的總合，假設這些欄對應該鹼基的位置。經由反覆對一序列定出對照矩陣的分數，位置權重矩陣可運作一長度大於該矩陣中位置數目的序列，其起始位置在每一運作中增加一位置。在此方法中，可確認產生對照該矩陣之最大或最小分數的序列中的一個位置。

“儲存裝置”表示可由電腦獲取的數位資訊之儲存庫，包括RAM、ROM、硬碟、非揮發性固態記憶體、光碟、磁碟及其等同物。

“資訊結構”為一物體或含有資訊的儲存裝置中之變量(variable)。資訊結構可含有純量資料(scalar data)(例如個別特徵、數量、或附帶條件)、純量資料的組合(例如數值的矩陣或陣列)、或遞歸的組合(例如包含次表(sub-list)、矩陣、陣列及/或數值作為元件的表列(list)，該表列可為多向度(multidimentional)，及可含有次表、矩陣、陣列及/或數值為元件的次表)。

核酸樣本

本發明方法包括確認核酸樣本之序列及/或確認核酸樣本中修飾鹼基的位置。”核酸樣本”表示為本發明方法中欲確認的序列及/或修飾鹼基位置之核酸。

核酸樣本可獲自例如DNA(包括基因體DNA、cDNA、mtDNA、葉綠體DNA、及染色體外或細胞外DNA，但不限於此)或RNA(包括mRNA、初級轉錄本RNA、tRNA、rRNA、miRNA、siRNA、及snoRNA，但不限於此)，但不限於此。核酸樣本可來自個體、患者、樣本、細胞培養物、生物膜(biofilm)、器官、組織、細胞、孢子、動物、植物、真菌、原生生物、細菌、第三類有機體(archaeron)、病毒或病毒粒子(virion)。在一些實施例中，核酸樣本獲自一環境樣本，例如來自土壤或水，核酸樣本可獲自環境樣本，無須特別了解核酸是否為細胞、細胞外或病毒來源。而且，核酸可獲自化學或酵素催化反應，包括合成、重組、或自然發生的核酸經酵素修飾之反應，例如經轉甲基酶(methyltransferase)催化。

一些實施例中，核酸樣本為上述來源之經過處理的樣本。例如單離的核酸可切割形成片段，例如經過超音波振動或藉由小孔徑的移液(pipetting)，或藉由酵素分解形成片段，例如內切酶(endonuclease)，此內切酶可為限制性內切酶(restriction endonuclease)。一些實施例中，核酸樣本至少具有一個突出(overhang)。單離的核酸可先被選殖(clone)及送入宿主細胞及/或載體(vector)，例如細菌或酵母菌的人造染色體、微染色體(minichromosome)、質體(plasmid)、黏接質體(cosmid)、染色體外組成物質(extrachromosomal element)、或染色體整合架構物(chromosomally integrated construct)。

提供環狀核酸分子

一些實施例中，本發明方法包括提供一環狀核酸分子，該環狀核酸分子包含一插入樣本單元，該插入樣本單元含有一核酸插入物及核酸樣本，其中該插入物具有已知序列。該環狀核酸分子可為單股或雙股。

在一些實施例中，該環狀核酸分子是由其來源物分離得到之環狀構造分子，如果該環狀核酸分子的序列部分為已知時，即可作為核酸插入物(例如該環狀分子所含的基因序列中保留性部分(conserved motif)可能為已知，或者該分子已知含有一序列，根據其在高度嚴謹條件下與另一已知序列核酸雜交的能力)。在一些實施例中，當知道該核酸插入物序列來自嚴謹雜交性質的情形下，對該核酸插入物序列的認知並不精確。在一些實施例中，當該環狀核酸分子具有已知骨架序列(backbone sequence)或者經設計含有已知序列的情形下，則對該核酸插入物序列為精確的認知。

在一些實施例中，該環狀核酸分子來自活體外(in vitro )反應或將該核酸樣本加入該環狀分子與一核酸插入物的反應。活體外反應，在一些實施例中，可包括連接酶(ligase)的接合(ligation)及/或其他例如可由多種酵素催化的股連接反應(strand joining reaction)，包括重組酶(recombinases)及異構酶(topoisomerases)。DNA連接酶或RNA連接酶，在接合體(adapter)分子或連接物(linker)存在或不存在下，可用於使一線狀模板的兩端酵素性連接，形成環狀。例如，T4 RNA連接酶連接單股DNA或RNA，如Tessier et al.,Anal Biochem ,158:171-78(1986)所述。CIRCLIGASE(TM)(Epicentre,Madison,Wis.)也可用於催化單股核酸接合。或者，雙股連接酶，例如E. coli或T4 DNA連接酶，可用於環化反應。

在一些實施例中，提供該環狀核酸分子包括以含有互補區域的引子(primer)(引子可為具有已知序列的5’邊緣(flap)的任意引子，該已知序列可作為核酸插入物)放大一核酸模板(template)，環化該放大的核酸，例如以連接酶或重組酶催化。該放大的核酸，在一些實施例中，可在環化之前對其端進行處理，例如限制切割(restriction)或磷酸化。

一些實施例中，該環狀核酸分子來自進行化學環化作用。化學方法採用已知的偶聯劑(coupling agent)，例如BrCN與咪唑及二價金屬、N-氰基咪唑(N-cyanoimidazole)與ZnCl₂ 、1-(3-二甲基胺基丙基)-3-乙基碳二亞胺(ethylcarbodiimide)鹽酸鹽、及其他碳二亞胺(carbodiimides)與羰基二咪唑(carbonyl diimidazole)。線狀模板的端也可以經由縮合(condense)5’-磷酸與3’-羥基或5’-羥基與3’-磷酸而連接。

在一些實施例中，環狀核酸分子為環狀雙股連結分子(circular pair-locked molecule；cPLM)。此型態的分子於下述詳述。

提供核酸樣本的順向及反向重複序列；環狀雙股連結分子

在一些實施例中，本發明方法包括提供核酸樣本的順向及反向重複序列，及鎖住該順向股及反向股在一起形成cPLM。cPLM的一般結構如第3圖所示。cPLM是一單股環狀核酸分子，包括一核酸樣本的順向及反向重複序列，該重複序列由核酸插入物包圍，如第3A圖所示。該核酸插入物可為相同或相異者。在一些實施例中，該插入物具有至少50nt或至少100nt的長度。在一些實施例中，該插入物的長度為50或100nt至10,000或50,000nt。

線狀雙股核酸樣本的兩股可彼此鎖在一起，形成cPLM，例如藉由接合(ligate)在分子端形成U字型(hairpin)的核酸插入物。在一些實施例中，形成U字型的核酸插入物具有至少20℃、25℃、30℃、35℃、40℃、45℃、50℃、55℃、60℃、65℃或70℃的解鏈溫度。該接合(ligation)可為平端(blunt-end)或黏性端(sticky-end)連接。U字型結構具有鹼基對的幹區(stem region)及未配對的環區(loop region)。在一些實施例中，插入的核酸包括至少20、22、25、30、或35個核苷酸大小的環區。在一些實施例中，該環區適合引子連接。在一些實施例中，該環區以至少45℃、50℃、55℃、60℃、65℃或70℃的解鏈溫度與引子連接。

在一些實施例中，該核酸樣本包含不同的黏性端(sticky end)，例如可由限制酶分解不同的限制位(restriction sites)而產生，這些不同的黏性端有利於不同的核酸插入物接合(ligation)。在一些實施例中，以此情形待轉換的雙股核酸可經由沿著一含有所希望的樣本序列之模板延伸一包含已知序列的5’邊緣(flap)之任意引子而獲得。

雙股核酸的兩股也可經由酵素處理使雙股端轉換成U字型，彼此雙股鎖在一起形成cPLM，例如經由重組酶(recombinanase)與雙股分子的一端形成磷酸酪胺酸(phosphotyrosin)連結，之後另一股對該磷酸酪胺酸的連結作親核性接合(nucleophilic attack)，形成U字型。此種重組酶例如有λ整合酶(integrase)及Flp重組酶等之家族成員(如Chen et al.,Cell 69,647-658(1992)；Roth et al.,Proc Natl Acad Sci USA 90,10788-10792(1993))。在一些實施例中，核酸樣本包括酵素的識別序列，該酵素使雙股端轉換成U字型。在一些實施例中，使雙股端轉換成U字型的酵素的識別序列附著於該核酸樣本，例如藉由接合(ligation)。

在一些實施例中，樣本核酸一開始獲得為單股形式，在形成cPLM前，轉換成雙股形式。此可藉由例如使一U字型(hairpin)與一突出(overhang)接合至該樣本核酸的3’端，然後由該接合的U字型3’端延伸，形成一互補股而達成。之後可連接第二U字型至該分子，形成cPLM。

核酸插入物

本發明之方法包括提供及/或使用含cPLM的環狀核酸分子，該環狀核酸分子包括至少一個核酸插入物。在一些實施例中，該至少一個核酸插入物具有部分的、不精確的、或完全的已知序列，如上所述。在一些實施例中，該至少一個核酸插入物的序列為完全已知。在一些實施例中，該至少一個核酸插入物包括一寡核苷酸的適合連接位(binding site)，該寡核苷酸包括定序引子。在一些實施例中，該至少一個插入核酸形成一U字型(hairpin)。

在一些實施例中，該至少一個核酸插入物具有10-300個、15-250個、30-200個、或30-100個核苷酸殘基的長度。在一些實施例中，該至少一個核酸插入物具有45℃-70℃或50℃-65℃的解鏈溫度。

在一些實施例中，該至少一個核酸插入物包括一啟動子(promoter)，例如T7 RNA聚合酶啟動子(如Guo et al.,J Biol Chem 280,14956-14961(2005))。啟動子由RNA聚合酶辨識，為開始RNA合成的位置。其他的啟動子在該技術領域中亦為已知。

插入樣本單元

本發明中使用的環狀核酸分子包括至少一個核酸樣本及至少一個核酸插入物，組成至少一個插入樣本單元。插入樣本單元為一核酸片段，其中核酸插入物位於緊鄰核酸樣本的上游或下游。

在一些實施例中，該環狀核酸分子為cPLM，包含兩個插入樣本單元，在此二插入樣本單元中的核酸樣本彼此互為相反方向(orientation)，即，一為核酸樣本的順向重複序列，另一為反向重複序列。可考慮cPLM包含兩個插入樣本單元，其中該插入物位於該樣本的上游或下游，亦即，依照如第3B圖結構的cPLM來看，依序包含組成元件11(順向重複序列)、14(插入物)、12(反向重複序列)、及13(插入物)，13接回11，形成該環。不論該插入樣本單元是否為11與14及12與13，或13與11及14與12，該分子包含兩個插入樣本單元。在實施例中，當該插入物的方向(orientation)及/或其相對於該樣本的定位(positioning)為功能性顯著，例如該插入物包括一啟動子或引子連接位，最有效於組合該插入樣本單元，因此組合該插入物與樣本，朝向引子連接位或啟動子的方向，亦即，該樣本可由引子連接位或啟動子開始由聚合酶複製。

獲得序列資訊

定序方法

本發明方法包括獲得序列資訊。在一些實施例中，包括至少兩個插入樣本單元的核酸分子在獲得序列資訊的步驟中製造。在一些實施例中，包含至少兩個插入樣本單元的核酸分子可經由提供的環狀核酸分子合成而製造。在一些實施例中，包含至少兩個插入樣本單元的核酸分子可由改變提供的環狀核酸分子而製造，例如藉由轉換該環狀核酸分子為線狀核酸分子，在一些實施例中，該核酸分子可為單股。在一些實施例中，一核酸分子中的至少一個磷酸二酯鍵(phosphodiester)在獲得序列資訊的步驟中形成或斷掉，該核酸分子可為提供的環狀核酸分子或其模板合成產物。

在一些實施例中，序列資訊經合成方法定序而獲得。在一些實施例中，序列資訊使用單一分子定序方法而獲得。在一些實施例中，單一分子定序方法選自焦磷酸定序(pyrosequencing)、可逆終止密碼子定序(reversible terminator sequencing)、連接定序(ligation sequencing)、奈米孔定序(nanopore sequencing)、及第三代定序(third-generation sequencing)。

在一些實施例中，序列資訊使用大量定序方法而獲得，例如Sanger定序或Maxam-Gilbert定序。

單一分子定序方法與大量定序方法不同在於，分離一單一核酸分子是否為定序過程的一部分。核酸分子可為單股或雙股，以此目的考量，兩個黏合的核酸股被認為是單一分子。單一分子的分離可發生在微孔(microwell)中，經由使用奈米孔(nanopore)，以可光學切割(optically resolvable)形式直接或間接附著於基體，例如顯微玻片，或者以任何其他容許由個別分子獲得序列資訊的方式發生。在間接附著中，單一分子經由連接於該單一分子(例如蛋白質或寡核苷酸)的連接結構(linking structure)附著於基體。特別是在單一分子被分離、之後放大，序列資訊直接由該放大產物中獲得的方法中，該方法仍被認為是單一分子方法，因為單一分子被分離，並作為該序列資訊的基本來源。(相反地，在大量定序方法中，使用含有多分子的核酸樣本，獲得含有源自該多分子訊息的資訊)。在一些實施例中進行單一分子定序，其中重複的序列(redundant sequence)獲得自同一分子。重複的序列可經由定序一分子中的至少兩個直接或倒轉(inverted)的重複序列而獲得，或者經由一次以上定序該分子的相同部份而獲得。重複的序列可為完全重複或有某些變異的部分重複，例如因為特性型態鹼基的鹼基配對特異性(base pairing specificity)所造成的差異，或者因為定序過程中可能發生的錯誤所造成的差異。在一些實施例中，鹼基配對特異性的改變可發生於定序之前。在一些實施例中，相同的分子被定序數次，可選擇性具有一中間處理(intervening treatment)，該中間處理選擇性地改變重複定序之間發生的特定型態之鹼基的鹼基配對特異性。

Sanger定序涉及使用標記的雙去氧基鏈終止序列(dideoxy chain terminator)，為該技術領域所周知(如Sanger et al.,Proc Natl Acad Sci USA 74,5463-5467(1997))。Maxam-Gilbert定序涉及在核酸樣本的部分進行多重部分化學降解反應，之後偵測及分析片段，推測該序列，亦為該技術領域周知(如Maxam et al.,Proc Natl Acad Sci USA 74,560-564(1977))。另一大量定序方法為經由雜交定序，其中根據該樣本對複數個序列的雜交性質，推測該樣本序列，例如在微陣列或生物晶片中(如Drmanac,et al.,NatBiotechnol 16,54-58(1998))。

單一分子定序方法被廣泛討論，例如Kato,Int J Clin Exp Med 2,193-202(2009)，並作為本案參考。

焦磷酸定序(pyrosequencing)、可逆終止密碼子定序(reversible terminator sequencing)及連接定序(ligation sequencing)被認為是第二代定序方法。一般而言，這些方法使用產生自單一分子的放大產物，與產生自其他分子的放大產物在空間上分離。該空間上分離可經由使用乳化液、皮升(picoliter)孔、或固定於玻片上。序列資訊經由核苷酸上的螢光獲得，在獲取資訊後，去除新加入核苷酸的螢光，並對下一個核苷酸重複此過程。

在焦磷酸定序(pyrosequencing)中，由聚合反應中釋放的焦磷酸離子經ATP硫酸化酶(sulfurylase)與腺嘌呤5’磷酸硫酸(adenosine 5’ phosphosulfate)反應，產生ATP，ATP之後驅動螢光素(luciferin)經螢光素酶(luciferase)轉換為氧基螢光素(oxyluciferin)及光。由於螢光為瞬間，在此方法中不需要另一分離步驟去除螢光。此時加入一種脫氧核苷酸三磷酸(dNTP)，根據在反應位上的dNTP產生的明顯訊號，辨別序列資訊。可商業購買的Roche GS FLX儀器使用此方法獲得序列。此技術及其應用如下述詳細討論，例如Ronaghi et al.,Anal Biochem 242,84-89(1996)及Marguilies et al.,Nature 437,376-380(2005)(更正於Nature 441,120(2006))。

可逆終止密碼子定序(reversible terminator sequencing)中，在單一鹼基延伸反應裡加入螢光染料標記的核苷酸類似物(analog)，因為阻斷基(blocking group)的存在，該核苷酸類似物為可逆鏈終止密碼子。根據發光分子(fluorophore)確認鹼基，換句話說，每一鹼基與不同的發光分子配對。在獲取螢光/序列資訊後，化學性移除該發光分子及阻斷基，重複此週期，以獲取序列資訊的下一個鹼基。發光GA儀器(Illumina GA instrument)即以此方法操作。此技術及其應用詳細討論於如Ruparel et al.,Proc Natl Acad Sci USA 102,5932-5937(2005)及Harris et al.,Science 320,106-109(2008)。

連接定序(ligation sequencing)中使用連接酶使具有突出的部份雙股的寡核苷酸與欲定序的核酸連接，該連接酶具有一突出，為了使接合(ligation)發生，此二突出必須為互補。部分雙股寡核苷酸的突出之鹼基可根據連接至該部分雙股寡核苷酸及/或連接至與該部分雙股寡核苷酸的其他部分雜交的次級核苷酸之發光分子而確認。獲取螢光資訊後，該接合複合體(ligated complex)在連接位的上游被切割，例如使用IIs型限制酶，如BbvI，切在距離其辨識位固定距離的位置(該辨識位包含於該部分雙股寡核苷酸中)。該切割反應在緊鄰先前突出的上游暴露出新的突出，並重複此過程。此技術及其應用詳細討論於如Brenner et al.,Nat Biotechnol 18,630-634(2000)。在一些實施例中，本發明方法採用連接定序，獲得環狀核酸分子的滾環放大產物，及使用該滾環放大產物作為模板，進行連接定序。

奈米孔定序(nanopore sequencing)中，單股核酸分子經孔穿過，例如使用電泳驅動力(electrophoretic driving force)，分析該單股核酸分子穿過孔時所獲得的資訊，推測序列。該資訊可為離子電流資訊，其中每一鹼基改變該電流，例如經由部分阻斷通過孔的電流，使電流為不同、可區別的程度。

第三代定序中，使用表面塗覆具有多小洞(~50nm)的鋁塗層之玻片，作為零模式波導(如Levene et al.,Science 299,682-686(2003))。該鋁表面經由聚磷酸化學使DNA聚合酶附著而受到保護，例如聚乙烯磷酸化學(如Karlach et al.,Proc Natl Acad Sci USA 105,1176-1181(2008))。此導致DNA聚合酶分子優先附著於該鋁塗層洞中暴露的氧化矽(silica)。此創立使逐漸消失的波現象(wave phenomena)被用於減少螢光背景，允許使用較高濃度的螢光標記之dNTP。發光分子(fluorophore)附著於dNTP的末端磷酸，因此在加入dNTP時釋放螢光，但是發光分子不附著於新加入的核苷酸，表示該複合體可立即進行另一週期。藉由此方法可偵測加入該鋁塗層洞中個別引子模板複合體的dNTP(如Eid et al,Science 323,133-138(2009))。

定序模板；獲得的定序資訊數量

在一些實施例中，序列資訊直接獲自環狀核酸分子，亦即使用該環狀核酸分子作為模板。作為模板的環狀核酸分子可為環狀雙股連結分子。在一些實施例中，序列資訊獲得自產物核酸分子，其使用環狀核酸分子作為模板而合成，即獲得序列資訊所使用的模板為由環狀核酸分子模板合成的產物核酸分子。在一些實施例中，序列資訊獲得自環狀核酸分子模板及合成自環狀核酸分子模板的產物核酸分子。

在一些實施例中進行滾環放大作用(rolling circle amplication)，包含使用環狀核酸分子為模板，合成一含有至少兩個插入樣本單元的產物核酸分子。在一些實施例中，滾環放大作用包括合成含有至少3、4、5、10、15、20、25、50或100個插入樣本單元的產物核酸分子。使用滾環放大作用以製造大量模板複製物為該技術領域中周知(如Blanco et al.,J Biol Chem 264,8935-8940(1989)及Banr et al.,Nucleic Acids Res 26,5073-5078(1998))。滾環放大作用可為定序的一部分，其中該環狀核酸分子為定序的模板，或合成作為定序模板的產物核酸分子。

不論模板，根據本發明方法獲得的序列資訊包括該核酸樣本序列的至少兩個重複序列，該至少兩個重複序列在一些實施例中包括該核酸樣本序列中至少一個順向重複序列及該核酸樣本序列中至少一個反向重複序列。在一些實施例中，序列資訊包括該核酸樣本序列的至少3、4、5、10、15、20、25、50或100個重複序列。在一些實施例中，序列資訊包括該核酸樣本序列的至少2、3、4、5、10、15、20、25、50或100個順向重複序列。在一些實施例中，序列資訊包括該核酸樣本序列的至少2、3、4、5、10、15、20、25、50或100個反向重複序列。在一些實施例中，序列資訊包括該核酸樣本序列的至少2、3、4、5、10、15、20、25、50或100個順向及反向重複序列。

計算分數

在一些實施例中，本發明方法包括計算該序列資訊中至少兩個插入物之序列的分數，經由比較該插入物的序列與該插入物中的已知序列。在一些實施例中，當該插入物序列只有部分已知或不精確地已知，該核酸插入物的已知序列可包括不確定或未知的位置，例如透過使用雙關密碼子(ambiguity code)或位置權重矩陣(position weight matrix)。

比較該插入物的序列與該插入物中的已知序列，包括確認該序列資訊中至少兩個插入物的序列。確認該序列在一些實施例中可以目視觀察進行，即藉由人可目視地掃描序列資訊及發現其中的插入核酸序列，或藉由電腦幫助比對的方法(如國際專利申請案公開號WO2009/017678)。在一些實施例中，序列的確認可經由辨識該序列的演算法掃描序列資訊而進行，例如對序列資訊中的多個位置進行重複或試誤計算分數，確認對應最接近該核酸插入物中已知序列的局部極值(local extrema)。在一些實施例中，對至少兩個核酸插入物序列的確認可自動以計算分數而進行，兩種方法可使用相同分數。

在一些實施例中，計算分數包括使用適當比對演算法進行比對，此方法多數為已知且容易取得，例如BLAST、MEGABLAST、Smith-Waterman比對及Needlemen-Wunsch比對(如Altschul et al.,J Mol Biol 215,403-410(1990))。適當的比對演算法包括容許間隔(gap)及不容許間隔的演算法。或者在一些實施例中，計算分數包括使用演算法分析序列，例如對序列進行位置權重矩陣(position weight matrix)及計算對應該序列的矩陣組合元件的總合。此方式中，使用該矩陣逐步讀取序列的方式，可計算如局部最大值的分數。

在一些實施例中，該分數與該至少兩個核酸插入序列對已知序列的接近值呈正相關(例如精確符合(match)的最大可能分數)。該正相關分數包括機率相同比例(percent identity)、位分數(bit scores)、及符合鹼基計數(matching base count)，但不限於此。

在一些實施例中，該分數與該至少兩個核酸插入序列對已知序列的接近值呈負相關(例如精確符合的最小可能分數)。該負相關分數包括e值(e-value)、誤配數(number of mismatches)、誤配數及間隔(gap)、誤配機率(percent mismatched)、及誤配/間隔機率(percent mismatched/gapped)，但不限於此。

在一些實施例中，以率(rate)為基礎計算分數。率基礎上計算的分數之可能範圍不會改變成欲比較的序列長度之功能。率基礎上計算的分數例如機率相同比例(percent identity)及誤配/間隔機率(percent mismatched/gapped)，但不限於此。

在一些實施例中，以計數(count)為基礎計算分數。計數基礎上計算的分數之可能範圍會改變成欲比較的序列長度之功能。計數基礎上計算的分數例如位分數(bit scores)、誤配數(number of mismatches)、誤配及間隔數(number of mismatches and gaps)及符合鹼基計數(matching base count)，但不限於此。

接受或拒絕核酸樣本序列的重複序列；接受的序列組

在一些實施例中，本發明方法包括接受或拒絕該序列資訊中核酸樣本序列的重複序列，根據該核酸樣本序列的重複序列之上游及下游緊鄰的插入物之一或兩個序列分數來決定。因此在不同的實施例中，緊鄰該核酸插入物的上游及下游兩者的分數、其中之一的分數、或特定的其中之一的分數，用於決定是否接受或拒絕該序列資訊中的核酸樣本序列。

在一些實施例中，當分數與該至少兩個核酸插入物序列對已知序列的接近值為正相關時，分數需大於、大於或等於閾值(threshold value)，則接受序列。適當閾值的選擇與多重因素有關，包括使用的分數、定序方法的錯誤率、時間及重複產生(redundancy)的考量。

接受及拒絕該核酸樣本序列的重複序列可由多種方式進行，例如使用至少一個接受的重複序列，不使用任何一個拒絕的重複序列，來確認該核酸樣本序列。接受及拒絕重複序列可以或不需要在編輯一接受序列組的考量下進行。例如當接受的重複序列接受進入新的資訊結構時，該接受的重複序列之序列可被複製，變成接受序列組。或者，當被拒絕時，拒絕的重複序列可被刪除或重寫(例如以”O”或”X”字母標示無資訊或排除的資訊)，在此情形時，一旦拒絕的序列被刪除或重寫，原始資訊結構就被修改，變成接受的序列組。在這些實例中，接受及拒絕重複序列在編輯一接受序列組的考量下進行。

在一些實施例中，核酸樣本序列的重複序列可因額外的因素被拒絕，例如長度偏離該核酸樣本序列中其他重複序列的長度(如第7B圖)。例如，如果該核酸樣本序列的重複序列的長度，偏離其他核酸樣本序列的平均值或中間值長度的閾值範圍(threshold extent)，或偏離接受序列組的預定版本的平均值或中間值長度的閾值範圍(threshold extent)，其中該接受序列組包括如前述根據緊鄰該核酸樣本序列重複序列的上游及下游的插入物之一或兩個序列的分數而接受的該核酸樣本序列的重複序列，則該核酸樣本序列的重複序列被拒絕，計算中間值長度或平均長度可以或不必考慮暫時移除可能拒絕的該核酸樣本序列之重複序列。閾值範圍(threshold extent)可以絕對長度表示，例如1、2、5、10、20或50個核苷酸，或以相對長度表示，例如1%、2%、5%、10%、20%或50%，或者以統計測量表示，例如標準差，如0.5、1、1.5、2、2.5、3、3.5、4或5個標準差。

在其他實施例中，序列可被標記(flagged)為接受或拒絕，在標記過程完成之後，接受的序列可被複製，形成新的資訊結構，或者拒絕的序列可被刪除或重寫，產生不同的接受序列組。

接受序列組可選自包括單一資訊字串(single data string)及多元件變異(multi-element variable)的形式，該單一資訊字串包括該核酸樣本序列的至少一個接受的重複序列及任何額外的連鎖狀態的接受重複序列，該多元件變異的每一元件表示該核酸樣本或其次部分(subpart)序列中一接受的重複序列。在一些實施例中，該多元件變異選自一目錄(list)、陣列(array)、散列(hash)及矩陣(matrix)。任何容許儲存核酸樣本序列之至少一個接受的重複序列及隨後確認核酸樣本序列之資訊結構形式皆適合使用。

在一些實施例中，當接受序列組的形式不同於原始序列資訊的形式(例如原始序列資料為字串(string)形式，接受序列組為多元件資訊結構形式，例如陣列)，在獲得該原始序列資訊之後及產生最終接受序列組之前，原始序列資訊可符合包含重複序列、插入樣本單元、或位於緊鄰上游插入物及下游插入物的樣本重複序列之組成元件，此符合(parsing)步驟可發生在上述計算分數的步驟之前或之後。

確認該核酸樣本序列；共有性序列(consensus sequences)；信賴水準(confidence levels)

在一些實施例中，本發明包括確認核酸樣本的序列。

確認核酸樣本序列的模式可根據在接受序列組中核酸樣本重複序列的數目有條件地選擇。例如，當接受序列組僅包含一個接受的重複序列，核酸樣本序列可確認為該接受的重複序列之序列。當接受的序列組包含兩個或至少三個接受的重複序列時，核酸樣本序列可被確認為該接受的重複序列之共有性序列(如下所述)。當接受的序列組包含至少三個接受重複序列時，對於共有性序列如何被確認有更多選擇。

共有性序列(consensus sequence)

共有性序列由接受的重複序列比對而確認(如上述”計算分數”段落所述)，比對中在接受的重複序列具有相同鹼基的位置上，共同性序列也包含該鹼基。在一些實施例中，比對中接受的重複序列不包含相同鹼基的位置上，共同性序列則包含適當的雙關密碼子(ambiguity code)(例如當接受的重複序列為A及G的位置上，以R表示)。在一些實施例中，比對中接受的重複序列不包含相同鹼基的位置上，共同性序列則包含N或其他表示未知鹼基的符號。在一些實施例中，比對中接受的重複序列不包含相同鹼基的位置上，共同性序列則包含在獲取序列時產生更強或更有力的訊號接受之重複序列的鹼基(例如，如果原始資訊為螢光形式，根據發出的較亮螢光(在一些實施例中，是在適當正常化及/或標準化之後)的鹼基位於共有性序列中)。

當共有性序列從包含至少三個接受的重複序列之接受序列組中確認時，在一些實施例中，共有性序列的每一個位置之鹼基可經由多數決(majority vote)而確認；即，存在於接受的重複序列一半以上的位置的鹼基，位於共有性序列對應的位置。當接受的重複序列在位置上不一致時，對該位置則無多數決，共有性序列中該位置的鹼基則以其他方式確認，例如可使用複數決(plurality vote)(即，最常出現於接受的重複序列中一位置上的鹼基，位於共有性序列中對應的位置)，或可使用前述之方法。

在一些實施例中，當從包含至少三個接受重複序列之接受序列組確認共有性序列時，該共有性序列的每一個位置的鹼基，在一些實施例中，根據該接受重複序列的位置上每一鹼基頻率而被確認。因此，該共有性序列以核酸樣本每一位置的每一鹼基之可能性的或然率表示。此表示可以位置權重矩陣(position weight matrix)形式表示。在一些實施例中，位置權重矩陣的組成元件為在接受重複序列比對中每一位置所觀察到的每一鹼基的頻率。

在一些實施例中，位置權重矩陣的組成元件由接受重複序列比對中每一位置所觀察到的每一鹼基之頻率來計算，其他因素也可以用於此計算，例如當獲得序列中以較其他重複序列具有較強或較強烈的訊號所獲得的一些接受的重複序列時，接受的重複序列可給予較多權重(weight)，及/或其他重複序列給予較少權重。調整權重的程度可基於例如訊號強度而定量確認，或者為一固定的調整，例如以相對強訊號獲得的鹼基，其權重可增加如50%或100%，及/或以相對弱訊號獲得的鹼基，其權重可減少如33%或50%。

在一些實施例中，位置權重矩陣的組成元件為衍生自每一位置的每一鹼基(可能如上述權重)之轉換頻率(transformed frequencies)的值。頻率可被轉換為，例如對數化(logarithmically)或指數化(exponentiation)，在一些實施例中，轉換具有低權重衡量的鹼基(down weighting bases)及/或高權重衡量的鹼基(up weighting bases)的效應，低權重衡量的鹼基鮮少在位置上觀察到，及/或高權重衡量的鹼基則通常在位置上觀察到。例如，如果T在N個接受重複序列的比對中一位置上出現M次，其中N>2且M<N/2，C出現其餘次數(即N減M的次數)，則在一些實施例中，這些頻率的轉換可導致在位置權重矩陣中T權重少於N/M(或對應的百分比)，及/或C權重大於(N-M)/N(或對應的百分比)。在一些實施例中，選擇轉換方式使最常觀察到的鹼基(或在頻率相同情況下的鹼基)高權重衡量。

信賴水準(confidence levels)

在一些實施例中，信賴水準用以確認核酸樣本序列中至少一個位置。信賴水準可以數種方式呈現，例如整體鹼基要求精確值(overall base call accuracy value)，以百分比或phred分數(phred score)表示，或為錯誤率。在一些實施例中，信賴水準由位置上最常見的鹼基頻率來確認，或由非最常見鹼基的組合頻率而確認。在一些實施例中，這些頻率如上述被轉換呈高權重衡量及/或低權重衡量。

確認整體序列的信賴水準；即時(real time)確認核酸樣本的序列及信賴水準及/或確認核酸樣本的序列及信賴水 準至一希望的信賴水準

在一些實施例中，本發明方法包括確認整體序列的信賴水準。整體序列的信賴水準可以數種方式表現，例如為整體鹼基要求精確值(overall base call accuracy value)，以百分比或phred分數(phred score)表示；或為錯誤率；或為序列中錯誤的預期數目。

個別位置的信賴水準，如上段所述，可用於計算整體序列的信賴水準。例如所有的信賴水準可確認為核酸樣本序列每一位置的信賴水準之統計族群的算數平均值、幾何平均值、中間值、或模式信賴水準(modal confidential level)。在一些實施例中，核酸樣本序列每一位置的信賴水準之統計族群在計算整體序列的信賴水準前經過處理，例如排除非統計的主體者。

在一些實施例中，本發明方法包含即時確認核酸樣本序列及信賴水準。這些實施例中，在定序步驟中獲得的資訊進行確認序列及信賴水準及同時獲取額外的序列資訊，例如來自滾環放大產物的額外重複序列。當獲得該額外的序列資訊時，被確認的序列及信賴水準皆被更新。在一些實施例中，即時過程持續到達到預先選擇的信賴水準為止。預先選擇的信賴水準可為，例如90%、95%、99%、99.5%、99.9%、99.95%或99.99%的鹼基要求精確度。預先選擇的信賴水準可作為整體序列或序列中部分位置的序列，可選自例如50%、67%、75%、80%、85%、90%、95%、98%、99%、99.5%及99.9%值。

多樣本；聚合(assembling)contig

在一些實施例中，本發明方法包括使用至少一個相同來源、種類、或株種作為具有序列的核酸樣本之其他樣本的重複步驟的方法，該其他樣本與該核酸樣本序列部分重疊，因此確認至少一個其他序列，及聚合具有原始樣本序列之至少一個其他序列，形成一contig。在一些實施例中，本發明方法包括使用許多樣本的重複步驟之方法，產生長度超過0.5、1、2、5、10或100kb的contig，或超過1、2、5、10、100或1,000Mb 的contig。在一些實施例中，contig代表核酸分子的完整序列，或除了核酸分子中異染色體(heterochromatic)或抵抗(refractory)區域的完整序列，可為例如染色體、微染色體(minichromosome)、人工染色體、病毒基因體(viral genome)、或染色體外組成物質，但不限於此。Contig的聚合可使用該技術領域已知方法進行。

修飾的鹼基

在一些實施例中，核酸樣本包括至少一個修飾鹼基，例如5-甲基胞嘧啶(5-methylcytosine)、5-溴尿嘧啶(5-bromouracil)、尿嘧啶(uracil)、5,6-二氫尿嘧啶(5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7-甲基鳥嘌呤(7-methylguanine)、次黃嘌呤(hypoxanthine)、或黃嘌呤(xanthine)。尿嘧啶在一DNA股中可為修飾鹼基，核糖胸腺嘧啶在一RNA股中可為修飾鹼基。在一些實施例中，雙股核酸樣本中至少一個修飾鹼基以不同於其較佳配對鹼基的鹼基配對特異性(base pairing specificity)進行配對。可發生在，例如當雙股分子的一鹼基進行將該鹼基由一標準鹼基轉換成一修飾鹼基的反應(例如因為偶發的氧化作用，或暴露於致突變劑(mutagenizing agent)下，例如放射線或化學致突變物(mutagen))時，該修飾鹼基非該鹼基之較佳配對鹼基。

較佳的配對鹼基是基於華生-克立克(Wason-Crick)鹼基配對規則。例如腺嘌呤(adenine)的較佳配對鹼基為胸腺嘧啶(thymine)(或尿嘧啶(uracil))，反之亦然；胞嘧啶(cytosine)的較佳配對鹼基為鳥嘌呤(guanine)，反之亦然。修飾鹼基的較佳配對鹼基為該技術領域中一般周知，或可根據位於類似前述之標準鹼基的氫鍵提供者與接受者的存在而預測。例如次黃嘌呤(hypoxanthine)在嘌呤環的第6位上具有一氫鍵接受者(雙鍵氧)，類似鳥嘌呤，因此其較佳的配對鹼基為胞嘧啶，胞嘧啶在嘧啶環的第6位上具有一氫鍵接受者(胺基)。特別是次黃嘌呤可由腺嘌呤脫胺作用(deamination)而形成。由於DNA中的腺嘌呤正常與胸腺嘧啶配對，該脫胺反應可導致次黃嘌呤-胸腺嘧啶配對，該修飾鹼基次黃嘌呤不與其較佳配對鹼基配對。胞嘧啶也可經脫胺而形成尿嘧啶。在DNA中，尿嘧啶為修飾鹼基，如果其與鳥嘌呤配對(可由正常雙股DNA中的胞嘧啶脫胺作用而造成)，則也是修飾鹼基尿嘧啶未與其較佳配對鹼基配對的情形。

修飾鹼基的偵測；改變特定型態鹼基之鹼基配對特異性

在一些實施例中，本發明之方法包括改變特定型態鹼基之鹼基配對特異性(base pairing specificity)。改變特定型態鹼基之鹼基配對特異性包括特異地改變鹼基(例如胞嘧啶)未修飾型態的鹼基配對特異性。此情形中，不能改變鹼基(例如5-甲基胞嘧啶)至少一種修飾型態的鹼基配對特異性。

或者，改變特定型態鹼基之鹼基配對特異性可包括特異地改變鹼基(例如5-甲基胞嘧啶)修飾型態的鹼基配對特異性，但不改變鹼基(例如胞嘧啶)的未修飾型態。

在一些實施例中，改變特定型態鹼基之鹼基配對特異性包括光化學轉化(photochemical transition)，將5-甲基胞嘧啶(非未修飾的胞嘧啶)轉換成胸腺嘧啶(如Matsumuraet al.,Nucleic Acids Symp Ser No. 51,233-234(2007))。此反應改變正在進行由鳥嘌呤轉換成腺嘌呤(鳥嘌呤與5-甲基胞嘧啶配對，腺嘌呤與胸腺嘧啶配對)的光化學轉化之鹼基的鹼基配對特異性。

在另一實施例中，改變特定型態鹼基之鹼基配對特異性包括重亞硫酸的轉換(disulfide conversion)，將胞嘧啶(非5-甲基胞嘧啶)轉換成尿嘧啶(如Lairdet al.,Proc Natl Acad Sci USA 101,204-209(2004)及Zilbermanet al.,Development 134,3959-3965(2007))。此反應改變正在進行由鳥嘌呤轉換成腺嘌呤(鳥嘌呤與胞嘧啶配對，腺嘌呤與尿嘧啶配對)的重亞硫酸轉換之鹼基的鹼基配對特異性。

在其他實施例中，修飾鹼基的偵測可不需改變步驟，例如當該修飾鹼基改變了相對於該鹼基未修飾型態的鹼基配對特異性的情況下。該鹼基例如可包括5-溴尿嘧啶、尿嘧啶、5,6-二氫尿嘧啶、核糖胸腺嘧啶(ribothymine)、7-甲基鳥嘌呤(7-methylguanine)、次黃嘌呤(hypoxanthine)、或黃嘌呤(xanthine)。如Brown,Genomes ,2^nd Ed.,John Wiley ＆ Sons,Inc.,New YORK,NY,2002,chapter 14,“Mutation,Repair,and Recombination”討論5-溴尿嘧啶傾向進行酮-烯醇互變現象(keto-enol tautomerization)，導致鳥嘌呤相對於腺嘌呤的配對增加及因腺嘌呤脫胺作用形成次黃嘌呤(次黃嘌呤優先與胞嘧啶配對，勝於胸腺嘧啶)。

區別鹼基及其修飾型之核苷酸類似物(nucleotide analog)

在一些實施例中，使用至少一個區別鹼基及其修飾型的核酸類似物(“區別類似物”，優先與一鹼基配對，但不與其他鹼基及其修飾型配對)獲得序列資訊。核苷酸類似物可被使用及被偵測，類似於標準4個鹼基以外的第5個鹼基，例如在可逆終止密碼子定序或連接定序中使用分化的標記，或者將其用於焦磷酸定序中，其中核苷酸可一次加入一個然後清洗去除。在一些實施例中，該區別的類似物在其對應的天然核苷酸加入之前加入(如在焦磷酸定序中)或以其同系(congate)天然核苷酸濃度之10-100倍以上的濃度範圍(如在可逆終止密碼子定序中)提供。例如區別的類似物可為去氧鳥嘌呤三磷酸(deoxyguanosine triphosphate)類似物，區分胞嘧啶及5-甲基胞嘧啶(例如其與胞嘧啶配對，但不與5-甲基胞嘧啶配對)。該類似物可以高於去氧鳥嘌呤三磷酸濃度10-100倍的濃度提供。在此情形下，該類似物通常有其優先配對的鹼基的相反型態加入，但是天然鹼基通常加入該類似物非優先配對的鹼基之相反型態。

區別類似物的例子可在美國專利USP 7,399,614中發現，包括例如以下的分子，可區別未修飾的胞嘧啶及5-甲基胞嘧啶，其優先配對前者分子：

這些分子分別以區別類似物1及區別類似物2表示。

確認核酸樣本中修飾鹼基的位置

在一些實施例中，本發明方法包括確認核酸樣本中修飾鹼基的位置。這些實施例包括(i)提供雙股形式的核酸樣本；(ii)使該核酸樣本轉換成環狀雙股連結分子，其中該環狀雙股連結分子包括核酸樣本序列的順向及反向重複序列及具有已知序列的兩個核酸插入物，該兩個核酸插入物可為相同或不同；(iii)選擇性改變在環狀雙股連結分子中特定型態鹼基的鹼基配對特異性；(iv)然後，以該環狀雙股連結分子的順向及反向重複序列或其互補序列為模板，獲得的序列資料；及(v)使用至少該順向及反向重複序列或其複製本的序列資訊，確認該核酸樣本中修飾鹼基的位置。特別是，以順向重複序列為模板的序列具有該反向重複序列的相同意義(sense)(反之亦然)，但是與該反向重複序列完全或不完全相同，差異可能因為該順向重複序列包含與反向重複序列對應鹼基以外的鹼基配對的鹼基。此情況的例子如，如果cPLM中的順向重複序列含有5-溴尿嘧啶，5-溴尿嘧啶與反向股中的腺嘌呤配對，但作為合成定序反應(sequencing-by-synthesis)中加入鳥嘌呤的模板。

序列資訊的獲得包括至少兩個重複序列：樣本的至少一個重複序列(例如第5A圖標記17的重複序列)及順向股新合成的互補體的一重複序列(例如第6A圖標記21的重複序列)；及反向股新合成的互補體的至少一個重複序列(例如第6A圖標記19的重複序列)及該反向股的一重複序列(例如第6A圖標記16的重複序列)。比對這些重複序列。可使用如上述討論的任何適當演算法進行比對。這些重複序列之間彼此有不一致的位置(例如第6B圖標記41的位置)，表示在該核酸樣本中該位置上的鹼基，進行過鹼基配對特異化的改變。根據存在於樣本中或過程中使用的修飾類型、修飾鹼基、及/或區分類似物，可確認原始存在該核酸樣本對應位置之鹼基。

例如，該環狀雙股連結分子經^m C轉換T而改變時(如第5A圖)，”不一致”表示在一讀取(read)中，^m C位於核酸樣本中T或互補於A的位置，在另一讀取中，^m C位於核酸樣本中C或互補於G的位置，邏輯為，在序列不一致的位置，轉換反應的產物，鹼基T，取代了轉換反應的基質^m C，^m C存在於核酸樣本。

另一實施例中，當環狀雙股連結分子經C轉換成U而改變，”不一致”表示在一讀取中，C位於核酸樣本中U或T的位置、或互補於A的位置，在另一讀取中，C位於C或互補於G的位置，邏輯為，序列不一致的位置，轉換反應的產物，鹼基U(定序系統可讀為T)，取代了轉換反應的基質，C，C存在於核酸樣本中。當^m C殘基沒有因為C轉換成U而改變時，讀取中一致顯示C的位置及/或G為其互補物的位置，表示^m C存在於該原始樣本中的該位置。

在使用如上討論的區別類似物的實施例中，可推論區別類似物優先連接的鹼基位於原始序列中對應該區別類似物出現的位置。

系統/電腦可讀取媒體

在一些實施例中，本發明關於一系統，包括定序裝置，操作連接於包含處理器、儲存裝置、匯流排系統(bus system)、及至少一個使用者介面元件之電腦裝置。使用者介面元件可選自顯示器、鍵盤、及滑鼠。在一些實施例中，該系統包括至少一個積體電路及/或至少一個半導體。

在一些實施例中，定序裝置選自安裝進行至少一個上述討論之定序方法的定序裝置。

在一些實施例中，顯示器可為觸控螢幕，作為單獨使用者介面元件(sole user interface element)。儲存裝置內編程式，包含操作系統、使用者介面軟體、及操作指示，當系統處理器執行時，進行前述之本發明方法，該系統包含定序裝置，操作連接於包含處理器、儲存裝置、匯流排系統、及至少一個使用者介面元件的電腦裝置。在一些實施例中，儲存裝置更包括序列資訊，序列資訊可為如前討論之任何形式，例如原始序列資料、接受序列組、共有性序列、或類似形式。

在一些實施例中，儲存裝置及其所有內容位於一電腦中。在其他實施例中，儲存裝置分為至少兩台電腦，例如經由網路連結的電腦。在一些實施例中，使用者介面為電腦的一部分，該電腦連結於至少一台其他電腦，包括系統中的至少一個組成，例如處理軟體。

在一些實施例中，系統輸出或由處理器執行的方法產生一指示，指示核酸樣本中至少一位置上有一修飾鹼基。此指示可為數種形式，例如序列中修飾位置的目錄、序列的逐字或圖解表示，其中修飾位置被標記出來，例如以星號或類似符號、或粗體、斜體、或底線格式、著色文字、或描繪包含修飾鹼基結構之核酸的化學結構。

實施例

下述的實施例僅止於說明，不限制本發明以任何形式之其他揭露。即使沒有進一步的闡述，相信該技術領域中之人士基於此述說明，可利用本發明達到本發明最充分的程度。

實施例1：合成環狀雙股連結分子的滾環放大作用

提供如表1之四個寡去氧核糖核苷酸。

分別在50μL反應中進行CPLM-1及CPLM-2磷酸化，該反應在5μL的10X T4連接酶緩衝液(NEB；含10mM ATP的10X儲存緩衝液)存在下，使30μL的10μM寡去氧核苷酸終濃度以1μL的10U/μL的T4多核苷酸激酶(New England Biolabs(“NEB”)Cat. No. M0201S)處理。加入14μL的ddH₂ O，形成終體積50μL(如表2)。反應在37℃培養30分鐘，之後以酵素在65℃、20分鐘去活化。

上述反應所得之磷酸化CPLM-1及CPLM-2(分別為5’P-CPLM-1及5’P-CPLM-2)濃度為6μM。

磷酸化的CPLM-1及CPLM-2在95℃、5分鐘變性(denatured)，之後放置在冰上，與緩衝液、ddH₂ O、及T4連接酶(NEB,Cat. No. M0202S)混合反應，形成環狀雙股連結分子，如表3所示。接合作用(ligation)發生在25℃，於10、30、60分鐘取出18μL的系列稀釋(aliquots)。同時進行沒有連接酶的負控制組(表3的L0欄)。

接合反應的產物與pS-T1及/或pS-T2引子、dNTPs、RepliPHI^TM Phi29 DNA聚合酶(Epicentre,Cat. No. PP031010)、及適當的10 X聚合酶緩衝液組合，如表4所示。

反應在沒有Phi29聚合酶下組合，於95℃變性5分鐘，置於冰上5分鐘後，加入Phi29聚合酶。於30℃培養18小時。

反應產物樣本5μL與1μL 6X染料(loading dye)(0.03%溴化酚藍、0.03%二甲苯靛藍(xylene cyanol)FF、60%甘油、100mM Tris-EDTA(pH 7.6))混合，在95℃加熱10分鐘，然後立刻放到冰上。第二組，反應產物樣本相同處理，但是加入1%SDS。

將樣本填入0.7%洋菜(agarose)膠，在1X TAE緩衝液中，135V下電泳28分鐘。使用GelRed^TM 預染膠(Biotium,Cat. No.:41003 GelRed^TM 核酸膠染色，10,000X於水中稀釋)使DNA可見。該膠如第9圖所示。從使用L3接合反應產物及pS-T1及pS-T2引子的反應樣本，觀察到滾環放大產物的分子量明顯大於10kb，但是在L0控制組或未添加引子之樣本則未觀察到。使用L3接合反應產物及pS-T1及pS-T2引子的樣本以SDS處理，顯示較多產物滯留孔(well)中，與RCA產物中次級結構的變性相符。

實施例2：使用重亞硫酸(bisulfite)處理線狀雙股連結分子使C轉換成U以偵測甲基化之模擬

以重亞硫酸處理使C轉換成U，確認假設的雙股DNA片段的序列及5-甲基胞嘧啶位置，其模擬如下述。此實施例的一般流程圖如第12圖所示。DNA序列如下所示。

DNA樣本(甲基化C以^m C標記)

此兩股經接合作用連接至連接序列(linker sequence)(以”nnnn”表示)，形成下述產物。連接序列適合於作為定序引子。

而且，已知序列(未顯示)的線狀邊緣(linear flap)連接至序列識別號：7的分子端。3’端的邊緣(flap)適合引子連接，進行定序或複製。5’端的邊緣(flap)的互補適合引子連接，進行定序或複製。

產物以重亞硫酸鈉(sodium bisulfite)處理，造成胞嘧啶(但非5-甲基胞嘧啶)殘基轉換成尿嘧啶，產生下列產物。新形成的尿嘧啶殘基以粗體及星號標示。

互補股(序列識別號：9)的合成乃經黏合(anneal)引子至3’端的邊緣(flap)之進行DNA複製而成。

上述雙股的兩方向皆被定序，定序的中間物如下列所示。由反應a所獲得的新合成股為序列識別號：10，由反應b所獲得的新合成股為序列識別號：11。

定序反應a

定序反應b

因此，預期獲自這些反應的讀取(read)包括以下序列。

原始樣本序列，包括胞嘧啶甲基化狀態，由實施以下規則而確認，整理如表5。原始序列的順向股具有與該二讀取相同意義(sense)。

在讀取a及讀取b皆為A的位置上，原始序列的順向股也為A，反向股為T。在讀取a及讀取b皆為T的位置上，原始序列的順向股為T，反向股為A。

在讀取a及讀取b皆為C的位置上，原始序列的順向股為^m C，反向股為G。在讀取a及讀取b皆為G的位置上，原始序列的順向股為G，反向股為^m C。

當一讀取中為G的位置上，另一讀取為A時，原始序列的順向股為G，反向股為C。

當一讀取中為T的位置上，另一讀取為C時，原始序列的順向股為C，反向股為G。

根據讀取中含有G及T殘基的位置在兩讀取不相同，讀取a及b符合表5的欄1及欄2，在此實施例中，讀取a對應欄1。

將上述規則應用於序列識別號：10及11，使原始序列恢復(在連接序列nnnn移除之後)，即序列識別號：5及6。原始序列順向股與讀取a及b的比對如第10A圖所示。

實施例3：使用光化學轉化(photochemical transition)線狀雙股連結分子使mC轉換成T以偵測甲基化之模擬

經光化學轉化使^m C轉換成T，確認假設的雙股DNA片段的序列及5-甲基胞嘧啶的位置，模擬如下述。此實施例的一般流程圖如第13圖所示。DNA序列如下所示。

DNA樣本(甲基化C以^m C標記)

此兩股經接合作用連接至連接序列(linker sequence)(以”nnnn”表示)，形成下述產物。連接序列適合於作為定序引子。線狀邊緣(linear flap)(未顯示)也連結於此分子的3’及5’端。

以光處理該產物，使光化學轉化5-甲基胞嘧啶(非胞嘧啶)殘基轉換成胸腺嘧啶，產生下列產物。新形成的胸腺嘧啶殘基以粗體及星號標示。

互補股(序列識別號：13)的合成乃經使用引子連接至3’端的邊緣(flap)，進行DNA複製而成。

上述雙股兩方向皆定序如上述實施例2，獲得以下的讀取(read)。

原始樣本序列，包括胞嘧啶甲基化狀態，由實施以下規則而確認，整理如表6所示。原始序列的順向股具有與該二讀取相同之意義(sense)。

在讀取a及讀取b皆為C的位置上，原始序列的順向股為C，反向股為G。在讀取a及讀取b皆為G的位置上，原始序列的順向股為G，反向股為C。

當一讀取中為G的位置上，另一讀取為A時，原始序列的順向股為G，反向股為^m C。

當一讀取中為T的位置上，另一讀取為C時，原始序列的順向股為^m C，反向股為G。

根據讀取中含有G及T殘基的位置在兩讀取不相同，讀取a及b符合表6的欄1及欄2，在此實施例中，讀取a對應欄1。

將上述規則應用於序列識別號：14及15，使原始序列恢復(在連接序列nnnn移除之後)，即序列識別號：5及6。具有原始序列順向股之讀取a及b的比對如第10B圖所示。

實施例4：比較模擬的單一讀取及多重讀取定序之精確度

從GenBank下載聚合的大腸桿菌基因體(Escherichia coli genome)序列，基因編號GenBank accession No. U00096，長度4,639,675bp。任意選擇500bp至2000bp長度範圍片段，從中萃取序列。這些片段設計為主要序列(master sequence)。

經電腦以定義的速率導入缺失及錯誤閱讀錯誤(misreading errors)，由主要序列中產生5個次序列(subsequence)，如第7圖所示。

包含錯誤的該5個次序列，使用CLUSTALW演算法(缺損設定)進行多重序列比較分析。CLUSTALW分析結果作為EMBOSS包的程序”cons”的輸入，以獲得共有性序列。程序”cons”描述於Rice et al.,Trends Genet 16,276-277(2000),and Mullan et al.,Brief Bioinform 3,92-94(2002)。

第1個次序列及共有性序列分別與主要序列比對，間隔(gap)及錯誤讀取(misread)的頻率製成表格，如表7所示。結果顯示在各種測試的錯誤率下，使用多重讀取形成共有性序列，會減少錯誤讀取及間隔的頻率。對於每一組的缺少及錯誤讀取的錯誤率，單一模擬讀取及由5個模擬讀取決定的共有性序列與主要序列比對。確認錯誤讀取及間隔位置的數目及百分比，以總比對位置數的分數表示。

實施例5使用cPLM確認序列的模擬

雙股核酸樣本如實施例2所提供。樣本的順向股及反向股經由連接一插入物而鎖在一起，於分子的各端形成一U字狀，如第14圖之cPLM構築步驟所示，形成環狀雙股連結分子。使用連接一引子至插入物，藉由合成反應進行單一分子定序。獲得序列資訊包含該樣本順向股的至少一個序列及該樣本反向股的至少一個序列。根據表8，比較該環狀雙股連結分子的順向及反向股的序列，進行序列分析，以確認核酸樣本序列。

注意：表8及下述的表9至表11，以順向股為模板的獲取序列分別對應於第14-17圖中上排的定序資訊(即該序列顯示於標記”定序”箭頭的下方、及標記”定序分析”箭頭的上方之序列)。同樣地，以反向股為模板的獲取序列分別對應於第14-17圖中下排的定序資訊。

實施例6：使用重亞硫酸(bisulfite)處理環狀雙股連結分子使C轉換成U以偵測甲基化之模擬

此實施例的一般流程圖如第15圖所示。包含至少一個5-甲基胞嘧啶的雙股核酸樣本提供如實施例2。環狀雙股連結分子的形成如實施例5。重亞硫酸轉換的進行如實施例2。序列資訊的獲得如實施例5所示。序列資料的分析，根據表9的規則，藉由比較該環狀雙股連結分子的順向股及反向股的序列，確認該核酸樣本的序列及該至少一個5-甲基胞嘧啶的位置。

表9cPLM/重亞硫酸處理序列確認規則

實施例7：使用光化學轉化(photochemical transition)環狀雙股連結分子使mC轉換成T以偵測甲基化之模擬

此實施例的一般流程圖如第16圖所示。包含至少一個5-甲基胞嘧啶的雙股核酸樣本提供如實施例3。環狀雙股連結分子的形成如實施例5。光化學轉化的進行如實施例3。序列資訊的獲得如實施例5所示。序列資料的分析，根據表10的規則，藉由比較該環狀雙股連結分子的順向股及反向股的序列，確認該核酸樣本的序列及該至少一個5-甲基胞嘧啶的位置。

實施例8：使用環狀雙股連結分子偵測5-溴尿嘧啶的模擬

此實施例的一般流程圖如第17圖所示。提供一包含至少一個5-溴尿嘧啶的雙股核酸樣本。環狀雙股連結分子的形成如實施例5。序列資訊的獲得如實施例5所示。序列資料的分析，根據表11的規則，藉由比較該環狀雙股連結分子的順向股及反向股的序列，確認該核酸樣本的序列及該至少一個5-溴尿嘧啶的位置。

基於本說明書中引用的參考資料之教示，本說明書已可充分了解。本說明書中實施例提供本發明之實例說明，不應以此限制本發明範疇。熟悉此技術之人士容易了解本發明包含了許多其他實例。此揭露內容中引用之所有公開文獻及專利全文併入作為參考。對於參考文獻中使用的材料與本說明書有矛盾或不一致之範圍，本說明書將取代任何這些材料。在此的任何參考文獻的引用並非同意這些參考文獻為本發明的先前技術。

除非特別說明，所有本說明書中，包括申請專利範圍，使用的成分、反應條件或類似的物質的表現量的數量，理解以”約”修飾。因此，除非特別說明，數量的參數為近似值，可根據本發明尋求獲得的所欲性質而改變。至少，不意圖限制本原理的應用均等於申請專利之範圍，每一數量參數應基於明顯的數字及通常運作方法的數量來建立。本說明書中列舉的一系列具有不同數量之明顯數字，並非由暗示獲得的少量的明顯數字具有與所得的較明顯數字相同的精確度而建立。

“一個”或”一種”當與”包括”(包含)並用於請專利範圍及/或說明書中時，可表示為”一”，但亦可表示為”一個或以上”、”至少一個”、及”一個或一個以上”。申請專利範圍中使用”或”表示為”及/或”，除非有明確表示其僅為”或者”或”排除另一者”，然而本揭露之內容支持僅有”或者”及”及/或”之定義。

除非特別定義者，在一系列元件中使用的”至少”可了解為系列中的每一元件。熟悉此技術之人士僅僅使用慣例試驗即可了解或確定許多等同於本發明闡述之具體實施例。此等同物包含於下述的申請專利範圍中。

除非特別定義，此述之所有技術及科學名詞具有與該技術領域具有通常知識者一般了解的相同意義。雖然任何方法及材料類似或等同於此述內容可用於實施及測試本發明，但較佳的方法及材料已描述如前。

此討論之公開文獻因早於本案之申請日而單獨提供。在此並非認同本發明在未有名稱前，因為先前發明而使該公開文獻提早。而且，此提供的公開文獻的日期可能與真實的公開日期不同，可能需要確認。

對於熟悉此技術之人士，從本說明書之考量及本發明此揭露之實施，將可了解本發明之其他實施例。本說明書及實施例僅作為例示，本發明之真正範圍及精神將表示於後述的申請專利範圍。

1．．．DNA片段

2．．．片段

3,4．．．連接物

5．．．寡核苷酸

6．．．環狀分子

7．．．聚合酶

8．．．表面

9．．．線狀複製物

10．．．複製的分子

11,15,17,39．．．順向股

12,16,40．．．反向股

13,14．．．插入物

18．．．引子

19,20,21．．．片段

22,24,26,30,32．．．核酸樣本序列

23,25,27,29,31．．．核酸插入物序列

33．．．部份序列

34．．．非常長序列

35．．．原始序列資料庫

36．．．接受樣本序列及加入接受序列組

28．．．額外序列

37,38．．．突出或嵌入端

41．．．修飾位置

51．．．定序裝置

52．．．電腦裝置

53．．．電腦

54．．．儲存裝置

55．．．匯流排系統

56．．．處理器

57．．．顯示器

58．．．鍵盤

59．．．滑鼠

60．．．操作系統

61．．．使用者介面軟體

62．．．處理軟體

63．．．序列資訊

本發明之前述各方面及優點可因下述之詳細說明及參考圖式而清楚，其中：

第1圖根據本發明的一些實施例製造環狀DNA分子。

DNA樣本1被切成片段，片段2的5’端(菱形狀)接合至連接物(linker)3，片段2的3’端(箭頭狀)接合至另一連接物4。該連接物3及4互補於相鄰的寡核苷酸5的片段。黏合5至3及4提供了一基質供接合(ligation)以進行環化，此反應形成一環狀分子6，該環狀分子6包含一核酸插入物(來自連接物3及4的序列)及一核酸樣本(來自片段2的序列)。

第2圖滾環放大作用(rolling circle amplification)。

寡核苷酸5黏合(anneal)至如第1圖所形成的環狀分子6，結合一固定於表面8的聚合酶7。該寡核苷酸的延伸形成該環狀分子的互補線狀複製物9。繼續延伸形成股替代(strand displacement)及合成含有該環狀分子數個複製物之分子10。

第3圖環狀雙股連結分子(circular pair-locked molecule)。

(A)包含順向股11及反向股12的雙股分子與形成U字型(hairpin)13及14插入物(可相同或相異)結合，形成環狀雙股連結分子(pair locked molecule)。在一些實施例中，該連接物(linker)具有突出(overhang)及嵌入(recessed)端(37及38)。可使用聚合酶填補或為互補於該雙股分子的突出(未顯示)。在完整的環狀雙股連結分子中，填入37及38及封住，因此該分子具有一連續的單股及環狀骨架。(B)適當的間隔(gap)填補及端連結之後，形成包含順向股11、連接物14、反向股12、及連接物13的環狀DNA，此以混合型式(melted form)顯示。該分子可轉換成雙股形式，例如藉由使引子連接(anneal)至該連接物其中之一，使用不具有股替代活性(strand displacement)的聚合酶延伸，例如E. coli DNA聚合酶I，之後接合(ligation)。

第4圖使用環狀雙股連結分子(pair-locked molecule)確認序列及序列與甲基化概況(methylation profile)之流程圖。

(左流程圖)一環狀雙股連結分子可被定序至少一分子的全長，提供互補序列的讀取；繼續定序，可用來提供多的序列讀取。基於該插入核酸的序列，可比對及評估該序列資訊，以獲得該樣本核酸的精確序列。(右流程圖)特定形式核苷酸的轉換，例如經由重亞硫酸轉換(disulfide conversion)或光化學轉化(photochemical transition)，之後進行定序、比對、及比較該修飾序列及其未修飾的互補物，可用以獲得精確的序列資訊及甲基化概況。包含該樣本核酸序列數個重複序列之延伸序列的讀取可用以增加精確性。

第5圖核苷酸轉換。

(A)包含插入物13及14、包含至少一5-甲基胞嘧啶(^m C)殘基的順向股15、及反向股16的環狀雙股連結分子進行處理，例如光化學轉化，使^m C轉換為T，形成轉換的順向股17。該反向股中的互補核苷酸不受影響，形成G-T不穩定配對(wobble pair)(如果^m C殘基存在於反向股中的，將會因此處理被轉換)。(B)包含插入物13及14、含有至少一5-甲基胞嘧啶(^m C)殘基的順向股15、及反向股16的環狀雙股連結分子進行處理，例如重亞硫酸轉換，使C(但不是^m C)轉換為U，形成轉換的順向股39及轉換的反向股40。互補於該轉換的核苷酸之核苷酸不受影響，形成G-U不穩定配對。

第6圖從環狀雙股連結分子，獲取序列資訊及甲基化概況。

(A)引子18連接(anneal)至第5A圖之轉換的環狀雙股連結分子，以聚合酶延伸，合成一股具有片段19、20、及21，分別互補於序列16、14、及17。(B)獲得的序列包含至少兩個重複序列：至少一個樣本17的重複序列，及順向股21之新合成互補的一重複序列；及反向股19之新合成的互補之至少一個重複序列，及反向股16的一重複序列。比對這些重複序列，這些重複序列中在第41位上不一致，顯示在該位置上的鹼基經過修飾。根據使用的修飾形式，可確認原始存在該核酸樣本的對應位置的鹼基。在此實例中，該環狀雙股連結分子藉由^m C轉換成T而被修飾(如第5A圖)的位置，該位置上的不一致表示^m C位於核酸樣本中順向股的第41位；邏輯為，在序列不一致的位置上，轉換反應的產物鹼基T，取代轉換反應的基質^m C，^m C存在該核酸樣本中。

第7圖獲取自環狀核酸分子模板(template)的原始序列資訊及處理過的序列資訊。

(A)由環狀模板獲得的序列內容以圖表示。核酸樣本序列以虛線表示，核酸插入序列以圓圈表示。圖中的序列從核酸樣本的部分序列22開始，接著為核酸插入物23序列；之後依序為該核酸樣本序列24、核酸插入物序列25、核酸樣本序列26、核酸插入物序列27。28表示額外的序列，未顯示在此圖中，28之後為核酸插入物序列29、核酸樣本序列30、核酸插入物序列31、及核酸樣本部分序列32。

如果該環狀模板包含單一核酸樣本及單一核酸插入物，則22及24，以及之後的核酸樣本序列26、30及32，皆是同一個單一核酸樣本序列，則在此情況下，23、25、27、29、31也會是同一個單一核酸插入物的序列。如果該環狀模板包含該核酸樣本序列的順向及反向的重複序列及兩個具已知序列的核酸插入物，兩個核酸插入物可相同或相異，當是環狀雙股連結分子的情況時，則該核酸樣本序列具有改變的方向(orientation)及在改變的狀態下對應該二核酸樣本重複序列(例如22可在順向，表示其為反向的重複序列，24可在反向，表示其為順向的重複序列，或者反之亦然)。該核酸插入物序列23、25等序列也同樣地對應於改變狀態中環狀模板的二個核酸插入物，此二個核酸插入物可為相同或不同。

(B)第7A圖中顯示的序列可分解成片段，每一片段包含該核酸樣本序列的重複序列，例如24；該片段也包含該核酸插入物的至少一個重複序列，例如該核酸插入物的兩個重複序列，例如23及25。一些片段可包含只有一部分序列，例如33，或一非常長的序列，如34。這些片段可來自定序過程中的錯誤。在一些實施例中，這些片段被排除不做進一步考慮。

第8圖序列處理步驟的流程圖。

在一些實施例中，如圖所示，原始序列資訊被檢查、處理、及接受或拒絕。

第9圖滾環放大作用的產物。

實施例1所述反應之產物經電泳及目視於膠上。由左邊看來，C1及C2為負控制組。最左邊的Mr道包含FERMENTAS GENERULER 1k ladder(Cat. No. SM0311)，片段長度為250至10,000bp範圍。接下來的10道包含如圖上所列的滾環放大作用的反應產物，該產物來自使用兩個引子或一個引子(放大作用控制組)及L0產物(連接反應的負控制組)或L3反應，接合反應在指定的時間發生；見實施例1。接下來的Mr道包含FERMENTAS GENERULER 100bp ladder(Cat. No. SM0321)，片段長度為100至3,000bp範圍。接下來的10道包含與前面10道相同的產物，除了這些產物與含有1%SDS的電泳染料混合。

第10圖模擬核酸樣本的重複序列及推論的原始序列之比對顯示。

所有比對的序列皆一致的位置以星號標記。(A)實施例2的讀取a及b與核酸樣本之順向股推測的原始序列(標記為”o”)一起顯示。原始序列是使用表5的規則推測的。這三個序列顯示C的位置為該模擬核酸樣本的順向股中甲基化胞嘧啶的位置。這三個序列顯示G的位置為該模擬核酸樣本的反向股中甲基化胞嘧啶的位置。(B)實施例3的讀取a及b與順向股推測的原始序列(標記為”r_a”)一起顯示。原始序列是使用表6的規則推測的。推測的原始序列中具有與讀取a不一致的C位置，為該模擬核酸樣本的順向股中甲基化胞嘧啶的位置。推測的原始序列中具有與讀取b不一致的G位置，為該模擬核酸樣本的反向股中甲基化胞嘧啶的位置。

第11圖電腦裝置及儲存裝置。

(A)在一些實施例中，本發明關於一定序裝置51，操作連接於電腦裝置52，該電腦裝置52包含至少一個使用者介面元件，選自顯示器57、鍵盤58及滑鼠59，及至少一個電腦53，該電腦53包含儲存裝置54(見第11B圖)、匯流排系統(bus system)55及處理器56。(B)在一些實施例中，本發明關於一儲存裝置54，包含操作系統60、使用者介面軟體61、及處理軟體62。儲存裝置可額外包含獲取自定序裝置的序列資訊63(第11A圖的51)。

第12圖使用重亞硫酸轉換線狀雙股連結分子(lnear pair locked molecule)確認序列及5-甲基胞嘧啶位置的一般流程圖。

提供一包含5-甲基胞嘧啶雙股核酸樣本(頂圖)。接合(ligate)一U字型(hairpin)插入物至該分子的一股端，構築一線狀雙股連結分子(第1個箭頭下方，右側)，因此使該雙股分子的順向股與反向股雙股鎖在一起。而且，線狀邊緣(linear flap)與該雙股的另一股端連接(第1個箭頭下方，左側)。進行重亞硫酸轉換，將胞嘧啶(cytosine)轉換成尿嘧啶(uracil)，但是不影響5-甲基胞嘧啶。提供一連接至該線狀邊緣的引子，該線狀邊緣連接於該線狀雙股連結分子的3’端，以聚合酶延伸該引子，複製該分子。該端可經過處理，例如以限制酶分解，製造隨後進行選殖(cloning)及/或定序的分子。

第13圖使用光化學轉化(photochemical transition)線狀連結分子確認序列及5-甲基胞嘧啶位置的一般流程圖。

提供一包含5-甲基胞嘧啶雙股核酸樣本(頂圖)。接合一U字型插入物至該雙股分子的一端，構築一線狀雙股連結分子(第1個箭頭下方，右側)，因此使該雙股樣本的順向股與反向股雙股鎖在一起。而且，線狀邊緣(linear flap)與該雙股的另一股端連接(第1個箭頭下方，左側)。進行光化學轉化，將5-甲基胞嘧啶轉換成胸腺嘧啶(thymine)，但是不影響未修飾的胞嘧啶(cyosine)。提供一連接至該線狀邊緣的引子，該線狀邊緣連接於該線狀雙股連結分子的3’端，以聚合酶延伸該引子，複製該分子。該端可進行處理，例如以限制酶分解，以製造隨後進行選殖(cloning)及/或定序的分子。

第14圖使用環狀雙股連結分子確認序列的一般流程圖。

提供一雙股核酸樣本(頂圖)。接合一U字型插入物至該雙股分子的兩端，構築一環狀雙股連結分子(第1個箭頭下方，右側及左側)，因此使該雙股樣本的順向股與反向股雙股鎖在一起。進行定序，分析序列資訊以確認該樣本序列，例如實施例5。

第15圖使用重亞硫酸轉換及環狀雙股連結分子確認序列及5-甲基胞嘧啶位置的一般流程圖。

提供一包含5-甲基胞嘧啶之雙股核酸樣本(頂圖)。接合一U字型插入物至該雙股分子的兩端，構築一環狀雙股連結分子(第1個箭頭下方，右側及左側)，因此使該雙股樣本的順向股與反向股雙股鎖在一起。進行重亞硫酸轉換，將胞嘧啶轉換成尿嘧啶，但是不影響5-甲基胞嘧啶。進行定序，分析序列資訊以確認該樣本序列及5-甲基胞嘧啶的位置，例如實施例6。

第16圖使用光化學轉化(photochemical transition)及環狀緊嘧配分子確認序列及5-甲基胞嘧啶位置的一般流程圖。

提供一包含5-甲基胞嘧啶之雙股核酸樣本(頂圖)。接合一U字型插入物至該雙股分子的兩端，構築一環狀雙股連結分子(第1個箭頭下方，右側及左側)，因此使該雙股樣本的順向股與反向股雙股鎖在一起。進行光化學轉化，將5-甲基胞嘧啶轉換成胸腺嘧啶，但是不影響未修飾的胞嘧啶。進行定序，分析序列資訊以確認該樣本序列及5-甲基胞嘧啶的位置，例如實施例7。

第17圖使用環狀雙股連結分子確認序列及5-溴尿嘧啶(5-bromouracil)位置的一般流程圖。

提供一包含5-溴尿嘧啶之雙股核酸樣本(頂圖)。接合一U字型插入物至該雙股分子的兩端，構築一環狀雙股連結分子(第1個箭頭下方，右側及左側)，因此使該雙股樣本的順向股與反向股雙股鎖在一起。進行定序，分析序列資訊以確認該樣本序列及5-溴尿嘧啶的位置，例如實施例8。

<110> 財團法人工業技術研究院

<120> 精確序列資訊及修飾鹼基位置確認的方法

<130> 09708.0013-00000

<140> US 12/613,291

<141> 2009-11-05

<150> US 61/112,548

<151> 2008-11-07

<150> US 61/167,313

<151> 2009-04-07

<160> 19

<170> PatentIn version 3.5

<210> 1

<211> 79

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 1

<210> 2

<211> 80

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 2

<210> 3

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 3

<210> 4

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 4

<210> 5

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> modified_base

<222> (10)..(10)

<223> m5c

<220>

<221> modified_base

<222> (19)..(19)

<223> m5c

<400> 5

<210> 6

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> modified_base

<222> (15)..(15)

<223> m5c

<220>

<221> modified_base

<222> (24)..(24)

<223> m5c

<400> 6

<210> 7

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> modified_base

<222> (10)..(10)

<223> m5c

<220>

<221> modified_base

<222> (19)..(19)

<223> m5c

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<220>

<221> modified_base

<222> (55)..(55)

<223> m5c

<220>

<221> modified_base

<222> (64)..(64)

<223> m5c

<400> 7

<210> 8

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> modified_base

<222> (10)..(10)

<223> m5c

<220>

<221> modified_base

<222> (19)..(19)

<223> m5c

<220>

<221> misc_feature

<222> (36)..(39)

<223> n is a,c,g,t or u

<220>

<221> modified_base

<222> (55)..(55)

<223> m5c

<220>

<221> modified_base

<222> (64)..(64)

<223> m5c

<400> 8

<210> 9

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<400> 9

<210> 10

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<400> 10

<210> 11

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<400> 11

<210> 12

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<400> 12

<210> 13

<211> 74

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (36)..(39)

<223> n為a,c,g，或t

<400> 13

<210> 14

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 14

<210> 15

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 15

<210> 16

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (19)..(19)

<223> n為5-bromouracil

<400> 16

<210> 17

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<220>

<221> misc_feature

<222> (27)..(27)

<223> n為5-bromouracil

<400> 17

<210> 18

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 18

<210> 19

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成的寡核苷酸

<400> 19

1．．．DNA片段

2．．．片段

3,4．．．連接物

5．．．寡核苷酸

6．．．環狀分子

Claims

一種確認核酸樣本序列之方法，包括：a.提供一環狀核酸分子，該環狀核酸分子包括至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及該核酸樣本，其中該插入物具有一已知序列；b.獲取步驟(a)環狀核酸分子的序列資訊，該序列資訊包括至少兩個插入樣本單元，該至少兩個插入樣本單元包含於一核酸分子所產生之序列資訊中；c.比較該插入物的序列與該插入物中的已知序列，計算步驟(b)序列資訊的至少兩個插入物之序列的分數(score)；d.根據位於緊鄰該核酸樣本序列的重複序列的上游及下游之該插入物的一或二個序列的分數，接受或拒絕步驟(b)所得之序列資訊的核酸樣本序列之至少兩個重複序列；e.編輯一接受序列組，該接受序列組包含步驟(d)中接受的核酸樣本序列之至少一個重複序列；及f.使用該接受的序列組，確認該核酸樣本序列。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中，獲取序列資訊包括單一分子定序(single molecule sequencing)。
如申請專利範圍第2項所述之確認核酸樣本序列之方法，其中該單一分子定序包括以選自經合成作用的單一分子定序及接合定序(ligation sequencing)之方法定序。
如申請專利範圍第3項所述之確認核酸樣本序列之方法，其中該單一分子定序包括經合成的即時(real-time) 單一分子定序。
如申請專利範圍第3項所述之確認核酸樣本序列之方法，其中該單一分子定序包括經合成作用之單一分子定序選自焦磷酸定序(pyrosequencing)、可逆終止密碼子定序(reversible terminator sequencing)及第三代定序(third-generation sequencing)之方法。
如申請專利範圍第3項所述之確認核酸樣本序列之方法，其中該單一分子定序包括奈米孔定序(nanopore sequencing)。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中提供一環狀核酸分子包括使該核酸樣本接合(ligate)至該核酸插入物，形成該環狀核酸分子。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該環狀核酸分子為雙股。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸樣本獲得自RNA樣本。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸樣本獲得自基因體DNA樣本。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該環狀核酸分子包括至少兩個插入樣本單元。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸插入物包括一啟動子，合成該產物核酸分子包括使該啟動子與辨識該啟動子的RNA聚合酶接觸，之後合成包括核糖核苷酸(ribonucleotide)殘基的產物核酸分子。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸插入物具有解鏈溫度為30℃至90℃。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸插入物具有14-200個核苷酸殘基的長度。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該接受序列組為選自多元件變異及單一資訊字串(string)的形式，其包括步驟(b)的序列資訊經過處理，對步驟(e)中拒絕的核酸樣本序列之重複序列進行缺少、重寫或省略重複序列。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該接受序列組為多元件變異形式，選自目錄(list)、陣列(array)、散列(hash)及矩陣(matrix)的型態。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該核酸樣本序列的至少兩個重複序列在步驟(d)被接受，確認該核酸樣本的序列包括基於在步驟(d)被接受的該核酸樣本序列的至少兩個重複序列之共有性序列(consensus sequence)確認。
如申請專利範圍第17項所述之確認核酸樣本序列之方法，其中該共有性序列包括以或然率表示的鹼基，該鹼基位於步驟(d)中接受的核酸樣本序列之至少兩個重複單元不同的至少一個位置上。
如申請專利範圍第17項所述之確認核酸樣本序列之方法，其中該核酸樣本序列的至少三個重複序列在步驟(d)中被接受，確認共有性序列包括確認在步驟(d)中被接受的該核酸樣本序列的至少三個重複序列之多數決(majority vote)。
如申請專利範圍第17項所述之確認核酸樣本序列之方法，其中該共有性序列為位置權重矩陣(position weight matrix)。
如申請專利範圍第17項所述之確認核酸樣本序列之方法，其中該共有性序列為平鋪式序列(flat sequence)。
如申請專利範圍第21項所述之確認核酸樣本序列之方法，其中該平鋪式序列(flat sequence)包括至少一個雙關密碼子(ambiguity code)。
如申請專利範圍第17項所述之確認核酸樣本序列之方法，其中該共有性序列包括信賴水準(confidence level)。
如申請專利範圍第23項所述之確認核酸樣本序列之方法，其中該信賴水準以選自鹼基頻率、資訊內容、及Phred質量分數(phred quality score)的形式表示。
如申請專利範圍第23項所述之確認核酸樣本序列之方法，其中申請專利範圍第1項所述之步驟(b)-(f)為即時(real time)進行，該共有性序列及信賴水準為即時(real time)更新。
如申請專利範圍第25項所述之確認核酸樣本序列之方法，其中該方法進行直到在預先選擇百分比的共有序列位置達成規定的最小信賴水準(a set minimum level of confidence)。
如申請專利範圍第26項所述之確認核酸樣本序列之方法，更包括當預先選擇百分比的位置達到所述規定的最小信賴水準時產生一警告。
如申請專利範圍第26項所述之確認核酸樣本序列之方法，其中該該組最小信賴水準為選自90%、95%、99%、99.5%、99.9%、99.95%或99.99%的鹼基要求精確度(base call accuracy)。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，更包括以至少一個其他的核酸樣本重複申請專利範圍第1項之步驟，該其他的核酸樣本與申請專利範圍第1項之核酸樣本為相同來源、種類或株種，與申請專利範圍第1項之核酸樣本序列部分重疊，因此確認至少一個其他核酸樣本，及組合至少一個其他核酸樣本與步驟(f)的序列，形成contig。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中步驟(c)的分數用於評估步驟(b)之整體序列資訊的信賴水準。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中計算分數包括確認該序列資訊的至少兩個插入物與該插入物的已知序列之間的錯誤配對(mismatch)數量。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中計算分數包括確認該序列資訊的至少兩個插入物與該插入物的已知序列之間的百分比相同性(percent identity)。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中計算分數包括進行該序列資訊的至少兩個插入物與該插入物的已知序列之間的比對。
如申請專利範圍第33項所述之確認核酸樣本序列之方法，其中進行比對包括使用選自BLAST、MEGABLAST、Smith-Waterman比對及Needleman-Wunsch比對。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中該分數係以計數(count)基礎及率(rate)基礎產生。
如申請專利範圍第1項所述之確認核酸樣本序列之方法，其中接受或拒絕步驟(b)序列資訊之核酸樣本序列的至少兩個重複序列包括，接受具有分數大於或等於預定閾值(threshold)之緊鄰於樣本插入物序列上游或下游之該核酸樣本序列的至少兩個重複序列，及拒絕具有分數小於預定閾值之緊鄰於樣本插入物序列上游或下游之該核酸樣本序列的至少兩個重複序列。
一種系統，包含一可操作連接於一電腦裝置的定序裝置，該電腦裝置包括一處理器、儲存裝置、匯流排系統(bus system)、及至少一個使用者介面元件，該儲存裝置編入包括操作系統、使用者介面軟體、及使用說明之程式，當以該處理器執行時，選擇性地具有使用者輸入，進行一方法包括：a.由一環狀核酸分子獲取序列資訊，該環狀分子包含至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及一核酸樣本，其中：(i)該插入物為已知，(ii)該序列訊息包括至少兩個插入樣本單元的序列，及 (iii)產生一核酸分子包含至少兩個插入樣本單元；b.藉由比較該插入物的序列與該插入物的已知序列，計算步驟(a)的序列資訊之至少兩個插入物的序列的分數；c.根據緊鄰於該核酸樣本序列的重複序列之上游及下游的插入物之一或二個序列的分數，接受或拒絕步驟(a)之序列資訊的核酸樣本序列的至少兩個重複；d.編輯一接受序列組，該接受序列組包含步驟(c)接受的核酸樣本序列之至少一個重複單元；及e.使用該接受序列組確認該核酸樣本序列，其中，該系統的輸出產生至少一個的(i)一核酸樣本的序列；或(ii)一指示，指示在核酸樣本中至少一個位置上有修飾鹼基。
一種儲存裝置，編入包括操作系統、使用者介面軟體及指示說明之程式，其中當執行系統的處理器時，該系統包括定序裝置，可操作連接於一電腦裝置，該電腦裝置包括處理器、儲存裝置、匯排流系統及至少一個使用者介面元件與選擇性具有使用者輸入，進行一方法包括：a.由一環狀核酸分子獲取序列資訊，該環狀分子包含至少一個插入樣本單元，該插入樣本單元包括一核酸插入物及一核酸樣本，其中：(i)該插入物具有已知序列，(ii)該序列訊息包括至少兩個插入樣本單元的序列，及(iii)產生一包含至少兩個插入樣本單元的核酸分子；b.比較該插入物的序列與該插入物的已知序列，計算步驟(a)的序列資訊之至少兩個插入物的序列之分數； c.根據緊鄰於該核酸樣本序列的重複序列之上游及下游的插入物之一或二個序列的分數，接受或拒絕步驟(a)之序列資訊的核酸樣本序列的至少兩個重複；d.編輯一接受序列組，該接受序列組包含步驟(c)接受的核酸樣本序列之至少一個重複單元；及e.使用該接受序列組確認該核酸樣本序列，其中，上述方法導致輸出用於產生至少一個(i)一核酸樣本的序列；或(ii)一指示，指示在核酸樣本中至少一個位置上有修飾鹼基。
一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：a.鎖住一雙股核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子(circular pair-locked molecule)；b.經由單一分子定序獲得該環狀雙股連結分子的序列資訊，其中該序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；c.比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列；d.改變該環狀雙股連結分子中特定型態之鹼基的鹼基配對特異性(base-pairing specificity)，產生一改變的環狀雙股連結分子；e.獲得該改變的環狀雙股連結分子的序列資訊，其中該序列資訊包括該改變的順向股及反向股的序列；及f.經由比較該改變的順向股及反向股的序列，確認該雙股核酸樣本序列中修飾鹼基的位置。
如申請專利範圍第39項所述之方法，其中該雙股核酸樣本獲得自細胞來源、病毒來源、或環境來源的初級分離物。
如申請專利範圍第40項所述之方法，其中該初級分離物維持在25℃或25℃以下及在申請專利範圍第39項之步驟(a)之前實質上沒有雙價陽離子及核酸修飾酵素存在的條件下。
如申請專利範圍第39項所述之方法，其中該雙股核酸樣本獲得自活體外(in vitro )反應或細胞外核酸。
如申請專利範圍第39項所述之方法，其中改變環狀雙股連結分子中特定形式之鹼基的鹼基配對特異性，包括重亞硫酸(disulfite)處理。
如申請專利範圍第39項所述之方法，其中改變環狀雙股連結分子中特定形式之鹼基的鹼基配對特異性，包括光化學轉化(photochemical transition)。
如申請專利範圍第39項所述之方法，其中鎖住該順向股及反向股在一起，包括使兩個核酸插入物分別連接(join)至該雙股核酸樣本的兩端，該兩個核酸插入物為相同或不同。
如申請專利範圍第45項所述之方法，其中該核酸插入物具有14-200個核苷酸殘基的長度。
如申請專利範圍第45項所述之方法，其中該核酸插入物具有已知序列。
如申請專利範圍第45項所述之方法，其中該核酸插入物具有突出(overhang)的U字型(hairpin)，該核酸樣本具有可與該核酸插入物的突出相容之突出。
如申請專利範圍第45項所述之方法，其中獲得序列資訊包括使一引子連接(anneal)至模板，及延伸該引子，其中該引子與至少一個該核酸插入物的至少一部分互補。
如申請專利範圍第45項所述之方法，其中至少一個該核酸插入物包括一啟動子，獲得序列資訊包括使該啟動子與辨識該啟動子的RNA聚合酶接觸，之後合成包含核糖核苷酸殘基之產物核酸分子。
如申請專利範圍第45項所述之方法，其中使兩個核酸插入物分別連接(join)至該雙股核酸樣本的兩端係以接合(ligation)達成。
如申請專利範圍第39項所述之方法，其中該雙股核酸樣本包括複數個樣本連接(link)在一起。
如申請專利範圍第52項所述之方法，其中該複數個樣本係經由中間的核酸插入物(intervening nucleic acid inserts)連接。
如申請專利範圍第53項所述之方法，其中鎖住該順向股及反向股在一起，包括接合(ligate)一複合體，該複合體係由該核酸插入物的突出與該核酸樣本的可相容的突出接觸所形成。
如申請專利範圍第39項所述之方法，其中該雙股核酸樣本為基因體(genomic)DNA片段。
如申請專利範圍第39項所述之方法，其中該雙股核酸樣本包括至少一個RNA股。
如申請專利範圍第39項所述之方法，其中該單一分子定序包括選自經合成作用的單一分子定序及接合定序(ligation sequencing)之方法。
如申請專利範圍第39項所述之方法，其中該單分子定序包括經合成作用的即時單一分子定序。
如申請專利範圍第39項所述之方法，其中該單一分子定序包括經合成作用的單一分子定序，選自焦磷酸定序(pyrosequencing)、可逆終止密碼子定序(reversible terminator sequencing)、及第三代定序(third-generation sequencing)。
如申請專利範圍第39項所述之方法，其中該單一分子定序包括奈米孔定序(nanopore sequencing)。
如申請專利範圍第39項所述之方法，其中：該環狀雙股連結分子的順向股及反向股經由核酸插入物而鎖在一起；步驟(b)獲得的序列資訊包括該環狀雙股連結分子的至少兩個複製序列，每一個複製序列包括第一及第二插入樣本單元的序列；該第一及第二插入樣本單元的序列包括插入序列，該插入序列可相同或不同，和方向相反(oppositely oriented)之核酸樣本序列的重複序列；及此方法更包括：g.比較該序列資訊中的至少四個插入物的序列與該插入物的已知序列，計算該至少四個插入物序列的分數；h.根據緊鄰該樣本序列上游及下游的插入物之1個或2個序列的分數，接受或拒絕該序列資訊中所含的核酸樣本序列之至少四個重複序列，於每個方向(orietation)至少一個樣本序列被接受的條件下；i.編輯一接受序列組，該接受序列組包括步驟(g)接受的每個方向至少一個樣本序列；及j.使用該接受序列組，確認該核酸樣本的序列。
一種確認雙股核酸樣本之方法，包括：a.鎖住核酸樣本的順向股與反向股在一起，形成一環狀雙股連結分子；b.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及c.比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列。
一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：a.鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；b.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及c.比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。
如申請專利範圍第63項所述之方法，其中該雙股核酸分子包括至少一個修飾鹼基選自5-溴尿嘧啶 (5-bromouracil)、尿嘧啶(uracil)、5,6-二氫尿嘧啶(5,6-dihydrouracil)、核糖胸腺嘧啶(ribothymine)、7-甲基鳥嘌呤(7-methylguanine)、次黃嘌呤(hypoxanthine)及黃嘌呤(xanthine)。
如申請專利範圍第63項所述之方法，其中該雙股核酸樣本中的至少一個修飾鹼基與一鹼基配對，該鹼基具有不同於其較佳配對鹼基的鹼基配對特異性。
一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：a.鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；b.改變該環狀雙股連結分子中特定形式之鹼基的鹼基配對特異性；c.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；及d.比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。
一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：a.鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；b.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中序列資訊包括該環狀雙股連結分子的順向股及反向股的序列；c.比較該環狀雙股連結分子的順向股及反向股的序列，確認該雙股核酸樣本的序列；d.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中使用至少一個區別鹼基及其修飾形式的核苷酸類似物(nucleotide analog)獲得序列資訊，該序列資訊包括至少一個位置上加入至少一個鑑別標記的核苷酸類似物；及e.比較該順向股及反向股之序列，確認該雙股核酸樣本序列中修飾鹼基的位置。
一種確認雙股核酸樣本的序列及該序列中至少一個修飾鹼基的位置之方法，包括：a.鎖住核酸樣本的順向股及反向股在一起，形成一環狀雙股連結分子；b.經由單一分子定序，獲得該環狀雙股連結分子的序列資訊，其中使用至少一個區分鹼基及其修飾形式的核苷酸類似物獲得序列資訊，該序列資訊包括在至少一個位置上加入至少一個鑑別標記的核苷酸類似物；及c.比較該環狀雙股連結分子的順向股及反向股之序列，確認該雙股核酸樣本的序列及在該雙股核酸樣本序列中至少一個修飾鹼基的位置。