TWI443544B

TWI443544B - 資料壓縮方法和序列壓縮裝置

Info

Publication number: TWI443544B
Application number: TW099145458A
Authority: TW
Inventors: Bai Kuang Hwang; Jenn Yeh Fann; Chung Fan Chiou
Original assignee: Ind Tech Res Inst
Priority date: 2009-12-23
Filing date: 2010-12-23
Publication date: 2014-07-01
Also published as: EP2460111B1; TW201140365A; WO2011076130A1; US20110163898A1; CN102576388A; US8223043B2; EP2460111A1; EP2460111A4; WO2011076130A8; CN102576388B

Description

資料壓縮方法和序列壓縮裝置

本發明係關於一種資料壓縮方法，特別係關於一種核苷酸序列資料壓縮方法。

隨著單分子去氧核糖核酸(以下簡稱DNA)定序技術的繼續發展，可以預見的是，將會有持續與大量的產生定序的原始讀序資料。為了提升及確保基因體序列後製處理的正確性，相同的基因體片段時，都會定序產生十倍、甚至數十倍的原始讀序資料。

DNA片段在應用單分子DNA合成原理定序時，依設計的模版(Template)持續進行數次或數十次循環合成反應，DNA合成反應訊號再經由訊號感測裝置偵測出DNA類別，並輸出。

一個人的基因體，單股序列就有30億個鹼基(BASE)，定序的過程中，若以10倍Coverage、10次循環合成，最保守的估計將會產生3000億個鹼基。如此大量的資料，不僅在儲存上是一個負擔，在一個高通量處理系統中，若不做任何資料減量的處理，傳輸它們將也是一個費時的負擔。

當進行大量的基因體定序的工作時，在同一時間，進行大量的單分子DNA合成反應，讀序訊號的輸出是連續不間斷的，轉換成讀序資料的輸出數量也是非常大量且連續不間斷的，這對於資料的傳輸與儲存是非常不利的，為此，必須有一個有效且方便的檢驗、壓縮的方法。

從讀序訊號的輸出，一路至讀序資料的儲存在儲存體(Data Storage)中，並且被電腦主機取出計算、分析；這個過程中，分為幾個階段，(一)讀序訊號的輸出轉換成讀序資料，(二)讀序資料的輸出傳輸至讀序資料的儲存體，(三)讀序資料的的儲存體至電腦主機記憶體，或者反向；以現在的電腦技術來看，這幾個階段中，資料交換與處理的速度差，慢至每秒近100Mbytes，快至每秒幾個GBytes，其中，最慢的瓶頸是在：(二)讀序資料的輸出傳輸至讀序資料的儲存體。因為這是自「週邊設施」傳輸至「電腦主機」或是「資料儲存體控制器」，是介面的交換。

本發明提供一種資料壓縮方法，包括：藉由一接收單元，獲得來自一相同來源的一第一讀出序列與一第二讀出序列；藉由該處理器，根據一比較條件比較該第一讀出序列與該第二讀出序列以產生一序列比較結果；藉由該處理器，根據該序列比較結果輸出一最終模板序列；藉由該處理器，比較該最終模板序列和該第一讀出序列，以及比較該最終模板序列和該第二讀出序列，分別產生該最終模板序列和該第一讀出序列、該第二讀出序列的一差異值；以及藉由該處理器，根據該最終模板序列和該第一讀出序列、該第二讀出序列的上述差異值，壓縮該第一讀出序列和該第二讀出序列，以產生一壓縮檔案，其中該比較條件係根據該第一讀出序列之一第一序列子集目錄與該第二讀出序列之一第二序列子集目錄來設定，該第一讀出序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該第二讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。

另外，本發明提供一種資料壓縮方法，包括：藉由一接收單元，獲得來自一相同來源的複數條讀出序列；藉由一處理器，選擇該複數條讀出序列之一為一初始模板序列；藉由該處理器，根據一比較條件比較該初始模板序列與各個其他之讀出序列以分別產生比較結果；藉由該處理器，根據所有分別產生之比較結果來產生一序列比較結果；藉由該處理器，根據該序列比較結果輸出一最終模板序列；藉由該處理器，比較該最終模板序列和該複數條讀出序列之每一者，分別產生該最終模板序列和該複數條讀出序列之每一者的一差異值；以及藉由該處理器，根據該最終模板序列和該複數條讀出序列之每一者的上述差異值，壓縮該複數條讀出序列，以產生一壓縮檔案，其中該比較條件係根據該初始模板序列之一第一序列子集目錄與未被選擇之該複數條讀出序列之複數個第二序列子集目錄來設定，該初始模板序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該未被選擇之讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。

另外，本發明提供一種序列壓縮裝置，包括：一接收單元，其用以獲得來自一相同來源的複數條讀出序列；以及一處理器，其用以執行包括下列之步驟：選擇該複數條讀出序列之一為一初始模板序列；根據一比較條件比較該初始模板序列與各個其他之讀出序列以分別產生比較結果；根據所有分別產生之比較結果來產生一序列比較結果；根據該序列比較結果輸出一最終模板序列，比較該最終模板序列和該複數條讀出序列之每一者，分別產生該最終模板序列和該複數條讀出序列之每一者的一差異值；以及根據該最終模板序列和該複數條讀出序列之每一者的上述差異值，壓縮該複數條讀出序列，以產生一壓縮檔案，其中該比較條件係根據該初始模板序列之一第一序列子集目錄與未被選擇之該複數條讀出序列之複數個第二序列子集目錄來設定，該初始模板序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該未被選擇之讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。

下列敘述為執行本發明之最佳模式，此敘述為用以說明本發明一般原則之目的，並不應被用以限制之意。以參考後附申請專利範圍來最佳界定本發明的範圍。

本發明提供一種資料壓縮方法與一種用以執行資料壓縮方法的裝置，即為序列壓縮裝置。

在本發明中，資料壓縮方法的基本原則為比較兩條序列。

在本發明一態樣中，資料壓縮方法詳述如下：

參見第1圖與第2a圖，第1圖顯示本發明之一序列壓縮裝置之一實施例的簡示圖，而第2a圖顯示由此裝置所執行之資料壓縮方法之一實施例的簡化流程。序列壓縮裝置100可包括一接收單元101、一處理器103和一記憶體105。首先，接收單元101獲得來自一相同來源的一第一讀出序列與一第二讀出序列(步驟201)。接著，處理器103設定一比較條件(步驟203)。在設定比較條件後，處理器103根據比較條件比較第一讀出序列與第二讀出序列以產生一序列比較結果(步驟205)。之後，處理器103根據序列比較結果輸出一最終模板序列(步驟207)。在本發明另一實施例中，最終模板序列可以由第一讀出序列或第二讀出序列之中來選擇。最終模板序列可以儲存在記憶體105之中。接下來，處理器103比較最終模板序列和第一讀出序列，以及比較最終模板序列和第二讀出序列，分別產生最終模板序列和第一讀出序列、第二讀出序列的一差異值(步驟209)。最終模板序列和第一讀出序列、第二讀出序列的差異值可以包括初始位置、長度、結束位置和內容。最後，處理器103根據最終模板序列和第一讀出序列、第二讀出序列的差異值，壓縮第一讀出序列和第二讀出序列，以產生一壓縮檔案(步驟211)。壓縮檔案具有一檔案格式，檔案格式包括檔案表頭、最終模版序列，以及位置和內容的比較差異值，該比較差異值對應於最終模板序列和第一讀出序列、第二讀出序列的差異值。

處理器103可根據第一讀出序列的一第一序列子集目錄(first seed table)與第二讀出序列的一第二序列子集目錄(second seed table)來設定比較條件。第一讀出序列的第一序列子集目錄可包括複數個具有一特定長度的第一序列子集(first seed)，而複數個第一序列子集構成複數個具有不同序列子集起始位置(seeding start site)的第一序列子集組，又第二讀出序列的第二序列子集目錄可包括複數個具有一特定長度的第二序列子集，而複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，其中第一序列子集目錄之第一序列子集的特定長度與第二序列子集目錄之第二序列子集的特定長度為相同之特定長度。

可藉由處理器103來建構一序列之一序列子集目錄(seed table)，其中一個序列子集(seed)為此序列的一個片段。建構一序列之一序列子集目錄的一例子詳述如下：

以每個序列子集(或片段)為K員(mer)(序列子集的一特定長度)，分別從序列的不同起始位置，將一序列分成複數個序列子集(或片段)組，其中K為大於2的正整數，較佳為2-9的正整數，更佳為3-9的正整數，並且記錄各個序列子集的內容與位置，於是建構了此序列的一序列子集目錄。

選擇序列子集之特定長度的準則可包括一使用者的經驗、序列的長度或來自本發明資料壓縮方法所先前校正之序列的準確度，但不限於此，其中藉由將一已知引子的一已知序列與獲自本發明校正方法之上述已知引子的最終模板序列進行比較來獲得本發明先前校正的序列的準確度。在一實施例中，可根據一使用者之經驗來選擇每序列子集的特定長度。在另一實施例中，根據序列的長度來選擇每序列子集的特定長度。在又另一實施例中，根據一先前校正的序列來選擇每序列子集的特定長度。

例如，當K為4時，如下來建構一序列的序列子集。

以每序列子集為4員，將此序列從第一個鹼基分成複數個序列子集，其中自其產生之複數個序列子集被稱為一移動-0(shift-0)序列子集組，並且記錄各個序列子集之內容與位置。

接著，以每序列子集為4員，將此序列從第二個鹼基分成複數個序列子集，其中自其產生之複數個序列子集被稱為一移動-1(shift-1)序列子集組，並且記錄各個序列子集之內容與位置。

然後，以每序列子集為4員，將此序列從第三個鹼基分成複數個序列子集，其中自其產生之複數個序列子集被稱為一移動-2(shift-2)序列子集組，並且記錄各個序列子集之內容與位置。

之後，以每序列子集為4員，將此序列從第四個鹼基分成複數個序列子集，其中自其產生之複數個序列子集被稱為一移動-3(shift-3)序列子集組，並且記錄各個序列子集之內容與位置。

最後，根據上述各序列子集組與在其中的序列子集，建構出具有4員長度之序列子集目錄(4員之序列子集目錄)。需注意的是，可以類似方式來建構出此序列之具有其他序列子集長度的序列子集目錄。

此外，需注意的是，可同時建構出一序列之具有不同序列子集長度(從所需最長之序列子集長度至最短之序列子集長度(2員))的序列子集目錄。或者，可僅建構一個序列之具有特定長度的序列子集目錄，並可在需要時建構出剩餘之具有其他序列子集長度的序列子集目錄。

於本發明中比較讀出序列之特定序列子集長度的目錄的有條件之順序安排為，首先比較讀出序列之最長序列子集長度的目錄，且持續比較至讀出序列之最短序列子集長度的目錄。

在一實施例中，參見第2b圖，當處理器103根據比較條件比較第一讀出序列與第二讀出序列以產生一序列比較結果(步驟205)時，處理器103可比較第一讀出序列之第一序列子集目錄與第二讀出序列之第二序列子集目錄以產生共同片段(common fragment)與非共同的區域(uncommon region)(步驟205a)。一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又共同片段越長，則包含於其中之共同的序列子集的數量越多。藉由比較第一序列子集目錄與第二序列子集目錄所產生之所有共同片段形成一共同片段組合(common fragment set)。共同的序列子集被定義為，當第一讀出序列之一序列子集的內容與第二讀出序列之一序列子集的內容在一相對應之區域或一區域接近相對應區域為相同時的第一讀出序列之此序列子集與第二讀出序列之此序列子集。在比較第一讀出序列之第一序列子集目錄與第二讀出序列之第二序列子集目錄而產生共同片段與非共同的區域(步驟205a)後，處理器103接著測定共同片段組合對第一讀出序列或第二讀出序列的一覆蓋率(步驟205b)。然後，當覆蓋率的值滿足一預定值時，處理器103自共同片段組合產生序列比較結果(步驟205c)。預定值的值未被限定，且可為80-95%，或較佳為95%。

相較而言，當覆蓋率的值未滿足一預定值時，處理器103改變構成第一讀出序列之第一序列子集目錄的第一序列子集的特定長度與構成第二讀出序列之第二序列子集目錄的第二序列子集的特定長度(即，將用於比較中之第一讀出序列之具有特定長度的序列子集目錄改變成第一讀出序列之具有其他特定長度的其他序列子集目錄，並且將用於比較中之第二讀出序列之具有特定長度的序列子集目錄改變成第二讀出序列之具有其他特定長度的其他序列子集目錄)(步驟205d)。接著，處理器103於非共同的區域比較由具有經改變之特定長度之第一序列子集所構成的第一序列子集目錄與由具有經改變之特定長度之第二序列子集所構成的第二序列子集目錄(步驟205a)，以產生第二共同片段與第二非共同的區域，其中第二共同片段與共同片段組合構成一第二共同片段組合、且處理器103測定第二共同片段組合對第一讀出序列或第二讀出序列的一覆蓋率(步驟205b)，並當覆蓋率的值滿足預定值時，產生由第二共同片段組合所產生的序列比較結果(步驟205c)。

或者，換句話說，當覆蓋率的值未滿足一預定值時，處理器103改變第一讀出序列之第一序列子集目錄與第二讀出序列之第二序列子集目錄(即，根據有條件之順序安排持續執行讀出序列之特定長度序列子集的比較，直到讀出序列之特定長度序列子集目錄的覆蓋率的值滿足預定值)(重複步驟205a、205b與205d)，直到覆蓋率的值滿足預定值，並之後產生由第二共同片段組合所產生的序列比較結果(步驟205c)。

在另一實施例中，參見第2c圖，在測定共同片段組合對第一讀出序列或第二讀出序列的一覆蓋率(步驟205b)之後，當覆蓋率的值滿足一預定值時，處理器103以最小位置變動原則(minimum base-shift principle)來調整非共同的區域(步驟205e)，並且自共同片段組合與經調整之非共同的區域來產生序列比較結果(步驟205f)。預定值的值未被限定，且可為80-95%，或較佳為95%。

最小位置變動原則可包括下列程序：

首先，將各個非共同的區域分成更短之序列子集的組合，並移動各個更短之序列子集的組合之該第一讀出序列與該第二讀序列之各個鹼基的對準位置，以使當進行比較時，可使最多數量之第一讀出序列與第二讀出序列之相同的鹼基被對準，其中各個更短之序列子集的組合具有至少一種對準方式。其次，給予各更短之序列子集的組合之各個被相同對準的鹼基一正分數，並給予各更短之序列子集的組合之各個未被相同對準的鹼基一負分數。然後，計算非共同的區域之各個更短之序列子集的組合的總分，並選擇具有最高分數之非共同的區域之更短之序列子集的組合的對準方式。

此外，以最小位置變動原則來調整非共同的區域的情況之一可為，當第一讀出序列與第二讀出序列的非共同的區域長度不同時，進行調整。在另一情況中，在所有情況中執行調整非共同的區域。當以最小位置變動原則來調整非共同的區域時，可從長的序列子集長度(較短於特定長度)到短的序列子集長度(較短於特定長度)來使用序列子集，或者，當以最小位置變動原則來調整非共同的區域時，短的序列子集(較短於特定長度)可用於局部最佳化。

相較而言，當覆蓋率的值未滿足一預定值時，處理器103改變構成第一讀出序列之第一序列子集目錄的第一序列子集的特定長度與構成第二讀出序列之第二序列子集目錄的第二序列子集的特定長度(即，將用於比較中之第一讀出序列之具有特定長度的序列子集目錄改變成第一讀出序列之具有其他特定長度的其他序列子集目錄，並且將用於比較中之第二讀出序列之具有特定長度的序列子集目錄改變成第二讀出序列之具有其他特定長度的其他序列子集目錄)(步驟205d)。接著，處理器103於非共同的區域比較由具有經改變之特定長度之第一序列子集所構成的第一序列子集目錄與由具有經改變之特定長度之第二序列子集所構成的第二序列子集目錄(步驟205a)，以產生第二共同片段與第二非共同的區域，其中第二共同片段與共同片段組合構成一第二共同片段組合。接下來，處理器103測定第二共同片段組合對第一讀出序列或第二讀出序列的一覆蓋率(步驟205b)。然後，當覆蓋率的值滿足預定值時，處理器103以最小位置變動原則來調整非共同區域(步驟205e)，並產生由第二共同片段組合與經調整之非共同的區域所產生的序列比較結果(步驟205f)。

或者，換句話說，當覆蓋率的值未滿足一預定值時，處理器103改變第一讀出序列之第一序列子集目錄與第二讀出序列之第二序列子集目錄(即，根據有條件之順序安排持續執行讀出序列之特定長度序列子集目錄的比較，直到讀出序列之特定長度序列子集目錄的覆蓋率的值滿足預定值)(重複步驟205a、205b與205d)，直到覆蓋率的值滿足預定值，並當覆蓋率的值滿足預定值時，以最小位置變動原則來調整非共同的區域(步驟205e)。處理器103產生由第二共同片段組合與經調整之非共同的區域所產生的序列比較結果(步驟205f)。最後，處理器103根據序列比較結果輸出一最終模板序列(步驟207)。

第一讀出序列與第二讀序列可讀取自一單一的序列。在一實施例中，單一序列為一多段連結之重複序列(concatenate sequence)。多段連結之重複序列可讀取自一圓形的序列，其具有一已知序列部分，例如一引子，及一未知序列部分。多段連結之重複序列可具有引子-DNA重複形態。當第一讀出序列與第二讀出序列為讀取自具有引子-DNA(具有連接引子的DNA片段)重複形態之多段連結之重複序列時，首先，多段連結之重複的引子位置與邊界被定位。接著，DNA之位置與邊界被定位，或者“引子-DNA”形式被定位，或者“引子-DNA-引子”形式被定位。之後，以引子-DNA”或“引子-DNA-引子”的形式獲得第一讀出序列與第二讀出序列。

更特別是，當原始序列為具有引子-DNA(具有連接引子的DNA片段)重複形態之多段連結之重複序列時，可先建立引子之序列子集目錄與序列子集目錄序列，並且之後以具有最長之序列子集的序列子集目錄將引子序列與在多段連結之重複序列中的可能位置進行比較，以定位出引子之確切位置以擷取DNA片段。然後，獲得DNA片段的序列。

在本發明另一態樣中，複數條序列的資料壓縮方法詳述如下：

參見第1圖與第3a圖。第1圖顯示本發明之一序列壓縮裝置之一實施例的簡示圖，而第3a圖顯示由此裝置所執行之資料壓縮方法之一實施例的簡化流程。序列壓縮裝置100可包括一接收單元101與一處理器103。首先，接收單元101獲得來自一相同來源的複數條讀出序列(步驟301)。接著，處理器103選擇複數條讀出序列之一為一初始模板序列(步驟303)。在選擇初始模板序列之後，處理器103設定一比較條件(步驟305)。自複數條讀出序列選擇初始模板序列的方法可包括：(i)選擇在複數條讀出序列中最長的讀出序列為初始模板序列；(ii)選擇具有最接近複數條讀出序列之平均長度之長度的讀出序列為初始模板序列；(iii)選擇在複數條讀出序列中具有最高出現次數之長度的讀出序列為初始模板序列；或(iv)在輸入之序列中隨機選擇讀出序列為初始模板序列。

在選擇初始模板序列之後，處理器103根據比較條件比較初始模板序列與各個其他之讀出序列以分別產生比較結果(步驟307)。上述之複數條序列的比較方法如第4圖所圖解說明。標記S1至標記S9代表不同之讀出序列，其中標記S1被選擇為初始模板序列。

然後，處理器103根據所有分別產生之比較結果來產生一序列比較結果(步驟309)。接著，處理器103根據序列比較結果輸出一最終模板序列(步驟311)。在本發明另一實施例中，最終模板序列可以在比較過程中更新。最終模板序列可以儲存於記憶體105當中。處理器103可以比較最終模板序列和複數條讀出序列之每一者，用以分別產生最終模板序列和複數條讀出序列之每一者的差異值(步驟313)。在最終模板序列於比較過程中更新的一實施例中，處理器103取得最終模板序列的所有版本，和複數條讀出序列之每一者作比較，以分別產生和複數條讀出序列之每一者的差異值，對應於最終模板序列的不同版本。最終模板序列和複數條讀出序列之每一者的差異值可以包括初始位置、長度、結束位置和內容。最後，處理器103根據最終模板序列和複數條讀出序列之每一者的差異值，壓縮複數條讀出序列，以產生一壓縮檔案(步驟315)。壓縮檔案具有一檔案格式，檔案格式包括檔案表頭、最終模版序列，以及位置和內容的比較差異值，比較差異值對應於最終模板序列和複數條讀出序列之每一者的差異值。

處理器可根據初始模板序列之第一序列子集目錄與複數條未被選擇之讀出序列的複數個第二序列子集目錄來設定比較條件。初始模板序列的第一序列子集目錄可包括複數個具有一特定長度的第一序列子集，而複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，又未被選擇之讀出序列的第二序列子集目錄可包括複數個具有一特定長度的第二序列子集，而複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，其中第一序列子集目錄之第一序列子集的特定長度與第二序列子集目錄之第二序列子集的特定長度為相同之特定長度。

序列之序列子集可藉由處理器103來建立。序列子集、序列子集組與序列子集目錄之定義如上述。建立一序列子集目錄的方式也如上所述。

此外，需注意的是，可同時建構出一序列之具有不同序列子集長度(從所需最長之序列子集長度至最短之序列子集長度(2員))的序列子集目錄。或者，可僅建構一個序列之具有特定長度的序列子集目錄，並可在需要時建構出剩餘之具有其他序列子集長度的序列子集目錄。再者，先建構兩序列要被比較之序列子集目錄，並可在需要時建構剩餘的序列子集目錄。

在一實施例中，參見第3b圖，當處理器103根據比較條件比較初始模板序列與各個其他之讀出序列以分別產生比較結果(步驟307)時，在比較初始模板序列與一個未被選擇之讀出序列中，處理器103可比較初始模板序列之第一序列子集目錄與未被選擇之序列的第二序列子集目錄以產生共同片段與非共同的區域作為比較結果(步驟307a)。一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又共同片段越長，則包含於其中之共同的序列子集的數量越多。藉由比較第一序列子集目錄與第二序列子集目錄所產生之所有共同片段形成一共同片段組合。共同的序列子集被定義為，當初始模板序列之一序列子集的內容與未被選擇之讀出序列之一序列子集的內容在一相對應之區域或一區域接近相對應區域為相同時的初始模板序列之此序列子集與未被選擇之讀出序列之此序列子集。在比較第一序列子集目錄與第二序列子集目錄產生共同片段與非共同的區域作為比較結果(步驟307a)之後，處理器103測定共同片段組合對初始模板序列或未被選擇之讀出序列的一覆蓋率(步驟307b)。當覆蓋率的值滿足一預定值時，處理器103根據所有分別產生之比較結果使用共同片段來產生序列比較結果(步驟309)。預定值的值未被限定，且可為80-95%，或較佳為95%。

相較而言，當覆蓋率的值未滿足一預定值時，處理器103改變構成初始模板序列之第一序列子集目錄的第一序列子集的特定長度與構成未被選擇之讀出序列之第二序列子集目錄的第二序列子集的特定長度(即，根據有條件之順序安排持續執行讀出序列之特定長度序列子集的比較，直到讀出序列之特定長度序列子集目錄的覆蓋率的值滿足預定值)(步驟307c)。接著，處理器103於非共同的區域比較由具有經改變之特定長度之第一序列子集所構成的第一序列子集目錄與由具有經改變之特定長度之第二序列子集所構成的第二序列子集目錄(步驟307a)，以產生第二共同片段與第二非共同的區域，其中第二共同片段與共同片段組合構成一第二共同片段組合、且處理器103測定第二共同片段組合對初始模板序列或未被選擇之讀出序列的一覆蓋率(步驟307b)，及當覆蓋率的值滿足預定值時，根據所有分別產生之比較結果使用第二共同片段來產生序列比較結果(步驟309)。

或者，換句話說，當覆蓋率的值未滿足一預定值時，處理器103改變初始模板序列之第一序列子集目錄與未被選擇之讀出序列之第二序列子集目錄(即，根據有條件之順序安排持續執行讀出序列之特定長度序列子集的比較，直到讀出序列之特定長度序列子集目錄的覆蓋率的值滿足預定值)(重複步驟307a、307b與307c)，直到覆蓋率的值滿足預定值，且之後根據所有分別產生之比較結果使用第二共同片段來產生序列比較結果(步驟309)。

根據所有分別產生之比較結果來產生序列比較結果(步驟309)的程序可包括下列所述(參見第3c圖)。

首先，處理器103以在初始模板序列中的適合位置來對齊所有共同片段的所有位置(步驟309a)，所有共同片段獲得自根據所有分別產生之比較結果所產生序列比較結果(步驟307)。之後，處理器103根據所有共同片段來計算對應於各自之初始模板序列鹼基的各鹼基內容的信心分數(步驟309b)。接著，當此鹼基內容的信心分數滿足一特定分數時，處理器103將其設定為一確定位置，且當此鹼基內容的信心分數未滿足一特定分數時，處理器103將其設定為一未確定位置(步驟309c)。

計算各位置之內容的信心分數的圖解說明，如於第5圖中所示。

標記Pi與標記Pj為對應於模板之兩個位置。標記fa-fe為從比較兩條序列所產生的共同片段。標記fa-fe的信心分數分別為a-e。各個位置之信心分數由所表示。標記Pi與標記Pj之內容的信心分數分別由關係式C_pi =(a+b+c+d)與關係式C_pj =(b+c+e)來表示。

然後，處理器103根據在初始模板序列中被設定為確定位置的所有鹼基與被設定為未確定位置的所有鹼基來產生序列比較結果(步驟309d)。接下來，處理器103測定所有確定位置對序列比較結果的一完成率(步驟309e)。最後，當完成率滿足一特定臨界值時，處理器103使用序列比較結果以根據序列比較結果輸出一最終模板序列(步驟311)。特定臨界值的值未被限定，且可為80-95%，或較佳為95%。

相較而言，當完成率未滿足預定值時，處理器103重複步驟303、305與307，其中自沒有初始模板序列之複數條讀出序列選擇一新的初始模板序列，且停止比較初始模板序列，且其中自比較新的初始模板序列與其他讀出序列而產生新的共同片段與新的非共同的區域。之後，處理器103以在序列比較結果中的適合位置來對齊所有新的共同片段的所有位置(步驟309a)、根據對應至未確定位置所在位置之新的共同片段來計算對應至序列比較結果之各個未確定位置之內容的信心分數(步驟309b)。再來，當於序列比較結果中之未確認位置的各鹼基的信心分數滿足一特定分數時，處理器103將其設定為一新的確定位置，而當於未確定位置中之鹼基的信心分數未滿足一特定分數時，處理器103仍將其設定為一未確定位置(步驟309c)，並藉由序列比較結果與新的確認位置產生一新的序列比較結果(步驟309d)。然後，處理器103測定所有確定位置對新的序列比較結果的一完成率。最後，當完成率滿足一特定臨界值時，新的序列比較結果被用來輸出一最終模板序列(步驟311)。最後，處理器103根據新的序列比較結果輸出一最終模板序列。

此外，在又其他實施例中，在輸出最終模板序列(步驟311)之前，處理器103可以最小位置變動原則來調整序列比較結果的未確定位置。最小位置變動原則的程序與條件如同上述。

以上適用於複數條讀出序列的資料壓縮方法係以第3d圖說明。標記P1到Pn代表複數條讀出序列。根據序列比較結果，最終模版序列Pf輸出。處理器103比較最終模版序列Pf和複數條讀出序列P1-Pn，並分別產生最終模版序列Pf和複數條讀出序列P1-Pn的差異值(標記D1-Dn)。接著，處理器103可以藉由儲存最終模版序列Pf和差異值D1-Dn，以壓縮複數條讀出序列。壓縮檔案可以包括最終模版序列Pf和差異值D1-Dn，而不是所有的複數條讀出序列P1-Pn。因此，以上的資料壓縮方法可以節省很多儲存空間。

在又另一態樣中，在本發明之資料壓縮方法中，具有複數條序列之比較的其他方法。參見第6-8圖，其中第6-8圖顯示在本發明之資料壓縮方法中，比較複數條序列的不同方法。

標記S1至標記S12代表不同的讀出序列。標記CR1至標記CR13代表自不同之比較順序所產生之不同的序列比較結果。標記C代表一輸出之最終模板序列。

再者，複數條讀出序列可讀取自一單一的序列。在一實施例中，單一序列為一多段連結之重複序列。多段連結之重複序列可讀取自一圓形的序列，其具有一已知序列部分，例如一引子，與一未知序列部分。多段連結之重複序列可具有引子-DNA重複形態。擷取DNA片段的方法相似於前述者。

本發明雖以較佳實施例揭露如上，然其並非用以限定本發明的範圍，任何熟習此項技藝者，在不脫離本發明之精神和範圍內，當可做些許的更動與潤飾，因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。

100‧‧‧序列校正裝置

101‧‧‧接收單元

103‧‧‧處理器

105‧‧‧記憶體

CR1、CR2、…、CR13‧‧‧序列比較結果

C、Pf‧‧‧最終模板序列

D1、D2、…、Dn‧‧‧差異值

fa、fb、fc、fd、fe‧‧‧共同片段

P1、P2、…、Pn、S1、S2、…、S12‧‧‧讀出序列

Pi、Pj‧‧‧位置

第1圖係顯示根據本發明一實施例所述之序列壓縮裝置的示意圖；第2a-2c圖係顯示根據本發明一實施例所述之資料壓縮方法的流程圖，適用於兩條讀出序列；第3a-3d圖係顯示根據本發明一實施例所述之資料壓縮方法的流程圖，適用於複數條讀出序列；第4圖係顯示根據本發明一實施例所述之比較方法的示意圖，適用於複數條讀出序列；第5圖係顯示根據本發明一實施例所述之計算信心分數的示意圖；第6-8圖係顯示根據本發明一實施例所述之其他比較方法的示意圖。

Claims

一種資料壓縮方法，包括：(a)藉由一接收單元，獲得來自一相同來源的一第一讀出序列與一第二讀出序列；(b)藉由一處理器，根據一比較條件比較該第一讀出序列與該第二讀出序列以產生一序列比較結果；(c)藉由該處理器，根據該序列比較結果輸出一最終模板序列；(d)藉由該處理器，比較該最終模板序列和該第一讀出序列，以及比較該最終模板序列和該第二讀出序列，分別產生該最終模板序列和該第一讀出序列、該第二讀出序列的差異值；以及(e)藉由該處理器，根據該最終模板序列和該第一讀出序列、該第二讀出序列的上述差異值，壓縮該第一讀出序列和該第二讀出序列，以產生一壓縮檔案，其中該比較條件係根據該第一讀出序列之一第一序列子集目錄與該第二讀出序列之一第二序列子集目錄來設定，該第一讀出序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該第二讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。
如申請專利範圍第1項所述之資料壓縮方法，其中該第一讀出序列與該第二讀出序列為來自一單一的序列。
如申請專利範圍第2項所述之資料壓縮方法，其中該單一的序列為一多段連結之重複序列。
如申請專利範圍第3項所述之資料壓縮方法，其中該多段連結之重複序列具有引子-DNA的重複形態。
如申請專利範圍第1項所述之資料壓縮方法，其中該第一序列子集或該第二序列子集的該特定長度為一至少大於2的正整數。
如申請專利範圍第1項所述之資料壓縮方法，其中該第一序列子集或該第二序列子集的該特定長度為一3-9的正整數。
如申請專利範圍第1項所述之資料壓縮方法，其中該步驟(b)包括：比較該第一序列子集目錄與該第二序列子集目錄以產生共同片段與非共同的區域，其中一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又該共同片段越長，則包含於其中之該共同的序列子集的數量越多，且其中藉由比較該第一序列子集目錄與該第二序列子集目錄所產生的所有共同片段形成一共同片段組合；測定該共同片段組合對該第一讀出序列或該第二讀出序列的一覆蓋率；以及當該覆蓋率的值滿足一預定值時，自該共同片段組合產生該序列比較結果。
如申請專利範圍第7項所述之資料壓縮方法，其中當該覆蓋率的值未滿足該預定值時，更包括：改變構成該第一讀出序列之該第一序列子集目錄的該第一序列子集的該特定長度與構成該第二讀出序列之該第二序列子集目錄的該第二序列子集的該特定長度；於該非共同的區域比較由具有該經改變之特定長度之第一序列子集所構成的該第一序列子集目錄與由具有該經改變之特定長度之第二序列子集所構成的該第二序列子集目錄，以產生第二共同片段與第二非共同的區域，其中該第二共同片段與該共同片段組合構成一第二共同片段組合；測定該第二共同片段組合對該第一讀出序列或該第二讀出序列的一覆蓋率；以及當該覆蓋率的值滿足該預定值時，產生由該第二共同片段組合所產生的該序列比較結果。
如申請專利範圍第7項所述之資料壓縮方法，更包括：當該覆蓋率未滿足該預定值時，持續改變該特定長度直到該覆蓋率滿足該預定值。
如申請專利範圍第7項所述之資料壓縮方法，其中，該共同的序列子集被定義為，當該第一讀出序列之一序列子集的內容與該第二讀出序列之一序列子集的內容在一相對應之區域或一區域接近該相對應區域為相同時的該第一讀出序列之該序列子集與該第二讀出序列之該序列子集。
如申請專利範圍第1項所述之資料壓縮方法，其中該步驟(b)包括：比較該第一序列子集目錄與該第二序列子集目錄以產生共同片段與非共同的區域，其中一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又該共同片段越長，則包含於其中之該共同的序列子集的數量越多，且其中藉由比較該第一序列子集目錄與該第二序列子集目錄所產生的所有共同片段形成一共同片段組合；測定該共同片段組合對該第一讀出序列或該第二讀出序列的一覆蓋率；當該覆蓋率的值滿足一預定值時，以最小位置變動原則來調整該非共同的區域；以及自該共同片段組合與經調整之該非共同的區域產生該序列比較結果。
如申請專利範圍第11項所述之資料壓縮方法，其中當該覆蓋率的值未滿足該預定值時，更包括：改變構成該第一讀出序列之該第一序列子集目錄的該第一序列子集的該特定長度與構成該第二讀出序列之該第二序列子集目錄的該第二序列子集的該特定長度；於該非共同的區域比較由具有該經改變之特定長度之第一序列子集所構成的該第一序列子集目錄與由具有該經改變之特定長度之第二序列子集所構成的該第二序列子集目錄，以產生第二共同片段與第二非共同的區域，其中該第二共同片段與該共同片段組合構成一第二共同片段組合；測定該第二共同片段組合對該第一讀出序列或該第二讀出序列的一覆蓋率；當該覆蓋率的值滿足該預定值時，以最小位置變動原則來調整該非共同的區域；以及自該共同片段組合與經調整之該非共同的區域產生該序列比較結果。
如申請專利範圍第11項所述之資料壓縮方法，更包括：當該覆蓋率未滿足該預定值時，持續改變構成該第一讀出序列之該第一序列子集目錄的該第一序列子集的該特定長度與構成該第二讀出序列之該第二序列子集目錄的該第二序列子集的該特定長度直到該覆蓋率滿足該預定值。
如申請專利範圍第11項所述之資料壓縮方法，其中，該共同的序列子集被定義為，當該第一讀出序列之一序列子集的內容與該第二讀出序列之一序列子集的內容在一相對應之區域或一區域接近該相對應區域為相同時的該第一讀出序列之該序列子集與該第二讀出序列之該序列子集。
如申請專利範圍第11項所述之資料壓縮方法，其中該最小位置變動原則包括：將各個非共同的區域分成更短之序列子集的組合，並移動各個更短之序列子集的組合之該第一讀出序列與該第二讀序列之各個鹼基的對準位置，以使當進行比較時，可使最多數量之該第一讀出序列與該第二讀出序列之相同的鹼基被對準，其中各個更短之序列子集的組合具有至少一種對準方式；給予各更短之序列子集的組合之各個被相同對準的鹼基一正分數，並給予各更短之序列子集的組合之各個未被相同對準的鹼基一負分數；以及計算該非共同的區域之各個更短之序列子集的組合的總分，並選擇具有最高分數之該非共同的區域之更短之序列子集的組合的對準方式。
如申請專利範圍第1項所述之資料壓縮方法，其中該步驟(d)的該最終模板序列和該第一讀出序列、該第二讀出序列的上述差異值包括初始位置、長度和內容。
如申請專利範圍第1項所述之資料壓縮方法，其中該步驟(d)的該最終模板序列和該第一讀出序列、該第二讀出序列的上述差異值包括初始位置、結束位置和內容。
如申請專利範圍第1項所述之資料壓縮方法，其中該步驟(e)的該壓縮檔案具有一檔案格式，該檔案格式包括一檔案表頭、該最終模版序列，以及位置和內容的一比較差異值，該比較差異值對應於該最終模板序列和該第一讀出序列、該第二讀出序列的上述差異值。
一種資料壓縮方法，包括：(a)藉由一接收單元，獲得來自一相同來源的複數條讀出序列；(b)藉由一處理器，選擇該複數條讀出序列之一為一初始模板序列；(c)藉由該處理器，根據一比較條件比較該初始模板序列與各個其他之讀出序列以分別產生比較結果；(d)藉由該處理器，根據所有分別產生之比較結果來產生一序列比較結果；(e)藉由該處理器，根據該序列比較結果輸出一最終模板序列；(f)藉由該處理器，比較該最終模板序列和該複數條讀出序列之每一者，分別產生該最終模板序列和該複數條讀出序列之每一者的差異值；以及(g)藉由該處理器，根據該最終模板序列和該複數條讀出序列之每一者的上述差異值，壓縮該複數條讀出序列，以產生一壓縮檔案，其中該比較條件係根據該初始模板序列之一第一序列子集目錄與未被選擇之該複數條讀出序列之複數個第二序列子集目錄來設定，該初始模板序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該未被選擇之讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。
如申請專利範圍第19項所述之資料壓縮方法，其中該複數條讀出序列為來自一單一的序列。
如申請專利範圍第20項所述之資料壓縮方法，其中該單一的序列為一多段連結之重複序列。
如申請專利範圍第21項所述之資料壓縮方法，其中該多段連結之重複序列具有引子-DNA的重複形態。
如申請專利範圍第19項所述之資料壓縮方法，其中該第一序列子集或該第二序列子集的該特定長度為一至少大於2的正整數。
如申請專利範圍第19項所述之資料壓縮方法，其中該第一序列子集或該第二序列子集的該特定長度為一3-9的正整數。
如申請專利範圍第19項所述之資料壓縮方法，其中於該步驟(c)中比較該初始模板序列與一條未被選擇之讀出序列，包括：比較該第一序列子集目錄與該第二序列子集目錄以產生共同片段與非共同的區域為該比較結果，其中一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又該共同片段越長，則包含於其中之該共同的序列子集的數量越多，且其中藉由比較該第一序列子集目錄與該第二序列子集目錄所產生的所有共同片段形成一共同片段組合；測定該共同片段組合對該初始模板序列或該未被選擇之讀出序列的一覆蓋率；以及當該覆蓋率的值滿足一預定值時，於該步驟(d)中使用該共同片段。
如申請專利範圍第25項所述之資料壓縮方法，更包括：當該覆蓋率未滿足該預定值時，持續改變構成該初始模板序列之該第一序列子集目錄的該第一序列子集的該特定長度與構成該未被選之讀出序列之該第二序列子集目錄的該第二序列子集的該特定長度直到該覆蓋率滿足該預定值。
如申請專利範圍第25項所述之資料壓縮方法，其中該步驟(d)，更包括：以於該初始模板序列中的適合位置來對齊獲得自該步驟(c)之所有共同片段的所有位置；根據所有共同片段來計算對應於各自之初始模板序列鹼基的各鹼基內容的信心分數；當對應於各自之初始模板序列鹼基的各鹼基內容的信心分數滿足一特定分數時，設定於該初始模板序列中的該鹼基為一確定位置，且當對應於各自之初始模板序列鹼基的各鹼基內容的信心分數未滿足一特定分數時，設定於該初始模板序列中的該鹼基為一未確定位置；根據於該初始模板序列中所有被設定為確定位置的鹼基與所有被設定為未確定位置的鹼基來產生該序列比較結果；測定所有確定位置對該序列比較結果的一完成率；以及當該完成率滿足一特定臨界值時，於該步驟(f)中使用該序列比較結果。
如申請專利範圍第25項所述之資料壓縮方法，其中當該覆蓋率的值未滿足該預定值時，更包括：重複該步驟(c)，其中自沒有該初始模板序列的該複數條讀出序列選擇一新的初始模板序列，且停止比較該初始模板序列，且其中自比較該新的初始模板序列與該其他讀出序列來產生新的共同片段與新的非共同的區域；以於該序列比較結果中的適合位置來對齊所有新的共同片段的所有位置；根據對應於該未確定位置所在位置之新的共同片段來計算各個未確定位置之內容的信心分數，各個未確定位置對應於該序列比較結果之分別的鹼基；設定於該序列比較結果中之未確認位置的各個鹼基為一新的確定位置，當其信心分數滿足一特定分數時，且仍然設定於該序列比較結果中之未確認位置的各個鹼基為一未確定位置，當其信心分數未滿足一特定分數時；根據該序列比較結果與新的確定位置來產生該一新的序列比較結果；測定所有確定位置對該新的序列比較結果的一完成率；以及當該完成率滿足一特定臨界值時，於該步驟(f)中使用該新的序列比較結果。
如申請專利範圍第27項所述之資料壓縮方法，更包括，在該步驟(e)之前，以最小位置變動原則來調整該序列比較結果之未確認位置。
如申請專利範圍第19項所述之資料壓縮方法，其中該步驟(f)的該最終模板序列和該複數條讀出序列之每一者的上述差異值包括初始位置、長度和內容。
如申請專利範圍第19項所述之資料壓縮方法，其中該步驟(f)的該最終模板序列和該複數條讀出序列之每一者的上述差異值包括初始位置、結束位置和內容。
如申請專利範圍第19項所述之資料壓縮方法，其中該步驟(g)的該壓縮檔案具有一檔案格式，該檔案格式包括一檔案表頭、該最終模版序列，以及位置和內容的一比較差異值，該比較差異值對應於該最終模板序列和該複數條讀出序列之每一者的上述差異值。
一種序列壓縮裝置，包括：一接收單元，其用以獲得來自一相同來源的複數條讀出序列；以及一處理器，其用以執行包括下列之步驟：(a)選擇該複數條讀出序列之一為一初始模板序列； (b)根據一比較條件比較該初始模板序列與各個其他之讀出序列以分別產生比較結果；(c)根據所有分別產生之比較結果來產生一序列比較結果；(d)根據該序列比較結果輸出一最終模板序列，(e)比較該最終模板序列和該複數條讀出序列之每一者，分別產生該最終模板序列和該複數條讀出序列之每一者的差異值；以及(f)根據該最終模板序列和該複數條讀出序列之每一者的上述差異值，壓縮該複數條讀出序列，以產生一壓縮檔案，其中該比較條件係根據該初始模板序列之一第一序列子集目錄與未被選擇之該複數條讀出序列之複數個第二序列子集目錄來設定，該初始模板序列的該第一序列子集目錄包括複數個具有一特定長度的第一序列子集，該複數個第一序列子集構成複數個具有不同序列子集起始位置的第一序列子集組，且該未被選擇之讀出序列的該第二序列子集目錄包括複數個具有一特定長度的第二序列子集，該複數個第二序列子集構成複數個具有不同序列子集起始位置的第二序列子集組，且其中該第一序列子集目錄之該第一序列子集的該特定長度與該第二序列子集目錄之該第二序列子集的該特定長度為相同之特定長度。
如申請專利範圍第33項所述之序列壓縮裝置，其中該步驟(b)包括：比較該第一序列子集目錄與該第二序列子集目錄以產生共同片段與非共同的區域為該比較結果，其中一個共同片段由至少一個共同的序列子集所構成且無間斷的介於兩個非共同的區域之間，又該共同片段越長，則包含於其中之該共同的序列子集的數量越多，且其中藉由比較該第一序列子集目錄與該第二序列子集目錄所產生的所有共同片段形成一共同片段組合；測定該共同片段組合對該初始模板序列或該未被選擇之讀出序列的一覆蓋率；以及當該覆蓋率的值滿足一預定值時，於該步驟(d)中使用該共同片段。