TWI482042B - 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品 - Google Patents

利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品 Download PDF

Info

Publication number
TWI482042B
TWI482042B TW102101502A TW102101502A TWI482042B TW I482042 B TWI482042 B TW I482042B TW 102101502 A TW102101502 A TW 102101502A TW 102101502 A TW102101502 A TW 102101502A TW I482042 B TWI482042 B TW I482042B
Authority
TW
Taiwan
Prior art keywords
sequence
long
segments
module
nucleic acid
Prior art date
Application number
TW102101502A
Other languages
English (en)
Other versions
TW201428524A (zh
Inventor
Jianwei Chen
Yaoting Huang
Yuhan Su
Original Assignee
Univ Nat Chunghsing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Univ Nat Chunghsing filed Critical Univ Nat Chunghsing
Priority to TW102101502A priority Critical patent/TWI482042B/zh
Publication of TW201428524A publication Critical patent/TW201428524A/zh
Application granted granted Critical
Publication of TWI482042B publication Critical patent/TWI482042B/zh

Links

Landscapes

  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Apparatus Associated With Microorganisms And Enzymes (AREA)

Description

利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品
本發明是有關於一種核酸序列重組之系統及其方法,且特別是有關於一種利用複數個長定序片段重組一核酸序列之系統及其方法。
所謂基因體重組(genome assembly),是欲定序之未知基因體在藉由定序技術獲得隨機定序片段(shotgun reads)後,將這些定序片段拼湊合併成較長的序列(即原欲定序之未知基因體),此過程即為基因體重組。以定序技術言之,目前共有三代之定序技術,鏈終止定序法(Sanger sequencing)、次世代定序法(Next-Generation Sequencing;NGS)以及新世代定序法(third generation sequencing)。
其中,新世代定序技術能以高通量(high-throughput)定序任一物種之基因體,提供比前幾代定序技術更長之定序片段,與更低之定序成本,能在短時間內進行各種物種之全基因體定序工作,且其長定序片段能有效改善基因體重組(Genome Assembly)之組裝成果。
然而新世代定序技術之定序正確率往往偏低,平均正確率有時低至約83%左右,且其定序錯誤包含複雜之插入或刪除部分核苷酸序列,造成後續欲將定序片段重組成完整基因體時,無法判讀各片段間之正確排列順序,失去其能進行長片段定序之優勢。
為改善新世代定序技術之定序正確率,在使用其讀取 出的長定序片段前,需先進行校正(correction)的動作。 此校正動作是將次世代定序出的短定序片段對應(mapping)到新世代的長定序片段上,以進行校正。然此校正方法尚存在許多困難,其一,大量耗費時間成本,其二,使用此種混合次世代定序技術及新世代定序技術之方法易遺失諸多關鍵定序資訊。舉例言之,以小球藻為例,原總長度80 Mbp的長定序片段,於校正後僅剩21 Mbp。 即便順利校正完成,將其校正後之數據套用至現有之長定序片段的基因體重組軟體,亦存在某些問題:其一,高時間成本,其二,長定序片段之間的重疊群大小(contig size)具有上限之限制等等。
此外,現有基因體重組軟體技術為求快速,通常假設序列間存在高相似度,因此能採用快速序列比對法,以迅速地偵測出序列間之重疊關係,逐步完成序列重組工作。然而這些技術僅適用於高正確率之第一代或第二代定序技術。相反地,此快速序列比對法若應用於長序列高錯誤率之定序技術(例如新世代定序技術所使用的單分子定序法)所產出之序列,將無法判讀出序列間之重疊關係,而失去使用長序列片段之優勢。
有鑑於此,本發明提出一新穎之跳躍式序列比對法,能夠將單分子定序(新世代定序技術)產出之高錯誤率長片段序列,在進行兩兩序列比對(Pairwise Alignment)以找出序列重疊關係時,能夠跳躍捨棄一區域,專注於尋找 另一區域之共有小片段,並在較不耗費時間成本之前提下,大幅度地提升使用此技術的正確率。
根據本發明方法態樣之一實施方式,一種利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法,其係應用於一電腦系統中,而那些長定序片段儲存於電腦系統中。此利用複數個長定序片段重組一核酸序列之方法包含下面步驟。首先,讀取儲存於此電腦系統的那些長定序片段,並決定一預設跳躍間距及一預設比對長度,其中跳躍間距及預設比對長度係指核苷酸之數量。接著,比對那些長定序片段,若比對出的那些長定序片段之間具有前述預設比對長度之一共有序列,則依據前述的預設跳躍間距朝一預設方向跳躍。之後,重覆此比對與跳躍步驟直到達到那些長定序片段序列其中之一的末端為止;再決定那些長定序片段之那些共有序列是否重疊。若那些共有序列之數量大於一閥值,則判斷那些長定序片段之那些共有序列係重疊,且重疊之那些共有序列具有一重疊長度。最後將具有那些共有序列之那些長定序片段重組成核酸序列。
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法可為任兩那些長定序片段間之兩兩序列比對(pairwise alignment)。
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法,其中那些共有序列係指那些長定序片段之間,具有完全相同核苷酸之序列。
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法,其中預設比對長度、預 設跳躍間距以及重疊長度係根據一錯誤率決定,其中預設比對長度為H,預設跳躍間距為J,重疊長度為L,而錯誤率可滿足下列關係式:
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法,其中閥值不大於重疊長度與那些共有序列之數量的比值。
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法,更可包含將那些長定序片段座標化,並根據座標化之那些長定序片段預設一偏移量容許範圍,使比對那些長定序片段是否具有那些共有片段時,避免因核苷酸插入刪除(insertion deletion;indel)造成比對錯誤。
根據本發明之一實施方式,前述之利用複數個長定序片段重組一核酸序列之方法,其中將那些長定序片段座標化的方式可採用雜湊法(hashing method)。
根據本發明之一實施方式,前述之雜湊法可利用雜湊表(hash table)將那些長定序片段雜湊以建立那些長定序片段之座標。
根據本發明電腦程式產品態樣之一實施方式,一種電腦程式產品,其係用以透過電腦載入執行前述之利用複數個長定序片段重組一核酸序列之方法。此電腦程式產品係儲存於一記錄媒體內。
根據本發明系統態樣之一實施方式,一種電腦系統,其係用以利用複數個長定序片段重組一核酸序列, 此電腦系統包含一記憶模組、一參數決定模組、一序列比對模組、一重疊序列判斷模組以及一重組模組。記憶模組係設於電腦系統內,且記憶模組係用以儲存那些長定序片段。參數決定模組連接記憶模組,且參數決定模組係用以依據預設之一錯誤率決定一預設跳躍間距及一預設比對長度,其中跳躍間距及預設比對長度係核苷酸之數量。序列比對模組係連接記憶模組,且序列比對模組係用以比對那些長定序片段,若那些長定序片段之間具有預設比對長度之一共有序列,則依據預設跳躍間距朝一預設方向跳躍,並重覆此比對與跳躍步驟直到達到那些長定序片段序列其中之一的末端為止。重疊序列判斷模組連接記憶模組,其係用以當比對出的那些共有序列之數量大於一閥值時,判斷那些長定序片段之那些共有序列係重疊,並提供重疊之那些共有序列的一重疊長度。重組模組連接記憶模組,其係用以將那些共有序列重組成核酸序列。
根據本發明之一實施方式,前述之電腦系統,其中那些共有序列係指那些長定序片段之間,具有完全相同核苷酸之序列。
根據本發明之一實施方式,前述之電腦系統,其中預設比對長度為H,預設跳躍間距為J,重疊長度為L,而錯誤率可滿足下列關係式:
根據本發明之一實施方式,前述之電腦系統,其中閥值不大於重疊長度與那些共有序列之數量的比值。
根據本發明之一實施方式,前述之電腦系統,更可包含一座標標定模組以及一偏移容錯模組。座標標定模組連接記憶模組,座標標定模組係用以將那些長定序片段座標化。偏移容錯模組連接記憶模組,偏移容錯模組係用以根據經由座標標定模組座標化之那些長定序片段,預設一偏移量容許範圍,使得序列比對模組於比對那些長定序片段是否具有那些共有片段時,避免因核苷酸插入刪除(insertion deletion;indel)造成之比對錯誤。
根據本發明之一實施方式,前述之電腦系統,其中座標標定模組將那些長定序片段座標化可採用雜湊法(hashing method),而雜湊法可利用雜湊表(hash table)將那些長定序片段雜湊以建立那些長定序片段之座標。
根據本發明之一實施方式,前述之電腦系統的序列比對模組,可應用任兩那些長定序片段間之兩兩序列比對(pairwise alignment)。
茲以下列實施方式並配合圖式以詳細說明本創作於後。
請參照第1圖,其係本發明系統態樣之一實施方式的電腦系統示意圖。本發明之電腦系統100,係用以利用複數個長定序片段重組一核酸序列,而此電腦系統100包含一記憶模組110、一參數決定模組120、一序列比對模組130、一重疊序列判斷模組140、一重組模組150、一座標標定模組160以及一偏移容錯模組170。
記憶模組110設於電腦系統100內,且記憶模組110 係用以儲存那些長定序片段。參數決定模組120、序列比對模組130、重疊序列判斷模組140、重組模組150、座標標定模組160以及偏移容錯模組170皆連接記憶模組110。
請同時參照第2圖,其係本發明方法態樣之一實施方式的流程圖。本發明利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法,係應用於電腦系統100中,而那些長定序片段係儲存於電腦系統100之記憶模組110中。本發明之利用複數個長定序片段重組一核酸序列之方法包含以下步驟:步驟S210,進入電腦系統100之記憶模組110中讀取那些長定序片段。接著進行步驟S220,藉由參數決定模組120決定序列的一預設跳躍間距及一預設比對長度,其中預設跳躍間距及預設比對長度係指核苷酸之數量,例如預設跳躍間距為5,代表每次跳躍、不進行比對之核甘酸數量為5個;倘若預設比對長度為5,則代表每次進行比對之核甘酸數量為5個。
步驟S230,藉由座標標定模組160以利用雜湊法(hashing method)之雜湊表(hash table)將序列及其中之核苷酸予以座標索引化。請參照第3圖,其係本發明利用雜湊表座標化長定序片段之示意圖。座標化長定序片段係將由定序平台產生的那些長定序片段,將之依前述預設比對長度切割成小片段後,依序存儲於雜湊表中。例如第3圖中的長定序片段(序列1及序列2),其依照預設比對長度為4的條件切割為小片段;序列1及序列2的此些小片段依序存儲於雜湊表中。序列1開頭 為CTGACG…,預設比對長度為4,因此切割之小片段存儲於雜湊表中,依序為CTGA、TGAC、GACG…,另一方面,座標標定模組160亦將每一序列中的每一核苷酸各給予一座標,其中核甘酸以ki,j 代表,其中i為序列數目,而j為核苷酸數目,因此序列2當中的第17個核甘酸之座標為k2,17
序列以及核苷酸的座標建構完成後,座標標定模組160建立各長定序片段之間的連結關係,亦即將那些長定序片段之間,相同的核苷酸之座標予以對應連接;舉例言之,以第3圖之長定序片段(序列1及序列2)為例,序列1之第3個核苷酸(k1,3 )與序列2的第1個核苷酸(k2,1 )相同,因此將k1,3 與k2,1 之間予以連結(k1,3 ->k2,1 )。
長定序片段切割後之小片段存儲於雜湊表中,並將那些長定序片段之核苷酸予以座標化以建立彼此間之連結關係後,此步驟即初步完成。此外,雜湊法之概念屬此技術領域之通常知識,故對於雜湊表細部之建構方法以及原理在此不加以贅述。
步驟S240,由於實際上核酸序列往往會產生插入刪除(insertion deletion;indel)之現象而增加兩兩序列之間,序列比對的誤差。因此在此步驟中,必須在利用雜湊表座標化之長定序片段之中,藉由偏移容錯模組170訂定一偏移量容許範圍,以降低序列比對時之錯誤比對率。
接著進行步驟S250,即那些長定序片段的比對步驟。請同時參照第4圖,其係本發明方法態樣一實施方 式之序列比對示意圖。本發明之電腦系統100的序列比對模組130係採用兩兩比對法(pairwise alignment),利用序列比對模組130先比對兩兩序列之間是否存在具有預設比對長度之共有序列。如圖所示,若預設比對長度若設定為5,則藉此設定利用序列比對模組130比對兩兩序列當中是否同時存在5個完全相同的核苷酸。若兩序列當中同時存在5個完全相同的核苷酸,則此5個完全相同的核苷酸之序列區間定義為共有序列。
若核酸序列兩兩比對的結果為任兩序列之間具有前述之共有序列,則進行步驟S260,序列比對模組130依據利用參數決定模組120設定的預設跳躍間距,沿著具有共有序列的兩序列朝一預設方向跳躍(3’端至5’端,或5’端至3’端),以進行跳躍後之序列比對;如第4圖所示,若預設跳躍間距設定為10,代表跳躍過並忽略而不進行序列比對之核苷酸數目為10個,並於跳躍後,再次依據預設比對長度進行此二序列之比對,跳躍後的第一個核苷酸於前述之雜湊表中係滿足(j-1)mod(H+J)=0(j為核苷酸之排序數目、H為預設比對長度、J為預設跳躍間距)。序列比對模組130判斷跳躍後的二序列是否具有另一共有序列,並將其判斷結果記錄於記憶模組110。
更詳細地說,前述跳躍以及序列比對之過程是利用雜湊表中所建構之連結關係而進行。請參照第5圖,其係本發明利用雜湊表進行跳躍比對的示意圖。如圖所示,其中,預設跳躍間距為4,預設比對長度為4,而長定序片段(序列1與序列2)第一個共有序列之第一個 核苷酸的座標各為k1,9 以及k2,7 。序列比對模組130於判斷第一個共有序列時,座標k1,9 ->k2,7 、k1,10 ->k2,8 、k1,11 ->k2,9 、k1,12 ->k2,10 所屬之核苷酸必需兩兩相同,並於確認第一個共有序列之存在後,開始進行跳躍;跳躍後讀取之核苷酸座標(ki,j )係符合ki,j+(H+J)*(N-1) ,其中H為預設比對長度,J為預設跳躍間距而N為第N個共有序列。跳躍過程簡述如下(僅以每一共有序列之第一個核苷酸之跳躍為例): 判斷座標k1,9 ->k2,7 往後跳躍後之核苷酸座標(即第二個欲判斷是否為共有序列的第一個核苷酸座標;k1,9+(4+4)*(2-1), k2,7+(4+4)*(2-1) =k1,17 ,k2,15 ),亦即k1,17 與k2,15 所屬之核苷酸是否相同; 判斷座標k1,17 ->k2,15 往後跳躍後之核苷酸座標(即第三個欲判斷是否為共有序列的第一個核苷酸座標;k1,9+(4+4)*(3-1), k2,7+(4+4)*(3-1) =k1,25 ,k2,23 ),亦即k1,25 與k2,23 所屬之核苷酸是否相同。此時,若那些長定序片段彼此之間因核苷酸插入刪除(insertion deletion;indel),造成偏移而無法在預設比對長度內比對到完全相同相應位置的核甘酸(第6圖),則可利用偏移容錯模組170訂定的偏移量容許範圍,依據那些長定序片段中之核甘酸,被座標標定模組160利用雜湊表座標索引化之座標進行校正。舉例言之,若偏移容錯模組170訂定的偏移量容許範圍為2,而核酸序列其中的少於等於2個核苷酸遭刪除,偏移容錯模組170能夠容許因為此些遭刪除的核苷酸造成的座標偏移(第7圖),使比對那些長定序片段是否具有那些共有片段時,避免因核苷酸插入刪除之效 應(insertion deletion;indel)造成之比對錯誤。
更詳細地說,前述偏移容錯以校正核苷酸座標因插入刪除效應而造成之偏移,亦是利用雜湊表中所建構之連結關係而進行。請參照第8圖,其係本發明利用雜湊法進行偏移容錯的示意圖。如圖所示,其中,預設跳躍間距為4,預設比對長度為4,而長定序片段(序列1與序列2)第一個共有序列之第一個核苷酸的座標各為k1,9 以及k2,7 。序列比對模組130於判斷第一個共有序列時,座標k1,9 ->k2,7 、k1,10 ->k2,8 、k1,11 ->k2,9 、k1,12 ->k2,10 所屬之核苷酸必需兩兩相同,並確認第一個共有序列之存在後,開始進行跳躍。跳躍後讀取之核苷酸座標(ki,j )係符合ki,j+(H+J)*(N-1)±d ,其中H為預設比對長度,J為預設跳躍間距,N為第N個共有序列而d為偏移量容許範圍。跳躍過程簡述如下(僅以每一共有序列之第一個核苷酸之跳躍為例): 判斷座標k1,9 ->k2,7 往後跳躍後之核苷酸座標(即第二個欲判斷是否為共有序列的第一個核苷酸座標;k1,9+(4+4)*(2-1)±2, k2,7+(4+4)*(2-1±2) =k1,15~19 ,k2,13~17 ),亦即k1,15~19 與k2,13~17 所屬之核苷酸是否相同。此時之核苷酸座標不存在座標偏移現象,因此在此是判斷k1,17 與k2,15 所屬之核苷酸是否相同; 判斷座標k1,17 ->k2,15 往後跳躍後之核苷酸座標(即第三個欲判斷是否為共有序列的第一個核苷酸座標;k1,9+(4+4)*(3-1)±2, k2,7+(4+4)*(3-1)±2 =k1,23~27 ,k2,21~25 ),亦即k1,23~27 與k2,21~25 所屬之核苷酸是否相同。此時之核苷酸座標,其中長定序片段(序列1)不存在座標偏移現象, 而長定序片段(序列2)因一核苷酸遭刪除而存在偏移之現象,因此判斷k1,25 與k2,21~25 所屬之核苷酸是否相同,藉此排除因核酸序列當中的插入刪除等等現象而造成比對之錯誤。
接著重複步驟S250至S260,直至比對到兩序列其中之一的末端為止,亦即兩序列比對完成。
步驟S270,比對完成後,重疊序列判斷模組140統計前述紀錄於記憶模組110內的共有序列數量,若那些共有序列之數量大於一閥值,則重疊序列判斷模組140判斷那些長定序片段之那些共有序列是重疊之序列,且重疊之那些共有序列具有一重疊長度。
此外,前述步驟S240,其中藉由參數決定模組120決定預設跳躍間距及預設比對長度,預設比對長度(H)、預設跳躍間距(J)以及共有序列的重疊長度(L)是符合序列比對的一錯誤率之關係式,而此錯誤率之關係式為:
步驟S280,利用重組模組150將前述儲存於記憶模組110中的彼此重疊的那些共有序列之長定序片段疊合,以重組成核酸序列。
前述之利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法可經由電腦可閱讀之編碼加以具體化,將其儲存在電腦可閱讀之記錄媒體中。此電腦可閱讀之記錄媒體可以是任何一種能夠儲存電腦可閱讀之資料的產品。電腦可閱讀之記錄媒體 可以是例如儲存媒體,(例如唯讀記憶體、軟碟、硬碟、隨身碟以及固態硬碟(SSD)等等),或是光學可閱讀之媒體(例如光學唯讀記憶體,數位影音光碟等等)。並且,電腦可閱讀之記錄媒體可以散佈於透過網路連結的電腦系統,而且可以分布之模式儲存以及執行電腦可閱讀之編碼。
由上述本發明實施方式可知,應用本發明具有下列優點。
本發明提出一新穎之利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法,在進行兩兩序列比對(Pairwise Alignment)以找出序列重疊關係時,能跳躍捨棄一區域,專注於尋找另一區域之共有序列。此方法主要特色為:1.省略在高錯誤率區間進行較無意義之序列比對工作,以達成加速效果;以及2.在整條長定序片段的序列中進行小距離跳躍,以尋找出兩兩序列當中全部的共有序列,並同步檢查這些共有序列之間距是否在合理偏移量容許範圍內,以判讀出兩序列是否重疊,適合高錯誤率之定序環境。
由下列表一可知,利用本發明之方法重組核酸序列,其預設比對長度固定之情況下,預設跳躍間距之增加,對於最終序列重組的正確率不造成影響,又因跳躍間距內的核苷酸是跳過而不被讀取的,因此大幅度地縮短序列比對的時間以及用以降低比對序列的系統平台之負擔。
由下列表二可知,利用本發明之方法重組核酸序列,其預設跳躍間距固定之情況下,預設比對長度在不過短的前提下,對於最終序列重組的正確率亦不致影響。
本發明之利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法,使用跳躍式序列比對(Jumping Alignment)之技術概念以避開高錯誤率定序區域,專注於比對低錯誤率之區域。此方法能將新世代定序技術產出之高錯誤率長序列,與前幾代定序技術產出之低錯誤率序列同步進行基因體重組工作。此跳躍式 序列比對法有別於傳統動態規劃法(dynamic programming),除能有較高之執行效率,並能應付各種複雜之定序錯誤,包含各種長度之插入與刪除錯誤,藉由參數調整,將能適應於多種定序錯誤環境中。此外,藉由判讀長定序片段是否重疊(是否具有共有序列),更能區別重複序列(repeat sequence),與非重複序列(unique sequence),以重組出正確之基因體。
傳統基因體重組軟體採用之序列比對法,通常需使用動態規畫法(Dynamic Programming),來容忍各種定序錯誤。本發明所提出之跳躍式比對法,先找出兩序列間一共有序列及其在兩序列中之座標,開始往一預設方向跳躍至下一序列之片段,以判斷此片段是否亦為共有序列,重複此跳躍步驟直到兩序列重疊區域結束為止。此方法能判斷出兩序列重疊之關鍵為,若兩序列確實為重疊片段,將能發現許多兩序列共有序列,而且全部共有序列之間距應極為相近,此間距亦能在跳躍過程輕易進行同步檢查。
本發明之容錯機制有二:(1)由於有各種定序錯誤,每一次跳躍並無法保證皆能找到共有序列(簡稱為失敗跳躍)。然而只要繼續往後跳躍尋找其他共有序列,可在所有跳躍嘗試結束後,觀察是否有足夠數量之共有序列,即其數量是否超過預設的閥值,來判斷是否重疊。或者在過程中統計失敗跳躍次數,若有過多之失敗跳躍隨即放棄;以及(2)由於核苷酸通常具有插入刪除錯誤的效應,會造成兩序列共有片段之座標偏移,且此偏移量與插入刪除之 長度成正比。由於每一定序平台之插入刪除長度通常已知,因此若偏移量遠大於預期之錯誤長度,可將此共有序列視為雜訊(即判斷為共有序列,亦即前述的失敗跳躍)。相反地,若偏移量在插入刪除預期長度內,可將其視為兩序列真實共有序列。因此藉由判斷座標偏移量大小,即可判斷此片段係為共有序列或非共有序列。
茲以下列比較表(表三)評估本發明之利用來自於新世代定序平台(third generation sequencing)的複數個長定序片段重組核酸序列之方法(以下以JUMPER表示),與習知利用來自於次世代定序平台(NGS)的複數個短定序片段重組核酸序列之方法(SOAPdenovo)的比較。次世代定序平台之短定序片段及新世代定序平台(third generation sequencing)的長定序片段,係利用模擬軟體dwgsim 所產生。
請參照下列表三,其係利用本發明之利用複數個長定序片段重組核酸序列之方法(JUMPER),與習知利用複數個短定序片段重組核酸序列之方法(SOAPdenovo;表三當中簡稱SOAP)比較的結果。
如表三所示,利用本發明之利用複數個長定序片段重組核酸序列之方法(JUMPER),其使用更少的定序片段之數量,達到較習知利用複數個短定序片段重組核酸序列之方法(SOAPdenovo)更高的用以判斷重組核酸序列品質標準的N50值,以及更長的能夠重組之核酸序列長度。
雖然本發明已以實施方式揭露如上,然其並非用以限定本發明,任何熟習此技藝者,在不脫離本發明之精神和範圍內,當可作各種之更動與潤飾,因此本發明之保護範圍當視後附之申請專利範圍所界定者為準。
100‧‧‧電腦系統
110‧‧‧記憶模組
120‧‧‧參數決定模組
130‧‧‧序列比對模組
140‧‧‧重疊序列判斷模組
150‧‧‧重組模組
160‧‧‧座標標定模組
170‧‧‧偏移容錯模組
S210‧‧‧步驟
S220‧‧‧步驟
S230‧‧‧步驟
S240‧‧‧步驟
S250‧‧‧步驟
S260‧‧‧步驟
S270‧‧‧步驟
S280‧‧‧步驟
為讓本發明之上述和其他目的、特徵、優點與實施例能更明顯易懂,所附圖式之說明如下:第1圖係本發明系統態樣之一實施方式的電腦系統示意圖;第2圖係本發明方法態樣之一實施方式的流程圖;第3圖係本發明方法態樣一實施方式利用雜湊表座標化長定序片段之示意圖。
第4圖係本發明方法態樣一實施方式之序列比對示意圖;第5圖係本發明方法態樣一實施方式利用雜湊表進行跳躍比對的示意圖。
第6圖係核酸序列插入刪除(indel)效應示意圖;第7圖係本發明方法態樣之一實施方式之偏移量容許範圍示意圖。
第8圖係本發明方法態樣之一實施方式利用雜湊法進行偏移容錯的示意圖。
S210‧‧‧步驟
S220‧‧‧步驟
S230‧‧‧步驟
S240‧‧‧步驟
S250‧‧‧步驟
S260‧‧‧步驟
S270‧‧‧步驟
S280‧‧‧步驟

Claims (18)

  1. 一種利用複數個長定序片段(long reads)重組一核酸序列(nucleic acid assembly)之方法,其係應用於一電腦系統中,而該些長定序片段儲存於該電腦系統中,該方法包含下列步驟:讀取儲存於該電腦系統之該些長定序片段;根據一錯誤率決定一預設跳躍間距為J及一預設比對長度為H,其中該跳躍間距及該預設比對長度係核苷酸之數量;比對該些長定序片段,若該些長定序片段之間具有該預設比對長度之一共有序列,則依據該預設跳躍間距朝一預設方向跳躍,並重覆此比對與跳躍步驟直到達到該些長定序片段序列其中之一的末端為止;若比對出的該些共有序列之數量大於一閥值,則判斷該些長定序片段之該些共有序列係重疊,其中重疊之該些共有序列具有一重疊長度為L,且該重疊長度係根據該錯誤率決定;該錯誤率係滿足下列關係式:;以及將具有該些共有序列之該些長定序片段重組成該核酸序列。
  2. 如請求項1之利用複數個長定序片段重組一核酸序列之方法,其中該些共有序列係指該些長定序片段之間,具有完全相同核苷酸之序列。
  3. 如請求項1之利用複數個長定序片段重組一核酸序列之方法,其中該比對步驟係為任兩該些長定序片段間之兩兩序列比對(pairwise alignment)。
  4. 如請求項1之利用複數個長定序片段重組一核酸序列之方法,其中該閥值不大於該重疊長度與該些共有序列之數量的比值。
  5. 如請求項1之利用複數個長定序片段重組一核酸序列之方法,其中該閥值小於該重疊長度與該些共有序列之數量的比值。
  6. 如請求項1之利用複數個長定序片段重組一核酸序列之方法,更包含下列步驟:將該些長定序片段座標化;以及根據座標化之該些長定序片段預設一偏移量容許範圍,使比對該些長定序片段是否具有該些共有片段時,避免因核苷酸插入刪除(insertion deletion;indel)造成之比對錯誤。
  7. 如請求項6之利用複數個長定序片段重組一核酸序列之方法,其中係採用雜湊法(hashing method)將該些長定序片段座標化。
  8. 如請求項7之利用複數個長定序片段重組一核酸 序列之方法,其中該雜湊法係利用雜湊表(hash table)將該些長定序片段雜湊以建立該些長定序片段之座標。
  9. 一種電腦程式產品,其係用以透過電腦載入執行如請求項1之利用複數個長定序片段重組一核酸序列之方法。
  10. 如請求項9之電腦程式產品,前述電腦程式產品係儲存於一記錄媒體內。
  11. 一種電腦系統,其係用以利用複數個長定序片段重組一核酸序列,該電腦系統包含:一記憶模組,其設於該電腦系統內,且該記憶模組係用以儲存該些長定序片段;一參數決定模組,其連接該記憶模組,且該參數決定模組係用以依據預設之一錯誤率決定一預設跳躍間距為J及一預設比對長度為H,其中該跳躍間距及該預設比對長度係核苷酸之數量;一序列比對模組,其連接該記憶模組,且該序列比對模組係用以比對該些長定序片段,若該些長定序片段之間具有該預設比對長度之一共有序列,則依據該預設跳躍間距朝一預設方向跳躍,並重覆此比對與跳躍步驟直到達到該些長定序片段序列其中之一的末端為止;一重疊序列判斷模組,其連接該記憶模組,其係用以當該些共有序列之數量大於一閥值,判斷該序列 比對模組比對出的該些長定序片段之該些共有序列係重疊,並提供重疊之該些共有序列的一重疊長度為L,該重疊長度係根據該錯誤率決定,且該錯誤率係滿足下列關係式:;以及一重組模組,其連接該記憶模組,其係用以將具有該些共有序列之該些長定序片段重組成該核酸序列。
  12. 如請求項11之電腦系統,其中該些共有序列係指該些長定序片段之間,具有完全相同核苷酸之序列。
  13. 如請求項11之電腦系統,其中該閥值不大於該重疊長度與該些共有序列之數量的比值。
  14. 如請求項11之電腦系統,其中該閥值小於該重疊長度與該些共有序列之數量的比值。
  15. 如請求項11之電腦系統,更包含:一座標標定模組,其連接該記憶模組,該座標標定模組係用以將該些長定序片段座標化;以及一偏移容錯模組,其連接該記憶模組,該偏移容錯模組係用以根據經由該座標標定模組座標化之該些長定序片段,預設一偏移量容許範圍,使得該序列比對模組於比對該些長定序片段是否具有該些共有片段時,避免 因核苷酸插入刪除(insertion deletion;indel)造成之比對錯誤。
  16. 如請求項15之電腦系統,其中該座標標定模組將該些長定序片段座標化係採用雜湊法(hashing method)。
  17. 如請求項16之電腦系統,其中該雜湊法係利用雜湊表(hash table)將該些長定序片段雜湊以建立該些長定序片段之座標。
  18. 如請求項11之電腦系統,其中該序列比對模組係應用任兩該些長定序片段間之兩兩序列比對(pairwise alignment)。
TW102101502A 2013-01-15 2013-01-15 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品 TWI482042B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
TW102101502A TWI482042B (zh) 2013-01-15 2013-01-15 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
TW102101502A TWI482042B (zh) 2013-01-15 2013-01-15 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品

Publications (2)

Publication Number Publication Date
TW201428524A TW201428524A (zh) 2014-07-16
TWI482042B true TWI482042B (zh) 2015-04-21

Family

ID=51726095

Family Applications (1)

Application Number Title Priority Date Filing Date
TW102101502A TWI482042B (zh) 2013-01-15 2013-01-15 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品

Country Status (1)

Country Link
TW (1) TWI482042B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108699601A (zh) * 2016-02-11 2018-10-23 斯坦福大学托管董事会 第三代测序比对算法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200924797A (en) * 2007-10-29 2009-06-16 Mello Biotech Taiwan Co Ltd Novel cosmetic designs and products using intronic RNA
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW200924797A (en) * 2007-10-29 2009-06-16 Mello Biotech Taiwan Co Ltd Novel cosmetic designs and products using intronic RNA
US20110257889A1 (en) * 2010-02-24 2011-10-20 Pacific Biosciences Of California, Inc. Sequence assembly and consensus sequence determination
US20110270533A1 (en) * 2010-04-30 2011-11-03 Life Technologies Corporation Systems and methods for analyzing nucleic acid sequences

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108699601A (zh) * 2016-02-11 2018-10-23 斯坦福大学托管董事会 第三代测序比对算法

Also Published As

Publication number Publication date
TW201428524A (zh) 2014-07-16

Similar Documents

Publication Publication Date Title
Allam et al. Karect: accurate correction of substitution, insertion and deletion errors for next-generation sequencing data
US9817711B2 (en) Memory controller
US20160171153A1 (en) Bioinformatics Systems, Apparatuses, And Methods Executed On An Integrated Circuit Processing Platform
JP2004282737A (ja) 記憶媒体から検索されたデータを検証する方法およびシステム、ならびにコンピュータ可読記憶媒体
JP2004281037A (ja) 記憶媒体に記憶されたデータを訂正する方法およびシステム、ならびにコンピュータ可読記憶媒体
CN110692101B (zh) 用于比对靶向的核酸测序数据的方法
TWI436211B (zh) 區塊管理方法、記憶體控制器與記憶體儲存裝置
CN103258145B (zh) 一种基于De Bruijn图的并行基因拼接方法
WO2019047480A1 (zh) 程序更新方法、计算机可读存储介质、终端设备及装置
Roberts et al. A preprocessor for shotgun assembly of large genomes
US9754682B2 (en) Implementing enhanced performance with read before write to phase change memory
CN112397148B (zh) 序列比对方法、序列校正方法及其装置
He et al. De novo assembly methods for next generation sequencing data
TWI482042B (zh) 利用長定序片段重組核酸序列之方法及其電腦系統與電腦程式產品
JP2013223240A5 (zh)
US20220038118A1 (en) Decoding Method and Device for Turbo product codes, decoder and computer storage medium
WO2024108930A1 (zh) 数据恢复方法及相关设备
CN104866241A (zh) 一种用于raid6的数据恢复方法
US20160246670A1 (en) Error correction for non-volatile memory
US9262264B2 (en) Error correction code seeding
Heo et al. Comprehensive evaluation of error-correction methodologies for genome sequencing data
JP2015069215A (ja) 情報処理装置,情報処理システム,制御プログラム及び制御方法
WO2019023978A1 (zh) 比对方法、装置及系统
Savel et al. Suffix-tree based error correction of NGS reads using multiple manifestations of an error
Shen et al. HRGF-GapCloser: A gap filling method base on HiFi read and read clustering

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees