TW201920682A

TW201920682A - 多型之檢測方法

Info

Publication number: TW201920682A
Application number: TW107125394A
Authority: TW
Inventors: 宮尾安藝雄
Original assignee: 國立研究開發法人農業食品產業技術總合研究機構
Priority date: 2017-07-24
Filing date: 2018-07-23
Publication date: 2019-06-01
Also published as: JP7166638B2; WO2019022018A1; JPWO2019022018A1

Abstract

本發明提供一種檢測2個以上之序列之間之多型之方法。本發明之方法能夠在不考慮序列資料中之各個序列於全長序列中之位置下檢測複數個序列資料間之多型。本發明之方法之一特徵在於無須將序列資料中之各個序列(例如由次世代定序儀獲得之短序列)連結成更長序列(例如組裝)，即可檢測多型。

Description

多型之檢測方法

本發明係關於序列資訊、尤其是基因組等生物體分子之序列資訊之資訊處理之領域。

隨著次世代定序儀之出現而能夠獲得生物之全基因組序列資訊。由次世代定序儀之序列資訊獲得多型資訊，分析與表現型之關聯，藉此特定出成為該表現型之原因之基因。正確之多型資訊之獲取係作物育種、以及人類遺傳疾病之診斷、生物種/品種等之特定等廣泛領域中必備之基礎技術，若能夠以前所未有之精度獲得多型資訊，則其影響較大。

於使用由次世代定序儀所獲得之鹼基序列資料進行多型檢測時，通常首先對序列資料使用bwa或bowtie之類之匹配程式以獲得參考序列上之位置資訊與錯配之資訊，繼而使用Samtools或GATK等多型提取程式提取SNP(single nucleotide polymorphism，單核苷酸多型)或indel(insertion-deletion，插入-缺失)等多型資訊。 [發明所欲解決的問題]

於該等方法中，為了儘可能輸出存在多型可能性之部分，會包含大量雜訊，僅憑該等技術難以實現正確之多型解析。現狀為併用微陣列或DNA晶片等其他技術。

[解決問題之技術手段]

於本發明中，提供一種檢測2個以上之序列之間之多型之方法。本發明之方法能夠不考慮序列資料中之各個序列於全長序列中之位置地檢測複數個序列資料間之多型。本發明之方法之一特徵在於無須將序列資料中之各個序列(例如由次世代定序儀獲得之短序列(short read))連結成更長序列(例如組裝)，即可檢測多型。

例如本發明提供以下之項目。 (項目1)一種在對象序列資料中檢測相對於對照序列資料之多型之方法，其包括： a)提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟； b)提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；及 c)將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟；此處，k為該對象序列及該對照序列之任一較短者之全長以下之整數。 (項目2)如上述項目記載之方法，其進而包括針對上述部分序列中之長度k－x之序列部分共通之每個序列，算出長度x之部分之出現頻度之分佈之步驟，此處，x為未達k之正整數。 (項目3)如上述項目中之任一項記載之方法，其中上述比較包括上述部分序列中之長度k－x之序列部分共通之序列中之長度x之部分之出現頻度之分佈之差異之比較。 (項目4)如上述項目中之任一項記載之方法，其包括將上述部分序列中之長度k－x之序列部分按每個單一(unique)序列進行分組之步驟，此處，x為未達k之正整數。 (項目5)如上述項目中之任一項記載之方法，其包括將上述長度k－x之序列部分進行排序之步驟。 (項目6)如上述項目中之任一項記載之方法，其包括將上述長度k－x之序列部分按字串排序之步驟。 (項目7)如上述項目中之任一項記載之方法，其中上述k為排除上述對象序列中之偶然相同之長度。 (項目8)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，上述k為排除上述生物之基因組中不同部位之偶然相同之長度。 (項目9)如上述項目中之任一項記載之方法，其中長度x為1～2。 (項目10)如上述項目中之任一項記載之方法，其中長度x為1。 (項目11)如上述項目中之任一項記載之方法，其中上述長度x之部分存在於上述部分序列之末端。 (項目12)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，上述長度x之部分為上述部分序列之3'末端。 (項目13)如上述項目中之任一項記載之方法，其中於在上述對照序列資料之子集與上述對象序列資料之子集之間，上述長度x之部分之序列之出現頻度不同之情形時，將該長度x之部分之序列作為對象序列資料中之相對於對照序列資料之多型進行檢測。 (項目14)如上述項目中之任一項記載之方法，其中於在上述對照序列資料之子集與上述對象序列資料之子集之間，存在上述長度x之部分之序列中最高頻度者不同的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之多型進行檢測。 (項目15)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在上述對象序列資料之子集中之上述長度x之部分之序列中，僅以雜訊以下之計數存在與上述對照序列資料之子集中之最高頻度者相同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之同型多型進行檢測。 (項目16)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，於對象子集中之上述長度x之部分之序列中存在與對照序列資料之子集中之最高頻度者相同之長度x之部分之序列、且存在與對照序列資料之子集中之最高頻度者不同之長度x之部分之序列的長度k－x之序列部分存在之情形時，將該長度x之部分之序列作為對象序列資料中之異型多型進行檢測。 (項目17)如上述項目中之任一項記載之方法，其中將與根據對象序列資料量預測之出現頻度相比，上述出現頻度較小之部分序列設為雜訊。 (項目18)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，將出現頻度未達[(對象序列資料量)×(1－精度)]/(對象基因組大小)＋1之部分序列設為雜訊。 (項目19)如上述項目中之任一項記載之方法，其中上述對象序列資料為藉由次世代定序獲得之鹼基序列資料。 (項目20)如上述項目中之任一項記載之方法，其中上述對象序列資料為由個體獲得之序列資料，上述對照序列資料為由與該個體同種之其他個體、或資料庫獲得之序列資料。 (項目21)如上述項目中之任一項記載之方法，其中上述對象序列資料為由個體之組織試樣獲得之序列資料，上述對照序列資料為由該個體之其他組織、或資料庫獲得之序列資料。 (項目22)如上述項目中之任一項記載之方法，其中上述對象序列資料為由細胞試樣獲得之序列資料，上述對照序列資料為由其他細胞、或資料庫獲得之序列資料。 (項目23)如上述項目中之任一項記載之方法，其中上述多型為取代、插入、缺失、拷貝數多型(Copy Number Variation，CNV)、短串聯重複序列多型(short tandem repeat polymorphism，STRP)、倒位或易位。 (項目24)如上述項目中之任一項記載之方法，其中上述多型為取代。 (項目25)如上述項目中之任一項記載之方法，其進而包括特定出相對上述對象序列之參考序列中之上述多型之位置之步驟。 (項目26)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，該方法進而包括特定出上述多型於基因組上之位置之步驟。 (項目27)如上述項目中之任一項記載之方法，其進而包括使用由參考序列或對照序列製作之查詢序列集，就檢測出之多型之部位與對象序列資料及/或對照序列資料進行比較而確認之步驟。 (項目28)如上述項目中之任一項記載之方法，其中上述查詢序列集包含將參考序列或對照序列中符合於上述多型之部位之字元取代為不同字元之變異型查詢序列集。 (項目29)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，該方法進而包括對於對象序列資料及/或對照序列資料之互補鏈之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。 (項目30)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，該方法進而包括對於對象序列資料及/或對照序列資料之具有變異型鹼基之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。 (項目31)如上述項目中之任一項記載之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，上述基因組之序列不明。 (項目32)如上述項目中之任一項記載之方法，其進而包括由實驗結果或資料庫獲取對象序列資料或對照序列資料之步驟。 (項目X1)如上述項目中之任一項記載之方法，其進而包括分配對象序列資料中之包含相對於對照序列資料之多型之部分序列中之含有非多型部分之至少一部分的序列作為該多型之標識符。 (項目X2)如上述項目中之任一項記載之方法，其包括將上述多型之標識符匹配至參考序列，特定出參考上之該多型之位置。 (項目33)一種程式，其係用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。 (項目33A)如上述項目記載之程式，其具有上述項目中之任一項或複數項中記載之特徵。 (項目34)如上述項目中之任一項記載之程式，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。 (項目35)一種記錄媒體，其係存儲用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法之程式者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。 (項目35A)如上述項目記載之記錄媒體，其具有上述項目中之任一項或複數項中記載之特徵。 (項目36)如上述項目中之任一項記載之記錄媒體，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。 (項目37)一種系統，其係用於在對象序列資料中檢測相對於對照序列資料之多型者，該系統具備：序列資料處理部，其構成為提供該對象序列資料及該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度，此處，k為對象序列及對照序列之全長以下之長度；及序列資料計算部，其構成為進行比較對象序列與對照序列，基於該出現頻度之分佈之差異而檢測多型之步驟。 (項目37A)如上述項目記載之系統，其具有上述項目中之任一項或複數項中記載之特徵。 (項目38)如上述項目中之任一項記載之系統，其中上述系統進而具備顯示機構，該顯示機構將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱。 (項目39)一種在對象序列資料中檢測相對於對照序列資料之多型之方法，其包括： (1)藉由 a)提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟； b)提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；及 c)將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟；而檢測對象序列資料中之取代、拷貝數多型、STRP、插入、缺失、倒位或易位的程序；以及 (2)藉由 a)特定出該對象序列資料之序列中之至少2處部分序列於該對照序列上之位置之步驟； b)將對象序列資料中之該部分序列間之位置關係與對照序列上之該部分序列間之位置關係進行比較之步驟；及 c)於對象序列資料中之該部分序列間之位置關係與對照序列上之該部分序列間之位置關係不同之情形時判定存在目標之多型，將該對象序列資料中之該部分序列部位間之字元與對應之對照序列上之字元以該部分序列部位作為起點依序進行比較而檢測不一致部位之步驟；而檢測對象序列資料中之插入、缺失、倒位、易位或取代的程序。 (項目39A)如上述項目記載之方法，其具有上述項目中之任一項或複數項中記載之特徵。 (項目40)一種在對象序列資料中檢測相對於參考序列資料之多型之方法，其特徵在於包括由參考序列資料製作與各位置資訊建立關聯之參考序列之k長之部分序列集之步驟，進而同時、平行或依序地進行包括步驟(A1)、(A2)及(A3)之程序與包括步驟(B1)、(B2)及(B3)且視需要進而包括步驟(B4)之程序， (A1)生成該對象序列資料之長度k之部分序列之子集，提供單一之長度k之部分序列之出現頻度； (A2)提供該參考序列之k長之部分序列集中之單一之長度k之部分序列之出現頻度； (A3)將該對象序列與該參考序列進行比較，基於該出現頻度之分佈之比較而檢測插入、缺失、取代、拷貝數多型、STRP、倒位或易位； (B1)將該對象序列資料之序列中之至少2處k長之部分序列設為查詢對象，於該參考序列之k長之部分序列集中進行檢索，特定出該至少2處部分序列於參考序列上之位置； (B2)將該對象序列資料中之該部分序列間之位置關係與該參考序列上之該部分序列間之位置關係進行比較； (B3)於該對象序列資料中之該部分序列間之位置關係與該參考序列上之該部分序列間之位置關係不同之情形時判定存在插入、缺失、倒位或易位，將該對象序列資料中之該部分序列部位間之字元與對應之對照序列上之字元以該部分序列部位作為起點依序進行比較而檢測不一致部位； (B4)於該位置關係無不同之情形時，進而包括將該對象序列資料中之該部分序列部位間之字元與對應之上述對照序列上之字元進行比較而檢測不一致部位之步驟，於存在不一致部位之情形時判定存在取代。 (項目40A)如上述項目記載之方法，其具有上述項目中之任一項或複數項中記載之特徵。 (項目A1)一種對象序列資料與對照序列資料之比較方法，其包括：分配對象序列資料中之包含相對於對照序列資料之多型之部分序列中之含有非多型部分之至少一部分的序列作為該多型之標識符。 (項目A1A)如上述項目記載之方法，其具有上述項目中之任一項或複數項中記載之特徵。 (項目A2)如上述項目中之任一項記載之方法，其包括將上述多型之標識符匹配至參考序列，特定出參考上之該多型之位置。

於本發明中，上述一個或複數個特徵除了已揭示之組合以外，亦可進一步組合而提供。業者視需要藉由閱讀理解以下之詳細說明而可瞭解本發明之其他實施形態及優點。 [發明之效果]

根據本發明，無需考慮全長序列中之位置，即可於2個以上之序列之間正確地檢測多型、尤其是取代。關於使用k長序列之取代變異之檢測，一大特徵為可於進行基因組匹配之前進行多型檢測。進而，即便對於不存在參考序列之生物亦能夠進行多型檢測，能夠使用k-mer本身作為多型之名稱，因此有望為連鎖解析等遺傳解析帶來重大變革。

以下，揭示最佳形態說明本發明。於本說明書全文範圍內，只要無特別說明，則應將單數形之表現理解為亦包含其複數形之概念在內。因此，單數形之冠詞(例如英語之情況下有「a」、「an」、「the」等)只要無特別說明則應理解為亦包含其複數形之概念。又，本說明書中所使用之用語只要無特別說明則應理解為以該領域中通常採用之含義使用。因此，只要未另作定義，則本說明書中使用之所有專業術語及科學技術用語具有與本發明所屬領域之業者之一般理解相同之含義。於產生矛盾之情形時，以本說明書(包括定義)優先。

(定義) 以下適當對本說明書中特別使用之用語之定義及/或基本之技術內容進行說明。

於本說明書中，所謂「序列」係指各自取某值之複數個變數，進而包含該等複數個變數之順序資訊。代表性地以字串表示。

於本說明書中，所謂「對象序列」係指欲檢測多型之任意序列，於本說明書中，有時亦表述為「標的」、「標的序列」、「target」。

於本說明書中，所謂「對照序列」係指作為用以將與該序列之差異作為多型進行檢測之基準而使用的任意序列，於本說明書中，有時亦表述為「對照」、「參照序列」、「比較序列」、「control」。

於本說明書中，所謂「多型(polymorphism)」係指對象序列中與對照序列不同之任意部分。於本說明書中，「變異」亦可以相同之含義使用。

於本說明書中，所謂「參考(reference)序列」係指可作為對象序列及/或對照序列之全長序列對待之序列。採用何種序列作為全長序列根據用作對象序列及/或對照序列之序列而適當決定，並不限定於例示者，例如可採用網路上之資料庫等中存在之全基因組序列、染色體全長序列、基因全長序列、質體全長序列、外顯子全長序列、蛋白質全長序列等作為參考序列。

於本說明書中，所謂「序列資料」係指提供關於某序列之相關資訊之資料。代表性而言，序列其本身亦可稱為序列資料，又，提供關於序列之一部分之資訊之資料(例如藉由對基因組序列進行定序所獲得之解析資料)亦包含於序列資料中。

於本說明書中，所謂某序列之「部分序列」係指該序列所包含之任意序列。

於本說明書中，所謂「子集」係指將序列之集合與該等序列之部分序列之集合進行合併之集合之任意之部分集合。

於本說明書中，所謂「次世代定序」係指將定序程序並列化，一次運行中生成數千萬至數億之序列資料之定序技法。所謂「次世代定序儀」係指用於進行次世代定序之機器。

所謂「排除偶然相同」係指將出現與某序列偶然相同之序列之期望值設為未達1。

於本說明書中，所謂「覆蓋」係指序列資料之量相當於序列全長之多少倍。有時亦稱為「覆蓋率」、「～倍之讀取量」等。

於本說明書中，所謂「序列結構體」係指序列中物理地分離之一連串序列。例如於基因組序列之語境中，可將各染色體稱為序列結構體。

於本說明書中，所謂「易位」係指於具有複數個序列結構體之序列中，某一序列結構體上之部分序列移動至其他序列結構體上之多型。

於本說明書中，所謂「連接點」係指關於一部分相同之2個序列，相同之部分與不相同之部分之邊界。

於本說明書中，所謂「標識符」係指為了將某一多型與其他多型進行區別而標記之名稱。一般而言，大多利用多型之開始位置與類型加以記載，但可使用本說明書中記載之標識符。

於本說明書中，所謂「邊緣」係指序列中包含多型之部分之末端。

(較佳實施形態) 以下對本發明之較佳實施形態進行說明。應當理解以下提供之實施形態係為了更好地理解本發明而提供，不應將本發明之範圍限定於以下之記載。因此，表明業者可參酌本說明書中之記載，於本發明之範圍內適當進行改變。又，應當理解本發明之以下之實施形態可單獨使用或可將該等組合使用。

再者，以下說明之實施形態均表示包括性或具體之例。以下之實施形態中所示之數值、形狀、材料、構成要素、構成要素之配置位置及連接形態、步驟、步驟之順序等僅為一例，並非旨在限定申請專利範圍。又，關於以下之實施形態之構成要素中之表示最核心概念之獨立請求項中未作記載之構成要素，係作為任意之構成要素進行說明。

(本發明之多型檢測之概要) 本發明提供一種在對象序列資料中檢測相對於對照序列資料之多型之方法。該方法提供如下方法，包括：a)提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；b)提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；及c)將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟；此處，k為該對象序列及該對照序列之任一較短者之全長以下之整數。於圖16中說明本發明之例示性流程。

本發明之方法能夠藉由對象序列資料與對照序列資料該兩個序列資料(例如次世代定序儀解析結果)之直接比較而檢測多型，此點與先前方法於根本上不同。認為尤其關於鹼基序列中之多型檢測，無需考慮基因組上之位置而直接比較之方法為新穎方法。

於一實施形態中，本發明之方法一特徵在於由序列資料獲得一定長度(k長)之部分序列之集。於一實施形態中，本發明之方法一特徵在於由序列資料獲得k長之部分序列之集中之各部分序列之頻度分佈。於一部分之實施形態中，將序列資料中之序列逐個錯開而製作k長之部分序列之集。

於一實施形態中，將k長之序列中之k－x(x為1等)之序列相同之資料進行排序，檢測不同部分(符合於x長之部分)之頻度。x長之部分於部分序列中之位置並無限定，可為序列中之中央部。然而，若使x長之部分位於部分序列之末端(例如鹼基序列中之3'末端或5'末端)，則可使排序等處理明顯地簡便化、高速化，因此較佳。如此於k長之序列中之末端部檢測不同部分(符合於x長之部分)之頻度之情形時，於本說明書中，有時稱為「多型邊緣檢測(PED，Polymorphic Edge Detection)」或「邊緣檢測」。

此處，作為k之值，可列舉以序列資料之各序列(例如次世代定序儀之各短序列)之長度作為上限之任意值，例如可列舉約500、約400、約300、約200、約100、約50、約40、約30、約25、約20、約15等。k之增加會使k-mer序列之資料呈指數性增加(例如於鹼基序列之情形時，k每增加1鹼基則鹼基之組合變為4倍)，因此，例如於鹼基序列之情形時，較佳為k＝20～25左右，但理論上亦可採用例如k＝500等，並無限制。於人之情形時，若k＝17以下則出現偶然一致之概率變高，但若為基因組大小較小之生物，則亦可採用例如k＝15等更小之k值。於一實施形態中採用k＝20。

於k－x長之序列相同之資料之x之部分之字元於比較對象間不同之情形時，認為該字元中包含多型(變異)。插入、缺失變異時亦可檢測變異之末端字元。例如於k－x長之鹼基序列相同之資料之x之部分之鹼基於比較對象間不同之情形時，認為該鹼基中包含多型(變異)。

於一部分之實施形態中，針對所獲得之序列集中之相同序列，算出基於出現次數所整理之資料。該步驟可使用計算機簡便地進行，例如可於Unix中如以下： [數1]般實現，可生成(按字串)排序之序列與表示頻度之數值之資料。進而，於將對象與對照之頻度資料以同一k-mer彙總時，例如可於Unix中使用join命令等進行。

亦可藉由將序列出現次數與序列資料之覆蓋(幾倍讀取量)進行比較而評價序列資料中之差異。例如可認為於由相對於基因組序列為40倍之資料量之序列解析獲得之序列資料中，出現頻度為1者係雜訊。

本發明特別對於「取代」多型(長度不變＝不為缺失插入)之檢測發揮極高效果。於多型部位為多拷貝之情形時有可能無法進行位置之特定，即便如此，仍可進行多型本身之檢測，可對多型標註名稱而特定。因此，例如可使用檢測出之各多型作為調查與形質之關係之多型標記物，亦可應用於診斷、育種、鑑定、品質管理(例如iPS細胞之品質管理)、分類、檢查。

藉由採用本發明作為對於由次世代定序儀獲得之鹼基序列資料直接檢測多型之方法，可進行2種樣本間、及參考序列與樣本之間之多型之檢測。又，長度k之部分序列、k－x之部分序列為無重複之單一序列，因此可利用序列本身作為多型之標識符(名稱)。因此，即便在由於參考基因組序列不確定而無法判斷多型於基因組上之位置關係之情形時，亦可用作世界共通之唯一之多型之標識符。於本發明之一實施形態中，提供一種對象序列資料與對照序列資料之比較方法，該方法包括分配對象序列資料中之包含相對於對照序列資料之多型之部分序列中之含有非多型部分之至少一部分的序列作為多型之標識符。又，可將多型之標識符匹配至參考序列而特定出參考上之多型之位置。

標識符除包含非多型部分之至少一部分以外，亦可包含多型本身。包含多型鹼基之標識符雖然難以匹配至參考序列上，但可用於連鎖解析。例如於 AAACCACTTCACGTTTCCA A AAACCACTTCACGTTTCCA G 之多型例中，作為記載之一例，有如下表現： AAACCACTTCACGTTTCCA之A型 AAACCACTTCACGTTTCCA之G型 AAACCACTTCACGTTTCCA之A/G之異型。作為包含多型之記法之例，有 AAACCACTTCACGTTTCCAA型、 AAACCACTTCACGTTTCCAG型，進而，異型有可能如 AAACCACTTCACGTTTCCAA/AAACCACTTCACGTTTCCAG 般將兩型並記。

本發明之一實施形態係一種在對象序列資料中檢測相對於對照序列資料之多型之方法。於一實施形態中，該方法包括提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟。k為該對象序列及該對照序列中之任一較短者之全長以下之整數。於一實施形態中，該方法包括提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟。於一實施形態中，該方法包括將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟。藉由此種步驟，無需考慮全長序列中之位置，又，無須將序列加以連結，即可將序列資料進行比較而檢測多型。

於另一實施形態中，本發明之方法進而包括針對部分序列中之長度k－x之序列部分共通之每個序列，算出長度x之部分之出現頻度之分佈之步驟。x為未達k之正整數。於該情形時，出現頻度之分佈之比較可包括上述部分序列中之長度k－x之序列部分共通之序列中之長度x之部分之出現頻度之分佈之差異之比較。藉此，能夠使多型檢測之處理高速化。

於一部分之實施形態中，本發明之方法包括將上述部分序列中之長度k－x之序列部分按每個單一序列進行分組之步驟。其中可包括例如將上述長度k－x之序列部分進行排序之步驟(例如將上述長度k－x之序列部分按字串排序之步驟)。

於一部分之實施形態中，k之值為排除上述對象序列資料等中之偶然相同之長度。例如於上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料之情形時，上述k可為排除上述生物之基因組中不同部位之偶然相同之長度。藉此，能夠更正確地檢測多型。

長度x並無限定，較佳為1～3，進而較佳為1～2，更佳為1。

於一實施形態中，上述長度x之部分存在於上述部分序列之末端。例如於上述對象序列資料及上述對照序列資料為鹼基序列資料之情形時，上述長度x之部分可為上述部分序列之3'末端或5'末端。就比較處理之高速化、簡便化而言，較理想的是使長度x之部分位於部分序列之末端。

藉由出現頻度之分佈之差異之比較，能夠進行例如以下之多型之檢測。於一實施形態中，於在上述對照序列資料之子集與上述對象序列資料之子集之間，上述長度x之部分之序列之出現頻度不同之情形時，將該長度x之部分之序列作為對象序列資料中之相對於對照序列資料之多型進行檢測。於一實施形態中，於在上述對照序列資料之子集與上述對象序列資料之子集之間，存在上述長度x之部分之序列中最高頻度者不同的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之多型進行檢測。

於一實施形態中，上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在上述對象序列資料之子集中之上述長度x之部分之序列中僅以雜訊以下之計數存在與上述對照序列資料之子集中之最高頻度者相同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之同型多型進行檢測。雜訊可採用本說明書中如下所述之基準進行判定。於一實施形態中，上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在對象子集中之上述長度x之部分之序列中存在與對照序列資料之子集中之最高頻度者相同之長度x之部分之序列且存在與對照序列資料之子集中之最高頻度者不同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之異型多型進行檢測。

於一部分之實施形態中，於本發明之方法中，可將與預測之出現頻度相比，出現頻度較小之部分序列設為雜訊。藉此，能夠識別機械性產生之差異與實際產生之多型加以檢測。例如於上述對象序列資料及上述對照序列資料為鹼基序列資料之情形時，可考慮到對象序列資料量、序列資料中之預想之錯誤率(例如手冊、機器之標稱值)、對象序列全長大小(例如基因組大小)等，將出現頻度為預想之雜訊之計數程度或預想之雜訊之計數以下的部分序列設為雜訊。作為1個預測，所產生雜訊之頻度之期望值成為int(基因組之幾倍讀取量×(1－精度)＋1)」。於不存在錯誤之情形時，精度成為1。於一實施形態中，於對象序列資料及上述對照序列資料為鹼基序列資料之情形時，可將出現頻度未達[(對象序列資料量)×(1－精度)]/(對象基因組大小)＋1之部分序列設為雜訊。

例如於錯誤率為0.001之情形時，著眼之鹼基即便出現1計數之概率亦為0.001，因此可認為約為0，但於1000鹼基之範圍來看，則成為某1個鹼基有錯誤之計算。因此，認為可將上提之整數值設為雜訊之預測值，可藉由在int函數中加上1而作為上提之整數值。

或者，於本發明之方法中，可將與預測之出現頻度相比出現頻度較大之部分序列作為重複序列部位剔除。例如可將對象序列資料之超過對象序列全長之覆蓋(覆蓋率)之2倍之部分序列自解析中剔除。

於一實施形態中，上述對象序列資料及/或對照序列資料為藉由次世代定序獲得之鹼基序列資料。於次世代定序中之多型之檢測中，先前需進行向參考之匹配或序列之組裝，此種步驟中出現之不確定性會對多型之檢測產生較大阻礙，因此，對由次世代定序獲得之序列資料運用無需此種步驟之本發明之方法可謂特別有利。

對象序列資料及對照序列資料並無限定，就檢測多型之方面而言，較理想的是具有一定共通性之序列之相關序列資料。但各序列之獲取方法可相同亦可不同，可於藉由定序獲得之資料之間進行比較，亦可於由資料庫等中獲得之資料之間進行比較，亦可於藉由定序獲得之資料與由資料庫等中獲得之資料之間進行比較。

於一實施形態中，對象序列資料為由個體獲得之序列資料，對照序列資料為由與該個體同種之其他個體、或資料庫獲得之序列資料。於一實施形態中，對象序列資料為由個體之組織試樣獲得之序列資料，對照序列資料為由該個體之其他組織、或資料庫獲得之序列資料。於一實施形態中，對象序列資料為由細胞試樣獲得之序列資料，對照序列資料為由其他細胞、或資料庫獲得之序列資料。

本發明之方法無需全長序列之資訊，因此亦可用於例如全長序列並非資料庫等中之公知者之情形，例如於對象序列資料及對照序列資料為源自生物之基因組之鹼基序列資料之情形時，上述基因組之序列亦可不明。

作為可藉由本發明之方法檢測之多型，可列舉：取代、插入、缺失、拷貝數變異(Copy Number Variation，CNV)、STRP(short tandem repeat polymorphism)、倒位及易位。於一實施形態中，本發明之方法亦可同時檢測上述複數個多型之任意組合。於另一實施形態中，本發明之方法亦可同時檢測所有上述複數個多型。尤其是於多型為取代之情形時，本發明之方法能夠發揮非常高之檢測力。

於存在相對對象序列之參考序列之情形時，本發明之方法可進而包括特定出相對上述對象序列之參考序列中之上述多型之位置之步驟。例如於對象序列資料及對照序列資料為源自生物之基因組之鹼基序列資料之情形時，可進而包括特定出多型於基因組上之位置之步驟。關於該位置之特定，由於本發明之方法可將多型與周圍序列建立關聯地檢測(例如將x長部分之多型與k－x長之序列建立關聯)，故而藉由對參考序列進行檢索，能夠簡便地進行。

本發明之方法可進而包括對檢測出之多型進行確認之步驟。確認可藉由例如以下方式進行：使用由參考序列或對照序列製作之查詢序列集，就檢測出之多型之部位與對象序列資料及/或對照序列資料進行比較。查詢序列集可包括：將參考序列或對照序列中符合於上述多型之部位之字元取代為不同字元之變異型查詢序列集、及/或未對參考序列或對照序列中符合於上述多型之部位之字元進行取代之野生型查詢序列集。

本發明之方法於對象序列資料及對照序列資料為鹼基序列資料之情形時，可進而包括對於對象序列資料及/或對照序列資料之互補鏈之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。本發明之方法於對象序列資料及對照序列資料為鹼基序列資料之情形時，可進而包括對於對象序列資料及/或對照序列資料之對立基因之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。此處，作為對立基因之序列資料，與實際上基因之存在與否無關，可使用具有相對於野生型之變異型之鹼基之序列資料。

本發明之方法亦可包括由實驗結果或資料庫獲取對象序列資料或對照序列資料之步驟。又，於本發明之方法中，未必需要獲取序列資料本身，亦可獲取序列資料之子集、及/或序列資料或序列資料之子集中之頻度分佈之資料而執行。

於一態樣中，本發明提供一種實現用以使電腦執行本發明之多型檢測方法之方法之程式、記錄該程式之記錄媒體、及用於實現上述檢測之系統。此處能夠採用之任意特徵可採用本說明書之多型檢測方法之說明中所記載之任意特徵或其組合。

因此，於一實施形態中，提供一種程式，其係用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。於另一實施形態中，提供一種程式，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。

於另一實施形態中，提供一種記錄媒體，其係存儲用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法之程式者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。於另一實施形態中，提供一種記錄媒體，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。

於另一實施形態中，提供一種系統，其係用於在對象序列資料中檢測相對於對照序列資料之多型者，該系統具備：序列資料處理部，其構成為提供該對象序列資料及該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度，此處，k為對象序列及對照序列之全長以下之長度；及序列資料計算部，其構成為進行比較對象序列與對照序列，基於該出現頻度之分佈之差異而檢測多型之步驟。於另一實施形態中，提供一種系統，其進而具備顯示機構，該顯示機構將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱。

(具體例) 本發明之例示之實施形態係基於如下所述之步驟之方法。

1.針對序列資料，獲得長度k之部分序列之子集。例如將鹼基序列資料自端開始逐個錯開1鹼基而獲得k長之序列之集。於以下之例中，採用使用由次世代定序儀獲得之水稻個體之序列資料(資料量為水稻基因組之40倍，讀取長度為100鹼基)，並將k長設為20鹼基所獲得的序列集進行說明。關於所獲得之序列集，於比較對象之樣本間自5'末端起k－1長之序列相同之資料的3'末端之鹼基於比較對象之間不同之情形時，該鹼基為多型。 [化1](於上述例中，自第1行起各序列編號分別為191～201)

第一行為由次世代定序儀獲得之鹼基序列，以下各行表示k長之部分序列。於該情形時，獲得k長為20鹼基之序列集。

2.獲取所獲得之部分序列集之出現頻度資料。即，獲得關於部分序列集中之相同序列之基於出現次數所整理之資料。 [化2](於上述例中，自第1行起各序列編號分別為202～211。)

將序列集以降序整列，於序列右側顯示出現次數。於該例中，由於為基因組之40倍之解析，故可將出現次數為1次左右之序列判定為雜訊。認為40～50次左右之序列源自於基因組上之單一序列，出現89次之序列於基因組上存在2處。

3.針對部分序列中之長度k－x之序列部分共通之每個序列，算出長度x之部分之出現頻度之分佈。於該例中，基於所獲得之k鹼基之部分序列(k＝20)之頻度資料，轉換為最後之1鹼基ACGT各鹼基相對於最初之19鹼基(k－x，x＝1)之出現頻度資料。 [化3](於上述例中，自第1行起各序列編號分別為212～220) (將20鹼基之頻度資料轉換為最初之19鹼基與最後之ACGT鹼基之頻度一覽表)

4.對部分序列中之長度k－x之序列部分共通之序列中之長度x之部分之出現頻度之分佈之差異進行比較。例如，將對照與來自欲調查對象之序列資料(標的)之頻度資料以19mer之序列彙總製作一覽表。於無多型之情形時，最後之鹼基為相同鹼基且頻度最大。於對照與對象之間最後之鹼基不同且頻度不同之情形時，該鹼基為多型。 [化4](於上述例中，自第1行起各序列編號分別為213、215、217及218)

對照與欲調查對象之最後之鹼基之出現頻度一覽。於該情形時，可知於對照中，AAAAGATCTATGAGCACTC(序列編號218)之後僅為A，但於對象中為A與G之異型結合(heterozygous)。又，於產生同型結合(homozygous)之多型之情形時，如下所示，出現之最後之鹼基不同而可被檢測出。 [化5]

如此，即便基因組上之位置不明，亦可網羅出繼以最初之19鹼基表示之序列位置後之鹼基之多型。於基因組參考序列已知之情形時，可根據最初之19鹼基所對應之基因組位置而確定多型之位置。於正義股、互補鏈均於相同位置被檢測出之情形時為一鹼基多型。由於對成為多型之序列之末端部分進行檢測，故亦能夠進行插入、缺失多型之檢測。由於將最初之19鹼基表示為多型之名稱、將最後之鹼基表示為基因型，故而可作為表示該多型之唯一記法。或者亦可將多型包括在內以k-mer(例如20鹼基)整體表示為一個名稱。例如於k＝5之情形時，可表示為ACGTA型與ACGTT型等。本發明之方法可依據如圖1所示之流程，藉由適當採用圖1所示之步驟而執行。

(k-mer) 於一實施形態中，本發明之一特徵在於，於在對象序列資料中檢測相對於對照序列資料之多型時，使用該對象序列資料之長度k之部分序列之子集、或該部分序列之子集之各個部分序列之出現頻度。此處，k為對象序列及對照序列之任一較短者之全長以下之整數。

長度k之部分序列可藉由自對象序列資料、對照序列資料、參考序列資料等中截取而生成。例如可藉由以一定間隔截取k長之序列而生成，可每隔1字元、2字元、3字元或以其以上之間隔進行截取而生成部分序列集。或者亦可於對象序列資料、對照序列資料、參考序列資料等中隨機選擇位置進行截取。於期望生成全部之k長部分序列之情形時，可每隔1字元進行截取並錯開位置而生成k長部分序列之子集。

長度k較理想的是排除對象序列、對照序列及/或參考序列中之偶然相同之長度。藉由排除偶然相同，從而降低不同序列偶然包含於對象序列之其他部位者作為與對照序列之差異被檢測出之可能性，能夠更正確地解析。較理想的是將於對象序列、對照序列及/或參考序列中出現與k長之某序列偶然相同之序列之期望值設為未達1。

一般而言，v：序列中各變數可取之值之種類、L：作為解析對象之序列(對象序列、對照序列及/或參考序列)之全長(包含之變數之數量)於v^＾ k＞L之情形時，認為k係排除偶然相同之長度。或於序列全長以10^＾ L級表示之情況下取兩邊之對數，於滿足k＞L/log(v)之情形時，認為k係排除偶然相同之長度。

例如於序列資料為鹼基序列資料之情形時，認為可將4個字元作為變數之值，因此v＝4。例如人基因組之大小為3.1×10之9次方，假設存在10之9次方長之隨機鹼基序列之情形時，認為9/log(4)≒15鹼基係可排除偶然一致之最小k長。即便對於基因組大小不同之生物，例如於10/log(4)之情形時認為k＝17可排除偶然一致。越長則越能夠降低出現偶然一致之序列之可能性，但資料大小相應地變大。

(頻度) 於一實施形態中，本發明之方法包括提供對象序列資料及/或對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟。

關於長度k之部分序列之子集之各個部分序列之出現頻度，可將相對於單一k長之部分序列資料之頻度以成對之資料(例如作為第1行提供部分序列，第2行提供其頻度之矩陣資料)提供。部分序列之出現頻度只要為將序列與其頻度建立關聯者，則其形式並無限定，亦可將具有對應標識符之序列資料與頻度資料分開地輸出。又，部分序列之出現頻度亦可藉由獲取既存資料而提供。

獲得長度k之部分序列之子集之各個部分序列之出現頻度之步驟可使用計算機簡便地進行，例如可於Unix中如以下： [數2]般實現。

於存在多型之部位於基因組上為單一序列部位，例如存在1鹼基取代之情形時，認為包含該取代之k-mer部分序列存在於對象序列資料之子集中，但不存在於對照序列資料之子集中。認為包含該取代變異之k-mer全部可獲得該結果，結果於包含該取代變異部位之2×k－1個k-mer部分序列中觀察到出現頻度之差異，而可檢測該多型。

於一部分之實施形態中，於本發明之方法中，可將與預測之出現頻度相比，出現頻度較小之部分序列設為雜訊。藉此，能夠識別機械性產生之差異與實際上存在之多型加以檢測。例如於上述對象序列資料及上述對照序列資料為鹼基序列資料之情形時，可考慮到對象序列資料量、序列資料中之預想之錯誤率(例如手冊、機器之標稱值)、對象序列全長大小(例如基因組大小)等，將出現頻度為預想之雜訊之計數程度或預想之雜訊之計數以下的部分序列設為雜訊。作為1個預測，產生之雜訊之頻度之期望值成為int(基因組之幾倍讀取量×(1－精度)＋1)」。

理論上於定序儀之精度為99%且基因組之讀取量為100倍之情形時，會混入1鹼基之雜訊。通常之解析中基因組之讀取量為40倍左右，因此，認為雜訊為1鹼基以下，但由於計數為整數值，故讀取錯誤計為1計數。即，認為2鹼基以上之計數很可能存在雜訊以外之某些要因。另外，同一鹼基混入2次以上雜訊之概率雖然較低但仍存在可能性。預想之雜訊之計數例如為int(基因組之幾倍讀取量×(1－精度)＋1)。該情形時之精度於100%之情形時算出為1，於99%之情形時算出為0.99。再者，int(X)係返回未達X之最大整數之函數。

認為於錯誤率(精度)不完全為0之情形時，例如即便為0.00001亦於10萬處中之1處產生1之計數。因此，於該情形時，最終認為1為雜訊之可能性較高，但2對於雜訊而言可謂過高。因此，可藉由利用int(基因組之幾倍讀取量×(1－精度)＋1)上提得出整數而計算預測值。於一實施形態中，將計數為1之部分序列判定為雜訊。例如於對象序列資料及上述對照序列資料為鹼基序列資料之情形時，將出現頻度未達[(對象序列資料量)×(1－精度)]/(對象基因組大小)＋1之部分序列設為雜訊，藉此可將出現頻度為預想之雜訊之計數以下之部分序列作為雜訊排除。

藉由算出頻度，亦能夠檢測拷貝數變異(CNV)。例如於與對照序列進行比較而連續檢測出約2倍以上之頻度之情形時，可判定為CNV。藉由將頻度之基準提高到約2.5倍以上等，可減少誤檢測。

例如認為與序列資料量相對於序列全長之覆蓋相比為同程度之出現頻度之部分序列係源自對象序列之全長中之單一序列的序列。進而，認為與序列資料量相對於序列全長之覆蓋相比為2倍左右之出現頻度之部分序列係源自對象序列之全長中存在2處之序列的序列。

於k排除偶然相同之情形時，於超出之情形時，可判斷部分序列源自重複序列部位。例如於基因組之40倍之覆蓋之定序資料中，認為出現頻度40～50次左右之序列源自基因組上之單一序列，出現89次之序列於基因組上存在2處。作為製作k長序列之子集及/或各部分序列之出現頻度資料之一例，可採用如圖3中例示之步驟進行。

(k－x) 於一實施形態中，本發明之方法之特徵在於，針對k長之部分序列中之長度k－x之序列部分共通之每個序列，算出長度x之部分之出現頻度之分佈。x為未達k之正整數。藉由觀察k-mer之一部分(x長之部分)而非長度k全長中之字元之差異，能夠顯著減少計算量。長度x並無限定，較佳為1～2，更佳為1。

於一部分之實施形態中，本發明之方法包括將上述部分序列中之長度k－x之序列部分按每個單一序列進行分組之步驟。其中可包含例如將上述長度k－x之序列部分進行排序之步驟(例如將上述長度k－x之序列部分按字串排序之步驟)。

部分序列中之長度k－x之序列部分共通之每個序列中有關長度x之部分之出現頻度之分佈可根據長度k之部分序列之出現頻度而算出。於將序列之字元之種數設為v(序列中各變數可取之值之種類)之情形時，於長度k之部分序列中，k－x之序列部分共通之序列係每一k－x之序列部分共通之序列各產生v^＾ x種。例如於序列為鹼基序列且x＝1之情形時，於長度k之序列集中，k－1之序列部分共通之每個序列各存在對應於x之部分為A、C、G、T之4種序列。長度k－x之序列部分共通之每個序列之有關長度x之部分之出現頻度係對應於各自對應之長度k之部分序列之頻度資料。

於一實施形態中，上述長度x之部分存在於上述部分序列之末端。例如於上述對象序列資料及上述對照序列資料為鹼基序列資料之情形時，上述長度x之部分可為上述部分序列之3'末端或5'末端。就比較處理之高速化、簡便化而言，較理想的是使長度x之部分位於部分序列之末端。如此於k長之序列中之末端部檢測不同部分(符合於x長之部分)之頻度之情形時，可理解為檢測成為對象之序列之多型部位之「邊緣」(於取代之情形時符合於該位置本身，於插入、缺失變異之情形時符合於其緣部(邊緣))，因此，於本說明書中，有時稱為「多型邊緣檢測(PED)」或「邊緣檢測」。

(比較、多型之檢測) 藉由出現頻度之分佈之差異之比較，能夠進行例如以下之多型之檢測。

於存在多型之部位為基因組上之單一序列部位，且例如存在取代之情形時，認為包含該取代之k-mer部分序列存在於對象序列資料之子集中，但不存在於對照序列資料之子集中。認為包含該取代變異之k-mer全部可獲得該結果，結果於包含該取代變異部位之2×k－1個k-mer部分序列中觀察到出現頻度之差異，而可檢測該多型。作為此種解析之一例，可採用如圖6所示之步驟進行。

於一實施形態中，於在上述對照序列資料之子集與上述對象序列資料之子集之間，上述長度x之部分之序列之出現頻度不同之情形時，將該長度x之部分之序列作為對象序列資料中之相對於對照序列資料之多型進行檢測。於一實施形態中，於在上述對照序列資料之子集與上述對象序列資料之子集之間，存在上述長度x之部分之序列中最高頻度者不同的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之多型進行檢測。

於一實施形態中，上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在上述對象序列資料之子集中之上述長度x之部分之序列中僅以雜訊以下之計數存在與上述對照序列資料之子集中之最高頻度者相同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之同型多型進行檢測。於一實施形態中，上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在對象子集中之上述長度x之部分之序列中存在與對照序列資料之子集中之最高頻度者相同之長度x之部分之序列且存在與對照序列資料之子集中之最高頻度者不同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之異型多型進行檢測。作為k長序列集之頻度資料之比較之一例，可藉由如圖4所示之步驟進行。

作為此種比較之一例，於對k－1長序列與最後之鹼基之頻度之檔案及對照與標的進行處理之情形時，可藉由利用 [數3]之命令將k－1序列及對照與標的彙總成1行之頻度輸出而進行。調查該輸出結果之各行之條件並無限定，於對照、標的兩者中計數為1鹼基以下之鹼基存在2個以上，且對照或標的中顯示10以上之計數之鹼基所對應之標的或對照之鹼基之計數為1以下的事例有1至2次之情形時，可視為檢測到多型之邊界。

即，於對照序列及/或對象序列之部分序列之子集中之第1計數超過第1閾值，且對照序列及/或對象序列之部分序列之子集中之對應之第2計數(即，於第1計數為對照序列中者之情形時，第2計數為對象序列中者，於第1計數為對象序列中者之情形時，第2計數為對照序列中者)低於第2閾值之情形時，可視為檢測到多型之邊界。

第1閾值根據序列資料之覆蓋而變動，例如可於10～50之範圍內設定。第1閾值例如可於10～40、10～30、10～20或10～15之範圍內設定。於序列資料之覆蓋變大之情形時，亦可增大第1閾值之設定，例如於人基因組解析中存在多至200倍讀取量程度之資料，於該情形時，作為第1閾值可使用200。可考慮到覆蓋，將能夠表明該序列實際存在之計數設為第1閾值，例如可使用覆蓋之約100%、約90%、約80%、約70%、約60%、約40%、約30%或約20%等值。

第2閾值亦同樣地根據序列資料之覆蓋而變動，可於1～7之範圍內設定。第2閾值可為例如1、2、3、4、5、6或7。

(序列) 作為本發明之對象序列、對照序列及/或參考序列，可使用可產生多型之任意序列。再者，作為對照序列，可使用參考序列。於代表性之實施形態中，對象序列、對照序列及/或參考序列為生物學序列，例如為鹼基序列(包括DNA、RNA、及該等之類似序列(analog)等序列)、胺基酸序列、或糖鏈序列等。作為生物學序列之例，例如可列舉：基因組序列、染色體序列、基因序列、質體序列、外顯子序列、蛋白質序列等。

例如基於次世代定序儀之讀取資料，藉由對象(標的)與對照間之序列之直接比較而檢測多型於現有技術條件下無法實現。於存在參考序列之情形時，可將多型匹配至基因組上，但於不存在參考之情形(例如尚未製作參考基因組序列之生物)時，可不使用參考資訊而檢測對象與對照之間之多型具有劃時代意義。認為若利用無參考之生物中之F2分離群檢測與表現型之分離連鎖之多型，則即便基因組上之位置不明，亦可獲得與表現型對應之DNA標記物，認為應用範圍非常廣泛。實際上雖然基因組上之位置資訊對於育種而言重要，但若即便位置資訊不明亦能夠利用關係到優良形質之DNA標記物進行選拔，則有充分之可能性用於選拔育種。

亦可將同一個體(例如人)之正常組織與可能包含變異之組織(例如癌組織)之序列進行直接比較而檢測多型，相較於先匹配至參考基因組後再調查差異之方法，多型之捕捉率、捕捉精度均變得非常高。

於一實施形態中，本發明之方法中使用之對象序列資料及/或對照序列資料為藉由定序獲得之鹼基序列資料。作為定序方法，有：桑格法、馬克薩姆-吉爾伯特(Maxam-Gilbert)法、單一分子即時定序(例如Pacific Biosciences、Menlo Park、California)、離子半導體定序(例如Ion Torrent、South San Francisco、California)、焦磷酸定序(Pyrosequencing)(例如454、Branford、Connecticut)、利用連接(Ligation)之定序(例如Life Technologies、Carlsbad、California之SOLiD定序)、利用合成及可逆性終止子之定序(例如Illumina、San Diego、California)、穿透式電子顯微鏡法等核酸成像技術、奈米孔定序(nanopore sequencing)等。

於一實施形態中，本發明之方法中使用之對象序列資料及/或對照序列資料可為藉由次世代定序獲得之序列資料。作為次世代定序，可列舉：邊合成邊定序(sequencing by synthesis)、焦磷酸定序、連接法定序、離子半導體定序、奈米孔定序等。使用次世代定序資料進行多型檢測時，由於向參考之匹配或組裝限制了精度，故認為採用本發明之方法可獲得較大利益。

於一實施形態中，本發明之方法中使用之對象序列資料及/或對照序列資料為藉由二硝基苯基化法、肼分解法、羧基肽酶法、Edman法或使用自動實施該等方法之裝置(肽定序儀或蛋白定序儀)之方法、使用質譜儀(例如串聯質譜儀(MS/MS))之方法(例如序列標籤法)等所獲得之胺基酸序列資料。

作為成為本發明之對象序列資料及/或對照序列資料之來源之生物種，只要為具有生物學序列者，則無任何限制。若例示一部分，作為動物，可列舉：人或非人哺乳動物(例如小鼠、大鼠、兔、羊、豬、牛、馬、貓、狗、猴、黑猩猩)、鳥類、爬蟲類、兩栖類、魚類等脊椎動物、無脊椎動物(例如昆蟲、線形動物)等。作為植物，可列舉：水稻、小麥、玉米、馬鈴薯、大麥、甘薯、蕎麥、阿拉伯芥、百脈根、蕃茄、黃瓜、甘藍、白菜、茄子、甘蔗、高粱、蘋果、橘子、香蕉、桃子、白楊樹、松樹、杉樹、被子植物、裸子植物、蕨類、苔蘚類、藻類等。此外，亦可為真菌、細菌、病毒等。

進而，亦可對源自該等生物之一部分例如組織、細胞等之對象序列資料及/或對照序列資料進行解析而檢測多型。

(變異) 本發明之方法可用於例如取代、插入、缺失、拷貝數變異、STRP(short tandem repeat polymorphism)、倒位或易位等多型之檢測。由於檢測變異之邊緣之部分，故而只要插入、缺失之結果使得長度x之序列存在差異，則可檢測其邊緣部分。若為全部包容於k-mer內之情形，則亦可檢測STRP(short tandem repeat polymorphism)。STR(short tandem repeat，短串聯重複序列)亦稱為微衛星(microsatellite)，係包含2～7鹼基之序列重複2～數十次者，可於該次數見到多型。亦可藉由部分序列之出現頻度而檢測拷貝數多型(CNV)。就邊緣檢測之觀點而言，亦可檢測倒位、易位之邊緣。

尤其於多型為取代之情形時，本發明之方法能夠發揮非常高之檢測力。

(位置之特定) 於存在與對象序列對應之參考序列之情形時，本發明之方法可進而包括特定出與對象序列對應之參考序列中之上述多型之位置之步驟。例如於對象序列資料及對照序列資料為源自生物之基因組之鹼基序列資料之情形時，可進而包括特定出多型於基因組上之位置之步驟。關於該位置之特定，由於本發明之方法可將多型與周圍序列建立關聯地檢測(例如將x長部分之多型與k－x長之序列建立關聯)，故而藉由對參考序列進行檢索，能夠簡便地進行。

作為對參考序列之檢索之一例，可藉由如圖5所示之步驟製作二分檢索用參考基因組序列資料，其後藉由二分檢索藉由多型邊界鹼基之匹配而進行檢索。

作為其他方法，可採用藉由利用unix之join命令輸出對象序列資料中之部分序列於參考序列中之位置及朝向而進行匹配之方法。更詳細而言，可使用如下確定對象序列於對照序列上之位置之方法，其包括：a)關於對照序列中之複數個k長之部分序列，輸出序列及於對照序列中之位置與朝向之步驟；b)關於對象序列中之複數個k長之部分序列，輸出序列及於對象序列中之位置之步驟；及c)對a)及b)中獲得之序列進行比較，將同一部分序列所對應之於對照序列中之位置與於對象序列中之位置建立對應之步驟；此處，k為不超過對象序列之長度之長度。關於該方法，可參照本申請人於與本申請案同一天提出申請之名為「插入、缺失、倒位、易位、取代之檢測方法」之申請案(整理編號NG012PCT/F5-18PCT075)。

(確認(verify)) 本發明之方法可進而包括對檢測出之多型進行確認之步驟。確認例如可藉由以下方式進行：使用由參考序列或對照序列製作之查詢序列集，就檢測出之多型之部位與對象序列資料及/或對照序列資料進行比較。查詢序列集可包括：將參考序列或對照序列中符合於上述多型之部位之字元取代為不同字元之變異型查詢序列集、及/或未對參考序列或對照序列中符合於上述多型之部位之字元進行取代之野生型查詢序列集。

本發明之方法於對象序列資料及對照序列資料為鹼基序列資料之情形時，可進而包括對於對象序列資料及/或對照序列資料之互補鏈之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。本發明之方法於對象序列資料及對照序列資料為鹼基序列資料之情形時，可進而包括對於對象序列資料及/或對照序列資料之對立基因之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。作為確認步驟之一例，可依據圖6所示之流程，適當採用圖6所示之步驟進行。此處，作為對立基因之序列資料，可無關乎實際上基因存在與否地使用具有相對於野生型之變異型鹼基之序列資料。

以下，關於對照序列係由野生型(即，與參考基因組序列大致相同)獲得之情形、或對照序列係由參考基因組序列按照與對象序列相同之長度所製作之序列之情形進行例示。

於利用次世代定序儀讀取之短序列之鹼基序列長為L之情形時，以參考基因組序列之成為對象之多型鹼基位置作為起點，獲得自L－1鹼基前之位置至L－1鹼基後之位置之2L－1鹼基長之序列，製作多型鹼基位置經所推測之多型鹼基取代之取代序列與作為對照之非取代序列。將取代序列及非取代序列分別逐個錯開1鹼基而製作L長之查詢序列集(例如圖14之例示)。使用各個查詢序列，獲取相對於對象序列與對照序列完全一致之計數。認為於同型變異之情形時，導入有變異之查詢序列中對象序列之計數占大部分，於異型變異之情形時，與對象序列及對照序列一致之計數大體各占一半。於將非取代序列設為查詢對象之情形時，基本上命中(hit)大部分對照序列。於非取代序列命中(hit)對象序列之情形時，能夠判斷並非多型而排除。

為了進行對照序列、對象序列之檢索，使用將對照序列、對象序列及各自之互補鏈序列彙總後按詞典順序排序並將同一序列合而為一所獲得之資料集，藉由二分檢索法檢索查詢序列。於實施形態中，於將源於Fastq檔案之鹼基序列資料進行排序而製成單一資料集之時，即於最初階段，還可亦將各讀取序列之互補鏈一起排序而進行單一(unique)處理。

於截取k-mer之前進行sort與uniq處理有可能在應對存在序列反應時加入PCR擴增步驟之情況(亦存在未加入之套組)、存在同一序列於讀取資料中複數次出現之情況的方面有利。若直接進行處理，則存在k-mer之分佈失真之可能性。儘管為同一序列，但如包含N之讀取序列亦有可能被識別為他物而導致失真，因此，可利用不含N之序列，將該序列與其互補鏈序列進行sort後進行uniq處理，自所獲得之序列中獲得k-mer。

於容許失真之情形時，原本之序列長度無需統一，即便是如藉由桑格法獲得之長度不固定之序列資料，亦可截取k-mer以及進行多型檢測、匹配。

於確認步驟中之對sort_uniq序列進行二分檢索而調查變異型與野生型之讀取序列數之步驟中，較佳為序列資料之長度統一。根據本發明者等人之見解，可知於確認步驟之前利用k－1序列來匹配多型之階段，於正義股與互補鏈兩者中檢測到多型之情形時，大致確定為SNP。有正義股、互補鏈之某一者處於重複區域而僅可進行單側檢測者實際亦為SNP之情況，於此種情形時，有藉由對sort_uniq序列進行二分檢索進行確認，能夠判斷實際是否為SNP之情況。有時為了藉由二分檢索進行確認以提高捕捉率，較佳為啟動(start)之短序列(由次世代定序儀獲得之鹼基序列資料)之長度統一。對象與對照之序列長無需同一，若對象序列資料與對照序列資料各自之中長度固定，則可良好地藉由二分檢索進行確認。

或可藉由以下方式進行確認。自參考序列以對象序列之L長且包含變異部位之方式截取部分序列，製作取代變異之集與未取代之集，排序後與位置關係、有無變異等記載一起輸出。利用unix命令之join對該資料與經排序之對象序列進行處理(或適宜之等效處理)，選取對象序列中包含之野生型與變異型之序列，調查每個變異部位之序列數。將所選取之序列進行sort後，可利用uniq-c之命令數出序列數。亦對對照序列(L'長)進行相同操作。於存在與對象個體對應之對照個體之情形時，可使用自該個體獲得之讀取序列作為對照序列。於不存在對照個體之情形時，可使用自參考序列以L長截取而製作之序列作為對照序列。於對象序列及對照序列之間長度不同之情形時，可製作與各自之長度對應之變異型與野生型之資料集，調查相應個數。關於該方法，可參照本申請人於與本申請案同一天提出申請之名為「插入、缺失、倒位、易位、取代之檢測方法」之申請案(整理編號NG012PCT/F5-18PCT075)。

例如Illumina公司之次世代定序儀(例如HiSeq)可輸出相同長度之序列，因此，無需於對象序列資料中特別進行統一長度之處理。於該情形時，能夠製作與對象序列資料具有同一長度之查詢序列之集，因此可直接進行二分檢索，有利於獲得確實之結果。

由長度存在差異之短序列所得之序列資料或並非短序列集合之序列資料(例如藉由桑格法獲得之序列)亦可用於本發明。於確認步驟中，可使用經過統一長度處理(例如選擇讀取序列中之品質分數(quality score)最大之L長序列進行截取、自一端截取L長序列等)之處理資料進行二分檢索。或亦可將序列資料(讀取序列)作為BLAST之標的序列(資料庫)，檢索與序列資料長度不同之查詢序列並數出個數。

於利用電腦進行計算之情形時，藉由二分檢索來檢索相對於sort_uniq序列或二分檢索用參考序列完全一致之序列時，檔案大小大多會變大，因此，較佳為採用高速系統、或適當謀求高速化。作為高速化之方法，存在全部於記憶體(on-memory)中進行計算、將檔案放置於SSD(Solid State Disk，固態硬碟)等高速碟中等硬體上之方法。就軟體上而言，亦可將檢索對象之檔案進行Burrows-Wheeler轉換，而非單純對經排序之檔案進行二分檢索，從而能夠更高速化。

(程式、記錄媒體及系統) 於一態樣中，本發明提供一種實現用以使電腦實施本發明之多型檢測方法之方法之程式、記錄該程式之記錄媒體、及用於實現上述檢測之系統。此處能夠採用之任意特徵可採用本說明書之多型檢測方法之說明中所記載之任意特徵或其組合。

因此，於一實施形態中，提供一種程式，其係用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。於另一實施形態中，提供一種程式，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。程式可採用任意語言編寫。

於另一實施形態中，提供一種記錄媒體，其係存儲用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法之程式者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。於另一實施形態中，提供一種記錄媒體，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列(可為上述部分序列整體)顯示為檢測出之上述多型之名稱之步驟。程式可採用任意語言編寫。於一實施形態中，記錄媒體可為能夠收納於內部之ROM(read only memory，唯讀記憶體)或HDD(hard disk drive，硬式磁碟機)、磁碟、USB(universal serial bus，通用串列匯流排)記憶體等快閃記憶體等外部記憶裝置。

其次，參照圖15A之功能方塊圖說明本發明之系統1之構成。再者，本圖中顯示藉由單一系統實現之情形，但應理解藉由複數個系統實現之情形亦包含於本發明之範圍中。

本發明之系統1000係RAM(random access memory，隨機存取記憶體)1003、ROM或HDD、磁碟、USB記憶體等快閃記憶體等外部記憶裝置1005及輸入輸出介面(I/F)1025經由系統匯流排1020連接於電腦系統內置之CPU(central processing unit，中央處理器)1001而構成。輸入輸出I/F1025上分別連接有鍵盤或滑鼠等輸入裝置1009、顯示器等輸出裝置1007、及數據機等通信設備1011。外部記憶裝置1005具備資訊資料庫存儲部1030與程式存儲部1040。均為外部記憶裝置1005內確保之一定之記憶區域。

於此種硬體構成中，藉由經由輸入裝置1009輸入各種指令(命令)，或藉由經由通信I/F或通信設備1011等接收命令，從而利用CPU1001將該記憶裝置1005中安裝之軟體程式叫出至RAM1003上展開並執行，藉此與OS(操作系統)協動發揮本發明之在對象序列資料中檢測相對於對照序列資料之多型之方法之功能。當然，亦可利用此種協動情形以外之結構實現本發明。

於本發明之實現中，於進行將對象序列資料之長度k之部分序列之子集保存至電腦中(此處，k為對象序列及對照序列之全長以下之長度)之步驟時，對象序列資料及/或對象序列資料之長度k之部分序列之資料可經由輸入裝置1009輸入或經由通信I/F或通信設備1011等輸入、或存儲於資料庫存儲部1030中。繼而，算出對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟可藉由程式存儲部1040中存儲之程式、或者藉由經由輸入裝置1009輸入各種指令(命令)或藉由經由通信I/F或通信設備1011等接收命令，而藉由該外部記憶裝置1005中安裝之軟體程式來執行。或可經由輸入裝置1009輸入預先算出之出現頻度。出現頻度資料可經由輸出裝置1007輸出或存儲於資訊資料庫存儲部1030等外部記憶裝置1005中。

繼而，於進行將對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟時，對照序列資料、對照序列資料之長度k之部分序列之子集之資料、或部分序列之出現頻度之資料可經由輸入裝置1009輸入或經由通信I/F或通信設備1011等輸入、或存儲於資料庫存儲部1030中，可藉由程式存儲部1040中存儲之程式、或者藉由經由輸入裝置1009輸入各種指令(命令)或藉由經由通信I/F或通信設備1011等接收命令，而藉由該外部記憶裝置1005中安裝之軟體程式對該等資料進行處理而提供對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度。

將對象序列與對照序列進行比較並基於該出現頻度之分佈之差異而檢測多型之步驟可藉由程式存儲部1040中存儲之程式、或者藉由經由輸入裝置1009輸入各種指令(命令)或藉由經由通信I/F或通信設備1011等接收命令，而藉由該外部記憶裝置1005中安裝之軟體程式來執行。

於資料庫存儲部1030中隨時寫入、更新該等資料或計算結果、或者經由通信設備1011等獲取之資訊。藉由利用各主目錄(master table)管理各輸入序列集中之各個序列、參照資料庫之各基因資訊ID等資訊，能夠利用各主目錄中定義之ID管理屬於作為存儲對象之樣本之資訊。

可於資料庫存儲部1030中將上述計算結果與序列相關資訊例如生物學資訊、生化學資訊、醫學資訊例如疾病、損傷、生物資訊等已知資訊建立關聯而進行存儲。此種關聯建立可直接採用能夠通過網路(網際網路、內部網路等)獲得之資料或以網路鏈接之形式進行。

又，存儲於程式存儲部1040中之電腦程式將電腦構成為上述處理系統，例如實施序列資料之提供、部分序列子集之提供、出現頻度資料之算出、出現頻度資料之比較、多型之檢測、多型之確認等處理之系統。該等各功能為各自獨立之電腦程式或其模組、常用程式等，藉由利用上述CPU1001執行而將電腦構成為各系統或裝置。再者，於本發明之例示中，各系統中之各功能協動而構成各系統，但用於進行該處理之程式又亦可分別經由外部記憶裝置或通信設備或輸入裝置提供。

本發明於構成為系統之情形時，可將對象序列資料及/或對照序列資料、該等之長度k之子集之資料、及/或該等之出現頻度資料之提供整合為序列資料處理部。又，可將出現頻度之分佈之比較及多型之檢測整合為序列資料計算部。

又，如圖15B所示，可藉由具有叢集(Cluster)結構之計算系統實現本發明之方法。於一實施形態中，系統為叢集構成，包含頭(head)與節點(node)。節點為了謀求檢索之高速化，可於主記憶裝置使用SSD。於一實施形態中，能夠以相對於1台頭為複數個節點(例如12台)運用。於一實施形態中，計算系統具有叢集結構，於主電腦(叢集頭)搭載大容量記憶裝置(HDD)保存解析資料及結果。自叢集頭向各節點傳輸分批之資料並執行計算，再將結果彙集至叢集頭。叢集頭、節點均搭載中央控制元件(CPU)、記憶體(RAM)，能夠經由通信介面(NIC)進行資料之通信。於節點中，為了進行高速之檢索處理，可將固態磁碟機(SSD)作為主記憶裝置。各節點上搭載之CPU、RAM、SSD等可與其他節點共有，亦可物理分離。

(例示之計算流程) 本發明可依據例如以下之流程實施。

1.於由次世代定序儀獲得之Fastq形式之檔案中選擇序列內不含N之鹼基序列，與互補鏈之序列合併後，分別輸出。

2.將輸出之檔案(讀取序列)按詞典順序排序，將同一序列合而為一。 unix命令如下所示。 [數4]

於對基因組上存在複數個相同序列之部分進行解析之情形時，有時亦可僅對讀取序列進行sort而不進行uniq處理。例如於對多拷貝區域檢測CNV之情形時，僅進行sort可能會有利。

3.將經排序之各鹼基序列分別自5'末端逐個錯開1鹼基，反覆輸出k-mer(此處為20鹼基)之序列直至到達對象之鹼基序列之3'末端(k-mer file)。

4.將輸出之k-mer之序列按詞典順序排序，將同一序列合而為一，製作一併記載序列與出現次數之檔案。 unix命令如下所示。 [數5]

於如uniq-c命令等般輸出結果為頻度→序列之順序之情形時，亦可於uniq-c等命令之後運行按照序列→頻度之順序輸出之過濾程式。

5.針對k-mer count file之各行之資料，自序列之5'末端獲得k－1鹼基之序列，將3'末端之鹼基即第k個鹼基轉換為以A、C、G、T之出現次數進行表示之資料。以如下形式輸出： k－1mer之序列 A之次數 C之次數 G之次數 T之次數。 [表1]

6.從由對象(標的)與比較(對照)之樣本獲得之次世代定序儀之序列資料中分別獲取此種資料。

7.製作將對照與標的藉由5之方法所製作之資料以k－1mer之序列彙總之資料。 unix命令如下所示。 [數6]

8.從利用join命令獲得之資料中，選出對照與標的之間於不同鹼基顯示計數之資料。 [表2]

於該例中，於對照中，繼ACTTTCTTCAAGGTCTGTT(序列編號225)後之鹼基為G，但於標的中為C。即，以繼k－1mer之單一標識符(名稱)後之鹼基為G型或C型之記法表示多型。各鹼基對應之個數係檢測到該多型之獨立之讀取序列之個數。

9.只要將該k－1mer之標識符匹配至參考基因組上，即可容易地確定多型位置。

10.本法由於在將序列資訊匹配至參考基因組之前檢測對照與標的間之多型，故而亦可對參考基因組未知之生物種檢測多型。

11.於基因組上之位置無法確定之情形時，多型之名稱可以k－1mer之序列本身進行表示，基因型為繼其後之多型鹼基。可使用該資料集進行對表現型之關聯(association)解析。

12.於向參考基因組進行匹配時，可對參考基因組與3之方法同樣地將各染色體自5'側逐個錯開1鹼基而截取k-mer，將同一行中記載有k-mer序列、染色體編號、位置、朝向之資料基於k-mer之序列按詞典順序整列而獲得資料，對於所獲得之資料，藉由二分檢索法而確定k－1mer之序列於基因組上之位置。 [表3] 例基於由水稻參考基因組(IRGSP1.0)製作之k-mer(k＝20)之序列進行整列所獲得之位置資料之一部分從左側起分別為k-mer序列、染色體編號、位置、相對於參考序列之朝向。 (第1個與第2個均對應於序列編號226，自上往下第3個至第6個對應於序列編號227〜230)

如第1、2行般同一序列為複數行且知曉各位置，因此，即便對象序列存在於重複區域中，亦可藉由檢索而列舉對應之候補區域進行輸出。

此處，將輸出複數個位置資訊之情形作為位置不定而自多型資訊之輸出中剔除。亦可為複數個位置中之哪一個之輸出方式。

13.對匹配至參考基因組上之多型進行確認。與2中所製作之sort_uniq序列(標的)同樣地，參考序列亦自5'末端起每隔2鹼基截取與2中所製作之序列相同長度之序列，與互補鏈一起進行sort、uniq處理製作資料。該參考與標的之sort_uniq資料成為檢索之對象。

繼而，從參考基因組序列中截取包含多型位置之與2中所製作之序列相同長度之序列集(進行檢索之查詢集)。該序列集係於自序列之5'末端至3'末端之所有位置上包含多型位置之鹼基之序列集。序列集數量與序列長相同。對於參考之序列集(參考集)，製作多型位置之鹼基被取代為預想之多型鹼基之序列集(標的集)。於圖14中例示查詢用序列集之製作。

14.將參考集、標的集設為查詢對象，分別對參考基因組及2中所製作之sort_uniq序列進行檢索(例如二分檢索法或使用join命令之方法)，調查相對於各集有幾個sort_uniq序列匹配。於參考集中，僅命中參考之sort_uniq序列。相對於此，於標的集中，於同型變異之情形時應該僅從標的之sort_uniq資料中檢測到匹配，於異型變異之情形時應該從參考與標的之sort_uniq資料兩者中檢測到匹配。如此，若提取顯示與預想一致之檢索值之多型，則可如下輸出結果。 [表4]

(組合) 於本說明書中，如上所述記載了可用於檢測取代、拷貝數多型、STRP、插入、缺失、倒位或易位之方法，該程序可與可用於檢測取代、插入、缺失、倒位或易位之以下記載之程序加以組合進行。組合方法例如可依據如圖18所示之流程執行。

藉由如此組合程序，能夠以較高之檢測力網羅性地檢測於序列中可能存在之多種多型。此種程序之組合可藉由例如同時、平行或依序地進行複數個程序而達成。例如可藉由利用具有如圖15B所示之叢集結構之計算系統，使用不同節點進行各個程序，從而實現組合之方法。

作為可用於檢測取代、插入、缺失、倒位或易位之程序，有包括特定出對象序列資料之序列中之至少2處部分序列於對照序列上之位置之步驟的程序。此處，部分序列可使用k長之部分序列。對照序列較佳為序列上之位置資訊能夠特定之序列，對照序列更佳為參考序列。

程序可包括：將對象序列資料中之部分序列間之位置關係與對照序列上之部分序列間之位置關係進行比較之步驟。此處，於對象序列資料中之部分序列間之位置關係與對照序列上之部分序列間之位置關係不同之情形時，能夠判定存在目標之多型。例如可包括：在部分序列存在於對照序列之不同序列結構體上之情形時，判定存在易位；在部分序列存在於對照序列之同一序列結構體上、且朝向與對象序列資料上者不同之情形時，判定存在倒位；在部分序列存在於對照序列之同一序列結構體上、朝向與對象序列資料上者相同、且部分序列在對照序列上之距離短於其在對象序列資料上之距離之情形時，判定存在缺失；及/或在部分序列存在於對照序列之同一序列結構體上、朝向與對象序列資料上者相同、且部分序列在對照序列上之距離長於其在對象序列資料上之距離之情形時，判定存在插入。於位置關係無不同之情形時，可結束處理，可判定不存在目標之多型，亦可進一步進行將對象序列資料中之部分序列部位間之字元與對應之對照序列上之字元進行比較而檢測不一致部位之步驟，於存在不一致部位之情形時判定存在取代。

程序可包括：於位置關係不同之情形時，判定存在目標之多型，將對象序列資料中之部分序列部位間之字元與對應之對照序列上之字元以部分序列部位作為起點依序進行比較而檢測不一致部位之步驟。藉由該步驟，能夠檢測所檢測出之多型之邊界鹼基。

例如於組合此種程序之情形時，於本發明之一實施形態中，提供一種在對象序列資料中檢測相對於對照序列資料之多型之方法，其包括： (1)藉由 a)提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟； b)提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；及 c)將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟；而檢測對象序列資料中之取代、拷貝數多型、STRP、插入、缺失、倒位或易位的程序；以及 (2)藉由 a)特定出該對象序列資料之序列中之至少2處部分序列於該對照序列上之位置之步驟； b)將對象序列資料中之該部分序列間之位置關係與對照序列上之該部分序列間之位置關係進行比較之步驟；及 c)於對象序列資料中之該部分序列間之位置關係與對照序列上之該部分序列間之位置關係不同之情形時判定存在目標之多型，將該對象序列資料中之該部分序列部位間之字元與對應之對照序列上之字元以該部分序列部位作為起點依序進行比較而檢測不一致部位之步驟；而檢測對象序列資料中之插入、缺失、倒位、易位或取代的程序。

於本發明之另一實施形態中，例如提供一種在對象序列資料中檢測相對於參考序列資料之多型之方法，其特徵在於包括由參考序列資料製作與各自之位置資訊建立關聯之參考序列之k長之部分序列集之步驟，進而同時、平行或依序地進行包括步驟(A1)、(A2)及(A3)之程序與包括步驟(B1)、(B2)及(B3)且視需要進而包括步驟(B4)之程序， (A1)生成該對象序列資料之長度k之部分序列之子集，提供單一之長度k之部分序列之出現頻度； (A2)提供該參考序列之k長之部分序列集中之單一之長度k之部分序列之出現頻度； (A3)將該對象序列與該參考序列進行比較，基於該出現頻度之分佈之比較而檢測插入、缺失、取代、拷貝數多型、STRP、倒位或易位； (B1)將該對象序列資料之序列中之至少2處k長之部分序列設為查詢對象，於該參考序列之k長之部分序列集中進行二分檢索，特定出該至少2處部分序列於參考序列上之位置； (B2)將該對象序列資料中之該部分序列間之位置關係與該參考序列上之該部分序列間之位置關係進行比較； (B3)於該對象序列資料中之該部分序列間之位置關係與該參考序列上之該部分序列間之位置關係不同之情形時判定存在插入、缺失、倒位或易位，將該對象序列資料中之該部分序列部位間之字元與對應之對照序列上之字元以該部分序列部位作為起點依序進行比較而檢測不一致部位； (B4)於該位置關係無不同之情形時，進而包括將該對象序列資料中之該部分序列部位間之字元與對應之上述對照序列上之字元進行比較而檢測不一致部位之步驟，於存在不一致部位之情形時判定存在取代。

(一般技術) 本說明書中使用之分子生物學方法、生化學方法、微生物學方法、生物資訊學可使用該領域中公知、周知或慣用之任意者。

本說明書中，於可採用文章中所列舉事項之「至少1個以上」時使用「或」。「或者」亦相同。本說明書中，於明確記載「2個值」之「範圍內」之情形時，該範圍亦包括2個值本身。

本說明書中所引用之科學文獻、專利、專利申請等參考文獻係將全文與各自具體記載者相同程度地作為參考援用至本說明書中。

以上，為了便於理解本發明，例示較佳實施形態進行了說明。以下，基於實施例說明本發明，但上述說明及以下實施例僅以例示之目的提供，並非為了限定本發明而提供。因此，本發明之範圍不限定於本說明書具體記載之實施形態或實施例，而僅由申請專利範圍限定。實施例

(實施例1：水稻SNP檢測及驗證) (概要) 使用本發明之方法，使用以下之水稻序列資料進行水稻之SNP之檢測及驗證。對象：N1S5、N1S6、N1S7、N1S10 對照：N1 參考：水稻參考基因組(IRGSP1.0) 再者，請注意，於本說明書中樣本無論以大字號或小字號書寫均表示同一者。

(材料及方法) (樣本) 以1粒水稻品種為日本晴之種子作為N1個體，使之發芽並進行培育，對葉片進行採樣。以N1個體所結之種子作為N1S1，使1粒該種子發芽並進行培育，對葉片進行採樣。以N1S1個體所結之種子作為N1S2，同樣地對葉片與種子進行採樣直至N1S10代。

(次世代定序) 針對N1、N1S5、N1S6、N1S7、N1S10之葉片樣本，利用次世代定序儀進行全基因組解析。定序儀使用Illumina公司之HiSeq2000，利用雙端(Pair-end)進行解析。關於讀取長度，N1、N1S5、N1S6、N1S7為100鹼基，僅N1S10為101鹼基。

使用序列資料庫，形成成為序列模板之簇，獲取模板DNA之鹼基序列。序列資料之解析係使用配套軟體進行Base Call，以fastq形式檔案輸出。

N1、N1S6之解析如下所示於依據製造業者之手冊之條件下進行。表5：各作業中使用之手冊名、版本號 [表5] 表6：簇形成、序列及序列解析所使用之裝置、試劑、軟體 [表6]

N1S5、N1S7、N1S10之解析如下所示於依據製造業者之手冊之條件下進行。表7：各作業中使用之手冊名、版本號 [表7] 表8：簇形成、序列及序列解析所使用之裝置、試劑、軟體 [表8]

(多型之檢測) 對各樣本從由次世代定序儀獲得之Fastq形式之檔案中選擇序列內不含N之鹼基序列，與互補鏈之序列合併後，分別輸出。

將輸出之檔案(讀取序列)按詞典順序排序，將同一序列合而為一。unix命令如下所示。 [數7]

將經排序之各鹼基序列分別自5'末端逐個錯開1鹼基，反覆輸出k-mer(本實施例中為20鹼基)之序列直至到達對象之鹼基序列之3'末端(k-mer_file)。

將輸出之k-mer之序列按詞典順序排序，將同一序列合而為一，製作一併記載序列與出現次數之檔案。unix命令如下所示。 [數8]

此處，針對對照序列：N1、對象序列：N1S7，使k-mer序列整列，進行多型之檢測。於存在多型之部位為基因組上之單一序列部位，此處例如存在一鹼基取代之情形時，認為包含該取代之k-mer序列存在於對象序列中，但不存在於對照序列中。因此認為，由於包含該取代變異之k-mer序列存在於對象序列中但不存在於對照序列中，故而結果可於包含該取代變異部位之k個k-mer序列中觀察到出現頻度之差異。k-mer序列之整列係使之按照沿參考序列之形狀整列。

針對k-mer_count_file之各行之資料，自序列之5'末端獲得k－1鹼基之序列，將3'末端之鹼基即第k個鹼基轉換為以A、C、G、T之出現次數進行表示之資料。以「k－1mer之序列 A之次數 C之次數 G之次數 T之次數」之形式輸出。

針對對照序列與對象序列，製作將上述步驟中輸出之資料以k－1mer之序列彙總之資料。unix命令如下所示。 [數9]

進而，在利用join命令獲得之資料中，檢測對照與標的之間於不同鹼基顯示計數之資料。本實施例中，以水稻基因組之40～50倍讀取量之次世代定序資料作為對象，因此，於鹼基之頻度超過100之情形時作為重複序列部位剔除。繼而，於對照、標的兩者中計數為1鹼基以下之鹼基存在2個以上，且對照或標的中顯示10以上之計數之鹼基所對應之標的或對照之鹼基之計數為1以下的事例有1至2次之情形時，視為檢測到多型之邊界者，檢測出現該事例之k－1mer之序列作為包含多型部位者。

為了進行向參考基因組之匹配，對參考基因組(水稻參考基因組(IRGSP1.0))與上述步驟同樣地將各染色體自5'側逐個錯開1鹼基而截取k-mer，製作將k-mer序列、染色體編號、位置、朝向記於同一行中之資料，使之基於k-mer之序列按詞典順序整列。針對該資料，藉由二分檢索法確定多型k－1mer之序列於基因組上之位置。

對匹配至參考基因組上之多型進行確認。與上述步驟中製作之sort_uniq序列(標的)同樣地，參考序列亦自5'末端起每隔2鹼基截取與讀取長度相同長度之序列，與互補鏈一起進行sort、uniq處理製作資料。將該參考與標的之sort_uniq資料設為檢索之對象。

繼而，從參考基因組序列中截取包含多型位置之與讀取長度相同長度之序列集(進行檢索之查詢集)。該序列集係於自序列之5'末端至3'末端之所有位置上包含多型位置之鹼基之序列集。序列集數量與序列長相同。對應於參考之序列集(參考集)，製作多型位置之鹼基被取代為預想之多型鹼基之序列集(標的集)。

以參考集、標的集作為查詢對象，針對參考基因組及將由次世代定序儀獲得之Fastq形式之檔案輸出之檔案(讀取序列)按詞典順序排序並將同一序列合而為一所獲得之sort_uniq序列，分別藉由二分檢索法進行檢索，調查相對於各集有幾個sort_uniq序列匹配。於參考集中，僅命中參考之sort_uniq序列。相對於此，於標的集中，於同型變異之情形時應該僅從標的之sort_uniq資料中檢測到匹配，於異型變異之情形時應該從參考與標的之sort_uniq資料兩者中檢測到匹配。如此，提取顯示與預想一致之檢索值之多型。

(基因型之確認) 基因型之確認係利用PCR擴增該區域，藉由桑格法進行確定。

各區域之擴增所使用之引子序列如下所示。 [表9] (上游引子從上往下對應於序列編號233〜249，下游引子從上往下對應於序列編號250〜266)

PCR反應之反應條件如下所示。 [表10]

關於反應循環，將94℃下0.5分鐘、60℃下0.5分鐘、72℃下1分鐘進行30個循環。

利用1%瓊脂糖凝膠電泳分離經擴增之DNA片段，利用0.5 μg/ml之濃度之溴化乙錠進行染色，截取於長波長紫外線燈(365 nm)下發出螢光之帶(band)，利用Promega公司之Wizard(註冊商標)SV凝膠及PCR純化系統(Cat.#A9282)進行片段之純化。

藉由桑格法之包含SNP之鹼基序列之確認將經精製之片段利用BigDye(註冊商標)終止子v3.1循環測序套組(Thermo Fisher Scientific Cat.#4337455)進行反應，利用DNA定序儀ABI PRISM 3130xl進行鹼基序列之確認。

(結果) (定序) 水稻個體(N1、N1S5、N1S6、N1S7、N1S10)經次世代定序儀解析獲得之結果之鹼基序列資料已發送至DDBJ，用以下之登錄號進行了登錄。 [表11]

關於各樣本之讀取序列數(總資料數)如下所示。 [表12]

對輸出之Fastq檔案進行處理所獲得之sort_uniq之資料數如下所示。 [表13] sort_uniq係將不含N之讀取序列與其互補鏈之資料進行sort後利用uniq將同一序列合而為一所獲得者。該資料不同於k-mer之資料，為僅有序列之資料，不含頻度之數值資料。

(多型之檢測) 針對對照序列：N1、對象序列：N1S7，使k-mer序列沿著參考序列整列而檢測多型，將結果示於圖7及8。標有下劃線之鹼基於對照與對象中不同，表示檢測到多型。於圖9中，藉由使對照序列(N1)與對象序列(N1S5、N1S6、N1S7、N1S10)之k-mer序列之部分序列子集整列，從而顯示求出與水稻參考序列中自對應位置開始之序列對應的序列之出現頻度之結果。繼染色體編號、染色體之位置後顯示N1、N1S5、N1S6、N1S7、N1S10之20-mer之頻度。可知N1S7中為異型，N1S10中為同型突變，野生型之20-mer為0。即，根據k-mer序列之出現頻度之變化，可檢測出N1S7中產生異型變異，N1S10中產生同型變異。

進而，將最終藉由上述程序於對照序列(N1)與對象序列(N1S5、N1S6、N1S7、N1S10)之間所檢測出之多型之一部分示於圖10及11。該等結果與使用參考序列之確認一致。W表示野生型，H表示異型，M表示同型突變。

將藉由桑格法所確認之各樣本中之多型示於圖12。可觀察到如N1、N1S1、N1S2、N1S3、N1S4、N1S5、N1S6、N1S7、N1S8、N1S9、N1S10般經過世代後產生異型變異，其後作為同型變異固定，該結果與藉由本發明之方法所檢測出之多型高度一致(圖12)。

因此，表明藉由本發明之方法能夠詳細地檢測世代間產生之多型。又，藉由多型邊緣檢測所檢測出之多型亦藉由桑格法得到確認，因此證實無需參考序列(基因組參考序列)即可進行序列資料間之多型之檢測。

(實施例2：尼日利亞之約魯巴族男性(NA18507)之序列解析) (材料及方法) 作為對照序列資料，使用人基因組參考hg38。序列係使用自ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/下載之chr1～chr22與chrX、chrY、chrM之染色體資料。alt、v1等檔案名上帶有註釋(Comment)之資料除外。

作為對象序列資料，下載人基因組之次世代定序序列資料NA18507使用。該序列資料係利用Illumina公司之次世代定序儀進行解析所獲得者，於NCBI中登錄、公開，下載該資料使用。鹼基序列集之實驗ID之URL為https://www.ncbi.nlm.nih.gov/sra/SRX016231，序列之登錄號為SRR034939～SRR034975之範圍。

資訊處理係與實施例1之(多型之檢測)同樣地進行。

(結果) 將結果之一部分示於圖13。於互補鏈(r)中檢測到之野生型、變異型之鹼基係轉換成正義股顯示。於異型之情形時將各鹼基並列顯示。參照、對象之序列x之A、C、G、T之個數表示繼k－1序列後之序列x之各鹼基之頻度。關於P～Q列，顯示具有野生型或變異型之鹼基之參照或對象序列之個數。

於正義股、反義股兩者中檢測到相同變異之情形時，大致確定為SNP。認為僅於單側之股檢測到變異之原因在於反義股之序列於基因組上並非單一，無法被唯一地測出，或檢測到插入、缺失、易位、倒位之邊界鹼基。

證實本發明之方法亦能夠對人基因組正確地檢測多型。又，亦表明可使用自資料庫中獲取之參考序列作為對照序列。

(實施例3：同一個體之組織間之多型之檢測) (概要) 證實藉由本發明之方法能夠於同一個體之組織間檢測多型。

(材料及方法) 使用fastq-dump，從NCBI之SRA獲取序列資料。本資料為Texas Cancer Research Biobank Open Access Data Sharing：Genome Project之登錄資料，詳細資料於以下之URL：https://www.ncbi.nlm.nih.gov/Traces/study/?acc＝SRP060654中提供(Becnel, L. et al. NCBI Sequence Read Archive PRJNA284598 (2015).)。藉由本發明之方法於上述序列資料中檢測多型，驗證藉由本發明之方法能否檢測同一個體之正常組織與腫瘤組織之間之多型。

序列資料之起源樣本有2種，序列資料名與樣本之內容如下所示。 SRR2096532 對照血液(正常(Normal)) SRR2096535 濾胞性淋巴瘤(9690/3：Follicular lymphoma) 讀取序列數(序列長101鹼基) SRR2096532 1300353764 SRR2096535 1339310760 sort_uniq之序列數 SRR2096532 2056683322 SRR2096535 2181081390

使用SRR2096532(正常組織)作為對照序列資料，使用SRR2096535(腫瘤組織)作為對象序列資料，而進行解析。

資訊處理係與實施例2之(多型之檢測)同樣地進行。

再者，於本實施例中，於確認(verify)步驟中，相對於所檢測到之各個變異，於標的中變異型為5讀取序列以上、野生型為1讀取序列以下，於對照中變異型為1讀取序列以下、野生型為5讀取序列以上之情形時，標記為同型變異(M)；於變異型相對於標的之讀取序列總數之比率大於0.3或小於0.7，且於對照中變異型為1讀取序列以下，且於標的中野生型為5讀取序列以上之情形時，視作異型變異(H)。

[先前方法] 使用該領域中通常廣泛採用之Samtools對同一資料進行處理。利用先前方法之解析係藉由以下步驟進行。步驟0為準備，僅實施1次，步驟1至5係對對每個樣本實施。 0.準備：對參考序列附加索引 1.短序列資料之匹配 2.將SAM形式轉換為BAM(亦按匹配位置排序) 3.利用Samtools檢測多型部位

作為參考序列資料，使用人基因組參考hg38。序列係使用自ftp://hgdownload.cse.ucsc.edu/goldenPath/hg38/chromosomes/下載之chr1～chr22與chrX、chrY、chrM之染色體資料。alt、v1等檔案名上帶有註釋之資料除外。

(結果) 藉由本發明之方法(PED)及先前方法(bwa＋Samtools)所檢測出之多型之數量如下所示。 [表14]

PED中供於驗證(確認步驟)之座位數為22601，其中，正義股、互補鏈均檢測到取代變異的有514座位。儘管驗證之結果僅於單側股檢測到變異，但加上判斷為正性(positive)之座位，預測1042座位存在取代變異。藉由PED檢測出之1042座位均為異型。此符合由於是來自同一人之血液與癌組織之序列之比較故而原理上產生同型變異之可能性非常低之預想。於PED中，於匹配之前直接將對象與對照進行比較，因此不會輸出對象、對照之SNP數。

藉由PED檢測出但無法藉由bwa＋Samtools檢測出之SNP為20。於bwa＋Samtools中亦檢測出多個同型變異，認為結果中包含非常多之雜訊。

(考察) 由於是來自同一人之組織間之比較，故而預想不會有同型突變，結果與預想一致，僅檢測到異型。再無其他能夠以該精度檢測多型之系統，認為本發明之方法顯著優於先前技術。

上述結果表明，將同一個體之正常組織與癌組織之序列直接比較亦能夠檢測多型。相較於先匹配至參考基因組後再調查差異之方法，本發明之方法之多型之捕捉率、捕捉精度均非常高。

於PED中，於匹配之前，藉由讀取序列彼此之比較而檢測SNP，因此可獲得準確度較高之SNP。將本實施例中獲得之結果與檢測插入、缺失之程式之結果綜合考慮，認為於癌細胞中，相較取代變異，被認為起因於雙鏈斷裂後之去除修復的插入、缺失變異之頻度更高。

(實施例4：拷貝數多型之檢測) (材料及方法) 使用與實施例1中之N1S6為同一世代之1粒種子進行細胞培養，1個月、3個月、5個月後進行再分化，自成為水稻個體之葉片提取DNA，分別作為1M1、3M1、5M1之樣本使用。將與實施例1中之N1種子為同一世代之種子培養5個月後進行再分化之個體進行4世代自體繁殖，自所獲得之個體中提取DNA，作為TTM2與TTM5之樣本使用。利用次世代定序儀自提取之DNA獲取序列資料。定序之操作說明與實施例1中相同。使用該等序列資料及實施例1之N1S5、N1S6、N1S7、N1S10之序列資料作為對象序列資料，使用N1作為參照序列資料。有關該等序列資料之登錄號、讀取序列數、sort_uniq之序列數示於下表。再者，TTM5之資料被分割為SRR556174與SRR556175之2個登錄號。TTM5之sort_uniq係將2個讀取序列合併製成一個檔案。 [表15]

資訊處理係與實施例1之(多型之檢測)同樣地進行，檢測到於參照序列資料與對象序列資料之間出現頻度較大不同之k-mer。於連續檢測到為對照之N1之2倍左右以上之頻度之情形時，判定CNV。由於可能出現誤檢測，故而亦可提高到2.5倍以上。

(結果) 將結果之一部分示於圖17。可知從第7染色體之26694795位置(圖7中以箭頭標示)所對應之k-mer序列起，於N1～N1S10出現此前之位置所對應之k-mer序列之出現頻度之4倍左右之值。

反轉錄轉位子Tos17之序列自該位置開始。該轉位子於基因組中存在2拷貝，各轉位子之末端部分具有相同序列(末端長重複序列(Long Terminal Repeat，LTR))。因此認為自第7染色體之26694795起，於N1～N1S10出現此前之4倍左右之值。該轉位子之全長有4.1 kb，因此於圖17中僅顯示最初之連接點之部分。

1M1、3M1、5M1係由1粒與N1S6為同一世代之種子進行細胞培養，分別於1個月、3個月、5個月後進行再分化，自成為水稻個體之葉片提取DNA進行解析所獲得者，根據圖17所示之結果可知，計數隨培養時間而增大。認為其原因在於，轉位子係與培養時間成比例地轉移，拷貝數增加，產生拷貝數多型(CNV)。TTM2與TTM5係將與N1種子為同一世代之種子培養5個月後進行再分化之個體進行4世代自體繁殖所獲得之個體之DNA，其亦同樣地確認到拷貝數之增加。

(考察) 已知Tos17為僅於培養時活化而轉移之水稻之轉位子。Tos17為反轉錄轉位子，故藉由Tos17之拷貝之轉移，基因組上之Tos17之拷貝數增加而原件(original)不會被截取而轉移。因此，先前知曉Tos17藉由培養而轉移，拷貝數增加。

藉由本發明之方法檢測拷貝數之變異，結果與理論高度一致，根據圖17所示之計數，可理解隨著培養時間之延長，Tos17之拷貝數增加。

因此，證實藉由本發明之方法能夠檢測拷貝數多型。

認為例如此種拷貝數多型之檢測於培養細胞(例如iPS細胞等)中可用於品質管理。與上述水稻之培養細胞同樣地，於例如人之培養細胞(iPS等)中觀察到轉位子等引起之拷貝數變異之情形時，例如可用於判斷用於治療存在危險之可能性較高。

(相關申請) 本申請案係主張2017年7月24日提出申請之日本專利特願2017-142781號之優先權之利益，該申請案基於所有目的，將其揭示整體援用至本說明書中。進而，於本說明書中，本申請人於與本申請案同一天提出申請之名為「插入、缺失、倒位、易位、取代之檢測方法」之申請案(整理編號N92652/213040)及作為其基礎申請案之於2017年7月24日提出申請之日本專利特願2017-142782號(整理編號J1-17369162)基於所有目的，將所揭示之整體援用至本說明書中。 [產業上之可利用性]

本發明能夠用於藉由鹼基序列解析而檢測多型之所有領域，除用於DNA育種以外，亦可用於臨床檢查、iPS細胞之檢查、元基因組解析、表現解析等廣泛領域。 [序列表自由內容]

序列編號1～60：圖7之k-mer參照序列序列編號61～80：圖7之k-mer對象序列(存在變異之部分) 序列編號81～140：圖8之k-mer參照序列序列編號141～160：圖8之k-mer對象序列(存在變異之部分) 序列編號161～190：圖13之k－1(k＝20)序列序列編號191～221：(具體例)中使用之序列序列編號222～232：(例示之計算流程)中使用之序列序列編號233～266：實施例1中使用之引子之序列序列編號267～275：圖11之序列

1000‧‧‧系統

1001‧‧‧CPU

1003‧‧‧RAM

1005‧‧‧外部記憶裝置

1007‧‧‧輸出裝置

1009‧‧‧輸入裝置

1011‧‧‧通信設備

1020‧‧‧系統匯流排

1025‧‧‧輸入輸出I/F

1030‧‧‧資訊資料庫存儲部

1040‧‧‧程式存儲部

圖1係例示本發明之方法之一實施形態之流程圖。圖1中顯示於本發明之方法中可能進行之主要步驟之概要。圖2係例示本發明之方法之一實施形態之流程圖。圖2中顯示自參考序列之端開始依序獲得k-mer(k＝20)，將對象序列及參照序列之k-mer(k＝20)之頻度與位置資訊一同輸出的步驟之例。藉由使用此種輸出，可檢測CNV或插入、缺失、取代。圖3係例示本發明之方法之一實施形態之流程圖。圖3中顯示提供源於參考序列、對照序列(參照序列)及對象序列之k長部分序列之子集及各個部分序列之出現頻度的步驟之例。圖4係例示本發明之方法之一實施形態之流程圖。圖4中顯示將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型的步驟之例。圖5係例示本發明之方法之一實施形態之流程圖。圖5中顯示特定出參考序列中之多型之位置的步驟之例。圖6係例示本發明之方法之一實施形態之流程圖。圖6中顯示確認檢測出之多型的步驟之例。圖7顯示對照序列(N1)與對象序列(N1S7)之間之k-mer序列之比較結果之一部分。顯示對照序列及對象序列之k長部分序列子集中之各個部分序列、以及該部分序列各者於對照序列及對象序列之k長部分序列子集中出現之頻度。顯示藉由該比較，於對象序列中未檢測到源自對照序列之序列，相反地於參照序列中未檢測到源自對象序列之序列，因此可檢測多型。標註下劃線之鹼基於對照與對象中不同，表示多型。圖7係變異為同型之情形時進行觀察之結果之一例。圖7中之參照序列之k-mer部分序列從上往下分別對應於序列編號1～60，對象序列之k-mer部分從上往下對應於序列編號1～20、61～80、40～60。圖8顯示對照序列(N1)與對象序列(N1S7)之間之k-mer序列之比較結果之一部分。顯示對照序列及對象序列之k長部分序列子集中之各個部分序列、以及該部分序列各者於對照序列及對象序列之k長部分序列子集中出現之頻度。顯示藉由該比較，於對象序列中未檢測到源自對照序列之序列，相反地於參照序列中未檢測到源自對象序列之序列，因此可檢測多型。標註下劃線之鹼基於對照與對象中不同，表示多型。圖8係變異為異型之情形時進行觀察之結果之一例。圖8中之參照序列之k-mer部分序列從上往下分別對應於序列編號81～140，對象序列之k-mer部分從上往下對應於序列編號81～100、141～160、120～140。圖9係藉由使對照序列(N1)與對象序列(N1S5、N1S6、N1S7、N1S10)之k-mer序列之部分序列子集進行整列，從而顯示求出與水稻參考序列中自對應位置開始之序列對應的序列之出現頻度之結果的圖。根據k-mer序列之出現頻度之變化，可檢測出N1S7中產生異型變異，N1S10中產生同型變異。圖10顯示藉由多型邊緣檢測於對照序列(N1)與對象序列(N1S5、N1S6、N1S7、N1S10)之間檢測多型並進行確認所獲得之結果之一部分。Chr表示染色體編號，Pos表示染色體上之位置，Ref表示參考序列中之該位置之鹼基，Alt表示存在變異之情形時之該位置之鹼基。多型邊緣檢測一欄中顯示對照序列(N1)之20mer部分序列中之最終鹼基之出現頻度與各對象(標的)序列之20mer部分序列中之最終鹼基之出現頻度。將最高頻度之最終鹼基不同之部分作為多型進行檢測。驗證一欄中顯示相對於由參考序列製作之查詢序列集(Ref：野生型查詢集、Alt：變異型查詢集)的對照序列資料及標的序列資料之出現頻度。於基因型一欄中顯示最終判定之各部位中之各試樣之基因型(M：同型變異、H：異型變異、W：野生型)。圖11顯示藉由多型邊緣檢測於對照序列(N1)與對象序列(N1S5、N1S6、N1S7、N1S10)之間檢測多型並進行確認所獲得之結果之一部分。Chr表示染色體編號，Pos表示染色體上之位置，Ref表示參考序列中之該位置之鹼基，Alt表示存在變異之情形時之該位置之鹼基。多型邊緣檢測一欄中顯示對照序列(N1)之20mer部分序列中之最終鹼基之出現頻度與各對象(標的)序列之20mer部分序列中之最終鹼基之出現頻度。將最高頻度之最終鹼基不同之部分作為多型進行檢測。驗證一欄中顯示相對於由參考序列製作之查詢序列集的對照序列資料及標的序列資料之出現頻度。於基因型一欄中顯示最終判定之各部位中之各試樣之基因型(M：同型變異、H：異型變異、W：野生型)。圖12係顯示針對各代水稻樣品藉由PCR(polymerase chain reaction，聚合酶鏈鎖反應)法將成為對象之多型部分進行擴增，藉由桑格法(Sanger method)確認鹼基序列所獲得之結果的圖。關於各試樣之基因型，M表示同型變異、H表示異型變異、W表示野生型。Chr表示染色體編號，Pos表示染色體上之位置，Ref表示參考序列中之該位置之鹼基，Alt表示存在變異之情形時之該位置之鹼基。可知觀察到如N1、N1S1、N1S2、N1S3、N1S4、N1S5、N1S6、N1S7、N1S8、N1S9、N1S10般經過世代後產生異型變異，其後作為同型變異固定。又，與藉由本發明之方法檢測多型之結果高度一致，可理解本發明之方法之多型檢測具有較高精度。圖13顯示使用尼日利亞之約魯巴(Yoruba)族男性(NA18507)之序列資料，檢測相對於由參考基因組序列資料製作之參照(對照)序列之多型所獲得之解析結果之一部分。對象序列資料係下載由Illumina公司之次世代定序儀進行解析並於NCBI登錄、公開之資料使用。該鹼基序列集之實驗ID之URL為https://www.ncbi.nlm.nih.gov/sra/SRX016231，序列之登錄號為SRR034939～SRR034975之範圍。k－1長之序列從上往下分別對應於序列編號161～190。圖14係本發明中可能進行之確認步驟中之查詢序列集之製作之模式圖。上方之序列為參考序列，標註下劃線且加粗顯示之T表示檢測出之多型部位。可生成包含該多型部位之部分序列之集而製作查詢序列集。各序列從上往下分別對應於序列編號267～275。圖15A係模式性地表示本發明之系統之實施形態的圖。圖15B模式性地表示本發明之系統之另一實施形態的圖。圖16係模式性地表示本發明之方法之實施形態的圖。圖17係表示藉由本發明之方法進行之拷貝數多型(CNV)之檢測之結果之一部分的圖。拷貝數多型部位自水稻第7染色體之26694795位置(圖中以箭頭標示)開始。檢測到之拷貝數多型部位對應於反轉錄轉位子Tos17。該轉位子有4.1 kb，因此於圖17中僅顯示最初之連接點(junction)之部分。可理解藉由本發明之方法檢測到對應於培養時間之因轉移所引起之拷貝數之增加。圖18係表示將使用k-mer序列之頻度之多型檢測流程與使用部分序列之位置關係之多型檢測流程加以組合進行之情形時之一實施形態的流程圖。

Claims

一種在對象序列資料中檢測相對於對照序列資料之多型之方法，其包括： a)提供該對象序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟； b)提供該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度之步驟；及 c)將對象序列與對照序列進行比較，基於該出現頻度之分佈之比較而檢測多型之步驟；此處，k為該對象序列及該對照序列之任一較短者之全長以下之整數。
如請求項1之方法，其進而包括針對上述部分序列中之長度k－x之序列部分共通之每個序列，算出長度x之部分之出現頻度之分佈之步驟，此處，x為未達k之正整數。
如請求項2之方法，其中上述比較包括上述部分序列中之長度k－x之序列部分共通之序列中之長度x之部分之出現頻度之分佈之差異之比較。
如請求項1至3中任一項之方法，其包括將上述部分序列中之長度k－x之序列部分按每個單一序列進行分組之步驟，此處，x為未達k之正整數。
如請求項4之方法，其包括將上述長度k－x之序列部分進行排序之步驟。
如請求項5之方法，其包括將上述長度k－x之序列部分按字串排序之步驟。
如請求項1至6中任一項之方法，其中上述k為排除上述對象序列中之偶然相同之長度。
如請求項1至7中任一項之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，上述k為排除上述生物之基因組中不同部位之偶然相同之長度。
如請求項2至8中任一項之方法，其中長度x為1～2。
如請求項9之方法，其中長度x為1。
如請求項2至10中任一項之方法，其中上述長度x之部分存在於上述部分序列之末端。
如請求項9之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，上述長度x之部分為上述部分序列之3'末端。
如請求項2至12中任一項之方法，其中於在上述對照序列資料之子集與上述對象序列資料之子集之間，上述長度x之部分之序列之出現頻度不同之情形時，將該長度x之部分之序列作為對象序列資料中之相對於對照序列資料之多型進行檢測。
如請求項2至13中任一項之方法，其中於在上述對照序列資料之子集與上述對象序列資料之子集之間，存在上述長度x之部分之序列中最高頻度者不同的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之多型進行檢測。
如請求項2至14中任一項之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，於存在上述對象序列資料之子集中之上述長度x之部分之序列中，僅以雜訊以下之計數存在與上述對照序列資料之子集中之最高頻度者相同之長度x之部分之序列的長度k－x之序列部分之情形時，將該長度x之部分之序列作為對象序列資料中之同型多型進行檢測。
如請求項2至15中任一項之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，於對象子集中之上述長度x之部分之序列中存在與對照序列資料之子集中之最高頻度者相同之長度x之部分之序列、且存在與對照序列資料之子集中之最高頻度者不同之長度x之部分之序列的長度k－x之序列部分存在之情形時，將該長度x之部分之序列作為對象序列資料中之異型多型進行檢測。
如請求項1至16中任一項之方法，其中將與根據對象序列資料量預測之出現頻度相比，上述出現頻度較小之部分序列設為雜訊。
如請求項17之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，將出現頻度未達[(對象序列資料量)×(1－精度)]/(對象基因組大小)＋1之部分序列設為雜訊。
如請求項1至18中任一項之方法，其中上述對象序列資料為藉由次世代定序獲得之鹼基序列資料。
如請求項1至19中任一項之方法，其中上述對象序列資料為由個體獲得之序列資料，上述對照序列資料為由與該個體同種之其他個體、或資料庫獲得之序列資料。
如請求項1至20中任一項之方法，其中上述對象序列資料為由個體之組織試樣獲得之序列資料，上述對照序列資料為由該個體之其他組織、或資料庫獲得之序列資料。
如請求項1至21中任一項之方法，其中上述對象序列資料為由細胞試樣獲得之序列資料，上述對照序列資料為由其他細胞、或資料庫獲得之序列資料。
如請求項1至22中任一項之方法，其中上述多型為取代、插入、缺失、拷貝數多型(Copy Number Variation，CNV)、STRP(short tandem repeat polymorphism，短串聯重複序列多型)、倒位或易位。
如請求項23之方法，其中上述多型為取代。
如請求項1至24中任一項之方法，其進而包括特定出相對上述對象序列之參考序列中之上述多型之位置之步驟。
如請求項1至25中任一項之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，該方法進而包括特定出上述多型於基因組上之位置之步驟。
如請求項25或26之方法，其進而包括使用由參考序列或對照序列製作之查詢序列集，就檢測出之多型之部位與對象序列資料及/或對照序列資料進行比較而確認之步驟。
如請求項27之方法，其中上述查詢序列集包含將參考序列或對照序列中符合於上述多型之部位之字元取代為不同字元之變異型查詢序列集。
如請求項27或28之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，該方法進而包括對於對象序列資料及/或對照序列資料之互補鏈之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。
如請求項27至29中任一項之方法，其中上述對象序列資料及上述對照序列資料為鹼基序列資料，該方法進而包括對於對象序列資料及/或對照序列資料之具有變異型鹼基之序列資料，就檢測出之多型之部位與由參考序列或對照序列製作之查詢序列集進行比較而確認之步驟。
如請求項1至30中任一項之方法，其中上述對象序列資料及上述對照序列資料為源自生物之基因組之鹼基序列資料，上述基因組之序列不明。
如請求項1至31中任一項之方法，其進而包括由實驗結果或資料庫獲取對象序列資料或對照序列資料之步驟。
如請求項1至32中任一項之方法，其進而包括分配對象序列資料中之包含相對於對照序列資料之多型之部分序列中之含有非多型部分之至少一部分的序列作為該多型之標識符。
如請求項33之方法，其包括將上述多型之標識符匹配至參考序列，特定出參考上之該多型之位置。
一種程式，其係用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。
如請求項35之程式，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列顯示為檢測出之上述多型之名稱之步驟。
一種記錄媒體，其係存儲用於使電腦執行在對象序列資料中檢測相對於對照序列資料之多型之方法之程式者，該方法包括： a)將該對象序列資料之長度k之部分序列之子集保存至電腦中之步驟，此處，k為對象序列及對照序列之全長以下之長度； b)算出該對象序列資料之長度k之子集之各個部分序列之出現頻度之步驟； c)將該對照序列資料之長度k之部分序列之子集中之各個部分序列之出現頻度保存至電腦中之步驟；及 d)將對象序列與對照序列進行比較，基於該出現頻度之分佈之差異而檢測多型之步驟。
如請求項37之記錄媒體，其中上述方法進而包括將上述部分序列中之含有非多型部分之至少一部分的序列顯示為檢測出之上述多型之名稱之步驟。
一種系統，其係用於在對象序列資料中檢測相對於對照序列資料之多型者，該系統具備：序列資料處理部，其構成為提供該對象序列資料及該對照序列資料之長度k之部分序列之子集之各個部分序列之出現頻度，此處，k為對象序列及對照序列之全長以下之長度；及序列資料計算部，其構成為進行比較對象序列與對照序列，基於該出現頻度之分佈之差異而檢測多型之步驟。
如請求項39之系統，其中上述系統進而具備顯示機構，該顯示機構將上述部分序列中之含有非多型部分之至少一部分的序列顯示為檢測出之上述多型之名稱。
一種對象序列資料與對照序列資料之比較方法，其包括分配對象序列資料中之包含相對於對照序列資料之多型之部分序列中之含有非多型部分之至少一部分的序列作為該多型之標識符。
如請求項41之方法，其包括將上述多型之標識符匹配至參考序列，特定出參考上之該多型之位置。