TW201617444A

TW201617444A - ＴａｇＳＮＰ之選擇方法、選擇用電腦系統、及選擇用軟體、與搭載有對應於使用該選擇方法所選擇之ＴａｇＳＮＰ之核酸探針的ＤＮＡ微陣列

Info

Publication number: TW201617444A
Application number: TW104119849A
Authority: TW
Inventors: Masao Nagasaki; Kaname Kojima; Naoki NARIAI; Takahiro Mimori; Yosuke Kawai
Original assignee: Univ Tohoku
Priority date: 2014-06-20
Filing date: 2015-06-18
Publication date: 2016-05-16
Also published as: WO2015194655A1

Abstract

本發明之課題在於發現一種於進行SNP之填補時，可適切地選擇於DNA微陣列等中作為用以進行填補之手段而使用之核酸探針中所含之Tag SNP的手段。具體而言，本發明發現：為了於使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP之方法中，藉由將Tag SNP候補與該等之目標SNP之間之相互資訊量之和作為選擇Tag SNP之指標，可解決上述課題，從而提供一種基於該原理之電腦系統、電腦程式、以及搭載對應於藉由該等手段所選擇之Tag SNP之核酸探針群的DNA微陣列與其生產方法。

Description

Tag SNP之選擇方法、選擇用電腦系統、及選擇用軟體、與搭載有對應於使用該選擇方法所選擇之Tag SNP之核酸探針的DNA微陣列

本發明係關於基於核酸之遺傳分析之領域之發明，更詳細而言，提供一種用以基於關於人類基因組之單核苷酸多型性(SNP)之資訊，以更佳之準確度自更少之SNP資訊導出單個人類基因組中之SNP整體資訊之手段的發明。

已知，如人類的長相或體型、以及性格千差萬別般，人與人之間，遺傳密碼之鹼基序列亦於相當多之部分存在差異，通常，該遺傳密碼之差異被稱為多型性(polymorphism)。多型性已知有若干種類，其中SNP目前因與所謂定製醫療之關係而尤其受到關注。

另一方面，迄今為止之醫療主要致力於查明疾病之原因或開發治療方法。然而，現實中亦已知根據個人不會顯現出相同治療效果。

所謂定製(量身定製)醫療，意指並非統一地制定治療手段，而是所謂定製地採用適合每個患者之體質之治療方法之醫療。於瞭解該每個患者之體質時，本質之要素係每個人之遺傳資訊，目前，經過人類基因組之解讀，各種遺傳資訊與體質或疾病之關聯性日趨明瞭。其中，作為目前最受關注之人類之遺傳要素，可列舉SNP。

所謂SNP係single nucleotide polymorphism之簡稱，意指個人間之1個鹼基之差異(單核苷酸多型性)。基因之多型性中，最多存在的是 SNP，推斷人類基因組中存在3000萬個以上之SNP。並且，SNP被認為是考慮人類之個體差異時最重要之要素之一，目前對於SNP，進行有其與疾病或體質之關係、藥劑之效果之關係等之分析，已取得大量成果。

假如以SNP為中心進行個人基因分析，結果可特定出該個人之遺傳傾向、例如關於高血壓、糖尿病、癌症、心臟病、腦中風等被認為與生活習慣關聯較大之疾病之易罹患性，則亦可藉由進行事先之積極之飲食或運動等生活指導，而預先實施預防措置，從而不僅可助力人生獲得諸多成就，亦可期待遏制醫療費用之增加。又，即便於罹患疾病之情形時，若事先藉由SNP分析判明對於藥劑之有效性或副作用之危險性，則亦可事先避免無用之用藥或危險之用藥。

另一方面，逐漸判明此種與個人體質直接相關之SNP並非僅有1種，且實際上複數種SNP存在各種關聯，已明瞭SNP之分析宜全面進行。

基於上述情況，目前正嘗試設法將用作基因之全面解析手段之DNA微陣列應用於人類基因組中之SNP分析。

[先前技術文獻] [非專利文獻]

[非專利文獻1] The International HapMap 3 Consortium (2010) Nature 467, 52 - 58

於使用DNA微陣列進行SNP之分析之情形時，首先成為問題的是應搭載於DNA微陣列之SNP之核酸探針之數量。SNP之核酸探針(以下，亦稱為「核酸探針」)實質上係包括包含SNP鹼基之人類基因組上之鹼基序列片段或其互補鏈者。僅目前已知之SNP便有3000萬個以上，將對應於其等之核酸探針全部搭載於DNA微陣列而廣泛地用於SNP之檢測在目前無論於技術上抑或成本上均困難。

因此，進行有如下嘗試：藉由將搭載於DNA微陣列之核酸探針限定為與人類之體質或疾病等有關者，且進行稱為填補(imputation)之處理，而縮小成為該搭載對象之核酸探針之範圍。

該嘗試係著眼於基因組內之SNP相互關聯這一情況所進行之嘗試。帶有高關聯性之SNP集中於受限之區域(單倍型區塊)，填補係用以縮小作為搭載於DNA微陣列之對象之SNP之範圍之技術，其係基於如下想法：若自單倍型區塊中選出適當之SNP(Tag SNP)，則即便不對與Tag SNP密切相關之SNP(目標SNP)進行藉由實驗所進行之分型，亦可以較高之準確率推斷基因型。

上述先前技術文獻1揭示有如下嘗試：利用與目標SNP之關聯性，自Tag SNP候補適當地選擇帶有高準確率之連鎖之Tag SNP。

然而，現狀為，推斷精度較高之SNP檢測用之DNA微陣列中之核酸探針之搭載數量超過100萬個，而成本高。另一方面，若搭載數量少於100萬個，則有推斷精度下降，無法提供準確之基於SNP之疾病等之預測性的問題。

本發明之課題在於發現一種於進行該填補時更恰當地選擇於SNP檢測用之DNA微陣列等中作為用以進行填補之手段而使用之核酸探針所含之Tag SNP的手段。

本發明者等人針對將應用於RNA(ribonucleic acid，核糖核酸)之二次結構之預測或醫用圖像處理中之圖像之位置對準等之「相互資訊量」用作適當之Tag SNP之篩選之指標之情況進行了研究，結果驚訝地發現：若大幅度節約SNP檢測用之DNA微陣列等所使用之對應於Tag SNP之核酸探針數量，且基於利用該DNA微陣列等所獲得之結果進行填補，則可確保與現有之商用DNA微陣列等同等或其以上之精度，從而完成本發明。再者，如上所述，於本發明中，所謂「SNP」係single nucleotide polymorphism(單核苷酸多型性)之簡稱，與「核酸探針」同樣地意指單數及複數兩者。所謂「SNP群」或「核酸探針群」中之「群」，就概念而言，意指大量SNP或核酸探針之存在，但嚴格而言，亦指複數、即2個以上之SNP或核酸探針之存在。又，所謂「對應於Tag SNP之核酸探針」係用以特定該SNP之核酸探針，且係發明之實施方式之項目(3)之「本發明之陣列」之欄中所具體揭示者。

本發明提供下述內容之發明。

第一，本發明提供一種Tag SNP之選擇方法，其特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP的方法，並且a)以該人類基因組資訊中之SNP群為母群，將其中自成為Tag SNP候補之各個SNP之基因位點起規定為一定範圍之附近所存在之SNP設為目標SNP，算出該Tag SNP候補與該等目標SNP之間之相互資訊量之和，b)自全部Tag SNP候補中，將上述相互資訊量之總和之值大的Tag SNP候補，作為上述作為用以進行填補之手段而使用之核酸探針中所存在之Tag SNP，以該總和之遞減順序予以選擇。

第二，本發明提供一種DNA微陣列(亦稱為本發明之陣列)，其特徵在於搭載有對應於依據本發明之選擇方法所選擇之Tag SNP之核酸探針；本發明之陣列可藉由DNA微陣列之生產方法(以下，亦稱為本發明之陣列之生產手段)進行生產，該生產方法之特徵在於包括下述步驟(1)及(2)。

(1)第1步驟，其係依據本發明之選擇方法而選擇Tag SNP；(2)第2步驟，其係基於藉由第1步驟所選擇之Tag SNP，將用以檢測檢體中之人類基因組中之該Tag SNP之基因型之核酸探針搭載於DNA微陣列。

第三，本發明提供一種下述電腦系統(以下，亦稱為本發明之電腦系統)。即，本發明之電腦系統係選擇Tag SNP之電腦系統，其特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊而使用之手段之對應於Tag SNP之核酸探針群，而選擇該Tag SNP的電腦系統，該電腦系統具備記錄部及演算處理部，(A)該記錄部中，將自該人類基因組資訊讀出之Tag SNP候補之資訊、及自該等Tag SNP候補之基因位點起規定為一定範圍之附近所存在之SNP之資訊作為目標SNP資訊，至少記錄有(1)各個Tag SNP候補之人類基因組上之基因位點、(2)各個人類基因組資訊中之Tag SNP候補之基因型、(3)目標SNP之人類基因組上之基因位點、(4)各個人類基因組資訊中之目標SNP之基因型；(B)該演算處理部基於來自上述記錄部之(A)之(1)~(4)之資訊，計算與每各個Tag SNP候補對應之目標SNP之間之相互資訊量之和，選擇該等中該和最大之Tag SNP候補，選擇作為第一Tag SNP；(C)基於將與至此所選擇之Tag SNP對應之目標SNP群之資訊去除後之上述Tag SNP資訊及目標SNP資訊，再次藉由上述(B)步驟選擇帶有最大之相互資訊量之和之Tag SNP候補，選作第二Tag SNP；(D)重複上述步驟(B)、(C)，為了第M(M為自然數)之Tag SNP之選擇而進行該重複步驟，進行其餘之M-2次該重複步驟，直至該自然數M之值達到所規定之作為用以進行填補之手段而使用的對應於所選擇之Tag SNP之核酸探針之預定數量。

該「電腦系統」之範疇為「物」，亦可換為「裝置」。

第四，本發明提供一種下述電腦程式(以下，亦稱為本發明之程式)。即，本發明之程式之特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP之電腦程式，並且包含使電腦實現如下功能之演算法：(A)第一功能，其係為了進行演算處理部中之處理，而自記錄部讀出下述(1)~(4)之資訊，該記錄部中，將自人類基因組資訊讀出之該Tag SNP候補之資訊、及自該等Tag SNP候補之基因位點起規定為一定範圍之附近所存在之SNP之資訊作為目標SNP資訊，而記錄有(1)各個Tag SNP候補之人類基因組上之基因位點、(2)各個人類基因組資訊中之Tag SNP候補之基因型、(3)目標SNP之人類基因組上之基因位點、(4)各個人類基因組資訊中之目標SNP之基因型；(B)第二功能，其係基於藉由上述第一功能讀出之(1)~(4)之資訊，計算與每個各Tag SNP候補對應之目標SNP之間之相互資訊量之和，選擇該等中該和最大之Tag SNP候補，選擇作為第一Tag SNP；(C)第三功能，其係基於將與至此所選擇之Tag SNP對應之目標SNP群之資訊去除後之上述Tag SNP資訊及目標SNP資訊，再次藉由上述第二功能選擇帶有最大之相互資訊量之和之Tag SNP候補，選作第二Tag SNP，其後重複步驟(B)、(C)，為了第M(M為自然數)之Tag SNP之選擇而進行其餘之M-2次該重複步驟，直至該自然數M之值達到所規定之作為用以進行填補之手段而使用的對應於所選擇之Tag SNP之核酸探針之預定數量。

本發明進而提供一種可於電腦中讀取之記錄媒體(以下，亦稱為本發明之記錄媒體)，其特徵在於記錄有本發明之程式。本發明之電腦系統之典型係以執行本發明之程式為特徵者。

(I)於本發明之選擇方法與電腦系統中，就選擇之效率性之觀點而言，「用於對Tag SNP候補之各者算出相互資訊量之總和之目標SNP群」較佳為包含預先根據相互資訊量以外之指標而縮小範圍之目標SNP群。就同樣之觀點而言，較佳為於本發明之程式中，於使上述第二功能實現之演算法之前階段，設置有如下演算法，即，根據相互資訊量以外之指標選擇目標SNP群，而預先縮小成為發揮上述第二功能之對象之目標SNP群之範圍。

此處，關於「相互資訊量以外之指標」，Tag SNP候補與自該Tag SNP之基因位點起規定為一定範圍之附近所存在之目標SNP之間之連鎖不均衡值、例如典型的是r²連鎖不均衡值或d連鎖不均衡值等。於選擇Tag SNP時，較理想為排除該等連鎖不均衡值小於特定閾值之SNP，將其他SNP作為目標SNP，設為用以選擇Tag SNP之相互資訊量之計算對象。上述「相互資訊量以外之指標」中，較佳為使用「r²連鎖不均衡值」。使用該「r²連鎖不均衡值」之情形時之該值之閾值較佳為0.70~0.85之範圍。若該閾值超過0.85，則事先之範圍縮小過於嚴苛，將原本較佳之Tag SNP候補自選擇對象排除之危險性增大，若未達0.70，則計算相互資訊量之總和之對象變得過多，可見事先之範圍縮小較寬鬆而選擇步驟低效化之傾向。

(II)本發明(選擇方法、電腦系統、程式)中之Tag SNP候補之基因位點之「規定為一定範圍之附近」較佳為自該Tag SNP基因位點起之上游及下游各自500kbp以內，進而較佳為100~500kbp。

(III)於本發明(選擇方法、電腦系統、程式)中，對於「所選擇之Tag SNP之個數」，要求：作為為了作為用以進行填補而使用之手段之核酸探針而選擇之Tag SNP之個數，為進行使用該手段之填補之結果滿足特定性能之個數以上。該「特定性能」之確定指標並無特別限定，較佳為可更客觀地反映使用Tag SNP資訊之手段之填補之性能的指標。

若列舉該適宜之指標之一例，則可列舉藉由實驗對MAF(Minor Allele Frequency，次要對偶基因頻率)5%以上之SNP進行分型而獲得之基因型與藉由填補而推斷之基因位點之相關係數之平方之平均值成為0.94以上，較佳為0.95以上，更佳為0.96以上之個數以上。若少於該個數，則難言基於所選擇之Tag SNP之分型結果進行填補之結果與實際之基因型之相關性與先前產品相比優異，難以充分地發揮出本發明中所期待之相對於先前產品之有用性。進而，亦可使用使藉由MAF 3~5%下之SNP之填補所獲得之基因型與實際之基因型之相關係數之平方之平均值為0.82以上、較佳為0.84以上、更佳為0.87以上之指標，或使藉由MAF 1~3%下之SNP之填補所獲得之基因型與實際之基因型之相關係數之平方之平均值為0.73以上、較佳為0.75以上、更佳為0.79以上之指標。

該個數之上限並無特別限定，於本發明完成時，就取決於所使用之個數之經濟性與對於SNP之預測內容之準確性之兩方面之觀點而言，宜為100萬個以內，進而為70萬個以內。再者，作為具體之個數下限之標準，為30萬個左右。如下述之實施例中所示，可知即便為30萬個，亦可進行基於上述MAF之超出基本水準之優異之填補。並且，設想較佳為約40萬個以上，更佳為約50萬個以上，極佳為約60萬個以上，但可藉由根據預定之本發明之陣列之性能，參照基於上述MAF之指標等，而進行適當個數之選擇。於日本專利特願2014-223834號中，於該說明書中揭示有實際進行日本人之67.5萬個以內之Tag SNP之特定。

上述所謂「30萬個左右、40萬個左右」等表示SNP之個數之「左右」，與「約」相同，尤其表示只要為某程度之個數之幅度範圍內，則特定之個數、例如「30萬個」之Tag SNP之填補性能實質上不變。具體而言，只要為特定之Tag SNP數之1%以內、嚴格而言0.5%以內之差異，則實質之填補性能無差異。其係自暫時選擇之Tag SNP群去除若干個SNP之情形時之成為標準之值。進而，於自暫時選擇之Tag SNP去除之SNP實際上無助於填補者之情形時，即便進行SNP之去除，填補性能中之影響亦進而變得輕微。

設想於依據本發明之選擇方法所選擇之Tag SNP群中，稍確認到存在如下之Tag SNP，即，於實際進行對應於該等之核酸探針化而搭載於DNA微陣列之情形時，於現實中應用本發明之母群中未作為SNP被檢測到，而未顯示出適當填補性能者。該情況主要藉由事後之驗證而明瞭，但亦可進而將不發揮出此種功能之SNP自進而使用之Tag SNP群中去除。由於應進行此種去除之SNP之數量相對極少(最多為0.1%左右)，因此即便進行此種去除，亦充分地收斂於上述「填補性能實質上不變之範圍」。換言之，於依據本發明之選擇手段而選擇特定個數之Tag SNP之情形時，可預見其中相當於如上所述之比例(%)之個數之SNP之去除量。

(IV)對於執行本發明之選擇方法與電腦系統時所使用之「人類基因組資訊」，亦可基於人類基因組資料庫之資訊、例如國際千人基因組項目之以全人類為對象之資料庫而進行，但藉由基於範疇進一步縮小之人類基因組資訊，而有基於Tag SNP之SNP之推斷之準確率提高之傾向。適宜為亞洲之蒙古人種、更詳細而言為日本人、中國人、馬來人、波利尼西亞人、密克羅尼西亞人等；白色人種、更詳細而言為義大利人、英國人、伊朗人、印度人、拉普人等；印第安人種、更詳細而言為愛斯基摩人、巴西印第安人、阿拉斯加印第安人等；黑色人種、更詳細而言為尼日利亞人、班圖人、布須曼人等；澳大利亞人、更詳細而言為澳大利亞原住民、巴布亞新幾內亞人等；亦可設為人種級、以及更小之範疇，進而，亦可藉由縮小至特定地域或疾病之罹患者之群體等，而準確地進行地方病之分析或預測等。但是，前提均為存在具體之人類基因組資訊。於本實施例中，基於「東北大學Tohoku Medical Megabank Organization(ToMMo)」之1070名日本人之人類基因組之資料庫進行驗證，驗證了本發明之有用性。

(V)利用對應於本發明(選擇方法、電腦系統、程式)中所選擇之Tag SNP的核酸探針群所檢測之基因型可適宜地用於如上所述對人類基因組之SNP資訊進行填補。該「用以對利用對應於Tag SNP之核酸探針群被檢測之基因型進行檢測之手段」只要為可檢測SNP之基因型者，則無特別限定，可列舉目前提供或將來提供之可檢測SNP之核酸檢測手段。具體而言，可列舉DNA微陣列、新一代定序儀NGS、桑格(Sanger)定序儀、MassARRAY(註冊商標)等。該等中，目前最佳之手段之一係藉由利用上述本發明之陣列所提供之DNA微陣列所進行之SNP檢測。

(VI)使用有可檢測該Tag SNP鹼基中之鹼基之多型性的核酸探針之具體之本發明之陣列之生產方法可依據本發明時公知之DNA微陣列之生產方法進行，亦可應用將來提供之DNA微陣列之生產法。

(VII)其他SNP之附加

又，於本發明中，可於Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，優先納入該Tag SNP中，或優先採取納入之手段。

即，於本發明之選擇法中，可於藉由本發明之選擇方法所進行之Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，優先納入該Tag SNP中，亦可於本發明之陣列中搭載對應於該其他SNP之核酸探針群。

又，於本發明之電腦系統中，可於藉由本發明之選擇方法所進行之Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，將該等其他SNP設為應選擇之SNP而優先納入。

又，於本發明之程式中，可設置實現下述功能之演算法：於藉由本發明之選擇方法所進行之Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，將該等其他SNP優先特定為應選擇之SNP。以下，於無特別說明之情形時，所謂「其他SNP」，意指上述「其他1種或2種以上之SNP」。

於納入上述其他SNP時，較佳為去除其他SNP與藉由本發明之選擇方法所選擇之Tag SNP之重複。去除該重複之SNP之一者的手段並無特別限定，例如可列舉如下等手段：事先自進行上述Tag SNP之選擇時使用之SNP之母群去除優先納入之SNP，或事先採取用以進行之手段；或事後將已選擇之Tag SNP中之與其他SNP重複之SNP自應納入之其他SNP中去除，或採取用以去除之手段。

作為其他SNP，可較佳地列舉於本發明之選擇方法中難以被選擇但於實用上有用之SNP。藉由優先使用用以特定該等之核酸探針，可達成進一步對DNA陣列賦予特徵等目的。

其中，其他SNP並非為了基於其等之填補而被納入，而是為了將其等之檢測本身直接作為特定之疾病或遺傳基質之指標而被納入。因此，於進行藉由利用本發明之選擇方法所選擇之Tag SNP群之填補性能之評價時，將其他SNP之納入部分排除。即便假定其他SNP中存在與Tag SNP重複者，相對而言其數量亦甚微，於評價填補性能時，事實上可忽視。於日本專利特願2014-223834號之實施例4-3中，勉強包含被納入之其他SNP部分而對填補性能進行了評價。然而，此係為了確認約65萬個SNP中之相當數量(2萬個以上)之其他SNP、即大致包含Tag SNP以外之SNP之情形時之對填補性能產生之影響輕微。具體而言，自67.5萬個Tag SNP群去除21,059個Tag SNP，代之以附加相同數量(21,059個)之「其他SNP」。勉強包含該等「其他SNP」而算出之填補性能係MAF1~3%之SNP之r²之平均值為0.804，於MAF3~5%之SNP時為0.884，於MAF5%以上時為0.959，顯示出超越現有之商用DNA陣列(OMNI2.5)之優異填補性能。

對於成為用作「其他SNP」之候補之實用上有用之SNP，可列舉：(a)與Tag SNP之間之連鎖不均衡之程度較弱而難以藉由填補以充分之精度推斷基因型之SNP、(b)Y染色體與線粒體之SNP、(c)根據迄今為止之研究被報告與疾病有關聯之SNP、(d)HLA(Human Leukocyte Antigen，人類白血球抗原)區域之SNP、(e)被報告與藥物代謝有關聯之SNP等。若更具體地對該等進行說明，則如下所述。

(a)與Tag SNP之間之連鎖不均衡之程度較弱而難以藉由填補以充分之精度推斷基因型之SNP：

對於該分類之其他SNP，Tag SNP中與本發明之Tag SNP之間之r²連鎖不均衡值較低(例如r²<0.2)之SNP屬於該分類。自該等中選擇對蛋白質之胺基酸序列產生影響之SNP時於實用上較佳。

(b)Y染色體與線粒體之SNP：

對於該分類之其他SNP，由於Y染色體區域不會產生遺傳重組，因此基於r²連鎖不均衡值所進行之Tag SNP之選擇不帶來效果。該等SNP由於數量較少，故而與連鎖不均衡值r²無關地自目標SNP中全部選擇時相對容易。

(c)根據迄今為止之研究被報告與疾病有關聯之SNP：

該分類之其他SNP被收錄於資料庫GWAS(Genome-wide Association Study，全基因組關聯研究)目錄(NHGRI GWAS Catalog)(http：//www.genome.gov/gwastudies/：Welter,D.et al.The NHGRI GWAS Catalog,a curated resource of SNP-trait associations. Nucleic Acids Res.42,D1001-6(2014).)。

(d)HLA區域之SNP：

關於該分類之其他SNP，HLA區域係被大量報告與疾病有關聯之區域，與連鎖不均衡值r²無關地自Tag SNP中選擇時於實用上較佳。

(e)被報告與藥物代謝有關聯之SNP：

關於該分類之其他SNP，存在關於使用Affymetrix^(R)DMET^TM plus(Affymetrix,Inc)進行研究之結果之下述文獻，可將該等文獻中所記載之SNP用作其他SNP。

[Technology reviews(技術綜述)]

‧Burmester J. K., et al. DMET microarray technology for pharmacogenomics - based personalized medicine. Methods in Molecular Biology 632: 99 - 124 (2010).

‧ Sissung T. M., et al. Clinical pharmacology and pharmacogenetics in a genomicsera: the DMET platform. Pharmacogenomics 11 (1): 89 - 103 (2010).

‧ Deeken J. F. The Affymetrix DMET platform and pharmacogenetics in drug development. Current Opinion in Molecular Therapeutics 11 (3): 260 - 268 (2009).

[Identification of new drug-related biomarkers(與新藥相關之生物標誌物之鑑定)]

‧ Caldwell M. D., et al. CYP4F2 genetic variant alters required warfarin dose. Blood 111 (8): 4106 - 12 (2008).

‧ McDonald M. G., et al. CYP4F2 Is a vitamin K1 hydroxylase: A molecular explanation for altered warfarin dose in carriers of the functionally defective V433M variant. 15th North American Regional ISSX meeting Abstract 67 (2008).

[Drug development and safety research(藥物開發與安全性研究)]

‧ Mega J. L., et al. Cytochrome p - 450 polymorphisms and response to clopidogrel. New England Journal of Medicine 360 (4): 354 - 62 (2009).

‧ U.S. Food and Drug Administration. Early communication about an ongoing safety review of clopidogrel bisulfate (marketed as Plavix).

‧ Dumaual C., et al. Comprehensive assessment of metabolic enzyme and transporter genes using the Affymetrix Targeted Genotyping System. Pharmacogenomics 8 (3): 293 - 305 (2007).

‧ Daly T. M., et al. Multiplex assay for comprehensive genotyping of genes involved in drug metabolism, excretion, and transport. Clinical Chemistry 53 (7): 1222 - 30 (2007).

[Genotype/phenotype databasing(基因型/表現型資料庫)]

‧ Man M., et al. Genetic variation in metabolizing enzyme and transporter genes: Comprehensive assessment in 3 major East Asian subpopulations with comparison to Caucasians and Africans. Journal of Clinical Pharmacology doi: 10.1177/0091270009355161 (2010).

‧ UNC's McCleod discusses 'practical' approach to bringing pharmacogenetics to all countries. GenomeWeb Pharmacogenomics Reporter (2010).

根據本發明，可提供一種可大幅度節約SNP檢測用之DNA微陣列等用以進行填補之手段中所使用之Tag SNP數量，且基於該手段所獲得之結果之填補性能可確保與現有之商用DNA微陣列等同等或其以上之精度之手段、藉由該手段所生產之DNA微陣列與其生產方法。更具體而言，本發明基於上述Tag SNP數量之大幅度節約與優異之填補性能，而可廉價地進行SNP檢測用之核酸探針之選擇，從而可廉價地提供之遺傳資訊之服務。又，亦可藉由大幅度節約核酸探針數量，而使發揮出優異填補性能所需之陣列檢測部精簡化，認為對今後之基因分析技術之性能之提高大有助益。進一步附言，下述實施例係揭示以日本人為母群之結果，本發明可應用於基於所有人種之母群，進而亦可應用於不同人種之填補。

S1‧‧‧記述本發明之程式之第1功能的步驟

S1'‧‧‧記述上述S1以後所選擇之Tag SNP與目標SNP之初始設定狀態的步驟

S2‧‧‧記述本發明之程式之第2功能之前半部分的步驟

S2-1(1)‧‧‧記述作為S2中之第1個開始迴圈端之功能的步驟

S2-1(2)‧‧‧記述為上述S2-1(1)之迴圈之終端之情況的步驟

S2-2‧‧‧記述Tag SNP候補之初始化的步驟

S2-3(1)‧‧‧記述作為S2中之第2個開始迴圈端之功能的步驟

S2-3(2)‧‧‧記述為上述S2-3(1)之迴圈之終端之情況的步驟

S2-4‧‧‧記述是否進行得分之計算之判斷的步驟

S2-5‧‧‧記述已計算得分之Tag SNP之得分之相加的步驟

S3‧‧‧記述藉由S2所算出之得分最大之1個Tag SNP候補之選出的步驟

S3-1‧‧‧記述得分最大之Tag SNP候補之序號之步驟

S3-2(1)‧‧‧記述作為S3中之開始迴圈端之功能的步驟

S3-2(2)‧‧‧記述為上述S3-2(1)之迴圈之終端之情況的步驟

S3-3‧‧‧記述是否進行下一步驟中之更新記述之判斷的步驟

S3-4‧‧‧記述進行更新記述之功能的步驟

S4‧‧‧記述所選擇之Tag SNP候補之數量是否達到預定數量之判斷的步驟

圖1係概略表示本發明之程式之內容的流程圖。

圖2係更具體地表現圖1之流程圖。

如上所述，本發明之目的之一在於：大幅度節約對應於用以使用SNP檢測用之DNA微陣列等進行填補之手段中所使用之搭載於該陣列之核酸探針之Tag SNP數量，且選擇基於藉由該手段所獲得之結果之填補性能可確保與現有之商用DNA微陣列等同等或其以上之精度之Tag SNP群，而製備搭載有對應於該等之核酸探針的DNA微陣列。此目的可依據上述本發明之選擇方法而達成。並且，該本發明之選擇方法可適宜地藉由在本發明之電腦系統中執行本發明之程式而進行。

(1)本發明之選擇方法

於本發明之選擇方法中之「包含已特定多人之基因型之SNP群之資訊的人類基因組資訊」中，關於SNP群之特定手段，可使用公知之統計學處理，自使用新一代定序儀(NGS)等之多個人類基因組之鹼基序列進行特定。

又，為了獲得作為本發明之選擇方法之指標之「相互資訊量」或「r²連鎖不均衡值」等連鎖不均衡值，必須自上述「各個SNP之人類基因組上之基因位點與基因型」算出Tag SNP與目標SNP之基因型之頻率。該頻率可藉由通常方法獲得。若進行SNP群之單倍型之特定，則可更精確地進行SNP群之連鎖不均衡值及相互資訊量之計算，故而較佳。於該情形時，只要將上述基因型之頻率換為構成基因型之對偶基因之頻率，且將2個SNP間之基因型之組合之頻率換為所特定之單倍型之頻率置換即可。進而，作為單倍型之特定手段的「衰減處理」為公知。

衰減處理之方法大致分為如下兩種。

(A)利用分離位點(多型性位點)間之連鎖不均衡之手段(SHAPEIT2：Delaneau et al.,Improved whole chromosome phasing for disease and population genetic studies,Nature Methods,2013；MaCH：Li et al.,MaCH：using sequence and genotype data to estimate haplotypes and unobserved genotypes,Genetic Epidemiology,2010)

該方法通常使用1000人以上之群之基因型資料，統計性地進行衰減之方法，於存在對偶基因頻率較高(5%以上)之變異之位點處精度較高，但對於對偶基因頻率較低之位點，有因資料數量不足而導致精度降低之傾向，為了獲得較高之精度，需要龐大之樣本群之基因型。

(B)利用定序儀之定序片段資訊之方法(GATK Read Backed Phasing(開發者Broad Institute)；HapCompass：Aguiar D.,and Istrail S.,Hapcompass：a fast cycle basis algorithm for accurate haplotype assembly of sequence data,Journal of Computational Biology,2012)

該方法係藉由在以橫跨異質接合位點間之形式獲得定序儀之定序片段之情形時，調查定序片段內之鹼基而進行衰減之方法，對於對偶基因頻率較低之位點，亦可進行衰減，但由於定序儀之定序片段之長度通常最長亦限於數百bp，因此有可衰減之範圍有限之傾向。但是，隨著新一代定序儀技術之進步，讀長不斷延長。

於本發明之選擇方法中，

a)以該人類基因組資料庫中之SNP群為母群，將其中自成為Tag SNP候補之各個SNP之基因位點起規定為一定範圍之附近所存在之SNP設為目標SNP，算出該Tag SNP候補與該等目標SNP之間之相互資訊量之和。

所謂相互資訊量係指於2個概率變量x與y依照概率分佈P(x)與P(y)，且x與y之同時概率依照P(x，y)時由下述式所定義之量。

於本發明中，x、y分別為2個不同之SNP之基因型，p(x)與p(y)對應於其頻率。p(x，y)係於2個SNP同時觀察到其等基因型之頻率。可依照該定義算出「Tag SNP候補與目標SNP之相互資訊量」。換言之，作為算出相互資訊量之前提，除了各個Tag SNP候補之基因型之頻率以外，亦必須算出同時觀察到自各個Tag SNP候補之基因位點起規定為一定範圍之附近內所存在之各個目標SNP之基因型之頻率。但是，於進行有SNP群之單倍型之特定之情形時，只要將基因型之頻率換為構成基因型之對偶基因頻率，且將於2個SNP同時觀察到基因型之頻率換為單倍型之頻率即可。

可算出以此方式算出之「Tag SNP候補與該等目標SNP之間之相互資訊量」各者之和，而獲得本發明之選擇方法中之指標之本質要素。

然後，可藉由b)自全部Tag SNP候補中，將上述相互資訊量之總和之值較大之Tag SNP候補，以該總和之遞減順序選作上述作為用以進行填補而使用之手段之核酸探針中所存在之目標SNP，而進行本發明之選擇方法。

如上所述，於本發明之選擇方法中，就進行Tag SNP之選擇之效率化之觀點而言，目標SNP群較佳為預先藉由上述相互資訊量以外之指標縮小範圍而構成。其中尤其適宜之所謂「r²連鎖不均衡值(R平方值或Rˆ2)」，係與2個SNP之間之基因型之頻率有關的皮爾遜(Pearson)之相關係數，表示0~1之值，表示越接近1，具有越強之連鎖不均衡之指標。但是，於進行有SNP群之單倍型之特定之情形時，只要將基因型之頻率換為構成基因型之對偶基因頻率，且將於2個SNP同時觀察到基因型之頻率換為單倍型之頻率即可。

藉由事先選擇該r²連鎖不均衡值等連鎖不均衡值中連鎖不均衡性較大而為一定以上之目標SNP群，可有效率地進行本發明之選擇方法。關於r²連鎖不均衡值之選擇之閾值，上文已說明。進而，關於「規定為一定範圍之附近」、「應選擇之Tag SNP之個數」，上文亦已說明。並且，關於「其他SNP之納入」，上文亦已說明。

(2)本發明之電腦系統與電腦程式

本發明之電腦系統係成為進行上述本發明之選擇方法之手段之系統，本發明之程式係具備用以使本發明之電腦系統進行本發明之選擇方法之演算法之電腦程式。所謂「演算法」，與電腦領域之通常概念相同，意指以公式化之形式表現用以解決問題之順序者。

本發明之電腦系統可具備與通常之電腦系統相關之硬體。即，除了具備通常相當於硬磁碟驅動器之「記錄部」、相當於CPU(Central Processing Unit，中央處理單元)之「演算處理部」以外，具備例如相當於RAM(Random Access Memory，隨機存取記憶體)之「暫時記憶部」、相當於鍵盤、滑鼠、觸控面板等之「操作部」、相當於顯示器之「顯示部」、相當於與操作部對應之串行或並行介面等之「輸入輸出介面(IF)部」、視訊記憶體與D/A轉換部，且具備輸出與顯示部之視訊方式對應之類比信號之「通信介面(IF)部」。藉由該通信IF部，可與外部之資訊、尤其是人類基因組資料庫等之人類基因組資訊進行資料交換。

以下，只要未特別說明，則說明為本發明之電腦系統之「演算處理部」所進行之處理。「演算處理部」對「操作部」進行操作，經由「通信IF部」取得尤其是人類基因組資料庫之資料，並記錄於「記錄部」，適當地自該「記錄部」將資料讀出至「暫時記憶部」，進行特定之處理後，再次將其結果記錄於「記錄部」。該「演算處理部」製作促進「操作部」之操作之畫面資料或顯示處理結果之畫面資料，經由輸入IF部之視訊RAM，將該等圖像顯示於「顯示部」。本發明之程式於使用時或預先記錄於「記錄部」或外部之硬體資源，視需要於「演算處理部」中進行依據所記載之演算法之演算處理。

圖1係概略表示本發明之程式之內容的流程圖，圖2係更具體地表現圖1之流程圖。步驟S1於圖1、圖2中共通，係「自包含各個SNP之部位(染色體、位置)與各個人之基因型之資訊之輸入檔案讀出目標SNP、Tag SNP候補、及其等之基因位點之基因型」之步驟。於下述實施例中，該輸入檔案係使用包含參考面板、即由Tohoku Medical Megabank Organization(ToMMo)使用NGS(新一代定序儀)確定之1070個日本人之全長基因組之資料檔案中發現變異之染色體部位之資訊之檔案作為人類基因組資訊之一例。

該步驟S1記述有本發明之程式之第一功能。即，該步驟S1記述有如下之「第一功能」：為了進行演算處理部中之處理而自記錄部讀出下述(a)~(d)之資訊，該記錄部中，於包含多人之基因型之人類基因組資訊中，記錄有(a)各個Tag SNP候補之人類基因組上之基因位點、(b)各個人類基因組資訊中之Tag SNP候補之基因型、(c)目標SNP之人類基因組上之基因位點、 (d)各個人類基因組資訊中之目標SNP之基因型。

如上所述，作為該步驟S1之前步驟，可設置用以優先納入「其他SNP」之步驟。於該情形時，較佳為設置自上述Tag SNP候補將該其他SNP去除之步驟。該事先納入之步驟較佳為與下述事後納入之步驟擇一地設置。

圖2所示之步驟S1'表示有關於以後所選擇之Tag SNP與目標SNP之初始設定狀態。於步驟S1'中，所謂「s」，表示所選擇之Tag SNP之數量，於該時間點記述「s=0」、即未選擇任何Tag SNP之情況。與此相關，所謂「S=[0，…，0]」，表示Tag SNP候補(行[]內之0之個數為待詳查之SNP之數量；於其為1之情形時，表示該1所示之SNP被選擇為Tag SNP候補)全部未被選擇。對於「T=[0，…，0]」，將上述「Tag SNP候補」替換為「目標SNP」而表示同樣之內容。

圖1之步驟S2係對於藉由步驟S1自記錄部讀出之人類基因組資訊，「對於未選擇之全部Tag SNP候補計算得分」之步驟。於該步驟S2中，記述有本發明之程式之第二功能之前半部分。圖2之步驟S2-1(1)、S2-2、S2-3(1)、S2-4、S2-5、S2-3(2)、及S2-1(2)相當於該圖1之步驟S2。將該等統稱為「步驟S2」。再者，步驟S2-1(1)/(2)、及步驟S2-3(1)/(2)分別為一組迴圈(loop)端。

於步驟S2中，記述有如下功能：基於藉由上述第一功能而讀出之(1)~(4)之資訊，針對各個Tag SNP候補，逐個計算與對應於其之目標SNP之間之相互資訊量之和，該等中，將該和設為得分。所謂相互資訊量，係藉由上述內容之數值計算所算出之資訊概念，作為算出之前提，除了各個Tag SNP候補之基因型之頻率以外，亦必須算出自各個Tag SNP候補之基因位點起規定為一定範圍之附近內所存在之目標SNP各者中之該Tag SNP候補與目標SNP候補之基因型之組合之頻率，該等頻率計算較佳為於該步驟S2中進行。

又，於本例中，揭示有根據規定r²連鎖不均衡值(Rˆ2)之下限之閾值進行針對各個Tag SNP計算相互資訊量之目標SNP範圍縮小的較佳態樣。r²連鎖不均衡值之算出方法如上所述，閾值之較佳範圍亦如上所述，但下述實施例中係使用「r²>0.8」作為閾值。

圖2所示之步驟S2-1(1)係分別逐個選擇M個Tag SNP候補「i」之開始迴圈端。步驟S2-2之「得分：I(i)=0」於該時間點表示藉由步驟S2-1(1)所選擇之Tag SNP候補「i」之初始化。步驟S2-3(1)係分別逐個選擇N個目標SNP「j」之開始迴圈端。

步驟S2-4表示進行是否計算得分之判斷的步驟。於Tag SNP候補「i」和與其作為一組被詳查之目標SNP「j」之組合中，所謂「L[i，j]<=L0」，表示作為Tag SNP候補「i」與目標SNP「j」之基因組上之距離(bp)的「L0」為特定值以下。即，所謂「L0」，表示自Tag SNP候補之基因位點起規定為一定範圍之附近內之距離。該距離如上所述。又，所謂「R[i，j]>=R0」，表示Tag SNP候補「i」與目標SNP「j」之間之r²連鎖不均衡值為閾值「R0以上」。該閾值亦如上所述。關於T[j]，於詳查結束之目標SNP「j」已被1個以上之Tag SNP候補覆蓋之情形時顯示1，於未被覆蓋之情形時顯示0。即，若T[j]=0，則表示所選擇之目標SNP「j」未被成組之Tag SNP候補「i」覆蓋。該步驟2-4被記述為如下步驟：若其判斷框內之條件為「Yes」，則進入下一步驟S2-5，若為「No」，則判斷為再次返回步驟S2-3(1)。

步驟S2-5係如下步驟：於步驟S2-4中判斷為「Yes」之情形時，計算得分，將其值與Tag SNP候補「i」相加。如上所述，所謂「得分」係指Tag SNP候補「i」與成組而被覆蓋之目標SNP「j」之間之相互資訊量。

步驟S2-3(2)係上述選擇目標SNP之步驟S2-3(1)之迴圈終端，步驟S2-1(2)係上述選擇Tag SNP候補之步驟S2-1(1)之迴圈終端。藉由該等迴圈，而更新被詳查之Tag SNP候補與目標SNP之組。

圖1所示之步驟S3係「選出1個步驟S2中所算出之得分最大之Tag SNP候補」之步驟。該步驟S2中記述有本發明之程式之第二功能之後半部分，相當於圖2所示之步驟S3-1、S3-2(1)、S3-3、及S3-2(2)。步驟S3-2(1)/(2)係一組迴圈端。

步驟S3-1係如下步驟：將藉由步驟S2所計算之得分最大之Tag SNP候補之序號設為「k」，將其作為應選擇之Tag SNP而將上述S值行之一個設為「1」。步驟S3-2(1)係記錄與得分顯示最大值之Tag SNP「k」對應之全部目標SNP(j=1，…，N)被Tag SNP「k」覆蓋之情況之開始迴圈端，步驟S3-3係進行是否進行向下一步驟S3-4之T[j]=1之更新記述之判斷的步驟。即，於目前得分最大之Tag SNP「k」與對應於其之目標SNP群中之一個目標SNP「j」之間之r²連鎖不均衡值為閾值「R0以上」之情形時，判斷為「yes」而進入下一步驟S3-4，確定該目標SNP「j」已作為Tag SNP「k」之目標SNP而被覆蓋，更新為T[j]=1。繼而，於上述步驟3-2(1)之迴圈終端即步驟S3-2(2)中，再次返回步驟S3-2(1)，進行對於下一目標SNP之確認，於對於上述目標SNP群中之全部目標SNP之該等確認結束時，該迴圈結束，可進入下一步驟S4。相對於此，於關於目標SNP「j」之上述r²連鎖不均衡值小於閾值「R0」之情形時，於步驟S3-3中判斷為「no」，再次返回步驟S3-2(1)，對於該目標SNP「j」不使用被覆蓋之記錄，對於下一目標SNP進行同樣之確認。

步驟S4於圖1、圖2中共通，係「判斷所選擇之Tag SNP候補之合計是否達到預定數量」之步驟。圖2中記述為將搭載數量設為「S0」之判斷。該步驟S4記述有本發明之程式之第三功能。即，記述有如下之第三功能：基於將藉由執行第二功能的步驟S2與S3所選擇之目標SNP群之資訊去除後之上述Tag SNP資訊及目標SNP資訊，再次藉由步驟S2與S3重新選擇帶有最大之相互資訊量之和(如上所述，於本例中，進行根據r²連鎖不均衡值之閾值所進行之事先選擇)之Tag SNP，選作第二Tag SNP，以後重複步驟S2與S3，進行該重複步驟直至達到「SNP檢測用DNA微陣列等用以進行填補之手段之預定數量」。

如上所述，作為該步驟S4之後步驟，可設置用以優先納入「其他SNP」之步驟。於該情形時，較佳為設置自該其他SNP去除所選擇之上述Tag SNP的步驟。該事後納入之步驟較佳為與上述事先納入之步驟擇一地設置。

本發明之程式例如可藉由C語言、Java(註冊商標)、Perl、Python等記載，亦可設為多平台。

進而，本發明之程式可保存於可藉由電腦讀取之記錄媒體或可連接於電腦之記錄媒體中，該等記錄媒體亦作為本發明之記憶媒體而提供。作為該等記錄媒體，可列舉軟性磁碟、快閃記憶體、硬碟等磁性媒體，CD(Compact Disc，光碟)、DVD(Digital Versatile Disc，數位多功能光碟)、BD(Blu-ray Disc，藍光光碟)等光學媒體，MO(Magnetic Optical，磁光碟片)、MD(Magnetic Disc，磁碟)等磁光媒體等，並無特別限定。

(3)本發明之陣列

本發明之陣列可藉由搭載對應於使用上述本發明之選擇方法或電腦系統所選擇之Tag SNP之資訊(第1步驟)的核酸探針(第2步驟)而生產，即，藉由如下步驟而生產：(a)第1步驟，其係依據本發明之選擇方法選擇Tag SNP；(b)第2步驟，其係基於藉由第1步驟所選擇之Tag SNP，將用以檢測檢體中之人類基因組中之該Tag SNP之基因型之核酸探針搭載於DNA微陣列。作為該第2步驟，可廣泛地使用公知方法，並且亦可在不損害本發明之效果之範圍內使用將來提供之DNA微陣列之新生產手段。

關於核酸探針之製備，例如可藉由使用適當之擴增用引子對包含目標SNP鹼基之人類基因組之鹼基序列實施PCR(polymerase chain reaction，聚合酶連鎖反應)法或RNAPCR(RNA polymerase chain reaction，RNA聚合酶連鎖反應)法等基因擴增法或DNA之化學合成法等，而獲得成為探針之基礎之DNA片段。該DNA片段之鹼基長度並無特別限定，較佳為10~100個鹼基長度，進而較佳為10~40個鹼基長度。若該DNA片段之鹼基長度較長，則雖然探針中之包含SNP鹼基之目標核酸之捕捉能力變高，但有不適合於高密度之DNA微陣列之傾向。相反，若該鹼基長度較短，則亦可見目標核酸之捕捉能力差之傾向。可考量該等優點與缺點，設計搭載於DNA微陣列之核酸探針之鹼基長度並進行製造。為了用作核酸探針，亦可對上述DNA片段加以修飾，可使用公知之修飾方法。作為修飾所使用者，只要適當使用各種之螢光色素或顯色色素等該領域所使用者即可，不限定於該等。

如此製備如下之核酸探針，其係將基於本發明所選擇之Tag SNP作為目標，使之與來自檢體之DNA試樣接觸而進行捕捉，而可使捕捉訊息於DNA微陣列上產生者。

可藉由使如此預先製備之核酸探針附著於載體上並進行固定化，而生產搭載有所需核酸探針之DNA微陣列。作為載體，例如可列舉玻璃、塑膠(例如聚丙烯、尼龍等)、聚丙烯醯胺、硝化纖維素、凝膠、其他多孔質材料或非多孔質材料等材質之固相載體。

作為使核酸探針附著於載體表面之方法，例如可列舉向平板上之印刷法。進而，作為用以生產高密度陣列之手法，可列舉：使用光刻法合成技術，於原位生成包含與表面之規定位置之規定序列互補之數千寡核苷酸之陣列的技術；或迅速地合成預先設計之DNA鏈並使其直接附著於載體上之方法等，進而，亦可藉由遮蔽技術而生產DNA微陣列。又，亦可利用寡核苷酸合成用噴墨式印刷裝置進行製造，亦可生產使用螢光珠或磁珠之DNA微陣列。

藉由運用該等手法，可生產可檢測藉由本發明而選擇之Tag SNP的DNA微陣列。除了自行生產以外，例如亦可委託接受微陣列之生產委託之企業而以「市售品」之形式獲得。

如此生產之本發明之陣列藉由使之與DNA檢體接觸，作為各個點之訊息而檢測該DNA檢體中之藉由本發明而選擇之Tag SNP中之鹼基置換之存在，藉此可一併確認SNP為同質型抑或異質型。藉由對所獲得之結果進行彙總、整理，並進行填補，可推斷未搭載於DNA微陣列、即Tag SNP以外之目標SNP資訊，該資訊可應用於被試驗者之健康管理等。即便所使用之DNA檢體為微量，只要為可獲得人類基因組DNA之對象，則無特別限定，例如可列舉血液、唾液、尿、糞便、汗、指甲、毛髮、皮膚、口腔內組織、精液、骨髓液、淋巴液等。藉由對該等原檢體中之基因組DNA進行純化，可獲得DNA檢體。

[實施例]

以下，揭示本發明之實施例。

[實施例1] Tag SNP之選擇

如上所述，對於由Tohoku Medical Megabank Organization(ToMMo)使用NGS(新一代定序儀)確定之1070名日本人之全基因組之資料檔案中發現變異之染色體部位之資訊所構成之檔案，執行圖1所示之內容之電腦程式，進行搭載於DNA微陣列之核酸探針中應包含之Tag SNP之選擇。

此處，用以事先縮小Tag SNP候補範圍之「r²連鎖不均衡值」之閾值為「r²>0.8」，「規定為一定範圍之附近」係設為自Tag SNP候補之基因位點起±500kbp，而進行本發明之選擇方法。應搭載於DNA微陣列之核酸探針所使用之Tag SNP之個數為67.5萬個。此次之Tag SNP候補及目標SNP係事先自於Affymetrix公司之DNA微陣列中有分析實績之SNP群、約940萬個中進行選擇，但並非必須進行此種事先之選擇。例如，亦可自任意之SNP群中隨機假定Tag SNP群與目標SNP群，而進行本發明之選擇方法。又，事先將MAF較低之SNP自Tag SNP候補排除亦為有效率之手段。進而，亦可基於Tag SNP之現有清單等而進行本發明之選擇方法。

於本例中，藉由進行與上述1070人不同之131名日本人之SNP之基因型之填補，而對藉由上述方式選擇之675,000個(以下，原則上簡記為67.5萬個)之Tag SNP群進行性能評價。首先，使用NGS進行SNP之基因位點與131人各自之基因型之特定，自其中選出對應於本例中所選擇之67.5萬個Tag SNP群的基因位點之基因型之資訊。此處，根據NGS之分析結果特定出對應於上述Tag SNP群之基因型之情況對應於使用DNA微陣列特定出基因型。其次，參照上述1070人之人類基因組資訊，對於對應於該Tag SNP群的131人之基因型，推斷(填補)131人之SNP之基因型。為了對該推斷結果進行評價，計算藉由填補而推斷之131人之基因型與藉由NGS而特定之基因型之相關係數之平方(r²)。關於推斷結果，於藉由實驗(NGS等)而特定之結果對於131人而言完全一致之情形時，r²成為1.0，完全推斷出真實基因型，相反地，推斷結果與真真實基因型不同之檢體越多，r²之值越減小。將為了評價Tag SNP之選擇結果而如此計算之r²之平均值作為推斷對象之SNP之各MAF之平均值而算出。結果獲得顯示出MAF1~3%之SNP之r²之平均值為0.81，於MAF3~5%之SNP時為0.88，於MAF5%以上時為0.96之極優異之填補性能的結果。

上述67.5萬個Tag SNP群揭示於日本專利特願2014-223834號之實施例4(實施例4-1、4-2)中。

[實施例2] 與現有之商用DNA微陣列之比較(1)

作為與上述實施例之比較，使用搭載於現有之商用DNA微陣列上之SNP，藉由填補對與本例相同之131名日本人之SNP之基因型進行推斷。其結果為，使用Illumina公司之Human Omni 2.5-8(以下，亦簡稱為OMNI2.5)之SNP資訊之填補中，MAF1~3%之SNP之r²之平均值為0.80，於MAF3~5%之SNP時為0.87，於MAF5%以上時為0.96。該結果係大致與上述實施例同等之填補性能，但該商用DNA微陣列之搭載SNP數量約為230萬個(準確為2,338,671個)，大幅度超過上述實施例之67.5萬個。即，若使用藉由上述實施例之方法所選擇之Tag SNP群進行填補，則與使用搭載於現有之商用之DNA微陣列上之SNP之情形相比，可以極高之效率推斷SNP之基因型，顯示出於該方面具有較大優點。

[實施例3] 與現有之商用DNA微陣列之比較(2)

繼而，對於以小於上述67.5萬個之搭載數量可見何種程度之填補性能進行驗證，除了Tag SNP數量為67.5萬個以外，於MAF1~3%、3~5%、及5%以上之各條件下進行300,000個(以下，簡記為30萬個)、400,000個(以下，簡記為40萬個)、500,000個(以下，簡記為50萬個)、及600,000個(以下，簡記為60萬個)之情形之驗證。將其結果示於表1。再者，關於此處所使用之Tag SNP，日本專利特願2014-223834號之實施例4-1中具體揭示有「30萬個」，實施例4-2-1中具體揭示有「40萬個」，實施例4-2-2中具體揭示有「50萬個」，實施例4-2-3中具體揭示有「60萬個」，及實施例4-2-4中具體揭示有「67.5萬個」。

由表1之結果可知以下情況。

1.由上述表1之相對值可知，只要為藉由本發明所獲得之探針之搭載數量為50萬個以上之DNA微陣列，則可獲得與OMNI2.5同等或其以上之填補性能。

2.即便將藉由本發明所獲得之探針之搭載數量進一步減少至40萬個之情形時，亦可獲得與OMNI2.5大致同等之性能。

3.即便將藉由本發明所獲得之探針之搭載數量更進一步減少至30萬個之情形時，雖然與OMNI2.5相比，性能略微遜色，但仍獲得接近於同等之性能，可維持作為上述DNA微陣列之基本性能。

據此明確，藉由搭載藉由本發明所獲得之探針而設計DNA微陣列，即便與作為OMNI2.5之探針搭載數量之約230萬個相比，將探針搭載數量減少至接近約1/10，亦可設計出具有與OMNI2.5大致同等之性能之DNA微陣列。

S1‧‧‧記述本發明之程式之第1功能的步驟

S2‧‧‧記述本發明之程式之第2功能之前半部分的步驟

Claims

一種Tag SNP之選擇方法，其特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP的方法，並且a)以該人類基因組資訊中之SNP群為母群，將其中自成為Tag SNP候補之各個SNP之基因位點起規定為一定範圍之附近所存在之SNP設為目標SNP，算出該Tag SNP候補與該等目標SNP之間之相互資訊量之和；b)自全部Tag SNP候補中，將上述相互資訊量之總和之值大的Tag SNP候補，作為上述作為用以進行填補之手段而使用之核酸探針中所存在之Tag SNP，以該總和之遞減順序予以選擇。
如請求項1之Tag SNP之選擇方法，其中人類基因組資訊係包含已特定多人之基因型之SNP群之資訊的人類基因組資料庫資訊。
如請求項1之Tag SNP之選擇方法，其中對於上述Tag SNP候補之各者，預先根據相互資訊量以外之指標而縮小用以算出相互資訊量之總和之目標SNP群之範圍。
如請求項3之Tag SNP之選擇方法，其中相互資訊量以外之指標係與自上述Tag SNP候補起規定為一定範圍之附近所存在之目標SNP群之連鎖不均衡值。
如請求項4之Tag SNP之選擇方法，其中連鎖不均衡值為r²連鎖不均衡值。
如請求項1之Tag SNP之選擇方法，其中規定為一定範圍之附近係自該Tag SNP鹼基起之上游及下游各自500kbp以內。
如請求項1之Tag SNP之選擇方法，其中為了上述作為用以進行填補之手段所使用之核酸探針而選擇之Tag SNP之個數為進行利用該手段之填補之結果滿足特定性能之個數以上。
如請求項7之Tag SNP之選擇方法，其中上述特定性能係藉由填補而推斷之MAF 5%之SNP之基因型與實際之基因型之相關係數之平方之平均值為0.94以上。
如請求項1之Tag SNP之選擇方法，其中上述人類基因組資訊來自特定之人種、或屬於小於其之範疇之人群。
如請求項1之Tag SNP之選擇方法，其中於利用上述選擇方法所進行之Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，並將該等其他SNP優先納入該Tag SNP。
如請求項1至10中任一項之Tag SNP之選擇方法，其中上述核酸探針群係用以向DNA微陣列搭載之核酸探針群。
一種DNA微陣列，其特徵在於：搭載有對應於依據如請求項11之Tag SNP之選擇方法所選擇之Tag SNP的核酸探針。
一種DNA微陣列之生產方法，其特徵在於包括下述步驟(1)及(2)：(1)第1步驟，其係依據如請求項11之選擇方法而選擇Tag SNP；(2)第2步驟，其係基於藉由第1步驟所選擇之Tag SNP，將用以檢測檢體中之人類基因組中之該Tag SNP之基因型的核酸探針搭載於DNA微陣列。
一種選擇Tag SNP之電腦系統，其特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP之電腦系統，該電腦系統具備記錄部及演算處理部， (A)該記錄部中，將自該人類基因組資訊讀出之Tag SNP候補之資訊、及自該等Tag SNP候補之基因位點起規定為一定範圍之附近所存在之SNP之資訊作為目標SNP資訊，至少記錄有(1)各個Tag SNP候補之人類基因組上之基因位點、(2)各個人類基因組資訊中之Tag SNP候補之基因型、(3)目標SNP之人類基因組上之基因位點、(4)各個人類基因組資訊中之目標SNP之基因型；(B)該演算處理部基於來自上述記錄部之(A)之(1)~(4)之資訊，計算與每個各Tag SNP候補對應之目標SNP之間之相互資訊量之和，選擇該等中該和最大之目標SNP候補，選擇作為第一Tag SNP；(C)基於將與至此所選擇之Tag SNP對應之目標SNP群之資訊去除後之上述Tag SNP資訊及目標SNP資訊，再次藉由上述(B)步驟選擇帶有最大之相互資訊量之和之Tag SNP候補，選擇作為第二Tag SNP；(D)重複上述步驟(B)、(C)，為了第M(M為自然數)之Tag SNP之選擇而進行該重複步驟，進行其餘之M-2次該重複步驟，直至該自然數M之值達到所規定之作為用以進行填補之手段而使用之核酸探針之預定數量。
如請求項14之選擇Tag SNP之電腦系統，其中人類基因組資訊係包含已特定多人之基因型之SNP群之資訊的人類基因組資料庫資訊。
如請求項14之選擇Tag SNP之電腦系統，其中於進行演算處理部中之相互資訊量之計算時，確定成為對象之SNP群之基因型，且算出(1)各個Tag SNP候補之基因型之頻率、(2)自各個Tag SNP候補之基因位點起規定為一定範圍之附近內所存在之目標SNP各自基因型之頻率、及(3)該Tag SNP候補與目標SNP候補之基因型之組合之頻率。
如請求項14之選擇Tag SNP之電腦系統，其中對於上述Tag SNP候補之各者，預先根據相互資訊量以外之指標而縮小用以算出相互資訊量之總和之目標SNP群之範圍。
如請求項17之選擇Tag SNP之電腦系統，其中相互資訊量以外之指標係與自上述Tag SNP候補起規定為一定範圍之附近所存在之目標SNP群之連鎖不均衡值。
如請求項18之選擇Tag SNP之電腦系統，其中連鎖不均衡值為r²連鎖不均衡值。
如請求項14之選擇Tag SNP之電腦系統，其中規定為一定範圍之附近係自該Tag SNP鹼基起之上游及下游各自500kbp以內。
如請求項14之選擇Tag SNP之電腦系統，其中為了作為用以進行填補之手段而使用之核酸探針而選擇之Tag SNP之個數為進行利用該手段之填補之結果滿足特定性能之個數以上。
如請求項21之選擇Tag SNP之電腦系統，其中上述特定性能係藉由填補而推斷之MAF 5%之SNP之基因型與實際之基因型之相關係數之平方之平均值為0.94以上。
如請求項14之選擇Tag SNP之電腦系統，其中於上述電腦系統中之Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，該其他SNP作為應對核酸探針賦予特徵之SNP而優先納入。
如請求項14之用以選擇Tag SNP之電腦系統，其中上述核酸探針群係用以向DNA微陣列搭載之核酸探針群。
一種電腦程式，其特徵在於：其係為了使用包含已特定多人之基因型之SNP群之資訊的人類基因組資訊，構成作為用以填補人類基因組之SNP資訊之手段而使用之對應於Tag SNP之核酸探針群，而選擇該Tag SNP之電腦程式，並且包含使電腦實現如下功能之演算法：(A)第一功能，其係為了進行演算處理部中之處理，而自記錄部讀出下述(1)~(4)之資訊，該記錄部中，將自人類基因組資訊讀出之該Tag SNP候補之資訊、及作為自該等Tag SNP候補之基因位點起規定為一定範圍之附近所存在之SNP之資訊作為目標SNP資訊，而記錄有(1)各個Tag SNP候補之人類基因組上之基因位點、(2)各個人類基因組資訊中之Tag SNP候補之基因型、(3)目標SNP之人類基因組上之基因位點、(4)各個人類基因組資訊中之目標SNP之基因型；(B)第二功能，其係基於藉由上述第一功能讀出之(1)~(4)之資訊，計算與每個各Tag SNP候補對應之目標SNP之間之相互資訊量之和，選擇該等中該和最大之Tag SNP候補，選擇作為第一Tag SNP；(C)第三功能，其係基於將與至此所選擇之Tag SNP對應之目標SNP群之資訊去除後之上述Tag SNP資訊及目標SNP資訊，再次藉由上述第二功能選擇帶有最大之相互資訊量之和之Tag SNP候補，選擇作為第二Tag SNP，其後，重複步驟(B)、(C)，為了第M(M為自然數)之Tag SNP之選擇而進行其餘之M-2次該重複步驟，直至該自然數M之值達到所規定之作為用以進行填補之手段而使用之核酸探針之預定數量。
如請求項25之電腦程式，其中人類基因組資訊係包含已特定多人之基因型之SNP群之資訊的人類基因組資料庫資訊。
如請求項25之電腦程式，其中於上述第二功能中，包含算出(1)各個Tag SNP候補之基因型之頻率、(2)自各個Tag SNP候補之基因位點起規定為一定範圍之附近內所存在之目標SNP各自基因型之頻率、及(3)該Tag SNP候補與目標SNP候補之基因型之組合之頻率的演算法。
如請求項25之電腦程式，其中於使上述第二功能實現之演算法之前階段，設置有如下演算法，即，根據相互資訊量以外之指標選擇Tag SNP候補，而預先縮小成為執行上述第二功能之對象之Tag SNP候補群之範圍。
如請求項28之電腦程式，其中相互資訊量以外之指標係與自上述Tag SNP候補起規定為一定範圍之附近所存在之目標SNP群之連鎖不均衡值。
如請求項29之電腦程式，其中連鎖不均衡值為r²連鎖不均衡值。
如請求項25之電腦程式，其中規定為一定範圍之附近係自該Tag SNP鹼基起之上游及下游各自500kbp以內。
如請求項25之電腦程式，其中為了作為用以進行填補之手段而使用之核酸探針而選擇之Tag SNP之個數為進行利用該手段之填補之結果滿足特定性能之個數以上。
如請求項32之電腦程式，其中上述特定性能係藉由填補而推斷之MAF 5%之SNP之基因型與實際之基因型之相關係數之平方之平均值為0.94以上。
如請求項25之電腦程式，其中設置有實現如下功能之演算法：於Tag SNP之選擇之外，另外選擇其他1種或2種以上之SNP，且將該等其他SNP優先特定為應選擇之SNP。
如請求項25之電腦程式，其中上述核酸探針群係用以向DNA微陣列搭載之核酸探針群。
一種可於電腦中讀取之記錄媒體，其特徵在於：記錄有如請求項25至35中任一項之電腦程式。
如請求項14之用以選擇Tag SNP之電腦系統，其執行如請求項25至35中任一項之電腦程式。
如請求項14至24中任一項之用以選擇Tag SNP之電腦系統，其中人類基因組資訊來自特定之人種、或屬於小於其之範疇之人群。
如請求項37之用以選擇Tag SNP之電腦系統，其中人類基因組資訊來自特定之人種、或屬於小於其之範疇之人群。