TWI584143B - Genotyping devices, methods, and memory media - Google Patents

Genotyping devices, methods, and memory media Download PDF

Info

Publication number
TWI584143B
TWI584143B TW104135622A TW104135622A TWI584143B TW I584143 B TWI584143 B TW I584143B TW 104135622 A TW104135622 A TW 104135622A TW 104135622 A TW104135622 A TW 104135622A TW I584143 B TWI584143 B TW I584143B
Authority
TW
Taiwan
Prior art keywords
genotype
recorded
data
sample
snp
Prior art date
Application number
TW104135622A
Other languages
English (en)
Other versions
TW201633195A (zh
Inventor
Topon PAUL
Arika Fukushima
Shinya Umeno
Original Assignee
Toshiba Kk
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Kk filed Critical Toshiba Kk
Publication of TW201633195A publication Critical patent/TW201633195A/zh
Application granted granted Critical
Publication of TWI584143B publication Critical patent/TWI584143B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/40Population genetics; Linkage disequilibrium

Description

基因型推定裝置、方法、及記憶媒體
本發明的實施形態係有關於基因型推定裝置、方法、及記憶媒體。
所謂基因,係具有對持有該基因的個人之容姿或體質帶來非常大之影響的遺傳資訊者。將該基因之資訊保持在生體內者,稱為DNA。許多生物的DNA係具有對於增殖所需之自我複製或為了保持結構上的強度來說都很優異的雙重螺旋結構,以雙股DNA的方式來保持遺傳資訊。
一條DNA係排列有4種類的被稱為鹼基(base)的單位,以鹼基序列的方式而保有遺傳資訊。該鹼基中係有A(腺嘌呤)、T(胸腺嘧啶)、C(胞嘧啶)、G(鳥糞嘌呤),藉由這4者的排列組合而表現生物的差異。在雙股DNA中,以一條DNA為基準而在某場所的A(腺嘌呤)上係有另一條DNA的T(胸腺嘧啶),在C(胞嘧啶)上係有G(鳥糞嘌呤)的方式,在另一條DNA上對應的鹼基是呈互補而被決定。又,隨著生物不同,構成生物體的鹼基數 (base pair)係不同,人類的DNA係由約30億鹼基對所構成。
就生物的種而言,通常,鹼基數係為同數,鹼基序列也約99%係為共通。該序列係在個人間有所差異,在鹼基序列之中雖然是相同生物種、DNA的相同位置,但會有一個鹼基不同的地方。該一個鹼基的差異,稱為單核苷酸多型性(SNP:Single Nucleotide Polymorphism)。SNP係指鹼基序列的特定鹼基的一處會隨個人而不同,係為一種突變(variant)。在某SNP之基因座上的複數鹼基序列(等位基因)的組合樣式,稱為基因型(Genotype)。SNP的基因型係與個人的容姿或體質、特定疾患的風險度、藥物的作用方式、藥物的副作用的呈現方式有所關連。
於是,網羅性分析複數人的各個基因型,鑑別出與疾病或藥物關連度高的SNP的GWAS(Genome-Wide Association Study)之研究,正受到矚目。例如,求出常見疾患在DNA中的共通變異(common variant),在全基因組範圍內網羅性分析該疾患之患者群與健常者群的基因型之差異,以鑑別出關連度高的SNP。在此其中,可將複數人的基因型以高通量而加以決定的基因定型分析之技術,在今後的GWAS研究之發展中,扮演重要關鍵角色。
先前,作為此種基因定型分析技術,係提出有DNA微陣列技術。DNA微陣列技術,係可將複數人的 全基因組資訊幾乎都予以涵蓋的數萬至數十萬的SNP(標記SNP)之基因型,以高通量而一次加以決定的基因型判定技術。
在DNA微陣列技術中,以某SNP周邊的已知鹼基序列為探針,令其與檢體之未知鹼基序列進行雜合而測定螢光強度,將複數檢體之螢光強度映射至叢集(cluster)空間,藉由進行叢聚(clustering)而判定該SNP的基因型。這是利用了,於各SNP中,反映出基因型之資訊的2種類的螢光強度之值,會在空間上每一基因型地集中成叢集的原理。
進行了叢聚後,還會計算叢聚強度來作為叢聚的信賴度。叢聚強度係在檢體群的基因型是良好分離,且集中在各基因型時,就會較高。可是,具有偏離集中之螢光強度的檢體,在既存的叢聚技術中難以精度佳地指派基因型,因此有時候會藉由對叢集強度設定閾值,以對信賴性低的檢體,不指派基因型。
[先前技術文獻] [專利文獻]
[專利文獻1]美國專利第8200440號說明書
[專利文獻2]美國專利第7467117號說明書
提供可精度佳地推定基因型的基因型推定裝置、方法、及記憶媒體。
一實施形態所述之基因型推定裝置,係具備:取得部、推定部。取得部係取得,包含:基因型為未知的未知檢體、與基因型為已知的已知檢體的複數檢體的基因型資料的叢聚強度。推定部係在叢聚強度大於第1閾值時,基於基因型資料,來推定未知檢體的前記基因型,並將推定結果予以輸出。
1‧‧‧檢體資料記憶部
2‧‧‧參照資料記憶部
3‧‧‧叢聚強度取得部
4‧‧‧叢聚強度判定部
5‧‧‧基因型推定部
6‧‧‧推定結果顯示部
51‧‧‧閾值學習部
52‧‧‧閾值法推定部
100‧‧‧電腦
101‧‧‧CPU
102‧‧‧輸入裝置
103‧‧‧顯示裝置
104‧‧‧通訊裝置
105‧‧‧記憶裝置
G1‧‧‧SNP選擇部
G2‧‧‧檢體選擇部
G3‧‧‧k值選擇部
G4‧‧‧檢體一覽顯示部
G5‧‧‧選擇結果顯示部
G6‧‧‧基因型顯示部
G7‧‧‧患者選擇部
G8‧‧‧疾患選擇部
G9‧‧‧SNP資訊顯示部
G10‧‧‧基因型資訊顯示部
[圖1]第1實施形態所述之基因型推定裝置之機能構成的區塊圖。
[圖2]基因型資料之一例的圖示。
[圖3]訊號強度資料之一例的圖示。
[圖4]叢集座標資料之一例的圖示。
[圖5]叢聚強度資料之一例的圖示。
[圖6]叢聚強度之算出方法的說明圖。
[圖7]連鎖不平衡統計資料之一例的圖示。
[圖8]參照單型資料之一例的圖示。
[圖9]參照基因型頻率資料之一例的圖示。
[圖10]圖1的基因型推定裝置之硬體構成的區塊 圖。
[圖11]圖1的基因型推定裝置之動作之概要的流程圖。
[圖12]k近鄰法所致之基因型之推定方法之一例的流程圖。
[圖13]k個已知檢體之選擇方法的說明圖。
[圖14]使用到多數決演算法的基因型之推定方法的說明圖。
[圖15]使用到加權多數決演算法的基因型之推定方法的說明圖。
[圖16]k近鄰法所致之基因型之推定方法之其他例的流程圖。
[圖17]叢集線之作成方法的說明圖。
[圖18]叢集線之作成方法的說明圖。
[圖19]使用到多數決演算法的基因型之推定方法的說明圖。
[圖20]參數k之設定方法的流程圖。
[圖21]驗證用SNP的說明圖。
[圖22]評價用檢體及學習用檢體之一例的圖示。
[圖23]推定精度的算出結果之一例的圖示。
[圖24]插補法所致之基因型之推定方法的流程圖。
[圖25]SNP的抽出方法的流程圖。
[圖26]未知檢體的單型資料之一例的圖示。
[圖27]參照單型資料之選擇方法的說明圖。
[圖28]參照單型資料之選擇方法的流程圖。
[圖29]參照單型資料之選擇方法的說明圖。
[圖30]併用了k近鄰法及插補法的基因型之推定方法的流程圖。
[圖31]圖1的基因型推定裝置的GUI之操作畫面之一例的圖示。
[圖32]圖1的基因型推定裝置的GUI之操作畫面之其他例的圖示。
[圖33]圖1的基因型推定裝置的GUI之操作畫面之其他例的圖示。
[圖34]第2實施形態所述之基因型推定裝置之機能構成的區塊圖。
[圖35]基因型資料之一例的圖示。
[圖36]訊號強度之閾值的學習方法之概要的流程圖。
[圖37]閾值組合清單的生成方法之一例的流程圖。
[圖38]基因型資料之一例的圖示。
[圖39]叢集號碼的指派方法之一例的圖示。
[圖40]置換後的基因型資料之一例的圖示。
[圖41]全判讀SNP的訊號強度資料之一例的圖示。
[圖42]被分割之訊號強度資料之一例的圖示。
[圖43]訊號強度的統計值之一例的圖示。
[圖44]訊號強度之區間與基因型的對應關係之一例的圖示。
[圖45]閾值候補清單之一例的圖示。
[圖46]閾值組合清單之一例的圖示。
[圖47]1叢集SNP的基因型頻率之一例的圖示。
[圖48]第1重新判定方法所致之重新判定前後的叢聚地圖之一例的圖示。
[圖49]第2重新判定方法所致之重新判定前後的叢聚地圖之一例的圖示。
[圖50]含有評價值的閾值組合清單之一例的圖示。
[圖51]閾值法所致之基因型之推定方法之概要的流程圖。
[圖52]第1推定方法的流程圖。
[圖53]第1推定方法所致之推定前後的叢聚地圖之一例的圖示。
[圖54]第2推定方法的流程圖。
[圖55]步驟S1805中的推定前後的叢聚地圖之一例的圖示。
[圖56]步驟S1807中的推定前後的叢聚地圖之一例的圖示。
[圖57]步驟S1808中的推定前後的叢聚地圖之一例的圖示。
[圖58]步驟S1808、S1812中的推定前後的叢聚地圖之一例的圖示。
[圖59]複數未知檢體集中在相對較近位置的叢聚地圖之一例的圖示。
[圖60]第3實施形態所述之k近鄰法的流程圖。
[圖61]未知檢體的基因型所被推定的過程中所對應的叢聚地圖的圖示。
以下,參照圖面來說明本發明的實施形態。
(第1實施形態)
關於第1實施形態,參照圖1~圖33來加以說明。首先,關於本實施形態所述之基因型推定裝置(以下稱為「推定裝置」)的機能構成,參照圖1~圖9來說明。圖1係本實施形態所述之推定裝置之機能構成的區塊圖。如圖1所示,此推定裝置係具備:檢體資料記憶部1、參照資料記憶部2、叢聚強度取得部3、叢聚強度判定部4、基因型推定部5、推定結果顯示部6。
檢體資料記憶部1,係記憶有關於藉由DNA微陣列技術而判定出基因型的檢體的資料(檢體資料)。檢體資料係包含例如:基因型資料、訊號強度資料、及叢聚資料,但不限於此。
基因型資料,係表示DNA微陣列技術所得之基因型之判定結果的資料。基因型資料中係含有,針對每一檢體且每一SNP而被判定出來的基因型。
圖2係基因型資料之一例的圖示。圖2的基因型資料中係含有,檢體01~N的SNPrs000001~ rs9999999的基因型之判定結果。例如,於圖2中,檢體01的SNPrs000001的基因型係為「CG」。
於圖2中,「-」係表示藉由DNA微陣列技術而無法成功判定基因型。推定裝置,係推定此種藉由DNA微陣列技術而無法成功判定的基因型。
以下,於某SNP中,將基因型為已知的檢體,亦即,藉由DNA微陣列技術而判定出基因型的檢體,稱為已知檢體。又,於某SNP中,基因型為未知的檢體,亦即,藉由DNA微陣列技術而無法成功判定基因型的檢體,稱為未知檢體。例如,於圖2的SNPrs000002中,檢體01係為已知檢體,檢體02係為未知檢體。
訊號強度資料,係表示DNA微陣列技術所得之訊號強度之測定結果的資料。訊號強度係為例如:螢光強度、電流、及電壓等之測定值,但不限於此。又,訊號強度係亦可為,從上記之測定值所算出的任意之參數。在訊號強度資料中係含有,各檢體的各SNP中的各訊號強度之值。
圖3係訊號強度資料之一例的圖示。圖3的訊號強度資料中係含有,檢體01~N的SNPrs000001~rs9999999之訊號強度x1~xn之值。例如,於圖3中,檢體01的SNPrs000001之訊號強度x1之值係為0.8。
圖3的訊號強度資料中係含有,n種類的訊號強度之值。n係可任意設定,但大多數的情況下係為2。n=2的情況下,作為訊號強度x1、x2,可使用2種類的螢 光強度之測定值A、B。又,亦可將從測定值A、B用以下式子所算出的參數,當作訊號強度x1、x2來使用。
藉由將螢光強度之測定值A、B進行如此轉換,就可容易將訊號強度映射到叢集空間。
叢聚資料,係在藉由DNA微陣列技術而判定基因型之際,表示針對每一SNP進行叢聚之結果的資料。DNA微陣列技術所得之叢聚,係可為階層式叢聚,也可為非階層式叢聚。以下,假設DNA微陣列技術所得之叢聚,係為非階層式叢聚。叢聚資料係含有例如:叢集座標資料、及叢聚強度資料,但不限於此。
各叢集,係為了與SNP中的各基因型做對應,而會生成達到基因型之數量。例如,某SNP的基因型為CC、CT、TT之3個的情況下,在叢集空間上會生成3個叢集。叢集之座標係為例如叢集的重心之座標。
圖4係叢集座標資料之一例的圖示。圖4的叢集座標資料中係含有SNPrs000001~rs999999的叢集1~m之座標。各叢集之座標,係藉由叢集空間中的2個軸v1、v2所表示。例如,SNPrs000001中的叢集1之座標,係為(v1,v2)=(12,32)。此外,在叢集座標資料,係亦可不只含有各叢集之座標,還可含有叢集空間上的各檢體之 座標。又,亦可vn=xn。此情況下,叢集空間係為訊號強度x1~xn的n維空間。
叢聚強度資料,係表示每SNP之叢聚強度的資料。所謂叢聚強度,係為表示叢聚之信賴度的指標。叢聚強度越大,則叢聚的信賴度越高。
圖5係叢聚強度資料之一例的圖示。圖5的叢聚強度資料中係含有SNPrs000001~rs9999999的叢聚強度。例如,於圖5中,SNPrs000001的叢聚強度係為0.95。
作為叢聚強度,可以使用例如,各叢集間之距離的平均值。此情況下,叢聚強度係可從叢集座標資料,藉由以下的式子而求得。
在式(3)中,叢集間距離ij係為任意之2個叢集i、j間的歐幾里德距離,(vi1,vi2)係為叢集i的重心之座標,(vj1,vj2)係為叢集j的重心之座標。又,於式(4)中,m係為叢集之數量。
此處,圖6係表示從圖4的叢集座標資料所生成的叢聚強度資料的圖示。於圖6中,叢集間距離i,j及叢聚強度,係被規格化成叢聚強度會是0以上且為1以 下之值。
參照資料記憶部2,係記憶有關基因的已知之資料(參照資料)。參照資料係包含例如:連鎖不平衡統計資料、參照單型資料、及參照基因型頻率資料,但不限於此。作為參照資料的來源,可以使用國際HapMap計畫或1000人基因組計畫等,大規模的計畫資料。
連鎖不平衡統計資料(以下稱為「LD資料」),係為表示SNP彼此之相關性的資料。圖7係LD資料之一例的圖示。圖7的LD資料中係含有:SNPrs125678及SNPrs129688之分數、SNPrs125678及SNPrs986754之分數、SNPrs129688及SNPrs986754之分數。分數係為表示SNP彼此之相關性強弱的指標。圖7的LD資料中,作為分數係含有:連鎖不平衡分數(D')、相關係數(r2)、勝算比的對數(LOD)。例如,於圖7中,SNPrs125678和SNPrs129688的連鎖不平衡分數係為0.98,相關係數係為0.96,勝算比的對數係為18.69。
參照單型資料係為表示,在同一條染色體上,在統計學上有所關連之某SNP的,等位基因(鹼基)的某一方之組合的資料。亦即,各參照單型資料係表示,在一部分的SNP中的,豁然性較高的鹼基之組合。參照單型資料中所含的SNP,係例如基於LD資料而被選擇。
圖8係參照單型資料之一例的圖示。圖8的參照單型資料中係含有參照單型資料refHTD1~refHTD6。各參照單型資料中係含有SNPrs123456、 rs623456、rs987456、rs987123、rs598456、rs387456、rs912346、rs778456、rs873456、rs987009的等位基因。例如,於圖8中,參照單型資料refHTD1的SNPrs123456的等位基因,係為A。
參照基因型頻率資料係為表示,某個母集團中的各SNP的基因型之頻率(參照基因型頻率)的資料。圖9係參照基因型頻率資料之一例的圖示。圖9的參照基因型頻率資料中係含有SNPrs125678的基因型CC、CT、TT之頻率。於圖9中,SNPrs125678的等位基因係為C或T。又,各基因型之頻率的合計係為1。例如,於圖9中,SNPrs125678的基因型CC之頻率,係為0.42。
叢聚強度取得部3(以下稱為「取得部3」),係取得每一SNP的叢聚強度。若檢體資料中含有如圖5所示的叢聚強度資料,則取得部3係從檢體資料記憶部1取得叢聚強度資料。
又,若檢體資料中含有如圖4所示的叢集座標資料,則取得部3係亦可從檢體資料記憶部1取得叢集座標資料,基於叢集座標資料而算出各SNP的叢聚強度。叢聚強度之算出方法係如上述。
再者,若檢體資料中含有如圖2所示的基因型資料,參照資料中含有如圖9所示的參照基因型頻率資料,則取得部3係亦可從檢體資料記憶部1取得基因型資料,從參照資料記憶部2取得參照基因型頻率資料,基於基因型資料及參照基因型頻率資料,而算出各SNP的叢 聚強度。叢聚強度之算出方法係如以下。
首先,取得部3係根據基因型資料,算出各SNP的各基因型之頻率(DNA微陣列基因型頻率)。DNA微陣列基因型頻率,係為藉由DNA微陣列技術所被判定出來的基因型之頻率。
接著,取得部3係基於DNA微陣列基因型頻率、和參照基因型頻率,藉由以下的式子而算出各SNP的叢聚強度。
於式(5)中,m係為基因型之數量,fi,r係為基因型i的參照基因型頻率,fi,D係為基因型i的DNA微陣列基因型頻率。基因型頻率,係表示每一基因型的機率,因此fi,r之合計及fi,r之合計係均為1。
例如,某SNP的基因型是CC、CT、TT,參照基因型頻率係分別為0.5、0.3、0.2,DNA微陣列基因型頻率係分別為0.4、0.4、0.2時,該SNP的叢聚強度,係根據式(5),而被算出為0.92(=1-sqrt(((0.5-0.4)2+(0.3-0.4)2+(0.2-0.2)2)/3))。
叢聚強度判定部4(以下稱為「判定部4」),係將取得部3所取得的每一SNP的叢聚強度、與閾值θ1(第1閾值)及閾值θ2(第2閾值),進行比較。閾值θ1、 θ2(θ1≧θ2),係為了判定DNA微陣列技術所得之叢聚的信賴度而被預先設定的值。判定部4,係若叢聚強度是大於閾值θ1,則判定叢聚的信賴度為高,若小於閾值θ2,則判定信賴度為低,若叢聚強度是閾值θ2以上且為閾值θ1以下,則判定叢聚的信賴度為中程度。閾值θ1、θ2,係依存於叢聚強度,若叢聚強度為0以上且1以下之範圍內的值,則為0以上且1以下之範圍內的值。例如,叢聚強度為0以上且1以下時,閾值θ1、θ2係分別被設定成0.8、0.4。
此外,以下雖然針對θ1>θ2的情形加以說明,但亦可θ1=θ2。此情況下,判定部4,係若叢聚強度是大於閾值θ1,則判定信賴度為高,若為閾值θ1以下,則判定信賴度為低。
基因型推定部5(以下稱為「推定部5」),係推定基因型資料的各SNP中的未知檢體的基因型。例如,推定部5係將圖2的基因型資料中的,檢體01的SNPrs000003的基因型、或檢體02的SNPrs000002的基因型,加以推定。
推定部5係基於判定部4所做的叢聚的信賴度的判定結果,來選擇推定方法。例如,推定部5係若叢聚強度是大於閾值θ1,亦即,DNA微陣列技術所得之叢聚的信賴度為高時,則基於基因型資料而以k近鄰法來推定基因型。又,推定部5係若叢聚強度是小於閾值θ2,亦即,DNA微陣列技術所得之叢聚的信賴度為低時,則 基於基因型資料及參照資料而以插補法來推定基因型。再者,推定部5係若若叢聚強度是閾值θ2以上且為閾值θ1以下,亦即,DNA微陣列技術所得之叢聚的信賴度為中程度時,則併用k近鄰法及插補法來推定基因型。然後,推定部5係將推定結果予以輸出。關於基因型之推定方法之具體例,將詳述於後。
推定結果顯示部6(以下稱為「顯示部6」),係將推定部5所做的推定結果予以顯示。顯示部6,係亦可連同推定結果,一起顯示基因型資料、或推定之際所使用的各種資訊。
接著,關於本實施形態所述之推定裝置的硬體構成,參照圖10來說明。本實施形態所述之推定裝置,係如圖10所示,是由電腦100所構成。電腦100係具備:CPU(中央演算裝置)101、輸入裝置102、顯示裝置103、通訊裝置104、記憶裝置105,這些是藉由匯流排106而被彼此連接。
CPU101係為電腦100的控制裝置及演算裝置。CPU101,係基於從透過匯流排106而被連接的各裝置(例如輸入裝置102、通訊裝置104、記憶裝置105)所輸入的資料或程式來進行演算處理,將演算結果或控制訊號,輸出至透過匯流排106而被連接的各裝置(例如顯示裝置103、通訊裝置104、記憶裝置105)。CPU101,係執行電腦100的OS(作業系統)、或基因型推定程式(以下稱為「推定程式」)等,控制構成電腦100的各裝置。所謂 推定程式,係令電腦100實現推定裝置之上述各機能構成的程式。藉由CPU101執行推定程式,電腦100係成為推定裝置而發揮機能。
輸入裝置102,係用來對電腦100輸入資訊所需之裝置。輸入裝置102係為例如:鍵盤、滑鼠、及觸控面板,但不限於此。使用者,係藉由使用輸入裝置102,就可輸入閾值θ1、θ2等之資訊。
顯示裝置103,係基於從CPU101所輸出的資料等,而顯是影像或映像等所需之裝置。顯示裝置103係為例如:LCD(液晶顯示器)、CRT(映像管)、及PDP(電漿顯示器),但不限於此。顯示部6,係亦可使用顯示裝置103來構成。
通訊裝置104,係讓電腦100與外部裝置以無線或有線進行通訊所需之裝置。通訊裝置104係為例如:數據機、集線器、及路由器,但不限於此。檢體資料或參照資料等之資訊,係可藉由透過通訊裝置104從外部裝置接收而進行輸入。又,亦可將從CPU101所輸出的演算結果等之資料,發送至外部裝置。
記憶裝置105,係將電腦100的OS、或推定程式、推定程式之執行上所必須之資料、及CPU101所做的推定程式之執行所生成並輸出的資料等,加以記憶的記憶媒體。記憶裝置105中係含有,主記憶裝置和外部記憶裝置。主記憶裝置係為例如:RAM、DRAM、SRAM,但不限於此。又,外部記憶裝置係為硬碟、光碟、快閃記憶 體、及磁帶,但不限於此。檢體資料記憶部1或參照資料記憶部2,係可使用記憶裝置105來構成。
此外,電腦100係亦可將CPU101、輸入裝置102、顯示裝置103、通訊裝置104、及記憶裝置105,具備1或複數個,亦可連接印表機或掃描器等周邊機器。
又,推定裝置,係可由單一台電腦100所構成,亦可由彼此連接的複數台電腦100所成之系統來構成。
甚至,推定程式,係亦可預先被記憶在電腦100的記憶裝置105中,亦可被記憶在CD-ROM等之記憶媒體中,亦可上傳至網際網路上。任一情況下,藉由將推定程式安裝至電腦100並執行之,就可構成推定裝置。
接著,關於本實施形態所述之推定裝置的動作,參照圖11~圖30來說明。圖11係本實施形態所述之推定裝置之動作之概要的流程圖。
於步驟S1中,取得部3係從檢體資料記憶部1取得基因型資料。
於步驟S2中,取得部3係從基因型資料抽出對象SNP的基因型資料。所謂對象SNP,係為含有未知檢體的SNP。例如,圖2的基因型資料的情況下,取得部3係抽出SNPrs000002、rs000003的基因型資料。
於步驟S3中,取得部3係取得各對象SNP的叢聚強度CS。如上述,取得部3係可基於基因型資料、叢聚資料、及參照基因型頻率資料等,而取得叢聚強度 CS。
於步驟S4中,判定部4係從取得部3取得各對象SNP的叢聚強度CS,與閾值θ1進行比較。閾值θ1,係可每一對象SNP都相同,也可不同。
若CS>θ1,則判定部4係判定叢聚之信賴度為高(步驟S4的YES),處理係前進至步驟S5。
於步驟S5中,推定部5係基於基因型資料,以k近鄰法來推定未知檢體的基因型。k近鄰法所致之基因型之推定方法將於後述。
若CS≦θ1(步驟S4的NO),則處理係前進至步驟S6。
於步驟S6中,判定部4係將從取得部3所取得的各對象SNP的叢聚強度CS,與閾值θ2進行比較。閾值θ2,係可每一對象SNP都相同,也可不同。
若CS<θ2,則判定部4係判定叢聚之信賴度為低(步驟S6的YES),處理係前進至步驟S7。
於步驟S7中,推定部5係基於基因型資料及參照資料,以插補法來推定未知檢體的基因型。插補法所致之基因型之推定方法將於後述。
若CS≧θ2(步驟S6的NO),則判定部4係判定叢聚的信賴度為中程度,處理係前進至步驟S8。
於步驟S8中,推定部5係併用k近鄰法與插補法,來推定未知檢體的基因型。併用了k近鄰法與插補法的基因型之推定方法,將於後述。
於步驟S5、S7、S8中未知檢體的基因型被推定後,於步驟S9中,顯示部6係顯示推定部5所做的推定結果。
以下詳細說明,k近鄰法、插補法、及兩者併用之方法所致之基因型之推定方法。
首先,關於步驟S5中的k近鄰法所致之基因型之推定方法,參照圖12~圖23來說明。此處所謂的k近鄰法,係指根據k個最近鄰之樣本的基因型,來推定未知檢體的基因型的方法。以下分別說明,使用已知檢體及叢集線來作為樣本的方法。
圖12係k近鄰法所致之基因型之推定方法之一例的流程圖。在圖12的推定方法中,作為樣本是使用已知檢體。
於步驟S511中,推定部5係從檢體資料記憶部1,取得對象SNP的未知檢體S的基因型資料及訊號強度資料。以下,雖然假設未知檢體S是1個,但若未知檢體S為複數個時,則針對各未知檢體S,係進行以下的處理。
於步驟S512中,推定部5係從檢體資料記憶部1,取得對象SNP的已知檢體群ST的基因型資料及訊號強度資料。已知檢體群ST,係為對象SNP中所含之已知檢體Si的集合。
於步驟S513中,推定部5係針對已知檢體群ST中所含之各已知檢體Si,算出距離di。距離di,係為 未知檢體S、與已知檢體Si的距離。距離di係例如,若未知檢體S的訊號強度資料是(x1,x2,...,xn),已知檢體Si的訊號強度資料是(xi1,xi2,...,xin),則藉由以下的式子而被算出。
於步驟S514中,推定部5係從已知檢體群ST之中,選擇出最近鄰之k個已知檢體Si,亦即,距離di由最小起依序k個已知檢體Si。參數k係為預先設定的任意之自然數。關於參數k的設定方法係後述。
圖13係已知檢體Si之選擇方法的說明圖。圖13係圖示對象SNP的叢聚地圖之一例。於圖13中,訊號強度係為x1、x2之2種類(n=2),參數k係為5(k=5),星號係為未知檢體S,圓圈係基因型為CC的已知檢體,三角係基因型為CG的已知檢體,方塊係基因型為GG的已知檢體。圖13的情況下,於步驟S514中,從距離di為最小起依序選擇出基因型為CC的已知檢體3個、基因型為CG的已知檢體2個。
於步驟S515中,推定部5係基於已選擇之k個已知檢體Si的基因型,來推定未知檢體S的基因型。
推定部5係使用例如多數決演算法來推定未知檢體S的基因型。亦即,推定部5,係在已選擇之k個 已知檢體Si的基因型之中,將檢體數(投票數)最多的基因型,推定成為未知檢體S的基因型。
圖14係使用到多數決演算法的基因型之推定方法的說明圖。在圖14中,5個已知檢體Si(i=1~5)係被選擇,各自的基因型係為AG、GG、AG、AG、AA。此情況下,各基因型AG、GG、AA之投票數,係分別為3、1、1,因此未知檢體S的基因型係被推定為投票數最大的AG。
又,推定部5係亦可使用加權多數決演算法,來推定未知檢體S的基因型。此情況下,推定部5係首先算出已選擇之各已知檢體Si的權重。作為已知檢體Si的權重,可使用已知檢體Si中的基因型已被判定之SNP的比率。例如,藉由DNA微陣列技術,在20萬個SNP中已經判定出15萬個基因型的已知檢體Si的權重,係為0.75。
推定部5,係將各已知檢體Si的權重當作投票數來利用,將投票數最多的基因型,推定作為未知檢體S的基因型。圖15係使用到加權多數決演算法的基因型之推定方法的說明圖。在圖15中,5個已知檢體Si(i=1~5)係被選擇,各自的基因型係為AG、GG、AG、AG、AA,各自的權重係為0.6、0.4、0.9、0.7、0.5。此情況下,各基因型AG、GG、AA之投票數,係分別為2.2、0.4、0.5,因此未知檢體S的基因型係被推定為投票數最大的AG。
圖16係k近鄰法所致之基因型之推定方法之其他例的流程圖。在圖16的推定方法中,作為樣本是使用叢集線。
於步驟S521中,推定部5係從檢體資料記憶部1,取得對象SNP的未知檢體S的基因型資料及訊號強度資料。步驟S521,係和上述的步驟S511相同。
於步驟S522中,推定部5係從檢體資料記憶部1,取得對象SNP的已知檢體群ST的基因型資料及訊號強度資料。步驟S522,係和上述的步驟S512相同。
於步驟S523中,推定部5係基於已知檢體群ST的訊號強度資料,而作成叢集線Ci。所謂叢集線Ci,係將叢集空間上之各叢集(各基因型)中所含的已知檢體,以直線或曲線取近似而成者。叢集線Ci,係可藉由將叢集空間上的已知檢體之座標進行回歸分析,就可作成。回歸分析,係可為線性回歸,也可為非線性回歸。
圖17係叢集線Ci之作成方法的說明圖。圖17係圖示對象SNP的叢聚地圖之一例。於圖17中,訊號強度係為x1、x2之2種類(n=2),參數k係為5(k=5),星號係為未知檢體S,圓圈係基因型為CC的已知檢體,三角係基因型為CG的已知檢體,方塊係基因型為GG的已知檢體。又,叢集線Ci係為直線,針對每一叢集而各作成1條。在圖17的情況下,叢集線Ci,係可藉由以下的式子來表示。
【數5】x2-m i x1+c i ...(7)
於式(7)中,mi、ci係為定數,藉由回歸分析而被求得。推定部5,係藉由對每一叢集進行線性回歸分析,就可作成如上記的叢集線Ci。
又,如圖18所示,叢集線Ci係亦可每一叢集分別作成複數條。此情況下,推定部5係將各叢集分割成複數子叢集,針對各個子叢集,如式(7)般地作成叢集線Ci即可。
此外,叢集線Ci係不限於直線,亦可為曲線。又,叢集線Ci的條數係可任意選擇。
於步驟S524中,推定部5係針對各叢集線Ci,算出距離Di。距離Di,係為未知檢體S與叢集線Ci之距離。距離Di係例如,若未知檢體S的訊號強度資料為(xs1,xs2),叢集線Ci為x2=mix1+ci,則藉由以下的式子而被算出。
於步驟S525中,推定部5係從所作成的複數叢集線Ci之中,選擇出最近鄰之k條叢集線Ci,亦即,由距離Di最小起依序k條叢集線Ci。
例如,於圖17中,k=1時,距離Di為最小的 基因型CC之叢集線Ci,係被選擇。又,於圖18中,k=3時,由距離Di較小起依序選擇基因型為CC的叢集線2條、基因型為CG的叢集線1條。
於步驟S526中,推定部5係基於已選擇之k條叢集線Ci的基因型,來推定未知檢體S的基因型。
推定部5係使用例如多數決演算法來推定未知檢體S的基因型。亦即,推定部5,係在已選擇之k條叢集線Ci的基因型之中,將叢集線數(投票數)最多的基因型,推定成為未知檢體S的基因型。
圖19係使用到多數決演算法的基因型之推定方法的說明圖。在圖19中,5條叢集線Ci(i=1~5)係被選擇,各自的基因型係為AG、GG、AG、AG、AA。此情況下,各基因型AG、GG、AA之投票數,係分別為3、1、1,因此未知檢體S的基因型係被推定為投票數最大的AG。
又,推定部5係亦可使用加權多數決演算法,來推定未知檢體S的基因型。此情況下,推定部5係首先算出已選擇之各叢集線Ci的權重。作為叢集線Ci的權重係可使用,已知檢體Si中的基因型已被判定之SNP的比率的,每一叢集之平均值。推定部5,係將各叢集線Ci的權重當作投票數來利用,將投票數最多的基因型,推定作為未知檢體S的基因型。
此處,針對k近鄰法中所使用的參數k之設定方法,參照圖20~圖23來說明。圖20係參數k之設 定方法的流程圖。於本實施形態中,推定部5係藉由交叉驗證來設定參數k。
於步驟S531中,推定部5係從檢體資料記憶部1,取得1或複數個驗證用SNP的基因型資料及訊號強度資料。所謂驗證用SNP,係叢聚強度CS為大,且全部的檢體都是已知檢體的SNP。驗證用SNP為係例如,叢聚強度CS大於閾值θ1的SNP。
圖21係驗證用SNP的說明圖。於圖21的基因型資料中,SNPrs00001、rs000003之檢體,係全部為已知檢體。若這些SNP的叢聚強度CS是較大,則推定部5係將SNPrs00001、rs000003當作驗證用SNP而抽出,取得這些基因型資料及訊號強度資料。
於步驟S532中,推定部5係選擇評價用檢體及學習用檢體。所謂評價用檢體,係被視為未知檢體的檢體。所謂學習用檢體,係被視為已知檢體的檢體。作為評價用檢體而選擇的檢體的基因型,係被當成交叉驗證之所需之正解資料來利用。
圖22係評價用檢體及學習用檢體之一例的圖示。於圖22中,作為評價用檢體是選擇檢體01~10,檢體11~N係被當成學習用檢體而被選擇。此外,評價用檢體及學習用檢體,係可任意選擇。
步驟S533中,推定部5,係設定複數個參數k的候補k'。推定部5,作為參數k的候補k',係可設定任意的自然數。
於步驟S534中,推定部5係基於學習用檢體的基因型資料及訊號強度資料,來推定各評價用檢體的基因型。此時,推定部5係藉由使用各候補k'來作為參數k的k近鄰法,來推定評價用檢體的基因型。
於步驟S535中,推定部5係藉由交叉驗證,以算出各候補k'的推定精度。亦即,推定部5,係將評價用檢體的基因型之推定結果、與評價用檢體之已知的基因型,進行比較,算出基因型已被正確推定的評價用檢體之比率。
圖23係推定精度的算出結果之一例的圖示。如圖23所示,推定精度係針對各驗證用SNP的各候補k'而被算出。例如,於圖23中,SNPrs000001的k'=1時的推定精度係為0.8。又,如圖23所示,若驗證用SNP有複數個,則推定部5係亦可算出各候補k'的推定精度之平均值(平均推定精度)。
於步驟S536中,推定部5係將推定精度為最大的候補k',設定作為參數k。又,推定部5,係若針對複數驗證用SNP而進行過交叉驗證,則亦可將平均推定精度為最大的候補k',設定作為參數k。例如,圖23的情況下,參數k係被設定成,平均推定精度為最大的5。
接著,針對步驟S7中的插補法所致之基因型之推定方法,參照圖24~圖29來說明。圖24係插補法所致之基因型之推定方法的流程圖。
於步驟S71中,推定部5係參照參照資料記 憶部2,確認參照資料記憶部2中是否有對象SNP的LD資料。在插補法中係會利用對象SNP的LD資料,因此若無對象SNP的LD資料(步驟S71的NO),則處理係前進至步驟S5,以k近鄰法來推定未知檢體S的基因型。k近鄰法所致之推定方法係如同上述。
另一方面,若有對象SNP的LD資料(步驟S71的YES),則處理係前進至步驟S72。
於步驟S72中,推定部5係從參照資料記憶部2,取得對象SNP的LD資料。
於步驟S73中,推定部5係參照對象SNP的LD資料,抽出分數高的L個以上之SNP。圖25係表示步驟S73中的SNP的抽出方法的流程圖。
於步驟S731中,推定部5係從對象SNP的LD資料,抽出推定用SNP的LD資料。所謂推定用SNP,係叢聚強度CS為大,且全部的檢體都是已知檢體的SNP。推定用SNP為係例如,叢聚強度CS大於閾值θ1的SNP。
對象SNP的LD資料中係含有,其他複數SNP相對於對象SNP的分數。推定部5,係參照對象SNP的LD資料中含有分數的各SNP的基因型資料及叢聚資料,抽出推定用SNP的LD資料。
於步驟S732中,推定部5,係將分數的閾值LDθ,設定成推定用SNP的LD資料中所含之分數的最高值。分數,係可從LD資料中所含之連鎖不平衡分數、相 關係數、及勝算比的對數等之中任意選擇。
於步驟S733中,推定部5係參照推定用SNP的LD資料,從推定用SNP之中,抽出分數為閾值LDθ以上的SNP。
於步驟S734中,推定部5係判定所抽出的SNP之數量,是否為所定值L以上。L係可任意設定。若抽出的SNP之數量小於L(步驟S734的NO),則處理係前進至步驟S735。
於步驟S735中,推定部5係降低閾值LDθ(LDθ=LDθ-△)。閾值LDθ的減少量△,係為例如0.01。將閾值LDθ降低後,處理係前進至步驟S733。然後,推定部5,係直到所抽出的SNP之數量變成L以上為止,會一直重複步驟S733~S735之處理。
若抽出的SNP之數量為L以上(步驟S734的YES),則結束SNP的抽出處理,處理係前進至步驟S74。藉由以上的處理,推定部5係可抽出分數為閾值LDθ以上的L個以上之推定用SNP。
於步驟S74中,推定部5係從參照資料記憶部2,取得步驟S73中所抽出之SNP的參照單型資料。
於步驟S75中,推定部5係從檢體資料記憶部1,取得未知檢體S的基因型資料。
於步驟S76中,推定部5係根據未知檢體S的基因型資料,作成未知檢體S的單型資料。未知檢體S的單型資料,係藉由從基因型資料使用定相(phasing)演算 法而抽出SNP的基因型,決定各染色體中所存在的等位基因之序列,就可作成。作為定相演算法係可使用例如:BEAGLE、fastPHASE、IMPUTEv2、MACH、ShapeIT。
圖26係未知檢體S的單型資料之一例的圖示。如圖26所示,藉由定相演算法,從未知檢體S的基因型資料,作成2個單型資料HTD1、HTD2。於未知檢體S的單型資料中,基因型為未知的SNP的等位基因對係為不明,因此以「-」表示。
於步驟S77中,推定部5係從步驟S74所取得的參照單型資料之中,分別選擇出與未知檢體S的2個單型資料HTD1、HTD2最為類似的參照單型資料。所謂單型資料HTD1、HTD2與參照單型資料的類似,係指基因型為未知的SNP以外的SNP中的等位基因之序列為類似。
圖27係參照單型資料之選擇方法的說明圖。例如,於步驟S74中,若圖27的參照單型資料被抽出,則推定部5係作為最類似於單型資料HTD1的參照單型資料,是選擇參照單型資料refHTD5,作為最類似於單型資料HTD2的參照單型資料,是選擇參照單型資料refHTD3。參照單型資料之選擇方法的細節將於後述。
於步驟S78中,推定部5係基於已選擇之2個參照單型資料中的對象SNP的等位基因,來推定未知檢體S的基因型。例如,如圖27般地選擇了參照單型資料的情況下,則推定部5係將SNPrs987009之一方的等位 基因推定為G,將另一方的等位基因推定為A。然後,推定部5係基於這些等位基因,而將未知檢體S的SNPrs987009的基因型推定為AG。
圖28係步驟S77中的參照單型資料之選擇方法的流程圖。
步驟S771中,推定部5係將所抽出的參照單型資料及未知檢體S的單型資料的等位基因,置換成數值。圖29係將等位基因置換成數值後的參照單型資料及未知檢體S的單型資料之一例的圖示。於圖29中,等位基因A、C、G、T,係分別被置換成數值1、2、3、4。
於步驟S772中,推定部5係算出距離dhi。距離dhi,係為未知檢體S的各單型資料、與各參照單型資料之間的距離。距離dhi係例如,藉由以下的式子而被算出。
於式(9)中,p係未知檢體S的單型資料中所含的SNP之中,基因型為未知的SNP除外的SNP之數量,sij(j=1~p)係參照單型資料i的第j個SNP之數值,sj(j=1~p)係未知檢體S的單型資料的第j個SNP之數值。
例如,圖29的情況下,單型資料HTD1與參 照單型資料refHTD1之距離dhi,係算出為0.35(=sqrt(((1-1)2+(4-4)2+(3-3)2+(4-1)2+(2-2)2+(4-4)2+(2-3)2+(1-1)2+(2-2)2))/9)。
於步驟S773中,推定部5,係針對未知檢體S的各單型資料,將距離dhi為最小的參照單型資料,選擇來作為最類似的參照單型資料。
接著,針對步驟S8中的併用k近鄰法與插補法的基因型之推定方法,參照圖30來說明。圖30係併用了k近鄰法與插補法的基因型之推定方法的流程圖。
於步驟S81中,推定部5係以k近鄰法來推定未知檢體S的基因型,取得由1或複數個基因型之候補所成的基因型群GT1。若令基因型群GT1中所含之基因型之候補之數量為α個,則基因型群GT1係可藉由例如,選擇投票數較大起依序α個基因型,或以α個參數k來推定基因型等等來作為基因型之候補,就可取得之。
於步驟S82中,推定部5係以插補法來推定未知檢體S的基因型,取得由1或複數個基因型之候補所成的基因型群GT2。若令基因型群GT2中所含之基因型之候補之數量為β個,則基因型群GT2係例如,藉由將與未知檢體S的每個單型資料類似的參照單型資料選擇β個來推定基因型,就可取得。
於步驟S83中,推定部5係從基因型群GT1、GT2中所含之基因型之候補之中,使用多數決演算法,來推定未知檢體S的基因型。作為多數決演算法的投 票數,可使用基因型群GT1、GT2中所含的基因型之數量。
如以上所說明,本實施形態所述之推定裝置及方法,係將無法藉由DNA微陣列技術來判定的基因型,以DNA微陣列技術所得之叢聚的信賴度所相應的方法,加以推定。亦即,信賴度較低時,係以使用了參照資料的插補法來進行推定,信賴度較高時,係以利用了藉由DNA微陣列技術所判定出來之基因型資料的k近鄰法來進行推定。藉此,本實施形態所述之推定裝置及方法,係可精度佳地推定基因型。
此外,以上所說明的本實施形態所述之推定裝置,係可藉由GUI(Graphical User Interface)進行操作,較為理想。圖31係被顯示部6所顯示的GUI之操作畫面之一例的圖示。圖31係以將已知檢體當作樣本使用的k近鄰法來推定基因型時的GUI。如圖31所示,此GUI係具備:SNP選擇部G1、檢體選擇部G2、k值選擇部G3、檢體一覽顯示部G4、選擇結果顯示部G5、基因型顯示部G6。
SNP選擇部G1,係用來讓使用者選擇對象SNP所需之下拉式清單。SNP選擇部G1的下拉式清單中係含有,包含未知檢體的所有SNP的ID。SNP選擇部G1中係顯示,已被使用者所選擇的對象SNP的ID。
檢體選擇部G2,係用來讓使用者選擇要推定基因型的未知檢體S所需之下拉式清單。檢體選擇部G2 的下拉式清單中係含有,對象SNP的基因型資料中所含之所有未知檢體S的ID。檢體選擇部G2的下拉式清單之內容,係隨著已被使用者所選擇的對象SNP而變化。檢體選擇部G2中係顯示,已被使用者所選擇的未知檢體S的ID。
k值選擇部G3,係用來讓使用者設定參數k所需之下拉式清單。k值選擇部G3的下拉式清單中係含有,參數k之值的複數個候補。k值選擇部G3中係顯示,已被使用者所設定的參數k之值。在圖31中,參數k係被設定成5。此外,在k值選擇部G3中,推定精度最高的參數k之值是被設定來作為預設值,較為理想。
檢體一覽顯示部G4係顯示出,已被使用者所選擇的對象SNP的基因型資料中所含的已知檢體(已知檢體群ST中所含的已知檢體Si)的ID之一覽、各已知檢體Si與已被使用者所選擇的未知檢體S之間的距離di。在圖31中所被顯示的距離di,係為藉由上述的式(6)所算出的距離。
選擇結果顯示部G5係顯示,從檢體一覽顯示部G4中所被顯示的已知檢體Si之中所選擇出來的,距離di較小的k個已知檢體Si的ID、距離di、基因型、及權重。於圖31中,參數k係為5,因此會顯示出5個已知檢體Si。權重,係為多數決演算法中所被使用的權重,作為預設值是設定1.0。權重為1.0時,就變成無加權的多數決演算法。使用加權演算法時,作為權重,係顯示出以 上述方法所算出的各已知檢體Si的權重。
基因型顯示部G6係顯示k近鄰法所致之基因型的推定結果。於圖31中,所被推定出來的基因型係為AG。
圖32係推定裝置的GUI之操作畫面的其他例的圖示。具備圖32的GUI的推定裝置,係在參照資料記憶部2中,記憶有表示SNP與疾患之關連的資訊。如圖32所示,此GUI係具備:患者選擇部G7、疾患選擇部G8、SNP資訊顯示部G9、基因型資訊顯示部G10。
患者選擇部G7,係用來讓使用者選擇患者所需的下拉式清單。此處所謂的患者,係對應於已被DNA微陣列技術判定出基因型的檢體。患者選擇部G7的下拉式清單中係含有,複數患者(檢體)的ID。患者選擇部G7中係顯示,已被使用者所選擇的患者的ID。
疾患選擇部G8,係用來讓使用者選擇疾患所需的下拉式清單。疾患選擇部G8的下拉式清單中係含有,參照資料記憶部2中所記憶之複數疾患之名稱。疾患選擇部G8中係顯示,已被使用者所選擇的疾患之名稱。
SNP資訊顯示部G9係顯示,與已被使用者所選擇的患者及疾患有關連的SNP資訊。在SNP資訊中係含有:染色體之種類、SNP的ID、基因座、疾患關連SNP、勝算比(OR)、Addr資訊、及鹼基序列資訊等。此處所謂的勝算比,係為表示醫學上作為臨床試驗之結果的方法而被使用的尺度,是將對疾患的罹患容易性,以2個群 進行比較所表示的統計性的尺度。又,Addr資訊及鹼基序列資訊將於後述。SNP資訊,係被記憶在參照資料記憶部2中。
於圖32中,SNP資訊顯示部G9,係顯示1號~5號、10號~12號、及XY染色體。各染色體上的斜線部分,係表示疾患關連SNP之中基因型為已知的SNP,網點部分係表示疾患關連SNP之中基因型為未知的SNP。於圖32中,各染色體上的SNP,係成為指令按鈕,一旦使用者選擇(點選),則有關該SNP的Addr資訊、或SNP的周邊之鹼基序列,會被顯示。
Addr資訊中係含有,SNP所屬之染色體(Chromosome)的號碼、在染色體上的基因座(Position)、SNP所屬之基因的名稱(Gene)、及SNP的ID。藉由指令按鈕而已被使用者所選擇之SNP的Addr資訊,係被顯示在SNP資訊顯示部G9的Addr欄中。
鹼基序列資訊,係除了SNP以外的基因座的鹼基序列資料。一旦使用者藉由指令按鈕而選擇了SNP,則已被選擇的SNP的周邊之鹼基序列係被從鹼基序列資訊中抽出,已被抽出的鹼基序列之範圍中所含的SNP的基因型資料會從檢體資料記憶部1中被抽出,被顯示在SNP資訊顯示部G9的鹼基序列欄。於圖32的鹼基序列中,SNP的等位基因A、B,係以〔A/B〕此一形式而被顯示。例如,於圖32中,SNPrs547984的等位基因,係為G與T。
基因型資訊顯示部G10,係顯示與已被使用者所選擇的SNP相關的基因型資訊。基因型資訊,係根據檢體資料記憶部1中所記憶之各種資料而被生成。
若已被使用者所選擇的SNP的基因型為已知時,則基因型資訊顯示部G10,係如圖32所示,顯示出已被選擇的SNP的叢聚圖譜(Genotype Clustering)、或HapMap所得的基因型之比率等。
叢聚圖譜,係可預先被記憶在檢體資料記憶部1,亦可根據檢體資料記憶部1中所記憶之訊號強度資料等而被生成。又,所謂HapMap所得的基因型之比率,係指患者所屬之民族團體中的,已被選擇之SNP的基因型之比率。HapMap所得的基因型之比率,係可從參照基因型頻率資料予以抽出。
相對於此,若已被使用者所選擇的SNP的基因型為未知,則基因型資訊顯示部G10,係如圖33所示,顯示出推定部5所做的基因型的推定結果、或表示基因型推定過程的資料。
於圖33中,基因型資訊顯示部G10中所被顯示的Imputation,係為顯示標牌,是表示推定部5所做的基因型之推定方法。在以插補法來推定基因型時,如圖33所示,基因型顯示部G10係顯示參照單型資料、患者(檢體)的單型資料、定相後的單型資料、插補後的單型資料等。插補後的單型資料中係含有已被推定之基因型。SNP資訊顯示部G9的鹼基序列欄中係顯示已被推定之基 因型(等位基因)。又,基因型資訊顯示部G10,係亦可和圖32同樣地,顯示出HapMap所得的基因型之比率。
此外,若推定部5是以k近鄰法來推定基因型時,則基因型資訊顯示部G10係亦可顯示出,圖31中的檢體一覽顯示部G4、選擇結果顯示部G5、及基因型顯示部G6等中所被顯示的資訊。
(第2實施形態)
關於第2實施形態,參照圖34~圖58來加以說明。在本實施形態中,說明使用到閾值法的基因型之推定方法。此處所謂的閾值法,係指將訊號強度之區間與基因型的對應關係加以學習,基於所學習到的對應關係,來推定各檢體之基因型的基因型之推定方法。訊號強度之各區間,係被訊號強度之閾值所規定。關於閾值法,將詳述於後。
首先,關於本實施形態所述之推定裝置之機能構成,參照圖34及圖35來說明。圖34係本實施形態所述之推定裝置之機能構成的區塊圖。如圖34所示,此推定裝置係具備:檢體資料記憶部1、推定部5、顯示部6。以下,說明與第1實施形態的相異點。
於本實施形態中,檢體資料記憶部1,作為其檢體資料,係記憶著基因型資料、訊號強度資料,沒有記憶叢聚資料。又,推定裝置係不具備參照資料記憶部2、取得部3、判定部4。
這是因為,在閾值法中,不會使用叢聚資料、參照資料、及叢聚強度。如後述,若將本實施形態所述之推定方法、與第1實施形態所述之推定方法做併用時,則只要令檢體資料記憶部1中記憶有叢聚資料,同時,令推定裝置中設置有參照資料記憶部2、取得部3、判定部4即可。
又,推定部5係具備閾值學習部51、閾值法推定部52。
閾值學習部51(以下稱為「學習部51」),係基於全判讀(Fullcall)SNP的訊號強度,來學習在閾值法中所使用的訊號強度之區間與基因型的對應關係。具體而言,學習部51係學習,將訊號強度之區間予以規定的閾值、與基因型的對應關係。
所謂全判讀SNP,係指藉由DNA微陣列技術而所有檢體的基因型都已被判定的SNP,亦即,所有檢體都是已知檢體的SNP。相對於此,藉由DNA微陣列技術而有至少1個檢體的基因型為未被判定的SNP,亦即,至少含有1個未知檢體的SNP,稱為無判讀(Nocall)SNP。
此處,關於全判讀SNP及無判讀SNP,參照圖35來做具體說明。圖35係檢體資料記憶部1中所記憶之基因型資料之一例的圖示。在圖35的例子中,SNPrs00001、rs999999,係所有檢體的基因型皆為已被判定。因此,SNPrs00001、rs999999係為全判讀SNP。相對於此,SNPrs000002、rs000003,係分別是檢體02、01為 未知檢體。因此,SNPrs000002、rs000003係為無判讀SNP。如此,學習部51,係藉由參照基因型資料,就可掌握全判讀SNP及無判讀SNP。
學習部51,係為了學習閾值,而從基因型資料中抽出全判讀SNP,從訊號強度資料中抽出全判讀SNP的各檢體之訊號強度。若訊號強度資料中含有n種類的訊號強度之值,則學習部51係只要抽出作為學習對象的任1種類的訊號強度即可。學習部51進行閾值學習的訊號強度之種類,係可由推定裝置的使用者任意設定。以下就以學習部51是抽出訊號強度x1,來學習訊號強度x1之閾值的情形為例子來說明。
又,學習部51所學習的閾值之數量,係可由推定裝置的使用者任意設定,可為1個,也可為複數個。閾值之數量,係隨著各SNP中所含的基因型之種類而被設定,較為理想。
訊號強度的區間,係比閾值之數量多規定1個。因此,若各SNP中所含的基因型之種類的最大值為X個,則學習部51係考慮學習例如X-1個閾值。
以下就以,學習部51係學習閾值x1(第1閾值)、大於x1的閾值xr(第2閾值)的2個閾值的情形為例來說明。此係和,第1實施形態同樣地,想定各SNP中含有最大3種類的基因型的情形。
關於訊號強度的閾值及其學習方法,將詳述於後。
閾值法推定部52(以下稱為「推定部52」),係基於學習部51所學習到的訊號強度之區間(閾值)與基因型的對應關係,來推定無判讀SNP的各檢體的基因型。如上述,在無判讀SNP中係含有未知檢體及已知檢體。因此,在本實施形態中,不只是未知檢體的基因型之推定,還會進行已知檢體的基因型之推定(重新判定)。
例如,在第1實施形態中,圖35的SNPrs000002,係僅推定未知檢體的檢體02的基因型。相對於此,在本實施形態中,SNPrs000002係推定未知檢體的檢體02的基因型,並且也推定已知檢體的檢體01、N的基因型。關於使用到閾值法的基因型之推定方法,將詳述於後。
此外,本實施形態所述之推定裝置的硬體構成,係和第1實施形態相同。亦即,藉由電腦100執行推定程式,以實現推定裝置的上述各機能構成。
接著,關於本實施形態所述之推定裝置的動作,參照圖36~圖58來具體說明。以下,依序說明學習部51的動作、推定部52的動作。
首先,關於學習部51的動作,參照圖36~圖50來說明。以下說明,學習部51學習訊號強度x1的2個閾值x1、xr(3個區間)時的例子。圖36係閾值的學習方法之概要的流程圖。關於各步驟,將詳述於後。
首先,於步驟S10中,學習部51係生成閾值組合清單。所謂閾值組合清單,係指含有複數閾值組合的 清單。所謂閾值組合,係指閾值候補之組合。在學習2個閾值x1,xr(x1<xr)時,閾值組合,係為閾值x1之候補、與閾值xr之候補的組合。
接著,於步驟S11中,學習部51係算出用來評價閾值組合清單中所含之各閾值組合所需的基因型頻率。
接下來,於步驟S12中,學習部51係基於各閾值組合中所含之閾值候補、基因型頻率,而算出各閾值組合之評價值。
然後,於步驟S13中,學習部51係從閾值組合清單中所含之閾值組合之中,選擇出評價值為最大的閾值組合。已被選擇的閾值組合中所含之各閾值候補,係被當作以閾值法來推定基因型所需之閾值,而被採用。
以下,針對步驟S10~S13詳細說明。圖37係步驟S10中的閾值組合清單的生成方法之一例的流程圖。
步驟S101中,學習部51係從檢體資料記憶部1,取得所有的SNP的基因型資料、所有的SNP的訊號強度x1的訊號強度資料。
圖38係已被取得的基因型資料及訊號強度資料之一例的圖示。在圖38的例子中,SNPrs000001~rs9999999的基因型資料及訊號強度資料係被取得。
於步驟S102中,學習部51係將步驟S101所取得的基因型資料中所含之各基因型,置換成叢集號碼。 所謂叢集號碼,係隨應於叢聚圖譜上之各叢集之相對位置而被指派的值。學習部51係首先對各SNP的各叢集,指派叢集號碼。
圖39係叢集號碼的指派方法之一例的圖示。在圖39的例子中,從叢聚圖譜上的位於右方的叢集起,依序指派叢集號碼0、1、2。這相當於,從重心之訊號強度x1較大的叢集起依序指派叢集號碼0、1、2。
學習部51係可從步驟S101中所取得的基因型資料及訊號強度資料,算出各叢集的重心之訊號強度x1,指派叢集號碼。又,若檢體資料記憶部1中記憶有叢集座標資料,則學習部51係從檢體資料記憶部1取得叢集座標資料,參照已取得的叢集座標資料,來指派叢集號碼。
叢集號碼係每SNP地,以共通之方法而被指派。因此,在某SNP中,對基因型AA之叢集會指派叢集號碼0,在其他SNP中,對基因型CC之叢集會指派叢集號碼0,可能會發生如此情形。
學習部51係對各叢集指派了叢集號碼後,將各檢體的基因型,至換成對該檢體所被包含之叢集所指派的叢集號碼。例如,學習部51係對某個叢集指派了叢集號碼0的情況下,則將該叢集中所含之各檢體的基因型,置換成0。
圖40係係將基因型置換成叢集號碼後的基因型資料之一例的圖示。圖40的基因型資料,係對應於圖 38的基因型資料。於圖40中,0、1、2係為分別對應於基因型的叢集號碼,-1係為對應於基因型尚未被判定的叢集號碼。
例如,於SNPrs000001中,基因型CG係被置換成叢集號碼1,基因型CC係被置換成叢集號碼2。又,於SNPrs000002中,基因型AT係被置換成叢集號碼1,基因型TT係被置換成叢集號碼2。這是表示,SNPrs000001中的基因型CG之叢集的相對位置、與SNPrs000002中的基因型AT的相對位置,係為相等。
此外,在圖39的例子中,叢集號碼係對各叢集,按照訊號強度x1由高往低而依序指派,但亦可按照訊號強度x1由低往高而依序指派,亦可按照訊號強度x2由高往低或由低往高而依序指派。
以下,將各檢體的基因型,使用叢集號碼來加以表示。例如,圖40的SNPrs000001之檢體01的基因型,係為基因型1。
於步驟S103中,學習部51係參照置換後的基因型資料,而抽出全判讀SNP。例如,若參照圖40的基因型資料,則會抽出SNPrs000001、rs999998、rs999999來作為全判讀SNP。
於步驟S104中,學習部51係從步驟S101中所取得之訊號強度資料,抽出步驟S103中所抽出之全判讀SNP的訊號強度資料。
圖41係已被抽出之全判讀SNP的訊號強度資 料之一例的圖示。圖41的訊號強度資料,係從圖38的訊號強度資料抽出全判讀SNP的訊號強度資料而成。
於步驟S105中,學習部51係將步驟S104中所抽出之全判讀SNP的訊號強度資料,分割成1叢集SNP的訊號強度資料、和複數叢集SNP的訊號強度資料。
所謂1叢集SNP,係指作為判定結果是只含有1種類之基因型的SNP。亦即,所謂1叢集SNP,係指所有檢體都被判定為相同基因型的SNP。相對於此,所謂複數叢集SNP,係指作為判定結果是含有複數種類之基因型的SNP。作為判定結果,含有2種類以上之基因型的SNP,係全部被包含在複數叢集SNP中。但是,此處所謂的2種類以上之基因型,係不包含上述的基因型-1。
學習部51係為了分割訊號強度資料,而將各SNP的基因型資料中所含的基因型之種類,加以計數。學習部51係若某SNP的基因型資料中所含的基因型之種類是1種類(例如基因型1)時,則將該SNP判定為1叢集SNP。又,學習部51係若某SNP的基因型資料中所含的基因型之種類為2種類以上時,則判定該SNP為複數叢集SNP。學習部51係基於如此所得到的SNP之判定結果,而將全判讀SNP的訊號強度資料予以分割。
圖42係1叢集SNP的訊號強度資料及複數叢集SNP的訊號強度資料之一例的圖示。圖42的訊號強度資料,係將圖41的訊號強度資料予以分割而成。由圖40 可知,SNPrs999998係為僅含1種類之基因型0的1叢集SNP,SNPrs000001、rs999999係為含有3種類之基因型0、1、2的複數叢集SNP。因此,如圖42所示,1叢集SNP的訊號強度資料中係含有SNPrs999998的訊號強度資料,複數叢集SNP的訊號強度資料中係含有SNPrs000001、999999的訊號強度資料。
如此,將1叢集SNP及複數叢集SNP的訊號強度資料進行分割的理由是,1叢集SNP中的叢集的分布、與複數叢集SNP中的叢集的分布之間的差異是很大的緣故。藉由將訊號強度之閾值的學習、使用到所學習之閾值的基因型之推定,分別針對1叢集SNP及複數叢集SNP來進行,就可提升基因型的推定精度。
此外,於本實施形態中,推定裝置係亦可以將1叢集SNP及複數叢集SNP一併處理。此情況下,學習部51係不進行步驟S105中的訊號強度資料之分割,在以後的處理中也是,將1叢集SNP及複數叢集SNP一併處理即可。
於步驟S106中,學習部51係參照步驟S105中所分割之1叢集SNP的訊號強度資料,而將訊號強度之統計值,按照每一基因型而予以算出。又,學習部51係參照步驟S105中所分割之複數叢集SNP的訊號強度資料,而將訊號強度之統計值,按照每一基因型而予以算出。
訊號強度之統計值中係含有:最小值、平均 值、最大值、及標準偏差值。學習部51,係可參照置換後的基因型資料,從分割後的1叢集SNP(或複數叢集SNP)的訊號強度資料,抽出基因型0的訊號強度,算出已抽出之訊號強度的統計值,算出1叢集SNP(或複數叢集SNP)的基因型0的訊號強度之統計值。其他基因型也用同樣的方法而被算出。
圖43係1叢集SNP的訊號強度之統計值、與複數叢集SNP的訊號強度之統計值之一例的圖示。在圖43的例子中,1叢集SNP的基因型2的訊號強度之最小值,係為-6.29。
於步驟S107中,學習部51係基於1叢集SNP的各基因型的訊號強度之平均值,而將1叢集的SNP的訊號強度之區間與基因型做對應。又,學習部51,係基於複數叢集SNP的各基因型的訊號強度之平均值,而將複數叢集SPN的訊號強度之區間與基因型做對應。
一旦學習部51學習了2個訊號強度x1、xr,則會形成3個訊號強度之區間。學習部51,係從訊號強度較小的區間起,依序將訊號強度之平均值與較小的基因型做對應。
圖44係訊號強度之區間與基因型之對應關係之一例的圖示。圖44的對應關係,係基於圖43的訊號強度之平均值。在圖43的例子中,訊號強度之平均值,係由小而大依序是基因型2、1、0。因此,在圖44的例子中,從訊號強度較小的區間起依序對應到基因型2、1、 0。具體而言,在訊號強度未滿x1之區間是被對應了基因型2,在訊號強度為x1以上xr以下之區間是被對應了基因型1,在訊號強度大於xr的區間是被對應了基因型0。
於步驟S108中,學習部51係基於步驟S106中所算出的1叢集SNP的統計值,來生成1叢集SNP的閾值候補清單。又,學習部51係基於步驟S106中所算出之複數叢集SNP的統計值,來生成複數叢集SNP的閾值候補清單。所謂閾值候補清單,係為含有複數閾值候補的清單。所謂閾值候補,係為訊號強度之閾值x1、xr的候補。
1叢集SNP(或複數叢集SNP)的閾值候補係為例如,1叢集SNP(或複數叢集SNP)之各基因型的訊號強度之最小值、平均值、最大值、平均值+N×標準偏差(N係為整數),但不限於此。
圖45係1叢集SNP的閾值候補清單、與複數叢集SNP的閾值候補清單之一例的圖示。圖45的閾值候補清單係對應於圖43的統計值,含有9個閾值候補(各基因型的最小值、平均值、最大值)。例如,1叢集SNP的閾值候補清單中所含的閾值候補-6.29,係為1叢集SNP的基因型2的訊號強度之最小值。
又,1叢集SNP(或複數叢集SNP)的閾值候補係亦可將例如,1叢集SNP(或複數叢集SNP)的統計值的最大值與最小值之間,分割成等間隔的值。此情況下,各閾值候補xi,係用以下的式子而被算出。
於式(10)、(11)中,n係為閾值候補清單中所含的閾值候補之數量,xmin係為統計值之最小值,xmax係為統計值之最大值,d係為閾值候補之間隔。在圖43的例子中,1叢集SNP的統計值之最小值xmin係相當於基因型2的訊號強度之最小值-6.29,最大值xmax係相當於基因型0的訊號強度之最大值7.46。
此外,閾值候補清單中所含的閾值候補,係不限於上記所述,可由訊號強度之統計值以任意之方法來生成之。又,閾值候補清單中,作為閾值候補,亦可含有預先設定的任意之值。
於步驟S109中,學習部51係參照步驟S108中所生成之1叢集SNP的閾值候補清單,而生成1叢集SNP的閾值組合清單。又,學習部51,係參照步驟S108中所生成之複數叢集SNP的閾值候補清單,而生成複數叢集SNP的閾值組合清單。
所謂閾值組合清單,係如上述,是含有複數閾值組合的清單。學習部51,係將閾值候補清單中所含的閾值候補加以組合以生成閾值組合,生成含有複數閾值組合的閾值組合清單。
閾值候補清單中含有n個閾值候補,閾值組合中含有r個閾值候補時,則最多會生成n!/(n-r)!r!個閾值組合。因此,1叢集SNP的閾值候補清單中含有9個閾值候補,閾值組合中含有2個閾值候補x1、xr時,最多會生成36個閾值組合。
圖46係為1叢集SNP的閾值組合清單之一例的圖示。圖46的閾值組合清單,係對應於圖45的閾值候補清單。圖46的閾值組合清單中係含有36個閾值組合。在圖46的例子中,例如,閾值組合1係為(x1,xr)=(-6.29,7.46)。如圖46的閾值組合清單,係針對複數叢集SNP都加以生成。
接著,詳細說明步驟S11中的基因型頻率之算出方法。閾值組合清單生成後,學習部51係將1叢集SNP的基因型頻率、與複數叢集SNP的基因型頻率,分別予以算出。所謂基因型頻率,係具有訊號強度是被包含在,被相鄰2個閾值候補所規定之訊號強度之區間中的檢體之數量。基因型頻率,係按照每一基因型而被算出。
學習部51,係藉由參照步驟S105中所分割的訊號強度資料、置換後的基因型資料、步驟S108中所生成之閾值候補清單,就可算出1叢集SNP及複數叢集SNP的各區間之各基因型的基因型頻率。
例如,若參照圖42的1叢集SNP的訊號強度資料,則SNPrs999998之檢體01的訊號強度係為0.3。此訊號強度,係若參照圖45的1叢集SNP的閾值候補清 單,就可得知是被包含在閾值候補0.69與閾值候補2.11之間的區間中。然後,若參照圖40的基因型資料,則SNPrs999998之檢體01的基因型係為2。結果,1叢集SNP的0.69與2.11之間的區間的基因型2的基因型頻率,係被加算1。
學習部51,係參照1叢集SNP的訊號強度資料中所含之各訊號強度,如上記所述般地逐一加算各區間之各基因型的基因型頻率,算出1叢集SNP的基因型頻率。針對複數叢集SNP也以同樣的方法而算出基因型頻率。
圖47係1叢集SNP的基因型頻率之一例的圖示。圖47的基因型頻率,係對應於圖45的閾值候補清單。在圖47的例子中,在閾值候補-2.11與閾值候補-1.79之間的區間中,基因型2的基因型頻率係較大,基因型1的基因型頻率係較小,基因型0的基因型頻率係為0。
接著,詳細說明步驟S12中的評價值之算出方法及步驟S13中的閾值組合之選擇方法。基因型頻率算出後,學習部51係算出1叢集SNP的各閾值組合之評價值,基於所算出的評價值,來選擇1叢集SNP的閾值組合。又,學習部51係算出複數叢集SNP的各閾值組合之評價值,基於所算出的評價值,來選擇複數叢集SNP的閾值組合。
首先,學習部51係將全判讀SNP中的1叢集SNP的基因型,基於各閾值組合而分別進行重新判定。以 下說明2個重新判定方法。
在第1重新判定方法中,學習部51係從1叢集SNP的閾值組合清單選擇出1個閾值組合,抽出1叢集SNP的檢體的訊號強度及基因型。然後,學習部51,係將訊號強度小於x1的檢體的基因型重新判定為基因型2,將訊號強度為x1以上xr以下的檢體的基因型重新判定為基因型1,將訊號強度為大於xr的檢體的基因型重新判定為基因型0。
圖48係第1重新判定方法所致之重新判定前後的叢聚地圖之一例的圖示。於圖48中,圓圈係表示各檢體,圓圈中的值係表示基因型之值。圖48的上圖係表示重新判定前的基因型,下圖係表示重新判定後的基因型。由圖48可知,在第1重新判定方法中,訊號強度是被包含在在閾值候補x1與閾值候補xr之間的區間中的檢體的基因型,係全部被重新判定為基因型1。
如此,在第1重新判定方法中,僅使用閾值組合,未使用基因型頻率。因此,在採用第1重新判定方法時,可省略步驟S11。
相對於此,在第2重新判定方法中,係會使用基因型頻率。具體而言,在第2重新判定方法中,訊號強度為x1以上xr以下之檢體的基因型,是以使用到基因型頻率的多數決演算法而被重新判定。亦即,訊號強度為x1以上xr以下之檢體係被重新判定成,該檢體的訊號強度所被包含的區間中的基因型頻率為最大的基因型。
例如,(x1,xr)=(-2.11,2.33),某檢體的訊號強度為-2.00,得到圖47所示的基因型頻率的情況下,則該檢體的基因型係被重新判定成,於-2.11與-1.79之間的區間中基因型頻率為最大的基因型2。
圖49係第2重新判定方法所致之重新判定前後的叢聚地圖之一例的圖示。如圖49所示,在第2重新判定方法中,訊號強度是被包含在閾值候補x1與閾值候補xr之間的區間中的檢體,並不一定會被重新判定成基因型1。
學習部51,係藉由如上述的重新判定方法,將1叢集SNP的基因型進行重新判定後,算出重新判定前的基因型與重新判定後的基因型的一致率。例如,在圖48的例子中,在重新判定之前後,16個檢體之中,有12個檢體的基因型為一致,因此一致率係為0.75。又,在圖49的例子中,在重新判定之前後,16個檢體之中,有13個檢體的基因型為一致,因此一致率係為0.81。
如此算出的一致率,是被當成重新判定中所被使用之閾值組合之評價值來使用。學習部51,係藉由以上之方法,算出1叢集SNP的閾值組合清單中所含之各閾值組合之評價值。又,學習部51,係也以同樣的方法,算出複數叢集SNP的閾值組合清單中所含之各閾值組合之評價值。
圖50係為含有評價值的閾值組合清單之一例的圖示。在圖50的例子中,閾值組合1之評價值係為 0.80,閾值組合24之評價值係為0.97。
學習部51,係從1叢集SNP的閾值組合清單中所含之閾值組合之中,選擇出評價值為最大的閾值組合。已被選擇的閾值組合中所含之各閾值候補,係被當作以閾值法來推定1叢集SNP之基因型所需之閾值,而被學習。
又,學習部51,係從複數叢集SNP的閾值組合清單中所含之閾值組合之中,選擇出評價值為最大的閾值組合。已被選擇的閾值組合中所含之各閾值候補,係被當作以閾值法來推定複數叢集SNP之基因型所需之閾值,而被學習。
例如,在圖50的例子中,閾值組合清單之中評價值為最大的閾值組合係為閾值組合24,因此閾值組合24中所含的閾值候補,係被當成用來推定基因型所需之閾值,而被學習。亦即,以閾值法來推定基因型之際,作為閾值x1是使用-0.80,作為閾值xr是使用2.11。
藉由如以上地學習閾值,就可提升閾值法所致之基因型的推定精度。這是因為,閾值組合之評價值(一致率)越高,則該閾值組合所致之基因型的推定結果、與全判讀SNP中的基因型的推定結果,就會越接近。一般而言,全判讀SNP中的基因型的推定精度係為高,因此獲得越接近於全判讀SNP中之推定結果的推定結果的閾值組合,推定精度就越高。
接著,關於使用到推定部52所致之閾值的基 因型之推定方法,參照圖51~圖58來說明。以下假設訊號強度之閾值x1、xr,係為已學習。圖51係閾值法所致之基因型的推定方法之概要的流程圖。
首先,於步驟S14中,推定部52係從檢體資料記憶部1,取得所有的SNP的基因型資料、所有的SNP的訊號強度x1的訊號強度資料。
接著,於步驟S15中,推定部52係將步驟S14中所取得之基因型資料中所含之各基因型,置換成叢集號碼。基因型的置換方法,係如步驟S102所說明。
接下來,於步驟S16中,推定部52係參照置換後的基因型資料,抽出無判讀SNP。例如,若參照圖40的基因型資料,則會抽出SNPrs000002、rs000003來作為無判讀SNP。
然後,於步驟S17中,推定部52係從步驟S16中所抽出之無判讀SNP之中,選擇出對象SNP。所謂對象SNP,係指要以閾值法來推定基因型的對象之SNP。在本實施形態中,如上述,閾值的學習,係使用所有全判讀SNP而被進行,但基因型的推定,係針對每個無判讀SNP而被一一進行。對象SNP的選擇方法係為任意。
其後,於步驟S18中,推定部52係將步驟SS17中所選擇之對象SNP的各檢體的基因型,以閾值法加以推定。關於步驟S18,將詳述於後。
作為對象SNP而有未選擇之無判讀SNP時(步驟S19的YES),則推定部52係從未選擇之無判讀 SNP之中,選擇出下個對象SNP(步驟S17)。以後,直到沒有未選擇之無判讀SNP為止,會一直重複步驟S17~S19。
然後,一旦作為對象SNP而沒有未選擇之無判讀SNP(步驟S19的NO),則推定部52係結束基因型之推定處理。
此處,詳細說明步驟S18中的基因型之推定方法。以下,分別說明2個推定方法。
首先說明第1推定方法。在第1推定方法中,推定部52係僅使用訊號強度之閾值x1、xr,來推定對象SNP的所有檢體的基因型。圖52係為第1推定方法的流程圖。
於步驟S1801中,推定部52係從置換後的基因型資料及訊號強度資料之中,抽出對象SNP的基因型資料及訊號強度資料。
於步驟S1802中,推定部52係參照對象SNP的基因型資料,取得對象SNP的叢集數。叢集數的取得方法係如上述。亦即,推定部52係計數對象SNP的基因型資料中所含的基因型之種類,取得對象SNP的叢集數。
此外,訊號強度的閾值x1、xr,並非針對1叢集SNP及複數叢集SNP之每一者而被個別學習的情況下,則步驟S1802亦可被省略。此情況下,推定部52係只要1叢集SNP及複數叢集SNP視為相同,而執行以後 的處理即可。
於步驟S1803中,推定部52係從學習部51,取得對象SNP的叢集數所相應之訊號強度之閾值x1、xr。推定部52,係若對象SNP的叢集數為1,則取得1叢集SNP的閾值x1、xr;若對象SNP的叢集數為2以上,則取得複數叢集SNP的閾值x1、xr
於步驟S1804中,推定部52係基於步驟S1803中所取得之閾值x1、xr,來推定對象SNP的各檢體的基因型。具體而言,推定部52,係將訊號強度xi小於x1(xi<x1)的檢體的基因型推定為基因型2,將訊號強度為x1以上xr以下(x1≦xi≦xr)的檢體的基因型推定為基因型1,將訊號強度大於xr(xr<xi)的檢體的基因型推定為基因型0。
圖53係第1推定方法所致之推定前後的叢聚地圖之一例的圖示。圖53的上圖係表示第1推定方法所致之推定前的基因型,下圖係表示第1推定方法所致之推定後的基因型。由圖53可知,在第1推定方法中,含有未知檢體及已知檢體的所有檢體的基因型,是基於閾值x1、xr而被推定。
其後,推定部52係結束對象SNP的基因型之推定處理。若有未選擇之無判讀SNP(步驟S19的YES),則推定部52係選擇下個對象SNP(步驟S17)。
接著說明第2推定方法。在第2推定方法中,推定部52係使用訊號強度之閾值x1、xr,來推定對 象SNP的已知檢體的基因型後,使用k近鄰法來推定未知檢體的基因型。圖54係為第2推定方法的流程圖。圖54的步驟S1801~S1803,係和第1推定方法相同,因此省略說明。
於步驟S1805中,推定部52係基於步驟S1803中所取得之閾值x1、xr,來推定對象SNP的檢體之中,訊號強度為最大之檢體、與訊號強度為最小之檢體的基因型。具體而言,推定部52,係將訊號強度小於x1的檢體的基因型推定為基因型2,將訊號強度為x1以上xr以下的檢體的基因型推定為原本的基因型,將訊號強度為大於xr的檢體的基因型推定為基因型0。
圖55係步驟S1805中的推定前後的叢聚地圖之一例的圖示。圖55的上圖係表示推定前的基因型,下圖係表示推定後的基因型。在圖55的例子中,如上圖所示,訊號強度為最小之檢體(左端之檢體)的基因型係為基因型2,訊號強度為最大之檢體(右端之檢體)的基因型係為基因型1。又,這2個檢體的訊號強度,係都小於閾值x1。此情況下,如下圖所示,於步驟S1805中,2個檢體的基因型都被推定成基因型2。相對於此,若圖55的右端之檢體的訊號強度為x1以上xr以下時,則於步驟S1805中,右端之檢體的基因型係被推定為基因型1(原本的基因型)。
於步驟S1806中,推定部52係判定,步驟S1805中所推定之2個檢體的基因型為相同。若2個檢體 的基因型為相同(步驟S1806的YES),則處理係前進至步驟S1807。
於步驟S1807中,推定部52係將所有檢體的基因型,推定為與步驟S1805中所被推定之2個檢體的基因型相同的基因型。這是因為,訊號強度為最大及最小之檢體的基因型都被推定為相同基因型X的情況下,在以後的處理中,所有檢體的基因型都會被推定為相同基因型X。
於步驟S1805~S1807中,僅先推定2個檢體的基因型,根據其推定結果來推定所有檢體的基因型,就可削減推定裝置的計算量。
圖56係步驟S1807中的推定前後的叢聚地圖之一例的圖示。圖56的上圖係表示推定前的基因型,下圖係表示推定後的基因型。圖56的上圖,係相當於圖55的下圖。在圖56的例子中,由於左端及右端之檢體的基因型係都被推定為基因型2,因此於步驟S1807中,所有檢體的基因型都被推定為基因型2。由圖56可知,在步驟S1807中,不只已知檢體,就連未知檢體的基因型也被推定,因此不會使用k近鄰法。
其後,推定部52係結束對象SNP的基因型之推定處理。若有未選擇之無判讀SNP(步驟S19的YES),則推定部52係選擇下個對象SNP(步驟S17)。
另一方面,若步驟S1805中所推定之2個檢體的基因型是不同(步驟S1806的NO),則處理係前進至 步驟S1808。
於步驟S1808中,推定部52係基於步驟S1803中所取得之閾值x1、xr,來推定對象SNP的所有檢體的基因型。推定方法係和步驟S1805相同。亦即,推定部52,係將訊號強度小於x1的檢體的基因型推定為基因型2,將訊號強度為x1以上xr以下的檢體的基因型推定為原本的基因型,將訊號強度為大於xr的檢體的基因型推定為基因型0。
圖57係步驟S1808中的推定前後的叢聚地圖之一例的圖示。圖57的上圖係表示推定前的基因型,下圖係表示推定後的基因型。在圖57的例子中,步驟S1808中的推定之結果,訊號強度大於xr的4個檢體的基因型,係被推定為基因型0。
於步驟S1809中,推定部52係算出步驟S1808中的推定前的基因型與推定後的基因型的一致率,判定所算出之一致率是否大於一致率閾值。一致率閾值,係可任意設定。在圖57的例子中,16個檢體之中,在推定前後有12個檢體的基因型為一致,因此一致率係為0.75。
若一致率大於一致率閾值(步驟S1809的YES),則處理係前進至步驟S1810。
於步驟S1810中,推定部52,係在對象SNP的檢體之中,判定是否有未知檢體。如上述,未知檢體係相當於基因型為-1之檢體。因此,推定部52係參照步驟 S1808中的推定結果,確認是否有基因型-1之檢體,就可判定是否有未知檢體。
若對象SNP的檢體中沒有未知檢體(步驟S1810的NO),則推定部52係結束對象SNP的基因型之推定處理。若有未選擇之無判讀SNP(步驟S19的YES),則推定部52係選擇下個對象SNP(步驟S17)。
另一方面,如圖57的例子所示,若對象SNP的檢體中有未知檢體(步驟S1810的YES),則處理係前進至步驟S1811。
於步驟S1811中,推定部52係從對象SNP的檢體中抽出未知檢體,以k近鄰法來推定各未知檢體的基因型。此時,作為已知檢體的基因型,係使用步驟S1808中的推定結果。k近鄰法所致之基因型之推定方法,係如第1實施形態所說明。推定部52係例如,將最靠近於未知檢體(叢聚圖譜上的歐幾里德距離為最近)的k個檢體(或叢集線)予以抽出,在所抽出之檢體(或叢集線)的基因型之中,將最多的基因型,推定作為未知檢體的基因型即可。
其後,推定部52係結束對象SNP的基因型之推定處理。若有未選擇之無判讀SNP(步驟S19的YES),則推定部52係選擇下個對象SNP(步驟S17)。
相對於此,若一致率為一致率閾值以下(步驟S1809的NO),則處理係前進至步驟S1812。
於步驟S1812中,推定部52係每叢集地以多數決法來推定基因型。首先,推定部52係將對象SNP的 已知檢體,按照步驟S1811中的推定前之每一基因型而加以分類,生成對應於各基因型的叢集。各叢集中係含有,具有對應於該叢集之基因型的檢體。
接著,推定部52係參照步驟S1808中的推定結果,在各叢集中所含之檢體的推定後的基因型之中,將最多的基因型,推定為該叢集的基因型。然後,推定部52係將各叢集中所含之所有檢體的基因型,推定為該檢體所被包含之叢集的基因型。
圖58係步驟S1808、S1812中的推定前後的叢聚地圖之一例的圖示。圖58的上圖係表示步驟S1808中的推定前的基因型,中圖係表示步驟S1808中的推定後的基因型,下圖係表示步驟S1812中的推定後的基因型。圖58的上圖及中圖,係與圖57相對應。
在圖58的例子中,推定部52係首先生成,含有4個基因型1之檢體的叢集1、含有11個基因型2之檢體的叢集2(參照上圖)。
接著,推定部52係參照步驟S1808中的推定結果,在叢集1中所含之檢體的推定後的基因型之中,將最多的基因型,推定為叢集1的基因型(參照中圖)。在圖58的例子中,叢集1中係含有3個基因型0之檢體,含有1個基因型1之檢體。因此,推定部52係將叢集1的基因型推定為基因型1。
然後,推定部52係將叢集1中所含之所有檢體的基因型,推定為叢集1的基因型也就是基因型0(參照 下圖)。推定部52,係也用同樣之方法,來推定叢集2中所含之各檢體的基因型。結果,叢集2中所含之所有檢體的基因型,係被推定為基因型2。
其後,處理係前進至步驟S1810。步驟S1810以後之處理,係和上述相同,於步驟S1811中,未知檢體的基因型是以k近鄰法而被推定。
如以上說明,本實施形態所述之推定裝置,係以使用到訊號強度之閾值的閾值法,來推定無判讀SNP的基因型。閾值,係使用基因型是被精度佳地判定出來的全判讀SNP的訊號強度資料而被學習,因此推定裝置係精度佳地推定無判讀SNP的基因型。
又,本實施形態所述之推定方法,係不使用參照資料就可推定基因型,因此即使在沒有獲得充分參照資料的情況下,仍可利用。
此外,於本實施形態中,k近鄰法所使用的參數k之值,係亦可藉由交叉驗證而被最佳設定。交叉驗證所致之參數k之設定方法,係如同第1實施形態所說明。
又,本實施形態所述之推定裝置,係亦可執行第1實施形態所述之推定方法。此情況下,推定方法,係可藉由GUI讓使用者來做選擇,較為理想。推定裝置,係只要執行已被使用者所選擇的推定方法即可。
(第3實施形態)
關於第3實施形態,參照圖59~圖61來加以說明。 在本實施形態中,說明在第1實施形態及第2實施形態所述之推定方法中所使用的,k近鄰法所致之基因型之推定方法的變形例。
在上記的各實施形態中,是以使用k近鄰法,就可以推定未知檢體的基因型為前提。然而,若複數未知檢體,於叢聚圖譜上,集中在相對較近的位置時,則上記的k近鄰法,有可能無法推定各未知檢體的基因型。
圖59係複數未知檢體集中在相對較近位置的叢聚地圖之一例的圖示。於圖59中,檢體s1~s3係為未知檢體,集中在彼此接近的位置。
在圖59的例子中,若k近鄰法的參數k為3,則作為檢體s1的最近鄰之3個檢體,係選擇基因型為-1之檢體s2、s3檢體、基因型為0之檢體1個。結果,藉由多數決演算法,檢體s1的基因型係被推定為-1。亦即,檢體s1的基因型係無法推定。基於同樣的理由,檢體s2、s3的基因型也無法推定。
在本實施形態中係說明,即使在如此情況下,仍可推定未知檢體的基因型的k近鄰法。圖60係本實施形態所述之k近鄰法的流程圖。
於步驟S20中,推定部5係生成未知檢體清單。所謂未知檢體清單,係含有對象SNP之所有未知檢體的清單。
於步驟S21中,推定部5係判定,步驟S20中所生成之未知檢體清單是否為空的。若未知檢體清單是 空的(步驟S21的YES),亦即,對象SNP中沒有未知檢體,則推定部5係結束k近鄰法所致之未知檢體的基因型之推定處理。
另一方面,若未知檢體清單不是空的(步驟S21的NO),亦即,對象SNP中有未知檢體,則處理係前進至步驟S22。
於步驟S22中,推定部5係藉由使用到所有檢體的k近鄰法,來推定未知檢體清單中所含之各未知檢體的基因型。步驟S22中所執行的k近鄰法所致之基因型之推定,係如第1實施形態所說明。
於步驟S23中,推定部5係將步驟S22中基因型為已被推定之未知檢體,從未知檢體清單中刪除。此處所被刪除的未知檢體,在以後的處理中係被視為已知檢體。
在步驟S23若有1個以上之未知檢體是被從未知檢體清單中刪除(步驟S24的YES),則處理係回到步驟S21。這是因為,藉由1個以上之未知檢體變成新的已知檢體,導致步驟S22中無法推定基因型的未知檢體的基因型,有可能變成可以推定。
以後,直到1個以上之未知檢體無法再從未知檢體清單中被刪除為止(步驟S22中1個以上之未知檢體的基因型為無法被推定為止),會一直重複步驟S21~S24之處理。
另一方面,在步驟S23若沒有1個以上之未 知檢體被從未知檢體清單中刪除(步驟S24的NO),則處理係前進至步驟S25。這相當於,使用到所有檢體的k近鄰法中,已經變成無法推定未知檢體的基因型的情形。亦即,如上述,是複數未知檢體是集中在相對較近位置的意思。
於步驟S25中,推定部5係從未知檢體清單中所含之未知檢體之中,選擇出對象檢體。此處所謂的對象檢體,係為基因型之推定對象的未知檢體。推定部5,係可隨機選擇對象檢體,也可藉由以下方法來選擇之。
首先,推定部5係針對未知檢體清單中所含之各未知檢體,算出最近鄰之k個已知檢體之間的平均距離。然後,推定部5係將k個已知檢體之間的平均距離為最小之未知檢體,選擇作為對象檢體。
於步驟S26中,推定部5係將步驟S25中所選擇之對象檢體的基因型,以僅使用到已知檢體的k近鄰法,加以推定。藉此,作為對象檢體之最近鄰的k個檢體,會選擇k個已知檢體。因此,基於所被選擇的已知檢體的基因型,就可推定對象檢體的基因型。
於步驟S27中,推定部5係將對象檢體從未知檢體清單中刪除。其後,處理係回到步驟S21。以後,直到未知檢體清單變空為止,會一直重複步驟S21~S27之處理。
圖61係對應於,以本實施形態所述之k近鄰法,來推定未知檢體的基因型的過程的,叢聚圖譜的圖 示。圖61的左上圖,係與圖59相同。為了簡化說明,假設檢體s1~s3,係在使用到所有檢體的k近鄰法中無法推定基因型。又,假設檢體s1~s3,係依此順序而被選擇來作為對象檢體。再者,假設參數k係為3。
首先,於第1次的反覆處理中,推定部5係將檢體s1選擇作為對象檢體(步驟S25)。然後,推定部5係以使用到已知檢體的k近鄰法,來推定檢體s1的基因型。在圖61的例子中,作為檢體s1之最近鄰的3個已知檢體,是選擇基因型0的3個已知檢體。因此,推定部5,係如左下圖所示,將檢體s1的基因型推定為基因型0(步驟S26)。其後,推定部5係將檢體s1從未知檢體清單中刪除(步驟S27)。以後,檢體s1係變成基因型0的已知檢體。
接著,於第2次的反覆處理中,推定部5係將檢體s2選擇作為對象檢體(步驟S25)。然後,推定部5係以使用到已知檢體的k近鄰法,來推定檢體s2的基因型。在圖61的例子中,作為檢體s2之最近鄰的3個已知檢體,是選擇基因型1的2個已知檢體、和基因型0的1個已知檢體(檢體s1)。因此,推定部5,係如右上圖所示,將檢體s2的基因型推定為基因型1(步驟S26)。其後,推定部5係將檢體s2從未知檢體清單中刪除(步驟S27)。以後,檢體s2係變成基因型1的已知檢體。
然後,於第3次的反覆處理中,推定部5係將檢體s3選擇作為對象檢體(步驟S25)。然後,推定部5 係以使用到已知檢體的k近鄰法,來推定檢體s3的基因型。在圖61的例子中,作為檢體s3之最近鄰的3個已知檢體,是選擇基因型1的2個已知檢體(含有檢體s2)、和基因型0的1個已知檢體(檢體s1)。因此,推定部5,係如右下圖所示,將檢體s3的基因型推定為基因型1(步驟S26)。其後,推定部5係將檢體s3從未知檢體清單中刪除(步驟S27)。藉此,檢體s3係變成基因型1的已知檢體。
如以上說明,若依據本實施形態所述之k近鄰法,則即使複數未知檢體是集中在相對較近位置的情況下,仍可推定未知檢體的基因型。本實施形態所述之k近鄰法,係亦可適用於第1實施形態及第2實施形態之任一者。
此外,本發明係不限定於上記各實施形態的原樣,在實施階段可在不脫離其宗旨的範圍內,對構成要素加以變形而具體化。的原樣,在實施階段可在不脫離其宗旨的範圍內,對構成要素加以變形而具體化。又,亦可將上記各實施形態所揭露的複數構成要素做適宜組合,來形成各種發明。又例如,亦可考慮將各實施形態所示之全構成要素中刪除數個構成要素之構成。甚至,亦可將不同實施形態所記載之構成要素加以組合。
1‧‧‧檢體資料記憶部
2‧‧‧參照資料記憶部
3‧‧‧叢聚強度取得部
4‧‧‧叢聚強度判定部
5‧‧‧基因型推定部
6‧‧‧推定結果顯示部

Claims (38)

  1. 一種基因型推定裝置,係具備:取得部,係取得包含基因型為未知的未知檢體、與前記基因型為已知的已知檢體的複數檢體的基因型資料的叢聚強度;和推定部,係在前記叢聚強度大於第1閾值時,基於前記基因型資料,來推定前記未知檢體的前記基因型,並將推定結果予以輸出。
  2. 如請求項1所記載之基因型推定裝置,其中,前記推定部,係在前記叢聚強度是比小於前記第1閾值的第2閾值還小時,基於參照單型資料,來推定前記未知檢體的前記基因型。
  3. 如請求項1所記載之基因型推定裝置,其中,前記推定部,係在前記叢聚強度是前記第1閾值以下且前記第2閾值以上時,基於前記基因型資料與前記參照單型資料,來推定前記未知檢體的前記基因型。
  4. 如請求項1所記載之基因型推定裝置,其中,前記推定部,係基於前記基因型資料,以k近鄰法來推定前記未知檢體的前記基因型。
  5. 如請求項1所記載之基因型推定裝置,其中,前記推定部,係選擇最鄰近於前記未知檢體的k個樣本,基於已選擇之前記樣本的前記基因型,來推定前記未知檢體的前記基因型。
  6. 如請求項1所記載之基因型推定裝置,其中, 前記樣本係為前記已知檢體或叢集線。
  7. 如請求項5所記載之基因型推定裝置,其中,前記推定部,係藉由把前記樣本之數量當作投票數來使用的多數決演算法,來推定前記未知檢體的前記基因型。
  8. 如請求項5所記載之基因型推定裝置,其中,前記推定部,係藉由把對前記樣本所賦予的權重當作投票數來使用的多數決演算法,來推定前記未知檢體的前記基因型。
  9. 如請求項4所記載之基因型推定裝置,其中,前記推定部,係針對前記k近鄰法之參數k的複數候補,藉由交叉驗證以算出推定精度,將前記推定精度為最大的前記候補,設定成前記參數k。
  10. 如請求項1所記載之基因型推定裝置,其中,還具備:檢體資料記憶部,係記憶包含有前記基因型資料、訊號強度資料、叢聚資料之至少1者的檢體資料。
  11. 如請求項10所記載之基因型推定裝置,其中,前記訊號強度資料係含有:以DNA微陣列技術所測定出來的螢光強度之測定值及基於前記測定值而被算出的參數之至少一方。
  12. 如請求項2所記載之基因型推定裝置,其中,前記推定部,係基於前記參照單型資料,藉由插補法,來推定前記未知檢體的前記基因型。
  13. 如請求項1所記載之基因型推定裝置,其中, 還具備:參照資料記憶部,係記憶包含有連鎖不平衡統計資料、前記參照單型資料、參照基因型頻率資料之至少1者的參照資料。
  14. 如請求項13所記載之基因型推定裝置,其中,前記推定部,係基於前記連鎖不平衡統計資料中所含之至少1個分數,來抽出前記基因型是與未知的SNP有所關連的複數推定用SNP;基於前記推定用SNP的前記參照單型資料,來推定前記未知檢體的前記基因型。
  15. 如請求項14所記載之基因型推定裝置,其中,前記推定部,係將前記分數為所定閾值以上的前記SNP,當作前記推定用SNP而予以抽出。
  16. 如請求項14所記載之基因型推定裝置,其中,前記推定部,係從前記推定用SNP的前記參照單型資料之中,選擇出與前記未知檢體的單型資料類似的至少1個前記參照單型資料,基於已選擇之前記參照單型資料,來推定前記未知檢體的前記基因型。
  17. 如請求項16所記載之基因型推定裝置,其中,前記推定部,係將前記參照單型資料及前記單型資料中所含之等位基因,置換成數值,基於已置換之前記數值,來算出前記參照單型資料與前記單型資料之距離。
  18. 如請求項13所記載之基因型推定裝置,其中,前記取得部,係基於前記基因型資料及前記參照基因型頻率資料,來算出前記叢聚強度。
  19. 如請求項5所記載之基因型推定裝置,其中,還具備:顯示部,係將藉由前記k近鄰法而被選擇的k個前記樣本、和前記未知檢體的基因型之推定結果,加以顯示。
  20. 如請求項1所記載之基因型推定裝置,其中,還具備:顯示部,係將前記基因型資料的叢聚圖譜、和HapMap所得的前記基因型之比率的至少1者,加以顯示。
  21. 如請求項1所記載之基因型推定裝置,其中,前記未知檢體的前記基因型,係基於最鄰近於前記未知檢體的k個前記已知檢體的前記基因型,而被推定。
  22. 如請求項13所記載之基因型推定裝置,其中,還具備:顯示部,係將前記未知檢體的基因型之推定結果、前記參照單型資料、前記未知檢體的前記單型資料、定相後的前記單型資料、插補後的前記單型資料、HapMap所得的前記基因型之比率的至少1者,加以顯示。
  23. 一種基因型推定方法,係具備:取得包含基因型為未知的未知檢體、與前記基因型為已知的已知檢體的複數檢體的基因型資料的叢聚強度之工程;和在前記叢聚強度大於第1閾值時,基於前記基因型資料,來推定前記未知檢體的前記基因型,並將推定結果予以輸出之工程。
  24. 一種記憶媒體,其所記憶的程式係令電腦執行:取得包含基因型為未知的未知檢體、與前記基因型為已知的已知檢體的複數檢體的基因型資料的叢聚強度之工程;和在前記叢聚強度大於第1閾值時,基於前記基因型資料,來推定前記未知檢體的前記基因型,並將推定結果予以輸出之工程。
  25. 一種基因型推定裝置,係具備:閾值學習部,係基於基因型為已知的檢體也就是已知檢體的藉由DNA微陣列技術所被測定出來的訊號強度,而將被前記訊號強度之閾值所規定的區間、與前記基因型的對應關係,加以學習;和閾值法推定部,係基於前記對應關係,來推定前記基因型為未知的前記檢體也就是未知檢體的前記基因型。
  26. 如請求項25所記載之基因型推定裝置,其中,前記閾值學習部,係基於所有檢體都是前記已知檢體的全判讀SNP的前記訊號強度,來學習前記對應關係。
  27. 如請求項26所記載之基因型推定裝置,其中,前記閾值學習部,係將前記全判讀SNP的前記訊號強度之統計值,針對每一前記基因型於予以算出,並基於前記統計值,來生成前記閾值之候補也就是閾值候補。
  28. 如請求項26所記載之基因型推定裝置,其中,前記閾值學習部,係基於前記全判讀SNP的前記訊號強度之平均值,而令前記區間與前記基因型做對應。
  29. 如請求項27所記載之基因型推定裝置,其中,前記閾值學習部,係生成前記閾值候補的組合也就是閾值組合,基於前記閾值組合來推定前記全判讀SNP的前記基因型,算出推定前的前記基因型、與推定後的前記基因型之一致率。
  30. 如請求項29所記載之基因型推定裝置,其中,前記閾值學習部,係將被前記一致率為最大的前記閾值組合中所含之前記閾值所規定的前記區間、與前記基因型的對應關係,加以學習。
  31. 如請求項25所記載之基因型推定裝置,其中,前記閾值學習部,係將被前記訊號強度的第1閾值和大於前記第1閾值的第2閾值所規定的3個前記區間、與前記基因型的對應關係,加以學習。
  32. 如請求項25所記載之基因型推定裝置,其中,前記閾值法推定部,係基於前記對應關係,來推定至少1個前記檢體是前記未知檢體的無判讀SNP的前記基因型。
  33. 如請求項32所記載之基因型推定裝置,其中,前記閾值法推定部,係將前記無判讀SNP的前記檢體的前記基因型,推定為前記檢體的前記訊號強度所被包含之前記區間所對應的前記基因型。
  34. 如請求項25所記載之基因型推定裝置,其中,前記閾值法推定部,係將前記訊號強度是被包含在所定之前記區間中的前記檢體的基因型,藉由k近鄰法來加 以推定。
  35. 如請求項25所記載之基因型推定裝置,其中,前記閾值法推定部,係將前記訊號強度小於第1閾值的前記檢體、和前記訊號強度大於第2閾值的前記檢體的前記基因型,基於前記對應關係來加以推定;將前記訊號強度為前記第1閾值以上且為前記第2閾值以下的前記檢體的前記基因型,藉由k近鄰法來加以推定。
  36. 如請求項25所記載之基因型推定裝置,其中,前記未知檢體的基因型,係基於最鄰近於前記未知檢體的k個前記已知檢體的前記基因型,而被推定。
  37. 一種基因型推定方法,係具備:基於基因型為已知的檢體也就是已知檢體的藉由DNA微陣列技術所被測定出來的訊號強度,而將被前記訊號強度之閾值所規定的區間、與前記基因型的對應關係,加以學習之工程;和基於前記對應關係,來推定前記基因型為未知的前記檢體也就是未知檢體的前記基因型之工程。
  38. 一種記憶媒體,其所記憶的程式係令電腦執行:基於基因型為已知的檢體也就是已知檢體的藉由DNA微陣列技術所被測定出來的訊號強度,而將被前記訊號強度之閾值所規定的區間、與前記基因型的對應關係,加以學習之工程;和基於前記對應關係,來推定前記基因型為未知的前記 檢體也就是未知檢體的前記基因型之工程。
TW104135622A 2014-10-30 2015-10-29 Genotyping devices, methods, and memory media TWI584143B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014221614 2014-10-30

Publications (2)

Publication Number Publication Date
TW201633195A TW201633195A (zh) 2016-09-16
TWI584143B true TWI584143B (zh) 2017-05-21

Family

ID=55857580

Family Applications (1)

Application Number Title Priority Date Filing Date
TW104135622A TWI584143B (zh) 2014-10-30 2015-10-29 Genotyping devices, methods, and memory media

Country Status (4)

Country Link
US (1) US11355219B2 (zh)
JP (1) JP6280657B2 (zh)
TW (1) TWI584143B (zh)
WO (1) WO2016068245A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10777302B2 (en) * 2012-06-04 2020-09-15 23Andme, Inc. Identifying variants of interest by imputation

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1769496A (zh) * 2004-09-27 2006-05-10 株式会社日立高新技术 核酸扩增分析法及装置
TW201333467A (zh) * 2011-11-25 2013-08-16 Toppan Printing Co Ltd 樣本分析晶片、樣本分析方法及基因解析方法
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法
TW201439112A (zh) * 2012-11-26 2014-10-16 Nat Health Research Institutes 用於結核分枝桿菌之基因型鑑定的引子、單核苷酸多態性標記及方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2002025489A1 (fr) * 2000-09-19 2002-03-28 Hitachi Software Engineering Co., Ltd. Technique d'affichage de donnees genetiques et support d'enregistrement a cet effet
JP4307807B2 (ja) 2002-08-13 2009-08-05 株式会社エヌ・ティ・ティ・データ データ処理装置、方法及びコンピュータプログラム
US20060271300A1 (en) * 2003-07-30 2006-11-30 Welsh William J Systems and methods for microarray data analysis
US7035740B2 (en) 2004-03-24 2006-04-25 Illumina, Inc. Artificial intelligence and global normalization methods for genotyping
JP2006107396A (ja) * 2004-10-08 2006-04-20 Institute Of Physical & Chemical Research Snp遺伝子型分類方法、snp遺伝子型分類装置およびsnp遺伝子型分類プログラム
JP2007334719A (ja) * 2006-06-16 2007-12-27 Hitachi Software Eng Co Ltd 遺伝子発現解析の欠損値補完システム
WO2008066596A2 (en) * 2006-11-30 2008-06-05 Johns Hopkins University Gene expression barcode for normal and diseased tissue classification
US8200440B2 (en) 2007-05-18 2012-06-12 Affymetrix, Inc. System, method, and computer software product for genotype determination using probe array data
JP5242568B2 (ja) 2007-08-01 2013-07-24 オリンパス株式会社 クラスタリング方法、プログラムおよび装置
JP5453613B2 (ja) * 2008-09-30 2014-03-26 独立行政法人農業生物資源研究所 遺伝子クラスタリング装置およびプログラム
JP5286594B2 (ja) * 2009-03-16 2013-09-11 学校法人明治大学 発現プロファイル解析システム及びそのプログラム
US8429153B2 (en) * 2010-06-25 2013-04-23 The United States Of America As Represented By The Secretary Of The Army Method and apparatus for classifying known specimens and media using spectral properties and identifying unknown specimens and media
HUP1200622A2 (en) 2012-10-30 2014-05-28 Budapesti Mueszaki Es Gazdasagtudomanyi Egyetem Method and computer program product for genotype classification

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1769496A (zh) * 2004-09-27 2006-05-10 株式会社日立高新技术 核酸扩增分析法及装置
CN103608818A (zh) * 2011-02-09 2014-02-26 纳特拉公司 非侵入性产前倍性识别方法
TW201333467A (zh) * 2011-11-25 2013-08-16 Toppan Printing Co Ltd 樣本分析晶片、樣本分析方法及基因解析方法
TW201439112A (zh) * 2012-11-26 2014-10-16 Nat Health Research Institutes 用於結核分枝桿菌之基因型鑑定的引子、單核苷酸多態性標記及方法

Also Published As

Publication number Publication date
JPWO2016068245A1 (ja) 2017-06-08
JP6280657B2 (ja) 2018-02-14
US11355219B2 (en) 2022-06-07
WO2016068245A1 (ja) 2016-05-06
TW201633195A (zh) 2016-09-16
US20170364631A1 (en) 2017-12-21

Similar Documents

Publication Publication Date Title
US11621083B2 (en) Cancer evolution detection and diagnostic
KR102562419B1 (ko) 심층 신경망에 기반한 변이체 분류자
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
US7653491B2 (en) Computer systems and methods for subdividing a complex disease into component diseases
Jordan et al. Human allelic variation: perspective from protein function, structure, and evolution
KR101542529B1 (ko) 대립유전자의 바이오마커 발굴방법
JP2003021630A (ja) 臨床診断サービスを提供するための方法
CN102007407A (zh) 基因组鉴定系统
KR101693510B1 (ko) 개인 전장 유전체의 유전변이정보를 이용한 유전형 분석 시스템 및 방법
KR20140061223A (ko) 차세대 시퀀싱 데이터의 질병변이마커 검출 방법
JP7041614B2 (ja) 生体データにおけるパターン認識のマルチレベルアーキテクチャ
KR20150024232A (ko) 질병에 대한 약물 내성 유전체로부터 내성 원인 마커의 발굴 방법
TWI584143B (zh) Genotyping devices, methods, and memory media
Li et al. BagGMM: Calling copy number variation by bagging multiple Gaussian mixture models from tumor and matched normal next-generation sequencing data
Yu et al. Genetic clustering of depressed patients and normal controls based on single-nucleotide variant proportion
Gu et al. Analysis of allele specific expression-A survey
Keerthana et al. UNLOCKING GENETIC INSIGHTS: EXPLORING THE POTENTIAL OF AI SYSTEMS IN GENE ANALYSIS
Wang et al. Gene-Focused Networks Underlying Phenotypic Convergence in a Systematically Phenotyped Cohort With Heterogeneous Intellectual Disability
WO2021214787A1 (en) System and method for performing multi-omics data integration
WO2021011423A1 (en) Systems and methods for disease and trait prediction through genomic analysis
WO2019156591A1 (en) Methods and systems for prediction of frailty background
Duarte Machine Learning Approaches In Genome-wide Association Studies: Snp2net: A Tool For Gene-based Predictive Modeling