TWI650664B

TWI650664B - 建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統

Info

Publication number: TWI650664B
Application number: TW106128211A
Authority: TW
Inventors: 蔡明儒; 楊明哲; 林玉祥; 陳威男; 孫翰豪; 偉祥鄭
Original assignee: 遺傳軌跡股份有限公司; 遺傳軌跡薩摩亞股份有限公司; 蔡明儒
Priority date: 2017-08-21
Filing date: 2017-08-21
Publication date: 2019-02-11
Also published as: TW201913430A

Abstract

本揭示內容提出用以建立蛋白質功能缺失評估模型的方法。根據某些實施例，所述方法包含使用多個演算法計算中性變異資料組與致病變異資料組中個別資料的特徵分數，並透過迭代運算由中性變異資料組中挑選出特定數目的未與疾病相關的單核苷酸變異（SNV _N）資料，以使其數目和致病變異資料組中的與疾病相關的單核苷酸變異（SNV _P）資料數目相等，之後利用分類器針對挑選出來的SNV _N資料以及SNV _P資料進行特徵選擇，以基於該些資料的個別特徵分數從多個演算法中挑選部分演算法，進而組成所述評估模型。本案亦揭示基於上述評估模型的風險評估方法與系統。

Description

建立蛋白質功能缺失評估模型的方法以及利用上述模型的風險評估方法與系統

本發明是有關於一種蛋白質功能缺失評估模型。

功能基因組學（functional genomics）旨在透過大量數據分析，以探討基因與蛋白的功能與互動。隨著基因定序技術的快速發展，個人基因檢測的成本也越來越低。另一方面，在分子生物技術的不斷演進下，則揭露了越來越多特定基因與疾病之間的關連。這些科學與技術的進展使得功能基因組學的研究成果能夠應用於疾病的預斷、診斷與治療，也因而開啟了精準醫療的領域。

目前約有2萬個已知的人類蛋白質；此外，據估計，人類基因組內可能有高達4萬個左右的功能基因座（functional loci），這包括了蛋白編碼基因（protein-coding genes）以及功能性的非編碼基因（functional non-coding gene）。這些蛋白編碼基因的大小差異極大，從數百到數十萬個核苷酸不等；研究指出，已知人類蛋白的編碼基因大小之中位數為26,288個鹼基對，而其平均數為66,577個鹼基對。基因內的任一個核苷酸都可能產生變異，稱為單核苷酸變異（single nucleotide variation；SNV）；若單一位點變異在族群中發生的機率較高（如，高於1%），則將此種變異稱為單核苷酸多型性（single nucleotide polymorphism；SNP）。有些單核苷酸變異會導致蛋白質功能缺失，這類變異稱為致病性單核苷酸變異（pathogenic SNV；以下簡稱SNV _P）變異；而不會導致蛋白質功能缺失的變異則稱為背景變異（background variation）或中性單核苷酸變異（neutral SNV；以下簡稱SNV _N）。嚴重的蛋白質變異可能會成生物體內的生理作用或調控異常，進而導致疾病產生。然而，目前已知會造成蛋白質變異危害的基因突變之相關資訊並不完正，須養類更多實際臨床案例或研究人員發現後才會在公開資料庫中揭示。正因如此，準確地判斷SNV是否會導致蛋白質功能缺失進而導致疾病的產生，是功能基因組學領域中相當重要的一環。

本領域已開發出許多用以預測一SNV是否為致病性SNV的演算法。然而，這些演算法所考量的特徵各不相同，而SNV的序列同源性、蛋白結構、演化保留等，都會影響SNV的致病程度。這使得開發人員難以比較各種演算法之間的優劣，因此也很難選擇較佳的演算法來降低預測的偽陽性與偽陰性機率。

有鑑於此，相關領域亟待提出一種新穎的評估模型，以期能夠更為準確地預估一SNV的致病嚴重性程度。

發明內容旨在提供本揭示內容的簡化摘要，以使閱讀者對本揭示內容具備基本的理解。此發明內容並非本揭示內容的完整概述，且其用意並非在指出本發明實施例的重要/關鍵元件或界定本發明的範圍。

本發明之一態樣是關於一種建立蛋白質功能缺失（protein loss of function，PLoF）評估模型的方法，此一方法能夠有效率地從各種蛋白質功能缺失風險演算法中，篩選出最佳的組合並建立全新PLoF評估模型，以便更為準確地預測任一SNV導致蛋白質功能缺失的風險。

依據本發明一實施例，上述建立PLoF評估模型的方法，至少包含訓練組資料準備以及特徵選擇兩個階段。在訓練組資料準備階段中，先使用L個PLoF演算法分別計算中性變異資料組（neutral variant dataset）與致病變異資料組（pathogenic variant dataset）中個別資料的特徵分數，其中：中性變異資料組包含N個未與疾病相關的單核苷酸變異（neutral single nucleotide variant；SNV _N）資料，而致病變異資料組則包含M個與疾病相關的單核苷酸變異（pathogenic SNV；SNV _P）資料，且⌈N/M⌉＝K。接著，進行K次迭代運算，並於每一次迭代運算中，由N-(⌈M/K⌉)*(i-1)個SNV _N資料中挑選至多⌈M/K⌉個SNV _N資料，其中i為每次迭代運算的代數，而剩餘的SNV _N資料則用於下一次迭代，直到選出的SNV _N資料數量等於M為止，以完成訓練組資料準備。其後，在特徵選擇階段中，利用第一分類器進行特徵選擇；此時，基於訓練組資料準備階段所挑選的M個SNV _N資料以及致病變異資料組中原有的M個SNV _P資料之個別特徵分數，以從L個PLoF演算法中挑選L’個PLoF演算法，藉以組成本案所述的PLoF評估模型。採用上述方法所挑選出的L’個PLoF演算法計算出來的特徵分數在評估SNV與疾病關連性的效果優於其他PLoF演算法計算所得之特徵分數的評估效果；上述效果是指準確度（accuracy）、特異性（specificity）、敏感度（sensitivity）中的一或多種參數。

根據本發明的不同實施例，上述第一分類器可以是支持向量機（support vector machine；SVM）分類器、人工神經網路(artificial neural network；ANN)、K-近鄰居法(k nearest neighbor；KNN)、決策樹(decision tree；DT)或隨機森林(random forest；RF)。

於某些實施例中，所用的第一分類器是SVM分類器；此時SVM分類器於挑選L’個PLoF演算法的同時，對每一個PLoF演算法建立一或多個超平面分類邊界（hyperlane），並進行特徵選擇。

於另一些實施例中，所用的第一分類器是ANN分類器；所述ANN分類器包含一輸入層、一或多隱藏層以及一輸出層，且每一層分別包含複數個神經元。於這些實施例中，ANN分類器於輸入層接收L個PLoF演算法的輸入以作為輸入向量，並於一或多隱藏層內計算隱藏層神經元的權重向量，之後於輸出層內計算輸入向量與權向量的內積，並利用一非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界，並進行特徵選擇。

在某些實施例中，所用的第一分類器是KNN分類器；此時KNN分類器於挑選L’個PLoF演算法的同時使用K個最近鄰居進行多數表決，並進行特徵選擇。

在另一些實施例中，第一分類器是DT分類器；此時DT分類器於挑選L’個PLoF演算法的同時對每一PLoF演算法建立一或多個分裂方式，並進行特徵選擇。

又或者是，第一分類器可以是RF，所述的RF分類器使用多個DT分類器，以提升特徵選擇的準確度。

根據本揭示內容某些實施方式，在訓練組資料準備階段中，於每一次迭代運算中，利用第二分類器進行特徵選擇，以從該N-(⌈M/K⌉)*(i-1)個SNV _N資料中挑選至多⌈M/K⌉個SNV _N資料。

當可理解，此處所述的第二分類器可以是上文針對第一分類器所述的任一種分類器。

舉例來說，當第二分類器為SVM分類器時，SVM分類器於挑選SNV _N資料的同時對每一PLoF演算法建立一或多個超平面分類邊界，並計算每一SNV _N資料的特徵分數與該些超平面分類邊界的距離。此外，當第二分類器為ANN分類器時，ANN分類器包含一輸入層、一或多隱藏層以及一輸出層，且每一層分別包含複數個神經元，其中ANN分類器於輸入層接收M個SNV _N資料的特徵分數輸入以作為輸入向量，於一或多隱藏層內計算隱藏層神經元的權重向量，以及於輸出層內計算輸入向量與權向量的內積，並利用一非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界。又或者是，當第二分類器為KNN分類器時，KNN分類器於挑選SNV _N資料的同時使用K個最近鄰居進行多數表決。當使用DT分類器作為第二分類器時，DT分類器於挑選SNV _N資料的同時對每一SNV _N資料的特徵分數建立一或多個分裂方式。另外，若第二分類器是RF分類器，所述的RF分類器使用多個DT分類器來提升準確度。

本發明的另一態樣是有關於一種蛋白質功能缺失（PLoF）風險評估方法。此種風險評估方法運用了本發明上述態樣/實施例所得到的PLoF評估模型，因此能夠更為準確地評估任一SNV導致蛋白質功能缺失的風險。

根據本發明多個實施例，所述的PLoF風險評估方法包含：使用PLoF評估模型來計算一或多個待測單核苷酸變異（test SNV，SNV _T）導致蛋白質功能缺失的風險值。

於某些實施例中，所述的PLoF評估模型基於第一分類器對SNV _T計算所得之綜合評分，以評估此一SNV _T導致蛋白質功能缺失的風險值。

另一方面，本發明的一態樣是關於一種蛋白質功能缺失（PLoF）風險評估系統，此系統可用以執行上述PLoF風險評估方法。

根據本發明某些實施方式，所述系統可包含儲存單元、使用者介面與處理器。儲存單元內儲存有上述PLoF評估模型；使用者介面用以接收含一或多個SNV _T的遺傳資訊；處理器用以利用該PLoF評估模型來計算SNV _T導致蛋白質功能缺失的風險值。

根據本發明某些實施例，所述的PLoF風險評估系統中的使用者介面還可用以顯示計算所得之風險值。

當可想見，本發明另一種態樣乃是關於一種電腦可儲存媒體。所述的電腦可儲存媒體上存有電腦可讀取指令，這些指令經執行時，可用以進行本發明上述各態樣/實施例所述的建立PLoF評估模型的方法或PLoF風險評估方法。

在參閱下文實施方式後，本發明所屬技術領域中具有通常知識者當可輕易瞭解本發明之基本精神及其他發明目的，以及本發明所採用之技術手段與實施態樣。

為了使本揭示內容的敘述更加詳盡與完備，下文針對了本發明的實施態樣與具體實施例提出了說明性的描述；但這並非實施或運用本發明具體實施例的唯一形式。實施方式中涵蓋了多個具體實施例的特徵以及用以建構與操作這些具體實施例的方法步驟與其順序。然而，亦可利用其他具體實施例來達成相同或均等的功能與步驟順序。

除非本說明書另有定義，此處所用的科學與技術詞彙的含義與本發明所屬技術領域中具有通常知識者所理解與慣用的意義相同。在不和上下文衝突的情形下，本說明書所用的單數名詞涵蓋該名詞的複數型；而所用的複數名詞時亦涵蓋該名詞的單數型。此外，在本說明書與申請專利範圍中，「至少一」與「一或更多」等表述方式的意義相同，兩者都代表包含了一、二、三或更多。更有甚者，在本說明書與申請專利範圍中，「A、B及C其中至少一者」、「A、B或C其中至少一者」以及「A、B和/或C其中至少一者」係指涵蓋了僅有A、僅有B、僅有C、A與B兩者、B與C兩者、A與C兩者、以及A、B與C三者。

本發明的一態樣是關於一種建立蛋白質功能缺失（protein loss of function，PLoF）評估模型的方法；簡單來說，此方法運用已知和蛋白質缺失相關或無關的單核苷酸變異（SNV）資料作為訓練資料，以測試各種既有PLoF演算法的評估效果，進而從這些PLoF演算法中挑選出評估效果較佳的演算法組合，以建立全新的PLoF評估模型。此外，本案所述的評估模型建立方法是一種動態的方法；亦即，隨著已知的SNV變異資料越來越多，可以納入新的資料並重新挑選較佳的訓練資料，而重新選擇較佳的演算法組合，以建立新的PLoF評估模型。同樣地，當出現新的PLoF演算法時，本案所述的評估模型建立方法也可以計算新演算法的評估效力，若新演算法的評估效力較佳（單獨使用或與其他演算法組合後），亦可將其納入較佳演算法組合中，以建立新的PLoF評估模型。簡言之，本案所提出的評估模型建立方法能夠隨著科學與技術的進展而與時俱進，並即時推出評估效果更為優異的PLoF評估模型。因此，根據本發明的各種實施例，可利用本方法從任意數目（如L個）的起始PLoF演算法中，選擇出適當數目（如L’個）的選定PLoF演算法，並將其組合為適當的PLoF評估模型。

第1圖的流程圖繪示一種例示性的PLoF評估模型建立方法100（以下簡稱模型建立方法100）。如圖所示，模型建立方法100包含訓練組資料準備階段P1以及特徵選擇階段P2。

如上所述，於建立評估模型時，所用的訓練組資料包含中性變異資料組以及致病變異資料組兩大類，前者包含已知和蛋白質缺失無關的中性單核苷酸變異（SNV _N）資料，而後者則包含已知和蛋白質缺失相關的致病單核苷酸變異（SNV _P）資料。當可理解，對與一蛋白質相關的基因來說，大多數的單核苷酸變異不會導致蛋白質功能的缺失；因此，其SNV _N資料的數目（如，N個）可能遠高於SNV _P資料的數目（如，M個）。根據本發明某些實施例，在建立PLoF評估模型時，應於訓練組資料準備階段P1中，將兩群不同數量的訓練資料調整成相同數量的訓練資料，以利後續的特徵選擇。

詳言之，在步驟S101中，取得包含N個SNV _N資料的中性變異資料組以及包含M個SNV _P資料的致病變異資料組；由於N遠大於M，此處以N相對於M的倍率並無條件進位至最接近的整數，以計算出一K值。

另外，在步驟S103中，將每一個SNV _N或SNV _P套用至起始PLoF演算法中，以計算出任一單核苷酸變異的特徵分數，此步驟又稱為特徵擷取。以本實施例而言，由於使用了L個PLoF演算法，因此對每一個SNV _N會計算出L個特徵分數資料，故對整個中性變異資料組就會計算出L*M個特徵分數資料；相似地，對整個致病變異資料組則會計算出L*N個特徵分數資料。當可想見，當所用的單核苷酸變異數量龐大，且起始PLoF演算法種類繁多時，計算出的特徵分數資料數目會非常的可觀；因此，本發明所述的模型建立方法100提供了一種能夠有效率地從眾多特徵分數資料中篩選出較理想特徵的方法。當可理解，雖然在第1圖中將步驟S103繪示於S101之後，但本發明不限於此；在某些實施例中，步驟S101與S103可同時進行；又或者是，可先進行步驟S103之後，再計算步驟S101所述的K值。

完成特徵擷取步驟S103之後，進行訓練組特徵選擇步驟（S105）。如圖所示，此處運用迭代運算的架構來進行訓練組特徵選擇，亦即透過多次的特徵擷取，以從原始資料組中選出較為理想的資料而作為最終的訓練組資料。一般來說，此處可進行K次的迭代運算。在第一次迭代運算中，利用適當的分類器，從中性變異資料組的N個SNV _N中挑選出⌈M/K⌉個SNV _N；此處所述的⌈M/K⌉係指M除以K之後無條件進位的整數。

當可想見，本領域已有多種適當的分類器可用於此處的特徵選擇。常用的分類器包括但不限於：支持向量機（support vector machine；SVM）分類器、人工神經網路(artificial neural network；ANN)、K-近鄰居法(k nearest neighbor；KNN)、決策樹(decision tree；DT)或隨機森林(random forest；RF)。上述分類器以及其他既有分類器，或可利用實質上相同方式，而發揮實質上相同功能，並達到實質上相同分類效果的均等分類器，都屬於本發明的範圍。

根據本發明某些實施方式，可使用SVM分類器來挑選較理想的SNV _N資料。使用SVM分類器時，同時找出最佳的特徵（即，SNV _N資料）與超平面分類邊界；上述超平面分類邊界和最接近的特徵資料之間距離越遠，代表可建立出的SVM分類模型越準確。因此，基於超平面分類邊界和最接近的特徵資料之間的距離，來選出SNV _N。

在替代性的實施例中，可使用ANN分類器來進行步驟S105。一般來說，ANN分類器包含一輸入層、一或多隱藏層以及一輸出層，且每一層分別包含複數個神經元。於這本實施例中，ANN分類器於輸入層接收M個SNV _N資料的特徵分數輸入，並以其作為輸入向量；接著，於一或多隱藏層內計算隱藏層神經元的權重向量；再於輸出層內計算輸入向量與權向量的內積，並利用非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界。如此一來，即可利用此一超平面分類邊界來篩選SNV _N資料。

又或者是，可使用KNN分類器來實現步驟S105。此時，KNN分類器於挑選SNV _N資料的同時使用K個最近鄰居進行多數表決，以選出較理想的SNV _N資料。

在另一些替代性的實施例中，使用DT分類器來進行步驟S105，此種分類器會對每一SNV _N資料的特徵分數建立一或多個分裂方式，以在建立分裂方式的同時挑選出適當的SNV _N資料。另外，亦可運用包含多個DT分類器的RF分類器，以便更準確地篩選出適當的SNV _N資料。

於步驟S105完成第一次迭代運算後，方法100進行到步驟S107，於該步驟判斷所選出的SNV _N數目是否等於原始SNV _P的數目（即，M）。由於第一次迭代運算僅挑選出⌈M/K⌉個SNV _N，只要K不等於1，則第一次迭代運算挑選出的SNV _N數目必然小於M，故方法100會再度進行到步驟S105。

由於第一次迭代運算已經挑走了⌈M/K⌉個SNV _N，此時中性資料組中還剩下(N-⌈M/K⌉)個SNV _N資料，故第二次迭代運算時，會從剩餘的SNV _N資料內再挑出最多⌈M/K⌉個SNV _N。同樣地，假設第二次迭代運算後，所挑出的SNV _N資料總數（即，(⌈M/K⌉)*2）仍小於M，即可進行第三次迭代運算；此時，中性資料組內剩下[N-(⌈M/K⌉)*2]個SNV _N資料，並由其中挑選出最多⌈M/K⌉個SNV _N；如此反覆進行，直到所挑選出來的SNV _N資料數量和原始SNV _P的數目（即，M）相等為止；一般來說，迭代運算的次數為K次。如此一來，即可完成模型建立方法100的訓練組資料準備階段P1，而進入到特徵選擇階段P2。

在特徵選擇階段P2的步驟109中，利用第一分類器進行特徵選擇。此時，基於訓練組資料準備階段所挑選的M個SNV _N資料以及致病變異資料組中原有的M個SNV _P資料的個別特徵分數，以從L個PLoF演算法中挑選L’個PLoF演算法。

當可理解，此處同樣可使用上文所述的任一種分類器或其均等物來進行特徵選擇。在不同的實施例中，步驟S109可使用和步驟S105中所用的同一種分類器；或是兩個步驟可以選用不同的分類器。即便是當上述兩個步驟選用相同種類的分類器時，由於所用資料內容不同，兩個分類器的篩選參數可能是不同的。

在某些實施例中，可使用SVM分類器來進行步驟S109。此時，SVM分類器於挑選L’個PLoF演算法的同時，對每一個PLoF演算法建立一或多個超平面分類邊界（hyperlane），並進行特徵選擇，以選出數個（即，L’個）較為理想的PLoF演算法。

根據另一些實施例，選用ANN分類器來進行步驟S109。於這些實施例中，ANN分類器於輸入層接收L個PLoF演算法的輸入以作為輸入向量，並於一或多隱藏層內計算隱藏層神經元的權重向量，之後於輸出層內計算輸入向量與權向量的內積，並利用非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界，並進行特徵選擇，以挑選較為理想的PLoF演算法。

又或者是，步驟S109可使用一個DT分類器或多個DT分類器（即，RT分類器），其中每一個DT分類器於挑選L’個PLoF演算法的同時對每一PLoF演算法建立一或多個分裂方式，並進行特徵選擇。

由於用於步驟S109的訓練資料組包含經挑選之鑑別度較高的訓練資料，此一步驟可從眾多的PLoF演算法（如，L個演算法）中挑選出評估效果較為優異的多個PLoF演算法（即，L’個）。具體來說，相較於未選擇的PLoF演算法（或其組合），所選出的PLoF演算法單獨或其組合的準確度（即，真陽性與偽陽性比例）、特異性（即，真陽性比例）或敏感度（即，真陰性比例）較佳。敏感度和特異性是診斷工具一致性（concordance）的指標，其數值愈高代表診斷工具的鑑別性越佳。在某些實施例中，所選出的PLoF演算法（單獨或其組合）的準確度、特異性與敏感度等三種指標都優於未選擇的其他演算法。

接著，在步驟S111中，將所選出的L’個PLoF演算法組合為PLoF評估模型。

當可理解，由於方法100所建立的PLoF評估模型是由數個具有較佳鑑別度的PLoF演算法組合而成，故此一PLoF評估模型能夠更準確地預測單核苷酸變異導致蛋白質功能缺失的風險與其嚴重程度。不論是對於尋找疾病標的之醫學研究，或是對於提供病患診斷或遺傳評估資訊的臨床應用，本發明所提出的模型建立方法都有莫大的助益。

本發明的另一態樣是有關於一種蛋白質功能缺失（PLoF）風險評估方法。此種風險評估方法運用了本發明上述態樣/實施例所得到的PLoF評估模型，因此能夠更為準確地評估任一SNV導致蛋白質功能缺失的風險。第2圖繪示了根據本發明不同實施方式，用以實施上述風險評估方法的例示性PLoF風險評估系統，及該系統內各裝置/元件於實作本發明之方法時的互動關係。

在進一步說明本發明之方法前，先簡要說明用以實作本發明的系統所包含的基本裝置。以第2圖所示的PLoF風險評估系統200為例，其包括儲存單元210、處理器220與使用者介面230，其中儲存單元210與處理器220組成了PLoF風險分析平台205。

儲存單元210內儲存有依本發明所述的模型建立方法所建立的PLoF評估模型205。

儲存單元210可以是依電性（揮發性）或非依電性（非揮發性）以及可移除或不可移除的儲存媒體；可運用適當的方法或技術，使上述儲存媒體能用於儲存所欲資訊（如：電腦可讀取指令、資料結構、應用程式模組及其他資料）。儲存媒體包含但不限於：RAM、ROM、EEPROM、快閃記憶體、或其他記憶體技術、CD-ROM、數位多功能影音光碟（DVD）、或其他光學儲存器、磁匣、磁帶、磁碟片儲存器、硬碟以及其他磁性儲存裝置、或任何能夠用以儲存所需資訊且可供處理器存取之其他媒體。

使用者介面230用以接收遺傳資訊，所述的遺傳資訊包含一或多個待測單核苷酸變異（SNV _T）。舉例來說，可在位於使用者端的裝置（圖中未繪示）呈現使用者介面230，以利使用者上載遺傳資訊。一般來說，使用者端裝置可以是一種具處理器的電子裝置；為了能夠實施本案所提出的方法，使用者端裝置還可設有適當的輸入、輸出元件、儲存單元以及通訊元件，以利使用者存取資訊，並使使用者端裝置可和儲存單元210及/或處理器220互動。一般而言，通訊元件可將電腦可讀取指令、資料、結構、應用程式模組及其他資料具體實作成各種資料訊號，且可透過任何通訊媒體傳遞之。作為例示而非限制，通訊媒體包含有線媒體（如有線網路或直接有線連線）及無線媒體（如音波、紅外線、無線電、微波、展頻技術、及其他無線媒體技術）。作為例示而非限制，所述的使用者端裝置可以是桌上型電腦、伺服器電腦、手持式或膝上型裝置、個人數位助理、多處理器系統、基於微處理器之系統、機上盒、可程式化消費性電子產品、行動電話（特別是智慧型手機）、網路電腦、迷你電腦、主機電腦、包含任何上述系統或裝置之分散式運算環境及與其相似者。

舉例來說，使用者介面230可透過使用者端裝置的通訊元件將遺傳資訊透過雲端傳送至PLoF風險分析平台205。當可想見，在此種實施方式中，PLoF風險分析平台205亦包含適當的通訊元件，以接收此一遺傳資訊。然而，本發明不限於此；於某些實施方式中，使用者介面230與PLoF風險分析平台205可透過任何適當的方式操作連接，以使PLoF風險分析平台205接收來自使用者介面230的遺傳資訊。

接著，PLoF風險分析平台205中的處理器220會運用儲存於儲存單元210內的PLoF評估模型215來計算遺傳資訊中的一或多個SNV _T導致蛋白質功能缺失的風險值。

根據本發明某些實施例，在實作所述的PLoF風險評估方法時，對於每一個SNV _T，處理器210可運用PLoF評估模型215中所包含的L’個PLoF演算法來計算此一SNV _T的特徵分數，並利用分類器進行特徵選擇，以計算出一綜合評分；所述的綜合評分可用以評估此一SNV _T導致蛋白質功能缺失的風險值。可用以進行此一特徵選擇的技術與方法，與上文參照步驟S109所述者近似，故不再贅述。

根據本發明某些進一步的實施例，所述的PLoF風險評估方法還包含透過使用者介面230來呈現計算所得之風險值。

在視需要而採用的實施例中，可以在使用者介面230中透過各種表格化及/或圖像化的表示方法來呈現所述風險值，以利使用者解讀、分析此一結果。同樣在視需要而實施的例子中，除了透過PLoF評估模型215計算所得的風險值之外，還可以分別呈現其中所包含的L’個PLoF演算法中一或多個演算法計算所得的風險值，以供使用者參考。另外，在進一步的實施方式中，還可透過使用者介面230呈現基因註解工具，以提供使用者更為全面的資訊。舉例來說，除了上述風險值之外，基因註解工具可包含至少一種下列註解資訊：基因型頻率、與癌症的關聯性、與特定疾病的關聯性、胺基酸變異型態等。又或者是，對於眾多資訊，使用者介面230可提供排序、篩選等功能，藉使使用者能更便捷地尋找到所需要的資訊。

在某些進一步的實施例中，處理器220可將PLoF評估模型215運算所得的結果整合成一資料檔，並使使用者可透過使用者介面230下載或儲存上述資料檔。在視需要而實現的實施例中，上述資料檔還可以包含上述註解資訊或其他相關資訊。

當可想見，本發明另一種態樣乃是關於一種電腦可儲存媒體。所述的電腦可儲存媒體上存有電腦可讀取指令（例如程式模組），這些指令經電腦執行時，可用以進行本發明上述各態樣/實施例所述的建立PLoF評估模型的方法或PLoF風險評估方法。以程式模組為例，用以執行所述方法的各裝置或元件各別儲存有此一程式模組的一部或全部，以便協同作動而完成所述PLoF評估模型的方法或PLoF風險評估方法。或者是，上述程式模組之一部或全部可儲存所述各裝置或元件其中一或多者以外的裝置或位置，並於有需要時透過適當傳輸機制（如通訊元件）傳輸至該些裝置/元件。

另外，本發明的範圍也涵蓋一種電腦程式產品，其中儲存有用以建立PLoF評估模型的方法或PLoF風險評估方法。當電腦載入該電腦程式並執行後，可用以實現上述方法。

下文提出多個實驗例來說明本發明的某些態樣，以利本發明所屬技術領域中具有通常知識者實作本發明，且不應將這些實驗例視為對本發明範圍的限制。據信習知技藝者在閱讀了此處提出的說明後，可在不需過度解讀的情形下，完整利用並實踐本發明。此處所引用的所有公開文獻，其全文皆視為本說明書的一部分。

實驗例1

PLoF風險評估模型建立

本實驗例中，使用來自Uniport資料庫的資料組（參見Dong等人所著的Comparison and Integration of Deleteriousness Prediction Methods for Nonsynonymous SNVs in Whole Exome Sequencing Studies (Hum Mol Genet. 2015 Apr 15; 24(8): 2125–2137.)）；中性變異資料組包含22,001個未與疾病相關的單核苷酸變異（SNV _N）資料，且致病變異資料組包含14,191個與疾病相關的單核苷酸變異（SNV _P）資料，並使用了60種現行PLoF演算法。

依本發明所述的方法，使用SVM分類器從中性變異資料組中挑出14,191個SNV _N資料，以得到準備訓練組資料，之後，使用SVM分類器，從60種現行PLoF演算法篩選出39種PLoF演算法，以建立PLoF風險評估模型。

實驗例2

PLoF風險評估模型表現

本實驗例中，使用實驗例1所建構的PLoF風險評估模型來評估兩組測試資料組，並與現行的多種演算法比較其進行定性評估的表現。下表1摘要整理了兩組測試資料組的基本資料。表1 <TABLE border="1" borderColor="#000000" width="85%"><TBODY><tr><td><b>資料組</b></td><td><b>測試資料組</b><b>I</b></td><td><b>測試資料組</b><b>II</b></td></tr><tr><td><b>真陽性資料數目</b></td><td> 120 </td><td> 6,279 </td></tr><tr><td><b>真陰性資料數目</b></td><td> 124 </td><td> 13,240 </td></tr><tr><td><b>總數</b></td><td> 244 </td><td> 19,519 </td></tr><tr><td><b>來源</b></td><td> 近年來Nature Genetics公開的真陽性變異 </td><td> VariBench資料組II，但排除與訓練資料組重複的資料 </td></tr></TBODY></TABLE>

使用包括本案所述PLoF風險評估模型在內的共25種演算法來評估測試資料組I的244個SNP，並根據分析結果中真陽性（true positive，TP）、真陰性（true negative，TN）、偽陽性（false positive，FP）與偽陰性（false negative，FN）數目，依下列公式分別計算不同模型或演算法的馬修相關係數（Matthews Correlation Coefficient，MCC）、準確度（accuracy；ACC）、真陽性比例（TPR；又稱敏感度）、真陰性比例（TNR；又稱特異性）、偽陽性比例（FPR）、偽陰性比例（FNR）、陽性預測值（positive predictive value，PPV）、陰性預測值（negative predictive value，NPV）與陰性發現率（false discovery rate，FDR）：（式1）； . （式2）；（式3）；（式4）；（式5）； . （式6）； . （式7）； . （式8）；以及 . （式9）。

圖3A繪示了各演算法針對測試資料組I進行分類的敏感度與特異性。如表3所示，本案實驗例1所建立的PLoF評估模型在馬修相關係數、準確度、特異性、偽陽性、陽性預測值與陰性發現率等參數的表現都是25種模型、演算法中表現最優異的。

另外，使用包括本案所述PLoF風險評估模型在內的共19種演算法來評估測試資料組II的19,519個SNP，並計算上文所述的各種參數，以評估其表現，其結果如圖3B所示。從圖3B的資料可以看出，即使面對非常大量的資料，本案實驗例1所建立的PLoF評估模型在馬修相關係數、準確度、特異性、偽陽性、陽性預測值與陰性發現率等參數的表現都是25種模型、演算法中表現仍然是最優異的。

由以上分析結果可以看出，相較於既有的多種演算方式，採用本案所述方法所建立的PLoF風險評估模型確實能夠更為準確地預測一單核苷酸變異導致蛋白質功能缺失的風險。當可想見，以上實驗例中所篩選出的多個演算法僅為例示，隨著演算法不斷推陳出新，本案所述的PLoF風險評估模型建立方法能夠將這些新的演算法納入考量，並重新評估哪些演算法的組合能夠達到更為優異表現效果。另外，也可持續透過更新、更完備的訓練資料來輔助篩選較為理想的演算法組合。

雖然上文實施方式中揭露了本發明的具體實施例，然其並非用以限定本發明，本發明所屬技術領域中具有通常知識者，在不悖離本發明之原理與精神的情形下，當可對其進行各種更動與修飾，因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。

元件符號說明如下：

100‧‧‧方法

S101~S111‧‧‧步驟

200‧‧‧PLoF風險評估系統

205‧‧‧PLoF風險分析平台

210‧‧‧儲存單元

215‧‧‧PLoF評估模型

220‧‧‧處理器

230‧‧‧使用者介面

為讓本發明的上述與其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：第1圖為流程圖，其繪示根據本發明一實施例，用以建立蛋白質功能缺失（PLoF）評估模型的方法；第2圖為示意圖，其繪示根據本發明一實施例，用以執行PLoF評估模型的系統及裝置/元件間的互動；以及第3A圖與第3B圖為資料圖，其繪示根據本發明一實驗例，本案所述PLoF評估模型以及既有演算法於評估測試資料集I與II的特異性與敏感度。

根據慣常的作業方式，圖中各種特徵與元件並未依比例繪製，其繪製方式是為了以最佳的方式呈現與本發明相關的具體特徵與元件。此外，在不同圖式間，以相同或相似的元件符號來指稱相似的元件/部件。

Claims

一種建立蛋白質功能缺失(protein loss of function，PLoF)評估模型的方法，至少包含以下步驟：(a)使用L個PLoF演算法分別計算一中性變異資料組(neutral variant dataset)與一致病變異資料組(pathogenic variant dataset)中個別資料的特徵分數，其中：該中性變異資料組包含N個未與疾病相關的單核苷酸變異(neutral single nucleotide variant；SNV_N)資料，而該致病變異資料組包含M個與疾病相關的單核苷酸變異(pathogenic SNV；SNV_P)資料，且N/M=K；(b)進行K次迭代運算，且每一次迭代運算從N-(M/K)*(i-1)個SNV_N資料中挑選至多M/K個SNV_N資料，其中i為每次迭代運算的代數，而剩餘的SNV_N資料則用於下一次迭代，直到選出的SNV_N資料數量等於M為止；以及(c)利用一第一分類器進行特徵選擇，基於步驟(b)所挑選的M個SNV_N資料以及該致病變異資料組中M個SNV_P資料之個別特徵分數，以從該些L個PLoF演算法中挑選L’個PLoF演算法以組成該PLoF評估模型，其中由該些L’個PLoF演算法計算所得之特徵分數在評估一SNV與疾病之關連性的準確度(accuracy)、特異性(specificity)及/或敏感度(sensitivity)優於其他PLoF演算法計算所得之特徵分數的準確度、特異性及/或敏感度。
如請求項1所述的方法，其中該第一分類器為支持向量機(support vector machine；SVM)分類器、人工神經網路(artificial neural network；ANN)分類器、K-近鄰居法(k nearest neighbor；KNN)分類器、決策樹(decision tree；DT)分類器或隨機森林(random forest；RF)分類器。
如請求項2所述的方法，其中：當該第一分類器為該SVM分類器時，該SVM分類器於挑選該些L’個PLoF演算法的同時對每一PLoF演算法建立一或多個超平面分類邊界(hyperlane)；當該第一分類器為該ANN分類器時，該ANN分類器包含一輸入層、一或多隱藏層以及一輸出層，且每一層分別包含複數個神經元，其中該ANN分類器於該輸入層接收L個PLoF演算法的輸入以作為輸入向量，於該一或多隱藏層內計算隱藏層神經元的權重向量，以及於輸出層內計算輸入向量與權向量的內積，並利用一非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界；當該第一分類器為該KNN分類器時，該KNN分類器於挑選該些L’個PLoF演算法的同時使用K個最近鄰居進行多數表決；當該第一分類器為該DT分類器時，該DT分類器於挑選該些L’個PLoF演算法的同時對每一PLoF演算法建立一或多個分裂方式；或當該第一分類器為該RF分類器時，該RF分類器使用多個DT分類器來提升準確度。
如請求項1所述的方法，其中該步驟(b)還包含：在每一次迭代運算中，利用一第二分類器進行特徵選擇，以從該N-(M/K)*(i-1)個SNV_N資料中挑選至多M/K個SNV_N資料。
如請求項4所述的方法，其中該第二分類器為SVM分類器、ANN分類器、KNN分類器、DT分類器或RF分類器。
如請求項5所述的方法，其中：當該第二分類器為該SVM分類器時，該SVM分類器於挑選該些至多M/K個SNV_N資料的同時對每一PLoF演算法建立一或多個超平面分類邊界，並計算每一SNV_N資料的特徵分數與該些超平面分類邊界的距離；當該第二分類器為該ANN分類器時，該ANN分類器包含一輸入層、一或多隱藏層以及一輸出層，且每一層分別包含複數個神經元，其中該ANN分類器於該輸入層接收該M個SNV_N資料的特徵分數輸入以作為輸入向量，於該一或多隱藏層內計算隱藏層神經元的權重向量，以及於輸出層內計算輸入向量與權向量的內積，並利用一非線性傳遞函式得到一純量，藉以建立一或多個超平面分類邊界；當該第二分類器為該KNN分類器時，該KNN分類器於挑選該些至多M/K個SNV_N資料的同時使用K個最近鄰居進行多數表決；當該第二分類器為該DT分類器時，該DT分類器於挑選該些至多M/K個SNV_N資料的同時對每一SNV_N資料的特徵分數建立一或多個分裂方式；或當該第二分類器為該RF分類器時，該RF分類器使用多個DT分類器來提升準確度。
一種蛋白質功能缺失(protein loss of function，PLoF)風險評估方法，至少包含以下步驟：使用一PLoF評估模型來計算一或多個待測單核苷酸變異(test SNV，SNV_T)導致蛋白質功能缺失的風險值，其中該PLoF評估模型是利用請求項1至6任一項所述的方法所建立。
如請求項7所述之PLoF風險評估方法，其中該PLoF評估模型基於該第一分類器對該SNV_T計算所得之一綜合評分，以評估其導致蛋白質功能缺失的風險值。
一種蛋白質功能缺失(protein loss of function，PLoF)風險評估系統，至少包含：一儲存單元，用以儲存一PLoF評估模型，其中該PLoF評估模型如請求項7所述；一使用者介面，用以接收一遺傳資訊，其中該遺傳資訊包含一或多個SNV_T；以及一處理器，用以利用該PLoF評估模型來計算該一或多SNV_T導致蛋白質功能缺失的風險值。
如請求項9所述之PLoF風險評估系統，其中該使用者介面還用以顯示該風險值。