TWI719380B

TWI719380B - 經由疾病軌跡篩選生物標記的方法及系統

Info

Publication number: TWI719380B
Application number: TW107147266A
Authority: TW
Inventors: 陳治平; 白敦文; 洪健中; 蔡元皓
Original assignee: 台灣基督長老教會馬偕醫療財團法人馬偕紀念醫院; 國立臺北科技大學; 國立清華大學; 聚基生物科技股份有限公司
Priority date: 2018-12-26
Filing date: 2018-12-26
Publication date: 2021-02-21
Also published as: TW202025171A

Abstract

本發明關於一種經目標疾病之疾病軌跡以篩選生物標記的生物標記篩選系統以及其方法。該系統包含一醫療資料庫，其包含複數個醫療資訊；一疾病表單，其包含至少一疾病資訊；一運算模組；以及一比對模組。運算模組係用以執行前述方法，係包含以下步驟：(1)根據從該些醫療資訊以及從該疾病表單取得該目標疾病的至少一前置疾病及其對應之該至少一疾病資訊，以提供一前置疾病資訊；以及(2)對步驟(1)之該前置疾病資訊進行一探勘處理，以產生包含與該目標疾病相關的複數個關聯疾病的一疾病軌跡結果。該比對模組用以執行根據該疾病軌跡結果，從該目標疾病與該些關聯疾病的共病基因群中選擇至少一生物標記的一步驟。

Description

經由疾病軌跡篩選生物標記的方法及系統

本發明是涉及一種用以篩選一目標疾病之生物標記的方法，特別是利用該目標疾病之疾病軌跡(disease trajectories)篩選其生物標記的方法。

隨著資訊時代來臨，各類型的醫療紀錄所集合而成的巨量資料(又稱大數據，big data)也逐漸成為相關技術領域的關注重點。透過近年通過的《21世紀醫療法案》(21st Century Cures Act)，美國食品藥物管理局(FDA)已經揭櫫「精準醫療(precision medicine)」是未來的執行重點。具體的概念是利用真實世界所收集的醫療相關資料(例如電子醫療紀錄、病歷紀錄、保險紀錄)等資料(又稱「真實世界數據(Real world data, RWD)」)，透過分析技術，建構成有效的「真實世界證據(Real world evidence, RWE)」。此類概念超越傳統臨床醫療藥物的設計思維，不僅不易受到樣本群限制，還可望降低新醫藥產品開發所需的時間及成本。

目前篩選或尋找生物標記的方法，主要仍透過特定疾病與一樣本群之病患個體兩者之間所具有的生理指標相關性，並逐一進行大規模臨床研究加以驗證確定之。然而，現有的篩選方法往往受到樣本數的限制，並具有效率不足的問題。

有鑑於此，相關領域亟需發展一種導入新思維的篩選生物標記之方法，藉以有效地篩選出與特定疾病群具高度相關的生物標記，進而預測或診斷該特定疾病群。

有鑑於上述，本揭示內容之目的在於提供一種從巨量資料中有效篩選特定目標疾病之生物標記的方法，藉此增進巨量資料之分析，並透過分析結果取得準確的生物標記，進而增進醫療品質。

本揭示內容的一態樣是關於一種用以篩選一目標疾病之生物標記的方法。在某些實施方式中，該方法包含：(a)提供一醫療資料庫，其包含複數個個體之醫療資訊；(b)提供一疾病表單，其包含至少一疾病資訊；(c)從步驟(a)之該醫療資料庫內取得患有該目標疾病之該些個體的至少一前置疾病，並基於步驟(b)之該疾病表單取得該目標疾病與該至少一前置疾病的該至少一疾病資訊，以形成一前置疾病資訊，其中該至少一前置疾病係發生於該目標疾病發生之前一預定時間內；(d) 對步驟(c)之該前置疾病資訊進行一循序樣式探勘(sequential pattern mining)處理，以產生一疾病軌跡結果，其中該疾病軌跡結果包含與該目標疾病相關的複數個關聯疾病；以及(e) 根據步驟(d)之該疾病軌跡結果，從該目標疾病與該複數個關聯疾病的共病基因群中選擇至少一生物標記，其中該至少一生物標記可用以檢測該目標疾病。

根據本揭示內容的某些實施方式，前述方法的步驟(c)包含：(c-1) 記錄該至少一前置疾病於各該個體之發生時間，以形成一時序資料表；以及(c-2) 根據步驟(c-1)之該時序資料表，對該至少一前置疾病以發生時間之先後進行排序，以產生至少一疾病時序序列。

根據本揭示內容的某些實施方式，步驟(d)包含：(d-1) 對步驟(c-2)之該至少一疾病時序序列進行該循序樣式探勘處理，以產生該疾病軌跡結果；以及(d-2) 於輸出該疾病軌跡結果之前，依據該時序資料表計算該至少一前置疾病中任兩個連續前置疾病之間的平均時間間隔。

根據本揭示內容的某些實施方式，步驟(d)中所述循序樣式探勘處理係透過執行以下步驟達成：(i) 排除尾項(suffix)非該目標疾病的該些疾病時序序列；以及(ii) 從步驟(i)排除後剩餘之該些疾病時序序列中，依次尋找目標子序列，其中，當目標子序列為上一次目標子序列的尾項時，則僅從尾項具有該目標子序列首項(prefix)的該上一次目標子序列中尋找該目標子序列。

在某些非必要實施方式中，前述方法更包含在步驟(d)與步驟(e)之間提供一勝算比閾值，藉以在該疾病軌跡結果中呈現大於該勝算比的該複數個關聯疾病。較佳的是，該勝算比閾值為4。

根據本揭示內容的某些實施方式，所述目標疾病係選自由心血管疾病、早產、內分泌相關疾病、代謝疾病、皮膚病以及呼吸道疾病所組成之群組。

根據本揭示內容的某些實施方式，所述生物標記係選自由核酸、胺基酸、胜肽、蛋白質、單醣、雙醣、聚醣、醣蛋白以及其組合所組成之群組。

本揭示內容的另一態樣是關於一種生物標記篩選系統，其包含一醫療資料庫、一疾病表單、一運算模組以及一比對模組，設以實現前述方法。

具體而言，該醫療資料庫包含複數個醫療資訊。該疾病表單包含至少一疾病資訊。所述運算模組用以經指令編程執行一方法，其中該方法包含：(1)根據從該複數個醫療資訊取得一目標疾病之至少一前置疾病以及從該疾病表單取得對應該目標疾病及該至少一前置疾病的該至少一疾病資訊，提供一前置疾病資訊，其中該至少一前置疾病係發生於該目標疾病發生之前一預定時間內；以及(2)對步驟(1)之該前置疾病資訊進行一循序樣式探勘處理，以產生一疾病軌跡結果，其中該疾病軌跡結果包含與該目標疾病相關的複數個關聯疾病。所述比對模組經指令編程執行，用以根據該疾病軌跡結果，從該目標疾病與該複數個關聯疾病的共病基因群中選擇至少一生物標記。本領域的通常知識者或臨床人員可透過藉由比對模組輸出的至少一生物標記對一或多個需要之個體進行目標疾病的檢測。

在本揭示內容的某些實施方式中，疾病軌跡結果包含複數個代表性序列，各該代表性序列具有介於任兩連續關聯疾病之間的至少一線段。

根據本揭示內容的某些實施方式，疾病軌跡結果包含任兩連續關聯疾病之間的平均時間間隔，以及各該代表性序列的勝算比。

經由以上配置，可從巨量資料中快速、準確及有效地篩選生物標記，並藉此設計開發具有高效能之基因檢測套件。該些檢測套件可應用於預測罹患該特定疾病之風險指標，達到個人精確醫療、精確預防的具體成效。

在參閱下文實施方式後，本發明所屬技術領域中具有通常知識者當可輕易瞭解本發明之基本精神及其他發明目的，以及本發明所採用之技術手段與實施態樣。

為了使本揭示內容的敘述更加詳盡與完備，下文針對了本發明的實施態樣與具體實施例提出了說明性的描述；但這並非實施或運用本發明具體實施例的唯一形式。實施方式中涵蓋了多個具體實施例的特徵以及用以建構與操作這些具體實施例的方法步驟與其順序。然而，亦可利用其他具體實施例來達成相同或均等的功能與步驟順序。

為了便於說明，此處統整性地說明本說明書、實施例以及後附的申請專利範圍中所記載的特定術語。除非本說明書另有定義，此處所用的科學與技術詞彙之含義與本發明所屬技術領域中具有通常知識者所理解與慣用的意義相同。此外，在不和上下文衝突的情形下，本說明書所用的單數名詞涵蓋該名詞的複數型；而所用的複數名詞時亦涵蓋該名詞的單數型。具體而言，除非上下文另有明確說明，本文和後附的申請專利範圍所使用的單數形式「一」(a及an)包含複數形式。此外，在本說明書與申請專利範圍中，「至少一」(at least one)是代表包含了一、二、三或更多。

I. 定義

本揭示內容使用的「疾病軌跡」係指在一預定時間之內，於特定個體(包含單一個體或群體)上發生之所有疾病的歷程及進程，從而得知各疾病演進狀態及各階段的平均期程。通常可以具象化圖形呈現之。

本揭示內容使用的「醫療資料庫」係指包含醫療資訊的任何資料庫或是樣本群。醫療資訊包含但不限於，就醫紀錄、給藥紀錄、疾病歷程、診斷內容、醫療處置及健康檢查之生化數據等。具體而言，不論來源為何或建立的方式為何，只要儲存有大量個體之醫療資訊的資料庫，均被包含在本文所使用的醫療資料庫之定義中。醫療資料庫可以是單一資料庫，也可以是跨單位的整合資料庫。在本揭示內容的醫療資料庫尤指包含巨量之醫療資訊的資料庫。舉例來說，醫療資料庫包含公家或私人醫療機構的所有經去除個人資料之病患的電子醫療紀錄檔、私人保險公司的客戶醫療保險資訊(已去除個人資訊)、中央政府單位提供之全民健康保險資料庫、前述全民健康保險資料庫的抽樣歸人檔，然不限於此。一般而言，可將總醫療資料庫中的資訊作為母群體，也可以從醫療資料庫中取得具有特定資訊之集合作為母群體，以供後續不同目的之分析或調查之用。

在本揭示內容的「疾病表單」中，各疾病可具有相應之疾病資訊。所謂疾病資訊係指利用編碼將實際疾病轉化而得的特定語言格式。具體而言，在疾病表單中，每一種疾病具有可代表該疾病的編碼/代碼，該編碼/代碼構成本揭示內容的「疾病資訊」。編碼的方式可不具特定限制，也可以依照慣用的邏輯對該些實際疾病進行編碼。

本文使用的「前置疾病資訊」係指將前置疾病轉換成對應之以特定語言格式組成的整合資訊。在本揭示內容中，前置疾病資訊可包含特定疾病(前置疾病)的分類編碼，如前述的疾病資訊，也可額外地或非必要地包含該些前置疾病發生的時序資訊。

本文使用的「疾病時序序列」係指於一預定時間內發生的所有疾病，經格式語言轉換後具有時間先後關係之排序的序列。該序列係由至少一個，較佳為複數個事件/元素所組成。每一序列包含一系列的事件/元素/項目組合。而「子序列」，則是指一個事件/元素/項目、或是在原始疾病時序序列中，一個以上的事件、元素或項目的子集合。在本揭示內容中，所謂「事件」、「元素」或是「項目」，具體係指在醫療資料庫中揀選的具體疾病或看診記錄。在「疾病時序序列」或「子序列」中，不論序列長度為何，排於該序列首位的事件/元素/項目，稱為「首項」(prefix)，而位於該序列末位的事件/元素/項目則稱為「尾項」(suffix)。

本文使用的「共病基因群」，是指兩個以上之疾病的關聯基因群的交集。具體而言，共病(co-morbidity)或共病的(co-morbid)係指存在於一主要診斷(疾病)之情況下，同時存在或先後伴隨著一個以上的額外疾病或病症之發生。該些疾病彼此之病灶、生理症狀及/或生理機轉可以是正相關、負相關或不具任何相關性。在本揭示內容中，係透過前述資料探勘技術以確立該些疾病彼此之間的時序前後關聯性(亦即疾病軌跡)。在本發明中，具一定顯著程度且具時序性的疾病軌跡中，各疾病自身的關聯基因群之間的交集，則稱為共病基因群。

本文使用的「生物標記」，具體指的是可在病患或被研究者的體外觀測到的客觀指標。通常情況下，相應的測量方法應當是精準且可被重複的。依據本領域通常知識的常規定義，生物標記是「任何可用於測量並預測可能導致的結果或可能疾病之化學物質、生物結構或生物過程，均稱之」。生物標記應能反應特定疾病、特定生理狀況、特定組織或特定細胞(例如癌細胞)的進程或存在與否。在本揭示內容，本領域具有通常知識者熟知可作為生物標記的物質包含核酸、胺基酸、胜肽、蛋白質、單醣、雙醣、聚醣、醣蛋白以及其組合，然不限於此。

II. 本發明實施方式

現今發展出的數位醫療記錄資訊以及降低的個人基因定序成本，可提供生物學家及醫藥研究人員能夠更精準地尋找各類疾病相關的基因生物標記。然，由於醫療記錄之巨量資料的累積，習知的資料探勘技術無法適用之，因此本發明旨在發展一種可應用於巨量醫療資料的資料探勘技術，精準地篩選出特定疾病的前疾病軌跡與其共病之生物標記，藉以解決前述問題。另，本發明亦旨在發展一種生物標記篩選系統，以達到精準醫療之需求。

具體來說，本揭示內容使用的資料探勘技術係針對巨量資料庫之需求而設計，透過循序樣式探勘技術，並導入分群概念及時序概念，藉此對關聯疾病及其疾病軌跡的發生時程產生全面性的分析結果。

生物標記篩選系統及其篩選方法

配合第1、2圖，本揭示內容之一態樣是關於一種對一目標疾病篩選生物標記之系統S及其篩選方法。第1圖例示性地繪示本揭示內容一實施方式的生物標記篩選系統S；第2圖則繪示利用系統S篩選生物標記的流程圖。本揭示內容生物標記篩選系統S至少包含一醫療資料庫10、一疾病表單20、一運算模組30以及一比對模組40。

本揭示內容之醫療資料庫10包含複數個個體之醫療資訊。具體來說，所述醫療資料庫可以是單一資料庫，也可以是跨單位的整合資料庫，其包含每一個體之就醫紀錄、給藥紀錄、疾病歷程、診斷內容、醫療處置及健康檢查之生化數據等醫療資訊。醫療資料庫10主要係提供巨量的醫療資訊，將該巨量醫療資訊作為真實世界數據並據以分析的基礎。具體而言，醫療資料庫10可以是公家或私人醫療機構的電子醫療紀錄檔、私人保險公司的客戶醫療保險資訊、政府單位之全民健康保險資料庫等。根據本發明一特定實施方式，醫療資料庫10為一個經去除個人資料、去除個體就診之具體時間之處理後，僅儲存具前後順序相對時間之診斷內容以及兩個連續疾病相對間隔時間資訊之實際醫療紀錄的巨量醫療資料。

本揭示內容之疾病表單20包含至少一疾病資訊。具體而言，該疾病資訊係指，每一種疾病具有可對應之代碼、編碼或特定格式語言，該些代碼構成該疾病資訊。編碼的方式可不具特定限制，也可以依照慣用的邏輯對該些實際疾病進行編碼。較佳的實施方式是，疾病資訊係透過對疾病進行分群分類，給予該分類一對應編碼或代碼所產生。據此，疾病表單20係為一呈現對特定疾病或全部習知疾病之分類結果之表單。可依照本領域的通常知識進行前述的分群分類，即透過本領域的通常知識對各疾病定義之病因及臨床表徵作為疾病分類的依據，並進行歸類整理。具體來說，當對疾病進行分類分群時，主要利用解剖學作為分類主軸，根據疾病發生部位、病因、及/或受傷型態等邏輯賦予每一疾病一分類號。本領域具有通常知識者可藉由判讀該分類號獲得該特定疾病之部分資訊。依據某些實施方式，本揭示內容的疾病表單20可以是可公開取得、且為多數本領域具有通常知識者所熟知通用的分類結果，也可以是相關從業人員自行建立之分類系統。習知且較廣為使用的分類系統例如世界衛生組織(World Health Organization)公布的國際疾病分類系統(International Classification of Diseases，ICD)的各版本。根據一特定實施方式，本揭示內容的疾病表單20係為以ICD第九版臨床修訂版的分類系統所呈現之分群分類表單。

根據本揭示內容之某些實施方式，醫療資料庫10與運算模組30是可通訊式彼此連接；疾病表單20與運算模組30亦為可通訊式地彼此連接。在第1圖描述的例示性實施方式中，醫療資料庫10及疾病表單20可儲存於透過電纜連接或無線網路與運算模組30相連的相同或不同之儲存裝置中，也可以是，儲存在包含有生物標記篩選系統S的儲存裝置中。藉此，運算模組30可接受來自醫療資料庫10之該些醫療資訊，以及接受來自疾病表單20的特定疾病資訊，藉以經指令編程執行後續的篩選生物標記之步驟。

本揭示內容之運算模組30可以是計算機(例如桌上型電腦、筆記型電腦或膝上型電腦)、手持式計算設備、行動裝置、超級電腦、工作站或伺服器等，也可以是適合於給定環境的其他類型之特殊或通用計算設備。本揭示內容之運算模組30包含一或多個處理單元。具體而言，可使用通用或專用的處理單元(例如微處理器、運算晶片、控制器或控制邏輯)經指令編程來執行本揭示內容之篩選生物標記之方法。運算模組30亦可包含一或多個記憶單元，例如隨機存取記憶體(Random access memory, RAM)、唯讀記憶體(Read-only memory, ROM)、快閃記憶體(Flash memory)或其他動態存取裝置，記憶單元可用來儲存資訊以及需藉由運算模組30之處理單元執行的指令編程。運算模組30還可包含一或多種形式的資訊儲存媒介，例如硬碟、隨身碟及光碟等。

本揭示內容的運算模組30與比對模組40可通訊式地連接，係將經運算處理後取得之疾病軌跡結果，經指令編程執行從共病基因群中選擇生物標記之步驟。

本揭示內容之比對模組40包含一或多個處理單元。具體而言，可使用通用或專用的處理單元(例如微處理器、運算晶片、控制器或控制邏輯)經指令編程來執行本揭示內容之從共病基因群中篩選生物標記之方法。比對模組40亦可包含一或多個記憶單元，如前述之RAM、ROM、快閃記憶體或其他動態存取裝置，記憶單元可用來儲存資訊以及需藉由比對模組40之處理單元執行的指令編程。比對模組40還可包含一或多種形式的資訊儲存媒介，例如硬碟、隨身碟及光碟等。

根據某些實施方式，本揭示內容的生物標記篩選系統S可與一使用者介面(圖未示)連接，藉以輸出運算模組30與比對模組40之資料探勘與比對結果給一所需之使用者。

配合第2圖，根據本揭示內容的生物標記篩選方法，由於目的是要針對某個特定目標疾病篩選出其關聯性生物標記，因此當執行篩選生物標記之方法時，首先選定一目標疾病(步驟S210)，提供前述之醫療資料庫10與疾病表單20(步驟S220)，並根據疾病表單20取得該目標疾病對應之疾病資訊。目標疾病可為任意疾病。在本揭示內容中，目標疾病係選自由心血管疾病、早產、內分泌相關疾病、代謝疾病、皮膚病以及呼吸道疾病所組成之群組。同時，醫療資料庫10可接受一外部指令，藉以從該醫療資料庫10中取得所有患有該目標疾病之個體的至少一前置疾病，且該至少一前置疾病係發生於該個體發生該目標疾病一預定時間內(步驟S230)。外部指令可以是用以揀選至少一前置疾病的多種參數，例如選定特定患者群組(包含年齡、性別等)。外部指令也可包含前述預定時間的設定，例如發生目標疾病之前的3個月、6個月、9個月、1年、3年、5年、10年內、或所有時間。經步驟S230揀選出該至少一前置疾病之後，運算模組30根據疾病表單20提供之至少一疾病資訊，將該至少一前置疾病轉換成對應之以特定語言格式組成的疾病資訊，並與前述目標疾病之疾病資訊整合形成一前置疾病資訊(步驟S240)。另一可行方式是，本揭示內容的醫療資料庫10的複數個個體之醫療資訊亦包含該疾病表單20的至少一疾病資訊，藉此可於選定目標疾病以及揀選至少一前置疾病時直接得出經格式語言轉換之結果(例如前置疾病資訊)。

具體而言，根據本揭示內容的實施方式，疾病表單20包含依據前述ICD第九版臨床修訂版(ICD-9-CM)之各疾病的分類編碼；前置疾病資訊亦包含特定疾病(前置疾病)的分類編碼。

根據本揭示內容的某些實施方式，前置疾病資訊可包含該些前置疾病發生的時序資訊。具體而言，運算模組30可於揀選該至少一前置疾病時，額外記錄該些前置疾病於特定個體發生的發生時間，並依照經轉換的格式化語言(例如ICD-9-CM分類編碼)以形成一時序資料表。接著可將根據該時序資料表，對每一個體的至少一前置疾病，依發生時間先後進行排序，以形成一疾病時序序列(sequence)。需注意的是，每一發生該目標疾病之個體具有一對應之疾病時序序列，因此經前述步驟形成的前置疾病資訊應包含至少一疾病時序序列，較佳為包含複數個疾病時序序列。

繼續配合第1、2圖。為了從前置疾病資訊(包含該些疾病時序序列)中，尋找與目標疾病相關的關聯疾病，本揭示內容之運算模組30經指令編程執行步驟S250。亦即，對前述的前置疾病資訊進行一資料探勘(data mining)處理，以取得一疾病軌跡結果。

具體而言，適用於本揭示內容資料探勘技術可以是任何本技術領域習知，且總體目標是從巨量資料資料庫中提取資訊，並將其轉換成可理解的結構以進一步使用的技術。資料探勘技術可建立的模型主要有六種，分類(classification)、群集(clustering)、迴歸(regression)、時間序列(time series forecasting)、關聯(association)以及順序型態(sequential pattern)，然不限於此。根據本揭示內容的較佳實施方式，是使用循序樣式探勘(sequential pattern mining)模型為基礎進行技術改良及功能擴增，並額外引入時間順序及時間間隔之概念。如此一來不僅保有每一筆單獨資料的相對順序特徵，還可同時辨識該些資料的序列組合。根據本揭示內容，經前述優化的循序樣式探勘技術是增加事件項目的群組分類(例如疾病表單)以及整體前置資訊中各事件發生的時間間隔(例如時序資料表)，藉此可提升運算效能及效率，並取得更有真實臨床意義的分析結果。

承前所述，進行一循序樣式探勘處理的目的在於從眾多不同的時序/排序中，找尋出現頻率較高的子序列組合。根據本揭示內容之實施方式，運算模組30係經指令編程對所述前置疾病資訊(較佳為包含至少一疾病時序序列)進行循序樣式探勘處理，以得到該些前置疾病中發生頻率較高或出現較頻繁的疾病以及該些疾病彼此之間的順序關係。需注意的是，本文所述之子序列，可能由單一事件或一個以上的事件所組成(亦即，可包含一個疾病或是多個疾病)。

為了達成前述目，本揭示內容的循序樣式探勘處裡係透過執行以下處理來達成：(1) 排除尾項(suffix)非該目標疾病的該些疾病時序序列；以及(2) 從前述處理(1)排除後剩餘之該些疾病時序序列中，依次尋找目標子序列。當目標子序列為上一次目標子序列的尾項時，則僅從尾項具有該目標子序列首項(prefix)的該上一次目標子序列中尋找該目標子序列。

具體而言，執行上述處理(1)的目的是快速排除不相關的原始序列(例如，疾病時序序列)，而執行處理(2)則是為了排除重複檢索的情況，並增加辨識所有目標子序列的效率。

仍包含在步驟S250中，經前述步驟執行的循序樣式探勘處裡，可得到一疾病軌跡結果，其包含與目標疾病具有相關性的複數個關聯疾病。根據某些實施方式，可於輸出疾病軌跡結果時，提供一勝算比閾值，藉以在該疾病軌跡結果中呈現對應的該複數個關聯疾病。具體而言，經循序樣式探勘處理後所得到的疾病軌跡結果，是呈現從巨量樣本(個體數)中揀選所有發生過疾病的整合結果，其中各疾病彼此之間的相關度並非一致。為了便於使用者及臨床人員判讀，可於呈現疾病軌跡結果時給予一勝算比閾值，藉此可使疾病軌跡結果中呈現對應大於勝算比(也就是具特定相關度)之複數個關聯疾病結果。根據本揭示內容的實施方式，勝算比閾值可為4，其表示呈現的疾病軌跡結果是對應勝算比大於4之結果。勝算比閾值可以是4、5、6、7、8、9或10。在一特定實施例中，勝算比閾值為5；在另一特定實施例中，勝算比閾值為6。

根據某些實施方式，可於輸出疾病軌跡結果之前，依據前述之時序資料表計算該至少一前置疾病中任兩個連續前置疾病之間的平均時間間隔。據此，經前述步驟執行循序樣試探勘處理之後所取得的疾病軌跡結果，不僅包含具一特定相關度的複數個關聯疾病以及該些關聯疾病彼此之間的平均時間間隔，藉此利於分析目標疾病之整體疾病軌跡，例如從第一個疾病事件發生後至最後目標疾病彼此之間，各關聯疾病演進狀態及各階段的平均期程。

可以多種本領域具有通常知識者熟知的資料視覺化工具來具象化呈現本揭示內容的疾病軌跡結果。舉例來說，所述資料視覺化工具包含但不限於，統計圖表(例如長條圖、折線圖、圓餅圖、環圈圖(donut chart)等)；散佈圖；以及網絡圖(network diagram)等。根據一實施方式，較佳的呈現方式為網絡圖。適用於本揭示內容之資料視覺化工具為網絡圖(network diagram)。將結果數據資料轉成網路圖的資料視覺化工具是本領域的通常知識，適用於本發明的例示性軟體包含但不限於：Visual Paradigm Online、Cytoscape、smartdraw、Lucidchart、Solarwinds Network Topology Mapper、Intermapper、CADE、Dia、Diagram Designer、eDraw、LanFlow、NetProbe、Network Notepad以及Microsoft Visio。

根據某些實施方式，本揭示內容的疾病軌跡結果係以網絡圖呈現於一使用者。根據某些實施方式，可透過一使用者介面(圖未示)呈現網路圖於使用者。具體而言，該疾病軌跡結果由複數個代表性序列所構成，各該代表性序列具有介於任兩連續關聯疾病之間的至少一線段。換句話說，該些線段用以連結任兩個連續關聯疾病，以表示該些關聯疾病的發生或進程的關聯性。較佳者，配合前述勝算比之設定，可從該對應之代表性序列上得知任兩個連續關聯疾病之間的勝算比。

取得疾病軌跡結果之後，比對模組40經指令編程執行步驟S260，係從前述疾病軌跡結果中選擇至少一生物標記。比對模組40根據該疾病軌跡結果所呈現之在特定勝算比之下與目標疾病相關的多個關聯疾病，以進行共病基因群查找。具體來說，比對模組40可經指令編程從一或多個基因資料庫或文獻資料庫中查找目標疾病及該些關聯疾病各自的相關基因，並從其中找出該些相關基因的最大交集基因群，亦即共病基因群。可適用於本揭示內容的具體資料庫實施例包含但不限於：線上孟德爾遺傳資料庫(Online Mendelian Inheritance in Man, OMIM)、Humsavar ClinVar、及dbPTB等。

基於比對模組40取得的共病基因群，可透過本領域之通常知識挑選具客觀性基因表現指標作為目標疾病的有效生物標記。舉例說明之，可透過基因晶片、全基因體定序、外顯子體定序、特定基因群之DNA定序/RNA定序，並經序列比對，從公開文獻或資料庫等篩選出候選可作為生物標記之物質(例如核酸、胺基酸、胜肽、蛋白質、單醣、雙醣、聚醣、醣蛋白以及其組合，然不限於此)，並經表現檢測技術確認該些候選生物標記之表現量(表現檢測技術如：用於檢測蛋白質表現量之西方墨點轉漬法(Western blot)、組織免疫染色法(immunohistochemistry, IHC)及免疫沉澱法(immunoprecipitation, IP))；用於檢測核酸表現量之即時聚合酶連鎖反應(real time PCR)、原位螢光雜合法(fluorescence in situ hybridization, FISH)及RNA定序(RNA sequencing, RNA-Seq))，再於細胞層級、組織層級及生物體層級進行功能性分析。經前述方法挑選出的生物標記是能反應一開始選定之目標疾病的生物標記，藉此用於對一所需之個體檢測目標疾病之存在與否或其潛在風險。

據此，本發明的生物標記篩選方法，透過提供疾病表單以獲得疾病資訊、對該些疾病資訊進行循序樣式探勘以產生疾病軌跡結果，從該些疾病軌跡結果呈現的關聯疾病中，鎖定少數重要候選基因之作為生物標記，如此可大幅提高篩選生物標記之效率、減少檢測所需時間以及提升風險預測的正確率。

下文提出實施例來說明本發明的某些態樣，以利本發明所屬技術領域中具有通常知識者實作本發明。不應將這些實驗例視為對本發明範圍的限制。無須進一步說明，據信所屬技術領域中具有通常知識者可根據本文的描述，最大限度地利用本發明。本文引用的所有公開文獻均透過引用其整體併入本文。

實施例1：早產與其相關疾病之共病基因及生物標記之篩選

1.1 巨量醫療紀錄資料

本實施例使用的醫療資料包括正常生產及早產共116,918人次之醫療紀錄，經去除個人資料及就診之具體時間資訊，醫療記錄檔僅包括具有前後順序之診斷疾病結果，及其各疾病中任兩個連續疾病之間的相對間隔時間資訊。該疾病醫療紀錄可以依使用者定義之前置時間長度進行子資料集之選取，並可以進一步依疾病定義分群產生一個新疾病編碼紀錄並作為後續疾病軌跡的樣式探勘分析。

1.2 疾病分群及其疾病表單之建立

使用國際疾病分類系統第9版(ICD-9-CM)各章節所定義之病因及臨床表徵作為疾病分類依據並對醫療資料庫中的所有疾病進行歸類整理。依定義可將ICD-9-CM中列出的目前已知之一千種疾病，以編碼分成17個疾病群大類，分別如表1所示。

表1：根據ICD-9-CM建立之疾病表單

前述17個疾病大分類中，各大分類群可以進一步依照疾病的相關性再一次進行子分類。經分類後，目前已知之一千種疾病可分成147個中分類疾病群組。以第11大分類「妊娠、分娩和產褥期的併發症」為例，其可進一步分群為：異位妊娠和其他懷孕與妊娠結果(編碼：630-639)、主要與妊娠相關的併發症(編碼：640-649)、正常分娩以及其他妊娠與分娩護理(編碼：650-659)、主要在分娩及生產過程中發生的併發症(編碼：660-669)、產褥期的併發症(編碼：670-677)、其他產婦與胎兒之併發症(編碼：678-679)等六個中分類。

1.3 資料探勘以取得疾病軌跡結果

本實施例選定之目標疾病為早產。為分析早產疾病與其相關疾病的疾病軌跡，根據1.1醫療資料庫及1.2之疾病表單進行疾病軌跡的樣式探勘分析。早產之ICD9-CM代碼標註為6440*、6441*、6442*、64011、64081或64091；正常足月生產女性之ICD9-CM代碼標註為640*1-649*1(排除64011、64081、64091)、650或651*1-659*1。本實施例之生產樣本數總共116,918人次，其中包括足月生產111,163人次及早產5,755人次；足月生產的平均年齡為28.6歲，早產女性的平均年齡為29.7歲。將當次住院日視為生產日，視為早產發生於特定個體之日期基準，依此日期基準回溯懷孕一預定時間之前的相關疾病資訊。

承前所述，依早產/生產日為基準，設定的時間範圍為基準日前260天的一年前，並取得此時間間隔內的所有看診紀錄。將每一筆個人資料欄位所呈現的診斷疾病編碼依該些疾病的發生時間先後排序，並以前述ICD-9-CM的編碼表示之，以形成複數個疾病時序序列。接著透過循序樣式探勘技術對該些疾病時序序列進行分析，具體以PrefixSpan演算法為基礎進行循序樣式探勘處理。PrefixSpan演算法的基本邏輯為本領域的公開知識，請參閱J Pei 等人，"PrefixSpan: Mining Sequential Patterns Efficiently by Prefix-Projected Pattern Growth," Proceedings 17th International Conference on Data Engineering (ICDE), Heidelberg, Germany, 2001, pp. 0215.的公開說明。

為了改善習知Prefixspan演算法結合序列的時間區間進行分析的不足，本實施例作了以下改良。由於本實施例中，所有疾病時序序列之尾項(suffix)均是已選定的目標疾病，例如：早產，因此所設計的演算法會從序列的尾端開始檢索，並排除尾項非早產事件的疾病時序序列。疾病時序序列的子序列長度與發生次數則依據實際看診記錄的時間順序而有所不同。經排除後剩餘的疾病時序序列作為檢索的對象，並依次尋找高頻率的目標子序列。尋找目標子序列時，每一目標子序列的關聯式陣列會被反覆輸入於原始資料中，以重新搜尋符合此目標子序列的位置與數量。然，為避免對同一條疾病時序序列重複檢索，本發明是在演算法中增加對目標子序列之判斷。具體概念是，若目前所計算的目標子序列位於上一目標子序列的序列尾端或為尾項時，則對該上一目標子序列的尾項增加一字首項目，如此可從尾項具有該目標子序列首項(prefix)的那些上一目標子序列中尋找本次的目標子序列即可。也就是說，演算法之關聯式陣列會運用上一目標子序列之關聯式陣列中找尋此次的新關聯式陣列，而非由原始資料中重新建立新的關聯式陣列。據此，可增加尋找新關聯式陣列之效率，並快速辨識所有目標子序列。最後，從巨量時序資料辨識出所有生產紀錄(含早產及正常生產)中所有不同疾病軌跡的組合。

另為了產生更具可靠性之資訊，也於辨識疾病軌跡的過程中額外紀錄該些疾病對應的時間，形成一時序資料表。同時根據前述尋找的疾病軌跡結果，計算目標子序列兩兩連續關聯疾病間隔之平均時間，並計算出各種疾病與各種疾病軌跡發生在正常生產女性與早產女性的勝算比。表2呈現出早產女性中，勝算比大於2，且人數排名前三名之疾病以及其所屬之分類群。根據表2呈現的大中小分類的三個分類層級，雖然在小分類層級中，常發生疾病的前三名是直接與女性懷孕生產相關的疾病，但提高分類層級後，可觀察到內分泌腺相關疾病與早產之間的關聯極具顯著性。同時，高血壓與心臟方面的疾病，也是占早產女性中人數比例相對較高且勝算比也相對較高的疾病。

表2：經透過循序樣式探勘分析後，與早產具顯著性相關之疾病

進一步分析整體目標疾病之疾病軌跡中，由第一項疾病發生後至最後一項早產的演進狀態及各階段的平均演進期程。同時，還可配合1.2疾病表單提供的疾病分類資訊，以資料視覺化工具Cytoscape具象呈現疾病軌跡結果之網絡圖。當呈現網路圖時，可給予一勝算比的閾值，藉此可對應呈現該些對應該勝算比之疾病軌跡的代表性序列，從中可得知該些代表性序列包含的關聯疾病為何。

如第3圖及第4圖所示，其為本實施例以早產作為目標疾病，分析時程包含婦女懷孕前一年、懷孕時期到生產為止之疾病軌跡結果圖。每一形狀表示一疾病或一事件，一般而言可將目標疾病與其餘關聯疾病設為不同形狀以茲區分；可以使用顏色、形狀或文字區分該疾病所屬之大分類為何。在本實施例中，圓形為早產事件，其餘菱形表示早產前發生的關聯疾病事件，並以ICD-9-CM編碼代表之。箭頭方向表示疾病發生的前後順序(亦即疾病軌跡)，亦可以使用不同線段粗細或顏色表示該疾病軌跡的早產女性人數的多寡，而線段上的數字表示兩個連續疾病事件彼此之間的平均發生時間間隔(單位為天數)。第3圖為勝算比大於5之疾病軌跡結果，並以前述疾病中分類呈現，其中包含數條代表性序列(疾病軌跡)。可看出該疾病軌跡結果呈現11個不同的疾病中分類，分別被囊括在9個疾病大分類中。若將勝算比閾值提高，則可再進一步篩選與早產相關度更高的關聯疾病。如第4圖所示，其為勝算比大於6之疾病軌跡結果，並以疾病中分類呈現。以第4圖呈現之疾病軌跡結果，任意取兩個疾病軌跡代表性序列說明：(一) 女性生殖器疾病(617-629)à皮膚與皮下組織的其他發炎(690-698)à高血壓疾病(401-405)à早產，其勝算比為6.654；以及(二)其他內分泌腺疾病(249-259)à高血壓疾病(401-405)à早產，其勝算比為6.076。另外也可從疾病軌跡結果得知疾病進程。例如前述軌跡(一)，女性生殖器疾病至皮膚與皮下組織的其他發炎的平均演進時間是169.1天、由皮膚和皮下組織的其他發炎至高血壓疾病的平均演進時間是135.5天，由高血壓疾病至早產的平均時間間隔是89.8天。在軌跡(二)中，從「其他內分泌腺疾病」至「高血壓疾病」、以及演變至早產的平均疾病間隔分別是223.2天及89.8天。

1.4 共病基因 群之分析

從前述步驟已可取得發生於早產之前與其具有高相關性之疾病軌跡結果，接著就早產與該些關聯疾病彼此之間的共病基因群中找尋適於檢測早產之生物標記。根據前述1.3之疾病軌跡分析結果顯示，多胎妊娠、高血壓疾病、代謝疾病、腸胃疾病、糖尿病以及呼吸系統相關疾病等具有顯著的關聯性，並為早產疾病軌跡的一部分。於OMIM資料庫、dbPTB資料庫以及公開之早產外顯子定序文獻，經交叉比對該疾病軌跡的共病基因群，得出早產的某一基因群組與高血壓疾病的關聯基因(例如內收蛋白1(adducin 1, ADD1) 基因、血管收縮素原(angiotensinogen, AGT)基因、卵泡刺激素受體(follicle stimulating hormone receptor, FSHR)基因及一氧化氮合成酶(nitric oxide synthase 2, nos2)基因等)，以及內分泌疾病之關聯基因(例如血管收縮素I轉換酶(angiotensin I converting enzyme, ACE)基因、脂肪酶C肝型(LIPC)基因及過氧化物酶增殖體激活受體γ(peroxisome proliferator activated receptor gamma, PPARG)基因等)具高度關聯性。藉此從該些共病基因群的交集著手，蒐集早產女性之檢體，以進行該些基因的變異位點測試。以聚合酶連鎖反應，對前述該些特定基因群之基因表現量進行分析，以確定足月生產或早產女性兩者之間的基因變異位點，並選擇最具統計代表意義之生物標記。該些生物標記可用以預測或檢測欲懷孕之女性的早產相對風險與機率。

總言之，本發明的生物標記篩選系統以及其篩選方法，可從巨量資料，特別是具有多筆醫療記錄的醫療資料中，快速地篩選出與目標疾病具高度相關之關聯疾病，進而利於從該些疾病的共病基因群中篩選目標疾病的生物標記，藉此提高檢測及資料判讀的效率與正確率。

應當理解的是，前述對實施方式的描述僅是以實施例的方式給出，且本領域所屬技術領域中具有通常知識者可進行各種修改。以上說明書、實施例及實驗結果提供本發明之例示性實施方式之結構與用途的完整描述。雖然上文實施方式中揭露了本發明的各種具體實施例，然其並非用以限定本發明，本發明所屬技術領域中具有通常知識者，在不悖離本發明之原理與精神的情形下，當可對其進行各種更動與修飾，因此本發明之保護範圍當以附隨申請專利範圍所界定者為準。

S:系統10:醫療資料庫20:疾病表單30:運算模組40:比對模組200:方法S210-S260:步驟

為讓本發明的上述與其他目的、特徵、優點與實施例能更明顯易懂，所附圖式之說明如下：

第1圖是根據本揭示內容實施方式的生物標記篩選系統S。

第2圖是根據本揭示內容實施方式的方法200繪示的流程圖。

第3圖是根據本揭示內容之一實施例，其闡述以例示勝算比大於5之疾病軌跡結果網絡圖。

第4圖是根據本揭示內容之一實施例，其闡述以例示勝算比大於6之疾病軌跡結果網絡圖。

根據慣常的作業方式，圖中各種元件與特徵並未依比例繪製，其繪製方式是為了以最佳的方式呈現本發明相關的具體特徵與元件。此外，在不同的圖式間，以相同或相似的元件符號來指稱相似的元件/部件。

200:方法

S210-S260:步驟

Claims

一種用以篩選一目標疾病之生物標記的方法，包含： (a) 提供一醫療資料庫，其包含複數個個體之醫療資訊； (b) 提供一疾病表單，其包含至少一疾病資訊； (c) 從步驟(a)之該醫療資料庫內取得患有該目標疾病之該些個體的至少一前置疾病，並基於步驟(b)之該疾病表單取得該目標疾病與該至少一前置疾病的該至少一疾病資訊，以形成一前置疾病資訊，其中該至少一前置疾病係發生於該目標疾病發生之前一預定時間內； (d) 對步驟(c)之該前置疾病資訊進行一循序樣式探勘(sequential pattern mining)處理，以產生一疾病軌跡結果，其中該疾病軌跡結果包含與該目標疾病相關的複數個關聯疾病；以及 (e) 根據步驟(d)之該疾病軌跡結果，從該目標疾病與該複數個關聯疾病的共病基因群中選擇至少一生物標記，其中該至少一生物標記可用以檢測該目標疾病。
如請求項1所述之方法，其中步驟(c)包含： (c-1) 記錄該至少一前置疾病於各該個體之發生時間，以形成一時序資料表；以及 (c-2) 根據步驟(c-1)之該時序資料表，對該至少一前置疾病以發生時間之先後進行排序，以產生至少一疾病時序序列。
如請求項2所述之方法，其中步驟(d)包含： (d-1) 對步驟(c-2)之該至少一疾病時序序列進行該循序樣式探勘處理，以產生該疾病軌跡結果；以及 (d-2) 於輸出該疾病軌跡結果之前，依據該時序資料表計算該至少一前置疾病中任兩個連續前置疾病之間的平均時間間隔。
如請求項3所述之方法，其中步驟(d)之該循序樣式探勘處理係透過執行以下步驟達成： (i) 排除尾項(suffix)非該目標疾病的該些疾病時序序列；以及 (ii) 從步驟(i)排除後剩餘之該些疾病時序序列中，依次尋找目標子序列，其中，當目標子序列為上一次目標子序列的尾項時，則僅從尾項具有該目標子序列首項(prefix)的該上一次目標子序列中尋找該目標子序列。
如請求項1所述之方法，更包含在步驟(d)與步驟(e)之間提供一勝算比閾值，藉以在該疾病軌跡結果中呈現大於該勝算比的該複數個關聯疾病。
如請求項5所述之方法，其中該勝算比閾值為4。
如請求項1所述之方法，其中該目標疾病係選自由心血管疾病、早產、內分泌相關疾病、代謝疾病、皮膚病以及呼吸道疾病所組成之群組。
如請求項1所述之方法，其中該些生物標記係選自由核酸、胺基酸、胜肽、蛋白質、單醣、雙醣、聚醣、醣蛋白以及其組合所組成之群組。
一種生物標記篩選系統，包含：一醫療資料庫，包含複數個醫療資訊；一疾病表單，包含至少一疾病資訊；一運算模組，經指令編程執行一方法，其中該方法包含： (1) 根據從該複數個醫療資訊取得一目標疾病之至少一前置疾病以及從該疾病表單取得對應該目標疾病及該至少一前置疾病的該至少一疾病資訊，提供一前置疾病資訊，其中該至少一前置疾病係發生於該目標疾病發生之前一預定時間內；以及 (2) 對步驟(1)之該前置疾病資訊進行一循序樣式探勘處理，以產生一疾病軌跡結果，其中該疾病軌跡結果包含與該目標疾病相關的複數個關聯疾病；一比對模組，經指令編程執行根據該疾病軌跡結果，從該目標疾病與該複數個關聯疾病的共病基因群中選擇至少一生物標記。
如請求項9所述之系統，其中該疾病軌跡結果包含複數個代表性序列，各該代表性序列具有介於任兩連續關聯疾病之間的至少一線段。
如請求項9所述之系統，其中該疾病軌跡結果包含任兩連續關聯疾病之間的平均時間間隔，以及各該代表性序列的勝算比。