TW201539228A - 使用血液為主的樣本之質譜供肺癌病患之治療篩選 - Google Patents

使用血液為主的樣本之質譜供肺癌病患之治療篩選 Download PDF

Info

Publication number
TW201539228A
TW201539228A TW103129746A TW103129746A TW201539228A TW 201539228 A TW201539228 A TW 201539228A TW 103129746 A TW103129746 A TW 103129746A TW 103129746 A TW103129746 A TW 103129746A TW 201539228 A TW201539228 A TW 201539228A
Authority
TW
Taiwan
Prior art keywords
classifier
sample
patients
egfr
blood
Prior art date
Application number
TW103129746A
Other languages
English (en)
Other versions
TWI541674B (zh
Inventor
Joanna Roeder
Heinrich Roeder
Original Assignee
Biodesix Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Biodesix Inc filed Critical Biodesix Inc
Publication of TW201539228A publication Critical patent/TW201539228A/zh
Application granted granted Critical
Publication of TWI541674B publication Critical patent/TWI541674B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K38/00Medicinal preparations containing peptides
    • A61K38/16Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof
    • A61K38/17Peptides having more than 20 amino acids; Gastrins; Somatostatins; Melanotropins; Derivatives thereof from animals; from humans
    • A61K38/177Receptors; Cell surface antigens; Cell surface determinants
    • A61K38/179Receptors; Cell surface antigens; Cell surface determinants for growth factors; for growth regulators
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/483Physical analysis of biological material
    • G01N33/487Physical analysis of biological material of liquid biological material
    • G01N33/49Blood
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/53Immunoassay; Biospecific binding assay; Materials therefor
    • G01N33/574Immunoassay; Biospecific binding assay; Materials therefor for cancer
    • G01N33/57407Specifically defined cancers
    • G01N33/57423Specifically defined cancers of lung
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N33/00Investigating or analysing materials by specific methods not covered by groups G01N1/00 - G01N31/00
    • G01N33/48Biological material, e.g. blood, urine; Haemocytometers
    • G01N33/50Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing
    • G01N33/68Chemical analysis of biological material, e.g. blood, urine; Testing involving biospecific ligand binding methods; Immunological testing involving proteins, peptides or amino acids
    • G01N33/6803General methods of protein analysis not limited to specific proteins or families of proteins
    • G01N33/6848Methods of protein analysis involving mass spectrometry
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/10Signal processing, e.g. from mass spectrometry [MS] or from PCR
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B40/00ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
    • G16B40/20Supervised data analysis
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01NINVESTIGATING OR ANALYSING MATERIALS BY DETERMINING THEIR CHEMICAL OR PHYSICAL PROPERTIES
    • G01N2800/00Detection or diagnosis of diseases
    • G01N2800/52Predicting or monitoring the response to treatment, e.g. for selection of therapy based on assay results in personalised medicine; Prognosis
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/26Mass spectrometers or separator tubes

Abstract

本發明係關於一種用於預測非小細胞肺癌病患是否相對於化療更有可能受益於EGFR-I之測試,該測試使用電腦執行分類器對得自該病患之血液為主的樣本之質譜進行操作。該分類器利用包括來自作為預期具有針對EGFR-I之總存活期獲益之病患類別之成員之其他癌症病患(例如,彼等在美國專利案7,736,905中所述測試中測試結果為VS佳之病患)之血液為主的樣本之質譜數據之訓練集。該標記類別的群組被進一步細分為兩個子集,亦即彼等在治療癌症的過程中投與EGFR-I後疾病呈現早期(類別標記「早期」)及晚期(類別標記「晚期」)進展之病患。

Description

使用血液為主的樣本之質譜供肺癌病患之治療篩選 相關申請案之交叉參考
本申請案依據35 U.S.C.§ 119之規定主張2014年4月4日申請之美國臨時專利案序號61/975,267之優先權,該案以引用的方式併入本文中。
本發明係關於生物標記發現及個性化藥物領域,且更特定言之係關於一種在治療之前預測非小細胞肺癌(NSCLC)病患是否有可能相對於化療自表皮生長因子受體抑制劑(EGFR-I)(諸如埃羅替尼(erlotinib)或吉非替尼(gefitinib))獲得更多益處之方法。
在美國,非小細胞肺癌係男性及女性死於癌症之主要原因。存在至少四種(4)不同類型之NSCLC,包括腺癌、鱗狀細胞癌、大細胞癌及支氣管肺泡癌(bronchoaldeolar carcinoma)。鱗狀細胞(表皮樣)肺癌係一類與吸煙最為相關之顯微鏡下癌症。肺腺癌佔到美國所有肺癌病例的50%以上。該癌症在女性中較為普遍,且仍是非吸煙者中最常見的類別。大細胞癌(特別係彼等具有神經內分泌特徵者)通常與伴隨著腫瘤擴散至腦部。當NSCLC進入血流,其可擴散至較遠部位(諸如肝臟、骨骼、腦)及肺的其他位置。
多年來,NSCLC之治療效果相對較差。化療(晚期癌症之主要治療手段)僅具有微小療效,局部癌症例外。雖然外科手術係NSCLC之 最具潛力的治癒性治療選擇,但其並不總是可行,需端視癌症階段而定。
最近開發治療NSCLC病患之抗癌藥物之方法致力於降低或消除癌細胞生長及分化之能力。此等抗癌藥物係用於擾亂至該等細胞之信號,以告知其等是生長還是死亡。通常,細胞生長受到細胞接收之信號之嚴密控制。然而,在癌症中,該信號傳遞出錯,且細胞以不可控方式繼續生長及分化,從而形成腫瘤。在人體中之化學物質(稱為表皮生長因子)結合至見於人體中許多細胞表面上之受體時,此等信號傳遞路徑中之一者便開始。該受體(稱為表皮生長因子受體(EGFR))經由使見於該等細胞內之稱為酪胺酸激酶(TK)之酶活化將信號傳送至該等細胞。該等信號係用於告知細胞生長及分化。
兩種針對NSCLC病患開發及使用之EGFR-I抗癌藥物稱為吉非替尼(商標名「易瑞沙(Iressa)」)及埃羅替尼(商標名「它賽瓦(Tarceva)」)。此等抗癌藥物靶向EGFR路徑,且有望有效治療NSCLC癌症。易瑞沙可抑制存在於肺癌細胞及正常組織中之其他癌症中,且似乎對癌細胞之生長有重要意義之酪胺酸激酶。易瑞沙已被用作治療在兩種其他化療後有進展或使用兩種其他化療而無改善之NSCLC之單方藥劑。已有使用不同化合物(例如不可逆EGFR-TKI抑制劑阿法替尼(affatinib)(Boehringer-Ingelheim)及達可替尼(dacomitinib)(Pfizer))靶向相同EGFR路徑之正在開發及正在批准中的其他藥物。
本發明者之受讓人已開發一種稱為VeriStrat®之測試,該測試可預測NSCLC病患是否可能或不可能受益於EGFR路徑標靶藥物(包括吉非替尼及埃羅替尼)之治療。該測試(本文中亦稱為「VS 1.0」)係描述於美國專利案7,736,905中,該案之內容係以引用之方式併入本文中。該測試亦係描述於Taguchi F.等人,J.Nat.Cancer Institute,2007 v.99(11),838-846中,該文獻內容亦係以引用之方式併入本文中。該測試 之其他應用係描述於本發明受讓人之其他專利案(包括美國專利案7,858,380、7,858,389及7,867,774號)中,該等專利案之內容亦係以引用之方式併入本文中。
簡而言之,VeriStrat測試係以癌症病患血清及/或血漿樣本為基礎。藉由MALDI-TOF質譜分析及在電腦中執行之數據分析算法之組合,藉助分類演算將一組預先定義m/z範圍內之8個積分峰強度與彼等來自訓練組之積分峰強度作比較。該分類算法針對該病患樣本生成類別標記:VeriStrat「佳」、VeriStrat「差」、或VeriStrat「不確定」。在多個臨床確認研究中,咸已證實,當以表皮生長因子受體抑制劑藥物對治療前血清/血漿為VeriStrat「佳」的病患進行治療時,所得結果明顯比彼等樣本識別標誌為VeriStrat「差」的病患更佳。極少數的案例(少於2%)是無法判定,結果則給予VeriStrat「不確定」的標記。VeriStrat可購自Biodesix,Inc.(本發明受讓人),且可用於非小細胞肺癌病患之治療篩選。
VeriStrat測試係由分析以吉非替尼治療之NSCLC病患之多機構研究衍生而來。該測試係使用來自經歷長期穩定疾病或在用吉非替尼治療時經歷早期進展之病患之治療前血清樣本之訓練集開發。此等病患的血清樣本之質譜(MS)被用於界定12個質譜分析特徵(亦即譜峰),從而區分出此等兩個結果群組。該測試基於k-最近鄰算法(KNN)分類方案使用此等特徵中之八者,並利用訓練組之其他質譜使其參數最優化。以盲蔽方式,基於兩個以吉非替尼或埃羅替尼進行治療之病患之獨立組之治療前血清進一步確認該測試之資格。此等研究證實,歸類為VeriStrat佳(VSG)之病患比歸類為VeriStrat差(VSP)之病患具有更佳結果(在一個組中,死亡風險比[HR]=0.43,P=0.004,在另一組中,死亡HR=0.33,P=0.0007)。結果顯示,該測試與進行表皮EGFR TKI療法後,但非在化療後或術後之臨床結果有相關性,因為歸類為VSG 或VSP之病患在接受第二線化療前之總存活期(OS)沒有統計學意義上的顯著差異(在一個組中,HR=0.74,P=0.42,且在另一組中,HR=0.81,P=0.54)。在切除早期NSCLC之病患之第三對照組中,OS之HR為0.90(P=0.79)。
VeriStrat測試後來在稱為PROSE研究之研究中被正式預測性地確定係合格。參見2013年6月呈遞至2013 ASCO大會之報告Randomized Proteomic Stratified Phase III Study of Second-Line Erlotinib Versus Chemotherapy in Patients with Inoperable Non-Small Cell Lung Cancer,ClinicalTrials.gov # NCT00989690。簡而言之,PROSE係針對285名在第一線化療治療後有進展之晚期NSCLC病患進行的多中心隨機化3期研究。病患1:1地隨機接受標準劑量之埃羅替尼或化療(多西他賽(docetaxel)或培美曲塞(pemetrexed),由研究者裁定),依據東部腫瘤協作組體能狀態(Eastern Cooperative Oncology Group(ECOG)-體能狀態)、吸煙狀況及盲蔽的治療前VeriStrat分類進行分層。PROSE結果證實,歸類為VSP的病患相對於埃羅替尼以化療進行治療時具有更佳存活性,且歸類為VSG的病患在以埃羅替尼或化療治療時具有類似OS。該研究達成其主要目標,該主要目標是顯示治療結果與VeriStrat分類之間存在顯著交互作用,交互作用p值為0.031。
雖然PROSE結果證實VeriStrat係可用於排除埃羅替尼之測試(亦即,彼等測試結果為VSP之病患未自埃羅替尼獲得益處,且在進行化療時獲得更佳存活性),但進一步檢視數據後表明,確定病患有可能在使用埃羅替尼時具有超過化療之優越存活性之測試將具有額外臨床價值。此未滿足的臨床需求導致開發本文獻所述進行此類鑑別之新型測試。
在第一態樣中,一種在治療前預測非小細胞肺癌(NSCLC)病患是 否為相對於化療(例如,多西他賽或培美曲塞)有可能自以投與表皮生長因子受體抑制劑(EGFR-I)之形式治療NSCLC獲得更大益處之癌症病患類別之成員之方法。該方法包括步驟(a):在電腦可讀媒體中儲存呈訓練集形式之非瞬態數據,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量癌症病患係藉由對血液為主的樣本進行質譜分析確定為預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,例如,VS 1.0狀態為「佳」之病患,此類病患可進一步分成兩個子類:
1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及
2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患(類別標記「晚期」或等效詞)。
該方法繼續包括步驟(b):將NSCLC病患之血液為主的樣本提供至質譜儀,並對該血液為主的樣本進行質譜分析,從而生成該血液為主的樣本之質譜。
該方法繼續包括步驟(c):藉助程式化電腦對步驟(b)中所得質譜進行預定預處理步驟。
該方法繼續包括步驟(d):在對步驟(c)中所述質譜進行預處理步驟後,獲得該質譜在複數個預先定義m/z範圍內所選定之特徵之積分強度特徵值。
該方法繼續包括步驟(e):在該程式化電腦中執行包括比較步驟(d)中所得積分強度值與步驟(a)中儲存之訓練集之分類演算法之分類器,並響應生成對應該血液為主的樣本之類別標記。若步驟(e)中對該血液為主的樣本之質譜所生成之類別標記係「晚期」或等效詞,則可確定該病患有可能在治療癌症的過程中相對於化療自EGFR-I獲得更大益處。
儲存訓練集之步驟(a)較佳係在進行步驟(b)、(c)、(d)及(e)之前進行。例如,訓練集可自一組利用尋峰法及本文揭示之其他方法接受質譜分析及接受適當驗證研究之樣本衍生得到,然後儲存在電腦系統、便攜式電腦媒體、雲儲存或其他形式中,以備後續使用。在給定的血液為主的樣本欲根據步驟(b)-(e)進行測試及處理時,獲取該訓練集並按照步驟(e)用於分類。
在一特別實施例中,組合治療中之EGFR-I係小分子EGFR酪胺酸激酶抑制劑(諸如吉非替尼)或等效物(例如,埃羅替尼)。在其他可能實施例中,EGFR-I可呈第二代EGFR-I(諸如達可替尼(dacomitinib)及阿法替尼(affitinib)之形式。
在一實施例中,該訓練集係呈自大量NSCLC病患獲得之標記類別的質譜之形式。然而,該標記類別的質譜可得自其他類型之實體上皮腫瘤癌症病患,諸如例如,結腸直腸癌病患或SCCHN癌病患。
在一實施例中,該分類器在漏讀正規化(dropout regularization)及邏輯訓練(logistical training)後呈經篩選的迷你分類器之組合形式(CMC/D分類器)。本文描述自開發樣本集合生成此分類器之方法。
在另一實施例中,該方法包括以下步驟:對參考樣本進行質譜分析,及自該參考樣本之質譜得到一個參考樣本特徵值集合;為與預定的特徵值集合保持一致,校驗該等參考樣本特徵值;自該等參考樣本特徵值,定義該樣本之質譜之特徵校正函數;及根據該特徵校正函數校正該血液為主的樣本之質譜之特徵值。
在另一實施例中,該方法包括以下步驟:a)儲存一個特徵相依性雜訊特性集合;b)生成該血液為主的樣本之質譜之特徵值之一個雜訊特徵值實現集合;c)將該分類器應用至該等雜訊特徵值實現,並整理該施加步驟之結果;d)根據步驟c)中所整理的結果生成統計數據,及e)利用步驟d)中所生成之統計數據及針對該樣本所生成之類別標記確 定該樣本之類別標記。
在另一態樣中,一種處理非小細胞肺癌(NSCLC)病患之血液為主的樣本,以確定該病患是否係相對於治療NSCLC中之化療有可能自以投與表皮生長因子受體抑制劑(EGFR-I)形式治療NSCLC獲得更大益處之癌症病患類別之成員之系統。該系統包括:(a)生成該血液為主的樣本之質譜之質譜儀;及(b)程式化電腦,其包括處理單元及儲存來自該質譜儀之質譜數據之記憶體。該記憶體另外儲存:1)呈訓練集形式之非瞬態數據,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量癌症病患係預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員(例如,彼等在VS 1.0測試中歸為「佳」之病患),此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患(類別標記「晚期」或等效詞)。
2)用於對該訓練集執行在漏讀正規化及邏輯訓練後呈經篩選的迷你分類器之組合形式之分類器(CMC/D分類器)之程式碼;3)用於對1)中所儲存之質譜進行預定預處理步驟之程式碼,在對該質譜進行該預處理步驟後,獲得該質譜在複數個預先定義m/z範圍內所選定之特徵之積分強度特徵值;及4)用於將CMC/D分類器施加至該等3)中所得積分強度值及訓練集之程式碼,並響應生成對應該血液為主的樣本之類別標記,其中若程式碼4)針對該血液為主的樣本所生成之類別標記係「晚期」或等效詞,則可確定該病患有可能在治療癌症的過程中相對於化 療自EGFR-I獲得更大益處。
在另一態樣中,描述一種用於將樣本歸類之裝置,其包括電腦記憶體,其儲存呈訓練集形式之非瞬態數據,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量癌症病患係預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患,此等病患具有「晚期」或等效詞之類別標記。
在又另一態樣中,揭示一種治療NSCLC病患之方法,其包括以下步驟:向該NSCLC病患投與EGFR-I,其中藉由在程式化電腦中執行比對藉由質譜儀自該NSCLC病患之血液為主的樣本產生之質譜數據與包括自大量癌症病患獲得之標記類別的質譜數據之訓練集之分類器預測該病患相對於化療自EGFR-I受益更大,該等大量癌症病患係藉由對血液為主的樣本進行質譜分析確定為預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患,此等病患之質譜數據具有「晚期」或等效詞之類別標記。
1100‧‧‧分類器開發數據集合
1102‧‧‧步驟
1104‧‧‧「早期」組
1106‧‧‧「晚期」組
1108‧‧‧步驟
1110‧‧‧測試集
1112‧‧‧訓練集
1120‧‧‧步驟
1122‧‧‧圓圈
1124‧‧‧方框
1126‧‧‧步驟
1128‧‧‧步驟
1130‧‧‧步驟
1132‧‧‧步驟
1134‧‧‧步驟
1136‧‧‧步驟
1138‧‧‧步驟
1140‧‧‧步驟
1142‧‧‧步驟
1144‧‧‧步驟
1200‧‧‧測試樣本
1202A‧‧‧參考樣本
1202B‧‧‧參考樣本
1204‧‧‧步驟
1206‧‧‧平均化工作流程模塊
1208‧‧‧步驟
1210‧‧‧失敗,重新生成質譜
1212‧‧‧預處理工作流程模塊
1214‧‧‧步驟
1216‧‧‧參考樣本特徵值
1218‧‧‧模塊
1220‧‧‧標準特徵值集合
1222‧‧‧步驟
1224‧‧‧步驟
1226‧‧‧數據集合
1228‧‧‧步驟/模塊
1229‧‧‧測試樣本分類標記
1230‧‧‧特徵依賴性雜訊特性
1232‧‧‧步驟/模塊
1234‧‧‧步驟/模塊
1236‧‧‧步驟
1238‧‧‧分類結果之統計數據
1240‧‧‧步驟
2600‧‧‧樣本
2602‧‧‧MALDI-ToF樣本「板」
2604‧‧‧參考樣本
2606‧‧‧質譜儀
2608‧‧‧質譜
2610‧‧‧通用電腦
2612‧‧‧中央處理單元
2614‧‧‧記憶體
2620‧‧‧分類器
2622‧‧‧訓練集
2624‧‧‧KNN分類演算法
2626‧‧‧程式碼
2628‧‧‧數據結構
2630‧‧‧程式碼
2632‧‧‧預處理程序
2634‧‧‧求平均值
2636‧‧‧特徵校正
2638‧‧‧代碼程序
2640‧‧‧模塊
2642‧‧‧程式碼
2652‧‧‧步驟
2654‧‧‧步驟
2656‧‧‧步驟
2658‧‧‧處理
2660‧‧‧步驟
2662‧‧‧步驟
2664‧‧‧未定義
2666‧‧‧報告類別標記
附錄
附錄A:用於分類器開發之樣本
附錄B:用於CMC/D分類器中之特徵
附錄C:分類器開發第一階段之初始類別標記
附錄D:VS2.0特徵之雜訊類型及雜訊強度
附錄E:開發集合樣本之VS2.0分類
附錄F:三輪之開發集合樣本之VS2.0分類
附錄G:傳回的關於PROSE樣本之VS2.0分類
附錄H:用於採集質譜之儀器之細節
*此可快速核對兩種具有未能採集到質譜之位點之樣本之一致性,但若放棄此等兩種樣本,則其係一致。
*2此運行係在與來自儀器258之140115_PROSE運行相同的板上完成
圖1係顯示一種生成CMC/D分類器之方法之流程圖。
圖2係顯示利用根據圖1所生成之CMC/D分類器測試生物樣本之測試方法之流程圖。
圖3係類別標記之初始分配及在NSCLC/EGFR-I CMC/D分類器中分割成訓練集及測試集之說明圖。
圖4A-4F係CMC/D分類器生成方法中生成之測試集之早期及晚期分類間之PFS及OS之風險比(HR)分佈之圖表(圖1中之步驟1134)。圖4A-4B係對應初始類別標記之PFS及OS,而圖14C-14F係對應時常錯誤分類的測試樣本之類別標記在交換一次或兩次後之PFS及OS。
圖5係開發集合與後續批次得自相同參考樣本且通過方程式2之一致性準則之特徵質譜間之特徵值比率之圖表。
圖6A-6D係顯示NSCLC/EGFR-I CMC/D分類器開發集合中具有由開發集合質譜分配之標記之病患之時間事件結果之卡普蘭-邁耶(Kaplan-Meier)曲線。圖6A顯示以吉非替尼治療的病患之OS;圖6B顯示以吉非替尼治療的病患之PFS,圖6C顯示以化療治療的病患之OS,且圖6D顯示以化療治療的病患之PFS。
圖7係應用至PROSE樣本集合之NSCLC/EGFR-I CMC/D分類器之靈敏度校正之回歸曲線圖。
圖8A及8B係以埃羅替尼(圖8A)及化療(圖8B)治療之病患之晚期組及早期/未知組(彼等在原始VeriStrat測試中測試結果為VeriStrat佳之病患)之總存活期之卡普蘭-邁耶曲線。
圖9A及9B係以埃羅替尼(圖9A)及化療(圖9B)治療之病患之晚期組及早期/未知組(彼等在原始VeriStrat測試中測試結果為VeriStrat佳之病患)之無進展存活期之卡普蘭-邁耶曲線。
圖10係通過治療歸類為VeriStrat差及晚期之病患之總存活期之卡普蘭-邁耶曲線。
圖11係通過治療OS在VeriStrat佳的早期/未知組內之卡普蘭-邁耶曲線。
圖12A係通過治療OS在晚期組內之卡普蘭-邁耶曲線;圖12B係通 過治療PFS在晚期組內之卡普蘭-邁耶曲線。
圖13係圖2之平均化工作流程模塊1206之說明圖。
圖14係圖2之預處理工作流程模塊1212之說明圖。
圖15係圖2之將該主分類器應用至校正過的測試樣本特徵值及雜訊特徵值實現之模塊1228及1234之說明圖。
圖16係測試樣本處理系統之說明圖,該系統包括儲存分類器及訓練集之電腦及獲得血液為主的樣本之質譜之質譜儀。
以下分四個主要部份描述:
部份I:描述開發本文中稱為CMC/D分類器(藉助漏讀合併迷你分類器(Combination of Mini-Classifiers with Dropout))之分類器之新型途徑。該新型途徑係用於生成可用於進行本文件之測試方法之分類器。
部份II:描述按照部份I所開發之用於本文件中所述預測性測試中之特異性CMC/D分類器,且結果證實其具有預測NSCLC病患相對於化療受益於EGFRI-I之能力。
部份III:描述一種使用部份II中所述CMC/D分類器對病患樣本進行測試之當前較佳的測試方法。
部份IV:描述用於生成分類器及實施部份I-III中所述測試之實際計算環境。
部份I CMC/D分類器開發概述
該部份描述CMC/D分類器、其生成或開發及優勢。一般而言,當受到可用於生成分類器之樣本數量之限制時,CMC/D分類器係尤其適宜。此外,CMC/D分類器之特徵係真正多變量,且CMC/D分類器具有避免過度擬合可用樣本集合之優勢。
相對於在可獲得大量訓練數據集合時集中開發分類器之機器學習之標準應用,大數據挑戰,在生命科學中,問題設定係不同。此 處,吾人的問題在於,可用樣本之數量通常由於臨床研究而受到限制,且屬性數量通常超過樣本數量。不同於自許多實例獲得資訊,在此等深度數據問題中,有人試圖從深入描述單個實例來獲得資訊。
CMC/D分類器開發包括第一步驟a):自大量樣本得到用於分類之數據,亦即,反映樣本之某一物理性質或特性之測量數據。每一樣本之數據包括大量特徵值及一類別標記。該集合在下文中稱為「開發集合」或「開發樣本集合」,參見圖1之1100。例如,該數據可係使該樣本接受某種形式的質譜分析(例如,MALDI-TOF)所得之呈特徵值(大量m/Z範圍/峰/特徵之峰強度)形式之質譜數據及指示該樣本之某種屬性之標記。該標記可具有診斷或治療屬性,諸如診斷標記(癌症/非癌症),該樣本是否來自受益於某種特定藥物或藥物組合(受益/未受益)之病患,或者係指示該樣本之某種其他性質或特性之標記,諸如該病患是否具有疾病之早期或晚期復發,是否具有佳或差總存活期等。該類別標記可以某種自動化方式事先分配,或可由人類操作者在開發分類器之前或之時分配。該類別標記亦可在經過分類器開發過程之多次迭代後重新定義,換言之,該等類別標記係結合分類器本身之開發加以定義。
該方法繼續包括步驟b):利用至多為預先選定的特徵集合大小s(s=整數1...n)之特徵值集合自該等樣本構建大量個別迷你分類器。例如,可利用單個特徵(s=1)、或兩個特徵(s=2)、或三個特徵(s=3)或甚至包含超過3個特徵之更高次組合構建多個個別迷你或原子分類器。通常將選擇足夠小的s值,以容許實施該方法之代碼在合理時間內運行,但s值在某些情形下或可接受較長代碼運行時間之情形下可以更大。
該方法繼續包括篩選步驟c),亦即,測試每一個別迷你分類器之性能(例如準確度),以歸類大量樣本中之至少一些,或以一些其他量 度(例如臨床試驗之實驗臂及對照臂中由訓練集樣本之個別迷你分類器之分類所定義之組別間所得風險比(HR)間之差異)測量個別迷你分類器的表現,並僅保留彼等分類準確度或其他性能量度超過預定臨限值之迷你分類器,進而得到經篩選的(刪減過的)迷你分類器集合。在該步驟中,每一迷你分類器比較在樣本集合中形成迷你分類器之特徵之特徵值(例如,預先定義m/Z範圍內之積分強度值)與標記類別的測量數據之訓練集中之樣本之相同特徵值。在該步驟中,該等迷你分類器對來自選定的樣本集合之樣本之數據基於該迷你分類器所選定之特徵之特徵值相對於訓練集中之相同特徵執行分類演算法(諸如K-最近鄰算法分類演算法(KNN)),並輸出該樣本之類別標記。若針對迷你分類器篩選所選的性能量度係分類準確度,則該得自分類操作之類別標記可與事先已知的樣本之類別標記作比較。然而,可使用其他性能量度,並利用得自分類操作之類別標記進行評估。只有彼等在針對分類所選的性能量度下表現相當好的迷你分類器才會保留下來。可使用替代性監督分類演算法,諸如線性判別式、決策樹、概率分類法、基於邊際的分類器如支持向量機及自一個標記過的訓練數據集合訓練分類器之任何其他分類法。
為克服因某些單變量特徵篩選法而導致偏差之問題(端視子集偏差而定),吾人在該步驟中採用大部份所有可能的特徵作為迷你分類器之候選者。然後,吾人利用至多為預先選定大小(參數s)之特徵集合構建所有可能的KNN分類器。此為吾人產生許多「迷你分類器」:例如若吾人針對每個樣本開始使用100個特徵,吾人將自此等特徵對(s=2)之所有可能的不同組合得到4950(100x99/2)個「迷你分類器」,使用三個特徵(s=3)之所有可能的組合將得到161,700個迷你分類器,以此類推。探索可能的迷你分類器及界定其等的特徵之空間之其他方法當然可行,且可用於替代此階層式方法。當然,許多此等「迷你分 類器」將具有差的性能,且因此在篩選步驟c)中,吾人僅使用彼等通過預定性能準則之「迷你分類器」。此等準則係根據特定問題而選擇:若存在兩類分類問題,則僅選擇彼等分類準確度超過預定臨限值之迷你分類器。吾人選擇彼等在某種程度上具有預測性之分類器,亦即在治療臂中,晚期與早期復發組間之風險比(HR)比對照臂小某一預先指定的值。即使對「迷你分類器」進行此類篩選,吾人還是得到成千上萬的「迷你分類器」候選者,其性能橫跨分界線至尚可至極佳性能之整個範圍。(在一典型實例中,有數千個此等迷你分類器通過篩選測試,且被用於進行漏讀(drop-out)邏輯訓練)。
該方法繼續包括步驟d):利用正規化組合方法合併經篩選的迷你分類器。在該實例之一可行實例中,該步驟包括對步驟c)所生成之經篩選的迷你分類器集合重複進行邏輯訓練,以得到樣本之分類標記。此係由如下實現:藉助進行極端漏讀自經篩選的迷你分類器集合隨機選擇小部份該等經篩選的迷你分類器,並對此等經選定的迷你分類器進行邏輯訓練。雖然精髓類似於標準分類器組合方法(參見例如S.Tulyakov等人,Review of Classifier Combination Methods,Studies in Computational Intelligence,第90卷,2008,第361-386頁),但吾人具有某些「迷你分類器」可僅藉由隨機機會人工完善,且因此將主導該等組合之特定問題。為避免過度擬合至特定主導「迷你分類器」,吾人生成許多邏輯訓練步驟,針對此等邏輯訓練步驟之每一者隨機選擇僅小部份該等「迷你分類器」。此係根據如深度學習理論中所使用之漏讀精髓使該問題正規化。在吾人具有許多迷你分類器及小規模訓練集的情形下,吾人採用極端漏讀,其中在每次迭代中,超過99%的預篩選迷你分類器被漏讀。
其他可用以執行步驟(d)中之正規化組合方法之方法包括:
˙具有罰函數之邏輯回歸如脊回歸(基於提克洛夫(Tikhonov)正規 化,Tikhonov,Andrey Nikolayevich(1943).「 」[On the stability of inverse problems].Doklady Akademii Nauk SSSR 39(5):195-198.)
˙Lasso法(Tibshirani,R.(1996).Regression shrinkage and selection via the lasso.J.Royal.Statist.Soc B.,第58卷,第1期,第267-288頁)。
˙以漏讀正規化之類神經網路(Nitish Shrivastava,「Improving Neural Networks with Dropout」,Master’s Thesis,Graduate Department of Computer Science,University of Toronto;可在http://www.cs.toronto.edu/~nitish/msc_thesis.pdf.獲得)
˙一般正規化類神經網路(Girosi F.等人,Neural computation,(7),219(1995)。上述出版物以引用的方式併入本文中。
該方法繼續包括步驟e)在執行步驟d)之正規化組合方法後(例如,邏輯訓練及漏讀迭代後)自經篩選的迷你分類器集合之組合生成主分類器。在一實施例中,該主分類器係彼等在步驟d)中所述之漏讀期間所選定的經篩選的迷你分類器集合之所有邏輯回歸訓練之平均。可針對開發集合之測試集分割或子集評估最終分類器,亦對該開發集合分割成訓練集及測試集之多個不同分割進行該評估,且最終分類器可藉由篩選得自特定訓練集及測試集分割之具有「典型」性能之主分類器中之一者,或藉由保留各訓練集及測試集分割之所有主分類器,並使用來自各主分類器之多數表決以向受驗樣本分配標記而生成。該途徑之精髓類似於「漏讀」正規化,一種用於深度學習社區中,以給類神經網路訓練增加雜訊,進而避免陷在目標函數之局部極小值中之方法。參見Nitish Shrivastava,「Improving Neural Networks with Dropout」,Master’s Thesis,Graduate Department of Computer Science,University of Toronto;可在http://www.cs.toronto.edu/~nitish/msc_ thesis.pdf獲得。吾人的方法亦可自集成學習法(參見例如「Ensemble Methods」,Zhi-Hua Zhou,CRC Press,2012 Boca Raton)查看。此等途徑有望避免過度擬合,及增加生成可歸納測試(亦即可在獨立樣本集合中驗證之測試)之可能性。
CMC/D分類器生成方法及上述最終分類器具有許多實際優勢及用途。通常,在分類開發中(尤其在諸如癌症研究或藥物研發之健康科學中),若研究者欲遵循標準途徑開發分類器,則其面臨僅可獲得小規模樣本集合之問題,其導致訓練集及測試集規模極小。例如,在用於藥效研究之樣本集合中,若亦將對照臂分割成訓練集及測試集,則訓練集可由大概20個來自治療臂之樣本及類似大小的訓練集組成。此導致早期及晚期復發組(參見下文)(由某種訓練標記分配界定,諸如早期或晚期)中僅有約10個樣本。標準途徑將從調查特徵(例如,質譜數據中之峰)開始,並篩選彼等有望包含訓練類別相關資訊之特徵。然後,用k-最近鄰算法將此等特徵合併,生成多變量測試。就小的樣本量而言,如本實例中一樣,構建多變量測試過程中所包括之特徵之篩選易於被某些主要由於樣本特別分割成訓練集及測試集而顯示辨別力之特徵所主導。換言之,對於較小的樣本量而言,使用單變量p值篩選特徵之資訊量較少,因為p值本身之資訊量較少。可試圖藉由嘗試許多訓練/測試集分割方案來克服此問題,但似乎沒有可避免此等方案中之每一者挑選特化特徵之可行方法,此使得難以評估所開發測試之泛化性能。在先前的工作成果中,吾人開發出複雜的交叉驗證技術,其在容許給定樣本集合開發預測性測試方面之前景巨大。然而,該工作成果得到許多分類器候選者,而篩選出進行進一步驗證之特定分類器仍然困難重重。
吾人針對兩個問題開發本文所述方法:(a)其不依賴於包括在多變量測試中之特徵之特定選擇,及(b)藉由合併許多,甚至上千個可 能的分類器候選者,其提供一種自動生成單個性能良好的分類器(測試)之手段。
吾人創造術語「藉助漏讀合併迷你分類器(combination of mini-classifiers with dropout)」(CMC/D)來指代本文件中所述之分類器生成方法。下文在部份II及III中闡釋將CMC/D應用至用於生成VS 1.0測試之質譜數據集合。CMC/D使吾人得以用較小訓練集進行工作,且因此容許將樣本集合分割成訓練集測試集。此舉可減輕一些分類器開發問題中可存在的擔憂,亦即缺少獨立測試集。CMC/D亦容許研究分類器性能對特定測試/訓練分割之依賴性,其可導致小樣本集合產生偏差。最後,CMC/D針對每一訓練/測試集分割產生一個主分類器/測試。雖然該測試可能並非給定數據可構建之最佳測試,但此測試藉由構建將更不易在訓練集數據中發生過度擬合至某種假訊之危險。
由於在該方法之步驟d)中在合併「迷你分類器」中使用邏輯回歸,由CMC/D所生成之分類器實質上具有概率性。將CMC/D分類器應用至特定樣本的測量數據(例如,質譜)之結果提供賦予該等樣本數據之特定類別(組別)標記(在該情形下為早期或晚期)之概率。
圖1係較詳細說明該部份中所述分類器開發過程之流程圖。該分類器開發過程通常將在表現為儲存分類器開發數據(例如,呈質譜數據及執行該圖中所示模塊之可執行碼之形式)集合之通用電腦之計算系統中執行。
如圖1中所示,該過程自分類器開發數據集合1100(例如得自質譜儀(未顯示)之質譜數據集合,來自人類病患之血液為主的樣本)開始。如先前所述,圖1流程圖中所示過程並不限於任何特定形式之數據。然而,以血液為主的樣本之質譜分析之實例適合本發明之論述,且意不在於以任何方式限制。在本實例中,血液為主的樣本係得自作為預期可在治療NSCLC癌症的過程中自EGFR-I獲得總存活期獲益之病患 類別之成員之病患,例如,VS 1.0狀態為「佳」之病患。如下文所述,此等樣本之類別標記可進一步分成兩個子類,早期及晚期。
在步驟1102中,將分類器開發集合1100中之分組(類別標記)分別定義為(諸如例如)「早期」組1104及「晚期」組1106。在該實例中,「早期」組1104由開發集合1100中與在投與抗癌藥物後疾病相對較早出現進展或復發之病患有關之質譜集合組成。相反,「晚期」組1106由開發集合1100中與在投與抗癌藥物後疾病相對較晚出現復發或進展之病患有關之質譜集合組成。下文詳細描述在定義早期及晚期組中之其他注意事項。將開發集合1100分割成早期及晚期組可分割或不分割成具有偶數個樣本之小組。
在步驟1108中,將早期及晚期樣本組分割成訓練集及測試集。步驟1108中之該分割不必分成數量相等的小組。吾人可以2:1或其他比率進行分割。若具有極大集合,吾人可能不想使用真正大的訓練集。若樣本數量極為有限,吾人可在訓練集中使用多於測試集中之樣本。1108中之該分割產生兩個組:訓練集1112及測試集1110(各訓練集及測試集均包括開發集合1100之「早期」及「晚期」樣本/數據)。
如圖1中所示,然後使訓練集1112接受分類器開發步驟1120、1126及1130。在步驟1120中,生成大量KNN基迷你分類器,如上文先前所作詳細闡述。此等迷你分類器可僅使用質譜數據集合中的1個(s=1)或2個特徵(s=2)進行分類。如圓圈1122中所示,KNN迷你分類器使用比較自整個特徵空間提取之特徵(m/Z特徵之積分強度值,如方框1124中所示)之子集。如方框1124中所示,此等分類特徵係質譜中之m/Z範圍。該質譜可呈如吾人在2013年3月15日申請之早期專利申請案序號美國專利申請案號13/836,436(亦以引用的方式併入本文中)中所述之「Deep MALDI」質譜之形式。或者,該質譜可呈來自例如2,000次雷射轟擊之典型「稀釋後轟擊(dilute and shoot)」質譜或若干 個(例如,三個)2,000次轟擊質譜(在採集質譜的同時進行質譜過濾)之平均和之形式。迷你分類器中用於分類之特徵係積分強度值,亦即指定m/Z範圍內之預定峰位置下之面積。KNN迷你分類器中用於分類之積分強度值之生成較佳係在進行預處理步驟(諸如背景扣除、標準化及質譜校準)後進行。此等步驟及KNN迷你分類器之執行係在通用電腦中藉助電腦代碼執行。
在步驟1126中,篩選步驟1120中所生成之KNN迷你分類器,篩選至僅留下彼等具有可接受性能水平之迷你分類器。圖1中對此作直觀闡釋。可存在兩者均為佳、差及各對應一者之重疊特徵集。該等特徵集可重疊,且一些將通過篩選,而一些將無法通過篩選。相對於定義的性能量度評估各迷你分類器。在該步驟中,僅有彼等具有佳分類性能之迷你分類器才會留下,如1128中之加號所指示。
在步驟1130中,主分類器係自通過該篩選步驟之迷你分類器,在進行正規化組合方法(諸如多次邏輯回歸及漏讀正規化迭代,如上文所述)後生成。更詳細言之,各迷你分類器之結果係兩個值中之一者,「早期」或「晚期」。然後,吾人可使用邏輯回歸,按照邏輯回歸之精髓,藉由定義經由標準邏輯回歸獲得「早期」之概率合併該等迷你分類器之結果(參見例如http://en.wikipedia.org/wiki/Logistic_regression)
其中若該應用至樣本之特徵值之迷你分類器mc傳回「早期」,則I(mc(特徵值))=1,且若該迷你分類器傳回「晚期」,則I(mc(特徵值))=-1。權重值w mc 係未知,且需要自上述公式對訓練集中所有樣本進行回歸擬合而測定,就訓練集中以早期標記的樣本而言,該公式之左手邊使用+1,且以晚期標記的樣本使用-1。由於吾人具有比樣本更 多的迷你分類器,且因此,計算通常數千迷你分類器及僅有數十樣本之權重,此擬合總是將導致幾近完美的分類,且可易於被可能藉由隨機機會極佳地擬合特定問題之迷你分類器主導。吾人不希望最終結果被僅在此特定集合中表現良好且無法很好地泛化之單一特殊迷你分類器所主導。因此,吾人設計一種使此行為正規化之方法:吾人不是一次性全部回歸以同時將所有迷你分類器之所有權重值擬合至訓練數據,而是僅使用若干個迷你分類器進行回歸,但重複該過程許多次。例如,吾人隨機挑選其中三個迷你分類器,進行回歸以獲得其三個權重值,挑選另一個三個迷你分類器的集合,並測定其權重值,並重複該過程許多次,從而生成許多隨機挑選物,亦即三個迷你分類器之實現。定義該CMC/D分類器之最終權重值則係所有此等實現之權重值之平均值。實現之數量應足夠大,以使得每個迷你分類器很有可能在整個過程中被挑選至少一次。該途徑之精髓類似於「漏讀」正規化,一種用於深度學習社區中,以給類神經網路訓練增加雜訊,進而避免陷在目標函數之局部極小值中之方法。此主分類器可作為邏輯回歸及漏讀正規化後之經篩選的分類器組合之平均值來實現。形成該主分類器(MC)之數據集合係顯示在1132中,並儲存在執行圖1中所示方法之電腦之記憶體中。
然後,在步驟1134中,藉由使開發集合數據(1110)之測試集分割經主分類器分類處理來測試步驟1130中所生成之主分類器之性能。(同樣,該測試集可在執行主分類器中之分類演算法前接受預處理步驟。)儲存該主分類器之性能結果,且可表現為(例如)風險比分佈柱形圖,如圖1之1138中或先前說明中所示。
步驟1108、1110、1128、1120、1126、1130、1132及1134係如環1136所指示般隨著早期及晚期樣本集合達成不同訓練集及測試集實現之不同分割而重複。環1136之目的在於避免訓練集/測試集分割偏 差。環1136之每次迭代結果係不同的主分類器。針對訓練集及測試集分割之每次實現之測試集(1110)之各樣本評估主分類器之性能。
在步驟1136中,分析來自每個訓練/測試集分割之分類器性能數據(例如,HR柱形圖)。例如,如圖1之1138中所示,訓練/測試集分割之每次實現產生主分類器,且可生成該等許多主分類器所產生之分類(早期/晚期)之風險比柱狀圖。風險比分佈可用於評估分類器性能,如先前所闡述。應注意,藉由以下使最終主分類器過度擬合至訓練數據最小化:正規化步驟(1132)及篩選來自具有典型性能之主分類器中之一主分類器,或藉由求取所有主分類器之平均值,例如,使用來自所有主分類器之多數表决算法,或對所有主分類器應用權重。藉由觀察許多性能同樣良好的主分類器,增強分析步驟1136中最終分類器性能估計值之置信度。
可存在以下情形,訓練集中之特定樣本(通常係少數)通常被主分類器或最終分類器錯誤分類。在此情形下,可重新定義此等樣本之訓練標記,例如,使標記自「早期」變成「晚期」。此與其中難以定義訓練標記之分類問題(例如,在針對治療益處或相對治療益處之測試中)特別相關。此係在步驟1142中完成,且該過程回環至步驟1102,並根據相關訓練標記將開發集合分割成「早期」及「晚期」組。在步驟1108中將此等組分割成訓練集及測試集分割,並繼續該流程圖中之後續步驟,從而在步驟1136及1138中重新評估主分類器性能。步驟1140並不總是必要,例如,當有極少或沒有錯誤分類之實例時,在此情形下,在分析步驟1136後,處理直接推進至步驟1144。
在步驟1144中,定義用於定義待測試之樣本之最終測試標記之步驟。樣本之最終測試表標記可以若干種方式指定,例如其可由所有訓練/測試集分割之所有最終主分類器之分類標記之多數表决之結果而定義。或者,其可如下定義:定義為針對給定訓練/測試集分割之提 供典型性能之所選的主分類器所產生之標記,或藉由使用藉由主分類器(例如)利用以下部份中所述步驟所產生之分類結果之統計分析數據定義。
部份II 自病患血液為主的樣本之質譜分析生成供針對EGFR-I藥物之NSCLC病患篩選之CMC/D分類器(VS 2.0)
該部份中將描述一種生成可用於指導NSCLC病患之治療之CMC/D分類器之實例。分類器之生成大體上遵循上文部份I及上文關於圖1之論述中所述之方法。然而,利用該實例中之CMC/D分類器處理測試樣本以作出預測使用參考質譜及處理該等質譜所作的其他調整,以考慮到機器認證及質譜重現存在之限制。受驗樣本之最終分類標記之生成亦使用特徵依賴性雜訊特性及其他技術,下文將結合圖2對此作更詳細描述。儘管如此,該部份將說明另一種自質譜數據生成CMC/D分類器之實例,及其於治療前預測NSCLC病患是否有可能受益於投與EGFR-I藥物之用途。
從在問題開始時(生成分類器)吾人並不知道「正確」類別標記係何者之意義上來說,分類問題係不同尋常。從某種意義上來說,該問題更像是無監督學習問題。吾人係如下解決該問題,開始初次猜測類別標記,針對此等猜測訓練測試,及重複該過程,以校正類別標記。該過程之輸出結果係最終類別標記及自病患樣本檢測此等類別之算法。
如本文件先前所闡述,先前的美國專利案7,736,905中所述VeriStrat測試(本文有時稱為「VS 1.0」)尤其可在治療前預測NSCLC病患是否係一個在治療NSCLC的過程中不太可能受益於EGFR-I例如埃羅替尼及吉非替尼之類別(稱為VeriStrat「差」)之成員。該預測係基於病患之血液為主的樣本之質譜及使用在電腦中執行之分類器。最近治療NSCLC的EGFR-I試驗(稱為TAILOR及DELTA試驗)之結果表 明,埃羅替尼可係EGFR野生型群體中的劣質療法。因此,腫瘤顯示EGFR敏化突變之病患已不在一線治療中使用它賽瓦(Tarceva)(埃羅替尼),而是在較高線療法中用作挽救治療。
‘905專利案中所述測試並未描述如何預測EGFR-I(諸如埃羅替尼)是否將係優於化療之治療,即使在彼等在VS 1.0測試中測試結果為VeriStrat「佳」之病患中亦然。隨後的研究(諸如PROSE研究1)之設計意圖並非用於顯示一種治療相對於另一者之優越性。此外,雖然PROSE研究中之VeriStrat「佳」的病患之小數目太小,遠不足以論證埃羅替尼及化療之均等性,但PROSE研究亦無證據表明一種治療優於另一者。
本發明者已開發新的CMC/D分類器開發方法並將其應用於該問題。在吾人開發更深入探究血清蛋白質組之途徑的過程中,使用吾人所謂「Deep MALDI」,吾人亦已開發出工具及算法,以藉由組合來自標準採集(諸如VS 1.0測試中所用並描述於美國專利案7,736,905中之標準「稀釋後轟擊」質譜數據採集)之多個技術複本之質譜提升吾人增加標準質譜採集技術之峰含量之能力。該部份描述該組合來自標準「稀釋後轟擊」質譜採集之多個技術複本之質譜之實例。
最近分類方面的努力目標係開發一種確定一組相對於化療自埃羅替尼受益更多之NSCLC病患之新型測試(本文中稱為VeriStrat 2.0或VS 2.0)。本文件中描述該新型測試及生成用於該測試之分類器之方法。在該測試之一可行應用中,該測試係基於標準MALDI-ToF質譜採集,例如,2000次轟擊的「稀釋後轟擊」質譜。就分類器開發集合(圖1,1100)而言,吾人可使用來自原始開發集合之樣本子集及用於
1.參見V.Gregorc等人,2013年6月呈遞至ASCO年會之報告Randomized Proteomic Stratified Phase III Study of Second-Line Erlotinib Versus Chemotherapy in Patients with Inoperable Non-Small Cell Lung Cancer。 生成‘905專利案之VS 1.0測試之原始驗證集。針對彼等用於形成該開發集合之樣本,吾人篩選彼等在VS 1.0測試中測試結果為VS佳之病患,亦即,彼等預測可自EGFR-I獲得總存活期獲益之病患。如本文件中所述之最終測試在所選子集中顯示埃羅替尼優於化療,同時保留VS 1.0測試之預測性質。本文件中所述之測試闡釋如何確定NSCLC病患是否係該相對於化療有可能自EGFR-I(諸如埃羅替尼)獲得更多益處之病患子集之成員。在後續的論述中,該子集與類別標記「晚期」聯繫在一起。為識別此等病患,該類別標記可賦予一些其他等效名稱,諸如「EGFR受益」、「陽性」、「+」或類似名稱。因此,類別標記之特定名號並不重要。因此,在發明內容及申請專利範圍中,當吾人講到「晚期或等效詞」或「早期或等效詞」時,吾人意指該類別標記之名號之選擇並不重要。
本文件中所述測試可視情況以其中預測確定為差或類似物之病患在治療NSCLC癌症中不會受益於EGFR-I之分類演算法為特徵。第三類別標記可分配給受驗病患樣本,此處稱為「中間」,其與預期按照臨床意義上的條款對化療(多西他賽、培美曲塞)或EGFR-I(諸如吉非替尼或埃羅替尼)具有類似表現之病患聯繫在一起。
病患群體及可用樣本
以下病患隊列具有可用於此項目之樣本:稱為「義大利A」、「義大利B」、「義大利C」之樣本集合。義大利A及B係用於開發及驗證原始VeriStrat測試之以吉非替尼治療之晚期NSCLC病患隊列。主要參見美國專利案7,736,905;Taguchi等人,JNCI 99:838-846(2007)。義大利C係在高級線中以各種化療方案治療之病患隊列。
最初的計畫係藉由利用所有三個病患隊列直接生成預測性分類器,以確定相對於化療用吉非替尼具有更佳結果之病患。然而,由於可獲得無進展存活期(PFS)數據之病患子集中之義大利C隊列之總體結 果通常次於義大利A及B隊列,故該方法效果不佳。
最初使用所有樣本生成確定在吉非替尼療法下具有良好結果之病患之分類器之努力產生許多產生與原始VeriStrat分類極度重疊之分類之分類器,亦即吾人可利用CMC/D方法及不同特徵產生許多與原始VeriStrat相比具有類似性能且產生極類似樣本分類之分類器。即使在該過程排除與VeriStrat之質譜特徵重疊之質譜區域中之特徵時,該事實亦成立。
因此,決定將分類器構建過程限制在由在VS 1.0測試中產生原始「VeriStrat佳」分類之樣本組成之分類器開發樣本集合中,亦即設計一種將VeriStrat佳樣本分割成在使用EGFR-I時具有更佳或更差結果之病患之分類器。最後,由於有理由相信具有體能狀態(PS)2之病患及處於第四線治療之病患通常有可能自吉非替尼治療獲得極少益處,所以分類器訓練中亦不包括此等病患之樣本。在開發過程期間,分類器評估中仍使用來自三個隊列之其他樣本(包括來自原始開發集合之VeriStrat差樣本、來自義大利C隊列之樣本、及來自具有PS 2及處於第四線治療之病患之樣本)。此外,在該部份稍後描述之CMC/D分類器之臨床應用中,用於分類之訓練集包括類別標記為VeriStrat差之病患之質譜之特徵值。
附錄A中給出在分類器開發過程中使用之樣本列表。
圖1中所示圖解描繪新型圖1之開發過程。上文充分論述該圖解。總的來說,根據與樣本有關之病患是否在開始以EGFR-I治療後經歷疾病之早期或晚期進展,將開發樣本集合(附錄A)分成兩組(「早期」及「晚期」),並作為第一近似值。參見下文論述之圖3。彼等經歷晚期進展之病患可考慮最初分配的類別標記,因為彼等病患相對於替代項(諸如化療)自EGFR-I治療受益更多,且給其試樣分配類別標記「晚期」。彼等經歷早期進展之病患可考慮最初估計,因為彼等病患 相對於化療未自EGFR-I治療受益更多,且給其試樣分配類別標記「早期」。
自此等兩組樣本,將該等組分成大小大概相同之訓練集及測試集(圖1,步驟1108)。利用其血清樣本之MALDI-ToF質譜中之特徵,使訓練集接受圖1右手邊所示之CMC/D分類器生成步驟1120、1126、1130、1134。藉由所得主分類器(MC)使測試樣本歸類,並在步驟1134中針對測試樣本集合(1110)評估MC性能。在許多訓練/測試集分割實現中循環該過程(在本實例為250)。賦予經歷錯誤分類之樣本重新定義的訓練標記,並重複CMC/D分類及評估步驟(步驟1140、1142)。在開發該測試的過程中,重複該標記重新定義過程兩次。然後自該等MC篩選最終分類器,在該情形下,所有的250個之分類器之多數表决導致每個訓練/測試分割。最終分類器之替代性構建方法亦可,諸如篩選一種提供「典型」性能之一個MC、250個MC之平均值或其他。
質譜採集及預處理
圖1中用於生成分類器之質譜係藉由Bruker質譜儀自血液為主的樣本採集。該等質譜在分類前接受預處理步驟。該等步驟描述於本部份中。
a.在開發過程中使用之質譜之生成
血液為主的樣本之質譜採集係利用用於VeriStrat測試之認證質譜分析機進行(就細節而言,參見附錄H)。機器認證可使用J.Röder等人之專利案(美國專利案第8,467,988號)之方法進行,該案之內容以引用的方式併入本文中。
該等質譜係一式三份地以2,000次轟擊採集得到的質譜採集。在該特定實例中,在採集的同時利用Bruker Flexcontrol設置對質譜進行過濾,以僅採集具有所需品質之質譜。該樣本實際接受的轟擊次數高於2000,且因樣本不同及MALDI點不同而不同。校準針對各樣本採 集的三份質譜,並平均化以產生一份6,000次轟擊質譜/樣本。
b.背景估計及扣除
預處理之第一步驟,對平均質譜進行背景估計及扣除。利用單窗口法及100乘數估計平均質譜之背景分量。然後自該等平均質譜扣除估計背景。
c.質譜校準
在任何質譜中,在將飛行時間數轉化為m/Z值時,均存在略微差異。吾人識別出一個存在於大多數質譜中之峰集,並重新調整各質譜的m/Z值,以使得各別質譜中之共有峰相對於參考集之平方偏差之總和盡可能小。該過程導致更好地解析接近的(以m/Z計)特徵。
d.標準化
為得到區分臨床組之特徵,吾人需測定不同樣本之峰之強度,並比較其數值。由於無法控制MALDI過程中之離子化蛋白之總量,所以吾人唯有測定相對峰強度。為此,吾人需要使質譜標準化。為避免擴大本身可變或與病患之臨床狀態相關之峰在標準化期間相對於穩定峰之峰強度之可變性,需要注意測定質譜之哪些區域可用於標準化。用於標準化之m/Z區域係利用部份離子電流標準化工具篩選。部份離子電流標準化係此項技術中所已知,且感興趣的讀者可關注美國專利案7,736,905中關於標準化程序之論述。
e.特徵定義及特徵表
為界定可區分臨床組之峰之可能候選者(亦即,KNN分類中所使用之m/Z特徵),吾人找出預處理質譜中之峰,並在各峰最大值附近定義一範圍,以m/Z計。此等範圍(以m/Z計)界定可用於所有其他分析之特徵。吾人篩選76個作為用於區分不同組之可能候選者之特徵,並計算各質譜之此等特徵中之每一者之積分強度。以此方式,吾人獲得各質譜之每一特徵之特徵值。此等積分強度(特徵值)之表格清單(行係質 譜,列係特徵)稱為特徵表,其係儲存在執行圖1之方法通用電腦之記憶體中。定義在m/Z=7616及14392處之兩個特徵並不用於CMC/D分類器開發過程中,因為在複驗時缺少足夠特徵品質(雜訊)。吾人觀察到,一些樣本顯示實質氧化水平,導致形成雙峰結構或類似峰發生遷移。為避免錯過潛在多肽之氧化版本,吾人使用極為廣泛的特徵定義。附錄B中提供用於CMC/D分類器生成過程中之74個m/Z特徵之定義。
CMC/D分類器開發方法
篩選早期/晚期進展組以及訓練集及測試集(步驟1102及1108,圖1)
無法自臨床數據明確地確定哪些病患自給定療法受益較多或較少。就定義開發集合之類別標記之第一近似值而言,吾人決定將類別標記定義為彼等病患是否自以EGFR-I進行治療受益較多或較少,在步驟1102(圖11)中,將PFS少於80天之病患定義為「早期」(早期進展表明可能自療法受益極小),並將PFS超過200天之病患定義為「晚期」(晚期進展表明可能自療法受益較大)。參見圖3。此導致23位病患屬於「早期」組,且23位病患屬於「晚期」組。附錄C中列出此等及其所分配的類別標記。然後,藉由治療所屬線級及體能狀態(PS)分層,將此等分割成訓練集(11個「早期」及11個「晚期」)及測試集(12個「早期」及12個「晚期」),圖1中之步驟1108。可能出現以下情形,一些訓練/測試分割可產生對生成分類器而言尤佳或尤差之訓練集及尤其易於或難以分類之測試集。因此,隨機進行250次分層的訓練/測試分割(由圖1中之環1136指示)。各分割提供訓練集1112,並導致生成CMC/D主分類器(MC)(圖1中之步驟1130),其性能可基於相應測試集評估(步驟1134)。為提供就PFS時間分佈而言代表該群體之測試集,隨機篩選半數PFS在80與200天之間且PS為0或1及處於一線至 三線治療之病患納入測試集1110中。圖3中顯示類別標記之最初分配及分割成訓練集及測試集。
生成迷你分類器(步驟1120,圖11)
就給定訓練集而言,可使用74個特徵之子集生成許多個別K-最近鄰算法(KNN)分類器。此等由該訓練集中之樣本及特徵之特定子集所定義之個別KNN分類器定義「迷你分類器」(mC)。就此項目而言,在整個過程中,KNN算法中之K=5係固定不變。
所有mC均可考慮使用74個特徵中之一者(s=1)或74個特徵中之一對(s=2)。就各訓練集而言,此產生總計2775個mC。
篩選迷你分類器(步驟1126,圖11)
根據mC針對訓練集之性能進行篩選,刪減步驟1120中所生成之迷你分類器。此係使用CMC/D製程之ERRORS法完成,Jmin=0.7,且Jmax=0.9。此意味著將各mC應用至其訓練集。計算其分配「早期」及「晚期」標記之準確度。若該準確度在0.7與0.9之間,則mC通過篩選,且可用於生成主分類器(MC)。若該準確度在該範圍之外,則mC未能通過篩選,且從該CMC/D製程中除去。通過篩選之mC之數量取決於訓練集,亦即,特定訓練/測試集分割實現,但通常係約為1000-1500。
本質上,ERRORS法評估mC所給出之分類之準確度。在篩選過程中,將各mC應用至訓練集之各成員,且此舉給出該訓練集之各成員之分類。吾人已知分配至該訓練集之各成員之定義(類別標記),所以吾人僅計算各迷你分類器之正確分類之比例。吾人規定,該準確度(正確分類之比例)必須處於0.7與0.9之間。
吾人有意不將上限值(Jmax)推高至1.0之完美分類。首先,並沒有許多達到該準確度之迷你分類器,其次,且更重要的是,吾人在生成分類器時試圖避免在該製程之各階段進行過度擬合。達到異常高準 確度之迷你分類器有可能係「特殊」而非「典型」,此係由訓練集及特徵之某些獨特性造成,且不太可能進行良好泛化。所以,吾人決定不將「過佳」的迷你分類器納入主分類器中。頗為有趣的是,需注意,當篩選準則設定過於嚴格,並合併性能異常佳之迷你分類器時,所產生之總分類器反而具有較差性能。
使用邏輯回歸及漏讀生成主CMC/D分類器(步驟1130)
藉由利用晚期及早期訓練集標記並以極端漏讀作為正規化項(regularizer)訓練邏輯回歸將通過篩選之mC合併成一個主分類器(MC)。進行一萬次漏讀迭代,在每次迭代中,隨機選擇5個mC,並利用邏輯回歸合併。求取來自各漏讀迭代之各mC之邏輯回歸權重值(參見上文方程式1)平均值,以得到用於邏輯合併成最終MC之最終權重值。
CMC/D分類器性能評估(步驟1134、1136,圖11)
針對給定訓練/測試集實現生成主分類器後,在步驟1134中,藉由對測試集(1110)及得自義大利C隊列之樣本之質譜運行該分類器來評估該主分類器。對250個訓練及測試分割中之每一者進行該過程。評估的量包括:該測試集及義大利C隊列之「早期」及「晚期」分類間之總存活期(OS)及PFS之風險比(HR),及該測試集及義大利C隊列之「早期」及「晚期」分類之中值。圖4A-B中顯示所生成之PFS及OS之HR分佈。
此外,當標記類別的樣本之個別類別係在測試集中時,檢查其等。許多樣本被反復分配到與其PFS定義標記不匹配之類別。確定此等標記,並將其列在表3中。
校正最初的類別標記分配(步驟1140,圖1)
交換表1中所列出之在多次訓練/測試分割中持續錯誤分類之樣本之類別標記(「早期」變成「晚期」且「晚期」變成「早期」)。此為欲再次進行之CMC/D分類器生成過程產生一個新的訓練標記集合。
使用此等新的標記,再次將「早期」及「晚期」樣本隨機分成訓練集及測試集,進行250次,如先前一樣根據治療所屬線級及PS進行分層。如先前一樣生成迷你分類器,並利用相同準則進行篩選。利用邏輯回歸及漏讀合併此等篩選的mC,以生成MC,並評估該等MC對於新的測試集之性能。圖4C及4D中顯示生成的PFS及OS之HR之分佈。圖4D及4E中顯示交換兩次後所生成的PFS及OS之HR之分佈。
確定在作為測試集之一部份時持續錯誤分類之若干個樣本。此等樣本列於表2中。
交換表4中所列出之在第二次運行CMC/D製程後持續錯誤分類之樣本之類別標記(「早期」變成「晚期」,且「晚期」變成「早期」)。此產生一個新的類別標記集合,再次將其隨機分成訓練集及測試集,進行250次,根據治療所屬線級及PS進行分層。第三次重複生成mC、篩選、合併成MC及評估性能之完整過程。第三次重複該過程後,僅有兩個樣本在訓練集中之分類較差,並決定無需進行進一步處理。
圖4E-4F中顯示CMC/D製程之第三迭代之250個訓練/測試分割之MC性能之分佈。超過90%訓練/測試分割實現所得到之測試集之早期及晚期分類間之HR小於1,且超過半數之實現之PFS之HR小於0.76,且OS之HR小於0.78。最終分類器係第三CMC/D迭代之所有250個MC之多數表決而定義,而不是篩選此等個別訓練/測試分割中之一者而得到最終測試/CMC/D分類器。此具有以下優勢:無需自可能具有尤其有利測試或訓練集之特定訓練/測試集分割篩選主分類器,及消除人類在作選擇時的任何主觀因素,及潛在地提供一種較穩健的最終分類器。
針對將機器認證及質譜重現之限制考慮在內所作調整
執行上述最終分類器以對受驗樣本生成類別標記係在質譜數據處理中作出某些調整,以將開發該測試時存在之機器認證及質譜重現之一些限制考慮在內。該部份中描述此等調整。稍後亦結合圖2描述該程序。熟習此項技術者將知曉,此等調整並非生成CMC/D分類器或使用CMC/D分類器實施預測性測試所必需。該部份中所述之調整係由吾人用以生成質譜之質譜儀之某些限制所引起,且亦係由增加測試穩定性之需求所引起。
A.質譜儀之m/Z靈敏度之變化之校正
利用先前有資格進行原始VeriStrat測試之Bruker質譜儀,利用J.Roder等人,美國專利案8,467,988中所述步驟採集質譜。雖然原始VeriStrat 1.0測試僅使用5kDa與13kDa間之特徵,但該部份中所述測試除使用該範圍內之特徵以外還使用具有更高及更低m/Z位置之特徵。有資格進行原始VeriStrat測試之質譜儀必須具有用於原始測試之質譜特徵之足夠重現性,但對該範圍外之m/Z靈敏度並無要求。
在生成用於本發明測試開發中之質譜的同時自參考樣本所生成之參考質譜與在稍後的時間里自相同參考樣本生成之質譜之比較(兩種質譜均在先前認證的機器上採集)表明,雖然5kDa至13kDa特徵範圍內之特徵具有類似m/Z靈敏度,但是該範圍以外之m/Z靈敏度顯示某些系統性差異。
為能比較在可用於按照該新測試進行測試之水平上以合格設置在不同時間或在不同機器上生成之質譜,特徵值需針對此等m/Z靈敏度差異進行校正。此可利用與用於本發明測試開發之質譜相同的批次及後續來自欲利用新的VS 2.0測試進行分類之病患樣本之質譜批次中所生成之自單一參考樣本所生成之參考質譜完成。在該實例(如圖2之1202A及1202B中所示)中,參考樣本係來自健康人類之血清樣本。
一式三份地運行參考樣本之兩種製備物及用於VS 2.0開發之質譜。利用平均化工作流程求取此等一式三份之平均值,並利用預處理工作流程預處理(參見下文關於圖2之論述)。生成特徵值,並比較兩種製備物之特徵值。為避免使用來自一種或另一種製備物之離群特徵值,將特徵減少至彼等特徵值在兩種製備物彼此之10%內之數量。若FV1係參考樣本之製備物1(1202A,圖12)之特定特徵之特徵值,且FV2係參考樣本之製備物2(1202B,圖12)之相同特徵之特徵值,且若滿足以下條件,則認為該特徵適用於分析相對m/Z靈敏度:
|1-(FV1/FV2)|<0.1或|1-(FV2/FV1)|<0.1 方程式2
此等特徵之特徵值欲與自後續用於VS2.0測試之樣本批次中之參考樣本之製備物生成之相同特徵之特徵值進行比較。若後續批次中可獲得兩種製備物,則理想上在樣本進行VS2.0測試前後運行,可在第二批次中用於m/Z靈敏度比對之特徵亦應滿足方程式2之臨限值。若可獲得參考樣本之超過兩種製備物,則方程式2可經泛化以使用可自大量質譜獲得之資訊,以使得特徵值之標準偏差可與各特徵之平均特徵值相比較,且特徵可用於標準偏差對平均值之比率低於設定臨限值(諸如0.1)之情形。
確定該等特徵之子集具有適宜重現性後,可在開發批次中之參考質譜之平均特徵值(AVO)對後續批次中之參考質譜之平均特徵值(AVN)之比率隨m/Z變化之曲線中檢查VS2.0開發批次樣本至任何後續批次樣本之m/Z靈敏度變化。此曲線展示於圖5中。
圖5中可見到m/Z靈敏度之系統變化,與後續批次相比,開發批次在較高m/Z下具有更低靈敏度,且在較低m/Z下具有更高靈敏度。為容許校正m/Z靈敏度之此系統性差異,在圖5中擬合出數據之直線,並測出斜率及截距。此得出一個可校正後續批次中所得任何樣本之各特徵值,以使其可與VS2.0開發批次中所得樣本之特徵值相比較之函數。
B.分析VS2.0分類對在經由VS1.0樣本處理及質譜採集過程採集血清樣本之質譜過程中固有之雜訊之穩定性
VS1.0係高重現性測試,分類之重現性超過95%。一種增加測試內重現性之方法係利用三次點樣用於生成質譜之樣本及在生成VS1.0分類之前比較三份的標記。當VS2.0測試求取樣本之三份質譜之平均值時,VS1.0將喪失冗餘性,且此方法無法擴展至VS2.0。然而,已開發出一種給定測試樣本之多個複本矽內(in-silico)生成之方法,其容 許模仿VS1.0樣本製備、點樣及質譜生成過程中固有之樣本-及MALDI-點相依性效應、系統性非重現性(雜訊)。
為鑑定各特徵之雜訊,比較義大利A、B及C樣本集合在針對VS1.0新近認證之質譜儀上進行的兩次運行。就各VS2.0特徵而言,比較兩次運行之各樣本之特徵值。此產生各VS2.0特徵之一致性圖。就各一致性圖而言,使用線性回歸擬合出特徵值數據之直線。為鑑別此擬合周圍之雜訊,檢查線性回歸之殘差。雜訊主要歸為加成性雜訊或主要歸為相乘性雜訊。就加成性雜訊而言,將雜訊強度定義為殘差之標準偏差。就相乘性雜訊而言,各殘差除以相應特徵值,且將該數量之標準偏差定義為雜訊強度。附錄D中給出以此方式估計之VS2.0特徵之雜訊類型及雜訊強度。
已鑑定出各特徵之雜訊之類型及強度σ,各樣本之各特徵之具有測得的特徵值F之雜訊實現可如下產生:加成性雜訊:F 雜訊 =F+σ ε 方程式(3)
相乘性雜訊:F雜訊=F(1+σ ε) 方程式(4)
其中ε係高斯隨機數,平均及單元標準偏差為零。
為研究VS2.0分類在雜訊下對特定測試樣本之穩定性,利用方程式(3)、方程式(4)生成各樣本之特徵表之160個雜訊實現,並在附錄D中給出各過濾器之雜訊參數。利用上述CMC/D製程之最後一次迭代期間生成之250個MC給各雜訊實現歸類。此對該樣本之各雜訊實現產生250個「早期」或「晚期」類別,亦即40,000個「早期」或「晚期」類別/樣本。使橫跨250個主分類器之「早期」分類之總數量為N早期 i,且使橫跨250個主分類器之「晚期」類別之總數量為N晚期 i,其中1i160。根據定義,就所有i而言,0N早期 i 250,0N晚期 i 250,且N早期 i+N晚期 i=250。
將雜訊效應估計子定義為: 雜訊效應估計子=N早期 i之標準偏差/(|Σi N早期 ii N晚期 i |/320)=sqrt(Σi(N早期 i)2-(Σi N早期 i)2)/(|Σi N早期 ii N晚期 i |/320)=sqrt(Σi(N早期 i)2-(Σi N早期 i)2)/(|Σi N早期 i-20000|/160)方程式(5)
該「雜訊效應估計子」比較「早期」主分類器類別之數量之可變性與「早期」及「晚期」主分類器類別之總數量之差異。若雜訊實現之「早期」類別之數量相對於一次實現之「早期」及「晚期」主類別之數量間之典型差異產生低可變性,則雜訊效應估計子將係小。若雜訊實現之「早期」類別之數量相對於一次實現之「早期」及「晚期」主類別之數量間之典型差異產生大可變性,則雜訊效應估計子將係大。
「早期」及「晚期」主分類器類別之數量之差異係大之樣本可在傳回的VS2.0分類發生變化前耐受實質可變性,而該差異係小之樣本之傳回的總體分類發生變化,且僅有小可變性。因此,方程式5中所定義之雜訊效應估計子提供樣本對分類標記變化之易受影響性如何之量度。
將該步驟兩次應用至義大利A、B及C樣本集合,以計算各所揭示的樣本之雜訊效應估計子,藉由僅傳回雜訊效應估計子低於0.5之臨限值之樣本之VS2.0分類器分類,可傳回樣本之可靠分類。若高於此臨限值,傳回受驗樣本之分類標記存在實質不確定性,且應報告中間/未知分類標記。
將最終分類器運用至開發集合中之樣本
將VS2.0最終分類器應用至開發集合中之所有樣本。請注意,此包括訓練分類器中所囊括之樣本。附錄E中給出開發集合樣本之VS2.0分類。請注意,所有VS1.0分類為差之樣本分配早期標記。在圖6中,繪製根據晚期、未知及早期(不包括VS1.0差)及VS 1.0差分類之開發集合中之病患之OS及PFS。請注意,義大利C隊列中之若干個病 患具有OS數據,而無PFS數據。圖6係開發集合中具有由開發集合質譜分配之標記之病患之時間事件結果之曲線圖;圖6A:以吉非替尼治療的病患之OS,圖6B:以吉非替尼治療的病患之PFS,圖6C:以化療治療的病患之OS,且圖6D:以化療治療的病患之PFS。藉由比較圖6A及6C,吾人注意到,彼等樣本測試結果為晚期之病患相對於化療自吉非替尼獲得更大益處,其係由此等病患之總體存活曲線表明。
表3及4中呈現與圖6中之曲線有關之存活統計數據
義大利A、B及C之樣本重新運行兩次。(在上一輪中,僅重新運 行VS1.0佳樣本,且因為剩餘樣本容量不足而略去若干樣本。)將三輪之結果匯總於附錄F中。
靈敏度校正及矽內雜訊分析得到具有良好重現性之可控標記。在上一輪中運行之93個樣本中,16個標記為晚期,35個標記為早期,且42個標記為未知。在第三輪中標記為晚期之樣本,其在之前標記為晚期或未知。在第三輪中標記為早期之樣本,其在之前標記為早期或未知。35個在第三輪中標記為早期之樣本中有24個在所有三輪中標記為早期。16個在第三輪中標記為晚期之樣本中有14個在所有三輪中標記為晚期。42個在第三輪中標記為未知之樣本中有20個在所有三輪中標記為未知。雖然不希望出現大比例的未知,但確實會出現此情形,若吾人藉由分析VS2.0稱為早期(晚期)標記,此樣本在另一輪中將稱為早期(晚期)或稱為未知。
將最終的CMC/D分類器應用至PROSE研究之樣本
測試程序:盲蔽
根據驗證協議用上述最終的CMC/D分類器測試自可自PROSE研究得到之樣本獲得之質譜。最終的CMC/D分類器在該驗證協議之前被認為係固定。向不知道其臨床數據之分析員提供質譜。如上所述分析質譜,并生成最終分類(附錄G)。然後提供揭盲說明,並進行統計分析。
測試程序:m/Z靈敏度校正計算
分析與PROSE質譜一起生成之血清P2(參考)質譜,以提供必要的m/z靈敏度校正。由於PROSE樣本具有5個批次,故每一批次收集一個血清P2製備物。針對5種獨立製備物,採用CV計算方法(上文所述)。圖7中顯示PROSE數據之回歸曲線。自該曲線,獲得Y軸截距及斜率值,其係如圖7之插圖中所指示。
結果之統計分析
附錄G中列出自PROSE試驗之樣本所得之VS2.0分類。僅考慮對來自PROSE基本分析群體之病患之樣本進行統計分析。就病患01_044及病患01_080而言,可獲得兩個樣本。使用具有標準標記之樣本而非標記為「第二_樣本」之樣本之結果進行統計分析。病患06_010亦可獲得兩個樣本,但二者之VS2.0分類均為早期。病患01_050、病患03_006、病患06_004、病患06_021、病患11_043、病患11_048及病患12_014無法獲得樣本。
因此,可自PROSE符合方案的群體中之263名病患中之256名獲得樣本:148名歸類為早期,39名歸為晚期,及69名歸為未知。所有歸為晚期之樣本均與具有VS1.0佳分類之病患有關。PROSE初步分析中歸為VS1.0差之病患中僅有兩位歸為未知;所有其他的病患均歸為早期。在歸為早期之148為病患中,73位之VS1.0分類為VS佳,且75位之VS1.0分類為VS差。
表5中顯示藉由VS2.0分類之病患特徵。
圖8顯示通過治療分類分組結果為晚期及早期/未知(VS1.0佳)之OS結果,其中圖8A顯示埃羅替尼治療組之數據,且圖8B顯示化療治療組之數據。圖9顯示通過治療分類分組結果為晚期及早期/未知(VS1.0佳)之PFS結果,其中圖9A顯示埃羅替尼治療組之數據,且圖9B顯示化療治療組之數據。
表6中顯示VS1.0佳群體之多變量分析結果。當針對可能的干擾因素作調整時,晚期或早期/未知之VS2.0結果仍有重要意義。
圖10顯示通過治療VS1.0差及晚期之組別之OS之卡普蘭-邁耶(Kaplan-Meier)曲線及分類VS1.0差與晚期間之相互作用分析結果及治療。
圖11比較VS1.0佳的早期/未知組中化療及埃羅替尼間之結果。
圖12中顯示通過治療的晚期組中之比較結果。請注意,在圖12A中,彼等歸為晚期且接受埃羅替尼之病患之總存活時間中值為17.1個月,比彼等接受化療之病患多兩個月。
各治療臂之各組之OS及PFS之中值及其95%置信區間及各組中之病患數量匯總於表6中。
部份II的結論
該部份中所述測試(VS 2.0)係一種真正利用來自血液為主的樣本之質譜之74個特徵來確定在使用埃羅替尼時表現優於化療之第2線NSCLC病患組之多變量測試。該測試之開發已證實CMC/D分類器開發方法。儘管由於質譜採集之限制而存在一大群無法確定的病患(此處稱為「VS2.0未知」),但VS2.0將吾人先前在原始VeriStrat測試組中確定為「佳」之組別分成兩個子組,「VS2.0早期」或「早期」及「VS2.0晚期」或「晚期」。
在其當前應用中,該測試(VS2.0)依賴於在有資格進行吾人原始VeriStrat測試之機器上進行質譜採集。因為VS2.0需要來自VS1.0驗證方案以外之m/Z範圍之特徵值,所以需要特別小心地藉由使用參考樣本校正m/z相依性靈敏度之差異。利用矽內靈敏度分析評估標記穩定性,其導致產生大量VS2.0未知。所分配的VS2.0標記之重現性(就分配唯一確定標記而言)已藉由三輪開發集合評估,且重現性極高。就VS2.0之臨床用途而言,吾人分析三個組:VS1.0佳群體中之VS2.0晚期、VS2.0早期及未知以及差不多一致歸為VS2.0早期之VS1.0差。
VS2.0在盲蔽分析PROSE樣本中得到認證(臨床驗證)。在一些態樣中,VS2.0晚期組中可獲得之樣本數量限制此認證之意義。比較VS1.0佳組中之VS2.0晚期與VS2.0早期/未知之總存活期,顯示VS2.0 將VS1.0佳組分割成在用埃羅替尼治療時表現佳及差的組,而化療臂中幾乎沒有此分割之證據。遺憾的是,樣本量過小,埃羅替尼超過化療之優越性無法達到統計顯著性。即使樣本量減半,VS2.0保留VS1.0之預測能力(VS2.0晚期對VS1.0差,藉由治療)。PFS結果類似於OS。
VS2.0之成功開發驗證測試開發之相關方法,並大體上驗證CMC/D法。訓練標記及確定此等病患之測試之並行迭代開發之效果出乎意料地好。CMC/D中避免過度擬合之固有量度已被證實係有效,且已擴展到包括訓練/測試分割MC之多數表決,進一步降低測試/最終分類器篩選之不確定性。VS2.0使用吾人使用的全部質譜中大約60%的可觀察到的峰(3份2,000次轟擊質譜),沒有明顯中意的特徵。因此,雖然本實例使用附錄B中記下的特性特徵,但據信此等具體特徵並不必要或關鍵及表現良好,因此測試可基於此等特徵或(例如由得自更多轟擊次數之質譜發現之)其他可能特徵之子集。
就商業用途而言,VS2.0提供一種確定可基本確定埃羅替尼至少與化療等效,且有可能優於後者之病患群之工具。在二線設置中總存活期中值為17個月係引人注意,且可導致改變第2線NSCLC中之治療方案。同樣,吾人可確定可使該預測稱為該製程之一部份之類別標記「早期」及「晚期」(或等效詞)。
部份III VS 2.0 CMC/D分類器於測試環境中之用途(圖2)
該部份將結合圖2描述應用如部份II中所述CMC/D分類器對NSCLC病患之血液為主的樣本進行分類。如上文所述,若分配至測試樣本之類別標記係「晚期」或等效詞,則該類別標記預測提供該樣本之NSCLC病患相對於化療更有可能受益於EGFR-I,諸如埃羅替尼或吉非替尼。測試樣本與「中間」標記聯繫在一起之病患預測自化療及EGFR-I獲得臨床意義上類似的益處。
在該方法之一可能應用中,該樣本之質譜首先接受美國專利案 7,736,905中所述VS 1.0測試,且若該樣本分配到差標記,則記下該測試標記。具有該標記之病患預測在治療該病患的過程中無法自EGFR-I獲益。若該標記係VS佳或等效詞,則使該樣本的質譜接受圖2中所示VS 2.0之測試過程,以確定該病患具有「晚期」標記(在此情形下,該病患預測相對於化療自EGFR-I(諸如埃羅替尼或吉非替尼)獲得更大益處)或反之具有「中間」類別標記(在此情形下,該病患預期自化療及EGFR-I獲得臨床意義上類似的益處)。涵蓋第三類別標記,亦即「未知」或「不確定」,在此情形下,無法預測該病患是否有可能相對於化療自EGFR-I獲益。
圖2中顯示將按照圖1所生成之CMC/D分類器用於測試樣本之質譜之工作流程。該過程始於向質譜儀提供三種血液為主的樣本:一種來自正在進行測試之病患之測試樣本1200及兩種顯示為參考樣本1及參考樣本2(分別為項目1202A及1202B)之參考樣本等分式樣。此等兩種參考樣本係來自健康人類病患之血液為主的參考樣本之兩種等分式樣。該實施例中使用參考樣本1202A及1202B係為了矯正先前針對用於VS 1.0測試中之特定質譜儀進行認證之m/Z範圍以外之m/Z範圍之m/Z靈敏度變化。存在以下可能,若使用適當認證的機器,則將不必使用參考樣本1及2。
在步驟1204中,利用MALDI-ToF質譜儀對三種樣本1200、1202A及1202B進行質譜分析。各樣本在該儀器中接受三次2000次轟擊的「稀釋後轟擊」MALDI-ToF質譜分析,同時進行質譜採集過濾(參見前文論述)。將針對三種樣本之每一者所得的三份2000次轟擊質譜自該質譜儀轉移至執行圖2之工作流程之通用電腦之機器可讀記憶體中。
然後調用軟體模塊平均化工作流程1206,以求取步驟1204中所得三份質譜之平均值,如步驟1208中所示。該平均化工作流程係顯示 於圖13中。總而言之,該模塊估計用於校準之質譜中之峰,校準原始質譜,然後計算三種樣本各自之三個複本之校準質譜之平均值。
然後調用預處理工作流程模塊1212(圖14),以對平均質譜進行預處理,及生成用於分類之特徵值(特徵表),如步驟1214中所示。該步驟包括背景扣除及估計、峰值檢測及校準、部份離子電流標準化及計算預先定義m/Z範圍內之特徵值(積分強度值)。附錄B中列出該等範圍。
如1216所示,向模塊1218提供步驟1214中生成之兩種參考樣本(1202A及1202B)之特徵值,該模塊檢查該等參考值是否一致。總而言之,在模塊1218中,比較該等參考特徵值。此涉及到以下內容:1.計算步驟1214中所得所有特徵值F之參數δF=min(| 1-(FV/FV)|,| 1-(FV/FV)|)。此處的理念是:在測試樣本1200之前(或在一批測試樣本開始前)運行一種參考樣本(1202A),並自該參考樣本獲得特徵值集合,亦即FV ,然後在該測試樣本1202(或在該批測試樣本結束後)運行另一參考樣本1202B之製備物,並又自該參考樣本獲得特徵值集合,亦即FV
2.篩選彼等δF<0.1之特徵,將彼等特徵值添加至特徵值清單(清單L)。
3.比較2中篩選的特徵清單L與得自相同步驟1-2之與用於生成CMC/D分類器之開發樣本集合(亦即,附錄B中之特徵清單)運行之參考樣本之特徵值清單L’。
4.若清單L包含m/Z位置3219及18634下之特徵,則認為此等特徵值係一致。
若一致性測試(4.)失敗,則該過程回到開始,並重新採集該測試樣本及該等兩種參考樣本之質譜。若一致性測試(4.)成功,則使用標準特徵值集合1220繼續推進至定義特徵校正函數的步驟1222。此等係 在生成原始質譜時(亦即,在生成CMC/D分類器之時)與開發集合樣本運行之參考樣本(1201A及1202B)之兩種製備物之特徵值。其可為所有特徵值之清單,但一些特徵值未通過吾人在兩種製備物件設置之一致性標準,所以此等特徵將不會在實踐中使用,且將排除在該清單之外。吾人尋找在與開發集合質譜運行之參考樣本之兩種製備物間一致且與前-及後-參考質譜一致之特徵。然後,吾人計算原始樣本之此等特徵之平均值及前-及後-樣本之此等特徵之平均值。吾人算出此等二者之比率,並根據m/Z繪製其曲線。生成比率圖表之線性回歸,並傳回Y軸截距及斜率。參見上文關於圖5之論述。
在步驟1224中,步驟1222之Y軸截距及斜率分別係線性回歸圖之特徵值校正函數的參數a及b。將此等值應用至步驟1214中所生成之測試樣本特徵值。該校正函數可如下表示:FV 校正 =FV 估計 /(a+bm z )
在步驟1224中,將此等校正過的特徵值儲存在記憶體中。將該等校正過的特徵值用於兩個獨立的處理分支中:步驟1228及步驟1232。
在步驟1228中,將按照圖1之步驟生成之表示最終CMC/D分類器之數據集合1226應用至校正過的測試樣本特徵值。在該實例中,該等最終CMC/D分類器係來自分類器生成樣本集合1100(圖1)之各測試及訓練樣本分割實現之250個主分類器的集合,且係在圖1之步驟1134中產生。該主分類器應用至校正過的特徵值之結果係測試樣本分類標記,如1229所示。
如圖2之1232中所示,亦將步驟1224中生成之校正過的特徵值傳送至模塊1232,其使用預先定義的特徵依賴性雜訊特性1230生成新的特徵值實現(「雜訊實現」)。總而言之,該模塊1232使用得自開發樣本集合(圖1,1100)之雜訊參數σi生成160個雜訊實現:
-加成性雜訊實現:FVN i =FV 校正,i +ε i
-相乘性雜訊實現:FVN i =FV 校正,i *(1+ε i )
其中εi係高斯隨機數(N),平均及單元標準偏差為零,以表達式N(0,σi)表示,其中σi係自如先前所述之開發集合測定之雜訊參數。
步驟1232中所生成之最終「雜訊」特徵值係呈特徵表之形式。所有的特徵值係作為工作流程假影(workflow artifact)提供。以便捷形式(Excel試算表)儲存該過程之結果。
在步驟1234中,將表示主分類器之數據集合(1226,上文所述)應用至步驟1232中所生成之雜訊特徵值。參見圖15。此得到(#各類之類別標記之)主分類器結果表格。在該特定實例中,當主分類器係呈得自250次訓練/測試集分割之250個主分類器之形式時(如上文所闡釋),針對每個雜訊實現生成250個類別標記。如步驟1236中所述整理該等雜訊實現之主分類器結果,以便如1238中所述得到該等分類結果之統計數據。在該步驟1236中,吾人生成比率R(稱為「雜訊效應估計子」),其與早期及晚期分類間之數量差異之標準偏差有關。對特徵表之所有雜訊實現進行此操作。該統計分析之詳情及比率R之計算方法如下:就測試樣本而言,計算各雜訊實現i在250個主分類器(MC)上之早期分類之N早期 i=#(在該實例中,1i160,因為有160種不同雜訊實現)。計算所有i之總和,Σi N早期 i
就測試樣本而言,計算雜訊實現在250個主分類器(MC)上之晚期分類之N晚期 i=#(1i160)。計算所有i之總和,Σi N晚期 i
所以,就所有i而言,0N早期 i 250,且0N晚期 i 250。
且就所有雜訊實現i而言,N早期 i+N晚期 i=250。
雜訊效應估計子=R=N早期 i之標準偏差/(|Σi N早期 ii N晚期 i |/320)=sqrt(Σi(N早期 i)2-(Σi N早期 i)2)/(|Σi N早期 ii N晚期 i |/320)=sqrt(Σi(N早期 i)2-(Σi N早期 i)2)/(|Σi N早期 i-20000 |/160)
R中之分母(|Σi N早期 ii N晚期 i |/320)測算出吾人得到160個雜訊實現之早期及晚期數量間之平均差異。若該數較小,則接近多數表决分類,且若該數較大,則其係單邊表决。本質上,比率R藉助其單邊程度比較MC標記之可變性,其重要性在於吾人想要知道吾人以雜訊參數ε測得的可變性是否有可能產生不可靠的多數表决分類。亦即,若吾人求取220個早期及30個晚期在所有250個MC下之平均值,則吾人不介意可變性為(例如)10,但若吾人求取130個早期及120個晚期在所有250個MC下之平均值,則吾人介意可變性為10。
步驟1240中生成測試樣本(1200,圖2)之最終分類標記。在所示實施例中,將僅對VS1.0分類為佳之樣本進行該分類;亦即,利用VS1.0完成初步測試,且若病患測試結果為VS差,則報告該標記。報告的最終分類標記如下:
1.若步驟1236中測得的比率R>0.5,傳回標記中間(或等效詞)。樣本與中間標記聯繫在一起之病患預期自化療及EGFR-I獲得臨床意義上類似的益處。請注意,此與由主分類器基於校正特徵值所生成之類別標記無關(1129)。
2.若步驟1236中測得的比率R0.5,
A.若1229中生成之測試樣本標記為晚期,則傳回晚期標記。
B.若1229中生成之測試樣本標記為早期,則傳回早期標記。
測試樣本為2.A中之晚期標記之病患預期在治療NSCLC癌症時相對於化療自EGFR-I獲得更大益處。
在一可能實施例中,中間標記被認為包括彼等其中雜訊效應估 計子>0.5(上文之1.)之病患及早期標記病患(<=0.5雜訊效應估計子及早期標記)。將其等合併的原因在於:若決定對晚期給予EGFR-I及對彼等測試結果為VS1.0差之病患給予化療,則將其等合併具有臨床益處(其等基本上係由彼等剩餘的病患組成)。該合併組(雜訊效應估計子>0.5(上文之1.)的病患及早期標記病患(<=0.5雜訊效應估計子及早期標記))而非單獨的任一組可得出化療及TKI之結果係類似之結論。
部份IV 用於生成CMC/D分類器及實施預測性測試之實體系統之實際實例
分類器生成系統及樣本測試系統
部份I及II中所述之CMC/D分類器開發方法可作為實體分類器開發系統實現,該實體分類器開發系統之表現形式為用於獲得複數個樣本(例如,開發樣本集合)之質譜(或其他)數據之質譜儀(或其他測量儀器)及具有執行用於實現CMC/D分類法之代碼之處理單元之通用電腦。特定言之,該電腦包括儲存測量數據之機器可讀記憶體(例如,硬碟)。該電腦亦儲存執行測量數據之預處理(例如,如上所述之背景扣除、質譜校準及標準化)之可執行碼,及儲存用於分類之特定特徵之積分強度值(諸如例如附錄B中所列特徵之積分強度值)。
該電腦亦儲存用於利用至多為預先選定的特徵集合大小(s,整數)之特徵集合自該樣本構建大量個別迷你分類器之可執行碼。在一實施例中,該代碼包括應用至質譜數據中之特徵,並比較特徵值與開發樣本集合之子集(例如,標記類別的質譜數據之訓練集)之KNN分類演算法(此項技術中所已知)。該KNN演算法基於特徵空間中最接近的鄰居生成類別標記。
然後,該代碼測試個別迷你分類器中各者之分類準確度或某一替代性性能量度,以對給定樣本集合(例如,訓練集)中之生物樣本進 行分類,並保留彼等性能超過預定臨限值或在預定極限值內之迷你分類器,以得到經篩選的迷你分類器集合。
然後,該代碼利用極端漏讀重複對該篩選過的迷你分類器集合進行邏輯訓練,以得到該等樣本之分類標記(利用方程式1),方法係隨機選擇小部份經篩選的迷你分類器,並對此等選定的迷你分類器進行邏輯訓練。
然後,該代碼繼續生成最終分類器,例如,作為漏讀迭代之所有邏輯回歸訓練之平均值。在一實例中,該最終分類器在電腦記憶體中表現為通過篩選準則之使用單一特徵篩選所得之迷你分類器(s=1)及使用兩種特徵篩選所得之迷你分類器(s=2)之加權組合。
可針對開發集合之測試集分割或子集評估最終分類器,亦對該開發集合分割成訓練集及測試集之多個不同分割進行該評估,且最終分類器可藉由篩選得自特定訓練集及測試集分割之主分類器中之一者,或藉由保留得自各訓練集及測試集分割之所有主分類器,並使用來自各主分類器之多數表決以向受驗樣本分配標記而生成。
然後,使用該最終分類器對測試樣本(例如,NSCLC癌症病患之血液為主的樣本)分類,以在治療之前預測該NSCLC病患是否有可能受益於EGFR-I。若分配至樣本質譜之類別標記為晚期,則意味著該病患有可能受益。
上述分類系統可在商業化測試樣本並為診所、醫院、腫瘤醫師及其他保健提供者提供關於病患受益於癌症靶向藥物之測試結果服務之實驗室測試中心執行。當然,分類器開發法可用於其他目的,諸如診斷目的。
測試系統
圖16係利用根據圖1生成之分類器處理測試樣本之實體系統之另一實例,其包括質譜儀2606及通用電腦2610,該通用電腦2610執行編 碼為機器可讀指令之CMC/D分類器2620及儲存在記憶體2614中之形成標記類別的質譜數據2622之訓練集之特徵表2622。應瞭解,圖16之測量儀器2606及電腦2610可按照圖1生成CMC/D分類器。
在部份III之具體實施例中,質譜儀及電腦2610執行顯示於圖2中並在上文作詳細描述之工作流程。
現將描述一替代性實施例。圖16之系統獲得癌症病患之大量樣本2600,例如,血液為主的樣本(血清或血漿)。樣本2600係用於預測病患是否有無可能受益於特定藥物或藥物組合。該等樣本可作為其中將血液為主的樣本塗抹至纖維素或其他類型卡上之血清卡或類似物得到。獲得樣本之三個等分式樣。在一可能實施例(如部份III中所述)中,亦可使用參考樣本2604。
將該樣本之三個等分式樣滴在MALDI-ToF樣本「板」2602上,並將該板插入測量儀器中,在此情形下為MALDI-ToF質譜儀2606。質譜儀2606採集該樣本之三個等分式樣各自之質譜2608。該等質譜係以數位形式呈現,並提供至程式化通用電腦2610。電腦2610執行程式化指令之中央處理單元2612。記憶體2614儲存代表質譜2608之數據。
記憶體2614亦儲存主CMC/D分類器或最終CMC/D分類器2620,其包括a)呈N個標記類別的質譜之特徵表形式之訓練集2622,其中N為某一整數,在此實例中,病患之標記類別的質譜係如先前所述選入臨床試驗中,且各樣本分配到某一類別標記,諸如「早期」、「晚期」、「+」、「-」、「佳」、「差」等,b)代表KNN分類演算法之代碼,c)用於對病患之質譜執行根據圖1所生成之最終分類器之程式碼,及d)用於儲存分類結果及測試樣本之最終類別標記之數據結構2628。記憶體2614亦儲存用於執行2650中所示處理之程式碼2630,其包括在步驟2652中採集質譜儀之質譜數據之代碼(未顯示);用於執行背景扣除、標準化及校準步驟2654之預處理程序2632,獲得經扣除背景、標準化 及校準的質譜之預先定義m/Z位置之積分強度值(步驟2656)之模塊(未顯示),及利用訓練集2622對步驟2656中所得數值執行分類器2620之代碼程序2638。處理2658在步驟2660產生類別標記。程式碼2642包括檢查(步驟2662)確定該樣本之所有三個等分式樣是否產生相同類別標記之代碼。若結果為否,則報告類別標記「不確定」或等效詞。若病患樣本2600之所有三個等分式樣產生相同類別標記,則模塊2640如2666中所述報告類別標記(亦即,「早期」、「晚期」、「+」、「-」、「佳」、「差」或類似物)。
程式碼2630可包括其他或可選模塊,例如特徵校正函數代碼2632(描述於圖2中)、一組用於處理來自參考樣本2604之質譜以定義特徵校正函數之程序、儲存特徵依賴性雜訊特性及生成的雜訊特徵值實現(參見圖2)及對此等雜訊特徵值實現進行分類之模塊及儲存用於獲得關於分類器對雜訊特徵值實現之性能之統計數據之統計算法之模塊。熟習此項技術者將知曉,還可包括其他可選軟體模塊。
圖16之系統可作為自腫瘤醫師、病患、診所等獲得大量病患樣本及以論量計酬(fee-for-service)方式對該等病患樣本生成類別標記之實驗室測試處理中心執行。質譜儀2606無需物理上位於實驗室測試中心,相反,電腦2610可經由電腦網路獲得代表測試樣本之質譜之數據。
治療NSCLC病患之方法
另外,應瞭解,吾人已描述一種治療NSCLC病患之方法。該治療採取向該NSCLC病患投與EGFR-I之形式,其中藉由在程式化電腦中執行比對藉由質譜儀自該NSCLC病患之血液為主的樣本產生之質譜數據與包括自大量癌症病患獲得之標記類別的質譜數據之訓練集之分類器預測該病患相對於化療自EGFR-I受益更大,該等大量癌症病患係藉由對血液為主的樣本進行質譜分析確定為預期可在治療癌症的 過程中自EGFR-I獲得總存活期獲益之病患類別之成員。此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患,此等病患之質譜數據具有「晚期」或等效詞之類別標記。此外,該程式化電腦可呈執行如本文件先前部份中詳細描述之分類演算法之分類器之形式。例如,該程式化電腦執行漏讀正規化及邏輯訓練後呈篩選過的迷你分類器組合形式之分類器(CMC/D分類器)。EGFR-I可呈吉非替尼、埃羅替尼、第二代EGFR-I(諸如達可替尼(dacomitinib)、阿法替尼或等效物)之形式,其中用量係根據既定協議。
提供隨附申請專利範圍以進一步描述所揭示的發明。
1200‧‧‧測試樣本
1202A‧‧‧參考樣本
1202B‧‧‧參考樣本
1204‧‧‧步驟
1206‧‧‧平均化工作流程模塊
1208‧‧‧步驟
1210‧‧‧失敗,重新生成質譜
1212‧‧‧預處理工作流程模塊
1214‧‧‧步驟
1216‧‧‧參考樣本特徵值
1218‧‧‧模塊
1220‧‧‧標準特徵值集合
1222‧‧‧步驟
1224‧‧‧步驟
1226‧‧‧數據集合
1228‧‧‧步驟/模塊
1229‧‧‧測試樣本分類標記
1230‧‧‧特徵依賴性雜訊特性
1232‧‧‧步驟
1234‧‧‧步驟/模塊
1236‧‧‧步驟
1238‧‧‧分類結果之統計數據
1240‧‧‧步驟

Claims (40)

  1. 一種用於事先預測非小細胞肺癌(NSCLC)病患是否係相對於化療有可能自以投與表皮生長因子受體抑制劑(EGFR-I)之形式治療NSCLC獲得更大益處之癌症病患類別之成員之方法,其包括以下步驟:(a)在電腦可讀媒體中儲存一訓練集,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量癌症病患係藉由對血液為主的樣本進行質譜分析確定為預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患,此等病患之質譜數據具有「晚期」或等效詞之類別標記。(b)將該NSCLC病患之血液為主的樣本提供至質譜儀,並對該血液為主的樣本進行質譜分析,從而生成該血液為主的樣本之質譜;(c)藉助程式化電腦對步驟b)中所得的質譜進行預定預處理步驟;(d)在對步驟c)中所述質譜進行該預處理步驟後,獲得該質譜在複數個預先定義m/z範圍內所選定之特徵之積分強度特徵值;及(e)在該程式化電腦中執行包括比較步驟(d)中所得積分強度值 與步驟(a)中儲存之訓練集之分類演算法之分類器,並響應生成對應該血液為主的樣本之類別標記,其中若步驟(e)中對該血液為主的樣本之質譜所生成之類別標記係「晚期」或等效詞,則可確定該病患有可能在治療癌症的過程中相對於化療自EGFR-I獲得更大益處。
  2. 如請求項1之方法,其中該EGFR-I包括吉非替尼、埃羅替尼、第二代EGFR-I,諸如達可替尼(dacomitinib)、阿法替尼(affatinib)或等效物。
  3. 如請求項1之方法,其中該分類器包括漏讀正規化及邏輯訓練後之經篩選的迷你分類器組合(CMC/D分類器)。
  4. 如請求項1之方法,其另外包括以下步驟:對參考樣本進行質譜分析,及自該參考樣本之質譜得到一個參考樣本特徵值集合;為與預定的特徵值集合保持一致,校驗該等參考樣本特徵值;自該等參考樣本特徵值,定義該樣本之質譜之特徵校正函數;及根據該特徵校正函數校正該血液為主的樣本之質譜之特徵值。
  5. 如請求項1之方法,其另外包括以下步驟:a)儲存一個特徵相依性雜訊特性集合;b)生成該血液為主的樣本之質譜之特徵值之一個雜訊特徵值實現集合;c)將該分類器應用至該等雜訊特徵值實現,並整理該施加步驟之結果;d)根據步驟c)中所整理的結果生成統計數據,及 e)利用步驟d)中所生成之統計數據及請求項1之步驟(e)中所生成之類別標記確定該血液為主的樣本之質譜之類別標記。
  6. 如請求項1之方法,其另外包括以下步驟:對參考樣本進行質譜分析,及自該參考樣本之質譜得到一個參考樣本特徵值集合;為與預定的特徵值集合保持一致,校驗該等參考樣本特徵值;自該等參考樣本特徵值,定義該樣本之質譜之特徵校正函數;及根據該特徵校正函數及請求項5中所述步驟校正該血液為主的樣本之質譜之特徵值。
  7. 如請求項1之方法,其中該訓練集包括得自大量NSCLC病患之血液為主的樣本之標記類別的質譜。
  8. 如請求項1之方法,其中該分類演算法包括k-最近鄰算法分類演算法。
  9. 如請求項1之方法,其另外包括測定該病患是否為自EGFR-I獲得預期總存活期獲益之病患類別之成員之預備步驟,及然後對該樣本進行如請求項1之步驟b)-e)。
  10. 如請求項3之方法,其中該分類器比較該樣本之質譜中之至少50個特徵之特徵值與該訓練集之同樣至少50個特徵之特徵值。
  11. 如請求項1之方法,其中該等特徵值涵蓋下文所列特徵:
  12. 如請求項3之方法,其中該CMC/D分類器係呈大量最終分類器之形式,該等大量最終分類器係由將分類器開發樣本集合分割成大量訓練集及測試集所生成。
  13. 如請求項12之方法,其中該等大量最終分類器包括對應超過100次將該開發樣本集合分割成訓練集及測試集所產生之超過100個最終分類器。
  14. 如請求項13之方法,其中該等大量最終分類器包括對應超過200次將該開發樣本集合分割成訓練集及測試集所產生之超過200個最終分類器。
  15. 如請求項3之方法,其中該CMC/D分類器係選定為相對於開發該 CMC/D分類器期間所生成之其他主分類器具有典型性能之主分類器。
  16. 如請求項1之方法,其中該訓練集中之大量病患係由彼等血液為主的樣本之質譜測試結果為VeriStrat佳之病患組成。
  17. 一種處理非小細胞肺癌(NSCLC)病患之血液為主的樣本,以確定該病患是否係相對於治療NSCLC中之化療有可能自以投與表皮生長因子受體抑制劑(EGFR-I)形式治療NSCLC獲得更大益處之癌症病患類別之成員之系統,其組合地包括:(a)生成該血液為主的樣本之質譜之質譜儀;及(b)程式化電腦,其包括處理單元及儲存來自該質譜儀之質譜數據之記憶體,該記憶體另外儲存:1)呈訓練集形式之非瞬態數據,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量癌症病患係藉由對血液為主的樣本進行質譜分析確定為預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患(類別標記「晚期」或等效詞);2)用於對該訓練集執行在漏讀正規化及邏輯訓練後呈經篩選的迷你分類器組合形式之分類器(CMC/D分類器)之程式碼;3)用於對1)中所儲存之質譜進行預定預處理步驟,在對該質譜進行該預處理步驟後,獲得該質譜在複數個預先定義m/z範圍內所選定之特徵之積分強度特徵值之程式碼;及 4)用於將CMC/D分類器施加至該等3)中所得積分強度值及訓練集之程式碼,並響應生成對應該血液為主的樣本之類別標記,其中若程式碼4)對該血液為主的樣本所生成之類別標記係「晚期」或等效詞,則可確定該病患有可能在治療癌症的過程中相對於化療自EGFR-I獲得更大益處。
  18. 如請求項17之系統,其中該EGFR-I包括吉非替尼、埃羅替尼、第二代EGFR-I,諸如達可替尼(dacomitinib)或阿法替尼(affatinib)或等效物。
  19. 如請求項17之系統,其中該系統另外包括血液為主的參考樣本,其中該質譜儀對該參考樣本進行質譜分析,且其中該記憶體另外儲存具有以下用途之程式碼:a.自該參考樣本之質譜得到一個參考樣本特徵值集合;b.為與預定的特徵值集合保持一致,校驗該等參考樣本特徵值;c.自該等參考樣本特徵值,定義該樣本之質譜之特徵校正函數;及d.根據該特徵校正函數校正該血液為主的樣本之質譜之特徵值。
  20. 如請求項17之系統,其中:a)該記憶體儲存代表一個特徵相依性雜訊特性集合之數據;及b)該記憶體儲存具有以下用途之程式碼:1.生成該血液為主的樣本之質譜之特徵值之一個雜訊特徵值實現集合;2.將該分類器應用至該等雜訊特徵值實現,並整理該施加步驟之結果; 3.根據步驟2.中所整理的結果生成統計數據,及4.利用步驟3.中所生成之統計數據及由請求項17之程式碼4)所生成之類別標記確定該血液為主的樣本之質譜之類別標記。
  21. 如請求項17之系統,其中該訓練集包括得自大量NSCLC病患之血液為主的樣本之標記類別的質譜。
  22. 如請求項17之系統,其中該CMC/D分類器執行對該測試樣本之特徵值及該訓練集中之特徵值進行之K-最近鄰算法分類演算法。
  23. 如請求項17之系統,其中相對於數據集合測試該CMC/D分類器,該數據集合包括與在治療癌症過程中未受益於投與EGFR-I之病患有關之質譜數據(此數據集合具有類別標記「差」或等效詞)。
  24. 如請求項17之系統,其中該CMC/D分類器比較該樣本之質譜中之至少50個特徵之特徵值與該訓練集之同樣至少50個特徵之特徵值。
  25. 如請求項17之系統,其中該等特徵值包括下文所列特徵:
  26. 如請求項25之系統,其中該CMC/D分類器係呈大量最終分類器之形式,該等大量最終分類器係由將分類器開發樣本集合分割成大量訓練集及測試集所生成。
  27. 如請求項26之系統,其中該等大量最終分類器包括對應超過100次將該開發樣本集合分割成訓練集及測試集所產生之超過100個最終分類器。
  28. 如請求項27之系統,其中該等大量最終分類器包括對應超過200次將該開發樣本集合分割成訓練集及測試集所產生之超過200個最終分類器。
  29. 如請求項26之系統,其中該CMC/D分類器係選定為相對於開發該CMC/D分類器期間所生成之其他主分類器具有典型性能之主分類器。
  30. 一種裝置,其包括:一電腦記憶體,其儲存呈訓練集形式之非瞬態數據,該訓練集包括自大量癌症病患獲得之標記類別的質譜數據,該等大量 癌症病患係預期可在治療癌症的過程中自EGFR-I獲得總存活期獲益之病患類別之成員,此類病患可進一步分成兩個子類:1.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現早期進展之病患,此等病患之質譜數據具有「早期」或等效詞之類別標記;及2.彼等在治療癌症的過程中在投與EGFR-I後疾病呈現晚期進展之病患(類別標記「晚期」或等效詞)。
  31. 如請求項30之裝置,其中:該記憶體另外儲存藉由電腦處理單元對該訓練集執行漏讀正規化及邏輯訓練後呈經篩選的迷你分類器組合形式之分類器(CMC/D分類器)之執行代碼。
  32. 如請求項31之裝置,其中:該記憶體另外儲存來自血液為主的樣本之供該CMC/D分類器分類之質譜數據。
  33. 如請求項32之裝置,其中該記憶體另外儲存定義得自該等質譜數據之特徵值之特徵校正函數之程序,該特徵校正函數係由得自參考樣本之質譜數據導出。
  34. 如請求項33之裝置,其中:a)該記憶體儲存代表一個得自該參考樣本之特徵相依性雜訊特性集合之數據;及b)該記憶體儲存具有以下用途之程式碼:1.生成該血液為主的樣本之質譜之特徵值之一個雜訊特徵值實現集合;2.將該分類器應用至該等雜訊特徵值實現,並整理該施加步驟之結果; 3.根據步驟2.中所整理的結果生成統計數據,及4.利用3.中所生成之統計數據確定該血液為主的樣本之質譜之類別標記。
  35. 如請求項30之裝置,其中該記憶體儲存一特徵表,其包括下文所列出的該訓練集中各成員之特徵之質譜強度值:
  36. 一種作為CMC/D分類器及儲存呈該分類器之訓練集形式之質譜 數據之記憶體程控之電腦,該訓練集包括下文所列出的該訓練集中各成員各特徵之質譜數據之特徵值
  37. 一種執行用於對血液為主的NSCLC病患樣本進行分類之分類器之程式化電腦,其中該程式化電腦經程式化以針對樣本生成以下類別標記中之一者:1)晚期或等效詞,其表明該病患預測在治療NSCLC的過程中相對於化療自EGFR-I受益更大,及2)中間或 等效詞,其中該病患預測在治療NSCLC的過程中自EGFR-I或化療獲得類似臨床結果。
  38. 如請求項37之程式化電腦,其中該程式化電腦經進一步程式化以針對樣本生成以下類別標記:未知或等效詞,在此情形下,未預測出該病患是否在治療NSCLC的過程中相對於化療有可能自EGFR-I獲得更多益處。
  39. 一種篩選可進行EGFR-1治療之NSCLC病患之方法,藉由在程式化電腦中執行如本文所述對於該NSCLC病患之血液為主的樣本操作之分類器,預測該病患相對於化療自EGFR-I受益更大。
  40. 如請求項39之方法,其中該程式化電腦包括執行對血液為主的NSCLC病患樣本進行分類之分類器之程式化電腦,其中該程式化電腦經程式化以針對樣本生成以下類別標記中之一者:1)晚期或等效詞,其表明該病患預測在治療NSCLC的過程中相對於化療自EGFR-I受益更大,及2)中間或等效詞,其中該病患預測在治療NSCLC的過程中自EGFR-I或化療獲得類似臨床結果。
TW103129746A 2014-04-04 2014-08-28 使用血液為主的樣本之質譜供肺癌病患之治療篩選 TWI541674B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201461975267P 2014-04-04 2014-04-04

Publications (2)

Publication Number Publication Date
TW201539228A true TW201539228A (zh) 2015-10-16
TWI541674B TWI541674B (zh) 2016-07-11

Family

ID=54105964

Family Applications (1)

Application Number Title Priority Date Filing Date
TW103129746A TWI541674B (zh) 2014-04-04 2014-08-28 使用血液為主的樣本之質譜供肺癌病患之治療篩選

Country Status (4)

Country Link
US (2) US9211314B2 (zh)
CN (1) CN105512669A (zh)
TW (1) TWI541674B (zh)
WO (1) WO2015178946A1 (zh)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TW201546640A (zh) * 2013-09-16 2015-12-16 Biodesix Inc 使用微分類器及規則化之組合的分類器產生方法與其用途
US10037874B2 (en) * 2014-12-03 2018-07-31 Biodesix, Inc. Early detection of hepatocellular carcinoma in high risk populations using MALDI-TOF mass spectrometry
US9563744B1 (en) * 2014-12-03 2017-02-07 Biodesix, Inc. Method of predicting development and severity of graft-versus-host disease
EP3779998A1 (en) 2015-07-13 2021-02-17 Biodesix, Inc. Predictive test for melanoma patient benefit from pd-1 antibody drug and classifier development methods
US11710539B2 (en) 2016-02-01 2023-07-25 Biodesix, Inc. Predictive test for melanoma patient benefit from interleukin-2 (IL2) therapy
TWI601317B (zh) * 2016-03-31 2017-10-01 開發晶照明(廈門)有限公司 半導體元件及其製作方法
CN109074420B (zh) * 2016-05-12 2022-03-08 豪夫迈·罗氏有限公司 用于预测靶向药物治疗疾病的效果的系统
CN116884477A (zh) * 2017-01-05 2023-10-13 佰欧迪塞克斯公司 用于鉴定总体不良预后亚组中持久受益于免疫疗法的癌症患者的方法
CN107818329B (zh) * 2017-08-09 2023-04-18 亿纳谱(浙江)生物科技有限公司 一种质谱数据分析方法
CN108231189B (zh) * 2017-12-12 2022-12-09 华南师范大学 基于双深度神经学习网络的数据处理方法和疾病诊断装置
CN111062411A (zh) * 2019-11-06 2020-04-24 北京大学 从质谱数据中识别多种化合物的方法、装置和设备
CN111914728B (zh) * 2020-07-28 2022-08-26 河海大学 高光谱遥感影像半监督分类方法、装置及存储介质
CN113835745A (zh) * 2021-08-30 2021-12-24 蔚星科技有限公司 基于工作流的微信小程序开发交付方法及交付系统

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2506066A1 (en) 2002-11-15 2004-06-03 Genomic Health, Inc. Gene expression profiling of egfr positive cancer
WO2004111273A2 (en) 2003-05-30 2004-12-23 Genomic Health, Inc. Gene expression markers for response to egfr inhibitor drugs
US20050048547A1 (en) 2003-07-17 2005-03-03 Hongyu Zhao Classification of disease states using mass spectrometry data
CA2561535A1 (en) 2004-03-30 2005-10-20 Eastern Virginia Medical School Lung cancer biomarkers
KR101347613B1 (ko) 2004-03-31 2014-01-06 다나-파버 캔서 인스티튜트 인크. 암에 걸린 인간 환자의 표피성장인자 수용체 표적 치료의 유효 가능성 결정 방법, 키트, 핵산 프로브 및 프라이머쌍
US20060029574A1 (en) 2004-08-06 2006-02-09 Board Of Regents, The University Of Texas System Biomarkers for diagnosis, prognosis, monitoring, and treatment decisions for drug resistance and sensitivity
JP4988578B2 (ja) 2004-10-12 2012-08-01 ルミネックス コーポレーション ミクロスフェアの表面特性を変化させるための方法
US7858380B2 (en) 2005-01-28 2010-12-28 Board Of Trustees Of Michigan State University Sol-gel encapsulated hexanuclear clusters for oxygen sensing by optical techniques
US7858389B2 (en) 2006-03-31 2010-12-28 Biodesix, Inc. Selection of non-small-cell lung cancer patients for treatment with monoclonal antibody drugs targeting EGFR pathway
US7736905B2 (en) * 2006-03-31 2010-06-15 Biodesix, Inc. Method and system for determining whether a drug will be effective on a patient with a disease
US20110208433A1 (en) 2010-02-24 2011-08-25 Biodesix, Inc. Cancer patient selection for administration of therapeutic agents using mass spectral analysis of blood-based samples
US8828391B2 (en) * 2011-05-17 2014-09-09 Boehringer Ingelheim International Gmbh Method for EGFR directed combination treatment of non-small cell lung cancer
CA2874989A1 (en) 2012-05-29 2013-12-05 Biodesix, Inc. Deep-maldi tof mass spectrometry of complex biological samples, e.g., serum, and uses thereof
US8467988B1 (en) 2013-01-02 2013-06-18 Biodesix, Inc. Method and system for validation of mass spectrometer machine performance

Also Published As

Publication number Publication date
TWI541674B (zh) 2016-07-11
US9211314B2 (en) 2015-12-15
CN105512669A (zh) 2016-04-20
US20150283206A1 (en) 2015-10-08
WO2015178946A1 (en) 2015-11-26
US20160019342A1 (en) 2016-01-21

Similar Documents

Publication Publication Date Title
TWI541674B (zh) 使用血液為主的樣本之質譜供肺癌病患之治療篩選
AU2014318499B2 (en) Classifier generation method using combination of mini-classifiers with regularization and uses thereof
JP4963721B2 (ja) 疾患を有する患者に薬物が有効かどうかを決定するための方法およびシステム
JP6063446B2 (ja) 細胞におけるバイオマーカーの発現の積率による解析
TW201621315A (zh) 使用maldi-tof質譜分析以早期偵測高風險群中之肝細胞癌
US8024282B2 (en) Method for reliable classification of samples in clinical diagnostics using an improved method of classification
TW201617030A (zh) 以血液為主之樣本的質譜進行前列腺癌之侵襲性或無痛性的預測試驗
Cordero Hernandez et al. Targeted feature extraction in MALDI mass spectrometry imaging to discriminate proteomic profiles of breast and ovarian cancer
Nouretdinov et al. Multiprobabilistic prediction in early medical diagnoses
US20210118538A1 (en) Apparatus and method for identification of primary immune resistance in cancer patients
Huang et al. Classification of astrocytomas and oligodendrogliomas from mass spectrometry data using sparse kernel machines
Mantena et al. Prostate cancer biomarker identification using MALDI-MS data: initial results
Korn et al. Biomarker-based clinical trials
Arango et al. AI-based predictive biomarker discovery via contrastive learning retrospectively improves clinical trial outcome
Cilla et al. Radiomics-based discriminant analysis of principal components to stratify the treatment response of lung metastases following stereotactic body radiation therapy
Wang A Prognostic and Predictive Computational Pathology Based Companion Diagnostic Approach: Precision Medicine for Lung Cancer
Beckman et al. Portfolio optimization of therapies and their predictive biomarkers
Sachs et al. Development and Validation of Predictive Signatures
Klammer Novel bioinformatical and statistical methods for the analysis of mass spectrometry-based phosphoproteomic data
Pham et al. Computational Analysis of High‐Throughput MALDI‐TOF‐MS‐Based Peptide Profiling

Legal Events

Date Code Title Description
MM4A Annulment or lapse of patent due to non-payment of fees