TWI493168B - 分析質譜的方法、電腦程式及系統 - Google Patents

分析質譜的方法、電腦程式及系統 Download PDF

Info

Publication number
TWI493168B
TWI493168B TW100120337A TW100120337A TWI493168B TW I493168 B TWI493168 B TW I493168B TW 100120337 A TW100120337 A TW 100120337A TW 100120337 A TW100120337 A TW 100120337A TW I493168 B TWI493168 B TW I493168B
Authority
TW
Taiwan
Prior art keywords
mass
peaks
peak
sequence
mass spectrum
Prior art date
Application number
TW100120337A
Other languages
English (en)
Other versions
TW201224428A (en
Inventor
Marcello Vitaletti
Original Assignee
Ibm
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ibm filed Critical Ibm
Publication of TW201224428A publication Critical patent/TW201224428A/zh
Application granted granted Critical
Publication of TWI493168B publication Critical patent/TWI493168B/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16ZINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS, NOT OTHERWISE PROVIDED FOR
    • G16Z99/00Subject matter not provided for in other main groups of this subclass
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16CCOMPUTATIONAL CHEMISTRY; CHEMOINFORMATICS; COMPUTATIONAL MATERIALS SCIENCE
    • G16C20/00Chemoinformatics, i.e. ICT specially adapted for the handling of physicochemical or structural data of chemical particles, elements, compounds or mixtures
    • G16C20/20Identification of molecular entities, parts thereof or of chemical compositions
    • HELECTRICITY
    • H01ELECTRIC ELEMENTS
    • H01JELECTRIC DISCHARGE TUBES OR DISCHARGE LAMPS
    • H01J49/00Particle spectrometers or separator tubes
    • H01J49/0027Methods for using particle spectrometers
    • H01J49/0036Step by step routines describing the handling of the data generated during a measurement
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2218/00Aspects of pattern recognition specially adapted for signal processing

Description

分析質譜的方法、電腦程式及系統
本發明一般係關於質譜分析,尤其是本發明提供分析化學溶液質譜的方法。
質譜儀原理是將化學元素離子化,以產生帶電分子或分子片段(molecule fragments)並測量其質荷比。例如在溶液中離子的質譜提供離子質荷比的分佈。一質譜圖的x軸代表一個離子的質荷比,y軸則代表這些離子所提供的信號強度。一個離子的質譜圖由峰值賦予表示該離子的(質量對電荷、強度)資訊。對內含不同離子的化學溶液而言,由該質譜圖的各個峰值可辨別出於該溶液中對應離子存在。
然而,當質譜圖包含密集的峰值序列,並且當對各峰值由儀器所測量的該質量與該強度有誤差時,要從化學溶液的質譜中辨識離子並非易事。例如,在該溶液中某些離子的濃度為尚未明確得知的物質濃度函數的情形下,我們可能需要利用建立回歸模型,以預測溶液內可溶性物質的濃度。在線性情況下,離子濃度與物質濃度存在係數關係,其隨不同離子而變。為了建立回歸模型,必須先能夠辨別於溶液中不同濃度的物質對應不同質譜中相同離子之峰值強度。當物質對應至無機分子時,在質譜中可輕易識別該等離子。不過在有機分子稀釋於水中的情況下,由於水中大分子的解離,所產生溶液的質譜可能包括數百種 離子。
先前技術解決方案為一種用以識別在不同質譜中所對應在溶液中不同濃度的物質,該資訊對應至相同離子,使用已知的數據分箱技術(data binning technique)。該數據分箱技術可降低輕微測量誤差的影響:在該質譜中,質量範圍應該涵蓋在單一尺寸(通常是一個質量單位)的未重疊間隔(箱子)之內,並且每一峰值的強度累積到相應箱子內。然而,為了建立回歸模型而分析離子質量測量於所有溶液中,假設me 為建立回歸模型而伴隨來的誤差,則與該誤差me 相關的兩效應對該數據分箱方法造成不利影響,亦即:- 使用尺寸相當(或小於)me 的箱子,在不同光譜中已知離子的峰值可能會累積在不同箱子內;- 使用大於me 的箱子時,一般會發生擁有類似質量的二或多個離子之峰值會累積在相同箱子內。然而這些離子在物質濃度上具有完全不同的線性相依性,並且由於之前的效應,相同的箱子可累積來自跨越不同光譜的不同離子之貢獻。
因此,需要一種在一物質用不同已知濃度所準備的溶液之間所對應的多質譜圖中,能識別相同物性離子峰值之方法。
本發明的目的在於以一種可信賴的方式,定義在不同質譜中識別對應至相同離子的峰值之方法。
如申請專利範圍第1項,在電腦上執行一方法以識別於包含至少一物質的特定濃度的溶液中由不同物性離子所產生的峰值,該方法利用分析來自一組含誤差測量的質譜資料檔案中所有峰值的質量及強度座標,以達到該目的,該方法包括:- 讀取來自該組質譜資料檔案中一第一質譜資料檔案的一峰值座標;-從該第一質譜資料檔案以外的每一該質譜資料檔案當中選取接近來自該第一質譜的該等讀取峰值座標之峰值座標,計算一距離函數使由兩峰值間的一接近為適格的;-決定評分最高的峰值序列,包括來自該第一質譜的該讀取峰值以及來自每一其他質譜的一選取峰值,其利用計算一評分函數,其使該序列中由同類物性離子所產生所有峰值之可能性為適格的;- 只有當最高評分/次高評分序列比率高於一限制比率時,則儲存該最高評分序列;- 讀取來自該第一質譜資料檔案的一其他峰值座標並執行前述選擇、決定與儲存等步驟,直到已經讀取來自 該質譜的所有該等峰值,每一該等結果序列包括每一質譜的峰值,識別為由一相同物性離子所產生。
如申請專利範圍第2項,使用如申請專利範圍第1項之方法也可達成該目的,另包括:- 抑制該等已儲存序列之間序列的任何子集,其發現包括一相同質譜的一相同峰值。
如申請專利範圍第3項,使用如申請專利範圍第1項或第2項之方法也可達成該目的,其中兩峰值之間的該距離函數以及該評分函數都取決於該等兩峰值的該質量與強度。
如申請專利範圍第4項,使用如申請專利範圍第1項或第2項之方法也可達成該目的,其中兩峰值之間的該距離函數取決於該等峰值的該質量,並且該評分函數取決於該等峰值的該質量與該峰值濃度-強度關聯性之組合。
如申請專利範圍第5項,使用如申請專利範圍第1項或第2項之方法也可達成該目的,其中對應離子識別該等結果峰值序列的第1項方法之步驟,運用都取決於該等峰值的該質量與強度之一第一距離和一第一評分函數,在針對一已知c濃度的一第一組質譜上執行;該方法另包括: - 在其他組質譜上重複該等前述步驟,該第一組與其他組質譜對應至不同濃度;- 計算來自於針對每一溶液濃度執行的該等前述步驟,所產生每一序列的平均質量-強度峰值座標,並且獲得每一濃度的一系列虛擬峰值;- 將如申請專利範圍第1項之方法的該等步驟套用至該組虛擬質譜,每一虛擬質譜對應至一濃度,每一虛擬質譜包括該等計算過的虛擬峰值系列,使用取決於該等峰值質量與該峰值濃度-強度關聯性組合的兩峰值間之一第二距離函數,該等結果序列為對應至該不同「虛擬質譜」中一離子的該等峰值,每一「虛擬質譜」都對應至一溶液濃度。
如申請專利範圍第6項,使用如申請專利範圍第5項之方法也可達成該目的,其中兩具有座標x 1 y 1 的質譜峰值P 1 與具有座標x 2 y 2 的質譜峰值P 2 間之該第一距離d 函數為:
R為與該y 座標和x 座標相關聯的該等相關誤差間之比率。
如申請專利範圍第7項,使用如申請專利範圍第5項和第6項任一項之方法也可達成該目的,其中一序列的該 第一評分為:1/max d(p1,p2)其中p1、p2為該序列中任兩峰值,並且d(p1,p2)為之間的距離。
如申請專利範圍第8項,使用如申請專利範圍第5項至第7項任一項之方法也可達成該目的,其中兩具有座標x 1 y 1 的質譜峰值P 1 與具有座標x 2 y 2 的質譜峰值P 2 間之該第二距離d 函數為:d(p1 ,p2 )=絕對值(x1 -x2 ).
如申請專利範圍第9項,使用如申請專利範圍第5項至第8項任一項之方法也可達成該目的,其中一序列的該第二評分為:correlation_coefficient(c1,y1,c2,y2,....cN,yN)/max d(p1,p2)
其中p1、p2為該序列中任意兩峰值,並且d(p1,p2)為之間的距離。
如申請專利範圍第10項,使用一種內含用於執行如前述申請專利範圍任一項之方法的該等步驟的裝置之系統,也可達成該目的。
如申請專利範圍第11項,使用一種內含用於執行如申請專利範圍第1項至第9項任一項之方法的該等步驟的指令之電腦程式,該電腦程式在一電腦上執行時也可達成該目的。
將該提案的兩階段篩選處理之該第一階段套用至從一質譜儀獲得的資料,可獲得某些優點。
一項優點為該方法提供與該質量值測量相關聯之誤差數量指示,以及與該篩選光譜中維持所有這些峰值的該強度值測量相關聯之誤差指示。
另一優點為大量忽略峰值可提供該測量當中品質問題的早期指示,換言之,就是該等測量條件未完美標準化(例如因為在不同溫度之下或均衡狀態不穩定之下測量的樣本),或因為某些樣本中存在不受控制的污染物伴隨之問題。進一步優點為應該從該篩選光譜中排除具有非常類似或一致質量但是不同結構的離子所產生之峰值,因此簡化關於已知溶液成份到所測量光譜的模型之建造工作。
根據本發明的第二態樣,可利用將已提案兩階段篩選處理的該第二階段套用至已經通過該第一階段之資料,獲得許多優點。
其一優點為由該溶液中濃度遠離在不同濃度上測量的樣本中物質濃度線性函數之離子所產生的峰值,已經從篩選光譜中去除。如此簡化關於已知溶液成份到所測量光譜的線性模型之建造工作。
另一優點為大量忽略峰值可提供該資料中品質問題的早期指示(例如因為在不同溫度之下或均衡狀態不穩定 之下測量的樣本),或指出「已識別離子」濃度與樣本已經在不同濃度上測量過的物質濃度間之複雜(非線性)關係。在第一情況下,利用更受控制的處理可獲得更好的資料,並且避免運用到不精準資料的風險。在第二情況下,需要建構非線性資料模型,同時可避免資料運用當中假設錯誤之風險。
圖1顯示在一個化學溶液樣本上測量的第一質譜,以及來自相同溶液不同樣本所獲得的五份質譜(A、B、C、D、E)視覺化之細節。第一圖表(100)為內含5ppm化學物質的水溶液中,峰值質量257.1並且強度超出質譜儀輸出所用500000單位四周的離子之部分質譜圖。整個光譜內含大約1500個峰值。第二質譜(110)為使用相同儀器重複測量相同樣本所獲得,與相同峰值相關的值在質量值方面有0.1%的振盪,在強度值方面有10%的振盪。在第二3D圖(110)中,質量誤差強制為零。在此情況下,峰值(115)可簡單視為代表相同離子。問題是若質量(x值)與強度(y值)有測量誤差,如何識別對應至相同離子的不同樣本內之峰值。影響兩種離子的質量測量誤差超出其「真實」質量之間的差異時,就不可能找出不同光譜內屬於相同離子的兩峰值。即使誤差相當小,在電腦程式中實施穩健的(robust)「識別」處理,還是需要超過質量值接近性的特定辨別條件。
圖2例示其中實施較佳具體實施例方法的環境。圖2顯示本發明的範疇。利用產生資料檔案(光譜210)的質譜儀(200),分析具有變化已知化學物質濃度的溶液。光譜包 括一峰值序列,峰值由質譜儀所測量的質荷比與信號強度值(圖型代表內的峰值座標)所描述。
亦請注意,若該方法套用至只內含一種物質的溶液,此方法將幫助決定不同物質濃度上溶液的峰值,這幫助有助於決定特定濃度上溶液中物質存在的線性模型。
在較佳具體實施例中,利用電腦(220)上執行的程式處理質譜資料檔案。又在較佳具體實施例中,離子識別方法包括一識別處理引擎(240),套用在兩階段處理程式(230)中。該離子識別引擎在每一階段中套用不同的辨別條件。在第一階段中,該離子識別引擎套用稍後關於圖4說明文件中描述的質量-強度型近接條件。該第一階段採用質譜儀所產生的質譜檔案(210)當成輸入並產生離子表(T1),一列代表不同光譜中對應至一個離子的峰值。階段1中處理的質譜為對應至內含特定化學物質濃度的溶液上所完成的測量樣本集合之質譜,套用至一個樣本集合的該輸出為一個離子表(T1)。針對對應至化學物質N個不同濃度的N組質譜,重複操作。階段1的輸出造成N個離子表(T1 250),每組樣本一個,每一個都對應至溶液濃度。
在第二階段中,執行該離子識別引擎一次。針對峰值識別,該離子識別引擎套用一辨別條件,此辨別條件為質量近接與濃度-強度關聯性條件的組合,如稍後關於圖4說明文件中之描述。該第二階段使用階段1建立的離子表當成輸入,轉換成「虛擬質譜」並且輸出一個已識別的離子表(T2 260)。輸出離子表T2提供用於溶液中已識別的每 一離子,在每一列中,為每一濃度的一系列峰值座標之參考。
在較佳具體實施例中,本發明實施為電腦程式產品,其從電腦可使用或電腦可讀取媒體存取,提供電腦或任何指令執行系統所使用或連接的程式碼。請注意,本發明可採用整個硬體具體實施例、整個軟體具體實施例或包含硬體與軟體元件的具體實施例之形式。在較佳具體實施例中,本發明在軟體中實施,這包含但不受限於韌體、常駐軟體、微碼等等。
圖3為根據較佳具體實施例可運用不同識別條件的離子識別方法流程圖。該流程圖說明該離子識別方法,該方法允許識別從溶液所獲得,對應至發生於不同光譜中相同離子類型的峰值,其中一個物質存在於不同濃度中。
為了例示該離子識別方法,本說明書使用質譜當成輸入。如此簡化該方法步驟的理解,如圖2所說明,即使在階段2中,輸入並非直接是質譜而是該等離子識別表T1,其轉換成「虛擬質譜」。事實上,該等輸出T1表將每一列參照至對應已經用來當成輸入的不同質譜中相同離子之峰值:針對每一T1表的每一列計算峰值座標的平均,以獲得「虛擬質譜」。
在第一步驟(300)中,已經存取所有質譜。如前述,該質譜提供其X座標代表質荷比(以後稱為質量)與Y座標代表信號的強度(以後稱為強度)的峰值。所有質譜都對應至 具有可溶解於溶液中特定化學物質濃度的相同溶液之測量樣本,此物質需要經過分析。M光譜具有從1至M的編號。
該質譜存取步驟的涵義為將內含峰值座標的該等質譜資料檔案由該電腦讀取,並且較佳儲存在記憶體中當成資料結構。稍後在本說明書中關於圖5的說明,來描述這種該離子識別引擎所用資料結構的一個範例。每一質譜都建立一個表格。每一表格列都可儲存該質譜峰值的座標。
在步驟305中,在該等M質譜之其中之一讀取一個峰值。於被讀取一個峰值的此一質譜內含編號從1至N1的N1個峰值,並且開始所有這些峰值的重覆步驟(請參閱稍後流程圖中的測試360)。採用該讀取峰值,做為對應至剩餘光譜中峰值的連續識別之基礎。根據下列處理,分析代表此第一光譜中潛在離子的該峰值。開始剩餘光譜的內部反覆(請參閱稍後流程圖中的測試330)。
使用兩峰值之間的適當「距離」函數,找出目前光譜中最接近目前步驟305中所選峰值的特定數量峰值。利用限制至最大預定距離d的距離,選擇至少一個峰值以及有限數量的峰值(320)。若將搜尋限制在未發現峰值的預定距離內,這是可能的。不過請注意,「距離」函數的選擇係根據階段1中質量-強度型近接的條件以及階段2中的質量-近接條件。稍後在本說明書中關於圖4的說明中更詳細描述該等距離函數。
利用讀取所有光譜(執行測試步驟330中答案為否的迴圈),使用來自該第一光譜的目前峰值以及該等從2至M的光譜中所找到的候選峰值,建立M個選取峰值的所有可能候選序列。這種序列的總數等於n2 x n3 x...x nM 的乘積,其中ni 為指數「i」的光譜中候選峰值之數量,並且M為每一序列中峰值的數量。在步驟335中,將適當評分函數套用至每一序列,以計算一評分值。該函數必須經過選擇,讓只有峰值全都是相同離子類型表示的序列應獲得高評分值。評分函數的選擇取決於所選之離子識別條件,稍後關於圖4說明文件中會更詳細描述該評分函數。
在下一步驟(340)中,前述步驟中建立的序列依照步驟335中計算之對應評分值分類,最高評分對應至分類序列清單中的第一位置。
在下一步驟(345)中,依照每一序列中第一評分與第二評分間之比率,計算「比率」變數。於步驟335中所使用的評分函數產生明顯大於1的比率變數值,以指出已經從競爭當中產生單一序列獲勝者。步驟350中將計算出來的比率值與預定門檻(限制比率)比較,低於門檻之值表示沒有明顯的序列獲勝者,這意味不可能識別目前的離子。保留具有最高評分值並且比率變數等於或大於限制比率的序列,用於步驟305中讀取的此峰值。
將該有效獲勝者序列(若有的話)的每一序列成員之(X質量、Y強度)值的記錄(trace)保留(357),該序列的每一成 員都為每一光譜中的一個峰值,所有峰值都對應至相同離子。此資訊保存在離子識別表(T1,T2)中,如稍後本說明書中關於圖5或圖6的說明所描述。
若一峰值讀數無有效獲勝者序列以及離子識別候選(測試350的答案為否),則執行下一步驟(360)。若在一個光譜中並未讀取所有峰值(測試360的答案為否),則執行從步驟315至360的相同迴圈,以識別找出每一光譜中離子的最高評分序列。
針對一個光譜所讀取的所有峰值用於此演算法時(測試360的答案為是),則產生獲勝者序列的一個光譜中所有峰值可姑且考慮由相同物性離子產生。利用試驗峰值的該等結果序列,執行全體一致性檢查(365)。只有若每一峰值出現在每一序列中一次,每一序列中峰值的結果序列才是特定離子類型的表示。因此,忽略具有共同一或多個峰值的序列。然後可關於原始資料,以較高信賴度使用剩餘的序列。事實上,每一序列的特徵在於儀器對於特定(不過未知)離子類型存在的反應。在流程圖執行結尾上,該最終離子識別表只含經由全體一致性檢查確認過的峰值序列之參照。不過,該全體一致性步驟為選擇性,因為前述步驟選擇的所有序列可能造成正確結果。
圖4為根據較佳具體實施例套用圖3的方法,識別對應至不同已知物質濃度的質譜中相同離子之方法的一般流程圖。在此流程圖中,圖3中離子識別處理的兩互補實施連接於兩階段途徑(two-stage pipeline)中。該途徑的第一 階段用來當成利用質譜儀測量具有不同濃度的溶液所產生光譜之輸入系列集合。該途徑的第二階段將該第一階段輸出的資料當成輸入,並針對每一離子產生最終輸出,就是每一濃度的峰值座標之參考。
在階段1(400)中,該離子識別處理套用至從溶液獲得的多個光譜,其在濃度的(N個)不同位準上內含相同物質。儀器可針對濃度的每一位準,利用在相同樣本上重複測量M次,或利用採用M個同等樣本的測量,獲得多個(M個)光譜。這表示,依照圖3流程圖所描述的該方法,在針對一個溶液濃度所測量的每一樣本質譜集合上處理(405)。運用質量-強度型近接條件,識別具有一或多種物質之相同(已知或未知)濃度的溶液光譜間之離子。運用此方法,若來自對應光譜的M個峰值依據適當距離函數,其取決於兩峰值的X與Y座標,以及分別根據影響質量(x)測量以及離子濃度(y)測量的相對誤差之不同大小,判斷為「彼此最接近」時,則可稱其為「由相同離子產生」。階段1的輸出包括每一已識別離子中以及每一濃度位準中,M個峰值的序列。離子識別表T1為維持圖3中離子識別方法資訊結果的方式之一個範例,稍後說明於本說明書中與圖5相關之說明中。
根據質量-強度型近接條件,選擇分別在階段1中執行的識別處理之步驟315和步驟335所使用的距離函數與評分函數。兩「點」(峰值)之間任意「距離」函數d(pi ,pj )必須是在i=j時d(pi ,pj )消失,否則總是為正值。與每一峰值相關聯為兩座標(x和y)代表離子質量(x)與信號強度 (y),因此在原理上可根據兩峰值的x和y座標,讓距離函數採用二維空間中的標準歐氏距離。不過,這不適合無關聯性的情況,因為並不負責關聯於一點(峰值)的x與y座標之不同比例與精準度。來自普通儀器的質譜試驗顯示質量(x座標)值用大約0.1%的相對誤差所決定,而強度(y座標)用大約10%的相對誤差所決定,因為高出兩個數量級。將R定義為關聯於y座標與x座標的相對誤差間之比率,所提案的距離函數如下,x1 、y1 為峰值p1 的座標,並且x2 、y2 為峰值p2 的座標:
在峰值的每一「候選序列」上,執行該離子識別處理步驟335中評分值的計算。因此,該評分函數為該候選序列中峰值集合的函數。在階段1中,此函數只是該序列中兩相隔最遠的峰值之距離函數(區塊315中所使用的函數)的倒數。該評分函數為:1/max d(p1,p2)
其中p1和p2為該序列中任兩個峰值。
因此,「彼此最靠近」為序列中的峰值,較高者為指派給該序列的該評分值。發現上面距離函數與評分函數的組合足夠用於階段1中執行的該離子識別處理,在此所有光譜都取自於具有相同已知物質濃度的樣本。
圖4的流程圖程序繼續階段2(410),其輸入為階段1中建立的該離子識別表(例如T1)。
該等離子識別表內含的資料等同於已經提過的質譜資料。對應至階段1中「已識別」離子的每一峰值序列都用「虛擬」峰值有效取代,該虛擬峰值的質量與強度利用平均該序列所獲得。在階段2中,如圖3所例示流程圖所描述該離子識別方法的處理套用(415)至這些虛擬峰值。其目的在於「識別」相同離子產生的虛擬峰值,通過從具有不同物質濃度位準的樣本測量之光譜。運用組合的質量-近接與濃度-強度關聯性條件,識別一已知物質的L種不同已知濃度之溶液光譜間之離子。運用此方法,若L峰值的序列使「最佳測量」最大化,則L峰值的序列為「屬於相同離子」,該「最佳測量」加權跨越峰值對應質量的「接近度」與濃度C值與強度Y值之間的「線性關聯性強度」之乘積。定義該距離與評分函數時,將階段2的該離子識別條件列入考量。這些距離與評分函數的用途為篩選出該物質濃度與該等強度值之間,未顯示強大線性關聯性的峰值序列。階段2的輸出提供相同離子的「虛擬峰值」序列,每一「虛擬峰值」都對應至不同的濃度位準。如此,可藉由多種應用運用從該質譜儀-不屬於本發明-之中取得的資訊,目標在於建立該質譜的模型,其中在許多選取峰值(通道)上觀察到的強度為一或多個物質濃度之線性函數。離子識別表T2為維持圖3中離子識別方法資訊結果的方式之一個範例,稍後說明於本說明書中與圖6相關之說明中。
根據組合的質量-近接與濃度-強度關聯性條件,選擇分別在階段2中執行的識別處理之步驟315和步驟335所 使用的距離函數與評分函數。在階段2中,無法預期相同離子產生的峰值展現出通過光譜的類似強度值,因為在不同物質濃度上會採用後者。因此,階段2中使用的該距離函數只取決於峰值的x座標(離子質量):d(p1 ,p2 )=abs(x1 -x2 ),其中abs()為絕對值函數。
在峰值的每一「候選序列」上,執行該離子識別處理區塊335中評分值的計算。因此,該評分函數為該候選序列中峰值集合的函數。在階段2中,原則上距離函數可採用統計關聯性係數。想法為高關聯性係數(接近個體)只來自於對應至相同物性離子的峰值(並展現出與物質濃度的線性回應)。不過,使用真實資料所進行的實驗顯示,在此情況下,最高評分序列上評分值之間的比率(等於關聯性係數)通常非常接近個體,如此不可能決定清楚的「獲勝者」。更適合的評分函數也應該將序列中所有峰值的質量值近接性列入考慮。因此,建議的評分函數為兩項的乘積。第一項為從序列峰值計算的關聯性係數,其中物質濃度為獨立變數,並且峰值強度為相依變數。第二項為一序列中兩相隔最遠的峰值之距離函數(區塊315中所使用的函數)的倒數。
該評分函數為:correlation_coefficient(c1,y1,c2,y2,....cN,yN)/max d(p1,p2),其中p1、p2為序列中任兩峰值,並且d(p1,p2)為之間的距離。
發現上面距離函數與評分函數的組合足夠用於階段2 中執行的該離子識別處理,在此所有光譜都取自於具有不同已知物質濃度的樣本。
圖5顯示輸入圖3一般流程圖中階段1的資料結構,以及根據較佳具體實施例輸出的階段1之資料結構。尤其是如圖5中所描述的輸出表,為一種呈現階段1運用根據質量-強度型近接條件的距離與評分函數之離子識別方法結果的方式。
針對該溶液樣本內物質的已知濃度,輸入(500)來自M光譜,利用重複測量M次或利用將測量套用至M個一致樣本所獲得。電腦從資料檔案讀取的每一光譜資料都可以表格方式儲存在記憶體中,該表格具有兩欄(X和Y),其中在每一列上,離子質量測量在X欄內,並且對應的測量強度在Y欄內。
輸出可由M欄的表格(T1)呈現,每一輸出針對每一測量光譜,並且列數等於階段1結尾上識別的離子。每一列都內含對於峰值的指標器(515),假設由M個輸入光譜中每一個光譜內相同物性離子所產生。每一列都內含對應至相同獲勝者與有效序列的指標器,其以可接受的評分比率獲得最高評分。
例如:列編號27(27為表格內一個列指數值)在輸出表內標示灰色背景,內含編號503、506、502、504、504,賦予已識別離子的輸入光譜內之位置。這表示.第一輸入光譜的列503上之峰值, .第二輸入光譜的列506上之峰值,.等等已經由階段1處理「識別」,因此可安全假設已經由相同物性離子產生這些峰值。
採用對應至輸出表中已知列的質量(X)與強度(Y)之M值平均與展開,如此評估影響這些量級測量的誤差大小。
利用定義質量與強度值為該等M「已識別」峰值上對應值的平均之「虛擬峰值」,可減少關聯於上述輸出表內已知列的資訊。或者是,吾人可考慮每一列中質量與強度值的最小與最大值,如此運用質量的間隔[Xmin ,Xmax ]以及利用運用強度的間隔[ymin ,ymax ]來定義「虛擬峰值」。
特別使用圖4中所描述套用的離子識別方法,允許使用該等結果建立線性模型,將已知溶液的成份關聯於所測量光譜。在此情況下,階段1輸入為針對一個溶液所測量的質譜,該溶液只包括具有不同已知濃度的單一物質。如此,該離子識別表(T1 510)內含使用已知濃度的每一質譜中其參考X、Y峰值所識別之離子。
針對每一溶液濃度建立這種離子識別表(T1,500),以獲得質譜的集合。
圖6顯示輸入圖4一般流程圖中階段2的資料結構,以及根據較佳具體實施例輸出的階段2之資料結構。如上述,在用圖4流程圖所描述的方法中,所使用的階段2輸 入並非質譜,而是從離子識別表T1的輸出(當成階段1的輸出所獲得)所產生之質譜同等資料。階段2的輸入(600)由N個表格構成,階段1處理的每一輸出都套用至相同物質的不同(已知)濃度。該等輸入表中每一列都可關聯於具備已評估質量、強度與誤差的「虛擬」峰值,這些輸入可在階段2中由離子識別方法處理成同等輸入資料(500),其為圖1表格的輸入質譜。
輸出可由具有N欄的表格(610)構成,每一輸出針對物質的每一濃度,並且列數等於階段2結尾上識別的離子。每一列都包含指標器:欄內關聯於已知濃度的指標器(615)參照至該濃度的輸入表內一列。因此,階段2結尾上產生的輸出表,允許將這些「虛擬」峰值稱為全都關聯於相同物性離子。
100‧‧‧第一圖表
110‧‧‧第二質譜
115‧‧‧峰值
200‧‧‧質譜儀
210‧‧‧光譜
220‧‧‧電腦
230‧‧‧兩階段處理程式
240‧‧‧識別處理引擎
250‧‧‧離子表
260‧‧‧離子表
300-365‧‧‧步驟
400‧‧‧階段1
405‧‧‧處理
410‧‧‧階段2
415‧‧‧套用
500‧‧‧輸入
510‧‧‧離子識別表
515‧‧‧指標器
600‧‧‧輸入
610‧‧‧表格
615‧‧‧指標器
圖1顯示在一個化學溶液樣本上測量的第一質譜,以及來自相同溶液不同樣本所獲得的五份質譜(A、B、C、D、E)視覺化之細節;圖2例示其中實施較佳具體實施例方法的環境;圖3為根據較佳具體實施例可運用不同識別條件的離子識別方法流程圖;圖4為根據較佳具體實施例套用圖3的方法,識別對應至不同已知物質濃度的質譜中相同離子之方法的一般流程圖;圖5顯示輸入圖4一般流程圖中階段1的資料結構,以及根據較佳具體實施例輸出的階段1之資料結構; 圖6顯示輸入圖4一般流程圖中階段2的資料結構,以及根據較佳具體實施例輸出的階段2之資料結構。
200‧‧‧質譜儀
210‧‧‧光譜
220‧‧‧電腦
230‧‧‧兩階段處理程式
240‧‧‧識別處理引擎
250‧‧‧離子表
260‧‧‧離子表

Claims (10)

  1. 一種在一電腦上執行用以識別包含至少一物質的一特定濃度之溶液中由不同物性離子所產生的峰值之方法,該方法利用分析來自一組含測量誤差的質譜資料檔案中所有峰值的質量及強度座標,該方法包括:- 讀取來自該組質譜資料檔案中一第一質譜資料檔案的一峰值座標;- 利用計算一距離函數使兩峰值間的一近接為適格的,從該第一質譜資料檔案以外的每一該質譜資料檔案當中,選擇接近來自該第一質譜的該讀取峰值座標之峰值座標;- 利用計算一評分函數使該相同類型物性離子所產生該序列中所有峰值之可能性為適格的,決定評分最高的峰值序列,包括來自該第一質譜的該讀取峰值以及來自每一其他質譜的一選取峰值;- 只有若最高評分/次高評分序列的比率高於一限制比率,則儲存該最高評分序列;- 讀取來自該第一質譜資料檔案的一其他峰值座標並執行該等前述選擇、決定與儲存步驟,直到已經讀取來自該質譜的所有該等峰值,每一該等結果序列包括每一質譜的峰值,識別為由一相同物性離子所產生;- 在另一質譜集合上重複該等前述步驟,該第一與其他質譜集合對應至不同濃度;- 計算來自於針對每一溶液濃度執行的該等前述步驟,所產生每一序列的平均質量-強度峰值座標,並且獲得每一濃度的一系列虛擬峰值;及 - 套用該等前述步驟至虛擬質譜的集合,每一虛擬質譜對應至一濃度,每一虛擬質譜包括該等計算過的虛擬峰值系列,使用取決於該等峰值質量與根據該等峰值質量與該峰值濃度-強度關聯性組合的一第二評分函數之兩峰值間之一第二距離函數,該等結果序列為對應至該不同「虛擬質譜」中一離子的該等峰值,每一「虛擬質譜」都對應至一溶液濃度。
  2. 如申請專利範圍第1項之方法,另包括:- 抑制該已儲存序列之間序列的任何子集,其發現包括一相同質譜的一相同峰值。
  3. 如申請專利範圍第1項或第2項之方法,其中兩峰值之間的該距離函數以及該評分函數都取決於該等兩峰值的該質量與強度。
  4. 如申請專利範圍第1項或第2項之方法,其中兩峰值之間的該距離函數取決於該等峰值的該質量,並且該評分函數取決於該等峰值的該質量與該峰值濃度-強度關聯性之組合。
  5. 如申請專利範圍第1項或第2項之方法,其中兩具有座標x 1 y 1 的質譜峰值P 1 與具有座標x 2 y 2 的質譜峰值P 2 間之該第一距離d 函數為: R為與該y 座標和x 座標相關聯的該等相關誤差間之該比率。
  6. 如申請專利範圍第1項或第2項之方法,其中一序列的該第一評分為:1/max d(p1,p2)其中p1、p2為該序列中任兩峰值,並且d(p1,p2)為之間的該距離。
  7. 如申請專利範圍第1項或第2項之方法,其中兩具有座標x 1 y 1 的質譜峰值P 1 與具有座標x 2 y 2 的質譜峰值P 2 間之該第二距離d 函數為:d(p1 ,p2 )=絕對值(x1 -x2 )。
  8. 如申請專利範圍第1項或第2項之方法,其中一序列的該第二評分為:correlation_coefficient(c1,y1,c2,y2,....cN,yN)/max d(p1,p2),其中p1、p2為該序列中任兩峰值,並且d(p1,p2)為之間的該距離。
  9. 一種用以識別包含至少一物質的一特定濃度之溶液中由不同物性離子所產生的峰值的系統,該系統利用分析來自一組含測量誤差的質譜資料檔案中所有峰值的質量及強度座標的一方法,該方法包括:- 讀取來自該組質譜資料檔案中一第一質譜資料檔案的一峰值座標;- 利用計算一距離函數使兩峰值間的一近接為適格的,從該第一質譜資料檔案以外的每一該質譜資料檔案當中,選擇接近來自該第一質譜的該讀取峰值座標之峰值座標; - 利用計算一評分函數使該相同類型物性離子所產生該序列中所有峰值之可能性為適格的,決定評分最高的峰值序列,包括來自該第一質譜的該讀取峰值以及來自每一其他質譜的一選取峰值;- 只有若最高評分/次高評分序列的比率高於一限制比率,則儲存該最高評分序列;及- 讀取來自該第一質譜資料檔案的一其他峰值座標並執行該等前述選擇、決定與儲存步驟,直到已經讀取來自該質譜的所有該等峰值,每一該等結果序列包括每一質譜的峰值,識別為由一相同物性離子所產生;- 在另一質譜集合上重複該等前述步驟,該第一與其他質譜集合對應至不同濃度;- 計算來自於針對每一溶液濃度執行的該等前述步驟,所產生每一序列的平均質量-強度峰值座標,並且獲得每一濃度的一系列虛擬峰值;及- 將如申請專利範圍第1項之方法的該等步驟套用至該虛擬質譜的集合,每一虛擬質譜對應至一濃度,每一虛擬質譜包括該等計算過的虛擬峰值系列,使用取決於該等峰值質量與根據該等峰值質量與該峰值濃度-強度關聯性組合的一第二評分函數之兩峰值間之一第二距離函數,該等結果序列為對應至該不同「虛擬質譜」中一離子的該等峰值,每一「虛擬質譜」都對應至一溶液濃度。
  10. 一種儲存於一電腦可讀取儲存媒體的電腦程式,包含複數指令,當該電腦程式在一電腦上執行時,執行如申請專利範圍第1項至第8項任一項之方法。
TW100120337A 2010-06-10 2011-06-10 分析質譜的方法、電腦程式及系統 TWI493168B (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP10165533 2010-06-10

Publications (2)

Publication Number Publication Date
TW201224428A TW201224428A (en) 2012-06-16
TWI493168B true TWI493168B (zh) 2015-07-21

Family

ID=44582885

Family Applications (1)

Application Number Title Priority Date Filing Date
TW100120337A TWI493168B (zh) 2010-06-10 2011-06-10 分析質譜的方法、電腦程式及系統

Country Status (6)

Country Link
US (2) US9773090B2 (zh)
EP (1) EP2580772B1 (zh)
JP (1) JP5719433B2 (zh)
CN (1) CN102906851B (zh)
TW (1) TWI493168B (zh)
WO (1) WO2011154219A2 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102906851B (zh) 2010-06-10 2015-09-16 国际商业机器公司 分析质谱的方法及系统
US9666421B2 (en) * 2013-12-26 2017-05-30 Shimadzu Corporation Mass spectrometry data display device and mass spectrometry data display program
SG11201902667UA (en) * 2016-10-25 2019-05-30 Regeneron Pharma Methods and systems for chromatography data analysis
US10859552B2 (en) 2017-06-20 2020-12-08 The Hong Kong Polytechnic University Edible oil analysis system and method
WO2022270289A1 (ja) * 2021-06-24 2022-12-29 国立研究開発法人物質・材料研究機構 検体に含まれる成分の含有量比の推定方法、組成推定装置、及び、プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1965232A (zh) * 2004-06-08 2007-05-16 株式会社山武 质谱分析装置、质谱分析方法和质谱分析程序
TW200842351A (en) * 2007-04-30 2008-11-01 Univ Nat Sun Yat Sen Spectrometric analysis for detecting analytes in a solid-state sample
TW200917312A (en) * 2007-06-19 2009-04-16 Canon Kk Substrate for mass spectrometry, mass spectrometry, and mass spectrometer

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62124456A (ja) * 1985-11-26 1987-06-05 Jeol Ltd 質量分析デ−タのオ−トキヤリブレ−シヨン・システム
US5072115A (en) 1990-12-14 1991-12-10 Finnigan Corporation Interpretation of mass spectra of multiply charged ions of mixtures
US5440388A (en) 1993-08-02 1995-08-08 Erickson; Jon W. Chemical analysis and imaging by discrete fourier transform spectroscopy
US8188011B1 (en) 2000-02-08 2012-05-29 Isis Pharmaceuticals, Inc. Optimization of ligand affinity for RNA targets using mass spectrometry
US6996472B2 (en) 2000-10-10 2006-02-07 The United States Of America As Represented By The Department Of Health And Human Services Drift compensation method for fingerprint spectra
GB0031566D0 (en) * 2000-12-22 2001-02-07 Mets Ometrix Methods for spectral analysis and their applications
CA2453764A1 (en) * 2001-07-13 2003-01-23 Syngenta Participations Ag System and method for storing mass spectrometry data
US20050065732A1 (en) 2001-10-26 2005-03-24 Robert Tilton Matrix methods for quantitatively analyzing and assessing the properties of botanical samples
WO2004089972A2 (en) * 2003-04-02 2004-10-21 Merck & Co., Inc. Mass spectrometry data analysis techniques
GB0308278D0 (en) * 2003-04-10 2003-05-14 Micromass Ltd Mass spectrometer
WO2004097582A2 (en) * 2003-04-28 2004-11-11 Cerno Bioscience Llc Computational methods and systems for multidimensional analysis
US20050255606A1 (en) * 2004-05-13 2005-11-17 Biospect, Inc., A California Corporation Methods for accurate component intensity extraction from separations-mass spectrometry data
US7473892B2 (en) * 2003-08-13 2009-01-06 Hitachi High-Technologies Corporation Mass spectrometer system
US7735146B2 (en) * 2005-01-27 2010-06-08 The George Washington University Protein microscope
JP4569349B2 (ja) 2005-03-29 2010-10-27 株式会社島津製作所 飛行時間型質量分析装置
US8073635B2 (en) * 2008-02-15 2011-12-06 Dh Technologies Development Pte. Ltd. Method of quantitation by mass spectrometry
CN102906851B (zh) 2010-06-10 2015-09-16 国际商业机器公司 分析质谱的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1965232A (zh) * 2004-06-08 2007-05-16 株式会社山武 质谱分析装置、质谱分析方法和质谱分析程序
TW200842351A (en) * 2007-04-30 2008-11-01 Univ Nat Sun Yat Sen Spectrometric analysis for detecting analytes in a solid-state sample
TW200917312A (en) * 2007-06-19 2009-04-16 Canon Kk Substrate for mass spectrometry, mass spectrometry, and mass spectrometer

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Tianwei Yu,Youngia Park,Jennifer M. Johnson and Dean P. Jones,"apLCMS adaptive processing of high-resolution LC/MS data,Bioinformatics",Vol.25,no.15,2009年5月4日,pp.1930~1935 *

Also Published As

Publication number Publication date
JP2013528287A (ja) 2013-07-08
TW201224428A (en) 2012-06-16
US9773090B2 (en) 2017-09-26
CN102906851B (zh) 2015-09-16
CN102906851A (zh) 2013-01-30
EP2580772B1 (en) 2015-03-11
US20130073219A1 (en) 2013-03-21
EP2580772A2 (en) 2013-04-17
US9400868B2 (en) 2016-07-26
WO2011154219A3 (en) 2012-03-08
WO2011154219A2 (en) 2011-12-15
US20140052385A1 (en) 2014-02-20
JP5719433B2 (ja) 2015-05-20

Similar Documents

Publication Publication Date Title
JP6089345B2 (ja) 時および/または空間系列ファイルの多成分回帰/多成分分析
JP6610678B2 (ja) ピーク検出方法及びデータ処理装置
JP5375411B2 (ja) クロマトグラフ質量分析データ解析方法及び装置
JP6091493B2 (ja) 試料に存在する成分を決定するための分光装置と分光法
WO2013031881A1 (ja) 解析装置、解析方法、記憶媒体
TWI493168B (zh) 分析質譜的方法、電腦程式及系統
JP6813033B2 (ja) 分析データ解析方法および分析データ解析装置
US10718713B2 (en) Unknown sample determining method, unknown sample determining instrument, and unknown sample determining program
US10598639B2 (en) Three-dimensional spectral data processing device and processing method
JP5945365B2 (ja) Nmrスペクトルから物質を同定するための方法
JP6748085B2 (ja) 干渉検出および着目ピークのデコンボルーション
Valledor et al. Standardization of data processing and statistical analysis in comparative plant proteomics experiment
WO2018103541A1 (zh) 用于去除溶剂干扰的拉曼光谱检测方法和电子设备
CN113435115B (zh) 一种荧光光谱特征波长筛选方法、装置、计算机设备及可读储存介质
Erny et al. Algorithm for comprehensive analysis of datasets from hyphenated high resolution mass spectrometric techniques using single ion profiles and cluster analysis
CN111504908A (zh) 一种基于光声光谱的岩石类型识别方法及系统
Chen et al. Random Forest model for quality control of high resolution mass spectra from SILAC labeling experiments
Monakhova et al. Methodology of chemometric modeling of spectrometric signals in the analysis of complex samples
US11961726B2 (en) Mass spectrum processing apparatus and method
CN117043585A (zh) 用于化合物的基于拉曼光谱的鉴定的方法和系统
Grissa et al. A hybrid data mining approach for the identification of biomarkers in metabolomic data
CN114282446A (zh) 一种基于不同偏好光谱模型的拟合预测方法
CN117633445A (zh) 一种天然玫瑰精油的掺假鉴别方法、系统及存储介质
JP2017111021A (ja) 質量分析を用いた試料解析方法及び試料解析システム