TWI746485B

TWI746485B - 用於驗證蛋白質的一級結構的方法

Info

Publication number: TWI746485B
Application number: TW105138523A
Authority: TW
Inventors: 蔡有光; 陳雅芬
Original assignee: 昇捷生物科技股份有限公司
Priority date: 2015-11-23
Filing date: 2016-11-23
Publication date: 2021-11-21
Also published as: US11635437B2; WO2017088769A1; US20180356425A1; EP3380844B1; EP3380844A4; TW201740110A; EP3380844A1

Abstract

本發明提供了一種通過在質譜中觀察到的離子簇與從其推定的化學式推導的一系列模擬離子簇之間的比較分析來驗證蛋白質的一級結構的方法，該方法包含以下步驟：製備用於質譜分析的蛋白質樣品；收集該蛋白質樣品的質譜；從該質譜中的複數個離子簇中獲得主離子簇；根據該蛋白質的化學式生成一系列模擬離子簇；在該一系列模擬離子簇中找到該主離子簇的最佳擬合；以及驗證該最佳擬合模擬離子簇是否對應於該蛋白質的化學式。

Description

用於驗證蛋白質的一級結構的方法

本發明涉及一種用於驗證蛋白質的一級結構的方法，且具體地，涉及一種使用高解析質譜儀的結果驗證蛋白質的一級結構的方法。

1. 蛋白質治療的歷史

傳統生物製品如凝血因子、免疫球蛋白或某些抗生素的醫學應用是將蛋白質產品作為治療藥物的起始點。這些生物製品主要是從血液、植物或細菌材料中萃取的混合物。在1970年代，重組DNA技術提供了蛋白質工程的可能性。結構-功能關係的概念產生了在Genetech公司發明的第一種人類蛋白質治療藥物，即胰島素(Humulin®)，該治療藥物由Eli Lilly公司開發並在1982年由美國食品暨藥物管理局(Food and Drug Administration，FDA)核准。將患者中缺乏的特定蛋白質填充進去的想法造成生物醫藥產業中的新趨勢。隨後，重新設計，些許變化那些治療藥物，以製得具有更好的患者順從性、功效或半衰期的類似物再次引領潮流。在蛋白質治療藥物中，基於抗體的藥物是快速生長的類別且為最多上市的藥物。抗體的嵌合以及人源化技術已經克服了使用囓齒科動物抗體進行治療的限制。此外，使用基因轉殖的小鼠或噬菌體顯示來收穫人類抗體這種較容易的方法，以及抗體製造的工業化，促進了抗體被廣泛地使用。

隨著蛋白質在醫藥產業中的普遍，作為治療藥物的蛋白質仍具有若干限制。所有的蛋白質治療藥物面臨著同樣的問題，亦即，因為人類消化系統中的蛋白水解消化作用的緣故，口服攝入蛋白質治療藥物是不可能的。高生產成本，通常反映在價格上，限制了一般患者人群獲得蛋白質藥物。最近，數種治療藥物的專利期滿已經開啟了生物仿製藥與專利蛋白質治療藥物之間的競爭。生物仿製藥是指在不同設施或公司中產生的特定重組蛋白。字根「仿製」意味著不同實驗室之間蛋白質產生的生物系統的不可重複之性質。最後，蛋白質治療藥物的遞送受限於細胞外空間，如循環系統或細胞表面。因此，細胞內遞送或標靶治療是現今醫藥產業最有興趣的普遍目標之一。

2. 重組/治療性蛋白質的品質控制(Quality Control，QC)

為了確保活性物質的功效以及安全性，生物技術產品的鑑定在其臨床應用之前是必需的。蛋白質治療藥物的鑑定包括它們的物理化學性質、生物活性、免疫化學性質、純度以及雜質的驗證。此外，對於製造的一致性以及物質穩定性的評估，則需要對不同批次以及儲存後的治療藥物的長期鑑定。

為了確認結構特徵，需要蛋白質一級結構的分析，包括從重組DNA序列、胺基酸組成、末端胺基酸序列、胜肽圖譜、巰基的數目以及位置，以及碳水化合物的含量來確定胺基酸序列。有時則需記錄生理性質，如分子量、同功型模式、消光係數、電泳圖案、液相色層分析譜圖以及光譜圖。

除了活性物質，雜質與污染物亦需被仔細檢查。這些不希望有的物質可以分為三類：源自細胞基質的雜質、源自細胞培養的雜質，以及源自下游的雜質。源自細胞基質的雜質包括表現載體、宿主細胞的染色體以及其他核酸物質。針對源自細胞培養的產物，應注意如血清、抗生素以及培養基組成分等雜質。源自下游的雜質是那些用於生物化學加工的試劑，例如酵素、化學製品、溶劑以及配體。

需要測定的另一群雜質為與產物相關的衍生物。這些衍生的物質與原始活性物質相比可能含有少量缺陷，而且即使以現有技術偵測，這些衍生物可能還是難以被確認。這些變體包括截短的形式、修飾的形式或聚集體。有時可以藉由高效液相色層分析(high performance liquid chromatography，HPLC)、毛細管電泳分析或質譜儀來鑑定包含小變化的修飾形式，例如脫醯胺作用、異構化、錯配的雙硫鍵或改變的綴合物等小變化。然而，考慮到這些分析技術的限制，這些結構變化中有許多無法被容易地檢測或定性。

3. 蛋白質治療藥物的質譜分析與品質控制(QC)

質譜儀(MS)已經被廣泛用於藉由測量質荷比(m/z )以導出精確分子量(MM)的分子鑑定。然而，為了測定大分子，如重組蛋白或治療性抗體，由於高原子數的組成，精確的質量鑑定變得複雜。多年來，科學家已經設法避免使用質譜儀(MS)直接測量大分子，並開發了數種還原劑方法。這導致了廣泛使用的「由下而上」方法的發展。後來，工具的改良促使更多的研究採取由上而下的方法。

4. 「由下而上」的策略

「由下而上」的蛋白質分析，亦即多胜肽首先被以酵素處理分解為小胜肽，然後以質譜儀進行分析，已經成為選擇的蛋白質鑑定策略。其高生產量特性的優點以及能夠分析蛋白質混合物的優點使其成為最常用的方法之一。一般而言，由下而上的策略涉及二種技術：胜肽質量指紋法(peptide mass fingerprinting，PMF)以及碰撞誘導解離法(collision-induced dissociation，CID)。隨著新計算機軟體系統的發展，可以透過轉譯後修飾(posttranslational modifications，PTM)或蛋白質序列的高生產量篩選而容易地獲得對PMF以及CID的資料庫搜索。由下而上的方法以其高生產量的性質著稱，並已成為一個黃金標準。然而，蛋白質覆蓋的變異、不可預測的人工產物以及不穩定的的PTM資訊的損失等導致其在描繪生物分子的全部特徵中的作用有限（Chenet al. ,Anal Biochem 440, 108-113 (2013)）。

5. 「由上而下」的策略

測量分子及其片段的分子量以獲得所需結構資訊的概念可追溯到一個世紀前。已經有關於以質譜儀來評估並測量生物分子含量與多胜肽片段的理論。然而，這樣的分析仍然不可行，直到像是電子電離的質譜儀(MS)技術發明。由上而下的策略，也稱為完整的蛋白質分析，係以在沒有事先的酵素消化作用就直接進行多胜肽MS分析為特徵。分析具有結構完整性的生物分子的優點是非常吸引人的，但是研究人員發現由於一些原因而難以執行該分析。首先，選擇適當的分析方法需要生物分子樣品的純度與結構的資訊。隨著工具的改良，一些選項已被報告可被用於以不同的專業來鑑定蛋白質的一級結構，包括用於蛋白質定序的CID、用於量測異天冬胺酸的選擇捕獲解離法(election-capture dissociation，ECD)/選擇轉移解離法(election-transfer dissociation，ETD)、用於雙硫鍵連接映射的ETD，以及用於分析可能的PTM與測定潛在的聚乙二醇化(PEGylation)位點的在基質輔助雷射脫附/游離飛行時間(MALDI-TOF)質譜分析中的源內衰減(in-source decay，ISD)。對於治療藥物與受體蛋白質之間的構形動力學的研究，H/D交換質譜儀(MS)被報告具有代替經典的生物物理方法的潛力。同時，離子移動率質譜儀(ion mobility MS，IMS)可能是用於高階蛋白質研究的新技術。

6. 高解析度質譜中的同位素分布

離子簇的同位素分布反映了一分子的不同同位素變體的發生數量與概率。在單位質量解析度的條件下，天然存在的同位素導致在含括數個m/z 單位範圍的前驅物離子的區域中的峰簇。對應於在一質譜中的分子的那些離子峰被稱為離子簇、同位素分佈或同位素包絡。離子簇係由一系列同位素同系物或同位素異構體所組成。同位素異構體為僅在其原子同位素組成上不同的分子。

蛋白質通常由二十個胺基酸所組成，其又由來自五種不同元素即碳(C)、氫(H)、氮(N)、氧(O)以及硫(S)的原子所構成。這五種元素中的每一種具有多個原子同位素，而且這些原子同位素具有不同的原子質量(表1)。元素的單一同位素質量由自然界中具有最高含量的穩定同位素的原子質量所定義。例如，這五種元素的單一同位素質量分別為¹² C、¹ H、¹⁴ N、¹⁶ O以及³² S的原子質量。對於一特定的元素，由於其他原子同位素在它們的核中具有一個或多個額外的中子，所以這樣的原子同位素應該比具有單一同位素質量的那些同位素更重一些。是以，具有單一同位素質量的原子同位素可以被認為是所有原子同位素變體中最輕的(參見下表1)。

對於像蛋白質這樣的分子，其單一同位素質量為僅包含具有針對該等元素，即¹² C、¹ H、¹⁴ N、¹⁶ O以及³² S，的單一同位素質量的原子同位素的同位素異構體的分子量。由於這種同位素異構體只含有最輕原子的同位素，因此該同系物應該是一個蛋白質中所有可能的同位素異構體中的最輕者。由於中子具有約1Da的質量，所以添加一個額外的中子應該使一個同位素異構體的分子量增加約1Da，不論是哪個元素具有該添加的額外中子。換言之，包含額外的中子導致這些同位素異構體的分子量按階段地增加。具有相同數量的額外中子的不同同位素異構體應當具有非常相似的分子量，而且它們在高解析度質譜儀中通常只在一個位置被一起檢測作為在該離子簇中的一個訊號或峰。雖然蛋白質分子可以具有許多原子同位素的組合，但是這些同位素異構體應當主要基於額外中子的數量聚集成組。因此，這些同位素異構體在高解析度質譜儀中被檢測為離子簇，其由具有約1Da質量差異的訊號所組成。

表1. 一蛋白質中的常見的元素的穩定同位素之順序

於一方面，本發明提供了通過在質譜中觀察到的離子簇與從其推定的化學式推導的一系列模擬離子簇之間的比較分析來驗證蛋白質的一級結構的方法，該方法包含下列步驟：製備用於質譜分析的蛋白質樣品；收集該蛋白質樣品的質譜；從該質譜中的複數個離子簇中獲得主離子簇；根據該蛋白質樣品的化學式生成一系列模擬離子簇；在該一系列模擬離子簇中找到該主離子簇的最佳擬合；以及驗證該最佳擬合模擬離子簇是否對應於該蛋白質樣品的化學式。

根據本發明的某些具體實施例，該蛋白質樣品係通過去除繁雜類型之蛋白質修飾的程序所製備而成。根據本發明的某些具體實施例，該繁雜類型之蛋白質修飾為該類型之修飾在一特定胺基酸殘基具有多於五種組合的變體。根據本發明的某些具體實施例，該繁雜類型之蛋白質修飾為蛋白質的天冬醯胺酸殘基的糖基化作用。

根據本發明的某些具體實施例，該蛋白質為單株抗體、激素、生長因子、融合蛋白、細胞激素、治療性酵素、血液因子、重組疫苗，或抗凝血劑。

根據本發明，收集的質譜由任何質譜分析儀器決定，包括但不限於由基質輔助雷射脫附游離/飛行時間質譜儀 (matrix-assisted laser desorption ionization/time of flight，MALDI-TOF)、表面增強雷射脫附游離∕飛行時間質譜儀(surface enhanced laser desorption ionization/time of flight，SELDI-TOF)、液相色層分析-質譜儀(liquid chromatography-mass spectrometry，LC-MS)、液相色層分析串聯質譜儀(liquid chromatography tandem mass spectrometry，LC-MS-MS)，以及電噴霧離子化質譜儀(electrospray ionization mass spectrometry，ESI-MS)所組成之群組。

根據本發明的某些具體實施例，該主離子簇係通過使用計算機演算法定位以及加總基於不同電荷狀態的該複數個離子簇所產生。

根據本發明的某些具體實施例，該一系列模擬離子簇係根據自該蛋白質樣品的化學式添加或去除數個氫原子而得到的一系列化學式所產生。

根據本發明的某些具體實施例，每個模擬離子簇係通過依序組合複數個單一元素離子簇模擬所產生，該單一元素離子簇模擬的原子數量係取自該離子簇模擬的化學式。

根據本發明的某些具體實施例，具有化學式CvHwOxNySz的該離子簇模擬係通過分別針對C_v 、H_w 、O_x 、N_y 以及S_z 五個單元素離子簇模擬依序組合所產生。

根據本發明的某些具體實施例，C_v 離子簇模擬係由在整個C_v 模擬

中的百分比所表示，

以及

分別為¹² C以及¹³ C的天然豐度，針對相對於該推定的單一同位素質量(¹² C_v )峰作為第0個峰的第n個推定的同位素峰；H_w 離子簇模擬係由在整個H_w 模擬

中的百分比表示，

以及

分別為¹ H以及² H的天然豐度，針對相對於該推定的單一同位素質量(¹ H_w )峰作為第0個峰的第n個推定的同位素峰；O_x 離子簇模擬係由在整個O_x 模擬

中的百分比表示，

、

以及

分別為¹⁶ O、¹⁷ O以及¹⁸ O的天然豐度，針對相對於該推定的單一同位素質量(¹⁶ O_x )峰作為第0個峰的第n個推定的同位素峰；N_y 離子簇模擬係由在整個N_y 模擬

中的百分比表示，

分別為¹⁴ N以及¹⁵ N的天然豐度，針對相對於該推定的單一同位素質量(¹⁴ N_y )峰作為第0個峰的第n個推定的同位素峰；S_z 離子簇模擬係由在整個S_z 模擬

中的百分比表示，

、

以及

分別為³² S、³³ S、³⁴ S以及³⁶ S的天然豐度，針對相對於該推定的單一同位素質量(³² S_z )峰作為第0個峰的第n個推定的同位素峰。

根據本發明的某些具體實施例，該C_v 、H_w 、O_x 、N_y 以及S_z 的單元素離子簇模擬係由包含以下步驟的方法所組合：(i) 計算在該C_v H_w 模擬中相對於該推定的單一同位素質量(¹² C_v ¹ H_w )峰作為第0個峰的該第M個峰的百分比P_M,CH ，每個百分比等於

；(ii) 計算在該C_v H_w O_x 模擬中相對於該推定的單一同位素質量(¹² C_v ¹ H_w ¹⁶ O_x )峰作為第0個峰的該第M個峰的百分比P_M,CHO ，每個百分比等於

；(iii) 計算在該C_v H_w O_x N_y 模擬中相對於該推定的單一同位素質量(¹² C_v ¹ H_w ¹⁶ O_x ¹⁴ N_y )峰作為第0個峰的該第M個峰的百分比P_M,CHON ，每個百分比等於

；(iv) 計算在該C_v H_w O_x N_y S_z 模擬中相對於該推定的單一同位素質量(¹² C_v ¹ H_w ¹⁶ O_x ¹⁴ N_y ³² S_z )峰作為第0個峰的該第M個峰的百分比P_M,CHONS ，每個百分比等於；

；其中i 為一非負數的整數。然而，本發明的方法不限於這種組合順序。

根據本發明的某些具體實施例，各該單一元素離子簇模擬係直接自對應於包含不同原子數的單一元素化合物的離子簇模擬所組成的資料庫中獲取。

根據本發明的某些具體實施例，該最佳擬合係通過找到最小差異分數與該主離子簇相較具有最小差異得分的模擬離子簇中的成員而被發現。

根據本發明的某些具體實施例，該每個模擬離子簇的差異分數係由如同，但不限於，卡方檢定、皮爾遜卡方檢定，使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定中的方法之一來給分。

於另一方面，本發明提供了一種驗證蛋白質的一級結構的方法，包含：獲得一全長蛋白質的一質譜；自該質譜鑑定具有對應於該全長蛋白質的質量但具有不同電荷狀態的複數個離子簇；自該複數個離子簇計算一主離子簇；以及將該主離子簇與基於具有或不具有修飾的該全長蛋白質的化學式產生的一系列模擬離子簇進行比較，以找到最佳擬合的模擬離子簇。如果最佳擬合的模擬離子簇對應於具有特定類型的修飾或未修飾的全長蛋白質，則該具有特定類型的修飾或未修飾的全長蛋白質代表該蛋白質經過驗證的一級結構。

本發明的方法採用「由上而下」的策略。亦即，在質譜分析中使用完整或全長蛋白質。如果需要的話，該蛋白質樣品僅經過預處理以在進行質譜分析之前去除某些複雜的修飾(但不將蛋白質碎裂)。較佳地，該質譜係通過高解析度質譜儀獲得。

根據本發明的某些較佳具體實施例，該主離子簇係通過包含以下步驟的方法計算：加總各該複數個離子簇中(m/z)_ma 處最高含量的峰的強度以獲得一起始總和；根據每個最高含量的峰的平均同位素間距將具有大於該(m/z)_ma 的m/z的下一個較大的同位素峰p(+1)的強度進行加總，以獲得一第一右總和；以及根據每個最高含量的峰的平均同位素間距將具有小於該(m/z)_ma 的m/z的下一個較小的同位素峰p(-1)的強度進行加總，以獲得一第一左總和。在一些具體實施例中，獲得相應於複數個同位素峰p(+l )的複數個右總和，獲得相應於複數個同位素峰p(-m )的複數個左總和，以及起始總和，該複數個左總和與該複數個右總和係通過除以在所有該等總和之中的最大總和來進行標準化，其中l 與m 各自為正整數。根據平均同位素間距該同位素峰p(+l )為相對於該同位素峰p(+(l -1))的下一個較大的同位素峰，且根據平均同位素間距該同位素峰p(-m )為相對於該同位素峰p(-(m -1))的下一個較小的同位素峰。根據本發明的一個具體實施例，各該強度在被加總之前，係通過除以對應的同位素峰的電荷狀態以標準化對應的同位素峰的電荷狀態。

根據本發明，該平均同位素間距可以為約1道爾頓（Dalton）。較佳地，該平均同位素間距為1.00235道爾頓。

根據本發明，該一系列模擬離子簇中的每一個係通過包含以下的方法所產生：提供一具有或不具有修飾的化學式為C_v H_w O_x N_y S_z 的全長蛋白，結合C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇，以獲得具有或不具有修飾的該全長蛋白的模擬離子簇，其中該C_v 的推定離子簇由強度

表示，

以及

分別為¹² C以及¹³ C的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該H_w 的推定離子簇由強度

表示，

以及

分別為¹ H以及² H的天然豐度，作為由為該推定的單同位素峰作為第0個峰開始的第n個推定的同位素峰；該O_x 的推定離子簇由強度

表示，

、

以及

分別為¹⁶ O、¹⁷ O以及¹⁸ O的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該N_y 的推定離子簇由強度

表示，

以及

分別為¹⁴ N以及¹⁵ N的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；以及該S_z 的推定離子簇由強度

表示，

、

、

以及

分別為³² S、³³ S、³⁴ S以及³⁶ S的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰。

較佳地，該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇被一個接一個地組合。在本發明的一個較佳具體實施例中，該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇係根據該峰的位置被組合。例如，該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇係通過包含以下的方式組合：(i) 計算強度I_M,CH ，每個強度等於

；(ii) 計算強度I_M,CHO ，每個強度等於

；(iii) 計算強度I_M,CHON ，每個強度等於

；(iv) 計算強度I_M,CHONS ，每個強度等於

；其中i 為一非負數的整數，M為除了該推定的單一同位素峰之外的推定的同位素峰的數目；且其中該強度I_M,CHONS 表示具有或不具有修飾的該全長蛋白質的模擬離子簇。然而，本發明的方法不限於這種組合順序。

除非另有定義，本文使用的所有技術以及科學術語具有與本發明所屬領域的技術人員通常理解的相同的含義。

於一方面，本發明提供了一種通過在質譜中觀察到的離子簇與從其推定的化學式推導的一系列模擬離子簇之間的比較分析以驗證蛋白質的一級結構的方法，該方法包含以下步驟：製備用於質譜分析的蛋白質樣品；收集該蛋白質樣品的質譜；從該質譜中的複數個離子簇中獲得主離子簇；根據該蛋白質的化學式生成一系列模擬離子簇；在該一系列模擬離子簇中找到該主離子簇的最佳擬合；以及驗證該最佳擬合模擬離子簇是否對應於該蛋白質樣品的化學式。

根據本發明的某些具體實施例，該蛋白質樣品係通過去除繁雜類型之蛋白質修飾的程序所製備而成。根據本發明的某些具體實施例，該繁雜類型之蛋白質修飾係指該類型之修飾在一特定胺基酸殘基具有多於五種組合的變體。根據本發明的某些具體實施例，該不同類型的修飾作用為蛋白質的天冬醯胺酸殘基的糖基化作用。

根據本發明，收集的質譜係由任何質譜分析儀器決定，包括但不限於由基質輔助雷射脫附游離∕飛行時間質譜儀(MALDI-TOF)、表面增強雷射脫附游離∕飛行時間質譜儀(SELDI-TOF)、液相色層分析-質譜儀(LC-MS)、液相色層分析串聯質譜儀(LC-MS-MS)，以及電噴霧離子化質譜儀(ESI-MS)所組成之群組。

根據本發明的某些具體實施例，該主離子簇係通過使用電腦演算法定位以及加總基於不同電荷狀態的該複數個離子簇所產生。

根據本發明的某些具體實施例，具有化學式C_v H_w O_x N_y S_z 的該離子簇模擬係通過分別針對C_v 、H_w 、O_x 、N_y 以及S_z 五個單一元素離子簇模擬依序組合所產生。

中的百分比所表示，

以及

中的百分比表示，

以及

中的百分比表示，

、

以及

中的百分比表示，

、

以及

根據本發明的某些具體實施例，該最佳擬合最小差異分數係通過找到與該主離子簇相較具有最小差異得分的模擬離子簇中的成員而被發現。

根據本發明的某些具體實施例，該每個模擬離子簇的差異分數係由如同，但不限於，卡方檢定、皮爾遜卡方檢定、使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定中的方法之一來給分。

於另一方面，本發明提供了驗證蛋白質的一級結構的方法。該方法包含以下步驟：獲得一全長蛋白質的一質譜；自該質譜鑑定具有對應於該全長蛋白質的質量但具有不同電荷狀態的複數個離子簇；自該複數個離子簇計算一主離子簇；以及將該主離子簇與基於具有或不具有修飾的該全長蛋白質的化學式產生的一系列模擬離子簇進行比較，以找到最佳擬合的模擬離子簇。若該最佳擬合的模擬離子簇對應於具有特定類型的修飾或未修飾的全長蛋白質，則該具有特定類型的修飾或未修飾的全長蛋白質代表該蛋白質的經過驗證的一級結構。

本文所用之「一級結構」乙詞係指蛋白質的胺基酸序列及其(轉譯後的)蛋白質修飾。

本發明的方法採用「由上而下」的策略。如本文所用，「全長蛋白質」乙詞係指在進行質譜分析之前經預處理以去除某些複雜修飾(但不將蛋白質碎裂)的完整蛋白質或蛋白質。例如，N -連接的糖基化可以透過PNGase F處理而被去除。

較佳地，透過高解析度質譜儀獲得該質譜。高解析度質譜儀包括但不限於基質輔助雷射脫附游離/飛行時間(MALDI-TOF)質譜儀、表面增強雷射脫附游離∕飛行時間(SELDI-TOF)質譜儀、液相色層分析-質譜儀(LC-MS)、液相色層分析串聯質譜儀(LC-MS-MS)，或電噴霧離子化質譜儀(ESI-MS)。

該主離子簇係自質譜中的觀察離子簇得到，並且包含一組有序的標準化強度。根據本發明的某些較佳具體實施例，通過包含以下步驟的方法計算某些標準化的強度：加總各該複數個離子簇中(m/z)_ma 處最高含量的峰的強度（對應於全長蛋白質，但具有不同的電荷狀態），以獲得一起始總和Ss ；根據每個最高含量的峰的平均同位素間距，將在複數個離子簇中具有大於該(m/z)_ma 的m/z的下一個較大的同位素峰p(+1)的強度進行加總，以獲得一第一右總和S _p(+1) ；以及根據每個最高含量的峰的平均同位素間距，將具有小於該(m/z)_ma 的m/z的下一個較小的同位素峰p(-1)的強度進行加總，以獲得第一左總和S _p(-1) 。該起始總和、第一左總和以及第一右總和可在之後透過最大「強度」(強度的總和)來進行標準化。

其他有序的標準化強度可以透過類似的程序進行計算。如此，可以獲得相應於複數個同位素峰p(+l )的複數個右總和以及相應於複數個同位素峰p(-m )的複數個左總和，其中l 與m 各自為正整數。根據平均同位素間距該同位素峰p(+l )為相對於該同位素峰p(+(l -1))的下一個較大的同位素峰，且根據平均同位素間距該同位素峰p(-m )為相對於該同位素峰p(-(m -1))的下一個較小的同位素峰。針對標準化，將該起始總和、複數個左總和以及複數個右總和除以所有總和之中最大的總和S _M 。l 與m 可以由本領域技術人員基於實際需要而容易確定。例如，將簇端的左半部分檢測作為

，且當達到小於5%的相對含量時，右半部分端的檢測為離子，其中

為一蛋白質的單一同位素質量與最多質量之間的標稱質量差（Chenet al. ,Anal Biochem 440, 108-113 (2013)）。

據此，該主離子簇可以包含如下的一組有序的標準化強度：(S _p(-m
) /S _M , S_p(-(m
-1)) /S _M , …,S _p(-1) /S _M ,S _S /S _M ,S _p(+1) /S _M , …,S _p(+(l
-1)) /S _M ,S _p(+l
) /S _M )。

根據本發明的一個較佳具體實施例，各個觀察到的強度在被加總之前，係通過除以對應的同位素峰的電荷狀態以標準化對應的同位素峰的電荷狀態。

根據本發明，該平均同位素間距可以為約1道爾頓。較佳地，該平均同位素間距為1.00235道爾頓。

根據本發明，該主離子簇與該一系列模擬離子簇係通過選自由卡方檢定、皮爾遜卡方檢定、使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定所組成之群組進行比較。

表示，

以及

表示，

以及

分別為¹ H以及² H的天然豐度，作為由為該推定的單同位素峰作為第0個峰開始的第n個推定的同位素峰；該O_x 的推定離子簇由該強度

表示，

、

以及

表示，

以及

表示，

、

以及

分別為³² S、³³ S、³⁴ S以及³⁶ S的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰。據此，各該系列模擬離子簇包含一組有序的標準化推定強度。

；(ii) 計算強度I_M,CHO ，每個強度等於

；(iii) 計算強度I_M,CHON ，每個強度等於

；(iv) 計算強度I_M,CHONS ，每個強度等於

；其中i 為一非負數的整數，M為除了該推定的單同位素峰之外的推定的同位素峰的數目；且其中該強度I_M,CHONS 表示具有或不具有修飾的該全長蛋白質的模擬離子簇。然而，本發明的方法不限於這種組合順序。

本發明還包括以下具體實施例： 1. 一種驗證蛋白質的一級結構的方法，包含：獲得一全長蛋白質的一質譜；自該質譜鑑定具有對應於該全長蛋白質的質量但具有不同電荷狀態的複數個離子簇；自該複數個離子簇計算一主離子簇；以及將該主離子簇與基於具有或不具有修飾的該全長蛋白質的化學式產生的一系列模擬離子簇進行比較，以找到最佳擬合的模擬離子簇。 2. 如具體實施例1之方法，其中該主離子簇係通過包含以下步驟的方法計算：加總各該複數個離子簇中(m/z)_ma 處最高含量的峰的強度以獲得一起始總和；根據每個最高含量的峰的平均同位素間距將具有大於該(m/z)_ma 的m/z的下一個較大的同位素峰p(+1)的強度進行加總，以得第一右總和；以及根據每個最高含量的峰的平均同位素間距將具有小於該(m/z)_ma 的m/z的下一個較小的同位素峰p(-1)的強度進行加總，以得第一左總和。 3. 如申請專利範圍第2項之方法，其中獲得相應於複數個同位素峰p(+l )的複數個右總和，獲得相應於複數個同位素峰p(-m )的複數個左總和，以及起始總和，該複數個左總和與該複數個右總和係通過除以在所有該等總和之中的最大總和來進行標準化，其中l 與m 各自為正整數，根據平均同位素間距該同位素峰p(+l )為相對於該同位素峰p(+(l -1))的下一個較大的同位素峰，且根據平均同位素間距該同位素峰p(-m )為相對於該同位素峰p(-(m -1))的下一個較小的同位素峰。 4. 如具體實施例2或3之方法，其中各該強度在被加總之前，係通過除以對應的同位素峰的電荷狀態以標準化對應的同位素峰的電荷狀態。 5. 如具體實施例2之方法，其中該平均同位素間距為約1道爾頓。 6. 如具體實施例5之方法，其中該平均同位素間距為1.00235道爾頓。 7. 如具體實施例1之方法，其中該質譜係通過高解析質譜儀所獲得。 8. 如具體實施例1之方法，其中該主離子簇與該一系列模擬離子簇係通過選自由卡方檢定、皮爾遜卡方檢定、使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定所組成之群組的方法進行比較。 9. 如具體實施例1-8中任一實施例之方法，其中該一系列模擬離子簇中的每一個係通過包含以下的方法所產生：提供一具有或不具有修飾的化學式為C_v H_w O_x N_y S_z 的全長蛋白，結合C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇，以獲得具有或不具有修飾的該全長蛋白的模擬離子簇，其中該C_v 的推定離子簇由強度

表示，

以及

表示，

以及

分別為¹ H以及² H的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該O_x 的推定離子簇由強度

表示，

、

以及

表示，

以及

表示，

、

以及

分別為³² S、³³ S、³⁴ S以及³⁶ S的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰。 10. 如具體實施例9之方法，其中該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇被一個接一個地組合。 11. 如具體實施例9之方法，其中該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇係根據該峰的位置被組合。 12. 如具體實施例10或11之方法，其中該C_v 、H_w 、O_x 、N_y 以及S_z 的推定離子簇係通過包含以下的方法組合：(i) 計算強度I_M,CH ，每個強度等於

；(ii) 計算強度I_M,CHO ，每個強度等於

；(iii) 計算強度I_M,CHON ，每個強度等於

；(iv) 計算強度I_M,CHONS ，每個強度等於

；其中i 為一非負數的整數，M為除了該推定的單同位素峰之外的推定的同位素峰的數目；且其中該強度I_M,CHONS 表示具有或不具有修飾的該全長蛋白質的模擬離子簇。 13. 如具體實施例1之方法，其中該一系列模擬離子簇對應於自該蛋白質樣品的化學式添加或去除數個氫原子而得到的一系列化學式。 14. 如具體實施例13之方法，其中，在該一系列模擬離子簇中的每個離子簇成員係通過多個單元素離子簇的組合計算產生，每個單元素離子簇具有與該離子簇成員的化學式相同的原子數。 15. 如具體實施例14之方法，其中，基於具有在該離子簇成員中的相同位置數的同位素異構體以在該離子簇的百分比以及加權分子量被積分，該離子簇成員由單元素離子簇的順序成對組合而來。 16. 如具體實施例15之方法，其中該離子簇中的同位素異構體的百分比的該積分為具有相同位置數的所有同位素異構體的所有百分比的總和。 17. 如具體實施例15之方法，其中該分子量為以下等式的結果：

其中

以及

為分子量，

以及

分別為在積分之前的第一以及第二離子簇中的同位素異構體的百分比。 18. 如具體實施例15之方法，其中每個多元素同位素異構體的該位置數等於以下等式的結果：

其中

為包含在該多元素同位素異構體中的第j 個元素

中第i 個最輕同位素的數目。 19. 如具體實施例18之方法，其中i 為

的四捨五入整數，其中

為該同位素I 的分子量，且

為該元素的單一同位素質量。 20. 如具體實施例18之方法，其中第二最輕同位素（當i = 2）為¹³ C、² H、¹⁵ N、¹⁷ O、³³ S；第三個最輕同位素（當i = 3）為¹⁴ C、³ H、¹⁶ N、¹⁸ O、³⁴ S；第四最輕同位素（當i = 4）為³⁵ S；以及第五最輕同位素（當i = 5）為³⁶ S。 21. 如具體實施例14之方法，其中每個單元素離子簇的生成係基於以下原理達成的：在該單元素離子簇中具有相同位置數的同位素異構體係根據在該離子簇內的百分比以及加權分子量被積分。 22. 如具體實施例21之方法，其中每個單元素同位素異構體的位置數等於以下等式的結果：

其中

為包括在該單元素同位素異構體中的該元素的第i 個最輕同位素的數目。 23. 如具體實施例22之方法，其中該i 為

的四捨五入整數，其中

為該同位素I 的分子量，

為該元素的單一同位素質量。 24. 如具體實施例14之方法，其中各該單元素離子簇係直接取自含有不同原子數的單元素化合物的模擬離子簇所組成的資料庫。

本發明將透過以下實施例進一步說明，實施例係為了說明而非限制之目的所提供的。

實例 1. 用於驗證蛋白質一級結構的流程圖

使用質譜儀分析具有或不具有先前樣品製備物的蛋白質樣品，並以演算法處理MS數據，演算法例如內部的IntegrateMS ，其執行離子簇定位與加總和以生成觀察到的主離子簇。同時，蛋白質樣品的推定的一級(1°)結構，包括胺基酸序列以及修飾，被轉換為預期的化學式C_v H_w O_x N_y S_z (⁰ CF)。為了驗證蛋白質樣品的化學式，一系列模擬離子簇係以程式建構/計算，例如，根據化學式CF(m ) =⁰ CF + H ‧ m 之內部的MacroCluster ，其中m 的範圍為-3至+3。最後，演算法，例如內部的CompareMS ，被用於將該主離子簇與每個模擬離子簇進行比較，以提供針對CF(m)的模擬離子簇的不同評分(^m DS)系列。只有當⁰ DS為整個DS系列中的最小評分時才驗證蛋白質樣品的一級結構(參見圖1)。

一級結構的驗證，包括胺基酸序列與轉譯後修飾(PTMs)，對於蛋白質治療藥物的品質評估是重要的。儘管蛋白質修飾作用是蛋白質結構的關鍵要素，且通常與特定功能相關，但評估存在於蛋白質治療藥物中的這種複雜結構仍是一個巨大挑戰。具體而言，蛋白質修飾所導致小的分子量變化，例如雙硫鍵、醯胺化以及去醯胺化，無法使用常規還原劑的方法適當地分析。相反地，使用質譜儀記錄蛋白質治療藥物的分子量可以作為確認其預期化學式的第一步。雖然高解析度質譜儀可用於辨別蛋白質治療藥物的細節，但我們目前沒有足夠的知識以及方法來正確分析其一級結構。我們已進行資訊學方法以幫助理解如何基於離子簇中含量最高的質量的特徵來推斷蛋白質治療藥物的單一同位素質量（Chenet al. ,Anal Biochem 440, 108-113 (2013)）。在這個過程中，我們發現模擬離子簇形成的資訊學方法對於開發直接驗證蛋白質一級結構的方法是必要的，特別是那些具有小的分子量變化的蛋白質修飾，例如雙硫鍵形成、Gln/Asn去醯胺化或Glu/Asp醯胺化。

為了測試我們的假設，我們精簡了分析程序並建立了基於資訊學的方法，通過將主離子簇與基於透過自蛋白質樣品的化學式中添加或去除數個氫原子所產生的化學式生成的一系列模擬離子簇進行配對，以推斷蛋白質治療藥物可能的一級結構。

首先使用高解析度質譜儀分析該具有或不具有預處理的蛋白質樣品。使用例如IntegrateMS 的程式來處理該質譜數據，通過計算合併從該蛋白質樣品鑑定出的但具有不同電荷狀態的離子簇，以獲得主離子簇。基於其蛋白質序列以及已知的蛋白質修飾作用，使用例如MacroCluster 的軟體，推導出測試蛋白質樣品的推定的化學式C_v H_w O_x N_y S_z (⁰ CF)；該相同的程式亦基於透過自該推定的一級結構⁰ CF的化學式添加或去除數個氫原子而產生的化學式CF(m )來產生一系列模擬離子簇。最後，例如CompareMS 的程式被用於基於其與主離子簇的差異而提供每個模擬離子簇的差異評分(^m DS)。只有當DS系列中⁰ DS具有較小值時，才確認該蛋白質樣品的一級結構（參見圖1）。

實例 2. 測試的治療藥物 -PNGase F- 處理的紅血球生成素的蛋白質序列

提供以PNGase F處理的紅血球生成素的一級結構資訊以建構用於建立模擬離子簇的基線。N →D 表示在以酵素去除N -連接的聚醣後，三個天冬醯胺酸殘基（N）被替代為三個天冬胺酸殘基（具有底線的D）。實線表示兩個半胱胺酸殘基之間的二硫鍵聯。三糖NeuAc-Hex-HexNAc （圖2A）與四糖NeuAc-Hex-HexNAc-NeuAc （圖2B）為絲胺酸126上的二種可能類型的O -連接聚醣。具有三糖或四糖的去-N -糖基化紅血球生成素的推定化學式分別推定為C₈₃₄ H₁₃₃₈ O₂₆₁ N₂₂₈ S₅ 或C₈₄₅ H₁₃₅₅ O₂₆₉ N₂₂₉ S₅ 。

在我們的研究中，使用去除了N -寡糖的紅血球生成素作為用於以我們的完整蛋白質分析驗證其一級結構的實例。在以酵素去除N -連接的聚醣後，該推定的治療藥物，去-N -糖基化的紅血球生成素被報告含有165個胺基酸，其中三個天冬醯胺酸被替換為三個天冬胺酸（N→D）（圖2A以及2B）。此外，其蛋白質修飾包括在絲胺酸126上的兩個雙硫鍵以及一個O -連接的糖基化，其中其可以被修飾為二種可能類型的O -連接的聚醣，要不是三糖NeuAc-Hex-HexNAc (圖2A)，就是四糖NeuAc-Hex-HexNAc-NeuAc (圖2B)。因此，具有三糖或四糖的去-N -糖基化紅血球生成素的推定化學式分別推導為C₈₃₄ H₁₃₃₈ O₂₆₁ N₂₂₈ S₅ 或C₈₄₅ H₁₃₅₅ O₂₆₉ N₂₂₉ S₅ 。基於這些化學式的資訊，我們將演示我們提出的方法可以幫助精確地驗證該一級結構。

實例 3 具有或不具有 PNGase F 處理的紅血球生成素產物的 SDS-PAGE 分析

具有(圖3，第3道及第5道)或不具有PNGase F (NG-F)處理的(圖3，第2道及第4道)的紅血球生成素樣品在非還原條件下進行電泳分析，並以銀染色使其在凝膠上顯現。左邊的數字，以千道爾頓(kDa)表示，為分子量標記的位置。Eprex與Recormon的批號分別為EFS5600以及H0743H01。

為了以我們提出的分析方法驗證蛋白質治療藥物的一級結構，首先選擇來自人類的紅血球生成素作為測試蛋白質。目前可在市場上購得在細胞培養物中透過重組DNA技術產生的各種生物以及生物相似的紅血球生成素藥物。針對衍生自複雜生物系統的這些蛋白質治療藥物的品質控制仍然是巨大的挑戰。紅血球生成素是一種分子量約30.4kDa的糖蛋白，其分子量的一半為糖基。多胜肽骨架估計為約18kDa。紅血球生成素上的三個N-連接的糖基化位點已被報告會導致十二種蛋白質結構，這使得檢測紅血球生成素產物的轉譯後修飾變得困難。

為了驗證去除N -連接的糖基化是否簡化了紅血球生成素結構的多樣性並且有助於更容易地檢測其他修飾，我們進行SDS-PAGE實驗以分析具有或不具有PNGase F處理的紅血球生成素。

將二種品牌的紅血球生成素樣品分別於37°C下在含有或不含有3單位的PNGase F (NG-F)的25 mM碳酸氫銨緩衝液中培養2小時，然後加入5 μl 4X樣品緩衝液，其由Tris pH 6.8，10% (w/v) SDS，0.4% (w/v)溴酚藍以及50% (v/v)甘油所組成，然後於95°C下加熱10分鐘。然後將那些處理過的樣品在非還原條件下在150V、15% SDS-PAGE上進行電泳，直到追蹤染料到達凝膠底部。然後以銀染顯影電泳後的凝膠。

SDS-PAGE分析顯示，PNGase F處理前的紅血球生成素樣品在非還原條件下，在約30kDa至約40kDa的範圍以模糊條帶遷移。當將以PNGase F處理的紅血球生成素進行非還原性SDS-PAGE分析時，其遷移的方式為二條約20kDa的多胜肽。然而，它們的凝膠遷移率更接近紅血球生成素的多胜肽的已知長度。這些數據一起表明從約30kDa至約40kDa之廣泛分布的種類主要由N 連接的糖基化的多樣性所引起。此外，這些數據支持PNGase F可以作為完全去除複雜的N -連接糖基化的酵素。

實例 4. 在液相色層分析 - 質譜 (LC-MS) 分析中 PNGase F 處理的 Eprex 與 Recormon 的總體電荷狀態分佈

去-N -糖基化的Eprex (圖4A)以及Recormon (圖4B)的平均質譜在所選的LC保留時間範圍內產生，並在指定的質量範圍內擴大。MS訊號頂部的正數表示離子簇的電荷狀態。箭頭分別標記了對應於具有三糖(I)以及四糖(II)的去N -糖基化紅血球生成素的+15個離子簇的兩個主要訊號，其隨後以我們的方法進行了驗證。

為了鑑定凝膠上的兩個約20kDa的多胜肽是否確實由去除N -連接的聚醣後的紅血球生成素的O -連接的糖基化所產生，並且驗證它們是否含有兩個雙硫鍵，我們使用液相色層分析-質譜法(LC-MS)以檢查這二種多胜肽的結構細節。

為了檢查這兩種完整多胜肽的MS圖譜，我們進一步對PNGase F處理的紅血球生成素進行LC-MS分析。

在裝有Agilent 1200奈米升流HPLC系統的LTQ-Orbitrap雜交串聯質譜儀(ThermoFisher公司，美國)中分析PNGase F處理的樣品。HPLC系統配備有作為分離管柱的Agilent mRP-C18高度回收蛋白質管柱(長度：100 mm；內徑：0.5 mm；小珠尺寸：5 μm)。流動相由(A) 0.1%甲酸水溶液以及(B) 0.1%甲酸的乙腈溶液所組成。在m/z 200-2000的質量範圍內，以100,000的解析能力收集全質譜與SIM質譜。使用Xcalibur軟體(ThermoFisher公司，美國)分析收集的數據。

LC-MS分析顯示，對於不同品牌的紅血球生成素，例如Eprex (圖4A)與Recormon (圖4B)，檢測到二種主要蛋白質種類(I與II)。這二種離子中的大部分具有+11至+16的電荷。然而，在Eprex與Recormon中觀察到這兩個主要訊號的逆轉比率。此外，它們還導致不同的電荷狀態分佈圖樣。基於先前報告的M_ma -轉-M_mi 逼近法的質量測定，主要形式I可首先被證實為具有O -連接的三糖的去-N -糖基化紅血球生成素，而主要形式II則為相同但具有四糖的去-N -糖基化紅血球生成素。然而，雙硫鍵的質量移動太小，不能以M_ma -轉-M_mi 方法闡明其存在於這些結構上。因此，在此開發了新的分析方法來解決此測定質量的難題。所有這些具有不同電荷狀態但來自相同紅血球生成素種類的離子訊號將被辨識，而且隨後透過使用我們內部的程式IntegrateMS ，而被併入觀察到的主離子簇中。得到的兩個觀察到的主離子簇將用我們的資訊學方法驗證，以回答它們是否確實是報告的具有兩個雙硫鍵的含O 連接寡糖的紅血球生成素。

實例 5. IntegrateMS 的工作流程：挖掘離子簇並獲得目標蛋白的標準化質譜 (MS)

用於篩選出在不同電荷狀態P₂ 中的目標蛋白質的離子簇。作為離子簇捕獲的開始，輸入在充電狀態P₂ 下含量最多的質荷比(m/z)_ma 作為P₁ 。每個電荷狀態，自P₂ +N至P₂ -N，具有其自身的(m/z)_ma 。如果P₂ 中的P₁ 出現在頻譜中，則進行FullCluster 演算法以在P₂ 電荷狀態下獲得完整簇。若否，則應用下一個P₂ +N或P₂ -N。對於在某種電荷狀態下的離子簇進行挖掘，FullCluster 演算法被設計為鉤住(m/z)_ma ，然後搜索m/z 為(m/z)_ma +(1.00235 / x)‧L的鄰域峰。如果多個峰被檢測到具有質量誤差小於15 ppm，則選擇I_L,x 的最大值作為具有位置L的離子訊號。簇端的左半部分的檢測為

，當達到小於5%的相對含量時，以右半部分簇端的檢測作為離子，其中

為一蛋白質的單一同位素質量與含量最多的質量之間的標稱質量差異（Chenet al. ,Anal Biochem 440, 108-113 (2013)）。使用FullCluster 演算法 搜索出不同電荷狀態下的各個簇，以獲得多個離子簇。將檢測的離子簇組合並且標準化以接近觀察到的主離子簇。x：電荷狀態。

實例 6. 藉由 IntegrateMS 自 MS 原始數據挖掘的具有 O - 連接的三糖的去 -N - 糖基化的 Eprex 的離子簇以及隨後的整合的主離子簇

在推測的分析物，PNGase F處理的Eprex，的LC-MS分析之後，藉由IntegrateMS 處理質譜分析原始數據，以獲得具有10至18的電荷狀態的具有O -連接的三糖的去-N -糖基化的Eprex的離子簇(圖6，上面的虛線輪廓)。當所有個別的簇聚集時，藉由不同電荷狀態中具有相同位置的訊號的總和，得到觀察到的主離子簇(圖6，下面的虛線輪廓)。

實例 7. 藉由 IntegrateMS 自 MS 原始數據挖掘的具有 O - 連接的四糖的去 -N - 糖基化的 Eprex 的離子簇以及隨後的整合的主離子簇

在推測的分析物，PNGase F處理的Eprex，的LC-MS分析後，藉由IntegrateMS 處理質譜分析原始數據，以獲得具有10至19的電荷狀態的具有O -連接的四糖的去-N -糖基化的Eprex的離子簇(圖7，上面的虛線輪廓)。當所有個別簇聚集時，藉由不同電荷狀態中具有相同位置的訊號的總和，得到觀察到的主離子簇(圖7，下面的虛線輪廓)。

實例 8. IntegrateMS 程式

當蛋白質分子通過電灑游離而離子化時，這些分子可以採用不同數量的質子以成為具有各種正電荷狀態的分子離子。當具有特定電荷狀態的分子離子在質量分析器中接近地一起移動時，在高解析度質譜中它們應當成為一個離子簇。當採用不同數量的質子時，即使對於具有一種單一化學式的蛋白質，在質譜中應該觀察到多個離子簇（Zhanget al. ,J Am Soc Mass Spectrom 9, 225-33 (1998)）。在我們先前的版本中，我們選擇具有最高訊號的離子簇用於以後的CompareMS 分析(未顯示數據)。我們已經觀察到，這些離子簇中的大多數沒有平滑的圖譜，而且許多甚至有缺陷，在簇中缺少幾個峰。有趣的是，當這些簇被放在一起成為一個整合的簇，這個合成的簇具有一個更光滑的圖譜。因此，這種對訊號整合的顯著改進促使我們開發出可以自動檢測來自相同蛋白質分子但具有不同電荷狀態的那些簇的電腦程式。

開發自動挖掘來自不同電荷狀態的目標MS訊號的離子簇(圖5)。當分析蛋白質樣品的LC-MS數據時，有兩個參數P₁ 與P₂ 被考慮用於IntegrateMS 程式。P₁ 為簇中最高訊號的m/z 值，或(m/z)_ma ，P₂ 為該m/z 值的電荷狀態。首先，基於對每個離子簇的(m/z)_ma 的檢測，使用P₁ 與P₂ 來檢查是否存在處於不同電荷狀態的簇。當存在(m/z)_ma 的訊號時，開始FullCluster 演算法。

FullCluster 演算法假定在簇中相鄰訊號之間的質量差為1.00235，其係使用Averagine概念所導出（Chenet al. ,Anal Biochem 440, 108-113 (2013)；Senkoet al. ,J Am Soc Mass Spectrom 6, 229-233 (1995)）。對於電荷狀態為P₂ 的簇，我們將使用質量步驟(1.00235/P₂ ) × L來檢查在該簇中是否存在其他峰。對於簇的左半部分，L為自-1至–(ΔM_N +2)的範圍的負整數。該ΔM_N 值為一蛋白質的單一同位素質量與含量最多的質量之間的標準質量差異（Chenet al. ,Anal Biochem 440, 108-113 (2013)）。根據我們的計算（Chenet al. ,Anal Biochem 440, 108-113 (2013)），ΔM_N 本身是蛋白質分子量的函數，特別是ΔM_N = 0.63 ×M_ma (KDa) - 0.62。針對該簇的右半部分，L為正整數，範圍自+1至其訊號強度小於0.05倍(m/z)_ma 的強度(即I_{o, P2} )數字。當發現這些訊號存在時，它們的每個訊號強度I_{L, P2} 將被記錄。那些具有檢測到(m/z)_ma 的簇也進行FullCluster 分析。因此，所有的簇根據它們的L值對準，而且具有相同L值的訊號強度被加在一起，這產生主要觀察的離子簇(圖5)。

使用IntegrateMS 程式的樣品結果

我們應用IntegrateMS 分析獲得之去N -糖基化紅血球生成素的數據。紅血球生成素是一種約18-KDa的構築體，且其一級結構，包括一個O -連接的糖基化以及兩個雙硫鍵，已經初步地使用我們的M_ma -轉-M_mi 方法驗證(數據未顯示) （Chenet al. ,Anal Biochem 440, 108-113 (2013)）。如上所述，在定位正確的M_ma 時存在一些問題，因此，我們希望在IntegrateMS 分析上確認這些結果以產生主離子簇。通過整合的結果隨後以接續的程式分析。

對於去-N -糖基化的Eprex與具有O -連接的三糖的整合，我們使用(m/z)_ma = 1350.629作為P₁ 參數，而電荷狀態z = 14作為參數P₂ 。IntegrateMS 程式從電荷狀態10到18發現了9個(m/z)_ma 值。藉由這些(m/z)_ma 值描繪了9個離子簇(圖6)。在這些離子簇中，+14至+16的狀態具有相當平滑的分佈。然而，其他的離子簇的概況就沒有那麼完美，特別是+10、+17以及+18簇有許多的缺陷。在積分時，主離子簇最終具有最佳分佈模式。且為了去-N -糖基化的Eprex與O -連接的四糖的整合，我們使用1280.126以及15作為P₁ 與P₂ ，以用於鑑定所有相關的離子簇。程式發現十個(m/z)_ma 值，它們全部被挖掘為非平滑簇(圖7)。雖然主離子簇保持一個漸強以及漸弱圖案的完整，但整體圖案不是那麼光滑。

總之，儘管這些推導顯示了IntegrateMS 在完成簇分析中的作用，主離子簇所具有的較光滑的圖譜突顯了即使在不同的電荷狀態下集體考慮所有分子離子的必要性。

實例 9. 可以藉由 MacroCluster 透過基於強度列表的簇扣除來計算模擬同位素分佈

在離子簇預測之前，分別計算許多數量的每個元素，C、H、O、N以及S的同位素分佈的強度，並記錄在元素特異性強度列表中(圖19-23)。對於模擬離子簇分析，為建立蛋白質的模擬簇，輸入的一級結構資訊如序列以及PTM被總和為化學式C_v H_w O_x N_y S_z 。透過查詢元素-特定強度列表而獲得C_v 、H_w 、O_x 、N_y 以及S_z 的同位素分佈。透過查詢表程序選擇的單一元素離子簇用以下合併演算法處理以獲得推定蛋白質的模擬離子簇。

實例 10. 基於透過合併演算法 逐漸組合單一元素離子簇的模擬離子簇之計算

為了計算具有化學式C_v H_w O_x N_y S_z 的治療藥物的離子分佈，設計查詢表程序以基於該分子內每種元素的總量而獲得元素-特定離子簇。此外，每個元素的組合由以

來合併C_v 與H_w 以得到C_v H_w 的程序開始。將元素O_x, 、N_y 以及S_z 合併為中間體C_v H_w 、C_v H_w O_x 以及C_v H_w O_x N_y 的概念分別與上面的公式

、

以及

相同。

實例 11. 使用動態程式計算元素 C 、 H 以及 N 的強度列表構築的同位素分佈

在胺基酸組成的元素中，C、H以及N具有兩個天然同位素。我們假設單一同位素離子由峰數0提供。針對N，峰數0的強度的推導可以寫為

，而峰值數目n 的強度可以定義為

，

分別為¹⁴ N與¹⁵ N的天然豐度；I_0,y ：具有總原子數y的峰數0的強度。參見圖10。

實例 12. 使用動態程式計算元素 O 的強度列表構築的同位素分佈

胺基酸組成元素O具有三種天然同位素¹⁶ O、¹⁷ O以及¹⁸ O。單一同位素離子強度的推導可以寫為

，而峰值數n 的強度可以定義為

，

：分別為¹⁶ O、¹⁷ O以及¹⁸ O的天然含量。I_0,x ：具有總原子數x的峰數0的強度。參見圖11。

實例 13. 使用動態程式計算元素 S 的強度列表構築的同位素分佈

胺基酸組成元素S具有四種天然同位素，³² S、³³ S、³⁴ S以及³⁶ S。單一同位素離子強度的推導可以寫為

，而峰值數n 的強度可以定義為

。參見圖12。

實例 14. 基於順序合併方法開發的 MacroCluster 程式

我們先前已經開發了通過使用高解析度質譜儀測定的單一同位素質量(M_mi )以及最多含量質量(M_ma )之間的關係的記錄來推斷蛋白質治療藥物的單一同位素質量的方法。我們發現，當在離子簇中存在幾個具有相似強度的訊號時，有時難以執行精確的M_mi 推導。峰強度中的相似性在M_ma 峰的指定中產生模糊性，而且錯誤指定的M_ma 可導致M_mi 測定中的主要誤差。因此，驅使我們去考慮離子簇中的所有訊號，而不是單一的M_ma 訊號來鑑定其蛋白質一級結構。因此，應該建立自輸入的一級結構自動產生全模擬離子簇。

為了描繪模擬離子簇，我們首先需要開發可以計算由五種元素的同位素構成的不同同位素異構體的相對含量的方法，該五種元素包括碳(C)、氫(H)、氮(N)、氧(O)以及硫(S)。然後，這些方法需要將分子量太接近以致於不能藉由質譜儀分析的那些同位素異構體的含量加總在一起。任何元素的較小同位素(M_mi 同位素)以及其它同位素(非M_mi 同位素)之間的質量差非常接近1道爾頓或其倍數的事實促進了該加總的程序。具體而言，¹³ C-¹² C的質量差為1.003355Da；² H-¹ H的差為1.006277Da；¹⁷ O-¹⁶ O以及¹⁸ O-¹⁶ O的差異分別為1.004218以及2.004246Da；¹⁵ N-¹⁴ N的差為0.997035Da；³³ S-³² S、³⁴ S-³² S，以及³⁶ S-³² S的差分別為0.999387、1.995796，以及3.99501Da。因此，對任何非M_mi 同位素的使用應當產生以約1Da為基本單位的質量移動。如果只含有M_mi 同位素的峰被認為是原始位置，或位置0，則使用任何最小的非M_mi 同位素，例如，¹³ C、² H、¹⁷ O、¹⁵ N以及³³ S，將其同位素異構體移出位置0以及位置1。同樣地，使用任何第二小的非M_mi 同位素，例如，¹⁸ O以及³⁴ S，應將其同位素異構體從位置0移到位置2。換言之，同位素異構體中非M_mi 同位素的數量以及類型決定其在離子簇中的位置。由於這個原理，可以識別、分組以及合併預期在相同的簇位置上的那些同位素異構體，以推斷它們在質譜中的集體含量。

基於這個概念，我們可以簡單地定義在一離子簇中同位素異構體的簇位置。針對每個單一元素同位素異構體，其位置數等於下式的結果：

，其中

為包括在單一元素同位素異構體中的元素的第i個最輕同位素的數目(參見表1)，而且i 為

的四捨五入整數，其中

為同位素I 的分子量，且

為該元素的單一同位素質量。

此外，對於具有多個元素的類分子蛋白質，多元素同位素異構體的位置數等於下式的結果：

，其中

為包括在多元素同位素異構體中的第j 個元素

中第i 個最輕同位素的數量，而且i 為

的四捨五入整數，其中

為同位素I 的分子量，

為該元素的單一同位素質量。第二輕的同位素（當i = 3）為¹³ C、² H、¹⁵ N、¹⁷ O、³³ S；第三輕的同位素（當i = 3），為¹⁴ C、³ H、¹⁶ N、¹⁸ O、³⁴ S；第四輕的同位素（當i = 4），為³⁵ S；以及第五輕的同位素（當i = 5）為³⁶ S (參見表1)。因此，具有多個元素的多胜肽的同位素異構體可以基於其在離子簇中的位置編號以進行分組。

MacroCluster 程式使用基於一組離子簇的逐步程序，每個離子簇所分析的分子包含僅一種類型的元素且相同的原子數的。例如，如果一蛋白質具有C_v H_w O_x N_y S_z 的化學式，則預先使用動態程式設計 (dynamic programming )方法已經獲得的C_v 、H_w 、O_x 、N_y 以及S_z 的離子簇(見下文)被取出然後依序被合併(圖8)。首先，C_v 離子簇與H_w 離子簇合併。基於以上所示之原理，兩個合併峰的新位置等於其合併之前的兩個位置數的總和。因此，所得之C_v H_w 簇的第m 個位置的峰強度(I_m,CH )可以根據下式推導：

其中I_i,C 為C_v 簇的第i 個位置處的峰的強度，I_(m-i),H 為H_w 簇的第(m-i )個位置處的峰的強度。值得注意的是，針對大多數蛋白質的分子量範圍，僅開頭的前幾十個位置，該強度將夠高到足以列入考慮 (未顯示數據)。這些觀察有助於得出以下結論，不必對所有可能的訊號執行完整的計算。相反的，我們只進行合併過程中涉及的任何簇中的前一百個峰的合併。一旦推導出C_v H_w 簇的峰強度，以下合併計算就繼續(圖9)：

,

, 以及

, 具有上述相同的合併原則。值得注意的是，只產生從第0-至第99-個位置的峰強度。

藉由MacroCluster 程式預處理強度列表以用於快速獲取所需的資訊。

如上所示，我們需要在積分分析中使用的僅具有1-Da質量差的一系列離子簇。使用預計算概念來大幅提高產生這些離子簇的生產量似乎是合理的。因此，我們決定建立元素-特定強度列表，其中每個包含虛擬化合物的模擬離子簇，如C_v 、H_w 、O_x 、N_y 以及S_z 。為了產生這樣的列表，我們已經測試了二項式以及多項式擴展方法（Yergey,Int J Mass Spectrom Ion Phys 52, 337-349 (1983); Yergeyet al. ,Anal Chem 55, 353-356 (1983)），雖然當原子數目增加超過某些限度(未顯示數據)時可能發生較大的誤差。相反地，我們在所提及的原理的基礎上開發了一種動態程式設計 方法，包括非M_mi 同位素引起在離子簇中的相應位置位移。對於具有兩個穩定同位素的元素，例如碳，存在二種且只有二種類型的「途徑」以合成存在於離子簇C_v 的第n 個峰中的同位素異構體。第一種方法是將¹² C，M_mi 同位素，加到存在於C_v-1 簇的相同位置(n )的那些同位素異構體；這種「合成」不產生位置偏移。另一種方法是將¹³ C，唯一的非M_mi 碳同位素，加到存在於C_v-1 簇的(n -1)位置的那些同位素異構體。由於最小的非M_mi 同位素應該引起1的位移，所有的產物將在C_v 簇的第n 個位置被發現。因此，離子簇C_v 的第n 個峰中的強度(I_n,v )應當等於：

，其中A_12C 以及A_13C 為¹² C以及¹³ C的自然百分比，且I_{n, v-1} 以及I_n-1,v-1 為C_v-1 簇中的第n 個以及第(n-1 )個峰的峰強度。同樣地，離子簇H_w 以及N_y 的第n個峰的強度(I_n,v )應當對應於：

，以及

(圖10)。

這表示具有特定原子數的每種元素-特定化合物的離子簇總是可以通過其衍生物的簇減去一個原子而被推導出。該原理可以進一步擴展到O_x 以及S_z 簇的計算。針對前者，存在二種非M_mi 同位素，¹⁷ O以及¹⁸ O，它們的包含應分別導致位移中的一步以及二步。因此，離子簇O_x 的第n 個峰中的強度(I_n,x )應當等於：

，其中A_16O 、A_17O 以及A_18O 為¹⁶ O、¹⁷ O以及¹⁸ C的自然百分比，且I_{n, x-1} 、I_n-1,x-1 以及I_n-2,x-1 為在該O _x _-1 簇中第n -、(n -1)-以及(n -2)-個峰的鋒強度(圖11)。當S_z 簇被製造時，有三種非M_mi 同位素，即³³ S、³⁴ S以及³⁶ S可被考慮。離子簇S_z 的第n 個峰中的強度(I_n,z )應當等於：

，其中A_32S 、A_33S 、A_34S 以及A_36S 為³² S、³³ S、³⁴ S以及³⁶ S的自然百分比，且I_{n, z-1} 、I_n-1,z-1 、I_n-2,z-1 以及I_n-4,z-1 為在該S_z-1 簇中第n -、(n-1 )-、(n-2 )-以及(n-4 )-個鋒的鋒強度(圖12)。藉由這些方程式，我們使用電腦程式設計產生了這五個元素的強度列表(見圖19-23)。

實例 15. 使用 CompareMS 程式驗證去 -N - 糖基化的 Eprex 的一級結構

為了驗證該受檢驗的治療藥物，具有O -連接的三糖的去-N -糖基化的Eprex，的化學式，首先透過MS分析獲得觀察到的主離子簇(實線輪廓)，接著透過基於資訊學的IntegrateMS 處理(圖13A)。同時，為了MacroCluster 存取該構築體的序列。建立推定治療藥物的模擬離子簇(具有m為零的虛線輪廓)，而且還構築了具有添加或去除的數個氫原子的推定化學式的一系列預測離子簇(虛線輪廓)。圖13B下圖中柱狀上方的數字為這些衍生物的差異評分(difference scores，DS)。具有O -連接的四糖的去-N -糖基化的Eprex的CompareMS 結果(圖13B)。Eprex批次：EFS5600。

實例 16. 使用 CompareMS 程式驗證去 -N- 糖基化的 Recormon 的一級結構

為了驗證該受檢驗的治療藥物，具有O -連接的三糖的去-N -糖基化的Recormon，的化學式，首先透過MS分析獲得觀察到的主離子簇(實線輪廓)，接著透過基於資訊學的IntegrateMS 處理(圖14A)。同時，為了MacroCluster 存取該構築體的序列。建立推定治療藥物的模擬離子簇(具有m為零的虛線輪廓)，而且還構築了具有添加或去除的數個氫原子的推定化學式的一系列預測離子簇(虛線輪廓)。圖14B下圖中柱狀上方的數字為這些衍生物的差異評分(DS)。具有O -連接的四糖的去-N -糖基化的Recormon的CompareMS 結果(圖14B)。Recormon批次：H0743H01。

實例 17.CompareMS 程式從由 MacroCluster 生產的一系列離子簇中找到主離子簇的配對

為了驗證蛋白質分析物的化學式，已經將CompareMS 編碼為使用MacroCluster 以產生具有確實為一個氫原子差異的一系列化合物的離子簇。

常規地，產生具有額外氫原子的三種化合物，即將一至三個氫原子加入到蛋白質分析物的化學式中。此外，去除氫原子的三個化合物，亦即，從原始化學式中去除一至三個原子。然後產生共七種化合物的離子簇。為了量化主離子簇與七個離子簇中的每一個之間的差異，CompareMS 將參數或差異評分(DS)標記到每個離子簇上。差異評分定義為：

其中A_o,k 以及A_t,k 代表在觀察到的以及模擬的簇中第k個峰的相對含量，而E_o,k 以及E_t,k 分別表示第k個峰的預期含量。較小的DS表示兩個離子簇之間的較高相似性。在所有受檢查的簇中，將具有最小DS的簇進行標記，我們檢查其化學式是否與列出的蛋白質的一級結構一致。如果答案是肯定的，那麼蛋白質一級結構的初步驗證便完成(圖1)。

實例 18. 使用 CompareMS 程式證實去 -N - 糖基化的紅血球生成素的一級結構

具有去除N -連接的聚醣的紅血球生成素的一級結構被認為含有165個胺基酸序列，其中三個天冬醯胺酸被替換為三個天冬胺酸，一個O -連接的糖基化以及兩個雙硫鍵。在這些修飾中，O -連接的糖基化表示為添加一種三糖或一種四糖(圖2)。如上所述，我們已經分別用O -連接的三糖以及O -連接的四糖產生去-N -糖基化的紅血球生成素的主離子簇。然後我們使用其化學式來產生各自的系列模擬離子簇。對於具有O -連接的三糖分析的去N -糖基化的紅血球生成素，我們使用C₈₃₄ H₁₃₃₈ O₂₆₁ N₂₂₈ S₅ 產生七個離子簇，並且將差異評分(DS)指定給這些簇中的每一個。我們發現，不論是Eprex或Recormon，不添加或去除氫的結構具有最低的差異分數，即(Eprex為0.08，Recormon為0.01)。由於去除一個氫以及添加一個氫的結構具有非常相似的差異分數(圖13以及14)，這些數據表明大多數具有兩個雙硫鍵並帶有O -連接的三糖的去-N -糖基化的紅血球生成素具有的化學式為C₈₃₄ H₁₃₃₈ O₂₆₁ N₂₂₈ S₅ 。事實上，我們的分析成功的證實了去-N -糖基化紅血球生成素的一級結構。對於具有O -連接的四糖的去-N -糖基化紅血球生成素的分析，我們使用C₈₄₅ H₁₃₅₅ O₂₆₉ N₂₂₉ S₅ 產生模擬離子簇，並計算差異評分。我們也發現，不添加或去除氫的結構對於具有不同品牌的二種紅血球生成素具有最低的差異評分(即Eprex為0.35，Recormon為0.1)。具有一個額外的氫以及較少氫的兩個結構具有相似的差異評分(圖13以及14)。因此，我們得出以下結論，具有O -連接的四糖的去-N -糖基化紅血球生成素的化學式應為C₈₄₅ H₁₃₅₅ O₂₆₉ N₂₂₉ S₅ ，其也證實所列的一級結構。

為了評估具有不同品牌的紅血球生成素產品的成分，將Eprex以及Recormon以我們完整的蛋白質分析進行三重複分析。

通過我們基於資訊學的方法進行不同品牌的紅血球生成素樣品的三次重複實驗，以確保方法的重複性。分別記錄具有O -連接的三糖或O -連接的四糖的去-N -糖基化的紅血球生成素的含量，並在不同輪的試驗中進行比較。含有三糖與含有四糖的Eprex的三重複的平均比率為1.21±0.19，而Recormon的平均比率為0.63±0.04 (表2)。這些結果具有低的標準偏差，這首先顯示了我們的分析方法的可重複性。此外，我們的平台揭示了存在於二種不同品牌的紅血球生成素產品中的不同比例的O 連接的寡糖含量。這指出我們的方法不僅可以定性驗證蛋白質的一級結構，而且可以定量證明完整蛋白質結構的修飾比率。該功用可以進一步應用於蛋白質治療藥物的質量控制，例如檢測批次間變化，或甚至是檢測各種品牌蛋白質產品的相似性。

表2. 來自Eprex與Recormon的三糖修飾的與四糖修飾的紅血球生成素的比例。

實例 19. 測試的治療藥物， Humulin R 的蛋白序列

提供Humulin R的一級結構資訊以建立用於建立模擬離子簇的基線。推定的治療藥物Humulin R應包含A以及B多胜肽鏈以及三個雙硫鍵(圖15，實線)，其導致其推定的化學式為C₂₅₇ H₃₈₃ O₇₇ N₆₅ S₆ 。在我們全部的蛋白質分析物驗證研究中，我們驗證了所提出的蛋白質一級結構。

實例 20. 使用本發明驗證蛋白質治療藥物， Humulin R 的一級結構

為了驗證所檢查的治療藥物，Humulin R的化學式，首先通過MS分析，然後使用IntegrateMS 基於資訊學的處理獲得觀察到的主離子簇(圖16，實線輪廓)。同時，為了MacroCluster 存取該構築體的序列。建立推定治療藥物的模擬離子簇(圖16，具有m為零的虛線輪廓)，而且也構築了具有添加或去除的數個氫原子的推定化學式的一系列預測離子簇(圖16，虛線輪廓)。圖16B下圖中柱狀上方的數字為這些衍生物的差異評分(DS)。Humulin R的批次：A930615。

實例 21. 測試的治療藥物， Saizen 的蛋白質序列

提供Saizen的一級結構資訊以建構用於建立模擬離子簇的基線。推定的治療藥物Saizen應該含有191個胺基酸以及兩個雙硫鍵(圖17，實線)，其導致其推定的化學式為C₉₉₀ H₁₅₂₈ O₃₀₀ N₂₆₂ S₇ 。在我們全部的蛋白質分析物驗證研究中，我們驗證了所提出的蛋白質一級結構。

實例 22. 蛋白質治療藥物， Saizen 的一級結構的驗證

為了驗證所檢查的治療藥物Saizen的化學式，首先通過MS分析，然後使用IntegrateMS 通過基於資訊學的處理獲得觀察到的主離子簇(圖18，實線輪廓)。同時，為了MacroCluster 存取該構築體的序列。建立推定治療藥物的模擬離子簇(圖18，具有m為零的虛線輪廓)，而且也構築了具有添加或去除的數個氫原子的推定化學式的一系列預測離子簇(圖18，虛線輪廓)。圖18B下圖中柱狀上方的數字為這些衍生物的差異評分(DS)。Saizen批次：BA020963。

實例 23. 將我們的方法應用於各種蛋白質治療藥物的品質控制

蛋白質一級結構的驗證為自生物系統生產蛋白質治療藥物後的品質控制的重要步驟。首先以不同品牌的紅血球生成素作為我們在驗證蛋白質一級結構上的成效的試驗的實例。為了放大應用這種方法，我們接著以我們的方法測試其他蛋白質藥物，如humulin R以及Saizen。Humulin為類似於身體自然產生的胰島素，其象徵作為飲食以及運動的輔助物，以改善成人以及第1型與第2型糖尿病兒童的血糖控制。針對humulin R分析，使用C₂₅₇ H₃₈₃ O₇₇ N₆₅ S₆ 的化學式以產生模擬離子簇，而且沒有加入或除去氫的結構者具有最低的差異分數，即(0.00)(圖15以及16)。這成功地證實了具有三個雙硫鍵的humulin R的一級結構。Saizen則是一種用於治療兒童以及成人生長激素缺乏症(growth hormone deficiency，GHD)的處方藥。治療用的Saizen結構與腦下腺所產生的生長激素相同。針對Saizen的分析，我們使用C₉₉₀ H₁₅₂₈ O₃₀₀ N₂₆₂ S₇ 以產生模擬離子簇，並且計算差異評分。發現沒有添加或除去氫的結構的Saizen具有最低的差異評分，即(0.16)，這與所列出之具有兩個雙硫鍵的Saizen的一級結構一致(圖17以及18)。

總之，我們已經開發了一系列電腦程式，其可以用於評估藉由高解析度質譜儀測定的化學式是否與其蛋白質一級結構一致。由於這種評估是快速、有效且一致的，該方法可以應用於蛋白質治療藥物的品質控制。

無

當結合附圖閱讀時，將更好地理解前述發明內容以及本發明以下之詳細描述。在附圖中：

圖1提供了以完整蛋白質分析驗證蛋白質一級結構的流程圖。

圖2所示為測試的治療藥物，PNGase F-處理的紅血球生成素的蛋白質序列。

圖3所示為具有或不具有PNGase F-處理的紅血球生成素產物的SDS-PAGE分析之結果。

圖4所示為在液相色層分析-質譜(LC-MS)分析中PNGase F-處理的Eprex以及Recormon的總體電荷狀態分佈。

圖5所示為IntegrateMS的工作流程：挖掘離子簇並獲得目標蛋白質的標準化質譜(MS)。

圖6所示為透過IntegrateMS以及隨後的整合的主離子簇自MS原始數據挖掘的O -連接的三糖的去-N -糖基化的Eprex的離子簇。

圖7所示為透過IntegrateMS以及隨後的整合的主離子簇自MS原始數據中挖掘的具有O -連接的四糖的去-N -糖基化的Eprex的離子簇。

圖8說明可以藉由MacroCluster透過基於強度列表的簇推導來計算模擬同位素的分佈。

圖9說明基於藉由合併演算法逐漸組合單一元素離子簇的模擬離子簇的計算。

圖10說明使用動態程式計算元素C、H以及N的強度列表構造的同位素分佈。

圖11說明使用動態程式計算元素O的強度列表構造的同位素分佈。

圖12說明使用動態程式計算元素S的強度列表構造的同位素分佈。

圖13說明使用CompareMS程式驗證去-N -糖基化的Eprex的一級結構。

圖14說明使用CompareMS程式驗證去-N -糖基化的Recormon的一級結構。

圖15所示為測試的治療藥物Humulin R的蛋白質序列。

圖16說明蛋白質治療藥物，Humulin R的一級結構驗證。

圖17所示為測試的治療藥物Saizen的蛋白質序列。

圖18說明蛋白質治療藥物Saizen的一級結構驗證。

圖19所示為碳的元素-特定強度列表；圖20所示為氫的元素-特定強度列表；圖21所示為氮的元素-特定強度列表；圖22所示為氧的元素-特定強度列表；圖22所示為硫的元素-特定強度列表。

Claims

一種通過在質譜中觀察到的離子簇與從其推定的化學式推導的一系列模擬離子簇之間的比較分析以驗證蛋白質的一級結構的方法，該方法包含以下步驟：製備用於質譜分析的蛋白質樣品；收集該蛋白質樣品的質譜；從該質譜中的複數個離子簇中獲得主離子簇；根據該蛋白質的化學式生成一系列模擬離子簇；在該一系列模擬離子簇中找到該主離子簇的最佳擬合；以及驗證該最佳擬合模擬離子簇是否對應於該蛋白質的化學式；其中該一系列模擬離子簇係根據自該蛋白質樣品的化學式添加或去除數個氫原子而得到的一系列化學式所產生，以及每個模擬離子簇係通過依序組合複數個單一元素離子簇模擬所產生，該單一元素離子簇模擬的原子數量係取自該離子簇模擬的化學式。
如請求項1之方法，其中該蛋白質樣品係通過去除繁雜類型之蛋白質修飾的程序所製備而成。
如請求項2之方法，其中該繁雜類型之蛋白質修飾係指該類型之修飾在一特定胺基酸殘基具有多於五種組合的變體。
如請求項3之方法，其中該繁雜類型之蛋白質修飾為蛋白質的天冬醯胺酸殘基的糖基化作用。
如請求項1之方法，其中該蛋白質為單株抗體、激素、生長因子、融合蛋白、細胞激素、治療性酵素、血液因子、重組疫苗，或抗凝血劑。
如請求項1之方法，其中收集的質譜係由任何質譜分析儀器決定，包括但不限於由基質輔助雷射脫附游離/飛行時間質譜儀(matrix-assisted laser desorption ionization/time of flight，MALDI-TOF)、表面增強雷射脫附游離/飛行時間質譜儀(surface enhanced laser desorption ionization/time of flight，SELDI-TOF)、液相色層分析-質譜儀(liquid chromatography-mass spectrometry，LC-MS)、液相色層分析串聯質譜儀(liquid chromatography tandem mass spectrometry，LC-MS-MS)，以及電噴霧離子化質譜儀(electrospray ionization mass spectrometry，ESI-MS)所組成之群組。
如請求項1之方法，其中該主離子簇係通過使用電腦演算法定位以及加總基於不同電荷狀態的該複數個離子簇所產生。
如請求項1之方法，其中具有化學式C_vH_wO_xN_yS_z的該離子簇模擬係通過分別針對C_v、H_w、O_x、N_y以及S_z五個單一元素離子簇模擬依序組合所產生。
如請求項8之方法，其中C_v離子簇模擬係由在整個C_v模擬
中的百分比所表示，
以及
分別為¹²C以及¹³C的天然豐度，針對相對於該推定的單一同位素質量(¹²C_v)峰作為第0個峰的第n個推定的同位素峰；H_w離子簇模擬係由在整個H_w模擬P_n,w=
中的百分比表示，
以及
分別為¹H以及²H的天然豐度，針對相對於該推定的單一同位素質量(¹H_w)峰作為第0個峰的第n個推定的同位素峰；O_x離子簇模擬係由在整個O_x模擬

中的百分比表示，
、
以及
分別為¹⁶O、¹⁷O以及¹⁸O的天然豐度，針對相對於該推定的單一同位素質量(¹⁶O_x)峰作為第0個峰的第n個推定的同位素峰；N_y離子簇模擬係由在整個N_y模擬

中的百分比表示，
以及
分別為¹⁴N以及¹⁵N的天然豐度，針對相對於該推定的單一同位素質量(¹⁴N_y)峰作為第0個峰的第n個推定的同位素峰；S_z離子簇模擬係由在整個S_z模擬

中的百分比表示，
、
、
以及
分別為³²S、³³S、³⁴S以及³⁶S的天然豐度，針對相對於該推定的單一同位素質量(³²S_z)峰作為第0個峰的第n個推定的同位素峰。
如請求項1或8之方法，其中該C_v、H_w、O_x、N_y以及S_z的單一元素離子簇模擬係由包含以下步驟的方法所組合：(i)計算在該C_vH_w模擬中相對於該推定的單一同位素質量(¹²C_v ¹H_w)峰作為第0個峰的該第M個峰的百分比P_M,CH，每個百分比等於
P _i,V×P _(M-i),w；(ii)計算在該C_vH_wO_x模擬中相對於該推定的單一同位素質量(¹²C_v ¹H_w ¹⁶O_x)峰作為第0個峰的該第M個峰的百分比P_M,CHO，每個百分比等於
P _i,CH×P _(M-i),x；(iii)計算在該C_vH_wO_xN_y模擬中相對於該推定的單一同位素質量(¹²C_v ¹H_w ¹⁶O_x ¹⁴N_y)峰作為第0個峰的該第M個峰的百分比P_M,CHON，每個百分比等於
P _i,CHO×P _(M-i),y；(iv)計算在該C_vH_wO_xN_yS_z模擬中相對於該推定的單一同位素質量(¹²C_v ¹H_w ¹⁶O_x ¹⁴N_y ³²S_z)峰作為第0個峰的該第M個峰的百分比P_M,CHONS，每個百分比等於；
P _i,CHON×P _(M-i),z；其中i為一非負數的整數。
如請求項8之方法，其中，各該單一元素離子簇模擬係直接自對應於包含不同原子數的單一元素化合物的離子簇模擬所組成的資料庫中獲取。
如請求項1之方法，其中該最佳擬合係通過找到與該主離子簇相較具有最小差異分數的模擬離子簇中的成員而被發現。
如請求項12之方法，其中該每個模擬離子簇的差異分數係由如同，但不限於，卡方檢定、皮爾遜卡方檢定、使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定中的方法之一來給分。
一種驗證蛋白質的一級結構的方法，包含：獲得一全長蛋白質的一質譜；自該質譜鑑定具有對應於該全長蛋白質的質量但具有不同電荷狀態的複數個離子簇；自該複數個離子簇計算一主離子簇；以及將該主離子簇與基於具有或不具有修飾的該全長蛋白質的化學式產生的一系列模擬離子簇進行比較，以找到最佳擬合的模擬離子簇；其中該一系列模擬離子簇對應於自該蛋白質樣品的化學式添加或去除數個氫原子而得到的一系列化學式。
如請求項14之方法，其中該主離子簇係通過包含以下步驟的方法計算：加總各該複數個離子簇中(m/z) _ma處最高含量的峰的強度以獲得一起始總和；根據每個最高含量的峰的平均同位素間距將具有大於該(m/z) _ma的m/z的下一個較大的同位素峰p(+1)的強度進行加總，以獲得一第一右總和；以及根據每個最高含量的峰的平均同位素間距將具有小於該(m/z) _ma的m/z的下一個較小的同位素峰p(-1)的強度進行加總，以獲得一第一左總和。
如請求項15之方法，其中獲得相應於複數個同位素峰p(+l)的複數個右總和，獲得相應於複數個同位素峰p(-m)的複數個左總和，以及該起始總和，該複數個左總和與該複數個右總和係通過除以在所有該等總和之中的一最大總和來進行標準化，其中l與m各自為正整數，根據平均同位素間距該同位素峰p(+l)為相對於該同位素峰p(+(l-1))的下一個較大的同位素峰，且根據平均同位素間距該同位素峰p(-m)為相對於該同位素峰p(-(m-1))的下一個較小的同位素峰。
如請求項15或16之方法，其中各該強度在被加總之前，係通過除以對應的同位素峰的電荷狀態以標準化。
如請求項15之方法，其中該平均同位素間距為約1道爾頓。
如請求項18之方法，其中該平均同位素間距為1.00235道爾頓。
如請求項14之方法，其中該質譜係通過高解析質譜儀所獲得。
如請求項14之方法，其中該主離子簇與該一系列模擬離子簇係通過選自由卡方檢定、皮爾遜卡方檢定、使用葉氏校正的卡方檢定、費雪精確檢定、麥內班檢定以及寇克蘭Q檢定所組成之群組進行比較。
如請求項14之方法，其中該一系列模擬離子簇中的每一個係通過包含以下的方法所產生：提供一具有或不具有修飾的化學式為C_vH_wO_xN_yS_z的全長蛋白，結合C_v、H_w、O_x、N_y以及S_z的推定離子簇，以獲得具有或不具有修飾的該全長蛋白的模擬離子簇，其中該C_v的推定離子簇由強度I_n,v=
表示，
以及
分別為¹²C以及¹³C的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該H_w的推定離子簇由強度
表示，
以及
分別為¹H以及²H的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該O_x的推定離子簇由該強度
表示，
、
以及
分別為¹⁶O、¹⁷O以及¹⁸O的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；該N_y的推定離子簇由強度
表示，
以及
分別為¹⁴N以及¹⁵N的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰；以及該S_z的推定離子簇由該強度
表示，
、
、
以及
分別為³²S、³³S、³⁴S以及³⁶S的天然豐度，針對由該推定的單一同位素峰作為第0個峰算起的第n個推定的同位素峰。
如請求項22之方法，其中該C_v、H_w、O_x、N_y以及S_z的推定離子簇被一個接一個地組合。
如請求項22之方法，其中該C_v、H_w、O_x、N_y以及S_z的推定離子簇係根據該峰的位置被組合。
如請求項24之方法，其中該C_v、H_w、O_x、N_y以及S_z的推定離子簇係通過包含以下的方式組合：(i)計算強度I_M,CH，每個強度等於
I _i,v×I _(M-i),w；(ii)計算強度I_M,CHO，每個強度等於
I _i,CH×I _(M-i),x；(iii)計算強度I_M,CHON，每個強度等於
I _i,CHO×I _(M-i),y；(iv)計算強度I_M,CHONS，每個強度等於
I _i,CHON×I _(M-i),z；其中i為一非負數的整數，M為除了該推定的單一同位素峰之外的推定的同位素峰的數目；且其中該強度I_M,CHONS表示具有或不具有修飾的該全長蛋白質的模擬離子簇。
如請求項14之方法，其中，在該一系列模擬離子簇中的每個離子簇成員係通過複數個單一元素離子簇的組合計算產生，每個單元素離子簇具有與該離子簇成員的化學式相同的原子數。
如請求項26之方法，其中，基於具有在該離子簇成員中的相同位置數的同位素異構體以在該離子簇的百分比以及加權分子量被積分，該離子簇成員由單元素離子簇的順序成對組合而來。
如申請專利範圍第27項之方法，其中該離子簇中的同位素異構體的百分比的該積分為具有相同位置數的所有同位素異構體的所有百分比的總和。
如請求項27之方法，其中該分子量為以下等式的結果：(MM ₁×P ₁+MM ₂×P ₂)/(P ₁+P ₂)其中MM ₁以及MM ₂為分子量，P ₁以及P ₂分別為在積分之前的第一以及第二離子簇中的同位素異構體的百分比。
如請求項27之方法，其中每個多元素同位素異構體的該位置數等於以下等式的結果：
[(Σ _i N _e(j))×(i-1)]其中_i N _e(j)為包含在該多元素同位素異構體中的第j個元素e(j)中第i個最輕同位素的數目。
如請求項30之方法，其中i為(MM _I-MM _MN)的四捨五入整數，其中MM _I為該同位素I的分子量，且MM _MN為該元素的單一同位素質量。
如請求項21之方法，其中第二最輕同位素(當i=2)為¹³C、²H、¹⁵N、¹⁷O、³³S；第三個最輕同位素(當i=3)為¹⁴C、³H、¹⁶N、¹⁸O、³⁴S；第四最輕同位素(當i=4)為³⁵S；以及第五最輕同位素，即i=5為³⁶S。
如請求項26之方法，其中每個單一元素離子簇的生成係基於以下原理達成的：在該單一元素離子簇中具有相同位置數的同位素異構體係根據在該離子簇內的百分比以及加權分子量被積分。
如請求項33之方法，其中每個單一元素同位素異構體的位置數等於以下等式的結果：
[(Σ _i N)×(i-1)]其中_i N為包含在該單一元素同位素異構體中的該元素的第i個最輕同位素的數目。
如請求項34之方法，其中該i為(MM _I-MM _MN)的四捨五入整數，其中MM _I為該同位素I的分子量，MM _MN為該元素的單一同位素質量。
如請求項26之方法，其中各該單一元素離子簇係直接取自含有不同原子數的單一元素化合物的模擬離子簇所組成的資料庫。