TWI839463B

TWI839463B - 用於生物製藥分析的資料提取

Info

Publication number: TWI839463B
Application number: TW109103951A
Authority: TW
Inventors: 宛峰謝
Original assignee: 美商坦韋克斯生物製藥美國股份有限公司
Priority date: 2019-02-08
Filing date: 2020-02-07
Publication date: 2024-04-21
Also published as: US20220139503A1; TW202038249A; AU2020219799A1; WO2020163675A1; JP2022520071A; EP3921652A4; EP3921652A1

Abstract

一種用於提取用於生物製藥分析的資料的方法可以包括基於與源目錄相關聯的第一路徑來選擇包括在所述源目錄中的第一檔案。所述第一檔案可以被解析以基於參考質量值來識別包括在所述第一檔案中的一個或多個條目。所述一個或多個條目可以各自包括質量值。可以基於所述質量值與所述參考質量值之間的差小於閾值來識別所述一個或多個條目。所述一個或多個條目可以被插入到第二檔案中。

Description

用於生物製藥分析的資料提取

本文描述的主題整體涉及分析化學，更具體地涉及生物製藥分析。

生物製劑或生物製藥可以指基於具有治療效果的大分子蛋白質的藥物。為了確保生物製藥的藥代動力學/藥力學（PK/PD）和功效，生物製藥表徵可能是藥物開發和製造的一個組成部分。生物製藥表徵可能需要識別生物製藥中存在的不同種類的分子，包括例如完整蛋白質、亞單位蛋白質、肽、聚糖等。例如，聚糖可以是通常發現的與複雜生物蛋白質中的某些胺基酸殘基結合的多糖。因此，生物製藥的表徵可以包括分析生物製藥中存在的不同聚糖。然而，分析生物製藥中存在的聚糖可能需要分析大量資料。

提供了用於提取用於生物製藥分析的資料的系統、方法和製品，包括電腦程式產品。在一個方面，提供了一種包括至少一個資料處理器和至少一個記憶體的系統。所述至少一個記憶體可以存儲指令，所述指令在由所述至少一個資料處理器執行時導致操作。所述操作可以包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。

在一些變型中，本文公開的包括以下特徵的一個或多個特徵可以可選地包括在任何可行的組合中。所述第一資料條目可以進一步包括具有所述第一質量值的種類的豐度值。

在一些變型中，所述種類可以是完整蛋白質、亞單位蛋白質、肽和/或聚糖。

在一些變型中，所述第一檔案可以包括表格。所述第一資料條目可以存儲在所述表格的行中。所述第一質量值可以存儲在所述表格的第一列中。所述豐度值可以存儲在所述表格的第二列中。

在一些變型中，所述第一檔案可以是來自質譜儀的輸出。

在一些變型中，所述第一檔案可以是通過處理來自質譜儀的輸出而生成的Excel檔案和/或便攜式文檔格式（PDF）檔案。

在一些變型中，包括在目標目錄中的第二檔案可以至少基於與目標目錄相關聯的第二路徑來識別。

在一些變型中，可以至少基於與源目錄相關聯的第一路徑來選擇第三檔案。所述第三檔案可以被解析以至少基於所述參考質量值來至少識別包括在所述第三檔案中的第二資料條目。所述第二資料條目可以包括第二質量值。可以至少基於所述第二質量值與所述參考質量值之間的差小於所述閾值來識別所述第二資料條目。所述第二資料條目可以插入到所述第二檔案中。可以響應於確定所述源目錄除了所述第一檔案之外還包括一個或多個檔案而選擇所述第三檔案。

在一些變型中，可以至少基於所述第一資料條目之前的第一定界符和/或所述第一資料條目之後的第二定界符來識別所述第一資料條目。

另一方面，提供了一種提取用於生物製藥分析的資料的方法。所述方法可以包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。

在一些變型中，所述第一檔案可以是來自質譜儀的輸出。

在一些變型中，所述方法可以進一步包括至少基於與目標目錄相關聯的第二路徑，識別包括在所述目標目錄中的所述第二檔案。

在一些變型中，所述方法可以進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少基於所述參考質量值來至少識別包括在所述第三檔案中的第二資料條目，所述第二資料條目包括第二質量值，並且所述第二資料條目至少基於所述第二質量值與所述參考質量值之間的差小於所述閾值來識別；以及將所述第二資料條目插入到所述第二檔案中。

在另一方面，提供了一種包括存儲指令的非暫時性電腦可讀介質的電腦程式產品。當由至少一個資料處理器執行時，所述指令可以引起操作。所述操作可以包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。

在另一方面，提供了一種包括至少一個資料處理器和至少一個記憶體的系統。所述至少一個記憶體可以存儲指令，所述指令在由所述至少一個資料處理器執行時導致操作。所述操作可以包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥的變體的第一峰值的第一資料條目；以及將所述第一資料條目插入到第二檔案中。

在一些變型中，本文公開的包括以下特徵的一個或多個特徵可以可選地包括在任何可行的組合中。所述第一峰值可以包括峰面積、峰滯留時間和百分比相對峰面積中的至少一個。

在一些變型中，所述變體可以是電荷變體、疏水性變體或大小變體。

在一些變型中，所述第一檔案可以是層析圖。

在一些變型中，可以至少基於所述第一峰值超過閾值和/或在值的範圍內來識別所述第一資料條目。

在一些變型中，可以至少基於包括在所述第二檔案中的所述第一資料條目來識別所述目標生物製藥的所述變體的類型。

在一些變型中，可以至少基於所述第一峰值早於所述目標生物製藥的峰值溶離而將所述變體識別為所述目標生物製藥的酸性變體。可以至少基於所述第一目標值晚於所述目標生物製藥的所述峰值溶離而將所述變體識別為所述目標生物製藥的鹼性變體。

在一些變型中，可以至少基於所述變體的第一峰值滯留時間和所述目標生物製藥的第二峰值滯留時間，將所述變體識別為比所述目標生物製藥更疏水或比所述目標生物製藥更不疏水。

在一些變型中，可以至少基於與所述源目錄相關聯的所述第一路徑來選擇包括在所述源目錄中的第三檔案。所述第三檔案可以被解析以至少識別包括所述目標生物製藥的所述變體的第二峰值的第二資料條目。所述第二資料條目可以插入到所述第二檔案中。所述第一檔案可以是在第一時刻獲得的第一層析圖。所述第二檔案可以是在第二時刻獲得的第二層析圖。包括所述變體的生物製藥的樣品在第一時刻暴露於第一壓力，在第二時刻暴露於第二壓力。可以至少基於所述第二檔案確定所述第一壓力比所述第二壓力產生更大量的變體。

在另一方面，提供了一種方法。所述方法可以包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥的變體的第一峰值的第一資料條目；以及將所述第一資料條目插入到第二檔案中。

在一些變型中，所述第一檔案可以是層析圖。

在一些變型中，所述方法可以進一步包括至少基於包括在所述第二檔案中的所述第一資料條目來識別所述目標生物製藥的所述變體的類型。

在一些變型中，所述方法可以進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少識別包括所述目標生物製藥的所述變體的第二峰值的第二資料條目；以及將所述第二資料條目插入到所述第二檔案中。所述第一檔案可以是在第一時刻獲得的第一層析圖。所述第二檔案可以是在第二時刻獲得的第二層析圖。包括所述變體的生物製藥的樣品在第一時刻暴露於第一壓力，在第二時刻暴露於第二壓力。可以至少基於所述第二檔案確定所述第一壓力比所述第二壓力產生更大量的變體。

在另一方面，提供了一種包括存儲指令的非暫時性電腦可讀介質的電腦程式產品。當由至少一個資料處理器執行時，所述指令可以引起操作。所述操作可以包括：至少基於與源目錄相關聯的路徑，選擇包括在所述源目錄中的包括層析圖的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥變體的峰值的資料條目；以及將所述資料條目插入到第二檔案中。

當前主題的實現方式可以包括但不限於與本文提供的描述一致的方法以及包括有形地實現的機器可讀介質的製品，所述機器可讀介質可操作以使一個或多個機器（例如，電腦等）導致實現一個或多個所述特徵的操作。類似地，還描述了可以包括一個或多個處理器和聯接到所述一個或多個處理器的一個或多個記憶體的電腦系統。可以包括非暫時性電腦可讀或機器可讀存儲介質的記憶體可以包括、編碼、存儲等一個或多個程式，這些程式使得一個或多個處理器執行本文描述的一個或多個操作。與當前主題的一個或多個實現方式一致的電腦實現的方法可以由駐留在單個計算系統或多個計算系統中的一個或多個資料處理器來實現。這種多個計算系統可以經由一個或多個連接來連接並且可以交換資料和/或命令或其他指令等，包括例如經由多個計算系統中的一個或多個之間的直接連接到網路（例如，因特網、無線廣域網、局域網、廣域網、有線網路等）上的連接。

本文描述的主題的一個或多個變型的細節在附圖和下面的描述中闡述。根據說明書和附圖以及申請專利範圍，本文描述的主題的其他特徵和優點將是顯而易見的。雖然當前公開的主題的某些特徵是為了說明目的而描述的，涉及用於生物製藥分析的資料提取，但是應該容易理解，這些特徵並不旨在限制。本公開文本之後的申請專利範圍旨在定義受保護主題的範疇。

相關申請的交叉引用

本申請要求於2019年2月8日提交的名稱為“DATA EXTRACTION FOR BIOPHARMACEUTICAL ANALYSIS”的美國臨時申請號62/803,339的優先權，其披露內容通過引用整體結合於此。

質譜分析，例如液相層析質譜分析（LC-MS），可用於分析生物製藥中的一個或多個種類的分子，包括例如完整蛋白質、亞單位蛋白質、肽、聚糖等。例如，質譜分析可用於確定生物製藥的一個或多個樣品中存在的不同聚糖的相對豐度。質譜分析的結果可以包括生物製藥的每個樣品的單獨輸出檔案。例如，可以對質譜儀的原始輸出檔案進行處理，以便為生物製藥的每個樣品生成一個已處理輸出檔案。因為生物製藥表徵通常在生物製藥的許多個樣品上進行（例如，50個以上），後續分析可能跨越大量經處理過的輸出檔案。這樣，在一些示例性實施例中，分析控制器可以被配置成從多個已處理的輸出檔案中提取一個或多個資料條目，這些資料條目的質量值與感興趣分子的參考質量值相匹配。此外，分析控制器可以被配置為將從已處理輸出檔案中提取的資料條目插入到單個合併檔案中。

圖1描繪了根據一些示例性實施例的說明生物製藥分析系統100的系統圖。參考圖1，生物製藥分析系統100可以包括質譜儀110、處理引擎120、分析控制器130和客戶端140。如圖1所示，質譜儀110、處理引擎120、分析控制器130和客戶端140可以經由網路150通信聯接。網路150可以是任何有線和/或無線網路，包括例如局域網（LAN）、虛擬局域網（VLAN）、廣域網（WAN）、公共陸地移動網路（PLMN）、英特網等。同時，客戶端140可以是任何基於處理器的裝置，包括例如工作站、臺式電腦、膝上型電腦、平板電腦、移動裝置、可穿戴設備等。圖1示出了遠程部署的處理引擎120和分析控制器130，例如，作為基於雲的軟體、網路應用程式等。然而，應當理解，與處理引擎120和/或分析控制器130相關聯的至少一些功能也可以在客戶端140本地實現。例如，分析控制器130可以被實現為腳本（例如，Visual Basic for Applications（VBA）腳本等），使得與分析控制器130相關聯的邏輯可以在客戶端140執行，而不需要任何編譯。

下面的表1描述了實現分析控制器130的偽編程程式碼。

表 1

設置變量字符串/變體/布爾/整數/雙精度為excel工作簿設置變量為excel工作表設置變量為可視化圖表設置變量函數點擊_命令按鈕 { “初始化全域命令” 清除聚糖資料提取excel中的單元格初始化變量並將檔案夾路徑分配給文本字段輸入如果未找到源檔案夾路徑和目標檔案夾路徑–發送錯誤消息路徑未找到要求輸入新的報告名稱–如果檔案夾中已經存在名稱，則發送錯誤消息如果輸入報告名稱為空–發送錯誤消息空字段發送消息以確認目錄和檔案名將項目類型初始化為已選擇選項按鈕–發送消息以確認項目 “填充標題資訊” 將檔案夾路徑和報告名稱作為文本記錄到標題中並排設置兩個表格將所搜索的種類的質量偏移數作為文本記錄在表1中將列標題資訊和種類名稱作為文本記錄在表1中將列標題資訊和百分比種類名稱作為文本記錄在右側表2中 “解析檔案” 使用函數檔案計數（見下文）計算要在檔案夾路徑中處理的檔案總數將所有檔案路徑存儲到列表數組，將檔案數存儲到檔案計數發送消息以確認檔案夾路徑中的檔案數量對於列表數組中的每個檔案路徑，迭代函數提取樣品資料（見下文）並繼續，直到到達檔案計數器 “計算種類百分比” 發送消息所有資料檔案都已處理，百分比種類正在計算中將excel位置移至表2 對於每個檔案–基於表1相對豐度值和總和豐度值計算百分比種類移動excel位置來迭代檔案夾路徑中所有樣品的計算發送消息資料提取完成並且報告正在格式化在表1的底部設置故障排除的手動公式 “格式化報告” 設置對齊方式、數字格式、自動調整、列寬、顏色索引、邊框樣式、邊框粗細在excel標題和每個表格周圍設置邊框 “為圖中不同的相關種類創建4個圖表” 對於4個圖表中的每一個–將圖表定位在所需的excel位置，並具有所需的高度、寬度、圖表類型、圖表標題、軸標題、系列名稱、系列顏色 “創建結果報告” 發送消息創建結果報告創建名稱為報告名+“結果”的新結果報告並保存將表1原始報告複製到此新報告中對齊、數字格式、自動調整、列寬、顏色索引、邊框樣式、邊框粗細的格式結果創建4個圖表–將圖表定位在所需的excel位置，並具有所需的高度、寬度、圖表類型、圖表標題、軸標題、系列名稱、系列顏色 } 函數檔案計數（檔案夾路徑）{ “計算檔案夾中的檔案數” 以檔案夾路徑為目標當檔案名不為空時–將檔案計數增加1並轉到下一個檔案名返回檔案計數 } 函數提取樣品資料（檔案路徑）{ “從樣品檔案中提取關鍵種類以設置質量搜索起點” 將當前檔案設置為檔案路徑將excel位置移至表1 基於項目類型，運行函數搜索質量（項目類型質量）（見下文）並將參考質量設置為當前質量 “從樣品檔案中提取所有相關種類” 對於每一個相關的種類，運行函數搜索質量（與參考質量的質量偏移）（見下文）在表1中記錄來自函數的返回值和當前質量合計所有種類的相對豐度值關閉當前檔案 } 函數搜索質量（質量）{ “在輸入檔案中搜索質量” 設置變量整數/雙精度初始化變量並定義質量公差的上限/下限對excel檔案中的每個種類進行迭代–當第1列中檢測到的質量不為空時–如果第1列中的值在所需質量的公差範圍內–返回該種類的相對豐度並將當前質量設置為檢測到的質量

再次參考圖1，質譜儀110可以被配置成分析生物製藥的一個或多個樣品。對於生物製藥的每個樣品，質譜儀110可以產生對應於生物製藥樣品中存在的一種或多種不同種類分子（包括例如完整蛋白質、亞單位蛋白質、肽、聚糖等）的相對豐度的頻譜。質譜儀110的原始輸出可以包括由質譜儀110分析的生物製藥的每個樣品的原始輸出檔案（例如，原始檔案等）。例如，對於n 數量的生物製藥樣品，質譜儀110可以生成n 數量的原始輸出檔案（例如ƒ ₁ , ƒ₂ , …, ƒ_n ）。n 數量的原始輸出檔案中的每一個檔案可以對應於n 數量的生物製藥樣品中的一個樣品。

為了進一步說明，根據一些示例性實施例，圖2A-B描繪了來自質譜儀110的原始輸出檔案的示例。參考圖2A，質譜儀110可以輸出原始輸出檔案200，所述原始輸出檔案可以包括生物製藥（例如，抗體）樣品的分析結果。如圖2A所示，原始輸出檔案200中的結果可以包括對應於生物製藥樣品中存在的不同種類分子的相對豐度值的頻譜。例如，原始輸出檔案200中的頂部圖表可以對照質譜儀110測量的總離子電流追蹤原始資料的時間過程。基於對特定時間窗口（例如，滯留時間）的選擇，原始輸出檔案200中的底部圖形可以顯示相應的原始資料頻譜。所述原始資料頻譜可以是來自質譜儀110的傅立葉變換信號，其繪製了檢測到的離子的質荷比（m/z）與這些離子的相對豐度的圖表。此外，所述原始資料頻譜可用於計算生物製藥樣品中存在的不同種類分子的相對豐度值。

或者，質譜儀110也可以輸出原始輸出檔案250，如圖2B所示。除了生物製藥樣品中存在的不同種類分子的相對豐度值之外，原始輸出檔案250可以包括生物製藥樣品的紫外吸收值、可見吸收值和/或反射值。圖2B所示的原始輸出檔案250可以是具有與圖2A所示的原始輸出檔案200不同的格式的原始輸出檔案。原始輸出檔案250中的頂部圖表可以對照總離子電流以及在特定波長檢測到的紫外吸收追蹤原始資料的時間過程。同時，原始輸出檔案250中的底部圖形可以顯示與原始輸出檔案200相同的原始資料頻譜（例如，特定時間窗口的原始資料頻譜）。

處理引擎120可以被配置成處理來自質譜儀110的原始輸出檔案（例如，原始檔案等），並為每個原始輸出檔案生成相應的處理輸出檔案（例如，Excel檔案、Word檔案、便攜式文檔檔案（PDF）等）。例如，如圖1所示，處理引擎120可以基於n 數量的原始輸出檔案（例如ƒ ₁ , ƒ₂ , …, ƒ_n ）來生成n 數量的已處理輸出檔案（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）。n 數量的已處理輸出檔案中的每一個檔案可以對應於來自質譜儀110的n 數量的原始輸出檔案中的一個檔案。此外，n 數量的已處理輸出檔案可以存儲在例如分析控制器130可訪問的源目錄中。

在一些示例性實施例中，可以生成已處理輸出檔案，以包括生物製藥的相應樣品中存在的每種分子種類（例如，完整蛋白質、亞單位蛋白質、肽、聚糖等）的條目。分子種類的條目可以包括所述分子種類的質量值和相對豐度值。此外，已處理輸出檔案中的連續資料條目可以由一個或多個定界符分隔，例如包括空白字符、逗號、冒號等。這些定界符可以使分析控制器130能夠識別已處理輸出檔案中的不同資料條目。

為了進一步說明，根據一些示例性實施例，圖3A描繪了來自質譜儀110的已處理輸出檔案300的示例。例如，處理引擎120可以基於原始輸出檔案200和/或原始輸出檔案250生成已處理輸出檔案300。在圖3A所示的示例中，已處理輸出檔案300可以是Excel檔案。因此，圖3A所示的Excel電子表格中的每一行可以對應於已處理輸出檔案300中的一個條目。條目的質量值可以存儲在電子表格的一列中，而條目的相對豐度值可以存儲在電子表格的不同列中。然而，應當理解，已處理輸出檔案300可以是任何類型的檔案，其中已處理輸出檔案300中的資料條目可以以結構化的方式存儲，包括例如Word檔案、便攜式文檔檔案（PDF）等。

在一些示例性實施例中，分析控制器130可以被配置成至少基於n 數量的已處理輸出檔案（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）來生成單個合併檔案r 。分析控制器130可以通過至少從n 數量的已處理輸出檔案中的每一個檔案中提取一個或多個具有與感興趣分子的參考質量值匹配的質量值的資料條目來生成合併檔案r 。應當理解，如果質量值與參考質量值之間的差不超過閾值，則可以確定這兩個質量值匹配。例如，分析控制器130可以至少基於與感興趣的聚糖的參考質量值相匹配的資料條目的質量值，從第一已處理輸出檔案f’ ₁ 中提取資料條目。該資料條目（包括與所述資料條目相關聯的質量值和相對豐度）可以被插入到合併檔案r 中。

圖3B描繪了根據一些示例性實施例的合併檔案350的示例。如上所述，在一些示例性實施例中，分析控制器130可以通過至少將從n 數量的已處理輸出檔案（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）中提取的一個或多個資料條目插入到合併檔案r 中來生成合併檔案r 。因此，合併檔案r 可以包括一個或多個資料表示，所述資料表示提供從n 數量的已處理輸出檔案中提取的資料條目的視覺表示。例如，在圖3B所示的示例中，合併檔案r 可以包括表格以及圖表，其中的每一個都提供了從n 數量的已處理輸出檔案中提取的資料條目的不同視覺表示。分析控制器130可以將合併檔案r 存儲在目標目錄中，其中合併檔案r 以被客戶端140訪問。如此，合併檔案r 可以顯示在客戶端140處，以基於生物製藥中存在的不同種類的分子（完整蛋白質、亞單位蛋白質、肽、聚糖等）的相對豐度來實現相應生物製藥的生物製藥表徵。

在一些示例性實施例中，代替和/或除了基於來自質譜儀110的已處理輸出檔案來識別生物製藥中可能存在的各個種類的分子，分析控制器130可以解析由液相層析儀輸出的層析圖，以識別生物製藥的一種或多種變體。如本文所用，變體可指與目標生物製藥相比具有一個或多個結構差異的生物製藥分子，包括例如存在額外的官能團、氧化胺基酸等。這些結構差異可以進一步表現為變體特性的差異，包括例如電荷、疏水性、大小等。因此，變體的例子可以包括電荷變體（例如，酸性變體、鹼性變體等）、疏水性變體（例如，比目標生物製藥更疏水或更不疏水的變體）和大小變體（例如，聚集體、低聚物、二聚體、單體等）。

檢測變體的存在類似於檢測生物製藥中雜質的存在。例如，可以通過檢查完整的蛋白質分子來檢測變體的存在，以識別那些結構上不同於與目標生物製藥相關聯的完整蛋白質分子的完整蛋白質分子。根據變體表現出的結構差異類型，生物製藥中變體的存在可能對生物製藥的安全性和性能沒有影響或沒有不利影響。然而，在生物製藥的生產過程中可能需要檢測雜質。此外，可能希望將生物製藥中存在的雜質的量保持在最小或低於閾值水平。

如上所述，分析控制器130可以基於由液相層析儀輸出的層析圖來識別生物製藥中存在的變體。對於生物製藥中包括的每種變體，與生物製藥相關聯的層析圖可以包括一個或多個峰值，包括例如峰面積、峰滯留時間、百分比相對峰面積等。因此，分析控制器130可以解析一個或多個層析圖，以便從每個層析圖中提取與目標生物製藥以及目標生物製藥的變體相關聯的峰值。此外，分析控制器130可以將從每個層析圖提取的峰值插入到單獨的檔案中。例如，分析控制器130可以提取超過一個或多個閾值和/或在一個或多個值範圍內的峰值。結果檔案因此可以包括目標生物製藥的一個或多個峰值以及目標生物製藥的變體，包括例如目標生物製藥的峰值（例如，峰面積、峰滯留時間和/或百分比相對峰面積）、目標生物製藥的電荷變體、目標生物製藥的大小變體、目標生物製藥的疏水性變體等。

在一些示例性實施例中，分析控制器130可以提取峰值，以便進一步識別特定類型的變體。例如，變體可以至少部分地基於其相對於目標生物製藥的峰值滯留時間的峰值滯留時間（例如，當變體相對於目標生物製藥溶離時）被識別為比目標生物製藥更疏水或比目標生物製藥更不疏水。可選地和/或附加地，變體可以至少部分基於其相對於目標生物製藥的峰值滯留時間的峰值滯留時間被識別為比目標生物製藥酸性更強或比目標生物製藥酸性更弱。例如，峰值早於目標生物製藥峰值溶離的變體可以是目標製藥的酸性更強的變體，而峰值晚於目標生物製藥峰值溶離的變體可以是目標製藥的鹼性更強的變體。

在一些示例性實施例中，分析控制器130可以提取和分析多個層析圖（例如，生物製藥的不同樣品）中的變體的峰值。例如，分析控制器130可以從一系列層析圖中提取和分析峰值，每個層析圖在不同的時間點與生物製藥的相同樣品相關聯。當生物製藥的樣品暴露於不同類型的壓力時，例如第一時刻的第一壓力、第二時刻的第二壓力等，生物製藥的樣品可以隨著時間而呈現變化和生長。因此，包括在第一時刻獲得的第一層析圖中的峰值可以與包括在第二時刻獲得的第二層析圖中的峰值進行比較，以便識別不同類型的壓力與可能存在於生物製藥樣品中的各種類型的變體之間的相關性。例如，可以比較來自不同層析圖的峰值，以便確定某一類型的壓力是否產生了更大（或更少）量的目標生物製藥的酸性變體、目標生物製藥的鹼性變體、目標生物製藥的更疏水變體、目標生物製藥的更不疏水變體等。

圖4描繪了根據一些示例性實施例的流程圖，所述流程圖示出了用於提取用於生物製藥分析的資料的過程400。參考圖1、圖2A-B、圖3A-B和圖4，過程400可以由分析控制器130執行。

分析控制器130可以至少基於與源目錄相關聯的第一路徑來選擇包括在源目錄中的第一已處理輸出檔案（402）。例如，分析控制器130可以至少基於存儲已處理輸出檔案的n 數量（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）的源目錄的路徑來選擇第一已處理輸出檔案ƒ′ ₁ 。

分析控制器130可以解析第一已處理輸出檔案，以至少基於與第一資料條目相關聯的第一質量值與參考質量值之間的差小於閾值來至少識別包括在第一已處理輸出檔案中的第一資料條目（404）。例如，分析控制器130可以至少基於資料條目與匹配感興趣分子的參考質量值的質量值相關聯來識別第一已處理輸出檔案ƒ′ ₁ 中的資料條目。在一些示例性實施例中，如果與資料條目相關聯的質量值與參考質量值之間的差不超過閾值，則可以確定這兩個質量值匹配。

分析控制器130可以至少基於與源目錄相關聯的第一路徑來選擇包括在源目錄中的第二已處理輸出檔案（406）。例如，分析控制器130可以至少基於存儲n 數量的已處理輸出檔案（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）的源目錄的路徑來選擇第二已處理輸出檔案ƒ′ ₂ 。應當理解，分析控制器130可以從源目錄中選擇附加的已處理輸出檔案，直到分析控制器130已經解析了源目錄中所有n 數量的已處理輸出檔案（例如ƒ′ ₁ , ƒ′ ₂ , …, ƒ′_n ）。

分析控制器130可以解析第二已處理輸出檔案，以至少基於與第二資料條目相關聯的第二質量值與參考質量值之間的差小於閾值來至少識別包括在第二已處理輸出檔案中的第二資料條目（408）。例如，分析控制器130可以至少基於資料條目與匹配感興趣分子的參考質量值的質量值相關聯來識別第二已處理輸出檔案ƒ′ ₂ 中的資料條目。如上所述，如果與資料條目相關聯的質量值與參考質量值之間的差不超過閾值，則可以確定這兩個質量值匹配。

分析控制器130可以至少基於與目標目錄相關聯的第二路徑來識別包括在目標目錄中的第三檔案（410）。例如，分析控制器130可以至少基於目標目錄的路徑來識別存儲在目標目錄中的合併檔案r 。

分析控制器130可以將第一資料條目和第二資料條目插入到第三檔案中（412）。例如，分析控制器130可以將操作404和408中識別的資料條目插入到合併檔案r 中。這樣做時，分析控制器130可以生成合併檔案r ，以包括生物製藥的多個樣品中存在的不同種類的分子（完整蛋白質、亞單位蛋白質、肽、聚糖等）的相對豐度值。如圖3B所示，合併檔案r 可以包括一個或多個資料表示，所述資料表示提供從n 數量的已處理輸出檔案中提取的資料條目的視覺表示。此外，合併檔案r 可以顯示在客戶端140處，以基於生物製藥中存在的不同種類的分子（完整蛋白質、亞單位蛋白質、肽、聚糖等）的相對豐度來實現相應生物製藥的生物製藥表徵。

圖5描繪了示出與當前主題的實現方式一致的計算系統500的框圖。參考圖1和圖5，計算系統500可用於實現質譜儀110、處理引擎120、分析控制器130、客戶端140和/或其中的任何組件。

如圖5所示，計算系統500可以包括處理器510、記憶體520、存儲裝置530和輸入/輸出裝置540。處理器510、記憶體520、存儲裝置530和輸入/輸出裝置540可以經由系統總線550互連。處理器510能夠處理用於在計算系統500內執行的指令。這種執行的指令可以實現例如質譜儀110、處理引擎120、分析控制器130、客戶端140的一個或多個組件。在一些示例性實施例中，處理器510可以是單線程處理器。或者，處理器510可以是多線程處理器。處理器510能夠處理存儲在記憶體520中和/或存儲裝置530上的指令，以顯示通過輸入/輸出裝置540提供的用戶接口的圖形資訊。

記憶體520是在計算系統500內存儲資訊的諸如易失性或非易失性的電腦可讀介質。例如，記憶體520可以存儲表示配置對象資料庫的資料結構。存儲裝置530能夠為計算系統500提供持久存儲。存儲裝置530可以是軟盤裝置、硬盤裝置、光盤裝置、磁帶裝置、固態裝置和/或其他合適的永久存儲裝置。輸入/輸出裝置540為計算系統500提供輸入/輸出操作。在一些示例性實施例中，輸入/輸出裝置540包括鍵盤和/或定點裝置。在各種實施方式中，輸入/輸出裝置540包括用於顯示圖形用戶接口的顯示單元。

根據一些示例性實施例，輸入/輸出裝置540可以為網路裝置提供輸入/輸出操作。例如，輸入/輸出裝置540可以包括以太網端口或其他網路端口，以與一個或多個有線和/或無線網路（例如，局域網（LAN）、廣域網（WAN）、因特網）通信。

在一些示例性實施例中，計算系統500可用於執行各種交互式電腦軟體應用程式，這些應用程式可用於組織、分析和/或存儲各種格式的資料。或者，計算系統500可以用於執行任何類型的軟體應用程式。這些應用程式可用於執行各種功能，例如規劃功能（例如，生成、管理、編輯電子表格文檔、文字處理文檔和/或任何其他對象等）、計算功能、通信功能等。所述應用程式可以包括各種附加功能，或者可以是獨立的計算產品和/或功能。一旦在應用程式內被激活，這些功能可以用於生成經由輸入/輸出裝置540提供的用戶接口。用戶接口可以由計算系統500生成並呈現給用戶（例如，在電腦螢幕監視器上等）。

本文描述的主題的一個或多個方面或特徵可以在數字電子電路、集成電路、專門設計的ASIC、現場可編程門數組（FPGA）電腦硬體、固件、軟體和/或其組合中實現。這些不同的方面或特徵可以包括在一個或多個電腦程式中的實現，這些電腦程式可以在可編程系統上執行和/或解釋，所述可編程系統包括至少一個可編程處理器，所述處理器可以是專用的或通用的，被聯接以從存儲系統、至少一個輸入裝置和至少一個輸出裝置接收資料和指令，並將資料和指令傳輸到存儲系統、至少一個輸入裝置和至少一個輸出裝置。可編程系統或計算系統可以包括客戶端和伺服器。客戶端和伺服器通常遠離彼此並且通常通過通信網路進行交互。客戶端與伺服器的關係借助於在相應電腦上運行並且彼此具有客戶端-伺服器關係的電腦程式產生。

這些電腦程式也可以被稱為程式、軟體、軟體應用程式、應用程式、組件或程式碼，包括用於可編程處理器的機器指令，並且可以用高級過程和/或面向對象的編程語言和/或組合/機器語言來實現。如本文所使用的，術語“機器可讀介質”是指用於向可編程處理器提供機器指令和/或資料的任何電腦程式產品、設備和/或裝置，例如磁盤、光盤、記憶體和可編程邏輯器件（PLD），包括接收機器指令作為機器可讀信號的機器可讀介質。術語“機器可讀信號”是指用於向可編程處理器提供機器指令和/或資料的任何信號。機器可讀介質可以非瞬態地存儲這種機器指令，例如像非瞬態固態記憶體或磁性硬盤驅動器或任何等效的存儲介質一樣。機器可讀介質可以替代地或附加地以瞬態方式存儲這種機器指令，例如，像與一個或多個物理處理器核相關聯的處理器高速緩存或其他隨機查詢記憶體一樣。

為了提供與用戶的交互，本文描述的主題的一個或多個方面或特徵可以在電腦上實現，所述電腦具有顯示裝置，例如陰極射線管（CRT）或液晶顯示器（LCD）或發光二極管（LED）監視器，用於向用戶顯示資訊，以及鍵盤和定點裝置，例如滑鼠或軌跡球，用戶可以通過它們向電腦提供輸入。也可以使用其他類型的裝置來提供與用戶的交互。例如，提供給用戶的反饋可以是任何形式的感官反饋，例如視覺反饋、聽覺反饋或觸覺反饋；並且可以以任何形式接收來自用戶的輸入，包括聲音、語音或觸覺輸入。其他可能的輸入裝置包括觸摸屏或其他觸敏裝置，例如單點或多點電阻或電容跟蹤板、語音識別硬體和軟體、光學掃描儀、光學指示器、數字圖像捕捉裝置和相關解釋軟體等。

在以上描述和申請專利範圍中，諸如“中的至少一個”或“中的一個或多個”的片語可以出現在元件或特徵的連接清單之後。術語“和/或”也可以出現在兩個或多個元件或特徵的清單中。除非與其使用的上下文隱含地或明確地矛盾，否則這樣的片語意在表示任何單獨列出的元件或特徵，或者任何所述元件或特徵與任何其他所述元件或特徵的組合。例如，片語“A和B中的至少一個”、“A和B中的一個或多個”和“A和/或B”各自意指“A單獨、B單獨、或A和B一起”。類似的解釋也適用於包括三個或更多項目的列表。例如，片語“A、B和C中的至少一個”、“A、B、C中的一個或多個”和“A、B和/或C”各自意指“A單獨、B單獨、C單獨、A和B一起、A和C一起、B和C一起、或A和B和C一起”。在上面和申請專利範圍中使用的術語“基於”意在表示“至少部分基於”，使得未引用的特徵或元素也是允許的。

取決於期望的配置，本文描述的主題可以體現在系統、設備、方法和/或製品中。前面描述中闡述的實現方式並不代表與本文描述的主題一致的所有實現方式。相反，它們僅僅是與所描述的主題相關的方面一致的一些示例。儘管上面已經詳細描述了一些變化，但是其他修改或添加也是可能的。特別地，除了在此闡述的那些之外，還可以提供進一步的特徵和/或變化。例如，上述實現方式可以針對所公開的特徵的各種組合和子組合和/或上面公開的幾個進一步特徵的組合和子組合。此外，附圖中描繪的和/或本文中描述的邏輯流程不一定需要所示的特定順序或次序來實現期望的結果。其他實現方式可以在以下申請專利範圍的範疇內。

100:生物製藥分析系統 110:質譜儀 120:處理引擎 130:分析控制器 140:客戶端 150:網路 200、250:原始輸出檔案 300:已處理輸出檔案 350:合併檔案 400:過程 402、404、406、408、410、412:步驟 500:計算系統 510:處理器 520:記憶體 530:存儲裝置 540:輸入/輸出裝置 550:系統總線

併入並構成本說明書一部分的附圖顯示了本文公開的主題的某些方面，並且與描述一起，有助於解釋與所公開的實現方式相關聯的一些原理。在附圖中，圖1描繪了根據一些示例性實施例的說明生物製藥分析系統的系統圖；圖2A描繪了根據一些示例性實施例的來自質譜儀的原始輸出檔案的示例；圖2B描繪了根據一些示例性實施例的來自質譜儀的原始輸出檔案的另一示例；圖3A描繪了根據一些示例性實施例的來自質譜儀的已處理輸出檔案的示例；圖3B描繪了根據一些示例性實施例的合併檔案的示例；圖4描繪了根據一些示例性實施例的流程圖，所述流程圖示出了用於提取用於生物製藥分析的資料的過程；並且圖5描繪了根據一些示例性實施例的示出計算系統的框圖。當實用時，相似的參考數字表示相似的結構、特徵或元素。

無。

Claims

一種用於提取用於生物製藥分析的資料的系統，其包括：至少一個資料處理器；和至少一個存儲指令的記憶體，當所述指令被所述至少一個資料處理器執行時，導致包括以下各項的操作：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。
如請求項1所述的系統，其中所述第一資料條目進一步包括具有所述第一質量值的種類的豐度值。
如請求項2所述的系統，其中所述種類包括完整蛋白質、亞單位蛋白質、肽和/或聚糖。
如請求項2所述的系統，其中所述第一檔案包括表格，其中所述第一資料條目存儲在所述表格的行中，其中所述第一質量值存儲在所述表格的第一列中，並且其中所述豐度值存儲在所述表格的第二列中。
如請求項1至請求項4中任一項所述的系統，其中所述第一檔案包括來自質譜儀的輸出。
如請求項1至請求項4中任一項所述的系統，其中所述第一檔案包括通過處理來自質譜儀的輸出而生成的Excel檔案和/或便攜式文檔格式(PDF)檔案。
如請求項1至請求項4中任一項所述的系統，其進一步包括：至少基於與目標目錄相關聯的第二路徑，識別包括在所述目標目錄中的所述第二檔案。
如請求項1至請求項4中任一項所述的系統，其進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少基於所述參考質量值來至少識別包括在所述第三檔案中的第二資料條目，所述第二資料條目包括第二質量值，並且所述第二資料條目至少基於所述第二質量值與所述參考質量值之間的差小於所述閾值來識別；以及將所述第二資料條目插入到所述第二檔案中。
如請求項8所述的系統，其中響應於確定所述源目錄除了所述第一檔案之外還包括一個或多個檔案而選擇所述第三檔案。
如請求項1至請求項4中任一項所述的系統，其中至少基於所述第一資料條目之前的第一定界符和/或所述第一資料條目之後的第二定界符來識別所述第一資料條目。
一種電腦實現的方法，其包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。
如請求項11所述的方法，其中所述第一資料條目進一步包括具有所述第一質量值的種類的豐度值。
如請求項12所述的方法，其中所述種類包括完整蛋白質、亞單位蛋白質、肽和/或聚糖。
如請求項12所述的方法，其中所述第一檔案包括表格，其中所述第一資料條目存儲在所述表格的行中，其中所述第一質量值存儲在所述表格的第一列中，並且其中所述豐度值存儲在所述表格的第二列中。
如請求項11至請求項14中任一項所述的方法，其中所述第一檔案包括來自質譜儀的輸出。
如請求項11至請求項14中任一項所述的方法，其中所述第一檔案包括通過處理來自質譜儀的輸出而生成的Excel檔案和/或便攜式文檔格式(PDF)檔案。
如請求項11至請求項14中任一項所述的方法，其進一步包括：至少基於與目標目錄相關聯的第二路徑，識別包括在所述目標目錄中的所述第二檔案。
如請求項11至請求項14中任一項所述的方法，其進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少基於所述參考質量值來至少識別包括在所述第三檔案中的第二資料條目，所述第二資料條目包括第二質量值，並且所述第二資料條目至少基於所述第二質量值與所述參考質量值之間的差小於所述閾值來識別；以及將所述第二資料條目插入到所述第二檔案中。
如請求項11至請求項14中任一項所述的方法，其中至少基於所述第一資料條目之前的第一定界符和/或所述第一資料條目之後的第二定界符來識別所述第一資料條目。
一種存儲指令的非暫時性電腦可讀介質，當所述指令被至少一個資料處理器執行時，導致包括以下各項的操作：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少基於參考質量值來至少識別包括在所述第一檔案中的第一資料條目，所述第一資料條目包括第一質量值，並且所述第一資料條目至少基於所述第一質量值與所述參考質量值之間的差小於閾值來識別；以及將所述第一資料條目插入到第二檔案中。
一種用於提取用於生物製藥分析的資料的系統，其包括：至少一個資料處理器；和至少一個存儲指令的記憶體，當所述指令被所述至少一個資料處理器執行時，導致包括以下各項的操作：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥的變體的第一峰值的第一資料條目；以及將所述第一資料條目插入到第二檔案中。
如請求項21所述的系統，其中所述第一峰值包括峰面積、峰滯留時間和百分比相對峰面積中的至少一個。
如請求項21所述的系統，其中所述變體包括電荷變體、疏水性變體或大小變體。
如請求項21至請求項23中任一項所述的系統，其中所述第一檔案包括層析圖。
如請求項21至請求項23中任一項所述的系統，其中至少基於所述第一峰值超過閾值和/或在值的範圍內來識別所述第一資料條目。
如請求項21至請求項23中任一項所述的系統，其進一步包括：至少基於包括在所述第二檔案中的所述第一資料條目來識別所述目標生物製藥的所述變體的類型。
如請求項26所述的系統，其中至少基於所述第一峰值早於所述目標生物製藥的峰值溶離，將所述變體識別為所述目標生物製藥的酸性變體，並且其中至少基於所述第一目標值晚於所述目標生物製藥的所述峰值溶離，將所述變體識別為所述目標生物製藥的鹼性變體。
如請求項26所述的系統，其中至少基於所述變體的第一峰值滯留時間和所述目標生物製藥的第二峰值滯留時間，將所述變體識別為比所述目標生物製藥更疏水或比所述目標生物製藥更不疏水。
如請求項21至請求項23中任一項所述的系統，其進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少識別包括所述目標生物製藥的所述變體的第二峰值的第二資料條目；以及將所述第二資料條目插入到所述第二檔案中。
如請求項29所述的系統，其中所述第一檔案包括在第一時刻獲得的第一層析圖，其中所述第二檔案包括在第二時刻獲得的第二層析圖，其中包括所述變體的生物製藥的樣品在所述第一時刻暴露於第一壓力並在所述第二時刻暴露於第二壓力，並且其中至少基於所述第二檔案，確定所述第一壓力比所述第二壓力產生更大量的所述變體。
一種電腦實現的方法，其包括：至少基於與源目錄相關聯的第一路徑，選擇包括在所述源目錄中的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥的變體的第一峰值的第一資料條目；以及將所述第一資料條目插入到第二檔案中。
如請求項31所述的方法，其中所述第一峰值包括峰面積、峰滯留時間和百分比相對峰面積中的至少一個。
如請求項31所述的方法，其中所述變體包括電荷變體、疏水性變體或大小變體。
如請求項31至請求項33中任一項所述的方法，其中所述第一檔案包括層析圖。
如請求項31至請求項33中任一項所述的方法，其中至少基於所述第一峰值超過閾值和/或在值的範圍內來識別所述第一資料條目。
如請求項31至請求項33中任一項所述的方法，其進一步包括：至少基於包括在所述第二檔案中的所述第一資料條目來識別所述目標生物製藥的所述變體的類型。
如請求項36所述的方法，其中至少基於所述第一峰值早於所述目標生物製藥的峰值溶離，將所述變體識別為所述目標生物製藥的酸性變體，並且其中至少基於所述第一目標值晚於所述目標生物製藥的所述峰值溶離，將所述變體識別為所述目標生物製藥的鹼性變體。
如請求項36所述的方法，其中至少基於所述變體的第一峰值滯留時間和所述目標生物製藥的第二峰值滯留時間，將所述變體識別為比所述目標生物製藥更疏水或比所述目標生物製藥更不疏水。
如請求項31至請求項33中任一項所述的方法，其進一步包括：至少基於與所述源目錄相關聯的所述第一路徑，選擇包括在所述源目錄中的第三檔案；解析所述第三檔案以至少識別包括所述目標生物製藥的所述變體的第二峰值的第二資料條目；以及將所述第二資料條目插入到所述第二檔案中。
如請求項39所述的方法，其中所述第一檔案包括在第一時刻獲得的第一層析圖，其中所述第二檔案包括在第二時刻獲得的第二層析圖，其中包括所述變體的生物製藥的樣品在所述第一時刻暴露於第一壓力並在所述第二時刻暴露於第二壓力，並且其中至少基於所述第二檔案，確定所述第一壓力比所述第二壓力產生更大量的所述變體。
一種存儲指令的非暫時性電腦可讀介質，當所述指令被至少一個資料處理器執行時，導致包括以下各項的操作：至少基於與源目錄相關聯的路徑，選擇包括在所述源目錄中的包括層析圖的第一檔案；解析所述第一檔案以至少識別包括目標生物製藥變體的峰值的資料條目；以及將所述資料條目插入到第二檔案中。