TW202230396A

TW202230396A - 實現跨不同資料庫的資料分析合作的平台及方法

Info

Publication number: TW202230396A
Application number: TW110145232A
Authority: TW
Inventors: 西迪楊斯薩克森納; 阿奇姆普魯克鮑姆; 巴德里斯里尼瓦桑; 克里斯蒂安迪爾
Original assignee: 瑞士商諾華公司
Priority date: 2020-12-03
Filing date: 2021-12-03
Publication date: 2022-08-01
Also published as: JP2023552039A; EP4214716A1; US20220180319A1; CN116508107A; US11769114B2; WO2022120244A1

Abstract

本發明揭露一種實現跨不同資料庫的生命科學資料的資料分析合作的平台及方法。合作平台可允許執行用於藥物發現及開發的探索性分析。合作平台可包含：搜尋及圖形模組，用於生成使用者項目且判定及顯示一或多個匹配資料資產及一或多個潛在合作者；合作模組，用於協調在使用者與一或多個選定合作者之間的合作；資料管理模組，用於接收用於一或多個生產者項目的方案，自一或多個選定資料資產接收資料，以及使用共同標準及本體論攝取所接收資料；以及洞察應用，用於使用攝取的所接收資料生成與科學問題相關的疾病特異性推斷，且自使用者及/或選定合作者接收反饋以改良搜尋及圖形模組。

Description

實現跨多個不同資料庫的資料分析合作的協作平台

[相關申請]

本申請案主張2020年12月3日申請的美國臨時申請案第63/121,093號的優先權，其以全文引用的方式併入本文中。

醫藥公司歷史上依賴於臨床試驗的傳統模型來找到新的分子且開發新藥物。然而，當前用於執行研究及開發的方法昂貴且開發新藥物的時間增加，此歸因於：（1）難以找到新穎突破性療法；（2）對用於管線生長的外部資產的依賴增加；（3）開發成本增加；以及（4）高失敗率，僅舉幾例。針對影響較小人群段的疾病的藥物開發成本甚至更高，因此，開發此等罕見疾病的治療及藥物的動機更低。此外，傳統研究及開發方法亦會花費過長時間來找到對許多疾病的有效治療。

儘管現有資料量巨大，但健康照護生態系統中任何一個實體的資料範圍都是有限的、孤立的（siloed）以及不標準的。每一學術研究機構或醫藥或生物技術公司例如可能僅能存取其自身試驗及臨床研究資料，且此等實體往往僅在少數專業領域進行研究。醫院、醫師及健康照護記錄公司可存取患者資料，但不能存取臨床試驗資料。其他有價值的資料可由生活方式及數字健康公司（如樂活（FitBit）或蘋果（Apple））或擁有DNA註冊的實體擁有。

需要的是一個平台，所述平台用於利用健康照護生態系統已經開發的大量疾病及治療相關資料及大型資料庫，以優化發現及臨床前工作。進一步需要的是標準化及使用大型整合資料集進行電腦模擬藥物遞送及分析的方法，以及在進入試驗之前預測藥物功效及反應的方法。此將允許醫藥及生物技術公司投資於最有可能在試驗中取得成功的資產，並進一步實現研究及開發（R&D）節省。亦需要一種合作系統，所述合作系統使實體能夠找到並協商可能加快研究及降低成本的夥伴關係。進一步需要用於設計較佳試驗及協定，識別較佳試驗候選項且產生更有效治療及藥物的方法。仍進一步需要用於精密醫學且較佳通知臨床決策製訂的方法及系統。

本揭露的一個態樣涉及一種實現跨多個不同資料庫的生命科學資料的資料分析合作的合作平台。在至少一個例示性實施例中，平台可用於使用資料、人工智慧（artificial intelligence；AI）模型以及來自不同資料庫及系統的洞察來解決科學問題。平台可包含用於生成使用者項目的搜尋及圖形模組。使用者項目可包括根據以下判定的多個屬性：a）使用者資料檔；b）使用者的過去活動；c）基於普及性的系統推薦；d）來自一或多個下拉式選單的搜尋項、過濾器及/或選項指示；及/或e）以自然語言由所述使用者輸入的至少一個科學問題。搜尋及圖形模組可經組態用於判定及顯示一或多個匹配資料資產、AI模型及/或一或多個潛在合作者，其中匹配資料資產及潛在合作者是基於使用者項目及一或多個生產者項目而判定，一或多個生產者項目包括一或多個先前生成的使用者項目。平台可包含合作模組，所述合作模組用於協調使用者與同由使用者選擇的一或多個選定資料資產相關聯的一或多個選定合作者之間的合作，選定合作者為潛在合作者的子集且選定資料資產為匹配資料資產的子集。協調合作可包含：通知與一或多個選定資料資產相關聯的選定合作者；向選定合作者提供使用者項目的摘要；向使用者提供檢驗一或多個選定資料資產的能力；以及若使用者及一或多個選定合作者同意，則完成使用者與選定合作者之間的合作。平台可包含資料管理模組，所述資料管理模組用於接收用於一或多個生產者項目的方案；自一或多個選定資料資產接收資料；以及使用共同標準及本體論攝取所接收資料。平台可包含洞察應用，所述洞察應用用於使用攝取的所接收資料生成與科學問題相關的疾病特異性推斷，且自使用者及/或選定合作者接收反饋以改良搜尋及圖形模組。

本揭露的另一態樣涉及一種實現跨多個不同資料庫的生命科學資料的資料分析合作的方法。方法可允許執行用於藥物發現及開發的探索性分析。方法可包含生成使用者項目，其中使用者項目包括根據以下判定的多個屬性：a）使用者資料檔；b）使用者的過去活動；c）基於普及性的系統推薦；d）來自一或多個下拉式選單的搜尋項、過濾器及/或選項指示；及/或e）以自然語言由使用者輸入的至少一個科學問題。方法可包含判定及顯示一或多個匹配資料資產及一或多個潛在合作者，其中匹配資料資產及潛在合作者是基於使用者項目及一或多個生產者項目而判定，一或多個生產者項目包括一或多個先前生成的使用者項目。方法可包含協調使用者與同由使用者選擇的一或多個選定資料資產相關聯的一或多個選定合作者之間的合作，選定合作者為潛在合作者的子集且選定資料資產為匹配資料資產的子集。方法可包含通知與一或多個選定資料資產相關聯的選定合作者。方法可包含向選定合作者提供使用者項目的摘要。方法可包含向使用者提供檢驗一或多個選定資料資產的能力。方法可包含若使用者及一或多個選定合作者同意，則完成使用者與選定合作者之間的合作。方法可包含接收用於一或多個生產者項目的方案；自一或多個選定資料資產接收資料；以及使用共同標準及本體論攝取所接收資料。方法可包含使用攝取的所接收資料生成與科學問題相關的疾病特異性推斷，且自使用者及/或選定合作者接收反饋以改良搜尋及圖形模組。

本文亦論述其他系統、方法以及電腦可讀媒體。

以下詳細描述參考附圖。在任何有可能之處，在圖式及以下描述中使用相同附圖標號來指代相同或類似部分。儘管本文中描述若干示出性實施例，但修改、調適以及其他實施方式是可能的。舉例而言，可對圖式中所示出的組件及步驟進行替代、添加或修改，且可藉由替代、重新排序、移除步驟或將步驟添加至所揭露方法來修改本文中所描述的示出性方法。因此，以下詳細描述不限於所揭露實施例及實例。實情為，本發明的適當範疇由所附申請專利範圍限定。

本揭露的實施例涉及一種合作平台及一種使用所述平台執行用於藥物發現及開發的探索性或例行分析的方法。所揭露實施例可實現洞察引擎的創建，所述洞察引擎在最高未滿足的醫療需要的領域中產生更多藥物、更快且更高的市場准入潛力。

圖1描繪示出不同類型的使用者及其間的資訊流的示意圖。在一些實施例中，所揭露系統及方法的使用者可包含科學群組，諸如醫藥公司、生物技術公司、學術機構、資料聚合器、人工智慧（AI）開發公司、健康照護付款人、非營利組織、政府機構（普查局（Census Bureau）、CDC、FDA或其他管制機關）或類似者。使用者可視為兩種類型中的一者：生產者110及消費者120。如此處所使用，生產者110可指產生資料資產150的使用者，且消費者120可指使用資料資產150進行研究及開發項目的使用者。

在一些實施例中，使用者可基於其目標或視角而起生產者110或消費者120的作用。生產者110在尋求新項目的合作者時可為消費者120，且消費者120可藉由共用經由先前研究產生的資料資產150而為生產者110。舉例而言，學術機構可視為其提供來自過去項目的資料資產150的生產者110或其想要開始新項目的消費者120。

轉向生產者110，視為生產者110的使用者可為創建資料資產150且將其共用至合作平台200以供合作的使用者。資料資產150為包括一或多個相關資料集的容器，諸如全部生成或描繪同一研究研發或臨床試驗的資料集。資料集可為包括與共同項目、主題或問題有關的資料的結構化檔案。資料集內的資料可為可作為文本、數字、影像或多媒體或演算法、模型或模板的量測值或觀測值。舉例而言，資料集可為一或多個個體（例如，患者）的變數（例如，體重）及其值（例如，60公斤)的集合。資料集可包含影像或視訊，諸如X射線、電腦斷層掃描（computed tomography；CT）掃描、磁共振成像（magnetic resonance imaging；MRI）以及超音波。資料集亦可包括分析模型，諸如用於分析資料集的演算法或計算模型。資料集亦可包括與一或多個夥伴相關的資訊，所述夥伴為希望合作以解決特定科學問題或疑問的實體。資料集亦可包括與一或多個論壇相關的資訊，所述論壇為具有共同目標的公私合作，且資訊在此等論壇中交換。資料集可由實驗室檢查、醫療記錄、臨床試驗或其他類似科學努力產生。資料集可包括前述類型的資料中的一些或全部。資料資產150可包括前述類型的資料集中的一些或全部。

在一些實施例中，資料資產150可遵循用於系統及/或資料庫間的快速傳送的類似資料標準或元資料定義。資料管理的此類統一方案可允許藉由接收諸如屬於消費者120的系統的系統而高效拆包及理解資料資產150。此統一方案亦可改良或最大化現有工具與應用之間的互操作性，其將最小化設定的訓練及生產成本。

另外地或可替代地，可在單一系統中管理資料資產150及其後續添加或修改。如本文中所使用，單一系統可指單一硬體單元（例如，單一資料庫)、單一地理位置處的系統或子系統的集合（例如，伺服器場)，或包括彼此互連的構成資料庫的群組的單一聯合資料庫，而不管其地理位置。此管理方案可允許對資料資產150進行加水印及/或追蹤（例如，使用區塊鏈），使得可將任何修改追蹤至對應生產者110或消費者120。

若消費者120選擇使用資料資產150，則可使資料資產150可免費提供或可由消費者120支付費用提供。儘管此等資料集可能需要大量金錢來產生，但可出於各種原因激勵生產者110在合作平台200上共用所述資料集。舉例而言，可激勵醫藥公司或生物技術公司產生此等資料集，以便生成洞察或找到合作者（例如，AI發展公司）來發現新藥物，此為其核心業務。可激勵資料聚合器以產生此等資料集從而出售所述資料集，此為其核心業務。學術機構及患者註冊可出於任一或兩個原因而產生資料集。

在一些實施例中，分析模型可經由將一或多個演算法及/或統計分析應用於資料集以擷取有用洞察而產生。儘管分析模型亦可能需要大量金錢來產生，但可亦出於各種原因激勵生產者110在合作平台200上共用所述資料集。舉例而言，可激勵AI開發公司將其AI模型出售給醫藥公司或生物技術公司。由於內部探索性研究及開發，可激勵醫藥公司或生物技術公司產生此等模型。其可能願意為了行業益處、出版或經由開源努力改良分析模型而共用此等模型。學術機構可產生分析模型作為其與第3方的研究或合作的一部分。所述學術機構可能願意為了出版、經由開源努力的改良或資金源而共用此等分析模型。

在一些實施例中，所有分析模型可使用與合作平台200相容的程式語言或使用由合作平台提供的特定軟體開發套件（software development kit；SDK）來構建，此可禁止有害應用起作用。可在資料集上測試分析模型，並量測其效能的準確性、效率或兩者。其亦可藉由合作平台200的管理員或藉由已使用分析模型的使用者手動地查核。

轉向消費者120，視為消費者120的使用者可為利用資料資產150的使用者。可激勵醫藥公司或生物技術公司及學術機構消耗資料資產150作為其探索性研究及開發項目的一部分。可激勵AI開發公司購買資料集以根據較好或較多資料訓練其分析模型或使用資料集以生成洞察從而建構藥物本身。利用AI或機器學習的分析模型藉由額外資料進一步改良以用於訓練分析模型。

與所揭露實施例一致，合作平台200可經由可用生產者110及消費者120搜尋以使潛在合作者130與使用者項目匹配。潛在合作者130可包含生產者110與消費者120的集合。下文更詳細地描述藉以識別潛在合作者130的過程。

潛在合作者130亦可經過選擇過程到達選定合作者140。選定合作者140可包含由發起對應使用者項目的擁有者使用者（例如，消費者120）選擇的生產者110的組合。一旦選定合作者140同意與擁有者使用者合作且合作由合作平台200啟用，即可容許選定合作者140及擁有者使用者對由選定合作者140產生的資料資產150的存取。下文更詳細地描述藉以判定選定合作者140的過程。

圖2描繪示出合作平台200的例示性實施例的示意性方塊圖。與所揭露實施例一致，合作平台200可允許不同生產者110允許其資料資產150由共用環境使用，同時保留存取控制以保護其智慧財產權。另外地，合作平台200可允許生產者110利用其自身資料資產150存取及創建項目，而不與額外生產者110、消費者120或合作者140合作。合作平台200可設計為使得可共用或公佈使用者項目的結果（例如，資料集、新使用案例或新治療）而非促成其的元素（例如，所利用的資料資產150、分析方法）。

合作平台200可包括至少一個處理器及含有指令的至少一個非暫時性電腦可讀媒體。當由至少一個處理器執行時，指令可使得系統執行操作，例如由圖2中所描繪的模組執行的操作。平台200可包含多種模組，所述模組中的每一者可實施為處理器、離散系統或其任何組合內的功能單元。模組可經由一或多個公用或私用網路連接彼此連接，所述網路連接包含網際網路、企業內部網路、廣域網路（Wide-Area Network；WAN）、都會區域網路（Metropolitan-Area Network；MAN）、順應IEEE 802.11a/b/g/n標準的無線網路、有線網路或類似者。在另外的實施例中，合作平台200或其組件模組中的任一者單獨地或以任何組合可呈伺服器、通用電腦、大型電腦、例如圖形處理單元（graphical processing unit；GPU）的專用計算裝置、膝上型電腦或此等計算裝置的任何組合的形式。合作平台200亦可為獨立系統，或其可為子系統的部分，所述子系統可為較大系統的部分。

儘管所描繪的模組包含資料管理模組210、資料攝取模組211、資料分析模組220、工作流程程式庫221、分析工具包223、搜尋及圖形模組230、匹配模組231、科學問題轉換模組233、合作模組240、洞察應用241、法律模組242、交易模組243、檢驗模組244以及平台管理模組250。但未描繪的其他模組及組件亦可包含於合作平台200中。舉例而言，一或多個網路化資料庫（未描繪）亦可為合作平台200的一部分，其中所述資料庫經組態以儲存由生產者110共用的資料資產150。

轉向個別模組，資料管理模組210可經組態以處理及連接不同實體之間的資料資產150。引入至合作平台200中的原始資料（例如，下文描述的結構化資料260A、非結構化資料260B、串流資料260C）可傳遞通過待封裝至資料資產150中的資料管理模組210。在一些實施例中，資料管理模組210可包括幫助過程、結構化以及連接資料資產150的管線、方案以及本體論。

管線為按次序執行的一或多個軟體處理，使得一個處理的輸出為至下一處理的輸入。管線可以包括剖析器、模板、共用程式庫及/或業務規則中的一或多者的模組化方式設計。管線的模組設計可允許獨立於其他組件來修復或替代個別組件（例如，剖析器、模板、共用程式庫或業務規則）。個別組件的一系列修復或替代可產生更成熟管線，所述管線更好地經組態以處理呈不同格式或型式的資料。

在管線內，剖析器為以其原生格式獲取輸入資料且將資料轉化成與合作平台200相容的一或多種格式的軟體組件。管線可用於將與資料資產150相關聯的任何資料格式轉化成平台較佳方案。

在一些實施例中，管線可包括藉由標準化某些步驟來幫助促進管理過程的模板。舉例而言，模板可經組態以將特定函數集合或轉換應用於共同類型的資料。在另外的實施例中，管線可包括共用程式庫，其中處理特定類型的資料需要更複雜的轉換集合。共用程式庫可包括儲存為可執行程式庫的轉換集合，其可在整合原始資料的處理中視需要調用。另外地或可替代地，管線可包括業務規則，所述業務規則為自定義邏輯或演算法的集合，所述邏輯或演算法為不可標準化的或特定於資料擁有者的（例如，生產者的請求）。

方案為表示資料集中的資料的結構的圖式或模型。方案可藉由學習調和來自各種來源的多個資料集而創建。舉例而言，目標臨床資料方案可藉由查核多個先前試驗的方案及調和跨試驗的資料來設計。舉例而言，方案可藉由包含來自先前試驗的多個方案的共同結構或變數來創建，諸如生理參數（例如，性別）或試驗參數（例如，試驗持續時間）。此方案接著可擴展以包含新試驗所需的額外參數（例如，研發中的新生理量測值）。

在另一實例中，可設計以下方案：來自對阿茲海默症（Alzheimer）的多個不同試驗的方案的調和產生患者的LDL膽固醇水平經常被量測的發現。根據此發現設計的新方案可包含LDL膽固醇水平作為的阿茲海默症的除常見生物標記（澱粉樣蛋白斑）以外的潛在生物標記。方案的調和及設計可使用人工智慧或機器學習自動化以辨識先前未注意到的現象的此重複出現，由此潛在地引起新發現。

本體論為展示特性及資料之間的關係的主題領域或域內的概念及類別的集合。本體論可藉由調和資料、鏈接類似及不同資料類型且以結構化方式創建術語及其屬性來提供或開發。

資料管理模組210可經組態以自生產者110接收資料資產150，且將其整合至由合作平台200的其他模組支援的不同工作流程及分析中。

在一些實施例中，資料資產150可包含如上文所論述的分析模型及資料集，其中資料集可包含結構化資料260A、非結構化資料260B或串流資料260C。一些實施例的資料集亦可包含影像。由資料管理模組210接收的每一資料資產150可伴有描繪資料資產150如何組織或表徵所產生的資料資產150的先前使用者項目的方案。如下文所論述，資料管理模組210可使用此等模式以經由儲存於合作平台200中的不同資料資產150索引及搜尋。隨著增加數目的資料資產150整合至平台200中，平台200可更新或修改方案，且類別、群組或型式可能夠跨疾病或其他共同特性鏈接資料資產150。方案可特定於資料類型、群組、屬性、類別、型式或與資料資產相關聯的任何其他個別或公共特性。舉例而言，方案可與資料類型相關聯，諸如基因體學、蛋白質體學、試驗類型、疾病領域、醫學影像或合作期間發起的任何變數。

此外，在一些實施例中，資料管理模組210可在階段中接收資料資產150。舉例而言，生產者110可僅共用其資料資產150的一部分，諸如代表樣本或其用於公用存取的方案。生產者110可接著在選定合作者140接受項目且開始一起工作之後共用其資料資產150的完整版本。為此目的，資料管理模組210可藉由限制與潛在合作者共用的資訊及防止任何敏感資料向前共用來控制對資料資產150的各個部分的存取。此可確保使用者帶給合作平台200的智慧財產權及資料資產150受到保護及確保。

在一些實施例中，資料管理模組210可包括資料攝取模組211，其經組態以特化整合資料資產150當中的資料集。資料攝取模組211可調節自生產者110接收到的資料集以採取共同標準及相關聯本體論。隨著攝取資料，資料的資料檔為已知的或可經識別。舉例而言，資料可為特定資料類型(諸如，臨床或基因體學）或特定疾病領域（諸如，阿茲海默症或心臟病）。變數可映射至平台針對此等特定資料類型或疾病使用的方案及/或本體論中的等效欄位。若傳入資料集具有不在共同方案或本體論中的屬性，則資料欄位可添加至方案或本體論。替代地，可不映射此等未辨識的屬性。攝取的資料可儲存於資料庫中，且使其對消費者120及選定合作者140可用以供並行存取。

在一些實施例中，一或多個本體論可藉由鏈接類似及不同資料類型且以結構化方式創建術語及其屬性來開發。機器學習演算法可掃描過去由人類操作員建立的鏈接，且建議鏈接多個資料類型的特定本體論。另外地或可替代地，機器學習演算法可經由使用者提供的關於所得本體論的反饋來學習此鏈接。隨著增加數目的資料資產150整合至平台200中，平台200可更新或修改一或多個本體論。此允許合併先前未知的屬性及平台200上生成的任何洞察來精細化及改良本體論。

在一些實施例中，資料攝取模組211可經組態以剖析所接收資料集以識別具有已知標記或索引的資料元素。且一旦剖析，資料攝取模組211可根據常見操作規範（例如，公制單位）將資料元素的群組（例如，資料元素的行）標準化為標準單位，且更新相關聯資料元素以反映標準化。舉例而言，資料攝取模組211可認識到，資料元素的群組表示體重且將其單位轉化成公斤。資料攝取模組211亦可將劑量的相關聯資料元素更新為基於公斤而非磅。

資料攝取模組211的另一特徵可包含調和資料元素，使得其遵循共同慣例。舉例而言，一個資料集可用值「雄性」及「雌性」指示性別，而另一資料集可用值「M」及「F」指示性別。在此等情況下，資料攝取模組211可替代每一指示以使用「雄性」及「雌性」。只要其跨不同資料集保持一致，即可使用任何其他指示集合。在一些實施例中，調和資料元素亦可包含藉由基於本體論將資料元素轉換為標準資料類型而使每一資料元素一致。舉例而言，對應於同一變數的資料元素的行可包含資料類型：歸因於剖析誤差的整數、加倍或文本。在此等情況下，資料攝取模組211可將資料元素轉化成相同資料類型。此等不一致可由人類操作員、生產者150或機器學習演算法辨識，在發現新的不一致性時機器學習，所述演算法可經裝備以創建可自動轉化不一致資料元素的新自定義規則。

在另外的實施例中，資料攝取模組211可經組態以對所接收資料集執行「健康檢查」，其中模組識別已知資料元素且檢查以查看此資料元素的值是否在常見或已知安全範圍內。舉例而言，資料攝取模組211可能夠認識到，資料元素的群組表示體重且辨識出體重通常小於200公斤。在此情況下，例如在以公斤為單位的體重行中值為300的資料元素可表明，儘管指定單位，但資料點應以磅為單位。資料攝取模組211可接著將值為300的資料元素轉化為136，300磅的公斤等效。轉化可自動或藉由使用者輸入或確認進行。在一些實施例中，資料攝取模組211可經組態以基於對應方案中預限定的行識別資料元素；或相關聯標記或索引。在一些態樣中，健康檢查可在變數級別上（諸如，上文所論述的體重）指派，但亦可在聚合級別上（例如，患者）指派。健康檢查亦可涉及檢查以查看患者記錄包括患者類型的所有預期欄位中的資料。舉例而言，若記錄為正治療心血管問題的患者中的一者，則預期此患者的用藥清單包含斯他汀（statin）。預期資料的清單可由醫學專業人員或研究人員開發或由平台上的資料生成。亦可使用機器學習不斷地更新預期資料的清單。

再此外，資料攝取模組211可經組態以將所接收資料集填充至具有與同一本體論相關聯的預定行及參數的知識庫模板的集合中。此情形可在所接收資料遺漏允許資料攝取模組211辨識及攝取所接收資料的標記或標籤時發生。在一些實施例中，資料攝取模組211可基於來自合作平台200的一或多個管理員的手動判定及輸入或基於機器學習演算法的自動判定來填充所接收資料集。

在一些實施例中，資料管理模組210亦可包括經組態以匿名化資料資產150的一或多個額外模組（未描繪）。匿名化資料資產150可包括自資料資產150辨識及移除個人可識別的資訊。此資訊可包含例如全名、社會保險號碼、駕駛執照號碼、銀行賬戶號碼、護照號碼、電子郵件位址或可允許第三方識別特定個人的任何其他資訊。在一些實施例中，匿名化資料資產150可包括藉由污損以移除例如使得不可能辨識個體的面部的一些或全部來匿名化醫學影像。在一些實施例中，資料管理模組210或責任模組可藉由為資料元素的每一群組（例如，對應於患者的資料元素的群組）指派唯一總體識別符及用相同唯一總體識別符重組其他資料資產150來匿名化所接收資料集，其中所述資料資產與同一患者相關聯。

返回參考合作平台200的個別模組，資料分析模組220可經組態以提供工作流程程式庫221及分析工具包223。可使工作流程程式庫221及分析工具包223對選定合作者140可用以用於探索其自身資料資產150或在其形成合作及開始使用者項目時。

在一些實施例中，工作流程程式庫221可儲存或包含預構建的分析模板，所述分析型模板捕獲消費者120頻繁執行的常式及創新分析。一些分析模板亦可基於機器學習演算法。在一些實施例中，可至少部分地使用預構建的分析模板以識別最適合於由消費者或合作者提出的科學問題的分析方法。預構建的分析模板可包含分析工具，諸如用於統計分析、全基因體關聯分析（genome-wide association study；GWAS）、卡方測試、回歸分析函數或類似者的分析工具。分析工具亦可對特定疾病領域進行分組，諸如免疫學、神經退化性疾病或心血管代謝疾病。此外，每一疾病領域內的分析工具亦可藉由諸如以下的階段組織：發現（例如，虛擬的概念指示符驗證（virtual proof of concept indicator；vPOC）或圖形挖掘）、臨床前（例如，不良事件預測器或細胞影像分析）、臨床試驗（例如，端點探測器或虛擬試驗設計）或市場准入（疾病進展圖）。

在某些實施例中，分析工具包223使得平台使用者能夠進一步分析資料。舉例而言，分析工具包223可包含用於統計計算及圖形的整合式開發環境、高階及通用程式化語言的應用、開源軟體程式庫、基於資料流及可微分程式的符號數學程式庫以及基於其它軟體或應用的元素，以使得使用者能夠進一步探索資料資產150。分析工具包223亦可包括機器學習演算法及/或軟體組件。

合作平台200亦可包括搜尋及圖形模組230，所述搜尋及圖形模組用於生成用於合作的使用者項目且判定匹配資料資產150及潛在合作者130。在一些實施例中，搜尋及圖形模組230可自消費者120接收搜尋查詢，其中搜尋查詢可包括消費者120希望探索的不同參數或科學問題。此等參數及科學問題可基於下文所描述的演算法轉化成使用者項目且與資料資產150匹配。

在一些實施例中，使用者項目可包括廣泛多種屬性（例如，描述、疾病分類、使用案例分類、鏈接項目、鏈接藥物、鏈接臨床試驗）、資料集以及用於分析或轉換的程式碼。屬性可包含程式碼行或可經由程式碼填充。舉例而言，依據項目中的其他屬性判定的特定屬性可用程式碼表示，使得屬性可在應用於資料資產150時自動填充。

圖3繪示描繪為繪示使用者項目可包含的屬性的子集及其如何組織的樹狀結構的例示性項目模板。項目可僅具有所填充的欄位中的一些。資料集的項目例如可僅具有所填充的「資料集」下方繪示的彼等欄位。AI模型的項目可僅具有所填充的「分析」下方繪示的彼等欄位。此外，屬性可基於消費者120選擇的關鍵字、過濾器、自然語言、下拉式選單或藉由其他方法填充。另外，屬性可作為剖析消費者120提交的科學問題的機器學習演算法的結果而填充。

搜尋及圖形模組230可使用類似處理以索引來自生產者110的資料資產150，其中某些資料資產150可與用於開始產生資料資產150的合作的對應生產者項目一起儲存。在一些態樣中，資料資產150的元資料、方案或部分可與對應生產者項目一起儲存。以此方式，來自消費者120的搜尋查詢可轉化成使用者項目，且先前合作及資料資產150可與生產者項目相關聯，其中搜尋及圖形模組230可藉由將使用者項目與生產者項目匹配來將消費者120與生產者110匹配。匹配資料資產150的擁有者可接著作為潛在合作者130呈現給消費者120。在一些實施例中，搜尋及圖形模組230亦可將資料資產150的方案轉變及索引為平台所需方案。在一些實施例中，當與資料資產相關聯的方案可包含尚未由平台200識別到的未知或新變數時，方案可能需要由平台管理員轉變成平台所需方案。

消費者120與潛在合作者130的實際匹配可使用搜尋及圖形模組230的匹配模組231及科學問題轉換模組233進行。兩個匹配模組可經組態以將使用者項目與生產者項目匹配且呈現對應於匹配資料資產150的潛在合作者130。在一些實施例中，消費者120亦可藉由名稱或組織隸屬搜尋特定提供者110或消費者120。

匹配模組231可用於匹配使用某些參數的使用者項目。在第一例項中，消費者120可藉由提交關鍵字、過濾器或下拉式選單而發起匹配過程。儘管不同參數可基於消費者120的偏好提交，但資料資產150當中的分析模型的參數可包含生產者110的類型（例如，學術機構或醫藥公司）、疾病領域、問題陳述、效能要求、隱私或類似者。資料集的參數可包含疾病領域、資料集的類型、資料集的時間標度、人群規格、生產者名稱、隱私或類似者。

在另一例項中，消費者120可選擇基於消費者120的資料檔定製的資料資產150或生產者110的推薦組合中的一者。舉例而言，匹配模組231可分析消費者120的過去活動（例如，頻繁探索的疾病領域、先前項目、共用資料資產150或論壇告示)。匹配模組231亦可分析其他使用者的活動以推薦由其他使用者頻繁使用的受歡迎資料資產150。

在又一例項中，消費者120可自匹配面板選擇其他使用者或資料資產150，其中可列出請求新合作者的不同生產者110、資料資產150或其他消費者120。

匹配模組231在本質上可為自適應的。亦即，當執行合作時，與各種資料資產相關聯的本體論及方案可更新或改變。另外，新資料資產可作為合作的結果而創建。因此，當創建各種資料資產之間的鏈接時，匹配模組可識別用於與特定科學問題相關聯的合作的最有前景的資料資產。匹配模組231可使用兩種不同演算法：定性匹配及定量匹配。用於識別類似對象的其他演算法亦在本發明的範疇內，但未在本文中列舉。

在一些實施例中，定性匹配可在與資料資產相關聯的方案或元資料中利用關鍵字匹配或依賴於本體論映射。定性匹配可使用疾病標記，諸如監管活動醫學字典（Medical Dictionary for Regulatory Activities；MedDRA）中所登記的標記或資料類型（例如基因體、介入試驗、電子健康記錄等)。舉例而言，鑒於在過去的多個項目中已使用的特定資料資產150，過去項目的分析可揭示疾病（例如，多發性硬化症）的頻繁提及。特定資料資產150可由此標記為與多發性硬化症相關，且在使用者搜尋多發性硬化症時顯現。在對於特定關鍵字存在多個此等資料資產150的另外的實施例中，匹配的資料資產150可基於資料資產的量（例如，患者的數目）或獨特樣本的數目來進行排序。另外地或可替代地，消費者120的規格可設定為使用者項目的額外屬性，其使用一或多個定性過濾器與資料資產150匹配。

另一方面，定量參數匹配可基於使用者項目及資料資產150的方案。舉例而言，行標題及頻率可用於建立相關性，其中搜尋及圖形模組230可經由資料資產150的行標題搜尋定性標準。定量匹配可識別包含一或多個所要變數的資料資產且識別與一或多個所要變數相關聯的資料的量。具有與一或多個所要變數相關聯的更多資料的資料資產可經排序為高於具有一或多個所要變數但具有較少資料的資料資產。搜尋及圖形模組230可在指示對應資料資產150匹配之前對匹配的行執行健康檢查。

在某些實施例中，科學問題可由使用者以自然語言輸入，藉由例如問題轉換模組233轉換成項目，且用於識別潛在合作者。科學問題轉換模組233可經組態以使用自然語言處理來剖析科學問題，且基於本體論識別屬性以填充使用者項目。

下文相對於圖6展示將科學問題轉換成使用者項目的例示性方法。作為簡單實例，使用者可使用使用者介面（user interface；UI）輸入科學問題。在此實例中，科學問題可為以下假設：「升高的LDL與阿茲海默症進展相關」。科學問題轉換模組233可使用自然語言處理技術來剖析科學問題，且基於本體論識別使用者項目的屬性。舉例而言，轉換模組233可認識到，問題與阿茲海默症有關，且可基於字組「進展」的使用來判定問題類型為「疾病進展」。轉換模組233可基於字組「阿茲海默症」判定所述問題在「神經科學」疾病領域中。基於此資訊，轉換模組233可推斷用於填充使用者項目的其他欄位的資料。舉例而言，因為例示性問題與阿茲海默症及疾病進展有關，所以轉換模組233可選擇方法，諸如潛在組群混合建模或K平均集群法。

在一些態樣中，科學問題轉換模組233可將由使用者或消費者120呈現的自然語言科學問題轉換成作為科學問題的分析表示的程式碼。所述程式碼可衍生自平台資料本體論及方案、先前科學問題、儲存於工作流程程式庫中的預建構的分析模板以及在先前合作期間在平台上生成的洞察。整合於平台200上的所有資料資產可經由方案或本體論轉換成表示一或多個合作、項目或將資料資產鏈接至一或多個科學問題的類似程式碼。

科學問題轉換模組233可接著將所得使用者項目提供至匹配模組231以用於在上文所論述的定性基礎上識別匹配資料資產150、潛在合作者、AI模型以及夥伴關係。基於由使用者或消費者120呈現的科學問題與同資料資產鏈接或相關聯的科學問題的相似性，匹配模組231可判定匹配。每一匹配可包含相似性值以允許匹配資料資產的排序，所述相似性值表示由使用者或消費者120呈現的科學問題與一或多個資料資產之間的相似性的百分比。

一旦搜尋及圖形模組230已完成將使用者項目與生產者項目匹配，且因此匹配資料資產150，即將對應於匹配的資料資產150的潛在合作者130呈現給消費者120以供選擇。搜尋及圖形模組230可基於排序將推薦的匹配資料資產150呈現給消費者120。消費者120可接著選擇潛在合作者130的子集，所述搜尋及圖形模組230將接著轉送至合作模組240。

在一些實施例中，搜尋及圖形模組230可藉由基於生產者項目與使用者項目匹配的密切程度對潛在合作者130進行排序來呈現潛在合作者130。舉例而言，搜尋及圖形模組230可基於匹配屬性的數目；由先前使用者在過去選擇的最受歡迎的資料資產；或科學問題類型來判定排序。排序資訊可僅呈現給消費者120，且個別潛在合作者130可能不瞭解其在由消費者120的發起的特定搜尋中的排序。

在另外的實施例中,搜尋及圖形模組230可顯示資料資產150連同每一潛在合作者130的簡短描述。簡短描述可由具有資料資產150的對應提供者110提供，或由資料管理模組210基於其方案生成。另外地或可替代地，消費者120亦可使用檢驗模組244限制地存取匹配資料資產150。檢驗模組244可允許在使用匹配資料資產150購買或建構合作之前存取匹配資料資產150的一部分以進行預覽。在一些實施例中，匹配資料資產150的部分可為公開可用的，或已經由對應生產者110授權發行。檢驗模組244可對匹配的資料資產150執行一或多個資料品質檢查或可用於對匹配的資料資產150執行一或多個資料品質檢查。在資料品質檢查中，可允許使用者對匹配的資料集運行查詢以查看匹配的資料集中的任一者是否適合於使用者的使用。舉例而言，正研究與心臟病相關的問題的使用者可對資料集運行查詢以判定與心臟病相關的參數是否經適當填充。在某些實施例中，檢驗模組244可與資料攝取模組211整合以顯示先前執行的與攝取的資料資產相關聯的資料品質檢查的結果。

在一些實施例中，搜尋及圖形模組230可更包括推薦模組（未描繪），所述推薦模組經組態以輸出資料資產150與返回最高匹配的對應潛在合作者130的最佳化組合。此最佳化組合可以區分的方式（例如，突出顯示以輔助選擇合作者）顯示給消費者120。推薦模組可使用由系統的使用者提供的評級及評論來改良或排序至平台的資料資產150、方法、模型、夥伴關係或其他輸入。

合作平台200亦可包括合作模組240，所述合作模組240用於安全且順暢地協調消費者120與選自潛在合作者130的池的選定合作者140之間的合作。一旦消費者120已選擇選定合作者140，合作平台200即可生成通知且將通知傳輸至每一選定合作者140。通知可包含消費者120的識別、使用者項目的描述或摘要、其他選定合作者140的識別或可能適用於各別選定合作者140以決定是否與消費者120合作的任何其他資訊。使用者項目的描述或摘要可由消費者120編輯或提供以確保不共用敏感資訊，因為選定合作者可選擇拒絕合作。

當每一選定合作者140接受合作時，合作模組240可經組態以藉由記錄合約及付款完成合作。在一些實施例中，法律模組242可允許選定合作者140在消費者120與每一選定合作者140之間生成一或多個合約（例如，理解備忘錄、聯合研究協定、禁止洩漏協定等）。一或多個合約可例如，通過引導每一選定合作者140的下拉式選單或提示而為通用的或可針對特定情況配置的。法律模組242可接著自消費者120及選定合作者140中的每一者獲得接收或拒絕的指示，其可包括合約的標示複本。在一些實施例中，合約可包含使用資料資產150的費用配置，其將需要受影響方之間的付款。在此情況下，合作模組240可包含交易模組243，所述交易模組243配置成自付款人接收付款資訊且根據合約交換電子付款。交易模組243可經組態以接收各種類型的付款，諸如信用卡、銀行轉賬、貝寶（PayPal）或其他付款類型。交易模組234亦可經組態以根據由法律模組242限定的任何配置來管理對一或多個合作者140或一或多個消費者120的付款。交易模組243亦可提供關於資料資產150的付款或使用的法律免責聲明。

一旦每一方已接受合作、執行合約且交換付款，合作模組240即可授權屬於已被約束的選定合作者140的任何資料資產150的全解密。選定合作者140當中的提供者110亦可共用全集資料資產150，其中僅資料資產150的一部分先前導入至合作平台200中。可經由資料管理模組210暫時將來自此等提供者110的新的全集資料資產150導入至合作平台200中，直至合作結束。

在一些實施例中，合作模組240可經組態以允許消費者120及選定合作者140建立及管理各種試驗（例如，動物試驗、虛擬試驗或臨床試驗）。舉例而言，合作模組240可輔助招募患者、匿名化其資料且使其可用於消費者120及選定合作者140以用於分析。在另外的實施例中，合作模組240亦可經組態以允許消費者120及選定合作者140管理對私用及公用來源（例如，美國國家衛生研究院、蓋茨基金會（Gates Foundation）或授與獎勵或貸款的其他組織）的授與申請。

合作模組240亦可包括洞察應用241，所述洞察應用241經組態以生成及/或儲存基於合作平台200的操作判定的洞察。

科學洞察是作為待解決的使用案例的一部分而生成的。科學洞察可作為知識圖儲存於平台上。舉例而言，上文所論述的LDL膽固醇水平與阿茲海默症之間的關係的識別可為經由使用合作平台200生成的科學洞察。洞察可由人類專家或中間人驗證，其限定特定洞察為有效的且由可信及合法貢獻者自可信來源導出。消費者洞察可為例如輔助對資料資產、AI模型、潛在合作者及平台上的其他條目進行排序的評級及/或評論。消費者洞察及/或排序可用於幫助解決科學問題。

洞察的擁有者/創建者可基於對貢獻的考量來判定。此判定可接著指示洞察的可存取性。舉例而言，科學洞察可經指派或歸屬於生成洞察的項目（例如，生產者110或選定合作者140）的貢獻者。接著，僅項目的貢獻者可存取洞察作為私用洞察。在另一實例中，洞察可藉由將公用臨床試驗資料（例如，來自clinicaltrials.gov）連接至學術期刊及/或專利中的特定公開案來生成。自然語言處理演算法可用於自公開案或專利擷取假設，使得公共資料可用於驗證假設且形成洞察。可使此洞察可用於合作平台200的所有使用者。再此外，消費者洞察可藉由識別合作平台200的個別使用者之間的關係（例如，其連接至誰、其附屬於哪個組織、其使用了哪些資料資產150、其為哪些項目的一部分等）來生成。此洞察可用作進行中的項目及其迄今為止進展的全域瀏覽器，或用作形成新的連接或合作的網路連接手段。此等洞察可能部分限制用於查看，因為其可包含敏感/私用資訊。

在一些實施例中，知識圖中的洞察的擁有者/創建者可決定將其個人知識圖與平台的共同知識圖連接（使其可搜尋但不可存取）。共用知識圖可幫助改良本體論且在創建合作搜尋請求時自動地包含必要欄位。

洞察應用241可經組態以使用為合作接收及攝取的資料資產150來生成與科學問題相關的疾病特異性推斷；自消費者120及選定合作者140接收關於匹配的適當性、關於每一合作者的情況或關於平台的情況的反饋。在一些實施例中，反饋亦可包含由選定合作者140提供的關於資料資產150的品質的評論。洞察應用241可接著使用推斷及反饋以改良搜尋及圖形模組230（例如，調整排序或索引）。

此外，合作平台200可包括平台管理模組250，所述平台管理模組250可包括用於管理平台的管理及雜項模組（未描繪）（例如，記錄、驗證、API管理、計費/使用報告、服務監視）。平台管理模組250亦可包括經組態以允許合作平台200的管理員存取個別模組或組件的輸入/輸出裝置或端子。在一些實施例中，平台管理模組250亦可經組態以提供論壇，其中提供者110及消費者120可自由共用構想、發佈問題或公佈資料資產150。此論壇可促進交互作用及新合作在提供者110與消費者120之間形成。

在一些實施例中，合作平台200可包括使用者介面252，合作平台200的使用者可藉由所述使用者介面252輸入資料、科學問題、回應或選擇。合作平台亦可包括一或多個顯示裝置，使用者在所述顯示裝置上查看資料、選項以及其他資訊。在一些實施例中，使用者介面252及顯示裝置中的一者或兩者可為平台管理模組250的部分或與平台管理模組250共用功能性。在一些實施例中，其為獨立模組。

圖2A描繪說明具有額外組件的合作平台200a的替代性實施例的示意性方塊圖，並非所有額外組件均在本文中描述。與所揭露實施例一致，合作平台200a可允許不同生產者110允許其資料資產150由共用環境使用，同時保留存取控制以保護其智慧財產權。另外地，合作平台200a可允許生產者110利用其自身資料資產150存取及創建項目，而不與額外生產者110、消費者120或合作者140合作。合作平台200a可設計為使得可共用或公佈使用者項目的結果（例如，資料集、新使用案例或新治療）而非促成其的元素（例如，所利用的資料資產150、分析方法）。合作平台200a可包含資料管理模組210a、分析模組220a、搜尋及圖形模組230a、合作模組240a以及平台管理模組150a。

圖4為用於使用由消費者120指定的參數將使用者項目與潛在合作者130匹配的電腦化過程400的例示性流程圖。過程400可由合作平台200使用上文所論述的其不同組件執行。

過程400可在步驟401處開始，其中消費者120存取合作平台200。匹配模組231可接著在上文所論述的三種情況中的任一者中經由搜尋及圖形模組230自消費者120接收參數，如由步驟412A至步驟412C所表示。對於步驟412A至步驟412C中的每一者，匹配模組231可嘗試在上文所論述的過程中將所接收參數與資料資產150匹配。舉例而言，匹配模組231可將參數轉化成使用者項目的屬性；藉由將使用者項目的屬性與同資料資產150相關聯的生產者項目的屬性進行比較來識別潛在資料資產150；以及呈現對應於潛在資料資產150的潛在合作者130。

在步驟413處，匹配完成，且在步驟414處，消費者120可選擇選定合作者140。接受到消費者120的選擇後，合作模組240可以上文在步驟415處所論述的方式通知選定合作者140關於匹配及使用者項目。接下來，在步驟416處，選定合作者140的接受可提示合作模組240通知消費者120關於接受，且在步驟417處繼續完成合作，如上文所論述。

然而，另一方面，過程400中的匹配可以數種不同方式出錯。舉例而言，在步驟418處，匹配模組231可能無法將使用者項目與任何資料資產150匹配，此時搜尋及圖形模組230可將空結果通知消費者120。在一些實施例中，在步驟419處，搜尋及圖形模組230亦可提示消費者120他或她是否希望重新嘗試與不同的參數集合匹配。消費者120的肯定回應可提示搜尋及圖形模組230返回至步驟411且重新啟動過程400。

在另一實例中，當選定合作者130拒絕消費者120的合作請求時，匹配過程可能出錯。在此等情況下，合作模組240可在步驟420處，通知消費者120拒絕，且在步驟419處提示他或她是否希望重新嘗試匹配。消費者120的肯定回應亦可提示搜尋及圖形模組230返回至步驟411且重新啟動過程400。

在另外的實施例中，取決於誰發起匹配，可給予消費者120或生產者110拒絕在步驟413匹配的所有潛在合作者130的選項。若如此，則搜尋及圖形模組230可在步驟419處提示是否應重複匹配。在步驟414處選擇一或多個潛在合作者130將允許處理400如上文所論述的進行。

圖5為用於使用由消費者120提交的科學問題將使用者項目與潛在合作者130匹配的電腦化過程500的例示性流程圖。圖5中所描繪的步驟可實質上類似於圖4中所描繪的步驟，因為無論由消費者120提交的搜尋查詢包含科學問題抑或參數集合，在識別潛在合作者130之後的步驟保持相同。

在一些實施例中，處理500可在步驟511處開始，其中消費者120可提交科學問題。在步驟512中，科學問題可轉換成使用者項目。如圖6中所繪示，在將科學問題轉變成項目的過程中，欄位中的一些可經由儲存的邏輯來推斷。舉例而言，在「患者患動脈粥樣硬化性心血管疾病的風險有多大？」的問題中，可推斷如患者是否為吸菸者、高血壓或糖尿病的因素可能很重要。諸如年齡、種族以及性別的其他因素可為重要風險因素。亦可推斷諸如收縮壓、總膽固醇、LDL以及HDL的某些量測值可為對研發很重要的量測值。項目的其他態樣亦可自以下問題推斷，諸如疾病領域（例如，神經科學、心血管）、靶酶或蛋白質（例如，PCSK-9）、藥物類別（斯他汀、sIRNA）、用於分析的方法（例如，潛在組群混合建模、K平均集群法）以及類似者。

推斷可至少最初對由具有科學知識的某人輸入的所儲存資料進行。推斷可基於一或多個資料集來判定。推斷亦可基於自平台的使用生成的洞察來判定或更新。

步驟514至步驟521可實質上類似於步驟413至步驟420，因為其涉及合作模組240的功能，所述功能獨立於搜尋及圖形模組230如何識別潛在合作者。然而，在一些實施例中，搜尋及圖形模組230可在步驟520處向消費者120呈現選項，詢問他或她是否希望重複匹配，且在步驟521處，詢問他或她是否希望使用相同科學問題。搜尋及圖形模組230可接著在步驟513處回應於來自消費者120的肯定指示重複匹配，或在511步驟處回應於否定指示提示新的科學問題。

替代地或另外，生產者110亦可經由搜尋及圖形模組230而非消費者120來發起匹配。在此情況下，可修改步驟414至步驟420或步驟514至步驟522，以使得生產者110為在步驟414（步驟515）處初始選擇合作者且在步驟416以及步驟418至步驟420（步驟517以及步驟519至步驟522）處接收通知的一方，而非消費者120。在此情況下，潛在合作者130及選定合作者140可包含其他生產者110以及消費者120。

圖6為用於使用由消費者120提交的科學問題識別資料資產150的電腦化過程600的例示性流程圖。在一些實施例中，過程600可對應於步驟511至步驟513的一部分，其中將科學問題轉換成使用者項目且與資料資產150匹配。過程600可由合作平台200使用上文所論述的其不同組件執行。

在一些實施例中，過程600可在步驟601處藉由接收科學問題本文作為使用者輸入來開始。如上文步驟512中的情況，此科學問題可為自然語言文本，好像消費者120向另一個人詢問問題一樣。舉例而言，科學問題可讀取到「脂蛋白（a）水平是否與冠狀動脈疾病的發病年齡相關？」。此例示性科學問題將在整個過程600的以下描述中使用，但問題本身；其中所傳達的字組或含義中的任一者；或以下解釋、資料或特定闡述中的任一者無論如何均不意欲為限制性的。

在步驟602處，合作平台200可將科學問題剖析成組件參數且將組件參數配置成數學關係。合作平台200可使用可用於將科學問題分解成字組且判定其顯著性的自然語言處理技術中的任一者。舉例而言，合作平台200可將上文所提供的例示性科學問題分解為「脂蛋白（a）」、「相關性」、「發病年齡」以及「冠狀動脈疾病」；且認識到，字組分別描述組件參數「生物標記」、「關聯性」、「病史」以及「疾病」。

在一些實施例中，合作平台200可利用額外邏輯以便辨識字組或技術術語的共同變化。在另外的實施例中，合作平台200亦可辨識及指派額外組件參數的值，所述額外組件參數有助於將科學問題轉換成使用者項目及/或完成項目模板，諸如圖3中所繪示的項目模板。舉例而言，合作平台200可認識到，例示性科學問題亦指示組件參數「疾病領域」可基於上文識別的疾病「冠狀動脈疾病」取「心血管」的值。其他組件參數，諸如在圖3中找到的屬性，亦可用於在過程600下識別及考量。

另外，合作平台200可使用自然語言處理技術將組件參數配置成數學表達式。舉例而言，合作平台200可認識到，例示性科學問題的組件參數可配置成以下表達式：

其中A為關聯函數，X為生物標記，Y為病史，且Z為疾病。此處的表達式指示X、Y以及患Z的患者之間的相關性大於0（亦即，三個變數之間存在正相關）。

在步驟603處，合作平台200可藉由識別資料資產150中與疾病Z的組件參數相關聯的所有患者來開始。此搜尋可包含資料資產150中疾病出現於診斷、病史及/或不良事件中的任何條目。在一些實施例中，合作平台200可使用外部知識基礎，諸如監管活動醫學字典（MedDRA）或其它公用詞典，來擴展對相關疾病或相關醫療程序的搜尋。舉例而言，對上文所識別的疾病Z（冠狀動脈疾病）的搜尋可擴展至包含其他疾病，諸如心肌梗塞、非致命中風、缺血性中風、心血管死亡、心絞痛、暫時性腦缺血等；以及相關醫療程序，諸如冠狀血管成形術及支架植入、血栓溶解療法、冠狀動脈搭橋手術（coronary artery bypass graft surgery；CABG）、人工起搏器手術、心臟瓣膜手術等。在步驟603結束時，合作平台200可將在步驟603處識別的所有患者暫時儲存為所關注組，且將其相關聯資料儲存為所關注資料集。

在步驟604處，對於所識別患者，合作平台200可識別屬於所關注組且具有特定組件參數的記錄的患者的第一子集。舉例而言，合作平台200可為具有脂蛋白（a）的量測值的任何患者搜尋所關注資料集，所述脂蛋白（a）為上文例示性科學問題中指定的生物標記。在一些實施例中，合作平台200亦可判定生物標記是否與其他生物標記或基因突變相關，且擴展搜尋以進一步識別患者，其中可基於患者關於其他生物標記或基因突變的記錄推斷生物標記物的量測值。在步驟604結束時，合作平台200可更新所關注組及所關注資料集，以移除不符合本文所論述的標準的任何患者及對應資料。

在步驟605，合作平台200可自患者的第一子集識別與疾病的組件標記相關的共變數。在一些實施例中，合作平台200可使用自然語言處理技術經由科學文獻剖析以識別研究人員已發現與特定疾病相關聯的共變數。舉例而言，冠狀動脈疾病的共變數可包含以下中的一或多者：年齡、性別、種族、抽菸史/狀態、身體質量指數（body mass index；BMI）、血壓、LDL以及2型糖尿病。

另外地或替代地，合作平台200可搜尋資料庫中的資料資產150及先前使用者項目以尋找使用合作平台200的任何合作者是否已識別共變數。在一些實施例中，合作平台200可基於信號的用途、來源以及強度使用機器學習來丟棄所識別的共變數中的一或多者。舉例而言，可僅保留具有最高信賴度的共變數且丟棄剩餘部分。

使用此等共變數，在步驟606處，合作平台200可過濾第一子集（亦即，更新的所關注組），以識別具有對應於共變數的資料條目的患者的第二較小子集。此步驟可類似於步驟604，除在患者記錄中搜尋的資料（亦即，所關注資料集）為在步驟605識別的共變數之外。

接著在步驟607處，合作平台200可更新所關注組及所關注資料集以丟棄不含有共變數的資料的任何患者，由此僅保留識別為第二子集的患者。在一些實施例中，亦可丟棄屬於不可由消費者120存取的資料資產150的患者。合作平台200可接著將所得的所關注資料集封裝為與科學問題高度相關的最終資料資產。

在一些實施例中，此最終資料資產可接著以不同潛在合作者130的列表的形式呈現給消費者120，以供消費者120選擇。合作平台200可接著繼續將消費者120連接至選定合作者140，如上文關於圖4及圖5所論述。在另外的實施例中，合作平台200亦可將在601步驟處輸入的科學問題、在步驟602處識別的組件參數以及在步驟607處生成的最終資料資產封裝至使用者項目中，其中組件參數轉化成屬性。

在過程600期間的任何時間，若所關注組中的患者的數目降至低於預定臨限值，則合作平台200可終止過程600。預定臨限值可為應答科學問題所需的具有統計顯著性的資料點（亦即，患者）的最小數目。預定臨限值可由使用者或消費者120設定，或其可藉由合作平台200基於相關疾病領域中的類似科學問題使用機器學習來判定。

圖7為用於使用由消費者120提交的科學問題識別先前項目、潛在合作者130或額外科學問題的電腦化過程700的例示性流程圖。過程700可由合作平台200使用上文所論述的其不同組件執行。在一些實施例中，過程700可對應於步驟511至步驟514的一部分，其中科學問題與潛在合作者130匹配。

在一些實施例中，過程700可在步驟701處藉由接收呈自然語言文本形式的科學問題作為使用者輸入，且在步驟702處藉由將科學問題剖析成組件參數且以數學關係表達來開始。步驟701及步驟702可實質上類似於上文所描述的步驟601及步驟602。

在步驟703處，合作平台200可使用機器學習演算法以生成可能關注的額外科學問題。在一些實施例中，此可包含使用識別的組件參數來識別先前由其他消費者120提交的其他科學問題。此處識別的其他科學問題可包含與針對最初輸入的科學問題識別的組件參數類似的組件參數。合作平台200可接著基於對應所關注資料集的重疊或由例如洞察應用241接收的來自使用者的反饋來創建高度相關的科學問題的列表。

在步驟704處，合作平台200可將高度相關的科學問題的列表提供至消費者120，且接收由消費者120選擇的相關科學問題的選擇。在其他實施例中，合作平台200可選擇預定數目個最相關的科學問題，而非使用者輸入或除使用者輸入以外。舉例而言，針對以上過程600所接收的例示性科學問題的替代性科學問題可包含：「在患阿茲海默症的患者中，脂蛋白（a）水平是否與冠狀動脈疾病的發病年齡相關」。

在步驟705處，合作平台200可基於相關科學問題的選擇更新組件參數及數學關係。可生成額外組件參數集合及對應數學關係以解釋選定科學問題。舉例而言，在步驟705處，可更新在上文的步驟602（且因此702）處識別為「冠狀動脈疾病」的疾病的組件參數，以包含「冠狀動脈疾病及阿茲海默症」。亦可更新由合作平台200自動識別的其他組件參數，諸如疾病領域的參數，以包含「心血管、神經科學」。

自步驟702及步驟705兩者，合作平台200可進行至步驟706及/或步驟707。在步驟706處，合作平台200可識別相關資料資產150，非常類似於上文所論述的步驟603至步驟607。此處，可識別多個資料資產150，各自基於在步驟702及步驟705處識別或更新的不同組件參數集合。

在步驟707處，合作平台200可識別與科學問題相關的先前項目或潛在合作者130（亦即，最初輸入的科學問題及/或相關科學問題)。舉例而言，合作平台200可查看含有類似組件參數集合的完成的使用者項目或科學問題的記錄。參與所識別使用者項目的各方在此處亦可識別為潛在合作者130。在一些實施例中，合作平台200亦可藉由貫穿生產者110及消費者120的使用者資料檔搜尋類似組件參數集合來識別潛在合作者130。使用者資料檔可包括儲存於合作平台、作者的線上公開資料庫中的資料檔及/或其他公用及私用資料檔，諸如領英（LinkedIn）資料檔。

在一些實施例中，若所識別使用者項目的消費者120或生產者110准許此共用，則合作平台200亦可與消費者120共用如此識別的使用者項目及潛在合作者130的列表。此功能可類似於上文所論述的圖5的步驟515。亦如上文在步驟515處所論述，接收使用者項目及潛在合作者130的列表的消費者120可接著選擇合作者(亦即，選定合作者140）及/或使用者項目，且進行至用於合作的下一步驟。在一些實施例中，合作平台200可向消費者120提供在上文的步驟706識別的資料資產150的列表，回應於所述列表，消費者120可選擇所要資料資產150且購買或獲取對其的存取。

在一些實施例中，合作平台200可根據消費者120的請求多次重複步驟703至步驟705，或直至不選擇新的相關科學問題為止。此等步驟可允許合作平台200自動地富集消費者120的查詢，由此提供為未來研究主題或精煉其科學問題的方法提供構想。

儘管已參考本揭露的特定實施例來繪示及描述本揭露，但應理解，可在不修改的情況下在其他環境中實踐本揭露。已出於說明的目的呈現前述描述。前述描述並不詳盡且不限於所揭露的精確形式或實施例。修改及調適對所屬技術領域中具有通常知識者將自本說明書的考量及所揭露實施例的實踐顯而易見。另外，儘管將所揭露實施例的態樣描述為儲存於記憶體中，但所屬領域中具有通常知識者應瞭解，此等態樣亦可儲存於其他類型的電腦可讀媒體上，諸如輔助儲存裝置，例如硬碟或CD ROM，或其他形式的RAM或ROM、USB媒體、DVD、藍光或其他光碟機媒體。

基於書寫描述及所揭露方法的電腦程式在有經驗的開發者的技能內。各種程式或程式模組可使用所屬領域中具有通常知識者已知的技術中的任一者來創建或可結合現有軟體設計。舉例而言，程式區段或程式模組可用或藉助於.Net框架（.Net Framework）、.Net緊湊型框架（.Net Compact Framework）（及相關語言，諸如視覺培基（Visual Basic）、C等）、爪哇（Java）、C++、目標-C（Objective-C）、HTML、HTML/AJAX組合、XML或包含爪哇小程式的HTML來設計。

此外，儘管本文中已描述示出性實施例，但所屬技術領域中具有通常知識者將基於本揭露瞭解具有等效元件、修改、省略、組合（例如，各種實施例中的態樣的組合）、調適及/或更改的任何及所有實施例的範疇。申請專利範圍中的限制應基於申請專利範圍中所採用的語言廣泛地解譯，且不限於本說明書中所描述或在本申請案的審查期間的實例。實例應視為非排他性的。此外，所揭露方法的步驟可包含藉由對步驟重新排序及/或插入或刪除步驟的任何方式修改。因此，希望僅將本說明書及實例視為說明性的，其中藉由以下申請專利範圍及其等效物的完整範疇指示真實範疇及精神。

110:生產者 120:消費者 130:潛在合作者 140:選定合作者 150:資料資產 200:合作平台 200、200a:合作平台 210、210a:資料管理模組 211:資料攝取模組 220:資料分析模組 221:工作流程程式庫 223:分析工具包 230、230a:搜尋及圖形模組 231:匹配模組 233:科學問題轉換模組 240、240a:合作模組 241:洞察應用 242:法律模組 243:交易模組 244:檢驗模組 250、250a:平台管理模組 260A:結構化資料 260B:非結構化資料 260C:串流資料 220a:分析模組 400、500、600、700:過程 411、412A、412B、412C、413、414、415、416、417、418、419、420、511、512、513、514、515、516、517、518、519、520、521、522、601、602、603、604、605、607、701、702、703、704、705、706、707:步驟

圖1為根據本揭露的態樣的示出不同類型的使用者及資訊流的示意圖。圖2為根據本揭露的態樣的示出合作平台的例示性實施例的示意性方塊圖。圖2A為根據本揭露的態樣的示出合作平台的替代例示性實施例的示意性方塊圖。圖3為根據本揭露的態樣的描繪為繪示使用者項目可包含的屬性的子集的樹狀結構的例示性項目模版。圖4為根據本揭露的態樣的用於使用消費者指定資料將使用者項目與合作者匹配的電腦化過程的例示性流程圖。圖5為根據本揭露的態樣的用於使用科學問題將使用者項目與合作者匹配的電腦化過程的例示性流程圖。圖6為用於使用科學問題識別資料資產的電腦化過程的例示性流程圖。圖7為用於使用科學問題識別先前項目、潛在合作者或額外科學問題的電腦化過程的例示性流程圖。

200:合作平台

210:資料管理模組

211:資料攝取模組

220:資料分析模組

221:工作流程程式庫

223:分析工具包

230:搜尋及圖形模組

231:匹配模組

233:科學問題轉換模組

240:合作模組

241:洞察應用

250:平台管理模組

260A:結構化資料

260B:非結構化資料

260C:串流資料

Claims

一種實現跨不同資料庫的生命科學資料的分析合作的平台，用於藥物發現及開發，所述平台包括至少一個硬體處理器、至少一個記憶體以及可操作地連接至至少一個資料資產的至少一個通信構件，所述平台包括：搜尋及圖形模組，用於：生成使用者項目，其中所述使用者項目包括根據以下中的一或多者判定的多個屬性：a）基於普及性的系統推薦；b）來自一或多個下拉式選單的搜尋項、過濾器及/或選項指示；以及c）由所述使用者輸入的自然語言中的至少一個科學問題；以及判定及顯示一或多個匹配資料資產及一或多個潛在合作者，其中所述匹配資料資產及潛在合作者是基於所述使用者項目及一或多個生產者項目而判定，所述一或多個生產者項目包括一或多個先前生成的使用者項目；合作模組，用於協調所述使用者與由所述使用者選擇的一或多個選定資料資產相關聯的一或多個選定合作者之間的合作，所述選定合作者為所述潛在合作者的子集且所述選定資料資產為所述匹配資料資產的子集，其中協調所述合作包括：通知與所述一或多個選定資料資產相關聯的所述選定合作者；向所述選定合作者提供所述使用者項目的摘要；向所述使用者提供檢驗所述一或多個選定資料資產的能力；以及若所述使用者及所述一或多個選定合作者同意，則完成所述使用者與所述選定合作者之間的所述合作；資料管理模組，用於：接收用於所述一或多個生產者項目中的每一者的方案；自所述一或多個選定資料資產接收資料；以及使用共同標準及本體論攝取所述所接收資料；以及洞察應用，用於使用所述攝取的所接收資料生成與所述科學問題相關的疾病特異性推斷，且自所述使用者及/或所述選定合作者接收反饋以改良所述搜尋及圖形模組。
如請求項1所述的平台，其中基於所述本體論將所述自然語言中的所述科學問題剖析成所述使用者項目的額外屬性。
如請求項1所述的平台，其中最密切匹配所述使用者項目的所述一或多個生產者項目以排序順序顯示，其中所述項目是基於以下中的一或多者來進行排序：數個匹配屬性；由先前使用者在過去選擇的最受歡迎的資料資產；或科學問題類型。
如請求項1所述的平台，其中判定及顯示所述匹配資料資產及所述潛在合作者更包括: 識別最密切匹配所述使用者項目的所述一或多個生產者項目，其中所述使用者項目及所述一或多個生產者項目各自更包括額外屬性，所述額外屬性包含生產者、疾病類型、疾病分類、鏈接項目、藥物或試驗及/或資料資產。
如請求項1所述的平台，其中所述搜尋及圖形模組更包括：定量匹配模組，經組態以基於由所述使用者項目限定的一或多個方案來判定所述匹配資料資產或所述潛在合作者，其中所述一或多個方案表示所述匹配資料資產的組織結構；定性匹配模組，經組態以使用所述使用者項目的所述屬性來識別所述匹配資料資產或所述潛在合作者；以及推薦模組，經組態以輸出由所述定量匹配模組及/或所述定性匹配模組識別的所述匹配資料資產與所述潛在合作者的最佳化組合。
如請求項1所述的平台，其中所述選定合作者更包括與分析模組或研究小組相關聯的所述潛在合作者的子集。
如請求項1所述的平台，其中完成所述合作更包括：在所述使用者與所述選定合作者之間生成一或多個合約；自所述使用者及所述選定合作者中的每一者獲得同意的指示；以及根據所述合約在所述使用者與所述選定合作者之間交換電子付款。
如請求項1所述的平台，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：剖析所述所接收資料以識別具有已知標記或索引的資料元素；藉由基於所述本體論將所述資料元素轉換成標準資料類型來調和所述資料元素的第一集合；將所述資料元素的第二集合標準化為標準單元且更新所述資料資產以反映所述標準化；以及使所述攝取的所接收資料可在所述平台上用於並行存取。
如請求項8所述的平台，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：藉由將所述資料元素與所述已知標記或索引相關聯的已知安全範圍進行比較來對所述所接收資料執行健康檢查。
如請求項1所述的平台，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：基於與所述本體論相關聯的知識庫模板的集合來組織所述所接收資料；以及對所述所接收資料進行邏輯組合以形成匹配所述使用者項目的一或多個可使用包。
如請求項1所述的平台，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：藉由為資料元素的每一群組指派唯一總體識別符來匿名化所述所接收資料；以及基於所述指派的唯一總體識別符跨所述選定資料資產重組所述所接收資料。
如請求項1所述的平台，其中所述所接收資料是自實驗室檢查、醫療記錄或臨床試驗收集的。
一種實現跨多個不同資料庫的生命科學資料的資料分析合作的方法，用於執行用於藥物發現及開發的探索性分析，所述方法包括：生成使用者項目，其中所述使用者項目包括根據以下判定的多個屬性：a）使用者資料檔；b）所述使用者的過去活動；c）基於普及性的系統推薦；d）來自一或多個下拉式選單的搜尋項、過濾器及/或選項指示；以及/或e）由所述使用者輸入的自然語言中的至少一個科學問題；判定及顯示一或多個匹配資料資產及一或多個潛在合作者，其中所述匹配資料資產及潛在合作者是基於所述使用者項目及一或多個生產者項目而判定，所述一或多個生產者項目包括一或多個先前生成的使用者項目；協調所述使用者與由所述使用者選擇的一或多個選定資料資產相關聯的一或多個選定合作者之間的合作，所述選定合作者為所述潛在合作者的子集且所述選定資料資產為所述匹配資料資產的子集；通知與所述一或多個選定資料資產相關聯的所述選定合作者；向所述選定合作者提供所述使用者項目的摘要；向所述使用者提供檢驗所述一或多個選定資料資產的能力；若所述使用者及所述一或多個選定合作者同意，則完成所述使用者與所述選定合作者之間的所述合作；接收用於所述一或多個生產者項目中的每一者的方案；自所述一或多個選定資料資產接收資料；使用共同標準及本體論攝取所述接收到的資料；使用所述攝取的所接收資料生成與所述科學問題相關的疾病特異性推斷；以及自所述使用者及/或所述選定合作者接收反饋以改良所述搜尋及圖形模組。
如請求項13所述的方法，其中基於所述本體論將所述自然語言中的所述科學問題剖析成所述使用者項目的額外屬性。
如請求項13所述的方法，更包括：以排序順序顯示最密切匹配所述使用者項目的所述一或多個生產者項目，其中所述項目是基於以下中的一或多者來進行排序：數個匹配屬性；由先前使用者在過去選擇的最受歡迎的資料資產；或科學問題類型。
如請求項13所述的方法，其中判定及顯示所述匹配資料資產及所述潛在合作者更包括: 識別最密切匹配所述使用者項目的所述一或多個生產者項目，其中所述使用者項目及所述一或多個生產者項目各自更包括額外屬性，所述額外屬性包含生產者、疾病類型、疾病分類、鏈接項目、藥物或試驗及/或資料資產。
如請求項13所述的方法，更包括：基於由所述使用者項目限定的一或多個方案來判定所述匹配資料資產或所述潛在合作者，其中所述一或多個方案表示所述匹配資料資產的組織結構；使用所述使用者項目的所述屬性來識別所述匹配資料資產或所述潛在合作者；以及輸出由所述定量匹配模組及/或所述定性匹配模組識別的所述匹配資料資產與所述潛在合作者的最佳化組合。
如請求項13所述的方法，其中所述選定合作者更包括與分析模組或研究小組相關聯的所述潛在合作者的子集。
如請求項13所述的方法，更包括：在所述使用者與所述選定合作者之間生成一或多個合約；自所述使用者及所述選定合作者中的每一者獲得同意的指示；以及根據所述合約在所述使用者與所述選定合作者之間交換電子付款。
如請求項13所述的方法，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：剖析所述所接收資料以識別具有已知標記或索引的資料元素；藉由基於所述本體論將所述資料元素轉換成標準資料類型來調和所述資料元素的第一集合；將所述資料元素的第二集合標準化為標準單元且更新所述資料資產以反映所述標準化；以及使所述攝取的所接收資料可在所述平台上用於並行存取。
如請求項20所述的方法，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：藉由將所述資料元素與所述已知標記或索引相關聯的已知安全範圍進行比較來對所述所接收資料執行健康檢查。
如請求項13所述的方法，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：基於與所述本體論相關聯的知識庫模板的集合來組織所述所接收資料；以及對所述所接收資料進行邏輯組合以形成匹配所述使用者項目的一或多個可使用包。
如請求項13所述的方法，其中使用所述共同標準及所述本體論攝取所述所接收資料更包括：藉由為資料元素的每一群組指派唯一總體識別符來匿名化所述所接收資料；以及基於所述指派的唯一總體識別符跨所述選定資料資產重組所述所接收資料。
如請求項13所述的方法，其中所述所接收資料是自實驗室檢查、醫療記錄或臨床試驗收集的。