TW201933375A - 蛋白質之結構預測 - Google Patents

蛋白質之結構預測 Download PDF

Info

Publication number
TW201933375A
TW201933375A TW107127673A TW107127673A TW201933375A TW 201933375 A TW201933375 A TW 201933375A TW 107127673 A TW107127673 A TW 107127673A TW 107127673 A TW107127673 A TW 107127673A TW 201933375 A TW201933375 A TW 201933375A
Authority
TW
Taiwan
Prior art keywords
protein
mutation rate
mutation
3dts
variation
Prior art date
Application number
TW107127673A
Other languages
English (en)
Inventor
阿瑪利歐 泰勒堤
麥可 希克斯
伊茲凡 巴薩
Original Assignee
美商人類長壽公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 美商人類長壽公司 filed Critical 美商人類長壽公司
Publication of TW201933375A publication Critical patent/TW201933375A/zh

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/20Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Biophysics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Genetics & Genomics (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Investigating Or Analysing Biological Materials (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本發明揭示用於確定對突變不耐受之蛋白質的區域、結構域或胺基酸殘基的方法以及系統。亦揭示用於使不耐受蛋白質區域、結構域以及胺基酸殘基顯像的應用程式。

Description

蛋白質之結構預測
相關申請案的交叉引用
本申請案請求於2017年8月9日提申之美國臨時申請案第62/543,253號的權益,其以整體引用的方式併入本文中。
人類基因體以及外顯子體的新近大規模定序計畫詳細說明了遺傳多樣性在人類群體中的程度。迄今,據報導在人類外顯子體中有超過470萬個胺基酸變化(誤義)變異體。許多注意力指向變異體與疾病的相關性。然而這些資料也代表了一種不曾有過的機會以供在活體內特徵分析蛋白質結構-功能關聯性。具體來說,遺傳變異體的分布型態說明了對特定蛋白質的結構性與功能性修改的功能性限制。這個資訊可用來預測關鍵結構域,而這些關鍵結構域對於藥物開發以及作用機制來說是有益的(包括選擇性、沒有反應或毒性)。
從標靶特徵分析至先導最佳化(lead optimization),在藥物開發的所有階段中使用以蛋白質結構為基礎的方法。圍繞所有以結構為基礎的開發方法是標靶蛋白質或複合體的三維(3D)結構知識,因為標靶的結構以及動力學決定其所結合的配位體。若干計分方法可測量遺傳變異體在蛋白質中的有害性(deleteriousness),這是一種與分子功能性還有致病性具有強烈關聯性的性質。計分可能也考量到種間保守性[GERP]而發現「限制要素(constrained elements)」,限制要素為推定功能性要素的指標。透過蛋白質結 構的飽和,人類基因體以及外顯子體的近來定序努力成果提供了不同層面的空間資訊以供導出限制條件(constraints)。人類特異性限制因子的特徵分析以及對遺傳變異的容忍度(tolerance)可用來分析說明結構性資訊以便定義活性位點,但也用來定義功能上重要且形貌上不同之可支持別位交互作用的位點。可成藥、形貌上不同之別位位點的存在對於開發小分子、抗體或適體來說提供新穎好處以便能調節蛋白質功能。有鑑於需要大量資料,目前並沒有從蛋白質確定對突變不耐受之胺基酸、多肽以及結構域的方法可供使用。現有方法的檢定力不足,缺乏足夠預測力,並且需要大量投資於可能昂貴又耗時的活體外實驗系統。
本文所描述之用於預測蛋白質之無法容忍突變之任一特定突變異體與部分的有害性的方法改善現有方法的速度以及準確度,並且創建可被外推至即使具有未知結構且尚未經充分功能性特徵分析之所有蛋白質的規則。使用從將近140,000個人類外顯子體以及超過4700個x射線蛋白質結構和約4000個同源性模型,到在人類蛋白質體的3D空間中對胺基酸變化之模型耐受性(例如三維耐受性計分或「3DTS」)的人類遺傳變異,在蛋白質層次還橫跨二聚化或交互作用表面產生結構-功能的精確功能性預測結果。在埃(Angstrom)解析下,致病性變異體在蛋白質中的分布補足了遺傳變異體有害性的現有分析。預期這個新的3D結構性資訊的特性支持藥物的作用模式、效力以及毒性的理解,並且有助於藥物設計以及標靶篩選。本發明的系統以及方法尤其可用於在蛋白質標靶(特別是沒有商業上可用治療劑的蛋白質標靶,也就是尚無法成藥)中鑑定出一或多個不耐受位點。即使是無法成藥的蛋白質標靶,本揭示內容之系統以及方法可用來鑑別具有商業上可用治療劑之蛋白質標靶中的其他不耐受位點。此外,本發明系統以及方法尤其可用於鑑定會導致藥物無效之遺傳抗性的可能位置,例如鑑定蛋白質標靶中對抗生素抗性或對抗癌藥物有抗性易感的位點。
在某一個態樣中,本文所述為一種確定蛋白質之一或多個胺基酸的三維耐受性計分(3DTS)的方法,其包含:(a)確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體特異性突變率, 其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)若變異體特異性突變率小於整體突變率,則確定蛋白質的該一或多個胺基酸對變異不耐受。
本文進一步描述用於鑑定蛋白質標靶之成藥性的系統以及方法,其包含:(a)確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)若變異體特異性突變率小於整體突變率,則確定蛋白質的一或多個胺基酸對變異不耐受,其中若蛋白質的一或多個胺基酸對變異不耐受,則該蛋白質被鑑定為可成藥。在這個具體例中,蛋白質是未經成藥的(亦即不存在靶向該蛋白質的商業治療劑)或經確認可成藥(存在靶向該蛋白質的一或多個商業治療劑)。
本文進一步描述用於在一個蛋白質標靶中鑑定對藥物(例如抗生素、抗菌藥物、抗真菌藥物、抗癌藥物)之遺傳抗性的位點,其包含(a)確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)若變異體特異性突變率大於整體突變率,則確定蛋白質的一或多個胺基酸對變異耐受,其中若蛋白質的一或多個胺基酸對變異耐受,則包含對變異耐受之胺基酸的位點被鑑定為賦予對藥物的抗性。在此,賦予對藥物之遺傳抗性的胺基酸是對變異耐受(高度不穩定),使得當藥物結合至該位點時,其不會對蛋白質的三維結構造成激烈變化。
除了相對於參考全基因體之基於同義突變的整體突變率(「恆定率-同義」突變),本發明系統以及方法可併入兩個額外突變率:(1)基於全基因體基因間率的變異;以及(2)基於對染色體具有特異性之基因間率的變異。這些其他類型的突變率可以在核苷酸的七聚體上下文內予以調整(參考核苷酸的上游與下游三個核苷酸),其可用來推敲並且增進方法的 (例如精確度、敏感性、準確度或特異性)。
在某些具體例中,蛋白質的一或多個胺基酸包含複數個胺基酸。在某些具體例中,複數個胺基酸包含蛋白質特徵(feature)或結構域。在某些具體例中,蛋白質特徵是選自由以下組成之列表:活性位點、金屬結合位點、化學結合位點、DNA結合位點、核苷酸結合位點、鋅手指、鈣結合位點、跨膜結構域、膜內結構域、脂化位點、醣基化位點、磷酸化位點、纏繞線圈、α螺旋以及β股。在某些具體例中,整體突變率是編碼蛋白質、蛋白質之內含子序列、蛋白質之3’未轉譯區域、蛋白質之5’未轉譯區域或其任何組合之核苷酸的突變率。在某些具體例中,整體突變率為整個人類基因體的突變率。在某些具體例中,整體突變率介於約1x10-6與5x10-6之間。在某些具體例中,整體突變率為約2.5x10-6。在某些具體例中,樣本核苷酸資料集包含來自至少1,000名不同個體之編碼蛋白質的至少1,000個不同核酸序列。在某些具體例中,樣本核苷酸資料集包含來自至少10,000名不同個體之編碼蛋白質的至少10,000個不同核酸序列。在某些具體例中,核苷酸資料集包含DNA。在某些具體例中,若變異體特異性突變率少於整體突變率的2倍,則蛋白質的一或多個胺基酸對變異不耐受。在某些具體例中,若變異體特異性突變率少於整體突變率的5倍,則蛋白質的一或多個胺基酸為對變異不耐受。在某些具體例中,誤義突變為一種推測突變。在某些具體例中,該方法進一步包含為蛋白質圖式(graphic representation)提供對變異不耐受之蛋白質之胺基酸的視覺指示。在某些具體例中,蛋白質圖式為三維。在某些具體例中,蛋白質圖式可圍繞著x、y或z軸旋轉。在某些具體例中,蛋白質圖式可跨過x、y或z軸反映。在一個具體例中,本發明提供調節劑的結合位點,其結合至依據本方法之對變異不耐受之蛋白質的任一或多個胺基酸。在某一個具體例中,調節劑為抗體或其抗原結合片段。在某一個具體例中,調節劑結合在非活性位點或別位(allosteric)位點處。
在一個態樣中,本文描述一種電腦實施的系統,其包含含有至少一個處理器的數位處理裝置、一個經組態以實施可執行指令的作業系統、一記憶體,以及一包括可由該數位處理裝置執行以創造用以確定某一個蛋白質之一或多個胺基酸的三維耐受性計分(3DTS)之應用程式的指令的 電腦程式,該應用程式包含:(a)確定整體突變率的軟體模組,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)確定編碼該蛋白質之一或多個胺基酸之核酸的誤義突變的變異體特異性突變率的軟體模組,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)軟體模組,若該變異體特異性突變率少於整體突變率,確定蛋白質的一或多個胺基酸對變異不耐受。在某些具體例中,蛋白質的一或多個胺基酸包含複數個胺基酸。在某些具體例中,複數個胺基酸包含蛋白質特徵或結構域。在某些具體例中,蛋白質特徵是選自由以下組成之列表:活性位點、金屬結合位點、化學結合位點、DNA結合位點、核苷酸結合位點、鋅手指、鈣結合位點、跨膜結構域、膜內結構域、脂化位點、醣基化位點、磷酸化位點、纏繞線圈、α螺旋以及β股。在某些具體例中,整體突變率是編碼蛋白質、蛋白質之內含子序列、蛋白質之3’未轉譯區域、蛋白質之5’未轉譯區域或其任何組合之核苷酸的突變率。在某些具體例中,整體突變率為整個人類基因體或人類基因體之蛋白質編碼部分的突變率。在某些具體例中,整體突變率介於約1x10-6與5x10-6之間。在某些具體例中,整體突變率為約2.5x10-6。在某些具體例中,樣本核苷酸資料集包含來自至少1,000名不同個體之編碼蛋白質的至少1,000個不同核酸序列。在某些具體例中,樣本核苷酸資料集包含來自至少10,000名不同個體之編碼蛋白質的至少10,000個不同核酸序列。在某些具體例中,核苷酸資料集包含DNA。在某些具體例中,若變異體特異性突變率少於整體突變率的2倍,則蛋白質的一或多個胺基酸對變異不耐受。在某些具體例中,若變異體特異性突變率少於整體突變率的5倍,則蛋白質的一或多個胺基酸對變異不耐受。在某些具體例中,誤義突變為一種推測突變。在某些具體例中,該系統進一步包含為蛋白質圖式(graphic representation)提供對變異不耐受之蛋白質之胺基酸的視覺指示的軟體模組。在某些具體例中,蛋白質圖式為三維。在某些具體例中,蛋白質圖式可圍繞著x、y或z軸旋轉。在某些具體例中,蛋白質圖式可跨過x、y或z軸反映。在一個具體例中,本系統提供調節劑的結合位點的列表或檔案,該調節劑結合至依據本系統採用之方法之對變異不耐受之蛋白質的任一或多個胺基酸。在某一個具體例中,調節劑為 抗體或其抗原結合片段。在某一個具體例中,調節劑結合在非活性位點或別位位點處。
100‧‧‧方法
101‧‧‧搜尋框
102‧‧‧視覺圖式
103‧‧‧資料
110‧‧‧步驟
130‧‧‧步驟
140‧‧‧步驟
150‧‧‧步驟
160‧‧‧步驟
170‧‧‧步驟
180‧‧‧步驟
201‧‧‧步驟
2011‧‧‧誤義變異資料
2012‧‧‧標準胺基酸序列
2013‧‧‧蛋白質結晶結構
2014‧‧‧胺基酸序列
2015‧‧‧蛋白質特徵
2016‧‧‧蛋白質特徵
2017‧‧‧蛋白質特徵
2018‧‧‧蛋白質特徵
2019‧‧‧蛋白質特徵
2020‧‧‧蛋白質特徵
202‧‧‧步驟
203‧‧‧3D結構
2021‧‧‧特徵
2022‧‧‧特徵
2023‧‧‧特徵
500‧‧‧方法
520‧‧‧步驟
1301‧‧‧數位處理裝置
1305‧‧‧中央處理單元
1310‧‧‧記憶體或記憶體位置
1315‧‧‧電子儲存單元
1320‧‧‧通信介面
1325‧‧‧周邊裝置
1330‧‧‧電腦網路
1400‧‧‧資料庫
1410‧‧‧關聯性資料庫管理系統
1420‧‧‧應用程式伺服器
1430‧‧‧網路伺服器
1440‧‧‧app應用程式編碼介面
1500‧‧‧架構
1510‧‧‧網路伺服器資源
520‧‧‧應用程式伺服器資源
1530‧‧‧資料庫
701‧‧‧線
702‧‧‧線
703‧‧‧位點
透過參照以下列出說明性具體例與其隨附圖式的詳細說明可以更充分地了解請求標的之特徵與優點:圖1顯示蛋白質顯像工具之使用者介面的非限制性實例。
圖2A及2B顯示用於確定並展示對變異不耐受的蛋白質部分之方法的非限制性實例,來自基因體與外顯子體定序投射的誤義變異資料被映射至3D蛋白質結構。(A)由Uniprot取得的特徵被映射至3D結構。使用這些結構作為參考點,建構出3D上下文並取得對應遺傳資料。由這個資訊產生3D耐受性計分(3DTS)。(B)3DTS值可以排序且對應耐受性等級(或計分)可以被投射回3D結構上。
圖3A及3B顯示不同特徵類型的3DTS分布以及中位3DTS。(A)顯示139,535個3D位點針對代表4390個蛋白質之結構的3DTS值分布。在第20百分位數的3DTS值(3DTS<0.33)用來定義不耐受位點。(B)顯示特徵類型子集的中位3DTS。各個特徵類型的數量連同3DTS值顯示於每列上方。結構蛋白質體的總中位數是由水平虛線表示。
圖4A-4F顯示各種蛋白質之活體外功能資料與3DTS之間的關聯性。(A)針對PPARG的各個胺基酸顯示Majithia等人中所述的綜合功能評分的投影,而(B)針對結晶結構3dzy,在3DTS定義的位點上對計分取平均。選擇顏色方案以匹配Majithia等人中所述的顏色方案。(C)針對PPARG顯示3DTS與3D位點取平均活體外計分之間的關聯性。(D)顯示在四種不同3DTS條件下覆蓋至少70%標準同功型的所有結構的皮爾森r2值的分布:兩組不同的3D特徵和兩種不同的變異率模型。(E)顯示針對1,026個蛋白質的大型功能性讀值資料庫的廣泛評估結果,其中可獲得淺度突變資訊。(F)顯示具有各種經公開計分的3DTS功能性預測的比較條形圖。這些不同的計分在一系列假設下進行訓練,最常見的是基因間保守、共同進化和致病性。結果顯示,3DTS執行起來與現有方法相當或更好。
圖5A-5D顯示在不同埃解析度下,PPARG之活體外功能性資料以及3DTS之間的關聯性。5Å 3D位點(r2=0.47)相對於線性位點方法還有其他3D距離在有PPARG的活體外資料的關聯性分析中表現最好。測試距離包括(A,線性位點,無增加3D上下文;r2=0.099),(B,3Å r2=0.23),(C,5Å r2=0.47),以及(D,7Å r2=0.44)。
圖6A-6C顯示BRCA1之活體外功能性資料之間的關聯性。(A)顯示Staria等人(同上)中所述的同源性定向修復(HDR)計分的投影對胺基酸取平均,以及(B)對3DTS定義的位點取平均。(C)顯示3DTS排序以及3D位點經平均HDR計分之間的關聯性。
圖7顯示致病性變異體的距離映射(mapping),顯示依據3DTS所定義接近最不耐受(intolerant)特徵以及其內的致病性至良性變異體的最高豐度。
圖8A-8C顯示對應圖7的原始計數和距離。(A)致病性誤義變異體,(B)同義變異體,以及(C)普遍(對偶基因頻率>1%)誤義變異體。注意到第一群表示最不耐受3D位點內的資訊,而往後之群表示僅在各分群距離內的計數。前幾群表觀「噪音」是因為殘基間交互作用上的生物物理限制因子(亦即最小約兩埃以發現額外殘基,接著更多距離以鑑別之後的殘基,取決於位向跟殘基類型)。
圖9A及9B顯示(A)經分群3DTS計分說明活性位點、別位位點、藥物配位體-結合位點,以及背景。各個位點類型的總和為1。(B)耐受與不耐受藥物配位體-結合位點依據治療區域分群的計數。在此,耐受定義為3DTS>0.5,而不耐受如在主文中所定義(3DTS<0.33)。
圖10A-10D顯示對應圖9A中呈現之(A)活性位點、(B)別位位點、(C)藥物配位體-結合位點以及背景之資料的柱狀圖。各圖的中位數繪製為垂直線。
圖11A-11F顯示PPARG之3DTS、CADD計分以及活體外功能性資料的比較結果。
圖12A及12B顯示3DTS計分改善標準方法以將具有未知重要性的變異體分類。
圖13顯示數位處理裝置的非限制性實例;在此例中,裝置具有一或多個CPU、記憶體、通信介面與顯示器。
圖14顯示網路/行動應用程式供應系統的非限制性實例;在此例中,系統提供以瀏覽器為基礎及/或本機行動裝置使用者介面。
圖15顯示以雲端為基礎的瀏覽器/行動應用程式供應系統的非限制性實例;在此例中,系統包含彈性地加載平衡的,自動定比的網路伺服器資源和應用程式伺服器資源還有同步複製的資料庫。
圖16顯示本揭示內容之工作流程的示意圖(schematic chart)。
本文描述一種確定一個蛋白質之一或多個胺基酸之三維耐受性計分(3DTS)的方法,其包含:確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;若變異體特異性突變率小於整體突變率,則確定蛋白質的一或多個胺基酸對變異不耐受。在更多特定具體例中,使用例如強調、不同色(亦即熱映射)、結構變粗或變細、由箭頭、星號或一些其他符號標示,(3DTS)計分可用來在視覺上呈現創造蛋白質結構與對變異不耐受之胺基酸殘基的互動式展示。強調的結構可以是能夠以三維(例如帶狀圖或空間填充模型(space filling model))適當代表蛋白質的任何結構。或者,可使用二維呈現方法,諸如由三個字母或單一字體所代表的一級胺基酸序列。互動式展示(interactive display)可容許對特定殘基進行調焦、旋轉、反射或強調以得到個別或相關的3DTS。
在另一個態樣中,本文描述一種電腦實施的系統,其包含含有至少一個處理器的數位處理裝置、一個經組態以實施可執行指令的作業系統、一記憶體,以及一包括可由該數位處理裝置執行以創造用以確定某一個蛋白質之一或多個胺基酸的三維耐受性計分(3DTS)之應用程式的指令的電腦程式,該應用程式包含:(a)確定整體突變率的軟體模組,其中整體 突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)軟體模組,確定編碼該蛋白質之一或多個胺基酸之核酸的誤義突變的變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)軟體模組,若該變異體特異性突變率少於整體突變率,確定蛋白質的一或多個胺基酸對變異不耐受。在另一個態樣中,本文描述一種電腦實施的系統,其包含含有至少一個處理器的數位處理裝置、一個經組態以實施可執行指令的作業系統、一記憶體,以及一包括可由該數位處理裝置執行以創造應用程式的指令的電腦程式,該應用程式包含:(a)確定整體突變率的軟體模組,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;(b)軟體模組,確定編碼該蛋白質之一或多個胺基酸之核酸的誤義突變的變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及(c)軟體模組,若該變異體特異性突變率少於整體突變率,確定蛋白質的一或多個胺基酸對變異不耐受。
本揭示內容的系統以及方法併入數個特徵。一個此類特徵為同義整體突變率,界定為參數p,其為在某一個基因座上的預期突變數,假定基因座上的所有突變均為中性。在一些具體例中,這是透過將全部蛋白質所觀察到的同義變異體數量藉由將s固定=1擬合至同義變異體的預期數量而完成。也可以使用同義局部突變率,其估算基因體的異質性且如上文進行計算,但僅針對但一蛋白鏈來進行評估。除了這兩種估算背景/中性突變率的方法之外,可從非編碼變異來估算全基因體基因間變異率或染色體特異性基因間變異率。這是如上文透過確定數值p來完成,其使得概度函數最大化。最後,可使用核苷酸上下文依賴性估算法來估算突變率異質性。在這個情況下,7員上下文不對稱地橫跨參考核苷酸。接著進行各個七聚體所特有有的最大概度(likelihood)估算。
第二個特徵被額外併入本揭示內容的方法以及系統中,其與朝向誤義變異的傾向(propensity)有關。在本文中,3D限定之基因座中的各個參考核苷酸具有0、1、2或3個造成誤義變異體的單核苷酸變異,定義為參數b。這是基於蛋白質同功型,針對3D結構、編碼這個蛋白質同功型的轉 錄本以及針對該基因座編碼這個轉錄本之參考基因體來決定。這個參數透過除以3而被常規化為1(亦即0/3、1/3、2/3、3/3)。
本揭示內容之系統以及方法還併入另一個關於調整因子(adjustment factor)的參數,其為針對純化選擇(purifying selection)強度的代理(參數s)。s=1之值表示變異體基於背景突變率一如預期(亦即中性效應),而s=0之值表示該基因座完全耗盡變異(亦即不耐受)。本揭示內容之系統以及方法是基於各種概率(probabilistic)及/或統計結果度量來估算參數s
為了要建立本揭示內容的系統(3DTS),可施行各種步驟及/或演算法。在此,首先定義出感興趣之3D蛋白質空間中的基因座。在一些具體例中,3D位置可以定義為圍繞蛋白質特徵的半徑範圍,其可為1、2、3、4、5、6、7、8、9、10(1nm)或更多埃(Angstrom)。在這個模型中評估由3D位點所定義之對應核苷酸(基因座)。接著,在模型中使用來自基因體/外顯子體定序的變異資料。在一些具體例中,在模型中可使用~140,000名個體(例如人類個體)的定序資料。被定義為基因座一部分(參見上文對於定義基因座的部分)的各個核苷酸/基因座將會有R名個體之通常以鹼基單位表示的資料,例如腺苷(A)、胞嘧啶(C)、鳥嘌呤(G)、胸嘧啶(T)(註解:尿嘧啶或U可用來代替胸嘧啶),其中T可以是~140,000名個體的全部或子集(取決於在那個位置是否有檢出(call)或沒有檢出)。每位有檢出的個體將會是參考核苷酸或替代核苷酸(例如變異體)。變異體將以個別的白努利試驗(Bernoulli trial)來進行處理。
為了要計算3D耐受性計分(3DTS),採用一種計算方案。在此,在基因座l處觀察到誤義突變的概率是由背景突變率(p)、朝向誤義變異的傾向(b)以及用作為純化選擇強度之代理的調整因子(s)來定義:p l *s l *b l 。每個人(亦即每個樣本)的定序資料是以個別的白努利試驗來進行處理(亦即存在或不存在會產生誤義突變的變異體;見上文)。在一個給定基因座處,樣本間的所有參數均相同,因此R個樣本總計產生一個二項式分布,作為在基因座l處帶有誤義的樣本數量。使用卜瓦松近似(Poisson approximation),在R個樣本中於單一基因座中觀察到至少一個誤義突變的概率為1-exp(-p l *s l *b l *R l )
因為各個基因座具有不同的b l 以及R l 參數,當總計超過K個基因座時(亦即總計超過3D特徵)要考慮這點。因此,將超過這些K>1個基因座總計至單一數值是異質性參數的白努利試驗總和,其可使用卜瓦松分布接著Le Cam定理來推近。因此,模型的最終概率函數為:P(在R個樣本於K個基因座中所觀察到的k個變異體|p l ,s,b l )=Poi(k, 1-exp(-p l s b l R l ))
如上文所釋明,b l 參數是遺傳密碼子的函數,而p l 參數是習得的。透過使s等於1,基因體的中性部分被用來估算這個p l 突變率參數(假定基因體的這些部分不是有害的),而在這些限制因子下概率函數是透過併入這些方面而最大化。
最後,為了要用事前均勻U(0,1)s計算事後均數,可進行數值積分(高-勒二氏求積法以及重要性抽樣法(importance sampling))。這個事後均數s定義為3D耐受性計分(3DTS),其不僅可用來鑑別一個位點是否對變異耐受,還可以確定一個位點是否可成藥或者是對藥物具有抗性,或者是其是否對別位修飾易感、或其是否可能會賦予產生藥物無效的遺傳抗性(例如抗生素抗性或對抗癌藥物的抗性)。在一些具體例中,3D耐受性計分是使用貝氏推論(Bayesian inference)來進行計算,其中事後分布的平均數為3DTS值。也就是說,若背景突變率p以及朝向誤義變異之傾向b,若R個樣本的K個基因座中所觀察到的k個變異體,概率分布函數s平均數等於3DTS(E[P(s|k)]= sP(s|k)ds)。在此,概度函數表示為L(k|s)=Poi(k, 1-exp(-p l *s*b l *R l ))(方程式1);事前函數表示為P(s)=U(0,1)(方程式2);觀察k個變異體的概率(使用高-勒二氏求積法計算;也可以透過重要性抽樣法來計算)表示為P(k)= L(k|s)*P(s)ds(方程式3);以及若為k個變異體的觀察 結果,則調整因子的概率s依據貝氏定理表示為(亦即方程式1*方程式2)/方程式3。接著如上文所提供來計算事後均數(3DTS)。
在相關具體例中,本發明提供包含以下構件的系統:(a)含有3維蛋白質結構或模型的構件或模組;(b)含有數名個體之基因體或外顯子體定序資料的構件或模組,該定序資料含括蛋白質的3D特徵;以及(c)電腦可讀媒體,其中儲存有程式以使得電腦執行用於確定對誤義變異之耐受性 的方法。本揭示內容進一步包括經由實施複數個步驟用於確定某一個候選蛋白質之3D耐受性計分的方法,該複數個步驟包含(a)併入基於3D蛋白質結構或模型的特徵;(b)併入基於複數名個體之定序資料的特徵,其含括蛋白質的3D特徵;以及(c)基於特徵(a)與特徵(b)來確定對誤義變異的耐受性。
關於構件/特徵(a),較佳地被納入蛋白質結構或模型的3D蛋白質特徵可相對於對應基因體資料來映射,例如經由資料庫(諸如PDB)。在此,3D特徵是可基於下列來定義:(i)在3D結構本身中可取得之經註解結構性及/或功能性資料集;及/或(ii)圍繞該經註解資料集的3D上下文,其可定義為那些在預定半徑距離(例如與感興趣胺基酸或模體/位點相隔1、2、3、4、5、6、7、8、9、10或更多埃)內所含的胺基酸。
關於構件/特徵(b),基因體或外顯子體定序資料可原位獲得(透過個體樣本的完整基因體定序)或由資料集獲得,例如博德研究所(Broad Institute)的基因體總和資料庫(genome aggregation database,gnomAD)。從蛋白質資料庫(諸如UNIPROT)取得的部分可映射至3D結構(構件/特徵(a))。使用這些特徵做為參考點,可建構出3D上下文並且取得對應遺傳資料。可由基因體定序資料取得的其他特徵包括整體突變率、區域突變率、基因間變異、對染色體具有特異性的變異或類似者。也可以使用基因體以及外顯子體遺傳資料的組合。
關於構件/特徵(c),較佳地電腦可讀媒體儲存用以使電腦執行確定對誤義變異之耐受性的方法的程式,該耐受性是由事後分布均數所定義,而事後分布均數是使用高-勒二氏求積法透過數值積分來計算或是藉由重要性抽樣法來估算。在此,事後分布有幾個關鍵特徵,包括使用貝氏定理(其結合事前分布以及概度函數);事前分布假定所有誤義變異體具有耐受性且設定為均勻分布U(0,1);以及事後分布計算概度函數,其定義為一系列白努利試驗的總和且其可估算為卜瓦松二項式分布(上文詳述)。
典型地,事後分布考量了基因體或外顯子體資料中的一或多個特徵,包含相對於背景突變率的突變率p l ,其可藉由將所觀察到之經推定中性變異體的數量擬合至中性變異體的預期數量來確定;及/或朝向誤義變異的傾向b l ,其可針對特定蛋白質同功型利用具有對應特定基因座之對應特 定參考基因體的對應特異性轉錄本來確定。較佳地,在事後分布中採用兩種突變率特徵。事後分布進一步考量了調整因子s,其充作純化選擇的替代。典型地,調整因子s是在確定概率時受到關注的參數,事後分布均數為3DTS值。
某些定義
除非另有定義,否則本文使用的所有技術術語具有本發明所屬技藝中具有通常技術者一般所理解的相同意思。
如本文所用,除非上下文另有清楚指明,否則單數型「一(a、an)」以及「該(the)」包括複數個指涉對象。除非另有說明,否則在本文中提到「或」意欲含括「及/或」。
如本文所用,術語「約」意指接近所述數量相差達約10%、5%或1%的數量,包括其中的增額。
如本文所用,除非另有具體指定,否則術語「個體」意指人類個體。
如本文所用,「蛋白質」意指生物來源的多肽,並包括全長蛋白質、融合蛋白質、截斷突變體、經表位/親和力標籤或螢光融合物修飾但保有至少一種歸因於全長未修飾形式之生物功能的蛋白質。在某一個具體例中,「蛋白質」僅意指天然蛋白質,其未經實驗室方法改變。
如本文所用,術語「多肽」描述胺基酸的線性分子鏈,包括單鏈蛋白質或其片段,含有超過30個胺基酸。多肽可進一步形成由至少兩個相同或不同分子組成的寡聚體。此等集合體的相應更高等級結構對應地稱為同或異二聚體,同或異三聚體等。產生或對應於酶的同二聚體、三聚體等也落在術語「多肽」的定義內。此外,胺基酸及/或肽鍵已被功能性類似物所取代之此等蛋白質/多肽的擬肽物也受本發明所含括。此等功能性類似物包括20種基因編碼(例如蛋白源)之胺基酸以外的所有已知天然或合成胺基酸,諸如例如硒半胱胺酸或經酮官能化的胺基酸。術語「多肽」也意指經天然或經合成修飾的多肽/蛋白質,其中修飾是因為例如醣基化、乙醯基化、磷酸化以及類似修飾(例如異戊烯化)而產生。上文在經過適當修飾之 後也適用於術語「肽」,其在本文用來描述一群由至多30個胺基酸組成的分子。
術語「蛋白質體」如本文所用意指由一個基因體、細胞、組織或生物體所表現之全套蛋白質。更具體而言,術語蛋白質體意指於限定條件下在某一個指定時間於特定細胞類型或生物體中所表現的該套蛋白質。術語「蛋白質體」也用來意指某些亞細胞生物系統中的大量蛋白質。細胞性蛋白質體是於一組限定環境條件下在特定細胞類型中所發現的大量蛋白質。例如,人類蛋白質體包括92,179個蛋白質,其中71,173個為剪接變異體(Nucleic Acids Research 43(D1):D204-D212.2014)。真核生物、細菌、古細菌以及病毒在其基因體中分別有平均15,145、3,200、2,358以及42個蛋白質受到編碼。參見Kozlowski et al.,Nucleic Acids Research 45(D1):D1112-D1116,2016。
如本文所用,術語「脂質」主要是有關於親脂性/疏水性分子,其可帶有極性頭基。依據本發明的脂質包括簡單脂質,諸如烴(蜜蠟烷、鯊烯、類胡蘿蔔素)、醇(蠟醇、視黃醇、膽固醇、線性單或聚羥基化烴,較佳帶有兩個至約30個碳原子)、醚、脂肪酸與酯(諸如單醯甘油酯、二醯甘油酯與三醯甘油酯)。另外包括複合脂質,諸如脂蛋白、磷脂以及醣脂。磷脂又包含甘油磷脂,諸如磷脂酸、溶血磷脂酸、磷脂醯甘油、心脂、溶血磷脂酸、卵磷脂、溶血卵磷脂、磷脂醯乙醇胺、磷脂醯絲胺酸、磷脂醯肌醇以及磷脂。醣脂包括甘油醣脂,諸如單半乳糖二脂醯基甘油與二半乳糖二脂醯基甘油以及磺酸基異鼠李糖基二脂醯基甘油。術語「脂質」包括神經磷脂、醣神經鞘脂質以及腦醯胺。
如本文所用,術語「聚核苷酸」包括DNA(諸如cDNA或基因體DNA)以及RNA。要理解術語「RNA」如本文所用包含所有形式的RNA,包括mRNA、miRNA、siRNA、cRNA以及類似者。進一步包括技藝中已知的核酸擬似分子,諸如DNA或RNA的合成或半合成衍生物以及混合聚合物,有義股以及反義股均在內。它們可含有其他非天然或衍生化核苷酸鹼基,如同可為那些習於技藝者所能容易理解者。依據本發明的核酸擬似分子或核酸衍生物包括硫代磷酸酯核酸、胺基磷酸酯核酸、2’-O-甲氧基乙基 核醣核酸、嗎啉基核酸、己醣醇核酸(HNA)以及鎖核酸(LNA)(參見Braasch and Corey,Chemistry & Biology 8,1-7,2001)。典型地,LNA是一種RNA衍生物,其中核糖環受到2’-氧與4’-碳之間的亞甲基鍵連所限制。肽核酸(PNA)是一種聚醯胺類型的DNA類似物。腺苷、鳥嘌呤、胸嘧啶與胞嘧啶之對應衍生物的單體單元為商業上可取得的。PNA是一種合成DNA擬似物,帶有醯胺骨架取代DNA或RNA的糖-磷酸骨架。參見Nielsen et al.,Science 254:1497(1991);以及Egholm et al.,Nature 365:666(1993)。該術語包括PNA嵌合體,其包含一或多個PNA部分。嵌合分子的其餘部分可包含一或多個DNA部分(PNA-DNA嵌合體)或一或多個多肽部分(肽-DNA嵌合體)。
與上述PNA、PNA嵌合體以及肽-DNA嵌合體組合的術語「衍生物」是關於分子,其中這些分子包含一或多個不同於PNA、多肽與DNA的額外基團或取代基。
如本文所用,術語「小分子」可包括有機小分子。有機分子與具有碳基,被碳-碳鍵連接在一起之碳原子的化合物類型有關或屬於這個化合物類型。術語有機的原定義是關於化學化合物的來源,有機化合物是那些得自於植物或動物或微生物來源的含碳化合物,而無機化合物是得自於礦物來源。有機化合物可以是天然或合成的。或者,化合物可以是無機化合物。無機化合物是衍生自礦物來源並且包括所有無碳原子的化合物(除了二氧化碳、一氧化碳與碳酸以外)。較佳地,小分子具有少於約10000個原子質量單位(amu),或少於約5000amu,諸如1000amu、500amu以及甚至少於約250amu的分子量。小分子的尺寸可透過技藝中已知的方法來測定,例如質譜法。在一些具體例中,小分子具有少於約10KDa的分子量,較佳少於約5KDa,尤其少於約1KDa(例如約300道耳頓至約800道耳頓)。可以例如基於可能藥物標靶的結晶結構來電腦模擬設計小分子,而負責生物活性並且涉及調節本文所鑑定之基因表現的位點可以在活體內分析中予以鑑定並確認,活體內分析為諸如活體內HTS(高通量篩選)分析。小分子可以是商業上可用之庫(例如來自CHEMBRIDGE Corp.,San Diego,USA)的一部分。相對地,「大分子」具有大於約5KDa的分子量,較佳地大於約20KDa,尤其大於約100KDa。
如本文所用,術語「藥物」是關於具有至少一種生物學及/或藥理學活性的化合物。較佳地,該藥物是被用來治療、治癒、預防或診斷、使用或要用來以其他方式提高生理或心理健康,或者是要用於上列的候選化合物。
如本文所用,術語「前藥」包括在生物學及/或藥理學上通常不具活性的化合物。在投藥之後,前藥被活化,通常是在活體內透過酶或水解切割並且被轉換成生物學及/或藥理學上活性化合物,其具有所期望的醫學效應,也就是一種表現出生物學及/或藥理學效用的藥物。前藥通常是透過化學修飾生物學上及/或藥理學上活性化合物而形成。用於篩選以及製備適當前藥衍生物的習知程序描述於例如Design of Prodrugs,1985中。
如本文所用,術語「第二信使」意指將來自細胞表面上之受體的訊號轉達至細胞內、細胞質內或細胞核內標靶分子的分子。例如,第二信使涉及轉達激素或生長因子的訊號並且涉入訊號轉導級聯。第二信使可以分成三個基本群:疏水性分子(例如二醯基甘油、磷脂醯肌醇)、親水性分子(例如cAMP、cGMP、IP3、Ca2+)以及氣體(例如一氧化氮、一氧化碳)。
術語「代謝物」如本文所用對應於其原先在技藝中所被認可的意思,亦即代謝物為代謝的中間物與產物並且可以被分成初級代謝物(例如涉及生長、發育以及繁殖)及次級代謝物。
如本文所用,「適體」意指例如結合特定標靶分子之寡核酸或肽分子的分子。適體通常是從一個大型隨機序列池選出它們而創造,且天然適體也存在於核糖開關(riboswitch)中。此外,它們可與核糖酵素組合以便在其標靶分子存在下進行自我切割。更特定地,適體可分類為DNA或RNA適體或肽適體。而前者由寡核苷酸之股(通常短股)組成,後者由短可變肽結構域組成,其附接在蛋白質支架的兩端。核酸適體為核酸物質,其可透過重複回合的活體外篩選,或者是相同地配體指數增強系統進化(systematic evolution of ligands by exponential enrichment,SELEX)而被工程改造以結合至各種分子標靶,諸如小分子、蛋白質、核酸還有甚至細胞、組織與生物體。肽適體由附接至蛋白支架兩端的各種可變肽環所組成。這個雙重結構限制因子將肽適體的結合親和力大幅提高到與抗體相當的程度(奈莫耳範 圍)。可變環長度典型地含有10至20個胺基酸,而支架可為具有良好溶解度性質的任何蛋白質(例如硫氧化還原蛋白-A)。可以使用例如酵母菌雙雜合系統來完成肽適體篩選。
如本文所用,術語「寡醣」意指醣類(例如糖)聚合物,其含有少量構成糖,諸如例如至少(就各數值來說)3、4、5、6、7、8、9、10、11、12、13、14或至少15個單醣。它們可以是例如O-或N-連結至多肽的胺基酸側鏈或連接至脂質部分。
如本文所用,「抗體」包括完整抗體及其任何抗原結合片段或單鏈。因此,抗體包括任何含蛋白質或肽的分子,其包含免疫球蛋白分子的至少一部份,諸如但不限於重鏈或輕鏈或其配位體結合部分、重鏈或輕鏈可變區的至少一個互補決定區(CDR)、重鏈或輕鏈恆定區、骨架(FR)區或其任何部分,或結合蛋白質的至少一部分,其可被併入本揭示內容的抗體中。術語「抗體」進一步欲含括抗體、其消化片段、指定部分以及變異體,包括抗體擬似物或包含模擬抗體結構及/或功能之抗體的部分或其指定片段或部分,包括單鏈抗體及其片段。功能性片段包括針對欲先選定之標靶的抗原結合片段。含括在術語抗體之「抗原結合部分」內的結合片段實例包括(i)Fab片段,由VL、VH、CL與CH結構域組成的單價片段;(ii)F(ab’)2片段,包含在樞紐區處透過雙硫橋聯結的兩個Fab片段的二價片段;(iii)Fd片段,由VH與CH結構域組成;(iv)Fv片段,由抗體之單臂的VL與VH結構域組成;(v)dAb片段(Ward et al.,(1989)Nature 341:544-546),其由VH結構域組成;以及(vi)經單離互補決定區(CDR)。另外,儘管Fv片段的兩個結構域(VL與VH)是由個別基因所編碼,它們可以使用重組方法透過合成連接子使它們以一個單一蛋白質鏈被做出而接合,其中VL與VH區成對而形成單價分子(已知為單鏈Fv(scFv);參見例如Bird et al.,Science 242:423-426,1988;Huston et al.,PNAS USA,85:5879-5883,1988),包括雙功能抗體。此等單鏈抗體與雙功能抗體也亦欲含括在術語抗體的「抗原結合片段」內。這些抗體片段是使用那些習於技藝者已知的習用技術所獲得,以與完整抗體相同的方式針對實用性來篩選片段。相反地,scFv構築體之庫可用來篩選抗原結合力,且之後使用習用技術被剪接成編碼人類生殖系基因序列的其 他DNA。這樣一種庫的一個實例為「HuCAL:人類組合抗體庫」(Knappik et al.,J Mol Biol.,296(1):57-86,2000)。抗體可使用免疫宿主(例如兔或天竺鼠)並且得到其血液或血清而獲得。或者,可使用融合瘤技術、三源融合瘤技術、人類B細胞融合瘤技術(Kozbor et al.,1983;Li et al.,2006)。另外,可由單株抗體取得重組抗體或使用各種展示方法(諸如噬菌體、核醣體、mRNA或細胞展示)重新製備重組抗體。用於表現重組(人類化)抗體或其片段的適宜系統可選自例如細菌、酵母菌、昆蟲、哺乳動物細胞株或轉殖動物或植物(參見例如美國專利第6,080,560號;Holliger and Hudson,2005)。再者,可採用描述用於生產單鏈抗體的技術(參見美國專利第4,946,778號)來生產對本揭示內容之標靶具有特異性的單鏈抗體。可使用如BIACORE系統中所採用的表面電漿共振來特徵分析噬菌體抗體的效率以供進一步最佳化。
如本文所用,術語「單株抗體」意指單一分子組成的抗體分子製品。單株抗體組合物對特定表位展現出單一結合特異性以及親和力。因此,術語「人類單株抗體」意指展現出單一結合特異性的抗體,其具有衍生自人類生殖系免疫球蛋白序列的可變區和恆定區。
「交互作用」依據本發明所用為一種直接物理交互作用,也稱為「結合」或由其他可能不是細胞的內源性組份之構成要素所媒介的間接交互作用。如在主要具體例中所定義,該反應(較佳地結合)發生在該細胞內。換言之,待測定的該反應(較佳地結合)發生或可能發生在該可能細胞內交互作用(較佳為結合配偶體與該受體的細胞內結構域)之間。
如本文所用,術語「測定交互作用」包括測定特定交互作用存在或不存在、偵測是否發生先前未知的交互作用、量化交互作用,其中該等交互作用可包括已知以及先前未知的交互作用。本發明方法亦延伸至觀察交互作用,其中該觀察亦可包括觀察或監控時間內及/或在超過一個地點處,較佳在感興趣位點的位置處(例如活性位點、別位位點、表位、交互作用模體或結構域)。量化此等交互作用的方法包括乾式科學(例如使用計算軟體),以及濕式科學(例如使用經純化重組蛋白質來測定結合動力學,諸如解離常數或KD),或半濕式科學(例如使用BIACORE分析)。待測定的交互作用較佳為結合。
如本文所用,術語「蛋白質反應」表示標靶蛋白質(例如受體、酶、激素、生長因子)因應其環境中的變化而改變其結構,例如在活化劑、抑制劑或調節劑存在或不存在下。「蛋白質反應」也可以受到許多因子所誘發,諸如溫度、pH、電壓、離子濃度、磷酸化或配位體結合的變化。一類的蛋白質反應為「構形改變」。若構形改變修改了嵌合跨膜受體對細胞內結合配偶體的結合親和力,則可如上文所述測定交互作用強度的變化。嵌合跨膜受體的蛋白質反應也可以包括蛋白水解裂解。
如本文所用,術語結合配偶體(例如配位體或抗體)的「高親和力」意指一個具有KD為10-6M或更小,更佳地10-8M或更小以及甚至更佳地10-9M或更小(例如10-10M或甚至10-11M)的分子。該術語可以是分子特異性。例如「高親和力」結合在IgM同功型的情況下可指具有KD為10-7M或更小,更佳地10-8M或更小(例如10-9M)的抗體。
如本文所用,術語「解離常數」、「Kdis」、「KD」、「Kd」意指特定交互作用的解離速率,特定交互作用為例如配位體-受體、藥物-酶、抗體-抗原交互作用,其典型地為解離速率(又稱為「解離速率(koff)」)相對於締合速率(k1)或「締合速率(kon)」的比率。因此,KD等於或k2/k1或koff/kon且表示為莫耳濃度(M)。其遵循著若Kd越小,則結合越強。故10-6M(或1μM)表明相比於10-9M(或1nM)微弱的結合。
術語「特異地結合」以及「特異性結合」當指涉兩個分子(例如抗體與抗原)的結合時,係指一種取決於存在分子(等)上之特定結構的交互作用。舉例而言,若抗體對分子上的表位「A」具有特異性,則含有經標記「A」以及抗體的交互作用中存在含有表位「A」(或游離、未經標記A)的蛋白質將會降低結合至抗體之經標記A的數量。在一個具體例中,分子(例如藥物、抗體、配位體)對其結合配偶體(例如酶、抗原、受體)的結合程度是使用「IC50」,也就是「半最大抑制濃度」來決定,IC50意指特定生物過程(例如在藥物與酶及/或所形成生物效應之間的結合,例如抑制酶活性)或過程的某一個組成要素產生50%抑制的物質(例如抑制劑、拮抗劑等)濃度。其常用作為一種拮抗劑物質之潛力的度量。
如本文所用,「特異性結合」在抗體-抗原交互作用的上下文 中意指對抗原(例如受體,諸如Her2)的解離常數(KD)為約10-7M或更少的結合,較佳10-8M或更少且甚至更佳10-9M或更少,例如10-10M或甚至10-11M。另外,抗體可以比結合至非特異性抗原(例如BSA、酪蛋白或具有不存在於特定抗原(例如受體,諸如Her2)之序列的隨機多肽)少至少約3倍、4倍或5倍的KD結合至抗原。如本文所用,「高度特異性」結合表示抗體對特定標靶表位的相對KD比抗體結合至其他配位體(例如BSA、酪蛋白或隨機多肽)的KD少至少10倍、至少20倍,例如約50倍。
如本文所用,術語「醫藥上可接受」表示在生物學上或其他方面並非不樂見的分子或材料,亦即該分子或材料可以被投與給個體而不會造成任何不樂見的生物學效應,諸如毒性。
如本文所用,術語「載劑」表示緩衝劑、佐劑、分散劑、稀釋劑以及類似物。例如,本揭示內容之肽或化合物可以經調配以供依據已知技術在醫藥學載劑中投藥。參見例如Remington,The Science & Practice of Pharmacy(9th Ed.,1995)。在製造本揭示內容的醫藥調配物時,肽或化合物(包括其生理學上可接受之鹽)典型地尤其與可接受的載劑混合。載劑可以是固體或液體,或兩者兼有,且較佳地與肽或化合物一起調配成單劑量調配物(例如錠劑),其可含有以重量計約0.01或0.5%至約95%或99%,較佳地約1%至約50%,以及尤其約2%至約20%的肽或化合物。一或多個肽或化合物可以被併入本揭示內容的調配物中,其可藉由已知藥學技術中的任一者來進行製備。
如本文所用,術語「培養物」意指任何懷疑含有一或多種微生物或細胞的樣本或樣本。「純培養物」是其中的細胞或生物屬於特定一種或屬的培養物。這與「混合培養物」相對,混合培養物中存在超過一種或屬的微生物或細胞。
如本文所用,術語「治療(treat、treating或treatment of)」意指降低病況的嚴重程度或至少部分改善或改變其病況,例如經由完全或部分緩解、減輕或降低病況(例如癌症)的至少一種臨床症狀。
如本文所用,術語「投與」以其最廣含意來使用作為向有需要治療的個體給予或提供組合物(諸如藥物)。例如,在醫藥學含意中,「投 與」表示如施用藥品,諸如透過以此等分子會被例如靜脈內、經口、局部、頰內(例如舌下)、經陰道、非經腸(例如皮下、肌肉內,包括骨骼肌、心肌、橫膈膜肌肉與平滑肌;皮內;靜脈內;或腹膜內)、局部(亦即皮膚以及黏膜表面)、皮內、穿皮、關節內、鞘內、吸入、門靜脈內遞送、器官注射(例如眼或血液等)或離體(例如免疫血球分離)接受的方式來置放藥物。
如本文所用,「接觸」表示包含活性成分的組合物在適當環境(例如在軟體應用程式、BIACORE系統、測試管、燒瓶、組織培養物、晶片、陣列、培養盤、微培養盤、毛細管或類似物)中被引入至含有標靶(例如蛋白質標靶、細胞標靶)的樣本中,並且在足以允許結合(例如標靶結合至未知結合配偶體)或反之亦然(例如結合配偶體結合至未知標靶)的溫度與時間下培育。在活體內環境下,「接觸」表示治療或診斷分子被引入至患者或個體體內以供治療疾病,且該分子在活體內或離體被允許與患者的標靶組織(例如血液組織)接觸。
如本文所用,術語「治療有效量」意指為個體提供若干改善或益處之量。或者說,「治療有效」量為將會在個體體內提供一些緩和、減輕或減少至少一種臨床症狀之量。用於決定治療分子(例如抗癌劑或抗體)之治療有效量的方法為技藝中已知,且可包括活體外分析或活體內藥理學分析。
如本文所用,術語「調節」在指標靶與其配偶體之間的交互作用時表示正向或負向調節標靶的正常生物學功能。因此,術語調節可用來意指增加、減少、遮蔽、改變、推翻或回復標靶的正常功能。調節劑可以是促效劑、部分促效劑或拮抗劑、輔因子、別位活化劑或抑制劑或類似物。
如本文所用,術語「抑制」意指減少與標靶劑(例如酶或受體或抗原)有關的數量、含量、密度、轉換、締合、解離、活性、訊號傳導或任何其他特徵。
如本文所用,術語「個體」表示一名個體。在一個態樣中,個體為哺乳動物,例如人類或非人類靈長動物。非人類靈長動物包括狨猿、猴、黑猩猩、大猩猩、紅毛猩猩與長臂猿。個體包括馴養動物(諸如貓、狗 等)、家畜(例如駱馬、馬、牛)、野生動物(例如鹿、麋鹿(elk、moose)等)、實驗室動物(例如小鼠、大鼠、沙鼠、天竺鼠等)以及禽類(例如雞、火雞、鴨等)。較佳地個體為人類,尤其是人類患者。
如本文所用,術語「腫瘤」表示腫瘤生長,其可為良性(例如不形成轉移且不破壞鄰近正常組織的腫瘤)或惡性病/腫瘤(例如入侵周圍組織,且通常能夠產生轉移的腫瘤,可能在試圖移除之後再發,且可能導致宿主死亡,除非經適當處理)。參見Steadman’s Medical Dictionary,28th Ed Williams & Wilkins,Baltimore,MD(2005)。
如本文所用,術語「偵測」意指依據測量樣本中的一或多個參數來決定與某一個樣本相關之數值或數值集的過程,且可進一步包含將測試樣本與參考樣本進行比較。依據本揭示內容,偵測標靶與其結合配偶體之間的結合可包括鑑別、分析、測量及/或量化標靶中某一個位點(例如酶中的活性位點或別位位點;抗原中的表位,或受體中的配位體結合位點)之間的一或多種交互作用。
如本文所用,「可偵測標記」是一個部分,可直接或間接地確認其存在。一般來說,偵測標記包括產生可偵測訊號,諸如例如散發能量。儘管不受到限制,但標記可以具有化學、肽或核酸性質。所用標記的性質將取決於多種因素,包括待進行分析的性質、所使用能量源與偵測器的類型以及聚合物、分析物、探針與一級和二級分析物特異性結合配偶體的類型。標記應在空間上與化學上與其所結合的組份相容。可直接地偵測標記,例如依據其散發及/或吸收特定波長之電磁輻射的能力。可間接地偵測標記,例如依據其結合、招募以及在一些情況下裂解另一個部份的能力,其本身可能散發或吸收特定波長的光(例如表位標籤(諸如FLAG表位)、酶標籤(諸如辣根過氧化酶)等)。大體上可偵測標記可選自由以下組成之群:可直接偵測標記,諸如螢光分子(例如螢光素、玫瑰紅、四甲基玫瑰紅、R-藻紅素、Cy-3、Cy-5、Cy-7);或可間接偵測標記,諸如酶(例如鹼性磷酸酶、辣根過氧化酶、p-半乳糖苷酶、葡萄糖澱粉酶、溶菌酶、螢光素酶(諸如螢火蟲螢光素酶與細菌螢光素酶)。
如本文所用,術語「特異性偵測」意指一個特定標靶(「訊 號」)的偵測水平超過其他非標靶(「雜訊」)。當偵測的信噪比為至少0.6倍、0.7倍、0.8倍、0.9倍、1倍、1.5倍、2倍(例如100%增加)、3倍、5倍、10倍、20倍、50倍、70倍、100倍或更多,便達到特異性偵測。
如本文所用,術語「訊號」是用來指已發生反應(例如抗體結合至抗原)的一種指示劑。預期呈放射性、螢光反應、發光以及酶反應形式的訊號可與本揭示內容一起使用。可定量並且定性地評估訊號。如本文所用,術語「訊號強度」意指訊號強度的量級,其中該強度與反應受質之量有關。
如本文所用,術語「細胞」意指生命的基本單位。術語「生物細胞」包括真核生物細胞、植物細胞、動物細胞(諸如哺乳動物細胞、昆蟲細胞、禽類細胞、魚類細胞或類似細胞)、原核生物細胞、細菌細胞、真菌細胞、原生蟲細胞或類似細胞、從組織(諸如肌肉、軟骨、脂質、皮膚、肝臟、肺臟、神經組織與類似者)分離的細胞、免疫細胞(諸如T細胞、B細胞、自然殺手細胞、巨噬細胞與類似細胞)、胚(例如受精卵)、卵母細胞、卵、精細胞、融合瘤、培養細胞、細胞株的細胞、癌細胞、經感染細胞、經轉染及/或經轉形細胞、報導子細胞以及類似細胞。哺乳動物細胞可以例如是來自人類、小鼠、大鼠、馬、山羊、綿羊、牛、靈長動物等。
如本文所用,術語「樣本」意指可由感興趣個體獲得或由感興趣個體衍生而來的組合物,其含有要被特徵分析及/或鑑定的細胞及/或其他分子實體,例如基於物理、生化、化學及/或生理特徵。如本文所用,「生物樣本」是一種得自於個體身體的物質。所選擇的特定「生物樣本」將依據患者懷疑罹患的病症而不同,並且因此生物樣本最有可能含有分析物。組織樣本的來源可以是血液或任何血液組份;體液、固體組織,如來自新鮮、冷凍及/或保存器官或組織樣本或生檢或抽出物;以及來自在妊娠或個體發育的任何時候或血漿的細胞。樣本包括,但不限於初代或培養細胞或細胞株、細胞懸浮物、細胞溶胞產物、血小板、血清、血漿、玻璃液、眼液、淋巴液、滑膜液、濾泡液、精液、羊水、乳汁、全血、尿液、腦脊髓液(CSF)、唾液、痰、淚、汗、黏液、腫瘤溶胞產物以及組織培養基,還有組織萃取物,諸如均質化組織、腫瘤組織與細胞萃取物。樣本進一步包括 在取得之後已用任何方式操作過的生物樣本,諸如藉由用試劑處理諸如組織學樣本。較佳地,樣本是得自於血液或血液組份,包括例如全血、血漿、血清、淋巴以及類似者。
如本文所用,「生物資料」可意指從測量人類、動物或其他生物體(包括微生物、病毒、植物與其他活生物體)的生物學狀態衍生而來的任何資料。測量可以透過臨床醫師、科學家、診斷醫師或類似者已知的任何測試、分析或觀察結果來進行。生物資料可包括,但不限於臨床測試與觀察結果、物理和化學測量、基因體測定、基因體定序資料、外顯子體定序資料、蛋白質體測定、藥物含量、激素與免疫學測試、神經化學或神經物理測量、礦物質與維生素含量測定、遺傳與家族病史,以及其他能洞悉正在經歷測試之個體(們)狀態的測定。如本文所用,「表現型資料」意指有關於表現型的資料。
如本文所用,術語「標記物(marker)」意指一種特徵,其可被客觀地測量作為正常生物學過程、致病過程或對治療干涉(例如用抗癌劑治療)的藥理學反應的指標。標記物的代表類型包括,例如結構(例如序列)中的分子變化或標記物的數量變化,包含例如基因突變、基因複製或多種差異,諸如DNA的體細胞變化、複本數變化、串接重複序列或其組合。
如本文所用,術語「外顯子體標記物」意指聚核苷酸序列,其被轉譯成蛋白質產物。如技藝中所理解,外顯子體是基因體的一部分,由外顯子所組成,其序列當被轉錄時在內含子經RNA剪接而被移除後仍保留在成熟RNA中。其包含在任何類型細胞中被轉錄為成熟RNA的所有DNA。相反地,轉錄體包含僅在特定細胞群中已被轉錄的RNA。人類基因體的外顯子體由粗估180,000個外顯子組成,佔整個基因體約1%或DNA的約30百萬鹼基(Ng et al.,Nature,461,272-276,2009)。雖然包含非常少部分的基因體,但外顯子體中的突變被認為是帶有85%對疾病有莫大影響的突變(Choi et al.,PNAS USA,106,19096-19101,2009)。外顯子體定序已證實是一種有效率的策略來確定超過兩打孟德爾式或單基因病症的遺傳基礎(Bamshad et al.,Nat Rev Genet.,12,745-755,2011)。
術語「標靶」意指任何感興趣的分子。較佳地,標靶為指示 分子,諸如例如由基因體序列編碼的蛋白質及/或mRNA,以及基因體序列本身。「藥劑」是例如經由特異性結合與該標靶交互作用的分子。標靶-藥劑對的非限制性實例包括,例如酶-酶調節劑(例如激酶-激酶抑制劑;磷酸酶-磷酸酶活化劑;組蛋白去醯酶(HDAC)-HDAC調節劑;訊號傳導路徑調節劑(例如音蝟(SHH)-SHH調節劑;G蛋白偶合受體(GPCR)-GPCR調節劑);受體-配位體(例如生長因子受體與其配位體,諸如EGFR、HGF、VEGF、KIT;激素受體與其配位體,諸如雌激素受體、雄激素受體、FSH受體、甲狀腺激素受體;維生素D受體;小激素受體與其配位體,諸如多巴胺受體、血清素受體、組胺酸受體));神經肽與其受體(例如CRH、GHRH、LHRH、神經激肽b、神經激肽K與P物質;類鴉片肽,諸如b-腦啡、強啡肽與met-和leu-腦啡肽;NPY及相關肽,諸如神經肽酪胺酸(NPY)、胰臟多肽與肽酪胺酸-酪胺酸(PYY);VIP-升糖素家族成員,諸如升糖素樣肽-1(GLP-1)、肽組胺酸異白胺酸(PHI)、腦下垂體腺苷酸環化酶活化肽(PACAP)以及激脈腸多肽(VIP);BNP與其同功型);離子載體(例如K+離子載體、Ca2+離子載體、Ba2+離子載體、HCO3-離子載體、NO3離子載體);離子通道調節劑(例如K+通道促效劑、Na+通道阻斷劑、Ca2+通道阻斷劑);腺苷受體調節劑(例如A1、A2A、A2B或A3受體的調節劑);補體系統蛋白(例如C1、C2、C3、C4、C5;較佳為C5);類固醇受體與類固醇(例如3-酮類固醇受體,其與皮質醇、醛固醇、黃體酮、睪固酮交互作用;視網酸受體,其與類視色素交互作用;PPAR-β/δ,其與脂肪酸、前列腺素交互作用;孕甾烷X受體,其與外來物交互作用);以及β分泌酶抑制劑,包括其多肽組份的抑制劑,例如早老素(PS)、呆蛋白(nicastrin)(NCT)、PEN-2與APH-1。各種前述標靶之調節劑的代表類型揭示於美國公開案第2016/0220580號中,其以全文引用的方式併入本文。較佳地,標靶分子以及與標靶分子交互作用的藥劑揭示於表2中。
術語「癌症」如本文所用意指各種肉瘤與癌,並且包括實體癌和血液癌。如本文所指實體腫瘤包括例如腦癌、腦頸動脈癌、食道癌、甲狀腺癌、小細胞肺癌、非小細胞肺癌、乳癌、子宮內膜癌、肺癌、胃癌、膽囊/膽道癌、肝癌、胰臟癌、結腸癌、直腸癌、卵巢癌、絨毛膜癌、子宮體癌、子宮子宮頸癌、腎盂/輸尿管癌、膀胱癌、前列腺癌、陰莖癌、睪丸 癌、胎兒癌、威爾姆氏腫瘤、皮膚癌、惡性黑色素瘤、神經膠母細胞瘤、骨肉瘤、尤文氏腫瘤、軟組織肉瘤。另一方面,血液癌包括,例如急性白血病、慢性淋巴球性白血病、慢性骨髓性白血病、真性血球過多症、惡性淋巴瘤、多發性骨髓瘤、霍奇金氏淋巴瘤、非霍奇金氏淋巴瘤。
本揭示內容的標靶分子包括細菌、酵母菌真菌或哺乳動物(例如人類)蛋白質,其可利用抗細菌、抗酵母菌、抗真菌或治療劑予以靶定。
術語「抗生素」如本文所用意指任一種分子,當與該分子接觸時,其產生相反於細胞、組織或生物體之正常生物功能的效用,包括死亡或破壞以及預防生物系統的分裂、生長、增生或分化。儘管目前不希望受到機制或理論囿限,咸信有效抗生素為那些抵抗被酶水解者。較佳地,抗生素包括醣肽抗生素以及β-內醯胺抗生素。醣苷抗生素包括,例如鏈黴素、新黴素、建他黴素與萬古黴素。β-內醯胺抗生素包括,例如盤尼西林、安比西林與阿莫西林。其他實例為頭孢菌素β-內醯胺,例如頭孢力欣(cephalexin)、頭孢卓西(cefadroxil)、頭黴素(cephamycin)以及拉特莫西(latamoxef)。
術語「抗癌劑」如本文所用意指任一種分子,其產生相反於癌細胞之正常生物功能的效用,該抗癌劑選自由下列組成之群:抗癌烷化劑、抗癌抗代謝物、抗癌抗生素、植物衍生的抗癌劑、抗癌鉑配位化合物、抗癌喜樹鹼衍生物、抗癌酪胺酸激酶抑制劑、單株抗體、干擾素、生物反應修飾劑、米托蒽醌、L-天冬醯胺酸酶、丙卡巴肼(procarbazine)、達卡巴嗪(dacarbazine)、羥基脲、噴司他丁(pentostatin),維甲酸(tretinoin)、阿法西普(alefacept)、阿法達貝泊汀(darbepoetin alfa)、阿那曲唑(anastrozole)、依西美坦(exemestane)、比卡魯胺(bicalutamide)、亮丙瑞林(leuprorelin)、氟他胺(flutamide)、氟維司群(fulvestrant)、哌加他尼(pegaptanib octasodium)、地尼白介素(denileukin diftitox)、阿地白介素(aldesleukin)、甲狀腺促素α(thyrotropin alfa)、三氧化二砷、硼替佐米(bortezomib)、卡培他濱(capecitabine)和戈舍瑞林(gorelin),還有其醫藥學上可接受之鹽或酯。
如本文所用,術語「變異」意指改變或偏差。在指核酸時,變異意指DNA核苷酸序列之間的差異或變化,包括複本數(CNV)的差異。 DNA序列之間在核苷酸方面的這個確切差異可以是SNP,及/或DNA序列的改變,例如當序列與參考物(諸如例如生殖系DNA(gDNA)或參考人類基因體HG38序列)相比時觀察到有融合、缺失、添加、重複等。較佳地,變異意指樣本序列與對照DNA序列之間的差異,諸如當樣本序列與參考HG38序列相比時;當樣本序列與gDNA相比時。在gDNA以及cfDNA中所鑑定出的差異被認為是「組成性」且可以被忽略。
如本文所用,術語涉及基因產物(例如mRNA(或其DNA等效物或mRNA或DNA等效物的互補物)或由該mRNA或DNA等效物編碼之多肽)的「改變」意指基因產物在結構(例如核酸序列或胺基酸序列)、含量、活性或功能上相較於對照物的差異。較佳地,經改變的基因產物包含誤義突變或功能喪失型(loss-of-function,LoF)突變。
如本文所用,術語「遺傳變異體」或「變異體」意指一個核苷酸序列,其中在本文所述的SNP中,序列不同於在一個群體中最為普遍的序列,例如相差一個核苷酸。舉例而言,核苷酸序列中的一些變異或置換改變了密碼子,以至於編碼不同的胺基酸產生遺傳變異體多肽。術語「遺傳變異體」亦可意指序列在不改變所編碼多肽之胺基酸序列的位置處(意即保守型變化)不同於在群體中最為普遍之序列的多肽。遺傳變異體多肽可以由風險單倍型所編碼、保護性單倍型,或可由中性單倍型所編碼。遺傳變異體多肽可能與風險相關,與保護相關或可能是中性的。
遺傳變異體的非限制性實例包括框移、停止獲得、開始喪失、剪接受體、剪接供體、停止喪失、框內插入刪除、誤義、剪接區、同義與複本數變異體。複本數變異體的非限制性類型包括刪除以及倍增。
如本文所用,「遺傳變異體資料」意指相對於參考核酸序列,透過鑑定個體之核酸中的對偶基因變異體所獲得的資料。術語「遺傳變異體資料」也含括代表變異體對由該變異體基因所編碼之多肽的生化結構/功能之預期影響的資料。
相對於變異體,「野生型」通常意指一種生物分子(例如多肽或聚核苷酸),其包含天然未突變生物分子的結構(例如胺酸序列或聚核苷酸序列)。
相較於參考樣本,外顯子體標記物或遺傳標記物較佳地包括變異體核酸,例如突變、SNP、CNV、STR或其組合。變異尤其是在核酸的編碼區中,尤其是在外顯子體中。變異體核酸較佳地編碼經改變的蛋白質產物,例如其胺基酸組成或長度或兩者不同於參考(野生型)多肽產物的蛋白質產物。
如本文所用,術語「誤義突變」意指DNA序列的變化,其將MRNA中一個被正常轉譯為某一個胺基酸的密碼子變成轉譯為一個不同胺基酸的密碼子。舉例而言,5'-TCA中的「C」變成「T」的突變(在mRNA中UCA至UUA)為誤義突變。當在細胞內合成蛋白質時,由TCA密碼子所編碼的絲胺酸將會被白胺酸所取代,白胺酸是由TTA(UUA)密碼子所編碼的胺基酸。一些但並非全部的誤義突變都會造成非功能性基因產物。一些誤義突變業可能造成功能獲得。可使用篩選方法來找出那些實際影響蛋白質功能的誤義突變。
如本文所用,術語「功能喪失型(LoF)突變」或「失活突變」意指造成基因產物部分或完全失活的突變。該術語包括「初始突變」,其意指對偶基因完全喪失功能的情況(無效對偶基因(null allele))。與初始突變有關的表現型通常大多為隱性的。例外為當生物體為單倍體或當正常基因產物之量降低而對正常表現型來說不足(稱為單倍體不足)。相對地,「功能獲得型(GoF)突變」或「活化突變」意指提高蛋白質產物活性或造成蛋白質活性完全不同(且異常)的突變。若創造出含有GoF突變的新對偶基因,則含有新創造之對偶基因以及原有對偶基因的異型合子將會表現新的對偶基因;在遺傳上這將突變定義為顯性表現型。
在一些具體例中,誤義突變產生顯性負突變(DN)。術語「顯性負突變」或「反效等位基因突變(antimorphic mutation)」意指一種導致經改變之基因產物的突變,該經改變之基因產物以拮抗的方式作用於野生型對偶基因。這些突變通常會造成經改變的分子功能(通常不活化)且特徵在於顯性或半顯性表現性。在人類體內,顯性負突變涉及癌症(例如基因p53、ATM、CEBPA與PPARγ中的突變)。
如本文所用,術語「生殖系DNA」或「gDNA」意指由個體 生殖系細胞分離或萃取而來的DNA,生殖系細胞為例如周邊單核血液細胞(包括得自於循環血液的淋巴細胞)。
術語「對照」如本文所用意指用於測試樣本的一種參考品,諸如分離自周邊單核血液細胞以及淋巴細胞的對照DNA,其中這些細胞並非癌細胞以及類似細胞。「參考樣本」如本文所用意指可能或可能不具有供比對用之癌症的組織或細胞的樣本。因此,「參考」樣本提供一個基準,另一個樣本(例如含有標記物的血漿樣本,標記物為例如外顯子體標記物)可相對於該參考樣本進行比較。相對地,「測試樣本」意指一種相對於參考樣本或對照樣本進行比較的樣本。在一些具體例中,參考樣本或對照可包含參考集合(assembly)。
術語「參考集合」意指一個數位核酸序列資料庫,諸如含有HG38集合序列的人類基因體(HG38)資料庫。可透過人類(智人)加州大學聖塔克魯茲基因體瀏覽器入口經由網路在genome(點)ucsc(點)edu進入入口。或者,參考集合可意指基因體參考協會的人類基因體集合(Genome Reference Consortium’s Human Genomic Assembly)(Build #38;經組合;2017年6月),其可經由U.S.NCBI網站在網路上進入。
在一些具體例中,參考集合包含「外顯子體集合」或「轉錄體集合」。如同名稱所暗示,這些係指涉分別含有外顯子體或轉錄體集合序列的數位核酸序列資料庫。在一些具體例中,這些資料庫是使用參考集合(諸如HG38集合序列)予以集合。或者,可採用公用外顯子體集合。一個實例為蓋文醫學研究全外顯子體序列資料,其係依據Illumina的SEQMAN NGEN 12.2分析以Illumina為基礎的序列資料。
如本文所用,術語「定序(sequencing)」或「定序(sequence)」作為動詞意指一種程序,從而使得DNA的核苷酸序列或核苷酸的順序得以被確定,諸如核苷酸順序AGTCC等。術語「序列(sequence)」作為名詞意指得自於定序的實際核苷酸序列;例如具有序列AGTCC的DNA。其中以數位形式提供及/或接受「序列」,例如在光碟片中或遠端經由伺服器,「定序」可意指大量DNA,其係使用本揭示內容之方法及/或系統加以增生、操作及/或分析。
詞組「定序運行」意指定序實驗的任何步驟或一部分,進行該定序實驗以決定與至少一個生物分子(例如核酸分子)有關的一些資訊。
如本文所用,術語「全外顯子體定序」意指DNA基因體之編碼區的選擇性定序。所靶向的外顯子體通常為DNA轉譯成蛋白質的一部分,但是未轉譯成蛋白質之外顯子體的區域也可以被納入在序列中。定序完整編碼區(外顯子體)的可靠方法於遺傳診斷時可以是臨床上相關的,因為透過鑑定功能性變異,在不需要與高覆蓋率全基因體定序有關的高額費用,同時在序列深度方面維持高覆蓋率的情況下,目前理解到序列變異中的功能性序列是孟德爾與常見疾病的主因。參見Ng et al.,Nature 461,272--276,2009 and Choi et al.,PNAS USA 106,19096-19101,2009。
如本文所用,術語「全轉錄體定序」意指確定所有RNA分子的表現,RNA分子包括信使RNA(mRNA)、核醣體RNA(rRNA)、轉送RNA(tRNA)以及非編碼RNA。全轉錄體定序可以使用各種平台來完成,平台為例如Genome Analyzer(Illumina,Inc.,San Diego,CA,USA)以及SOLIDTM Sequencing System(Life Technologies,Carlsbad,CA,USA)。但是,可使用任何可用於全轉錄體定序的平台。
術語「RNA-Seq」或「轉錄體定序」意指對RNA(或cDNA)而非DNA所施行的定序,其中典型地主要目標是要測量表現水平、偵測融合轉錄本、選擇式剪接,以及可更充分地從RNA來進行評估的其他基因體變異。RNA-Seq包括全轉錄體定序以及標靶特異性定序。
術語「全基因體定序」或「WGS」意指一種實驗室程序,其在樣本中確定各DNA股的DNA序列。所得序列可被稱為「原始定序資料」或「讀值(read)」。如本文所用,當序列與參考染色體DNA序列的某一個區域具有相似性時,則讀值為「可映射(mappable)」讀值。術語「可映射」可意指與參考序列(例如人類基因體(HG387)資料庫)顯示出相似性並因而「被映射」至參考序列的區域。
除了「WGS」以外,基因體簡述可使用經靶向定序而獲得。相對於WGS,術語「經靶向定序」如本文所用意指一種實驗室程序,其在樣本中確定所選DNA基因座的DNA序列,例如定序一群選定的癌症相關基 因或標記物(例如標靶)。在此上下文內,術語「標靶序列」於此意指選定的標靶聚核苷酸,例如存在DNA分子中的序列,需要確定其存在、數量及/或核苷酸序列或其中的電荷。審查標靶序列存在或不存在體細胞突變。標靶聚核苷酸可以是與疾病(例如癌症)相關之基因的一個區域。在一些具體例中,該區域為外顯子。
如本文所用,術語「群(bin)」是指組合在一起的一群DNA序列,諸如在「基因體群」中。在特定情況下,該群可包含基於「基因體盒窗」而被分群的一群DNA序列,其包括使用基因體窗將DNA序列分群。
隨著時間推移增加新個體的遺傳變異體和表現型資料,本文揭示的方法以及系統以滾動式基礎支持大規模自動統計分析蛋白質體變異體、外顯子體變異體,遺傳變異體及其與表型(例如,成藥性或耐藥性)的關聯性。例如,在一些具體例中,所進行的統計學關聯性分析是全基因體關聯性研究(GWAS)統計分析。在GWAS分析中,確定哪些基因或遺傳變異體與感興趣的表現型有關。在一些具體例中,遺傳變異體資料是得自個體之含有核酸的樣本的基因體定序。在另一個態樣中,遺傳變異體資料是得自個體之含有核酸的樣本的外顯子體定序(例如全外顯子體)。在另一個態樣中,遺傳變異體資料是得自個體之蛋白質體的一部分或全部的蛋白質體定序或甚至3D結構建模。
術語「映射」意指一種用於在重組頻率方面描述遺傳基因座的位置與遺傳多型性的方法。映射方法的結果以映射單位描述
如本文所用,術語「篩選」意指特定的生物學或生化分析,其指向測量分子在標靶(例如電腦模擬系統中的標靶)(例如基於能量考量的電腦建模軟體)、無標靶細胞系統(例如,BIACORE系統)、標靶細胞、組織、器官、器官系統或生物體中誘導的特定病況或表現型的度量。
如本文所用,在篩選化合物或庫的情況下,術語「選擇」包括(a)從先前並不知道是病況或表現型(例如,癌症)之調節劑的一個群組中選擇化合物;以及(b)測試已知為病況或表現型(例如癌症)之抑制劑或活化劑的化合物。兩種類型的化合物在本文中通常稱為「測試化合物」。測試化合物可包括例如多肽(例如,小肽、人工或天然蛋白質、抗體)、聚核苷酸(例如 DNA或RNA)、醣(小糖、寡醣和複合糖)、脂質(例如脂肪酸、甘油脂、神經鞘脂質等)、擬似物及其類似物,以及分子量小於約10KDa,較佳小於約5KDa,特別是小於約1KDa的小有機分子(例如約300道耳頓至約800道耳頓)。測試化合物可以技藝中已知的庫形式提供,例如在化學合成庫、重組表現庫(例如噬菌體展示庫)以及基於活體外轉譯的庫(例如,核醣體展示庫)。
如本文所用,術語「耐受」當用於指分子(例如,蛋白質或其中的結合口袋)時,表示相較於對應對照(例如野生型蛋白質或其中的結合口袋),特定分子對其結構(例如一級、二級、三級或甚至四級結構)中的變異產生反應而表現較小作用或沒有作用。
常規計分方法可用於描繪蛋白質或其中的結合口袋對變異是耐受或不耐受。應理解,蛋白質對變異的耐受性雖然受到胺基酸序列影響,但也取決於其他生理化學因素。因此,耐受性較佳以相對性術語表示(例如高度耐受、相對耐受、中性,相對不耐受或高度不耐受)。
計分方法的結果大致可分為絕對(例如,等級)和相對(例如,百分位數)比較。等級度量可以進一步分為相對等級(例如,後20%、後10%或後5%;前40%,前20%或前10%%)絕對等級(例如,40,000個位點中的前5個)。百分位數或分位數統計資料可用於特徵分析候選者相對於群體的耐受性(例如,比較一個目標蛋白質相對於蛋白質體或相對於結構上相似之蛋白質群體,即同源物)。
本文描述用於確定蛋白質的一或多個胺基酸的3DTS的方法,系統和媒體。基於編碼蛋白質之核酸序列改變的傾向來計算3DTS計分。導致誤義突變之比基因體、蛋白質或基因體局部的平均突變率改變更高的核酸序列變異體對變異耐受。導致誤義突變之比基因體、蛋白質或基因體局部的平均突變率改變更少的核酸序列變異體對變異不耐受。理論上,編碼不改變之誤義突變的核酸序列變異體(例如,從未觀察到的變異體)完全不耐變異。用於確定特定變異體的突變率的核酸序列可以是適合於該目的的任何核酸,並且包括DNA和RNA。適合於本文所述方法的DNA序列資料通常將從全基因體/外卜顯子體定序產生,但也可以從多名個體的靶向定序或包含來自許多個體的DNA序列資料的資料庫獲得。適用於本文所述方法的 RNA序列資料通常反映在逆轉錄RNA模板的cDNA定序中。在某些具體例中,DNA序列包含個體全基因體的序列,或僅個體全基因體的高信賴區域。在某些具體例中,DNA序列包含如NA12878 Genome-In-A-Bottle檢出集(call set)(GiaB v2.19)定義之個體全基因體的高信賴區域的序列。在某些具體例中,DNA序列包含由GiaB v2.19定義之個體全基因體的90%高信賴區域的序列。在某些具體例中,DNA序列包含由GiaB v2.19定義之個體全基因體的80%高信賴區域的序列。在某些具體例中,DNA序列包含由GiaB v2.19定義之個體全基因體的70%高信賴區域的序列。核酸變異體可以透過與參考基因體比對來確定,參考基因體為例如2013年12月釋出之公眾可獲得的GRCh38(hg38)。或者,該等方法可採用從事前構建的複數個基因體確定的參考基因體。
可用於計算3DTS的基因體變異體和突變的類型是誤義突變。誤義突變是那些導致胺基酸改變的核酸突變類型。這與同義突變相對比,同義突變導致胺基酸序列沒有潛在的變化。
整體突變率(global mutation rate)
整體突變率是吾人預期看到若有導致誤義突變的任何特定變異體是隨機選擇還是在沒有任何選擇壓力的情況下發生的背景或恆定突變率。這也可以稱為預期突變率或變異率。這可以透過檢視變異體預期在低選擇度下的突變率來進行估計,例如,同義變異體或來自非編碼區的變異體(剪接接合點,啟動子和增強子序列以外)。在某些具體例中,整體突變率是由非編碼鹼基的背景突變率所定義的突變率。這個整體突變率可以透過檢視同義或非編碼變異體在複數個基因體中的整體突變率來確定,例如大於1,000、10,000、50,000、100,000或更多個基因體(包括其中的增量)。此突變率的另一個來源可能是從衍生自不同個體的外顯子體資料,在某些情況下,可以分析大於10,000、50,000、100,000或更多個外顯子體(包括其中的增量)以達到整體突變率。可以從全基因體定序、外顯子體定序或SNP分型來計算整體突變率。在某些具體例中,可以相對於特定基因以區域來計算整體突變率。例如,可以計算基因的1千個鹼基、10千個鹼基、100千個鹼基、1百萬個鹼基、5百萬個鹼基、10百萬個鹼基、50百萬個鹼基或100百 萬個鹼基(包括其中的增量)內所有鹼基的突變率,其正是在計算3DTS。估計的整體突變率可以視為一個常數。在某一個態樣中,整體突變率在約1x10-5與約1x10-7之間、約1x10-6與約1x10-7之間、約1x10-6與約5x10-6之間、約1x10-6與約5x10-6之間、約2x10-6與約4x10-6之間,或約2x10-6與約3x10-6之間。在某一個態樣中,整體突變率為約1x10-6、2x10-6、3x10-6、4x10-6、5x10-6、6x10-6、7x10-6、8x10-6或9x10-6。在一個特定態樣中,整體突變率為約2.5x10-6。整體突變率還可考慮到一些胺基酸取代是保守的(例如,帶電胺基酸取代相同電荷的胺基酸),並且可能對蛋白質結構或功能具有輕微影響。整體突變率可以是整個基因體、基因體的高信賴區域、特定蛋白質或特定範圍的核苷酸的預期變異率。例如,特定變異體周圍約1,000、5,000、10,000、100,000或更多個核苷酸(包括其中的增量)。整體突變率可以是定義背景突變率的演算法規則,且即使「真實背景突變率」未知或無法估量也能被推估。
變異體突變率
變異體突變率是導致誤義突變的任何特定變異體的突變率。與整體突變率相反,變異體突變率是在特定基因座處實際觀察到的突變率。變異體突變率可以是來自核苷酸資料集的複數個序列中觀察到的突變率;例如,可以考慮來自大於1,000、10,000、50,000、100,000、500,000或1,000,000名(包括其中的增量)不同個體的核苷酸變異資料來建立變異體突變率。變異體突變率還可以考慮由於密碼子簡併性而變異體不需要引起誤義突變的事實。例如,核酸序列可以編碼對突變高度不耐受的殘基,但該序列中不產生核酸改變的變異體對變異體突變率將沒有影響。在某一個具體例中,變異體突變率僅考慮特定序列基因座處的非同義變異。變異體突變率可以是演算法的規則,其定義特定資料集中觀察到的突變率並且即使「真實變異體突變率」未知或不可估量也能被推估。隨著分析更多不同的核苷酸資料集,該規則的準確度增加。
基於全基因體基因間突變率的突變
在一些具體例中,本揭示內容之方法以及系統還在全基因體範圍內考慮到基因間突變率。如本技藝中所知,基因間區域(IGR)是位於基 因之間的DNA序列的片段(stretches),其主要包括非編碼DNA。偶爾有一些基因間DNA用於控制附近的基因(例如,啟動子、調節子、增強子、抑制子等),但其中大部分目前都不具有已知的功能。實驗證據指明,大約98.5%的3D位點不含有常見的誤義變異體(AF>0.05),並且這些位點不會受到併入對位基因頻率項所影響。透過併入變異的上下文(k-員)期望值,可以進一步細分用於確定DTS計分的演算法和方法。
在模型中包含基因間突變的基本方法如下:首先假設這些區域中的突變不會帶來有害性;編碼限制因子,其涉及量化感興趣的編碼區域和中性域之間的差異。在本文中,可以透過將對稱橫跨基因座的7員(七聚體)劃分所有基因間基因座來併入核苷酸上下文依賴性估算。接下來,計算每個七聚體的特定最大概度估計。
基於染色體所特有之基因間突變率的突變
除了納入關於全基因體基因間突變率的資訊之外,本揭示內容之系統和方法還可以包括此等在染色體上下文中的資訊。染色體特異性基因間突變率為將特定蛋白質映射至特定染色體提供了有價值的線索。突變通常與重組相關,並且某些染色體中的某些區域比其他染色體更加的活躍/頻繁地重組。具有更多熱點的染色體可能具有比其他染色體有更高的突變率。此外,純粹出於統計學原因,較大的染色體更容易發生突變,因為它們有更大的區域可以在其中累積損傷。此外,研究顯示,位於染色體中間的區域比在末端的區域更不可能造成性狀的遺傳變異。換言之,基因在染色體上的位置會影響不同性狀之間的物理差異範圍。
關於染色體特異性基因間突變率的資訊可以包括在如先前所述的本揭示內容的系統和方法中。
核苷酸資料集
用於確定變異體特異性突變率或整體突變率的核苷酸資料集包含具有來自複數名個體的基因體資料的任何合適資料集。這些可包含來自複數名個體的SNP資料、全基因體定序資料、外顯子體定序資料或靶向重定序資料。資料集可以是公共可取得的或私有的,且僅包含呈.txt或.vcf格式的變異體。在一些情況下,確定變異體特異性突變率或整體突變率的 品質隨著資料集所代表的個體數量增加而增加。在某些具體例中,核苷酸資料集可代表大於1,000、10,000、50,000、100,000、200,000、500,000、1,000,000或更多名個體(包括其中的增量)。在某些具體例中,資料集包含代表不同種族、國籍或地理區域的資料。
突變不耐性(intolerance)
突變不耐性表示要改變之蛋白質的特定胺基酸或功能結構域的耐受性的相對定量。換言之,突變不耐性表示與產生特定誤義之變異體的整體突變率的偏差。如果特定變異體(或變異體集)以小於整體突變率(例如預期突變率)之比率發生(或在複數名個體中觀察到),則蛋白質的胺基酸殘基或功能特徵為突變不耐受的。這些可以例如以0到1的等級計分,其中0表示在特定位置沒有發現誤義變異體(最高不耐性程度),並且1反映變異體在沒有選擇壓力下預期以該比率或接近該比率發現誤義突變(最高耐受性程度)。可以許多方式表示和分析這種不耐性,例如透過排序、產生比率或數學函數,其允許比較不同變異體的預期突變率和觀察突變率。在某一個具體例中,殘基定義為耐受或不耐受。在某一個具體例中,對不耐性進行定量,以便能比較蛋白質的不同殘基或特徵。在某一個具體例中,對於具有比預期突變率低至少20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%、400%、500%或600%之突變率(包括其中的增量)的殘基建立不耐性的閾值。在某一個具體例中,對於具有比預期突變率低至少2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、20倍、30倍、40倍、50倍、60倍、70倍、80倍、90倍或100倍的突變率(包括其中的增量)的殘基建立不耐性的閾值。在某一個具體例中,突變不耐性可以在複數個胺基酸(例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多個胺基酸)或依據結構域或特徵進行常規化或平均。
殘基也可以因為空間接近高度不耐受殘基或複數個殘基而被定義為不耐受(與共價鍵結相反)。可以使用結構資料(例如,X射線結晶學,NMR或低溫電子顯微術)進一步細分初始的一組蛋白質耐受性排序或計分。例如,未透過肽鍵立即與不耐受殘基連接的殘基可能因為其空間位置 在另一個不耐受殘基的2、3、4、5、6、7、8、9、10或更多埃內而被定義為不耐受。
蛋白結構域以及特徵
突變不耐性可以針對單個特定胺基酸或複數個胺基酸(諸如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50或更多個胺基酸,包括其中的增量)來定義。在某一個具體例中,針對特定蛋白質結構域或特徵(包括功能和結構特徵)建立突變不耐性程度。在某一個具體例中,可以由結構模體(例如β折疊、α螺旋、纏繞線圈結構域)、序列模體(例如醣基化、脂化或磷酸化位點)、蛋白質家族相關性(例如保守蛋白質-蛋白質交互作用結構域、IgG樣結構域)或拓撲學(例如跨膜、細胞內或細胞外結構域)定義任何特徵。在某些具體例中,蛋白質特徵選自由以下組成的列表:活性位點、金屬結合位點、化學結合位點、DNA結合位點、核苷酸結合位點、鋅手指、鈣結合位點、跨膜結構域、膜內結構域、脂化位點、醣基化位點、磷酸化位點、纏繞線圈、α螺旋和β股。
映射突變不耐性
進一步預期突變不耐性可以映射到蛋白質的圖式上;此圖式可包含一級序列或三維結構。三維結構可包含任何展示蛋白質的適宜工具,並包括帶狀圖和空間填充模型。該圖式可以從含有結構資料的公共可取得資料庫導出。參見圖1,經適當使用的介面可包含搜尋框101,用於輸入搜尋項(例如期望蛋白質、蛋白質類別或與(a)特定蛋白質相關的關鍵詞。蛋白質的視覺圖式102可被顯示,這個視覺圖式可以圍繞x、y或z軸旋轉、可以在軸上晃動,或者可縮放至個別殘基水平。也可以顯示出資料103的互動表,其顯示諸如個體不耐性計分的資料,不耐性計分可被分選或可過濾,可下載,可共享或可輸出。
工作流程
圖16是一張流程圖,說明用於鑑定蛋白質(或其中的結合口袋)對變異是耐受或不耐受的方法100。這個技術有許多潛在的下游應用,例如篩選可成藥標靶;鑑定藥物不敏感或抗性變異體;鑑定用於標靶調節的 額外位點(例如,以引發對標靶的加成性或甚至協同性效應);微調標靶調節(例如使用複數個活性及/或別位調節劑);比較性地評估共享共同操作模式的多種調節劑(例如β-內醯胺胺抗生素)的性質。
方法100僅是說明性的,且具體例可使用方法100的變化形式。方法100可以包括用於從複數名個體接收序列資料和特徵資料的步驟(例如,呈FASTA/WIG/BED格式的遺傳或外來序列資料;蛋白質體資料,呈平面文本、XML、RDF/XML格式,視情況包含UNIPROT特徵註釋);在3D蛋白質空間中定義基因座;並基於背景突變率(參數p)計算3D耐受性計分(3DTS);朝向誤義變化的傾向(參數b)和調整因子,調整因子為純化選擇(purifying selection)強度的代理(參數s)。
在圖16的方法100的步驟110中,收到遺傳資料彙編。可以接收任何形式的遺傳資料,例如mRNA或cDNA序列,gDNA序列或蛋白質體序列。在一些具體例中,以檔案接收來自gnomAD的一組100,000+外顯子體和15000+全人類基因體。另外,可以納入特徵註釋。可以從Uniprot文本檔案獲取特徵註釋並與Gencode交叉引用。特徵包括二級結構元素(螺旋(HELIX)、β股(STRAND)、轉(TURN))和其他:結合位點(BINDING)、經修飾殘基(MOD_RES)、誘變(MUTAGEN)、區域(REGION)、模體(MOTIF)、核苷酸結合(NP_BIND)、天然變異體(VAR_SEQ)、活性位點(ACT_SITE)、金屬結合(METAL)、二硫鍵(DISULFID)、醣基化(CARBOHYD)、位點(SITE)、肽(PEPTIDE)、結構域(DOMAIN))、DNA結合(DNA_BIND)、重複序列(REPEAT)、信號(SIGNAL)、交聯(CROSSLNK)、脂化(LIPID)、前肽(PROPEP)、鈣結合(CA_BIND)、拓撲結構域(TOPO_DOM)、鋅手指(ZN_FING)、纏繞線圈(COILED)、組成偏差(COMPBIAS)、跨膜(TRANSMEM)、膜內(INTRAMEM)、轉運肽(TRANSIT)和非標準殘基(NON_STD)。
在圖16的方法100的步驟520中,定義了3D蛋白質空間中的基因座(較佳地包含活性位點、別位位點或表位)。蛋白質特徵周圍可以是1、2、3、4、5、6、7、8、9、10或更多埃的半徑距離定義了3D位點。在這個模型中評估由3D位點所定義的對應核苷酸(基因座)。
在圖16的方法100的步驟130中,將背景突變率併入模型中。大體上,假設在某一基因座處的所有突變都是中性的,則這就是基因座處的突變預期量。這是藉由將s固定=1,透過將全部蛋白質所觀察到的同義變異體數量擬合至同義變異體的預期數量而完成。也可以使用同義局部突變率,其估算整個基因體的異質性,並且如上計算,但僅在單一蛋白質鏈上進行評估。除了估算背景/中性突變率的這兩種方法之外,可以從非編碼變異估算全基因體基因間變異率或染色體特異性基因間變異率(進一步將在步驟150中計算的概度函數最大化)。另外,核苷酸-上下文依賴性估算(對稱跨過參考核苷酸的七聚體)可用來估算突變率異質性。
在圖16的方法100的步驟140中,將朝向誤義變異的傾向併入模型中。3D定義基因座中的每個參考核苷酸具有0、1、2或3個單核苷酸變異導致誤義變異體的機會,被定義為參數b。這是基於3D結構的蛋白質同功型、編碼此蛋白質同功型的轉錄本和編碼該基因座的轉錄本的參考基因體來確定。此參數經常規化為1。
在圖16的方法100的步驟150中,計算模型的最終概度函數。在此,觀察基因座l處的誤義突變的概率是由背景突變率(p)、朝向誤義變異的傾向(b)和作為純化選擇強度的代理的調整因子(s)定義:p l *s l *b l 。在此,每個人(即每個樣本)的定序資料被當成單獨的白努利試驗(即,存在或不存在導致誤義突變的變異體)。在特定的基因座處,所有參數在樣本中均是相同的,因此總計R個樣本產生二項分布,作為在基因座1處具有誤義突變的樣本數。使用卜瓦松近似,在單個基因座中觀察R個樣本中的至少一個誤義突變的概率是1-exp(-p l *s l *b l *R 1 )。由於每個基因座具有不同的b l R 1 參數,因此在透過K個基因座總計時(即,在3D特徵上總計)考慮這一點。因而,將這些K>1個基因座歸併成單一個值是異質參數的白努利試驗的總和,其可以使用Le Cam定理接著卜瓦松分布來推近。因此,模型的最終概度函數是:P(在R個樣本中K個基因座中觀察到的k個變異體|p l ,s,b l )=Poi(k, 1-exp(-p l s b l R l ))。註解:b l 參數是遺傳密碼子的函數,而p l 參數是習得的。透過設定s等於1(假設基因體的這些部分不是有害的)並且在這些限制因子下使概度函數最大化,使用基因體的中性部分來估算這個p l 突變率參數。
在圖16的方法500的步驟160中,計算觀察k個變異體的概率。這可以使用高-勒二氏求積法或透過重要性抽樣法來完成。概率函數由方程式P(k)= L(k|s)*P(s)ds表示。
在圖16的方法500的步驟170中,作為純化選擇強度的代理的調整因子被併入模型中(s)。在此,s=1的值表示變異體一如預期是基於背景突變率(即中性效應),而s=-0的值表示基因座完全耗盡變異(即,不耐受)。這 可以用貝氏格式表示為
在圖16的方法100的步驟180中,計算3DTS計分。這是在步驟170中計算的概率函數的後驗均數,並且被定義為E[P(s|k)]= sP(s|k)ds
在圖16的方法100的步驟150中,可以併入機器學習方法以系統地合併背景突變率。該方法可以應用於該方法的任何步驟,儘管在步驟130之後施行機器學習可能是有益的。在這個方面,在圖16的純粹說明性方法中,可以視情況在步驟150中應用機器學習(ML)演算法以建立模型。ML演算法可以包括採用深度學習演算法,諸如例如,使用神經網路來分析蛋白質模體、結構域,表位或結合位點的變異,並推斷其功能意義。
在一些具體例中,使用電腦模擬資料集訓練ML。例如,電腦模擬資料集可以包括蛋白質的深度突變掃描。例如,如實例部分中詳細描述的,可獲得PPARG的深度突變資料,其中蛋白質一級結構中的每個胺基酸殘基已被突變,並且經由功能測定闡明每個胺基酸的功能意義(參見Majithia et al.,Nat Genet.,48(12):1570-1575,2016)。如果可獲得的話,資料集可包括其他蛋白質的深度突變掃描,蛋白質為例如MAPK1/ERK2、p53、PTEN、TPMT、UBE2I、SUMO1、TPK1、CALM1、CALM2、CALM3、BRCA1或YAP65或其中的結構域。類似地,可設計功能分析以檢查有害誤義突變的效應,而不是其它標靶蛋白質的良性突變,並且如上文PPARG的情況那樣建構含有蛋白質的每個胺基酸的功能性註釋的資料集。接下來,將蛋白質標靶(例如PPARG)中各個胺基酸的3DTS計分與對其功能意義的深度突變資料進行比較,如藉由單變異體分析所測定的。視情況,來自諸如CADD的3D建模軟體的資料被整合到比較模型中。相對於可靠地識別不耐 受的位點,能夠將3DTS與現有計分(例如,CADD)相結合會增進模型的預測能力以及準確度。此外,透過ML的穩健整合,可以對廣泛標靶分子進一步細化模型的最終概度函數。
機器學習方法的結構將在下文詳細討論。
機器學習(ML)
不受限於單一具體例並且純粹為了說明起見,機器學習演算法被併入至現有方法中。例如,透過使s等於1(假設基因體的中性部分不是有害的),使用基因體的中性部分來估計該p l 突變率參數,並且在這些限制因子下推敲概度函數。在隨後的步驟中,可以例如使用諸如邏輯回歸的概率模型來驗證模型對測試資料集的預測能力。視情況,可以執行重抽樣以獲得模型的可能未來表現的無偏評估。ROC曲線的特徵,例如曲線下面積(也稱為c-指數)或來自諸如Wilcoxon-Mann-Whitney檢定的統計檢定的一致概率可以提供純粹預測辨別的良好總結度量。
不耐受區域的調節劑
本文所述的測定不耐性和三維耐受性計分的方法對於藥物設計和開發的研究特別有用。對突變不耐受的蛋白質結構域,特徵或區域提供潛在的藥物標靶。在某些具體例中,依據3DTS排在前1%、5%、10%或20%不耐性(包括其中的增量)內的任何結構域、特徵、區域或胺基酸可能是潛在的藥物標靶。在某些具體例中,藥物是特定蛋白質的抑制劑或拮抗劑;在其他具體例中,藥物是特定蛋白質的活化劑或促效劑。這些類型的拮抗劑或拮抗劑可用於治療性干預。在某些具體例中,藥物是抗體或其抗原結合片段,其充當拮抗劑或促效劑。在某些具體例中,拮抗劑或促效劑作用在不是蛋白質活性位點的位點,而不是蛋白質-蛋白質交互作用位點或蛋白質-核酸結合位點。
篩選的方法
在一些具體例中,本揭示內容是關於用於篩選結合及/或調節(例如,抑制)感興趣之標靶的化合物的系統和方法,感興趣之標靶為例如選自MAPK1/ERK2、p53、PTEN、TPMT、UBE2I、SUMO1、TPK1、CALM1、CALM2、CALM3、BRCA1或YAP65或其中的結構域。較佳地,經篩選的化 合物與蛋白質的結合口袋或抗原的表位交互作用及/或結合。在這個締合中重要的非共價分子交互作用包括氫鍵、凡得瓦爾交互作用、疏水性交互作用和靜電交互作用。
其次,交互作用的化合物能夠採取允許其直接與結合口袋(例如,位於活性位點或別位位點或表位內)締合的構形。雖然化合物的某些部分並不會直接參與這些締合,但實體的那些部分仍可能影響分子的整體構形。反過來說,這可能會對效力產生重大影響。這種構形要件包括化學實體相對於結合口袋的全部或一部分的整體三維結構和位向,或包含與結合口袋直接交互作用的若干化學實體的實體之官能團之間的間隔。
可以在實際合成與測試之前透過使用電腦建模技術來分析分子對結合口袋的潛在抑制或結合效應。若預定實體的理論結構暗示它與結合口袋之間的交互作用和締合不充分,則避免對實體進行測試。然而,若電腦建模表示強烈的交互作用,則可以合成該分子並測試其對結合口袋的結合能力。這可以透過使用本技藝中描述的分析來測試分子調節標靶的能力而實現。因此,可以避免合成無效的化合物。
結合口袋的潛在抑制劑可以透過一系列步驟進行計算評估,其中針對其與結合口袋的締合能力來篩選並選定化學實體或片段。
習於技藝者可以使用幾種方法中的一者針對與結合口袋締合的能力來篩選化學實體或片段。這個過程可以透過例如基於標靶的結構座標(例如,圖4A或4B)或由機器可讀儲存媒體產生的限定類似形狀的其他座標在電腦螢幕上對結合口袋進行目視檢查而開始。然後可以將所選擇的片段或化學實體定位在如上限定的結合口袋內的各種位向或對接其中。可以使用諸如CADDTM和PYMOLTM的軟體,然後透過標準分子力學力場進行能量最小化和分子動力學完成對接。
專門的電腦程式也可以協助選出片段或化學實體的過程。這些包括:GRID、MCSS、AUTODOCK、DOCK、ALCHEMYTM、LABVISIONTM、SYBYLTM、MOLCADDTM、LEAPFROGTM、MATCHMAKERTM、GENEFOLDTM與SITELTM、QUANTATM、CERIUS2TMX-PLOR、CNS、CATALYST、MODELLERTM、CHEMXTM、LUDITM、 INSIGHTTM、DISCOVERTM、CAMELEONTM與IDITISm;RASMOLTM;MOETM;MAESTRO;CHIME;MOIL;MACROMODELTM與GRASPTM;RIBBON;NAOMI;EXPLORER EYECHEMTM;UNIVISIONTM;MOLSCRIPTTM;CHEM 3DTM與PROTEIN EXPERTTM;CHAIN;SPARTAN、MACSPARTAN與TITANS;VMDTM;SCULPTTM;PROCHECKTM;DGEOM;REVIEW;HYPERCHEMTM;PKB;GROWMOL;MICE;MCPro;CAVEATTM;以及3D資料庫系統,諸如ISISTM
在選擇合適的化學實體或片段之後,就可以將它們組裝成單一化合物或複合體。組裝之前可以在電腦螢幕上顯示的三維影像上相對於標靶的結構座標目視檢查片段彼此之間的相關性。然後使用諸如CADDTM、PYMOLTM、QUANTATM或SYBYLTM等軟體進行手動建模。
不是以逐步方式繼續建構結合口袋的抑制劑,而是如上所述,可以整體或「從頭」使用空結合位點或視情況包括已知抑制劑或活化劑的一些部分來一次性設計一個片段或化學實體、抑制性或其他結合化合物。
在透過上述方法設計或選出化合物之後,可以藉由電腦評估測試並優化實體結合至結合口袋的效率。舉例而言,有效的結合口袋抑制劑較佳地必須在其結合狀態和游離狀態之間表現出相對小的能量差(即結合的變形能小)。因此,最有效的結合口袋抑制劑較佳地應被設計成具有不大於閾值的結合變形能,例如約10kcal/mol或甚至1kcal/mol。結合口袋抑制劑可以與超過一種在整體結合能上相似的構形與結合口袋交互作用。在那樣的情況下,結合的變形能被認為是游離實體的能量與當抑制劑結合至蛋白質時所觀察到之構形的平均能量之間的差異。
經設計或選擇作為與結合口袋結合的實體可以進一步予以計算優化,使得在其結合狀態下較佳地缺乏與標靶酶和與周圍水分子的排斥靜電交互作用。這種非互補的靜電交互作用包括排斥電荷-電荷、偶極-偶極和電荷-偶極交互作用。
本技藝中可用特定的電腦軟體來評估化合物變形能和靜電交互作用。為這種用途設計的軟體的實例包括例如AMBER、QUANTA和 AMSOL。例如,可以使用諸如具有IMPACT座標的INDIGO的Silicon Graphics工作站來實施這些程式。其他硬體系統和軟體套組對習於本技藝者來說是已知的。
本揭示內容實現的另一種方法是計算篩選可以全部或部分結合至人類結合口袋的化學實體或化合物的小分子資料庫。在這個篩選中,可以透過形狀互補性或透過估計的交互作用能來判斷這些實體與結合位點的擬合品質。
較佳地,結合結構域包含以下蛋白質的配位體結合結構域或別位結構域:MAPK1/ERK2、p53、PTEN、TPMT、UBE2I、SUMO1、TPK1、CALM1、CALM2、CALM3、BRCA1(較佳RING結構域)以及YAP65(較佳WW結構域)。
本揭示內容之篩選方法特別是用於鑑定對結合至結合配偶體(例如,拮抗劑或抗體)不耐受的標靶蛋白質(例如,酶或抗原)內的位點或模體,其允許篩選作為針對蛋白質的候選藥物的結合配偶體。然而,可以實施類似的方法來鑑定標靶缺乏可成藥性(例如,突變體蛋白質與野生型序列相差在於一或多個胺基酸,這使得它們相對於對野生型相對物有效的相同候選藥物而言是不可成藥的)。在後者的情況下,篩選方法可以節省藥物篩選過程中的寶貴時間和成本,並且可能提供靶向療法的替代途徑,例如使用遺傳方法,諸如RNAi或siRNA。
在一些具體例中,篩選候選藥物的方法可以使用下游方法進行驗證。例如,變異體標靶的功能解釋可能涉及建構由蛋白質標靶中所有可能的胺基酸置換組成的cDNA庫。然後將庫引入標靶細胞(例如,在PPARG的情況下,經編輯成缺乏內源性PPARG的人類巨噬細胞)並用促效劑刺激以觸發功能活性(例如CD36的表現,CD36是PPARG的標準標靶)。對細胞進行分選(例如,使用可以分離CD36+和CD36-細胞群的FACS抗體),並對轉錄體進行定序以確定每種變異體相對於測定的功能活性(例如CD36+活性)的分布。
數位處理裝置
3DTS可以經由各種平台、系統,媒體計算並傳達給用戶, 且包括數位處理裝置或其用途。在更多具體例中,數位處理裝置包括執行設備功能的一或多個硬體中央處理單元(CPU)或通用圖形處理單元(GPGPU)。在又更多具體例中,數位處理裝置還包含經配置為施行可執行指令的作業系統。在一些具體例中,數位處理裝置視情況連接到電腦網路。在更多具體例中,數位處理裝置視情況連接到網際網路,使得它擷取全球資訊網。在又更多具體例中,數位處理裝置視情況連接到雲端運算基礎設施。在其他具體例中,數位處理裝置視情況連接到內部網路。在其他具體例中,數位處理裝置視情況連接到資料儲存裝置。根據本文的說明,作為非限制性實例,合適的數位處理裝置包括伺服器電腦、桌上型電腦、膝上型電腦和筆記型電腦。
在一些具體例中,數位處理裝置包括經配置為施行可執行指令的作業系統。作業系統為例如包括程式和資料的軟體,其管理裝置的硬體並提供用於執行應用程式的服務。那些習於技藝者將認知到,作為非限制性實例,合適的伺服器作業系統包括FreeBSD、OpenBSD、NetBSD®、Linux、Apple® Mac OS X Server®、Oracle® Solaris®、Windows Server®以及Novell® NetWare®。那些習於技藝者將認知到,作為非限制性實例,合適的個人電腦作業系統包括Microsoft® Windows®,Apple® Mac OS X®,UNIX®與UNIX-1和UNIX類作業系統,諸如GNU/Linux®。在一些具體例中,作業系統由雲端運算提供。
在一些具體例中,該裝置包括儲存及/或記憶體裝置。儲存及/或記憶體裝置是用於暫時或永久地儲存資料或程式的一個或多個物理設備。在一些具體例中,該裝置是揮發性記憶體並且需要電力來維持儲存的資訊。在一些具體例中,該裝置是非揮發性記憶體,並且在數位處理裝置未通電時保留儲存的信息。在更多具體例中,非揮發性記憶體包括快閃記憶體。在一些具體例中,非揮發性儲存器包括動態隨機存取記憶體(DRAM)。在一些具體例中,非揮發性記憶體包括鐵電隨機存取記憶體(FRAM)。在一些具體例中,非揮發性記憶體包括相變隨機存取記憶體(PRAM)。在其他具體例中,該裝置是儲存裝置,作為非限制性實例,包括CD-ROM、DVD、快閃記憶體裝置、磁碟驅動器、磁帶驅動器,光碟驅動 器和基於雲端運算的儲存。在更多具體例中,儲存及/或記憶體裝置是諸如本文揭示之裝置的組合。
在一些具體例中,數位處理裝置包括用於向使用發送視覺資訊的顯示器。在一些具體例中,顯示器是液晶顯示器(LCD)。在更多具體例中,顯示器是薄膜電結晶液晶顯示器(TFT-LCD)。在一些具體例中,顯示器是有機發光二極體(OLED)顯示器。在其他不同具體例中,OLED顯示器是被動矩陣OLED(PMOLED)或主動矩陣OLED(AMOLED)顯示器。在一些具體例中,顯示器是電漿顯示器。在其他具體例中,顯示器是視訊投影機。在又其他具體例中,顯示器是與數位處理裝置(諸如VR耳機)連通的頭戴式顯示器。在更多具體例中,作為非限制性實例,合適的VR耳機包括HTC Vive、Oculus Rift、Samsung Gear VR、Microsoft HoloLens、Razer OSVR、FOVE VR、Zeiss VR One、Avegant Glyph、Freefly VR耳機及類似物。在又更多具體例中,顯示器是諸如那些本文揭示之裝置的組合。
在一些具體例中,數位處理裝置包括用於從使用接收資訊的輸入裝置。在一些具體例中,輸入裝置是鍵盤。在一些具體例中,輸入裝置是指示裝置,作為非限制性實例,包括滑鼠、軌跡球、軌跡墊、搖桿、遊戲控制器或記錄筆。在一些具體例中,輸入裝置是觸控螢幕或多點觸控螢幕。在其他具體例中,輸入裝置是用於捕獲語音或其他聲音輸入的麥克風。在其他具體例中,輸入裝置是攝影機或其他感測器以捕獲運動或視覺輸入。在更多具體例中,輸入裝置是Kinect、Leap Motion或類似物。在又更多具體例中,輸入裝置是諸如那些本文所揭示之裝置的組合。
參見圖7,在一個特定具體例中,例示性數位處理裝置1301經設計或以其他方式配置以確定三維耐受性計分。裝置1301可以調節本揭示內容之方法及系統的各種態樣,諸如例如確定整體突變率、變異體特異性突變率、確定誤義變異體、確定不耐受的胺基酸殘基、特徵、區域和結構域。在這個具體例中,數位處理裝置1301包括中央處理單元(CPU,這裡也稱為「處理器」和「電腦處理器」)1305,其可以是單核心或多核心處理器,或者是用於並行處理的複數個處理器。數位處理裝置1301還包括記憶體或記憶體位置1310(例如,隨機存取記憶體、唯讀記憶體、快閃記憶體)、 電子儲存單元1315(例如,硬碟)、用於與一或多個其他系統通信的通信介面1320(例如,網路配接器),以及周邊裝置1325(例如快取記憶體、其他記憶體、資料儲存及/或電子顯示配接器)。記憶體1310、儲存單元1315、介面1320和周邊裝置1325是透過諸如主機板的通信匯流排(實線)與CPU 1305通信。儲存單元1315可以是用於儲存資料的資料儲存單元(或資料儲存庫)。數位處理裝置1301可以藉助於通信介面1320可操作地耦合到電腦網路(「網路」)1330。網路1330可以是網際網路,網際網路及/或外部網路,或內部網路及/或外部網路,其與網際網路通信。在一些情況下,網路1330是電信及/或資料網路。網路1330可以包括一或多個電腦伺服器,其可以實現分散式運算,例如雲端運算。在一些情況下借助於裝置1301,網路1330可以實現點對點網路,其可以使耦合到裝置1301的裝置能夠充當客戶端或伺服器。
繼續參見圖7,CPU 1305可以執行一系列機器可讀指令,其可以具體表現在程式或軟體中。指令可以儲存在記憶體位置中,例如記憶體1310。指令可以被導向CPU 1305,CPU 1305隨後可以設計或以其他方式配置CPU 1305以實現本揭示內容之方法。由CPU 1305執行的操作的實例可以包括提取、解碼,執行和回寫。CPU 1305可以是電路的一部分,例如積體電路。裝置1301的一或多個其他組件可以被納入電路中。在一些情況下,電路是特殊應用積體電路(ASIC)或場域可程式閘陣列(FPGA)。
繼續參見圖13,儲存單元1315可以儲存檔案,例如驅動程式、庫和存檔的程式。儲存單元1315可以儲存使用者資料,例如使用者偏好和使用者程式。在一些情況下,數位處理裝置1301可以包括外部的一或多個額外資料儲存單元,例如位在透過內部網路或網際網路通信的遠距伺服器上。
繼續參見圖7,數位處理裝置1301可以透過網路1330與一或多個遠端電腦系統通信。例如,設備1301可以與使用者的遠端電腦系統通信。遠端電腦系統的實例包括個人電腦(例如,可攜式PC)、平板或平板PC(例如Apple® iPad、Samsung® Galaxy Tab)、電話、智慧型電話(例如,Apple® iPhone、Android-賦能裝置、Blackberry®),或個人數位助理。
本文所述的方法可以透過儲存在數位處理裝置1301的電子 儲存位置上的機器(例如,電腦處理器)可執行程式碼來實現,諸如例如在記憶體1310或電子儲存單元1315上。可以軟體形式提供機器可執行或機器可讀程式碼。在使用期間,程式碼可以由處理器1305執行。在一些情況下,程式碼可以從儲存單元1315檢索並儲存在記憶體1310上以供處理器1305迅速提取。在一些情況下,電子儲存單元1315可以排除在外,且機器可執行指令儲存在記憶體1310中。
非暫時性電腦可讀儲存媒體
在一些具體例中,本文揭示的平台、系統、媒體和方法包括編碼有程式的一或多個非暫時性電腦可讀儲存媒體,該程式包括可由視情況連線之數位處理裝置的作業系統執行的指令。在更多具體例中,電腦可讀儲存媒體是數位處理裝置的有形組件。在又更多具體例中,電腦可讀儲存媒體視情況可從數位處理裝置移除。在一些具體例中,作為非限制性實例,電腦可讀儲存媒體包括CD-ROM、DVD、快閃記憶體裝置、固態記憶體、磁碟驅動器、磁帶驅動器,光碟驅動器和基於雲端運算的系統和伺服器以及類似者。程式和指令可以永久地、基本上永久地、半永久地或非暫時地編碼於媒體上。
本揭示內容是有關用於確定蛋白質的一或多個胺基酸對變異的耐受性或不耐性的系統,其包含用於從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度的模組;用於使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布的模組;以及用於透過評估後驗分布均數來確定對蛋白質的3D特徵的選擇壓力的模組,其中該均數表示三維耐受性計分(3DTS),並且其中3DTS表示蛋白質的一或多個胺基酸對變異耐受或不耐受。
本揭示內容是有關用於確定蛋白質的成藥性的系統,其包含用於從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度的模組;用於使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布的模組;以及用於透過評估後驗分布均數來確定對蛋白質的3D特徵的選擇壓力的模組,其中該均數表示三維耐受性計分(3DTS),並且其中3DTS表示蛋白質的成藥性。
本揭示內容是有關用於確定變異體蛋白質的藥物抗性潛力的系統,其包含用於從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度的模組;用於使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布的模組;以及用於透過評估後驗分布均數來確定對蛋白質的3D特徵的選擇壓力的模組,其中該均數表示三維耐受性計分(3DTS),並且其中3DTS表明變異體蛋白質的藥物抗性潛力。
在一些具體例中,本文揭示的平台、系統、媒體以及方法包括至少一個電腦程式或其用途。電腦程式包括可在數位處理裝置的CPU中執行的一系列指令,其被編寫以執行指定的任務。電腦可讀指令可以實現為執行特定任務或實現特定抽像資料類型的程式模組,諸如功能、物件、應用程式介面(API)、資料結構與類似者。有鑑於本文提供的揭示內容,習於技藝者將認知到,電腦程式可以用各種語言的各種版本來編寫。
電腦可讀指令的功能可以根據需要在各種環境中加以組合或分布。在一些具體例中,電腦程式包括一系列指令。在一些具體例中,電腦程式包括複數個系列的指令。在一些具體例中,從一個位置提供電腦程式。在其他具體例中,從多個位置提供電腦程式。在不同具體例中,電腦程式包括一個或多個軟體模組。在不同具體例中,電腦程式部分或全部包括一或多個網路應用程式、一個或多個行動裝置應用程式、一個或多個獨立應用程式、一或多個網路瀏覽器插件、擴充、加載項或添加或其組合。
網路應用程式
在一些具體例中,電腦程式包括網路應用程式(web application)。有鑑於本文提供的揭示內容,習於技藝者將認知到,在不同具體例中,網路應用程式利用一或多個軟體框架和一或多個資料庫系統。在一些具體例中,基於諸如Microsoft®.NET或Ruby on Rails(RoR)的軟體框架創造出網路應用程式。在一些具體例中,網路應用程式利用一或多個資料庫系統,作為非限制性實例,包括關聯式資料庫、非關聯式資料庫、物件導向式資料庫、結合式和XML資料庫系統。在更多具體例中,作為非限制性實例,合適的關聯式資料庫系統包括Microsoft® SQL Server、mySQLTM以 及Oracle®。習於技藝者將認知到,在不同具體例中,網路應用程式以一或多種語言的一個或多個版本編寫。網路應用程式可以用一或多種標示語言、表示定義語言、客戶端腳本語言、伺服器端編碼語言、資料庫查詢語言或其組合來編寫。在一些具體例中,網路應用程式在某種程度上以諸如超文本標記語言(HTML)、可擴展超文本標記語言(XHTML)或可擴展標記語言(XML)的標記語言編寫。在一些具體例中,網路應用程式在某種程度上以諸如級聯樣式表(CSS)的表示定義語言編寫。在一些具體例中,網路應用程式在某種程度上以客戶端腳本語言編寫,例如異步Javascript和XML(AJAX)、Flash® Actionscript、Javascript或Silverlight®。在一些具體例中,網路應用程式在某種程度上以伺服器端編碼語言編寫,例如Active Server Pages(ASP)、ColdFusion®、Perl、JavaTM、JavaServer Pages(JSP)、Hypertext Preprocessor(PHP)、PythonTM、Ruby、Tcl、Smalltalk、WebDNA®或Groovy。在一些具體例中,網路應用程式在某種程度上以諸如結構化查詢語言(SQL)的資料庫查詢語言編寫。在一些具體例中,網路應用程式結合諸如IBM® Lotus Domino®的企業伺服器產品。在一些具體例中,網路應用程式包括媒體播放器元素。在更多不同實施例中,媒體播放器元件利用許多合適的多媒體技術中的一或多者,作為非限制性實例,包括Adobe® Flash®、HTML 5、Apple® QuickTime®、Microsoft®Silverlight®、JavaTM以及Unity®
參見圖14,在一個特定具體例中,應用程式提供系統包括由關聯性資料庫管理系統(RDBMS)1410提取的一個或多個資料庫1400。合適的RDBMS包括Firebird、MySQL、PostgreSQL、SQLite、Oracle Database、Microsoft SQL Server、IBM DB2、IBM Informix、SAP Sybase、SAP Sybase、Teradata以及類似者。在這個具體例中,應用程式提供系統進一步包含一或多個應用程式伺服器1420(諸如Java伺服器、.NET伺服器、PHP伺服器以及類似者)和一或多個網路伺服器1430(諸如Apache、IIS、GWS以及類似者)。網路伺服器視情況透過app應用程式編碼介面(API)1440公開一或多個網路伺服器。經由諸如網際網路的網路,系統提供基於瀏覽器及/或行動裝置本機用戶介面。
參見圖15,在一個特定具體例中,應用程式提供系統可選地 具有分布式之基於雲端的架構1500,並且包含彈性地加載平衡的,自動定比的網路伺服器資源1510和應用程式伺服器資源520還有同步複製的資料庫1530。
行動應用程式
在一些具體例中,電腦程式包括提供給行動數位處理裝置的行動應用程式。在一些具體例中,行動應用程式在其製造時被提供給行動數位處理裝置。在其他具體例中,經由本文所述的電腦網路將行動應用程式提供給行動數位處理裝置。
鑑於本文提供的揭示內容,使用技藝中已知的硬體、語言和開發環境,透過那些習於技藝者已知的技術創建行動應用程式。習於技藝者將認知到行動應用程式是用數種語言編寫的。作為非限制性實例,合適的程式語言包C、C++、C#、Objective-C、JavaTM、Javascript、Pascal、Object Pascal、PythonTM、Ruby、VB.NET、WML以及有或沒有CSS的XHTML/HTML或其組合。
合適的行動應用程式開發環境可從多個來源獲得。作為非限制性實例,商業上可用的開發環境包括AirplaySDK、alcheMo、Appcelerator®、Celsius、Bedrock、Flash Lite、.NET Compact Framework、Rhomobile與WorkLight Mobile Platform。其他開發環境可免費獲得,作為非限制性實例,包括Lazarus、MobiFlex、MoSync以及Phonegap。此外,行動設備製造商分發軟體開發商套件,包括作為非限制性實例的iPhone與iPad(iOS)SDK、AndroidTM SDK、BlackBerry® SDK、BREW SDK、Palm® OS SDK、Symbian SDK、webOS SDK以及Windows® Mobile SDK。
那些習於技藝者將認知到,可以使用若干商業論壇來分發行動應用程式,作為非限制性實例,包括Apple®AppStore、Google®Play、Chrome WebStore、BlackBerry®AppWorld、適用於Palm裝置的App商店、適用於webOS的App Catalog、適用於行動裝置的Windows® Marketplace、適用於Nokia®裝置的Ovi商店,Samsung® Apps和Nintendo® DSi商店。
分立(standalone)應用程式
在一些具體例中,電腦程式包括分立應用程式,該分立應用 程式是作為獨立電腦處理運行的程式,而不是現有處理的附加組件(例如不是插件)。那些習於技藝者將認知到經常編譯分立應用。編譯程式是一種電腦程式,它將用程式語言中編寫的原始碼轉換為二進制目標碼,例如組合語言或機器碼。作為非限制性實例,合適的編譯程式語言包括C、C++、Objective-C、COBOL、Delphi、Eiffel、JavaTM、Lisp、PythonTM、Visual Basic與VB.NET,或其組合。通常至少部分地執行編譯以創造可執行程式。在一些具體例中,電腦程式包括一或多個可執行的經編譯應用程式。
軟體模組
在一些具體例中,本文揭示的平台、系統、媒體和方法包括軟體、伺服器及/或資料庫模組,或其用途。鑑於本文提供的揭示內容,使用技藝所熟知的機器、軟體和語言,透過那些習於技藝者已知的技術創建軟體模組。本文揭示的軟體模組以多種方式實現。在不同實施例中,軟體模組包括檔案、節碼、程式設計物件、程式設計結構或其組合。在更多不同具體例中,軟體模組包括複數個檔案、複數個節碼、複數個程式設計物件、複數個程式設計結構或其組合。在不同具體例中,作為非限制性實例,一或多個軟體模組包括網路應用程式、行動應用程式和分立應用程式。在一些具體例中,軟體模組是在一個電腦程式或應用程式中。在其他具體例中,軟體模組是在多於一個電腦程式或應用程式中。在一些具體例中,軟體模組在一台機器上。在其他具體例中,軟體模組在超過一台機器上。在更多具體例中,軟體模組在雲端運算平台上。在一些具體例中,軟體模組在一個位置中的一或多台機器上。在其他具體例中,軟體模組在超過一個位置中的一或多台機器上。
資料庫
在一些具體例中,本文揭示的平台、系統、媒體和方法包括一或多個資料庫或其用途。鑑於本文提供的揭示內容,那些習於技藝者將認知到許多資料庫適合於儲存並且擷取蛋白質結構、胺基酸序列資料以及3DTS計分,不論是依據胺基酸、蛋白質特徵或整個蛋白質。在不同具體例中,作為非限制性實例,合適的資料庫包括關聯式資料庫、非關聯式資料庫、物件導向式資料庫、物件資料庫、實體關係模型資料庫、結合式資料 庫和XML資料庫系統。更多非限制性實例包括SQL、PostgreSQL、MySQL、Oracle,DB2和Sybase。在一些具體例中,資料庫是基於網際網路。在更多具體例中,資料庫是基於網路。在又更多具體例中,資料庫是基於雲端運算。在其他具體例中,資料庫基於一或多個本地電腦儲存設備。
實例
以下說明性實例代表本文所述軟體應用程式,系統和方法的具體例,並不意味著以任何方式進行限制。
實例1-確定三維耐受性計分(3DTS) 序列以及蛋白質結構資料
一組7,794個經深度定序的不相干全人類基因體(來自先前工作的延伸),以及來自gnomAD(gnomad(點)roadinstitute(點)org/)的123,136個外顯子體和15,496個全人類基因體被用於開發。將所有資料對齊或提升至人類參考hg38。如果它們落在擴展信賴區域內(如前所述),則納入來自我們集的變異體,而如果它們被註釋為「通過(PASS)」,則納入gnomAD變異體檢出,並且可以被提升到hg38。總檢出計數是從gnomAD或來自內部資料集的序列覆蓋檔案推得。可以從個別Uniprot文本檔案獲取結構與功能特徵註釋(uniprot(點)組織;下載:2018年4月)並與Gencode交叉引用。特徵包括二級結構元素(螺旋(HELIX)、β股(STRAND)、轉(TURN))和其他:結合位點(BINDING)、經修飾殘基(MOD_RES)、誘變(MUTAGEN)、區域(REGION)、模體(MOTIF)、核苷酸結合(NP_BIND)、天然變異體(VAR_SEQ)、活性位點(ACT_SITE)、金屬結合(METAL)、二硫鍵(DISULFID)、醣基化(CARBOHYD)、位點(SITE)、肽(PEPTIDE)、結構域(DOMAIN))、DNA結合(DNA_BIND)、重複序列(REPEAT)、信號(SIGNAL)、交聯(CROSSLNK)、脂化(LIPID)、前肽(PROPEP)、鈣結合(CA_BIND)、拓撲結構域(TOPO_DOM)、鋅手指(ZN_FING)、纏繞線圈(COILED)、組成偏差(COMPBIAS)、跨膜(TRANSMEM)、膜內(INTRAMEM)、轉運肽(TRANSIT)和非標準殘基(NON_STD)。在uniprot(點)org/help/sequence_annotation提供了這些特徵的更具體定義。致病性變異資料是源自Clinvar和HGMD。選定的Clinvar變異體被標記為(可能-)致病性並且具有1個或更多個星號。選定的 HGMD變異體標記為DM和高。過濾掉與在Clinvar中用1或多個星號註釋為良性的變異體重疊的任何致病性變異體。吾人使用轉錄本和Gencode版本26的基因模型。吾人使用成對整體序列比對來將Uniprot胺基酸序列與Gencode轉錄本序列比對(在將它們轉譯成胺基酸之後)。成對比對演算法用Blosum62矩陣參數化,空位開放罰分為5,而空位延伸罰分為1。排除了映射到超過300個核苷酸的極大特徵,因為它們將不會提供有關局部結構的資訊。
如果來自蛋白質資料庫(PDB;www(點)rcsb(點)org)的X射線結構資料在Uniprot文本檔案中鏈接,便使用它們。吾人使用成對整體序列比對方法將Uniprot胺基酸序列與從大分子結晶學訊息檔案(mmCIF)檢索而來的胺基酸序列比對。比對參數如上文設定。定義時,使用mmCIF檔案中第一作者定義的生物組件。在未定義的情況下,使用列出的第一個生物組件。在BRCA1的RING結構域的情況下,吾人使用最接近如mmCIF檔案定義的平均數的NMR結構。Pymol分子視覺化系統(The PyMOL Molecular Graphics System,Version1.8Schrödinger,LLC.)被用來鑑定經定義的Uniprot特徵的5Å內的任何殘基(也稱為「3D位點」)。在SWISSMODEL 48的情況下,從SWISSMODEL儲庫(UniprotKB發布2018_05)下載人類蛋白質體元資料和座標資料,且若QMEAN Z計分>-4則將其納入。模型中的二級結構用DSSP-2.0.4(Touw et al.,Nucleic Acids Res 43,D364-8,2015)定義;經由FTP伺服器cmbi(點)ru(點)nl/pub/software/dssp/)可取得且用二級結構元素定義3D位點。
變異耗盡以及3D耐受性計分的定量
用獨立的白努利試驗來為基因體基因座處的變異建模。在個體j的基因座i處,以概率p發生了變異。吾人假設某些變異體與生命不相容,在這種情況下,樣本中缺少了變異體。因此,在個體的基因座處觀察變異體的複合概率是p*s,其中p對變異體不具有特異性,而是基因體範圍的突變率,且s對變異體具特異性,對概率解釋為變異體是致命的。如果s=0,則基因體基因座完全耗盡變異體,而若s=1,則所有變異體一如預期以通用突變率p存在。該模型不適用於常見變異體,但描述了罕見的從頭突變的過程。特別地,這個模型忽略了:個體的遺傳和相關性、因為共享單倍體的 變異體連鎖、對位基因頻率和接合子型式。我們估計s的值,因為s是基因體基因座上純化選擇強度的代理。
遺傳染色體上的核苷酸可以變成另外三個核苷酸,並非所有核苷酸都會導致非同義突變。吾人透過用三個非遺傳對位基因中的任何一個會導致胺基酸改變的概率(b)使其擴展而將此納入我們的模型中。b的值衍生自遺傳密碼子和轉錄本的胺基酸序列。利用這個擴展,突變的概率是p*s*b。
為了使效力最大化,吾人依據樣本並且依據由蛋白質結構誘導的基因座集來聚集變異體。因此,吾人寫出在R名個體中在給定基因座處觀察到至少一個變異的概率:1-exp(-p*s*b*R)。後者接著為二項分布的卜瓦松近似:在具有相同參數的R個白努利試驗中成功次數之和是二項式分布,如果R為大,則可以用卜瓦松分布充分地推近。若吾人將「至少一」表示為「非零」,則遵循方程式。
為了依據不同的基因座聚集,吾人將每個基因座視為具有參數1-exp(-p*s*b*R)的白努利試驗。然而,這些參數對於每個基因座是不同的;因此,用卜瓦松二項式分布描述了成功試驗次數的總和。卜瓦松二項式分布的期望值是其參數之和(在我們的例子中是總和(1-exp(-p*s*b*R)),其密度和分布函數可以用卜瓦松分布予以推近(Le Cam的定理)或使用傅立葉轉換來計算。為求效率,我們使用卜瓦松近似。
例如,在給定的基因座中,群體中的被檢出位置的數量可能不同,因此對於參數R需要索引l。每個基因座具有不同的b l R l 參數,因此將K>1個基因座聚集成單一單位是白努利試驗異質性參數總和。所以吾人在Le Cam定理之後再次用卜瓦松分布逼近。吾人模型的最終概度函數是P(在R個樣本的K個基因座中觀察到k個變異體|p l ,s,b l )=Poi(k, 1-exp(-p l s b l R l )),其中p l 是參考基因體和樣本之間的預期突變數量,並假設基因座處的突變為中性;b l 是核苷酸改變多可能導致誤義變異,且s l 是調整因子;s l 是感興趣的參數,如果在基因座處發生的所有變異都是有害的,則在其兩個極值中任一者為0,或者如果沒有則為1。
上述模型有兩個擾亂參數b l p l 。吾人從遺傳密碼子和閱讀 框架知道了b l 。吾人由兩種方法得知p l -(1)來自染色體特異性非編碼變異資料(「恆定突變率」);以及(2)從核苷酸上下文依賴性染色體特異性非編碼變異資料(「七聚體率」)。對於這些資料,吾人應用先前描述的模型並找到將概度最大化的值為p l 。為此,我們將s設為1,假設這些區域中的突變不會帶來有害性,並編碼我們的限制因子,吾人想要s量化感興趣的編碼區域與中性區域之間的差異。吾人透過對稱橫跨基因座的7聚體來劃分所有基因間基因座以計算核苷酸上下文依賴性估計。然後我們找到每個七聚體所特定的最大概度估計。應該注意的是,98.5%的3D位點不包含常見的誤義變異體(AF>0.05),並且不會受到併入對位基因頻率項的影響-這是支持使用上下文(k-員)變異期望值的模型的理由。
認知到問題是一個維度的,數值積分(高-勒二氏求積法和重要性抽樣法)用於對具有均勻U(0,1)先驗的s計算出後驗均數。因此,提供了s的後驗均數的下游分析作為3D耐受性計分(3DTS)。
在計算DTS計分時,主要使用恆定突變率,除非在比較改變這些參數的效果時(如圖4D中所示)還有當描述圖4E中的最佳3DTS模型時。在圖4A、圖4B與圖4F的情況下,使用僅使用二級結構元素的「結構」特徵集。在圖2A、圖2B、圖3A、圖3B、圖7、圖9A與圖9B的情況下,使用了所有特徵。最佳模型由最高皮爾森r2值定義,該值顯示關聯性方面的正確方向性並且具有顯著的皮爾森和史皮爾曼p值(p<0.05)(表1)。在TPMT的情況下,其不符合皮爾森顯著性的p值閾值,顯示顯著史皮爾曼p值的模型被認為是最佳的。
吾人在上文描述了假設參數p和s在一組基因座和一組R個樣本中觀察至少一個非同義變異體的概率。吾人繼續透過從可取得資料估算s。吾人採用兩種方法:首先,吾人假設整體全基因體恆定值為突變率參數p,而在第二種方法中我們局部估計各個蛋白質的p。
假設全基因體突變率
估計整體突變率(或恆定突變率)的一種方法是透過將所有經映射蛋白質所觀察到的同義變異體數量用數字擬合至s固定=1的同義變異體數量的預期值。估算值為2.5x10-6並視其為一個常數。吾人透過假設在0 和1之間的均勻事前以數字計算剩餘單一s參數的事後分布。在方程式中: P(在R個樣本的K個基因座中觀察k個變異體|s)=卜瓦松分布(k,K(1-exp(-p*s*b*R))的總和),概度函數使用Le Cam的近似P(s)=1,對0-1均勻事後
P(s|在R個樣本的K個基因座中觀察k個變異體)=概度*事前/對0-1(概度*事前)積分,事後
吾人依據其預期值(均數)來總結s的事後分布,吾人將其分配給每個蛋白質特徵並將其稱為3DTS計分。
局部估算各個蛋白質的突變率
第一種方法不能準確地反映局部突變率,因為生物學突變率在基因體區域(例如,不同的位置)會有不同,並且因為變異體發現率也會改變,較大的集定義了更高的突變率,尤其是對於罕見的變異體來說。在此,吾人從整個蛋白質鏈的資料估算局部突變率參數,然後如上所述進行。
歸納s之事後分布的其他方法:
s的事後分布均數可以被解釋為非同義變異體是致命的概率估算值。然而,在蛋白質特徵較小且資料可用性較低的情況下,由於對0-1選擇了均勻事前,因此趨於0.5。
利用低維度,吾人使用數值求積來評估積分。使用jdistlib庫評估統計分布。(jdistlib(點)sourceforge(點)net/)。
功能性資料以及致病性計分
PPARG的功能性活體外資料來自Majithia等人(Majithia(同上)。透過過miter(點)broadinstitute.org/(資料版本1.0)獲得的綜合功能計分。只有那些與單核苷酸變異引起的胺基酸改變相關的計分會被納入該分析中。
BRCA1的RING結構域的功能性活體外資料來自Starita等人(同上)。若可取得,便使用來自HDR補救分析(rescue assay)的已知同源性定向修復(HDR)補救計分,否則就使用預測值。在與3DTS比較時僅使用與由單核苷酸變異引起的胺基酸改變相關的那些計分。
可得到下列額外蛋白質的深度突變掃描資料: MAPK1/ERK2(Brenan et al.,Cell Rep 17,1171-1183,2016)、p53(Kato et al.,PNAS USA 100,8424-9,2003)、PTEN與TPMT(Matreyek et al.,Nat Genet 50,874-882,2018)、UBE2I、SUMO1、TPK1、CALM1、CALM2與CALM3(Weile et al.,Mol Syst Biol 13,957,2017)以及BRCA1的兩個單一蛋白質結構域(RING結構域)和YAP65(WW結構域)(Fowler et al.,Nat Methods 7,741-6,2010;Starita et al.,Genetics 200,413-22,2015)。
關於資料來源,MAPK1/ERK2資料來自Brenan等人(同上)的補充表S1。DOX誘導後ERK2突變體豐度的log-fold2變化相對於由SNV引起的誤義變異體在早期時間點的突變體豐度,是針對胺基酸位點取平均,然後在3D位點上取平均以供與3DTS相比較。PTEN和TPMT資料來自Matreyek等人(同上)的補充資料集3和4。「計分」列在每個3D位點上取平均並與3DTS進行比較。UBE2I、SUMO1、TPK1、CALM1和CALM2資料來於參考資料Weile等人(上文)的資料集EV1。將「joint.score」列在誤義變異體的胺基酸位置上取平均,然後在3D位點上取平均並與3DTS相比較。由於p53的定量資訊無法由原始出版物以殘基/特徵水平檢索到,因此未對p53進行計分。同樣,CALM3沒有計分,因為沒有可用於蛋白質的結構;由於只有有限的資料可用於這些結構域,因此沒有對BRCA1的RING結構域和YAP65中的WW結構域進行計分。
關於比較分析(例如,將本揭示內容的系統和方法與現有技藝方法進行比較),方法資料來自dbNSFPv3.5a(Dong等人(同上);Liu et al.,Hum Mutat 37,235-41,2016)除了EVmutation資料以外(參見參見Hopf等人,同上),其來自(markers(點)hms(點)Harvard(點)edu/evmutation/human_proteins.html)。使用的資料欄位是:「CADD_phred」(CADD)、「MutationAssesaor_score」(MUTATIONACCESSOR)、「fathmm-MKL_coding_score」(FATHMM-MKL)、「integratdd_fitCons_score」(FITCONS)、「DANN_score」(DANN)、「MetaSNM_score」(METASVM)、「MetaLR_Score」(METALR)、「GenoCanyon_score」(GENOCANYON)、「Eigen-PC-phred」(EIGEN)、「M-CAP_score」(M-CAP)、「REVEL_score」(REVEL)、 「phyloP100way_vertebrate」(PHYLOP_vertebrate)「phyloP20way_mammalian」(PHYLOP_mammalian)「phastCons100way_vertebrate」(PHASTCONS_vertebrate)「phastCons20way_mammalian」(PHASTCONS_mammalian)、「GERP++_RS」(GERP)、「SiPhy_29way_logOdds」(SIPHY)與「prediction_epistatic」(EVMUTATION)。導致誤義變異體的計分在核苷酸(適用時)取平均,然後是胺基酸位置,最後是3D位點。透過顯示胺基酸位置的最低3DTS值的特徵來定義3D位點,並且對可用資料產生關聯性。
變異體距離資料以及分析
使用Pymol進行基於距離的定量。致病性變異資料來自Clinvar(2016年7月)和HGMD(2016年第一季,R1)。選定的Clinvar變異體必須被標記為(可能)致病性並且具有1個或更多個星號。選定的HGMD變異體必須標記為DM與高。過濾掉與在Clinvar中被註釋為良性和一或多個星號的變異體重疊的任何致病性變異體。如果覆蓋總標準蛋白質長度的至少70%並且存在至少一種致病性誤義變異體,則該結構被納入這個分析中。
藥物配位體資料以及分析
使用一組定義為經FDA批准藥物的治療標靶的結構。治療標靶取自Santos等人(Nat Rev Drug Discov 16,19-34,2017)的補充資訊。在667個非冗餘Uniprot條目中,361個包含一些結構資訊而100個包含蛋白質,其中由Uniprot定義的結構的序列長度覆蓋了標準Uniprot序列的至少80%。使用Gencode版本26將這100個蛋白質中的94個映射到基因體。檢查這94個蛋白質在結構中是否存在對應的結合治療分子或類似物;若未發現,則含有這些分子的同源結構被疊加,產生具有其對應「結合」治療分子的48種結構(關於這些結構及其「結合」配位體的列表,參見表2)。配位體結合位點定義為任何結合治療分子殘基的5Å內的那些殘基。在重疊3D位點的情況下,將最低3DTS值分配給這些殘基中的每一者。
解剖學治療學化學(ATC)分類系統資料以及分析
使用Santos等人(同上)的補充資訊將藥物-配位體分子(如上述藥物配位體資料分析部分中所鑑定的)分配給它們的ATC代碼。對於每個 結構來說,針對所有結合藥物納入最高ATC代碼的非冗餘列表。在發現到沒有ATC代碼的情況下,根據適應症(如果可用)或基於間接影響推斷出代碼。在結構具有多個有助於配位體結合位點的鏈的情況下,中位數計分用於定義耐受性。
別位資料集與分析
已下載別位資料庫(版本3.06)的XML資料並使用慣用Python腳本進行解析。如果字段「Organism_Latin」等於「Homo sapiens」,則使用資料,任何別位計數(「Allosteric_Activator_Count」、「Allosteric_Inhibitor_Count」或「Allosteric_Regulator_Count」)的值至少為1,且「Site_Detail」包含至少一種確定的胺基酸。在得到的五十四個條目中,映射了五十個結構,其中每個別位殘基具有一個3DTS值。在重疊3D位點的情況下分配最低的3DTS值。這些結構用於下游分析(關於這些結構和其結合之分子的列表,參見表2)。
活性位點資料集與分析
關於在藥物配位體資料集和別位資料集中發現的那些結構,納入蛋白質活性位點的非冗餘列表。基於Uniprot中定義的「ACT_SITE」特徵(即「ACT_SITE」3D位點)的5Å上下文來定義活化位點。
獨有、非重複三D不耐受位點分析
使用來自藥物配位體資料集和別位資料集的結構。如果3DTS值在第20百分位數全蛋白質體內(3DTS值<0.33),則3D位點被定義為不耐受。如果在鏈內至少有一個殘基重疊,則連接3D不耐受位點。關於同價同作用(homomeric)鏈,如果在初級結構中並無共有殘基,則認為兩個不耐受位點是獨特的。如果代表相同蛋白質的鏈在獨特的,不重疊的3D不耐受位點的數量上不同,則選擇最大數量的3D不耐受位點。
統計
使用Python中的Seaborn(seaborn(點)pydata(點)ort)與Matplotlib(matplotlib(點)org)庫來作圖。使用Python中的NUMPY(www(點)numpy(點)org)和SCIPY(www(點)scipy(點)org)庫與Scala的自家統計軟體來計算統計學。
為了要瞭解結構蛋白質體中的變異,吾人首先鑑定了與4,390個Uniprot條目有關的26,593個結構,其符合我們的入選標準:具有確定解析度的x射線結晶結構,最小鏈長度大於10個胺基酸且Uniprot標準序列和PDB結構的比對匹配為至少80%同一性。鑑於4,390個蛋白質的可能結構的多樣性,吾人選擇具有Uniprot特徵計分最高的結構作為代表。總的來說,吾人將139,535個Uniprot特徵映射到結構,並藉由為每個特徵定義出一個5埃半徑空間來取得三維上下文;以下稱為「3D位點」。我們從146,426名個體的外顯子體分析中鑑定了這些蛋白質的481,708個誤義變異體。從這些有脈絡的資料,吾人構建了一個說明三維蛋白質結構中功能限制因子的模型(圖2)。如圖2A的步驟201所示,來自基因體和外顯子體定序計畫的誤義變異資料2011(誤義突變顯示為圓圈)被映射到它們相應的標準胺基酸序列2012。創造出蛋白質結晶結構2013與相應的胺基酸序列2014之間的映射(包括蛋白質特徵2015-2010)。在圖2B的步驟202中,然後將取自Uniprot的特徵映射到3D結構。使用這些特徵2021、2022和2023作為參考點,構建3D上下文並取得對應的遺傳資料。根據這個資訊生成每個特徵區域的3DTS。可以對3DTS計分進行排序,並且可以將對應的耐受性等級(或計分)投射回3D結構203。限制因子(不耐受)的強度反映在三維耐受性計分(3DTS)中,其在3D位點的層次上總結了觀察和預期之間在遺傳變異上的差異。
關於4,390個蛋白質的代表性結構集,吾人說明圖3A中3DTS值的分布。總共2,642個蛋白質具有至少一個定義在第20百分位數處的不耐受的3D位點(3DTS=0.33,觀察到70%耗盡超過預期的誤義變異)。最不耐受的3D位點對應於DNA結合位點、鋅手指和交聯,而最耐受的3D位點包括轉運肽、非標準殘基(即硒代半胱胺酸)和前肽。結構特徵(螺旋、轉、股)顯示中位3DTS值,接近中位全蛋白質體。如圖3B中所示。3DTS值的精確解釋需要評估不耐受相對耐受3D位點中胺基酸改變的功能性結果。然而,功能性測試全蛋白質體的挑戰在於需要細胞分析,即疾病和基因相關,穩健和可擴展-這是一個嚴重的限制條件,說明了迄今為止,哺乳動物基因中所有可能的誤義變異體的實驗特徵分析已被限制於一種完整蛋白質PPARG,以及BRCA1的兩個單一蛋白結構域(RING結構域)和YAP65(WW結構域)。因 此,吾人試圖針對這些蛋白質和結構域的可取得功能性資料來驗證3DTS。在YAP65中的WW結構域中,位置功能性資料不容易取得,且該結構域代表一組僅25個胺基酸位置;因此並未進行評估。
實例2-確定人類PPARG的三維耐受性計分(3DTS)並且與活體外結果的比較
PPARG是噻唑烷二酮類藥物的藥物標靶並且是用於治療糖尿病的新型部分PPARG調節劑。PPARG例示了即使在與疾病有關的經充分研究的蛋白質中對新鑑定的變異體進行分類的挑戰。在最初的工作中,PPARG變異體的功能性解釋需要構建由蛋白質中所有可能的胺基酸取代組成的cDNA庫。將該庫引入經編輯成缺乏內源性PPARG的人類巨噬細胞中,並用PPARG促效劑刺激以觸發CD36(PPARG的典型標靶)表現。對經分選的CD36+和CD36-細胞群進行定序以確定每種PPARG變異體相對於CD36活性的分布。吾人誤義變異資料在依據3DTS定義的3D位點和Majithia等人描述的功能性計分之間有強烈關聯性(r2=0.47,p=0.0001)。具體而言,圖4A中顯示的活體外計分和圖4B中顯示的電腦模擬計分都將DNA結合和配位體結合位點識別為對誤義變異不耐受,而鉸鏈結構域反映了對誤義變異的耐受性增加,如圖4A與圖4B所示。5Å圖5C上下文也顯示出比線性特徵(0Å上下文)更強的關聯性,圖5A,3Å上下文圖5B或7Å上下文圖5D。另外,Majithia等人表明他們的轉殖庫可能沒有檢測到編碼變異的所有可能功能性影響,這暗示如圖4C中所示的活體外和電腦模擬讀值之間的一致性r2=0.47應該被解釋為保守的。
實例3-帶有現存深度突變掃描資料的其他蛋白質分析
將實例2(上文)中實施的方法應用於其他可獲得現有突變掃描資料的感興趣蛋白質。這些包括調鈣蛋白1(CALM1)、調鈣蛋白2(CALM2)、促分裂原活化蛋白激酶1(MAPK1或ERK2)、過氧化體增殖物活化受體γ(PPARG)、磷酸酶和張力蛋白同源物(PTEN)、小泛素樣修飾因子1(SUMO1)、噻胺焦磷酸激酶1(PK1)、硫嘌呤s-甲基轉移酶(TPMT)和泛素綴合酶E2 I(UBE2I)。結果顯示在圖4D中,顯示所有結構的皮爾森r2值的分布(CALM1為0至0.72、CALM2為0至0.54、ERK2為0.02至0.33、PPARG為0.17至0.41、PTEN為0.21至0.39、SUMO1為0至0.83、TPK1為0.13至0.22、TPMT 為0.09至0.17、UBE2I為0至0.62),在四種不同的3DTS條件下覆蓋至少70%的標準同功型:兩組不同的3D特徵和兩種不同的變異率模型。重要的是,相同蛋白質的不同結構在關聯性數值上有別-中位r2和分布在條件和基因之內和之間往往都趨向為大。這些變異可能由於各種原因而發生,例如替代蛋白質交互作用配偶體、蛋白質的不同結構覆蓋、不同的結晶條件等。吾人推測3DTS可用於鑑定特定蛋白質的功能相關構型;也就是說具有多種可用結構的蛋白質,最佳關聯性可能代表最簡化且功能合理的結構。有關最佳結構的資料見表1。
接下來,將3DTS的功能性預測能力與21個公開的計分進行比較:CADD(Kircher et al.,Nat Genet 46,310-5,2014)、SIFT(Kumar et al.,Nat Protoc 4,1073-81,2009)、PROVEAN(Choi et al.,PLoS One 7,e46688,2012)、FATHMM(Shihab et al.,Hum Mutat 34,57-65,2013)、MUTATIONASSESSOR(Reva et al.,Genome Biol 8,R232,2007)、FATHMM-MKL(Shihab et al.,Bioinformatics 31,1536-43,2015)、FITCONS(Gulko et al.,Nat Genet 47,276-83,2015)、DANN(Quang et al.,Bioinformatics 31,761-3,2015)、MEYASVM/METALR(Dong et al.,Hum Mol Genet 24,2125-37,2015)、GENOCANYON(Lu et al.,Sci Rep 5,10576,2015)、Eigen-PC(Ionita-Laza et al.,Nat Genet 48,214-20,2016)、M-CAP(Jagadeesh et al.,Nat Genet 48,1581-1586,2016)、REVEL(Ionnidis et al.,Am J Hum Genet 99,877-885,2016)、PHYLOP(Pollard et al.,Genome Res 20,110-21,2010)、PHASTCONS(Siepel et al.Genome Res 15,1034-50,2005)、GERP++7、SIPHY(Garber et al.,Bioinformatics 25,i54-62,2009)、EVMUTATION(Hopf et al.,Nat Biotechnol 35,128-135,2017)。這些不同的計分在一系列假設下進行訓練,最常見的是基因間保守、共同進化和致病性。總的來說,3DTS在3D空間中與這些其他方法執行起來相當或更好(圖4E)。具有深度突變篩選資料的多種蛋白質的可用性也支持更為正式地評估改變3D位點大小的效果並確認使用5Å半徑的普遍有效性。
接下來,上述評估擴展到1,026個蛋白質的大型功能性讀值資料庫,其中可獲得淺度突變資訊。4,428個3D功能位點(帶有實驗測試的「功能喪失」變異體者)的中位3DTS計分低於蛋白質體背景(Kolmogorov-Smirnov雙側檢定p值=3.7E-42),其中可能還包括未描述的功能性位點。重要的是,在整體基因必需性的任何層面上,功能性位點比蛋白質其餘部分在系統上更為受到限制(圖4F)。總之,結果顯示,電腦模擬3DTS值提供功能性預測,無需進行廣泛又耗時的活體外分析和專用功能性讀值。鑑於缺乏經過深度突變掃描和功能性測試的人類蛋白質,這一點至關重要。
實例4-測定人類BRAC1的三維耐受性計分(3DTS)並且與活體外結果比較
另一個實例使用BRCA1;這是一項有益的練習,因為該方法針對僅一個結構域(RING)進行了驗證。RING結構域僅代表了標準BRCA1蛋白質的5%;然而,58%的致病性誤義取代發生在這個結構域內。參見Starita等人(Genetics 200,413-22,2015)。在最初的工作中,RING結構域的功能性分析需要測試兩種功能:噬菌體展示分析中的BRCA1 E3連接酶活性,以及酵母雙雜合分析中與BARD1的交互作用。將這兩種分子功能組合成更大的生物學功能(圖6A中以圖像表示)、同源定向修復,導致r2=0.32,p=0.033的一致性,如圖6C所示,具有3DTS的評定值(圖6B中以圖像表示)。鋅結合位點在這個結構中表現出最大的不耐性。總之,電腦模擬3DTS值概括了活體外功能性資料,無需進行需要廣泛又耗時的活體外分析和專用功能讀值的複雜分析。
實例5-使用三維耐受性計分(3DTS)測定致病性變異體
預測在功能上不耐受的3D位點以及關於這些位點的變異體分布可能具有若干實際應用。例如,不耐受位點內的變異體可能帶有表現型結果(即致病性)。因此,吾人旨在建立對變異的3D不耐性以及變異體的致病性之間的相關性。吾人鑑定了具有至少一種致病性誤義變異體(全部3081個變異體)和至少一種普遍(對位基因頻率>1%)誤義變異體(全部373個變異體)的192種結構。圖7中所示為在最不耐受的位點之外,以每埃為基礎的豐度線。線701表示致病性誤義變異體相對於普遍(對位基因頻率>1%)誤義變異體的豐度。測量最不耐受特徵的最接近原子與每個變異體之間的距離。在這個組中,相對於普遍變異體的最大致病性豐度出現在最不耐受的位點(2.3倍豐度)內,並且在最不耐受的位點703的~6-14Å內看到另一個豐度峰。
由於普遍誤義變異體的稀缺性,吾人還使用同義變異體作為中性變異的代理,其將可用結構的數量增加至438,並將致病性誤義變異體的數量增加至9,531個,槓桿作用總共26,229個同義變異體。線702表示致病性誤義變異體相對同義變異體的豐度。在這個組中,觀察到致病性變異體的最大豐度距離最不耐受的位點~4-9Å。每種變異體類型相對於距離的原始計數(raw counts)示於圖8A-8C中。非常接近距離處的計數數量減少可能與小 於凡德瓦耳接觸的距離的空間限制有關。
致病性變異的豐度隨距離而減少。致病性變異體的距離映射顯示致病性與良性變異體的最高豐度接近並且在依據3DTS定義的最不耐受特徵內。
實例6-使用三維耐受性計分(3DTS)確定可成藥標靶
本工作的另一個應用可能涉及藥物標靶位點的優先次序。目前,以蛋白質結構為基礎的方法慣常用於藥物開發的所有階段,從標靶鑑定到前導優化(lead optimization)。所有基於結構的開發方法是對標靶蛋白質或複合體的3D結構的了解,因為標靶的結構和動力學決定了它所結合的配位體。人類特異性不耐受位點的特徵分析和對遺傳變異的耐受性可用於解析結構資訊以便定義活性位點,但也可用於定義能夠支持別位交互作用的功能上重要的形貌明顯位點。
吾人分析了102個蛋白質的3D不耐受特徵,其包括具有結合配位體的已知藥物標靶以及具有已知別位位點的蛋白質。對應蛋白質帶有一個獨特的非重疊不耐受3D位點的中位數量(範圍0-6)。總體而言,18個蛋白質缺乏不耐受位點,而32個蛋白質具有超過一個獨特的不耐受位點。活性位點最為受限多,其次是別位和配位體結合口袋,如圖9A中所示。別位位點的計分較低與現有知識一致,表示這些位點傾向於受到較低的演化保守壓力甚過其正位對應物。吾人還觀察到治療劑類別的耐受和不耐受結合位點的分布不均勻,如圖9B中所示。
圖9A顯示了說明活性位點、別位位點、藥物配位體結合位點和背景的分群(binned)3DTS計分。每個位點類型的總和是1。在圖10A-10D中提供了分級計數。圖9B顯示了按治療區域分組的耐受和不耐受的藥物配位體結合位點的計數。在此,耐受定義為3DTS>0.5;大約第五十百分位數計分),而不耐受如正文中所述定義(3DTS<0.33;約第二十百分位數計分);這些3DTS值之間的藥物結合位點不包括在(b)中。例如,抗腫瘤和免疫調節劑偏好靶向不耐受位點。可以利用許多藥物標靶中多個不耐受3D位點和結構域的鑑定來進行合理的藥物設計和藥物篩選結果的分析。
靶向此等蛋白質之可成藥蛋白質標靶以及藥劑的綜合列表提供於表2中,並包括但不限於,例如下列蛋白質或其中的結合口袋(包含例如活性位點、抑制性位點、別位位點、表位)、CDK6;DHFR;VDR;SERPINC1;PYGL;MTOR;SRC;FBP1;AMD1;DPEP1;DHFR;MAPK14;IMPDH2;BCHE;DCK;ME2;KIF11;MME;ITGAL;MAOB;MAOB;MAP2K2;MAP2K1;CASP7;PTPN1;PKM;BRAF;GCK;PYGM;DPP4;PDK2;ALB;MAOA;HBA2;HBB;XDH;CA1;CASP1;EGFR;PRPS1;PANK3;APEX1;NT5C2;TYMS;AR;FKBP1A;PKLR;HDAC4;CDK4;MAOB;PDE10A;PDE5A;C5;RXRA;PPARG;MAP2K1;ITGA2B;ITGB3;CA6;CHKB;LTA4H;CA4;TYMS;ABL2;CSNK2A1;PDPK1;PDE4D;ADA;ITGAV;ITGB3;MIF;CHEK1;REN;CA2;SERPINC1;TTR;TTR;CA7;FDPS;MAPK8;UGDH;CDK2;DDC;CDC34;CYP19A1;GLS;CA3;DHODH;HDAC3;HDAC1;PLG;PRMT3;ACHE;CCR5;CHRM2;FDPS;COMT;PDE4B;PDE9A;AGTR1;CA14;HDAC8;PIK3CD;F2;PTGS2;CRBN;CSNK1A1;以及SLC6A4。這些蛋白質(包括其變異體)的完整名稱/序列可自UNIPROT資料庫取得。
實例7-3DTS以及CADD計分的比較以供確定PPARG中的突變耐受性胺基酸
圖11顯示了使用活體外實驗資料(實例2)或CADD計分的3DTS和方法之間的比較。圖11A-11F顯示了PPARG的3DTS、CADD和活體外功能性資料的比較。圖11A-11C代表特徵層面比較,而圖11D-11F代表胺基酸位置層面比較。CADD和3DTS顯示在特徵層面(圖11C,r2=0.05)和胺基酸層面(圖11F,r2=0.015)兩種方法之間的關聯性低,暗示兩種度量獲取不同類型的資訊。當相較於胺基酸層面計分(圖11E,r2=0.06)來比較特徵層面計分(圖11A,r2=0.16)時,在3DTS和活體外功能性資料之間看到關聯性強烈(圖11B,r2=0.47)。CADD在胺基酸位置層面顯示關聯性低(圖11D,r2=0.16),並且在較高CADD計分下無法區分功能性和非功能性變異。CADD計分低於15顯示許多良性(非功能性)變異體,如透過預期功能性活體外分析所確定(平均計分<-2被認為是不耐受的)。然而,隨著CADD計分增加,區分這些功能性和非功能性PPARG變異體的能力變得更加困難。3DTS值顯示與活體外資料的關聯性強烈。
由於3DTS和CADD計分之間實際上有關聯性,吾人試圖將這兩個度量結合起來,以增進對變異體功能性結果的預測。當與3DTS結合使用時,吾人證明增進CADD計分>15。圖12A和12B顯示,與單獨的CADD計分(圖12B,r2=0.14)相比,3DTS增進了PPARG的功能性和良性誤義變異的辨別力(圖12A,r2=0.22)。使用基於排比的逆變換平均計分從訓練集確定經驗確定的平均位置CADD計分的修飾符。顯示測試集的結果,與使用經修飾的計分觀察到的活體外功能性計分的關聯性增加。
CADD計分計算
如果單一核苷酸變異導致胺基酸改變,則納入組合註釋依賴性耗盡(CADD)計分,一種用於評比遺傳變異體的有害性的工具。就圖11A-11F,CADD計分在核苷酸取平均,然後在密碼子(胺基酸位置)取平均,最後在3DTS定義的特徵取平均。功能性活體外計分在胺基酸位置取平均,然後在3DTS定義的特徵取平均。3DTS計分進行基於排比的逆變換;在特徵內的胺基酸位置也被分配經轉換的3DTS計分。
關於圖12A和12B,保留大於15的平均CADD計分(331個胺 基酸位置),並將該集隨機分成訓練集(165個胺基酸位置)和測試集(166個胺基酸位置)。根據經轉換的3DTS計分對CADD計分進行經驗修改。與平均功能性活體外資料的最佳線性關聯性確定了CADD修改參數。然後用這些參數修改測試集中的CADD計分,並與未修改的CADD計分進行比較。
儘管本文已經顯示和描述了本發明的較佳具體例,但是對於那些習於技藝者顯而易見的是,這些具體例僅以舉例的方式提供。在不偏離本發明的情況下,那些習於技藝者現將想到許多變化、改變和取代。應理解的是,本文所述的本發明具體例的各種替代方案可用於實施本發明。
本揭示內容通篇中引用了各種專利案,專利申請案和出版品。這些專利案、專利申請案、取得的資訊(例如,由PUBMED、UNIPROT、PDB或EBI登錄號識別的)和出版品的揭示內容以其整體透過引用的方式併入到本揭示內容中,以便更全面地描述揭示之前為那些習於技藝者所知的現有技術狀態。以下電子文件(包括原始碼)以其整體透過引用的方式併入本文:doi(點)org/10.5281/zenodo.1311198;和github(點)com/pityka/3DTS,可以使用protc(點)labtelenti(點)org的互動式瀏覽器查看。
在所引用的專利案、專利申請案和出版物與本揭示內容之間有任何不一致的情況下,由本揭示內容決定。

Claims (115)

  1. 一種包含電腦可執行指令的電腦可讀媒體,當由處理器執行時,其使得處理器進行用於確定蛋白質的一或多個胺基酸對變異的耐受性或不耐性的一個方法或一組步驟,該方法或該等步驟包含a)從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度;b)使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布;c)透過評估後驗分布均數來確定對蛋白質的3D特徵的選擇壓力,其中該均數表示三維耐受性計分(3DTS);以及d)依據3DTS確定蛋白質的一或多個胺基酸對變異的耐受性。
  2. 一種包含電腦可執行指令的電腦可讀媒體,當由處理器執行時,其使得處理器進行用於確定蛋白質的成藥性的一個方法或一組步驟,該方法或該等步驟包含a)從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度;b)使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布;c)透過評估後驗分布均數來確定對蛋白質的3D特徵的選擇壓力,其中該均數表示3DTS;以及d)若蛋白質中的一或多個胺基酸依據3DTS經確定對變異不耐受,則確定該蛋白質為可成藥(druggable)。
  3. 一種包含電腦可執行指令的電腦可讀媒體,當由處理器執行時,其使得處理器進行用於確定變異體蛋白質的藥物抗性潛力的一個方法或一組步驟,該方法或該等步驟包含a)從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型的特徵來確定在給定選擇壓力下觀察誤義變異的概度;b)使用概度函數並且基於選擇壓力假設均勻先驗來確定後驗分布;以及c)透過評估後驗分布均數來確定對變異體蛋白質的3D特徵的選擇壓力,其中該均數表示3DTS;並且 d)若蛋白質中的一或多個胺基酸依據3DTS經確定為對變異耐受,則確定該變異體蛋白質具有藥物抗性潛力。
  4. 如請求項1至3中任一項之電腦可讀媒體,其中概度函數包含(a)背景突變率、(b)造成胺基酸改變之單一核苷酸改變的分數、(c)具有檢出核苷酸之個體或樣本的數量,以及(d)調整因子,其估算值充作耐受性計分。
  5. 如請求項4之電腦可讀媒體,其中背景突變率是使用遺傳資料以及參考基因體來估算。
  6. 如請求項4之電腦可讀媒體,其中背景突變率是使用同義變異率來估算。
  7. 如請求項4之電腦可讀媒體,其中背景突變率可以是使用基因間變異率來估算。
  8. 如請求項7之電腦可讀媒體,其中基因間變異率可以全基因體估算。
  9. 如請求項8之電腦可讀媒體,其中基因間變異率可以是特別針對染色體來估算。
  10. 如請求項4至9中任一項之電腦可讀媒體,其中背景突變率可能以每個核苷酸為基礎基於核苷酸的上下文來改變。
  11. 如請求項8之電腦可讀媒體,其中核苷酸上下文包含七聚體,其代表參考核苷酸上游與下游的3個核苷酸。
  12. 如請求項5之電腦可讀媒體,其中造成胺基酸改變之單一核苷酸改變的分數包括造成顯著生理化學改變的胺基酸改變。
  13. 如請求項4之電腦可讀媒體,其中背景突變率是將s參數固定為1透過將概度最大化來估算。
  14. 如請求項4之電腦可讀媒體,其中概度函數評估為對應於3D特徵之基因座的白努利試驗的總和。
  15. 如請求項14之電腦可讀媒體,其中每個白努利試驗表示在特定基因座/核苷酸處的個體變異資訊。
  16. 如請求項15之電腦可讀媒體,其中白努利試驗的總和產生包含卜瓦松近似的二項式分布。
  17. 如請求項16之電腦可讀媒體,其中卜瓦松近似使用Le Cam的近似估 算在3D特徵中觀察至少一個誤義突變的概率。
  18. 如請求項1之電腦可讀媒體,其中概度函數與事前分布組合以產生表示在3D基因座上選擇壓力之概率的事後分布。
  19. 如請求項18之電腦可讀媒體,其中事後分布均數表示3D耐受性計分(3DTS)。
  20. 如請求項1之電腦可讀媒體,其中蛋白質結構或模型是由X射線結晶結構、NMR結構、CRYOEM結構代表。
  21. 如請求項1之電腦可讀媒體,其中蛋白質結構或模型是由相似性模型、同源性模型、全始模型代表。
  22. 如請求項1至21中任一項之電腦可讀媒體,其中不耐受特徵就蛋白質體來說是由介於所有3DTS計分之第0百分位數與第20百分位數的3DTS值所定義;或其中耐受特徵就蛋白質體來說是由介於所有3DTS計分的第50百分位數與第100百分位數的3DTS值所定義。
  23. 如請求項22之電腦可讀媒體,其中蛋白質體包含至少1000個蛋白質,尤其是至少5000個蛋白質,更尤其是至少10000個蛋白質,特別至少20000個蛋白質,以及具體而言個體之編碼蛋白質的蛋白質體的所有蛋白質。
  24. 如請求項1至19中任一項之電腦可讀媒體,其中不耐受特徵定義為蛋白質內排序最低的3DTS值;或其中耐受特徵定義為蛋白質內排序最高的3DTS值。
  25. 如請求項24之電腦可讀媒體,其中排序最低的3DTS值包括蛋白質內所有排序之3DTS值的後面25%,尤其是後面10%,更尤其是後面5%以及特別是後面2%。
  26. 一種用於確定蛋白質的一或多個胺基酸對變異耐受或不耐受的系統,包含a)用於在選擇壓力下從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型之特徵確定觀察誤義突變之概度的模組;b)用於使用概度函數並且對選擇壓力假設均勻事前來確定事後分布的模組;以及 c)透過評估事後分布均數,用於確定對蛋白質之3D特徵的選擇壓力的模組,其中均數表示三維耐受性計分(3DTS)且其中3DTS表示蛋白質的一或多個胺基酸對變異耐受或不耐受。
  27. 一種用於確定蛋白質之成藥性的系統,包含a)用於在選擇壓力下從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型之特徵確定觀察誤義突變之概度的模組;b)用於使用概度函數並且對選擇壓力假設均勻事前來確定事後分布的模組;以及c)透過評估事後分布均數,用於確定對蛋白質之3D特徵的選擇壓力的模組,其中均數表示三維耐受性計分(3DTS)且其中3DTS表示蛋白質的成藥性。
  28. 一種用於確定變異體蛋白質之藥物抗性潛力的系統,包含a)用於在選擇壓力下從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型之特徵確定觀察誤義突變之概度的模組;b)用於使用概度函數並且對選擇壓力假設均勻事前來確定事後分布的模組;以及c)透過評估事後分布均數,用於確定對變異體蛋白質之3D特徵的選擇壓力的模組,其中均數表示三維耐受性計分(3DTS)且其中3DTS表示變異體蛋白質的藥物抗性潛力。
  29. 一種用於確定蛋白質之一或多個胺基酸的三維耐受性計分(3DTS)的方法,包含a)在選擇壓力下從複數名個體的遺傳變異資料以及3D蛋白質結構及/或模型之特徵確定觀察誤義突變之概度;b)使用概度函數並且對選擇壓力假設均勻事前來確定事後分布;以及c)透過評估事後分布均數,確定對蛋白質之3D特徵的選擇壓力,其中均數包含3DTS。
  30. 如請求項29之方法,其中概度函數含有定義背景突變率之項、造成胺基酸改變之單一核苷酸改變的分數、帶有檢出核苷酸之個體數,以及調整因子,其估算值充作耐受性計分。
  31. 如請求項29之方法,其中背景突變率是使用遺傳資料以及參考基因體來估算。
  32. 如請求項29之方法,其中背景突變率是使用同義變異率來估算。
  33. 如請求項29之方法,其中背景突變率是使用基因間變異率來估算。
  34. 如請求項33之方法,其中基因間變異率可以全基因體估算。
  35. 如請求項33之方法,其中基因間變異率可以是針對染色體來估算。
  36. 如請求項29至35中任一項之方法,其中背景突變率可能以每個核苷酸為基礎基於核苷酸的上下文來改變。
  37. 如請求項30之方法,其中核苷酸上下文可以是七聚體,其代表參考核苷酸上游與下游的3個核苷酸。
  38. 如請求項30之方法,其中造成胺基酸改變之單一核苷酸改變的分數可能取決於可造成顯著生理化學改變的胺基酸改變而受到調節。
  39. 如請求項30之方法,其中背景突變率是將s參數固定為1透過將概度最大化來估算。
  40. 如請求項39之方法,其中概度函數評估為對應於3D特徵之基因座的白努利試驗的總和。
  41. 如請求項40之方法,其中每個白努利試驗表示在特定基因座/核苷酸處的個體變異資訊。
  42. 如請求項40或41之方法,其中白努利試驗的總和產生包含卜瓦松近似的二項式分布。
  43. 如請求項42之方法,其中卜瓦松近似使用Le Cam近似估算在3D特徵中觀察至少一個誤義突變的概率。
  44. 如請求項43之方法,其中概度函數與事前分布組合以產生表示在3D基因座上選擇壓力之概率的事後分布。
  45. 如請求項44之方法,其中事後分布均數可表示3D耐受性計分(3DTS)。
  46. 如請求項29之方法,其中蛋白質結構或模型代表X射線結晶結構、NMR結構、CRYOEM結構或其組合。
  47. 如請求項29之方法,其中模型可代表同源性模型、全始模型代表或 其組合。
  48. 如請求項29至47中任一項之方法,其中不耐受特徵就蛋白質體來說是由介於所有3DTS計分之第0百分位數與第20百分位數的3DTS值所定義。
  49. 如請求項29至47中任一項之方法,其中不耐受特徵定義為蛋白質內最低的3DTS值。
  50. 如請求項29之方法,其中步驟(a)包含確定同義整體突變率,定義為參數p,其為在某一個基因座上的預期突變數,假定基因座處的所有突變均為中性。
  51. 如請求項29之方法,其中步驟(a)包含確定同義局部突變率,其估算基因體的異質性,但僅針對蛋白質的單一胺基酸鏈來進行評估。
  52. 如請求項29之方法,進一步包含確定基因間變異率。
  53. 如請求項52之方法,其中基因間變異率包含整體基因間變異率或染色體特異性基因間變異率。
  54. 如請求項29之方法,其中步驟(b)包含確定朝向誤義變異的傾向。
  55. 如請求項54之方法,其中就核苷酸來說,基於蛋白質同功型,針對3D結構、編碼這個蛋白質同功型的轉錄本以及針對該基因座編碼這個轉錄本之參考基因體,朝向誤義變異的傾向經確定為造成蛋白質之誤義變異體的單一核苷酸變異的統計概率(參數b)。
  56. 如請求項29之方法,其中步驟(c)包含確定對誤義變異的耐受性,其是由事後分布均數所定義,這是透過使用高-勒二氏求積法的數值積分來計算或透過重要性抽樣法來估算。
  57. 如請求項56之方法,其中步驟(c)包含透過合併事前分布與概度函數來確定事後分布均數,其假設所有誤義變異體為耐受且設為均勻分布,概度函數定義為一系列白努利試驗的總和。
  58. 如請求項29之方法,其中步驟(c)包含施行機器學習演算法。
  59. 一種用於鑑定蛋白質之成藥性的方法,包含:a)確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;b)針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體 特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料集中之觀察到的誤義突變概率;以及c)若變異體特異性突變率小於整體突變率,則確定蛋白質的一或多個胺基酸對變異不耐受;並且d)若蛋白質的一或多個胺基酸經確定對變異不耐受,則該蛋白質被鑑定為可成藥。
  60. 如請求項59之方法,其中基於以排序為主的度量或百分位數度量,胺基酸經確定為不耐受。
  61. 如請求項59之方法,其中基於以排序為主的度量或百分位數度量是相對於個體之包含至少5K蛋白質、至少10K蛋白質、至少15K蛋白質的蛋白質體或整個蛋白質體來進行確定。
  62. 如請求項59之方法,其中對變異不耐受之蛋白質的一或多個胺基酸包含結合口袋。
  63. 如請求項59之方法,其中該結合口袋包含活性位點、別位位點、表位、輔因子結合位點,或輔成基結合位點,或其組合。
  64. 如請求項59之方法,其中該藥物包括小分子或大分子。
  65. 如請求項64之方法,其中該小分子為具有分子量小於5kDa之選自下列的化合物:胺基酸、核酸、LNA、PNA、醣、糖、脂質、類固醇、生物金屬、維生素、萜類或其聚合物。
  66. 如請求項64之方法,其中大分子為具有分子量大於5kDa之選自下列的化合物:抗體、激素、生長因子、細胞激素或其組合。
  67. 如請求項59之方法,其中可成藥蛋白質為酶、抗原或受體。
  68. 如請求項59之方法,其中該藥物為酶活化劑或抑制劑;別位調節劑;促效劑、部分促效劑或拮抗劑;或抗體。
  69. 一種鑑定變異體蛋白質之藥物抗性潛力的方法,包含e)確定整體突變率,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;f)針對編碼蛋白質之一或多個胺基酸之核酸的誤義突變,確定變異體特異性突變率,其中該變異體特異性突變率是發生在樣本核苷酸資料 集中之觀察到的誤義突變概率;以及g)若變異體特異性突變率小於整體突變率,則確定蛋白質的一或多個胺基酸對變異不耐受;並且h)相較於野生型蛋白質中的一或多個胺基酸,若變異體蛋白質的一或多個胺基酸經確定為對變異體耐受,則該蛋白質被鑑定為具有藥物抗性。
  70. 如請求項69之方法,其中該藥物包括小分子或大分子。
  71. 如請求項69之方法,其中該小分子為小於5kDa之選自下列的化合物:胺基酸、核酸、LNA、PNA、醣、糖、脂質、類固醇、生物金屬、維生素、萜類或其聚合物。
  72. 如請求項69之方法,其中大分子為具有分子量大於5kDa之選自下列的化合物:抗體、激素、生長因子、細胞激素或其組合。
  73. 如請求項69之方法,其中變異體蛋白質對抗生素、抗癌劑、外來化合物、拮抗劑、促效劑或別位調節劑有抗性潛力。
  74. 如請求項69之方法,其中變異體蛋白質對結合抗體或配位體有抗性潛力。
  75. 如請求項1之方法,其中蛋白質中的一或多個胺基酸包含複數個胺基酸。
  76. 如請求項75之方法,其中複數個胺基酸包含蛋白質特徵或結構域。
  77. 如請求項76之方法,其中蛋白質特徵是選自由以下組成之列表:活性位點、金屬結合位點、化學結合位點、DNA結合位點、核苷酸結合位點、鋅手指、鈣結合位點、跨膜結構域、膜內結構域、脂化位點、醣基化位點、磷酸化位點、纏繞線圈、α螺旋以及β股。
  78. 如請求項74至77中任一項之方法,其中整體突變率是編碼蛋白質、蛋白質之內含子序列、蛋白質之3’未轉譯區域、蛋白質之5’未轉譯區域或其任何組合之核苷酸的突變率。
  79. 如請求項74至78中任一項之方法,其中整體突變率為整個人類基因體的突變率。
  80. 如請求項74至79中任一項之方法,其中整體突變率介於約1x10-6與 5x10-6之間。
  81. 如請求項74至80中任一項之方法,其中整體突變率為約2.5x10-6
  82. 如請求項74至81中任一項之方法,其中樣本核苷酸資料集包含來自至少1,000名不同個體之編碼蛋白質的至少1,000個不同核酸序列。
  83. 如請求項74至82中任一項之方法,其中樣本核苷酸資料集包含來自至少10,000名不同個體之編碼蛋白質的至少10,000個不同核酸序列。
  84. 如請求項74至83中任一項之方法,其中核苷酸資料集包含DNA。
  85. 如請求項74至84中任一項之方法,包含若變異體特異性突變率少於整體突變率的2倍,則確定蛋白質的一或多個胺基酸對變異不耐受。
  86. 如請求項74至85中任一項之方法,包含若變異體特異性突變率少於整體突變率的5倍,則確定蛋白質的一或多個胺基酸對變異不耐受。
  87. 如請求項74至86中任一項之方法,其中誤義突變為一種推測突變。
  88. 如請求項74至87中任一項之方法,進一步包含為蛋白質圖式提供對變異不耐受之蛋白質之胺基酸的視覺指示。
  89. 如請求項88之方法,其中蛋白質圖式為三維。
  90. 如請求項88之方法,其中蛋白質圖式可圍繞著x、y或z軸旋轉。
  91. 如請求項88之方法,其中蛋白質圖式可跨過x、y或z軸反映。
  92. 一種調節劑,其結合至依據請求項29至96之方法對變異不耐受之蛋白質的任一或多個胺基酸。
  93. 如請求項92之調節劑,其中調節劑為抗體或其抗原結合片段。
  94. 如請求項92之調節劑,其中調節劑結合在非活性位點或別位位點。
  95. 一種電腦實施的系統,其包含含有至少一個處理器的數位處理裝置、一個經組態以實施可執行指令的作業系統、一記憶體,以及一包括可由該數位處理裝置執行以創造應用程式的指令的電腦程式,該應用程式包含:a)確定整體突變率的軟體模組,其中整體突變率是蛋白質之任一特定核苷酸改變的一個預期概率;b)確定編碼該蛋白質之一或多個胺基酸之核酸的誤義突變的變異體特異性突變率的軟體模組,其中該變異體特異性突變率是發生在樣本 核苷酸資料集中之觀察到的誤義突變概率;以及c)軟體模組,若該變異體特異性突變率少於整體突變率,確定蛋白質的一或多個胺基酸對變異不耐受。
  96. 如請求項95之系統,其中蛋白質的一或多個胺基酸包含複數個胺基酸。
  97. 如請求項95之系統,其中複數個胺基酸包含蛋白質特徵或結構域。
  98. 如請求項95之系統,其中蛋白質特徵或結構域是選自由以下組成之列表:活性位點、金屬結合位點、化學結合位點、DNA結合位點、核苷酸結合位點、鋅手指、鈣結合位點、跨膜結構域、膜內結構域、脂化位點、醣基化位點、磷酸化位點、纏繞線圈、α螺旋以及β股。
  99. 如請求項95至98中任一項之系統,其中整體突變率是編碼蛋白質、蛋白質之內含子序列、蛋白質之3’未轉譯區域、蛋白質之5’未轉譯區域或其任何組合之核苷酸的突變率。
  100. 如請求項95至99中任一項之系統,其中整體突變率為整個人類基因體或人類基因體之蛋白質編碼部分的突變率。
  101. 如請求項95至100中任一項之系統,其中整體突變率介於約1x10-6與5x10-6之間。
  102. 如請求項95至101中任一項之系統,其中整體突變率為約2.5x10-6
  103. 如請求項95至102中任一項之系統,其中樣本核苷酸資料集包含來自至少1,000名不同個體之編碼蛋白質的至少1,000個不同核酸序列。
  104. 如請求項95至103中任一項之系統,其中樣本核苷酸資料集包含來自至少10,000名不同個體之編碼蛋白質的至少10,000個不同核酸序列。
  105. 如請求項95至104中任一項之系統,其中核苷酸資料集包含DNA。
  106. 如請求項95至105中任一項之系統,包含若變異體特異性突變率少於整體突變率的2倍,則確定蛋白質的一或多個胺基酸對變異不耐受。
  107. 如請求項95至106中任一項之系統,包含若變異體特異性突變率少於整體突變率的5倍,則確定蛋白質的一或多個胺基酸對變異不耐受。
  108. 如請求項95至107中任一項之系統,其中誤義突變為一種推測突變。
  109. 如請求項95至108中任一項之系統,進一步包含為蛋白質圖式提供對變異不耐受之蛋白質之胺基酸的視覺指示。
  110. 如請求項109之系統,其中蛋白質圖式為三維。
  111. 如請求項109之系統,其中蛋白質圖式可圍繞著x、y或z軸旋轉。
  112. 如請求項109之系統,其中蛋白質圖式可跨過x、y或z軸反映。
  113. 一種拮抗劑,其結合至依據請求項95至107之系統對變異不耐受之蛋白質的任一或多個胺基酸。
  114. 如請求項113之拮抗劑,其中拮抗劑為抗體或其抗原結合片段。
  115. 如請求項113之拮抗劑,其中拮抗劑結合在非活性位點或別位位點。
TW107127673A 2017-08-09 2018-08-08 蛋白質之結構預測 TW201933375A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201762543253P 2017-08-09 2017-08-09
US62/543,253 2017-08-09

Publications (1)

Publication Number Publication Date
TW201933375A true TW201933375A (zh) 2019-08-16

Family

ID=63405417

Family Applications (1)

Application Number Title Priority Date Filing Date
TW107127673A TW201933375A (zh) 2017-08-09 2018-08-08 蛋白質之結構預測

Country Status (3)

Country Link
US (1) US20200176077A1 (zh)
TW (1) TW201933375A (zh)
WO (1) WO2019032918A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113299346A (zh) * 2021-04-01 2021-08-24 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质
TWI766575B (zh) * 2021-02-05 2022-06-01 國立陽明交通大學 提升構音患者語音轉換效益之系統及方法

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210121087A1 (en) * 2018-05-02 2021-04-29 Massachusetts Institute Of Technology System and methods for model-based noninvasive estimation and tracking of intracranial pressure
WO2022159153A1 (en) * 2021-01-25 2022-07-28 The Cleveland Clinic Foundation Methods for identification of essential sites in a protein structure
EP4416735A1 (en) * 2021-10-13 2024-08-21 Invitae Corporation High-throughput prediction of variant effects from conformational dynamics

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4946778A (en) 1987-09-21 1990-08-07 Genex Corporation Single polypeptide chain binding molecules
US6080560A (en) 1994-07-25 2000-06-27 Monsanto Company Method for producing antibodies in plant cells
WO2001035316A2 (en) * 1999-11-10 2001-05-17 Structural Bioinformatics, Inc. Computationally derived protein structures in pharmacogenomics
CA2512693A1 (en) * 2003-01-08 2004-07-29 Xencor, Inc. Novel proteins with altered immunogenicity
CA2548482A1 (en) * 2003-12-08 2005-06-23 Xencor, Inc. Protein engineering with analogous contact environments
JP4643713B2 (ja) * 2006-11-22 2011-03-02 株式会社インシリコサイエンス タンパク質立体構造処理装置、タンパク質立体構造処理方法、および、プログラム
US9782417B2 (en) 2011-06-16 2017-10-10 Presidents And Fellows Of Harvard College Methods of increasing satellite cell proliferation with kinase inhibitors
US10392669B2 (en) * 2014-01-27 2019-08-27 Dna-Seq, Inc. Methods and systems for determination of an effective therapeutic regimen and drug discovery

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI766575B (zh) * 2021-02-05 2022-06-01 國立陽明交通大學 提升構音患者語音轉換效益之系統及方法
CN113299346A (zh) * 2021-04-01 2021-08-24 腾讯科技(深圳)有限公司 分类模型训练和分类方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
US20200176077A1 (en) 2020-06-04
WO2019032918A1 (en) 2019-02-14

Similar Documents

Publication Publication Date Title
Kurki et al. FinnGen provides genetic insights from a well-phenotyped isolated population
TW201933375A (zh) 蛋白質之結構預測
Chiang et al. The impact of structural variation on human gene expression
US20200027557A1 (en) Multimodal modeling systems and methods for predicting and managing dementia risk for individuals
Tetreault et al. Whole-exome sequencing as a diagnostic tool: current challenges and future opportunities
US20170286594A1 (en) Genetic Variant-Phenotype Analysis System And Methods Of Use
AU2019380342A1 (en) Machine learning disease prediction and treatment prioritization
McArthur et al. Quantifying the contribution of Neanderthal introgression to the heritability of complex traits
Gupta et al. Nuclear genetic control of mtDNA copy number and heteroplasmy in humans
US20190228836A1 (en) Systems and methods for predicting genetic diseases
CN102985927A (zh) 利用关于基因组模型的数据集成的途径识别算法(paradigm)
AU2019255773A1 (en) Method and system for rapid genetic analysis
Nabais et al. An overview of DNA methylation-derived trait score methods and applications
AU2021270453A1 (en) Methods and systems for machine learning analysis of single nucleotide polymorphisms in lupus
Gunasekara et al. Systemic interindividual epigenetic variation in humans is associated with transposable elements and under strong genetic control
Fratev et al. Combination of genetic screening and molecular dynamics as a useful tool for identification of disease-related mutations: ZASP PDZ domain G54S mutation case
US20230162815A1 (en) Methods and systems for accurate genotyping of repeat polymorphisms
CA3227737A1 (en) Method and system for newborn screening for genetic diseases by whole genome sequencing
Alviggi et al. Genetic variants of gonadotropins and their receptors could influence controlled ovarian stimulation: IVF data from a prospective multicenter study
Tafazoli et al. Pharmacogenomic biomarkers of follicle-stimulating hormone receptor malfunction in females with impaired ovarian response—a genetic survey
Lei et al. Essential role of multi-omics approaches in the study of retinal vascular diseases
Sabik et al. A computational approach for identification of core modules from a co-expression network and GWAS data
Hawkes et al. Identification and analysis of individuals who deviate from their genetically-predicted phenotype
Hakkinen et al. Functional characterization of six SLCO1B1 (OATP1B1) variants observed in Finnish individuals with a psychotic disorder
Mizen Demystifying genetic jargon in psychiatry