TW202008379A - 密碼子優化 - Google Patents
密碼子優化 Download PDFInfo
- Publication number
- TW202008379A TW202008379A TW108127054A TW108127054A TW202008379A TW 202008379 A TW202008379 A TW 202008379A TW 108127054 A TW108127054 A TW 108127054A TW 108127054 A TW108127054 A TW 108127054A TW 202008379 A TW202008379 A TW 202008379A
- Authority
- TW
- Taiwan
- Prior art keywords
- nucleic acid
- index
- patent application
- acid sequence
- codon
- Prior art date
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
- G16B25/10—Gene or protein expression profiling; Expression-ratio estimation or normalisation
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Genetics & Genomics (AREA)
- Epidemiology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Molecular Biology (AREA)
- Micro-Organisms Or Cultivation Processes Thereof (AREA)
- Preparation Of Compounds By Using Micro-Organisms (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Peptides Or Proteins (AREA)
Abstract
本揭示案總體係關於用於針對蛋白質在宿主中之表現對序列(例如核酸序列)進行優化的技術。一種用於針對蛋白質在宿主中之表現對核酸序列進行優化之示例性電腦實現方法包括:a)接收初始群體集合,其中該初始群體集合包含能夠表現該蛋白質之複數個初始候選核酸序列;及b)基於該初始群體集合使用電腦輔助NSGA-III算法或其變化型式對協調指數、密碼子背景指數及離群指數進行優化,由此獲得能夠表現該蛋白質之複數個優化核酸序列。
Description
本揭示案總體上係關於優化技術,且更特定而言關於用於針對蛋白質在宿主中之表現對序列(例如核酸序列)進行優化的系統及方法。
密碼子簡併係指遺傳密碼之冗餘,其展現為胺基酸可由不同同義密碼子指定之現象。值得注意地,已發現此等同義密碼子以不相等之頻率用於大多數測序之基因組中。此現象稱為密碼子使用偏性。
由於生物醫學及生物技術研究及工業生產需要具有恰當摺疊及修飾之高品質蛋白質,故如何探索及概述反映高度表現之基因的密碼子使用偏性之可能有益之規則及模式為改良蛋白質表現水準所必需的。然而,蛋白質表現為多步驟過程,其涉及在轉錄、mRNA周轉、轉譯及轉譯後修飾層面之調控,使得能夠形成穩定產物。即使單一同義密碼子取代亦可使轉基因之表現增加超過1,000倍。因此,密碼子優化能獲得合成基因在重組宿主中之最優表現。
本文提供使得增強型密碼子優化之系統及方法,其使用多目標優化算法考慮並且平衡複數個因素。根據一些實施例,密碼子優化尤其基於三個目標:(i)首先如何分派某些胺基酸之同義密碼子之計數,(ii)如何將同義密碼子放至其最適合之位置,及(iii)如何減少有害但意外產生之子序列及/或基元。在一些實施例中,此三個目標定量為協調指數(harmony index)、密碼子背景指數(codon context index)及離群指數(outlier index)。在優化期間,使用諸如非支配排序遺傳 算法III(nondominated sorting genetic algorithm III,NSGA-III)或其變化型式之多目標算法來考慮目標。特定而言,可針對給定候選核酸序列參考高度表現之基因的已知特徵來計算目標。在一些實施例中,在基因合成及蛋白質表現之前將各種已知有害基元及/或特徵(例如如由文獻鑑定)自一或多個優化序列移除。
因此,本發明提供一種系統性方法,其中較佳將包括但不限於以下影響蛋白質表現之參數及因素中的全部或大多數考慮在內:密碼子協調性、密碼子使用度(例如同義密碼子分佈)、密碼子背景指數、順式作用mRNA去穩定基元、RNA酶剪接位點、GC含量、核糖體結合位點(RBS)、mRNA基因二級結構(例如mRNA自由能)及重複元件,以改良及優化核酸序列,從而加強基因在表現系統中,諸如在包括真核與原核細胞兩者之表現宿主細胞(諸如哺乳動物、昆蟲、酵母、細菌、海藻)中及在無細胞表現系統中之蛋白質表現。
在一些實施例中,提供一種用於針對蛋白質在宿主中之表現對核酸序列進行優化的電腦實現方法,其包括:a)接收初始群體集合,其中初始群體集合包含能夠表現蛋白質之複數個初始候選核酸序列;及b)基於初始群體集合,使用電腦輔助NSGA-III算法或其變化型式對協調指數、密碼子背景指數及離群指數進行優化,由此獲得能夠表現蛋白質之複數個優化核酸序列,其中候選核酸序列之協調指數指示複數個高度表現之基因與候選核酸序列之間的同義密碼子使用頻率分佈的一致性,其中候選核酸序列之密碼子背景指數為用於將同義密碼子放至適合之位置的量度,且其中候選核酸序列之離群指數為候選核酸序列上之複數個預定序列特徵之負面影響的量度。
在一些實施例中,該方法進一步包括提供指示該複數個優化核酸序列之至少一個優化核酸序列的輸出。
在一些實施例中,接收初始群體集合包括:接收蛋白質序列;基於所接收之蛋白質序列產生初始群體集合。
在一些實施例中,接收初始群體集合包括:接收核酸序列;將所接收之核酸序列轉譯為蛋白質序列;基於蛋白質序列產生初始群體集合。
在一些實施例中,初始群體集合具有預定大小。
在一些實施例中,初始群體集合包括複數個初始候選核酸序列之二進制表示。
在一些實施例中,對協調指數、密碼子背景指數及離群指數進行優化包括:使協調指數最大化;使密碼子背景指數最大化;及使離群指數最小化。
在一些實施例中,對協調指數、密碼子背景指數及離群指數進行優化包括:針對初始群體集合之各初始候選核酸序列,計算各別初始候選核酸序列之各別協調指數值、各別密碼子背景指數值及各別離群指數值;基於該計算,分配對應於複數個初始候選核酸序列之複數個適應度值;基於該複數個適應度值,對該複數個初始候選核酸序列進行分選;及將分選之複數個初始候選核酸序列之子集包括於後續群體集合中。在一些實施例中,複數個適應度值包括候選核酸序列之協調指數、密碼子背景指數及離群指數。
在一些實施例中,該方法進一步包括基於初始群體產生後代群體;及將後代群體包括於後續群體集合中。
在一些實施例中,後代群體係經由二元錦標賽選擇、交叉/重組、突變或其任何組合產生。
在一些實施例中,初始群體集合及後續群體集合具有相同大小。
在一些實施例中,對協調指數、密碼子背景指數及離群指數進行優化包括複數次迭代,其中該複數次迭代之第i次迭代包括:接收對應於第(i-1)次迭代之核酸序列的群體集合;使對應於第(i-1)次迭代之群體集合的各核酸序列與非支配等級相關聯;基於相關非支配等級對對應於第(i-1)次迭代之群體集合中的核酸序列進行分選;產生對應於第i次迭代之群體集合,其中對應於第i次迭代 之群體集合包括對應於第(i-1)次迭代之分選核酸序列的子集及基於對應於第(i-1)次迭代之分選核酸序列產生的後代群體;及基於一或多種終止條件,確定是否使用對應於第i次迭代之群體集合進行第(i+1)次迭代。
在一些實施例中,使各核酸序列與非支配等級相關聯包括:針對對應於第(i-1)次迭代之群體集合之各核酸序列,計算各別協調指數值、各別密碼子背景指數值及各別離群指數值。
在一些實施例中,產生對應於第i次迭代之群體集合包括:使對應於第(i-1)次迭代之分選核酸序列之至少一個核酸序列與複數個預定參考點中之一者相關聯。
在一些實施例中,一或多種終止條件包括:達至固定迭代次數、最佳適應度達至平台期且未產生更好之結果、一些解滿足了近最優解之最低準則或其任何組合。
在一些實施例中,候選核酸序列之協調指數係基於下式來計算:H=1-D(F hs, F ts ),其中D()指示距離函數;其中Fhs包括一向量,其包含複數個高度表現之基因內之複數個胺基酸的同義密碼子之頻率;且其中Fts包括一向量,其包含候選核酸序列之編碼基因內之複數個胺基酸的同義密碼子之頻率。
在一些實施例中,D()指示量測兩個向量之間的距離之函數。在一些實施例中,D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離(Euclidean distance)、餘弦距離(Cosine distance)、曼哈頓距離(Manhattan distance)或明可司基距離(Minkowski)。
在一些實施例中,候選核酸序列之密碼子背景指數係基於下式來計算:CC.=1-D(F hcc ,F tcc ),其中D()指示距離函數;其中Fhcc包含一向量,其包含複數個高度表現之基因內兩個連續胺基酸之同義密碼子對的頻率;且其中Ftcc包含一向量,其包含候選核酸序列之編碼基因內兩個連續胺基酸之同義密碼子對的頻率。
在一些實施例中,D()指示量測兩個向量之間的距離之函數。在一些實施例中,D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。
在一些實施例中,離群指數係基於下式來計算:0= w i ×f i (x),其中N為複數個預定序列特徵之數目;其中fi(x)表示複數個預定序列特徵之第i個序列特徵之懲罰評分函數;且其中wi表示與fi(x)相關之相對權重。
在一些實施例中,複數個預定特徵包括:GC含量值、CIS元件、重複元件、RNA剪接位點、核糖體結合序列、mRNA之最小自由能或其任何組合。
在一些實施例中,複數個預定特徵係基於所選擇之表現系統來鑑定。
在一些實施例中,NSGA-III算法之變化型式包括EliteNSGA-III算法或基於NSGA-II之免疫算法。
在一些實施例中,對協調指數、密碼子背景指數及離群指數進行優化包括:按遞減順序之協調指數,接著按遞減順序之密碼子背景指數,且接著按遞增順序之離群指數對複數個優化核酸序列進行排序;選擇一或多個排序靠前之優化核酸序列用於合成。
在一些實施例中,該方法進一步包括:c)自複數個優化核酸序列之優化核酸序列移除預定有害子序列或基元。
在一些實施例中,預定有害子序列或基元係基於對複數個背景部分之分析來鑑定。
在一些實施例中,移除預定有害子序列或基元包括:鑑定優化核酸序列中之預定有害子序列或基元;基於所鑑定之預定有害子序列或基元鑑定複數個同義密碼子;自該複數個同義密碼子選擇同義密碼子以便取代優化核酸序列中之所鑑定的預定有害子序列。
在一些實施例中,協調指數、密碼子背景指數及離群指數中之至少一者係基於來自一或多個資料庫之複數個高度表現之基因的一或多個特徵來計算。
在一些實施例中,該一或多個特徵包括密碼子頻率、同義密碼子頻率、密碼子對頻率或其組合。
在一些實施例中,該方法進一步包括設定一或多個參數,其中該一或多個參數包括群體集合大小、劃分次數、模擬二進制交叉之分配指數、模擬二進制交叉之交叉率、位元翻轉突變之突變率、位元翻轉突變之分配指數或其任何組合。
在一些實施例中,提供一種存儲一或多個程式之非暫時電腦可讀存儲媒體,該一或多個程式包含指令,該等指令當由電子裝置之一或多個處理器執行時,使得電子裝置執行本文所描述之方法中之任一者。
在一些實施例中,提供一種針對蛋白質在宿主中之表現對核酸序列進行優化的系統,該系統包括:一或多個處理器;記憶體;及一或多個程式,其中該一或多個程式存儲於記憶體中且經配置以由該一或多個處理器執行,該一或多個程式包括用於執行本文所描述之方法中之任一者的指令。
在一些實施例中,提供一種針對蛋白質在宿主中之表現對核酸序列進行優化的電子裝置,該裝置包括用於執行本文所描述之方法中之任一者的構件。
在一些實施例中,提供一種存儲於可記錄媒體上用於針對蛋白質在宿主中之表現對核酸序列進行優化的程式產品,該程式產品包括用於執行本文所描述之方法中之任一者的電腦軟體。
在一些實施例中,提供一種經分離之核酸分子,其包含獲自本文所描述之方法中之任一者的優化核酸序列。
在一些實施例中,提供一種包含上述經分離之核酸分子的載體。
在一些實施例中,提供一種包含上述經分離之核酸分子或上述載體的重組宿主細胞。
在一些實施例中,提供一種用於使蛋白質在宿主細胞中表現之方法,該方法包括:(a)使用本文所描述之方法中之任一者獲得用於使蛋白質在宿主細胞中表現的優化核酸序列,(b)合成包含優化核酸序列之核酸分子;(c)將核酸分子引入宿主細胞中,以獲得重組宿主細胞;及(d)在允許蛋白質由優化核酸序列表現之條件下培養重組宿主細胞。
圖1描繪根據一些實施例之示例性密碼子優化方法的框圖。
圖2A描繪根據一些實施例之用於構建及執行用於針對蛋白質在宿主中之表現對序列(例如核酸序列)進行優化的算法的示例性流水線。
圖2B描繪根據一些實施例之遺傳算法之示例性一般工作流程。
圖3描繪根據一些實施例之經優化之GFP及JNK3A1相對於其野生型的西方墨點法(Western blot)結果。
圖4描繪根據一些實施例之示例性電子裝置。
以下基於ASCII文本文件之提交內容係以全文引用之方式併入本文中:電腦可讀形式(CRF)之序列表(文件名:759892000440SEQLIST.TXT,記錄之日期:2018年7月25日,大小:4KB)。
本發明提供用於改良基因在各種宿主,包括但不限於大腸桿菌、CHO、HEK293、酵母、昆蟲、無細胞表現系統等中之重組表現的增強型密碼子優化。根據本發明之示例性系統收集用於表現系統之高度表現之基因,提取基本序列特徵,複製相關序列(例如核酸序列)中之有益綜合模式,且移除有害特徵以便改良目標基因在表現系統中之表現。
當前,已開發許多密碼子優化工具且以下概述於表1中。此等工具已將包括以下參數及因素中之多者、較佳大多數或全部考慮在內:密碼子使用度(例如密碼子適應指數[CAI]、有效密碼子數目[ENc]、相對同義密碼子使用度[RSCU]及同義密碼子使用度順序[SCUO])、密碼子對、tRNA使用度(例如tRNA適應指數[tAI])、GC含量、核糖體結合位點(RBS)、隱藏之終止密碼子、基元回避、限制位點移除、mRNA基因二級結構(例如mRNA自由能)及親水性指數優化,以便加強細菌、酵母、昆蟲及哺乳動物細胞在密碼子優化期間之表現。
然而,由於如此多因素可視為關鍵點,故如何平衡它們仍為一項挑戰,因為此為多目標優化問題,而該等目標可能彼此衝突。另一方面,在考慮時略去一或多個因素或參數可能使得目標基因在表現系統中之表現低或沒有表現。
本文提供使得增強型密碼子優化之系統及方法,其使用多目標優化算法考慮並且平衡複數個因素。根據一些實施例,密碼子優化尤其基於三個目標:(i)首先如何分派某些胺基酸之同義密碼子之計數,(ii)如何將同義密碼子放至其最適合之位置,及(iii)如何減少有害但意外產生之子序列及/或基元。在一些實施例中,此三個目標定量為協調指數、密碼子背景指數及離群指數。在優化期間,使用諸如非支配排序遺傳算法III(NSGA-III)或其變化型式之多目標算法來考慮目標。特定而言,可針對給定候選核酸序列參考高度表現之基因的已知特徵來計算目標。在一些實施例中,在基因合成及蛋白質表現之前將各種已知有害基元及/或特徵(例如如由文獻鑑定)自一或多個優化序列移除。
因此,本發明提供一種系統性方法,其中較佳將包括但不限於以下影響蛋白質表現之參數及因素中之全部或大多數考慮在內:密碼子協調性、密碼子使用度(例如同義密碼子分佈)、密碼子背景指數、順式作用mRNA去穩定基元、RNA酶剪接位點、GC含量、核糖體結合位點(RBS)、mRNA基因二級結構(例如mRNA自由能)及重複元件,以改良及優化核酸序列,從而加強基因在表現系統中,諸如在包括真核與原核細胞兩者之表現宿主細胞(諸如哺乳動物、昆蟲、酵母、細菌、海藻)中及在無細胞表現系統中之蛋白質表現。
因此,在一個態樣中,本發明提供使用NSGA-III算法或其變化型式來優化多個(例如超過2個)目標從而獲得改良之重組蛋白表現的序列優化方法。在另一態樣中,提供在基因合成及蛋白質表現之前自核酸序列移除有害基元及特徵(例如在NSGA-III算法之迭代完成之後)的方法。亦提供在優化算法中定量 及計算多個目標之方法,以及鑑定有害基元及特徵以便減少或移除之方法。
亦提供系統、非暫時電腦可讀存儲媒體、電子裝置及程式產品用於存儲一或多個程式,以便執行本文所描述之方法之任何一或多個步驟。亦提供包含獲自本文所描述之方法之優化核酸序列的經分離之核酸分子;包含該等經分離之核酸分子之載體;包含該經分離之核酸分子或該載體的重組宿主細胞。亦提供使蛋白質在宿主細胞中表現之方法,其涉及本文所描述之方法中之任一者。
應瞭解,本文所描述之本發明實施例包括「由實施例組成」及/或「基本上由其組成」。
本文中提及「約」一值或參數包括(且描述)關於彼值或參數本身之變化。舉例而言,提及「約X」之描述包括「X」之描述。
如本文所用,提及「並非」一值或參數通常意謂且描述「不為」一值或參數。舉例而言,該方法不用於治療類型X之癌症意謂該方法用於治療不為X之癌症類型。
除非上下文另外明確指示,否則如本文及隨附申請專利範圍中所用,單數形式「一」、「或」及「該」包括複數指示物。
除非上下文另外明確指示,否則如本文及隨附申請專利範圍中所用,「集合」係指一個或複數個指示物。
在一個態樣中,本發明提供用於針對蛋白質在宿主中之表現對核酸序列進行優化之方法(例如電腦實現或電腦輔助方法)。此等方法係關於在基因合成及蛋白質表現之前自核酸序列移除有害基元及特徵(例如在NSGA-III算法之迭代完成之後)的方法。此等方法亦係關於在優化算法中定量及計算多個目標之方法,以及鑑定有害基元及特徵以便減少或移除之方法。
圖1說明密碼子優化之示例性方法100,短劃線方框表示視情況存在之步驟。雖然本文將方法100之部分描述為藉由特定裝置來進行,應瞭解,方法100不限於如此。在其他實例中,使用僅單一電子裝置(例如電子裝置400)或多個電子裝置來進行方法100。在方法100中,視情況組合一些方框,視情況改變一些方框之順序,且視情況省去一些方框。在一些實例中,可與方法100組合進行其他步驟。
在方框106處,電子裝置接收初始群體集合,其中初始群體集合包含能夠表現蛋白質之複數個初始候選核酸序列。在一些實施例中,初始群體集合係隨機產生。在一些實施例中,初始群體集合具有預定大小(例如由使用者確定)。
在一些實施例中,如方框106中所示,接收初始群體集合包括基於蛋白質序列產生初始群體集合。舉例而言,接收初始群體集合可包括:接收蛋白質序列(例如作為來自使用者之輸入);及基於所接收之蛋白質序列產生初始群體集合。作為另一實例,接收初始群體集合可包括:接收核酸序列(例如作為來自使用者之輸入);將所接收之核酸序列轉譯為蛋白質序列;基於蛋白質序列產生初始群體集合。
在一些實施例中,初始群體集合包括複數個初始候選核酸序列之二進制表示(例如二進制串)。通常,選擇二進制串,而不是密碼子列表/陣列/向量,作為資料結構來表示編碼基因,且遺傳算法之包括群體初始化、交叉/重組、突變、選擇之所有操作對象均為二進制串,除了選擇之前對基因之適應度評估。如下文進一步描述,在一些實施例中,當需要在選擇之前評估整個群體之各個體的適應度函數(亦即,三個指數函數)時,應暫時將二進制表示轉換回密碼子串。
在方框108處,電子裝置基於初始群體集合使用電腦輔助NSGA-III算法或其變化型式對協調指數、密碼子背景指數及離群指數進行優化,由此獲 得能夠表現蛋白質之複數個優化核酸序列。
候選核酸序列之協調指數總是或在一些實施例中指示複數個高度表現之基因與候選核酸序列(亦即,在優化期間編碼候選蛋白質之基因)之間的同義密碼子使用頻率分佈的一致性,其有助於解決如何分派某些胺基酸之同義密碼子的計數。候選核酸序列之密碼子背景指數為用於將同義密碼子放至適合之位置的量度。候選核酸序列之離群指數為候選核酸序列上之複數個預定序列特徵之負面影響的量度。
在一些實施例中,如方框106中所示,對協調指數、密碼子背景指數及離群指數進行優化包括:使協調指數最大化;使密碼子背景指數最大化;及使離群指數最小化。
優化可藉由使用多目標遺傳算法來進行,三個目標為使協調指數最大化;使密碼子背景指數最大化;及使離群指數最小化。在一些實施例中,使用NSGA-III算法或變化型式。不同於傳統遺傳算法,在NSGA-III中藉由供應良好散佈之預定參考點及適應性地更新其數目來輔助維持群體成員間之多樣性,因此NSGA-III在其選擇運算子中具有顯著變化。另外,相對於如NSGA-II之其他遺傳算法,NSGA-III在解決三目標至15-目標優化問題中展示其功效。NSGA-III算法之變化型式包括EliteNSGA-III算法、基於NSGA-II之免疫算法、MAM-MOIA或MOLA。EliteNSGA-III算法由Amin Ibrahim等人描述於2016年出版之名為「ELITENSGA-III:AN IMPROVED EVOLUTIONARY MANY-OBJECTIVE OPTIMIZATION ALGORITHM」之出版物中,該出版物以全文引用之方式併入本文中。各種免疫算法描述於例如Guan-Chun Luh等人之2010年9月出版之名為「MOIA:MULTI-OBJECTIVE IMMUNE ALGORITHM」的出版物、Felipe Campelo等人之2007年出版之名為「OVERVIEW OF ARTIFICIAL IMMUNE SYSTEMS FOR MULTI-OBJECTIVE OPTIMIZATION」 的出版物、Zhi-Hua Hu之2010年4月出版之名為「A MULTIOBJECTIVE IMMUNE ALGORITHM BASED ON A MULTIPLE-AFFINITY MODEL」的出版物及2017年7月25日申請之中國專利申請案第201710611752.5號中,該等參考文獻以全文引用之方式併入本文中。
根據NSGA-III算法(或類似遺傳算法)之操作,對協調指數、密碼子背景指數及離群指數進行優化包括:針對初始群體集合之各初始候選核酸序列,計算各別初始候選核酸序列之各別協調指數值、各別密碼子背景指數值及各別離群指數值;基於該計算,分配對應於該複數個初始候選核酸序列之複數個適應度值;基於該複數個適應度值,對該複數個初始候選核酸序列進行分選;及將分選之複數個初始候選核酸序列之子集包括於後續群體集合中(亦即,在第2次迭代中使用)。
根據NSGA-III算法(或類似遺傳算法)之操作,該方法進一步包括基於初始群體產生後代群體;及將後代群體包括於後續群體集合中(亦即,在第2次迭代中使用)。在一些實施例中,後代群體係經由二元錦標賽選擇、交叉/重組、突變或其任何組合產生。
在一些實施例中,初始群體集合及後續群體集合(亦即,在第2次迭代中使用)具有相同大小。
根據NSGA-III算法(或類似遺傳算法)之操作,對協調指數、密碼子背景指數及離群指數進行優化包括複數次迭代。複數個迭代之第i次迭代(其中i可為2、3、4、5、6...n)包括:接收對應於第(i-1)次迭代之核酸序列之群體集合;使對應於第(i-1)次迭代之群體集合之各核酸序列與非支配等級相關聯;基於相關非支配等級對對應於第(i-1)次迭代之群體集合中之核酸序列進行分選;產生對應於第i次迭代之群體集合,其中對應於第i次迭代之群體集合包括對應於第(i-1)次迭代之分選核酸序列的子集及基於對應於第(i-1)次迭代之分選核酸序列產生 的後代群體;及基於一或多種終止條件,確定是否使用對應於第i次迭代之群體集合進行第(i+1)次迭代。
在一些實施例中,使各核酸序列與非支配等級相關聯包括:針對對應於第(i-1)次迭代之群體集合之各核酸序列,計算各別協調指數值、各別密碼子背景指數值及各別離群指數值。
根據NSGA-III算法之操作,在一些實施例中,產生對應於第i次迭代之群體集合包括:使對應於第(i-1)次迭代之分選核酸序列之至少一個核酸序列與複數個預定參考點中之一者相關聯。
在一些實施例中,一或多種終止條件包括:達至固定迭代次數、最佳適應度達至平台期且未產生更好之結果、一些解滿足了近最優解之最低準則或其任何組合。
在一些實施例中,該方法進一步包括:設定優化算法之一或多個參數,其中該一或多個參數包括群體集合大小、劃分次數、模擬二進制交叉之分配指數、模擬二進制交叉之交叉率、位元翻轉突變之突變率、位元翻轉突變之分配指數或其任何組合。
在一些實施例中,在優化期間,協調指數、密碼子背景指數及離群指數中之至少一者係基於來自一或多個資料庫之複數個高度表現之基因的一或多個特徵來計算。在一些實施例中,該一或多個特徵包括密碼子頻率、同義密碼子頻率、密碼子對頻率或其組合。對於如下式所示之給定候選核酸序列,可使用高度表現之基因的此等特徵來計算協調指數、密碼子背景指數及離群指數。
在一些實施例中,如方框102中所指示,基於私有或公共資料庫來鑑定高度表現之基因的此等特徵。舉例而言,資料庫可為包含自公司之順序系統收集之先前成功優化之順序的專有數據庫。作為另一實例,可通過在各種培養條件下對可為公共資訊之RNA-seq資料進行資料挖掘來獲得資料。進行資料 處理,目的在於得到高度表現之基因的基本資訊,包括密碼子頻率、同義密碼子頻率及密碼子對頻率。
在一些實施例中,候選核酸序列之協調指數係基於下式來計算:H=1-D(F hs ,F ts ),其中D()指示距離函數;其中Fhs包括一向量,其包含複數個高度表現之基因內之複數個胺基酸的同義密碼子之頻率;且其中Fts包括一向量,其包含候選核酸序列之編碼基因內之複數個胺基酸的同義密碼子之頻率。
在一些實施例中,D()指示量測兩個向量之間的距離之函數。在一些實施例中,D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。
在一些實施例中,候選核酸序列之密碼子背景指數係基於下式來計算:CC=1-D(F hcc ,F tcc ),其中D()指示距離函數;其中Fhcc包含一向量,其包含複數個高度表現之基因內兩個連續胺基酸之同義密碼子對的頻率;且其中Ftcc包含一向量,其包含候選核酸序列之編碼基因內兩個連續胺基酸之同義密碼子對的頻率。
在一些實施例中,D()指示量測兩個向量之間的距離之函數。在一些實施例中,D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。
在一些實施例中,離群指數係基於下式來計算:0= w i ×f i (x),其中N為複數個預定序列特徵之數目;其中fi(x)表示複數個預定序列特徵之第i個序列特徵之懲罰評分函數;且其中wi表示與fi(x)相關之相對權重。
在一些實施例中,複數個預定特徵包括:GC含量值、CIS元件、重複元件、RNA剪接位點、核糖體結合序列、mRNA之最小自由能或其任何組合。
在一些實施例中,複數個預定特徵係基於所選擇之表現系統來鑑定。對於各種表現系統,有害因素之目錄可變化,其中影響或權重亦不相等。
在一些實施例中,對協調指數、密碼子背景指數及離群指數進行優化包括:按遞減順序之協調指數、接著按遞減順序之密碼子背景指數,且接著按遞增順序之離群指數對複數個優化核酸序列進行排序;選擇一或多個排序靠前之優化核酸序列用於合成。
在方框110處,該方法視情況進一步包括:c)自複數個優化核酸序列之優化核酸序列移除預定有害子序列或基元。在一些實施例中,移除預定有害子序列或基元包括:鑑定優化核酸序列中之預定有害子序列或基元;基於所鑑定之預定有害子序列或基元鑑定複數個同義密碼子;自該複數個同義密碼子選擇同義密碼子以便取代優化核酸序列中之所鑑定的預定有害子序列。
在一些實施例中,如方框104中所指示,預定有害子序列或基元係基於對複數個背景部分之分析(例如自動背景挖掘或手動檢查文獻)來鑑定。
在一些實施例中,該方法進一步包括提供指示複數個優化核酸序列之至少一個優化核酸序列的輸出。
在一些實施例中,提供一種存儲一或多個程式之非暫時電腦可讀存儲媒體,該一或多個程式包含指令,該等指令當由電子裝置之一或多個處理器 執行時,使得電子裝置執行本文所描述之方法中之任一者。
在一些實施例中,提供一種針對蛋白質在宿主中之表現對核酸序列進行優化的系統,該系統包括:一或多個處理器;記憶體;及一或多個程式,其中該一或多個程式存儲於記憶體中且經配置以由該一或多個處理器執行,該一或多個程式包括用於執行本文所描述之方法中之任一者的指令。
在一些實施例中,提供一種針對蛋白質在宿主中之表現對核酸序列進行優化的電子裝置,該裝置包括用於執行本文所描述之方法中之任一者的構件。
在一些實施例中,提供一種存儲於可記錄媒體上用於針對蛋白質在宿主中之表現對核酸序列進行優化的程式產品,該程式產品包括用於執行本文所描述之方法中之任一者的電腦軟體。
在一些實施例中,提供一種經分離之核酸分子,其包含獲自本文所描述之方法中之任一者的優化核酸序列。
在一些實施例中,提供一種包含上述經分離之核酸分子的載體。
在一些實施例中,提供一種包含上述經分離之核酸分子或上述載體的重組宿主細胞。
在一些實施例中,提供一種用於使蛋白質在宿主細胞中表現之方法,該方法包括:(a)使用本文所描述之方法中之任一者獲得用於使蛋白質在宿主細胞中表現的優化核酸序列,(b)合成包含優化核酸序列之核酸分子;(c)將核酸分子引入宿主細胞中,以獲得重組宿主細胞;及(d)在允許蛋白質由優化核酸序列表現之條件下培養重組宿主細胞。
圖2A說明根據本發明之一些實施例的用於構築及執行用於針對蛋白質在宿主中之表現對序列(例如核酸序列)進行優化之算法的示例性流水線200。方法200係例如使用圖4中說明之一或多個電子裝置來進行。在一些實例 中,使用客戶端-伺服器系統進行方法200,且在伺服器與客戶端裝置之間以任何方式對方法200之方框進行劃分。在其他實例中,在伺服器及/或多個客戶端裝置之間對方法200之方框進行劃分。因此,雖然本文將方法200之部分描述為藉由特定裝置來進行,但應瞭解,方法200不限於如此。在其他實例中,使用僅單一電子裝置(例如電子裝置400)或多個電子裝置來進行方法200。在方法200中,視情況組合一些方框,視情況改變一些方框之順序,且視情況省去一些方框。在一些實例中,可與方法200組合進行其他步驟。
參考圖2A,在方框202處,可自一或多個資料庫鑑定複數個高度表現之基因。資料庫可為公共的或私有的。舉例而言,資料庫可為包含自公司之順序系統收集之先前成功優化之順序的專有數據庫。作為另一實例,可通過在各種培養條件下對可為公共資訊之RNA-seq資料進行資料挖掘來獲得資料。
在方框204處,鑑定高度表現之基因的基本特徵。在一示例性實現方法中,針對標準樣品遵循Illumina推薦之mRNA-Seq工作流程進行mRNA-seq實驗及資料分析。在該過程期間,可使用TruSeq Stranded mRNA文庫製備套組來進行文庫製備,且可利用NextSeq之PE300進行測序。隨後,可應用通過TopHat、Cufflinks及自製腳本進行之資料處理,目的在於得到高度表現之基因之基本資訊,包括密碼子頻率、同義密碼子頻率及密碼子對頻率。
在方框206及208處,示例性系統亦可鑑定任何經報告及驗證之有害特徵以避免,以便維持已建立之優點。為發現可使得蛋白質表現降低之消極因素,該系統可執行文獻綜述。舉例而言,通過自動背景挖掘及/或手動檢查,可針對各種宿主對所報告之表現相關有害基元及mRNA特徵進行鑑定。
編碼基因之表現具有多個步驟,其視轉錄水準、mRNA周轉、轉譯(包 括起始、啟動子解脫、伸長及終止)及轉譯後修飾而定。然而,可將密碼子優化簡化為組合問題且分組至三個直觀操縱中:(i)首先如何分派某些胺基酸之同義密碼子之計數,(ii)如何將同義密碼子放至其最適合之位置,及(iii)如何減少有害但意外產生之子序列及/或基元。
根據本發明之一些實施例,以下提供分別匹配三個上述操縱且與蛋白質表現高度相關之三個關鍵因素:協調指數、密碼子背景指數及離群指數。如下文所論述,此三個指數係基於自各種資料來源收集之上述基礎資料來計算。
參考圖2A,在方框210處,優化過程包括執行兩個步驟212及214。在方框212中所示之步驟1中,系統基於NSGA-III算法或其變化型式進行多目標密碼子優化,其涉及使協調指數最大化、使密碼子背景指數最大化及使離群指數最小化。
協調指數表示高度表現之基因與候選核酸序列之間的同義密碼子使用頻率分佈之一致性。候選核酸序列係指在詳細描述於標題「多目標優化算法」下之優化算法之至少一次迭代中所評估的編碼候選蛋白質之基因。在一些實施例中,協調指數定義為:H=1-D(F hs ,F ts )
在上式中,H為協調指數,且D()為兩個向量之間的距離函數,其可為但不限於:歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。Fhs為一向量,其包含高度表現之基因內的18個胺基酸(除了Met/M及Trp/W)之同義密碼子的頻率,且歸因於自64個密碼子中移除三個終止密碼子(亦即,TAA、TAG及TGA)、胺基酸Met/M之密碼子(亦即,ATG)及胺基酸Trp/W之密碼子(亦即,TGG)而具有59個元件。Fts為一向量,其包含等待密碼子優化之候選蛋白質之編碼基因(亦即,候選核酸序列)內的18個胺基酸之同義密碼子的頻率。
相對於密碼子適應指數(CAI),協調指數專注於同義密碼子之分佈(亦即,使用平衡/加載平衡),而不總是旨在通過唯一地選擇最頻繁出現之排名第1之同義密碼子來獲得最大CAI。
在一些實施例中,在計算協調指數期間所用之高度表現之基因或候選核酸序列之某些同義密碼子的頻率定義為:
{A,C,D,E,F,G,H,I,K,L,N,P,Q,R,S,T,V,Y}且 j 59個同義密碼子。
雖然協調指數將密碼子使用度考慮在內,但其僅關心同義密碼子之頻率分佈,而其在18個胺基酸中之一者的不同基因座之分派仍為一問題(亦即,相同胺基酸之同義密碼子的順序設定)。因此,下文所描述之密碼子背景指數通過同義密碼子配對來選擇大致最優之同義密碼子排序為解決此瓶頸所需的。
2.密碼子背景指數
候選核酸序列之密碼子背景指數為用於將同義密碼子放至適合之位置的量度。在一些實施例中,密碼子背景指數定義為:CC=1-D(F hcc ,F tcc )。
在上式中,CC代表密碼子背景指數,且D()為兩個向量之間的距離函數,其可為但不限於:歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。Fhcc為一向量,其包含高度表現之基因內所有種類之兩個連續胺基酸之同義密碼子對的頻率。舉例而言,胺基酸Phe/F具有兩個同義密碼子,亦即,TTT及TTC;且胺基酸Lys/K同樣具有AAA及AAG作為密碼子;其同義密碼子對應為2乘2組合,包括TTTAAA、TTTAAG、TTCAAA及TTCAAG。由於不存在關於兩個胺基酸甲硫胺酸/M及色胺酸/W之排列(亦即,MM、MW、WW及WM)的同義密碼子對,故CC之長度為61乘61減4且最後等於3717。Ftcc為一向量,其包含候選蛋白質之編碼基因(亦即,候選核酸序列)內所有種類之兩個連續胺基 酸之同義密碼子對的頻率,其長度同樣為3717。
在上式中,N為所鑑定之複數個序列因素之數目且N>1。fi(x)表示所鑑定之N個序列特徵之第i個序列因素的懲罰評分函數;且wi表示給予fi(x)之相對權重。因此,優化基因應儘可能具有低離群指數值。
在一些實施例中,複數個序列因素可經由圖2A中所示之步驟202、204及208中之一或多者來鑑定。在一些實施例中,複數個序列因素含有但不限於下文詳細描述之GC含量、CIS元件、重複元件、RNA剪接位點、核糖體結合序列、mRNA之最小自由能。
mRNA之位於起始密碼子下游之潛在強莖-環二級結構可能阻礙核糖體複合物之移動,且因此減慢轉譯且降低轉譯效率。mRNA之穩定二級結構甚至可使得核糖體複合物脫離mRNA且使得轉譯過早終止。存在若干自由能計算及二級結構預測方法,包括Mfold、RNAfold及RNAstructure。根據本發明之實施例,具有低自由能(△g<-18Kcal/mol)或長互補莖(>10bp)之局部mRNA二級結構經確定對於高效轉譯而言過於穩定。基因序列較佳經優化以使得局部結 構不那麼穩定。對於mRNA結構自由能計算及二級結構預測,較佳將mRNA之5'-UTR與3'-UTR兩者考慮在內。
在一些實施例中,被認為過於穩定之二級結構與較高懲罰相關。用於給出較高懲罰得分之權重為靈活的。
亦較佳將mRNA之GC含量考慮在內。GC%之理想範圍為約30-70%。高GC含量將使得mRNA形成強莖-環二級結構。其亦將引起PCR擴增及基因選殖之問題。較佳使用密碼子簡併使目標序列之高GC含量突變(例如在NSGA-III算法之操作,包括二進制串之交叉及突變期間)至約50-60%。
對GC%存在兩種不同量測。一種為總體GC%,其係沿整個序列取平均值;另一種更適用,其為在固定大小(例如60bp)之偏移「窗」內計算的局部GC%。根據本發明之實施例,局部GC%係優化至約35-65%。
為減少或最小化mRNA降解或增加mRNA之穩定性從而減少mRNA之周轉時間,包括但不限於富AU元件(ARE)之順式作用mRNA去穩定基元及RNA酶識別及裂解位點較佳自基因序列發生突變或缺失。具有AUUUA(SEQ ID NO:1)之核心基元的富AU元件(ARE)通常存在於mRNA之3'未轉譯區中。mRNA順式元件之另一實例由序列基元TGYYGATGYYYYY(SEQ ID NO:2)組成,其中Y代表T或C。RNA酶識別序列包括但不限於RNA酶E識別序列。RNA酶缺乏之宿主株亦可用於蛋白質表現。
RNA酶剪接位點可引起RNA剪接以產生不同mRNA且因此減少原始mRNA含量。RNA酶剪接位點亦較佳突變為非功能性的以維持mRNA含量。
為產生高含量之mRNA,較佳將最優轉錄啟動子序列用於基因序列 中。對於諸如大腸桿菌之原核宿主,強啟動子中之一者為用於T7 RNA聚合酶(T7 RNAP)之T7啟動子。長或短串聯簡單序列重複(SSR)之一些鹼基較佳使用密碼子簡併發生突變以使重複斷裂從而減少聚合酶滑動,由此減少未成熟蛋白質或蛋白質突變。
存在影響mRNA轉譯及所得蛋白質表現水準之其他因素及參數。此等因素影響自轉譯起始至轉譯終止之轉譯。核糖體在核糖體結合位點(RBS)結合mRNA以起始轉譯。由於核糖體不結合於雙股RNA,故此區域周圍之局部mRNA結構較佳為單股的且不形成任何穩定二級結構。用於諸如大腸桿菌之原核細胞的共同RBS序列AGGAGG(SEQ ID NO:3)亦稱為夏因-達爾加諾序列(Shine-Dalgarnon sequence),較佳在所要表現之基因中放置於轉譯起始位點之前幾個鹼基處。然而,內部核糖體進入位點(IRES)較佳為突變的以防止核糖體結合從而避免非特異性轉譯起始。
上述因素之描述可見於例如Saeid Kadkhodaei等人之2018年5月出版之名為「CIS/TRANSGENE OPTIMIZATION:SYSTEMATIC DISCOVERY OF NOVEL GENE EXPRESSION USING BIOINFORMATICS AND COMPUTATIONAL BIOLOGY APPROACHES」之出版物、Timothy J Gingerich等人之2014年7月出版之名為「AU-RICH ELEMENTS AND THE CONTROL OF GENE EXPRESSION THROUGH REGULATED MRNA STABILITY」之出版物、Tala Bakheet之2017年10月出版之名為「ARED-PLUS:AN UPDATED AND EXPANDED DATABASE OF AU-RICH ELEMENT-CONTAINING MRNAS AND PRE-MRNAS」之出版物、Shuang Zhang等人之1995年出版之名為「IDENTIFICATION AND CHARACTERIZATION OF A SEQUENCE MOTIF INVOLVED IN NONSENSE-MEDIATED MRNA DECAY」之出版物、Jiong Ma等人之2002年出版之名為「CORRELATIONS BETWEEN SHINE-DALGARNO SEQUENCES AND GENE FEATURES SUCH AS PREDICTED EXPRESSION LEVELS AND OPERON STRUCTURES」之出版物、Esther Y.C.Koh等人之2013年12月出版之名為「AN INTERNAL RIBOSOME ENTRY SITE(IRES)MUTANT LIBRARY FOR TUNING EXPRESSION LEVEL OF MULTIPLE GENES IN MAMMALIAN CELLS」之出版物中,該等出版物以全文引用之方式併入本文中。
對於各種表現系統,有害因素之目錄可變化,其中影響或權重亦不相等。因此,可針對各種表現系統動態地修改fi(x)及其權重。舉例而言,在設定GC含量及MFE之容許範圍之後,『在範圍外』之程度將引起按比率之懲罰。同樣地,不穩定因素之出現次數可直接記錄為懲罰得分。
應認識到,即使候選核酸序列之離群指數為高的,候選序列仍可能具有一些在迭代中倖存之機會,以便保持整個群體之多樣性。換言之,有害基元/特徵經離群指數過濾不為強制的,因為較高離群指數(亦即,懲罰)僅僅可產生較低倖存比率。相比之下,在NSGA-III算法之迭代完成之後(亦即,在圖1中之步驟110或圖2中之步驟214中)移除有害基元/特徵為強制的。
總之,本發明不僅試圖藉由使協調指數及密碼子背景指數之值最大化來促成正面影響,而且盡最大努力藉由使離群指數最小化來避免有害影響。
由於本發明為三個綜合目標之優化任務,故可使用多目標遺傳算法。在一些實施例中,可使用NSGA-III算法或其變化型式,諸如EliteNSGA-III(同樣由K.Deb呈現),此係歸因於其藉由在經典框架之遺傳算法之選擇操縱期間維持群體多樣性來解決許多目標優化問題的優點。
NSGA-III由Kalyanmoy Deb及Himanshu Jain於2014年提出。其為遵循NSGA-II框架之基於參考點之許多目標進化算法,其強調非支配然而接近於所提供參考點之集合的群體成員。相對於如NSGA-II之其他遺傳算法, NSGA-III在解決三目標至15-目標優化問題中展示其功效。不同於傳統遺傳算法,在NSGA-III中藉由供應良好散佈之預定參考點及適應性地更新其數目來輔助維持群體成員間之多樣性,因此NSGA-III在其選擇運算子中具有顯著變化。
NSGA-III算法描述於Kalyanmoy Deb等人之2014年8月出版之名為「An Evolutionary Many-Objective Optimization Algorithm Using Reference-Point-Based Nondominated Sorting Approach,Part I:Solving Problems With Box Constraints」的出版物中,該出版物以全文引用之方式併入本文中。相關NSGA-II算法描述於Kalyanmoy Deb等人之2002年8月出版之名為「A FAST AND ELITIST MULTIOBJECTIVE GENETIC ALGORITHM:NSGA-II」的出版物中,該出版物以全文引用之方式併入本文中。
在實現NSGA-III期間,選擇二進制串,而不是密碼子列表/陣列/向量作為用於代表核酸序列之數據結構,且一般遺傳算法之包括群體初始化、交叉/重組、突變之所有一般操縱對象均為二進制串,因為相對於密碼子列表/陣列/向量作為數據結構,二進制串需要更小之電腦記憶體且實現更快之操縱速度。在一些實施例中,使用三個連續位元來表示一個位置之密碼子,因為三個位元之所有組合之數目足以匹配某些胺基酸之同義密碼子的所有可能候選者。舉例而言,三個位元具有8種組合,例如000、001、010、011、100、101、110及111,其計數大於任何胺基酸之同義密碼子數目,甚至分別擁有6個同義密碼子之胺基酸L、R及S亦如此。
因此,3個位元串中之每一者代表給定胺基酸之同義密碼子。在適應度計算(例如協調指數、密碼子背景指數及離群指數之計算)期間,將代表群體之個別候選者的二進制串轉換回編碼測序(亦即,DNA)。另一方面,如上文所論述,遺傳算法之操作(包括交叉、突變、選擇)的對象全部為二進制串,因此轉換為暫時的。因此,適應度計算係基於序列,而出於效率及速度之原因,所有其他操 作均基於二進制串。
在開始NSGA-III之前,需要設定複數個參數,包括群體大小、劃分次數、模擬二進制交叉之分配指數、模擬二進制交叉之交叉率、位元翻轉突變之突變率、位元翻轉突變之分配指數。NSGA-III之作者對於許多目標問題之劃分建議雙層法,其中指定了外部及內部劃分次數。為使用雙層法,吾人可將劃分次數用外部劃分次數及內部劃分次數代替。每個個體之初始化過程為隨機的,且交叉及突變操縱與圖2B中所示之經典遺傳算法沒有重大差異。
圖2B描繪遺傳算法之示例性一般工作流程,包括生物啟發運算子,諸如群體進化之交叉、突變及選擇。在實現本發明期間,二進制串表示序列,因此所有以上運算子之對象均為二進制串。
當需要在選擇之前針對整個群體之各個體評估適應度函數(亦即,之前顯示之三個指數函數)時,二進制串將暫時轉化回密碼子串。在許多次進化傳代及進化終止之後,最後產生之密碼子串將為級聯的且輸出為用於重組表現之最佳基因。
在一些實施例中,終止條件包括但不限於:達至固定傳代次數,最佳適應度達至平台期且未產生更好之結果、一些解滿足了近最優解之最低準則。
根據NSGA-III算法之教示,此等最佳基因應為位於三維空間之帕累托面(pareto surface)的解且經同等處理。出於實用目的,歸因於用於基因合成及表現測試之資源有限,吾人首先按遞減順序之協調指數,接著按遞減順序之密碼子背景指數且最後按遞增順序之離群指數對其進行排序。鑒於配額僅為一個序列,可選擇排名第1者進行合成及異源表現。假定沒有嚴格成本控制,建議測試其中在帕累托面具有充足間隔之若干,例如具有最高協調指數之一個候選者、具有最高密碼子背景指數之一個候選者及具有最低離群指數之一個候選者。在本發明中,初步最佳基因沒有終止密碼子,因此可在編碼序列之3'端附 加兩個連續終止密碼子。
參考圖2A,在方框214處,優化程序包括基元回避及限制位點移除之步驟。為了加強分子選殖之方便性,在基因合成及蛋白質表現之前將一些有害基元及限制位點(例如顧客不喜歡之彼等)自一或多個優化序列移除。該過程含有:
步驟1:定位必須避免之所有子序列。
步驟2:列出可用於在子序列內進行取代之所有同義密碼子。
步驟3:在吾人會同時保持無新子序列出現之條件下,高度表現之基因內較頻繁使用之同義密碼子具有較高選擇優先級。
步驟4:使用步驟2-3對每個所發現之子序列進行迭代處理。
在一些實施例中,如方框206及208中所指示,藉由背景挖掘及文獻綜述針對各種宿主單獨鑑定有害基元及特徵。
本文所描述之示例性實現方式通過兩個基因(JNK3A1及GFP)之優化及其在CHO 3E7細胞株中之表現說明了本發明對於密碼子優化之效率,其中基本資訊概述如下。由於Flag標籤之抗體適用於進行西方墨點法以便評估表現水準,故在兩個蛋白質之C端附加Flag標籤,同時,使用β-肌動蛋白作為加載對照。各表現實驗重複兩次。
根據由Illumina推薦之經典mRNA-seq建議執行於包括自由式CHO表現培養基(FreeStyle CHO Expression medium)及CD CHO培養基(Thermofish) 之若干培養基中培養的CHO 3E7之mRNA-seq。與吾人之公司成功優化之部分順序整合,將總計500個序列定義為CHO 3E7細胞株之高度表現的基因。在文獻綜述之後,將以下子序列分組至有害基元中,其出現引起懲罰(亦即,離群指數增加)。適合之局部(60 bp滑動窗)及總體GC含量為約35-65%,且mRNA二級結構之可接受之最小MFE △G為-18Kcal/mol,此等參數之離群值引起懲罰。
1)剪接位點:GGTAAG、GGTGAT
2)富AT元件:ATTTTA、ATTTTTA、ATTTTTTA
3)核糖體結合位點:ACCACCATGG(SEQ ID NO:4)、GCCACCATGG(SEQ ID NO:5)
4)抗病毒基元:TGTGT、AACGTT、CGTTCG、AGCGCT、GACGTC、GACGTT
5)CpG島:CGCGCGCG
6)聚合酶滑動位點:GGGGGG,CCCCCC
7)澱粉樣蛋白前驅蛋白3主要穩定性元件:TCTCTTTACATTTTGGTCTCTATA CTACA(SEQ ID NO:6)
8)K盒:CTGTGATA
9)Brd盒:AGCTTTA
在通過NSGA-III進行密碼子優化期間,將群體大小設定為100且個體係二進制編碼且隨機產生的,其中長度等於蛋白質胺基酸數目之3倍,進化代數等於200,000,劃分次數視適應度函數之數目而定,模擬二進制交叉之分配指數為15.0,模擬二進制交叉之單點交叉率為0.9,位元翻轉突變之突變率為1.0/L,位元翻轉突變之分配指數為20.0。
在使協調指數及密碼子背景指數最大化並且使離群指數最小化之後,各蛋白質具有若干輸出之最佳編碼基因,其中僅選擇具有最大協調指數之一個基因用於隨後之表現測試。由於EcoRI及HindIII酶用於載體構築及選殖, 故藉由密碼子取代來回避GAATTC及AAGCTT。
本文以ASCII文本文件提交之序列表包括兩種蛋白質GFP_Flag(SEQ ID NO:7)及JNK3_Flag(SEQ ID NO:8)之優化序列。
下文描述用於評估優化基因相對於相同基因之野生型之效能的詳細實驗步驟。
1.使用EcoRI及HindIII酶將合成之基因選殖至pTT5載體中。將CHO 3E7細胞在自由式CHO表現培養基中培養且使用標準分子生物學技術以適合之細胞-載體比進行載體之瞬時轉染(亦即,相較於載體濃度1ug/ml細胞密度為每毫升1-1.2×106個)
2.在瞬時轉染之後,CHO 3E7細胞需要在5% CO2存在下在37℃下懸浮培養,此持續48小時。
1.自上游得到培養之細胞,在4℃下離心(10,000 x g)2min。棄去上清液。
2.添加1mL 1*PBS以再懸浮在艾本德管(Eppendorf tube)底部之細胞。接著在4℃下離心(10,000 x g)2min且棄去上清液。
3.每1*106個細胞添加200μL溶解緩衝液(低滲緩衝液[10mM Tris,1.5mM MgCl2,10mM KCl,pH 7.9]+0.5% DDM、PMSF[最終濃度1mM]、核酸酶混合物)至艾本德管中。使用移液管使細胞再懸浮。
4.將細胞放置於杯型超音波細胞破碎器中用於進行細胞破碎(4℃,3s超音波,1s間隔,總計10min)。
5.在破碎之後,在4℃下離心(12,000 x g)20min。回收上清液。
1.使用BCA法量測上清液之濃度。
2.將部分上清液用加載緩衝液處理。
1.加載經處理之樣品用於根據SOP進行SDS-PAGE。(每一樣品8μg)
2.在電泳之後,根據SOP進行西方墨點法實驗:
1)轉移:在SDS-PAGE之後移去凝膠,且將蛋白質自凝膠轉移至PVDF膜(轉移緩衝液:將200mL 5x轉移溶液添加至150mL之絕對乙醇中且稀釋至1L,且轉移1h)。
2)阻斷:在轉移之後,用快速阻斷溶液將PVDF阻斷10min。
3)孵育:在阻斷之後,與5%牛乳及對應經標記抗體一起孵育45min。(Flag標籤:1:5000稀釋之小鼠-抗-flag mAb GenScript,目錄號A00187,且添加1:1000稀釋之THETM β肌動蛋白抗體mAb小鼠GenScript,目錄號A00702持續1h,接著添加1:2500稀釋之經標記之第二抗體山羊抗小鼠IgG-HRP GenScript,目錄號A00160)
4)曝光:在抗體孵育之後使用ChemiDocTM接觸成像系統進行曝光成像,且將圖像保存至指定位置以進行編輯。
5)使用Image Lab進行蛋白質定量分析。
圖3為西方墨點法結果,其說明根據本揭示案之一實施例兩個基因(亦即,GFP及JNK3A1)之優化序列與野生型之間在CHO 3E7細胞株中之表現的比較,其中僅測試各基因中具有最高協調指數的優化解的表現比較。明顯證實本發明對於密碼子優化為有效的且相對於幾乎不變之內部對照β-肌動蛋白加強表現。左側泳道總為梯形帶標記物,且單一質粒之每一表現重複兩次。根據粗定量分析,估計在本發明之密碼子優化之後GFP之表現改良約6.2倍,且JNK3之表現提昇約2.4倍。
圖4說明根據一個實施例之計算裝置之實例。裝置400可為連接至網路之主電腦。裝置400可為客戶端電腦或伺服器。如圖4中所示,裝置400可為任何適合類型之基於微處理器之裝置,諸如個人電腦、工作站、伺服器或手持計算裝置(便攜式電子裝置),諸如電話或平板電腦。裝置可包括例如以下中之一或多者:處理器410、輸入裝置420、輸出裝置430、存儲裝置440及通信裝置460。輸入裝置420及輸出裝置430可總體上對應於上文所描述之彼等裝置,且可為與電腦可連接或整合的。
輸入裝置420可為提供輸入之任何適合之裝置,諸如觸摸屏、鍵盤或按鍵、鼠標或語音識別裝置。輸出裝置430可為提供輸出之任何適合之裝置,諸如觸摸屏、觸覺裝置或揚聲器。
存儲裝置440可為提供存儲之任何適合之裝置,諸如電學、磁性或光學記憶體,包括RAM、高速緩衝記憶體、硬盤驅動器或可移動存儲磁盤。通信裝置460可包括能夠經網路傳輸及接收信號的任何適合之裝置,諸如網路介面晶片或裝置。電腦組件可以任何適合之方式連接,諸如經由物理匯流排連接或無線連接。
軟體450可存儲於存儲裝置440中且由處理器410執行,其可包括例如使本揭示案之功能性具體化(例如如在如上文所描述之裝置中具體化)的程式設計。
軟體450亦可在任何非暫時電腦可讀存儲媒體內存儲及/或輸送,用於由指令執行系統、設備或裝置(諸如上文所描述之彼等)使用或與其結合使用,其可自指令執行系統、設備或裝置獲取與軟體相關之指令且執行指令。在本揭示案之上下文中,電腦可讀存儲媒體可為諸如存儲裝置440之任何媒體,其可含有或存儲由指令執行系統、設備或裝置使用或與其結合使用的程式設計。
軟體450亦可在任何輸送媒體內傳送以便由指令執行系統、設備或裝置(諸如上文所描述之彼等)使用或與其結合使用,其可自指令執行系統、設備或裝置獲取與軟體相關之指令且執行指令。在本揭示案之上下文中,輸送媒體可為可通信、傳送或輸送程式設計以便由指令執行系統、設備或裝置使用或與其結合使用之任何媒體。輸送可讀媒體可包括但不限於電子、磁性、光學、電磁或紅外有線或無線傳送媒體。
裝置400可連接至網路,其可為任何適合類型之互連通信系統。網路可實現任何適合之通信協議且可藉由任何適合之安全協議確保安全。網路可包含可實現網路信號之傳輸及接收的任何適當佈置之網路連接線,諸如無線網路連接、T1或T3線、電纜網路、DSL或電話線。
裝置400可實現適合於在網路上操作之任何操作系統。軟體450可以任何適合之編程語言編寫,諸如C、C++、Java或Python。在各個實施例中,使本揭示案之功能性具體化的應用軟體可以不同組態加以部署,諸如呈客戶端/伺服器佈置或通過網頁瀏覽器作為例如基於網路之應用或網路服務。
雖然已參考附圖充分描述本揭示案及實例,但應注意各種變化及修改對熟習此項技術者而言將變得顯而易見。此類變化及修改應被理解為包括在如由申請專利範圍所限定之本揭示案及實例的範疇內。
出於解釋之目的,已參考特定實施例對前述說明書進行描述。然而,以上說明性論述不旨在為詳盡的或將本發明限制於所揭示之精確形式。鑒於以上教示,許多修改及變化為可能的。選擇及描述實施例以最佳地解釋該等技術之原理及其實際應用。因此,在適合於所設想之特定用途時,其他熟習此項技術者能夠在進行各種修改之情況下最佳地利用該等技術及各個實施例。
<110> 南京金斯瑞生物科技有限公司
<120> 密碼子優化
<130> 75989-20004.40
<140> 尚未分配
<141> 2019-07-30
<150> PCT/CN2018/097745
<151> 2018-07-30
<160> 8
<170> 用於Windows之FastSEQ版本4.0
<210> 1
<211> 5
<212> RNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 2
<211> 13
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 3
<211> 6
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 4
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 5
<211> 10
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 6
<211> 29
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 7
<211> 738
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
<210> 8
<211> 1290
<212> DNA
<213> 人工序列
<220>
<223> 合成之構築體
Claims (42)
- 一種用於針對蛋白質在宿主中之表現對核酸序列進行優化之電腦實現方法,該電腦實現方法包括:a)接收初始群體集合,其中該初始群體集合包含能夠表現該蛋白質之複數個初始候選核酸序列;及b)基於該初始群體集合,使用電腦輔助NSGA-III算法或其變化型式對協調指數、密碼子背景指數及離群指數進行優化,由此獲得能夠表現該蛋白質之複數個優化核酸序列,其中候選核酸序列之該協調指數指示複數個高度表現之基因與該候選核酸序列之間的同義密碼子使用頻率分佈之一致性,其中該候選核酸序列之該密碼子背景指數為用於將同義密碼子放至適合之位置的量度,且其中該候選核酸序列之該離群指數為該候選者核酸序列上之複數個預定序列特徵的負面影響之量度。
- 如申請專利範圍第1項所記載之方法,其進一步包括提供指示該複數個優化核酸序列之至少一個優化核酸序列的輸出。
- 如申請專利範圍第1項及第2項中任一項所記載之方法,其中接收初始群體集合包括:接收蛋白質序列;基於所接收之蛋白質序列產生該初始群體集合。
- 如申請專利範圍第1項及第2項中任一項所記載之方法,其中接收初始群體集合包括:接收核酸序列;將所接收之核酸序列轉譯為蛋白質序列; 基於該蛋白質序列產生該初始群體集合。
- 如申請專利範圍第1項至第4項中任一項所記載之方法,其中該初始群體集合具有預定大小。
- 如申請專利範圍第1項至第5項中任一項所記載之方法,其中該初始群體集合包括該複數個初始候選核酸序列之二進制表示。
- 如申請專利範圍第1項至第6項中任一項所記載之方法,其中對協調指數、密碼子背景指數及離群指數進行優化包括:使該協調指數最大化;使該密碼子背景指數最大化;及使該離群指數最小化。
- 如申請專利範圍第1項至第7項中任一項所記載之方法,其中對協調指數、密碼子背景指數及離群指數進行優化包括:針對該初始群體集合之各初始候選核酸序列,計算各別初始候選核酸序列之各別協調指數值、各別密碼子背景指數值及各別離群指數值;基於該計算,分配對應於該複數個初始候選核酸序列之複數個適應度值;基於該複數個適應度值,對該複數個初始候選核酸序列進行分選;及將分選之複數個初始候選核酸序列的子集包括於後續群體集合中。
- 如申請專利範圍第8項所記載之方法,其進一步包括:基於該初始群體產生後代群體;及將該後代群體包括於該後續群體集合中。
- 如申請專利範圍第9項所記載之方法,其中該後代群體係經由二元錦標賽選擇、交叉/重組、突變或其任何組合來產生。
- 如申請專利範圍第8項至第10項中任一項所記載之方法,其中該初始群體集合與該後續群體集合具有相同大小。
- 如申請專利範圍第1項至第11項中任一項所記載之方法,其中對協調指數、密碼子背景指數及離群指數進行優化包括複數次迭代,其中該複數次迭代之第i次迭代包括:接收對應於第(i-1)次迭代之核酸序列的群體集合;使對應於該第(i-1)次迭代之該群體集合之各核酸序列與非支配等級相關聯;基於相關非支配等級對對應於該第(i-1)次迭代之該群體集合中之該等核酸序列進行分選;產生對應於該第i次迭代之群體集合,其中對應於該第i次迭代之該群體集合包括對應於該第(i-1)次迭代之分選核酸序列的子集及基於對應於該第(i-1)次迭代之分選核酸序列產生的後代群體;及基於一或多種終止條件確定是否使用對應於該第i次迭代之該群體集合進行第(i+1)次迭代。
- 如申請專利範圍第12項所記載之方法,其中使各核酸序列與非支配等級相關聯包括:針對對應於該第(i-1)次迭代之該群體集合之各核酸序列,計算各別協調指數值、各別密碼子背景指數值及各別離群指數值。
- 如申請專利範圍第10項至第11項中任一項所記載之方法,其中產生對應於該第i次迭代之群體集合包括:使對應於該第(i-1)次迭代之該分選核酸序列的至少一個核酸序列與複數個預定參考點中之一者相關聯。
- 如申請專利範圍第10項至第12項中任一項所記載之方法,其中該一或多種終止條件包括:達至固定迭代次數、最佳適應度達至平台期且未產生更好之結果、一些解滿足了近最優解之最低準則或其任何組合。
- 如申請專利範圍第1項至第15項中任一項所記載之方法,其中候選核酸序列 之該協調指數係基於下式來計算:H=1-D( F hs ,F ts ),其中D()指示距離函數;其中F hs包括一向量,其包含複數個高度表現之基因內複數個胺基酸之同義密碼子的頻率;且其中F ts包括一向量,其包含該候選核酸序列之編碼基因內該複數個胺基酸之同義密碼子的頻率。
- 如申請專利範圍第16項所記載之方法,其中D()指示量測兩個向量之間的距離之函數。
- 如申請專利範圍第17項所記載之方法,其中D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離(Euclidean distance)、餘弦距離(Cosine distance)、曼哈頓距離(Manhattan distance)或明可司基距離(Minkowski distance)。
- 如申請專利範圍第1項至第19項中任一項所記載之方法,其中候選核酸序列之該密碼子背景指數係基於下式來計算:CC=1-D( F hcc ,F tcc ),其中D()指示距離函數;其中F hcc包含一向量,其包含複數個高度表現之基因內兩個連續胺基酸之同義密碼子對的頻率;且其中F tcc包含一向量,其包含該候選核酸序列之編碼基因內兩個連續胺基酸之同義密碼子對的頻率。
- 如申請專利範圍第20項所記載之方法,其中D()指示量測兩個向量之間的距離之函數。
- 如申請專利範圍第21項所記載之方法,其中D()為距離函數,其包括但不限於:兩個向量之歐幾里德距離、餘弦距離、曼哈頓距離或明可司基距離。
- 如申請專利範圍第24項所記載之方法,其中該複數個預定特徵包括:GC含量值,CIS元件,重複元件,RNA剪接位點,核糖體結合序列,mRNA之最小自由能,或其任何組合。
- 如申請專利範圍第24項所記載之方法,其中該複數個預定特徵係基於所選擇之表現系統來鑑定。
- 如申請專利範圍第1項至第26項中任一項所記載之方法,其中該NSGA-III算法之變化型式包括EliteNSGA-III算法或基於NSGA-II之免疫算法。
- 如申請專利範圍第1項至第27項中任一項所記載之方法,其中對協調指數、密碼子背景指數及離群指數進行優化包括:按遞減順序之協調指數,接著按遞減順序之密碼子背景指數,且接著按遞增順序之離群指數對該複數個優化核酸序列進行排序;選擇一或多個排序靠前之優化核酸序列用於合成。
- 如申請專利範圍第1項至第28項中任一項所記載之方法,其進一步包括:c)自該複數個優化核酸序列之優化核酸序列移除預定有害子序列或基元。
- 如申請專利範圍第29項所記載之方法,其中該預定有害子序列或基元係基於對複數個背景部分之分析來鑑定。
- 如申請專利範圍第29項所記載之方法,其中移除該預定有害子序列或基元包括:鑑定該優化核酸序列中之該預定有害子序列或基元;基於所鑑定之預定有害子序列或基元鑑定複數個同義密碼子;自該複數個同義密碼子選擇同義密碼子以便取代該優化核酸序列中之該所鑑定之預定有害子序列。
- 如申請專利範圍第1項至第31項中任一項所記載之方法,其中該協調指數、該密碼子背景指數及該離群指數中之至少一者係基於來自一或多個資料庫之複數個高度表現之基因的一或多個特徵來計算。
- 如申請專利範圍第32項所記載之方法,其中該一或多個特徵包括密碼子頻率、同義密碼子頻率、密碼子對頻率或其組合。
- 如申請專利範圍第1項至第33項中任一項所記載之方法,其進一步包括:設定一或多個參數,其中該一或多個參數包括群體集合大小、劃分次數、模擬二進制交叉之分配指數、模擬二進制交叉之交叉率、位元翻轉突變之突變率、位元翻轉突變之分配指數或其任何組合。
- 一種存儲一或多個程式之非暫時電腦可讀存儲媒體,該一或多個程式包含指令,該等指令當由電子裝置之一或多個處理器執行時,使得該電子裝置執行如申請專利範圍第1項至第34項中任一項所記載之方法。
- 一種用於針對蛋白質在宿主中之表現對核酸序列進行優化的系統,該系統包括:一或多個處理器;一記憶體;及一或多個程式,其中該一或多個程式存儲在該記憶體中且經配置由該一或多個處理器執行,該一或多個程式包括用於執行如申請專利範圍第1項至第34項中任一項所記載之方法的指令。
- 一種用於針對蛋白質在宿主中之表現對核酸序列進行優化的電子裝置,該裝置包括用於執行如申請專利範圍第1項至第34項中任一項所記載之方法的構件。
- 一種存儲於可記錄媒體上用於針對蛋白質在宿主中之表現對核酸序列進行優化的程式產品,該程式產品包括用於執行如申請專利範圍第1項至第34項中任一項所記載之方法的電腦軟體。
- 一種經分離之核酸分子,其包含獲自如申請專利範圍第1項至第34項中任一項所記載之方法的該優化核酸序列。
- 一種載體,其包含如申請專利範圍第39項所記載之經分離之核酸分子。
- 一種重組宿主細胞,其包含如申請專利範圍第39項所記載之經分離之核酸分子或如申請專利範圍第40項所記載之載體。
- 一種在宿主細胞中表現蛋白質之方法,該方法包括:(a)獲得用於使用如申請專利範圍第1項至第34項中任一項所記載之方法在該宿主細胞中表現該蛋白質的優化核酸序列; (b)合成包含該優化核酸序列的核酸分子;(c)將該核酸分子引入該宿主細胞中以獲得重組宿主細胞;及(d)在允許該蛋白質由該優化核酸序列表現之條件下培養該重組宿主細胞。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNPCT/CN2018/097745 | 2018-07-30 | ||
CN2018097745 | 2018-07-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
TW202008379A true TW202008379A (zh) | 2020-02-16 |
TWI802728B TWI802728B (zh) | 2023-05-21 |
Family
ID=69232314
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
TW108127054A TWI802728B (zh) | 2018-07-30 | 2019-07-30 | 密碼子優化方法、包括其之系統及電子裝置、其核酸分子及使用其之蛋白質表現方法 |
Country Status (8)
Country | Link |
---|---|
US (1) | US20210366574A1 (zh) |
EP (1) | EP3830830A4 (zh) |
JP (1) | JP7542443B2 (zh) |
KR (1) | KR20210037611A (zh) |
CN (1) | CN112513989B (zh) |
SG (1) | SG11202011455SA (zh) |
TW (1) | TWI802728B (zh) |
WO (1) | WO2020024917A1 (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735525A (zh) * | 2021-01-18 | 2021-04-30 | 江苏普瑞康生物医药科技有限公司 | 一种基于分治法的mRNA序列优化的方法与装置 |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA3177907A1 (en) * | 2020-05-07 | 2021-11-11 | Translate Bio, Inc. | Generation of optimized nucleotide sequences |
US20240271122A1 (en) * | 2021-04-14 | 2024-08-15 | Opentrons LabWorks Inc. | Methods for codon optimization and uses thereof |
JP2023077518A (ja) | 2021-11-25 | 2023-06-06 | 三星電子株式会社 | 液晶表示装置および表示装置 |
WO2023242343A1 (en) | 2022-06-15 | 2023-12-21 | Immunoscape Pte. Ltd. | Human t cell receptors specific for antigenic peptides derived from mitogen-activated protein kinase 8 interacting protein 2 (mapk8ip2), epstein-barr virus or human endogenous retrovirus, and uses thereof |
DE102022118459A1 (de) | 2022-07-22 | 2024-01-25 | Proteolutions UG (haftungsbeschränkt) | Verfahren zur optimierung einer nukleotidsequenz für die expression einer aminosäuresequenz in einem zielorganismus |
WO2024067780A1 (zh) * | 2022-09-30 | 2024-04-04 | 南京金斯瑞生物科技有限公司 | 一种降低外源核酸免疫原性的密码子优化 |
CN116072231B (zh) * | 2022-10-17 | 2024-02-13 | 中国医学科学院病原生物学研究所 | 基于氨基酸序列的密码子优化设计mRNA疫苗的方法 |
CN115440300B (zh) * | 2022-11-07 | 2023-01-20 | 深圳市瑞吉生物科技有限公司 | 一种密码子序列优化方法、装置、计算机设备及存储介质 |
WO2024109911A1 (zh) * | 2022-11-24 | 2024-05-30 | 南京金斯瑞生物科技有限公司 | 密码子优化 |
GB2628173A (en) | 2023-03-17 | 2024-09-18 | Thermo Fisher Scient Geneart Gmbh | Methods of producing modified nucleic acid sequences for eliminating adverse splicing events |
FR3147291A1 (fr) | 2023-03-28 | 2024-10-04 | Compagnie Generale Des Etablissements Michelin | Utilisation de polykétide synthases de type III de cyanobactéries comme phloroglucinol synthases |
FR3147290A1 (fr) | 2023-03-28 | 2024-10-04 | Compagnie Generale Des Etablissements Michelin | Utilisation de polykétide synthases de type III de champignons Ascomycètes comme phloroglucinol synthases |
CN116168764B (zh) * | 2023-04-25 | 2023-06-30 | 深圳新合睿恩生物医疗科技有限公司 | 信使核糖核酸的5'非翻译区序列优化方法及装置、设备 |
WO2024259084A1 (en) * | 2023-06-13 | 2024-12-19 | Nutcracker Therapeutics, Inc. | Customized codon sequences |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2637271C (en) * | 2006-02-21 | 2014-12-09 | Chromagenics B.V. | Selection of host cells expressing protein at high levels |
BRPI0713795B1 (pt) * | 2006-06-29 | 2018-03-20 | Dsm Ip Assets B.V. | Método de otimização de uma sequência de nucleotídeos codificadora que codifica uma sequência de aminoácidos predeterminada |
US8768871B2 (en) * | 2008-02-12 | 2014-07-01 | Codexis, Inc. | Method of generating an optimized, diverse population of variants |
US8326547B2 (en) * | 2009-10-07 | 2012-12-04 | Nanjingjinsirui Science & Technology Biology Corp. | Method of sequence optimization for improved recombinant protein expression using a particle swarm optimization algorithm |
US20130011909A1 (en) * | 2011-06-30 | 2013-01-10 | Texas Tech University System | Methods and composition to enhance production of fully functional p-glycoprotein in pichia pastoris |
CN102864141A (zh) * | 2012-09-13 | 2013-01-09 | 成都生物制品研究所有限责任公司 | 一种构建大容量同义密码库及优化基因模板的方法 |
SG10201602115PA (en) * | 2012-09-19 | 2016-05-30 | Univ Singapore | Codon optimization of a synthetic gene(s) for protein expression |
WO2016040476A1 (en) * | 2014-09-09 | 2016-03-17 | The Broad Institute, Inc. | A droplet-based method and apparatus for composite single-cell nucleic acid analysis |
EP3218508A4 (en) * | 2014-11-10 | 2018-04-18 | Modernatx, Inc. | Multiparametric nucleic acid optimization |
EP3050962A1 (en) * | 2015-01-28 | 2016-08-03 | Institut Pasteur | RNA virus attenuation by alteration of mutational robustness and sequence space |
JP2019095819A (ja) * | 2016-03-31 | 2019-06-20 | 株式会社インテック | 情報処理装置及びプログラム |
US11848074B2 (en) * | 2016-12-07 | 2023-12-19 | Gottfried Wilhelm Leibniz Universität Hannover | Codon optimization |
CN106834313B (zh) * | 2017-02-21 | 2020-10-02 | 中国科学院亚热带农业生态研究所 | 人工优化合成的Pat#基因与重组载体以及改变作物抗性的方法 |
CN108363905B (zh) * | 2018-02-07 | 2019-03-08 | 南京晓庄学院 | 一种用于植物外源基因改造的CodonPlant系统及其改造方法 |
-
2019
- 2019-07-30 EP EP19843284.1A patent/EP3830830A4/en active Pending
- 2019-07-30 TW TW108127054A patent/TWI802728B/zh active
- 2019-07-30 KR KR1020207035094A patent/KR20210037611A/ko unknown
- 2019-07-30 SG SG11202011455SA patent/SG11202011455SA/en unknown
- 2019-07-30 CN CN201980050408.0A patent/CN112513989B/zh active Active
- 2019-07-30 WO PCT/CN2019/098258 patent/WO2020024917A1/en unknown
- 2019-07-30 JP JP2020566849A patent/JP7542443B2/ja active Active
- 2019-07-30 US US17/257,208 patent/US20210366574A1/en active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112735525A (zh) * | 2021-01-18 | 2021-04-30 | 江苏普瑞康生物医药科技有限公司 | 一种基于分治法的mRNA序列优化的方法与装置 |
CN112735525B (zh) * | 2021-01-18 | 2023-12-26 | 苏州科锐迈德生物医药科技有限公司 | 一种基于分治法的mRNA序列优化的方法与装置 |
Also Published As
Publication number | Publication date |
---|---|
SG11202011455SA (en) | 2020-12-30 |
KR20210037611A (ko) | 2021-04-06 |
JP7542443B2 (ja) | 2024-08-30 |
US20210366574A1 (en) | 2021-11-25 |
EP3830830A4 (en) | 2022-05-11 |
CN112513989A (zh) | 2021-03-16 |
WO2020024917A1 (en) | 2020-02-06 |
EP3830830A1 (en) | 2021-06-09 |
JP2021532439A (ja) | 2021-11-25 |
TWI802728B (zh) | 2023-05-21 |
CN112513989B (zh) | 2022-03-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI802728B (zh) | 密碼子優化方法、包括其之系統及電子裝置、其核酸分子及使用其之蛋白質表現方法 | |
Hossain et al. | Automated design of thousands of nonrepetitive parts for engineering stable genetic systems | |
Taft et al. | Deep mutational learning predicts ACE2 binding and antibody escape to combinatorial mutations in the SARS-CoV-2 receptor-binding domain | |
Öztürk-Çolak et al. | FlyBase: updates to the Drosophila genes and genomes database | |
Yona et al. | Random sequences rapidly evolve into de novo promoters | |
Raab et al. | The GeneOptimizer Algorithm: using a sliding window approach to cope with the vast sequence space in multiparameter DNA sequence optimization | |
Gustafsson et al. | Codon bias and heterologous protein expression | |
Schug et al. | Promoter features related to tissue specificity as measured by Shannon entropy | |
Karnik et al. | SDM-Assist software to design site-directed mutagenesis primers introducing “silent” restriction sites | |
US20210317445A1 (en) | System and method for gene editing cassette design | |
Liu et al. | COStar: a D-star Lite-based dynamic search algorithm for codon optimization | |
JP2009538131A (ja) | 配列モチーフを同定するための方法、およびその応用 | |
Baisya et al. | Genome-wide functional screens enable the prediction of high activity CRISPR-Cas9 and-Cas12a guides in Yarrowia lipolytica | |
EP4182928B1 (en) | Method, system and computer program product for determining presentation likelihoods of neoantigens | |
Duan et al. | Deciphering the rules of ribosome binding site differentiation in context dependence | |
Han et al. | An integrative network-based approach for drug target indication expansion | |
Barazandeh et al. | Utrgan: Learning to generate 5’utr sequences for optimized translation efficiency and gene expression | |
EP1512749A2 (en) | DNA to be introduced into biogenic gene, gene introducing vector, cell, and method for introducing information into biogenic gene | |
Nasser et al. | Multiple sequence alignment using fuzzy logic | |
WO2001048640A1 (fr) | Procede et dispositif de calcul de la solution d'optimisation d'une sequence d'acides amines de proteines mutantes multiples, et support de stockage du programme permettant l'execution dudit procede | |
CN117153259A (zh) | 一种基于卷积神经网络预测哺乳动物家畜增强子序列的装置、方法及计算机可读存储介质 | |
WO2024067780A1 (zh) | 一种降低外源核酸免疫原性的密码子优化 | |
Barazandeh et al. | Learning to Generate 5’UTR Sequences for Optimized Ribosome Load and Gene Expression | |
WO2008059642A1 (fr) | Procédé pour la prédiction d'une structure d'acide nucléique d'ordre supérieur, appareil pour la prédiction d'une structure d'acide nucléique d'ordre supérieur et programme pour la prédiction d'une structure d'acide nucléique d'ordre supérieur | |
US20220246235A1 (en) | System and method for gene editing cassette design |