JPWO2020167667A5 - - Google Patents

Download PDF

Info

Publication number
JPWO2020167667A5
JPWO2020167667A5 JP2021546841A JP2021546841A JPWO2020167667A5 JP WO2020167667 A5 JPWO2020167667 A5 JP WO2020167667A5 JP 2021546841 A JP2021546841 A JP 2021546841A JP 2021546841 A JP2021546841 A JP 2021546841A JP WO2020167667 A5 JPWO2020167667 A5 JP WO2020167667A5
Authority
JP
Japan
Prior art keywords
model
protein
computer
implemented method
neural net
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2021546841A
Other languages
Japanese (ja)
Other versions
JP7492524B2 (en
JP2022521686A (en
Publication date
Application filed filed Critical
Priority claimed from PCT/US2020/017517 external-priority patent/WO2020167667A1/en
Publication of JP2022521686A publication Critical patent/JP2022521686A/en
Publication of JPWO2020167667A5 publication Critical patent/JPWO2020167667A5/ja
Application granted granted Critical
Publication of JP7492524B2 publication Critical patent/JP7492524B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

上記説明及び例では、特定の数のサンプルサイズ、反復、エポック、バッチサイズ、学習速度、精度、データ入力サイズ、フィルタ、アミノ酸配列、及び他の数字が調整又は最適化可能であるが、当業者は認識することができる。特定の態様が実施例に記載されるが、実施例に列記された数字は非限定的である。
なお、本発明は、実施の態様として以下の内容を含む。
〔態様1〕
所望のタンパク質特性をモデリングする方法であって、
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、前記事前トレーニング済みシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる、提供することと、
(b)前記事前トレーニング済みシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様2〕
前記第1及び第2のシステムの前記ニューラルネットエンベッダーのアーキテクチャは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、及びMobileNetの少なくとも1つから独立して選択される畳み込みアーキテクチャである、態様1に記載の方法。
〔態様3〕
前記第1のシステムは、条件付き敵対的生成ネットワーク(GAN)、DCGAN、CGAN、SGAN若しくはプログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANから選択される敵対的生成ネットワーク(GAN)を含む、態様1に記載の方法。
〔態様4〕
前記第1のシステムは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークから選択されるリカレントニューラルネットワークを含む、態様3に記載の方法。
〔態様5〕
前記第1のシステムは変分自動エンコーダ(VAE)を含む、態様3に記載の方法又はシステム。
〔態様6〕
前記エンベッダーは、少なくとも50、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又はそれ以上のアミノ酸配列のセットでトレーニングされる、態様1~5のいずれか一態様記載の方法。
〔態様7〕
前記アミノ酸配列は、GP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、又はOrthoDBの少なくとも1つを含む1つ又は複数の機能表現にわたるアノテーションを含む、態様6に記載の方法。
〔態様8〕
前記アミノ酸配列は、少なくとも約1万、2万、3万、4万、5万、7.5万、10万、12万、14万、15万、16万、又は17万の可能なアノテーションを有する、態様7に記載の方法。
〔態様9〕
前記第2のモデルは、前記第1のモデルの前記転移されたエンベッダーを使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する、態様1~8のいずれか一態様記載の方法。
〔態様10〕
前記第1又は第2のシステムは、Adam、RMSプロップ、モメンタムを用いる確率的勾配降下(SGD)、モメンタム及びNestrov加速勾配を用いるSGD、モメンタムなしのSGD、Adagrad、Adadelta、又はNAdamにより最適化される、態様1~9のいずれか一態様記載の方法。
〔態様11〕
前記第1及び第2のモデルは、以下の活性化関数のいずれかを使用して最適化することができる:ソフトマックス、elu、SeLU、ソフトプラス、ソフトサイン、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及びLeaskyReLU、又は線形、態様1~10のいずれか一態様記載の方法。
〔態様12〕
前記ニューラルネットエンベッダーは、少なくとも10、50、100、250、500、750、1000、又はそれ以上の層を含み、前記予測子は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の層を含む、態様1~11のいずれか一態様記載の方法。
〔態様13〕
前記第1又は第2のシステムの少なくとも一方は、早期停止、L1-L2正則化、スキップ接続、又はそれらの組合せから選択される正則化を利用し、前記正則化は1、2、3、4、5、又はそれ以上の層で実行される、態様1~12のいずれか一態様記載の方法。
〔態様14〕
前記正則化はバッチ正規化を使用して実行される、態様13に記載の方法。
〔態様15〕
前記正則化はグループ正規化を使用して実行される、態様13に記載の方法。
〔態様16〕
前記第2のシステムの第2のモデルは、前記第1のモデルの最後の層が除去される前記第1のシステムの第1のモデルを含む、態様1~15のいずれか一態様記載の方法。
〔態様17〕
前記第1のモデルの2、3、4、5、又はそれ以上の層は、前記第2のモデルへの転移において除去される、態様16に記載の方法。
〔態様18〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結される、態様16又は17に記載の方法。
〔態様19〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結されない、態様16又は17に記載の方法。
〔態様20〕
前記第2のモデルは、前記第1のモデルの前記転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する、態様17~19のいずれか一態様記載の方法。
〔態様21〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する、態様1~20のいずれか一態様記載の方法。
〔態様22〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質蛍光を予測する、態様1~21のいずれか一態様記載の方法。
〔態様23〕
前記第2のシステムの前記ニューラルネット予測子は、酵素活性を予測する、態様1~22のいずれか一態様記載の方法。
〔態様24〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であって、
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。
〔態様25〕
前記アミノ酸配列は一次タンパク質構造を含む、態様24に記載の方法。
〔態様26〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様24又は25に記載の方法。
〔態様27〕
前記タンパク質機能は蛍光を含む、態様24~26のいずれか一態様記載の方法。
〔態様28〕
前記タンパク質機能は酵素活性を含む、態様24~27のいずれか一態様記載の方法。
〔態様29〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様24~28のいずれか一態様記載の方法。
〔態様30〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様24~29のいずれか一態様記載の方法。
〔態様31〕
前記複数のタンパク質特性及び前記複数のアミノ酸配列は、UniProtからのものである、態様24~30のいずれか一態様記載の方法。
〔態様32〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様24~31のいずれか一態様記載の方法。
〔態様33〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を形成する、態様24~32のいずれか一態様記載の方法。
〔態様34〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様24~33のいずれか一態様記載の方法。
〔態様35〕
前記第2の機械学習モジュールに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを入力することを含む、態様24~34のいずれか一態様記載の方法。
〔態様36〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様24~35のいずれか一態様記載の方法。
〔態様37〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様24~36のいずれか一態様記載の方法。
〔態様38〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様24~37のいずれか一態様記載の方法。
〔態様39〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様38に記載の方法。
〔態様40〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様38又は39に記載の方法。
〔態様41〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様24~40のいずれか一態様記載の方法。
〔態様42〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様41に記載の方法。
〔態様43〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様24~42のいずれか一態様記載の方法。
〔態様44〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであって、
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。
〔態様45〕
前記アミノ酸配列は一次タンパク質構造を含む、態様44に記載のシステム。
〔態様46〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様44又は45に記載のシステム。
〔態様47〕
前記タンパク質機能は蛍光を含む、態様44~46のいずれか一態様記載のシステム。
〔態様48〕
前記タンパク質機能は酵素活性を含む、態様44~47のいずれか一態様記載のシステム。
〔態様49〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様44~48のいずれか一態様記載のシステム。
〔態様50〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様44~49のいずれか一態様記載のシステム。
〔態様51〕
前記複数のタンパク質特性及び複数のタンパク質マーカは、UniProtからのものである、態様44~50のいずれか一態様記載のシステム。
〔態様52〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様44~51のいずれか一態様記載のシステム。
〔態様53〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を含む、態様44~52のいずれか一態様記載のシステム。
〔態様54〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様44~53のいずれか一態様記載のシステム。
〔態様55〕
前記ソフトウェアは、前記プロセッサに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを前記第2の機械学習モジュールに入力させるように構成される、態様44~54のいずれか一態様記載のシステム。
〔態様56〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様44~55のいずれか一態様記載のシステム。
〔態様57〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様44~56のいずれか一態様記載のシステム。
〔態様58〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様44~57のいずれか一態様記載のシステム。
〔態様59〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様58に記載のシステム。
〔態様60〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様58又は59に記載のシステム。
〔態様61〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様44~60のいずれか一態様記載のシステム。
〔態様62〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様61に記載のシステム。
〔態様63〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様44~62のいずれか一態様記載のシステム。
〔態様64〕
所望のタンパク質特性をモデリングする方法であって、
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び第1のデコーダを含み、事前トレーニング済みのシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、トレーニングすることと、
前記事前トレーニング済みシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様65〕
タンパク質検体の前記一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである、態様64に記載の方法。
〔態様66〕
前記第1のデータセットは、複数のクラスのタンパク質を含む1組のタンパク質を含む、態様64又は65に記載の方法。
〔態様67〕
前記第2のデータセットは、タンパク質の前記クラスの1つである、態様64~66のいずれか一態様記載の方法。
〔態様68〕
タンパク質の前記クラスの1つは酵素である、態様64~67のいずれか一態様記載の方法。
〔態様69〕
態様64~68のいずれか一態様記載の方法を実行する構成されたシステム。
In the above descriptions and examples, the specific numbers of sample sizes, iterations, epochs, batch sizes, learning speeds, accuracies, data input sizes, filters, amino acid sequences, and other numbers can be adjusted or optimized, but those skilled in the art may can be recognized. Although certain aspects are described in the examples, the numbers listed in the examples are non-limiting.
In addition, this invention includes the following contents as a mode of implementation.
[Aspect 1]
A method of modeling a desired protein property comprising:
(a) providing a first pre-trained system comprising a first neural net embedder and a first neural net predictor, wherein said first neural net predictor of said pre-trained system; is different from the desired protein property; and
(b) transferring at least a portion of said first neural net embedder of said pretrained system to a second system, said second system comprising a second neural net embedder and a second neural net embedder; transferring, comprising two neural net predictors, wherein the second neural net predictor of the second system provides the desired protein property;
(c) analyzing a primary amino acid sequence of a protein sample by said second system, thereby generating a prediction of said desired protein profile of said protein sample;
method including.
[Aspect 2]
The architectures of the neural net embedders of the first and second systems are VGG16, VGG19, Deep ResNet, Inception/GoogLeNet (V1-V4), Inception/GoogLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet. , and MobileNet.
[Aspect 3]
The first system comprises a conditional generative adversarial network (GAN), a generative adversarial network (GAN) selected from DCGAN, CGAN, SGAN or progressive GAN, SAGAN, LSGAN, WGAN, EBGAN, BEGAN, or infoGAN. The method of aspect 1, comprising:
[Aspect 4]
4. The method of aspect 3, wherein the first system comprises a recurrent neural network selected from Bi-LSTM/LSTM, Bi-GRU/GRU, or transformer networks.
[Aspect 5]
4. The method or system of aspect 3, wherein the first system comprises a variational autoencoder (VAE).
[Aspect 6]
Aspect 1, wherein said embedder is trained with a set of amino acid sequences of at least 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900, 1000, or more 6. The method according to any one of aspects 1 to 5.
[Aspect 7]
7. The method of aspect 6, wherein the amino acid sequence comprises annotations spanning one or more functional expressions including at least one of GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, or OrthoDB.
[Aspect 8]
The amino acid sequence bears at least about 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 120,000, 140,000, 150,000, 160,000, or 170,000 possible annotations. 8. The method of aspect 7, comprising:
[Aspect 9]
9. The method of any one of aspects 1-8, wherein the second model has an improved performance measure compared to a model trained without the transferred embedder of the first model. Method.
[Aspect 10]
The first or second system is optimized by Adam, RMS prop, stochastic gradient descent (SGD) with momentum, SGD with momentum and Nestrov accelerating gradient, SGD without momentum, Adagrad, Adadelta, or NAdam. The method according to any one of aspects 1-9.
[Aspect 11]
The first and second models can be optimized using any of the following activation functions: softmax, elu, SeLU, softplus, softsine, ReLU, tanh, sigmoid, hardsigmoid. , exponential, PReLU, and LeaskyReLU, or linear, the method of any one of aspects 1-10.
[Aspect 12]
The neural net embedder includes at least 10, 50, 100, 250, 500, 750, 1000, or more layers, and the predictors include at least 1, 2, 3, 4, 5, 6, 7, 12. The method of any one of aspects 1-11, comprising 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, or more layers.
[Aspect 13]
At least one of the first or second systems utilizes a regularization selected from early stopping, L1-L2 regularization, skip connection, or combinations thereof, wherein the regularization is 1, 2, 3, 4 , 5, or more layers.
[Aspect 14]
14. The method of aspect 13, wherein the regularization is performed using batch normalization.
[Aspect 15]
14. The method of aspect 13, wherein the regularization is performed using group normalization.
[Aspect 16]
16. The method of any one of aspects 1-15, wherein the second model of the second system comprises a first model of the first system wherein the last layer of the first model is removed. .
[Aspect 17]
17. The method of aspect 16, wherein 2, 3, 4, 5, or more layers of the first model are removed in transitioning to the second model.
[Aspect 18]
18. The method of aspect 16 or 17, wherein the transferred layer is frozen during training of the second model.
[Aspect 19]
18. The method of aspects 16 or 17, wherein the transferred layers are not frozen during training of the second model.
[Aspect 20]
wherein the second model has 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more layers added to the transferred layers of the first model; The method according to any one of aspects 17-19.
[Aspect 21]
21. The method of any one of aspects 1-20, wherein the neural net predictor of the second system predicts one or more of protein binding activity, nucleic acid binding activity, protein solubility, and protein stability. .
[Aspect 22]
22. The method of any one of aspects 1-21, wherein the neural net predictor of the second system predicts protein fluorescence.
[Aspect 23]
23. The method of any one of aspects 1-22, wherein the neural net predictor of the second system predicts enzymatic activity.
[Aspect 24]
A computer-implemented method of identifying previously unknown associations between amino acid sequences and protein function, comprising:
(a) using a first machine learning software module to generate a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences;
(b) transferring said first model or part thereof to a second machine learning software module;
(c) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(d) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
method including.
[Aspect 25]
25. The method of aspect 24, wherein said amino acid sequence comprises a primary protein structure.
[Aspect 26]
26. A method according to aspect 24 or 25, wherein said amino acid sequence gives rise to a protein conformation that gives rise to said protein function.
[Aspect 27]
27. The method of any one of aspects 24-26, wherein said protein function comprises fluorescence.
[Aspect 28]
28. The method of any one of aspects 24-27, wherein said protein function comprises enzymatic activity.
[Aspect 29]
29. The method of any one of aspects 24-28, wherein said protein function comprises nuclease activity.
[Aspect 30]
30. The method of any one of aspects 24-29, wherein said protein function comprises the degree of protein stability.
[Aspect 31]
31. The method of any one of aspects 24-30, wherein said plurality of protein features and said plurality of amino acid sequences are from UniProt.
[Aspect 32]
32. The method of any one of aspects 24-31, wherein the plurality of protein properties comprises one or more of labels GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, and OrthoDB.
[Aspect 33]
33. The method of any one of aspects 24-32, wherein said plurality of amino acid sequences form primary, secondary and tertiary protein structures of a plurality of proteins.
[Aspect 34]
34. Any of aspects 24-33, wherein the first model is trained on input data comprising one or more of a multidimensional tensor, a representation of three-dimensional atomic positions, an adjacency matrix of pairwise interactions, and character embeddings. or a method according to one aspect.
[Aspect 35]
Inputting into the second machine learning module at least one of data associated with variations in primary amino acid sequences, contact maps of amino acid interactions, tertiary protein structures, and predicted isoforms from alternatively spliced transcripts. 35. The method of any one of aspects 24-34, comprising
[Aspect 36]
36. The method of any one of aspects 24-35, wherein the first model and the second model are trained using supervised learning.
[Aspect 37]
37. The method of any one of aspects 24-36, wherein the first model is trained using supervised learning and the second model is trained using unsupervised learning.
[Aspect 38]
38. The method of any one of aspects 24-37, wherein the first model and the second model comprise a neural network comprising a convolutional neural network, a generative adversarial network, a recurrent neural network, or a variational autoencoder. .
[Aspect 39]
39. The method of aspect 38, wherein the first model and the second model each comprise different neural network architectures.
[Aspect 40]
wherein said convolutional network comprises one of VGG16, VGG19, Deep ResNet, Inception/GoogleLeNet (V1-V4), Inception/GoogleLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet, or MobileNet, aspect 38 or 39 The method described in .
[Aspect 41]
41. The method of any one of aspects 24-40, wherein the first model comprises embedders and the second model comprises predictors.
[Aspect 42]
42. The method of aspect 41, wherein the first model architecture includes multiple layers and the second model architecture includes at least two layers of the multiple layers.
[Aspect 43]
The first machine learning software module trains the first model with a first training data set comprising at least 10,000 protein features, and the second machine learning software module trains the second training data. 43. The method of any one of aspects 24-42, wherein sets are used to train the second model.
[Aspect 44]
1. A computer system that identifies previously unknown associations between amino acid sequences and protein function, comprising:
(a) a processor;
(b) a non-transitory computer-readable medium having instructions stored therein;
wherein the instructions, when executed, cause the processor to:
(i) generating a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences using a first machine learning software model;
(ii) transferring said first model or part thereof to a second machine learning software module;
(iii) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(iv) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
A system configured to cause
[Aspect 45]
45. The system of aspect 44, wherein said amino acid sequence comprises a primary protein structure.
[Aspect 46]
46. The system of aspect 44 or 45, wherein said amino acid sequence gives rise to a protein conformation that gives rise to said protein function.
[Aspect 47]
47. The system of any one of aspects 44-46, wherein said protein function comprises fluorescence.
[Aspect 48]
48. The system of any one of aspects 44-47, wherein said protein function comprises enzymatic activity.
[Aspect 49]
49. The system of any one of aspects 44-48, wherein said protein function comprises a nuclease activity.
[Aspect 50]
50. The system of any one of aspects 44-49, wherein said protein function comprises the degree of protein stability.
[Aspect 51]
51. The system of any one of aspects 44-50, wherein said plurality of protein features and plurality of protein markers are from UniProt.
[Aspect 52]
52. The system of any one of aspects 44-51, wherein the plurality of protein properties comprises one or more of labels GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, and OrthoDB.
[Aspect 53]
53. The system of any one of aspects 44-52, wherein the plurality of amino acid sequences comprises primary protein structures, secondary protein structures, and tertiary protein structures of a plurality of proteins.
[Aspect 54]
54. Any of aspects 44-53, wherein the first model is trained with input data comprising one or more of a multidimensional tensor, a representation of three-dimensional atomic positions, an adjacency matrix of pairwise interactions, and character embeddings. or a system according to one aspect.
[Aspect 55]
The software provides the processor with at least one of data associated with primary amino acid sequence variation, a contact map of amino acid interactions, a tertiary protein structure, and predicted isoforms from alternative splicing transcripts for the second 55. The system of any one of aspects 44-54, configured to provide input to a machine learning module.
[Aspect 56]
56. The system of any one of aspects 44-55, wherein the first model and the second model are trained using supervised learning.
[Aspect 57]
57. The system of any one of aspects 44-56, wherein the first model is trained using supervised learning and the second model is trained using unsupervised learning.
[Aspect 58]
58. The system of any one of aspects 44-57, wherein the first model and the second model comprise a neural network comprising a convolutional neural network, a generative adversarial network, a recurrent neural network, or a variational autoencoder. .
[Aspect 59]
59. The system of aspect 58, wherein the first model and the second model each include different neural network architectures.
[Aspect 60]
wherein the convolutional network comprises one of VGG16, VGG19, Deep ResNet, Inception/GoogLeNet (V1-V4), Inception/GoogLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet, or MobileNet; The system described in .
[Aspect 61]
61. The system of any one of aspects 44-60, wherein the first model includes embedders and the second model includes predictors.
[Aspect 62]
62. The system of aspect 61, wherein the first model architecture includes multiple layers and the second model architecture includes at least two layers of the multiple layers.
[Aspect 63]
The first machine learning software module trains the first model with a first training data set comprising at least 10,000 protein features, and the second machine learning software module trains the second training data. 63. The system of any one of aspects 44-62, wherein sets are used to train the second model.
[Aspect 64]
A method of modeling a desired protein property comprising:
training a first system using a first data set, said first system including a first neural net transformer encoder and a first decoder; the decoder of is configured to produce an output different from the desired protein property;
transferring at least a portion of the first transformer encoder of the pretrained system to a second system, the second system including a second transformer encoder and a second decoder; and
training the second system using a second dataset, the second dataset comprising a set of proteins representing fewer protein classes than the first set; training, wherein protein classes include one or more of (a) classes of proteins in the first dataset and (b) classes of proteins excluded from the first dataset;
analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
method including.
[Aspect 65]
65. A method according to aspect 64, wherein the primary amino acid sequences of protein analytes are one or more asparaginase sequences and corresponding activity labels.
[Aspect 66]
66. The method of aspect 64 or 65, wherein said first data set comprises a set of proteins comprising multiple classes of proteins.
[Aspect 67]
67. The method of any one of aspects 64-66, wherein said second data set is one of said class of proteins.
[Aspect 68]
68. The method of any one of aspects 64-67, wherein one of said classes of proteins is an enzyme.
[Aspect 69]
A configured system for performing the method according to any one of aspects 64-68.

Claims (15)

所望のタンパク質特性をモデリングするコンピュータ実施方法であって、
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、前記事前トレーニング済みシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる、提供することと、
(b)前記事前トレーニング済みシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記転移された前記第1のニューラルネットエンベッダーの少なくとも一部、前記第2のシステムの第2のニューラルネットエンベッダー、及び前記第2のシステムの第2のニューラルネット予測子を含む前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。
A computer-implemented method of modeling a desired protein property comprising:
(a) providing a first pre-trained system comprising a first neural net embedder and a first neural net predictor, wherein said first neural net predictor of said pre-trained system; is different from the desired protein property; and
(b) transferring at least a portion of said first neural net embedder of said pretrained system to a second system, said second system comprising a second neural net embedder and a second neural net embedder; transferring, comprising two neural net predictors, wherein the second neural net predictor of the second system provides the desired protein property;
(c) including at least a portion of said transferred first neural net embedder, a second neural net embedder of said second system, and a second neural net predictor of said second system; analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
A computer-implemented method comprising:
前記アミノ酸配列は、GP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、又はOrthoDBの少なくとも1つを含む1つ又は複数の機能表現にわたるアノテーションを含む、請求項に記載のコンピュータ実施方法。 2. The computer-implemented method of claim 1 , wherein the amino acid sequence comprises annotations spanning one or more functional expressions including at least one of GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, or OrthoDB. 前記第2のモデルは、前記第1のモデルの前記転移されたエンベッダーを使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する、請求項1または2に記載のコンピュータ実施方法。 3. The computer-implemented method of claim 1 or 2 , wherein the second model has an improved performance measure compared to a model trained without the transferred embedder of the first model. . 前記第2のシステムの第2のモデルは、前記第1のモデルの最後の層が除去される前記第1のシステムの第1のモデルを含む、請求項1~のいずれか一項記載のコンピュータ実施方法。 4. The method of any one of claims 1-3 , wherein the second model of the second system comprises a first model of the first system in which the last layer of the first model is removed. Computer-implemented method. 前記第1のモデルの2、3、4、5、又はそれ以上の層は、前記第2のモデルへの転移において除去される、請求項に記載のコンピュータ実施方法。 5. The computer-implemented method of claim 4 , wherein 2, 3, 4, 5, or more layers of the first model are removed in transitioning to the second model. 前記転移された層は、前記第2のモデルのトレーニング中、凍結される、請求項又はに記載のコンピュータ実施方法。 6. The computer-implemented method of claim 4 or 5 , wherein the transferred layers are frozen during training of the second model. 前記転移された層は、前記第2のモデルのトレーニング中、凍結されない、請求項4又は5に記載のコンピュータ実施方法。 6. The computer-implemented method of claim 4 or 5 , wherein the transferred layers are not frozen during training of the second model. 前記第2のモデルは、前記第1のモデルの前記転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する、請求項5~7のいずれか一項記載のコンピュータ実施方法。 wherein the second model has 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more layers added to the transferred layers of the first model; A computer-implemented method according to any one of claims 5-7 . 前記第2のシステムの前記ニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する、請求項1~のいずれか一項記載のコンピュータ実施方法。 9. The method of any one of claims 1-8 , wherein the neural net predictor of the second system predicts one or more of protein binding activity, nucleic acid binding activity, protein solubility, and protein stability. Computer-implemented method. 前記第2のシステムの前記ニューラルネット予測子は、タンパク質蛍光を予測する、請求項1~のいずれか一項記載のコンピュータ実施方法。 The computer-implemented method of any one of claims 1-9 , wherein the neural net predictor of the second system predicts protein fluorescence. 前記第2のシステムの前記ニューラルネット予測子は、酵素活性を予測する、請求項1~10のいずれか一項記載のコンピュータ実施方法。 The computer-implemented method of any one of claims 1-10 , wherein the neural net predictor of the second system predicts enzymatic activity. アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であって、
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。
A computer-implemented method of identifying previously unknown associations between amino acid sequences and protein function, comprising:
(a) using a first machine learning software module to generate a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences;
(b) transferring said first model or part thereof to a second machine learning software module;
(c) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(d) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
method including.
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであって、
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。
1. A computer system that identifies previously unknown associations between amino acid sequences and protein function, comprising:
(a) a processor;
(b) a non-transitory computer-readable medium having instructions stored therein;
wherein the instructions, when executed, cause the processor to:
(i) generating a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences using a first machine learning software model;
(ii) transferring said first model or part thereof to a second machine learning software module;
(iii) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(iv) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
A system configured to cause
所望のタンパク質特性をモデリングするコンピュータ実施方法であって、
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び事前トレーニング済みのシステムの第1のデコーダを含み、事前トレーニング済みのシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、トレーニングすることと、
前記事前トレーニング済みシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。
A computer-implemented method of modeling a desired protein property comprising:
training a first system with a first data set, said first system including a first neural net transformer encoder and a first decoder of a pre-trained system; wherein the first decoder of the system of is configured to produce an output different from the desired protein property;
transferring at least a portion of the first transformer encoder of the pretrained system to a second system, the second system including a second transformer encoder and a second decoder; and
training the second system using a second dataset, the second dataset comprising a set of proteins representing fewer protein classes than the first set; training, wherein protein classes include one or more of (a) classes of proteins in the first dataset and (b) classes of proteins excluded from the first dataset;
analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
A computer-implemented method comprising:
タンパク質検体の前記一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである、請求項14に記載のコンピュータ実施方法。 15. The computer-implemented method of claim 14 , wherein the primary amino acid sequences of protein analytes are one or more asparaginase sequences and corresponding activity labels.
JP2021546841A 2019-02-11 2020-02-10 Machine learning assisted polypeptide analysis Active JP7492524B2 (en)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962804036P 2019-02-11 2019-02-11
US201962804034P 2019-02-11 2019-02-11
US62/804,034 2019-02-11
US62/804,036 2019-02-11
PCT/US2020/017517 WO2020167667A1 (en) 2019-02-11 2020-02-10 Machine learning guided polypeptide analysis

Publications (3)

Publication Number Publication Date
JP2022521686A JP2022521686A (en) 2022-04-12
JPWO2020167667A5 true JPWO2020167667A5 (en) 2023-02-16
JP7492524B2 JP7492524B2 (en) 2024-05-29

Family

ID=70005699

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021546841A Active JP7492524B2 (en) 2019-02-11 2020-02-10 Machine learning assisted polypeptide analysis

Country Status (8)

Country Link
US (1) US20220122692A1 (en)
EP (1) EP3924971A1 (en)
JP (1) JP7492524B2 (en)
KR (1) KR20210125523A (en)
CN (1) CN113412519B (en)
CA (1) CA3127965A1 (en)
IL (1) IL285402A (en)
WO (1) WO2020167667A1 (en)

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10678244B2 (en) 2017-03-23 2020-06-09 Tesla, Inc. Data synthesis for autonomous control systems
US11157441B2 (en) 2017-07-24 2021-10-26 Tesla, Inc. Computational array microprocessor system using non-consecutive data formatting
US11893393B2 (en) 2017-07-24 2024-02-06 Tesla, Inc. Computational array microprocessor system with hardware arbiter managing memory requests
US11409692B2 (en) 2017-07-24 2022-08-09 Tesla, Inc. Vector computational unit
US10671349B2 (en) 2017-07-24 2020-06-02 Tesla, Inc. Accelerated mathematical engine
US11561791B2 (en) 2018-02-01 2023-01-24 Tesla, Inc. Vector computational unit receiving data elements in parallel from a last row of a computational array
US11215999B2 (en) 2018-06-20 2022-01-04 Tesla, Inc. Data pipeline and deep learning system for autonomous driving
US11361457B2 (en) 2018-07-20 2022-06-14 Tesla, Inc. Annotation cross-labeling for autonomous control systems
US11636333B2 (en) 2018-07-26 2023-04-25 Tesla, Inc. Optimizing neural network structures for embedded systems
US11562231B2 (en) 2018-09-03 2023-01-24 Tesla, Inc. Neural networks for embedded devices
CN115512173A (en) 2018-10-11 2022-12-23 特斯拉公司 System and method for training machine models using augmented data
US11196678B2 (en) 2018-10-25 2021-12-07 Tesla, Inc. QOS manager for system on a chip communications
US11816585B2 (en) 2018-12-03 2023-11-14 Tesla, Inc. Machine learning models operating at different frequencies for autonomous vehicles
US11537811B2 (en) 2018-12-04 2022-12-27 Tesla, Inc. Enhanced object detection for autonomous vehicles based on field view
US11610117B2 (en) 2018-12-27 2023-03-21 Tesla, Inc. System and method for adapting a neural network model on a hardware platform
US11150664B2 (en) 2019-02-01 2021-10-19 Tesla, Inc. Predicting three-dimensional features for autonomous driving
US10997461B2 (en) 2019-02-01 2021-05-04 Tesla, Inc. Generating ground truth for machine learning from time series elements
US11567514B2 (en) 2019-02-11 2023-01-31 Tesla, Inc. Autonomous and user controlled vehicle summon to a target
US10956755B2 (en) 2019-02-19 2021-03-23 Tesla, Inc. Estimating object properties using visual image data
US12040050B1 (en) * 2019-03-06 2024-07-16 Nabla Bio, Inc. Systems and methods for rational protein engineering with deep representation learning
EP4008006A1 (en) * 2019-08-02 2022-06-08 Flagship Pioneering Innovations VI, LLC Machine learning guided polypeptide design
US11455540B2 (en) * 2019-11-15 2022-09-27 International Business Machines Corporation Autonomic horizontal exploration in neural networks transfer learning
US20210249105A1 (en) * 2020-02-06 2021-08-12 Salesforce.Com, Inc. Systems and methods for language modeling of protein engineering
US12080380B2 (en) 2020-08-28 2024-09-03 Just-Evotec Biologics, Inc. Implementing a generative machine learning architecture to produce training data for a classification model
US11948664B2 (en) * 2020-09-21 2024-04-02 Just-Evotec Biologics, Inc. Autoencoder with generative adversarial network to generate protein sequences
US11403316B2 (en) 2020-11-23 2022-08-02 Peptilogics, Inc. Generating enhanced graphical user interfaces for presentation of anti-infective design spaces for selecting drug candidates
KR102569987B1 (en) * 2021-03-10 2023-08-24 삼성전자주식회사 Apparatus and method for estimating bio-information
CN112951341B (en) * 2021-03-15 2024-04-30 江南大学 Polypeptide classification method based on complex network
US11512345B1 (en) 2021-05-07 2022-11-29 Peptilogics, Inc. Methods and apparatuses for generating peptides by synthesizing a portion of a design space to identify peptides having non-canonical amino acids
CN113257361B (en) * 2021-05-31 2021-11-23 中国科学院深圳先进技术研究院 Method, device and equipment for realizing self-adaptive protein prediction framework
US20240274238A1 (en) * 2021-06-10 2024-08-15 BASF Agricultural Solutions Seed US LLC Deep Learning Model for Predicting a Proteins Ability to Form Pores
CN113971992B (en) * 2021-10-26 2024-03-29 中国科学技术大学 Self-supervision pre-training method and system for molecular attribute predictive graph network
CN114333982B (en) * 2021-11-26 2023-09-26 北京百度网讯科技有限公司 Protein representation model pre-training and protein interaction prediction method and device
US20230268026A1 (en) 2022-01-07 2023-08-24 Absci Corporation Designing biomolecule sequence variants with pre-specified attributes
WO2023133564A2 (en) * 2022-01-10 2023-07-13 Aether Biomachines, Inc. Systems and methods for engineering protein activity
EP4310726A1 (en) * 2022-07-20 2024-01-24 Nokia Solutions and Networks Oy Apparatus and method for channel impairment estimations using transformer-based machine learning model
CN114927165B (en) * 2022-07-20 2022-12-02 深圳大学 Method, device, system and storage medium for identifying ubiquitination sites
WO2024039466A1 (en) * 2022-08-15 2024-02-22 Microsoft Technology Licensing, Llc Machine learning solution to predict protein characteristics
WO2024040189A1 (en) * 2022-08-18 2024-02-22 Seer, Inc. Methods for using a machine learning algorithm for omic analysis
CN115169543A (en) * 2022-09-05 2022-10-11 广东工业大学 Short-term photovoltaic power prediction method and system based on transfer learning
WO2024095126A1 (en) * 2022-11-02 2024-05-10 Basf Se Systems and methods for using natural language processing (nlp) to predict protein function similarity
CN115966249B (en) * 2023-02-15 2023-05-26 北京科技大学 protein-ATP binding site prediction method and device based on fractional order neural network
CN116072227B (en) 2023-03-07 2023-06-20 中国海洋大学 Marine nutrient biosynthesis pathway excavation method, apparatus, device and medium
CN116206690B (en) * 2023-05-04 2023-08-08 山东大学齐鲁医院 Antibacterial peptide generation and identification method and system
CN117352043B (en) * 2023-12-06 2024-03-05 江苏正大天创生物工程有限公司 Protein design method and system based on neural network

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016094330A2 (en) * 2014-12-08 2016-06-16 20/20 Genesystems, Inc Methods and machine learning systems for predicting the liklihood or risk of having cancer
WO2017106638A1 (en) * 2015-12-16 2017-06-22 Gritstone Oncology, Inc. Neoantigen identification, manufacture, and use
EP3542296B1 (en) * 2016-11-18 2021-04-14 NantOmics, LLC Methods and systems for predicting dna accessibility in the pan-cancer genome
CN107742061B (en) * 2017-09-19 2021-06-01 中山大学 Protein interaction prediction method, system and device

Similar Documents

Publication Publication Date Title
JPWO2020167667A5 (en)
Dias et al. Artificial intelligence in clinical and genomic diagnostics
Koo et al. Deep learning for inferring transcription factor binding sites
CN111602148B (en) Regularized neural network architecture search
US11768911B2 (en) Method and apparatus for execution of neural network
CN115485696A (en) Countermeasure pretraining of machine learning models
US20210089873A1 (en) Apparatus and system for execution of neural network
US20230207054A1 (en) Deep learning network for evolutionary conservation
US11507844B2 (en) Asynchronous evaluation strategy for evolution of deep neural networks
WO2022082879A1 (en) Gene sequencing data processing method and gene sequencing data processing device
Scanzio et al. Parallel implementation of artificial neural network training
KR102547977B1 (en) Apparatus and method for generating tcr information corresponding to pmhc using artificial intelligence
CN114743600A (en) Gate-controlled attention mechanism-based deep learning prediction method for target-ligand binding affinity
Fang et al. Bioformer: an efficient transformer language model for biomedical text mining
Geng et al. A deep learning framework for enhancer prediction using word embedding and sequence generation
KR102547969B1 (en) Apparatus and method for generating immunopeptidome pmhc information using artificial intelligence
CN114402393A (en) Artificial intelligence-based epigenetics
CN116386815A (en) Traditional Chinese medicine prescription recommendation method based on maximum bolus algorithm
WO2020210591A1 (en) Predicting biological functions of proteins using dilated convolutional neural networks
KR102482302B1 (en) Apparatus and method for determining major histocompatibility complex corresponding to cluster data using artificial intelligence
CN114999566A (en) Drug repositioning method and system based on word vector characterization and attention mechanism
Kanaka et al. Deep Learning in Neural Networks and their Application in Genomics
KR102547978B1 (en) Apparatus and method for generating tcr information corresponding to pmhc using artificial intelligence
Hristeva Application of graphic processing units in deep learning algorithms
Anand et al. Artificial intelligence in nephrology