JPWO2020167667A5 - - Google Patents
Download PDFInfo
- Publication number
- JPWO2020167667A5 JPWO2020167667A5 JP2021546841A JP2021546841A JPWO2020167667A5 JP WO2020167667 A5 JPWO2020167667 A5 JP WO2020167667A5 JP 2021546841 A JP2021546841 A JP 2021546841A JP 2021546841 A JP2021546841 A JP 2021546841A JP WO2020167667 A5 JPWO2020167667 A5 JP WO2020167667A5
- Authority
- JP
- Japan
- Prior art keywords
- model
- protein
- computer
- implemented method
- neural net
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 108090000623 proteins and genes Proteins 0.000 claims description 71
- 102000004169 proteins and genes Human genes 0.000 claims description 71
- 238000000034 method Methods 0.000 claims description 70
- 230000001537 neural effect Effects 0.000 claims description 29
- 125000003275 alpha amino acid group Chemical group 0.000 claims description 24
- 230000004853 protein function Effects 0.000 claims description 18
- 125000002924 primary amino group Chemical group [H]N([H])* 0.000 claims description 8
- 230000027455 binding Effects 0.000 claims description 4
- 230000002255 enzymatic effect Effects 0.000 claims description 4
- DCXYFEDJOCDNAF-UHFFFAOYSA-M asparaginate Chemical group [O-]C(=O)C(N)CC(N)=O DCXYFEDJOCDNAF-UHFFFAOYSA-M 0.000 claims description 2
- 230000000875 corresponding effect Effects 0.000 claims description 2
- 230000014509 gene expression Effects 0.000 claims description 2
- 102000039446 nucleic acids Human genes 0.000 claims description 2
- 108020004707 nucleic acids Proteins 0.000 claims description 2
- 150000007523 nucleic acids Chemical class 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 description 7
- 230000003993 interaction Effects 0.000 description 4
- 230000000306 recurrent effect Effects 0.000 description 3
- 101710163270 Nuclease Proteins 0.000 description 2
- 102000001708 Protein Isoforms Human genes 0.000 description 2
- 108010029485 Protein Isoforms Proteins 0.000 description 2
- 150000001413 amino acids Chemical class 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 235000004257 Cordia myxa Nutrition 0.000 description 1
- 244000157795 Cordia myxa Species 0.000 description 1
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 229940088598 enzyme Drugs 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
Description
上記説明及び例では、特定の数のサンプルサイズ、反復、エポック、バッチサイズ、学習速度、精度、データ入力サイズ、フィルタ、アミノ酸配列、及び他の数字が調整又は最適化可能であるが、当業者は認識することができる。特定の態様が実施例に記載されるが、実施例に列記された数字は非限定的である。
なお、本発明は、実施の態様として以下の内容を含む。
〔態様1〕
所望のタンパク質特性をモデリングする方法であって、
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、前記事前トレーニング済みシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる、提供することと、
(b)前記事前トレーニング済みシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様2〕
前記第1及び第2のシステムの前記ニューラルネットエンベッダーのアーキテクチャは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、及びMobileNetの少なくとも1つから独立して選択される畳み込みアーキテクチャである、態様1に記載の方法。
〔態様3〕
前記第1のシステムは、条件付き敵対的生成ネットワーク(GAN)、DCGAN、CGAN、SGAN若しくはプログレッシブGAN、SAGAN、LSGAN、WGAN、EBGAN、BEGAN、又はinfoGANから選択される敵対的生成ネットワーク(GAN)を含む、態様1に記載の方法。
〔態様4〕
前記第1のシステムは、Bi-LSTM/LSTM、Bi-GRU/GRU、又はトランスフォーマネットワークから選択されるリカレントニューラルネットワークを含む、態様3に記載の方法。
〔態様5〕
前記第1のシステムは変分自動エンコーダ(VAE)を含む、態様3に記載の方法又はシステム。
〔態様6〕
前記エンベッダーは、少なくとも50、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、又はそれ以上のアミノ酸配列のセットでトレーニングされる、態様1~5のいずれか一態様記載の方法。
〔態様7〕
前記アミノ酸配列は、GP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、又はOrthoDBの少なくとも1つを含む1つ又は複数の機能表現にわたるアノテーションを含む、態様6に記載の方法。
〔態様8〕
前記アミノ酸配列は、少なくとも約1万、2万、3万、4万、5万、7.5万、10万、12万、14万、15万、16万、又は17万の可能なアノテーションを有する、態様7に記載の方法。
〔態様9〕
前記第2のモデルは、前記第1のモデルの前記転移されたエンベッダーを使用せずにトレーニングされたモデルと比較して改善された性能尺度を有する、態様1~8のいずれか一態様記載の方法。
〔態様10〕
前記第1又は第2のシステムは、Adam、RMSプロップ、モメンタムを用いる確率的勾配降下(SGD)、モメンタム及びNestrov加速勾配を用いるSGD、モメンタムなしのSGD、Adagrad、Adadelta、又はNAdamにより最適化される、態様1~9のいずれか一態様記載の方法。
〔態様11〕
前記第1及び第2のモデルは、以下の活性化関数のいずれかを使用して最適化することができる:ソフトマックス、elu、SeLU、ソフトプラス、ソフトサイン、ReLU、tanh、シグモイド、ハードシグモイド、指数、PReLU、及びLeaskyReLU、又は線形、態様1~10のいずれか一態様記載の方法。
〔態様12〕
前記ニューラルネットエンベッダーは、少なくとも10、50、100、250、500、750、1000、又はそれ以上の層を含み、前記予測子は、少なくとも1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれ以上の層を含む、態様1~11のいずれか一態様記載の方法。
〔態様13〕
前記第1又は第2のシステムの少なくとも一方は、早期停止、L1-L2正則化、スキップ接続、又はそれらの組合せから選択される正則化を利用し、前記正則化は1、2、3、4、5、又はそれ以上の層で実行される、態様1~12のいずれか一態様記載の方法。
〔態様14〕
前記正則化はバッチ正規化を使用して実行される、態様13に記載の方法。
〔態様15〕
前記正則化はグループ正規化を使用して実行される、態様13に記載の方法。
〔態様16〕
前記第2のシステムの第2のモデルは、前記第1のモデルの最後の層が除去される前記第1のシステムの第1のモデルを含む、態様1~15のいずれか一態様記載の方法。
〔態様17〕
前記第1のモデルの2、3、4、5、又はそれ以上の層は、前記第2のモデルへの転移において除去される、態様16に記載の方法。
〔態様18〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結される、態様16又は17に記載の方法。
〔態様19〕
前記転移された層は、前記第2のモデルのトレーニング中、凍結されない、態様16又は17に記載の方法。
〔態様20〕
前記第2のモデルは、前記第1のモデルの前記転移された層に追加される1、2、3、4、5、6、7、8、9、10、又はそれ以上の層を有する、態様17~19のいずれか一態様記載の方法。
〔態様21〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質結合活性、核酸結合活性、タンパク質溶解性、及びタンパク質安定性の1つ又は複数を予測する、態様1~20のいずれか一態様記載の方法。
〔態様22〕
前記第2のシステムの前記ニューラルネット予測子は、タンパク質蛍光を予測する、態様1~21のいずれか一態様記載の方法。
〔態様23〕
前記第2のシステムの前記ニューラルネット予測子は、酵素活性を予測する、態様1~22のいずれか一態様記載の方法。
〔態様24〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータ実施方法であって、
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。
〔態様25〕
前記アミノ酸配列は一次タンパク質構造を含む、態様24に記載の方法。
〔態様26〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様24又は25に記載の方法。
〔態様27〕
前記タンパク質機能は蛍光を含む、態様24~26のいずれか一態様記載の方法。
〔態様28〕
前記タンパク質機能は酵素活性を含む、態様24~27のいずれか一態様記載の方法。
〔態様29〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様24~28のいずれか一態様記載の方法。
〔態様30〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様24~29のいずれか一態様記載の方法。
〔態様31〕
前記複数のタンパク質特性及び前記複数のアミノ酸配列は、UniProtからのものである、態様24~30のいずれか一態様記載の方法。
〔態様32〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様24~31のいずれか一態様記載の方法。
〔態様33〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を形成する、態様24~32のいずれか一態様記載の方法。
〔態様34〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様24~33のいずれか一態様記載の方法。
〔態様35〕
前記第2の機械学習モジュールに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを入力することを含む、態様24~34のいずれか一態様記載の方法。
〔態様36〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様24~35のいずれか一態様記載の方法。
〔態様37〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様24~36のいずれか一態様記載の方法。
〔態様38〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様24~37のいずれか一態様記載の方法。
〔態様39〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様38に記載の方法。
〔態様40〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様38又は39に記載の方法。
〔態様41〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様24~40のいずれか一態様記載の方法。
〔態様42〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様41に記載の方法。
〔態様43〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様24~42のいずれか一態様記載の方法。
〔態様44〕
アミノ酸配列とタンパク質機能との間の以前は未知であった関連を識別するコンピュータシステムであって、
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。
〔態様45〕
前記アミノ酸配列は一次タンパク質構造を含む、態様44に記載のシステム。
〔態様46〕
前記アミノ酸配列は、前記タンパク質機能を生じさせるタンパク質構成を生じさせる、態様44又は45に記載のシステム。
〔態様47〕
前記タンパク質機能は蛍光を含む、態様44~46のいずれか一態様記載のシステム。
〔態様48〕
前記タンパク質機能は酵素活性を含む、態様44~47のいずれか一態様記載のシステム。
〔態様49〕
前記タンパク質機能はヌクレアーゼ活性を含む、態様44~48のいずれか一態様記載のシステム。
〔態様50〕
前記タンパク質機能は、タンパク質安定性の程度を含む、態様44~49のいずれか一態様記載のシステム。
〔態様51〕
前記複数のタンパク質特性及び複数のタンパク質マーカは、UniProtからのものである、態様44~50のいずれか一態様記載のシステム。
〔態様52〕
前記複数のタンパク質特性は、ラベルGP、Pfam、キーワード、Keggオントロジー、Interpro、SUPFAM、及びOrthoDBの1つ又は複数を含む、態様44~51のいずれか一態様記載のシステム。
〔態様53〕
前記複数のアミノ酸配列は、複数のタンパク質の一次タンパク質構造、二次タンパク質構造、及び三次タンパク質構造を含む、態様44~52のいずれか一態様記載のシステム。
〔態様54〕
前記第1のモデルは、多次元テンソル、三次元原子位置の表現、対毎の相互作用の隣接行列、及び文字埋め込みの1つ又は複数を含む入力データでトレーニングされる、態様44~53のいずれか一態様記載のシステム。
〔態様55〕
前記ソフトウェアは、前記プロセッサに、一次アミノ酸配列の変異に関連するデータ、アミノ酸相互作用のコンタクトマップ、三次タンパク質構造、及び選択的スプライシング転写からの予測されたアイソフォームの少なくとも1つを前記第2の機械学習モジュールに入力させるように構成される、態様44~54のいずれか一態様記載のシステム。
〔態様56〕
前記第1のモデル及び前記第2のモデルは、教師あり学習を使用してトレーニングされる、態様44~55のいずれか一態様記載のシステム。
〔態様57〕
前記第1のモデルは教師あり学習を使用してトレーニングされ、前記第2のモデルは教師なし学習を使用してトレーニングされる、態様44~56のいずれか一態様記載のシステム。
〔態様58〕
前記第1のモデル及び前記第2のモデルは、畳み込みニューラルネットワーク、敵対的生成ネットワーク、リカレントニューラルネットワーク、又は変分自動エンコーダを含むニューラルネットワークを含む、態様44~57のいずれか一態様記載のシステム。
〔態様59〕
前記第1のモデル及び前記第2のモデルはそれぞれ、異なるニューラルネットワークアーキテクチャを含む、態様58に記載のシステム。
〔態様60〕
前記畳み込みネットワークは、VGG16、VGG19、Deep ResNet、Inception/GoogLeNet(V1-V4)、Inception/GoogLeNet ResNet、Xception、AlexNet、LeNet、MobileNet、DenseNet、NASNet、又はMobileNetの1つを含む、態様58又は59に記載のシステム。
〔態様61〕
前記第1のモデルはエンベッダーを含み、前記第2のモデルは予測子を含む、態様44~60のいずれか一態様記載のシステム。
〔態様62〕
第1のモデルアーキテクチャは複数の層を含み、第2のモデルアーキテクチャは、前記複数の層のうちの少なくとも2つの層を含む、態様61に記載のシステム。
〔態様63〕
前記第1の機械学習ソフトウェアモジュールは、少なくとも10,000のタンパク質特性を含む第1のトレーニングデータセットで前記第1のモデルをトレーニングし、前記第2の機械学習ソフトウェアモジュールは、第2のトレーニングデータセットを使用して前記第2のモデルをトレーニングする、態様44~62のいずれか一態様記載のシステム。
〔態様64〕
所望のタンパク質特性をモデリングする方法であって、
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び第1のデコーダを含み、事前トレーニング済みのシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、トレーニングすることと、
前記事前トレーニング済みシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含む方法。
〔態様65〕
タンパク質検体の前記一次アミノ酸配列は、1つ又は複数のアスパラギナーゼ配列及び対応する活性ラベルである、態様64に記載の方法。
〔態様66〕
前記第1のデータセットは、複数のクラスのタンパク質を含む1組のタンパク質を含む、態様64又は65に記載の方法。
〔態様67〕
前記第2のデータセットは、タンパク質の前記クラスの1つである、態様64~66のいずれか一態様記載の方法。
〔態様68〕
タンパク質の前記クラスの1つは酵素である、態様64~67のいずれか一態様記載の方法。
〔態様69〕
態様64~68のいずれか一態様記載の方法を実行する構成されたシステム。
In the above descriptions and examples, the specific numbers of sample sizes, iterations, epochs, batch sizes, learning speeds, accuracies, data input sizes, filters, amino acid sequences, and other numbers can be adjusted or optimized, but those skilled in the art may can be recognized. Although certain aspects are described in the examples, the numbers listed in the examples are non-limiting.
In addition, this invention includes the following contents as a mode of implementation.
[Aspect 1]
A method of modeling a desired protein property comprising:
(a) providing a first pre-trained system comprising a first neural net embedder and a first neural net predictor, wherein said first neural net predictor of said pre-trained system; is different from the desired protein property; and
(b) transferring at least a portion of said first neural net embedder of said pretrained system to a second system, said second system comprising a second neural net embedder and a second neural net embedder; transferring, comprising two neural net predictors, wherein the second neural net predictor of the second system provides the desired protein property;
(c) analyzing a primary amino acid sequence of a protein sample by said second system, thereby generating a prediction of said desired protein profile of said protein sample;
method including.
[Aspect 2]
The architectures of the neural net embedders of the first and second systems are VGG16, VGG19, Deep ResNet, Inception/GoogLeNet (V1-V4), Inception/GoogLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet. , and MobileNet.
[Aspect 3]
The first system comprises a conditional generative adversarial network (GAN), a generative adversarial network (GAN) selected from DCGAN, CGAN, SGAN or progressive GAN, SAGAN, LSGAN, WGAN, EBGAN, BEGAN, or infoGAN. The method of aspect 1, comprising:
[Aspect 4]
4. The method of aspect 3, wherein the first system comprises a recurrent neural network selected from Bi-LSTM/LSTM, Bi-GRU/GRU, or transformer networks.
[Aspect 5]
4. The method or system of aspect 3, wherein the first system comprises a variational autoencoder (VAE).
[Aspect 6]
Aspect 1, wherein said embedder is trained with a set of amino acid sequences of at least 50, 100, 150, 200, 250, 300, 350, 400, 450, 500, 600, 700, 800, 900, 1000, or more 6. The method according to any one of aspects 1 to 5.
[Aspect 7]
7. The method of aspect 6, wherein the amino acid sequence comprises annotations spanning one or more functional expressions including at least one of GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, or OrthoDB.
[Aspect 8]
The amino acid sequence bears at least about 10,000, 20,000, 30,000, 40,000, 50,000, 75,000, 100,000, 120,000, 140,000, 150,000, 160,000, or 170,000 possible annotations. 8. The method of aspect 7, comprising:
[Aspect 9]
9. The method of any one of aspects 1-8, wherein the second model has an improved performance measure compared to a model trained without the transferred embedder of the first model. Method.
[Aspect 10]
The first or second system is optimized by Adam, RMS prop, stochastic gradient descent (SGD) with momentum, SGD with momentum and Nestrov accelerating gradient, SGD without momentum, Adagrad, Adadelta, or NAdam. The method according to any one of aspects 1-9.
[Aspect 11]
The first and second models can be optimized using any of the following activation functions: softmax, elu, SeLU, softplus, softsine, ReLU, tanh, sigmoid, hardsigmoid. , exponential, PReLU, and LeaskyReLU, or linear, the method of any one of aspects 1-10.
[Aspect 12]
The neural net embedder includes at least 10, 50, 100, 250, 500, 750, 1000, or more layers, and the predictors include at least 1, 2, 3, 4, 5, 6, 7, 12. The method of any one of aspects 1-11, comprising 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, or more layers.
[Aspect 13]
At least one of the first or second systems utilizes a regularization selected from early stopping, L1-L2 regularization, skip connection, or combinations thereof, wherein the regularization is 1, 2, 3, 4 , 5, or more layers.
[Aspect 14]
14. The method of aspect 13, wherein the regularization is performed using batch normalization.
[Aspect 15]
14. The method of aspect 13, wherein the regularization is performed using group normalization.
[Aspect 16]
16. The method of any one of aspects 1-15, wherein the second model of the second system comprises a first model of the first system wherein the last layer of the first model is removed. .
[Aspect 17]
17. The method of aspect 16, wherein 2, 3, 4, 5, or more layers of the first model are removed in transitioning to the second model.
[Aspect 18]
18. The method of aspect 16 or 17, wherein the transferred layer is frozen during training of the second model.
[Aspect 19]
18. The method of aspects 16 or 17, wherein the transferred layers are not frozen during training of the second model.
[Aspect 20]
wherein the second model has 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, or more layers added to the transferred layers of the first model; The method according to any one of aspects 17-19.
[Aspect 21]
21. The method of any one of aspects 1-20, wherein the neural net predictor of the second system predicts one or more of protein binding activity, nucleic acid binding activity, protein solubility, and protein stability. .
[Aspect 22]
22. The method of any one of aspects 1-21, wherein the neural net predictor of the second system predicts protein fluorescence.
[Aspect 23]
23. The method of any one of aspects 1-22, wherein the neural net predictor of the second system predicts enzymatic activity.
[Aspect 24]
A computer-implemented method of identifying previously unknown associations between amino acid sequences and protein function, comprising:
(a) using a first machine learning software module to generate a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences;
(b) transferring said first model or part thereof to a second machine learning software module;
(c) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(d) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
method including.
[Aspect 25]
25. The method of aspect 24, wherein said amino acid sequence comprises a primary protein structure.
[Aspect 26]
26. A method according to aspect 24 or 25, wherein said amino acid sequence gives rise to a protein conformation that gives rise to said protein function.
[Aspect 27]
27. The method of any one of aspects 24-26, wherein said protein function comprises fluorescence.
[Aspect 28]
28. The method of any one of aspects 24-27, wherein said protein function comprises enzymatic activity.
[Aspect 29]
29. The method of any one of aspects 24-28, wherein said protein function comprises nuclease activity.
[Aspect 30]
30. The method of any one of aspects 24-29, wherein said protein function comprises the degree of protein stability.
[Aspect 31]
31. The method of any one of aspects 24-30, wherein said plurality of protein features and said plurality of amino acid sequences are from UniProt.
[Aspect 32]
32. The method of any one of aspects 24-31, wherein the plurality of protein properties comprises one or more of labels GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, and OrthoDB.
[Aspect 33]
33. The method of any one of aspects 24-32, wherein said plurality of amino acid sequences form primary, secondary and tertiary protein structures of a plurality of proteins.
[Aspect 34]
34. Any of aspects 24-33, wherein the first model is trained on input data comprising one or more of a multidimensional tensor, a representation of three-dimensional atomic positions, an adjacency matrix of pairwise interactions, and character embeddings. or a method according to one aspect.
[Aspect 35]
Inputting into the second machine learning module at least one of data associated with variations in primary amino acid sequences, contact maps of amino acid interactions, tertiary protein structures, and predicted isoforms from alternatively spliced transcripts. 35. The method of any one of aspects 24-34, comprising
[Aspect 36]
36. The method of any one of aspects 24-35, wherein the first model and the second model are trained using supervised learning.
[Aspect 37]
37. The method of any one of aspects 24-36, wherein the first model is trained using supervised learning and the second model is trained using unsupervised learning.
[Aspect 38]
38. The method of any one of aspects 24-37, wherein the first model and the second model comprise a neural network comprising a convolutional neural network, a generative adversarial network, a recurrent neural network, or a variational autoencoder. .
[Aspect 39]
39. The method of aspect 38, wherein the first model and the second model each comprise different neural network architectures.
[Aspect 40]
wherein said convolutional network comprises one of VGG16, VGG19, Deep ResNet, Inception/GoogleLeNet (V1-V4), Inception/GoogleLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet, or MobileNet, aspect 38 or 39 The method described in .
[Aspect 41]
41. The method of any one of aspects 24-40, wherein the first model comprises embedders and the second model comprises predictors.
[Aspect 42]
42. The method of aspect 41, wherein the first model architecture includes multiple layers and the second model architecture includes at least two layers of the multiple layers.
[Aspect 43]
The first machine learning software module trains the first model with a first training data set comprising at least 10,000 protein features, and the second machine learning software module trains the second training data. 43. The method of any one of aspects 24-42, wherein sets are used to train the second model.
[Aspect 44]
1. A computer system that identifies previously unknown associations between amino acid sequences and protein function, comprising:
(a) a processor;
(b) a non-transitory computer-readable medium having instructions stored therein;
wherein the instructions, when executed, cause the processor to:
(i) generating a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences using a first machine learning software model;
(ii) transferring said first model or part thereof to a second machine learning software module;
(iii) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(iv) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
A system configured to cause
[Aspect 45]
45. The system of aspect 44, wherein said amino acid sequence comprises a primary protein structure.
[Aspect 46]
46. The system of aspect 44 or 45, wherein said amino acid sequence gives rise to a protein conformation that gives rise to said protein function.
[Aspect 47]
47. The system of any one of aspects 44-46, wherein said protein function comprises fluorescence.
[Aspect 48]
48. The system of any one of aspects 44-47, wherein said protein function comprises enzymatic activity.
[Aspect 49]
49. The system of any one of aspects 44-48, wherein said protein function comprises a nuclease activity.
[Aspect 50]
50. The system of any one of aspects 44-49, wherein said protein function comprises the degree of protein stability.
[Aspect 51]
51. The system of any one of aspects 44-50, wherein said plurality of protein features and plurality of protein markers are from UniProt.
[Aspect 52]
52. The system of any one of aspects 44-51, wherein the plurality of protein properties comprises one or more of labels GP, Pfam, keywords, Kegg ontology, Interpro, SUPFAM, and OrthoDB.
[Aspect 53]
53. The system of any one of aspects 44-52, wherein the plurality of amino acid sequences comprises primary protein structures, secondary protein structures, and tertiary protein structures of a plurality of proteins.
[Aspect 54]
54. Any of aspects 44-53, wherein the first model is trained with input data comprising one or more of a multidimensional tensor, a representation of three-dimensional atomic positions, an adjacency matrix of pairwise interactions, and character embeddings. or a system according to one aspect.
[Aspect 55]
The software provides the processor with at least one of data associated with primary amino acid sequence variation, a contact map of amino acid interactions, a tertiary protein structure, and predicted isoforms from alternative splicing transcripts for the second 55. The system of any one of aspects 44-54, configured to provide input to a machine learning module.
[Aspect 56]
56. The system of any one of aspects 44-55, wherein the first model and the second model are trained using supervised learning.
[Aspect 57]
57. The system of any one of aspects 44-56, wherein the first model is trained using supervised learning and the second model is trained using unsupervised learning.
[Aspect 58]
58. The system of any one of aspects 44-57, wherein the first model and the second model comprise a neural network comprising a convolutional neural network, a generative adversarial network, a recurrent neural network, or a variational autoencoder. .
[Aspect 59]
59. The system of aspect 58, wherein the first model and the second model each include different neural network architectures.
[Aspect 60]
wherein the convolutional network comprises one of VGG16, VGG19, Deep ResNet, Inception/GoogLeNet (V1-V4), Inception/GoogLeNet ResNet, Xception, AlexNet, LeNet, MobileNet, DenseNet, NASNet, or MobileNet; The system described in .
[Aspect 61]
61. The system of any one of aspects 44-60, wherein the first model includes embedders and the second model includes predictors.
[Aspect 62]
62. The system of aspect 61, wherein the first model architecture includes multiple layers and the second model architecture includes at least two layers of the multiple layers.
[Aspect 63]
The first machine learning software module trains the first model with a first training data set comprising at least 10,000 protein features, and the second machine learning software module trains the second training data. 63. The system of any one of aspects 44-62, wherein sets are used to train the second model.
[Aspect 64]
A method of modeling a desired protein property comprising:
training a first system using a first data set, said first system including a first neural net transformer encoder and a first decoder; the decoder of is configured to produce an output different from the desired protein property;
transferring at least a portion of the first transformer encoder of the pretrained system to a second system, the second system including a second transformer encoder and a second decoder; and
training the second system using a second dataset, the second dataset comprising a set of proteins representing fewer protein classes than the first set; training, wherein protein classes include one or more of (a) classes of proteins in the first dataset and (b) classes of proteins excluded from the first dataset;
analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
method including.
[Aspect 65]
65. A method according to aspect 64, wherein the primary amino acid sequences of protein analytes are one or more asparaginase sequences and corresponding activity labels.
[Aspect 66]
66. The method of aspect 64 or 65, wherein said first data set comprises a set of proteins comprising multiple classes of proteins.
[Aspect 67]
67. The method of any one of aspects 64-66, wherein said second data set is one of said class of proteins.
[Aspect 68]
68. The method of any one of aspects 64-67, wherein one of said classes of proteins is an enzyme.
[Aspect 69]
A configured system for performing the method according to any one of aspects 64-68.
Claims (15)
(a)第1のニューラルネットエンベッダー及び第1のニューラルネット予測子を含む第1の事前トレーニング済みシステムを提供することであって、前記事前トレーニング済みシステムの前記第1のニューラルネット予測子は、前記所望のタンパク質特性と異なる、提供することと、
(b)前記事前トレーニング済みシステムの前記第1のニューラルネットエンベッダーの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のニューラルネットエンベッダー及び第2のニューラルネット予測子を含み、前記第2のシステムの前記第2のニューラルネット予測子は、前記所望のタンパク質特性を提供する、転移することと、
(c)前記転移された前記第1のニューラルネットエンベッダーの少なくとも一部、前記第2のシステムの第2のニューラルネットエンベッダー、及び前記第2のシステムの第2のニューラルネット予測子を含む前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。 A computer-implemented method of modeling a desired protein property comprising:
(a) providing a first pre-trained system comprising a first neural net embedder and a first neural net predictor, wherein said first neural net predictor of said pre-trained system; is different from the desired protein property; and
(b) transferring at least a portion of said first neural net embedder of said pretrained system to a second system, said second system comprising a second neural net embedder and a second neural net embedder; transferring, comprising two neural net predictors, wherein the second neural net predictor of the second system provides the desired protein property;
(c) including at least a portion of said transferred first neural net embedder, a second neural net embedder of said second system, and a second neural net predictor of said second system; analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
A computer-implemented method comprising:
(a)第1の機械学習ソフトウェアモジュールを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(b)第2の機械学習ソフトウェアモジュールに前記第1のモデル又はその一部を転移することと、
(c)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(d)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を含む方法。 A computer-implemented method of identifying previously unknown associations between amino acid sequences and protein function, comprising:
(a) using a first machine learning software module to generate a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences;
(b) transferring said first model or part thereof to a second machine learning software module;
(c) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(d) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
method including.
(a)プロセッサと、
(b)命令を内部に記憶した非一時的コンピュータ可読媒体と、
を備え、前記命令は、実行されると、前記プロセッサに、
(i)第1の機械学習ソフトウェアモデルを用いて、複数のタンパク質特性と複数のアミノ酸配列との間の複数の関連の第1のモデルを生成することと、
(ii)前記第1のモデル又はその一部を第2の機械学習ソフトウェアモジュールに転移することと、
(iii)前記第2の機械学習ソフトウェアモジュールにより、前記第1のモデルの少なくとも一部を含む第2のモデルを生成することと、
(iv)前記第2のモデルに基づいて、前記アミノ酸配列と前記タンパク質機能との間の以前は未知であった関連を識別することと、
を行わせるように構成される、システム。 1. A computer system that identifies previously unknown associations between amino acid sequences and protein function, comprising:
(a) a processor;
(b) a non-transitory computer-readable medium having instructions stored therein;
wherein the instructions, when executed, cause the processor to:
(i) generating a first model of a plurality of associations between a plurality of protein properties and a plurality of amino acid sequences using a first machine learning software model;
(ii) transferring said first model or part thereof to a second machine learning software module;
(iii) generating, with said second machine learning software module, a second model comprising at least a portion of said first model;
(iv) identifying previously unknown associations between said amino acid sequence and said protein function based on said second model;
A system configured to cause
第1のデータセットを用いて第1のシステムをトレーニングすることであって、前記第1のシステムは第1のニューラルネットトランスフォーマエンコーダ及び事前トレーニング済みのシステムの第1のデコーダを含み、事前トレーニング済みのシステムの前記第1のデコーダは、前記所望のタンパク質特性とは異なる出力を生成するように構成される、トレーニングすることと、
前記事前トレーニング済みシステムの前記第1のトランスフォーマエンコーダの少なくとも一部を第2のシステムに転移することであって、前記第2のシステムは第2のトランスフォーマエンコーダ及び第2のデコーダを含む、転移することと、
第2のデータセットを用いて前記第2のシステムをトレーニングすることであって、前記第2のデータセットは、前記第1のセットよりも少数のタンパク質クラスを表す1組のタンパク質を含み、前記タンパク質クラスは、(a)前記第1のデータセット内のタンパク質のクラス及び(b)前記第1のデータセットから除外されるタンパク質のクラスの1つ又は複数を含む、トレーニングすることと、
前記第2のシステムにより、タンパク質検体の一次アミノ酸配列を解析することであって、それにより、前記タンパク質検体の前記所望のタンパク質特性の予測を生成する、解析することと、
を含むコンピュータ実施方法。 A computer-implemented method of modeling a desired protein property comprising:
training a first system with a first data set, said first system including a first neural net transformer encoder and a first decoder of a pre-trained system; wherein the first decoder of the system of is configured to produce an output different from the desired protein property;
transferring at least a portion of the first transformer encoder of the pretrained system to a second system, the second system including a second transformer encoder and a second decoder; and
training the second system using a second dataset, the second dataset comprising a set of proteins representing fewer protein classes than the first set; training, wherein protein classes include one or more of (a) classes of proteins in the first dataset and (b) classes of proteins excluded from the first dataset;
analyzing a primary amino acid sequence of a protein sample by the second system, thereby generating a prediction of the desired protein properties of the protein sample;
A computer-implemented method comprising:
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962804036P | 2019-02-11 | 2019-02-11 | |
US201962804034P | 2019-02-11 | 2019-02-11 | |
US62/804,034 | 2019-02-11 | ||
US62/804,036 | 2019-02-11 | ||
PCT/US2020/017517 WO2020167667A1 (en) | 2019-02-11 | 2020-02-10 | Machine learning guided polypeptide analysis |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2022521686A JP2022521686A (en) | 2022-04-12 |
JPWO2020167667A5 true JPWO2020167667A5 (en) | 2023-02-16 |
JP7492524B2 JP7492524B2 (en) | 2024-05-29 |
Family
ID=70005699
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021546841A Active JP7492524B2 (en) | 2019-02-11 | 2020-02-10 | Machine learning assisted polypeptide analysis |
Country Status (8)
Country | Link |
---|---|
US (1) | US20220122692A1 (en) |
EP (1) | EP3924971A1 (en) |
JP (1) | JP7492524B2 (en) |
KR (1) | KR20210125523A (en) |
CN (1) | CN113412519B (en) |
CA (1) | CA3127965A1 (en) |
IL (1) | IL285402A (en) |
WO (1) | WO2020167667A1 (en) |
Families Citing this family (45)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10678244B2 (en) | 2017-03-23 | 2020-06-09 | Tesla, Inc. | Data synthesis for autonomous control systems |
US11157441B2 (en) | 2017-07-24 | 2021-10-26 | Tesla, Inc. | Computational array microprocessor system using non-consecutive data formatting |
US11893393B2 (en) | 2017-07-24 | 2024-02-06 | Tesla, Inc. | Computational array microprocessor system with hardware arbiter managing memory requests |
US11409692B2 (en) | 2017-07-24 | 2022-08-09 | Tesla, Inc. | Vector computational unit |
US10671349B2 (en) | 2017-07-24 | 2020-06-02 | Tesla, Inc. | Accelerated mathematical engine |
US11561791B2 (en) | 2018-02-01 | 2023-01-24 | Tesla, Inc. | Vector computational unit receiving data elements in parallel from a last row of a computational array |
US11215999B2 (en) | 2018-06-20 | 2022-01-04 | Tesla, Inc. | Data pipeline and deep learning system for autonomous driving |
US11361457B2 (en) | 2018-07-20 | 2022-06-14 | Tesla, Inc. | Annotation cross-labeling for autonomous control systems |
US11636333B2 (en) | 2018-07-26 | 2023-04-25 | Tesla, Inc. | Optimizing neural network structures for embedded systems |
US11562231B2 (en) | 2018-09-03 | 2023-01-24 | Tesla, Inc. | Neural networks for embedded devices |
CN115512173A (en) | 2018-10-11 | 2022-12-23 | 特斯拉公司 | System and method for training machine models using augmented data |
US11196678B2 (en) | 2018-10-25 | 2021-12-07 | Tesla, Inc. | QOS manager for system on a chip communications |
US11816585B2 (en) | 2018-12-03 | 2023-11-14 | Tesla, Inc. | Machine learning models operating at different frequencies for autonomous vehicles |
US11537811B2 (en) | 2018-12-04 | 2022-12-27 | Tesla, Inc. | Enhanced object detection for autonomous vehicles based on field view |
US11610117B2 (en) | 2018-12-27 | 2023-03-21 | Tesla, Inc. | System and method for adapting a neural network model on a hardware platform |
US11150664B2 (en) | 2019-02-01 | 2021-10-19 | Tesla, Inc. | Predicting three-dimensional features for autonomous driving |
US10997461B2 (en) | 2019-02-01 | 2021-05-04 | Tesla, Inc. | Generating ground truth for machine learning from time series elements |
US11567514B2 (en) | 2019-02-11 | 2023-01-31 | Tesla, Inc. | Autonomous and user controlled vehicle summon to a target |
US10956755B2 (en) | 2019-02-19 | 2021-03-23 | Tesla, Inc. | Estimating object properties using visual image data |
US12040050B1 (en) * | 2019-03-06 | 2024-07-16 | Nabla Bio, Inc. | Systems and methods for rational protein engineering with deep representation learning |
EP4008006A1 (en) * | 2019-08-02 | 2022-06-08 | Flagship Pioneering Innovations VI, LLC | Machine learning guided polypeptide design |
US11455540B2 (en) * | 2019-11-15 | 2022-09-27 | International Business Machines Corporation | Autonomic horizontal exploration in neural networks transfer learning |
US20210249105A1 (en) * | 2020-02-06 | 2021-08-12 | Salesforce.Com, Inc. | Systems and methods for language modeling of protein engineering |
US12080380B2 (en) | 2020-08-28 | 2024-09-03 | Just-Evotec Biologics, Inc. | Implementing a generative machine learning architecture to produce training data for a classification model |
US11948664B2 (en) * | 2020-09-21 | 2024-04-02 | Just-Evotec Biologics, Inc. | Autoencoder with generative adversarial network to generate protein sequences |
US11403316B2 (en) | 2020-11-23 | 2022-08-02 | Peptilogics, Inc. | Generating enhanced graphical user interfaces for presentation of anti-infective design spaces for selecting drug candidates |
KR102569987B1 (en) * | 2021-03-10 | 2023-08-24 | 삼성전자주식회사 | Apparatus and method for estimating bio-information |
CN112951341B (en) * | 2021-03-15 | 2024-04-30 | 江南大学 | Polypeptide classification method based on complex network |
US11512345B1 (en) | 2021-05-07 | 2022-11-29 | Peptilogics, Inc. | Methods and apparatuses for generating peptides by synthesizing a portion of a design space to identify peptides having non-canonical amino acids |
CN113257361B (en) * | 2021-05-31 | 2021-11-23 | 中国科学院深圳先进技术研究院 | Method, device and equipment for realizing self-adaptive protein prediction framework |
US20240274238A1 (en) * | 2021-06-10 | 2024-08-15 | BASF Agricultural Solutions Seed US LLC | Deep Learning Model for Predicting a Proteins Ability to Form Pores |
CN113971992B (en) * | 2021-10-26 | 2024-03-29 | 中国科学技术大学 | Self-supervision pre-training method and system for molecular attribute predictive graph network |
CN114333982B (en) * | 2021-11-26 | 2023-09-26 | 北京百度网讯科技有限公司 | Protein representation model pre-training and protein interaction prediction method and device |
US20230268026A1 (en) | 2022-01-07 | 2023-08-24 | Absci Corporation | Designing biomolecule sequence variants with pre-specified attributes |
WO2023133564A2 (en) * | 2022-01-10 | 2023-07-13 | Aether Biomachines, Inc. | Systems and methods for engineering protein activity |
EP4310726A1 (en) * | 2022-07-20 | 2024-01-24 | Nokia Solutions and Networks Oy | Apparatus and method for channel impairment estimations using transformer-based machine learning model |
CN114927165B (en) * | 2022-07-20 | 2022-12-02 | 深圳大学 | Method, device, system and storage medium for identifying ubiquitination sites |
WO2024039466A1 (en) * | 2022-08-15 | 2024-02-22 | Microsoft Technology Licensing, Llc | Machine learning solution to predict protein characteristics |
WO2024040189A1 (en) * | 2022-08-18 | 2024-02-22 | Seer, Inc. | Methods for using a machine learning algorithm for omic analysis |
CN115169543A (en) * | 2022-09-05 | 2022-10-11 | 广东工业大学 | Short-term photovoltaic power prediction method and system based on transfer learning |
WO2024095126A1 (en) * | 2022-11-02 | 2024-05-10 | Basf Se | Systems and methods for using natural language processing (nlp) to predict protein function similarity |
CN115966249B (en) * | 2023-02-15 | 2023-05-26 | 北京科技大学 | protein-ATP binding site prediction method and device based on fractional order neural network |
CN116072227B (en) | 2023-03-07 | 2023-06-20 | 中国海洋大学 | Marine nutrient biosynthesis pathway excavation method, apparatus, device and medium |
CN116206690B (en) * | 2023-05-04 | 2023-08-08 | 山东大学齐鲁医院 | Antibacterial peptide generation and identification method and system |
CN117352043B (en) * | 2023-12-06 | 2024-03-05 | 江苏正大天创生物工程有限公司 | Protein design method and system based on neural network |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2016094330A2 (en) * | 2014-12-08 | 2016-06-16 | 20/20 Genesystems, Inc | Methods and machine learning systems for predicting the liklihood or risk of having cancer |
WO2017106638A1 (en) * | 2015-12-16 | 2017-06-22 | Gritstone Oncology, Inc. | Neoantigen identification, manufacture, and use |
EP3542296B1 (en) * | 2016-11-18 | 2021-04-14 | NantOmics, LLC | Methods and systems for predicting dna accessibility in the pan-cancer genome |
CN107742061B (en) * | 2017-09-19 | 2021-06-01 | 中山大学 | Protein interaction prediction method, system and device |
-
2020
- 2020-02-10 US US17/428,356 patent/US20220122692A1/en active Pending
- 2020-02-10 KR KR1020217028679A patent/KR20210125523A/en unknown
- 2020-02-10 CA CA3127965A patent/CA3127965A1/en active Pending
- 2020-02-10 JP JP2021546841A patent/JP7492524B2/en active Active
- 2020-02-10 CN CN202080013315.3A patent/CN113412519B/en active Active
- 2020-02-10 EP EP20714317.3A patent/EP3924971A1/en active Pending
- 2020-02-10 WO PCT/US2020/017517 patent/WO2020167667A1/en unknown
-
2021
- 2021-08-05 IL IL285402A patent/IL285402A/en unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPWO2020167667A5 (en) | ||
Dias et al. | Artificial intelligence in clinical and genomic diagnostics | |
Koo et al. | Deep learning for inferring transcription factor binding sites | |
CN111602148B (en) | Regularized neural network architecture search | |
US11768911B2 (en) | Method and apparatus for execution of neural network | |
CN115485696A (en) | Countermeasure pretraining of machine learning models | |
US20210089873A1 (en) | Apparatus and system for execution of neural network | |
US20230207054A1 (en) | Deep learning network for evolutionary conservation | |
US11507844B2 (en) | Asynchronous evaluation strategy for evolution of deep neural networks | |
WO2022082879A1 (en) | Gene sequencing data processing method and gene sequencing data processing device | |
Scanzio et al. | Parallel implementation of artificial neural network training | |
KR102547977B1 (en) | Apparatus and method for generating tcr information corresponding to pmhc using artificial intelligence | |
CN114743600A (en) | Gate-controlled attention mechanism-based deep learning prediction method for target-ligand binding affinity | |
Fang et al. | Bioformer: an efficient transformer language model for biomedical text mining | |
Geng et al. | A deep learning framework for enhancer prediction using word embedding and sequence generation | |
KR102547969B1 (en) | Apparatus and method for generating immunopeptidome pmhc information using artificial intelligence | |
CN114402393A (en) | Artificial intelligence-based epigenetics | |
CN116386815A (en) | Traditional Chinese medicine prescription recommendation method based on maximum bolus algorithm | |
WO2020210591A1 (en) | Predicting biological functions of proteins using dilated convolutional neural networks | |
KR102482302B1 (en) | Apparatus and method for determining major histocompatibility complex corresponding to cluster data using artificial intelligence | |
CN114999566A (en) | Drug repositioning method and system based on word vector characterization and attention mechanism | |
Kanaka et al. | Deep Learning in Neural Networks and their Application in Genomics | |
KR102547978B1 (en) | Apparatus and method for generating tcr information corresponding to pmhc using artificial intelligence | |
Hristeva | Application of graphic processing units in deep learning algorithms | |
Anand et al. | Artificial intelligence in nephrology |