LU502739B1 - A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein - Google Patents
A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein Download PDFInfo
- Publication number
- LU502739B1 LU502739B1 LU502739A LU502739A LU502739B1 LU 502739 B1 LU502739 B1 LU 502739B1 LU 502739 A LU502739 A LU 502739A LU 502739 A LU502739 A LU 502739A LU 502739 B1 LU502739 B1 LU 502739B1
- Authority
- LU
- Luxembourg
- Prior art keywords
- calculate
- protein
- amino acid
- interaction
- sequence
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 41
- 102000004169 proteins and genes Human genes 0.000 title claims abstract description 33
- 108090000623 proteins and genes Proteins 0.000 title claims abstract description 33
- 230000003993 interaction Effects 0.000 title claims abstract description 23
- 150000001413 amino acids Chemical class 0.000 claims abstract description 40
- 239000011159 matrix material Substances 0.000 claims abstract description 28
- 230000006916 protein interaction Effects 0.000 claims abstract description 21
- 125000003275 alpha amino acid group Chemical group 0.000 claims abstract description 20
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 239000000126 substance Substances 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims description 28
- 125000000524 functional group Chemical group 0.000 claims description 9
- 238000006467 substitution reaction Methods 0.000 claims description 9
- 238000007637 random forest analysis Methods 0.000 claims description 7
- 238000004422 calculation algorithm Methods 0.000 claims description 4
- 238000007619 statistical method Methods 0.000 claims description 3
- 239000013598 vector Substances 0.000 claims description 3
- XOOUIPVCVHRTMJ-UHFFFAOYSA-L zinc stearate Chemical compound [Zn+2].CCCCCCCCCCCCCCCCCC([O-])=O.CCCCCCCCCCCCCCCCCC([O-])=O XOOUIPVCVHRTMJ-UHFFFAOYSA-L 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000000354 decomposition reaction Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 5
- 239000000284 extract Substances 0.000 description 4
- 238000013461 design Methods 0.000 description 3
- 230000037353 metabolic pathway Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000031018 biological processes and functions Effects 0.000 description 2
- 102100023471 E-selectin Human genes 0.000 description 1
- 241000283074 Equus asinus Species 0.000 description 1
- 241000588724 Escherichia coli Species 0.000 description 1
- 101000622123 Homo sapiens E-selectin Proteins 0.000 description 1
- 241000596871 Ixia Species 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012530 fluid Substances 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002887 multiple sequence alignment Methods 0.000 description 1
- 230000008506 pathogenesis Effects 0.000 description 1
- 230000004853 protein function Effects 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 150000003839 salts Chemical class 0.000 description 1
- 230000019491 signal transduction Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 210000004885 white matter Anatomy 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medicinal Chemistry (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Pharmacology & Pharmacy (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Crystallography & Structural Chemistry (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Claims (3)
1. Une méthode de prédiction de l’interaction entre protéines à information mutuelle LU502739 multivariée et énergie de liaison des résidus est caractérisée par les étapes suivantes : Étape (1): Regroupement des catégories d’acides aminés, 20 acides aminés standard ont été divisés en n groupes fonctionnels selon la dipolarité et le volume, et ces n groupes fonctionnels ont été enregistrés comme Co, Ci, Cz, ..., Cy, conversion de la séquence d’acides aminés d’origine en une séquence de classe de groupe selon la classe de groupe fonctionnel de chaque acide aminé ; Étape (2): Définir différents types de représentations de caractéristiques à 3 tuples et à 2 tuples. Les représentations de caractéristiques à 3 tuples sont « CoCoCo », « CoCoC1»,...« ChCnCn »; Les caractéristiques de 2 tuples sont exprimées par « CoCo », « CoC1 »,...« CnCn ». Étape (3): Le nombre de caractéristiques à 3 tuples et de caractéristiques à 2 tuples dans la séquence de classe de groupe est compté, et le tableau de fréquence des caractéristiques est établi. La fonction de calcul de fréquence f (a) = (na+1)/(I+1) est utilisée pour calculer la fréquence de n classes dans la séquence respectivement ; Étape (4): Calculer les caractéristiques d’information mutuelle de 2 tuples, et la formule de calcul est :
vu. Hla a) Où f (ab) est la fréquence d’ occurrence simultanée de la classe ab dans le groupe binaire ; Étape (5): Calculer les caractéristiques d’information mutuelle de 3 tuples. La formule de calcul est : I(abc)— I(ab)+f(a|c)Inf(a|c)-f(albc)Inf(a[bc) Où f (a |c) est la fréquence d’occurrence simultanée de la classe a dans tous les groupes binaires où la classe c se produit, f (a |bc) est la fréquence d’occurrence simultanée de la classe a dans tous les triplets où la classe bc se produit ; La première partie de la valeur de caractéristiques de l’information mutuelle est obtenue à travers les cinq étapes ci-dessus ; Étape (6): Calculer les caractéristiques physico-chimiques des acides aminés ; Étape (7): La matrice de contact des acides aminés AAC a été calculée à l’aide de la fréquence d’appariement des résidus grâce à une analyse statistique de la base de données des complexes protéiques : api A ; Nat; Parmi eux, i,j représentent deux acides aminés, Ni, j= *-Snj sont le nombre de contact de i et],
REVENDICATIONS Calcul de la matrice de substitution SMR, SMR;, =AAC (i, A1), ou I=1,..., 20 est l'un des LU502739 vingt types d'acides aminés, 1=1,..., L est l'une des L positions dans une séquence protéique donnée, et Aj est un type d'acide aminé en position I. Une matrice de substitution SMR de 20 x L est obtenue par cette étape ; Étape (8): L’algorithme d’extraction des caractéristiques de l’histogramme de direction du gradient HOG est utilisé pour extraire les caractéristiques des séquences d’acides aminés ; Étape (9): Par décomposition en valeurs singulières de la matrice transposée de la matrice SMR, 20 vecteurs singuliers droits peuvent être obtenus. Étape (10): Les valeurs propres obtenues par les étapes 1 à 9 sont entrées dans un modèle de forêt stochastique pour la prédiction, obtenant ainsi l’interaction entre deux protéines.
2. Un procédé de prédiction de l’interaction entre protéines à information mutuelle multivariée et d’énergie de laisd Lhd} = JED + GABA ition 1 est caractérisé en ce que l’étape de calcul spécifique de l’étape (6) est la suivante : Étape (6.1): Calculer la valeur propre de l’autocorrélation Moreau-Broto, et la formule de calcul est : , ke Où lag est la distance entre les résidus, p est la p-ème propriété physico-chimique de l’acide aminé naturel et | est la position de la séquence Séquence, I=1, 2, … , L-lag et lag = 1, 2, … , lg, exprimé par six propriétés physico- chimiques, on obtient lg x 6 valeurs propres. Étape (6.2): Normaliser les valeurs propres Ig x 6 obtenues ; Étape (6.3): La fréquence de 20 acides aminés dans la séquence a été comptée.
3. Un procédé de prédiction d’interaction entre protéines à information mutuelle multvariée et d’énergie de liaison des résidus selon la revendication 1 est caractérisé en ce que le processus de calcul spécifique de l’étape (8) est le suivant : Étape (8.1): Les valeurs de gradient Gn (i, I) et Gy (i, 1) dans les directions horizontale et verticale sont calculées par les formules suivantes : { EMR 4 LOD 0, i= Eli) = IR FLACIMRU~LD, Ii v 9 —EMRIE— LIL (= f | SMEOLI+ 1-8 isd Geld) = 1 SMELT 1) — ENRGI- 1 1<1<L { Q—SMRT ET, fu} Étape (8.2): Calculer l’amplitude de gradient FLEE JEL IF OLE Etape (8.3): Calculer la direction de gradient Batty 11
REVENDICATIONS
Étape (8.4): La matrice d’amplitude de gradient et la matrice de direction dd gradient sont LU502739 divisées en 9 sous-matrices de même taille ;
Étape (8.5): L’histogramme de chaque direction de gradient est compté et la taille de l’histogramme de chaque direction de gradient est prise comme valeur propre.
Grâce aux étapes ci-dessus, x valeurs propres sont obtenues à partir de chaque séquence et 2x valeurs propres sont obtenues à partir des deux séquences.
12
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU502739A LU502739B1 (en) | 2022-08-31 | 2022-08-31 | A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
LU502739A LU502739B1 (en) | 2022-08-31 | 2022-08-31 | A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein |
Publications (1)
Publication Number | Publication Date |
---|---|
LU502739B1 true LU502739B1 (en) | 2024-02-29 |
Family
ID=90195306
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
LU502739A LU502739B1 (en) | 2022-08-31 | 2022-08-31 | A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein |
Country Status (1)
Country | Link |
---|---|
LU (1) | LU502739B1 (fr) |
-
2022
- 2022-08-31 LU LU502739A patent/LU502739B1/en active IP Right Grant
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Babu et al. | Medical disease prediction using grey wolf optimization and auto encoder based recurrent neural network | |
WO2022126971A1 (fr) | Procédé et appareil de groupement de textes selon la densité, dispositif et support de stockage | |
WO2020062660A1 (fr) | Procédé, appareil et dispositif d'évaluation de risque de crédit d'entreprise, et support de stockage | |
Yu et al. | Hybrid clustering solution selection strategy | |
US20080082356A1 (en) | System and method to optimize control cohorts using clustering algorithms | |
WO2021036317A1 (fr) | Procédé de surveillance d'indice de changement d'informations, appareil, dispositif informatique et support d'informations | |
Lee et al. | Modeling of inter‐sample variation in flow cytometric data with the joint clustering and matching procedure | |
CN108919067A (zh) | 一种用于gis局部放电模式的识别方法 | |
WO2023168812A1 (fr) | Procédé et appareil d'optimisation pour système de recherche, support de stockage et dispositif informatique | |
WO2020143305A1 (fr) | Procédé et appareil de classification d'informations de groupe, dispositif informatique et support de stockage | |
Ahmed et al. | Prediction of COVID-19 disease severity using machine learning techniques | |
CN114003636A (zh) | 一种基于变量相关性的多元时间序列相似性搜索方法 | |
LU502739B1 (en) | A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein | |
WO2022011855A1 (fr) | Procédé de filtrage des variations structurelles faussement positives, support de stockage, et dispositif informatique | |
Yuan et al. | CSCIM_FS: Cosine similarity coefficient and information measurement criterion-based feature selection method for high-dimensional data | |
CN113643768A (zh) | 植物代谢物数据库的构建方法、装置、介质及终端 | |
CN113554176A (zh) | 代谢特征谱推断方法、系统、计算机设备及存储介质 | |
CN109801672A (zh) | 多元互信息和残基结合能量蛋白质间相互作用预测方法 | |
CN109545289A (zh) | 一种基于分级警示结构高通量筛查内分泌干扰物的方法 | |
CN113870950A (zh) | 一种稻瘟菌侵染水稻关键sRNA识别系统及识别方法 | |
Pouyan et al. | Distance metric learning using random forest for cytometry data | |
CN111383708A (zh) | 基于化学基因组学的小分子靶标预测算法及其应用 | |
CN109815989A (zh) | 一种多模型融合评价系统 | |
CN106599617B (zh) | 一种运行于分布式系统的海量测序数据错误修正方法 | |
US20240347136A1 (en) | Feature Screening Method and Apparatus, Storage Medium and Electronic Device |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FG | Patent granted |
Effective date: 20240229 |