LU502739B1

LU502739B1 - A Prediction Method of Interaction Between Multi-Information and Residue Binding Energy Protein

Info

Publication number: LU502739B1
Application number: LU502739A
Authority: LU
Inventors: Fei Guo
Original assignee: Univ Central South
Priority date: 2022-08-31
Filing date: 2022-08-31
Publication date: 2024-02-29

Claims

REVENDICATIONS

1. Une méthode de prédiction de l’interaction entre protéines à information mutuelle LU502739 multivariée et énergie de liaison des résidus est caractérisée par les étapes suivantes : Étape (1): Regroupement des catégories d’acides aminés, 20 acides aminés standard ont été divisés en n groupes fonctionnels selon la dipolarité et le volume, et ces n groupes fonctionnels ont été enregistrés comme Co, Ci, Cz, ..., Cy, conversion de la séquence d’acides aminés d’origine en une séquence de classe de groupe selon la classe de groupe fonctionnel de chaque acide aminé ; Étape (2): Définir différents types de représentations de caractéristiques à 3 tuples et à 2 tuples. Les représentations de caractéristiques à 3 tuples sont « CoCoCo », « CoCoC1»,...« ChCnCn »; Les caractéristiques de 2 tuples sont exprimées par « CoCo », « CoC1 »,...« CnCn ». Étape (3): Le nombre de caractéristiques à 3 tuples et de caractéristiques à 2 tuples dans la séquence de classe de groupe est compté, et le tableau de fréquence des caractéristiques est établi. La fonction de calcul de fréquence f (a) = (na+1)/(I+1) est utilisée pour calculer la fréquence de n classes dans la séquence respectivement ; Étape (4): Calculer les caractéristiques d’information mutuelle de 2 tuples, et la formule de calcul est :

vu. Hla a) Où f (ab) est la fréquence d’ occurrence simultanée de la classe ab dans le groupe binaire ; Étape (5): Calculer les caractéristiques d’information mutuelle de 3 tuples. La formule de calcul est : I(abc)— I(ab)+f(a|c)Inf(a|c)-f(albc)Inf(a[bc) Où f (a |c) est la fréquence d’occurrence simultanée de la classe a dans tous les groupes binaires où la classe c se produit, f (a |bc) est la fréquence d’occurrence simultanée de la classe a dans tous les triplets où la classe bc se produit ; La première partie de la valeur de caractéristiques de l’information mutuelle est obtenue à travers les cinq étapes ci-dessus ; Étape (6): Calculer les caractéristiques physico-chimiques des acides aminés ; Étape (7): La matrice de contact des acides aminés AAC a été calculée à l’aide de la fréquence d’appariement des résidus grâce à une analyse statistique de la base de données des complexes protéiques : api A ; Nat; Parmi eux, i,j représentent deux acides aminés, Ni, j= *-Snj sont le nombre de contact de i et],

REVENDICATIONS Calcul de la matrice de substitution SMR, SMR;, =AAC (i, A1), ou I=1,..., 20 est l'un des LU502739 vingt types d'acides aminés, 1=1,..., L est l'une des L positions dans une séquence protéique donnée, et Aj est un type d'acide aminé en position I. Une matrice de substitution SMR de 20 x L est obtenue par cette étape ; Étape (8): L’algorithme d’extraction des caractéristiques de l’histogramme de direction du gradient HOG est utilisé pour extraire les caractéristiques des séquences d’acides aminés ; Étape (9): Par décomposition en valeurs singulières de la matrice transposée de la matrice SMR, 20 vecteurs singuliers droits peuvent être obtenus. Étape (10): Les valeurs propres obtenues par les étapes 1 à 9 sont entrées dans un modèle de forêt stochastique pour la prédiction, obtenant ainsi l’interaction entre deux protéines.

2. Un procédé de prédiction de l’interaction entre protéines à information mutuelle multivariée et d’énergie de laisd Lhd} = JED + GABA ition 1 est caractérisé en ce que l’étape de calcul spécifique de l’étape (6) est la suivante : Étape (6.1): Calculer la valeur propre de l’autocorrélation Moreau-Broto, et la formule de calcul est : , ke Où lag est la distance entre les résidus, p est la p-ème propriété physico-chimique de l’acide aminé naturel et | est la position de la séquence Séquence, I=1, 2, … , L-lag et lag = 1, 2, … , lg, exprimé par six propriétés physico- chimiques, on obtient lg x 6 valeurs propres. Étape (6.2): Normaliser les valeurs propres Ig x 6 obtenues ; Étape (6.3): La fréquence de 20 acides aminés dans la séquence a été comptée.

3. Un procédé de prédiction d’interaction entre protéines à information mutuelle multvariée et d’énergie de liaison des résidus selon la revendication 1 est caractérisé en ce que le processus de calcul spécifique de l’étape (8) est le suivant : Étape (8.1): Les valeurs de gradient Gn (i, I) et Gy (i, 1) dans les directions horizontale et verticale sont calculées par les formules suivantes : { EMR 4 LOD 0, i= Eli) = IR FLACIMRU~LD, Ii v 9 —EMRIE— LIL (= f | SMEOLI+ 1-8 isd Geld) = 1 SMELT 1) — ENRGI- 1 1<1<L { Q—SMRT ET, fu} Étape (8.2): Calculer l’amplitude de gradient FLEE JEL IF OLE Etape (8.3): Calculer la direction de gradient Batty 11

REVENDICATIONS

Étape (8.4): La matrice d’amplitude de gradient et la matrice de direction dd gradient sont LU502739 divisées en 9 sous-matrices de même taille ;

Étape (8.5): L’histogramme de chaque direction de gradient est compté et la taille de l’histogramme de chaque direction de gradient est prise comme valeur propre.

Grâce aux étapes ci-dessus, x valeurs propres sont obtenues à partir de chaque séquence et 2x valeurs propres sont obtenues à partir des deux séquences.

12