LU101632B1 - Computer performance defect detection based on energy consumption telemetry - Google Patents

Computer performance defect detection based on energy consumption telemetry Download PDF

Info

Publication number
LU101632B1
LU101632B1 LU101632A LU101632A LU101632B1 LU 101632 B1 LU101632 B1 LU 101632B1 LU 101632 A LU101632 A LU 101632A LU 101632 A LU101632 A LU 101632A LU 101632 B1 LU101632 B1 LU 101632B1
Authority
LU
Luxembourg
Prior art keywords
data
distribution
computing platform
telemetry data
configuration
Prior art date
Application number
LU101632A
Other languages
English (en)
Inventor
Minxiao Zhou
Yanglei Li
Travis Alcantara
Original Assignee
Microsoft Technology Licensing Llc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing Llc filed Critical Microsoft Technology Licensing Llc
Priority to LU101632A priority Critical patent/LU101632B1/en
Application granted granted Critical
Publication of LU101632B1 publication Critical patent/LU101632B1/en

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/20Administration of product repair or maintenance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3051Monitoring arrangements for monitoring the configuration of the computing system or of the computing system component, e.g. monitoring the presence of processing resources, peripherals, I/O links, software programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3058Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations
    • G06F11/3062Monitoring arrangements for monitoring environmental properties or parameters of the computing system or of the computing system component, e.g. monitoring of power, currents, temperature, humidity, position, vibrations where the monitored property is the power consumption
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computer Hardware Design (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Claims (15)

13768.3863 / 407978-LU-NP REVENDICATIONS LU101632 Ce qui est revendiqué :
1. Un procédé, mis en œuvre au niveau d’un système informatique (404) incluant au moins un processeur, destiné à détecter un défaut de performance au niveau d’une plateforme informatique électronique résultant d’un changement de configuration dans la plateforme informatique, le procédé comprenant : l'obtention (405) d’une première distribution de premières données de télémétrie (403a) obtenues à partir d’une première pluralité d’instances (402a) de la plateforme informatique, les premières données de télémétrie correspondant à une configuration avant changement, les premières données de télémétrie comprenant des données correspondant à chacune des instances de la première pluralité de la plateforme informatique et indiquant la consommation d’énergie par au moins un composant au niveau de l'instance correspondante de la plateforme informatique ; l'obtention (405) d’une deuxième distribution de deuxièmes données de télémétrie (403b) obtenues à partir d’une deuxième pluralité d’instances (402b) de la plateforme informatique, les deuxièmes données de télémétrie correspondant à une configuration après changement, les deuxièmes données de télémétrie comprenant des données correspondant à chacune des instances de la deuxième pluralité de la plateforme informatique et indiquant la consommation d'énergie par au moins un composant au niveau de l’instance correspondante de la plateforme informatique ; le calcul (406) d’un ou plusieurs résultats à l’aide d’au moins une partie des premières données de télémétrie et au moins une partie des deuxièmes données de télémétrie comme entrées, le ou les résultats caractérisant une ou plusieurs différences entre [a première distribution et la deuxième distribution ; et l'introduction (407) du ou des résultats dans un modèle entraîné d'apprentissage machine (410) afin de prédire si la ou les différences entre la première distribution et la deuxième distribution indiquent qu’un défaut de performance a été causé par le changement de configuration.
2. Le procédé selon la revendication 1, dans lequel le modèle entraîné d'apprentissage machine a été entraîné à l’aide de données d'entraînement comprenant des résultats Statistiques calculés à partir d’une ou plusieurs parties de premières et deuxièmes données de télémétrie historiques, les résultats statistiques étiquetés avec des indications connues de défauts de performance causés par des changements historiques de configuration associés à la ou aux parties de premières et deuxièmes données de télémétrie historiques.
3. Procédé selon l’une quelconque des revendications précédentes, dans lequel le ou les résultats comprennent au moins un score z à un centile particulier de la première et la deuxième distribution, une première valeur p générée par un test de Welch ou une deuxième valeur p générée par un test de Kolmogorov-Smirnov.
4. Procédé selon la revendication 3, comprenant en outre le calcul d’un delta de score z basé sur au moins : a) le calcul d’un delta initial entre la première distribution et la deuxième distribution au centile particulier ; b) le mélange de points de données provenant des premières données de télémétrie et des deuxièmes données de télémétrie ; 26
BE
13768.3863 / 407978-LU-NP c) la division des points de données mélangés pour créer une premiere distribution mélangée et une LU101632 deuxième distribution mélangée ; d) le calcul d’un delta correspondant entre la première distribution mélangée et la deuxième distribution mélangée au centile particulier ; e) la répétition de b) à d) plusieurs fois tout en créant une première distribution mélangée distincte pour chaque itération et en créant une deuxième distribution mélangée distincte pour chaque itération ; f) le calcul d’un écart type parmi les deltas calculés correspondants ; et g) la division du delta initial par l’écart type.
5. Le procédé selon la revendication 4, dans lequel la division des points de données mélangés pour créer la première distribution mélangée et la deuxième distribution mélangée comprend la division aléatoire des points de données mélangés.
6. Le procédé selon l’une quelconque des revendications précédentes, dans lequel le défaut de performance comprend au moins une régression de la performance matérielle ou une régression de la performance logicielle.
7. Le procédé selon l’une quelconque des revendications précédentes, dans lequel la première pluralité d’instances de la plateforme informatique comprend une première pluralité de dispositifs informatiques ayant un identifiant de modèle commun, et dans lequel la deuxième pluralité d’instances de la plateforme informatique comprend une deuxième pluralité de dispositifs informatiques ayant l'identifiant de modèle commun.
8. Le procédé selon l’une quelconque des revendications précédentes, dans lequel les données indiquant la consommation d’énergie d’au moins un composant d’une instance correspondante de la plateforme informatique comprennent au moins : des données indiquant la consommation d'énergie d’un dispositif matériel de l’instance correspondante de la plateforme informatique ; ou des données indiquant la consommation d'énergie causée par l'exécution d’un processus logiciel au niveau de l'instance correspondante de la plateforme informatique.
9. Le procédé selon l’une quelconque des revendications précédentes, dans lequel le modèle entraîné d'apprentissage machine comprend au moins un algorithme de régression logistique, un algorithme de machine à vecteurs de support, un algorithme de forêts aléatoires, un algorithme des plus proches voisins k ou un algorithme par classification bayésienne naïve.
10. Le procédé selon l’une quelconque des revendications précédentes, dans lequel le modèle entraîné d’apprentissage machine est entraîné sur la base de données d’entraînement comprenant un ou plusieurs éléments d’un premier ensemble de valeurs de score z, d’un deuxième ensemble de valeurs p générées par un test de Welch ou d’un troisième ensemble de valeurs p générées par un test de Kolmogorov-Smirnov.
11. Le procédé selon l’une quelconque des revendications précédentes, dans lequel un premier ensemble de dispositifs comprenant la première pluralité d'instances de la plateforme informatique chevauche un deuxième ensemble de dispositifs comprenant la deuxième pluralité d’instances de la plateforme informatique.
27 ee
13768.3863 / 407978-LU-NP
12. Le procédé selon l’une quelconque des revendications précédentes, dans lequel le changement de ui 01632 configuration comprend au moins un changement de configuration de logiciel ou un changement de configuration de micrologiciel.
13. Le procédé selon l’une quelconque des revendications précédentes, comprenant en outre, sur la base d’une indication qu’un défaut de performance a été causé par le changement de configuration, l’identification d’une cause profonde du défaut de performance en analysant le changement de configuration.
14. Le procédé selon la revendication 13, dans lequel l’identification de la cause profonde du défaut de performance comprend au moins l’un des éléments suivants : le fait de déterminer qu’une différence de code de micrologiciel est survenue entre la configuration avant changement et la configuration après changement ; le fait de déterminer qu’une différence de configuration de micrologiciel est survenue entre la configuration avant changement et la configuration après changement ; le fait de déterminer qu’une différence de code de logiciel est survenue entre la configuration avant changement et la configuration après changement ; ou le fait de déterminer qu’une différence de configuration de logiciel est survenue entre la configuration avant changement et la configuration après changement.
15. Le procédé selon la revendication 14, dans lequel l'identification de la cause profonde du défaut de performance comprend le fait de déterminer qu’une différence de code de logiciel est survenue entre la configuration avant changement et la configuration après changement, dans lequel le fait de déterminer que la différence de code de logiciel a provoqué le défaut de performance comprend l’identification d’un enregistrement de logiciel qui a provoqué une régression.
28
| | |
LU101632A 2020-02-07 2020-02-07 Computer performance defect detection based on energy consumption telemetry LU101632B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
LU101632A LU101632B1 (en) 2020-02-07 2020-02-07 Computer performance defect detection based on energy consumption telemetry

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
LU101632A LU101632B1 (en) 2020-02-07 2020-02-07 Computer performance defect detection based on energy consumption telemetry

Publications (1)

Publication Number Publication Date
LU101632B1 true LU101632B1 (en) 2021-08-09

Family

ID=69572269

Family Applications (1)

Application Number Title Priority Date Filing Date
LU101632A LU101632B1 (en) 2020-02-07 2020-02-07 Computer performance defect detection based on energy consumption telemetry

Country Status (1)

Country Link
LU (1) LU101632B1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4184880A1 (fr) * 2021-11-22 2023-05-24 Google LLC Auto-correlateur de défaillance de réseau en nuage

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ADEL NOUREDDINE ET AL: "A review of energy measurement approaches", OPERATING SYSTEMS REVIEW, ACM, NEW YORK, NY, US, vol. 47, no. 3, 26 November 2013 (2013-11-26), pages 42 - 49, XP058035052, ISSN: 0163-5980, DOI: 10.1145/2553070.2553077 *
ANDREA BORGHESI ET AL: "Online Anomaly Detection in HPC Systems", ARXIV.ORG, CORNELL UNIVERSITY LIBRARY, 201 OLIN LIBRARY CORNELL UNIVERSITY ITHACA, NY 14853, 22 February 2019 (2019-02-22), XP081032188 *
ERIK A JAGROEP ET AL: "Software energy profiling", SOFTWARE ENGINEERING COMPANION, ACM, 2 PENN PLAZA, SUITE 701 NEW YORK NY 10121-0701 USA, 14 May 2016 (2016-05-14), pages 523 - 532, XP058258010, ISBN: 978-1-4503-4205-6, DOI: 10.1145/2889160.2889216 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4184880A1 (fr) * 2021-11-22 2023-05-24 Google LLC Auto-correlateur de défaillance de réseau en nuage

Similar Documents

Publication Publication Date Title
US11616707B2 (en) Anomaly detection in a network based on a key performance indicator prediction model
EP3716075B1 (fr) Utilisation de modèles d'apprentissage machine pour traiter des données d'utilisation de ressources et pour déterminer l'utilisation anormale de ressources
US10042636B1 (en) End-to end project management platform with artificial intelligence integration
EP3816806B1 (fr) Utilisation de modèles de réseau neural et d'intelligence artificielle pour sélectionner et exécuter des cas de test dans une plateforme de développement de logiciel
US9684634B2 (en) Method and apparatus for evaluating predictive model
US20200311573A1 (en) Utilizing a machine learning model to predict a quantity of cloud resources to allocate to a customer
US12067463B2 (en) Machine learning platform
US20190220524A1 (en) Determining explanations for predicted links in knowledge graphs
US10379717B2 (en) Device based visualization and analysis of multivariate data
US11176488B2 (en) Online anomaly detection using pairwise agreement in heterogeneous model ensemble
US11538237B2 (en) Utilizing artificial intelligence to generate and update a root cause analysis classification model
US11063841B2 (en) Systems and methods for managing network performance based on defining rewards for a reinforcement learning model
US20220350733A1 (en) Systems and methods for generating and executing a test case plan for a software product
Cremonesi et al. Indirect estimation of service demands in the presence of structural changes
Barve et al. Fecbench: A holistic interference-aware approach for application performance modeling
US20210365762A1 (en) Detecting behavior patterns utilizing machine learning model trained with multi-modal time series analysis of diagnostic data
LU101632B1 (en) Computer performance defect detection based on energy consumption telemetry
US11538047B2 (en) Utilizing a machine learning model to determine attribution for communication channels
US20210182701A1 (en) Virtual data scientist with prescriptive analytics
US9519864B1 (en) Method and system for identifying dependent components
US11275902B2 (en) Intelligent dialog re-elicitation of information
CN113807391A (zh) 任务模型的训练方法、装置、电子设备及存储介质
Kumar et al. Leveraging regression models for rule based complex event processing
US20240211331A1 (en) Systems and methods for a profile-based model selector
LU102509B1 (en) Multi-layered data center capacity forecasting system

Legal Events

Date Code Title Description
FG Patent granted

Effective date: 20210809