RU2012144650A - Автоматизированное восстановление и передача по инстанции в комплексных распределенных приложениях - Google Patents

Автоматизированное восстановление и передача по инстанции в комплексных распределенных приложениях Download PDF

Info

Publication number
RU2012144650A
RU2012144650A RU2012144650/08A RU2012144650A RU2012144650A RU 2012144650 A RU2012144650 A RU 2012144650A RU 2012144650/08 A RU2012144650/08 A RU 2012144650/08A RU 2012144650 A RU2012144650 A RU 2012144650A RU 2012144650 A RU2012144650 A RU 2012144650A
Authority
RU
Russia
Prior art keywords
alert
recovery
notification
instance
designated person
Prior art date
Application number
RU2012144650/08A
Other languages
English (en)
Other versions
RU2589357C2 (ru
Inventor
Джон АВНЕР
Шейн БРЭДИ
Винг Мен ИМ
Харуя СИДА
Селим ЯЗИСИОГЛУ
Андрей ЛУКЯНОВ
Брент АЛИНДЖЕР
Колин НЭШ
Original Assignee
Майкрософт Корпорейшн
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Майкрософт Корпорейшн filed Critical Майкрософт Корпорейшн
Publication of RU2012144650A publication Critical patent/RU2012144650A/ru
Application granted granted Critical
Publication of RU2589357C2 publication Critical patent/RU2589357C2/ru

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • G06F15/16Combinations of two or more digital computers each having at least an arithmetic unit, a program unit and a register, e.g. for a simultaneous processing of several programs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0706Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment
    • G06F11/0748Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation the processing taking place on a specific hardware platform or in a specific software environment in a remote unit communicating with a single-box computer node experiencing an error/fault
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computer Hardware Design (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Software Systems (AREA)
  • Debugging And Monitoring (AREA)
  • Alarm Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

1. Способ, выполняемый, по меньшей мере частично, в вычислительном устройстве, для автоматизированного восстановления и передачи по инстанции оповещений в распределенных системах, при этом способ содержит этапы, на которых:принимают от машины отслеживания оповещение, связанное с обнаруженной проблемой;пытаются сопоставить оповещение с действием по восстановлению;если оповещение сопоставлено с действием по восстановлению, то выполняют действие по восстановлению; иначепередают по инстанции оповещение назначенному лицу; иобновляют записи, связанные с сопоставлением оповещения с действием по восстановлению.2. Способ по п.1, дополнительно содержащий этапы, на которых:собирают диагностическую информацию, связанную с обнаруженной проблемой;предоставляют собранную диагностическую информацию назначенному лицу, если оповещение передается по инстанции; ииспользуют собранную диагностическую информацию при обновлении записей.3. Способ по п.2, в котором собранная диагностическая информация включает в себя по меньшей мере одно из набора, включающего в себя: содержимое памяти устройства, данные, считанные сенсорами, последние исполненные инструкции, инструкции, при исполнении которых произошел сбой, и результаты сбоя, связанные с обнаруженной проблемой.4. Способ по п.1, дополнительно содержащий этапы, на которых:ожидают ответа передачи обработки от назначенного лица после передачи по инстанции оповещения; иесли ответ передачи обработки не принят в течение заранее определенного периода, то передают по инстанции оповещение другому назначенному лицу.5. Способ по п.1, в котором назначенное лицо определяется по одному

Claims (15)

1. Способ, выполняемый, по меньшей мере частично, в вычислительном устройстве, для автоматизированного восстановления и передачи по инстанции оповещений в распределенных системах, при этом способ содержит этапы, на которых:
принимают от машины отслеживания оповещение, связанное с обнаруженной проблемой;
пытаются сопоставить оповещение с действием по восстановлению;
если оповещение сопоставлено с действием по восстановлению, то выполняют действие по восстановлению; иначе
передают по инстанции оповещение назначенному лицу; и
обновляют записи, связанные с сопоставлением оповещения с действием по восстановлению.
2. Способ по п.1, дополнительно содержащий этапы, на которых:
собирают диагностическую информацию, связанную с обнаруженной проблемой;
предоставляют собранную диагностическую информацию назначенному лицу, если оповещение передается по инстанции; и
используют собранную диагностическую информацию при обновлении записей.
3. Способ по п.2, в котором собранная диагностическая информация включает в себя по меньшей мере одно из набора, включающего в себя: содержимое памяти устройства, данные, считанные сенсорами, последние исполненные инструкции, инструкции, при исполнении которых произошел сбой, и результаты сбоя, связанные с обнаруженной проблемой.
4. Способ по п.1, дополнительно содержащий этапы, на которых:
ожидают ответа передачи обработки от назначенного лица после передачи по инстанции оповещения; и
если ответ передачи обработки не принят в течение заранее определенного периода, то передают по инстанции оповещение другому назначенному лицу.
5. Способ по п.1, в котором назначенное лицо определяется по одному из заранее определенного списка назначенных лиц и соглашения об именах, связанного с оповещением, при этом назначенное лицо включает в себя одно из человека и группы.
6. Способ по п.1, в котором этап, на котором передают по инстанции оповещение, включает в себя этап, на котором:
передают оповещение назначенному лицу посредством по меньшей мере одного из набора, включающего в себя электронную почту, мгновенное сообщение, текстовое сообщение, поисковый вызов и голосовую почту.
7. Способ по п.1, дополнительно содержащий этапы, на которых:
принимают действие обратной связи от одного из устройства и программы, связанных с обнаруженной проблемой, после выполнения действия по восстановлению; и
обновляют запись коэффициента успешных попыток, связанную с действием по восстановлению.
8. Система для автоматизированного восстановления и передачи по инстанции оповещений в распределенных системах, содержащая:
сервер, исполняющий машину отслеживания и машину автоматизации, при этом машина отслеживания выполнена с возможностью:
обнаруживать проблему, связанную с по меньшей мере одним из устройства и приложения программного обеспечения, внутри распределенной системы, и
передавать оповещение, исходя из обнаруженной проблемы; а
машина автоматизации выполнена с возможностью:
принимать это оповещение;
собирать диагностическую информацию, связанную с обнаруженной проблемой;
выполнять попытку сопоставить оповещение с действием по восстановлению, используя базу данных действий по восстановлению;
если оповещение сопоставлено с действием по восстановлению, выполнять действие по восстановлению, иначе
передавать по инстанции оповещение назначенному лицу, совместно с собранной диагностической информацией; и
обновлять записи в базе данных действий по восстановлению.
9. Система по п.8, дополнительно содержащая множество машин отслеживания, причем каждая машина отслеживания выполнена с возможностью отслеживать индивидуальную географическую зону, исходя из масштаба системы для каждой географической зоны внутри распределенной системы, и передавать оповещения, исходя из проблем, обнаруженных в их соответствующих зонах, при этом машина автоматизации дополнительно выполнена с возможностью:
либо выполнять сопоставленное действие по восстановлению, либо осуществлять передачу по инстанции к назначенному лицу, применительно к оповещениям из разных зон, исходя из зонального приоритета.
10. Система по п.8, в которой зональный приоритет дополнительно определяется на основе наличия по меньшей мере одного из набора, включающего в себя назначенную группу поддержки, ресурс аппаратного обеспечения, ресурс программного обеспечения и ресурс связи.
11. Система по п.8, в которой оповещение сопоставляется с множеством действий по восстановлению, и действия по восстановлению выполняются в соответствии с заранее определенным приоритетом выполнения.
12. Система по п.8, в которой устройство включает в себя одно из настольного компьютера, компьютера класса лэптоп, переносного компьютера, сервера, интеллектуального телефона, монитора, аудиооборудования, телевизора и устройства захвата видео.
13. Машиночитаемый носитель данных, на котором сохранены инструкции для автоматизированного восстановления и передачи по инстанции оповещений в распределенных системах, при этом инструкции содержат:
обнаружение машиной отслеживания проблемы, связанной с по меньшей мере одним из устройства и приложения программного обеспечения, внутри распределенной системы;
передачу машиной отслеживания оповещения, исходя из обнаруженной проблемы; и
прием машиной автоматизации этого оповещения;
сбор диагностической информации, связанной с обнаруженной проблемой;
попытку сопоставить оповещение с действием по восстановлению из базы данных действий по восстановлению, при этом действие по восстановлению включает в себя набор инструкций, направленных на решение обнаруженной проблемы;
если оповещение сопоставлено с одним действием по восстановлению, то выполнение действия по восстановлению;
если оповещение сопоставлено с множеством действий по восстановлению, то выполнение действий по восстановлению в соответствии с заранее определенным приоритетом выполнения;
если оповещение не сопоставлено с действием по восстановлению, то передачу по инстанции оповещения к назначенному лицу совместно с собранной диагностической информацией;
прием ответа передачи обработки от назначенного лица; и
обновление записей в базе данных действий по восстановлению, используя собранную диагностическую информацию и ответ обратной связи, связанный с выполненными действиями по восстановлению.
14. Машиночитаемый носитель данных по п.13, в котором действие по восстановлению сопоставлено с одним из одного оповещения и группы оповещений.
15. Машиночитаемый носитель данных по п.13, при этом назначенное лицо определяется по одному из соглашения об именах, связанного с оповещением, и алгоритма ротации, исходя из наличия персонала поддержки.
RU2012144650/08A 2010-04-21 2011-03-30 Автоматизированное восстановление и передача по инстанции в комплексных распределенных приложениях RU2589357C2 (ru)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/764,263 2010-04-21
US12/764,263 US8823536B2 (en) 2010-04-21 2010-04-21 Automated recovery and escalation in complex distributed applications
PCT/US2011/030458 WO2011133299A2 (en) 2010-04-21 2011-03-30 Automated recovery and escalation in complex distributed applications

Publications (2)

Publication Number Publication Date
RU2012144650A true RU2012144650A (ru) 2014-04-27
RU2589357C2 RU2589357C2 (ru) 2016-07-10

Family

ID=44815335

Family Applications (1)

Application Number Title Priority Date Filing Date
RU2012144650/08A RU2589357C2 (ru) 2010-04-21 2011-03-30 Автоматизированное восстановление и передача по инстанции в комплексных распределенных приложениях

Country Status (10)

Country Link
US (1) US8823536B2 (ru)
EP (1) EP2561444B1 (ru)
JP (1) JP5882986B2 (ru)
KR (1) KR101824273B1 (ru)
CN (1) CN102859510B (ru)
BR (1) BR112012026917B1 (ru)
ES (1) ES2716029T3 (ru)
HK (1) HK1179724A1 (ru)
RU (1) RU2589357C2 (ru)
WO (1) WO2011133299A2 (ru)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130097272A1 (en) * 2011-10-18 2013-04-18 International Business Machines Corporation Prioritized Alert Delivery In A Distributed Processing System
US9483344B2 (en) 2012-04-05 2016-11-01 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
US9413893B2 (en) 2012-04-05 2016-08-09 Assurant, Inc. System, method, apparatus, and computer program product for providing mobile device support services
KR101426382B1 (ko) 2013-03-29 2014-08-13 케이티하이텔 주식회사 분산 파일 시스템에서 파이프라인을 이용한 자료 복구 방법
US9292402B2 (en) * 2013-04-15 2016-03-22 Century Link Intellectual Property LLC Autonomous service management
US9361184B2 (en) 2013-05-09 2016-06-07 International Business Machines Corporation Selecting during a system shutdown procedure, a restart incident checkpoint of an incident analyzer in a distributed processing system
US9471474B2 (en) * 2013-08-19 2016-10-18 Microsoft Technology Licensing, Llc Cloud deployment infrastructure validation engine
US9602337B2 (en) 2013-09-11 2017-03-21 International Business Machines Corporation Event and alert analysis in a distributed processing system
US9389943B2 (en) 2014-01-07 2016-07-12 International Business Machines Corporation Determining a number of unique incidents in a plurality of incidents for incident processing in a distributed processing system
CN104915219B (zh) * 2014-03-12 2018-11-27 奇点新源国际技术开发(北京)有限公司 单片机程序升级方法及装置
CN104007996B (zh) * 2014-06-16 2016-07-06 南京融教科技有限公司 一种分布式控制系统的可靠固件升级实现方法
US9436553B2 (en) * 2014-08-04 2016-09-06 Microsoft Technology Licensing, Llc Recovering usability of cloud based service from system failure
US10108414B2 (en) 2014-10-09 2018-10-23 International Business Machines Corporation Maintaining the integrity of process conventions within an ALM framework
US10303538B2 (en) 2015-03-16 2019-05-28 Microsoft Technology Licensing, Llc Computing system issue detection and resolution
US10153992B2 (en) * 2015-04-28 2018-12-11 Unisys Corporation Identification of progress towards complete message system integration using automation degree of implementation metrics
US9686220B2 (en) * 2015-04-28 2017-06-20 Unisys Corporation Debug and verify execution modes for computing systems calculating automation degree of implementation metrics
US9667573B2 (en) * 2015-04-28 2017-05-30 Unisys Corporation Identification of automation candidates using automation degree of implementation metrics
US10296717B2 (en) * 2015-05-14 2019-05-21 Salesforce.Com, Inc. Automated prescription workflow for device management
US10180869B2 (en) * 2016-02-16 2019-01-15 Microsoft Technology Licensing, Llc Automated ordering of computer system repair
US20170237602A1 (en) * 2016-02-16 2017-08-17 Microsoft Technology Licensing, Llc Computer system monitoring based on entity relationships
US10397125B2 (en) * 2016-03-09 2019-08-27 Alibaba Group Holding Limited Method of cross-regional data transmission and system thereof
CN108038043B (zh) * 2017-12-22 2021-04-23 郑州云海信息技术有限公司 一种分布式存储集群告警方法、系统及设备
US10868711B2 (en) * 2018-04-30 2020-12-15 Splunk Inc. Actionable alert messaging network for automated incident resolution
US10270644B1 (en) * 2018-05-17 2019-04-23 Accenture Global Solutions Limited Framework for intelligent automated operations for network, service and customer experience management
FI128647B (en) 2018-06-29 2020-09-30 Elisa Oyj Automatic monitoring and control of networks
FI129101B (en) * 2018-06-29 2021-07-15 Elisa Oyj Automatic monitoring and control of networks
EP3756096A4 (en) * 2018-10-02 2021-10-13 Hewlett-Packard Development Company, L.P. AUTOMATIC REPAIRS VIA COMMUNICATIONS WITH APPROVED DEVICES THROUGH MULTIPLE NETWORKS
CN117093434B (zh) * 2023-10-20 2024-01-30 深圳品网科技有限公司 一种用于笔记本电脑的开关机自检测方法

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0546339B1 (en) * 1991-12-09 1996-07-03 Yokogawa Electric Corporation Distributed control system
JP3449425B2 (ja) * 1993-02-23 2003-09-22 本田技研工業株式会社 コンピュータネットワーク監視支援システム
US5619656A (en) 1994-05-05 1997-04-08 Openservice, Inc. System for uninterruptively displaying only relevant and non-redundant alert message of the highest severity for specific condition associated with group of computers being managed
US6615240B1 (en) 1998-12-18 2003-09-02 Motive Communications, Inc. Technical support chain automation with guided self-help capability and option to escalate to live help
US6918059B1 (en) 1999-04-28 2005-07-12 Universal Music Group Method and system for handling errors in a distributed computer system
US6742141B1 (en) 1999-05-10 2004-05-25 Handsfree Networks, Inc. System for automated problem detection, diagnosis, and resolution in a software driven system
JP2003085003A (ja) * 2001-09-06 2003-03-20 Matsushita Electric Ind Co Ltd 障害復旧援助方法、及び、障害復旧援助システム
US7243124B1 (en) 2002-09-06 2007-07-10 Oracle International Corporation Architecture for general purpose near real-time business intelligence system with client devices and methods therefor
US7376969B1 (en) * 2002-12-02 2008-05-20 Arcsight, Inc. Real time monitoring and analysis of events from multiple network security devices
US7137040B2 (en) 2003-02-12 2006-11-14 International Business Machines Corporation Scalable method of continuous monitoring the remotely accessible resources against the node failures for very large clusters
US7089220B2 (en) * 2003-06-24 2006-08-08 Palo Alto Research Center Incorporated Complexity-directed cooperative problem solving
JP4728565B2 (ja) * 2003-07-16 2011-07-20 日本電気株式会社 障害復旧装置および障害復旧方法ならびにプログラム
US7103874B2 (en) * 2003-10-23 2006-09-05 Microsoft Corporation Model-based management of computer systems and distributed applications
WO2006020094A2 (en) 2004-07-20 2006-02-23 Softricity, Inc. Method and system for minimizing loss in a computer application
EP1630710B1 (en) 2004-07-21 2019-11-06 Microsoft Technology Licensing, LLC Containment of worms
US20060064481A1 (en) * 2004-09-17 2006-03-23 Anthony Baron Methods for service monitoring and control
JP2006163509A (ja) * 2004-12-02 2006-06-22 Olympus Corp 障害通知システム
US7954090B1 (en) 2004-12-21 2011-05-31 Zenprise, Inc. Systems and methods for detecting behavioral features of software application deployments for automated deployment management
JP2007079896A (ja) * 2005-09-14 2007-03-29 Nomura Research Institute Ltd 監視装置及び監視方法
JP2007141007A (ja) * 2005-11-21 2007-06-07 Hitachi Ltd システム運用監視での障害時のサポートシステム化
CN101039498B (zh) * 2007-05-09 2010-06-16 中兴通讯股份有限公司 带有分布式告警处理的基站系统及其告警处理方法
US20080281607A1 (en) * 2007-05-13 2008-11-13 System Services, Inc. System, Method and Apparatus for Managing a Technology Infrastructure
US8892719B2 (en) * 2007-08-30 2014-11-18 Alpha Technical Corporation Method and apparatus for monitoring network servers
JP2009099135A (ja) * 2007-09-28 2009-05-07 Fujitsu Ltd 支援管理方法、支援管理システム及び情報処理装置
JP2009087136A (ja) * 2007-10-01 2009-04-23 Nec Corp 障害修復システムおよび障害修復方法
JP4872058B2 (ja) * 2008-05-13 2012-02-08 株式会社日立システムズ 自動障害対応システム
US8103909B2 (en) * 2008-09-15 2012-01-24 Juniper Networks, Inc. Automatic hardware-based recovery of a compromised computer
US8074107B2 (en) * 2009-10-26 2011-12-06 Amazon Technologies, Inc. Failover and recovery for replicated data instances

Also Published As

Publication number Publication date
KR20130069580A (ko) 2013-06-26
HK1179724A1 (en) 2013-10-04
JP5882986B2 (ja) 2016-03-09
CN102859510A (zh) 2013-01-02
BR112012026917A2 (pt) 2016-07-12
EP2561444B1 (en) 2018-12-19
CN102859510B (zh) 2015-07-15
KR101824273B1 (ko) 2018-01-31
EP2561444A4 (en) 2017-08-30
ES2716029T3 (es) 2019-06-07
RU2589357C2 (ru) 2016-07-10
US20110260879A1 (en) 2011-10-27
JP2013527957A (ja) 2013-07-04
EP2561444A2 (en) 2013-02-27
WO2011133299A3 (en) 2012-03-01
US8823536B2 (en) 2014-09-02
WO2011133299A2 (en) 2011-10-27
BR112012026917B1 (pt) 2021-04-20

Similar Documents

Publication Publication Date Title
RU2012144650A (ru) Автоматизированное восстановление и передача по инстанции в комплексных распределенных приложениях
JP2013527957A5 (ru)
US9867011B2 (en) Identifying proximity history of computer devices
US10866950B2 (en) Method and system for modifying a search request corresponding to a person, object, or entity (POE) of interest
US11611634B2 (en) Method and device for timeout monitoring
US20140214832A1 (en) Information gathering via crowd-sensing
US9854208B2 (en) System and method for detecting an object of interest
US20140052488A1 (en) Contextual task management and notifications
US20180084057A1 (en) Activity driven smart home system
US11695832B2 (en) Data search apparatus, and data search method and program thereof, and edge server and program thereof
EP3813005A1 (en) Predicting potential incident event data structures based on multi-modal analysis
US9407586B2 (en) Method and system for cross device notification
Takano et al. Extracting commercialization opportunities of the Internet of Things: Measuring text similarity between papers and patents
CN105453069A (zh) 情景众包响应系统
US20140280610A1 (en) Identification of users for initiating information spreading in a social network
CN111083024B (zh) 一种基于家庭大脑的智能家居语音留言方法及装置
US20140378165A1 (en) Methods, systems and computer-readable media for tracking a position of an object
EP3893126A1 (en) Data retrieval device, data retrieval method and program, and edge server and program thereof
KR102526959B1 (ko) 전자 장치 및 그의 동작 방법
US20130185367A1 (en) Method and System of Creating a Graylist for Message Transmission
WO2016067299A1 (en) Location aware failover solution
CN107566216B (zh) 一种监控方法、装置及业务系统
KR102067079B1 (ko) IoT에 기반한 주변 기기 탐색 방법 및 장치
US10231095B2 (en) Mobile community driven help for software applications
CN112907008A (zh) 带看请求的处理方法、装置、存储介质及设备

Legal Events

Date Code Title Description
HZ9A Changing address for correspondence with an applicant