KR20210019564A - 운영 유지 시스템 및 방법 - Google Patents

운영 유지 시스템 및 방법 Download PDF

Info

Publication number
KR20210019564A
KR20210019564A KR1020217001839A KR20217001839A KR20210019564A KR 20210019564 A KR20210019564 A KR 20210019564A KR 1020217001839 A KR1020217001839 A KR 1020217001839A KR 20217001839 A KR20217001839 A KR 20217001839A KR 20210019564 A KR20210019564 A KR 20210019564A
Authority
KR
South Korea
Prior art keywords
data
model
module
evaluation
training
Prior art date
Application number
KR1020217001839A
Other languages
English (en)
Other versions
KR102483025B1 (ko
Inventor
리샤 리우
펑 지
타오 웬
Original Assignee
지티이 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 지티이 코포레이션 filed Critical 지티이 코포레이션
Publication of KR20210019564A publication Critical patent/KR20210019564A/ko
Application granted granted Critical
Publication of KR102483025B1 publication Critical patent/KR102483025B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3447Performance evaluation by modeling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3409Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
    • G06F11/3428Benchmarking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3452Performance evaluation by statistical analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3476Data logging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/34Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
    • G06F11/3466Performance evaluation by tracing or monitoring
    • G06F11/3495Performance evaluation by tracing or monitoring for systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y04INFORMATION OR COMMUNICATION TECHNOLOGIES HAVING AN IMPACT ON OTHER TECHNOLOGY AREAS
    • Y04SSYSTEMS INTEGRATING TECHNOLOGIES RELATED TO POWER NETWORK OPERATION, COMMUNICATION OR INFORMATION TECHNOLOGIES FOR IMPROVING THE ELECTRICAL POWER GENERATION, TRANSMISSION, DISTRIBUTION, MANAGEMENT OR USAGE, i.e. SMART GRIDS
    • Y04S10/00Systems supporting electrical power generation, transmission or distribution
    • Y04S10/50Systems or methods supporting the power network operation or management, involving a certain degree of interaction with the load-side end user applications

Abstract

운영 유지 시스템 및 방법으로서, 상기 시스템에는 상호 연결된 데이터 수집 모듈, 데이터 저장 모듈, 비정상 및 고장 표시 모듈, 모델 자동 훈련 및 평가 모듈, 운영 유지 관리 및 태스크 수행 모듈, 결과 검토 모듈이 포함된다.

Description

운영 유지 시스템 및 방법
관련 출원에 대한 상호 참조
본 발명은 2018년 6월 28일자로 중국 특허국에 출원한, 출원번호가 201810689427.5인 중국 특허 출원의 우선권을 주장하는 바, 해당 출원의 전체 내용은 참조에 의해 본 발명에 원용된다.
기술분야
본 발명의 실시예는 운영 유지 시스템 및 방법에 관한 것이지만, 이것으로 한정되지 않는다.
현재 클라우드 컴퓨팅과 빅 데이터 기술이 성숙됨에 따라 업계마다 실제 응용 과정에서 다양한 대용량 데이터를 축적하고 있다. 애플리케이션 시스템 자체에 필요한 데이터 외에도, 이와 관련된 기본 저장 데이터, 네트워크 전송, 운영 체제, 데이터베이스 및 파일 시스템, 관리 시스템 등의 로그 데이터도 포함된다. 이러한 데이터는 시스템의 정상 작업, 비정상 작업, 고장 발생 전 및 고장 발생 후 시스템의 변화 및 관련 구성요소의 연쇄 반응 등을 기록하며, 운영 유지 담당자가 비정상 발견, 고장 구분, 근본원인 분석 및 고장 예측을 수행하는 근거이다. 그러나, 실시간으로 계속 증가되고 있고 구성요소 사이가 복잡하며 로그 기록 형태가 다양한 운영 유지 데이터의 경우, 더 이상 과거의 수동 단계별 조사, 스크립트 지원 위치 지정, 로그 검색, 간단한 통계 분석, 임계값 모니터링 등에 의존하여 실효성 및 기능성에 대한 현재 운영 유지의 기본 요구를 충족시킬 수 없다.
현재 운영 유지 분야에는 하기와 같은 몇몇 유형의 방법이 존재한다. 그 중 하나는 수동 경험이다. 운영 유지 엔지니어가 검색을 통해 로그의 로그 클래스(예컨대, 고장 해결(debug), 경고(warning), 오류(error), 정보(info), 치명적인 오류(fatal)) 또는 오류 코드(예컨대, 400, ORA-01500 등 특정 코드)를 조회하고, 풍부한 운영 유지 경험을 결부하여 신속하게 고장 위치를 확정하는 것이다. 이러한 운영 유지 방식은 성숙되고 안정적인 소규모 기업에서 더 효과적이며, 현재 대규모적이고 복잡하며 새로운 소프트웨어가 지속적으로 중첩되는 클러스터의 경우에는 로그 데이터 양이 방대하고 로그 유형이 다양하여 고효율적이고 효과적인 운영 유지 요구를 만족시키기에는 무력한 것으로 보인다. 다른 하나는 로그 분석 툴을 사용하는 것이다. 이러한 툴은 처음에는 사용자의 작업 로그 분석에 초점을 맞추고 사용자의 작업 습관과 행동 취미에 대한 이해를 기반으로 시스템 최적화, 정밀 마케팅 등을 수행하였다. 후반에는 운영 유지로 응용이 확장되었다. 그러나, 이러한 툴의 주요 기능은 로그에 대한 통합 수집, 해석, 저장 후 로그 검색, 간단한 통계 분석 및 시각적 표시(예컨대, 방문자 수(Unique Visitor: UV), 페이지 뷰(Page View: PV) 등)를 제공한다. 이러한 툴은 또한 클라우드 컴퓨팅 및 빅 데이터의 발전에 따라 이러한 툴은 기본 아키텍처 역시 업데이트함으로써 복잡하고 다양한 대용량 로그의 빠른 검색, 간단한 통계 분석, 실시간 모니터링 등 요구를 충족시킬 수 있으나, 운영 유지 분야의 비정상 자동 발견, 빠른 고장 위치 결정, 고장 조기 경보 등 고급 운영 유지 요구를 충족할 수 없다.
인공 지능 기술을 이용하여 클라우드 컴퓨팅, 빅 데이터를 기반으로 운영 유지의 지능화를 구현하는 방법은 중대형 기업이 현재와 미래에 적극적으로 탐색해야 할 내용이다.
이하의 설명은 본 명세서에 상세히 설명된 주제에 대한 요약이다. 이 요약은 청구범위의 보호 범위를 한정하려는 의도가 아니다.
본 발명의 실시예는 상호 연결된 데이터 수집 모듈, 데이터 저장 모듈, 비정상 및 고장 표시 모듈, 모델 자동 훈련 및 평가 모듈, 운영 유지 관리 및 태스크 수행 모듈, 결과 검토 모듈을 포함하는 운영 유지 시스템에 관한 것이다. 데이터 수집 모듈은 상기 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하도록 구성된다. 데이터 저장 모듈은 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장하도록 구성된다. 비정상 및 고장 표시 모듈은 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고 표시 결과를 데이터 저장 모듈에 저장하도록 구성된다. 모델 자동 훈련 및 평가 모듈은 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하도록 구성된다. 운영 유지 관리 및 태스크 수행 모듈은 운영 유지 태스크를 설정 및 수행하고, 운영 유지 모델과 지식 베이스를 호출하며, 운영 유지 결과를 저장 및 출력하도록 구성된다. 결과 검토 모듈은 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하도록 구성된 운영 유지 시스템을 제공한다.
본 발명의 실시예는 또한 운영 유지 방법으로서, 데이터 수집 모듈이 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하는 단계; 데이터 저장 모듈이 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장하는 단계; 비정상 및 고장 표시 모듈이 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고 표시 결과를 데이터 저장 모듈에 저장하는 단계; 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하는 단계; 운영 유지 관리 및 태스크 수행 모듈이 운영 유지 태스크를 설정 및 수행하고 운영 유지 모델 및 지식 베이스를 호출하며 운영 유지 결과를 출력하는 단계; 및 결과 검토 모듈이 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하는 단계를 포함하는 운영 유지 방법을 제공한다.
본 발명의 다른 측면은 도면과 자세한 설명을 열독 및 이해한 후 명확해질 것이다.
첨부된 도면은 본 발명의 기술적 해결수단을 추가로 이해하도록 제공되는 것으로, 명세서의 일부를 구성하며 본 발명의 실시예와 함께 본 발명의 기술적 해결수단을 해석하기 위한 것일 뿐 본 발명의 기술적 해결수단을 한정하지 않는다.
도 1은 본 발명의 실시예 1에 따른 운영 유지 시스템의 구조 모식도이다.
도 2는 관련 기술에서 운영 유지 시스템의 구조 모식도이다.
도 3은 본 발명의 실시예 2에 따른 운영 유지 시스템의 구조 모식도이다.
도 4는 본 발명의 실시예 3에 따른 운영 유지 방법의 흐름 모식도이다.
도 5는 본 발명의 실시예 4에 따른 운영 유지 방법의 흐름 모식도이다.
이하에서는 첨부된 도면을 참조하여 본 발명의 실시예를 상세히 설명한다. 본 발명의 실시예와 실시예의 특징은 충돌되지 않는 한 임의로 조합될 수 있음에 유의해야 한다.
도면의 흐름도에 도시된 단계는 일군의 컴퓨터 실행 가능한 명령을 가진 컴퓨터 시스템에서 수행될 수 있다. 또한 흐름도에 논리적 순서가 도시되어 있지만, 도시 또는 설명된 단계는 일부 경우에 여기와 다른 순서로 수행될 수 있다.
인공 지능 기술을 이용하여 클라우드 컴퓨팅, 빅 데이터를 기반으로 운영 유지의 지능화를 구현하기 위해, 본 발명의 실시예는 전체 운영 유지 시스템이 자체 적응성 업데이트, 자가 개선, 단계적 진화를 구현할 수 있도록 새로운 운영 유지 시스템 및 방법을 제공하여 운영 유지의 효율성을 현저히 향상시킨다.
실시예 1
도 1은 본 발명의 실시예 1에 의해 제공되는 운영 유지 시스템의 구조 모식도이다. 도 1에 도시된 바와 같이, 상기 운영 유지 시스템은 상호 연결된 데이터 수집 모듈, 데이터 저장 모듈, 비정상 및 고장 표시 모듈, 모델 자동 훈련 및 평가 모듈, 운영 유지 관리 및 태스크 수행 모듈, 결과 검토 모듈을 포함한다.
데이터 수집 모듈은 상기 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하도록 구성된다.
데이터 저장 모듈은 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장하도록 구성된다.
비정상 및 고장 표시 모듈은 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고, 표시 결과를 데이터 저장 모듈에 저장하도록 구성된다.
모델 자동 훈련 및 평가 모듈은 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하도록 구성된다.
운영 유지 관리 및 태스크 수행 모듈은 운영 유지 태스크를 설정 및 수행하고 운영 유지 모델과 지식 베이스를 호출하며 운영 유지 결과를 저장 및 출력하도록 구성된다.
결과 검토 모듈은 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하도록 구성된다.
이와 같이, 기본 운영 유지 요구를 충족시키면서 비정상 및 고장 자동 발견과 출력을 구현할 수 있어 전체 운영 유지 시스템의 자체 적응성 업데이트, 자가 개선, 단계적 진화를 구현하고 운영 유지 효율성을 현저히 향상시킬 수 있다.
일 실시예에서, 상기 데이터 수집 모듈에 의해 수집되는 다양한 로그 소스 데이터에는 애플리케이션 시스템 로그, 운영 체제 리소스 상태 로그, 비정상 로그 데이터, 스트리밍 로그 데이터, 운영 유지 세부 기록, 및 제3자 표시 데이터가 포함되된다.
애플리케이션 시스템 로그 및 운영 체제 리소스 상태 로그의 경우, 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용한다. 비정상 로그 데이터 및 스트리밍 로그 데이터의 경우, 데이터 수집 모듈은 실시간 수집, 실시간 전송 데이터 수집 모드를 사용한다. 운영 유지 세부 기록 및 제3자 표시 데이터의 경우, 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용한다.
상기 비정상 및 고장 표시 모듈에 의해 비정상 및 고장이 표시된 소스 데이터에는 데이터 저장 모듈에 저장된 운영 유지 세부 기록 및 제3자 표시 데이터, 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장, 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터가 포함된다.
일 실시예에서, 상기 비정상 및 고장 표시 모듈이 비정상 및 고장 표시를 수행하는 방식에는 수동, 반수동, 반지도 학습, 전이 학습 이 네 가지 방식이 포함된다.
상기 수동 방식은 데이터 저장 모듈에서 필요에 따라 추출된 운영 유지 세부 기록을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미한다.
상기 반수동 방식은 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미한다.
상기 반지도 학습 방식은 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터를 반지도 학습 알고리즘, 이미 표시된 표시 샘플 중 일부를 이용하여 표시함을 의미한다.
상기 전이 학습 방식은 전이 학습 기술을 이용하여 유사한 제3자 표시 데이터에 대한 학습을 통해 상기 운영 유지 시스템에 필요한 표시 데이터를 생성함을 의미한다.
일 실시예에서, 상기 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델 및 지식 베이스를 생성 및 업데이트하는 방식에는 실시간 데이터 처리 모델링 및 평가, 일괄 데이터 처리 모델링 및 평가가 포함된다.
상기 실시간 데이터 처리 모델링 및 평가는 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리하며, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할한 후 간단한 관계 판정 및 통계 분석을 이용하여 비정상 모드를 발견 및 추출함을 의미한다.
상기 일괄 데이터 처리 모델링 및 평가는 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따라, 발견 및 추출된 비정상 모드에 대해 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가를 선택하여 다양한 운영 유지 모델 및 지식 베이스를 생성함을 의미한다.
상기 단일 모델 훈련 및 평가에는 태스크 유형, 비정상 및 고장 표시 데이터, 훈련 테스트 및 검증 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델인 3가지 유형에서 적합한 모델을 선택하고 훈련 및 평가를 수행하여 단일 모델을 생성하는 단계가 포함된다.
상기 통합 모델 훈련 및 평가에는 단일 모델 훈련 및 평가 결과가 불안정한 경우, 안정적인 최적의 결과를 획득하기 위해 복수의 단일 모델에 적합한 통합 모드를 적용하는 단계가 포함된다.
상기 증분 모드 훈련 및 평가에는 새로운 로그 데이터가 도착한 후, 기존의 운영 유지 모델에 대해 모델 파라미터 업데이트, 모델 재훈련 및 평가 업데이트 작업을 수행해야 하는 단계가 포함된다.
일 실시예에서, 다양한 운영 유지 모델 및 지식 베이스에는 실시간 모델, 범용 모델, 지식 베이스, 증분 모델이 포함된다.
여기서, 상기 실시간 모델에는 실시간 컴퓨팅 시나리오에서 발견되는 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터가 포함된다.
상기 범용 모델에는 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터가 포함된다.
상기 지식 베이스에는 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 및 고장 트리가 포함된다.
상기 증분 모델에는 기존의 운영 유지 모델이 새로운 데이터에 적응하도록 하기 위해 수행된 모델 파라미터 조정, 모델 유형 조정이 포함되고, 단일 모델의 증분뿐만 아니라 통합 모델의 증분도 포함된다.
아래 구체적인 일 실시예를 통해 본 발명의 실시예 1에 의해 제공되는 기술적 해결수단을 상세히 설명한다.
실시예 2
도 2는 관련 기술에서 운영 유지 시스템의 구조 모식도이고, 도 3은 본 발명의 실시예 2에 의해 제공되는 운영 유지 시스템의 구조 모식도이다. 도 2, 도 3에 도시된 바와 같이, 상기 운영 유지 시스템은 데이터 수집 모듈, 데이터 저장 모듈, 모델 자동 훈련 및 평가 모듈, 운영 유지 관리 및 태스크 수행 모듈을 포함하고; 비정상 및 고장 표시 모듈, 결과 검토 모듈을 더 포함한다.
여기서, 데이터 수집 모듈은 지능형 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하도록 구성된다.
데이터 수집 모듈은 주로 다양한 유형, 다양한 형태의 로그 데이터 수집을 구현하고; 일반적인 애플리케이션 시스템 로그 일괄 수집, 운영 체제 리소스 상태 로그 수집, 비정상 로그 실시간 수집 외에도 스트리밍 로그 데이터 수집, 운영 유지 세부 기록표 수집, 제3자 표시 데이터 수집을 추가로 구현한다.
일 실시예에서, 데이터 수집 모듈은 데이터 수집 인터페이스 구성 마법사를 별도로 실행한다. 마법사는 수집할 데이터의 속도, 데이터 유형에 따라 대응되는 수집 수단을 가동한다. 마법사는 하기와 같이 세 가지 상이한 수집 수단을 미리 설정한다: 1) 비정상 로그 데이터, 스트리밍 로그 데이터의 경우, 모두 실시간 수집, 실시간 전송 데이터 수집 모드를 적용하고, 수집된 데이터는 데이터 저장 모듈의 실시간 메모리 데이터베이스로 직접 전송되며; 2) 운영 유지 세부 기록, 제3자 표시 데이터의 경우, 모두 타이밍 스캔, 일괄 전송 데이터 수집 모드를 적용하고, 수집된 데이터는 데이터 저장 모듈의 분산형 데이터베이스에 직접 전송되며; 3) 애플리케이션 시스템 로그, 운영 체제 리소스 상태 로그의 경우, 모두 타이밍 스캔, 일괄 전송 데이터 수집 모드를 적용하나, 이 경우 수집된 데이터는 데이터 저장 모듈 중의 분산형 파일 시스템에 직접 전송된다.
여기서, 데이터 저장 모듈은 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스 등 시스템에 필요한 데이터를 저장하도록 구성된다.
데이터 저장 모듈은 주로 로그 데이터, 비정상 및 고장 표시 결과, 다양한 모델 및 지식 베이스 등의 저장을 구현한다.
일 실시예에서, 데이터 저장 모듈은 주로 로그 소스 데이터 저장, 로그 분석 결과 저장, 비정상 및 고장 표시 결과 저장, 다양한 모델 및 지식 베이스 저장을 수행하고, 기타 모듈 중심의 결과 데이터를 필요에 따라 여기에 저장하도록 고려할 수 있다. 본 모듈은 일반적인 운영 유지 시스템과 비교하여 지능형 운영 유지 시스템에 필요한 비정상 및 고장 표시 결과, 모델 및 지식 베이스를 추가로 저장한다. 데이터 유형, 데이터 형태, 데이터 수집 속도에 따라 다양한 유형의 데이터를 분산 및 분류하여 저장할 수 있다. 예를 들어, 비정형, 반정형 애플리케이션 시스템 로그 및 운영 체제 리소스 상태 로그 소스 데이터를 분산형 파일 시스템에 저장할 수 있고, 운영 유지 세부 기록 및 제3자 표시 데이터를 선택적으로 분산형 데이터베이스에 저장할 수 있으며, 실시간 수집된 비정상 및 스트리밍 데이터를 우선 메모리 데이터베이스에 저장한 후 필요에 따라 분산형 파일 시스템 또는 분산형 데이터베이스에 옮겨 저장할지 여부를 고려할 수 있다.
여기서, 비정상 및 고장 표시 모듈은 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고, 표시 결과를 데이터 저장 모듈에 저장하도록 구성된다.
상기 비정상 및 고장 표시 모듈 중의 일부 소스 데이터에는 운영 유지 세부 기록, 결과 검토 모듈에 의해 출력된 결정된 비정상 및 고장, 제3자 표시 데이터, 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터가 포함된다.
상기 비정상 및 고장 표시 모듈 중의 비정상 및 고장 표시에는 수동, 반수동, 반지도 학습, 전이 학습 이 네 가지 방식이 포함된다. 구체적인 작업 방식은 하기와 같다. 수동이란 필요에 따라 저장된 데이터 중의 운영 유지 세부 기록을 추출하고, 고장 발생 모듈, 고장 유형, 고장 원인에 따라 데이터를 표시함을 의미한다. 반수동이란 결과 검토 모듈에 의해 출력된 수동 확인된 비정상 및 고장의 경우, 고장 발생 모듈, 고장 유형, 고장 원인 등에 따라 데이터를 표시함을 의미한다. 반지도 학습이란 반지도 학습 알고리즘, 이미 표시된 표시 샘플 중 일부를 이용하여 표시되지 않은 기타 데이터(모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터)를 표시함을 의미한다. 전이 학습이란 전이 학습 기술, 유사한 제3자 표시 데이터 학습을 이용하여 본 운영 유지 시스템에 필요한 표시 데이터(모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터)를 생성함을 의미한다.
여기서, 모델 자동 훈련 및 평가 모듈은 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하도록 구성된다.
상기 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하는 방식에는 실시간 데이터 처리 모델링 및 평가, 일괄 데이터 처리 모델링 및 평가가 포함된다. 실시간 데이터 처리 모델링 및 평가는 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리하는 것이다. 예를 들어, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할한 후, 간단한 관계 판정, 통계 분석 등을 이용하여 비정상 모드를 발견 및 추출한다. 일괄 데이터 처리 모델링 및 평가는 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따른다. 예를 들어, 선택 사용 가능한 모델 및 평가 방법은 단일 모드 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가로 구분된다.
모델 자동 훈련 및 평가 모듈의 주요 목적은 운영 유지 관리 및 태스크 수행 모듈이 비정상 자동 발견, 빠른 고장 위치 결정, 고장 조기 경보 수행 시 호출해야 할 실시간 모델, 범용 모델, 지식 베이스, 증분 모델을 생성 및 업데이트하는 것이다. 운영 유지 자동 훈련 및 평가 모듈은 또한 데이터 처리, 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가 이 네 가지 서브 모듈로 구분된다. 각 서브 모듈의 작용 및 기능은 모두 상이하다. 사용시 운영 유지 태스크, 데이터 품질에 따라 각 서브 모듈 중 상이한 방법을 순차적으로 선택하여 데이터 전처리, 모델 훈련, 모델 평가를 수행한다.
상기 단일 모델 훈련 및 평가에는 태스크 유형, 비정상 및 고장 표시 데이터, 훈련 테스트 및 검증 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델인 3가지 유형에서 적합한 알고리즘을 선택하는 것이 포함된다. 예를 들어, 비정상 모드 발견 태스크는 비정상 모드가 다양한 변화를 갖는 반면 발생 빈도가 높지 않아 샘플 수가 적으므로 일반적으로 비지도 모델을 주로 사용한다. 게다가, 고장 위치 결정 및 고장 경보는 일반적으로 지도 모델을 주로 사용하고 반지도 모델로 보완된다.
상기 통합 모델 훈련 및 평가에는 단일 모델 훈련 평가 결과가 불안정한 경우, 안정적인 최적의 결과를 획득하기 위해 복수의 단일 모델에 적합한 통합 모드를 적용하는 단계가 포함된다.
상기 증분 모드 훈련 및 평가에는 새로운 로그 데이터가 도착한 후, 기존의 운영 유지 모델에 대해 모델 파라미터 업데이트, 모델 재훈련 및 평가 업데이트 작업을 수행해야 하는 단계가 포함된다.
상기 다양한 운영 유지 모델 및 지식 베이스에는 실시간 모델, 범용 모델, 지식 베이스, 증분 모델이 포함된다. 상기 실시간 모델에는 실시간 컴퓨팅 시나리오에서 발견되는 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터 등이 포함된다. 상기 범용 모델에는 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터가 포함된다. 상기 지식 베이스에는 운영 유지 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 고장 트리 등이 포함된다. 이 부분 모드는 실시간 로그 데이터에 직접 응용되어 실시간 비정상 감지를 수행하거나, 일괄 로그 데이터에 응용되어 고장 조기 예측을 수행할 수도 있다. 상기 증분 모델에는 기존의 운영 유지 모델이 새로운 데이터에 적응하도록 하기 위해 수행된 모델 파라미터 조정, 모델 유형 조정이 포함되고, 단일 모델의 증분뿐만 아니라 통합 모델의 증분도 포함된다.
일 실시예에서, 운영 유지 관리 및 태스크 수행 모듈은 필요에 따라 모델 자동 훈련 및 평가 모듈을 작동시켜 하기와 같은 평가를 분류 수행한다: a) 실시간 데이터 처리, 모델링 및 평가: 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리한다. 예를 들어, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할한 후 간단한 관계 판정, 통계 분석 등을 이용하여 비정상 모드를 발견 및 추출한다. b) 일괄 데이터 처리, 모델링 및 평가: 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따른다. 예를 들어, 선택 사용 가능한 모델 및 평가 방법은 단일 모드 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가로 구분된다. 단일 모델 훈련 및 평가는 주로 태스크 유형, 비정상 및 고장 표시 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델인 3가지 유형에서 적합한 알고리즘을 선택한다. 예를 들어, 비정상 모드 발견 태스크는 비정상 모드가 다양한 변화를 갖는 반면 발생 빈도가 높지 않아 샘플 수가 적으므로 일반적으로 비지도 모델을 주로 사용한다. 게다가, 고장 위치 결정 및 고장 경보는 일반적으로 지도 모델을 주로 사용하고 반지도 모델로 보완된다. 통합 모델 훈련 및 평가는 다양한 형태의 태스크 유형이 존재하는 경우 단일 모드의 결과가 불안정한 상황에서 안정적인 최적의 결과를 획득하기 위해 복수의 단일 모델을 적합한 통합 모드에 적용하도록 보완하기 위한 것이다. 증분 모드 훈련 및 평가는 지속적으로 새로운 로그 데이터가 등장하는 상황에서 기존의 운영 유지 모델이 실시간 업데이트를 유지할 수 있도록 하는 것이다. 모델 자동 훈련 및 평가 결과는 모델 및 지식 베이스의 형태로 데이터 저장 모듈에 저장되고, 모델 및 지식 베이스는 저장시 각자의 애플리케이션 시나리오에 따라 하기와 같은 네 가지 유형으로 구분된다: a) 주로 실시간 컴퓨팅 시나리오에서 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터 등을 발견하도록 구성되는 실시간 모델. b) 주로 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터 등에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터로 구성되는 범용 모델. c) 주로 운영 유지 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 고장 트리 등으로 구성된 지식 베이스계로서, 이 부분 모드는 실시간 로그 데이터에 직접 응용되어 실시간 비정상 감지를 수행하거나, 일괄 로그 데이터에 응용되어 고장 조기 예측을 수행할 수도 있다. d) 증분 모델, 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가 후 획득된 모델에 대한 증분 효과 평가를 수행하여 증분 효과가 우수한 모델은 전체 지능형 운영 유지 시스템이 새로 추가된 데이터에 대한 적응성을 충족하기 위해 증분 모델로 별도로 사용되도록 구성된 증분 모델. 증분 모델이 호출될 경우, 증분 모델은 모든 데이터를 다시 계산할 지 아니면 새로 추가된 데이터만 증분 계산하여 정시 작동 또는 트리거 작동을 선택할 지 여부를 결정한다.
여기서, 운영 유지 관리 및 태스크 수행 모듈은 하기와 같이 운영 유지 시스템에 대한 통합 관리 및 태스크 기능을 구현한다. 로그 조회 및 핵심 성과 지표(Key Performance Indicator: KPI) 모니터링 태스크 수행 및 결과 표시, 고장 수동 위치 결정 및 결과 표시, 비정상 규칙 필터링 수행 및 결과 표시, 정적 임계값 설정 및 수행 결과 표시, 비정상 자동 발견 관련 모델의 호출 및 결과 표시, 빠른 고장 위치 결정 관련 모델의 호출 및 결과 표시, 고장 조기 경보 관련 모델의 호출 및 결과 표시, 모델 자동 훈련 및 평가 모듈의 작동 및 결과 관리, 다양한 모델의 분류 관리 및 업데이트. 일반적인 운영 유지 시스템과 비교하여, 비정상 자동 발견 관련 모델의 호출 및 결과 표시, 빠른 고장 위치 결정 관련 모델의 호출 및 결과 표시, 고장 조기 경보 관련 모델의 호출 및 결과 표시, 모델 자동 훈련 및 평가 모듈의 작동 및 결과 관리, 다양한 모델의 분류 관리 및 업데이트는 모두 해당 모듈의 새로 추가된 기능이다.
실시예에서, 운영 유지 관리 및 태스크 수행 모듈은 한편으로 시스템 구성 및 모델 호출 가능 상황에 따라 로그 조회, 다양한 KPI 모니터링, 비정상 발견, 고장 경보 등 기능을 제공하고, 다른 한편으로는 KPI 모니터링 결과, 비정상 규칙 필터링 결과, 임계값 초과 결과, 비정상 모드 자동 발견 결과를 추적하며, 새로 발견된 비정상 및 고장 데이터, 기존의 비정상 및 고장의 데이터 표시 상황에 따라 모델 자동 훈련 및 평가 모듈에 의해 생성된 모델 또는 지식 베이스 중 하나 또는 하나 이상을 호출하고, 신속한 고장 위치 결정을 구현하며 대응되는 결과를 제공한다. 운영 유지 관리 및 태스크 수행 모듈은 운영 유지 결과를 출력한다.
여기서, 운영 유지 관리 및 태스크 수행 모듈은 계속해서 새로운 로그 데이터의 수집 상황을 모니터링하고, 비정상 및 고장 표시 모듈, 모델 자동 훈련 및 평가 모듈을 순차적으로 작동시켜 새로운 모델 및 지식 베이스를 생성하거나 기존의 모델 및 지식 베이스를 업데이트하며, 후속적으로 운영 유지 태스크, 결과 검토 등을 반복 수행함으로써 시스템 운영 유지 기능의 자체 업데이트, 반복 및 진화를 구현한다.
여기서, 결과 검토 모듈은 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하도록 구성된다.
결과 검토 모듈은 주로 운영 유지 관리 모듈에 의해 생성된 운영 유지 결과에 대한 수동 검토 및 확인을 담당하며, 유효한 것으로 확인된 비정상 및 고장을 표시 데이터를 지속적으로 확장 및 축적하기 위한 데이터 표시 방식으로 비정상 및 고장 표시 모듈에 전달한다.
본 발명의 실시예 2에 의해 제공되는 기술적 해결수단에 따르면, 로그 데이터 유형 및 형태가 다양하고, 운영 유지 요구가 복잡한 상황에서 고효율적으로 비정상 자동 발견, 빠른 고장 위치 결정, 고장 조기 경보 등을 수행할 수 있을 뿐만 아니라 전체 지능형 운영 유지 시스템이 자체 적응성 업데이트, 자체 반복, 단계적 진화를 구현할 수 있다.
실시예 3
도 4는 본 발명의 실시예 3에 의해 제공되는 운영 유지 방법의 흐름 모식도이다. 예를 들어, 도 4에 도시된 바와 같이, 상기 운영 유지 방법은 단계 401 내지 단계 406을 포함한다.
단계 401: 데이터 수집 모듈이 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장한다.
단계 402: 데이터 저장 모듈이 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장한다.
단계 403: 비정상 및 고장 표시 모듈이 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고, 표시 결과를 데이터 저장 모듈에 저장한다.
단계 404: 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장한다.
단계 405: 운영 유지 관리 및 태스크 수행 모듈이 운영 유지 태스크를 설정 및 수행하고 운영 유지 모델과 지식 베이스를 호출하며 운영 유지 결과를 저장 및 출력한다.
단계 406에서, 결과 검토 모듈이 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력한다.
일 실시예에서, 상기 데이터 수집 모듈에 의해 수집되는 다양한 로그 소스 데이터에는 애플리케이션 시스템 로그, 운영 체제 리소스 상태 로그, 비정상 로그 데이터, 스트리밍 로그 데이터, 운영 유지 세부 기록, 및 제3자 표시 데이터가 포함한다.
애플리케이션 시스템 로그 및 운영 체제 리소스 상태 로그의 경우, 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용한다. 비정상 로그 데이터 및 스트리밍 로그 데이터의 경우, 데이터 수집 모듈은 실시간 수집, 실시간 전송 데이터 수집 모드를 사용한다. 운영 유지 세부 기록 및 제3자 표시 데이터의 경우, 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용한다.
상기 비정상 및 고장 표시 모듈에 의해 비정상 및 고장이 표시된 소스 데이터에는 데이터 저장 모듈에 저장된 운영 유지 세부 기록 및 제3자 표시 데이터, 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장, 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터가 포함된다.
일 실시예에서, 상기 비정상 및 고장 표시 모듈이 비정상 및 고장 표시를 수행하는 방식에는 수동, 반수동, 반지도 학습, 전이 학습 이 네 가지 방식이 포함된다.
상기 수동 방식은 데이터 저장 모듈에서 필요에 따라 추출된 운영 유지 세부 기록을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미한다.
상기 반수동 방식은 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미한다.
상기 반지도 학습 방식은 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터를 반지도 학습 알고리즘, 이미 표시된 표시 샘플 중 일부를 이용하여 표시함을 의미한다.
상기 전이 학습 방식은 전이 학습 기술을 이용하여 유사한 제3자 표시 데이터에 대한 학습을 통해 상기 운영 유지 시스템에 필요한 표시 데이터를 생성함을 의미한다.
일 실시예에서, 상기 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델 및 지식 베이스를 생성 및 업데이트하는 방식에는 실시간 데이터 처리 모델링 및 평가, 일괄 데이터 처리 모델링 및 평가가 포함된다.
상기 실시간 데이터 처리 모델링 및 평가는 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리하며, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할한 후 간단한 관계 판정 및 통계 분석을 이용하여 비정상 모드를 발견 및 추출하는 것을 포함한다.
상기 일괄 데이터 처리 모델링 및 평가는, 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따라, 발견 및 추출된 비정상 모드에 대해 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가를 선택하여 다양한 운영 유지 모델 및 지식 베이스를 생성함을 의미한다.
여기서, 상기 단일 모델 훈련 및 평가에는 태스크 유형, 비정상 및 고장 표시 데이터, 훈련 테스트 및 검증 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델인 3가지 유형에서 적합한 모델을 선택하고 훈련 및 평가를 수행하여 단일 모델을 생성하는 단계가 포함된다.
상기 통합 모델 훈련 및 평가에는 단일 모델 훈련 및 평가 결과가 불안정한 경우, 안정적인 최적의 결과를 획득하기 위해 복수의 단일 모델에 적합한 통합 모드를 적용하는 단계가 포함된다.
상기 증분 모드 훈련 및 평가에는 새로운 로그 데이터가 도착한 후, 기존의 운영 유지 모델에 대해 모델 파라미터 업데이트, 모델 재훈련 및 평가 업데이트 작업을 수행해야 하는 단계가 포함된다.
일 실시예에서, 다양한 운영 유지 모델 및 지식 베이스에는 실시간 모델, 범용 모델, 지식 베이스, 증분 모델이 포함된다.
여기서, 상기 실시간 모델에는 실시간 컴퓨팅 시나리오에서 발견되는 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터가 포함된다.
상기 범용 모델에는 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터가 포함된다.
상기 지식 베이스에는 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 고장 트리가 포함된다.
상기 증분 모델에는 기존의 운영 유지 모델이 새로운 데이터에 적응하도록 하기 위해 수행된 모델 파라미터 조정, 모델 유형 조정이 포함되고, 단일 모델의 증분뿐만 아니라 통합 모델의 증분도 포함된다.
아래 구체적인 일 실시예를 통해 본 발명의 실시예 3에 의해 제공되는 기술적 해결수단을 상세히 설명한다.
실시예 4
도 5는 본 발명의 실시예 4에 의해 제공되는 운영 유지 방법의 흐름 모식도이다. 예를 들어, 도 5에 도시된 바와 같이, 상기 운영 유지 방법은 단계 501 내지 단계 506을 포함한다.
단계 501: 데이터 수집을 수행.
여기서, 상기 데이터 수집에는 1. 작업 클러스터 중 중요한 애플리케이션/작업의 비정상 로그를 실시간으로 수집하는 비정상 로그 실시간 수집; 2. 애플리케이션 시스템 로그를 일괄적으로 수집하는 운영 체제 리소스 상태 수집; 4. 운영 유지 시스템의 비정상 및 고장 표시 데이터 부족을 보완하도록 구성되고, 주로 전이 학습 기술을 통해 외부의 유사한 표시 데이터를 전이시켜 구현되는 제3자 표시 데이터 수집; 5. 운영 유지 시스템의 비정상 및 고장 표시 데이터로 직접 사용되는 운영 유지 세부 기록표 수집; 6. 주로 빅 데이터 환경에서 트랜잭션형, 실시간 전송형/작업형 스트리밍 데이터를 실시간으로 수집하는 스트리밍 로그 데이터 수집이 포함된다.
단계 502: 데이터 저장을 수행.
여기서, 상기 데이터 저장에는 1. 일반적으로 파일 시스템에 저장되는 로그 소스 데이터 저장; 2. 일반적으로 데이터베이스 또는 데이터 웨어하우스에 저장되는 로그 분석 결과 저장; 3. 비정상 및 고장 표시 모드에서 생성된 표시 결과를 저장하도록 구성된 표시 결과 저장; 4. 모델 자동 훈련 및 평가 모듈에서 생성된 다양한 모델 및 지식 베이스를 저장하도록 구성된 모델 및 지식 베이스 저장이 포함된다.
단계 503: 비정상 및 고장 표시를 수행.
여기서, 상기 비정상 및 고장 표시에는 1. 시스템에서 수집한 비정상 데이터를 확인하고 진정한 비정상 이벤트를 표시하는 비정상 이벤트 표시; 2. 시스템에서 수집한 고장 데이터 및 고장 유형을 표시하는 고장 유형 표시; 3. 전이 학습 기술을 통해 제3자 표시 데이터를 시스템에 사용 가능한 비정상 및 고장 표시 데이터로 형성하는 표시 데이터 전이가 포함된다.
단계 504: 모델 자동 훈련 및 평가를 수행.
여기서, 모델 자동 훈련 및 평가에는 1. 모델 자동 훈련 및 평가 모듈에서 데이터 준비 작업을 담당하고, 샘플 데이터 추출, 데이터 해석 및 포맷 통합, 특징 추출 및 구성, 데이터 불균형 처리 등을 포함하지만, 이들로 한정되지 않는 데이터 전처리; 2. 데이터 저장 모듈 중 로그 소스 데이터 저장 현황, 표시 결과 저장 현황, 태스크 유형(비정상 자동 발견/빠른 고장 위치 결정/고장 조기 경보)에 따라 단일 모델 훈련 및 평가 중의 비지도 모델 훈련 및 평가, 반지도 모델 훈련 및 평가, 지도 모델 훈련 및 평가 중 하나 또는 다양한 알고리즘을 훈련, 테스트 및 평가하고, 형성된 알고리즘 및 파라미터, 연관 관계, 링크 전파, 복잡한 규칙, 지식 그래프, 고장 트리 등을 모델 또는 지식 베이스로서 데이터 저장 모듈의 모델 및 지식 베이스 저장소에 저장하는 단일 모델 훈련 및 평가; 3. 단일 모델 훈련 및 평가를 기반으로 모델의 안정성 및 평가 효과에 따라 통합 모델 훈련 및 평가를 계속 선택하여 모델의 최적화를 수행하는 통합 모델 훈련 및 평가; 4. 수집된 데이터가 지속적으로 증가함에 따라 기존의 모델 및 지식 베이스를 업데이트해야 하는데, 이는 증분 모델 훈련 및 평가를 통해 구현될 수 있는 증분 모델 훈련 및 평가가 포함된다.
단계 505: 운영 유지 관리 및 태스크 수행을 진행
여기서, 운영 유지 관리 및 태스크 수행에는 로그 조회 및 KPI 모니터링 태스크 수행 및 결과 표시, 고장 수동 위치 결정 및 결과 표시, 비정상 규칙 필터링 수행 및 결과 표시, 정적 임계값 설정 및 수행 결과 표시, 비정상 자동 발견 관련 모델의 호출 및 결과 표시, 빠른 고장 위치 결정 관련 모델의 호출 및 결과 표시, 고장 조기 경보 관련 모델의 호출 및 결과 표시, 모델 자동 훈련 및 평가 모듈의 작동 및 결과 관리, 다양한 모델의 분류 관리 및 업데이트 등이 포함된다.
단계 506: 결과 검토를 수행
여기서, 상기 결과 검토에는 운영 유지 관리 및 태스크 수행 모듈 중의 비정상 및 고장 관련 결과를 검토하는 것이 포함된다. 한편으로는 검토된 모든 비정상 및 고장을 출력한다. 다른 한편으로는 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 전달한다.
여기서, 상기 각 단계는 고정된 순서 없이 주기적으로 순환될 수 있다.
본 실시예 3, 4에 의해 제공되는 운영 유지 방법은 상기 실시예 1, 2에 의해 제공되는 운영 유지 시스템에 응용될 수 있다.
본 발명의 실시예 3 및 실시예 4에 의해 제공되는 기술적 해결수단에 따르면, 로그 데이터 유형 및 형태가 다양하고, 운영 유지 요구가 복잡한 상황에서 고효율적으로 비정상 자동 발견, 빠른 고장 위치 결정, 고장 조기 경보 등을 수행할 수 있을 뿐만 아니라 전체 지능형 운영 유지 시스템이 자체 적응성 업데이트, 자체 반복, 단계적 진화를 구현할 수 있다.
당업자라면 상기 개시된 방법의 전부 또는 일부 단계, 시스템, 장치의 기능적 모듈/유닛이 소프트웨어, 펌웨어, 하드웨어 및 이들의 적합한 조합으로 구현될 수 있음을 이해할 수 있다. 하드웨어 실시형태에서, 전술한 설명에서 언급된 기능 모듈/유닛 간의 구분은 반드시 물리적 구성요소의 구분에 해당하는 것은 아니다. 예를 들어, 하나의 물리적 구성요소는 여러 기능을 구비할 수 있거나 여러 물리적 구성요소가 협력하여 하나의 기능 또는 단계를 수행할 수 있다. 일부 또는 모든 구성요소는 디지털 신호 프로세서 또는 마이크로 프로세서와 같은 프로세서에 의해 실행되는 소프트웨어로 구현되거나, 하드웨어 또는 주문형 집적 회로와 같은 집적 회로로 구현될 수 있다. 이러한 소프트웨어는 컴퓨터 판독 가능한 매체에 분포될 수 있으며, 컴퓨터 판독 가능한 매체는 컴퓨터 저장 매체(또는 비일시적 매체) 및 통신 매체(또는 일시적 매체)를 포함할 수 있다. 당업자에게 공지된 바와 같이, 컴퓨터 저장 매체라는 용어는 정보(예를 들어, 컴퓨터 판독 가능한 명령, 데이터 구조, 프로그램 모듈 또는 기타 데이터)를 저장하도록 구성된 임의의 방법 또는 기술에서 실행되는 휘발성 및 비 휘발성, 이동식 비 이동식 매체를 포함한다. 컴퓨터 저장 매체에는 랜덤 액세스 메모리(random access memory: RAM), 판독 전용 메모리(Read Only Memory: ROM), 전기적 소거 가능한 프로그래밍 가능 판독 전용 메모리(Electrically Erasable Programmable Read-Only Memory: EEPROM), 플래시 메모리 또는 기타 메모리 기술, 컴팩트 디스크 판독 전용 메모리(Compact Disc Read-Only Memory: CD-ROM), 디지털 비디오 디스크(Digital Video Disc: DVD) 또는 기타 광 디스크 스토리지, 자기 카세트, 자기 테이프, 자기 디스크 스토리지 또는 기타 자기 스토리지 장치 또는 원하는 정보를 장하고 컴퓨터가 액세스할 수 있도록 구성된 임의의 기타 매체를 포함하지만, 이들로 한정되지는 않는다. 이 밖에, 당업자에게 공지된 바와 같이, 통신 매체는 일반적으로 컴퓨터 판독 가능한 명령, 데이터 구조, 프로그램 모듈 또는 반송파 또는 기타 전송 메커니즘과 같은 변조 데이터 신호의 기타 데이터를 포함하고, 임의의 정보 전달 매체를 포함할 수 있다.

Claims (10)

  1. 상호 연결된, 데이터 수집 모듈, 데이터 저장 모듈, 비정상 및 고장 표시 모듈, 모델 자동 훈련 및 평가 모듈, 운영 유지 관리 및 태스크 수행 모듈, 결과 검토 모듈을 포함하는 운영 유지 시스템으로서,
    상기 데이터 수집 모듈은 상기 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하도록 구성되며;
    상기 데이터 저장 모듈은 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장하도록 구성되고;
    상기 비정상 및 고장 표시 모듈은 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고 표시 결과를 데이터 저장 모듈에 저장하도록 구성되며;
    상기 모델 자동 훈련 및 평가 모듈은 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하도록 구성되며;
    상기 운영 유지 관리 및 태스크 수행 모듈은 운영 유지 태스크를 설정 및 수행하고, 운영 유지 모델과 지식 베이스를 호출하며, 운영 유지 결과를 저장 및 출력하도록 구성되고;
    상기 결과 검토 모듈은 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하도록 구성된 운영 유지 시스템.
  2. 제1항에 있어서,
    상기 데이터 수집 모듈에 의해 수집되는 다양한 로그 소스 데이터에는 애플리케이션 시스템 로그, 운영 체제 리소스 상태 로그, 비정상 로그 데이터, 스트리밍 로그 데이터, 운영 유지 세부 기록, 및 제3자 표시 데이터가 포함되고;
    상기 애플리케이션 시스템 로그 및 상기 운영 체제 리소스 상태 로그의 경우, 상기 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용하며; 비정상 로그 데이터 및 스트리밍 로그 데이터의 경우, 상기 데이터 수집 모듈은 실시간 수집, 실시간 전송 데이터 수집 모드를 사용하고; 운영 유지 세부 기록 및 제3자 표시 데이터의 경우, 상기 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용하며;
    상기 비정상 및 고장 표시 모듈에 의해 비정상 및 고장이 표시된 소스 데이터에는 데이터 저장 모듈에 저장된 운영 유지 세부 기록 및 제3자 표시 데이터, 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장, 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터가 포함되는, 운영 유지 시스템.
  3. 제1항에 있어서,
    상기 비정상 및 고장 표시 모듈이 비정상 및 고장 표시를 수행하는 방식에는 수동 방식, 반수동 방식, 반지도 학습 방식, 및 전이 학습 방식이 포함되고;
    상기 수동 방식은 데이터 저장 모듈에서 필요에 따라 추출된 운영 유지 세부 기록을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미하며;
    상기 반수동 방식은 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미하고;
    상기 반지도 학습 방식은 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터를 반지도 학습 알고리즘, 이미 표시된 표시 샘플 중 일부를 이용하여 표시함을 의미하며;
    상기 전이 학습 방식은 전이 학습 기술을 이용하여 유사한 제3자 표시 데이터에 대한 학습을 통해 상기 운영 유지 시스템에 필요한 표시 데이터를 생성함을 의미하는, 운영 유지 시스템.
  4. 제1항에 있어서,
    상기 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델 및 지식 베이스를 생성 및 업데이트하는 방식에는 실시간 데이터 처리 모델링 및 평가, 일괄 데이터 처리 모델링 및 평가가 포함되고;
    상기 실시간 데이터 처리 모델링 및 평가는 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리하며, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할하며, 관계 판정 및 통계 분석을 이용하여 비정상 모드를 발견 및 추출함을 의미하며;
    상기 일괄 데이터 처리 모델링 및 평가는 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따라, 발견 및 추출된 비정상 모드에 대해 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가를 선택하여 다양한 운영 유지 모델 및 지식 베이스를 생성함을 의미하고;
    상기 단일 모델 훈련 및 평가에는 태스크 유형, 비정상 및 고장 표시 데이터, 훈련 테스트 및 검증 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델에서 대응되는 모델을 선택하고 훈련 및 평가를 수행하여 단일 모델을 생성하는 단계가 포함되며;
    상기 통합 모델 훈련 및 평가에는 단일 모델 훈련 및 평가 결과가 불안정한 경우, 안정적인 결과를 획득하기 위해 복수의 단일 모델에 대응되는 통합 모드를 사용하는 단계가 포함되고;
    상기 증분 모드 훈련 및 평가에는 새로운 로그 데이터가 도착한 후, 기존의 운영 유지 모델에 대해 모델 파라미터 업데이트, 모델 재훈련 및 평가 업데이트 작업을 수행해야 하는 단계가 포함되는, 운영 유지 시스템.
  5. 제4항에 있어서,
    상기 다양한 운영 유지 모델 및 상기 지식 베이스에는 실시간 모델, 범용 모델, 지식 베이스, 증분 모델이 포함되고;
    상기 실시간 모델에는 실시간 컴퓨팅 시나리오에서 발견되는 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터가 포함되며;
    상기 범용 모델에는 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터가 포함되고;
    상기 지식 베이스에는 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 및 고장 트리가 포함되며;
    상기 증분 모델에는 기존의 운영 유지 모델이 새로운 데이터에 적응하도록 하기 위해 수행된 모델 파라미터 조정, 모델 유형 조정이 포함되고, 상기 증분 모델에는 단일 모델의 증분 및 통합 모델의 증분이 포함되는, 운영 유지 시스템.
  6. 운영 유지 방법으로서,
    데이터 수집 모듈이 운영 유지 시스템에 필요한 다양한 로그 소스 데이터를 수집하고, 상기 다양한 로그 소스 데이터를 데이터 저장 모듈에 저장하는 단계;
    상기 데이터 저장 모듈이 상기 로그 소스 데이터, 운영 유지 결과, 표시 결과, 모델 및 지식 베이스를 저장하는 단계;
    비정상 및 고장 표시 모듈이 데이터 저장 모듈 중의 일부 소스 데이터에 대해 지속적으로 비정상 및 고장 표시를 수행하고 표시 결과를 데이터 저장 모듈에 저장하는 단계;
    모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델과 지식 베이스를 지속적으로 생성 및 업데이트하고, 상기 다양한 운영 유지 모델과 지식 베이스를 데이터 저장 모듈에 저장하는 단계;
    운영 유지 관리 및 태스크 수행 모듈이 운영 유지 태스크를 설정 및 수행하고 운영 유지 모델 및 지식 베이스를 호출하며 운영 유지 결과를 출력하는 단계; 및
    결과 검토 모듈이 운영 유지 관리 및 태스크 수행 모듈에 의해 출력된 비정상 및 고장을 검토하고, 검토를 통해 확인된 비정상 및 고장을 비정상 및 고장 표시 모듈에 출력하는 단계를 포함하는, 운영 유지 방법.
  7. 제6항에 있어서,
    상기 데이터 수집 모듈에 의해 수집되는 다양한 로그 소스 데이터에는 애플리케이션 시스템 로그, 운영 체제 리소스 상태 로그, 비정상 로그 데이터, 스트리밍 로그 데이터, 운영 유지 세부 기록, 및 제3자 표시 데이터가 포함되고;
    상기 애플리케이션 시스템 로그 및 상기 운영 체제 리소스 상태 로그의 경우, 상기 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용하며; 상기 비정상 로그 데이터 및 상기 스트리밍 로그 데이터의 경우, 상기 데이터 수집 모듈은 실시간 수집, 실시간 전송 데이터 수집 모드를 사용하고; 상기 운영 유지 세부 기록 및 상기 제3자 표시 데이터의 경우, 상기 데이터 수집 모듈은 타이밍 스캔, 일괄 전송 데이터 수집 모드를 사용하며;
    상기 비정상 및 고장 표시 모듈에 의해 비정상 및 고장이 표시된 소스 데이터에는 데이터 저장 모듈에 저장된 운영 유지 세부 기록 및 제3자 표시 데이터, 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장, 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터가 포함되는, 운영 유지 방법.
  8. 제6항에 있어서,
    상기 비정상 및 고장 표시 모듈이 비정상 및 고장 표시를 수행하는 방식에는 수동 방식, 반수동 방식, 반지도 학습 방식, 전이 학습 방식이 포함되고;
    상기 수동 방식은 데이터 저장 모듈에서 필요에 따라 추출된 운영 유지 세부 기록을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미하며;
    상기 반수동 방식은 결과 검토 모듈에 의해 출력되고 검토를 통해 확인된 비정상 및 고장을 고장 발생 모듈, 고장 유형, 고장 원인에 따라 표시함을 의미하고;
    상기 반지도 학습 방식은 모델 자동 훈련 및 평가 모듈에 의해 훈련 테스트 검증용으로 사용되는 데이터를 반지도 학습 알고리즘, 이미 표시된 표시 샘플 중 일부를 이용하여 표시함을 의미하며;
    상기 전이 학습 방식은 전이 학습 기술을 이용하여 유사한 제3자 표시 데이터에 대한 학습을 통해 상기 운영 유지 시스템에 필요한 표시 데이터를 생성함을 의미하는, 운영 유지 방법.
  9. 제6항에 있어서,
    상기 모델 자동 훈련 및 평가 모듈이 다양한 운영 유지 모델 및 지식 베이스를 생성 및 업데이트하는 방식에는 실시간 데이터 처리 모델링 및 평가, 일괄 데이터 처리 모델링 및 평가가 포함되고;
    상기 실시간 데이터 처리 모델링 및 평가는 데이터 저장 모듈 중의 실시간 데이터베이스에서 실시간 로그 데이터를 추출하고, 실시간 태스크 요구에 따라 데이터를 처리하며, 시간 순서에 따라 데이터를 정렬하고, 특정 시간 윈도우에 따라 데이터를 시분할하며, 관계 판정 및 통계 분석을 이용하여 비정상 모드를 발견 및 추출함을 의미하며;
    상기 일괄 데이터 처리 모델링 및 평가는 상이한 운영 유지 태스크 및 표시 데이터 준비 상황에 따라, 발견 및 추출된 비정상 모드에 대해 단일 모델 훈련 및 평가, 통합 모델 훈련 및 평가, 증분 모델 훈련 및 평가를 선택하여 다양한 운영 유지 모델 및 지식 베이스를 생성함을 의미하고;
    상기 단일 모델 훈련 및 평가에는 태스크 유형, 비정상 및 고장 표시 데이터, 훈련 테스트 및 검증 데이터에 따라 지도 모델, 비지도 모델, 반지도 모델인 3가지 유형에서 대응되는 모델을 선택하고 훈련 및 평가를 수행하여 단일 모델을 생성하는 단계가 포함되며;
    상기 통합 모델 훈련 및 평가에는 단일 모델 훈련 및 평가 결과가 불안정한 경우, 안정적인 결과를 획득하기 위해 복수의 단일 모델에 대응되는 통합 모드를 사용하는 단계가 포함되고;
    상기 증분 모드 훈련 및 평가에는 새로운 로그 데이터가 도착한 후, 기존의 운영 유지 모델에 대해 모델 파라미터 업데이트, 모델 재훈련 및 평가 업데이트 작업을 수행해야 하는 단계가 포함되는, 운영 유지 방법.
  10. 제9항에 있어서,
    상기 다양한 운영 유지 모델 및 상기 지식 베이스에는 실시간 모델, 범용 모델, 지식 베이스, 증분 모델이 포함되고;
    상기 실시간 모델에는 실시간 컴퓨팅 시나리오에서 발견되는 로그 데이터 중의 간단한 비정상 규칙, 정적 임계값 파라미터가 포함되며;
    상기 범용 모델에는 일괄 컴퓨팅 시나리오에서 단일 모델 훈련 및 평가 후 형성된 알고리즘 및 대응되는 파라미터, 시간과 데이터에 따라 변화되는 동적 임계값, 통합 모델, 평가 후 형성된 통합 프레임워크 및 대응되는 알고리즘과 파라미터가 포함되고;
    상기 지식 베이스에는 모델 종합 훈련 및 평가 중 각 단계에서 발견된 복잡한 규칙, 연관 관계, 링크 전파맵, 지식 그래프, 및 고장 트리가 포함되며;
    상기 증분 모델에는 기존의 운영 유지 모델이 새로운 데이터에 적응하도록 하기 위해 수행된 모델 파라미터 조정, 모델 유형 조정이 포함되고, 상기 증분 모델에는 단일 모델의 증분 및 통합 모델의 증분이 포함되는, 운영 유지 방법.
KR1020217001839A 2018-06-28 2019-06-28 운영 유지 시스템 및 방법 KR102483025B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810689427.5 2018-06-28
CN201810689427.5A CN110659173B (zh) 2018-06-28 2018-06-28 一种运维系统及方法
PCT/CN2019/093812 WO2020001642A1 (zh) 2018-06-28 2019-06-28 一种运维系统及方法

Publications (2)

Publication Number Publication Date
KR20210019564A true KR20210019564A (ko) 2021-02-22
KR102483025B1 KR102483025B1 (ko) 2022-12-29

Family

ID=68985827

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217001839A KR102483025B1 (ko) 2018-06-28 2019-06-28 운영 유지 시스템 및 방법

Country Status (5)

Country Link
US (1) US11947438B2 (ko)
EP (1) EP3798846B1 (ko)
KR (1) KR102483025B1 (ko)
CN (1) CN110659173B (ko)
WO (1) WO2020001642A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541576B1 (ko) * 2023-02-06 2023-06-14 주식회사 마티아솔루션 머신비전 판정 모델의 서빙 시스템

Families Citing this family (50)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7184099B2 (ja) * 2019-02-01 2022-12-06 日本電気株式会社 運用支援装置、システム、方法及びプログラム
US11341017B1 (en) * 2019-04-24 2022-05-24 Snap Inc. Staged release of updates with anomaly monitoring
CN112887119B (zh) * 2019-11-30 2022-09-16 华为技术有限公司 故障根因确定方法及装置、计算机存储介质
CN111259947A (zh) * 2020-01-13 2020-06-09 国网浙江省电力有限公司信息通信分公司 一种基于多模态学习的电力系统故障预警方法和系统
CN111541580A (zh) * 2020-03-23 2020-08-14 广东工业大学 一种应用于工业互联网的自适应异常检测系统
CN111611327A (zh) * 2020-05-28 2020-09-01 孙明松 一种运维数据处理的方法及装置
CN112084055A (zh) * 2020-08-19 2020-12-15 广州小鹏汽车科技有限公司 应用系统的故障定位方法、装置、电子设备及存储介质
CN112181960B (zh) * 2020-09-18 2022-05-31 杭州优云软件有限公司 一种基于AIOps的智能运维框架系统
CN113179173B (zh) * 2020-09-29 2024-03-22 北京速通科技有限公司 一种用于高速公路系统的运维监控系统
CN112269821A (zh) * 2020-10-30 2021-01-26 内蒙古电力(集团)有限责任公司乌海超高压供电局 一种基于大数据的电力设备状态分析方法
CN112511213B (zh) * 2020-11-18 2022-07-22 四川安迪科技实业有限公司 基于日志分析的缺陷定位方法及系统
CN114594737A (zh) * 2020-12-07 2022-06-07 北京福田康明斯发动机有限公司 一种监控发动机装配过程的优化方法及装置
CN112804079B (zh) * 2020-12-10 2023-04-07 北京浪潮数据技术有限公司 云计算平台告警分析方法、装置、设备及存储介质
CN112711757B (zh) * 2020-12-23 2022-09-16 光大兴陇信托有限责任公司 一种基于大数据平台的数据安全集中管控方法及系统
CN112910691B (zh) * 2021-01-19 2023-06-27 中国工商银行股份有限公司 机房故障检测方法及装置
CN112766599A (zh) * 2021-01-29 2021-05-07 广州源创动力科技有限公司 一种基于深度强化学习的智能运维方法
CN112783865A (zh) * 2021-01-29 2021-05-11 杭州优云软件有限公司 一种半监督人机结合的运维故障库生成方法及系统
CN113313280B (zh) * 2021-03-31 2023-09-19 阿里巴巴新加坡控股有限公司 云平台的巡检方法、电子设备及非易失性存储介质
CN113077289B (zh) * 2021-04-12 2022-08-19 上海耶汇市场营销策划有限公司 一种用于产品营销的社交平台运维系统
CN113204199A (zh) * 2021-04-26 2021-08-03 武汉卓尔信息科技有限公司 一种工业设备的远程运维系统及方法
CN113516360B (zh) * 2021-05-16 2023-06-30 国检测试控股集团云南有限公司 检测机构的检测仪器设备管理信息化系统及管理方法
CN113359664B (zh) * 2021-05-31 2023-07-07 海南文鳐科技有限公司 故障诊断与维护系统、方法、设备及存储介质
CN113258678A (zh) * 2021-06-03 2021-08-13 长沙理工大学 一种智能配电柜故障抢修系统、方法及装置
CN113268891B (zh) * 2021-06-30 2022-06-03 云智慧(北京)科技有限公司 一种运维系统的建模方法和装置
US11868971B2 (en) * 2021-08-02 2024-01-09 Arch Systems Inc. Method for manufacturing system analysis and/or maintenance
CN113651245B (zh) * 2021-08-16 2023-07-21 合肥市春华起重机械有限公司 一种起重机承载力监测系统
CN113672427A (zh) * 2021-08-26 2021-11-19 北京来也网络科技有限公司 基于rpa及ai的异常处理方法、装置、设备及介质
CN115905417A (zh) * 2021-09-29 2023-04-04 中兴通讯股份有限公司 一种系统异常检测处理方法及装置
TWI806220B (zh) * 2021-11-04 2023-06-21 財團法人資訊工業策進會 異常評估系統與異常評估方法
CN114048365B (zh) * 2021-11-15 2022-10-21 江苏鼎驰电子科技有限公司 一种基于大数据流处理技术的运维监控治理方法
CN114205216B (zh) * 2021-12-07 2024-02-06 中国工商银行股份有限公司 微服务故障的根因定位方法、装置、电子设备和介质
CN114371687A (zh) * 2021-12-30 2022-04-19 苏州胜科设备技术有限公司 一种伺服驱动器快速测试方法
CN114880151B (zh) * 2022-04-25 2023-01-13 北京科杰科技有限公司 人工智能运维方法
CN114897196B (zh) * 2022-05-11 2023-01-13 山东大卫国际建筑设计有限公司 一种办公建筑供水网络的运行管理方法、设备及介质
CN114912637B (zh) * 2022-05-21 2023-08-29 重庆大学 人机物知识图谱制造产线运维决策方法及系统、存储介质
CN115051930B (zh) * 2022-05-23 2023-05-12 中电信数智科技有限公司 基于AISecOps结合中台算法的弊端优化方法
CN114875999B (zh) * 2022-05-27 2023-11-21 上海威派格智慧水务股份有限公司 一种用于二次供水系统的泵房运维管理系统
CN114969163B (zh) * 2022-07-21 2022-12-09 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN115695150B (zh) * 2022-11-01 2023-08-08 广州城轨科技有限公司 一种基于分布式异构融合组网设备检测方法及装置
CN116163943B (zh) * 2023-03-27 2023-09-08 蚌埠市联合压缩机制造有限公司 一种运行状态实时监测的压缩机
CN116187725B (zh) * 2023-04-27 2023-08-04 武汉新威奇科技有限公司 一种用于锻造自动线的锻造设备管理系统
CN116305699B (zh) * 2023-05-11 2023-08-18 青岛研博数据信息技术有限公司 一种基于全方位感知的管道监督系统
CN116760691A (zh) * 2023-07-06 2023-09-15 武昌理工学院 一种基于大数据技术的电信故障排除系统
CN117150032A (zh) * 2023-08-04 2023-12-01 华能澜沧江水电股份有限公司 一种水电站发电机组的智能维护系统及方法
CN116841792B (zh) * 2023-08-29 2023-11-17 北京轻松致远科技有限责任公司 一种应用程序开发故障修复方法
CN117325879B (zh) * 2023-10-07 2024-04-05 盐城工学院 一种四轮分布式电驱动汽车状态评估方法及系统
CN117194201A (zh) * 2023-11-07 2023-12-08 中央军委政治工作部军事人力资源保障中心 一种业务系统的健康度评估及观测方法、装置
CN117620345A (zh) * 2023-12-28 2024-03-01 诚联恺达科技有限公司 一种真空回流焊炉的数据记录系统
CN117670312B (zh) * 2024-01-30 2024-04-26 北京伽睿智能科技集团有限公司 一种远程辅助的设备故障维护系统
CN117709755A (zh) * 2024-02-04 2024-03-15 深圳市安达新材科技有限公司 一种基于云计算的光学膜片数据管理系统及方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115768A (ja) * 2012-12-07 2014-06-26 Toshiba Corp ログ判定システム、ログ判定基準構築装置及びログ判定方法
KR101758870B1 (ko) * 2017-02-13 2017-07-18 주식회사 온더 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법
KR101856543B1 (ko) * 2018-02-26 2018-05-11 주식회사 리앙커뮤니케이션즈 인공지능 기반의 장애 예측 시스템
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
CN108173671A (zh) * 2016-12-07 2018-06-15 博彦科技股份有限公司 运维方法、装置及系统

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103346906B (zh) 2013-06-19 2016-07-13 华南师范大学 一种基于云计算的智能运维方法及系统
US10410135B2 (en) * 2015-05-21 2019-09-10 Software Ag Usa, Inc. Systems and/or methods for dynamic anomaly detection in machine sensor data
CN105204978A (zh) 2015-06-23 2015-12-30 北京百度网讯科技有限公司 基于机器学习的数据中心运行数据分析系统
US10361919B2 (en) * 2015-11-09 2019-07-23 At&T Intellectual Property I, L.P. Self-healing and dynamic optimization of VM server cluster management in multi-cloud platform
CN106452829B (zh) 2016-01-21 2019-07-19 华南师范大学 一种基于bcc-knn的云计算中心智能运维方法及系统
US10769641B2 (en) * 2016-05-25 2020-09-08 Microsoft Technology Licensing, Llc Service request management in cloud computing systems
CN106095639A (zh) 2016-05-30 2016-11-09 中国农业银行股份有限公司 一种集群亚健康预警方法及系统
CN106649034B (zh) * 2016-11-22 2020-08-28 北京锐安科技有限公司 一种可视化智能运维方法及平台
CN106600115A (zh) * 2016-11-28 2017-04-26 湖北华中电力科技开发有限责任公司 一种企业信息系统运维智能分析方法
CN106844138A (zh) 2016-12-14 2017-06-13 北京奇艺世纪科技有限公司 运维报警系统及方法
CN107332685A (zh) 2017-05-22 2017-11-07 国网安徽省电力公司信息通信分公司 国网云中应用的一种基于大数据运维日志的方法
CN107358300A (zh) 2017-06-19 2017-11-17 北京至信普林科技有限公司 一种基于多平台自主预测的智能运维告警过滤方法及系统
CN107577588B (zh) 2017-09-26 2021-04-09 北京中安智达科技有限公司 一种海量日志数据智能运维系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014115768A (ja) * 2012-12-07 2014-06-26 Toshiba Corp ログ判定システム、ログ判定基準構築装置及びログ判定方法
CN108173671A (zh) * 2016-12-07 2018-06-15 博彦科技股份有限公司 运维方法、装置及系统
KR101758870B1 (ko) * 2017-02-13 2017-07-18 주식회사 온더 마이닝 관리 시스템 및 이를 이용한 마이닝 관리 방법
CN108038049A (zh) * 2017-12-13 2018-05-15 西安电子科技大学 实时日志控制系统及控制方法、云计算系统及服务器
KR101856543B1 (ko) * 2018-02-26 2018-05-11 주식회사 리앙커뮤니케이션즈 인공지능 기반의 장애 예측 시스템

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102541576B1 (ko) * 2023-02-06 2023-06-14 주식회사 마티아솔루션 머신비전 판정 모델의 서빙 시스템

Also Published As

Publication number Publication date
CN110659173A (zh) 2020-01-07
EP3798846A4 (en) 2021-07-28
CN110659173B (zh) 2023-05-26
US20210271582A1 (en) 2021-09-02
KR102483025B1 (ko) 2022-12-29
EP3798846B1 (en) 2022-09-07
US11947438B2 (en) 2024-04-02
WO2020001642A1 (zh) 2020-01-02
EP3798846A1 (en) 2021-03-31

Similar Documents

Publication Publication Date Title
KR102483025B1 (ko) 운영 유지 시스템 및 방법
Khatib et al. Self-healing in mobile networks with big data
CN108521339B (zh) 一种基于集群日志的反馈式节点故障处理方法及系统
CN110493025B (zh) 一种基于多层有向图的故障根因诊断的方法及装置
CN104407964B (zh) 一种基于数据中心的集中监控系统及方法
CN108039959B (zh) 一种数据的态势感知方法、系统及相关装置
US10177984B2 (en) Isolation of problems in a virtual environment
CN105095048A (zh) 一种基于业务规则的监控系统告警关联处理方法
CN112181758B (zh) 一种基于网络拓扑及实时告警的故障根因定位方法
CN105917625A (zh) 使用附加数据的检测到的网络异常的分类
CN113542039A (zh) 一种通过ai算法定位5g网络虚拟化跨层问题的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN111949480B (zh) 一种基于组件感知的日志异常检测方法
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN108108445A (zh) 一种智能数据处理方法和系统
CN105183619A (zh) 一种系统故障预警方法和系统
Zhang et al. A survey on quality assurance techniques for big data applications
CN104820663A (zh) 发现低性能的sql语句以及预测sql语句性能的方法和装置
CN103023028A (zh) 一种基于实体间依赖关系图的电网故障快速定位方法
CN105677572A (zh) 基于自组织映射模型云软件性能异常错误诊断方法与系统
CN115237717A (zh) 一种微服务异常检测方法和系统
CN113505048A (zh) 基于应用系统画像的统一监控平台及实现方法
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN105207797A (zh) 故障定位方法和装置
CN115865611A (zh) 一种网络设备的故障处理方法、装置及电子设备

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant