KR102365839B1

KR102365839B1 - 애플리케이션 성능 모니터링 방법 및 장치

Info

Publication number: KR102365839B1
Application number: KR1020200101005A
Authority: KR
Inventors: 유명식; 당꽝녓밍; 당꽝?퓜?
Original assignee: 숭실대학교산학협력단
Priority date: 2020-08-12
Filing date: 2020-08-12
Publication date: 2022-02-21
Also published as: KR102365839B9

Abstract

본 발명은 애플리케이션 성능 모니터링 방법 및 장치를 개시한다. 본 발명에 따르면 쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 방법으로서, 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 메트릭 값을 수신하여 시계열 데이터베이스에 저장하는 단계; 이상 리소스 감지부가 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 상기 시계열 데이터베이스에 저장된 메트릭 값을 비교하여 리소스의 이상 여부를 감지하는 단계; 알람 매니저 서비스가 상기 메트릭 값의 비교 결과에 따라 알람 발생 여부를 결정하는 단계; 및 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하는 단계를 포함하는 애플리케이션 성능 모니터링 방법이 제공된다.

Description

애플리케이션 성능 모니터링 방법 및 장치{Method and device for monitoring application performance}

본 발명은 애플리케이션 성능 모니터링 방법 및 장치에 관한 것이다.

쿠버네티스(kubernetes)는 컨테이너화된 워크로드와 서비스를 관리하기 위한 이식성이 있고, 확장가능한 오픈소스 플랫폼이다.

과거 애플리케이션을 하나의 물리서버에서 실행하였으나, 근래에는 가상화 기술을 이용하여 단일 물리서버의 CPU에서 여러 가상머신(VM)을 실행할 수 있게 되었다.

이러한 가상화를 사용하면 VM 간의 애플리케이션을 격리하고 애플리케이션의 정보를 다른 애플리케이션에서 자유롭게 액세스할 수 있으므로 일정 수준의 보안성을 제공할 수 있다.

또한, 가상화를 사용하면 물리서버에서 리소스를 보다 효율적으로 활용할 수 있으며 애플리케이션을 추가하거나 업데이트 할 수 있고 하드웨어의 물리적 비용을 절감할 수 있어 더 나은 확장성을 제공한다.

가상화를 통해 일련의 물리 리소스를 폐기 가능한(disposable) 가상머신으로 구성된 클러스터로 만들 수 있다.

컨테이너는 VM과 유사하지만 격리 속성을 완화하여 애플리케이션 간에 운영체제(OS)를 공유한다.

VM과 마찬가지로 컨테이너에는 자체 파일 시스템, CPU, 메모리, 프로세스 공간 등이 있다. 기본 인프라와의 종속성을 끊었기 때문에, 클라우드나 OS 배포본에 모두 이식할 수 있다.

컨테이너 환경에서 쿠버네티스는 분산 시스템을 탄력적으로 실행하기 위한 프레임워크를 제공한다. 애플리케이션의 확장과 장애 조치를 처리하고, 배포 패턴 등을 제공한다.

기존 쿠버네티스 시스템에서 HPA(Horizontal Pod Autoscaler)는 워크로드의 강도나 애플리케이션이 동작하는 상태라 하더라도 원하는 평균 CPU 사용률(단일 차원 및 인프라 수준)을 근접하게 유지하기 위해 포드(pod) 수를 늘리거나 줄일 수 있다.

기존 AWS EC2(Amazon Elastic Compute Cloud) 시스템에서는 CPU 사용률과 같은 미리 정의된 목표 메트릭 값 "인프라 레벨" 또는 애플리케이션 처리량 같은 "애플리케이션 레벨"을 자동 스케일링 작업(단일차원, 인프라 수준 또는 애플리케이션 수준)을 고려하도록 설정해야 하며, TTS는 지정된 메트릭 값을 대상 메트릭 값에 가깝게 유지하기 위해 인스턴스를 추가하거나 제거한다.

그러나, 애플리케이션 성능 모니터링에 대한 기존 방식은 장애가 발생하는 것을 미리 예측하지 못하는 문제점이 있다.

미국등록특허 10,649,756

상기한 종래기술의 문제점을 해결하기 위해, 본 발명은 문제에 미리 대응할 수 있는 애플리케이션 성능 모니터링 방법 및 장치를 제안하고자 한다.

상기한 바와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따르면, 쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 방법으로서, 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 메트릭 값을 수신하여 시계열 데이터베이스에 저장하는 단계; 이상 리소스 감지부가 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 상기 시계열 데이터베이스에 저장된 메트릭 값을 비교하여 리소스의 이상 여부를 감지하는 단계; 알람 매니저 서비스가 상기 메트릭 값의 비교 결과에 따라 알람 발생 여부를 결정하는 단계; 및 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하는 단계를 포함하는 애플리케이션 성능 모니터링 방법이 제공된다.

상기 메트릭 값은 쿠버네티스 클러스터 워커 노드의 CPU 사용률, 메모리 사용량, 디스크의 I/O를 포함하는 인프라 레벨 및 애플리케이션 처리량에 대한 애플리케이션 레벨에 관한 정보를 포함할 수 있다.

상기 모델은 계층적 시간 메모리 알고리즘인 Numenta Platform for Intelligent Computing(NuPIC)을 이용하여 이전에 수집한 계절성의 히스토리 데이터를 이용하여 미리 학습될 수 있다.

상기 스케일링 동작은 상기 컨테이너를 초기화하거나 종료하여 프로비저닝을 위한 리소스를 계산하는 동작을 포함할 수 있다.

본 발명의 다른 측면에 따르면, 쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 장치로서, 프로세서; 및 상기 프로세서에 연결되는 메모리를 포함하되, 상기 메모리는, 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 수신하여 시계열 데이터베이스에 저장된 메트릭 값을 비교하고, 상기 비교에 따라 이상 스코어 및 이상 가능 스코어를 출력하도록, 상기 프로세서에 의해 실행되는 프로그램 명령어들을 포함하되, 상기 메트릭 값의 비교 결과에 따라 알람 매니저 서비스가 알람 발생 여부를 결정하고, 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하는, 애플리케이션 성능 모니터링 장치가 제공된다.

본 발명의 또 다른 측면에 따르면, 쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 방법으로서, 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 수신하여 시계열 데이터베이스에 저장된 메트릭 값을 비교하는 단계; 및 상기 비교에 따라 이상 스코어 및 이상 가능 스코어를 출력하는 단계를 포함하되, 상기 메트릭 값의 비교 결과에 따라 알람 매니저 서비스가 알람 발생 여부를 결정하고, 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하는, 애플리케이션 성능 모니터링 방법이 제공된다.

본 발명의 또 다른 측면에 따르면, 상기한 방법을 수행하는 컴퓨터 판독 가능한 프로그램이 제공된다.

본 발명에 따르면, 기계학습을 통해 구축된 모델을 통해 이상 상황을 미리 예측할 수 있는 장점이 있다.

도 1은 본 발명의 일 실시예에 따른 쿠버네티스 분산 시스템의 구성을 도시한 도면이다.
도 2는 본 실시예에 따른 이상 감지 과정에 대한 흐름도이다.
도 3은 본 발명의 일 실시예에 따른 이상 리소스 감지부의 구성을 도시한 도면이다.

본 발명은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세하게 설명하고자 한다.

그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

도 1은 본 발명의 일 실시예에 따른 쿠버네티스 분산 시스템의 구성을 도시한 도면이다.

도 1을 참조하면, 본 실시예에 따른 시스템은, 애플리케이션 메트릭 수집부(Application metrics collector, 100), 로드 밸런서(Load balancer 102), 클러스터(Cluster, 104), 모니터 서버(Monitor Server, 106), 이상 리소스 감지부(Abnormaly Resource Detection, 108), 시계열 데이터베이스(Time Series Database, 110), 알람 매니저 서비스(Alert Manager Service, 112) 및 어댑션 매니저 서비스(Adaption Manager Service, 114)를 포함할 수 있다.

애플리케이션 메트릭 수집부(100)는 쿠버네티스 클러스터에서 실행되는 애플리케이션의 메트릭 값을 수집하며, 여기서, 메트릭 값을 로드 밸런서(102)로부터 수집된다.

로드 밸런서(102)는 클러스터 내의 포드들의 부하가 분산되도록 하며, 디폴트 알고리즘은 포드 간 랜덤하게 부하를 분산되도록 한다.

클러스터(104)는 컨테이너화된 애플리케이션을 실행하는 노드 머신으로, 클러스터의 상태는 실행할 애플리케이션, 워크로드, 사용하는 이미지 및 사용할 수 있는 리소스와 같은 세부 구성을 정의한다.

이러한 클러스터(104)의 상태는 쿠버네티스 API로 정의되며, 이러한 정의는 커맨드라인에서 또는 API를 사용하여 클러스터와 상호 작용을 원하는 상태를 설정하거나 수정할 수 있다.

클러스터(104) 내의 컨테이너화된 애플리케이션을 실행하는 복수의 노드(Container 1, 2, 3)가 리소스에 관한 메트릭 값을 모니터 서버(106)로 전송한다.

또한 클러스터(104) 내에는 노드 메트릭 수집부(120)가 포함되며, 노드 메트릭 수집부(120)로 수집된 메트릭 값을 모니터 서버(106)로 전송한다.

모니터 서버(106)가 수신하는 메트릭 값은, 쿠버네티스 클러스터 워커 노드의 CPU 사용률, 메모리 사용량, 디스크의 I/O를 포함하는 인프라 레벨 및 애플리케이션 처리량에 대한 애플리케이션 레벨에 관한 정보를 포함할 수 있다.

모니터 서버(106)는 수신된 메트릭 값이 시계열 데이터베이스(110)에 저장되도록 한다.

시계열 데이터(time seires data)는 시간에 따른 일련의 값으로 구성되며, 미래에 합리적으로 기대할 수 있는 것에 대한 교육적인 추축을 하는데 필요한 정보를 포함한다.

본 실시예에 따른 시계열 데이터는 메트릭이 캡쳐된 타임 스탬프 및 당시 해당 메트릭과 관련된 값을 포함한다.

이상 리소스 감지부(108)는 대부분의 데이터와 크게 다른 것으로 의심되는 아이템, 이벤트와 같은 런타임 이상을 감지한다.

이상 리소스 감지부(108)는 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 상기 시계열 데이터베이스에 저장된 메트릭 값을 비교하여 리소스의 이상 여부를 감지한다.

여기서, 이상 여부 감지를 위한 모델은, 계층적 시간 메모리 알고리즘인 Numenta Platform for Intelligent Computing(NuPIC)을 이용하여 이전에 수집한 계절성의 히스토리 데이터를 이용하여 미리 학습할 수 있다.

본 실시예에 따른 이상 리소스 감지부(108)는 메트릭 값를 비교하여 이상 스코어(Anormaly score) 및 이상 가능성 스코어(Anormaly likelihood score)를 출력한다.

알람 매니저 서비스(112)는 이상 리소스 감지부(108)의 메트릭 값의 비교 결과에 따라 알람 발생 여부를 결정하고, 트리거 알람을 어댑션 매니저 서비스(114)로 전송한다.

어댑션 매니저 서비스(114)는 알람 매니저 서비스(112)로부터 제공된 알람 또는 이상 리소스 감지부(108)의 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행한다.

여기서, 스케일링 동작은 컨테이너를 초기화하거나 종료하여 프로비저닝을 위한 리소스를 계산하는 동작일 수 있다.

본 실시예에 따르면, 이상 리소스 행동(CPU의 리소스 급증과 같은) 감지하고, 예정된 행동(scheduled action)를 준비하기 위해 가까운 미래에 시스템에 들어오는 이상 행동을 예측하기 위해 이력 데이터(history data) 학습을 위해 비감독(unsupervised) 런타임 이상 감지를 사용한다.

또한, 인프라 레벨(CPU 사용률, 디스크 I/O 및 메모리 사용)과 애플리케이션 레벨(애플리케이션 처리량)을 결합하여 다차원 리소스 값을 사용한다.

도 2는 본 실시예에 따른 이상 감지 과정에 대한 흐름도이다.

도 2를 참조하면 먼저 시스템은 클러스터의 컨테이너로부터의 메트릭 값 및 로드 밸런서로부터의 애플리케이션 처리량에 대한 메트릭 값을 수집한다(단계 200).

단계 200에서 수집된 메트릭 값은 시계열 데이터베이스(110)에 저장된다.

다음으로 시계열 데이터베이스(110)에 저장된 메트릭 값을 통한 모델 학습을 수행한다(단계 202).

본 실시예에 따르면, Numenta Platform for Intelligent Computing - NuPIC)을 이용하여 이상 리소스 감지를 위한 모델을 학습하며, 여기서, NuPIC는 이상 감지를 위해 계층적 시간 메모리 알고리즘으로 구현된다.

단계 202에서, 기계학습은 이전 단계에서 수집한 히스토리 데이터를 이용하여 이루어진다.

시스템은 실시간 메트릭 값과, 단계 202에서 학습된 모델에서 예측된 값을 비교하고(단계 204), 이상이 발생하는 경우 알람을 트리거한다(단계 206).

단계 206에서 생성된 알람에 따라 스케일링 동작을 수행한다(단계 208).

본 실시예에 따르면, 스케일링 동작은 단계 206에서 생성된 알람뿐만 아니라, 본 실시예에 따른 모델에서 예측된 이상 동작에 의해서도 수행될 수 있다.

여기서, 스케일링 동작은 컨테이너를 초기화하거나 종료하여 프로비저닝을 위한 리소스를 계산하는 동작을 포함한다.

도 3은 본 발명의 일 실시예에 따른 이상 리소스 감지부의 구성을 도시한 도면이다.

도 3을 참조하면, 본 실시예에 따른 이상 리소스 감지부는 프로세서(300) 및 메모리(302)를 포함할 수 있다.

프로세서(300)는 컴퓨터 프로그램을 실행할 수 있는 CPU(central processing unit)나 그밖에 가상 머신 등을 포함할 수 있다.

메모리(302)는 고정식 하드 드라이브나 착탈식 저장 장치와 같은 불휘발성 저장 장치를 포함할 수 있다. 착탈식 저장 장치는 컴팩트 플래시 유닛, USB 메모리 스틱 등을 포함할 수 있다. 메모리(202)는 각종 랜덤 액세스 메모리와 같은 휘발성 메모리도 포함할 수 있다.

이와 같은 메모리(302)에는 프로세서(300)에 의해 실행 가능한 프로그램 명령어들이 저장된다.

본 발명의 일 실시예에 따른 프로그램 명령어들은, 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 수신하여 시계열 데이터베이스에 저장된 메트릭 값을 비교하고, 상기 비교에 따라 이상 스코어 및 이상 가능 스코어를 출력한다.

상기한 메트릭 값의 비교 결과에 따라 알람 매니저 서비스가 알람 발생 여부를 결정하고, 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행한다.

상기한 본 발명의 실시예는 예시의 목적을 위해 개시된 것이고, 본 발명에 대한 통상의 지식을 가지는 당업자라면 본 발명의 사상과 범위 안에서 다양한 수정, 변경, 부가가 가능할 것이며, 이러한 수정, 변경 및 부가는 하기의 특허청구범위에 속하는 것으로 보아야 할 것이다.

Claims

쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 방법으로서,
모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 메트릭 값을 수신하여 시계열 데이터베이스에 저장하는 단계;
이상 리소스 감지부가 기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 상기 시계열 데이터베이스에 저장된 메트릭 값을 비교하여 리소스의 이상 여부를 감지하는 단계;
알람 매니저 서비스가 상기 메트릭 값의 비교 결과에 따라 알람 발생 여부를 결정하는 단계; 및
어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하는 단계를 포함하되,
상기 쿠버네티스 클러스터의 상태는 쿠버네티스 API를 통해 실행할 애플리케이션, 워크로드, 사용하는 이미지 및 사용할 수 있는 리소스와 같은 세부 구성으로 정의되고,
상기 모니터 서버는 상기 쿠버네티스 클러스터의 컨테이너화된 애플리케이션을 실행하는 복수의 노드로부터 리소스에 관한 메트릭 값을 수신하고,
상기 메트릭 값은 메트릭이 캡쳐된 타임 스탬프 및 당시 해당 메트릭과 관련된 값을 포함하는 시계열 데이터이고,
상기 모델은 계층적 시간 메모리 알고리즘인 Numenta Platform for Intelligent Computing(NuPIC)을 이용하여 이전에 수집한 계절성의 히스토리 데이터를 이용하여 미리 학습되는 애플리케이션 성능 모니터링 방법.
제1항에 있어서,
상기 메트릭 값은 쿠버네티스 클러스터 워커 노드의 CPU 사용률, 메모리 사용량, 디스크의 I/O를 포함하는 인프라 레벨 및 애플리케이션 처리량에 대한 애플리케이션 레벨에 관한 정보를 포함하는 애플리케이션 성능 모니터링 방법.
삭제
제1항에 있어서,
상기 스케일링 동작은 컨테이너를 초기화하거나 종료하여 프로비저닝을 위한 리소스를 계산하는 동작을 포함하는 애플리케이션 성능 모니터링 방법.
쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 장치로서,
프로세서; 및
상기 프로세서에 연결되는 메모리를 포함하되,
상기 메모리는,
기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 수신하여 시계열 데이터베이스에 저장된 메트릭 값을 비교하고,
상기 비교에 따라 이상 스코어 및 이상 가능 스코어를 출력하도록,
상기 프로세서에 의해 실행되는 프로그램 명령어들을 포함하되,
상기 메트릭 값의 비교 결과에 따라 알람 매니저 서비스가 알람 발생 여부를 결정하고, 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하되,
상기 쿠버네티스 클러스터의 상태는 쿠버네티스 API를 통해 실행할 애플리케이션, 워크로드, 사용하는 이미지 및 사용할 수 있는 리소스와 같은 세부 구성으로 정의되고,
상기 모니터 서버는 상기 쿠버네티스 클러스터의 컨테이너화된 애플리케이션을 실행하는 복수의 노드로부터 리소스에 관한 메트릭 값을 수신하고,
상기 메트릭 값은 메트릭이 캡쳐된 타임 스탬프 및 당시 해당 메트릭과 관련된 값을 포함하는 시계열 데이터이고,
상기 모델은 계층적 시간 메모리 알고리즘인 Numenta Platform for Intelligent Computing(NuPIC)을 이용하여 이전에 수집한 계절성의 히스토리 데이터를 이용하여 미리 학습되는, 애플리케이션 성능 모니터링 장치.
제5항에 있어서,
상기 메트릭 값은 쿠버네티스 클러스터 워커 노드의 CPU 사용률, 메모리 사용량, 디스크의 I/O를 포함하는 인프라 레벨 및 애플리케이션 처리량에 대한 애플리케이션 레벨에 관한 정보를 포함하는 애플리케이션 성능 모니터링 장치.
삭제
쿠버네티스 환경에서 애플리케이션 성능을 모니터링하는 방법으로서,
기계학습을 통해 미리 학습된 모델을 기반으로 계산된 메트릭 값과 모니터 서버가 쿠버네티스 클러스터 및 로드 밸런서로부터 수신하여 시계열 데이터베이스에 저장된 메트릭 값을 비교하는 단계; 및
상기 비교에 따라 이상 스코어 및 이상 가능 스코어를 출력하는 단계를 포함하되,
상기 메트릭 값의 비교 결과에 따라 알람 매니저 서비스가 알람 발생 여부를 결정하고, 어댑션 매니저 서비스가 알람 매니저 서비스로부터 제공된 알람 또는 상기 모델에 의해 예측되는 이상 동작에 따라 스케일링 동작을 수행하되,
상기 쿠버네티스 클러스터의 상태는 쿠버네티스 API를 통해 실행할 애플리케이션, 워크로드, 사용하는 이미지 및 사용할 수 있는 리소스와 같은 세부 구성으로 정의되고,
상기 모니터 서버는 상기 쿠버네티스 클러스터의 컨테이너화된 애플리케이션을 실행하는 복수의 노드로부터 리소스에 관한 메트릭 값을 수신하고,
상기 메트릭 값은 메트릭이 캡쳐된 타임 스탬프 및 당시 해당 메트릭과 관련된 값을 포함하는 시계열 데이터이고,
상기 모델은 계층적 시간 메모리 알고리즘인 Numenta Platform for Intelligent Computing(NuPIC)을 이용하여 이전에 수집한 계절성의 히스토리 데이터를 이용하여 미리 학습되는, 애플리케이션 성능 모니터링 방법.
제8항에 따른 방법을 수행하는 프로그램이 저장된 컴퓨터 판독 가능한 기록매체.