KR20200113995A - 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법 - Google Patents

엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법 Download PDF

Info

Publication number
KR20200113995A
KR20200113995A KR1020190035016A KR20190035016A KR20200113995A KR 20200113995 A KR20200113995 A KR 20200113995A KR 1020190035016 A KR1020190035016 A KR 1020190035016A KR 20190035016 A KR20190035016 A KR 20190035016A KR 20200113995 A KR20200113995 A KR 20200113995A
Authority
KR
South Korea
Prior art keywords
edge
service
center
learning
error
Prior art date
Application number
KR1020190035016A
Other languages
English (en)
Inventor
박병훈
Original Assignee
박병훈
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 박병훈 filed Critical 박병훈
Priority to KR1020190035016A priority Critical patent/KR20200113995A/ko
Publication of KR20200113995A publication Critical patent/KR20200113995A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/1658Data re-synchronization of a redundant component, or initial sync of replacement, additional or spare unit
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Hardware Redundancy (AREA)

Abstract

Center AI와 Edge AI 서비스간 AI 서비스 모델 배포와 동기화, 각 edge에서 학습한 AI 서비스의 Center 전송 및 이를 활용한 재학습, AI 서비스 개선에 따른 재배포 방법, AI 서비스 변경 시 상호 변경을 탐지하고 필요 시 재배포, edge 또는 Center의 AI 서비스 중단 시 즉시 복구 및 동기화 방법이 제공된다.Center AI와 각 edge AI들의 상태를 모니터링하기 위해서 AI 서비스 모듈과 독립적인 코디네이터 모듈을 각 AI 서비스와 연계한 후 각 AI 서비스의 상태는 코디네이터 모듈간 상태정보를 공유하게 된다. 이에 따라, 각 Edge 또는 Center의 상태를 실시간으로 감지할 수 있고 가장 효과적인 방법으로 서비스를 복구하여 고가용성을 보장하게 된다. 또한, 데이터 공유없이 각 edge의 AI 학습결과를 공유함으로써 지속적인 AI 서비스 개선효과를 모든 Edge에게 재배포를 통해 향상된 성능을 지속적으로 유지할 수 있도록 한다.

Description

엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법{Triple or Multiple Architecture and Method for High Availability Guarantee on Edged AI Service}
본 발명은 인공지능 서비스 분야에 관한 것으로서, 보다 상세하게는 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법에 관한 것이다.
현재 클라우드 기반 인공지능(이하 AI)서비스가 보편화 되어 있다. 클라우드는 네트워크만 연결되어 있다면 AI 서비스 이용이 가능하므로 AI 서비스에 대한 접근성을 높여주고 있다. 하지만, 클라우드 기반 AI 서비스는 다음의 제약이 존재한다.
1) 가용성 제한 : 중앙 AI 서비스 서버(Centered AI Service Server)가 정상적인 동작이 이루어지지 않으면 연결된 모든 AI 서비스 요청이 중단된다.
2) 서비스 제공의 지연 : 클라우드 기반 AI 서비스를 이용하기 위해서는 중앙 AI 서비스 서버에 접근하여 서비스 요청을 하고 이에 대한 응답을 받아야 한다. 따라서, 신속한 서비스를 받아야 하는 실시간 서비스에는 많은 제약이 따른다.
3) 중앙 AI 서비스 서버에 대한 부하량 증가 : 클라우드 내 데이터 학습데이터량의 증가와 AI 서비스 요청 증가는 필연적으로 중앙 AI 서비스 서버에 대한 부하량 증가를 가져오며 이는 지속적인 성능 개선을 필요로 한다.
4) 데이터 보안 : 중앙 AI 서비스 서버에 서비스를 요청하기 위해서는 필연적으로 특정 데이터를 전송해야 한다. 이 과정으로 인해 상당 수준의 보안이 요구되는 안보분야, 국가인프라 스트럭쳐, 민감정보를 다루는 기관들은 클라우드 기반 중앙 AI 서비스 운영은 많은 위험을 수반한다.
본 발명은 위와 같은 클라우드 기반 중앙 AI 서비스의 단점을 극복할 수 있도록 중앙 AI 서비스 서버와 엣지노드간 AI 서비스 모델은 공유하되 데이터는 공유하지 않는 엣지 컴퓨팅 기반 AI 서비스 아키텍쳐와 장애에도 불구하고 중단 없는 AI 서비스가 가능하도록 고가용성이 보장된 3중화 이상 다중화 아키텍쳐 설계와 방법에 관한 것이다.
전술한 Edge AI의 고가용성 보장을 위하여, 본 발명은 Center AI와 Edge AI 서비스 플랫폼 제작시 Center AI와 Edge AI 서비스의 고가용성을 보장하고 데이터 공유에 따른 보안위협을 회피할 수 있는 삼중화 서비스 구조와 방법을 제공하는 데 있다.
전술한 목적을 달성하기 위하여, 본 발명은 Center AI와 Edge AI 서비스간 AI 서비스 모델 배포와 동기화, 각 edge에서 학습한 AI 서비스의 Center 전송 및 이를 활용한 재학습, AI 서비스 개선에 따른 재배포 방법, AI 서비스 변경 시 상호 변경을 탐지하고 필요 시 재배포, edge 또는 Center의 AI 서비스 중단 시 즉시 복구 및 동기화 방법을 제공한다.
Center AI와 각 edge AI들의 상태를 모니터링하기 위해서 AI 서비스 모듈과 독립적인 코디네이터 모듈을 각 AI 서비스와 연계한 후 각 AI 서비스의 상태는 코디네이터 모듈간 상태정보를 공유하게 된다. 이에 따라, 각 Edge 또는 Center의 상태를 실시간으로 감지할 수 있고 가장 효과적인 방법으로 서비스를 복구하여 고가용성을 보장하게 된다. 또한, 데이터 공유없이 각 edge의 AI 학습결과를 공유함으로써 지속적인 AI 서비스 개선효과를 모든 Edge에게 재배포를 통해 향상된 성능을 지속적으로 유지할 수 있도록 한다.
본 발명에 따르면, Edge AI 서비스 시 고가용성을 극대화하여 중단 없는 AI 서비스를 제공하고, AI 서비스에 대한 학습 결과만을 공유하여 지속적인 AI 서비스 개선을 달성할 수 있으므로 데이터 공유에 따른 보안위험을 회피할 수 있다.
Edge AI는 로컬데이터를 활용한 학습을 통해 특화된 AI 서비스 제공과 개인정보 등 민감한 데이터는 Center AI로 전송되지 않으므로 보안성이 강화된다는 강점을 갖고 있다. 그러나, 상대적으로 Center AI 대비 낮은 하드웨어 사양, 클라우드 시스템 대비 안정성 저하 등의 문제를 동시에 갖고 있다. 특히, 예기치 않은 오류로 인한 가용성(Availability) 저하 상황에 대한 감지와 복원은 Edge AI 서비스 단에서 처리하기 매우 어려운 문제이다.
본 발명은 이와 같은 Edge AI의 본질적 문제점인 클라우드 대비 낮은 가용성을 3중화 이상 다중화 구조와 방법을 통해 근본적인 해결 방안을 제시한다. 이를 통해, 단일 Edge AI 뿐만 아니라 동시 두 개 이상의 Edge AI의 장애 발생 시와 Center AI의 장애에도 빠른 시간 내 서비스 복구가 가능한 강인한 Center AI ?? Edge AI 간 구조와 방법을 제시함으로써 Edge AI 서비스 이용자에게 안정적이며 중단 없는 서비스를 제공할 수 있다.
도 1은 본 발명의 Edge AI 서비스 고가용성 보장을 위한 삼중화 이상 다중화 구조에 대한 구성도이다.
도 2는 본 발명의 Edge AI 또는 Center AI 장애 발생에 따른 처리 흐름도이다.
이하 첨부한 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 본 발명의 실시예를 설명함에 있어서, 관련된 공지기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
AI 서비스를 이용하기 위해서는 AI 서비스 모델설계 → 데이터 feeding → 학습(training) → 검증(validation) → AI 서비스 배포의 단계를 거치게 된다. 동일한 AI 모델이라고 해도 어떠한 데이터로 학습했느냐에 따라 AI 서비스 결과가 달라질 수 있다. 따라서, 클라우드 기반 centered AI 서비스는 모든 서비스 노드에 동일한 서비스가 제공되지만 Edge AI는 맞춤형 AI 서비스가 제공된다는 차이가 있다.
Edge AI는 센터와 데이터 공유를 직접적으로 할 필요는 없지만 AI 모델은 센터와 Edge들간 동일해야 지속적인 AI 서비스 업데이트가 가능하며 상호간 호환성이 유지된다. 따라서, AI 모델의 배포, 관리 및 모니터링을 수행할 기술이 요구되며, 구체적으로 Edge에 서비스될 모델의 이미지 생성, 배포, 상태 모니터링 및 새로운 AI 모델에 대한 배포 업데이트 등을 수행하는 구조와 메커니즘이 필요하다.
이와 더불어, 각 Edge의 서비스가 중단되었을 경우 신속한 가용성 보장, 동시에 여러 edge의 서비스가 중단되었을 경우 신속한 가용성 보장, 최악의 경우 Center AI의 서비스가 중단되었음에도 불구하고 신속한 가용성 확보를 위한 방안이 필요하다.
도 1은 본 발명에 대한 서비스 및 아키텍쳐 구성도이다.
도시된 바와 같이, 고가용성 보장을 위한 Edge AI 서비스를 위해 Center AI(100), Edge AI #1(200), Edge AI #2(300)를 포함하여 최소 3중화 아키텍쳐가 필요하며, 그 이상의 다중화(Edge AI #N) 구조를 포함한다.
Center AI는 최초 학습모델의 생성과 클라우드 또는 Edge보다 집적된 다량의 데이터를 이용하여 학습을 수행 후 초기 AI 서비스를 생성한다. 또한, 각 Edge AI에게 학습모델을 이미지화 하여 배포하고, 학습결과인 AI 서비스는 지속적으로 각 Edge에게 배포한다. 본 모델의 핵심인 데이터 전송 없는 AI 서비스 업데이트는 각 Edge에서 제공받은 AI 학습결과를 Center AI에서 업데이트 하여 다시 각 Edge로 배포한다.
코디네이터 모듈은 각 AI 서비스 노드(Center AI, Edge AI)에 페어링 된 모듈로서 각 노드와는 물리적으로 독립된 모듈이다. 물리적으로 독립되어 각 AI 서비스의 중단과는 무관하게 그 기능을 유지한다. 코디네이터 모듈은 연계된 각 AI 서비스로부터 실시간으로 상태값(system status 정보)을 받으며 코디네이터 간 실시간으로 각 서비스의 상태를 통신하면서 상태값을 공유하게 된다. 이를 통해, 각 AI 서비스의 정상동작 상태와 AI 서비스 변경여부를 탐지하게 된다.
Edge AI는 최초 AI 학습모델을 Center AI로부터 제공받아 로컬데이터로 학습을 수행한다. 학습수행결과는 Edge AI가 제공하고자 하는 로컬서비스에 최적화된 AI 서비스가 된다. Edge AI의 학습결과는 다시 Center AI로 전송된다. 이 과정에서 Edge AI 서비스에 사용된 데이터는 전송되지 않고 학습결과만 전송하여 데이터에 대한 보안성을 확보하게 된다. 각 Edge AI의 상태는 연계된 코디네이터 모듈을 통해 모니터링 되며 각 Edge의 상태는 전술한 바와 같이 코디네이터 모듈간 실시간으로 공유된다.
도 2는 본 발명에 따른 고가용성 확보 방법 및 그 구조이다.
도시된 바와 같이, 장애 발생 사례에 따라 코디네이터 모듈에서 상태를 파악하고 이를 복구하는 과정을 표현하고 있다. 전술된 내용과 같이 각 AI 서비스 노드의 코디네이터 모듈에서 실시간으로 AI 서비스 노드 상태(status)에 대한 로그(Log)를 네트워크를 통해 실시간 공유하여 이상유무를 지속적으로 모니터링 한다.
먼저 Case1은 Edge AI #1에서 장애가 발생한 경우이다. 해당 AI 서비스 노드의 코디네이터 모듈에서 Center AI의 모듈로 비정상 상태정보를 전송한다. 모듈을 통해 전달받은 상태에 따라 Center AI에서는 보유하고 있는 최신 학습모델을 Edge AI #1로 전달하여 장애를 복구한다.
Case2는 Edge AI #1과 Center AI 둘 다 장애가 발생한 사례로, 가장 이웃한 AI (Neighborhood AI)인 Edge AI #2의 코디네이터 모듈로 비정상 상태정보가 전송된다. Edge AI #2가 가지고 있는 최신의 학습모델을 Edge AI #1, Center AI로 전달하여 장애를 복구한다.
마찬가지로 Center AI, Edge AI #1, #2까지 세 가지 AI 서비스 노드에서 장애가 발생한 경우 가장 이웃한 N번째 Edge AI의 코디네이터 모듈에서 각 AI 서비스 노드의 비정상 상태 정보를 수용하고, 보유하고 있는 최신의 학습모델을 각 AI 서비스 노드에 배포하여 장애를 복구한다.
이러한 과정을 통해 장애 발생시에도 AI 서비스의 중단 없이 빠르게 복구가 가능하여 서비스의 고가용성을 보장하고, 최신의 학습모델을 유지할 수 있다.
이상, 본 발명의 상세한 설명에서는 구체적인 실시예에 관해서 설명하였으나, 본 발명의 범위에서 벗어나지 않는 한도 내에서 여러 가지 변형이 가능함은 당해 분야에서 통상의 지식을 가진 자에게 있어서 자명하다 할 것이다.

Claims (2)

  1. 컴퓨터 프로그램으로서 인공지능 서비스를 제공하기 위한 동작들은 :
    Center AI에서 생성된 모델을 각각의 중량 Edge AI에서 배포 받아서 자체적으로 말단(Local)의 데이터를 수집하여 독립적으로 학습을 수행하는 동작 ;
    각 Edge AI 에서 수행한 학습결과를 모두 모아서 Center AI로 보내고 이를 반영하여 학습을 재수행하여 개선된 모델을 만드는 동작 ;
    Center AI의 작동 이상이나 네트워크 단절 등으로 정상적인 기능을 못 하는 경우에 Edge AI에서 자체적으로 학습을 수행하여 AI 서비스를 생성하는 동작 ;
    을 포함하는,
    삼중화 이상 다중화 구조의 엣지 인공지능 서비스 시스템.
  2. 인공지능 서비스를 제공하기 위한 컴퓨터 프로그램으로서 고가용성 보장을 위한 동작들은 :
    Center AI와 다수의 각 Edge AI에 각 시스템의 동작 상태 정보를 파악, 저장, 전송할 수 있는 독립된 코디네이터 모듈들을 설치, 연결하여 Center AI 및 각 Edge AI 시스템들의 상태를 실시간으로 확인하고 해당 정보를 저장하고 전체 시스템에 전송하여 공유하는 동작;
    다수의 Edge AI 시스템 중 1개 또는 그 이상의 Edge AI 시스템에 이상이 발생했을 경우 코디네이터 모듈이 해당 오류 정보를 Center AI의 코디네이터 모듈에 전송하고 Center AI에서 최신의 모델을 오류가 발생한 Edge AI들에 재배포하여 업데이트하는 동작;
    Center AI 시스템의 이상 작동이나 네트워크 단절 등의 오류가 발생했을 때 Edge AI 시스템들 간에 해당 오류 정보를 공유하고 Edge AI 중 이웃한 1개의 Edge AI 시스템이 Center AI 시스템의 모델 배포 기능을 이양받는 동작;
    상기 모델 배포 기능을 이양 받은 특정 Edge AI 시스템이 복구된 Center AI 시스템과 오류가 발생했던 다른 Edge AI 시스템으로 최신 모델을 전송해주는 동작;
    을 포함하는,
    고가용성 보장을 위한 삼중화 이상 다중화 구조의 엣지 인공지능 서비스.


KR1020190035016A 2019-03-27 2019-03-27 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법 KR20200113995A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020190035016A KR20200113995A (ko) 2019-03-27 2019-03-27 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190035016A KR20200113995A (ko) 2019-03-27 2019-03-27 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법

Publications (1)

Publication Number Publication Date
KR20200113995A true KR20200113995A (ko) 2020-10-07

Family

ID=72883328

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190035016A KR20200113995A (ko) 2019-03-27 2019-03-27 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법

Country Status (1)

Country Link
KR (1) KR20200113995A (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102311787B1 (ko) * 2021-01-06 2021-10-08 한전케이디엔주식회사 Ai 모델의 성능 저하 방지를 위한 ai 모델 관리 장치 및 그 방법
CN114301809A (zh) * 2021-12-31 2022-04-08 郑州云海信息技术有限公司 一种边缘计算平台架构

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102311787B1 (ko) * 2021-01-06 2021-10-08 한전케이디엔주식회사 Ai 모델의 성능 저하 방지를 위한 ai 모델 관리 장치 및 그 방법
CN114301809A (zh) * 2021-12-31 2022-04-08 郑州云海信息技术有限公司 一种边缘计算平台架构
CN114301809B (zh) * 2021-12-31 2024-02-09 郑州云海信息技术有限公司 一种边缘计算平台架构

Similar Documents

Publication Publication Date Title
KR100930576B1 (ko) 가상화 기반 고가용성 클러스터 시스템 및 고가용성클러스터 시스템에서 장애 관리 방법
GB2407887A (en) Automatically modifying fail-over configuration of back-up devices
CN111385107B (zh) 一种服务器的主备切换处理方法及装置
EP1635506A1 (en) Distributed expert system for automated problem solution in a communication system
CN104221004A (zh) 对互连失效在群集范围内的一致性检测
KR20110044858A (ko) 데이터 센터들에 걸쳐 데이터 서버들내 데이터 무결정의 유지
US20170308446A1 (en) System and method for disaster recovery of cloud applications
CN111460039A (zh) 关系型数据库处理系统、客户端、服务器及方法
CN108984320A (zh) 一种消息队列集群防脑裂方法及装置
KR101586354B1 (ko) 병렬 연결식 서버시스템의 통신 장애 복구방법
KR20200113995A (ko) 엣지 인공지능 서비스에 대한 고가용성 보장을 위한 삼중화 이상 다중화 구조 및 방법
CN107153595A (zh) 分布式数据库系统的故障检测方法及其系统
US11889244B2 (en) Passive optical network for utility infrastructure resiliency
CN107071189B (zh) 一种通讯设备物理接口的连接方法
US6954884B2 (en) System and method for effecting recovery of a network
CN105471746A (zh) 中继系统以及交换装置
CN114328033A (zh) 保持高可用设备组业务配置一致性的方法及装置
CN113794765A (zh) 基于文件传输的网闸负载均衡方法及装置
JP5176231B2 (ja) 計算機システム、計算機制御方法及び計算機制御プログラム
KR101255446B1 (ko) 원격 장치 감시 시스템 및 감시 방법
CN110675614A (zh) 一种电力监控数据的传输方法
Pashkov et al. On high availability distributed control plane for software-defined networks
KR100832543B1 (ko) 계층적 다중 백업 구조를 갖는 고가용성 클러스터 시스템및 이를 이용한 고가용성 구현 방법
CN114301763A (zh) 分布式集群故障的处理方法及系统、电子设备及存储介质
US20060023627A1 (en) Computing system redundancy and fault tolerance

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E601 Decision to refuse application