WO2023090784A1

WO2023090784A1 - 단일 엔드포인트를 이용한 ai 모델 운영 장치 및 방법

Info

Publication number: WO2023090784A1
Application number: PCT/KR2022/017879
Authority: WO
Inventors: 서창수; 정희석; 송환혁; 정주영
Original assignee: 에스케이 주식회사
Priority date: 2021-11-19
Filing date: 2022-11-14
Publication date: 2023-05-25
Also published as: KR102663094B1; KR20230073611A

Abstract

본 발명은 단일 엔드포인트를 이용한 AI 모델 운영 장치 및 방법에 관한 것으로, 특히, 배포된 AI 모델이 사용하는 리소스(resource)가 확장되더라도 시스템 상 추가적인 조치없이 하나의 URL을 통해 AI 모델에 접근할 수 있는 AI 모델 운영 장치 및 방법에 관한 것이다. 본 발명의 일 실시예에 따른 AI 모델 운영 장치는, 단일 엔드포인트를 이용한 AI 모델 운영 장치로서, 모델 빌드 API, 모델 배포 API 및 모델 예측 API를 관리하는 API 관리부, 상기 모델 배포 API를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API에 담긴 정보에 따라 포드를 생성하고 리소스를 할당 시키는 컨트롤 플레인, 상기 모델 예측 API를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 포드에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키는 인그레스 게이트웨이, 및 상기 모델 배포 API가 지정하는 모델 서버의 사양에 따라 생성되며, 상기 모델 예측 API의 요청에 따라 특정 AI 모델을 호출하여 구동시키는 포드를 포함한다.

Description

단일 엔드포인트를 이용한 AI 모델 운영 장치 및 방법

본 발명은 단일 엔드포인트를 이용한 AI 모델 운영 장치 및 방법에 관한 것으로, 특히, 배포된 AI 모델이 사용하는 리소스(resource)가 확장되더라도 시스템 상 추가적인 조치없이 하나의 URL을 통해 AI 모델에 접근할 수 있는 AI 모델 운영 장치 및 방법에 관한 것이다.

AI(Artificial Intelligence) 모델은 다양한 언어, 데이터, 라이브러리를 이용하여 개발되며, 개발된 AI 모델을 여러 사용 환경에 적합하게 배포하고, 구동시키는데 많은 제약이 따른다.

AI 모델 구축을 위해서는 AI 알고리즘을 해석하고, 방대한 데이터를 정밀하게 다루기 위해 고도의 수학적 지식 등이 요구되므로, 숙련된 AI 전문가 확보가 필요하다.

이에 최적의 모델링 기법을 선정하기 위한 반복 실험 단계를 제거해 데이터 전처리만 거치면, 모델을 즉시 최적화 및 배포할 수 있도록 지원하는 자동화된 머신러닝 모델 개발 프로세스가 연구되고 있다.

AI 모델의 배포는 클라우드(cloud) 또는 온-프레미스(On-premises) 환경에서 이루어질 수 있으며, AI 플랫폼에서 하나의 모델 리소스에는 여러 버전의 모델이 있을 수 있다.

배포된 AI 모델에 예측 요청 시, AI 모델이 사용하는 리소스가 변경되면 해당 AI 모델을 구동시키기 위해 별도의 코딩 및 명령어 입력이 요구된다.

따라서, 배포된 AI 모델이 사용하는 리소스가 변경되더라도, 시스템 상 별도의 추가적인 조치 없이 사용자가 해당 AI 모델에 용이하게 접근할 수 있는 방안에 대한 개발이 필요하다.

본 발명은 상기한 사정을 감안하여 창출된 것으로서, 본 발명의 목적은 AI 모델을 구동시키는 모델 서버의 사양(specification)을 모델 배포 API로 설정하고, 모델 서버의 리소스 사용량에 따라 운용되는 모델 서버의 개수를 조정함으로써, 배포된 AI 모델이 사용하는 리소스의 변경, 확장이 발생하더라도 단일의 모델 예측 API를 통해 해당 AI 모델을 구동시킬 수 있는 AI 모델 운영 장치 및 방법을 제공하는데 있다.

본 발명의 일 실시예에 따른 AI 모델 운영 장치는, 단일 엔드포인트를 이용한 AI 모델 운영 장치로서, 모델 빌드 API, 모델 배포 API 및 모델 예측 API를 관리하는 API 관리부, 상기 모델 배포 API를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API에 담긴 정보에 따라 포드를 생성하고 리소스를 할당 시키는 컨트롤 플레인, 상기 모델 예측 API를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 포드에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키는 인그레스 게이트웨이, 및 상기 모델 배포 API가 지정하는 모델 서버의 사양에 따라 생성되며, 상기 모델 예측 API의 요청에 따라 특정 AI 모델을 호출하여 구동시키는 포드를 포함한다.

일 실시예에서, 상기 포드는, 상기 모델 예측 API의 요청에 따른 AI 모델 서비스가 제공되도록 라우팅 하는 Envoy 서버, 및 상기 모델 배포 API에 설정된 레플리카 정보에 따라 운용되는 개수가 조정되며, 특정 AI 모델을 호출하여 구동시키는 모델 서버를 포함할 수 있다.

일 실시예에서, 상기 인그레스 게이트웨이는, 상기 AI 모델을 구동시키는 모델 서버에서 점유한 리소스 사용량과 모델 서버의 실행 상태를 모니터링 하는 서버 모니터링부, 상기 모델 서버의 리소스 사용량 및 모델 서버의 실행 상태에 따라 포드의 생성 및 폐쇄를 제어하는 포드 제어부, 및 상기 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 각각의 포드로 복수의 사용 요청을 분배시키는 예측 요청 할당부를 포함할 수 있다.

일 실시예에서, 상기 API 관리부는, 상기 모델 배포 API의 배포 URL과 상기 모델 예측 API의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 하는 URL 매칭부를 포함할 수 있다.

일 실시예에서, 상기 모델 배포 API는, 상기 AI 모델에 할당되는 배포 리소스의 범위 및 상기 AI 모델을 구동시키는 모델 서버의 복제 개수를 나타내는 레플리카를 설정할 수 있다.

일 실시예에서, 상기 모델 배포 API는, 상기 레플리카 단위로 운용되는 모델 서버의 최소 또는 최대 개수를 설정할 수 있다.

본 발명의 일 실시예에 따른 AI 모델 운영 방법은, 단일 엔드포인트를 이용한 AI 모델 운영 방법으로서, (a) 모델 빌드 API를 통해 생성된 AI 모델을 모델 배포 API를 통해 배포 요청하는 단계, (b) 상기 모델 배포 API를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API에 담긴 정보에 따라 포드를 생성하고 리소스를 할당 시키는 단계, (c) 모델 예측 API를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 상기 포드에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키는 단계, 및 (d) 상기 모델 예측 API의 요청에 따라 상기 포드에서 특정 AI 모델을 호출하여 구동시키는 단계를 포함한다.

일 실시예에서, 상기 (d) 단계는, 상기 모델 예측 API의 요청에 따라 AI 모델 서비스가 제공되도록 Envoy 서버가 라우팅 하는 단계, 및 상기 모델 배포 API에 설정된 레플리카 정보에 따라 운용되는 개수가 조정되는 모델 서버가 특정 AI 모델을 호출하여 구동시키는 단계를 포함할 수 있다.

일 실시예에서, 상기 (c) 단계는, 상기 AI 모델을 구동하는 모델 서버에서 점유한 리소스 사용량과 모델 서버의 실행 상태를 서버 모니터링부가 모니터링 하는 단계, 상기 모델 서버의 리소스 사용량 및 모델 서버의 실행 상태에 따라 포드 제어부가 포드의 생성 및 폐쇄를 제어하는 단계, 및 상기 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 예측 요청 할당부가 각각의 포드로 복수의 사용 요청을 분배시키는 단계를 포함할 수 있다.

일 실시예에서, 상기 (b) 단계와 (c) 단계 사이에, 상기 모델 배포 API의 배포 URL과 상기 모델 예측 API의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 하는 단계를 포함할 수 있다.

본 발명에 따른 AI 모델 운영 장치 및 방법은, 외부 요청에 따라 AI 모델이 사용하는 리소스의 크기가 변경되어 복수의 모델 서버가 구동되더라도 단일의 URL을 통해 AI 모델에 접근할 수 있으므로, AI 모델의 구동에 딜레이가 발생하지 않으면서 편리하게 사용할 수 있는 효과가 있다.

또한, 본 발명에 따른 AI 모델 운영 장치 및 방법은, AI 모델의 배포 URL과 예측 요청 URL을 상호 연동시켜서, AI 모델 구동에 관한 설정 변경 사항을 즉각적으로 반영할 수 있는 효과가 있다.

또한, 본 발명에 따른 AI 모델 운영 장치 및 방법은, AI 모델을 구동 시키는 복수의 모델 서버 중 일부에 에러가 발생하더라도 정상 작동하는 다른 모델 서버를 통해 서비스를 제공함으로써 AI 모델을 안정적으로 운영할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 AI 모델 운영 장치가 적용된 AI 모델 구동 환경에서 AI 모델의 생성 및 배포를 도시하는 도면이다.

도 2는 본 발명의 일 실시예에 따른 AI 모델 운영 장치가 적용된 AI 모델 구동 환경에서 AI 모델 사용 요청을 도시하는 도면이다.

도 3은 도 2의 인그레스 게이트웨이의 구성을 도시하는 블록도이다.

도 4는 본 발명의 일 실시예에 따른 AI 모델 운영 방법을 도시하는 순서도이다.

이하에서는, 본 발명의 일 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

도 1을 참조하면, 본 발명의 AI 모델 운영 장치(10)는 API(Application　Programming　Interface) 관리부(100), 컨트롤 플레인(Control Plane, 200), 인그레스 게이트웨이(Ingress Gateway, 300) 및 포드(POD, 400)를 포함한다. 본 발명의 AI 모델 운영 장치(10)는, 예를 들어, 쿠버네티스 클러스터 환경에서 구동될 수 있으며, 이에 제한되지 않는다.

API 관리부(100)는 각각 AI 모델에 대한 빌드, 배포 및 예측 요청을 위한 모델 빌드 API(120), 모델 배포 API(140) 및 모델 예측 API(160)를 관리할 수 있다.

모델 빌드 API(120)는 DB 관리 시스템(30)과 통신할 때 사용되는 언어나 메시지 형식을 가지며, AI 모델을 생성하고자 하는 사용자가 DB 관리 시스템(30)에 접속하고자 하는 경우 사용된다.

DB 관리 시스템(30)은 Data 저장부(32), Model 저장부(34) 및 History 관리부(36)를 포함할 수 있으며, 사용자(20)는 모델 빌드 API(120)를 통해 DB 관리 시스템(30)에 접속하여, 학습된 AI 모델의 등록 뿐만 아니라 기존의 AI 모델의 생성에 사용된 데이터, AI 모델의 예측 결과, AI 모델의 구동 모니터링 결과 등의 정보가 저장된 History를 확인할 수 있다.

사용자(20)는 웹 상에 구현된 유저 인터페이스를 통해 AI 모델의 등록을 실행할 수 있다. AI 모델은 AI 알고리즘을 적용하여 미리 학습이 실행된 모델이 될 수 있으며, 사용자는 Tensorflow, PyTorch, Scikit-Learn, XGBoost, Triton 5 등의 상용화 된 머신 러닝 엔진을 AI 모델에 적용하도록 설정할 수 있다.

DB 관리 시스템(30)의 MODEL 저장부(34)에는 복수의 AI 모델의 버전별 정보가 저장되어 관리될 수 있다.

사용자(20)는 AI 모델을 학습시킨 결과로 생성된 weight 파일, 등록된 AI 모델에 추론을 실행하기 위한 사용자 코드, 및 AI 모델의 분석을 위해 학습에 사용된 데이터를 모델 빌드 API(120)를 통해 DB 관리 시스템(30)으로 전송할 수 있다.

AI 모델은 AI 알고리즘을 구성하는 여러 레이어(layer)별로 연산 실행, 가중치 적용 및 출력을 통해 학습을 완료하며, 학습이 완성된 Weight 파일이 생성된다.

사용자 코드는 입력 데이터와 AI 모델의 결합을 검증하는 용도로 사용되는 파일이다. 즉, 사용자 코드는 등록된 AI 모델이 학습 데이터에 기반하여 적합하게 생성된 모델인지 검증한다.

AI 모델의 분석을 위해 학습에 사용된 데이터는 모델 빌드 API(120)를 통해 DB 관리 시스템(30)으로 전송되어 Data 저장부(32)에 저장될 수 있다. AI 모델의 추론 결과를 모니터링 하고, 학습에 사용된 데이터의 이상 유무를 추후 확인하기 위해 학습 데이터는 Data 저장부(32)에 저장된다.

모델 배포 API(140)는 DB 관리 시스템(30)의 Model 저장부(34)에 등록된 AI 모델을 머신 러닝을 실행하고자 하는 사용 환경에 적용시킨다. 사용 환경은 클라우드(cloud) 또는 온-프레미스(On-premises) 환경이 될 수 있다.

모델 배포 API(140)는 네트워크 상에서 리소스의 위치를 나타내는 배포 URL(Uniform Resource Locator)을 포함한다. 모델 배포 API(140)는 AI 모델을 구동시키는 모델 서버(440)를 운용하기 위한 정보를 설정하며, AI 모델의 서빙(serving) 요청에 일시에 응답 가능한 수치를 나타내는 Concurrency(동시성), AI 모델에 할당되는 배포 리소스의 범위, AI 모델을 구동시키는 모델 서버(440)의 복제 개수를 나타내는 레플리카(replica), 또는 AI 모델이 사용하는 GPU의 리소스 할당량을 설정할 수 있다.

레플리카는 AI 모델을 서빙하는 쿠버네티스(Kubernetes) 클러스터 환경에서 설정될 수 있으며, 외부 사용 요청이 많거나 AI 모델의 성능이 많이 필요할 때 사용된다. 레플리카는 AI 모델을 안정적으로 운영하기 위한 수단이며, AI 모델을 운영 중인 쿠버네티스 클러스터의 여러 포드(POD) 중 일부의 포드가 비정상 종료가 되더라도 다른 포드가 전체 시스템에 영향이 없도록 AI 모델의 서비스를 계속해서 운영하면서 비정상 종료된 포드의 복구를 시도하도록 하는 시스템 도구이다. 설정된 레플리카의 개수 만큼 배포 리소스가 더 많이 점유되어 사용된다.

모델 배포 API(140)는 레플리카 정보를 포함하여, AI 모델을 구동시키는 모델 서버(440)의 최소 또는 최대 개수를 지정할 수 있다. 모델 서빙 시 할당된 모델 배포 자원 내에서 최대 개수의 레플리카가 실행될 수 있다.

레플리카의 최소 개수가 설정되면, 모델 서빙 시 레플리카의 최소 개수만큼 모델 서버(440)가 바로 복제되어 운용되며, 모델 서빙 상태(요청 증가)에 따라 레플리카의 최대 개수만큼 모델 서버(440)가 복제되었다가 사용 요청이 소강 상태가 되면, 다시 최소 개수의 레플리카가 적용되어 모델 서버(440)가 운용된다.

예를 들어, 레플리카가 최대 3으로 설정되면, 포드(400)의 개수가 최대 3개까지 생성될 수 있으며, 포드(400) 내에 포함된 컨테이너인 모델 서버(440)도 최대 3개까지 운용될 수 있다. 이 경우, AI 모델의 사용 요청이 적은 상태에서는 1개의 포드(400)만 운용되다가 AI 모델의 사용 요청이 많아지면 최대 3개의 포드(400)까지 생성되어 탄력적으로 운용될 수 있다.

컨트롤 플레인(200)은 모델 배포 API(140)를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API(140)에 담긴 정보에 따라 포드(400)를 생성하고 리소스를 할당 시킨다.

컨트롤 플레인(200)은 API 서버, 스케줄러, 컨트롤러 매니저 및 etcd를 포함할 수 있다. API 서버는 클러스터 내 모든 구성요소가 다른 구성요소와 통신하기 위해 필요하며, API 서버는 클러스터와 관련된 다양한 REST API를 제공한다.

스케줄러는 생성된 포드(400)에 리소스 할당 스케줄을 결정하고 포드(400)의 사양(specification)이 변경되면 API 서버에 전송한다.

컨트롤러는 API 서버를 통해 리소스의 변경을 감지하고 변경하며, 컨트롤러 매니저는 다양한 컨트롤러들을 실행시킨다.

etcd는 분산 객체 저장소로서, 전체 클러스터의 구성과 상태에 대한 레코드 데이터베이스 역할을 한다.

포드(400)는 모델 배포 API(140)가 지정하는 모델 서버(440)의 사양에 따라 생성되며, 모델 예측 API(160)의 요청에 따라 특정 AI 모델을 호출하여 구동시킨다.

본 발명의 일 실시예에서 포드(400)는 Envoy 서버(420)와 모델 서버(440)를 포함할 수 있다.

Envoy 서버(420)는 모델 예측 API(160)의 요청에 따른 AI 모델 서비스가 제공되도록 라우팅 한다. Envoy 서버(420)는 Listener, Filter 및 Cluster를 포함할 수 있다.

Listener는 사용자로부터 프로토콜이 입력되는 부분으로, TCP Listener, HTTP Listener 등이 될 수 있다.

Filter는 Listener로부터 전송된 메시지를 중간 처리하는 부분으로, 압축이나 입력되는 트래픽에 대한 제한 작업 등을 실행한 후, 라우터를 통해서 적절한 Cluster로 메시지를 라우팅 한다.

Cluster는 실제 라우팅이 되는 모델 서버(440)를 지정할 수 있다.

모델 서버(440)는 모델 배포 API(140)에 설정된 레플리카 정보에 따라 운용되는 개수가 설정되며, 특정 AI 모델을 호출하여 구동시킨다. 모델 서버(440)가 사용하는 CPU, Memory, GPU 등과 같은 리소스는 모델 배포 API(140)에 따라 할당될 수 있다.

도 2는 본 발명의 일 실시예에 따른 AI 모델 운영 장치가 적용된 AI 모델 구동 환경에서 AI 모델 서비스 요청을 도시하는 도면이다.

도 2를 참조하면, 모델 예측 API(160)는 특정 AI 모델을 구동시키기 위한 정보를 갖는다. 모델 예측 API(160)는 네트워크 상에서 리소스의 위치를 나타내는 예측 요청 URL(Uniform Resource Locator)을 포함한다.

API 관리부(100)는 모델 배포 API(140)의 배포 URL과 모델 예측 API(160)의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 하는 URL 매칭부(미도시)를 포함할 수 있다. 이에 따라, 배포된 AI 모델이 사용하는 리소스가 모델 배포 API(140)를 통해 변경, 확장되더라도 사용자는 동일한 예측 요청 URL로 접속하여 AI 모델 서비스 제공을 요청할 수 있다.

인그레스 게이트웨이(300)는 모델 예측 API(160)를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 포드(400)에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시킨다. 이에 따라 AI 모델에 대한 복수의 사용 요청이 입력되더라도 특정 포드(400)에 과부하가 걸리지 않으면서, AI 모델 서비스를 원활하게 제공할 수 있다.

도 3은 본 발명의 일 실시예에 따른 인그레스 게이트웨이의 구성을 도시한 블록도이다.

도 3을 참조하면, 인그레스 게이트웨이(300)는 서버 모니터링부(320), 포드 제어부(340) 및 예측 요청 할당부(360)를 포함한다.

서버 모니터링부(320)는 AI 모델을 구동하는 모델 서버(440)에서 점유한 리소스 사용량과 모델 서버(440)의 실행 상태를 모니터링 한다.

모델 배포 API(140)를 통해 설정된 개수의 모델 서버(440)가 운용될 수 있으며, 시스템 상 과부하, 일시적 오류 등으로 일부의 모델 서버(440)가 오작동 하거나 작동하지 않을 수 있다.

서버 모니터링부(320)는 모델 서버(440)의 실행 상태에 대해 실시간으로 모니터링 하여 일부 모델 서버(440)에 문제가 발생하면 즉각적인 보완 조치가 이뤄질 수 있도록 보조할 수 있다.

포드 제어부(340)는 모델 서버(440)의 리소스 사용량 및 모델 서버(440)의 실행 상태에 따라 포드(400)의 생성 및 폐쇄를 제어한다. 포드(400)의 생성은 모델 배포 API(140)에서 설정된 모델 서버(400)의 최소 또는 최대 개수 내에서 리소스 사용량에 따라 결정될 수 있다.

포드 제어부(340)는 서버 모니터링부(320)가 모델 서버(440)의 오작동 또는 미작동을 감지하면, 해당 모델 서버(440)를 포함하는 포드(400)가 폐쇄되도록 제어할 수 있다.

예측 요청 할당부(360)는 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 각각의 포드(400)로 복수의 사용 요청을 분배시킨다.

예측 요청 할당부(360)는, 예를 들어, 하나의 포드(400)에 설정된 리소스 사용량을 모두 사용할 때까지 AI 모델 사용 요청을 해당 포드(400)로 라우팅 시키고, 해당 포드(400)에서 리소스를 다 사용하면, 다음 포드(400)로 순차적으로 AI 모델 사용 요청을 할당할 수 있다. 다른 예에서, 예측 요청 할당부(360)는, 복수의 포드(400)에서 각각 점유하고 있는 리소스 사용량을 감지하여, 적은 리소스를 사용하고 있는 포드(400)에 보다 많은 AI 모델 사용 요청이 분배되도록 조정할 수 있다.

예측 요청 할당부(360)의 분배에 따라 AI 모델 사용 요청이 Envoy 서버(420)로 입력되면, Envoy 서버(420)는 모델 서버(440)로 라우팅 하며, 모델 서버(440)는 특정 AI 모델을 Model 저장부(34)에서 호출하여 구동시킨다.

도 4는 본 발명의 일 실시예에 따른 AI 모델 운영 방법의 순서도이다.

도 4를 참조하면, 본 발명의 AI 모델 운영 방법은 단일 엔드포인트를 이용한 AI 모델 운영 방법으로서, AI 모델 운영 장치(10)는 모델 빌드 API(120)를 통해 생성된 AI 모델을 모델 배포 API(140)를 통해 배포 요청하며(S100), 모델 배포 API(140)를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API(140)에 담긴 정보에 따라 포드(400)를 생성하고 리소스를 할당 시키며(S200), 모델 예측 API(160)를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 포드(400)에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키고(S300), 모델 예측 API(160)의 요청에 따라 포드(400)에서 특정 AI 모델을 호출하여 구동시킨다(S400).

모델 배포 API(140)는 AI 모델에 할당되는 배포 리소스의 범위 및 AI 모델을 구동시키는 모델 서버(440)의 복제 개수를 나타내는 레플리카를 설정할 수 있다. 레플리카 설정에 의해 생성되는 모델 서버(440)의 최소 또는 최대 개수가 조정될 수 있다.

본 발명의 일 실시예에서, S200 단계와 S300 단계 사이에, API 관리부(100)는 모델 배포 API(140)의 배포 URL과 모델 예측 API(160)의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 실행할 수 있다. 이에 따라, 배포된 AI 모델이 사용하는 리소스가 모델 배포 API(140)를 통해 변경, 확장되더라도 사용자(20)는 동일한 예측 요청 URL로 접속하여 AI 모델 서비스 제공을 요청할 수 있다.

본 발명의 일 실시예에서, AI 모델 운영 장치(10)는 S300 단계에서, AI 모델을 구동하는 모델 서버(440)에서 점유한 리소스 사용량과 모델 서버(440)의 실행 상태를 서버 모니터링부(320)가 모니터링 하는 단계, 모델 서버(440)의 리소스 사용량 및 모델 서버(440)의 실행 상태에 따라 포드 제어부(340)가 포드(400)의 생성 및 폐쇄를 제어하는 단계, 및 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 예측 요청 할당부(360)가 각각의 포드(400)로 복수의 사용 요청을 분배시키는 단계를 포함하여 수행할 수 있다.

모델 서버(440)의 생성 개수는 모델 배포 API(140)의 설정에 의해 제한될 수 있으며, AI 모델 운영 장치(10)는 서버 모니터링부(320), 포드 제어부(340) 및 예측 요청 할당부(360)의 동작에 의해 모델 서버(440)의 오작동 또는 미작동으로 인한 AI 모델 서비스 제공에 차질이 발생하지 않도록 제어할 수 있다.

본 발명의 일 실시예에서, AI 모델 운영 장치(10)는 S400 단계에서, Envoy 서버(420)가 모델 예측 API(160)의 요청에 따른 AI 모델 서비스가 제공되도록 라우팅 하는 단계, 및 모델 배포 API(140)에 설정된 레플리카 정보에 따라 운용되는 개수가 조정되는 모델 서버(440)가 특정 AI 모델을 호출하여 구동시키는 단계를 포함하여 수행할 수 있다.

Envoy 서버(420)는 AI 모델 사용 요청에 따라 해당 서비스를 제공할 모델 서버(440)를 탐색하여 해당 모델 서버(440)로 사용 요청을 라우팅 할 수 있다.

모델 서버(440)는 AI 모델 사용 요청에 상응하여 점유해야 할 리소스 사용량에 따라 복제될 수 있으며, AI 모델 사용 요청이 많이 발생하더라도 끊김없이 AI 모델 서비스를 제공함으로써, 사용자의 사용 경험을 높은 수준으로 유지시킬 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 컨트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로 컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플 리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서 (parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody) 될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나, 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드 뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

Claims

단일 엔드포인트를 이용한 AI 모델 운영 장치로서,

모델 빌드 API, 모델 배포 API 및 모델 예측 API를 관리하는 API 관리부;

상기 모델 배포 API를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API에 담긴 정보에 따라 포드를 생성하고 리소스를 할당 시키는 컨트롤 플레인;

상기 모델 예측 API를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 포드에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키는 인그레스 게이트웨이; 및

상기 모델 배포 API가 지정하는 모델 서버의 사양에 따라 생성되며, 상기 모델 예측 API의 요청에 따라 특정 AI 모델을 호출하여 구동시키는 포드;를 포함하는 것을 특징으로 하는 AI 모델 운영 장치.
제1항에 있어서,

상기 포드는,

상기 모델 예측 API의 요청에 따른 AI 모델 서비스가 제공되도록 라우팅 하는 Envoy 서버; 및

상기 모델 배포 API에 설정된 레플리카 정보에 따라 운용되는 개수가 조정되며, 특정 AI 모델을 호출하여 구동시키는 모델 서버;를 포함하는 것을 특징으로 하는 AI 모델 운영 장치.
제1항에 있어서,

상기 인그레스 게이트웨이는,

상기 AI 모델을 구동시키는 모델 서버에서 점유한 리소스 사용량과 모델 서버의 실행 상태를 모니터링 하는 서버 모니터링부;

상기 모델 서버의 리소스 사용량 및 모델 서버의 실행 상태에 따라 포드의 생성 및 폐쇄를 제어하는 포드 제어부; 및

상기 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 각각의 포드로 복수의 사용 요청을 분배시키는 예측 요청 할당부;를 포함하는 것을 특징으로 하는 AI 모델 운영 장치.
제1항에 있어서,

상기 API 관리부는,

상기 모델 배포 API의 배포 URL과 상기 모델 예측 API의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 하는 URL 매칭부;를 포함하는 것을 특징으로 하는 AI 모델 운영 장치.
제1항에 있어서,

상기 모델 배포 API는,

상기 AI 모델에 할당되는 배포 리소스의 범위 및 상기 AI 모델을 구동시키는 모델 서버의 복제 개수를 나타내는 레플리카를 설정하는 것을 특징으로 하는 AI 모델 운영 장치.
제5항에 있어서,

상기 모델 배포 API는,

상기 레플리카 단위로 운용되는 모델 서버의 최소 또는 최대 개수를 설정하는 것을 특징으로 하는 AI 모델 운영 장치.
단일 엔드포인트를 이용한 AI 모델 운영 방법으로서,

(a) 모델 빌드 API를 통해 생성된 AI 모델을 모델 배포 API를 통해 배포 요청하는 단계;

(b) 상기 모델 배포 API를 통해 입력된 배포 요청이 유효한지 검증하여, 모델 배포 API에 담긴 정보에 따라 포드를 생성하고 리소스를 할당 시키는 단계;

(c) 모델 예측 API를 통해 입력되는 AI 모델에 대한 복수의 사용 요청에 대해 상기 포드에서 실행되는 리소스 사용량에 따라 포드별로 사용 요청을 분배시키는 단계; 및

(d) 상기 모델 예측 API의 요청에 따라 상기 포드에서 특정 AI 모델을 호출하여 구동시키는 단계;를 포함하는 것을 특징으로 하는 AI 모델 운영 방법.
제7항에 있어서,

상기 (d) 단계는,

상기 모델 예측 API의 요청에 따라 AI 모델 서비스가 제공되도록 Envoy 서버가 라우팅 하는 단계; 및

상기 모델 배포 API에 설정된 레플리카 정보에 따라 운용되는 개수가 조정되는 모델 서버가 특정 AI 모델을 호출하여 구동시키는 단계;를 포함하는 것을 특징으로 하는 AI 모델 운영 방법.
제7항에 있어서,

상기 (c) 단계는,

상기 AI 모델을 구동하는 모델 서버에서 점유한 리소스 사용량과 모델 서버의 실행 상태를 서버 모니터링부가 모니터링 하는 단계;

상기 모델 서버의 리소스 사용량 및 모델 서버의 실행 상태에 따라 포드 제어부가 포드의 생성 및 폐쇄를 제어하는 단계; 및

상기 AI 모델에 대한 복수의 사용 요청에 대응하여 포드별 리소스 사용량에 따라 예측 요청 할당부가 각각의 포드로 복수의 사용 요청을 분배시키는 단계;를 포함하는 것을 특징으로 하는 AI 모델 운영 방법.
제7항에 있어서,

상기 (b) 단계와 (c) 단계 사이에,

상기 모델 배포 API의 배포 URL과 상기 모델 예측 API의 예측 요청 URL 정보를 매칭시켜서, 배포 URL과 예측 요청 URL이 특정의 동일한 AI 모델로 접근할 수 있도록 하는 단계;를 포함하는 것을 특징으로 하는 AI 모델 운영 방법.
제7항에 있어서,

상기 모델 배포 API는,

상기 AI 모델에 할당되는 배포 리소스의 범위 및 상기 AI 모델을 구동시키는 모델 서버의 복제 개수를 나타내는 레플리카를 설정하는 것을 특징으로 하는 AI 모델 운영 방법.
제11항에 있어서,

상기 모델 배포 API는,

상기 레플리카 단위로 운용되는 모델 서버의 최소 또는 최대 개수를 설정하는 것을 특징으로 하는 AI 모델 운영 방법.