KR102671574B1

KR102671574B1 - 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법

Info

Publication number: KR102671574B1
Application number: KR1020230115039A
Authority: KR
Inventors: 조창희; 고형석; 이홍재
Original assignee: (주)유알피
Filing date: 2023-08-31
Publication date: 2024-06-03

Abstract

본 발명은 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약에 대해 클라우드 리소스를 효율적으로 할당하는 방법에 관한 것으로, 딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계; 상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계; 및 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계;를 포함한다.

Description

사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법 {METHOD OF ALLOCATING CLOUD-BASED RESOURCE OF DEEP LEARNING MODEL ACCORDING TO USER QUERY INTENT}

본 발명은 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약에 대해 클라우드 리소스를 효율적으로 할당하는 방법에 관한 것으로, 딥러닝 모델에 따라 필요한 GPU/CPU자원이 다르므로, 사용자 질의 의도를 파악하여 질의 의도에 따라 사용할 딥러닝 모델의 추론에 필요한 리소스를 판단하여 할당하는 기술에 관한 것이다.

딥러닝 기술이 발전하면서, 딥러닝 모델은 점점 더 많은 연산과 방대한 양의 데이터 처리를 수행하게 되었고, 이를 지원하기 위한 하드웨어에 대한 요구도 늘어나는 상황이다.

그러나, 비용, 관리 및 환경적인 제약으로 무제한적으로 하드웨어 리소스를 추가할 수 없으므로, 제한된 리소스 자원 내에서 딥러닝 모델의 학습 및 추론을 효과적으로 수행하는 기술들이 요구되고 있다.

딥러닝 모델의 학습 및 추론 처리를 위해 다수의 GPU를 사용하여 병렬 처리를 수행하는 방법이 제시되고 있으나, 다수의 GPU를 보유한 클라우드 환경에서 여러 개의 서로 다른 딥러닝 모델의 작업을 수행하는 환경에서 병렬적으로 처리하기 위해서는 딥러닝 모델 별 필요한 자원과 보유한 GPU 모델 및 개수를 고려하여 리소스 할당이 이루어져야 한다.

또한, 다수의 GPU 환경에서 사용자 요청에 따라 다른 종류의 딥러닝 모델을 사용하여 추론을 동시에 수행해야 하는 경우 사용자 요청을 처리할 딥러닝 모델을 판단하고, 판단된 딥러닝 모델이 추론 작업을 수행할 수 있는 리소스를 동적으로 할당해야 한다.

따라서, 클라우드 자원의 종류, 사용 상태, 추론 요청 종류 및 추론 처리 딥러닝 모델의 필요 자원 등을 고려하여 서비스 레이어 차원에서 서비스 요청에 따라 리소스를 동적으로 할당하는 기술이 요구된다.

본 발명은 상기 문제점을 해결하기 위해 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약을 극복하고 클라우드 리소스를 효율적으로 할당하기 위해, 사용자가 질의/명령 형식으로 입력하는 텍스트에서 그 의도를 파악하여 질의 의도에 따라 딥러닝 추론 수행에 사용되는 딥러닝 모델 및 필요한 리소스를 판단하여 동적으로 할당하는데 그 목적이 있다.

본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법은, 딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계; 상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계; 및 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계;를 포함할 수 있다.

또한, 상기 질의 의도를 분류하는 단계는, 사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류하는 것을 특징으로 한다.

또한, 상기 클라우드 리소스를 할당하는 단계는, 리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 GPU 리소스를 조회하고, 조회된 상기GPU의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정하는 것을 특징으로 한다.

또한, 상기 리소스 할당 맵은 의도 분류별 딥러닝 모델 추론 수행에 필요한 클라우드 리소스 종류 및 개수 와 우선 순위를 포함하고, 상기 클라우드 리소스 종류는 GPU의 모델 정보를 포함하는 것을 특징으로 한다.

또한, 상기 클라우드 리소스를 할당하는 단계는, 사용자가 입력한 질의 의도의 분류 결과에 따라 상기 리소스 할당 맵에서 조회된 복수개의 클라우드 리소스 중 우선 순위가 가장 높은 리소스를 선택하고, 선택된 리소스가 사용 중인 경우, 우선 순위가 높은 순서대로 리소스의 사용 상태를 확인하여 결정하는 것을 특징으로 한다.

또한, 상기 리소스 할당 맵은 의도 분류별 딥러닝 모델 추론 수행에 필요한 클라우드 리소스 종류에 CPU 정보를 더 포함하는 것을 특징으로 한다.

또한, 상기 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법은, 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계;를 더 포함한다.

사용자가 입력한 텍스트 형태의 문장형 질의/명령에서 의도를 파악하여 사용자가 원하는 인공지능 서비스를 제공할 수 있다.

또한, 사용자의 질의 요청에 따라 서로 다른 딥러닝 모델에 대한 추론 요청에 대해 클라우드 상의 GPU 및/또는 CPU를 동적으로 할당하여 리소스 자원을 효과적으로 운영할 수 있다.

도 1은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템에서 리소스 할당 맵의 데이터 구조에 대한 예시 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 하드웨어 구조를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템에서 사용자의 질의 입력에 따라 의도를 분류하여 클라우드 리소스를 할당하는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법을 나타낸 순서도이다.

이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.

그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.

이하, 도면을 참조로 하여 본 발명에 따른 질의 의도 분류를 통한 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템을 설명한다.

도 1은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(이하, 딥러닝 모델 자원 할당 시스템이라 함.)의 전체 관계도이다.

도 1을 참조하면, 딥러닝 모델 자원 할당 시스템(100)은 적어도 하나 이상의 사용자 단말기(200)와 네트워크로 연결되어 서로 통신할 수 있다.

본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.

본 발명에서 언급하는 단말기는 데스크톱, 태블릿, 노트북, 스마트폰, 웨어러블 스마트 기기 등의 다양한 통신 수단을 포함하는 것으로 해석되어야 하며, 웹 기반 또는 별도의 소프트웨어/애플리케이션 등을 통해 서버 또는 시스템에서 제공하는 각종 기능을 실행할 수 있다.

본 발명의 딥러닝 모델 자원 할당 시스템(100)은 딥러닝 모델 추론 수행 시 제한된 GPU/CPU 자원을 효과적으로 사용하기 위해 사용자의 질의 응답을 학습된 의도 분류TextCNN 모델을 사용하여 질의 의도를 분류하고, 분류된 결과에 따라 질의 의도별 리소스 할당 맵을 참조하여 리소스를 할당하고 할당된 환경에서 해당 모델 추론을 수행한다.

이를 위해, 리소스 할당 맵에 질의 의도에 따라 추론을 수행할 딥러닝 모델, 추론 수행에 필요한 GPU 모델 및 개수를 사전에 설정하고, 사용자 단말기(200)로부터 입력 받은 질의 내용에 대한 의도 분석 결과에 따라 상기 리소스 할당 맵을 참조하여 클라우드 리소스를 할당하고 모델을 사용하여 질의에 대한 추론을 수행한다.

이때, 클라우드 리소스는 추론의 특성 상 복잡도가 상대적으로 낮거나 추론 응답 생성 시간에 대한 제한이 크지 않은 딥러닝 모델 추론 수행 등 CPU로 수행 가능한 추론에 대해서는 CPU 리소스를 할당할 수 있다.

본 발명에서 사용자 단말기(200)는 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 웹 페이지, 앱 등의 서비스 화면을 통해 질문 형태의 텍스트를 입력하여 추론을 요청하고, 이에 대한 추론 응답을 제공받을 수 있다.

도 2는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)의 기능에 대한 블록도이다.

도 2를 참조하면, 딥러닝 모델 자원 할당 시스템(100)은 질의 입력부(110), 의도 분류부(120), 리소스 할당부(130) 및 모델 추론부(140)를 구비할 수 있다.

질의 입력부(110)는 사용자 단말기(200)로부터 텍스트 형식의 사용자 질의를 입력 받는다.

여기서, 사용자 질의는 일상생활에서 사용하는 대화형 질문, 명령/지시형 문장 등일 수 있다.

일례로, 사용자는 "다음 댓글에 대한 감정 분석해줘.", "환경파괴에 대한 보고서 목차 생성해줘.", "다음 문서의 주요 키워드를 추출해줘." 등 일 수 있다.

질의 입력부(110)는 사용자 단말기(200)로부터 질의를 입력 받기 위한 웹페이지, 앱 화면 등의 사용자 인터페이스를 제공할 수 있고, 사용자로부터 입력 받은 질의 요청을 의도 분류부(120)로 전달한다.

의도 분류부(120)는 사용자 질의를 분석하여 질의 의도를 분류한다.

일례로, 사용자가 "다음 댓글에 대한 감정 분석해줘."라는 질의를 입력한 경우, 사용자의 의도는 감정 분석을 요청이라 판단하고, 감정 분석 딥러닝 모델 수행을 준비하는 것이 바람직할 것이다.

따라서, 의도 분류부(120)는 사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류한다.

의도 분류에 사용되는 분류 항목은 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 추론 서비스의 종류일 수 있고, 추론 서비스는 적어도 하나 이상의 딥러닝 모델과 매핑될 수 있다.

일례로, 딥러닝 모델 자원 할당 시스템(100)에서 감정 분류, 보고서 목차 생성, 보고서 내용 생성 및 키워드 추출에 대한 딥러닝 추론 서비스를 처리한다고 하면, 의도 분류 TextCNN 모델은 입력되는 문장 형태의 질의 텍스트를 상기 3가지 의도로 분류하도록 학습될 수 있을 것이다.

리소스 할당부(130)는 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당한다.

즉, 의도 분류부(120)에서 분류된 질의 의도 클래스에 따라 추론을 수행할 딥러닝 모델, 추론 시 할당 대상 클라우드 리소스를 확인한다.

클라우드 환경에서는 다수의 GPU 및 CPU를 보유할 수 있고, 추론 서비스에 사용되는 딥러닝 모델의 종류도 상이하므로, 사용자가 요청한 추론 서비스에 따라 어떤 리소스 자원을 할당할 것인지 판단하기 위한 규칙이 필요하며, 이러한 규칙은 리소스 할당 맵에 설정하여 관리한다.

도 3은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)에서 리소스 할당 맵의 데이터 구조에 대한 예시 도면이다.

도 3을 참조하면, 리소스 할당 맵에는 의도 분류, 딥러닝 모델 정보, 할당 대상 리소스 및 우선 순위를 포함할 수 있다.

의도 분류는 딥러닝 모델 자원 할당 시스템(100)에서 처리하는 추론 서비스 종류이고, 모델 ID는 딥러닝 모델을 식별하는 정보일 수 있다.

또한, 리소스 #1 ~ 리소스 #N은 각 의도 분류에 따라 할당할 수 있는 클라우드 리소스에 대한 정보로 GPU의 모델 및 개수일 수 있고, 현재 리소스의 사용 상태에 따라 순서대로 할당해야 하는 리소스 목록을 나열한 것이다.

리소스 할당부(130)는 리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 GPU 리소스를 조회하고, 조회된 상기GPU의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정한다.

일례로, 사용자가 입력한 질의 의도가 '보고서 목차생성'으로 분류된 경우 리소스 할당부(130)는 리소스#1을 확인하여 GPU A6000 모델 2개가 할당 가능한 상태인지 확인한다.

만약 A6000이 전체 또는 일부 사용 상태로 할당이 불가능하면, 다른 우선순위인 리소스#2 GPU A100 1개가 할당 가능한지 확인한다. 이렇게 우선 순위 순차에 따라 해당 의도별 리소스 상태를 확인하여 할당한다.

이때, 리소스 할당 맵의 리소스 우선 순위는 각각의 의도별 추론을 수행하는데 필요한 최소 리소스부터 상위 리소스 순서로 정의될 수 있다.

또한, 리소스 할당 맵에 정의된 리소스는 GPU 뿐만 아니라 CPU를 포함할 수 있다.

반복 최적화 알고리즘, 복잡한 딥러닝 모델을 사용한 기능 추출 또는 불규칙한 데이터 액세스 패턴과 관련된 작업이나, 상대적으로 작은 데이터 셋을 사용하는 딥러닝 작업은 CPU가 더 효과적이므로, 이러한 작업에 CPU 리소스를 할당할 수 있다.

본 발명에서 설명하는 리소스 할당 맵의 데이터 구조는 한가지 실시예이며, 이에 한정하지 않고 다양한 데이터 구조로 정의되어 관리될 수 있다.

모델 추론부(140)는 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성한다.

리소스 할당부(130)에 의해 추론을 수행할 리소스가 할당되면 해당 GPU 및/또는 CPU에 추론을 수행할 딥러닝 모델을 로딩하고, 사용자가 입력한 질의 내용에 대한 추론을 수행하여 결과물을 생성한다.

여기서 딥러닝 모델은 생성형 AI, 초거대 언어 모델 또는 이들을 결합한 딥러닝 모델일 수 일 수 있다.

이때, 모델 추론부(140)는 사용자로부터 입력 받은 질의로 추론 요청에 맞는 프롬프트 데이터를 구성하여 딥러닝 모델의 입력으로 적용할 수 있다.

생성된 추론 응답은 추론 요청 화면에 표시하거나 별도의 응답 화면으로 사용자 단말기(200)에게 제공될 수 있다.

도 4는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)의 하드웨어 구조를 나타낸 도면이다.

도 4를 참조하면, 딥러닝 모델 자원 할당 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.

사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.

데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.

네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.

웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 딥러닝 모델 자원 할당 시스템(100)을 사용할 수 있다.

상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.

컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.

또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.

도 5는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)에서 사용자의 질의 입력에 따라 의도를 분류하여 클라우드 리소스를 할당하는 흐름도이고, 도 6은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법을 나타낸 순서도이다.

도 5 내지 6을 참조하여, 사용자가 입력한 텍스트 질의에 대한 의도를 분류하여 의도별 추론 처리를 위한 리소스를 할당하고, 추론을 수행하는 과정을 설명한다.

먼저, 딥러닝 모델 자원 할당 시스템(100)에서 사용자 단말기(200)로부터 텍스트 형태의 사용자 질의를 입력 받는 단계를 수행한다. (S610)

사용자는 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 딥러닝 기반 서비스에 대한 추론 요청을 대화형, 명령/지시형 등의 문장으로 입력할 수 있다.

일례로, 사용자는 특정 블로그에 작성된 댓글들에 대한 긍/부정의 감정 분석을 요청하기 위해 제공된 사용자 인터페이스에 "다음 댓글에 대한 감정 분석해줘."라는 질의를 입력할 수 있다.

딥러닝 모델 자원 할당 시스템(100)은 입력된 사용자 질의를 분석하여 질의 의도를 분류하는 단계를 수행한다. (S620)

이때, 사용자의 질의 의도를 분석하기 위해 사전 학습된 의도 분류 TextCNN 모델을 적용할 수 있다.

일례로, 사용자가 입력한 "다음 댓글에 대한 감정 분석해줘."라는 텍스트문장에 대해 학습된 의도 분류 TextCNN 모델에 적용하여 그 결과로 '감정분류'라는 클래스의 분류 결과를 획득할 수 있다.

다음으로, 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계를 수행한다. (S630)

딥러닝 모델 자원 할당 시스템(100)은 질의 의도 분류 결과에 대한 리소스 할당을 위해 리소스 할당 맵을 사용한다.

리소스 할당 맵에는 의도 분류, 딥러닝 모델 정보, 할당 대상 리소스 및 우선 순위가 설정되어 있어, 질의 의도를 분류한 결과에 따라 할당 대상 리소스 정보를 획득할 수 있다.

일례로, 사용자가 요청한 질의 의도를 분류한 결과가 '감정분류' 인 경우, 리소스 할당 맵에서 '감정분류' 의도에 대한 딥러닝 모델 및 할당 대상 리소스 정보를 확인하고, 우선 순위 첫번째 리소스의 사용 상태를 확인한다.

'감정분류'에 대한 우선 순위 첫번째 리소스가 GPU 모델 GTX3060Ti 4개인경우, 해당 리소스의 현재 사용 상태를 확인하여, 사용 가능한 경우 상기 GTX3060Ti 4개를 할당하고, 사용 중인 경우 다음 순위 리소스 상태를 확인한다.

차 순위 할당 대상 리소스가 사용 중인 경우, 반복적으로 다음 순위 할당 대상 리소스를 확인하고, 할당 가능 리소스가 없는 경우, 대기한다.

대기 상태의 추론 요청 건에 대해서는 주기적으로 할당 가능한 리소스를 확인하는 과정이 반복적으로 수행될 수 있다.

리소스가 할당되면 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계를 수행한다. (S640)

일례로, 할당된 GPU에 감정분류 딥러닝 모델을 로딩하고, 사용자가 입력한 다음 댓글에 대한 감정 분석해줘."라는 질의 문장 다음에 입력된 댓글을 모델의 입력으로 적용하여 추론을 수행하고, 결과를 생성한다.

이때, 사용자로부터 입력 받은 질의로 추론 요청에 맞는 프롬프트 데이터를 구성하여 딥러닝 모델의 입력으로 적용할 수 있다.

생성된 댓글에 대한 감정 분석 결과는 사용자 인터페이스에 표시하여 사용자가 확인할 수 있도록 한다.

본 발명은 다수의 GPU를 보유한 클라우드 환경에서 사용자 요청에 따라 서로 다른 종류의 딥러닝 모델을 사용하여 병렬적으로 추론을 처리하기 위해서 사용자 질의를 분석하여 처리할 딥러닝 모델을 판단하고, 딥러닝 모델 별 필요한 자원과 보유한 GPU 모델 및 개수를 고려하여 리소스를 할당함으로서, 클라우드 환경에서 제한된 GPU/CPU 리소스를 효과적으로 사용할 수 있다.

100: 딥러닝 모델 자원 할당 시스템
110: 질의 입력부 120: 의도 분류부
130: 리소스 할당부 140: 모델 추론부
200: 사용자 단말기

Claims

딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계;
상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계;
사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계; 및
할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계;를 포함하고,
상기 질의 의도를 분류하는 단계는,
사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류하고,
상기 의도 분류 TextCNN 모델이 출력하는 분류 결과는, 제공하는 추론 서비스의 종류이며 상기 추론 서비스는 적어도 하나 이상의 딥러닝 모델과 매핑되어 있고,
상기 클라우드 리소스를 할당하는 단계는,
리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 리소스를 조회하고, 조회된 상기 리소스의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정하고,
상기 리소스 할당 맵은,
의도 분류별 딥러닝 모델 추론 수행에 필요한 CPU 및 GPU 중 적어도 하나 이상의 모델 정보, 개수 및 우선 순위를 포함하는,
사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법.
삭제
삭제
삭제
제1항에 있어서,
상기 클라우드 리소스를 할당하는 단계는,
사용자가 입력한 질의 의도의 분류 결과에 따라 상기 리소스 할당 맵에서 조회된 복수개의 클라우드 리소스 중 우선 순위가 가장 높은 리소스를 선택하고, 선택된 리소스가 사용 중인 경우, 우선 순위가 높은 순서대로 리소스의 사용 상태를 확인하여 결정하는 것을 특징으로 하는,
사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법.
삭제
삭제