KR102671574B1 - 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법 - Google Patents

사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법 Download PDF

Info

Publication number
KR102671574B1
KR102671574B1 KR1020230115039A KR20230115039A KR102671574B1 KR 102671574 B1 KR102671574 B1 KR 102671574B1 KR 1020230115039 A KR1020230115039 A KR 1020230115039A KR 20230115039 A KR20230115039 A KR 20230115039A KR 102671574 B1 KR102671574 B1 KR 102671574B1
Authority
KR
South Korea
Prior art keywords
deep learning
user
query
learning model
intent
Prior art date
Application number
KR1020230115039A
Other languages
English (en)
Inventor
조창희
고형석
이홍재
Original Assignee
(주)유알피
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Application granted granted Critical
Publication of KR102671574B1 publication Critical patent/KR102671574B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5061Partitioning or combining of resources
    • G06F9/5077Logical partitioning of resources; Management or configuration of virtualized resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5038Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering the execution order of a plurality of tasks, e.g. taking priority or time dependency constraints into consideration
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • Z01A10/00
    • Z01A30/00
    • Z01C30/00
    • Z01C70/00

Abstract

본 발명은 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약에 대해 클라우드 리소스를 효율적으로 할당하는 방법에 관한 것으로, 딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계; 상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계; 및 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계;를 포함한다.

Description

사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법 {METHOD OF ALLOCATING CLOUD-BASED RESOURCE OF DEEP LEARNING MODEL ACCORDING TO USER QUERY INTENT}
본 발명은 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약에 대해 클라우드 리소스를 효율적으로 할당하는 방법에 관한 것으로, 딥러닝 모델에 따라 필요한 GPU/CPU자원이 다르므로, 사용자 질의 의도를 파악하여 질의 의도에 따라 사용할 딥러닝 모델의 추론에 필요한 리소스를 판단하여 할당하는 기술에 관한 것이다.
딥러닝 기술이 발전하면서, 딥러닝 모델은 점점 더 많은 연산과 방대한 양의 데이터 처리를 수행하게 되었고, 이를 지원하기 위한 하드웨어에 대한 요구도 늘어나는 상황이다.
그러나, 비용, 관리 및 환경적인 제약으로 무제한적으로 하드웨어 리소스를 추가할 수 없으므로, 제한된 리소스 자원 내에서 딥러닝 모델의 학습 및 추론을 효과적으로 수행하는 기술들이 요구되고 있다.
딥러닝 모델의 학습 및 추론 처리를 위해 다수의 GPU를 사용하여 병렬 처리를 수행하는 방법이 제시되고 있으나, 다수의 GPU를 보유한 클라우드 환경에서 여러 개의 서로 다른 딥러닝 모델의 작업을 수행하는 환경에서 병렬적으로 처리하기 위해서는 딥러닝 모델 별 필요한 자원과 보유한 GPU 모델 및 개수를 고려하여 리소스 할당이 이루어져야 한다.
또한, 다수의 GPU 환경에서 사용자 요청에 따라 다른 종류의 딥러닝 모델을 사용하여 추론을 동시에 수행해야 하는 경우 사용자 요청을 처리할 딥러닝 모델을 판단하고, 판단된 딥러닝 모델이 추론 작업을 수행할 수 있는 리소스를 동적으로 할당해야 한다.
따라서, 클라우드 자원의 종류, 사용 상태, 추론 요청 종류 및 추론 처리 딥러닝 모델의 필요 자원 등을 고려하여 서비스 레이어 차원에서 서비스 요청에 따라 리소스를 동적으로 할당하는 기술이 요구된다.
본 발명은 상기 문제점을 해결하기 위해 클라우드 기반 여러 개의 딥러닝 모델의 추론 서비스를 제공하는 시스템에서 발생하는 GPU/CPU 리소스의 물리적 제약을 극복하고 클라우드 리소스를 효율적으로 할당하기 위해, 사용자가 질의/명령 형식으로 입력하는 텍스트에서 그 의도를 파악하여 질의 의도에 따라 딥러닝 추론 수행에 사용되는 딥러닝 모델 및 필요한 리소스를 판단하여 동적으로 할당하는데 그 목적이 있다.
본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법은, 딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계; 상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계; 및 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계;를 포함할 수 있다.
또한, 상기 질의 의도를 분류하는 단계는, 사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류하는 것을 특징으로 한다.
또한, 상기 클라우드 리소스를 할당하는 단계는, 리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 GPU 리소스를 조회하고, 조회된 상기GPU의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정하는 것을 특징으로 한다.
또한, 상기 리소스 할당 맵은 의도 분류별 딥러닝 모델 추론 수행에 필요한 클라우드 리소스 종류 및 개수 와 우선 순위를 포함하고, 상기 클라우드 리소스 종류는 GPU의 모델 정보를 포함하는 것을 특징으로 한다.
또한, 상기 클라우드 리소스를 할당하는 단계는, 사용자가 입력한 질의 의도의 분류 결과에 따라 상기 리소스 할당 맵에서 조회된 복수개의 클라우드 리소스 중 우선 순위가 가장 높은 리소스를 선택하고, 선택된 리소스가 사용 중인 경우, 우선 순위가 높은 순서대로 리소스의 사용 상태를 확인하여 결정하는 것을 특징으로 한다.
또한, 상기 리소스 할당 맵은 의도 분류별 딥러닝 모델 추론 수행에 필요한 클라우드 리소스 종류에 CPU 정보를 더 포함하는 것을 특징으로 한다.
또한, 상기 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법은, 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계;를 더 포함한다.
사용자가 입력한 텍스트 형태의 문장형 질의/명령에서 의도를 파악하여 사용자가 원하는 인공지능 서비스를 제공할 수 있다.
또한, 사용자의 질의 요청에 따라 서로 다른 딥러닝 모델에 대한 추론 요청에 대해 클라우드 상의 GPU 및/또는 CPU를 동적으로 할당하여 리소스 자원을 효과적으로 운영할 수 있다.
도 1은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 전체 관계도이다.
도 2는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 기능에 대한 블록도이다.
도 3은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템에서 리소스 할당 맵의 데이터 구조에 대한 예시 도면이다.
도 4는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템의 하드웨어 구조를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템에서 사용자의 질의 입력에 따라 의도를 분류하여 클라우드 리소스를 할당하는 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법을 나타낸 순서도이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
그리고, 후술되는 용어들은 본 발명에서의 기능을 고려하여 설정된 용어들로써 이는 발명자의 의도 또는 관례에 따라 달라질 수 있으므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이고, 본 명세서에서 본 발명에 관련된 공지의 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에 이에 관한 자세한 설명은 생략하기로 한다.
이하, 도면을 참조로 하여 본 발명에 따른 질의 의도 분류를 통한 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템을 설명한다.
도 1은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(이하, 딥러닝 모델 자원 할당 시스템이라 함.)의 전체 관계도이다.
도 1을 참조하면, 딥러닝 모델 자원 할당 시스템(100)은 적어도 하나 이상의 사용자 단말기(200)와 네트워크로 연결되어 서로 통신할 수 있다.
본 발명에서 언급하는 네트워크라 함은 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
본 발명에서 언급하는 단말기는 데스크톱, 태블릿, 노트북, 스마트폰, 웨어러블 스마트 기기 등의 다양한 통신 수단을 포함하는 것으로 해석되어야 하며, 웹 기반 또는 별도의 소프트웨어/애플리케이션 등을 통해 서버 또는 시스템에서 제공하는 각종 기능을 실행할 수 있다.
본 발명의 딥러닝 모델 자원 할당 시스템(100)은 딥러닝 모델 추론 수행 시 제한된 GPU/CPU 자원을 효과적으로 사용하기 위해 사용자의 질의 응답을 학습된 의도 분류TextCNN 모델을 사용하여 질의 의도를 분류하고, 분류된 결과에 따라 질의 의도별 리소스 할당 맵을 참조하여 리소스를 할당하고 할당된 환경에서 해당 모델 추론을 수행한다.
이를 위해, 리소스 할당 맵에 질의 의도에 따라 추론을 수행할 딥러닝 모델, 추론 수행에 필요한 GPU 모델 및 개수를 사전에 설정하고, 사용자 단말기(200)로부터 입력 받은 질의 내용에 대한 의도 분석 결과에 따라 상기 리소스 할당 맵을 참조하여 클라우드 리소스를 할당하고 모델을 사용하여 질의에 대한 추론을 수행한다.
이때, 클라우드 리소스는 추론의 특성 상 복잡도가 상대적으로 낮거나 추론 응답 생성 시간에 대한 제한이 크지 않은 딥러닝 모델 추론 수행 등 CPU로 수행 가능한 추론에 대해서는 CPU 리소스를 할당할 수 있다.
본 발명에서 사용자 단말기(200)는 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 웹 페이지, 앱 등의 서비스 화면을 통해 질문 형태의 텍스트를 입력하여 추론을 요청하고, 이에 대한 추론 응답을 제공받을 수 있다.
도 2는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)의 기능에 대한 블록도이다.
도 2를 참조하면, 딥러닝 모델 자원 할당 시스템(100)은 질의 입력부(110), 의도 분류부(120), 리소스 할당부(130) 및 모델 추론부(140)를 구비할 수 있다.
질의 입력부(110)는 사용자 단말기(200)로부터 텍스트 형식의 사용자 질의를 입력 받는다.
여기서, 사용자 질의는 일상생활에서 사용하는 대화형 질문, 명령/지시형 문장 등일 수 있다.
일례로, 사용자는 "다음 댓글에 대한 감정 분석해줘.", "환경파괴에 대한 보고서 목차 생성해줘.", "다음 문서의 주요 키워드를 추출해줘." 등 일 수 있다.
질의 입력부(110)는 사용자 단말기(200)로부터 질의를 입력 받기 위한 웹페이지, 앱 화면 등의 사용자 인터페이스를 제공할 수 있고, 사용자로부터 입력 받은 질의 요청을 의도 분류부(120)로 전달한다.
의도 분류부(120)는 사용자 질의를 분석하여 질의 의도를 분류한다.
일례로, 사용자가 "다음 댓글에 대한 감정 분석해줘."라는 질의를 입력한 경우, 사용자의 의도는 감정 분석을 요청이라 판단하고, 감정 분석 딥러닝 모델 수행을 준비하는 것이 바람직할 것이다.
따라서, 의도 분류부(120)는 사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류한다.
의도 분류에 사용되는 분류 항목은 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 추론 서비스의 종류일 수 있고, 추론 서비스는 적어도 하나 이상의 딥러닝 모델과 매핑될 수 있다.
일례로, 딥러닝 모델 자원 할당 시스템(100)에서 감정 분류, 보고서 목차 생성, 보고서 내용 생성 및 키워드 추출에 대한 딥러닝 추론 서비스를 처리한다고 하면, 의도 분류 TextCNN 모델은 입력되는 문장 형태의 질의 텍스트를 상기 3가지 의도로 분류하도록 학습될 수 있을 것이다.
리소스 할당부(130)는 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당한다.
즉, 의도 분류부(120)에서 분류된 질의 의도 클래스에 따라 추론을 수행할 딥러닝 모델, 추론 시 할당 대상 클라우드 리소스를 확인한다.
클라우드 환경에서는 다수의 GPU 및 CPU를 보유할 수 있고, 추론 서비스에 사용되는 딥러닝 모델의 종류도 상이하므로, 사용자가 요청한 추론 서비스에 따라 어떤 리소스 자원을 할당할 것인지 판단하기 위한 규칙이 필요하며, 이러한 규칙은 리소스 할당 맵에 설정하여 관리한다.
도 3은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)에서 리소스 할당 맵의 데이터 구조에 대한 예시 도면이다.
도 3을 참조하면, 리소스 할당 맵에는 의도 분류, 딥러닝 모델 정보, 할당 대상 리소스 및 우선 순위를 포함할 수 있다.
의도 분류는 딥러닝 모델 자원 할당 시스템(100)에서 처리하는 추론 서비스 종류이고, 모델 ID는 딥러닝 모델을 식별하는 정보일 수 있다.
또한, 리소스 #1 ~ 리소스 #N은 각 의도 분류에 따라 할당할 수 있는 클라우드 리소스에 대한 정보로 GPU의 모델 및 개수일 수 있고, 현재 리소스의 사용 상태에 따라 순서대로 할당해야 하는 리소스 목록을 나열한 것이다.
리소스 할당부(130)는 리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 GPU 리소스를 조회하고, 조회된 상기GPU의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정한다.
일례로, 사용자가 입력한 질의 의도가 '보고서 목차생성'으로 분류된 경우 리소스 할당부(130)는 리소스#1을 확인하여 GPU A6000 모델 2개가 할당 가능한 상태인지 확인한다.
만약 A6000이 전체 또는 일부 사용 상태로 할당이 불가능하면, 다른 우선순위인 리소스#2 GPU A100 1개가 할당 가능한지 확인한다. 이렇게 우선 순위 순차에 따라 해당 의도별 리소스 상태를 확인하여 할당한다.
이때, 리소스 할당 맵의 리소스 우선 순위는 각각의 의도별 추론을 수행하는데 필요한 최소 리소스부터 상위 리소스 순서로 정의될 수 있다.
또한, 리소스 할당 맵에 정의된 리소스는 GPU 뿐만 아니라 CPU를 포함할 수 있다.
반복 최적화 알고리즘, 복잡한 딥러닝 모델을 사용한 기능 추출 또는 불규칙한 데이터 액세스 패턴과 관련된 작업이나, 상대적으로 작은 데이터 셋을 사용하는 딥러닝 작업은 CPU가 더 효과적이므로, 이러한 작업에 CPU 리소스를 할당할 수 있다.
본 발명에서 설명하는 리소스 할당 맵의 데이터 구조는 한가지 실시예이며, 이에 한정하지 않고 다양한 데이터 구조로 정의되어 관리될 수 있다.
모델 추론부(140)는 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성한다.
리소스 할당부(130)에 의해 추론을 수행할 리소스가 할당되면 해당 GPU 및/또는 CPU에 추론을 수행할 딥러닝 모델을 로딩하고, 사용자가 입력한 질의 내용에 대한 추론을 수행하여 결과물을 생성한다.
여기서 딥러닝 모델은 생성형 AI, 초거대 언어 모델 또는 이들을 결합한 딥러닝 모델일 수 일 수 있다.
이때, 모델 추론부(140)는 사용자로부터 입력 받은 질의로 추론 요청에 맞는 프롬프트 데이터를 구성하여 딥러닝 모델의 입력으로 적용할 수 있다.
생성된 추론 응답은 추론 요청 화면에 표시하거나 별도의 응답 화면으로 사용자 단말기(200)에게 제공될 수 있다.
도 4는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)의 하드웨어 구조를 나타낸 도면이다.
도 4를 참조하면, 딥러닝 모델 자원 할당 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000) 등을 포함하여 구성된다.
사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다.
네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 딥러닝 모델 자원 할당 시스템(100)을 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록 매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록 매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송 매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록 매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
도 5는 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 시스템(100)에서 사용자의 질의 입력에 따라 의도를 분류하여 클라우드 리소스를 할당하는 흐름도이고, 도 6은 본 발명의 일 실시예에 따른 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법을 나타낸 순서도이다.
도 5 내지 6을 참조하여, 사용자가 입력한 텍스트 질의에 대한 의도를 분류하여 의도별 추론 처리를 위한 리소스를 할당하고, 추론을 수행하는 과정을 설명한다.
먼저, 딥러닝 모델 자원 할당 시스템(100)에서 사용자 단말기(200)로부터 텍스트 형태의 사용자 질의를 입력 받는 단계를 수행한다. (S610)
사용자는 딥러닝 모델 자원 할당 시스템(100)에서 제공하는 딥러닝 기반 서비스에 대한 추론 요청을 대화형, 명령/지시형 등의 문장으로 입력할 수 있다.
일례로, 사용자는 특정 블로그에 작성된 댓글들에 대한 긍/부정의 감정 분석을 요청하기 위해 제공된 사용자 인터페이스에 "다음 댓글에 대한 감정 분석해줘."라는 질의를 입력할 수 있다.
딥러닝 모델 자원 할당 시스템(100)은 입력된 사용자 질의를 분석하여 질의 의도를 분류하는 단계를 수행한다. (S620)
이때, 사용자의 질의 의도를 분석하기 위해 사전 학습된 의도 분류 TextCNN 모델을 적용할 수 있다.
일례로, 사용자가 입력한 "다음 댓글에 대한 감정 분석해줘."라는 텍스트문장에 대해 학습된 의도 분류 TextCNN 모델에 적용하여 그 결과로 '감정분류'라는 클래스의 분류 결과를 획득할 수 있다.
다음으로, 사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계를 수행한다. (S630)
딥러닝 모델 자원 할당 시스템(100)은 질의 의도 분류 결과에 대한 리소스 할당을 위해 리소스 할당 맵을 사용한다.
리소스 할당 맵에는 의도 분류, 딥러닝 모델 정보, 할당 대상 리소스 및 우선 순위가 설정되어 있어, 질의 의도를 분류한 결과에 따라 할당 대상 리소스 정보를 획득할 수 있다.
일례로, 사용자가 요청한 질의 의도를 분류한 결과가 '감정분류' 인 경우, 리소스 할당 맵에서 '감정분류' 의도에 대한 딥러닝 모델 및 할당 대상 리소스 정보를 확인하고, 우선 순위 첫번째 리소스의 사용 상태를 확인한다.
'감정분류'에 대한 우선 순위 첫번째 리소스가 GPU 모델 GTX3060Ti 4개인경우, 해당 리소스의 현재 사용 상태를 확인하여, 사용 가능한 경우 상기 GTX3060Ti 4개를 할당하고, 사용 중인 경우 다음 순위 리소스 상태를 확인한다.
차 순위 할당 대상 리소스가 사용 중인 경우, 반복적으로 다음 순위 할당 대상 리소스를 확인하고, 할당 가능 리소스가 없는 경우, 대기한다.
대기 상태의 추론 요청 건에 대해서는 주기적으로 할당 가능한 리소스를 확인하는 과정이 반복적으로 수행될 수 있다.
리소스가 할당되면 할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계를 수행한다. (S640)
일례로, 할당된 GPU에 감정분류 딥러닝 모델을 로딩하고, 사용자가 입력한 다음 댓글에 대한 감정 분석해줘."라는 질의 문장 다음에 입력된 댓글을 모델의 입력으로 적용하여 추론을 수행하고, 결과를 생성한다.
이때, 사용자로부터 입력 받은 질의로 추론 요청에 맞는 프롬프트 데이터를 구성하여 딥러닝 모델의 입력으로 적용할 수 있다.
생성된 댓글에 대한 감정 분석 결과는 사용자 인터페이스에 표시하여 사용자가 확인할 수 있도록 한다.
본 발명은 다수의 GPU를 보유한 클라우드 환경에서 사용자 요청에 따라 서로 다른 종류의 딥러닝 모델을 사용하여 병렬적으로 추론을 처리하기 위해서 사용자 질의를 분석하여 처리할 딥러닝 모델을 판단하고, 딥러닝 모델 별 필요한 자원과 보유한 GPU 모델 및 개수를 고려하여 리소스를 할당함으로서, 클라우드 환경에서 제한된 GPU/CPU 리소스를 효과적으로 사용할 수 있다.
100: 딥러닝 모델 자원 할당 시스템
110: 질의 입력부 120: 의도 분류부
130: 리소스 할당부 140: 모델 추론부
200: 사용자 단말기

Claims (7)

  1. 딥러닝 모델 자원 할당 시스템에서, 사용자 단말기로부터 텍스트 형태의 사용자 질의를 입력 받는 단계;
    상기 사용자 질의를 분석하여 질의 의도를 분류하는 단계;
    사용자가 입력한 질의 의도를 분류한 결과에 따라 클라우드 리소스를 할당하는 단계; 및
    할당된 클라우드 리소스에 매핑된 딥러닝 모델을 로딩하여 사용자 질의에 대한 추론을 수행하고 추론 결과를 생성하는 단계;를 포함하고,
    상기 질의 의도를 분류하는 단계는,
    사용자의 질의 문장을 사전 학습한 의도 분류 TextCNN 모델을 사용하여 질의 의도를 분류하고,
    상기 의도 분류 TextCNN 모델이 출력하는 분류 결과는, 제공하는 추론 서비스의 종류이며 상기 추론 서비스는 적어도 하나 이상의 딥러닝 모델과 매핑되어 있고,
    상기 클라우드 리소스를 할당하는 단계는,
    리소스 할당 맵에서 사용자가 입력한 질의 의도의 분류 결과와 매핑된 리소스를 조회하고, 조회된 상기 리소스의 사용 상태를 확인하여 할당할 클라우드 리소스를 결정하고,
    상기 리소스 할당 맵은,
    의도 분류별 딥러닝 모델 추론 수행에 필요한 CPU 및 GPU 중 적어도 하나 이상의 모델 정보, 개수 및 우선 순위를 포함하는,
    사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법.
  2. 삭제
  3. 삭제
  4. 삭제
  5. 제1항에 있어서,
    상기 클라우드 리소스를 할당하는 단계는,
    사용자가 입력한 질의 의도의 분류 결과에 따라 상기 리소스 할당 맵에서 조회된 복수개의 클라우드 리소스 중 우선 순위가 가장 높은 리소스를 선택하고, 선택된 리소스가 사용 중인 경우, 우선 순위가 높은 순서대로 리소스의 사용 상태를 확인하여 결정하는 것을 특징으로 하는,
    사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법.
  6. 삭제
  7. 삭제
KR1020230115039A 2023-08-31 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법 KR102671574B1 (ko)

Publications (1)

Publication Number Publication Date
KR102671574B1 true KR102671574B1 (ko) 2024-06-03

Family

ID=

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
한국공개특허 제10-2023-0087316호(2023.06.16.) 1부.*
한국등록특허 제10-2571350호(2023.08.29.) 1부.*

Similar Documents

Publication Publication Date Title
JP7170779B2 (ja) 自動的な意図のマイニング、分類、及び配置のための方法及びシステム
CN108510082B (zh) 对机器学习模型进行处理的方法及装置
US20200104367A1 (en) Vector Representation Based on Context
US20200177634A1 (en) Hybrid Network Infrastructure Management
US11551437B2 (en) Collaborative information extraction
US20230034011A1 (en) Natural language processing workflow
US11030402B2 (en) Dictionary expansion using neural language models
CN112100312A (zh) 从数据源中智能提取因果知识
US20210295204A1 (en) Machine learning model accuracy
US20210011973A1 (en) Multi-Lingual Action Identification
US11803374B2 (en) Monolithic computer application refactoring
US10263838B2 (en) Assigning resources to a workload that utilizes embedded computing entities
US20200150981A1 (en) Dynamic Generation of User Interfaces Based on Dialogue
US11308268B2 (en) Semantic header detection using pre-trained embeddings
US11449677B2 (en) Cognitive hierarchical content distribution
US11023497B2 (en) Data classification
KR102671574B1 (ko) 사용자 질의 의도에 따른 클라우드 기반 딥러닝 모델 자원 할당 방법
US10887267B2 (en) Intelligent notification routing and delivery
KR102671573B1 (ko) 질의 의도 분류를 통한 딥러닝 모델 리소스 할당 시스템
WO2017180772A1 (en) Single tier routing
US20200242494A1 (en) Corpus Gap Probability Modeling
US11789774B2 (en) Optimization of workload scheduling in a distributed shared resource environment
US20220207384A1 (en) Extracting Facts from Unstructured Text
US11520783B2 (en) Automated validity evaluation for dynamic amendment
US20210209167A1 (en) Conversational Agents Over Domain Structured Knowledge