KR102662500B1 - 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템 - Google Patents

추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템 Download PDF

Info

Publication number
KR102662500B1
KR102662500B1 KR1020230122961A KR20230122961A KR102662500B1 KR 102662500 B1 KR102662500 B1 KR 102662500B1 KR 1020230122961 A KR1020230122961 A KR 1020230122961A KR 20230122961 A KR20230122961 A KR 20230122961A KR 102662500 B1 KR102662500 B1 KR 102662500B1
Authority
KR
South Korea
Prior art keywords
inference
deep learning
learning model
response time
unit
Prior art date
Application number
KR1020230122961A
Other languages
English (en)
Inventor
조창희
고형석
이홍재
Original Assignee
(주)유알피
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)유알피 filed Critical (주)유알피
Priority to KR1020230122961A priority Critical patent/KR102662500B1/ko
Application granted granted Critical
Publication of KR102662500B1 publication Critical patent/KR102662500B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Feedback Control In General (AREA)

Abstract

본 발명은 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템에 관한 것으로, 다수의 사용자의 질의(즉, 추론 요청)에 따른 추론을 수행하는 과정에서, 현재 적용중인 딥러닝 모델을 이용한 추론 응답 시간과 기 설정된 응답 시간별 딥러닝 모델 맵을 활용하여, 최적의 추론 응답 속도를 확보할 수 있는 딥러닝 모델로 동적인 전환을 수행함으로써, 추론을 수행할 때 GPU 리소스가 부족하여 응답 속도가 저하되는 것을 방지할 수 있도록 하는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템에 관한 것이다.

Description

추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템{SYSTEM FOR DEEP LEARNING MODEL DYNAMIC SWITCHING BASED ON INFERENCE RESPONSE TIME}
본 발명은 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템에 관한 것으로, 더욱 상세하게는 다수의 사용자의 질의(즉, 추론 요청)에 따른 추론을 수행하는 과정에서, 현재 적용중인 딥러닝 모델을 이용한 추론 응답 시간과 기 설정된 응답 시간별 딥러닝 모델 맵을 활용하여, 최적의 추론 응답 속도를 확보할 수 있는 딥러닝 모델로 동적인 전환을 수행함으로써, 추론을 수행할 때 GPU 리소스가 부족하여 응답 속도가 저하되는 것을 방지할 수 있도록 하는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템에 관한 것이다.
딥러닝 모델을 사용하여 추론을 수행할 때 추론 응답 속도를 최적으로 하는 것이 매우 중요하며, 이에 따라 추론 응답 속도를 최적으로 수행하기 위한 많은 방식이 제안되고 있다.
일 예로, CPU보다 연산 속도가 빠른 GPU를 사용하는 하드웨어 성능을 활용하여 딥러닝 모델의 추론을 수행할 수 있으며, 불필요한 계층이나 연산을 제거하거나 계산량을 줄이는 등의 방식으로 딥러닝 모델의 구조를 최적화할 수 있다.
또한, 많은 데이터 양을 학습하여 딥러닝 모델의 성능을 향상시킬 수 있으며, 모델의 매개변수(즉 파라미터) 수를 줄이는 경량화를 통해 메모리 사용량과 연산량을 줄여 추론 속도를 향상시킬 수 있다.
하지만, 대부분의 딥러닝 모델은 다수의 사용자가 동시에 추론을 요청하는 경우가 매우 빈번하기 때문에, 추론에 필요한 자원이 부족하여 응답 속도가 저하되는 문제가 발생할 수 있다.
따라서 본 발명에서는 다수의 사용자 요청에 따른 추론을 수행할 때 최적의 추론 응답 속도를 확보할 수 있는 딥러닝 모델로 동적 전환을 수행함으로써, 추론 작업에 필요한 GPU의 리소스 부족을 방지하여 응답 속도를 개선할 수 있는 방안을 제시하고자 한다.
특히, 본 발명은 현재 적용중인 딥러닝 모델을 이용한 추론 응답 시간과 기 설정된 응답 시간별 딥러닝 모델 맵을 활용하여, 최적화된 추론 응답 속도를 가진 딥러닝 모델로 동적인 전환을 수행할 수 있는 방안을 제시하고자 한다.
다음으로 본 발명의 기술분야에 존재하는 선행발명에 대하여 간단하게 설명하고, 이어서 본 발명이 상기 선행발명에 비해서 차별적으로 이루고자 하는 기술적 사항에 대해서 기술하고자 한다.
한국등록특허 제10-2374530호(2022.03.16.)는 질의 메시지에 대한 서로 다른 기준에 따라 인텐츠를 도출하는 복수의 추론기를 통해 답변 콘텐츠를 추출하고, 추론율에 따른 우선순위별로 정렬하여 사용자에게 제공함으로써 보다 사용자의 의도에 부합하는 답변을 제공할 수 있는 최적 질의 응답 시스템 및 방법에 관한 선행발명이다.
하지만, 본 발명은 여러 매개변수 딥러닝 모델을 동적으로 전환하여 사용자의 요청에 대한 추론 응답 속도를 확보하는 것으로서, 기계학습 기반 대화형 메신저 프로그램 등에 사용자의 다양한 형태의 질의에 대하여 최적의 응답을 도출하여 회신하는 상기 한국등록특허 제10-2374530호(2022.03.16.)와 비교해 볼 때, 현저한 구성상 차이점이 있다.
본 발명은 상기와 같은 문제점을 해결하기 위해 창작된 것으로서, 다수의 사용자의 질의(즉, 추론 요청)에 따른 추론을 수행하는 과정에서, 현재 적용중인 딥러닝 모델을 이용한 추론 응답 시간과 기 설정된 응답 시간별 딥러닝 모델 맵을 활용하여, 최적의 추론 응답 속도를 확보할 수 있는 딥러닝 모델로 동적인 전환을 수행할 수 있는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템을 제공하는 것을 목적으로 한다.
또한, 본 발명은 추론을 수행할 때 GPU 리소스가 부족하여 응답 속도가 저하되는 것을 방지할 수 있는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템을 제공하는 것을 다른 목적으로 한다.
또한, 본 발명은 각 딥러닝 모델마다 도메인 특성에 맞추어 정제된 데이터 셋으로 학습하여, 각 딥러닝 모델에 대해서 비슷한 성능을 구현할 수 있는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템을 제공하는 것을 또 다른 목적으로 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제들로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
본 발명의 일 실시예에 따른 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템은, 복수의 사용자 단말로부터 추론 요청을 수신하는 추론 요청 수신부; 상기 수신한 추론 요청을 현재 적용중인 딥러닝 모델에 입력하여 추론하는 추론 수행부; 상기 현재 적용중인 딥러닝 모델에서 수행한 각 사용자별 추론에 소요된 추론 응답 시간을 측정하고, 상기 측정한 각 사용자별 추론에 소요된 추론 응답 시간을 평균하여, 평균 추론 응답 시간을 측정하는 추론 응답 시간 측정부; 및 추론에 필요한 GPU 리소스 부족으로 인한 응답속도 저하를 방지하기 위해서, 상기 측정한 추론 응답 시간을 참조하여, 상기 현재 적용중인 딥러닝 모델을 복수의 딥러닝 모델 중에서 추론 응답 시간을 최적화하는 어느 하나의 딥러닝 모델로 전환하는 딥러닝 모델 동적 전환부;를 포함하며, 상기 딥러닝 모델 동적 전환부는, 상기 추론 응답 시간 측정부에서 평균 추론 응답 시간이 측정되면, 기 설정된 응답 시간별 딥러닝 모델 맵을 조회하는 조회부; 상기 현재 적용중인 딥러닝 모델의 매개변수 크기와 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기를 비교하는 매개변수 크기 비교부; 상기 비교한 결과 기 설정된 동적 전환 조건에 해당하는지를 판단하는 동적 전환 조건 판단부; 및 상기 판단한 결과 상기 동적 전환 조건을 만족하면, 상기 현재 적용중인 딥러닝 모델을 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기를 갖는 딥러닝 모델로 전환하는 동적 전화 처리부;를 포함하며, 상기 추론 수행부는, 상기 동적 전환 조건 판단부를 통해 판단한 결과 상기 동적 전환 조건을 만족하지 않으면, 상기 현재 적용중인 딥러닝 모델을 그대로 사용하여 상기 사용자 단말의 추론 요청에 따른 추론을 수행하며, 상기 딥러닝 모델 동적 전환부를 통해 상기 현재 적용중인 딥러닝 모델을 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델로 전환하는 것을 완료할 때까지 상기 현재 적용중인 딥러닝 모델을 사용하여 상기 사용자 단말의 추론 요청에 대한 추론을 수행하는 것을 더 포함하는 것을 특징으로 한다.
삭제
삭제
또한, 상기 동적 전환 조건은, 상기 현재 적용중인 딥러닝 모델의 매개변수 크기와 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기가 다르고, 매개변수의 크기가 다른 것이 연속적으로 기 설정된 횟수 이상 발생하는 조건인 것을 특징으로 한다.
삭제
삭제
또한, 상기 응답 시간별 딥러닝 모델 맵은, 사전에 테스트를 통해 설정된 것으로서, 주어진 GPU에서 추론한 최소 및 최대 추론 응답 시간에 따라 매개 변수 크기가 다른 딥러닝 모델을 매칭하여 설정한 것을 특징으로 한다.
또한, 상기 딥러닝 모델은, 각 딥러닝 모델마다 도메인 특성에 맞추어 정제된 데이터 셋으로 학습하여 생성함으로써, 매개변수 크기에 따른 추론 응답의 품질에 차이가 발생하지 않도록 하는 것을 특징으로 한다.
또한, 상기 도메인은, 상기 딥러닝 모델이 학습하는 데이터의 특성으로서, 이미지, 텍스트, 음성 및 비디오를 포함한 데이터 도메인과 분류, 회귀, 생성, 추천 및 로봇 제어를 포함한 작업 도메인으로 나눌 수 있는 것을 특징으로 한다.
이상에서와 같이 본 발명의 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템에 따르면, 다수의 사용자로부터 수신한 추론 요청에 따른 추론을 수행할 때 최적의 추론 응답 시간을 갖는 딥러닝 모델로 동적 전환을 수행함으로써, 추론에 필요한 GPU 리소스의 부족으로 인하여 응답 속도가 저하되는 것을 방지할 수 있는 효과가 있다.
다만, 본 발명의 효과가 상술한 효과들로 제한되는 것은 아니며, 언급되지 아니한 효과들은 본 명세서 및 첨부된 도면으로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확히 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시예에 따른 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템을 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 3은 본 발명에 적용된 응답 시간별 딥러닝 모델 맵의 예시를 나타낸 도면이다.
도 4는 본 발명의 일 실시예에 따른 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템의 하드웨어 구조를 나타낸 도면이다.
이하에서는 도면을 참조하여 본 발명의 구체적인 실시예를 상세하게 설명한다. 다만, 본 발명의 사상은 제시되는 실시예에 제한되지 아니하고, 본 발명의 사상을 이해하는 당업자는 동일한 사상의 범위 내에서 다른 구성요소를 추가, 변경, 삭제 등을 통하여, 퇴보적인 다른 발명이나 본 발명 사상의 범위 내에 포함되는 다른 실시예를 용이하게 제안할 수 있을 것이나, 이 또한 본원 발명 사상 범위 내에 포함된다고 할 것이다.
또한, 각 실시예의 도면에 나타나는 동일한 사상의 범위 내의 기능이 동일한 구성요소는 동일한 참조부호를 사용하여 설명한다.
도 1은 본 발명의 일 실시예에 따른 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템을 포함한 전체 구성을 개략적으로 나타낸 도면이다.
도 1에 도시된 바와 같이, 본 발명은 사용자 질의에 대한 추론 응답 시간에 따라 딥러닝 모델을 동적으로 전환하는 시스템(100, 이하 딥러닝 모델을 동적으로 전환하는 시스템이라 함), 복수의 사용자 단말(200), 데이터베이스(300)등을 포함하여 구성된다.
상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 서버 컴퓨터, 플랫폼 등으로 구성되고, 네트워크를 통해 통신 접속된 다수의 사용자 단말(200)로부터 딥러닝 모델을 이용한 추론 요청을 접수하며, 상기 사용자 단말(200)의 추론 요청에 따른 응답을 제공한다.
이때 상기 사용자 단말(200)의 추론 요청은 동시에 요청되는 경우가 빈번하며, 이로 인해서 추론 응답에 필요한 GPU 리소스가 부족하여 추론 요청에 대한 응답에 있어서 속도가 저하될 수 있다.
이를 해결하기 위해서, 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 다수의 사용자 단말(200)로부터 수신한 추론 요청에 대한 추론을 수행할 때, 여러 매개변수 크기를 갖는 딥러닝 모델을 동적으로 전환하여 최적의 추론 응답 속도를 확보할 수 있도록 한다.
특히, 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 현재 적용중인 딥러닝 모델을 이용한 다수 사용자의 추론 요청에 대한 평균 추론 응답 시간과 기 설정된 응답 시간별 딥러닝 모델 맵을 활용하여, 최적화된 추론 응답 속도를 가진 딥러닝 모델로 동적인 전환을 수행함으로써, 추론에 필요한 GPU 리소스의 부족으로 인한 응답 속도의 저하를 방지하면서 최적의 응답 속도로 사용자에게 추론 결과를 제공할 수 있도록 한다.
이때 상기 응답 시간별 딥러닝 모델 맵은 최소 추론 응답 시간 및 최대 추론 응답 시간에 따라 매개변수(parameter) 크기가 다른 딥러닝 모델을 매칭한 정보이다.(도 3 참조)
또한, 상기 응답 시간별 딥러닝 모델 맵상에 매칭되어 있는 각 딥러닝 모델은 도메인 특성에 맞추어 정제된 데이터 셋으로 학습하여 생성하도록 함으로써, 매개변수 크기에 따라 응답 품질에 차이가 발생하지 않도록 하는 것이 필요하다.
한편, 상기 딥러닝 모델의 매개변수 크기는 신경망이 학습해야 하는 가중치와 편향의 개수를 나타내는 것으로서, 상기 가중치는 입력과 출력을 연결하는 역할을 하고, 편향은 뉴런의 출력에 추가되는 값이며, 매개변수 크기가 클수록 신경망은 더 복잡한 관계를 학습할 수 있다.
일 예로, GPT-3는 1,750억 개의 매개변수를 가진 언어 모델이며, 이와 같은 매개변수의 크기는 텍스트의 의미를 이해하고 생성하는 데 필요한 복잡한 관계를 학습할 수 있음을 의미한다.
또한, CNN, RNN, LSTM 등과 같은 모델의 종류에 따라 필요한 매개변수의 수가 다르고, 모델의 층 구조가 많을수록 필요한 매개변수의 수가 많아지고, 데이터의 크기가 클수록 필요한 매개변수의 수가 많아진다.
이처럼 상기 딥러닝 모델의 매개변수 크기는 모델의 성능에 영향을 미치는데, 딥러닝 모델을 설계할 때 매개변수 크기를 적절하게 선택하는 것이 매우 중요하다.
매개변수 크기가 클수록 모델의 성능이 향상되지만, 매개변수 크기가 너무 크면 모델이 훈련하기 어려워지고 과적합의 위험이 높아질 수 있기 때문이다.
상기 사용자 단말(200)은 각 개인이 보유하고 있는 랩톱(laptop) 컴퓨터, 노트북 컴퓨터, 데스크톱 컴퓨터, 웹 패드, 이동 전화기와 같이 프로세서를 탑재하고 메모리를 구비한 연산 능력을 갖춘 디지털 기기일 수 있다. 또한, 웹 기반 또는 별도의 소프트웨어/애플리케이션 등을 통해 서버 또는 시스템에서 제공하는 각종 기능을 실행할 수 있다.
상기 사용자 단말(200)은 네트워크를 통해 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)에 접속하여 딥러닝 모델을 이용한 추론을 요청한다. 즉, 사용자가 궁금해 하는 사항에 대한 질의를 수행하는 것이다.
상기 네트워크는 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어 망일 수도 있고, TCP/IP 프로토콜 및 그 상위 계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), HTTPS(Hyper Text Transfer Protocol Secure), Telnet, FTP(File Transfer Protocol) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미할 수 있으며, 이러한 예에 한정하지 않고 다양한 형태로 데이터를 송수신할 수 있는 데이터 통신망을 포괄적으로 의미하는 것이다.
또한 상기 신청자 단말(200)은 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)으로부터 추론 요청에 대한 추론 결과를 제공받는다.
상기 데이터베이스(300)는 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)에서 사용하는 각종 동작프로그램은 물론, 상기 응답 시간별 딥러닝 모델 맵과 추론에 사용되는 각종 딥러닝 모델을 저장하여 관리한다.
또한, 상기 데이터베이스(300)는 각 사용자가 요청하는 추론 요청에 대한 정보, 상기 추론 요청에 따라 딥러닝 모델을 통해 수행하여 해당 사용자에게 제공한 추론 결과를 저장하여 관리할 수 있다.
도 2는 본 발명의 일 실시예에 따른 딥러닝 모델 동적 전환 시스템의 구성을 보다 상세하게 나타낸 블록도이다.
도 2에 도시된 바와 같이, 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 추론 요청 수신부(110), 추론 수행부(120), 추론 응답 시간 측정부(130), 딥러닝 모델 동적 전환부(140), 추론 결과 제공부(150) 등을 포함하여 구성된다.
또한, 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 상기 도 2에 도시하지는 않았지만, GPT(Generative Pre-trained Transformer) 시리즈 등의 오픈 대화형 언어 모델을 포함한 딥러닝 모델의 생성, 업데이트 및 관리를 수행하는 구성을 추가로 구성할 수 있다.
상기 추론 요청 수신부(110)는 네트워크를 통해 통신 접속된 상기 사용자 단말(200)로부터 추론 요청을 수신하며, 상기 수신한 추론 요청을 상기 추론 수행부(120)로 전달한다.
이때 상기 사용자 단말(200)로부터 수신하는 추론 요청은 일상생활에서 사용하는 대화형의 질문, 명령, 지시형 문장 등의 질의일 수 있다.
또한, 상기 추론 요청 수신부(110)는 상기 사용자 단말(200)로부터 상기 추론 요청을 수신하기 위해서, 해당 사용자 단말(200)로 웹페이지, 앱 화면 등의 사용자 인터페이스를 제공할 수 있다.
상기 추론 수행부(120)는 상기 추론 요청 수신부(110)를 통해 수신한 각 사용자별 추론 요청을 현재 적용중인 딥러닝 모델에 입력하여, 추론을 수행하도록 한다. 이때 상기 추론 수행부(120)에서 수행한 추론 결과는 상기 딥러닝 모델 동적 전환부(140)에서의 딥러닝 모델 동적 전환과 관련 없이 상기 추론 결과 제공부(150)를 통해 해당 사용자 단말(200)로 제공될 수 있다.
또한, 상기 추론 수행부(120)는 상기 딥러닝 모델 동적 전환부(140)에서 판단한 결과 동적 전환 조건을 만족하지 않아 현재 적용중인 딥러닝 모델을 그대로 사용하는 것이 결정되는 경우에는, 현재 적용중인 딥러닝 모델을 그대로 사용하여 상기 사용자 단말(200)의 추론 요청에 따른 추론을 수행할 수 있다.
또한, 상기 추론 수행부(120)는 상기 딥러닝 모델 동적 전환부(140)에서 판단한 결과 동적 전환 조건을 만족하여 다른 딥러닝 모델로의 동적 전환이 이루어지더라도, 전환 예정의 다른 딥러닝 모델이 최종적으로 시스템에 로딩되기 전까지는 현재 적용중인 딥러닝 모델을 그대로 사용하여 상기 사용자 단말(200)의 추론 요청에 따른 추론을 수행할 수 있다.
상기 추론 응답 시간 측정부(130)는 상기 추론 수행부(120)에서 수행한 추론에 소요된 추론 응답 시간을 측정하는 기능을 수행한다.
이때 상기 추론 응답 시간 측정부(130)는 현재 적용중인 딥러닝 모델에서 수행한 각 사용자별 추론에 소요된 추론 응답 시간을 측정한 다음, 상기 측정한 각 사용자별 추론에 소요된 추론 응답 시간을 평균하여, 평균 추론 응답 시간을 측정하며, 상기 측정한 평균 추론 응답 시간을 상기 딥러닝 모델 동적 전환부(140)로 전달한다.
상기 딥러닝 모델 동적 전환부(140)는 상기 추론 응답 시간 측정부(130)에서 측정한 추론 응답 시간을 참조하여, 현재 적용중인 딥러닝 모델을 그대로 적용할 것인지, 아니면 복수의 딥러닝 모델 중에서 추론 응답 시간을 최적화하는 어느 하나의 다른 딥러닝 모델로 전환할 것인지를 결정한다.
이때 상기 딥러닝 모델 동적 전환부(140)는 조회부(141), 매개변수 크기 비교부(142), 동적 전환 조건 판단부(143), 동적 전환 처리부(144)로 구성된다.
상기 조회부(141)는 상기 추론 응답 시간 측정부(130)로부터 평균 추론 응답 시간이 전달되면, 상기 데이터베이스(300)에 저장해둔 응답 시간별 딥러닝 모델 맵을 조회한다. 상기 응답 시간별 딥러닝 모델 맵에 대해서는 도 3에서 상세하게 설명하기로 한다.
상기 매개변수 크기 비교부(142)는 현재 적용중인 딥러닝 모델의 매개변수 크기를 확인한다.
또한, 상기 매개변수 크기 비교부(142)는 상기 조회부(141)를 통해 조회한 상기 응답 시간별 딥러닝 모델 맵을 참조하여, 상기 추론 응답 시간 측정부(130)에서 측정한 각 사용자별 추론 요청에 대한 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델의 매개변수 크기를 확인한다.
이어서, 상기 매개변수 크기 비교부(142)는 2개의 딥러닝 모델의 매개변수 크기(즉 현재 적용중인 딥러닝 모델의 매개변수 크기와 응답 시간별 딥러닝 모델 맵에서 확인한 각 사용자별 추론 요청에 대한 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델의 매개변수 크기)를 비교하고, 상기 비교한 결과를 상기 동적 전환 조건 판단부(143)로 전달한다.
상기 동적 전환 조건 판단부(143)는 상기 매개변수 크기 비교부(142)에서 비교한 결과를 토대로 기 설정된 동적 전환 조건에 해당하는지의 여부를 판단하고, 상기 판단한 결과를 상기 동적 전환 처리부(144)로 전달한다.
이때 상기 동적 전환 조건은 현재 적용중인 딥러닝 모델의 매개변수 크기와 응답 시간별 딥러닝 모델 맵에서 확인한 각 사용자별 추론 요청에 대한 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델의 매개변수 크기가 다르고, 2개의 매개변수 크기가 다른 것이 연속적으로 기 설정된 횟수(예: 3회) 이상 발생하는 조건을 말한다.
이때 본 발명에서는 상기 횟수를 3회로 설정하는 것이 바람직하지만, 이에 한정되는 것은 아니며, 사용 환경에 따라 줄이거나 늘려서 설정할 수 있음을 밝혀둔다.
상기 동적 전환 처리부(144)는 상기 동적 전환 조건 판단부(143)에서 판단한 결과 상기 동적 전환 조건을 만족하면, 현재 적용중인 딥러닝 모델을 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델로 전환하는 기능을 수행한다.
즉, 상기 결과 동적 전환 조건을 만족하면, 현재 적용중인 딥러닝 모델을 현재 시점의 추론에 최적화된 응답 속도를 가진 다른 딥러닝 모델로 동적인 전환을 수행하는 것이다.
상기 추론 결과 제공부(150)는 상기 추론 수행부(120)에서 수행한 추론 결과를 상기 사용자 단말(200)로 제공한다.
이때 생성되는 추론 결과는 텍스트 데이터로 생성될 수 있으며, 그 이외에 사전에 정해져 있는 템플릿에 따른 그래픽이나 표 형식으로 생성될 수 있다. 또한, 추론 결과는 여러 파일 포맷으로 생성될 수 있으며, 사용자의 요청에 따라 원하는 파일 포맷으로 변환하여 제공될 수 있다.
도 3은 본 발명에 적용된 응답 시간별 딥러닝 모델 맵의 예시를 나타낸 도면이다.
도 3에 도시된 바와 같이, 상기 딥러닝 모델을 동적으로 전환하는 시스템(100)은 상기 데이터베이스(300)에 응답 시간별 딥러닝 모델 맵을 사전에 구축하여 저장, 관리할 수 있다.
상기 응답 시간별 딥러닝 모델 맵은 주어진 GPU를 통해 추론한 최소 추론 응답 시간 및 최대 응답 시간에 따라 매개변수 크기가 다른 딥러닝 모델을 매칭하여 설정한 테이블 데이터로서, 사전에 테스트를 통해 설정될 수 있다.
일 예로, 주어진 GPU에서 추론한 응답시간이 60초 이상 120초 미만이면 매개변수 크기가 1.3B(13억개)인 딥러닝 모델을 매칭하고, 응답시간이 30초 이상 60초 미만이면 매개변수 크기가 3B(30억개)인 딥러닝 모델을 매칭하고, 응답시간이 5초 이상 30초 미만이면 매개변수 크기가 13B(130억개)인 딥러닝 모델을 매칭하고, 응답시간이 0초 이상 5초 미만이면 매개변수 크기가 40B(400억개)인 딥러닝 모델을 매칭함으로써, 응답시간별 적정 모델 맵을 설정할 수 있는 것이다. 여기서, 응답시간이나 매개변수의 크기는 테스트 결과를 통해 임의로 변경 가능하다.
이때 상기 딥러닝 모델은 매개변수 크기에 따른 추론 응답의 품질에 차이가 발생하지 않도록 하기 위해서, 도메인 특성에 맞추어 정제된 데이터 셋으로 학습하여 생성하여야 한다.
또한, 상기 도메인은 상기 딥러닝 모델이 학습하는 데이터의 특성을 의미하는 것으로서, 이미지, 텍스트, 음성 및 비디오를 포함한 데이터 도메인과 분류, 회귀, 생성, 추천 및 로봇 제어를 포함한 작업 도메인으로 나눌 수 있다.
여기서, 데이터 도메인은 이미지의 경우 해상도, 색상, 장면, 조명, 카메라의 종류 등을 포함하고, 텍스트의 경우 언어, 문법, 스타일, 주제 등을 포함하고, 음성의 경우 음질, 방향, 배경 소음 등을 포함하며, 비디오의 경우 프레임 속도, 해상도, 색상, 장면 등을 포함할 수 있다.
또한, 작업 도메인은 분류의 경우 이미지, 텍스트, 음성, 비디오 등을 포함하고, 회귀의 경우 수치 예측, 시계열 예측 등을 포함하고, 생성의 경우 이미지, 텍스트, 음성, 비디오 등을 포함하고, 추천의 경우 상품, 영화, 음악 등을 포함하며, 로봇 제어의 경우 물체 인식, 이동, 상호 작용 등을 포함할 수 있다.
한편, 수억 내지 수십억 개의 매개변수를 가진 딥러닝 모델은 많은 양의 데이터와 계산 자원을 사용하여 학습하여야 하므로 시간이 오래 걸리지만, 수많은 매개변수를 사용하여 복잡한 패턴을 학습하는 것을 통해서 복잡한 문제를 해결할 수 있고, 기존의 모델보다 더 정확하고 효율적인 결과를 제공할 수 있으며, 자연어 처리, 컴퓨터 비전, 음성 인식, 자연어 생성 등의 매우 다양한 분야에서 사용할 수 있다.
일 예로, 자연어 처리 딥러닝 모델은 질의응답, 번역, 요약, 생성 등의 텍스트를 이해하고 생성하는데 사용되는 모델로서, GPT-3, RoBERTa, LaMDA, Megatron-Turing NLG, Jurassic-1 Jumbo 등이 있다. 또한 컴퓨터 비전 딥러닝 모델은 물체 인식, 얼굴 인식, 자연 이미지 분류 등의 이미지와 비디오를 이해하고 처리하는데 사용되는 모델로서, ResNet, VGG, YOLO, SSD, Swin Transformer, ConvMixer 등이 있다. 또한 음성 인식 딥러닝 모델은 음성 명령, 음성 합성 등의 음성을 이해하고 처리하는데 사용되는 모델로서, Transformer, WaveNet, DNN, Megatron-Turing NLG, WuDao 2.0 등이 있다. 또한 자연어 생성 딥러닝 모델은 뉴스 기사, 웹 페이지, 시, 코드 등의 텍스트를 생성하는데 사용되는 모델로서, GPT-3, T5, Megatron-Turing NLG, Jurassic-1 Jumbo, WuDao 2.0 등이 있다. 그 이외에, AlphaGo, AlphaZero, Dota 2 AI, StarCraft II AI, WuDao 2.0 등의 게임용 딥러닝 모델이 있다.
도 4는 본 발명의 일 실시예에 따른 딥러닝 모델 동적 전환 시스템의 하드웨어 구조를 나타낸 도면이다.
도 4에 도시한 것과 같이, 상기 딥러닝 모델 동적 전환 시스템(100)의 하드웨어 구조는, 중앙처리장치(1000), 메모리(2000), 사용자 인터페이스(3000), 데이터베이스 인터페이스(4000), 네트워크 인터페이스(5000), 웹서버(6000), 그래픽처리장치(7000) 등을 포함하여 구성된다.
상기 사용자 인터페이스(3000)는 그래픽 사용자 인터페이스(GUI, graphical user interface)를 사용함으로써, 사용자에게 입력과 출력 인터페이스를 제공한다.
상기 데이터베이스 인터페이스(4000)는 데이터베이스와 하드웨어 구조 사이의 인터페이스를 제공한다. 상기 네트워크 인터페이스(5000)는 사용자가 보유한 장치 간의 네트워크 연결을 제공한다.
상기 웹 서버(6000)는 사용자가 네트워크를 통해 하드웨어 구조로 액세스하기 위한 수단을 제공한다. 대부분의 사용자들은 원격에서 웹 서버로 접속하여 상기 딥러닝 모델 동적 전환 시스템(100)을 사용할 수 있다.
상술한 구성 또는 방법의 각 단계는, 컴퓨터 판독 가능한 기록매체 상의 컴퓨터 판독 가능 코드로 구현되거나 전송 매체를 통해 전송될 수 있다. 컴퓨터 판독 가능한 기록매체는, 컴퓨터 시스템에 의해 읽혀질 수 있는 데이터를 저장할 수 있는 데이터 저장 디바이스이다.
컴퓨터 판독 가능한 기록매체의 예로는 데이터베이스, ROM, RAM, CD-ROM, DVD, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 디바이스가 있으나 이에 한정되는 것은 아니다. 전송매체는 인터넷 또는 다양한 유형의 통신 채널을 통해 전송되는 반송파를 포함할 수 있다. 또한 컴퓨터 판독 가능한 기록매체는, 컴퓨터 판독 가능 코드가 분산 방식으로 저장되고, 실행되도록 네트워크 결합 컴퓨터 시스템을 통해 분배될 수 있다.
또한 본 발명에 적용된 적어도 하나 이상의 구성요소는, 각각의 기능을 수행하는 중앙처리장치(CPU), 마이크로프로세서 등과 같은 프로세서를 포함하거나 이에 의해 구현될 수 있으며, 상기 구성요소 중 둘 이상은 하나의 단일 구성요소로 결합되어 결합된 둘 이상의 구성요소에 대한 모든 동작 또는 기능을 수행할 수 있다. 또한 본 발명에 적용된 적어도 하나 이상의 구성요소의 일부는, 이들 구성요소 중 다른 구성요소에 의해 수행될 수 있다. 또한 상기 구성요소들 간의 통신은 버스(미도시)를 통해 수행될 수 있다.
이처럼, 본 발명은 다수의 사용자로부터 수신한 추론 요청에 따른 추론을 수행할 때 최적의 추론 응답 시간을 갖는 딥러닝 모델로 동적 전환을 수행할 수 있으므로, 추론에 필요한 GPU 리소스의 부족으로 인하여 응답 속도가 저하되는 것을 방지할 수 있다.
첨부된 도면은 본 발명의 기술적 사상을 보다 명확하게 표현하기 위해, 본 발명의 기술적 사상과 관련성이 없거나 떨어지는 구성에 대해서는 간략하게 표현하거나 생략하였다.
상기에서는 본 발명에 따른 실시예를 기준으로 본 발명의 구성과 특징을 설명하였으나 본 발명은 이에 한정되지 않으며, 본 발명의 사상과 범위 내에서 다양하게 변경 또는 변형할 수 있음은 본 발명이 속하는 기술분야의 당업자에게 명백한 것이며, 따라서 이와 같은 변경 또는 변형은 첨부된 특허청구범위에 속함을 밝혀둔다.
100 : 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템
110 : 추론 요청 수신부
120 : 추론 수행부
130 : 추론 응답 시간 측정부
140 : 딥러닝 모델 동적 전환부
141 : 조회부
142 : 매개변수 크기 비교부
143 : 동적 전환 조건 판단부
144 : 동적 전환 처리부
150 : 추론 결과 제공부
200 : 사용자 단말
300 : 데이터베이스

Claims (9)

  1. 복수의 사용자 단말로부터 추론 요청을 수신하는 추론 요청 수신부;
    상기 수신한 추론 요청을 현재 적용중인 딥러닝 모델에 입력하여 추론하는 추론 수행부;
    상기 현재 적용중인 딥러닝 모델에서 수행한 각 사용자별 추론에 소요된 추론 응답 시간을 측정하고, 상기 측정한 각 사용자별 추론에 소요된 추론 응답 시간을 평균하여, 평균 추론 응답 시간을 측정하는 추론 응답 시간 측정부; 및
    추론에 필요한 GPU 리소스 부족으로 인한 응답속도 저하를 방지하기 위해서, 상기 측정한 추론 응답 시간을 참조하여, 상기 현재 적용중인 딥러닝 모델을 복수의 딥러닝 모델 중에서 추론 응답 시간을 최적화하는 어느 하나의 딥러닝 모델로 전환하는 딥러닝 모델 동적 전환부;를 포함하며,
    상기 딥러닝 모델 동적 전환부는,
    상기 추론 응답 시간 측정부에서 평균 추론 응답 시간이 측정되면, 기 설정된 응답 시간별 딥러닝 모델 맵을 조회하는 조회부;
    상기 현재 적용중인 딥러닝 모델의 매개변수 크기와 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기를 비교하는 매개변수 크기 비교부;
    상기 비교한 결과 기 설정된 동적 전환 조건에 해당하는지를 판단하는 동적 전환 조건 판단부; 및
    상기 판단한 결과 상기 동적 전환 조건을 만족하면, 상기 현재 적용중인 딥러닝 모델을 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기를 갖는 딥러닝 모델로 전환하는 동적 전화 처리부;를 포함하며,
    상기 추론 수행부는,
    상기 동적 전환 조건 판단부를 통해 판단한 결과 상기 동적 전환 조건을 만족하지 않으면, 상기 현재 적용중인 딥러닝 모델을 그대로 사용하여 상기 사용자 단말의 추론 요청에 따른 추론을 수행하며,
    상기 딥러닝 모델 동적 전환부를 통해 상기 현재 적용중인 딥러닝 모델을 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간을 갖는 딥러닝 모델로 전환하는 것을 완료할 때까지 상기 현재 적용중인 딥러닝 모델을 사용하여 상기 사용자 단말의 추론 요청에 대한 추론을 수행하는 것을 더 포함하는 것을 특징으로 하는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템.
  2. 삭제
  3. 삭제
  4. 청구항 1에 있어서,
    상기 동적 전환 조건은,
    상기 현재 적용중인 딥러닝 모델의 매개변수 크기와 상기 응답 시간별 딥러닝 모델 맵에서 확인한 상기 평균 추론 응답 시간과 동일한 추론 응답 시간에 매칭된 매개변수 크기가 다르고, 매개변수의 크기가 다른 것이 연속적으로 기 설정된 횟수 이상 발생하는 조건인 것을 특징으로 하는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템.
  5. 삭제
  6. 삭제
  7. 청구항 1에 있어서,
    상기 응답 시간별 딥러닝 모델 맵은,
    사전에 테스트를 통해 설정된 것으로서, 주어진 GPU에서 추론한 최소 및 최대 추론 응답 시간에 따라 매개 변수 크기가 다른 딥러닝 모델을 매칭하여 설정한 것을 특징으로 하는 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템.
  8. 삭제
  9. 삭제
KR1020230122961A 2023-09-15 2023-09-15 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템 KR102662500B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020230122961A KR102662500B1 (ko) 2023-09-15 2023-09-15 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020230122961A KR102662500B1 (ko) 2023-09-15 2023-09-15 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템

Publications (1)

Publication Number Publication Date
KR102662500B1 true KR102662500B1 (ko) 2024-05-03

Family

ID=91077146

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020230122961A KR102662500B1 (ko) 2023-09-15 2023-09-15 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템

Country Status (1)

Country Link
KR (1) KR102662500B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220073088A (ko) * 2020-11-26 2022-06-03 인하대학교 산학협력단 자원이 제약된 모바일 기기에서 동적 데이터 변환에 적응하기 위한 전문화된 경량 신경망 교체 방법 및 장치
KR20230037991A (ko) * 2021-09-10 2023-03-17 삼성전자주식회사 인공지능 서비스를 제공하는 디바이스 및 그 동작 방법

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220073088A (ko) * 2020-11-26 2022-06-03 인하대학교 산학협력단 자원이 제약된 모바일 기기에서 동적 데이터 변환에 적응하기 위한 전문화된 경량 신경망 교체 방법 및 장치
KR20230037991A (ko) * 2021-09-10 2023-03-17 삼성전자주식회사 인공지능 서비스를 제공하는 디바이스 및 그 동작 방법

Similar Documents

Publication Publication Date Title
WO2021078027A1 (zh) 构建网络结构优化器的方法、装置及计算机可读存储介质
CN111666416B (zh) 用于生成语义匹配模型的方法和装置
AU2020402099B2 (en) Function-as-a-service cloud chatbot for two-way communication systems
JP7488871B2 (ja) 対話推薦方法、装置、電子機器、記憶媒体ならびにコンピュータプログラム
CN111754985A (zh) 一种语音识别模型的训练以及语音识别的方法和装置
CN107741976A (zh) 智能应答方法、装置、介质和电子设备
US20220358295A1 (en) System and method for a cognitive conversation service
JP2023017921A (ja) コンテンツ推薦とソートモデルトレーニング方法、装置、機器、記憶媒体及びコンピュータプログラム
CN115659995B (zh) 一种文本情感分析方法和装置
CN114356540A (zh) 一种参数更新方法、装置、电子设备和存储介质
CN117332072A (zh) 对话处理、语音摘要提取以及目标对话模型训练方法
CN111667069A (zh) 预训练模型压缩方法、装置和电子设备
KR102371487B1 (ko) 명목형 데이터를 포함하는 데이터를 기반으로 하는 학습 방법 및 장치
KR102662500B1 (ko) 추론 응답 시간을 기반으로 한 딥러닝 모델 동적 전환 시스템
CN117056598A (zh) 服务方案推荐方法、装置、设备及存储介质
KR102662498B1 (ko) 사용자 질의에 대한 추론 응답 시간에 따라 딥러닝 모델을 동적으로 전환하는 방법
CN114282606A (zh) 对象识别方法、装置、计算机可读存储介质及计算机设备
KR20220069403A (ko) 하이라이팅 기능이 포함된 감정 분석 서비스를 위한 방법 및 장치
CN112559099B (zh) 基于用户行为的远程图像显示方法、装置、系统及存储介质
CN116822632B (zh) 一种文本数据的推理方法、装置、存储介质和电子设备
CN116776870B (zh) 意图识别方法、装置、计算机设备及介质
CN117932497B (zh) 一种模型确定方法和相关装置
CN118013019B (zh) 一种答案生成方法、装置、电子设备和存储介质
CN117235237B (zh) 一种文本生成方法及相关装置
US20220286416A1 (en) Method and apparatus for generating account intimacy

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant