KR20230093420A - 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치 - Google Patents

데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치 Download PDF

Info

Publication number
KR20230093420A
KR20230093420A KR1020237009278A KR20237009278A KR20230093420A KR 20230093420 A KR20230093420 A KR 20230093420A KR 1020237009278 A KR1020237009278 A KR 1020237009278A KR 20237009278 A KR20237009278 A KR 20237009278A KR 20230093420 A KR20230093420 A KR 20230093420A
Authority
KR
South Korea
Prior art keywords
data set
node
host node
training task
host
Prior art date
Application number
KR1020237009278A
Other languages
English (en)
Inventor
더쿠이 왕
페이 천
Original Assignee
인스퍼 쑤저우 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인스퍼 쑤저우 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 인스퍼 쑤저우 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20230093420A publication Critical patent/KR20230093420A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0806Multiuser, multiprocessor or multiprocessing cache systems
    • G06F12/0842Multiuser, multiprocessor or multiprocessing cache systems for multiprocessing or multitasking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5083Techniques for rebalancing the load in a distributed system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0866Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches for peripheral storage systems, e.g. disk cache
    • G06F12/0871Allocation or management of cache space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F12/00Accessing, addressing or allocating within memory systems or architectures
    • G06F12/02Addressing or allocation; Relocation
    • G06F12/08Addressing or allocation; Relocation in hierarchically structured memory systems, e.g. virtual memory systems
    • G06F12/0802Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches
    • G06F12/0891Addressing of a memory level in which the access to the desired data or data block requires associative addressing means, e.g. caches using clearing, invalidating or resetting means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5033Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering data affinity
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • G06F9/5044Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals considering hardware capabilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1001Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/104Peer-to-peer [P2P] networks
    • H04L67/1044Group management mechanisms 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/56Provisioning of proxy services
    • H04L67/568Storing data temporarily at an intermediate stage, e.g. caching
    • H04L67/5682Policies or rules for updating, deleting or replacing the stored data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/50Indexing scheme relating to G06F9/50
    • G06F2209/501Performance criteria
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Memory System Of A Hierarchy Structure (AREA)

Abstract

본 발명은 각 호스트 노드의 저장 리소스 정보를 획득하는 단계; 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계; 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계; 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및, 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하는 단계;를 포함하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법을 개시한다. 본 발명은 대응하는 장치를 더 개시한다. 본 발명은 저장 공간이 일시적으로 부족한 노드에서 트레이닝 태스크를 효과적으로 실행할 수 있다.

Description

데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치
본 출원은 2020년 09월 04일에 중국국가지식재산권국에 제출한 출원 번호가 202010923074.8이고 발명의 명칭이 “데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치”인 중국 특허 출원의 우선권을 주장하는 바, 그 전부 내용은 참조로서 본 출원에 인용된다.
본 발명은 컴퓨터 기술 분야에 관한 것으로, 보다 구체적으로 특히 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치에 관한 것이다.
AI(Artificial Intelligence, 인공 지능) 장면에서 트레이닝 태스크가 데이터 세트에 대한 의존도는 매우 높으며, 예를 들어 데이터 세트의 품질은 모델의 정확도에 영향을 미치고, 트레이닝 스크립트의 데이터 세트 로딩 속도는 모델의 트레이닝 속도에 영향을 미친다. AI 트레이닝에 사용되는 데이터 세트는 일반적으로 ImageNet(이미지 네트워크) 데이터 세트, MNIST(손글씨 숫자 인식) 데이터 세트와 같은 오픈 소스 데이터 세트이거나, 의료, 교통과 같은 업종 관련 데이터 세트이고, AI 리소스 관리 플랫폼의 경우, 일반적으로 데이터 세트의 품질을 평가할 수 없으며 알고리즘 담당자의 보증이 필요하다. 일반적으로 알고리즘 담당자가 트레이닝 태스크를 시작할 때 일반적으로 이러한 데이터를 노드에 수동으로 다운로드해야지만 트레이닝 태스크를 시작할 수 있지만, AI 리소스 관리 플랫폼의 경우 일반적으로 데이터 세트의 수동 다운로드를 데이터 세트의 자동 다운로드로 최적화하며, 트레이닝 태스크를 시작할 때 AI 리소스 관리 플랫폼은 모두 트레이닝 태스크에 필요한 데이터 세트를 자동으로 다운로드한다. AI 리소스 관리 플랫폼으로서 알고리즘 담당자에게 다양한 데이터 세트를 제공하고 이러한 데이터 세트를 트레이닝 태스크의 수요에 따라 컴퓨팅 노드에 캐시하지만 노드의 제한된 저장 리소스로 인해 다음과 같은 문제가 발생할 수 있다.
문제 1: 리소스 스케줄링을 수행할 경우, 동일한 노드에 스케줄링하는 대용량 데이터 세트를 사용하는 태스크가 비교적 많으면 노드의 저장 리소스가 부족하여 노드 저장 리소스가 줄어들 수 있지만 CPU(central processing unit, 중앙처리장치), 메모리가 많이 비어 있는 문제가 발생할 수 있다.
문제 2: 클러스터의 모든 컴퓨팅 노드는 동시에 많은 양의 미사용 데이터 세트 캐시를 캐시하여 노드의 저장 리소스가 부족할 수 있으며, 리소스 스케줄링을 수행할 때 데이터 세트를 캐시하기에 적합한 노드가 없음을 발견할 수 있다.
이를 감안하여, 본 발명의 실시예는 트레이닝 태스크가 로컬 데이터 세트를 사용하여 캐시하는 것을 만족하는 전제 하에 클러스터 노드 저장 리소스 로드 밸런싱 효과를 달성할 수 있는 데이터 세트 및 노드 캐시 기반의 스케줄링 전략을 제공하는 것을 목적으로 한다.
상기 목적을 기반으로, 본 발명의 일 양태는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법을 제공하며, 상기 방법은,
각 호스트 노드의 저장 리소스 정보를 획득하는 단계;
트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계;
모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계;
점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및,
실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하는 단계;를 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 방법은,
각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하는 단계; 및,
호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계;를 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,
호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계를 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,
클러스터 내에 Kubernetes(K8s, 컨테이너 클러스터 관리 시스템) 클러스터를 배치하고 Kubernetes 클러스터를 기반으로 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 방법은,
호스트 노드 중의 저장 리소스 정보에 변화가 발생하였는지 여부를 모니터링하는 단계; 및,
호스트 노드 중의 저장 리소스 정보에 변화가 발생한 것으로 모니터링된 것에 응답하여, 변화된 저장 리소스 정보를 실시간으로 보고하는 단계;를 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,
각 호스트 노드 중 모든 데이터 세트 캐시의 사용 빈도를 획득하고, 사용 빈도에 따라 모든 데이터 세트 캐시 중의 폐기된 데이터 세트 캐시를 획득하며, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,
각 호스트 노드 중의 각 데이터 세트 캐시의 크기를 판단하여 기설정된 크기 임계값보다 작은 데이터 세트 캐시를 폐기된 데이터 세트 캐시로 사용하고, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.
본 발명의 실시예의 다른 양태는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치를 더 제공하며, 상기 장치는,
각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈;
트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈;
모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈;
점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈; 및,
실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈;을 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에서, 장치는,
각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된 캐시 판단 모듈을 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에서, 호스트 노드 선별 모듈은 또한,
호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된다.
본 발명은 적어도 하기와 같은 유익한 기술적 효과를 갖는다. 본 발명은 클러스터 환경에서 노드 저장 및 트레이닝 태스크에 필요한 데이터 세트 크기를 기반으로 노드를 선택하는 스케줄링 전략이며, 본 발명을 기반으로, AI 트레이닝 태스크는 필요한 데이터 세트가 존재하는 호스트 노드 또는 노드 저장 공간이 충분한 호스트 노드에서 우선 실행될 수 있고, 동시에 클러스터 전체 노드의 나머지 공간이 부족한 경우 노드 데이터 세트 캐시 삭제 전략을 정의하여 트레이닝 태스크를 저장 공간이 일시적으로 부족한 호스트 노드에서 실행할 수 있다. 이러한 노드 선택 전략을 기반으로, 데이터 세트 다운로드 시간 및 사용 가능한 노드의 대기 시간을 효과적으로 줄일 수 있어 AI 관리 플랫폼의 경쟁력을 향상시킨다.
본 발명의 실시예 또는 종래의 기술의 기술적 해결수단을 보다 명확하게 설명하기 위해, 아래에 실시예 또는 종래의 기술에 사용되어야 하는 도면을 간단히 소개할 것이며, 분명한 것은 아래에서 설명되는 도면은 본 발명의 일부 실시예일 뿐 본 기술분야의 통상의 기술자들은 진보성 창출에 힘을 쓰지 않은 전제하에서 이러한 도면으로부터 다른 실시예를 얻을 수 있을 것이다.
도 1은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 예시적 블록도를 도시한다.
도 2는 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 흐름도를 도시한다.
도 3은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 따른 실시예의 예시적 블록도를 도시한다.
본 발명의 목적, 기술적 해결수단 및 장점이 보다 더 명확해지도록 하기 위해, 아래 구체적인 실시예를 결부하고 도면을 참조하여 본 발명의 실시예에 대해 더 상세하게 설명한다.
설명해야 할 것은, 본 발명의 실시예에서 “제1” 및 “제2”를 사용하는 모든 표현은 모두 명칭은 동일하지만 엔티티가 동일하지 않거나 파라미터가 동일하지 않은 2개의 개체를 구분하기 위한 것이고, 보다시피 “제1” 및 “제2”는 표현의 편의를 위한 것일 뿐 본 발명의 실시예에 대한 한정으로 이해해서는 안되며, 후속 실시예에서는 이에 대해 더이상 일일이 설명하지 않는다.
상기 목적을 기반으로 본 발명의 실시예의 제1 양태에서는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 실시예를 제공한다. 도 1은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 예시적 블록도를 도시한다. 도 1에 도시된 실시예에서, 상기 방법은 적어도 하기와 같은 단계를 포함한다.
단계(S100)에서, 각 호스트 노드의 저장 리소스 정보를 획득한다.
단계(S200)에서, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별한다.
단계(S300)에서, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화한다.
단계(S400)에서, 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택한다.
단계(S500)에서, 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행한다.
본 발명의 일부 실시예에서, 도 2는 본 발명의 데이터 세트 및 호스트 노드(노드로 약칭할 수 있음) 캐시 기반의 스케줄링 방법에 따른 실시예의 흐름도를 도시하고, 도 2에 도시된 바와 같이, 본 발명은 Kubernetes의 스케줄러 확장 메커니즘을 기반으로 자체 개발한 노드 에이전트(agent)를 사용하여 노드의 모든 데이터 세트 상태를 스케줄러에 보고함과 동시에 스케줄러는 AI 리소스 관리 플랫폼의 트레이닝 태스크 실행 상태를 조회하고 노드의 남은 저장 공간, 데이터 세트 캐시의 크기, 데이터 세트 캐시 사용 횟수, 데이터 세트 캐시 정리 전략과 같은 요소에 따라 클러스터의 노드를 점수화하며, 상기 점수를 Kubernetes의 다른 스케줄링 전략과 결합하여 트레이닝 태스크를 실행하기 위한 최적의 노드를 선택한다.
본 발명의 일부 실시예에서, 단계(S100)에 따르면, 저장 공간 nodeiDiskTotalSize, 저장 유휴 공간 nodeiDiskFreeSize, 데이터 세트 노드 캐시 정보 리스트(데이터 세트 고유 식별자 dataSetjId, 크기 dataSetjSize, 최근 한 달 동안의 사용 횟수 dataSetjUseNumber)를 포함하는 노드의 저장 리소스 정보를 수집한다. 단계(S200)에 따르면, 사용자는 리소스 관리 플랫폼에서 트레이닝 태스크를 제출하되, 여기서 상기 트레이닝 태스크의 운영 정보가 포함하여 사용한 데이터 세트 정보는 데이터 세트 명칭, 상기 태스크(task)에 사용되는 데이터 세트 고유 식별자 dataSettaskId, 상기 태스크에 사용되는 데이터 세트 크기 dataSettaskSize, 및 트레이닝 태스크를 실행하기 위한 다른 기초 리소스 정보(CPU, 메모리, GPU(graphics processing unit, 그래픽 처리 장치) 등)를 포함하고, 스케줄러는 상기 트레이닝 태스크의 리소스 요청을 받은 후, 우선 kubernetes 디폴트 알고리즘을 사용하여 CPU, 메모리, GPU 카드가 충족한 노드를 선별한다. 단계(S300)에 따르면, 클러스터 중 모든 노드의 공간 nodeiDiskFreeSize가 모두 데이터 세트에 필요한 공간 dataSetjSize를 만족하지 않을 경우, 노드 nodei에 대해, 상기 노드가 더이상 사용하지 않는 데이터 세트 노드 캐시가 트레이닝 태스크에 사용되는 데이터 세트 캐시 크기보다 크거나 같을 경우, 즉
Figure pct00001
이면, 상기 노드를 대안적 노드로 사용하고; 노드 nodei에 대해, 삭제해야 하는 데이터 세트 노드 캐시를 선택하여 노드 데이터 세트 캐시에 대해 모델을 구축하며, 모델에 따라 각 호스트 노드를 점수화한다. 단계(S400)에 따르면, 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기에 적절한 실행할 호스트 노드를 선택한다. 단계(S500)에 따르면, 리소스 스케줄링 모듈이 적절한 노드를 선택한 후 삭제해야 하는 데이터 세트 캐시 리스트를 에이전트에 알리고, 에이전트는 데이터 세트 캐시를 삭제한다. 삭제 동작은 노드 파일을 삭제하는 것이고, 데이터 세트 다운로드는 원격단에서 http(Hyper Text Transfer Protocol, 하이퍼텍스트 전송 프로토콜) 서비스를 이용하여 다운로드하기 때문에 데이터 세트 캐시 삭제 속도가 데이터 세트 캐시 다운로드 속도보다 훨씬 빠를 수 밖에 없다. 이 경우, 트레이닝 태스크를 상기 노드에 스케줄링한 후 데이터 세트의 다운로드를 즉시 시작할 수 있다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면 방법은,
각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하는 단계; 및,
호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계;를 더 포함한다.
본 발명의 일부 실시예에서, 클러스터 중의 호스트 노드에 대해, 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트가 이미 존재(즉 호스트에 상기 데이터 세트 캐시가 존재)하는 경우, 우선 상기 호스트 노드를 사용하여 트레이닝 태스크를 실행함으로써 데이터 세트의 반복 다운로드를 방지한다. 클러스터 중 모든 노드에 상기 데이터 세트의 노드 캐시가 모두 존재하지 않는 경우, 노드 남은 공간 nodeiDiskFreeSize가 가장 큰 노드를 선택하여 데이터 세트를 다운로드하고 트레이닝 태스크를 실행한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,
호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 스케줄러는 상기 트레이닝 캐스크의 리소스 요청을 받은 후, 우선 kubernetes 디폴트 알고리즘을 사용하여 CPU, 메모리, GPU 카드가 충족한 노드를 선별한다. 스케줄링 전략을 기반으로 노드 남은 공간 dataSetjSize가 가장 큰 노드를 선택하여 데이터 세트를 다운로드하고 트레이닝 태스크를 실행한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,
클러스터 내에 Kubernetes 클러스터를 배치하고, Kubernetes 클러스터를 기반으로 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 클러스터 내에 Kubernetes 클러스터를 배치하고 각 호스트 노드에 자체 개발한 에이전트를 배치하여, 저장 공간 nodeiDiskTotalSize, 저장 유휴 공간 nodeiDiskFreeSize, 데이터 세트 노드 캐시 정보 리스트(데이터 세트 고유 식별자 dataSetjId, 크기 dataSetjSize, 최근 한 달 동안의 사용 횟수 dataSetjUseNumber)를 포함하는 노드의 저장 리소스 정보를 수집한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 방법은,
호스트 노드 중의 저장 리소스 정보에 변화가 발생하였는지 여부를 모니터링하는 단계; 및,
호스트 노드 중의 저장 리소스 정보에 변화가 발생한 것으로 모니터링된 것에 응답하여, 변화된 저장 리소스 정보를 실시간으로 보고하는 단계;를 더 포함한다.
본 발명의 일부 실시예에서, 저장 리소스 정보가 변경될 경우, 저장 리소스 정보를 실시간으로 리소스 스케줄링 모듈에 보고해야 하며, 리소스 스케줄링 모듈은 이를 기반으로 노드 선택 및 데이터 세트 노드 캐시 삭제 전략을 수행한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,
각 호스트 노드 중 모든 데이터 세트 캐시의 사용 빈도를 획득하고, 사용 빈도에 따라 모든 데이터 세트 캐시 중의 폐기된 데이터 세트 캐시를 획득하며, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 클러스터 중 모든 노드의 공간 nodeiDiskFreeSize가 모두 데이터 세트에 필요한 공간 dataSetjSize를 만족하지 않을 경우, 노드 nodei에 대해, 상기 노드가 더이상 사용하지 않는 데이터 세트 노드 캐시가 트레이닝 태스크에 사용되는 데이터 세트 캐시 크기보다 크거나 같을 경우, 즉
Figure pct00002
이면, 상기 노드를 대안적 노드로 사용하고; 노드 nodei에 대해, 삭제해야 하는 데이터 세트 노드 캐시를 선택하여 노드 데이터 세트 캐시에 대해 모델을 구축한다.
노드의 데이터 세트 캐시 datasetj의 최근 한 달 동안의 사용 횟수가 많을수록 상기 데이터 세트의 향후 일정한 시간동안 다른 트레이닝 태스크에 의해 사용되는 가능성이 비교적 큰 것을 의미하며, 새로운 트레이닝 태스크에서 상기 데이터 세트를 사용할 경우 다시 다운로드되는 것을 방지하기 위해 이번 스케줄링 규칙에서 상기 데이터 세트 캐시를 가능한 삭제하도록 선택하지 않고, 상기 데이터 세트를 선택하여 삭제하는 가중치를 하기와 같이 정의한다.
Figure pct00003
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,
각 호스트 노드 중의 각 데이터 세트 캐시의 크기를 판단하여 기설정된 크기 임계값보다 작은 데이터 세트 캐시를 폐기된 데이터 세트 캐시로 사용하고, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.
본 발명의 일부 실시예에서, 데이터 세트 노드 캐시의 크기가 클수록 데이터 세트 노드 캐시를 삭제하는 시간을 줄이기 위해 가능한 큰 데이터 세트 캐시를 선택하여 삭제하지 않도록 하고, 즉 상기 빅 데이터 세트 캐시를 삭제할 가능성이 낮으며, 상기 데이터 세트를 선택하여 삭제하는 가중치를 하기와 같이 정의한다.
Figure pct00004
본 발명의 일부 실시예에서, 노드 데이터 세트에 대해, 하기 공식에 따라 계산하고 배열한다.
Figure pct00005
최소 수의 처음 M개의 데이터 세트를 선택하되, 여기서 M은 하기 조건을 만족한다.
Figure pct00006
노드의 삭제할 데이터 세트 캐시를 요인으로 하는 노드 점수 기준을 설정하고 하기와 같이 점수가 큰 노드를 우선적으로 선택한다.
Figure pct00007
본 발명의 실시예의 다른 양태에서는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 실시예를 제공한다. 도 3은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 따른 실시예의 예시적 블록도를 도시하고, 도 3에 도시된 바와 같이, 상기 장치(101)는,
각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈(11);
트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈(12);
모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈(13);
점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈(14); 및,
실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈(15);을 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에 따르면, 장치(101)는,
각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된 캐시 판단 모듈(미도시)을 더 포함한다.
본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에 따르면, 호스트 노드 선별 모듈(12)은 또한,
호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된다.
마찬가지로, 본 기술분야의 기술자는 이상 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따라 서술된 모든 실시형태, 특징 및 장점이 마찬가지로 본 발명에 따른 장치에 적용됨을 이해해야 할 것이다. 본 발명의 간결함을 위해 여기서 더이상 반복 서술하지 않는다.
특히 지적해야 할 것은, 본 기술분야의 통상의 기술자는 상기 실시예 방법 중의 전부 또는 일부 흐름을 구현하려면 컴퓨터 프로그램을 통해 관련 하드웨어를 명령하여 완료할 수 있음을 이해할 수 있을 것이며, 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 프로그램은 컴퓨터 판독 가능 저장 매체에 저장할 수 있고, 상기 프로그램이 실행될 경우, 상기 각 방법의 실시예의 흐름을 포함할 수 있다. 여기서, 프로그램의 저장 매체는 디스크, 광디스크, 판독 전용 메모리(ROM, Read-Only Memory) 또는 랜덤 액세스 메모리(RAM, Random Access Memory) 등일 수 있다. 상기 컴퓨터 프로그램의 실시예는 이에 대응하는 전술한 임의의 방법 실시예와 동일하거나 유사한 효과를 달성할 수 있다.
본 기술분야의 기술자는, 여기서 설명된 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들의 조합을 구현될 수 있음을 더 이해할 것이다. 하드웨어와 소프트웨어의 이러한 호환성을 명확하게 설명하기 위해 다양한 예시적인 구성 요소, 블록, 모듈, 회로 및 단계의 기능에 대해 일반적으로 설명하였다. 이러한 기능이 소프트웨어로 구현되는지 하드웨어로 구현되는지 여부는 특정 응용 프로그램과 전체 시스템에 적용되는 설계 제약에 따라 결정된다. 본 기술분야의 기술자는 각 특정 응용 프로그램에 대해 다양한 방식으로 구현할 수 있지만, 이러한 구현 결정은 본 발명의 실시예의 개시 범위를 벗어나는 것으로 해석되어서는 안된다.
이해해야 할 것은, 문맥상 예외를 명확하게 지원하지 않는 한 본문에 사용되는 단수 형태 “하나”는 복수형태를 포함하도록 의도된다. 더 이해해야 할 것은, 본문에 사용되는 “및/또는”은 하나 이상의 이상 관련 항목을 포함하는 임의의 모든 가능한 조합을 의미한다.
상기 본 발명의 실시예에 개시된 실시예의 번호는 설명을 위한 것일 뿐 실시예의 장단점을 나타내는 것이 아니다.
본 기술분야에 속하는 통상의 기술자가 이해해야 할 것은, 이상 임의의 실시예에 대한 논의는 단지 예시적인 것으로, 본 발명의 실시예에 개시된 범위(청구범위를 포함)가 이러한 예에 한정되는 것으로 암시하는 것이 아니며; 본 발명의 실시예의 아이디어에 따라 이상 실시예 또는 상이한 실시예에서의 기술 특징은 서로 조합될 수 있고, 상술한 본 발명의 실시예의 상이한 양태의 다양한 기타 변화가 존재하며 이들의 간략함을 위해 세부 사항에서 제공하지 않는다. 따라서, 본 발명의 실시예의 정신과 원칙 이내에서 이루어진 모든 임의의 생략, 수정, 등가 교체, 개선 등은 모두 본 발명의 실시예의 보호 범위 이내에 포함되어야 한다.

Claims (10)

  1. 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 있어서,
    상기 방법은,
    각 호스트 노드의 저장 리소스 정보를 획득하는 단계;
    트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계;
    모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계;
    상기 점수화한 결과에 따라 모든 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및,
    상기 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 상기 실행할 호스트 노드에서 상기 트레이닝 태스크를 실행하는 단계;를 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  2. 제1항에 있어서,
    상기 방법은,
    각각의 상기 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하는 단계; 및,
    상기 호스트 노드에 상기 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 상기 데이터 세트 캐시가 포함된 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  3. 제1항에 있어서,
    상기 트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,
    상기 호스트 노드에서 상기 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 상기 미정 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  4. 제1항에 있어서,
    상기 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,
    클러스터 내에 Kubernetes 클러스터를 배치하고, Kubernetes 클러스터를 기반으로 상기 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  5. 제1항에 있어서,
    상기 방법은,
    상기 호스트 노드 중의 상기 저장 리소스 정보에 변화가 발생하였는지 여부를 모니터링하는 단계; 및,
    상기 호스트 노드 중의 상기 저장 리소스 정보에 변화가 발생한 것으로 모니터링된 것에 응답하여, 변화된 상기 저장 리소스 정보를 실시간으로 보고하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  6. 제1항에 있어서,
    상기 모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계는,
    각 상기 호스트 노드 중 모든 데이터 세트 캐시의 사용 빈도를 획득하고, 상기 사용 빈도에 따라 모든 상기 데이터 세트 캐시 중의 상기 폐기된 데이터 세트 캐시를 획득하며, 상기 폐기된 데이터 세트 캐시에 따라 상기 호스트 노드를 점수화하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  7. 제1항에 있어서,
    상기 모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계는,
    각 상기 호스트 노드 중의 각 데이터 세트 캐시의 크기를 판단하여 기설정된 크기 임계값보다 작은 상기 데이터 세트 캐시를 상기 폐기된 데이터 세트 캐시로 사용하고, 상기 폐기된 데이터 세트 캐시에 따라 상기 호스트 노드를 점수화하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
  8. 데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 있어서,
    상기 장치는,
    각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈;
    트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈;
    모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈;
    상기 점수화한 결과에 따라 모든 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈; 및,
    상기 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 상기 실행할 호스트 노드에서 상기 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈;을 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.
  9. 제8항에 있어서,
    각각의 상기 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 상기 호스트 노드에 상기 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 상기 데이터 세트 캐시가 포함된 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하도록 구성된 캐시 판단 모듈을 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.
  10. 제8항에 있어서,
    상기 호스트 노드 선별 모듈은 또한,
    상기 호스트 노드에서 상기 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 상기 미정 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하도록 구성되는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.
KR1020237009278A 2020-09-04 2021-07-30 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치 KR20230093420A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202010923074.8A CN112202837B (zh) 2020-09-04 2020-09-04 一种基于数据集与节点缓存的调度方法和装置
CN202010923074.8 2020-09-04
PCT/CN2021/109626 WO2022048365A1 (zh) 2020-09-04 2021-07-30 一种基于数据集与节点缓存的调度方法和装置

Publications (1)

Publication Number Publication Date
KR20230093420A true KR20230093420A (ko) 2023-06-27

Family

ID=74006276

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237009278A KR20230093420A (ko) 2020-09-04 2021-07-30 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치

Country Status (5)

Country Link
US (1) US11698863B1 (ko)
EP (1) EP4203437A4 (ko)
KR (1) KR20230093420A (ko)
CN (1) CN112202837B (ko)
WO (1) WO2022048365A1 (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112202837B (zh) 2020-09-04 2022-05-17 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置
CN112925640A (zh) * 2021-02-10 2021-06-08 杭州幻方人工智能基础研究有限公司 一种集群训练节点分配方法、电子设备
CN112905325B (zh) * 2021-02-10 2023-01-10 山东英信计算机技术有限公司 一种分布式数据缓存加速训练的方法、系统及介质
CN113094183B (zh) * 2021-06-09 2021-09-17 苏州浪潮智能科技有限公司 Ai训练平台的训练任务创建方法、装置、系统及介质
CN116339968A (zh) * 2021-12-24 2023-06-27 华为云计算技术有限公司 一种计算资源和缓存资源调度方法、装置及系统
CN115904673B (zh) * 2023-03-09 2023-06-27 华南师范大学 云计算资源并发调度方法、装置、系统、设备及介质

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10666730B2 (en) * 2017-10-28 2020-05-26 Tusimple, Inc. Storage architecture for heterogeneous multimedia data
US11954565B2 (en) * 2018-07-06 2024-04-09 Qliktech International Ab Automated machine learning system
US10893120B2 (en) * 2018-09-19 2021-01-12 International Business Machines Corporation Data caching and data-aware placement to accelerate machine learning applications
CN110502487B (zh) * 2019-08-09 2022-11-22 苏州浪潮智能科技有限公司 一种缓存管理方法与装置
CN110795217B (zh) * 2019-09-27 2022-07-15 广东浪潮大数据研究有限公司 一种基于资源管理平台的任务分配方法及系统
CN111158852A (zh) * 2019-12-14 2020-05-15 苏州浪潮智能科技有限公司 一种训练资源动态分配方法、系统、终端及存储介质
CN111444019B (zh) * 2020-03-31 2024-01-26 中国科学院自动化研究所 云端协同的深度学习模型分布式训练方法及系统
CN112202837B (zh) * 2020-09-04 2022-05-17 苏州浪潮智能科技有限公司 一种基于数据集与节点缓存的调度方法和装置

Also Published As

Publication number Publication date
CN112202837A (zh) 2021-01-08
WO2022048365A1 (zh) 2022-03-10
EP4203437A1 (en) 2023-06-28
EP4203437A4 (en) 2023-09-20
US20230244605A1 (en) 2023-08-03
CN112202837B (zh) 2022-05-17
US11698863B1 (en) 2023-07-11

Similar Documents

Publication Publication Date Title
KR20230093420A (ko) 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치
JP3942941B2 (ja) 通信装置及びプラグインモジュール制御方法及びコンピュータに実行させるためのプログラム及びコンピュータに実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
US9967205B2 (en) Resource downloading method and apparatus
CN110221901A (zh) 容器资源创建方法、装置、设备及计算机可读存储介质
US20240061712A1 (en) Method, apparatus, and system for creating training task on ai training platform, and medium
US20230153100A1 (en) Method and apparatus for managing model file in inference application
CN117130792B (zh) 缓存对象的处理方法、装置、设备及存储介质
CN112905325B (zh) 一种分布式数据缓存加速训练的方法、系统及介质
CN107181773A (zh) 分布式存储系统的数据存储及数据管理方法、设备
CN108197160A (zh) 一种图片加载方法及装置
CN109995863B (zh) 一种动态资源下载方法、装置、电子设备及存储介质
CN108121514B (zh) 元信息更新方法、装置、计算设备及计算机存储介质
CN115686825A (zh) 资源管理方法、装置、服务器及存储介质
CN105468603B (zh) 数据选择方法及装置
CN113986495A (zh) 一种任务执行方法、装置、设备及存储介质
CN113127179A (zh) 资源调度方法、装置、电子设备及计算机可读介质
CN110780983A (zh) 任务异常处理方法、装置、计算机设备以及存储介质
CN111800446A (zh) 调度处理方法、装置、设备和存储介质
CN110213314B (zh) 确定存储节点的方法、装置、服务器
CN114884974B (zh) 一种数据复用方法、系统及计算设备
CN115840770B (zh) 基于分布式环境下的本地缓存数据处理方法和相关设备
TWI710954B (zh) 超融合基礎架構的資料快取方法與節點、機器學習框架及檔案系統代理程式
Lee et al. A study on CSD-based storage engine scheduling for high-speed processing of large-scale data
CN116226081A (zh) 数据库弹性伸缩方法、装置、电子设备及存储介质
CN117493315A (zh) 一种重复请求判断方法、系统、存储介质及电子装置