KR20230093420A

KR20230093420A - 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치

Info

Publication number: KR20230093420A
Application number: KR1020237009278A
Authority: KR
Inventors: 더쿠이 왕; 페이 천
Original assignee: 인스퍼 쑤저우 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date: 2020-09-04
Filing date: 2021-07-30
Publication date: 2023-06-27
Also published as: CN112202837A; WO2022048365A1; EP4203437A1; EP4203437A4; US20230244605A1; CN112202837B; US11698863B1

Abstract

본 발명은 각 호스트 노드의 저장 리소스 정보를 획득하는 단계; 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계; 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계; 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및, 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하는 단계;를 포함하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법을 개시한다. 본 발명은 대응하는 장치를 더 개시한다. 본 발명은 저장 공간이 일시적으로 부족한 노드에서 트레이닝 태스크를 효과적으로 실행할 수 있다.

Description

데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치

본 출원은 2020년 09월 04일에 중국국가지식재산권국에 제출한 출원 번호가 202010923074.8이고 발명의 명칭이 “데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치”인 중국 특허 출원의 우선권을 주장하는 바, 그 전부 내용은 참조로서 본 출원에 인용된다.

본 발명은 컴퓨터 기술 분야에 관한 것으로, 보다 구체적으로 특히 데이터 세트 및 노드 캐시 기반의 스케줄링 방법 및 장치에 관한 것이다.

AI(Artificial Intelligence, 인공 지능) 장면에서 트레이닝 태스크가 데이터 세트에 대한 의존도는 매우 높으며, 예를 들어 데이터 세트의 품질은 모델의 정확도에 영향을 미치고, 트레이닝 스크립트의 데이터 세트 로딩 속도는 모델의 트레이닝 속도에 영향을 미친다. AI 트레이닝에 사용되는 데이터 세트는 일반적으로 ImageNet(이미지 네트워크) 데이터 세트, MNIST(손글씨 숫자 인식) 데이터 세트와 같은 오픈 소스 데이터 세트이거나, 의료, 교통과 같은 업종 관련 데이터 세트이고, AI 리소스 관리 플랫폼의 경우, 일반적으로 데이터 세트의 품질을 평가할 수 없으며 알고리즘 담당자의 보증이 필요하다. 일반적으로 알고리즘 담당자가 트레이닝 태스크를 시작할 때 일반적으로 이러한 데이터를 노드에 수동으로 다운로드해야지만 트레이닝 태스크를 시작할 수 있지만, AI 리소스 관리 플랫폼의 경우 일반적으로 데이터 세트의 수동 다운로드를 데이터 세트의 자동 다운로드로 최적화하며, 트레이닝 태스크를 시작할 때 AI 리소스 관리 플랫폼은 모두 트레이닝 태스크에 필요한 데이터 세트를 자동으로 다운로드한다. AI 리소스 관리 플랫폼으로서 알고리즘 담당자에게 다양한 데이터 세트를 제공하고 이러한 데이터 세트를 트레이닝 태스크의 수요에 따라 컴퓨팅 노드에 캐시하지만 노드의 제한된 저장 리소스로 인해 다음과 같은 문제가 발생할 수 있다.

문제 1: 리소스 스케줄링을 수행할 경우, 동일한 노드에 스케줄링하는 대용량 데이터 세트를 사용하는 태스크가 비교적 많으면 노드의 저장 리소스가 부족하여 노드 저장 리소스가 줄어들 수 있지만 CPU(central processing unit, 중앙처리장치), 메모리가 많이 비어 있는 문제가 발생할 수 있다.

문제 2: 클러스터의 모든 컴퓨팅 노드는 동시에 많은 양의 미사용 데이터 세트 캐시를 캐시하여 노드의 저장 리소스가 부족할 수 있으며, 리소스 스케줄링을 수행할 때 데이터 세트를 캐시하기에 적합한 노드가 없음을 발견할 수 있다.

이를 감안하여, 본 발명의 실시예는 트레이닝 태스크가 로컬 데이터 세트를 사용하여 캐시하는 것을 만족하는 전제 하에 클러스터 노드 저장 리소스 로드 밸런싱 효과를 달성할 수 있는 데이터 세트 및 노드 캐시 기반의 스케줄링 전략을 제공하는 것을 목적으로 한다.

상기 목적을 기반으로, 본 발명의 일 양태는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법을 제공하며, 상기 방법은,

각 호스트 노드의 저장 리소스 정보를 획득하는 단계;

트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계;

모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계;

점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및,

실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하는 단계;를 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 방법은,

각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하는 단계; 및,

호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계;를 더 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,

호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하는 단계를 더 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,

클러스터 내에 Kubernetes(K8s, 컨테이너 클러스터 관리 시스템) 클러스터를 배치하고 Kubernetes 클러스터를 기반으로 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함한다.

호스트 노드 중의 저장 리소스 정보에 변화가 발생하였는지 여부를 모니터링하는 단계; 및,

호스트 노드 중의 저장 리소스 정보에 변화가 발생한 것으로 모니터링된 것에 응답하여, 변화된 저장 리소스 정보를 실시간으로 보고하는 단계;를 더 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에서, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,

각 호스트 노드 중 모든 데이터 세트 캐시의 사용 빈도를 획득하고, 사용 빈도에 따라 모든 데이터 세트 캐시 중의 폐기된 데이터 세트 캐시를 획득하며, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.

각 호스트 노드 중의 각 데이터 세트 캐시의 크기를 판단하여 기설정된 크기 임계값보다 작은 데이터 세트 캐시를 폐기된 데이터 세트 캐시로 사용하고, 폐기된 데이터 세트 캐시에 따라 호스트 노드를 점수화하는 단계를 더 포함한다.

본 발명의 실시예의 다른 양태는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치를 더 제공하며, 상기 장치는,

각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈;

트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈;

모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈;

점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈; 및,

실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈;을 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에서, 장치는,

각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된 캐시 판단 모듈을 더 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에서, 호스트 노드 선별 모듈은 또한,

호스트 노드에서 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 미정 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된다.

본 발명은 적어도 하기와 같은 유익한 기술적 효과를 갖는다. 본 발명은 클러스터 환경에서 노드 저장 및 트레이닝 태스크에 필요한 데이터 세트 크기를 기반으로 노드를 선택하는 스케줄링 전략이며, 본 발명을 기반으로, AI 트레이닝 태스크는 필요한 데이터 세트가 존재하는 호스트 노드 또는 노드 저장 공간이 충분한 호스트 노드에서 우선 실행될 수 있고, 동시에 클러스터 전체 노드의 나머지 공간이 부족한 경우 노드 데이터 세트 캐시 삭제 전략을 정의하여 트레이닝 태스크를 저장 공간이 일시적으로 부족한 호스트 노드에서 실행할 수 있다. 이러한 노드 선택 전략을 기반으로, 데이터 세트 다운로드 시간 및 사용 가능한 노드의 대기 시간을 효과적으로 줄일 수 있어 AI 관리 플랫폼의 경쟁력을 향상시킨다.

본 발명의 실시예 또는 종래의 기술의 기술적 해결수단을 보다 명확하게 설명하기 위해, 아래에 실시예 또는 종래의 기술에 사용되어야 하는 도면을 간단히 소개할 것이며, 분명한 것은 아래에서 설명되는 도면은 본 발명의 일부 실시예일 뿐 본 기술분야의 통상의 기술자들은 진보성 창출에 힘을 쓰지 않은 전제하에서 이러한 도면으로부터 다른 실시예를 얻을 수 있을 것이다.
도 1은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 예시적 블록도를 도시한다.
도 2는 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 흐름도를 도시한다.
도 3은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 따른 실시예의 예시적 블록도를 도시한다.

본 발명의 목적, 기술적 해결수단 및 장점이 보다 더 명확해지도록 하기 위해, 아래 구체적인 실시예를 결부하고 도면을 참조하여 본 발명의 실시예에 대해 더 상세하게 설명한다.

설명해야 할 것은, 본 발명의 실시예에서 “제1” 및 “제2”를 사용하는 모든 표현은 모두 명칭은 동일하지만 엔티티가 동일하지 않거나 파라미터가 동일하지 않은 2개의 개체를 구분하기 위한 것이고, 보다시피 “제1” 및 “제2”는 표현의 편의를 위한 것일 뿐 본 발명의 실시예에 대한 한정으로 이해해서는 안되며, 후속 실시예에서는 이에 대해 더이상 일일이 설명하지 않는다.

상기 목적을 기반으로 본 발명의 실시예의 제1 양태에서는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 실시예를 제공한다. 도 1은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따른 실시예의 예시적 블록도를 도시한다. 도 1에 도시된 실시예에서, 상기 방법은 적어도 하기와 같은 단계를 포함한다.

단계(S100)에서, 각 호스트 노드의 저장 리소스 정보를 획득한다.

단계(S200)에서, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별한다.

단계(S300)에서, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화한다.

단계(S400)에서, 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택한다.

단계(S500)에서, 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행한다.

본 발명의 일부 실시예에서, 도 2는 본 발명의 데이터 세트 및 호스트 노드(노드로 약칭할 수 있음) 캐시 기반의 스케줄링 방법에 따른 실시예의 흐름도를 도시하고, 도 2에 도시된 바와 같이, 본 발명은 Kubernetes의 스케줄러 확장 메커니즘을 기반으로 자체 개발한 노드 에이전트(agent)를 사용하여 노드의 모든 데이터 세트 상태를 스케줄러에 보고함과 동시에 스케줄러는 AI 리소스 관리 플랫폼의 트레이닝 태스크 실행 상태를 조회하고 노드의 남은 저장 공간, 데이터 세트 캐시의 크기, 데이터 세트 캐시 사용 횟수, 데이터 세트 캐시 정리 전략과 같은 요소에 따라 클러스터의 노드를 점수화하며, 상기 점수를 Kubernetes의 다른 스케줄링 전략과 결합하여 트레이닝 태스크를 실행하기 위한 최적의 노드를 선택한다.

본 발명의 일부 실시예에서, 단계(S100)에 따르면, 저장 공간 node_iDiskTotalSize, 저장 유휴 공간 node_iDiskFreeSize, 데이터 세트 노드 캐시 정보 리스트(데이터 세트 고유 식별자 dataSet_jId, 크기 dataSet_jSize, 최근 한 달 동안의 사용 횟수 dataSet_jUseNumber)를 포함하는 노드의 저장 리소스 정보를 수집한다. 단계(S200)에 따르면, 사용자는 리소스 관리 플랫폼에서 트레이닝 태스크를 제출하되, 여기서 상기 트레이닝 태스크의 운영 정보가 포함하여 사용한 데이터 세트 정보는 데이터 세트 명칭, 상기 태스크(task)에 사용되는 데이터 세트 고유 식별자 dataSet_taskId, 상기 태스크에 사용되는 데이터 세트 크기 dataSet_taskSize, 및 트레이닝 태스크를 실행하기 위한 다른 기초 리소스 정보(CPU, 메모리, GPU(graphics processing unit, 그래픽 처리 장치) 등)를 포함하고, 스케줄러는 상기 트레이닝 태스크의 리소스 요청을 받은 후, 우선 kubernetes 디폴트 알고리즘을 사용하여 CPU, 메모리, GPU 카드가 충족한 노드를 선별한다. 단계(S300)에 따르면, 클러스터 중 모든 노드의 공간 node_iDiskFreeSize가 모두 데이터 세트에 필요한 공간 dataSet_jSize를 만족하지 않을 경우, 노드 node_i에 대해, 상기 노드가 더이상 사용하지 않는 데이터 세트 노드 캐시가 트레이닝 태스크에 사용되는 데이터 세트 캐시 크기보다 크거나 같을 경우, 즉

이면, 상기 노드를 대안적 노드로 사용하고; 노드 node_i에 대해, 삭제해야 하는 데이터 세트 노드 캐시를 선택하여 노드 데이터 세트 캐시에 대해 모델을 구축하며, 모델에 따라 각 호스트 노드를 점수화한다. 단계(S400)에 따르면, 점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기에 적절한 실행할 호스트 노드를 선택한다. 단계(S500)에 따르면, 리소스 스케줄링 모듈이 적절한 노드를 선택한 후 삭제해야 하는 데이터 세트 캐시 리스트를 에이전트에 알리고, 에이전트는 데이터 세트 캐시를 삭제한다. 삭제 동작은 노드 파일을 삭제하는 것이고, 데이터 세트 다운로드는 원격단에서 http(Hyper Text Transfer Protocol, 하이퍼텍스트 전송 프로토콜) 서비스를 이용하여 다운로드하기 때문에 데이터 세트 캐시 삭제 속도가 데이터 세트 캐시 다운로드 속도보다 훨씬 빠를 수 밖에 없다. 이 경우, 트레이닝 태스크를 상기 노드에 스케줄링한 후 데이터 세트의 다운로드를 즉시 시작할 수 있다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면 방법은,

본 발명의 일부 실시예에서, 클러스터 중의 호스트 노드에 대해, 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트가 이미 존재(즉 호스트에 상기 데이터 세트 캐시가 존재)하는 경우, 우선 상기 호스트 노드를 사용하여 트레이닝 태스크를 실행함으로써 데이터 세트의 반복 다운로드를 방지한다. 클러스터 중 모든 노드에 상기 데이터 세트의 노드 캐시가 모두 존재하지 않는 경우, 노드 남은 공간 node_iDiskFreeSize가 가장 큰 노드를 선택하여 데이터 세트를 다운로드하고 트레이닝 태스크를 실행한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,

본 발명의 일부 실시예에서, 스케줄러는 상기 트레이닝 캐스크의 리소스 요청을 받은 후, 우선 kubernetes 디폴트 알고리즘을 사용하여 CPU, 메모리, GPU 카드가 충족한 노드를 선별한다. 스케줄링 전략을 기반으로 노드 남은 공간 dataSet_jSize가 가장 큰 노드를 선택하여 데이터 세트를 다운로드하고 트레이닝 태스크를 실행한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,

클러스터 내에 Kubernetes 클러스터를 배치하고, Kubernetes 클러스터를 기반으로 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함한다.

본 발명의 일부 실시예에서, 클러스터 내에 Kubernetes 클러스터를 배치하고 각 호스트 노드에 자체 개발한 에이전트를 배치하여, 저장 공간 node_iDiskTotalSize, 저장 유휴 공간 node_iDiskFreeSize, 데이터 세트 노드 캐시 정보 리스트(데이터 세트 고유 식별자 dataSet_jId, 크기 dataSet_jSize, 최근 한 달 동안의 사용 횟수 dataSet_jUseNumber)를 포함하는 노드의 저장 리소스 정보를 수집한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 방법은,

본 발명의 일부 실시예에서, 저장 리소스 정보가 변경될 경우, 저장 리소스 정보를 실시간으로 리소스 스케줄링 모듈에 보고해야 하며, 리소스 스케줄링 모듈은 이를 기반으로 노드 선택 및 데이터 세트 노드 캐시 삭제 전략을 수행한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 일부 실시형태에 따르면, 모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하는 단계는,

본 발명의 일부 실시예에서, 클러스터 중 모든 노드의 공간 node_iDiskFreeSize가 모두 데이터 세트에 필요한 공간 dataSet_jSize를 만족하지 않을 경우, 노드 node_i에 대해, 상기 노드가 더이상 사용하지 않는 데이터 세트 노드 캐시가 트레이닝 태스크에 사용되는 데이터 세트 캐시 크기보다 크거나 같을 경우, 즉

이면, 상기 노드를 대안적 노드로 사용하고; 노드 node_i에 대해, 삭제해야 하는 데이터 세트 노드 캐시를 선택하여 노드 데이터 세트 캐시에 대해 모델을 구축한다.

노드의 데이터 세트 캐시 dataset_j의 최근 한 달 동안의 사용 횟수가 많을수록 상기 데이터 세트의 향후 일정한 시간동안 다른 트레이닝 태스크에 의해 사용되는 가능성이 비교적 큰 것을 의미하며, 새로운 트레이닝 태스크에서 상기 데이터 세트를 사용할 경우 다시 다운로드되는 것을 방지하기 위해 이번 스케줄링 규칙에서 상기 데이터 세트 캐시를 가능한 삭제하도록 선택하지 않고, 상기 데이터 세트를 선택하여 삭제하는 가중치를 하기와 같이 정의한다.

본 발명의 일부 실시예에서, 데이터 세트 노드 캐시의 크기가 클수록 데이터 세트 노드 캐시를 삭제하는 시간을 줄이기 위해 가능한 큰 데이터 세트 캐시를 선택하여 삭제하지 않도록 하고, 즉 상기 빅 데이터 세트 캐시를 삭제할 가능성이 낮으며, 상기 데이터 세트를 선택하여 삭제하는 가중치를 하기와 같이 정의한다.

본 발명의 일부 실시예에서, 노드 데이터 세트에 대해, 하기 공식에 따라 계산하고 배열한다.

최소 수의 처음 M개의 데이터 세트를 선택하되, 여기서 M은 하기 조건을 만족한다.

노드의 삭제할 데이터 세트 캐시를 요인으로 하는 노드 점수 기준을 설정하고 하기와 같이 점수가 큰 노드를 우선적으로 선택한다.

본 발명의 실시예의 다른 양태에서는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 실시예를 제공한다. 도 3은 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 따른 실시예의 예시적 블록도를 도시하고, 도 3에 도시된 바와 같이, 상기 장치(101)는,

각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈(11);

트레이닝 태스크를 수신한 것에 응답하여 트레이닝 태스크의 운영 정보를 획득하고, 운영 정보 및 저장 리소스 정보에 따라 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈(12);

모든 호스트 노드가 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 저장 리소스 정보에 따라 각 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈(13);

점수화한 결과에 따라 모든 호스트 노드에서 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈(14); 및,

실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 실행할 호스트 노드에서 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈(15);을 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에 따르면, 장치(101)는,

각각의 호스트 노드에 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 호스트 노드에 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 데이터 세트 캐시가 포함된 호스트 노드에서 트레이닝 태스크를 실행하는 호스트 노드를 선택하도록 구성된 캐시 판단 모듈(미도시)을 더 포함한다.

본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 장치의 일부 실시형태에 따르면, 호스트 노드 선별 모듈(12)은 또한,

마찬가지로, 본 기술분야의 기술자는 이상 본 발명의 데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 따라 서술된 모든 실시형태, 특징 및 장점이 마찬가지로 본 발명에 따른 장치에 적용됨을 이해해야 할 것이다. 본 발명의 간결함을 위해 여기서 더이상 반복 서술하지 않는다.

특히 지적해야 할 것은, 본 기술분야의 통상의 기술자는 상기 실시예 방법 중의 전부 또는 일부 흐름을 구현하려면 컴퓨터 프로그램을 통해 관련 하드웨어를 명령하여 완료할 수 있음을 이해할 수 있을 것이며, 데이터 세트 및 노드 캐시 기반의 스케줄링 방법의 프로그램은 컴퓨터 판독 가능 저장 매체에 저장할 수 있고, 상기 프로그램이 실행될 경우, 상기 각 방법의 실시예의 흐름을 포함할 수 있다. 여기서, 프로그램의 저장 매체는 디스크, 광디스크, 판독 전용 메모리(ROM, Read-Only Memory) 또는 랜덤 액세스 메모리(RAM, Random Access Memory) 등일 수 있다. 상기 컴퓨터 프로그램의 실시예는 이에 대응하는 전술한 임의의 방법 실시예와 동일하거나 유사한 효과를 달성할 수 있다.

본 기술분야의 기술자는, 여기서 설명된 다양한 예시적인 논리 블록, 모듈, 회로 및 알고리즘 단계는 전자 하드웨어, 컴퓨터 소프트웨어 또는 이들의 조합을 구현될 수 있음을 더 이해할 것이다. 하드웨어와 소프트웨어의 이러한 호환성을 명확하게 설명하기 위해 다양한 예시적인 구성 요소, 블록, 모듈, 회로 및 단계의 기능에 대해 일반적으로 설명하였다. 이러한 기능이 소프트웨어로 구현되는지 하드웨어로 구현되는지 여부는 특정 응용 프로그램과 전체 시스템에 적용되는 설계 제약에 따라 결정된다. 본 기술분야의 기술자는 각 특정 응용 프로그램에 대해 다양한 방식으로 구현할 수 있지만, 이러한 구현 결정은 본 발명의 실시예의 개시 범위를 벗어나는 것으로 해석되어서는 안된다.

이해해야 할 것은, 문맥상 예외를 명확하게 지원하지 않는 한 본문에 사용되는 단수 형태 “하나”는 복수형태를 포함하도록 의도된다. 더 이해해야 할 것은, 본문에 사용되는 “및/또는”은 하나 이상의 이상 관련 항목을 포함하는 임의의 모든 가능한 조합을 의미한다.

상기 본 발명의 실시예에 개시된 실시예의 번호는 설명을 위한 것일 뿐 실시예의 장단점을 나타내는 것이 아니다.

본 기술분야에 속하는 통상의 기술자가 이해해야 할 것은, 이상 임의의 실시예에 대한 논의는 단지 예시적인 것으로, 본 발명의 실시예에 개시된 범위(청구범위를 포함)가 이러한 예에 한정되는 것으로 암시하는 것이 아니며; 본 발명의 실시예의 아이디어에 따라 이상 실시예 또는 상이한 실시예에서의 기술 특징은 서로 조합될 수 있고, 상술한 본 발명의 실시예의 상이한 양태의 다양한 기타 변화가 존재하며 이들의 간략함을 위해 세부 사항에서 제공하지 않는다. 따라서, 본 발명의 실시예의 정신과 원칙 이내에서 이루어진 모든 임의의 생략, 수정, 등가 교체, 개선 등은 모두 본 발명의 실시예의 보호 범위 이내에 포함되어야 한다.

Claims

데이터 세트 및 노드 캐시 기반의 스케줄링 방법에 있어서,
상기 방법은,
각 호스트 노드의 저장 리소스 정보를 획득하는 단계;
트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계;
모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계;
상기 점수화한 결과에 따라 모든 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하는 단계; 및,
상기 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 상기 실행할 호스트 노드에서 상기 트레이닝 태스크를 실행하는 단계;를 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 방법은,
각각의 상기 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하는 단계; 및,
상기 호스트 노드에 상기 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 상기 데이터 세트 캐시가 포함된 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하는 단계는,
상기 호스트 노드에서 상기 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 상기 미정 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 각 호스트 노드의 저장 리소스 정보를 획득하는 단계는,
클러스터 내에 Kubernetes 클러스터를 배치하고, Kubernetes 클러스터를 기반으로 상기 호스트 노드의 저장 리소스 정보를 획득하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 방법은,
상기 호스트 노드 중의 상기 저장 리소스 정보에 변화가 발생하였는지 여부를 모니터링하는 단계; 및,
상기 호스트 노드 중의 상기 저장 리소스 정보에 변화가 발생한 것으로 모니터링된 것에 응답하여, 변화된 상기 저장 리소스 정보를 실시간으로 보고하는 단계;를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계는,
각 상기 호스트 노드 중 모든 데이터 세트 캐시의 사용 빈도를 획득하고, 상기 사용 빈도에 따라 모든 상기 데이터 세트 캐시 중의 상기 폐기된 데이터 세트 캐시를 획득하며, 상기 폐기된 데이터 세트 캐시에 따라 상기 호스트 노드를 점수화하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
제1항에 있어서,
상기 모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하는 단계는,
각 상기 호스트 노드 중의 각 데이터 세트 캐시의 크기를 판단하여 기설정된 크기 임계값보다 작은 상기 데이터 세트 캐시를 상기 폐기된 데이터 세트 캐시로 사용하고, 상기 폐기된 데이터 세트 캐시에 따라 상기 호스트 노드를 점수화하는 단계를 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 방법.
데이터 세트 및 노드 캐시 기반의 스케줄링 장치에 있어서,
상기 장치는,
각 호스트 노드의 저장 리소스 정보를 획득하도록 구성된 저장 리소스 정보 획득 모듈;
트레이닝 태스크를 수신한 것에 응답하여 상기 트레이닝 태스크의 운영 정보를 획득하고, 상기 운영 정보 및 상기 저장 리소스 정보에 따라 상기 트레이닝 태스크에 필요한 공간을 만족하는 호스트 노드를 선별하도록 구성된 호스트 노드 선별 모듈;
모든 상기 호스트 노드가 상기 트레이닝 태스크에 필요한 공간을 모두 만족하지 않는 것에 응답하여 상기 저장 리소스 정보에 따라 각 상기 호스트 노드를 점수화하도록 구성된 호스트 노드 점수화 모듈;
상기 점수화한 결과에 따라 모든 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하기 위해 실행할 호스트 노드를 선택하도록 구성된 호스트 노드 선정 모듈; 및,
상기 실행할 호스트 노드 중의 폐기된 데이터 세트 캐시를 획득하고 삭제하며, 상기 실행할 호스트 노드에서 상기 트레이닝 태스크를 실행하도록 구성된 트레이닝 태스크 실행 모듈;을 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.
제8항에 있어서,
각각의 상기 호스트 노드에 상기 트레이닝 태스크에 필요한 데이터 세트 캐시가 포함되는지 여부를 판단하고; 상기 호스트 노드에 상기 데이터 세트 캐시가 존재하는 것으로 판단된 것에 응답하여 상기 데이터 세트 캐시가 포함된 상기 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하도록 구성된 캐시 판단 모듈을 더 포함하는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.
제8항에 있어서,
상기 호스트 노드 선별 모듈은 또한,
상기 호스트 노드에서 상기 트레이닝 태스크에 필요한 공간을 만족하는 다수의 미정 호스트 노드를 선별한 것에 응답하여, 스케줄링 전략을 기반으로 상기 미정 호스트 노드에서 상기 트레이닝 태스크를 실행하는 상기 호스트 노드를 선택하도록 구성되는 것을 특징으로 하는 데이터 세트 및 노드 캐시 기반의 스케줄링 장치.