KR102538389B1 - 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 - Google Patents
이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 Download PDFInfo
- Publication number
- KR102538389B1 KR102538389B1 KR1020200186862A KR20200186862A KR102538389B1 KR 102538389 B1 KR102538389 B1 KR 102538389B1 KR 1020200186862 A KR1020200186862 A KR 1020200186862A KR 20200186862 A KR20200186862 A KR 20200186862A KR 102538389 B1 KR102538389 B1 KR 102538389B1
- Authority
- KR
- South Korea
- Prior art keywords
- machine learning
- task
- server
- level
- weight
- Prior art date
Links
- 238000010801 machine learning Methods 0.000 title claims abstract description 165
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000008707 rearrangement Effects 0.000 claims abstract description 16
- 230000006870 function Effects 0.000 claims description 33
- 238000004364 calculation method Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 4
- 238000004590 computer program Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 9
- 238000004422 calculation algorithm Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 238000009826 distribution Methods 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000002347 injection Methods 0.000 description 1
- 239000007924 injection Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L67/00—Network arrangements or protocols for supporting network services or applications
- H04L67/01—Protocols
- H04L67/10—Protocols in which an application is distributed across nodes in the network
- H04L67/1001—Protocols in which an application is distributed across nodes in the network for accessing one among a plurality of replicated servers
- H04L67/1004—Server selection for load balancing
- H04L67/1023—Server selection for load balancing based on a hash applied to IP addresses or costs
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Computer And Data Communications (AREA)
Abstract
Description
도 2는 본 발명의 레벨 해시 구조로 구성한 기계학습 플랫폼을 보여주는 도면이다.
도 3은 도 2의 기계학습 플랫폼에서 바텀 레벨의 서버에 새로운 태스크를 할당하는 것을 보여주는 도면이다.
도 4는 도 2의 기계학습 플랫폼에서 수행 중인 모든 태스크에 대해 리밸런싱을 수행하는 것을 보여주는 도면이다.
도 5는 도 2의 기계학습 플랫폼에서 새로운 태스크의 할당을 재시도하는 것을 보여주는 도면이다.
도 6은 본 발명에 따른 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱의 알고리즘을 보여주는 도면이다.
도 7은 본 발명의 일 실시예에 따른 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법의 흐름도이다.
110: 가중치 계산부
130: 해시 함수 적용부
150: 태스크 할당부
170: 태스크 재배치부
Claims (14)
- 로드 밸런싱 장치에서의 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법에 있어서,
가중치 계산부에서 하나의 바텀 레벨(Bottom level) 서버 및 상기 바텀 레벨 서버를 공유하는 두 개의 탑 레벨(Top level) 서버로 구성되는 완전 이진 트리 구조를 가지는 기계학습 플랫폼의 모든 서버에 대해 가중치를 계산하는 단계;
해시 함수 적용부에서 상기 기계학습 플랫폼에 기계학습 태스크가 입력되면, 서로 다른 두 개의 해시 값을 반환하는 단계;
태스크 할당부에서 반환된 해시 값을 기초로 선택된 탑 레벨 서버의 가중치를 비교하여 기계학습 태스크를 할당할 서버를 초기 할당하는 단계; 및
태스크 재배치부에서 일정 시간마다 또는 기계학습 태스크의 초기 할당에 실패하는 경우, 수행 중인 전체 기계학습 태스크를 대상으로 태스크 재배치를 수행하는 단계;를 포함하고,
상기 기계학습 태스크를 할당할 서버를 초기 할당하는 단계는,
할당 대상이 되는 탑 레벨의 두 서버의 가중치를 서로 비교하여 가중치가 더 큰 서버에 기계학습 태스크를 할당하는 단계;
최소 할당 가중치에 대한 임계값을 설정하는 단계; 및
상기 탑 레벨의 두 서버의 가중치가 상기 임계값 이하인 경우 할당 불가능한 것으로 판단하는 단계;를 더 포함하고,
상기 탑 레벨의 두 서버에 모두 할당이 불가능한 경우, 각 탑 레벨의 서버에 대응하는 바텀 레벨의 서버의 가중치를 비교하는 단계; 및
가중치가 더 높은 바텀 레벨의 서버에 기계학습 태스크를 할당하는 단계;를 포함하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 삭제
- 삭제
- 삭제
- 제1항에 있어서, 상기 태스크 재배치를 수행하는 단계는,
현재 태스크를 수행 중인 서버가 아닌 반대편 서버의 가중치가 현재 태스크를 수행 중인 서버의 가중치보다 큰 경우, 해당 태스크를 상기 반대편 서버에 재할당하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 제5항에 있어서, 상기 태스크 재배치를 수행하는 단계는,
상기 반대편 서버의 가중치가 현재 태스크를 수행 중인 서버의 가중치보다 2배 이상 또는 3배 이상 큰 경우에만 태스크를 이동하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 제1항에 있어서, 상기 태스크 재배치부에서,
기계학습 태스크의 초기 할당 실패 후 태스크 재배치에도 실패한 태스크는 할당 대기 상태가 되어 할당이 가능해질 때까지 대기 상태를 유지하는 단계;를 더 포함하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 제1항에 있어서,
상기 가중치는 각 서버의 CPU와 GPU의 성능에 의해 결정되며 시스템 자원 사용량에 비례하여 감소하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 제1항에 있어서, 상기 서로 다른 두 개의 해시 값을 반환하는 단계는,
기계학습 태스크의 데이터 셋 크기를 해시 키(key)로 사용하여 해시 함수에 적용하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법.
- 제1항에 따른 상기 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법을 수행하기 위한 컴퓨터 프로그램이 기록된 컴퓨터로 판독 가능한 저장 매체.
- 하나의 바텀 레벨(Bottom level) 서버 및 상기 바텀 레벨 서버를 공유하는 두 개의 탑 레벨(Top level) 서버로 구성되는 완전 이진 트리 구조를 가지는 기계학습 플랫폼의 모든 서버에 대해 가중치를 계산하는 가중치 계산부;
상기 기계학습 플랫폼에 기계학습 태스크가 입력되면, 서로 다른 두 개의 해시 값을 반환하는 해시 함수 적용부;
반환된 해시 값을 기초로 선택된 탑 레벨 서버의 가중치를 비교하여 기계학습 태스크를 할당할 서버를 초기 할당하는 태스크 할당부; 및
일정 시간마다 또는 기계학습 태스크의 초기 할당에 실패하는 경우, 수행 중인 전체 기계학습 태스크를 대상으로 태스크 재배치를 수행하는 태스크 재배치부;를 포함하고,
상기 태스크 할당부는,
할당 대상이 되는 탑 레벨의 두 서버의 가중치를 서로 비교하여 가중치가 더 큰 서버에 기계학습 태스크를 할당하고,
상기 탑 레벨의 두 서버의 가중치가 최소 할당 가중치에 대해 설정된 임계값 이하인 경우 할당 불가능한 것으로 판단하고,
상기 탑 레벨의 두 서버에 모두 할당이 불가능한 경우, 각 탑 레벨의 서버에 대응하는 바텀 레벨의 서버의 가중치를 비교하여 가중치가 더 높은 바텀 레벨의 서버에 기계학습 태스크를 할당하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 장치.
- 삭제
- 삭제
- 제11항에 있어서, 상기 태스크 재배치부는,
현재 태스크를 수행 중인 서버가 아닌 반대편 서버의 가중치가 현재 태스크를 수행 중인 서버의 가중치의 미리 설정된 배수보다 큰 경우, 해당 태스크를 상기 반대편 서버에 재할당하는, 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 장치.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200151102 | 2020-11-12 | ||
KR20200151102 | 2020-11-12 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220064859A KR20220064859A (ko) | 2022-05-19 |
KR102538389B1 true KR102538389B1 (ko) | 2023-05-31 |
Family
ID=81804740
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200186862A KR102538389B1 (ko) | 2020-11-12 | 2020-12-29 | 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102538389B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102145795B1 (ko) * | 2016-09-07 | 2020-08-19 | 한국전자통신연구원 | 복수의 워커 노드가 분산된 환경에서 데이터 스트림을 분석하고 처리하는 방법 및 장치, 그리고 태스크를 관리하는 방법 및 장치 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6173958B2 (ja) | 2014-03-27 | 2017-08-02 | Kddi株式会社 | 複数のハッシュテーブルを用いて検索するプログラム、装置及び方法 |
US10237187B2 (en) | 2016-04-29 | 2019-03-19 | Citrix Systems, Inc. | System and method for service chain load balancing |
KR102085132B1 (ko) | 2018-11-13 | 2020-04-20 | 인하대학교 산학협력단 | 버킷 내부에서 해시 함수의 분류를 이용한 효율적인 쿠쿠 해시 방법 |
KR102224487B1 (ko) * | 2019-05-02 | 2021-03-08 | 숭실대학교산학협력단 | 머신 러닝 플랫폼 관리 시스템 및 방법 |
-
2020
- 2020-12-29 KR KR1020200186862A patent/KR102538389B1/ko active IP Right Grant
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102145795B1 (ko) * | 2016-09-07 | 2020-08-19 | 한국전자통신연구원 | 복수의 워커 노드가 분산된 환경에서 데이터 스트림을 분석하고 처리하는 방법 및 장치, 그리고 태스크를 관리하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
KR20220064859A (ko) | 2022-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210149743A1 (en) | Resource processing method of cloud platform, related device, and storage medium | |
US10977086B2 (en) | Workload placement and balancing within a containerized infrastructure | |
US20160316003A1 (en) | Balancing resources in distributed computing environments | |
US20150234670A1 (en) | Management apparatus and workload distribution management method | |
KR101733117B1 (ko) | 멀티코어 시스템의 태스크 분배 방법 및 장치 | |
CN106133693A (zh) | 虚拟机的迁移方法、装置及设备 | |
Fan et al. | Simulated-annealing load balancing for resource allocation in cloud environments | |
Gupta et al. | Survey on virtual machine placement techniques in cloud computing environment | |
US20170339069A1 (en) | Allocating Cloud Computing Resources In A Cloud Computing Environment | |
CN105893155B (zh) | 虚拟机负载均衡控制方法与装置 | |
US10140161B1 (en) | Workload aware dynamic CPU processor core allocation | |
CN114625500B (zh) | 云环境下拓扑感知的微服务应用调度的方法及应用 | |
US20200394071A1 (en) | Systems and methods for cluster resource balancing in a hyper-converged infrastructure | |
CN103856548A (zh) | 动态资源调度方法和动态资源调度器 | |
Jain et al. | Hybrid load balancing approach for cloud environment | |
CN111176833A (zh) | 一种多处理节点的任务分配方法及系统 | |
Foster et al. | The right tool for the job: Switching data centre management strategies at runtime | |
KR102538389B1 (ko) | 이기종 분산 기계학습 플랫폼 환경을 위한 로드 밸런싱 방법, 이를 수행하기 위한 기록 매체 및 장치 | |
Bhatia et al. | Perspective study on load balancing paradigms in cloud computing | |
CN107491352B (zh) | 一种资源调度方法及装置 | |
NL2026456B1 (en) | Automatic node fungibility between compute and infrastructure nodes in edge zones | |
Gayathri et al. | Implementing a fault tolerance enabled load balancing algorithm in the cloud computing environment | |
Beaumont et al. | Data-locality aware dynamic schedulers for independent tasks with replicated inputs | |
CN111813564B (zh) | 集群资源管理方法、装置及容器集群管理系统 | |
CN114064259B (zh) | 一种面向异构计算资源的资源调度方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201229 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221201 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230524 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230525 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230525 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |