KR20220001008A - 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램 - Google Patents

분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램 Download PDF

Info

Publication number
KR20220001008A
KR20220001008A KR1020200164799A KR20200164799A KR20220001008A KR 20220001008 A KR20220001008 A KR 20220001008A KR 1020200164799 A KR1020200164799 A KR 1020200164799A KR 20200164799 A KR20200164799 A KR 20200164799A KR 20220001008 A KR20220001008 A KR 20220001008A
Authority
KR
South Korea
Prior art keywords
server
training
data
computing
distributed
Prior art date
Application number
KR1020200164799A
Other languages
English (en)
Inventor
동 닥시앙
공 웨이바오
리우 이
위 디안하이
마 얀쥔
왕 하이펑
Original Assignee
베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디. filed Critical 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Publication of KR20220001008A publication Critical patent/KR20220001008A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/485Task life-cycle, e.g. stopping, restarting, resuming execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/50Allocation of resources, e.g. of the central processing unit [CPU]
    • G06F9/5005Allocation of resources, e.g. of the central processing unit [CPU] to service a request
    • G06F9/5027Allocation of resources, e.g. of the central processing unit [CPU] to service a request the resource being a machine, e.g. CPUs, Servers, Terminals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Debugging And Monitoring (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

본 출원은 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램을 개시하였으며, 인공지능 기술분야에 관한것이며, 구체적으로 딥러닝 및 클라우드 컴퓨팅 기술 분야에 관한 것이다. 상기 방법은, 작업 정보 서버가 복수의 데이터 서버중의 적어도 제1데이터 서버에 제1훈련 청구 및 사용가능한 제1컴퓨팅 서버 정보를 송신하는것; 제1데이터 서버가 상기 제1훈련 청구에 기반하여 상기 제1컴퓨팅 서버에 첫번째 훈련 데이터를 송신하는것; 제1컴퓨팅 서버가 상기 첫번째 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 제1데이터 서버에 송신하여 보존하고, 및 상기 첫번째 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하는것, 을 포함하며; 여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는다. 본 출원의 실시예를 이용하면, 컴퓨팅 리소스가 탄성으로 변화하는 고효율적인 훈련 과정을 실현할수 있다.

Description

분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램{DISTRIBUTED TRAINING METHOD AND SYSTEM, DEVICE AND STORAGE MEDIUM}
본 발명은 인공지능 기술분야에 관한 것으로서, 구체적으로 딥러닝 및 클라우드 컴퓨팅 분야에 관한 것이며, 더욱 구체적으로는 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램에 관한것이다.
일반적으로, 빅 데이터 환경하에서, 딥러닝 모델의 훈련은 분산식의 훈련방식을 채용할수 있으며, 훈련 속도를 향상시킬수 있어, 종래의 대부분 딥러닝 시스템에서는 고정 클러스터 리소스를 사용하여, 모델이 수렴될 때까지 병렬 훈련을 진행한다. 그런데, 클라우드 훈련의 경우에는, 훈련 리소스의 할당수가 일반적으로 전체 클러스터의 배치에 따라 동적으로 변화하기에, 일반적인 딥러닝 구성은 동적 컴퓨팅 리소스의 조건하에서 정상적인 훈련을 진행할수 없으며, 훈련 효율에 지장주고 있다.
본 출원은 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램을 제공한다.
본 출원의 제1 측면에 따르면, 분산 훈련 방법을 제공하며, 상기 방법은 분산 훈련 시스템이 기반하였으며, 여기서, 상기 분산 훈련 시스템은 훈련 데이터에 기반하여 모델 훈련을 진행하기 위한 것이며, 상기 분산 훈련 시스템은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버를 포함하며, 그 중 상기 데이터 서버의 수량은 복수이며, 상기 컴퓨팅 서버의 수량은 변화가능하며; 상기 분산 훈련 방법은, 상기 작업 정보 서버가 복수의 데이터 서버중의 적어도 제1데이터 서버에 제1훈련 청구 및 사용가능한 제1컴퓨팅 서버 정보를 송신하는것; 상기 제1데이터 서버가 상기 제1훈련 청구에 기반하여 상기 제1컴퓨팅 서버에 첫번째 훈련 데이터를 송신하는것; 상기 제1컴퓨팅 서버가 상기 첫번째 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 제1데이터 서버에 송신하여 보존하고, 및 상기 첫번째 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하는것, 을 포함하며; 여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는다.
본 출원의 제2 측면에 따르면, 본 출원은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버를 포함하는 분산 훈련 시스템을 제공하며, 그 중 상기 데이터 서버의 수량은 복수이며, 상기 컴퓨팅 서버의 수량은 변화가능하며, 상기 분산 훈련 시스템은 훈련 데이터에 기반하여 모델 훈련을 진행하기 위한 것이며; 여기서, 상기 작업 정보 서버는 각 데이터 서버에 훈련 청구 및 사용가능한 컴퓨팅 서버 정보를 송신하기 위한 것이며; 상기 데이터 서버는 수신한 훈련 청구에 기반하여 사용가능한 컴퓨팅 서버에 훈련 데이터를 송신하기 위한 것이며; 상기 컴퓨팅 서버는 수신한 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 데이터 서버에 송신하여 보존하고, 및 훈련 완료된 상기 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하기 위한 것이며; 여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는다.
본 출원의 제3측면에 따르면, 적어도 하나의 프로세서 및 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자 기기를 제공하며, 여기서,
메모리는 적어도 하나의 프로세서에 의해 실행되는 명령들을 저장하며, 명령들은 적어도 하나의 프로세서에 의해 실행되여, 적어도 하나의 프로세서가 상기의 분산 훈련 방법을 실행하도록 한다.
본 출원의 제4측면에 따르면, 컴퓨터 명령들을 저장하는 비 일시적 컴퓨터 판독가능한 저장 매체를 제공하며, 컴퓨터 명령들은 컴퓨터로 하여금 상기의 분산 훈련 방법을 실행하도록 한다.
본 출원의 실시예가 제공한 분산 훈련 방법은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버 각자의 기능에 대해 합리적인 설정을 진행하는것을 통하여, 그들 상호지간의 협동 방식에 대해 합리적으로 설계하여, 탄성있는 분산 훈련 시스템의 컴퓨팅 노드에 대한 적시 신속한 확장 및 축소 조정을 실현할수 있으며, 시스템 전반적인 컴퓨닝 성능을 최적화할수 있다.
이해하여야 할 것은 본 부분에 기재된 내용은 본 출원의 실시예의 관건적 또는 중요한 특징을 표시하는것이 아니며, 본 출원의 범위를 한정하기 위한것이 아니다. 본 출원의 기타 특징은 이하의 설명을 통하여 더욱 쉽게 이해하게 될것이다.
본 출원은 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램을 제공하는 효과가 있다.
도면은 본 기술방안을 더욱 잘 이해할수 있기 위한것이지, 본 출원에 대한 한정이 아니다.
도1은 본 출원의 실시예에 따른 분산 훈련 방법의 흐름도이다.
도2는 본 출원의 실시예에 따른 분산 훈련 시스템의 구조블록도이다.
도3은 본 출원의 다른 실시예에 따른 분산 훈련 시스템의 구성도이다.
도4는 본 출원의 실시예의 탄성있는 분산 훈련 방법을 실현하는 전자 기기의 블록도이다.
이하에서는 도면과 결합하여 본 출원의 시범적인 실시예를 설명하고자 한다. 그 중에는 이해에 도움이 되도록 본 출원의 실시예의 각종 상세한 내용을 포함하였으며, 이런 내용은 단지 시범적인 것으로 간주되여야 할것이다. 그러므로, 해당 분야 기술자들은 본 출원의 범위와 정신을 벗어나지 않은 한, 여기에서 기재된 실시예에 대해 각종 변형 및 수정을 할수 있다는것을 인식하여야 한다. 마찬가지로, 간단하고 명확하게 하기 위하여, 이하의 기재에서는 공지적인 기능 및 구조에 관한 기재를 생략하고자 한다.
도1은 본 출원의 실시예에서 제공한 분산 훈련 방법의 흐름도이며, 해당 방법은 분산 훈련 시스템이 기반하였으며, 여기서, 해당 분산 훈련 시스템은 훈련 데이터에 기반하여 모델 훈련을 진행하기 위한 것이며, 해당 분산 훈련 시스템은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버를 포함하며, 그 중 해당 데이터 서버의 수량은 복수이며, 해당 컴퓨팅 서버의 수량은 변화가능하며; 해당 분산 훈련 방법은,
단계(S101), 해당 작업 정보 서버가 복수의 데이터 서버중의 적어도 제1데이터 서버에 제1훈련 청구 및 사용가능한 제1컴퓨팅 서버 정보를 송신하는것;
단계(S102), 해당 제1데이터 서버가 해당 제1훈련 청구에 기반하여 해당 제1컴퓨팅 서버에 첫번째 훈련 데이터를 송신하는것; 및
단계(S103), 해당 제1컴퓨팅 서버가 해당 첫번째 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 해당 제1데이터 서버에 송신하여 보존하고, 및 해당 첫번째 훈련 데이터의 식별 정보를 해당 작업 정보 서버에 송신하여 기록하는것, 을 포함하며; 여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는다.
본 출원의 실시예에 따르면, 작업 정보 서버는 데이터 서버에 훈련 청구 및 사용가능한 컴퓨팅 서버 정보를 송신하며, 예를 들어 사용가능한 컴퓨팅 서버의 인터넷 프로토콜 IP주소 및/또는 포트 정보를 송신하며, 데이터 서버는 컴퓨팅 서버에 훈련 데이터를 송신하고, 컴퓨팅 서버에 의해 훈련 과정을 완료하며, 또한, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않고, 모델 파라미터를 데이터 서버에 송신하여 보존하여, 컴퓨팅 노드로 하여금 될수록 경량화하고, 시스템에 로그인 또는 로그아웃 할때 시스템 전체에 대한 영향을 적게 하며, 또한, 각 컴퓨팅 서버에 모델 파라미터를 저장하지 않기에, 차지하는 리소스가 적고, 컴퓨팅 리소스가 모델 훈련에 사용되도록 하고, 컴퓨팅 리소스의 계산 능력을 향상시키고, 이외, 컴퓨팅 서버는 훈련 데이터의 식별 정보를 작업 정보 서버에 송신하여 기록하고, 다시 말하면 작업 정보 서버가 훈련의 진도를 기록함으로써, 시스템중의 각 컴퓨팅 노드에 훈련 작업을 배치할수 있으며, 분산 훈련 시스템의 전체적인 고효율적인 운행을 실현할수 있다.
본 출원의 실시예에서 제공한 분산 훈련 방법은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버 각자의 처리 및 그들상호지간의 협동 방식에 대해 합리적으로 설계하는 것을 통하여, 분산 훈련 과정에서의 컴퓨팅 노드에 대한 신속한 조정을 실현할수 있으며, 시스템 계산 능력을 모델 훈련에 집중시켜, 시스템 전체의 훈련 효율을 향상시킬수 있다.
도2는 본 출원의 실시예의 분산 훈련 시스템의 구조 블록도를 나타내며, 해당 시스템은 작업 정보 서버(100), 데이터 서버(200) 및 컴퓨팅 서버(300)을 포함하며, 여기서, 해당 데이터 서버(200)의 수량은 복수이며, 해당 컴퓨팅 서버(300)의 수량은 변화가능하며, 해당 분산 훈련 시스템은 훈련 데이터 에 기반하여 모델 훈련을 진행하기 위한 것이며; 여기서,
해당 작업 서버(100)는 각 데이터 서버(200)에 훈련 청구 및 사용가능한 컴퓨팅 서버 정보를 송신하기 위한 것이며;
해당 데이터 서버(200)는 수신한 훈련 청구에 기반하여 사용가능한 컴퓨팅 서버(300)에 훈련 데이터를 송신하기 위한 것이며; 및
해당 컴퓨팅 서버(300)은 수신한 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 해당 데이터 서버(200)에 송신하여 보존하고, 훈련 완료한 해당 훈련 데이터의 식별 정보를 해당 작업 정보 서버(100)에 송신하여 기록하기 위한 것이며; 여기서, 각 컴퓨팅 서버(300)에는 모델 파라미터를 저장하기 위한 것이 아니다.
본 출원의 실시예의 분산 훈련 시스템에서, 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버 각자의 기능 설정은 합리적이고, 그들 상호지간의 협동 방식에 대해 합리적으로 설계함으로써, 분산 훈련 과정에서 컴퓨팅 노드에 대한 신속한 조정을 실현할수 있으며, 시스템 계산 능력을 최적화할수 있도록 한다.
도3은 본 출원의 실시예의 분산 훈련 시스템의 구성도를 나타내며, 도면에서는 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버 등의 로직 연결 관계를 모식적으로 기재하였다. 도3은 3개의 정적 노드를 포함하며, 매개의 정적 노드는 데이터 서버와 파라미터 서버를 포함하며, 도3에는 4개의 탄성 노드를 포함하며, 컴퓨팅 노드(즉 컴퓨팅 서버)에 대응된다.
이하, 각 도면에 결합하여, 본 출원의 실시예의 여러가지 실시 방식에 대해 상세히 설명하기로 한다.
본 출원의 실시예에 있어서, 시스템이 훈련을 시작하기 전에, 각 데이터 서버는 분산 파일 시스템으로부터 훈련 데이터 및 훈련할 모델의 정보를 다운로드한다.
이렇게 처리하는 장점은, 데이터 서버에 의해 훈련 데이터 및 훈련할 모델의 정보를 다운로드하여 보존하여, 컴퓨팅 서버가 훈련 데이터를 보존하는것을 피면할수 있으며, 컴퓨팅 서버는 데이터 서버로부터만 훈련에 필요한 데이터를 수신하여 훈련을 진행하며, 훈련 완료후 다시 모델 파라미터를 데이터 서버에 반환하여 보존함으로써, 모델 파라미터의 업데이트를 유지할수 있을뿐만아니라, 컴퓨팅 노드가 시스템에 로그아웃/로그인할 때 시스템에 대한 영향을 감소할수 있다.
본 출원의 실시예에 있어서, 해당 각 데이터 서버는 하나의 파라미터 서버를 포함하며; 해당 제1 컴퓨팅 서버는 훈련후의 모델 파라미터를 해당 제1 데이터 서버에 송신한 후, 해당 방법은 해당 훈련후의 모델 파라미터를 해당 제1 데이터 서버중의 제1 파라미터 서버에 보존하는것을 더 포함한다.
다시 말하면, 훈련후의 모델 파라미터를 파리미터 서버에 보존하고, 데이터 서버는 훈련 데이터의 송신과 훈련 결과의 회수를 담당하기에, 처리가 고효율적이다.
본 출원의 실시예에 있어서, 해당 작업 정보 서버는 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하며, 시스템중에 사용가능한 컴퓨팅 서버의 수량이 변하지 않으면, 각 데이터 서버중의 파라미터 서버로 하여금 최신의 모델 파라미터를 보존하게 한다.
작업 정보 서버의 라이브 검측을 통하여, 시스템중의 사용가능한 수량에 대해 라이브 탐지 및 업데이트할수 있을뿐만아니라, 라이브 검측시 시스템 현재의 모델 파라미터가 전부의 컴퓨팅 노드에 대하여 유효한지 여부를 확정할수 있으며, 여기서, 노드 수량에 변화가 없으면, 시스템이 계속하여 평온하게 훈련할수 있다는것을 설명하며, 이때 현재 업데이트한 모델 파라미터를 파라미터 서버에 보존하고, 후속의 시스템의 노드가 변화할때 후퇴의 기초를 제공할수 있다.
본 출원의 실시예에 있어서, 해당 작업 정보 서버는 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하여, 시스템중의 사용가능한 컴퓨팅 서버의 수량에 변화가 있으면, 사용가능한 컴퓨팅 서버 리스트를 업데이트하고, 각 데이터 서버중의 파라미터 서버로 하여금 이전의 라이브 검측시의 모델 파라미터를 다시 로딩하게 한다.
작업 정보 서버의 라이브 검측을 통하여, 노드 수량에 변화가 있으면, 라이브 검측 이전의 시스템 데이터 정보가 이미 무효라는것을 설명하며, 이때, 각 데이터 서버중의 파라미터 서버로 하여금 이전의 라이브 검측시의 모델 파라미터를 다시 로딩하게 하며, 다시 말하면 이전의 라이브 검측시의 데이터 버전으로 되돌아가게 함으로써, 훈련 과정에 착오가 없도록 보증할수 있다.
본 출원의 실시예에 있어서, 해당 작업 정보 서버가 라이브 검측을 진행할 때, 시스템은 일시적으로 훈련 처리를 정지하며, 라이브 검측을 완료한 후, 해당 작업 정보 서버는 현재의 모델 파라미터 및 기록된 훈련 완료후의 훈련 데이터의 식별 정보에 기반하여, 각 데이터 서버에 새로운 훈련 청구를 송신한다.
작업 정보 서버가 라이브 검측을 진행할 때 일시적으로 훈련 처리를 정지하며, 모델 파라미터가 업데이트 완료되기를 기다리렸다가, 다시 새로운 훈련 작업을 계속함으로써, 훈련 과정이 평온하고 신속할 것을 확보한다.
본 출원의 실시예에 있어서, 각 컴퓨팅 서버사이에는 정보 교환이 존재하지 않으며, 각 컴퓨팅 노드는 모두 파라미터 서버로부터 훈련 데이터를 획득함으로써, 최대한 컴퓨팅 리소스를 모델 훈련에 이용되도록 할수 있다.
본 출원의 실시예에 있어서, 해당 작업 정보 서버는 정적 노드이다.
작업 정보 서버가 시스템중의 컴퓨팅 노드에 대한 정기적인 라이브 탐지를 담당하고 있기에, 사용가능한 컴퓨팅 서버 리스트를 유지하고, 또한 파라미터 서버중의 모델 파라미터가 유효하도록 유지할수 있기에, 작업 정보 서버는 분산 시스템의 중앙 노드이며, 그는 응당 정적 노드여야 하며, 종료될수 없는 또는 정지될수 없는 컴퓨팅 노드에 위치한다고 이해할수 있으며, 작업 정보 서버로 하여금 사용가능성이 높고, 시스템의 안정을 확보할수 있다.
본 출원의 실시예의 탄성 분산 훈련 방법은 각종 머신러닝 모델의 훈련 학습 과정에 이용될수 있으며, 예를 들어 신경망 딥러닝 구성에 있어서, 리소스가 탄성으로 변화하는 클라우드에서 고효율적인 훈련을 진행할수 있으며, 컴퓨팅 서버의 경량화를 확보하고, 신속한 동적 조정할수 있는 능력을 확보하고, 중요한 응용 의미와 가치를 구비한다.
이상, 복수의 실시예를 통하여 부동한 측면으로부터 본 출원의 실시예의 구체적인 설정과 실현 방식에 대하여 기재하였다. 본 출원의 실시예의 탄성 분산 훈련 방법은 상기한 분산 시스템에 기반하였으며, 해당 방법의 처리 과정은 상기 실시예중의 대응된 기재를 참조할수 있기에, 여기서 반복하여 기재하는것을 생략한다.
본 출원의 실시예에 따르면, 본 출원은 전자 기기와 판독가능한 저장 매체를 더 제공한다. 도4에서 나타낸 바와 같이, 본 출원의 실시예에 따른 탄성 분산 훈련 방법의 전자 기기의 블록도이다. 전자 기기는 여러가지 형식의 디지털 컴퓨터를 의미하며, 예를 들면, 랩톱 컴퓨터, 디스크톱 컴퓨터, 워크벤치, 개인 정보 단말기, 서버, 블레이드 서버, 대형 컴퓨터, 및 기타 적합한 컴퓨터가 있을수 있다. 전자 기기는 또한 여러가지 형식의 모바일 장치를 의미할수 있으며, 예를 들면, 개인 정보 단말기, 휴대 전화, 스마트 폰, 웨어러블 디바이스 및 기타 유사한 컴퓨팅 장치가 있을수 있다. 본 문에서 기재한 부재, 그들간의 연결 및 관계, 그리고 그들의 기능은 단지 예시적인 것이며, 본 문에서 기재한 및/또는 요구한 본 출원의 실현을 한정하는것이 아니다.
도4에서 나타낸 바와 같이, 해당 전자 기기는 하나 또는 복수의 프로세서(1001), 메모리(1002) 및 각 부재를 연결하기 위한 인터페이스를 포함하며, 고속 인터페이스와 저속 인터페이스를 포함한다. 각 부재는 부동한 버스를 이용하여 상호 연결되였으며, 공용 메인보드에 설치되거나 또는 수요에 따라 기타 형식으로 설치될수 있다. 프로세서는 전자 기기내에서 실행되는 명령들에 대해 처리할수 있으며, 메모리에 저장된 또는 메모리에서 외부 입력/출력 장치(예를 들어, 인터페이스에 결합된 디스플레이 장치)상에 그래픽 사용자 인터페이스(Graphical User Interface, GUI)를 표시한 그래픽 정보의 명령들을 포함한다. 기타 실시 방식에 있어서, 필요한 경우, 복수의 프로세서 및/또는 복수의 버스를 복수의 메모리와 함께 사용할수 있다. 상술한 바와 같이, 복수의 전자 기기를 연결하여, 각 기기가 일부 필요한 조작(예를 들어, 서버 어레이, 블레이드 서버 세트 또는 멀티 프로세서 시스템)을 제공할수 있다. 도4에서는 하나의 프로세서(1001)인 경우를 예로 나타낸다.
메모리(1002)는 본 출원이 제공한 비 일시적 컴퓨터 판독가능한 저장 매체에 상당하다. 여기서, 상기 메모리는 적어도 하나의 프로세서가 실행할수 있는 명령을 저장하며, 적어도 하나의 프로세서가 본 출원이 제공한 탄성 분산 훈련 방법을 실행하도록 한다. 본 출원의 비 일시적 컴퓨터 판독가능한 저장 메체는 컴퓨터 명령들을 저장하며, 해당 컴퓨터 명령은 컴퓨터가 본 출원이 제공한 탄성 분산 훈련 방법을 실행하도록 하기 위한 것이다.
메모리(1002)는 비 일시적 컴퓨터 판독가능한 저장 매체로서, 비 일시적 소프트웨어 프로그램, 비 일시적 컴퓨터 실행 가능한 프로그램 및 모듈들을 저장하기 위한 것이며, 본 출원의 실시예중의 탄성 분산 훈련 방법에 대응되는 프로그램 명령/모듈들이 있다. 프로세서(1001)은 메모리(1002)에 저장된 비 일시적 소프트웨어 프로그램, 명령 및 모듈을 운행하는 것을 통하여, 서버의 각종 기능 응용 및 데이터 처리를 실행하며, 다시 말하면 상기 방법 실시예중의 탄성 분산 훈련 방법을 실현할수 있다.
메모리(1002)는 프로그램 저장 구역 및 데이터 저장 구역을 포함하며, 그중, 프로그램 저장 구역은 오에이스, 적어도 하나의 기능이 필요로 하는 응용 프로그램을 저장할수 있으며; 데이터 저장 구역은 검색 결과의 분석 처리 전자 기기의 사용에 기반하여 생성된 데이터 등을 저장할수 있다. 그리고, 메모리(1002)는 고속 랜덤 액세스 메모리를 포함할수 있으며, 또한 비 일시적 메모리를 포함할수 있다. 예를 들어, 적어도 하나의 디스크 저장 기기, 플래시 메모리 기기, 또는 기타 비 일시적 솔리드 메모리 기기가 있다. 일부 실시예에 있어서, 메모리(1002)는 프로세서(1001)과 원격으로 설치된 메모리를 선택적으로 포함할수 있으며, 이런 원격 메모리는 네트워크를 통하여 검색 결과의 분석 처리 전자 기기와 연결될수 있다. 상기 네트워크의 실예로서, 인터넷, 기업내부네트, LAN, 모바일 통신망 및 그들의 조합을 포함하지만, 이에 한정되는것은 아니다.
본 출원의 실시예의 탄성 분산 훈련 방법에 대응되는 전자 기기는 입력 장치(1003) 및 출력 장치(1004)를 더 포함할수 있다. 프로세서(1001), 메모리(1002), 입력 장치(1003) 및 출력 장치(1004)는 버스를 통하여 연결되거나 기타 방식으로 연결될수 있으며, 본 출원의 도4의 실시예에서는 버스를 통해 연결된 예이다.
입력 장치(1003)은 입력된 수자 혹은 문자 정보를 수신할수 있고, 검색 결과의 분석 처리 전자 기기의 사용자 설정 및 기능 제어와 관련된 키 신호 입력을 생성 할 수 있다. 예를 들어, 터치 스크린, 작은 키보드, 마우스, 트랙 패드, 터치 패널, 조정 로드, 하나 혹은 복수의 마우스 버튼, 트랙 볼, 조이스틱 등 입력 장치일수 있다. 출력 장치(1004)는 디스플레이 장치, 보조 조명 장치(예를 들어, LED) 및 촉각 피드백 장치(예를 들어, 진동 모터) 등을 포함할수 있다. 해당 디스플레이 장치는 액정 디스플레이(Liquid Crystal Display,LCD), 발광 다이오드(Light Emitting Diode,LED) 디스플레이 및 프라즈마 디스플레이를 포함할수 있으며, 이에 한정되는것은 아니다. 일부 실시예에 있어서, 디스플레이 장치는 터치 스크린일수 있다.
여기에 기재된 시스템 및 기술의 각종 실시방식은 디지털 전자 회로 시스템, 집적 회로 시스템, 전용 집적 회로(Application Specific Integrated Circuits,ASIC), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 그들의 조합에서 구현될수 있다. 이런 각종 실시방식은 하나 또는 복수의 컴퓨터 프로그램중에서 실시하는것을 포함할수 있으며, 해당 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래머블 프로세서를 포함한 프로그래머블 시스템에서 실행 및/또는 해석할수 있으며, 해당 프로그래머블 프로세서는 전용 또는 일반 프로그래머블 프로세서일수 있으며, 저장 시스템, 적어도 하나의 입력장치 및 적어도 하나의 출력장치로부터 데이터와 명령을 수신할수 있고, 또한 데이터와 명령을 해당 저장 시스템, 해당 적어도 하나의 입력장치 및 해당 적어도 하나의 출력장치에 전송할수 있다.
이런 컴퓨팅 프로그램(프로그램, 소프트웨어, 소프트웨어 응용 또는 코드라고도 함)은 프로그래머블 프로세서의 기계명령들을 포함하며, 고급 과정 및/또는 객체 지향 프로그래밍 언어 및/또는 어셈블리/기계 언어를 이용하여 이런 컴퓨팅 프로그램을 실시할수 있다. 본문에서 사용한 바와 같이, 용어“기계 판독가능한 매체” 및 “컴퓨터 판독가능한 매체”는 기계 명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 모든 컴퓨터 프로그램 제품, 디바이스 및/또는 장치(예를 들어, 자기 디스크, 시디롬, 메모리, 프로그래머블 로직 장치(programmable logic device,PLD))일수 있으며, 기계 판독가능한 시그널로서의 기계명령을 수신하는 기계 판독가능한 매체를 포함할수 있다. 용어“기계 판독가능한 시그널”은 기계명령 및/또는 데이터를 프로그래머블 프로세서에 제공하는 모든 시그널을 의미한다.
사용자와의 인터랙션을 제공하기 위하여, 컴퓨터에서 여기에 기재된 시스템 및 기술을 실시할수 있으며, 해당 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들어, CRT(Cathe Ray Tube, 음극선관) 또는 LCD(액정 디스플레이)모니터), 그리고 키보드와 포인팅 장치(예를 들어, 마우스 또는 트랙 볼)를 포함할수 있으며, 사용자는 해당 키보드와 해당 포인팅 장치를 통하여 입력을 컴퓨터에 제공해줄수 있다. 기타 종류의 장치는 사용자와의 인터랙션을 제공하는데 사용될수 있으며, 예를 들어, 사용자에게 제공된 피드백은 모든 형식의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백 또는 촉각 피드백)일수 있으며; 모든 형식(소리 입력, 음성 입력 또는 촉각 입력을 포함)을 통하여 사용자로부터의 입력을 수신할수 있다.
여기에 기재된 시스템과 기술은 백그라운드 위젯을 포함하는 컴퓨팅 시스템(예를 들어, 데이터 서버로서), 또는 중간 위젯을 포함하는 컴퓨팅 시스템(예를 들어, 애플리케이션 서버), 또는 프론트 위젯을 포함하는 컴퓨팅 시스템(예를 들어, 그래픽 사용자 인터페이스 혹은 네트워크 브라우저를 갖고있는 사용자 컴퓨터, 사용자는 해당 그래픽 사용자 인터페이스 또는 해당 네트워크 브라우저를 통하여 여기에 기재된 시스템 및 기술의 실시방식과 인터랙션을 진행할수 있다), 또는 이런 백그라운드 위젯, 중간 위젯, 프론트 위젯의 모든 조합을 포함하는 컴퓨팅 시스템에서 실시될수 있다. 모든 형식 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)을 통하여, 시스템의 부재를 상호 연결할수 있다. 통신 네트워크의 실예로서는, LAN(Local Area Network), WAN(Wide Area Networ) 및 인터넷을 포함할수 있다.
컴퓨터 시스템은 클라이언트 단말 및 서버를 포함할수 있다. 클라이언트 단말 및 서버는 일반적으로 서로 원격으로 설치되여 있으며, 통상적으로는 통신 네트워크를 통하여 인터랙션을 진행한다. 대응되는 컴퓨터에서 운행됨과 동시에 클라이언트 단말-서버관계를 갖고 있는 컴퓨터 프래그램을 통하여 클라이언트 단말과 서버사이의 관계를 발생한다.
이해하여야 할것은, 이상에 기재된 각종 형식의 프로세스를 이용하여, 단계를 다시 순서배열, 증가 또는 삭제할수 있다. 예를 들어, 본 출원에 기재된 각 단계는 병행하여 실행될수도 있고, 순서대로 실행될수도 있고, 다른 부동한 순서대로 실행될수도 있으며, 본 출원에 개시된 기술방안이 기대하는 결과만 실현할수 있다면, 본문에서는 여기서 한정을 하지 않는다.
이상의 구체적인 실시방식은, 본 출원의 보호범위에 대한 한정이 아니다. 해당 분야 기술자들이 명백해야 할것은, 설계 요구와 기타 요소에 기반하여, 각종 수정, 조합, 서브 조합 및 교체를 진행할수 있다는 점이다. 본 출원의 정신 및 원칙내에서 진행된 모든 수정, 균등 교체와 개량 등은 모두 본 출원의 보호 범위내에 포함되여야 할 것이다.

Claims (19)

  1. 분산 훈련 시스템에 기반한 분산 훈련 방법에 있어서,
    상기 분산 훈련 시스템은 훈련 데이터에 기반하여 모델 훈련을 진행하기 위한 것이며, 상기 분산 훈련 시스템은 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버를 포함하며, 그 중 상기 데이터 서버의 수량은 복수이며, 상기 컴퓨팅 서버의 수량은 변화가능하며;
    상기 분산 훈련 방법은,
    상기 작업 정보 서버가 복수의 데이터 서버중의 적어도 제1데이터 서버에 제1훈련 청구 및 사용가능한 제1컴퓨팅 서버 정보를 송신하는것;
    상기 제1데이터 서버가 상기 제1훈련 청구에 기반하여 상기 제1컴퓨팅 서버에 첫번째 훈련 데이터를 송신하는것; 및
    상기 제1컴퓨팅 서버가 상기 첫번째 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 제1데이터 서버에 송신하여 보존하고, 및 상기 첫번째 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하는것, 을 포함하며;
    여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는것,
    을 특징으로 하는 분산 훈련 방법.
  2. 제1항에 있어서,
    훈련을 시작하기 전에, 각 데이터 서버는 분산 파일 시스템으로부터 훈련 데이터 및 훈련할 모델의 정보를 다운로드하는것을 더 포함하는것,
    을 특징으로 하는 분산 훈련 방법.
  3. 제1항에 있어서,
    상기 각 데이터 서버는 하나의 파라미터 서버를 포함하며;
    상기 제1 컴퓨팅 서버가 훈련후의 모델 파라미터를 상기 제1데이터 서버에 송신한 후, 상기 방법은 상기 훈련후의 모델 파라미터를 상기 제1데이터 서버중의 제1파라미터 서버에 보존하는것을 더 포함하는것,
    을 특징으로 하는 분산 훈련 방법.
  4. 제1항에 있어서,
    상기 작업 정보 서버가 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하며, 시스템중에 사용가능한 컴퓨팅 서버의 수량이 변화하지 않으면, 각 데이터 서버중의 파라미터 서버로 하여금 최신의 모델 파라미터를 보존하게 하는것을 더 포함하는것,
    을 특징으로 하는 분산 훈련 방법.
  5. 제1항에 있어서,
    상기 작업 정보 서버가 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하며, 시스템중에 사용가능한 컴퓨팅 서버의 수량이 변화하면, 사용가능한 컴퓨팅 서버 리스트를 업데이트하고, 각 데이터 서버중의 파라미터 서버로 하여금 이전의 라이브 검측시의 모델 파라미터를 다시 로딩하게 하는것을 더 포함하는것,
    을 특징으로 하는 분산 훈련 방법.
  6. 제4항 또는 제5항에 있어서,
    상기 작업 정보 서버가 라이브 검측을 진행할 때, 시스템은 일시적으로 훈련 처리를 정지하며, 라이브 검츨을 완료한 후, 상기 작업 정보 시스템은 현재의 모델 파라미터 및 기록된 훈련 완료후의 훈련 데이터의 식별 정보에 기반하여, 각 데이터 서버에 새로운 훈련 청구를 송신하는것을 더 포함하는것,
    을 특징으로 하는 분산 훈련 방법.
  7. 제1항에 있어서,
    상기 각 컴퓨팅 서버사이에는 정보 교환이 존재하지 않는것을 특징으로 하는 분산 훈련 방법.
  8. 제1항에 있어서,
    상기 작업 정보 서버는 정적 노드인 것을 특징으로 하는 분산 훈련 방법.
  9. 작업 정보 서버, 데이터 서버 및 컴퓨팅 서버를 포함하는 분산 훈련 시스템에 있어서,
    상기 데이터 서버의 수량은 복수이며, 상기 컴퓨팅 서버의 수량은 변화가능하며, 상기 분산 훈련 시스템은 훈련 데이터에 기반하여 모델 훈련을 진행하기 위한 것이며;
    상기 작업 정보 서버는 각 데이터 서버에 훈련 청구 및 사용가능한 컴퓨팅 서버 정보를 송신하기 위한 것이며;
    상기 데이터 서버는 수신한 훈련 청구에 기반하여 사용가능한 컴퓨팅 서버에 훈련 데이터를 송신하기 위한 것이며;
    상기 컴퓨팅 서버는 수신한 훈련 데이터에 기반하여 모델 훈련을 진행하고, 훈련 완료후 모델 파라미터를 상기 데이터 서버에 송신하여 보존하고, 및 훈련 완료한 상기 훈련 데이터의 식별 정보를 상기 작업 정보 서버에 송신하여 기록하기 위한 것이며;
    여기서, 각 컴퓨팅 서버에는 모델 파라미터를 저장하지 않는것,
    을 특징으로 하는 분산 훈련 시스템.
  10. 제9항에 있어서,
    상기 각 데이터 서버는 또한 시스템이 훈련을 시작하기 전에 분산 파일 시스템으로부터 훈련 데이터 및 훈련할 모델의 정보를 다운로드하기 위한 것,
    을 특징으로 하는 분산 훈련 시스템.
  11. 제9항에 있어서,
    상기 각 데이터 서버는 하나의 파라미터 서버를 포함하며, 상기 파라미터 서버는 상기 훈련후의 모델 파라미터를 보존하기 위한 것,
    을 특징으로 하는 분산 훈련 시스템.
  12. 제9항에 있어서,
    상기 작업 정보 서버는 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하기 위한 것이며, 시스템중에 사용가능한 컴퓨팅 서버의 수량이 변화하지 않으면, 상기 작업 정보 서버는 각 데이터 서버중의 파라미터 서버로 하여금 최신의 모델 파라미터를 보존하게 하는것,
    을 특징으로 하는 분산 훈련 시스템.
  13. 제9항에 있어서,
    상기 작업 정보 서버는 시스템중의 각 컴퓨팅 서버에 대해 라이브 검측을 진행하기 위한 것이며, 시스템중에 사용가능한 컴퓨팅 서버의 수량이 변화하면, 상기 작업 정보 서버는 사용가능한 컴퓨팅 서버 리스트를 업데이트하고, 각 데이터 서버중의 파라미터 서버로 하여금 이전의 라이브 검측시의 모델 파라미터를 다시 로딩하게 하는것,
    을 특징으로 하는 분산 훈련 시스템.
  14. 제12항 또는 제13항에 있어서,
    상기 작업 정보 서버가 라이브 검측을 진행할 때, 시스템은 일시적으로 훈련 처리를 정지하며,
    상기 작업 정보 서버는 라이브 검측을 완료한 후, 현재의 모델 파라미터 및 기록된 훈련 완료후의 훈련 데이터의 식별 정보에 기반하여, 각 데이터 서버에 새로운 훈련 청구를 송신하기 위한 것,
    을 특징으로 하는 분산 훈련 시스템.
  15. 제9항에 있어서,
    상기 각 컴퓨팅 서버사이에는 정보 교환이 존재하지 않는것을 특징으로 하는 분산 훈련 시스템.
  16. 제9항에 있어서,
    상기 작업 정보 서버는 정적 노드인 것을 특징으로 하는 분산 훈련 시스템.
  17. 적어도 하나의 프로세서, 및 상기 적어도 하나의 프로세서와 통신 연결된 메모리를 포함하는 전자 기기에 있어서,
    상기 메모리는 상기 적어도 하나의 프로세서에 의해 실행되는 명령들을 저장하며, 상기 명령들은 상기 적어도 하나의 프로세서에 의해 실행되여, 상기 적어도 하나의 프로세서가 청구항1-8중의 어느 한 항의 방법을 실행하도록 하는것,
    을 특징으로 하는 전자 기기.
  18. 컴퓨터 명령들을 저장하는 비 일시적 컴퓨터 판독가능한 저장 매체에 있어서,
    상기 컴퓨터 명령들은 상기 컴퓨터로 하여금 청구항1-8중의 어느 한 방법을 실행하도록 하기 위한 것을 특징으로 하는 저장 매체.
  19. 컴퓨터에서 프로세서에 의해 실행될 경우, 청구항1-8중의 어느 한 항에 기재된 분산 훈련 방법을 실현하는것을 특징으로 하는 프로그램.
KR1020200164799A 2020-06-28 2020-11-30 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램 KR20220001008A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010599075.1A CN111753997B (zh) 2020-06-28 2020-06-28 分布式训练方法、系统、设备及存储介质
CN202010599075.1 2020-06-28

Publications (1)

Publication Number Publication Date
KR20220001008A true KR20220001008A (ko) 2022-01-04

Family

ID=72677681

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200164799A KR20220001008A (ko) 2020-06-28 2020-11-30 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램

Country Status (5)

Country Link
US (1) US20210406767A1 (ko)
EP (1) EP3929825A1 (ko)
JP (1) JP7138150B2 (ko)
KR (1) KR20220001008A (ko)
CN (1) CN111753997B (ko)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111461290B (zh) * 2020-03-11 2023-09-22 北京百度网讯科技有限公司 模型参数更新方法及装置
CN112434337A (zh) * 2020-11-30 2021-03-02 上海天旦网络科技发展有限公司 分布式训练生成模型的方法、系统及介质
CN112508191A (zh) * 2020-12-14 2021-03-16 北京地平线信息技术有限公司 训练深度学习模型的方法及装置、电子设备及存储介质
CN112561078B (zh) * 2020-12-18 2021-12-28 北京百度网讯科技有限公司 分布式的模型训练方法及相关装置
CN112598135A (zh) * 2020-12-24 2021-04-02 深圳壹账通智能科技有限公司 模型训练处理方法、装置、计算机设备及介质
CN112615937A (zh) * 2020-12-28 2021-04-06 南方电网深圳数字电网研究院有限公司 数据传输、数据训练方法、服务器、电子设备及存储介质
CN113485784A (zh) * 2021-06-08 2021-10-08 中国联合网络通信集团有限公司 一种模型训练方法及装置
CN113448730A (zh) * 2021-06-29 2021-09-28 京东科技控股股份有限公司 服务的处理方法、装置、计算机设备及存储介质
CN114493919A (zh) * 2022-01-18 2022-05-13 杭州安脉盛智能技术有限公司 储能电站运行监测模型的训练方法及储能电站的监控系统
CN114723045B (zh) * 2022-04-06 2022-12-20 北京百度网讯科技有限公司 模型训练方法、装置、系统、设备、介质及程序产品
CN114792125B (zh) * 2022-04-15 2023-06-23 北京百度网讯科技有限公司 基于分布式训练的数据处理方法、装置、电子设备和介质
CN114979141B (zh) * 2022-05-13 2024-04-26 北京百度网讯科技有限公司 一种任务处理方法、装置、设备以及存储介质
CN114862655B (zh) * 2022-05-18 2023-03-10 北京百度网讯科技有限公司 用于模型训练的运行控制方法、装置和电子设备
CN117744826A (zh) * 2022-09-14 2024-03-22 抖音视界有限公司 模型训练方法、装置以及系统和存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5584914B2 (ja) 2010-07-15 2014-09-10 株式会社日立製作所 分散計算システム
ES2714218T3 (es) * 2014-07-01 2019-05-27 Sas Inst Inc Sistemas y métodos para comunicaciones tolerantes a fallos
CN105760240A (zh) * 2014-12-16 2016-07-13 航天信息股份有限公司 分布式任务处理方法及装置
CN107025205B (zh) * 2016-01-30 2021-06-22 华为技术有限公司 一种分布式系统中的训练模型的方法及设备
CN105956021B (zh) * 2016-04-22 2019-05-21 华中科技大学 一种适用于分布式机器学习的自动化任务并行的方法及其系统
CN106022521B (zh) * 2016-05-19 2020-05-19 四川大学 基于Hadoop架构的分布式BP神经网络的短期负荷预测方法
CN106169094A (zh) * 2016-07-07 2016-11-30 江苏大学 一种基于分布式神经元的rnnlm系统及其设计方法
CN106529682A (zh) * 2016-10-28 2017-03-22 北京奇虎科技有限公司 一种在大数据集群中处理深度学习任务的方法和装置
CN106529673B (zh) * 2016-11-17 2019-05-03 北京百度网讯科技有限公司 基于人工智能的深度学习网络训练方法及装置
US20180144244A1 (en) 2016-11-23 2018-05-24 Vital Images, Inc. Distributed clinical workflow training of deep learning neural networks
CN106708624B (zh) * 2016-11-25 2020-08-11 国电南瑞科技股份有限公司 一种多工作域计算资源的自适应调整方法
US10649806B2 (en) * 2017-04-12 2020-05-12 Petuum, Inc. Elastic management of machine learning computing
CN108734293B (zh) * 2017-04-13 2023-05-02 北京京东尚科信息技术有限公司 任务管理系统、方法和装置
CN111079942B (zh) * 2017-08-30 2023-03-24 第四范式(北京)技术有限公司 执行机器学习的分布式系统及其方法
CN107733977B (zh) * 2017-08-31 2020-11-03 北京百度网讯科技有限公司 一种基于Docker的集群管理方法及装置
CN107885762B (zh) * 2017-09-19 2021-06-11 北京百度网讯科技有限公司 智能大数据系统、提供智能大数据服务的方法和设备
CN107578094A (zh) * 2017-10-25 2018-01-12 济南浪潮高新科技投资发展有限公司 基于参数服务器和fpga实现神经网络分布式训练的方法
CN109815002A (zh) * 2017-11-21 2019-05-28 中国电力科学研究院有限公司 一种基于在线仿真的分布式并行计算平台及其方法
US10140184B1 (en) * 2018-03-14 2018-11-27 Capital One Services, Llc Node recovery in static distributed networks
CN108763299A (zh) * 2018-04-19 2018-11-06 贵州师范大学 一种大规模数据处理计算加速系统
CN108681777B (zh) * 2018-05-07 2021-07-20 北京京东尚科信息技术有限公司 一种基于分布式系统的机器学习程序运行的方法和装置
CN108880928A (zh) * 2018-05-22 2018-11-23 国网山东省电力公司电力科学研究院 基于网格计算的分布式输电线路监控图像识别方法与系统
CN109102075A (zh) * 2018-07-26 2018-12-28 联想(北京)有限公司 一种分布式训练中的梯度更新方法及相关设备
CN109062700A (zh) * 2018-08-21 2018-12-21 郑州云海信息技术有限公司 一种基于分布式系统的资源管理方法及服务器
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
US10776164B2 (en) * 2018-11-30 2020-09-15 EMC IP Holding Company LLC Dynamic composition of data pipeline in accelerator-as-a-service computing environment
CN110033095A (zh) * 2019-03-04 2019-07-19 北京大学 一种高可用分布式机器学习计算框架的容错方法和系统
CN110704630A (zh) * 2019-04-15 2020-01-17 中国石油大学(华东) 一种标识化关联图谱自优化机制
CN110221913A (zh) * 2019-04-26 2019-09-10 深圳市致宸信息科技有限公司 监控服务器的云算力的方法、终端、设备及存储介质
CN110457176B (zh) * 2019-07-12 2022-09-27 平安普惠企业管理有限公司 用于分布式系统的监控方法、装置、存储介质及电子设备
CN110619388B (zh) * 2019-09-20 2024-04-02 北京金山数字娱乐科技有限公司 一种分布式训练中梯度同步方法及装置
CN110850956B (zh) * 2019-10-28 2021-11-19 西安交通大学 一种基于数据覆盖集的分布式运算集群动态能耗管理方法
CN111147541B (zh) * 2019-11-18 2022-11-15 广州文远知行科技有限公司 基于参数服务器的节点处理方法、装置、设备及存储介质
CN111079921A (zh) * 2019-11-29 2020-04-28 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种基于异构分布式系统的高效神经网络训练调度方法
CN111027708A (zh) * 2019-11-29 2020-04-17 杭州电子科技大学舟山同博海洋电子信息研究院有限公司 一种面向分布式机器学习的参数通信优化方法
CN110928689B (zh) * 2019-12-05 2020-08-25 中国人民解放军军事科学院国防科技创新研究院 面向分布式强化学习训练的自适应资源管理方法及装置
CN111030861B (zh) * 2019-12-11 2022-05-31 中移物联网有限公司 一种边缘计算分布式模型训练方法、终端和网络侧设备
CN111221646A (zh) * 2019-12-16 2020-06-02 清华大学 分布式机器学习的参数同步方法及装置
CN111160531B (zh) * 2019-12-30 2023-09-22 北京迈格威科技有限公司 神经网络模型的分布式训练方法、装置及电子设备
CN111126604B (zh) * 2019-12-31 2024-02-02 北京奇艺世纪科技有限公司 模型训练方法、装置、服务器及存储介质
CN111240901B (zh) * 2020-01-13 2023-01-10 苏州浪潮智能科技有限公司 分布式块存储系统的节点动态扩展系统、方法及设备
CN111259917B (zh) * 2020-02-20 2022-06-07 西北工业大学 一种基于局部近邻成分分析的图像特征提取方法

Also Published As

Publication number Publication date
JP2022008781A (ja) 2022-01-14
US20210406767A1 (en) 2021-12-30
CN111753997B (zh) 2021-08-27
JP7138150B2 (ja) 2022-09-15
EP3929825A1 (en) 2021-12-29
CN111753997A (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
KR20220001008A (ko) 분산 훈련 방법, 시스템, 기기, 저장 매체 및 프로그램
EP3828719A2 (en) Method and apparatus for generating model for representing heterogeneous graph node, electronic device, storage medium, and computer program product
US11372688B2 (en) Resource scheduling method, scheduling server, cloud computing system, and storage medium
KR20210114853A (ko) 모델 파라미터를 업데이트하는 방법 및 장치
CN111507476A (zh) 部署机器学习模型的方法、设备和计算机程序产品
US11860749B2 (en) Method and apparatus for sending debugging instruction
WO2021120180A1 (en) Virtual workspace experience visualization and optimization
CN110852449A (zh) 模型迁移方法和电子设备
KR20220151585A (ko) 업무 데이터 처리 방법, 장치, 전자 기기, 저장 매체 및 컴퓨터 프로그램
WO2023093127A1 (zh) 一种监控集群的方法、装置及电子设备
JP2021152960A (ja) オペレーター併合方法、装置、電子デバイス、記憶媒体及びコンピュータプログラム
CN112540914A (zh) 单元测试的执行方法、执行装置、服务器和存储介质
US20130138418A1 (en) Modeling of Cross System Scenarios
CN111061743A (zh) 数据加工方法、装置和电子设备
JP2022013658A (ja) オプティマイザ学習方法、装置、電子デバイス、可読記憶媒体及びコンピュータプログラム
US11048555B2 (en) Method, apparatus, and computer program product for optimizing execution of commands in a distributed system
US20190227837A1 (en) Hot-swapping storage pool backend functional modules
US11748108B2 (en) Instruction executing method and apparatus, electronic device, and computer-readable storage medium
US20220121963A1 (en) Network operator processing method, apparatus, electronic device and storage medium
US20230179546A1 (en) Processor and implementation method, electronic device, and storage medium
US11405316B2 (en) Live application and kernel migration using routing table entries
US11941055B2 (en) Method and apparatus for graph computing, electronic device and storage medium
WO2021174791A1 (zh) 任务迁移方法、装置、电子设备及存储介质
CN112527368B (zh) 集群内核版本更新方法、装置、电子设备和存储介质
CN113568761B (zh) 数据处理方法、装置、设备及存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal