KR20210156243A

KR20210156243A - 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체

Info

Publication number: KR20210156243A
Application number: KR1020210173825A
Authority: KR
Inventors: 티안지안 헤; 디안하이 유; 지화 우; 다시앙 동; 얀준 마
Original assignee: 베이징 바이두 넷컴 사이언스 테크놀로지 컴퍼니 리미티드
Priority date: 2021-03-10
Filing date: 2021-12-07
Publication date: 2021-12-24
Also published as: EP3955174A2; JP2022017588A; EP3955174A3; CN113032117A; US20220036241A1

Abstract

본 발명은 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체를 개시하였고, 딥러닝, 빅데이터 처리 등 인공지능 분야에 관한 것이다. 구체적인 구현 수단은, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는 단계; 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는 단계; 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계; 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는 단계; 를 포함한다. 이로하여, 딥러닝 프레임워크의 자동적인 탄성 훈련을 구현하고, 훈련 효과를 보장하는 전제에서, 훈련 효율을 향상하고, 인건비를 낮춘다.

Description

딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체{TRAINING METHODS OF DEEP-RUNNING FRAMEWORKS, DEVICES AND STORAGE MEDIA}

본 발명은 딥러닝, 빅데이터 처리 등 기술 분야에 관한 것으로, 특히 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체에 관한 것이다.

컴퓨터 기술의 응용에 따라, 딥러닝 기술은 지도 학습 분야에서 큰 성공을 거두었고, 여기서, 딥러닝의 모델 프레임워크가 훈련할 경우, 대규모의 라벨 데이터를 획득하는데 가격이 비싼 문제를 해결하기 위해, 사람들은 비지도 기술을 중시하기 시작하였다. 복수의 비지도 학습 기술에서, 근 1년 대조 학습은 비범한 잠재력을 나타냈고, 심지어 많은 태스크에서의 지표는 지도 학습의 효과에 접근한다. 시각 분야에까지 구체적으로, 딥러닝 모델 프레임워크에 대한 훈련은 어느 하나의 미리 훈련 태스크를 통해 이미지에 대한 표시를 학습하고, 학습한 표시를 직접 구체적인 태스크에 적용할 것을 희망한다.

그러나, 실제 훈련에서, 태스크는 모두 클러스터 작업을 제출하여 운행되고, 많은 사람이 하나의 기계 자원을 공유한다. 미리 훈련된 태스크가 클러스터 자원을 장기 점용할 경우, 기타 사용자의 조사 연구 태스크, 또는 일부 최우선 순위의 태스크가 수행되지 못하는 경우를 초래한다. 그리고, 본원 발명의 태스크가 성공적으로 제출되어도, 수행의 성공 여부를 자주 관찰해야 하고, 실패하였음을 발견할 경우, 수동으로 태스크를 다시 제출해야 하고, 훈련의 효율은 매우 낮다.

본 발명은 클러스터에서 태스크 훈련을 위한 인력 투입을 저하하고, 훈련 효율을 향상하는데 사용되는 딥러닝 프레임워크의 훈련 방법, 장치 및 저장 매체를 제공한다.

본 발명의 일 측면에 따르면, 딥러닝 프레임워크의 훈련 방법을 제공하고, 당해 방법은, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는 단계; 상기 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는 단계; 상기 노드 수량이 상기 미리 설정된 수량보다 클 경우, 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계; 및 상기 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는 단계; 를 포함한다.

본 발명의 다른 하나의 측면에 따르면, 딥러닝 프레임워크의 훈련 장치를 제공하고, 당해 장치는, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는데 사용되는 제1 획득 모듈; 상기 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는데 사용되는 판단 모듈; 상기 노드 수량이 상기 미리 설정된 수량보다 클 경우, 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는데 사용되는 훈련 모듈; 상기 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는데 사용되는 제2 획득 모듈; 을 포함한다.

본 발명의 또 다른 하나의 측면에 따르면, 전자 기기를 제공하고, 당해 전자 기기는, 적어도 하나의 프로세서; 및 상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리; 를 포함하고; 여기서, 상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 제1 측면 실시예의 딥러닝 프레임워크의 훈련 방법을 수행한다.

본 발명의 또 다른 하나의 측면에 따르면, 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체를 더 제공하고, 상기 컴퓨터 명령이 실행될 경우, 제1 측면 실시예의 딥러닝 프레임워크의 훈련 방법이 수행된다.

본 발명의 또 다른 하나의 측면에 따르면, 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램을 더 제공하고, 상기 컴퓨터 프로그램중의 명령이 실행될 경우, 제1 측면 실시예의 딥러닝 프레임워크의 훈련 방법이 수행된다.

본 발명의 실시예에 따르면, 적어도 하기의 기술 효과를 구비한다.

타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하고, 나아가, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하고, 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하며, 마지막으로, 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득한다. 이로하여, 딥러닝 프레임워크의 자발적인 탄성 훈련을 구현하고, 훈련 효과를 보장하는 전제에서, 훈련 효율을 향상하고, 인건비를 낮춘다.

이해해야할 것은, 본 발명의 내용 부분에서 설명하는 내용은 본 발명 실시예의 관건 또는 중요한 특징을 식별하기 위한 것이 아니고, 본 발명의 범위를 한정하기 위한 것도 아니다. 본 발명의 기타 특징은 이하의 명세서를 통해 용이하게 이해된다.

도면은 본 기술적 수단을 더 잘 이해하기 위한 것이고, 본 출원을 한정하려는 것은 아니다.
도1은 본 발명의 제1 실시예에 따른 딥러닝 프레임워크의 훈련 방법의 흐름 개략도이다.
도2는 본 발명의 제2 실시예에 따른 타겟 태스크 훈련의 상태 개략도이다.
도3은 본 발명의 제3 실시예에 따른 딥러닝 프레임워크의 훈련 방법의 흐름 개략도이다.
도4는 본 발명의 제4 실시예에 따른 딥러닝 프레임워크의 훈련 방법의 흐름 개략도이다.
도5는 본 발명의 제5 실시예에 따른 딥러닝 프레임워크의 훈련 장치의 구조 개략도이다.
도6은 본 발명의 제6 실시예에 따른 딥러닝 프레임워크의 훈련 장치의 구조 개략도이다.
도7은 본 발명 실시예의 딥러닝 프레임워크의 훈련 방법을 구현하는데 사용되는 전자 기기의 블록도이다.

하기의 도면과 결합하여 본 출원의 예시적인 실시예를 설명한다. 여기에는 이해를 돕기 위해 본 출원의 실시예의 복수의 세부 사항을 포함하고, 실시예들은 단지 예시적인 것으로 간주되어야 한다. 때문에 당해 발명에 속하는 기술 분야의 통상의 기술자는 본 출원의 범위 및 사상을 벗어나지 않고 실시예에 여러가지 변경과 수정을 할 수 있다는 것을 인식해야 한다. 동시에 정확성과 간결성을 위해 하기의 설명에서 공지 기능과 구조에 대한 설명은 생략한다.

상기 발명의 배경이 되는 기술에서 제기한 문제, 즉 딥러닝 프레임워크가 클러스터 자원에서 훈련할 경우, 인위적으로 훈련 상태를 모니터링해야 함으로 인건비가 비교적 높은 경우를 초래하고, 훈련 태스크는 기타 태스크가 장기적으로 클러스터 자원을 점용하도록 영향할 수 있어, 최우선 순위 태스크가 수행되지 못하는 경우를 초래하는 문제를 해결하기 위해, 본 발명은 딥러닝 모델의 딥러닝 프레임워크의 탄성 훈련 방식을 제공한다. 클러스터 자원이 유휴된 상황에서, 인위적인 모니터링이 필요없이 자동적으로 본원 발명의 미리 훈련된 태스크를 수행한다. 더 높은 우선 순위 태스크가 있을 경우 본원 발명의 태스크를 종료하고, 기타 최우선 순위 태스크의 수행에 영향주는 것을 방지한다.

구체적으로, 도1은 본 발명의 제1 실시예에 따른 딥러닝 프레임워크의 훈련 방법의 흐름 개략도이고, 도1에 도시한 바와 같이, 당해 방법은 단계101 내지 단계104를 포함한다.

단계101에서, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득한다.

여기서, 타겟 태스크는 딥러닝에 사용되고 딥러닝 프레임워크를 훈련하는 임의 태스크일 수 있고, 이미지 카테고리에 대한 인식, 약품의 라벨에 대한 분류, 이미지에 대한 의미 인식 등을 포함한다.

현재 태스크 노드 클러스터는, 클러스터 자원에는 대량의 훈련 태스크를 적재할 수 있고, 타겟 태스크의 훈련을 수행하는 데는 일정한 자원이 필요하다는 것을 용이하게 이해할 수 있다. 따라서, 타겟 태스크가 수행할 수 있도록 보장하기 위해, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하고, 여기서, 클러스터의 각 노드는 기계 자원으로 이해할 수 있고, 당해 기계 자원은 샘플 데이터에 따라 딥러닝 프레임워크를 훈련하는데 사용될 수 있다.

단계102에서, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단한다.

여기서, 미리 설정된 수량은 타겟 태스크의 훈련 태스크 량에 따라 결정할 수 있고, 일부 가능한 실시예에서, 먼저 실험 데이터에 따라 훈련하여 딥러닝 모델을 획득할 수 있고, 당해 딥러닝 모델의 입력은 타겟 태스크의 태스크 유형이고, 출력은 미리 설정된 수량임으로, 당해 딥러닝 모델에 따라 해당 태스크 유형을 획득할 수 있다.

이해해야 할 것은, 비교적 적은 태스크 노드가 존재할 경우, 타겟 태스크의 훈련 강도를 이겨내지 못하는 것은 뻔한 것이다. 따라서, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 크거나 같은지 여부를 판단한다.

단계103에서, 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련한다.

본 실시예에서, 미리 설정된 수량보다 클 경우, 타겟 태스크를 스타트 업할 수 있다는 것을 표시하고, 조건을 만족하는 모든 태스크 노드에 따라 태스크의 딥러닝 프레임워크를 동시에 훈련한다.

여기서, 딥러닝 프레임워크는 임의 형식의 딥러닝 모델의 최초 아키텍처일 수 있고, 컨볼루션 레이어, 풀링 레이어 및 완전 연결 레이어를 포함할 수 있다.

이해해야 할 것은, 부동한 노드의 샘플 데이터의 획득 방법 및 획득 시간은 부동할 수 있다. 이로하여, 부동한 태스크 노드가 훈련할 때 사용한 샘플 데이터는 훈련 결과를 부동하게 할 수 있다. 따라서 훈련 효과의 전면성을 보장하기 위해, 본 발명의 실시예에서, 조건을 만족하는 모든 태스크 노드에 따라 태스크의 딥러닝 프레임워크를 동시에 훈련한다. 즉 모든 태스크 노드의 훈련 결과를 동기화한다.

본 발명의 일 실시예에서, 각 태스크 노드에서 딥러닝 프레임워크를 훈련하고, 미리 설정된 주기에 따라 각 주기 각 태스크 노드의 딥러닝 프레임워크의 프레임워크 파라미터를 판독한다. 당해 프레임워크 파라미터는 딥러닝 모델의 모델 파라미터 등으로 이해할 수 있고, 제1 평균치를 결정하고, 제1 평균치는 모든 태스크 노드의 프레임워크 파라미터의 평균치이고, 제1 평균치에 따라 각 태스크 노드의 딥러닝 프레임워크를 동기화한다. 이로하여, 부동한 태스크 노드 사이의 훈련의 동기화를 구현한다.

본 발명의 또 다른 하나의 실시예에서, 딥러닝 프레임워크를 복수의 훈련 단계로 나누고, 각 훈련 단계에 도달할 경우, 각 태스크 노드에서 당해 훈련 단계에 대한 프레임워크 파라미터를 획득하고, 당해 단계의 프레임워크 파라미터의 평균치를 구하고 각 훈련 단계의 동기화를 구현한다.

단계104에서, 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득한다.

여기서, 일부 가능한 실시예에서, 사용자가 송신한 훈련 태스크 완성 조건을 수신하였을 경우, 타겟 태스크가 훈련 완성 조건을 만족한다고 결정한다. 다른 하나의 가능한 실시예에서, 각 태스크 노드에서, 손실 함수에 따라 딥러닝 프레임워크의 손실값을 계산하고, 모든 태스크 노드의 손실값이 미리 설정된 역치보다 작을 경우, 타겟 태스크가 훈련 완성 조건을 만족한다 결정한다.

타겟 태스크가 훈련 완성 조건을 만족할 경우, 모든 태스크 노드는 동시에 훈련된 것이므로, 모든 태스크 노드가 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하고, 당해 타겟 딥러닝 프레임워크는 모든 태스크 노드를 동기화한 훈련 결과이다. 나아가, 타겟 딥러닝 프레임워크에 따라 임의 타겟 딥러닝 프레임워크의 장면을 진행한다. 예를 들면, 타겟 딥러닝 프레임워크를 통해 이미지 의미에 대한 인식을 하고; 타겟 딥러닝 프레임워크를 통해 이미지 분류를 하고; 타겟 딥러닝 프레임워크를 통해 의학 등 분야의 약품 라벨의 결정 등을 수행한다.

아래는 구체적인 적용 장면을 결합하고, 구체적인 적용 장면에서 딥러닝 프레임워크를 훈련하는 방법을 예시적으로 설명한다.

예시1:

본 예시에서, 타겟 딥러닝 프레임워크를 통해 이미지 의미에 대한 인식을 수행한다.

구체적으로, 이미지 의미의 인식 수요에 따라 훈련 시작 조건을 결정하고, 본 예시에서, 훈련 시작 조건은 유휴 상태인 노드의 미리 설정된 수량이 5개보다 큰 것이고, 현재 태스크 노드 클러스터에서 유휴 상태의 노드 수량이 5개 보다 크거나 같을 경우, 유휴 상태의 노드를 태스크 노드로 결정한다.

나아가, 각 태스크 노드에서 이미지 의미 인식의 딥러닝 프레임워크를 훈련하기 시작하고, 각 태스크 노드 훈련 샘플 이미지는 온라인으로 획득할 수 있고, 당해 태스크 노드의 로컬에서 판독할 수도 있으며, 각 태스크 노드의 훈련 샘플 이미지는 완전히 동일하지 않고, 비지도 훈련 방식을 사용하여 각 태스크 노드의 딥러닝 프레임워크가 이미지 의미에 대응하는 프레임워크 파라미터를 학습하여 획득하도록 하고, 본 실시예에서, 일정한 시간 간격으로, 모든 태스크 노드의 프레임워크 파라미터의 평균치를 계산하고, 평균치에 따라 각 태스크 노드의 딥러닝 프레임워크를 동기화한다.

본 실시예에서, 손실 함수에 따라 마지막으로 동기화시킨 딥러닝 프레임워크의 의미 손실값을 계산한다. 예를 들면, 표준 의미가 주석된 참조 훈련 이미지를 마지막으로 동기화시킨 딥러닝 프레임워크에 입력하여, 당해 마지막으로 동기화시킨 딥러닝 프레임워크에 이해 출력된 참조 의미를 획득하고, 참조 의미와 표준 의미의 의미 손실값을 계산하며, 손실값이 모두 미리 설정된 여치보다 작을 경우, 당해 마지막으로 동기화시킨 딥러닝 프레임워크가 이미지 의미를 인식하는 타겟 딥러닝 프레임워크로 사용될 수 있다고 결정한다.

훈련한 타겟 딥러닝 프레임워크를 획득한 후, 의미 인식할 이미지를 당해 딥러닝 프레임워크에 입력하여, 당해 타겟 딥러닝 프레임워크에 의해 출력된 이미지 의미를 획득할 수 있다.

예시2:

본 예시에서, 타겟 딥러닝 프레임워크를 통해 약품 카테고리의 카테고리 라벨을 결정한다.

구체적으로, 카테고리 라벨에 따라 훈련 시작 조건을 결정하고, 본 예시에서, 훈련 시작 조건은 유휴 상태의 노드의 미리 설정된 수량이 20개보다 큰 것이고, 현재 태스크 노드 클러스터에서 유휴 상태의 노드 수량이 20개보다 크면, 유휴 상태의 노드를 태스크 노드로 결정한다.

나아가, 각 태스크 노드가 약품 카테고리의 카테고리 라벨의 딥러닝 프레임워크를 훈련하기 시작할 경우, 각 태스크 노드는 온라인에서 훈련 샘플 데이터를 획득할 수 있고, 당해 태스크 노드의 로컬에서 판독할 수도 있으며, 여기서, 훈련 샘플 데이터는 다양한 약품의 약품 성분, 약품 제조원 정보 등일 수 있다. 각 태스크 노드의 훈련 샘플 데이터는 완전히 동일하지 않고, 비지도 훈련 방식으로 각 태스크 노드의 딥러닝 프레임 워크를 학습하여 카테고리 인식에 대응하는 프레임워크 파라미터를 학습하여 획득하도록 하고, 본 실시예에서, 일정한 시간 간격으로, 모든 태스크 노드의 프레임 워크 파라미터의 평균치를 계산하고, 평균치에 따라 각 태스크 노드의 딥러닝 프레임워크를 동기화한다.

본 실시예에서, 손실 함수에 따라 마지막 동기화시킨 딥러닝 프레임워크의 카테고리 라벨 손실값을 계산한다. 예를 들면, 표준 카테고리 라벨가 주석된 참조 약품 정보를 마지막으로 동기화시킨 딥러닝 프레임워크에 입력하여, 당해 마지막으로 동기화시킨 딥러닝 프레임워크에 의해 출력된 참조 카테고리 라벨을 획득하고, 참조 카테고리 라벨 및 표준 카테고리 라벨의 카테고리 라벨 손실값을 계산하며, 손실값이 모두 미리 설정된 역치보다 작을 경우, 당해 마지막으로 동기화시킨 딥러닝 프레임워크가 약품의 카테고리 라벨을 인식하는데 사용될 수 있는 타겟 딥러닝 프레임워크라고 결정한다.

훈련한 타겟 딥러닝 프레임워크를 획득한 후, 인식할 카테고리 라벨의 약품 정보를 당해 딥러닝 프레임워크에 입력하여, 당해 타겟 딥러닝 프레임워크에 의해 출력된 카테고리 라벨을 획득할 수 있다. 이로하여, 상기 훈련 과정의 전체 과정은 훈련 자동화를 구현하였고, 사용자가 클러스터 자원 및 인물 상태 등을 모니터링할 필요 없고, 훈련의 인건비를 저하하였으며, 훈련 효율을 향상한다.

상기에 기재된 바와 같이, 본 발명 실시예의 딥러닝 프레임워크의 훈련 방법은, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하고, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하며; 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하고, 마지막으로, 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득한다. 이로하여, 딥러닝 프레임워크의 자동 탄성 훈련을 구현하고, 훈련 효과를 보장하는 전제에서, 훈련 효율을 향상하고, 인건비를 저하한다.

설명해야 할 것은, 부동한 적용 장면에서, 타겟 태스크에 대응하는 훈련 시작 조건 및 적어도 하나의 태스크 노드에 대응하는 미리 설정된 시작 조건은 부동한바, 우선, 예시로 타겟 태스크에 대응하는 훈련 시작 조건을 설명하고, 설명은 예시1 내지 예시3과 같다.

예시1:

본 발명의 일 실시예에서, 타겟 태스크에 대한 훈련의 자동화 관리를 편리하기 위해, 태스크의 4종 상태를 설정한다. 도2에 도시된 바와 같이, 태스크 훈련의 4종 상태는, 활성화, 대기, 운행 및 종료를 포함하고, 당해 상태 사이의 전환 관계는 도2를 참조하고, 각 태스크의 최초 상태는 모두“활성화”이며, 클러스터 자원에서 훈련할 경우, 태스크의 상태는 운행이고, 운행 상태는 태스크가 정상적으로 운행하고 있다는 것을 표시하고, 중단, 선점되었을 경우, 기계 고장 또는 기타 원인으로 실패된 상황에서, 대기 상태로 전환될 수 있고, 클러스터 자원이 훈련 시작의 관련 요구에 다시 만족할 경우, 훈련 태스크는 다시 운행 상태로 전환되고, 전체 태스크가 순리롭게 훈련을 완성한 후, 종료 상태로 전환될 수 있고, 훈련 완성을 표시한다.

따라서, 본 실시예에서, 타겟 태스크가 훈련 시작 조건을 만족하는 것은, 타겟 태스크가 활성화 상태로 스타트 업되거나, 타겟 태스크가 대기 상태로 되는 것일 수 있다.

본 실시예에서, 각 태스크 노드가 대기 상태에 들어간 후, 여전히 전의 훈련 결과를 보존하도록 보장하기 위해, 태스크는 훈련할 경우, 일정한 시간 간격으로 해당 딥러닝 프레임워크의 프레임워크 파라미터 등을 저장하고, 대기 상태일 경우, 기계 자원이 다시 만족될 때, 자동적으로 최근 보존한 프레임워크 파라미터에서 다음 번 훈련을 웜 부트하고, 훈련 태스크는 다시 운행 상태로 전환된다.

예시2:

본 실시예에서, 인위적으로 훈련 시작을 트리거링하는 인터페이스를 제공하고, 사용자 음성 정보에 타겟 태스크 시작 훈련의 키워드가 포함됨을 수신하거나, 사용자가 미리 설정된 훈련 시작 소프트웨어 제어를 트리거링할 경우, 타겟 태스크가 훈련 시작 조건을 만족한다고 결정하다.

예시3:

본 예시에서, 기타 최우선 태스크의 진행을 방해하지 않기 위해, 수행해야할 높은 순위 태스크가 없을 경우에만, 태스크는 훈련 시작 조건을 만족한다.

본 실시예에서, 현재 태스크 노드 클러스터에서 수행할 태스크의 우선 순위를 모니터링하고, 우선 순위가 미리 설정된 순위보다 작을 경우, 타겟 태스크가 훈련 시작 조건을 만족한다고 결정한다.

이해해야 할 것은, 클러스터 자원은 대량의 훈련 태스크를 적재할 수 있고, 타겟 태스크의 훈련의 수행에는 일정한 자원이 수요되므로, 타겟 태스크가 수행할 수 있도록 보장하기 위해, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하고, 여기서, 클러스터의 각 노드는 기계 자원으로 이해할 수 있고, 당해 기계 자원은 샘플 데이터에 따라 딥러닝 프레임워크에 대한 훈련에 사용될 수 있다.

그 다음, 예시로 적어도 하나의 태스크 노드에 대응하는 미리 설정된 시작 조건을 설명하고, 예시 설명은 예시1 내지 예시2와 같다.

예시1:

본 예시에서, 미리 설정된 시작 조건은 노드 상태가 유휴 상태인 것이다.

본 예시에서, 현재 태스크 노드 클러스터의 각 노드의 노드 상태를 결정하고, 당해 노드 상태는 태스크 수행 상태 및 유휴 상태 등을 포함할 수 있고, 본 실시예에서, 노드 상태가 유휴 상태인 노드를 미리 설정된 시작 조건을 만족하는 태스크 노드로 결정한다.

본 실시예에서, 각 노드에 상태 비트의 조회 요청을 송신할 수 있고, 각 노드의 피드백 정보에 따라, 각 노드의 노드 상태를 결정한다.

예시2:

본 예시에서, 미리 설정된 시작 조건은 유휴 자원량이 일정값보다 큰 것이다.

본 실시예에서, 현재 태스크 노드 클러스터의 각 노드의 유휴 자원량을 결정한다. 예를 들면, 유휴 메모리 용량, 예를 들면, 각 노드도 하나의 서브 클러스터일 경우, 유휴 자원량은 각 노드에서 유휴된 서브 노드의 수량 등이다.

나아가, 유휴 자원량이 미리 설정된 역치보다 큰 노드를 미리 설정된 시작 조건을 만족하는 태스크 노드로 결정하고, 여기서, 미리 설정된 역치는 타겟 태스크의 훈련량에 따라 결정할 수 있다.

상기에 기재된 바와 같이, 본 발명 실시예의 딥러닝 프레임워크의 훈련 방법은, 장면 수요에 따라, 부동한 방식으로 타겟 태스크에 대응하는 태스크 노드를 결정하고, 타겟 태스크 훈련의 자동화를 더 향상한다.

모니터링 수단에서 선택한 것은 모두 데이터 병행 전략이므로, 하나의 태스크에 있어서, 사용한 노드 수량이 많을 수록, 병행도가 크다는 것을 의미하고, 훈련의 소요 시간도 짧아진다.

주의해야 할 것은, 모니터링이 있는 훈련에서, 심층 신경망을 훈련할 경우, 심층 신경망 훈련 과정에서 각 신경망의 입력이 동일하게 분산하는 훈련 요구가 존재해야하므로, 훈련 과정에서 노드 수량을 증가 또는 감소할 경우, 통계량에 파동이 생성되어, 훈련이 불안정하고, 효과에 손해준다. 그러나, 모니터링에서 훈련한 상기 몇 개의 수단에서, 상기 훈련 요구는 모두 전역적이므로, 노드를 증가하고 감소하는 것은 효과에 영향주지 않는다. 이는 본원 발명이 설계한 탄성 훈련 모듈의 이론 보장이다.

본 발명의 일 실시예에서, 자동화 탄성적으로 미리 훈련된 프레임워크를 설치함으로써, 클러스터의 유휴 자원을 충분히 이용하여 모니터링 훈련과 같은 소요 시간이 큰 태스크를 완성할 수 있다. 더 중요하게, 상기 훈련 요구의 전역적 요구는, 복수의 태스크 노드 사이에서 훈련한 프레임워크 파라미터가 동기화하게 함으로, 탄성 훈련은 효과에 손해 주지 않는 것임을 보장한다. 그리고, 자동 탐지 재제출 메커니즘은, 조사 연구자가 태스크 상태를 자주 검사하지 않아도 되게 하고, 인력을 해방하고 더 의미있는 일을 하게 한다.

구체적으로, 도3은 본 발명의 제3 실시예에 따른 딥러닝 프레임워크의 훈련 방법의 흐름 개략도이고, 도3에 도시한 바와 같이, 상기 단계에서 태스크의 훈련 완성 명령을 획득하기 전에, 당해 방법은 단계301 내지 단계302을 포함한다.

단계301에서, 현재 태스크 노드 클러스터에 미리 설정된 시작 조건을 만족하는 기타 태스크 노드가 포함되는지 여부를 모니터링한다.

본 실시예에서, 노드 훈련 과정, 즉, 태스크 훈련 과정, 즉 운행 상태에 있을 경우, 클러스터에 더 많은 유휴 노드가 있음을 발견할 경우, 직접 “튕겨” 나갈 수도 있어, 더 많은 수량의 노드를 사용하여 클러스터 자원을 충분히 이용함으로써 훈련을 가속화 한다. 또는, 태스크 노드가 대기 상태에서 운행 상태로 들어갈 경우, 현재 태스크 노드 클러스터에 미리 설정된 시작 조건을 만족하는 기타 태스크 노드가 포함되는지 여부를 모니터링한다.

단계302에서, 기타 태스크 노드가 존재할 경우, 기타 태스크 노드와 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련한다.

본 실시예에서, 기타 노드가 존재할 경우, 기타 태스크 노드와 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련한다. 예를 들면, 어느 하나의 태스크는, 처음으로 훈련하는데 4개의 태스크 노드를 사용하고 그후 선점되어 대기 상태로 들러가고, 타겟 태스크의 훈련 시작 조건을 다시 만족할 경우, 8개의 유휴 태스크 노드를 구비하고, 이때 본원 발명은 자동적으로 당해 태스크를 8개의 태스크 노드로 분할함으로써, 탄성의 목적에 도달한다.

본 발명의 실시예에서, 기타 태스크 노드는 딥러닝 프레임워크의 최초 상태에서 훈련하는 것이 아니고, 태스크 노드가 이미 훈련한 상태에서 훈련하는 것이다. 도4에 도시한 바와 같이, 기타 태스크 노드와 적어도 하나의 태스크 노드에 따라 딥러닝 프레임워크를 동시에 훈련하는 단계는 단계401 내지 단계403을 포함한다.

단계401에서, 적어도 하나의 태스크 노드에서 딥러닝 프레임워크의 현재 프레임워크 파라미터를 획득한다.

이해해야 할 것은, 각 태스크 노드의 딥러닝 프레임워크의 프레임워크 파라미터는 모두 현재 태스크 노드가 이미 훈련한 후의 성과이다.

단계402에서, 제2 평균치를 결정하고, 제2 평균치는 모든 현재 프레임워크 파라미터의 평균치이다.

단계403에서, 기타 태스크 노드와 적어도 하나의 태스크 노드는 제2 평균치에 따라 딥러닝 프레임워크의 프레임워크 파라미터를 업데이트한다.

본 실시예에서, 모든 태스크 노드의 프레임워크 파라미터의 제2 평균치를 계산하고, 제2 평균치에 따라 딥러닝 프레임워크의 프레임워크 파라미터를 업데이트하여, 업데이트 후의 참조 프레임워크 파라미터를 획득하고, 당해 참조 프레임워크 파라미터는 모든 태스크 노드의 현재 훈련 결과를 포함한다.

본 실시예에서, 기타 태스크 노드와 적어도 하나의 태스크 노드에 따라 타겟 태스크의 딥러닝 프레임워크를 훈련하고, 타겟 태스크의 훈련 효율을 향상한다.

물론, 본 발명의 일 실시예에서, 노드에 대한 점유율을 저하하기 위해, 타겟 태스크의 훈련량에 따라 기타 노드 상한을 설정할 수 있고, 기타 노드의 수량이 당해 상한을 초과한 후, 미리 설정된 조건을 만족하는 태스크 노드에서 상한에 대응하는 수량의 노드를 랜덤으로 선택하여 기타 노드로 한다.

상기에 기재된 바와 같이, 본 발명 실시예의 딥러닝 프레임워크의 훈련 방법은, 자동 탄성 미리 훈련된 프레임워크를 사용하여, 클러스터의 유휴 자원을 충분히 이용하여 모니터링 훈련과 같은 소요 시간이 큰 태스크를 완성할 수 있고, 훈련 효과를 보장하는 동시에 훈련 효율을 향상한다.

상기 실시예를 구현하기 위해, 본 발명은 딥러닝 프레임워크의 훈련 장치를 더 제공한다. 도5는 본 발명의 제5 실시예에 따른 딥러닝 프레임워크의 훈련 장치의 구조 개략도이고, 도5에 도시한 바와 같이, 당해 장치는, 제1 획득 모듈(510), 판단 모듈(520), 훈련 모듈(530) 및 제2 획득 모듈(540)을 포함한다.

제1 획득 모듈(510)은, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는데 사용된다.

판단 모듈(520)은, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는데 사용된다.

훈련 모듈(530)은, 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는데 사용된다.

제2 획득 모듈(540)은, 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는데 사용된다.

본 발명의 일 실시예에서, 제1 획득 모듈(510)은 구체적으로,

현재 태스크 노드 클러스터의 각 노드의 노드 상태를 결정하고;

노드 상태가 유휴 상태 조건의 노드를 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는데 사용된다.

본 발명의 일 실시예에서, 제1 획득 모듈(510)은 구체적으로,

현재 태스크 노드 클러스터의 각 노드의 유휴 자원량을 결정하고;

유휴 자원량이 미리 설정된 역치 조건보다 큰 노드를 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는데 사용된다.

본 발명의 일 실시예에서, 훈련 모듈(530)은 구체적으로,

각 태스크 노드에서 딥러닝 프레임워크를 훈련하고;

미리 설정된 주기에 따라 각 주기 각 태스크 노드의 딥러닝 프레임워크의 프레임워크 파라미터를 판독하고;

제1 평균치를 결정하고, 제1 평균치에 따라 각 태스크 노드의 딥러닝 프레임워크를 동기화하는데 사용되고, 제1 평균치는 모든 태스크 노드의 프레임워크 파라미터의 평균치이고, 제1 평균치에 따라 각 태스크 노드의 딥러닝 프레임워크를 동기화한다.

설명해야 할 것은, 상기 딥러닝 프레임워크의 훈련 방법에 대한 해석 설명은, 본 발명 실시예의 딥러닝 프레임워크에도 적용되는 훈련 장치이고, 당해 구현 원리는 유사하고, 여기서 더는 설명하지 않는다.

상기에 기재된 바와 같이, 본 발명 실시예의 딥러닝 프레임워크의 훈련 장치는, 타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하고, 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하고; 노드 수량이 미리 설정된 수량보다 클 경우, 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하며, 마지막으로, 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득한다. 이로하여, 딥러닝 프레임워크의 자동 탄성 훈련을 구현하고, 훈련 효과를 보장하는 전제에서, 훈련 효율을 향상하고, 인건비를 낮춘다.

본 발명의 일 실시예에서, 도6에 도시한 바와 같이, 딥러닝 프레임워크의 훈련 장치는, 제1 획득 모듈(610), 판단 모듈(620), 훈련 모듈(630), 제2 획득 모듈(640) 및 모니터링 모듈(650)을 포함하고, 여기서, 제1 획득 모듈(610), 판단 모듈(620), 훈련 모듈(630) 및 제2 획득 모듈(640)은 상기 실시예의, 제1 획득 모듈(510), 판단 모듈(520), 훈련 모듈(530) 및 제2 획득 모듈(540)과 기능이 동일하고, 여기서 더는 설명하지 않는다.

본 실시예에서, 모니터링 모듈(650)은, 현재 태스크 노드 클러스터에 미리 설정된 시작 조건을 만족하는 기타 태스크 노드가 포함되는지 여부를 모니터링하는데 사용된다.

훈련 모듈(630)은, 기타 태스크 노드가 존재할 경우, 기타 태스크 노드와 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는데 더 사용된다.

본 발명의 일 실시예에서, 훈련 모듈(630)은,

적어도 하나의 태스크 노드의 각 태스크 노드의 딥러닝 프레임워크의 현재 프레임워크 파라미터를 획득하고;

모든 현재 프레임워크 파라미터의 제2 평균치를 계산하고;

제2 평균치에 따라, 제2 평균치는 모든 현재 프레임워크 파라미터의 평균치이며;

기타 태스크 노드와 적어도 하나의 태스크 노드는 제2 평균치에 따라 딥러닝 프레임워크의 프레임워크 파라미터를 업데이트하는데 사용된다.

본 발명의 일 실시예에서, 제1 획득 모듈(510)은,

현재 태스크 노드 클러스터에서 수행할 태스크의 우선 순위를 모니터링하고;

우선 순위가 미리 설정된 순위보다 작을 경우, 타겟 태스크가 훈련 시작 조건을 만족한다고 결정하는데 사용된다.

설명해야할 것은, 상기 딥러닝 프레임워크의 훈련 방법에 대한 해석 설명은, 본 발명 실시예의 딥러닝 프레임워크에도 적용되는 훈련 장치이고, 당해 구현 원리는 유사하고, 여기서 더는 설명하지 않는다.

상기에 기재된 바와 같이, 본 발명 실시예의 딥러닝 프레임워크의 훈련 장치는, 자동 탄성 미리 훈련된 프레임워크를 사용하여, 클러스터의 유휴 자원을 충분히 이용하여 모니터링 훈련과 같은 소요 시간이 큰 태스크를 완성할 수 있고, 훈련 효과를 보장하는 동시에 훈련 효율을 향상한다.

본 발명의 실시예에 따르면, 본 발명 실시예는 전자 기기, 판독가능 저장 매체 및 컴퓨터 프로그램을 더 제공한다.

도 7에 도시된 바와 같이, 도7은 본 발명 실시예의 딥러닝 프레임워크의 훈련 방법을 구현하는데 사용되는 전자 기기(700)의 블록도이다. 전자 기기는 복수 형식의 디지털 컴퓨터를 표시한다. 예를 들면, 랩톱 컴퓨터, 데스크톱 컴퓨터, 워크스테이션, 개인 정보 단말(PAD), 서버, 블레이드 서버, 메인 프레임 및 기타 적합한 컴퓨터일 수 있다. 전자 기기는 복수 형식의 모바일 장치를 표시한다. 예를 들면 개인 정보 단말(PAD), 셀룰러 폰, 스마트 폰, 웨어러블 기기 및 기타 유사한 컴퓨팅 장치일 수 있다. 본 출원에 개시된 컴포넌트, 이들의 연결과 관계, 및 기능은 단지 예시적인 것 뿐이며, 본 출원에서 설명 및/또는 요구한 본 발명의 구현을 한정하려는 것은 아니다.

도7에 도시한 바와 같이, 기기(700)는 계산 유닛(701)을 포함하고, 읽기 전용 메모리(ROM)(702)에 저장된 컴퓨터 프로그램 또는 저장 유닛(708)에서 랜덤 액세스 메모리(RAM)(703)에 로딩된 컴퓨터 프로그램에 따라, 각 적당한 동작 및 처리를 수행한다. RAM(703)에서, 기기(700) 동작에 수요되는 각 프로그램 및 데이터를 저장할 수도 있다. 계산 유닛(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결한다.

기기(700)의 I/O인터페이스(705)에 연결되는 복수의 소자는, 키보드 등과 같은 입력 유닛(706); 다양한 유형의 모니터, 스피커 등과 같은 출력 유닛(707); 자기 디스크, 광 디스크 등과 같은 저장 유닛(708); 및 랜카드, 모뎀 또는 무선 통신 송수신기 등과 같은 통신 유닛(709)을 포함한다. 통신 유닛(709)은 기기(700)가 인터넷과 같은 컴퓨터 네트워크 및/또는 각 전신 네트워크가 기타 기기와 정보/데이터를 교환할 수 있도록 허용한다.

계산 유닛(701)은 각 처리 및 계산 기능을 구비한 통용/전용 처리 컴포넌트일 수 있다. 계산 유닛(701)의 일부 예시는 중앙 처리 장치(CPU), 그래프 처리 장치(GPU), 각 전용 인공지능 계산 칩, 각 기계 학습 모델 알고리즘을 운행하는 계산 장치, 디지털 신호 처리 장치(DSP), 임의 적합한 프로세서, 제어기 및 마이크로 제어기 등을 포함하나 이에 한정되지 않는다. 계산 유닛(701)은 상기 설명한 각 방법 및 처리를 수행한다. 예를 들면 방법 딥러닝 프레임워크의 훈련을 수행한다. 예를 들면, 일 실시예에서, 방법 딥러닝 프레임워크의 훈련은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있고, 유형적으로 저장 유닛(708)과 같은 기계 판독가능 매체에 포함된다. 일 실시예에서, 컴퓨터 프로그램의 일부 또는 전부는 ROM(702) 및/또는 통신 유닛(709)에 의해 기기(700)에 기재 및/또는 장착될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로딩되고 계산 유닛(701)에 의해 수행될 경우, 상기 설명한 방법 딥러닝 프레임 워크 훈련의 하나 또는 복수의 단계를 수행할 수 있다. 대안으로, 기타 실시예에서, 계산 유닛(701)은 기타 임의 적합한 방식(예를 들면, 펌웨어)으로 방법 딥러닝 프레임워크의 훈련을 수행할 수 있도록 구성된다.

여기서 설명하는 시스템과 기술의 여러 가지 실시형태는 디지털 전자회로 시스템, 집적회로 시스템, 프로그래밍 가능 게이트 어레이(FPGA), 전용 직접 회로(ASIC), 전용 표준 제품(ASSP), 칩상 시스템(SOC), 복합 프로그래머블 논리 소자(CPLD), 컴퓨터 하드웨어, 펌웨어, 소프트웨어 및/또는 이들의 조합에서 실현될 수 있다. 이러한 여러 가지 실시형태는 하나 또는 복수의 컴퓨터 프로그램에서 실시되는 것을 포함할 수 있고, 당해 하나 또는 복수의 컴퓨터 프로그램은 적어도 하나의 프로그래밍 가능 프로세서를 포함하는 프로그래밍 가능 시스템에서 실행 및/또는 해석되며, 당해 프로그래밍 가능 프로세서는 전용 또는 일반 프로그래밍 가능 프로세서일 수 있으며, 저장 시스템, 적어도 하나의 입력 장치 및 적어도 하나의 출력 장치에서 데이터와 명령을 수신할 수 있고, 데이터와 명령을 당해 저장 시스템, 당해 적어도 하나의 입력 장치 및 당해 적어도 하나의 출력 장치에 전송할 수 있다.

본 발명의 방법을 수행하는데 사용되는 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의 조합으로 코딩될 수 있다. 당해 프로그램 코드는 통용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래밍 가능한 데이터 처리 장치의 프로세서 또는 제어기에 제공하여, 프로그램 코드가 프로세서 또는 제어기에 의해 수행될 경우 흐름도 및/또는 블록도에서 규정한 기능/동작을 실시하게 된다. 프로그램 코드는 완전히 또는 부분적으로 기계에서 수행하고, 독립 소프트웨어 패키지로서 부분적으로 기계에서 수행하고 부분적으로 또는 완전히 원거리 기계 또는 서버에서 수행한다.

본 발명의 콘텍스트에서, 기계 판독가능 매체는 유형적인 매체일 수 있고, 명령 수행 시스템, 장치 또는 기기가 사용하거나 명령 수행 시스템, 장치 또는 기기를 결합하여 사용하도록 제공하는 프로그램을 포함 또는 저장할 수 있다. 기계 판독가능 매체는 기계 판독가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독가능 매체는 전자적인 것, 자기적인 것, 광학적인 것, 전자적인 것, 적외적인 것 또는 반도체 시스템, 장치 및 기기, 또는 상기 내용의 임의 적합한 조합을 포함하나 이에 한정되지 않는다. 기계 판독가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 선을 기반으로하는 전기 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 엑세스 메모리(RAM), 읽기 전용 메모리(ROM), 지울 수 있는 프로그래밍 가능한 일기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 시디롬(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상기 내용의 임의 적합한 조합을 포함할 수 있다.

사용자와의 대화를 제공하기 위해, 여기서 설명된 시스템 및 기술은 컴퓨터에서 구현할 수 있으며, 당해 컴퓨터는 사용자에게 정보를 디스플레이하는 디스플레이 장치(예를 들면, CRT음극선관) 또는 LCD(액정 디스플레이)모니터); 및 키보드와 지향 장치(예를 들면, 마우스 또는 트랙볼)를 구비하고, 사용자는 당해 키보드와 당해 지향 장치를 통해 컴퓨터에 입력을 제공할 수 있다. 기타 유형의 장치도 사용자와의 대화에 사용될 수 있는 바, 예를 들면 사용자에게 제공된 피드백은 임의의 형식의 감각 피드백(예를 들면, 시각적 피드백, 청각적 피드백 또는 촉각적 피드백)일 수 있고, 임의의 형식(음향 입력, 음성 입력 또는 촉각 입력)에 의해 사용자로부터의 입력을 수신할 수 있다.

여기서 설명한 시스템과 기술을, 백그라운드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면 데이터 서버), 또는 미들웨어 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 애플리케이션 서버), 또는 프론트 엔드 컴포넌트를 포함하는 컴퓨팅 시스템(예를 들면, 그래픽 사용자 인터페이스 또는 네트워크 브라우저를 구비한 사용자 컴퓨터에서 실시될 수 있고, 사용자는 당해 그래픽 사용자 인터페이스 또는 당해 네트워크 브라우저를 통해 여기서 설명한 시스템과 기술의 실시형태와 대화할 수 있다), 또는 이러한 백그라운드 컴포넌트, 미들웨어 컴포넌트 또는 프론트 엔드 컴포넌트의 임의의 조합을 포함하는 컴퓨팅 시스템에서 실시될 수 있다. 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들면, 통신 네트워크)을 통해 시스템의 컴포넌트를 서로 연결할 수 있다. 통신 네트워크의 예시는 근거리 통신망 (LAN), 광역 통신망 (WAN), 인터넷 및 블록 체인 네트워크를 포함한다.

컴퓨터 시스템은 클라이언트와 서버를 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있으며, 통신 네트워크를 통해 서로 대화한다. 대응하는 컴퓨터에서 운행되고 서로 클라이언트-서버 관계를 가지는 컴퓨터 프로그램에 의해 클라이언트와 서버의 관계를 생성한다. 서버는 클라우드 서버일 수 있다. 클라우드 계산 서버라고도 하고, 클라우드 계산 서비스 시스템의 호스트 제품이고, 전통적인 물리 호스트와 VPS서비스("Virtual Private Server", 또는 "VPS")에서, 관리가 어렵고, 업무 확장성이 약한 결함을 해결한다. 서버는 분산식 시스템의 서버 또는 블록 체인을 결합한 서버일 수도 있다

서버는 분산식 시스템의 서버 또는 블록 체인을 결합한 서버일 수도 있다.

이해해야 할 것은, 상기 복수 형식의 흐름에 의해, 단계를 재정열, 추가 또는 삭제할 수 있다. 예를 들면, 본 발명에 기재한 각 단계는 병행하여 또는 순차적으로 실행할 수도 있고, 서로 다른 순서로 실행할 수도 있다. 본 출원에서 개시한 기술적 수단이 원하는 결과만 구현할 수 있으면 본 발명에서는 이에 대해 한정하지 않는다.

상기 구체적인 실시 방식은 본 발명의 보호 범위를 한정하지 않는다. 본 발명이 속하는 기술 분야의 통상의 기술자는 설계 요구 및 기타 요소에 의해 여러가지 수정, 조합, 서브 조합 및 대체가 이루어질 수 있음을 이해해야 한다. 본 발명의 정신과 원칙 내에서 이루어진 모든 수정, 동등한 대체 및 개선은 본 발명 보호 범위에 포함된다.

Claims

딥러닝 프레임워크의 훈련 방법에 있어서,
타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는 단계;
상기 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는 단계;
상기 노드 수량이 상기 미리 설정된 수량보다 클 경우, 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계; 및
상기 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제1항에 있어서,
상기 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는 단계는,
상기 현재 태스크 노드 클러스터의 각 노드의 노드 상태를 결정하는 단계; 및
상기 노드 상태가 유휴 상태 조건의 노드를 상기 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제1항에 있어서,
상기 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는 단계는,
상기 현재 태스크 노드 클러스터의 각 노드의 유휴 자원량을 결정하는 단계; 및
유휴 자원량이 미리 설정된 역치 조건보다 큰 노드를- 상기 미리 설정된 상기 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제1항에 있어서,
상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계는,
각 상기 태스크 노드에서 상기 딥러닝 프레임워크를 훈련하는 단계;
미리 설정된 주기에 따라 각 주기의 각 상기 태스크 노드의 딥러닝 프레임워크의 프레임워크 파라미터를 판독하는 단계;
제1 평균치를 결정하는 단계 - 상기 제1 평균치는 모든 상기 태스크 노드의 프레임워크 파라미터의 평균치임 - ; 및
상기 제1 평균치에 따라 각 상기 태스크 노드의 딥러닝 프레임워크를 동기화하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제1항에 있어서,
상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계는,
상기 현재 태스크 노드 클러스터에 상기 미리 설정된 시작 조건을 만족하는 기타 태스크 노드가 포함되는지 여부를 모니터링하는 단계; 및
상기 기타 태스크 노드가 존재할 경우, 상기 기타 태스크 노드와 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제5항에 있어서,
상기 기타 태스크 노드와 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는 단계는,
상기 적어도 하나의 태스크 노드의 각 태스크 노드의 딥러닝 프레임워크의 현재 프레임워크 파라미터를 획득하는 단계;
제2 평균치를 결정하는 단계 - 상기 제2 평균치는 모든 상기 현재 프레임워크 파라미터의 평균치임 - ; 및
상기 기타 태스크 노드와 상기 적어도 하나의 태스크 노드는 상기 제2 평균치에 따라 딥러닝 프레임워크의 프레임워크 파라미터를 업데이트하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
제1항에 있어서,
상기 타겟 태스크가 훈련 시작 조건을 만족할 경우,
상기 현재 태스크 노드 클러스터에서 수행할 태스크의 우선 순위를 모니터링하는 단계; 및
상기 우선 순위가 미리 설정된 순위보다 작을 경우, 상기 타겟 태스크가 훈련 시작 조건을 만족한다고 결정하는 단계; 를 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 방법.
딥러닝 프레임워크의 훈련 장치에 있어서,
타겟 태스크가 훈련 시작 조건을 만족할 경우, 현재 태스크 노드 클러스터에서 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드를 획득하는데 사용되는 제1 획득 모듈;
상기 적어도 하나의 태스크 노드의 노드 수량이 미리 설정된 수량보다 큰지 여부를 판단하는데 사용되는 판단 모듈;
상기 노드 수량이 상기 미리 설정된 수량보다 클 경우, 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는데 사용되는 훈련 모듈; 및
상기 타겟 태스크가 훈련 완성 조건을 만족할 경우, 동시에 훈련한 타겟 딥러닝 프레임워크를 획득하는데 사용되는 제2 획득 모듈; 을 포함하는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 제1 획득 모듈은,
상기 현재 태스크 노드 클러스터의 각 노드의 노드 상태를 결정하고;
상기 노드 상태가 유휴 상태 조건의 노드를 상기 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는데 사용되는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 제1 획득 모듈은,
상기 현재 태스크 노드 클러스터의 각 노드의 유휴 자원량을 결정하고;
상기 유휴 자원량이 미리 설정된 역치 조건보다 큰 노드를 상기 미리 설정된 시작 조건을 만족하는 적어도 하나의 태스크 노드로 결정하는데 사용되는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 훈련 모듈은,
각 상기 태스크 노드에서 상기 딥러닝 프레임워크를 훈련하고;
미리 설정된 주기에 따라 각 주기의 각 상기 태스크 노드의 딥러닝 프레임워크의 프레임워크 파라미터를 판독하고;
제1 평균치를 결정하고;
상기 제1 평균치에 따라 각 상기 태스크 노드의 딥러닝 프레임워크를 동기화하는데 사용되고,
상기 제1 평균치는 모든 상기 태스크 노드의 프레임워크 파라미터의 평균치인,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 현재 태스크 노드 클러스터에 상기 미리 설정된 시작 조건을 만족하는 기타 태스크 노드가 포함되는지 여부를 모니터링하는데 사용되는 모니터링 모듈을 포함하고,
상기 훈련 모듈은 또한, 상기 기타 태스크 노드와 상기 적어도 하나의 태스크 노드는 샘플 데이터에 따라, 상기 타겟 태스크의 딥러닝 프레임워크를 동시에 훈련하는데 더 사용되는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 훈련 모듈은,
상기 적어도 하나의 태스크 노드의 각 태스크 노드의 딥러닝 프레임워크의 현재 프레임워크 파라미터를 획득하고;
제2 평균치를 결정하고;
상기 기타 태스크 노드와 상기 적어도 하나의 태스크 노드는 상기 제2 평균치에 따라 상기 딥러닝 프레임워크의 프레임워크 파라미터를 업데이트는데 사용되는,
상기 제2 평균치는 모든 상기 현재 프레임워크 파라미터의 평균치인,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
제8항에 있어서,
상기 제1 획득 모듈은,
상기 현재 태스크 노드 클러스터에서 수행할 태스크의 우선 순위를 모니터링하고;
상기 우선 순위가 미리 설정된 순위보다 작을 경우, 상기 타겟 태스크가 훈련 시작 조건을 만족한다고 결정하는데 사용되는,
것을 특징으로 하는 딥러닝 프레임워크의 훈련 장치.
전자 기기에 있어서,
적어도 하나의 프로세서; 및
상기 적어도 하나의 프로세서와 통신 가능하게 연결되는 메모리; 를 포함하고;
상기 메모리에는 상기 적어도 하나의 프로세서에 의해 실행 가능한 명령이 저장되어 있고, 상기 명령이 상기 적어도 하나의 프로세서에 의해 실행될 경우, 상기 적어도 하나의 프로세서가 청구항1 내지 7 중 어느 한 항의 딥러닝 프레임워크의 훈련 방법을 수행하는,
것을 특징으로 하는 전자 기기.
컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체에 있어서,
상기 컴퓨터 명령이 실행될 경우, 청구항1 내지 7 중 어느 한 항의 딥러닝 프레임워크의 훈련 방법이 수행되는,
것을 특징으로 하는 컴퓨터 명령이 저장되어 있는 비일시적 컴퓨터 판독가능 저장 매체.
컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램에 있어서,
상기 컴퓨터 프로그램중의 명령이 실행될 경우, 청구항1 내지7 중 어느 한 항의 딥러닝 프레임워크의 훈련 방법이 수행되는,
것을 특징으로 하는 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램.