KR20210042992A - 딥러닝 모델을 트레이닝하는 방법 및 장치 - Google Patents
딥러닝 모델을 트레이닝하는 방법 및 장치 Download PDFInfo
- Publication number
- KR20210042992A KR20210042992A KR1020217009428A KR20217009428A KR20210042992A KR 20210042992 A KR20210042992 A KR 20210042992A KR 1020217009428 A KR1020217009428 A KR 1020217009428A KR 20217009428 A KR20217009428 A KR 20217009428A KR 20210042992 A KR20210042992 A KR 20210042992A
- Authority
- KR
- South Korea
- Prior art keywords
- training
- deep learning
- section
- description information
- model description
- Prior art date
Links
- 238000012549 training Methods 0.000 title claims abstract description 143
- 238000013136 deep learning model Methods 0.000 title claims abstract description 74
- 238000000034 method Methods 0.000 title claims abstract description 60
- 230000003993 interaction Effects 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013135 deep learning Methods 0.000 claims description 7
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 230000000875 corresponding effect Effects 0.000 description 40
- 238000004364 calculation method Methods 0.000 description 30
- 238000012545 processing Methods 0.000 description 16
- 230000006870 function Effects 0.000 description 14
- 230000002441 reversible effect Effects 0.000 description 12
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 238000012546 transfer Methods 0.000 description 4
- 230000000644 propagated effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000004020 conductor Substances 0.000 description 1
- 230000008094 contradictory effect Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G06N3/0481—
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Machine Translation (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
도 1은 본 개시의 일 실시예가 적용 가능한 예시적인 시스템 아키텍처의 도면이다.
도 2는 본 개시에 따른 딥러닝 모델을 트레이닝하는 방법의 일 실시예의 흐름도이다.
도 3a, 도 3b는 본 개시에 따른 딥러닝 모델을 트레이닝하는 방법의 일 응용 시나리오의 개략도이다.
도 4는 본 개시에 따른 딥러닝 모델을 트레이닝하는 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 개시에 따른 딥러닝 모델을 트레이닝하는 방법의 다른 일 응용 시나리오의 개략도이다.
도 6는 본 개시에 따른 딥러닝 모델을 트레이닝하는 장치의 일 실시예의 구조 개략도이다.
도 7은 본 개시의 실시예를 구현하기에 적합한 전자 기기의 컴퓨터 시스템의 구조 개략도이다.
Claims (14)
- 딥러닝 모델을 트레이닝하는 방법으로,
딥러닝 모델의 모델 설명 정보 및 구성 정보를 획득하는 단계 - 여기서, 상기 모델 설명 정보는 변수 및 조작을 포함하고 상기 구성 정보는 스플릿 포인트 변수 및 각 섹션에 할당되는 리소스의 명칭을 포함함 - ;
상기 구성 정보 내의 스플릿 포인트 변수에 따라 모델 설명 정보를 적어도 2개의 섹션으로 나누고 각 섹션에 할당되는 리소스의 명칭에 따라 모델 설명 정보를 대응되는 리소스에 로딩하여 실행하는 단계; 및
일 배치의 트레이닝 샘플을 획득하고 당해 배치의 트레이닝 샘플을 제1 섹션의 모델 설명 정보에 대응되는 리소스에 입력함으로써 트레이닝을 시작하여 획득한 중간 결과를 제1 컨텍스트 정보에 저장하는 것; 상기 제1 컨텍스트 정보를 다음 섹션의 모델 설명 정보에 대응되는 리소스에 입력하여 제2 컨텍스트 정보를 획득하는 것; 마지막 섹션의 모델 설명 정보에 대응되는 리소스의 실행 결과를 획득할 때까지 이와 같이 유추하는 것; 및 트레이닝 완성 조건이 충족되는 경우, 트레이닝이 완성된 딥러닝 모델을 출력하는 것;을 포함하는 트레이닝 단계; 를 수행하거나
아닌 경우, 계속하여 다음 배치의 트레이닝 샘플을 획득하여 트레이닝 완성 조건을 충족시킬 때까지 상기 트레이닝 단계를 수행하는 것을 특징으로 하는 딥러닝 모델을 트레이닝하는 방법.
- 제1항에 있어서,
상기 구성 정보는 각 섹션에 할당되는 리소스의 비율를 더 포함하고,
상기 각 섹션에 할당되는 리소스의 명칭에 따라 모델 설명 정보를 대응되는 리소스에 로딩하여 실행하는 단계는,
각 섹션에 할당되는 리소스의 비율에 따라 각 할당될 리소스의 수량을 계산하는 단계; 및
각 섹션에 할당되는 리소스의 명칭 및 수량에 따라 모델 설명 정보를 대응되는 리소스에 로딩하여 실행하는 단계;를 포함하는 딥러닝 모델을 트레이닝하는 방법.
- 제1항에 있어서,
상기 구성 정보 내의 스플릿 포인트 변수에 따라 모델 설명 정보를 적어도 2개의 섹션으로 나누는 단계는,
스플릿 포인트 변수를 종점으로 하는 순방향 부분을 제1 섹션으로 결정하는 단계;
스플릿 포인트 변수에서 시작하는 나머지 순방향 부분에 손실 부분으로부터 상기 스플릿 포인트 변수에 대응되는 그래디언트 변수까지를 추가하여 제2 섹션으로 결정하는 단계; 및
상기 스플릿 포인트 변수에 대응되는 그래디언트 변수에서 시작하는 나머지 역방향 부분을 제3 섹션으로 결정하는 단계;를 포함하는 딥러닝 모델을 트레이닝하는 방법.
- 제1항에 있어서,
상기 딥러닝 모델의 모델 설명 정보 및 구성 정보를 획득하는 단계는,
상기 모델 설명 정보의 조작에 따라 메모리 인터랙션이 빈번한 조작과 계산 밀집형 조작 간의 변환 변수를 결정하여 스플릿 포인트 변수로 하는 단계;
메모리 인터랙션이 빈번한 조작을 CPU에 할당하여 실행하는 단계; 및
계산 밀집형 조작을 CPU에 할당하여 실행하는 단계;를 포함하는 딥러닝 모델을 트레이닝하는 방법.
- 제1항에 있어서,
상기 방법은,
트레이닝 샘플을 소정의 몫으로 분할하는 단계;
각 몫의 트레이닝 샘플을 사용하여 트레이닝하여 일 세트의 딥러닝 모델의 파라미터를 획득하는 단계; 및
일정한 회차 간격으로 각 그룹의 딥러닝 모델의 파라미터를 한번씩 동기화하는 단계;를 더 포함하는 딥러닝 모델을 트레이닝하는 방법.
- 제1항 내지 제5항 중 어느 한 항에 있어서,
컨텍스트 정보는 큐를 통해 전송되는 딥러닝 모델을 트레이닝하는 방법.
- 딥러닝 모델을 트레이닝하는 장치로서,
딥러닝 모델의 모델 설명 정보 및 구성 정보를 획득하도록 구성되는 획득 유닛 - 여기서, 상기 모델 설명 정보는 변수 및 조작을 포함하고 상기 구성 정보는 스플릿 포인트 변수 및 각 섹션에 할당되는 리소스의 명칭을 포함함 - ;
상기 구성 정보 내의 스플릿 포인트 변수에 따라 모델 설명 정보를 적어도 2개의 섹션으로 나누고 각 섹션에 할당되는 리소스의 명칭에 따라 모델 설명 정보를 대응되는 리소스에 로딩하여 실행하도록 구성되는 스플릿 유닛;
일 배치의 트레이닝 샘플을 획득하고 당해 배치의 트레이닝 샘플을 제1 섹션의 모델 설명 정보에 대응되는 리소스에 입력함으로써 트레이닝을 시작하여 획득한 중간 결과를 제1 컨텍스트 정보에 저장하는 것; 상기 제1 컨텍스트 정보를 다음 섹션의 모델 설명 정보에 대응되는 리소스에 입력하여 제2 컨텍스트 정보를 획득하는 것; 마지막 섹션의 모델 설명 정보에 대응되는 리소스의 실행 결과를 획득할 때까지 이와 같이 유추하는 것; 및 트레이닝 완성 조건이 충족되는 경우, 트레이닝이 완성된 딥러닝 모델을 출력하는 것;을 포함하는 트레이닝 단계를 수행하도록 구성되는 트레이닝 유닛; 및
트레이닝 완성 조건을 충족하지 않는 경우, 계속하여 다음 배치의 트레이닝 샘플을 획득하여 트레이닝 완성 조건을 충족시킬 때까지 상기 트레이닝 단계를 수행하도록 구성되는 반복 유닛;을 포함하는 딥러닝 모델을 트레이닝하는 장치.
- 제7항에 있어서,
상기 구성 정보는 각 섹션에 할당되는 리소스의 비율를 더 포함하고,
상기 스플릿 유닛은 나아가,
각 섹션에 할당되는 리소스의 비율에 따라 각 할당될 리소스의 수량을 계산하고,
각 섹션에 할당되는 리소스의 명칭 및 수량에 따라 모델 설명 정보를 대응되는 리소스에 로딩하여 실행하도록 구성되는 딥러닝 모델을 트레이닝하는 장치.
- 제7항에 있어서,
상기 스플릿 유닛은 나아가,
스플릿 포인트 변수를 종점으로 하는 순방향 부분을 제1 섹션으로 결정하고,
스플릿 포인트 변수에서 시작하는 나머지 순방향 부분에 손실 부분으로부터 상기 스플릿 포인트 변수에 대응되는 그래디언트 변수까지를 추가하여 제2 섹션으로 결정하고,
상기 스플릿 포인트 변수에 대응되는 그래디언트 변수에서 시작하는 나머지 역방향 부분을 제3 섹션으로 결정하도록 구성되는 딥러닝 모델을 트레이닝하는 장치.
- 제7항에 있어서,
상기 획득 유닛은 나아가
상기 모델 설명 정보의 조작에 따라 메모리 인터랙션이 빈번한 조작과 계산 밀집형 조작 간의 변환 변수를 결정하여 스플릿 포인트 변수로 하고,
메모리 인터랙션이 빈번한 조작을 CPU에 할당하여 실행하고,
계산 밀집형 조작을 CPU에 할당하여 실행하도록 구성되는 딥러닝 모델을 트레이닝하는 장치.
- 제7항에 있어서,
상기 장치는,
트레이닝 샘플을 소정의 몫으로 분할하고,
각 몫의 트레이닝 샘플을 사용하여 트레이닝하여 일 세트의 딥러닝 모델의 파라미터를 획득하고,
일정한 회차 간격으로 각 그룹의 딥러닝 모델의 파라미터를 한번씩 동기화하도록 구성되는 병합 유닛을 더 포함하는 딥러닝 모델을 트레이닝하는 장치.
- 제7항 내지 제11항 중 어느 한 항에 있어서,
컨텍스트 정보는 큐를 통해 전송되는 딥러닝 모델을 트레이닝하는 장치.
- 전자 기기로서,
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램이 저장되는 저장 장치를 포함하고,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제6항 중 어느 한 항의 방법을 구현하도록 하는 전자 기기.
- 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능한 매체로서,
상기 프로그램이 프로세서에 의해 실행될 경우, 제1항 내지 제6항 중 어느 한 항의 방법을 구현하는 컴퓨터 판독 가능한 매체.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911162586.0A CN110889492B (zh) | 2019-11-25 | 2019-11-25 | 用于训练深度学习模型的方法和装置 |
CN201911162586.0 | 2019-11-25 | ||
PCT/CN2020/095192 WO2021103479A1 (zh) | 2019-11-25 | 2020-06-09 | 用于训练深度学习模型的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20210042992A true KR20210042992A (ko) | 2021-04-20 |
KR102702130B1 KR102702130B1 (ko) | 2024-09-02 |
Family
ID=75744446
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020217009428A KR102702130B1 (ko) | 2019-11-25 | 2020-06-09 | 딥러닝 모델을 트레이닝하는 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102702130B1 (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114461400A (zh) * | 2022-02-14 | 2022-05-10 | 北京百度网讯科技有限公司 | 数据处理的方法、装置、电子设备和存储介质 |
CN115099415A (zh) * | 2022-06-13 | 2022-09-23 | 平安银行股份有限公司 | 基于网络模型的预测方法、装置、电子设备和可读介质 |
KR20220163575A (ko) * | 2021-06-03 | 2022-12-12 | 연세대학교 산학협력단 | 신경망 연산 장치, 신경망 연산 방법 및 신경망 연산 방법을 실행시키도록 기록매체에 저장된 컴퓨터 프로그램 |
CN119127448A (zh) * | 2024-11-06 | 2024-12-13 | 中国人民财产保险股份有限公司 | 模型的迁移方法及相关设备 |
CN119272847A (zh) * | 2024-12-09 | 2025-01-07 | 中国人民解放军国防科技大学 | 一种面向并行训练的神经网络模型划分方法、系统、设备及介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766148A (zh) * | 2017-08-31 | 2018-03-06 | 北京百度网讯科技有限公司 | 一种异构集群及任务处理方法和装置 |
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和系统 |
-
2020
- 2020-06-09 KR KR1020217009428A patent/KR102702130B1/ko active IP Right Grant
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766148A (zh) * | 2017-08-31 | 2018-03-06 | 北京百度网讯科技有限公司 | 一种异构集群及任务处理方法和装置 |
CN109976903A (zh) * | 2019-02-22 | 2019-07-05 | 华中科技大学 | 一种基于层宽内存分配的深度学习异构计算方法和系统 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20220163575A (ko) * | 2021-06-03 | 2022-12-12 | 연세대학교 산학협력단 | 신경망 연산 장치, 신경망 연산 방법 및 신경망 연산 방법을 실행시키도록 기록매체에 저장된 컴퓨터 프로그램 |
CN114461400A (zh) * | 2022-02-14 | 2022-05-10 | 北京百度网讯科技有限公司 | 数据处理的方法、装置、电子设备和存储介质 |
CN115099415A (zh) * | 2022-06-13 | 2022-09-23 | 平安银行股份有限公司 | 基于网络模型的预测方法、装置、电子设备和可读介质 |
CN119127448A (zh) * | 2024-11-06 | 2024-12-13 | 中国人民财产保险股份有限公司 | 模型的迁移方法及相关设备 |
CN119272847A (zh) * | 2024-12-09 | 2025-01-07 | 中国人民解放军国防科技大学 | 一种面向并行训练的神经网络模型划分方法、系统、设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
KR102702130B1 (ko) | 2024-09-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210216875A1 (en) | Method and apparatus for training deep learning model | |
KR102702130B1 (ko) | 딥러닝 모델을 트레이닝하는 방법 및 장치 | |
CN111475235B (zh) | 函数计算冷启动的加速方法、装置、设备及存储介质 | |
CN114020470B (zh) | 资源分配方法、装置、可读介质及电子设备 | |
CN107832143B (zh) | 一种物理机资源的处理方法和装置 | |
US20220357990A1 (en) | Method for allocating data processing tasks, electronic device, and storage medium | |
CN113886019B (zh) | 虚拟机创建方法、装置、系统、介质和设备 | |
CN111796825B (zh) | 一种弹幕的绘制方法、装置、设备和存储介质 | |
CN111427706A (zh) | 数据处理方法、多服务器系统、数据库、电子设备及存储介质 | |
WO2024061088A1 (zh) | 显示方法、装置、电子设备以及存储介质 | |
WO2023000888A1 (zh) | 云应用的实现方法、装置、电子设备和存储介质 | |
WO2023174013A1 (zh) | 显存分配方法、装置、介质及电子设备 | |
WO2023125463A1 (zh) | 基于异构计算框架的处理方法、装置、设备及介质 | |
CN111324376A (zh) | 功能配置方法、装置、电子设备及计算机可读介质 | |
CN111813541B (zh) | 一种任务调度方法、装置、介质和设备 | |
CN111290812B (zh) | 应用控件的显示方法、装置、终端及存储介质 | |
CN112835703A (zh) | 任务处理方法、装置、设备及存储介质 | |
CN109951737B (zh) | 视频处理方法、装置、电子设备和计算机可读存储介质 | |
CN115378937B (zh) | 任务的分布式并发方法、装置、设备和可读存储介质 | |
CN110489219A (zh) | 一种调度功能对象的方法、装置、介质和电子设备 | |
CN114116220B (zh) | 一种gpu共享控制方法、gpu共享控制装置及存储介质 | |
CN111258670B (zh) | 组件数据的管理方法、装置、电子设备和存储介质 | |
US12019633B2 (en) | Providing multi-tier query execution options in a serverless query environment | |
CN113808238A (zh) | 动画的渲染方法、装置、可读介质和电子设备 | |
CN110704782A (zh) | 页面响应方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0105 | International application |
Patent event date: 20210330 Patent event code: PA01051R01D Comment text: International Patent Application |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20231226 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240718 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240829 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20240829 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |