KR102650992B1 - 블록 변환을 이용한 신경망 압축 장치 및 방법 - Google Patents
블록 변환을 이용한 신경망 압축 장치 및 방법 Download PDFInfo
- Publication number
- KR102650992B1 KR102650992B1 KR1020220058217A KR20220058217A KR102650992B1 KR 102650992 B1 KR102650992 B1 KR 102650992B1 KR 1020220058217 A KR1020220058217 A KR 1020220058217A KR 20220058217 A KR20220058217 A KR 20220058217A KR 102650992 B1 KR102650992 B1 KR 102650992B1
- Authority
- KR
- South Korea
- Prior art keywords
- neural network
- transformation
- block
- original
- predicted value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 262
- 230000006835 compression Effects 0.000 title claims abstract description 55
- 238000007906 compression Methods 0.000 title claims abstract description 55
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000009466 transformation Effects 0.000 claims abstract description 181
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims abstract description 38
- 230000006978 adaptation Effects 0.000 claims abstract description 19
- 238000004064 recycling Methods 0.000 claims abstract description 9
- 238000010606 normalization Methods 0.000 claims description 28
- 238000009499 grossing Methods 0.000 claims description 20
- 238000006243 chemical reaction Methods 0.000 claims description 11
- 230000001131 transforming effect Effects 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims 3
- 238000013136 deep learning model Methods 0.000 abstract description 7
- 238000003062 neural network model Methods 0.000 abstract description 5
- 230000006870 function Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/096—Transfer learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Probability & Statistics with Applications (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
Description
도 2는 일 예에 따른 블록 변환 방법을 설명하기 위한 예시도이다.
도 3은 일 예에 따른 클러스터링 방법을 설명하기 위한 예시도이다.
도 4는 일 실시예에 따른 블록 변환을 이용한 신경망 압축 장치의 구성도이다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
410: 블록 변환부
420 : 사전 학습부
430: 타겟 적응부
Claims (22)
- 신경망 압축 장치에서 수행되는 방법으로서,
둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함하고,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 방법.
- 제 1 항에 있어서,
상기 블록 변환 단계는
m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성하는, 블록 변환을 이용한 신경망 압축 방법.
- 제 2 항에 있어서,
상기 사전 학습 단계는
변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
- 제 1 항에 있어서,
상기 사전 학습 단계는
상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
- 제 4 항에 있어서,
상기 정규화 손실은
상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및
상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
- 제 4 항에 있어서,
상기 정규화 손실은
상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
- 제 6 항에 있어서,
상기 사전 학습 단계는
원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
- 제 7 항에 있어서,
상기 사전 학습 단계는
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
- 삭제
- 제 1 항에 있어서,
상기 타겟 적응 단계는
타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며,
상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며,
상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
- 제 10 항에 있어서,
상기 타겟 적응 단계는
상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
- 제 11 항에 있어서,
상기 타겟 적응 단계는
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 방법.
- 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환부;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습부; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응부를 포함하고,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 13에 있어서,
상기 블록 변환부는,
m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성하는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 14에 있어서,
상기 사전 학습부는,
변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 13에 있어서,
상기 사전 학습부는,
상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 16에 있어서,
상기 정규화 손실은,
상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 16에 있어서,
상기 정규화 손실은, 상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되고,
상기 사전 학습부는,
원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하며, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 13에 있어서,
상기 타겟 적응부는,
타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 19에 있어서,
상기 타겟 적응부는,
상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
- 청구항 20에 있어서,
상기 타겟 적응부는,
상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 장치.
- 비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 수행하도록 하며,
상기 정규화 점수는,
타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 컴퓨터 프로그램.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220058217A KR102650992B1 (ko) | 2022-05-12 | 2022-05-12 | 블록 변환을 이용한 신경망 압축 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220058217A KR102650992B1 (ko) | 2022-05-12 | 2022-05-12 | 블록 변환을 이용한 신경망 압축 장치 및 방법 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20230158735A KR20230158735A (ko) | 2023-11-21 |
KR102650992B1 true KR102650992B1 (ko) | 2024-03-22 |
Family
ID=88981989
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220058217A Active KR102650992B1 (ko) | 2022-05-12 | 2022-05-12 | 블록 변환을 이용한 신경망 압축 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102650992B1 (ko) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232912A1 (en) * | 2018-10-01 | 2021-07-29 | Google Llc | Systems and Methods for Providing a Machine-Learned Model with Adjustable Computational Demand |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110163370B (zh) | 2019-05-24 | 2021-09-17 | 上海肇观电子科技有限公司 | 深度神经网络的压缩方法、芯片、电子设备及介质 |
-
2022
- 2022-05-12 KR KR1020220058217A patent/KR102650992B1/ko active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210232912A1 (en) * | 2018-10-01 | 2021-07-29 | Google Llc | Systems and Methods for Providing a Machine-Learned Model with Adjustable Computational Demand |
Non-Patent Citations (2)
Title |
---|
Creamnuts. "Self-training with Noisy Student improves ImageNet classification(2019)"* |
Z. Huang 등. "Data-Driven Sparse Structure Selection for DeepNeural Networks"* |
Also Published As
Publication number | Publication date |
---|---|
KR20230158735A (ko) | 2023-11-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12321861B2 (en) | Initialization of parameters for machine-learned transformer neural network architectures | |
US12148444B2 (en) | Synthesizing speech from text using neural networks | |
WO2020140487A1 (zh) | 用于智能设备的人机交互语音识别方法及系统 | |
JP2023509031A (ja) | マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム | |
JP7282363B2 (ja) | 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム | |
AU2022221471B2 (en) | Automatic photo editing via linguistic request | |
CN110990543A (zh) | 智能对话的生成方法、装置、计算机设备及计算机存储介质 | |
CN114021524A (zh) | 一种情感识别方法、装置、设备及可读存储介质 | |
KR20200052453A (ko) | 딥러닝 모델 학습 장치 및 방법 | |
CN115050355B (zh) | 语音识别模型的训练方法和装置、电子设备和存储介质 | |
US12210828B2 (en) | Methods and systems for generating mobile enabled extraction models | |
KR20210042696A (ko) | 모델 학습 방법 및 장치 | |
CN110298046B (zh) | 一种翻译模型训练方法、文本翻译方法及相关装置 | |
CN117980915A (zh) | 用于端到端自监督预训练的对比学习和掩蔽建模 | |
KR101646461B1 (ko) | 딥 러닝을 이용한 한국어 의존 구문 분석 방법 | |
KR102650992B1 (ko) | 블록 변환을 이용한 신경망 압축 장치 및 방법 | |
CN119443049A (zh) | 文本处理方法、装置、电子设备以及存储介质 | |
Serras et al. | Regularized neural user model for goal-oriented spoken dialogue systems | |
CN116798412A (zh) | 模型训练方法、语音识别方法、装置及电子设备 | |
CN118569351A (zh) | 对抗网络训练方法、对抗网络训练装置、介质及设备 | |
KR102668116B1 (ko) | 이미지 스타일 변형 장치 및 방법 | |
CN117252154B (zh) | 一种基于预训练语言模型的中文简繁字符转换方法及系统 | |
JP7225857B2 (ja) | データ変換学習装置、データ変換装置、方法、及びプログラム | |
CA3160714C (en) | Methods and systems for generating mobile enabled extraction models | |
CN116266266B (zh) | 多音字消歧方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20220512 |
|
PA0201 | Request for examination | ||
PA0302 | Request for accelerated examination |
Patent event date: 20230322 Patent event code: PA03022R01D Comment text: Request for Accelerated Examination Patent event date: 20220512 Patent event code: PA03021R01I Comment text: Patent Application |
|
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20231024 Patent event code: PE09021S01D |
|
PG1501 | Laying open of application | ||
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20240221 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20240320 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20240320 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |