KR102546817B1 - 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 - Google Patents
지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 Download PDFInfo
- Publication number
- KR102546817B1 KR102546817B1 KR1020200188240A KR20200188240A KR102546817B1 KR 102546817 B1 KR102546817 B1 KR 102546817B1 KR 1020200188240 A KR1020200188240 A KR 1020200188240A KR 20200188240 A KR20200188240 A KR 20200188240A KR 102546817 B1 KR102546817 B1 KR 102546817B1
- Authority
- KR
- South Korea
- Prior art keywords
- teacher
- loss
- model
- learning
- total
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000013140 knowledge distillation Methods 0.000 title claims abstract description 52
- 238000012546 transfer Methods 0.000 title claims description 12
- 230000004913 activation Effects 0.000 claims abstract description 36
- 238000012549 training Methods 0.000 claims abstract description 13
- 239000013598 vector Substances 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000009499 grossing Methods 0.000 claims description 7
- 238000011176 pooling Methods 0.000 claims description 7
- 230000005540 biological transmission Effects 0.000 claims 1
- 230000008569 process Effects 0.000 description 15
- 238000010586 diagram Methods 0.000 description 9
- 238000004364 calculation method Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000014509 gene expression Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013526 transfer learning Methods 0.000 description 2
- 230000015556 catabolic process Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000011056 performance test Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/16—Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Algebra (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Operations Research (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
Description
도 2는 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법에 대한 순서도이다.
도 3 내지 도 5는 본 발명의 일 실시예에 따른 총 CAM 생성 과정과 총 CAM 손실 계산 과정을 설명하기 위한 도면과 순서도이다.
도 6은 본 발명의 일 실시예에 따른 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치의 구성도이다.
도 7은 본 발명의 일 실시예와 종래 기술에 따른 각 모델의 이미지 분류 성능 실험 결과를 나타낸 도면이다.
110; 메모리
120: 프로세서
Claims (21)
- 교사 지원 어텐션 전달의 학습 장치에 의해 수행되는 교사 지원 어텐션 전달의 학습 방법에 있어서,
이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계;
제1 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및
상기 학습된 교사 보조 모델로부터 제2 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하고,
상기 제1 총 CAM 손실은 상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것이고,
상기 제2 총 CAM 손실은 상기 교사 보조 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것인,
지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 삭제
- 제1항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제3항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제4항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제4항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제6항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제6항에 있어서,
상기 교사 보조 모델을 학습시키는 단계는,
상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꾸는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제1항에 있어서,
상기 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 제1항에 있어서,
상기 학생 손실은 하드 라벨(Hard label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 방법. - 하나 이상의 프로그램을 저장하는 메모리; 및
상기 저장된 하나 이상의 프로그램을 실행하는 프로세서를 포함하고,
상기 프로세서는, 이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키고,
제1 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키고,
상기 학습된 교사 보조 모델로부터 제2 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키고,
상기 제1 총 CAM 손실은 상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것이고,
상기 제2 총 CAM 손실은 상기 교사 보조 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것인,
지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 삭제
- 제11항에 있어서,
상기 프로세서는,
상기 교사 모델과 상기 학생 모델로부터 각각의 총 CAM을 생성하고, 상기 생성된 각각의 총 CAM으로부터 평균 제곱 오차(Mean Squared Error)를 총 CAM 손실로 계산하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제13항에 있어서,
상기 프로세서는,
특징 맵에 대해 얻은 확률 값과 클래스에 대한 정보를 이용해 가중치 벡터(Weight vector)로 학습하고, 가중치 벡터와 특징 맵의 선형 합산(linear summation)을 수행하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제14항에 있어서,
상기 프로세서는,
특징 추출기의 마지막 컨볼루션 계층을 거쳐서 특징 맵을 생성하고, 상기 생성된 특징 맵을 GAP(Global Average Pooling)을 수행한 후 소프트맥스(softmax) 함수에 넣어 확률 값을 얻는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제14항에 있어서,
상기 프로세서는,
상기 선형 합산된 결과로부터 클래스 활성화 맵(CAM, Class activation map)을 생성하고, 모든 클래스에 대해 CAM을 합하여 총 CAM을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제16항에 있어서,
상기 프로세서는,
상기 선형 합산된 결과에 정류 선형 유닛(ReLU, Rectified Linear Unit) 함수를 적용하여 클래스 활성화 맵을 생성하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제16항에 있어서,
상기 프로세서는,
상기 가중치 벡터와 상기 특징 맵의 선형 합산된 결과에서 음수인 부분을 0으로 바꾸는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제11항에 있어서,
상기 교사 손실은 라벨 스무딩(Label smoothing)을 통한 소프트 라벨(Soft label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 제11항에 있어서,
상기 학생 손실은 하드 라벨(Hard label)을 학습하도록 하는, 지식 증류에서 총 CAM 정보를 이용한 교사 지원 어텐션 전달의 학습 장치. - 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 방법을 실행하게 하는 명령어들을 저장하기 위한 비일시적 컴퓨터 판독가능 저장 매체로서, 상기 방법은:
이미지 분류 데이터로부터 교사 모델(Teacher model)을 학습시키는 단계;
제1 총 CAM 손실(Total class activation map loss), 교사 손실(Teacher loss) 및 학생 손실(Student loss)을 이용하여 교사 보조(Teacher Assistant) 모델을 학습시키는 단계; 및
상기 학습된 교사 보조 모델로부터 제2 총 CAM 손실, 교사 손실 및 학생 손실을 이용하여 학생(Student) 모델을 학습시키는 단계를 포함하고,
상기 제1 총 CAM 손실은 상기 교사 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것이고,
상기 제2 총 CAM 손실은 상기 교사 보조 모델과 상기 학생 모델로부터 클래스 활성화 맵을 각 클래스 별로 구한 후 평균 제곱 오차를 이용하여 페어링된 것인,
비일시적 컴퓨터 판독 가능한 저장 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200188240A KR102546817B1 (ko) | 2020-12-30 | 2020-12-30 | 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020200188240A KR102546817B1 (ko) | 2020-12-30 | 2020-12-30 | 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 |
Publications (2)
Publication Number | Publication Date |
---|---|
KR20220096099A KR20220096099A (ko) | 2022-07-07 |
KR102546817B1 true KR102546817B1 (ko) | 2023-06-23 |
Family
ID=82398468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020200188240A KR102546817B1 (ko) | 2020-12-30 | 2020-12-30 | 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR102546817B1 (ko) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115761408A (zh) * | 2022-11-23 | 2023-03-07 | 重庆邮电大学 | 一种基于知识蒸馏的联邦域适应方法及系统 |
CN116385844B (zh) * | 2022-12-12 | 2023-11-10 | 北京数美时代科技有限公司 | 一种基于多教师模型的特征图蒸馏方法、系统和存储介质 |
CN115965964B (zh) * | 2023-01-29 | 2024-01-23 | 中国农业大学 | 一种鸡蛋新鲜度识别方法、系统及设备 |
CN116385794B (zh) * | 2023-04-11 | 2024-04-05 | 河海大学 | 基于注意力流转移互蒸馏的机器人巡检缺陷分类方法及装置 |
CN116778300B (zh) * | 2023-06-25 | 2023-12-05 | 北京数美时代科技有限公司 | 一种基于知识蒸馏的小目标检测方法、系统和存储介质 |
CN117034005B (zh) * | 2023-07-12 | 2025-02-11 | 北京交通大学 | 日志异常检测模型训练方法、日志异常检测方法及系统 |
CN117475219B (zh) * | 2023-11-03 | 2024-05-31 | 广东石油化工学院 | 一种基于轻量化网络模型的图像分类方法及搭载装置 |
CN117237742B (zh) * | 2023-11-08 | 2024-02-20 | 苏州元脑智能科技有限公司 | 一种针对初始模型的知识蒸馏方法和装置 |
CN118233222B (zh) * | 2024-05-24 | 2024-09-10 | 浙江大学 | 一种基于知识蒸馏的工控网络入侵检测方法及装置 |
CN118840679A (zh) * | 2024-07-01 | 2024-10-25 | 河海大学 | 基于分级递进和集体知识的无人机目标检测蒸馏方法 |
-
2020
- 2020-12-30 KR KR1020200188240A patent/KR102546817B1/ko active IP Right Grant
Non-Patent Citations (3)
Title |
---|
"Class Attention Map Distillation for Efficient Semantic Segmentation", 2020 International Conferencr on MVIP, 2020.02.20. |
"Knowledge Distillation with Category-Aware Attention and Discriminant Logit Losses, 2019 IEEE ICME, 2019.08.05.* |
"라벨 스무딩(Label smoothing), When Does Label Smoothing Help", 블로그 https://blog.si-analytics.ai/21, 2020.07.15.* |
Also Published As
Publication number | Publication date |
---|---|
KR20220096099A (ko) | 2022-07-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102546817B1 (ko) | 지식 증류에서 총 cam 정보를 이용한 교사 지원 어텐션 전달의 학습 방법 및 장치 | |
CN109117848B (zh) | 一种文本行字符识别方法、装置、介质和电子设备 | |
US11604964B2 (en) | Recognizer, object recognition method, learning apparatus, and learning method for domain adaptation | |
KR102073873B1 (ko) | 시맨틱 세그먼테이션 방법 및 그 장치 | |
CN108960036B (zh) | 三维人体姿态预测方法、装置、介质及设备 | |
CN109272031A (zh) | 一种训练样本生成方法及装置、设备、介质 | |
US11954755B2 (en) | Image processing device and operation method thereof | |
JP2020533692A5 (ko) | ||
US20200211567A1 (en) | Pattern recognition apparatus, pattern recognition method, and storage medium | |
KR20220052838A (ko) | 개인 정보 보호를 위하여 원본 데이터를 변조하는 변조 네트워크를 학습하는 방법 및 테스팅하는 방법, 그리고, 이를 이용한 학습 장치 및 테스팅 장치 | |
US11449715B2 (en) | Sequential learning maintaining a learned concept | |
KR20220094967A (ko) | 우울증 진단을 위한 인공지능 연합학습 방법 및 시스템 | |
CN111415015A (zh) | 业务模型训练方法、装置、系统及电子设备 | |
JPWO2020240808A1 (ja) | 学習装置、分類装置、学習方法、分類方法、学習プログラム、及び分類プログラム | |
CN110245346A (zh) | 事件信息分析方法及装置 | |
KR102204956B1 (ko) | 시맨틱 세그먼테이션 방법 및 그 장치 | |
US11568303B2 (en) | Electronic apparatus and control method thereof | |
KR102441442B1 (ko) | 그래프 컨볼루션 네트워크 학습 방법 및 장치 | |
CN114495135B (zh) | 票据识别方法及装置 | |
CN115310277A (zh) | 模型训练的方法、系统、设备及存储介质 | |
US20240289633A1 (en) | Information processing system, information processing method, and recording medium | |
CN112488173B (zh) | 基于图像増广的模型训练方法、系统和存储介质 | |
CN112364831B (zh) | 人脸识别方法及在线教育系统 | |
KR20200132306A (ko) | 영상 처리 장치 및 그 동작방법 | |
US20240185064A1 (en) | Learning apparatus, method, non-transitory computer readable medium and inference apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PA0109 | Patent application |
Patent event code: PA01091R01D Comment text: Patent Application Patent event date: 20201230 |
|
PA0201 | Request for examination | ||
PG1501 | Laying open of application | ||
E902 | Notification of reason for refusal | ||
PE0902 | Notice of grounds for rejection |
Comment text: Notification of reason for refusal Patent event date: 20221213 Patent event code: PE09021S01D |
|
E701 | Decision to grant or registration of patent right | ||
PE0701 | Decision of registration |
Patent event code: PE07011S01D Comment text: Decision to Grant Registration Patent event date: 20230615 |
|
GRNT | Written decision to grant | ||
PR0701 | Registration of establishment |
Comment text: Registration of Establishment Patent event date: 20230619 Patent event code: PR07011E01D |
|
PR1002 | Payment of registration fee |
Payment date: 20230620 End annual number: 3 Start annual number: 1 |
|
PG1601 | Publication of registration |