KR20240035066A - 약지도 이미지 분할 모델의 학습 방법 - Google Patents
약지도 이미지 분할 모델의 학습 방법 Download PDFInfo
- Publication number
- KR20240035066A KR20240035066A KR1020220114060A KR20220114060A KR20240035066A KR 20240035066 A KR20240035066 A KR 20240035066A KR 1020220114060 A KR1020220114060 A KR 1020220114060A KR 20220114060 A KR20220114060 A KR 20220114060A KR 20240035066 A KR20240035066 A KR 20240035066A
- Authority
- KR
- South Korea
- Prior art keywords
- class
- image
- learning
- classification model
- image segmentation
- Prior art date
Links
- 238000003709 image segmentation Methods 0.000 title claims abstract description 79
- 238000000034 method Methods 0.000 title claims abstract description 28
- 238000013145 classification model Methods 0.000 claims abstract description 49
- 230000004913 activation Effects 0.000 claims abstract description 28
- 230000006870 function Effects 0.000 claims abstract description 23
- 238000005295 random walk Methods 0.000 claims abstract description 7
- 238000012805 post-processing Methods 0.000 claims abstract description 4
- 238000012549 training Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 4
- 238000011156 evaluation Methods 0.000 description 3
- 238000010200 validation analysis Methods 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002411 adverse Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/0895—Weakly supervised learning, e.g. semi-supervised or self-supervised learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
- G06V10/7753—Incorporation of unlabelled data, e.g. multiple instance learning [MIL]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Image Analysis (AREA)
Abstract
본 발명의 일 실시예에 따른 약지도 이미지 분할 모델의 학습 방법은, 약지도 학습의 손실함수에 따라 이미지 분류 모델을 학습하는 단계; 이미지 분류의 손실함수에 따라 보조 이미지 분류 모델을 학습하는 단계; 상기 학습된 이미지 분류 모델의 특성(feature), 분류기의 가중치 및 라벨을 사용하여 클래스 라벨링된 이미지 데이터로부터 제1 클래스 활성화 맵(CAM) 정보를 획득하는 단계; 상기 학습된 이미지 분류 모델의 특성, 분류기의 가중치 및 상기 학습된 보조 이미지 분류 모델의 클래스 예측값을 사용하여 클래스 라벨 없는 이미지 데이터로부터 제2 클래스 활성화 맵 정보를 획득하는 단계; 상기 제1 및 제2 클래스 활성화 맵 정보를 기반으로 전체 이미지 데이터에 대한 제3 클래스 활성화 맵 정보를 획득하는 단계; 상기 제3 클래스 활성화 맵 정보를 랜덤워크(random walk) 또는 CRF(conditional random field)를 통해 후처리하여 의사 이미지 분할 라벨을 생성하는 단계; 및 상기 생성된 의사 이미지 분할 라벨을 클래스 라벨로 사용하여 이미지 분할 손실함수에 따라 약지도 이미지 분할 모델을 학습하는 단계를 포함하는 것을 특징으로 한다. 이에 따라, 약지도 이미지 분할의 성능이 향상된다.
Description
본 발명은 약지도 이미지 분할 모델의 학습 방법에 관한 것으로, 보다 구체적으로는 소수의 라벨링된 이미지 데이터 및 다수의 라벨 없는 이미지 데이터를 사용하여 의사 이미지 분할 라벨을 생성하고 이를 모델 학습에 적용하는 약지도 이미지 분할 모델의 학습 방법에 관한 것이다.
의미론적 이미지 분할 모델 학습에 필요한 픽셀 단위의 라벨 데이터는 라벨링 난이도가 높고, 모델 학습에 필요한 충분한 양의 라벨 데이터의 확보에 노동력과 시간이 상당한 필요하다. 이와 같은 라벨링 비용을 줄이기 위하여 약지도 학습 기법을 적용한 이미지 분할 연구가 이루어지고 있다. 약지도 의미론적 이미지 분할은 픽셀 단위 라벨보다 낮은 감독 레벨인 클래스 단위 라벨, 바운딩 박스 라벨 등을 사용하여 이미지 분할 모델을 학습시킨다. 클래스 라벨을 사용하는 경우 일반적으로 이미지 분류 모델을 학습시킨 후 클래스 활성화 맵(Class Activation Map: CAM)을 사용하여 객체의 위치를 추정하고, 이를 기반으로 객체의 분할 영역을 근사적으로 결정하게 된다.
한편, 약지도 의미론적 이미지 분할의 성능을 제고하기 위해 클래스 라벨 데이터를 사용한 학습 알고리즘이 많이 연구되고 있으나, 클래스 단위의 라벨링 또한 상당한 자원이 요구된다. 학습 데이터의 확보를 용이하게 하기 위해 라벨링 되지 않은 데이터를 활용하는 방법을 고려해 볼 수 있다. 라벨 없는 이미지 데이터의 클래스 예측을 통해 CAM을 추출하여 학습에 활용할 수 있지만, 그대로의 방식으로 단순하게 약지도 이미지 분할 모델을 학습하는 것은 이미지 분할 모델이 라벨 없는 이미지 데이터의 클래스 예측에 사용되는 분류 모델의 예측 오류까지 학습하게 되어 성능의 하락이 발생할 수 있다.
본 발명은 상술한 바와 같은 종래 기술의 문제점을 해결하기 위한 것으로서, 약지도 이미지 분할의 성능이 향상되도록 소수의 라벨링된 이미지 데이터 및 다수의 라벨 없는 이미지 데이터를 사용하여 의사 이미지 분할 라벨을 생성하고 이를 모델 학습에 적용하는 약지도 이미지 분할 모델의 학습 방법을 제공하는 것이다.
본 발명의 특징에 따른 약지도 이미지 분할 모델의 학습 방법은, 약지도 학습의 손실함수에 따라 이미지 분류 모델을 학습하는 단계; 이미지 분류의 손실함수에 따라 보조 이미지 분류 모델을 학습하는 단계; 상기 학습된 이미지 분류 모델의 특성(feature), 분류기의 가중치 및 라벨을 사용하여 클래스 라벨링된 이미지 데이터로부터 제1 클래스 활성화 맵(CAM) 정보를 획득하는 단계; 상기 학습된 이미지 분류 모델의 특성, 분류기의 가중치 및 상기 학습된 보조 이미지 분류 모델의 클래스 예측값을 사용하여 클래스 라벨 없는 이미지 데이터로부터 제2 클래스 활성화 맵 정보를 획득하는 단계; 상기 제1 및 제2 클래스 활성화 맵 정보를 기반으로 전체 이미지 데이터에 대한 제3 클래스 활성화 맵 정보를 획득하는 단계; 상기 제3 클래스 활성화 맵 정보를 랜덤워크(random walk) 또는 CRF(conditional random field)를 통해 후처리하여 의사 이미지 분할 라벨을 생성하는 단계; 및 상기 생성된 의사 이미지 분할 라벨을 클래스 라벨로 사용하여 이미지 분할 손실함수에 따라 약지도 이미지 분할 모델을 학습하는 단계를 포함하는 것을 특징으로 한다.
본 발명의 실시 예에 따른 약지도 이미지 분할 모델의 학습 방법은 다음과 같은 효과를 제공한다.
소수의 라벨링된 이미지 데이터에 대한 이미지 분류 모델의 학습 과정에 다수의 라벨 없는 이미지 데이터에 대한 보조 이미지 분류 모델을 별도의 최적 손실함수로 학습하고, 이미지 분류 모델과 보조 이미지 분류 모델의 예측을 통합하여 의사 이미지 분할 라벨을 생성하며, 이를 모델 학습에 적용함으로써 약지도 이미지 분할 모델에 대한 올바른 클래스 및 위치 정보 학습이 가능해지고 이에 따라 약지도 이미지 분할의 성능이 향상된다.
도 1은 개시된 실시 예의 약지도 이미지 분할 모델의 학습 방법의 일련의 과정을 개념적으로 도시한 도면이다.
도 2는 개시된 실시 예의 약지도 이미지 분할 모델에 대한 성능을 PASCAL VOC 2012 validation 데이터를 사용하여 종래 기술의 모델과 비교한 결과를 나타낸 표들이다.
도 3은 개시된 실시 예의 약지도 이미지 분할 모델에 대한 성능을 PASCAL VOC 2012 validation 데이터를 사용하여 종래 기술의 모델과 비교한 결과를 시각화한 그래프들이다.
도 4는 개시된 실시 예에 따른 약지도 이미지 분할 예측을 종래 기술과 비교하여 시각적으로 정성 평가한 결과를 나타낸 도면이다.
도 2는 개시된 실시 예의 약지도 이미지 분할 모델에 대한 성능을 PASCAL VOC 2012 validation 데이터를 사용하여 종래 기술의 모델과 비교한 결과를 나타낸 표들이다.
도 3은 개시된 실시 예의 약지도 이미지 분할 모델에 대한 성능을 PASCAL VOC 2012 validation 데이터를 사용하여 종래 기술의 모델과 비교한 결과를 시각화한 그래프들이다.
도 4는 개시된 실시 예에 따른 약지도 이미지 분할 예측을 종래 기술과 비교하여 시각적으로 정성 평가한 결과를 나타낸 도면이다.
이하, 본 발명에 대해서 실시예 및 도면을 참조하여 구체적으로 설명한다. 그러나, 이하의 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 개시된 실시 예의 약지도 이미지 분할 모델의 학습 방법의 일련의 과정을 개념적으로 도시한 도면이다.
약지도 의미론적 이미지 분할 학습 과정은 세 단계로 이루어진다. 약지도 이미지 분할 모델을 학습시키기 전에 클래스 라벨()이 있는 이미지 데이터()에 대해 별도의, 보조 이미지 분류 모델(CNNb)을 학습한다. 상기 모델은 약지도 학습의 손실함수를 통해 학습되지 않으므로 최적화된 이미지 분류 손실함수(LossCls)에 따라 학습된다.
약지도 학습은 적용할 약지도 학습의 손실함수(Losswsss)에 따라 이미지 분류 모델(CNNa)을 학습하는 방식으로 수행된다. 학습된 이미지 분류 모델들을 통해 클래스 라벨링된 이미지 데이터() 및 클래스 라벨 없는 이미지 데이터()를 사용하여 각각 클래스 활성화 맵(Class Activation Map: CAM) 정보를 추출한다.
약지도 이미지 분할 모델은 모델의 가중치로부터 객체의 위치를 추정하기 위하여 주로 CAM 정보를 사용한다. 클래스 라벨을 사용하여 학습된 이미지 분류 모델의 마지막 합성곱 레이어의 출력값인 특성(feature)과 분류기 레이어의 가중치 값을 통해 CAM 정보를 산출할 수 있다.
여기서, 클래스 라벨링된 이미지 데이터 및 클래스 라벨 없는 이미지 데이터 각각의 CAM 정보 추출 방법은 차이가 있다. 클래스 라벨링된 이미지 데이터는 대응되는 클래스 라벨을 사용하여 하기 수학식 1에 따라 CAM 정보(CAML)를 추출한다.
여기서, c: 클래스, f(x): 마지막 합성곱 레이어의 출력값인 특성(feature), θc: 클래스 c를 예측하는 분류기의 가중치이다.
클래스 라벨 없는 이미지 데이터는 학습한 이미지 분류 모델(CNNa)과 보조 이미지 분류 모델(CNNb)의 예측을 합한 결과를 의사 클래스 라벨로 간주하여 CAM 정보(CAMU)를 추출한다. 다시 말하면, 클래스 라벨 없는 이미지 데이터는 대응되는 상기 의사 클래스 라벨을 사용하여 하기 수학식 2에 따라 CAM 정보(CAMU)를 추출한다.
여기서, c: 클래스, f(x): 마지막 합성곱 레이어의 출력값인 특성(feature), θc: 클래스 c를 예측하는 분류기의 가중치, pc: 클래스 c에 대한 이미지 분류 모델의 예측값이다.
pc는 클래스 c에 대한 이미지 분류 모델의 예측값이고, sigmoid 함수를 통과시킨 후 확률값이 0.5 이상일 때 양성 예측으로 취급하여 CAM을 생성하게 된다. 이 경우, 보조 이미지 분류 모델은 약지도 학습에 사용되는 이미지 분류 모델보다 성능이 높으므로, 보다 정확한 클래스 예측이 가능하게 된다.
한편, 개시된 실시 예와 같이 최적화된 이미지 분류 손실함수로 학습되는 보조 이미지 분류 모델을 사용하지 않는 종래 기술의 경우, 클래스 예측이 정확하게 수행되지 않으면 예측한 영역에 대해 부정확한 의사 클래스 라벨이 생성되어 이러한 라벨 노이즈로 인해 이미지 분할 모델 학습 시 클래스 및 위치 정보의 손실이 발생할 수 있다.
클래스 라벨링된 이미지 데이터 및 클래스 라벨 없는 이미지 데이터 각각에 대해 추출한 CAM 정보들(CAML 및 CAMU)을 기반으로 전체 이미지 데이터에 대한 CAM 정보(CAML+U)를 획득하고, 이를 랜덤워크(random walk) 또는 CRF(conditional random field)를 통해 후처리 과정을 거쳐 의사 이미지 분할 라벨()로 가공한다. 이렇게 생성된 의사 이미지 분할 라벨은 품질이 우수하게 된다.
최종적으로, 의사 이미지 분할 라벨을 클래스 라벨로 사용하여 이미지 분할 손실함수(LossSeg)에 따라 이미지 분할 모델(CNNSeg)을 학습하게 된다. 이와 같이, 의사 라벨링을 통해 이미지 분할 모델(CNNSeg)이 클래스 라벨 없는 이미지 데이터를 학습할 수 있으므로 최종 이미지 분할 성능은 향상된다.
정리하면, 개시된 실시 예에서, 약지도 이미지 분할 모델의 학습 방법은, 약지도 학습의 손실함수에 따라 이미지 분류 모델을 학습하고, 이미지 분류의 손실함수에 따라 보조 이미지 분류 모델을 학습하며, 학습된 이미지 분류 모델의 특성(feature), 분류기의 가중치 및 라벨을 사용하여 클래스 라벨링된 이미지 데이터로부터 대응되는 클래스 활성화 맵(CAM) 정보를 획득하고, 학습된 이미지 분류 모델의 특성, 분류기의 가중치 및 학습된 보조 이미지 분류 모델의 클래스 예측값을 사용하여 클래스 라벨 없는 이미지 데이터로부터 대응되는 클래스 활성화 맵 정보를 획득할 수 있다. 또한, 획득한 클래스 활성화 맵 정보들을 기반으로 전체 이미지 데이터에 대한 대응되는 클래스 활성화 맵 정보를 추출하여, 상기 추출된 CAM 정보를 랜덤워크 또는 CRF를 통해 후처리하여 의사 이미지 분할 라벨을 생성하고, 이를 클래스 라벨로 사용하여 이미지 분할 손실함수에 따라 약지도 이미지 분할 모델을 학습할 수 있다.
개시된 실시 예에서, 약지도 이미지 분할 모델의 학습에 사용되는 이미지 데이터는 소수의 클래스 라벨링된 이미지 데이터 및 다수의 클래스 라벨 없는 이미지 데이터로 구성된 이미지 데이터일 수 있다.
또한, 개시된 일 실시 예에서, 약지도 이미지 분할 모델의 학습에 사용되는 전체 이미지 데이터에 대한 클래스 라벨링된 이미지 데이터의 비율은 25%일 수 있고, 또는 10%일 수 있다.
도 2 및 도 3은 개시된 실시 예의 약지도 이미지 분할 모델에 대한 성능을 PASCAL VOC 2012 validation 데이터를 사용하여 종래 기술의 모델과 비교한 결과를 나타낸 표들 및 시각화한 그래프들이고, 도 4는 개시된 실시 예에 따른 약지도 이미지 분할 예측을 종래 기술과 비교하여 시각적으로 정성 평가한 결과를 나타낸 도면이다.
개시된 실시 예의 실험에 있어서, 데이터셋으로는 PASCAL VOC 2012가 사용되었다. 총 20개의 클래스로 이루어져 있고, 하나의 이미지는 여러 개의 클래스를 가질 수 있다. 데이터셋은 10,582개 이미지의 훈련 세트 및 1,449개 이미지의 평가 세트로 구성된다. 훈련 세트 중 일정 수의 데이터를 임의로 추출하여 클래스 단위 라벨이 있는 데이터로 사용하고, 나머지 데이터를 라벨이 없는 데이터로 학습하였다. 전체 훈련 세트 대비 라벨이 있는 데이터의 비율은 25%, 10% 환경에서 실험하였고, 각각 다른 라벨 데이터 환경에서 3번 실험 후 이미지 분류 및 이미지 분할 성능과 표준편차를 산출하였다. 비교할 종래 기술은 IRNet을 사용하였고, 이미지 다중 라벨 분류 성능은 mean Average Precision(mAP), 이미지 분할 성능은 mean Intersection over Union(mIoU)으로 평가하였다.
도 2의 (a)는 종래 기술의 이미지 분류의 경우, 종래 기술의 라벨 없는 이미지 데이터의 클래스 예측을 통해 CAM을 추출하여 단순히 학습에 활용한 이미지 분류의 경우('발명의 배경이 되는 기술'의 내용 참조), 및 개시된 실시 예의 약지도 이미지 분할 모델의 학습 방법을 사용한 이미지 분류의 경우에 대한 이미지 분할 모델의 성능(mIoU(%))을 비교한 표이다. 개시된 실시 예에서, 이미지 분할 성능은 라벨이 있는 데이터의 비율이 25%인 경우 56.01%, 10%인 경우 51.03%로 향상되었음을 확인할 수 있다.
도 2의 (b)는 다중 라벨 이미지 분류에 대해 종래 기술 및 본 개시의 성능(mAP(%))을 비교한 표이다. 개시된 실시 예에서, 다중 라벨 이미지 분류 성능은 라벨이 있는 데이터 비율이 25%인 경우 76.12%, 비율이 10%인 경우 71.38%로 향상되었음을 확인할 수 있다. 이에 따라, CAM의 지역화 성능 또한 향상하게 된다.
도 2의 (c)는 종래 기술 및 본 개시의 이미지 분류 모델에서 각각 계산한 CAM의 지역화 성능(mIoU(%))을 비교한 표이다. 개시된 실시 예에서, 데이터의 비율이 25%인 경우 43.02%, 10%인 경우 40.36%로 향상되었음을 확인할 수 있다.
또한, 상기 실험 결과들에서 표준편차가 낮은 것을 확인 가능하며 이를 통해 본 개시의 이미지 분할 모델이 보다 정확하고 안정적으로 학습되었음을 확인할 수 있다. 한편, 도 3을 참조하면 실험 결과들을 시각적으로도 확인 가능하다.
도 4에서, 이미지 (a)는 본 개시의 기법을 사용하여 라벨이 없는 이미지의 위치 정보에 대한 효과적인 학습이 가능하여 이미지 분할 예측에 있어서 종래 기술과 비교하여 상대적으로 높은 품질을 보인다. 이미지 (b), (c), (d)는 기존 약지도 이미지 분할 기법에서 사용하는 이미지 분류 모델의 라벨이 없는 이미지에 대한 분류 오류가 최종 이미지 분할의 품질에 악영향을 주는 반면, 개시된 실시 예에서는 양질의 위치 정보 수집이 가능하여 이미지 분할 예측의 성능이 보다 향상됨을 확인할 수 있다. 보다 구체적으로, 종래 기술은 이미지 (b)에서 같은 영역에 대한 클래스 분류의 오류가, 이미지 (c)에서 이미지 분할 라벨의 클래스를 모두 예측하지 못하는 문제가, 이미지 (d)에서 라벨에 존재하지 않는 클래스를 잘못 예측한 오류가 발생하였음을 확인 가능하다.
지금까지 살펴본 바와 같이, 개시된 실시 예의 약지도 이미지 분할 모델의 학습 방법은 소수의 라벨링된 이미지 데이터에 대한 이미지 분류 모델의 학습 과정에 다수의 라벨 없는 이미지 데이터에 대한 보조 이미지 분류 모델을 별도의 최적 손실함수로 학습하고, 학습된 이미지 분류 모델과 보조 이미지 분류 모델의 예측을 통합하여 의사 이미지 분할 라벨을 생성하며, 이를 모델 학습에 적용함으로써 약지도 이미지 분할 모델에 대한 올바른 클래스 및 위치 정보 학습이 가능해지고 이에 따라 약지도 이미지 분할의 성능이 향상된다.
한편, 본 발명의 실시예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드 및/또는 데이터로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 발명을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
다양한 변형예가 본 발명의 범위를 벗어남이 없이 본 명세서에 기술되고 예시된 구성 및 방법으로 만들어질 수 있으므로, 상기 상세한 설명에 포함되거나 첨부 도면에 도시된 모든 사항은 예시적인 것으로 본 발명을 제한하기 위한 것이 아니다. 따라서, 본 발명의 범위는 상술한 예시적인 실시예에 의해 제한되지 않으며, 이하의 청구 범위 및 그 균등물에 따라서만 정해져야 한다.
Claims (6)
- 약지도 이미지 분할 모델의 학습 방법에 있어서,
약지도 학습의 손실함수에 따라 이미지 분류 모델을 학습하는 단계;
이미지 분류의 손실함수에 따라 보조 이미지 분류 모델을 학습하는 단계;
상기 학습된 이미지 분류 모델의 특성(feature), 분류기의 가중치 및 라벨을 사용하여 클래스 라벨링된 이미지 데이터로부터 제1 클래스 활성화 맵(CAM) 정보를 획득하는 단계;
상기 학습된 이미지 분류 모델의 특성, 분류기의 가중치 및 상기 학습된 보조 이미지 분류 모델의 클래스 예측값을 사용하여 클래스 라벨 없는 이미지 데이터로부터 제2 클래스 활성화 맵 정보를 획득하는 단계;
상기 제1 및 제2 클래스 활성화 맵 정보를 기반으로 전체 이미지 데이터에 대한 제3 클래스 활성화 맵 정보를 획득하는 단계;
상기 제3 클래스 활성화 맵 정보를 랜덤워크(random walk) 또는 CRF(conditional random field)를 통해 후처리하여 의사 이미지 분할 라벨을 생성하는 단계; 및
상기 생성된 의사 이미지 분할 라벨을 클래스 라벨로 사용하여 이미지 분할 손실함수에 따라 약지도 이미지 분할 모델을 학습하는 단계를 포함하는, 학습 방법. - 제1항에 있어서,
상기 제1 클래스 활성화 맵 정보는 하기의 식으로 산출되는 것을 특징으로 하는 학습 방법.
여기서, c: 클래스, f(x): 마지막 합성곱 레이어의 출력값인 특성(feature), θc: 클래스 c를 예측하는 분류기의 가중치이다. - 제1항에 있어서,
상기 제2 클래스 활성화 맵 정보는 하기의 식으로 산출되는 것을 특징으로 하는 학습 방법.
여기서, c: 클래스, f(x): 마지막 합성곱 레이어의 출력값인 특성(feature), θc: 클래스 c를 예측하는 분류기의 가중치, pc: 클래스 c에 대한 이미지 분류 모델의 예측값이다. - 제1항에 있어서,
상기 클래스 라벨링된 이미지 데이터의 수가 상기 클래스 라벨 없는 이미지 데이터의 수보다 더 적은 것을 특징으로 하는 학습 방법. - 제4항에 있어서,
상기 전체 이미지 데이터 수에 대한 상기 클래스 라벨링된 이미지 데이터 수의 비율은 10% 또는 25%인 것을 특징으로 하는 학습 방법. - 약지도 이미지 분할 모델의 학습을 위한 하나 이상의 명령어(instructions)을 저장하는 하나 이상의 비일시적인(non-transitory) 컴퓨터 판독 가능 매체(computer-readable medium)에 있어서,
하나 이상의 프로세서에 의해 실행 가능한(executable) 상기 하나 이상의 명령어는,
약지도 학습의 손실함수에 따라 이미지 분류 모델을 학습하고;
이미지 분류의 손실함수에 따라 보조 이미지 분류 모델을 학습하고;
상기 학습된 이미지 분류 모델의 특성(feature), 분류기의 가중치 및 라벨을 사용하여 클래스 라벨링된 이미지 데이터로부터 제1 클래스 활성화 맵(CAM) 정보를 획득하고;
상기 학습된 이미지 분류 모델의 특성, 분류기의 가중치 및 상기 학습된 보조 이미지 분류 모델의 클래스 예측값을 사용하여 클래스 라벨 없는 이미지 데이터로부터 제2 클래스 활성화 맵 정보를 획득하고;
상기 제1 및 제2 클래스 활성화 맵 정보를 기반으로 전체 이미지 데이터에 대한 제3 클래스 활성화 맵 정보를 획득하고;
상기 제3 클래스 활성화 맵 정보를 랜덤워크(random walk) 또는 CRF(conditional random field)를 통해 후처리하여 의사 이미지 분할 라벨을 생성하고;
상기 생성된 의사 이미지 분할 라벨을 클래스 라벨로 사용하여 이미지 분할 손실함수에 따라 약지도 이미지 분할 모델을 학습하는, 컴퓨터 판독 가능 매체.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220114060A KR20240035066A (ko) | 2022-09-08 | 2022-09-08 | 약지도 이미지 분할 모델의 학습 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020220114060A KR20240035066A (ko) | 2022-09-08 | 2022-09-08 | 약지도 이미지 분할 모델의 학습 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20240035066A true KR20240035066A (ko) | 2024-03-15 |
Family
ID=90272793
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020220114060A KR20240035066A (ko) | 2022-09-08 | 2022-09-08 | 약지도 이미지 분할 모델의 학습 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20240035066A (ko) |
-
2022
- 2022-09-08 KR KR1020220114060A patent/KR20240035066A/ko unknown
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11055854B2 (en) | Method and system for real-time target tracking based on deep learning | |
KR102532749B1 (ko) | 약한 지도 학습에 기초한 뉴럴 네트워크의 계층적 학습 방법 및 장치 | |
CN111126592B (zh) | 输出预测结果、生成神经网络的方法及装置和存储介质 | |
US20230093469A1 (en) | Regularizing machine learning models | |
EP3767536A1 (en) | Latent code for unsupervised domain adaptation | |
KR20190056009A (ko) | 메트릭 학습 기반의 데이터 분류와 관련된 장치 및 그 방법 | |
CN111489285B (zh) | 利用循环gan将真实图像变换成虚拟图像的方法及装置 | |
CN110879960B (zh) | 生成卷积神经网络学习用图像数据集的方法及计算装置 | |
US11176417B2 (en) | Method and system for producing digital image features | |
KR20230171966A (ko) | 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체 | |
US20220156585A1 (en) | Training point cloud processing neural networks using pseudo-element - based data augmentation | |
CN114600130A (zh) | 在无标记的情况下学习新图像类的处理 | |
US11948078B2 (en) | Joint representation learning from images and text | |
KR20220122455A (ko) | 영상 데이터에 포함된 객체 분할 방법 및 이를 수행하는 장치 | |
KR20230099941A (ko) | 자기 지도학습과 복사-붙이기 데이터 증강을 이용한 건설객체 분할모델 일반화방법 및 일반화시스템 | |
CN114663798A (zh) | 一种基于强化学习的单步视频内容识别方法 | |
Bae et al. | Slide: Self-supervised lidar de-snowing through reconstruction difficulty | |
EP3910549A1 (en) | System and method for few-shot learning | |
KR20240035066A (ko) | 약지도 이미지 분할 모델의 학습 방법 | |
CN118715525A (zh) | 使用生成神经网络的计算有效率的提炼 | |
CN116189130A (zh) | 基于图像标注模型的车道线分割方法及装置 | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
Ciamarra et al. | Forecasting future instance segmentation with learned optical flow and warping | |
CN113762178B (zh) | 一种背景抑制采样的弱监督异常事件时间定位方法 | |
CN115730656A (zh) | 一种利用混合未标记数据的分布外样本检测方法 |