KR20230025337A

KR20230025337A - 분할화 태스크들의 비지도식 학습을 위한 시스템 및 방법

Info

Publication number: KR20230025337A
Application number: KR1020220084312A
Authority: KR
Inventors: 유에웨이 양; 모스타파 엘-카미; 킹펭 리우
Original assignee: 삼성전자주식회사
Priority date: 2021-08-13
Filing date: 2022-07-08
Publication date: 2023-02-21
Also published as: DE102022114631A1; CN115705694A; US20230050573A1; TW202307789A

Abstract

장치들 및 방법들이 비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정하는 특징 추출 모델을 트레이닝하기 위해 제공된다. 방법은 이미지로부터 클러스터링 손실을 결정하는 것, 클러스터링 손실에 기초한 클러스터 의사 라벨들을 사용하여 이미지의 약 지도식 대조 손실을 결정하는 것, 및 클러스터링 손실 및 약 지도식 대조 손실에 기초하여 손실 함수를 결정하는 것을 포함한다.

Description

분할화 태스크들의 비지도식 학습을 위한 시스템 및 방법{System and method for unsupervised learning of segmentation tasks}

본 개시는 일반적으로 클러스터링 및 대조 방법들을 사용한 비지도식 방식으로 이미지 분할화를 위한 시스템들 및 방법들에 관한 것이다.

이미지 의미론적 분할화는 이미지에서 각각의 픽셀을 라벨링하기 위한 컴퓨터 비전 태스크이다. 심층 학습 모델들은 이미지들로부터 시각적 특징들을 추출하고 각 픽셀의 타겟 클래스를 정확하게 분류하기 위한 능력을 입증하여 왔다. 지도식 학습 모델들은 타겟 클래스들과 예측된 클래스들 간의 교차 엔트로피를 최소화한다. 그러나, 다수의 이미지들에서 픽셀들의 각각에 대한 라벨들을 획득하는 것은 리소스 집약적이며 비효율적이다.

이미지 분류에서의 현재 동향은 비지도식 학습 알고리즘들을 통해 심층 학습 모델을 사전트레이닝하는 것이다. 이들 알고리즘들 중에서, 클러스터링 및 대조 학습이 효과적인 방법들이다. 클러스터링 및 대조 학습의 일반적인 아이디어는 내장 공간에서 유사한 특징들을 더 가깝게 및 유사하지 않은 특징들을 더 멀리 그룹핑/클러스터링하는 것이다. 클러스터링 방법들은 원래 이미지들의 픽셀 특징들에 대해 작업할 수 있지만, 종래의 대조 학습 방법은 동일한 이미지의 변형된 뷰들로부터의 특징들을 요구한다.

따라서, 본 개시는 적어도 상기 설명된 문제들 및/또는 단점들을 처리하며 이하에서 설명된 이점들 중 적어도 일부를 제공하기 위해 제공된다.

본 개시의 양상은 클러스터링 및 대조 방법들을 사용한 비지도식 방식으로 이미지 분할화를 위한 시스템들 및 방법들을 제공하는 것이다.

본 개시의 또 다른 양상은 이웃 픽셀들의 연속성을 유지하기 위해 영역 레벨 샘플링 및 풀링을 사용한 이미지 분할화를 위한 시스템들 및 방법들을 제공하는 것이다.

본 개시의 또 다른 양상은 트레이닝 동안 안정화된 도심(centroid) 학습을 제공하기 위해 클러스터링 및 대조 효과들을 사용한 이미지 분할화를 위한 시스템들 및 방법들을 제공하는 것이다.

본 개시의 또 다른 양상은 영역 대 정사각형 특징 맵을 평균 풀링함으로써 이웃 픽셀들 간의 유사성들을 보존하기 위해 박스 샘플링을 사용한 이미지 분할화를 위한 시스템들 및 방법들을 제공하는 것이다.

본 개시의 양상에 따르면, 방법은 비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위해 제공된다. 상기 방법은 이미지로부터 클러스터링 손실을 결정하는 것; 상기 클러스터링 손실에 기초하여 클러스터 의사 라벨들을 사용하여 이미지의 약 지도식(weakly supervised) 대조 손실을 결정하는 것; 및 상기 클러스터링 손실 및 상기 약 지도식 대조 손실에 기초하여 손실 함수를 결정하는 것을 포함한다.

본 개시의 또 다른 양상에 따르면, 비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위해 장치가 제공된다. 상기 장치는 프로세서; 및 지시들을 저장하도록 구성된 메모리로서, 상기 지시들은, 실행될 때, 이미지로부터 클러스터링 손실을 결정하고, 상기 클러스터링 손실에 기초하여 클러스터 의사 라벨들을 사용하여 이미지의 약 지도식 대조 손실을 결정하며, 상기 클러스터링 손실 및 상기 약 지도식 대조 손실에 기초하여 손실 함수를 결정하도록 상기 프로세서를 제어하는, 상기 메모리를 포함한다.

본 개시의 또 다른 양상에 따르면, 비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위한 방법이 제공된다. 상기 방법은 이미지로부터 클러스터링 손실을 결정하는 것; 상기 이미지의 박스 샘플 손실을 결정하는 것; 및 상기 클러스터링 손실 및 상기 박스 샘플 손실에 기초하여 손실 함수를 결정하는 것을 포함한다.

본 개시의 또 다른 양상에 따르면, 비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위한 장치가 제공된다. 상기 장치는 프로세서; 및 지시들을 저장하도록 구성된 메모리로서, 상기 지시들은 실행될 때, 이미지로부터 클러스터링 손실을 결정하고, 이미지의 박스 샘플 손실을 결정하며, 상기 클러스터링 손실 및 박스 샘플 손실에 기초하여 손실 함수를 결정하도록 상기 프로세서를 제어하는, 상기 메모리를 포함한다.

본 개시의 특정한 실시예들의 상기 및 다른 양상들, 특징들, 및 이점들은 수반된 도면들과 함께 취해진, 다음의 상세한 설명으로부터 더 분명할 것이다.
도 1은 다중-뷰 특징들을 생성하기 위해 사용된 불변성 및 등변성(PiCIE) 및 변환들을 사용한 픽셀-레벨 특징 클러스터링의 개요를 예시한다;
도 2는 뷰들 간의 할당 스와핑(SwAV) 방법의 개요를 예시한다;
도 3은 실시예에 따른, 분할화를 위한 지도식 대조 손실에 대한 수정의 예를 예시한다;
도 4는 실시예에 따른, 박스 샘플링 프로세스의 예를 예시한다;
도 5는 실시예에 따라, 손실 함수를 산출하는 방법을 예시한 흐름도이다;
도 6은 실시예에 따른, 네트워크 환경에서의 전자 디바이스를 예시한다.

이하에서, 본 개시의 실시예들은 수반된 도면들을 참조하여 상세하게 설명된다. 동일한 요소들은 그것들이 상이한 도면들에 도시될지라도 동일한 참조 숫자들에 의해 지정될 것이라는 것이 주의되어야 한다. 다음의 설명에서, 상세한 구성들 및 구성요소들과 같은 특정 세부사항들은 단지 본 개시의 실시예들의 전체적인 이해를 돕기 위해 제공된다. 그러므로, 본원에서 설명된 실시예들의 다양한 변화들 및 수정들은 본 개시의 범위로부터 벗어나지 않고 이루어질 수 있다는 것이 이 기술분야의 숙련자들에게 명백해야 한다. 또한, 잘 알려진 기능들 및 구성들에 대한 설명들은 명료함 및 간결함을 위해 생략된다. 이하에서 설명된 용어들은 본 개시에서 기능들을 고려하여 정의된 용어들이며, 사용자들, 사용자들의 의도들 또는 주문들에 따라 상이할 수 있다. 그러므로, 용어들의 정의들은 본 명세서 전체에 걸쳐 내용에 기초하여 결정되어야 한다.

본 개시는 다양한 수정들 및 다양한 실시예들을 가질 수 있으며, 그 중에서 실시예들은 수반된 도면들을 참조하여 이하에서 상세하게 설명된다. 그러나, 본 개시는 실시예들에 제한되지 않으며, 본 개시의 범위 내에서 모든 수정들, 등가물들, 및 대안들을 포함한다는 것이 이해되어야 한다.

제 1, 제 2 등과 같은 서수를 포함한 용어들은 다양한 요소들을 설명하기 위해 사용될 수 있지만, 구조적 요소들은 용어들에 의해 제한되지 않는다. 용어들은 단지 하나의 요소를 또 다른 요소로부터 구별하기 위해 사용된다. 예를 들어, 본 개시의 범위로부터 벗어나지 않고, 제 1 구조적 요소는 제 2 구조적 요소로서 불리울 수 있다. 유사하게, 제 2 구조적 요소는 또한 제 1 구조적 요소로서 불리울 수 있다. 본원에서 사용된 바와 같이, 용어 "및/또는"은 하나 이상의 연관된 아이템들의 임의의 및 모든 조합들을 포함한다.

본원에서 사용된 용어들은 단지 본 개시의 다양한 실시예들을 설명하기 위해 사용되지만 본 개시를 제한하도록 의도되지 않는다. 단수형 형태들은 맥락이 달리 명확하게 표시하지 않는다면 복수형 형태들을 포함하도록 의도된다. 본 개시에서, 용어들 "포함하다" 또는 "갖다"는 특징, 숫자, 단계, 동작, 구조적 요소, 부분들, 또는 그것의 조합의 존재를 나타내며, 하나 이상의 다른 특징들, 숫자들, 단계들, 동작들, 구조적 요소들, 부분들, 또는 그것의 조합들의 부가의 존재 또는 가능성을 배제하지 않는다는 것이 이해되어야 한다.

달리 정의되지 않는다면, 본원에서 사용된 모든 용어들은 본 개시가 속하는 기술분야에서의 숙련자에 의해 이해되는 것들과 동일한 의미들을 갖는다. 일반적으로 사용되는 사전에서 정의된 것들과 같은 용어들은 관련 기술분야에서 문맥상 의미들과 동일한 의미들을 갖도록 해석될 것이며, 본 개시에서 명확히 정의되지 않는다면 이상적이거나 또는 과도하게 형식적인 의미들을 갖도록 해석되지 않을 것이다.

일 실시예에 따른 전자 디바이스는 다양한 유형들의 전자 디바이스들 중 하나일 수 있다. 전자 디바이스들은, 예를 들어, 휴대용 통신 디바이스(예컨대, 스마트폰), 컴퓨터, 휴대용 멀티미디어 디바이스, 휴대용 의료 디바이스, 카메라, 착용 가능한 디바이스, 또는 가정용 기기를 포함할 수 있다. 본 개시의 일 실시예에 따르면, 전자 디바이스는 상기 설명된 것들에 제한되지 않는다.

본 개시에서 사용된 용어들은 본 개시를 제한하도록 의도되지 않으며 대응하는 실시예에 대한 다양한 변화들, 등가물들, 또는 대체들을 포함하도록 의도된다. 수반된 도면들의 설명에 관하여, 유사한 참조 숫자들은 유사한 또는 관련된 요소들을 나타내기 위해 사용될 수 있다. 아이템에 대응하는 단수형 형태의 명사는 관련 맥락이 달리 명확히 표시하지 않는다면, 사물들 중 하나 이상을 포함할 수 있다. 본원에서 사용된 바와 같이, "A 또는 B", "A 및 B 중 적어도 하나", "A 또는 B 중 적어도 하나", "A, B, 또는 C", "A, B, 및 C 중 적어도 하나" 및 "A, B, 또는 C 중 적어도 하나"와 같은 이러한 구절들의 각각은 구절들의 대응하는 것에서 함께 열거된 아이템들의 모든 가능한 조합들을 포함할 수 있다. 본원에서 사용된 바와 같이, "첫 번째", 두 번째", "제 1", 및 "제 2"와 같은 용어들은 대응하는 구성요소를 또 다른 구성요소로부터 구별하기 위해 사용될 수 있지만, 다른 양상들에서 구성요소들을 제한하도록 의도되지 않는다(예컨대, 중요도 또는 순서). 요소(예컨대, 제 1 요소)가 용어 "동작적으로" 또는 "통신적으로"를 갖거나 또는 그것 없이, 또 다른 요소(예컨대, 제 2 요소) "와 결합되고", "에 결합되고", "와 연결되거나", 또는 "에 연결되는" 것으로 참조된다면, 그것은 요소가 다른 요소와 직접(예컨대, 유선), 무선으로, 또는 제 3 요소를 통해 결합될 수 있다는 것을 나타낸다는 것이 의도된다.

본원에서 사용된 바와 같이, 용어 "모듈"은 하드웨어, 소프트웨어, 또는 펌웨어로 구현된 유닛을 포함할 수 있으며, 다른 용어들, 예를 들어, "논리", "논리 블록", "부분", 및 "회로부"와 상호 교환 가능하게 사용될 수 있다. 모듈은 하나 이상의 기능들을 수행하도록 적응된, 단일의 통합형 구성요소, 또는 최소 유닛 또는 그것의 부분일 수 있다. 예를 들어, 일 실시예에 따르면, 모듈은 애플리케이션-특정 집적 회로(ASIC)의 형태로 구현될 수 있다.

이미지 분할화는 이미지에서의 각각의 픽셀을 타겟 클래스로서 분류하는 컴퓨터 비전 태스크이다. 지도식 학습은 라벨링된 데이터에 대해 트레이닝함으로써 분류하도록 학습한다. 이미지 분류 태스크들과 비교하여, 분할화 태스크들은 이미지에서의 수십 만개의 픽셀들 모두가 라벨링되어야 하므로 더욱 많은 라벨들을 요구한다.

비지도식 학습은, 다른 한편으로, 임의의 정답(ground truth) 라벨들 없이 분류하도록 학습한다. 비지도식 학습 방법들은 픽셀 라벨들로 이미지의 주석을 다는 인간의 수고를 줄이기 위해 라벨링되지 않은 데이터에 대한 모델을 트레이닝하기 위해 사용될 수 있다. 예를 들어, 클러스터링은 유사성들에 기초하여 특징들을 그룹핑하는, 비지도식 학습의 예이다.

이미지 분류 태스크들에 대한 대조 학습에서의 최근의 진전들로, 본 개시의 실시예에 따르면, 임의의 정답 라벨들을 얻지 않고 픽셀들을 분류하기 위해 클러스터링 손실 및 대조 손실을 갖고 모델을 트레이닝하기 위한 방법이 제공된다.

또한, 본 개시의 실시예에 따르면, 박스 샘플링 프로세스가 특징 맵으로부터 랜덤 사이징된 영역들을 추출하고 픽셀 특징들과 공동으로 대조 손실을 계산하기 위해 도입된다. 이러한 메커니즘은 모델이 영역에 동일한 라벨을 할당하도록 촉구하며, 이것은 이웃 픽셀들 간의 라벨 연속성을 보존한다.

이러한 작업의 확대가 또한 제공되며, 이것은 제한된 수의 정답 라벨들을 갖고 지도식 손실 및 비지도식 손실 둘 모두를 공동으로 트레이닝한다.

본 개시의 실시예에 따르면, 시스템 및 방법이 클러스터링 및 대조 방법들 양쪽 모두를 사용하여 비지도식 방식으로 이미지 분할화들을 위해 제공된다.

일반적으로, 이미지 분할화를 위한 종래의 클러스터링 방법들은 클러스터 도심들을 학습하며 픽셀들을 트레이닝하기 위해 의사 라벨들을 생성한다. 그러나, 생성된 의사 라벨들은 종종 동일한 클래스에 속하는 픽셀들이 텍스처에서의 차이들로 인해 상이한 라벨들을 할당받을 수 있으므로 매우 잡음이 많다.

반대로, 대조 학습은 높은 유사성을 가진 픽셀들이 더 가깝게 및 유사하지 않은 픽셀들로부터 더 멀리 떨어져 매핑되도록 촉구한다. 이러한 유인 및 반발 효과는 클러스터 학습에서 잡음 문제 중 일부를 완화할 수 있다.

대조 학습 손실 외에, 오브젝트 검출 태스크들에서 영역 샘플링과 비슷한 신규 메커니즘이 출력 특징 맵들로부터 랜덤 샘플 박스들로 발전되며 그 후 추출된 영역 상에서 대조 손실을 이용한다.

본 개시의 몇몇 양상들은:

1) 클러스터링 손실: 각각의 트레이닝 시기 전에, 클러스터 도심들은 현재 픽셀 특징들을 사용하여 학습된다. 그 후, 각각의 픽셀은 의사 라벨로서 클러스터 라벨을 제공받는다. 트레이닝 시기 동안, 의사 라벨들과 예측 라벨들 간의 교차 엔트로피가 최소화된다.

2) 약 지도식 대조 손실: 비지도식 대조 손실의 약점은 대조 동안 많은 거짓 음성들을 포함한다는 것이다. 이미지 분류 대조 손실을 픽셀 분류에 적응시킴으로써, 거짓 음성들의 양이 추가로 증가한다. 이러한 거짓 음성 문제를 제거하기 위해, 약 지도식 대조 손실이 지도식 대조 손실을 유도하기 위한 큐로서 클러스터 의사 라벨들을 사용함으로써 학습될 수 있다. 다수의 픽셀들이 계산 부담을 줄이기 위해 지도식 대조 손실을 계산하도록 샘플링된다.

3) 박스 샘플링: 상기 양상 1) 및 양상 2) 둘 모두는 개개의 픽셀들에 대한 손실을 계산한다. 그러나, 이것은 동일한 오브젝트/스터프 클래스 내에서 이웃 픽셀들의 연속성을 억제할 수 있다. 이미지의 영역에 동일한 라벨을 할당하는 것을 장려하기 위해, 랜덤 박스 샘플링이 특징 맵으로부터 상이한 크기들을 가진 직사각형 영역들을 추출하기 위해서, 및 영역을 평균 풀링하는 것이 정사각형 특징들을 생성하기 위해 이용될 수 있다. 이들 정사각형 특징들은 또한 대응하는 영역들에서 대다수 픽셀 의사 라벨들을 카운트함으로써 의사 라벨들을 제공받을 수 있다. 그 후, 평균 풀링 특징들 및 각각의 의사 라벨들이 지도식 대조 손실을 다시 계산하기 위해 사용될 수 있다. 유사한 영역들 간의 높은 유사성을 학습함으로써, 모델은 영역에 동일한 라벨들을 할당할 가능성이 더 높다.

따라서, 본 개시는 픽셀 분할화들에 이미지 대조 손실들의 확대를 제공하고, 학습된 픽셀 표현들의 품질을 개선하기 위해 클러스터링 및 약-지도식 대조 손실을 함께 트레이닝하며, 픽셀 레벨 대조 학습 외에, 이웃 픽셀들의 연속성을 유지하기 위해 영역 레벨 샘플링 및 풀링을 적응시킴으로써 상기 식별된 문제들 중 일부를 처리한다.

임의의 정답 라벨들 없이 상이한 클래스들로부터 특징들의 유사성들을 매칭시키는 것에 의해 모델을 트레이닝함으로써, 방대한 양의 이러한 라벨들을 획득하려는 노력은 필요하지 않다.

부가적으로, 제한된 양의 라벨들로 사전-트레이닝된 모델을 미세-조정하는 것은 동일한 양의 라벨들에 대해 트레이닝된 완전 지도식 모델에 더 양호한 성능을 제공할 수 있다.

표기법 해설 목록

x_i~D 데이터 도메인으로부터의 이미지들.

x_i~B 미니 트레이닝 배치로부터의 이미지들.

f_θ(.) θ에 의해 파라미터화된 특징 추출 모델.

P_i ⁽¹⁾, P_i ⁽²⁾ 랜덤 측광학적 변환.

G_i 랜덤 기하 변환.

μ^(.) 클러스터 도심.

y^(.) 클러스터 라벨/의사 라벨.

위치 p∈[HW]에서 제 i 이미지로부터 추출된 픽셀 특징.

메모리 뱅크에 저장된 픽셀 특징.

일반적으로, 다음의 포인트들이 이하에서 논의될 것이다:

비지도식 분할화를 위한 클러스터링 모델(예컨대, PiCIE);

이미지 분할화로의 대조 손실들의 적응화;

분할화를 위한 지도식 대조 손실에 대한 수정; 및

더 양호한 영역 연속성을 위한 박스 샘플링.

비지도식 분할화를 위한 클러스터링 방법

DeepCluster는 이미지 표현들을 학습하기 위한 자기-주도 접근법이다. DeepCluster는 표준 클러스터링 알고리즘인, k-평균을 갖고 특징들을 반복적으로 그룹핑하며, 네트워크의 가중치들을 업데이트하기 위해 다음 할당들을 지도로서 사용한다.

DeepCluster와 유사하게, PiCIE는 각각의 트레이닝 시기 후 픽셀 특징들 모두를 클러스터링하며 트레이닝 데이터에서의 각각의 픽셀에 의사 라벨들로서 클러스터 라벨들을 할당한다. 이들 의사 라벨들은 각각의 픽셀의 클래스를 예측하기 위해 손실 함수를 유도할 것이다.

이미지들의 단일 뷰로부터의 특징들이 추출되는 DeepCluster와 상이하게, PiCIE 특징들은 이미지들의 두 개의 상이한 뷰들이 추출되며 뷰-내 손실 및 교차-뷰 손실인 두 개의 손실들을 계산한다. 손실들은 등변성 대 기하 변환들 및 불변성 대 측광학적 변환들을 개선한다.

도 1은 다중-뷰 특징들을 생성하기 위해 사용된 PiCIE 및 변환들의 개요를 예시한다.

도 1을 참조하면, 이미지(x_i)가 추출된 특징들(

및

)의 두 개의 뷰들을 생성하기 위해 상이한 순서들로 측광학적 변환(P_i ^(.)), 및 기하 변환(G_i)에 이용된다. 그 후 두 개의 세트들의 도심들(μ⁽¹⁾, μ⁽²⁾), 및 의사 라벨들(y⁽¹⁾, y⁽²⁾)이 K-평균을 사용하여 두 개의 세트들의 추출된 특징들에 대해 계산된다.

대응하는 의사 라벨들을 할당한 후, 특징들은 다시 상이한 기하 및 측광학적 변환들을 갖고 추출된다. 할당된 의사 라벨들 및 계산된 도심들을 갖고, 이하에서의 식 1에서 도시된 바와 같이, 클러스터링 손실 함수가 학습되며, 여기에서 d(.,.)는 거리 메트릭이다.

이미지의 뷰들 양쪽 모두를 이용하며 표현들의 품질을 강화하기 위해, 식 2에서처럼, 뷰-내 손실 및 식 3에 도시된 바와 같이, 교차-뷰 손실이 모델로 하여금 상이한 측광학적 및 기하 변환들에 불변이도록 촉구하기 위해 이용될 수 있다.

식 1

식 2

식 3

식 4

PiCIE는 트레이닝 이미지들의 두 개의 뷰들을 갖고, 식 4에 도시된 바와 같이, 클러스터링 손실을 학습한다. PiCIE가 측광학적 및 기하 변환들에 대한 학습된 특징들의 등변성 및 불변성을 입증할지라도, 의사 라벨들이 생성하기에 매우 잡음이 많고 시간-소모적이므로, 트레이닝은 이들 라벨들을 생성하는데 대부분의 시간을 소비하며 더 긴 시간 트레이닝 후 클러스터링 효과는 약해진다.

이미지 분할화에 대한 대조 손실들의 적응화

대조 학습은 이미지 레벨 표현들을 학습하기 위한 또 다른 툴이다. 대조 학습의 아이디어는 내장 공간에서 유사한 특징들(예컨대, 양성들)을 더 가깝게 및 유사하지 않은 특징들(예컨대, 음성들)을 더 멀리 매핑하는 것이다.

학습하기 위해, 모델은 식 5에 도시된 바와 같이, 잡음 대조 추정(noise contrastive estimation; NCE) 손실을 통해 트레이닝될 수 있으며, 여기에서 d(.,.)는 코사인 거리이고, z_i는 제 i 이미지의 이미지 특징이며, z_i ⁺ 및 z_i ^-는 z_i에 대한 양성 및 음성 특징들이다.

비지도식 이미지 분류에서, 양성들은 상이한 뷰들을 가진 동일한 이미지로부터 추출된 특징들이며, 음성들은 모든 다른 이미지들로부터 추출된 특징들이다. 성공적인 방법들은 시각적 표현들의 대조 학습을 위한 간단한 프레임워크(SimCLR), 모멘텀 대조(MoCo), BYOL(Bootstrap Your Own Latent), SimSiam(Simple Siamese) 등을 포함한다. 동일한 알고리즘이, 예컨대 이하에서의 표 1에 도시된 바와 같이, 이미지 분할화 태스크들에 적응될 수 있다.

식 5

표 1: 분할화에 대한 대조 손실들의 적응화

미니 배치(B)에서의 이미지들에 대해, 두 개의 상이한 세트들의 측광학적 변환들, 그러나 동일한 기하 변환이 각각의 이미지에 적용된다. 특징들은 각각의 이미지의 두 개의 뷰들로부터 추출되며 그 후 대조 손실을 계산하기 위해 사용된다.

SimCLR에 대해, 동일한 위치에서의 픽셀 특징들은 양성 쌍들이며, 모든 다른 위치들에서의 픽셀 특징들은 음성들이다.

MoCo에 대해, 동일한 위치에서의 픽셀 특징들은 양성 쌍들이며, 이전 시기들에서 추출되고 메모리 뱅크에 저장된 픽셀 특징들은 음성들이다. 음성 특징들은 모멘텀을 갖고 업데이트되는 제 2 인코더를 사용하여 추출된다.

BYOL에 대해, 음성들은 명시적으로 사용되지 않으며, 배치 데이터의 평균 모드는 네트워크를 통한 배치 놈(norm) 동작을 통해 음성이다. 제 2 인코더가 또한 예측될 특징들을 추출하기 위해 사용될 수 있다.

SimSiam에 대해, 단일 인코더가 트레이닝되지만 예측될 특징들은 경사를 계산하지 않는다.

SwAV는 쌍별 비교들을 계산하도록 요구하지 않고 대조 방법들을 이용하는 자기-주도식 학습 접근법이다. 구체적으로, SwAV는 대조 학습에서처럼 직접 특징들을 비교하는 대신에, 동일한 이미지의 상이한 증대들(또는 뷰들)을 위해 생성된 클러스터 할당들 간의 일관성을 실시하면서 동시에 데이터를 클러스터링하는 클러스터링 학습 방법이다. 간단히 말해서, SwAV는 또 다른 뷰의 표현으로부터 뷰의 클러스터 할당을 예측하는 스왑형 예측 메커니즘을 사용한다.

도 2는 SwAV 방법의 개요를 예시한다.

도 2를 참조하면, 비-파라메트릭 분류기에 대한 가중치들로서 계산된 도심들을 사용하는 PiCIE와 달리, SwAV는 학습 가능한 프로토타입들을 트레이닝하며, 특징들과 가장 가까운 프로토타입들 간의 거리들에 기초하여 코드들을 계산한다. 그 후, 코드들은 상이한 뷰로부터의 특징들에 의해 예측되도록 스와핑된다.

대조 학습은 임의의 라벨들 없이 지도식 학습 상한에 가까운 이미지들을 분류하는 이미지-레벨 특징들을 학습하기 위한 우세한 성능을 보여준다. 그럼에도 불구하고, 이미지 분할화에 대한 적응화는, 분할화 데이터가 가진 두 개의 기존의 문제들 때문에, 간단하지 않다.

1. 트레이닝 배치에서 거짓 음성들의 수가 비교적 크다; 및

2. 클래스들은 분할화 데이터세트에서 매우 불균형적이다.

단지 동일한 위치에서의 픽셀 특징들만이 양성들이며 모든 다른 특징들이 음성이므로, 손실 함수에서 음성들로서 처리되는 동일한 클래스에 속하는 많은 픽셀 특징들이 있다. 이것은 잡음 학습 신호로 이어진다.

분할화 데이터세트에서, 몇몇 카테고리 클래스들은 도로들, CityScapes 데이터세트에서의 빌딩들 등과 같은, 총 픽셀들의 일 부분에서 두드러진다. 이와 같이, 이미지 분류 대조 학습 손실들을 이미지 분할화에 직접 적응시키는 이익들은 앞서 언급한 문제들로 인해 제한된다.

상기 설명된 단점들의 유형들을 제거하기 위해, 본 개시의 실시예에 따르면 클러스터링 및 대조 방법들을 사용한 비지도식 방식으로 이미지 분할화를 위한 시스템들 및 방법들이 제공된다.

분할화를 위한 지도식 대조 손실에 대한 수정

거짓 음성 및 데이터 불균형 문제들을 처리하기 위해, 총 비지도식 대조 손실들 대신에, 약 지도식 대조 손실이 이미지 분할화를 위해 개발된다.

상기 설명된 바와 같이, PiCIE는 각각의 픽셀에 대한 의사 라벨을 생성하기 위해 사용될 수 있다. 이들 의사 라벨들은 그 후 동일한 클래스에 속하는 유사한 특징들을 나타내기 위한 안내로서 사용될 수 있다. 의사 라벨들을 사용하여, 식 5의 지도식 버전이 개발될 수 있다.

도 3은 실시예에 따른, 분할화를 위한 지도식 대조 손실에 대한 수정의 예를 예시한다.

도 3을 참조하면, 픽셀 특징들을 추출한 후, 클러스터 손실 외에, 지도식 대조 손실이 의사 라벨들에 기초하여 계산될 수 있다. 계산 요건에서 약간의 증가가 있도록 모든 픽셀 특징들의 랜덤 샘플들이 지도식 대조 손실을 위해 사용될 수 있다.

식 6에서, |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수이다. 이러한 손실 함수에서, 양성들 및 음성들은 생성된 의사 라벨(y_i)에 기초하여 판단된다. 부가적인 하이퍼 파라미터인, 샘플들의 수(N_samples)가 샘플링 동안 도입된다.

식 6

더 구체적으로, 도 3을 참조하면, 각각의 트레이닝 시기 전, 클러스터 도심들이 현재 픽셀 특징들을 사용하여 학습된다. 그 후, 각각의 픽셀은 의사 라벨로서 클러스터 라벨을 제공받는다.

그 후, 트레이닝 시기 동안, 의사 라벨들과 예측 라벨들 간의 교차 엔트로피가 최소화된다.

비지도식 대조 손실의 약점은 대조 동안 많은 거짓 음성들의 포함이다. 부가적으로, 이미지 분류 대조 손실을 픽셀 분류에 적응시킴으로써, 거짓 음성들의 양이 추가로 증가할 수 있다.

그러므로, 거짓 음성 문제를 가라앉히기 위해, 약 지도식 대조 손실이 지도식 대조 손실을 유도하기 위한 큐로서 클러스터 의사 라벨들을 사용함으로써 학습된다. 다수의 픽셀들이 계산 부담을 줄이도록 지도식 대조 손실을 계산하기 위해 샘플링된다.

더 양호한 영역 연속성을 위한 박스 샘플링

이웃 픽셀들 간의 라벨 할당 연속성을 개선하기 위해, 박스 샘플링 또는 영역 샘플링이 오브젝트 검출 태스크들에서 사용될 수 있다.

더 구체적으로, 도 3을 다시 참조하면, 밀집한 특징이 백본 네트워크를 통해 추출된 후, 랜덤 사이징된 영역들/박스들이 특징 맵으로부터 추출될 수 있으며 각각의 영역/박스는 오브젝트 또는 비-오브젝트로서 분류된다.

분할화 태스크에서, 박스 샘플링은 특징 맵으로부터 N_regions 영역들을 추출하기 위해 이용되며, 평균 풀링은 특징들(

)을 출력하기 위해 샘플링 영역들(s×s)에 대해 수행된다. 결과적인 특징들은 영역에서의 모든 픽셀들의 평균 정보를 계산한다.

이들 특징들에 대한 지도식 대조 손실을 계산하기 위해, 동일한 라벨(

)이 영역(

)에서 다수 라벨들을 계산함으로써 평균-풀링 특징들에서의 모든 특징 벡터들에 제공되며, 여기에서 |y_i|는 샘플링된 박스에서 y_i의 수이다.

도 4는 실시예에 따른 박스 샘플링 프로세스의 예를 예시한다.

도 4를 참조하면, 평균 풀링은 2×2 출력 특징들로의 샘플링된 영역들에 대해 수행된다. 동일한 라벨들이 그 후 영역들에서의 다수 라벨들을 계산함으로써 평균-풀링 특징들에서 모든 특징 벡터들에 주어진다. 예를 들어, 의사 라벨 2가 영역(401)에서 제공되고 의사 라벨 4가 영역(402)에 제공되며, 의사 라벨 1이 영역(403)에 제공된다.

따라서, 식 5 및 식 6 외에, 랜덤하게 샘플링된 정사각형 특징들 상에서의 또 다른 지도식 대조 손실이 또한 식 7에서 계산될 수 있다.

식 7

시스템을 트레이닝하기 위한 최종 손실 함수는 식 8로서 표현될 수 있다.

식 8

표 2

하이퍼 파라미터들이 이하에서 표 3에서 나열된다.

표 3: 하이퍼 파라미터들의 리스트

도 5는 실시예에 따른, 손실 함수를 산출하는 방법을 예시한 흐름도이다.

도 5를 참조하면, 단계 501에서, 장치, 예컨대, 이동 전화는 이미지로부터 클러스터링 손실(

)를 결정한다.

단계 502에서, 장치는 클러스터링 손실에 기초한 클러스터 의사 라벨들을 사용하여 이미지의 약 지도식 대조 손실(

)을 결정한다.

단계 503에서, 장치는 이미지의 (

)을 결정한다.

단계 504에서, 장치는 클러스터링 손실, 약 지도식 대조 손실, 및 박스 샘플 손실에 기초하여, 예컨대 식 8을 사용하여, 손실 함수(

)를 결정한다.

도 5는 클러스터링 손실, 약 지도식 대조 손실, 및 박스 샘플 손실이 손실 함수를 계산하기 위해 사용되는 방법을 예시하지만, 본 개시는 이에 제한되지 않는다. 예를 들어, 장치는 클러스터링 손실 및 약 지도식 대조 손실에 기초하여(예컨대, 여기에서

=

+

*

), 또는 클러스터링 손실 및 박스 샘플 손실에 기초하여(예컨대, 여기에서

=

+

*

) 손실 함수(

)을 결정할 수 있다.

이미지 분할화를 위한 준 지도식 트레이닝

본 개시의 실시예에 따르면, 라벨링된 이미지 및 라벨링되지 않은 이미지 양쪽 모두가 트레이닝될 수 있다.

더 구체적으로, 라벨링된 이미지들은 예측 라벨들 및 정답 라벨들 간의 교차 엔트로피를 최소화함으로써 트레이닝될 수 있다. 라벨링되지 않은 이미지들은 상기 설명된 바와 같이, 클러스터 손실들(

), 및 대조 손실(

) 둘 모두를 계산함으로써 트레이닝될 수 있다.

박스 샘플링은 또한 영역에서 라벨 연속성을 강화하기 위한 메커니즘으로서 포함될 수 있다. 제한된 정답 라벨들에 대한 지도식 손실들을 공동으로 트레이닝하는 이점은 비지도식 트레이닝 동안 학습된 도심들이 더 강력하여, 대조 손실을 계산할 때보다 적은 잡음을 도입할 것이라는 것이다.

표 4

도 6은 실시예에 따른, 네트워크 환경에서의 전자 디바이스를 예시한다.

도 6을 참조하면, 네트워크 환경(600)에서, 전자 디바이스(601), 예컨대 GPS 기능을 포함한 이동 단말기는 제 1 네트워크(698)(예컨대, 단거리 무선 통신 네트워크)를 통해 전자 디바이스(602)와, 또는 제 2 네트워크(699)(예컨대, 장거리 무선 통신 네트워크)를 통해 전자 디바이스(604) 또는 서버(608)와 통신할 수 있다. 전자 디바이스(601)는 서버(608)를 통해 전자 디바이스(604)와 통신할 수 있다. 전자 디바이스(601)는 프로세서(620), 메모리(630), 입력 디바이스(650), 사운드 출력 디바이스(655), 디스플레이 디바이스(660), 오디오 모듈(670), 센서 모듈(676), 인터페이스(677), 햅틱 모듈(679), 카메라 모듈(680), 전력 관리 모듈(688), 배터리(689), 통신 모듈(690), 가입자 식별 모듈(SIM)(696), 또는 GNSS 안테나를 포함한 안테나 모듈(697)을 포함할 수 있다. 일 실시예에서, 구성요소들 중 적어도 하나(예컨대, 디스플레이 디바이스(660) 또는 카메라 모듈(680))는 전자 디바이스(601)로부터 생략될 수 있거나, 또는 하나 이상의 다른 구성요소들이 전자 디바이스(601)에 부가될 수 있다. 일 실시예에서, 구성요소들 중 일부는 단일 집적 회로(IC)로서 구현될 수 있다. 예를 들어, 센서 모듈(676)(예컨대, 지문 센서, 홍채 센서, 또는 조명 센서)이 디스플레이 디바이스(660)(예컨대, 디스플레이)에 내장될 수 있다.

프로세서(620)는, 예를 들어, 프로세서(620)와 결합된 전자 디바이스(601)의 적어도 하나의 다른 구성요소(예컨대, 하드웨어 또는 소프트웨어 구성요소)를 제어하기 위해 예를 들어, 소프트웨어(예컨대, 프로그램(640))를 실행할 수 있으며, 다양한 데이터 프로세싱 또는 계산들을 수행할 수 있다. 데이터 프로세싱 또는 계산들의 적어도 일부로서, 프로세서(620)는 또 다른 구성요소(예컨대, 센서 모듈(676) 또는 통신 모듈(690))로부터 수신된 명령 또는 데이터를 휘발성 메모리(632)에 로딩하고, 휘발성 메모리(632)에 저장된 명령 또는 데이터를 프로세싱하며, 결과 데이터를 비-휘발성 메모리(634)에 저장할 수 있다. 프로세서(620)는 메인 프로세서(621)(예컨대, 중앙 프로세싱 유닛(CPU)) 또는 애플리케이션 프로세서, 및 메인 프로세서(621)로부터 독립적으로, 또는 그것과 함께 동작 가능한 보조 프로세서(623)(예컨대, 그래픽스 프로세싱 유닛(GPU), 이미지 신호 프로세서(ISP), 센서 허브 프로세서, 또는 통신 프로세서(CP))를 포함할 수 있다. 부가적으로 또는 대안적으로, 보조 프로세서(623)는 메인 프로세서(621)보다 적은 전력을 소비하거나, 또는 특정한 기능을 실행하도록 적응될 수 있다. 보조 프로세서(623)는 메인 프로세서(621)로부터 분리되거나, 또는 그것의 일부로서 구현될 수 있다.

보조 프로세서(623)는 메인 프로세서(621)가 무활동(예컨대, 수면) 상태인 동안 메인 프로세서(621) 대신에, 또는 메인 프로세서(621)가 활성 상태(예컨대, 애플리케이션을 실행하는)에 있는 동안 메인 프로세서(621)와 함께, 전자 디바이스(601)의 구성요소들 중에서 적어도 하나의 구성요소(예컨대, 디스플레이 디바이스(660), 센서 모듈(676), 또는 통신 모듈(690))에 관련된 기능들 또는 상태들 중 적어도 일부를 제어할 수 있다. 일 실시예에 따르면, 보조 프로세서(623)(예컨대, 이미지 신호 프로세서 또는 통신 프로세서)는 보조 프로세서(623)에 기능적으로 관련된 또 다른 구성요소(예컨대, 카메라 모듈(680) 또는 통신 모듈(690))의 부분으로서 구현될 수 있다.

메모리(630)는 전자 디바이스(601)의 적어도 하나의 구성요소(예컨대, 프로세서(620) 또는 센서 모듈(676))에 의해 사용된 다양한 데이터를 저장할 수 있다. 다양한 데이터는, 예를 들어, 소프트웨어(예컨대, 프로그램(640)) 및 그것에 관련된 명령에 대한 입력 데이터 또는 출력 데이터를 포함할 수 있다. 메모리(630)는 휘발성 메모리(632) 또는 비-휘발성 메모리(634)를 포함할 수 있다.

프로그램(640)은 소프트웨어로서 메모리(630)에 저장될 수 있으며, 예를 들어, 운영 시스템(OS)(642), 미들웨어(644), 또는 애플리케이션(646)을 포함할 수 있다. 입력 디바이스(650)는 전자 디바이스(601)의 밖(예컨대, 사용자)으로부터, 전자 디바이스(601)의 다른 구성요소(예컨대, 프로세서(620))에 의해 사용될 명령 또는 데이터를 수신할 수 있다. 입력 디바이스(650)는, 예를 들어, 마이크로폰, 마우스, 또는 키보드를 포함할 수 있다.

사운드 출력 디바이스(655)는 전자 디바이스(601)의 밖으로 사운드 신호들을 출력할 수 있다. 사운드 출력 디바이스(655)는 예를 들어, 스피커 또는 수신기를 포함할 수 있다. 스피커는, 멀티미디어 또는 레코딩을 플레이하는 것과 같은, 일반적인 목적들을 위해 사용될 수 있으며, 수신기는 인입 호출을 수신하기 위해 사용될 수 있다. 일 실시예에 따르면, 수신기는 스피커로부터 분리되거나, 또는 그것의 일부로서 구현될 수 있다.

디스플레이 디바이스(660)는 전자 디바이스(601)의 밖(예컨대, 사용자)으로 정보를 시각적으로 제공할 수 있다. 디스플레이 디바이스(660)는, 예를 들어, 디스플레이, 홀로그램 디바이스, 또는 프로젝터 및 디스플레이, 홀로그램 디바이스, 및 프로젝터 중 대응하는 것을 제어하기 위한 제어 회로부를 포함할 수 있다. 일 실시예에 따르면, 디스플레이 디바이스(660)는 터치를 검출하도록 적응된 터치 회로부, 또는 터치에 의해 발생된 힘의 세기를 측정하도록 적응된 센서 회로부(예컨대, 압력 센서)를 포함할 수 있다.

오디오 모듈(670)은 사운드를 전기 신호로 및 그 반대로 변환할 수 있다. 일 실시예에 따르면, 오디오 모듈(670)은 입력 디바이스(650)를 통해 사운드를 획득하거나, 또는 직접(예컨대, 유선으로) 또는 무선으로 전자 디바이스(601)와 결합된 외부 전자 디바이스(602)의 헤드폰 또는 사운드 출력 디바이스(655)를 통해 사운드를 출력할 수 있다.

센서 모듈(676)은 전자 디바이스(601)의 동작 상태(예컨대, 전력 또는 온도) 또는 전자 디바이스(601)의 외부에 있는 환경 상태(예컨대, 사용자의 상태)를 검출하며, 그 후 검출된 상태에 대응하는 전기 신호 또는 데이터 값을 생성할 수 있다. 센서 모듈(676)은, 예를 들어, 제스처 센서, 자이로 센서, 대기압 센서, 자기 센서, 가속도 센서, 그립 센서, 근접성 센서, 컬러 센서, 적외선(IR) 센서, 생체측정 센서, 온도 센서, 습도 센서, 또는 조명 센서를 포함할 수 있다.

인터페이스(677)는 직접(예컨대, 유선으로) 또는 무선으로 외부 전자 디바이스(602)와 결합될 전자 디바이스(601)를 위해 사용될 하나 이상의 특정 프로토콜들을 지원할 수 있다. 일 실시예에 따르면, 인터페이스(677)는, 예를 들어, 고선명 멀티미디어 인터페이스(HDMI), 범용 직렬 버스(USB) 인터페이스, 보안 디지털(SD) 카드 인터페이스, 또는 오디오 인터페이스를 포함할 수 있다.

연결 단자(678)는 전자 디바이스(601)가 외부 전자 디바이스(602)와 물리적으로 연결될 수 있는 커넥터를 포함할 수 있다. 일 실시예에 따르면, 여녈 단자(678)는, 예를 들어, HDMI 커넥터, USB 커넥터, SD 카드 커넥터, 또는 오디오 커넥터(예컨대, 헤드폰 커넥터)를 포함할 수 있다.

햅틱 모듈(679)은 전기 신호를 촉각 감각 또는 운동 감각을 통해 사용자에 의해 인식될 수 있는 기계적 자극(예컨대, 진동 또는 움직임) 또는 전기 자극으로 변환할 수 있다. 일 실시예에 따르면, 햅틱 모듈(679)은 예를 들어, 모터, 압전 소자, 또는 전기 자극기를 포함할 수 있다.

카메라 모듈(680)은 스틸 이미지 또는 움직이는 이미지들을 캡처할 수 있다. 일 실시예에 따르면, 카메라 모듈(680)은 하나 이상의 렌즈들, 이미지 센서들, 이미지 신호 프로세서들, 또는 플래시들을 포함할 수 있다.

전력 관리 모듈(688)은 전자 디바이스(601)로 공급된 전력을 관리할 수 있다. 전력 관리 모듈(688)은 예를 들어, 전력 관리 집적 회로(PMIC)의 적어도 일부로서 구현될 수 있다.

배터리(689)는 전자 디바이스(601)의 적어도 하나의 구성요소로 전력을 공급할 수 있다. 일 실시예에 따르면, 배터리(689)는, 예를 들어, 재충전 가능하지 않은 1차 전지, 재충전 가능한 2차 전지, 또는 연료 전지를 포함할 수 있다.

통신 모듈(690)은 전자 디바이스(601)와 외부 전자 디바이스(예컨대, 전자 디바이스(602), 전자 디바이스(604), 또는 서버(608)) 사이에 직접(예컨대, 유선) 통신 채널 또는 무선 통신 채널을 수립하고 수립된 통신 채널을 통해 통신을 수행하는 것을 지원할 수 있다. 통신 모듈(690)은 프로세서(620)(예컨대, 애플리케이션 프로세서)로부터 독립적으로 동작 가능하며 직접(예컨대, 유선) 통신 또는 무선 통신을 지원하는 하나 이상의 통신 프로세서들을 포함할 수 있다. 일 실시예에 따르면, 통신 모듈(690)은 무선 통신 모듈(692)(예컨대, 셀룰러 통신 모듈, 단거리 무선 통신 모듈, 또는 전역적 내비게이션 위성 시스템(GNSS) 통신 모듈) 또는 유선 통신 모듈(694)(예컨대, 근거리 네트워크(LAN) 통신 모듈 또는 전력 라인 통신(PLC) 모듈)을 포함할 수 있다. 이들 통신 모듈들 중 대응하는 것은 제 1 네트워크(698)(예컨대, Bluetooth™, 무선-충실도(Wi-Fi) 다이렉트, 또는 적외선 데이터 협회의 표준(IrDA)과 같은, 단거리 통신 네트워크) 또는 제 2 네트워크(699)(예컨대, 셀룰러 네트워크, 인터넷, 또는 컴퓨터 네트워크(예컨대, LAN 또는 광역 네트워크(WAN)과 같은, 장거리 통신 네트워크)를 통해 외부 전자 디바이스와 통신할 수 있다. 이들 다양한 유형들의 통신 모듈들은 단일 구성요소(예컨대, 단일 IC)로서 구현될 수 있거나, 또는 서로 분리되는 다수의 구성요소들(예컨대, 다중 IC들)로서 구현될 수 있다. 무선 통신 모듈(692)은 가입자 식별 모듈(696)에 저장된 가입자 정보(예컨대, 국제 이동 가입자 아이덴티티(IMSI))를 사용하여, 제 1 네트워크(698) 또는 제 2 네트워크(699)와 같은, 통신 네트워크에서 전자 디바이스(601)를 식별하고 인증할 수 있다.

안테나 모듈(697)은 전자 디바이스(601)의 밖(예컨대, 외부 전자 디바이스)으로 또는 그로부터 신호 또는 전력을 송신하거나 또는 수신할 수 있다. 일 실시예에 따르면, 안테나 모듈(697)은 하나 이상의 안테나들을 포함할 수 있으며, 그로부터, 제 1 네트워크(698) 또는 제 2 네트워크(699)와 같은, 통신 네트워크에서 사용된 통신 기법에 적합한 적어도 하나의 안테나가, 예를 들어, 통신 모듈(690)(예컨대, 무선 통신 모듈(692))에 의해 선택될 수 있다. 신호 또는 전력이 그 후 선택된 적어도 하나의 안테나를 통해 통신 모듈(690)과 외부 전자 디바이스 사이에서 송신되거나 또는 수신될 수 있다.

상기 설명된 구성요소들 중 적어도 일부는 상호 결합되며 주변장치-간 통신 기법(예컨대, 버스, 범용 입력 및 출력(GPIO), 직렬 주변 인터페이스(SPI), 또는 모바일 산업 프로세서 인터페이스(MIPI))을 통해 그 사이에서 신호들(예컨대, 명령들 또는 데이터)을 전달할 수 있다.

일 실시예에 따르면, 명령들 또는 데이터는 제 2 네트워크(699)와 결합된 서버(608)를 통해 전자 디바이스(601)와 외부 전자 디바이스(604) 사이에서 송신되거나 또는 수신될 수 있다. 전자 디바이스들(602 및 604)의 각각은 전자 디바이스(601)와 동일한 유형, 또는 그것과 상이한 유형의 디바이스일 수 있다. 전자 디바이스(601)에서 실행될 동작들의 모두 또는 일부는 외부 전자 디바이스들(602, 604, 또는 608) 중 하나 이상에서 실행될 수 있다. 예를 들어, 전자 디바이스(601)가 기능 또는 서비스를 자동으로 수행해야 한다면, 또는 사용자 또는 또 다른 디바이스로부터의 요청에 응답하여, 전자 디바이스(601)는, 기능 또는 서비스를 실행하는 대신에, 또는 그것 외에, 기능 또는 서비스의 적어도 일부를 수행하도록 하나 이상의 외부 전자 디바이스들에 요청할 수 있다. 요청을 수신한 하나 이상의 외부 전자 디바이스들은 요청된 기능 또는 서비스의 적어도 일부, 또는 요청에 관련된 부가적인 기능 또는 부가적인 서비스를 수행하며, 수행의 결과를 전자 디바이스(601)로 전달할 수 있다. 전자 디바이스(601)는 요청에 대한 대답의 적어도 일부로서, 결과의 추가 프로세싱을 갖거나 또는 그것 없이, 결과를 제공할 수 있다. 이를 위해, 예를 들어, 클라우드 컴퓨팅, 분산형 컴퓨팅, 또는 클라이언트-서버 컴퓨팅 기술이 사용될 수 있다.

일 실시예는 기계(예컨대, 전자 디바이스(601))에 의해 판독 가능한 저장 매체(예컨대, 내부 메모리(636) 또는 외부 메모리(638))에 저장되는 하나 이상의 지시들을 포함한 소프트웨어(예컨대, 프로그램(640))로서 구현될 수 있다. 예를 들어, 전자 디바이스(601)의 프로세서는 저장 매체에 저장된 하나 이상의 지시들 중 적어도 하나를 호출하며, 프로세서의 제어하에서 하나 이상의 다른 구성요소들을 사용하거나 또는 사용하지 않고, 그것을 실행할 수 있다. 따라서, 기계는 호출된 적어도 하나의 지시에 따라 적어도 하나의 기능을 수행하도록 동작될 수 있다. 하나 이상의 지시들은 컴파일러에 의해 생성된 코드 또는 인터프리터에 의해 실행 가능한 코드를 포함할 수 있다. 기계-판독 가능한 저장 매체는 비-일시적 저장 매체의 형태로 제공될 수 있다. 용어 "비-일시적"은 저장 매체는 유형의 디바이스이며, 신호(예컨대, 전자기파)를 포함하지 않음을 나타내지만, 이 용어는 데이터가 저장 매체에 반-영구적으로 저장되는지와 데이터가 저장 매체에 일시적으로 저장되는지를 구별하지 않는다.

일 실시예에 따르면, 본 개시의 방법은 컴퓨터 프로그램 제품에 포함되고 제공될 수 있다. 컴퓨터 프로그램 제품은 판매자와 구매자 간에 제품으로서 거래될 수 있다. 컴퓨터 프로그램 제품은 기계-판독 가능한 저장 매체(예컨대, 컴팩트 디스크 판독 전용 메모리(CD-ROM))의 형태로 배포되거나, 또는 애플리케이션 저장소(예컨대, Play Store™)을 통해 온라인으로, 또는 두 개의 사용자 디바이스들(예컨대, 스마트폰들) 사이에서 직접 배포될 수 있다(예컨대, 다운로드되거나 또는 업로드된다). 온라인으로 배포되면, 컴퓨터 프로그램 제품의 적어도 일부는 일시적으로 생성되거나 또는 제조사의 서버의 메모리, 애플리케이션 저장소의 서버, 또는 중계기 서버와 같은, 기계-판독 가능한 저장 매체에 적어도 일시적으로 저장될 수 있다.

일 실시예에 따르면, 상기 설명된 구성요소들의 각각의 구성요소(예컨대, 모듈 또는 프로그램)는 단일 엔티티 또는 다수의 엔티티들을 포함할 수 있다. 상기 설명된 구성요소들 중 하나 이상은 생략될 수 있거나, 또는 하나 이상의 다른 구성요소들이 부가될 수 있다. 대안적으로 또는 부가적으로, 복수의 구성요소들(예컨대, 모듈들 또는 프로그램들)은 단일 구성요소로 통합될 수 있다. 이 경우에, 통합된 구성요소는 그것이 통합 전에 복수의 구성요소들의 대응하는 것에 의해 수행되는 것과 동일한 또는 유사한 방식으로 복수의 구성요소들의 각각의 하나 이상의 기능들을 여전히 수행할 수 있다. 모듈, 프로그램, 또는 또 다른 구성요소에 의해 수행된 동작들은 순차적으로, 병렬로, 반복적으로, 또는 휴리스틱으로 실행될 수 있거나, 또는 동작들 중 하나 이상은 상이한 순서로 실행되거나 또는 생략될 수 있거나, 또는 하나 이상의 다른 동작들이 부가될 수 있다.

본 개시의 특정한 실시예들이 본 개시의 상세한 설명에서 설명되었지만, 본 개시는 본 개시의 범위로부터 벗어나지 않고 다양한 형태들로 수정될 수 있다. 따라서, 본 개시의 범위는 단지 설명된 실시예들에 기초하여 결정되지 않으며, 오히려 첨부된 청구항들 및 그것의 등가물들에 기초하여 결정된다.

Claims

비지도식 이미지 분할화(unsupervised image segmentation)에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델(feature extraction model)을 트레이닝하는 방법에 있어서,
이미지로부터 클러스터링 손실(
)을 결정하는 단계;
상기 클러스터링 손실에 기초한 클러스터 의사 라벨들을 사용하여 상기 이미지의 약 지도식 대조 손실(weakly superivised contrastive loss)(
)을 결정하는 단계; 및
상기 클러스터링 손실 및 상기 약 지도식 대조 손실에 기초하여 상기 손실 함수(
)을 결정하는 단계를 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제1항에 있어서,
상기 이미지의 박스 샘플 손실(
)을 결정하는 단계를 더 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제2항에 있어서,
상기 클러스터링 손실, 상기 약 지도식 대조 손실, 및 상기 박스 샘플 손실에 추가로 기초하여 상기 손실 함수를 결정하는 단계를 더 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제3항에 있어서,
상기 손실 함수는:

를 사용하여 결정되며,
상기
은 상기 약 지도식 대조 손실에 대한 스케일이며
는 상기 박스 샘플 손실에 대한 스케일인, 특징 추출 모델을 트레이닝하는 방법.
제2항에 있어서,
상기 이미지의 박스 샘플 손실을 결정하는 단계는,
상기 이미지의 특징 맵으로부터 랜덤 사이징된 박스들을 추출하는 단계;
상기 추출된 박스들의 각각에 대한 평균 풀링을 수행하는 단계; 및
상기 각각의 박스에서의 다수의 라벨들에 기초하여 동일한 라벨로 각각의 박스의 평균-풀링 특징들에서의 모든 특징 벡터들을 지정하는 단계를 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제2항에 있어서,
상기 이미지의 박스 샘플 손실을 결정하는 단계는,

을 사용하여 수행되며,
상기
, 여기에서 |y_i|는 샘플링된 박스에서 y_i의 수이고,
는 샘플링된 박스에서 모든 픽셀들의 평균 정보를 나타내고, d는 거리 메트릭이며, |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하는 방법.
제1항에 있어서,
상기 이미지의 약 지도식 대조 손실을 결정하는 단계는:,

을 사용하여 수행되며,
d는 거리 메트릭이고 |Z(i)}는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하는 방법.
비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위한 장치에 있어서,
프로세서; 및
지시들(instructions)을 저장하도록 구성된 메모리로서, 상기 지시들은 실행될 때:
이미지로부터 클러스터링 손실(
)을 결정하고,
상기 클러스터링 손실에 기초한 클러스터 의사 라벨들을 사용하여 상기 이미지의 약 지도식 대조 손실(
)을 결정하며,
상기 클러스터링 손실 및 상기 약 지도식 대조 손실에 기초하여 상기 손실 함수(
)를 결정하도록 상기 프로세서를 제어하는, 메모리를 포함하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제8항에 있어서,
상기 지시들은 상기 이미지의 박스 샘플 손실(
)을 결정하도록 상기 프로세서를 더 제어하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제9항에 있어서,
상기 지시들은 상기 클러스터링 손실, 상기 약 지도식 대조 손실, 및 상기 박스 샘플 손실에 추가로 기초하여 상기 손실 함수를 결정하도록 상기 프로세서를 더 제어하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제10항에 있어서,
상기 지시들은 또한:

을 사용하여 상기 손실 함수를 결정하도록 상기 프로세서를 제어하며,
상기
은 상기 약 지도식 대조 손실에 대한 스케일이며
는 상기 박스 샘플 손실에 대한 스케일인, 특징 추출 모델을 트레이닝하기 위한 장치.
제9항에 있어서,
상기 지시들은 또한:
상기 이미지의 특징 맵으로부터 랜덤 사이징된 박스들을 추출하는 것;
상기 추출된 박스들의 각각에 대한 평균 풀링을 수행하는 것; 및
상기 각각의 박스에서 다수의 라벨링들에 기초하여 동일한 라벨로 각각의 박스의 평균-풀링 특징들에서의 모든 특징 벡터들을 지정하는 것에 의해 상기 이미지의 박스 샘플 손실을 결정하도록 상기 프로세서를 제어하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제9항에 있어서,
상기 지시들은 또한:

을 사용하여 상기 이미지의 박스 샘플 손실을 결정하도록 상기 프로세서를 제어하며,
상기
, 상기 |y_i|는 샘플링된 박스에서 y_i의 수이고,
는 상기 샘플링된 박스에서 모든 픽셀들의 평균 정보를 나타내고, d는 거리 메트릭이며, |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하기 위한 장치.
제8항에 있어서,
상기 지시들은 또한:

을 사용하여 상기 이미지의 약 지도식 대조 손실을 결정하도록 상기 프로세서를 제어하며,
d는 거리 메트릭이고 |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하기 위한 장치.
비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하는 방법에 있어서,
이미지로부터 클러스터링 손실(
)을 결정하는 단계;
상기 이미지의 박스 샘플 손실(
)을 결정하는 단계; 및
상기 클러스터링 손실 및 상기 박스 샘플 손실에 기초하여 상기 손실 함수(
)를 결정하는 단계를 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제15항에 있어서,
상기 이미지의 박스 샘플 손실을 결정하는 단계는,
상기 이미지의 특징 맵으로부터 랜덤 사이징된 박스들을 추출하는 단계;
상기 추출된 박스들의 각각에 대한 평균 풀링을 수행하는 단계; 및
상기 각각의 박스에서 다수의 라벨들에 기초하여 동일한 라벨로 각각의 박스의 평균-풀링 특징들에서의 모든 특징 벡터들을 지정하는 단계를 포함하는, 특징 추출 모델을 트레이닝하는 방법.
제15항에 있어서,
상기 이미지의 박스 샘플 손실을 결정하는 단계는:

을 사용하여 수행되며,
상기
, 상기 |y_i|는 샘플링된 박스에서 y_i의 수이고,
는 상기 샘플링된 박스에서 모든 픽셀들의 평균 정보를 나타내고, d는 거리 메트릭이며, |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하는 방법.
비지도식 이미지 분할화에서의 사용을 위한 손실 함수를 결정함으로써 특징 추출 모델을 트레이닝하기 위한 장치에 있어서,
프로세서; 및
지시들을 저장하도록 구성된 메모리로서, 상기 지시들은, 실행될 때:
이미지로부터 클러스터링 손실(
)을 결정하고,
상기 이미지의 박스 샘플 손실(
)을 결정하며,
상기 클러스터링 손실 및 상기 박스 샘플 손실에 기초하여 상기 손실 함수(
)를 결정하도록 상기 프로세서를 제어하는, 메모리를 포함하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제18항에 있어서,
상기 지시들은 또한:
상기 이미지의 특징 맵으로부터 랜덤 사이징된 박스들을 추출하는 것;
상기 추출된 박스들의 각각에 대한 평균 풀링을 수행하는 것; 및
상기 각각의 박스에서 다수의 라벨들에 기초하여 동일한 라벨로 각각의 박스의 평균-풀링 특징들에서의 모든 특징 벡터들을 지정하는 것에 의해 상기 이미지의 박스 샘플 손실을 결정하도록 상기 프로세서를 제어하는, 특징 추출 모델을 트레이닝하기 위한 장치.
제18항에 있어서,
상기 지시들은 또한:

을 사용하여 상기 이미지의 박스 샘플 손실을 결정하도록 상기 프로세서를 제어하며,
상기
, 상기 |y_i|는 샘플링된 박스에서 y_i의 수이고,
는 상기 샘플링된 박스에서 모든 픽셀들의 평균 정보를 나타내고, d는 거리 메트릭이며, |Z(i)|는 동일한 클래스 라벨(i)을 가진 특징들의 수인, 특징 추출 모델을 트레이닝하기 위한 장치.