KR20220049754A

KR20220049754A - 영상 분류 모델 학습 장치 및 방법

Info

Publication number: KR20220049754A
Application number: KR1020200133244A
Authority: KR
Inventors: 이준호
Original assignee: 삼성에스디에스 주식회사
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-04-22
Also published as: US20220121883A1; US11727088B2

Abstract

영상 분류 모델 학습 장치 및 방법이 개시된다. 일 실시예에 따른 영상 분류 모델 학습 장치는, 1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시키는 제1 학습부; 상기 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 상기 모델 바디, 상기 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시키는 제2 학습부; 및 상기 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시키는 제3 학습부를 포함한다.

Description

영상 분류 모델 학습 장치 및 방법{APPARATUS AND METHOD FOR TRAINING IMAGE CLASSIFICATION MODEL}

개시되는 실시예들은 영상 분류 모델을 학습시키는 기술과 관련된다.

종래의 딥 러닝(Deep learning)을 이용한 영상 분류 모델은 사람을 능가하는 영상 분류 성능을 발휘하여, 다방면의 산업에서 광범위하게 이용되어 왔다.

다만, 이러한 영상 분류 모델은 영상에 담긴 사물이 어떠한 종류인지 파악하는 정도의 거친(coarse-grained) 분류에 국한되어 그 성능을 발휘해 왔으며, 동물의 종, 식물의 품종, 특정 위치의 질병 종류 등 세부적인 차이만으로 분류되어야 하는 세밀한(fine-grained) 분류에서는 학습 영상 데이터의 부족으로 인해 고성능을 확보하기 쉽지 않은 실정이다.

뿐만 아니라, 영상 분류 모델이 영상 내 여러 특징을 추출하기 위해서는 영상의 여러 부분에 대해 다중 라벨링이 수행된 학습 영상 데이터가 필요한데, 단일 라벨링된 영상 데이터에 비해 다중 라벨링된 영상 데이터의 수가 현저히 적은 관계로 영상 분류 모델의 복수 특징 추출에 대한 성능 향상도 기대하기 어렵다는 문제가 있다.

대한민국 공개특허공보 제10-2020-0052411호(2020.05.15. 공개)

개시되는 실시예들은 영상 분류 모델의 학습을 위한 수단을 제공하기 위한 것이다.

개시되는 일 실시예에 따른 영상 분류 모델 학습 방법은, 하나 이상의 프로세서들, 및 상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시키는 제1 학습 단계; 상기 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 상기 모델 바디, 상기 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시키는 제2 학습 단계; 및 상기 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시키는 제3 학습 단계를 포함하고, 상기 모델 바디는, 입력된 데이터에 대한 특징 벡터를 추출하고, 상기 제1 헤드, 제2 헤드 및 제3 헤드는 각각 상기 특징 벡터에 기초한 분류 결과를 생성한다.

상기 1형 라벨링은, 상기 레이블드 데이터 셋에 포함된 영상 데이터가 단일 레이블을 갖는 경우, 상기 단일 레이블을 갖는 영상 데이터를 상기 단일 레이블에 대응되는 클래스로 분류할 수 있고, 상기 레이블드 데이터 셋에 포함된 영상 데이터가 다중 레이블을 갖는 경우, 상기 다중 레이블을 갖는 영상 데이터를 상기 다중 레이블 자체에 대응되는 신규 클래스로 분류할 수 있다.

상기 제2 학습 단계는, 상기 레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시킬 수 있고, 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습(Self-supervised learning)시킬 수 있다.

상기 제2 학습 단계는, 사용자로부터 획득된 하나 이상의 하이퍼 파라미터(hyper parameter)에 대한 변경 사항을 반영하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시킬 수 있다.

상기 제2 학습 단계는, 상기 레이블드 데이터 셋에 포함된 영상 데이터로부터 변형된 파생 데이터에 기초하여 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습시킬 수 있다.

상기 제2 학습 단계는, 상기 언레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 비지도 학습(Unsupervised learning)시킬 수 있다.

상기 2형 라벨링은, 상기 레이블드 데이터 셋에 포함된 영상 데이터 각각이 특정 클래스에 해당되는 레이블을 갖는지 여부에 따라 상기 레이블드 데이터 셋에 포함된 영상 데이터 각각을 이진(binary) 분류할 수 있다.

상기 제3 학습 단계는, 상기 2형 라벨링에 따라 복수의 클래스로 분류된 상기 레이블드 데이터 셋에 기초하여, 상기 복수의 클래스 각각과 대응되는 상기 복수의 제3 헤드 각각을 지도 학습시킬 수 있다.

개시되는 일 실시예에 따른 영상 분류 모델 학습 장치는, 1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시키는 제1 학습부; 상기 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 상기 모델 바디, 상기 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시키는 제2 학습부; 및 상기 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시키는 제3 학습부를 포함하고, 상기 모델 바디는, 입력된 데이터에 대한 특징 벡터를 추출하고, 상기 제1 헤드, 제2 헤드 및 제3 헤드는 각각 상기 특징 벡터에 기초한 분류 결과를 생성한다.

상기 제2 학습부는, 상기 레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시키고, 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습(Self-supervised learning)시킬 수 있다.

상기 제2 학습부는, 사용자로부터 획득된 하나 이상의 하이퍼 파라미터(hyper parameter)에 대한 변경 사항을 반영하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시킬 수 있다.

상기 제2 학습부는, 상기 레이블드 데이터 셋에 포함된 영상 데이터로부터 변형된 파생 데이터에 기초하여 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습시킬 수 있다.

상기 제2 학습부는, 상기 언레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 비지도 학습(Unsupervised learning)시킬 수 있다.

상기 제3 학습부는, 상기 2형 라벨링에 따라 복수의 클래스로 분류된 상기 레이블드 데이터 셋에 기초하여, 상기 복수의 클래스 각각과 대응되는 상기 복수의 제3 헤드 각각을 지도 학습시킬 수 있다.

개시되는 실시예들에 따르면, 영상 데이터의 레이블을 여러 유형으로 변환하여 영상 분류 모델을 학습시킴으로써, 영상 분류 모델이 세밀한(fine-grained) 영상 분류에 필요한 미세 특성을 보다 효과적으로 학습하도록 할 수 있다.

또한 개시되는 실시예들에 따르면, 모델 바디를 공유하면서 여러 모델 헤드를 병렬적으로 구축함으로써, 영상 분류 모델의 전체 구조를 경량화하여 학습에 소요되는 시간 및 리소스 양을 경감시킬 수 있다.

도 1은 일 실시예에 따른 영상 분류 모델 학습 장치를 설명하기 위한 블록도
도 2는 일 실시예에 따른 제1 학습 단계를 설명하기 위한 블록도
도 3은 일 실시예에 따른 제2 학습 단계를 설명하기 위한 블록도
도 4는 일 실시예에 따른 제3 학습 단계를 설명하기 위한 블록도
도 5는 일 실시예에 따른 영상 분류 모델 학습 방법을 설명하기 위한 흐름도
도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도

이하, 도면을 참조하여 구체적인 실시형태를 설명하기로 한다. 이하의 상세한 설명은 본 명세서에서 기술된 방법, 장치 및/또는 시스템에 대한 포괄적인 이해를 돕기 위해 제공된다. 그러나 이는 예시에 불과하며 개시되는 실시예들은 이에 제한되지 않는다.

실시예들을 설명함에 있어서, 관련된 공지기술에 대한 구체적인 설명이 개시되는 실시예들의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략하기로 한다. 그리고, 후술되는 용어들은 개시되는 실시예들에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다. 상세한 설명에서 사용되는 용어는 단지 실시예들을 기술하기 위한 것이며, 결코 제한적이어서는 안 된다. 명확하게 달리 사용되지 않는 한, 단수 형태의 표현은 복수 형태의 의미를 포함한다. 본 설명에서, "포함" 또는 "구비"와 같은 표현은 어떤 특성들, 숫자들, 단계들, 동작들, 요소들, 이들의 일부 또는 조합을 가리키기 위한 것이며, 기술된 것 이외에 하나 또는 그 이상의 다른 특성, 숫자, 단계, 동작, 요소, 이들의 일부 또는 조합의 존재 또는 가능성을 배제하도록 해석되어서는 안 된다.

도 1은 일 실시예에 따른 영상 분류 모델 학습 장치(100)를 설명하기 위한 블록도이다.

도시된 바와 같이, 일 실시예에 따른 영상 분류 모델 학습 장치(100)는 제1 학습부(110), 제2 학습부(120) 및 제3 학습부(130)를 포함한다.

이하의 실시예들에서, 설명의 편의를 위해 제1 학습부(110)에 의해 수행되는 학습 과정을 '제1 학습 단계'로, 제2 학습부(120)에 의해 수행되는 학습 과정을 '제2 학습 단계'로, 제3 학습부(130)에 의해 수행되는 학습 과정을 '제3 학습 단계'로 지칭한다.

제1 학습부(110)는 1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시킨다.

이하의 실시예들에서, '모델 바디'는 입력된 데이터에 대한 특징 벡터를 추출하는 네트워크 구조를 의미할 수 있다.

또한 이하의 실시예들에서, '모델 헤드'는 모델 바디에서 추출된 특징 벡터에 기초한 분류 결과를 생성하는 네트워크 구조를 통칭할 수 있으며, 각 학습 단계를 구성하는 모델 헤드마다 '제1 헤드', '제2 헤드, '제3 헤드' 등으로 구분하여 지칭될 수 있다.

일 실시예에 따르면, 1형 라벨링은 레이블드 데이터 셋에 포함된 영상 데이터가 단일 레이블을 갖는 경우, 단일 레이블을 갖는 영상 데이터를 단일 레이블에 대응되는 클래스로 분류할 수 있다.

한편 일 실시예에 따르면, 1형 라벨링은 레이블드 데이터 셋에 포함된 영상 데이터가 다중 레이블을 갖는 경우, 다중 레이블을 갖는 영상 데이터를 다중 레이블 자체에 대응되는 신규 클래스로 분류할 수 있다.

예를 들어, 레이블드 데이터 셋에 포함된 영상 데이터가 레이블 A, 레이블 B, 레이블 C를 이용한 모든 조합으로 라벨링이 가능한 경우, 영상 데이터 각각은 단일 레이블로는 A, B 또는 C를 가질 수 있으며, 다중 레이블로는 A+B, B+C, A+C 또는 A+B+C를 가질 수 있다. 이 경우, 1형 라벨링에 따르면 영상 데이터 각각은 A, B, C 각각에 대응되는 클래스는 물론, A+B, B+C, A+C, A+B+C 각각에 대응되는 신규 클래스로 분류될 수 있다.

구체적으로, 1형 라벨링은 확장된 단일 레이블(ESL; Extended Single Label)에 기초하여 다중 레이블을 갖는 영상 데이터를 분류할 수 있다.

일 실시예에 따르면, 제1 학습부(110)는 동일한 영상 데이터에 있어서, 1형 라벨링에 의해 생성된 레이블과 제1 헤드에서 출력된 분류 결과 사이의 차이에 기초하여 손실 함수 값을 산출할 수 있다.

이후, 제1 학습부(110)는 산출된 손실 함수 값에 기초하여 모델 바디 및 제1 헤드 각각의 학습 파라미터를 갱신할 수 있다. 이때, 학습 파라미터는 예를 들어, 모델 바디 또는 제1 헤드 각각의 네트워크 구조에 포함된 레이어에 적용되는 가중치(weight) 또는 바이어스(bias)일 수 있다.

한편 일 실시예에 따르면, 제1 학습부(110)는 크로스 엔트로피(Cross Entropy) 함수를 손실 함수로서 사용하여 상술한 손실 함수 값을 산출할 수 있다.

제2 학습부(120)는 1형 라벨링된 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 모델 바디, 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시킨다.

이하의 실시예들에서, '언레이블드 데이터 셋'은 라벨링이 되지 않은 데이터들로 이루어진 데이터 셋을 의미한다. 구체적으로, 실시예에 따라서는, 언레이블드 데이터 셋은 함께 학습에 사용되는 레이블드 데이터 셋과 동일 또는 유사한 도메인(Domain)에 속하는 것으로 추정되는 데이터들로 구성되어, 영상 분류 모델의 학습 효과를 제고할 수 있다.

또한 이하의 실시예들에서, '다중 작업 학습'은 지도 학습, 비지도 학습(Unsupervised learning) 등 여러 종류의 학습을 복합적으로 적용하여 영상 분류 모델을 학습시키는 것을 의미한다.

일 실시예에 따르면, 제2 학습부(120)는 1형 라벨링된 레이블드 데이터 셋에 기초하여 모델 바디 및 제1 헤드를 다시 지도 학습시킬 수 있다.

구체적으로, 제2 학습부(120)는 사용자로부터 획득된 하나 이상의 하이퍼 파라미터(hyper parameter)에 대한 변경 사항을 반영하여 모델 바디 및 제1 헤드를 다시 지도 학습시킬 수 있다.

보다 상세하게, '하이퍼 파라미터'는 영상 분류 모델의 학습을 위해 사용자에 의해 기 설정되는 변수의 값을 의미하며, 예를 들어, 학습률(Learning rate), 에포크 수(Epoch number), 배치 수(Batch number) 등이 포함될 수 있다.

예컨대, 제2 학습부(120)는 제1 학습 단계에서 적용된 학습률과 다른 학습률을 적용하여 모델 바디 및 제1 헤드를 지도 학습시킬 수 있다.

한편 일 실시예에 따르면, 제2 학습부(120)는 1형 라벨링된 레이블드 데이터 셋에 기초하여 모델 바디 및 제2 헤드를 자기 지도 학습(Self-supervised learning)시킬 수 있다.

이하의 실시예들에서, '자기 지도 학습'은 사람이 만든 레이블을 사용하지 않고 특정한 알고리즘에 의해 자체적으로 생성된 레이블을 이용하여 수행되는 지도 학습을 의미한다. 이를 통해, 학습을 위한 데이터를 입력하는 것 이외에 사람의 개입 없이 지도 학습을 수행할 수 있다.

구체적으로, 제2 학습부(120)는 1형 라벨링된 레이블드 데이터 셋에 포함된 영상 데이터로부터 변형된 파생 데이터에 기초하여 모델 바디 및 제2 헤드를 자기 지도 학습시킬 수 있다.

보다 상세하게, 파생 데이터는 영상 데이터에 기 정의된 변환 함수를 적용함으로써 생성될 수 있다. 예를 들어, 파생 데이터는 영상 데이터에 플립(Flip) 함수를 적용하여 영상 데이터를 상-하 또는 좌-우 방향으로 뒤집음으로써 생성될 수도 있으며, 회전(Rotate) 함수를 적용하여 영상 데이터를 90도, 180도, 270도 등으로 회전시킴으로써 생성될 수도 있다.

이 경우, 파생 데이터는 적용된 변환 함수의 종류 및 변환 강도를 고려하여 복수의 클래스로 분류될 수 있고, 각 클래스에 대응되는 자가 레이블(self-label)을 가질 수 있다.

또한 일 실시예에 따르면, 자기 지도 학습 방법은 레이블 없는 데이터를 대상으로도 적용될 수 있기 때문에, 제2 학습부(120)는 언레이블드 데이터 셋에 추가로 기초하여 모델 바디 및 제2 헤드를 자기 지도 학습시킬 수도 있다.

한편 일 실시예에 따르면, 제2 학습부(120)는 언레이블드 데이터 셋에 기초하여 모델 바디 및 제1 헤드를 비지도 학습시킬 수 있다.

구체적으로, 제2 학습부(120)는 언레이블드 데이터 셋을 학습 데이터로 하되, 일관성 규칙화(CR; Consistency Regularization)에 기초하여 모델 바디 및 제1 헤드를 비지도 학습시킬 수 있다.

이하의 실시예들에서, '일관성 규칙화'는 레이블드 데이터 셋으로 기 학습된 모델이 레이블 없는 데이터를 분류한 결과를 정답(GT; Ground Truth)이라 가정한 후, 상기 레이블 없는 데이터에 노이즈(섭동, perturbation)를 입힌 가공 데이터가 동일한 모델에 의해 분류될 경우 상기 정답과 동일하게 분류되도록 모델을 학습시키는 방법을 의미한다.

이에 따르면, 제2 학습부(120)는 언레이블드 데이터 셋에 포함된 영상 데이터가 모델 바디에 입력되어 제1 헤드에 의해 분류된 결과를 정답으로 가정하고, 입력된 영상 데이터에 노이즈를 입힌 가공 데이터가 다시 모델 바디에 입력되어 제1 헤드에 의해 분류된 결과를 위 정답과 비교하여, 둘 사이의 차이에 기초하여 손실 함수 값을 산출할 수 있다.

이후, 제2 학습부(120)는 산출된 손실 함수 값에 기초하여 모델 바디 및 제1 헤드 각각의 학습 파라미터를 갱신할 수 있다. 이때, 학습 파라미터는 예를 들어, 모델 바디 또는 제1 헤드 각각의 네트워크 구조에 포함된 레이어에 적용되는 가중치 또는 바이어스일 수 있다.

한편 일 실시예에 따르면, 제2 학습부(120)는 가상 적대 학습(VAT; Virtual Adversarial Training)에 따른 VAT 손실 함수 또는 엔트로피 최소화(EntMin; Entropy Minimization)에 따른 EntMin 손실 함수를 사용하여 상술한 손실 함수 값을 산출할 수 있다.

즉 다시 말하면, 제2 학습부(120)는 지도 학습 및 비지도 학습에 의해 산출된 손실 함수 각각에 기초하여 제1 헤드를 학습시킬 수 있으며, 자기 지도 학습에 의해 산출된 손실 함수에 기초하여 제2 헤드를 학습시킬 수 있다.

아울러, 제2 학습부(120)는 지도 학습, 자기 지도 학습, 비지도 학습에 의해 산출된 손실 함수 각각을 가중합(weighted sum)한 전체 손실 함수에 기초하여 모델 바디를 학습시킬 수 있다.

이 경우, 일 실시예에 따르면, 자기 지도 학습에 의해 산출된 손실 함수에 적용되는 스케일링 계수(scaling coefficient)는 0.1, 비지도 학습에 의해 산출된 손실 함수에 적용되는 스케일링 계수는 0.5로 설정될 수 있으나, 반드시 이에 한정되는 것은 아니며, 학습에 사용되는 데이터 및 하이퍼 파라미터의 설정 값 등에 따라 최적의 학습을 위한 스케일링 계수가 달라질 수 있음은 자명하다.

제3 학습부(130)는 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시킨다.

일 실시예에 따르면, 2형 라벨링은 레이블드 데이터 셋에 포함된 영상 데이터 각각이 특정 클래스에 해당되는 레이블을 갖는지 여부에 따라 레이블드 데이터 셋에 포함된 영상 데이터 각각을 이진(binary) 분류할 수 있다.

예를 들어, 영상 데이터에 포함된 레이블이 클래스 A, 클래스 B, 클래스 C 중 어느 하나로 분류될 수 있는 경우, 2형 라벨링에 따르면 A, B, C 중 어느 하나가 기준이 되는 특정 클래스로 설정되고, 영상 데이터 각각이 특정 클래스에 해당되는 레이블을 갖는 데이터와 갖지 않는 데이터로 분류될 수 있다.

일 실시예에 따르면, 2형 라벨링은 일대다 레이블(OVR label; One Versus Rest label)에 기초하여 레이블드 데이터 셋에 포함된 영상 데이터를 분류할 수 있다.

일 실시예에 따르면, 제3 학습부(130)는 2형 라벨링에 따라 복수의 클래스로 분류된 레이블드 데이터 셋에 기초하여, 복수의 클래스 각각과 대응되는 복수의 제3 헤드 각각을 지도 학습시킬 수 있다.

예를 들어, 제3 학습부(130)는 클래스 A에 해당되는 레이블을 갖는 데이터와 갖지 않는 데이터로 분류된 레이블드 데이터 셋에 기초하여, 클래스 A에 대응되는 제3 헤드를 지도 학습시킬 수 있다.

다른 예로써, 제3 학습부(130)는 클래스 B에 해당되는 레이블을 갖는 데이터와 갖지 않는 데이터로 분류된 레이블드 데이터 셋에 기초하여, 클래스 B에 대응되는 제3 헤드를 지도 학습시킬 수 있다.

즉 이에 따르면, 제3 헤드의 개수는 2형 라벨링된 레이블드 데이터 셋이 갖는 클래스의 수와 동일할 수 있으며, 제3 헤드 각각은 레이블드 데이터 셋에 포함된 영상 데이터 각각이 특정 클래스에 해당하는 레이블을 갖고 있는지를 판단하는 역할을 수행한다고 할 수 있다.

일 실시예에 따르면, 제3 학습부(130)는 동일한 영상 데이터에 있어서, 2형 라벨링에 의해 생성된 레이블과 제3 헤드 각각에서 출력된 분류 결과 사이의 차이에 기초하여 손실 함수 값을 산출할 수 있다.

이후, 제3 학습부(130)는 산출된 손실 함수 값에 기초하여 제3 헤드 각각의 학습 파라미터를 갱신할 수 있다. 이때, 학습 파라미터는 예를 들어, 제3 헤드 각각의 네트워크 구조에 포함된 레이어에 적용되는 가중치 또는 바이어스일 수 있다.

도시된 실시예에서, 각 구성들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 구성을 포함할 수 있다.

또한, 일 실시예에서, 제1 학습부(110), 제2 학습부(120) 및 제3 학습부(130)는 물리적으로 구분된 하나 이상의 장치를 이용하여 구현되거나, 하나 이상의 프로세서 또는 하나 이상의 프로세서 및 소프트웨어의 결합에 의해 구현될 수 있으며, 도시된 예와 달리 구체적 동작에 있어 명확히 구분되지 않을 수 있다.

도 2는 일 실시예에 따른 제1 학습 단계를 설명하기 위한 블록도(200)이다.

도 2를 참조하면, 먼저 1형 라벨링된 레이블드 데이터 셋(210)에 포함된 영상 데이터 중 적어도 일부가 모델 바디(220)에 입력된다.

이후, 모델 바디(220)는 입력된 영상 데이터의 특징을 추출한 특징 벡터를 생성하고, 생성된 특징 벡터는 제1 헤드(230)에 입력된다.

이후, 제1 헤드(230)는 입력된 특징 벡터에 기초하여 영상 데이터를 분류한다.

이후, 제1 학습부(110)는 분류 결과와 1형 라벨링에 의해 기 생성된 레이블에 기초하여 손실 함수 값을 산출하고, 모델 바디(220) 및 제1 헤드(230)를 지도 학습시킨다.

도 3은 일 실시예에 따른 제2 학습 단계를 설명하기 위한 블록도(300)이다.

도 3을 참조하면, 먼저 1형 라벨링된 레이블드 데이터 셋(210)에 포함된 영상 데이터 중 적어도 일부와, 영상 데이터로부터 생성된 파생 데이터가 모델 바디(220)에 입력된다.

이후, 모델 바디(220)는 입력된 영상 데이터 및 파생 데이터 각각의 특징을 추출한 특징 벡터를 생성하고, 생성된 특징 벡터는 제1 헤드(230)에 입력된다.

이후, 제1 헤드(230)는 입력된 특징 벡터에 기초하여 영상 데이터 및 파생 데이터 각각을 분류한다.

이후, 제2 학습부(120)는 분류 결과와 1형 라벨링에 의해 기 생성된 레이블에 기초하여 지도 학습을 위한 손실 함수 값을 산출하고, 모델 바디(220) 및 제1 헤드(230)를 지도 학습시키고, 분류 결과와 파생 데이터 생성 과정에서 자체적으로 생성된 레이블에 기초하여 자기 지도 학습을 위한 손실 함수 값을 산출하고, 모델 바디(220) 및 제1 헤드(230)를 지도 학습시킨다.

한편, 언레이블드 데이터 셋(310)에 포함된 영상 데이터 중 적어도 일부가 모델 바디(220)에 입력된다.

이후, 모델 바디(220)는 입력된 영상 데이터 각각의 특징을 추출한 특징 벡터를 생성하고, 생성된 특징 벡터는 제2 헤드(320)에 입력된다.

이후, 제2 헤드(320)는 입력된 특징 벡터에 기초하여 영상 데이터 각각을 분류한다.

이후, 제2 학습부(120)는 비지도 학습을 위한 손실 함수 값을 산출하고, 모델 바디(220) 및 제2 헤드(320)를 지도 학습시킨다.

도 4는 일 실시예에 따른 제3 학습 단계를 설명하기 위한 블록도(400)이다.

도 4를 참조하면, 먼저 2형 라벨링된 레이블드 데이터 셋(410)에 포함된 영상 데이터 중 적어도 일부가 모델 바디(220)에 입력된다.

이후, 모델 바디(220)는 입력된 영상 데이터의 특징을 추출한 특징 벡터를 생성하고, 생성된 특징 벡터는 제3 헤드(420)에 입력된다. 이때, 도 4에서는 하나의 영상 데이터에 대한 특징 벡터가 동시에 제3 헤드 각각(420-1, 420-2, ??, 420-N)에 입력되는 것처럼 도시되어 있으나, 이는 표현을 단순히 하기 위함이며, 실제로는 특정 클래스를 기준으로 분류된 영상 데이터의 특징을 추출한 특징 벡터는 제3 헤드(420) 중 어느 하나에만 입력됨에 유의해야 한다.

이후, 제3 헤드 각각(420-1, 420-2, ??, 420-N)은 입력된 특징 벡터에 기초하여 영상 데이터를 분류한다.

이후, 제3 학습부(130)는 분류 결과와 2형 라벨링에 의해 기 생성된 레이블에 기초하여 손실 함수 값을 산출하고, 모델 바디(220) 및 제3 헤드 각각(420-1, 420-2, ??, 420-N)을 지도 학습시킨다.

도 5는 일 실시예에 따른 영상 분류 모델 학습 방법을 설명하기 위한 흐름도이다. 도 5에 도시된 방법은 예를 들어, 상술한 영상 분류 모델 학습 장치(100)에 의해 수행될 수 있다.

우선, 영상 분류 모델 학습 장치(100)는 1형 라벨링된 레이블드 데이터 셋에 기초하여 모델 바디 및 제1 헤드를 지도 학습시킨다(510).

이후, 영상 분류 모델 학습 장치(100)는 1형 레이블드 데이터 셋 및 언레이블드 데이터 셋에 기초하여 모델 바디, 제1 헤드 및 제2 헤드를 다중 작업 학습시킨다(520).

이후, 영상 분류 모델 학습 장치(100)는 모델 바디를 동결한 채로 2형 라벨링된 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시킨다(530).

도시된 흐름도에서는 상기 방법을 복수 개의 단계로 나누어 기재하였으나, 적어도 일부의 단계들은 순서를 바꾸어 수행되거나, 다른 단계와 결합되어 함께 수행되거나, 생략되거나, 세부 단계들로 나뉘어 수행되거나, 또는 도시되지 않은 하나 이상의 단계가 부가되어 수행될 수 있다.

도 6은 일 실시예에 따른 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.

도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 영상 분류 모델 학습 장치(100)일 수 있다.

컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.

컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.

통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.

컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.

한편, 본 발명의 실시예는 본 명세서에서 기술한 방법들을 컴퓨터상에서 수행하기 위한 프로그램, 및 상기 프로그램을 포함하는 컴퓨터 판독 가능 기록매체를 포함할 수 있다. 상기 컴퓨터 판독 가능 기록매체는 프로그램 명령, 로컬 데이터 파일, 로컬 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체는 본 발명을 위하여 특별히 설계되고 구성된 것들이거나, 또는 컴퓨터 소프트웨어 분야에서 통상적으로 사용 가능한 것일 수 있다. 컴퓨터 판독 가능 기록매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CD-ROM, DVD와 같은 광 기록 매체, 및 롬, 램, 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 상기 프로그램의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함할 수 있다.

이상에서 본 발명의 대표적인 실시예들을 상세하게 설명하였으나, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 상술한 실시예에 대하여 본 발명의 범주에서 벗어나지 않는 한도 내에서 다양한 변형이 가능함을 이해할 것이다. 그러므로 본 발명의 권리범위는 설명된 실시예에 국한되어 정해져서는 안 되며, 후술하는 청구범위뿐만 아니라 이 청구범위와 균등한 것들에 의해 정해져야 한다.

10: 컴퓨팅 환경
12: 컴퓨팅 장치
14: 프로세서
16: 컴퓨터 판독 가능 저장 매체
18: 통신 버스
20: 프로그램
22: 입출력 인터페이스
24: 입출력 장치
26: 네트워크 통신 인터페이스
100: 영상 분류 모델 학습 장치
110: 제1 학습부
120: 제2 학습부
130: 제3 학습부
210: 1형 라벨링된 레이블드 데이터 셋
220: 모델 바디
230: 제1 헤드
310: 언레이블드 데이터 셋
320: 제2 헤드
410: 2형 라벨링된 레이블드 데이터 셋
420: 제3 헤드

Claims

하나 이상의 프로세서들, 및
상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서,
1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시키는 제1 학습 단계;
상기 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 상기 모델 바디, 상기 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시키는 제2 학습 단계; 및
상기 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시키는 제3 학습 단계를 포함하고,
상기 모델 바디는, 입력된 데이터에 대한 특징 벡터를 추출하고,
상기 제1 헤드, 제2 헤드 및 제3 헤드는 각각 상기 특징 벡터에 기초한 분류 결과를 생성하는, 영상 분류 모델 학습 방법.
청구항 1항에 있어서,
상기 1형 라벨링은,
상기 레이블드 데이터 셋에 포함된 영상 데이터가 단일 레이블을 갖는 경우, 상기 단일 레이블을 갖는 영상 데이터를 상기 단일 레이블에 대응되는 클래스로 분류하고,
상기 레이블드 데이터 셋에 포함된 영상 데이터가 다중 레이블을 갖는 경우, 상기 다중 레이블을 갖는 영상 데이터를 상기 다중 레이블 자체에 대응되는 신규 클래스로 분류하는, 영상 분류 모델 학습 방법.
청구항 1항에 있어서,
상기 제2 학습 단계는,
상기 레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시키고, 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습(Self-supervised learning)시키는, 영상 분류 모델 학습 방법.
청구항 3항에 있어서,
상기 제2 학습 단계는,
사용자로부터 획득된 하나 이상의 하이퍼 파라미터(hyper parameter)에 대한 변경 사항을 반영하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시키는, 영상 분류 모델 학습 방법.
청구항 3항에 있어서,
상기 제2 학습 단계는,
상기 레이블드 데이터 셋에 포함된 영상 데이터로부터 변형된 파생 데이터에 기초하여 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습시키는, 영상 분류 모델 학습 방법.
청구항 1항에 있어서,
상기 제2 학습 단계는,
상기 언레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 비지도 학습(Unsupervised learning)시키는, 영상 분류 모델 학습 방법.
청구항 1항에 있어서,
상기 2형 라벨링은,
상기 레이블드 데이터 셋에 포함된 영상 데이터 각각이 특정 클래스에 해당되는 레이블을 갖는지 여부에 따라 상기 레이블드 데이터 셋에 포함된 영상 데이터 각각을 이진(binary) 분류하는, 영상 분류 모델 학습 방법.
청구항 1항에 있어서,
상기 제3 학습 단계는,
상기 2형 라벨링에 따라 복수의 클래스로 분류된 상기 레이블드 데이터 셋에 기초하여, 상기 복수의 클래스 각각과 대응되는 상기 복수의 제3 헤드 각각을 지도 학습시키는, 영상 분류 모델 학습 방법.
1형 라벨링된 레이블드 데이터 셋(Labeled data set)에 기초하여 모델 바디(model body) 및 제1 헤드(head)를 지도 학습(Supervised learning)시키는 제1 학습부;
상기 레이블드 데이터 셋 및 언레이블드 데이터 셋(Unlabeled data set)에 기초하여 상기 모델 바디, 상기 제1 헤드 및 제2 헤드를 다중 작업 학습(Multi-task learning)시키는 제2 학습부; 및
상기 모델 바디를 동결한 채로 2형 라벨링된 상기 레이블드 데이터 셋에 기초하여 복수의 제3 헤드를 지도 학습시키는 제3 학습부를 포함하고,
상기 모델 바디는, 입력된 데이터에 대한 특징 벡터를 추출하고,
상기 제1 헤드, 제2 헤드 및 제3 헤드는 각각 상기 특징 벡터에 기초한 분류 결과를 생성하는, 영상 분류 모델 학습 장치.
청구항 9항에 있어서,
상기 1형 라벨링은,
상기 레이블드 데이터 셋에 포함된 영상 데이터가 단일 레이블을 갖는 경우, 상기 단일 레이블을 갖는 영상 데이터를 상기 단일 레이블에 대응되는 클래스로 분류하고,
상기 레이블드 데이터 셋에 포함된 영상 데이터가 다중 레이블을 갖는 경우, 상기 다중 레이블을 갖는 영상 데이터를 상기 다중 레이블 자체에 대응되는 신규 클래스로 분류하는, 영상 분류 모델 학습 장치.
청구항 9항에 있어서,
상기 제2 학습부는,
상기 레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시키고, 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습(Self-supervised learning)시키는, 영상 분류 모델 학습 장치.
청구항 11항에 있어서,
상기 제2 학습부는,
사용자로부터 획득된 하나 이상의 하이퍼 파라미터(hyper parameter)에 대한 변경 사항을 반영하여 상기 모델 바디 및 상기 제1 헤드를 다시 지도 학습시키는, 영상 분류 모델 학습 장치.
청구항 11항에 있어서,
상기 제2 학습부는,
상기 레이블드 데이터 셋에 포함된 영상 데이터로부터 변형된 파생 데이터에 기초하여 상기 모델 바디 및 상기 제2 헤드를 자기 지도 학습시키는, 영상 분류 모델 학습 장치.
청구항 9항에 있어서,
상기 제2 학습부는,
상기 언레이블드 데이터 셋에 기초하여 상기 모델 바디 및 상기 제1 헤드를 비지도 학습(Unsupervised learning)시키는, 영상 분류 모델 학습 장치.
청구항 9항에 있어서,
상기 2형 라벨링은,
상기 레이블드 데이터 셋에 포함된 영상 데이터 각각이 특정 클래스에 해당되는 레이블을 갖는지 여부에 따라 상기 레이블드 데이터 셋에 포함된 영상 데이터 각각을 이진(binary) 분류하는, 영상 분류 모델 학습 장치.
청구항 9항에 있어서,
상기 제3 학습부는,
상기 2형 라벨링에 따라 복수의 클래스로 분류된 상기 레이블드 데이터 셋에 기초하여, 상기 복수의 클래스 각각과 대응되는 상기 복수의 제3 헤드 각각을 지도 학습시키는, 영상 분류 모델 학습 장치.