WO2023128677A1

WO2023128677A1 - 다중 레이블 세트를 이용한 학습 모델 생성 방법 및 이를 위한 장치

Info

Publication number: WO2023128677A1
Application number: PCT/KR2022/021669
Authority: WO
Inventors: 이홍석; 윤성준
Original assignee: 주식회사 뉴로클
Priority date: 2021-12-31
Filing date: 2022-12-29
Publication date: 2023-07-06

Abstract

본 개시는 타겟 장치를 위한 학습 모델 최적화 방법 및 시스템에 관한 것으로, 본 개시의 실시예에 따른 방법은, 다중 레이블 세트를 이용한 학습 모델 생성 방법은, 복수의 이미지를 포함하는 이미지 세트를 획득하는 단계; 및 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성하는 단계를 포함할 수 있다.

Description

다중 레이블 세트를 이용한 학습 모델 생성 방법 및 이를 위한 장치

본 개시(disclosure)의 기술적 사상은 다중 레이블 세트를 이용한 학습 모델 생성 방법 및 이를 위한 장치에 관한 것이다.

기계 학습(Machine Learning)은 AI의 한 분야로 데이터를 바탕으로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이며, 이미지 처리, 영상 인식, 음성 인식, 인터넷 검색 등의 다양한 분야의 핵심 기술로 예측(prediction), 객체 검출(object detection), 객체 분류(object classification), 객체 분할(object segmentation), 이상 탐지(anomaly detection) 등에 탁월한 성과를 나타낸다.

기계 학습을 수행을 위해서는 선결적으로 학습 데이터의 생성이 필요하며, 이러한 학습 데이터를 생성하기 위하여 학습 데이터에 대하여 검출하고자 하는 정답(label)을 표기하는 레이블링을 수행하여야 한다. 예를 들어, 이미지로부터 특정 객체를 검출하고자 하는 경우, 학습 데이터인 이미지에 해당 객체의 종류, 위치, 경계 등의 정보를 포함하는 레이블을 학습 데이터에 대응하여 생성하며, 이러한 레이블에 기초하여 기계 학습 알고리즘이 학습 데이터를 학습함으로써, 해당 객체를 검출하는 학습 모델을 생성할 수 있다.

그러나, 종래의 레이블링 방식은 학습 데이터 별로 단일 종류의 레이블만을 포함하도록 함으로써, 동일한 학습 데이터로부터 다양한 종류의 레이블에 기초한 결과를 도출하고 이들을 서로 앙상블(ensemble)하여 활용하는데 한계가 존재하였으며, 더하여, 개별 레이블 별로 학습 데이터를 별도 생성하는 방식으로 인해, 학습 데이터의 생성, 저장, 관리 등의 측면에서 불필요한 리소스가 소모되는 문제점이 있다.

한편, 학습 데이터를 구성하는데 있어, 일부 종류의 레이블이 수행된 데이터를 수집하는 것은 용이한 작업일 수 있으나, 다른 종류의 경우는 레이블 수행 자체가 상대적으로 용이하지 않을 수 있다. 즉, 예를 들어, 클래스 분류가 수행된 데이터를 수집하는 것은 용이하나, 클래스 각각에 대응되는 객체에 대한 세그먼테이션이 수행된 데이터를 수집하는 것은 용이하지 않을 수 있다. 이처럼, 난이도가 높은 레이블이 수행된 학습 데이터를 확보하기 위하여 소요되는 시간 및 비용이 크다는 문제점이 있다.

본 개시의 기술적 사상은 상기 문제점을 해결하기 위한 다중 레이블 세트를 이용한 학습 모델 생성 방법 및 그 장치를 제공하는 것을 그 목적으로 한다.

본 개시의 기술적 사상에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법 및 이를 위한 장치가 이루고자 하는 기술적 과제는 이상에서 언급한 과제로 제한되지 않으며, 언급되지 않은 또 다른 과제는 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

본 개시의 기술적 사상에 의한 일 양태에 따르면, 다중 레이블 세트를 이용한 학습 모델 생성 방법은, 복수의 이미지를 포함하는 이미지 세트를 획득하는 단계; 및 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성하는 단계를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 이미지 세트를 네트워크 함수에 입력하여, 상기 복수의 레이블 세트 중 적어도 2 이상에 대응하는 복수의 학습 모델을 생성하는 단계를 더 포함할 수 있다.

예시적인 실시예에 따르면, 상기 복수의 레이블 세트를 생성하는 단계는, 복수의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 레이블 정보를 각각 수신하는 단계; 및 상기 레이블 정보에 기초하여 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링을 수행함으로써, 상기 레이블 정보 각각에 대응하는 상기 복수의 레이블 세트를 생성하는 단계를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 복수의 학습 모델 중 적어도 2 이상에 대하여 성능을 비교하는 단계를 더 포함하고, 상기 성능은 재현율(recall), 정밀도(precision), 정확도(accuracy) 및 이들의 조합 중 적어도 하나에 기초하여 산출될 수 있다.

예시적인 실시예에 따르면, 상기 복수의 학습 모델은 각각 객체 검출(object detection), 객체 분류(object classification), 객체 분할(object segmentation), 문자 인식(character recognition), 예측(prediction) 및 이상 탐지(anomaly detection) 중 하나를 수행할 수 있다.

예시적인 실시예에 따르면, 상기 학습 모델 중 적어도 2 이상을 결합하여, 앙상블 모델(ensemble model)을 구축하는 단계를 더 포함할 수 있다.

예시적인 실시예에 따르면, 상기 복수의 레이블 세트는, 레이블링 난이도가 상이한 종류의 제 1 레이블 세트와 제 2 레이블 세트를 포함하며, 상기 복수의 레이블 세트를 생성하는 단계는, 레이블링 난이도가 낮은 상기 제 1 레이블 세트를 기초로 상기 제 2 레이블 세트를 생성하는 단계를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 복수의 레이블 세트를 생성하는 단계는, 적어도 하나의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 제 1 레이블 정보를 수신하는 단계; 상기 제 1 레이블 정보에 기초하여, 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링(labeling)을 수행함으로써, 상기 복수의 이미지 각각에 대한 제 1 레이블을 포함하는 제 1 레이블 세트를 생성하는 단계; 및 상기 이미지 세트 및 상기 제 1 레이블 세트를 제 1 네트워크 함수에 입력하여 학습을 수행하고, 출력 결과에 기초하여 상기 복수의 이미지 각각에 대한 제 2 레이블을 포함하는 제 2 레이블 세트를 생성하는 단계를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 제 1 네트워크 함수의 출력 결과는, 상기 제 1 네트워크 함수가 상기 복수의 이미지 각각에 대해 적어도 어느 일 부분에 기초하여 상기 제 1 레이블에 대응되는 결과를 출력하였는지에 관한 정보를 포함할 수 있다.

예시적인 실시예에 따르면, 상기 제 1 네트워크 함수의 출력 결과는, 상기 복수의 이미지 각각에 대해 적어도 어느 일 부분에 기초하여 상기 제 1 레이블에 대응되는 결과를 출력하였는지에 관한 정보를 히트 맵(heat map) 형태로 포함할 수 있다.

예시적인 실시예에 따르면, 상기 제 1 네트워크 함수의 출력 결과는, 상기 제 1 레이블에 대응하는 결과에 대한 상기 복수의 이미지 각각의 클래스 활성화 맵(Class Activation Map, CAM)을 포함할 수 있다.

예시적인 실시예에 따르면, 상기 제 2 레이블 세트를 생성하는 단계에서, 상기 제 2 레이블은 상기 복수의 이미지 각각에 대응하는 상기 클래스 활성화 맵 각각에 대하여 문턱(threshold) 값을 소정의 값 또는 범위로 설정하여 약한 레이블링(weak labeling) 영역을 추출함으로써, 생성될 수 있다.

예시적인 실시예에 따르면, 상기 이미지 세트 및 상기 제 2 레이블 세트를 제 2 네트워크 함수에 입력하여 학습을 수행함으로써, 학습 모델을 생성하는 단계를 더 포함할 수 있다.

예시적인 실시예에 따르면, 상기 제 1 레이블은 객체 분류 레이블이고, 상기 제 2 레이블은 객체 인식 레이블 및 객체 분할 레이블 중 적어도 하나일 수 있다.

예시적인 실시예에 따르면, 상기 제 1 레이블은 객체 인식 레이블이고, 상기 제 2 레이블은 객체 분할 레이블일 수 있다.

본 개시의 기술적 사상에 의한 일 양태에 따르면, 다중 레이블 세트를 이용한 학습 모델 생성 장치는, 적어도 하나의 프로세서; 및 상기 프로세서에 의해 실행 가능한 프로그램을 저장하는 메모리를 포함하고, 상기 프로세서는, 상기 프로그램을 실행함으로써, 복수의 이미지를 포함하는 이미지 세트를 획득하고, 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성할 수 있다.

본 개시의 기술적 사상에 의한 실시예들에 따르면, 단일 이미지 세트에 대하여 상이한 종류의 레이블 세트를 생성하고, 이를 기초로 각각의 레이블 세트에 대응하는 복수의 학습 모델을 생성하여, 성능 비교를 통해 수행 작업에 최적화된 레이블 세트 및/또는 학습 모델을 선정할 수 있다.

본 개시의 기술적 사상에 의한 실시예들에 따르면, 상이한 레이블 세트에 기초하여 생성된 복수의 학습 모델을 결합하여 수행 작업에 적합한 앙상블 모델을 구축함으로써, 보다 정확한 최종 결과를 획득할 수 있다.

본 개시의 기술적 사상에 의한 실시예들에 따르면, 레이블링 난이도가 낮은 종류의 레이블을 기초로 모델을 학습한 후, 난이도가 상대적으로 낮은 레이블을 자동 생성하여 학습 모델을 생성할 수 있다.

본 개시의 기술적 사상에 따른 방법 및 이를 위한 장치가 얻을 수 있는 효과는 이상에서 언급한 효과로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.

본 개시에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.

도 1은 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법을 설명하기 위한 흐름도이다.

도 2는 도 1의 S120 단계에 대한 제 1 실시예를 설명하기 위한 흐름도이다.

도 3은 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법을 설명하기 위한 흐름도이다.

도 4는 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법을 설명하기 위한 흐름도이다.

도 5는 본 개시의 실시예에 따른 학습 데이터의 구조 및 네트워크 함수를 개념적으로 도식화한 도면이다.

도 6은 도 1의 S120 단계에 대한 제 2 실시예를 설명하기 위한 흐름도이다.

도 7은 도 6의 S123 단계에 대한 실시예를 설명하기 위한 흐름도이다.

도 8은 본 개시의 실시예에 따른 학습 데이터의 구조 및 네트워크 함수를 개념적으로 도식화한 도면이다.

도 9 내지 도 11은 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법에 있어서, 제 1 레이블로부터 제 2 레이블을 생성하는 과정을 예시적으로 설명하기 위한 도면이다.

도 12는 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법에 있어서, 제 1 레이블로부터 제 2 레이블을 생성하는 과정을 예시적으로 설명하기 위한 도면이다.

도 13은 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 장치의 구성을 간략히 도시한 블록도이다.

본 개시의 기술적 사상은 다양한 변경을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 이를 상세히 설명하고자 한다. 그러나, 이는 본 개시의 기술적 사상을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 개시의 기술적 사상의 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.

본 개시의 기술적 사상을 설명함에 있어서, 관련된 공지 기술에 대한 구체적인 설명이 본 개시의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다. 또한, 본 개시의 설명 과정에서 이용되는 숫자(예를 들어, 제1, 제2 등)는 하나의 구성요소를 다른 구성요소와 구분하기 위한 식별기호에 불과하다.

또한, 본 개시에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 개시에 기재된 "~부", "~기", "~자", "~모듈" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 프로세서(Processor), 마이크로 프로세서(Micro Processer), 마이크로 컨트롤러(Micro Controller), CPU(Central Processing Unit), GPU(Graphics Processing Unit), APU(Accelerate Processor Unit), DSP(Digital Signal Processor), ASIC(Application Specific Integrated Circuit), FPGA(Field Programmable Gate Array) 등과 같은 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

그리고 본 개시에서의 구성부들에 대한 구분은 각 구성부가 담당하는 주기능 별로 구분한 것에 불과함을 명확히 하고자 한다. 즉, 이하에서 설명할 2개 이상의 구성부가 하나의 구성부로 합쳐지거나 또는 하나의 구성부가 보다 세분화된 기능별로 2개 이상으로 분화되어 구비될 수도 있다. 그리고 이하에서 설명할 구성부 각각은 자신이 담당하는 주기능 이외에도 다른 구성부가 담당하는 기능 중 일부 또는 전부의 기능을 추가적으로 수행할 수도 있으며, 구성부 각각이 담당하는 주기능 중 일부 기능이 다른 구성부에 의해 전담되어 수행될 수도 있음은 물론이다.

본 개시의 실시예에 따른 방법은 연산 능력을 구비한 개인용 컴퓨터(Personal Computer), 워크스테이션(work station), 서버용 컴퓨터 장치 등에서 수행되거나 이를 위한 별도의 장치에서 수행될 수 있다.

또한, 방법은 하나 이상의 연산 장치들에서 수행될 수도 있다. 예를 들어, 본 개시의 실시예에 따른 방법 중 적어도 하나 이상의 단계들은 클라이언트 디바이스에서, 다른 단계들은 서버 디바이스에서 수행될 수 있다. 이러한 경우, 클라이언트 디바이스와 서버 디바이스는 네트워크로 연결되어 연산 결과를 송수신할 수 있다. 또는, 방법은 분산 컴퓨팅 기술에 의해 수행될 수도 있다.

또한, 본 명세서에 걸쳐, 네트워크 함수, 연산 모델, 신경망, 뉴럴 네트워크(neural network)는 동일한 의미로 사용될 수 있다. 신경망은 일반적으로 노드라 지칭될 수 있는 상호 연결된 계산 단위들의 집합으로 구성될 수 있다. 이러한 노드들은 뉴런(neuron)들로 지칭될 수도 있다. 신경망은 적어도 하나 이상의 노드들을 포함하여 구성된다. 신경망들을 구성하는 노드(또는 뉴런)들은 하나 이상의 링크에 의해 상호 연결될 수 있다.

신경망 내에서, 링크를 통해 연결된 하나 이상의 노드들은 상대적으로 입력 노드 및 출력 노드의 관계를 형성할 수 있다. 입력 노드 및 출력 노드의 개념은 상대적인 것으로서, 하나의 노드에 대하여 출력 노드 관계에 있는 임의의 노드는 다른 노드와의 관계에서 입력 노드 관계에 있을 수 있으며, 그 역도 성립할 수 있다. 상술한 바와 같이, 입력 노드 대 출력 노드 관계는 링크를 중심으로 생성될 수 있다. 하나의 입력 노드에 하나 이상의 출력 노드가 링크를 통해 연결될 수 있으며, 그 역도 성립할 수 있다.

하나의 링크를 통해 연결된 입력 노드 및 출력 노드 관계에서, 출력 노드의 데이터는 입력 노드에 입력된 데이터에 기초하여 그 값이 결정될 수 있다. 여기서 입력 노드와 출력 노드를 상호 연결하는 링크는 가중치(weight)를 가질 수 있다. 가중치는 가변적일 수 있으며, 신경망이 원하는 기능을 수행하기 위해, 사용자 또는 알고리즘에 의해 가변 될 수 있다. 예를 들어, 하나의 출력 노드에 하나 이상의 입력 노드가 각각의 링크에 의해 상호 연결된 경우, 출력 노드는 상기 출력 노드와 연결된 입력 노드들에 입력된 값들 및 각각의 입력 노드들에 대응하는 링크에 설정된 가중치에 기초하여 출력 노드 값을 결정할 수 있다.

신경망을 구성하는 노드들의 부분 집합은 레이어(layer)를 구성할 수 있다. 신경망을 구성하는 노드들 중 일부는, 최초 입력 노드로부터의 거리들에 기초하여, 하나의 레이어(layer)를 구성할 수 있다. 예를 들어, 최초 입력 노드로부터 거리가 n인 노드들의 집합은, n 레이어를 구성할 수 있다. 최초 입력 노드로부터 거리는, 최초 입력 노드로부터 해당 노드까지 도달하기 위해 거쳐야 하는 링크들의 최소 개수에 의해 정의될 수 있다. 그러나, 이러한 레이어의 정의는 설명을 위한 임의적인 것으로서, 신경망 내에서 레이어의 차수는 상술한 것과 상이한 방법으로 정의될 수 있다. 예를 들어, 노드들의 레이어는 최종 출력 노드로부터 거리에 의해 정의될 수도 있다.

뉴럴 네트워크는 입력 레이어와 출력 레이어 외에 복수의 히든 레이어를 포함하는 딥 뉴럴 네트워크(Deep Neural Network, DNN)를 포함할 수 있다. 딥 뉴럴 네트워크를 이용하면 데이터의 잠재적인 구조(latent structures)를 파악할 수 있다. 딥 뉴럴 네트워크는 컨볼루션 뉴럴 네트워크(CNN: convolutional neural network), 리커런트 뉴럴 네트워크(RNN: recurrent neural network), 오토 인코더(auto encoder), GAN(Generative Adversarial Networks), 제한 볼츠만 머신(RBM: restricted boltzmann machine), 심층 신뢰 네트워크(DBN: deep belief network), Q 네트워크, U 네트워크, 샴 네트워크, 적대적 생성 네트워크(GAN: Generative Adversarial Network) 등을 포함할 수 있다. 전술한 딥 뉴럴 네트워크의 기재는 예시일 뿐이며 본 개시는 이에 제한되지 않는다.

뉴럴 네트워크는 교사 학습(supervised learning), 비교사 학습(unsupervised learning), 반교사학습(semi supervised learning), 또는 강화학습(reinforcement learning) 중 적어도 하나의 방식으로 학습될 수 있다. 뉴럴 네트워크의 학습은 뉴럴 네트워크가 특정한 동작을 수행하기 위한 지식을 뉴럴 네트워크에 적용하는 과정일 수 있다.

이하, 본 개시의 실시예들을 차례로 상세히 설명한다.

도 1은 본 개시의 실시예에 따른 다중 레이블 세트를 이용한 학습 모델 생성 방법을 설명하기 위한 흐름도이고, 도 2는 도 1의 S120 단계에 대한 일 실시예를 설명하기 위한 흐름도이다.

S110 단계에서, 장치는 복수의 이미지를 포함하는 이미지 세트를 획득할 수 있다. 여기서, 이미지 세트를 구성하는 복수의 이미지는 적어도 하나의 서버 및/또는 단말로부터 수신되거나, 유, 무선 통신을 통해 연결된 적어도 하나의 촬영 장치에 의해 획득될 수 있다. 예를 들어, 복수의 이미지는 제품의 생산, 제조, 가공 등의 공정 라인에서 획득된 공정 이미지이거나, 환자의 신체 부위를 의료용 촬영 장비에 의해 촬영한 의료 이미지 또는 영상일 수 있으나, 이에 한정하는 것은 아니다.

S120 단계에서, 장치는 이미지 세트에 대하여 복수의 레이블 세트를 생성할 수 있다.

실시예에서, 복수의 레이블 세트 각각은 서로 상이한 종류의 레이블(label)을 포함할 수 있다. 이때, 레이블 또는 이를 포함하는 레이블 세트의 종류는 네트워크 함수를 통해 복수의 이미지로부터 획득하고자 하는 결과에 따라 구분될 수 있다.

예를 들어, 이미지 세트가 복수의 공정 이미지로 구성된다고 가정하면, 하나의 이미지에는 제품의 불량 여부를 확인할 수 있는 객체 분류(object classification), 불량 위치를 정확히 확인할 수 있는 객체 분할(object segmentation), 제품을 구성하는 각 부품의 위치를 확인할 수 있는 객체 검출(object detection), 일련 번호(serial number)를 확인할 수 있는 문자 인식(character recognition) 등을 각각 수행하는데 적합한 레이블이 모두 포함될 수 있으며, 이러한 방식을 통해, 하나의 이미지 세트에 대응하여 각각 상이한 종류(또는, 목적)의 복수의 레이블 세트가 생성될 수 있다.

다만, 이는 예시적인 것으로서, 이에 한정되는 것은 아니며, 레이블 세트는 각각 객체 분류, 객체 분할, 객체 검출, 문자 인식에 더하여, 예측(prediction), 이상 탐지(anomaly detection) 등과 같이 네트워크 함수에 의해 수행 가능한 다양한 기능에 적합하도록 생성될 수 있다.

또한, 실시예에 따라, 장치는 이미지 세트에 동일한 종류의 복수의 레이블 세트를 포함하도록 구성될 수 있다. 예를 들어, 복수의 레이블 세트는 동일한 객체를 검출하기 위하여 상이한 사용자에 의해 수행된 레이블 정보에 기초하여 각각 생성될 수 있다. 이 경우, 각 레이블 세트에 기초하여 생성된 학습 모델에 대한 성능 평가를 통해, 가장 적합한 레이블 세트 및/또는 학습 모델을 선택할 수 있다.

실시예에서, S120 단계는, 복수의 사용자로부터 수신된 레이블 정보에 기초하여 수행될 수 있다. 예를 들어, S120 단계는, 도 2에 도시되는 바와 같이, S121 단계 및 S122 단계를 포함할 수 있다.

S121 단계에서, 장치는 복수의 사용자(즉, 사용자 단말)로부터 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 레이블 정보를 각각 수신할 수 있다. 즉, 장치는 사용자 단말에 이미지 세트를 제공하고, 이에 응답하여 사용자 단말로부터 복수의 이미지 중 적어도 하나에 대한 레이블 정보를 수신할 수 있다. 이때, 레이블 정보는 객체 분류, 객체 분할, 객체 검출, 문자 인식, 예측, 이상 감지 등을 수행하기 위한 것일 수 있다.

S122 단계에서, 장치는 사용자로부터 수신한 레이블 정보에 기초하여 이미지 세트를 구성하는 복수의 이미지 각각에 레이블링을 수행함으로써, 레이블 정보 각각에 대응하는 복수의 레이블 세트를 생성할 수 있다. 상술한 바와 같이, 생성된 복수의 레이블 세트는 서로 다른 종류의 것으로서, 각각 상이한 출력을 획득하기 위한 것일 수 있다.

실시예에서, 복수의 레이블 세트 중 적어도 일부는 다른 레이블 세트를 기초로 한 네트워크 함수의 학습 결과에 기초하여 생성될 수 있다.

레이블 세트는 제 1 레이블 세트와 제 2 레이블 세트를 포함하고, 제 2 레이블 세트는 제 1 레이블 세트를 소정의 네트워크 함수에 입력하여 생성된 학습 결과에 기초하여 생성될 수 있다. 예를 들어, 제 1 레이블 세트가 객체 분류를 위한 레이블로 구성되는 경우, 네트워크 함수의 학습 결과에서 발생하는 클래스 활성화 맵(CAM, class activation map)을 기초로 객체 분할을 위한 제 2 레이블 세트를 생성할 수 있다.

또한, 실시예에서, 복수의 레이블 세트 중 적어도 일부는 다른 레이블 세트를 변형하여 생성될 수 있다. 예를 들어, 객체 분할을 위한 제 1 레이블 세트로부터 이에 포함된 레이블의 width/height을 변형하여 객체 검출을 위한 제 2 레이블 세트를 생성할 수 있다.

S130 단계에서, 장치는 이미지 세트를 네트워크 함수에 입력하여 적어도 하나의 학습 모델을 생성할 수 있다. 예를 들어, 복수의 레이블 세트 중 적어도 2 이상에 대응하는 복수의 학습 모델이 생성될 수 있으며, 바람직하게는, 레이블 세트 별로 각각 이에 대응하는 학습 모델이 생성될 수 있다.

이때, 학습 모델은 각각 객체 검출(object detection), 객체 분류(object classification), 객체 분할(object segmentation), 문자 인식(character recognition), 예측(prediction) 및 이상 탐지(anomaly detection) 중 하나를 수행할 수 있으나, 이에 한정하는 것은 아니다.

이하 도 3 및 도 4를 참조하여 상술되는 바와 같이, 사용자는 복수의 학습 모델 중에서 작업에 가장 적합한 모델을 선택하거나, 2 이상의 학습 모델을 조합하여 보다 정확한 결과를 도출하기 위한 앙상블 모델을 구축할 수 있다.

여기서, 방법(300)의 S310 내지 S330 단계는 도 1을 참조하여 상술한 S110 내지 S130 단계와 동일하므로, 중복되는 설명은 생략하기로 한다.

S340 단계에서, 장치는 복수의 레이블 세트에 기초하여 생성된 복수의 학습 모델 중 적어도 2 이상에 대하여 성능을 비교할 수 있다.

실시예에서, 장치는 재현율(recall), 정밀도(precision), 정확도(accuracy) 및 이들의 조합 중 적어도 하나에 기초하여 학습 모델의 성능을 산출할 수 있다. 학습 모델의 성능을 산출하기 위하여, 교차 검증 등 다양한 방식이 이용될 수 있다.

이러한 성능 비교를 통해, 수행하고자 하는 작업에 어떠한 종류의 레이블 세트 및 학습 모델이 가장 유용한지를 확인 가능하다. 즉, 예를 들어, 객체 분할과 객체 검출로 동일한 불량 부위를 확인하는, 복수의 레이블 세트를 만들 경우, 불량의 종류에 따라 각 모델이 더 잘 분석할 수 있는 것을 비교할 수 있게 된다.

여기서, 방법(400)의 S410 내지 S430 단계는 도 1을 참조하여 상술한 S110 내지 S130 단계와 동일하므로, 중복되는 설명은 생략하기로 한다.

S440 단계에서, 장치는 생성된 복수의 학습 모델 중 적어도 2 이상을 결합하여, 앙상블 모델(ensemble model)을 구축할 수 있다.

즉, 수행하고자 하는 작업의 특성 등에 따라, 학습 모델의 2 이상을 소정의 방식으로 결합하여 각 학습 모델에 따른 출력값을 조합하도록 함으로써, 보다 정확한 최종 결과를 도출할 수 있다.

예를 들어, 객체 분할을 통해 PCB의 영역을 분류하는 학습 모델과, 객체 분할 또는 객체 검출을 통해 끊어진 선(즉, 단선)을 찾아낼 수 있는 학습 모델이 있다고 가정하면, 동일하게 끊어진 선을 찾더라도, 분류된 PCB 영역에 따라 불량 여부를 다르게 판단할 수 있기 때문에, 양 모델을 결합하여 앙상블 모델을 구축하고, 이들의 출력값을 조합하여 최종 결과를 도출하도록 구현될 수 있다.

또한, 예를 들어, 객체 분할과 관련하여, A 클래스는 어두울 때 잘 검출되고, B 클래스는 밝을 때 잘 검출되는 경우라면, A, B 클래스를 확인하기 위한 객체 분할 모델과 어둡고 밝은 이미지를 가르는 객체 분류 모델을 결합하여 앙상블 모델을 구축하고, 양 학습 모델의 출력값을 조합하여 보다 정확한 최종 결과를 도출하도록 구현될 수 있다.

실시예에서, 앙상블 모델(ensemble model)은, 보팅(voting), 배깅(bagging), 부스팅(booting) 방식 등에 기초하여 생성될 수 있으나, 이에 한정되는 것은 아니다.

도시되는 바와 같이, 하나의 이미지 세트(510)는 복수의 개별 이미지를 포함하고, 각 개별 이미지에 상이한 종류의 레이블이 각각 포함됨으로써, 이미지 세트(510)에 대응하는 복수의 레이블 세트가 생성된다.

이어서, 이미지 세트(510)는 네트워크 함수(520)에 입력되어, 네트워크 함수(520)에 대한 학습을 수행하게 되고, 이에 따라, 복수의 레이블 세트 중 적어도 일부에 대응하는 복수의 학습 모델(530)이 생성될 수 있다.

이때, 네트워크 함수(520)는 레이블 세트의 종류에 따라 각각 동일 또는 상이한 네트워크 함수가 적용될 수 있다.

S120 단계는, 도 6에 도시되는 바와 같이, S121 단계 내지 S123 단계를 포함할 수 있다.

S121 단계에서, 장치는 사용자(즉, 사용자 단말)로부터 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 제 1 레이블 정보를 각각 수신할 수 있다. 즉, 장치는 사용자 단말에 이미지 세트를 제공하고, 이에 응답하여 사용자 단말로부터 복수의 이미지 중 적어도 하나에 대한 제 1 레이블 정보를 수신할 수 있다. 이때, 제 1 레이블 정보는 객체 분류, 객체 분할, 객체 검출, 문자 인식, 예측, 이상 감지 중 하나에 대응하는 제 1 레이블을 생성하기 위한 것일 수 있다.

S122 단계에서, 장치는 사용자로부터 수신한 제 1 레이블 정보에 기초하여 이미지 세트를 구성하는 복수의 이미지 각각에 레이블링을 수행함으로써, 복수의 이미지 각각에 대한 제 1 레이블을 포함하는 제 1 레이블 세트를 생성할 수 있다.

S123 단계에서, 장치는 이미지 세트 및 제 1 레이블 세트를 제 1 네트워크 함수에 입력하여 학습을 수행하고, 출력 결과에 기초하여 복수의 이미지 각각에 대한 상이한 종류의 제 2 레이블을 포함하는 제 2 레이블 세트를 생성할 수 있다.

실시예에서, 제 1 레이블과 제 2 레이블은 레이블링 난이도가 상이한 종류의 레이블일 수 있다. 즉, 예를 들어, S123 단계에서, 장치는 상대적으로 낮은 난이도를 가지는 제 1 레이블 세트를 기초로, 높은 레이블링 난이도의 제 2 레이블을 세트를 생성할 수 있다.

실시예에서, 제 1 레이블은 객체 분류(object classification) 레이블이고, 상기 제 2 레이블은 객체 인식(object detection) 레이블 및 객체 분할(object segmentation) 레이블 중 적어도 하나일 수 있다. 또한, 실시예에서, 제 1 레이블은 객체 인식(object detection) 레이블이고, 제 2 레이블은 객체 분할(object segmentation) 레이블일 수 있다.

다만, 이는 예시적인 것으로서, 이에 한정하지 않으며, 실시예에 따라, 객체 인식 레이블 또는 객체 분할 레이블에 기초하여 문자 인식(character recognition) 레이블을 자동 생성하는 등, 다양한 형태로 상이한 종류의 레이블을 기초로 이미지 세트에 대한 추가적인 레이블을 생성하도록 구성될 수 있다.

이때, 제 1 네트워크 함수의 출력 결과는, 제 1 네트워크 함수가 복수의 이미지 각각에 대해 적어도 어느 일 부분에 기초하여 제 1 레이블에 대응되는 결과를 출력하였는지에 관한 정보를 포함할 수 있다.

예를 들어, 상기 출력 결과는 제 1 레이블에 대응되는 결과를 출력하는데 영향을 준 이미지의 적어도 일 부분에 관한 표시일 수 있다. 상기 출력 결과는 이미지의 위치 별 결과에 관련한 확률 정보를 포함할 수 있다. 상기 출력 결과는 제 1 레이블에 대응하는 결과를 출력하는데 영향을 준 정도에 따라 상이한 표현을 포함할 수 있다. 예를 들어, 상기 출력 결과는 제 1 레이블에 대응하는 결과를 출력하는데 영향을 준 정도에 따라 채도, 명도, 색상, 질감 등을 상이하게 표현한 것일 수 있다. 예를 들어, 영향을 많이 준 부분은 채도를 높게 표시하고, 영향을 조금 준 부분은 상대적으로 채도를 낮게 표시할 수 있다. 또는, 출력 결과는 제 1 레이블에 대응하는 결과를 출력하는데 영향을 준 정도를 표시한 히트맵(heat map)을 포함할 수 있다. 예를 들어, 장치는 Grad-CAM(Gradient-weighted Class Activation Mapping), DSRG(Deep Seeded Region Growing) 등을 이용하여 상기 출력 결과를 획득할 수 있다.

실시예에서, 장치는 제 1 네트워크 함수의 최종 출력 레이어가 아닌 적어도 하나 이상의 레이어 또는 필터에서의 연산 결과에 기초하여 상기 출력 결과를 생성할 수 있다.

실시예에서, 제 1 레이블이 객체 분류 레이블인 경우, 제 1 네트워크 함수는 객체에 대한 분류를 수행하기 위한 하나 이상의 네트워크 함수를 포함할 수 있다. 예를 들어, 제 1 네트워크 함수는 이미지 세트를 구성하는 복수의 이미지에 포함된 객체를 분류하기 위하여, 이미지에 포함된 객체에 대한 분류 결과를 제 1 레이블로 포함하는 학습 데이터를 이용하여 학습될 수 있다. 이때, 제 1 네트워크 함수의 출력 결과는 분류 결과를 출력하는데 영향을 이미지의 영역 및/또는 위치를 소정의 표현 방식으로 표현한 것일 수 있다.

실시예에서, 제 1 네트워크의 출력 결과는 결과를 출력하는데 영향을 준 이미지의 적어도 일부에 대한 정보를 포함하는 클래스 활성화 맵(Class Activation Map)일 수 있다. 클래스 활성화 맵과 관련해서는 논문 Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization(공개일: 2017년 10월 7일, 작성자: Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batra)에서 구체적으로 논의될 수 있다.

이 경우, S123 단계는, 도 7에서 도시되는 바와 같이, S123-1 단계 및 S123-2 단계를 포함할 수 있다.

S123-1 단계에서, 장치는 이미지 세트 및 제 1 레이블 세트를 제 1 네트워크 함수에 입력하여 학습을 수행하고, 복수의 이미지 각각에 대한 클래스 활성화 맵을 출력할 수 있다.

예를 들어, 제 1 레이블 세트는 이미지 세트를 구성하는 복수의 이미지에 대한 객체 분류 레이블로 구성될 수 있다.

이어서, S123-2 단계에서, 장치는 클래스 활성화 맵 각각에 대하여 문턱 값을 소정의 값 또는 범위로 설정하여 약한 레이블(weak label) 영역을 추출함으로써, 제 2 레이블을 자동 생성할 수 있다. 여기서, 약한 레이블은 사용자가 수동으로 생성한 레이블만큼 정확하지 않지만 자동으로 생성되어 특정 임계치 이상의 정확성을 갖는 레이블을 의미할 수 있다.

예를 들어, 클래스 활성화 맵에 대하여, 확률, 색조, 채도, 명도 등을 일정한 범위로 설정하여 이에 대응하는 소정의 영역을 추출함으로써, 제 2 레이블을 자동 생성할 수 있다.

이때, 제 2 레이블은 객체 인식 레이블 및 객체 분할 레이블 중 적어도 하나일 수 있다.

한편, 도시되어 있지 않으나, 장치는 도 1의 S130 단계에서, 이미지 세트 및 생성된 제 2 레이블 세트를 제 2 네트워크 함수에 입력하여 학습을 수행함으로써, 학습 모델을 생성할 수 있다. 예를 들어, 제 2 레이블은 객체 분할 레이블일 수 있으며, 제 2 네트워크 함수는 객체에 관한 분할을 수행하기 위한 하나 이상의 네트워크 함수를 포함할 수 있다. 제 2 네트워크 함수는 입력 이미지에 포함된 객체에 관한 분할을 수행하기 위하여 이미지의 차원을 축소하는 네트워크 함수(인코더(encoder)) 및 이미지의 차원을 확장하는 네트워크 함수(디코더(decoder))를 포함할 수 있다.

도시되는 바와 같이, 하나의 이미지 세트(810)는 복수의 개별 이미지를 포함하고, 각 개별 이미지에 제 1 레이블이 각각 포함됨으로써, 이미지 세트(510)에 대응하는 제 1 레이블 세트가 제공될 수 있다. 예를 들어, 제 1 레이블은 객체 분류 레이블일 수 있다.

이어서, 이미지 세트(810)는 제 1 레이블 세트와 함께 제 1 네트워크 함수(820)에 입력되어 학습이 수행됨으로써, 제 1 학습 모델이 생성될 수 있다. 예를 들어, 제 1 학습 모델은 객체 분류 모델일 수 있다.

이때, 제 1 네트워크 함수(820)의 출력으로 결과를 출력하는데 영향을 준 이미지의 적어도 일부에 대한 정보를 포함하는 클래스 활성화 맵(Class Activation Map) 등이 획득될 수 있다.

이러한 제 1 네트워크 함수의 출력 결과에 기초하여 각 개별 이미지에 대한 약한 레이블인 제 2 레이블이 생성되고, 이에 따라, 이미지 세트(810)에는 제 1 레이블 세트와 상이한 종류의 제 2 레이블 세트가 포함될 수 있다. 예를 들어, 제 2 레이블은 객체 분할 레이블일 수 있다.

이어서, 이미지 세트(810)는 제 2 레이블 세트와 함께 제 2 네트워크 함수(840)에 입력되어 학습이 수행됨으로써, 제 2 학습 모델이 생성될 수 있다. 예를 들어, 제 2 학습 모델은 객체 분할 모델일 수 있다.

먼저, 도 9 내지 도 10을 참조하면, 레이블링 난이도가 낮은 객체 분류 레이블 세트에 기초하여, 상대적으로 레이블링 난이도가 높은 객체 인식 레이블 또는 객체 분할 레이블 세트를 생성할 수 있다.

먼저, 도 9에서 도시되는 바와 같이, 병변 유무에 대한 객체 분류 레이블이 포함된 이미지(도 9의 (a))를 네트워크 함수에 입력하여 출력 결과로 병변으로 분류하는데 영향을 준 이미지의 적어도 일 영역 또는 위치에 대한 확률을 소정의 방식(히트 맵 등)으로 표현한 클래스 활성화 맵 등의 결과(도 9의 (b))를 획득할 수 있다.

이어서, 도 10에서 도시되는 바와 같이, 문턱 값을 소정의 값 또는 범위로 설정하여 약한 레이블(weak label) 영역을 추출할 수 있으며, 이를 기초로, 객체 인식 레이블 또는 객체 분할 레이블을 생성할 수 있다. 이때, 객체 인식 레이블 또는 객체 분할 레이블은 약한 레이블일 수 있다.

이어서, 도 11을 참조하면, 생성된 객체 인식 레이블 또는 객체 분할 레이블을 이미지와 함께, 각각 적합한 네트워크 함수에 입력하고, 학습을 수행하여 객체 인식(도 11의 (a)) 또는 객체 분할 결과(도 11의 (b))를 출력할 수 있다.

도 12를 참조하면, 레이블링 난이도가 낮은 객체 인식 레이블 세트에 기초하여, 상대적으로 레이블링 난이도가 높은 객체 분할 레이블 세트를 생성할 수 있다.

예를 들어, 제품의 하자 또는 이상을 감지하기 위한 객체 인식 레이블이 포함된 이미지(도 12의 (a))를 통해 네트워크 함수의 학습을 수행하고, 이의 결과로 객체 인식 결과가 포함된 결과 이미지(도 12의 (b))를 획득할 수 있다.

이어서, 결과 이미지로부터 명도, 채도, 색상 등의 범위를 설정하여, 약한 레이블(weak label) 영역을 추출할 수 있으며, 이를 기초로, 객체 분할 레이블을 생성할 수 있다

통신부(1310)는 외부로부터 데이터(이미지 세트, 레이블 정보 등)를 수신할 수 있다. 통신부(1310)는 유무선 통신부를 포함할 수 있다. 통신부(1310)가 유선 통신부를 포함하는 경우, 통신부(1310)는 근거리 통신망(Local Area Network; LAN), 광역 통신망(Wide Area Network; WAN), 부가가치 통신망(Value Added Network; VAN), 이동 통신망(mobile radio communication network), 위성 통신망 및 이들의 상호 조합을 통하여 통신을 하게 하는 하나 이상의 구성요소를 포함할 수 있다. 또한, 통신부(1310)가 무선 통신부를 포함하는 경우, 통신부(1310)는 셀룰러 통신, 무선랜(예를 들어, 와이-파이(Wi-Fi)) 등을 이용하여 무선으로 데이터 또는 신호를 송수신할 수 있다. 실시예에서, 통신부는 프로세서(1340)의 제어에 의해 외부 장치 또는 외부 서버와 데이터 또는 신호를 송수신할 수 있다.

입력부(1320)는 외부의 조작을 통해 다양한 사용자 명령을 수신할 수 있다. 이를 위해, 입력부(1320)는 하나 이상의 입력 장치를 포함하거나 연결할 수 있다. 예를 들어, 입력부(1320)는 키패드, 마우스 등 다양한 입력을 위한 인터페이스와 연결되어 사용자 명령을 수신할 수 있다. 이를 위해, 입력부(1320)는 USB 포트 뿐만 아니라 선더볼트 등의 인터페이스를 포함할 수도 있다. 또한, 입력부(1320)는 터치스크린, 버튼 등의 다양한 입력 장치를 포함하거나 이들과 결합하여 외부의 사용자 명령을 수신할 수 있다.

메모리(1330)는 프로세서(1340)의 동작을 위한 프로그램 및/또는 프로그램 명령을 저장할 수 있고, 입/출력되는 데이터들을 임시 또는 영구 저장할 수 있다. 메모리(1330)는 플래시 메모리(flash memory) 타입, 하드디스크(hard disk) 타입, 멀티미디어 카드 마이크로(multimedia card micro) 타입, 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(RAM), SRAM, 롬(ROM), EEPROM, PROM, 자기 메모리, 자기 디스크, 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있다.

또한, 메모리(1330)는 다양한 네트워크 함수 및 알고리즘을 저장할 수 있으며, 장치(700)를 구동하고 제어하기 위한 다양한 데이터, 프로그램(하나 이상이 인스트럭션들), 어플리케이션, 소프트웨어, 명령, 코드 등을 저장할 수 있다.

프로세서(1340)는 장치(1300)의 전반적인 동작을 제어할 수 있다. 프로세서(1340)는 메모리(1330)에 저장되는 하나 이상의 프로그램들을 실행할 수 있다. 프로세서(1340)는 중앙 처리 장치(Central Processing Unit, CPU), 그래픽 처리 장치(Graphics Processing Unit, GPU), 텐서 처리 장치(Tensor Processing Unit, TPU) 또는 본 개시의 기술적 사상에 따른 방법들이 수행되는 전용의 프로세서를 의미할 수 있다.

본 개시의 실시예에 따라 프로세서(1340)는 신경망의 학습을 위한 연산을 수행할 수 있다. 프로세서(1340)는 딥러닝(DN: deep learning)에서 학습을 위한 입력 데이터의 처리, 입력 데이터에서의 피처 추출, 오차 계산, 역전파(backpropagation)를 이용한 신경망의 가중치 업데이트 등의 신경망의 학습을 위한 계산을 수행할 수 있다. 프로세서(1340)의 CPU, GPU, TPU, 전용 프로세서 중 적어도 하나가 네트워크함수의 학습을 처리할 수 있다.

실시예에서, 프로세서(1340)는 복수의 이미지를 포함하는 이미지 세트를 획득하고, 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성하며, 상기 이미지 세트를 네트워크 함수에 입력하여, 상기 복수의 레이블 세트 중 적어도 2 이상에 대응하는 적어도 하나의 학습 모델을 생성할 수 있다.

실시예에서, 프로세서(1340)는 복수의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 레이블 정보를 각각 수신하고, 상기 레이블 정보에 기초하여 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링을 수행함으로써, 상기 레이블 정보 각각에 대응하는 상기 복수의 레이블 세트를 생성 수 있다.

실시예에서, 상기 복수의 레이블 세트는 제 1 레이블 세트와 제 2 레이블 세트를 포함하고, 프로세서(1340)는 상기 제 1 레이블 세트를 상기 네트워크 함수에 입력하여 생성된 출력 결과에 기초하여 상기 제 2 레이블 세트를 생성할 수 있다.

실시예에서, 프로세서(1340)는 재현율(recall), 정밀도(precision), 정확도(accuracy) 및 이들의 조합 중 적어도 하나에 기초하여 상기 복수의 학습 모델 중 적어도 2 이상에 대하여 성능을 비교할 수 있다.

실시예에서, 프로세서(1340)는 상기 학습 모델 중 적어도 2 이상을 결합하여, 앙상블 모델(ensemble model)을 구축할 수 있다.

실시예에서, 프로세서(1340)는 복수의 이미지를 포함하는 이미지 세트를 획득하고, 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성할 수 있다. 이때, 복수의 레이블 세트는, 레이블링 난이도가 상이한 종류의 제 1 레이블 세트와 제 2 레이블 세트를 포함하며, 프로세서(1340)는, 레이블링 난이도가 낮은 상기 제 1 레이블 세트를 기초로 상기 제 2 레이블 세트를 생성할 수 있다.

실시예에서, 프로세서(1340)는 적어도 하나의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 제 1 레이블 정보를 수신하고, 상기 제 1 레이블 정보에 기초하여, 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링(labeling)을 수행함으로써, 상기 복수의 이미지 각각에 대한 제 1 레이블을 포함하는 제 1 레이블 세트를 생성하며, 상기 이미지 세트 및 상기 제 1 레이블 세트를 제 1 네트워크 함수에 입력하여 학습을 수행하고, 출력 결과에 기초하여 상기 복수의 이미지 각각에 대한 제 2 레이블을 포함하는 제 2 레이블 세트를 생성할 수 있다.

실시예에서, 프로세서(1340)는 상기 복수의 이미지 각각에 대응하는 클래스 활성화 맵 각각에 대하여 문턱(threshold) 값을 소정의 값 또는 범위로 설정하여 약한 레이블링(weak labeling) 영역을 추출함으로써, 상기 제 2 레이블을 생성할 수 있다.

실시예에서, 프로세서(1340)는 상기 이미지 세트 및 상기 제 2 레이블 세트를 제 2 네트워크 함수에 입력하여 학습을 수행함으로써, 학습 모델을 생성할 수 있다.

본 개시의 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 개시를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

또한, 개시된 실시예들에 따른 방법은 컴퓨터 프로그램 제품(computer program product)에 포함되어 제공될 수 있다. 컴퓨터 프로그램 제품은 상품으로서 판매자 및 구매자 간에 거래될 수 있다.

컴퓨터 프로그램 제품은 S/W 프로그램, S/W 프로그램이 저장된 컴퓨터로 읽을 수 있는 저장 매체를 포함할 수 있다. 예를 들어, 컴퓨터 프로그램 제품은 전자 장치의 제조사 또는 전자 마켓(예, 구글 플레이 스토어, 앱 스토어)을 통해 전자적으로 배포되는 S/W 프로그램 형태의 상품(예, 다운로더블 앱)을 포함할 수 있다. 전자적 배포를 위하여, S/W 프로그램의 적어도 일부는 저장 매체에 저장되거나, 임시적으로 생성될 수 있다. 이 경우, 저장 매체는 제조사의 서버, 전자 마켓의 서버, 또는 SW 프로그램을 임시적으로 저장하는 중계 서버의 저장매체가 될 수 있다.

컴퓨터 프로그램 제품은, 서버 및 클라이언트 장치로 구성되는 시스템에서, 서버의 저장매체 또는 클라이언트 장치의 저장매체를 포함할 수 있다. 또는, 서버 또는 클라이언트 장치와 통신 연결되는 제 3 장치(예, 스마트폰)가 존재하는 경우, 컴퓨터 프로그램 제품은 제 3 장치의 저장매체를 포함할 수 있다. 또는, 컴퓨터 프로그램 제품은 서버로부터 클라이언트 장치 또는 제 3 장치로 전송되거나, 제 3 장치로부터 클라이언트 장치로 전송되는 S/W 프로그램 자체를 포함할 수 있다.

이 경우, 서버, 클라이언트 장치 및 제 3 장치 중 하나가 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 수행할 수 있다. 또는, 서버, 클라이언트 장치 및 제 3 장치 중 둘 이상이 컴퓨터 프로그램 제품을 실행하여 개시된 실시예들에 따른 방법을 분산하여 실시할 수 있다.

예를 들면, 서버(예로, 클라우드 서버 또는 인공 지능 서버 등)가 서버에 저장된 컴퓨터 프로그램 제품을 실행하여, 서버와 통신 연결된 클라이언트 장치가 개시된 실시예들에 따른 방법을 수행하도록 제어할 수 있다.

이상에서 실시예들에 대하여 상세하게 설명하였지만 본 개시의 권리범위는 이에 한정되는 것은 아니고 다음의 청구범위에서 정의하고 있는 본 개시의 기본 개념을 이용한 당업자의 여러 변형 및 개량 형태 또한 본 개시의 권리범위에 속한다.

Claims

다중 레이블 세트를 이용한 학습 모델 생성 방법에 있어서,

복수의 이미지를 포함하는 이미지 세트를 획득하는 단계; 및

상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성하는 단계를 포함하는, 방법.
제 1 항에 있어서,

상기 이미지 세트를 네트워크 함수에 입력하여, 상기 복수의 레이블 세트 중 적어도 2 이상에 대응하는 복수의 학습 모델을 생성하는 단계를 더 포함하는, 방법.
제 2 항에 있어서,

상기 복수의 레이블 세트를 생성하는 단계는,

복수의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 레이블 정보를 각각 수신하는 단계; 및

상기 레이블 정보에 기초하여 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링을 수행함으로써, 상기 레이블 정보 각각에 대응하는 상기 복수의 레이블 세트를 생성하는 단계를 포함하는, 방법.
제 2 항에 있어서,

상기 복수의 학습 모델 중 적어도 2 이상에 대하여 성능을 비교하는 단계를 더 포함하고,

상기 성능은 재현율(recall), 정밀도(precision), 정확도(accuracy) 및 이들의 조합 중 적어도 하나에 기초하여 산출되는, 방법.
제 2 항에 있어서,

상기 복수의 학습 모델은 각각 객체 검출(object detection), 객체 분류(object classification), 객체 분할(object segmentation), 문자 인식(character recognition), 예측(prediction) 및 이상 탐지(anomaly detection) 중 하나를 수행하는, 방법.
제 2 항에 있어서,

상기 학습 모델 중 적어도 2 이상을 결합하여, 앙상블 모델(ensemble model)을 구축하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,

상기 복수의 레이블 세트는, 레이블링 난이도가 상이한 종류의 제 1 레이블 세트와 제 2 레이블 세트를 포함하며,

상기 복수의 레이블 세트를 생성하는 단계는,

레이블링 난이도가 낮은 상기 제 1 레이블 세트를 기초로 상기 제 2 레이블 세트를 생성하는 단계를 포함하는, 방법.
제 7 항에 있어서,

상기 복수의 레이블 세트를 생성하는 단계는,

적어도 하나의 사용자로부터 상기 이미지 세트에 속하는 복수의 이미지 중 적어도 하나에 대한 제 1 레이블 정보를 수신하는 단계;

상기 제 1 레이블 정보에 기초하여, 상기 이미지 세트에 포함된 복수의 이미지에 대해 레이블링(labeling)을 수행함으로써, 상기 복수의 이미지 각각에 대한 제 1 레이블을 포함하는 제 1 레이블 세트를 생성하는 단계; 및

상기 이미지 세트 및 상기 제 1 레이블 세트를 제 1 네트워크 함수에 입력하여 학습을 수행하고, 출력 결과에 기초하여 상기 복수의 이미지 각각에 대한 제 2 레이블을 포함하는 제 2 레이블 세트를 생성하는 단계를 포함하는, 방법.
제 8 항에 있어서,

상기 제 1 네트워크 함수의 출력 결과는,

상기 제 1 네트워크 함수가 상기 복수의 이미지 각각에 대해 적어도 어느 일 부분에 기초하여 상기 제 1 레이블에 대응되는 결과를 출력하였는지에 관한 정보를 포함하는, 방법.
제 9 항에 있어서,

상기 제 1 네트워크 함수의 출력 결과는,

상기 복수의 이미지 각각에 대해 적어도 어느 일 부분에 기초하여 상기 제 1 레이블에 대응되는 결과를 출력하였는지에 관한 정보를 히트 맵(heat map) 형태로 포함하는, 방법.
제 10 항에 있어서,

상기 제 1 네트워크 함수의 출력 결과는,

상기 제 1 레이블에 대응하는 결과에 대한 상기 복수의 이미지 각각의 클래스 활성화 맵(Class Activation Map, CAM)을 포함하는, 방법.
제 11 항에 있어서,

상기 제 2 레이블 세트를 생성하는 단계에서,

상기 제 2 레이블은 상기 복수의 이미지 각각에 대응하는 상기 클래스 활성화 맵 각각에 대하여 문턱(threshold) 값을 소정의 값 또는 범위로 설정하여 약한 레이블링(weak labeling) 영역을 추출함으로써, 생성되는, 방법.
제 8 항에 있어서,

상기 이미지 세트 및 상기 제 2 레이블 세트를 제 2 네트워크 함수에 입력하여 학습을 수행함으로써, 학습 모델을 생성하는 단계를 더 포함하는, 방법.
제 8 항에 있어서,

상기 제 1 레이블은 객체 분류 레이블이고, 상기 제 2 레이블은 객체 인식 레이블 및 객체 분류 레이블 중 적어도 하나인, 방법.
다중 레이블 세트를 이용한 학습 모델 생성 장치에 있어서,

적어도 하나의 프로세서; 및

상기 프로세서에 의해 실행 가능한 프로그램을 저장하는 메모리를 포함하고,

상기 프로세서는, 상기 프로그램을 실행함으로써, 복수의 이미지를 포함하는 이미지 세트를 획득하고, 상기 이미지 세트에 대하여 상이한 종류의 복수의 레이블 세트를 생성하는, 장치.