KR102437962B1 - 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법 - Google Patents

회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법 Download PDF

Info

Publication number
KR102437962B1
KR102437962B1 KR1020220035183A KR20220035183A KR102437962B1 KR 102437962 B1 KR102437962 B1 KR 102437962B1 KR 1020220035183 A KR1020220035183 A KR 1020220035183A KR 20220035183 A KR20220035183 A KR 20220035183A KR 102437962 B1 KR102437962 B1 KR 102437962B1
Authority
KR
South Korea
Prior art keywords
characteristic information
domain
regression
domain data
source
Prior art date
Application number
KR1020220035183A
Other languages
English (en)
Inventor
유자연
정인섭
곽노준
나종근
Original Assignee
주식회사 스누아이랩
서울대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 스누아이랩, 서울대학교 산학협력단 filed Critical 주식회사 스누아이랩
Priority to KR1020220035183A priority Critical patent/KR102437962B1/ko
Application granted granted Critical
Publication of KR102437962B1 publication Critical patent/KR102437962B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • G06N3/0472
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Optimization (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Pure & Applied Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Algebra (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Probability & Statistics with Applications (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Multimedia (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법에 관한 것으로서, 본 발명의 실시예에 따른 회귀 스케일 인식 교차 도메인 객체 탐지 장치는, 레이블이 존재하는 소스 이미지의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 저장부, 및 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 상자를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 소스 도메인 데이터의 제1 특징 정보와 타겟 도메인 데이터의 제2 특징 정보를 일치시켜 도메인이 불변하는 학습 동작을 수행하는 제어부를 포함할 수 있다.

Description

회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법{Device for Regression Scale-aware Cross-domain Object Detection and Driving Method Thereof}
본 발명은 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법에 관한 것으로서, 더 상세하게는 가령 적대적 학습 방법을 사용하여 레이블이 존재하는 기존의 데이터 집합(Source Domain)과 새로운 도메인의 레이블이 없는 데이터 집합(Target Domain)을 이용하여 모델을 학습하되, 회귀 스케일(regression scale)에 따라 특징 정보의 분포가 달라지는 것을 이용하여 소스 도메인과 타겟 도메인의 특징 정보를 스케일 값에 대해 조건을 형성하고, 그 형성한 특징 정보가 도메인 불변(invariant)이 되도록 학습하는 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법에 관한 것이다.
일반적으로, 딥러닝 모델 기반의 지도 학습은 다양한 소스로부터 확보된 대규모 데이터를 활용하여 학습시켰을 때 잘 동작하나, 모든 학습 데이터에 대해 레이블(label)을 지정하는 등 주석(annotation) 작업을 수행해야 한다. 이때, 도메인에 따라 레이블된 데이터의 확보가 어려운 경우가 많아서 데이터의 규모가 충분하지 않은 경우가 많다. 이렇게 중소 규모의 데이터를 활용하여 학습을 수행하는 경우 데이터의 도메인 편중(domain bias)이 발생될 수도 있다. 즉, 딥러닝 모델이 학습 데이터가 주로 속하는 도메인의 데이터에 대해서는 작업(task)을 잘 수행하지만 특성이 다른 도메인의 데이터에 대해서는 수행 성능이 떨어지는 도메인 쉬프트(domain shift) 문제가 발생할 수 있다.
이와 같은 문제를 해결하기 위해, 레이블을 상대적으로 확보하기 쉬운 소스 도메인의 데이터를 활용하여 딥러닝 모델을 학습시킨 후 소스 도메인에서 학습된 지식(knowledge)을 레이블을 확보하기 어려운 타깃 도메인으로 이전(transfer)하는 도메인 적응(domain adaptation) 기법이 제시되었다. 이러한 도메인 적응 기법은 타깃 도메인의 레이블이 거의 또는 전혀 없는 비지도 학습(unsupervised learning) 방법이며, 전이 학습(transfer learning)의 일종이다.
그런데, 종래의 학습 방법은 테스트 데이터 집합이 학습 데이터와 다른 분포를 가질 경우, 기존에 학습한 모델의 성능이 현저하게 떨어지는 문제가 발생한다. 이와 같이 데이터 집합(set)의 분포가 달라졌을 경우, 모델을 적응시키는 가장 효과적인 방법은 새로운 데이터 집합에 대하여 레이블링하여 모델을 새로 학습시키는 것이다. 하지만, 데이터 집합의 분포가 달라질 때마다 레이블을 하는 것은 비용이 매우 큰 과정이다. 특히, 객체 탐지(Object Detection)의 경우, 한 이미지 내에 존재하는 여러 물체들의 카테고리뿐만 아니라 경계 상자(bounding box)의 위치까지 레이블을 만들어야 하므로, 레이블 비용이 매우 높은 문제가 있다.
이를 비지도 도메인 적응 학습(Unsupervised Domain Adaptation)을 통하여 해결한다. 비지도 도메인 적응 학습이란 레이블이 존재하는 기존의 데이터 집합과 새로운 도메인의 레이블이 없는 데이터 집합을 이용하여 모델을 학습함으로써 모델이 새로운 도메인에서 잘 작동하도록 목표로 하는 학습이다. 또한, 비지도 도메인 적응 객체 탐지(Domain Adaptive Object Detection) 학습의 목표는 레이블이 존재하는 소스 도메인과 레이블이 없는 소스 도메인을 이용하여 객체 탐지 모델을 학습함으로써 객체 탐지 모델이 타겟 도메인에서 잘 작동하도록 하는 것을 목표로 한다.
이와 관련해, 종래에는 적대적 학습을 통한 특징점(feature)들의 분포 매칭 방법이 공지된 바 있다. 객체 탐지기는 소스 도메인 데이터를 이용하여 지도 학습을 하고, 도메인 판별기(Domain Discriminator)를 두어 객체 탐지기의 백본(backbone)에서 나오는 소스 도메인의 특징점(혹은 특징 정보)과 타겟 도메인의 특징점이 같은 분포를 갖도록 학습한다. 두 도메인의 백본 특징점이 같은 분포를 갖게 됨으로써 소스 도메인으로 학습한 객체 탐지기가 타겟 도메인에서도 잘 작동하게 된다. 최근에는 객체 탐지시 이미지 내의 인스턴스(instance)의 카테고리별로 특징점을 얼라인(Align) 즉 정렬(혹은 일치)하는 방법들도 여럿 제시되고 있다.
그런데, 종래의 객체 탐지 모델에서 백본의 특징점이 객체의 카테고리에 따라 특징점의 분포가 달라지는 것뿐만 아니라, 경계 상자를 그리기 위한 회귀 값의 스케일에 따라서도 분포가 달라지는 문제가 발생하고 있다.
한국등록특허공보 제10-2348869호(2022.01.04) 한국공개특허공보 제10-2018-0120478호(2018.11.06)
MeGA-CDA: Memory Guided Attention for Category-Aware Unsupervised Domain Adaptive Object Detection, Vibashan VS et al, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021
본 발명의 실시예는 가령 적대적 학습 방법을 사용하여 레이블이 존재하는 기존의 데이터 집합과 새로운 도메인의 레이블이 없는 데이터 집합을 이용하여 모델을 학습하되, 회귀 스케일에 따라 특징 정보의 분포가 달라지는 것을 이용하여 소스 도메인과 타겟 도메인의 특징 정보를 스케일 값에 대해 조건을 형성하고, 그 형성한 특징 정보가 도메인 불변이 되도록 학습하는 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법을 제공함에 그 목적이 있다.
본 발명의 실시예에 따른 회귀 스케일 인식 교차 도메인 객체 탐지 장치는, 레이블이 존재하는 소스 이미지(source image)의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 저장부, 및 상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 박스를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치시키는 도메인이 불변하는 학습 동작을 수행하는 제어부를 포함한다.
상기 제어부는, 상기 회귀 값의 스케일에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시킬 수 있다.
상기 제어부는, 상기 제1 특징 정보 및 상기 제2 특징 정보가 상기 회귀 값에 대해 기설정된 조건을 만족하는지 판단하고, 조건을 만족하는 제1 특징 정보 및 제2 특징 정보를 일치시킬 수 있다.
상기 제어부는, 상기 회귀 값을 활용하기 위한 기준값을 설정하고, 상기 설정한 기준값을 초과할 때의 상기 회귀 값을 반영하여 상기 제1 특징 정보 및 상기 제2 특징 정보를 일치시킬 수 있다.
또한, 본 발명의 실시예에 따른 회귀 스케일 인식 교차 도메인 객체 탐지 장치의 구동방법은 저장부가, 레이블이 존재하는 소스 이미지의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 단계, 및 제어부가, 상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 박스를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치시켜 도메인이 불변하는 학습 동작을 수행하는 단계를 포함한다.
상기 수행하는 단계는, 상기 회귀 값의 스케일에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시킬 수 있다.
상기 수행하는 단계는, 상기 제1 특징 정보 및 상기 제2 특징 정보가 상기 회귀 값에 대해 기설정된 조건을 만족하는지 판단하고, 조건을 만족하는 제1 특징 정보 및 제2 특징 정보를 일치시킬 수 있다.
상기 수행하는 단계는, 상기 회귀 값을 활용하기 위한 기준값을 설정하고, 상기 설정한 기준값을 초과할 때의 상기 회귀 값을 반영하여 상기 제1 특징 정보 및 상기 제2 특징 정보를 일치시킬 수 있다.
본 발명의 실시예에 따르면, 적대적 학습 방법을 사용할 때 두 도메인 즉 소스 도메인과 타겟 도메인의 특징 정보가 같은 분포를 갖도록 하여 객체 탐지의 성능을 개선할 수 있을 것이다.
또한, 본 발명의 실시예에 따르면 객체 탐지 작업에서 회귀 값에 대해 조건부적으로 즉 조건을 만족할 때 특징 정보를 정렬하는 성능 개선에 효과적이다.
도 1은 본 발명의 실시예에 따른 비지도 도메인 적응 장치의 세부구조를 예시한 블록다이어그램,
도 2는 도 1의 비지도 도메인 적응 장치의 객체 탐지 동작에 대한 프레임워크를 설명하기 위한 도면,
도 3은 레이블이 존재하는 소스 도메인과 레이블이 존재하지 않는 타겟 도메인을 설명하기 위한 도면,
도 4는 백본 네트워크(예: VGG16)에서 출력되는 특징점을 TSNE로 시각화하여 보여주는 도면,
도 5는 확률벡터 P의 분포를 설명하기 위한 그래프,
도 6은 클래스 신뢰도(class confidence)에 따른 회귀 값과 GT 값의 차이를 비교하여 보여주는 그래프, 그리고
도 7은 도 1의 비지도 도메인 적응 장치의 구동과정을 나타내는 흐름도이다.
이하, 도면을 참조하여 본 발명의 실시예에 대하여 상세히 설명한다.
도 1은 본 발명의 실시예에 따른 비지도 도메인 적응 장치의 세부구조를 예시한 블록다이어그램이다.
도 1에 도시된 바와 같이, 본 발명의 실시예에 따른 비지도 도메인 적응 장치(90)는 통신 인터페이스부(100), 제어부(110), 비지도 도메인 적응부(120) 및 저장부(130)의 일부 또는 전부를 포함한다.
여기서, "일부 또는 전부를 포함한다"는 것은 저장부(130)와 같은 일부 구성요소가 생략되어 비지도 도메인 적응 장치(90)가 구성되거나, 비지도 도메인 적응부(120)와 같은 일부 구성요소가 제어부(110)와 같은 다른 구성요소에 통합되어 구성될 수 있는 것 등을 의미하는 것으로서, 발명의 충분한 이해를 돕기 위하여 전부 포함하는 것으로 설명한다.
구체적인 설명에 앞서, 본 발명의 실시예에 따른 비지도 도메인 적응 장치(90)는 모델(model)에 대해 소스 도메인(source domain)에 대한 지도 학습(supervised learning)이 이루어짐과 동시에 타겟 도메인(target domain)에 대해 비지도 도메인 적응(UDA: unsupervised domain adaptation)시키기 위한 장치로서, 인공지능이 적용되는 자율주행차, 데스크탑컴퓨터나 랩탑컴퓨터, 그리고 서버 등에 구성될 수 있으며, 여기서 서버는 통신망에 연결되어 동작할 수 있다. 또한, 소스 도메인은 데이터와 레이블이 쌍(pair)을 포함하는 도메인이며, 타겟 도메인은 데이터만을 포함하는 도메인이다. 소스 도메인은 게임 영상 등을 통해 취득한 데이터가 해당될 수 있으며, 타겟 도메인은 카메라 촬영과 같은 실사 도메인의 데이터를 포함할 수 있다. 예컨대 자율주행차 분야에 본 발명의 실시예가 적용되는 경우, 소스 도메인은 사전에 데이터를 구축되어 기저장될 수 있으며, 타겟 도메인은 카메라에 의해 촬영된 실사 기반의 촬영 이미지로 레이블을 포함하지 않을 수 있다. 따라서, 실사 기반의 타겟 도메인을 적응시키기 위해 소스 도메인을 활용한다.
도 1에서 통신 인터페이스부(100)는 예를 들어, 비지도 도메인 적응 장치(90)가 컴퓨터나 서버 등에 구성될 때, 주변 장치와 통신하기 위한 동작을 수행한다. 예를 들어, 비지도 도메인 적응 장치(90)가 자율주행차에 구성되는 경우, 비지도 도메인 적응 장치(90)는 카메라에서 촬영되는 촬영 영상을 학습을 위해 수신하여 제어부(110)에 제공할 수 있다.
통신 인터페이스부(100)는 별도의 압축 즉 인코딩 동작없이 데이터를 수신할 수 있지만, 가령 자율주행차의 경우 카메라와 같은 촬영장치로부터 데이터를 압축하여 수신할 필요는 없으므로, 별도의 압축 동작 없이 수신할 수 있다. 반면, 서버 등에 구성되는 경우에는 통신망을 경유하여 사용자의 컴퓨터 등의 단말장치와 통신을 위하여 변/복조, 먹싱/디먹싱, 인코딩/디코딩 등의 동작을 수행할 수 있으며, 이는 당업자에게 자명하므로 더 이상의 설명은 생략한다.
제어부(110)는 도 1의 통신 인터페이스부(100), 비지도 도메인 적응부(120) 및 저장부(130)의 전반적인 제어 동작을 수행한다. 예를 들어, 저장부(130)에 소스 도메인 데이터와 타겟 도메인 데이터가 분류되어 저장되어 있는 경우, 제어부(110)는 비지도 도메인 적응부(120)의 요청에 따라 데이터를 저장부(130)에서 불러내어 제공할 수 있다. 예를 들어, 제어부(110)는 통신 인터페이스부(100)를 통해 자율주행차 등과 같이 촬영영상의 딥러닝을 위한 비디오 프레임을 수신한 경우를 가정해 보자. 이의 경우, 제어부(110)는 레이블이 없는 타겟 도메인 데이터를 근거로 딥러닝 동작을 수행하지만, 이때 소스 도메인 데이터에 적응시켜 이를 활용함으로써 딥러닝의 정확도를 높일 수 있다. 가령, 레이블이 없는 데이터의 경우 레이블이 있는 데이터로 학습하는 경우에 비해 정확도는 떨어진다. 따라서, 본 발명의 실시예에서는 비지도 학습에 따른 동작을 수행하지만, 해당 타겟 데이터를 이용하여 지도 학습에 준하는 동작을 수행한다고 볼 수 있다.
비지도 도메인 적응부(120)는 제어부(110)에 의해 제어되며, 내부에 본 발명의 실시예에 따른 회귀 스케일 인식 교차 도메인 객체 탐지를 위한 프레임워크로 구성되는 프로그램을 탑재할 수 있다(도 2 참조). 물론 그러한 프레임워크는 소프트웨어나 하드웨어, 또는 그 조합에 의해 구성될 수 있으므로 본 발명의 실시예에서는 소프트웨어에 특별히 한정하지는 않을 것이다. 비지도 도메인 적응부(120)는 객체 탐지를 위한 비지도 도메인 적응 동작을 수행한다. 특히 객체 탐지의 경우 하나의 이미지(예: 타겟 이미지) 내에 존재하는 여러 물체들(혹은 객체들)의 카테고리뿐만 아니라 경계 상자의 위치까지 레이블을 만든다고 볼 수 있다. 이를 위하여 비지도 도메인 적응부(120)는 비지도 도메인 적응 학습을 수행한다. 비지도 도메인 적응 학습은 레이블이 존재하는 소스 도메인 데이터를 이용하여 새로운 도메인 즉 타겟 이미지의 타겟 도메인의 레이블이 없는 데이터 집합을 이용하여 모델 즉 학습 프로그램을 학습함으로써 모델이 새로운 도메인에 잘 작동하도록 한다. 여기서, 모델은 어떤 동작을 수행하도록 구성된 정형화된 프로그램이라고 볼 수 있다.
상기한 내용에 근거할 때 본 발명의 실시예에 따른 비지도 도메인 적응부(120)는 객체 탐지기와 도메인 판별기를 포함하여 구성될 수 있다. 객체 탐지기는 소스 도메인 데이터를 이용하여 지도 학습을 수행한다. 또한, 도메인 판별기는 객체 탐지기의 백본에서 출력되는 소스 도메인의 특징점 등의 특징 정보와 타겟 도메인의 특징 정보가 같은 분포를 갖도록 학습한다. 두 도메인의 백본 특징 정보가 같은 분포를 갖게 됨으로써 소스 도메인으로 학습한 객체 탐지기가 타겟 도메인에서도 잘 작동하게 된다. 여기서, 객체 탐지기는 소스 이미지의 소스 도메인이나 타겟 이미지의 타겟 도메인에서 특징점과 같은 특징 정보를 추출하는 VGG16 등의 백본으로 구성되는 특징 추출기, 또 소스 도메인의 제1 특징 정보와 타겟 도메인의 제2 특징 정보를 이용하여 기설정한 조건을 만족하는지의 여부를 판단하고, 조건을 만족하는 제1 특징 정보와 제2 특징 정보를 정렬하는(혹은 일치시키는) 특징정보 정렬부를 포함할 수 있다. 물론 여기서 특징정보 정렬부는 조건 판단부와 정렬부로 구성될 수 있다. 조건 판단부와 정렬부는 하드웨어, 소프트웨어, 또는 그 조합에 의해 구성될 수 있으므로, 어느 하나의 형태에 특별히 한정하지는 않을 것이다.
저장부(130)는 제어부(110)의 제어하에 처리되는 데이터나 정보를 임시 저장할 수 있으며, 비지도 도메인 적응부(120)의 분석 결과 즉 분석 데이터를 저장할 수 있다. 여기서, 정보는 제어 명령 등을 지칭하는 것이지만, 실무상 두 용어는 혼용되어 사용되므로 그 용어의 개념에 특별히 한정하지는 않을 것이다. 예를 들어, 저장부(130)는 본 발명의 실시예에 따라 소스 도메인 데이터와 타겟 도메인 데이터의 영역을 분류하여 저장할 수 있으며, 비지도 도메인 적응부(120)의 요청에 따라 관련 데이터를 출력할 수 있다. 물론 데이터는 비지도 도메인 적응부(120)의 내부에 소프트웨어적으로 생성될 수도 있으므로 위의 내용에 특별히 한정하지는 않을 것이다.
상기한 내용 이외에도 도 1의 통신 인터페이스부(100), 제어부(110), 비지도 도메인 적응부(120) 및 저장부(130)는 다양한 동작을 수행할 수 있으며, 기타 자세한 내용은 이후에 좀더 설명되므로 그 내용들로 대신하고자 한다.
본 발명의 실시예에 따른 도 1의 통신 인터페이스부(100), 제어부(110), 비지도 도메인 적응부(120) 및 저장부(130)는 서로 물리적으로 분리된 하드웨어 모듈로 구성되지만, 각 모듈은 내부에 상기의 동작을 수행하기 위한 소프트웨어를 저장하고 이를 실행할 수 있을 것이다. 다만, 해당 소프트웨어는 소프트웨어 모듈의 집합이고, 각 모듈은 하드웨어로 형성되는 것이 얼마든지 가능하므로 소프트웨어니 하드웨어니 하는 구성에 특별히 한정하지 않을 것이다. 예를 들어 저장부(130)는 하드웨어인 스토리지(storage) 또는 메모리(memory)일 수 있다. 하지만, 소프트웨어적으로 정보를 저장(repository)하는 것도 얼마든지 가능하므로 위의 내용에 특별히 한정하지는 않을 것이다.
한편, 본 발명의 다른 실시예로서 제어부(110)는 CPU 및 메모리를 포함할 수 있으며, 원칩화하여 형성될 수 있다. CPU는 제어회로, 연산부(ALU), 명령어해석부 및 레지스트리 등을 포함하며, 메모리는 램을 포함할 수 있다. 제어회로는 제어동작을, 그리고 연산부는 2진비트 정보의 연산동작을, 그리고 명령어해석부는 인터프리터나 컴파일러 등을 포함하여 고급언어를 기계어로, 또 기계어를 고급언어로 변환하는 동작을 수행할 수 있으며, 레지스트리는 소프트웨어적인 데이터 저장에 관여할 수 있다. 상기의 구성에 따라, 가령 비지도 도메인 적응 장치(90)의 동작 초기에 비지도 도메인 적응부(120)에 저장되어 있는 프로그램을 복사하여 메모리 즉 램(RAM)에 로딩한 후 이를 실행시킴으로써 데이터 연산 처리 속도를 빠르게 증가시킬 수 있다. 딥러닝 모델 같은 경우 램(RAM)이 아닌 GPU 메모리에 올라가 GPU를 이용하여 수행 속도를 가속화하여 실행될 수도 있다.
도 2는 도 1의 비지도 도메인 적응부의 객체 탐지 동작에 대한 프레임워크를 설명하기 위한 도면, 도 3은 레이블이 존재하는 소스 도메인과 레이블이 존재하지 않는 타겟 도메인을 설명하기 위한 도면, 도 4는 백본 네트워크(예: VGG16)에서 출력되는 특징점을 TSNE로 시각화하여 보여주는 도면, 도 5는 확률벡터 P의 분포를 설명하기 위한 그래프, 그리고 도 6은 클래스 신뢰도에 따른 회귀 값과 GT 값의 차이를 비교하여 보여주는 그래프이다.
도 2에 도시된 바와 같이, 본 발명의 실시예에 따른 도 1의 비지도 도메인 적응부(120)는 객체 탐지기와 도메인 판별기를 포함하여 구성될 수 있으며, 도 2에서는 그 중에서도 객체 탐지기를 위한 프레임워크를 보여준다고 볼 수 있다.
객체 탐지기(혹은 객체 탐지부)는 VGG16 등의 백본과 같은 특징 추출기, 나아가 특징 정보 정렬부를 포함하며, 여기서 특징정보 정렬부(200, 210)는 조건 판별부(200)와 정렬부(210)를 포함하여 구성될 수 있다. 물론 여기서 조건 판별부(200)나 정렬부(210)는 소프트웨어, 하드웨어, 또는 그 조합에 의해 구성될 수 있다. 헤드(Head)는 다양한 식별정보를 의미할 수 있다.
특징 추출기(혹은 특징 추출부)는 입력된 이미지에 대하여 특징(점)을 추출한다. 여기서, 특징(정보)이라 함은 예를 들어 이미지상에 객체의 특징점을 의미할 수 있지만, 객체와 주변 배경과의 상관관계 등 다양한 정보를 포함할 수 있다. 가령, 객체의 컬러나 모양의 속성 정보 등도 특징이 될 수 있다. 특징 추출부는 소스 이미지와 타겟 이미지를 입력받아 각각 특징을 추출한다. 특징 추출부에서 추출되는 특징 정보들은 일종의 맵 데이터와 같은 형태를 가지므로 특징 정보 맵이라 명명될 수 있다. 다시 말해, 하나의 이미지에는 다양한 객체가 구성되므로, 각 객체의 정보들이 모여 있어 맵 정보라 명명될 수 있다.
도 3은 도 2의 특징 추출부로 입력되는 소스 이미지와 타겟 이미지를 예시하고 있으며, 또한 소스 이미지는 레이블 정보를 갖지만, 타겟 이미지는 레이블 정보를 갖지 않는다는 것을 보여준다. UDA 세팅은 레이블이 있는 소스 도메인 데이터셋 즉 데이터 집합에 대하여 학습을 잘 시키고자 하는 문제이다. 따라서 본 발명의 실시예는 적대적 학습 방법에 대한 UDA에 관련된다. 나아가, 적대적 학습을 통한 특징점들의 분포 매칭 방법에 관련된다. 도 3에서 볼 때 레이블이 존재하는 소스 도메인의 데이터 셋(Source Domain Dataset) = {X_s, Y_s}로 표현할 수 있으며, 여기서 X_s는 입력 이미지(input image), Y_s의 경우 각 물체의 카테고리, 경계 상자의 위치 정보가 될 수 있다. 또한, 레이블이 없는 타겟 도메인 데이터셋(Target Domain Dataset) = {X_t}로 표현될 수 있으며, X_t는 입력 이미지를 나타낸다. 소스 도메인 데이터를 이용하여 타겟 도메인 데이터에 대한 객체 탐지 성능을 높이도록 하는 것이며, 타겟 도메인에 레이블이 없어 지도(supervision)를 줄 수 없기 때문에 비지도(unsupervised)라는 표현을 사용한다.
비지도 도메인 적응 객체 탐지 학습의 목표는 레이블이 존재하는 소스 도메인과 레이블이 없는 타겟 도메인을 이용하여 객체 탐지 모델을 학습함으로써 객체 탐지 모델이 타겟 도메인에도 잘 작동하도록 하려는 것이다.
도 2의 백본 네트워크에서 나오는 특징정보를 TSNE로 시각화하면 도 4에서와 같이 객체의 카테고리별로 분포를 보이기도 하지만, 경계 상자에 대한 회귀 값에 따라서도 분포가 달라지는 것을 알 수 있다. 도 4의 (a)는 부류(class)에 따른 분포를 보여주고, 도 4의 (b)는 GT 경계 상자들(t, 여기서 t는 회귀 값인 Top값)에 대한 상측(top) 거리에 따른 분포를 보여주며, 도 4의 (c)는 GT 경계 상자들(b, 여기서 b는 회귀 값인 Bottom값)에 대한 바닥(bottom) 거리에 따른 분포를 각각 보여주고 있다. 도 4에서 볼 수 있는 바와 같이, 객체 탐지 모델에서 백본 특징정보가 객체의 카테고리에 따라 특징정보 분포가 달라지는 것뿐만 아니라 경계 상자를 그리기 위한 회귀 값의 스케일에 따라서도 분포가 달라지는 것을 보였다.
따라서, 도 2의 특징정보 정렬부(200, 210)는 회귀 스케일에 따라 특징정보 분포가 달라지는 것을 이용하여 소스 도메인과 타겟 도메인의 특징정보를 회귀 값에 대해 조건을 형성하고, 또는 기설정된 조건을 만족하는지 판단하고 이 조건이 형성된 특징 정보가 도메인 불변하도록 학습하기 위해 소스 도메인과 타겟 도메인의 특징정보를 정렬한다. 도메인 불변이란 소스 도메인의 특징정보와 타겟 도메인의 특징정보를 얼라인 즉 일치시켜 도메인의 특성 즉 특징정보의 분포 등이 서로 달라지는 것을 방지하는 것이라 볼 수 있다. 여기서, 소스 도메인의 특징정보는 제1 특징정보라 명명될 수 있으며, 타겟 도메인의 특징정보는 제2 특징정보라 명명될 수 있다. 이후에 좀더 다루겠지만, 본 발명의 실시예에서는 Cityscape → Foggy Cityscape, Sim10k → Cityscape 벤치마크에서 다른 모델과 비교하여 가장 좋은 성능을 보임으로써, 객체 탐지 작업에 대해서 회귀 값에 대해 조건부적으로 특징 정보를 정렬하는 것이 매우 효과적임을 확인할 수 있다.
좀더 구체적으로 특징정보 정렬부(200, 210)에서 어떻게 회귀 스케일에 의해 특징정보가 정렬되는지 먼저 살펴보고, 이어 어떠한 회귀 값(regression value)이 신뢰할 수 있는지를 살펴보도록 한다. 회귀 결과(예: left, top, right, bottom)의 각 값을 3개의 빈(bin)에 속할 확률 벡터로 계산한다. 여기서, 빈 혹은 비닝(binning)은 연속적인 데이터 집합을 범주화하는 것을 의미한다. 각 값을 x라 했을 때 이진 로그(log2)로 바꾼 뒤, 비닝 중간값(binning mean)으로 설정한 m = (m1, m2, m3)에 대한 L2 거리를 소프트맥스(softmax)를 취하여 각 3개의 빈에 속할 확률을 계산한다. 소프트맥스 함수는 지수함수를 사용하므로 '정규화된 지수 함수'라고도 한다. 관계식은 <수학식 1>과 같이 나타낼 수 있으며, 도 5에서는 m = [3.5, 4.5, 5.5]일 때 확률벡터 P의 분포를 보여주고 있다.
Figure 112022030617476-pat00001
초반에는 회귀 결과값이 정확하지 않을 수 있기 때문에, 각 빈에 속할 확률을 (1/3, 1/3, 1/3)로 시작하여 반복(iteration)이 진행될 수 있도록 회귀 결과를 이용한 확률값을 이용한다(예: alpha-composition 이용).
본 발명의 실시예에 따른 실험에서는 iter = 6000, q = 0.2로 설정하여 수행된 바 있다. 첫번째 학습률 감소(Learning rate decay) 지점인 12000 iteration의 절반 지점을 지나면 온전히 회귀 결과값에 의한 확률 벡터가 정해지도록 한다. 여기서, 학습률 감소는 학습률을 특정 시점마다 줄여줌으로써 최적값을 더 잘 찾게끔하는 기법이다. 학습률이 일정할시 비용(cost)이 일정 수준 이하로 더 이상 내려가지 않을 수 있는 문제를 해결한다. 또한 비닝에 속할 확률이 완전하게 단단히(hard) 원 핫 벡터(one-hot vector)가 되는 것을 막기 위해 q = 2로 설정하여 스무딩(smoothing)될 수 있도록 한다. 이는 <수학식 2> 및 <수학식 3>과 같이 표현할 수 있다. 원-핫 인코딩은 단어 집합의 크기를 벡터의 차원으로 하고, 표현하고 싶은 단어의 인덱스에 1의 값을 부여하고, 다른 인덱스에는 0을 부여하는 단어의 벡터 표현 방식이며, 이렇게 표현된 벡터를 원 핫 벡터라 한다.
Figure 112022030617476-pat00002
Figure 112022030617476-pat00003
회귀 값인 (l, t, r, b) 중 Left값 (l)과 Right값 (r), Top값 (t)과 Bottom값 (b)는 연관성(혹은 상관 관계)(correlation)이 강하기 때문에, Left값과 Top값에 대해서만 특정정보의 조건 형성을 진행한다. 또는 기설정된 조건을 판단한다. 백본 특징정보와 각 회귀 값에 대한 빈에 속할 확률 벡터(
Figure 112022030617476-pat00004
)를 외적(outer product)함으로써 회귀 값에 대한 조건 형성을 진행한다. 관계식은 <수학식 4>와 같이 표현할 수 있다.
Figure 112022030617476-pat00005
백본 특징정보의 차원을 dimf라고 할때, 외적을 통해 dimf × 3 행렬의 조건이 형성된 특징정보(Conditioned feature) 또는 조건을 만족하는 특징정보를 생성한다. 이것을 3 dimf 차원의 특징정보로 플랫튼(flatten)하여 도메인 판별기(discriminator)에 전달함으로써, 조건부의 특징정보가 도메인 불변이 되도록 백복을 학습한다. 여기서, 플랫튼은 배열을 1차원으로 만들어 주는 것을 의미한다. 이 경우, 백본 특징정보의 차원을 늘려 특징정보의 공간을 늘리게 되는데, 회귀 값에 따라 다른 서브공간(subspace)에 존재하도록 함으로써, 각 회귀 값의 스케일에 따라 특징정보를 정렬하도록 할 수 있다. 여기서, 정렬은 특징정보를 서로 일치시키는 것을 의미할 수 있다.
계속해서 어떠한 회귀 값을 신뢰할 수 있는지에 대하여 살펴본다. 특징정보를 회귀 값에 대해 조건 형성을 하기 위해서는 또는 기설정된 만족하는지 판단하기 위해서는 회귀 값이 신뢰할 수 있어야 한다. 예측(prediction) 중 부류 신뢰도(class confidence)가 높을수록 GT (l, t, r, b) 값과 회귀 (l, t, r, b) 값의 차이가 급격히 작아진다. 이는 <수학식 5>를 통해 계산될 수 있으며, 도 6은 본 발명의 실시예에 따른 실험에서 X축의 분류 신뢰도가 달라짐에 따른 회귀 값과 GT 값의 차이(왼쪽: Left, 오른쪽 Top)를 보여주고 있다. 분류 신뢰도가 높아질 수록 GT값에 가까운 신뢰할 수 있는 회귀값을 얻을 수 있음을 보여준다. 즉 confidence threshold가 일정 수준보다 높다는 조건을 만족할 때 GT와 회귀값 간의 차이가 충분히 작다는 것을 알 수 있다.
Figure 112022030617476-pat00006
이어 학습 모델의 전반적인 훈련 동작을 살펴본다. <수학식 6>은 조건부 특징정보 정렬 손실(conditioned feature aligning loss)을 보여준다. 회귀 값을 이용해 조건이 형성된 즉 조건을 만족하는 특징 정보를 도메인 불변하게 만드는 손실에 해당한다.
Figure 112022030617476-pat00007
<수학식 7>은 범용 특징정보 정렬손실(global feature aligning loss)을 나타낸다. 백본 특징정보를 전반적으로 도메인 불변하게 만드는 손실을 의미한다.
Figure 112022030617476-pat00008
<수학식 8>은 소스 도메인에 대해 객체 탐지 손실을 나타낸다.
Figure 112022030617476-pat00009
<수학식 9>는 전반적인(혹은 전체) 손실을 나타낸다.
Figure 112022030617476-pat00010
계속해서 본 발명의 실시예에 따른 실험 결과를 간략히 소개한다. 해당 실험은 Cityscape → Foggy Cityscape 벤치마크셋에 대한 실험 결과이며, 백본으로 VGG16을 사용하였다. 회귀 값인 Left와 Top 두 값 모두에 대한 조건 형성(conditioning)한 특징정보를 정렬했을 때 성능이 가장 좋은 것을 확인할 수 있다. <표 1>은 다른 최신 모델들과 비교하여 나타낸 도표이며, 도표에서 볼 때 성능이 우수함을 확인할 수 있다(Ours). 도표에서 연두색 표기는 종래기술로 이해해도 좋다. 또한 도표에서 Ours는 본 발명의 실시예에 따른 결과를 보여준다.
Figure 112022030617476-pat00011
또 다른 실험에서는 Sim10K → Cityscape 벤치마크겟에 대한 실험 결과를 보여준다. 역시 백본으로는 VGG16을 사용하였다. 회귀값 중 Top 값과 Left 값에 대해 동시에 조건을 형성한 특징정보를 정렬했을 때 성능이 가장 좋음을 확인할 수 있었다. <표 2>는 다른 최신 모델들과의 비교 결과를 보여주며 본 발명의 실시예(Ours)에 따른 동작이 종래기술(연두색 표기)에 비해 성능이 우수함을 확인할 수 있다.
Figure 112022030617476-pat00012
도 7은 도 1의 비지도 도메인 적응 장치의 구동과정을 나타내는 흐름도이다.
설명의 편의상 도 7을 도 1과 함께 참조하면, 본 발명의 실시예에 따른 비지도 도메인 적응 장치(90)는 레이블이 존재하는 소스 이미지의 소스 도메인에 대한 제1 특징정보를 포함하는 소스 도메인 데이터를 저장한다(S700). 여기서, 소스 도메인 데이터는 임의 도메인에 대한 레이블 정보와 제1 특징정보 즉 특징점들의 데이터가 매칭되어 저장될 수 있다. 여기서, 레이블 정보는 가령 경계 상자에 대한 정보가 될 수 있다.
또한, 비지도 도메인 적응 장치(90)는 저장한 소스 도메인 데이터 및 레이블이 존재하지 않는 타겟 이미지의 타겟 도메인에 대한 제2 특징정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 상자를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 소스 도메인 데이터의 제1 특징정보와 타겟 도메인 데이터의 제2 특징정보를 얼라인 즉 일치시켜 도메인이 불변하는 학습 동작을 수행한다(S710). 다시 말해 소스 도메인과 타겟 도메인간 또는 그 도메인의 특징정보 분포가 불변하도록 특징 정보를 일치시키는 동작을 수행한다고 볼 수 있다.
이의 과정에서 비지도 도메인 적응 장치(90)는 회귀 스케일에 따라 특징정보의 분포가 달라지는 것을 이용하여(혹은 달라질 때) 소스 도메인과 타겟 도메인의 특징정보를 회귀 값에 대해 조건을 형성하고, 또는 기설정한 조건을 만족하는지 판단하고, 이 조건을 형성한 특징정보가 도메인 불변하도록 학습을 수행하게 된다. 이와 관련해서는 앞서 충분히 설명한 바 있다.
상기한 내용 이외에도 도 1의 비지도 도메인 적응 장치(90)는 다양한 동작을 수행할 수 있으며, 기타 자세한 내용은 앞서 충분히 설명하였으므로 그 내용들로 대신하고자 한다.
한편, 본 발명의 실시 예를 구성하는 모든 구성 요소들이 하나로 결합하거나 결합하여 동작하는 것으로 설명되었다고 해서, 본 발명이 반드시 이러한 실시 예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성 요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다. 또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성 요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수 개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 그 컴퓨터 프로그램을 구성하는 코드들 및 코드 세그먼트들은 본 발명의 기술분야의 당업자에 의해 용이하게 추론될 수 있을 것이다. 이러한 컴퓨터 프로그램은 컴퓨터가 읽을 수 있는 비일시적 저장매체(non-transitory computer readable media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시 예를 구현할 수 있다.
여기서 비일시적 판독 가능 기록매체란, 레지스터, 캐시(cache), 메모리 등과 같이 짧은 순간 동안 데이터를 저장하는 매체가 아니라, 반영구적으로 데이터를 저장하며, 기기에 의해 판독(reading)이 가능한 매체를 의미한다. 구체적으로, 상술한 프로그램들은 CD, DVD, 하드 디스크, 블루레이 디스크, USB, 메모리 카드, ROM 등과 같은 비일시적 판독가능 기록매체에 저장되어 제공될 수 있다.
이상에서는 본 발명의 바람직한 실시 예에 대하여 도시하고 설명하였지만, 본 발명은 상술한 특정의 실시 예에 한정되지 아니하며, 청구범위에 청구하는 본 발명의 요지를 벗어남이 없이 당해 발명이 속하는 기술분야에서 통상의 지식을 가진 자에 의해 다양한 변형실시가 가능한 것은 물론이고, 이러한 변형실시들은 본 발명의 기술적 사상이나 전망으로부터 개별적으로 이해되어서는 안 될 것이다.
100: 통신 인터페이스부 110: 제어부
120: 비지도 도메인 적응부 130: 저장부
200: 조건 판별부 210: 정렬부

Claims (8)

  1. 레이블이 존재하는 소스 이미지(source image)의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 저장부; 및
    상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 상자(bounding box)를 그리기 위한 회귀(regression) 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치(align)시켜 도메인이 불변하는 학습 동작을 수행하는 제어부;를 포함하되,
    상기 제어부는, 상기 회귀 값의 스케일(scale)에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시키며,
    상기 제어부는, 상기 제1 특징 정보 및 상기 제2 특징 정보가 상기 회귀 값에 대해 기설정된 조건을 만족하는지 판단하고, 조건을 만족하는 제1 특징 정보 및 제2 특징 정보를 일치시키는 회귀 스케일 인식 교차 도메인 객체 탐지 장치.
  2. 삭제
  3. 삭제
  4. 레이블이 존재하는 소스 이미지(source image)의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 저장부; 및
    상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 상자(bounding box)를 그리기 위한 회귀(regression) 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치(align)시켜 도메인이 불변하는 학습 동작을 수행하는 제어부;를 포함하되,
    상기 제어부는, 상기 회귀 값의 스케일(scale)에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시키며,
    상기 제어부는, 회귀 값의 정확도를 위해 상기 회귀 값을 활용하기 위한 기준값을 설정하고, 상기 설정한 기준값을 초과할 때의 상기 회귀 값을 반영하여 상기 제1 특징 정보 및 상기 제2 특징 정보를 일치시키는 회귀 스케일 인식 교차 도메인 객체 탐지 장치.
  5. 저장부가, 레이블이 존재하는 소스 이미지의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 단계; 및
    제어부가, 상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 박스를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치시키는 도메인이 불변하는 학습 동작을 수행하는 단계;를 포함하되,
    상기 수행하는 단계는,
    상기 회귀 값의 스케일에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시키며,
    상기 수행하는 단계는,
    상기 제1 특징 정보 및 상기 제2 특징 정보가 상기 회귀 값에 대해 기설정된 조건을 만족하는지 판단하고, 조건을 만족하는 제1 특징 정보 및 제2 특징 정보를 일치시키는 회귀 스케일 인식 교차 도메인 객체 탐지 장치의 구동방법.
  6. 삭제
  7. 삭제
  8. 저장부가, 레이블이 존재하는 소스 이미지의 소스 도메인에 대한 제1 특징 정보를 포함하는 소스 도메인 데이터를 저장하는 단계; 및
    제어부가, 상기 저장한 소스 도메인 데이터 및 레이블이 없는 타겟 이미지의 타겟 도메인에 대한 제2 특징 정보를 포함하는 타겟 도메인 데이터를 근거로 객체 탐지 지도 학습 동작을 수행할 때, 탐지 객체의 주변에 경계 박스를 그리기 위한 회귀 값에 대해 기설정된 조건을 만족하는 상기 소스 도메인 데이터의 제1 특징 정보와 상기 타겟 도메인 데이터의 제2 특징 정보를 일치시키는 도메인이 불변하는 학습 동작을 수행하는 단계;를 포함하되,
    상기 수행하는 단계는,
    상기 회귀 값의 스케일에 따라 상기 제1 특징 정보 및 상기 제2 특징 정보가 서로 동일한 분포를 갖도록 일치시키며,
    상기 수행하는 단계는,
    회귀 값의 정확도를 위해 상기 회귀 값을 활용하기 위한 기준값을 설정하고, 상기 설정한 기준값을 초과할 때의 상기 회귀 값을 반영하여 상기 제1 특징 정보 및 상기 제2 특징 정보를 일치시키는 회귀 스케일 인식 교차 도메인 객체 탐지 장치의 구동방법.
KR1020220035183A 2022-03-22 2022-03-22 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법 KR102437962B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220035183A KR102437962B1 (ko) 2022-03-22 2022-03-22 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220035183A KR102437962B1 (ko) 2022-03-22 2022-03-22 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법

Publications (1)

Publication Number Publication Date
KR102437962B1 true KR102437962B1 (ko) 2022-08-30

Family

ID=83114167

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220035183A KR102437962B1 (ko) 2022-03-22 2022-03-22 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법

Country Status (1)

Country Link
KR (1) KR102437962B1 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102525725B1 (ko) * 2022-09-30 2023-05-02 옴니스랩스 주식회사 고해상도 이미지에서 객체를 탐지하는 방법 및 이러한 방법을 수행하는 장치
CN116188830A (zh) * 2022-11-01 2023-05-30 青岛柯锐思德电子科技有限公司 基于多层级特征对齐的高光谱图像跨域分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180033037A (ko) * 2016-09-23 2018-04-02 삼성전자주식회사 사물 감지 장치 및 방법
KR20180120478A (ko) 2017-04-27 2018-11-06 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
KR102348869B1 (ko) 2020-05-04 2022-01-12 재단법인대구경북과학기술원 조건부 생성 적대적 네트워크를 이용한 의료 영상의 예측을 위한 방법 및 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20180033037A (ko) * 2016-09-23 2018-04-02 삼성전자주식회사 사물 감지 장치 및 방법
KR20180120478A (ko) 2017-04-27 2018-11-06 에스케이텔레콤 주식회사 생성적 대립 네트워크에 기반한 도메인 간 관계를 학습하는 방법
KR102348869B1 (ko) 2020-05-04 2022-01-12 재단법인대구경북과학기술원 조건부 생성 적대적 네트워크를 이용한 의료 영상의 예측을 위한 방법 및 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MeGA-CDA: Memory Guided Attention for Category-Aware Unsupervised Domain Adaptive Object Detection, Vibashan VS et al, In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2021
Yuhua Chen et al., Domain Adaptive Faster R-CNN for Object Detection in the Wild, Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 3339-3348pages (2018.)* *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102525725B1 (ko) * 2022-09-30 2023-05-02 옴니스랩스 주식회사 고해상도 이미지에서 객체를 탐지하는 방법 및 이러한 방법을 수행하는 장치
CN116188830A (zh) * 2022-11-01 2023-05-30 青岛柯锐思德电子科技有限公司 基于多层级特征对齐的高光谱图像跨域分类方法
CN116188830B (zh) * 2022-11-01 2023-09-29 青岛柯锐思德电子科技有限公司 基于多层级特征对齐的高光谱图像跨域分类方法

Similar Documents

Publication Publication Date Title
CN103299324B (zh) 使用潜在子标记来学习用于视频注释的标记
KR102437962B1 (ko) 회귀 스케일 인식 교차 도메인 객체 탐지 장치 및 그 장치의 구동방법
JP5588395B2 (ja) 画像をオブジェクト及びそのパーツに関して効率的に解釈するためのシステムと方法
EP2657857A1 (en) Method for binary classification of a query image
KR102508067B1 (ko) 약지도 학습 기반 시멘틱 영상 분할 학습 데이터 생성 장치 및 방법
Simon et al. The whole is more than its parts? From explicit to implicit pose normalization
US11334774B2 (en) Image labeling apparatus, method, and non-transitory computer readable storage medium thereof
Zhang et al. Large-scale aerial image categorization using a multitask topological codebook
CN114330588A (zh) 一种图片分类方法、图片分类模型训练方法及相关装置
CN112241470B (zh) 一种视频分类方法及系统
CN110728229B (zh) 图像处理方法、装置、设备和存储介质
JP6364387B2 (ja) 特徴量生成装置、方法、及びプログラム
KR102334388B1 (ko) 순차적 특징 데이터 이용한 행동 인식 방법 및 그를 위한 장치
CN110019809B (zh) 一种分类确定方法、装置及网络设备
Ho et al. Document classification in a non-stationary environment: A one-class svm approach
US20230274404A1 (en) Systems and methods for improved core sample analysis
US20210365735A1 (en) Computer-implemented training method, classification method and system and computer-readable recording medium
KR102475730B1 (ko) Tta를 이용한 분포 외 데이터 검출 방법 및 이를 수행하는 장치
CN111652256B (zh) 一种获取多维数据的方法和系统
KR101758869B1 (ko) 멀티미디어 콘텐츠 분류장치 및 이를 이용한 분류방법
CN117851640B (zh) 基于复合特征的视频数据处理方法、装置、设备和介质
CN117437425B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN116052220A (zh) 行人重识别方法、装置、设备及介质
CN117851640A (zh) 基于复合特征的视频数据处理方法、装置、设备和介质
Shi et al. A dynamically class-wise weighting mechanism for unsupervised cross-domain object detection under universal scenarios

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant