KR20230171966A - 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체 - Google Patents

이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체 Download PDF

Info

Publication number
KR20230171966A
KR20230171966A KR1020237038915A KR20237038915A KR20230171966A KR 20230171966 A KR20230171966 A KR 20230171966A KR 1020237038915 A KR1020237038915 A KR 1020237038915A KR 20237038915 A KR20237038915 A KR 20237038915A KR 20230171966 A KR20230171966 A KR 20230171966A
Authority
KR
South Korea
Prior art keywords
images
source domain
style
image
representations
Prior art date
Application number
KR1020237038915A
Other languages
English (en)
Inventor
다쳉 타오
웬 왕
웨이 자이
Original Assignee
베이징 워동 티안준 인포메이션 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 워동 티안준 인포메이션 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 워동 티안준 인포메이션 테크놀로지 컴퍼니 리미티드
Publication of KR20230171966A publication Critical patent/KR20230171966A/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/56Context or environment of the image exterior to a vehicle by using sensors mounted on the vehicle
    • G06V20/58Recognition of moving objects or obstacles, e.g. vehicles or pedestrians; Recognition of traffic objects, e.g. traffic signs, traffic lights or roads

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

본 개시내용은 컴퓨터 기술 분야에 관한 것으로, 이미지 프로세싱 방법 및 장치, 컴퓨터-판독 가능 저장 매체에 관한 것이다. 본 개시내용의 방법은, 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 획득하고, 타겟 도메인 이미지의 타겟 도메인 스타일 표현을 획득하는 단계; 생성된 새로운 스타일 표현이 소스 도메인 이미지의 소스 도메인 스타일 표현 및 타겟 도메인 스타일 표현과 상이해지는 것을 가능하게 하고, 새로운 스타일 표현이 서로 상이해지는 것을 가능하게 하고, 새로운 스타일 표현을 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지가 소스 도메인 이미지와 의미론적으로 일관되게 되는 것을 가능하게 하기 위해, 다수의 새로운 스타일 표현들을 생성하고 소스 도메인 콘텐츠 표현 및 타겟 도메인 스타일 표현을 업데이트하는 단계; 생성된 다수의 새로운 스타일 표현 및 업데이트된 타겟 도메인 스타일 표현을 업데이트된 소스 도메인 콘텐츠 표현과 각각 결합하고, 제1 이미지 및 제2 이미지를 각각 생성하는 단계; 훈련된 타겟 검출 모델을 회득하도록 제1 이미지, 제2 이미지 및 소스 도메인 이미지를 이용함으로써 타겟 검출 모델을 훈련하는 단계를 포함한다.

Description

이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
본 개시내용은 2021년 4월 16일에 출원된 중국 발명 출원 번호 202110410920.0에 기초하고 이를 우선권으로 주장하며, 그의 개시내용은 전체 내용이 본 개시내용에 참조로 포함된다.
본 개시내용은 컴퓨터 기술 분야에 관한 것으로, 특히 이미지 프로세싱 방법 및 장치, 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
실제로, 이미지에서 인간이 관심을 갖는 객체를 자동화된 그리고 정확한 검출이 널리 응용되고 있다. 예컨대, 객체 검출을 통해, 자동 운전 시스템은 보행자들 및 장애물들을 효과적으로 피할 수 있고, 원격 감지 시스템은 관심 영역을 로케이팅할 수 있고, 산업 생산 라인은 결함 부분을 선별 및 로케이팅할 수 있다.
기존 객체 검출 알고리즘들은 일반적으로 신중하게 수집된 고품질 및 명확한 데이터 세트들에 기초하여 훈련될 것을 요구한다. 그러나 실제로, 날씨의 변화들, 조명, 객체 움직임, 데이터 수집 및 다른 이유들로 인해, 이미지들은 종종 감소된 콘트라스트, 흐림, 노이즈 및 다른 품질 저하로 어려움을 겪는다. 따라서 객체 검출을 위해 구성된 실제 이미지들은 훈련 이미지들과 상이한 스타일들을 갖는 저하된 이미지들이다.
본 발명자들에게 알려진 이러한 도메인 적응 기반의 강력한 객체 검출 알고리즘들은 적대적 훈련 및 다른 방법들을 통해 표현 분포 정렬을 달성하여, 소스 도메인 내 라벨링된 데이터에 대해 훈련된 모델이 타겟 도메인에 일반화되도록 허용한다. 이러한 유형의 방법들은 종종, 타겟 도메인에 단 하나의 유형의 저하(스타일)만 있다고 가정한다.
본 개시의 일부 실시예들에 따르면, 이미지 프로세싱 방법이 제공되고, 이 방법은, 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하는 단계; 다수의 새로운 스타일 표현들을 생성하고, 서로 상이한 다수의 새로운 스타일 표현들이 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 상이하고 다수의 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로 소스 도메인 콘텐츠 표현들 및 타겟 도메인 스타일 표현들을 업데이트하는 단계; 다수의 새로운 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 업데이트된 타겟 도메인 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하는 단계; 및 훈련된 객체 검출 모델을 획득하기 위해 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계를 포함한다.
일부 실시예들에서, 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하는 단계는, 콘텐츠 인코더를 사용하여 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들을 추출하는 단계; 및 스타일 인코더를 사용하여 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 추출하는 단계를 포함한다.
일부 실시예들에서, 스타일 인코더는 스타일 표현 추출 네트워크 및 클러스터링 모듈을 포함하고, 스타일 인코더를 사용하여 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 추출하는 단계는, 타겟 도메인 이미지들의 기본 스타일 표현들을 획득하기 위해 스타일 표현 추출 네트워크에 타겟 도메인 이미지를 입력하는 단계; 및 타겟 도메인 스타일 표현들로서 클러스터링 중심들의 표현 벡터들을 획득하도록 타겟 도메인 이미지들의 기본 스타일 표현들을 클러스터링을 위해 클러스터링 모듈에 입력하는 단계를 포함한다.
일부 실시예들에서, 다수의 새로운 스타일 표현들을 생성하는 단계는, 미리 설정된 수의 새로운 스타일 표현들을 랜덤으로 생성하고, 제1 전달 이미지들을 획득하기 위해 생성 네트워크에 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하는 단계; 제2 전달 이미지들을 획득하기 위해 생성 네트워크에 타겟 도메인 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하는 단계; 제1 전달 이미지들과 소스 도메인 이미지들 사이의 스타일 차이들, 및 제1 전달 이미지들과 제2 전달 이미지들 사이의 스타일 차이들에 따라 제1 손실 함수들을 결정하는 단계 ― 제1 손실 함수들은 새로운 스타일 표현들과 소스 도메인 스타일 표현들 간의 차이들, 및 새로운 스타일 표현들과 타겟 도메인 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들 간의 스타일 차이들에 따라 제2 손실 함수들을 결정하는 단계 ― 제2 손실 함수들은 새로운 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들의 의미론적 표현들과 소스 도메인 이미지들의 의미론적 표현들 간의 차이들에 따라 제3 손실 함수들을 결정하는 단계 ― 제3 손실 함수들은 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들과 소스 도메인 이미지들 간의 의미론적 차이들을 표현하는 데 사용됨 ― ; 및 다수의 새로운 스타일 표현들을 획득하기 위해 목표에 대응하는 미리 설정된 수렴 조건이 만족될 때까지, 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들에 따라 새로운 스타일 표현들을 조정하는 단계를 포함한다.
일부 실시예들에서, 소스 도메인 콘텐츠 표현들 및 타겟 도메인 스타일 표현들을 업데이트하는 단계는, 목표에 대응되는 미리 설정된 수렴 조건이 만족될 때까지, 제1 손실 함수들, 제2 손실 함수들, 및 제3 손실 함수들에 따라 콘텐츠 인코더, 스타일 인코더 및 생성 네트워크의 파라미터들을 조정하는 단계; 및 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 업데이트된 소스 도메인 콘텐츠 표현들로서 콘텐츠 인코더에 의해 출력된 소스 도메인 콘텐츠 표현들을 취하고, 업데이트된 타겟 도메인 스타일 표현들로서 스타일 인코더에 의해 출력된 타겟 도메인 스타일 표현들을 취하는 단계를 포함한다.
일부 실시예들에서, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 소스 도메인 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 제2 전달 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 또는 제1 전달 이미지들 중 임의의 2개를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하여, 제1 참조 이미지와 제2 참조 이미지 사이의 스타일 차이는 다음 방법: 미리 훈련된 표현 추출 네트워크의 다수의 미리 설정된 표현 계층들에 제1 참조 이미지 및 제2 참조 이미지를 입력하고; 다수의 미리 설정된 표현 계층들 각각에 대해, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제1 참조 이미지의 표현들의 평균 값 및 분산을 제1 평균 값 및 제1 분산으로 결정하고, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제2 참조 이미지의 표현들의 평균 값 및 분산을 제2 평균 값 및 제2 분산으로 결정하는 단계; 및 제1 평균 값과 제2 평균 값 간의 차이뿐만 아니라 다수의 미리 설정된 표현 계층들 각각에 대응하는 제1 분산과 제2 분산 간의 차이에 따라 제1 참조 이미지와 제2 참조 이미지 간의 스타일 차이를 결정하는 것에 의해 결정된다.
일부 실시예들에서, 제1 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:
여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제1 손실 함수를 표현하고; k는 양의 정수이고, 이며; i는 양의 정수이고; 는 소스 도메인 이미지들 및 타겟 도메인 이미지들의 총 수를 표현하고, ns 및 nt는 각각 소스 도메인 이미지들의 수 및 타겟 도메인 이미지들의 수를 표현하고; nj는 j번째 타겟 도메인 스타일 표현에 대응하는 타겟 이미지들의 수를 표현하고; Kt는 타겟 도메인 스타일 표현들의 수를 표현하고; Tnov는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; j는 양의 정수이고, 이며; 는 k번째 소스 도메인 이미지를 표현하고; 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; 는 j번째 타겟 도메인 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제2 전달 이미지를 표현하고; 그리고 d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현한다.
일부 실시예들에서, 제2 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:
여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제2 손실 함수를 표현하고, i는 양의 정수이고, 이며; Kn은 미리 설정된 수를 표현하고; 는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; 는 j번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고, j는 양의 정수이고 이며 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; 그리고 d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현한다.
일부 실시예들에서, 제3 손실 함수들 각각은 다음 수학식들에 따라 결정되고:
여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제3 손실 함수를 표현하고;은 의미론적 표현 추출기의 함수를 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 그리고 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 획득된 제1 전달 이미지를 표현한다.
일부 실시예들에서, 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들에 따라 새로운 스타일 표현들을 조정하는 단계는, 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들을 가중화하고 합산함으로써 타겟 손실 함수를 획득하는 단계; 타겟 손실 함수에 따라 기울기를 결정하는 단계; 및 기울기 및 미리 설정된 학습 레이트에 따라 새로운 스타일 표현들을 조정하는 단계를 포함하고, 랜덤으로 생성된 미리 설정된 수의 새로운 스타일 표현들에서 각각의 차원의 값은 표준 정규 분포로부터 랜덤으로 샘플링된다.
일부 실시예들에서, 다수의 새로운 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 업데이트된 타겟 도메인 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하는 단계는, 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 제1 이미지들을 획득하기 위해 다수의 새로운 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 생성 네트워크에 입력하고, 제2 이미지들을 획득하기 위해 업데이트된 타겟 도메인 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 생성 네트워크에 입력하는 단계를 포함한다.
일부 실시예들에서, 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계는, 제1 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 제1 이미지들을 입력하고, 제2 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 제2 이미지들을 입력하고, 그리고 소스 도메인 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 소스 도메인 이미지들을 입력하는 단계; 소스 도메인 이미지들의 라벨링 정보와 제1 이미지들의 객체 검출 결과들, 제2 이미지들의 객체 검출 결과들 및 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수를 결정하는 단계; 및 객체 검출 손실 함수에 따라 객체 검출 모델의 파라미터들을 조정하는 단계를 포함한다.
일부 실시예들에서, 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계는, 제1 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 제1 이미지들을 입력하고, 제2 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 제2 이미지들을 입력하고, 소스 도메인 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 소스 도메인 이미지들을 입력하고, 그리고 타겟 도메인 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 타겟 도메인 이미지들을 입력하는 단계; 및 제1 이미지들의 판별 결과들을 획득하기 위해 제1 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 제2 이미지들의 판별 결과들을 획득하기 위해 제2 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 소스 도메인 이미지들의 판별 결과들을 획득하기 위해 소스 도메인 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 그리고 타겟 도메인 이미지들의 판별 결과들을 획득하기 위해 타겟 도메인 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하는 단계; 및 제1 이미지들의 판별 결과들, 제2 이미지들의 판별 결과들, 소스 도메인 이미지들의 판별 결과들 및 타겟 도메인 이미지들의 판별 결과들에 따라 판별 손실 함수를 결정하는 단계를 더 포함하고, 객체 검출 손실 함수에 따라 객체 검출 모델의 파라미터들을 조정하는 단계는, 객체 검출 손실 함수 및 판별 손실 함수에 따라 객체 검출 모델의 파라미터들을 조정하는 단계를 포함한다.
일부 실시예들에서, 객체 검출 결과들은 포지셔닝 결과들 및 분류 결과들을 포함하고, 포지셔닝 결과들은 검출된 객체들의 포지션들이고, 분류 결과들은 검출된 객체들의 카테고리들이고, 소스 도메인 이미지들의 라벨링 정보는 소스 도메인 이미지들 내 객체들의 포지션들 및 소스 도메인 이미지들 내 객체들의 카테고리들을 포함하고; 그리고 소스 도메인 이미지들의 라벨링 정보와 제1 이미지들의 객체 검출 결과들, 제2 이미지들의 객체 검출 결과들 및 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수를 결정하는 단계는, 제1 이미지들의 포지셔닝 결과들, 제2 이미지들의 포지셔닝 결과들 및 소스 도메인 이미지들의 포지셔닝 결과들과 소스 도메인 이미지들 내 객체들의 포지션들의 차이들에 따른 포지셔닝 손실 함수들을 결정하는 단계; 제1 이미지들의 분류 결과들, 제2 이미지들의 분류 결과들 및 소스 도메인 이미지들의 분류 결과들과 소스 도메인 이미지들 내 객체들의 카테고리들의 차이들에 따른 분류 손실 함수들을 결정하는 단계; 및 객체 검출 손실 함수를 획득하기 위해 포지셔닝 손실 함수들 및 분류 손실 함수들을 가중화하고 합산하는 단계를 포함한다.
일부 실시예들에서, 포지셔닝 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:
여기서 는 k번째 소스 도메인 이미지에 대응하는 포지셔닝 손실을 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 는 k번째 소스 도메인 이미지 내 객체의 포지션을 표현하고, 는 k번째 소스 도메인 이미지의 포지셔닝 결과 및 k번째 소스 도메인 이미지 내 객체의 포지션에 의해 결정되는 포지셔닝 손실을 표현하고; di는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 i번째 스타일 표현을 제1 이미지들 중 하나 또는 제2 이미지들 중 하나인 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 이미지 의 포지셔닝 결과 및 k번째 소스 도메인 이미지 내 객체의 포지션에 대응하는 포지셔닝 손실을 표현하고, i는 양의 정수이고 이며; 그리고 Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현한다.
일부 실시예들에서, 분류 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:
여기서 는 k번째 소스 도메인 이미지에 대응하는 분류 손실을 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 는 k번째 소스 도메인 이미지 내 객체의 카테고리를 표현하고; 는 k번째 소스 도메인 이미지의 분류 결과 및 k번째 소스 도메인 이미지 내 객체의 카테고리에 대응하는 분류 손실이고; di는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 i번째 스타일 표현을 제1 이미지들 중 하나 또는 제2 이미지들 중 하나인 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 이미지 의 분류 결과 및 k번째 소스 도메인 이미지 내 객체의 카테고리에 대응하는 분류 손실을 표현하고, i는 양의 정수이고 이며; 그리고 Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현한다.
일부 실시예들에서, 판별 손실 함수는 다음 수학식들을 사용하여 결정되고:
여기서 는 i번째 소스 도메인 이미지를 표현하고; ns는 소스 도메인 이미지들의 수를 표현하고; 은 소스 도메인 이미지들의 판별 결과들에 따라 결정되는 소스 도메인 판별 손실 함수를 표현하고; 는 j번째 타겟 도메인 이미지를 표현하고; 는 j번째 타겟 도메인 이미지가 속한 스타일을 표현하고; nt는 타겟 도메인 이미지들의 수를 표현하고, j는 양의 정수이고 이며; 은 타겟 도메인 이미지들의 판별 결과들에 따라 결정되는 타겟 도메인 판별 손실 함수를 표현하고; 는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 k번째 스타일 표현을 표현하고; 는 k번째 스타일 표현을 i번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고, k는 양의 정수이고 이며; Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현하고; 그리고 는 제1 이미지들의 판별 결과들 및 제2 이미지들의 판별 결과들에 따라 결정되는 판별 손실 함수를 표현한다.
일부 실시예들에서,
여기서, h는 이미지에서 픽셀들의 높이를 표현하는 양의 정수이고, 이며; w는 이미지에서 픽셀들의 폭을 표현하는 양의 정수이고, 이며, H 및 W는 각각 이미지에서 픽셀들의 최대 높이 및 최대 폭을 표현하고; 그리고 는 기본 표현 추출 네트워크 및 기울기 반전 계층의 함수를 표현하는,
일부 실시예들에서, 방법은 검출될 이미지의 객체 검출 결과를 획득하기 위해 훈련된 객체 검출 모델에 검출될 이미지를 입력하는 단계를 더 포함한다.
본 개시내용의 일부 실시예들에 따르면, 이미지 프로세싱 디바이스가 제공되고, 이 디바이스는, 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하도록 구성된 획득 모듈; 다수의 새로운 스타일 표현들을 생성하고, 서로 상이한 다수의 새로운 스타일 표현들이 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 상이하고 다수의 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로 소스 도메인 콘텐츠 표현들 및 타겟 도메인 스타일 표현들을 업데이트하도록 구성된 표현 생성 모듈; 다수의 새로운 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 업데이트된 타겟 도메인 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하도록 구성된 이미지 생성 모듈; 및 훈련된 객체 검출 모델을 획득하기 위해 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하도록 구성된 훈련 모듈을 포함한다.
본 개시내용의 다른 실시예들에 따르면, 이미지 프로세싱 장치가 제공되며, 이 이미지 프로세싱 장치는, 프로세서; 프로세서에 의해 실행될 때, 프로세서로 하여금, 위의 실시예들 중 어느 하나의 이미지 프로세싱 방법을 실행하게 하는 명령들을 저장하기 위해 프로세서에 커플링된 메모리를 포함한다.
본 개시내용의 또 다른 실시예들에 따르면, 컴퓨터 프로그램이 저장된 비일시적 컴퓨터 판독 가능 저장 매체가 제공되며, 이 프로그램은 프로세서에 의해 실행될 때 프로세서로 하여금 위의 실시예들 중 임의의 하나의 이미지 프로세싱 방법을 구현하게 한다.
본 발명의 다른 표현들 및 이점들은 첨부된 도면들을 참조하여 본 개시내용의 예시적인 실시예들에 대한 다음의 상세한 설명으로부터 명백해질 것이다.
본 개시내용의 추가 이해를 제공하기 위해 포함되고 본 명세서에 통합되어 본 명세서의 부분을 구성하는 첨부 도면들은 본 발명의 실시예들을 예시하며, 본 출원의 예시적인 실시예들과 함께, 본 개시내용을 설명하는 역할을 하지만, 그의 제한이 아니다.
도 1은 본 개시내용의 일부 실시예들에 따른 이미징 프로세싱 방법의 흐름도를 도시한다.
도 2는 본 개시내용의 일부 실시예들에 따른 네트워크 아키텍처의 개략도를 도시한다.
도 3은 본 개시내용의 일부 실시예들에 따른 이미지 프로세싱 디바이스의 구조의 개략도를 도시한다.
도 4는 본 개시내용의 다른 실시예들에 따른 이미지 프로세싱 디바이스의 구조의 개략도를 도시한다.
도 5는 본 개시내용의 또 다른 실시예들에 따른 이미지 프로세싱 디바이스의 구조의 개략도를 도시한다.
이하, 실시예들의 도면들을 참조하여 본 개시내용의 실시예들의 기술적 솔루션에 대해 명확하고 완전한 설명을 제공될 것이다. 분명히, 본 개시내용의 모든 실시예들이 아닌 일부 실시예들만이 본원에서 제공된다. 적어도 하나의 예시적인 실시예의 다음의 설명은 사실상 단지 예시적인 뿐이며 본 발명, 그의 애플리케이션 또는 용도에 대한 제한으로서 어떤 방식으로도 의도되지 않는다. 창의적인 노력 없이 본 개시내용의 실시예들에 기초하여 당업자들에 의해 획득된 다른 모든 실시예들은 본 개시내용의 보호 범위 내에 있다.
발명자들은 실제로 훈련된 객체 검출 모델이 상이한 유형들의 저하(스타일들)의 이미지들에서 객체들을 정확하게 검출할 필요가 있다는 사실을 발견하였다. 그러나 기존 방법들에 의해 훈련된 객체 검출 모델들은 상이한 스타일들의 이미지들을 인식할 수 없다. 또한. 실세계 시나리오에서 훈련하기 위해 상이한 스타일들의 이미지들의 취득 및 라벨링은 상당한 양의 인력 및 자원들을 요구한다.
본 개시내용에 의해 해결되는 기술적 문제는 객체 검출 모델을 훈련하는 효율성 및 유효성을 개선하는 방법이다.
본 개시내용은 이미지 프로세싱 방법을 제공하며, 이는 도 1 내지 도 3을 참조하여 아래에서 설명될 것이다.
도 1은 본 개시내용의 일부 실시예들에 따른 이미징 프로세싱 방법의 개략도이다. 도 1에 도시된 바와 같이, 이들 실시예들의 방법은 단계들 S102 내지 S108을 포함한다.
단계(S102)에서, 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들이 획득된다.
예컨대,는 라벨을 갖는 소스 도메인 이미지들의 세트를 표현하며, 여기서 는 i번째 소스 도메인 이미지를 표현하고; 는 i번째 소스 도메인 이미지에 대응하는 라벨링 정보(라벨)를 표현한다. 라벨링 정보는 소스 도메인 이미지 내 객체의 포지션 및/또는 소스 도메인 이미지 내 객체의 카테고리와 같은 의미론적 라벨을 포함한다. 라벨링 정보는 소스 도메인 이미지의 스타일을 표현하는 도메인 라벨을 또한 포함할 수 있다. ns는 소스 도메인 이미지들의 수이다. 라벨들이 없는 타겟 도메인 이미지들의 세트는 로서 표현될 수 있으며, 여기서 는 i번째 타겟 도메인 이미지를 표현하고, nt는 타겟 도메인 이미지의 수이다.
콘텐츠 표현들은 이미지의 의미론적 정보 예컨대, 상이한 픽셀들이 속하는 의미론적 카테고리들(차량, 사람, 배경 등)을 반영하는 데 사용된다. 스타일 표현들은 이미지의 저하의 유형을 반영하는 데 사용된다. 예컨대, 날씨 변화들로 인해, 수집된 이미지들은 비, 눈, 안개 등의 영향 하에 선명하지 않을 수 있고; 조명의 변화로 인해, 수집된 이미지들은 과다노출 및 낮은 조명과 같은 이슈들을 가질 수 있고; 수집 장비 및 프로세스의 영향으로 인해, 이미지들이 블러링(blurring) 및 노이즈와 같은 이슈들을 가질 수 있다. 소스 도메인 이미지 및 타겟 도메인 이미지들은 동일하거나 유사한 의미론적 정보를 가지지만 저하의 유형들 즉, 스타일 표현들이 상이하다.
일부 실시예들에서, 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현은 콘텐츠 인코더를 사용하여 추출되고; 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들은 스타일 인코더를 사용하여 추출된다. 스타일 표현들 및 콘텐츠 표현들을 인코딩하는데 상이한 인코더들이 사용될 수 있으며, 이 표현들은 그 후 이미지들을 위해 디커플링될 수 있다. 콘텐츠 인코더 및 스타일 인코더는 VGGNet 또는 ResNet과 같은 CNN(convolutional neural network)들일 수 있다.
일부 실시예들에서, 도 2에 도시된 바와 같이, 스타일 인코더는 스타일 표현 추출 네트워크 및 클러스터링 모듈을 포함한다. 타겟 도메인 이미지는 타겟 도메인 이미지들의 기본 스타일 표현들을 획득하기 위해 스타일 표현 추출 네트워크에 입력될 수 있고; 타겟 도메인 이미지들의 기본 스타일 표현들은 타겟 도메인 스타일 표현들로서 클러스터링 중심들의 표현 벡터들을 획득하도록 클러스터링을 위해 클러스터링 모듈에 입력될 수 있다.
소스 도메인 이미지들은 모두 하나의 스타일에 속할 수 있고, 타겟 도메인 이미지들은 하나 이상의 스타일들에 속할 수 있다. 타겟 도메인 이미지들에 라벨링 정보가 부족하기 때문에, 타겟 도메인 이미지들의 하나 이상의 클러스터링 중심들의 하나 이상의 표현들을 획득하는데 클러스터링 알고리즘이 사용될 수 있으며, 이는 하나 이상의 타겟 도메인 스타일 표현들로서 사용되어 상이한 스타일들을 표현할 수 있다. K-평균, 평균 시프트 클러스터링 또는 밀도 기반 클러스터링 알고리즘 등과 같은 임의의 기존 알고리즘이 클러스터링 알고리즘으로서 채택될 수 있다. 클러스터링에 의해, 타겟 도메인 이미지들 각각이 의사 도메인 라벨로 라벨링될 수 있는데, 즉, 타겟 도메인 이미지들 각각은 스타일로 라벨링될 수 있다.
단계(S104)에서, 다수의 새로운 스타일 표현들이 생성되고, 서로 상이한 다수의 새로운 스타일 표현들이 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 상이하고 다수의 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로 소스 도메인 콘텐츠 표현들 및 타겟 도메인 스타일 표현들이 업데이트된다.
위의 목표를 달성하기 위해, 훈련을 위해 상이한 손실 함수들이 설정될 수 있다. 일부 실시예들에서, 도 2에 도시된 바와 같이, 다수의 새로운 스타일 표현들을 생성하는 단계는, 미리 설정된 수의 새로운 스타일 표현들을 랜덤으로 생성하고, 제1 전달 이미지들을 획득하기 위해 생성 네트워크에 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하는 단계; 제2 전달 이미지들을 획득하기 위해 생성 네트워크에 타겟 도메인 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하는 단계; 제1 전달 이미지들과 소스 도메인 이미지들 사이의 스타일 차이들, 및 제1 전달 이미지들과 제2 전달 이미지들 사이의 스타일 차이들에 따라 제1 손실 함수들을 결정하는 단계 ― 제1 손실 함수들은 새로운 스타일 표현들과 소스 도메인 스타일 표현들 간의 차이들, 및 새로운 스타일 표현들과 타겟 도메인 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들 간의 스타일 차이들에 따라 제2 손실 함수들을 결정하는 단계 ― 제2 손실 함수들은 새로운 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들의 의미론적 표현들과 소스 도메인 이미지들의 의미론적 표현들 간의 차이들에 따라 제3 손실 함수들을 결정하는 단계 ― 제3 손실 함수들은 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들과 소스 도메인 이미지들 간의 의미론적 차이들을 표현하는 데 사용됨 ― ; 및 다수의 새로운 스타일 표현들을 획득하기 위해 목표에 대응하는 미리 설정된 수렴 조건이 만족될 때까지, 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들에 따라 새로운 스타일 표현들을 조정하는 단계를 포함한다.
미리 설정된 수는 타겟 도메인 스타일 표현들의 수(즉, 타겟 도메인 이미지가 속하는 스타일들의 수)와 동일할 수 있다. 예컨대, 랜덤으로 생성된 미리 설정된 수의 새로운 스타일 표현들에서 각각의 차원의 값은 표준 정규 분포로부터 랜덤으로 샘플링된다.
생성 네트워크는 CNN과 같은 기존 모델을 포함할 수 있는(그러나 이에 제한되지 않음) 스타일 표현들 및 콘텐츠 표현들을 융합하는 데 사용된다. 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들은 생성 네트워크에 입력되어 소스 도메인으로부터 새로운 도메인들로 전달되는 이미지들, 즉 제1 전달 이미지를 획득할 수 있다. 타겟 도메인 스타일 표현들 및 소스 도메인 콘텐츠 표현들이 생성 네트워크에 입력되어 소스 도메인으로부터 타겟 도메인으로 전달되는 이미지들, 즉 제2 전달 이미지들을 획득할 수 있다.
제1 손실 함수들 및 제2 손실 함수들은 둘 모두 2개의 이미지들 간의 스타일 차이들에 기초하여 결정된다. 일부 실시예들에서, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 소스 도메인 이미지들 중의 소스 도메인 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 제2 전달 이미지들 중의 제2 전달 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 또는 제1 전달 이미지들 중 임의의 2개를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하여, 제1 참조 이미지와 제2 참조 이미지 사이의 스타일 차이는 다음 방법에서 결정된다. 제1 전달 이미지에 대응하는 소스 도메인 이미지는 제1 전달 이미지를 생성하는 데 사용된 소스 도메인 콘텐츠 표현이 속하는 소스 도메인 이미지이다. 유사하게, 제1 전달 이미지에 대응하는 제2 전달 이미지는 제1 전달 이미지와 동일한 소스 도메인 콘텐츠 표현을 사용하여 생성된 제2 전달 이미지이다.
제1 참조 이미지 및 제2 참조 이미지가 (도 2에 도시된 바와 같이) 미리 훈련된 표현 추출 네트워크의 다수의 미리 설정된 표현 계층에 입력되고; 다수의 미리 설정된 표현 계층들 각각에 대해, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제1 참조 이미지의 표현들의 평균 값 및 분산이 제1 평균 값 및 제1 분산으로 결정되고, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제2 참조 이미지의 표현들의 평균 값 및 분산은 제2 평균 값 및 제2 분산으로 결정되고; 그리고 제1 평균 값과 제2 평균 값 간의 차이뿐만 아니라 다수의 미리 설정된 표현 계층들 각각에 대응하는 제1 분산과 제2 분산 간의 차이에 따라 제1 참조 이미지와 제2 참조 이미지 간의 스타일 차이가 결정된다. 제1 평균과 제2 평균 간의 차이가 클수록 그리고 표현 계층들 각각에 대응하는 제1 분산과 제2 분산 간의 차이가 클수록, 제1 참조 이미지와 제2 참조 이미지 간의 스타일 차이는 커진다.
미리 훈련된 표현 추출 네트워크는 미리 훈련된 VGG19일 수 있다(그러나 이에 제한되지 않음). 예컨대, 제1 참조 이미지와 제2 참조 이미지 간의 스타일 차이는 다음 수학식들을 사용하여 결정되고:
(1)
수학식 1에서 는 제1 참조 이미지와 제2 참조 이미지를 표현하고, 여기서 i는 양의 정수()이고, L은 미리 훈련된 표현 추출 네트워크의 표현 계층들의 수를 표현하고, 는 미리 훈련된 표현 추출 네트워크 내 i번째 계층의 함수를 표현하고, 는 평균값을 찾는 함수를 표현하고, 는 분산을 찾는 함수를 표현한다.
일부 실시예들에서, 제1 손실 함수는 새로운 스타일 표현들과 소스 도메인 스타일 표현들 간의 차이, 그리고 새로운 스타일 표현들과 타겟 도메인 스타일 표현들 간의 차이를 표현하는 데 사용된다. 제1 손실 함수들을 사용한 훈련은 기존 스타일들을 보완하기 위해 소스 도메인 및 타겟 도메인 내 기존 스타일 표현들과 상이한 새로운 스타일 표현들을 만들 수 있다. 예컨대, 제1 손실 함수는 다음 수학식에 따라 결정되고:
(2)
수학식 2에서, 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제1 손실 함수를 표현하고; k는 양의 정수이고, 이며; i는 양의 정수이고; 는 소스 도메인 이미지들 및 타겟 도메인 이미지들의 총 수를 표현하고, ns 및 nt는 각각 소스 도메인 이미지들의 수 및 타겟 도메인 이미지들의 수를 표현하고; nj는 j번째 타겟 도메인 스타일 표현에 대응하는 타겟 이미지들의 수를 표현하고; Kt는 타겟 도메인 스타일 표현들의 수를 표현하고; Tnov는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; j는 양의 정수이고, 이며; 는 k번째 소스 도메인 이미지를 표현하고; 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; 는 j번째 타겟 도메인 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제2 전달 이미지를 표현하고; d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현한다.
일부 실시예들에서, 제2 손실 함수는 새로운 스타일 표현들 간의 차이들을 표현하는 데 사용된다. 제2 손실 함수를 사용한 훈련은 생성된 새로운 스타일 표현들을 서로 상이하게 만들어 생성된 새 도메인들의 다양성을 보장할 수 있다. 예컨대, 제2 손실 함수는 다음 수학식에 따라 결정되고:
(3)
수학식 3에서, 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제2 손실 함수를 표현하고, i는 양의 정수이고, 이며; Kn은 미리 설정된 수를 표현하고; Tdiv는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; 는 j번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고, j는 양의 정수이고 이며, 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현한다.
일부 실시예들에서, 제1 전달 이미지들의 의미론적 표현들 및 소스 도메인 이미지들의 의미론적 표현들은 의미론적 표현 추출기를 사용하여 획득된다. 제3 손실 함수들은 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들(제1 전달 이미지들)과 소스 도메인 이미지들 간의 의미론적 차이들을 표현하는 데 사용된다. 제3 손실 함수를 사용한 훈련은, 제1 전달 이미지들을 그의 대응하는 소스 도메인 이미지들과 의미론적으로 일치하도록 만들어서, 소스 도메인 내 의미론적 라벨들이 생성된 이미지들에 적용될 수 있을 수 있다. 예컨대, 제3 손실 함수는 다음 수학식에 따라 결정되고:
(4)
수학식 4에서, 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제3 손실 함수를 표현하고;은 의미론적 표현 추출기의 함수를 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 생성 네트워크에 입력함으로써 획득된 제1 전달 이미지를 표현한다.
일부 실시예들에서, 제1 손실 함수, 제2 손실 함수, 및 제3 손실 함수는 가중화되고 합산되어 타겟 손실 함수를 획득한다. 예컨대, 타겟 손실 함수는 다음 수학식에 따라 결정되고:
(5)
수학식 5에서, 이고, 는 각각 의 가중치들이다.
일부 실시예들에서, 각각의 훈련 반복(에포크)에서, 타겟 손실 함수에 따라 기울기가 결정되고; 새로운 스타일 표현들은 기울기 및 미리 설정된 학습 레이트에 따라 조정된다. 예컨대, 새로운 스타일 표현들에 대응하는 벡터들로부터 기울기 및 미리 설정된 학습 레이트의 곱을 차감함으로써 조정된 새로운 스타일 표현들이 획득될 수 있다.
일부 실시예들에서, 새로운 스타일 표현들을 조정하는 것 외에도, 제1 손실 함수들, 제2 손실 함수들, 및 제3 손실 함수들에 따라 콘텐츠 인코더, 스타일 인코더 및 생성기의 파라미터들은, 목표에 대응되는 미리 설정된 수렴 조건이 만족될 때까지 조정되고; 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 콘텐츠 인코더에 의해 출력된 소스 도메인 콘텐츠 표현들이 업데이트된 소스 도메인 콘텐츠 표현들로서 사용되고, 스타일 인코더에 의해 출력된 타겟 도메인 스타일 표현들은 업데이트된 타겟 도메인 스타일 표현들로서 사용된다.
예컨대, 각각의 에포크에서, 타겟 손실 함수에 따라 기울기가 결정되고; 콘텐츠 인코더, 스타일 인코더, 및 생성기의 파라미터들은 기울기 및 미리 설정된 학습 레이트에 따라 조정된다. 또한, 의미론적 표현 추출기의 파라미터들이 또한 조정할 수 있다.
각각의 에포크에서, 타겟 손실 함수에 따라 새로운 스타일 표현들이 조정되고 콘텐츠 인코더, 스타일 인코더, 생성기 및 의미론적 표현 추출기의 파라미터들이 조정된다. 조정된 새로운 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들이 생성 네트워크에 입력되어 제1 전달 이미지들을 획득한다. 업데이트된 타겟 도메인 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들이 생성 네트워크에 입력되어 제2 전달 이미지들을 획득하고; 제1 손실 함수는 제1 전달 이미지들과 소스 도메인 이미지들 사이의 스타일 차이들, 및 제1 전달 이미지들과 제2 전달 이미지들 사이의 스타일 차이들에 따라 결정되며; 제2 손실 함수들은 제1 전달 이미지들 간의 스타일 차이들에 따라 결정되고; 제3 손실 함수는 제1 전달 이미지들의 의미론적 표현들과 소스 도메인 이미지들의 의미론적 표현들 간의 차이에 따라 결정되고; 타겟 손실 함수는 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들에 따라 결정된다. 위의 프로세스는 목적들에 대응하는 미리 설정된 수렴 조건들이 도달될 때까지 반복된다. 예컨대, 미리 설정된 수렴 조건은 타겟 손실 함수의 최솟값이지만 이는 본 개시내용에서 제한되지 않는다.
단계(S106)에서, 다수의 새로운 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 결합함으로써 제1 이미지들이 생성되고, 업데이트된 타겟 도메인 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 결합함으로써 제2 이미지들이 생성된다.
일부 실시예들에서, 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 다수의 새로운 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들이 제1 이미지들을 획득하기 위해 생성 네트워크에 입력되고, 업데이트된 타겟 도메인 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들이 제2 이미지들을 획득하기 위해 생성 네트워크에 입력된다. 위에서 언급된 실시예들의 훈련 프로세스를 활용함으로써, 훈련된 생성 네트워크가 획득될 수 있다. 제1 이미지들 및 제2 이미지들은 도 2에 도시된 바와 같이 훈련된 생성 네트워크를 이용하여 생성된다.
단계(S108)에서, 훈련된 객체 검출 모델을 획득하기 위해 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델이 훈련된다.
단계(S102 내지 S104)는 업데이트된 소스 도메인 콘텐츠 표현들, 업데이트된 타겟 도메인 스타일 표현들 및 적대적으로 생성된 새로운 스타일 표현들을 획득하기 위해 새로운 스타일들의 적대적 탐색을 수반하는 훈련 프로세스의 제1 스테이지이다. 그런 다음, 단계(S106)는 훈련 프로세스의 제2 스테이지(단계 S108)에서 사용되는 제1 및 제2 이미지들을 생성하는 데, 즉 불변 훈련 도메인에서 객체 검출 모델을 훈련하는 데 사용된다.
제1 이미지들 및 제2 이미지들 둘 모두가 동일한 소스 도메인 콘텐츠 표현들에 기초하여 생성되기 때문에, 제1 이미지들 및 제2 이미지들은 제1 이미지들 및 제2 이미지들에 대응하는 소스 도메인 이미지들과 동일한 콘텐츠 표현을 가지며, 그의 의미론적 라벨들은 일관되어서, 소스 도메인 의미론적 라벨들은 제1 이미지들 및 제2 이미지들의 의미론적 라벨들로서 사용될 수 있다.
일부 실시예들에서, 제1 이미지들은 제1 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 입력되고, 제2 이미지들은 제2 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 입력되고, 소스 도메인 이미지는 소스 도메인 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 입력되고; 소스 도메인 이미지들의 라벨링 정보와 제1 이미지들의 객체 검출 결과들, 제2 이미지들의 객체 검출 결과들 및 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수가 결정되고; 객체 검출 손실 함수에 따라 객체 검출 모델의 파라미터들이 조정된다. 제1 이미지들 또는 제2 이미지들에 대응하는 소스 도메인 이미지들은 제1 이미지들 또는 제2 이미지들을 생성하는 데 사용된 소스 도메인 콘텐츠 표현들이 속한 소스 도메인 이미지들을 지칭한다.
일부 실시예들에서, 도 2에 도시된 바와 같이, 객체 검출 모델은 기본 표현 추출 네트워크 및 객체 검출 네트워크를 포함한다. 제1 이미지들, 제2 이미지들, 및 소스 도메인 이미지들은 제1 이미지들의 기본 표현, 제2 이미지들의 기본 표현들, 소스 도메인 이미지들의 기본 표현들을 획득하기 위해 기본 표현 추출 네트워크에 각각 입력된다. 그런 다음, 제1 이미지들의 기본 표현들, 제2 이미지들의 기본 표현들, 소스 도메인 이미지들의 기본 표현들은 제1 이미지들의 객체 검출 결과들, 제2 이미지의 객체 검출 결과들, 및 소스 도메인 이미지들의 객체 검출 결과들을 획득하도록 객체 검출 네트워크에 입력된다.
일부 실시예들에서, 객체 검출 결과는 포지셔닝 결과들 및/또는 분류 결과들을 포함한다. 포지셔닝 결과들은 검출된 객체들의 포지션들(예컨대, 검출된 객체들의 직사각형 상자들의 좌표들)이고, 분류 결과들은 검출된 객체들의 카테고리들(예컨대, 카테고리들은 차량, 사람, 배경 등을 포함함)이고; 소스 도메인 이미지들의 라벨링 정보는 소스 도메인 이미지들 내 객체들의 포지션들 및/또는 소스 도메인 이미지들 내 객체들의 카테고리들을 포함한다.
객체 검출 결과들이 포지셔닝 결과들 및 분류 결과들을 포함하는 경우, 제1 이미지들의 포지셔닝 결과들, 제2 이미지들의 포지셔닝 결과들 및 소스 도메인 이미지들의 포지셔닝 결과들과 소스 도메인 이미지들 내 객체들의 포지션들의 차이들에 따라 포지셔닝 손실 함수들이 결정되고; 제1 이미지들의 분류 결과들, 제2 이미지들의 분류 결과들 및 소스 도메인 이미지들의 분류 결과들과 소스 도메인 이미지들 내 객체들의 카테고리들의 차이들에 따라 분류 손실 함수들이 결정되고; 포지셔닝 손실 함수들 및 분류 손실 함수들은 가중화 및 합산되어 객체 검출 손실 함수를 획득한다. 객체 검출 결과들이 포지셔닝 결과들 또는 분류 결과들만을 포함하는 경우, 포지셔닝 손실 함수들 또는 분류 손실 함수들만이 결정되며 이는 반복되지 않을 것이다.
일부 실시예들에서, 포지셔닝 손실 함수들 각각은 다음 수학식들에 따라 결정되고:
(6)
수학식 6에서, 는 k번째 소스 도메인 이미지에 대응하는 포지셔닝 손실을 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 는 k번째 소스 도메인 이미지 내 객체의 포지션을 표현하고, 는 k번째 소스 도메인 이미지의 포지셔닝 결과 및 k번째 소스 도메인 이미지 내 객체의 포지션에 의해 결정되는 포지셔닝 손실을 표현하고; di는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 i번째 스타일 표현을 제1 이미지들 중 하나 또는 제2 이미지들 중 하나인 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 이미지 의 포지셔닝 결과 및 k번째 소스 도메인 이미지 내 객체의 포지션에 대응하는 포지셔닝 손실을 표현하고, i는 양의 정수이고, 이며; Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현한다.
일부 실시예들에서, 분류 손실 함수들 각각은 다음 수학식들에 따라 결정되고:
(7)
수학식 7에서, 는 k번째 소스 도메인 이미지에 대응하는 분류 손실을 표현하고; 는 k번째 소스 도메인 이미지를 표현하고; 는 k번째 소스 도메인 이미지 내 객체의 카테고리를 표현하고; 는 k번째 소스 도메인 이미지의 분류 결과 및 k번째 소스 도메인 이미지 내 객체의 카테고리에 대응하는 분류 손실이고; di는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 i번째 스타일 표현을 제1 이미지들 중 하나 또는 제2 이미지들 중 하나인 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 이미지 의 분류 결과 및 k번째 소스 도메인 이미지 내 객체의 카테고리에 대응하는 분류 손실을 표현하고, i는 양의 정수이고 이며; Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현한다.
객체 검출 모델의 정확도를 추가로 개선하기 위해, 판별기가 추가되어 도메인 판별 결과들을 통해 객체 검출 모델을 훈련시킬 수 있다. 일부 실시예들에서, 도 2에 도시된 바와 같이, 제1 이미지들의 기본 표현들, 제2 이미지들의 기본 표현들, 소스 도메인 이미지들의 기본 표현들, 및 타겟 도메인 이미지들의 기본 표현들이 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력되어 제1 이미지들의 판별 결과들, 제2 이미지들의 판별 결과들, 소스 도메인 이미지들의 판별 결과들 및 타겟 도메인 이미지들의 판별 결과들을 획득하고; 제1 이미지들의 판별 결과들, 제2 이미지들의 판별 결과들, 소스 도메인 이미지들의 판별 결과들 및 타겟 도메인 이미지들의 판별 결과들에 따라 판별 손실 함수가 결정되고; 객체 검출 손실 함수 및 판별 손실 함수에 따라 객체 검출 모델의 파라미터들이 조정된다.
다양한 기본 표현들이 판별기에 입력되기 전에, 이들은 기울기 반전 계층에 입력되어 표현들의 기울기들을 반전시켜, 판별기 및 기본 표현 추출 네트워크가 반대 방향들로 최적화되도록 허용하여, 기본 표현 추출 네트워크가 도메인 불변 표현들을 학습하도록 강제한다.
일부 실시예들에서, 판별 손실 함수는 다음 수학식들에 따라 결정되고:
(8)
(9)
(10)
(11)
수학식 8 내지 10에서, 는 i번째 소스 도메인 이미지를 표현하고; ns는 소스 도메인 이미지들의 수를 표현하고; 은 소스 도메인 이미지들의 판별 결과들에 따라 결정되는 소스 도메인 판별 손실 함수를 표현하고; 는 j번째 타겟 도메인 이미지를 표현하고; 는 j번째 타겟 도메인 이미지가 속한 스타일을 표현하고; nt는 타겟 도메인 이미지들의 수를 표현하고, j는 양의 정수이고 이며; 은 타겟 도메인 이미지들의 판별 결과들에 따라 결정되는 타겟 도메인 판별 손실 함수를 표현하고; 는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 k번째 스타일 표현을 표현하고; 는 k번째 스타일 표현을 i번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고, k는 양의 정수이고 이며; Nd는 다수의 새로운 스타일 표현들 및 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현하고; 는 제1 이미지들의 판별 결과들 및 제2 이미지들의 판별 결과들에 따라 결정되는 판별 손실 함수를 표현한다.
위의 수학식들 8 내지 10에서, 판별 손실 함수는 3개의 부분들 즉, 소스 도메인 판별 손실 함수, 타겟 도메인 손실 함수, 및 제1 이미지들의 판별 결과들 및 제2 이미지들의 판별 결과들에 따라 결정되는 판별 손실 함수를 포함한다. 손실 함수들 각각은 다음 수학식에 따라 결정될 수 있다:
(12)
(13)
(14)
수학식들 12 내지 14에서, h는 이미지에서 픽셀들의 높이를 표현하는 양의 정수이고, 며; w는 이미지에서 픽셀들의 폭을 표현하는 양의 정수이고, 이며, H 및 W는 각각 이미지에서 픽셀들의 최대 높이 및 최대 폭을 표현하고; 는 기본 표현 추출 네트워크 및 기울기 반전 계층의 함수를 표현한다.
일부 실시예들에서, 객체 검출 손실 함수 및 판별 손실 함수는 가중화 및 합산되어 객체 검출 모델의 파라미터들을 조정하기 위한 전체 손실 함수를 획득한다. 전체 손실 함수는 다음 수학식들에 의해 결정될 수 있다.
(15)
수학식 15에서, 는 각각 의 가중치들이다.
일부 실시예들에서, 객체 검출 모델 및 판별기의 파라미터들은 각각의 훈련 반복 동안 전체 손실 함수에 따라 조정된다. 특정 훈련 프로세스에 대해, 기존 기술들에 대한 참조가 이루어질 수 있으며, 이는 본원에서 반복되지 않을 것이다. 기본 표현 추출 네트워크는 VGG, ResNet 등과 같은 CNN 모델을 채택할 수 있으며, 이는 본원에서 제공된 예들로 제한되지 않는다.
본 개시내용의 훈련 프로세스는 2개의 스테이지들을 포함한다. 제1 스테이지에서, 적대적 탐색에 기초하여 새로운 스타일을 생성하는 방법은 3개의 목적들로, 즉 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 상이한 새로운 스타일 표현들을 생성하고, 서로 상이한 새로운 스타일 표현들을 생성하고, 그리고 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 소스 도메인 이미지들과 의미론적으로 일치되게 하는 것을 가능하게 하도록 수행된다. 제2 스테이지에서, 객체 검출 모델이 불변 도메인에서 훈련된다. 이 프로세스는 스타일 표현들의 의사 도메인 라벨들(예컨대, 각각의 타겟 도메인 이미지에는 클러스터링을 통해 의사 도메인 라벨이 제공됨)에 기초하며, 적대적 훈련 메커니즘을 통해 다수의 도메인들에 대해 강인한 객체 검출 모델 및 표현들이 획득된다.
위 실시예들의 방법에서, 다수의 새로운 스타일 표현들은 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들에 기초하여 자동으로 생성된다. 생성된 새로운 스타일 표현들은 서로 상이하고 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 또한 상이하다. 더욱이, 새로운 스타일 표현들을 소스 도메인 콘텐츠 표현들과 결합함으로써 생성된 이미지들의 의미론은 소스 도메인 이미지들의 것과 일치한다. 따라서, 새로운 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 생성된 제1 이미지들은 객체 검출 모델의 도메인 적응 훈련을 위한 훈련 샘플들로서 사용될 수 있다. 또한, 소스 도메인 이미지들뿐만 아니라. 타겟 도메인 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 생성된 제2 이미지들은 또한 객체 검출 모델의 도메인 적응 훈련을 위한 훈련 샘플들로서 사용될 수 있다. 본 개시내용에서 훈련을 위한 새로운 스타일 표현들을 자동으로 생성함으로써, 훈련 효율성이 개선될 수 있고 수동 주석 비용들이 감소될 수 있다. 또한, 다수의 새로운 스타일 표현들 및 타겟 도메인 스타일 표현들이 함께 사용되어 훈련 샘플들을 생성할 수 있어, 훈련 샘플들의 스타일들의 수를 증가시킨다. 이는 훈련된 객체 검출 모델이 다수의 스타일들의 이미지들을 정확하게 검출하는 것을 가능하게 하고 그리하여 객체 검출 모델의 효율성을 개선한다.
훈련된 객체 검출 모델은 이미지들 내 객체들을 검출하는 데 사용될 수 있다. 일부 실시예들에서, 검출될 이미지의 객체 검출 결과를 획득하기 위해 훈련된 객체 검출 모델에 검출될 이미지가 입력된다.
본 개시내용은 또한 이미지 프로세싱 장치를 제공하며, 이는 도 1 내지 도 3을 참조하여 아래에서 설명될 것이다.
도 3은 본 개시내용의 일부 실시예들에 따른 이미징 프로세싱 장치의 구조도이다. 도 3에 도시된 바와 같이, 본 실시예의 장치(300)는 획득 모듈(310), 표현 생성 모듈(320), 이미지 생성 모듈(330) 및 훈련 모듈(340)을 포함한다.
획득 모듈(310)은 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하도록 구성된다.
일부 실시예들에서, 획득 모듈(310)은 콘텐츠 인코더를 사용하여 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들을 추출하고; 그리고 스타일 인코더를 사용하여 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 추출하도록 구성된다.
일부 실시예들에서, 스타일 인코더는 스타일 표현 추출 네트워크 및 클러스터링 모듈을 포함한다. 획득 모듈(310)은 타겟 도메인 이미지들의 기본 스타일 표현들을 획득하기 위해 타겟 도메인 이미지를 스타일 표현 추출 네트워크에 입력하고; 그리고 타겟 도메인 스타일 표현들로서 클러스터링 중심들의 표현 벡터들을 획득하도록 클러스터링을 위해 클러스터링 모듈에 타겟 도메인 이미지들의 기본 스타일 표현들을 입력하도록 구성된다.
표현 생성 모듈(320)은 다수의 새로운 스타일 표현들을 생성하고, 서로 상이한 다수의 새로운 스타일 표현들이 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 타겟 도메인 스타일 표현들과 상이하고, 다수의 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로, 소스 도메인 콘텐츠 표현들 및 타겟 도메인 스타일 표현들을 업데이트하도록 구성된다.
일부 실시예들에서, 표현 생성 모듈(320)은, 미리 설정된 수의 새로운 스타일 표현들을 랜덤으로 생성하고, 제1 전달 이미지들을 획득하기 위해 생성 네트워크에 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하고; 제2 전달 이미지들을 획득하기 위해 생성 네트워크에 타겟 도메인 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 입력하고; 제1 전달 이미지들과 소스 도메인 이미지들 사이의 스타일 차이들, 및 제1 전달 이미지들과 제2 전달 이미지들 사이의 스타일 차이들에 따라 제1 손실 함수들을 결정하고 ― 제1 손실 함수들은 새로운 스타일 표현들과 소스 도메인 스타일 표현들 간의 차이들, 및 새로운 스타일 표현들과 타겟 도메인 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들 간의 스타일 차이들에 따라 제2 손실 함수들을 결정하고 ― 제2 손실 함수들은 새로운 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ; 제1 전달 이미지들의 의미론적 표현들과 소스 도메인 이미지들의 의미론적 표현들 간의 차이들에 따라 제3 손실 함수들을 결정하고 ― 제3 손실 함수들은 새로운 스타일 표현들 및 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들과 소스 도메인 이미지들 간의 의미론적 차이들을 표현하는 데 사용됨 ― ; 및 다수의 새로운 스타일 표현들을 획득하기 위해 목표에 대응하는 미리 설정된 수렴 조건이 만족될 때까지, 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들에 따라 새로운 스타일 표현들을 조정하도록 구성된다.
일부 실시예들에서, 표현 생성 모듈(320)은, 목표에 대응되는 미리 설정된 수렴 조건이 만족될 때까지, 제1 손실 함수들, 제2 손실 함수들, 및 제3 손실 함수들에 따라 콘텐츠 인코더, 스타일 인코더 및 생성 네트워크의 파라미터들을 조정하고; 그리고 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 업데이트된 소스 도메인 콘텐츠 표현들로서 콘텐츠 인코더에 의해 출력된 소스 도메인 콘텐츠 표현들을 취하고, 그리고 업데이트된 타겟 도메인 스타일 표현들로서 스타일 인코더에 의해 출력된 타겟 도메인 스타일 표현들을 취하도록 구성된다.
일부 실시예들에서, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 소스 도메인 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 제1 전달 이미지들 중 임의의 것 및 제1 전달 이미지들 중 임의의 것에 대응하는 제2 전달 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 또는 제1 전달 이미지들 중 임의의 2개를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하여, 제1 참조 이미지와 제2 참조 이미지 사이의 스타일 차이는 다음 방법: 미리 훈련된 표현 추출 네트워크의 다수의 미리 설정된 표현 계층에 제1 참조 이미지 및 제2 참조 이미지를 입력하고; 다수의 미리 설정된 표현 계층들 각각에 대해, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제1 참조 이미지의 표현들의 평균 값 및 분산을 제1 평균 값 및 제1 분산으로 결정하고, 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제2 참조 이미지의 표현들의 평균 값 및 분산을 제2 평균 값 및 제2 분산으로 결정하고; 그리고 제1 평균 값과 제2 평균 값 간의 차이뿐만 아니라 다수의 미리 설정된 표현 계층들 각각에 대응하는 제1 분산과 제2 분산 간의 차이에 따라 제1 참조 이미지와 제2 참조 이미지 간의 스타일 차이를 결정하는 것에 의해 결정된다.
제1 손실 함수, 제2 손실 함수, 제3 손실 함수는 수학식 (2) 내지 (4)에 따라 결정될 수 있으며, 이는 여기서는 반복되지 않을 것이다.
일부 실시예들에서, 표현 생성 모듈(320)은 제1 손실 함수들, 제2 손실 함수들 및 제3 손실 함수들을 가중화하고 합산함으로써 타겟 손실 함수를 획득하고; 타겟 손실 함수에 따라 기울기를 결정하고; 그리고 기울기 및 미리 설정된 학습 레이트에 따라 새로운 스타일 표현들을 조정하도록 구성되고, 랜덤으로 생성된 미리 설정된 수의 새로운 스타일 표현들에서 각각의 차원의 값은 표준 정규 분포로부터 랜덤으로 샘플링된다.
이미지 생성 모듈(330)은 다수의 새로운 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 업데이트된 타겟 도메인 스타일 표현들을 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하도록 구성된다.
일부 실시예들에서, 이미지 생성 모듈(330)은 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 제1 이미지들을 획득하기 위해 다수의 새로운 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 생성 네트워크에 입력하고, 제2 이미지들을 획득하기 위해 업데이트된 타겟 도메인 스타일 표현들 및 업데이트된 소스 도메인 콘텐츠 표현들을 생성 네트워크에 입력하도록 구성된다.
훈련 모듈(340)은 훈련된 객체 검출 모델을 획득하기 위해 제1 이미지들, 제2 이미지들 및 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하도록 구성된다.
일부 실시예들에서, 훈련 모듈(340)은 제1 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 제1 이미지를 입력하고, 제2 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 제2 이미지를 입력하고, 그리고 소스 도메인 이미지들의 객체 검출 결과들을 획득하기 위해 객체 검출 모델에 소스 도메인 이미지를 입력하고; 소스 도메인 이미지들의 라벨링 정보와 제1 이미지들의 객체 검출 결과들, 제2 이미지들의 객체 검출 결과들 및 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수를 결정하고; 그리고 객체 검출 손실 함수에 따라 객체 검출 모델의 파라미터들을 조정하도록 구성된다.
일부 실시예들에서, 훈련 모듈(340)은 제1 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 제1 이미지들을 입력하고, 제2 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 제2 이미지들을 입력하고, 소스 도메인 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 소스 도메인 이미지들을 입력하고, 그리고 타겟 도메인 이미지들의 기본 표현들을 획득하기 위해 객체 검출 모델의 기본 표현 추출 네트워크에 타겟 도메인 이미지들을 입력하고; 그리고 제1 이미지들의 판별 결과들을 획득하기 위해 제1 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 제2 이미지들의 판별 결과들을 획득하기 위해 제2 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 소스 도메인 이미지들의 판별 결과들을 획득하기 위해 소스 도메인 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 그리고 타겟 도메인 이미지들의 판별 결과들을 획득하기 위해 타겟 도메인 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고; 그리고 제1 이미지들의 판별 결과들, 제2 이미지들의 판별 결과들, 소스 도메인 이미지들의 판별 결과들 및 타겟 도메인 이미지들의 판별 결과들에 따라 판별 손실 함수를 결정하고; 그리고 객체 검출 손실 함수 및 판별 손실 함수에 따라 객체 검출 모델의 파라미터들을 조정하도록 구성된다.
일부 실시예들에서, 객체 검출 결과들은 포지셔닝 결과들 및 분류 결과들을 포함하고, 포지셔닝 결과들은 검출된 객체들의 포지션들이고, 분류 결과들은 검출된 객체들의 카테고리들이고, 소스 도메인 이미지들의 라벨링 정보는 소스 도메인 이미지들 내 객체들의 포지션들 및 소스 도메인 이미지들 내 객체들의 카테고리들을 포함하고; 훈련 모듈(340)은, 제1 이미지들의 포지셔닝 결과들, 제2 이미지들의 포지셔닝 결과들 및 소스 도메인 이미지들의 포지셔닝 결과들과 소스 도메인 이미지들 내 객체들의 포지션들의 차이들에 따른 포지셔닝 손실 함수들을 결정하고; 제1 이미지들의 분류 결과들, 제2 이미지들의 분류 결과들 및 소스 도메인 이미지들의 분류 결과들과 소스 도메인 이미지들 내 객체들의 카테고리들의 차이들에 따른 분류 손실 함수들을 결정하고; 그리고 객체 검출 손실 함수를 획득하기 위해 포지셔닝 손실 함수들 및 분류 손실 함수들을 가중화 및 합산하도록 구성된다.
포지셔닝 손실 함수들, 분류 손실 함수들 및 판별 손실 함수에 대해, 위의 실시예들에서 설명된 수학식들 (6) 내지 (15)에 대한 참조가 이루어질 수 있으며, 이는 여기서 반복되지 않을 것이다.
일부 실시예들에서, 이미지 프로세싱 장치(30)는 검출될 이미지의 객체 검출 결과를 획득하기 위해 훈련된 객체 검출 모델에 검출될 이미지를 입력하도록 구성된 객체 검출 모듈(350)을 더 포함한다.
본 개시내용의 실시예에 따른 이미지 프로세싱 장치는 다양한 컴퓨팅 디바이스들 또는 컴퓨터 시스템으로 구현될 수 있으며, 이는 도 4 및 도 5를 참조하여 아래에서 설명된다.
도 4는 본 개시내용의 일부 실시예들에 따른 이미징 프로세싱 장치의 구조도이다. 도 4에 도시된 바와 같이, 본 실시예의 장치(400)는 메모리(410) 및 메모리(410)에 커플링된 프로세서(420)를 포함하고, 프로세서(420)는 메모리(410)에 저장된 명령들에 기초하여, 본 개시내용의 실시예들 중 임의의 하나에 따른 이미지 프로세싱 방법을 수행하도록 구성된다.
메모리(410)는 예컨대, 시스템 메모리, 고정된 비휘발성 저장 매체 등을 포함할 수 있다. 시스템 메모리는 예컨대, 운영 체제, 애플리케이션들, 부트 로더, 데이터베이스 및 다른 프로그램들을 저장한다.
도 5는 본 개시내용의 다른 실시예들에 따른 이미징 프로세싱 장치의 구조도이다. 도 5에 도시된 바와 같이, 본 실시예의 장치(50)는 메모리(410) 및 프로세서(420)와 각각 유사한 메모리(510) 및 프로세서(520)를 포함한다. 이는 입력-출력 인터페이스(530), 네트워크 인터페이스(540), 저장소 인터페이스(550) 등을 더 포함할 수 있다. 이들 인터페이스들(530, 540, 550), 메모리(510) 및 프로세서(520)는, 예를 들면, 버스(560)를 통해 연결될 수 있다. 입력-출력 인터페이스(530)는 디스플레이, 마우스, 키보드, 터치스크린과 같은 입력-출력 디바이스들에 대한 연결 인터페이스를 제공한다. 네트워크 인터페이스(540)는 다양한 네트워킹된 디바이스들에 대한 연결 인터페이스를 제공하며, 예컨대, 데이터베이스 서버 또는 클라우드 저장 서버에 연결될 수 있다. 저장소 인터페이스(550)는 SD 카드, USB 플래시 디스크와 같은 외부 저장 디바이스들에 대한 연결 인터페이스를 제공한다.
당업자들은 본 개시내용의 실시예들이 방법, 시스템 또는 컴퓨터 프로그램 제품으로서 제공될 수 있다는 것을 이해해야 한다. 따라서, 본 개시내용의 실시예들은, 전적으로 하드웨어 실시예, 전적으로 소프트웨어 실시예 또는 하드웨어 및 소프트웨어 요소들 둘 모두를 포함하는 실시예의 형태를 취할 수 있다. 또한, 본 개시내용은 컴퓨터 사용 가능한 프로그램 코드가 그 내부에 구체화되어 있는 하나 이상의 컴퓨터 사용 가능한 비일시적 저장 매체들(디스크 저장소, CD-ROM, 광학 저장 디바이스 등을 포함함(그러나 이에 제한되지 않음)) 상에 구체화된 컴퓨터 프로그램 제품의 형태를 취할 수 있다.
본 개시내용은 본 개시내용의 실시예들에 따른 방법의 흐름도들 및/또는 블록도들, 장치들(시스템들) 및 컴퓨터 프로그램 제품들을 참조하여 설명된다. 흐름도들 및/또는 블록도들 내 각각의 프로세스 및/또는 블록, 및 흐름도들 및/또는 블록도들 내 프로세스들 및/또는 블록들의 조합들은 컴퓨터 프로그램 명령들에 의해 구현될 수 있다는 것이 이해되어야 한다. 이러한 컴퓨터 프로그램 명령들은 범용 컴퓨터, 특수 목적 컴퓨터, 임베디드 프로세서 또는 다른 프로그래밍 가능한 데이터 프로세싱 디바이스에 제공되어 기계를 생성할 수 있어서, 컴퓨터의 프로세서 또는 다른 프로그래밍 가능한 데이터 프로세싱 디바이스들에 의해 실행되는 명령들은 흐름도들의 하나 이상의 흐름들 및/또는 블록도들의 하나 이상의 블록들에 지정된 기능들을 구현하는 수단을 생성한다.
컴퓨터 프로그램 명령들은 또한 컴퓨터 판독 가능 저장 디바이스에 저장된 명령들이 흐름도들의 하나 이상의 흐름들 및/또는 블록도들의 하나 이상의 블록들에 지정된 기능들을 구현하는 명령 수단을 포함하는 제조 물품을 생성하도록 컴퓨터 또는 다른 프로그래밍 가능한 데이터 프로세싱 장치가 특정 방식으로 동작하도록 지시할 수 있는 컴퓨터 판독 가능 저장 디바이스에 저장될 수 있다.
이러한 컴퓨터 프로그램 명령들은 또한, 컴퓨터 또는 다른 프로그래밍 가능한 디바이스 상에서 실행되는 명령들은 흐름도들의 하나 이상의 흐름들 및/또는 블록도들의 하나 이상의 블록들에 지정된 기능들을 구현하는 단계를 제공하도록 컴퓨터 구현 프로세스를 생성하기 위해 컴퓨터 또는 다른 프로그래밍 가능한 디바이스 상에서 일련의 동작 단계들을 수행하도록 컴퓨터 또는 다른 프로그래밍 가능한 디바이스 상에 로딩될 수 있다.
위의 내용은 단지 본 개시내용의 바람직한 실시예들일 뿐이며 본 개시내용에 대한 제한이 아니다. 본 개시내용의 사상 및 원리들 내에서, 임의의 수정, 교체, 개선 등이 본 개시내용의 보호 범위에 포함된다.

Claims (22)

  1. 이미지 프로세싱 방법으로서,
    소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하는 단계;
    다수의 새로운 스타일 표현들을 생성하고, 서로 상이한 상기 다수의 새로운 스타일 표현들이 상기 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 상기 타겟 도메인 스타일 표현들과 상이하고 상기 다수의 새로운 스타일 표현들 및 상기 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 상기 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로 상기 소스 도메인 콘텐츠 표현들 및 상기 타겟 도메인 스타일 표현들을 업데이트하는 단계;
    상기 다수의 새로운 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 상기 업데이트된 타겟 도메인 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하는 단계; 및
    훈련된 객체 검출 모델을 획득하기 위해 상기 제1 이미지들, 상기 제2 이미지들 및 상기 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계를 포함하는,
    이미지 프로세싱 방법.
  2. 제1 항에 있어서,
    상기 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하는 단계는,
    콘텐츠 인코더를 사용하여 상기 소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들을 추출하는 단계; 및
    스타일 인코더를 사용하여 상기 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 추출하는 단계를 포함하는,
    이미지 프로세싱 방법.
  3. 제2 항에 있어서,
    상기 스타일 인코더는 스타일 표현 추출 네트워크 및 클러스터링 모듈을 포함하고, 상기 스타일 인코더를 사용하여 상기 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 추출하는 단계는,
    상기 타겟 도메인 이미지들의 기본 스타일 표현들을 획득하기 위해 상기 스타일 표현 추출 네트워크에 상기 타겟 도메인 이미지들을 입력하는 단계; 및
    상기 타겟 도메인 스타일 표현들로서 클러스터링 중심들의 표현 벡터들을 획득하도록 상기 타겟 도메인 이미지들의 기본 스타일 표현들을 클러스터링을 위해 상기 클러스터링 모듈에 입력하는 단계를 포함하는,
    이미지 프로세싱 방법.
  4. 제2 항에 있어서,
    상기 다수의 새로운 스타일 표현들을 생성하는 단계는,
    미리 설정된 수의 새로운 스타일 표현들을 랜덤으로 생성하고, 제1 전달 이미지들을 획득하기 위해 생성 네트워크에 상기 새로운 스타일 표현들 및 상기 소스 도메인 콘텐츠 표현들을 입력하는 단계;
    제2 전달 이미지들을 획득하기 위해 상기 생성 네트워크에 상기 타겟 도메인 스타일 표현들 및 상기 소스 도메인 콘텐츠 표현들을 입력하는 단계;
    상기 제1 전달 이미지들과 상기 소스 도메인 이미지들 사이의 스타일 차이들, 및 상기 제1 전달 이미지들과 상기 제2 전달 이미지들 사이의 스타일 차이들에 따라 제1 손실 함수들을 결정하는 단계 ― 상기 제1 손실 함수들은 상기 새로운 스타일 표현들과 상기 소스 도메인 스타일 표현들 간의 차이들, 및 상기 새로운 스타일 표현들과 상기 타겟 도메인 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ;
    제1 전달 이미지들 간의 스타일 차이들에 따라 제2 손실 함수들을 결정하는 단계 ― 상기 제2 손실 함수들은 상기 새로운 스타일 표현들 간의 차이들을 표현하는 데 사용됨 ― ;
    상기 제1 전달 이미지들의 의미론적 표현들과 상기 소스 도메인 이미지들의 의미론적 표현들 간의 차이들에 따라 제3 손실 함수들을 결정하는 단계 ― 상기 제3 손실 함수들은 상기 새로운 스타일 표현들 및 상기 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들과 상기 소스 도메인 이미지들 간의 의미론적 차이들을 표현하는 데 사용됨 ― ; 및
    상기 다수의 새로운 스타일 표현들을 획득하기 위해 상기 목표에 대응하는 미리 설정된 수렴 조건이 만족될 때까지, 상기 제1 손실 함수들, 상기 제2 손실 함수들 및 상기 제3 손실 함수들에 따라 상기 새로운 스타일 표현들을 조정하는 단계를 포함하는,
    이미지 프로세싱 방법.
  5. 제4 항에 있어서,
    상기 소스 도메인 콘텐츠 표현들 및 상기 타겟 도메인 스타일 표현들을 업데이트하는 단계는,
    상기 목표에 대응되는 미리 설정된 수렴 조건이 만족될 때까지, 상기 제1 손실 함수들, 제2 손실 함수들, 및 제3 손실 함수들에 따라 상기 콘텐츠 인코더, 상기 스타일 인코더 및 상기 생성 네트워크의 파라미터들을 조정하는 단계; 및
    상기 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 상기 업데이트된 소스 도메인 콘텐츠 표현들로서 상기 콘텐츠 인코더에 의해 출력된 소스 도메인 콘텐츠 표현들을 취하고, 상기 업데이트된 타겟 도메인 스타일 표현들로서 상기 스타일 인코더에 의해 출력된 타겟 도메인 스타일 표현들을 취하는 단계를 포함하는,
    이미지 프로세싱 방법.
  6. 제4 항에 있어서,
    상기 제1 전달 이미지들 중 임의의 것 및 상기 제1 전달 이미지들 중 상기 임의의 것에 대응하는 소스 도메인 이미지를 각각 제1 참조 이미지 및 제2 참조 이미지로서 취하거나, 상기 제1 전달 이미지들 중 임의의 것 및 상기 제1 전달 이미지들 중 상기 임의의 것에 대응하는 제2 전달 이미지를 각각 상기 제1 참조 이미지 및 상기 제2 참조 이미지로서 취하거나, 또는 제1 전달 이미지들 중 임의의 2개를 각각 상기 제1 참조 이미지 및 상기 제2 참조 이미지로서 취하여, 상기 제1 참조 이미지와 상기 제2 참조 이미지 사이의 스타일 차이는 다음 방법:
    미리 훈련된 표현 추출 네트워크의 다수의 미리 설정된 표현 계층들에 상기 제1 참조 이미지 및 상기 제2 참조 이미지를 입력하고;
    상기 다수의 미리 설정된 표현 계층들 각각에 대해, 상기 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제1 참조 이미지의 표현들의 평균 값 및 분산을 제1 평균 값 및 제1 분산으로 결정하고, 상기 다수의 미리 설정된 표현 계층들 각각에 의해 출력되는 제2 참조 이미지의 표현들의 평균 값 및 분산을 제2 평균 값 및 제2 분산으로 결정하고; 그리고
    상기 제1 평균 값과 상기 제2 평균 값 간의 차이뿐만 아니라 상기 다수의 미리 설정된 표현 계층들 각각에 대응하는 상기 제1 분산과 상기 제2 분산 간의 차이에 따라 상기 제1 참조 이미지와 상기 제2 참조 이미지 간의 스타일 차이를 결정하는 것에 의해 결정되는,
    이미지 프로세싱 방법.
  7. 제4 항에 있어서,
    상기 제1 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:

    여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제1 손실 함수를 표현하고; k는 양의 정수이고, 이며; i는 양의 정수이고; 는 상기 소스 도메인 이미지들 및 상기 타겟 도메인 이미지들의 총 수를 표현하고, ns 및 nt는 각각 상기 소스 도메인 이미지들의 수 및 상기 타겟 도메인 이미지들의 수를 표현하고; nj는 j번째 타겟 도메인 스타일 표현에 대응하는 타겟 이미지들의 수를 표현하고; Kt는 상기 타겟 도메인 스타일 표현들의 수를 표현하고; Tnov는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; j는 양의 정수이고 이며; 는 상기 k번째 소스 도메인 이미지를 표현하고; 는 상기 i번째 새로운 스타일 표현 및 상기 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 상기 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; 는 상기 j번째 타겟 도메인 스타일 표현 및 상기 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 상기 생성 네트워크에 입력함으로써 생성된 제2 전달 이미지를 표현하고; 그리고 d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현하는,
    이미지 프로세싱 방법.
  8. 제4 항에 있어서,
    상기 제2 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:

    여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제2 손실 함수를 표현하고, i는 양의 정수이고 이며; Kn은 미리 설정된 수를 표현하고; Tdiv는 최대화된 거리 임계치를 표현하는 하이퍼파라미터이고; 는 j번째 새로운 스타일 표현 및 상기 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 상기 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고, j는 양의 정수이고 이며, 는 상기 i번째 새로운 스타일 표현 및 상기 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 상기 생성 네트워크에 입력함으로써 생성된 제1 전달 이미지를 표현하고; 그리고 d 는 2개의 이미지들 간의 스타일 차이의 결정 함수를 표현하는,
    이미지 프로세싱 방법.
  9. 제4 항에 있어서,
    상기 제3 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:

    여기서 는 i번째 새로운 스타일 표현 및 k번째 소스 도메인 이미지에 대응하는 제3 손실 함수를 표현하고; 은 의미론적 표현 추출기의 함수를 표현하고; 는 상기 k번째 소스 도메인 이미지를 표현하고; 그리고 는 상기 i번째 새로운 스타일 표현 및 상기 k번째 소스 도메인 이미지의 소스 도메인 콘텐츠 표현을 상기 생성 네트워크에 입력함으로써 획득된 제1 전달 이미지를 표현하는,
    이미지 프로세싱 방법.
  10. 제4 항에 있어서,
    상기 제1 손실 함수들, 상기 제2 손실 함수들 및 제3 손실 함수들에 따라 상기 새로운 스타일 표현들을 조정하는 단계는,
    상기 제1 손실 함수들, 상기 제2 손실 함수들 및 상기 제3 손실 함수들을 가중화하고 합산함으로써 타겟 손실 함수를 획득하는 단계;
    상기 타겟 손실 함수에 따라 기울기를 결정하는 단계; 및
    상기 기울기 및 미리 설정된 학습 레이트에 따라 상기 새로운 스타일 표현들을 조정하는 단계를 포함하고, 상기 랜덤으로 생성된 미리 설정된 수의 새로운 스타일 표현들에서 각각의 차원의 값은 표준 정규 분포로부터 랜덤으로 샘플링되는,
    이미지 프로세싱 방법.
  11. 제5 항에 있어서,
    상기 다수의 새로운 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 상기 업데이트된 타겟 도메인 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하는 단계는,
    상기 목표에 대응하는 미리 설정된 수렴 조건이 만족되는 경우, 상기 제1 이미지들을 획득하기 위해 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 소스 도메인 콘텐츠 표현들을 상기 생성 네트워크에 입력하고, 상기 제2 이미지들을 획득하기 위해 상기 업데이트된 타겟 도메인 스타일 표현들 및 상기 업데이트된 소스 도메인 콘텐츠 표현들을 상기 생성 네트워크에 입력하는 단계를 포함하는,
    이미지 프로세싱 방법.
  12. 제1 항에 있어서,
    상기 제1 이미지들, 상기 제2 이미지들 및 상기 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계는,
    상기 제1 이미지들의 객체 검출 결과들을 획득하기 위해 상기 객체 검출 모델에 상기 제1 이미지들을 입력하고, 상기 제2 이미지들의 객체 검출 결과들을 획득하기 위해 상기 객체 검출 모델에 상기 제2 이미지들을 입력하고, 그리고 상기 소스 도메인 이미지들의 객체 검출 결과들을 획득하기 위해 상기 객체 검출 모델에 상기 소스 도메인 이미지들을 입력하는 단계;
    상기 소스 도메인 이미지들의 라벨링 정보와 상기 제1 이미지들의 객체 검출 결과들, 상기 제2 이미지들의 객체 검출 결과들 및 상기 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수를 결정하는 단계; 및
    상기 객체 검출 손실 함수에 따라 상기 객체 검출 모델의 파라미터들을 조정하는 단계를 포함하는,
    이미지 프로세싱 방법.
  13. 제12 항에 있어서,
    상기 제1 이미지들, 상기 제2 이미지들 및 상기 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하는 단계는,
    상기 제1 이미지들의 기본 표현들을 획득하기 위해 상기 객체 검출 모델의 기본 표현 추출 네트워크에 상기 제1 이미지들을 입력하고, 상기 제2 이미지들의 기본 표현들을 획득하기 위해 상기 객체 검출 모델의 기본 표현 추출 네트워크에 상기 제2 이미지들을 입력하고, 상기 소스 도메인 이미지들의 기본 표현들을 획득하기 위해 상기 객체 검출 모델의 기본 표현 추출 네트워크에 상기 소스 도메인 이미지들을 입력하고, 그리고 상기 타겟 도메인 이미지들의 기본 표현들을 획득하기 위해 상기 객체 검출 모델의 기본 표현 추출 네트워크에 상기 타겟 도메인 이미지들을 입력하는 단계; 및
    상기 제1 이미지들의 판별 결과들을 획득하기 위해 상기 제1 이미지들의 기본 표현들을 기울기 반전 계층에 그리고 그 후 판별 네트워크에 입력하고, 상기 제2 이미지들의 판별 결과들을 획득하기 위해 상기 제2 이미지들의 기본 표현들을 상기 기울기 반전 계층에 그리고 그 후 상기 판별 네트워크에 입력하고, 상기 소스 도메인 이미지들의 판별 결과들을 획득하기 위해 상기 소스 도메인 이미지들의 기본 표현들을 상기 기울기 반전 계층에 그리고 그 후 상기 판별 네트워크에 입력하고, 그리고 상기 타겟 도메인 이미지들의 판별 결과들을 획득하기 위해 상기 타겟 도메인 이미지들의 기본 표현들을 상기 기울기 반전 계층에 그리고 그 후 상기 판별 네트워크에 입력하는 단계; 및
    상기 제1 이미지들의 판별 결과들, 상기 제2 이미지들의 판별 결과들, 상기 소스 도메인 이미지들의 판별 결과들 및 상기 타겟 도메인 이미지들의 판별 결과들에 따라 판별 손실 함수를 결정하는 단계를 더 포함하고,
    상기 객체 검출 손실 함수에 따라 상기 객체 검출 모델의 파라미터들을 조정하는 단계는,
    상기 객체 검출 손실 함수 및 상기 판별 손실 함수에 따라 상기 객체 검출 모델의 파라미터들을 조정하는 단계를 포함하는,
    이미지 프로세싱 방법.
  14. 제12 항에 있어서,
    상기 객체 검출 결과들은 포지셔닝 결과들 및 분류 결과들을 포함하고, 상기 포지셔닝 결과들은 검출된 객체들의 포지션들이고, 상기 분류 결과들은 상기 검출된 객체들의 카테고리들이고, 상기 소스 도메인 이미지들의 라벨링 정보는 상기 소스 도메인 이미지들 내 객체들의 포지션들 및 상기 소스 도메인 이미지들 내 상기 객체들의 카테고리들을 포함하고; 그리고
    상기 소스 도메인 이미지들의 라벨링 정보와 상기 제1 이미지들의 객체 검출 결과들, 상기 제2 이미지들의 객체 검출 결과들 및 상기 소스 도메인 이미지들의 객체 검출 결과들의 차이들에 따라 객체 검출 손실 함수를 결정하는 단계는,
    상기 제1 이미지들의 포지셔닝 결과들, 상기 제2 이미지들의 포지셔닝 결과들 및 상기 소스 도메인 이미지들의 포지셔닝 결과들과 상기 소스 도메인 이미지들 내 객체들의 포지션들의 차이들에 따른 포지셔닝 손실 함수들을 결정하는 단계;
    상기 제1 이미지들의 분류 결과들, 상기 제2 이미지들의 분류 결과들 및 상기 소스 도메인 이미지들의 분류 결과들과 상기 소스 도메인 이미지들 내 상기 객체들의 카테고리들의 차이들에 따른 분류 손실 함수들을 결정하는 단계; 및
    상기 객체 검출 손실 함수를 획득하기 위해 상기 포지셔닝 손실 함수들 및 상기 분류 손실 함수들을 가중화하고 합산하는 단계를 포함하는,
    이미지 프로세싱 방법.
  15. 제14 항에 있어서,
    상기 포지셔닝 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:

    여기서 는 k번째 소스 도메인 이미지에 대응하는 포지셔닝 손실을 표현하고; 는 상기 k번째 소스 도메인 이미지를 표현하고; 는 상기 k번째 소스 도메인 이미지 내 객체의 포지션을 표현하고, 는 상기 k번째 소스 도메인 이미지의 포지셔닝 결과 및 상기 k번째 소스 도메인 이미지 내 상기 객체의 포지션에 의해 결정되는 포지셔닝 손실을 표현하고; di는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 상기 i번째 스타일 표현을 상기 제1 이미지들 중 하나 또는 상기 제2 이미지들 중 하나인 상기 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 상기 이미지 의 포지셔닝 결과 및 상기 k번째 소스 도메인 이미지 내 상기 객체의 포지션에 대응하는 포지셔닝 손실을 표현하고, i는 양의 정수이고 이며; 그리고 Nd는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현하는,
    이미지 프로세싱 방법.
  16. 제14 항에 있어서,
    상기 분류 손실 함수들 각각은 다음 수학식을 사용하여 결정되고:

    여기서 는 k번째 소스 도메인 이미지에 대응하는 분류 손실을 표현하고; 는 상기 k번째 소스 도메인 이미지를 표현하고; 는 상기 k번째 소스 도메인 이미지 내 객체의 카테고리를 표현하고; 는 상기 k번째 소스 도메인 이미지의 분류 결과 및 상기 k번째 소스 도메인 이미지 내 상기 객체의 카테고리에 대응하는 분류 손실이고; di는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 i번째 스타일 표현을 표현하고; 는 상기 i번째 스타일 표현을 상기 제1 이미지들 중 하나 또는 상기 제2 이미지들 중 하나인 상기 k번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고; 는 상기 이미지 의 분류 결과 및 상기 k번째 소스 도메인 이미지 내 상기 객체의 카테고리에 대응하는 분류 손실을 표현하고, i는 양의 정수이고 이며; 그리고 Nd는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현하는,
    이미지 프로세싱 방법.
  17. 제13 항에 있어서,
    상기 판별 손실 함수는 다음 수학식들을 사용하여 결정되고:




    여기서 는 i번째 소스 도메인 이미지를 표현하고; ns는 상기 소스 도메인 이미지들의 수를 표현하고; 은 상기 소스 도메인 이미지들의 판별 결과들에 따라 결정되는 소스 도메인 판별 손실 함수를 표현하고; 는 j번째 타겟 도메인 이미지를 표현하고; 는 상기 j번째 타겟 도메인 이미지가 속한 스타일을 표현하고; nt는 상기 타겟 도메인 이미지들의 수를 표현하고, j는 양의 정수이고 이며; 은 상기 타겟 도메인 이미지들의 판별 결과들에 따라 결정되는 타겟 도메인 판별 손실 함수를 표현하고; 는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 k번째 스타일 표현을 표현하고; 는 상기 k번째 스타일 표현을 상기 i번째 소스 도메인 이미지의 업데이트된 소스 도메인 콘텐츠 표현과 결합함으로써 생성된 이미지를 표현하고, k는 양의 정수이고 이며; Nd는 상기 다수의 새로운 스타일 표현들 및 상기 업데이트된 타겟 도메인 스타일 표현들의 세트 내 스타일 표현들의 총 수를 표현하고; 그리고 는 상기 제1 이미지들의 판별 결과들 및 상기 제2 이미지들의 판별 결과들에 따라 결정되는 판별 손실 함수를 표현하는,
    이미지 프로세싱 방법.
  18. 제17 항에 있어서,



    여기서, h는 상기 이미지에서 픽셀들의 높이를 표현하는 양의 정수이고, 이며; w는 상기 이미지에서 픽셀들의 폭을 표현하는 양의 정수이고, 이며, H 및 W는 각각 상기 이미지에서 픽셀들의 최대 높이 및 최대 폭을 표현하고; 그리고 는 상기 기본 표현 추출 네트워크 및 기울기 반전 계층의 함수를 표현하는,
    이미지 프로세싱 방법.
  19. 제1 항에 있어서,
    검출될 이미지의 객체 검출 결과를 획득하기 위해 상기 훈련된 객체 검출 모델에 상기 검출될 이미지를 입력하는 단계를 더 포함하는,
    이미지 프로세싱 방법.
  20. 이미지 프로세싱 장치로서,
    소스 도메인 이미지들의 소스 도메인 콘텐츠 표현들 및 타겟 도메인 이미지들의 타겟 도메인 스타일 표현들을 획득하도록 구성된 획득 모듈;
    상기 다수의 새로운 스타일 표현들을 생성하고, 서로 상이한 상기 다수의 새로운 스타일 표현들이 상기 소스 도메인 이미지들의 소스 도메인 스타일 표현들 및 상기 타겟 도메인 스타일 표현들과 상이하고 상기 다수의 새로운 스타일 표현들 및 상기 소스 도메인 콘텐츠 표현들을 결합함으로써 생성된 이미지들이 상기 소스 도메인 이미지들과 의미론적으로 일치하는 것을 목표로 상기 소스 도메인 콘텐츠 표현들 및 상기 타겟 도메인 스타일 표현들을 업데이트하도록 구성된 표현 생성 모듈;
    다수의 새로운 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제1 이미지들을 생성하고, 상기 업데이트된 타겟 도메인 스타일 표현들을 상기 업데이트된 소스 도메인 콘텐츠 표현들과 결합함으로써 제2 이미지들을 생성하도록 구성된 이미지 생성 모듈; 및
    훈련된 객체 검출 모델을 획득하기 위해 상기 제1 이미지들, 상기 제2 이미지들 및 상기 소스 도메인 이미지들을 사용하여 객체 검출 모델을 훈련하도록 구성된 훈련 모듈을 포함하는,
    이미지 프로세싱 장치.
  21. 이미지 프로세싱 장치로서,
    프로세서; 및
    상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금, 제1 항 내지 제19 항 중 어느 한 항에 따른 이미지 프로세싱 방법을 실행하게 하는 명령들을 저장하기 위해 상기 프로세서에 커플링된 메모리를 포함하는,
    이미지 프로세싱 장치.
  22. 컴퓨터 프로그램이 저장되어 있는 비일시적 컴퓨터 판독 가능 저장 매체로서,
    상기 컴퓨터 프로그램은 프로세서에 의해 실행될 때, 상기 프로세서로 하여금 제1 항 내지 제19 항 중 어느 한 항에 따른 방법의 단계들을 구현하게 하는,
    비일시적 컴퓨터 판독 가능 저장 매체.
KR1020237038915A 2021-04-16 2022-04-15 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체 KR20230171966A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110410920.0A CN113111947B (zh) 2021-04-16 2021-04-16 图像处理方法、装置和计算机可读存储介质
CN202110410920.0 2021-04-16
PCT/CN2022/086976 WO2022218396A1 (zh) 2021-04-16 2022-04-15 图像处理方法、装置和计算机可读存储介质

Publications (1)

Publication Number Publication Date
KR20230171966A true KR20230171966A (ko) 2023-12-21

Family

ID=76718007

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020237038915A KR20230171966A (ko) 2021-04-16 2022-04-15 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체

Country Status (4)

Country Link
JP (1) JP2024513596A (ko)
KR (1) KR20230171966A (ko)
CN (1) CN113111947B (ko)
WO (1) WO2022218396A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113111947B (zh) * 2021-04-16 2024-04-09 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质
CN114119348A (zh) * 2021-09-30 2022-03-01 阿里巴巴云计算(北京)有限公司 图像生成方法、设备和存储介质
CN114511646B (zh) * 2022-04-19 2022-06-14 南通东德纺织科技有限公司 一种基于图像处理的布匹风格识别方法及系统
CN116246014B (zh) * 2022-12-28 2024-05-14 支付宝(杭州)信息技术有限公司 一种形象生成方法、装置、存储介质及电子设备
CN116758617B (zh) * 2023-08-16 2023-11-10 四川信息职业技术学院 一种低光照度场景下的校园学生签到方法和校园签到系统

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11120337B2 (en) * 2017-10-20 2021-09-14 Huawei Technologies Co., Ltd. Self-training method and system for semi-supervised learning with generative adversarial networks
US11380034B2 (en) * 2017-10-27 2022-07-05 Google Llc Semantically-consistent image style transfer
CN108734653B (zh) * 2018-05-07 2022-05-13 商汤集团有限公司 图像风格转换方法及装置
US11205096B2 (en) * 2018-11-19 2021-12-21 Google Llc Training image-to-image translation neural networks
CN110310221B (zh) * 2019-06-14 2022-09-20 大连理工大学 一种基于生成对抗网络的多域图像风格迁移方法
CN110930295B (zh) * 2019-10-25 2023-12-26 广东开放大学(广东理工职业学院) 一种图像风格迁移方法、系统、装置和存储介质
CN111292384B (zh) * 2020-01-16 2022-05-20 西安交通大学 基于生成式对抗网络的跨域多样性图像生成方法及系统
CN112308862A (zh) * 2020-06-04 2021-02-02 北京京东尚科信息技术有限公司 图像语义分割模型训练、分割方法、装置以及存储介质
CN112184846A (zh) * 2020-09-16 2021-01-05 上海眼控科技股份有限公司 图像生成方法、装置、计算机设备和可读存储介质
CN113111947B (zh) * 2021-04-16 2024-04-09 北京沃东天骏信息技术有限公司 图像处理方法、装置和计算机可读存储介质

Also Published As

Publication number Publication date
WO2022218396A1 (zh) 2022-10-20
CN113111947B (zh) 2024-04-09
JP2024513596A (ja) 2024-03-26
CN113111947A (zh) 2021-07-13

Similar Documents

Publication Publication Date Title
Mukhoti et al. Evaluating bayesian deep learning methods for semantic segmentation
KR20230171966A (ko) 이미지 프로세싱 방법 및 장치 및 컴퓨터 판독 가능 저장 매체
CN108470332B (zh) 一种多目标跟踪方法及装置
CN110569696A (zh) 用于车辆部件识别的神经网络系统、方法和装置
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN111161315B (zh) 一种基于图神经网络的多目标跟踪方法和系统
Redondo-Cabrera et al. Learning to exploit the prior network knowledge for weakly supervised semantic segmentation
Chen et al. Learning linear regression via single-convolutional layer for visual object tracking
CN112132014B (zh) 基于非督导金字塔相似性学习的目标重识别方法及系统
Nordeng et al. DEBC detection with deep learning
CN110458022B (zh) 一种基于域适应的可自主学习目标检测方法
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN111259812B (zh) 基于迁移学习的内河船舶重识别方法、设备及存储介质
CN116994021A (zh) 图像检测方法、装置、计算机可读介质及电子设备
CN114418021A (zh) 模型优化方法、装置及计算机程序产品
Behnaz et al. DEEPPBM: Deep probabilistic background model estimation from video sequences
CN117765432A (zh) 一种基于动作边界预测的中学理化生实验动作检测方法
CN113095351A (zh) 借助于初始标记的改善生成经标记的数据的方法
CN115018884B (zh) 基于多策略融合树的可见光红外视觉跟踪方法
CN111223126A (zh) 一种基于迁移学习的跨视角轨迹模型构建方法
Satheeswari et al. Mask R-CNN based Object Detection in Overhead Transmission Line from UAV Images
CN114913330A (zh) 点云部件分割方法、装置、电子设备与存储介质
KR20190093752A (ko) 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템
CN114241202A (zh) 着装分类模型的训练方法及装置、着装分类方法及装置
Yu et al. Vision-based vehicle detection in foggy days by convolutional neural network