KR20190031318A

KR20190031318A - 도메인 분리 뉴럴 네트워크들

Info

Publication number: KR20190031318A
Application number: KR1020197005982A
Authority: KR
Inventors: 콘스탄티노스 보울스말리스; 나탄 실버만; 디립 크리쉬난; 조지 트리게오르지스; 두미트루 에르한
Original assignee: 구글 엘엘씨
Priority date: 2016-07-28
Filing date: 2016-07-28
Publication date: 2019-03-25
Also published as: JP6771645B2; EP3475879A1; US20210224573A1; KR102318772B1; US20190180136A1; CN109643383B; CN109643383A; US11361531B2; US10970589B2; WO2018020277A1; JP2019523504A

Abstract

이미지 프로세싱 뉴럴 네트워크 시스템을 사용하여 이미지들을 프로세싱하기 위한 방법들, 시스템들, 및 장치들이 제공되며, 여기에는 컴퓨터 저장 매체들에 인코딩되는 컴퓨터 프로그램들이 포함된다. 시스템 중 하나는 하나 이상의 컴퓨터들에 의해 구현되는 공유된 인코더 뉴럴 네트워크; 그리고 하나 이상의 컴퓨터들에 의해 구현되는 분류기 뉴럴 네트워크를 포함하고, 여기서, 공유된 인코더 뉴럴 네트워크는, 타겟 도메인으로부터 입력 이미지를 수신하도록 구성되고, 그리고 입력 이미지를 프로세싱하여 타겟 도메인으로부터의 이미지들과 타겟 도메인과는 다른 소스 도메인으로부터의 이미지들 간에 공유된 입력 이미지의 특징들의 공유된 특징 표현을 발생시키도록 구성되며; 그리고 분류기 뉴럴 네트워크는, 공유된 특징 표현을 수신하도록 구성되고, 그리고 공유된 특징 표현을 프로세싱하여 입력 이미지를 특징짓는 입력 이미지에 대한 네트워크 출력을 발생시키도록 구성된다.

Description

도메인 분리 뉴럴 네트워크들

본 명세서는 뉴럴 네트워크(neural network)들의 계층들을 통해 이미지 데이터(image data)를 프로세싱(processing)하여 출력들을 발생시키는 것에 관한 것이다.

뉴럴 네트워크들은 수신된 입력에 대한 출력을 예측하기 위해 비선형 유닛(nonlinear unit)들의 하나 이상의 계층들을 이용하는 머신 학습 모델(machine learning model)들이다. 일부 뉴럴 네트워크들은 출력 계층에 추가하여 하나 이상의 은닉 계층(hidden layer)들을 포함한다. 각각의 은닉 계층의 출력은 네트워크 내의 다음 계층(즉, 다음 은닉 계층 혹은 출력 계층)에 대한 입력으로서 사용된다. 네트워크의 각각의 계층은 파라미터(parameter)들의 각각의 세트(set)의 현재 값들에 따라 임의의 수신된 입력으로부터 출력을 발생시킨다.

일반적으로, 본 명세서는, 하나 이상의 컴퓨터들에 의해 구현되는 이미지 프로세싱 뉴럴 네트워크들을 설명하며, 이러한 이미지 프로세싱 뉴럴 네트워크들은 이미지들을 특징짓는 타겟 도메인(target domain)으로부터의 이미지들에 대한 네트워크 출력들을 발생시킨다. 특히, 이미지 프로세싱 뉴럴 네트워크 시스템은, 타겟 도메인으로부터 입력 이미지를 수신하고, 그리고 이미지를 프로세싱하여 타겟 도메인으로부터의 이미지들과 타겟 도메인과는 다른 소스 도메인(source domain)으로부터의 이미지들 간에 공유된 입력 이미지의 특징(feature)들의 공유된 특징 표현(shared feature representation)을 발생시킨다. 그 다음에, 이미지 프로세싱 뉴럴 네트워크 시스템은 공유된 특징 표현으로부터 입력 이미지를 특징짓는 네트워크 출력을 발생시킨다.

하나 이상의 컴퓨터들의 시스템이 특정 동작(operation)들 혹은 액션(action)들을 수행하도록 구성된다는 의미는, 해당 시스템 상에 소프트웨어, 펌웨어, 하드웨어, 혹은 이들의 임의의 조합이 설치되어 이들이 동작시 시스템으로 하여금 그 특정 동작들 혹은 액션들을 수행하도록 하는 것을 의미한다. 하나 이상의 컴퓨터 프로그램들이 특정 동작들 혹은 액션들을 수행하도록 구성된다는 의미는, 하나 이상의 프로그램들이 명령들을 포함하여 명령들이, 데이터 프로세싱 장치에 의해 실행될 때, 데이터 프로세싱 장치로 하여금 그 특정 동작들 혹은 액션들을 수행하도록 하는 것을 의미한다.

본 명세서에서 설명되는 주된 내용의 특정 실시예들은 다음의 장점들 중 하나 이상의 장점을 실현하도록 구현될 수 있다. 본 명세서에서 설명되는 바와 같은 뉴럴 네트워크 시스템은, 다양한 비지도 도메인 적응 시나리오(unsupervised domain adaptation scenario)들에 있어 최신 기술을 능가하는 성능을 수행할 수 있으며, 추가적으로 훈련(training) 동안 도메인 적응 프로세스(domain adaptation process)의 해석(interpretation)을 가능하게 하는 전용 표현들(private representations) 및 공유된 표현들(shared representations)의 시각화(visualization)들을 생성할 수 있다. 이러한 뉴럴 네트워크 시스템은 훈련 및 시험(testing) 동안 데이터 분포(data distribution)들이 서로 다른 시나리오들에서 도메인 불변(domain invariant)인 표현들을 학습할 수 있다.

본 명세서의 주된 내용의 하나 이상의 실시예들에 관한 세부사항들은 아래의 설명 및 첨부되는 도면들에서 제시된다. 이러한 주된 내용의 다른 특징들, 실시형태들, 및 장점들은 아래의 설명, 도면들, 및 청구항들로부터 명백하게 될 것이다.

도 1은 예시적인 이미지 프로세싱 뉴럴 네트워크 시스템을 보여준다.
도 2는 예시적인 뉴럴 네트워크 훈련 시스템을 보여준다.
도 3은 타겟 도메인으로부터의 이미지에 대한 네트워크 출력을 발생시키기 위한 예시적인 프로세스를 나타낸 흐름도이다.
도 4는 공유된 인코더 뉴럴 네트워크 및 분류기 뉴럴 네트워크를 훈련시키는 것의 반복을 수행하기 위한 예시적인 프로세스를 나타낸 흐름도이다.
다양한 도면들에서의 동일한 참조 번호들 및 지정들은 동일한 요소들을 표시한다.

본 명세서는 하나 이상의 위치들에 있는 하나 이상의 컴퓨터들 상에서 컴퓨터 프로그램들로서 구현되는 이미지 프로세싱 뉴럴 네트워크 시스템을 설명한다.

이미지 프로세싱 뉴럴 네트워크 시스템은 타겟 도메인으로부터의 입력 이미지들을 프로세싱하여 네트워크 이미지를 특징짓는 각각의 입력 이미지에 대한 각각의 네트워크 출력을 발생시킨다.

이미지 프로세싱 뉴럴 네트워크 시스템은 다양한 방식들 중 임의의 방식으로 타겟 도메인으로부터의 수신된 이미지를 특징짓는 네트워크 출력을 발생시키도록 구성될 수 있다.

예를 들어, 이미지 프로세싱 뉴럴 네트워크 시스템은, 타겟 도메인으로부터의 입력 이미지들을 하나 이상의 객체 카테고리들(object categories)로부터의 객체들의 이미지들을 포함하는 것으로서 분류하도록 구성될 수 있는데, 즉, 입력 이미지가 객체 카테고리에 속하는 객체의 이미지를 포함할 가능성(likelihood)을 나타내는 하나 이상의 객체 카테고리들 각각에 대한 각각의 점수를 포함하는 입력 이미지에 대한 분류 출력을 발생시키도록 구성될 수 있다.

또 하나의 다른 예로서, 이미지 프로세싱 뉴럴 네트워크 시스템은 입력 이미지들 내의 객체들의 자세(pose)를 추정하도록 구성될 수 있다. 일반적으로, 객체의 자세는 입력 이미지 내의 객체의 위치(position)와 배향(orientation)의 조합이다. 예를 들어, 시스템은 객체의 미리결정된 개수의 몸체 접합부(body joint)들 각각의 이미지에서 임의의 추정된 위치를 포함하는 자세 벡터(pose vector)를 네트워크 출력으로서 발생시킬 수 있다.

또 하나의 다른 예로서, 이미지 프로세싱 뉴럴 네트워크 시스템은 입력 이미지들을 복수의 영역들로 분할하도록 구성될 수 있고, 여기서 복수의 영역들 각각은 일 세트의 카테고리들 중 상이한 카테고리에 속한다. 예를 들어, 시스템은 입력 이미지의 각각의 픽셀에 대해 픽셀이 속한 카테고리를 식별시키는 데이터(예컨대, 벡터 혹은 매트릭스(matrix))를 네트워크 출력으로서 발생시킬 수 있다.

도 1은 예시적인 이미지 프로세싱 뉴럴 네트워크 시스템(100)을 보여준다. 이미지 프로세싱 뉴럴 네트워크 시스템(100)은 하나 이상의 위치들에 있는 하나 이상의 컴퓨터들 상에서 컴퓨터 프로그램들로서 구현되는 시스템의 예이고, 여기에는 아래에서 설명되는 시스템들, 컴포넌트들, 및 기법들이 구현될 수 있다.

이미지 프로세싱 뉴럴 네트워크 시스템(100)은 입력으로서 타겟 도메인 이미지(102)를 수신하고 타겟 도메인 이미지(102)를 프로세싱하여 네트워크 출력(122)을 발생시킨다. 앞에서 설명된 바와 같이, 이미지 프로세싱 뉴럴 네트워크 시스템(100)은 수신된 입력 이미지들에 대한 다양한 종류들의 네트워크 출력들을 발생시키도록 구성될 수 있다.

이미지 프로세싱 뉴럴 네트워크 시스템(100)은 공유된 인코더 뉴럴 네트워크(110) 및 분류기 뉴럴 네트워크(120)를 포함한다.

공유된 인코더 뉴럴 네트워크(110)는 훈련에 걸쳐 타겟 도메인 이미지(102)를 수신하고 타겟 도메인 이미지(102)를 프로세싱하여 타겟 도메인 이미지(102)에 대한 공유된 특징 표현(112)을 발생시키도록 구성되어 있는 뉴럴 네트워크인데, 예를 들어, 컨볼류션 뉴럴 네트워크(convolutional neural network)이다. 공유된 특징 표현(112)은 수치적 값(numeric value)들의 벡터이고, 아울러 타겟 도메인으로부터의 이미지들과 소스 도메인으로부터의 이미지들 간에 공유된 타겟 도메인 이미지(102)의 특징들의 표현이다.

일반적으로, 소스 도메인은 타겟 도메인과는 다르다. 특히, 소스 도메인으로부터의 이미지들 내의 픽셀 값들의 분포는 타겟 도메인으로부터의 이미지들 내의 픽셀 값들의 분포와 다르다.

일부 경우들에서, 소스 도메인과 타겟 도메인은 주로, 높은-레벨의 이미지 통계치(high-level image statistic)들보다 오히려 낮은-레벨의 이미지 통계치(low-level image statistic)들의 분포에 있어서 다르다. 분포들에서의 낮은-레벨의 차이들의 예들은 노이즈(noise), 해상도(resolution), 조명(illumination) 및 컬러(color)로 인해 발생하는 것들을 포함한다. 반면, 높은-레벨의 차이들은 클래스(class)들의 개수, 객체들의 타입들, 그리고 3D 위치와 같은 기하학적 변화(geometric variation)들과 관련된 차이들을 포함할 수 있다.

하나의 예에서, 소스 도메인은 실세계 환경을 시뮬레이트(simulate)한 가상 환경의 이미지들일 수 있고, 타겟 도메인은 실세계 환경의 이미지들일 수 있다. 예를 들어, 소스 도메인 이미지들은 로보트(robot) 혹은 다른 기계적 대행자(mechanical agent)에 의해 또는 자율주행 차량 혹은 반자율주행 차량에 의해 상호작용이 이루어질 실세계 환경을 시뮬레이트한 가상 환경의 이미지들일 수 있고, 반면 타겟 도메인 이미지들은 기계적 대행자 혹은 차량에 의해 포착되는 바와 같은 실세계 환경의 이미지들일 수 있다. 따라서, 소스 도메인 이미지들은 더 광범위한 이미지들일 수 있는 데, 특히 실세계 환경에서 거의 일어나지 않거나 혹은 발생하기 어려운 또는 발생하면 위험한 극단적인 경우들에 대해 더 광범위한 이미지들일 수 있다. 본 명세서에서 설명되는 바와 같이 오로지 라벨링된 소스 도메인 이미지(labeled source domain image)들만을 사용하여 타겟 도메인 이미지들에 대한 정확한 네트워크 출력들을 발생시키도록 시스템을 훈련시킴으로써, 실세계 환경에서의 대행자 혹은 차량의 성능은, 비록 특정 상황들이 단지 시뮬레이트된 버전(simulated version)에서만 마주치는 상황들일지라고, 향상될 수 있다.

또 하나의 다른 예에서, 소스 도메인과 타겟 도메인은 모두 실세계 이미지들이되, 광 측정에서의 차이들(photometric differences)이 있는 그러한 실세계 이미지들일 수 있는데, 예를 들어, 하나의 도메인은 실내 이미지(indoor image)들일 수 있고, 다른 도메인은 유사한 객체들의 실외 이미지(outdoor image)들일 수 있다.

또 하나의 다른 예에서, 소스 도메인과 타겟 도메인은 유사한 객체들의 이미지들의 상이한 집합체(collection)들로부터 선택된 이미지들일 수 있다. 예를 들어, 소스 도메인은 큐레이트된 이미지 집합체(curated image collection)로부터의 이미지들일 수 있고, 타겟 도메인은 큐레이트되지 않은 데이터 세트(non-curated data set)로부터의 이미지들(예를 들어, 인터넷 이미지들)일 수 있다.

일부 경우들에서, 소스 도메인은 라벨링된 이미지들이 쉽게 이용가능한 도메인일 수 있고, 반면 타겟 도메인에 대한 라벨링된 이미지 데이터를 획득하는 것은 컴퓨터연산적으로 비싸거나 아니면 어렵고 또는 실행불가능하다.

분류기 뉴럴 네트워크(120)는 훈련에 걸쳐, 공유된 특징 표현(112)을 수신하고 공유된 특징 표현(112)을 프로세싱하여 타겟 도메인 이미지(102)에 대한 네트워크 출력(122)을 발생시키도록 구성되어 있는 뉴럴 네트워크인데, 예를 들어, 완전히-연결된 뉴럴 네트워크(fully-connected neural network)이다.

공유된 인코더 뉴럴 네트워크(110) 및 분류기 뉴럴 네트워크(120)를 훈련시켜 공유된 특징 표현(112) 및 네트워크 출력(122)을 발생시키는 것은 도 2 및 도 4를 참조하여 아래에서 더 상세히 설명된다.

도 2는 예시적인 뉴럴 네트워크 훈련 시스템(200)을 보여준다. 뉴럴 네트워크 훈련 시스템(200)은 하나 이상의 위치들에 있는 하나 이상의 컴퓨터들 상에서 컴퓨터 프로그램들로서 구현되는 시스템의 예이고, 여기에는 아래에서 설명되는 시스템들, 컴포넌트들, 및 기법들이 구현될 수 있다.

뉴럴 네트워크 훈련 시스템(200)은 공유된 인코더 뉴럴 네트워크(110) 및 분류기 뉴럴 네트워크(120)를 훈련시켜 타겟 도메인으로부터의 수신된 이미지들에 대한 네트워크 출력들을 발생시킨다.

특히, 뉴럴 네트워크 훈련 시스템(200)은 공유된 인코더 뉴럴 네트워크(110)를 훈련시키되, 소스 도메인으로부터의 라벨링된 이미지들 및 타겟 도메인으로부터의 라벨링되지 않은 이미지들에 관해 훈련시키고, 분류기 뉴럴 네트워크(120)를 훈련시키되, 소스 도메인으로부터의 라벨링된 이미지에 관해서만 훈련시킨다. 라벨링된 이미지는, 이미지에 대한 알려진 네트워크 출력, 즉, 이미지에 대해 분류기 뉴럴 네트워크(120)에 의해 발생되었을 네트워크 출력이 훈련 동안 뉴럴 네트워크 훈련 시스템(200)에게 이용가능하게 될 때의 이미지이고, 그리고 라벨링되지 않은 이미지는, 이미지에 대한 어떠한 알려진 네트워크 출력도 훈련 동안 뉴럴 네트워크 훈련 시스템(200)에게 이용가능하지 않을 때의 이미지이다.

공유된 인코더 뉴럴 네트워크(110) 및 분류기 뉴럴 네트워크(120)를 훈련시키기 위해, 뉴럴 네트워크 훈련 시스템(200)은 또한, 전용 타겟 인코더 뉴럴 네트워크(private target encoder neural network)(210), 전용 소스 인코더 뉴럴 네트워크(private source encoder neural network)(220), 및 공유된 디코더 뉴럴 네트워크(shared decoder neural network)(230)를 포함한다.

전용 타겟 인코더 뉴럴 네트워크(210)는 타겟 도메인에 특정되어 있고, 그리고 타겟 도메인으로부터 이미지들을 수신하도록 구성되고, 그리고 각각의 수신된 이미지에 대해 이미지의 전용 특징 표현(private feature representation)을 발생시키도록 구성된다.

전용 소스 인코더 뉴럴 네트워크(220)는 소스 도메인에 특정되어 있고, 그리고 소스 도메인으로부터 이미지들을 수신하도록 구성되고, 그리고 각각의 수신된 이미지에 대해 이미지의 전용 특징 표현을 발생시키도록 구성된다.

일부 구현예들에서, 전용 타겟 인코더 뉴럴 네트워크(210), 전용 소스 인코더 뉴럴 네트워크(220), 및 공유된 인코더 뉴럴 네트워크(110)는 동일한 뉴럴 네트워크 아키텍처를 갖는데, 예를 들어, 이들 모두는 동일한 네트워크 아키텍처를 갖는 컨볼류션 뉴럴 네트워크들이다. 일부 다른 구현예들에서, 전용 타겟 인코더 뉴럴 네트워크(210) 및 전용 소스 인코더 뉴럴 네트워크(220)는 공유된 인코더 뉴럴 네트워크(110)의 아키텍처와는 다른 아키텍처를 갖는 컨볼류션 뉴럴 네트워크들이다.

공유된 디코더 뉴럴 네트워크(230)는 이미지의 결합된 특징 표현을 수신하도록 구성되고, 그리고 그 결합된 특징 표현을 프로세싱하여 이미지의 재구성(reconstruction)을 발생시키도록 구성된다. 일부 구현예들에서, 공유된 디코더 뉴럴 네트워크(230)는 디컨볼류션 뉴럴 네트워크(deconvolutional neural network)이다.

이미지의 결합된 특징 표현은 이미지의 공유된 특징 표현과 이미지의 전용 특징 표현의 조합, 예를 들어, 연결(concatenation), 합(sum), 혹은 평균(average)이다. 즉, 만약 이미지가 소스 도메인으로부터의 이미지라면, 결합된 특징 표현은, 전용 소스 인코더 뉴럴 네트워크(220)에 의해 이미지에 대해 발생된 전용 특징 표현과, 공유된 인코더 뉴럴 네트워크(110)에 의해 이미지에 대해 발생된 공유된 특징 표현의 조합이다. 만약 이미지가 타겟 도메인으로부터의 이미지라면, 결합된 특징 표현은, 전용 타겟 인코더 뉴럴 네트워크(210)에 의해 이미지에 대핸 발생된 전용 특징 표현과, 공유된 인코더 뉴럴 네트워크(110)에 의해 이미지에 대해 발생된 공유된 특징 표현의 조합이다.

훈련 동안, 뉴럴 네트워크 훈련 시스템(200)은 공유된 인코더 뉴럴 네트워크(110), 분류기 뉴럴 네트워크(120), 전용 타겟 인코더 뉴럴 네트워크(210), 전용 소스 인코더 뉴럴 네트워크(220), 및 공유된 디코더 뉴럴 네트워크(230)의 파라미터들의 값들을 조정하여 네트워크들 각각의 파라미터들의 훈련된 값들을 결정한다.

특히, 뉴럴 네트워크 훈련 시스템(200)은 공유된 인코더 뉴럴 네트워크(110)를 훈련시켜, (i) 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현과 유사한 공유된 특징 표현들을 발생시키도록 하고, 아울러 (ii) 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 전용 타겟 인코더 뉴럴 네트워크(210)에 의해 발생된 타겟 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키도록 하고, 그리고 (iii) 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 전용 소스 인코더 뉴럴 네트워크(220)에 의해 발생된 소스 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키도록 한다.

추가적으로, 뉴럴 네트워크 훈련 시스템(200)은 공유된 인코더 뉴럴 네트워크(110)를 훈련시켜, 타겟 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 전용 타겟 인코더 뉴럴 네트워크(210)에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 공유된 디코더 뉴럴 네트워크(230)에 의해 입력 이미지를 정확히 재구성하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 하고, 그리고 소스 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 전용 소스 인코더 뉴럴 네트워크(220)에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 공유된 디코더 뉴럴 네트워크(230)에 의해 입력 이미지를 정확히 재구성하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 한다.

더욱이, 훈련의 일부로서, 뉴럴 네트워크 훈련 시스템(200)은 분류기 뉴럴 네트워크(120)를 훈련시켜 소스 도메인으로부터의 라벨링된 이미지들에 관한 정확한 네트워크 출력들을 발생시키도록 한다.

공유된 인코더 뉴럴 네트워크(110), 분류기 뉴럴 네트워크(120), 전용 타겟 인코더 뉴럴 네트워크(210), 전용 소스 인코더 뉴럴 네트워크(220), 및 공유된 디코더 뉴럴 네트워크(230)를 훈련시켜 네트워크들 각각의 파라미터들의 훈련된 값들을 결정하도록 하는 것은, 도 4를 참조하여 아래에서 더 상세히 설명된다.

일부 구현예들에서, 훈련되면, 공유된 인코더 뉴럴 네트워크(110) 및 공유된 디코더 뉴럴 네트워크(230)는 타겟 도메인 이미지를 소스 도메인 내의 이미지로 변환(transform)하는데 사용될 수 있다. 예를 들어, 타겟 도메인 이미지는 공유된 인코더 뉴럴 네트워크(110)를 사용하여 프로세싱되어 공유된 표현을 발생시킬 수 있다. 그 다음에, 공유된 표현은 전용 소스 인코더 뉴럴 네트워크(220)에 의해 발생된 이미지에 대해 발생된 원하는 전용 특징 표현 혹은 플레이스홀더(placeholder)와 결합되어 결합된 표현을 발생시킬 수 있다. 그 다음에, 결합된 표현은 공유된 디코더 뉴럴 네트워크(230)에 의해 프로세싱되어 입력 타겟 도메인 이미지와 동일한 특징들을 갖는 소스 도메인 이미지를 발생시킬 수 있다.

도 3은 타겟 도메인으로부터의 이미지에 대한 네트워크 출력을 발생시키기 위한 예시적인 프로세스(300)를 나타낸 흐름도이다. 편의상, 프로세스(300)는 하나 이상의 위치들에 위치하는 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, (적절하게 프로그래밍된) 이미지 프로세싱 뉴럴 네트워크 시스템, 예컨대, 도 1의 이미지 프로세싱 뉴럴 네트워크 시스템(100)이 프로세스(300)를 수행할 수 있다.

시스템은 타겟 도메인으로부터 이미지를 수신한다(단계(302)).

시스템은 공유된 인코더 뉴럴 네트워크를 사용하여 타겟 도메인 이미지를 프로세싱한다(단계(304)). 앞에서 설명된 바와 같이, 공유된 인코더 뉴럴 네트워크는 훈련에 걸쳐, 타겟 도메인 이미지를 수신하고 타겟 도메인으로부터의 이미지들과 소스 도메인으로부터의 이미지들 간에 공유된 타겟 도메인 이미지의 특징들의 공유된 특징 표현을 발생시키도록 구성되어 있다.

시스템은 분류기 뉴럴 네트워크를 사용하여, 공유된 특징 표현을 프로세싱한다(단계(306)). 앞에서 설명된 바와 같이, 분류기 뉴럴 네트워크는 훈련에 걸쳐, 공유된 특징 표현을 수신하고 공유된 특징 표현을 프로세싱하여 타겟 도메인 이미지에 대한 네트워크 출력을 발생시키도록 구성되어 있다.

도 4는 공유된 인코더 뉴럴 네트워크 및 분류기 뉴럴 네트워크를 훈련시키는 것의 반복을 수행하기 위한 예시적인 프로세스(400)를 나타낸 흐름도이다. 편의상, 프로세스(400)는 하나 이상의 위치들에 위치하는 하나 이상의 컴퓨터들의 시스템에 의해 수행되는 것으로 설명될 것이다. 예를 들어, (적절하게 프로그래밍된) 뉴럴 네트워크 훈련 시스템, 예컨대, 도 1의 뉴럴 네트워크 훈련 시스템(200)이 프로세스(400)를 수행할 수 있다.

시스템은 라벨링된 훈련 소스 도메인 이미지들 및 라벨링되지 않은 훈련 타겟 도메인 이미지들을 수신한다(단계(402)).

시스템은 공유된 인코더 뉴럴 네트워크의 파라미터들의 현재 값들에 따라, 공유된 인코더 뉴럴 네트워크를 사용하여 각각의 훈련 소스 도메인 이미지 및 각각의 훈련 타겟 도메인 이미지를 프로세싱하여 이미지들 각각에 대한 각각의 공유된 특징 표현을 발생시킨다(단계(404)).

시스템은 전용 타겟 인코더 뉴럴 네트워크의 파라미터들의 현재 값들에 따라, 전용 타겟 인코더 뉴럴 네트워크를 사용하여 각각의 훈련 타겟 도메인 이미지를 프로세싱하여 각각의 훈련 타겟 도메인 이미지에 대한 각각의 전용 특징 표현을 발생시킨다(단계(406)).

시스템은 전용 소스 인코더 뉴럴 네트워크의 파라미터들의 현재 값들에 따라, 전용 소스 인코더 뉴럴 네트워크를 사용하여 각각의 훈련 소스 도메인 이미지를 프로세싱하여 각각의 훈련 소스 도메인 이미지에 대한 각각의 전용 특징 표현을 발생시킨다(단계(408)).

각각의 훈련 소스 도메인 이미지에 대해, 시스템은 분류기 뉴럴 네트워크의 파라미터들의 현재 값들에 따라, 분류기 뉴럴 네트워크를 사용하여 훈련 소스 도메인 이미지에 대한 공유된 특징 표현을 프로세싱하여 훈련 소스 도메인 이미지에 대한 네트워크 출력을 발생시킨다(단계(410)).

시스템은 예를 들어, 도 2를 참조하여 앞에서 설명된 바와 같이, 각각의 훈련 소스 도메인 이미지 및 각각의 훈련 타겟 도메인 이미지에 대한 각각의 결합된 표현을 발생시킨다(단계(412)).

시스템은 공유된 디코더 뉴럴 네트워크의 파라미터들의 현재 값들에 따라, 공유된 디코더 뉴럴 네트워크를 사용하여 훈련 이미지들 각각에 대한 결합된 표현을 프로세싱하여 대응하는 훈련 이미지의 재구성을 발생시킨다(단계(414)).

시스템은 전용 타겟 인코더 뉴럴 네트워크, 공유된 인코더 뉴럴 네트워크, 전용 소스 인코더 뉴럴 네트워크, 공유된 디코더 뉴럴 네트워크, 및 분류기 뉴럴 네트워크의 파라미터들의 현재 값들을 조정하여 뉴럴 네트워크들에 의해 발생된 출력들로 인해 야기되는 손실을 감소시킨다(단계(416)).

특히, 시스템은 머신 학습 훈련 기법, 예를 들어, 모멘텀(momentum)을 갖는 확률적 경사법(stochastic gradient)의 반복을 수행하여 분류 손실(classification loss), 재구성 손실(reconstruction loss), 차별성 손실(difference loss), 및 유사성 손실(similarity loss)에 따라 달라지는 손실을 최소화시킨다. 예를 들어, 손실

은 아래의 식을 만족시킬 수 있다.

여기서

는 분류 손실이고,

은 재구성 손실이고,

는 차별성 손실이고,

는 유사성 손실이고,

,

, 및

는 손실 항(term)들의 상호작용을 제어하는 가중치(weight)들이다.

분류 손실은 분류기 뉴럴 네트워크를 훈련시키고, 그리고 역전파(backpropogation)에 의해, 공유된 인코더 뉴럴 네트워크를 훈련시켜 소스 도메인 이미지들에 대한 정확한 네트워크 출력들을 발생시키는바, 즉 훈련 소스 도메인 이미지들에 대한 알려진 네트워크 출력들과 매칭(matching)되는 네트워크 출력들을 발생시킨다. 예를 들어, 분류 손실은 아래의 식을 만족시킬 수 있다.

여기서 N_s는 라벨링된 훈련 소스 도메인 이미지들의 총 개수이고,

는 i-번째 훈련 소스 도메인 이미지에 대한 분류기 뉴럴 네트워크에 의해 발생된 네트워크 출력이고,

는 i-번째 훈련 소스 도메인 이미지에 대한 알려진 네트워크 출력이다.

재구성 손실은 공유된 디코더 뉴럴 네트워크를 훈련시키고, 그리고 역전파에 의해, 인코더 뉴럴 네트워크들 각각을 훈련시켜 입력 이미지들의 정확한 재구성들을 발생시키는바, 즉 훈련 이미지들과 매칭되는 훈련 이미지들의 재구성들을 발생시킨다. 예를 들어, 재구성 손실은 아래의 식을 만족시키는 스케일-불변 평균 제곱 오차 손실(scale-invariant mean squared error loss)일 수 있다.

여기서 N_t는 훈련 타겟 도메인 이미지들의 총 개수이고,

는 i-번째 훈련 소스 도메인 이미지이고,

는 공유된 디코더 뉴럴 네트워크에 의해 발생된 i-번째 훈련 소스 도메인 이미지의 재구성이고,

는 i-번째 훈련 타겟 도메인 이미지이고,

는 공유된 디코더 뉴럴 네트워크에 의해 발생된 i-번째 훈련 타겟 도메인 이미지의 재구성이고, 그리고

는 이미지와 이미지의 재구성 간의 스케일-불변 평균 제곱 오차이고, 아래의 식을 만족시킨다.

여기서

는 제곱 L₂-노름(squared L₂-norm)이고, k는 입력 x 내의 픽셀들의 개수이고, 그리고 1_k는 길이 k인 것들의 벡터이다. 따라서, 스케일-불변 평균 제곱 오차는 픽셀들의 쌍들, 즉 임의의 주어진 훈련 이미지 내의 픽셀과 그 훈련 이미지의 재구성에서의 대응하는 픽셀 간의 차이들에 페널티를 부과(penalize)한다. 이러한 스케일-불변 평균 제곱 오차 손실을 최소화함으로써, 시스템은 공유된 디코더 뉴럴 네트워크를 훈련시켜 입력들의 절대 컬러 혹은 강도에 관해 모델링 파워(modeling power)를 소비함이 없이 모델링되는 객체들의 전체 형상을 재생성(reproduce)한다.

차별성 손실은 공유된 인코더 뉴럴 네트워크를 훈련시켜, (i) 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되 전용 타겟 인코더 뉴럴 네트워크에 의해 발생된 타겟 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키고, 그리고 (ii) 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되 전용 소스 인코더 뉴럴 네트워크에 의해 발생된 소스 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시킨다. 예를 들어, 차별성 손실은 아래의 식을 만족시킬 수 있다.

여기서,

는 훈련 소스 도메인 이미지들의 공유된 특징 표현들인 행(row)들을 갖는 매트릭스이고,

는 훈련 타겟 도메인 이미지들의 공유된 특징 표현들인 행들을 갖는 매트릭스이고,

는 훈련 소스 도메인 이미지들의 전용 특징 표현들인 행들을 갖는 매트릭스이고,

는 훈련 타겟 도메인 이미지들의 전용 특징 표현들인 행들을 갖는 매트릭스이고, 그리고

는 제곱 프로베니우스 노름(squared Frobenius norm)이다.

유사성 손실은 공유된 인코더 뉴럴 네트워크를 훈련시켜 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들과 유사한 공유된 특징 표현들을 발생시킨다.

예를 들어, 일부 경우들에서, 유사성 손실은 공유된 인코더 뉴럴 네트워크를 훈련시켜 공유된 표현들을 발생시키되 도메인 분류기 뉴럴 네트워크가 그 인코딩된 표현의 도메인을 신뢰가능하게 예측할 수 없도록 발생시키는 도메인 적대적 유사성 손실(domain adversarial similarity loss)일 수 있다. 예를 들어, 도메인 적대적 유사성 손실

은 아래의 식을 만족시킬 수 있다.

여기서 d_i는 i-번째 훈련 이미지가 타겟 도메인으로부터 훈련 이미지인지 아니면 소스 도메인으로부터의 훈련 이미지인지를 식별시키는 변수의 값이고,

는 i-번째 훈련 이미지에 대한 공유된 특징 표현을 프로세싱함으로써 도메인 분류기 뉴럴 네트워크에 의해 예측되는 바와 같은 변수의 예측된 값이다. 시스템은 도메인 분류기 뉴럴 네트워크의 파라미터들에 관하여 이러한 손실을 최대화할 수 있고, 공유된 인코더 뉴럴 네트워크의 파라미터들에 관하여 손실을 최소화할 수 있는바, 즉, 경사 반전 계층(gradient reversal layer)을 도메인 분류기 뉴럴 네트워크의 입력 계층으로서 포함하고 전체 손실을 감소시킴으로써 그렇게 할 수 있다.

또 하나의 다른 예로서, 일부 다른 경우들에서, 유사성 손실은 샘플(sample)들의 쌍들 간의 커널-기반 거리 함수(kernel-based distance function)인 최대 평균 불일치 손실(Maximum Mean Discrepancy loss)일 수 있다. 예를 들어, 최대 평균 불일치 손실

은 아래의 식을 만족시킬 수 있다.

여기서

는 PSD 커널 함수이고,

는 훈련 소스 도메인 이미지의 공유된 특징 표현이고, 그리고

는 훈련 타겟 도메인 이미지의 공유된 특징 표현이다. 일부 경우들에서, PSD 커널 함수는 복수의 상이한 RBF 커널들의 선형 조합일 수 있다.

시스템은 라벨링된 훈련 소스 도메인 이미지들 및 라벨링되지 않은 훈련 타겟 도메인 이미지들의 상이한 배치(batch)들에 관한 프로세스(400)를 반복적으로 수행하여 뉴럴 네트워크들을 훈련시키되 뉴럴 네트워크들의 파라미터들의 값들을 반복적으로 조정함으로써 훈련시켜 뉴럴 네트워크들의 파라미터들의 훈련된 값들을 결정할 수 있다.

본 명세서에서 설명되는 주된 내용 및 기능적 동작들의 실시예들은 디지털 전자 회로로 구현될 수 있고, 또는 유형의 형태로 실체화되는 컴퓨터 소프트웨어 혹은 펌웨어로 구현될 수 있고, 또는 컴퓨터 하드웨어로 구현될 수 있으며, 여기에는 본 명세서에서 개시되는 구조들 및 이들의 구조적 등가물들이 포함되고, 또는 이들 중 하나 이상의 것들의 조합들로 구현될 수 있다. 본 명세서에서 설명되는 주된 내용의 실시예들은, 데이터 프로세싱 장치에 의한 실행을 위해 혹은 데이터 프로세싱 장치의 동작을 제어하기 위해 유형의 비일시적 프로그램 운반자 상에 인코딩된 하나 이상의 컴퓨터 프로그램들, 즉 컴퓨터 프로그램 명령들의 하나 이상의 모듈들로서 구현될 수 있다. 대안적으로 혹은 추가적으로, 프로그램 명령들은 인위적으로 발생되는 전파되는 신호(propagated signal) 상에 인코딩될 수 있는데, 이러한 인위적으로 발생되는 전파되는 신호는, 예를 들어, 데이터 프로세싱 장치에 의한 실행을 위해서 적절한 수신기 장치로의 전송을 위해 정보를 인코딩하기 위해 발생되는 머신에 의해 발생되는 전기적, 광학적, 혹은 전기자기적 신호이다. 컴퓨터 저장 매체는, 컴퓨터-판독가능 저장 디바이스, 컴퓨터-판독가능 저장 기판(computer-readable storage substrate), 랜덤(random) 혹은 직렬(serial) 액세스 메모리 디바이스, 또는 이들의 하나 이상의 것들의 조합일 수 있다.

용어 "데이터 프로세싱 장치"는 데이터를 프로세싱하기 위한 모든 종류들의 장치, 디바이스들, 및 머신들을 포괄하고, 여기에는 예를 들어, 프로그래밍가능 프로세서, 컴퓨터, 또는 복수의 프로세서들 혹은 컴퓨터들이 포함된다. 장치는 특수 목적 로직 회로(special purpose logic circuitry), 예를 들어, FPGA(Field Programmable Gate Array, 현장 프로그래밍가능 게이트 어레이) 혹은 ASIC(Application Specific Integrated Circuit, 애플리케이션 특정 집적 회로)를 포함할 수 있다. 장치는 또한, 하드웨어에 추가하여, 해당하는 컴퓨터 프로그램에 대한 실행 환경을 생성하는 코드를 포함할 수 있고, 이러한 코드는 예를 들어, 프로세서 펌웨어(processor firmware), 프로토콜 스택(protocol stack), 데이터베이스 관리 시스템(database management system), 오퍼레이팅 시스템(operating system), 혹은 이들의 하나 이상의 것들의 임의의 조합을 구성하는 코드이다.

컴퓨터 프로그램(이것은 또한 프로그램, 소프트웨어, 소프트웨어 애플리케이션, 모듈(module), 소프트웨어 모듈, 스크립트, 혹은 코드로서 지칭될 수 있음)은 임의 형태의 프로그래밍 언어로 작성될 수 있고(이러한 프로그래밍 언어에는 컴파일링된 언어(compiled language)들 혹은 해석된 언어(interpreted language)들, 혹은 선언적 언어(declarative language)들 혹은 절차적 언어(procedural language)들이 포함됨), 그리고 임의의 형태로 배치될 수 있는데, 이러한 배치에는 독립형 프로그램(stand-alone program)으로서 배치되는 것, 또는 컴퓨팅 환경에서의 사용을 위해 적합한 모듈(module), 컴포넌트(component), 서브루틴(subroutine), 혹은 다른 유닛(unit)으로서 배치되는 것이 포함된다. 컴퓨터 프로그램은 파일 시스템(file system) 내의 임의의 파일에 대응할 수 있으며, 하지만 반드시 그럴 필요는 없다. 프로그램은, 다른 프로그램들 혹은 데이터(예를 들어, 마크업 언어 문서(markup language document)에 저장되는 하나 이상의 스크립트들)를 보유하는 임의의 파일의 일부분에 저장될 수 있거나, 해당하는 프로그램에 전용으로 사용되는 단일 파일에 저장될 수 있거나, 또는 복수의 조정된 파일들(예를 들어, 하나 이상의 모듈들, 서브 프로그램들, 혹은 코드의 일부분들을 저장하는 파일들)에 저장될 수 있다. 컴퓨터 프로그램은 하나의 컴퓨터 상에서 실행되도록 배치될 수 있거나 혹은 복수의 컴퓨터들 상에서 실행되도록 배치될 수 있는데, 이 경우 컴퓨터들은 하나의 사이트(site)에 위치하거나 혹은 복수의 사이트들에 걸쳐 분산되어 통신 네트워크에 의해 상호연결된다.

본 명세서에서 설명되는 프로세스들 및 로직 흐름(logic flow)들은, 입력 데이터에 관해 동작하여 출력을 발생시킴으로써 기능들을 수행하기 위해 하나 이상의 컴퓨터 프로그램들을 실행하는 하나 이상의 프로그래밍가능 컴퓨터들에 의해 수행될 수 있다. 프로세스들 및 로직 흐름들은 또한, 특수 목적 로직 회로, 예를 들어, FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)에 의해 수행될 수 있고, 그리고 장치는 또한 특수 목적 로직 회로, 예를 들어, FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)로서 구현될 수 있다.

컴퓨터 프로그램의 실행에 적합한 컴퓨터들은, 범용 마이크로프로세서들 혹은 특수 목적 마이크로프로세서들, 또는 이들 양쪽 모두, 또는 임의의 다른 종류의 중앙 프로세싱 유닛을 포함하는데, 예를 들어, 이들에 기반을 둘 수 있다. 일반적으로, 중앙 프로세싱 유닛은 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 이들 양쪽 모두로부터 명령들 및 데이터를 수신할 것이다. 컴퓨터의 본질적인 요소들은, 명령들을 수행 혹은 실행하기 위한 중앙 프로세싱 유닛과, 그리고 명령들 및 데이터를 저장하기 위한 하나 이상의 메모리 디바이스들이다. 일반적으로, 컴퓨터는 또한, 데이터를 저장하기 위한 하나 이상의 대용량 저장 디바이스들(예를 들어, 자기 디스크들, 광자기 디스크들, 혹은 광학 디스크들)을 포함할 것이고, 또는 이러한 하나 이상의 대용량 저장 디바이스들로부터 데이터를 수신하거나 이러한 하나 이상의 대용량 저장 디바이스들로 데이터를 전송하거나, 또는 이들 모두를 수행하도록 동작가능하게 결합될 것이다. 하지만, 컴퓨터가 이러한 디바이스들을 반드시 가질 필요는 없다. 더욱이, 컴퓨터는 또 하나의 다른 디바이스 내에 구현될 수 있는데, 이러한 또 하나의 다른 디바이스는 몇 가지 예를 들어보면, 모바일 전화기, 개인 디지털 보조기기(Personal Digital Assistant, PDA), 모바일 오디오 혹은 비디오 플레이어, 게임 콘솔(game console), 전지구 위치결정 시스템(Global Positioning System, GPS) 수신기, 혹은 휴대용 저장 디바이스, 예컨대, 범용 직렬 버스(Universal Serial Bus, USB) 플래시 드라이브이다. 컴퓨터 프로그램 명령들 및 데이터를 저장하는데 적합한 컴퓨터 판독가능 매체들은 모든 형태들의 비-휘발성 메모리, 매체들 및 메모리 디바이스들을 포함하는데, 여기에는 예를 들어, 반도체 메모리 디바이스들, 예컨대, EPROM, EEPROM, 및 플래시 메모리 디바이스들, 자기 디스크들, 예를 들어, 내부 하드 디스크들 혹은 탈착가능 디스크들, 광자기 디스크들, 그리고 CD ROM 및 DVD-ROM 디스크들이 포함된다. 프로세서 및 메모리는 특수 목적 로직 회로에 의해 보완될 수 있거나, 혹은 특수 목적 로직 회로 내에 통합될 수 있다.

사용자와의 상호작용을 제공하기 위해, 본 명세서에 설명되는 주된 내용의 실시예들은 정보를 사용자에게 디스플레이하기 위한 디스플레이 디바이스(예를 들어, CRT(Cathode Ray Tube; 음극선관) 또는 LCD(Liquid Crystal Display; 액정 디스플레이) 모니터), 그리고 사용자로 하여금 컴퓨터에 입력을 제공할 수 있게 하는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 구비하는 컴퓨터 상에서 구현될 수 있다. 다른 종류들의 디바이스들이 또한 사용자와의 상호작용을 제공하기 위해 사용될 수 있는바, 예를 들어, 사용자에게 제공되는 피드백은 임의 형태의 감각적 피드백(예를 들어, 시각적 피드백, 청각적 피드백, 또는 촉각적 피드백)일 수 있고, 그리고 사용자로부터의 입력은 음향적, 음성적 또는 촉각적 입력을 포함하는 임의의 형태로 수신될 수 있다. 추가적으로, 컴퓨터는 사용자에 의해 사용되는 디바이스로 문서들을 전송함으로써 그리고 사용자에 의해 사용되는 디바이스로부터 문서들을 수신함으로써 사용자와 상호작용할 수 있는데, 예를 들어, 사용자의 클라이언트 디바이스 상의 웹 브라우저로부터 수신된 요청들에 응답하여 사용자의 클라이언트 디바이스 상의 웹 브라우저에 웹 페이지들을 전송함으로써 사용자와 상호작용할 수 있다.

본 명세서에 설명되는 주된 내용의 실시예들은 컴퓨팅 시스템에서 구현될 수 있는바, 여기서 컴퓨팅 시스템은 백 엔드 컴포넌트(back end component)(예를 들어, 데이터 서버로서의 백 엔드 컴포넌트)를 포함하거나, 또는 미들웨어 컴포넌트(middleware component)(예를 들어, 애플리케이션 서버)를 포함하거나, 또는 프런트 엔드 컴포넌트(front end component)(예를 들어, 사용자가 본 명세서에 설명되는 주된 내용의 구현예와 상호작용할 수 있게 하는 그래픽 사용자 인터페이스 또는 웹 브라우저를 구비하는 클라이언트 컴퓨터)를 포함하며, 또는 하나 이상의 이러한 백 엔드 컴포넌트, 미들웨어 컴포넌트 혹은 프런트 엔드 컴포넌트의 임의의 조합을 포함한다. 이러한 시스템의 컴포넌트들은 디지털 데이터 통신의 임의 형태 또는 매체(예를 들어, 통신 네트워크)에 의해 상호연결될 수 있다. 통신 네트워크들의 예들은 로컬 영역 네트워크(Local Area Network, LAN) 및 와이드 영역 네트워크(Wide Area Network, WAN), 예컨대, 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트와 서버는 일반적으로 서로 떨어져 있고 전형적으로는 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는, 각각의 컴퓨터들 상에서 실행됨과 아울러 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들을 통해 발생한다.

본 명세서가 다수의 특정 구현예의 세부사항들을 포함하고 있지만, 이러한 것들이 본원의 임의의 발명의 범위에 관한 한정사항들로서 이해돼서는 안 되며, 혹은 청구될 수 있는 것의 범위에 관한 한정사항들로서 이해돼서는 안 되고, 오히려 특정 발명들의 특정 실시예들에 특정될 수 있는 특징들의 설명들로서 이해돼야 한다. 개별 실시예들의 맥락으로 본 명세서에서 설명되는 특정 특징들은 또한 단일 실시예에서 조합되어 구현될 수 있다. 역으로, 단일 실시예의 맥락에서 설명되는 다양한 특징들이 또한 복수의 실시예들에서 별개로 구현될 수 있거나, 또는 임의의 적절합 부분조합(subcombination)으로 구현될 수 있다. 더욱이, 비록 특징들이 특정 조합들에서 동작하는 것으로 앞에서 설명될 수 있을지라도, 그리고 심지어 처음에 그렇게 기재될 수 있을지라도, 기재되는 조합으로부터의 하나 이상의 특징들은 일부 경우들에서 그 조합으로부터 제거될 수 있고, 기재되는 조합은 부분조합 혹은 부분조합의 변형에 관한 것일 수 있다.

유사하게, 동작들이 특정 순서로 도면들에서 제시되지만, 이것은 바람직한 결과들을 달성하기 위해, 반드시 이러한 동작들이 그 제시되는 특정 순서로 혹은 순차적 순서로 수행돼야 함, 혹은 예시되는 모든 동작들이 수행돼야 함을 요구하는 것으로 이해돼서는 안 된다. 특정 상황들에서는, 멀티태스킹(multitasking) 및 병렬 프로세싱(parallel processing)이 유리할 수 있다. 더욱이, 앞서 설명된 실시예들에서의 다양한 시스템 모듈들 및 컴포넌트들의 분리는 모든 실시예들에서 이러한 분리를 요구하는 것으로서 이해돼서는 안 되며, 설명되는 프로그램 컴포넌트들 및 시스템들은 일반적으로 단일 소프트웨어 제품으로 함께 통합될 수 있거나, 혹은 복수의 소프트웨어 제품들로 패키징될 수 있음이 이해돼야 한다.

본 명세서의 주된 내용의 특정 실시예들이 설명되었다. 다른 실시예들이 다음의 청구항들의 범위 내에 있다. 예를 들어, 청구항들에 기재된 액션들은 다른 순서로 수행될 수 있으며 여전히 바람직한 결과들을 달성할 수 있다. 하나의 예로서, 첨부되는 도면들에서 제시된 프로세스들은 바람직한 결과들을 달성하기 위해 그 제시된 특정 순서 혹은 순차적 순서를 반드시 요구하는 것이 아니다. 특정 구현예들에서는, 멀티태스킹 및 병렬 프로세싱이 유리할 수 있다.

Claims

시스템으로서, 상기 시스템은,
하나 이상의 컴퓨터들에 의해 구현되는 공유된 인코더 뉴럴 네트워크(shared encoder neural network)와; 그리고
상기 하나 이상의 컴퓨터들에 의해 구현되는 분류기 뉴럴 네트워크(classifier neural network)를 포함하고,
상기 공유된 인코더 뉴럴 네트워크는,
타겟 도메인(target domain)으로부터 입력 이미지(input image)를 수신하도록 되어 있고, 그리고
상기 입력 이미지를 프로세싱하여 상기 타겟 도메인으로부터의 이미지들과 상기 타겟 도메인과는 다른 소스 도메인(source domain)으로부터의 이미지들 간에 공유된 상기 입력 이미지의 특징(feature)들의 공유된 특징 표현(shared feature representation)을 발생시키도록 되어 있으며,
상기 분류기 뉴럴 네트워크는,
상기 공유된 특징 표현을 수신하도록 되어 있고, 그리고
상기 공유된 특징 표현을 프로세싱하여 상기 입력 이미지를 특징짓는 상기 입력 이미지에 대한 네트워크 출력(network output)을 발생시키도록 되어 있는 것을 특징으로 하는 시스템.
제1항에 있어서,
상기 타겟 도메인으로부터의 이미지들은 상기 소스 도메인으로부터의 이미지들과는 다른 낮은 레벨의 이미지 통계치들(low level image statistics)을 갖는 것을 특징으로 하는 시스템.
제1항 또는 제2항 중 어느 하나의 항에 있어서,
상기 네트워크 출력은 객체 분류 출력(object classification output)인 것을 특징으로 하는 시스템.
제1항 또는 제2항 중 어느 하나의 항에 있어서,
상기 네트워크 출력은 자체 추정 출력(pose estimation output)인 것을 특징으로 하는 시스템.
제1항 내지 제4항 중 어느 하나의 항에 있어서,
분류기 뉴럴 네트워크는 상기 소스 도메인으로부터의 라벨링된 이미지들(labeled images)에 관해 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제1항 내지 제5항 중 어느 하나의 항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는 상기 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들과 유사한 상기 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제6항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 상기 타겟 도메인에 특정된 전용 타겟 인코더 뉴럴 네트워크(private target encoder neural network)에 의해 발생된 상기 타겟 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들(private feature representations)과는 다른 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제7항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 상기 소스 도메인에 특정된 전용 소스 인코더 뉴럴 네트워크(private source encoder neural network)에 의해 발생된 상기 소스 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제8항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 타겟 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 상기 전용 타겟 인코더 뉴럴 네트워크에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 공유된 디코더 뉴럴 네트워크(shared decoder neural network)에 의해 상기 입력 이미지를 정확히 재구성(reconstruct)하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제9항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 소스 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 상기 전용 소스 인코더 뉴럴 네트워크에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 상기 공유된 디코더 뉴럴 네트워크에 의해 상기 입력 이미지를 정확히 재구성하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 시스템.
제10항에 있어서,
상기 공유된 인코더 뉴럴 네트워크, 상기 전용 소스 인코더 뉴럴 네트워크, 그리고 상기 전용 타켓 인코더 뉴럴 네트워크는, 동일한 아키텍처(architecture)를 갖지만 다른 파라미터 값들(parameter values)을 갖는 컨볼류션 뉴럴 네트워크들(convolutional neural networks)인 것을 특징으로 하는 시스템.
제1항 내지 제11항 중 어느 하나의 항에 있어서,
상기 분류기 뉴럴 네트워크는 완전히-연결된 뉴럴 네트워크(fully-connected neural network)인 것을 특징으로 하는 시스템.
명령들로 인코딩(encoding)된 컴퓨터 저장 매체로서, 상기 명령들은 하나 이상의 컴퓨터들에 의해 실행될 때 상기 하나 이상의 컴퓨터들로 하여금 제1항 내지 제12항 중 어느 하나의 항에 기재된 상기 시스템을 구현하도록 하는 것을 특징으로 하는 컴퓨터 저장 매체.
하나 이상의 컴퓨터들에 의해 수행되는 방법으로서, 상기 방법은,
타겟 도메인으로부터 입력 이미지를 수신하는 단계와;
공유된 인코더 뉴럴 네트워크를 사용하여 상기 타겟 도메인으로부터의 상기 입력 이미지를 프로세싱하는 단계와, 여기서 상기 공유된 인코더 뉴럴 네트워크는,
상기 타겟 도메인으로부터 상기 입력 이미지를 수신하도록 되어 있고, 그리고
상기 입력 이미지를 프로세싱하여 상기 타겟 도메인으로부터의 이미지들과 상기 타겟 도메인과는 다른 소스 도메인으로부터의 이미지들 간에 공유된 상기 입력 이미지의 특징들의 공유된 특징 표현을 발생시키도록 되어 있으며; 그리고
분류기 뉴럴 네트워크를 사용하여 상기 타겟 도메인으로부터의 상기 입력 이미지를 프로세싱하는 단계를 포함하고,
여기서 상기 분류기 뉴럴 네트워크는,
상기 공유된 특징 표현을 수신하도록 되어 있고, 그리고
상기 공유된 특징 표현을 프로세싱하여 상기 입력 이미지를 특징짓는 상기 입력 이미지에 대한 네트워크 출력을 발생시키도록 되어 있는 것을 특징으로 하는 방법.
제14항에 있어서,
상기 타겟 도메인으로부터의 이미지들은 상기 소스 도메인으로부터의 이미지들과는 다른 낮은 레벨의 이미지 통계치들을 갖는 것을 특징으로 하는 방법.
제14항 또는 제15항 중 어느 하나의 항에 있어서,
상기 네트워크 출력은 객체 분류 출력인 것을 특징으로 하는 방법.
제14항 또는 제15항 중 어느 하나의 항에 있어서,
상기 네트워크 출력은 자체 추정 출력인 것을 특징으로 하는 방법.
제14항 내지 제17항 중 어느 하나의 항에 있어서,
분류기 뉴럴 네트워크는 상기 소스 도메인으로부터의 라벨링된 이미지들에 관해 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제14항 내지 제18항 중 어느 하나의 항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는 상기 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들과 유사한 상기 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제19항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 타겟 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 상기 타겟 도메인에 특정된 전용 타겟 인코더 뉴럴 네트워크에 의해 발생된 상기 타겟 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제20항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 소스 도메인으로부터의 입력 이미지들에 대한 공유된 특징 표현들을 발생시키되, 상기 소스 도메인에 특정된 전용 소스 인코더 뉴럴 네트워크에 의해 발생된 상기 소스 도메인으로부터의 동일한 입력 이미지들에 대한 전용 특징 표현들과는 다른 공유된 특징 표현들을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제21항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 타겟 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 상기 전용 타겟 인코더 뉴럴 네트워크에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 공유된 디코더 뉴럴 네트워크에 의해 상기 입력 이미지를 정확히 재구성하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제22항에 있어서,
상기 공유된 인코더 뉴럴 네트워크는, 상기 소스 도메인으로부터의 입력 이미지에 대한 공유된 특징 표현을 발생시키되, 상기 전용 소스 인코더 뉴럴 네트워크에 의해 발생된 동일한 입력 이미지에 대한 전용 특징 표현과 결합되는 경우, 상기 공유된 디코더 뉴럴 네트워크에 의해 상기 입력 이미지를 정확히 재구성하는데 사용될 수 있는 공유된 특징 표현을 발생시키도록 훈련되어 있는 뉴럴 네트워크인 것을 특징으로 하는 방법.
제23항에 있어서,
상기 공유된 인코더 뉴럴 네트워크, 상기 전용 소스 인코더 뉴럴 네트워크, 그리고 상기 전용 타켓 인코더 뉴럴 네트워크는, 동일한 아키텍처를 갖지만 다른 파라미터 값들을 갖는 컨볼류션 뉴럴 네트워크들인 것을 특징으로 하는 방법.
제14항 내지 제24항 중 어느 하나의 항에 있어서,
상기 분류기 뉴럴 네트워크는 완전히-연결된 뉴럴 네트워크인 것을 특징으로 하는 방법.