KR20210012009A

KR20210012009A - 이미지 처리를 위한 장치 및 방법, 및 신경 네트워크를 트레이닝하기 위한 시스템

Info

Publication number: KR20210012009A
Application number: KR1020207037174A
Authority: KR
Inventors: 파블로 나바렛 미셸리니; 단 주; 한원 류
Original assignee: 보에 테크놀로지 그룹 컴퍼니 리미티드
Priority date: 2018-09-30
Filing date: 2019-04-23
Publication date: 2021-02-02
Also published as: EP3857503A1; EP3857503A4; JP7415251B2; EP3857447A4; RU2762144C1; JP2022501663A; MX2020013580A; WO2020063648A1; AU2019350918A1; EP3857504A4; KR20200073267A; EP3859655A1; JP7463643B2; BR112020022560A2; WO2020062846A1; EP3857447A1; WO2020062957A1; EP3857504A1; WO2020062958A1; US20210365744A1

Abstract

본 개시는 일반적으로 딥 러닝 기술 분야에 관한 것이다. 복수의 상관 이미지를 생성하기 위한 장치는, 트레이닝 이미지를 수신하고 트레이닝 이미지로부터 적어도 하나 이상의 특징을 추출하여 트레이닝 이미지에 기초하여 제1 특징 이미지를 생성하도록 구성된 특징 추출 유닛; 제1 특징 이미지를 정규화하고 제2 특징 이미지를 생성하도록 구성된 정규화기; 및 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하고, 복수의 시프트된 이미지 각각을 제2 특징 이미지와 상관시켜 복수의 상관 이미지를 생성하도록 구성된 시프트 상관 유닛을 포함한다.

Description

이미지 처리를 위한 장치 및 방법, 및 신경 네트워크를 트레이닝하기 위한 시스템

관련 출원들에 대한 상호 참조

본 출원은 2018년 9월 30일자로 출원된 중국 특허 출원 제201811155252.6호, 2018년 9월 30일자로 출원된 중국 특허 출원 제201811155326.6호, 2018년 9월 30일자로 출원된 중국 특허 출원 제201811155147.2호, 및 2018년 9월 30일자로 출원된 중국 특허 출원 제201811155930.9호 각각의 출원일의 이익을 주장하며, 그 각각의 개시 내용은 이로써 그 전체가 참고로 포함된다.

기술 분야

본 개시는 일반적으로 딥 러닝(deep learning) 기술 분야에 관한 것이고, 더 상세하게는, 이미지 처리 판별 네트워크(image processing discriminative network)를 위한 장치, 방법 및 컴퓨터 판독가능 매체를 포함하는 딥 러닝 기반 이미지 처리 기술에 관한 것이다.

인공 신경 네트워크에 기초한 딥 러닝 기술은 이미지 처리와 같은 분야들에서 큰 진보를 이루었다. 딥 러닝 기술의 이점은 다목적 구조 및 비교적 유사한 시스템을 사용하는 상이한 기술적 문제들의 솔루션에 있다.

본 개시의 실시예는 복수의 상관 이미지를 생성하기 위한 장치이다. 장치는 트레이닝 이미지를 수신하고 트레이닝 이미지로부터 적어도 하나 이상의 특징을 추출하여 트레이닝 이미지에 기초하여 제1 특징 이미지를 생성하도록 구성된 특징 추출 유닛; 제1 특징 이미지를 정규화하고 제2 특징 이미지를 생성하도록 구성된 정규화기; 및 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하고, 복수의 시프트된 이미지 각각을 제2 특징 이미지와 상관시켜 복수의 상관 이미지를 생성하도록 구성된 시프트 상관 유닛을 포함한다.

적어도 일부 실시예들에서, 시프트 상관 유닛은, 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 픽셀 블록의 최우측 및 최좌측 열이 되도록 각각 시프트하고; 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 픽셀 블록의 최상단 또는 최하단 행이 되도록 각각 시프트함으로써 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하도록 구성될 수 있다. 적어도 일부 실시예들에서, 0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고, a 및 b는 동일하거나 상이하다.

적어도 일부 실시예들에서, 시프트 상관 유닛은 복수의 시프트된 이미지 각각의 픽셀 블록에서의 각각의 픽셀의 픽셀 값을 제2 특징 이미지의 픽셀 블록에서의 위치적으로 대응하는 픽셀의 픽셀 값과 곱함으로써 복수의 시프트된 이미지 각각을 제2 특징 이미지와 상관시키도록 구성될 수 있다. 적어도 일부 실시예들에서, 제1 특징 이미지는 휘도 특징 이미지일 수 있다. 적어도 일부 실시예들에서, 특징 추출 유닛은, 트레이닝 이미지로부터 휘도 정보를 추출하여 휘도 특징 이미지를 생성하도록 구성된 휘도 검출기를 포함할 수 있다.

적어도 일부 실시예들에서, 휘도 특징 이미지를 생성하기 위해, 휘도 검출기는 다음 수학식 (1)에 따라 휘도 특징 이미지에서의 주어진 위치에서 픽셀의 휘도 값을 결정하도록 구성된다:

I = 0.299R + 0.587G + 0.114B (1)

I는 휘도 값이다. R은 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 적색 컴포넌트 값이다. G는 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 녹색 컴포넌트 값이다. B는 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 청색 컴포넌트 값이다.

적어도 일부 실시예들에서, 정규화기는 다음의 수학식 (2)에 따라 휘도 특징 이미지를 정규화하도록 구성될 수 있다:

(2)

N은 제1 특징 이미지이다. I는 휘도 특징 이미지에서의 주어진 위치에서의 픽셀의 휘도 값을 나타낸다. Blur(I)는 휘도 특징 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이다. Blur(I²)는 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 그 후 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이다.

적어도 일부 실시예들에서, 제2 특징 이미지는 제1 크기를 갖는 픽셀 블록을 포함할 수 있다. 복수의 시프트된 이미지 각각 및 복수의 상관 이미지의 각각은 제1 크기를 갖는 픽셀 블록을 포함할 수 있다. 복수의 시프트된 이미지 각각에서, 0이 아닌 픽셀 값을 갖는 픽셀은 제2 특징 이미지에서의 동일한 0이 아닌 픽셀 값을 갖는 대응하는 픽셀을 가질 수 있다.

본 개시의 다른 실시예는 복수의 상관 이미지를 생성하는 방법이다. 방법은: 트레이닝 이미지에 기초하여 제1 특징 이미지를 생성하는 단계; 제1 특징 이미지를 정규화하고 제2 특징 이미지를 생성하는 단계; 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하는 단계; 및 복수의 시프트된 이미지 각각을 제2 특징 이미지와 상관시켜 복수의 상관 이미지를 생성하는 단계를 포함한다.

적어도 일부 실시예들에서, 복수의 시프트된 이미지 각각을 제2 특징 이미지와 상관시키는 것은 복수의 시프트된 이미지 각각의 픽셀 블록에서의 각각의 픽셀의 픽셀 값을 제2 특징 이미지의 픽셀 블록에서의 위치적으로 대응하는 픽셀의 픽셀 값과 곱하는 것을 포함할 수 있다.

적어도 일부 실시예들에서, 복수의 병진 시프트를 수행하는 것은: 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 픽셀 블록의 최우측 및 최좌측 열이 되도록 각각 시프트하고; 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 픽셀 블록의 최상단 또는 최하단 행이 되도록 각각 시프트하는 것을 포함할 수 있다. 적어도 일부 실시예들에서, 0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고, a 및 b는 동일하거나 상이하다. 적어도 일부 실시예들에서, a 및 b 중 적어도 하나는 복수의 병진 시프트의 수행 동안에 적어도 한번 변할 수 있다.

적어도 일부 실시예들에서, 복수의 병진 시프트의 수행은: 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열의 수를 삭제하고, 픽셀 블록의 최우측 또는 최좌측 위치에 a 수의 픽셀 열을 각각 추가하고; 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 삭제하고, 픽셀 블록의 최상단 또는 최하단 위치에 b 수의 행을 각각 추가하는 것을 포함할 수 있다. 적어도 일부 실시예들에서, 0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이다. 적어도 일부 실시예들에서, 추가된 픽셀들 각각은 0의 픽셀 값을 가질 수 있다. 적어도 일부 실시예들에서, a 및 b 중 적어도 하나는 복수의 병진 시프트의 수행 동안에 적어도 한번 변할 수 있다.

적어도 일부 실시예들에서, 방법은 X*Y 병진 시프트를 수행하는 단계를 추가로 포함할 수 있고, Y는 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이다.

적어도 일부 실시예들에서, 방법은 제1 특징 이미지를 생성하기 전에 트레이닝 이미지를 수신하는 단계를 추가로 포함할 수 있다. 적어도 일부 실시예들에서, 제1 특징 이미지를 생성하는 것은 트레이닝 이미지의 휘도 정보에 기초하여 휘도 특징 이미지를 생성하는 것을 포함할 수 있다.

적어도 일부 실시예들에서, 방법은 다음의 수학식 (1)에 따라 휘도 특징 이미지에서의 주어진 위치에서의 픽셀의 휘도 값을 결정하는 단계를 추가로 포함할 수 있다:

I = 0.299R + 0.587G + 0.114B (1)

적어도 일부 실시예들에서, 방법은 다음의 수학식 (2)에 따라 휘도 특징 이미지를 정규화하는 단계를 추가로 포함할 수 있다:

(2)

N은 제1 특징 이미지이다. I는 휘도 특징 이미지를 나타낸다. Blur(I)는 휘도 특징 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이다. Blur(I²)는 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 그 후 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이다.

적어도 일부 실시예들에서, 제1 특징 이미지는 제1 크기를 갖는 픽셀 블록을 포함할 수 있다. 적어도 일부 실시예들에서, 복수의 시프트된 이미지 각각과 복수의 상관 이미지 각각은 제1 크기를 갖는 픽셀 블록을 포함할 수 있다. 적어도 일부 실시예들에서, 복수의 시프트된 이미지 각각에서, 0이 아닌 픽셀 값을 갖는 픽셀은 제1 특징 이미지에서의 동일한 0이 아닌 픽셀 값을 갖는 대응 픽셀을 가질 수 있다.

본 개시의 다른 실시예는 컴퓨터로 하여금 복수의 상관 이미지를 생성하는 방법을 실행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체이다. 이 방법은 전술한 것과 같을 수 있다.

본 개시의 다른 실시예는 생성 적대 네트워크(generative adversarial network)를 트레이닝하기 위한 시스템이다. 시스템은 판별 네트워크 마이크로프로세서에 의해 트레이닝되도록 구성된 생성 네트워크 마이크로프로세서, 및 생성 네트워크에 결합된 판별 네트워크 마이크로프로세서를 포함하는 생성 적대 네트워크 프로세서를 포함할 수 있다.

적어도 일부 실시예들에서, 판별 네트워크 마이크로프로세서는 복수의 상관 이미지를 생성하기 위한 복수의 장치에 결합된 복수의 입력 단자를 포함할 수 있다. 복수의 장치 각각은 전술한 것과 같이; 복수의 분석 모듈- 복수의 분석 모듈 각각은 복수의 입력 단자 중 하나에 결합됨 -; 캐스케이드로 연결된 복수의 풀링 모듈- 캐스케이드의 각각의 스테이지는 복수의 분석 모듈 중 하나 및 캐스케이드의 이전 스테이지에서의 풀링 모듈에 결합된 풀링 모듈을 포함함 -; 및 캐스케이드의 마지막 스테이지에서의 풀링 모듈에 결합된 판별기 네트워크일 수 있다.

본 발명으로서 간주되는 주제는 특히 명세서의 결말의 청구항들에서 특별히 지시되고 명백히 청구된다. 본 개시의 전술한 그리고 다른 목적들, 특징들, 및 이점들은 첨부한 도면들과 관련하여 취해진 다음의 상세한 설명으로부터 명백하다.
도 1은 본 개시의 실시예에 따른 이미지 처리를 위한 장치의 블록도를 도시한다.
도 2는 본 개시의 실시예에 따른 제1 특징 이미지에서의 3*3 픽셀 블록의 개략도를 도시한다.
도 3은 본 개시의 일 실시예에 따른, 도 2에 예시된 제1 특징 이미지를 시프트함으로써 획득된 아홉(9)개의 시프트된 이미지 각각에서의 3*3 픽셀 블록을 나타낸다.
도 4는 본 개시의 다른 실시예에 따라 도 2에 예시된 제1 특징 이미지를 시프트함으로써 획득된 아홉(9)개의 시프트된 이미지 각각에서의 3*3 픽셀 블록을 도시한다.
도 5는 본 개시의 실시예에 따른 판별 네트워크를 도시하며, 이 판별 네트워크는 본 개시에 따른 이미지 처리를 위한 장치에 결합될 수 있다.
도 6은 본 개시의 실시예에 따른 이미지 처리를 위한 방법의 흐름도를 도시한다.
도 7은 본 개시의 다른 실시예에 따른 이미지 처리를 위한 방법의 흐름도를 도시한다. 및
도 8은 신경 네트워크를 트레이닝하기 위한 본 개시의 실시예에 따른 시스템의 블록도를 도시한다.
도면들의 다양한 특징들은 본 기술분야의 통상의 기술자가 상세한 설명과 함께 본 발명을 이해하는 데 용이하게 하는 것에서의 명료성을 위한 것이므로, 축척에 맞지 않는다.

다음으로, 본 개시의 실시예들은 위에서 간략하게 설명된 첨부 도면들과 함께 명확하고 구체적으로 설명될 것이다. 본 개시의 주제는 법정 요건(statutory requirement)들을 충족시키기 위해 한정적으로 설명된다. 그러나, 이 설명 자체는 본 개시의 범위를 한정하도록 의도되지 않는다. 오히려, 본 발명자들은 청구된 주제가 상이한 단계들 또는 본 문서에 설명되는 것들과 유사한 요소들을 다른 현재 또는 미래의 기술들과 더불어 포함하도록 다른 방식들로 구현될 수도 있다는 것을 고려한다.

본 기술은 다양한 도면들의 실시예들과 관련하여 설명되었지만, 본 기술로부터 벗어나지 않고 본 기술의 동일 기능을 수행하기 위해 다른 유사한 실시예들이 사용되거나, 설명된 실시예들에 대한 변경들 및 추가들이 이루어질 수 있다는 것을 이해해야 한다. 따라서, 본 기술은 임의의 하나의 실시예에 한정되어서는 안되며, 오히려 첨부된 청구 범위에 따라 그 범위 및 폭이 해석되어야 한다. 또한, 본 문서에 설명된 실시예들에 기초하여 본 기술분야의 통상의 기술자에 의해 획득된 다른 모든 실시예들은 본 개시의 범위 내에 있는 것으로 간주된다.

인공 신경 네트워크에 기초한 딥 러닝 기술은 이미지 처리와 같은 분야들에서 큰 진보를 이루었다. 딥 러닝은 머신 러닝(machine learning) 방법들 중에서 데이터의 특성화에 기초한 러닝(learning) 방법이다. 관측된 값들(예컨대 이미지)은 다양한 픽셀들의 강도 값들의 벡터로서, 또는 더 추상적으로는, 일련의 에지들, 특정 형상을 갖는 영역 등으로서 다양한 방식들로 표현될 수 있다. 딥 러닝 기술의 이점은 다목적 구조 및 비교적 유사한 시스템을 사용하는 상이한 기술적 문제들의 솔루션에 있다. 딥 러닝의 이익은 특징 러닝 및 계층적 특징 추출을 위한 효율적인 무감독(unsupervised) 또는 반감독(semi-supervised) 알고리즘들로 특징들의 수동 취득을 대체하는 것이다.

자연 세계의 이미지들은 컴퓨터에 의해 무작위로 또는 인간들에 의해 합성적으로 생성된 이미지들과 쉽게 구별될 수 있다. 자연적인 이미지들은 적어도 이들이 특정 구조를 포함하고 매우 랜덤하지 않기 때문에 구별적이다. 예를 들어, 컴퓨터에 의해 합성적으로 그리고 랜덤하게 생성된 이미지들은 자연스러운 장면 또는 객체를 거의 포함하지 않는다.

압축 알고리즘들, 아날로그 저장 매체들 및 심지어 인간들 자신의 시각 시스템들과 같은 이미지 처리 시스템들은 현실 세계 이미지들에 대해 작동한다. 생성 적대 네트워크(Generative adversarial network)(GAN)들은 자연 이미지들의 현실적인 샘플들을 생성하기 위한 하나의 솔루션이다. GAN들은 2개의 모델이 동시에 트레이닝되거나 교차-트레이닝되는 생성 모델링에 대한 접근법일 수 있다.

러닝 시스템들은 손실 함수에 의해 표현되는 특정 타겟에 기초하여 파라미터들을 조정하도록 구성될 수 있다. GAN에서, 손실 함수는 어려운 작업을 독립적으로 학습할 수 있는 또 다른 머신 러닝 시스템에 의해 대체된다. GAN은 일반적으로 판별 네트워크에 대해 대립되는 생성 네트워크를 포함한다. 생성 네트워크는 저해상도 데이터 이미지의 입력을 수신하고, 저해상도 데이터 이미지를 업스케일링하며, 업스케일링된 이미지를 판별 네트워크에 공급한다. 판별 네트워크는 그의 입력이 생성 네트워크의 출력(즉, "거짓" 업스케일링된 데이터 이미지)인지 또는 실제 이미지(즉, 원본 고해상도 데이터 이미지)인지를 분류하는 작업을 맡는다. 판별 네트워크는 "0"과 "1" 사이의 스코어를 출력하고, 이는 그의 입력이 업스케일링된 이미지 및 원본 이미지일 확률을 측정한다. 판별 네트워크가 "0"의 스코어를 출력하거나 "0"에 접근하면, 판별 네트워크는 이미지가 생성 네트워크의 출력이라고 결정하였다. 판별 네트워크가 "1"의 수를 출력하거나 "1"에 접근하는 경우, 판별 네트워크는 이미지가 원본 이미지라고 결정하였다. 생성 네트워크를 판별 네트워크에 대해 대립시키는 이러한 방식- 따라서, "적대(adversarial)" -은 생성 네트워크에 의해 생성된 이미지들이 원본들과 구별가능하지 않을 때까지 그 방법들을 개선하도록 둘 다의 네트워크들을 구동하기 위해 둘 다의 네트워크들 사이의 경쟁을 이용한다.

판별 네트워크는 미리 결정된 스코어들을 갖는 데이터를 사용하여 입력을 "실제" 또는 "가짜"로서 스코어링하도록 트레이닝될 수 있다. "가짜" 데이터는 생성 네트워크에 의해 생성된 고해상도 이미지일 수 있고, "실제" 데이터는 미리 결정된 참조 이미지일 수 있다. 판별 네트워크를 트레이닝하기 위해, 판별 네트워크의 파라미터는 판별 네트워크가 "실제" 데이터를 수신할 때마다 "1"에 접근하는 스코어를 출력하고 판별 네트워크가 "가짜" 데이터를 수신할 때마다 "0"에 접근하는 스코어를 출력할 때까지 조정된다. 생성 네트워크를 트레이닝하기 위해, 생성 네트워크의 파라미터는 생성 네트워크의 출력이 판별 네트워크로부터 가능한 한 "1"에 가까운 스코어를 수신할 때까지 조정된다.

GAN에 대한 일반적인 비유는 위조자 및 경찰의 그것이다. 생성 네트워크는 가짜 화폐를 생성하고 검출 없이 그것을 사용하려고 시도하는 위조자와 유사하게 될 수 있는 반면, 판별 네트워크는 가짜 화폐를 검출하려고 시도하는 경찰과 유사하게 될 수 있다. 위조자와 경찰 사이의 경쟁은 위조품들이 진짜 물품과 구별가능하지 않을 때까지 그 방법들을 개선하도록 양측에 박차를 가할 것이다.

생성 및 판별 네트워크들 둘 다는 제로-섬 게임에서, 상이하고 반대인 목적 함수, 즉, 손실 함수를 최적화하려고 시도하고 있다. 판별 네트워크에 의한 출력을 최대화하기 위한 "크로스-트레이닝(cross-training)"을 통해, 생성 네트워크는 그것이 생성하는 이미지들을 개선하고, 판별 네트워크는 원본 고해상도 이미지와 생성 네트워크에 의해 생성된 이미지 사이의 그의 구별에서 정확도를 개선한다. 생성 네트워크 및 판별 네트워크는 더 양호한 이미지들을 생성하고 이미지들을 평가하기 위한 기준들을 개선하기 위해 경쟁한다.

특정 파라미터를 개선하도록 생성 네트워크를 트레이닝하기 위해, 원본 고해상도 이미지와 생성 네트워크에 의해 생성된 이미지 사이를 구별하는 데 있어서 판별 네트워크의 정확도를 증가시킬 필요가 남아있다. 예를 들어, 실제인 것으로 인지되고 오염되지 않는 이미지들을 생성하는 작업에 관심이 있다. 이것은 디블러링(deblurring), 노이즈 제거(denoising), 디모자이킹(demosaicking), 압축 제거, 콘트라스트 향상, 이미지 초해상도 등과 같은 문제들에 적용될 수 있다. 이러한 문제들에서, 손상된 이미지는 시각적으로 손상되고, 머신 러닝 시스템은 그것을 고치도록 설계될 수 있다. 그러나, 원본 이미지를 복구하는 타겟은 종종 비실용적이며, 실제로 보이지 않는 이미지들을 초래한다. GAN들은 "실제" 이미지들을 생성하도록 설계된다. 전형적인 구성은 컬러 출력 이미지를 취하고, 머신 러닝 시스템(예를 들어, 컨볼루션 네트워크)을 사용하여 이미지가 얼마나 실제적인지를 측정하는 단일 숫자를 출력한다. 이 시스템은 지각 품질을 개선할 수 있지만, 오늘날, 적대 시스템의 출력들은 인간 시청자에 의해 자연적인 이미지들로서 지각되기에 부족하다.

도 1은 본 개시의 실시예에 따른 이미지 처리를 위한 장치의 블록도를 나타낸다.

도 1의 블록도는 장치(100)가 도 1에 도시된 컴포넌트들만을 포함한다는 것을 나타내고자 하는 것은 아니다. 오히려, 장치(100)는 특정 구현들의 상세들에 따라, 본 기술분야의 통상의 기술자에게 공지되지만 도 1에 도시되지 않은 임의의 수의 추가적인 액세서리들 및/또는 컴포넌트들을 포함할 수 있다.

도 1에 도시된 바와 같이, 장치(100)는 특징 추출 유닛(110) 및 시프트 상관 유닛(120)을 포함한다.

특징 추출 유닛(110)은 장치(100)에 입력되거나 장치(100)에 의해 수신되는 트레이닝 이미지로부터 하나 이상의 특징을 추출하고, 추출된 특징(들)에 기초하여 특징 이미지를 생성하도록 구성된다. 특징 이미지는 트레이닝 이미지의 하나 이상의 특징을 나타낸다. 트레이닝 이미지는 생성 네트워크에 의해 생성되는 이미지, 또는 미리 결정된 참조 이미지일 수 있다.

일부 실시예들에서, 도 1에 도시된 바와 같이, 특징 추출 유닛(110)은 휘도 검출기(111)를 포함할 수 있다.

휘도 검출기(111)는 트레이닝 이미지에서의 휘도에 관련된 정보를 트레이닝 이미지로부터 추출함으로써, 예를 들어, 트레이닝 이미지의 제1 특징 이미지를 생성하도록 구성된다. 따라서, 제1 특징 이미지는 휘도 특징 이미지라고도 지칭될 수 있다.

일부 실시예들에서, 도 1에 도시된 바와 같이, 특징 추출 유닛(110)은 정규화기(112)를 포함할 수 있다.

정규화기(112)는 제1 특징 이미지를 정규화함으로써 제2 특징 이미지를 생성하도록 구성된다. 제1 특징 이미지가 휘도 특징 이미지인 실시예들에서, 정규화기(112)는 휘도 특징 이미지를 정규화하도록 구성된다. 정규화는 이미지의 픽셀 값들을 더 작은 범위의 값들 내에 가져오며, 이는 너무 높거나 너무 낮은 이상치(outlier) 픽셀 값들을 제거할 수 있다. 이것은 결국 이하에서 논의될 상관들의 계산들을 용이하게 할 수 있다.

본 개시에 따른 이미지 처리를 위한 장치(100)는 범용 컴퓨터, 마이크로프로세서, 디지털 전자 회로, 집적 회로, 특수 설계된 ASIC(application specific integrated circuit)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합 상의 형태로 컴퓨팅 디바이스 상에 구현될 수 있다.

특징 추출 유닛(110)에 의해 생성된 제2 특징 이미지는 추가 처리를 위해 시프트 상관 유닛(120)에 출력된다. 시프트 상관 유닛(120)은 제2 특징 이미지의 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하도록 구성된다. 시프트 상관 유닛(120)은 제2 특징 이미지와 복수의 시프트된 이미지 각각 사이의 상관들의 세트에 기초하여 복수의 상관 이미지를 생성하도록 추가로 구성된다. 시프트 상관 유닛(120)은 네트워크를 트레이닝하기 위해 복수의 상관 이미지를 딥 러닝 네트워크에 송신하도록 추가로 구성된다. 예를 들어, 일부 실시예들에서, 복수의 상관 이미지는 생성 적대 네트워크 내의 판별 네트워크에 송신되어 생성 적대 네트워크 내의 생성 네트워크와 함께 반복적으로 판별 네트워크를 트레이닝할 수 있다.

제2 특징 이미지는 제1 수의 픽셀 행 및 제1 수의 픽셀 열에 의해 정의되는 제1 크기의 픽셀 블록을 갖는다. 제2 특징 이미지는 복수의 변환 시프트 전에 제1 크기에 대응하는 제1 영역을 점유한다. 병진 시프트는 다수의 방식으로 달성될 수 있다. 일부 실시예들에서, 병진 시프트는 제2 특징 이미지에서의 픽셀들을 초기 영역으로부터 행(또는 수평) 방향 또는 열(또는 수직) 방향으로 시프트한다. 일부 실시예들에서, 병진 시프트는 제1 영역 밖으로 시프트된 픽셀들의 행들 및/또는 열들을 삭제하고, 시프트된 픽셀들에 의해 비워진 공간 내의 픽셀들에 "0"의 값을 할당하는 것을 포함할 수 있다. 일부 실시예들에서, 병진 시프트는 픽셀들의 행들 및/또는 열들을 재정렬하거나 재배열하는 것을 포함할 수 있다.

복수의 시프트된 이미지 각각은 제2 특징 이미지에서의 픽셀 블록의 제1 크기와 동일한 크기의 픽셀 블록을 갖는다. 복수의 시프트된 이미지 각각은 제2 특징 이미지에서와 동일한 수의 픽셀 행 및 동일한 수의 픽셀 열을 갖는다.

각각의 시프트된 이미지에서 0이 아닌 값을 갖는 각각의 픽셀은 제2 특징 이미지에서 동일한 0이 아닌 값을 갖는 대응하는 픽셀을 갖는다. 적어도 일부 실시예들에서, 제2 특징 이미지에서의 대응하는 픽셀을 갖지 않는 픽셀들은 "0"의 값을 할당받는다. 예시적인 예로서, 시프트된 이미지의 처음 2개의 행에서의 픽셀들의 값들은 제1 특징 이미지의 마지막 2개의 행에서의 각각 대응하는 픽셀들의 값들과 동일할 수 있고, 시프트된 이미지에서의 모든 다른 픽셀들은 "0"의 값을 할당받는다. 제2 특징 이미지에서의 대응하는 픽셀을 갖는 시프트된 이미지에서의 각각의 픽셀은 대응하는 픽셀과 동일한 픽셀 값을 갖는다.

본 개시에서, "대응하는 픽셀들"은 제 위치에(in position) 대응하는 픽셀들에 제한되지 않고, 상이한 위치들을 점유하는 픽셀들을 또한 포함할 수 있다. "대응하는 픽셀들"은 동일한 픽셀 값들을 갖는 픽셀들을 지칭한다.

본 개시에서, 이미지들은 픽셀 블록들로서 처리된다. 블록에서의 픽셀의 값은 블록에서의 픽셀에 대해 제 위치에 대응하는 이미지에서의 픽셀의 값을 나타낸다.

2개의 이미지 사이의 상관은 2개의 이미지의 픽셀 블록들의 픽셀 대 픽셀 곱셈에 의해 계산될 수 있다. 예를 들어, 상관 이미지의 제i 행 및 제j 열 (i, j)에서의 픽셀의 값은, 제2 특징 이미지에서의 (i, j) 위치에서의 픽셀의 값에, 대응하는 시프트된 이미지에서의 (i, j) 위치에서의 픽셀의 값을 곱하는 것에 의해 결정될 수 있다.

도 1에 도시된 바와 같이, 일부 실시예들에서, 특징 추출 유닛(110)은 휘도 검출기(111) 및 정규화기(112)를 포함한다.

휘도 검출기(111)는 예를 들어, 특징 추출 유닛(110)에 의해 수신된 트레이닝 이미지로부터 트레이닝 이미지에서의 휘도에 관련된 정보를 추출함으로써 제1 특징 이미지를 생성하고, 추출된 휘도 정보에 기초하여 휘도 특징 이미지를 생성하도록 구성된다. 따라서, 제1 특징 이미지는 휘도 특징 이미지라고도 지칭될 수 있다. 인간의 눈들은 다른 특징들보다 이미지의 휘도에 더 민감한 경향이 있다. 휘도 정보를 추출함으로써, 본 개시의 장치는 트레이닝 이미지로부터 불필요한 정보를 제거하며, 이는 처리 부하를 감소시킬 수 있다.

휘도 특징 이미지에서의 픽셀들의 행들 및 열들의 수들은 트레이닝 이미지에서와 동일하다. 휘도 특징 이미지의 제i 행 및 제j 열 (i, j)에서의 픽셀의 휘도 값 I가 이하의 수학식 (1)에 따라 계산될 수 있다:

I = 0.299R + 0.587G + 0.114B (1)

수학식 (1)에서, R은 트레이닝 이미지에서의 픽셀(i, j)의 적색 컴포넌트 값을 나타낸다. G는 녹색 컴포넌트 값을 나타낸다. B는 청색 컴포넌트 값을 나타낸다. i와 j 둘 다는 정수들이다. i의 값은 1 ≤ i ≤ X이다. j의 값은 1 ≤ j ≤ Y이다. X는 트레이닝 이미지에서의 행들의 총 수이고, Y는 트레이닝 이미지에서의 열들의 총 수이다.

일부 실시예들에서, 트레이닝 이미지는 컬러 이미지이다. 일부 실시예들에서, 트레이닝 이미지는 R 컴포넌트, G 컴포넌트, 및 B 컴포넌트를 갖고, 본 개시의 장치는 R 컴포넌트, G 컴포넌트, 및 B 컴포넌트가 휘도 검출기에 입력되고, 그 안에서 Y 컴포넌트, U 컴포넌트, 및 V 컴포넌트로 각각 변환되고, 그 후 Y 채널, U 채널, 및 V 채널에 각각 입력되도록 트레이닝 이미지를 처리하도록 구성될 수 있다. Y 컴포넌트, U 컴포넌트, 및 V 컴포넌트는 YUV 공간에서의 트레이닝 이미지의 컴포넌트들이다. Y 채널, U 채널, 및 V 채널은 이러한 채널들로부터의 출력들이 각각 Y 컴포넌트 출력, U 컴포넌트 출력, 및 V 컴포넌트 출력이라는 것을 나타낸다. 트레이닝 이미지의 RGB 컴포넌트들이 YUV 컴포넌트들로 변환되는 실시예들에서, 휘도 값 I는 Y 컴포넌트의 값에 대응한다.

일부 실시예들에서, 트레이닝 이미지는 Y 컴포넌트, U 컴포넌트, 및 V 컴포넌트를 갖는다. 그 경우에, 본 개시의 장치는 휘도 검출기의 Y 채널을 통해 트레이닝 이미지의 Y 컴포넌트를 처리하고; 휘도 검출기의 U 채널을 통해 트레이닝 이미지의 U 컴포넌트를 처리하고; 휘도 검출기의 V 채널을 통해 트레이닝 이미지의 V 컴포넌트를 처리하도록 구성될 수 있다.

일부 실시예들에서, YUV 공간을 사용하는 것은 트레이닝 이미지에 대해 크로마 샘플링을 수행하는 것이다. 트레이닝 이미지의 Y 컴포넌트는 Y 채널에 진입한다. 트레이닝 이미지의 U 컴포넌트는 U 채널에 진입한다. 트레이닝 이미지의 V 컴포넌트는 V 채널에 진입한다. 트레이닝 이미지의 입력 신호를 3개의 그룹으로 분리함으로써, Y 컴포넌트, U 컴포넌트 및 V 컴포넌트의 그룹으로부터의 컴포넌트 내의 각각의 채널 처리 신호는 계산 부담을 감소시키고 처리 속도를 향상시킬 수 있다. U 컴포넌트 및 V 컴포넌트는 이미지의 디스플레이 효과에 상대적으로 낮은 영향을 미쳐서, 상이한 채널들에서 상이한 컴포넌트들을 처리하는 것은 이미지 디스플레이에 중대한 영향을 미치지 않을 것이다.

정규화기(112)는 제1 특징 이미지를 정규화함으로써 제2 특징 이미지를 생성하도록 구성된다. 특징 추출 유닛(110)이 휘도 검출기(111)를 포함하고 제1 특징 이미지가 휘도 특징 이미지인 실시예들에서, 정규화기(112)는 휘도 특징 이미지를 정규화하도록 구성된다. 정규화는 이미지의 픽셀 값들을 더 작은 범위의 값들 내에 가져오며, 이는 너무 높거나 너무 낮은 이상치(outlier) 픽셀 값들을 제거할 수 있다. 이것은 결국 상관들의 계산들을 용이하게 할 수 있다.

더 구체적으로, 정규화기(112)는 다음의 수학식 (2)에 따라 정규화를 수행하여 제2 특징 이미지를 획득하도록 구성된다:

(2)

수학식 (2)에서, N은 제2 특징 이미지를 나타낸다. I는 트레이닝 이미지로부터 획득된 휘도 특징 이미지를 나타낸다. Blur는 가우시안 블러를 나타낸다. Blur(I)는 휘도 특징 이미지 상에 구현되는 가우시안 블러 필터를 나타낸다. Blur(I²)는 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 이어서 이미지에 대해 가우시안 블러 필터를 구현함으로써 획득된 이미지를 나타낸다. μ는 가우시안 블러 필터를 사용하여 획득된 출력 이미지를 나타낸다. σ²는 로컬 분산 정규화된 이미지를 제시한다.

본 개시의 일부 실시예들에서, 제2 특징 이미지의 병진 시프트는 중간 이미지를 획득하기 위해 제2 특징 이미지에서의 마지막 a개의 픽셀 열을 나머지 픽셀 열들의 앞으로 시프트하는 것을 포함한다. 그 후 중간 이미지에서의 마지막 b개의 픽셀 행은 시프트된 이미지를 획득하기 위해 나머지 픽셀 행들의 앞으로 시프트된다. a의 값은 0 ≤ a＜Y이다. b의 값은 0 ≤ b＜X이다. a와 b 둘 다는 정수들이다. X는 제2 특징 이미지에서의 픽셀 행들의 총 수를 나타낸다. Y는 제2 특징 이미지에서의 픽셀 열들의 총 수를 나타낸다. a와 b의 값들은 동일하거나 상이할 수 있다. a와 b가 둘 다 0일 때, 시프트된 이미지는 제2 특징 이미지이다. 일부 실시예들에서, 임의의 주어진 2개의 이미지 시프팅 프로세스에서, a 및 b 중 적어도 하나의 값은 변한다. 시프트들이 수행되는 순서는 특별히 제한되지 않는다는 것이 이해된다. 예를 들어, 일부 실시예들에서, 중간 이미지를 획득하기 위해 픽셀 행들이 시프트될 수 있고, 이어서 시프트된 이미지를 획득하기 위해 픽셀 열들이 시프트될 수 있다.

시프트된 이미지에서의 각각의 픽셀의 값은 제2 특징 이미지에서의 픽셀의 값에 대응한다. 복수의 시프트된 이미지 각각에서의 픽셀(i, j)의 값은 제2 특징 이미지에서의 상이한 위치에서의 상이한 픽셀로부터 비롯된다.

일부 실시예들에서, 제1 특징 이미지의 병진 시프트는 중간 이미지를 획득하기 위해 제2 특징 이미지에서의 마지막 b개의 픽셀 행을 나머지 픽셀 행들의 앞으로 시프트하는 것을 포함한다. 그 후 시프트된 이미지를 획득하기 위해 중간 이미지에서의 마지막 a개의 픽셀 행은 나머지 픽셀 행들의 앞으로 시프트된다.

일부 실시예들에서, X*Y 수의 상관 이미지를 획득하기 위해 X*Y 수의 병진 시프트가 제2 특징 이미지에 대해 수행된다. a와 b가 둘 다 0인 경우에도, 이것은 하나의 병진 시프트로서 카운팅한다.

도 2는 본 개시의 실시예에 따른 제2 특징 이미지에서의 3*3 픽셀 블록의 개략도를 도시한다. 도 2에서, "p1"..."p9" 각각은 아홉(9)개의 픽셀 중 하나의 값을 나타낸다. 도 3은 본 개시의 실시예에 따라, 도 2에 예시된 제2 특징 이미지를 시프트함으로써 획득된 아홉(9)개의 시프트된 이미지 각각에서의 3*3 픽셀 블록을 나타낸다.

본 개시의 실시예들에서, 제2 특징 이미지는 제1 크기를 갖는 픽셀 블록을 포함한다. 복수의 시프트된 이미지의 각각 및 복수의 상관 이미지의 각각은 제1 크기를 갖는 픽셀 블록을 포함한다.

본 개시의 목적을 위해, 도 2에 도시된 블록에서의 최상단 픽셀 행은 제1 행이고, 도 2에 도시된 블록에서의 최좌측 픽셀 열은 제1 열이다. a=1이고 b=1인 경우, 도 3에서 제2 행의 중간에 도시된 시프트된 이미지를 획득하기 위해, 제2 특징 이미지에서의 마지막 픽셀 열(즉, 최우측 열)은 제1 픽셀 열(즉, 최좌측 열)의 앞으로 이동되고, 마지막 픽셀 행(즉, 하단 행)은 제1 픽셀 행(즉, 상단 행)의 앞으로 이동된다.

도 2 및 도 3에 도시된 실시예들에서, 픽셀은 블록에서의 아홉(9)개의 위치 중 하나를 차지할 수 있고, 아홉(9)개의 위치들 각각에서 각각의 픽셀이 나타날 가능성이 아홉(9)개의 시프트된 이미지에 반영된다. 후속하여, 아홉(9)개의 상관 이미지는 각각의 픽셀의 자신과의 상관뿐만 아니라, 각각의 픽셀의 이미지에서의 다른 픽셀들과의 상관에 관한 정보를 포함한다. 생성 적대 네트워크의 예시적인 예에서, 생성 네트워크가 하나의 픽셀의 값이 고해상도 원본("실제") 이미지와 상이한 이미지를 생성하는 경우, 합성적으로 생성된 이미지에 기초하여 획득된 모든 상관 이미지는 고해상도 원본 이미지의 상관 이미지와 불일치를 나타낼 것이다. 이러한 불일치는 합성적으로 생성된 이미지를 "0"(즉, "가짜" 분류)에 더 가깝게 스코어링하도록 판별 네트워크를 프롬프트할 것이고, 이는 더 현실적이고 지각적으로 더 설득력 있는 출력을 생성하는 것에 대해 업데이트하고 향상시키도록 생성 네트워크를 구동시킬 것이다.

본 개시가 이미지에 적용될 수 있는 병진 시프트들을 제한하지 않는다는 것이 이해된다. 도 4는 본 개시의 다른 실시예에 따라 도 2에 예시된 제2 특징 이미지를 시프트한 후에 획득된 아홉(9)개의 시프트된 이미지 각각에서의 3*3 픽셀 블록을 도시한다.

도 2 및 도 4에서, 제2 특징 이미지에서의 마지막 a개의 픽셀 열들이 제거되고, a개의 픽셀 열이 나머지 픽셀 열들의 앞에 추가되어 중간 이미지를 획득한다. 추가된 a개의 열에서의 각각의 픽셀은 "0"의 값을 갖는다. 다음으로, 중간 이미지에서, 마지막 b개의 픽셀 행이 제거되고, b개의 픽셀 행이 나머지 픽셀 행들의 전방에 추가되어 시프트된 이미지를 획득한다. 추가된 b개의 열에서의 각각의 픽셀은 "0"의 값을 갖는다. 더 구체적으로, 0 ≤ a < Y이고, 0 ≤ b < X이고, a 및 b는 둘 다 정수들이다. X는 제2 특징 이미지에서의 픽셀 행들의 총 수를 나타낸다. Y는 제2 특징 이미지에서의 픽셀 열들의 총 수를 나타낸다. a와 b의 값들은 동일하거나 상이할 수 있다. 일부 실시예들에서, 임의의 주어진 2개의 이미지 시프팅 프로세스에서, a 및 b 중 적어도 하나의 값은 변한다.

시프트 상관 유닛(120)은 2개의 이미지에서의 대응하는 위치들에서의 픽셀들의 값들을 곱함으로써 상관 이미지를 생성하도록 구성된다. 상관 이미지에서, (i, j) 위치에서의 픽셀의 값은 제2 특징 이미지에서의 픽셀(i, j)의 값과 시프트된 이미지에서의 픽셀(i, j)의 값을 곱함으로써 획득된다. i의 값은 1 ≤ i ≤ X이다. j의 값은 1 ≤ j ≤ Y이다. i와 j 둘 다는 정수들이다. X는 제2 특징 이미지에서의 픽셀 행들의 총 수를 나타낸다. Y는 제2 특징 이미지에서의 픽셀 열들의 총 수를 나타낸다.

본 개시에 따른 이미지 처리를 위한 장치(100)는 범용 컴퓨터, 마이크로프로세서, 디지털 전자 회로, 집적 회로, 특수 설계된 ASIC(application specific integrated circuit)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합 상의 형태로 컴퓨팅 디바이스 상에 구현될 수 있다. 이러한 다양한 구현들은 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 그들로 송신하도록 결합되는, 특수 목적 또는 범용일 수 있는 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템 상에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

이들 컴퓨터 프로그램들(프로그램들, 소프트웨어, 소프트웨어 애플리케이션 또는 코드라고도 알려짐)은 프로그램가능 프로세서에 대한 머신 명령어들을 포함하고, 하이레벨 프로시저 및/또는 객체 지향 프로그래밍 언어로, 그리고/또는 어셈블리/머신 언어로 구현될 수 있다. 본 명세서에서 사용될 때, 용어들 "머신 판독가능 매체", "컴퓨터 판독가능 매체"는 머신 명령어들 및/또는 데이터를 프로그램가능 프로세서에 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치 및/또는 디바이스(예를 들어, 자기 디스크들, 광 디스크들, 메모리들, 프로그램가능 논리 디바이스(PLD)들)를 지칭하며, 머신 명령어들을 머신 판독가능 신호로서 수신하는 머신 판독가능 매체를 포함한다. "머신 판독가능 신호"라는 용어는 프로그램가능 프로세서에 머신 명령어들 및/또는 데이터를 제공하기 위해 사용되는 임의의 신호를 지칭한다.

사용자와의 상호 작용을 제공하기 위해, 본 명세서에 설명된 장치들, 시스템들, 프로세스들, 기능들 및 기술들은 사용자에 정보를 표시하기 위한 디스플레이 디바이스(예를 들어, CRT(cathode ray tube) 또는 LCD(liquid crystal display) 모니터) 및 사용자가 그에 의해 컴퓨터에 입력을 제공할 수 있는 키보드 및 포인팅 디바이스(예를 들어, 마우스 또는 트랙볼)를 갖는 컴퓨터에서 구현될 수 있다. 예를 들어, 사용자에게 제공되는 피드백은 임의의 형태의 감각 피드백(예를 들어, 시각 피드백, 청각 피드백, 또는 촉각 피드백)일 수 있는 것을 포함하여, 또한 다른 종류의 액세서리들 및/또는 디바이스들이 사용자와의 상호작용을 제공하기 위해 사용될 수 있다. 사용자로부터의 입력은 음향, 음성 또는 촉각 입력을 포함하여, 임의의 형태로 수신될 수 있다.

전술한 장치들, 시스템들, 프로세스들, 기능들 및 기술들은, (예를 들어, 데이터 서버로서) 백 엔드 컴포넌트를 포함하는, 또는 미들웨어 컴포넌트(예를 들어, 애플리케이션 서버)를 포함하는, 또는 프론트 엔드 컴포넌트(예를 들어, 사용자가 그를 통해 본 명세서에서 설명된 장치들, 시스템들, 프로세스들, 기능들 및 기술들의 구현과 상호작용할 수 있는 웹 브라우저 또는 그래픽 사용자 인터페이스를 갖는 클라이언트 컴퓨터), 또는 이러한 백 엔드, 미들웨어 또는 프론트 엔드 컴포넌트들의 임의의 조합을 포함하는 컴퓨팅 시스템에서 구현될 수 있다. 시스템의 컴포넌트들은 임의의 형태 또는 매체의 디지털 데이터 통신(예를 들어, 통신 네트워크)에 의해 상호 연결될 수 있다. 통신 네트워크들의 예들은 "LAN"(local area network), "WAN"(wide area network) 및 인터넷을 포함한다.

컴퓨팅 시스템은 클라이언트들 및 서버들을 포함할 수 있다. 클라이언트 및 서버는 일반적으로 서로 떨어져 있으며, 통상적으로 통신 네트워크를 통해 상호작용한다. 클라이언트와 서버의 관계는 각각의 컴퓨터들 상에서 실행되며 서로 클라이언트-서버 관계를 갖는 컴퓨터 프로그램들에 의하여 발생한다.

이미지 처리를 위한 본 개시에 따른 장치는 신경 네트워크들에 결합될 수 있고, 신경 네트워크들을 트레이닝하도록 구성될 수 있다. 일부 실시예들에서, 본 개시에 따른 장치는 생성 적대 네트워크(GAN)를 트레이닝하도록 구성된다. GAN은 생성 네트워크 및 판별 네트워크를 포함할 수 있다.

판별 네트워크는, 판별 네트워크가 그것이 입력으로서 수신하는 이미지와 입력 이미지와 동일한 해상도를 갖는 미리 결정된 참조 이미지 사이의 일치도를 분류할 수 있는 한, 본 기술분야의 통상의 기술자에게 공지된 임의의 적절한 방식으로 구축 및 구성될 수 있다. 도 5는 본 개시의 실시예에 따른 판별 네트워크(200)를 도시한다. 판별 네트워크(200)는 복수의 입력 단자 In1, In2, In3, 복수의 분석 모듈(210), 복수의 풀링 모듈(220) 및 판별기 모듈(230)을 포함할 수 있다.

복수의 분석 모듈(210) 각각은 복수의 입력 단자 In1, In2, In3 중 대응하는 하나에 결합된다. 분석 모듈들(210)은 입력 단자들 In1, In2, In3을 통해, 본 개시에 따른 장치에 의해 생성된 복수의 상관 이미지를 수신한다. 분석 모듈들(210)은 복수의 상관 이미지에 기초하여, 대응하는 복수의 제3 특징 이미지를 생성하도록 구성된다. 복수의 제3 특징 이미지 각각은 대응하는 상관 이미지의 상이한 치수들을 나타내는 다채널 이미지이다. 복수의 제3 특징 이미지 각각은 대응하는 상관 이미지보다 더 많은 수의 채널을 갖는다. 예를 들어, 입력 상관 이미지는 3개의 채널을 가질 수 있고, 출력 제3 특징 이미지는 64개의 채널, 128개의 채널, 또는 일부 다른 임의의 수의 채널을 가질 수 있다. 복수의 제3 특징 이미지 각각은 대응하는 상관 이미지와 동일한 해상도로 생성된다.

복수의 분석 모듈(210) 각각은 복수의 풀링 모듈(220) 중 하나에 결합된다. 복수의 풀링 모듈(220)은 캐스케이드로 연결된다. 풀링 모듈들(220)은 복수의 입력 이미지를 수신하고, 복수의 입력 이미지를 연결함으로써 합성 이미지를 생성하고, 합성 이미지의 해상도를 감소시켜 다운스케일링된 합성 이미지를 생성하도록 구성된다. 더 구체적으로, 복수의 입력 이미지는 대응하는 분석 모듈(210)로부터 수신된 제3 특징 이미지, 및 참조 이미지를 포함한다. 도 5에 도시된 바와 같이, 캐스케이드의 제1 스테이지에서, 분석 모듈(210)로부터의 제3 특징 이미지는 대응하는 풀링 모듈(220)에 대한 참조 이미지로도 쓰인다. 캐스케이드의 후속 스테이지들에서, 참조 이미지는 캐스케이드의 이전 스테이지에서 풀링 모듈(220)에 의해 생성된 다운스케일링된 합성 이미지이다.

판별기 모듈(230)은 캐스케이드의 마지막 스테이지에서의 풀링 모듈(220)로부터 다운스케일링된 합성 이미지를 수신하고, 수신된 이미지와 수신된 이미지와 동일한 해상도를 갖는 미리 결정된 참조 이미지 사이의 일치도를 나타내는 스코어를 생성함으로써 수신된 다운스케일링된 합성 이미지를 분류하도록 구성된다.

생성 네트워크는 생성 네트워크가 이미지를 업스케일링하고 생성할 수 있는 한, 본 기술분야의 통상의 기술자에게 공지된 임의의 적절한 방식으로 구축 및 구성될 수 있다.

장치(100)는 판별 네트워크의 입력 단자를 통해 판별 네트워크에 결합될 수 있다. 판별 네트워크는 생성 네트워크로부터의 출력 이미지, 또는 고해상도 원본 샘플 이미지를 직접 수신하지 않을 수 있다. 오히려, 판별 네트워크는 생성 네트워크로부터의 출력 이미지, 또는 고해상도 원본 샘플 이미지가 장치(100)에 의해 전처리된 후에, 그것들을 수신, 분류, 및 스코어링하도록 구성될 수 있다. 즉, 판별 네트워크는 장치(100)로부터의 출력을 수신, 분류, 및 스코어링하도록 구성될 수 있다.

GAN을 트레이닝하는 종래의 방법들은 생성 네트워크로부터의 출력 이미지 또는 원본 샘플 이미지를 분류를 위해 판별 네트워크에 직접 공급한다. 그 결과, 분류 목적을 위해, 판별 네트워크는 출력 이미지 또는 원본 샘플 이미지 내에 있는 정보에 의존하는 것으로 제한된다.

이미지 처리를 위한 본 개시에 따른 장치에서, 시프트 상관 유닛은 생성 네트워크로부터의 출력 이미지 및/또는 고해상도 원본 이미지를 처리하여 복수의 상관 이미지를 생성한다. 예를 들어, 시프트 상관 유닛은 출력 이미지 및/또는 원본 샘플 이미지에 고유한 정보뿐만 아니라, 그러한 이미지들과 시프트된 또는 달리 변환된 이미지들 사이의 상관들에 관련된 정보를 포함하는 복수의 상관 이미지를 생성하도록 구성된다. 종래의 방법들과 비교하여, 본 개시의 시스템에서의 판별 네트워크에는, 예를 들어, 생성 네트워크로부터의 출력 이미지와 변환된 이미지들 사이의 상관들의 세트를, 원본 샘플 이미지와 변환된 이미지들 사이의 상관들의 세트와 비교함으로써, 그에 의해 분류를 행할 추가적인 정보가 제공된다. 또한, NIQE(Naturalness Image Quality Evaluator) 무-참조 이미지(no-reference image) 품질 스코어로부터, 출력 이미지(또는 원본 샘플 이미지)와 변환된 이미지들 사이의 상관들이 지각 품질에 영향을 미치는 것으로 여겨진다.

종래의 방법들과 비교하여, 이미지 처리를 위한 본 개시의 장치로부터의 출력에 기초한 분류는 분류의 정밀도를 증가시키고, 분류 결과의 정확도를 개선시키며, 실제 이미지들과 매우 유사하고 따라서 판별 네트워크에 의해 분류하기 어려운 솔루션들을 생성하는 쪽으로 생성 네트워크의 파라미터들을 트레이닝한다. 이것은 지각적으로 우수한 솔루션들을 장려한다.

본 개시는 또한 이미지 처리를 위한 방법을 제공한다. 도 6은 본 개시의 실시예에 따른 이미지 처리를 위한 방법의 흐름도를 도시한다.

단계 S1은 예를 들어, 트레이닝 이미지의 추출된 휘도 정보에 기초하여 휘도 특징 이미지를 생성함으로써 제1 특징 이미지를 획득하는 것을 포함한다.

단계 S2는 제1 특징 이미지를 정규화하여 제2 특징 이미지를 획득하는 것을 포함한다.

단계 S3은 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 획득하는 것을 포함한다. 각각의 시프트된 이미지는 제2 특징 이미지에서와 동일한 수의 픽셀 행 및 픽셀 열을 갖는다. 각각의 시프트된 이미지에서 0이 아닌 값을 갖는 각각의 픽셀은 제2 특징 이미지에서 동일한 0이 아닌 값을 갖는 대응하는 픽셀을 갖는다. 제2 특징 이미지에서 대응하는 픽셀을 갖지 않는 픽셀들에는 "0"의 값이 할당될 수 있다. 즉, 시프트된 이미지에서 0이 아닌 값을 갖는 각각의 픽셀은 제2 특징 이미지에서 대응하는 픽셀을 갖는다.

단계 S4는 제2 특징 이미지와 복수의 시프트된 이미지 사이의 상관들에 기초하여 복수의 상관 이미지를 생성하는 것을 포함한다. 각각의 상관 이미지는 제2 특징 이미지와 동일한 수의 픽셀 행 및 픽셀 열을 갖는다.

단계 S5는 예를 들어, 생성 적대 네트워크의 판별 네트워크와 같은 신경 네트워크에 복수의 상관 이미지를 송신하는 것을 포함한다.

본 개시에 따른 방법은 신경 네트워크들을 트레이닝하도록 구성될 수 있다. 일부 실시예들에서, 본 개시에 따른 방법은 생성 적대 네트워크(GAN)를 트레이닝하도록 구성된다. GAN은 생성 네트워크 및 판별 네트워크를 포함할 수 있다. GAN을 트레이닝하는 종래의 방법들은 생성 네트워크로부터의 출력 이미지 또는 원본 샘플 이미지를 분류를 위해 판별 네트워크에 직접 공급한다. 그 결과, 분류 목적을 위해, 판별 네트워크는 출력 이미지 또는 원본 샘플 이미지 내에 있는 정보에 의존하는 것으로 제한된다.

종래의 기술들과 비교하여, 본 개시의 방법은 생성 네트워크로부터의 출력 이미지 또는 고해상도 원본 이미지를 판별 네트워크에 직접 송신하지 않는다. 오히려, 이미지들은 분류를 위해 판별 네트워크에 공급되기 전에, 특징 추출 유닛 및 시프트 상관 유닛을 포함하는 전술한 장치에 의해 처리된다. 시프트 상관 유닛은 복수의 변환된 이미지를 생성한다. 예를 들어, 시프트 상관 유닛은 출력 이미지 및 원본 샘플 이미지에 고유한 정보뿐만 아니라, 그러한 이미지들과 변환된 이미지들 사이의 상관들에 관한 정보를 포함하는 복수의 상관 이미지를 생성하도록 구성된다. 이러한 추가적인 정보는 판별 네트워크가 2개의 상관 세트, 즉 생성 네트워크로부터의 출력 이미지와 변환된 이미지들 사이의 상관 세트와, 원본 샘플 이미지와 변환된 이미지들 사이의 다른 상관 세트 사이의 유사도에 기초하여 분류를 행하는 것을 허용한다. 또한, NIQE(Naturalness Image Quality Evaluator) 무-참조 이미지(no-reference image) 품질 스코어로부터, 출력 이미지(또는 원본 샘플 이미지)와 변환된 이미지들 사이의 상관들이 지각 품질에 영향을 미치는 것으로 여겨진다.

본 개시의 장치로부터의 출력에 기초한 분류는 분류의 정밀도를 증가시키고, 분류 결과의 정확도를 개선시키며, 실제 이미지들과 매우 유사하고 따라서 판별 네트워크에 의해 분류하기 어려운 솔루션들을 생성하는 쪽으로 생성 네트워크의 파라미터들을 트레이닝한다. 이것은 지각적으로 우수한 솔루션들을 장려한다.

도 7은 본 개시의 다른 실시예에 따른 이미지 처리를 위한 방법의 흐름도를 나타낸다.

단계 S1은 제1 특징 이미지를 획득하는 것을 포함한다. 제1 특징 이미지는 트레이닝 이미지의 휘도 정보를 추출함으로써 획득된 휘도 특징 이미지일 수 있다.

따라서, 제1 특징 이미지의 획득은 단계 S11을 포함할 수 있으며, 이 단계는 트레이닝 이미지에서의 휘도 정보에 기초하여 휘도 특징 이미지를 획득하는 것을 포함한다.

휘도 특징 이미지는 트레이닝 이미지에서와 동일한 수의 픽셀 행 및 픽셀 열을 갖는다. 휘도 특징 이미지의 제i 행 및 제j 열 (i, j)에서의 픽셀의 휘도 값 I가 이하의 수학식 (1)에 따라 계산될 수 있다:

I = 0.299R + 0.587G + 0.114B (1)

단계 S12에서, 휘도 특징 이미지가 정규화되어 제2 특징 이미지를 획득한다. 정규화는 이미지의 픽셀 값들을 더 작은 범위의 값들 내에 가져오며, 이는 너무 높거나 너무 낮은 이상치(outlier) 픽셀 값들을 제거할 수 있다. 이것은 결국 상관들의 계산들을 용이하게 할 수 있다.

더 구체적으로, 단계 S12에서, 정규화는 다음의 수학식 (2)에 따라 수행된다:

(2)

수학식 (2)에서, N은 제2 특징 이미지를 나타낸다. I는 트레이닝 이미지로부터 획득된 휘도 특징 이미지에서의 주어진 위치에서의 픽셀의 휘도 값을 나타낸다. Blur는 가우시안 블러를 나타낸다. Blur(I)는 휘도 특징 이미지 상에 구현되는 가우시안 블러 필터를 나타낸다. Blur(I²)는 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 이어서 이미지에 대해 가우시안 블러 필터를 구현함으로써 획득된 이미지를 나타낸다. μ는 가우시안 블러 필터를 사용하여 획득된 출력 이미지를 나타낸다. σ²는 로컬 분산 이미지를 제시한다.

단계 S2는 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 획득하는 것을 포함한다. 각각의 시프트된 이미지는 제2 특징 이미지에서와 동일한 수의 픽셀 행 및 픽셀 열을 갖는다.

본 개시의 일부 실시예들에서, 복수의 병진 시프트를 수행하는 것은, 중간 이미지를 획득하기 위해 제2 특징 이미지에서의 마지막 a개의 픽셀 열을 나머지 픽셀 열들의 앞으로 시프트하고, 그 후 시프트된 이미지를 획득하기 위해 중간 이미지에서의 마지막 b개의 픽셀 행을 나머지 픽셀 행들의 앞으로 시프트하는 것을 포함한다.

본 개시의 다른 실시예들에서, 복수의 병진 시프트를 수행하는 것은, 중간 이미지를 획득하기 위해 제2 특징 이미지에서의 마지막 b개의 픽셀 행을 나머지 픽셀 행들의 앞으로 시프트하고, 그 후 시프트된 이미지를 획득하기 위해 중간 이미지에서의 마지막 a개의 픽셀 행을 나머지 픽셀 행들의 앞으로 시프트하는 것을 포함한다.

a의 값은 0 ≤ a＜Y이다. b의 값은 0 ≤ b＜X이다. a와 b 둘 다는 정수들이다. X는 제2 특징 이미지에서의 픽셀 행들의 총 수를 나타낸다. Y는 제2 특징 이미지에서의 픽셀 열들의 총 수를 나타낸다. 일부 실시예들에서, 임의의 주어진 2개의 이미지 시프팅 프로세스에서, a 및 b 중 적어도 하나의 값은 변한다.

각각의 시프트된 이미지에서 0이 아닌 값을 갖는 각각의 픽셀은 제2 특징 이미지에서 동일한 0이 아닌 값을 갖는 대응하는 픽셀을 갖는다. 제2 특징 이미지에서 대응하는 픽셀을 갖지 않는 픽셀들에는 "0"의 값이 할당될 수 있다. 즉, 시프트된 이미지에서 0이 아닌 값을 갖는 각각의 픽셀은 제2 특징 이미지에서 대응하는 픽셀을 갖는다.

단계 S3은 제2 특징 이미지와 복수의 시프트된 이미지 사이의 상관들에 기초하여 복수의 상관 이미지를 생성하는 것을 포함한다. 각각의 상관 이미지는 제2 특징 이미지와 동일한 수의 픽셀 행 및 픽셀 열을 갖는다.

복수의 상관 이미지를 생성하는 것은 제2 특징 이미지에서의 각각의 픽셀의 값과, 시프트된 이미지에서의 위치적으로 대응하는 픽셀의 값을 곱하는 것을 포함한다. 즉, 상관 이미지에서의 (i, j) 위치에서의 픽셀의 값을 생성하기 위해, 제2 특징 이미지에서의 픽셀(i, j)의 값에 시프트된 이미지에서의 픽셀(i, j)의 값이 곱해진다. i의 값은 1 ≤ i ≤ X이다. j의 값은 1 ≤ j ≤ Y이다. i와 j 둘 다는 정수들이다. X는 제2 특징 이미지에서의 픽셀 행들의 총 수를 나타낸다. Y는 제2 특징 이미지에서의 픽셀 열들의 총 수를 나타낸다.

단계 S4는 복수의 상관 이미지를 신경 네트워크, 예를 들어, 생성 적대 네트워크의 판별 네트워크에 송신하는 것을 포함한다.

본 개시에 따른 이미지 처리를 위한 방법은 범용 컴퓨터, 마이크로프로세서, 디지털 전자 회로, 집적 회로, 특수 설계된 ASIC(application specific integrated circuit)들, 컴퓨터 하드웨어, 펌웨어, 소프트웨어, 및/또는 이들의 조합 상의 형태로 컴퓨팅 디바이스 상에 구현될 수 있다. 이러한 다양한 구현들은 저장 시스템, 적어도 하나의 입력 디바이스 및 적어도 하나의 출력 디바이스로부터 데이터 및 명령어들을 수신하고 데이터 및 명령어들을 그들로 송신하도록 결합되는, 특수 목적 또는 범용일 수 있는 적어도 하나의 프로그램가능 프로세서를 포함하는 프로그램가능 시스템 상에서 실행가능 및/또는 해석가능한 하나 이상의 컴퓨터 프로그램에서의 구현을 포함할 수 있다.

도 8은 신경 네트워크를 트레이닝하기 위한 본 개시의 실시예에 따른 시스템의 블록도를 도시한다.

도 8에 도시된 바와 같이, 전술한 장치(100)는 입력 단자 In을 통해 판별 네트워크(200)에 결합될 수 있다. 판별 네트워크(200)의 구조 및 구성은 특별히 제한되지 않는다. 판별 네트워크(200)는 판별 네트워크가 그것이 입력으로서 수신하는 이미지와 입력 이미지와 동일한 해상도를 갖는 미리 결정된 참조 이미지 사이의 일치도를 분류할 수 있는 한, 본 기술분야의 통상의 기술자에게 공지된 임의의 적절한 방식으로 구축 및 구성될 수 있거나, 전술한 바와 같이 구축 및 구성될 수 있다.

본 개시의 실시예들은 생성 네트워크로부터의 출력 이미지 및/또는 고해상도 원본 이미지를 판별 네트워크에 직접 송신하지 않는다. 오히려, 이미지들은 분류를 위해 판별 네트워크에 공급되기 전에, 예를 들어, 특징 추출 유닛 및 시프트 상관 유닛을 포함하는 전술한 장치에 의해 처리된다. 시프트 상관 유닛은 생성 네트워크로부터의 출력 이미지 및/또는 고해상도 원본 이미지를 처리하여 복수의 변환된 이미지를 생성하도록 구성된다. 예를 들어, 시프트 상관 유닛은 출력 이미지 및 원본 샘플 이미지에 고유한 정보뿐만 아니라, 그러한 이미지들과 변환된 이미지들 사이의 상관들에 관한 정보를 포함하는 복수의 상관 이미지를 생성하도록 구성된다. 이러한 추가적인 정보는 판별 네트워크가 2개의 상관 세트, 즉 생성으로부터의 출력 이미지와 변환된 이미지들 사이의 상관 세트와, 원본 샘플 이미지와 변환된 이미지들 사이의 다른 상관 세트 사이의 유사도에 기초하여 분류를 행하는 것을 허용한다. 또한, NIQE(Naturalness Image Quality Evaluator) 무-참조 이미지(no-reference image) 품질 스코어로부터, 출력 이미지(또는 원본 샘플 이미지)와 변환된 이미지들 사이의 상관들이 지각 품질에 영향을 미치는 것으로 여겨진다.

본 개시에 따른 장치로부터의 출력에 기초한 분류는 분류의 정밀도를 증가시키고, 분류 결과의 정확도를 개선시키며, 실제 이미지들과 매우 유사하고 따라서 판별 네트워크에 의해 분류하기 어려운 솔루션들을 생성하는 쪽으로 생성 네트워크의 파라미터들을 트레이닝한다. 이것은 지각적으로 우수한 솔루션들을 장려한다.

일부 실시예들에서, 본 개시에 따른 장치는 예를 들어, 도 8에 도시된 바와 같이, 생성 적대 네트워크를 트레이닝하도록 구성될 수 있다. 도 8은 하나의 입력 단자 In을 통해 판별 네트워크(200)에 결합되는 하나의 장치(100)를 포함하는, 본 개시의 실시예에 따른 생성 적대 네트워크를 트레이닝하기 위한 시스템을 도시한다. 그러나, 본 개시는 도 8에 도시된 실시예에 제한되지 않는다. 판별 네트워크는, 예를 들어, 생성 네트워크가 상이한 해상도를 갖는 복수의 이미지를 생성하는 실시예들에서, 장치(100)에 각각 결합된 복수의 입력 단자 In을 포함할 수 있다. 생성 네트워크로부터의 각각의 이미지는 이미지 처리를 위해 복수의 장치(100) 중 하나에 송신된다. 각각의 장치(100)는 수신된 이미지에 기초하여 복수의 상관 이미지를 생성하고, 복수의 상관 이미지를 판별 네트워크(200)에 송신한다. 하나의 장치(100)로부터의 복수의 상관 이미지는 특정 채널에 대해 분류될 이미지의 특징 이미지를 나타낼 수 있다. 판별 네트워크(200)는 복수의 입력 단자를 통해 복수의 장치(100)로부터 상관 이미지들을 수신하고, 가장 높은 해상도를 갖는 생성 네트워크로부터의 이미지를 분류될 이미지로서 설정하도록 구성되고, 그 후 판별 네트워크(200)는 분류될 이미지와, 동일한 해상도를 갖는 미리 결정된 참조 이미지 사이의 일치도를 스코어링하도록 구성된다.

도 8의 블록도는 판별 네트워크가 도 8에 도시된 컴포넌트들만을 포함한다는 것을 나타내고자 하는 것은 아니다. 본 개시에 따른 판별 네트워크는 특정 구현의 세부사항들에 따라, 본 기술분야의 통상의 기술자에게 공지되지만 도 8에는 도시되지 않는 임의의 수의 추가적인 액세서리들 및/또는 컴포넌트들을 포함할 수 있다.

본 개시는 또한 위에 설명된 바와 같이, 생성 적대 네트워크를 트레이닝하기 위해 이미지를 전처리하는 방법을 수행하기 위한 명령어들을 저장하는 컴퓨터 판독가능 매체를 제공한다.

본 명세서에서 사용된 바와 같이, “컴퓨터 판독가능 매체”라는 용어는 머신 명령어들을 머신-판독가능 신호로서 수신하는 머신 판독가능 매체를 포함하는 프로그램가능 프로세서로 머신 명령어들 및/또는 데이터를 제공하기 위해 사용되는 임의의 컴퓨터 프로그램 제품, 장치, 및/또는 디바이스(예를 들어, 자기 디스크들, 광 디스크들, 메모리, 프로그램가능 로직 디바이스(PLD)들)를 지칭한다. "머신 판독가능 신호"이라는 용어는 프로그램가능 프로세서에 머신 명령어들 및/또는 데이터를 제공하기 위해 사용되는 임의의 신호를 지칭한다. 본 개시에 따른 컴퓨터 판독가능 매체는 RAM(random access memory), ROM(read-only memory), NVRAM(non-volatile random access memory), PROM(programmable read-only memory), EPROM(erasable programmable read-only memory), EEPROM(electrically erasable PROM), 플래시 메모리, 자기 또는 광학 데이터 스토리지, 레지스터들, CD(compact disk) 또는 DVD(digital versatile disc) 광학 저장 매체와 같은 디스크 또는 테이프 및 다른 비일시적 매체를 포함하지만, 이들로 제한되지 않는다.

본 명세서의 설명에서, 용어 "일부 실시예", "일부 실시예들", 및 "예시적인 실시예들", "예", 및 "특정 예", 또는 "일부 예들" 등에 대해 이루어진 언급들은 본 개시의 적어도 하나의 실시예 또는 예에 포함되는 실시예 또는 예와 관련하여 설명되는 특정 특징들 및 구조들, 재료들 또는 특성들을 언급하기 위해 의도된다. 용어들의 개략적 표현은 반드시 동일한 실시예 또는 예를 언급하는 것은 아니다. 또한, 설명되는 특정 특징들, 구조들, 재료들 또는 특성들은 임의의 하나 이상의 실시예 또는 예에서 임의의 적합한 방식으로 포함될 수 있다. 또한, 본 기술분야의 통상의 기술자에 대하여, 본 개시는 본 개시의 범위에 관련되고, 기술적 방식은 기술적 특징들의 특정 조합으로 제한되지 않고, 또한 본 발명의 개념으로부터 벗어나지 않고 기술적 특징들 또는 기술적 특징들의 등가 특징들을 조합함으로써 형성되는 다른 기술적 방식들을 포괄해야 한다. 더욱이, "제1" 및 "제2"이라는 용어들은 단지 예시 목적들을 위한 것이고, 상대적인 중요성을 나타내거나 암시하는 것으로 또는 표시된 기술적 특징들의 수량에 대한 암시된 참조로 해석되지 않아야 한다. 따라서, 용어들 "제1" 및 "제2"에 의해 정의되는 특징들은 명시적으로 또는 암시적으로 하나 이상의 특징을 포함할 수 있다. 본 개시의 설명에서, 달리 구체적으로 및 구체적으로 정의되지 않는 한 "복수"의 의미는 2개 이상이다.

본 개시의 원리 및 실시예는 명세서에서 제시된다. 본 개시의 실시예들의 설명은 본 개시의 방법 및 그것의 핵심 아이디어를 이해하는 데 도움을 주기 위해서만 사용된다. 한편, 본 기술분야의 통상의 기술자라면, 본 개시는 본 개시의 범위에 관련되고, 기술적 방식은 기술적 특징들의 특정 조합에 제한되지 않고, 또한 본 발명의 개념으로부터 벗어나지 않고 기술적 특징들 또는 기술적 특징들의 등가 특징들을 조합함으로써 형성되는 다른 기술적 방식들을 포괄해야 한다. 예를 들어, 본 개시에 개시된 바와 같이 (그러나 이에 제한되지 않음) 전술한 특징들을 유사한 특징들로 대체함으로써 기술적 방식이 획득될 수 있다.

Claims

복수의 상관 이미지를 생성하기 위한 장치로서,
트레이닝 이미지를 수신하고 상기 트레이닝 이미지로부터 적어도 하나 이상의 특징을 추출하여 상기 트레이닝 이미지에 기초하여 제1 특징 이미지를 생성하도록 구성된 특징 추출 유닛;
상기 제1 특징 이미지를 정규화하고 제2 특징 이미지를 생성하도록 구성된 정규화기; 및
상기 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하고, 상기 복수의 시프트된 이미지 각각을 상기 제2 특징 이미지와 상관시켜 상기 복수의 상관 이미지를 생성하도록 구성된 시프트 상관 유닛을 포함하는 장치.
제1항에 있어서,
상기 시프트 상관 유닛은, 상기 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 상기 픽셀 블록의 최우측 및 최좌측 열이 되도록 각각 시프트하고; 상기 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 상기 픽셀 블록의 최상단 또는 최하단 행이 되도록 각각 시프트함으로써 상기 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하도록 구성되고,
0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고,
a 및 b는 동일하거나 상이할 수 있는 장치.
제1항 또는 제2항에 있어서,
상기 시프트 상관 유닛은, 상기 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 상기 픽셀 블록의 최우측 및 최좌측 열이 되도록 각각 시프트하고; 상기 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 상기 픽셀 블록의 최상단 또는 최하단 행이 되도록 각각 시프트함으로써 상기 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하도록 구성되고,
0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고,
a 및 b는 동일하거나 상이할 수 있는 장치.
제1항 내지 제3항 중 어느 한 항에 있어서,
상기 시프트 상관 유닛은 상기 복수의 시프트된 이미지 각각의 픽셀 블록에서의 각각의 픽셀의 픽셀 값을 상기 제2 특징 이미지의 픽셀 블록에서의 위치적으로 대응하는 픽셀의 픽셀 값과 곱함으로써 상기 복수의 시프트된 이미지 각각을 상기 제2 특징 이미지와 상관시키도록 구성되는 장치.
제1항 내지 제4항 중 어느 한 항에 있어서,
상기 제1 특징 이미지는 휘도 특징 이미지이고,
상기 특징 추출 유닛은:
상기 트레이닝 이미지로부터 휘도 정보를 추출하여 상기 휘도 특징 이미지를 생성하도록 구성된 휘도 검출기를 포함하는 장치.
제5항에 있어서,
상기 휘도 특징 이미지를 생성하기 위해, 상기 휘도 검출기는 다음의 수학식 (1)에 따라 상기 휘도 특징 이미지에서의 주어진 위치에서 픽셀의 휘도 값을 결정하도록 구성되고:
I = 0.299R + 0.587G + 0.114B (1)
여기서:
I는 상기 휘도 값이고,
R은 상기 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 적색 컴포넌트 값이고,
G는 상기 트레이닝 이미지에서의 상기 위치적으로 대응하는 픽셀의 녹색 컴포넌트값이고,
B는 상기 트레이닝 이미지에서의 상기 위치적으로 대응하는 픽셀의 청색 컴포넌트 값인 장치.
제5항 또는 제6항에 있어서,
상기 정규화기는 다음의 수학식 (2)에 따라 상기 휘도 특징 이미지를 정규화하도록 구성되고:

여기서:
N은 상기 제1 특징 이미지이고,
I는 상기 휘도 특징 이미지에서의 주어진 위치에서의 픽셀의 상기 휘도 값을 나타내고,
Blur(I)는 상기 휘도 특징 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이고,
Blur(I²)는 상기 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 그 후 상기 이미지에 상기 가우시안 필터를 적용함으로써 획득된 이미지인 장치.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 제2 특징 이미지는 제1 크기를 갖는 픽셀 블록을 포함하고,
상기 복수의 시프트된 이미지 각각과 상기 복수의 상관 이미지 각각은 상기 제1 크기를 갖는 픽셀 블록을 포함하고,
상기 복수의 시프트된 이미지 각각에서, 0이 아닌 픽셀 값을 갖는 픽셀은 상기 제2 특징 이미지에서의 동일한 0이 아닌 픽셀 값을 갖는 대응하는 픽셀을 갖는 장치.
복수의 상관 이미지를 생성하는 방법으로서,
트레이닝 이미지에 기초하여 제1 특징 이미지를 생성하는 단계;
상기 제1 특징 이미지를 정규화하고 제2 특징 이미지를 생성하는 단계;
상기 제2 특징 이미지에 대해 복수의 병진 시프트를 수행하여 복수의 시프트된 이미지를 생성하는 단계; 및
상기 복수의 시프트된 이미지 각각을 상기 제2 특징 이미지와 상관시켜 복수의 상관 이미지를 생성하는 단계를 포함하는 방법.
제9항에 있어서,
상기 복수의 시프트된 이미지 각각을 상기 제2 특징 이미지와 상관시키는 것은 상기 복수의 시프트된 이미지 각각의 픽셀 블록에서의 각각의 픽셀의 픽셀 값을 상기 제2 특징 이미지의 픽셀 블록에서의 위치적으로 대응하는 픽셀의 픽셀 값과 곱하는 것을 포함하는 방법.
제9항 또는 제10항에 있어서,
상기 복수의 병진 시프트의 수행은:
상기 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 상기 픽셀 블록의 최우측 및 최좌측 열이 되도록 각각 시프트하고;
상기 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 상기 픽셀 블록의 최상단 또는 최하단 행이 되도록 각각 시프트하는 것을 포함하고,
0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고,
a 및 b는 동일하거나 상이할 수 있는 방법.
제11항에 있어서,
a 및 b 중 적어도 하나는 상기 복수의 병진 시프트의 수행 동안에 적어도 한번 변하는 방법.
제9항 또는 제10항에 있어서,
상기 복수의 병진 시프트의 수행은:
상기 제2 특징 이미지의 픽셀 블록에서의 a 수의 최좌측 또는 최우측 픽셀 열을 삭제하고, 상기 픽셀 블록의 최우측 또는 최좌측 위치에 a 수의 픽셀 열을 각각 더하는 것; 및
상기 제2 특징 이미지의 픽셀 블록에서의 b 수의 최하단 또는 최상단 픽셀 행을 삭제하고, 상기 픽셀 블록의 최상단 또는 최하단 위치에 b 수의 행을 각각 추가하는 것을 포함하고,
0 ≤ a＜Y이고, 0 ≤ b＜X이며, a 및 b 각각은 정수이고, Y는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수이고,
상기 추가된 픽셀들 각각은 0의 픽셀 값을 갖는 방법.
제13항에 있어서,
a 및 b 중 적어도 하나는 상기 복수의 병진 시프트의 수행 동안에 적어도 한번 변하는 방법.
제9항 내지 제14항 중 어느 한 항에 있어서,
X*Y 병진 시프트를 수행하는 단계를 추가로 포함하고, Y는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 열들의 총 수이고, X는 상기 제2 특징 이미지의 픽셀 블록에서의 픽셀 행들의 총 수인 방법.
제9항 내지 제15항 중 어느 한 항에 있어서,
상기 제1 특징 이미지의 생성 전에, 상기 트레이닝 이미지를 수신하는 단계를 추가로 포함하고,
상기 제1 특징 이미지를 생성하는 것은 상기 트레이닝 이미지의 휘도 정보에 기초하여 휘도 특징 이미지를 생성하는 것을 포함하는 방법.
제16항에 있어서,
다음의 수학식 (1)에 따라 상기 휘도 특징 이미지에서의 주어진 위치에서의 픽셀의 휘도 값을 결정하는 단계를 추가로 포함하고:
I = 0.299R + 0.587G + 0.114B (1)
여기서:
I는 상기 휘도 값이고,
R은 상기 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 적색 컴포넌트 값이고,
G는 상기 트레이닝 이미지에서의 상기 위치적으로 대응하는 픽셀의 녹색 컴포넌트값이고,
B는 상기 트레이닝 이미지에서의 위치적으로 대응하는 픽셀의 청색 컴포넌트 값인 방법.
제16항 또는 제17항에 있어서,
다음의 수학식 (2)에 따라 상기 휘도 특징 이미지를 정규화하는 단계를 추가로 포함하고:

(2)
여기서:
N은 상기 제1 특징 이미지이고,
I는 상기 휘도 특징 이미지를 나타내고,
Blur(I)는 상기 휘도 특징 이미지에 가우시안 필터를 적용함으로써 획득된 이미지이고,
Blur(I²)는 상기 휘도 특징 이미지에서의 모든 픽셀 값을 제곱하고, 그 후 상기 이미지에 상기 가우시안 필터를 적용함으로써 획득된 이미지인 방법.
제9항 내지 제18항 중 어느 한 항에 있어서,
상기 제1 특징 이미지는 제1 크기를 갖는 픽셀 블록을 포함하고,
상기 복수의 시프트된 이미지 각각과 상기 복수의 상관 이미지 각각은 상기 제1 크기를 갖는 픽셀 블록을 포함하고,
상기 복수의 시프트된 이미지 각각에서, 0이 아닌 픽셀 값을 갖는 픽셀은 상기 제1 특징 이미지에서의 동일한 0이 아닌 픽셀 값을 갖는 대응하는 픽셀을 갖는 방법.
비일시적 컴퓨터 판독가능 매체로서, 컴퓨터로 하여금 제9항 내지 제19항 중 어느 한 항에 따른 방법을 실행하게 하는 명령어들을 저장하는 비일시적 컴퓨터 판독가능 매체.
생성 적대 네트워크(generative adversarial network)를 트레이닝하기 위한 시스템으로서,
판별 네트워크 마이크로프로세서에 의해 트레이닝되도록 구성된 생성 네트워크 마이크로프로세서, 및 생성 네트워크에 결합된 상기 판별 네트워크 마이크로프로세서를 포함하는 생성 적대 네트워크 프로세서를 포함하고,
상기 판별 네트워크 마이크로프로세서는:
제1항 내지 제8항 중 어느 한 항에 따른 복수의 장치에 결합된 복수의 입력 단자;
복수의 분석 모듈- 상기 복수의 분석 모듈 각각은 상기 복수의 입력 단자 중 하나에 결합됨 -;
캐스케이드로 연결된 복수의 풀링 모듈- 캐스케이드의 각각의 스테이지는 상기 복수의 분석 모듈 중 하나 및 상기 캐스케이드의 이전 스테이지에서의 풀링 모듈에 결합된 풀링 모듈을 포함함 -; 및
상기 캐스케이드의 마지막 스테이지에서의 풀링 모듈에 결합된 판별기 네트워크를 포함하는 시스템.