KR20210107084A

KR20210107084A - 이미지 처리 방법 및 장치, 컴퓨터 디바이스, 및 저장 매체

Info

Publication number: KR20210107084A
Application number: KR1020217023365A
Authority: KR
Inventors: 카이하오 장; 원한 뤄; 훙둥 리
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2019-03-07
Filing date: 2020-03-04
Publication date: 2021-08-31
Also published as: CN109919874B; JP7112595B2; EP3937123A4; CN109919874A; US20210256663A1; WO2020177701A1; EP3937123A1; KR102509817B1; US11900567B2; JP2022522564A

Abstract

이미지 처리 방법. 본 방법은: 초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 단계; 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 단계; 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 단계; 및 이미지 처리 명령을 수신하는 것에 응답하여 제3 네트워크에 따라 원본 이미지에 대한 이미지 처리를 수행하여, 복수의 타겟 이미지를 획득하는 단계를 포함한다.

Description

이미지 처리 방법 및 장치, 컴퓨터 디바이스, 및 저장 매체

본 출원은 2019년 3월 7일자로 중국 특허청에 출원된 발명의 명칭이 "IMAGE PROCESSING METHOD AND APPARATUS, COMPUTER DEVICE, AND STORAGE MEDIUM"인 중국 특허 출원 제201910171831.8호에 대한 우선권을 주장하며, 이 출원은 그 전체가 본 명세서에 참고로 포함된다.

본 출원은 이미지 처리 분야에 관한 것으로, 특히, 이미지 처리 방법 및 장치, 컴퓨터 디바이스, 및 저장 매체에 관한 것이다.

이동 단말기들의 인기에 따라, 이동 단말기 사용하여 이미지를 촬영하는 프로세스에서, 샷 이미지(shot image)는 디바이스의 지터 또는 샷 물체의 모션으로 인해 쉽게 블러링된다. 블러링된 이미지들을 복원하기 위해, 최근에는, 블러링된 이미지들이 일반적으로 컨볼루션 신경망을 사용하여 처리된다.

현재, 블러링된 이미지는 적어도 하나의 컨볼루션 신경망에 동시에 입력될 수 있고, 적어도 하나의 컨볼루션 신경망은 병렬로 배열되고, 각각의 컨볼루션 신경망은 선명한 이미지를 출력하여, 적어도 하나의 선명한 이미지가 획득될 수 있다. 블러링된 이미지는 선명도가 미리 설정된 값보다 작은 임의의 이미지이다.

전술한 병렬 컨볼루션 신경망 아키텍처에서, 병렬로 배열된 컨볼루션 신경망들 사이의 상호작용의 결여로 인해, 전술한 네트워크 아키텍처에서의 컨볼루션 신경망들의 정보 교환 능력은 약하고, 더 많은 수량의 선명한 픽처들이 요구될 때, 더 많은 수량의 컨볼루션 신경망들이 트레이닝될 필요가 있다. 컨볼루션 신경망의 수량이 증가하기 때문에, 하나의 이미지 처리 프로세스에서의 계산량도 역시 증가한다.

본 출원에서 제공되는 다양한 실시예들에 따르면, 이미지 처리 방법 및 장치, 컴퓨터 디바이스, 및 저장 매체가 제공된다.

컴퓨터 디바이스에 의해 수행되는, 이미지 처리 방법이 제공되고, 이 방법은:

초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 단계- 제1 네트워크는 제1 샘플 이미지에 기초하여, 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용됨 -;

제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 단계- 제2 네트워크는 제2 샘플 이미지에 기초하여, 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용됨 -;

제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 단계- 제3 네트워크는 제3 샘플 이미지에 기초하여, 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용됨 -; 및

이미지 처리 명령을 수신하는 것에 응답하여 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하는 단계를 포함한다.

초기 네트워크를 트레이닝하여 제1 네트워크를 획득하도록 구성된 트레이닝 모듈- 제1 네트워크는 제1 샘플 이미지에 기초하여, 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용되고,

상기 트레이닝 모듈은 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하도록 추가로 구성되고, 제2 네트워크는 제2 샘플 이미지에 기초하여, 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용되고,

상기 트레이닝 모듈은 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하도록 추가로 구성되고, 제3 네트워크는 제3 샘플 이미지에 기초하여, 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용됨 -; 및

이미지 처리 명령을 수신하는 것에 응답하여 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하도록 구성된 처리 모듈을 포함하는 이미지 처리 장치가 제공된다.

컴퓨터 판독가능 명령어들을 저장하는 비휘발성 저장 매체가 제공되고, 컴퓨터 판독가능 명령어들은 하나 이상의 프로세서에 의해 실행될 때, 하나 이상의 프로세서로 하여금 이미지 처리 방법의 단계들을 수행하게 한다.

메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공되고, 메모리는 컴퓨터 판독가능 명령어들을 저장하고, 컴퓨터 판독가능 명령어들은, 프로세서에 의해 실행될 때, 프로세서로 하여금 이미지 처리 방법의 단계들을 수행하게 한다.

본 출원의 하나 이상의 실시예의 세부사항들은 첨부 도면들과 아래의 설명에서 제공된다. 본 출원의 다른 특징들, 목적들, 및 이점들은 명세서, 첨부 도면들, 및 청구항들로부터 명백해질 것이다.

본 출원의 실시예들의 기술적 해결책들을 더 명확하게 설명하기 위해, 다음은 실시예들을 설명하는 데 필요한 첨부 도면들을 간략하게 소개한다. 명백하게, 후속하는 기재에서의 첨부 도면들은 이 출원의 일부 실시예들만을 도시하지만, 본 기술분야의 통상의 기술자는 창의적 노력 없이도 이러한 첨부 도면들로부터 다른 도면들을 여전히 도출할 수 있다.
도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 구현 환경의 개략도이다.
도 2는 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이다.
도 3은 본 출원의 실시예에 따른 이미지 처리 방법의 개략도이다.
도 4는 본 출원의 실시예에 따른 초기 네트워크를 트레이닝하는 흐름도이다.
도 5는 본 출원의 실시예에 따른 초기 네트워크를 트레이닝하는 개략도이다.
도 6은 본 출원의 실시예에 따른 제1 네트워크를 트레이닝하는 흐름도이다.
도 7은 본 출원의 실시예에 따른 제1 네트워크를 트레이닝하는 개략도이다.
도 8은 본 출원의 실시예에 따른 제2 네트워크를 트레이닝하는 흐름도이다.
도 9는 본 출원의 실시예에 따른 제2 네트워크를 트레이닝하는 개략도이다.
도 10은 본 출원의 실시예에 따른 이미지 처리 장치의 개략적인 구조도이다.
도 11은 본 출원의 실시예에 따른 컴퓨터 디바이스의 개략적인 구조도이다.

본 출원의 목적들, 기술적 해결책들 및 장점들을 보다 명확하게 하기 위해, 아래에서는 첨부 도면들 및 실시예들을 참조하여 본 출원을 상세하게 추가 설명한다. 본 명세서에 설명된 특정한 실시예들은 단지 본 출원을 설명하기 위해 사용되고 본 출원을 제한하려는 것이 아니라는 것을 이해하여야 한다.

도 1은 본 출원의 실시예에 따른 이미지 처리 방법의 구현 환경의 개략도이다. 도 1을 참조하면, 구현 환경은 적어도 하나의 단말기(101)와 서버(102)를 포함할 수 있다.

단말기(101)는 이미지 처리 서비스를 제공할 수 있는 임의의 전자 디바이스일 수 있고, 따라서 초기 네트워크는 단말기(101) 상에서 트레이닝될 수 있다. 단말기(101)가 이미지 처리 명령의 트리거 동작을 검출할 때, 단말기(101)는 트레이닝된 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하도록 트리거될 수 있다. 복수의 타겟 이미지는 원본 이미지에 기초하여 재구성되고 원본 이미지보다 큰 선명도를 갖는 다중-프레임 동적 이미지들이다. 예를 들어, 단말기(101)는 디지털 카메라일 수 있다. 사용자가 미리 설정된 값보다 작은 선명도를 갖는 블러링된 이미지를 촬영할 때, 복수의 타겟 이미지를 획득하기 위해 이미지 처리 명령이 트리거될 수 있다.

일부 실시예들에서, 초기 네트워크는 서버(102) 상에서 트레이닝될 수 있다. 이미지 처리 명령의 트리거 동작을 검출할 때, 단말기(101)는 원본 이미지를 운반하는 이미지 처리 명령을 서버(102)에 전송하고, 서버(102)는 이미지 처리 명령에 따라 원본 이미지를 처리하고, 복수의 타겟 이미지를 생성하여, 복수의 타겟 이미지를 단말기(101)에 전송한다.

서버(102)는 이미지 처리 서비스를 제공할 수 있는 컴퓨터 디바이스일 수 있다. 서버는 적어도 하나의 트레이닝 세트 내의 적어도 하나의 샘플 이미지를 사용하여 생성 네트워크를 트레이닝하여, 트레이닝된 네트워크에 따라 이미지 처리를 수행할 수 있다. 물론, 서버(102)는 더 많은 샘플 이미지들을 획득하기 위해, 이미지 처리 명령이 수신될 때마다 이미지 처리 명령에 운반되는 원본 이미지를 트레이닝 데이터베이스의 임의의 트레이닝 세트에 저장하기 위한 트레이닝 데이터베이스를 저장할 수 있다.

전술한 구현 환경에 기초하여, 본 출원의 실시예들에서의 이미지 처리 방법이 컴퓨터 디바이스에 적용되는 것에 대해 이하에서 설명한다. 컴퓨터 디바이스는 구체적으로 서버일 수 있다. 도 2는 본 출원의 실시예에 따른 이미지 처리 방법의 흐름도이다. 도 2를 참조하면, 이 실시예는 다음을 포함한다:

201. 서버는 초기 네트워크를 트레이닝하여 제1 네트워크를 획득하고, 제1 네트워크는 제1 샘플 이미지에 기초하여, 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용된다.

202. 서버는 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하고, 제2 네트워크는 제2 샘플 이미지에 기초하여, 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용된다.

203. 서버는 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하고, 제3 네트워크는 제3 샘플 이미지에 기초하여, 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용된다.

204. 서버는 이미지 처리 명령을 수신하는 것에 응답하여 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득한다.

본 출원의 이 실시예에서 제공되는 이미지 처리 방법에 따르면, 서버는 초기 네트워크를 트레이닝하여 제1 네트워크를 획득함으로써, 컨볼루션 신경망의 블러링 제거 능력(deblurring capability)을 트레이닝하고; 제1 네트워크를 트레이닝하여, 제2 네트워크를 획득함으로써, 컨볼루션 신경망에 의해, 모션 차이를 갖는 복수의 처리 이미지를 출력하는 능력을 트레이닝하고; 제2 네트워크를 트레이닝하여 제3 네트워크를 획득함으로써, 컨볼루션 신경망에 의해, 샘플 이미지 내의 은닉 정보를 복원하는 능력을 트레이닝하여, 이미지 처리 명령을 수신할 때, 서버가 제3 네트워크에 따라 원본 이미지를 처리하여 복수의 타겟 이미지를 획득할 수 있게 한다. 원본 이미지보다 큰 선명도를 갖고 모션 차이를 가지며 원본 이미지 내의 은닉 정보를 유지하는 복수의 타겟 이미지는 하나의 컨볼루션 신경망만을 사용하여 출력된다. 따라서, 네트워크 내의 컨볼루션 계층들의 정보 교환 능력은 강하다. 병렬 네트워크 아키텍처에 비해 더 많은 수량의 선명한 픽처들이 요구될 때, 각각의 이미지 처리 프로세스에서의 계산량이 감소되어, 이미지 처리 효율을 향상시킨다.

전술한 실시예에 기초하여, 도 3은 본 출원의 실시예에 따른 이미지 처리 방법의 개략도이다. 도 3에 도시된 바와 같이, 초기 네트워크를 트레이닝하여 제3 네트워크를 획득하는 프로세스는 3개의 스테이지로 분할될 수 있다는 것을 알 수 있다. 제1 스테이지에서, 서버는 초기 네트워크를 트레이닝하여 제1 네트워크를 획득한다. 일부 실시예들에서, 제2 스테이지에서, 서버는 제1 네트워크를 트레이닝하여 제2 네트워크를 획득한다. 제3 스테이지에서, 서버는 제2 네트워크를 트레이닝하여 제3 네트워크를 획득한다.

전술한 3개의 트레이닝 스테이지에 기초하여, 제1 스테이지의 트레이닝 프로세스가 아래에 상세히 설명된다. 도 4는 본 출원의 실시예에 따른 초기 네트워크를 트레이닝하는 흐름도이다. 도 4를 참조하면, 이 실시예는 다음을 포함한다:

401. 서버는 적어도 하나의 제1 샘플 이미지를 초기 네트워크에 입력하고, 각각의 제1 샘플 이미지에 대해 복수의 제1 처리 이미지를 출력한다.

적어도 하나의 제1 샘플 이미지는 처리될 블러링된 이미지이다. 블러링된 이미지는 제1 미리 설정된 임계값보다 작은 선명도를 갖는 이미지일 수 있다. 복수의 제1 처리 이미지는 제1 샘플 이미지를 블러링 해제함으로써 획득된 복수의 선명한 이미지이다. 예를 들어, 선명한 이미지는 블러링된 이미지보다 큰 선명도를 갖는 이미지, 또는 블러링된 이미지보다 크고 제2 미리 설정된 임계값보다 큰 선명도를 갖는 이미지일 수 있다. 제2 미리 설정된 임계값은 제1 미리 설정된 임계값보다 더 큰 임의의 값이다. 제1 미리 설정된 임계값 및 제2 미리 설정된 임계값의 값들은 본 출원의 이러한 실시예에서 구체적으로 한정되지 않는다.

도 5는 본 출원의 실시예에 따른 초기 네트워크를 트레이닝하는 개략도이다. 도 5에 도시된 바와 같이, 초기 네트워크의 트레이닝은 2가지 프로세스: 입력 및 출력과 별개로 후술된다.

(1) 단계 401의 입력 프로세스에서, 각각의 제1 샘플 이미지에 대해, 서버는 먼저 제1 샘플 이미지를 디코딩하여, 제1 샘플 이미지 내의 픽셀들의 순열 행렬을 획득하고, 순열 행렬을 초기 네트워크에 입력할 수 있다. 선택적으로, 제1 샘플 이미지는 단일-채널 이미지(1차원 순열 행렬에 대응함), 또는 다중-채널 이미지(다차원 순열 행렬에 대응함)일 수 있다. 제1 샘플 이미지의 채널들의 수량은 본 출원의 이 실시예에서 한정되지 않는다. 예를 들어, 제1 샘플 이미지는 적색 녹색 청색(RGB) 3-채널 이미지일 수 있어서, 픽셀들의 3차원 행렬이 제1 샘플 이미지를 디코딩함으로써 획득될 수 있다.

일부 실시예들에서, 서버는 전처리 프로세스를 사용함으로써 제1 샘플 이미지를 획득할 수 있다. 구체적으로, 서버는 모션 차이(도 5에 도시된 I_sharp)를 갖는 복수의 선명한 이미지를 블러링된 제1 샘플 이미지(도 5에 도시된 I_blurry) 내로 합성하여 복수의 제1 처리 이미지(도 5에 도시된 I_syn)를 획득하는 것을 용이하게 하고, 복수의 선명한 이미지 I_sharp 간의 차이 정보를 이용하여, 제1 손실 함수를 획득하는 것을 용이하게 한다. 복수의 선명한 이미지는 사람의 동적 모션 프로세스에서 연속적으로 촬영된 이미지들, 또는 비디오에서 가로챈 연속적인 비디오 이미지 프레임들일 수 있다. 복수의 선명한 이미지는 로컬로 저장될 수 있거나, 클라우드로부터 온 것일 수 있다. 복수의 선명한 이미지를 획득하는 방법은 본 출원의 이 실시예에서 구체적으로 한정되지 않는다.

선택적으로, 비교적 충분한 트레이닝 데이터가 존재할 때, 서버는 전처리 프로세스를 수행하지 않을 수 있다. 대신에, 데이터베이스는 적어도 하나의 트레이닝 세트를 저장한다. 각각의 트레이닝 세트는 적어도 하나의 제1 샘플 이미지를 포함한다. 서버는 적어도 하나의 제1 샘플 이미지로서 적어도 하나의 트레이닝 세트 내의 모든 제1 샘플 이미지를 획득하여, 데이터베이스 내의 기존의 트레이닝 데이터를 직접 추출하고, 제1 샘플 이미지를 전처리하는 것을 회피함으로써, 초기 네트워크의 트레이닝 효율을 향상시킬 수 있다.

전술한 프로세스에서, 초기 네트워크는 적어도 하나의 은닉 계층을 포함하고, 적어도 하나의 은닉 게층은 서로 직렬로 접속되고, 이전의 은닉 계층의 출력 맵은 현재의 은닉 계층의 입력 맵으로서 사용될 수 있다. 선택적으로, 각각의 은닉 계층은 컨볼루션 계층, 정규화 계층, 및 비선형 계층을 포함한다. 이것은 전술한 적어도 하나의 은닉 계층의 탠덤 접속 상황(tandem connection situation)과 유사하다.

컨볼루션 계층을 컨볼루션을 수행하는데 사용하여 특징 정보를 추출한다. 컨볼루션 계층은 적어도 하나의 컨볼루션 커널을 포함할 수 있다. 각각의 컨볼루션 커널은 각각의 컨볼루션 연산 동안 가중치 행렬을 나타내기 위해 사용된다. 정규화 계층은 이전의 컨볼루션 계층의 출력 맵을 정규화하기 위해 사용된다. 비선형 계층은 이전의 정규화 계층의 출력 맵에 비선형 활성화 함수를 추가하기 위해 사용된다.

전술한 초기 네트워크의 아키텍처에서, 일 예로서, i번째 은닉 계층을 사용하여, (i-1)번째 은닉 계층에서의 비선형 계층의 출력 맵은 i번째 은닉 계층의 컨볼루션 계층에 입력되고, i번째 은닉 계층의 컨볼루션 계층의 출력 맵은 i번째 은닉 계층의 정규화 계층에 입력되고, i번째 은닉 계층의 정규화 계층의 출력 맵은 i번째 은닉 계층의 비선형 계층에 입력되고, i번째 은닉 계층의 비선형 계층의 출력 맵은 (i+1)번째 은닉 계층의 컨볼루션 계층에 입력되는 등등이다. i는 1 이상의 임의의 양의 정수이다. 구체적으로, i번째 은닉 계층은 경로에서의 임의의 은닉 계층일 수 있다. 전술한 입력 맵 및 출력 맵 둘 다는 특징 맵들이다.

일부 실시예들에서, 서버는 초기 네트워크에 의해 출력된 복수의 제1 처리 이미지의 수량을 제어하기 위해, 제1 샘플 이미지의 채널들의 수량에 따라 마지막 은닉 계층의 컨볼루션 계층에서 컨볼루션 커널들의 수량을 설정할 수 있다. 가능한 구현에서, 제1 샘플 이미지의 채널들의 수량이 N일 때, 마지막 은닉 계층의 컨볼루션 계층 내의 컨볼루션 커널들의 수량은 N*K로 설정되어, 복수의 출력된 제1 처리 이미지의 수량은 K로 제어될 수 있다. N과 K는 양의 정수이다. 예를 들어, 제1 샘플 이미지가 3-채널 이미지일 때, 컨볼루션 커널들의 수량은 21로 설정될 수 있어서, 제1 샘플 이미지가 초기 네트워크에 입력된 후에, 7개의 3-채널 제1 처리 이미지가 출력될 수 있다.

(2) 전술한 상황에 기초하여, 단계 401의 출력 프로세스에서, 각각의 제1 샘플 이미지에 대해, 서버는 적어도 하나의 은닉 계층을 순차적으로 입력하고, 복수의 제1 처리 이미지를 출력하여, 복수의 제1 처리 이미지가 단일 초기 네트워크를 사용하여 획득되게 할 수 있고, 그에 의해 복수의 컨볼루션 신경망을 구성하여 복수의 제1 처리 이미지를 획득하는 번거로운 아키텍처를 회피하고, 하나의 이미지 처리 프로세스에서 계산량을 감소시키고, 이미지 처리 로직을 최적화한다.

선택적으로, 은닉 계층들이 서로 접속될 때, 잔여 블록이 대안적으로 도입될 수 있다. 각각의 은닉 계층에 대해, 이전의 은닉 계층의 비선형 계층의 출력 맵은 잔여 블록을 획득하기 위해 현재 은닉 계층의 정규화 계층의 출력 맵과 중첩될 수 있다. 잔여 블록은 현재 은닉 계층의 비선형 계층의 입력 맵으로서 사용된다. 이러한 방식으로, 신경망 열화의 문제점이 해결되고, 초기 네트워크의 더 큰 깊이는 더 나은 이미지 처리 효과를 나타낸다.

선택적으로, 전술한 정규화 계층에서, 배치 정규화(batch normalization)(BN)를 사용하여 선형 연산이 수행된다. 1차원 또는 다차원 특성 행렬을 갖는 임의의 입력 맵에 대해, 각각의 차원에서의 행렬 점들의 평균 값 및 분산이 획득되고, 차원에서의 행렬 점들이 평균 값 및 분산에 따라 정규화되고, 출력 맵의 다차원 특성 행렬을 획득하기 위해, 정규화된 행렬 점들에 대해 선형 변환이 수행된다. 전술한 BN 연산을 사용함으로써, 각각의 은닉 계층의 출력 맵이 유사한 분포를 가질 수 있게 함으로써, 초기 네트워크의 트레이닝 속도를 가속화하고, 초기 네트워크의 그래디언트 확산의 문제를 개선할 수 있다.

선택적으로, 전술한 비선형 계층에서 사용되는 활성화 함수는 시그모이드 함수(sigmoid function), tanh 함수, ReLU 함수 등일 수 있다. 일부 실시예들에서, ReLU 함수가 사용될 때, 딥 네트워크(deep network)의 역 전파 동안 쉽게 발생하는 그래디언트 사라짐의 문제를 피하기 위해, 비선형 계층의 계산량이 감소될 수 있다.

일부 실시예들에서, 은닉 계층은 대안적으로 정규화 계층을 포함하지 않을 수 있다. 구체적으로, 각각의 은닉 계층은 초기 네트워크의 아키텍처를 단순화하기 위해 컨볼루션 계층 및 비선형 계층만을 포함한다. 물론, 은닉 계층은 대안적으로 정규화 계층 및 비선형 계층을 포함하지 않을 수 있고, 특징 추출은 컨볼루션 계층을 사용하는 것에 의해서만 입력 맵에 대해 수행되고, 그에 의해 초기 네트워크의 아키텍처를 추가로 단순화한다.

일부 실시예들에서, 제1 샘플 이미지 및 제1 처리 이미지들의 크기가 변경되지 않는 것을 보장하기 위해, 서버는 각각의 컨볼루션 프로세스에서 제로 패딩을 추가로 수행하여, 특성 행렬의 크기가 각각의 컨볼루션 후에 변경되지 않은 채로 유지되게 한다.

402. 서버는 복수의 제1 처리 이미지를 광학 흐름 네트워크에 입력하고 광학 흐름 손실을 출력한다.

광학 흐름 네트워크는 복수의 제1 처리 이미지와 제1 샘플 이미지 사이의 광학 흐름 손실을 계산하기 위해 사용된다. 광학 흐름 손실은 복수의 제1 처리 이미지와 제1 샘플 이미지 사이의 물체의 공간적-시간적 연관 정보(모션 차이)를 나타낸다.

일부 실시예들에서, 광학 흐름 네트워크는 수축 부분 및 확대 부분을 포함할 수 있다. 수축 부분은 복수의 제1 처리 이미지의 특징 정보를 심층적으로 추출하기 위해 사용된다. 확대 부분은 수축 부분의 출력 맵을 고화질로 복원하기 위해 사용된다.

전술한 수축 부분은 적어도 하나의 은닉 계층을 포함할 수 있다. 각각의 은닉 계층은 접속 시퀀스에 따라 컨볼루션 계층, 비선형 계층, 및 풀링 계층(pooling layer)을 포함할 수 있다. 컨볼루션 계층과 비선형 계층은 단계 401에서 설명된 초기 네트워크와 유사하며, 이에 대응하여 참조될 수 있다. 풀링 계층은 컨볼루션 계층 및 비선형 계층 의해 처리되는 출력 맵을 압축하기 위해 사용되고, 출력 맵의 크기를 감소시켜, 더 깊은 공간적-시간적 연관 정보를 추출하는 것을 용이하게 하고, 또한 광학 흐름 네트워크의 계산 복잡성을 단순화한다.

선택적으로, 전술한 수축 부분에서, 컨볼루션 연산은 또한 확장된 컨볼루션 방법을 사용하여 수행되어, 수신 필드를 효과적으로 확장하고, 더 많은 공간적-시간적 연관 정보를 추출하며, 광학 흐름 네트워크의 계산량을 감소시킬 수 있다.

전술한 확대 부분에서, 업풀링 방법(uppooling method), 업샘플링 방법, 및 디컨볼루션(또는 전치된 컨볼루션이라고 지칭됨) 방법에서의 적어도 하나의 확대 방법이 사용되어, 수축 부분의 출력 맵의 크기를 증가시키고, 수축 부분의 출력 맵의 해상도를 증가시킬 수 있다.

전술한 프로세스에서, 복수의 제1 처리 이미지에 대해, 서버는, 광학 흐름 네트워크를 사용하여, 제1 샘플 이미지의 픽셀들에 대한 시간 도메인 및 공간 도메인에서의 복수의 제1 처리 이미지의 픽셀들의 변화들(즉, 공간적-시간적 연관 정보)을 추출하여, 제1 처리 이미지들에서의 픽셀들과 제1 샘플 이미지에서의 픽셀들 사이의 픽셀 대응관계를 획득할 수 있다. 서버는 픽셀 대응관계에 따라 제1 처리 이미지들과 제1 샘플 이미지 사이의 물체의 광학 흐름 손실을 획득할 수 있다.

일부 실시예들에서, 단계 402에서의 광학 흐름 손실의 손실 함수는 다음과 같이 표현될 수 있다:

전술한 공식에서, I_blurry는 제1 샘플 이미지(즉, 초기 네트워크의 입력 이미지)를 나타내고, G는 초기 네트워크의 기능을 나타냄으로써, I_blurry가 제1 처리 이미지(즉, 초기 네트워크에 의해 처리되는 제1 샘플 이미지)를 나타낼 수 있게 되고, x는 폭 방향에서의 제1 처리 이미지의 픽셀의 위치를 나타내고, y는 높이 방향에서의 제1 처리 이미지의 위치를 나타내고, W는 제1 처리 이미지의 폭을 나타내고, H는 제1 처리 이미지의 높이를 나타내고, I_flow는 광학 흐름 네트워크에 의해 추출되고 제1 처리 이미지의 공간적-시간적 연관 정보를 나타내는 특징 맵을 나타냄으로써, L_flow가 복수의 제1 처리 이미지와 원래의 선명한 이미지 사이의 공간적-시간적 연관 정보를 나타낼 수 있게 된다.

403. 서버는 복수의 제1 처리 이미지를 지각 네트워크(perceptual network)에 입력하고, 지각 손실을 출력한다.

지각 네트워크는 복수의 제1 처리 이미지와 제1 샘플 이미지를 합성하기 위한 선명한 이미지 사이의 지각 손실을 계산하기 위해 사용된다. 지각 손실은 복수의 제1 처리 이미지와 선명한 이미지 사이의 높은 레벨의 특징 손실을 나타낸다.

일부 실시예들에서, 지각 네트워크는 미리 트레이닝된 VGG(visual geometry group) 네트워크(VGGNet)일 수 있고, 복수의 제1 처리 이미지와 지각 중인 선명한 이미지 사이의 유사도를 측정함으로써, 초기 네트워크의 블러링 제거 효과를 평가할 수 있다. 예를 들어, 지각 네트워크는 VGG-16 또는 VGG-19이다. 지각 네트워크의 아키텍처는 본 출원의 이 실시예에서 구체적으로 한정되지 않는다.

지각 네트워크가 VGG-16인 예를 사용하여, VGG-16은 16개의 은닉 계층을 포함하고, 3*3 소형 컨볼루션 커널 및 2*2 최대 풀링 계층이 각각의 은닉 계층에서 사용된다. 네트워크가 깊어짐에 따라, 각각의 풀링 연산 후에 이미지의 크기가 절반으로 감소되고 이미지의 깊이가 절반 증가됨으로써, 지각 네트워크의 구조가 단순화되고, 그에 의해 높은 레벨의 특징 손실을 추출하는 것이 용이하게 된다.

일부 실시예들에서, 단계 403에서의 지각 손실의 손실 함수는 다음과 같이 표현될 수 있다:

전술한 공식에서, I_sharp는 제1 샘플 이미지를 합성하기 위해 사용되는 선명한 이미지(즉, 제1 샘플 이미지의 전처리(preprocessing) 동안 사용되는 선명한 이미지)를 나타내고, I_blurry는 제1 샘플 이미지(즉, 초기 네트워크의 입력 이미지)를 나타내고, G는 초기 네트워크의 기능을 나타냄으로써, G(I_blurry)가 제1 처리 이미지(즉, 초기 네트워크에 의해 처리되는 제1 샘플 이미지)를 나타낼 수 있고, Φ는 지각 네트워크의 기능을 나타냄으로써, L_perceptual가 제1 처리 이미지와 원본 이미지 사이의 높은 레벨의 특징 손실을 나타낼 수 있다.

전술한 프로세스에서, 전처리 동안, 제1 샘플 이미지는 선명한 이미지를 사용하여 합성될 수 있다. 이것은 선명한 이미지를 블러링하는 것과 동등하다. 그 후, 블러링된 제1 샘플 이미지가 초기 네트워크 G에 입력되고, 제1 처리 이미지 G(I_blurry)가 출력된다. 이것은 제1 샘플 이미지의 선명도를 복원하는 것과 동등하다. 따라서, 초기 네트워크 G의 더 나은 블러링 제거 효과는 원래의 선명한 이미지에 대한 제1 처리 이미지 G(I_blurry)의 더 높은 유사도를 나타내고 지각 손실의 손실 함수 L_perceptual가 0에 근접함으로써, 초기 네트워크 G의 블러링 제거 효과가 손실 함수 L_perceptual의 값에 따라 평가될 수 있다.

404. 서버는 광학 흐름 손실, 지각 손실 및 충실도 손실에 따라 제1 손실 함수의 함수 값을 획득한다.

전술한 프로세스에서, 제1 손실 함수는 복수의 제1 처리 이미지의 선명도가 제1 샘플 이미지보다 크다는 것을 보장하기 위해 사용되고, 제1 손실 함수 L₁는 광학 흐름 손실 L_flow, 지각 손실 L_perceptual, 및 충실도 손실 L_MSE를 포함할 수 있고, 다음의 공식을 사용하여 표현될 수 있다:

광학 흐름 손실 L_flow 및 지각 손실 L_perceptual의 함수 항들은 단계 403에서 설명되고, 이에 대응하여 참조될 것이다. 충실도 손실 L_MSE의 함수 항에서, x, y, W, 및 H의 의미는 광학 흐름 손실 L_flow에서의 것들과 동일하다.

전술한 프로세스에서, 충실도 손실은 제1 처리 이미지들과 선명한 이미지 사이에서 MSE(mean square error)를 픽셀 단위로 계산함으로써 획득된 결과를 나타내기 위해 사용된다. 광학 흐름 손실, 충실도 손실, 및 지각 손실의 기여도를 협업적으로 고려함으로써, 픽셀들에서의 제1 처리 이미지들과 선명한 이미지 사이의 차이 및 공간적-시간적 연관 정보가 측정될 수 있을 뿐만 아니라, 제1 처리 이미지들과 지각 중인 선명한 이미지 사이의 차이를 고려하여 더 정밀한 파라미터 조정이 수행될 수 있다.

405. 서버는 제1 손실 함수에서의 복수의 제1 처리 이미지의 함수 값들이 제1 목표 값보다 큰 경우 역 전파 알고리즘을 사용하여 초기 네트워크의 파라미터를 수정한다.

제1 목표 값은 0보다 크고 1보다 작은 임의의 값일 수 있다. 역전파(BP) 알고리즘은 2개의 링크의 반복된 순환 반복: 활성화 전파 및 가중치 업데이트이다.

선택적으로, 제1 목표 값은 0.01일 수 있어서, 제1 손실 함수의 함수 값이 0.01보다 클 때, 서버는 역 전파 알고리즘을 사용하여 초기 네트워크의 파라미터를 수정한다.

전술한 프로세스에서, 제1 손실 함수의 함수 값이 제1 목표 값보다 크면, 가중치 행렬을 수정하는 기준은 체인 규칙 공식을 사용함으로써 획득될 수 있고, 그에 의해 기준에 따라 초기 네트워크의 파라미터를 수정할 수 있다.

406. 서버는 전술한 단계들 401 내지 405를 반복적으로 수행하고, 제1 손실 함수의 함수 값이 제1 목표 값 이하일 때까지 제1 네트워크를 획득한다.

제1 네트워크는 제1 샘플 이미지에 기초하여, 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용된다.

단계 405를 사용함으로써, 제1 손실 함수의 함수 값이 기대치를 충족시키지 않으면, 한 번에 제1 손실 함수의 함수 값이 제1 목표 값 이하일 때까지, 역 전파 알고리즘을 사용함으로써 초기 네트워크에 대해 파라미터 수정이 수행되어, 단계들 401 내지 405에서 수행되는 동작들을 반복적으로 수행할 수 있다. 이 경우, 초기 네트워크의 블러링 제거 능력의 트레이닝이 완료되어, 블러링 제거 능력이 트레이닝된 초기 네트워크가 제1 네트워크로서 사용되는 것이 고려될 수 있다.

단계들 401 내지 406에서, 서버는 제1 손실 함수에 따라 초기 네트워크를 트레이닝하여 제1 네트워크를 획득하고, 그에 의해 제1 스테이지에서 트레이닝을 완료하여, 제1 네트워크가 제1 샘플 이미지의 것보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 출력할 수 있게 한다. 선택적으로, 서버는 트레이닝 프로세스를 단순화하기 위해, 대안적으로 광학 흐름 손실 및/또는 지각 손실을 획득하지 않을 수 있다.

제1 스테이지에서의 트레이닝에 기초하여, 본 출원의 이 실시예에서 제공되는 제2 스테이지에서의 트레이닝 방법이 수행될 수 있다. 도 6은 본 출원의 실시예에 따른 제1 네트워크를 트레이닝하는 흐름도이다. 도 6을 참조하여, 제2 스테이지에서의 트레이닝 방법이 아래에 상세히 설명된다.

601. 서버는 복수의 제1 처리 이미지에 따라 적어도 하나의 제2 샘플 이미지를 합성한다.

도 7은 본 출원의 실시예에 따른 제1 네트워크를 트레이닝하는 개략도이다. 도 7에 도시된 바와 같이, 전술한 프로세스에서, 서버는 복수의 제1 처리 이미지의 픽셀들의 평균 값들을 제2 샘플 이미지의 픽셀들의 값들로서 사용할 수 있다. 예를 들어, 초기 네트워크가 7개의 제1 처리 이미지를 출력할 때, 서버는 7개의 제1 처리 이미지에 대응하는 위치들에서의 픽셀들의 픽셀 값들의 합을 계산하고나서, 그 합을 7로 나누어, 제2 샘플 이미지를 획득할 수 있다.

물론, 전술한 예에 기초하여, 서버는 대안적으로 7개의 제1 처리 이미지 중 3개의 제1 처리 이미지를 랜덤하게 선택하고, 3개의 제1 처리 이미지에 대응하는 위치들에서의 픽셀들의 픽셀 값들의 합을 계산한 다음, 합을 3으로 나누어, 제2 샘플 이미지를 획득할 수 있다. 나머지 4개의 제1 처리 이미지들에서도 유사한 동작이 수행될 수 있다. 3개의 제1 처리 이미지를 선택하여 픽셀 평균 값들을 계산함으로써, 또 다른 제2 샘플 이미지를 획득한다. 이러한 방식으로, 2개의 제2 샘플 이미지는 7개의 제1 처리 이미지를 사용함으로써 획득될 수 있다.

단계 601에서, 서버는 복수의 제1 처리 이미지에 따라 적어도 하나의 제2 샘플 이미지를 합성할 수 있어서, 로컬 샘플 용량이 트레이닝 요건을 충족시킬 수 없을 때, 새로운 샘플 이미지들이 트레이닝 프로세스에서 지속적으로 생성될 수 있고, 대량 인터넷 데이터로부터 제2 샘플 이미지들을 필터링하는 것을 회피함으로써, 제1 네트워크를 추가로 트레이닝하는 비용들을 감소시킨다.

일부 실시예들에서, 서버는 제1 처리 이미지들을 사용함으로써 제2 샘플 이미지를 획득하지 않을 수 있다. 구체적으로, 서버는 공간적-시간적 연관 정보를 갖는 복수의 랜덤 선명한 이미지를 블러링된 제2 샘플 이미지로 합성하여, 복수의 제2 처리 이미지, 및 복수의 선명한 이미지 간의 차이 정보를 획득하는 것을 용이하게 하고, 그에 의해 제2 손실 함수를 획득하는 것을 용이하게 한다. 복수의 선명한 이미지는 사람의 동적 모션 프로세스에서 연속적으로 촬영된 이미지들, 또는 비디오에서 가로챈 연속적인 비디오 이미지 프레임들일 수 있다. 복수의 선명한 이미지는 로컬로 저장될 수 있거나, 클라우드로부터 온 것일 수 있다. 복수의 선명한 이미지를 획득하는 방법은 본 출원의 이 실시예에서 구체적으로 한정되지 않는다.

일부 실시예들에서, 데이터베이스가 적어도 하나의 트레이닝 세트를 저장할 때, 서버는 대안적으로 제1 처리 이미지들에 따라 제2 샘플 이미지를 생성하지 않을 수 있지만, 적어도 하나의 트레이닝 세트 내의 모든 트레이닝 데이터를 적어도 하나의 제2 샘플 이미지로서 획득함으로써, 데이터베이스로부터 기존의 트레이닝 데이터를 직접 추출하고, 컨볼루션 신경망의 트레이닝 프로세스를 단순화할 수 있다.

602. 서버는 적어도 하나의 제2 샘플 이미지를 제1 네트워크에 입력하고, 각각의 제2 샘플 이미지에 대해 복수의 제2 처리 이미지를 출력한다.

단계 602는 단계 401과 유사하다. 초기 네트워크의 블러링 제거 능력이 미리 트레이닝되어 제1 네트워크를 획득하기 때문에, 제2 샘플 이미지는 추가 트레이닝을 위해 제1 네트워크 내로 입력된다. 이에 대응하여 참조될 수 있다.

603. 서버는 복수의 제2 처리 이미지를 광학 흐름 네트워크에 입력하고 광학 흐름 손실을 출력한다.

단계 603은 단계 402와 유사하고, 이에 대응하여 참조될 수 있다.

604. 서버는 복수의 제2 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력한다.

단계 604는 단계 403과 유사하고, 이에 대응하여 참조될 수 있다.

605. 서버는 지각 손실에 따라 특성 행렬 손실을 획득한다.

전술한 프로세스에서, 서버는 단계 604에서 획득된 지각 손실에 따라 다음의 공식을 사용함으로써 그램 행렬(Gram matrix)을 획득할 수 있다.

F_i는 i번째 제2 샘플 이미지(즉, 복수의 제2 처리 이미지가 지각 네트워크를 통과한 후에 출력된 특징 맵)에 대응하는 복수의 제2 처리 이미지의 특성 행렬을 나타내고,

는 i번째 제2 샘플 이미지에 대응하는 복수의 제2 처리 이미지의 특성 행렬의 전치된 행렬을 나타내고, N은 각각의 트레이닝 동안 샘플 데이터의 볼륨을 나타내고, M=C*H*W이고, C는 특성 행렬 F_i의 채널들의 수량을 나타내고, H는 특성 행렬 F_i의 높이를 나타내고, W는 특성 행렬 F_i의 폭을 나타낸다.

선택적으로, i번째 제2 샘플 이미지에 대응하는 복수의 제2 처리 이미지에 대해,

·F_i이 계산될 때, 지각 네트워크의 각각의 컨볼루션 계층의 복수의 특징 중 2개마다 그 사이의 내적(inner product)들이 먼저 획득되어, 각각의 컨볼루션 계층의 그램 행렬을 획득하고, 대응하는 컨볼루션 계층들 사이의 유클리드(Euclidean) 거리를 계산하고, 상이한 컨볼루션 계층들의 유클리드 거리들의 합을 i번째 제2 샘플 이미지에 대응하는 복수의 제2 처리 이미지의 특성 행렬로서 계산함으로써 획득되는 결과를 사용할 수 있다. i는 1 이상 N 이하의 임의의 정수이다. 구체적으로, 임의의 제2 샘플 이미지에 대응하는 복수의 제2 처리 이미지에 대해, 특성 행렬은 전술한 방법을 사용하여 계산될 수 있다.

단계 605에서, 특성 행렬 손실은 제1 처리 이미지들과 제2 처리 이미지들 사이의 모션 차이 정보를 표시하기 위해 사용된다. 그램 행렬에 기초한 특성 행렬 손실의 함수 표현은 다음과 같이 표시될 수 있다:

K는 매번 제1 네트워크에 의해 출력되는 제2 처리 이미지들의 수량을 나타내고, I'_sharp는 제2 샘플 이미지(즉, 단계 601에서의 복수의 제1 처리 이미지)를 합성하기 위해 사용되는 선명한 이미지를 나타내고, I'_blurry는 제2 샘플 이미지(즉, 제1 네트워크의 입력 이미지)를 나타내고, G는 G(I'_blurry)가 제2 처리 이미지(즉, 제1 네트워크에 의해 처리되는 제2 샘플 이미지)를 나타낼 수 있도록 제1 네트워크의 기능을 나타내고, Gram은 L_Gram이 제2 처리 이미지들과 원래의 선명한 이미지(제1 처리 이미지) 사이의 특성 행렬 손실(즉, 모션 차이 정보)을 나타낼 수 있도록 그램 행렬을 획득하는 동작을 나타낸다.

606. 서버는 광학 흐름 손실, 지각 손실, 특성 행렬 손실 및 충실도 손실에 따라 제2 손실 함수의 함수 값을 획득한다.

전술한 프로세스에서, 제2 손실 함수는 복수의 제2 처리 이미지의 선명도가 제2 샘플 이미지보다 크고, 모션 차이가 있다는 것을 보장하기 위해 사용되고, 제2 손실 함수 L₂는 광학 흐름 손실 L'_flow, 지각 손실 L'_perceptual, 특성 행렬 손실 L_Gram, 및 충실도 손실 L'_MSE를 포함할 수 있고, 다음의 공식을 사용하여 표현될 수 있다:

특성 행렬 손실 L_Gram의 함수 항들이 단계 605에서 설명되었고, 이에 대응하여 참조될 것이다. I'_flow는 광학 흐름 네트워크에 의해 추출되고 제2 처리 이미지들의 공간적-시간적 연관 정보를 나타내는 특징 맵을 표현하고, 지각 손실 L'_perceptual 및 충실도 손실 L'_MSE의 함수 항에서, I'_sharp, I'_blurry, 및 G(I'_blurry)의 의미는 특성 행렬 손실 L_Gram에서의 것들과 동일하다.

또한, x는 폭 방향에서의 제2 처리 이미지의 픽셀의 위치를 나타내고, y는 높이 방향에서의 제2 처리 이미지의 픽셀의 위치를 나타내고, W는 제2 처리 이미지의 폭(제1 처리 이미지 I'_sharp의 폭과 동일함)을 나타내고, H는 제2 처리 이미지의 높이(제1 처리 이미지 I'_sharp의 높이와 동일함)를 나타내고, Φ는 지각 네트워크의 기능을 나타낸다.

전술한 프로세스에서, 충실도 손실은 제2 처리 이미지들과 제1 처리 이미지들 사이에서 픽셀 단위로 MSE를 계산함으로써 획득된 결과를 나타내기 위해 사용된다. 광학적 흐름 손실, 충실도 손실, 지각 손실, 및 특성 행렬 손실의 기여도를 협업적으로 고려함으로써, 픽셀 내의 제1 처리 이미지와 제2 처리 이미지 사이의 차이 및 공간적-시간적 연관 정보가 측정될 수 있을 뿐만 아니라, 지각 및 모션에서 제1 처리 이미지와 제2 처리 이미지 사이의 차이를 고려하여 더 정밀한 파라미터 조정이 수행될 수 있다.

607. 서버는 제2 손실 함수에서의 복수의 제2 처리 이미지의 함수 값들이 제2 목표 값보다 큰 경우 역 전파 알고리즘을 사용하여 제1 네트워크의 파라미터를 수정한다.

제2 목표 값은 0보다 크고 1보다 작은 임의의 값일 수 있다. 제2 목표 값은 제1 목표 값과 동일하거나 상이할 수 있다. 제2 목표 값의 값은 본 출원의 이 실시예에서 구체적으로 한정되지 않는다.

단계 607은 단계 405와 유사하고, 이에 대응하여 참조될 것이다.

608. 서버는 전술한 단계들 601 내지 607을 반복적으로 수행하고, 제2 손실 함수의 함수 값이 제2 목표 값 이하일 때까지 제2 네트워크를 획득한다.

제2 네트워크는 제2 샘플 이미지에 기초하여, 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용된다.

단계 608을 사용함으로써, 제2 손실 함수의 함수 값이 기대치를 충족시키지 않는 경우, 한 번에 제2 손실 함수의 함수 값이 제2 목표 값 이하일 때까지, 역 전파 알고리즘을 사용하여 제1 네트워크에 대해 파라미터 수정을 수행하여, 단계들 601 내지 607에서 수행되는 동작들을 반복적으로 수행할 수 있다. 이 경우, 제1 네트워크에 의해, 모션 차이를 갖는 이미지들을 출력하는 트레이닝이 완료되어, 트레이닝된 제1 네트워크가 제2 네트워크로서 사용되는 것이 고려될 수 있다.

단계 601 내지 단계 608에서, 서버는 제2 손실 함수에 따라 제1 네트워크를 트레이닝하여, 제2 네트워크를 획득함으로써, 제2 스테이지에서 트레이닝을 완료하여, 제2 네트워크가 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 출력할 수 있게 한다. 선택적으로, 서버는 트레이닝 프로세스를 단순화하기 위해, 대안적으로 광학 흐름 손실 및/또는 지각 손실을 획득하지 않을 수 있다.

제2 스테이지에서의 트레이닝에 기초하여, 본 출원의 이 실시예에서 제공되는 제3 스테이지에서의 트레이닝 방법이 수행될 수 있다. 도 8은 본 출원의 실시예에 따른 제2 네트워크를 트레이닝하는 흐름도이다. 도 8을 참조하여, 제2 스테이지에서의 트레이닝 방법이 아래에 상세히 설명된다.

801. 서버는 복수의 제2 처리 이미지에 따라 적어도 하나의 제3 샘플 이미지를 합성한다.

도 9는 본 출원의 실시예에 따른 제2 네트워크를 트레이닝하는 개략도이다. 도 9에 도시된 바와 같이, 단계 801은 단계 601과 유사하고, 이에 대응하여 참조될 수 있다.

802. 서버는 적어도 하나의 제3 샘플 이미지를 제2 네트워크에 입력하고, 각각의 제3 샘플 이미지에 대해 복수의 제3 처리 이미지를 출력한다.

단계 802는 단계 602 또는 단계 401과 유사하고, 이에 대응하여 참조될 수 있다.

803. 서버는 복수의 제3 처리 이미지를 광학 흐름 네트워크에 입력하고 광학 흐름 손실을 출력한다.

단계 803은 단계 603 또는 단계 402와 유사하고, 이에 대응하여 참조될 수 있다.

804. 서버는 복수의 제3 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력한다.

단계 804는 단계 604 또는 단계 403과 유사하며, 이에 대응하여 참조될 수 있다.

805. 서버는 지각 손실에 따라 특성 행렬 손실을 획득한다.

단계 805는 단계 605와 유사하고, 이에 대응하여 참조될 수 있다.

806. 서버는 광학 흐름 손실, 지각 손실, 특성 행렬 손실, 충실도 손실, 및 블러 손실에 따라 제3 손실 함수의 함수 값을 획득한다.

블러 손실은 제3 샘플 이미지와 제3 처리 이미지들 사이의 특징 손실에 의해 야기되는 은닉 차이 정보를 나타내기 위해 사용된다. 블러 손실은 다음의 공식을 사용하여 표현될 수 있다:

전술한 공식에서, I_in는 제3 샘플 이미지를 합성하기 위해 사용되는 제2 처리 이미지를 나타내고, B는 블러링된 이미지를 생성하는 동작을 나타내고, G는 제2 네트워크의 기능을 나타내고, K는 매번 제2 네트워크에 의해 출력되는 복수의 제3 처리 이미지의 수량을 나타내고, N은 제3 샘플 이미지의 수량을 나타낸다.

전술한 공식으로부터, 블러 손실은 2개의 부분을 포함한다는 것을 알 수 있다. 하나의 부분은 제2 처리 이미지들과 제3 처리 이미지들 사이의 은닉 차이 정보이다. 다른 부분은 제3 샘플 이미지와 복수의 제3 처리 이미지에 따라 합성된 블러링된 이미지 사이의 은닉 차이 정보이므로, 블러 손실은 제2 네트워크에서의 특징 손실에 의해 야기되는 은닉 차이 정보를 통합적으로 나타낼 수 있다.

단계 806에서, 제3 손실 함수는 복수의 제3 처리 이미지의 선명도가 제3 샘플 이미지보다 크고, 모션 차이가 있고, 제3 샘플 이미지 내의 은닉 정보가 유지되는 것을 보장하기 위해 사용된다. 제3 손실 함수 L₃는 광학 흐름 손실 L"_flow, 지각 손실 L"_perceptual, 충실도 손실 L"_MSE, 특성 행렬 손실 L'_Gram, 및 블러 손실 L_C를 포함할 수 있고, 다음의 공식을 사용하여 표현될 수 있다:

블러 손실 L_C는 전술한 것과 동일하고, 이에 대응하여 참조될 수 있다. 광학 흐름 손실 L"_flow, 특성 행렬 손실 L'_Gram, 지각 손실 L"_perceptual, 충실도 손실 L"_MSE의 함수 표현은 단계 606에서의 것들과 유사하고, 이에 대응하여 참조될 것이다.

또한, x는 폭 방향에서의 제3 처리 이미지의 픽셀의 위치를 나타내고, y는 높이 방향에서의 제3 처리 이미지의 픽셀의 위치를 나타내고, W는 제3 처리 이미지의 폭(제2 처리 이미지 I"_sharp의 폭과 동일함)을 나타내고, H는 제2 처리 이미지의 높이(제2 처리 이미지 I"_sharp의 높이와 동일함)를 나타내고, I"_flow는 광학 흐름 네트워크에 의해 추출되고 제3 처리 이미지들의 공간적-시간적 연관 정보를 나타내는 특징 맵을 나타내고, Φ는 지각 네트워크의 기능을 나타내고, Gram은 그램 행렬의 동작을 나타낸다.

전술한 프로세스에서, 충실도 손실은 제3 처리 이미지들과 제2 처리 이미지들 사이에서 픽셀 단위로 MSE를 계산함으로써 획득된 결과를 나타내기 위해 사용된다. 광학적 흐름 손실, 충실도 손실, 지각 손실, 특성 행렬 손실, 및 블러 손실의 기여도를 협업적으로 고려함으로써, 픽셀들 내의 제1 처리 이미지들과 제2 처리 이미지들 사이의 차이들 및 공간적-시간적 연관 정보가 측정될 수 있을 뿐만 아니라, 지각 및 모션에서 제1 처리 이미지들과 제2 처리 이미지들 사이의 차이들뿐만 아니라, 원래의 블러링된 이미지 내의 은닉 차이 정보가 제2 네트워크의 기능 하에서 손실되는지의 여부를 고려하여 더 정밀한 파라미터 조정이 수행될 수 있으며, 그것에 의해 블러링된 이미지 내의 손실된 원래의 은닉 정보를 복원하는 것을 용이하게 한다.

807. 서버는 제3 손실 함수에서의 복수의 제3 처리 이미지의 함수 값들이 제3 목표 값보다 큰 경우 역 전파 알고리즘을 사용하여 제2 네트워크의 파라미터를 수정한다.

제3 목표 값은 0보다 크고 1보다 작은 임의의 값일 수 있다. 제3 목표 값은 제1 목표 값 및/또는 제2 목표 값과 동일하거나 상이할 수 있다. 제3 목표 값의 값은 본 출원의 이 실시예에서 구체적으로 한정되지 않는다.

일부 실시예들에서, 제2 네트워크의 파라미터가 조정될 때, 마지막 트레이닝 동안 출력된 복수의 제3 처리 이미지는 블러링된 이미지로 합성되어, 이번에 트레이닝하기 위해 블러링된 이미지를 제2 네트워크에 입력할 수 있고, 그에 의해 복수의 선명한 제3 처리 이미지를 감시 정보로서 사용하고, 트레이닝 속도를 가속화함으로써 제3 손실 함수의 값을 획득하는 것을 용이하게 한다.

단계 807은 단계 607 또는 단계 405와 유사하고, 이에 대응하여 참조될 수 있다.

808. 서버는 전술한 단계들 801 내지 807을 반복적으로 수행하고, 제3 손실 함수의 함수 값이 제3 목표 값 이하일 때까지 제3 네트워크를 획득한다.

제3 네트워크는 제3 샘플 이미지에 기초하여, 제3 샘플 이미지보다 큰 선명도를 갖고, 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용된다.

단계 808을 사용하여, 제3 손실 함수의 함수 값이 기대치를 충족시키지 않는 경우, 한 번에 제3 손실 함수의 함수 값이 제3 목표 값 이하일 때까지, 역 전파 알고리즘을 사용하여 제2 네트워크에 대해 파라미터 수정을 수행하여, 단계들 801 내지 807에서 수행되는 동작들을 반복적으로 수행할 수 있다. 이 경우, 제2 네트워크에 의해, 원래의 블러링된 이미지의 은닉 정보를 유지하는 이미지를 출력하는 트레이닝이 완료되어, 트레이닝된 제2 네트워크가 제3 네트워크로서 사용되는 것이 고려될 수 있다.

단계들 801 내지 808에서, 서버는 제3 손실 함수에 따라 제2 네트워크를 트레이닝하여, 제3 네트워크를 획득함으로써, 제3 네트워크는 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 가지며 제3 샘플 이미지의 은닉 정보를 유지하는 복수의 제3 처리 이미지를 출력할 수 있다. 선택적으로, 서버는 트레이닝 프로세스를 단순화하기 위해, 대안적으로 광학 흐름 손실 및/또는 지각 손실을 획득하지 않을 수 있다.

809. 서버는 이미지 처리 명령을 수신하는 것에 응답하여 원본 이미지를 제3 네트워크에 입력하여 복수의 타겟 이미지를 출력한다.

단계들 401 내지 406, 단계들 601 내지 608, 및 단계들 801 내지 809에서, 서버가 초기 네트워크를 트레이닝하여 제3 네트워크를 획득함으로써, 제3 네트워크에 입력된 원본 이미지에 대해, 원본 이미지보다 큰 선명도를 가지고, 모션 차이를 가지며, 원본 이미지 내의 은닉 정보를 유지하는 복수의 타겟 이미지가 출력될 수 있다. 이미지 처리 명령은 적어도 원본 이미지를 운반한다.

전술한 실시예들에서 언급된 "블러링된 이미지"는 제1 미리 설정된 임계값보다 작은 선명도를 갖는 임의의 이미지일 수 있다. 전술한 실시예들에서 언급된 "선명한 이미지"는 블러링된 이미지보다 큰 선명도를 갖는 임의의 이미지일 수 있다. 물론, 선명한 이미지는 블러링된 이미지보다 크고 제2 미리 설정된 임계값보다 큰 선명도를 갖는 임의의 이미지일 수 있다. 제2 미리 설정된 임계값은 제1 미리 설정된 임계값보다 더 큰 임의의 값이다. 제1 미리 설정된 임계값 및 제2 미리 설정된 임계값의 값들은 본 출원의 실시예들에서 구체적으로 한정되지 않는다.

본 출원의 실시예들에서 제공되는 이미지 처리 방법에 따르면, 서버는 제1 손실 함수에 따라 초기 네트워크를 트레이닝하여, 제1 네트워크를 획득함으로써, 컨볼루션 신경망의 블러링 능력을 트레이닝하고; 제2 손실 함수에 따라 제1 네트워크를 트레이닝하여, 제2 네트워크를 획득함으로써, 컨볼루션 신경망에 의해, 모션 차이를 갖는 복수의 처리 이미지를 출력하는 능력을 트레이닝하고; 제3 손실 함수에 따라 제2 네트워크를 트레이닝하여, 제3 네트워크를 획득함으로써, 제2 네트워크에 기초하여 입력 이미지 내의 은닉 정보를 대부분 복원하여, 이미지 처리 명령을 수신할 때, 서버는 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득할 수 있다. 원본 이미지보다 큰 선명도를 갖고 모션 차이를 가지며 원본 이미지 내의 은닉 정보를 유지하는 복수의 타겟 이미지는 하나의 컨볼루션 신경망을 사용하여 출력된다. 따라서, 네트워크 내의 컨볼루션 계층의 정보 교환 능력은 강하다. 병렬 네트워크 아키텍처에 비해 더 많은 수량의 선명한 픽처들이 요구될 때, 각각의 이미지 처리 프로세스에서의 계산량이 감소되어, 이미지 처리 효율을 향상시킨다.

또한, 광학 흐름 손실이 광학 흐름 네트워크를 사용하여 획득됨으로써, 출력 이미지의 공간적-시간적 연관 정보가 심층적으로 추출될 수 있다. 지각 네트워크를 사용하여 지각 손실을 획득함으로써, 출력 이미지와 지각 중인 원래의 선명한 이미지 사이의 차이를 추출할 수 있다. 또한, 특성 행렬 손실이 지각 손실에 따라 획득되어, 모션 차이 정보가 획득될 수 있다. 또한, 블러 손실이 획득되어, 은닉 차이 정보가 측정됨으로써, 컨볼루션 신경망의 파라미터를 정확하게 조정할 수 있다.

전술한 모든 선택적 기술적 해결책들은 본 개시내용의 선택적 실시예들을 형성하도록 랜덤하게 조합될 수 있다.

도 10은 본 출원의 실시예에 따른 이미지 처리 장치의 개략적인 구조도이다. 도 10을 참조하면, 장치는 트레이닝 모듈(1001) 및 처리 모듈(1002)을 포함한다. 이미지 처리 장치에 포함된 모듈들 중 일부 또는 전부는 소프트웨어, 하드웨어, 또는 이들의 조합에 의해 구현될 수 있다.

트레이닝 모듈(1001)은 초기 네트워크를 트레이닝하여 제1 네트워크를 획득하도록 구성되고, 제1 네트워크는 제1 샘플 이미지에 기초하여, 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용된다.

트레이닝 모듈(1001)은 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하도록 추가로 구성되고, 제2 네트워크는 제2 샘플 이미지에 기초하여, 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용된다.

트레이닝 모듈(1001)은 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하도록 추가로 구성되고, 제3 네트워크는 제3 샘플 이미지에 기초하여, 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용된다.

처리 모듈(1002)은 이미지 처리 명령을 수신하는 것에 응답하여 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하도록 구성된다.

본 출원의 이 실시예에서 제공되는 장치에 따르면, 서버는 초기 네트워크를 트레이닝하여 제1 네트워크를 획득함으로써, 컨볼루션 신경망의 블러링 제거 능력을 트레이닝하고; 제1 네트워크를 트레이닝하여, 제2 네트워크를 획득함으로써, 컨볼루션 신경망에 의해, 모션 차이를 갖는 복수의 처리 이미지를 출력하는 능력을 트레이닝하고; 제2 네트워크를 트레이닝하여 제3 네트워크를 획득함으로써, 컨볼루션 신경망에 의해, 샘플 이미지 내의 은닉 정보를 복원하는 능력을 트레이닝하여, 이미지 처리 명령을 수신할 때, 서버가 제3 네트워크에 따라 원본 이미지를 처리하여 복수의 타겟 이미지를 획득할 수 있게 한다. 원본 이미지보다 큰 선명도를 갖고 모션 차이를 가지며 원본 이미지 내의 은닉 정보를 유지하는 복수의 타겟 이미지는 하나의 컨볼루션 신경망만을 사용하여 출력된다. 따라서, 네트워크 내의 컨볼루션 계층들의 정보 교환 능력은 강하다. 병렬 네트워크 아키텍처에 비해 더 많은 수량의 선명한 픽처들이 요구될 때, 각각의 이미지 처리 프로세스에서의 계산량이 감소되어, 이미지 처리 효율을 향상시킨다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 적어도 하나의 제1 샘플 이미지를 초기 네트워크에 입력하고, 각각의 제1 샘플 이미지에 대해 복수의 제1 처리 이미지를 출력하고; 제1 손실 함수에서의 복수의 제1 처리 이미지의 함수 값들이 제1 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 초기 네트워크의 파라미터를 수정하고- 제1 손실 함수는 복수의 제1 처리 이미지의 선명도가 제1 샘플 이미지보다 큰 것을 보장하기 위해 사용됨 -; 제1 손실 함수의 함수 값이 상기 제1 목표 값 이하일 때까지 제1 네트워크를 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 복수의 제1 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고; 복수의 제1 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고; 광학 흐름 손실, 지각 손실, 및 충실도 손실에 따라 제1 손실 함수의 함수 값을 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 적어도 하나의 제2 샘플 이미지를 제1 네트워크에 입력하고, 각각의 제2 샘플 이미지에 대해 복수의 제2 처리 이미지를 출력하고; 제2 손실 함수에서의 복수의 제2 처리 이미지의 함수 값들이 제2 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 제1 네트워크의 파라미터를 수정하고- 제2 손실 함수는 복수의 제2 처리 이미지의 선명도가 제2 샘플 이미지보다 크고 모션 차이가 있는 것을 보장하기 위해 사용됨 -; 제2 손실 함수의 함수 값이 제2 목표 값 이하일 때까지 제2 네트워크를 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 복수의 제2 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고; 복수의 제2 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고; 지각 손실에 따라 특성 행렬 손실을 획득하고; 광학 흐름 손실, 지각 손실, 특성 행렬 손실, 및 충실도 손실에 따라 제2 손실 함수의 함수 값을 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 적어도 하나의 제3 샘플 이미지를 제2 네트워크에 입력하고, 각각의 제3 샘플 이미지에 대해 복수의 제3 처리 이미지를 출력하고; 제3 손실 함수에서의 복수의 제3 처리 이미지의 함수 값들이 제3 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 제2 네트워크의 파라미터를 수정하고- 제3 손실 함수는 복수의 제3 처리 이미지의 선명도가 제3 샘플 이미지보다 크고, 모션 차이가 있고, 제3 샘플 이미지 내의 은닉 정보가 유지되는 것을 보장하기 위해 사용됨 -; 제3 손실 함수의 함수 값이 제3 목표 값 이하일 때까지 제3 네트워크를 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 복수의 제3 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고; 복수의 제3 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고; 지각 손실에 따라 특성 행렬 손실을 획득하고; 광학 흐름 손실, 지각 손실, 특성 행렬 손실, 충실도 손실, 및 블러 손실에 따라 제3 손실 함수의 함수 값을 획득하도록 추가로 구성된다.

가능한 구현에서, 도 10의 장치의 구성에 기초하여, 트레이닝 모듈(1001)은 복수의 제1 처리 이미지에 따라 적어도 하나의 제2 샘플 이미지를 합성하고; 복수의 제2 처리 이미지에 따라 적어도 하나의 제3 샘플 이미지를 합성하도록 추가로 구성된다.

가능한 구현에서, 초기 네트워크는 적어도 하나의 은닉 계층을 포함하고, 각각의 은닉 계층은 컨볼루션 계층, 정규화 계층, 및 비선형 계층을 포함한다.

전술한 실시예에서 제공되는 이미지 처리 장치가 이미지를 처리할 때, 이것은 각각의 기능 모듈의 분할의 예로 도시된다. 실제 응용에서, 기능 분포는 요건들에 따라 상이한 기능 모듈들에 의해 구현될 수 있는데, 즉, 컴퓨터 디바이스의 내부 구조는 상이한 기능 모듈들로 분할되어, 위에 설명된 기능들의 전부 또는 일부를 구현한다. 또한, 전술한 실시예에서 제공되는 이미지 처리 장치는 이미지 처리 방법의 실시예들과 동일한 아이디어에 속한다. 구체적인 구현 프로세스를 위한 이미지 처리 방법의 실시예를 참조한다.

도 11은 본 출원의 실시예에 따른 컴퓨터 디바이스의 개략적인 구조도이다. 컴퓨터 디바이스(1100)는 상이한 구성들 또는 성능으로 인해 크게 달라질 수 있고, 하나 이상의 중앙 처리 유닛(CPU)(1101) 및 하나 이상의 메모리(1102)를 포함할 수 있다. 일부 실시예들에서, 컴퓨터 디바이스(1100)는 스마트폰, 태블릿 컴퓨터, MP3(Moving Picture Experts Group Audio Layer III) 플레이어, MP4(Moving Picture Experts Group Audio Layer IV) 플레이어, 노트북 컴퓨터, 또는 데스크톱 컴퓨터일 수 있다. 컴퓨터 디바이스(1100)는 단말기, 서버, 사용자 장비, 휴대용 단말기, 랩톱 단말기, 또는 데스크톱 단말기와 같은 다른 명칭으로 추가로 지칭될 수 있다.

메모리(1102)는 적어도 하나의 명령어를 저장한다. 적어도 하나의 명령어는 이미지 처리 방법의 전술한 실시예들에서 제공되는 방법을 구현하기 위해 프로세서(1101)에 의해 로딩 및 실행된다. 물론, 컴퓨터 디바이스는 또한 입출력의 용이함을 위해 유선 또는 무선 네트워크 인터페이스, 키보드, 및 입출력 인터페이스와 같은 컴포넌트들을 가질 수 있고, 디바이스의 기능들을 구현하기 위한 다른 컴포넌트들을 추가로 포함할 수 있다.

실시예에서, 메모리 및 프로세서를 포함하는 컴퓨터 디바이스가 제공된다. 메모리는 컴퓨터 판독가능 명령어들을 저장하고, 컴퓨터 판독가능 명령어들은, 프로세서에 의해 실행될 때, 프로세서로 하여금 전술한 이미지 처리 방법에서의 단계들을 수행하게 한다. 이미지 처리 방법에서의 단계들은 전술한 실시예들의 이미지 처리 방법에서의 단계들일 수 있다.

실시예에서, 컴퓨터 판독가능 저장 매체가 제공된다. 컴퓨터 판독가능 저장 매체는 컴퓨터 판독가능 명령어들을 저장하고, 컴퓨터 판독가능 명령어들은, 프로세서에 의해 실행될 때, 프로세서로 하여금 전술한 이미지 처리 방법에서의 단계들을 수행하게 한다. 이미지 처리 방법에서의 단계들은 전술한 실시예들의 이미지 처리 방법에서의 단계들일 수 있다.

본 기술분야의 통상의 기술자는 전술한 실시예들의 방법들에서의 모든 또는 일부 절차들이 관련 하드웨어에 명령하는 컴퓨터 판독가능 명령어에 의해 구현될 수 있다는 것을 이해할 수 있다. 프로그램은 비휘발성 컴퓨터 판독가능 저장 매체에 저장될 수 있다. 프로그램이 실행될 때, 전술한 방법 실시예들의 절차들이 구현될 수 있다. 본 출원에서 제공되는 실시예들에서 사용되는 메모리, 스토리지, 데이터베이스, 또는 다른 매체에 대한 참조들은 모두 비휘발성 또는 휘발성 메모리를 포함할 수 있다. 비휘발성 메모리는 ROM(read-only memory), PROM(programmable ROM), EPROM(electrically programmable ROM), EEPROM(electrically erasable programmable ROM), 또는 플래시 메모리를 포함할 수 있다. 휘발성 메모리는 RAM(random access memory) 또는 외부 고속 캐시를 포함할 수 있다. 제한 대신에 설명을 위한 것으로, RAM은 SRAM(static RAM), DRAM(dynamic RAM), SDRAM(synchronous DRAM), DDRSDRAM(double data rate SDRAM), ESDRAM(enhanced SDRAM), SLDRAM(synchronous link(Synchlink) DRAM), RDRAM(RAM bus(Rambus) direct RAM), DRDRAM(direct Rambus dynamic RAM), 및 RDRAM(Rambus dynamic RAM) 등의 복수의 형태로 이용가능하다.

전술한 실시예들의 기술적 특징들이 무작위로 조합될 수 있다. 설명을 구체적으로 하기 위해, 전술한 실시예들에서의 기술적 특징들의 모든 가능한 조합들이 설명되지 않는다. 그러나, 이러한 기술적 특징의 조합들은 충돌이 존재하지 않는다면 본 명세서에 의해 기록된 범위 내에 드는 것으로 고려될 것이다.

전술한 실시예들은 본 출원의 여러 구현들만을 구체적으로 그리고 상세히 설명하지만, 본 출원의 특허 범위에 대한 제한으로서 해석될 수는 없다. 본 기술분야의 통상의 기술자의 경우, 본 출원의 아이디어를 벗어남이 없이 몇 가지 변환 및 개선을 행할 수 있다. 이러한 변환들 및 개선들은 본 출원의 보호 범위에 속한다. 따라서, 본 출원의 특허의 보호 범위는 첨부된 청구범위의 대상일 것이다.

Claims

컴퓨터 디바이스에 의해 수행되는 이미지 처리 방법으로서,
초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 단계- 상기 제1 네트워크는 제1 샘플 이미지에 기초하여, 상기 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용됨 -;
상기 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 단계- 상기 제2 네트워크는 제2 샘플 이미지에 기초하여, 상기 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용됨 -;
상기 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 단계- 상기 제3 네트워크는 제3 샘플 이미지에 기초하여, 상기 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 가지며 제3 샘플 이미지의 은닉 정보를 유지하는 복수의 제3 처리 이미지를 획득하기 위해 사용됨 -; 및
이미지 처리 명령을 수신하는 것에 응답하여 상기 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하는 단계를 포함하는 이미지 처리 방법.
제1항에 있어서,
초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 단계는:
적어도 하나의 제1 샘플 이미지를 상기 초기 네트워크에 입력하고, 각각의 제1 샘플 이미지에 대해 상기 복수의 제1 처리 이미지를 출력하는 단계;
제1 손실 함수에서의 상기 복수의 제1 처리 이미지의 함수 값들이 제1 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 초기 네트워크의 파라미터를 수정하는 단계- 상기 제1 손실 함수는 상기 복수의 제1 처리 이미지의 선명도가 상기 제1 샘플 이미지보다 큰 것을 보장하기 위해 사용됨 -; 및
상기 제1 손실 함수의 함수 값이 상기 제1 목표 값 이하일 때까지 상기 제1 네트워크를 획득하는 단계를 포함하는 이미지 처리 방법.
제2항에 있어서,
상기 복수의 제1 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 단계;
상기 복수의 제1 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 단계; 및
상기 광학 흐름 손실, 상기 지각 손실, 및 충실도 손실에 따라 상기 제1 손실 함수의 함수 값을 획득하는 단계를 추가로 포함하는 이미지 처리 방법.
제1항에 있어서,
상기 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 단계는:
적어도 하나의 제2 샘플 이미지를 상기 제1 네트워크에 입력하고, 각각의 제2 샘플 이미지에 대해 상기 복수의 제2 처리 이미지를 출력하는 단계;
제2 손실 함수에서의 상기 복수의 제2 처리 이미지의 함수 값들이 제2 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제1 네트워크의 파라미터를 수정하는 단계- 상기 제2 손실 함수는 상기 복수의 제2 처리 이미지의 선명도가 상기 제2 샘플 이미지보다 크고 상기 모션 차이가 있는 것을 보장하기 위해 사용됨 -; 및
상기 제2 손실 함수의 함수 값이 상기 제2 목표 값 이하일 때까지 상기 제2 네트워크를 획득하는 단계를 포함하는 이미지 처리 방법.
제4항에 있어서,
상기 복수의 제2 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 단계;
상기 복수의 제2 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 단계;
상기 지각 손실에 따라 특성 행렬 손실을 획득하는 단계; 및
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 및 충실도 손실에 따라 상기 제2 손실 함수의 함수 값을 획득하는 단계를 추가로 포함하는 이미지 처리 방법.
제1항에 있어서,
상기 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 단계는:
적어도 하나의 제3 샘플 이미지를 상기 제2 네트워크에 입력하고, 각각의 제3 샘플 이미지에 대해 상기 복수의 제3 처리 이미지를 출력하는 단계;
제3 손실 함수에서의 상기 복수의 제3 처리 이미지의 함수 값들이 제3 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제2 네트워크의 파라미터를 수정하는 단계- 상기 제3 손실 함수는 상기 복수의 제3 처리 이미지의 선명도가 상기 제3 샘플 이미지보다 크고, 상기 모션 차이가 있고, 상기 제3 샘플 이미지 내의 상기 은닉 정보가 유지되는 것을 보장하기 위해 사용됨 -; 및
상기 제3 손실 함수의 함수 값이 상기 제3 목표 값 이하일 때까지 상기 제3 네트워크를 획득하는 단계를 포함하는 이미지 처리 방법.
제6항에 있어서,
상기 복수의 제3 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 단계;
상기 복수의 제3 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 단계;
상기 지각 손실에 따라 특성 행렬 손실을 획득하는 단계; 및
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 충실도 손실, 및 블러 손실에 따라 상기 제3 손실 함수의 함수 값을 획득하는 단계를 추가로 포함하는 이미지 처리 방법.
제1항 내지 제7항 중 어느 한 항에 있어서,
상기 복수의 제1 처리 이미지에 따라 적어도 하나의 제2 샘플 이미지를 합성하는 단계; 및
상기 복수의 제2 처리 이미지에 따라 적어도 하나의 제3 샘플 이미지를 합성하는 단계를 추가로 포함하는 이미지 처리 방법.
제1항에 있어서,
상기 초기 네트워크는 적어도 하나의 은닉 계층을 포함하고, 각각의 은닉 계층은 컨볼루션 계층, 정규화 계층, 및 비선형 계층을 포함하는 이미지 처리 방법.
이미지 처리 장치로서,
초기 네트워크를 트레이닝하여 제1 네트워크를 획득하도록 구성된 트레이닝 모듈- 상기 제1 네트워크는 제1 샘플 이미지에 기초하여, 상기 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용되고,
상기 트레이닝 모듈은 상기 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하도록 추가로 구성되고, 상기 제2 네트워크는 제2 샘플 이미지에 기초하여, 상기 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용되고,
상기 트레이닝 모듈은 상기 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하도록 추가로 구성되고, 상기 제3 네트워크는 제3 샘플 이미지에 기초하여, 상기 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 상기 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용됨 -; 및
이미지 처리 명령을 수신하는 것에 응답하여 상기 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하도록 구성된 처리 모듈을 포함하는 이미지 처리 장치.
제10항에 있어서,
상기 트레이닝 모듈은:
적어도 하나의 제1 샘플 이미지를 상기 초기 네트워크에 입력하고, 각각의 제1 샘플 이미지에 대해 상기 복수의 제1 처리 이미지를 출력하고;
상기 복수의 제1 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고;
상기 복수의 제1 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고;
상기 광학 흐름 손실, 상기 지각 손실, 및 충실도 손실에 따라 제1 손실 함수의 함수 값을 획득하고;
상기 제1 손실 함수에서의 상기 복수의 제1 처리 이미지의 함수 값들이 제1 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 초기 네트워크의 파라미터를 수정하고- 상기 제1 손실 함수는 상기 복수의 제1 처리 이미지의 선명도가 상기 제1 샘플 이미지보다 큰 것을 보장하기 위해 사용됨 -;
상기 제1 손실 함수의 함수 값이 상기 제1 목표 값 이하일 때까지 상기 제1 네트워크를 획득하도록 추가로 구성되는 이미지 처리 장치.
제10항에 있어서,
상기 트레이닝 모듈은:
적어도 하나의 제2 샘플 이미지를 상기 제1 네트워크에 입력하고, 각각의 제2 샘플 이미지에 대해 상기 복수의 제2 처리 이미지를 출력하고;
상기 복수의 제2 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고;
상기 복수의 제2 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고;
상기 지각 손실에 따라 특성 행렬 손실을 획득하고;
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 및 충실도 손실에 따라 제2 손실 함수의 함수 값을 획득하고;
상기 제2 손실 함수에서의 상기 복수의 제2 처리 이미지의 함수 값들이 제2 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제1 네트워크의 파라미터를 수정하고- 상기 제2 손실 함수는 상기 복수의 제2 처리 이미지의 선명도가 상기 제2 샘플 이미지보다 크고 상기 모션 차이가 있는 것을 보장하기 위해 사용됨 -;
상기 제2 손실 함수의 함수 값이 상기 제2 목표 값 이하일 때까지 상기 제2 네트워크를 획득하도록 추가로 구성되는 이미지 처리 장치.
제10항에 있어서,
상기 트레이닝 모듈은:
적어도 하나의 제3 샘플 이미지를 상기 제2 네트워크에 입력하고, 각각의 제3 샘플 이미지에 대해 상기 복수의 제3 처리 이미지를 출력하고;
상기 복수의 제3 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하고;
상기 복수의 제3 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하고;
상기 지각 손실에 따라 특성 행렬 손실을 획득하고;
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 충실도 손실, 및 블러 손실에 따라 제3 손실 함수의 함수 값을 획득하고;
상기 제3 손실 함수에서의 상기 복수의 제3 처리 이미지의 함수 값들이 제3 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제2 네트워크의 파라미터를 수정하고- 상기 제3 손실 함수는 상기 복수의 제3 처리 이미지의 선명도가 상기 제3 샘플 이미지보다 크고, 상기 모션 차이가 있고, 상기 제3 샘플 이미지 내의 상기 은닉 정보가 유지되는 것을 보장하기 위해 사용됨 -;
상기 제3 손실 함수의 함수 값이 상기 제3 목표 값 이하일 때까지 상기 제3 네트워크를 획득하도록 추가로 구성되는 이미지 처리 장치.
메모리와 프로세서를 포함하는 컴퓨터 디바이스로서,
상기 메모리는 컴퓨터 판독가능 명령어들을 저장하고, 상기 컴퓨터 판독가능 명령어들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서로 하여금:
초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 동작- 상기 제1 네트워크는 제1 샘플 이미지에 기초하여, 상기 제1 샘플 이미지보다 큰 선명도를 갖는 복수의 제1 처리 이미지를 획득하기 위해 사용됨 -;
상기 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 동작- 상기 제2 네트워크는 제2 샘플 이미지에 기초하여, 상기 제2 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제2 처리 이미지를 획득하기 위해 사용됨 -;
상기 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 동작- 상기 제3 네트워크는 제3 샘플 이미지에 기초하여, 상기 제3 샘플 이미지보다 큰 선명도를 갖고 모션 차이를 갖는 복수의 제3 처리 이미지를 획득하고, 상기 제3 샘플 이미지 내의 은닉 정보를 유지하기 위해 사용됨 -; 및
이미지 처리 명령을 수신하는 것에 응답하여 상기 제3 네트워크에 따라 원본 이미지를 처리하여, 복수의 타겟 이미지를 획득하는 동작을 수행하게 하는 컴퓨터 디바이스.
제14항에 있어서,
상기 초기 네트워크를 트레이닝하여 제1 네트워크를 획득하는 동작은:
적어도 하나의 제1 샘플 이미지를 상기 초기 네트워크에 입력하고, 각각의 제1 샘플 이미지에 대해 상기 복수의 제1 처리 이미지를 출력하는 동작;
제1 손실 함수에서의 상기 복수의 제1 처리 이미지의 함수 값들이 제1 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 초기 네트워크의 파라미터를 수정하는 동작- 상기 제1 손실 함수는 상기 복수의 제1 처리 이미지의 선명도가 상기 제1 샘플 이미지보다 큰 것을 보장하기 위해 사용됨 -; 및
상기 제1 손실 함수의 함수 값이 상기 제1 목표 값 이하일 때까지 상기 제1 네트워크를 획득하는 동작을 포함하는 컴퓨터 디바이스.
제15항에 있어서,
상기 컴퓨터 판독가능 명령어들이 상기 프로세서에 의해 실행될 때, 상기 프로세서는 추가로:
상기 복수의 제1 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 동작;
상기 복수의 제1 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 동작; 및
상기 광학 흐름 손실, 상기 지각 손실, 및 충실도 손실에 따라 상기 제1 손실 함수의 함수 값을 획득하는 동작을 수행하게 되는 컴퓨터 디바이스.
제14항에 있어서,
상기 제1 네트워크를 트레이닝하여 제2 네트워크를 획득하는 동작은:
적어도 하나의 제2 샘플 이미지를 상기 제1 네트워크에 입력하고, 각각의 제2 샘플 이미지에 대해 상기 복수의 제2 처리 이미지를 출력하는 동작;
제2 손실 함수에서의 상기 복수의 제2 처리 이미지의 함수 값들이 제2 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제1 네트워크의 파라미터를 수정하는 동작- 상기 제2 손실 함수는 상기 복수의 제2 처리 이미지의 선명도가 상기 제2 샘플 이미지보다 크고 상기 모션 차이가 있는 것을 보장하기 위해 사용됨 -; 및
상기 제2 손실 함수의 함수 값이 상기 제2 목표 값 이하일 때까지 상기 제2 네트워크를 획득하는 동작을 포함하는 컴퓨터 디바이스.
제17항에 있어서,
상기 컴퓨터 판독가능 명령어들이 상기 프로세서에 의해 실행될 때, 상기 프로세서는 추가로:
상기 복수의 제2 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 동작;
상기 복수의 제2 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 동작;
상기 지각 손실에 따라 특성 행렬 손실을 획득하는 동작; 및
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 및 충실도 손실에 따라 상기 제2 손실 함수의 함수 값을 획득하는 동작을 수행하게 되는 컴퓨터 디바이스.
제14항에 있어서,
상기 제2 네트워크를 트레이닝하여 제3 네트워크를 획득하는 동작은:
적어도 하나의 제3 샘플 이미지를 상기 제2 네트워크에 입력하고, 각각의 제3 샘플 이미지에 대해 상기 복수의 제3 처리 이미지를 출력하는 동작;
제3 손실 함수에서의 상기 복수의 제3 처리 이미지의 함수 값들이 제3 목표 값보다 큰 경우에 역 전파 알고리즘을 사용하여 상기 제2 네트워크의 파라미터를 수정하는 동작- 상기 제3 손실 함수는 상기 복수의 제3 처리 이미지의 선명도가 상기 제3 샘플 이미지보다 크고, 상기 모션 차이가 있고, 상기 제3 샘플 이미지 내의 상기 은닉 정보가 유지되는 것을 보장하기 위해 사용됨 -; 및
상기 제3 손실 함수의 함수 값이 상기 제3 목표 값 이하일 때까지 상기 제3 네트워크를 획득하는 동작을 포함하는 컴퓨터 디바이스.
제19항에 있어서,
상기 컴퓨터 판독가능 명령어들이 상기 프로세서에 의해 실행될 때, 상기 프로세서는 추가로:
상기 복수의 제3 처리 이미지를 광학 흐름 네트워크에 입력하고, 광학 흐름 손실을 출력하는 동작;
상기 복수의 제3 처리 이미지를 지각 네트워크에 입력하고, 지각 손실을 출력하는 동작;
상기 지각 손실에 따라 특성 행렬 손실을 획득하는 동작; 및
상기 광학 흐름 손실, 상기 지각 손실, 상기 특성 행렬 손실, 충실도 손실, 및 블러 손실에 따라 상기 제3 손실 함수의 함수 값을 획득하는 동작을 수행하게 되는 컴퓨터 디바이스.
제14항 내지 제20항 중 어느 한 항에 있어서,
상기 컴퓨터 판독가능 명령어들이 상기 프로세서에 의해 실행될 때, 상기 프로세서는 추가로:
상기 복수의 제1 처리 이미지에 따라 적어도 하나의 제2 샘플 이미지를 합성하는 동작; 및
상기 복수의 제2 처리 이미지에 따라 적어도 하나의 제3 샘플 이미지를 합성하는 동작을 수행하게 되는 컴퓨터 디바이스.
컴퓨터 판독가능 명령어들을 저장하는 비휘발성 저장 매체로서,
상기 컴퓨터 판독가능 명령어들은, 하나 이상의 프로세서에 의해 실행될 때, 상기 하나 이상의 프로세서로 하여금 제1항 내지 제9항 중 어느 한 항에 따른 방법의 동작들을 수행하게 하는 비휘발성 저장 매체.