KR20200132682A

KR20200132682A - 이미지 최적화 방법, 장치, 디바이스 및 저장 매체

Info

Publication number: KR20200132682A
Application number: KR1020200044759A
Authority: KR
Inventors: 지안싱 장; 지쿤 리우; 춘양 리; 지안 양; 웨이 웬
Original assignee: 삼성전자주식회사
Priority date: 2019-05-16
Filing date: 2020-04-13
Publication date: 2020-11-25
Also published as: CN111951172A

Abstract

본 개시는 이미지 최적화 방법, 시스템 및 저장 매체를 제공한다. 이미지 최적화 방법은 입력 이미지로부터 텍스처 품질 정보 - 텍스처 품질 정보는 입력 이미지에 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 동작; 및 텍스처 품질 정보에 따라, 텍스처 복원된 이미지를 생성하기 위해 입력 이미지의 설정된 영역 상에서 텍스처 복원을 수행하는 동작을 포함한다.

Description

이미지 최적화 방법, 장치, 디바이스 및 저장 매체{IMAGE OPTIMIZATION METHOD, APPARATUS, DEVICE AND STORAGE MEDIUM}

본 개시는 이미지 처리 분야에 관한 것으로서, 특히, 이미지 최적화 방법, 장치, 디바이스 및 저장 매체에 관한 것이다.

현재, 스마트 폰 시장에서의 경쟁은 치열하고, 스마트 폰의 촬영 성능(photographing performance)은 스마트 폰 제조사 사이에서 치열한 경쟁의 타겟 요소 중 하나가 된다. 이러한 상황에서, 이미지 품질을 지속적으로 개선하고, 사용자의 촬영 경험을 개선하는 것은 스마트 폰 제조사 및 휴대폰 렌즈 액세서리 공급자의 중요한 목표가 되었다.

미세 세분화 정도(fine granularity))에서의 이미지 품질 향상(image quality enhancement)은 휴대폰의 촬영 성능을 개선하기 위한 중요한 수단이다. 이러한 향상은, 예를 들어, 인간 이미지의 얼굴 및 머리카락과 사람의 드레스와 같은 영역에 대한 특수 품질 향상, 및 하늘, 빌딩 및 녹색 식물과 같은 특정 배경 객체에 대한 특수 품질 향상을 포함한다.

본 개시의 다양한 실시예는 이미지에서 손실된 텍스처(texture) 정보를 복원할 뿐만 아니라 취약한 텍스처 정보를 향상시키는 이미지 최적화 방법 및 장치를 제공한다.

본 개시는 입력 이미지로부터 텍스처 품질 정보(texture quality information) - 텍스처 품질 정보는 입력 이미지에서 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 동작; 및 상기 텍스처 품질 정보에 따라, 상기 입력 이미지의 설정된 영역(set region) 상에서 텍스처 복원을 수행하여 텍스처 복원된 이미지를 생성하는 동작을 포함하는 이미지 최적화 방법을 제공한다.

본 개시의 일 실시예에 따르면, 상기 설정된 영역은 텍스처 품질도(texture quality degree)가 미리 설정된 임계 값보다 낮은 영역이다.

본 개시의 일 실시예에 따르면, 상기 입력 이미지로부터 상기 텍스처 품질 정보를 추출하는 동작은 제1 콘볼루션 신경망(convolutional neural network, CNN)을 통해 상기 입력 이미지 상에서 특징 추출(feature extraction)을 수행하여 상기 텍스처 품질 정보를 획득하는 동작을 포함한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 품질 정보는 0과 1 사이의 값을 포함한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 품질 정보가 이진(binary) 정보인 경우, 상기 설정된 영역의 경계 위치의 텍스처 품질 정보는 평활화(smooth)된다.

본 개시의 일 실시예에 따르면, 상기 텍스처 복원은 상기 텍스처 품질 정보에 기초하여 제2 CNN을 통해 상기 설정된 영역 상에서 텍스처 복원을 수행하는 동작을 포함한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 복원은, 특정 가중치에 따라, 상기 설정된 영역의 텍스처 품질 정보 및 상기 설정된 영역 외부의 텍스처 품질 정보를 사용함으로써 상기 입력 이미지의 상기 설정된 영역 상에서 텍스처 복원을 수행하는 동작을 포함한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 복원은, 복원 동작이 상기 입력 이미지의 특정 픽셀 위치 상에서 수행될 때, 특정 가중치에 따라 특정 픽셀을 둘러싸는 모든 주변 픽셀 상에서 콘볼루션 동작을 수행하여 복원된 픽셀 값을 획득하는 동작을 포함한다.

본 개시의 일 실시예에 따르면, 상기 이미지 최적화 방법은 상기 텍스처 복원된 이미지 상에서 텍스처 특징 향상을 수행하는 동작을 더 포함한다. 상기 텍스처 복원된 이미지 상에서 전체 텍스처 특징 향상을 수행하는 동작은 상기 입력 이미지의 텍스처 상세 정보를 향상시키거나 더 풍부하게 하는 것이다.

본 개시의 일 실시예에 따르면, 상기 텍스처 특징 향상은 텍스처 복원된 이미지 및 잔차 네트워크(residual network)에 의한 잔차 출력(residual output)을 사용함으로써 잔차 네트워크를 통해 상기 텍스처 복원된 이미지 상에서 특징 향상을 수행하는 동작을 포함한다.

본 개시의 일 실시예에 따르면, 상기 잔차 네트워크는 설정된 수보다 적은 수를 갖는 연결된 콘볼루션 모듈들(concatenated convolutional modules)을 포함한다.

본 개시의 실시예에 따르면, 상기 잔차 네트워크의 콘볼루션 모듈들 중 어느 하나는 복수의 연결된 확장된 콘볼루션 계층들(concatenated dilated convolutional layers)을 포함한다.

본 개시의 일 실시예에 따르면, 상기 복수의 확장된 콘볼루션 계층들 중 적어도 2개의 확장된 콘볼루션 계층들은 상이한 확장된 비율을 갖는다.

이미지 최적화 장치는 입력 이미지로부터 텍스처 품질 정보 - 텍스처 품질 정보는 입력 이미지에서 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 텍스처 품질 정보 추출 모듈; 및 텍스처 품질 정보에 따라, 상기 입력 이미지의 설정된 영역 상에서 텍스처 복원을 수행하여 텍스처 복원된 이미지를 생성하는 텍스처 복원 모듈을 포함한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 품질 정보 추출 모듈은 제1 CNN을 통해 상기 입력 이미지 상에서 특징 추출을 수행하여 상기 텍스처 품질 정보를 획득한다.

본 개시의 일 실시예에 따르면, 상기 텍스처 복원 모듈은 상기 텍스처 품질 정보에 기초하여 제2 CNN을 통해 상기 설정된 영역 상에서 텍스처 복원을 수행한다.

본 개시의 일 실시예에 따르면, 이미지 최적화 장치는 텍스처 특징 향상 모듈을 더 포함하되, 상기 텍스처 특징 향상 모듈은 상기 텍스처 복원된 이미지 상에서 전체 텍스처 특징 향상을 수행하도록 구성되며, 상기 전체 텍스처 특징 향상은 상기 입력 이미지의 텍스처 상세 정보를 향상시키거나 더 풍부하게 하기 위해 수행된다.

본 개시의 일 실시예에 따르면, 텍스처 상세 특징 향상 모듈은 텍스처 복원된 이미지 및 잔차 네트워크에 의한 잔차 출력을 사용함으로써 잔차 네트워크를 통해 상기 텍스처 복원된 이미지 상에서 특징 향상을 수행한다.

본 개시는 입력 이미지를 획득하는 동작; 및 잔차 네트워크에 의한 잔차 출력 및 상기 입력 이미지를 사용함으로써 잔차 네트워크를 통해 상기 입력 이미지 상에서 텍스처 특징 향상을 수행하는 동작을 포함하는 이미지 최적화 방법을 제공한다.

본 개시는 입력 이미지를 획득하는 이미지 획득 모듈; 및 잔차 네트워크에 의한 잔차 출력 및 상기 입력 이미지를 사용함으로써 잔차 네트워크를 통해 상기 입력 이미지 상에서 텍스처 특징 향상을 수행하는 텍스처 특징 향상 모듈을 포함하는 이미지 최적화 장치를 제공한다.

본 개시는 프로세서; 및 상기 프로세서에 연결되고, 상기 프로세서가 상술한 방법 중 어느 하나를 수행하게 하기 위해 상기 프로세서에 의해 실행 가능한 기계 판독 가능한 명령어를 저장하는 메모리를 포함하는 전자 장치를 제공한다.

본 개시는 프로세서가 상술한 방법 중 어느 하나의 방법을 수행하게 하기 위해 프로세서에 의해 실행 가능한 기계 판독 가능한 명령어를 저장한 비일시적 기계 판독 가능한 저장 매체를 제공한다.

본 개시에서 제공되는 기술적 솔루션(solution)은 이미지 텍스처 품질 식별, 텍스처 복원 및 텍스처 특징 향상의 적어도 2가지 태스크(task)를 통합하고, 타겟 이미지 최적화를 수행하여 더 나은 이미지 최적화 효과를 달성한다.

본 개시의 다른 특징, 목적 및 이점은 다음의 도면을 참조하여 비제한적 실시예의 상세한 설명을 읽음으로써 더욱 명백해질 것이다.
도 1a는 본 개시의 일 실시예에 따른 이미지 최적화 방법을 도시하는 흐름도이다.
도 1b는 본 개시의 다른 실시예에 따른 이미지 최적화 방법을 도시하는 흐름도이다.
도 2는 본 개시의 일 실시예에 따른 이미지 최적화 방법의 구현을 예시하는 네트워크 아키텍처(network architecture)이다.
도 3은 본 개시의 일 실시예에 따른 이미지 최적화 장치를 도시하는 개략도이다.
도 4는 본 개시의 일 실시예에 따른 이미지 최적화 시스템을 도시하는 개략도이다.
도 5는 본 개시의 일 실시예에 따른 트레이닝 네트워크 아키텍처(training network architecture)를 도시하는 개략도이다.
도 6은 본 개시의 일 실시예에 따른 이미지 최적화 방법의 구현을 예시하는 네트워크 아키텍처이다.
도 7은 입력 이미지의 텍스처 품질을 도시하는 개략도이다.
도 8은 본 개시의 일 실시예에 따른 텍스처 품질 정보를 도시하는 다이어그램이다.
도 9는 설정된 영역 내의 텍스처 정보를 도시하는 개략도이다.
도 10은 부분 콘볼루션을 사용한 이미지에 대한 복원을 도시하는 개략도이다.
도 11은 본 개시의 일 실시예에 따라 텍스처 품질 정보를 추출하기 위한 CNN을 도시하는 개략적인 블록도이다.
도 12는 본 개시의 일 실시예에 따라 개선된 부분 콘볼루션과 기존의 부분 콘볼루션과의 비교를 도시하는 그래프이다.

본 개시는 첨부된 도면 및 실시예를 참조하여 아래에 더 상세히 설명된다. 본 명세서에 설명된 특정 실시예는 단지 관련 기술적 개념을 예시하고, 기술적 개념을 제한하지 않는 것으로 이해되어야 한다. 또한, 설명의 편의를 위해, 본 개시의 기술적 개념과 관련된 부분만이 첨부된 도면에 도시된다는 것이 주목되어야 한다. 본 명세서에서 사용된 바와 같이, 달리 지시되지 않는 한, "제1", "제2" 등과 같은 숫자 단어는 단지 하나의 요소를 다른 요소와 구별하기 위해 사용되고, 중요도 또는 우선 순위를 나타내지 않는 것으로 이해되어야 한다. 예를 들어, 제1 CNN과 제2 CNN은 단지 상이한 CNN임을 나타낸다.

본 개시의 실시예에서의 실시예 및 특징은 충돌 없이 서로 조합될 수 있다는 것이 주목되어야 한다. 본 개시는 이제 첨부된 도면 및 실시예를 참조하여 상세하게 설명될 것이다.

최근에, 딥 러닝 기반 이미지 최적화(deep learning-based image optimization)는 큰 진전을 이루었다. 일반적으로 언급되는 이미지 최적화는 광범위한 개념이며, 이미지 복원, 이미지 초해상도, 디블러링(deblurring)(예: 이미지에서 흐릿한 무늬(blurring artifacts)를 제거하는 기능), 노이즈 제거(de-noising) 등과 같은 갈래의 분야들을 포함한다. 상술한 각각의 분야는 일반적으로 특정 문제에 중점을 둔다. 예를 들어, 이미지 복원은 주로 손상된 이미지를 복원 및 재구성하거나 이미지에서 불필요한 객체(redundant object)를 제거하는 방법에 중점을 둔다. 이미지 초고해상도는 주로 저해상도 이미지 또는 이미지 시퀀스로부터 고해상도 이미지를 복원하는 방법에 중점을 둔다. 이미지 디블러링은 주로 손 흔들림(hand shaking) 또는 초점 이탈(out-of-focus)에 의해 유발된 블러링 현상(blurring phenomenon)을 제거하는 방법에 중점을 둔다. 이미지 노이즈 제거는 주로 이미지 촬영(image shooting) 또는 디지털화 프로세스에서 발생되는 노이즈를 제거하는 방법에 중점을 둔다.

추가적으로, 이미지의 전반적인 품질 개선에 관한 몇몇 연구가 있다. 이러한 연구는 이미지의 밝기, 색조, 대비(contrast)를 개선하여 이미지를 더욱 생생하게 만드는데 중점을 둔다.

미세 세분화 정도에서의 이미지 품질 향상은 휴대폰의 촬영 성능을 개선하기 위한 중요한 수단이다. 예를 들어, 특수 품질 향상(special quality enhancement)은 인간 이미지의 얼굴 및 머리카락과 사람의 드레스와 같은 영역에 대해 수행될 수 있다. 특수 품질 향상은 하늘, 빌딩 및 녹색 식물과 같은 특정 배경 객체에 대해 수행될 수 있다. 이러한 최적화는 텍스처가 없는 영역에 대한 텍스처 복원 및 텍스처가 있는 영역에 대한 텍스처 향상을 포함하여 이미지 텍스처를 보다 선명하고 자연스럽게 보이게 한다.

스마트 폰과 같은 단말기를 통해 사용자에 의해 촬영된 이미지는 종종 사람 얼굴의 주름, 의복 질감(garment texture), 빌딩 벽의 주기적 패턴, 산 단층(mountain fault)에서 암석 질감(rock textures) 등과 같은 다수의 텍스처들을 포함한다. 이러한 텍스처의 제시(presentation)는 객체의 상세 정보를 반영하며, 이미지의 표현(expressiveness)에 중요한 영향을 미친다. 그러나, 다양한 이유로, 캡처된 이미지 또는 디지털화된 이미지는 종종 일부의 텍스처가 결여된다. 예를 들어, 이미지 센서에 의해 캡처된 이미지는 이미지 신호 프로세서(image signal processor, ISP)로 송신될 것이고, ISP의 일부 후처리(post-processing)(예를 들어, 주변 광이 충분하지 않을 때, 많은 노이즈가 ISP에 의해 캡처된 원본 이미지에 존재하고, ISP는 이와 같은 이미지 상에서 노이즈 제거 처리를 수행함)는 이미지의 텍스처 품질을 저하시킬 수 있으며, 일부 영역에서 텍스처 정보가 약화되거나 누락되기도 한다. 텍스처가 약한 영역의 경우, 텍스처 특징 향상이 필요하지만, 텍스처가 누락된 영역의 경우, 텍스처 복원이 필요하다.

상술한 바와 같이, 텍스처의 결함은 촬영시의 고유 결함(촬영 각도, 광 등에 의해 야기되는 텍스처 결함으로서, 객관적 결함(objective defect)으로 지칭될 수 있음), 및 디지털화 프로세스(digitization process) 후의 획득된 결함(노이즈 제거, ISP에서의 데모세이징(demosaicing), 손실 압축 등과 같은 이미지의 후처리에 의해 야기되는 텍스처 결함으로서, 주관적 결함(subjective defect)으로 지칭될 수 있음)을 포함한다. 본 개시의 실시예에 따르면, 디지털화 프로세스 후 획득된 손실이 최적화될 수 있고, 이에 의해 이미지의 자연스러움과 합리성(naturalness and rationality)이 개선된다.

본 개시의 실시예는 이미지에서 손실된 텍스처 정보를 복원하고 나아가 취약한 텍스처 정보를 향상시키는 이미지 최적화 방법을 제공한다. 본 개시의 실시예의 이미지 최적화 방법은 인간 이미지의 얼굴 영역, 머리카락 영역, 의복 영역, 하늘 영역, 빌딩 영역, 녹색 식물 영역 등과 같은 특정 영역에 대해 최적화될 수 있다.

복원될 필요가 있는 이미지에 대해 이미지 복원 방법이 사용될 수 있다. 예를 들어, 사용자는 이미지에서 특정 객체를 제거하기를 원할 수 있다. 이미지 복원 방법은 일반적으로 채워진 영역이 사용자의 시각적 요구 사항을 만족시키는 방식으로 이미지의 영역의 일부를 채우고, 복원된 이미지가 진본(authenticity)임을 가능한 많이 보장하는 것이다. 예를 들어, 이미지의 경우, 사용자는 복원될 영역을 마킹(marking)할 수 있고, 마킹된 영역을 포함하는 이미지는 마스크 맵(mask map)으로 지칭될 수 있다. 마스크 맵에 따르면, 마킹된 영역은 복원될 수 있고, 마킹된 영역의 정보는 복원될 수 있다. 상술한 이미지 복원 방법에 의해, 이미지의 특정 객체는 제거되거나, 페인팅(painting)은 복원될 수 있다. 그러나, 이러한 이미지 복원 방법은 수동 마킹에 의해 복원될 영역을 필요로 하므로, 비효율적이고 융통성이 없는 이미지 복원을 초래한다. 추가적으로, 실시간 성능을 필요로 하는 이미지 처리 태스크(예를 들어, 비디오 라이브 브로드캐스팅(video live broadcasting))에서 이러한 수동 마킹 프로세스를 수행하는 것은 비현실적이다.

또한, 상술한 이미지 복원 방법은 마킹된 영역 내의 이미지 정보를 무시하는 경향이 있고, 마킹된 영역 주변의 이미지 정보만이 마킹된 영역의 이미지 복원을 위해 사용된다. 마킹된 영역의 텍스처 정보는 더 약할 수 있지만, 약한 텍스처 정보는 텍스처 복원 프로세스에서 유용한 정보일 수 있고, 텍스처 복원에 도움이 될 수 있는 컬러(color)과 같은 다른 유용한 정보가 마킹된 영역에 있을 수 있다. 이러한 유용한 정보는 텍스처 복원을 위한 의미 있는 가이드 역할을 할 수 있다. 기존의 이미지 복원 방법에서 마킹된 영역의 정보는 효과적으로 이용되지 않으므로, 복원된 텍스처 정보는 의미론적으로(semantically) 합리적일 수 있지만, 진본성이 부족할 수 있다. 일부 이미지 처리 태스크에서, 복원된 이미지는 품질이 불량할 수 있다.

추가적으로, 이미지 복원 방법은 손실된 텍스처 영역의 정보만을 복원하고, 약한 텍스처 영역(텍스처 정보가 약한 영역)에 주의를 기울이지 않는다. 본 개시의 실시예는 약한 텍스처 영역의 텍스처 상세 사항이 향상될 수 있고, 전체 텍스처 품질이 향상될 수 있음을 제안한다. 본 개시의 실시예는 또한 텍스처 복원 및 텍스처 향상을 동시에 수행할 수 있다. 다시 말하면, 텍스처 정보가 손실된 영역이 복원될 필요가 있을 뿐만 아니라, 약한 텍스처 영역의 텍스처 상세 사항이 향상됨에 따라, 전체적으로 이미지의 텍스처 품질이 향상될 수 있다. 이 경우, 이미지 최적화 태스크는 혼합된 태스크로서 간주될 수 있고, 텍스처 복원 태스크 및 텍스처 향상 태스크는 혼합된다.

도 1a는 본 개시의 일 실시예에 따른 이미지 최적화 방법(1000)을 도시하는 흐름도이다.

단계(S1010)에서, 입력 이미지에서의 텍스처 품질의 공간 분포를 나타내는 텍스처 품질 정보는 입력 이미지로부터 추출된다.

일반적으로, 입력 이미지에서 텍스처의 전체적인 균질성 손실(homogeneity loss)의 가능성은 낮다. 통상적으로, 영역의 일부이 텍스처의 상당한 손실을 갖는다. 즉, 텍스처 품질은 공간에 균일하게 분포되지 않는다. 텍스처 품질 정보는 이미지에서 텍스처 정보의 품질을 나타낸다. 도 7을 참조하면, 입력 이미지(7000)에서, 줄무늬(stripe)가 명확한 높은 텍스처 품질 영역(7100) 및 줄무늬가 명확하지 않거나 심지어 사라지는 낮은 텍스처 품질 영역(7200)이 있을 수 있다. 높은 텍스처 품질 영역(7100)에서 줄무늬는 명확한 방향 및 스트라이프 패턴의 높은 선명도(sharpness)를 갖는다. 낮은 텍스처 품질 영역(7200)에서 줄무늬의 상세 사항은 시각적으로 구별할 수 없다.

이미지를 최적화할 때, 텍스처 손실이 심각한 영역과 텍스처 손실이 분명하지 않은 영역에 대해 상이한 최적화 방법을 사용하는 것이 유리하다. 이러한 타겟화된(targeted) 최적화는 실제 이미지를 보다 자연스럽게 복원하여, 더 나은 이미지 최적화 효과를 달성할 수 있다. 따라서, 텍스처 복원에 앞서, 입력 이미지의 텍스처 품질을 식별(discriminating)하는 단계(S1010)가 수행될 수 있다.

(이미지의 텍스처 품질을 평가하는 것으로 지칭될 수도 있는) 이미지의 텍스처 품질을 식별하는 것은 이미지 내의 각각의 픽셀의 텍스처 품질을 평가하는 것으로 간주될 수 있다. "좋음(Good)"과 "나쁨(Poor)"은 질적인 설명일 뿐이다. 실제 텍스처 복원 태스크에서는 정량적인 판단(quantitative judgment)이 필요하다. 따라서, 본 개시의 실시예는 입력 이미지로부터 텍스처 품질 정보를 추출하하는 것을 제안한다. 텍스처 품질 정보는 텍스처 품질 맵의 형태로 구현될 수 있다. 이러한 맵은 각각의 픽셀의 텍스처 품질의 정도(degree)의 확률 맵(probability map)으로 간주될 수 있다. 텍스처 품질의 정도는 이미지에서 텍스처 손실의 정도, 즉 원래의 실제 텍스처에 비해 약화되는 텍스처의 정도로 더 설명될 수 있다.

텍스처 품질 맵은 입력 이미지와 동일한 픽셀 밀도를 가질 수 있다. 텍스처 품질 맵의 각각의 픽셀 포인트의 픽셀 값은 픽셀 포인트에 대응하는 텍스처 품질을 나타낸다. 텍스처 품질 정보의 값 범위는 예를 들어 [0, 1]일 수 있으며, 여기서 0은 텍스처가 완전히 손실됨을 나타내고, 1은 텍스처가 완전히 보존됨을 나타낸다. 텍스처 품질 정보는 0과 1 사이의 값, 예를 들어 0, 0.2, 0.6, 0.8, 1 등으로서 구현될 수 있다.

도 8은 본 개시의 일 실시예에 따른 텍스처 품질 정보의 예시적인 실시예를 도시한다. 입력 이미지(8100)는 높은 텍스처 품질 영역 및 낮은 텍스처 품질 영역을 포함한다. 예시적으로, 입력 이미지(8100)는 상술한 입력 이미지(7000)와 동일한 텍스처를 갖는다. 텍스처 품질의 공간 분포를 포함하는 텍스처 품질 특징 맵(8200)은 후술하는 특징 추출 동작에 의해 입력 이미지(8100)로부터 획득될 수 있다. 텍스처 품질 맵(8300)은 텍스처 품질 특징 맵(8200)으로부터 생성될 수 있다. 상술한 바와 같이, 텍스처 품질 맵은 텍스처 품질 정보의 구현들 중 하나일 수 있다. 텍스처 품질 맵(8300)은 텍스처 품질을 나타내는 값의 어레이(array)일 수 있다. 어레이에서 행과 열의 교차점(intersection)은 또한 "픽셀"로 지칭될 수 있다. 텍스처 품질 맵(8300)은 입력 이미지(8100)와 동일한 픽셀 밀도를 가질 수 있다. 대안적으로, 텍스처 품질 맵(8300)의 픽셀 밀도는 입력 이미지(8100)의 픽셀 밀도보다 낮을 수 있다. 텍스처 품질 맵(8300)의 각각의 픽셀은 0과 1 사이의 값일 수 있다. 이러한 값의 크기는 입력 이미지(8100)의 텍스처 품질, 예를 들어 텍스처의 명료성(clarity), 선명도 등을 반영할 수 있다.

단계(S1020)에서, 입력 이미지에 기초하여 텍스처 복원 이미지를 생성하기 위해 텍스처 복원은 입력 이미지의 설정된 영역 상에서 수행된다. 상기 설정된 영역은 사용자에 의해 지정된 영역 또는 미리 설정된 임계 값 이하의 텍스처 품질을 갖는 영역 등일 수 있다.

상술한 바와 같이, 텍스처 품질의 공간 분포에 기초하여, 상이한 텍스처 품질을 가진 영역에 대해 상이한 최적화 방법을 사용하는 것이 유리하다. 따라서, 본 개시에 따르면, 텍스처 품질 정보를 가이드로 하여 입력 이미지의 설정된 영역 상에서 텍스처 복원을 수행할 수 있다. 이러한 설정된 영역은 단계(S1010)에서 추출된 텍스처 품질 정보에 기초하여 식별될 수 있다. 예를 들어, 입력 이미지 및 텍스처 품질 정보는 픽셀 단위(pixel-by-pixel basis)로 일대일 대응할 수 있다. 입력 이미지의 설정된 영역은, 텍스처 품질이 미리 결정된 임계 값 미만인 텍스처 품질 정보의 영역에 대응할 수 있다. 본 개시의 실시예는 텍스처 품질 식별 및 텍스처 복원을 자동으로 수행할 수 있고, 기존의 이미지 복원 기술과는 상이한 능동적인 이미지 복원(active image restoration)으로 간주될 수 있다. 누락된 영역(missing region)(일반적으로 마스크 또는 마스크 맵이라고 함)이 주어지면, 종래 이미지 복원 기술의 목적은 전체적으로 텍스처 및 구조의 일관성을 달성하거나 의미적 및 시각적인 신뢰성(semantic and visual credibility)을 달성하기 위해 누락된 영역의 픽셀을 채우는 것이다. 이러한 기술은 누락된 영역을 인위적으로 지정하는 것을 필요로 하며, 수동적인 이미지 복원(passive image restoration)에 속한다. 추가적으로, 종래 기술의 이미지 복원에서, 누락된 영역의 픽셀은 구현 프로세스에서 유효하지 않은 픽셀인 것으로 간주되고, 누락된 영역 주변의 픽셀 정보 및 트레이닝 샘플(training sample)의 정보가 이미지 복원 프로세스에 사용된다. 따라서, 이러한 기술에 의해 복원된 이미지 콘텐츠는 의미론적으로 합리적이지만, 진본성이 부족할 수 있다. 이것은 누락된 영역의 크기가 더 커질 때 더 두드러진다. 대조적으로, 본 개시의 실시예에서의 텍스처 복원은 설정된 영역 주변의 픽셀 정보 및 트레이닝 샘플 정보와, 설정된 영역에 존재하는 정보(예컨대, 컬러 및 약한 텍스처 특징)를 가이드로서 사용하여, 복원된 이미지 콘텐츠가 보다 사실적이고 자연스럽도록 설정된 영역에서의 텍스처 상세 정보를 복원한다.

도 1b를 참조하면, 이미지 최적화 방법(1000A)은 텍스처 복원 이미지 상에서 텍스처 특징 향상(texture feature enhancement)을 수행하는 단계(S1030)를 더 포함할 수 있다. 상기 텍스처 복원된 이미지는 단계(S1020)에서 복원된 설정된 영역과 단계(S1020)에서 복원되지 않은 외부 영역을 모두 포함한다. 텍스처 특징 향상은 설정된 영역에 대응하는 영역에만 한정되는 것이 아니라 텍스처 복원된 이미지의 전체 영역에 대해 수행될 수 있다. 이러한 텍스처 특징 향상은 텍스처 상세 특징의 최적화를 포함할 수 있다. 단계(S1020)에서 복원된 설정된 영역의 텍스처는 주로 설정된 영역 주변의 픽셀 정보 및 설정된 영역 내부의 기존의 정보를 이용한다. 설정된 영역 주변의 텍스처는 텍스처 특징으로 향상될 필요가 있다. 따라서, 텍스처 복원된 영역의 텍스처 특징은 또한 향상될 필요가 있다.

텍스처 상세 특징의 최적화는 텍스처 상세 정보의 추가적인 보강(enrichment)으로 이해될 수 있다. 예를 들어, 희미한(indistinct) 텍스처가 더 명확해지고, 패시베이션된(passivated) 텍스처 상세 사항이 더 선명해지는 경우가 있을 수 있으며, 이러한 상세 사항 변경은 객체 상에서 렌더링 효과를 향상시키는데 유리하다.

본 개시의 일 실시예에 따르면, 입력 이미지는 텍스처 품질 정보를 획득하기 위해 이하에서 제1 CNN으로서 지칭되는 CNN과 같은 신경망(neural network)에 의해 추출된 특징일 수 있다. 텍스처 품질은 서로 다른 텍스처 품질 레벨로 표현될 수 있다. 예를 들어, 텍스처 품질은 10가지의 품질 레벨로 나눌 수 있다. 레벨 1은 최악의 품질을 나타내고 레벨 10은 최상의 품질을 나타낸다. 이 경우, 텍스처 품질 정보를 추출하기 위한 태스크(task)(예: S1010)는 CNN을 통해 수행되는 분류 태스크(classification task)로 이해될 수 있고, 텍스처 품질 정보는 픽셀 레벨에서 품질 레벨 또는 품질 클래스 맵으로 간주될 수 있다.

텍스처 품질 정보가 0과 1의 두 개의 값만을 가질 때, 즉 텍스처 품질 정보가 이진 맵일 때, 텍스처 품질 정보의 추출 태스크는 픽셀 레벨에서 2 카테고리 분류 태스크로 진화된다. 즉, 분류 레벨은, 이진 맵에서 각각의 값이 0 또는 1일 수 있거나, 0.1 또는 0.9와 같은 다른 두 개의 값일 지라도, (1에 대응하는) 좋은 텍스처 및 (0에 대응하는) 나쁜 텍스처로서 두 개의 카테고리를 포함한다. 실제 텍스처 품질 분포를 고려할 때, 텍스처 품질은 좋은 것과 나쁜 것 사이에서 갑작스럽지 않으며, 일반적으로 전환 영역이 있다. 이러한 경우에, 텍스처 품질 정보가 0.2, 0.4, 0.6 및 0.8과 같이 0과 1 이외의 값을 가질 때, 상술한 텍스처 품질 정보의 추출 태스크는 픽셀 레벨에서 다중 카테고리 분류 태스크(다중 값 분류 태스크로도 지칭될 수 있음)로 진화된다. 예를 들어, 텍스처 품질 정보는 [0,1] 범위의 픽셀 값을 가질 수 있다. 즉, 텍스처 품질은 복수의 레벨로 나뉘어지며, 각각의 레벨은 카테고리에 대응한다. 이러한 분류 태스크에서의 카테고리의 수는 텍스처 품질의 공간 분포를 설명하는데 있어서 개선 정도(the degree of refinement) 를 결정한다. 분명히, 카테고리의 수가 많을수록, 텍스처 품질의 공간 분포(spatial distribution)가 더 세밀해진다. 카테고리 수가 적을수록, 텍스처 품질의 공간 분포가 더 거칠어진다.

실제 이미지에서, 일반적으로 좋은 텍스처 품질의 영역과 나쁜 품질의 영역 사이에는 변화(mutation)가 없다. 정확한 텍스처 품질 정보를 획득하기 위해, 미세한 텍스처 품질의 그라데이션(gradation)이 필요하다. 따라서, CNN에 의한 멀티-클래스 픽셀 분류가 요구된다.

본 개시의 일 실시예에 따르면, 텍스처 품질 정보의 다중 값 효과(multi-valued effect)는 또한 이진화된 효과에 의해 실현될 수 있다. 텍스처 품질 정보가 이진 이미지일 때(즉, 텍스처 품질 정보는 이진 정보임), 이미지에서 이진 값의 경계에서의 텍스처 품질 정보(약한 텍스처 영역 또는 전환 영역의 경계 위치로서 지칭될 수도 있음)는 평활화(smoothing)될 수 있고, 필터링 처리(filtering processing)와 같은 평활화 처리 방법이 사용될 수 있다. 평활화 처리 후 경계에서의 값은 이진 값 사이일 수 있다. 이러한 값은 좋은 품질과 나쁜 품질 사이의 전환 품질 등급(transition quality rating)으로서 이해될 수 있다. 평활화 처리에 의해, 분류 태스크는 용이하게 실시될 수 있고, 텍스처 품질 정보의 영역 사이의 전환은 더욱 현실적으로 이루어질 수 있어, 후속 텍스처 복원의 효과를 개선할 수 있다. 더욱이, 상술한 평활화 처리에 의해, 이진화된 그래프는 다중 값 그래프로 처리된 것으로 간주된다. 상술한 처리 방법은 실용적이고 조작하기 쉬운 분류 작업(easy-to-operate classification practice)을 하나만 제공하지만, 이미지 텍스처 품질 정보의 추출은 이러한 방법에 국한되지 않는다는 것이 주목되어야 한다. 실제 응용에서는, 이미지 최적화 태스크의 특정 요구 사항에 따라 적절한 수의 카테고리가 선택될 수 있다.

본 개시의 실시예에서의 텍스처 품질 맵은 마스크 맵으로 지칭될 수 있다.

제 1 CNN의 특정 구조는 특별히 제한되지 않는다. 시맨틱 세그먼테이션(semantic segmentation) 및 이의 변형을 위해 SegNet과 같이 픽셀 레벨 분류를 가능하게 하는 임의의 CNN이 사용될 수 있다.

본 개시의 일 실시예에 따르면, 단계(S1020)는 제2 CNN을 사용하여 개선된 부분 콘볼루션(improved partial convolution)을 사용함으로써 입력 이미지에서 약한 텍스처 품질 영역에 대하여 텍스처 복원을 수행할 수 있다. 부분 콘볼루션은, 콘볼루션 동작이 이미지의 픽셀 위치 상에서 수행될 때, 콘볼루션 커널(kernel) 매트릭스에 대응하는 픽셀 주위의 모든 픽셀이 콘볼루션 동작에 관련되지는 않는다는 것을 의미한다. 개선된 부분 콘볼루션은, 콘볼루션 동작이 이미지의 픽셀 위치 상에서 수행될 때, 콘볼루션 커널 매트릭스에 대응하는 픽셀 주위의 모든 픽셀이 콘볼루션 동작에 관련되지만, 참여도(degree of participation)가 상이하다는 것을 의미한다. 상이한 참여도는 각각의 픽셀이 특정 가중치에 따라 콘볼루션 동작에 참여한다는 것을 의미한다. 제1 CNN에 의해 획득된 텍스처 품질 정보 상에서 각각의 픽셀 값은 이미지 상에서 대응하는 픽셀의 초기 콘볼루션 가중치로 이해될 수 있다.

제2 CNN으로의 입력은 추출된 텍스처 품질 정보 및 입력 이미지이다. 제2 CNN은 Unet 네트워크 아키텍처를 채택할 수 있다. Unet 네트워크는 특징 추출 및 업샘플링 퓨전(up-sampling fusion)을 포함한 U자형 CNN이다. 콘볼루션 동작은 종래 기술의 특정 방식으로 수행될 수 있으며, 관련 상세 사항은 본 명세서에서 설명되지 않는다.

제2 CNN의 특징 추출 부분은 복수의 네트워크 계층을 포함하고, 각각의 네트워크 계층으로의 입력은 마스크 맵 및 이전의 네트워크 계층에 의해 업데이트된 특징 맵이다. 제 1 네트워크 계층으로의 입력은 입력 이미지 및 S1010에 의해 추출된 마스크 맵이다. 각각의 계층은 먼저 입력 마스크 맵 및 입력 특징 맵 상에서 포인트 곱셈 연산(point multiplication operation)을 수행한 다음, 포인트 곱셈 연산에 의해 획득된 특징 맵 상에서 콘볼루션 연산을 수행한다. 입력 마스크 맵은 또한 콘볼루션 커널 매트릭스가 일정한 콘볼루션 동작에 의해 업데이트되고, 업데이트된 마스크 맵 및 콘볼루셔널 특징 맵은 다음 네트워크 계층에 입력된다.

제2 CNN의 업샘플링 퓨전 부분 및 특징 추출 부분의 구조는 실질적으로 일정하다. 예를 들어, 업샘플링 퓨전 부분 및 특징 추출 부분에 포함된 계층의 수는 일정하고, 콘볼루션 동작의 동작 모드 및 업샘플링 퓨전 부분의 마스크의 업데이트 모드는 특징 추출 부분의 것과 일치한다. 그러나, 업샘플링 퓨전 부분 및 특징 추출 부분과 관련하여, 이미지들의 콘볼루션 커널들은 상이하고, 각각의 계층으로의 입력들은 상이하다. 입력은 이전의 네트워크 계층으로부터 업데이트된 마스크 맵, 및 이전의 네트워크 계층으로부터 업데이트된 특징 맵 및 특징 추출 부분의 대응하는 계층 레벨에서의 특징 맵의 연결(concatenation)을 포함한다.

종래의 부분 콘볼루션 동작에서, 복원될 영역의 외부 주변의 텍스처 또는 이미지 정보만이, 복원될 영역의 이미지 패딩 또는 복원을 위해 사용된다. 구체적으로, 종래의 부분 콘볼루션 동작에서, 사용된 마스크 맵은 이진화된 마스크로 구성된다. 즉, 각각의 픽셀 값은 0 또는 1이다. 픽셀 값이 0인 영역은 실제로 유용한 정보 없이 빈 구멍(empty hole)으로서 처리된다. 그러나, 실제 이미지에서, 약한 텍스처 영역은 빈 구멍이 아니며, 텍스처 및 컬러와 같은 이미지 정보는 약한 텍스처 영역에 존재한다. 이미지 정보가 0의 값으로 직접 설명되는 경우, 영역이 부분적으로 콘볼루션일 때, 유효 이미지 정보는 이용되지 않고, 설정된 영역 주변의 정보만이 복원을 위해 사용된다. 복원의 콘텐츠는 의미론적으로 합리적이지만, 진본성이 부족하여 복원 효과에 영향을 미친다.

다음의 수학식 1은 종래의 부분 콘볼루션 기술에서 임의의 계층의 마스크 맵을 업데이트하는 방법이며, 사용된 마스크 맵은 이진화된 마스크 맵이다. 이러한 업데이트 방법은 "one-size-fits-all" 방식을 채택하는데, 여기서 설정된 영역에서의 마스크의 픽셀 값은 0이다.

M'은 업데이트된 마스크 맵에 대응하는 픽셀 값 매트릭스 내의 임의의 픽셀 값이다. M은, 임의의 픽셀 값이 콘볼루션될 때, 콘볼루션 동작을 수행하는 업데이트된 마스크 맵에 대응하는 픽셀 값 매트릭스에서의 픽셀 값 영역(픽셀 값 서브매트릭스라고도 함)이다. sum(M)은 픽셀 값 서브매트릭스 내 픽셀 값들의 합을 지칭한다.

상술한 바로부터 알 수 있는 바와 같이, 픽셀 값 서브매트릭스내 임의의 픽셀 값이 1인 경우, 업데이트된 픽셀 값은 1이다. 픽셀 값 서브매트릭스의 모든 픽셀 값들이 0이면, 업데이트된 픽셀 값은 0이다.

그러나, 많은 실제 이미지 최적화 태스크들에 대해, 설정된 영역에서도, 대부분의 픽셀들의 이미지 텍스처는 완전히 누락되지는 않는다. 추가적으로, 설정된 영역의 컬러 정보는 또한 텍스처 복원을 위한 중요한 가이드 정보이다. 따라서, 설정된 영역 내의 이미지 정보는 여전히 이용 가치(utility value)가 있다.

도 9는 설정된 영역에서 텍스처 정보를 사용하는 방법을 도시하는 개략도이다. 원본 이미지(9100)는 텍스처가 분명한 실제 이미지(texture-clear ground truth image)이다. 입력 이미지(9200)는 원본 이미지(9100)에 대응하는 이미지일 수 있다. 예를 들어, 입력 이미지(9200)는 실제 이미지보다 텍스처가 상대적으로 부정확할 수 있다. 입력 이미지(9200)에서, 디지털화 처리 후의 획득된 손실(예컨대, 이미지 노이즈 제거, 모자이크 처리, 손실 압축 등으로 인한 텍스처 손실)로 인해 일부 영역(9210)의 텍스처 상세 사항이 흐려진다. 그러나, 텍스처 상세 사항이 명확하지 않은 이러한 영역(9210)에서도, 이미지 텍스처는 완전히 누락되지는 않는다. 추가적으로, 이러한 영역은 여전히 컬러 정보를 포함한다(도면에는 도시되지 않음). 이러한 불완전한 텍스처 정보 및 컬러 정보는 텍스처 복원에 중요한 역할을 한다. 도 9는 또한 상술한 영역(9210)의 정보의 사용 없이 복원된 이미지(9300)를 도시한다. 복원된 이미지(9300)로부터 알 수 있는 바와 같이, 복원된 이미지(9300)에서의 복원된 영역(9310)의 콘텐츠는 의미론적으로 합리적일 수 있지만, 이미지가 영역(9210) 주변의 정보만을 사용하여 복원되고, 영역(9210) 내의 정보를 무시할 때 진본성은 좋지 않다.

상술한 문제점을 해결하기 위해, 본 개시의 실시예는 설정된 영역 내부의 이미지 정보 및 설정된 영역 외부의 이미지 정보가 모두 콘볼루션 프로세스 동안 설정된 영역의 텍스처를 복원하는데 사용되는 개선된 부분 콘볼루션을 제안한다. 특히, 본 개시에서 제안된 개선된 부분 콘볼루션 동작에서, 마스크 맵은 다중 값 속성(multi-valued attribute), 즉 다중 값 정보를 포함하며, 이는 또한 다중 값 맵으로서 지칭될 수 있다. 설정된 영역에서도, 마스크 맵의 픽셀 값은 0이 아니며, 값은 이미지 또는 특징 맵에 대응하는 픽셀이 콘볼루션에 참여하게 하는 가중치 계수이다. 따라서, 콘볼루션 커널 매트릭스가 이미지 또는 특징 맵과 도트 곱셈(dot multiply)될 때, 픽셀은 특정 가중치로 콘볼루션 동작에 참여하고, 픽셀 위치의 이미지 정보는 어느 정도 이용된다. 다시 말하면, 설정된 영역의 기존 이미지 정보는 효과적으로 이용된다. 설정된 영역 내의 각각의 픽셀 포인트에 대한 정보의 이용 정도는 픽셀 포인트에서의 마스크 맵의 픽셀 값의 크기 및 설정된 영역 외부의 주변 정보에 의존한다.

다음의 수학식 2는 다중 값 마스크를 사용하여 부분 콘볼루션의 계층들 중 어느 하나에서 마스크 패턴을 업데이트하는 개선된 방식이다.

M'은 업데이트된 마스크 맵에 대응하는 픽셀 값 매트릭스에서의 임의의 픽셀 값이다. W는 콘볼루션 가중치 파라미터들이 일정한 콘볼루션 커널 매트릭스(예를 들어, 파라미터들의 각각은 1일 수 있음)이다. M은, 콘볼루션이 픽셀 값들 중 어느 하나에서 수행될 때, 콘볼루션 동작이 업데이트된 마스크 맵에 대응하는 픽셀 값 매트릭스에서 수행되는 픽셀 값 영역(픽셀 값 서브매트릭스라고도 할 수 있음)이다. sum(W)는 콘볼루션 커널 매트릭스의 가중치들의 합을 지칭한다.

상술한 바로부터 알 수 있는 바와 같이, 설정된 영역의 마스크 맵에 대응하는 픽셀 값이 0이 아니므로, 대응하는 위치에서의 기존의 이미지 정보를 사용하여 텍스처 복원이 수행될 수 있고, 이에 따라 텍스처 복원의 진본성 및 자연스러운 느낌이 개선될 수 있다.

이 경우, 텍스처 복원 프로세스에서, 설정된 영역 외부의 이미지 정보는 설정된 영역의 텍스처 복원을 위한 자료(material)로서 사용되고, 설정된 영역 내부의 이미지 정보 또한 설정된 영역의 텍스처 복원을 위해 사용된다. 따라서, 텍스처 복원의 합리성과 진본성이 개선되고, 이미지 최적화 효과가 개선된다.

도 10은 부분 콘볼루션을 사용한 이미지의 복원을 예시하는 개략도이다. 도 10을 참조하면, 입력 이미지(111)는 마스크 맵(112)과의 요소 별 도트 곱셈 연산(element-by-element dot multiplication operation)을 받는다. 상술한 바와 같이, 이러한 프로세스에서, 설정된 영역 주변의 이미지 정보가 설정된 영역의 텍스처 복원에 사용되고, 설정된 영역 내의 이미지 정보 또한 설정된 영역의 텍스처 복원에 사용된다. 다시 말하면, 마스크 맵(112)에서 설정된 영역에 대응하는 영역의 요소 값은 0이 아니다. 콘볼루션 동작은 특징 맵(121)을 생성하고, 마스크 맵(112)은 콘볼루션 커널 매트릭스가 일정한 포인트 곱셈 연산에 의해 유사하게 업데이트된다. 업데이트된 마스크 맵(122) 및 특징 맵(121)은 새로운 특징 맵을 생성하도록 도트 곱셈되고, 마스크 맵(122)은 또한 상술한 단계에 따라 업데이트된다. 마지막 단계에서의 특징 맵(131) 및 마스크 맵(132)은 복원된 출력 이미지(140)를 생성하도록 도트 곱셈된다.

도 12는 본 개시의 일 실시예에 따라 개선된 부분 콘볼루션과 기존의 부분 콘볼루션의 비교를 도시하는 그래프이다.

종래의 부분 콘볼루션 기법에 따르면, 복원되도록 설정된 영역에 대응하는 마스크 맵(11)의 마스크 값은 모두 0이다. 마스킹된(masked) 영역 주위의 픽셀 정보 및 트레이닝 샘플 정보만이 이미지 복원 프로세스에서 이용된다. 하나 또는 다수의 업데이트 후에, 초기 마스크 맵(11)은 최종 마스크 맵(12)으로 업데이트되고, 여기서 설정된 영역 내의 마스크 값은 모두 1로 업데이트된다. 이러한 기법에 따라 복원된 이미지는 콘텐츠에서 의미론적으로 합리적일 수 있지만, 진본성이 부족할 수 있다. 이는 누락된 영역의 크기가 커질 때 더 두드러진다.

본 개시에서 제공되는 개선된 로컬 콘볼루션 기법에 따르면, 복원되도록 설정된 영역에 대응하는 마스크 맵(21)의 마스크 값은 예를 들어, 텍스처 품질의 정도에 따라 0이 아닌 값이 할당된다. 도 10을 참조하여 상술한 바와 같은 텍스처 복원 프로세스에서, 마스크 값에 의해 결정된 가중치에 기초하여, 설정된 영역 내의 텍스처 품질 정보 및 설정된 영역 외부의 텍스처 품질 정보를 이용하여 입력 이미지의 설정된 영역 상에서 텍스처 복원이 수행된다. 각각의 업데이트 동안, 마스크 맵의 각각의 요소에 대한 마스크 값은, 모든 값이 결국 1로 업데이트될 때까지(즉, 완전 복원), 업데이트된다.

본 개시의 일 실시예에 따르면, 단계(S1030)는 잔차 네트워크(residual network)를 사용함으로써 구현될 수 있다. 예를 들어, 텍스처 특징 향상은 텍스처 복원된 이미지 및 잔차 네트워크로부터의 잔차 출력을 이용하여, 텍스처 복원된 이미지 상에서 수행될 수 있다. 잔차 네트워크가 네트워크의 출력과 입력 사이의 잔차(residual)에 맞기 때문에, 저주파수 성분은 무시되고, 고주파 성분은 강조될 수 있다. 따라서, 잔차 네트워크는 트레이닝 동안 그라디언트 분산(gradient dispersion)을 피하거나 완화하기 위해 목적 함수에 더욱 쉽고 효과적으로 맞출 수 있다.

본 개시의 실시예에서, 잔차 네트워크는 일련의 순서로 배열된(cascade) 여러 콘볼루션 모듈을 포함할 수 있다. 네트워크 모델을 감소시키고, 계산 부담을 줄이고, 네트워크 트레이닝 동안 수렴 능력(convergence ability)을 향상시키기 위해, 본 개시는 콘볼루션 모듈의 수가 감소될 수 있고, 설정된 수보다 작은 콘볼루션 모듈의 수, 예를 들어 5개의 캐스케이드된 콘볼루션 모듈이 선택될 수 있다.

각각의 콘볼루션 모듈은 캐스케이드된 여러 콘볼루션 계층을 포함할 수 있으며, 본 개시의 실시예는 상술한 캐스케이드 모드가 직렬 모드, 병렬 모드 또는 하이브리드 모드일 수 있음을 제시한다. 직렬 모드는 콘볼루션 계층이 다른 콘볼루션 계층과 직렬로 연결됨을 나타낸다. 병렬 모드는 각각의 콘볼루션 계층이 병렬로 배치되고 콘볼루션 동작의 결과가 조합됨을 나타낸다. 혼합 모드는 직렬 모드와 병렬 모드의 조합이다. 예를 들어, 병렬로 연결된 여러 콘볼루션 계층은 직렬로 더 연결된다. 본 개시의 실시예에 따르면, 콘볼루션 계층은 확장된 콘볼루션 계층일 수 있다.

더욱이, 큰 수용 필드(receptive field)를 얻고 상이한 세분화 정도의 텍스처 정보에 초점을 맞추기 위해, 본 개시의 실시예는 각각의 콘볼루션 모듈이 멀티-스케일 콘볼루션 모드(multi-scale convolutional mode)를 채택할 수 있음을 제시한다. 즉, 콘볼루션 모듈들 중 어느 하나에서 적어도 2개의 확장된 콘볼루션 계층은 상이한 확장 비율(dilated ratios)을 갖는다. 예를 들어, 확장 비율이 (1, 2, 5)인 조합이 채택될 수 있다. 상이한 확장 비율은 상이한 수용 필드에 대응할 수 있으며, 이는 상이한 스케일의 정보에 대응할 수 있다. 예를 들어, 더 큰 확장 비율은 더 큰 수용 필드에 대응된다. 더 큰 수용 필드는 긴 거리 정보에 더 많은 주의를 기울이고, 이에 따라 큰 규모의 텍스처 잔차(large-scale texture residual)를 얻는데 기여한다. 더 작은 확장 비율은 더 작은 수용 필드에 대응되고 짧은 거리 정보와 더 밀접한 관련이 있으며, 작은 규모의 텍스처 잔차를 얻는데 기여한다. 멀티-스케일 콘볼루션 방법에 따르면, 커널(kernel)의 연속성이 보장될 수 있고, 콘볼루션의 그리드 효과가 방지되며, 상이한 세분화 정도의 정보가 관련된다. 이러한 경우, 상이한 스케일의 텍스처 잔차 정보가 획득되고 이에 따라 이미지 최적화 효과가 크게 개선된다. 상술한 멀티-스케일 콘볼루션 방법은 또한 혼합된 확장 비율 콘볼루션 방법으로서 지칭될 수 있다.

이미지 최적화 방법을 구현하기 위한 네트워크 아키텍처는 도 2를 참조하여 아래에 설명된다.

도 2를 참조하면, 제1 CNN(2010), 제2 CNN(2020) 및 잔차 네트워크(2030)는 텍스처 품질 정보 추출(제1 단계), 텍스처 복원(제2 단계) 및 텍스처 특징 향상(제3 단계)을 각각 구현하기 위해 순차적으로 캐스케이드(cascade)될 수 있다. 캐스케이드된 네트워크는 종단 간 신경망(end-to-end neural network)으로 간주될 수 있으며, 이러한 네트워크는 다른 태스크 타겟을 가진 서브태스크(subtask)를 하나의 네트워크로 조합하여 텍스처 리드로잉(redrawing)의 실시간 성능을 향상시킨다.

입력 이미지(2100)는 제1 CNN(2010)에 입력될 수 있다. 제1 CNN(2010)은 입력 이미지(2100) 상에서 특징 추출 및 시맨틱 픽셀 분류를 수행하여 입력 이미지에서 텍스처 품질의 공간 분포를 나타내는 텍스처 품질 정보(2200)를 생성한다.

도 11은 본 개시의 일 실시예에 따라 텍스처 품질 정보를 추출하기 위한 CNN을 도시하는 개략적인 블록도이다.

도 11에 도시된 바와 같이, CNN(2010)은 인코더-디코더 구조체를 포함한다. 인코더 및 디코더의 각각은 6개의 확장된 콘볼루션 계층을 포함한다. 인코더(2011)의 확장된 콘볼루션 계층의 위치 및 확장 비율은 도면에서 실선으로 나타내어진다.

인코더(2011)에서 적어도 2개의 확장된 콘볼루션 계층은 상이한 확장 비율을 갖는다. 예를 들어, 도 11에 도시된 바와 같이, 인코더(2011)는 각각 1의 확장 비율을 갖는 2개의 확장된 콘볼루션 계층, 2의 확장 비율을 갖는 2개의 확장된 콘볼루션 계층 및 5의 확장 비율을 갖는 2개의 확장된 콘볼루션 계층을 포함한다.

도 11에 도시된 바와 같이, 2의 확장 비율을 갖는 확장된 콘볼루션 계층은 콘볼루션 커널의 횡 방향 및 길이 방향 치수를 각각 2배 증가시킬 수 있다. 상이한 확장 비율은 상이한 수용 필드에 대응할 수 있고, 상이한 수용 필드는 상이한 스케일의 정보에 대응할 수 있다. 예를 들어, 더 큰 확장 비율은 더 큰 수용 필드에 대응하며, 더 큰 수용 필드는 긴 거리 정보에 더 많은 주의를 기울여서, 큰 규모의 텍스처 품질 정보를 획득하는데 기여한다. 예를 들어, 5의 확장 비율을 갖는 2개의 확장된 콘볼루션 계층은 큰 규모의 제1 영역(2210)의 텍스처 품질 정보를 보다 정확하게 획득할 수 있다. 더 작은 확장 비율은 더 작은 수용 필드에 대응하며, 이는 짧은 거리 정보와 더 관련이 있고, 작은 규모의 텍스처 품질 정보를 획득하는데 기여한다. 예를 들어, 1 및 2의 확장된 비율을 갖는 2개의 확장된 콘볼루션 계층은 작은 규모의 제2 영역(2220)의 텍스처 품질 정보를 보다 정확하게 획득할 수 있다. 상술한 멀티-스케일 콘볼루션 방법에 의해, 커널의 연속성을 보장될 수 있고, 콘볼루션 그리드 효과는 회피될 수 있고, 상이한 세분화 정도의 정보는 관련될 수 있으므로, 상이한 스케일의 텍스처 품질 정보가 획득될 수 있다. 도 11은 또한 콘볼루션 프로세스 후에 획득된 중간 계층의 특징(features)의 치수를 개략적으로 도시한다.

도 2를 다시 참조하면, 입력 이미지(2100) 및 텍스처 품질 정보(2200)는 제2 CNN(2020)에 함께 입력된다. 텍스처 품질 정보(2200)는 텍스처 복원이 수행되는 영역을 나타내고 텍스처 복원을 위한 가이드 맵의 역할을 한다. 입력 이미지(2100)와 텍스처 품질 정보(2200)는 픽셀 단위로 서로에 대응될 수 있다. 입력 이미지(2100)의 설정된 영역은 텍스처 품질 정보(2200)의 텍스처 품질이 미리 결정된 임계 값보다 낮은 영역에 대응한다. 제2 CNN(2020)은 설정된 영역에서 텍스처를 복원하기 위한 부분 콘볼루션 계층을 포함한다. 복원된 이미지는 텍스처 복원된 이미지(2300)로서 지칭되며, 이는 복원된 설정된 영역 및 설정된 영역 외부의 텍스처 복원을 거치지 않는 영역 모두를 포함한다.

텍스처 복원된 이미지(2300)는 텍스처 특징 향상을 위해 잔차 네트워크(2030)에 입력된다. 잔차 네트워크(2030)는 여러 개(예를 들어, 5개)의 캐스케이드된 콘볼루션 모듈을 포함하고, 각각의 콘볼루션 모듈은 여러 개(예를 들어, 3개)의 캐스케이드된 확장된 콘볼루션 계층을 포함한다. 각각의 확장된 콘볼루션 계층은 상이한 확장 비율을 가질 수 있다. 예를 들어, 확장 비율은 (1, 2, 5)의 조합일 수 있으며, 즉, 각각의 콘볼루션 모듈은 각각 1, 2 및 5의 확장된 비율을 갖는 3개의 확장된 콘볼루션 계층으로부터 연속적으로 캐스케이드된다. 추가적으로, 각각의 콘볼루션 계층 전에 에지 필 동작(edge fill operation)이 수행될 수 있다. 상술한 콘볼루션 모듈은 또한 복합(composite) 확장된 콘볼루션 모듈로 지칭될 수 있다.

이러한 네트워크 구성으로, 더 적은 콘볼루션 계층을 사용하여 더 큰 수용 필드를 획득하는 것이 가능하고, 이에 따라 더 큰 범위의 텍스처 정보가 더 잘 사용되고 더 상당한 향상 효과가 획득될 수 있다. 잔차(residual)에 대한 아이디어는 텍스처 특징 향상 프로세스에 적용되고, 텍스처 복원된 이미지(2300) 및 잔차 네트워크로부터 출력된 잔차(2400)를 사용하여 최종 향상된 이미지(2500)를 생성함으로써 텍스처 특징 향상이 수행된다. 상술한 바와 같이, 잔차의 적용은 저주파 성분을 무시하고 고주파 성분을 강조함으로써, 트레이닝에서 그라디언트 소실 현상(gradient vanishing phenomenon)을 효과적으로 피하거나 완화할 수 있다.

본 개시에서 제공되는 이미지 최적화 방법 및 대응하는 네트워크 아키텍처는 텍스처 품질 식별, 텍스처 복원 및 텍스처 특징 향상과 유기적으로 조합됨으로써, 텍스처 복원이 특정 대상에 대해 직접적으로 수행될 수 있다.

일반적으로, 상술한 네트워크 아키텍처는 트레이닝 프로세스 후 실제 애플리케이션에 적용될 수 있다. 네트워크 아키텍처를 트레이닝시키기 위해, 트레이닝 샘플 세트가 설정될 수 있다. 트레이닝 샘플 세트는 트레이닝 샘플 및 서로 짝을 이룬 실제 이미지(ground truth image)를 포함한다. 각각의 트레이닝 샘플은 실제 이미지의 미리 설정된 분해(degradation)에 의해 획득될 수 있다. 예를 들어, 적절한 분해 모델은, 실제 이미지가 흐려진 로컬 텍스처를 갖는 트레이닝 샘플을 획득하도록 설계될 수 있다.

도 5에 도시된 바와 같이, 실제 이미지로서의 고해상도 텍스처 이미지(5100)는 s의 랜덤 정확도로 다운샘플링되고, 1/s의 스케일로 업샘플링될 수 있다. 정확도 s는 랜덤 함수에 의해 생성되고, 범위는 예를 들어 [2,5] 사이에서 제어되며, 이는 2와 5 사이의 이미지 스케일링 비율에 대응한다. 업샘플링에 사용되는 보간 함수(interpolation function)는 두 가지 보간법, 이중 선형(bilinear) 및 바이큐빅(bicubic) 중 하나일 수 있다.

그 후, 고해상도 텍스처 화상(picture)의 크기에 따라 랜덤 마스크가 생성된다. 랜덤 마스크의 생성은,

a) [0,255] 사이의 픽셀 값을 갖고 상기 고해상도 텍스처 화상과 동일한 크기를 갖는 단일 채널 화상(single channel picture)을 랜덤하게 생성하는 단계;

b) 단일 채널 화상을 가우시안 블러링(Gaussian blurring)하는 단계, 흐려진 화상의 윈도우 크기는 고해상도 텍스처 화상의 크기와 관련됨(예를 들어, 고해상도 텍스처 화상의 크기가 512×512 일 때, 흐려진 윈도우의 크기는 15×15임);

c) 단계 b)에서 흐려진 화상에서 127의 값을 갖는 등고선(contour line)의 위치를 알아내고, 등고선 내부에 픽셀 값 255을 채우고 등고선 외부에 픽셀 값 0을 채우는 단계;

d) 단계 c)의 수행 결과인 새로운 단일 채널 화상을 가우시안 블러링 하는 단계, 흐려진 윈도우 크기는 단계 b)에서와 동일함; 및

e) 단계 d)에서 흐려진 화상을 정규화하는 단계에 의해 수행될 수 있다.

랜덤 마스크가 생성된 후, 고해상도 텍스처 화상은 분해된다. 분해 프로세스(degradation process)는,

a) 고해상도 텍스처 이미지를 RGB 컬러 패턴에서 YUV 컬러 모델로 변환하는 단계;

b) Y'=Y를 구성하고, YUV 컬러 모델의 휘도 성분을 두 번 균일하게 흐리게 하는(blurring) 단계;

c)

를 구성하는 단계, M은 상술한 단계에 의해 생성된 랜덤 마스크임;

d) Y^newUV 컬러 모델을 RGB 화상으로 재변환하는 단계에 의해 수행될 수 있다.

마지막으로, 가우시안 노이즈와 포아송 노이즈(Poisson noise)가 텍스처 분해된 화상에 부가된다.

상술한 단계에 의해, 트레이닝 샘플 - 실제 이미지 쌍은 하나씩 생성될 수 있고, 트레이닝 샘플-실제 이미지 쌍은 트레이닝 샘플 세트를 구성할 수 있다.

네트워크가 심층 구조(deeper structure)를 가지면, 트레이닝 중에 그라디언트 소실이 쉽게 발생할 수 있다. 본 개시는 트레이닝 효율을 개선시키기 위한 단계적인 트레이닝 메커니즘(phased training mechanism)을 제안한다.

본 개시의 실시예에 따르면, 제1 CNN은 먼저 제1 손실 함수를 사용하여 훈련될 수 있다. 제1 손실 함수는 텍스처 품질 정보 추출에 사용된 마스크와 분해 모델을 설계할 때 사용되는 랜덤 마스크 사이의 교차 엔트로피(cross entropy)일 수 있다.

제1 CNN에 대한 훈련이 완료된 후, 제1 CNN의 파라미터는 고정될 수 있다. 그 후, 제2 CNN은 제2 손실 함수를 사용하여 훈련된다. 제2 손실 함수는 제2 단계의 텍스처 복원 결과와 제1 단계의 분해 모델 사이의 거리(L1)와 전체 변화 손실(total change loss)일 수 있다.

제2 CNN에 대한 훈련이 완료된 후, 제2 CNN의 파라미터는 고정될 수 있다. 이때, 제1 CNN의 파라미터는 고정된 상태로 유지된다. 그 후, 잔차 네트워크는 제3 손실 함수를 사용하여 트레이닝된다. 제 3 손실 함수는 최종 출력의 평균 제곱 오차(mean square error)와 분해되지 않은 입력 이미지의 손실이다.

본 개시의 일 실시예에 따르면, 후술되는 바와 같은 단계적 트레이닝(phased training)이 또한 수행될 수 있다.

제1 CNN은 먼저 제1 손실 함수를 사용하여 훈련된다. 제1 손실 함수는 텍스처 품질 정보 추출에 사용된 마스크와 분해 모델을 설계할 때에 사용된 랜덤 마스크 사이의 교차 엔트로피일 수 있다. 그 후, 제1 CNN의 훈련이 완료된 후, 제1 CNN의 파라미터는 고정되고, 제2 CNN 및 잔차 네트워크는 공동 손실 함수(joint loss function)를 사용하여 훈련된다. 공동 손실 함수는 제2 손실 함수와 제3 손실 함수의 조합으로 지칭하며, 여기서 조합은 제2 손실 함수와 제3 손실 함수의 선형 조합일 수 있고, 선형 비율은 예를 들어 0.5로 설정될 수 있다.

도 3은 본 개시의 일 실시예에 따른 이미지 최적화 장치(3000)를 도시하는 개략도이다.

이미지 최적화 장치(3000)는 입력 이미지로부터 텍스처 품질 정보 - 텍스처 품질 정보는 입력 이미지에서 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 텍스처 품질 추출기(3100); 및 입력 이미지에 기초하여 텍스처 복원된 이미지를 생성하기 위해 입력 이미지의 설정된 영역 - 설정된 영역은 텍스처 품질 정보의 텍스처 품질이 미리 결정된 임계 값보다 낮은 영역에 대응함 - 상에서 텍스처 복원을 수행하는 텍스처 복원 장치(3200)를 포함한다. 이미지 최적화 장치(3000)는 또한 텍스처 복원된 이미지 상에서 텍스처 특징 향상을 수행하기 위한 텍스처 특징 향상기(enhaner)(3300)를 포함할 수 있다. 텍스처 특징 향상기(3300)는 텍스처 복원된 이미지에 대한 전반적인 텍스처 특징 향상을 수행하도록 구성됨으로써, 이미지의 텍스처 상세 정보를 향상시키거나 더 풍부하게 한다.

도 6은 본 개시의 실시예에 따른 텍스처 특징 향상 방법을 도시하는 네트워크 아키텍처이다.

본 개시에 따르면, 입력 이미지(6100)의 텍스처 특징 향상은 입력 이미지(6100) 및 잔차 네트워크(6010)에 의해 출력된 잔차(6200)를 사용하여 수행될 수 있다. 잔차 네트워크(6010)는 네트워크의 출력과 입력 사이의 잔차를 맞추기 때문에, 동일한 구성 요소는 적은 변형을 강조하기 위해 무시될 수 있다. 따라서, 잔차 네트워크(6000)는 객관적 함수(objective function)를 더욱 쉽게 맞추고, 트레이닝 동안 그라디언트 소실을 효과적으로 피하거나 완화할 수 있다.

본 개시의 실시예에서, 잔차 네트워크(6010)는 복수의 연결된 콘볼루션 모듈들을 포함할 수 있다. 네트워크 모델을 감소시키고, 계산 부담을 감소시키며, 네트워크 트레이닝 동안 수렴 능력을 향상시키기 위해, 본 개시는, 콘볼루션 모듈의 수가 감소될 수 있고, 설정된 개수보다 적은 콘볼루션 모듈의 수, 예를 들어 5개의 콘볼루션 모듈이 선택될 수 있음을 제안한다. 각각의 콘볼루션 모듈은 캐스케이드로 여러 콘볼루션 계층을 포함할 수 있다. 본 개시는 콘볼루션 계층이 확장된 콘볼루션 계층일 수 있음을 제안한다.

잔차의 아이디어는 텍스처 특징 향상 프로세스에서 적용된다. 텍스처 특징 향상은 최종 향상된 이미지(6300)를 생성하기 위해 입력 이미지(6100) 및 잔차 네트워크로부터 출력된 잔차(6200)를 사용함으로써 달성된다.

추가적으로, 더 큰 수용 필드를 획득하고, 동시에 상이한 세분화 정도의 정보에 주의를 기울이기 위해, 본 개시의 실시예는 각각의 콘볼루션 모듈(6010)이 멀티-스케일 콘볼루션 모드를 채택할 수 있음을 제안한다. 다시 말하면, 콘볼루션 모듈들 중 임의의 하나에서의 적어도 2개의 확장된 콘볼루션 계층은 상이한 확장 비율들을 가질 수 있다. 상이한 확장 비율들은 상이한 감지 필드(sensing fileds)에 대응할 수 있고, 상이한 수용 필드는 상이한 스케일의 정보에 대응할 수 있다. 예를 들어, 더 큰 확장 비율은 더 큰 수용 필드에 대응하며, 더 큰 수용 필드는 긴 거리 정보에 더 많은 주의를 기울여서, 큰 규모의 텍스처 잔차를 얻는데 기여한다. 더 작은 확장 비율은 더 작은 수용 필드에 대응하며, 이는 짧은 거리 정보와 더 밀접한 관련이 있으며, 작은 규모의 텍스처 잔차를 얻는데 기여한다. 멀티-스케일 콘볼루션 방법에 따르면, 커널의 연속성이 보장될 수 있고, 콘볼루션의 그리드 효과가 방지되며, 상이한 세분화 정도의 정보가 관련됨으로써, 상이한 스케일의 텍스처 잔차 정보가 획득되어, 이미지 최적화 효과가 크게 개선된다.

본 개시에 제공된 기술적 솔루션에 기초하여, 다음의 유리한 효과 중 적어도 하나가 획득될 수 있다. 텍스처 복원은 수동 개입(manual intervention) 없이 가이드로서 자동 추출된 텍스처 품질 정보를 사용함으로써 수행될 수 있다. 텍스처 복원 및 텍스처 향상은 일부 실시간 이미지 처리 태스크가 달성될 수 있도록 통합 최적화 및 학습(learning)을 위해 엔드-투-엔드 네트워크(end-to-end network)에 통합될 수 있다. 이미지 복원은 복원될 영역 내부의 이미지 정보 및 복원될 영역 외부의 이미지 정보를 사용함으로써 수행될 수 있으며, 이에 의해 이미지 복원의 정확성이 향상될 수 있다. 보다 풍부한 텍스처 정보는 텍스처 향상에 의해 획득될 수 있다. 상이한 세분화 정도의 정보에 주의를 기울이면서 상이한 확장 비율을 가진 확장된 콘볼루션 계층을 사용함으로써 이미지 최적화의 효과가 개선된다.

본 개시는 예를 들어 이동 단말기, 개인용 컴퓨터(personal computer, PC), 태블릿 컴퓨터, 서버 등일 수 있는 컴퓨터 시스템을 제공한다. 도 4를 참조하면, 도 4는 본 개시의 단말 디바이스 또는 서버를 구현하기에 적합한 컴퓨터 시스템의 개략적인 구조도를 도시한다. 도 4에 도시된 바와 같이, 컴퓨터 시스템은 하나 이상의 중앙 처리 유닛(central processing unit, CPU)(401)(예: 어플리케이션 프로세서) 및/또는 하나 이상의 그래프 처리 유닛(graph processing unit, GPU)(413)과 같은 하나 이상의 프로세서를 포함한다. 프로세서는 판독 전용 메모리(read-only memory, ROM)(402)에 저장된 실행 가능한 명령어 또는 저장부(408)으로부터 랜덤 액세스 메모리(random access memory, RAM)(403)에 적재된 실행 가능한 명령어에 따라 다양한 적절한 동작 및 프로세스를 수행할 수 있다. 통신 섹션(412)은 네트워크 카드를 포함할 수 있지만, 이에 한정되지 않으며, 네트워크 카드는 IB(Infiniband) 네트워크 카드를 포함할 수 있지만, 이에 한정되지는 않는다.

프로세서는, 실행 가능한 명령어를 실행하기 위해 버스(404)를 통해 통신 섹션(412)에 연결될 수 있는 판독 전용 메모리(402) 및/또는 랜덤 액세스 메모리(403)와 통신할 수 있고, 입력 이미지로부터 텍스처 품질 정보 - 텍스처 품질 정보는 입력 이미지에서의 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 단계; 및 텍스처 품질 정보에 따라, 텍스처 복원된 이미지를 생성하기 위해 입력 이미지의 설정된 영역 상에서 텍스처 복원을 수행하는 단계와 같이 본 개시의 실시예에서 제공되는 임의의 방법에 대응하는 동작을 수행하기 위해 통신 섹션(412)을 통해 다른 타겟 디바이스와 통신할 수 있다. 다른 예의 경우, 방법은 입력 이미지를 획득하는 단계; 및 잔차 네트워크에 의한 잔차 출력 및 입력 이미지를 사용함으로써 잔차 네트워크를 통해 입력 이미지 상에서 텍스처 특징 향상을 수행하는 단계를 포함할 수 있다.

추가적으로, RAM(403)에, 디바이스의 동작에 필요한 다양한 프로그램 및 데이터가 저장될 수 있다. CPU(401), ROM(402) 및 RAM(403)은 버스(404)를 통해 서로 연결된다. RAM(403)이 시스템에 존재하는 경우, ROM(402)은 선택적인 모듈이다. RAM(403)은 실행 가능한 명령어를 저장하거나 실행 가능한 명령어를 실행 시간(runtime)일 때 ROM(402)에 기록하고, 실행 가능한 명령어는 CPU(401)가 상술한 방법에 대응하는 동작을 수행하게 한다. 입출력(I/O) 인터페이스(405)는 버스(404)에 연결된다. 통신 섹션(412)은 통합적으로(하나의 모듈로) 제공되거나 복수의 서브-모듈(예를 들어, 복수의 IB 네트워크 카드)로 제공될 수 있다. 통신 섹션(412)은 또한 버스에 의해 링크된다.

키보드, 마우스 등을 포함하는 입력부(406); 음극선관(cathode ray tube, CRT), 액정 디스플레이(liquid crystal display, LCD) 및 스피커를 포함하는 출력부(407); 하드 디스크 등을 포함하는 저장부(408); 및 LAN 카드, 모뎀 등과 같은 네트워크 인터페이스 카드를 포함하는 통신부(409)은, I/O 인터페이스(405)에 연결된다. 통신부(409)는 인터넷과 같은 네트워크를 통해 통신 처리를 수행한다. 드라이버(410)는 원하는 대로 I/O 인터페이스(405)에 연결된다. 자기 디스크, 광 디스크, 광 자기 디스크, 반도체 메모리 등과 같은 제거 가능한 저장 매체(411)는 이로부터 판독된 컴퓨터 프로그램이 필요에 따라 저장부(408)에 기록되도록 필요에 따라 드라이브(410) 상에 장착된다.

도 4에 도시된 아키텍처는 대안적인 구현일 뿐이며, 도 4의 구성 요소의 수 및 타입은 특정 실시에서의 실제 요구 사항에 따라 선택, 삭제, 부가 또는 교체될 수 있다. 분배 장치 또는 통합 장치와 같은 구현은 상이한 기능적 구성 요소 설정을 위해 사용될 수 있다. 예를 들어, GPU와 CPU는 별개로 제공될 수 있거나, GPU는 CPU에 통합될 수 있다. 통신 섹션은 별개로 제공될 수 있거나, 통신 섹션은 CPU 또는 GPU와 일체로 제공될 수 있다. 이러한 대안적인 실시예의 모두는 본 명세서에 개시된 보호 범위 내에 속한다.

추가적으로, 본 개시의 실시예에 따르면, 흐름도를 참조하여 상술한 프로세스는 컴퓨터 소프트웨어 프로그램으로서 구현될 수 있다. 예를 들어, 본 개시는, 입력 이미지로부터 텍스처 품질 정보 - 텍스처 품질 정보는 입력 이미지에 텍스처 품질의 공간 분포를 나타냄 - 를 추출하는 단계; 및 텍스처 품질 정보에 따라, 텍스처 복원된 이미지를 생성하기 위해 입력 이미지의 설정된 영역 상에서 텍스처 복원을 수행하는 단계와 같이 본 개시에 제공된 방법 단계에 대응하는 명령어를 수행하기 위해 프로세서에 의해 실행될 수 있는 기계 판독 가능한 명령어를 저장하는 비일시적 기계 판독 가능한 저장 매체를 제공한다. 다른 예의 경우, 방법은 입력 이미지를 획득하는 단계; 및 잔차 네트워크에 의한 잔차 출력 및 입력 이미지를 사용함으로써 잔차 네트워크를 통해 입력 이미지 상에서 텍스처 특징 향상을 수행하는 단계를 포함할 수 있다. 이러한 실시예에서, 컴퓨터 프로그램은 통신부(409)를 통해 네트워크로부터 다운로드되고 설치될 수 있고/있거나, 제거 가능한 저장 매체(411)로부터 설치될 수 있다. 컴퓨터 프로그램이 중앙 처리 유닛(CPU)(401)에 의해 실행될 때, 본 개시의 방법에서 정의된 상술한 기능이 수행된다.

본 개시의 방법, 디바이스 및 장치는 많은 방식으로 구현될 수 있다. 예를 들어, 본 개시의 방법 및 장치, 디바이스는 소프트웨어, 하드웨어, 펌웨어, 또는 소프트웨어, 하드웨어 및 펌웨어의 임의의 조합으로 구현될 수 있다. 프로세스에서 예시하는 단계의 순서는 단지 예시를 위한 것이며, 본 개시의 프로세스의 단계는 달리 구체적으로 언급되지 않는 한 구체적으로 상술한 순서로 제한되지 않는다. 더욱이, 일부 실시예에서, 본 개시는 또한 기록 매체에 기록된 프로그램으로서 구현될 수 있으며, 이러한 프로그램은 본 개시에 따른 방법을 구현하기 위한 기계 판독 가능한 명령어를 포함한다. 따라서, 본 개시는 또한 본 개시에 따른 방법을 실행하기 위한 프로그램을 저장하는 기록 매체를 포함한다.

본 개시의 설명은 예시 및 설명을 위해 제공되며, 완전한 것으로 해석되거나 본 개시를 개시된 실시예로 제한하기 위한 것이 아니다. 많은 수정 및 변형이 통상의 기술자에게 명백할 것이다. 실시예는 본 개시의 원리 및 실제 적용을 설명하고, 통상의 기술자가 특정 용도에 적합한 다양한 변형을 갖는 다양한 실시예를 설계하기 위해 본 개시를 이해할 수 있게 하기 위해 선택되고 설명되었다.

3100: 이미지 최적화 장치
3100: 텍스처 품질 추출기
3200: 텍스처 복원 장치
3300: 텍스처 특징 향상기
401: CPU
402: ROM
403: RAM
404: 버스
405: I/O 인터페이스
406: 입력부
407: 출력부
408: 저장부
409: 통신부
410: 드라이버
411: 저장 매체
412: 통신 섹션
413: GPU

Claims

전자 장치를 동작시키는 방법에 있어서,
입력 이미지를 획득하는 동작;
상기 입력 이미지로부터 텍스처 품질의 공간적인 분포를 나타내는 텍스처 품질 정보를 추출하는 동작;
상기 텍스처 품질 정보에 기반하여, 상기 입력 이미지에서 텍스처 복원될 영역을 설정하는 동작; 및
상기 설정된 영역 내부의 이미지 정보 및 상기 설정된 영역 외부의 이미지 정보를 이용하여, 상기 설정된 영역에 대해 텍스처 복원을 수행하는 동작을 포함하는 방법.
제 1 항에 있어서,
상기 설정된 영역은 상기 텍스처 품질이 미리 설정된 임계 값보다 낮은 영역인, 방법.
제 1 항에 있어서,
상기 입력 이미지로부터 상기 텍스처 품질 정보를 추출하는 동작은,
상기 텍스처 품질 정보를 획득하기 위해 제1 콘볼루션 신경망(CNN)을 통해 상기 입력 이미지 상에서 특징 추출을 수행하는 동작을 포함하는, 이미지 최적화 방법.
제 1 항에 있어서,
상기 텍스처 품질 정보는 0과 1 사이의 값을 포함하는, 방법.
제 1 항에 있어서,
상기 텍스처 품질 정보가 이진 정보인 경우, 상기 설정된 영역의 경계 위치의 상기 텍스처 품질 정보는 평활화되는, 방법.
제 1 항에 있어서,
상기 텍스처 복원을 수행하는 동작은 상기 텍스처 품질 정보에 기초하여 제2 CNN을 통해 상기 설정된 영역 상에서 텍스처 복원을 수행하는 동작을 포함하는, 방법.
제 1 항에 있어서, 상기 설정된 영역에 대한 텍스처 복원에 이용되는 상기 설정된 영역 내부의 이미지 정보는 텍스처 품질 정보 및/또는 컬러 정보를 포함하는, 방법.
제 1 항에 있어서,
상기 텍스처 복원된 이미지에 대해 텍스처 특징 향상을 수행하는 동작을 더 포함하는, 이미지 최적화 방법.
제 8 항에 있어서,
상기 텍스처 특징 향상을 수행하는 동작은 상기 텍스처 복원된 이미지 및 잔차 네트워크로부터 출력된 잔차를 사용하여 상기 텍스처 복원된 이미지에 대한 텍스처 특징 향상을 수행하는 동작을 포함하는, 방법.
제 9 항에 있어서,
상기 잔차 네트워크는 설정된 수보다 적은 수를 갖는 연결된 콘볼루션 모듈들을 포함하는, 방법.
제 10 항에 있어서,
상기 콘볼루션 모듈들 중 어느 하나는 복수의 연결된 확장된 콘볼루션 계층들을 포함하는, 방법.
제 11 항에 있어서,
상기 복수의 확장된 콘볼루션 계층들의 적어도 2개의 확장된 콘볼루션 계층은 상이한 확장된 비율을 갖는, 방법.
전자 장치에 있어서,
제 1 프로세서; 및
상기 제 1 프로세서에 연결되고, 상기 제 1 프로세서에 의해 실행 가능한 기계 판독 가능한 인스트럭션들(instructions)을 저장하는 메모리를 포함하고,
상기 인스트럭션들은 상기 제 1 프로세서가:
입력 이미지를 획득하고,
상기 입력 이미지로부터 텍스처 품질의 공간적인 분포를 나타내는 텍스처 품질 정보를 추출하고,
상기 텍스처 품질 정보에 기반하여, 상기 입력 이미지에서 텍스처 복원될 영역을 설정하고,
상기 설정된 영역 내부의 이미지 정보 및 상기 설정된 영역 외부의 이미지 정보를 이용하여, 상기 설정된 영역에 대해 텍스처 복원을 수행하도록 구성된 전자 장치.
제 13 항에 있어서,
이미지를 처리하도록 구성된 제 2 프로세서를 더 포함하고,
상기 인스트럭션들은, 상기 제 1 프로세서가, 상기 제 2 프로세서로부터 상기 입력 이미지를 획득하도록 하는 전자 장치.
기계 판독 가능한 인스트럭션들을 저장한, 비일시적 기계 판독 가능한 저장 매체에 있어서,
상기 인스트럭션들은, 상기 프로세서에 의해 실행될 때, 상기 프로세서가:
입력 이미지를 획득하고,
상기 입력 이미지로부터 텍스처 품질의 공간적인 분포를 나타내는 텍스처 품질 정보를 추출하고,
상기 텍스처 품질 정보에 기반하여, 상기 입력 이미지에서 텍스처 복원될 영역을 설정하고,
상기 설정된 영역 내부의 이미지 정보 및 상기 설정된 영역 외부의 이미지 정보를 이용하여, 상기 설정된 영역에 대해 텍스처 복원을 수행하도록 하는 저장 매체.
전자 장치를 동작시키는 방법에 있어서,
입력 이미지를 획득하는 동작; 및
잔차 네트워크로부터 출력된 잔차 및 상기 입력 이미지를 사용함으로써 상기 잔차 네트워크를 통해 상기 입력 이미지 상에서 텍스처 특징 향상을 수행하는 동작을 포함하는 방법.
제 16 항에 있어서,
상기 잔차 네트워크는 설정된 수보다 적은 수를 갖는 연결된 콘볼루션 모듈을 포함하는, 방법.
제 16 항에 있어서,
상기 콘볼루션 모듈들 중 어느 하나는 복수의 연결된 확장된 콘볼루션 계층들을 포함하는, 방법.
제 18 항에 있어서,
상기 복수의 확장된 콘볼루션 계층들의 적어도 2개의 확장된 콘볼루션 계층은 상이한 확장된 비율을 갖는, 방법.
전자 장치에 있어서,
프로세서; 및
상기 프로세서에 연결되고, 상기 프로세서에 의해 실행 가능한 기계 판독 가능한 인스트럭션들(instructions)을 저장하는 메모리를 포함하고,
상기 인스트럭션들은 상기 프로세서가:
입력 이미지를 획득하고,
잔차 네트워크로부터 출력된 잔차 및 상기 입력 이미지를 사용함으로써 상기 잔차 네트워크를 통해 상기 입력 이미지 상에서 텍스처 특징 향상을 수행하도록 구성된 전자 장치.