KR102225024B1 - 이미지 채움 장치 및 방법 - Google Patents
이미지 채움 장치 및 방법 Download PDFInfo
- Publication number
- KR102225024B1 KR102225024B1 KR1020190132702A KR20190132702A KR102225024B1 KR 102225024 B1 KR102225024 B1 KR 102225024B1 KR 1020190132702 A KR1020190132702 A KR 1020190132702A KR 20190132702 A KR20190132702 A KR 20190132702A KR 102225024 B1 KR102225024 B1 KR 102225024B1
- Authority
- KR
- South Korea
- Prior art keywords
- feature map
- map
- feature
- mask
- encoding
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims description 70
- 230000015572 biosynthetic process Effects 0.000 claims abstract description 7
- 238000003786 synthesis reaction Methods 0.000 claims abstract description 7
- 239000011159 matrix material Substances 0.000 claims description 68
- 230000006870 function Effects 0.000 claims description 6
- 239000003550 marker Substances 0.000 claims 1
- 230000000007 visual effect Effects 0.000 abstract description 8
- 239000000284 extract Substances 0.000 description 7
- 238000013528 artificial neural network Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 230000008447 perception Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 230000002194 synthesizing effect Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T11/00—2D [Two Dimensional] image generation
- G06T11/40—Filling a planar surface by adding surface attributes, e.g. colour or texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
- G06T5/20—Image enhancement or restoration using local operators
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T9/00—Image coding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
Abstract
본 발명은 스킵 커넥션으로 인코더로부터 디코더로 유효하지 않은 영역의 특징이 전달되더라도, 유효 영역의 특징을 활용하여 유효하지 않은 영역의 특징을 채울 수 있는 비로컬 특징 합성 레이어를 적용하여 비로컬 표현자를 획득하고, 비로컬 표현자를 기반으로 누락된 영역을 재구성함으로써 시각적 오류를 저감하고 의미적으로 일관성 있게 누락된 영역을 채울 수 있는 이미지 채움 장치 및 방법을 제공할 수 있다.
Description
본 발명은 이미지 채움 장치 및 방법에 관한 것으로, 비국부적 특징 동기를 이용한 이미지 채움 장치 및 방법에 관한 것이다.
이미지 채움은 이미지에서 누락되지 않은 유효 영역에 대응하여 누락되거나 유효하지 않은 영역에 시각적 그리고 의미적(semantically)으로 대체 가능한 컨텐츠를 합성하는 작업을 의미한다. 이미지 채움은 이미지 인페인팅(Image inpainting), 이미지 홀 필링(image hole filling) 또는 이미지 컴플리션(image completion)으로도 알려져 있으며, 이미지에서 원하지 않는 객체 제거, 변형된 영역 복원 및 불필요 영역 수정 등의 많은 응용 분야에서 유용하게 적용될 수 있다.
이미지 채움의 가장 기본적인 방법으로는 예제 기반 채움 기법(exemplar-based inpainting method)이 있다. 예제 기반 채움 기법은 이미지 내에서 뉴락되지 않은 유효 영역 중 누락된 영역과 가장 유사한 패치를 검색하고, 검색하여 가장 유사한 패치를 복사하여 채우는 방식으로 작업이 수행된다. 이러한 기법은 고주파수 텍스처 디테일을 복원하는 경우에 효과적이지만, 계산 복잡도가 높다. 뿐만 아니라 시멘틱 구조를 보존하기에 적합하지 않아 누락되지 않은 기존 영역에 대한 의미적 일관성을 유지하면서 누락된 영역을 채우기에 적합하지 않아 복잡한 사물과 장면에 대한 누락 영역은 채울 수 없다는 한계가 있다.
한편 최근에는 대규모의 학습 데이터를 기반으로 인공 신경망에 이미지의 시멘틱 구조를 학습시킴으로써, 이미지 내에서 누락되지 않은 유효 영역과의 시멘틱 일관성을 유지하면서 누락된 영역을 채울 수 있는 다양한 기법이 제안된 바 있다. 그러나 인공 신경망을 이용하는 기법은 대부분 누락 영역의 픽셀을 기지정된 고정값으로 채운 후, 유효 영역과 누락 영역의 픽셀에 컨볼루션과 같은 동일한 연산을 적용한다. 이로 인해 획득되는 특징의 신뢰도가 낮아 채워진 영역과 기존 영역 사이의 색상 불일치, 흐름, 경계 주변의 아티피컬 에지 응답(artificial edge response)과 같은 시각적 오류가 나타날 수 있다는 문제가 있다.
이에 인공 신경망의 각 레이어의 이미지 및 특징맵에서 유효하지 않은 픽셀에 대해 0의 값을, 유효 픽셀에 대해 1의 값을 할당하는 마스크를 적용하여 컨볼루션 연산 시에 유효 및 유효 픽셀을 구별하는 부분 컨볼루션 기법이 제안된 바 있다. 부분 컨볼루션 기법에서는 유효한 특징만을 추출되어 전파되도록 하고 유효하지 않은 픽셀이 전파되지 않도록 함으로써, 안정적인 채움 성능을 획득할 수 있도록 한다.
기존의 부분 컨볼루션을 이용하는 기존의 기법에서는 이미지에서 유효한 특징을 단계적으로 추출하는 인코더와 인코더에서 추출된 특징으로부터 누락된 영역을 단계적으로 채워진 이미지로 복원하는 디코더를 포함한다. 이때 디코더의 각 단계는 인코더의 대응하는 단계에서 추출된 특징 및 마스크를 스킵 커넥션을 통해 인가받아 함께 합성하여 누락 영역을 채우며, 이로 인해 스킵 커넥션을 통해 인가된 특징 중 유효하지 않은 픽셀의 무의미한 특징이 전달되어 시각적 오류가 발생된다는 문제가 있다.
본 발명의 목적은 이미지의 누락되지 않은 유효 영역에서 추출된 특징들 중 누락된 영역과의 거리에 무관하게 가장 의미적으로 유사한 특징을 융합하여 비로컬 표현자를 획득하고, 비로컬 표현자를 기반으로 누락된 영역을 재구성함으로써, 시각적 오류를 저감할 수 있는 이미지 채움 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 스킵 커넥션으로 인코더로부터 디코더로 유효하지 않은 영역의 특징이 전달되더라도, 유효 영역의 특징을 활용하여 유효하지 않은 영역의 특징을 재구성할 수 있는 비로컬 특징 합성 레이어를 적용하여 비로컬 표현자를 획득함으로써, 의미적으로 일관성 있게 누락된 영역을 재구성하여 채울 수 있는 이미지 채움 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 이미지 채움 장치는 마스크에 의해 비유효 영역이 지정된 입력 이미지를 인가받아, 미리 학습된 패턴 추정 방식에 따라 단계적으로 입력 이미지와 마스크를 함께 인코딩하여 특징맵을 획득하고, 상기 마스크를 기지정된 방식으로 업데이트 하는 인코더; 및 상기 인코더에서 최종 획득된 특징맵과 단계적으로 획득된 특징맵 및 업데이트된 마스크 중 대응하는 단계에서 획득된 특징맵과 마스크를 인가받아 미리 학습된 특징 복원 방식에 따라 단계적으로 디코딩하여 복원 특징맵을 획득하는 디코더를 포함한다.
상기 디코더는 상기 인코더에서 최종 획득된 특징맵 또는 이전 단계에서 획득된 복원 특징맵에 픽셀별 주의도가 가중된 디코딩맵을 획득하고, 상기 인코더의 대응하는 단계에서 획득된 마스크와 상기 특징 주의 행렬을 이용하여 특징맵에서 비유효 영역에 채워지기에 적합한 픽셀을 유효 영역에서 탐색하기 위한 홀 채움 유사도 행렬을 획득하며, 홀 채움 유사도 행렬과 대응하는 단계에서 획득된 특징맵을 결합하여 인코딩맵을 획득하여 상기 디코딩맵과 상기 인코딩맵을 결합하고 미리 학습된 특징 복원 방식에 따라 디코딩하여 상기 복원 특징맵을 획득할 수 있다.
상기 디코더는 단계적으로 연결되어 상기 인코더에서 최종 획득된 특징맵 또는 이전단에서 획득된 복원 특징맵과 상기 인코더의 대응하는 단계에서 획득된 특징맵 및 마스크를 인가받아 복원 특징맵을 획득하는 다수의 디코딩 레이어를 포함하고,
상기 다수의 인코딩 레이어 각각은 상기 인코더에서 최종 획득된 특징맵 또는 이전단에서 획득된 복원 특징맵으로부터 미리 학습된 패턴 추정 방식에 따라 픽셀별 주의도를 나타내는 특징 주의 행렬을 획득하고, 상기 특징 주의 행렬과 이전 단계에서 획득된 복원 특징맵을 결합하여 디코딩맵을 획득하며, 상기 인코더의 대응하는 단계에서 획득된 마스크와 상기 특징 주의 행렬을 이용하여 특징맵에서 비유효 영역에 채워지기에 적합한 픽셀을 유효 영역에서 탐색하기 위한 홀 채움 유사도 행렬을 획득하고, 홀 채움 유사도 행렬과 대응하는 단계에서 획득된 특징맵을 결합하여 인코딩맵을 획득하는 비로컬 특징 합성 레이어(Non-Local Feature Synthesis-Layer: 이하 NFS 레이어); 및 상기 디코딩맵과 상기 인코딩맵을 결합하고, 미리 학습된 가중치를 기반으로 디컨볼루션하여 복원 특징맵을 획득하는 디컨볼루션 레이어를 포함할 수 있다.
상기 NFS 레이어는 상기 인코더에서 최종 획득된 특징맵 또는 이전단에서 획득된 복원 특징맵에 대해 학습에 의해 획득된 서로 다른 3개의 가중치로 컨볼루션하여 3개의 특징을 추출하며, 추출된 3개의 특징 중 두개의 특징 사이의 상관도를 계산하여 상기 특징 주의 행렬을 획득하며, 상기 특징 주의 행렬을 나머지 특징과 곱하고 인가된 특징맵 또는 복원 특징맵을 더하여 상기 디코딩맵을 획득하는 디코딩맵 획득부; 및 상기 인코더의 대응하는 단계에서 획득된 마스크를 기지정된 크기로 슬라이스하고, 슬라이스된 마스크와 슬라이스된 마스크의 픽셀값을 반전하고 전치하여 획득되는 전치 반전 마스크를 곱하여 홀 채움 표시자를 획득하고, 상기 홀 채움 표시자에 상기 특징 주의 행렬을 곱하고 기지정된 방식으로 정규화하여 홀 채움 유사도 행렬을 획득하며, 상기 홀 채움 유사도 행렬과 인가된 특징맵을 곱하고, 그 결과에 다시 인가된 특징맵을 더하여 상기 인코딩맵을 획득하는 인코딩맵 획득부를 포함할 수 있다.
상기 인코더는 상기 다수의 인코딩 레이어와 역순으로 단계적으로 연결되는 다수의 인코딩 레이어를 포함하고, 상기 다수의 인코딩 레이어는 상기 입력 이미지 또는 이전단에서 획득된 특징맵과 대응하는 마스크를 인가받고, 인가된 특징맵과 마스크에 대해 학습에 의해 획득된 가중치를 이용하여 기지정된 연산을 수행하여 특징맵을 획득하고, 상기 마스크를 미리 지정된 방식으로 업데이트할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 이미지 채움 방법은 마스크에 의해 비유효 영역이 지정된 입력 이미지를 인가받아, 미리 학습된 패턴 추정 방식에 따라 단계적으로 입력 이미지와 마스크를 함께 인코딩하여 단계적으로 특징맵을 획득하고, 상기 마스크를 기지정된 방식으로 업데이트 하는 인코딩 단계; 및
상기 인코딩 단계에서 최종 획득된 특징맵과 단계적으로 획득된 특징맵 및 업데이트된 마스크 중 대응하는 단계에서 획득된 특징맵과 마스크를 인가받아 미리 학습된 특징 복원 방식에 따라 디코딩하여 단계적으로 복원 특징맵을 획득하는 디코딩 단계를 포함한다.
상기 디코딩 단계는 상기 인코딩 단계에서 최종 획득된 특징맵 또는 상기 디코딩 단계 내에서 이전 획득된 복원 특징맵에 픽셀별 주의도가 가중된 디코딩맵을 획득하는 단계; 상기 인코딩 단계에서 획득된 대응하는 마스크와 상기 특징 주의 행렬을 이용하여 특징맵에서 비유효 영역에 채워지기에 적합한 픽셀을 유효 영역에서 탐색하기 위한 홀 채움 유사도 행렬을 획득하고, 상기 홀 채움 유사도 행렬과 상기 인코딩 단계에서 획득된 대응하는 특징맵을 결합하여 인코딩맵을 획득하는 단계; 및 상기 디코딩맵과 상기 인코딩맵을 결합하고 미리 학습된 특징 복원 방식에 따라 디코딩하여 상기 복원 특징맵을 획득하는 단계를 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 이미지 채움 장치 및 방법은 스킵 커넥션으로 인코더로부터 디코더로 유효하지 않은 영역의 특징이 전달되더라도, 유효 영역의 특징을 활용하여 유효하지 않은 영역의 특징을 채울 수 있는 비로컬 특징 합성 레이어를 적용하여 비로컬 표현자를 획득하고, 비로컬 표현자를 기반으로 누락된 영역을 재구성함으로써 시각적 오류를 저감하고 의미적으로 일관성 있게 누락된 영역을 채울 수 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 채움 장치 및 방법이 이미지를 채우는 개념을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시예에 따른 이미지 채움 장치의 개략적 구조를 나타낸다.
도 3은 도 2의 이미지 채움 장치의 개략적 동작을 설명하기 위한 도면이다.
도 4는 도 2의 이미지 채움 장치에서 인코딩 레이어의 상세 구성을 나타낸다.
도 5는 도 2의 이미지 채움 장치에서 디코더부의 상세 구성을 나타낸다.
도 6은 도 5의 디코딩 레이어에서 비로컬 특징 합성 레이어의 상세 구성을 나타낸다.
도 7은 본 발명의 일 실시예에 따른 이미지 채움 방법을 나타낸다.
도 8 및 도 9는 본 실시예에 따른 이미지 채움 방법에 따라 입력 이미지의 비유효 영역을 채운 결과를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 이미지 채움 장치의 개략적 구조를 나타낸다.
도 3은 도 2의 이미지 채움 장치의 개략적 동작을 설명하기 위한 도면이다.
도 4는 도 2의 이미지 채움 장치에서 인코딩 레이어의 상세 구성을 나타낸다.
도 5는 도 2의 이미지 채움 장치에서 디코더부의 상세 구성을 나타낸다.
도 6은 도 5의 디코딩 레이어에서 비로컬 특징 합성 레이어의 상세 구성을 나타낸다.
도 7은 본 발명의 일 실시예에 따른 이미지 채움 방법을 나타낸다.
도 8 및 도 9는 본 실시예에 따른 이미지 채움 방법에 따라 입력 이미지의 비유효 영역을 채운 결과를 나타낸다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1은 본 발명의 일 실시예에 따른 이미지 채움 장치 및 방법이 이미지를 채우는 개념을 설명하기 위한 도면이다.
도 1에서 (a)는 채워져야하는 누락 영역이 포함된 입력 이미지를 나타내고, (b)는 본 실시예의 이미지 채움 장치 및 방법에 의해 누락 영역이 채워진 출력 이미지를 나타내며, (c)는 누락 영역이 발생되지 않은 원본 이미지를 나타낸다.
그리고 (d) 내지 (f)는 본 실시예의 이미지 채움 장치 및 방법이 (a)의 누락 영역의 3개의 픽셀 각각에 의미적으로 대응하는 특징을 갖는 유효 영역에서의 픽셀들을 추출하여 이미지를 채우는 개념을 나타낸다.
(d) 내지 (f)에 도시된 바와 같이, 본 실시예에 따른 이미지 채움 장치 및 방법은 이미지 내에서 채워져야 하는 비유효 영역의 픽셀과 유효 영역의 픽셀들 중 가장 유사한 특징을 갖는 적어도 하나의 픽셀들에 대한 특징을 복사하여 비유효 영역의 픽셀을 채움으로써, (c)에 도시된 원본 이미지와 거의 동일한 (b)의 출력 이미지를 획득할 수 있도록 한다. 즉 본 실시예에 따른 이미지 채움 장치 및 방법은 비유효 영역 경계 주변의 유효 영역 특징보다 비유효 영역과의 거리에 무관하게 유효 영역에서의 특징 중 의미적으로 가장 유사한 특징을 이용하여 비유효 영역을 채우도록 하여 시각적 오류가 적고 의미적으로 일관성 있는 이미지를 획득할 수 있도록 한다.
도 2는 본 발명의 일 실시예에 따른 이미지 채움 장치의 개략적 구조를 나타내고, 도 3은 도 2의 이미지 채움 장치의 개략적 동작을 설명하기 위한 도면이다. 그리고 도 4는 도 2의 이미지 채움 장치에서 인코더부의 상세 구성을 나타내고, 도 5는 도 2의 이미지 채움 장치에서 디코더부의 상세 구성을 나타내며, 도 6은 도 5의 디코딩 레이어에서 비로컬 특징 합성 레이어의 상세 구성을 나타낸다.
도 2를 참조하면, 본 실시예에 따른 이미지 채움 장치는 인코딩부(100)와 디코딩부(200)를 포함한다. 인코딩부(100)는 일부 영역이 누락된 입력 이미지를 인가받고, 입력 이미지에서 누락되지 않은 유효 영역의 특징을 추출하고, 디코딩부(200)는 인코딩부(100)에서 추출된 특징을 기반으로 누락된 비유효 영역의 특징을 재구성하여 비유효 영역이 채워진 이미지를 획득한다.
우선 인코딩부(100)를 살펴보면, 인코딩부(100)는 입력 이미지 획득부(110)와 다단 구조의 다수의 인코딩 레이어(EL1 ~ EL5)를 포함하는 인코더(120)로 구성된다. 여기서는 일예로 인코더(120)가 5개의 인코딩 레이어(EL1 ~ EL5)를 포함하는 것으로 도시하였으나, 인코딩 레이어의 개수는 다양하게 조절될 수 있다.
입력 이미지 획득부(110)는 적어도 일부 영역이 누락된 입력 이미지(IN)를 획득한다. 여기서 입력 이미지 획득부(110)는 이미 일부 영역이 누락된 상태의 입력 이미지(IN)를 획득할 수도 있으나, 도 3에 도시된 바와 같이, 일반적인 이미지와 함께 이미지 내의 일부 영역을 제거하기 위한 마스크(MK)를 함께 인가받아 결합함으로써 입력 이미지를 생성할 수도 있다.
상기한 바와 같이, 이미지 처리 분야에서는 객체 제거, 배경 추출, 변형 영역 복원 및 불필요 영역 수정 등의 목적으로 이미지의 일부 영역을 제거하고 제거된 영역을 제거되지 않은 영역과 유사하게 복원해야 하는 경우가 빈번하게 발생한다. 이에 마스크(MK)는 이미지 내에서 불필요한 것으로 결정된 영역을 제거하기 위해 이용되며, 이는 사용자에 의해 제공될 수 있다. 마스크(MK)는 인가된 이미지에 대응하는 크기를 갖고 제거하고자 하는 영역의 픽셀값은 일예로 0의 값을 갖는 반면 나머지 영역의 픽셀값은 1의 값을 갖도록 하여 제공될 수 있다. 입력 이미지 획득부(110)는 인가된 이미지와 마스크(MK)를 원소간 곱셈 연산을 수행하여 마스크(MK)에 의해 지정된 영역의 픽셀값이 0으로 제거된 입력 이미지(IN)를 획득할 수 있다.
도 3에서는 일예로 마스크(MK)가 인가된 이미지에서 제거할 영역이 중앙에 검은색 사각형 형태로 설정된 경우를 나타내며, 이에 입력 이미지(IN)에서 중앙이 사각형 형태로 제거되었음을 알 수 있다.
그러나 만일 마스크(MK)가 이미지와 함께 인가되지 않으면, 입력 이미지 획득부(110)는 마스크(MK)를 랜덤하게 생성할 수도 있다.
본 실시예에서는 입력 이미지(IN)에서 마스크에 의해 제거된 영역을 비유효 영역이라고 하며, 제거되지 않고 인가된 이미지의 픽셀값을 유지하는 나머지 영역을 유효 영역이라 한다.
인코더(120)의 다수의 인코딩 레이어(EL1 ~ EL5) 각각은 입력 이미지 획득부(110)에서 획득된 입력 이미지(IN) 또는 이전 단의 인코딩 레이어(EL1 ~ EL4)에서 출력되는 특징맵을 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 입력 이미지(IN) 또는 특징맵을 인코딩하여 특징을 추출함으로써 특징맵을 획득한다. 이때 다수의 인코딩 레이어(EL1 ~ EL5) 각각은 입력 이미지(IN) 또는 특징맵에서 제거된 영역, 즉 비유효 영역에 대응하는 패턴의 마스크를 함께 인가받아 인코딩한다. 다수의 인코딩 레이어(EL1 ~ EL5)는 입력 이미지(IN) 또는 특징맵과 대응하는 마스크를 인가받고, 인가된 특징맵과 마스크를 학습에 의해 획득된 가중치와 부분 컨볼루션(Partial Convolution)을 수행하여 특징맵을 획득한다.
여기서 마스크는 각각의 인코딩 레이어(EL1 ~ EL5)에서 유효 영역의 특징은 추출되는 반면 비유효 영역에서는 특징이 추출되지 않도록 하기 위해 적용된다. 마스크가 입력 이미지(IN) 또는 특징맵과 함께 인코딩되므로 인코딩 레이어(EL1 ~ EL5)는 유효 영역의 특징만을 추출할 수 있으며, 결과적으로 인코딩 레이어(EL1 ~ EL5)는 신뢰성 있는 특징을 추출할 수 있다. 여기서 마스크는 입력 이미지 획득부(110)에서 획득된 마스크 또는 이전 인코딩 레이어(EL1 ~ EL5)에서 업데이트 되어 인가된 마스크이다.
즉 다수의 인코딩 레이어(EL1 ~ EL5) 각각은 인가된 마스크를 이용하여, 입력 이미지(IN) 또는 특징맵을을 필터링하고, 이후, 인가된 마스크를 기지정된 방식에 따라 업데이트하여 다음 인코딩 레이어로 전달한다.
도 4에서는 설명의 편의를 위해 인코더(120)의 일부만을 도시하였으며, 인코더(120)의 다수의 인코딩 레이어(EL1 ~ EL5) 중 하나의 제l 인코딩 레이어(ELl)를 일예로 설명한다.
도 4를 참조하면, 제l 인코딩 레이어(ELl)는 이전 제l-1 인코딩 레이어(ELl-1)에서 획득되어 인가된 특징맵(Xenc l-1)(또는 입력 이미지(IN))과 업데이트된 마스크(Menc l-1)를 인가받는다. 그리고 인가된 특징맵(Xenc l-1)과 마스크(Menc l-1)에 대해 학습에 의해 획득된 가중치(Wenc l)를 이용하여 수학식 1과 같이 부분 컨볼루션을 수행함으로써 특징맵(Xenc l)을 획득할 수 있다.
여기서 u, v는 특징맵(Xenc l)에서의 좌표를 나타내고, u', v' 는 가중치(Wenc l) 윈도우(R)에서의 좌표(u', v' ∈ R)를 나타낸다.
한편 제l 인코딩 레이어(ELl-1)는 인가된 마스크(Menc l-1)를 수학식 2에 따라 업데이트하여 마스크(Menc l)를 획득할 수 있다.
여기서 δ는 유효 영역을 제어하기 위해 미리 설정된 문턱값을 나타내며, 문턱값(δ)이 가중치 윈도우(R) 크기의 절반 이상이면, 특징맵(Xenc l)의 비유효 영역은 인가된 특징맵(Xenc l-1)에 비해 줄어들게 된다.
그리고 제l 인코딩 레이어(ELl)는 획득된 특징맵(Xenc l)과 마스크(Menc l)를 제l+1 인코딩 레이어(ELl+1)로 전달할 뿐만 아니라 디코딩부(200)의 대응하는 제L 디코딩 레이어(DLl)로 스킵 커넥션(Skip Connection)전달한다. 여기서 스킵 커넥션은 단순히 인코딩 레이어에서 획득된 특징맵(Xenc l)과 마스크(Menc l) 대응하는 디코딩 레이어로 전달하는 전달 경로를 나타낸다.
다시 도 2를 참조하면, 디코딩부(200)는 다단 구조의 다수의 디코딩 레이어(DL1 ~ DL5)를 포함하는 디코더(220)와 이미지 출력부(210)를 포함할 수 있다.
디코더(220)의 다수의 디코딩 레이어(DL1 ~ DL5)는 인코더(120)의 다수의 인코딩 레이어(EL1 ~ EL5)의 역순에 대응하는 순서로 구성된다. 다수의 디코딩 레이어(DL1 ~ DL5)는 인코딩부(100)의 마지막 인코딩 레이어(EL5)에서 출력된 특징맵(Xenc) 또는 이전 디코딩 레이어에서 출력된 복원 특징맵(Xdec l+1)과 다수의 인코딩 레이어(EL1 ~ EL5) 중 대응하는 인코딩 레이어에서 전달되는 특징맵(Xenc l) 및 마스크(Menc l)를 인가받아 학습된 패턴 복원 방식에 따라 디코딩하여 복원 특징맵(Xdec l)을 출력한다. 이때 본 실시예에 따른 디수의 디코딩 레이어(DL1 ~ DL5) 각각은 비로컬 특징 합성 레이어(Non-Local Feature Synthesis-Layer: 이하 NFS 레이어)를 포함하여, 복원 특징맵(Xdec l+1)과 특징맵(Xenc l) 및 마스크(Menc l)를 이용하여 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 생성하고, 비로컬 특징 합성 레이어에서 생성된 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 기반으로 기지정된 연산을 수행하여, 복원 특징맵(Xdec l)을 획득하도록 구성된다.
도 5에서도 설명의 편의를 위해 디코더(220)의 일부만을 도시하였으며, 디코더(220)의 다수의 디코딩 레이어(DL1 ~ DL5) 중 하나의 제l 디코딩 레이어(DLl)를 일예로 설명한다.
도 5를 참조하면, 본 실시예에서 제l 디코딩 레이어(DLl)는 인코딩 레이어와 역순 배치 구조에 따라 제l+1 디코딩 레이어(DLl+1)로부터 복원 특징맵(Xdec l)을 인가받고, 대응하는 인코딩 레이어(ELl)로부터 특징맵(Xenc l) 및 마스크(Menc l)를 인가받는다. 그리고 제l 디코딩 레이어(DLl)의 NFS 레이어는 인가된 복원 특징맵(Xdec l)과 특징맵(Xenc l) 및 마스크(Menc l)를 이용하여 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 생성한다. 제l 디코딩 레이어(DLl)는 NFS 레이어에서 생성된 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 결합(concatenate)하고, 결합된 맵을 학습에 의해 획득된 가중치로 디콘볼루션 하여 복원 특징맵(Xdec l-1)을 획득하고, 획득된 복원 특징맵(Xdec l-1)을 다음 단의 제l-1 디코딩 레이어(DLl-1)로 전달한다.
본 실시예에서 NFS 레이어는 다수의 디코딩 레이어(DL1 ~ DL5)가 비유효 영역의 경계 부근의 한정된 영역에서 비유효 영역을 채우기 위한 패턴을 획득하지 않고, 특징맵의 유효 영역 전체에서 의미적으로 가장 유사한 특징을 갖는 패턴 획득하여 비유효 영역을 채울 수 있도록 하기 위해 구비된다.
도 6을 참조하면, NFS 레이어는 디코딩맵 획득부(DM)와 인코딩맵 획득부(EM)를 포함할 수 있다.
디코딩맵 획득부(DM)는 제l+1 디코딩 레이어(DLl+1)로부터 인가된 Cl × Hl × Wl 크기의 복원 특징맵(Xdec l)을 재구성하고, 재구성된 복원 특징맵(Xdec l)을 서로 다른 가중치(Wl α, Wl β, Wl γ)로 1 X 1 컨볼루션하여 3개의 특징(αl(Xdec l; Wl α), βl(Xdec l; Wl β), γl(Xdec l; Wl γ))을 추출함으로써, 복원 특징맵(Xdec l)을 3개의 서로 다른 특징 공간에 포함시킨다.
그리고 복원 특징맵(Xdec l)의 모든 픽셀 중 가장 주의해야 할 특징 픽셀을 도출하기 위해 3개의 특징(αl(Xdec l;Wl α) βl(Xdec l;Wl β), γl(Xdec l;Wl γ)) 중 특징(αl(Xdec l;Wl α))과 특징(βl(Xdec l;Wl β)) 사이의 상관도를 계산하여 특징 주의 행렬(Al)을 획득한다.
여기서 특징 주의 행렬(Al)은 특징(αl(Xdec l;Wl α))을 전치(transpose)한 전치 특징(αl T(Xdec l;Wl α))과 특징(βl(Xdec l;Wl β))을 곱하고, 소프트 맥스 함수를 과 같이 적용하여 정규화함으로써 획득될 수 있다.
그리고 수학식 3과 같이 획득된 특징 주의 행렬(Al)을 특징(γl(Xdec l; Wl γ)) 및 스케일 변수(λl)와 곱하고 다시 복원 특징맵(Xdec l)과 더함으로써 디코딩맵(Ydec l)을 획득할 수 있다. 여기서 스케일 변수(λl)는 디코딩 레이어(DLl)의 특징 업데이트 과정을 제어하기 위한 파라미터로서 초기값은 0으로 설정될 수 있으며, 학습에 의해 조절될 수 있다.
즉 디코딩맵 획득부(DM)는 복원 특징맵(Xdec l)에서 각 영역별 주의도를 분석하고, 분석된 주의도에 따라 각 영역에 대해 가중치를 가중하여 디코딩맵(Ydec l)을 획득한다.
한편, 인코딩맵 획득부(EM)는 대응하는 인코딩 레이어(ELl)로부터 Cl × Hl × Wl 크기의 특징맵(Xenc l) 및 마스크(Menc l)를 인가받고, 인가된 마스크(Menc l)를 1 × HlWl 크기로 슬라이스 한다. 그리고 슬라이스된 마스크(menc l)를 반전한 반전 마스크(1- menc l)를 전치한 전치 반전 마스크와 슬라이스된 마스크(menc l)를 곱((1- menc l)Tmenc l)하여 홀 채움 표시자를 획득한다. 이는 인가된 마스크(Menc l)에 의해 지정된 비유효 영역에 대해서만 특징이 합성되어 채워지도록 하기 위해서이다.
홀 채움 표시자가 획득되면, 홀 채움 표시자((1- menc l)Tmenc l)와 디코딩맵 획득부(DM)에서 획득된 특징 주의 행렬(Al)을 곱((1- menc l)Tmenc lAl)하고 정규화하여 홀 채움 유사도 행렬(Sl)을 획득한다. 홀 채움 유사도 행렬(Sl)은 대응하는 인코딩 레이어(ELl)로부터 인가된 특징맵(Xenc l)에서 위치 j의 특징이 디코딩맵(Ydec l)의 위치 i의 특징으로 채워지기에 적합한지 여부를 판별하기 위한 행렬이다.
홀 채움 유사도 행렬(Sl)은 홀 채움 표시자((1- menc l)Tmenc l)와 특징 주의 행렬(Al)의 곱((1- menc l)Tmenc lAl)을 수학식 4에 따라 정규화하여 획득될 수 있다.
여기서 H는 비유효 영역의 픽셀을 나타내고, V는 유효 영역의 픽셀을 나타낸다.
그리고 수학식 5와 같이, 획득된 홀 채움 유사도 행렬(Sl)과 특징맵(Xenc l)을 곱하고, 그 결과에 대해 다시 특징맵(Xenc l)을 더하여 인코딩맵(Ydec l)을 생성한다.
여기서 홀 채움 유사도 행렬(Sl)과 특징맵(Xenc l)을 곱하는 것은 수학식 4에 따른 홀 채움 유사도 행렬(Sl)의 조건식은 NFS 레이어가 비유효 영역(H)에 대해서만 대응하는 인코딩 레이어(ELl)로부터 인가된 특징맵(Xenc l)의 특징을 합성하도록 보장하기 위해서이다.
결과적으로 도 6에 도시된 NFS 레이어에서 디코딩맵 획득부(DM)는 복원 특징맵(Xdec l)에서 각 영역별 주의도를 분석하고, 분석된 주의도에 따라 각 영역에 대해 가중치를 가중하여 디코딩맵(Ydec l)을 획득하고, 인코딩맵 획득부(EM)는 디코딩맵 획득부(DM)에서 획득된 특징 주의 행렬(Al)과 대응하는 인코딩 레이어(ELl)에서 인가된 마스크(Menc l)를 기반으로 비유효 영역(H)에 대한 특징맵(Xenc l)의 특징을 도출하여 인코딩맵(Ydec l)을 생성한다.
이후, 제l 디코딩 레이어(DLl)의 디컨볼루션 레이어가 상기한 바와 같이, 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 결합하고, 가중치로 디컨볼루션을 수행함으로써, 복원 특징맵(Xdec l-1)을 획득하고, 획득된 복원 특징맵(Xdec l-1)을 다음 단의 제l-1 디코딩 레이어(DLl-1)로 전달한다.
본 실시예에서는 다수의 디코딩 레이어(DL1 ~ DL5) 각각이 NFS 레이어를 포함하여 인가된 복원 특징맵(Xdec l)에서 각 영역의 주의도가 가중된 디코딩맵(Ydec l)과 대응하는 인코딩 레이어(ELl)로부터 인가된 특징맵(Xenc l)의 비유효 영역에 대한 특징만이 합성되도록 함으로써, 비유효 영역에 복원 특징맵(Xdec l)의 유효 영역에서 가장 높은 주의도를 갖는 픽셀의 특징이 합성되도록 한다. 따라서 비유효 영역의 각 픽셀에 시각적 오류가 적고 의미적으로도 유사한 픽셀이 합성되도록 할 수 있다.
이미지 출력부(210)는 디코더(220)의 다수의 디코딩 레이어(DL1 ~ DL5) 중 최종 단의 디코딩 레이어(DL1)에서 출력되는 복원 특징맵(Xdec l)을 추정 이미지로서 출력한다.
도 2에 도시된 본 실시예의 이미지 채움 장치를 학습시키는 경우, 마스크에 의해 비유효 영역이 발생되지 않은 원본 이미지(Igt)와 이미지 채움 장치에서 획득된 추정 이미지(Ipred) 사이에서 픽셀 단위로 재구성 및 지각 손실을 계산하여 학습시킬 수 있다.
여기서 재구성 및 지각 손실(Lrecon)은 수학식 6과 같이 L1 놈 함수를 이용하여 계산될 수 있다.
다만 본 실시예에 따른 이미지 채움 장치의 경우, 인코더(120)의 다수의 인코딩 레이어(EL1 ~ EL5)와 디코더(220)의 다수의 디코딩 레이어(DL1 ~ DL5) 사이에 스킵 커넥션을 통해 특징맵(Xenc l)이 전달됨에 따라 대응하는 레이어들 사이에서의 중간 손실(Lprec)을 수학식 7과 같이 계산할 수 있다.
여기서 Φl(Ipred)와 Φl(Igt)는 원본 이미지(Igt)와 추정 이미지(Ipred)에 대해 제l 인코딩 레이어(ELl)가 추출한 특징맵(Xenc l)을 나타낸다.
한편, 이미지 채움 분야에서는 스타일 손실(Style Loss)(LSCC)이 제안된 바 있으며, 여기서는 스타일 손실(LSCC)을 수학식 8에 따라 계산한다.
여기서 Pl 및 Gl은 각각 Φl(Ipred)와 Φl(Igt)의 행렬 표현이고, Sl 은 NFS 레이어에서 획득되는 홀 채움 유사도 행렬이다.
또한 홀 채움 유사도 제약 손실(Lconst-s)과 텍스처 제약 손실(Lconst-t)이 각각 수학식 9 및 10과 같이 정의될 수 있다.
수학식 8의 스타일 손실(LSCC)은 수학식 4의 홀 채움 유사도 행렬(Sl) 조건식을 사용하여, 수학식 11로 표현될 수 있다.
또한 수학식 11은 수학식 9 및 10의 홀 채움 유사도 제약 손실(Lconst-s)과 텍스처 제약 손실(Lconst-t)을 고려하여 수학식 12로 공식화될 수 있다.
그리고 본 실시예에 따른 이미지 채움 장치의 총 손실은 수학식 13으로 계산되며, 계산된 총 손실이 역전파 됨으로써, 이미지 채움 장치는 학습될 수 있다.
여기서 λrecon, λprec, λSCC, λconst-s 및 λconst-t는 손실 가중치이다.
도 7은 본 발명의 일 실시예에 따른 이미지 채움 방법을 나타낸다.
도 2 내지 도 6을 참조하여, 본 실시예에 따른 이미지 채움 방법을 설명하면, 이미지 채움 방법은 크게 입력 이미지의 유효 영역에서 특징을 추출하는 인코딩 단계(S10)와 인코딩 단계(S10)에서 추출된 유효 영역의 특징을 디코딩하여 유효 영역의 특징 중 의미적 유사도가 높은 특징을 합성하여 비유효 영역을 채움으로써 추정 이미지를 획득하는 디코딩 단계(S20)를 포함한다.
인코딩 단계(S10)에서는 우선 입력 이미지를 획득한다(S11). 여기서 입력 이미지(IN)는 원본 이미지와 원본 이미지에서 일부 영역을 제거하기 위한 마스크(MK)를 함께 인가받아, 행렬 곱 연산을 수행하여 입력 이미지(IN)를 획득할 수도 있으나, 경우에 따라서는 랜덤하게 생성된 마스크를 이용하여 입력 이미지(IN)를 획득할 수도 있다.
입력 이미지(IN)가 획득되면, 입력 이미지(IN)와 마스크(MK)에 대해 단계적으로 반복 인코딩을 수행한다. 인코딩 시에는 우선 입력 이미지(IN)와 마스크(MK)에 대해 학습에 의해 획득된 가중치를 적용하여 수학식 1에 따라 부분 컨볼루션을 수행하여 특징맵(Xenc l)을 획득한다(S12). 그리고 이용된 마스크(Menc l-1)를 수학식 2에 따라 업데이트하여 마스크(Menc l)를 획득한다(S13).
특징맵(Xenc l)과 업데이트된 마스크(Menc l)가 획득되면, 획득된 특징맵(Xenc l)과 마스크(Menc l)를 다음 인코딩을 수행하기 위해 전달할 뿐만 아니라, 디코딩 단계(S20)에서 대응하는 디코딩을 수행하기 위해 전달한다(S14).
이후 기지정된 횟수로 반복 인코딩이 수행되어 인코딩이 완료되었는지 판별한다(S15). 만일 인코딩이 완료되지 않았으면, 획득된 특징맵(Xenc l)과 마스크(Menc l)에 대해 다시 부분 컨볼루션을 수행하여 다음 특징맵(Xenc l+1)을 획득한다(S12).
그러나 인코딩이 완료된 것으로 판별되면, 디코딩 단계를 수행한다(S20). 디코딩 단계(S20) 또한 인코딩 단계(S10)와 마찬가지로 인가된 특징맵(Xenc l+1)에 대해 단계적으로 반복 인코딩을 수행하며, 인코딩 단계(S10)에서 반복되는 인코딩 횟수와 디코딩 단계(S20)에서 반복되는 디코딩 횟수는 동일하게 설정된다.
디코딩 단계(S20)에서는 우선 인코딩 단계에서 최종적으로 획득된 특징맵(Xenc l+1)을 복원 특징맵(Xdec l+1)으로 인가받을 수 있다. 그리고 복원 특징맵(Xdec l+1)을 기지정된 크기의 행렬로 재구성하고, 재구성된 복원 특징맵(Xdec l+1)에 대해 서로 다른 3개의 가중치(Wl α, Wl β, Wl γ)로 1 X 1 컨볼루션하여 3개의 특징(αl(Xdec l; Wl α), βl(Xdec l; Wl β), γl(Xdec l; Wl γ))을 추출하고, 3개의 특징 중 2개의 특징(αl(Xdec l; Wl α), βl(Xdec l; Wl β)) 사이의 상관도를 기지정된 방식에 따라 계산하여 특징 주의 행렬(Al)을 계산한다(S21). 여기서 2개의 특징(αl(Xdec l; Wl α), βl(Xdec l; Wl β)) 사이의 상관도는 2개의 특징 중 하나의 특징을 전치(αl T(Xdec l;Wl α))하고, 전치된 특징(αl T(Xdec l;Wl α))과 특징(βl(Xdec l;Wl β))을 곱하고 소프트 맥스 함수를 적용하여 정규화 함으로써 획득될 수 있다.
특징 주의 행렬(Al)이 획득되면, 수학식 3과 같이 특징 주의 행렬(Al)과 나머지 특징(γl(Xdec l; Wl γ)) 및 스케일 변수(λl)를 곱하고, 다시 복원 특징맵(Xdec l)과 더하여 디코딩맵(Ydec l)을 획득한다(S22).
한편, 복원 특징맵(Xdec l+1)과 인코딩 단계(S10)에서 반복 인코딩되어 획득되는 특징맵 중 역순으로 대응하는 특징맵(Xenc l)과 마스크(Menc l)를 인가받고, 인가된 마스크(Menc l)를 이용하여 홀 채움 표시자를 획득한다(S23). 홀 채움 표시자는 인가된 마스크(Menc l)를 기지정된 크기로 슬라이스하고, 슬라이스된 마스크(menc l)를 반전한 반전 마스크(1- menc l)를 전치한 전치 반전 마스크와 슬라이스된 마스크(menc l)를 곱((1- menc l)Tmenc l)하여 획득될 수 있다.
홀 채움 표시자가 획득되면, 홀 채움 표시자((1- menc l)Tmenc l)와 획득된 특징 주의 행렬(Al)을 이용하여 홀 채움 유사도 행렬(Sl)을 획득한다(S24). 홀 채움 표시자((1- menc l)Tmenc l)와 특징 주의 행렬(Al)의 곱((1- menc l)Tmenc lAl)을 수학식 4에 따라 정규화하여 획득될 수 있다.
이후 획득된 홀 채움 유사도 행렬(Sl)과 인가된 특징맵(Xenc l)을 곱하고, 그 결과에 대해 다시 특징맵(Xenc l)을 더하여 인코딩맵(Ydec l)을 생성한다(S25).
디코딩맵(Ydec l)과 인코딩맵(Ydec l)이 획득되면, 획득된 디코딩맵(Ydec l)과 인코딩맵(Ydec l)을 기지정된 방식으로 결합하고, 결합된 맵에 대해 학습에 의해 획득된 가중치를 이용하여 디컨볼루션 연산을 수행함으로써, 복원 특징맵(Xdec l-1)을 획득한다(S26).
복원 특징맵(Xdec l-1)이 획득되면, 기지정된 횟수로 반복 디코딩이 수행되어 디코딩이 완료되었는지 판별한다(S27). 만일 디코딩이 완료되지 않았으면, 획득된 복원 특징맵(Xdec l-1)에 대해 특징 주의 행렬(Al-1)을 획득한다(S21). 그러나 디코딩이 완료된 것으로 판별되면, 획득된 복원 특징맵(Xdec l-1)을 추정 이미지로서 출력한다(S28).
도 8 및 도 9는 본 실시예에 따른 이미지 채움 방법에 따라 입력 이미지의 비유효 영역을 채운 결과를 나타낸다.
도 8 및 도 9에 도시된 바와 같이, (a)의 입력 이미지에 대해 (e)에 나타난 본 실시예에 따른 이미지 채움 방법은 (b) 내지 (d)에 도시된 기존의 다른 이미지 채움 기법에 비해 (g)에 도시된 원본 이미지와 가장 유사하게 나타남을 알 수 있으며, 이로 인해 시각적 오류가 적고 의미적으로 유사한 이미지를 획득할 수 있음을 알 수 있다.
본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
100: 인코딩부 110: 입력 이미지 획득부
120: 인코더 EL1 ~ EL5: 인코딩 레이어
200: 디코딩부 210: 이미지 출력부
220: 디코더 DL1 ~ DL5: 디코딩 레이어
120: 인코더 EL1 ~ EL5: 인코딩 레이어
200: 디코딩부 210: 이미지 출력부
220: 디코더 DL1 ~ DL5: 디코딩 레이어
Claims (19)
- 마스크에 의해 비유효 영역이 지정된 입력 이미지를 인가받아, 미리 학습된 패턴 추정 방식에 따라 입력 이미지 또는 이전 단계에서 획득된 특징맵과 마스크를 함께 인코딩하여 특징맵을 획득하고, 상기 마스크를 기지정된 방식으로 업데이트 하는 인코더; 및
단계적으로 연결된 다수의 디코딩 레이어를 구비하여, 상기 인코더에서 최종 획득된 특징맵과 단계적으로 획득된 특징맵 및 업데이트된 마스크로부터 복원 특징맵을 획득하는 디코더를 포함하고,
상기 다수의 디코딩 레이어 각각은
상기 인코더에서 최종 획득된 특징맵 또는 이전단에서 획득된 복원 특징맵으로부터 미리 학습된 패턴 추정 방식에 따라 픽셀별 주의도를 나타내는 특징 주의 행렬을 획득하고, 상기 특징 주의 행렬과 이전 단계에서 획득된 복원 특징맵을 결합하여 디코딩맵을 획득하며, 상기 인코더의 대응하는 단계에서 획득된 마스크와 상기 특징 주의 행렬을 이용하여 특징맵에서 비유효 영역에 채워지기에 적합한 픽셀을 유효 영역에서 탐색하기 위한 홀 채움 유사도 행렬을 획득하고, 홀 채움 유사도 행렬과 대응하는 단계에서 획득된 특징맵을 결합하여 인코딩맵을 획득하는 비로컬 특징 합성 레이어(Non-Local Feature Synthesis-Layer: 이하 NFS 레이어); 및
상기 디코딩맵과 상기 인코딩맵을 결합하고, 미리 학습된 가중치를 기반으로 디컨볼루션하여 복원 특징맵을 획득하는 디컨볼루션 레이어를 포함하며,
상기 NFS 레이어는
상기 인코더에서 최종 획득된 특징맵 또는 이전단에서 획득된 복원 특징맵에 대해 학습에 의해 획득된 서로 다른 3개의 가중치로 컨볼루션하여 3개의 특징을 추출하며, 추출된 3개의 특징 중 두개의 특징 사이의 상관도를 계산하여 상기 특징 주의 행렬을 획득하며, 상기 특징 주의 행렬을 나머지 특징과 곱하고 인가된 특징맵 또는 복원 특징맵을 더하여 상기 디코딩맵을 획득하는 디코딩맵 획득부; 및
상기 인코더의 대응하는 단계에서 획득된 마스크를 기지정된 크기로 슬라이스하고, 슬라이스된 마스크와 슬라이스된 마스크의 픽셀값을 반전하고 전치하여 획득되는 전치 반전 마스크를 곱하여 홀 채움 표시자를 획득하고, 상기 홀 채움 표시자에 상기 특징 주의 행렬을 곱하고 기지정된 방식으로 정규화하여 홀 채움 유사도 행렬을 획득하며, 상기 홀 채움 유사도 행렬과 인가된 특징맵을 곱하고, 그 결과에 다시 인가된 특징맵을 더하여 상기 인코딩맵을 획득하는 인코딩맵 획득부를 포함하는 이미지 채움 장치.
- 삭제
- 삭제
- 제1 항에 있어서, 상기 디코딩맵 획득부는
추출된 3개의 특징 중 하나의 특징을 전치하고, 전치된 특징을 다른 하나의 특징을 곱한 후, 소프트 맥스 함수로 정규화하여 상기 특징 주의 행렬을 획득하는 이미지 채움 장치. - 제4 항에 있어서, 상기 디코딩맵 획득부는
상기 특징 주의 행렬과 나머지 특징에 학습에 의해 결정되는 스케일 변수를 함께 곱하는 이미지 채움 장치. - 제1 항에 있어서, 상기 인코더는
상기 다수의 디코딩 레이어와 역순으로 단계적으로 연결되는 다수의 인코딩 레이어를 포함하고,
상기 다수의 인코딩 레이어는
상기 입력 이미지 또는 이전단에서 획득된 특징맵과 대응하는 마스크를 인가받고, 인가된 특징맵과 마스크에 대해 학습에 의해 획득된 가중치를 이용하여 기지정된 연산을 수행하여 특징맵을 획득하고, 상기 마스크를 미리 지정된 방식으로 업데이트하는 이미지 채움 장치. - 제7 항에 있어서, 상기 이미지 채움 장치는
이미지와 상기 이미지에서 비유효 영역을 이진값으로 지정하는 마스크를 원소곱하여 상기 입력 이미지를 획득하는 이미지 획득부를 더 포함하는 이미지 채움 장치. - 마스크에 의해 비유효 영역이 지정된 입력 이미지를 인가받아, 미리 학습된 패턴 추정 방식에 따라 단계적으로 입력 이미지와 마스크를 함께 인코딩하여 단계적으로 특징맵을 획득하고, 상기 마스크를 기지정된 방식으로 업데이트 하는 인코딩 단계; 및
상기 인코딩 단계에서 최종 획득된 특징맵과 단계적으로 획득된 특징맵 및 업데이트된 마스크 중 대응하는 단계에서 획득된 특징맵과 마스크를 인가받아 미리 학습된 특징 복원 방식에 따라 디코딩하여 단계적으로 복원 특징맵을 획득하는 디코딩 단계를 포함하고,
상기 디코딩 단계는
상기 인코딩 단계에서 최종 획득된 특징맵 또는 상기 디코딩 단계 내에서 이전 획득된 복원 특징맵으로부터 미리 학습된 패턴 추정 방식에 따라 픽셀별 주의도를 나타내는 특징 주의 행렬을 획득하는 단계;
상기 특징 주의 행렬과 이전 단계에서 획득된 복원 특징맵을 결합하여 픽셀별 주의도가 가중된 디코딩맵을 획득하는 단계;
상기 인코딩 단계에서 획득된 대응하는 마스크와 상기 특징 주의 행렬을 이용하여 특징맵에서 비유효 영역에 채워지기에 적합한 픽셀을 유효 영역에서 탐색하기 위한 홀 채움 유사도 행렬을 획득하는 단계:
상기 홀 채움 유사도 행렬과 상기 인코딩 단계에서 획득된 대응하는 특징맵을 결합하여 인코딩맵을 획득하는 단계; 및
상기 디코딩맵과 상기 인코딩맵을 결합하고 미리 학습된 특징 복원 방식에 따라 디코딩하여 상기 복원 특징맵을 획득하는 단계를 포함하며,
상기 홀 채움 유사도 행렬을 획득하는 단계는
상기 인코딩 단계에서 획득된 대응하는 마스크를 기지정된 크기로 슬라이스하는 단계;
슬라이스된 마스크와 슬라이스된 마스크의 픽셀값을 반전하고 전치하여 획득되는 전치 반전 마스크를 곱하여 홀 채움 표시자를 획득하는 단계;
상기 홀 채움 표시자에 상기 특징 주의 행렬을 곱하고 기지정된 방식으로 정규화하는 단계를 포함하는 이미지 채움 방법.
- 삭제
- 제10 항에 있어서, 상기 특징 주의 행렬을 획득하는 단계는
상기 인코딩 단계에서 최종 획득된 특징맵 또는 이전에서 획득된 복원 특징맵에 대해 학습에 의해 획득된 서로 다른 3개의 가중치로 컨볼루션하여 3개의 특징을 추출하는 단계;
추출된 3개의 특징 중 하나의 특징을 전치하고, 전치된 특징을 다른 하나의 특징을 곱한 후, 소프트 맥스 함수로 정규화하는 단계를 포함하는 이미지 채움 방법. - 제12 항에 있어서, 상기 복원 특징맵을 결합하는 단계는
상기 특징 주의 행렬과 나머지 특징 및 학습에 의해 결정되는 스케일 변수를 곱하고 인가된 특징맵 또는 복원 특징맵을 더하여 상기 디코딩맵을 획득하는 이미지 채움 방법. - 삭제
- 삭제
- 제10 항에 있어서, 상기 특징맵을 결합하는 단계는
상기 홀 채움 유사도 행렬과 인가된 특징맵을 곱하고, 그 결과에 다시 인가된 특징맵을 더하여 상기 인코딩맵을 획득하는 단계를 포함하는 이미지 채움 방법. - 제10 항에 있어서, 상기 복원 특징맵을 획득하는 단계는
상기 디코딩맵과 상기 인코딩맵을 결합하고, 미리 학습된 가중치를 기반으로 디컨볼루션하여 상기 복원 특징맵을 획득하는 이미지 채움 방법. - 제10 항에 있어서, 상기 인코딩 단계는
상기 입력 이미지 또는 이전 획득된 특징맵과 대응하는 마스크를 인가받고, 인가된 특징맵(Xenc l-1)과 마스크(Menc l-1)와 가중치(Wenc l)를 이용하여 수학식
(여기서 u, v는 특징맵(Xenc l)에서의 좌표를 나타내고, u', v' 는 가중치(Wenc l) 윈도우(R)에서의 좌표(u', v' ∈ R)를 나타낸다.)
에 따라 특징맵(Xenc l)을 획득하는 단계; 및
상기 마스크(Menc l-1)를 수학식
(여기서 δ는 유효 영역을 제어하기 위해 미리 설정된 문턱값을 나타낸다.)
에 따라 업데이트 하는 단계를 포함하는 이미지 채움 방법.
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190132702A KR102225024B1 (ko) | 2019-10-24 | 2019-10-24 | 이미지 채움 장치 및 방법 |
PCT/KR2020/011074 WO2021080145A1 (ko) | 2019-10-24 | 2020-08-20 | 이미지 채움 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020190132702A KR102225024B1 (ko) | 2019-10-24 | 2019-10-24 | 이미지 채움 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR102225024B1 true KR102225024B1 (ko) | 2021-03-08 |
Family
ID=75184969
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020190132702A KR102225024B1 (ko) | 2019-10-24 | 2019-10-24 | 이미지 채움 장치 및 방법 |
Country Status (2)
Country | Link |
---|---|
KR (1) | KR102225024B1 (ko) |
WO (1) | WO2021080145A1 (ko) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222874A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN114743018A (zh) * | 2022-04-21 | 2022-07-12 | 平安科技(深圳)有限公司 | 图像描述生成方法、装置、设备及介质 |
CN115700781A (zh) * | 2022-11-08 | 2023-02-07 | 广东技术师范大学 | 一种动态场景下基于图像补绘的视觉定位方法及系统 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113298734B (zh) * | 2021-06-22 | 2022-05-06 | 云南大学 | 一种基于混合空洞卷积的图像修复方法及系统 |
CN113538273B (zh) * | 2021-07-13 | 2023-09-19 | 荣耀终端有限公司 | 图像处理方法及图像处理装置 |
US20230036713A1 (en) * | 2021-08-02 | 2023-02-02 | Halliburton Energy Services, Inc. | Borehole Image Gap Filing Using Deep Learning |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101539013B1 (ko) | 2014-03-19 | 2015-07-24 | 한림대학교 산학협력단 | 이미지 복원 장치 및 방법 |
KR20170092595A (ko) * | 2014-11-26 | 2017-08-11 | 큐리어스 에이아이 오와이 | 신경망 구조 및 그에 대한 방법 |
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
KR20190039460A (ko) * | 2017-10-04 | 2019-04-12 | 주식회사 스트라드비젼 | 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 |
US20190295228A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Image in-painting for irregular holes using partial convolutions |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3401843A1 (en) * | 2017-05-11 | 2018-11-14 | Nokia Technologies Oy | A method, an apparatus and a computer program product for modifying media content |
US10699388B2 (en) * | 2018-01-24 | 2020-06-30 | Adobe Inc. | Digital image fill |
-
2019
- 2019-10-24 KR KR1020190132702A patent/KR102225024B1/ko active IP Right Grant
-
2020
- 2020-08-20 WO PCT/KR2020/011074 patent/WO2021080145A1/ko active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180204111A1 (en) * | 2013-02-28 | 2018-07-19 | Z Advanced Computing, Inc. | System and Method for Extremely Efficient Image and Pattern Recognition and Artificial Intelligence Platform |
KR101539013B1 (ko) | 2014-03-19 | 2015-07-24 | 한림대학교 산학협력단 | 이미지 복원 장치 및 방법 |
KR20170092595A (ko) * | 2014-11-26 | 2017-08-11 | 큐리어스 에이아이 오와이 | 신경망 구조 및 그에 대한 방법 |
KR20190039460A (ko) * | 2017-10-04 | 2019-04-12 | 주식회사 스트라드비젼 | 이미지 세그멘테이션을 위한 학습 방법 및 학습 장치, 그리고 이를 이용한 이미지 세그멘테이션 방법 및 이미지 세그멘테이션 장치 |
US20190295228A1 (en) * | 2018-03-21 | 2019-09-26 | Nvidia Corporation | Image in-painting for irregular holes using partial convolutions |
Non-Patent Citations (1)
Title |
---|
HONGYU LIU et al. "Coherent Semantic Attention for Image Inpainting", Hunan University[online](2019.07.04.)* * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113222874A (zh) * | 2021-06-01 | 2021-08-06 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN113222874B (zh) * | 2021-06-01 | 2024-02-02 | 平安科技(深圳)有限公司 | 应用于目标检测的数据增强方法、装置、设备及存储介质 |
CN114743018A (zh) * | 2022-04-21 | 2022-07-12 | 平安科技(深圳)有限公司 | 图像描述生成方法、装置、设备及介质 |
CN114743018B (zh) * | 2022-04-21 | 2024-05-31 | 平安科技(深圳)有限公司 | 图像描述生成方法、装置、设备及介质 |
CN115700781A (zh) * | 2022-11-08 | 2023-02-07 | 广东技术师范大学 | 一种动态场景下基于图像补绘的视觉定位方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
WO2021080145A1 (ko) | 2021-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102225024B1 (ko) | 이미지 채움 장치 및 방법 | |
Sulam et al. | Multilayer convolutional sparse modeling: Pursuit and dictionary learning | |
US11244430B2 (en) | Digital image fill | |
US9349072B2 (en) | Local feature based image compression | |
Wang et al. | Resolution enhancement based on learning the sparse association of image patches | |
US20230245266A1 (en) | Generating digital images utilizing high-resolution sparse attention and semantic layout manipulation neural networks | |
CN112001914A (zh) | 深度图像补全的方法和装置 | |
Cao et al. | Image Super-Resolution via Adaptive $\ell _ {p}(0< p< 1) $ Regularization and Sparse Representation | |
US20220392025A1 (en) | Restoring degraded digital images through a deep learning framework | |
EP3840389A1 (en) | Coding scheme for video data using down-sampling/up-sampling and non-linear filter for depth map | |
CN110473151B (zh) | 基于分区卷积和关联损失的双阶段图像补全方法及系统 | |
CN115345866B (zh) | 一种遥感影像中建筑物提取方法、电子设备及存储介质 | |
JP7303783B2 (ja) | 不明のダウンスケーリングカーネルで生成された画像をアップスケールするための手法 | |
Salmona et al. | Deoldify: A review and implementation of an automatic colorization method | |
CN113870283A (zh) | 人像抠图方法、装置、计算机设备及可读存储介质 | |
CN116797768A (zh) | 全景图像减少现实的方法和装置 | |
CN118115394A (zh) | 退化图像修复方法、装置、设备及存储介质 | |
Han et al. | ABCD: Arbitrary Bitwise Coefficient for De-quantization | |
Liu et al. | Low-rank matrix completion to reconstruct incomplete rendering images | |
Voronin et al. | Inpainting for videos with dynamic objects using texture and structure reconstruction | |
Ahmed et al. | Digital image inpainting techniques for cultural heritage preservation and restoration | |
CN118279119B (zh) | 一种图像水印信息的处理方法、装置及设备 | |
Ding | Image Inpainting Based on Exemplars and Sparse Representation | |
Wang et al. | Self‐Similarity Superresolution for Resource‐Constrained Image Sensor Node in Wireless Sensor Networks | |
Patel et al. | Study of noise removal techniques for digital images |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
E701 | Decision to grant or registration of patent right | ||
GRNT | Written decision to grant |