KR102646073B1

KR102646073B1 - 선박 이미지 재구성 방법

Info

Publication number: KR102646073B1
Application number: KR1020220173301A
Authority: KR
Inventors: 강상길; 이한음
Original assignee: 인하대학교 산학협력단
Priority date: 2022-12-13
Filing date: 2022-12-13
Publication date: 2024-03-12

Abstract

본 발명은 선박 이미지 재구성 방법에 관한 것으로, 퓨즈포머 레이어를 기반으로 한 선박 이미지 재구성 방법으로서, 라플라시안 필터를 이용한 전처리 단계를 포함하고, 그 전처리한 결과를 이용하여 선박을 막고 있는 다른 물체를 제거한 선박 이미지를 재구성하는 것을 것을 특징으로 한다.

Description

선박 이미지 재구성 방법{VESSEL IMAGE RECONSTRUCTION METHOD}

본 발명은 선박 이미지 재구성 방법에 관한 것으로서, 더욱 상세하게는, 선박을 막고 있는 다른 물체를 제거한 선박 이미지를 재구성하는 선박 이미지 재구성 방법에 관한 것이다.

선박 이미지를 복원하기 위해 기존의 CNN기법이나 비전 트랜스포머(Vision Transformer) 기법, 이들을 결합한 퓨즈포머(Fuseformer) 기법 등이 사용될 수 있다.

도 1은 종래 비전 트랜스포머의 구조도이다.

비전 트랜스포머(Vision Transformer)는 컴퓨터 비전 분야에 트랜스포머 구조를 적용한 기술로 위치 임베딩(Positional Embedding)과 자체 강조(Self Attention)를 활용하여 이미지의 부분적인 주요 정보 추출능력이 뛰어난 기법이다.

그러나 Vision Transformer 기법은, 영상 프레임 사이에선 데이터 교류가 불가능하고, 이미지 패치들이 독립적으로 나뉘어 상호간의 정보 교류가 불가능하고, 고해상도 이미지의 경우 패치의 수가 증가하여 학습 효율이 저하된다.

종래 퓨즈포머(Fuseformer)는, 종래 비전 트랜스포머(Vision Transformer)가 가진 단점을 보완하기 위해 나온 모델로 패치(patch)를 나눌 때 그리드 형태의 (Patch)로 분할하지 않고 일부를 겹쳐서 Soft Split을 적용함으로써 비전 트랜스포머(Vision Transformer)의 단점을 보완한 모델이다.

도 2은 종래 퓨즈포머의 구조도이다.

도 2과 같은 종래의 Fuseformer 기법을 이용하더라도 선박 이미지 재구성은 가능하지만, 선박을 막고 있는 다른 물체를 제거한 이미지 재구성은 용이하지 않다.

선박을 막고 있는 다른 물체를 제거한 이미지를 재구성하기 위해서는 많은 작업량이 필요하다.

또한 특허문헌 1(한국 공개특허 10-2022-0130630)에는 이미지 처리방법, 안면 인식 모델 훈련 방법, 장치 및 기기에 대한 기술이 공개되어 있으나, 특허문헌 1에 기재된 이미지 처리방법을 사용하더라도 선박을 막고 있는 다른 물체를 제거한 이미지 재구성은 용이하지 않다.

한국 공개특허 10-2022-0130630(2022. 09. 27. 공개)

본 발명은 상기한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은, 선박을 막고 있는 다른 물체를 제거한 이미지 재구성을 비교적 적은 계산량으로 효율적으로 하는 선박 이미지 재구성 방법을 제공하는 것이다.

본 발명에 의한 선박 이미지 재구성 방법은, 퓨즈포머 레이어를 기반으로 한 선박 이미지 재구성 방법으로서, 라플라시안 필터를 이용한 전처리 단계를 포함하고, 그 전처리한 결과를 이용하여 선박을 막고 있는 다른 물체를 제거한 선박 이미지를 재구성하는 것을 특징으로 한다.

본 발명에 의한 선박 이미지 재구성 방법은, 퓨즈포머 레이어를 기반으로 한 선박 이미지 재구성 방법으로서, 기본 이미지, 라플라시안 필터를 기반으로 생성된 라플라시안 이미지, 마스킹 이미지를 입력받은 후 임베딩 과정에서 포지셔널 인코딩을 하는 단계; CNN기반의 인코더를 통해 이미지 차원을 낮추는 단계; 각각의 피쳐맵이 트랜스포머 블록으로 전달되고 멀티헤드 어텐션 과정을 거치는 단계; 어텐션을 거친 이후 순전파 과정에서 하나의 벡터를 겹침 분할을 통해 다시 패치 단위로 변형하는 단계; 같은 포지션을 가지는 마스킹 이미지와 라플라시안 이미지를 결합하는 단계; 라플라시안 이미지의 애버리지 스무싱을 하는 단계; 겹침 복원을 통해 패치를 기존 피쳐맵 사이즈로 복원하는 단계; 연산효율성을 위해 낮추었던 차원을 CNN 기반의 디코더를 통해 기존 해상도를 복원하는 단계; 를 포함하고, 선박을 막고 있는 다른 물체를 제거한 선박 이미지를 재구성하는 것을 특징으로 한다.

상기 퓨즈포머 레이어는 다층의 레이어를 포함할 수 있다.

상기한 구성의 본 발명에 따르면, 선박을 막고 있는 다른 물체를 제거한 이미지 재구성을 비교적 적은 계산량으로 효율적으로 하는 효과가 있다.

도 1은 종래 비전 트랜스포머의 구조도
도 2는 종래 퓨즈포머의 구조도
도 3은 본 발명에 의한 퓨즈포머의 구조도
도 4는 라플라시안 필터의 적용예
도 5는 마스킹 이미지와 라플라시안 이미지의 평균을 구한 예
도 6은 라플라시안 이미지의 Average Smoothing 의 예
도 7은 겹침 분할의 예
도 8은 재구성 결과의 예 1
도 9는 재구성 결과의 예 2

이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시 예를 보다 상세하게 설명한다. 그리고, 본 발명은 다수의 상이한 형태로 구현될 수 있고, 기술된 실시 예에 한정되지 않는다.

본 발명에 의한 선박 이미지 재구성 방법은, 퓨즈포머(FuseFormer) 레이어를 기반으로 한 선박 이미지 재구성 방법으로서, 라플라시안 필터를 이용한 전처리 단계를 포함하고, 그 전처리한 결과를 이용하여 선박을 막고 있는 다른 물체를 제거한 선박 이미지를 재구성하는 것을 특징으로 한다.

본 발명에 의한 선박 이미지 재구성 방법은, 많은 부분에 있어서 종래의 퓨전포머에서 사용하던 기술을 동일하게 이용한다.

본 발명에 의한 선박 이미지 재구성 방법을 구체적으로 설명하면, 다음의 단계를 포함한다.

(1) 기본 이미지, 라플라시안 필터를 기반으로 생성된 라플라시안 이미지, 마스킹 이미지를 입력받은 후 임베딩 과정에서 포지셔널 인코딩을 하는 단계

(2) CNN기반의 인코더를 통해 이미지 차원을 낮추는 단계

(3) 각각의 피쳐맵이 트랜스포머 블록으로 전달되고 멀티헤드 어텐션 과정을 거치는 단계

(4)어텐션을 거친 이후 순전파 과정에서 하나의 벡터를 겹침 분할을 통해 다시 패치 단위로 변형하는 단계

(5) 같은 포지션을 가지는 마스킹 이미지와 라플라시안 이미지를 결합하는 단계

(6) 라플라시안 이미지의 애버리지 스무싱을 하는 단계

(7) 겹침 복원을 통해 패치를 기존 피쳐맵 사이즈로 복원하는 단계

(8) 연산효율성을 위해 낮추었던 차원을 CNN 기반의 디코더를 통해 기존 해상도를 복원하는 단계

도 3은 본 발명에 의한 퓨즈포머의 구조도이다.

기본 이미지, 라플라시안 필터를 기반으로 생성된 라플라시안 이미지, 마스킹 이미지를 입력값으로 입력하면, 선박을 막고 있는 다른 물체(선박을 막고 있는 다른 선박, 섬, 나무 등)를 제거한 선박 이미지를 재구성하여 출력한다.

기본 이미지는 3장의 사진이 될 수 있다. 특정 시점의 사진과 그 특정시점에서 특정 시간 이전의 사진, 그 특정시점에서 특정 시간 이후의 사진이 될 수 있다.

라플라시안 필터를 기반으로 생성된 라플라시안 이미지는 라플라시안 필터를 적용하여 만든다.

Laplacian Filter는 2차 미분의 결과이다. 이미지 데이터를 그래프화 하였을 때, 변곡점에서 이계도 함수는 0점을 통과하며 부호가 바뀌므로, 이 기준을 이용하여 확실하게 이미지의 윤곽선을 검출해낼 수 있다

도 4는 라플라시안 필터의 적용예이다.

라플라시안 필터를 적용한 결과 이미지의 윤곽선이 검출됨을 알 수 있다.

이차 미분한 결과는 다음의 수식으로 표시할 수 있다.

라플라시안 필터는 물체의 윤곽선을 강조하여 보여주므로 객체 탐지 및 마스킹 성능을 높이 끌어올릴 수 있다.

마스킹 이미지는 지워야 할 특정 부분을 표시하는 이미지다. 사용자가 보기에 복원할 이미지를 방해하는 물체라고 판단하면, 그 부분을 마스킹 영역으로 표시할 수 있다. 본 발명에서는 사용자가 마스킹 영역을 정밀하게 설정하지 않고 대충 설정하더라도, 비교적 적은 계산량으로 선박 이미지를 재구성할 수 있다.

본 발명에서는 3장의 기본 이미지, 그 기본 이미지에 대응되는 3장의 라플라시안 이미지, 그 기본 이미지에 대응되는 3장의 마스킹 이미지를 입력 이미지로 제공할 수 있다.

기존의 트랜스포머는 한 장의 이미지 프레임이 임베딩 되므로 연속적인 프레임 사이의 정보를 파악할 수 없었다. 이를 극복하고자 본 발명에서는, 여러 프레임을 동시에 입력값으로 주어 동영상의 순차적인 정보를 파악할 수 있도록 한다.

본 발명에서는 원본 이미지(기본 이미지)와 라플라시안 필터를 통과한 이미지를 동시에 CNN 인코더에 임베딩하여 두 가지 사진에 대한 정보를 모두 학습한다.

고해상도의 사진 여러 장을 한 번에 모델에 입력하면 연산량이 급증하여 학습 성능과 효율이 떨어진다. 그래서 이미지의 용량은 줄이고 특징(Feature)은 강조하기 위해 모델 구조의 전면과 후면에 CNN 기반의 인코더와 디코더 모듈을 추가한다.

즉, 본 발명에서는 고해상도의 이미지를 통해 학습 및 추론하기 때문에 실시간 작업을 위해서는 CNN기반의 인코더를 통해 이미지 차원을 낮추어야 하다. 그래서 입력된 이미지들은 CNN기반의 인코더를 통해 이미지 차원을 낮추는 단계를 거친다.

그 후에 각각의 피쳐맵이 트랜스포머 블록으로 전달되고 멀티헤드 어텐션 과정을 거친다. 이 과정은 종래 기술(도 1에 표시된 종래 비전 트랜스포머와 도 2에 표시된 종래 퓨즈포머)에 표시된 과정과 동일하므로 자세한 설명은 생략한다.

어텐션을 거친 이후 순전파 과정에서 하나의 벡터를 겹침 분할(Soft Split)을 통해 다시 패치 단위로 변형한다. 이 때 마스킹 이미지와 라플라시안 이미지 포지션의 값들을 모두 0~1 사이로 노멀라이제이션(Normalization)을 진행한다. 노멀라이제이션(Normalization)은, 값의 범위를 0~1사이로 맞추어서 하나의 feature가 갖는 영향력이 너무 커지지 않도록 하는 방법이다.

같은 포지션을 가지는 마스킹 이미지와 라플라시안 이미지를 결합하는 예는 도 5와 같다.

도 5는 마스킹 이미지와 라플라시안 이미지의 평균을 구한 예이다.

라플라시안 이미지의 애버리지 스무싱을 하는 예는 도 6과 같다.

도 6은 라플라시안 이미지의 Average Smoothing 의 예이다.

도 6에서 16개의 값을 4개의 값을 풀링(pooling)에서 하는 과정에서 애버리지 스무싱 테이블(Average Smoothing Table)을 생성하고, 이 애버리지 스무싱 테이블(Average Smoothing Table)을 이용하여 나중에 4개의 값을 16개의 값으로 업풀링(up-pooling)할 수 있다.

이러한 연산은 여러 겹의 레이어를 거쳐 이루어질 수 있다. 그리고 이때 다수의 트랜스포머 레이어에 이미지 패치가 중첩되어 들어간다. 이로 인해 패치 상호간 정보 교류가 가능하다.

그 후에 겹침 복원(Soft Composition)을 통해 패치를 기존 피쳐맵 사이즈로 복원한다.

그 후에 연산효율성을 위해 낮추었던 자원을 CNN기반의 디코더를 통해 기존 해상도로 복원한다.

트랜스포머에 임베딩 될 이미지 패치 사이에도 관계 분석이 필요하다.

FuseFormer는 겹침 분할(Soft Split)과 겹침 복원(Soft Composition) 방법을 통해 이를 해결한다. 겹칩 분할은 한 장의 이미지를 중첩되는 패치들로 나누어 서로가 교차하도록 설계하는 것이다. 겹침 복원은 모든 패치들이 재결합 될 때 겹치는 부분의 픽셀 데이터를 합하여, 패치들 사이의 연관 관계를 강화하는 방법이다. 이 두 가지 과정을 반복하여 학습한다.

도 7은 겹침 분할의 예이다.

본 발명의 퓨즈포머 레이어의 개괄적인 구조는 다음과 같은 수식으로 표시될 수 있다.

F3N 구조는 다음과 같은 수식으로 표시될 수 있다.

일렬로 펼쳐진 이미지 패치 f가 SC(Soft Composition) & SS(Soft Split)을 거친다.

Loss function은 다음과 같고, 이것을 최소화하는 방향으로 모델을 학습시킨다.

도 8은 재구성 결과의 예 1이다.

도 8 (a)는 기본 이미지이고, 도 8 (b)는 마스킹 이미지이고, 도 8 (c)는 본 발명에 의한 재구성 결과이고, 도 8 (d)는 종래 퓨즈포머에 의한 결과이다.

종래 퓨즈포머에 의한 결과에서는 선박을 가로막는 섬이 완전히 지워지지 않았으나, 본 발명에 의한 결과에서는 선박을 가로막는 섬이 완전히 지워졌음을 알 수 있다.

도 9는 재구성 결과의 예 2이다.

도 9 (a)는 기본 이미지이고, 도 9 (b)는 마스킹 이미지이고, 도 9 (c)는 본 발명에 의한 재구성 결과이고, 도 9 (d)는 종래 퓨즈포머에 의한 결과이다.

종래 퓨즈포머에 의한 결과에서는 바다를 가로막는 나무가 완전히 지워지지 않았으나, 본 발명에 의한 결과에서는 바다를 가로막는 나무가 완전히 지워졌음을 알 수 있다.

Claims

삭제
퓨즈포머 레이어를 기반으로 한 선박 이미지 재구성 방법으로서,
기본 이미지, 라플라시안 필터를 기반으로 생성된 라플라시안 이미지, 마스킹 이미지를 입력받은 후 임베딩 과정에서 포지셔널 인코딩을 하는 단계;
CNN기반의 인코더를 통해 이미지 차원을 낮추는 단계;
각각의 피쳐맵이 트랜스포머 블록으로 전달되고 멀티헤드 어텐션 과정을 거치는 단계;
어텐션을 거친 이후 순전파 과정에서 하나의 벡터를 겹침 분할을 통해 다시 패치 단위로 변형하는 단계;
같은 포지션을 가지는 마스킹 이미지와 라플라시안 이미지를 결합하는 단계;
라플라시안 이미지의 애버리지 스무싱을 하는 단계;
겹침 복원을 통해 패치를 기존 피쳐맵 사이즈로 복원하는 단계;
연산효율성을 위해 낮추었던 차원을 CNN 기반의 디코더를 통해 기존 해상도를 복원하는 단계;
를 포함하고,
상기 모든 단계를 거친 후에 선박을 막고 있는 다른 물체를 제거한 선박 이미지로 재구성하는 것을 특징으로 하는 선박 이미지 재구성 방법.
청구항 2에서 있어서,
상기 퓨즈포머 레이어는 다층의 레이어를 포함하는 것을 특징으로 하는 선박 이미지 재구성 방법.