KR102563953B1 - 영상의 잠재특징을 이용한 영상 변환방법 및 장치 - Google Patents

영상의 잠재특징을 이용한 영상 변환방법 및 장치 Download PDF

Info

Publication number
KR102563953B1
KR102563953B1 KR1020220179572A KR20220179572A KR102563953B1 KR 102563953 B1 KR102563953 B1 KR 102563953B1 KR 1020220179572 A KR1020220179572 A KR 1020220179572A KR 20220179572 A KR20220179572 A KR 20220179572A KR 102563953 B1 KR102563953 B1 KR 102563953B1
Authority
KR
South Korea
Prior art keywords
image
input image
latent
features
feature
Prior art date
Application number
KR1020220179572A
Other languages
English (en)
Inventor
김문철
육근혁
박종민
Original Assignee
국방과학연구소
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 국방과학연구소 filed Critical 국방과학연구소
Priority to KR1020220179572A priority Critical patent/KR102563953B1/ko
Application granted granted Critical
Publication of KR102563953B1 publication Critical patent/KR102563953B1/ko

Links

Classifications

    • G06T3/0056
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • G01S13/89Radar or analogous systems specially adapted for specific applications for mapping or imaging
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10044Radar image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20021Dividing image into blocks, subimages or windows
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Remote Sensing (AREA)
  • General Physics & Mathematics (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Electromagnetism (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

입력영상의 잠재특징을 추정하여 영상분석장치의 영상분석 학습을 위한 학습영상을 생성할 수 있는 잠재특징을 이용한 영상 변환방법이 제공된다. 영상 변환방법은, 시뮬레이터 등에 의해 생성된 시뮬레이션영상을 입력 받아 실제 관측영상의 잠재특징과 동일한 잠재특징을 추정하고, 이를 이용하여 시뮬레이션영상을 실제 관측영상과 실질적으로 동일한 학습영상 또는 테스트영상으로 변환하여 출력할 수 있다.

Description

영상의 잠재특징을 이용한 영상 변환방법 및 장치{Method and apparatus for image translation using latent features of image}
본 발명은 입력영상의 잠재특징을 추정하여 영상분석장치의 영상분석 학습을 위한 학습영상을 생성하거나 또는 일반적인 영상 분석 및 해석을 위한 테스트영상을 생성할 수 있는 잠재특징을 이용한 영상 변환방법 및 영상 변환장치에 관한 것이다.
지상, 공중 및 해상 등에서 피아 표적을 식별하고자 할 경우, 표적이 자신의 정보를 제공해 주지 않는 것이 일반적이므로 표적에 대한 정보를 스스로 획득해서 이를 기반으로 해당 표적이 어떤 것인지 구분하는 과정이 필요하다.
표적 식별을 위해서는 식별해야 할 표적의 고유한 물리적 특성을 얻을 수 있어야 하는데 이 특징을 얻기 위해서 광학 영상, 적외선 영상, 음파, 레이더 신호들이 많이 사용되고 있다.
그 중에서도 레이더는 광학 영상처럼 빛이 신호원이 아니라 전파를 신호원으로 사용한다. 전파를 사용함으로써 파장이 빛보다 길어서 지역의 환경적 영향, 예컨대 구름이나 해무 등에 영향을 받지 않는다는 장점이 있다. 따라서 레이더는 정보 획득 거리가 광학에 비하여 길고 날씨에 제약이 없어 전천후 작전운영이 가능하도록 정보를 제공할 수 있다.
특히, 지상의 표적을 식별하고자 할 때 합성 개구면 레이더(synthetic aperture radar, 이하 SAR) 영상을 주로 사용하는데, 이러한 SAR 영상은 다른 광학영상에 비하여 해상도가 상대적으로 매우 낮기 때문에 사람이 SAR영상에서 표적을 식별하는데 어려움이 있다.
최근, 딥 러닝(deep-learning) 등의 신경망 네트워크 기술이 발전함에 따라 이를 이용하여 SAR 영상에서 표적을 자동으로 탐지하고 식별할 수 있는 자동 표적 탐지(ATR, automatic target recognition)장치가 개발되고 있다.
이러한 자동 표적 탐지장치는 이에 탑재된 신경망 네트워크, 예컨대 표적 식별 신경망을 학습시킨 후, 이를 이용하여 레이더 등에서 제공된 SAR 영상에서 표적을 정밀하게 탐지하여 식별할 수 있다.
그러나, 표적 식별을 위한 신경망 네트워크를 학습시키기 위해서는 다양한 형태, 예컨대 다양한 고각 또는 방위각을 갖는 표적에 대한 관측영상, 즉 SAR 영상으로 학습데이터베이스를 구축하는 것이 필요하나, 실질적으로 다양한 SAR 영상을 수집하는 것은 많은 어려움이 있다.
이에, 종래에는 인터넷 모델이나 사진과 같은 표적에 대한 간접정보를 이용하여 생성된 CAD모델을 전자파 수치해석 등을 통한 시뮬레이션으로 가상의 SAR 영상을 생성하여 학습데이터베이스를 구축하고, 이를 이용하여 신경망 네트워크를 학습시키는 방식이 주로 사용되고 있다.
그러나, 시뮬레이션을 통해 생성된 가상의 SAR 영상은 이에 대한 실제 관측영상과 대비하여 영상 간 오차가 존재하며, 이러한 오차로 인해 신경망 네트워크에서 표적 탐지 및 식별의 오류가 발생되어 학습효율이 저하되는 문제가 발생되고 있다.
한국등록특허 제10-2272411호(2021.06.28.)
본 발명은 입력영상의 잠재특징을 추정하여 영상분석장치의 영상분석 학습을 위한 학습영상을 생성하거나 또는 일반적인 영상 분석 및 해석을 위한 테스트영상을 생성할 수 있는 잠재특징을 이용한 영상 변환방법 및 영상 변환장치를 제공하고자 하는 데 있다.
본 발명의 일 실시예에 따른 영상 변환방법은, 기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하는 단계; 기 학습된 영상변환부를 이용하여 상기 입력영상의 영상특징을 추출하고, 기 추정된 상기 잠재특징을 이용하여 상기 영상특징을 변조하는 단계; 및 변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 포함한다.
상기 변조하는 단계는, 상기 입력영상에서 하나 이상의 전역(global)특징을 포함하는 상기 영상특징을 추출하는 단계; 및 상기 잠재특징과 상기 하나 이상의 전역 특징을 연산하여 상기 영상특징을 변조하는 단계를 포함한다.
상기 영상특징을 추출하는 단계는, 상기 입력영상을 다수의 윈도우로 분할하여 정규화하는 단계; 및 상기 다수의 윈도우 각각에 셀프 어텐션(self-attention)을 적용하여 상기 입력영상에 대한 상기 하나 이상의 전역특징을 추출하는 단계를 포함한다.
상기 영상특징을 변조하는 단계는, 상기 잠재특징을 변환하는 단계; 및 변환된 잠재특징과 상기 하나 이상의 전역특징을 요소별(element-wise) 곱셈하여 상기 영상특징을 변조하는 단계를 포함한다.
여기서, 상기 잠재특징 추정부는, 상기 입력영상과 함께, 레이블 데이터로서 상기 입력영상의 잠재특징 추정 정답을 입력 받으면, 상기 입력영상에 대한 상기 잠재특징을 추정하여 출력하도록 기 학습된다.
이때, 상기 추정 정답은 상기 입력영상에 대응되는 실제 관측영상의 잠재특징이다.
또한, 상기 영상변환부는, 상기 입력영상 및 상기 입력영상의 잠재특징과 함께, 레이블 데이터로서 상기 입력영상의 변환 정답을 입력 받으면, 상기 입력영상을 상기 학습영상 및 테스트영상 중 하나로 변환하여 출력하도록 기 학습된다.
이때, 상기 변환 정답은 상기 입력영상에 대응되는 실제 관측영상이다.
또한, 상기 입력영상은 시뮬레이션으로 생성된 SAR영상이다.
본 발명의 실시예에 따른 영상 변환장치는, 영상을 변환하는 영상변환 프로그램이 저장된 메모리; 및 상기 영상변환 프로그램을 실행하여, 기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하고, 기 학습된 영상변환부를 이용하여 상기 입력영상의 영상특징을 추출하고, 기 추정된 상기 잠재특징을 이용하여 상기 영상특징을 변조하며, 변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 수행하는 프로세서를 포함한다.
본 발명은 시뮬레이터 등에 의해 생성된 시뮬레이션영상을 입력 받아 실제 관측영상의 잠재특징과 동일한 잠재특징을 추정하고, 이를 이용하여 시뮬레이션영상을 실제 관측영상과 실질적으로 동일한 학습영상 또는 테스트영상으로 변환하여 출력할 수 있다.
이에, 본 발명은 시뮬레이션영상으로부터 생성된 학습영상을 SAR 영상 등을 분석하는 영상분석장치의 영상 분석 학습 또는 일반적인 영상 분석 또는 해석을 위한 테스트에 이용될 수 있도록 제공함으로써, 영상분석장치의 학습 효율을 높여 SAR 영상에 대한 정확한 영상 분석이 이루어지도록 할 수 있도록 하거나, 영상분석장치가 아닌 일반적인 목적의 분석 또는 해석을 위해서 사용이 용이하도록 할 수 있다,
도 1은 본 발명의 실시예에 따른 영상변환장치를 나타내는 블록도이다.
도 2는 도 1의 영상변환 프로그램의 기능을 개념적으로 나타내는 블록도이다.
도 3은 도 2의 잠재특징 추정부를 학습시키는 방법을 나타내는 도면이다.
도 4는 도 2의 영상변환부를 학습시키는 방법을 나타내는 도면이다.
도 5는 도 2의 오토인코더의 동작을 나타내는 도면이다.
도 6 및 도 7은 도 4의 영상변환기의 구성을 나타내는 도면들이다.
도 8은 본 발명의 실시예에 따른 영상변환방법을 나타내는 순서도이다.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다.
본 발명의 실시예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 첨부된 도면을 참조하여 본 발명의 바람직한 실시 예에 대하여 상세하게 설명한다.
도 1은 본 발명의 실시예에 따른 영상변환장치를 나타내는 블록도이다.
도 1을 참조하면, 본 실시예의 영상변환장치(100)는 외부에서 제공되는 입력영상에서 잠재특징을 추정하고, 추정된 잠재특징에 기초하여 입력영상을 학습영상 또는 테스트영상으로 변환하여 출력할 수 있다.
여기서, 입력영상은 시뮬레이터(미도시) 등에 의해 생성된 합성개구레이더(SAR, synthetic aperture radar) 영상일 수 있다. 또한, 학습영상은 SAR 영상을 분석할 수 있는 영상분석모델(미도시)로 출력되어 상기 영상분석모델의 학습에 이용될 수 있다. 또한, 테스트영상은 영상분석모델에 의한 입력영상의 영상분석 및 해석에 이용될 수 있다.
본 실시예의 영상변환장치(100)는 프로세서(110), 입출력부(120) 및 메모리(130)를 포함할 수 있다.
프로세서(110)는 영상변환장치(100)의 전반적인 동작을 제어할 수 있다. 이러한 프로세서(110)는 입출력부(120)를 통해 입력영상을 수신하고, 후술될 메모리(130)에 저장된 영상변환 프로그램(135)을 이용하여 입력영상을 학습영상 또는 테스트영상으로 변환할 수 있다. 변환된 학습영상 또는 테스트영상은 입출력부(120)를 통해 외부, 즉 영상분석모델로 출력될 수 있다.
메모리(130)는 영상변환 프로그램(135) 및 이의 실행에 필요한 정보를 저장할 수 있다. 본 실시예의 영상변환 프로그램(135)은 입력영상에서 잠재특징을 추정하고, 이를 이용하여 입력영상을 변환하도록 프로그램 된 다수의 명령어들을 포함하는 소프트웨어일 수 있다.
이에, 프로세서(110)는 메모리(130)로부터 영상변환 프로그램(135)을 로드하여 실행하고, 외부에서 제공된 입력영상을 변환하여 출력할 수 있다.
도 2는 도 1의 영상변환 프로그램의 기능을 개념적으로 나타내는 블록도이다.
도 2를 참조하면, 본 실시예의 영상변환 프로그램(135)은 잠재특징 추정부(140), 영상변환부(150) 및 오토인코더(160)를 포함할 수 있다.
도 2에 도시된 잠재특징 추정부(140), 영상변환부(150) 및 오토인코더(160)는 영상변환 프로그램(135)의 기능을 쉽게 설명하기 위하여 개념적으로 나눈 것으로, 본 발명은 이에 제한되지 않는다.
예컨대, 본 발명의 실시예에 따라 잠재특징 추정부(140), 영상변환부(150) 및 오토인코더(160)는 그 기능이 병합되거나 분리될 수 있으며, 하나의 프로그램에 포함되는 일련의 명령어들로 구현될 수도 있다.
잠재특징 추정부(140)는 입력영상의 잠재특징을 추정하여 출력할 수 있다. 여기서, 잠재특징은 영상을 구성하는 다수의 특징들 중에서 핵심특징일 수 있다. 이에, 잠재특징 추정부(140)는 입력영상에서 다수의 특징을 추출하고, 추출된 다수의 특징 중에서 잠재특징을 추정하여 출력할 수 있다.
여기서, 잠재특징 추정부(140)는 입력영상을 잠재공간에 매핑하여 상기 입력영상으로부터 잠재특징을 추정할 수 있다. 잠재공간 매핑은 저차원의 영상 도메인을 고차원 잠재공간으로 매핑하는 것을 의미할 수 있다.
이러한 잠재특징 추정부(140)는 기 학습된 잠재특징 추정 신경망을 포함할 수 있다. 잠재특징 추정부(140)는 잠재특징 추정 신경망을 이용하여 입력영상에서 잠재특징을 추정하고, 추정된 잠재특징을 출력할 수 있다.
도 3은 도 2의 잠재특징 추정부를 학습시키는 방법을 나타내는 도면이다.
도 3을 참조하면, 본 실시예의 잠재특징 추정부(140)는 잠재특징 추정 신경망을 포함할 수 있고, 상기 신경망은 잠재특징 추정기(141)를 포함할 수 있다.
잠재특징 추정기(141)는 학습데이터, 예컨대 입력영상과 함께, 레이블 데이터로 상기 입력영상에 대한 잠재특징 추정 정답을 입력 받으면, 상기 입력영상의 잠재특징을 추정하여 출력하도록 학습될 수 있다. 또한, 잠재특징 추정기(141)는 학습이 완료된 후 테스트를 위한 잠재특징 추정기의 구성이 될 수 있다, 이 경우 추정정답은 입력에서 제외된다.
잠재특징 추정기(141)는 레이블 데이터로 입력된 추정 정답을 추정 결과, 즉 실제 출력한 입력영상의 잠재특징과 비교하고, 비교 결과로부터 추정 손실을 생성할 수 있다. 이에, 잠재특징 추정기(141)는 추정 손실이 최소가 되도록 전술한 학습, 즉 입력영상에서 잠재특징을 추정하는 학습을 반복하여 수행할 수 있다.
여기서, 추정 정답은 후술될 오토인코더(160)의 동작에 의해 출력되는 관측영상의 잠재특징일 수 있다. 또한, 관측영상은 합성개구레이더를 통해 실제 관측된 영상으로, 본 실시예의 입력영상, 즉 시뮬레이션 SAR영상에 대응되는 영상일 수 있다.
이에, 본 실시예의 잠재특징 추정기(141)는 입력영상으로부터 관측영상의 잠재특징과 실질적으로 동일한 잠재특징이 추출되도록 학습될 수 있다. 이러한 잠재특징 추정기(141)는 오토인코더(160)를 구성하는 인코더(미도시)와 동일한 구조를 가질 수 있다.
다시 도 2를 참조하면, 영상변환부(150)는 전술된 잠재특징 추정부(140)에서 출력된 입력영상의 잠재특징에 기초하여 상기 입력영상을 학습영상 또는 테스트영상으로 변환하여 출력할 수 있다.
이러한 영상변환부(150)는 기 학습된 영상변환 신경망을 포함할 수 있다. 영상변환부(150)는 영상변환 신경망을 이용하여 기 추정된 입력영상 잠재특징에 기초하여 입력영상을 학습영상 또는 테스트영상으로 변환할 수 있다.
도 4는 도 2의 영상변환부를 학습시키는 방법을 나타내는 도면이다.
도 4를 참조하면, 본 실시예의 영상변환부(150)는 영상변환 신경망을 포함하고, 상기 영상변환 신경망은 영상변환기(151)를 포함할 수 있다.
영상변환기(151)는 학습데이터, 예컨대 입력영상 및 상기 입력영상의 잠재특징과 함께, 레이블 데이터로 상기 입력영상의 변환 정답을 입력 받으면, 상기 입력영상을 학습영상 또는 테스트영상으로 변환하여 출력하도록 학습될 수 있다.
영상변환기(151)는 레이블 데이터로 입력된 변환 정답을 실제 출력한 학습영상 또는 테스트영상과 비교하고, 비교 결과로부터 변환 손실을 생성할 수 있다. 이에, 영상변환기(151)는 변환 손실이 최소가 되도록 전술한 입력영상을 학습영상 또는 테스트영상으로 변환하는 학습을 반복하여 수행할 수 있다.
여기서, 변환 정답은 오토인코더(160)에 입력되는 관측영상일 수 있다. 앞서 설명한 바와 같이, 관측영상은 입력영상에 대응되는 실제 관측된 영상일 수 있다. 따라서, 본 실시예의 영상변환기(151)는 입력영상이 관측영상과 실질적으로 동일한 학습영상 또는 테스트영상으로 변환되도록 학습될 수 있다.
도 6 및 도 7은 도 4의 영상변환기의 구성을 나타내는 도면들이다.
먼저, 도 6을 참조하면, 본 실시예의 영상변환기(151)는 다수의 잔차 및 변조 스윈 트랜스포머 모듈(Residual & Modulation Swin Transformer Module; 이하, RMST모듈)을 포함할 수 있다. 예컨대, 영상변환기(151)는 제1RMST모듈(170-1), 제2RMST모듈(170-2), 제3RMST모듈(170-3) 및 제4RMST모듈(170-4)을 포함할 수 있다.
제1RMST모듈(170-1) 내지 제4RMST모듈(170-4)은 순차적(serial)으로 연결될 수 있다. 이러한 제1RMST모듈(170-1) 내지 제4RMST모듈(170-4) 각각은 입력영상에서 하나 이상의 전역특징을 포함하는 영상특징을 추출하고, 기 추정된 입력영상의 잠재특징을 이용하여 기 추출된 영상특징을 변조할 수 있다.
도 7을 참조하면, 영상변환기(151)의 각 RMST모듈은, 6개의 스윈 트랜스포머 블록(swin transformer block, 이하 STB), 예컨대 제1STB(171-1) 내지 제6STB(171-6)를 포함할 수 있다.
제1STB(171-1) 내지 제6STB(171-6)는 순차적으로 연결될 수 있다. 제1STB(171-1) 내지 제6STB(171-6)는 입력영상을 다수의 윈도우(window)로 분할하여 정규화하고, 각 윈도우에 셀프 어텐션(self-attention)을 적용하여 입력영상에서 하나 이상의 전역특징을 추출할 수 있다.
또한, 제1STB(171-1) 내지 제6STB(171-6) 각각은, 2개의 레이어 정규화(layer normalization; LN)층, 하나의 멀티헤드 셀프 어텐션(multi-head self-attention; MSA)층 및 하나의 다층 퍼셉트론(multi-layer perceptron; MLP)층을 포함할 수 있다.
여기서, 각 STB는 MSA층을 통해 입력영상의 다수의 윈도의 각각에서 픽셀간 관계성을 파악하여 전역특징을 추출하고, MLP층을 통해 추출된 전역특징을 선형 변환하여 정제할 수 있다. 이에, 각 STB는 추출된 전역특징을 입력영상에 포함하여 출력할 수 있다.
이때, 각 STB의 MSA층은 다수의 윈도우 각각에 서로 다른 방식의 연산을 적용하여 전역특징을 추출할 수 있다. 예컨대, MSA층은 다수의 윈도우 중에서 기수(odd)번째 윈도우에는 윈도우 MSA연산을 적용하고, 다수의 윈도우 중에서 우수(even)번째 윈도우에는 쉬프트-윈도우 MSA연산을 적용하여 다수의 윈도우 각각에서 전역특징을 추출할 수 있다. 그러나, 본 발명은 이에 제한되지 않으며, 실시예에 따라 다수의 윈도우 중에서 기수번째 윈도우에 쉬프트-윈도우 MSA연산이 적용되고, 우수번째 윈도우에 윈도우 MSA연산이 적용될 수도 있다.
또한, 영상변환기(151)의 각 RMST모듈은, MLP 블록(172), 승산부(173), 컨볼루션(convolution) 블록(174) 및 가산부(175)를 더 포함할 수 있다.
MLP 블록(172)은 입력영상의 잠재특징을 선형 변환할 수 있다.
승산부(173)는 선형 변환된 잠재특징과 전술된 6개의 STB(171-1~171-6)를 통해 출력된 하나 이상의 전역특징을 포함하는 영상특징을 요소별(element-wise) 곱셈하여 출력할 수 있다. 이러한 잠재특징과 영상특징 간 승산에 따라 입력영상의 영상특징 중 불필요한 부분을 소실시킬 수 있다.
컨볼루션 블록(174)은 승산부(173)의 결과값을 컨볼루션 연산하여 출력하고, 가산부(175)는 컨볼루션 연산 결과값을 입력영상에 가산할 수 있다. 이에, 각 RMST블록은 잠재특징과 영상특징 간 승산에 따라 변조된 영상특징을 갖는 변조영상을 출력할 수 있다.
이에, 본 실시예의 영상변환기(151)는 변조된 영상특징을 갖는 변조영상을 학습영상 또는 테스트영상으로 변환할 수 있다.
도 2 및 도 5를 참조하면, 오토인코더(160)는 외부에서 제공된 관측영상을 잠재공간 내 매핑하여 잠재특징, 예컨대 관측영상 잠재특징을 추출하고, 추출된 관측영상 잠재특징을 이용하여 영상을 복원함으로써 복원 관측영상을 출력할 수 있다.
앞서 설명한 바와 같이, 오토인코더(160)에 입력되는 관측영상은 전술된 잠재특징 추정부(140)에 입력되는 입력영상에 대응되는 실제 관측영상일 수 있다. 이에, 오토인코더(160)는 추출된 관측영상 잠재특징을 잠재특징 추정부(140)에 레이블 데이터로 제공함으로써, 상기 잠재특징 추정부(140)의 잠재특징 추정 학습을 보조할 수 있다.
이러한 오토인코더(160)는 인코더와 디코더를 포함할 수 있으며, 상기 인코더와 디코더 사이에 잠재공간이 구성될 수 있다. 또한, 오토인코더(160)는 비지도 학습을 통해 학습된 상태일 수 있다.
여기서, 비지도 학습은 입력데이터에 대한 정답 데이터, 즉 레이블 데이터가 주어지지 않은 상태에서 학습이 이루어지는 것을 말한다. 이에, 오토인코더(160)는 비지도 학습을 통해 출력데이터, 즉 복원 관측영상이 입력데이터, 즉 관측영상과 실질적으로 동일한 데이터가 되도록 관측영상 잠재특징을 추출하는 학습이 반복적으로 수행될 수 있다.
이와 같이, 본 실시예의 영상 변환장치(100)는 입력영상, 즉 시뮬레이션영상에서 실제 관측영상의 잠재특징과 동일한 잠재특징이 추정되어 출력되도록 하고, 이를 이용하여 입력영상을 변환하여 학습영상을 생성할 수 있다. 이러한 학습영상은 실제 관측영상과 동일한 잠재특징을 가지게 되어 상기 관측영상과 실질적으로 동일한 영상일 수 있다.
이에, 본 발명은 시뮬레이션영상으로부터 생성된 학습영상을 SAR 영상 등을 분석하는 영상분석장치의 영상 분석 학습에 이용될 수 있도록 제공함으로써, 영상분석장치의 학습 효율을 높여 SAR 영상에 대한 정확한 영상 분석이 이루어지도록 할 수 있다, 또한 영상분석장치의 영상 분석 학습용이 아닌 일반적인 영상 분석 또는 해석에 활용이 가능하다.
도 8은 본 발명의 실시예에 따른 영상변환방법을 나타내는 순서도이다.
도 8을 참조하면, 본 실시예의 영상변환장치(100)는 시뮬레이터 등과 같은 외부장치로부터 소정의 시뮬레이션영상을 입력영상으로 제공받을 수 있다. 여기서, 입력영상은 시뮬레이션 SAR영상일 수 있다.
영상변환장치(100)의 잠재특징 추정부(140)는 입력영상을 잠재공간으로 매핑하여 상기 입력영상에 대한 잠재특징을 추정하여 출력할 수 있다(S10).
잠재특징 추정부(140)는 기 학습된 잠재특징 추정 신경망, 예컨대 잠재특징 추정기(141)를 이용하여 입력영상의 잠재특징을 추정할 수 있다. 이때, 추정된 입력영상의 잠재특징은 상기 입력영상에 대응되는 실제 관측영상에서 추출된 관측영상 잠재특징과 실질적으로 동일할 수 있다.
다음으로, 영상변환장치(100)의 영상변환부(150)는 입력영상에서 하나 이상의 전역특징을 포함하는 영상특징을 추출할 수 있다(S20).
이어, 영상변환부(150)는 추정된 입력영상의 잠재특징에 기초하여 추출된 영상특징을 변조하고(S30), 변조된 특징을 갖는 변조입력영상을 학습영상 또는 테스트영상으로 변환하여 출력할 수 있다(S40).
영상변환부(150)는 기 학습된 변환 신경망, 예컨대 영상변환기(151)를 이용하여 입력영상을 학습영상 또는 테스트영상으로 변환할 수 있다. 이때, 영상변환기(151)는 입력영상에서 추출된 영상특징에 기 추정된 잠재특징을 요소별 곱셈을 수행함으로써, 입력영상의 영상특징을 변조할 수 있다. 그리고, 영상변환기(151)는 변조된 영상특징을 갖는 입력영상, 예컨대 변조영상을 변환하여 학습영상 또는 테스트영상으로 출력할 수 있다.
이상에서 설명한 바와 같이, 본 실시예는 입력영상, 즉 시뮬레이션영상에서 실제 관측영상의 잠재특징과 동일한 잠재특징을 추정하여 추출하고, 이를 이용하여 입력영상을 변환하여 학습영상 또는 테스트영상을 생성할 수 있다.
이에, 본 발명은 시뮬레이션영상으로부터 생성된 학습영상을 SAR 영상 등을 분석하는 영상분석장치의 영상 분석 학습에 이용될 수 있도록 제공함으로써, 영상분석장치의 학습 효율을 높여 SAR 영상에 대한 정확한 영상 분석이 이루어지도록 할 수 있다,
이상에서 설명된 본 발명의 블록도의 각 블록과 순서도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 인코딩 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 순서도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방법으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 순서도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 순서도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 품질에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 발명에 개시된 실시예들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 균등한 범위 내에 있는 모든 기술사상은 본 발명의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
100: 영상분석장치
110: 프로세스
120: 입출력부
130: 메모리
135: 영상변환 프로그램
140: 잠재특징 추정부
150: 영상변환부
160: 오토인코더

Claims (15)

  1. 기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하는 단계;
    기 학습된 영상변환부를 이용하여 상기 입력영상에서 하나 이상의 전역(global)특징을 포함하는 영상특징을 추출하고, 상기 잠재특징을 선형 변환하고, 선형 변환된 잠재특징과 상기 하나 이상의 전역특징을 요소별(element-wise) 곱셈하여 상기 영상특징을 변조하는 단계; 및
    변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 포함하는 영상 변환방법.
  2. 삭제
  3. 제1항에 있어서,
    상기 영상특징을 추출하는 단계는,
    상기 입력영상을 다수의 윈도우로 분할하여 정규화하는 단계; 및
    상기 다수의 윈도우 각각에 셀프 어텐션(self-attention)을 적용하여 상기 입력영상에 대한 상기 하나 이상의 전역특징을 추출하는 단계를 포함하는 영상 변환방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 잠재특징 추정부는,
    상기 입력영상과 함께, 레이블 데이터로서 상기 입력영상의 잠재특징 추정 정답을 입력 받으면, 상기 입력영상에 대한 상기 잠재특징을 추정하여 출력하도록 기 학습된 영상 변환방법.
  6. 제5항에 있어서,
    상기 추정 정답은 상기 입력영상에 대응되는 실제 관측영상의 잠재특징인 영상 변환방법.
  7. 제1항에 있어서,
    상기 영상변환부는,
    상기 입력영상 및 상기 입력영상의 잠재특징과 함께, 레이블 데이터로서 상기 입력영상의 변환 정답을 입력 받으면, 상기 입력영상을 상기 학습영상 및 테스트영상 중 하나로 변환하여 출력하도록 기 학습된 영상 변환방법.
  8. 제7항에 있어서,
    상기 변환 정답은 상기 입력영상에 대응되는 실제 관측영상인 영상 변환방법.
  9. 제1항에 있어서,
    상기 입력영상은 시뮬레이션으로 생성된 SAR영상인 영상 변환방법.
  10. 영상을 변환하는 영상변환 프로그램이 저장된 메모리; 및
    상기 영상변환 프로그램을 실행하여, 기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하고, 기 학습된 영상변환부를 이용하여 상기 입력영상에서 하나 이상의 전역(global)특징을 포함하는 영상특징을 추출하고, 상기 잠재특징을 선형 변환하고, 선형 변환된 잠재특징과 상기 하나 이상의 전역특징을 요소별(element-wise) 곱셈하여 상기 영상특징을 변조하며, 변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 수행하는 프로세서를 포함하는 영상 변환장치.
  11. 제10항에 있어서,
    상기 잠재특징 추정부는,
    상기 입력영상과 함께, 레이블 데이터로서 상기 입력영상에 대한 잠재특징 추정 정답을 입력 받으면, 상기 입력영상에 대한 상기 잠재특징을 추정하여 출력하도록 기 학습되고,
    상기 추정 정답은 상기 입력영상에 대응되는 실제 관측영상에 대한 잠재특징인 영상 변환장치.
  12. 제10항에 있어서,
    상기 영상변환부는,
    상기 입력영상 및 상기 입력영상의 잠재특징과 함께, 레이블 데이터로서 상기 입력영상의 변환 정답을 입력 받으면, 상기 입력영상을 상기 학습영상으로 변환하여 출력하도록 기 학습되고,
    상기 변환 정답은 상기 입력영상에 대응되는 실제 관측영상인 영상 변환장치.
  13. 제10항에 있어서,
    상기 입력영상은 시뮬레이션으로 생성된 SAR영상인 영상 변환장치.
  14. 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 기록매체로서,
    상기 컴퓨터 프로그램은,
    기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하는 단계;
    기 학습된 영상변환부를 이용하여 상기 입력영상에서 하나 이상의 전역(global)특징을 포함하는 영상특징을 추출하고, 상기 잠재특징을 선형 변환하고, 선형 변환된 잠재특징과 상기 하나 이상의 전역특징을 요소별(element-wise) 곱셈하여 상기 영상특징을 변조하는 단계; 및
    변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 포함하는 영상 변환방법을 프로세서가 수행하기 위한 명령어를 포함하는 컴퓨터 판독 가능한 기록매체.
  15. 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은,
    기 학습된 잠재특징 추정부를 이용하여 입력영상의 잠재특징을 추정하는 단계;
    기 학습된 영상변환부를 이용하여 상기 입력영상에서 하나 이상의 전역(global)특징을 포함하는 영상특징을 추출하고, 상기 잠재특징을 선형 변환하고, 선형 변환된 잠재특징과 상기 하나 이상의 전역특징을 요소별(element-wise) 곱셈하여 상기 영상특징을 변조하는 단계; 및
    변조된 영상특징에 기초하여 상기 입력영상을 학습영상 및 테스트영상 중 하나로 변환하는 단계를 포함하는 영상 변환방법을 프로세서가 수행하기 위한 명령어를 포함하는 기록매체에 저장된 컴퓨터 프로그램.
KR1020220179572A 2022-12-20 2022-12-20 영상의 잠재특징을 이용한 영상 변환방법 및 장치 KR102563953B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220179572A KR102563953B1 (ko) 2022-12-20 2022-12-20 영상의 잠재특징을 이용한 영상 변환방법 및 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220179572A KR102563953B1 (ko) 2022-12-20 2022-12-20 영상의 잠재특징을 이용한 영상 변환방법 및 장치

Publications (1)

Publication Number Publication Date
KR102563953B1 true KR102563953B1 (ko) 2023-08-04

Family

ID=87568488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220179572A KR102563953B1 (ko) 2022-12-20 2022-12-20 영상의 잠재특징을 이용한 영상 변환방법 및 장치

Country Status (1)

Country Link
KR (1) KR102563953B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210081721A1 (en) * 2017-12-14 2021-03-18 Nec Corporation Learning device, learning method, and storage medium
KR102272411B1 (ko) 2020-08-12 2021-07-02 국방과학연구소 합성 개구면 레이더 영상의 시뮬레이션 영상 데이터베이스의 식별률을 높이기 위한 인공신경망 학습 방법 및 그 장치

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210081721A1 (en) * 2017-12-14 2021-03-18 Nec Corporation Learning device, learning method, and storage medium
KR102272411B1 (ko) 2020-08-12 2021-07-02 국방과학연구소 합성 개구면 레이더 영상의 시뮬레이션 영상 데이터베이스의 식별률을 높이기 위한 인공신경망 학습 방법 및 그 장치

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Jingyun Liang et al., 'SwinIR: Image Restoration Using Swin Transformer', ICCV, Workshops, pp. 1833~1844, 2021. *
Lan Du et al., ‘Two-Stream Deep Fusion Network Based on VAE and CNN for Synthetic Aperture Radar Target Recognition’, Remote Sens. 2021, 13(20), 9 October 2021.* *

Similar Documents

Publication Publication Date Title
EP3839822A1 (en) Explainable artificial intelligence (ai) based image analytic, automatic damage detection and estimation system
CN111160297A (zh) 基于残差注意机制时空联合模型的行人重识别方法及装置
CN111507887B (zh) 对具有非rgb格式的图像客体进行探测学习的方法和装置
CN115546640A (zh) 遥感影像的云检测方法、装置、电子设备及存储介质
KR102563953B1 (ko) 영상의 잠재특징을 이용한 영상 변환방법 및 장치
Zhang et al. A quality index metric and method for online self-assessment of autonomous vehicles sensory perception
CN114550014A (zh) 道路分割方法及计算机装置
CN117423077A (zh) Bev感知模型、构建方法、装置、设备、车辆及存储介质
CN117115432A (zh) 配电线路的缺陷检测方法、装置、电子设备和介质
CN117253044A (zh) 一种基于半监督交互学习的农田遥感图像分割方法
Chavhan et al. A novel actor dual-critic model for remote sensing image captioning
Yang et al. Knowledge Distillation for Feature Extraction in Underwater VSLAM
CN114898202A (zh) 基于多模型融合的水下视频目标尺度空间判别式跟踪系统及方法
CN114241258A (zh) 一种面向自动驾驶雷达点云数据的扩增与优化方法
CN114219989A (zh) 一种基于干扰抑制和动态轮廓的雾天场景船舶实例分割方法
WO2022049619A1 (ja) 識別装置、学習装置およびモデル生成方法
CN117372789B (zh) 图像分类方法及图像分类装置
Yu et al. Data-driven parameterized corner synthesis for efficient validation of perception systems for autonomous driving
CN117409264B (zh) 基于transformer的多传感器数据融合机器人地形感知方法
Dogru et al. Fast-ICA Based Lane Detection Method for Autonomous Vehicles
CN116805337B (zh) 一种基于跨尺度视觉变换网络的人群定位方法
CN114373118B (zh) 基于改进yolov4的水下目标检测方法
CN116028779A (zh) 一种基于显著性的宽带频谱检测方法
CN118097172A (zh) 一种基于图像识别的起重机位移检测方法、装置
Erdogan A Transformer-Based Approach for Fusing Infrared and Visible Band Images

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant