KR20220021174A - 다중 스펙트럼 영상 매칭 장치 및 방법 - Google Patents

다중 스펙트럼 영상 매칭 장치 및 방법 Download PDF

Info

Publication number
KR20220021174A
KR20220021174A KR1020200101670A KR20200101670A KR20220021174A KR 20220021174 A KR20220021174 A KR 20220021174A KR 1020200101670 A KR1020200101670 A KR 1020200101670A KR 20200101670 A KR20200101670 A KR 20200101670A KR 20220021174 A KR20220021174 A KR 20220021174A
Authority
KR
South Korea
Prior art keywords
image
presenter
data
transform
encoded data
Prior art date
Application number
KR1020200101670A
Other languages
English (en)
Inventor
손광훈
정소미
Original Assignee
연세대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 연세대학교 산학협력단 filed Critical 연세대학교 산학협력단
Priority to KR1020200101670A priority Critical patent/KR20220021174A/ko
Publication of KR20220021174A publication Critical patent/KR20220021174A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/30Determination of transform parameters for the alignment of images, i.e. image registration
    • G06T7/32Determination of transform parameters for the alignment of images, i.e. image registration using correlation-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/97Determining parameters from multiple pictures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T9/00Image coding
    • G06T9/002Image coding using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10032Satellite or aerial image; Remote sensing
    • G06T2207/10036Multispectral image; Hyperspectral image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 서로 다른 도메인에서 획득된 개별 스펙트럼 영상으로부터 각 스펙트럼 영상이 획득된 도메인에 무관한 특징을 나타내는 표현자를 추출하여 영상 사이의 대응 여부를 매우 정확하게 판별할 수 있고, 개별 스펙트럼 영상으로부터 다른 도메인의 스펙트럼 영상을 적대적 방식으로 생성하여 학습 데이터가 필요하지 않은 비지도 방식으로 학습될 수 있으며, 특정 도메인에서 획득된 개별 스펙트럼 영상으로부터 표현자로 지정되는 특징을 만족시키면서 쌍을 이루는 다른 도메인의 스펙트럼 영상을 생성할 수 있어 대량의 학습 데이터를 용이하게 획득할 수 있는 다중 스펙트럼 영상 매칭 장치 및 방법을 제공할 수 있다.

Description

다중 스펙트럼 영상 매칭 장치 및 방법{APPARATUS AND METHOD FOR MATCHING MULTISPECTRAL IMAGE}
본 발명은 영상 매칭 장치 및 방법에 관한 것으로, 서로 다른 도메인에서 획득된 다중 스펙트럼 영상을 매칭하기 위한 영상 매칭 장치 및 방법에 관한 것이다.
기존에 컴퓨터 비전 및 이미지 처리 분야에서는 주로 단일 스펙트럼의 데이터를 이용하여, 장면 분류, 객체 분할, 보행자 감지 등의 기능을 수행할 수 있도록 구성되었다. 그러나 컬러 이미지 등과 같은 단일 스펙트럼 데이터만을 이용하는 경우, 조명 부족 등 여러 주변 환경 요인에 의해 스펙트럼 데이터로부터 충분한 정보를 추출할 수 없는 경우가 발생하며, 이로 인해 요구되는 기능을 수행하지 못하게 될 수 있다.
이와 같이 단일 스펙트럼 데이터를 이용함에 따른 한계를 극복하기 위해 최근에는 서로 다른 도메인에서 각각 획득된 다수의 스펙트럼 데이터를 이용하여 이미지 처리를 수행하는 다중 스펙트럼 데이터 방식이 점차적으로 많이 이용되고 있다.
일 예로 현재 출시되고 있는 자율 주행 차량이나 청소 로봇 등의 경우에는 대부분 이미지 센서뿐만 아니라 적외선 센서나 열감지 센서 등을 더 탑재하여 컬러 이미지만으로는 획득할 수 없는 정보를 적외선 센서에서 획득된 적외선 이미지나 열감지 센서에서 획득된 열영상 등으로부터 추가적으로 획득하여 주변 환경을 분석함으로써 주변 환경 변화에도 지정된 기능을 안정적으로 수행할 수 있도록 하고 있다. 즉 교차 스펙트럼 데이터를 이용하고자 하는 연구가 활발하게 수행되고 있다.
한편 인공 신경망의 발전으로 인해, 컴퓨터 비전 및 이미지 처리 분야에서도 인공 신경망을 이용하는 다양한 기술이 개발되고 있다. 그러나 기존에 개발된 인공 신경망의 경우, 대부분 지정된 단일 스펙트럼 데이터만을 학습되어 있다. 즉 서로 다른 종류의 센서를 이용하여 서로 다른 도메인의 다수의 스펙트럼 데이터가 획득되더라도, 인공 신경망은 학습된 스펙트럼 데이터만을 처리할 수 있어 다중 스펙트럼 데이터를 효율적으로 이용할 수 없었다.
즉 다수의 서로 다른 도메인의 스펙트럼 데이터 각각에 대해 서로 다르게 개별적으로 학습된 인공 신경망을 이용함에 따라 각 인공 신경망의 데이터 처리 결과가 상이하게 나타나게 되는 문제가 있다.
이러한 문제를 해소하기 위해서는 인공 신경망이 각기 다른 도메인에서 획득된 다양한 스펙트럼의 데이터들을 서로 매칭시킬 수 있어야 한다. 일 예로 인공 신경망은 서로 다른 도메인의 다수의 스펙트럼 데이터에서 동일한 중첩 영역을 검출할 수 있어야 한다.
그리고 인공 신경망이 다수의 서로 다른 도메인의 스펙트럼 데이터를 매칭시키기 위해서는 대량의 학습 데이터를 필요로 한다. 그러나 컬러 이미지나 적외선 이미지 및 열영상과 같이 서로 다른 도메인으로 획득된 다중 스펙트럼 데이터 형식의 학습 데이터는 획득하기 용이하지 않다. 또한 다중 스펙트럼 데이터가 획득되더라도 학습 데이터로 이용되기 위해서는 수작업 등으로 미리 매치되어 있어야 한다. 따라서 질적으로나 양적으로 인공 신경망을 학습시킬 수 있는 충분한 수준의 다중 스펙트럼 학습 데이터를 획득하기는 매우 어렵다는 문제가 있다.
한국 공개 특허 제10-2020-0063368호 (2020.06.05 공개)
본 발명의 목적은 서로 다른 도메인에서 획득된 개별 스펙트럼 영상으로부터 각 스펙트럼 영상이 획득된 도메인에 무관한 특징을 나타내는 표현자를 추출하여 영상 사이의 대응 여부를 매우 정확하게 판별할 수 있는 다중 스펙트럼 영상 매칭 장치 및 방법을 제공하는데 있다.
본 발명의 다른 목적은 특정 도메인에서 획득된 개별 스펙트럼 영상으로부터 표현자로 지정되는 특징을 만족시키면서 쌍을 이루는 다른 도메인의 스펙트럼 영상을 생성할 수 있어 대량의 학습 데이터를 용이하게 획득할 수 있는 다중 스펙트럼 영상 매칭 장치 및 방법을 제공하는데 있다.
상기 목적을 달성하기 위한 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 장치는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 서로 다른 도메인에서 획득된 스펙트럼 데이터인 제1 및 제2 이미지를 각각 인코딩하여 제1 및 제2 인코딩 데이터를 획득하고, 제1 및 제2 변환 이미지를 각각 인코딩하여 제1 및 제2 변환 인코딩 데이터를 획득하는 인코딩부; 패턴 복원 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 제1 및 제2 인코딩 데이터 각각을 다른 도메인의 이미지인 상기 제1 및 제2 변환 이미지로 변환하는 디코딩부; 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 제1 및 제2 인코딩 데이터와 제1 및 제2 변환 인코딩 데이터로부터 도메인에 무관한 구조적 특징을 추출하여 제1 및 제2 표현자와 제1 및 제2 변환 표현자를 획득하는 표현자 추출부; 및 상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자 중 동일한 이미지로부터 획득된 표현자들을 기지정된 방식으로 결합하여 제1 및 제2 결합 표현자를 획득하고, 획득된 제1 및 제2 결합 표현자를 기지정된 방식으로 서로 비교하여 상기 제1 및 제2 이미지 사이의 매칭 여부를 판정하는 매칭부를 포함한다.
상기 인코딩부는 기지정된 제1 도메인에서 획득된 제1 이미지와 상기 디코딩부에서 생성된 제2 변환 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각각 인코딩하여 제1 인코딩 데이터와 제1 변환 인코딩 데이터를 획득하는 제1 인코더; 및 기지정된 제2 도메인에서 획득된 제2 이미지와 상기 디코딩부에서 생성된 제1 변환 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각각 인코딩하여 제2 인코딩 데이터와 제2 변환 인코딩 데이터를 획득하는 제2 인코더를 포함할 수 있다.
상기 디코딩부는 상기 제1 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제1 변환 이미지로 변환하는 제1 디코더; 및 상기 제2 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제2 변환 이미지로 변환하는 제2 디코더를 포함할 수 있다.
상기 표현자 추출부는 상기 제1 인코딩 데이터와 상기 제1 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여, 상기 제1 표현자와 상기 제1 변환 표현자를 추출하는 제1 표현자 추출부; 및 상기 제2 인코딩 데이터와 상기 제2 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여, 상기 제2 표현자와 상기 제2 변환 표현자를 추출하는 제2 표현자 추출부를 포함할 수 있다.
상기 매칭부는 상기 제1 이미지를 기반으로 추출된 상기 제1 표현자와 상기 제2 변환 표현자를 기지정된 순서로 결합하여 제1 결합 표현자를 획득하는 제1 표현자 결합부; 상기 제2 이미지를 기반으로 추출된 상기 제2 표현자와 상기 제1 변환 표현자를 상기 제1 결합 표현자에 대응하는 기지정된 순서로 결합하여 제2 결합 표현자를 획득하는 제2 표현자 결합부; 및 상기 제1 및 제2 결합 표현자 사이의 차를 계산하고, 계산된 차가 기지정된 기준 표현자 차 이하이면, 상기 제1 및 제2 이미지가 서로 쌍을 이루는 매칭되는 이미지인 것으로 판별하는 유사도 판별부를 포함할 수 있다.
상기 제1 디코더는 학습 시에 상기 제1 변환 인코딩 데이터를 인가받아 다시 상기 제1 도메인의 이미지인 제1 반복 변환 데이터를 획득하고, 상기 제2 디코더는 학습 시에 상기 제2 변환 인코딩 데이터를 인가받아 다시 상기 제2 도메인의 이미지인 제2 반복 변환 데이터를 획득할 수 있다.
상기 다중 스펙트럼 영상 매칭 장치는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 다중 스펙트럼 영상 매칭 장치의 학습 시에, 상기 제1 및 제2 이미지와 상기 제1 변환 이미지와 상기 제2 이미지 각각의 도메인을 판정하여, 제1 및 제2 판정 결과와 제1 미치 제2 변환 판정 결과를 출력하는 판별부; 및 상기 다중 스펙트럼 영상 매칭 장치의 학습 시에, 상기 제1 및 제2 이미지와 상기 제1 및 제2 반복 변환 데이터, 상기 제1 및 제2 판정 결과와 상기 제1 및 제2 변환 판정 결과, 그리고 상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자를 인가받아 기지정된 방식으로 총 손실을 계산하고, 계산된 총 손실을 역전파하여 학습을 수행하는 학습부를 더 포함할 수 있다.
상기 판별부는 미리 학습된 패턴 추정 방식에 따라 상기 제2 이미지와 상기 제1 변환 이미지가 각각 상기 제2 도메인의 이미지인지 판정하여 제1 판정 결과와 제1 변환 판정 결과를 출력하는 제1 판별부; 및 미리 학습된 패턴 추정 방식에 따라 상기 제1 이미지와 상기 제2 변환 이미지가 각각 상기 제1 도메인의 이미지인지 판정하여 제2 판정 결과와 제2 변환 판정 결과를 출력하는 제2 판별부를 포함할 수 있다.
상기 학습부는 상기 제2 판정 결과와 상기 제1 변환 판정 결과로부터 상기 제1 인코더와 제1 디코더에 의한 제1 적대적 손실을 에너지 기반 엔트로피 함수를 이용하여 계산하고, 상기 제1 판정 결과와 상기 제2 변환 판정 결과로부터 상기 제2 인코더와 상기 제2 디코더에 의한 제2 적대적 손실을 엔트로피 함수를 이용하여 계산하고 합하여 적대적 손실을 계산하는 적대적 손실 계산부; 상기 제1 이미지와 상기 제1 반복 변환 데이터 사이의 에너지 차와 상기 제2 이미지와 제2 반복 변환 데이터 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 사이클 일관성 손실을 계산하는 사이클 일관성 손실 계산부; 상기 제1 표현자와 상기 제2 변환 표현자 사이의 에너지 차와 상기 제2 표현자와 상기 제1 변환 표현자 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 표현자 일관성 손실을 계산하는 표현자 일관성 손실 계산부; 및 상기 적대적 손실과 상기 사이클 일관성 손실 및 상기 표현자 일관성 손실을 기지된 방식으로 가중합하여 상기 총 손실을 계산하고, 계산된 총 손실을 역절파하는 총 손실 계산부를 포함할 수 있다.
상기 다중 스펙트럼 영상 매칭 장치는 상기 제1 이미지와 상기 제1 변환 이미지, 상기 제2 이미지와 상기 제2 변환 이미지를 각각 서로 다른 도메인에서 쌍을 이루는 다중 스펙트럼 데이터로서, 인공 신경망 학습을 위한 학습 데이터로 저장하는 학습 데이터 저장부를 더 포함할 수 있다.
상기 목적을 달성하기 위한 본 발명의 다른 실시예에 따른 다중 스펙트럼 영상 매칭 방법은 패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여 서로 다른 도메인에서 획득된 스펙트럼 데이터인 제1 및 제2 이미지를 각각 인코딩하여 제1 및 제2 인코딩 데이터를 획득하는 단계; 패턴 복원 방식이 미리 학습된 인공 신경망을 이용하여, 상기 제1 및 제2 인코딩 데이터 각각을 다른 도메인의 이미지인 제1 및 제2 변환 이미지로 변환하는 단계; 상기 제1 및 제2 변환 이미지를 각각 인코딩하여 제1 및 제2 변환 인코딩 데이터를 획득하는 단계; 패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여, 상기 제1 및 제2 인코딩 데이터와 제1 및 제2 변환 인코딩 데이터로부터 도메인에 무관한 구조적 특징을 추출하여 제1 및 제2 표현자와 제1 및 제2 변환 표현자를 획득하는 단계; 및 상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자 중 동일한 이미지로부터 획득된 표현자들을 기지정된 방식으로 결합하여 제1 및 제2 결합 표현자를 획득하고, 획득된 제1 및 제2 결합 표현자를 기지정된 방식으로 서로 비교하여 상기 제1 및 제2 이미지 사이의 매칭 여부를 판정하는 단계를 포함한다.
따라서, 본 발명의 실시예에 따른 다중 스펙트럼 영상 매칭 장치 및 방법은 서로 다른 도메인에서 획득된 개별 스펙트럼 영상으로부터 각 스펙트럼 영상이 획득된 도메인에 무관한 특징을 나타내는 표현자를 추출하여 영상 사이의 대응 여부를 매우 정확하게 판별할 수 있다. 또한 개별 스펙트럼 영상으로부터 다른 도메인의 스펙트럼 영상을 적대적 방식으로 생성하여 학습 데이터가 필요하지 않은 비지도 방식으로 학습될 수 있다. 또한 특정 도메인에서 획득된 개별 스펙트럼 영상으로부터 표현자로 지정되는 특징을 만족시키면서 쌍을 이루는 다른 도메인의 스펙트럼 영상을 생성할 수 있어 대량의 학습 데이터를 용이하게 획득할 수 있다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 장치가 다중 스펙트럼 영상을 매칭하는 개념과 학습 데이터를 획득하는 방식을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 장치의 개략적 구조를 나타낸다.
도 4는 도 3의 매칭부의 상세 구성의 일 예를 나타낸다.
도 5는 도 4의 매칭부에 인가되는 표현자가 다중 스펙트럼 영상으로부터 획득되는 경로를 함께 도시한 도면이다.
도 6은 도 3의 학습부의 상세 구성의 일 예를 나타낸다.
도 7은 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 방법을 나타낸다.
도 8은 도 7의 학습 데이터 획득 단계를 상세하게 나타낸 도면이다.
본 발명과 본 발명의 동작상의 이점 및 본 발명의 실시에 의하여 달성되는 목적을 충분히 이해하기 위해서는 본 발명의 바람직한 실시예를 예시하는 첨부 도면 및 첨부 도면에 기재된 내용을 참조하여야만 한다.
이하, 첨부한 도면을 참조하여 본 발명의 바람직한 실시예를 설명함으로써, 본 발명을 상세히 설명한다. 그러나, 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며, 설명하는 실시예에 한정되는 것이 아니다. 그리고, 본 발명을 명확하게 설명하기 위하여 설명과 관계없는 부분은 생략되며, 도면의 동일한 참조부호는 동일한 부재임을 나타낸다.
명세서 전체에서, 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라, 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "...부", "...기", "모듈", "블록" 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
도 1 및 도 2는 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 장치가 다중 스펙트럼 영상을 매칭하는 개념과 학습 데이터를 획득하는 방식을 설명하기 위한 도면이다.
도 1 및 도 2를 참조하면, 본 실시예에 따른 다중 스펙트럼 영상 매칭 장치는 인코딩부(10), 디코딩부(20), 표현자 추출부(30), 매칭부(40) 및 학습 데이터 저장부(50)를 포함할 수 있다.
인코딩부(10)는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 스펙트럼 데이터를 인가받아 기지정된 방식으로 인코딩하여 인코딩 데이터를 출력한다. 인코딩부(10)는 학습된 패턴 추정 방식에 따라 인가된 스펙트럼 데이터(x, y)를 인코딩함으로써 스펙트럼 데이터(x, y)의 특징을 별도의 도메인별 잠재 공간(latent spaces)(Zx, Zy) 상에 투사하여 인코딩 데이터(zx, zy)를 획득할 수 있다. 이때 인코딩부(10)는 스펙트럼 데이터가 획득된 도메인에 따라 서로 다르게 인코딩하여 각 스펙트럼 데이터를 서로 다른 잠재 공간(Zx, Zy)에 투사할 수 있다.
여기서 스펙트럼 데이터(x, y)는 컬러 이미지, 적외선 이미지 및 열영상 등과 같이 서로 다른 스펙트럼을 감지하는 센서에서 획득된 이미지일 수 있다. 그리고 스펙트럼 데이터(x, y)는 서로 다른 도메인에서 획득된 이미지에서 기지정된 크기로 추출된 패치 이미지일 수 있다.
도 2에 도시된 바와 같이, 인코딩부(10)는 제1 도메인(X)에서 획득된 제1 스펙트럼 데이터(x)는 제1 잠재 공간(Zx)에 투사하여 제1 인코딩 데이터(zx)를 획득하는 반면, 제2 도메인(Y)에서 획득된 제2 스펙트럼 데이터(y)는 제2 잠재 공간(Zy)에 투사하여 제2 인코딩 데이터(zy)를 획득할 수 있다. 도 2에서 Ex는 인코딩부(10)가 제1 도메인(X)에서 획득된 제1 스펙트럼 데이터(x)를 제1 잠재 공간(Zx)에 투사하기 위해 인코딩하는 제1 인코딩 함수를 나타내고, Ey는 인코딩부(10)가 제2 도메인(Y)에서 획득된 제2 스펙트럼 데이터(y)를 제1 잠재 공간(Zy)에 투사하기 위해 인코딩하는 제2 인코딩 함수를 나타낸다.
표현자 추출부(30) 또한 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 인코딩부(10)에서 획득된 인코딩 데이터(zx, zy)를 인가받고, 인가된 인코딩 데이터(zx, zy) 각각에서 도메인에 무관한 특징을 추출하여 스펙트럼 데이터(x, y)를 공통 도메인 공간(F)에 투사하여 표현자(f(x), f(y))를 획득한다. 즉 표현자 추출부(30) 인코딩 데이터(zx, zy)에서 도메인에 구애받지 않는 스펙트럼 데이터 고유의 특징을 표현자(f(x), f(y))의 형태로 추출하여 획득한다.
도 2에서 Fx는 제1 인코딩 데이터(zx)를 공통 도메인 공간(F)에 투사하여 제1 표현자(f(x))를 획득하는 표현자 추출 함수로서 Fx = f(x)이고, Fy는 제2 인코딩 데이터(zy)를 공통 도메인 공간(F)에 투사하여 제1 표현자(f(x))를 획득하는 표현자 추출 함수로서 Fy = f(y)이다. 여기서는 설명의 편의를 위하여, 제1 표현자(f(x))를 획득하는 표현자 추출 함수(Fx)와 제2 표현자(f(y))를 획득하는 표현자 추출 함수(Fy)를 별도로 표현하였으나, 표현자 추출 함수(Fx, Fy)는 도메인에 무관한 특징을 추출하는 함수이므로, 동일한 공통 표현자 추출 함수(F)로 구성될 수 있다.
매칭부(40)는 공통 도메인 공간(F) 상에 투사된 제1 및 제2 표현자(f(x), f(y)) 사이의 유사도를 기지정된 방식으로 비교함으로써, 서로 다른 도메인에서 획득된 제1 및 제2스펙트럼 데이터(x, y)가 서로 대응하는지 여부를 판별한다. 즉 서로 매칭되는 스펙트럼 데이터인지 판별한다.
만일 제1 및 제2스펙트럼 데이터(x, y)가 이미지에서 기지정된 크기로 추출된 패치 이미지인 경우, 매칭부(40)는 이미지에서 위치가 변경되면서 추출된 패치 이미지들 사이를 비교함으로써, 다중 스펙트럼 이미지의 대응 영역들을 판별할 수 있다.
디코딩부(20)는 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 인코딩부(10)에 의해 각 도메인에 대응하는 잠재 공간상에 투사된 인코딩 데이터(zx, zy)를 인가받고, 잠재 공간상의 인코딩 데이터(zx, zy)를 다른 도메인(X, Y)의 스펙트럼 데이터로 변환하여 변환 데이터를 출력한다. 즉 디코딩부(20)는 인코딩 데이터(zx, zy)를 대응하는 스펙트럼 데이터가 획득된 도메인이 아닌 다른 도메인의 스펙트럼 데이터로 변환한다. 이는 특정 도메인에서 획득된 스펙트럼 데이터에 대응하여 쌍을 이루는 다른 도메인의 스펙트럼 데이터가 획득되지 않는 경우에도 다른 도메인의 대응하는 스펙트럼 데이터를 용이하게 생성할 수 있도록 하기 위함이다.
도 2에서 Gx는 제1 인코딩 데이터(zx)를 제1 도메인(X)의 스펙트럼 데이터(x)로 변환하는 변환 함수이고, Gy는 제2 인코딩 데이터(zy)를 제2 도메인(Y)의 스펙트럼 데이터(y)로 변환하는 변환 함수이다. 도 2에서는 이해의 편의를 위하여, 디코딩부(20)에 의해 변환된 변환 데이터를 스펙트럼 데이터(x, y)와 동일한 기호로 표현하였으나, 스펙트럼 데이터(x, y)과 식별되도록 변환 데이터는 (x', y')으로 표현될 수 있다.
디코딩부(20)에 의해 서로 다른 도메인에서 획득된 스펙트럼 데이터(x, y) 각각이 다른 도메인의 데이터(x', y')로 변환될 수 있다면, 다수의 도메인에서 각각 서로 쌍을 이루도록 대응하는 다수의 스펙트럼 데이터가 직접 획득되지 않더라도 용이하게 다른 도메인의 쌍을 이루는 스펙트럼 데이터를 생성할 수 있다. 그리고 쌍을 이루도록 생성되는 다수의 스펙트럼 데이터는 다중 스펙트럼 데이터로서 인공 신경망을 학습시키기 위한 학습 데이터로 이용될 수 있다.
이에 학습 데이터 저장부(50)는 인가된 스펙트럼 데이터(x, y)와 이에 대응하도록 디코딩부(20)에서 획득된 변환 데이터(x', y')를 쌍을 이루어 저장함으로써 용이하게 대량의 학습 데이터를 획득할 수 있다.
따라서 도 1의 다중 스펙트럼 영상 매칭 장치가 서로 다른 도메인에서 획득된 다중 스펙트럼 영상 사이의 매칭을 위해 이용되는 경우, 디코딩부(20)와 학습 데이터 저장부(50)는 생략될 수 있다. 반면, 다중 스펙트럼 영상 매칭 장치가 특정 도메인에서 획득된 스펙트럼 영상으로부터 다른 도메인의 스펙트럼 영상을 생성하여 학습 데이터를 획득하기 위해 이용되는 경우, 표현자 추출부(30) 및 매칭부(40)는 생략될 수 있다.
다만 본 실시예의 다중 스펙트럼 영상 매칭 장치에서 인코딩부(10)와 디코딩부(20) 및 표현자 추출부(30) 또한 인공 신경망으로 구현되므로, 요구되는 동작을 수행하기 위해서는 미리 학습되어야 한다. 이에 본 실시예에서는 다중 스펙트럼 영상 매칭 장치는 생성적 적대 신경망(Generative Adversarial Network: 이하 GAN) 구조를 이용하여 학습 데이터를 요구하지 않는 비지도 학습 방식으로 학습이 수행되도록 한다. 학습을 위한 데이터를 생성함과 동시에 학습이 수행되는 생성적 적대 신경망 구조를 구성하기 위해서는 특정 도메인의 스펙트럼 데이터로부터 다른 도메인의 스펙트럼 데이터를 획득하는 디코딩부(20)가 요구된다. 또한 표현자 추출부(30)는 도메인에 무관한 특징을 추출하므로, 디코딩부(20)가 서로 다른 도메인의 스펙트럼 데이터를 생성하면서도 각 스펙트럼 데이터의 고유 특징을 정확하게 보존하는지 여부를 검증하기 위해 요구된다. 이는 디코딩부(20)가 스펙트럼 데이터를 다른 도메인의 스펙트럼 데이터로 변환할 때 스펙트럼 데이터의 고유 특징을 유지하지 못한다면, 비정상적으로 변환한 것으로 볼 수 있기 때문이다. 즉 다중 스펙트럼 영상 매칭 장치가 영상 매칭을 위해 이용되거나 학습 데이터를 획득하기 위해 이용되는지에 무관하게 정확한 학습을 위해서는 디코딩부(20)와 표현자 추출부(30)가 모두 구비될 필요가 있다.
도 3은 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 장치의 개략적 구조를 나타낸다.
도 1을 참조하여, 도 3의 다중 스펙트럼 영상 매칭 장치를 설명하면, 본 실시예의 다중 스펙트럼 영상 매칭 장치는 인코딩부(100)와 디코딩부(200), 표현자 추출부(300), 매칭부(400), 판별부(500) 및 학습부(600)를 포함할 수 있다. 여기서 인코딩부(100)와 디코딩부(200), 표현자 추출부(300) 및 판별부(500)는 각각 다수의 인공 신경망으로 구현될 수 있다. 그리고 판별부(500)와 학습부(600)는 다중 스펙트럼 영상 매칭 장치의 학습시에 이용되고, 학습이 종료되면 생략될 수 있다.
인코딩부(100)는 서로 다른 도메인에서 획득된 다수의 이미지를 포함하는 다중 스펙트럼 데이터(x, y)를 인가받아 학습되는 패턴 추정 방식에 따라 인코딩하여 인코딩 데이터(zx, zy)를 출력한다. 인코딩부(100)는 제1 인코더(110)와 제2 인코더(120)를 포함할 수 있다.
이하에서는 설명의 편의를 위하여 다중 스펙트럼 데이터(x, y)가 2개의 스펙트럼 데이터로 구성되는 것으로 설명하지만, 본 실시예는 이에 한정되지 않는다. 즉 다중 스펙트럼 데이터(x, y)는 2개 이상의 다수의 스펙트럼 데이터를 포함할 수 있다. 또한 설명의 편의를 위해 제1 스펙트럼 데이터(x)를 제1 이미지라하고, 제2 스펙트럼 데이터(y)를 제2 이미지라고 한다. 여기서 제1 및 제2 이미지(x, y)는 각각 기지정된 크기로 추출된 패치 이미지일 수 있다.
제1 인코더(110)는 제1 도메인(X)의 제1 이미지(x)를 인가받아 학습된 패턴 추정 방식에 따라 인코딩하여 제1 잠재 공간(Zx) 상에 투사된 제1 인코딩 데이터(zx)를 획득하고, 제2 인코더(120)는 제2 도메인(Y)의 제2 이미지(y)를 인가받아 학습된 패턴 추정 방식에 따라 특징을 추출하여 제2 잠재 공간(Zy) 상에 투사된 제2 인코딩 데이터(zy)를 획득한다.
또한 제1 및 제2 인코더(110, 120)는 다중 스펙트럼 영상 매칭 장치의 학습 시에 각각 제1 및 제2 디코더(210, 220)에서 출력되는 변환 데이터(y', x')를 교차하여 인가받아 인코딩하여 제1 및 제2 변환 인코딩 데이터(zx', zy')를 출력한다. 즉 제1 인코더(110)는 제1 도메인의 이미지로 변환된 제2 변환 데이터(x')을 인가받아 제1 변환 인코딩 데이터(zx')를 획득하고, 제2 인코더(120)는 제2 도메인의 이미지로 변환된 제1 변환 데이터(y')을 인가받아 제2 변환 인코딩 데이터(zy')를 획득한다.
이는 인코딩부(100)와 디코딩부(200)가 인가된 다중 스펙트럼 데이터(x, y)를 정상적으로 인코딩하고 디코딩할 수 있는지 검증하기 위해서이다.
디코딩부(200)는 인코딩부(100)에서 인코딩된 인코딩 데이터(zx, zy)를 인가받고, 인가된 인코딩 데이터(zx, zy) 각각을 서로 다른 도메인의 이미지로 변환하여 변환 데이터(y', x')를 출력한다. 일 예로 제1 이미지(x)가 RGB 도메인의 컬러 이미지이고, 제2 이미지(y)가 적외선 도메인의 적외선 이미지인 경우, 디코딩부(200)는 컬러 이미지인 제1 이미지(x)를 인코딩한 제1 인코딩 데이터(zx)를 적외선 도메인의 적외선 이미지로 변환하고, 적외선 이미지인 제2 이미지(y)를 인코딩한 제2 인코딩 데이터(zy)를 컬러 도메인의 컬러 이미지로 변환하여 출력할 수 있다. 제1 디코딩부(200)는 제1 디코더(210)와 제2 디코더(220)를 포함할 수 있다.
제1 디코더(210)는 제1 인코딩 데이터(zx)를 인가받아 학습된 패턴 복원 방식에 따라 디코딩하여 제1 잠재 공간(Zx) 상에 투사된 제1 인코딩 데이터(zx)를 제2 도메인(Y)의 이미지인 제1 변환 데이터(y')를 획득한다. 그리고 제2 디코더(220)는 제2 인코딩 데이터(zy)를 인가받아 학습된 패턴 복원 방식에 따라 디코딩하여 제2 잠재 공간(Zy) 상에 투사된 제2 인코딩 데이터(zy)를 제1 도메인(X)의 이미지인 제2 변환 데이터(x')를 획득한다.
제1 및 제2 디코더(210, 220)는 다중 스펙트럼 영상 매칭 장치의 학습 시에는 제1 및 제2 인코더(110, 120)에서 인가되는 제1 및 제2 변환 인코딩 데이터(zx', zy')를 다시 디코딩하여 제1 및 제2 반복 변환 데이터(y", x")를 획득한다. 여기서 제1 및 제2 반복 변환 데이터(y", x")는 제1 및 제2 이미지(x, y)를 각각 2회씩 인코딩 및 디코딩한 데이터로서, 1회 인코딩 및 디코딩 시에 서로 다른 도메인의 이미지로 변환된 이후, 다시 인코딩 및 디코딩함에 따라 인코딩부(100)와 디코딩부(200)가 정상적으로 동작하였다면, 제2 반복 변환 데이터(x")는 제1 이미지(x)와 동일하거나 유사해야 하며, 제1 반복 변환 데이터(y")는 제2 이미지(y)와 동일하거나 유사해야 한다. 따라서 제1 및 제2 이미지(x, y)와 제2 및 제1 반복 변환 데이터(x", y") 각각 사이의 차이를 기반으로 인코딩부(100)와 디코딩부(200)를 학습시킬 수 있으며, 학습 수준을 검증할 수 있다.
표현자 추출부(300)는 인코딩부(100)에서 획득된 인코딩 데이터(zx, zy)를 인가받고, 미리 학습된 패턴 추정 방식에 따라 인가된 인코딩 데이터(zx, zy) 각각에서 도메인에 무관한 특징을 추출하여 공통 도메인 공간(F) 상에 투사된 표현자(f(x), f(y))를 획득한다. 표현자 추출부(300)는 제1 표현자 추출부(310)와 제2 표현자 추출부(320)를 포함한다.
제1 표현자 추출부(310)는 인코딩부(100)의 제1 인코더(110)에서 추출된 제1 인코딩 데이터(zx)를 인가받아 제1 표현자(f(x))를 획득하고, 제2 표현자 추출부(320)는 제2 인코더(120)에서 추출된 제2 인코딩 데이터(zy)를 인가받아 제2 표현자(f(y))를 획득한다.
제1 및 제2 표현자 추출부(310, 320)가 각각 도메인별 잠재 공간 상에 투사된 제1 및 제2 인코딩 데이터(zx, zy)의 특징을 추출하여 공통 도메인 공간(F)에 투사하므로, 제1 및 제2 표현자(f(x), f(y))는 제1 및 제2 이미지(x, y)가 획득된 도메인에 무관하게 제1 및 제2 이미지(x, y)의 구조적 특징만을 반영한다. 이는 이후 매칭부(400)가 제1 및 제2 이미지(x, y)가 도메인에 무관하게 서로 대응하는 쌍인지를 판별할 수 있도록 하기 위해서이다.
한편, 제1 및 제2 표현자 추출부(310, 320) 또한 인공 신경망으로 구현되므로 학습이 수행되어야 하며, 제1 및 제2 표현자 추출부(310, 320)는 다중 스펙트럼 영상 매칭 장치의 학습 시에 제1 및 제2 인코더(110, 120)로부터 제1 및 제2 변환 인코딩 데이터(zx', zy')를 인가받아 제1 및 제2 변환 표현자(f(x'), f(y'))를 추출한다.
제1 및 제2 인코딩 데이터(zx, zy)가 제1 및 제2 이미지(x, y)가 획득된 도메인에 대응하는 잠재 공간 상에 투사된 데이터인 반면, 제1 및 제2 변환 인코딩 데이터(zx', zy')는 디코딩부(200)에 의해 서로 상대 도메인으로 변환된 이미지(x', y')를 잠재 공간 상에 투사한 데이터이므로, 제1 및 제2 표현자 추출부(310, 320)가 실질적으로 도메인에 무관한 특징을 추출할 수 있다면, 제1 및 제2 표현자(f(x), f(y))와 제1 및 제2 변환 표현자(f(x'), f(y'))는 동일하거나 유사하게 추출되어야 한다. 따라서 제1 및 제2 표현자 추출부(310, 320)와 제1 및 제2 변환 표현자(f(x'), f(y')) 사이의 차이를 기반으로 제1 및 제2 표현자 추출부(310, 320)를 학습시킬 수 있다.
매칭부(400)는 표현자 추출부(300)로부터 제1 및 제2 표현자(f(x), f(y))와 제1 및 제2 변환 표현자(f(x'), f(y'))를 인가받아 유사도를 비교하여 제1 이미지(x)와 제2 이미지(y)가 쌍을 이루는 매칭 이미지인지 판별한다. 상기한 바와 같이, 표현자 추출부(300)는 도메인에 무관한 특징을 추출하므로, 매칭부(400)는 제1 및 제2 표현자(f(x), f(y))만을 인가받아 비교함으로써, 제1 이미지(x)와 제2 이미지(y)가 매칭되는지 여부를 판별할 수 있다. 그러나 비록 표현자 추출부(300)가 도메인에 무관한 구조적 특징을 추출하도록 학습되었다 할지라도, 정확한 매칭 여부를 판정하기 위해서는 서로 다른 도메인 측면에서도 함께 고려되어야 한다. 이에 본 실시예에 따른 매칭부(400)는 제1 및 제2 표현자(f(x), f(y))뿐만 아니라, 제1 및 제2 변환 표현자(f(x'), f(y'))를 인가받아 유사도를 판별함으로써, 제1 이미지(x)와 제2 이미지(y) 사이의 매칭 여부를 정확하게 판정하도록 한다.
여기서 매칭부(400)의 상세 구성은 후술하도록 한다.
판별부(500)는 디코딩부(200)와 함께 GAN을 구성하는 요소로서, 입력된 이미지(x, y)와 디코딩부(200)가 획득한 변환 데이터(x', y') 각각이 대응하는 도메인의 이미지인지 여부를 판정하여 판정 결과(Dx, Dy)를 출력한다. 판별부(500)는 상기한 바와 같이, 다중 스펙트럼 영상 매칭 장치의 학습 시에 구비되는 구성 요소로서, 학습이 완료된 이후에는 생략될 수 있다.
제1 판별부(510)는 제2 이미지(y)와 디코딩부(200)가 획득한 제1 변환 데이터(y')가 제2 도메인(Y)의 이미지인지 여부를 판정하여 제1 판정 결과(Dy(y))와 제1 변환 판정 결과(Dy(y'))를 출력하고, 제2 판별부(520)는 제1 이미지(x)와 디코딩부(200)가 획득한 제2 변환 데이터(x')가 제1 도메인(X)의 이미지인지 여부를 판정하여 제2 판정 결과(Dx(x))와 제2 변환 판정 결과(Dx(x'))를 출력한다.
즉 제1 및 제2 판별부(510, 520)는 원 데이터인 제1 및 제2 이미지(x)와 다른 도메인으로 변환된 이미지인 제1 및 제2 변환 데이터(y', x')을 인가받아, 인가된 각 데이터((x, y), (y', x'))를 판정함으로써, 디코딩부(200)가 정상적으로 디코딩을 수행하는지 여부를 판별할 수 있도록 한다.
학습부(600)는 제1 및 제2 이미지(x, y)와 제1 및 제2 반복 변환 데이터(y", x"), 제1 및 제2 판정 결과(Dy(y), Dx(x))와 제1 및 제2 변환 판정 결과(Dy(y'), Dx(x')), 그리고 제1 및 제2 표현자(f(x), f(y))와 제1 및 제2 변환 표현자(f(x'), f(y'))를 인가받아 기지정된 방식으로 총 손실(Ltotal)을 계산하고, 계산된 총 손실(Ltotal)을 역전파하여, 인공 신경망으로 구성되는 인코딩부(100), 디코딩부(200), 표현자 추출부(300) 및 판별부(500)를 학습시킨다.
학습부(600)가 총 손실(Ltotal)을 계산하는 방법에 대한 상세한 설명은 후술하도록 한다.
도 4는 도 3의 매칭부의 상세 구성의 일 예를 나타내고, 도 5는 도 4의 매칭부에 인가되는 표현자가 다중 스펙트럼 영상으로부터 획득되는 경로를 함께 도시한 도면이다.
도 4를 참조하면, 매칭부(400)는 제1 표현자 결합부(410)와 제2 표현자 결합부(420) 및 유사도 판별부(430)를 포함할 수 있다.
제1 표현자 결합부(410)는 표현자 추출부(300)로부터 제1 표현자(f(x))와 제2 변환 표현자(f(y'))를 인가받아 기지정된 방식으로 결합(concatenation)하여 제1 결합 표현자(f*(x))를 출력한다.
도 5에 도시된 표현자가 획득되는 경로를 참조하면, 제1 표현자(f(x))는 제1 이미지(x)를 인코딩한 제1 인코딩 데이터(zx)의 구조적 특징인데 반해, 제2 변환 표현자(f(y'))는 제1 인코딩 데이터(zx)를 제1 디코더(210)가 제2 도메인의 이미지로 변환한 제1 변환 이미지(y')를 제2 인코더(120)가 다시 인코딩한 제2 변환 인코딩 데이터(zy')의 구조적 특징을 나타낸다. 즉 제1 결합 표현자(f*(x))는 동일한 제1 이미지(x)로부터 획득되었으나, 서로 다른 2개의 도메인(X, Y)에 대응하는 잠재 공간(Zx, Zy)에 투사된 후 추출된 특징을 포함한다.
한편, 제2 표현자 결합부(420)는 표현자 추출부(300)로부터 제2 표현자(f(y))와 제1 변환 표현자(f(x'))를 인가받아 기지정된 방식으로 결합하여 제2 결합 표현자(f*(y))를 출력한다. 따라서 제2 결합 표현자(f*(y))는 동일한 제2 이미지(y)로부터 획득되었으나, 서로 다른 2개의 도메인(X, Y)에 대응하는 잠재 공간(Zx, Zy)에 투사된 후 추출된 특징을 포함한다.
이는 비록 표현자 추출부(300)가 도메인에 무관한 구조적 특징을 추출하도록 학습되었을지라도, 제1 및 제2 표현자(f(x), f(y))에 잔존할 수 있는 도메인별 특징에 무관하게 제1 및 제2 이미지(x, y) 사이의 유사성을 정확하게 판별할 수 있도록 하기 위함이다.
여기서 제1 표현자 결합부(410)와 제2 표현자 결합부(420)는 유사도 판별부(430)가 각 도메인에서 추출된 특징 사이의 유사도를 정확하게 비교할 수 있도록, 제1 표현자 결합부(410)는 제1 표현자(f(x)), 제1 표현자(f(x)) 및 제2 변환 표현자(f(y'))의 순서로 결합하여 제1 결합 표현자(f*(x) = {f(x)|f(x)|f(y')})를 획득하고, 제2 표현자 결합부(420)는 제2 표현자(f(y)), 제1 변환 표현자(f(x')) 및 제2 표현자(f(y))의 순서로 결합하여 제2 결합 표현자(f*(y) = {f(y)|f(x')|f(y)})를 획득할 수 있다.
유사도 판별부(430)는 제1 및 제2 표현자 결합부(410, 420)로부터 제1 및 제2 결합 표현자(f*(x), f*(y))를 인가받고, 인가된 제1 및 제2 결합 표현자(f*(x), f*(y)) 사이의 결합 표현자 차(Δf*(x,y) = f*(x) - f*(y) = {f(x)|f(x)|f(y')} - {f(y)|f(x')|f(y)})를 계산한다. 그리고 계산된 결합 표현자 차(Δf*(x,y))가 기지정된 기준 표현자 차(Δfref) 이하이면, 제1 및 제2 이미지(x, y)는 매칭되는 이미지인 것으로 판별한다. 즉 제1 및 제2 이미지(x, y)는 서로 다른 도메인에서 획득된 쌍을 이루는 스펙트럼 데이터인 것으로 판별한다.
도 6은 도 3의 학습부의 상세 구성의 일 예를 나타낸다.
도 6을 참조하면, 학습부(600)는 적대적 손실 계산부(610), 사이클 일관성 손실 계산부(620), 표현자 일관성 손실 계산부(630) 및 총 손실 계산부(640)를 포함할 수 있다.
적대적 손실 계산부(610)와 사이클 일관성 손실 계산부(620)는 인코딩부(100)와 디코딩부(200)를 학습시키기 위한 손실을 계산한다. 적대적 손실 계산부(610)는
상기한 바와 같이, 인코딩부(100)와 디코딩부(200)는 GAN을 구성하는 요소로서, 인코딩부(100)는 인가된 이미지(x, y)를 각각 대응하는 도메인의 잠재 공간에 투사하고, 디코딩부(200)는 잠재 공간에 투사된 데이터를 상대 도메인의 이미지로 변환한다. 그리고 판별부(500)는 변환된 이미지가 상대 도메인의 이미지로 정상 변환되었는지 여부를 판별한다.
인코딩부(100)가 잠재 공간에 투사한 인코딩 데이터(zx, zy)와 인코딩 데이터를 변환한 변환 데이터(y', x')은 수학식 1로 표현될 수 있다.
Figure pat00001
여기서 Ex(x)와 Ey(y)는 도 2에서 설명한 인코딩 함수이고, Gy(zx)와 Gx(zy)는 변환 함수이다.
그리고 판별부(500)가 제1 도메인(X)의 이미지인지 여부를 판별하는 판별 함수를 Dx라 하고, 제2 도메인(Y)의 이미지인지 여부를 판별하는 판별 함수를 Dy라 한다.
적대적 손실 계산부(610)는 판별부(500)로부터 제1 이미지(x)에 대한 제2 판정 결과(Dx(x))와 제1 변환 판정 결과(Dy(y'))로부터 제1 인코더(110)와 제1 디코더(210)에 의한 적대적 손실을 에너지 기반 엔트로피 함수(
Figure pat00002
)를 이용하여 계산하고, 제2 이미지(y)에 대한 제1 판정 결과(Dy(y))와 제2 변환 판정 결과(Dx(x'))로부터 제2 인코더(120)와 제2 디코더(220)에 의한 적대적 손실을 엔트로피 함수(
Figure pat00003
)를 이용하여 계산하고 합함으로써, 적대적 손실(Ladv)을 수학식 2에 따라 계산할 수 있다.
Figure pat00004
수학식 2에 따른 적대적 손실(Ladv)은 인코딩부(100)와 디코딩부(200)에 의해 서로 상대 도메인에 대응하도록 변환된 이미지가 실제 해당 도메인의 이미지와 유사해지도록 하기 위해 계산되는 손실이다.
인코딩부(100)와 디코딩부(200)가 인가된 이미지(x, y)를 정상적으로 다른 도메인의 변환 데이터(y', x')로 변환할 수 있기 위해서는 수학식 3과 같이 수학식 2의 적대적 손실(Ladv)에서 인코딩 함수(Ex, Ey)와 변환 함수(Gx, Gy)의 변환값은 최소화되고, 판별 함수(Dx, Dy)는 최대화되도록 학습되어야 한다.
Figure pat00005
한편, 사이클 일관성 손실 계산부(620)는 각 도메인의 이미지(x, y)가 인코딩부(100)와 디코딩부(200)에 변환되더라도 원래의 이미지의 특징을 잘 유지하는지 여부를 판정하여, 인코딩부(100)와 디코딩부(200)를 학습시키기 위한 구성이다.
인코딩부(100)와 디코딩부(200)가 제1 및 제2 이미지(x, y)를 각각 상대 도메인의 변환 데이터(y', x')으로 변환하고, 변환 데이터(y', x')를 다시 상대 도메인의 반복 변환 데이터(x", y")으로 변환한 경우, 인코딩부(100)와 디코딩부(200)가 정상적으로 학습되었다면, 제1 및 제2 이미지(x, y)와 반복 변환 데이터(x", y")는 제1 및 제2 이미지(x, y)와 동일해야 한다. 이에 사이클 일관성 손실 계산부(620)는 제1 및 제2 이미지(x, y)와 제1 및 제2 반복 변환 데이터(x", y")를 인가받아 수학식 4에 따라 사이클 일관성 손실(Lcyc)을 계산할 수 있다.
Figure pat00006
여기서
Figure pat00007
Figure pat00008
는 에너지 기반 엔트로피 함수이고, ∥ㅇ∥1 은 L1 놈(L1-norm) 함수이다.
표현자 일관성 손실 계산부(630)는 표현자 추출부(300)에서 추출된 표현자(f(x), f(y), f(x'), f(y'))가 도메인별 잠재 공간(Zx, Zy)에 투사된 인코딩 데이터(zx, zy)와 변환 인코딩 데이터(zx', zy')로부터 도메인에 무관한 표현자를 추출되었는지 여부에 따른 표현자 일관성 손실을 계산한다.
표현자 추출부(300)가 패치 이미지(x, y)에 대한 인코딩 데이터(zx, zy) 표현자(f(x), f(y))를 추출한 경우, 추출된 표현자(f(x), f(y))는 디코딩부(200)에 의해 변환된 변환 데이터(y', x')에 대한 변환 인코딩 데이터(zx', zy')에서 추출된 표현자(f(x'), f(y'))와 동일해야 한다. 따라서 패치 이미지에 대한 표현자 일관성 손실(Lfeat-m)은 수학식 5와 같이 계산될 수 있다.
Figure pat00009
여기서 ∥·∥2 은 L2 놈(L2-norm) 함수이다.
이러한 도 5의 표현자 일관성 손실(Lfeat-m)은 표현자 추출부(300)가 패치 이미지에 인코딩 데이터(zx, zy)로부터 정확한 표현자를 추출할 수 있도록 한다. 그러나 서로 다른 도메인에서 획득되는 스펙트럼 데이터인 제1 및 제2 이미지는 완전하게 일치하지 않더라도 구조적 특징의 유사성에 기반하여 매칭되는 것으로 볼 수 있다. 즉 제1 및 제2 이미지가 동일한 객체에 대한 이미지로 유사한 구조적 특징을 가지고 있으나, 포함된 객체의 위치 차로 인해 서로 다른 이미지로 판별되어서는 안된다.
이에 표현자 추출부(310)가 일치하지 않는 이미지 사이에도 구조적 유사도에 따라 유사한 표현자를 추출할 수 있도록 표현자 일관성 손실 계산부(630)는 수학식 5를 수정하여 표현자 일관성 손실(Lfeat)을 수학식 6에 따라 계산할 수 있다.
Figure pat00010
여기서 {x, y'p} 및 {x'p, y}는 서로 매칭되는 패치 이미지이고, {x, y'n} 및 {x'n, y}은 매칭되지 않는 패치 이미지이다. 그리고 C는 미리 지정되는 하이퍼 파라미터이다.
총 손실 계산부(640)는 적대적 손실 계산부(610)에서 수학식 2에 따라 계산된 적대적 손실(Ladv)과 사이클 일관성 손실 계산부(620)에서 수학식 4에 따라 계산된 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실 계산부(630)에서 수학식 6에 따라 계산된 표현자 일관성 손실(Lfeat)을 수학식 7과 같이 기지정된 방식으로 합산하여 총 손실(Ltotal)을 계산한다.
Figure pat00011
여기서 λ, γ는 적대적 손실(Ladv)과 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실(Lfeat) 사이의 상대적 가중치를 조절하기 위한 가중치값이다.
총 손실 계산부(640)는 계산된 총 손실(Ltotal)을 역전파하여 다중 스펙트럼 데이터 매칭 장치를 학습시킨다.
여기서 학습부(600)는 계산된 총 손실(Ltotal)이 기지정된 기준 손실 이하가 될 때까지 반복하여 학습을 수행하거나, 기지정된 횟수만큼 반복하여 학습을 수행할 수 있다.
또한 학습부(600)는 계산된 총 손실(Ltotal)에 기초하여 인코딩부(100)와 디코딩부(200), 표현자 추출부(300) 및 판별부(500)가 수학식 8을 만족하도록 학습시킬 수 있다.
Figure pat00012
수학식 8에 따르면 총 손실 계산부(640)는 인코딩 함수(Ex, Ey)와 변환 함수(Gx, Gy)의 변환값은 최소화되고, 판별 함수(Dx, Dy)는 최대화되며, 표현자 추출 함수(Fx, Fy)가 최소가 되도록 다중 스펙트럼 영상 매칭 장치를 학습시킬 수 있다.
결과적으로 본 실시예에 따른 다중 스펙트럼 영상 매칭 장치는 서로 다른 도메인에서 획득된 제1 및 제2 이미지(x, y)를 각각 도메인별 잠재 공간 상에 투사한 후, 다시 공통 도메인 공간에 투사하여 도메인에 무관한 특징을 나타내는 표현자를 추출하고, 추출된 표현자를 비교함으로써, 제1 및 제2 이미지(x, y)가 쌍을 이룰 수 있는 매칭 이미지인지 여부를 정확하게 판정할 수 있다. 특히 표현자 사이의 정확한 비교를 위해, 도메인별 잠재 공간 상에 투사된 제1 및 제2 인코딩 데이터(zx, zy)를 서로 상대 도메인(Y, X)의 데이터(y', x')로 변환한 후, 다시 인코딩 및 표현자를 추출하여 함께 비교함으로써, 매칭 정확도를 크게 향상시킬 수 있다. 뿐만 아니라, 디코딩부(200)가 표현자에 기반하여 서로 상대 도메인(Y, X)의 데이터(y', x')로 변환하더라도 각 이미지의 구조적 특징을 안정적으로 유지할 수 있다는 것을 보장할 수 있으므로, 서로 대응하는 이미지, 즉 대응하는 스펙트럼 데이터가 존재하지 않는 경우에도 다른 도메인의 스펙트럼 데이터를 높은 신뢰도로 획득할 수 있다. 따라서 대량의 학습 데이터를 용이하게 획득할 수 있다.
도 7은 본 발명의 일 실시예에 따른 다중 스펙트럼 영상 매칭 방법을 나타낸다.
도 1 내지 도 6을 참조하여, 도 7의 다중 스펙트럼 영상 매칭 방법을 설명하면, 우선 매칭 여부를 판별해야 할 다수의 이미지(x, y)를 획득한다(S11). 여기서 다수의 이미지는 서로 다른 도메인(X, Y)에서 획득된 스펙트럼 데이터이다. 다수의 이미지가 획득되면, 획득된 이미지 각각을 패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여 인코딩하여 다수의 인코딩 데이터(zx, zy)를 획득한다(S12). 여기서 다수의 인코딩 데이터(zx, zy) 각각은 대응하는 도메인의 잠재 공간에 투사된 데이터이다.
다수의 인코딩 데이터(zx, zy)가 획득되면, 미리 학습된 인공 신경망을 이용하여 다수의 인코딩 데이터(zx, zy)를 각각 상대 도메인의 이미지로 디코딩하여 변환 이미지(x', y')를 획득한다(S13). 즉 제1 도메인(X)에서 획득된 제1 이미지(x)를 인코딩한 제1 인코딩 데이터(zx)를 제2 도메인(Y)의 제1 변환 이미지(y')로 변환하고, 제2 도메인(Y)에서 획득된 제2 이미지(y)를 인코딩한 제2 인코딩 데이터(zy)를 제1 도메인(X)의 제2 변환 이미지(x')로 변환한다.
여기서 획득된 변환 이미지(y', x')는 각각 서로 다른 도메인의 이미지(x, y)가 상대 도메인의 이미지로 변환되어 이미지(x, y)와 쌍을 이룰 수 있는 다른 스펙트럼 데이터이다. 따라서 제1 이미지(x)와 제1 변환 이미지(y')가 쌍을 이루고, 제2 이미지(y)와 제2 변환 이미지(x')가 쌍을 이룰 수 있다. 그리고 이미지와 변환 이미지 쌍((x, y'), (y, x'))은 다른 인공 신경망을 위한 학습 데이터로 이용될 수 있다.
그리고 다수의 변환 이미지(x', y')를 다시 인코딩하여 변환 인코딩 데이터(zx', zy')를 획득한다(S14).
다수의 인코딩 데이터(zx, zy)와 다수의 변환 인코딩 데이터(zx', zy')가 획득되면, 도메인별 잠재 공간(Zx, Zy)에 투사되어 획득된 다수의 인코딩 데이터(zx, zy)와 다수의 변환 인코딩 데이터(zx', zy') 각각으로부터 도메인에 무관한 구조적 특징에 따른 패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여 표현자를 추출한다(S15). 제1 및 제2 인코딩 데이터(zx, zy)로부터는 제1 및 제2 표현자(f(x), f(y))를 추출하고, 제1 및 제2 변환 인코딩 데이터(zx', zy')로부터는 제1 및 제2 변환 표현자(f(x'), f(y'))를 추출한다.
그리고 추출된 제1 및 제2 표현자(f(x), f(y))와 제1 및 제2 변환 표현자(f(x'), f(y'))를 기지정된 방식으로 결합하여, 다수의 결합 표현자(f*(x), f*(y))를 획득한다(S16).
한편 다수의 결합 표현자(f*(x), f*(y))가 획득되면, 다중 스펙트럼 데이터 매칭 장치가 학습이 필요한 학습 상태인지 판별한다(S17). 만일 학습 상태가 아니면, 획득된 다수의 결합 표현자(f*(x), f*(y)) 사이의 차이를 기반으로 다수의 이미지(x, y)가 매칭되는지 여부를 판별한다(S18).
그러나 학습 상태인 것으로 판별되면, 학습 단계를 수행한다(S20). 학습 단계(S20)는 적대적 손실(Ladv)과 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실(Lfeat)을 계산하고, 계산된 적대적 손실(Ladv)과 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실(Lfeat)을 합산하여 계산되는 총 손실(Ltotal)을 역전파하여 수행될 수 있다.
도 8은 도 7의 학습 수행 단계를 상세하게 나타낸 도면이다.
도 8을 참조하여 학습 수행 단계(S20)를 설명하면, 우선 미리 학습된 패턴 추정 방식에 따라 다수의 이미지(x, y)와 변환 이미지(x', y') 각각의 도메인을 판별하여, 판정 결과(Dx(x), Dy(y))와 변환 판정 결과(Dx(x'), (Dy(y'))를 획득한다(S21). 그리고 변환 인코딩 데이터(zx', zy')를 다시 반복 변환하여 반복 변환 데이터(x", y")를 획득한다(S22). 여기서 반복 변환 데이터(x", y") 각각은 원 이미지(x, y)의 도메인의 이미지로 변환된 데이터이다.
판정 결과(Dx(x), Dy(y), Dx(x'), (Dy(y'))와 반복 변환 데이터(x", y")가 획득되면, 판정 결과(Dx(x), Dy(y), Dx(x'), (Dy(y'))를 기반으로 판별 오차를 기지정된 방식으로 계산하여 적대적 손실(Ladv)을 계산한다(S23). 또한 다수의 이미지(x, y)와 반복 변환 데이터(x", y") 사이의 차이를 기지정된 방식으로 계산하여 사이클 일관성 손실(Lcyc)을 계산한다(S24). 그리고 표현자(f(x), f(y))와 제1 및 제2 변환 표현자(f(x'), f(y')) 사이의 차이를 기지정된 방식으로 계산하여 표현자 일관성 손실(Lfeat)을 계산한다(S25). 이때, 표현자 일관성 손실(Lfeat)은 이미지(x, y)와 변환 이미지(x', y') 사이의 구조적 유사성을 계산하여 획득될 수 있다.
적대적 손실(Ladv)과 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실(Lfeat)이 계산되면, 계산된 적대적 손실(Ladv)과 사이클 일관성 손실(Lcyc) 및 표현자 일관성 손실(Lfeat)을 기지정된 방식으로 가중합하여 총 손실(Ltotal)을 계산하고, 계산된 총 손실(Ltotal)을 역전파하여 학습을 수행한다(S26).
본 발명에 따른 방법은 컴퓨터에서 실행시키기 위한 매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다. 여기서 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스 될 수 있는 임의의 가용 매체일 수 있고, 또한 컴퓨터 저장 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함하며, ROM(판독 전용 메모리), RAM(랜덤 액세스 메모리), CD(컴팩트 디스크)-ROM, DVD(디지털 비디오 디스크)-ROM, 자기 테이프, 플로피 디스크, 광데이터 저장장치 등을 포함할 수 있다.
본 발명은 도면에 도시된 실시예를 참고로 설명되었으나 이는 예시적인 것에 불과하며, 본 기술 분야의 통상의 지식을 가진 자라면 이로부터 다양한 변형 및 균등한 타 실시예가 가능하다는 점을 이해할 것이다.
따라서, 본 발명의 진정한 기술적 보호 범위는 첨부된 청구범위의 기술적 사상에 의해 정해져야 할 것이다.
10, 100: 인코딩부 20, 200: 디코딩부
30, 300: 표현자 추출부 40, 400: 매칭부
50: 학습 데이터 저장부

Claims (20)

  1. 패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어 서로 다른 도메인에서 획득된 스펙트럼 데이터인 제1 및 제2 이미지를 각각 인코딩하여 제1 및 제2 인코딩 데이터를 획득하고, 제1 및 제2 변환 이미지를 각각 인코딩하여 제1 및 제2 변환 인코딩 데이터를 획득하는 인코딩부;
    패턴 복원 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 제1 및 제2 인코딩 데이터 각각을 다른 도메인의 이미지인 상기 제1 및 제2 변환 이미지로 변환하는 디코딩부;
    패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 제1 및 제2 인코딩 데이터와 제1 및 제2 변환 인코딩 데이터로부터 도메인에 무관한 구조적 특징을 추출하여 제1 및 제2 표현자와 제1 및 제2 변환 표현자를 획득하는 표현자 추출부; 및
    상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자 중 동일한 이미지로부터 획득된 표현자들을 기지정된 방식으로 결합하여 제1 및 제2 결합 표현자를 획득하고, 획득된 제1 및 제2 결합 표현자를 기지정된 방식으로 서로 비교하여 상기 제1 및 제2 이미지 사이의 매칭 여부를 판정하는 매칭부를 포함하는 다중 스펙트럼 영상 매칭 장치.
  2. 제1항에 있어서, 상기 인코딩부는
    기지정된 제1 도메인에서 획득된 제1 이미지와 상기 디코딩부에서 생성된 제2 변환 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각각 인코딩하여 제1 인코딩 데이터와 제1 변환 인코딩 데이터를 획득하는 제1 인코더; 및
    기지정된 제2 도메인에서 획득된 제2 이미지와 상기 디코딩부에서 생성된 제1 변환 이미지를 인가받아 미리 학습된 패턴 추정 방식에 따라 각각 인코딩하여 제2 인코딩 데이터와 제2 변환 인코딩 데이터를 획득하는 제2 인코더를 포함하는 다중 스펙트럼 영상 매칭 장치.
  3. 제2항에 있어서, 상기 디코딩부는
    상기 제1 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제1 변환 이미지로 변환하는 제1 디코더; 및
    상기 제2 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제2 변환 이미지로 변환하는 제2 디코더를 포함하는 다중 스펙트럼 영상 매칭 장치.
  4. 제3항에 있어서, 상기 표현자 추출부는
    상기 제1 인코딩 데이터와 상기 제1 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여, 상기 제1 표현자와 상기 제1 변환 표현자를 추출하는 제1 표현자 추출부; 및
    상기 제2 인코딩 데이터와 상기 제2 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여, 상기 제2 표현자와 상기 제2 변환 표현자를 추출하는 제2 표현자 추출부를 포함하는 다중 스펙트럼 영상 매칭 장치.
  5. 제4항에 있어서, 상기 매칭부는
    상기 제1 이미지를 기반으로 추출된 상기 제1 표현자와 상기 제2 변환 표현자를 기지정된 순서로 결합하여 제1 결합 표현자를 획득하는 제1 표현자 결합부;
    상기 제2 이미지를 기반으로 추출된 상기 제2 표현자와 상기 제1 변환 표현자를 상기 제1 결합 표현자에 대응하는 기지정된 순서로 결합하여 제2 결합 표현자를 획득하는 제2 표현자 결합부; 및
    상기 제1 및 제2 결합 표현자 사이의 차를 계산하고, 계산된 차가 기지정된 기준 표현자 차 이하이면, 상기 제1 및 제2 이미지가 서로 쌍을 이루는 매칭되는 이미지인 것으로 판별하는 유사도 판별부를 포함하는 다중 스펙트럼 영상 매칭 장치.
  6. 제4항에 있어서, 상기 제1 디코더는
    학습 시에 상기 제1 변환 인코딩 데이터를 인가받아 다시 상기 제1 도메인의 이미지인 제1 반복 변환 데이터를 획득하고,
    상기 제2 디코더는
    학습 시에 상기 제2 변환 인코딩 데이터를 인가받아 다시 상기 제2 도메인의 이미지인 제2 반복 변환 데이터를 획득하는 다중 스펙트럼 영상 매칭 장치.
  7. 제6항에 있어서, 상기 다중 스펙트럼 영상 매칭 장치는
    패턴 추정 방식이 미리 학습된 인공 신경망으로 구현되어, 상기 다중 스펙트럼 영상 매칭 장치의 학습 시에, 상기 제1 및 제2 이미지와 상기 제1 변환 이미지와 상기 제2 이미지 각각의 도메인을 판정하여, 제1 및 제2 판정 결과와 제1 미치 제2 변환 판정 결과를 출력하는 판별부; 및
    상기 다중 스펙트럼 영상 매칭 장치의 학습 시에, 상기 제1 및 제2 이미지와 상기 제1 및 제2 반복 변환 데이터, 상기 제1 및 제2 판정 결과와 상기 제1 및 제2 변환 판정 결과, 그리고 상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자를 인가받아 기지정된 방식으로 총 손실을 계산하고, 계산된 총 손실을 역전파하여 학습을 수행하는 학습부를 더 포함하는 다중 스펙트럼 영상 매칭 장치.
  8. 제7항에 있어서, 상기 판별부는
    미리 학습된 패턴 추정 방식에 따라 상기 제2 이미지와 상기 제1 변환 이미지가 각각 상기 제2 도메인의 이미지인지 판정하여 제1 판정 결과와 제1 변환 판정 결과를 출력하는 제1 판별부; 및
    미리 학습된 패턴 추정 방식에 따라 상기 제1 이미지와 상기 제2 변환 이미지가 각각 상기 제1 도메인의 이미지인지 판정하여 제2 판정 결과와 제2 변환 판정 결과를 출력하는 제2 판별부를 포함하는 다중 스펙트럼 영상 매칭 장치.
  9. 제8항에 있어서, 상기 학습부는
    상기 제2 판정 결과와 상기 제1 변환 판정 결과로부터 상기 제1 인코더와 제1 디코더에 의한 제1 적대적 손실을 에너지 기반 엔트로피 함수를 이용하여 계산하고, 상기 제1 판정 결과와 상기 제2 변환 판정 결과로부터 상기 제2 인코더와 상기 제2 디코더에 의한 제2 적대적 손실을 엔트로피 함수를 이용하여 계산하고 합하여 적대적 손실을 계산하는 적대적 손실 계산부;
    상기 제1 이미지와 상기 제1 반복 변환 데이터 사이의 에너지 차와 상기 제2 이미지와 제2 반복 변환 데이터 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 사이클 일관성 손실을 계산하는 사이클 일관성 손실 계산부;
    상기 제1 표현자와 상기 제2 변환 표현자 사이의 에너지 차와 상기 제2 표현자와 상기 제1 변환 표현자 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 표현자 일관성 손실을 계산하는 표현자 일관성 손실 계산부; 및
    상기 적대적 손실과 상기 사이클 일관성 손실 및 상기 표현자 일관성 손실을 기지된 방식으로 가중합하여 상기 총 손실을 계산하고, 계산된 총 손실을 역절파하는 총 손실 계산부를 포함하는 다중 스펙트럼 영상 매칭 장치.
  10. 제3항에 있어서, 상기 다중 스펙트럼 영상 매칭 장치는
    상기 제1 이미지와 상기 제1 변환 이미지, 상기 제2 이미지와 상기 제2 변환 이미지를 각각 서로 다른 도메인에서 쌍을 이루는 다중 스펙트럼 데이터로서, 인공 신경망 학습을 위한 학습 데이터로 저장하는 학습 데이터 저장부를 더 포함하는 다중 스펙트럼 영상 매칭 장치.
  11. 패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여 서로 다른 도메인에서 획득된 스펙트럼 데이터인 제1 및 제2 이미지를 각각 인코딩하여 제1 및 제2 인코딩 데이터를 획득하는 단계;
    패턴 복원 방식이 미리 학습된 인공 신경망을 이용하여, 상기 제1 및 제2 인코딩 데이터 각각을 다른 도메인의 이미지인 제1 및 제2 변환 이미지로 변환하는 단계;
    상기 제1 및 제2 변환 이미지를 각각 인코딩하여 제1 및 제2 변환 인코딩 데이터를 획득하는 단계;
    패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여, 상기 제1 및 제2 인코딩 데이터와 제1 및 제2 변환 인코딩 데이터로부터 도메인에 무관한 구조적 특징을 추출하여 제1 및 제2 표현자와 제1 및 제2 변환 표현자를 획득하는 단계; 및
    상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자 중 동일한 이미지로부터 획득된 표현자들을 기지정된 방식으로 결합하여 제1 및 제2 결합 표현자를 획득하고, 획득된 제1 및 제2 결합 표현자를 기지정된 방식으로 서로 비교하여 상기 제1 및 제2 이미지 사이의 매칭 여부를 판정하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  12. 제11항에 있어서, 상기 제1 및 제2 인코딩 데이터를 획득하는 단계는
    기지정된 제1 도메인에서 획득된 제1 이미지를 인코딩하여 제1 인코딩 데이터를 획득하는 단계; 및
    기지정된 제2 도메인에서 획득된 제2 이미지를 인코딩하여 제2 인코딩 데이터를 획득하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  13. 제12항에 있어서, 상기 제1 및 제2 변환 이미지로 변환하는 단계는
    상기 제1 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제1 변환 이미지로 변환하는 단계; 및
    상기 제2 인코딩 데이터를 인가받아 미리 학습된 패턴 복원 방식에 따라 제2 도메인에 해당하는 제2 변환 이미지로 변환하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  14. 제13항에 있어서, 상기 제1 및 제2 변환 인코딩 데이터를 획득하는 단계는
    상기 제2 변환 이미지를 인가받아 상기 제1 인코딩 데이터를 획득하는 방식과 동일하게 인코딩하여 제1 변환 인코딩 데이터를 획득하는 단계; 및
    상기 제1 변환 이미지를 인가받아 상기 제2 인코딩 데이터를 획득하는 방식과 동일하게 인코딩하여 제2 변환 인코딩 데이터를 획득하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  15. 제14항에 있어서, 상기 표현자를 획득하는 단계는
    상기 제1 인코딩 데이터와 상기 제1 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여 상기 제1 표현자와 상기 제1 변환 표현자를 추출하는 단계; 및
    상기 제2 인코딩 데이터와 상기 제2 변환 인코딩 데이터를 인가받아, 미리 학습된 패턴 추정 방식에 따라 도메인에 무관한 특징을 추출하여 상기 제2 표현자와 상기 제2 변환 표현자를 추출하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  16. 제15항에 있어서, 상기 매칭 여부를 판정하는 단계는
    상기 제1 이미지를 기반으로 추출된 상기 제1 표현자와 상기 제2 변환 표현자를 기지정된 순서로 결합하여 제1 결합 표현자를 획득하는 단계;
    상기 제2 이미지를 기반으로 추출된 상기 제2 표현자와 상기 제1 변환 표현자를 상기 제1 결합 표현자에 대응하는 기지정된 순서로 결합하여 제2 결합 표현자를 획득하는 단계; 및
    상기 제1 및 제2 결합 표현자 사이의 차를 계산하고, 계산된 차가 기지정된 기준 표현자 차 이하이면, 상기 제1 및 제2 이미지가 서로 쌍을 이루는 매칭되는 이미지인 것으로 판별하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  17. 제15항에 있어서, 상기 다중 스펙트럼 영상 매칭 방법은
    학습 단계를 더 포함하고,
    상기 학습 단계는
    상기 제1 변환 인코딩 데이터를 인가받아 다시 상기 제1 도메인의 이미지인 제1 반복 변환 데이터를 획득하고, 상기 제2 변환 인코딩 데이터를 인가받아 다시 상기 제2 도메인의 이미지인 제2 반복 변환 데이터를 획득하는 단계;
    패턴 추정 방식이 미리 학습된 인공 신경망을 이용하여 상기 다중 스펙트럼 영상 매칭 방법의 학습 시에, 상기 제1 및 제2 이미지와 상기 제1 변환 이미지와 상기 제2 이미지 각각의 도메인을 판정하여, 제1 및 제2 판정 결과와 제1 미치 제2 변환 판정 결과를 출력하는 단계; 및
    상기 제1 및 제2 이미지와 상기 제1 및 제2 반복 변환 데이터, 상기 제1 및 제2 판정 결과와 상기 제1 및 제2 변환 판정 결과, 그리고 상기 제1 및 제2 표현자와 상기 제1 및 제2 변환 표현자를 인가받아 기지정된 방식으로 총 손실을 계산하고, 계산된 총 손실을 역전파하여 학습을 수행하는 단계를 더 포함하는 다중 스펙트럼 영상 매칭 방법.
  18. 제17항에 있어서, 상기 판정 결과를 출력하는 단계는
    미리 학습된 패턴 추정 방식에 따라 상기 제2 이미지와 상기 제1 변환 이미지가 각각 상기 제2 도메인의 이미지인지 판정하여 제1 판정 결과와 제1 변환 판정 결과를 출력하는 단계; 및
    미리 학습된 패턴 추정 방식에 따라 상기 제1 이미지와 상기 제2 변환 이미지가 각각 상기 제1 도메인의 이미지인지 판정하여 제2 판정 결과와 제2 변환 판정 결과를 출력하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  19. 제18항에 있어서, 상기 학습을 수행하는 단계는
    상기 제2 판정 결과와 상기 제1 변환 판정 결과로부터 상기 제1 인코더와 제1 디코더에 의한 제1 적대적 손실을 에너지 기반 엔트로피 함수를 이용하여 계산하고, 상기 제1 판정 결과와 상기 제2 변환 판정 결과로부터 상기 제2 인코더와 상기 제2 디코더에 의한 제2 적대적 손실을 엔트로피 함수를 이용하여 계산하고 합하여 적대적 손실을 계산하는 단계;
    상기 제1 이미지와 상기 제1 반복 변환 데이터 사이의 에너지 차와 상기 제2 이미지와 제2 반복 변환 데이터 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 사이클 일관성 손실을 계산하는 단계;
    상기 제1 표현자와 상기 제2 변환 표현자 사이의 에너지 차와 상기 제2 표현자와 상기 제1 변환 표현자 사이의 에너지 차를 계산하고, 계산된 에너지 차들을 합산하여 표현자 일관성 손실을 계산하는 단계; 및
    상기 적대적 손실과 상기 사이클 일관성 손실 및 상기 표현자 일관성 손실을 기지된 방식으로 가중합하여 상기 총 손실을 계산하고, 계산된 총 손실을 역절파하는 단계를 포함하는 다중 스펙트럼 영상 매칭 방법.
  20. 제13항에 있어서, 상기 다중 스펙트럼 영상 매칭 방법은
    상기 제1 이미지와 상기 제1 변환 이미지, 상기 제2 이미지와 상기 제2 변환 이미지를 각각 서로 다른 도메인에서 쌍을 이루는 다중 스펙트럼 데이터로서, 인공 신경망 학습을 위한 학습 데이터로 저장하는 단계를 더 포함하는 다중 스펙트럼 영상 매칭 방법.
KR1020200101670A 2020-08-13 2020-08-13 다중 스펙트럼 영상 매칭 장치 및 방법 KR20220021174A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200101670A KR20220021174A (ko) 2020-08-13 2020-08-13 다중 스펙트럼 영상 매칭 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200101670A KR20220021174A (ko) 2020-08-13 2020-08-13 다중 스펙트럼 영상 매칭 장치 및 방법

Publications (1)

Publication Number Publication Date
KR20220021174A true KR20220021174A (ko) 2022-02-22

Family

ID=80494391

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200101670A KR20220021174A (ko) 2020-08-13 2020-08-13 다중 스펙트럼 영상 매칭 장치 및 방법

Country Status (1)

Country Link
KR (1) KR20220021174A (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200063368A (ko) 2018-11-23 2020-06-05 연세대학교 산학협력단 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200063368A (ko) 2018-11-23 2020-06-05 연세대학교 산학협력단 대응점 일관성에 기반한 비지도 학습 방식의 스테레오 매칭 장치 및 방법

Similar Documents

Publication Publication Date Title
Hughes et al. Identifying corresponding patches in SAR and optical images with a pseudo-siamese CNN
Yu et al. Image based static facial expression recognition with multiple deep network learning
Zeng et al. Hand-crafted feature guided deep learning for facial expression recognition
CN109711422B (zh) 图像数据处理、模型的建立方法、装置、计算机设备和存储介质
Bati et al. Hyperspectral anomaly detection method based on auto-encoder
KR102010378B1 (ko) 객체를 포함하는 영상의 특징을 추출하는 방법 및 장치
KR102225022B1 (ko) 사람 재식별 장치 및 방법
CN110084193B (zh) 用于面部图像生成的数据处理方法、设备和介质
CN111652049A (zh) 人脸图像处理模型训练方法、装置、电子设备及存储介质
KR102042168B1 (ko) 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치
CN112883227B (zh) 一种基于多尺度时序特征的视频摘要生成方法和装置
KR20200083119A (ko) 사용자 인증 장치 및 방법
CA3090504A1 (en) Systems and methods for sensor-independent illuminant determination
Chaaraoui et al. A Low‐Dimensional Radial Silhouette‐Based Feature for Fast Human Action Recognition Fusing Multiple Views
Pang et al. VD-GAN: A unified framework for joint prototype and representation learning from contaminated single sample per person
CN116933051A (zh) 一种用于模态缺失场景的多模态情感识别方法及系统
CN115393404A (zh) 双光图像配准方法、装置及设备、存储介质
Okokpujie et al. Development of an adaptive trait-aging invariant face recognition system using convolutional neural networks
Liu et al. Modality-agnostic augmented multi-collaboration representation for semi-supervised heterogenous face recognition
Pajot et al. Unsupervised adversarial image inpainting
KR20220021174A (ko) 다중 스펙트럼 영상 매칭 장치 및 방법
Wang et al. Branching path following for graph matching
US20230196739A1 (en) Machine learning device and far-infrared image capturing device
Vatambeti et al. Gait based person identification using deep learning model of Generative Adversarial Network
JPWO2021095211A5 (ko)