KR102578364B1

KR102578364B1 - 기계 학습 모델에 기반하여 수중 도메인의 이미지 및 에어 헤이즈 도메인의 이미지 간의 스타일 변환을 위한 장치 및 방법

Info

Publication number: KR102578364B1
Application number: KR1020220041278A
Authority: KR
Inventors: 심재영; 박은필
Original assignee: 울산과학기술원
Priority date: 2022-04-01
Filing date: 2022-04-01
Publication date: 2023-09-15

Abstract

일 실시예에 따른 영상 처리 장치는, 제1 기계 학습 모델에 기초하여 수중에서 촬영된 수중 이미지(underwater image) 및 공기 중 헤이즈(haze)에서 촬영된 에어 헤이즈 이미지(air haze image)로부터 슈도 에어 헤이즈 이미지(pseudo air haze image) 및 슈도 수중 이미지(pseudo underwater image)를 생성하고, 상기 슈도 에어 헤이즈 이미지를 디헤이징(dehaze)함으로써 슈도 클린 이미지(pseudo clean image)를 생성하며, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 상기 슈도 수중 이미지, 상기 슈도 에어 헤이즈 이미지, 및 상기 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써, 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출하고, 상기 산출된 가능성 점수에 기초한 적대적 손실(adversarial loss)을 포함하는 목적 함수에 기초하여, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행하는 프로세서를 포함할 수 있다.

Description

기계 학습 모델에 기반하여 수중 도메인의 이미지 및 에어 헤이즈 도메인의 이미지 간의 스타일 변환을 위한 장치 및 방법{APPARATUS AND METHOD FOR STYLE TRANSFER BETWEEN IMAGES IN THE UNDERWATER DOMAIN AND IMAGES IN THE AIR HAZE DOMAIN BASED ON A MACHINE LEARNING MODEL}

이하, 수중 이미지 및 에어 헤이즈 이미지의 처리에 관한 기술이 개시된다.

수중 이미지 향상에 관하여, 초기의 비-딥 러닝 기반 방법들에서, 수중 이미지 향상(Underwater image enhancement; UIE) 문제는 단순화된 McGlamery-Jaffe 모델을 기반으로 하거나 시각적으로 만족스러운 결과를 생성하여 해결될 수 있다. 최근 몇 가지 딥러닝 기반 UIE 모델들은 제안되었으나, 적절한 트레이닝 데이터 세트의 부족으로 인해 제한된 성능을 가졌을 수 있다. 이를 해결하기 위해, 수중 이미지 데이터의 수집을 위한 많은 연구들은 이루어졌을 수 있다.

UIE 데이터 세트는 높은 스타일 다양성(high style diversity)으로서 다양한 수중 환경(예: 다른 수중 유형들, 대기광들, 탁도(turbidity), 및 공간적으로 비균질한 왜곡들(non-homogeneous)을 커버해야 할 수 있다. UIE 데이터 세트는 동시에, 높은 충실도(high fidelity)로서, 충실하고 잘 정렬된 참 값(ground truth)을 가지면서, 높은 컨텐츠 다양성(high content diversity)으로서, 다양한 객체들을 포함해야 할 수 있다.

도 1은 4개의 기존 UIE 데이터 세트들을 도시한다. 표 1은 다양한 측면들에서, 4개의 기존 UIE 데이터 세트들을 설명한다.

[표 1]

도 1의 그림(111) 및 그림(112)는 UWCNN 데이터 세트의 예시이다. UWCNN 데이터 세트에 관하여, 논문 'Chongyi Li, Saeed Anwar, and Fatih Porikli. Underwater scene prior inspired deep underwater image and video enhancement. PR, 98:107038, 2020.'에서, NYUv2 RGBD 데이터 세트를 사용하여 수중 이미지를 합성하는 것은 제안되었다. 합성된 수중 이미지에서, 낮은 명암비와 색상 왜곡을 잘 나타날 수 있으나 도메인 갭들 및 왜곡들의 불균일한 속성들이 나타나지 않아 현실성이 떨어질 수 있다. 여기서, 의 10가지 Jerlov 물 유형들만이 선택되고, 대기광은 0.8 내지 1의 범위로 설정되며, 는 0.5 내지 15의 범위에서 변경될 수 있다. 대체로, 이것들을 통해 데이터 세트의 스타일 다양성은 제한될 수 있다. 반면, UWCNN 데이터 세트는 1,449개의 실내 이미지를 기반으로 합성되었기 때문에, 중간 수준의 컨텐츠 다양성을 가지는 고화질의 클린 이미지들을 포함할 수 있다.

도 1의 그림(121) 및 그림(122)는 TURBID 데이터 세트의 예시이다. TURBID 데이터 세트에 관하여, 논문'Amanda Duarte, Felipe Codevilla, Joel De O Gaya, and Silvia SC Botelho. A dataset to evaluate underwater image restoration methods. In Proceedings of the MTS/IEEE OCEANS, pages 1-6, 2016.'에서, 수중 이미지 및 클린 이미지는 수조를 사용하여 탁한 수중 환경의 시뮬레이션을 통해 수집될 수 있다. 쌍을 이루는 데이터 수집은 노동 집약적이기 때문에, TURBID 데이터 세트는 낮은 컨텐츠 다양성을 가지는 4개의 장면들에 대한 이미지들이 포함될 수 있다. 탁도 수준은 81개의 데이터 쌍들을 포함하도록 물 탱크에 더 많은 재료를 추가함으로써 제어될 수 있다. 전반적으로, 낮은 스타일 다양성을 가지는 TURBID 데이터 세트는 다양한 수중 환경을 커버하기에는 너무 적은 이미지 쌍들을 포함할 수 있다.

도 1의 그림(131) 및 그림(132)는 EUVP 데이터 세트의 예시이다. EUVP 데이터 세트에 관하여, 논문 'Md Jahidul Islam, Youya Xia, and Junaed Sattar. Fast underwater image enhancement for improved visual perception. IEEE Robotics and Automation Letters, 5(2):3227-3234, 2020.'에서, 이미지 변환 네트워크를 트레이닝시키고 슈도 쌍의 데이터 세트를 구성하는 데 사용하는 것은 제안될 수 있다. 보다 구체적으로, 좋은 가시성 및 나쁜 가시성의 8000개의 수중 이미지들을 사용하여 cycleGAN 기반 네트워크는 트레이닝될 수 있다. 트레이닝된 모델을 이용하여, 또 다른 12000개의 수중 이미지들의 세트는 좋은 가시성을 가지는 이미지의 도메인으로 변환될 수 있다. EUVP 데이터 세트는 대량의 데이터들의 수집을 통해 다양한 수중 스타일들 및 다양한 이미지 컨텐츠들을 가질 수 있다. 그러나, Fig. 3(c)에 나타난 바와 같이, EUVP 데이터 세트는 “좋은” 가시성을 가지는 이미지의 낮은 충실도로 인해 여전히 품질 저하 문제를 가질 수 있다. 이러한 품질 저하로 인하여 변환 성능의 상한선이 설정될 수 있으므로, 모델에서 생성된 슈도 클린 이미지의 품질은 저하될 수 있다.

도 1의 그림(141) 및 그림(142)는 UIEBD 데이터 세트의 예시이다. UIEBD 데이터 세트에 관하여, UIEBD 데이터 세트는 890개의 슈도 쌍 이미지들을 포함할 수 있다. 논문 'Chongyi Li, Chunle Guo, Wenqi Ren, Runmin Cong, Junhui Hou, Sam Kwong, and Dacheng Tao. An underwater image enhancement benchmark dataset and beyond. IEEE TIP, 29:4376-4389, 2020.'에서, 최신 UIE 기법은 데이터 세트를 구축하기 위해 수집된 수중 이미지에 적용될 수 있다. 방법의 향상된 출력들 중에서 인간 연구를 기반으로 시각적으로 즐거운 것은 선택될 수 있다. 그러나 슈도 클린 이미지에 관하여, UIEBD 데이터 세트는 더 나은 지도 및 모델 용량 부족으로 인해 품질 저하의 문제가 여전히 가진다는 점에서 부족한 성능을 가질 수 있다. 예를 들어, 그림 3(d)에 나타난 바와 같이, UIEBD 데이터 세트에서, 원거리 영역은 여전히 푸르스름(bluish)하고 제한된 가시성을 가질 수 있다.

단일 이미지 디헤이징(Single image dehazing; SID)에 관하여, SID의 목표는 에어 헤이즈 이미지에서 클린 이미지를 복구하는 것을 포함할 수 있다. 에어 헤이즈 이미지는 수중 이미지와 유사한 탁한 특성을 공유할 수 있다. 그러나, 수중 환경보다 에어 헤이즈 환경을 시뮬레이션하는 것이 상대적으로 더 쉽기 때문에, 많은 데이터 수집 연구를 통해 SID는 빠르게 발전되었을 수 있다. 논문 'Boyi Li, Wenqi Ren, Dengpan Fu, Dacheng Tao, Dan Feng, Wenjun Zeng, and Zhangyang Wang. Benchmarking single image dehazing and beyond. IEEE TIP, 28(1):492-505, 2019.'에서, RESIDE 데이터 세트는 제안되었고, 슈도 에어 헤이즈 이미지 및 클린 이미지의 쌍을 포함할 수 있다. 최근, 다양한 실제 조건(예: 균질한 실내(homogeneous indoor), 실외(outdoor), 밀집(dense), 및 비균질 속성(non-homogeneous properties) 등)에서 안개(fog) 환경 및 에어 헤이즈 환경을 실험하는 NTIRE 챌린지를 통해 보다 현실적인 데이터 세트는 제공될 수 있다. 또한 논문 'Xinyi Zhang, Hang Dong, Jinshan Pan, Chao Zhu, Ying Tai, Chengjie Wang, Jilin Li, Feiyue Huang, and Fei Wang. Learning to restore hazy video: A new real-world dataset and a new method. In CVPR, pages 9239-9248, 2021.'에서, 자동 로봇 팔을 이용함으로써 에어 헤이즈 이미지 및 클린 이미지의 쌍은 제안될 수 있다. 여기서, 다른 스타일들을 가지는 실내 에어 헤이즈 환경들은 시뮬레이션될 수 있다.

이미지 대 이미지(Image-to-image; I2I) 변환에 관하여, 이미지 대 이미지 변환(I2I)의 목표는 서로 다른 시각적 도메인들 간의 매핑을 학습하는 것을 포함할 수 있다. Pix2Pix의 중대한(seminal) 작업 이후로, 이미지 변환 모델들은 인상적인 결과를 가졌을 수 있다. 초기 방법들은 두 도메인들 간의 변환을 학습하는 것으로 제한될 수 있고, 여러 도메인들로 확장되는 것은 어려울 수 있었다. StarGAN은 이 문제를 해결하기 위한 초기 시도 중 하나였으며, 최근 StarGANv2는 다중 태스크 판별기 및 스타일 인코더를 사용하여 이미지 변환 품질과 다양성 모두에서 추가적인 개선을 가질 수 있다.

일 실시예에 따른 방법은, 제1 기계 학습 모델에 기초하여 수중에서 촬영된 수중 이미지(underwater image) 및 공기 중 헤이즈(haze)에서 촬영된 에어 헤이즈 이미지(air haze image)로부터 슈도 에어 헤이즈 이미지(pseudo air haze image) 및 슈도 수중 이미지(pseudo underwater image)를 생성하는 단계, 상기 슈도 에어 헤이즈 이미지를 디헤이징(dehaze)함으로써 슈도 클린 이미지(pseudo clean image)를 생성하는 단계, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 상기 슈도 수중 이미지, 상기 슈도 에어 헤이즈 이미지, 및 상기 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써, 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출하는 단계, 및 상기 산출된 가능성 점수에 기초한 적대적 손실(adversarial loss)을 포함하는 목적 함수에 기초하여, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행하는 단계를 포함할 수 있다.

상기 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지를 생성하는 단계는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처 및 에어 헤이즈 피처를 추출하는 단계, 상기 수중 이미지 및 상기 에어 헤이즈 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 에어 헤이즈 이미지를 생성하는 단계, 및 상기 에어 헤이즈 이미지 및 상기 수중 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 수중 이미지를 생성하는 단계를 포함할 수 있다.

상기 수중 피처 및 에어 헤이즈 피처를 추출하는 단계는, 상기 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 수중 피처를 추출하는 단계 및 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 에어 헤이즈 피처를 추출하는 단계를 포함할 수 있다.

상기 가능성 점수를 산출하는 단계는, 상기 적어도 하나의 이미지 각각이 수중에서 실제로 촬영된 이미지일 제1 가능성 점수, 공기 중 헤이즈에서 실제로 촬영된 이미지일 제2 가능성 점수, 및 대기에서 실제로 촬영된 이미지일 제3 가능성 점수 중 적어도 하나를 산출하는 단계를 포함할 수 있다.

상기 가능성 점수를 산출하는 단계는, 대기에서 촬영된 클린 이미지(clean image)에 상기 제2 기계 학습 모델을 추가로 적용함으로써 상기 가능성 점수를 산출하는 단계를 포함할 수 있다.

상기 슈도 클린 이미지를 생성하는 단계는, 상기 슈도 에어 헤이즈 이미지에 사전 학습된(pre-trained) 디헤이징 모델(dehazing model)을 적용함으로써 상기 슈도 클린 이미지(pseudo clean image)를 생성하는 단계를 포함할 수 있다.

상기 트레이닝을 수행하는 단계는, 상기 에어 헤이즈 이미지에 상기 사전 학습된 디헤이징 모델에 적용함으로써 생성된 슈도 클린 이미지, 및 상기 에어 헤이즈 이미지에 대응하는 클린 이미지 간의 차이에 기초하여 디헤이징 손실(dehazing loss)을 계산하는 단계 및 상기 계산된 디헤이징 손실을 더 포함하는 상기 목적 함수에 기초하여, 상기 사전 학습된 디헤이징 모델의 파라미터를 업데이트함으로써 상기 사전 학습된 디헤이징 모델을 파인 튜닝하는 단계를 포함할 수 있다.

상기 트레이닝을 수행하는 단계는, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 및 클린 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하는 단계, 상기 추출된 피처 및 상기 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 복원 손실(reconstruction loss)을 계산하는 단계, 및 상기 계산된 복원 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함할 수 있다.

상기 트레이닝을 수행하는 단계는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하는 단계, 상기 하나의 트레이닝 입력 이미지가 상기 수중 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성하는 단계, 상기 하나의 트레이닝 입력 이미지가 상기 에어 헤이즈 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 수중 이미지에 상기 제1 기계 학습 모델을 적용함으로써 상기 트레이닝 출력 이미지를 생성하는 단계, 상기 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 사이클 일관성 손실(cycle consistency loss)을 계산하는 단계, 및 상기 계산된 사이클 일관성 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함할 수 있다.

상기 트레이닝을 수행하는 단계는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 컨텐츠(content) 차이에 기초하여 컨텐츠 보존 손실(content preservation loss)을 계산하는 단계 및 상기 계산된 컨텐츠 보존 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함할 수 있다.

일 실시예에 따른 방법은 사이클 일관성 손실 및 컨텐츠 보존 손실 중 적어도 하나의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제하는 단계를 더 포함할 수 있다.

일 실시예에 따른 방법은, 에어 헤이즈 이미지 및 클린 이미지를 가지는 제1 이미지 쌍을 획득하는 단계, 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처를 추출하는 단계, 상기 추출된 수중 피처 및 입력 이미지로서 상기 제1 이미지 쌍의 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 슈도 수중 이미지를 생성하는 단계, 및 상기 생성된 슈도 수중 이미지를 상기 제1 이미지 쌍의 상기 클린 이미지에 매핑(map)함으로써, 상기 클린 이미지 및 상기 슈도 수중 이미지를 가지는 제2 이미지 쌍을 획득하는 단계를 더 포함할 수 있다.

일 실시예에 따른 방법은, 상기 획득된 제2 이미지 쌍에 기초하여, 수중 이미지에 적용됨으로써 슈도 클린 이미지를 생성하는 제3 기계 학습 모델을 지도 학습(supervised learning)을 통해 트레이닝시키는 단계를 더 포함할 수 있다.

상기 제3 기계 학습 모델을 지도 학습을 통해 트레이닝시키는 단계는, 상기 제2 이미지 쌍의 상기 슈도 수중 이미지에 상기 제3 기계 학습 모델을 적용함으로써 트레이닝 출력을 생성하는 단계, 및 상기 제2 이미지 쌍의 상기 클린 이미지를 참값(ground truth)으로 이용하여, 상기 트레이닝 출력 및 상기 제2 이미지 쌍의 상기 클린 이미지 간의 차이에 기초하여 계산된 목적 함수에 기초하여 상기 제3 기계 학습 모델의 파라미터를 업데이트하는 단계를 포함할 수 있다.

일 실시예에 따른 장치는, 제1 기계 학습 모델에 기초하여 수중에서 촬영된 수중 이미지(underwater image) 및 공기 중 헤이즈(haze)에서 촬영된 에어 헤이즈 이미지(air haze image)로부터 슈도 에어 헤이즈 이미지(pseudo air haze image) 및 슈도 수중 이미지(pseudo underwater image)를 생성하고, 상기 슈도 에어 헤이즈 이미지를 디헤이징(dehaze)함으로써 슈도 클린 이미지(pseudo clean image)를 생성하며, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 상기 슈도 수중 이미지, 상기 슈도 에어 헤이즈 이미지, 및 상기 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써, 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출하고, 상기 산출된 가능성 점수에 기초한 적대적 손실(adversarial loss)을 포함하는 목적 함수에 기초하여, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행하는 프로세서를 포함할 수 있다.

상기 프로세서는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처 및 에어 헤이즈 피처를 추출하고, 상기 수중 이미지 및 상기 에어 헤이즈 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 에어 헤이즈 이미지를 생성하며, 상기 에어 헤이즈 이미지 및 상기 수중 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 수중 이미지를 생성할 수 있다.

상기 프로세서는, 상기 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 수중 피처를 추출하고, 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 에어 헤이즈 피처를 추출할 수 있다.

상기 프로세서는, 상기 적어도 하나의 이미지 각각이 수중에서 실제로 촬영된 이미지일 제1 가능성 점수, 공기 중 헤이즈에서 실제로 촬영된 이미지일 제2 가능성 점수, 및 대기에서 실제로 촬영된 이미지일 제3 가능성 점수 중 적어도 하나를 산출할 수 있다.

상기 프로세서는, 대기에서 촬영된 클린 이미지(clean image)에 상기 제2 기계 학습 모델을 추가로 적용함으로써 상기 가능성 점수를 산출할 수 있다.

상기 프로세서는, 상기 슈도 에어 헤이즈 이미지에 사전 학습된(pre-trained) 디헤이징 모델(dehazing model)을 적용함으로써 상기 슈도 클린 이미지(pseudo clean image)를 생성할 수 있다.

상기 프로세서는, 상기 에어 헤이즈 이미지에 상기 사전 학습된 디헤이징 모델에 적용함으로써 생성된 슈도 클린 이미지, 및 상기 에어 헤이즈 이미지에 대응하는 클린 이미지 간의 차이에 기초하여 디헤이징 손실(dehazing loss)을 계산하고, 상기 계산된 디헤이징 손실을 더 포함하는 상기 목적 함수에 기초하여, 상기 사전 학습된 디헤이징 모델의 파라미터를 업데이트함으로써 상기 사전 학습된 디헤이징 모델을 파인 튜닝할 수 있다.

상기 프로세서는, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 및 클린 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하고, 상기 추출된 피처 및 상기 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 복원 손실(reconstruction loss)을 계산하며, 상기 계산된 복원 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행할 수 있다.

상기 프로세서는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하고, 상기 하나의 트레이닝 입력 이미지가 상기 수중 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성하며, 상기 하나의 트레이닝 입력 이미지가 상기 에어 헤이즈 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 수중 이미지에 상기 제1 기계 학습 모델을 적용함으로써 상기 트레이닝 출력 이미지를 생성하고, 상기 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 사이클 일관성 손실(cycle consistency loss)을 계산하며, 상기 계산된 사이클 일관성 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행할 수 있다.

상기 프로세서는, 상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 컨텐츠(content) 차이에 기초하여 컨텐츠 보존 손실(content preservation loss)을 계산하고, 상기 계산된 컨텐츠 보존 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행할 수 있다.

상기 프로세서는, 사이클 일관성 손실 및 컨텐츠 보존 손실 중 적어도 하나의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제할 수 있다.

상기 프로세서는, 에어 헤이즈 이미지 및 클린 이미지를 가지는 제1 이미지 쌍을 획득하고, 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처를 추출하며, 상기 추출된 수중 피처 및 입력 이미지로서 상기 제1 이미지 쌍의 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 슈도 수중 이미지를 생성하고, 상기 생성된 슈도 수중 이미지를 상기 제1 이미지 쌍의 상기 클린 이미지에 매핑(map)함으로써, 상기 클린 이미지 및 상기 슈도 수중 이미지를 가지는 제2 이미지 쌍을 획득할 수 있다.

상기 프로세서는, 상기 획득된 제2 이미지 쌍에 기초하여, 수중 이미지에 적용됨으로써 슈도 클린 이미지를 생성하는 제3 기계 학습 모델을 지도 학습(supervised learning)을 통해 트레이닝시킬 수 있다.

상기 프로세서는, 상기 제2 이미지 쌍의 상기 슈도 수중 이미지에 상기 제3 기계 학습 모델을 적용함으로써 트레이닝 출력을 생성하고, 상기 제2 이미지 쌍의 상기 클린 이미지를 참값(ground truth)으로 이용하여, 상기 트레이닝 출력 및 상기 제2 이미지 쌍의 상기 클린 이미지 간의 차이에 기초하여 계산된 목적 함수에 기초하여 상기 제3 기계 학습 모델의 파라미터를 업데이트할 수 있다.

UIE 태스크는 양식화된 SID 문제로서 처리될 수 있다.

일 실시예에 따른 모델은, SID의 풍부한 지도 학습(supervised learning)을 위한 데이터 세트를 활용하여 우수한 성능을 가질 수 있다.

일 실시예에 따른 모델은, 수중 이미지 향상을 위한 고품질의 쌍을 이루는 UIE 데이터 세트를 생성하는 데이터 생성 알고리즘으로서 이용될 수 있다.

일 실시예에 따른 모델을 통해, 수중 이미지들의 세트는, 슈도 이미지 쌍들으로 이용될 수 있는 클린 도메인으로 변환될 수 있다.

일 실시예에 따른 모델을 통해, 클린 이미지들의 세트는, 슈도 이미지 쌍들으로 이용될 수 있는 수중 도메인으로 변환될 수 있다.

도 1은 4개의 기존 UIE 데이터 세트들을 도시한다.
도 2는 클린 도메인, 에어 헤이즈 도메인, 및 수중 도메인 간의 변환을 나타낸다.
도 3은 일 실시예에 따른 기계 학습 모델의 프레임워크를 나타낸다.
도 4는 일 실시예에 따른 영상 처리 장치의 기계 학습 모델에 기초한 이미지 변환을 나타낸다.
도 5는 일 실시예에 따른 프로세서의 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하는 스타일 변환 동작을 설명한다.
도 6은 일 실시예에 따른 프로세서의 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝을 위한 슈도 이미지 생성 동작을 나타낸다.
도 7은 일 실시예에 따른 프로세서가 트레이닝 데이터 세트의 이미지로부터 가능성 점수를 산출하는 동작을 나타낸다.
도 8은 일 실시예에 따른 프로세서가 생성된 슈도 이미지로부터 가능성 점수를 산출하는 동작을 나타낸다.
도 9는 일 실시예에 따른 적대적 손실(adversarial loss)의 계산을 나타낸다.
도 10은 일 실시예에 따른 복원 손실(reconstruction loss)의 계산을 나타낸다.
도 11은 일 실시예에 따른 사이클 일관성 손실(cycle consistency loss)의 계산을 나타낸다.
도 12는 일 실시예에 따른 디헤이징 손실(dehazing loss)의 계산을 나타낸다.
도 13는 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초한 수중 이미지, 슈도 에어 헤이즈 이미지, 및 슈도 클린 이미지를 나타낸다.
도 14는 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 수중 이미지 및 에어 헤이즈 이미지를 각각 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지로 변환하는 것을 나타낸다.
도 15는 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지들을 나타낸다.
도 16 및 도 17는 일 실시예 및 비교 실시예들에 따른 UIE 모델의 정성적인 분석으로서, 비교 실시예들 및 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지를 나타낸다.

실시예들에 대한 특정한 구조적 또는 기능적 설명들은 단지 예시를 위한 목적으로 개시된 것으로서, 다양한 형태로 변경되어 구현될 수 있다. 따라서, 실제 구현되는 형태는 개시된 특정 실시예로만 한정되는 것이 아니며, 본 명세서의 범위는 실시예들로 설명한 기술적 사상에 포함되는 변경, 균등물, 또는 대체물을 포함한다.

제1 또는 제2 등의 용어를 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 해석되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.

어떤 구성요소가 다른 구성요소에 "연결되어" 있다고 언급된 때에는, 그 다른 구성요소에 직접적으로 연결되어 있거나 또는 접속되어 있을 수도 있지만, 중간에 다른 구성요소가 존재할 수도 있다고 이해되어야 할 것이다.

단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 설명된 특징, 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것이 존재함으로 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부분품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 해당 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가진다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥상 가지는 의미와 일치하는 의미를 갖는 것으로 해석되어야 하며, 본 명세서에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

이하, 실시예들을 첨부된 도면들을 참조하여 상세하게 설명한다. 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고, 이에 대한 중복되는 설명은 생략하기로 한다.

도 2는 클린 도메인, 에어 헤이즈 도메인, 및 수중 도메인 간의 변환을 나타낸다.

도 2에서 나타난 바와 같이, 클린 도메인(clean domain) 및 수중 도메인(underwater domain)은 에어 헤이즈 도메인(air haze domain)을 통해 연결될 수 있다.

클린 도메인은, 대기에서 촬영된 이미지가 가지는 클린 스타일에 대응하는 도메인으로서, 대기에서 촬영된 클린 이미지 및 슈도 클린 이미지가 속할 수 있다. 슈도 클린 이미지는 다른 도메인의 이미지를 클린 스타일로 스타일 변환(style transfer)함으로써 획득될 수 있다. 슈도 클린 이미지는 에어 헤이즈 스타일 및/또는 수중 이미지의 디헤이징(dehazing)함으로써 획득될 수도 있다. 스타일 변환은, 이미지의 컨텐츠(content)(예: 오브젝트(object)에 대응하는 영역)를 보존하면서 이미지의 스타일을 변환하는 것을 나타낼 수 있다.

에어 헤이즈 도메인은, 공기 중 헤이즈에서 촬영된 이미지가 가지는 에어 헤이즈 스타일에 대응하는 도메인으로서, 공기 중 헤이즈에서 촬영된 에어 헤이즈 이미지 및 슈도 에어 헤이즈 이미지가 속할 수 있다. 슈도 에어 헤이즈 이미지는 다른 도메인의 이미지를 에어 헤이즈 스타일로 스타일 변환함으로써 획득될 수 있다.

수중 도메인은, 수중에서 촬영된 이미지가 가지는 수중 스타일에 대응하는 도메인으로서, 수중에서 촬영된 수중 이미지 및 슈도 수중 이미지가 속할 수 있다. 슈도 수중 이미지는 다른 도메인의 이미지를 에어 헤이즈 스타일로 스타일 변환함으로써 획득될 수 있다.

수중 도메인에 속하는 수중 이미지는 수중에서 촬영됨으로써 획득될 수 있다. 에어 헤이즈 도메인에 속하는 슈도 에어 헤이즈 이미지는 기계 학습 모델에 기초하여 수중 이미지를 수중 스타일로부터 에어 헤이즈 스타일로의 스타일 변환함으로써 획득될 수 있다. 클린 도메인에 속하는 슈도 클린 이미지는 슈도 에어 헤이즈 이미지에 디헤이징(예: 단일 이미지 디헤이징(SID))을 수행함으로써 획득될 수 있다.

클린 이미지 및 에어 헤이즈 이미지는 하나의 장면(scene)에 관하여 촬영된 이미지들을 나타낼 수 있다. 클린 도메인에 속하는 클린 이미지는 대상 장면에 관하여 대기 중에서 촬영됨으로써 획득될 수 있다. 에어 헤이즈 도메인에 속하는 에어 헤이즈 이미지는 공기 중 헤이즈 생성(haze generation)을 통해, 대상 장면에 관하여 공기 중 헤이즈에서 촬영함으로써 획득될 수 있다. 수중 도메인에 속하는 슈도 수중 이미지는 기계 학습 모델에 기초하여 에어 헤이즈 이미지를 에어 헤이즈 스타일로부터 수중 스타일로의 스타일 변환함으로써 획득될 수 있다. 기계 학습 모델에 기초한 스타일 변환은 도 4 내지 도 12에서 후술한다.

탁한 환경(예: 공기 중 헤이즈, 및 수중 등)에서 촬영된 이미지는 빛의 산란 및 흡수로 인해 대기에서 촬영된 이미지보다 저하된 품질을 가질 수 있다. 장면(scene)의 광도(radiance)는 탁한 매질(medium)에 의해 감쇠(attenuate)되는 반면, 산란된(scattered) 주변광(ambient light)은 카메라에 의해 추가로 관찰될 수 있다. 따라서, 이미지의 왜곡(예: 헤이즈(haze), 블러(blur) 및 색상 왜곡)이 발생할 수 있고, 컴퓨터 비전 알고리즘은 일반적으로 왜곡된 이미지에 적용되는 경우, 저하된 성능을 가질 수 있다. 탁한 환경에서의 이미징 모델은 다음과 같이 주어질 수 있다:

[수학식 1]

여기서, 및 는 각각 저하된 이미지(degraded image)(예: 수중에서 촬영된 수중 이미지, 및 공기 중 헤이즈에서 촬영된 에어 헤이즈 이미지 등)와 대기에서 촬영된 클린 이미지(clean image)의 색상 채널 에서의 픽셀 의 강도를 나타낼 수 있다. 는 색상 채널 에서의 픽셀 에서의 투과율을 나타낼 수 있고, 는 색상 채널 의 대기광(atmospheric light)을 나타내고, 는 모델과 실제 환경 간의 도메인 갭(domain gap)을 나타낼 수 있다. 는 다음과 같이 주어질 수 있다:

[수학식 2]

여기서, 는 장면과 카메라 간의 픽셀 에서의 장면 거리를 나타낼 수 있다. 는 색상 채널 의 감쇠 계수를 나타낼 수 있고, 탁한 환경과 관련될 수 있다.

수중 이미지 향상(UIE) 및 단일 이미지 디헤이징(SID)은 탁한 환경을 극복하기 위한 이미지 향상 문제들의 2개의 주요 예시일 수 있다. 수중 이미지 향상(UIE) 및 단일 이미지 디헤이징(SID)의 목표는 저하된 이미지 로부터 클린 이미지 를 추정하는 것을 포함할 수 있다. 여기서, 이미지는 다른 레벨들에서 유사한 품질 저하 문제를 가질 수 있다. 복잡성으로 인해, 초기 UIE 및 SID 태스크들은 수학식 1의 를 무시하여 실제 실행(real practice)에서 제한적인 성능을 가질 수 있다. 최근, SID 분야의 도메인 갭을 극복하기 위해, 많은 연구 노력들은 실제 환경에서 헤이즈(예: 안개(fog))를 생성함으로써 에어 헤이즈(air haze) 이미지 및 클린(clean) 이미지의 쌍들을 수집하는 데 기여되고 있다. 대량의 실제 데이터는 SID 성능을 크게 향상시킬 수 있다. 그러나, SID 문제는 UIE 문제와 유사한 특성을 공유하지만, UIE 분야의 발전은 데이터 획득 과정의 어려움으로 인해 SID에 비해 크게 뒤쳐져 있을 수 있다. 탁한 수중 이미지 및 깨끗한 이미지의 쌍들은 실제 및 다양한 수중 환경의 시뮬레이션을 통해 수집되기 어려울 수 있다.

SID 방법의 발전에 의하여 동기부여되고 UIE 문제와 유사한 특성을 활용하여 SID 필드의 성공을 UIE 필드로 변환하는 통합 프레임워크는 제안될 수 있다. UIE 문제는 양식화된 SID 문제로 간주될 수 있다. 이미지의 복잡한 환경 피처는 피처 추출 모델을 이용하여 추출될 수 있고, 수중 이미지는 수중 도메인으로부터 에어 헤이즈 도메인으로 또는 에어 헤이즈 이미지가 에어 헤이즈 도메인으로부터 수중 도메인으로 변환될 수 있다. 그 이후에, 사전 학습된 SID 모델은 슈도(pseudo) 에어 헤이즈 이미지를 클린 도메인으로 변환하도록 파인 튜닝될 수 있다. 따라서, 피처 추출 모델은 판별기 역할도 함께 수행하도록 설계될 수 있다.

고품질 데이터의 부족은 트레이닝뿐만 아니라 평가에도 문제를 야기할 수 있다. 라벨 품질이 좋지 않으면 성능 평가가 모호해질 수 있다. 이러한 문제는, 통제된 조건에서 실제 탁하고 깨끗한 수중 환경을 시뮬레이션하는 새로운 데이터 세트를 통해 해결될 수 있다. 산란, 흡수, 및 색상 왜곡에 따른 다양한 왜곡은 각각 우유, 커피, 및 컬러 잉크를 이용하여 실험될 수 있다. 획득된 이미지들의 개수는 다양한 UIE 방법들의 성능을 공정하게 평가하기에 충분할 수 있다.

도 3은 일 실시예에 따른 기계 학습 모델의 프레임워크를 나타낸다.

품질 저하 문제는 이미지의 스타일 변환으로 해석됨으로써 I2I 변환 방법론을 통해 해결될 수 있다. 예를 들어, 일 실시예에 따른 기계 학습 모델은 서로 다른 도메인들(예: 클린 도메인, 에어 헤이즈 도메인, 및 수중 도메인)을 매핑하는 방법을 학습하는 이미지 변환 모델(예: 도 4의 제1 기계 학습 모델)과 각 도메인의 피처(예: 환경 이미지 스타일)를 추출하는 피처 추출 모델(예: 도 4의 제2 기계 학습 모델)를 포함할 수 있다. 사전 학습된 디헤이징 모델(dehazing model)(예: 도 6의 디헤이징 모델(632))은 수중 도메인과 클린 도메인 간의 경로를 연결하는 중간 모듈로서 기능을 수행할 수 있다. 슈도 이미지는 비지도 학습을 통해 트레이닝된 판별기(예: 가능성 점수)를 통해 실제 이미지와 구별될 수 있다.

일 실시예에 따른 이미지 변환 모델(도 3에서 로 표시됨)은 에어 헤이즈 이미지로부터 추출된 스타일 피처(예: 에어 헤이즈 피처)에 기초하여 수중 이미지로부터 에어 헤이즈 이미지로 변환하도록 설계될 수 있다. 일 실시예에 따른 이미지 변환 모델은 또한, 수중 이미지로부터 추출된 스타일 피처(예: 수중 피처)를 이용하여 에어 헤이즈 이미지로부터 수중 이미지로 변환할 수 있다. I2I 변환의 성능은 도메인 갭에 따라 달라질 수 있고, 수중 이미지와 에어 헤이즈 이미지 간의 도메인 갭은 이미지 변환 모델에게 충분히 작을 수 있다.

I2I 변환 동안, 장면 광도와 연관된 컨텐츠(content)는 보존되어야 할 수 있고, 주입된 스타일 피처에 따라 환경 특성들은 변경될 수 있다. 예시적으로, 스타일 변환은 풀링 모듈(pooling module) 및 언-풀링 모듈(un-pooling module)에 웨이블릿 트랜스폼(wavelet transform)을 적용하는 것을 포함할 수 있다. 업 샘플링(up sampling) 및/또는 다운 샘플링(down sampling) 동안, 부드러운(smooth) 표면(surface) 및 질감(texture)은 양식화되고 엣지 스트럭처들(edge structures)은 보존될 수 있다. 또한, 사전 학습된 디헤이징 모델()은 에어 헤이즈 이미지 도메인 및 클린 이미지 도메인 간의 도메인 변환에 대한 유용한 지식을 가지고 있고, 사전 학습된 디헤이징 모델()을 이용하여 I2I 변환을 수행할 수 있다.

일 실시예에 따른 피처 추출 모델(도 3에서, 로 표시됨)은 에어 헤이즈 이미지 및 수중 이미지의 환경적 특성을 포착하고, 포착된 환경적 특성(예: 피처)은 다른 이미지 도메인으로 변환하는 데 사용될 수 있다. 수중 도메인, 에어 헤이즈 도메인 및 클린 도메인의 이미지들은 다양한 환경 스타일들을 가질 수 있다. 예를 들어, 에어 헤이즈 도메인의 이미지는 클린 도메인의 이미지에 비해 저하된 콘트라스트와 함께 흐릿한 아티팩트를 가질 수 있다. 수중 도메인의 이미지는 흐릿한 아티팩트와 함께 심각한 색상 왜곡 및 흐림을 가질 수 있다. 획득된 슈도 이미지(예: 슈도 수중 이미지, 슈도 에어 헤이즈 이미지, 및 슈도 클린 이미지)는, 스타일에 따른 판별기를 통해 실제로 촬영된 이미지와 비교될 수 있다. 피처 추출 모델로부터 획득된 피처는 판별기에게 유용한 정보로서 이용될 수 있고, 따라서 피처 추출 모델은 피처의 추출과 함께 판별기에 관한 가능성 점수의 산출을 수행할 수 있다. 예시적으로, 피처 추출 모델은 마지막 레이어에 피처의 추출을 위한 1개의 완전 연결 레이어와 함께 3개의 판별기들에 관한 가능성 점수들을 위한 3개의 완전 연결 레이어들(fully connected layers)을 포함할 수 있다. 피처 추출 모델은, 멀티 태스크 학습 방식으로 트레이닝될 수 있다. 피처 추출 모델 및 이미지 변환 모델의 트레이닝은 도 5 내지 도 12에서 후술한다.

도 4는 일 실시예에 따른 영상 처리 장치의 기계 학습 모델에 기초한 이미지 변환을 나타낸다. 도 5는 일 실시예에 따른 프로세서의 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하는 스타일 변환 동작을 설명한다.

영상 처리 장치(400)는 기계 학습 모델에 기초하여 이미지의 스타일 변환을 수행하는 장치를 포함할 수 있다.

영상 획득부(410)는 제1 기계 학습 모델의 입력 이미지(예: 에어 헹즈 이미지(405)) 및/또는 제2 기계 학습 모델의 입력 이미지(예: 수중 이미지(401))를 획득하여 프로세서(420)에 전달할 수 있다. 예를 들어, 영상 획득부(410)는 제1 기계 학습 모델의 입력 이미지 및/또는 제2 기계 학습 모델의 입력 이미지를 직접 촬영하여 획득할 수도 있고, 입력 인터페이스를 통하여 외부로부터 제1 기계 학습 모델의 입력 이미지 및/또는 제2 기계 학습 모델의 입력 이미지를 입력 받을 수도 있다.

프로세서(420)는 영상 획득부(410)로부터 제1 기계 학습 모델의 입력 이미지(이하, 제1 입력 이미지) 및/또는 제2 기계 학습 모델의 입력 이미지(이하, 제2 입력 이미지)를 획득할 수 있다.

프로세서(420)는, 제1 입력 이미지 및 피처에 제1 기계 학습 모델을 적용함으로써 출력 이미지를 생성할 수 있다. 제1 기계 학습 모델은, 이미지 변환 모델로서, 피처에 기초하여 제1 입력 이미지의 스타일 변환을 수행하는 모델을 나타낼 수 있다. 제1 기계 학습 모델은 제1 입력 이미지의 컨텐츠는 보존하면서 스타일을 피처에 연관된 스타일로 변환하는 모델을 나타낼 수 있다. 출력 이미지의 스타일은 제1 기계 학습 모델에 제1 입력 이미지와 함께 입력된 피처에 따라 결정될 수 있다. 다시 말해, 제1 기계 학습 모델에 기초하여 수행되는 스타일 변환은, 제1 입력 이미지의 스타일을 제1 기계 학습 모델에 입력된 피처에 따라 결정된 스타일로의 스타일 변환을 포함할 수 있다.

이미지의 스타일은 이미지에서 나타나는 시각적 스타일(visual style)을 나타낼 수 있다. 시각적 스타일은 이미지의 질감, 픽셀 값, 색상, 및 다양한 시각적 요소(visual element)로 표현될 수 있다. 예를 들어, 수중 피처는 수중에서 촬영된 이미지에서 나타나는 시각적 스타일을 포함할 수 있다. 에어 헤이즈 피처는 공기 중 헤이즈에서 촬영된 이미지에서 나타나는 시각적 스타일을 포함할 수 있다. 클린 피처는 대기에서 촬영된 이미지에서 나타나는 시각적 스타일을 포함할 수 있다.

다만, 수중 이미지로부터 추출된 수중 피처는 물의 성질에 따라 피처들 간의 차이가 존재할 수 있다. 예를 들어, 제1 수중 이미지는 흙탕물에서 촬영된 이미지이고 제2 수중 이미지는 바닷물에서 촬영된 이미지인 경우, 제1 수중 이미지에 관한 제1 수중 피처는 제2 수중 이미지에 관한 제2 수중 피처와 다른 시각적 스타일을 나타낼 수 있다. 주로 수중 피처에 대하여 설명하였으나, 에어 헤이즈 피처 및 클린 피처 각각의 경우에도 이미지가 촬영된 환경에 따라 서로 다른 시각적 스타일을 나타내는 복수의 피처들을 포함할 수 있다.

프로세서(420)는 제2 입력 이미지에 제2 기계 학습 모델을 적용함으로써 제2 입력 이미지의 시각적 스타일을 나타내는 피처를 획득할 수 있다. 제2 기계 학습 모델은, 피처 추출 모델로서, 이미지로부터 시각적 스타일을 나타내는 피처를 추출하는 모델을 나타낼 수 있다. 다만, 이에 한정하는 것은 아니고 피처는 제2 기계 학습 모델과 독립적으로(예: 무관하게) 획득될 수 있다. 예를 들어, 프로세서(420)는 설계자의 의도에 따라 생성된 피처를 획득할 수도 있다.

메모리(430)는 제1 입력 이미지 및/또는 제2 입력 이미지를 저장할 수 있다. 메모리(430)는 제1 기계 학습 모델 및/또는 제2 기계 학습 모델에 관한 정보를 저장할 수 있다. 메모리(430)는 제1 기계 학습 모델에 기초하여 획득된 출력 이미지 및/또는 제2 기계 학습 모델에 기초하여 획득된 피처를 저장할 수 있다. 또한, 메모리(430)는 제1 입력 이미지 및/또는 제2 입력 이미지의 처리를 위한 방법을 수행하기 위해 요구되는 데이터 및/또는 정보를 임시적으로 및/또는 영구적으로 저장할 수 있다.

출력부(440)는 제1 기계 학습 모델의 입력 이미지 및/또는 출력 이미지를 시각화할 수 있다. 출력부(440)는 제2 기계 학습 모델의 입력 이미지를 시각화할 수 있다. 예를 들어 출력부(440)는 디스플레이를 포함할 수 있다.

이하, 도 4와 도5를 함께 참조하여 일 실시예에 따른 프로세서의 동작을 설명한다.

단계(510)에서, 프로세서(420)는 에어 헤이즈 이미지(405) 및 클린 이미지(406)를 가지는 제1 이미지 쌍(404)을 획득할 수 있다. 제1 이미지 쌍(404)의 에어 헤이즈 이미지(405)는 제1 이미지 쌍(404)의 클린 이미지(406)에 대응하는 에어 헤이즈 도메인의 이미지를 포함할 수 있다. 예를 들어, 클린 이미지(406)는 에어 헤이즈 이미지(405)와 동일한 장면에 대하여 촬영된 이미지를 나타낼 수 있다. 다시 말해, 제1 이미지 쌍(404)은 하나의 장면에 대하여, 대기중에서 촬영됨으로써 획득된 클린 이미지(406) 및 공기 중 헤이즈에서 촬영됨으로써 획득된 에어 헤이즈 이미지(405)를 가질 수 있다.

단계(520)에서, 프로세서(420)는 수중 이미지(401)에 제2 기계 학습 모델(402)을 적용함으로써 수중 피처(403)를 추출할 수 있다. 수중 피처(403)는 수중 이미지(401)의 시각적 스타일을 나타낼 수 있다.

단계(530)에서, 프로세서(420)는 수중 피처(403) 및 에어 헤이즈 이미지(405)에 제1 기계 학습 모델(407)을 적용함으로써 슈도 수중 이미지(408)를 생성할 수 있다. 프로세서(420)는 수중 피처(403) 및 제1 이미지 쌍(404)의 에어 헤이즈 이미지(405)에 제1 기계 학습 모델(407)을 적용할 수 있다. 프로세서(420)는 에어 헤이즈 이미지(405)를 수중 이미지(401)의 스타일로 변환함으로써 수중 도메인에 속하는 슈도 수중 이미지(408)를 생성할 수 있다.

단계(540)에서, 프로세서(420)는 슈도 수중 이미지(408)를 제1 이미지 쌍(404)의 클린 이미지(406)에 매핑(map)할 수 있다. 프로세서(420)는 클린 이미지(406) 및 슈도 수중 이미지(409)를 가지는 제2 이미지 쌍(408)을 획득할 수 있다.

프로세서(420)는 제1 이미지 쌍(408)에 기초하여 제3 기계 학습 모델을 지도 학습(supervised learning)을 통해 트레이닝시킬 수 있다. 제3 기계 학습 모델은 수중 도메인의 이미지(예: 수중 이미지)에 적용됨으로써 클린 도메인의 이미지(예: 슈도 클린 이미지)를 생성하는 모델을 나타낼 수 있다. 후술하겠으나, 제3 기계 학습 모델은 UIE 모델로서 표현될 수 있다.

예를 들어, 프로세서(420)는 슈도 수중 이미지(408)에 제3 기계 학습 모델을 적용함으로써 트레이닝 출력을 생성할 수 있다. 프로세서(420)는 클린 이미지(406)를 참값(ground truth)으로 이용하여, 트레이닝 출력 및 클린 이미지(406) 간의 차이에 기초하여 목적함수를 계산할 수 있다. 프로세서(420)는 계산된 목적 함수에 기초하여 제3 기계 학습 모델의 파라미터를 업데이트할 수 있다.

도 6은 일 실시예에 따른 프로세서의 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝을 위한 슈도 이미지 생성 동작을 나타낸다.

프로세서는 제1 기계 학습 모델에 기초하여 실제로 촬영된 이미지로부터 슈도 이미지를 생성할 수 있다. 트레이닝 데이터 세트는 실제로 촬영된 이미지(예: 수중 이미지(611)(라고도 표시됨), 에어 헤이즈 이미지(621)(라고도 표시됨), 및 클린 이미지(631)(라고도 표시됨))를 가질 수 있다.

프로세서는 제1 기계 학습 모델에 기초하여 수중 이미지(611) 및 에어 헤이즈 이미지(621)로부터 슈도 에어 헤이즈 이미지(613) 및 슈도 수중 이미지(623)를 생성할 수 있다.

동작(610)에서, 프로세서는 제1 기계 학습 모델(612)에 기초하여 트레이닝 데이터 세트의 수중 이미지(611)로부터 슈도 에어 헤이즈 이미지(613)를 생성할 수 있다. 동작(620)에서, 프로세서는 제1 기계 학습 모델(622)에 기초하여 트레이닝 데이터 세트의 에어 헤이즈 이미지(621)로부터 슈도 수중 이미지(623)를 생성할 수 있다. 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지의 생성은 도 8에서 후술한다.

일 실시예에 따르면, 프로세서는 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지를 생성함에 있어서 클린 이미지를 배제할 수 있다. 예를 들어, 프로세서는 슈도 에어 헤이즈 이미지를 생성하는 경우, 제1 기계 학습 모델의 입력 이미지로부터 클린 이미지를 배제시킬 수 있다. 프로세서는 슈도 에어 헤이즈 이미지를 생성하는 경우, 제1 기계 학습 모델의 입력 이미지로부터 에어 헤이즈 이미지도 함께 배제시킬 수 있다. 다른 예를 들어, 프로세서는 슈도 수중 이미지를 생성하는 경우, 제1 기계 학습 모델의 입력 이미지로부터 클린 이미지를 배제시킬 수 있다. 프로세서는 슈도 수중 이미지를 생성하는 경우, 제1 기계 학습 모델의 입력 이미지로부터 수중 이미지도 함께 배제시킬 수 있다.

도 4에서 전술한 바와 같이, 일 실시예에 따른 프로세서는 제1 기계 학습 모델을 통해 에어 헤이즈 도메인에 속하는 이미지(예: 에어 헤이즈 이미지)로부터 수중 도메인에 속하는 이미지(예: 슈도 수중 이미지)를 생성하는 동작을 수행할 수 있다. 이 경우, 프로세서가 클린 도메인에 속하는 이미지를 생성하는 동작을 수행하는 것은 필수적이지 않을 수 있다. 따라서 프로세서는 제1 기계 학습 모델의 에어 헤이즈 도메인에 속하는 이미지 및 수중 도메인에 속하는 이미지 간의 스타일 변환을 중점적으로 학습하기 위하여, 수중 이미지로부터 슈도 에어 헤이즈 이미지를 생성하고/하거나 에어 헤이즈 이미지로부터 슈도 수중 이미지를 생성할 수 있다.

동작(630)에서, 프로세서는 슈도 에어 헤이즈 이미지(613)를 디헤이징(dehaze)함으로써 슈도 클린 이미지(633)를 생성할 수 있다. 예를 들어, 프로세서는 슈도 에어 헤이즈 이미지(613)(라고도 표시됨)에 사전 학습된(pre-trained) 디헤이징 모델(dehazing model)(632)(라고도 표시됨)을 적용함으로써 슈도 클린 이미지(633)(라고도 표시됨)를 생성할 수 있다(예: ). 디헤이징 모델은, 제1 기계 학습 모델 및 제2 기계 학습 모델과 분리된 모델로서, 에어 헤이즈 도메인에 속하는 이미지(예: 에어 헤이즈 이미지, 및 슈도 에어 헤이즈 이미지(613) 등)에서 헤이즈 영역을 제거하고 제거된 영역을 복원하는 모델을 나타낼 수 있다. 디헤이징 모델은 하나의 장면에 대한 에어 헤이즈 도메인의 이미지 및 클린 도메인의 이미지의 이미지 쌍을 포함하는 트레이닝 데이터 세트에 기초하여 지도 학습을 통해 트레이닝된 모델을 포함할 수 있다.

프로세서는, 제1 기계 학습 모델, 제2 기계 학습 모델, 및 디헤이징 모델의 파라미터 업데이트를 통한 트레이닝 및/또는 파인 튜닝을 위하여, 목적 함수를 계산할 수 있다. 목적 함수는, 적대적 손실(adversarial loss), 복원 손실(reconstruction loss), 사이클 일관성 손실(cycle consistency loss), 컨텐츠 보존 손실(content preservation loss), 및 디헤이징 손실(dehazing loss) 중 적어도 하나를 포함할 수 있다.

일 실시예에 따르면, 목적 함수는 다음과 같은 식에 기초하여 계산될 수 있다:

[수학식 3]

여기서, 는 적대적 손실을 나타내고, 는 복원 손실을 나타내며, 는 사이클 일관성 손실을 나타내고, 는 컨텐츠 보존 손실을 나타내며, 는 디헤이징 손실을 나타낼 수 있다. 또한, ,,, 및 는 각각 복원 손실(), 사이클 일관성 손실(), 컨텐츠 보존 손실(), 디헤이징 손실()에 관한 하이퍼파라미터(hyperparameter)로서, 경험적으로 결정될 수 있다.

프로세서는 계산된 목적 함수에 기초하여 트레이닝을 수행할 수 있다. 프로세서는 목적 함수에 기초하여 제1 기계 학습 모델 및 제2 기계 학습 모델의 파라미터를 업데이트할 수 있다. 또한, 프로세서는 목적 함수에 기초하여 디헤이징 모델의 파라미터를 업데이트함으로써 사전 학습된 디헤이징 모델을 파인 튜닝할 수 있다. 적대적 손실은 도 7 내지 도 9에서, 복원 손실 및 사이클 일관성 손실은 도 10에서, 사이클 일관성 손실은 도 11에서, 디헤이징 손실은 도 12에서 후술한다.

도 7은 일 실시예에 따른 프로세서가 트레이닝 데이터 세트의 이미지로부터 가능성 점수를 산출하는 동작을 나타낸다.

트레이닝 데이터 세트는 실제로 촬영된 이미지를 포함할 수 있다. 예를 들어, 트레이닝 데이터 세트는 수중에서 촬영된 수중 이미지(711), 공기 중 헤이즈에서 촬영된 에어 헤이즈 이미지(721), 대기에서 촬영된 클린 이미지(731)를 포함할 수 있다.

프로세서는 트레이닝 데이터 세트의 이미지에 제2 기계 학습 모델을 적용함으로써 상기 이미지로부터 추출된 피처와 함께, 상기 이미지가 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출할 수 있다. 프로세서는, 수중 이미지, 에어 헤이즈 이미지, 및 클린 이미지 중 적어도 하나에 제2 기계 학습 모델을 적용함으로써 가능성 점수를 출력할 수 있다. 예를 들어, 가능성 점수는 제1 가능성 점수, 제2 가능성 점수, 및 제3 가능성 점수 중 적어도 하나를 포함할 수 있다. 제1 가능성 점수는 이미지가 수중에서 실제로 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수는 이미지가 공기 중 헤이즈에서 실제로 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수는 이미지가 대기에서 실제로 촬영된 이미지일 가능성을 나타낼 수 있다.

일 실시예에 따른 제2 기계 학습 모델은 입력 이미지에 적용됨으로써 입력 이미지의 피처, 제1 가능성 점수, 제2 가능성 점수, 및 제3 가능성 점수를 출력하는 모델을 포함할 수 있다.

동작(710)에서, 프로세서는 수중 이미지(711)에 제2 기계 학습 모델(712)을 적용함으로써 수중 피처(713), 제1 가능성 점수(714), 제2 가능성 점수(715), 및 제3 가능성 점수(716)를 출력할 수 있다. 프로세서는 수중 이미지(711)에 제2 기계 학습 모델(712)를 적용함으로써 수중 피처(713)를 추출할 수 있다. 수중 피처(713)는, 제2 기계 학습 모델(712)에 의하여 추출된 수중 이미지(711)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(714)는 수중 이미지(711)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(715)는 수중 이미지(711)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(716)는 수중 이미지(711)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 수중 이미지(711)로부터 산출된 제1 가능성 점수(714)는 높은 값을 가지도록 진행될 수 있다.

동작(720)에서, 프로세서는 에어 헤이즈 이미지(721)에 제2 기계 학습 모델(722)을 적용함으로써 에어 헤이즈 피처(723), 제1 가능성 점수(724), 제2 가능성 점수(725), 및 제3 가능성 점수(726)를 출력할 수 있다. 프로세서는 에어 헤이즈 이미지(721)에 제2 기계 학습 모델(722)를 적용함으로써 에어 헤이즈 피처(723)를 추출할 수 있다. 에어 헤이즈 피처(723)는, 제2 기계 학습 모델(722)에 의하여 추출된 에어 헤이즈 이미지(721)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(724)는 에어 헤이즈 이미지(721)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(715)는 에어 헤이즈 이미지(721)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(716)는 에어 헤이즈 이미지(721)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 에어 헤이즈 이미지(721)로부터 산출된 제2 가능성 점수(725)는 높은 값을 가지도록 진행될 수 있다.

동작(730)에서, 프로세서는 클린 이미지(731)에 제2 기계 학습 모델(732)을 적용함으로써 클린 피처(733), 제1 가능성 점수(734), 제2 가능성 점수(735), 및 제3 가능성 점수(736)를 출력할 수 있다. 프로세서는 클린 이미지(731)에 제2 기계 학습 모델(722)를 적용함으로써 클린 피처(733)를 추출할 수 있다. 클린 피처(733)는, 제2 기계 학습 모델(732)에 의하여 추출된 클린 이미지(731)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(734)는 클린 이미지(731)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(735)는 클린 이미지(731)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(736)는 클린 이미지(731)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 클린 이미지(731)로부터 산출된 제3 가능성 점수(736)는 높은 값을 가지도록 진행될 수 있다.

도 8에서 후술하겠으나, 슈도 수중 이미지 및 슈도 에어 헤이즈 이미지 생성을 위하여 수중 이미지(711)로부터 추출된 수중 피처(713) 및 에어 헤이즈 이미지(721)로부터 추출된 에어 헤이즈 피처(723)가 이용될 수 있다.

도 9에서 후술하겠으나, 적대적 손실의 계산을 위하여 수중 이미지(711)로부터 산출된 제1 가능성 점수(714), 에어 헤이즈 이미지(721)로부터 산출된 제2 가능성 점수(725), 및 클린 이미지(731)로부터 산출된 제3 가능성 점수(736)가 이용될 수 있다.

도 8은 일 실시예에 따른 프로세서가 생성된 슈도 이미지로부터 가능성 점수를 산출하는 동작을 나타낸다.

프로세서는 슈도 수중 이미지, 슈도 에어 헤이즈 이미지, 및 슈도 클린 이미지 중 적어도 하나의 슈도 이미지를 생성할 수 있다. 프로세서는 생성된 적어도 하나의 슈도 이미지에 제2 기계 학습 모델을 적용함으로써 슈도 이미지가 실제로 촬영된 이미지일 가능성 점수를 산출할 수 있다.

일 실시예에 따르면, 프로세서는 수중 이미지 및 에어 헤이즈 이미지에 제2 기계 학습 모델을 적용함으로써 수중 피처 및 에어 헤이즈 피처를 추출할 수 있다. 프로세서는 추출된 수중 피처 및 에어 헤이즈 피처를 이용하여 슈도 수중 이미지 및 슈도 에어 헤이즈 이미지를 생성할 수 있다. 프로세서는 생성된 슈도 수중 이미지 및 슈도 에어 헤이즈 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수를 산출할 수 있다.

동작(810)에서, 프로세서는 에어 헤이즈 이미지(811) 및 수중 피처(812)(예: 도 7의 수중 피처(713))에 제1 기계 학습 모델(813)을 적용함으로써 슈도 수중 이미지(821)를 생성할 수 있다. 도 7에서 전술한 바와 같이, 수중 피처(812)는 수중 이미지에 대한 제2 기계 학습 모델의 적용을 통해 추출될 수 있다.

동작(820)에서, 프로세서는 슈도 수중 이미지(821)에 제2 기계 학습 모델(822)을 적용함으로써 피처(823), 제1 가능성 점수(824), 제2 가능성 점수(825), 및 제3 가능성 점수(826)를 출력할 수 있다. 프로세서는 슈도 수중 이미지(821)에 제2 기계 학습 모델(822)를 적용함으로써 피처(823)를 추출할 수 있다. 피처(823)는, 제2 기계 학습 모델(822)에 의하여 추출된 슈도 수중 이미지(821)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(824)는 슈도 수중 이미지(821)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(825)는 슈도 수중 이미지(821)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(826)는 슈도 수중 이미지(821)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 슈도 수중 이미지(821)로부터 산출된 제2 가능성 점수(825)는 낮은 값을 가지도록 진행될 수 있다.

동작(830)에서, 프로세서는 수중 이미지(831) 및 에어 헤이즈 피처(832)(예: 도 7의 에어 헤이즈 피처(723))에 제1 기계 학습 모델(833)을 적용함으로써 슈도 에어 헤이즈 이미지(841)를 생성할 수 있다. 도 7에서 전술한 바와 같이, 에어 헤이즈 피처(832)는 에어 헤이즈 이미지에 대한 제2 기계 학습 모델의 적용을 통해 추출될 수 있다.

동작(840)에서, 프로세서는 슈도 에어 헤이즈 이미지(841)에 제2 기계 학습 모델(842)을 적용함으로써 피처(843), 제1 가능성 점수(844), 제2 가능성 점수(845), 및 제3 가능성 점수(846)를 출력할 수 있다. 프로세서는 슈도 에어 헤이즈 이미지(841)에 제2 기계 학습 모델(842)를 적용함으로써 피처(843)를 추출할 수 있다. 피처(843)는, 제2 기계 학습 모델(842)에 의하여 추출된 슈도 에어 헤이즈 이미지(841)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(844)는 슈도 에어 헤이즈 이미지(841)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(845)는 슈도 에어 헤이즈 이미지(841)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(846)는 슈도 에어 헤이즈 이미지(841)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 슈도 에어 헤이즈 이미지(841)로부터 산출된 제2 가능성 점수(825)는 낮은 값을 가지도록 진행될 수 있다.

일 실시예에 따르면, 프로세서는 슈도 에어 헤이즈 이미지에 사전 학습된 디헤이징 모델을 적용함으로써 슈도 클린 이미지를 생성할 수 있다. 프로세서는 생성된 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써 상기 슈도 클린 이미지가 실제로 촬영된 이미지일 가능성 점수를 산출할 수 있다.

동작(850)에서, 도 6에서 전술한 바와 같이, 프로세서는 슈도 에어 헤이즈 이미지(851)를 디헤이징함으로써 슈도 클린 이미지(861)를 생성할 수 있다. 예를 들어, 프로세서는 슈도 에어 헤이즈 이미지(851)에 디헤이징 모델(853)(예: 도 6의 디헤이징 모델(632))을 적용함으로써 슈도 클린 이미지(861)를 생성할 수 있다.

동작(860)에서, 프로세서는 슈도 클린 이미지(861)에 제2 기계 학습 모델(862)을 적용함으로써 피처(863), 제1 가능성 점수(864), 제2 가능성 점수(865), 및 제3 가능성 점수(866)를 출력할 수 있다. 프로세서는 슈도 클린 이미지(861)에 제2 기계 학습 모델(862)를 적용함으로써 피처(863)를 추출할 수 있다. 피처(863)는, 제2 기계 학습 모델(842)에 의하여 추출된 슈도 클린 이미지(861)의 시각적 스타일을 나타낼 수 있다. 제1 가능성 점수(864)는 슈도 클린 이미지(861)가 실제로 수중에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제2 가능성 점수(865)는 슈도 클린 이미지(861)가 실제로 공기 중 헤이즈에서 촬영된 이미지일 가능성을 나타낼 수 있다. 제3 가능성 점수(866)는 슈도 클린 이미지(861)가 실제로 대기에서 촬영된 이미지일 가능성을 나타낼 수 있다. 참고로, 제2 기계 학습 모델의 트레이닝은, 슈도 클린 이미지(861)로부터 산출된 제3 가능성 점수(826)는 낮은 값을 가지도록 진행될 수 있다.

도 9는 일 실시예에 따른 적대적 손실(adversarial loss)의 계산을 나타낸다.

프로세서는 가능성 점수에 기초하여 적대적 손실을 계산할 수 있다. 프로세서는 적대적 손실을 포함하는 목적 함수에 기초하여, 제1 기계 학습 모델 및 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행할 수 있다.

동작(910)에서, 프로세서는 수중 이미지 및 슈도 수중 이미지 중 하나의 이미지에 제2 기계 학습 모델을 적용함으로써 산출된 제1 가능성 점수에 기초하여 적대적 손실을 계산할 수 있다. 예를 들어, 프로세서는 수중 이미지를 제2 기계 학습 모델에 적용된 경우, 제1 가능성 점수 및 가능성 점수의 범위의 최솟값의 차이에 기초하여 적대적 손실을 계산할 수 있다. 다른 예를 들어, 프로세서는 슈도 수중 이미지를 제2 기계 학습 모델에 적용된 경우, 제1 가능성 점수 및 가능성 점수의 범위의 최댓값의 차이에 기초하여 적대적 손실을 계산할 수 있다.

예시적으로, 제2 기계 학습 모델은 0보다 크거나 같고 1보다 작거나 같은 범위의 가능성 점수를 산출하는 모델을 포함할 수 있다. 프로세서는 수중 이미지로부터 산출된 제1 가능성 점수는 0과의 차이에 기초하여 적대적 손실을 계산할 수 있고, 슈도 수중 이미지로부터 산출된 제1 가능성 점수는 1과의 차이에 기초하여 적대적 손실을 계산할 수 있다.

동작(920)에서, 프로세서는 에어 헤이즈 이미지 및 슈도 에어 헤이즈 이미지 중 하나의 이미지에 제2 기계 학습 모델을 적용함으로써 산출된 제2 가능성 점수에 기초하여 적대적 손실을 계산할 수 있다. 예를 들어, 프로세서는 에어 헤이즈 이미지를 제2 기계 학습 모델에 적용된 경우, 제2 가능성 점수 및 가능성 점수의 범위의 최솟값의 차이에 기초하여 적대적 손실을 계산할 수 있다. 다른 예를 들어, 프로세서는 슈도 에어 헤이즈 이미지를 제2 기계 학습 모델에 적용된 경우, 제2 가능성 점수 및 가능성 점수의 범위의 최댓값의 차이에 기초하여 적대적 손실을 계산할 수 있다.

예시적으로, 제2 기계 학습 모델은 0보다 크거나 같고 1보다 작거나 같은 범위의 가능성 점수를 산출하는 모델을 포함할 수 있다. 프로세서는 에어 헤이즈 이미지로부터 산출된 제2 가능성 점수는 0과의 차이에 기초하여 적대적 손실을 계산할 수 있고, 슈도 에어 헤이즈 이미지로부터 산출된 제2 가능성 점수는 1과의 차이에 기초하여 적대적 손실을 계산할 수 있다.

동작(930)에서, 프로세서는 클린 이미지 및 슈도 클린 이미지 중 하나의 이미지에 제2 기계 학습 모델을 적용함으로써 산출된 제3 가능성 점수에 기초하여 적대적 손실을 계산할 수 있다. 예를 들어, 프로세서는 클린 이미지를 제2 기계 학습 모델에 적용된 경우, 제3 가능성 점수 및 가능성 점수의 범위의 최솟값의 차이에 기초하여 적대적 손실을 계산할 수 있다. 다른 예를 들어, 프로세서는 슈도 클린 이미지를 제2 기계 학습 모델에 적용된 경우, 제3 가능성 점수 및 가능성 점수의 범위의 최댓값의 차이에 기초하여 적대적 손실을 계산할 수 있다.

예시적으로, 제2 기계 학습 모델은 0보다 크거나 같고 1보다 작거나 같은 범위의 가능성 점수를 산출하는 모델을 포함할 수 있다. 프로세서는 클린 이미지로부터 산출된 제3 가능성 점수는 0과의 차이에 기초하여 적대적 손실을 계산할 수 있고, 슈도 클린 이미지로부터 산출된 제3 가능성 점수는 1과의 차이에 기초하여 적대적 손실을 계산할 수 있다.

일 실시예에 따르면, 적대적 손실()은 다음과 같이 계산될 수 있다:

[수학식 4]

여기서, 는 수중 이미지를 나타내고, 는 에어 헤이즈 이미지를 나타내며, 는 클린 이미지를 나타낼 수 있다. 또한, 는 슈도 수중 이미지를 나타내고, 는 슈도 에어 헤이즈 이미지를 나타내며, 는 슈도 클린 이미지를 나타낼 수 있다. 는 제1 가능성 점수, 는 제2 가능성 점수, 는 제3 가능성 점수를 나타낼 수 있다. 는 기댓값(expectation)을 나타낼 수 있다.

제2 기계 학습 모델(예: 피처 추출 모델)을 학습하기 위하여 적대적 손실()를 최대화하는 반면, 제1 기계 학습 모델(예: 이미지 변환 모델)을 트레이닝시키기 위한 적대적 손실()를 최소화할 수 있다.

도 10은 일 실시예에 따른 복원 손실(reconstruction loss)의 계산을 나타낸다.

일 실시예에 따른 프로세서는 복원 손실을 계산할 수 있다. 복원 손실은 제1 기계 학습 모델이 입력 이미지 및 입력 이미지로부터 추출된 피처에 적용됨으로써 입력 이미지와 동일한 출력 이미지를 출력하도록 트레이닝시키기 위한 손실을 나타낼 수 있다. 프로세서는 복원 손실을 더 포함하는 목적 함수에 기초하여, 제1 기계 학습 모델 및 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행할 수 있다.

프로세서는 트레이닝 데이터 세트의 이미지로부터 트레이닝 입력 이미지를 획득할 수 있다. 예를 들어, 트레이닝 입력 이미지는 수중 이미지, 에어 헤이즈 이미지, 및 클린 이미지 중 하나를 포함할 수 있다.

프로세서는 트레이닝 입력 이미지에 제2 기계 학습 모델을 적용함으로써 트레이닝 입력 이미지로부터 피처를 추출할 수 있다.

프로세서는 트레이닝 입력 이미지로부터 추출된 피처 및 트레이닝 입력 이미지에 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성할 수 있다. 트레이닝 입력 이미지의 피처는 트레이닝 입력 이미지의 시각적 스타일을 나타낼 있다. 따라서, 프로세서가 트레이닝 입력 이미지로부터 추출된 피처 및 트레이닝 입력 이미지에 제1 기계 학습 모델을 적용하는 것은, 트레이닝 입력 이미지와 함께 상기 트레이닝 입력 이미지의 스타일을 나타내는 피처를 제1 기계 학습 모델에 적용한 것으로 해석될 수 있다. 따라서, 제1 기계 학습 모델 및 제2 기계 학습 모델은 트레이닝 입력 이미지 및 트레이닝 입력 이미지의 피처에 적용되는 경우, 트레이닝 입력 이미지의 컨텐츠와 시각적 스타일이 보존된 트레이닝 출력 이미지(예: 트레이닝 입력 이미지와 동일한 트레이닝 출력 이미지)를 생성하도록 트레이닝될 수 있다.

프로세서는 트레이닝 출력 이미지 및 트레이닝 입력 이미지 간의 차이에 기초하여 복원 손실을 계산할 수 있다. 프로세서는 복원 손실을 포함하는 목적 함수에 기초하여 트레이닝을 수행할 수 있다. 예를 들어, 목적 함수는 적대적 손실과 함께 복원 손실을 더 포함할 수 있다.

일 실시예에 따르면, 복원 손실()은 다음과 같이 계산될 수 있다:

[수학식 5]

여기서, 는 수중 이미지를 나타내고, 는 에어 헤이즈 이미지를 나타내며, 는 클린 이미지를 나타낼 수 있다. 는 제1 기계 학습 모델을 나타내고, 는 제2 기계 학습 모델을 나타낼 수 있다. 또한, 는 트레이닝 입력 이미지를 나타내고, 는 트레이닝 입력 이미지에 제2 기계 학습 모델을 적용함으로써 획득된 트레이닝 입력 이미지로부터 추출된 피처를 나타내며, 는 트레이닝 입력 이미지로부터 추출된 피처 및 트레이닝 입력 이미지를 제1 기계 학습 모델에 적용함으로써 생성된 트레이닝 출력 이미지를 나타낼 수 있다.

도 11은 일 실시예에 따른 사이클 일관성 손실(cycle consistency loss)의 계산을 나타낸다.

프로세서는 사이클 일관성 손실을 계산할 수 있다. 프로세서는 사이클 일관성 손실을 더 포함하는 목적 함수에 기초하여, 제1 기계 학습 모델 및 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행할 수 있다.

프로세서는 수중 이미지 및 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 제2 기계 학습 모델을 적용함으로써 피처를 추출할 수 있다.

동작(1110)에서, 프로세서는 하나의 트레이닝 입력 이미지가 수중 이미지인 것에 기초하여, 추출된 피처 및 슈도 에어 헤이즈 이미지에 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성할 수 있다. 하나의 트레이닝 입력 이미지로부터 추출된 피처는 수중 피처를 포함할 수 있다. 도 11에서 도시되지 않았으나, 슈도 에어 헤이즈 이미지는, 수중 이미지인 트레이닝 입력 이미지 및 에어 헤이즈 피처에 제1 기계 학습 모델을 적용함으로써 생성된 이미지를 나타낼 수 있다. 다시 말해, 슈도 에어 헤이즈 이미지는 수중 도메인의 트레이닝 입력 이미지를 스타일 변환함으로써 생성된 에어 헤이즈 도메인의 이미지를 나타낼 수 있다. 따라서, 슈도 에어 헤이즈 이미지는 트레이닝 입력 이미지의 컨텐츠를 보존하면서 트레이닝 입력 이미지와 시각적 스타일의 차이가 있는 이미지를 나타낼 수 있다.

동작(1120)에서, 프로세서는 하나의 트레이닝 입력 이미지가 에어 헤이즈 이미지인 것에 기초하여, 추출된 피처 및 슈도 수중 이미지에 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성할 수 있다. 하나의 트레이닝 입력 이미지로부터 추출된 피처는 에어 헤이즈 피처를 포함할 수 있다. 도 11에서 도시되지 않았으나, 슈도 수중 이미지는, 에어 헤이즈 이미지인 트레이닝 입력 이미지 및 수중 피처에 제1 기계 학습 모델을 적용함으로써 생성된 이미지를 나타낼 수 있다. 다시 말해, 슈도 수중 이미지는 에어 헤이즈 도메인의 트레이닝 입력 이미지를 스타일 변환함으로써 생성된 수중 도메인의 이미지를 나타낼 수 있다. 따라서, 슈도 에어 헤이즈 이미지는 트레이닝 입력 이미지의 컨텐츠를 보존하면서 트레이닝 입력 이미지와 시각적 스타일의 차이가 있는 이미지를 나타낼 수 있다.

프로세서는 트레이닝 출력 이미지 및 트레이닝 입력 이미지 간의 차이에 기초하여 사이클 일관성 손실을 계산할 수 있다. 추출된 피처는 트레이닝 입력 이미지의 시각적 스타일을 나타낼 수 있고, 슈도 이미지(예: 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지 중 하나)는 트레이닝 입력 이미지의 컨텐츠를 가질 수 있다. 따라서, 제1 기계 학습 모델 및 제2 기계 학습 모델은 추출된 피처 및 슈도 이미지에 적용되는 경우, 트레이닝 입력 이미지의 시각적 스타일과 컨텐츠가 보존된 트레이닝 출력 이미지(예: 트레이닝 입력 이미지와 동일한 트레이닝 출력 이미지)를 생성하도록 트레이닝될 수 있다.

프로세서는 사이클 일관성 손실을 포함하는 목적 함수에 기초하여 트레이닝을 수행할 수 있다. 예를 들어, 목적 함수는 적대적 손실과 함께 사이클 일관성 손실을 더 포함할 수 있다.

일 실시예에 따르면, 사이클 일관성 손실()은 다음과 같이 계산될 수 있다:

[수학식 6]

여기서, 는 수중 이미지인 트레이닝 입력 이미지를 나타낼 수 있다. 는 수중 이미지인 트레이닝 입력 이미지() 및 에어 헤이즈 피처에 제1 기계 학습 모델을 적용함으로써, 생성된 슈도 에어 헤이즈 이미지를 나타낼 수 있다. 는 수중 이미지인 트레이닝 입력 이미지()에 제2 기계 학습 모델을 적용함으로써 추출된 수중 피처를 나타내고, 는 트레이닝 입력 이미지로부터 추출된 수중 피처() 및 슈도 에어 헤이즈 이미지()에 제1 기계 학습 모델()을 적용함으로써 생성된 트레이닝 출력 이미지를 나타낼 수 있다.

또한, 여기서, 는 에어 헤이즈 이미지인 트레이닝 입력 이미지를 나타낼 수 있다. 는 에어 헤이즈 이미지인 트레이닝 입력 이미지() 및 수중 피처에 제1 기계 학습 모델을 적용함으로써, 생성된 슈도 에어 헤이즈 이미지를 나타낼 수 있다. 는 에어 헤이즈 이미지인 트레이닝 입력 이미지()에 제2 기계 학습 모델을 적용함으로써 추출된 에어 헤이즈 피처를 나타내고, 는 트레이닝 입력 이미지로부터 추출된 에어 헤이즈 피처() 및 슈도 수중 이미지()에 제1 기계 학습 모델()을 적용함으로써 생성된 트레이닝 출력 이미지를 나타낼 수 있다.

일 실시예에 따른 프로세서는 컨텐츠 보존 손실(content preservation loss)을 포함하는 목적 함수에 기초하여 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝을 수행할 수 있다. 컨텐츠 보존 손실은 제1 기계 학습 모델의 스타일 변환 과정에서, 컨텐츠가 보존되는 정도를 나타낼 수 있다. 예시적으로, 목적 함수는 적대적 손실과 함께 컨텐츠 보존 손실을 더 포함할 수 있다.

프로세서는 수중 이미지 및 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성할 수 있다. 프로세서는 생성된 트레이닝 출력 이미지 및 트레이닝 입력 이미지 간의 컨텐츠 차이에 기초하여 컨텐츠 보존 손실을 계산할 수 있다.

예를 들어, 프로세서는 트레이닝 입력 이미지가 수중 이미지인 것에 기초하여, 트레이닝 입력 이미지 및 에어 헤이즈 피처에 제1 기계 학습 모델을 적용함으로써 슈도 에어 헤이즈 이미지인 트레이닝 출력 이미지를 생성할 수 있다.

다른 예를 들어, 프로세서는 트레이닝 입력 이미지가 에어 헤이즈 이미지인 것에 기초하여, 트레이닝 입력 이미지 및 수중 피처에 제1 기계 학습 모델을 적용함으로써 슈도 수중 이미지인 트레이닝 출력 이미지를 생성할 수 있다.

제1 기계 학습 모델은 트레이닝 입력 이미지의 컨텐츠는 보존하면서 시각적 스타일을 변환하는 모델이므로, 트레이닝 입력 이미지 및 트레이닝 출력 이미지 간의 컨텐츠 차이를 감소시키도록 트레이닝될 수 있다.

프로세서는 컨텐츠 보존 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행할 수 있다.

일 실시예에 따르면, 컨텐츠 보존 손실()은 다음과 같은 식으로 계산될 수 있다:

[수학식 7]

여기서, 는 이미지를 입력함으로써 이미지의 컨텐츠에 대응하는 출력을 생성하는 모듈 및/또는 모델로서, 예시적으로, 사전 학습된 VGG-19 네트워크의 ReLU3-4 레이어에서 추출된 피처 텐서(feature tensor)를 나타낼 수 있다.

는 수중 이미지인 트레이닝 입력 이미지를 나타낼 수 있다. 는 수중 이미지인 트레이닝 입력 이미지() 및 에어 헤이즈 피처에 제1 기계 학습 모델을 적용함으로써, 생성된 슈도 에어 헤이즈 이미지를 나타낼 수 있다.

또한, 여기서, 는 에어 헤이즈 이미지인 트레이닝 입력 이미지를 나타낼 수 있다. 는 에어 헤이즈 이미지인 트레이닝 입력 이미지() 및 수중 피처에 제1 기계 학습 모델을 적용함으로써, 생성된 슈도 에어 헤이즈 이미지를 나타낼 수 있다.

일 실시예에 따른 프로세서는, 사이클 일관성 손실 및 컨텐츠 보존 손실 중 적어도 하나의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제할 수 있다. 사이클 일관성 손실 및 컨텐츠 보존 손실은, 이미지의 스타일 변환 과정에서 발생할 수 있는 컨텐츠에 관한 정보 손실을 최소화하기 위하여 이용될 수 있다.

일 실시예에 따른 프로세서는 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝으로부터 클린 도메인으로부터의 스타일 변환 및/또는 클린 도메인으로의 스타일 변환에서 정보 손실을 최소화하는 것을 배제할 수 있다.

도 4에서 전술한 바와 같이, 일 실시예에 따른 프로세서는 제1 기계 학습 모델을 통해 에어 헤이즈 도메인에 속하는 이미지(예: 에어 헤이즈 이미지)로부터 수중 도메인에 속하는 이미지(예: 슈도 수중 이미지)를 생성하는 동작을 수행할 수 있다. 이 경우, 프로세서가 에어 헤이즈 도메인 및/또는 수중 도메인에 속하는 이미지로부터 스타일 변환을 통해 클린 도메인에 속하는 이미지를 생성하거나, 역으로, 클린 도메인에 속하는 이미지로부터 스타일 변환을 통해 에어 헤이즈 도메인 및/또는 수중 도메인에 속하는 이미지를 생성하는 동작을 수행하는 것은 필수적이지 않을 수 있다.

따라서, 프로세서는 제1 기계 학습 모델의 에어 헤이즈 도메인에 속하는 이미지 및 수중 도메인에 속하는 이미지 간의 스타일 변환 과정에서 컨텐츠에 관한 정보 손실을 감소시키는 데 집중적으로 학습시키기 위하여, 사이클 일관성 손실 및 컨텐츠 보존 손실 중 적어도 하나의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제할 수 있다.

도 12는 일 실시예에 따른 디헤이징 손실(dehazing loss)의 계산을 나타낸다.

일 실시예에 따른 프로세서는 디헤이징 손실을 계산할 수 있다. 디헤이징 손실은 치명적인(catastrophic) 망각을 방지하기 위한 손실을 나타낼 수 있다. 프로세서는 디헤이징 손실(1230)을 더 포함하는 목적 함수에 기초하여, 제1 기계 학습 모델, 제2 기계 학습 모델, 및 디헤이징 모델의 파라미터를 업데이트함으로써 트레이닝을 수행할 수 있다.

동작(1210)에서, 프로세서는 에어 헤이즈 이미지(1211)에 사전 학습된 디헤이징 모델(1212)에 적용함으로써 슈도 클린 이미지(1213)를 생성할 수 있다.

프로세서는 생성된 슈도 클린 이미지(1213), 및 에어 헤이즈 이미지(1211)에 대응하는 클린 이미지(1220) 간의 차이에 기초하여 디헤이징 손실(dehazing loss)(1230)을 계산할 수 있다. 클린 이미지(1220)는, 에어 헤이즈 이미지(1211)에 대응하는 클린 도메인에 속하는 이미지로서, 예시적으로 클린 이미지(1220)과 동일한 장면에 대한 이미지를 포함할 수 있다.

프로세서는 계산된 디헤이징 손실(1230)을 더 포함하는 목적 함수에 기초하여 제1 기계 학습 모델 및 제2 기계 학습 모델과 함께 사전 학습된 디헤이징 모델(1212)의 파라미터를 업데이트함으로써, 사전 학습된 디헤이징 모델을 파인 튜닝할 수 있다.

일 실시예에 따르면, 디헤이징 손실()은 다음과 같이 계산될 수 있다.

[수학식 8]

여기서, 는 에어 헤이즈 이미지를 나타내며, 는 에어 헤이즈 이미지()에 대응하는 클린 이미지를 나타낼 수 있다. 또한, 는 사전 학습된 디헤이징 모델을 나타낼 수 있다.

이하, 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝의 예시를 설명하고, 도 13 및 도 14에서 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝 결과를 설명한다.

그 이후, 도 15 내지 17에서 트레이닝된 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 획득된 수중 도메인의 이미지 및 클린 도메인의 이미지를 가지는 이미지 쌍을 포함하는 트레이닝 데이터 세트로 지도 학습을 통해 트레이닝된 제3 기계 학습 모델을 한 트레이닝 결과를 비교 실시예들에 따른 트레이닝 데이터 세트로 트레이닝된 모델과 함께 설명한다.

일 실시예에 따르면, 제1 기계 학습 모델 및 제2 기계 학습 모델의 트레이닝을 위하여, 에어 헤이즈 도메인에 속하는 이미지 및 클린 도메인에 속하는 이미지를 가지는 이미지 쌍들을 포함하는 NTIRE 데이터 세트와 REVIDE 데이터 세트, 및 페어링되지 않은(un-paired) 부족한 가시성을 가지는 실제 수중 이미지들을 포함하는 EUVP 데이터 세트가 이용될 수 있다.

NTIRE 데이터 세트의 16개의 에어 헤이즈 이미지들 및 REVIDE 데이터 세트의 8개의 에어 헤이즈 이미지들은 검증 데이터 세트로서 데이터 세트에서 제외될 수 있다. 수중 도메인에 속하는 이미지 및 클린 도메인에 속하는 이미지를 가지는 이미지 쌍의 획득을 위하여, 에어 헤이즈 이미지는 수중 이미지로부터 추출된 수중 피처(예: 수중 이미지에 제2 기계 학습 모델을 적용함으로써 추출된 수중 피처)를 이용하여 수중 이미지 도메인으로 변환될 수 있다. 수중 이미지는 에어 헤이즈 이미지와 독립적으로 선택될 수 있다. 이론적으로, 에어 헤이즈 이미지 및 클린 이미지를 가지는 이미지 쌍의 개수와 수중 이미지의 개수를 곱한 만큼의 샘플이 생성될 수 있다.

에어 헤이즈 이미지를 수중 이미지로부터 추출된 수중 피처를 이용하여 수중 이미지 도메인으로 변환하는 기법은 UNITID(UNderwater image enhancement via Image Translation and Image Dehazing)를 통한 수중 이미지 향상으로 정의될 수 있다.

일 실시예에 따르면, 논문 'Hang Dong, Jinshan Pan, Lei Xiang, Zhe Hu, Xinyi Zhang, Fei Wang, and Ming-Hsuan Yang. Multi-scale boosted dehazing network with dense feature fusion. In CVPR, pages 2157-2167, 2020.'에 개시된 모델은 디헤이징 모델로 채택되고, pix2pix 방식으로 100000번의 이터레이션들 동안 에어 헤이즈 이미지 및 클린 이미지을 가지는 이미지 쌍를 이용하여 트레이닝될 수 있다.

일 실시예에 따른 프로세서는, 목적 함수()에 기초하여 사전 학습된 디헤이징 모델()의 파인 튜닝과 함께 제1 기계 학습 모델() 및 제2 기계 학습 모델()의 트레이닝을 수행할 수 있다. 배치 크기는 2로 설정되고, 제1 기계 학습 모델, 제2 기계 학습 모델, 및 디헤이징 모델은 37500번의 이터레이션들 동안 트레이닝될 수 있다. 는 0이고 는 0.99인 Adam 최적화기는 사용되고 학습률(learning rate)은 디헤이징 모델()에 대해 10^-8, 제1 기계 학습 모델() 및 제2 기계 학습 모델() 모두에 대해 10^-4로 설정될 수 있다. 복원 손실에 관한 하이퍼파라미터()는 10으로, 사이클 일관성 손실에 관한 하이퍼파라미터()는 10으로 설정되고 컨텐츠 보존 손실에 관한 하이퍼파라미터 및 디헤이징 손실에 관한 하이퍼파라미터는 1로 설정될 수 있다. 트레이닝 동안, 큰 수용 필드(receptive field)를 얻고 데이터 증대(data augmentation) 효과를 즐기기 위해, 정해진 범위(예: 256 256 내지 M M의 범위, 여기서 M은 입력 이미지의 높이와 너비의 최대값을 나타낼 수 있음)에 속하는 크기의 사각 패치는 고정된 크기(256 Х 256)로 리사이징되고, 무작위로 플립 및/또는 회전될 수 있다.

트레이닝된 UIE 모델(예: 제3 기계 학습 모델)의 성능을 평가하기 위해 다양한 메트릭은 이용될 수 있다. 이미지의 색도(colorfulness), 선명도(sharpness), 및 콘트라스트(contrast)를 확인하기 위하여, UIEBD 데이터 세트의 90개 이미지에 대해 UIQM 및 UCIQE 메트릭이 측정될 수 있다. UIQM는 논문 'Karen Panetta, Chen Gao, and Sos Agaian. Human-visual-system-inspired underwater image quality measures. IEEE Journal of Oceanic Engineering, 41(3):541-551, 2016.'에 개시된 메트릭을 나타낼 수 있다. UCIQE는, 논문 'Miao Yang and Arcot Sowmya. An underwater color image quality evaluation metric. IEEE TIP, 24(12):6062-6071, 2015.'에 개시된 메트릭을 나타낼 수 있다.

57개의 SQUID 이미지를 사용하여 색상 차트에서 회색 패치의 색상 왜곡 정도(degree of the color distortion)()는 계산될 수 있다. SQUID 이미지는 논문 'Dana Berman, Deborah Levy, Shai Avidan, and Tali Treibitz. Underwater single image color restoration using haze-lines and a new quantitative dataset. IEEE TPAMI, 43(8):2822-2837, 2021'에 개시된 이미지를 나타낼 수 있다.

참값(ground truth)에 대한 구조적(structural) 및 지각적(perceptual) 일관성을 확인하기 위해 사전 학습된 VGG16이 이용될 수 있고, PSNR, SSIM 및 LPIPS가 측정될 수 있다. PSNR, SSIM, 및 LPIPS는 논문 'Richard Zhang, Phillip Isola, Alexei A Efros, Eli Shechtman, and Oliver Wang. The unreasonable effectiveness of deep features as a perceptual metric. In CVPR, pages 586-595,2018.'에 개시된 메트릭들을 나타낼 수 있다.

UIE의 성능의 공정한 비교를 위하여, 트레이닝에 사용되지 않는 독립적인 데이터 세트는 필요할 수 있다. 새로운 물탱크 데이터베이스(water tank database; WTDB)는 도입될 수 있다. WTDB는 다양한 탁한 수중 환경들에서 촬영된 수중 이미지 및 대기 중에서 촬영된 클린 이미지를 가지는 이미지 쌍을 포함할 수 있다. 시뮬레이션을 위하여, 물 탱크는 암실에 만들어지고, D65 백색광 조명은 수중의 장면을 위해 설치될 수 있다. 수중 이미지는 우유, 커피, 컬러잉크 등 13가지 재료로 탁도(turbidity)를 10단계로 점진적으로 높이는 동안 획득될 수 있다.

도 13는 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초한 수중 이미지, 슈도 에어 헤이즈 이미지, 및 슈도 클린 이미지를 나타낸다.

도 13에서, 이미지 세트들(1310, 1320, 1330, 1340, 1350, 1360, 1370, 1380, 1390) 중 가장 위에 위치한 이미지는 수중 이미지를 도시하고, 중간에 위치한 이미지는 수중 이미지에 기초하여 생성된 슈도 에어 헤이즈 이미지를 도시하며, 슈도 에어 헤이즈 이미지에 기초하여 생성된 슈도 클린 이미지를 도시한다.

이미지 세트들을 이용하여, 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초한 이미지 변환의 수중 도메인, 에어 헤이즈 도메인 및 클린 도메인 간의 스타일 변환은 평가될 수 있다. 도 13에서, 수중 이미지는 다양한 수중 환경들(예: 파란색 조명, 녹색 조명, 및 어두운 조명 등)에서 에어 헤이즈 도메인으로 변환됨에 따라 슈도 에어 헤이즈 이미지는 수중 이미지에서 흰색으로 변환되고, 수중 이미지보다 밝아질 수 있다. 그 후에, 보다 더 좋은 가시성을 위해 슈도 에어 헤이즈 이미지는 클린 도메인에 매핑될 수 있다. 수중 도메인 및 에어 헤이즈 도메인 간의 이미지 변환은 도 14에서 후술한다. 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초한 이미지 변환은, 장면 컨텐츠를 보존하면서 참조 이미지(예: 피처를 추출하기 위해 이용된 이미지)에 따라 이미지의 스타일(예: 이미지의 환경적 특성)을 변환할 수 있다. 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초한 이미지 변환을 통해, 푸르스름한 녹색과 같은 색상 왜곡은 제어될 수 있다.

도 14는 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 수중 이미지 및 에어 헤이즈 이미지를 각각 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지로 변환하는 것을 나타낸다.

일 실시예에 따른 프로세서는 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여, 수중 이미지(1411)를 슈도 에어 헤이즈 이미지(1421, 1431, 1441, 1451, 1461, 1471)로 변환할 수 있다.

프로세서는 에어 헤이즈 이미지(예: 슈도 에어 헤이즈 이미지(1421)의 오른쪽 아래 박스에 포함된 이미지)에 제2 기계 학습 모델을 적용함으로써 에어 헤이즈 피처를 추출하는데 이용될 수 있다. 프로세서는, 추출된 에어 헤이즈 피처에 대응하는 슈도 에어 헤이즈 이미지(1421)의 생성을 위하여, 수중 이미지(1411)와 함께 추출된 에어 헤이즈 피처를 제1 기계 학습 모델을 적용할 수 있다.

일 실시예에 따른 프로세서는 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여, 에어 헤이즈 이미지(1412)를 슈도 수중 이미지(1422, 1432, 1442, 1452, 1462, 1472)로 변환할 수 있다.

프로세서는 수중 이미지(예: 슈도 수중 이미지(1422)의 오른쪽 아래 박스에 포함된 이미지)에 제2 기계 학습 모델을 적용함으로써 수중 피처를 추출하는데 이용될 수 있다. 프로세서는, 추출된 수중 피처에 대응하는 슈도 수중 이미지(1422)의 생성을 위하여, 에어 헤이즈 이미지(1412)와 함께 추출된 에어 헤이즈 피처를 제1 기계 학습 모델을 적용할 수 있다.

도 15는 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지들을 나타낸다.

도 15에서, 이미지 세트들(1510, 1520, 1530, 1540, 1550, 1560)은 위의 수중 이미지 및 아래의 슈도 클린 이미지 함께 도시한다. 수중 이미지는 수중에서 촬영된 이미지를 나타낼 수 있고, 슈도 클린 이미지는 일 실시예에 따른 제3 기계 학습 모델에 기초하여 생성된 클린 도메인에 속하는 이미지를 나타낼 수 있다.

도 16 및 도 17는 일 실시예 및 비교 실시예들에 따른 UIE 모델의 정성적인 분석으로서, 비교 실시예들 및 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지를 나타낸다.

표 2는 비교 실시예들 및 일 실시예에 따른 UIE 모델의 정량적인 분석으로서, 비교 실시예들 및 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지에 관한 메트릭 값을 나타낸다.

[표 2]

표 2의 Raw 컬럼은 수중 이미지의 원본(raw)의 메트릭 값들을 나타낼 수 있다.

비교 실시예 1에 따른 모델은 디헤이징 모델에 기초한 모델을 나타낼 수 있다. 표 2의 비교 실시예 1에 대응하는 컬럼은, 수중 이미지에 사전 학습된 디헤이징 모델을 적용함으로써 생성된 이미지의 메트릭 값들을 나타낼 수 있다.

비교 실시예2 내지 5에 따른 UIE 모델은, 논문 'Hang Dong, Jinshan Pan, Lei Xiang, Zhe Hu, Xinyi Zhang, Fei Wang, and Ming-Hsuan Yang. Multi-scale boosted dehazing network with dense feature fusion. In CVPR, pages 2157-2167, 2020.'에 개시된 모델로서, 서로 다른 데이터 세트에 기초하여 트레이닝된 모델들을 포함할 수 있다. 비교 실시예 2에 따른 UIE 모델은 UWCNN 데이터 세트로 트레이닝된 모델을 나타내고, 비교 실시예 3에 따른 UIE 모델은 TURBID 데이터 세트로 트레이닝된 모델을 나타내며, 비교 실시예 4에 따른 UIE 모델은 EUVP 데이터 세트로 트레이닝된 모델을 나타내고, 비교 실시예 5에 따른 UIE 모델은 UIEBD 데이터 세트로 트레이닝된 모델을 나타낼 수 있다.

일 실시예에 따른 UIE 모델은 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 클린 도메인의 이미지 및 수중 도메인의 이미지의 이미지 쌍을 포함하는 트레이닝 데이터 세트로 트레이닝된 모델(예: 도 4의 제3 기계 학습 모델)을 나타낼 수 있다.

도 16 및 도 17에서 나타난 바와 같이, 디헤이징 모델은 UIE에 통합됨으로써 수중 이미지의 품질을 향상시킬 수 있다. 예를 들어, 표2에서, 비교 실시예 1에 따른 모델은, PSNR 메트릭은 두 번째로 우수한 값을 가질 수 있다. 또한, 도 16에서의 비교 실시예 1에 대응하는 이미지들 및 도 17에서의 비교 실시예 1에 대응하는 이미지들에서 나타난 바와 같이, 비교 실시예 1에 따른 모델에 기초하여 생성된 이미지의 흐릿한 아티팩트는 완화될 수 있다.

그러나, 비교 실시예 1에 따른 모델은 색 왜곡을 해결하는 것이 어려울 수 있고, 표2에서 나타난 바와 같이 최악의 색상 차트에서 회색 패치의 색상 왜곡 정도의 값을 가질 수 있다.

도 16에서의 비교 실시예 2에 대응하는 이미지들 및 도 17에서의 비교 실시예 2에 대응하는 이미지들에서 나타난 바와 같이, 비교 실시예 2에 따른 모델은, 실제 상황과 형성 모델 간의 도메인 갭으로 인해 실제 상황에서 품질 저하 문제를 처리하는 것이 어려울 수 있다.

도 16에서의 비교 실시예 3에 대응하는 이미지 중 세번째 로우(row)에서 나타난 바와 같이, 비교 실시예 3에 따른 모델은 파란 색상 왜곡을 완화하지만 트레이닝 데이터 세트의 다양성 부족을 가질 수 있다.

비교 실시예 4에 따른 모델은, EUVP 데이터 세트의 클린 도메인에 속하는 이미지의 품질이 만족스럽지 못하기 때문에, EUVP 데이터 세트를 이용하여 지도 학습을 효과적으로 수행하기 어려울 수 있다. 따라서, 비교 실시예 4에 따른 모델은, 가시성 향상의 성능을 가지지 않을 수 있다.

비교 실시예 5에 따른 모델은, 다양한 수중 이미지들을 학습한 최첨단 UIE 방식에 기초한 모델일 수 있다. 표 2에서 나타난 바와 같이, 일반적으로 높은 성능을 보이지만, 도 16에서의 비교 실시예 5에 대응하는 이미지들 및 도 17에서의 비교 실시예 5에 대응하는 이미지들에서 나타난 바와 같이, 비교 실시예 5에 따른 모델에 기초하여 생성된 이미지의 가시성은 부족할 수 있다.

반면에 일 실시예에 따른 UIE 모델는 우수한 성능을 가질 수 있다. 전술한 바와 같이, 일 실시예에 따른 UIE 모델은 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 생성된 트레이닝 데이터 세트에 기초하여 트레이닝된 모델을 나타낼 수 있다. 도 16에서의 일 실시예에 대응하는 이미지들 및 도 17에서의 일 실시예에 대응하는 이미지들에서 나타난 바와 같이, 일 실시예에 따른 모델에 기초하여 생성된 이미지는 향상된 가시성을 가질 수 있다.

표 3은 일 실시예 및 비교 실시예들에 따른 정량적인 분석으로서, 비교 실시예들 및 일 실시예에 따른 UIE 모델에 기초하여 생성된 이미지에 관한 메트릭 값을 나타낸다.

[표 3]

일 실시예에 따른 UIE 모델(예: 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 획득된 이미지 쌍을 이용하여 트레이닝된 제3 기계 학습 모델)의 정량적 성능은 평가될 수 있다. 일 실시예에 따른 UIE 모델은, 사전 학습된 파라미터들을 사용하는 비교 실시예들에 따른 UIE 모델과 비교될 수 있다.

비교 실시예 6에 따른 모델은, 논문 'Md Jahidul Islam, Youya Xia, and Junaed Sattar. Fast underwater image enhancement for improved visual perception. IEEE Robotics and Automation Letters, 5(2):3227-3234, 2020.'에 개시된 모델로서, UWCNN 데이터 세트에 기초하여 트레이닝된 모델을 나타낼 수 있다.

비교 실시예 7에 따른 모델은, 논문 'Chongyi Li, Saeed Anwar, and Fatih Porikli. Underwater scene prior inspired deep underwater image and video enhancement. PR, 98:107038, 2020.'에 개시된 모델로서, EUVP 데이터 세트에 기초하여 트레이닝된 모델을 나타낼 수 있다.

비교 실시예 8에 따른 모델은, 논문 'Chongyi Li, Chunle Guo, Wenqi Ren, Runmin Cong, Junhui Hou, Sam Kwong, and Dacheng Tao. An underwater image enhancement benchmark dataset and beyond. IEEE TIP, 29:4376-4389, 2020.'에 개시된 모델로서, UIEBD 데이터 세트에 기초하여 트레이닝된 모델을 나타낼 수 있다. 일 실시예에 따른 모델은 비교 실시예에 따른 모델들에 비하여, UIQM, 색상 패치에서 회색 색상 왜곡 정도(), PSNR, SSIM, 및 LPIPS에서 가장 좋은 점수를 보였습니다.

표 4는 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델을 이용하여 추가적으로 트레이닝된 비교 실시예들에 따른 모델에 기초하여 생성된 이미지에 관한 메트릭 값을 나타낸다.

별표(*)는, 비교 실시예에 따른 모델이 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 생성된 트레이닝 데이터 세트에 기초하여 추가적으로 트레이닝된 것을 나타낸다.

일 실시예에 따른 프로세서는, 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 생성된 이미지 쌍을 포함하는 트레이닝 데이터 세트에 기초하여 일 실시예에 따른 UIE 네트워크를 트레이닝시킬 수 있다.

추가적으로 트레이닝된 비교 실시예 5에 따른 모델(표 4에서 비교 실시예 5*로 표현됨)은 가장 높은 UCIQE 값을 가질 수 있고, 추가적으로 트레이닝된 비교 실시예 2에 따른 모델(표 4에서 비교 실시예 2*로 표현됨)는 가장 높은 LPIPS 값을 가질 수 있다. 표 4는 기존의 데이터 세트와 일 실시예에 따른 제1 기계 학습 모델 및 제2 기계 학습 모델에 기초하여 생성된 데이터 세트를 결합함으로써 이점을 가질 수 있는 것을 나타낼 수 있다.

표 5는 일 실시예에 따른 제1 기계 학습 모델 및/또는 제2 기계 학습 모델에 관한 절제 연구 결과를 나타낸다.

[표 5]

제1 기계 학습 모델 및/또는 제2 기계 학습 모델에 대해 4가지 경우에 대해 절제 연구가 수행될 수 있고, 표 5에서 절제 연구에 따른 정량적 메트릭 값을 설명한다.

표 5의 첫번째 로우(w/o wavelet pooling으로 표시됨)에서, 제1 기계 학습 모델의 웨이블릿 풀링 모듈 및 언풀링 모듈은 각각 일반적인 평균 풀링 및 업샘플링 모듈로 교체될 수 있다. 이 경우, 제1 기계 학습 모델 및 제2 기계 학습 모델은 스타일을 충실하게 변환하지 못하고, 아이덴티티 매핑만을 학습할 수 있다. 제1 기계 학습 모델 및 제2 기계 학습 모델은 단순히 디헤이징 모델과 유사하게 될 수 있고, 따라서 표 2의 비교 실시예 1에 따른 모델과 유사한 점수를 가질 수 있다.

표 5의 두번째 로우(spilt and 으로 표시됨)에서, 피처 및 가능성 점수를 모두 출력하는 제2 기계 학습 모델은, 피처를 추출하는 환경 스타일 인코더 및 가능성 점수를 산출하는 판별기의 구분된 2개의 모델로서 구현될 수 있다. 다시 말해, 환경 스타일 인코더 및 판별기 간의 피처 공유는 제거될 수 있다. 두 개의 독립적인 네트워크로 분할하는 경우, 변환 결과는 좋지 않은 성능을 가질 수 있다.

표 5의 세번째 로우(w/o joint training 으로 표시됨)에서, 디헤이징 모델을 함께 트레이닝시키는 대신에, 수중 도메인으로부터 에어 헤이즈 도메인으로의 변환 모델을 먼저 트레이닝시키고 사전 학습된 디헤이징 모델을 상기 변환 모델의 출력에 적용하는 경우, 슈도 에어 헤이즈 이미지의 매우 낮은 품질으로 인하여 UIE 모델의 성능이 저하될 수 있다.

마지막으로 표 5의 네번째 로우(Direct W2C translation으로 표시됨)에서 에어 헤이즈 도메인을 브릿지로 사용하는 것의 중요성을 연구하기 위하여, 이미지 변환 모델은 에어 헤이즈 도메인에 속하는 이미지로부터 변환된 수중 도메인에 속하는 이미지 및 클린 도메인에 속하는 이미지를 포함하는 데이터 세트에 기초하여 트레이닝될 수 있다. 이 경우, 이미지 변환 모델은 수중 도메인의 이미지와 클린 도메인의 이미지 간에 짝을 이루지 않아서, 수중 도메인 및 클린 도메인 간의 큰 도메인 갭으로 인해 매핑을 학습하기 어려울 수 있다.

수중 이미지 향상(Underwater image enhancement; UIE)은 쌍을 이루는 데이터 세트의 부족 및 탁한(turbid) 수중(underwater) 환경들로부터 다양한 유형의 왜곡들(예: 헤이즈(haze), 블러(blur), 및 색상(color) 왜곡 등)으로 인해 어려운 태스크로 평가될 수 있다. 반면에, 단일 이미지 디헤이징(single image dehazing; SID)은 UIE 문제와 유사한 특성을 공유하는 문제로서, 잘 정립된 모델 및 데이터 세트를 사용하는 보다 성숙한 연구 분야로 평가될 수 있다. UIE는 양식화된(stylized) 디헤이징 문제로 간주될 수 있고, 3개의 도메인들(예: 클린(clean), 에어 헤이즈(air-haze) 및 수중(underwater)) 중 이미지-투-이미지(image-to-image; I2I) 변환 모델은 제안될 수 있다.

충분한 쌍을 이루는 SID 데이터 세트의 추가적인 지도(supervision)를 활용하고 I2I 및 SID의 다양한 고급 아키텍처들의 이점을 활용함으로써, 일 실시예에 따른 모델은 종단 간 방식으로 강력한 UIE 방법 및 쌍을 이루는 데이터 세트와 함께 제공될 수 있다. 후술하겠으나, 일 실시예에 따른 모델이 수중 이미지의 가시성(visibility) 및 품질(quality)을 크게 향상시키는 것은 실험 결과를 통해 나타날 수 있다. 또한, 변환된(translated) 데이터 세트는 세 가지 도메인들 각각의 고유한 환경에 관한 피처를 성공적으로 포착하므로, 독립적으로 학습할 때 자연스럽게 UIE 모델의 성능은 향상될 수 있다. 마지막으로, 공정한 비교를 위하여, 실제 및 탁한 수중 환경에서 130개의 수중 및 클린 이미지 쌍으로 구성된 새로운 물 탱크 데이터 세트(water tank dataset; WTDB)는 도입될 수 있다.

이상에서 설명된 실시예들은 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치, 방법 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPGA(field programmable gate array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 상기 운영 체제 상에서 수행되는 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 컨트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있으며 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

위에서 설명한 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 또는 복수의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 이를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 특허청구범위의 범위에 속한다.

Claims

프로세서에 의해 수행되는 방법에 있어서,
제1 기계 학습 모델에 기초하여 수중에서 촬영된 수중 이미지(underwater image) 및 공기 중 헤이즈(haze)에서 촬영된 에어 헤이즈 이미지(air haze image)로부터 슈도 에어 헤이즈 이미지(pseudo air haze image) 및 슈도 수중 이미지(pseudo underwater image)를 생성하는 단계;
상기 슈도 에어 헤이즈 이미지를 디헤이징(dehaze)함으로써 슈도 클린 이미지(pseudo clean image)를 생성하는 단계;
상기 수중 이미지, 상기 에어 헤이즈 이미지, 상기 슈도 수중 이미지, 상기 슈도 에어 헤이즈 이미지, 및 상기 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써, 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출하는 단계; 및
상기 산출된 가능성 점수에 기초한 적대적 손실(adversarial loss)을 포함하는 목적 함수에 기초하여, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행하는 단계; 및
상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델을 이용하여, 수중 이미지에 적용됨으로써 슈도 클린 이미지를 생성하는 제3 기계 학습 모델을 지도 학습(supervised learning)을 통해 트레이닝시키는 단계를 포함하고,
상기 제3 기계 학습 모델을 트레이닝시키는 단계는,
에어 헤이즈 이미지 및 클린 이미지를 가지는 제1 이미지 쌍을 획득하는 단계; 및
상기 제1 이미지 쌍의 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 슈도 수중 이미지를 생성하는 단계; 및
상기 생성된 슈도 수중 이미지를 상기 제1 이미지 쌍의 상기 클린 이미지에 매핑(map)함으로써, 상기 클린 이미지 및 상기 슈도 수중 이미지를 가지는 제2 이미지 쌍을 획득하는 단계
상기 획득된 제2 이미지 쌍의 슈도 수중 이미지를 트레이닝 입력 및 상기 제2 이미지 쌍의 클린 이미지를 참값으로 이용하여 상기 제3 기계 학습 모델의 파라미터를 업데이트하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 슈도 에어 헤이즈 이미지 및 슈도 수중 이미지를 생성하는 단계는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처 및 에어 헤이즈 피처를 추출하는 단계;
상기 수중 이미지 및 상기 에어 헤이즈 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 에어 헤이즈 이미지를 생성하는 단계; 및
상기 에어 헤이즈 이미지 및 상기 수중 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 수중 이미지를 생성하는 단계를 포함하는,
방법.
제2항에 있어서,
상기 수중 피처 및 에어 헤이즈 피처를 추출하는 단계는,
상기 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 수중 피처를 추출하는 단계; 및
상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 에어 헤이즈 피처를 추출하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 가능성 점수를 산출하는 단계는,
상기 적어도 하나의 이미지 각각이 수중에서 실제로 촬영된 이미지일 제1 가능성 점수, 공기 중 헤이즈에서 실제로 촬영된 이미지일 제2 가능성 점수, 및 대기에서 실제로 촬영된 이미지일 제3 가능성 점수 중 적어도 하나를 산출하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 가능성 점수를 산출하는 단계는,
대기에서 촬영된 클린 이미지(clean image)에 상기 제2 기계 학습 모델을 추가로 적용함으로써 상기 가능성 점수를 산출하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 슈도 클린 이미지를 생성하는 단계는,
상기 슈도 에어 헤이즈 이미지에 사전 학습된(pre-trained) 디헤이징 모델(dehazing model)을 적용함으로써 상기 슈도 클린 이미지(pseudo clean image)를 생성하는 단계를 포함하는,
방법.
제6항에 있어서,
상기 트레이닝을 수행하는 단계는,
상기 에어 헤이즈 이미지에 상기 사전 학습된 디헤이징 모델에 적용함으로써 생성된 슈도 클린 이미지, 및 상기 에어 헤이즈 이미지에 대응하는 클린 이미지 간의 차이에 기초하여 디헤이징 손실(dehazing loss)을 계산하는 단계; 및
상기 계산된 디헤이징 손실을 더 포함하는 상기 목적 함수에 기초하여, 상기 사전 학습된 디헤이징 모델의 파라미터를 업데이트함으로써 상기 사전 학습된 디헤이징 모델을 파인 튜닝하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 트레이닝을 수행하는 단계는,
상기 수중 이미지, 상기 에어 헤이즈 이미지, 및 클린 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하는 단계;
상기 추출된 피처 및 상기 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 복원 손실(reconstruction loss)을 계산하는 단계; 및
상기 계산된 복원 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 트레이닝을 수행하는 단계는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하는 단계;
상기 하나의 트레이닝 입력 이미지가 상기 수중 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성하는 단계;
상기 하나의 트레이닝 입력 이미지가 상기 에어 헤이즈 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 수중 이미지에 상기 제1 기계 학습 모델을 적용함으로써 상기 트레이닝 출력 이미지를 생성하는 단계;
상기 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 사이클 일관성 손실(cycle consistency loss)을 계산하는 단계; 및
상기 계산된 사이클 일관성 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함하는,
방법.
제1항에 있어서,
상기 트레이닝을 수행하는 단계는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 컨텐츠(content) 차이에 기초하여 컨텐츠 보존 손실(content preservation loss)을 계산하는 단계; 및
상기 계산된 컨텐츠 보존 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는 단계를 포함하는,
방법.
제10항에 있어서,
상기 컨텐츠 보존 손실을 계산하는 단계는,
상기 컨텐츠 보존 손실의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제하는 단계를 포함하는,
방법.
삭제
삭제
제1항에 있어서,
상기 제3 기계 학습 모델의 파라미터를 업데이트하는 단계는,
상기 제2 이미지 쌍의 상기 슈도 수중 이미지에 상기 제3 기계 학습 모델을 적용함으로써 트레이닝 출력을 생성하는 단계; 및
상기 제2 이미지 쌍의 상기 클린 이미지를 참값(ground truth)으로 이용하여, 상기 트레이닝 출력 및 상기 제2 이미지 쌍의 상기 클린 이미지 간의 차이에 기초하여 계산된 목적 함수에 기초하여 상기 제3 기계 학습 모델의 파라미터를 업데이트하는 단계를 포함하는,
방법.
하드웨어와 결합되어 제1항 내지 제11항 및 제14항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록매체에 저장된 컴퓨터 프로그램.
제1 기계 학습 모델에 기초하여 수중에서 촬영된 수중 이미지(underwater image) 및 공기 중 헤이즈(haze)에서 촬영된 에어 헤이즈 이미지(air haze image)로부터 슈도 에어 헤이즈 이미지(pseudo air haze image) 및 슈도 수중 이미지(pseudo underwater image)를 생성하고, 상기 슈도 에어 헤이즈 이미지를 디헤이징(dehaze)함으로써 슈도 클린 이미지(pseudo clean image)를 생성하며, 상기 수중 이미지, 상기 에어 헤이즈 이미지, 상기 슈도 수중 이미지, 상기 슈도 에어 헤이즈 이미지, 및 상기 슈도 클린 이미지 중 적어도 하나의 이미지에 제2 기계 학습 모델을 적용함으로써, 상기 적어도 하나의 이미지 각각이 실제로 촬영된 이미지일 가능성 점수(possibility score)를 산출하고, 상기 산출된 가능성 점수에 기초한 적대적 손실(adversarial loss)을 포함하는 목적 함수에 기초하여, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델의 파라미터를 업데이트함으로써 트레이닝을 수행하고, 상기 제1 기계 학습 모델 및 상기 제2 기계 학습 모델을 이용하여, 수중 이미지에 적용됨으로써 슈도 클린 이미지를 생성하는 제3 기계 학습 모델을 지도 학습(supervised learning)을 통해 트레이닝시키는 프로세서
를 포함하고,
상기 프로세서는,
에어 헤이즈 이미지 및 클린 이미지를 가지는 제1 이미지 쌍을 획득하고,
상기 제1 이미지 쌍의 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 슈도 수중 이미지를 생성하며,
상기 생성된 슈도 수중 이미지를 상기 제1 이미지 쌍의 상기 클린 이미지에 매핑(map)함으로써, 상기 클린 이미지 및 상기 슈도 수중 이미지를 가지는 제2 이미지 쌍을 획득하고,
상기 획득된 제2 이미지 쌍의 슈도 수중 이미지를 트레이닝 입력 및 상기 제2 이미지 쌍의 클린 이미지를 참값으로 이용하여 상기 제3 기계 학습 모델의 파라미터를 업데이트하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 수중 피처 및 에어 헤이즈 피처를 추출하고,
상기 수중 이미지 및 상기 에어 헤이즈 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 에어 헤이즈 이미지를 생성하며,
상기 에어 헤이즈 이미지 및 상기 수중 피처에 상기 제1 기계 학습 모델을 적용함으로써 상기 슈도 수중 이미지를 생성하는,
장치.
제17항에 있어서,
상기 프로세서는,
상기 수중 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 수중 피처를 추출하고,
상기 에어 헤이즈 이미지에 상기 제2 기계 학습 모델을 적용함으로써 상기 에어 헤이즈 피처를 추출하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 적어도 하나의 이미지 각각이 수중에서 실제로 촬영된 이미지일 제1 가능성 점수, 공기 중 헤이즈에서 실제로 촬영된 이미지일 제2 가능성 점수, 및 대기에서 실제로 촬영된 이미지일 제3 가능성 점수 중 적어도 하나를 산출하는,
장치.
제16항에 있어서,
상기 프로세서는,
대기에서 촬영된 클린 이미지(clean image)에 상기 제2 기계 학습 모델을 추가로 적용함으로써 상기 가능성 점수를 산출하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 슈도 에어 헤이즈 이미지에 사전 학습된(pre-trained) 디헤이징 모델(dehazing model)을 적용함으로써 상기 슈도 클린 이미지(pseudo clean image)를 생성하는,
장치.
제21항에 있어서,
상기 프로세서는,
상기 에어 헤이즈 이미지에 상기 사전 학습된 디헤이징 모델에 적용함으로써 생성된 슈도 클린 이미지, 및 상기 에어 헤이즈 이미지에 대응하는 클린 이미지 간의 차이에 기초하여 디헤이징 손실(dehazing loss)을 계산하고,
상기 계산된 디헤이징 손실을 더 포함하는 상기 목적 함수에 기초하여, 상기 사전 학습된 디헤이징 모델의 파라미터를 업데이트함으로써 상기 사전 학습된 디헤이징 모델을 파인 튜닝하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 수중 이미지, 상기 에어 헤이즈 이미지, 및 클린 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하고,
상기 추출된 피처 및 상기 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 복원 손실(reconstruction loss)을 계산하며,
상기 계산된 복원 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제2 기계 학습 모델을 적용함으로써 피처를 추출하고,
상기 하나의 트레이닝 입력 이미지가 상기 수중 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 에어 헤이즈 이미지에 상기 제1 기계 학습 모델을 적용함으로써 트레이닝 출력 이미지를 생성하며,
상기 하나의 트레이닝 입력 이미지가 상기 에어 헤이즈 이미지인 것에 기초하여, 상기 추출된 피처 및 상기 슈도 수중 이미지에 상기 제1 기계 학습 모델을 적용함으로써 상기 트레이닝 출력 이미지를 생성하고,
상기 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 차이에 기초하여 사이클 일관성 손실(cycle consistency loss)을 계산하며,
상기 계산된 사이클 일관성 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는,
장치.
제16항에 있어서,
상기 프로세서는,
상기 수중 이미지 및 상기 에어 헤이즈 이미지 중 하나의 트레이닝 입력 이미지에 상기 제1 기계 학습 모델을 적용함으로써 생성된 트레이닝 출력 이미지 및 상기 트레이닝 입력 이미지 간의 컨텐츠(content) 차이에 기초하여 컨텐츠 보존 손실(content preservation loss)을 계산하고,
상기 계산된 컨텐츠 보존 손실을 더 포함하는 상기 목적 함수에 기초하여 트레이닝을 수행하는,
장치.
제25항에 있어서,
상기 프로세서는,
상기 컨텐츠 보존 손실의 계산으로부터 클린 이미지 및 슈도 클린 이미지를 배제하는,
장치.
삭제
삭제
제16항에 있어서,
상기 프로세서는,
상기 제2 이미지 쌍의 상기 슈도 수중 이미지에 상기 제3 기계 학습 모델을 적용함으로써 트레이닝 출력을 생성하고,
상기 제2 이미지 쌍의 상기 클린 이미지를 참값(ground truth)으로 이용하여, 상기 트레이닝 출력 및 상기 제2 이미지 쌍의 상기 클린 이미지 간의 차이에 기초하여 계산된 목적 함수에 기초하여 상기 제3 기계 학습 모델의 파라미터를 업데이트하는,
장치.