KR20190035465A

KR20190035465A - 이미지 디노이징 뉴럴 네트워크 학습 아키텍처 및 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법

Info

Publication number: KR20190035465A
Application number: KR1020180041765A
Authority: KR
Inventors: 모스타파 엘-카미; 이고르 페도로브; 이정원
Original assignee: 삼성전자주식회사
Priority date: 2017-09-26
Filing date: 2018-04-10
Publication date: 2019-04-03
Also published as: CN109559281B; US10726525B2; CN109559281A; US20190096038A1; KR102587266B1

Abstract

이미지 디노이징 뉴럴 네트워크 학습 아키텍처 및 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법이 제공된다. 이미지 디노이징 뉴럴 네트워크 학습 아키텍처는, 이미지 디노이징 뉴럴 네트워크(image denoising neural network) 및 클린 데이터 뉴럴 네트워크(clean data neural network)를 포함하고, 이미지 디노이징 뉴럴 네트워크 및 클린 데이터 뉴럴 네트워크는, 서로 정보를 공유한다.

Description

이미지 디노이징 뉴럴 네트워크 학습 아키텍처 및 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법{An image denoising neural network training architecture and a method of training the image denoising neural network}

본 발명은 이미지 디노이징 뉴럴 네트워크 학습 아키텍처 및 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법에 관한 것이다.

디지털 이미지가, 예를 들어 노을지는 환경이나 야간과 같이, 저조도 조건에서 촬영될 때, 노이즈(즉, 이미지 잡음(noise))는 종종 결과 이미지에 존재할 수 있다. 이미지 노이즈는 예를 들어, 센서(예를 들어, CCD(charge-coupled device) 센서), CMOS(complementary-metal-oxide semiconductor) 센서 및/또는 캡처 장치와 관련된 회로(예를 들어, 디지털 카메라, 휴대 전화 카메라)로부터 초래되는 컬러 정보 또는 밝기의 무작위적인 변화로 인해 존재할 수 있다. 저조도 사진에 존재하는 낮은 광자 개수로 인해(즉, 캡처 장치의 센서에 의해 측정 및/또는 수신되는 광자가 더 적기 때문에), 캡처 장치에 의해 추가적인 노이즈가 생성될 수 있다. 이미지 노이즈는, 결과 이미지의 바람직하지 않은 구성 요소이고, 저품질의 이미지를 야기시킬 수 있다.

이미지 노이즈는, 가우시안 노이즈(Gaussian noise)와 푸아송 노이즈(Poisson noise)의 두 가지 성분을 포함할 수 있다. 가우시안 노이즈는 보다 일반적인 유형의 노이즈(예를 들어, 디지털 노이즈)로, 캡처 장치의 회로 노이즈로 인해 종종 발생될 수 있다. 푸아송 노이즈는 기본 신호(예를 들어, 저조도 이미지 신호)가 상대적으로 약하고 센서 응답이 양자화될 때 더 자주 발생(예를 들어, 더 일반적이거나 뚜렷한 경우)되기 때문에, 덜 일반적일 수 있다. 보다 높은 광 조건에서, 푸아송 노이즈는 정상 분포로 향하기 때문에, 가우시안 노이즈는 대부분의 이미지(예를 들어, 조명이 밝은 이미지)에서 푸아송 이미지보다 더 우세할 수 있다.

이미지가 비교적 낮은 광 조건에서 캡처되는 경우, 이미지 노이즈는 신호 종속 성분과 신호 독립 성분의 두 가지 성분을 포함할 수 있다. 신호 종속 성분은, 카메라 센서(예를 들어, CCD 센서 또는 CMOS 센서)에 광자가 도달하는 비율에 따라 분포된 푸아송 노이즈로 모델링될 수 있다. 신호 독립 성분은, 가우시안 노이즈로 모델링될 수 있고, 이미지의 고정된 교란에 기인할 수 있다.

유효 노이즈는 두 개의 이미지 노이즈 성분을 포함할 수 있고, 이는 "푸아송 가우시안 노이즈"라 할 수 있다. 신호 종속 노이즈 성분으로 인해 유효 노이즈의 노이즈 분산은 일정하지 않지만, 이미지의 픽셀 값의 기댓값(expectation)에 따라 변화될 수 있다.

디지털 이미지(예를 들어, 디지털 이미지 신호)에서 푸아송 가우시안 노이즈를 제거(또는 감소)시키는 현존하는 하나의 방법은, 앤스콤(Anscombe) 또는 일반화된 앤스콤 변환(Generalized Anscombe transform)과 같은 분산 안정화 변환(variance-stabilizing transform)을 적용하여, 입력 신호의 값에 독립적인 일정한 분산을 갖는 노이즈 성분을 갖는 디지털 신호를 생성하는 것이다. 입력 신호의 값에 독립적인 일정한 분산을 갖는 노이즈 성분은, 가산 가우시안 노이즈(additive Gaussian noise)(예를 들어, 단위 분산을 갖는 가산 백색 가우시안 노이즈(additive white Gaussian noise (AWGN))와 유사한 것으로 간주될 수 있다. 즉, 분산 안정화 변환은 디지털 이미지에 적용되어, 분산이 그 평균과 같고 기본(underlying) 픽셀 값에 의존하는 푸아송 노이즈를 일정한 분산을 갖는 노이즈로 변환할 수 있다.

그 다음, 변환된 노이즈는, 예를 들어, 블록 매칭 및 3D 필터링(block-matching and 3D filtering(BM3D))에 의해 일정한 분산을 갖는 노이즈(예를 들어, AWGN)를 효과적으로 제거할 수 있는 디노이징(denoising) 알고리즘을 이용하여, 제거(또는 실질적으로 제거)될 수 있다. 마지막으로, 예를 들어, 반전된 앤스콤 변환과 같은 인버스 분산 안정화 변환(inverse variance-stabilizing transform)은 디노이징된(즉, 노이즈가 제거된) 디지털 이미지에 적용되어, 디지털 이미지의 원래 도메인으로 다시 변환시킬 수 있다.

이미지에서 푸아송 가우시안 노이즈를 제거하거나 감소시키는 방법을 종합하면, VST-BM3D-IVST라 할 수 있다.

그러나, VST-BM3D-IVST 방법은, 순방향 변환(forward transformation)의 바이어스 되지 않은 인버스(inverse)를 통해 이미지의 원래 도메인으로 이미지를 복귀시키는 것이 가능해야하는, 첫번째 단계에서 이용된 순방향 변환에 민감할 수 있다. 또한, VST-BM3D-IVST 방법의 성능은 예를 들어, 매우 낮은 광량에서 촬영된 이미지와 같이, 매우 낮은 강도 값에서는 상대적으로 약할 수 있다.

VST-BM3D-IVST 방법에 대한 최근에 시대된 몇몇 개선점은, 노이즈가 포함된 이미지와 점진적으로 정제된(또는 필터링된) 이미지의 조합의 반복적인 필터링을 이용하는 것을 포함하지만, 이러한 개선점은 VST-BM3D-IVST 방법의 복잡성을 크게 증가시키고, 저전력(예를 들어, 낮은 처리 능력) 이동 장치 등과 같은 장치에 이용하기에 적합하지 않을 수 있다.

또한, DeNoiseNet이라 불리는 저조도 이미지를 디노이징하는 딥 러닝 접근법은, 푸아송 노이즈를 포함하는 이미지(예를 들어, 비교적 높은 양의 푸아송 노이즈를 포함하는 이미지)를 클린(즉, 디노이징된) 이미지로 변환하는 것을 학습하려고 시도한다. 그러나 이러한 방법은 노이즈 분산 안정화(stabilization)를 고려하지 못한다.

본 발명이 해결하고자 하는 기술적 과제는 저조도 조건에서 촬영된 이미지를 향상시킬 수 있는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처 및 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법을 제공하는 것이다.

본 발명의 기술적 과제들은 이상에서 언급한 기술적 과제로 제한되지 않으며, 언급되지 않은 또 다른 기술적 과제들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.

상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 이미지 디노이징 뉴럴 네트워크 학습 아키텍처는, 이미지 디노이징 뉴럴 네트워크(image denoising neural network) 및 클린 데이터 뉴럴 네트워크(clean data neural network)를 포함하고, 이미지 디노이징 뉴럴 네트워크 및 클린 데이터 뉴럴 네트워크는, 서로 정보를 공유한다.

상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법은, 분산 안정화 변환 네트워크 및 인버스 분산 안정화 변환 네트워크를 공동으로 학습시키고, 디노이징 네트워크를 학습시키는 것을 포함할 수 있다.

상기 기술적 과제를 달성하기 위한 본 발명의 몇몇 실시예들에 따른 이미지 디노이징 뉴럴 네트워크 학습 아키텍처는, 이미지 디노이징 뉴럴 네트워크를 포함하고, 상기 이미지 디노이징 뉴럴 네트워크는, 복수의 제1 필터링 계층을 포함하는 분산 안정화 변환 네트워크, 복수의 제2 필터링 계층을 포함하는 인버스 분산 안정화 변환 네트워크, 복수의 제3 필터링 계층을 포함하는 디노이징 네트워크 및 복수의 제4 필터링 계층을 포함하는 클린 데이터 네트워크를 포함하고, 상기 복수의 제4 필터링 계층은, 상기 복수의 제4 필터링 계층과 대응되는 상기 복수의 제3 필터링 계층과 통신할 수 있다.

기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다.

도 1은 본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크 학습 아키텍처(예를 들어, 푸아송 가우시안 디노이징 학습 아키텍처)를 설명하기 위한 도면이다.
도 2는 본 발명의 기술적 사상의 몇몇 실시예에 따른 적층된 스파스(sparse) 디노이징 오토 인코더에 대한 베이스 라인(baseline) 학습 방법을 설명하기 위한 도면이다.
도 3은 두 개의 스파스 디노이징 오토 인코더을 포함하는 적층된 스파스 디노이징 오토 인코더를 포함하는 디노이징 네트워크를 훈련하는 것을 설명하기 위한 도면이다.
도 4는 본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크 학습 방법을 설명하기 위한 순서도이다.
도 5는 본 발명의 기술적 사상의 몇몇 실시예에 따른 학습된 이미지 디노이징 뉴럴 네트워크를 이용하여 저조도 환경에서 촬영된 이미지를 향상시키는 방법을 설명하기 위한 순서도이다.

본 발명의 기술적 사상은 이미지 디노이징 뉴럴 네트워크 아키텍처 및 이미지 디노이징 뉴럴 네트워크 학습 방법에 관한 것이다. 몇몇 실시예에서, 이미지 디노이징 뉴럴 네트워크 학습 아키텍처는, 이미지 디노이징 뉴럴 네트워크와 클린 데이터(clean data) 뉴럴 네트워크를 포함할 수 있다. 이미지 디노이징 뉴럴 네트워크 및 클린 데이터 뉴럴 네트워크는, 서로간에 정보를 공유할 수 있다.

몇몇 실시예에서, 이미지 디노이징 뉴럴 네트워크는 분산 안정화 변환 (variance-stabilizing transform) 네트워크, 인버스 분산 안정화 변환 (inverse variance-stabilizing transform) 네트워크 및, 분산 안정화 변환 네트워크와 인버스 분산 안정화 변환 네트워크 사이의 디노이징 네트워크를 포함할 수 있다. 디노이징 네트워크는 서로 적층되는 복수의 컨볼루션 오토 인코더(convolutional autoencoder)를 포함할 수 있다. 분산 안정화 변환 네트워크와 인버스 분산 안정화 변환 네트워크 각각은, 컨볼루션 뉴럴 네트워크를 형성하는 복수의 필터링 계층을 포함할 수 있다.

본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 도면에서 층 및 영역들의 상대적인 크기는 설명의 명료성을 위해 과장된 것일 수 있다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.

비록 제1, 제2 등이 다양한 소자, 구성요소 및/또는 섹션들을 서술하기 위해서 사용되나, 이들 소자, 구성요소 및/또는 섹션들은 이들 용어에 의해 제한되지 않음은 물론이다. 이들 용어들은 단지 하나의 소자, 구성요소 또는 섹션들을 다른 소자, 구성요소 또는 섹션들과 구별하기 위하여 사용하는 것이다. 따라서, 이하에서 언급되는 제1 소자, 제1 구성요소 또는 제1 섹션은 본 발명의 기술적 사상 내에서 제2 소자, 제2 구성요소 또는 제2 섹션일 수도 있음은 물론이다.

또한, 하나의 구성 요소, 성분 또는 계층이 두 개 사이의 구성 요소, 성분 또는 계층으로 언급될 때, 이는 두 개의 구성 요소, 성분 또는 계층 사이의 유일한 구성 요소, 성분 또는 계층일 수 있고, 또는, 하나 이상의 개재된 구성 요소, 성분 또는 계층이 존재할 수 있다.

본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성요소, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성요소, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.

다른 정의가 없다면, 본 명세서에서 사용되는 모든 용어(기술 및 과학적 용어를 포함)는 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 공통적으로 이해될 수 있는 의미로 사용될 수 있을 것이다. 또 일반적으로 사용되는 사전에 정의되어 있는 용어들은 명백하게 특별히 정의되어 있지 않는 한 이상적으로 또는 과도하게 해석되지 않는다.

프로세서, 중앙 처리 장치(CPU), 그래픽 처리 장치(GPU), FPGA(field-programmable gate array), 센서, 캡처 장치, 회로, 뉴럴 네트워크, 필터링 계층, 검출기, 오토 인코더(autoencoder), 디노이저(denoiser), 인코더, 디코더, 및/또는 본 명세서에 개시된 본 발명의 기술적 사상의 실시예에 따른 다른 관련된 장치 또는 구성 요소는, 임의의 적합한 하드웨어(예를 들어, 주문형 집적 회로), 펌 웨어, 소프트웨어, 및/또는 소프트웨어, 펌 웨어 및 하드 웨어의 적절한 조합을 이용하여 구현될 수 있다. 예를 들어, 프로세서, 중앙 처리 장치, 그래픽 처리 장치, 뉴럴 네트워크, 필터링 계층, 검출기, 센서, 오토 인코더, 디노이저, 인코더, 디코더 및/또는 FPGA의 다양한 구성 요소는 하나의 집적 회로 칩 상에 형성되거나, 또는 개별적인 집적 회로 칩 상에 형성될 수 있다. 또한, 프로세서, 중앙 처리 장치, 그래픽 처리 장치, 뉴럴 네트워크, 필터링 계층, 검출기, 센서, 오토 인코더, 디노이저, 인코더, 디코더 및/또는 FPGA의 다양한 구성 요소는, 가요성 인쇄 회로 필름, TCP(tape carrier package), 인쇄 회로 기판 또는 프로세서, 중앙 처리 장치, 그래픽 처리 장치 및/또는 FPGA와 같은 동일한 기판 상에 형성될 수 있다.

나아가, 설명된 동작들, 뉴럴 네트워크, 필터링 계층, 인코더, 디코더, 오토 인코더 등은, 하나 이상의 컴퓨팅 장치의 하나 이상의 프로세서(예를 들어, 하나 이상의 중앙 처리 장치 및/또는 하나 이상의 그래픽 처리 장치)에서 실행되는 스레드 또는 프로세스일 수 있고, 컴퓨터 프로그램 명령을 실행하고 다른 시스템 구성 요소와 상호 작용하여, 본 명세서에 개시된 다양한 기능들을 수행할 수 있다. 컴퓨터 프로그램 명령은, 예를 들어, RAM과 같은 표준 메모리 장치를 이용한 컴퓨팅 장치에 구현될 수 있는 메모리에 저장될 수 있다. 컴퓨터 프로그램 명령은 또한, 예를 들어, CD-ROM, 플래시 드라이브등과 같은, 비일시적인 컴퓨터로 판독 가능한 매체에 저장될 수 있다. 또한, 본 발명의 기술적 사상이 속하는 기술 분야의 통상의 기술자는, 본 발명의 기술적 사상의 범위 내에서, 다양한 컴퓨팅 장치의 기능은 단일 컴퓨팅 장치에 결합 또는 통합될 수 있거나, 특정 컴퓨팅 장치의 기능이 하나 이상의 다른 컴퓨팅 장치에 분산될 수 있음을 이해할 수 있다.

도 1은 본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크 학습 아키텍처(예를 들어, 푸아송 가우시안 디노이징 학습 아키텍처)를 설명하기 위한 도면이다.

도 1을 참조하면, 본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크는, 분산 안정화 변환(variance stabilization transform (VST)) (뉴럴) 네트워크(100), 인버스 분산 안정화 변환(inverse variance stabilization transform (IVST)) (뉴럴) 네트워크(200) 및 분산 안정화 변환 네트워크(100)와 인버스 분산 안정화 변환 네트워크(200) 사이의 디노이징(denoising) 네트워크(300)를 포함할 수 있다.

분산 안정화 변환 네트워크는, 예를 들어, 컨볼루션 분산 안정화 네트워크(convolutional variance stabilization network) 또는 분산 안정화 인코더(VST encoder)일 수 있다. 인버스 분산 안정화 변환 네트워크(200)는, 예를 들어, 인버스 분산 안정화 변환 디코더일 수 있다. 디노이징 네트워크(300)는, 예를 들어, 적층된 디노이징 오토 인코더일 수 있다.

각각의 분산 안정화 변환 네트워크(100)와 인버스 분산 안정화 변환 네트워크(200)는, 세 개 계층의 컨볼루션 뉴럴 네트워크(convolution neural network (CNN))일 수 있다. 그러나, 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. 예를 들어, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는, 세 개 이상 또는 세 개 미만의 계층을 포함할 수 있다. 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는, 푸아송 디노이저(Poisson denoiser)일 수 있다. 몇몇 실시예에서, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 동일한 개수의 계층을 포함할 수 있다. 그러나, 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. 예를 들어, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는, 서로 다른 개수의 계층을 포함할 수도 있음은 물론이다.

분산 안정화 변환 네트워크(100)의 세 개 계층 컨볼루션 뉴럴 네트워크는, 제1, 제2 및 제3 필터링 계층(101, 102, 103)을 포함할 수 있다. 인버스 분산 안정화 변환 네트워크(200)의 세 개 계층 컨볼루션 뉴럴 네트워크는, 제1, 제2 및 제3 필터링 계층(201, 202, 203)을 포함할 수 있다.

제1 필터링 계층(101, 201)은, 3x3x1x10 디멘션(dimension)(예를 들어, 픽셀 디멘션)을 가질 수 있다. 제2 필터링 계층(102, 202)은, 1x1x10x10 디멘션을 가질 수 있다. 제3 필터링 계층(103, 203)은 1x1x10x1 디멘션을 가질 수 있다.

제1 필터링 계층(101, 201)은, 분산 안정화 변환 네트워크(100)를 통해 이미지를 처리하기 전에 이미지의 작은 영역(예를 들어, 3x3 픽셀 영역)의 픽셀의 가중치 평균 또는 합산을 포함하는 비닝(binning) 동작을 이용하는 3x3 디멘션을 가질 수 있다. 제1 필터링 계층(101, 201)은 3x3의 2차원을 갖는 컨볼루션 커널(kernel)일 수 있고, 제2 필터링 계층(102, 202)은 1x1 디멘션을 갖는 정류기(예를 들어, 정류된 선형 단위 또는 ReLU)일 수 있고, 제3 필터링 계층(103, 203)은 1x1 디멘션을 갖는 다른 정류기일 수 있다.

분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)에서, 정류된 선형 함수는 제1 필터링 계층(101, 201) 및 제2 필터링 계층(102, 202)의 출력에 적용될 수 있다. 예를 들어, 제1 필터링 계층(101, 201) 및 제2 필터링 계층(102, 202) 각각은 정류기(예를 들어, 정류된 선형 단위 또는 ReLU)일 수 있다. 그러나, 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. 예를 들어, 모든 필터링 계층은 정류기이거나, 또는 오직 하나의 필터링 계층만이 정류기일 수도 있다.

전술한 바와 같이, 디노이징 네트워크(300)는 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200) 사이에 배치될 수 있다. 디노이징 네트워크(300)는 가우시안 디노이저일 수 있다. 몇몇 실시예에서, 디노이징 네트워크(300)는, 하나 이상의 적층된 컨볼루션 오토 인코더(stacked convolutional autoencoders (SCAE))를 포함할 수 있다. 본 발명의 기술적 사상의 몇몇 실시예에 따른 오토 인코더는, 감독되지 않는 방식으로 의미있는 데이터 표현 학습에 이용될 수 있는, 숨겨진 단일 계층 뉴럴 네트워크 아키텍처(single hidden layer neural network architecture)일 수 있다. 본 발명의 기술적 사상의 몇몇 실시예에 따른 적층된 컨볼루션 오토 인코더 학습 방법은 이하에서 설명된다.

분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)와 유사하게, 디노이징 네트워크(300)는 복수의 필터링 계층을 포함하는 컨볼루션 뉴럴 네트워크일 수 있다. 예를 들어, 디노이징 네트워크(300)는 제1, 제2, 제3 및 제4 필터링 계층(301, 302, 303, 304)을 포함할 수 있다. 몇몇 실시예에서, 제1, 제2, 제3 및 제4 필터링 계층(301, 302, 303, 304) 각각은 3x3x1x10 디멘션을 가질 수 있다. 또한, 제1 및 제2 필터링 계층(301, 302) 각각은 정류기(예를 들어, 정류된 선형 단위 또는 ReLU)일 수 있다. 그러나, 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. 예를 들어, 제1, 제2, 제3 및 제4 필터링 계층(301, 302, 303, 304)은 모두 정류기일 수도 있다.

디노이징 네트워크(300)는 적층된 컨볼루션 오토 인코더 아키텍처를 이용할 수 있다. 디노이징 네트워크(300)의 적층된 컨볼루션 오토 인코더의 필터(즉, 필터링 계층)는 적절한 개수가 이용될 수 있다. 오토 인코더는 인코더 및 디코더를 포함할 수 있다.

본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크 학습 아키텍처는, 클린 데이터 네트워크(예를 들어, 가이딩 네트워크)를 포함할 수 있다. 클린 데이터 네트워크는 디노이징 네트워크(300)를 학습시키기 위한 것일 수 있다. 예를 들어, 클린 데이터 네트워크는, 디노이징 네트워크(300)의 적층된 컨볼루션 오토 인코더를 학습시키기 위한 것일 수 있다. 클린 데이터 네트워크는 또한, 컨볼루션 뉴럴 네트워크일 수 있다. 클린 데이터 네트워크는 디노이징 네트워크(300)와 동일한 개수의 필터링 계층, 즉, 제1, 제2, 제3 및 제4 필터링 계층(31, 32, 33, 34)을 포함할 수 있다.

클린 데이터 네트워크는, 잠정적 표현(latent representation)의 희소성을 강화하기 위해, 정규화(regularization)를 이용하여 원본 클린 이미지와 재구성된 이미지 사이의 평균 제곱을 최소화함으로써, 희소한 잠정적 표현을 학습하도록 학습된 인코더-디코더 쌍을 점차적으로 추가하여, 적층된 컨볼루션 오토 인코더로써 보다 깊게 훈련될 수 있다. 몇몇 실시예에서, 디노이징 네트워크(300) 및 클린 데이터 네트워크는 서로 동일한 아키텍처를 가질 수 있다. 예를 들어, 몇몇 실시예에서, 제1 내지 제4 필터링 계층(31, 32, 33, 34) 각각은, 3x3x1x10 디멘션을 가질 수 있고, 제1 및 제2 필터링 계층(31, 32)만이 정류기일 수 있다. 그러나, 본 발명의 기술적 사상이 이에 제한되는 것은 아니다. 예를 들어, 클린 데이터 네트워크는 임의의 개수의 필터링 계층을 포함하거나, 및/또는 임의의 방식으로 정렬된 필터링 계층을 포함할 수 있다.

도 4는 본 발명의 기술적 사상의 몇몇 실시예에 따른 이미지 디노이징 뉴럴 네트워크 학습 방법을 설명하기 위한 순서도이다.

도 1 및 도 4를 참조하면, 이미지 디노이징 뉴럴 네트워크 학습 아키텍처를 이용하는 이미지 디노이징 뉴럴 네트워크 학습 방법(500)은, 분산 안정화 변환 (뉴럴) 네트워크(100)를 학습하는 것(s510), 인버스 분산 안정화 변환 (뉴럴) 네트워크(200)를 학습하는 것(s520) 및/또는 디노이징 네트워크(300)를 학습하는 것(s530)을 포함할 수 있다.

몇몇 실시예에서, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는, 기울기 기반 확률적 최적화(gradient-based stochastic optimization) 및/또는 블록 좌표 하강 최적화(block-coordinate descent optimization)를 이용하여 학습될 수 있다. 몇몇 실시예에서, 기울기 기반 확률적 최적화는, 블록 좌표 하강 최적화 내에서 이용될 수 있다. 기울기 기반 확률적 최적화의 예시는, 아담 알고리즘(Adam algorithm)일 수 있다.

몇몇 실시예에서, 분산 안정화 변환 네트워크(100)를 학습하는 것(s510)과, 인버스 분산 안정화 변환 네트워크(200)를 학습하는 것(s520)은 공동으로(또는 동시에) 수행될 수 있다. 예를 들어, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 함께 학습될 수 있다. 몇몇 실시예에서, 블록 좌표 하강 최적화 접근법은, 각각의 반복에서 파라메터 업데이트가 수행되어 분산 안정화 변환 네트워크(100)의 목표를 감소시키고, 이어서 파라메터 업데이트가 수행되어 인버스 분산 안정화 변환 네트워크(200)의 목적을 감소시키기 위해 이용될 수 있다. 이러한 방식으로, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 함께(예를 들어, 공동으로 또는 동시에) 학습될 수 있다.

디노이징 네트워크(300)의 학습은, 디노이징 네트워크(300)의 사전 학습, 디노이징 네트워크(300)의 미세 조정 및 디노이징 네트워크(300)의 가이드된 학습을 포함할 수 있다. 디노이징 네트워크(300)의 가이드된 학습은, 클린 데이터 네트워크를 이용할 수 있다. 후술할 바와 같이, 클린 데이터 네트워크는 최적의 디노이징 네트워크를 위한 프록시로 동작할 수 있다.

도 1에 점섬으로된 화살표로 표시된 바와 같이, 클린 데이터 네트워크와 디노이징 네트워크(300) 사이에서, 정보는 공유될 수 있다. 후술할 정보 공유는 디노이징 네트워크(300)의 학습 프로세스를 정규화할 수 있다.

또한, 후술할 바와 같이, 클린 데이터 네트워크로부터 입력된 클린 데이터(즉, 타겟 데이터)와 디노이징 네트워크(300)로 입력되는 노이즈 데이터 사이의 공동 희소성(sparsity)을 야기(enforce)하는 손실 함수가 이용될 수 있다.

이미지 디노이징 뉴럴 네트워크가 예를 들어, 전술된 방법에 의해 학습된 후, 이미지 디노이징 뉴럴 네트워크는 본 발명의 기술적 사상의 몇몇 실시예에 따른 저조도 조건에서 촬영된 이미지를 향상시키는데 이용될 수 있다.

도 5는 본 발명의 기술적 사상의 몇몇 실시예에 따른 학습된 이미지 디노이징 뉴럴 네트워크를 이용하여 저조도 환경에서 촬영된 이미지를 향상시키는 방법을 설명하기 위한 순서도이다.

전술한 바와 같이, 비교적 저조도인 환경에서 촬영된 이미지는, 신호 종속적 푸아송 노이즈 성분 및 신호 독립적 가우시안 노이즈 성분의 두 개의 이미지 노이즈 성분을 포함할 수 있다.

학습된 이미지 디노이징 뉴럴 네트워크에 입력되는 이미지(예를 들어, 손상되거나 노이즈가 포함된 이미지)에는 먼저, 분산 안정화 변환 네트워크(100)가 적용될 수 있다(s610). 분산 안정화 변환 네트워크(100)는 입력 이미지가 입력 신호(예를 들어, 카메라 센서에 입력되는 신호)에 종속적인 분산 대신, 일정한 분산을 갖도록 변경(예를 들어, 변환 또는 인코딩)할 수 있다. 분산 안정화 변환 네트워크(100)는 픽셀 값에 대한 조건적인 기댓값 하에서 학습된 변환의 가역성(invertibility)을 야기시키기 위해, 단조로움을 보장하면서 일정한 출력 분산을 강요할 수 있는 손실 함수를 최소화하도록 최적화될 수 있다.

결과 이미지 신호는 일정한 분산을 갖는 노이즈로 손상되고, 따라서 가우시안 노이즈로 모델링될 수 있다. 즉, 학습된 분산 안정화 변환 네트워크(100)는 입력 이미지 내의 푸아송 노이즈를 가우시안 노이즈로 변환할 수 있다.

이미지(예를 들어, 인코딩된 이미지)에는 디노이징 네트워크(300)가 적용될 수 있다(s620). 학습된 디노이징 네트워크(300)는 이미지에서 가우시안 노이즈를 제거(또는 가우시안 노이즈의 양을 감소)할 수 있다. 예를 들어, 이미지는 연속적인 오토 인코더를 통과하여, 이미지에 존재하는 가우시안 노이즈의 양을 점차적으로 감소시킬 수 있다. 학습된 디노이징 네트워크(300)는 유사하게 변형된 지상 실측 정보(ground-truth) 비노이즈(non-noisy) 이미지와 비교하여 지각 손실을 최소화하거나, 노이즈가 포함된 이미지와 노이즈가 포함되지 않은(non-noisy) 이미지 사이의 평균 제곱 오차 거리를 최소화함으로써 학습될 수 있다.

이미지에는 인버스 분산 안정화 변환 네트워크(200)가 적용될 수 있다(s630). 인버스 분산 안정화 변환 네트워크(200)는, 분산 안정화 변환 네트워크(100)에 의해 완료된 인코딩을 반전시켜 원래의 도메인으로 이미지를 반환하기 위해, 디코더로 기능할 수 있다. 인버스 분산 안정화 변환 네트워크(200)는, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)의 연결의 예상된 출력 및 항등 변환으로부터의 출력으로부터 거리 메트릭을 최소화함으로써 학습될 수 있다. 예를 들어, 인버스 분산 안정화 변환 네트워크(200)는 예상된 출력, 예를 들어,

하에서 식별 매핑에 기초하여 학습될 수 있다. 여기서

와

는

의 기댓값을 나타낼 수 있다.

전술된 본 발명의 기술적 사상의 몇몇 실시예의 특징 및/또는 단계는 이하에서 더 설명된다.

이미지 소스(

)가 검출기(예를 들어, 디지털 카메라 센서)에 의해 기록될 때, 디지털 이미지(예를 들어, 디지털 이미지 신호)(

)가 생성될 수 있다. 이미지 소스(

) 및 디지털 이미지(

)는, 오직

에 의존하고,

번째 생성된 이미지 픽셀인

내의 균일한 공간 격자 상에 정의될 수 있다. 빛의 양자 본질 때문에, 주어진

의

에는 어느 정도의 불확실성이 있을 수 있다.

초 동안 검출기

에 의해 기록된 다수의 광자는, 속도

의 푸아송 분포를 따를 수 있다. 푸아송 분포는, 식 1에 의해 모델링될 수 있다.

(식 1)

분산 안정화 변환은 디지털 이미지를 안정화시키고, 이상적인 경우 정확한 비바이어스 인버스(unbiased inverse)를 허용(예를 들어, 인정)해야한다. 그러나, 어떤 경우에는, 분산 안정화 변환은 정확한 비바이어스 인버스를 허용하지 않을 수도 있다.

예를 들어, 분산 안정화 변환이 앤스콤 변환을 이용하는 경우, 정확한 비바이어스 인버스는 허용되지 않을 수 있다. 분산 안정화 변환의 이러한 안정화 요건(

)은, 식 2에 의해 모델링될 수 있다.

(식 2)

이상적인 디노이저(예를 들어, 이상적인 푸아송 디노이저)는,

로 간주될 수 있다. 다음,

는

를 이용하여 인버스 분산 안정화 변환을 제공할 수 있다. 인버스 분산 안정화 변환(

)은, 식 3을 만족해야한다.

(식 3)

그러나, 본 발명의 기술적 사상의 몇몇 실시예에 따르면, 모든 분산 안정화 변환이 식 3을 만족하는 인버스 분산 안정화 변환을 제공하는 것은 아니며, 모든 인버스 분산 안정화 변환이 안정화와 인버젼(inversion) 요구사항을 모두 만족하는 분산 안정화 변환을 제공하는 것은 아니다.

본 발명의 기술적 사상의 몇몇 실시예에 따르면, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 두 개의 뉴럴 네트워크에 의해 제공될 수 있다. 본 발명의 기술적 사상의 몇몇 실시예에 따른 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)의 학습 방법에 대해 아래에서 설명한다.

분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)의 뉴럴 네트워크 각각은, 파라메터(

)와 파라메터(

)를 가질 수 있다. 각각의

에 대해,

이

로부터 무작위로 그려지도록, 학습 세트인

가 생성될 수 있다.

임을 가정하면,

는 분산 안정화 변환 뉴럴 네트워크(100)에 의해 실현되는 분산 안정화 변환을 의미할 수 있다. 또한,

는 입력

에 응답하여 분산 안정화 변환 네트워크(100)의 출력에 대한 단시간일 수 있다. 보편성을 잃지 않고,

이라 한다. 그 다음, 몇몇 실시예에 따라, 식 4를 최적화함으로써 분산 안정화 변환이 제공될 수 있다.

(식 4)

식 4에서,

일 수 있다. 또한, 식 4에서,

및

각각은 입력 데이터 세트의 경험적 평균과 분산을 계산하는 것을 의미할 수 있다. 목적 함수의 첫 번째 항은, 안정화 요구를 따를 수 있다. 목적 함수의 두 번째 항은, 학습된 변환이 단조롭고, 따라서 가역적 조건이 가능함을 보장하는 것일 수 있다.

의 경험적 평균이

의 단조 증가 함수일 때, 목적 함수의 두 번째 항은 0과 같고, 가역적 조건을 만족하는 인버스 분산 안정화 변환은 그 존재가 보장될 수 있다.

인버스 분산 안정화 변환은 예를 들어, 가역성 조건을 따르는 식 5를 최적화함으로써 학습될 수 있다.

(식 5)

본 발명의 기술적 사상의 몇몇 실시예에서, 블록 좌표 하강 학습 방법은 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)를 학습시키는데 이용될 수 있고, 각 반복에서 파라메터 업데이트가 수행되어 분산 안정화 변환 목표를 감소시키고, 이어서 파라메터 업데이트가 수행되어 인버스 분산 안정화 변환 목표를 감소시킬 수 있다. 따라서, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 학습된 분산 안정화 변환에 대해 상응하고 정확한 인버스 분산 안정화 변환이 존재하도록, 함께(예를 들어, 공동으로, 또는 동시에) 훈련될 수 있다.

도 1을 참조하여 전술한 바와 같이, 디노이징 네트워크(300)는 하나 이상의 적층된 컨볼루션 오토 인코더를 포함할 수 있다. 본 발명의 기술적 사상의 몇몇 실시예에 따른 디노이징 네트워크(300)로써 적층된 컨볼루션 오토 인코더를 학습하는 방법이 이하에서 설명된다.

디노이징 네트워크(300)가 K개의 컨볼루션 오토 인코더를 포함하는 경우를 고려한다. 입력

에 응답하는 디노이징 네트워크(300)의 출력은, 식 6과 같이 주어질 수 있다.

(식 6)

식 6에서,

및

각각은, k번째 컨볼루션 오토 인코더의 인코딩 함수 및 디코딩 함수를 나타낼 수 있다. 함수

및

은, 식 7 및 식 8에서 각각 주어진다.

(식 7)

(식 8)

식 7 및 식 8에서,

은 인코더 및 디코더의 다수의 필터를 나타낼 수 있고,

는 입력의 각 요소에 적용되는 스칼라 비선형 함수일 수 있다. 여기서

는, 정류된 선형 함수로 설정될 수 있다.

몇몇 실시예에서, 디노이징 네트워크(300)는 사전 학습 (베이스 라인 학습) 단계 및 미세 조정 학습의 두 개의 단계로 더 학습될 수도 있다.

도 2는 본 발명의 기술적 사상의 몇몇 실시예에 따른 적층된 스파스(sparse) 디노이징 오토 인코더에 대한 베이스 라인(baseline) 학습 방법을 설명하기 위한 도면이다.

도 2를 참조하면, 본 발명의 기술적 사상의 몇몇 실시예에 따른 사전 학습 단계는, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)의 학습 후 발생될 수 있다. 디노이징 네트워크(300)(예를 들어, 디노이징 적층된 컨볼루션 오토 인코더)의 사전 학습은, K단계의 시퀀스를 포함할 수 있다.

디노이징 네트워크(300)는 노이즈가 포함된 입력(또는 잡음이 포함된 데이터)인

로 표시될 수 있다. 여기서,

는 타겟 데이터이고, 목표는

를 회복하는 것일 수 있다. 네트워크 파라메터는 목적 함수에서 디노이징 네트워크(300)에 대한 입력을

로 대체함으로써 학습될 수 있다. 도 2에서, 인코더(예를 들어, 분산 안정화 변환 네트워크(100)) 및 디코더(예를 들어, 인버스 분산 안정화 변환 네트워크(200))는 각각,

및

로 표시될 수 있고,

의 잠정적 표현은

로 표시될 수 있다. 여기서,

일 수 있다. 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)는 제1 인코더/디코더 쌍으로 취급될 수 있다.

도 2에 도시된 바와 같이, 디노이징 네트워크(300)(예를 들어, 적층된 컨볼루션 오토 인코더)는 학습된 분산 안정화 변환 네트워크(100)와 학습된 인버스 분산 안정화 변환 네트워크(200) 사이에 배치될 수 있다. (k-1)번째 인코더/디코더 쌍(즉, 분산 안정화 변환 네트워크(100) 및 인버스 분산 안정화 변환 네트워크(200)의 쌍) 사이에 배치된 k번째 인코더/디코더 쌍을 고려하면, k번째 인코더/디코더 쌍은 다른 계층(즉, 다른 인코더/디코더 쌍)이 식 9와 같이 손실 함수를 이용함으로써 동결(frozen)될 때, 최적화될 수 있다.

(식 9)

식 9에서,

는 k번째 디노이징 네트워크(300)(예를 들어, 적층된 컨볼루션 오토 인코더)를 매개 변수화(parametrize)하는 바이어스 및 가중치를 나타낼 수 있다.

몇몇 실시예에서, 적층된 스파스 디노이징 오토 인코더(stacked sparse denoising autoencoder (SSDA))는 단일 계층 스파스 디노이징 오토 인코더 대신 이용될 수 있다.

몇몇 실시예에서, 디노이닝 네트워크(300)는 식 10을 최적화함으로써 종단 간 미세 조정(end-to-end fine-tuning)을 포함할 수 있다.

(식 10)

전술한바와 같이, 본 발명의 기술적 사상의 몇몇 실시예에 따라, 입력 신호의 잠재적 표현을 학습하기 위해 이용되는 클린 네트워크의 적층된 컨볼루션 오토 인코더와 같은 적층된 컨볼루션 오토 인코더는, 뉴럴 네트워크 아키텍처를 가질 수 있고, 감독되지 않은 방식으로 데이터의 의미있는 표현을 학습하기 위해 이용될 수 있다. 예를 들어, 오토 인코더는 인코더

및 디코더

를 포함할 수 있다. 인코더는 식 11에 주어진 바와 같이, 입력

를 잠재적 표현

에 매핑시킬 수 있다. 디코더는

를 식 12에 매핑시킬 수 있다.

(식 11)

(식 12)

식 11 및 식 12에서,

및

은 입력 벡터의 각 항에 적용될 수 있는 비선형 스칼라 함수들일 수 있다. 목표는, 인코더

를 이용하여 인코딩한 후, 디코더

를 이용하여 클린 신호

를 재구성하기 위해

를 갖는 것인데, 네트워크 파라메터는 식 13을 해결함으로써 학습될 수 있다.

(식 13)

식 13에서,

이고,

은 학습 포인트의 개수를 나타내고,

는 i번째 학습 포인트를 나타낼 수 있다.

그러나, 오토 인코더는 의미있는 용어가 문맥에 의존적인 경우, 데이터의 의미있는 표현을 반드시 학습할 필요는 없을 수 있다. 오토 인코더를 조종하기 위해, 오토 인코더의 구조나 목적 함수에 추가적인 제한이 추가되어, 오토 인코더가 특정 속성으로 잠재된 표현을 학습할 수 있도록 조정될 수 있다.

예를 들어, (식 11 및 식 12)의

가 미완성으로 제한되는 경우, 다시 말해서서

인 경우, 오토 인코더는 데이터 압축을 학습해야 할 수 있다. 본 발명의 기술적 사상의 몇몇 실시예에서,

는 오버컴플릿(overcomplete)되도록, 즉,

이 되도록 허여될 수 있다. 이 경우, 오토 인코더의 목적 함수는 오토 인코더가 스파스 잠재 표현을 학습하도록 수정될 수 있다. 스파스 잠재적 표현을 학습하는 오토 인코더는 "스파스 오토 인코더"로 지칭될 수 있다. 이를 위해, 목적 함수는 식 14와 같이 수정될 수 있다.

(식 14)

일 때, 식 15 및 식 16은 다음과 같을 수 있다.

(식 15)

(식 16)

식 15 및 식 16에서,

는

의 j번째 요소일 수 있고,

는 값이 할당될 때 희소성을 향상시키는 스칼라일 수 있다. 추가적인 정규화는, 모든 j에 대해 평균을 구한 평균

및

를 갖는 베르누이 확률 변수들 사이의 KLD(Kullback-Leibler divergence)를 나타낼 수 있다.

스파스 오토 인코더는 디노이징에 유용한 아키텍처일 수 있고, 스파스 오토 인코더가 디노이징에 이용되는 경우, 오토 인코더는 "스파스 디노이징 오토 인코더"로 지칭될 수 있다. 이 경우, 입력 신호는, 노이즈가 포함된 신호인

로부터 클린 신호인

를 구성하기 위해, 디노이징 인코더인

에 의해 인코딩되고, 그 다음 디노이징 디코더인

에 의해 디코딩된 노이즈가 포함된 신호

일 수 있다. 인코더/디코더 쌍은 식 16b와 같이 거리 매트릭을 최소화함으로써 학습될 수 있다.

(식 16b)

몇몇 실시예에서, 디노이징 네트워크(300)는 입력과 타겟 출력이 각각

및

로 표현될 수 있는 추가적인 디노이징 오토 인코더를 추가(즉, 적층)함으로써, 더 깊게 만들어질 수 있다. 디노이징 오토 인코더의 개수는 제한되지 않으며, 추가적인 디노이징 오토 인코더는 더 깊은 구조를 제공하기 위해 추가될 수 있다.

몇몇 실시예에서, 적층된 스파스 디노이징 오토 인코더 파라메터는 한 번에 하나의 스파스 디노이징 오토 인코더에 대한 디노이징 오토 인코더 목표를 최소화함으로써, 점진적인 방식으로 학습될 수 있다. 적층된 스파스 디노이징 오토 인코더 구조는 식 17을 최적화함으로써 미세 조정된 DNN(deep neural network) 디노이저를 초기화하기 위해 이용될 수 있다.

(식 17)

식 17에서,

는 입력인

에 응답하는 디노이징 네트워크(300)의 출력을 나타낼 수 있고,

는 DNN의 모든 파라메터 세트를 나타낼 수 있다.

몇몇 실시예에서, 적층된 스파스 디노이징 오토 인코더는 학습될 수 있다. 단일 스파스 디노이징 오토 인코더의 학습에 있어서 하나의 문제점은, 좋은 인코더

를 찾는 것일 수 있다. 상위 레벨에서, 인코더는

에 할당된 잠재적 표현을 정의할 수 있고, 이러한 표현의 품질은 오토 인코더의 최적 디노이징 성능을 정의할 수 있다.

몇몇 실시예에서, 클린 데이터(예를 들어, 상대적으로 노이즈가 없는 이미지, 즉, 클린 데이터 네트워크)에 대해 학습된 오토 인코더의 인코더

는, 최적의 디노이징 인코더를 위한 프록시로 이용될 수 있고,

와

사이의 거리에 의해 각각의 디노이징 오토 인코더를 학습하는데에 이용되는 목적 함수를 정규화할 수 있다. ,

와

사이의 거리는,

와

사이의 공동 희소성의 측정값을 이용함으로써 정량화될 수 있다.

스파스 디노이징 오토 인코더(예를 들어, 단일 스파스 디노이징 오토 인코더)는, 식 18과 같이 그들의 학습된 잠재적 표현의 공동 희소성을 야기시키기 위한 것 뿐만 아니라, 클린 적층된 컨볼루션 오토 인코더 및 잡음이 포함된 적층된 컨볼루션 오토 인코더 모두에 대한 제약을 포함하도록 목적 함수를 수정함으로써 클린 적층된 컨볼루션 오토 인코더와 공동으로 학습될 수 있다.

(식 18)

식 18에서,

는 식 19에 의해 정의될 수 있다.

(식 19)

식 18에서(즉, 목적 함수에서), 첫번째 및 두번째 항은 클린 네트워크의 스파스 오토 인코더(즉, 스파스 디노이징 오토 인코더) 재구성 손실에 해당할 수 있고, 세번째 및 네번째 항은 스파스 오토 인코더 디노이징 손실에 해당할 수 있고, 마지막 항은 클린 이미지 네트워크에 의해 학습된 잠재적 표현들 간의 공동 희소성을 최대화함으로써 학습된 것을 정규화하는,

와

를 연결하는 지침 용어(guidance term)을 나타낼 수 있다. 또한, 잠재된 표현은 디노이징 네트워크에 의해 학습될 수 있다. 공동 희소성 정규화는 유사한 희소성 프로파일을 갖는

및

를 촉진하려고 할 수 있다.

몇몇 실시예에서, 가이드된 적층된 스파스 디노이징 오토 인코더(G-SSDA) 목적 함수는 미분 가능하고, 예를 들어, 확률적 기울기 기반 최적화(stochastic gradient-based optimization) 기술을 이용하여 최적화될 수 있다.

본 발명의 기술적 사상의 실시예는 다양한 서로 다른 디노이징 아키텍처(즉, 디노이징 뉴럴 네트워크)로 통합될 수 있고, 분류 오차로 재구성된 오차가 대체되도록 수정될 수 있도록 디노이징 네트워크(300)를 학습하기 위한 유연한 접근법을 제공할 수 있다. 재구성된 오차를 분류된 오차로 대체함으로써, 디노이징 뉴럴 네트워크는 이미지 분류 및 조직화를 위해 재목적화될 수 있다.

초기에, 가이드된 오토 인코더(즉, 이미지 디노이징 뉴럴 네트워크)는 타겟 이미지(즉, 클린 또는 노이즈가 없는 이미지)와 상대적으로 멀 수 있다. 따라서, 학습 초기에, 식 18의

는 기준으로 이용될 수 있다. 그러나, 학습이 진행되면서, 가이드된 오토 인코더는 향상될 수 있고, 더 큰 정규화 파라메터가 정당화될 수 있다. 따라서, 몇몇 실시예에서,

는 로그 선형 비율로 증가될 수 있다.

본 발명의 기술적 사상의 몇몇 실시예에 따른 가이드된 스파스 디노이징 오토 인코더 학습 방법은, 더 깊은 구조(예를 들어, 깊은 네트워크)로 확장될 수 있다. 다른 실시예에서, 가이드 오토 인코더(즉, 클린 데이터 네트워크)는, 가이드된 스파스 디노이징 오토 인코더 학습 방법에 대한 대안적인 학습 전략으로 이용될 수 있다.

도 3은 두 개의 스파스 디노이징 오토 인코더(410, 420)을 포함하는 적층된 스파스 디노이징 오토 인코더를 포함하는 디노이징 네트워크를 훈련하는 것을 설명하기 위한 도면이다.

도 3을 참조하면, 제1 스파스 디노이징 오토 인코더(즉, 학습된 스파스 디노이징 오토 인코더 또는, 클린 데이터 오토 인코더)(410)는 이전에 학습되어 있을 수 있고, 제2 스파스 디노이징 오토 인코더(420)는 학습되지 않은 상태에서 시작될 수 있다. 제1 및 제2 스파스 디노이징 오토 인코더(410, 420)는 각각, 클린 데이터 네트워크 및 디노이징 네트워크(300)로 지칭될 수 있다. 예를 들어, 제1 스파스 디노이징 오토 인코더(410)는 클린 데이터(예를 들어, 클린 또는 상대적으로 노이즈가 없는 이미지)를 이용하여 학습되었을 수 있고, 최적의 스파스 디노이징 오토 인코더에 대한 프록시로 간주되었을 수 있다.

제2 스파스 디노이징 오토 인코더(420)(즉, 학습되지 않은 스파스 디노이징 오토 인코더 또는 노이즈 데이터 오토 인코더)를 학습시키는 기본 전략은 식 20을 최적화하는 것일 수 있다. 여기서,

및

는 스파스 디노이징 오토 인코더에서 학습될 새로운 인코더 및 디코더 함수일 수 있다.

(식 20)

그러나, 본 발명의 기술적 사상의 몇몇 실시예에 따르면, 제2 스파스 디노이징 오토 인코더(420)에 대한 타겟 데이터로

를 이용하는 것 대신, 네트워크는, 제2 스파스 디노이징 오토 인코더(420)에 대한 타겟 데이터로

를 이용할 수 있다.

는, 상응하는 네트워크 단계에서 클린 네트워크의 인코딩된 출력일 수 있다. 그러므로, 목적 함수는, 식 21과 같이 최적화될 수 있다.

(식 21)

제2 스파스 디노이징 오토 인코더(420)에 의해

에 할당된 최신 표현 대신에, 적층된 스파스 디노이징 오토 인코더는, 타겟 데이터로써 제1 스파스 디노이징 오토 인코더(410)에 의해

에 할당된 잠재적 표현을 이용할 수 있다. 이는,

는 노이즈 입력(예를 들어, 노이즈가 포함된 입력 신호)을 이용하여 학습되지 않은 반면,

는 클린 입력(예를 들어, 클린 입력 신호)를 이용하여 학습되어 있어 더 나은 타겟 잠재적 표현을 제공해야하기 때문이다.

다음으로, 목적 함수(예를 들어, 식 21)는

와

사이의 거리를 최소화(또는 최적화)함으로써, 제2 스파스 디노이징 오토 인코더(420)를 학습시키기 위해 정규화될 수 있다. 예를 들어,

와

사이의 거리는,

와 같이, 디멘션

의 잠재적 표현인

와

사이의 공동 희소성을 측정함으로써 정량화될 수 있다.

다음으로, 손실 함수는 식 22에 나타난 바와 같이 최적화될 수 있다.

(식 22)

손실 함수의 최적화(예를 들어, 식 19 및 식 22)는 클린 데이터 오토 인코더(410) 및 노이즈 데이터 오토 인코더(420)의 공동 학습을 제공할 수 있다.

클린 데이터 오토 인코더(410)가 사전 학습될 때, 클린 데이터 오토 인코더(410)의 잠재적 표현은 노이즈 데이터 오토 인코더(420)의 추가적인 오토 인코더(즉, 추가적인 인코더/디코더 쌍)를 사전 학습시키기 위한 타겟으로 이용될 수 있다.

도 5를 참조하여 전술한 바와 같이, 이미지 디노이징 뉴럴 네트워크가 본 명세서에 개시된 방법으로 적절하게 학습되면, 임의의 적절한 입력 이미지를 디노이징(즉, 노이즈를 제거)하는데에 이용될 수 있다.

예를 들어, 사용자가 휴대 전화 카메라를 이용하여 디지털 이미지를 촬영하는 경우, 이미지가 상대적으로 저조도 환경에서 촬영된다면 상대적으로 높은 노이즈가 발생되어 이미지 품질이 하락될 수 있다. 이미지의 노이즈를 제거 또는 감소시키기 위해, 이미지 디노이징 뉴럴 네트워크로 이미지가 입력될 수 있다. 이미지 디노이징 뉴럴 네트워크는, 예를 들어, 휴대 전화의 프로세서에서 실행될 수 있고, 이미지가 촬영될 때 자동적으로 실행될 수 있다. 그 다음, 분산 안정화 변환 네트워크(100)는 이미지를 변환(또는 인코딩)하여, 이미지가 일정한 또는 실질적으로 일정한 출력 분산을 갖도록 할 수 있다. 다음으로, 디노이징 네트워크(300)는 이미지에 존재하는 가우시안 노이즈를 제거 또는 감소시킬 수 있다. 마지막으로, 인버스 분산 안정화 변환 네트워크(200)는 이미지를 원본 도메인으로 변환(또는 디코딩)할 수 있다. 따라서, 입력 이미지에 비해 감소된 노이즈를 포함하여 더 나은 품질을 갖게된 출력 이미지는, 사용자에게 제공될 수 있다.

이상 첨부된 도면을 참조하여 본 발명의 실시예들을 설명하였으나, 본 발명은 상기 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 제조될 수 있으며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.

100: 분산 안정화 변환 네트워크
200: 인버스 분산 안정화 변환 네트워크
300: 디노이징 네트워크

Claims

이미지 디노이징 뉴럴 네트워크(image denoising neural network); 및
클린 데이터 뉴럴 네트워크(clean data neural network)를 포함하고,
상기 이미지 디노이징 뉴럴 네트워크 및 상기 클린 데이터 뉴럴 네트워크는, 서로 정보를 공유하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
제 1항에 있어서,
상기 이미지 디노이징 뉴럴 네트워크는,
분산 안정화 변환(variance-stabilizing transform (VST)) 네트워크;
인버스 분산 안정화 변환(inverse variance-stabilizing transform (IVST)) 네트워크; 및
상기 분산 안정화 변환 네트워크와 상기 인버스 분산 안정화 변환 네트워크 사이의 디노이징 네트워크를 포함하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
제 2항에 있어서,
상기 디노이징 네트워크는 서로 적층된 복수의 컨볼루션 오토 인코더(convolutional autoencoder)를 포함하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
제 3항에 있어서,
상기 분산 안정화 변환 네트워크는, 복수의 필터링 계층 및 복수의 정류(rectifying) 계층을 포함하고,
상기 복수의 필터링 계층 및 상기 복수의 정류 계층은 컨볼루션 뉴럴 네트워크를 형성하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
제 4항에 있어서,
상기 이미지 디노이징 뉴럴 네트워크는, 입력 이미지의 일정한 출력 분산을 야기하는 단조 가역성 변환(monotonic invertible transform)을 학습하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
제 5항에 있어서,
상기 복수의 필터링 계층은 제1 필터링 계층을 포함하고,
상기 제1 필터링 계층은 상기 입력 이미지에 대해 비닝 동작(binning operation)을 수행하는 이미지 디노이징 뉴럴 네트워크 학습 아키텍처.
분산 안정화 변환 네트워크 및 인버스 분산 안정화 변환 네트워크를 공동으로 학습시키고,
디노이징 네트워크를 학습시키는 것을 포함하는, 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법.
제 7항에 있어서,
상기 분산 안정화 변환 네트워크 및 상기 인버스 분산 안정화 변환 네트워크를 공동으로 학습시키는 것은,
각 반복에서, 상기 분산 안정화 변환 네트워크의 목적을 감소시키는 제1 파라메터 업데이트가 수행되고, 상기 인버스 분산 안정화 변환 네트워크의 목적을 감소시키는 제2 파라메터 업데이트가 수행되는, 블록 좌표 하강 최적화(block-coordinate descent optimization)를 이용하는 것을 포함하는 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법.
제 7항에 있어서,
상기 분산 안정화 변환 네트워크 및 상기 인버스 분산 안정화 변환 네트워크를 공동으로 학습시키는 것은,
기울기 기반 확률적 최적화(gradient-based stochastic optimization)를 이용하는 것을 포함하는 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법.
제 7항에 있어서,
상기 디노이징 네트워크를 학습시키는 것은,
클린 데이터 스파스 디노이징 오토 인코더(clean data sparse denoising autoencoder)에 디노이징된 이미지를 입력하고,
노이즈 데이터 스파스 디노이징 오토 인코더(noisy data sparse denoising autoencoder)에 상기 디노이징된 이미지의 노이즈 버전을 입력하고,
기울기 기반 확률적 최적화(gradient-based stochastic optimization) 기술을 이용하여, 상기 디노이징된 이미지를 출력하는 상기 노이즈 데이터 스파스 디노이징 오토 인코더를 학습시키는 것을 포함하는 이미지 디노이징 뉴럴 네트워크를 학습시키는 방법.