KR20210085373A

KR20210085373A - 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법

Info

Publication number: KR20210085373A
Application number: KR1020190178342A
Authority: KR
Inventors: 이광엽; 이학현
Original assignee: 서경대학교 산학협력단
Priority date: 2019-12-30
Filing date: 2019-12-30
Publication date: 2021-07-08

Abstract

본 발명은 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법에 관한 것이다.
본 발명에서는 신경망의 가중치를 수정하기 위한 손실함수(Loss Function)를 평균 절대값 오차를 제1학습률로 제1에포크만큼 학습시킨 뒤 구조적 유사도로 손실함수를 변경한 후 제2학습률로 제2에포크로 학습시키는 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법이 개시된다.
본 발명에서는 L1 손실함수를 통해 우선적으로 가중치를 어느정도 학습시킨 뒤에 SSIM 손실함수로 전환(switching)하여 SSIM 손실을 최소화하므로 적절한 연산 속도에서 수행 가능하면서도 학습된 가중치 갑이 가장 좋은 성능의 뉴럴 테트워크 값인지에 대한 확신을 가질 수 있게 되었다.

Description

이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법{DATA LEARNING METHOD IN NEURAL NETWORK FOR IMAGE NOISE CANCELLATION}

본 발명은 이미지 잡음제거용 뉴럴네트워크에서 데이터 학습 방법에 관한 것으로서 보다 구체적으로는 학습 과정 중에서 손실(LOSS) 함수를 스위칭하여 학습 효과를 올리는 이미지 잡음제거용 뉴럴네트워크에서 데이터 학습 방법에 관한 것이다.

매우 현실적인 컴퓨터 그래픽을 생성하기 위해서 광원에서 나오는 빛을 추적하여 빛에 의한 효과들을 재현하는 컴퓨터 그래픽 기법을 레이 트레이싱(ray tracing)이라 한다. 하지만, 광원에서부터 빛을 하나하나 추적하여 이미지를 만들어 내기 때문에 연산 량이 굉장히 많다. 이를 해결하기 위해 이미지의 픽셀에서부터 역으로 빛을 추적해 광원까지 추적하는 방법을 패쓰 트레이싱(path tracing)이라 하며, 현재는 패쓰 트레이싱(path tracing)이 레이 트레이싱(ray tracing)을 의미한다.

픽셀에서의 모든 빛을 추적하여 이미지를 만드는 것은 현실적으로 불가능하다. 따라서, 몇 개의 빛을 픽셀에서부터 출발하여 추적하게 되는데 이들의 평균을 내어 픽셀 값을 정하게 된다. 이 방법을 몬테 카를로 렌더링(Monte Carlo Rendering)이라고 한다.

몬테카를로 렌더링은 빛을 광원에서부터 추적하여 픽셀값을 구하는것이 아닌, 픽셀에서부터 광선을 발사하여 광원까지 도착하는 광선을 구하고 그 값들의 평균을 구하는 방법으로 원본 이미지를 출력하는 기법으로서, 최근에는 적은 수의 광선만을 사용하여 렌더링한 후에 뉴럴 네트워크를 통해 잡음을 제거하는 방법으로 주로 수행되고 있다. 뉴럴 네트워크의 경우 아키텍쳐에 사용되는 가중치 변수 및 편향값에 따라 잡음 제거 능력이 달라지므로 적합한 가중치 변수를 정하기 위해서는 많은 데이터를 학습시켜야 한다. 이와 같이 데이터 학습량을 늘리기 위해서는 충분한 학습 데이터를 필요로 함과 동시에 적합한 손실 함수를 선정하여 학습시켜야 한다.

종래 이미지 잡음제거용 뉴럴네트워크의 학습에서는 평균 절대값 오차(Mean Absolute Error, 이하 'MAE' 또는 'L1'이라 함, 수학식 1 참조)를 손실함수로 사용하였다. 수학식 1은 L1 함수를 나타내며, 수학식 1에서 y는 원본 이미지의 픽셀값을 나타내며, x는 노이즈 이미지의 픽셀값을 나타낸다.

그런데 뉴럴 네트워크 학습에 손실함수로 L1 함수를 사용할 경우에는 연산 속도가 빠르고 오버피팅(overfitting)이 적으므로 뉴럴 네트워크의 수렴 속도가 빨라지지만 학습된 가중치의 값이 확실히 가장 좋은 성능의 뉴럴 네트워크 값인지 확신할 수 없는 문제점이 있었다.

한국등록특허 제10-2046134호 (2019.11.12 등록)

본 발명은 상기와 같은 문제점을 해결하고자 하는 것으로서, 학습 시간을 줄이고 노이즈 제거 성능이 뛰어난 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법을 제시하는 것을 목적으로 한다.

본 발명의 상기 목적은 본 발명은 5층으로 구성되어 처리되는 이미지의 크기를 줄이면서 특징점(feature map) 개수를 늘리며 활성화 함수로 Rectified Linear Unit을 사용하고 특징점의 개수가 최대 512개까지 증가하는 인코더와, 7층으로 구성되어 인코더를 통과하여 크기가 줄어들고 특징점이 많아진 이미지를 다시 원본크기의 이미지로 복원하며 특징점을 줄이면서 잡음을 제거하고 1x1 합성곱을 통해 처리속도를 향상시켜 더 깊은 신경망을 구성하게 해주는 디코더 및 4층으로 구성되어 디코딩이 완료된 이미지의 필터의 경계에서 나타나는 체크무늬 패턴과 미처 제거되어지지 못한 잡음을 제거하는 재구축(Reconstruction)을 포함하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법에 있어서, 신경망의 가중치를 수정하기 위한 손실함수(Loss Function)를 평균 절대값 오차를 제1학습률로 제1에포크만큼 학습시킨 뒤 구조적 유사도로 손실함수를 변경한 후 제2학습률로 제2에포크로 학습시키는 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법에 의해서 달성 가능하다.

제1학습률보다 제2학습률이 더 작고, 제1에포크는 제2에포크보다 큰 것이 바람직하다.

제1학습률은 1e-4 ~ 1e-5 (0.0001 ~ 0.00001) 중 선택된 하나의 값을 가지며, 제2학습률은 1e-5 ~ 1e-6 (0.00001 ~ 0.000001) 중 선택된 하나의 값을 가지도록 학습하고, 제1에포크는 8~12 에포크 중 선택된 하나의 에포크로 수행하고, 제2에포크는 5~10에포크 중 선택된 하나의 에포크로 수행하는 것이 좋다.

더욱 바람직하게는 제1학습률은 1e-4(0.0001)이며, 제2학습률은 1e-5(0.00001)이며, 제1에포크는 10 에포크이며, 제2에포크는 5 에포크인 것이 좋다.

이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습할 때, 손실함수를 하나로 고정하여 사용할 경우에는 많은 문제를 일으킨다. 예를 들어, L1 함수를 사용할 경우에는 연산 속도가 빠르고 오버피팅(overfitting)이 적으며 뉴럴 네트워크의 수렴 속도가 빨라지지만 학습된 가중치의 값이 확실히 가장 좋은 성능의 뉴럴네트워크 값인지 확신할 수 없었다. SSIM 손실함수를 단독으로 학습할 경우, 가중치가 수렴하지 못하게 된다. 그이유는 가중치의 극소값들(optima)이 너무 작게 많이 분포하기 때문에, 가중치의 계산이 전체의 최소값이아닌 극소값들로 수렴될 경우가 많기 때문이다.

본 발명에서는 L1 손실함수를 통해 우선적으로 가중치를 어느정도 학습시킨 뒤에 SSIM 손실함수로 전환(switching)하여 SSIM 손실을 최소화하므로 적절한 연산 속도에서 수행 가능하면서도 학습된 가중치 값이 가장 좋은 성능의 뉴럴 테트워크 값인지에 대한 확신을 가질 수 있게 되었다.

도 1은 본 발명에서 사용한 프리프로세싱을 통과한 입력 영상을 도시한 도면.
도 2는 본 발명에 사용된 뉴럴 네트워크 구조도.
도 3은 손실함수 L1 함수와 L2 함수의 그래프.
도 4는 학습량에 따른 발산 가능성을 설명하는 도면.
도 5는 본 발명에 따른 학습 방법에 의한 학습 결과와 다른 방법에 따른 학습 결과를 보여주는 이미지.
도 6은 이미지 품질 테스트 결과를 도시한 이미지.

본 발명에서 사용하는 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

또한, 본 명세서에서, "~ 상에 또는 ~ 상부에" 라 함은 대상 부분의 위 또는 아래에 위치함을 의미하는 것이며, 반드시 중력 방향을 기준으로 상 측에 위치하는 것을 의미하는 것은 아니다. 또한, 영역, 판 등의 부분이 다른 부분 "상에 또는 상부에" 있다고 할 때, 이는 다른 부분 "바로 상에 또는 상부에" 접촉하여 있거나 간격을 두고 있는 경우뿐 아니라 그 중간에 또 다른 부분이 있는 경우도 포함한다.

또한, 본 명세서에서, 일 구성요소가 다른 구성요소와 "연결된다" 거나 "접속된다" 등으로 언급된 때에는, 상기 일 구성요소가 상기 다른 구성요소와 직접 연결되거나 또는 직접 접속될 수도 있지만, 특별히 반대되는 기재가 존재하지 않는 이상, 중간에 또 다른 구성요소를 매개하여 연결되거나 또는 접속될 수도 있다고 이해되어야 할 것이다.

또한, 본 명세서에서, 제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.

이하에서, 첨부된 도면을 참조하여 본 발명의 바람직한 실시예, 장점 및 특징에 대하여 상세히 설명하도록 한다.

1. 배치 생성

원본 이미지의 무작위 위치에서 65 x 65 크기로 추출한 패치(patch) 단위의 작은 이미지를 복수 개 생성하였다. 원본 이미지를 이용해 학습을 할 경우 너무 큰 용량의 메모리를 필요로 하므로, 패치 단위로 나누어 저장한 뒤에 배치(batch) 단위로 패치(patch)들을 모아서 사용한다. 학습에서 사용되는 이미지의 용량은 약 202GB이며, 65 x 65 이미지 크기로 약 5만장이다. 이를 1 에포크(epoch)라 한다.

Renderer에서 생성되는 이미지는 Color(R, G, B)를 출력하는 것뿐만 아니라 추가적으로 Color값을 계산하기위해 사용된 값들을 출력시킬 수 있다. 이를 활용하여 뉴럴 네트워크의 입력으로 사용한다. Color값 3 채널과 Specular(정반사 효과) 3채널, Diffuse(난반사 효과) 3채널, Normal(법선) 3채널, Albedo(반사율) 3채널 Depth(깊이) 1채널이 기본적으로 생성되며, 추가적으로 Color, Specular, Diffuse, Normal, Albedo의 분산(Variance) 2채널씩과 Depth의 분산 1채널 총 22채널을 이용한다.

값이 크고 편차가 큰 값이 뉴럴 네트워크의 입력으로 사용될 경우 뉴럴 네트워크가 발산할 가능성이 올라가며, 수렴속도가 느려진다. 따라서, 뉴럴 네트워크의 입력으로 사용하기 위해 값이 큰 분산을 제곱근을 취해 표준편차로 변환하는 작업을 진행한다.

추가적으로, 노이즈(noise)의 후보와 엣지(edge)들을 검출하기 위해 픽셀 값 변화량(gradient)를 계산한다. 변화량(gradient)은 x방향으로 한 번, y방향으로 한 번 계산하게 되며 Color, Specular, Diffuse, Normal, Albedo, Depth 총 16채널씩 2개가 생성된다. 이는 뉴럴 네트워크에 추가적으로 힌트를 주게 된다.

노이즈가 너무 많은 이미지만 있을 경우에도, 뉴럴 네트워크의 수렴을 힘들게 할 가능성이 존재한다. 따라서, 메디안(Median) 연산을 통해 노이즈를 조금 제거한 메디안 데이터(median data)를 사용한다. 이는 노이즈가 존재하는 Color, Specular, Diffuse에서만 적용한다. Preprocessing을 통과한 이미지는 총 63채널을 가지게 되며, 이를 뉴럴 네트워크의 입력으로 사용한다. 도 1은 본 발명에서 사용한 프리프로세싱을 통과한 입력 영상을 도시한 것이다.

프리프로세싱이 완료된 이미지 32를 모아 한 개의 배치로 사용한다. 다시 말해 63개 채널이 하나의 패치를 구성하며, 32개의 패치가 모여 한 개의 배치 단위로 구성된다. 이를 뉴럴 네트워크 입력으로 사용하였다.

2. 뉴럴 네트워크 구조

도 2는 본 발명에 사용된 뉴럴 네트워크 구조도이다. 본 발명에 따른 학습방법은 도 2에 제시된 뉴럴 네트워크 구조에 한정되지 않으나 예시적으로 도 2로 제시된 뉴럴 네트워크 구조를 이용하여 설명하기로 한다.

뉴럴 네트워크는 인코더(Encoder), 디코더(decoder) 및 재구축(Reconstruction)으로 구성된다.

인코더는 이미지의 사이즈는 줄이면서 특징점들의 개수를 늘리는 작업이다. 실제로 이미지가 1024 x 1024의 크기일 경우 인코딩을 거치며 1024 x 1024, 512 x 512, 256 x 256, 128 x 128 크기까지 줄어들며, 중간에 인코딩과 디코딩 사이의 병목층에서는 총 512개의 특징점을 가진다. 인코딩에서의 각 층의 정보는 저장되어 디코딩에서 Skip Connection으로 사용된다.

디코더는 특징점을 다시 줄이며 원본 이미지를 복구하는 작업이다. 각 층은 인코딩 레이어와 Skip Connection을 통해 연결 되어있다. 이 Skip Connection은 인코딩을 통과하며 찾아낸 특징점들을 원본 이미지를 복원할 때 더해줌으로써 훈련시에 좀더 빠르게 원본 이미지에 가까운 이미지를 생성하는 가중치 값을 찾아내고, 실제 이미지의 상세한 부분을 더 잘 살려준다.

또한, 이미지가 원본을 복원하면서, 특징점들을 줄이게 되므로, 1 x 1 convolution을 사용할 수 있다. 1 x 1 convolution은 필터를 통과하기 전에 특징점들을 우선적으로 줄임으로써 연산 량을 최대 1/10까지 줄일 수 있다.

재구축은 인코딩/디코딩을 완료한 이미지의 후처리를 위한 층이다. 인코딩/디코딩층에서 미처 제거되지 못한 노이즈와 인코딩/디코딩을 통과하며 필터의 경계에서 발생하는 체크무늬 패턴을 제거하기 위해 사용된다. 이 층을 통과한 이미지는 특징점들로 이루어진 이미지에서 R, G, B로만 구성된 3채널의 이미지로 변환된다.

3. 학습 방법

학습을 할 때, 사용하는 손실 함수(loss function)는 학습의 수렴 속도와 결과물에 대해 많은 영향을 미친다. 손실 함수(Loss Function)를 통해 비교하는 이미지와의 차이를 계산하고 그 차이를 바탕으로 역전파(backpropagation)가 진행되어 가중치 변수가 변경되기 때문이다.

본 발명에서는 최초 학습시에는 L1 함수를 이용하고, 이후 단계에서 구조적 유사도 손실 함수를 이용하여 뉴럴 네트워크를 학습시키는 것을 특징으로 한다.

L1 함수는 수학식 1을 이용하여 설명하였다. 이하, 구조적 유사도(Structural SIMilarity, 이하 'SSIM'이라 함) 손실 함수에 대해 간략히 설명하기로 한다. SSIM은 픽셀당 차이를 계산하는 L1, L2 함수와는 달리 원본영상과의 인간의 시각에서 중요하게 인식하는 세 가지의 비교 측정값을 기반으로 한다.

세 가지 비교 측정값은 휘도(Luminance), 명암비(contrast), 구조(structure)로 구성되어 있으며 N x N 크기의 이미지에 대해 원본 이미지를

으로 나타내고 비교이미지를

으로 나타냈을 때, 휘도(luminance), 명암비(contrast), 구조(structure)는 수학식 2, 3 및 4와 같이 정의한다.

이때 상수값

로 정의한 뒤에 연립하여 계산하면 수학식 5와 같이 SSIM(Structure SIMilarity)이 구해진다.

영상의 품질을 평가할 때에는 윈도우(Window) 단위로 나누어 각 윈도우의 SSIM을 구한 뒤에 평균을 내어 사용한다. 윈도우란 이미지를 작은 단위로 나누어서 계산하는 것을 뜻하며 본 발명에서 SSIM은 주로 11 x 11 크기로 나누어서 따로따로 SSIM을 구한 뒤에 그 값들의 평균을 수학식 6과 같이 구하였다.

SSIM은 0과 1사이의 값으로 1에 가까울수록 높은 품질의 영상을 뜻한다. 이때, 손실함수로 사용할 때, Optimizer를 경사하강법(Gradient Descent)을 사용하기 때문에 1에서 SSIM을 뺀값을 Loss 값으로 이용한다(수학식 7).

SSIM으로 훈련을 시작하면 발산하므로 SSIM으로 훈련을 진행할 수 없다.

본원 발명자는 이러한 손실함수의 단점을 극복하고자 학습의 시작은 L1 Function으로 진행하고 이후에 SSIM으로 스위칭하고 학습률(learning rate)을 낮추어 학습을 추가로 진행하여 인간의 시각에서 중요하게 인식하는 부분을 학습을 진행하도록 구현하였다. 이렇게 학습을 진행할 경우, SSIM으로 시작할 때는 모델이 수렴하지 못하지만, 스위칭을 통해 모델이 SSIM을 줄이는 방향으로 학습이 진행이 가능하다.

도 3은 손실함수 L1 함수와 L2 함수의 그래프이다. (a)는 L1 함수를 나타내며, (b)는 L2 함수를 나타낸다. 수학식 8은 L2 함수를 나타낸다.

손실함수(Loss Function)는 뉴럴네트워크의 가중치를 수정하는 기준이 되어 학습이 진행될때의 학습 방향을 나타낸다고 볼 수 있다. L1을 손실함수로 사용할 경우 손실함수를 계산하는 방법이 간단하여 연산속도가 빠르며, 과적합하여 너무 학습데이터에만 좋은성능을 보이는 가중치를 얻는 현상도 줄어든다. 그에 반해 L2는 연산속도도 느리며, 과적합하는 가능성이 증가한다. 따라서 잡음을 제거하는 경우 L1을 많이 사용하게 된다. 하지만, L1 또한 픽셀값간의 차이를 기준으로 진행하기 때문에, 인간의 눈이 판단하는 기준인 명도, 휘도, 구조에 대해서는 낮은 성능을 보일 수 있다.

이러한 문제점을 보완하기 위하여 SSIM을 기준으로 학습을 진행할 경우 명도, 휘도, 구조의 연립방정식이므로, 인간의 눈에 가장 적합하게 학습이 진행되는 이점이 있다. 하지만, SSIM으로 단독으로 학습할 경우, 가중치가 수렴하지 못하게 된다. 그이유는 가중치의 극소값들(optima)이 너무 작게 많이 분포하기 때문에 가중치의 계산이 전체의 최소값이 아닌 극소값들로 수렴될 경우가 많기 때문이다.

따라서, 본 발명에서는 L1 손실함수를 통해 우선적으로 가중치를 어느 정도 학습시킨 뒤에 SSIM손실함수로 전환(switching)하여 SSIM 손실을 최소화하는 방향으로 학습하는 방법을 제안한다.

본 발명에서는 신경망의 가중치를 수정하기 위한 손실함수(Loss Function)를 평균 절대값 오차(MAE, L1)을 사용하여 1e-4 ~ 1e-5 (0.0001 ~ 0.00001)의 학습률로 8~12epoch(약 2~3TB의 데이터양) 만큼 학습시킨 뒤 구조적 유사도(Structural Similarity)로 손실함수를 변경한 뒤 1e-5 ~ 1e-6 (0.00001 ~ 0.000001)의 학습률로 5 ~ 10epoch학습시키는 방법으로 수행한다.

본 발명에서 정의하는 1 에포크(epoch)를 연산 처리하기 위해서는 시중에서 시판되는 그래픽 카드로 학습시 성능에 따라 2시간에서 10시간정도까지 소요되는 많은 연산을 거쳐야 한다.

만약 학습률을 1e-5미만으로 낮추어 학습을 진행할 경우, 학습속도가 매우 느려 12epoch로 수렴을 하지 못하게 되고, 약 30epoch 넘게 학습을 진행하여야 한다. 또한, 학습이 지역 극소점(Local Optima)에 수렴되었을 경우 학습률이 낮아 지역 극소점(Local Optima)에서 빠져나올수 있는 힘이 없다. 따라서, 학습률은 1e-5이상으로 설정해야 한다. 또한 1e-4보다 큰값을 학습률로 사용할 경우, 극소점에 도달하지 못하고 계속해서 발산할 가능성이 있다. 도 4는 학습량에 따른 발산 가능성을 설명하는 도면이다.

또한 에포크(epoch)가 8회보다 적을 경우 극소점에 도달할때까지 충분히 학습이 되어있지 않을 가능성이 존재하며, 12회보다 많을 경우는 극소점에 도착하여 더 이상 학습이 의미가 없는 상태에서 학습을 진행하여 무의미한 연산을 지속할 가능성이 있다.

처음 학습을 완료한 뒤에 손실함수를 전환(Switching)하게 되는데 전환한 뒤에 학습률은 이미 학습이 진행하여, 극소점에 근접한 상태이기 때문에 학습률을 기존보다 조금 낮춰서 진행하도록 하였다. 이렇게 진행한 이유는 전술한 바와 같다. 그런 후 SSIM에 대하여 수렴시키기 위해 5회 이상 진행시키며, 그 이하로 학습시킬때에는 변한 손실함수에 대하여 충분한 학습이 진행되지 않을 가능성이 있다.

4. 학습 결과

도 5는 본 발명에 따른 학습 방법에 의한 학습 결과와 다른 방법에 따른 학습 결과를 보여주는 이미지이다. 두 개의 이미지를 (a)와 (b)로 표시하였다. (a) 및 (b)에서 제일 좌측 이미지는 도 2에 제시된 뉴럴 네트워크 처리를 완료하고 전체 이미지로 후처리된 상태의 전체 이미지를 나타내며, 붉은 색으로 표시한 사각 박스 영역을 테스트 비교예로 각각 도시하였다. 좌측부터 두번째 이미지는 뉴럴 네트워크 처리 전 노이즈가 포함된 이미지이며, 세번째 이미지는 손실함수로 L1 함수를 적용한 경우 결과 이미지이며, 네번째 이미지는 손실함수로 L1 함수 및 L2 함수를 교체하여 적용한 결과 이미지이며, 다섯번째 이미지는 본 발명에 따라 손실함수로 L1 함수 및 L2 함수를 교체하여 적용한 결과 이미지이며, 마지막 이미지는 노이즈가 포함되지 않은 원본 이미지를 도시한 것이다.

1 에포크에 대한 데이터량은 약 202GB이며, 손실함수를 교체한 경우에는 첫번째 손실함수를 1e-4(0.0001) 학습률로 10 에포크 적용하였으며, 두번째 손실함수를 1e-5(0.00001) 학습률로 5 에포크만큼 적용한 결과이다.

도 5에 도시된 바와 같이 본 발명에 따른 학습 결과 이미지가 원본 이미지와 가장 유사한 결과를 보임을 알 수 있다.

5, 노이즈 제거 실험 결과

(1) 렌더링(rendering) 타임(time) 테스트

AMD의 2990wx(32core)에서의 Tungsten Renderer의 렌더링 시간은 표 3과 같다.

	64 spp	8,196 spp
Rendering Time	20sec	1hour 20min 48sec

렌더링 타임은 약 240배정도의 차이를 보인다. 중앙처리장치(CPU) 환경이 아닌 레이 트레이싱을 위한 전용 칩을 이용하더라도, 8,196 spp는 실시간처리에는 적합하지 못하다.

(2) 인퍼런스(inference) 타임 테스트

인퍼런스 타임이란 뉴럴 네트워크를 통과하는 시간을 의미한다. 디코더에서 1 x 1 convolution을 사용할 경우와 1 x 1 convolution을 사용하지 않을 경우를 비교해 보았으며, 비교 결과를 표 4에 나타내었으며 64개 장면에서의 성능을 평균하여 표시한 것이며, 단위는 sec이다.

	NFOR	Without 1 x 1	With 1 x 1
인터피어런스 타임	110(cpu)	0.4021	0.2824

종래 기술에 비해 인터피어런스 타임은 평균 30%정도의 속도 차이를 보이며, 1 x 1 convolution 사용하면 그 간극이 10% 차이로 좁혀진다.

(3) 이미지 품질 테스트

도 6은 이미지 품질 테스트 결과를 도시하였다. RelMSE는 노이즈가 없는 이미지와 디노이즈(denoise)된 이미지의 픽셀 값들을 뺀 뒤 정규화하여 0에서 1까까지 나타낸 것이다. 1에 가까울수록 노이즈가 많은 이미지이다.

SSIM은 이미지의 명도, 휘도, 구조를 식으로 만들어 계산한 것으로 1에 가까울수록 원본 이미지에 가까운 것으로 볼 수 있다.

종래 방법인 RCNN인 경우보다 최소 10%에서 많게는 30%까지 영상 품질의 차이를 보이고, 1x1 convolution을 사용할 때 영상품질이 더 좋아지는 결과를 관찰할 수 있었다. 이는 1x1 convolution을 사용하여 더 깊은 신경망을 학습하고 Neural Network의 비 선형성이 증가한 결과라고 볼 수 있다.

상기에서 본 발명의 바람직한 실시예가 특정 용어들을 사용하여 설명되었지만 그러한 용어는 오로지 본 발명을 명확히 설명하기 위한 것일 뿐이며, 본 발명의 실시예 및 기술된 용어는 다음의 청구범위의 기술적 사상 및 범위로부터 이탈되지 않고서 여러가지 변경 및 변화가 가해질 수 있는 것은 자명한 일이다. 이와 같이 변형된 실시예들은 본 발명의 사상 및 범위로부터 개별적으로 이해되어져서는 안되며, 본 발명의 청구범위 안에 속한다고 해야 할 것이다.

Claims

본 발명은 5층으로 구성되어 처리되는 이미지의 크기를 줄이면서 특징점(feature map) 개수를 늘리며 활성화 함수로 Rectified Linear Unit을 사용하고 특징점의 개수가 최대 512개까지 증가하는 인코더와, 7층으로 구성되어 인코더를 통과하여 크기가 줄어들고 특징점이 많아진 이미지를 다시 원본크기의 이미지로 복원하며 특징점을 줄이면서 잡음을 제거하고 1x1 합성곱을 통해 처리속도를 향상시켜 더 깊은 신경망을 구성하게 해주는 디코더 및 4층으로 구성되어 디코딩이 완료된 이미지의 필터의 경계에서 나타나는 체크무늬 패턴과 미처 제거되어지지 못한 잡음을 제거하는 재구축(Reconstruction)을 포함하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법에 있어서,
신경망의 가중치를 수정하기 위한 손실함수(Loss Function)를 평균 절대값 오차를 제1학습률로 제1에포크만큼 학습시킨 뒤 구조적 유사도로 손실함수를 변경한 후 제2학습률로 제2에포크로 학습시키는 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제1항에 있어서,
상기 상기 제2학습률은 상기 제1학습률과 같거나 더 작은 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제2항에 있어서,
상기 제1에포크는 제2에포크와 같거나 큰 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제3항에 있어서,
상기 제1학습률은 1e-4 ~ 1e-5 (0.0001 ~ 0.00001) 중 선택된 하나이며, 상기 제2학습률은 1e-5 ~ 1e-6 (0.00001 ~ 0.000001) 중 선택된 하나인 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제4항에 있어서,
상기 제1에포크는 8~12 에포크 중 선택된 하나이며, 상기 제2에포크는 5~10 에포크 중 선택된 하나인 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제5항에 있어서,
상기 제1학습률은 1e-4(0.0001)이며, 상기 제2학습률은 1e-5(0.00001) 인 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제6항에 있어서,
상기 제1에포크는 10 에포크이며, 상기 제2에포크는 5 에포크인 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.
제1항에 있어서,
1 에포크는 202GB 인 것을 특징으로 하는 이미지 잡음제거용 뉴럴 네트워크에서 데이터 학습 방법.