KR20240005460A

KR20240005460A - 신경망에 기반한 이미지 전처리 방법 및 이를 수행하는 장치

Info

Publication number: KR20240005460A
Application number: KR1020220082578A
Authority: KR
Inventors: 김선영; 강창호
Original assignee: 국립군산대학교산학협력단
Priority date: 2022-07-05
Filing date: 2022-07-05
Publication date: 2024-01-12

Abstract

일 실시예에 따른, 신경망 -상기 신경망은 제1 신경망, 제2 신경망 및 제3 신경망을 포함하는-을 이용한 입력 이미지 전처리 방법은 입력 이미지를 인코더인 제1 신경망에 인가하여 입력 이미지의 특징 정보를 포함하는 잠재 벡터인 제1 벡터를 획득하는 단계; 제1 벡터를 디코더인 상기 제2 신경망에 인가하여 출력 이미지를 생성하는 단계; 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-상기 제2 벡터는 입력 이미지의 경계선 정보에 기초하여 입력 이미지의 잡음이 제거된 벡터인-를 획득하는 단계; 및 제2 벡터를 식별자인 제3 신경망-상기 제3 신경망은 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 제2 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하는 단계를 포함할 수 있다.

Description

신경망에 기반한 이미지 전처리 방법 및 이를 수행하는 장치{APPARATUS OPERATING METHOD FOR IMAGE PREPROCESSING BASED ON NEURAL NETWORK AND APPARATUS OF THEREOF}

실시예는, 신경망에 기반한 이미지 전처리 방법 및 이를 수행하는 장치에 관한 것이다.

인공신경망 구조가 데이터의 특징 공간을 풍부하게 학습할 수 있음이 실험적으로 증명됨에 따라 이미지 분류, 객체 검출, 이미지 생성 등의 다양한 연구분야에 활발하게 사용되고 있다.

특히 영상정보를 처리하는데 강점을 가지고 있어서 자율주행자동차, 드론 등 영상정보를 활용하는 시스템의 물체 인식 및 식별 알고리즘에 많이 적용되고 있고 스마트 팩토리 관련 기술의 하나인 제조품의 결함 검사는 전통적인 기계학습 결함 검사보다 효율적이고 효과적인 검출 성능을 나타내고 있다.

영상 측정치 품질에 영향을 주는 요인은 다양하지만 대표적으로 가우시안 잡음, 임펄스 잡음, 클러터가 있고 이런 요인에 의해서 입력영상의 품질이 좋지 않을 경우 영상에 포함된 객체의 식별 정확도가 현저하게 떨어지게 될 수 있다. 따라서 영상에 포함된 잡음을 제거하는 필터링 방법(또는 이미지 전처리 방법)에 대한 연구가 활발해지고 있으며, 기존 필터링 기법의 성능적 한계를 극복하고자 인공지능 기반의 다양한 이미지 전처리 기법들이 많이 개발되고 있는 추세이다.

신경망 -신경망은 제1 신경망, 제2 신경망 및 제3 신경망을 포함하는-을 이용한 입력 이미지 전처리 방법은 입력 이미지를 인코더(encoder)인 제1 신경망에 인가하여 입력 이미지의 특징 정보를 포함하는 잠재 벡터(latent vector)인 제1 벡터를 획득하는 단계; 제1 벡터를 디코더(decoder)인 제2 신경망에 인가하여 출력 이미지를 생성하는 단계; 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-제2 벡터는 입력 이미지의 경계선 정보에 기초하여 입력 이미지의 잡음이 제거된 벡터인-를 획득하는 단계; 및 제2 벡터를 식별자인 제3 신경망-제3 신경망은 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 제2 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하는 단계를 포함할 수 있다.

일 실시예에 따른 입력 이미지는 색조 이미지(color image)로부터 회색조 이미지(grayscale image)로 변환된 이미지일 수 있다.

일 실시예에 따른 잡음 제거 필터는 경계선 정보에 기초하여 입력 이미지에 포함된 잡음을 제거하는 가이디드 필터(guided filter)를 포함할 수 있다.

일 실시예에 따른 잡음 제거 필터는 입력 이미지의 적어도 일부인 패치(patch) 크기 및 가이디드 필터의 계수를 결정하기 위한 정규화 파라미터 중 적어도 하나에 기초하여 입력 이미지에 포함된 잡음을 제거하는 필터를 포함할 수 있다.

일 실시예에 따른 제1 신경망은 제1 손실 함수에 기초하여 학습된 신경망이고, 제1 손실 함수는 입력 데이터와 출력 데이터 사이의 유사도 및 제3 신경망의 출력 중 적어도 하나에 기초하여 결정될 수 있다.

일 실시예에 따른 유사도는 입력 이미지의 분포 및 출력 이미지의 분포 사이의 유사도에 기초하여 결정될 수 있다.

일 실시예에 따른 유사도는 입력 이미지의 분포의 샘플 평균과 출력 이미지의 분포의 샘플 평균 사이의 차이에 기초하며 산출된 유사도의 오차에 기반하여 오차가 보정된 값을 포함할 수 있다.

일 실시예에 따른 유사도는 입력 이미지의 분포를 출력 이미지의 분포로 변형하기 위한 데이터 변화량에 기초하여 결정될 수 있다.

일 실시예에 따른 제3 신경망은 제2 손실 함수에 기초하여 학습된 신경망이고, 제2 손실 함수는 제3 신경망에 입력된 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 맞출 확률을 낮추고, 제3 신경망에 입력된 벡터가 실제 이미지에 기초한 벡터인지 여부를 맞출 확률을 높이도록 신경망을 학습시키는 손실 함수일 수 있다.

다른 일 실시예에 따른 입력 이미지 전처리를 위한 전자 장치는 하나 이상의 프로세서; 및 메모리를 포함하고, 프로세서는 입력 이미지를 인코더인 제1 신경망에 인가하여 입력 이미지의 특징 정보를 포함하는 잠재 벡터인 제1 벡터를 획득하고, 제1 벡터를 디코더인 제2 신경망에 인가하여 출력 이미지를 생성하고, 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-제2 벡터는 입력 이미지의 경계선 정보에 기초하여 입력 이미지의 잡음이 제거된 벡터인-를 획득하고, 그리고 제2 벡터를 식별자인 제3 신경망-제3 신경망은 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 제2 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단할 수 있다.

일 실시예에 따른 가이디드 필터를 사용하여 잡음 제거 과정에서 입력 이미지에 포함된 경계선을 최대한 유지되도록 하면서 입력 이미지에 포함된 잡음을 제거할 수 있다.

일 실시예에 따른 신경망 학습에 입력 데이터의 분포와 출력 데이터의 분포 사이의 차이를 추정하는데 효과적인 EMD를 사용하여 신경망 학습의 효율이 증가될 수 있다.

구체적으로 입력 데이터의 분포와 출력 데이터의 분포 사이의 유사도가 커질수록 유사도 측정의 정확도가 떨어질 수 있으나, 본 발명의 EMD 유사도 오차를 보정하는 방법을 통해, 두 분포 간의 유사도 측정의 정확도를 증가시킬 수 있다.

도 1은 실시예에 있어서, 신경망을 이용한 입력 이미지 전처리 방법의 순서도이다.
도 2는 실시예에서, 입력 이미지 전처리를 위한 신경망 구조를 도시한 것이다.
도 3은 실시예에서, 가이디드 필터를 설명하기 위한 도면이다.
도 4는 다양한 실시예에서, 전자 장치를 설명하기 위한 블록도이다.

이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.

실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.

다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.

또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.

또한, 실시 예의 구성 요소를 설명하는 데 있어서, 제1, 제2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 어떤 구성 요소가 다른 구성요소에 "연결", "결합" 또는 "접속"된다고 기재된 경우, 그 구성 요소는 그 다른 구성요소에 직접적으로 연결되거나 접속될 수 있지만, 각 구성 요소 사이에 또 다른 구성 요소가 "연결", "결합" 또는 "접속"될 수도 있다고 이해되어야 할 것이다.

어느 하나의 실시 예에 포함된 구성요소와, 공통적인 기능을 포함하는 구성요소는, 다른 실시 예에서 동일한 명칭을 사용하여 설명하기로 한다. 반대되는 기재가 없는 이상, 어느 하나의 실시 예에 기재한 설명은 다른 실시 예에도 적용될 수 있으며, 중복되는 범위에서 구체적인 설명은 생략하기로 한다.

도 1은 실시예에 있어서, 신경망을 이용한 입력 이미지 전처리 방법의 순서도이다.

이미지 생성 및 특징 추출 과업에서 성공적인 성능을 보여줌에 따라 적대적 생성 신경망의 학습을 통한 다양한 알고리즘들이 많이 제안되고 있다. 하지만, 이러한 신경망의 학습은 엄청난 양의 데이터 라벨링 작업을 요구하기 때문에, 이를 실제 산업 현장에 적용하는 것은 효율적이지 않고 입력영상의 특성변화에 인식 및 식별 성능이 영향을 많이 받는다.

이미지 잡음 제거를 위한 다양한 필터링 기법들이 개발되었고 최근에는 필터 모델링의 한계로 인해 인공지능 기반의 많은 기법들이 개발되고 있다. 하지만 기존 잡음 제거 기법들은 단일 잡음 형태에 대한 단일 필터링 구조로 되어 있어서 다양한 잡음 형태에 대응하기 어려울 수 있다. 그리고 잡음이 복합적으로 입력되었을 때 기존 필터링 기법에서는 필터를 직렬 구조로 나열하게 되어 복잡한 구조를 갖게 되므로 잡음 제거 성능이 떨어지고 길게 나열된 필터 구조 때문에 출력 영상 신호의 세기가 작아진다. 출력 영상 신호의 세기가 작아지면 영상 정보에서 필요한 특징을 추출하는데 어려움이 생겨서 물체 식별 정확도에 영향을 주고 나아가 영상 항법 시스템의 경우, 항법 정확도도 떨어지게 된다.

성능 향상을 위해서는 신경망의 레이어 구조가 복수의 레이어 구조로 설계되면서 학습 효율성이 떨어지게 되었고 전처리 성능향상에도 한계가 발생하게 된다.

그래서 본 발명에서는 영상 복원 분야에서 뛰어난 성능을 보여주고 있는 변분 오토인코더(VAE, variational auto-encoder)와 적대적 생성 신경망을 융합한 적대적 오토인코더(AAE, adversarial auto-encoder)를 이용하여 비지도 방식의 영상 복원을 위한 신경망 구조를 이용하였다. 그리고 신경망 학습 효율성을 증대하기 위해서 손실 함수를 EMD(Earth mover’s distance)를 이용해서 재설계하였다. EMD 파라미터를 이용하여 입력 이미지의 분포와 출력 이미지의 분포의 거리를 측정하는 것은 다른 기법들보다 추정 오차가 적을 수 있다. 그리고 재설계된 EMD 파라미터를 신경망 학습의 손실함수로 사용하여 기존 평균 제곱 오차(MSE, mean square error)나 교차 엔트로피(cross entropy) 보다 나은 신경망 학습의 효율성을 가질 수 있다.

이하에서는 신경망을 이용하여 입력 이미지를 전처리하는 방법이 구체적으로 설명된다.

일 실시예에 따른 프로세서(430)는 입력 이미지를 인코더인 제1 신경망에 인가하여 입력 이미지의 특징 정보를 포함하는 잠재 벡터인 제1 벡터를 획득(110)할 수 있다. 제1 신경망은 제1 신경망에 인가되는 입력 이미지로부터 특징 정보를 추출하도록 학습된 신경망일 수 있다. 예를 들어, 제1 신경망은 적대적 오토인코더에서 생성자일 수 있다. 특징 정보는 입력 이미지에서 다른 이미지와 구분될 수 있는 특징들과 관련된 정보를 포함할 수 있다. 특징 정보는 제한이 아닌 예로서 벡터로 표현될 수 있으며, 잠재 벡터로 불릴 수 있다. 예를 들어, 제1 신경망은 완전 연결층(FCL, fully connected layer)과 LeakyRelu 활성화 함수가 한 쌍으로 총 3개의 층으로 구성될 수 있다. 제한이 아닌 예로서, 제1 신경망에 입력되는 데이터는 해상도 28x28의 영상일 수 있고, 프로세서(430)는 해당 영상을 처리하기 위해서 영상을 1x784 벡터로 변환할 수 있다. 이 경우, 제1 신경망의 첫번째 완전 연결층은 784x512 차원을 가지고, 두번째 완전 연결층은 512x256, 마지막 완전 연결층은 256x20의 크기를 가질 수 있다. 따라서 제한이 아닌 예로서, 제1 신경망의 출력인 잠재 코드의 차원은 20x1이 될 수 있다.

입력 이미지는 회색조 이미지일 수 있다. 회색조 이미지는 색조 이미지로부터 변환된 이미지일 수 있다. 입력 이미지는 색조 이미지일 수도 있으며, 본 개시는 이에 제한되지 않는다.

일 실시예에 따른 프로세서(430)는 제1 벡터를 디코더인 제2 신경망에 인가하여 출력 이미지를 생성(120)할 수 있다. 다른 일 실시예에 따른 프로세서(430)는 제2 벡터를 제2 신경망에 인가하여 출력 이미지를 생성할 수도 있다. 제2 신경망은 벡터를 입력 받아 제1 신경망에 입력된 입력 이미지를 복원하기 위한 신경망일 수 있다. 제한이 아닌 예로서, 제2 신경망은 제1 신경망과 대칭되는 레이어 구조를 가질 수 있다. 예를 들어, 입력 이미지가 해상도 28x28의 영상인 경우, 출력 이미지도 해상도 28x28의 영상일 수 있다. 제2 신경망은 제한이 아닌 예로서, 완전 연결층과 LeakyRelu 활성화 함수가 한 쌍으로 총 2개의 쌍과 한 개의 완전 연결층과 tanh 활성화 함수로 구성될 수 있다. 예를 들어, 제2 신경망에 포함된 첫번째 완전 연결층은 20x256, 두번째 완전 연결층은 256x512, 마지막 완전 연결층은 512x784일 수 있다. 제2 신경망에서 마지막 완전 연결층 다음에 하이퍼볼릭 탄젠트(tanh) 활성화 함수가 연결될 수 있다. 프로세서(430)는 784x1 벡터를 28 x28 영상으로 변환하여 출력 이미지를 생성할 수 있다.

이하에서는 제1 신경망에 대한 구체적인 설명이 기술된다.

제1 신경망은 제1 손실 함수에 기초하여 학습된 신경망일 수 있다. 손실 함수는 신경망의 출력 데이터가 정답 데이터와 가까워지도록 신경망을 학습시키는데 필요한 함수일 수 있다. 따라서, 프로세서(430)는 신경망의 파라미터들을 손실 함수가 최소화되는 방향으로 업데이트시킬 수 있다. 제1 손실 함수는 입력 데이터와 출력 데이터 사이의 유사도 및 제3 신경망의 출력 중 적어도 하나에 기초하여 결정될 수 있다.

입력 데이터와 출력 데이터 사이의 유사도는 다양한 기법으로 측정될 수 있다. 예를 들어, 유사도는 제한이 아닌 예로서, MSE(Mean Square Error), 교차 엔트로피(cross entropy) 및 EMD 기법을 통해 유사도가 산출될 수 있다. 두 분포 사이의 유사도에 기초하여 신경망을 학습시키는 경우, 신경망의 학습 효율성이 증가될 수 있다. 따라서, 두 분포 사이의 유사도를 산출하는데 EMD 기법이 사용될 수 있다. EMD 외에도 두 분포 사이의 유사도는 다양한 기법으로 측정이 가능할 수 있다. 두 분포의 유사도는 두 분포가 얼마나 가까운지에 기초하여 결정될 수 있다. 예를 들어, 유사도는 TVD(total variation distance), KLD(Kullback-Leibler Divergence) 및 JSD(Jensen-Shannon Divergence) 중 적어도 하나에 기초하여 산출될 수 있다.

유사도가 EMD 기반의 유사도인 경우, 유사도는 입력 이미지의 분포를 출력 이미지의 분포로 변형하기 위한 데이터 변화량에 기초하여 결정될 수 있다. 유사도는 입력 이미지의 분포를 출력 이미지의 분포로 변형하기 위한 데이터 변화량의 최적 하한(infimum)일 수 있으며, 이 경우, 유사도는 [수학식 1]에 기초하여 산출될 수 있다.

는 분포를 의미하고, inf는 하한(infimum)을 의미하며, (x, y)는 결합확률분포 의 좌표를 의미할 수 있다. 또한, 는 x와 y 사이의 거리를 의미하며, 은 의 결합확률분포로서 x에서 y로 변환하는데 필요한 데이터 변화량을 의미할 수 있다. [수학식 1]에 따르면, EMD 기반의 유사도는 두 확률 분포의 결합확률분포 중에서 x와 y의 거리 기대값을 가장 작게 추정한 값을 의미할 수 있다.

하지만 두 분포의 유사성이 커지게 되면 EMD 기법을 통한 유사도 산출의 정확도는 떨어질 수 있다. 특히 데이터 분포를 가우시안 분포로 가정하고 누적 분포 함수 계산시 발생할 수 있다. 이는 신경망의 학습 안정성에 악영향을 줄 가능성이 존재할 수 있다. 따라서, EMD 기법에 기초한 유사도 오차를 보정하는 방법이 필요할 수 있다. 본 개시에는 유사도 오차를 보정하기 위하여 SGLD(stochastic gradient Langevin dynamics)가 사용될 수 있다. SGLD는 데이터 양이 방대해질 때 기존 MCMC (Monte-Carlo Markov chain) 기법의 문제(burn-in)를 해결하기 위해서 고안된 기법으로 LMC(Langevin Monte Carlo)알고리즘에 기초할 수 있다.

일 실시예에 따른 프로세서(430)는 입력 이미지의 분포의 샘플 평균과 출력 이미지의 분포의 샘플 평균 사이의 차이에 기초하며 산출된 유사도의 오차에 기반하여 오차를 보정할 수 있다. 본 개시에서 프로세서(430)는 EMD 기반의 유사도 오차를 보정하기 위하여 EMD 결과와 두 분포 의 샘플 평균 값의 차()의 차이를 측정치로 설정하여 EMD 기반의 유사도 오차를 산출할 수 있다. 그리고 프로세서(430)는 산출된 오차에 기초하여 EMD 기반의 유사도 오차를 보정할 수 있다.

본 개시에서는 유사도를 산출하기 위하여 EMD 기법을 사용될 수 있다. EMD 기법의 유사도 오차를 보정한 제1 손실 함수는 [수학식 2]로 표현될 수 있다.

는 입력 이미지, 는 복원 이미지, 는 입력 이미지의 분포와 출력 이미지의 분포 사이 유사도, 는 제3 신경망의 출력, z는 잠재 벡터(예, 제1 벡터 또는 제2 벡터)이고, 는 유사도 항목과 제3 신경망 출력 항목의 영향을 조절하는 파라미터일 수 있다. 제1 손실 함수가 [수학식 1]에 기초한 경우, 제1 신경망의 학습 효율이 MSE, 크로스 엔트로피 방식을 사용하는 경우보다 클 수 있다.

일 실시예에 따른 프로세서(430)는 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-상기 제2 벡터는 입력 이미지의 경계선 정보에 기초하여 입력 이미지의 잡음이 제거된 벡터인-를 획득(130)할 수 있다. 경계선 정보는 입력 이미지에 포함된 객체 사이를 구분할 수 있는 경계선과 관련된 정보를 포함할 수 있다. 제2 벡터는 제1 벡터에서 잡음 제거 필터로 인하여 경계선이 흐려지지 않도록 경계선 정보가 유지된 벡터를 의미할 수 있다. 입력 이미지가 잡음 제거 필터를 통과하는 경우, 입력 이미지의 경계선이 흐려지는 문제가 발생할 수 있다. 따라서, 프로세서(430)는 제1 벡터에 포함된 경계선 정보가 제2 벡터에서도 유지되도록 할 수 있는 잡음 제거 필터를 사용할 수 있다. 잡음 제거 필터에 대한 구체적인 설명은 도 3을 참조하여 구체적으로 후술된다.

일 실시예에 따른 프로세서(430)는 제2 벡터를 식별자인 제3 신경망-상기 제3 신경망은 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 제2 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 판단(140)할 수 있다. 제3 신경망은 신경망에 인가된 벡터가 제1 신경망에 의해 생성된 것인지 아닌지를 판단할 수 있다. 벡터는 제1 신경망에 의해 생성된 벡터 및 실제 이미지에 대응하는 벡터 중 적어도 하나를 포함할 수 있다. 따라서, 프로세서(430)는 제3 신경망을 이용하여 제3 신경망에 인가된 벡터가 제1 신경망에 의해 생성된 벡터인지 아니면 실제 이미지에 대응하는 벡터인지 여부를 판단할 수 있다. 예를 들어, 프로세서(430)는 제3 신경망을 이용하여 제3 신경망에 인가된 벡터가 제1 신경망에 의해 생성된 벡터인지 아니면 정규 분포에서 샘플링 된 무작위 벡터(실제 이미지)에 의해 생성된 벡터인지를 판단할 수 있다. 제한이 아닌 예로서, 제3 신경망은 2개의 완전 연결층과 LeakyRelu 쌍과 1개의 완전 연결층, 시그모이드(sigmoid) 활성화 함수를 포함할 수 있다. 제3 신경망의 출력은 이진 분류(0 또는 1)일 수 있다. 제3 신경망의 입력 데이터는 벡터이므로, 제한이 아닌 예로서, 제3 신경망의 첫번째 완전 연결층의 차원은 20x512, 두번째 완전 연결층 차원은 512x256, 마지막 완전 연결층은 256x1일 수 있다.

제3 신경망은 제2 손실 함수에 기초하여 학습된 신경망일 수 있다. 제2 손실 함수는 제3 신경망에 입력된 벡터가 제1 신경망에 의해 생성된 벡터인지 여부를 맞출 확률을 낮추고, 제3 신경망에 입력된 벡터가 실제 이미지에 기초한 벡터인지 여부를 맞출 확률을 높이도록 신경망을 학습시키는 손실 함수일 수 있다. 예를 들어, 실제 이미지에 기초한 벡터가 real vector일 수 있고, 제1 신경망에 의해 생성된 벡터가 fake vector일 수 있다. 적대적 학습에서 생성기(예, 제1 신경망)는 생성기의 출력(예, 벡터)이 식별자(예, 제3 신경망)에 의해 식별되지 않도록 학습되고, 식별자는 식별자에 입력되는 데이터가 생성기에 의해 생성된 출력인지 아니면 실제 이미지인지 구분하도록 학습될 수 있다. 따라서, 제3 신경망은 적대적 학습 방법으로 학습될 수 있으며, 제3 신경망 학습에 사용되는 제2 손실 함수는 [수학식 3]으로 표현될 수 있다.

z는 벡터(예, 잠재 벡터)이고, x는 입력 이미지이고, 는 생성기(예, 제1 신경망)의 출력을 의미하고 는 [수학식 3]에서 각 항목의 영향을 조절하는 파라미터일 수 있다. log(D(z))는 식별자(예, 제3 신경망)가 실제 이미지를 식별할 확률일 수 있다. log(G(x))는 식별자가 생성자에 의해 생성된 벡터를 식별할 확률을 의미할 수 있다.

도 2는 실시예에서, 입력 이미지 전처리를 위한 신경망 구조를 도시한 것이다.

일 실시예에 따른 프로세서(430)는 입력 이미지(205)를 제1 신경망(210)에 인가할 수 있다. 프로세서(430)는 제1 신경망(210)으로부터 제1 벡터(240)를 획득할 수 있다, 프로세서(430)는 제1 벡터(240)를 제2 신경망(230)에 인가하여, 출력 이미지(280)를 생성할 수 있다.

일 실시예에 따른 프로세서(430)는 제1 벡터(240)를 가이디드 필터(270)에 인가할 수 있다. 프로세서(430)는 가이디드 필터(270)로부터 제2 벡터(250)를 생성할 수 있다. 프로세서(430)는 제2 벡터(250)를 제3 신경망(290)에 인가하여, 제3 신경망(290)에 인가된 벡터가 제1 신경망(210)에 의해 생성된 벡터인지 여부를 판단할 수 있다. 제3 신경망(290)에 인가된 벡터가 제1 신경망(210)에 의해 생성된 벡터인 경우 Fake를 출력하는 것이 정답이고, 인가된 벡터가 실제 이미지에 대응하는 벡터인 경우 Real을 출력하는 것이 정답일 수 있다.

신경망 및 벡터에 대한 설명은 도 1에서 구체적으로 전술한 바 있으므로, 본 도면에서는 구체적인 설명을 생략하도록 한다.

도 3은 실시예에서, 가이디드 필터를 설명하기 위한 도면이다.

가이디드 필터는 가이드 이미지(330)를 이용하여 입력 이미지의 특징 정보를 왜곡시키지 않으면서 동시에 잡음을 제거하기 위한 필터일 수 있다. 가이디드 필터는 선형 회귀(linear regression)(350)를 기본으로 출력 이미지(또는 제2 벡터)를 모델링 할 수 있다고 가정한다.

이하에서는 가이디드 필터를 이용하여 제1 벡터를 제2 벡터로 변환하는 방법이 구체적으로 설명된다.

여기서 는 제2 벡터(370)이고, 와 는 선형 계수이고 이 값은 입력 이미지의 적어도 일부인 구역 안에서 상수일 수 있다. 는 가이드 이미지(330)를 의미할 수 있다. [수학식 4]에서 정의한 선형 계수 (,)를 정하기 위해서 제2 벡터 는 [수학식 5]와 같이 모델링 될 수 있다.

여기서 는 제1 벡터(310)를 의미하고 는 영상 잡음을 의미할 수 있다. 선형계수들은 제1 벡터(310)와 제2 벡터(370) 사이의 차이를 최소화하는 식인 [수학식 6]을 통해서 산출될 수 있다.

여기서 는 정규화 파라미터로 가 무한정 커지는 것을 방지하는 파라미터일 수 있다. [수학식 6]을 최소화하는 선형계수는 [수학식 7]과 같이 표현될 수 있다.

여기서 와 는 영역 안에서 가이드 이미지(330)의 평균과 분산을 의미할 수 있다. 는 영역 안의 픽셀 수를 의미할 수 있다.

픽셀i 는 영역 안에서 중복되므로 는 하나의 값을 갖지 않는다. 그래서 이를 해결하기 위해서 영역 안에서 값의 평균을 취하여 계산하며 이는 [수학식 8]로 표현될 수 있다.

[수학식 8]에서 영역 의 크기와 가 입력 이미지의 경계선 정보 유지와 잡음 제거에 영향을 미칠 수 있다. 프로세서(430)가 이 파라미터를 조절하면 효율적으로 입력 이미지의 경계선 정보를 유지하면서 동시에 잡음을 제거할 수 있다.

일 실시예에 따른 프로세서(430)는 입력 이미지의 적어도 일부인 패치(patch) 크기 및 가이디드 필터의 계수를 결정하기 위한 정규화 파라미터 중 적어도 하나에 기초하여 입력 이미지에 포함된 잡음을 제거할 수 있다. 입력 이미지의 적어도 일부인 패치는 [수학식 8]에서 영역과 대응될 수 있고, 가이디드 필터의 계수를 결정하기 위한 정규화 파라미터는 [수학식 8]에서 에 대응할 수 있다.

도 4는 다양한 실시예에서, 전자 장치를 설명하기 위한 블록도이다.

일 실시예에 따른 전자 장치(400)는 서버일 수 있다. 다른 일 실시예에 따른 전자 장치(400)는 사용자 단말(예, 모바일 장치, 데스크탑, 랩탑, 개인용 컴퓨터 등)일 수도 있다. 도5를 참조하면, 일 실시예에 따른 전자 장치(400)는 사용자 인터페이스(410), 프로세서(430), 디스플레이(450), 및 메모리(470)를 포함할 수 있다. 사용자 인터페이스(410), 프로세서(430), 디스플레이(450), 및 메모리(470)는 통신 버스(405)를 통해 서로 연결될 수 있다.

사용자 인터페이스(410)는 사용자와 사물, 시스템, 기계, 컴퓨터 프로그램 등 사이에서 의사소통을 할 수 있도록 일시적 또는 영구적인 접근을 목적으로 만들어진 물리적 또는 가상적 매개체를 의미할 수 있다. 프로세서(430)는 디스플레이(450)를 통해 사용자 인터페이스(410)를 출력할 수 있다.

메모리(470)는 상술한 프로세서(430)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(470)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(470)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(470)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.

또한, 프로세서(430)는 도 1 내지 도 3를 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(430)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 프로세서(430)는 예를 들어, CPU(Central Processing Unit), GPU(Graphics Processing Unit), 또는 NPU(Neural network Processing Unit)으로 구성될 수 있다. 예를 들어, 하드웨어로 구현된 전자 장치(400)는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.

프로세서(430)는 프로그램을 실행하고, 전자 장치(400)를 제어할 수 있다. 프로세서(430)에 의하여 실행되는 프로그램 코드는 메모리(470)에 저장될 수 있다.

일 실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.

소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.

이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.

Claims

신경망 -상기 신경망은 제1 신경망, 제2 신경망 및 제3 신경망을 포함하는-을 이용한 입력 이미지 전처리 방법에 있어서,
입력 이미지를 인코더(encoder)인 상기 제1 신경망에 인가하여 상기 입력 이미지의 특징 정보를 포함하는 잠재 벡터(latent vector)인 제1 벡터를 획득하는 단계;
상기 제1 벡터를 디코더(decoder)인 상기 제2 신경망에 인가하여 출력 이미지를 생성하는 단계;
상기 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-상기 제2 벡터는 상기 입력 이미지의 경계선 정보에 기초하여 상기 입력 이미지의 잡음이 제거된 벡터인-를 획득하는 단계; 및
상기 제2 벡터를 식별자인 상기 제3 신경망-상기 제3 신경망은 상기 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 상기 벡터가 상기 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 상기 제2 벡터가 상기 제1 신경망에 의해 생성된 벡터인지 여부를 판단하는 단계;
를 포함하는,
입력 이미지 전처리 방법.
제1항에 있어서,
상기 입력 이미지는
색조 이미지(color image)로부터 회색조 이미지(grayscale image)로 변환된 이미지인
입력 이미지 전처리 방법.
제1항에 있어서,
상기 잡음 제거 필터는
경계선 정보에 기초하여 상기 입력 이미지에 포함된 잡음을 제거하는 가이디드 필터(guided filter)를 포함하는,
입력 이미지 전처리 방법.
제3항에 있어서,
상기 잡음 제거 필터는
상기 입력 이미지의 적어도 일부인 패치(patch) 크기 및 상기 가이디드 필터의 계수를 결정하기 위한 정규화 파라미터 중 적어도 하나에 기초하여 상기 입력 이미지에 포함된 잡음을 제거하는 필터를 포함하는,
입력 이미지 전처리 방법.
제1항에 있어서
상기 제1 신경망은 제1 손실 함수에 기초하여 학습된 신경망이고,
상기 제1 손실 함수는
상기 입력 이미지와 상기 출력 이미지 사이의 유사도 및 상기 제3 신경망의 출력 중 적어도 하나에 기초하여 결정되는
입력 이미지 전처리 방법.
제5항에 있어서
상기 유사도는
상기 입력 이미지의 분포 및 상기 출력 이미지의 분포 사이의 유사도에 기초하여 결정되는
입력 이미지 전처리 방법.
제6항에 있어서
상기 유사도는
상기 입력 이미지의 분포의 샘플 평균과 상기 출력 이미지의 분포의 샘플 평균 사이의 차이에 기초하며 산출된 상기 유사도의 오차에 기반하여 상기 오차가 보정된 값을 포함하는,
입력 이미지 전처리 방법.
제5항에 있어서,
상기 유사도는
상기 입력 이미지의 분포를 출력 이미지의 분포로 변형하기 위한 데이터 변화량에 기초하여 결정되는
입력 이미지 전처리 방법.
제1항에 있어서,
상기 제3 신경망은 제2 손실 함수에 기초하여 학습된 신경망이고,
상기 제2 손실 함수는
상기 제3 신경망에 입력된 벡터가 상기 제1 신경망에 의해 생성된 벡터인지 여부를 맞출 확률을 낮추고, 상기 제3 신경망에 입력된 벡터가 실제 이미지에 기초한 벡터인지 여부를 맞출 확률을 높이도록 신경망을 학습시키는 손실 함수인
입력 이미지 전처리 방법.
하드웨어와 결합되어 제1항 내지 제9항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능 매체에 저장된 컴퓨터 프로그램.
입력 이미지 전처리를 위한 전자 장치에 있어서,
하나 이상의 프로세서; 및
메모리;
를 포함하고,
상기 프로세서는
입력 이미지를 인코더인 제1 신경망에 인가하여 상기 입력 이미지의 특징 정보를 포함하는 잠재 벡터인 제1 벡터를 획득하고,
상기 제1 벡터를 디코더인 제2 신경망에 인가하여 출력 이미지를 생성하고,
상기 제1 벡터를 잡음 제거 필터에 인가하여 제2 벡터-상기 제2 벡터는 상기 입력 이미지의 경계선 정보에 기초하여 상기 입력 이미지의 잡음이 제거된 벡터인-를 획득하고, 그리고
상기 제2 벡터를 식별자인 제3 신경망-상기 제3 신경망은 상기 입력 이미지의 특징 정보를 포함하는 벡터를 입력 받아 상기 벡터가 상기 제1 신경망에 의해 생성된 벡터인지 여부를 판단하도록 학습된-에 인가하여 상기 제2 벡터가 상기 제1 신경망에 의해 생성된 벡터인지 여부를 판단하는
전자 장치.