KR20230039520A

KR20230039520A - 영상 처리 방법, 장치, 기록 매체 및 전자 장치

Info

Publication number: KR20230039520A
Application number: KR1020220103291A
Authority: KR
Inventors: 바오티안롱; 예핑; 장즈웨이
Original assignee: 아크소프트 코포레이션 리미티드
Priority date: 2021-09-14
Filing date: 2022-08-18
Publication date: 2023-03-21
Also published as: CN115810112A; KR102628115B1

Abstract

본 발명은 영상 처리 방법, 장치 및 저장 매체, 전자기기를 개시한다. 여기서, 영상 처리 방법은 제1 영역을 포함하는 피처리 영상을 획득하는 단계와, 상기 피처리 영상을 학습된 신경망에 입력하여 상기 제1 영역을 제거한 결과 영상을 획득하는 단계를 포함하며, 상기 신경망은 이중 분기망을 포함한다. 본 발명은 종래 기술에서 간섭영역을 제거하면서 영상 배경층에 부작용을 일으키기 쉽고 하드웨어 플랫폼에 대한 요구가 높은 기술적 문제를 해결할 수 있다.

Description

영상 처리 방법, 장치, 기록 매체 및 전자 장치{Image processing method, device, storage medium, and electronic device}

본 발명은 영상 처리 기술에 관한 것으로, 특히 영상 처리 방법, 장치, 기록 매체 및 전자 장치에 관한 것이다.

사진 촬영에 의해 획득한 영상에 반사광, 음영, 물 반점, 차폐 등과 같은 간섭 영역이 포함되는 것은 흔한 현상이며, 이러한 간섭 영역은 통상적으로 영상의 미관과 품질에 부정적인 영향을 미친다.

기존의 볼록 최적화 기반 빠른 단일 프레임 반사광 제거 알고리즘(Fast Single Image Reflection Suppression via Convex Optimization)은 경험적 지식을 바탕으로 볼록 최적화 문제를 해결하여 반사광 제거를 진행하는 방법으로, 풀고자 하는 볼록 함수를 “반사광 영상은 배경층과 반사광층의 선형 중첩”이라는 경험을 통해 구한 다음, 볼록 최적화 방법을 통해 최적해를 구하여 반사광 제거 결과로서 최적해가 도출된다. 그러나 이 알고리즘은 실제 장면에서 반사광의 복잡성과 다양성을 무시하고 단순한 반사광 상황에서만 일정한 효과가 있으며, 복잡한 반사광과 다양한 질감이 있는 장면을 처리할 때 반사광을 정확하게 제거할 수 없을 뿐만 아니라 다른 비반사광 영역의 질감을 잘못 제거하기도 한다. 또한 이 알고리즘은 복잡도가 높은 코사인 변환 및 코사인 역변환을 수행해야 하므로 시간이 오래 걸려서 일반 모바일 장치에서는 가용성이 떨어진다.

기존의 또 다른 딥 러닝 기반의 반사광 제거 방법은, 반사광 영상 샘플을 입력하고, 배경 영상 샘플을 지도(supervision)로 사용하고, 합성곱 신경망(Convolutional neural network)를 훈련하고, 다양한 손실 함수를 통해 훈련 과정을 지도하여 반사광 제거 망 모델을 획득하고, 이 신경망 모델을 사용하여 반사광 영상을 처리하여, 반사광 제거 후의 결과를 얻을 수 있다. 그러나 이 알고리즘에 사용된 신경망 모델은 복잡한 VGG19 사전 훈련 헤드와 13개의 잔여 신경망 블록을 포함하여 매우 커서 추리 속도가 매우 느리고 장치에 대한 성능 요구도 높아 이동 단말에 배치할 수 없다. 또한 이 알고리즘은 학습할 때 배경 영상만을 지도로 사용하여 반사광층의 성분을 무시하기 때문에, 신경망이 반사광층의 특징을 충분히 학습하지 못해 효과가 좋지 않다.

따라서 배경층에 큰 부작용을 일으키지 않으면서 반사광, 음영, 물 반점, 차폐 등의 간섭 영역을 효과적으로 제거함과 동시에 배경층에 현저한 부작용을 일으키지 않으며, 빠른 동작 속도와 수용 가능한 하드웨어 사양을 갖는 영상 처리 기술을 제안할 필요가 있다.

본 발명의 실시예는 간섭 영역을 제거하면서 영상 배경층에 부작용을 일으키기 쉽고 하드웨어 플랫폼에 대한 요구가 높은 종래 기술의 기술적 문제를 적어도 해결하기 위한 영상 처리 방법, 장치 및 기억 매체, 전자 기기를 제공한다.

본 발명의 실시예의 일 측면에 따르면, 제1 영역을 포함하는 피처리 영상을 획득하는 단계, 상기 피처리 영상을 학습된 신경망에 입력하여 상기 제1 영역을 제거한 영상을 결과 영상으로 획득하는 단계를 포함하는 영상 처리 방법을 제공하며, 상기 신경망은 이중 분기망을 포함한다.

선택적으로, 상기 신경망은 상기 피처리 영상의 특징을 층별로 추출하여 특징 데이터를 획득하는, 인코더를 포함하는, 특징 추출 모듈; 상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제1 영상을 출력하는 제1 디코더를 포함하는, 제1 영상 출력 모듈; 상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제2 영상을 출력하는 제2 디코더를 포함하는, 제2 영상 출력 모듈; 상기 제1 영상 출력 모듈 및/또는 상기 제2 영상 출력 모듈에 연결되며, 상기 제1 영상 및/또는 상기 제2 영상에 따라 상기 제1 영역을 제외한 결과 영상을 출력하는 결과 영상 출력 모듈을 포함한다.

선택적으로, 상기 제1 영역은 반사광 영역, 음영 영역, 물 반점 영역, 차폐 영역 중 적어도 하나이다.

선택적으로, 상기 제1 영상은 배경 영상이고, 상기 제2 영상은 반사광 영상, 음영 영상, 물 반점 영상, 차폐 영상 중 적어도 하나이다.

선택적으로, 상기 제1 디코더와 상기 제2 디코더의 각 층의 출력은 교차층 연결을 통해 인코더에 대응하는 층의 출력을 채널축을 따라 스플라이싱함으로써, 상기 인코더와 상기 제1 디코더, 상기 제2 디코더의 교차층 연결에 멀티 스케일 피라미드 풀링 모듈이 추가되며, 상기 멀티 스케일 피라미드 풀링 모듈은 서로 상이한 스케일의 특징을 융합한다.

선택적으로, 상기 인코더와 상기 제1 디코더 및 상기 제2 디코더 사이의 교차층 연결에 멀티 스케일 특징 선택 모듈이 추가되며, 멀티 스케일 특징 선택 모듈은 각 스케일 특징 및 비율을 동적으로 선택 및 조정한다.

선택적으로, 상기 인코더의 합성곱층은 그룹화된 합성곱이다.

선택적으로, 상기 신경망의 합성곱 연산자는 게이트 합성곱이다.

선택적으로, 상기 제1 영역을 포함하는 피처리 영상을 획득한 후, 상기 영상 처리 방법은, 영상 피라미드 알고리즘을 사용하여 상기 피처리 영상을 다운샘플링하고 다운샘플링하는 동안 모든 수준의 영상층들의 그래디언트(Gradient) 정보를 저장하여 라플라시안 피라미드를 형성하는 단계; 최소 크기의 영상층을 학습된 신경망에 제공하여 출력 영상을 획득하는 단계; 상기 라플라시안 피라미드를 상기 출력 영상에 사용해서 저해상도 내지 고해상도 재구성을 진행하여, 상기 제1 영역을 제거한 결과 영상을 획득하는 단계를 더 포함한다.

선택적으로, 상기 영상 처리 방법은 초기 신경망을 구성하는 단계; 샘플 데이터를 사용하여 상기 초기 신경망을 학습시켜 학습된 신경망을 획득하는 단계를 더 포함하되, 상기 샘플 데이터는 제1 샘플 영상 및 영상 합성 방법을 사용하여 획득한 제2 샘플 영상을 포함한다.

선택적으로, 제2 샘플 영상을 획득하기 위한 영상 합성 방법의 사용은, 원본 영상 및 참조 영상을 획득하는 단계; 상기 원본 영상에서 제1 영역을 확정하는 단계; 상기 원본 영상과 동일한 크기의 마스크 영상을 생성하고, 상기 제1 영역에 대응하는 제2 영역의 경계를 페더링(feathering)하여 블러된(blurred) 마스크 영상을 획득하는 단계; 상기 참조 영상에 가우시안 블러링을 수행하여, 블러된 참조 영상을 획득하는 단계; 상기 원본 영상, 상기 블러된 마스크 영상 및 상기 블러된 참조 영상으로부터 상기 제2 샘플 영상을 합성하는 단계를 포함한다.

선택적으로, 상기 원본 영상, 상기 블러된 마스크 영상 및 상기 블러된 참조 영상에 따라 상기 제2 샘플 영상을 합성하는 단계는 상기 블러된 마스크 영상을 정규화하여 정규화된 마스크 영상을 획득하는 단계; 상기 제1 영역에 대응하는 상기 제2 영역에서, 상기 정규화된 마스크 영상의 화소와 상기 블러된 참조 영상의 화소를 요소별로 곱하여 중간 영상을 획득하는 단계; 상기 원본 영상과 상기 중간 영상을 선형적으로 중첩하여 상기 제2 샘플 영상을 합성하는 단계를 포함한다.

선택적으로, 샘플 데이터를 사용하여 상기 초기 신경망을 학습시킬 때 손실 함수는 화소 손실, 특징 손실, 구조적 유사성 손실 및 대항 손실 중 적어도 하나를 포함한다.

선택적으로, 상기 화소 손실은 화소 절단 손실을 포함하고, 상기 초기 신경망의 출력 영상과 레이블 영상의 대응하는 2개의 화소의 절대 차이가 임계값보다 크면, 상기 2개의 화소의 손실을 계산하며, 상기 초기 신경망의 출력 영상과 상기 레이블 영상의 대응하는 2개의 화소의 절대차이가 상기 임계값보다 크지 않으면, 상기 2개의 화소의 차이를 무시한다.

선택적으로, 상기 영상 처리 방법은 초기 신경망의 특징 추출기로서 VGG19 망을 사용하여 상기 특징 손실을 계산한다.

본 발명의 실시예의 다른 측면에 따르면, 제1 영역을 포함하는 피처리 영상을 획득하는 영상 획득 유닛, 상기 피처리 영상을 수신하며, 상기 제1 영역을 제거한 결과 영상을 획득하기 위해 학습된 신경망을 사용하여 상기 피처리 영상을 처리하는 처리 유닛을 포함하는 영상 처리 장치를 포함하되 상기 신경망은 이중 분기망을 포함하는 영상 처리 장치가 제공된다.

선택적으로, 상기 신경망은 상기 피처리 영상의 특징을 층별로 추출하여 특징 데이터를 획득하는, 인코더를 포함하는, 특징 추출 모듈, 상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제1 영상을 출력하는 제1 디코더를 포함하는, 제1 영상 출력 모듈, 상기 특징 추출 모듈에 연결되며, 상기 특징 데이터에 기초하여 제2 영상을 출력하는 제2 디코더를 포함하는, 제2 영상 출력 모듈, 상기 제1 영상 출력 모듈 및/또는 상기 제2 영상 출력 모듈에 연결되며, 상기 제1 영상 및/또는 상기 제2 영상에 따라 상기 제1 영역을 제외한 결과 영상을 출력하는 결과 영상 출력 모듈을 포함한다.

선택적으로, 상기 제1 디코더와 상기 제2 디코더의 각 층의 출력은 교차층 연결을 통해 인코더에 대응하는 층의 출력을 채널축을 따라 스플라이싱함으로써, 상기 인코더와 상기 제1 디코더, 상기 제2 디코더의 교차층 연결에 멀티 스케일 피라미드 풀링 모듈이 추가되며, 상기 멀티 스케일 피라미드 풀링 모듈은 서로 상이한 스케일의 특징을 융합하는 것을 특징으로 하는 영상 처리 장치.

본 발명의 실시예의 또 다른 측면에 따르면, 프로그램을 포함하는 기록 매체가 더 제공되며, 상기 프로그램이 실행될 때, 상기 기록 매체가 위치한 장치가 상기 중 어느 하나에 기재된 영상 처리 방법을 실행하도록 제어된다.

본 발명의 실시예의 또 다른 측면에 따르면, 프로세서와, 상기 프로세서의 실행 가능한 명령을 저장하기 위한 메모리를 포함하되, 상기 프로세서는 상기 실행 가능한 명령의 실행을 통해 상기 중 어느 하나에 기재된 영상 처리 방법을 실행하도록 구성된 전자장치를 더 제공한다.

본 발명은 반사광 영역, 음영 영역, 물 반점 영역, 차폐 영역 등의 간섭 영역의 특성을 파악하여 현실감이 강한 샘플 영상을 합성하여 학습 소재로 사용함과 동시에 다양한 손실 함수와 효율적인 망구조를 결합하여 학습함으로써 간섭 영역을 잘 제거하여 영상의 품질과 미관을 향상시킬 수 있으며, 다운샘플링과 망 분기 등의 기술을 적용하여 빠른 처리속도로 고해상도 영상을 처리할 수 있으며, 휴대폰 등 연산 성능이 높지 않은 스마트 단말에 적용할 수 있는 빠르고 효과적인 영상 처리 방법을 제공한다.

본 명세서에 첨부된 도면은 본 발명의 이해를 돕기 위한 것으로, 본 출원의 일부를 구성하며, 본 발명의 예시적인 실시예 및 그 설명은 본 발명을 설명하기 위한 것으로, 본 발명을 제한하지 않는다.
도 1은 본 발명의 실시 형태에 따른 선택적 영상 처리 방법의 흐름도이다.
도 2는 본 발명의 실시예에 따른 선택적 신경망의 구조도이다.
도 3은 본 발명의 실시예에 따른 선택적 학습 신경망의 흐름도이다.
도 4는 본 발명의 실시예에 따른 선택적 영상 합성 방법의 흐름도이다.
도 5a 및 도 5b는 본 발명의 실시예에 따른 영상 처리 방법에 의해 구현된 반사광 제거 효과를 비교한 도면이다.
도 6a 및 도 6b는 본 발명의 실시예에 따른 영상 처리 방법에 의해 구현된 음영 제거 효과를 비교한 도면이다.
도 7은 본 발명의 실시예에 따른 선택적 영상 처리 장치의 구성 블록도이다.

이하, 본 발명의 실시예에 있어서의 기술적 해결방안은 본 발명의 실시예의 첨부된 도면을 참조하여 명확하고 완전하게 설명될 것이며, 설명된 실시예는 단지 본 발명의 일부에 불과하며, 모든 실시예가 아닌 것은 분명하다. 본 발명의 실시예에 기초하여, 당업자가 창의적인 노력 없이 획득한 다른 모든 실시예는 본 발명의 보호 범위에 속한다.

본 발명의 상세한 설명 및 특허청구범위 및 첨부 도면에서 "제1", "제2" 등의 용어는 유사한 대상을 구별하기 위해 사용된 것으로, 특정 순서 또는 우선순위를 설명하기 위해 사용되는 것은 아니다. 이와 같이 사용되는 순서는 적절한 상황에서 상호 교환될 수 있으므로, 여기에 설명된 본 발명의 실시예가 여기에 도시되거나 설명된 것과 다른 순서로 실시될 수 있음을 이해해야 한다. 또한, "포함하다" 및 "구비하다"라는 용어 및 그 변형은 비배타적 포함을 포함하기 위한 의도이며, 예를 들어, 일련의 단계 또는 유닛을 포함하는 프로세스, 방법, 시스템, 제품 또는 장치는 명시적으로 나열된 단계 또는 유닛에 국한되지 않고, 명시적으로 나열되지 않았거나 이러한 프로세스, 방법, 제품 또는 장치에 고유하지 않은 다른 단계 또는 유닛을 포함할 수 있다.

다음은 본 발명의 실시예에 따른 선택적 영상 처리 방법의 흐름도를 설명한다. 첨부 도면의 순서도에 표시된 단계는 컴퓨터 실행 가능 명령 세트와 같은 컴퓨터 시스템에서 수행될 수 있으며, 순서도에 논리적 순서가 표시되어 있지만 경우에 따라 도시되거나 설명된 단계는 여기와 다른 순서로 수행될 수 있다.

도 1을 참조하면, 본 발명의 실시예에 따른 선택적 영상 처리 방법의 흐름도가 제공된다. 도 1과 같이 영상 처리 방법은 다음을 포함한다.

S100, 제1 영역을 포함하는 피처리 영상을 획득하고;

S102, 피처리 영상을 학습된 신경망에 입력하여 제1 영역을 제거한 영상을 결과 영상으로 획득한다. 여기서, 상기 신경망은 이중 분기망을 포함한다.

선택적 실시예에서, 제1 영역은 반사광 영역, 음영 영역, 물 반점 영역 등일 수 있다.

선택적 실시예에서, 도 2에 도시된 바와 같이, 신경망은 특징 추출 모듈(200), 제1 영상 출력 모듈(202), 제2 영상 출력 모듈(204), 및 결과 영상 출력 모듈(206)을 포함하는 이중 분기망이다.

특징 추출 모듈(200)은 인코더를 포함하며, 피처리 영상의 특징을 층별로 추출하여 특징 데이터를 획득한다;

제1 영상 출력 모듈(202)은 특징 추출 모듈(200)의 출력에 연결되고, 제1 디코더를 포함하며, 특징 데이터에 기초하여 제1 영상을 출력한다;

제2 영상 출력 모듈(204)은 특징 추출 모듈(200)의 출력에 연결되고, 제2 디코더를 포함하며, 특징 데이터에 기초하여 제2 영상을 출력한다;

결과 영상 출력 모듈(206)은 제1 영상 출력 모듈(202) 및/또는 제2 영상 출력 모듈(204)에 연결되며, 제1 영상 및/또는 제2 영상에 따라 제1 영역을 제외한 결과 영상을 출력한다.

여기서, 제1 영상은 배경 영상이고, 제2 영상은 반사광 영상, 음영 영상, 물 반점 영상, 차폐 영상 등이다.

영상에서 반사광, 음영, 물 반점 등을 제거하는 어플리케이션 시나리오에서, 결과 영상 출력 모듈(206)은 제2 영상 출력 모듈(204)에서 출력된 제2 영상을 직접 폐기하고 제1 영상 출력 모듈(202)에서 출력된 *?*제1 영상 출력을 음영, 물 반점, 폐색 등의 간섭 요인을 제거한 결과 영상으로 사용할 수 있으며, 처리된 결과 영상은 영상 분할, 식별, 분류 등과 같은 다른 후속 영상 처리의 정확도를 개선하기 위해 사용될 수 있다.

제 1 영상 출력 모듈(202)과 제 2 영상 출력 모듈(204)은 특징 추출 모듈(200)에서 출력된 특징 데이터를 입력으로 하는 분기 구조를 구성하며, 제 1 영상 출력 모듈(202)과 제 2 영상 출력 모듈(204)의 분기 구조를 동시에 지도 학습시킴으로써, 본 실시예의 신경망은 단일 출력 네트워크 구조와 비교하여 제1 영상과 제2 영상의 차이를 더 잘 학습하고, 제1 영역을 더 정확하게 추출하여 제1 영역을 제거한 결과 영상을 획득할 수 있다.

제1 디코더와 제2 디코더의 각 층의 출력은 교차층 연결을 통해 인코더의 해당 층의 출력을 채널 축을 따라 스플라이싱된다. 인코더, 제1 디코더 및 제2 디코더의 교차층 연결에 멀티 스케일 피라미드 풀링 모듈이 추가된다. 멀티 스케일 피라미드 풀링 모듈은 커널 크기가 상이한 풀링층, 합성곱(convolution)층 및 보간 업샘플링층을 포함하며, 먼저 풀링층을 통해 서로 다른 스케일의 특징을 추출한 다음 합성곱층을 통해 저수준 및/또는 고수준의 특징을 추출하며, 보간 업샘플링 층을 통해 인코더, 제1 디코더 및 제2 디코더의 대응 층의 출력을 동일한 크기로 조정한 후 최종적으로 채널 축을 따라 하나의 특징을 합성한다. 영상에 대한 제1 영역의 영향 정도와 면적은 영상마다 큰 차이가 있기 때문에, 제1 영역의 결정은 국소적인 질감 특징을 참조할 뿐만 아니라 전역적인 의미 정보도 고려해야 한다. 멀티 스케일 피라미드 풀링 모듈은 다른 스케일의 특징을 융합하여 망의 일반성을 증강시켜, 망이 다른 면적과 정도의 제1 영역을 갖는 영상을 처리하여 더 나은 결과를 달성할 수 있도록 한다.

다른 선택적 실시예에서, 인코더, 제1 디코더 및 제2 디코더 사이의 교차층 연결에는 각 스케일의 특징을 동적으로 선택하고 조정할 수 있는 멀티 스케일 특징 선택 모듈이 추가되어, 상이한 반사광 영역에 대한 모델의 적응성을 더욱 향상시킬 수 있다. 멀티 스케일 특징 선택 모듈은 상이한 확장 계수를 가진 4개의 병렬 합성곱층 및 하나의 특징 융합층으로 구성되는데, 합성곱층의 확장 계수는 순차적으로 배가되어, 수용장(receptive field)이 순차적으로 2배, 4배, 8배씩 확대되며, 4개의 상이한 수용장의 특징을 채널축을 따라 통합한 후 특징 융합층을 통해 각 기능 그룹의 선택 가중치를 동적으로 조정한다. 파라미터로 학습할 수 있는 방식으로 다양한 스케일의 특징을 동적으로 융합 및 선택함으로써, 상이한 면적 및 정도의 반사광 영상에 대한 모델의 처리 효과가 더욱 강화되어 향상된다.

장치에서 모델의 실행 속도를 향상시키기 위해 모델을 프루닝(pruned)할 수 있고, 인코더의 합성곱층을 그룹화된 합성곱으로 대체하며, 각 합성곱 커널은 하나의 채널만 합성곱하므로 모델의 연산량을 줄이고, 처리 속도를 높일 수 있다.

모델의 일반화 능력과 반사광 제거(de-reflection) 효과를 향상시키기 위해, 합성곱 연산자는 게이트 합성곱(gated convolution; Gated conv)으로 변경하였다. 일반 합성곱에서 입력되는 모든 화소는 유효한 입력으로 처리되어 반사광 장면에 적합하지 않다. 반사광층과 배경층의 화소를 구별해야 하며, 합성곱 계산시 서로 다른 특징 선택 가중치를 사용해야 한다. Gated conv는 각 특징층의 각 위치에 대해 온라인 학습이 가능한 동적 특징 선택 메커니즘을 제공하고, 학습 메커니즘을 통해 반사광층과 배경층을 구분하고, 반사광층과 배경층의 특징 선택 가중치를 서로 다른 반사광 강도에 따라 동적으로 조정한다. 반사광층과 배경층의 동적 학습 및 특징 선택을 통해 모델은 반사광층과 배경층을 더 잘 구별하고 다른 반사광 강도에 적응할 수 있으며, 반사광 제거 효과와 일반화 능력이 더욱 향상된다.

피처리 영상의 해상도가 높거나 데이터의 양이 많은 경우 피처리 영상을 학습된 신경망으로 직접 전송하면 메모리 오버플로가 발생하거나 처리 시간이 너무 길어 사용자 경험에 영향을 줄 수 있으며, 이 문제를 해결하기 위해 기존의 보간 스케일링 알고리즘을 사용할 수 있지만, 영상 정보가 손실되기 쉽기 때문에 생성된 영상을 원본 영상으로 완벽하게 확대할 수 없다.

제1 영역이 일반적으로 현저한 그래디언트 정보를 갖지 않는다는 사실을 고려하면, 선택적 실시예에서 영상 피라미드 알고리즘을 사용하여 먼저 피처리 영상을 다운샘플링할 수 있고, 다운샘플링하는 동안 모든 수준의 영상층의 그래디언트 정보를 저장하여 라플라시안 피라미드를 형성하고, 가장 작은 크기의 영상층을 학습된 신경망에 공급하여 출력 영상을 획득하며; 마지막으로 라플라시안 피라미드를 사용하여 출력 영상을 저해상도에서 고해상도로 재구성하여 제1 영역을 제거한 결과 영상을 획득한다. 제1 영역의 그래디언트 정보는 매우 약하기 때문에, 재구성 과정에서 피처리 영상의 그래디언트 정보를 일부 복원하더라도 제1 영역을 제거하는 효과에는 영향을 미치지 않는다. 다운샘플링 동안 저장된 모든 수준의 영상층의 그래디언트 정보를 사용하여 영상 재구성을 수행함으로써, 영상 해상도에 영향을 주지 않고 반사광을 제거할 수 있다. 다운샘플링 및 영상 재구성을 도입함으로써, 한편으로는 영상 처리 속도가 보장되고, 다른 한편으로는 영상 처리 전후의 품질에 영향을 미치지 않으므로, 휴대 전화와 같이 연산 성능이 낮은 장치에서 고해상도 영상을 처리하는 데 유리하다.

도 3에 도시된 바와 같이, 학습된 신경망을 얻기 위해 영상 처리 방법은 다음을 더 포함한다:

S300: 초기 신경망을 구성하고;

S302: 샘플 데이터를 사용하여 초기 신경망을 학습시켜 학습된 신경망을 획득하되, 샘플 데이터는 제1 샘플 영상 및 영상 합성 방법을 사용하여 획득한 제2 샘플 영상을 포함한다.

선택적 실시예에서, 제1 샘플 영상은 배경 샘플 영상이고, 제2 샘플 영상은 반사광 샘플 영상, 음영 샘플 영상, 물 반점 샘플 영상, 차폐 샘플 영상 등이다.

초기 신경망을 학습시키는데 사용된 샘플 데이터는 전체 영상 처리 방법에서 중요한 역할을 하며 샘플 데이터를 얻는 데는 실제 장면 획득과 영상 합성의 두 가지 주요 방법이 있다.

예를 들어, 피처리 영상이 반사광 영역을 포함하는 영상인 경우 초기 신경망 학습에 사용되는 샘플 데이터는 배경 샘플 영상과 반사광 샘플 영상을 포함한다.

실제 장면을 수집하는 방법으로, 획득자는 양호한 광원이 있는 실외 또는 실내 환경을 선택하고, 적절한 반사광 각도를 선택하고, 삼각대로 휴대 전화 또는 카메라를 고정하고, 렌즈 앞에 투명 유리를 놓고, 적절한 각도를 조정하여 반사광을 만든 후, 촬영하여 반사광 샘플 영상을 획득하고; 유리를 제거하고 다시 촬영하여 배경 샘플 영상을 획득한다.

그러나 일반적으로 실제 장면 수집에서 샘플 데이터의 고품질을 보장하기 어렵다. 한편, 장면의 보행자, 차량 등 물체의 이동과 유리의 광 굴절로 인해, 반사광 샘플 영상과 배경 샘플 영상의 완전한 정렬이 어렵고, 빛의 변화나 카메라의 초점 변화로 인해, 반사광 샘플 영상과 배경 샘플 영상에 노이즈가 발생하여 망의 학습에 더 큰 영향을 미칠 수 있다.

이와 관련하여 영상 합성 방법을 사용하여 보다 사실적인 반사광 샘플 영상을 생성할 수 있다.

도 4에 도시된 바와 같이, 선택적 실시예에서, 영상을 이용하여 제2 샘플 영상을 합성하는 방법은 다음을 포함한다.

S400: 원본 영상 및 참조 영상을 획득하고;

원본 영상과 참조 영상은 촬상장치에 의해 획득된 임의의 2개의 영상일 수도 있고, 데이터 세트 내의 임의의 2개의 영상일 수도 있으며, 원본 영상과 참조 영상의 대응성을 요구하지 않음;

S402: 원본 영상에서 제1 영역을 확정하고;

선택적 실시예에서, 원본 영상에서 제1 영역을 확정하는 단계는 원본 영상에서 여러 지점을 무작위로 선택하여 하나의 연결 영역으로 연결하고 연결 영역을 제1 영역으로 사용하는 것을 포함함;

S404: 원본 영상과 동일한 크기의 마스크 영상을 생성하고 마스크 영상의 제1 영역에 해당하는 제2 영역의 경계에 페더링(feathering) 처리를 수행하여 블러된(blurred) 마스크 영상을 획득하며;

선택적 실시예에서, 마스크 영상의 제1 영역에 대응하는 영역의 화소값은 255이고, 다른 영역의 화소값은 0이다. 제1 영역에 해당하는 영역의 경계를 페더링하는 방법은 가우시안 블러링(Gaussian Blurring) 등의 방법일 수 있다.

S406: 참조 영상에 가우시안 블러링을 수행하여 블러된 참조 영상을 획득하고;

S408: 원본 영상, 블러된 마스크 영상 및 블러된 참조 영상에 따라 제2 샘플 영상을 합성한다.

선택적 실시예에서, 원본 영상, 블러된 마스크 영상 및 블러된 참조 영상에 따라, 제2 샘플 영상을 합성하는 단계는 다음을 포함한다.

블러된 마스크 영상을 정규화하여 정규화된 마스크 영상을 획득하고;

제1 영역에 대응하는 제2 영역에서, 상기 정규화된 마스크 영상의 화소와 블러된 참조 영상의 화소를 요소별로 곱하여 중간 영상을 획득하고;

원본 영상과 중간 영상을 선형적으로 중첩하여 제2 샘플 영상을 합성한다.

상술한 S400-S408단계를 거쳐 합성된 제2 샘플 영상은 제1 영역의 특성, 즉, 제1 영역이 제2 샘플 영상 전체를 차지하지 않고, 제2 샘플의 일정 영역만 차지할 수 있기 때문에, 이와 같이 합성된 제2 샘플 영상을 샘플 데이터로 사용하여 망이 제1 영역과 제1 영역 이외의 영역을 식별하도록 가이드할 수 있으므로, 오식별에 의한 제1 영역 이외의 영역에서 발생하는 망의 부작용을 제거할 수 있으며; 랜덤하게 생성된 연결 영역 및 그 경계에 대한 페더링은 제1 영역의 경계를 랜덤하고 흐릿하게 하여 망의 제1 영역에 대한 식별 능력을 향상시킨다.

선택적 실시예에서, 샘플 데이터를 획득하는 방법은, 샘플 데이터를 더 풍부하게 하고, 망의 견고성을 증가시키기 위해서, 획득된 샘플 데이터에 랜덤 플리핑, 회전, 채널 스와핑, 랜덤 노이즈 추가 등과 같은 하나 이상의 처리를 더 포함할 수 있다.

선택적 실시예에서, 샘플 데이터를 사용하여 초기 신경망을 학습시킬 때, 손실 함수는 화소 손실, 특징 손실, 구조적 유사성 손실 및 대항 손실 중 적어도 하나를 포함한다.

화소 손실 함수는 영상의 화소 수준에서 두 영상의 유사도를 측정하는 함수로, 주로 영상 화소 값 손실 및 계조도 손실을 포함한다. 본 실시예에서는 주로 초기 신경망의 출력 영상과 레이블 영상 간의 화소 값의 평균 제곱 오차와 두 영상의 계조도의 L1 놈(Norm) 오차의 가중 합을 의미한다. 화소 손실은 초기 신경망의 출력 영상과 레이블 영상의 각 화소의 화소값을 가능한 한 가깝게 하여 화소 수준에서 학습 과정을 지도한다. 초기 신경망이 전체 영상의 노이즈보다 제1 영역의 제1 샘플 영상과 제2 샘플 영상 간의 차이에 초점을 맞추도록 가이드하기 위해, 선택적 실시예에서, 화소 절단 손실을 도입하여 화소 손실을 차단할 수 있다. 즉, 출력 영상과 레이블 영상의 해당 두 화소 간의 절대 차이가 지정된 임계값보다 크면 두 화소의 손실은 계산되며, 그렇지 않으면 두 화소 간의 차이는 무시된다. 화소 절단 손실을 추가한 후, 망이 제1 영역에 집중하도록 가이드하고, 영상의 노이즈를 억제하여, 제1 영역을 제거하는 효과가 향상될 뿐만 아니라 망의 수렴 속도가 크게 빨라진다.

특징 손실 함수는 영상의 의미적 특징에 따라 두 영상의 유사도를 측정하는 함수로, 일반적으로 사용되는 방법은 영상을 사전 학습된 망으로 전송하고 서로 다른 수준의 특징을 추출하여 특징에 대한 유사도를 계산하는 것이다. 본 실시예에서, 특징 손실은 주로 초기 신경망의 입력 영상과 레이블 영상의 대응하는 특징의 L1 놈 오차의 가중 합을 의미한다. 선택적 실시예에서, ImageNet 데이터셋에 대해 사전 학습된 VGG19 망은 특징 추출기로 사용되고, 초기 신경망의 출력 영상과 레이블 영상은 각 층의 특성을 획득하기 위해 특징 추출기로 전송되고, VGG19 망의 각 층의 특성을 획득한 후 입력 영상과 레이블 영상에 대응하는 특징의 L1 놈 오차를 계산하여 가중치 가산한다. VGG19 망의 각 층의 특징은 영상의 디테일과 노이즈에 민감하지 않고, 의미론적 특성이 좋기 때문에, 입력 영상과 출력 영상에 노이즈나 오정렬과 같은 결함이 있더라도, 특징 손실은 여전히 유효 반사광 영역의 차이를 정확하게 생성하며, 노이즈에 민감한 화소 손실의 부족을 보완해서, 안정성이 좋다.

구조적 유사성 손실 함수는 영상의 전체적인 특징에 따라 두 영상의 유사도를 측정하는 함수이다. 본 실시예에서, 주로 초기 신경망의 출력 영상과 레이블 영상 간의 전체 밝기 및 대비 차이를 의미하며, 이 손실 함수를 추가하면 망 출력의 컬러 캐스트를를 효과적으로 억제하여 영상의 전체 품질을 향상시킬 수 있다.

대항 손실은 주로 판별기의 출력 결과와 출력 영상의 실제 범주의 손실 값을 의미한다. 학습의 후기에서, 초기 신경망의 출력 영상과 레이블 영상의 차이가 작아지면, 화소 손실, 특징 손실 및 구조적 유사성 손실의 효과가 점차 작아지고 망은 느리게 수렴한다. 이때 판별기 망은 보조망의 학습을 위해 동기적으로 학습된다. 먼저 초기 신경망의 출력 영상과 레이블 영상을 판별기로 보내고, 판별기는 출력 영상이 레이블 영상인지를 판단하고, 판별기의 출력 결과와 출력 영상의 실제 범주에 따라 대항 손실을 계산하여 판별기의 파라미터를 갱신한다. 판별기가 출력 영상과 초기 신경망의 레이블 영상을 구별할 수 없을 때 학습이 끝났음을 나타낸다. 대항 손실은 망 처리로 인한 영상 부작용을 효과적으로 제거하고 망 출력 영상의 사실성을 향상시킬 수 있다.

선택적 실시예에서, 초기 신경망의 제1 영상 출력 모듈은 상술한 화소 손실, 특징 손실 및 구조적 유사성 손실의 가중 합의 총 손실로 사용하며, Wassertein 생성 대항망을 대항 손실로 사용하고; 초기 신경망의 제2 영상 출력 모듈은 입력 영상의 그레이 스케일 영상과 레이블 영상의 그레이 스케일 영상의 차이를 레이블 영상으로 간주하며, 화소 손실을 총 손실로 사용한다.

요약하면, 본 발명의 실시예에서 채택된 신경망 구조와 손실 함수는 반사광 제거, 음영 제거, 비 제거, 안개 제거, 울타리 제거와 같은 응용 시나리오에 적용될 수 있으며, 주로 휴대폰에서 촬영된 고해상도 영상을 처리하는 데 사용되나, PC나 기타 임베디드 기기에서 다양한 해상도의 영상을 처리하는 데에도 동일하게 적용될 수 있다.

도 5a 및 도 5b는 본 발명의 실시예에 따른 영상 처리 방법에 의해 구현되는 반사광 제거 효과의 비교도로서, 도 5a는 반사광 영역을 포함하는 피처리 영상이고, 도 5b는 영상 처리 방법에 의해 처리된 반사광 제거 영상으로서, 두 영상의 대비로부터 알 수 있듯이, 본 발명은 배경 영상에 현저한 부작용을 발생시키지 않으면서 반사광 영역을 효과적으로 제거할 수 있는 영상 처리 방법을 제공한다.

도 6a 및 도 6b는 본 발명의 실시예에 따른 영상 처리 방법에 의해 구현된 음영 제거 효과의 비교도로서, 도 6a는 음영 영역을 포함하는 피처리 영상이고. 도 6b는 영상 처리 방법에 의해 처리된 음영 제거 영상으로서, 두 영상의 대비로부터 알 수 있듯이, 본 발명은 배경 영상에 현저한 부작용을 발생시키지 않으면서 음영 영역을 효과적으로 제거할 수 있는 영상 처리 방법을 제공한다.

도 5a, 도 5b 및 도 6a, 도 6b는 본 발명의 실시예에서 제공하는 영상 처리 방법을 이용하여 신문 및 서적의 반사광을 제거할 수 있는 효과를 나타낸다. 그러나, 당업자는, 학습 데이터를 교체함으로써, 더 나은 음영 제거, 물 반점 제거(예: 비 제거, 안개 제거) 및 차폐(예: 울타리 제거) 및 기타 간섭 요인 효과가 또한 달성될 수 있음을 알 수 있다. 스마트 드라이빙 분야에서, 차량 탑재 카메라에서 얻은 영상을 적시에 처리해서, 간섭 요소가 제거된 선명한 고품질 영상을 획득할 수 있어, 보조 운전 기능을 보장한다.

본 발명의 실시예의 다른 측면에 따르면, 프로세서, 및 상기 프로세서의 실행 가능한 명령어를 저장하는 메모리를 포함하는 전자 장치가 더 제공되며, 상기 프로세서는 실행 가능한 명령어의 실행을 통해 상술한 임의의 어느 하나의 영상 처리 방법을 실행한다.

본 발명의 실시예의 또 다른 측면에 따르면, 기록 매체가 더 제공되고, 기록 매체는 저장된 프로그램을 포함하되, 상기 기록 매체는 상기 프로그램이 실행될 때, 상기 기록 매체가 위치한 장치는 상술한 임의의 어느 하나의 영상 처리 방법을 실행하도록 제어된다.

본 발명의 실시예의 또 다른 측면에 따르면, 영상 처리 장치가 더 제공된다. 도 7을 참조하면, 본 발명의 실시예에 따른 선택적 영상 처리 장치의 구성 블록도이다. 도 7에 도시된 바와 같이, 영상 처리 장치(70)는 영상 획득 유닛(700) 및 처리 유닛(702)을 포함한다.

이하에서 영상 처리 장치(70)에 포함된 각 유닛에 대해 구체적으로 설명한다.

영상 획득 유닛(700)은 제1 영역을 포함하는 피처리 영상을 획득한다.

처리 유닛(702)은 피처리 영상을 수신하며, 학습된 신경망을 사용하여 피처리 영상을 처리하여, 제1 영역을 제거하는 결과 영상을 획득하도록 구성되며, 신경망은 이중 분기망을 포함한다.

선택적 실시예에서, 제1 영역은 반사광 영역, 음영 영역, 물 반점 영역, 차폐물 등일 수 있다.

선택적 실시예에서, 신경망의 구조는 도 2 및 본 명세서의 관련된 설명에 설명되어 있으므로, 상세한 내용은 여기에서 반복되지 않는다.

상술한 본 발명의 실시예의 일련번호는 단지 설명을 위한 것이며, 실시예의 우열을 나타내지 않는다.

상술한 본 발명의 실시예에서, 각 실시예에 대한 설명은 나름대로의 강조점이 있으며, 특정 실시예에서 구체적으로 설명되지 않은 부분에 대해서는 다른 실시예의 관련된 설명을 참조할 수 있다.

본 출원에서 제공되는 여러 실시예에서, 개시된 기술 내용은 다른 방식으로 구현될 수 있음을 이해해야 한다. 여기서, 상술한 장치 실시예는 예시일 뿐이고, 예를 들어, 상기 유닛의 분할은, 논리적 기능 분할일 수 있고, 실제 구현에서 다른 분할 방식이 있을 수 있고, 예를 들어, 복수의 유닛 또는 컴포넌트는 다른 시스템에 결합되거나 통합될 수 있으며, 일부 특징은 기능은 무시되거나 실행되지 않을 수 있다. 한편, 도시되거나 설명된 상호 결합 또는 직접 결합 또는 통신 연결은 일부 인터페이스, 유닛 또는 모듈의 간접 결합 또는 통신 연결일 수 있으며, 전기적 또는 다른 형태일 수 있다.

분리된 부재로 설명된 유닛은 별도의 구성 요소로 설명된 단위는 물리적으로 분리되거나 분리되지 않을 수 있으며, 유닛으로 표시된 부재는 물리적 유닛일 수도 있고 아닐 수도 있어서, 즉, 한 곳에 위치하거나 여러 유닛에 분산될 수도 있다. 유닛의 일부 또는 전부는 이 실시예에서 솔루션의 목적을 달성하기 위한 실제 필요에 따라 선택될 수 있다.

또한, 본 발명의 각 실시예에서 각 기능 유닛은 하나의 처리 유닛으로 통합될 수 있거나, 각 유닛이 물리적으로 단독으로 물리적으로 존재할 수 있거나, 둘 이상의 유닛이 하나의 유닛으로 통합될 수 있다. 상술한 통합 유닛들은 하드웨어의 형태로 구현될 수도 있고, 소프트웨어 기능 유닛의 형태로 구현될 수도 있다.

상기 통합 유닛이 소프트웨어 기능 유닛의 형식으로 구현되어 독립적인 제품으로 판매 또는 사용되는 경우, 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있다. 이러한 이해에 기초하여, 본 발명의 기술적 방안은 본질적으로 또는 그 일부가 종래 기술에 기여하거나, 기술적 방안의 전부 또는 일부를 소프트웨어 제품의 형태로 구현될 수 있고, 컴퓨터 소프트웨어 제품은 하나의 기록 매체에 저장되며, 컴퓨터 장치(개인용 컴퓨터, 서버 또는 네트워크 장치 등이 될 수 있음)에서 본 발명의 다양한 실시예에 설명된 방법의 전부 또는 일부 단계를 실행하게 하기 위한 다수의 명령을 포함한다. 앞서 언급한 기록 매체는 U 디스크, Read-only memory(ROM), Random access memory(RAM), 모바일 하드 디스크, 자기 디스크 또는 광 디스크 등 각종 프로그램 코드를 저장할 수 있는 매체를 포함한다.

이상은 본 발명의 바람직한 실시예일뿐이며, 당업자라면 본 발명의 원리를 벗어나지 않는 범위에서 몇 가지 개선 및 수정을 할 수 있으며, 이러한 개선과 수정도 본 발명으로 간주되어야 함을 유의하여야 한다.

Claims

제1 영역을 포함하는 피처리 영상을 획득하는 단계;
상기 피처리 영상을 학습된 신경망에 입력하여 상기 제1 영역을 제거한 영상을 결과 영상으로 획득하는 단계를 포함하되, 상기 신경망은 이중 분기망을 포함하는 영상 처리 방법.
청구항 1에 있어서, 상기 신경망은
상기 피처리 영상의 특징을 층별로 추출하여 특징 데이터를 획득하는, 인코더를 포함하는, 특징 추출 모듈;
상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제1 영상을 출력하는, 제1 디코더를 포함하는, 제1 영상 출력 모듈;
상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제2 영상을 출력하는, 제2 디코더를 포함하는, 제2 영상 출력 모듈;
상기 제1 영상 출력 모듈 및/또는 상기 제2 영상 출력 모듈에 연결되며, 상기 제1 영상 및/또는 상기 제2 영상에 따라 상기 제1 영역을 제외한 결과 영상을 출력하는 결과 영상 출력 모듈을 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 1에 있어서, 상기 제1 영역은 반사광 영역, 음영 영역, 물 반점 영역, 차폐 영역 중 적어도 하나인 것을 특징으로 하는 영상 처리 방법.
청구항 2에 있어서, 상기 제1 영상은 배경 영상이고, 상기 제2 영상은 반사광 영상, 음영 영상, 물 반점 영상, 차폐 영상 중 적어도 하나인 것을 특징으로 하는 영상 처리 방법.
청구항 2에 있어서, 상기 제1 디코더와 상기 제2 디코더의 각 층의 출력은 교차층 연결을 통해 인코더에 대응하는 층의 출력을 채널축을 따라 스플라이싱함으로써, 상기 인코더와 상기 제1 디코더, 상기 제2 디코더의 교차층 연결에 멀티 스케일 피라미드 풀링 모듈이 추가되며, 상기 멀티 스케일 피라미드 풀링 모듈은 서로 상이한 스케일의 특징을 융합하는 것을 특징으로 하는 영상 처리 방법.
청구항 5에 있어서, 상기 인코더와 상기 제1 디코더 및 상기 제2 디코더 사이의 교차층 연결에 멀티 스케일 특징 선택 모듈이 추가되며, 멀티 스케일 특징 선택 모듈은 각 스케일 특징 및 비율을 동적으로 선택 및 조정하는 것을 특징으로 하는 영상 처리 방법.
청구항 2에 있어서, 상기 인코더의 합성곱층은 그룹화된 합성곱인 것을 특징으로 하는 영상 처리 방법.
청구항 1에 있어서, 상기 신경망의 합성곱 연산자는 게이트 합성곱인 것을 특징으로 하는 영상 처리 방법.
청구항 1에 있어서, 상기 제1 영역을 포함하는 피처리 영상을 획득한 후, 상기 영상 처리 방법은,
영상 피라미드 알고리즘을 사용하여 상기 피처리 영상을 다운샘플링하고 다운샘플링하는 동안 모든 수준의 영상층들의 그래디언트 정보를 저장하여 라플라시안 피라미드를 형성하는 단계;
최소 크기의 영상층을 학습된 신경망에 제공하여 출력 영상을 획득하는 단계;
상기 라플라시안 피라미드를 상기 출력 영상에 사용해서 저해상도 내지 고해상도 재구성을 진행하여, 상기 제1 영역을 제거한 결과 영상을 획득하는 단계를 더 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 1에 있어서, 상기 영상 처리 방법은
초기 신경망을 구성하는 단계;
샘플 데이터를 사용하여 상기 초기 신경망을 학습시켜 학습된 신경망을 획득하는 단계를 더 포함하되, 상기 샘플 데이터는 제1 샘플 영상 및 영상 합성 방법을 사용하여 획득한 제2 샘플 영상을 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 10에 있어서, 제2 샘플 영상을 획득하기 위한 영상 합성 방법의 사용은,
원본 영상 및 참조 영상을 획득하는 단계;
상기 원본 영상에서 제1 영역을 확정하는 단계;
상기 원본 영상과 동일한 크기의 마스크 영상을 생성하고, 상기 제1 영역에 대응하는 제2 영역의 경계를 페더링하여 블러된 마스크 영상을 획득하는 단계;
상기 참조 영상에 가우시안 블러링을 수행하여, 블러된 참조 영상을 획득하는 단계;
상기 원본 영상, 상기 블러된 마스크 영상 및 상기 블러된 참조 영상으로부터 상기 제2 샘플 영상을 합성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 11에 있어서, 상기 원본 영상, 상기 블러된 마스크 영상 및 상기 블러된 참조 영상에 따라 상기 제2 샘플 영상을 합성하는 단계는
상기 블러된 마스크 영상을 정규화하여 정규화된 마스크 영상을 획득하는 단계;
상기 제1 영역에 대응하는 상기 제2 영역에서, 상기 정규화된 마스크 영상의 화소와 상기 블러된 참조 영상의 화소를 요소별로 곱하여 중간 영상을 획득하는 단계;
상기 원본 영상과 상기 중간 영상을 선형적으로 중첩하여 상기 제2 샘플 영상을 합성하는 단계를 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 11에 있어서, 샘플 데이터를 사용하여 상기 초기 신경망을 학습시킬 때 손실 함수는 화소 손실, 특징 손실, 구조적 유사성 손실 및 대항 손실 중 적어도 하나를 포함하는 것을 특징으로 하는 영상 처리 방법.
청구항 13에 있어서, 상기 화소 손실은 화소 절단 손실을 포함하고,
상기 초기 신경망의 출력 영상과 레이블 영상의 대응하는 2개의 화소의 절대 차이가 임계값보다 크면, 상기 2개의 화소의 손실을 계산하며,
상기 초기 신경망의 출력 영상과 상기 레이블 영상의 대응하는 2개의 화소의 절대차이가 상기 임계값보다 크지 않으면, 상기 2개의 화소의 차이를 무시하는 것을 특징으로 하는 영상 처리 방법.
청구항 13에 있어서, 초기 신경망의 특징 추출기로서 VGG19 망을 사용하여 상기 특징 손실을 계산하는 것을 특징으로 하는 영상 처리 방법.
제1 영역을 포함하는 피처리 영상을 획득하는 영상 획득 유닛;
상기 피처리 영상을 수신하며, 상기 제1 영역을 제거한 결과 영상을 획득하기 위해 학습된 신경망을 사용하여 상기 피처리 영상을 처리하는 처리 유닛을 포함하는 영상 처리 장치를 포함하되, 상기 신경망은 이중 분기망을 포함하는 영상 처리 장치.
청구항 16에 있어서, 상기 신경망은
상기 피처리 영상의 특징을 층별로 추출하여 특징 데이터를 획득하는, 인코더를 포함하는, 특징 추출 모듈;
상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제1 영상을 출력하는 제1 디코더를 포함하는, 제1 영상 출력 모듈;
상기 특징 추출 모듈의 출력에 연결되며, 상기 특징 데이터에 기초하여 제2 영상을 출력하는 제2 디코더를 포함하는, 제2 영상 출력 모듈;
상기 제1 영상 출력 모듈 및/또는 상기 제2 영상 출력 모듈에 연결되며, 상기 제1 영상 및/또는 상기 제2 영상에 따라 상기 제1 영역을 제외한 결과 영상을 출력하는 결과 영상 출력 모듈을 포함하는 것을 특징으로 하는 영상 처리 장치.
청구항 17에 있어서, 상기 제1 디코더와 상기 제2 디코더의 각 층의 출력은 교차층 연결을 통해 인코더에 대응하는 층의 출력을 채널축을 따라 스플라이싱함으로써, 상기 인코더와 상기 제1 디코더, 상기 제2 디코더의 교차층 연결에 멀티 스케일 피라미드 풀링 모듈이 추가되며, 상기 멀티 스케일 피라미드 풀링 모듈은 서로 상이한 스케일의 특징을 융합하는 것을 특징으로 하는 영상 처리 장치.
기록 매체는 저장된 프로그램을 포함하며, 상기 프로그램이 실행되면, 상기 기록 매체가 위치한 장치는 청구항 1 내지 청구항 15 중 어느 하나에 따른 영상 처리 방법을 실행하도록 제어되는 것을 특징으로 하는 기록 매체.
프로세서와,
상기 프로세서의 실행 가능한 명령을 저장하기 위한 메모리를 포함하되,
상기 프로세서는 상기 실행 가능한 명령의 실행을 통해 청구항 1 내지 청구항 15 중 어느 하나에 따른 영상 처리 방법을 실행하도록 구성된 것을 특징으로 하는 전자장치.