KR102315359B1 - 밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법 - Google Patents

밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법 Download PDF

Info

Publication number
KR102315359B1
KR102315359B1 KR1020210033423A KR20210033423A KR102315359B1 KR 102315359 B1 KR102315359 B1 KR 102315359B1 KR 1020210033423 A KR1020210033423 A KR 1020210033423A KR 20210033423 A KR20210033423 A KR 20210033423A KR 102315359 B1 KR102315359 B1 KR 102315359B1
Authority
KR
South Korea
Prior art keywords
noise
noise removal
space
time
frames
Prior art date
Application number
KR1020210033423A
Other languages
English (en)
Inventor
정제창
이재훈
Original Assignee
한양대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한양대학교 산학협력단 filed Critical 한양대학교 산학협력단
Application granted granted Critical
Publication of KR102315359B1 publication Critical patent/KR102315359B1/ko

Links

Images

Classifications

    • G06T5/002
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Picture Signal Circuits (AREA)

Abstract

본 발명은 동영상 잡음 제거 시스템 및 방법에 관한 것으로, 복수의 프레임을 포함하는 동영상 데이터를 수신하는 동영상 데이터 수신부, 잡음 제거 대상 프레임 및 상기 잡음 제거 대상 프레임 전후 2개씩의 프레임을 포함하는 5개의 입력 프레임을 선택하는 입력 프레임 선택부, 상기 선택된 5개의 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행하는 공간 잡음 제거부, 상기 공간 잡음 제거된 5개의 프레임을 순서대로 3개씩 묶어 시공간 잡음 제거 블록에 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성하는 제1 시공간 잡음 제거부, 상기 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성하는 제2 시공간 잡음 제거부 및 상기 제2 시공간 잡음 제거부에서 생성된 프레임으로 상기 잡음 제거 대상 프레임을 대체하여, 잡은 제거된 동영상 데이터를 생성하는 잡음 제거 동영상 생성부를 포함하는 동영상 잡음 제거 시스템과 그 동작 방법이 제공된다.

Description

밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법 {Blind Video Denoising System and Method using Dense Recurrent Convolutional Neural Network}
본 발명은 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)을 이용하여 동영상 내 잡음을 제거하는 시스템 및 방법에 관한 것으로, 심층 신경망의 학습을 통해 입력되는 동영상의 잡음을 제거하여 동영상의 화질을 개선시키는 기술에 관한 것이다.
영상 데이터를 수집하는 과정에서 발생되는 다양한 오류로 인하여 영상에 잡음이 포함될 수 있다. 이와 같이 영상에 잡음이 포함되게 되면, 단순히 눈에 보기에 영상의 화질이 저하되는 문제뿐 아니라, 영상 내에 포함되는 다양한 오브젝트를 인식하는데 있어서 성능 저하가 발생될 수 있어, 자율주행 등에서 필요로 하는 영상처리 기술에 치명적인 문제를 발생시킬 수 있다.
이와 같은 문제를 해결하기 위하여, 영상 내의 잡음을 제거하는 기술들이 개발되고 있는데, 동영상은 시간적으로 인접한 프레임들 사이에 정보의 연관성이 존재하므로, 동영상의 인접 프레임 내에서 비슷한 패치(patch)를 찾아 잡음을 제거하는 기술이 연구되었으며, 딥 러닝(Deep Learning)을 이용하는 기술들도 발전해 왔다.
선행기술인 미국 공개특허 US2020-0364834호, "Method and apparatus for convolutional neural network-based video denoising"은 합성곱 신경망(CNN; Convolutional Neural Network)을 이용하여 영상의 잡음을 제거하는 기술에 관한 것으로, 중심 프레임의 전후 프레임에 대해 움직임 추정(Motion Estimation)을 수행하고, 이를 기반으로 잡음을 제거하도록 하는 기술이다. 그러나, 이와 같이 인접 프레임에서 비슷한 패치를 찾기 위해 움직임 추정(Motion Estimation)을 하게 되면 연산이 많아져 처리속도가 느려지는 문제가 있다. 또한, 선행기술은 심층 신경망의 구조가 단순하여 잡음 제거 성능이 떨어지는 문제가 있다.
따라서, 움직임 추정과 같은 불필요한 연산을 최소화하면서도 잡음 제거 성능을 극대화할 수 있도록 하는 동영상 잡음 제거 기술이 요구된다.
미국공개특허 US2020-0364834호
본 발명은 영상 내의 잡음을 제거하여, 영상 내 오브젝트 인식 등 컴퓨터 비전 기술의 성능을 개선할 수 있도록 하는 것을 목적으로 한다.
본 발명은 동영상 잡음 제거 성능을 극대화하여 높은 화질의 영상을 복원할 수 있도록 하는 것을 목적으로 한다.
본 발명은 심층 신경망을 이용하여 잡음을 제거하는 과정에서 시간별 특징(feature)의 재사용하여 영상의 화질을 개선시킬 수 있도록 하는 것을 목적으로 한다.
이러한 목적을 달성하기 위하여 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템은 복수의 프레임을 포함하는 동영상 데이터를 수신하는 동영상 데이터 수신부, 잡음 제거 대상 프레임 및 상기 잡음 제거 대상 프레임 전후 2개씩의 프레임을 포함하는 5개의 입력 프레임을 선택하는 입력 프레임 선택부, 상기 선택된 5개의 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행하는 공간 잡음 제거부, 상기 공간 잡음 제거된 5개의 프레임을 순서대로 3개씩 묶어 시공간 잡음 제거 블록에 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성하는 제1 시공간 잡음 제거부, 상기 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성하는 제2 시공간 잡음 제거부 및 상기 제2 시공간 잡음 제거부에서 생성된 프레임으로 상기 잡음 제거 대상 프레임을 대체하여, 잡은 제거된 동영상 데이터를 생성하는 잡음 제거 동영상 생성부를 포함하여 구성될 수 있다.
이 때, 상기 공간 잡음 블록 및 시공간 잡음 블록은 심층 신경망을 이용하여, 부호화 단계 및 복호화 단계를 포함하는 구조로 구성될 수 있다.
또한, 상기 부호화 단계 및 복호화 단계는 시간별로 과거 시간의 출력을 모두 쌓거나(concatenate) 더하여(add) 얻은 새로운 입력에 대해 합성곱 연산을 반복하는 밀집 순환 합성곱 신경망을 이용할 수 있다.
또한, 상기 밀집 순환 합성곱 신경망은 1x1 합성곱 층을 이용하여 과거 시간의 출력을 모두 쌓아 얻은 새로운 입력의 채널 수를 조절하는 것일 수 있다.
또한, 상기 밀집 순환 합성곱 신경망은 과거 시간의 출력을 누적 모두 쌓는 최대 반복 시간이 3인 것을 특징으로 할 수 있다.
또한, 상기 부호화 단계는 스트라이드(stride)가 2인 합성곱 층을 이용하여 다운 샘플링을 수행하고, 상기 복호화 단계는 픽셀 셔플(Pixel Shuffle)층을 이용하여 업 샘플링을 수행할 수 있다.
본 발명에 따르면 영상 내의 잡음을 제거하여, 영상 내 오브젝트 인식 등 컴퓨터 비전 기술의 성능을 개선할 수 있도록 하는 효과를 얻을 수 있다.
본 발명에 따르면 동영상 잡음 제거 성능을 극대화하여 높은 화질의 영상을 복원할 수 있도록 하는 효과를 얻을 수 있다.
본 발명에 따르면 심층 신경망을 이용하여 잡음을 제거하는 과정에서 시간별 특징(feature)의 재사용하여 영상의 화질을 개선시킬 수 있도록 하는 효과를 얻을 수 있다.
도 1은 본 발명의 일실시예에 다른 동영상 잡음 제거 시스템의 내부 구성을 도시한 구성도이다.
도 2는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 블록의 일례를 도시한 도면이다.
도 3은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡은 제거 블록에 포함되는 합성곱 유닛의 구조를 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 블록에 사용되는 밀집 순환 합성곱 신경망의 전개도를 나타낸 도면이다.
도 5는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 결과 예시를 나타낸 도면이다.
도 6은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 성능을 분석하는 분석 방법을 나타낸 도면이다.
도 7은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 성능을 분석한 분석결과를 나타낸 도면이다.
도 8은 본 발명의 일실시예에 따른 동영상 잡음 제거 방법의 흐름을 도시한 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략하기로 한다. 또한 본 발명의 실시예들을 설명함에 있어 구체적인 수치는 실시예에 불과하며 이에 의하여 발명의 범위가 제한되지 아니한다.
본 발명에 따른 라이브 커머스 시스템은 중앙처리장치(CPU) 및 메모리(Memory, 기억장치)를 구비하고 인터넷 등의 통신망을 통하여 다른 단말기와 연결 가능한 서버의 형태로 구성될 수 있다. 그러나 본 발명이 중앙처리장치 및 메모리 등의 구성에 의해 한정되지는 아니한다. 또한, 본 발명에 따른 동영상 잡음 제거 시스템은 물리적으로 하나의 장치로 구성될 수도 있으며, 복수의 장치에 분산된 형태로 구현될 수도 있다.
도 1은 본 발명의 일실시예에 다른 동영상 잡음 제거 시스템의 내부 구성을 도시한 구성도이다.
본 발명의 일실시예에 따른 동영상 잡음 제거 시스템(101)은 잡음이 포함된 동영상 데이터를 수신하여 잡음이 제거된 동영상을 생성하는 것으로 독립적으로 동작할 수도 있으며, 영상 내에서 오브젝트를 인식하는 컴퓨터 비전 시스템 등의 전처리 모듈로 동작하여 컴퓨터 비전 기술의 정확도를 높이는 데에 활용될 수 있다. 이를 위하여 동영상 잡음 제거 시스템(101)은 하드웨어 모듈, 소프트웨어 모듈 또는 이들이 결합된 형태로 구성될 수 있으며, 컴퓨터 비전 시스템에 포함되거나 통신망 등을 통해 연결되는 형태로 구성될 수 있다.
또한, 동영상 잡음 제거 시스템(101)은 기본적으로 중앙처리장치 및 메모리를 구비하는 컴퓨팅 장치를 기반으로 구현될 수 있으며, 심층 신경망을 이용하는 연산을 효율적으로 수행하기 위해 복수의 그래픽 처리 유닛(GPU)을 포함하여 구성될 수도 있다.
동영상 잡음 제거 시스템(101)은 동영상 데이터 수신부(110), 입력 프레임 선택부(120), 공간 잡음 제거부(130), 제1 시공간 잡음 제거부(140), 제2 시공간 잡음 제거부(150) 및 잡음 제거 동영상 생성부(160)를 포함하여 구성될 수 있다. 각각의 구성요소들이 반드시 물리적으로 분리되어야 하는 것은 아니다.
동영상 데이터 수신부(110)는 복수의 프레임을 포함하는 동영상 데이터를 수신한다. 복수의 정지영상 프레임이 시계열적으로 배열되어 구성된다. 본 발명의 동영상 잡음 제거 시스템(101)은 동영상을 구성하는 각각의 프레임 정지영상에 대해서 잡음을 제거함으로써, 잡음이 제거된 동영상을 생성하게 된다.
동영상 데이터 수신부(110)에서는 다양한 형태로 동영상 데이터를 수신할 수 있는데, 동영상 데이터가 저장된 파일을 읽어들이거나, 실시간 스트리밍 되는 동영상 데이터를 수신할 수 있다. 동영상 데이터 수신부(110)는 수신한 동영상 데이터에서 각각의 프레임을 추출하기 위하여, 부호화된 동영상을 복호화하기 위한 복호화부를 포함하여 구성될 수 있다.
입력 프레임 선택부(120)는 잡음 제거 대상 프레임(t) 및 잡음 제거 대상 프레임 전후 2개씩의 프레임(t-2, t-1, t+1, t+2)을 포함하는 5개의 입력 프레임을 선택한다. 동영상 데이터는 보통 초당 30개 이상의 프레임으로 구성되는데, 인접한 프레임들은 서로 유사한 정지영상을 담고 있는 경우가 많고, 인접한 프레임에 존재하는 시간적인 정보의 연관성을 함께 이용하여, 잡음 제거 대상 프레임(t)에서 잡음을 제거하는 것이 가능하게 된다.
공간 잡음 제거부(130)는 입력 프레임 선택부(120)에서 선택된 5개의 순차적인 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행한다. 공간 잡음 제거 블록은 심층 신경망을 이용하여 인코더-디코더 구조로 구성될 수 있으며, 하나의 입력 프레임의 3개 채널(R, G, B)을 입력으로 하여 잡음을 제거하는 동작을 수행할 수 있다. 심층 신경망을 통해 영상의 잡음을 제거하기 위하여 사전에 클린 영상과 잡음이 포함된 영상에 대한 학습을 통해 학습 파라미터를 도출할 수 있으며, 도면에 표시된 5개의 공간 잡음 제거 블록은 모두 학습 파라미터를 공유한다. 즉, 5개의 순차적인 입력 프레임에 대해 동일한 학습 파라미터를 가지는 심층 신경망을 이용하여 공간 잡음 제거를 진행하게 된다. 공간 잡음 제거부(130)에서 공간 잡음 제거를 위해 사용하는 공간 잡음 제거 블록의 구조에 대해서는 도 2에서 보다 상세히 설명하도록 한다.
제1 시공간 잡음 제거부(140)는 공간 잡음 제거된 5개의 프레임을 순서대로 3개씩 묶어 시공간 잡음 제거 블록에 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성한다. 도면에 도시된 바와 같이, 5개의 공간 잡음 제거된 프레임을 순서대로 3개씩 묶으면 3개의 묶음이 생성되게 된다. 첫 번째 묶음은 (t-2, t-1, t), 두 번째 묶음은 (t-1, t, t+1), 세 번째 묶음은(t, t+1, t+2)이 되는데, 이와 같이 3개씩의 순차적인 프레임을 묶어 시공간 잡음 제거를 수행하게 되면, 인접 프레임의 시간적인 정보의 연관성을 함께 이용하여 잡음을 제거할 수 있게 되어, 보다 효과적인 잡음 제거가 가능하게 된다.
제1 시공간 잡음 제거부(140)에서 활용하는 시공간 잡음 제거 블록은 앞서 공간 잡음 제거부(130)에서의 공간 잡음 제거 블록과 동일한 구조를 가질 수 있으며, 공간 잡음 제거 블록의 경우는 상술한 바와 같이 1개의 입력 프레임의 3개 채널을 입력으로 받지만, 시공간 잡음 제거 블록은 3개의 입력 프레임의 각각 3개씩의 채널로 총 9개의 채널을 입력으로 받는다는 점에서 차이가 있다.
도면에 표시된 제1 시공간 잡음 제거부(140)에서 사용하는 시공간 잡음 제거 블록 3개는 앞서 공간 잡음 제거부(130)에서 사용하는 공간 잡음 제거 블록 5개가 그랬던 것처럼 동일한 학습 파라미터를 공유하도록 구성될 수 있다. 시공간 잡음 제거 블록의 구체적인 구성과 관련하여서는 도 2에서 보다 상세하게 설명하도록 한다.
제2 시공간 잡음 제거부(150)는 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성한다. 앞서 제1 시공간 잡음 제거부(140)에서 3개씩의 입력 프레임을 묶어 총 3개의 시공간 잡음 제거된 프레임을 생성하였는데, 이 3개를 입력으로 하여 시공간 잡음 제거를 수행함으로써, 최종적으로 잡음 제거된 프레임을 생성하도록 한다.
제2 시공간 잡음 제거부(150)에서 사용하는 시공간 잡음 제거 블록은 앞서 제1 시공간 잡음 제거부에서 사용하는 시공간 잡음 제거 블록과 동일한 구조를 가지도록 구성될 수 있으나, 제1 시공간 잡음 제거부(140)에서 사용하는 시공간 잡음 제거 블록 3개가 공유한 학습 파라미터와는 다른 파라미터를 이용하여 잡음 제거를 수행하도록 구성된다. 앞서 설명한 것과 같이, 3개의 입력 프레임은 총 9개의 채널을 가지며, 제2 시공간 잡음 제거부에서 사용하는 시공간 잡음 제거 블록 또한 이 9개의 채널을 이용하여 인코더-디코더 구조를 통해 잡음을 제거하도록 함으로써, 잡음 제거 대상 프레임(t)에 대응하는 잡음이 제거된 프레임을 생성할 수 있다.
공간 잡음 제거부(130), 제1 시공간 잡음 제거부(140) 및 제2 시공간 잡음 제거부(150)에서 각각 사용하는 공간 잡음 제거 블록 및 시공간 잡음 제거 블록은 심층 신경망을 이용하여 구성될 수 있으며, 부호화 단계 및 복호화 단계를 거치면서 잡음을 제거하는 형태로 구현될 수 있다. 이 때, 부호화 단계 및 복호화 단계는 각각 시간별로 과거 시간의 출력을 모두 쌓거나(concatenate) 더하여(add) 얻은 새로운 입력에 대해 합성곱 연산을 반복하도록 구성한 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)을 이용할 수 있다. 이 때, 과거의 출력을 쌓아(concatenate) 사용하는 경우, 기존의 순환 합성곱 신경망(Recurrent Convolutional Neural Network)과 다르게 과거 시간의 출력을 쌓아 입력으로 하기 때문에, 채널의 수가 증가하는 문제가 발생되므로, 1x1 합성곱 층(Convolutional Layer)를 이용하여 채널 수를 조절하게 된다. 이와 같은 구조에 대해서는 도 4에서 보다 상세하게 설명하도록 한다.
또한, 공간 잡음 제거 블록 및 시공간 잡음 제거 블록의 부호화 단계에서는 다운 샘플링이 진행되는데, 스트라이드(stride)가 2인 합성곱 층(Convolutional Layer)를 이용하여 다운 샘플링을 진행하고, 복호화 단계에서는 업 샘플링이 진행되는데, 픽셀 셔플(PixelShuffle) 층을 이용하여 업 샘플링을 진행한다. 픽셀 셔플(PixelShuffle) 층을 이용하면 격자 무늬 아티팩트(gridding artifact)를 최소화할 수 있어, 잡음 제거된 영상의 품질을 극대화할 수 있다.
잡음 제거 동영상 생성부(160)는 제2 시공간 잡음 제거부(150)에서 생성된 프레임으로 잡음 제거 대상 프레임(t)을 대체하여, 잡음 제거된 동영상 데이터를 생성한다. 동영상 데이터 내의 모든 프레임들을 잡음 제거 대상 프레임으로 두고 위 동작을 반복하게 되면, 모든 프레임들에 대해 잡음 제거가 이루어지게 되고, 이처럼 잡음 제거된 프레임으로 원래의 프레임들을 하나씩 대체하게 되면, 잡음이 제거된 동영상 데이터를 생성할 수 있게 된다. 본 발명의 동영상 잡음 제거 시스템(101)은 이와 같은 방법을 통하여 입력된 동영상 데이터에서 잡음을 제거하여 잡음 제거된 동영상 데이터를 생성하게 된다.
도 2는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 블록의 일례를 도시한 도면이다.
상술한 바와 같이, 본 발명의 동영상 잡음 제거 시스템(101)에서 잡음 제거를 위해, 공간 잡음 제거 블록과 시공간 잡음 제거 블록이 사용되는데, 공간 잡음 제거 블록은 하나의 입력 프레임의 3개 채널(R, G, B)을 입력으로 하여 심층 신경망을 이용한 부호화 및 복호화 과정을 통해 잡음을 제거하고, 시공간 잡음 제거 블록은 3개의 입력 프레임의 각각 3개씩의 채널로 총 9개의 채널을 입력으로 하여, 심층 신경망을 이용한 부호화 및 복호화 과정을 통해 인접한 프레임의 정보를 활용하여 잡음을 제거한다.
도면에서 사각형으로 표시된 것은 채널을 나타내며, 사각형 아래 표시된 숫자는 채널의 개수를 나타낸다. 본 발명의 공간 잡음 제거 블록 및 시공간 잡음 제거 블록은 도면에 나타난 것과 같은 동일한 구조를 가지는데, 도면에서는 최초 입력 채널이 9로 설정되어 있으며, 이는 시공간 잡음 제거 블록임을 나타낸다. 공간 잡음 제거 블록은 도면과 동일한 구조를 가지면서, 최초 입력 채널이 3으로 구성된다는 점에서만 차이를 가진다.
입력된 채널은 노란색 화살표로 표시된 것과 같이, 밀집 잔차 순환 합성곱 유닛(DRRCU; Dense Residual Recurrent Convolutional Unit, 203)을 거치게 되고, 파란 색으로 표시된 것과 같이 스트라이드(stride)가 2인 합성곱 층(204)을 이용하여 다운샘플링 과정을 거치게 된다. 밀집 잔차 순환 합성곱 유닛(DRRCU)은 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)을 이용하여 시간에 따라 합성곱 신경망의 출력을 발전시켜 나가도록 한 것인데, 구체적인 구조에 대해서는 도 3에서 보다 상세하게 설명하도록 한다.
또한, 다운샘플링된 채널은 다시 DRRCU를 거치고, 한 차례 더 스트라이드(stride)가 2인 합성곱 층을 이용하여 다운샘플링이 수행되게 되는데, 여기까지의 과정이 부호화 단계(encoding path)가 된다.
부호화 단계를 거친 데이터는 다시 DRRCU를 거쳐 256개의 채널로 변환되고, 픽셀 셔플(PixelShuffle) 층을 거쳐 다시 2차례 업 샘플링이 이루어지게 되는데, 각각의 과정에서도 DRRCU를 거치게 된다. 업 샘플링을 완료하고 DRRCU를 거친 데이터는 합성곱 층(201)을 통해 3채널로 변환되어 최종 잡음 제거된 프레임을 생성하게 된다. 이 과정이 복호화 단계(decoding path)가 된다. 이와 같이, 입력된 3개 또는 9개의 채널이 부호화 및 복호화 과정을 거치면서, DRRCU를 거치고, 이를 통해 잡음이 제거된 영상을 생성할 수 있게 된다.
도 3은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡은 제거 블록에 포함되는 합성곱 유닛의 구조를 나타낸 도면이다.
상술한 바와 같이, 본 발명에 따른 동영상 잡음 제거 시스템(101)은 잡음 제거 블록에서 부호화 및 복호화 과정에서 밀집 잔차 순환 합성곱 유닛(DRRCU)를 거치면서 잡음을 제거하도록 하고 있는데, DRRCU는 도면에 표시된 것과 같은 구조를 가진다. 도면에 도시한 것과 같이, 종래의 R2U-Net에서 사용하는 잔차 순환 합성곱 유닛(RRCU; Residual Recurrent Convolutional Unit)과 동일한 구조를 가지는데, 여기에서 빨간 색 화살표로 표시된 부분을 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)을 이용한다는 점에서 차이가 있다. 이를 통해 시간에 따른 특징 정보의 재사용을 늘리고 신경망의 출력을 더욱 정교하게 업데이트할 수 있게 된다. 이를 통해 특징 정보를 추출해 내는 능력이 향상되고, 잡음 제거 성능이 극대화되게 된다.
상세한 밀집 순환 합성곱 신경망(DRRCN)의 구조에 대해서는 도 4에서 상세하게 설명하도록 한다.
도 4는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 블록에 사용되는 밀집 순환 합성곱 신경망의 전개도를 나타낸 도면이다.
본 발명에 따는 동영상 잡음 제거 시스템(101)의 잡음 제거 블록에 사용되는 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)은 두 가지 방식이 적용될 수 있는데, 도면의 401 및 402로 구분되어 표시되어 있다.
도면에 도시한 바와 같이, 본 발명에서 사용되는 밀집 순환 합성곱 신경망(DRCNN)은 시간(t)에 따라서 합성곱 신경망의 출력을 발전시켜 나간다. 도면에 도시한 것처럼, 시간이 k일 때, 과거의 모든 출력들(t=0, 1, ??, k-1)과 최초의 입력(t=0)을 더하거나(add, 도면부호 401) 쌓아(concatenate, 도면부호 402)서 3x3 합성곱 연산을 반복한다. 이 때, 과거의 출력들을 모두 쌓게(concatenate)되면(도면부호 402의 경우), 채널의 수가 증가하므로, 합성곱 연산을 수행할 입력의 채널 수를 일정하게 유지하도록 하기 위하여, t=0을 제외한 모든 시간마다 독립적인 1x1 합성곱 층을 이용하여, 채널 수를 조절한다. 도면부호 402에 1x1로 표시된 블록들이 이와 같은 1x1 합성곱 층을 나타낸다. 과거의 출력들을 더하여(add) 사용하는 경우(도면부호 401)에는 채널의 수가 증가하지 않기 때문에, 도면부호 402의 경우와 같은 1x1 합성곱 층이 필요하지 않게 된다.
이와 같은 누적을 무한정 반복할 수 없으므로, 최대 반복 시간(T)이 설정되어야 하는데, 최대 반복 시간(T)이 N인 DRCNN (T=N)에서는 최대 N+1번의 3x3 합성곱 연산이 반복되며 출력을 업데이트 시킨다. 이와 같이 밀집 연결을 이용하여 시간에 따른 특징 정보의 재사용을 늘리고, 1x1 합성곱 층을 이용하여 신경망의 출력을 더욱 정교하게 업데이트시키는 것이 가능하게 되어, 입력 영상으로부터 필요한 특징 정보를 추출해내는 능력이 향상되고, 이를 통해 잡음 제거 성능이 극대화되게 된다.
이 때, 최대 반복 시간(T)을 적절히 설정하는 것이 매우 중요한데, 실험적인 결과에 따르면, 최대 반복 시간(T)이 2 이하인 경우에는 특징 정보의 재사용의 효과가 제대로 작용하지 않는 것을 확인할 수 있었으며, 최대 반복 시간(T)이 4 이상인 경우에는 연산이 늘어 효율성이 떨어지는 문제가 있었다. 도면에서와 같이 최대 반복 시간(T)이 3인 경우에 가장 효율적으로 높은 잡음 제거 성능을 확보할 수 있었다.
이와 같이 구성되는 심층 신경망은 학습 데이터를 이용한 학습이 필요한데, 학습 데이터는 깨끗한 정답 영상과 잡음이 섞인 입력 시퀀스(sequence)로 구성된 학습 샘플 쌍(pair)이 필요하다. 이를 위하여 다양한 영상 데이터와 각 데이터에 잡음을 부가한 영상 데이터를 학습 샘플 쌍으로 준비하여 학습시키는 것이 가능하다.
도 5는 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 잡음 제거 결과 예시를 나타낸 도면이다.
도면에서 (a)는 원본 영상, (b)는 잡음을 섞은 영상, (c)는 V-BM4D을 이용한 잡음 제거 결과, (d)는 ViDeNN을 이용한 잡음 제거 결과, (e)는 DVDnet을 이용한 잡음 제거 결과, (f)는 FastDVDnet을 이용한 잡음 제거 결과이며, (g)는 본 발명에 따른 동영상 잡음 제거 시스템을 통해 잡음을 제거한 영상의 일례이다.
V-BM4D(c)의 경우는 잡음이 제거되었지만, 전반적으로 심한 블러링(blurring)이 발생하였으며, 이로 인해 신발 옆면의 사선 무늬나 신발 끈은 식별하기 어려우며, 바닥의 타일 무늬도 거의 사라졌다.
나머지 기존의 기법들(d~f)은 V-BM4D(c)에 비하여 좀 더 선명한 영상을 보였다. 이들의 결과 영상에서는 신발의 사선 무늬, 타일의 무늬 등이 부분적으로 식별이 가능하다. 그러나, 원본 영상(a)과 비교할 때, 여전히 블러링이 존재하며, 영상 하단부의 타일의 선은 소실되는 경우가 대부분이다.
이에 반해, 본 발명에 따른 동영상 잡음 제거 시스템을 통해 잡음이 제거된 영상(g)의 경우, 가장 선명하면서도 원본에 가까운 영상을 재현해 내는 것을 확인할 수 있다. 신발 끈과 옆면의 사선 무늬와 같은 특징이 뚜렷하게 복원되었으며, 신발의 가장자리도 원본과 거의 동일하게 복원되었고, 하단 부에 위치한 타일의 직선은 오히려 원본 영상의 것보다 선명하게 복원되었다.
이처럼 본 발명에 따른 동영상 잡음 제거 시스템(101)을 이용하면 종래의 잡음 제거 기법에 비해 높은 잡음 제거 성능을 확보할 수 있다.
도 6은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 성능을 분석하는 분석 방법을 나타낸 도면이다.
동영상 잡음 제거 시스템(101)의 성능을 분석하는 방법으로 잡음을 제거한 후 오브젝트가 얼마나 잘 검출되는지를 확인하는 방법이 있다. 도면에 도시한 바와 같이, 원본 동영상에 가산 백색 가우시안 잡음(AWGN; Additive White Gaussian Noise)을 적용한 영상에 대해 각각의 잡음 제거 방법을 적용시키고, 그 결과로 도출되는 객체 검출 능력을 원본 동영상에 대한 객체 검출 능력과 비교하여, mAP(mean Average Precision) 지표를 이용하여 분석하게 되면, 잡음 제거의 성능을 확인할 수 있다.
이와 같은 방법을 통해 샘플 데이터를 이용하여 각각의 잡음 제거 기법의 결과를 비교한 데이터가 도 7에 표시되어 있다.
도 7은 본 발명의 일실시예에 따른 동영상 잡음 제거 시스템의 성능을 분석한 분석결과를 나타낸 도면이다.
도면에서 mAP(%) 값이 높을수록 객체 인식이 잘 이루어졌음을 나타내고, 이는 객체 인식 이전의 전처리로써 동영상 잡음 제거가 잘 되었음을 나타낸다. 도면에서 붉은 색으로 표시한 것이 가장 좋은 결과를 나타낸 경우이며, 파란 색으로 표시한 것이 그 다음으로 좋은 결과를 나타낸 경우이다. 가산 백색 가우시안 잡음(AWGN)의 잡음 레벨(Noise Level)을 달리하며 실험한 결과, 본 발명에 따른 동영상 잡음 제거 시스템(101)의 성능이 다른 모든 기존 방법에 비하여 높게 나타났다. 특히 전처리를 하지 않은 경우(noisy)와 비교할 때, 최대 5배가량의 mAP 결과를 나타냄으로써, 본 발명을 이용하여 동영상 데이터를 전처리할 경우, 비전 컴퓨팅 기술의 성능을 극대화할 수 있음을 확인할 수 있다.
본 실험결과는 본 발명에서 제안된 밀집 순환 합성곱 신경망(DRCNN)의 2가지 방법, 쌓는(concatenate) 방법(402)과 더하는(add) 방법(401) 중에서 쌓는(concatenate) 방법(402)의 경우의 실험 결과를 나타낸 것이다.
도 8은 본 발명의 일실시예에 따른 동영상 잡음 제거 방법의 흐름을 도시한 흐름도이다.
본 발명에 따른 동영상 잡음 제거 방법은 중앙처리장치 및 메모리를 구비하는 동영상 잡음 제거 시스템에서 동영상의 잡음을 제거하는 방법으로, 이와 같은 컴퓨팅 시스템에서 구동될 수 있다.
따라서, 동영상 잡음 제거 방법은 상술한 동영상 잡음 제거 시스템에 대하여 설명된 특징적인 구성을 모두 포함하고 있으며, 아래의 설명에서 설명되지 않은 내용도 상술한 동영상 잡음 제거 시스템에 대한 설명을 참조하여 구현할 수 있다.
동영상 데이터 수신 단계(S801)는 복수의 프레임을 포함하는 동영상 데이터를 수신한다. 복수의 정지영상 프레임이 시계열적으로 배열되어 구성된다. 본 발명의 동영상 잡음 제거 방법은 동영상을 구성하는 각각의 프레임 정지영상에 대해서 잡음을 제거함으로써, 잡음이 제거된 동영상을 생성하게 된다.
입력 프레임 선택 단계(S802)는 잡음 제거 대상 프레임(t) 및 잡음 제거 대상 프레임 전후 2개씩의 프레임(t-2, t-1, t+1, t+2)을 포함하는 5개의 입력 프레임을 선택한다. 동영상 데이터는 보통 초당 30개 이상의 프레임으로 구성되는데, 인접한 프레임들은 서로 유사한 정지영상을 담고 있는 경우가 많고, 인접한 프레임에 존재하는 시간적인 정보의 연관성을 함께 이용하여, 잡음 제거 대상 프레임(t)에서 잡음을 제거하는 것이 가능하게 된다.
공간 잡음 제거 단계(S803)는 입력 프레임 선택 단계(S802)에서 선택된 5개의 순차적인 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행한다. 공간 잡음 제거 블록은 심층 신경망을 이용하여 인코더-디코더 구조로 구성될 수 있으며, 하나의 입력 프레임의 3개 채널(R, G, B)을 입력으로 하여 잡음을 제거하는 동작을 수행할 수 있다. 심층 신경망을 통해 영상의 잡음을 제거하기 위하여 사전에 클린 영상과 잡음이 포함된 영상에 대한 학습을 통해 학습 파라미터를 도출할 수 있으며, 도면에 표시된 5개의 공간 잡음 제거 블록은 모두 학습 파라미터를 공유한다. 즉, 5개의 순차적인 입력 프레임에 대해 동일한 학습 파라미터를 가지는 심층 신경망을 이용하여 공간 잡음 제거를 진행하게 된다. 공간 잡음 제거부(130)에서 공간 잡음 제거를 위해 사용하는 공간 잡음 제거 블록의 구조에 대해서는 도 2에서 보다 상세히 설명하였다.
제1 시공간 잡음 제거 단계(S804)는 공간 잡음 제거된 5개의 프레임을 순서대로 3개씩 묶어 시공간 잡음 제거 블록에 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성한다. 도면에 도시된 바와 같이, 5개의 공간 잡음 제거된 프레임을 순서대로 3개씩 묶으면 3개의 묶음이 생성되게 된다. 첫 번째 묶음은 (t-2, t-1, t), 두 번째 묶음은 (t-1, t, t+1), 세 번째 묶음은(t, t+1, t+2)이 되는데, 이와 같이 3개씩의 순차적인 프레임을 묶어 시공간 잡음 제거를 수행하게 되면, 인접 프레임의 시간적인 정보의 연관성을 함께 이용하여 잡음을 제거할 수 있게 되어, 보다 효과적인 잡음 제거가 가능하게 된다.
제1 시공간 잡음 제거 단계(S804)에서 활용하는 시공간 잡음 제거 블록은 앞서 공간 잡음 제거 단계(S803)에서의 공간 잡음 제거 블록과 동일한 구조를 가질 수 있으며, 공간 잡음 제거 블록의 경우는 상술한 바와 같이 1개의 입력 프레임의 3개 채널을 입력으로 받지만, 시공간 잡음 제거 블록은 3개의 입력 프레임의 각각 3개씩의 채널로 총 9개의 채널을 입력으로 받는다는 점에서 차이가 있다.
도면에 표시된 제1 시공간 잡음 제거 단계(S804)에서 사용하는 시공간 잡음 제거 블록 3개는 앞서 공간 잡음 제거 단계(S803)에서 사용하는 공간 잡음 제거 블록 5개가 그랬던 것처럼 동일한 학습 파라미터를 공유하도록 구성될 수 있다. 시공간 잡음 제거 블록의 구체적인 구성과 관련하여서는 도 2에서 보다 상세하게 설명하였다.
제2 시공간 잡음 제거 단계(S805)는 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성한다. 앞서 제1 시공간 잡음 제거 단계(S804)에서 3개씩의 입력 프레임을 묶어 총 3개의 시공간 잡음 제거된 프레임을 생성하였는데, 이 3개를 입력으로 하여 시공간 잡음 제거를 수행함으로써, 최종적으로 잡음 제거된 프레임을 생성하도록 한다.
제2 시공간 잡음 제거 단계(S805)에서 사용하는 시공간 잡음 제거 블록은 앞서 제1 시공간 잡음 제거 단계(S804)에서 사용하는 시공간 잡음 제거 블록과 동일한 구조를 가지도록 구성될 수 있으나, 제1 시공간 잡음 제거부에서 사용하는 시공간 잡음 제거 블록 3개가 공유한 학습 파라미터와는 다른 파라미터를 이용하여 잡음 제거를 수행하도록 구성된다. 앞서 설명한 것과 같이, 3개의 입력 프레임은 총 9개의 채널을 가지며, 제2 시공간 잡음 제거부에서 사용하는 시공간 잡음 제거 블록 또한 이 9개의 채널을 이용하여 인코더-디코더 구조를 통해 잡음을 제거하도록 함으로써, 잡음 제거 대상 프레임(t)에 대응하는 잡음이 제거된 프레임을 생성할 수 있다.
공간 잡음 제거 단계(S803), 제1 시공간 잡음 제거 단계(S804) 및 제2 시공간 잡음 제거 단계(S805)에서 각각 사용하는 공간 잡음 제거 블록 및 시공간 잡음 제거 블록은 심층 신경망을 이용하여 구성될 수 있으며, 부호화 단계 및 복호화 단계를 거치면서 잡음을 제거하는 형태로 구현될 수 있다. 이 때, 부호화 단계 및 복호화 단계는 각각 시간별로 과거 시간의 출력을 모두 쌓거나(concatenate) 더하여(add) 얻은 새로운 입력에 대해 합성곱 연산을 반복하도록 구성한 밀집 순환 합성곱 신경망(DRCNN; Dense Recurrent Convolutional Neural Network)을 이용할 수 있다. 이 때, 과거 시간의 출력을 쌓는(concatenate) 경우, 기존의 순환 합성곱 신경망(Recurrent Convolutional Neural Network)과 다르게 과거 시간의 출력을 쌓아 입력으로 하기 때문에, 채널의 수가 증가하는 문제가 발생되므로, 1x1 합성곱 층(Convolutional Layer)를 이용하여 채널 수를 조절하게 된다. 이와 같은 구조에 대해서는 도 4에서 보다 상세하게 설명한 바 있다.
또한, 공간 잡음 제거 블록 및 시공간 잡음 제거 블록의 부호화 단계에서는 다운 샘플링이 진행되는데, 스트라이드(stride)가 2인 합성곱 층(Convolutional Layer)를 이용하여 다운 샘플링을 진행하고, 복호화 단계에서는 업 샘플링이 진행되는데, 픽셀 셔플(PixelShuffle) 층을 이용하여 업 샘플링을 진행한다. 픽셀 셔플(PixelShuffle) 층을 이용하면 격자 무늬 아티팩트(gridding artifact)를 최소화할 수 있어, 잡음 제거된 영상의 품질을 극대화할 수 있다.
잡음 제거 동영상 생성 단계(S806)는 제2 시공간 잡음 제거 단계(S805)에서 생성된 프레임으로 잡음 제거 대상 프레임(t)을 대체하여, 잡음 제거된 동영상 데이터를 생성한다. 동영상 데이터 내의 모든 프레임들을 잡음 제거 대상 프레임으로 두고 위 동작을 반복하게 되면, 모든 프레임들에 대해 잡음 제거가 이루어지게 되고, 이처럼 잡음 제거된 프레임으로 원래의 프레임들을 하나씩 대체하게 되면, 잡음이 제거된 동영상 데이터를 생성할 수 있게 된다. 본 발명의 동영상 잡음 제거 방법은 이와 같은 방법을 통하여 입력된 동영상 데이터에서 잡음을 제거하여 잡음 제거된 동영상 데이터를 생성하게 된다.
본 발명에 따른 동영상 잡음 제거 방법은 컴퓨터가 실행하도록 기능시키기 위한 프로그램으로 제작되어 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체, CDROM, DVD 와 같은 광기록 매체, 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 ROM, RAM, 플래시 메모리 등과 같은 프로그램 명령어를 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다.
프로그램 명령어의 예에는, 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드도 포함된다. 상기 하드웨어 장치는 본 발명에 따른 처리를 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상에서는 실시예들을 참조하여 설명하였지만, 해당 기술 분야의 숙련된 당업자는 하기의 특허 청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경시킬 수 있다.
101: 동영상 잡음 제거 시스템
110: 동영상 데이터 수신부
120: 입력 프레임 선택부
130: 공간 잡음 제거부
140: 제1 시공간 잡음 제거부
150: 제2 시공간 잡음 제거부
160: 잡음 제거 동영상 생성부

Claims (11)

  1. 복수의 프레임을 포함하는 동영상 데이터를 수신하는 동영상 데이터 수신부;
    잡음 제거 대상 프레임 및 상기 잡음 제거 대상 프레임 전후 2개씩의 프레임을 포함하는 5개의 입력 프레임을 선택하는 입력 프레임 선택부;
    상기 선택된 5개의 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행하는 공간 잡음 제거부;
    상기 공간 잡음 제거된 5개의 프레임에서 3개씩 순차적인 프레임을 묶어 만들어진 3개의 묶음을 시공간 잡음 제거 블록에 각각 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성하는 제1 시공간 잡음 제거부;
    상기 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성하는 제2 시공간 잡음 제거부 및
    상기 제2 시공간 잡음 제거부에서 생성된 프레임으로 상기 잡음 제거 대상 프레임을 대체하여, 잡은 제거된 동영상 데이터를 생성하는 잡음 제거 동영상 생성부
    를 포함하는 동영상 잡음 제거 시스템.
  2. 제1항에 있어서,
    상기 공간 잡음 제거부에서 사용하는 상기 공간 잡음 제거 블록, 상기 제1 시공간 잡음 제거부에서 사용하는 상기 시공간 잡음 제거 블록 및 상기 제2 시공간 잡음 제거부에서 사용하는 상기 시공간 잡음 제거 블록은
    입력된 프레임을 심층 신경망을 이용하여 부호화 하는 부호화 단계 및
    상기 부호화 단계에서 부호화된 데이터를 심층 신경망을 이용하여 복호화 하는 복호화 단계를 포함하는 구조로 구성되는 것
    을 특징으로 하는 동영상 잡음 제거 시스템.
  3. 제2항에 있어서,
    상기 부호화 단계 및 복호화 단계는
    시간별로 과거 시간의 출력을 모두 쌓거나(concatenate) 더하여(add) 얻은 새로운 입력에 대해 합성곱 연산을 반복하는 밀집 순환 합성곱 신경망을 이용하는 것
    을 특징으로 하는 동영상 잡음 제거 시스템.
  4. 제3항에 있어서,
    상기 밀집 순환 합성곱 신경망은
    1x1 합성곱 층을 이용하여 과거 시간의 출력을 모두 쌓아 얻은 새로운 입력의 채널 수를 조절하는 것
    을 특징으로 하는 동영상 잡음 제거 시스템.
  5. 제2항에 있어서,
    상기 부호화 단계는
    스트라이드(stride)가 2인 합성곱 층을 이용하여 다운 샘플링을 수행하고,
    상기 복호화 단계는
    픽셀 셔플(Pixel Shuffle)층을 이용하여 업 샘플링을 수행하는 것
    을 특징으로 하는 동영상 잡음 제거 시스템.
  6. 중앙처리장치 및 메모리를 구비하는 동영상 잡음 제거 시스템의 동영상 잡음 제거 방법에 있어서,
    복수의 프레임을 포함하는 동영상 데이터를 수신하는 동영상 데이터 수신 단계;
    잡음 제거 대상 프레임 및 상기 잡음 제거 대상 프레임 전후 2개씩의 프레임을 포함하는 5개의 입력 프레임을 선택하는 입력 프레임 선택 단계;
    상기 선택된 5개의 입력 프레임 각각을 공간 잡음 제거 블록에 입력하여 공간 잡음 제거를 수행하는 공간 잡음 제거 단계;
    상기 공간 잡음 제거된 5개의 프레임에서 3개씩 순차적인 프레임을 묶어 만들어진 3개의 묶음을 시공간 잡음 제거 블록에 각각 입력하여 시공간 잡음 제거를 수행하여, 시공간 잡음 제거된 3개의 프레임을 생성하는 제1 시공간 잡음 제거 단계;
    상기 3개의 시공간 잡음 제거된 프레임을 시공간 잡음 제거 블록에 입력하여 잡음이 제거된 프레임을 생성하는 제2 시공간 잡음 제거 단계 및
    상기 제2 시공간 잡음 제거부에서 생성된 프레임으로 상기 잡음 제거 대상 프레임을 대체하여, 잡은 제거된 동영상 데이터를 생성하는 잡음 제거 동영상 생성 단계
    를 포함하는 동영상 잡음 제거 방법.
  7. 제6항에 있어서,
    상기 공간 잡음 제거 단계에서 사용하는 상기 공간 잡음 제거 블록, 상기 제1 시공간 잡음 제거 단계에서 사용하는 상기 시공간 잡음 제거 블록 및 상기 제2 시공간 잡음 제거 단계에서 사용하는 상기 시공간 잡음 제거 블록은
    입력된 프레임을 심층 신경망을 이용하여 부호화 하는 부호화 단계 및
    상기 부호화 단계에서 부호화된 데이터를 심층 신경망을 이용하여 복호화 하는 복호화 단계를 포함하는 구조로 구성되는 것
    을 특징으로 하는 동영상 잡음 제거 방법.
  8. 제7항에 있어서,
    상기 부호화 단계 및 복호화 단계는
    시간별로 과거 시간의 출력을 모두 쌓거나(concatenate) 더하여(add) 얻은 새로운 입력에 대해 합성곱 연산을 반복하는 밀집 순환 합성곱 신경망을 이용하는 것
    을 특징으로 하는 동영상 잡음 제거 방법.
  9. 제8항에 있어서,
    상기 밀집 순환 합성곱 신경망은
    1x1 합성곱 층을 이용하여 과거 시간의 출력을 모두 쌓아 얻은 새로운 입력의 채널 수를 조절하는 것
    을 특징으로 하는 동영상 잡음 제거 방법.
  10. 제7항에 있어서,
    상기 부호화 단계는
    스트라이드(stride)가 2인 합성곱 층을 이용하여 다운 샘플링을 수행하고,
    상기 복호화 단계는
    픽셀 셔플(Pixel Shuffle)층을 이용하여 업 샘플링을 수행하는 것
    을 특징으로 하는 동영상 잡음 제거 방법.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터가 실행하도록 기능시키기 위한 프로그램이 기록된 컴퓨터로 읽을 수 있는 기록매체.
KR1020210033423A 2021-02-01 2021-03-15 밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법 KR102315359B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020210014389 2021-02-01
KR20210014389 2021-02-01

Publications (1)

Publication Number Publication Date
KR102315359B1 true KR102315359B1 (ko) 2021-10-21

Family

ID=78268792

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210033423A KR102315359B1 (ko) 2021-02-01 2021-03-15 밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR102315359B1 (ko)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080046015A (ko) * 2006-11-21 2008-05-26 삼성전자주식회사 영상 잡음 제거 방법 및 장치
KR20150114286A (ko) * 2014-04-01 2015-10-12 한화테크윈 주식회사 영상 잡음 제거 장치 및 방법
KR20190024636A (ko) * 2017-08-30 2019-03-08 한국과학기술원 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치
KR20190118387A (ko) * 2018-04-10 2019-10-18 배재대학교 산학협력단 합성곱 신경망 기반 이미지 처리 시스템 및 방법
US20200364834A1 (en) 2019-05-15 2020-11-19 Gopro, Inc. Method and apparatus for convolutional neural network-based video denoising

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080046015A (ko) * 2006-11-21 2008-05-26 삼성전자주식회사 영상 잡음 제거 방법 및 장치
KR20150114286A (ko) * 2014-04-01 2015-10-12 한화테크윈 주식회사 영상 잡음 제거 장치 및 방법
KR20190024636A (ko) * 2017-08-30 2019-03-08 한국과학기술원 확장된 뉴럴 네트워크를 이용한 영상 복원 방법 및 장치
KR20190118387A (ko) * 2018-04-10 2019-10-18 배재대학교 산학협력단 합성곱 신경망 기반 이미지 처리 시스템 및 방법
US20200364834A1 (en) 2019-05-15 2020-11-19 Gopro, Inc. Method and apparatus for convolutional neural network-based video denoising

Similar Documents

Publication Publication Date Title
US10805629B2 (en) Video compression through motion warping using learning-based motion segmentation
US8018998B2 (en) Low complexity motion compensated frame interpolation method
JP2007124650A (ja) デジタル・ビデオの雑音を低減する方法、ビデオ信号の雑音を低減する時空的フィルタ、およびデジタル・ビデオ・フレーム内の雑音を低減する方法
US7609849B2 (en) Data processing apparatus and method
US20130022099A1 (en) Adaptive filtering based on pattern information
US20190289329A1 (en) Apparatus and a method for 3d video coding
KR20190067111A (ko) 움직임 흐림 제거 방법 및 장치
CN112150400A (zh) 图像增强方法、装置和电子设备
US20240171769A1 (en) Parameter map for machine-learned video compression
KR102315359B1 (ko) 밀집 순환 합성곱 신경망을 이용한 블라인드 동영상 잡음 제거 시스템 및 방법
Patil et al. Bilateral filter for image denoising
Buades et al. Video denoising with optical flow estimation
CN110555414B (zh) 目标检测方法、装置、设备及存储介质
JP6626319B2 (ja) 符号化装置、撮像装置、符号化方法、及びプログラム
KR102418000B1 (ko) 컬러 이미지와 모노크롬 이미지를 이용하여 스테레오 매칭을 수행하는 방법 및 이를 이용한 장치
Guan et al. NODE: Extreme low light raw image denoising using a noise decomposition network
JP2002208006A (ja) 画像ノイズ減少方法
Peng et al. MND-GAN: A research on image deblurring algorithm based on generative adversarial network
KR102296644B1 (ko) 단일 이미지 상에서 기 설정된 속성을 제거하여 무잡음 영상을 생성하기 위한 장치 및 이를 위한 방법
Le et al. Bridging the gap between image coding for machines and humans
Kumar et al. A novel method for image compression using spectrum
CN117321989A (zh) 基于神经网络的图像处理中的辅助信息的独立定位
CN111447444A (zh) 图像处理方法及装置
Ji et al. Single Image Deblurring with Row-dependent Blur Magnitude
CN114998138B (zh) 一种基于注意力机制的高动态范围图像去伪影方法

Legal Events

Date Code Title Description
GRNT Written decision to grant