KR102013777B1 - 동영상 왜곡 복원 방법 및 이를 적용한 장치 - Google Patents

동영상 왜곡 복원 방법 및 이를 적용한 장치 Download PDF

Info

Publication number
KR102013777B1
KR102013777B1 KR1020180159819A KR20180159819A KR102013777B1 KR 102013777 B1 KR102013777 B1 KR 102013777B1 KR 1020180159819 A KR1020180159819 A KR 1020180159819A KR 20180159819 A KR20180159819 A KR 20180159819A KR 102013777 B1 KR102013777 B1 KR 102013777B1
Authority
KR
South Korea
Prior art keywords
image
information
processor
image frames
distortion
Prior art date
Application number
KR1020180159819A
Other languages
English (en)
Inventor
용 이
박민우
이상환
황원준
Original Assignee
한국과학기술정보연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술정보연구원 filed Critical 한국과학기술정보연구원
Priority to KR1020180159819A priority Critical patent/KR102013777B1/ko
Application granted granted Critical
Publication of KR102013777B1 publication Critical patent/KR102013777B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/001
    • G06T5/006
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/80Geometric correction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence

Landscapes

  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

동영상 왜곡 복원 장치가 개시된다. 본 장치는, 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되는 입력부 및 복수의 제1 레이어를 통해 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하고, 추상화된 특성 정보를 이용하여 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해 복수의 영상 프레임으로 점진적으로 구체화하고, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하며, 영상 왜곡 가능성이 높은 영역에 대해 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 프로세서를 포함한다. 이에 따라, 동영상에 발생된 영상 왜곡이 복원될 수 있다.

Description

동영상 왜곡 복원 방법 및 이를 적용한 장치{METHOD AND APPARATUS FOR RECOVERING DISTORTION OF VIDEO}
본 발명은 동영상 왜곡을 복원하는 방법 및 장치에 관한 것으로 더 상세하게는 동영상 프레임 상에 발생된 영상 왜곡을 딥러닝 알고리즘을 이용하여 자동으로 복원하는 방법 및 이를 적용한 장치에 관한 것이다.
전자 통신 기술의 비약적인 발달과 관련 영상 장비의 고도화에 따라 동영상 서비스가 유무선 통신을 통해 곳곳에서 제공되고 있으며, 일상에서도 스마트폰, 블랙박스 등을 통해 고화질의 동영상 촬영이 가능하다.
다만, 영상이 흐릿하거나 눈, 비 등에 의한 영상 노이즈로 영상 왜곡이 발생된 경우, 필연적으로 영상 식별에 어려움이 따르기 마련이다. 이에, 영상 왜곡을 효과적으로 수정하고 복원하는 방법이 필요하다 할 것이다.
한편, 상기와 같은 정보는 본 발명의 이해를 돕기 위한 백그라운드(background) 정보로서만 제시될 뿐이다. 상기 내용 중 어느 것이라도 본 발명에 관한 종래 기술로서 적용 가능할지 여부에 관해, 어떤 결정도 이루어지지 않았고, 또한 어떤 주장도 이루어지지 않는다.
한국공개특허공보 제10-2018-0001428호(공개일 : 2018.01.04)
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로 본 발명의 일 실시 예는 동영상의 영상 왜곡을 복원하는 방법 및 장치를 제안한다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 발명은 상술한 문제점을 해결하기 위해 안출된 것으로 본 발명의 일 실시 예에 따른 프로세서에 의해 수행되는 동영상 왜곡 복원 방법은 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되면, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하는 단계; 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 상기 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화하는 단계; 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하는 단계 및 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 단계를 포함한다.
몇몇 실시 예에서, 상기 방법은 상기 복수의 제1 레이어 각각에서 생성된 소정의 압축 정보를 상기 복수의 제1 레이어 각각에 대응되는 제2 레이어에 제공하는 단계를 더 포함할 수 있다.
몇몇 실시 예에서, 상기 방법은 복원된 영상 프레임과 상기 복원된 영상 프레임에 대응되는 GT(Ground Truth) 영상 프레임을 비교하는 단계를 더 포함할 수 있다.
보다 구체적으로, 상기 추출하는 단계는, 구체화된 복수의 영상 프레임이 입력되면, 채널 어텐션(Attention) 및 공간 어텐션(Attention)에 기초하여 영상 왜곡 가능성이 높은 영역을 추출하는 단계를 포함할 수 있다.
보다 구체적으로, 상기 추상화하는 단계는, 소정 단위로 입력된 복수의 영상 프레임 각각을 1 배율 내지 4 배율 중 하나로 샘플링하는 단계를 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치는 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되는 입력부; 및 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하고, 추상화된 상기 특성 정보를 이용하여 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해 복수의 영상 프레임으로 점진적으로 구체화하고, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하며, 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 프로세서를 포함한다.
몇몇 실시 예에서, 상기 프로세서는, 상기 복수의 제1 레이어 각각에서 생성된 소정의 압축 정보를 상기 복수의 제1 레이어 각각에 대응되는 제2 레이어에 제공할 수 있다.
몇몇 실시 예에서, 상기 프로세서는, 복원된 영상 프레임과 상기 복원된 영상 프레임에 대응되는 GT(Ground Truth) 영상 프레임을 비교할 수 있다.
몇몇 실시 예에서, 상기 프로세서는, 구체화된 복수의 영상 프레임이 입력되면, 채널 어텐션(Attention) 및 공간 어텐션에 기초하여 영상 왜곡 가능성이 높은 영역을 추출할 수 있다.
몇몇 실시 예에서, 상기 점진적으로 추상화하는 단계는, 소정 단위로 입력된 복수의 영상 프레임 각각은 1 배율 내지 4 배율 중 하나로 샘플링되는 단계를 포함할 수 있다.
한편, 본 발명의 일 실시 예에 따른 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 비일시적 컴퓨터 판독 가능한 기록 매체에 있어서, 상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가, 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되면, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하는 동작, 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 상기 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화하는 동작, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하는 동작 및 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 동작을 수행하도록 하는 실행 가능한 명령을 포함할 수 있다.
본 발명에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
상기 동영상 왜곡 복원 방법 및 장치가 제공됨으로써 아래와 같은 효과가 발생된다.
첫째로, 특정 동영상 프레임에 발생된 영상 왜곡이 인접한 동영상 프레임 또는 이미지의 구성 요소인 컨텍스트 정보에 기초하여 복원될 수 있다.
둘째로, 영상 왜곡이 발생될 가능성이 높은 영상 프레임 또는 영역이 특정될 수 있어 영상 왜곡이 수정될 확률이 높아질 수 있다.
셋째로, 수작업에 의해 영상 왜곡이 수정되지 않아 영상 왜곡을 바로잡는데 신속하며, 비용이 절약될 수 있다.
본 발명에서 얻은 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치의 개략적인 기능을 설명하기 위한 도면이다.
도 2는 도 1의 동영상 왜곡 복원 장치의 구성을 나타내는 블록도이다.
도 3 및 도 4는 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 방법이 적용된 결과를 나타낸다.
도 6은 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 방법에 대한 시퀀스도이다.
이하 첨부된 도면들을 참조하여 본 발명의 다양한 실시 예를 보다 상세하게 설명한다. 다만, 본 발명을 설명함에 있어서, 관련된 공지 기능 혹은 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그에 대한 상세한 설명은 생략한다.
도 1은 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치(100)의 개략적인 기능을 설명하기 위한 도면이다.
도 1을 참고하면, 동영상 왜곡 복원 장치(100)는 동영상에 발생된 영상 왜곡을 자동으로 복원할 수 있는 장치로, 하나 이상의 동영상 각각에 포함된 복수의 입력 프레임에 발생된 영상 왜곡을 복원할 수 있다.
구체적으로, 동영상 왜곡 복원 장치(100)는 영상 왜곡 복원 모듈을 이용하여 입력 프레임 각각의 특징 정보, 예를 들면 컨텍스트 정보를 추상화하는 과정과 구체화하는 과정을 통해 입력 프레임 각각의 영상 왜곡을 복원하여 출력 프레임을 생성할 수 있다.
아울러, 동영상 왜곡 복원 장치(100)는 왜곡 영역 추출 모듈을 이용하여 입력 프레임의 영상 왜곡이 발생될 가능성이 높은 영역을 추출하여 해당 영역에 대해 영상 복원을 수행할 수 있다.
이하에서는 상기 동영상 왜곡 복원 장치(100)의 구성을 도 2를 참고하여 설명하기로 한다.
동영상 왜곡 복원 장치(100)는 복수의 영상 프레임에 대해 3차원 신경망 알고리즘을 이용하여 영상 왜곡을 복원하는 장치로, 입력부(110), 디스플레이(120), 저장부(130), 및 프로세서(140)를 포함한다. 다만, 상술한 구성들은 본 발명을 설명하는데 반드시 필수적인 구성은 아닌 바, 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치(100)는 상술한 구성보다 더 많거나 적은 구성을 포함할 수 있다.
먼저, 입력부(110)는 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력될 수 있다. 여기서, 동영상은 복수 개를 포함할 수 있으며, 하나의 동영상은 여러 개의 영상 프레임을 포함할 수 있다.
실시 예에서, 복수의 연속 영상을 동영상이나 클립(Clip)으로 표현하며, 하나의 클립은 24개의 영상 프레임을 포함할 수 있다. 동영상 각각의 해상도는 1280*720 또는 96*96으로 설정될 수 있으나, 상기 해상도나 클립내 프레임 개수는 구현 예에 따라서 다르게 구성될 수 있다.
또한, 입력 프레임의 동영상의 해상도는 일관된 해상도가 아닌 동일 동영상이나 해상도가 서로 다르게 구성될 수 있다. 가령, 24개의 영상 프레임 중에서 12개의 영상 프레임에는 제1 해상도가 나머지 12개의 영상 프레임에는 제2 해상도가 적용될 수 있다. 이에, 저 해상도, 저화질의 영상들도 고 해상도 고화질의 영상으로 복원될 수 있다.
또한, 입력되는 영상 프레임의 정보는 영상값, RGB값, Intensity값, 이미지를 구성하는 최소 단위 정보, W(가로)*H(세로)*3(RGB) 정보 등을 포함할 수 있으나, 실시 예가 이에 국한되는 것은 아니다.
또한, 입력되는 영상 프레임에는 소정의 배율로 샘플링된 다양한 영상 프레임을 포함할 수 있으며, 소정의 비율은 1배 내지 4배 중 하나 일 수 있으나, 실시 예가 이에 국한되지는 않는다. 상기 샘플링은 프로세서(140)에 의해 수행될 수 있으며, 이미 샘플링된 영상 프레임일 수 있다.
디스플레이(120)는 프로세서(140)의 제어에 따라 다양한 정보를 시각화할 수 있다. 디스플레이(120)는 데이터가 표시되는 표시부로 디스플레이(120)는 액정 디스플레이(liquid crystal display, LCD), 박막 트랜지스터 액정 디스플레이(thin film transistor-liquid crystal display, TFT LCD), 유기 발광 다이오드(organic light-emitting diode, OLED), 플렉서블 디스플레이(flexible display), 3차원 디스플레이(3D display), 전자잉크 디스플레이(e-ink display) 중에서 적어도 하나를 포함할 수 있다.
저장부(130)는 수집된 데이터가 저장되는 모듈로, 저장부(130)는 플래시 메모리 타입(flash memory type), 하드디스크 타입(hard disk type), SSD 타입(Solid State Disk type), SDD 타입(Silicon Disk Drive type), 멀티미디어 카드 마이크로 타입(multimedia card micro type), 카드 타입의 메모리(예를 들어 SD 또는 XD 메모리 등), 램(random access memory; RAM), SRAM(static random access memory), 롬(read-only memory; ROM), EEPROM(electrically erasable programmable read-only memory), PROM(programmable read-only memory), 자기 메모리, 자기 디스크 및 광디스크 중 적어도 하나의 타입의 저장매체를 포함할 수 있으며, 클라우드 형태로 정보를 저장할 수도 있다.
저장부(130)는 연산에 필요한 다양한 정보를 저장할 수 있으며, 알고리즘에 관련된 정보를 저장할 수 있으며, 복원률 정보를 저장할 수 있고, 하나 이상의 입력 프레임 및 출력 프레임에 관한 정보를 저장할 수 있다.
프로세서(140)는 3차원 딥러닝 알고리즘을 통해 영상 왜곡을 복원할 수 있으며, 영상 프레임 상에 왜곡 가능성이 높은 영역을 채널 Attention 및 공간(Spatial) Attention 연산을 수행하여 프레임과 공간의 상관관계를 이용하여 Attention Map을 생성할 수 있다. 이를 위해, 프로세서(140)는 영상 왜곡 복원 모듈(141) 및 영상 왜곡 추출 모듈(143)을 포함한다.
실시 예에서, 영상 왜곡 복원 모듈(141)은 복수의 제1 레이어(Layer)를 통해 영상 프레임에 관한 특성 정보(가령, 컨텍스트 정보)를 점진적으로 추상화할 수 있는데, 특성 정보는 영상 프레임에 포함된 다양한 오브젝트들(가령, 빌딩, 차량, 도로 등)에 관한 정보, 화질 정보, 영상 정보, 해상도 정보 등을 포함할 수 있다.
아울러, 영상 왜곡 복원 모듈(141)은 추상화된 특성 정보를 이용하여 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해 복수의 영상 프레임으로 점진적으로 구체화할 수 있다. 이에 따라, 영상 프레임에 포함된 다양한 오브젝트들이 학습되고 인식될 수 있다.
본 명세서에서는 영상 왜곡 복원 모듈(141)이 3차원 CNN(Convolutional Neural Network) 딥러닝 알고리즘을 이용하는 것으로 설명하며, CNN 및 RNN(Recurrent Neural Network)를 병행하여 이용하는 방식보다 보다 빠르게 연산을 수행할 수 있으며, 보다 높은 정확도로 영상 왜곡을 복원할 수 있다.
여기서, 프로세서(140)는 입력되는 영상 프레임의 소정 단위 정보(F), 해상도 정보(H, W) 및 채널수 정보를 입력 받을 수 있는데, 채널수 정보는 커널수 정보로 슬라이딩 윈도우로 사용되는 커널의 개수 정보를 포함한다.
또한, 프로세서(140)는 영상 왜곡 추출 모듈(143)을 포함하는데, 영상 왜곡 추출 모듈(143)은 영상 왜곡 가능성이 높은 영역을 추출할 수 있다. 구체적으로, 영상 왜곡 추출 모듈(143)은 특정 프레임이나 특정 공간에 오류가 있음을 활성화함수(가령, 시그모이드 함수)를 통해 회귀 방식으로 연산할 수 있다.
구체적으로, 영상 왜곡 추출 모듈(143)은 프레임의 Attention을 알기 위해 채널 Attention 및 공간 Attention을 수행하는데, 먼저, 채널 Attention은 입력정보가 W*H*t(t는 프레임의 개수)일 경우 global average pooling 으로 1*1*t 로 생성하여 활성화함수 연산을 수행하며, 공간 Attention은 1*1 커널을 통과하여 W*H*t 를 W*H*1로 생성한다. 영상 왜곡 추출 모듈(143)은 채널 Attention의 결과인 1*1*t와 공간 Attention의 결과인 W*H*1을 정합(곱셈)하여 최종적으로 영상 왜곡이 발생될 가능성이 높은 영상 프레임 또는 영역을 추출할 수 있다. 이때, 출력되는 결과는 H*W*1*F 에 해당될 수 있다.
여기서, 영상 왜곡 추출 모듈(143)은 하나 이상을 포함할 수 있으며, 이런 경우, 복수의 영상 왜곡 추출 모듈들은 병렬로 연결되어 채널 Attention 연산 및 공간 Attention 연산을 수행할 수 있다. 이런 경우, 영상 왜곡의 추출 효과가 더 향상될 수 있다.
이와 같이, 프로세서(140)는 영상 왜곡 복원 모듈(141)을 통해 영상 내부의 컨텍스트 정보들을 인식 및 학습하고, 영상 왜곡 추출 모듈(143)을 통해 영상에서 왜곡 가능성이 높은 프레임 또는 영역을 추출할 수 있다. 프로세서(140)는 추출된 프레임 및 영역에 대해 학습된 주변 영상의 컨텍스트 정보에 기초하여 영상 왜곡을 수정할 수 있다. 이런 경우, 고해상도의 주변 영상이 배치되면 수정되는 영상 프레임도 고해상도 고화질로 수정될 수 있다.
이하에서는 도 3 및 도 4를 참고하여, 상기 프로세서(140)의 구동을 자세히 설명하기로 한다.
먼저, 프로세서(140)는 복수의 레이어를 포함할 수 있으며, 제1 레이어는 추상화 하는 각 단계를 나타내며 1 내지 5 단계를 포함하며, 제2 레이어는 상기 제1 레이어에 대응되는 레이어이며 5 내지 1 단계를 포함할 수 있다.
제1 레이어에서, 복수의 동영상 각각에 대한 연산 프레임수 정보, 해상도 정보, 채널수 정보<F, H, W, 128>가 입력되면 이에 따라 2*2 커널 연산 및 활성화함수 연산(Leaky ReLU)을 수행하고, 이에 다시 2*2 Average Pool 연산을 수행하며, 반복적으로 1 내지 5단계를 수행하면서 특성 정보를 추상화 할 수 있다.
그 다음, 프로세서(140)는 제2 레이어의 5단계에서 2*2*2 3D Up 커널 연산을 수행하고, 제2 레이어의 4단계에서 2*2 커널 연산 및 활성화함수 연산(Leaky ReLU)을 수행할 수 있으며, 이를 제2 레이어의 1단계까지 반복할 수 있다.
프로세서(140)는 제1 레이어 각각에서 생성된 소정의 압축 정보를 제1 레이어 각각에 대응되는 제2 레이어에 제공(310A~310D)할 수 있는데, 추상화 하면서 유실되는 영상 정보를 구체화할 때 제공함으로써, 영상 프레임을 복원하는데 도움이 될 수 있다. 상기 기법은 기존의 CNN 및 RNN을 함께 사용할 때 이용하는 LSTM의 정보를 전달하는 방법보다 더욱 간편하게 이용될 수 있으며, CNN 알고리즘의 약점을 극복하는데 도움을 줄 수 있다.
프로세서(140)는 구체화된 영상 프레임에 대해 영상 왜곡 추출을 수행할 수 있다(320). 이에 따라, 영상 왜곡 가능성이 높은 프레임 또는 영역만 추출될 수 있다.
프로세서(140)는 풀 커넥션 연산을 통해 복원 대상 영상 프레임의 영상 왜곡을 복원할 수 있다. 이때, 프레임수 정보, 해상도 정보, 채널수 정보<F, H, W, 448>로 설정될 수 있다.
프로세서(140)는 복원된 영상 프레임과 복원된 영상프레임에 대응되는 GT(Ground Truth) 영상 프레임을 비교하여 복원 정도를 비교할 수 있다.
참고로, 모든 레이어의 가중치 초기화를 위해 Xavier Initializer 가 사용되고, 모든 가중치에는 L2 정규화가 적용되었고, 출력 영상과 원본 영상 간의 각 픽셀별 MSE(Mean Squared Error)와 가중치 정규화 비용을 전체 손실 함수로 설정될 수 있다. 최적화 알고리즘으로는 Adam Optimizer 가 사용되며, 초기 학습률은 0.001 로 설정한 후 매 20 Epoch 마다 90%씩 감소되게 설정될 수 있으며, 총 60 Epoch 동안에 학습이 수행될 수 있다.
도 4를 참고하면, 프로세서(140)는 영상 왜곡 추출 모듈(143)을 통해 입력되는 영상 프레임 정보<F, H, W, C>에 대해 3*3*3 커널 연산, 활성화함수 연산, 정규화 연산을 3회 반복하여 수행하고, 수행된 결과에 대해 활성화함수인 시그모이드(Sigmoid) 연산을 수행하여 채널수가 RGB 3개가 아닌 1개인 영상 프레임 정보를 추출할 수 있으며, 출력된 영상 프레임에서 왜곡 가능성이 높은 지역을 표시하여 제공할 수 있다.
이에, 프로세서(140)는 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원할 수 있으며, 도 4의 연산에서 GT 가 사용되지 않을 수 있다.
도 5는 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치(100)의 구동을 나타낸다.
도 5를 참고하면, 입력 영상 프레임 중에서 왜곡된 영역이 모두 해소된 것이 나타날 수 있다. GT는 Ground Truth 영상으로 미리 학습 및 예측을 위해 준비된 영상에 해당된다. 본 발명에 따르면, 출력되는 영상 프레임이 GT 영상의 해상도나 화질보다도 우수하게 설정될 수 있다.
도 6은 본 발명의 일 실시 예에 따른 동영상 왜곡 복원 장치(100)의 복원 방법을 나타내는 시퀀스도이다.
먼저, 장치(100)는 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력 받는다(S610).
소정 단위는 1클립 단위일 수 있으며, 1클립은 복수의 영상 프레임을 포함할 수 있다. 상기 1클립에 포함된 영상 프레임은 동일 영상에 대한 영상 프레임이며, 복수의 클립이 시간순으로 입력될 수 있다.
그 다음으로, 장치(100)는 복수의 제1 레이어를 통해 영상 프레임에 관한 특성 정보를 점진적으로 추상화하고(S620), 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화한다(S630).
여기서, 장치(100)는 3차원의 CNN 알고리즘을 이용하여 적층된 구조의 영상 프레임의 영상 왜곡에 대해 복원을 수행할 수 있다.
그러면, 장치(100)는 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하고(S640), 영상 왜곡 가능성이 높은 영역에 대해 추상화된 특성 정보에 기초하여 영상 프레임을 복원을 수행한다(S650).
또한, 본 발명의 일 실시 예에 따른 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 비일시적 컴퓨터 판독 가능한 기록 매체에서 상기 프로그램은, 프로세서에 의한 실행 시, 상기 프로세서가, 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되면, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하는 동작, 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 상기 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화하는 동작, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하는 동작 및 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 동작을 수행하도록 하는 실행 가능한 명령을 포함할 수 있다.
본 발명의 실시예들은, 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
지금까지 본 발명을 바람직한 실시 예를 참조하여 상세히 설명하였지만, 본 발명이 상기한 실시 예에 한정되는 것은 아니며, 이하의 특허청구범위에서 청구하는 본 발명의 요지를 벗어남이 없이 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 누구든지 다양한 변형 또는 수정이 가능한 범위까지 본 발명의 기술적 사상이 미친다 할 것이다.

Claims (11)

  1. 프로세서에 의해 수행되는 동영상 왜곡 복원 방법에 있어서,
    3차원 딥러닝 알고리즘을 이용하여, 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되면, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하는 단계;
    3차원 딥러닝 알고리즘을 이용하여, 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 상기 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화하는 단계;
    구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하는 단계 및
    영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 단계를 포함하며,
    상기 추출하는 단계는,
    구체화된 복수의 영상 프레임이 입력되면, 채널 어텐션(Attention) 및 공간 어텐션(Attention)에 기초하여 영상 왜곡 가능성이 높은 영역을 추출하는 단계를 포함하며,
    상기 프로세서는,
    상기 복수의 영상 프레임의 소정 단위 정보(F), 해상도 정보(H, W) 및 채널수 정보를 입력받고,
    상기 프로세서는,
    상기 해상도 정보 및 프레임 개수 정보에 기초하여 활성화함수 연산을 수행하여 상기 채널 어텐션을 산출하며,
    산출된 채널 어텐션 및 상기 공간 어텐션을 정합하여 영상 왜곡 발생 가능성이 높은 영상 프레임 또는 영역을 추출하는, 동영상 왜곡 복원 방법.
  2. 제1항에 있어서,
    상기 복수의 제1 레이어 각각에서 생성된 소정의 압축 정보를 상기 복수의 제1 레이어 각각에 대응되는 제2 레이어에 제공하는 단계를 더 포함하는, 동영상 왜곡 복원 방법.
  3. 제1항에 있어서,
    복원된 영상 프레임과 상기 복원된 영상 프레임에 대응되는 GT(Ground Truth) 영상 프레임을 비교하는 단계를 더 포함하는, 동영상 왜곡 복원 방법.
  4. 삭제
  5. 제1항에 있어서,
    상기 추상화하는 단계는,
    소정 단위로 입력된 복수의 영상 프레임 각각을 1 배율 내지 4 배율 중 하나로 샘플링하는 단계를 포함하는, 동영상 왜곡 복원 방법.
  6. 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되는 입력부; 및
    3차원 딥러닝 알고리즘을 이용하여, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하고,
    3차원 딥러닝 알고리즘을 이용하여, 추상화된 상기 특성 정보를 이용하여 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해 복수의 영상 프레임으로 점진적으로 구체화하고, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하며, 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 프로세서를 포함하며,
    상기 프로세서는,
    구체화된 복수의 영상 프레임이 입력되면, 채널 어텐션(Attention) 및 공간 어텐션에 기초하여 영상 왜곡 가능성이 높은 영역을 추출하고,
    상기 프로세서는,
    상기 복수의 영상 프레임의 소정 단위 정보(F), 해상도 정보(H, W) 및 채널수 정보를 입력받고,
    상기 프로세서는,
    상기 해상도 정보 및 프레임 개수 정보에 기초하여 활성화함수 연산을 수행하여 상기 채널 어텐션을 산출하며,
    산출된 채널 어텐션 및 상기 공간 어텐션을 정합하여 영상 왜곡 발생 가능성이 높은 영상 프레임 또는 영역을 추출하는, 동영상 왜곡 복원 장치.
  7. 제6항에 있어서,
    상기 프로세서는,
    상기 복수의 제1 레이어 각각에서 생성된 소정의 압축 정보를 상기 복수의 제1 레이어 각각에 대응되는 제2 레이어에 제공하는, 동영상 왜곡 복원 장치.
  8. 제6항에 있어서,
    상기 프로세서는,
    복원된 영상 프레임과 상기 복원된 영상 프레임에 대응되는 GT(Ground Truth) 영상 프레임을 비교하는, 동영상 왜곡 복원 장치.
  9. 삭제
  10. 제6항에 있어서,
    상기 프로세서는,
    소정 단위로 입력된 복수의 영상 프레임 각각을 1 배율 내지 4 배율 중 하나로 샘플링하는, 동영상 왜곡 복원 장치.
  11. 컴퓨터 상에서 수행하기 위한 프로그램을 기록한 비일시적 컴퓨터 판독 가능한 기록 매체에 있어서,
    상기 프로그램은, 프로세서에 의한 실행 시,
    상기 프로세서가,
    3차원 딥러닝 알고리즘을 이용하여, 동영상 각각에 포함된 복수의 영상 프레임이 소정 단위로 입력되면, 복수의 제1 레이어를 통해 상기 복수의 영상 프레임에 관한 특성 정보를 점진적으로 추상화하는 동작, 3차원 딥러닝 알고리즘을 이용하여, 상기 복수의 제1 레이어 각각 대응되는 제2 레이어를 통해, 추상화된 상기 특성 정보를 복수의 영상 프레임으로 점진적으로 구체화하는 동작, 구체화된 복수의 영상 프레임 중 영상 왜곡 가능성이 높은 영역을 추출하는 동작 및 영상 왜곡 가능성이 높은 영역에 대해 상기 추상화된 특성 정보에 기초하여 영상 프레임을 복원하는 동작을 수행하도록 하는 실행 가능한 명령을 포함하며,
    상기 프로세서는,
    구체화된 복수의 영상 프레임이 입력되면, 채널 어텐션(Attention) 및 공간 어텐션에 기초하여 영상 왜곡 가능성이 높은 영역을 추출하고,
    상기 프로세서는,
    상기 복수의 영상 프레임의 소정 단위 정보(F), 해상도 정보(H, W) 및 채널수 정보를 입력받고,
    상기 프로세서는,
    상기 해상도 정보 및 프레임 개수 정보에 기초하여 활성화함수 연산을 수행하여 상기 채널 어텐션을 산출하며,
    산출된 채널 어텐션 및 상기 공간 어텐션을 정합하여 영상 왜곡 발생 가능성이 높은 영상 프레임 또는 영역을 추출하는, 컴퓨터 판독 가능한 기록 매체.
KR1020180159819A 2018-12-12 2018-12-12 동영상 왜곡 복원 방법 및 이를 적용한 장치 KR102013777B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020180159819A KR102013777B1 (ko) 2018-12-12 2018-12-12 동영상 왜곡 복원 방법 및 이를 적용한 장치

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180159819A KR102013777B1 (ko) 2018-12-12 2018-12-12 동영상 왜곡 복원 방법 및 이를 적용한 장치

Publications (1)

Publication Number Publication Date
KR102013777B1 true KR102013777B1 (ko) 2019-10-21

Family

ID=68460118

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180159819A KR102013777B1 (ko) 2018-12-12 2018-12-12 동영상 왜곡 복원 방법 및 이를 적용한 장치

Country Status (1)

Country Link
KR (1) KR102013777B1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080541A (zh) * 2019-12-06 2020-04-28 广东启迪图卫科技股份有限公司 基于比特分层和注意力融合机制的彩色图像去噪方法
CN111223488A (zh) * 2019-12-30 2020-06-02 Oppo广东移动通信有限公司 语音唤醒方法、装置、设备及存储介质
CN112102212A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种视频修复方法、装置、设备及存储介质
CN112200750A (zh) * 2020-10-21 2021-01-08 华中科技大学 一种超声图像去噪模型建立方法及超声图像去噪方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080013593A (ko) * 2006-08-09 2008-02-13 삼성전자주식회사 영상의 양자화 장치 및 방법
KR20140089487A (ko) * 2013-01-04 2014-07-15 삼성전자주식회사 위상차를 고려한 영상 업샘플링을 이용하는 스케일러블 비디오 부호화 방법 및 장치, 스케일러블 비디오 복호화 방법 및 장치
KR20170057118A (ko) * 2015-11-16 2017-05-24 삼성전자주식회사 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치
KR20180001428A (ko) 2016-06-24 2018-01-04 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20080013593A (ko) * 2006-08-09 2008-02-13 삼성전자주식회사 영상의 양자화 장치 및 방법
KR20140089487A (ko) * 2013-01-04 2014-07-15 삼성전자주식회사 위상차를 고려한 영상 업샘플링을 이용하는 스케일러블 비디오 부호화 방법 및 장치, 스케일러블 비디오 복호화 방법 및 장치
KR20170057118A (ko) * 2015-11-16 2017-05-24 삼성전자주식회사 오브젝트 인식 방법 및 장치, 인식 모델 학습 방법 및 장치
KR20180001428A (ko) 2016-06-24 2018-01-04 한국과학기술원 Cnn 기반 인루프 필터를 포함하는 부호화 방법과 장치 및 복호화 방법과 장치

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SUGANUMA M. ET AL: "Attention-based Adaptive Selection of Operations for Image Restoration in the Presence of Unknown Combined Distortions", GroundAI, 03 Dec. 2018(2018.12.03.) 1부.* *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080541A (zh) * 2019-12-06 2020-04-28 广东启迪图卫科技股份有限公司 基于比特分层和注意力融合机制的彩色图像去噪方法
CN111223488A (zh) * 2019-12-30 2020-06-02 Oppo广东移动通信有限公司 语音唤醒方法、装置、设备及存储介质
CN111223488B (zh) * 2019-12-30 2023-01-17 Oppo广东移动通信有限公司 语音唤醒方法、装置、设备及存储介质
CN112200750A (zh) * 2020-10-21 2021-01-08 华中科技大学 一种超声图像去噪模型建立方法及超声图像去噪方法
CN112200750B (zh) * 2020-10-21 2022-08-05 华中科技大学 一种超声图像去噪模型建立方法及超声图像去噪方法
CN112102212A (zh) * 2020-11-19 2020-12-18 腾讯科技(深圳)有限公司 一种视频修复方法、装置、设备及存储介质
CN112102212B (zh) * 2020-11-19 2021-02-09 腾讯科技(深圳)有限公司 一种视频修复方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
KR102013777B1 (ko) 동영상 왜곡 복원 방법 및 이를 적용한 장치
Ranjan et al. Attacking optical flow
US11361546B2 (en) Action recognition in videos using 3D spatio-temporal convolutional neural networks
EP3605394B1 (en) Method and apparatus for recognizing body movement
US10991074B2 (en) Transforming source domain images into target domain images
US11182620B2 (en) Method for training a convolutional recurrent neural network and for semantic segmentation of inputted video using the trained convolutional recurrent neural network
US10755173B2 (en) Video deblurring using neural networks
CN109389027B (zh) 表单结构提取网络
CN109165573B (zh) 用于提取视频特征向量的方法和装置
US20200273192A1 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
Lowry et al. Transforming morning to afternoon using linear regression techniques
US10467768B2 (en) Optical flow estimation using 4-dimensional cost volume processing
US20160232440A1 (en) Recurrent neural networks for data item generation
CN117499658A (zh) 使用神经网络生成视频帧
US20220309623A1 (en) Method and apparatus for processing video
JP2024513596A (ja) 画像処理方法および装置、ならびにコンピュータ可読ストレージ媒体
Wang et al. A total variation and group sparsity based tensor optimization model for video rain streak removal
US10572976B2 (en) Enhancing observation resolution using continuous learning
RU2013102854A (ru) Способ и устройство для повышения кадровой частоты потока изображений с использованием, по меньшей мере, одного потока изображений с более высокой кадровой частотой
Lin et al. Semi-supervised lane detection with deep hough transform
US20220215580A1 (en) Unsupervised learning of object keypoint locations in images through temporal transport or spatio-temporal transport
US11250573B2 (en) Human action recognition in drone videos
KR101969716B1 (ko) 공간 특성값 예측 방법 및 이를 적용한 시스템
CN110633598B (zh) 用于确定环境图像中的行驶区域的方法和装置
Pasqualino et al. A multi camera unsupervised domain adaptation pipeline for object detection in cultural sites through adversarial learning and self-training