KR102678872B1 - 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템 - Google Patents

영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템 Download PDF

Info

Publication number
KR102678872B1
KR102678872B1 KR1020220185582A KR20220185582A KR102678872B1 KR 102678872 B1 KR102678872 B1 KR 102678872B1 KR 1020220185582 A KR1020220185582 A KR 1020220185582A KR 20220185582 A KR20220185582 A KR 20220185582A KR 102678872 B1 KR102678872 B1 KR 102678872B1
Authority
KR
South Korea
Prior art keywords
image
resolution
super
deep learning
video
Prior art date
Application number
KR1020220185582A
Other languages
English (en)
Inventor
위영철
이무재
심동규
Original Assignee
주식회사 모바이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 모바이 filed Critical 주식회사 모바이
Priority to KR1020220185582A priority Critical patent/KR102678872B1/ko
Application granted granted Critical
Publication of KR102678872B1 publication Critical patent/KR102678872B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4046Scaling of whole images or parts thereof, e.g. expanding or contracting using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템이 개시된다. 상기 방법은 시스템이 동영상에 포함된 이미지들 중 일부인 제1이미지 그룹을 특정하는 단계, 상기 시스템이 상기 제1이미지 그룹의 영상특성을 분석하는 단계, 상기 시스템이 영상특성의 분석 결과에 기초하여 초해상화를 수행하는 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하는 단계, 및 상기 시스템이 선택한 상기 제1적용 네트워크를 이용하여 상기 제1이미지 그룹에 대한 초해상화를 수행하는 단계를 포함한다.

Description

영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템{Method and system for Video super-resolution based on video characteristics}
본 발명은 동영상 초해상화 방법 및 그 시스템에 관한 것이다. 특히 영상의 특성 또는 영상의 압축특성에 기초하여 효과적으로 동영상을 초해상화할 수 있는 방법 및 그 시스템에 관한 것이다.
동영상의 초해상화라 함은 압축된 동영상의 화질을 개선하는 프로세스를 의미한다.
이러한 초해상화는 압축열화개선(CLE, Compression Lossy Enhancement), 공간해상도 확대(SR, Super Resolution), 시간해상도 확대(FRUC, Frame-Rate Up Conversion) 등을 통해 이루어질 수 있다.
한편, 이러한 초해상화를 위한 다양한 딥러닝 모델들이 최근에 활발히 연구되고 있고, 이러한 딥러닝 모델을 통해 초해상화를 수행하는 경우 기존의 기술 대비 우수한 성능을 보이는 것으로 알려져 있다.
하지만 종래의 딥러닝 모델을 통한 초해상화는 영상의 특성이나 압축특성을 고려하지 않아서 큰 딥러닝 네트워크가 아닌 경우 다양한 동영상에 대해 효과적인 대응이 어렵고, 큰 딥러닝 네트워크를 사용하는 경우 연산파워 및 처리속도가 기하급수적으로 증가하는 문제가 있다.
따라서 이러한 딥러닝 모델을 통한 초해상화를 영상의 특성이나 압축특성에 따라 효과적으로 수행할 수 있는 기술적 사상이 요구된다.
본 발명이 해결하고자 하는 기술적인 과제는 이러한 딥러닝 모델을 통한 초해상화를 영상 자체의 특성이나 영상의 압축특성에 따라 효과적으로 수행할 수 있는 방법 및 그 시스템을 제공하는 것이다.
상기 기술적 과제를 해결하기 위한 영상 특성에 기초한 동영상 초해상화 방법은 시스템이 동영상에 포함된 이미지들 중 일부인 제1이미지 그룹을 특정하는 단계, 상기 시스템이 상기 제1이미지 그룹의 영상특성을 분석하는 단계, 상기 시스템이 영상특성의 분석 결과에 기초하여 초해상화를 수행하는 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하는 단계, 및 상기 시스템이 선택한 상기 제1적용 네트워크를 이용하여 상기 제1이미지 그룹에 대한 초해상화를 수행하는 단계를 포함한다.
상기 영상특성은 영상의 복잡도(Complexity), 영상의 QP(Quantization Parameter), 모션(motion) 특성 중 적어도 하나일 수 있다.
상기 복수의 딥러닝 네트워크들은 복수의 세부영상특성들 중 제1세부영상특성 및 제2세부영상특성 각각을 소정의 개수로 구분하고, 구분된 제1세부영상특성 및 제2세부영상특성에 의해 세분화된 세분화 영상특성들 각각별로, 상기 세분화된 영상특성에 상응하는 학습 데이터로 사전학습된 딥러닝 네트크워크의 집합일 수 있다.
상기 영상 특성에 기초한 동영상 초해상화 방법은 상기 시스템이 동영상에 포함된 이미지들 중 상기 제1이미지 그룹 다음에 존재하는 제2이미지 그룹을 특정하는 단계, 상기 시스템이 상기 제2이미지 그룹의 영상특성을 분석하는 단계, 상기 시스템이 분석 결과에 기초하여 상기 복수의 딥러닝 네트워크 그룹들 중 상기 제2이미지 그룹에 적용할 제2적용 네트워크를 선택하는 단계, 및 상기 시스템이 선택한 상기 제2적용 네트워크를 이용하여 상기 제2이미지 그룹에 대한 초해상화를 수행하는 단계를 포함할 수 있다.
상기 복수의 딥러닝 네트워크들에 포함된 딥러닝 네트워크 각각은, 압축열화개선(Compresson Lossy Enhancement), 공간해상도 확대(Super Resolution), 시간해상도 확대(Frame-Rate Up Conversion) 중 적어도 하나를 수행할 수 있다.
다른 일 실시 예에 따른 영상 특성에 기초한 동영상 초해상화 방법은 시스템이 동영상에 포함된 이미지들 중 일부인 제1이미지 그룹을 특정하는 단계, 상기 시스템이 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하여 초해상화를 수행하는 단계, 및 상기 시스템이 상기 동영상에 포함된 이미지들 중 상기 제1이미지 그룹 다음에 존재하는 제2이미지 그룹을 특정하는 단계, 및 상기 시스템이 상기 복수의 딥러닝 네트워크들 중 상기 제2이미지 그룹에 적용할 제2적용 네트워크를 선택하여 초해상화를 수행하는 단계를 포함한다.
상기의 방법은 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램에 의해 수행될 수 있다.
다른 일 측면에 따르면, 본 발명의 기술적 사상에 따른 영상 특성에 기초한 동영상 초해상화 시스템은 프로세서, 상기 프로세서에 의해 구동되는 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여, 동영상에 포함된 이미지들 중 일부인 제1이미지 그룹을 특정하고, 상기 제1이미지 그룹의 영상특성을 분석하며, 영상특성의 분석 결과에 기초하여 초해상화를 수행하는 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하고, 선택한 상기 제1적용 네트워크를 이용하여 상기 제1이미지 그룹에 대한 초해상화를 수행한다.
또 다른 일 측면에 따르면 프로세서, 상기 프로세서에 의해 구동되는 프로그램이 저장된 저장장치를 포함하며, 상기 프로세서는 상기 프로그램을 구동하여, 동영상에 포함된 이미지들 중 일부인 제1이미지 그룹을 특정하고, 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하여 초해상화를 수행하며, 상기 동영상에 포함된 이미지들 중 상기 제1이미지 그룹 다음에 존재하는 제2이미지 그룹을 특정하고, 상기 복수의 딥러닝 네트워크들 중 상기 제2이미지 그룹에 적용할 제2적용 네트워크를 선택하여 초해상화를 수행한다.
본 발명에 의하면, 동영상에 포함된 이미지 그룹별로 영상의 특성 및/또는 압축특성을 분석하고, 이에 따라 영상의 특성 및/또는 압축특성별로 구분하여 최적의 네트워크 및 구분된 학습데이터를 통한 학습을 수행하여 복수의 특성별 딥러닝 네트워크를 준비한 후 적응적으로 초해상화를 수행할 딥러닝 모델을 선택할 수 있도록 함으로써 더 적은 자원으로 더 효과적인 초해상화 작업을 수행할 수 있는 효과가 있다.
또한 네트워크가 한정된 특성을 가지는 데이터를 제한적으로 처리하도록 준비되므로 네트워크 모델의 파라미터를 줄이기 용이해지므로 이로 인해 추가적인 처리 속도 향상의 효과가 있다.
본 발명의 상세한 설명에서 인용되는 도면을 보다 충분히 이해하기 위하여 각 도면의 간단한 설명이 제공된다.
도 1은 본 발명의 일 실시 예에 따른 영상 특성에 기초한 동영상 초해상화 방법의 개념을 설명하기 위한 도면이다.
도 2는 본 발명의 일 실시 예에 영상 특성에 기초한 동영상 초해상화 시스템의 개략적인 구성을 나타낸다.
도 3은 본 발명의 일 실시 예에 따른 딥러닝 네트워크의 실시 예를 설명하기 위한 도면이다.
도 4는 본 발명의 실시 예에 따른 영상특성별 딥러닝 네트워크의 실시 예를 설명하기 위한 도면이다.
본 발명은 다양한 변환을 가할 수 있고 여러 가지 실시예를 가질 수 있는 바, 특정 실시예들을 도면에 예시하고 상세한 설명에 상세하게 설명하고자 한다. 그러나, 이는 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변환, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 본 발명을 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
제1, 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 상기 구성요소들은 상기 용어들에 의해 한정되어서는 안 된다. 상기 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 사용된다.
본 출원에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 본 발명을 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다.
본 명세서에 있어서, "포함하다" 또는 "가지다" 등의 용어는 명세서상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 본 명세서에 있어서는 어느 하나의 구성요소가 다른 구성요소로 데이터를 '전송'하는 경우에는 상기 구성요소는 상기 다른 구성요소로 직접 상기 데이터를 전송할 수도 있고, 적어도 하나의 또 다른 구성요소를 통하여 상기 데이터를 상기 다른 구성요소로 전송할 수도 있는 것을 의미한다. 반대로 어느 하나의 구성요소가 다른 구성요소로 데이터를 '직접 전송'하는 경우에는 상기 구성요소에서 다른 구성요소를 통하지 않고 상기 다른 구성요소로 상기 데이터가 전송되는 것을 의미한다.
도 1은 본 발명의 일 실시 예에 따른 영상 특성에 기초한 동영상 초해상화 방법의 개념을 설명하기 위한 도면이다. 또한 도 2는 본 발명의 일 실시 예에 영상 특성에 기초한 동영상 초해상화 시스템의 개략적인 구성을 나타낸다.
도 1을 참조하면, 본 발명의 실시 예에 따른 영상 특성에 기초한 동영상 초해상화 방법은 상대적으로 낮은 화질의 동영상(10)을 영상 특성에 기초하여 초해상화할 수 있다.
이러한 영상 특성에 기초한 초해상화는 본 발명의 기술적 사상에 따른 영상 특성에 기초한 동영상 초해상화 시스템(이하, '시스템', 100)에 의해 구현될 수 있다.
상기 시스템(100)은 상기 동영상(10)의 전체 또는 일부를 입력받아 동영상 전체 또는 일부에 대한 초해상화를 수행할 수 있다. 이때 초해상화는 영상특성에 기초하여 이루어질 수 있다.
상기 시스템(100)이 영상특성에 기초하여 초해상화를 수행한다고 함은, 초해상화 프로세스에 영향을 미칠 수 있는 모든 동영상의 특성을 포함하는 의미일 수 있다. 예컨대, 동영상에 포함된 복수의 이미지들의 영상 자체의 특성 및/또는 복수의 이미지들의 압축과 관련된 특성이 본 발명의 기술적 사상에 따라 초해상화에 영향을 미칠 수 있는 영상특성일 수 있다.
이러한 영상특성은 적어도 하나의 세부영상특성을 포함할 수 있다.
세부영상특성 중 하나는 영상의 복잡도(Complexity)일 수 있다. 이러한 복잡도는 영상 자체의 특성을 의미할 수 있다.
세부영상특성 중 또 다른 하나는 QP(Quntaization Parameter)일 수 있다. 이러한 QP는 영상의 압축과 관련된 특성일 수 있다.
세부영상특성 중 또 다른 하나는 모션(motion) 특성일 수 있다. 모션특성은 어느 하나의 이미지와 다음 이미지간의 차이와 관련된 특성으로써 영상 자체 및 압축과 모두 관련된 특성일 수 있다.
영상의 복잡도, 압축정도, 및/또는 모션 특성에 따라 초해상화를 수행하는 딥러닝 네트워크가 동일하더라도 초해상화의 성능은 달라질 수 있다.
따라서 본 발명의 기술적 사상은 이러한 동영상을 영상특성 즉, 상기와 같은 다양한 세부영상특성을 기준으로 구분하고, 구분된 동영상의 부분별로 최적의 딥러닝 네트워크를 적응적으로 선택하여 초해상화를 수행함으로써 매우 효율적인 초해상화를 수행할 수 있는 것을 주요한 특징으로 할 수 있다.
예컨대, 도 1에 도시된 바와 같이 상기 시스템(100)은 동영상(10)의 어느 한 부분 즉, 제1이미지 그룹(20)에 대해서는, 상기 제1이미지 그룹(20)의 영상특성에 따라 복수의 딥러닝 네트워크들 중에서 선택된 제1적용 네트워크를 통해 초해상화를 수행할 수 있다.
그리고 상기 시스템(100)은 동영상(10)의 다른 한 부분 즉, 제2이미지 그룹(30)에 대해서는 상기 제2이미지 그룹(30)의 영상특성에 따라 복수의 딥러닝 네트워크들 중에서 선택된 제2적용 네트워크를 통해 초해상화를 수행할 수 있다.
이를 위해 상기 시스템(100)은 동영상(10)에 포함된 복수의 이미지들 중에서 그 일부인 제1이미지 그룹(20) 및/또는 제2이미지 그룹(30)을 특정할 수 있다(S100, S200). 이러한 특정은 단순히 미리 정해진 프레임 개수별로 수행될 수도 있고, 다양한 기법 예컨대, 샷바운더리 디텍션 등을 통해 동영상이 구분된 후 구분된 일부의 동영상들 중 어느 하나가 선택될 수도 있다.
다양한 방식으로 동영상(10)이 분할되고 분할된 부분에 포함된 이미지들이 상기 제1이미지 그룹(20) 및/또는 제2이미지 그룹(30)으로 특정될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
물론 본 발명의 기술적 사상에 따른 초해상화는 동영상(10)에 포함된 모든 이미지들에 의해 수행될 수도 있고, 이들 중 일부에 대해서만 수행될 수도 있다. 또한 도 1에서는 동영상(10)에 포함된 복수의 이미지 그룹들(20,30)에 대해서 초해상화가 수행되는 것을 예시하고 있지만, 어느 하나의 이미지 그룹에 대해서만 초해상화가 수행될 수도 있다. 또한 도 1의 예시와는 달리 두 개 이상의 이미지 그룹들에 대해 초해상화가 수행되는 경우에도 반드시 연속된 이미지 그룹에 대해 초해상화가 수행될 필요도 없다. 본 발명의 기술적 사상은 동영상(10)의 일부인 적어도 하나의 이미지 그룹에 대해서 본 명세서에서 정의되는 기술적 특징이 적용되는 경우에 모두 적용될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이하 본 명세서에서는 서로 다른 이미지 그룹들 즉, 제1이미지 그룹(20)과 상기 제1이미지 그룹(20)의 다음에 나오는 소정의 제2이미지 그룹(30) 각각에 본 발명의 기술적 사상이 적용되는 일 예를 예시적으로 설명하도록 한다.
상기 제2이미지 그룹(30)이 제1이미지 그룹(20)과 연속될 필요는 없음은 전술한 바와 같으며, 각 이미지 그룹에 포함된 이미지의 개수 역시 서로 다를 수도 있다.
그러면 상기 시스템(100)은 상기 제1이미지 그룹(20) 및/또는 제2이미지 그룹(30) 각각의 영상특성을 분석할 수 있다(S100, S200).
영상특성은 전술한 바와 같이 복수의 세부영상특성들을 포함할 수 있다. 어느 하나의 영상별로 서로 다른 특성 값(예컨대, 복잡도)이 존재하는 경우에는 각 이미지 그룹의 대표 값(예컨대 평균, 중간 값 등)을 해당 이미지 그룹의 세부영상특성 값으로 특정할 수 있다. 예컨대, 제1이미지 그룹(20)에 포함된 이미지들 각각의 복잡도를 연산한 후 이들의 평균값을 제1이미지 그룹(20)의 복잡도라는 세부영상특성의 값으로 이용할 수 있다.
통상 영상의 복잡도는 영상 내에서 얼마나 많은 픽셀 값의 변화가 있는지를 의미하는 것이어서 영상을 양질로 복원하고자 하는 초해상화와 직접적인 연관이 있으며, QP는 얼마나 압축을 했는지와 관련된 파라미터이므로 이 또한 초해상화의 성능에 직접적인 영향을 가질 수 있다. 또한 모션 특성은 참조 영상과 비교하여 픽셀 또는 블록이 이동한 정도를 의미하므로 이 역시 초해상화 성능에 직접적인 영향을 가질 수 있다. 따라서 이처럼 초해상화 과정에 관련이 있는 영상의 특성을 기준으로 영상특성을 구분하고 이에 따라 후술하는 바와 같이 서로 다른 딥러닝 네트워크를 이용하는 경우에 매우 효과적일 수 있다.
이미지의 복잡도, QP, 모션특성을 나타내는 모션 벡터를 연산하는 다양한 방식은 널리 공지되어 있으므로 본 명세서에서는 상세한 설명은 생략하도록 한다.
또한, 세부영상특성은 전술한 바와 같이 복잡도, QP, 모션 특성 등일 수 있지만 이에 국한되지는 않으며 다양한 세부영상특성들이 더 포함될 수도 있다.
세부영상특성들은 해당 이미지 그룹이 어떤 딥러닝 네트워크를 이용하여 초해상화를 수행할지를 결정하는 기준이 될 수 있다. 이러한 일 예는 도 4를 참조하여 후술하도록 한다.
그러면 상기 시스템(100)은 영상특성의 분석 결과에 기초하여 초해상화를 수행하는 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹(20)에 적용할 제1적용 네트워크 및/또는 제2이미지 그룹(30)에 적용할 제2적용 네트워크를 각각 특정할 수 있다(S110. S210).
이러한 특정은 영상특성 즉, 적어도 하나의 세부영상특성을 기준으로 세분화된 이미지 그룹의 특성별로, 해당 이미지 그룹별로 최적화된 사전 학습된 딥러닝 네트워크들 중에서 어느 하나를 선택함으로써 이루어질 수 있으며 이 역시 도 4를 참조하여 후술하도록 한다.
각 이미지 그룹(20, 30)별로 초해상화를 수행할 적용 딥러닝 네트워크가 특정되면, 각 이미지 그룹(20, 30)은 특정된 적용 딥러닝 네트워크를 통해 초해상화가 수행될 수 있다(S120, S130).
결국 본 발명의 기술적 사상에 의하면, 종래의 초해상화를 수행하기 위한 공지된 딥러닝 네트워크들이 영상특성을 고려하지 않은 채로 학습되어 매우 큰 네트워크가 아닌 경우에는 다양한 동영상 압축 정도에 대해 효과적인 대응이 어려운 문제가 있고, 또한 네트워크가 커질 수록 메모리 사용량이 늘어나고 처리속도가 느려지는 문제가 해결될 수 있다.
즉 영상의 특성(예컨대, 복잡도 및 QP)를 고려하여 학습 데이터를 구분하고 각 학습 데이터 별로 최적의 네트워크를 선별하여 사전 학습할 경우 경제적이고 효과적인 초해상화가 가능해지며, 제한된 학습 데이터로만 학습을 수행하고 추론 역시 학습에 이용된 범위에 해당하는 영상특성을 가지는 이미지 그룹들만 입력으로 들어가게 되므로 정확도가 개선될 수 있을 뿐 아니라 네트워크 모델의 파라메터를 줄이기 용이해지고 이로 인해 추가적인 처리 속도 향상이 가능한 효과가 있다.
한편, 상기 시스템(100)은 소정의 로컬 단말(예컨대, 휴대단말, 컴퓨터, TV 등)에 설치되는 것일 수도 있다. 또는 초해상화를 위해 네트워크 상에 설치되어 서비스를 제공하는 시스템일 수도 있다. 다양한 실시 예가 가능할 수 있다.
상기 낮은 화질의 동영상(10)은 로컬 단말에 존재하는 동영상일 수도 있다. 또는 네트워크를 통해 실시간으로 전송되는 스트림일 수도 있다. 일 예에 의하면, 저대역 네트워크를 통해 저화질의 동영상이 전송되어 오는 경우, 상기 시스템(100)은 수신단에 설치되어 전송되어 오는 동영상에 대해 초해상화를 수행하여 양질의 화질로 동영상을 재생하도록 구현될 수 있다.
다양한 실시 예가 가능할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이러한 기술적 사상을 구현하기 위한 본 발명의 기술적 사상에 따른 영상 특성에 기초한 동영상 초해상화 시스템(100)은 도 2와 같은 물리적 구성을 가질 수 있다.
상기 시스템(100)은 본 발명의 기술적 사상을 구현하기 위한 프로그램이 저장되는 메모리(저장장치)(120), 및 상기 메모리(120)에 저장된 프로그램을 실행하기 위한 프로세서(110)가 구비될 수 있다.
상기 프로세서(110)는 상기 시스템(100)의 구현 예에 따라, CPU, GPU, 및/또는 모바일 프로세서 등 다양한 명칭으로 명명될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다. 또한, 전술한 바와 같이 상기 시스템(100)은 복수의 물리적 장치들이 유기적으로 결합되어 구현될 수도 있으며, 이러한 경우 상기 프로세서(110)는 물리적 장치별로 적어도 한 개 구비되어 본 발명의 시스템(100)을 구현할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
상기 메모리(120)는 상기 프로그램이 저장되며, 상기 프로그램을 구동시켜서동영상의 입력, 영상특성의 분석, 딥러닝 네트워크의 선택, 및/또는 초해상화의 수행을 하기 위해 상기 프로세서가 접근할 수 있는 어떠한 형태의 저장장치로 구현되어도 무방하다. 또한 하드웨어적 구현 예에 따라 상기 메모리(120)는 어느 하나의 저장장치가 아니라 복수의 저장장치로 구현될 수도 있다. 또한 상기 메모리(120)는 주기억장치 뿐만 아니라, 임시기억장치를 포함할 수도 있다. 또한 휘발성 메모리 또는 비휘발성 메모리로 구현될 수도 있으며, 상기 프로그램이 저장되고 상기 프로세서에 의해 구동될 수 있도록 구현되는 모든 형태의 정보저장 수단을 포함하는 의미로 정의될 수 있다.
또한 상기 시스템(100)의 실시 예에 따라 다양한 주변장치들(주변장치 1 내지 주변장치 N, 130-1, 130-2)이 더 구비될 수 있다. 예컨대, 키보드, 모니터, 그래픽 카드, 통신장치 등이 주변장치로써 상기 시스템(100)에 더 포함될 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
이하, 본 명세서에서 상기 시스템(100)이 어떤 기능을 수행한다고 함은 상기 프로세서(110)가 상기 메모리(120)에 구비된 프로그램을 구동하여 상기 기능을 수행하는 것을 의미함을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
도 3은 본 발명의 일 실시 예에 따른 딥러닝 네트워크의 실시 예를 설명하기 위한 도면이다.
도 3을 참조하면, 소정의 압축 전송된 동영상(예컨대, 1280×720p, 15fps, 300Kbps 전송속도)이 시스템(100)에 입력될 수 있다.
그러면 상기 시스템(100)은 상술한 바와 같이 적어도 하나의 이미지 그룹(예컨대, 제1이미지 그룹(20))에 대해 초해상화를 수행할 수 있다.
이를 위해 상기 시스템(100)은 제1이미지 그룹(20)의 영상특성을 분석할 수 있다.
그리고 분석결과에 기초하여 미리 학습된 다양한 영상특성별 딥러닝 네트워크들 중에서 상기 제1이미지 그룹(20)에 적용할 딥러닝 네트워크 즉, 적용 딥러닝 네트워크(201)를 선택할 수 있다.
선택된 적용 딥러닝 네트워크(201)는 예컨대, 다양한 초해상화 프로세스 중 적어도 하나를 수행할 수 있다.
예컨대, 상기 적용 딥러닝 네트워크(201)가 수행하는 초해상화 프로세스는 압축 열화 개선(CLE, Compression Lossy Enhancement) 프로세스일 수 있다. 또는 공간 해상도 확대(SR, Super Resolution) 프로세스일 수도 있다. 또는 시간 해상도 확대(Frame-Rate Up Conversion) 프로세스일 수도 있다.
CLE를 위한 다양한 딥러닝 네트워크 예컨대, WRCAN / PSTQE / InvDN / Stripformer 이 공지된 바 있다. 또한 SR을 위한 다양한 딥러닝 네트워크 예컨대 SwinIR / LESRCNN / USIResNet / iSeeBetter / OverNet / ESRT / FENet가 공지된 바 있다. 또한 FRUC를 위한 다양한 딥러닝 네트워크 예컨대, Xvfi / ABME / RIFE / M2M 가 공지되 바 있다. 본 발명의 기술적 사상을 위해서는 이러한 공지된 초해상화 딥러닝 네트워크가 이용될 수도 있고, 또는 이와는 별개의 딥러닝 네트워크가 이용될 수도 있다. 또는 공지된 초해상화 네트워크를 결합하여 딥러닝 네트워크가 학습될 수도 있다.
각각의 초해상화 프로세스는 서로 다른 별도의 딥러닝 네트워크 모델에 의해 수행될 수도 있고, 복수의 초해상화 프로세스가 단일 네트워크 모델로 학습될 수도 있다. 전자의 경우에 상기 시스템(100)이 적용 딥러닝 네트워크(201)를 선택한다고 함은 서로 다른 초해상화 프로세스를 수행할 복수의 딥러닝 네트워크를 선택하는 것을 포함하는 의미일 수도 있다. 본 명세서에서는 설명의 편의를 위해 복수의 서로 다른 초해상화 프로세스가 같이 수행될 수 있는 단일 네트워크 모델로 적용 딥러닝 네트워크(201)가 학습된 경우를 예시적으로 설명하도록 한다.
상기 시스템(100)은 적용 딥러닝 네트워크(201)를 이용하여 초해상화를 수행할 수 있고, 그러면 도 3에 도시된 바와 같이 화질이 향상된 동영상(예컨대, 2560×1440p, 30fps)을 생성할 수 있다.
한편 전술한 바와 같이 본 발명의 기술적 사상을 위해서는 이미지 그룹의 영상특성별로 해당 이미지 그룹에 적용될 딥러닝 네트워크가 세분화되어 사전학습되어 있을 수 있다.
이러한 일 예는 도 4를 참조하여 설명하도록 한다.
도 4는 본 발명의 실시 예에 따른 영상특성별 딥러닝 네트워크의 실시 예를 설명하기 위한 도면이다.
도 4는 영상특성에 포함되는 세부영상특성들 중 복잡도와 QP를 기준으로 영상특성을 세분화한 경우를 일 예로 도시하고 있으나, 이에 국한되지 않고 어느 하나의 세부영상특성만으로 영상특성을 세분화하거나 또는 3개 이상의 세부영상특성들로 더욱 영상특성을 세분화할 수도 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
도 4에서는 제1세부영상특성은 복잡도(Complexity)가 이용되고 있고, 제2세부영상특성은 QP가 이용되고 있는 경우를 예시하고 있다.
또한 복잡도는 3개로 세분화되고, QP는 9개로 세분화된 경우를 예시하고 있지만, 반드시 이에 국한될 필요는 없고 각각의 세부영상특성이 더욱 많은 개수로 또는 더 작은 개수로 세분화될 수 있음은 물론이다.
이처럼 복수의 세부영상특성들 중 제1세부영상특성 및 제2세부영상특성 각각이 소정의 개수(예컨대, 3개 및 9개)로 구분되면, 구분된 제1세부영상특성 및 제2세부영상특성에 의해 세분화된 세분화 영상특성들은 27개가 될 수 있다.
그러면 상기 세분화된 영상특성 즉 27개의 서로 다른 특성으로 세분화된 영상특성별로 미리 사전 학습된 딥러닝 네트워크가 준비되어 있을 수 있으며, 상기 시스템(100)은 이러한 사전학습된 딥러닝 네트크워크의 집합 중에서, 이미지 그룹의 영상특성 분석결과에 부합하는 세분화 영상특성에 속하는 딥러닝 네트워크를 적용 딥러닝 네트워크로 특정할 수 있다.
예컨대, 도 4의 예시에서는 27개의 영상특성별로 27개의 서로 다른 딥러닝 네트워크가 각각 미리 학습되어 준비되어 있을 수 있으며, 상기 시스템(100)은 27개의 딥러닝 네트워크 중에서 현재 처리할 이미지 그룹에 적용할 적용 딥러닝 네트워크를 선택할 수 있다.
예컨대, 제1이미지 그룹(20)의 복잡도가 낮고, QP가 10으로 분석된 경우에는 상기 시스템(100)은 A(low, 6-11)로 표시된 딥러닝 네트워크를 적용 딥러닝 네트워크로 선택할 수 있다. 만약 제1이미지 그룹(20)이 복잡도가 크고 QP가 15인 경우에는 D(high, 12-17)로 표시된 딥러닝 네트워크가 적용 딥러닝 네트워크로 선택될 수 있다.
여기서 각 딥러닝 네트워크의 노테이션 중 A~I 는 딥러닝 모델을 나타내고, 괄호안은 학습에 이용된 학습 데이터를 의미할 수 있다.
즉, A(low, 0-5) 로 표시된 딥러닝 네트워크는 A 라는 딥러닝 모델을 이용하여, 복잡도가 low이고 QP가 0에서 5사이인 이미지들만으로 제한된 학습 데이터를 이용하여 학습된 딥러닝 네트워크임을 의미할 수 있다.
그리고 A(low, 6-11) 로 표시된 딥러닝 네트워크는 A 라는 딥러닝 모델을 이용하여, 복잡도가 low이고 QP가 6에서 11사이인 이미지들만으로 제한된 학습 데이터를 이용하여 학습된 딥러닝 네트워크임을 의미할 수 있다.
이처럼 동일한 딥러닝 모델을 이용하더라도 세분화된 영상특성별로 서로 다른 제한된 학습 데이터를 이용하여 각 영상특성별 딥러닝 네트워크를 별도로 준비하고 이를 이용하여 초해상화를 수행할 수 있다.
영상특성을 세분화하기 위해 어떠한 세부영상특성을 기준으로 하고, 각 세부영상특성을 얼마나 세분화할지, 그리고 세분화된 영상특성별로 어떤 딥러닝 모델을 이용할지는 다양한 실험을 통해 선택될 수 있으며, 따라서 다양한 실시 예가 가능할 수 있음을 본 발명의 기술분야의 평균적 전문가는 용이하게 추론할 수 있을 것이다.
결국 본 발명의 기술적 사상에 의하면, 영상특성을 고려하여 동영상을 초해상화하면서 동영상여 포함된 부분 부분별로 최적의 딥러닝 네트워크를 적응적으로 선택하여 최적의 성능을 획득할 수 있는 효과가 있다.
또한 미리 사전 학습된 딥러닝 네트워크들 각각은 제한된 도메인의 학습 데이터로 학습되고, 실제 추론 역시 학습에 이용된 제한된 범위 내의 데이터만 입력받을 수 있으므로 넓은 범위의 데이터를 커버하는 것에 비해 성능이 월등히 뛰어날 수 있고 경량화가 용이하여 연산속도에서도 매우 유리한 효과를 가질 수 있다.
한편, 구현 예에 따라서, 상기 시스템(100)은 프로세서 및 상기 프로세서에 의해 실행되는 프로그램을 저장하는 메모리를 포함할 수 있다. 상기 프로세서는 싱글 코어 CPU혹은 멀티 코어 CPU를 포함할 수 있다. 메모리는 고속 랜덤 액세스 메모리를 포함할 수 있고 하나 이상의 자기 디스크 저장 장치, 플래시 메모리 장치, 또는 기타 비휘발성 고체상태 메모리 장치와 같은 비휘발성 메모리를 포함할 수도 있다. 프로세서 및 기타 구성 요소에 의한 메모리로의 액세스는 메모리 컨트롤러에 의해 제어될 수 있다.
한편, 본 발명의 실시예에 따른 방법은 컴퓨터가 읽을 수 있는 프로그램 명령 형태로 구현되어 컴퓨터로 읽을 수 있는 기록 매체에 저장될 수 있으며, 본 발명의 실시예에 따른 제어 프로그램 및 대상 프로그램도 컴퓨터로 판독 가능한 기록 매체에 저장될 수 있다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
기록 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 소프트웨어 분야 당업자에게 공지되어 사용 가능한 것일 수도 있다.
컴퓨터로 읽을 수 있는 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media) 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다.
프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 전자적으로 정보를 처리하는 장치, 예를 들어, 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
상술한 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시 예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성요소들도 결합된 형태로 실시될 수 있다.

Claims (9)

  1. 시스템이 동영상에 포함된 이미지들 중 일부이며 복수 개의 연속된 이미지를 포함하는 제1이미지 그룹을 특정하는 단계;
    상기 시스템이 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하여 초해상화를 수행하는 단계; 및
    상기 시스템이 상기 동영상에 포함된 이미지들 중 상기 제1이미지 그룹 다음에 존재하며 복수 개의 연속된 이미지를 포함하는 제2이미지 그룹을 특정하는 단계; 및
    상기 시스템이 상기 복수의 딥러닝 네트워크들 중 상기 제2이미지 그룹에 적용할 제2적용 네트워크를 선택하여 초해상화를 수행하는 단계를 포함하되,
    상기 시스템은,
    영상의 복잡도(Complexity), 영상의 QP(Quantization Parameter), 모션(motion) 특성 중 적어도 하나인 세부영상특성을 포함하는 영상 특성에 기초하여 상기 제1적용네트워크 및 상기 제2적용 네트워크를 선택하는 것을 특징으로 하는 동영상 초해상화 방법.
  2. 삭제
  3. 제1항에 있어서, 상기 복수의 딥러닝 네트워크들은,
    세부영상특성 중 제1세부영상특성 및 제2세부영상특성 각각을 소정의 개수로 구분하고, 구분된 제1세부영상특성 및 제2세부영상특성에 의해 세분화된 세분화 영상특성들 각각별로, 상기 세분화된 영상특성에 상응하는 학습 데이터로 사전학습된 딥러닝 네트크워크의 집합인 것을 특징으로 하는 영상 특성에 기초한 동영상 초해상화 방법.
  4. 삭제
  5. 제1항에 있어서, 상기 복수의 딥러닝 네트워크들에 포함된 딥러닝 네트워크 각각은,
    압축열화개선(Compresson Lossy Enhancement), 공간해상도 확대(Super Resolution), 시간해상도 확대(Frame-Rate Up Conversion) 중 적어도 하나를 수행하는 딥러닝 네트워크인 것을 특징으로 하는 영상 특성에 기초한 동영상 초해상화 방법.
  6. 삭제
  7. 제1항, 제3항, 또는 제5항 중 어느 한 항에 기재된 방법을 수행하기 위한 컴퓨터 판독가능한 기록매체에 기록된 컴퓨터 프로그램.
  8. 삭제
  9. 프로세서;
    상기 프로세서에 의해 구동되는 프로그램이 저장된 저장장치를 포함하며,
    상기 프로세서는 상기 프로그램을 구동하여,
    동영상에 포함된 이미지들 중 일부이며 복수 개의 연속된 이미지를 포함하는 제1이미지 그룹을 특정하고, 복수의 딥러닝 네트워크들 중 상기 제1이미지 그룹에 적용할 제1적용 네트워크를 선택하여 초해상화를 수행하며, 상기 동영상에 포함된 이미지들 중 상기 제1이미지 그룹 다음에 존재하며 복수 개의 연속된 이미지를 포함하는 제2이미지 그룹을 특정하고, 상기 복수의 딥러닝 네트워크들 중 상기 제2이미지 그룹에 적용할 제2적용 네트워크를 선택하여 초해상화를 수행하되,
    영상의 복잡도(Complexity), 영상의 QP(Quantization Parameter), 모션(motion) 특성 중 적어도 하나인 세부영상특성을 포함하는 영상 특성에 기초하여 상기 제1적용네트워크 및 상기 제2적용 네트워크를 선택하는 영상 특성에 기초한 동영상 초해상화 시스템.


KR1020220185582A 2022-12-27 2022-12-27 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템 KR102678872B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220185582A KR102678872B1 (ko) 2022-12-27 2022-12-27 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220185582A KR102678872B1 (ko) 2022-12-27 2022-12-27 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템

Publications (1)

Publication Number Publication Date
KR102678872B1 true KR102678872B1 (ko) 2024-06-28

Family

ID=91668739

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220185582A KR102678872B1 (ko) 2022-12-27 2022-12-27 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템

Country Status (1)

Country Link
KR (1) KR102678872B1 (ko)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102050780B1 (ko) * 2018-01-10 2019-12-02 한국과학기술원 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
KR20210076880A (ko) * 2019-12-16 2021-06-24 한국전자통신연구원 영상 특성 분류를 이용한 영상 압축 방법, 장치 및 기록 매체

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102050780B1 (ko) * 2018-01-10 2019-12-02 한국과학기술원 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
KR20210076880A (ko) * 2019-12-16 2021-06-24 한국전자통신연구원 영상 특성 분류를 이용한 영상 압축 방법, 장치 및 기록 매체

Similar Documents

Publication Publication Date Title
US8036263B2 (en) Selecting key frames from video frames
KR20190117416A (ko) 동영상 프레임 해상도를 향상시키기 위한 방법 및 장치
CN114731455B (zh) 使用与图像质量相关的ai元数据的设备和方法
US20220180625A1 (en) Computing device and operating method therefor
US12003732B2 (en) Scene aware video content encoding
KR102715174B1 (ko) 방향 적응형 병렬 신경망을 이용한 초해상도 영상 생성 장치 및 방법
CN106791850A (zh) 视频编码方法及装置
US20220284632A1 (en) Analysis device and computer-readable recording medium storing analysis program
US20240031576A1 (en) Method and apparatus for video predictive coding
WO2021152849A1 (ja) データ処理装置及びデータ処理プログラム
CN109587491A (zh) 一种帧内预测方法、装置及存储介质
KR102678872B1 (ko) 영상 특성에 기초한 동영상 초해상화 방법 및 그 시스템
TWI411305B (zh) 動態參照訊框選擇方法和系統
CN117058598B (zh) 云视频帧高质量优化方法、装置及计算机设备
CN111950587A (zh) 帧内编码块划分处理方法和硬件装置
CN116340568A (zh) 一种基于跨场景知识迁移的在线视频摘要生成方法
RU2656785C1 (ru) Оценка движения путем трехмерного рекурсивного поиска (3drs) в реальном времени для преобразования частоты кадров (frc)
CN113780252B (zh) 视频处理模型的训练方法、视频处理方法和装置
CN113014745B (zh) 视频图像降噪方法及装置、存储介质及电子设备
KR20230007717A (ko) 지능적 가로-세로 영상 변환을 위한 전자 장치, 시스템 및 방법
CN112954350A (zh) 一种基于帧分类的视频后处理优化方法及装置
CN113395603A (zh) 一种基于模型预测控制的点云视频流自适应传输方法
Huang et al. EdgeBooster: Edge-assisted real-time image segmentation for the mobile web in WoT
CN113115075A (zh) 一种视频画质增强的方法、装置、设备以及存储介质
Wei et al. HRCache: Edge-End Collaboration for Mobile Deep Vision Based on H. 264 and Approximated Reuse