KR102391615B1 - 영상 처리 방법, 영상 재생 방법 및 그 장치들 - Google Patents

영상 처리 방법, 영상 재생 방법 및 그 장치들 Download PDF

Info

Publication number
KR102391615B1
KR102391615B1 KR1020200031880A KR20200031880A KR102391615B1 KR 102391615 B1 KR102391615 B1 KR 102391615B1 KR 1020200031880 A KR1020200031880 A KR 1020200031880A KR 20200031880 A KR20200031880 A KR 20200031880A KR 102391615 B1 KR102391615 B1 KR 102391615B1
Authority
KR
South Korea
Prior art keywords
image
mask
region
importance information
degree
Prior art date
Application number
KR1020200031880A
Other languages
English (en)
Other versions
KR20210115710A (ko
Inventor
김영휘
이정진
한성규
정승화
Original Assignee
주식회사 카이
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 주식회사 카이 filed Critical 주식회사 카이
Priority to KR1020200031880A priority Critical patent/KR102391615B1/ko
Publication of KR20210115710A publication Critical patent/KR20210115710A/ko
Application granted granted Critical
Publication of KR102391615B1 publication Critical patent/KR102391615B1/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T3/00Geometric image transformations in the plane of the image
    • G06T3/40Scaling of whole images or parts thereof, e.g. expanding or contracting
    • G06T3/4053Scaling of whole images or parts thereof, e.g. expanding or contracting based on super-resolution, i.e. the output image resolution being higher than the sensor resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/21Server components or server architectures
    • H04N21/218Source of audio or video content, e.g. local disk arrays
    • H04N21/2187Live feed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/01Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level
    • H04N7/0102Conversion of standards, e.g. involving analogue television standards or digital television standards processed at pixel level involving the resampling of the incoming video signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Image Processing (AREA)
  • Editing Of Facsimile Originals (AREA)

Abstract

일 실시예에 따르면, 영상 처리 방법 및 장치는 복수의 프레임들을 포함하는 제1 영상을 수신하고, 복수의 프레임들에 포함된 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 획득하고, 중요도 정보에 기초하여 제1 영상의 적어도 하나의 영역에 대응하는 스케일링 정도를 나타내는 적어도 하나의 마스크를 결정하고, 적어도 하나의 마스크에 따라 제1 영상을 인코딩 함으로써 제2 영상을 생성하며, 적어도 하나의 마스크 및 제2 영상을 출력한다.

Description

영상 처리 방법, 영상 재생 방법 및 그 장치들{IMAGE PROCESSING METHOD, VIDEO PLAYBACK METHOD AND APPARATUSES THEREOF}
아래 실시예들은 영상 처리 방법, 영상 재생 방법 및 그 장치들에 관한 것이다.
스트리밍(Streaming)을 제공하기 위하여 사용자 시점에 기반하는 방법, 컨텐츠에 기반한 방법 및 신경망에 기반한 방법 등이 이용될 수 있다. 사용자 시점에 기반하는 방법은 사용자가 바라보는 영역, 다시 말해 사용자의 시점에 대응하는 영역만을 고품질로 인코딩하여 스트리밍하는 방법이다. 사용자 시점에 기반하는 방법에서는 사용자가 시점을 갑자기 바꿀 경우, 화질 변화의 레이턴시(Latency)가 발생할 수 있다. 또한, 사용자 시점에 기반하는 방법에서 하나의 콘텐츠를 시점 별로 다르게 멀티 인코딩을 수행하는 경우, 영상의 용량 및 계산 과부하가 발생할 수 있다. 이 밖에도, 신경망에 기반한 방법에서는 하나의 네트워크를 사용할 경우 항상 높은 퀄리티를 보장하지 못한다. 또한, 콘텐츠 기반의 신경망을 사용할 경우, 모델링을 위해 대략 수십 시간이 소요되므로 라이브 스트리밍에 적합하지 못하고, 고화질 스트리밍을 위해서, 높은 GPU(Graphic Processing Unit) 사양이 요구된다는 문제점이 있다.
일 실시예에 따르면, 영상 처리 장치가 원본 스트리밍 영상을 2배 이상의 낮은 해상도로 스트리밍을 제공하고, 영상 재생 장치가 인공 신경망 기반의 초해상화(Super-Resolution) 기반 복원을 통해 원본 영상을 유지함으로써 낮은 전송 용량을 갖는 네트워크 환경에서 고품질의 영상 스트리밍 서비스를 제공할 수 있다.
일 실시예에 따르면, 원본 영상의 각 프레임의 중요 영역에 대하여는 원본 해상도를 최대한 유지하고, 중요 영역을 제외한 나머지 영역은 다운 샘플링하여 라이브 스트리밍 서비스를 위한 영상의 용량을 감소시킬 수 있다.
일 실시예에 따르면, 스트리밍을 위한 서버에서 4 배 이상의 낮은 용량으로 스트리밍을 수행함으로써 HLS(HTTP Live Streaming) 서버의 사용 비용을 절감할 수 있다.
일 실시예에 따르면, 마스크 기반의 스케일링을 통해 낮은 용량으로 영상 데이터를 전송하고 수신함에 따라 데이터 전송 비용을 절감할 수 있다.
일 실시예에 따르면, 인공 신경망 기반으로 저해상도 영상을 고해상도 영상으로 복원하는 초고해상도(super-resolution; SR) 기술에 의해 원본 영상에서 복원이 잘되지 않는 영역은 원본 해상도를 최대한 유지하고, 나머지 복원이 잘되는 영역의 해상도는 다운스케일링을 통해 해상도를 낮춰 전송함으로써 원본 영상에서 중요 영역 또는 복원 시에 초고해상도의 퀄리티가 떨어지는 영역의 영상 품질을 보존할 수 있다.
일 실시예에 따르면, 영상 처리 방법은 복수의 프레임들을 포함하는 제1 영상을 수신하는 단계; 상기 복수의 프레임들에 포함된 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 획득하는 단계; 상기 중요도 정보에 기초하여 상기 제1 영상의 적어도 하나의 영역에 대응하는 스케일링(scaling) 정도를 나타내는 적어도 하나의 마스크를 결정하는 단계; 상기 적어도 하나의 마스크에 따라 상기 제1 영상을 인코딩 함으로써 제2 영상을 생성하는 단계; 및 상기 적어도 하나의 마스크 및 상기 제2 영상을 출력하는 단계를 포함한다.
상기 적어도 하나의 마스크를 결정하는 단계는 상기 중요도 정보에 기초하여, 상기 제1 영상의 적어도 하나의 제1 영역의 해상도가 유지되고, 상기 제1 영역을 제외한 나머지 영역들의 해상도가 다운 샘플링(down-sampling) 되도록, 상기 적어도 하나의 마스크 및 상기 적어도 하나의 마스크에 대응하는 마스크 정보를 결정하는 단계를 포함할 수 있다.
상기 중요도 정보를 획득하는 단계는 상기 제1 영상의 제작자 단말로부터, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 설정된 제1 중요도 정보를 수신하는 단계; 및 상기 제2 영상의 각 프레임의 적어도 하나의 영역을 미리 학습된 신경망에 의해 복원한 결과에 따른 정확도 맵(accuracy map)에 기초하여, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 결정된 제2 중요도 정보를 획득하는 단계 중 적어도 하나를 포함할 수 있다.
상기 제2 중요도 정보를 획득하는 단계는 상기 제2 영상의 각 프레임의 적어도 하나의 영역을 상기 미리 학습된 신경망에 의해 복원한 결과와 상기 제2 영상의 각 프레임의 적어도 하나의 영역에 대응하는 정답 영상 간의 차이에 기초하여 상기 정확도 맵을 생성하는 단계; 및 상기 정확도 맵에 기초하여 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 제2 중요도 정보를 결정하는 단계를 포함할 수 있다.
상기 적어도 하나의 마스크를 결정하는 단계는 상기 제2 중요도 정보를 정렬(sorting)하는 단계; 및 상기 정렬된 제2 중요도 정보를 기초로, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 적어도 하나의 마스크를 결정하는 단계를 포함할 수 있다.
상기 정렬된 제2 중요도 정보를 기초로, 상기 적어도 하나의 마스크를 결정하는 단계는 상기 정렬된 제2 중요도 정보에 따라 상기 제1 영상에서 제1 영역의 제1 해상도가 상기 제1 영상의 원본 해상도로 설정되도록 상기 제1 영역에 대응하는 마스크를 제1 마스크로 결정하는 단계; 상기 정렬된 제2 중요도 정보에 따라 상기 제1 영역을 제외한 제2 영역이 상기 제1 해상도보다 낮은 제2 해상도로 다운 샘플링되도록 상기 제2 영역에 대응하는 마스크를 제2 마스크로 결정하는 단계; 및 상기 정렬된 제2 중요도 정보에 따라 상기 제1 영역 및 상기 제2 영역을 제외한 나머지 제3 영역이 상기 제2 해상도보다 낮은 제3 해상도로 다운 샘플링되도록 상기 제3 영역에 대응하는 마스크를 제3 마스크로 결정하는 단계 중 적어도 하나를 포함할 수 있다.
상기 신경망은 상기 제2 영상과 상기 제2 영상에 대응하는 제1 마스크, 제2 마스크 및 제3 마스크 중 적어도 하나의 마스크가 연결된(concatenated) 결합 영상을 기초로, 상기 제2 영상에 대응하는 복원 영상(reconstructed image)을 생성할 수 있다.
상기 적어도 하나의 마스크를 결정하는 단계는 상기 제2 중요도 정보와 무관하게, 상기 제1 중요도 정보에 따라 상기 제1 영상의 제1 영역에 대한 적어도 하나의 마스크를 결정하는 단계; 및 상기 제1 영역을 제외한 나머지 영역들에 대한 적어도 하나의 마스크를 제2 중요도 정보에 따라 결정하는 단계를 포함할 수 있다.
상기 적어도 하나의 마스크를 결정하는 단계는 상기 제2 영상의 용량이 상기 제1 영상을 미리 정해진 비율로 다운스케일링한 용량과 동일하게 유지되도록, 상기 중요도 정보에 기초하여 상기 제1 영상의 복수의 프레임들에 포함된 적어도 하나의 영역의 적어도 하나의 마스크를 결정하는 단계를 포함할 수 있다.
상기 적어도 하나의 마스크를 결정하는 단계는 상기 중요도 정보에 기초하여, 상기 제1 영상의 각 프레임(frame) 별로 상기 적어도 하나의 마스크를 결정하는 단계; 및 상기 중요도 정보에 기초하여, 상기 제1 영상의 복수의 프레임들을 포함하는 청크(chunk) 별로 상기 적어도 하나의 마스크를 결정하는 단계 중 어느 하나를 포함할 수 있다.
상기 중요도 정보를 획득하는 단계는 상기 복수의 프레임들 각각을, 상기 복수의 프레임들 각각의 적어도 하나의 영역에 대응하는 그리드(grid)들로 분할하는 단계; 및 상기 복수의 그리드들에 대응하는 영역의 중요도 정보를 획득하는 단계를 포함할 수 있다.
상기 제1 영상은 상기 적어도 하나의 마스크를 기초로 제1 영역, 제2 영역 및 제3 영역 중 적어도 하나의 영역으로 구분되고, 상기 제2 영상을 생성하는 단계는 상기 제1 영역에 대응하는 제1 마스크에 기초하여, 상기 제1 영역을 인코딩(encoding)하는 단계; 상기 제2 영역에 대응하는 제2 마스크에 기초하여, 상기 제2 영역을 인코딩하는 단계; 및 상기 제3 영역에 대응하는 제3 마스크에 기초하여, 상기 제3 영역을 인코딩하는 단계를 포함할 수 있다.
상기 제1 영상은 라이브 스트리밍 컨텐츠(live streaming contents)를 포함할 수 있다.
일 실시예에 따르면, 영상 재생 방법은 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 상기 영상의 복수의 영역들에 대응하는 적어도 하나의 마스크를 포함하는 영상 정보를 획득하는 단계; 상기 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 상기 영상을 복원하는 단계; 및 상기 복원된 영상을 재생하는 단계를 포함한다.
상기 영상을 복원하는 단계는 상기 영상 정보로부터 상기 적어도 하나의 마스크를 추출하는 단계; 및 상기 추출한 적어도 하나의 마스크를 기초로, 상기 신경망을 이용하여 상기 영상을 복원하는 단계를 포함할 수 있다.
상기 신경망은 상기 영상 및 상기 영상에 대응하는 적어도 하나의 마스크를 기초로, 상기 영상에 대응하는 상기 복원 영상을 생성하도록 학습될 수 있다.
일 실시예에 따르면, 영상 처리 장치는 복수의 프레임들을 포함하는 제1 영상을 수신하는 통신 인터페이스; 및 상기 복수의 프레임들에 포함된 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 획득하고, 상기 중요도 정보에 기초하여 상기 제1 영상의 적어도 하나의 영역에 대응하는 스케일링 정도를 나타내는 적어도 하나의 마스크를 결정하고, 상기 적어도 하나의 마스크에 따라 상기 제1 영상을 인코딩 함으로써 제2 영상을 생성하는 프로세서를 포함하고, 상기 통신 인터페이스는 상기 마스크 및 상기 제2 영상을 출력한다.
일 실시예에 따르면, 영상 재생 장치는 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 상기 영상의 복수의 영역들에 대응하는 적어도 하나의 마스크를 포함하는 영상 정보를 획득하는 통신 인터페이스; 상기 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 상기 영상을 복원하는 프로세서; 및 상기 복원된 영상을 재생하는 디스플레이를 포함한다.
일 측에 따르면, 영상 처리 장치가 원본 스트리밍 영상을 2배 이상의 낮은 해상도로 스트리밍을 제공하고, 영상 재생 장치가 인공 신경망 기반의 초해상화(Super-Resolution) 기반 복원을 통해 원본 영상을 유지함으로써 낮은 전송 용량을 갖는 네트워크 환경에서 고품질의 영상 스트리밍 서비스를 제공할 수 있다.
일 측에 따르면, 원본 영상의 각 프레임의 중요 영역에 대하여는 원본 해상도를 최대한 유지하고, 중요 영역을 제외한 나머지 영역은 다운 샘플링하여 라이브 스트리밍 서비스를 위한 영상의 용량을 감소시킬 수 있다.
일 측에 따르면, 스트리밍을 위한 서버에서 4 배 이상의 낮은 용량으로 스트리밍을 수행함으로써 HLS(HTTP Live Streaming) 서버의 사용 비용을 절감할 수 있다.
일 측에 따르면, 마스크 기반의 스케일링을 통해 낮은 용량으로 영상 데이터를 전송하고 수신함에 따라 데이터 전송 비용을 절감할 수 있다.
일 측에 따르면, 인공 신경망 기반으로 저해상도 영상을 고해상도 영상으로 복원하는 초고해상도(super-resolution; SR) 기술에 의해 원본 영상에서 복원이 잘되지 않는 영역은 원본 해상도를 최대한 유지하고, 나머지 복원이 잘되는 영역의 해상도는 다운스케일링을 통해 해상도를 낮춰 전송함으로써 원본 영상에서 중요 영역 또는 복원 시에 초고해상도의 퀄리티가 떨어지는 영역의 영상 품질을 보존할 수 있다.
도 1은 일 실시예에 따른 비디오 스트리밍 시스템의 구성 및 동작을 설명하기 위한 도면.
도 2는 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도.
도 3은 일 실시예에 따라 제2 영상을 기초로 리스케일링된 영상을 생성하는 방법을 설명하기 위한 도면.
도 4는 일 실시예에 따른 제2 영상의 일 예시를 도시한 도면.
도 5는 일 실시예에 따른 영상 처리 장치의 구성 및 동작을 설명하기 위한 도면.
도 6은 도 5에 도시된 복원 신경망의 구조 및 동작을 설명하기 위한 도면.
도 7은 일 실시예에 따른 영상 재생 방법을 나타낸 흐름도.
도 8은 일 실시예에 따른 영상 처리 장치의 블록도.
도 9는 일 실시예에 따른 영상 재생 장치의 블록도.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 일 실시예에 따른 비디오 스트리밍 시스템의 구성 및 동작을 설명하기 위한 도면이다. 도 1을 참조하면, 일 실시예에 따라 영상을 처리하는 장치(이하, '영상 처리 장치')(110), 스트리밍 서버(130) 및 영상을 재생하는 장치(이하, '영상 재생 장치')(150)를 포함하는 비디오 스트리밍 시스템(100)이 도시된다.
일 실시예에 따른 영상 처리 장치(110)는 방송 송출자 또는 제작자 단말로부터 원본 영상(111)를 수신한다. 원본 영상(111)은 예를 들어, 다양한 스트리밍 프로토콜(streaming protocol)을 통해 송출된 라이브 스트리밍 컨텐츠(live streaming contents) 또는 360도 컨텐츠 영상일 수 있다. 스트리밍 프로토콜은 오디오, 비디오 및 기타 데이터 등을 인터넷을 통해 스트리밍하는 데에 이용되는 프로토콜로서, 예를 들어, 리얼 타임 메시징 프로토콜(Real Time Messaging Protocol; RTMP)이나 HLS(HTTP Live Streaming) 등을 포함할 수 있다. 원본 영상(111)은 예를 들어, 폭(w) x 높이(h)의 크기를 갖는 영상일 수 있다. 이때, 폭(w)은 전체 컬럼(column)들이 폭 방향으로 차지하는 크기에 해당하고, 높이(h)는 전체 로우(row)들이 높이 방향으로 차지하는 크기에 해당할 수 있다. 본 명세서에서는 설명의 편의를 위해 원본 영상(111)은 '제1 영상'이라 부를 수 있다. 이하, '원본 영상'과 '제1 영상'은 서로 동일한 의미로 이해될 수 있다.
영상 처리 장치(110)는 실시간 다운스케일링(Down Scaling) 모듈(120)을 포함한다. 영상 처리 장치(110)는 실시간 다운스케일링(Down Scaling) 모듈(120)에 포함된 신경망에 의해 원본 영상에 대한 중요도 정보를 획득하고, 중요도 정보를 기초로 결정된, 원본 영상(111)의 적어도 하나의 영역에 대응하는 마스크에 따라 제1 영상을 인코딩하여 스케일링된 영상, 즉 제2 영상을 생성할 수 있다. 이하 설명의 편의를 위하여 라이브 영상을 '실시간으로' 처리하는 경우의 동작을 설명하나, 아래에서 설명하는 실시예들은 VOD 영상을 처리하는 경우에도 실질적으로 동일하게 적용될 수 있다. 이 경우 실시간 다운스케일링 모듈(120)은 다운스케일링 모듈로 지칭될 수 있다.
경우에 따라, 영상 처리 장치(110)는 중요 영역 지정 모듈(115)을 더 포함할 수 있다. 중요 영역 지정 모듈(115)은 원본 영상(111)의 각 프레임의 적어도 하나의 영역에 대응하는 중요도 정보('제1 중요도 정보')를 방송 송출자 또는 제작자로부터 직접 설정받을 수 있다. 여기서, '중요도 정보'는 원본 영상(111)의 복수의 프레임들에 포함된 영역(들)의 중요도를 지시하는 정보일 수 있다. 중요도 정보는 예를 들어, 원본 영상(111)에서 주인공, 주요 사건, 중요한 물건 등과 같이 제작자에 의해 중요한 것으로 설정된 영역, 다시 말해 중요 영역에 대한 중요도를 나타내는 정보를 포함할 수 있다. 제작자는 예를 들어, 원본 영상(111)의 중요 영역에 마스크(mask)를 지정함으로써 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 영상 처리 장치(110)에게 제공할 수 있다. 제작자는 예를 들어, 원본 영상(111)에 대한 마우스 클릭(mouse click) 및/또는 드래깅(dragging) 등의 동작을 통해 적어도 하나의 영역에 대해 마스크를 설정할 수 있다. 이하, 설명의 편의를 위하여, 중요 영역 지정 모듈(115)을 통해 제작자에 의해 설정된 중요도 정보를 '제1 중요도 정보'라 부르기로 한다.
실시간 다운스케일링(Down Scaling) 모듈(120)은 중요 영역 지정 모듈(115)과 달리, 원본 영상(111)의 각 프레임의 적어도 하나의 영역에 대응하는 중요도 정보를 미리 학습된 신경망에 의해 자동적으로 설정한다.
실시간 다운스케일링 모듈(120)은 리얼 타임 메시징 프로토콜(Real Time Messaging Protocol; 이하 'RTMP') 서버(113)와 같은 영상 수집 서버를 통해 원본 영상(111)를 수신할 수 있다. RTMP 서버(113)은 예를 들어, 라이브 스트림 프로토콜을 통해 송출된 방송(예를 들어, 원본 영상(111) 또는 소스 비디오(Source Video))을 수집할 수 있다.
실시간 다운스케일링 모듈(120)은 미리 학습된 신경망에 의해 RTMP 서버(113)에서 수집된 방송 영상(예를 들어, 원본 영상(111))에 대하여 자동으로 중요도 정보('제2 중요도 정보')를 설정할 수 있다. 이때, 중요도 정보는 예를 들어, 실시간 다운스케일링 모듈(120)에 의해 다운스케일링된 영상('제2 영상')의 각 프레임의 적어도 하나의 영역을 미리 학습된 신경망에 의해 복원한 결과에 따른 정확도 맵(accuracy map)에 기초하여 결정될 수 있다. 아래에서 구체적으로 설명하겠지만, 정확도 맵은 다운스케일링된 영상의 적어도 하나의 영역을 신경망에 의해 복원한 경우에 해당 영역의 복원 정확도를 나타내는 맵으로 이해될 수 있다. 본 명세서에서는 설명의 편의를 위하여 실시간 다운스케일링 모듈(120)에 의해 다운스케일링된 영상은 '제2 영상'이라 부를 수 있다. 이하, 스케일링된 영상(또는 리스케일링된 영상)과 제2 영상은 동일한 의미로 이해될 수 있다.
예를 들어, 신경망에 의한 해당 영역의 복원 정확도가 높은 경우, 실시간 다운스케일링 모듈(120)은 해당 영역의 중요도를 낮게 설정할 수 있다. 또한, 신경망에 의한 해당 영역의 복원 정확도가 낮은 경우, 실시간 다운스케일링 모듈(120)은 해당 영역의 중요도를 높게 설정할 수 있다. 중요도 정보는 이와 같이 해당 영역의 복원 정확도에 따라 서로 다른 값으로 설정될 수 있다. 이하, 설명의 편의를 위하여, 실시간 다운스케일링 모듈(120)에 의해 결정된 중요도 정보를 '제2 중요도 정보'라고 부르기로 한다.
실시간 다운스케일링 모듈(120)은 예를 들어, 실시간 중요도 추정 모듈(121), 실시간 중요도 기반 다운스케일링 모듈(123), 및 인코딩 모듈을 포함할 수 있다. 인코딩 모듈을 예를 들어, HLS 인코딩(HTTP Live Streaming(HLS) Encoding) 모듈(125)을 포함할 수 있다.
실시간 중요도 추정 모듈(121)은 RTMP 서버(113)로부터 수신한 원본 영상(111)의 중요도 정보를 추정 또는 결정할 수 있다. 실시간 중요도 추정 모듈(121)은 원본 영상(111)의 중요도 정보를 실시간으로 획득할 수 있다. 예를 들어, 원본 영상(111)이 라이브 영상인 경우, 실시간 중요도 추정 모듈(121)은 제 2 영상을 미리 학습된 신경망에 의해 복원한 결과에 기초하여 해당 영상의 적어도 하나의 영역에 대응하는 중요도 정보를 실시간으로 획득할 수 있다. 신경망은 예를 들어, 원본 영상(111)을 다운스케일링한 제2 영상에 대응하는 복원 영상을 생성하도록 미리 학습된 신경망일 수 있다. 신경망은 예를 들어, 컨볼루션 레이어(Convolution Layer)를 포함하는 심층 신경망(Deep Neural Network)일 수도 있다. 신경망은 예를 들어, 아래의 도 6에 도시된 복원 신경망(610)일 수 있다.
실시간 중요도 기반 다운스케일링 모듈(123)은 실시간 중요도 추정 모듈(121)에 의해 결정된 중요도 정보('제2 중요도 정보')에 기초하여 원본 영상의 적어도 하나의 영역에 대응하는 스케일링 정도를 나타내는 마스크를 결정할 수 있다. 여기서, 스케일링 정도는 원본 영상의 각 영역의 압축률 또는 해상도라고도 부를 수 있다. 스케일링 정도는 예를 들어, 원본 영상의 1배, 1/2배, 및 1/4배 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 예를 들어, 제1 마스크는 원본 영상의 1배의 스케일링 정도를 나타내는 마스크이고, 제2 마스크는 원본 영상의 1/2배 스케일링 정도를 나타내는 마스크이며, 제3 마스크는 원본 영상의 1/4배의 스케일링 정도를 나타내는 마스크일 수 있다. 마스크는 예를 들어, 마스크 파일일 수 있다.
실시간 중요도 기반 다운스케일링 모듈(123)은 중요도 정보에 따라 원본 영상(111)에서 해당 영역이 중요 영역으로 결정되는 경우, 해당 영역의 제1 마스크의 마스크 정보를 예를 들어, '1'로 설정할 수 있다. 또는 실시간 중요도 기반 다운스케일링 모듈(123)은 중요도 정보에 따라 원본 영상에서 해당 영역이 중요 영역에 해당하지 않는 경우, 중요도 정보에 따라 해당 영역의 제2 마스크 또는 제3 마스크의 마스크 정보를 '1' 또는 '0'로 설정할 수 있다.
HLS 인코딩 모듈(125)은 실시간 중요도 기반 다운스케일링 모듈(123)에서 설정된 마스크의 마스크 정보에 따라 원본 영상(111)을 인코딩 함으로써 스케일링된 영상(scaled image)을 생성할 수 있다. 스케일링된 영상(scaled image)은 예를 들어, 실시간 중요도 기반 다운스케일링 모듈(123)에서 설정된 마스크에 따라 서로 다른 해상도들(예를 들어, 1080p, 720p, 480p 등)로 인코딩된 스트리밍 서비스를 위한 영상일 수 있다. 여기서, 스트리밍 서비스는 예를 들어, 실시간(live) 방송을 위한 스트리밍 서비스, VOD 재생을 위한 스트리밍 서비스 등을 포함할 수 있으며, 반드시 이에 한정되지는 않는다. 제2 영상은 예를 들어, 아래 도 4의 제2 영상(400)과 같이 영상 프레임의 영역들의 스케일링 정도 또는 해상도가 중요도 정보에 따라 서로 달리 설정된 저해상도 비디오 영상일 수 있다.
실시간 다운스케일링 모듈(120)이 제1 영상으로부터 다운스케일링된 제 2 영상을 기초로 리스케일링된 영상을 생성하는 과정은 아래의 도 3을 참조하여 구체적으로 설명한다. 또한, 실시간 다운스케일링 모듈(120)의 각 모듈의 동작은 아래의 도 5를 참조하여 보다 구체적으로 설명한다.
일 실시예에 따른 영상 처리 장치(110)는 원본 영상(111)에서 중요 영역의 원본 해상도를 유지하는 다운스케일링을 통해 낮은 네트워크 환경에서도 고품질의 영상 스트리밍 서비스를 제공할 수 있다. 보다 구체적으로, 영상 처리 장치(110)는 원본 영상(111)의 각 프레임의 중요 영역에 대하여는 원본 해상도를 최대한 유지하고, 중요 영역을 제외한 나머지 영역은 다운 샘플링하여 라이브 스트리밍 서비스를 위한 영상의 용량을 감소시킬 수 있다. 예를 들어, 영상 제작자가 360도 영상을 라이브 스트림 프로토콜을 통해 송출하면, 영상 처리 장치(110)는 컨텐츠 내 중요 영역의 해상도를 최대한 보존하는 다운스케일링(Down-scaling)을 실시간으로 수행할 수 있다.
스트리밍 서버(130)는 영상 처리 장치(110)로부터 수신한 적어도 하나의 마스크 및 제2 영상을 영상 재생 장치(150)들에게 전달할 수 있다. 스트리밍 서버(130)는 예를 들어, 부하 분산(load balancing)을 위한 복수의 가상 머신들(Virtual Machines)을 포함할 수 있다. 스트리밍 서버(130)는 필요 시에 가상 서버(또는 가상 머신)(들)를 구동할 수 있으며, 원하는 만큼 가상 서버(들)의 개수를 늘려 다채널 라이브 스트리밍 서비스를 제공할 수도 있다.
스트리밍 서버(130)는 예를 들어, 영상을 시청하는 시청자들의 수, 다시 말해 영상 재생 장치(150)들의 수에 따라 가상 머신들의 개수를 조정할 수 있다. 각 가상 머신은 예를 들어, HTTP Request를 처리하는 서버 역할을 수행할 수 있다. 스트리밍 서버(130)를 통해 영상 재생 장치(150)로 분배된 영상은 예를 들어, 컨텐츠 전송 네트워크(Content Delivery Network; CDN)를 통해 영상 재생 장치(150)에게 전달됨으로써 사용자에게 라이브 스트리밍 서비스를 제공하는 데에 이용될 수 있다. 마스크는 스트리밍을 위한 청크(chunk) 단위로 설정될 수 있다. 물론 단일 청크 내에서 장면(scene)의 변화가 존재하는 경우, 해당 청크에는 하나 이상의 마스크가 설정될 수도 있다. 또는, 시간의 흐름에 따라 마스크가 급격하게 변하지 않도록 스무딩(smoothing) 기법이 적용될 수도 있다.
영상 재생 장치(150)는 스트리밍 서버(130)를 통해 수신한 적어도 하나의 마스크 및 제2 영상을 포함하는 영상 정보를 기초로, 미리 학습된 신경망(151)을 이용하여 제2 영상을 복원할 수 있다. 이때, 적어도 하나의 마스크는 예를 들어, 제2 영상의 복수의 영역들에 대응하는 마스크 파일일 수 있다. 영상 재생 장치(150)는 복원된 영상을 디스플레이 장치(153)를 통해 재생할 수 있다. 일 실시예에 따른 영상 재생 장치(150)는 예를 들어, 인공 신경망 기반의 비디오 플레이어 혹은 비디오 플레이어를 포함하는 사용자 장치로서 단수 개일 수도 있고, 또는 복수 개일 수도 있다. 영상 재생 장치(150)의 동작은 아래의 도 7을 참조하여 구체적으로 설명한다.
서버의 실시간 다운스케일링 모듈(120)에서 이용하는 신경망과 클라이언트의 영상 재생 장치(150)에서 이용하는 신경망은 동일한 것일 수 있다. 신경망은 다운스케일링된 영상과 마스크를 입력 받아, 다운스케일링된 영상을 복원(예를 들어, 업스케일링)하는 동작을 수행할 수 있다. 이 때, 서버 혹은 클라이언트는 다운스케일링된 영상과 마스크를 결합(concatenation)하여 신경망에 입력할 수 있다.
도 2는 일 실시예에 따른 영상 처리 방법을 나타낸 흐름도이다. 도 2를 참조하면, 일 실시예에 따른 영상 처리 장치는 복수의 프레임들을 포함하는 제1 영상을 수신한다(210).
영상 처리 장치는 복수의 프레임들에 포함된 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 획득한다(220). 단계(220)에서, 영상 처리 장치는 예를 들어, 제1 영상의 제작자 단말로부터, 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 설정된 제1 중요도 정보를 수신할 수 있다. 또는 영상 처리 장치는 예를 들어, 제2 영상의 각 프레임의 적어도 하나의 영역을 미리 학습된 신경망에 의해 복원한 결과에 따른 정확도 맵(accuracy map)에 기초하여 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 결정된 제2 중요도 정보를 획득할 수 있다. 여기서, 신경망은 제2 영상과 제2 영상에 대응하는 제1 마스크 정보, 제2 마스크 정보 및 제3 마스크 정보 중 적어도 하나의 마스크가 결합된(concatenated) 결합 영상을 기초로, 제2 영상에 대응하는 복원 영상(reconstructed image)을 생성하도록 학습된 신경망일 수 있다. 신경망은 예를 들어, 제2 영상에 대응하는 정답(ground truth) 영상과 복원 영상 간의 로스 함수를 최소화하도록 학습될 수 있다.
일 실시예에 따른 영상 처리 장치가 제2 중요도 정보를 획득하는 방법은 다음과 같다. 영상 처리 장치는 예를 들어, 제2 영상의 각 프레임의 적어도 하나의 영역을 미리 학습된 신경망에 의해 복원한 결과와 제2 영상 각 프레임의 적어도 하나의 영역에 대응하는 정답 영상 간의 차이에 기초하여 정확도 맵(accuracy map)을 생성할 수 있다. 영상 처리 장치는 정확도 맵에 기초하여 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 제2 중요도 정보를 결정할 수 있다.
영상 처리 장치는 예를 들어, 아래의 도 4와 같이 복수의 프레임들 각각을, 복수의 프레임들 각각의 적어도 하나의 영역에 대응하는 그리드(grid)들로 분할하고, 복수의 그리드들에 대응하는 영역의 중요도 정보를 획득할 수 있다.
영상 처리 장치는 단계(220)에서 획득한 중요도 정보에 기초하여 제1 영상의 적어도 하나의 영역에 대응하는 스케일링(scaling) 정도를 나타내는 적어도 하나의 마스크를 결정한다(230). 영상 처리 장치는 중요도 정보에 기초하여, 제1 영상의 적어도 하나의 제1 영역의 해상도가 유지되고, 제1 영역을 제외한 나머지 영역들의 해상도가 다운 샘플링(down-sampling) 되도록, 적어도 하나의 마스크 및 적어도 하나의 마스크의 마스크 정보를 결정할 수 있다.
단계(220)에서 제1 중요도 정보를 수신한 경우, 영상 처리 장치는 예를 들어, 제2 중요도 정보와 무관하게, 제1 중요도 정보에 따라 제1 영상의 제1 영역에 대한 적어도 하나의 마스크를 결정할 수 있다. 영상 처리 장치는 제1 영역에 대한 제1 마스크의 마스크 정보를 예를 들어, 제1 값('1')으로 결정할 수 있다. 또는 단계(220)에서 제2 중요도 정보를 획득한 경우, 영상 처리 장치는 제1 영역을 제외한 나머지 영역들에 대한 마스크들(예를 들어, 제1 마스크, 제2 마스크 및 제3 마스크) 및 해당 마스크의 마스크 정보를 제2 중요도 정보에 따라 결정할 수 있다. 영상 처리 장치는 제1 영역을 제외한 나머지 영역에 대한 마스크를 제2 중요도 정보에 따라 제1 마스크, 제2 마스크 및 제3 마스크 중 어느 하나의 마스크로 결정하고, 결정된 마스크의 마스크 정보를 설정할 수 있다.
단계(220)에서 제2 중요도 정보를 획득한 경우, 영상 처리 장치는 예를 들어, 제2 중요도 정보를 정렬(sorting)하고, 정렬된 제2 중요도 정보를 기초로, 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 적어도 하나의 마스크를 결정할 수 있다. 보다 구체적으로, 영상 처리 장치는 정렬된 제2 중요도 정보에 따라 제1 영상에서 제1 영역의 제1 해상도가 제1 영상의 원본 해상도로 설정되도록 제1 영역에 대응하는 마스크를 제1 마스크로 결정할 수 있다. 영상 처리 장치는 정렬된 제2 중요도 정보에 따라 제1 영상에서 제1 영역을 제외한 제2 영역이 제1 해상도보다 낮은 제2 해상도로 다운 샘플링을 되도록 제2 영역에 대한 마스크를 제2 마스크로 결정할 수 있다. 영상 처리 장치는 정렬된 제2 중요도 정보에 따라 제1 영상에서 제1 영역 및 제2 영역을 제외한 나머지 제3 영역이 제2 해상도보다 낮은 제3 해상도로 다운 샘플링 되도록 제3 영역에 대한 마스크를 제3 마스크로 결정할 수 있다.
영상 처리 장치는 예를 들어, 제2 영상의 용량이 제1 영상을 미리 정해진 비율(예를 들어, x1/2)로 다운스케일링한 용량과 동일하게 유지되도록, 중요도 정보에 기초하여 제1 영상의 복수의 프레임들에 포함된 적어도 하나의 영역의 적어도 하나의 마스크를 결정할 수 있다. 영상 처리 장치는 예를 들어, 하나의 영역을 x1/2->x1로 설정하면서, 네 개의 영역들을 x1/2->x1/4로 설정함으로써, 전체 영역들이 x1/2로 균일하게 다운스케일링되는 용량이 유지되도록 할 수 있다.
단계(230)에서, 영상 처리 장치는 예를 들어, 중요도 정보에 기초하여, 제1 영상의 각 프레임(frame) 별로 적어도 하나의 마스크를 결정할 수 있다. 또는 영상 처리 장치는 중요도 정보에 기초하여, 제1 영상의 복수의 프레임들을 포함하는 청크(chunk) 별로 적어도 하나의 마스크를 결정할 수 있다. 청크는 예를 들어, 512개의 프레임들을 포함할 수 있다.
영상 처리 장치는 적어도 하나의 마스크에 따라 제1 영상을 인코딩 함으로써 제2 영상을 생성한다(240). 제1 영상은 예를 들어, 적어도 하나의 마스크를 기초로 제1 영역, 제2 영역 및 제3 영역 중 적어도 하나의 영역으로 구분될 수 있다. 예를 들어, 영상 처리 장치는 제1 영역에 대응하는 제1 마스크에 기초하여 제1 영역을 인코딩(encoding)할 수 있다. 영상 처리 장치는 제2 영역에 대응하는 제2 마스크에 기초하여, 제2 영역을 인코딩할 수 있다. 또한, 영상 처리 장치는 제3 영역에 대응하는 제3 마스크에 기초하여 제3 영역을 인코딩할 수 있다.
영상 처리 장치는 단계(230)에서 결정한 적어도 하나의 마스크 및 단계(240)에서 생성한 제2 영상을 출력한다(250).
도 3은 일 실시예에 따라 제2 영상을 기초로 리스케일링된 영상을 생성하는 방법을 설명하기 위한 도면이고, 도 4는 일 실시예에 따른 제2 영상의 일 예시를 도시한 도면이다. 리스케일링된 영상은 마스크와 함께 신경망에 입력될 수 있다.
일 실시예에 따른 영상 처리 장치는 예를 들어, 원본 영상(310)을 각각 1배(x1), 1/2배(x1/2), 1/4배(x1/4)의 크기로 다운스케일링(Downscaling)하여 다운스케일링된 영상들(Down-Scaled images)(320, 340, 360)을 생성할 수 있다. 영상 처리 장치는 원본 영상(310)을 다운스케일링하기 위하여, 기존에 알려진 다양한 기법들(예를 들어, 바이리니어(bilinear) 기법, 및 바이큐빅(bicubic) 보간 기법 등) 중 적어도 하나를 이용할 수 있다. 바이리이너 기법은 예를 들어, 내삽점 주위 4개의 화소값들의 평균값을 새로운 화소값으로 할당함으로써 영상을 다운 스케일할 수 있다. 또한, 바이큐빅 보간 방법은 예를 들어, 2 차원 규칙 그리드에서 데이터 포인트를 보간하기 위한 3 차 보간의 확장으로서, 라그랑지(Lagrange) 다항식, 입방 스플라인 또는 입방 컨볼루션 알고리즘을 사용하여 수행될 수 있다.
이후, 영상 처리 장치는 다운스케일링된 영상들(320, 340, 360) 각각을 다시 1배(x1), 2배(x2), 4배(x4)의 크기로 업스케일링(Upscaling)하여 업스케일링된 영상들(Up-Scaled images)(325, 345, 365)을 생성할 수 있다. 영상 처리 장치는 다운스케일링된 영상들(340, 360)을 업스케일링하기 위하여, 기존에 알려진 다양한 기법들(예를 들어, 바이리니어(bilinear) 기법, 및 바이큐빅(bicubic) 보간 기법 등) 중 적어도 하나를 이용할 수 있다. 설명의 편의를 위하여 도 3에 도시하였으나, 1배 다운스케일링된 영상(320) 및 1배 업스케일링된 영상(325)은 원본 영상(310)과 동일하며, 1배 다운스케일링된 영상(320) 및 1배 업스케일링된 영상(325)을 생성하기 위한 별도의 작업을 수행하지 않을 수 있다.
영상 처리 장치는 전술한 과정에서 원본 영상(310)에 대응하는 중요도 정보에 기초하여 각 영역에 대응하는 적어도 하나의 마스크를 결정하고, 결정된 마스크를 업스케일링된 영상들(Up-Scaled images)(325, 345, 365) 각각에 곱하여 리스케일링된 영상(Rescaled Image)(380)을 생성할 수 있다.
보다 구체적으로, 영상 처리 장치는 중요도 정보에 기초한 결정에 따라 업스케일링된 영상(325)에 제1 마스크(330)를 곱하고, 업스케일링된 영상(345)에 제2 마스크(350)를 곱할 수 있다. 또한, 영상 처리 장치는 업스케일링된 영상(365)에 제3 마스크(370)를 곱할 수 있다. 이때, 각 마스크의 마스크 정보(예를 들어, 마스크 파일의 픽셀 값)은 예를 들어, 0 또는 1의 값을 가질 수 있다. 또한, 동일 좌표의 픽셀에 대응하여, 마스크 정보 중 하나만 1의 값을 가지고, 나머지 마스크 정보는 0의 값을 가질 수 있다. 예를 들어, Mask 1(x, y) + Mask 2(x, y) + Mask 3(x , y) = 1과 같이 원본 영상(310)의 각 프레임의 적어도 하나의 영역에 대응하는 픽셀의 스케일링 정도를 나타낼 수 있다. 여기서, (x, y)는 원본 영상(310)의 픽셀의 좌표에 대응하는 마스크 정보의 좌표에 해당할 수 있다.
따라서, 리스케일링된 영상(380)은 예를 들어, 아래의 도 4에 도시된 제2 영상(400)과 같이 부분적으로 원본 영상의 해상도를 가지는 제1 영역(450), 1/2로 다운스케일링된 해상도를 가지는 제2 영역(430), 및 1/4로 다운스케일링된 해상도를 가지는 제3 영역(410)을 포함하는 형태를 가질 수 있다. 이때 각 영역에 대응하는 마스크는 예를 들어, 영상 제작자에 의해 설정된 중요 영역으로 설정된 영역의 중요도 정보(예를 들어, 제1 중요도 정보)에 의해 결정된 것일수도 있고, 또는 해당 영역을 미리 학습된 신경망에 의해 복원한 결과에 따른 정확도 맵(accuracy map)에 기초하여 획득된 중요도 정보(예를 제2 중요도 정보)에 의해 결정된 것일 수 있다.
이와 같이, 제2 영상(400)의 각 영역은 해당 영역의 중요도 정보에 따라 서로 다르게 스케일링되고, 해당하는 스케일링 정보는 마스크에 의하여 지시될 수 있다.
도 5는 일 실시예에 따른 영상 처리 장치의 구성 및 동작을 설명하기 위한 도면이다. 도 5를 참조하면, 일 실시예에 따른 영상 처리 장치(110)의 실시간 다운스케일링 모듈(500)의 구조 및 동작이 도시된다.
실시간 다운스케일링 모듈(500)은 실시간 정확도 추정 모듈(510), 정확도 기반 마스크 생성 모듈(530) 및 HLS 인코딩 모듈(550)을 포함할 수 있다.
실시간 정확도 추정 모듈(510)은 다운스케일링된 제2 영상을 복원하는 마스크 기반의 복원 네트워크(513)을 포함할 수 있다. 복원 네트워크(513)는 '복원 신경망'이라고도 부를 수 있다.
복원 네트워크(513)은 예를 들어, 원본 영상에 비해 x1/2의 해상도를 갖도록 다운스케일링된 영상(511)을 복원 영상(514)으로 복원할 수 있다. 이 때, 마스크는 x1/2에 대응하여 모두 1의 값을 가지고, x1과 x1/4에 대응하여 모두 0의 값을 가질 수 있다. 또한, 복원 네트워크(513)은 예를 들어, 원본 영상에 비해 x1/4의 해상도를 갖도록 다운스케일링된 영상(517)을 복원 영상(518)으로 복원할 수 있다. 이 때, 마스크는 x1/4에 대응하여 모두 1의 값을 가지고, x1과 x1/2에 대응하여 모두 0의 값을 가질 수 있다. 복원 네트워크(513)은 하나의 단일 신경망일 수 있다.
실시간 정확도 추정 모듈(510)은 복원 네트워크(513)을 통해 복원된 복원 영상(514)과 다운스케일링된 영상(511)에 대응하는 정답 영상(515) 간의 차이를 기초로 정확도 맵(x2)(516)을 생성할 수 있다. 여기서, 정답 영상(515)은 원본 영상에 해당할 수 있다. 여기서, 정확도 맵(x2)(516)는 다운스케일링된 영상(511)을 복원 네트워크(513)을 이용하여 x2로 복원(혹은 업스케일링)한 영상의 정확도를 나타내는 정확도 맵으로 이해될 수 있다. 실시간 정확도 추정 모듈(510)은 정확도 맵(x2)(516)에 기초하여 원본 영상에서 x1/2의 해상도를 갖도록 다운스케일링된 적어도 하나의 영역에 대응하는 제2 중요도 정보를 추정할 수 있다.
또한, 실시간 정확도 추정 모듈(510)은 복원 네트워크(513)을 통해 복원된 복원 영상(518)과 다운스케일링된 영상(517)에 대응하는 정답 영상(519) 간의 차이를 기초로 정확도 맵(x4)(520)을 생성할 수 있다. 여기서, 정답 영상(519)은 원본 영상에 해당할 수 있다. 여기서, 정확도 맵(x4)(520)은 다운스케일링된 영상(517)을 복원 네트워크(513)을 이용하여 x4로 복원(혹은 업스케일링)한 영상에 의해 생성된 정확도 맵으로 이해될 수 있다. 실시간 정확도 추정 모듈(510)은 정확도 맵(x4)(516)에 기초하여 원본 영상에서 x1/4의 해상도를 갖도록 다운스케일링된 적어도 하나의 영역에 대응하는 제2 중요도 정보를 추정할 수 있다. 복원 네트워크(513)의 구조 및 동작은 아래 도 6의 복원 신경망(610)을 참조하여 보다 구체적으로 설명한다.
정확도 기반 마스크 생성 모듈(530)은 각 정확도 맵에 기초하여 추정된 제2 중요도 정보를 정렬(sorting)(531)할 수 있다. 정확도 기반 마스크 생성 모듈(530)은 정렬된 제2 중요도 정보를 기초로, 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 마스크를 결정할 수 있다.
예를 들어, 정확도 기반 마스크 생성 모듈(530)은 정렬된 제2 중요도 정보에 따라 제1 영상에서 제1 영역의 제1 해상도가 제1 영상의 원본 해상도로 설정되도록 제1 영역에 대한 마스크(Mask 1)(533)를 결정할 수 있다. 정확도 기반 마스크 생성 모듈(530)은 제1 영역을 제외한 제2 영역이 제1 해상도보다 낮은 제2 해상도로 다운 샘플링을 되도록 제2 영역에 대한 마스크(Mask 2)(535)를 결정할 수 있다. 또한, 정확도 기반 마스크 생성 모듈(530)은 정렬된 제2 중요도 정보에 따라 제1 영역 및 제2 영역을 제외한 나머지 제3 영역이 제2 해상도보다 낮은 제3 해상도로 다운 샘플링되도록 제3 영역에 대한 마스크(Mask 3)(537)를 결정할 수 있다.
예를 들어, 영상에서 A 영역에 대한 제1 마스크의 마스크 정보가 '1'인 경우, 해당 영역의 제2 마스크의 마스크 정보는 및 제3 마스크의 마스크 정보는 '0'될 수 있다. 이와 같이 정확도 기반 마스크 생성 모듈(530)은 영상의 일정 영역에 하나의 마스크만이 적용되도록 마스크 정보를 설정할 수 있다.
정확도 기반 마스크 생성 모듈(530)은 예를 들어, 하나의 제1 그리드(Grid) 영역의 정확도 맵(x2)(516)의 차이(Difference) 값이 네 개의 제2 그리드 영역들의 정확도 맵(x4)(520)의 차이 값들의 평균보다 클 경우, 제1 그리드 영역의 마스크(Mask 1)(533)의 마스크 정보를 '1'로 설정하고, 제2 그리드 영역들의 마스크(Mask 3)(537)의 마스크 정보를 '1'로 설정할 수 있다. 제1 그리드 영역과 제2 그리드 영역들은 서로 다른 영역에 해당한다. 정확도 기반 마스크 생성 모듈(530)은 위 과정을 반복적으로 수행한 뒤, Mask 2(x, y) = 1 - Mask 1(x,y) - Mask 3(x,y)를 통해 나머지 그리드 영역의 마스크(Mask 2)(535)를 결정할 수 있다.
실시간 다운스케일링 모듈(500)은 정확도 기반 마스크 생성 모듈(530)에 의해 설정된 각 영역에 대응하는 마스크들(533, 535, 537)과 원본 영상(539)을 활용하여 리스케일링된 영상(Rescaled Image)을 생성할 수 있다. 실시간 다운스케일링 모듈(500)은 원본 영상(539)에 대한 리스케일링(Rescaling)을 수행하여 예를 들어, 도 3을 통해 전술한 것과 같이 리스케일링된 영상(380)을 생성할 수 있다.
HLS 인코딩 모듈(550)은 해당 리스케일링된 영상 시퀀스의 HLS 인코딩을 수행할 수 있다. HLS 인코딩 모듈(550)은 정확도 기반 마스크 생성 모듈(530)에 의해 설정된 각 영역의 마스크 정보에 따라 리스케일링된 영상을 인코딩 할 수 있다. 그 결과, 예를 들어, 마스크 정보에 따라 프레임의 각 영역이 서로 다른 해상도들(예를 들어, 1080p, 720p, 480p 등)로 인코딩된 스트리밍 서비스를 위한 영상이 생성될 수 있다. HLS 인코딩 모듈(550)의 동작은 도 1을 통해 전술한 HLS 인코딩 모듈(125)에 해당할 수 있다.
도 6은 도 5에 도시된 복원 신경망의 구조 및 동작을 설명하기 위한 도면이다. 도 6을 참조하면, 일 실시예에 따른 초해상화(Super Resolution; SR) 기반의 복원 신경망의 학습 방법이 도시된다.
영상 처리 장치는 학습 영상 및 학습 영상에 대응하는 적어도 하나의 마스크를 수신한다. 학습 과정에서 이용되는 적어도 하나의 마스크는 랜덤하게 설정된 것일 수 있다. 영상 처리 장치는 예를 들어, 복원 신경망(610)의 Residual Block들(613)을 이용한 Skip Connection(또는 Shortcut connection)을 통해 복원 신경망(610)을 학습할 수 있다. 복원 신경망(610)은 예를 들어, Convolutional Neural Network(CNN) 중 하나인 Residual Networks(ResNet)일 수 있다. 복원 신경망(610)에서 Residual Block들(613)은 계층의 활성화가 신경망에서 더 깊은 계층으로 빨리 전달되도록 하며, 이러한 간단한 조정을 통해 훨씬 더 깊은 신경망을 트레이닝할 수 있다. Skip Connection을 적용하여 복원 신경망(610)을 학습하는 경우, 역전파(back propagation) 과정에서 identity mapping(x)를 미분하면 적어도 1이상의 값이 나오기 때문에 복원 신경망(610)의 계층이 깊어지더라도 안정적으로 학습이 가능해진다.
보다 구체적으로, 복원 신경망(610)에 (리)스케일링된 영상(601) 및 (리)스케일링된 영상(601)에 대응하는 제1 마스크(603), 제2 마스크(605) 및 제3 마스크(607) 중 적어도 하나의 마스크가 결합된(concatenated) 결합 영상(609)이 인가되었다고 하자.
복원 신경망(610)은 결합 영상(609)을 기초로 (리)스케일링된 영상(601)에 대응하는 복원 영상(reconstructed image)(630)을 생성하도록 학습될 수 있다. 이때, 복원 신경망(610)은 (리)스케일링된 영상(601)의 원본 영상인 정답(ground truth) 영상(635)과 복원 신경망(610)을 통해 실제 복원된 복원 영상(630) 간의 로스 함수(loss function)에 기초하여 학습될 수 있다. 복원 신경망(610)은 로스 함수를 최소화하는 방향으로 학습될 수 있다.
일 실시예에서는 속도 향상을 위해 예를 들어, Inv Pixel Shuffle 모듈(611)을 통해 낮은 차원(dimension)에서 복원 신경망(610)을 학습할 수 있다. Inv Pixel Shuffle 모듈(611)은 예를 들어, F(Feature Channel Size) * W(Width) * H(Height) Dimension을 F*4(Feature Channel Size) * W/2(Width) * H/2(Height) Dimension으로 낮추어 계산할 수 있다. 이를 통해, 계산 시간은 대략 W*H 에서 (W/2) * (H/2)로 감소할 수 있다.
복원 신경망(610)의 학습 시에 마스크 및 해당 마스크에 대응하는 마스크 정보들(예를 들어, 마스크 파일의 픽셀 값)은 랜덤(random)하게 생성될 수 있다.
영상 처리 장치는 도 6과 같이 학습된 복원 신경망(610)을 기반으로 실제 스트리밍 수행 시에 원본 영상의 각 프레임의 적어도 하나의 영역에 대응하여 결정된 제2 중요도 정보를 획득할 수 있다.
도 7은 일 실시예에 따른 영상을 복원하는 방법을 나타낸 흐름도이다. 도 7을 조하면, 일 실시예에 따른 영상 재생 장치는 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 영상의 복수의 영역들에 대응하는 마스크 정보를 포함하는 영상 정보를 획득한다(710).
영상 재생 장치는 단계(710)에서 획득한 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 영상을 복원한다(720). 영상 재생 장치는 영상 정보로부터 적어도 하나의 마스크를 추출할 수 있다. 영상 재생 장치는 추출한 적어도 하나의 마스크를 기초로, 신경망을 이용하여 영상을 복원할 수 있다. 이때, 신경망은 예를 들어, 영상 및 영상에 대응하는 적어도 하나의 마스크를 기초로, 영상에 대응하는 복원 영상을 생성하도록 학습된 신경망일 수 있다.
영상 재생 장치는 단계(720)에서 복원된 영상을 재생한다(730). 영상 재생 장치는 단계(720)에서 복원된 영상을 예를 들어, 디스플레이(도 9의 970참조)를 통해 재생할 수 있다.
도 8은 일 실시예에 따른 영상 처리 장치의 블록도이다. 도 8을 참조하면, 일 실시예에 따른 영상 처리 장치(이하, '영상 처리 장치')(800)는 통신 인터페이스(810) 및 프로세서(830)를 포함한다. 영상 처리 장치(800)는 메모리(850)를 더 포함할 수 있다. 통신 인터페이스(810), 프로세서(830) 및 메모리(850)는 통신 버스(805)를 통해 서로 통신할 수 있다.
통신 인터페이스(810)는 복수의 프레임들을 포함하는 제1 영상을 수신한다. 통신 인터페이스(810)는 프로세서(830)가 결정한 적어도 하나의 마스크 및 프로세서(830)가 생성한 제2 영상을 출력한다.
프로세서(830)는 복수의 프레임들에 포함된 적어도 하나의 영역의 중요도를 지시하는 중요도 정보를 획득한다. 프로세서(830)는 중요도 정보에 기초하여 제1 영상의 적어도 하나의 영역에 대응하는 스케일링 정도를 나타내는 적어도 하나의 마스크를 결정한다. 프로세서(830)는 적어도 하나의 마스크에 따라 제1 영상을 인코딩한다.
메모리(850)는 통신 인터페이스(810)를 통해 수신한 제1 영상을 처리하기 위하여, 제1 영상을 적어도 일시적으로 저장할 수 있다. 메모리(850)는 프로세서(830)가 제1 영상의 적어도 하나의 영역에 대응하여 획득한 중요도 정보를 저장할 수 있다. 또한, 메모리(850)는 프로세서(830)가 결정한 마스크 정보 및/또는 프로세서(830)가 생성한 제2 영상을 적어도 일시적으로 저장할 수 있다.
또한, 프로세서(830)는 도 1 내지 도 6을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(830)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(830)는 프로그램을 실행하고, 영상 처리 장치(800)를 제어할 수 있다. 프로세서(830)에 의하여 실행되는 프로그램 코드는 메모리(850)에 저장될 수 있다.
메모리(850)는 전술한 프로세서(830)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(850)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(850)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(850)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
도 9는 일 실시예에 따른 영상을 복원하는 장치의 블록도이다. 도 9를 참조하면, 일 실시예에 따른 영상을 복원하는 장치(이하, 영상 재생 장치')(900)는 통신 인터페이스(910), 프로세서(930), 및 디스플레이(970)를 포함한다. 영상 재생 장치(900)는 메모리(950)를 더 포함할 수 있다. 통신 인터페이스(910), 프로세서(930), 메모리(950) 및 디스플레이(970)는 통신 버스(905)를 통해 서로 통신할 수 있다.
통신 인터페이스(910)는 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 영상의 복수의 영역들에 대응하는 마스크 정보를 포함하는 영상 정보를 획득한다.
프로세서(930)는 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 영상을 복원한다.
메모리(950)는 통신 인터페이스(910)를 통해 획득한 영상 및 마스크 정보를 포함하는 영상 정보를 저장할 수 있다. 메모리(950)는 프로세서(930)에 의해 복원된 영상을 저장할 수 있다.
디스플레이(970)는 프로세서(930)에 의해 복원된 영상을 재생한다.
또한, 프로세서(930)는 도 1 및 도 7을 통해 전술한 적어도 하나의 방법 또는 적어도 하나의 방법에 대응되는 알고리즘을 수행할 수 있다. 프로세서(930)는 목적하는 동작들(desired operations)을 실행시키기 위한 물리적인 구조를 갖는 회로를 가지는 하드웨어로 구현된 데이터 처리 장치일 수 있다. 예를 들어, 목적하는 동작들은 프로그램에 포함된 코드(code) 또는 인스트럭션들(instructions)을 포함할 수 있다. 예를 들어, 하드웨어로 구현된 데이터 처리 장치는 마이크로프로세서(microprocessor), 중앙 처리 장치(central processing unit), 프로세서 코어(processor core), 멀티-코어 프로세서(multi-core processor), 멀티프로세서(multiprocessor), ASIC(Application-Specific Integrated Circuit), FPGA(Field Programmable Gate Array)를 포함할 수 있다.
프로세서(930)는 프로그램을 실행하고, 영상 재생 장치(900)를 제어할 수 있다. 프로세서(930)에 의하여 실행되는 프로그램 코드는 메모리(950)에 저장될 수 있다.
메모리(950)는 전술한 프로세서(930)의 처리 과정에서 생성되는 다양한 정보들을 저장할 수 있다. 이 밖에도, 메모리(950)는 각종 데이터와 프로그램 등을 저장할 수 있다. 메모리(950)는 휘발성 메모리 또는 비휘발성 메모리를 포함할 수 있다. 메모리(950)는 하드 디스크 등과 같은 대용량 저장 매체를 구비하여 각종 데이터를 저장할 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다. 그러므로, 다른 구현들, 다른 실시예들 및 특허청구범위와 균등한 것들도 후술하는 청구범위의 범위에 속한다.
100: 비디오 스트리밍 시스템
110: 영상 처리 장치
130: 스트리밍 서버
150: 영상 재생 장치

Claims (19)

  1. 수신된 제1 영상에 포함된 프레임 내 복수의 영역들에 대한 복원 정확도에 대응하는 중요도를 지시하는 중요도 정보를 획득하는 단계;
    상기 중요도 정보에 기초하여, 상기 복수의 영역들에 대응하는 스케일링(scaling) 정도- 상기 복수의 영역들에 대응하는 스케일링 정도는 제1 스케일링 정도 및 제2 스케일링 정도를 포함함 -를 나타내는 적어도 하나의 마스크를 결정하는 단계;
    상기 적어도 하나의 마스크에 따라 상기 제1 영상을 인코딩 함으로써, 상기 프레임 내 적어도 하나의 영역이 상기 마스크가 나타내는 스케일링 정도에 기초하여 다운 스케일링된 제2 영상을 생성하는 단계; 및
    상기 적어도 하나의 마스크 및 상기 제2 영상을 출력하는 단계
    를 포함하고,
    상기 복수의 영역들 중 상기 제1 스케일링 정도에 따라 스케일링되는 영역 및 상기 제2 스케일링 정도에 따라 스케일링되는 영역의 비율은 상기 제1 스케일링 정도 및 상기 제2 스케일링 정도의 비율에 기초하여 결정되는,
    영상 처리 방법.
  2. 제1항에 있어서,
    상기 스케일링 정도는
    상기 제1 영상의 해상도를 유지하는 값 및 상기 제1 영상의 해상도가 다운 샘플링되는 비율 중 적어도 하나로 결정되는,
    영상 처리 방법.
  3. 제1항에 있어서,
    상기 중요도 정보를 획득하는 단계는
    상기 제1 영상의 제작자 단말로부터, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 설정된 제1 중요도 정보를 수신하는 단계; 및
    상기 제2 영상의 각 프레임의 적어도 하나의 영역을 미리 학습된 신경망에 의해 복원한 결과에 따른 정확도 맵(accuracy map)에 기초하여, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하여 결정된 제2 중요도 정보를 획득하는 단계
    중 적어도 하나를 포함하는,
    영상 처리 방법.
  4. 제3항에 있어서,
    상기 제2 중요도 정보를 획득하는 단계는
    상기 제2 영상의 각 프레임의 적어도 하나의 영역을 상기 미리 학습된 신경망에 의해 복원한 결과와 상기 제2 영상의 각 프레임의 적어도 하나의 영역에 대응하는 정답 영상 간의 차이에 기초하여 상기 정확도 맵을 생성하는 단계; 및
    상기 정확도 맵에 기초하여 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 제2 중요도 정보를 결정하는 단계
    를 포함하는,
    영상 처리 방법.
  5. 제3항에 있어서,
    상기 적어도 하나의 마스크를 결정하는 단계는
    상기 제2 중요도 정보를 정렬(sorting)하는 단계; 및
    상기 정렬된 제2 중요도 정보를 기초로, 상기 제1 영상의 각 프레임의 적어도 하나의 영역에 대응하는 적어도 하나의 마스크를 결정하는 단계
    를 포함하는,
    영상 처리 방법.
  6. 제5항에 있어서,
    상기 정렬된 제2 중요도 정보를 기초로, 상기 적어도 하나의 마스크를 결정하는 단계는
    상기 정렬된 제2 중요도 정보에 따라 상기 제1 영상에서 제1 영역의 제1 해상도가 상기 제1 영상의 원본 해상도로 설정되도록 상기 제1 영역에 대응하는 마스크를 제1 마스크로 결정하는 단계;
    상기 정렬된 제2 중요도 정보에 따라 상기 제1 영역을 제외한 제2 영역이 상기 제1 해상도보다 낮은 제2 해상도로 다운 샘플링 되도록 상기 제2 영역에 대응하는 마스크를 제2 마스크로 결정하는 단계; 및
    상기 정렬된 제2 중요도 정보에 따라 상기 제1 영역 및 상기 제2 영역을 제외한 나머지 제3 영역이 상기 제2 해상도보다 낮은 제3 해상도로 다운 샘플링 되도록 상기 제3 영역에 대응하는 마스크를 제3 마스크로 결정하는 단계
    중 적어도 하나를 포함하는,
    영상 처리 방법.
  7. 제3항에 있어서,
    상기 신경망은
    상기 제2 영상과 상기 제2 영상에 대응하는 제1 마스크, 제2 마스크 및 제3 마스크 중 적어도 하나의 마스크가 연결된(concatenated) 결합 영상을 기초로, 상기 제2 영상에 대응하는 복원 영상(reconstructed image)을 생성하는,
    영상 처리 방법.
  8. 제3항에 있어서,
    상기 적어도 하나의 마스크를 결정하는 단계는
    상기 제2 중요도 정보와 무관하게, 상기 제1 중요도 정보에 따라 상기 제1 영상의 제1 영역에 대한 적어도 하나의 마스크를 결정하는 단계; 및
    상기 제1 영역을 제외한 나머지 영역들에 대한 적어도 하나의 마스크를 제2 중요도 정보에 따라 결정하는 단계
    를 포함하는,
    영상 처리 방법.
  9. 제1항에 있어서,
    상기 적어도 하나의 마스크를 결정하는 단계는
    상기 제2 영상의 용량이 상기 제1 영상을 미리 정해진 비율로 다운스케일링한 용량과 동일하게 유지되도록, 상기 중요도 정보에 기초하여 상기 제1 영상의 복수의 프레임들에 포함된 적어도 하나의 영역의 적어도 하나의 마스크를 결정하는 단계
    를 포함하는,
    영상 처리 방법.
  10. 제1항에 있어서,
    상기 적어도 하나의 마스크를 결정하는 단계는
    상기 중요도 정보에 기초하여, 상기 제1 영상의 각 프레임(frame) 별로 상기 적어도 하나의 마스크를 결정하는 단계; 및
    상기 중요도 정보에 기초하여, 상기 제1 영상의 복수의 프레임들을 포함하는 청크(chunk) 별로 상기 적어도 하나의 마스크를 결정하는 단계
    중 어느 하나를 포함하는,
    영상 처리 방법.
  11. 제1항에 있어서,
    상기 중요도 정보를 획득하는 단계는
    상기 프레임 내 복수의 영역들에 대응하는 그리드(grid)들로 분할하는 단계;
    상기 그리드들에 대응하는 영역의 중요도 정보를 획득하는 단계
    를 포함하는,
    영상 처리 방법.
  12. 제1항에 있어서,
    상기 제1 영상은
    상기 적어도 하나의 마스크를 기초로 제1 영역, 제2 영역 및 제3 영역 중 적어도 하나의 영역으로 구분되고,
    상기 제2 영상을 생성하는 단계는
    상기 제1 영역에 대응하는 제1 마스크에 기초하여, 상기 제1 영역을 인코딩(encoding)하는 단계;
    상기 제2 영역에 대응하는 제2 마스크에 기초하여, 상기 제2 영역을 인코딩하는 단계; 및
    상기 제3 영역에 대응하는 제3 마스크에 기초하여, 상기 제3 영역을 인코딩하는 단계
    를 포함하는,
    영상 처리 방법.
  13. 제1항에 있어서,
    상기 제1 영상은
    라이브 스트리밍 컨텐츠(live streaming contents)를 포함하는,
    영상 처리 방법.
  14. 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 상기 영상의 복수의 영역들에 대응하는 적어도 하나의 마스크를 포함하는 영상 정보를 획득하는 단계;
    상기 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 상기 영상을 복원하는 단계; 및
    상기 복원된 영상을 재생하는 단계
    를 포함하고,
    상기 마스크는
    상기 복수의 영역들에 대한 복원 정확도에 대응하는 중요도에 기초하여 결정된 상기 복수의 영역들에 대응하는 스케일링(scaling) 정도- 상기 복수의 영역들에 대응하는 스케일링 정도는 제1 스케일링 정도 및 제2 스케일링 정도를 포함함 -를 나타내고,
    상기 복수의 영역들 중 상기 제1 스케일링 정도에 따라 스케일링되는 영역 및 상기 제2 스케일링 정도에 따라 스케일링되는 영역의 비율은 상기 제1 스케일링 정도 및 상기 제2 스케일링 정도의 비율에 기초하여 결정되는,
    영상 재생 방법.
  15. 제14항에 있어서,
    상기 영상을 복원하는 단계는
    상기 영상 정보로부터 상기 적어도 하나의 마스크를 추출하는 단계; 및
    상기 추출한 적어도 하나의 마스크를 기초로, 상기 신경망을 이용하여 상기 영상을 복원하는 단계
    를 포함하는,
    영상 재생 방법.
  16. 제14항에 있어서,
    상기 신경망은
    상기 영상 및 상기 영상에 대응하는 적어도 하나의 마스크를 기초로, 상기 영상에 대응하는 상기 복원된 영상을 생성하도록 학습된,
    영상 재생 방법.
  17. 하드웨어와 결합되어 제1항 내지 제16항 중 어느 하나의 항의 방법을 실행시키기 위하여 컴퓨터 판독 가능한 기록 매체에 저장된 컴퓨터 프로그램.
  18. 제1 영상을 수신하는 통신 인터페이스; 및
    수신된 제1 영상에 포함된 프레임 내 복수의 영역들에 대한 복원 정확도에 대응하는 중요도를 지시하는 중요도 정보를 획득하고, 상기 중요도 정보에 기초하여 상기 제1 영상의 적어도 하나의 영역에 대응하는 스케일링 정도- 상기 복수의 영역들에 대응하는 스케일링 정도는 제1 스케일링 정도 및 제2 스케일링 정도를 포함함 -를 나타내는 적어도 하나의 마스크를 결정하고, 상기 적어도 하나의 마스크에 따라 상기 제1 영상을 인코딩 함으로써, 상기 프레임 내 적어도 하나의 영역이 상기 마스크가 나타내는 스케일링 정도에 기초하여 다운 스케일링된 제2 영상을 생성하는 프로세서
    를 포함하고,
    상기 통신 인터페이스는
    상기 마스크 및 상기 제2 영상을 출력하고,
    상기 복수의 영역들 중 상기 제1 스케일링 정도에 따라 스케일링되는 영역 및 상기 제2 스케일링 정도에 따라 스케일링되는 영역의 비율은 상기 제1 스케일링 정도 및 상기 제2 스케일링 정도의 비율에 기초하여 결정되는,
    영상 처리 장치.
  19. 복수의 해상도를 포함하는 복수의 영역들을 가지는 영상 및 상기 영상의 복수의 영역들에 대응하는 적어도 하나의 마스크를 포함하는 영상 정보를 획득하는 통신 인터페이스;
    상기 영상 정보를 기초로, 미리 학습된 신경망을 이용하여 상기 영상을 복원하는 프로세서; 및
    상기 복원된 영상을 재생하는 디스플레이
    를 포함하고,
    상기 마스크는
    상기 복수의 영역들에 대한 복원 정확도에 대응하는 중요도에 기초하여 결정된 상기 복수의 영역들에 대응하는 스케일링(scaling) 정도- 상기 복수의 영역들에 대응하는 스케일링 정도는 제1 스케일링 정도 및 제2 스케일링 정도를 포함함 -를 나타내고,
    상기 복수의 영역들 중 상기 제1 스케일링 정도에 따라 스케일링되는 영역 및 상기 제2 스케일링 정도에 따라 스케일링되는 영역의 비율은 상기 제1 스케일링 정도 및 상기 제2 스케일링 정도의 비율에 기초하여 결정되는,
    영상 재생 장치.
KR1020200031880A 2020-03-16 2020-03-16 영상 처리 방법, 영상 재생 방법 및 그 장치들 KR102391615B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200031880A KR102391615B1 (ko) 2020-03-16 2020-03-16 영상 처리 방법, 영상 재생 방법 및 그 장치들

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200031880A KR102391615B1 (ko) 2020-03-16 2020-03-16 영상 처리 방법, 영상 재생 방법 및 그 장치들

Publications (2)

Publication Number Publication Date
KR20210115710A KR20210115710A (ko) 2021-09-27
KR102391615B1 true KR102391615B1 (ko) 2022-04-29

Family

ID=77925714

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200031880A KR102391615B1 (ko) 2020-03-16 2020-03-16 영상 처리 방법, 영상 재생 방법 및 그 장치들

Country Status (1)

Country Link
KR (1) KR102391615B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102022648B1 (ko) * 2018-08-10 2019-09-19 삼성전자주식회사 전자 장치, 이의 제어 방법 및 서버의 제어 방법

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1175373C (zh) * 1998-03-20 2004-11-10 三菱电机株式会社 有损失/无损失感兴趣区域图像编码的方法和系统
KR20110060763A (ko) * 2009-11-30 2011-06-08 한국전자통신연구원 3차원 비디오 서비스 제공 장치 및 방법
KR102189647B1 (ko) * 2014-09-02 2020-12-11 삼성전자주식회사 디스플레이 장치, 시스템 및 그 제어 방법
US10743000B2 (en) * 2016-07-01 2020-08-11 Sk Telecom Co., Ltd. Video bitstream generation method and device for high-resolution video streaming

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102022648B1 (ko) * 2018-08-10 2019-09-19 삼성전자주식회사 전자 장치, 이의 제어 방법 및 서버의 제어 방법

Also Published As

Publication number Publication date
KR20210115710A (ko) 2021-09-27

Similar Documents

Publication Publication Date Title
CN107439010B (zh) 流传输球形视频
CN112204993B (zh) 使用重叠的被分区的分段的自适应全景视频流式传输
US20200036995A1 (en) Machine-Learning Based Video Compression
EP3804349B1 (en) Adaptive panoramic video streaming using composite pictures
KR102500761B1 (ko) 영상의 ai 부호화 및 ai 복호화 방법, 및 장치
EA032859B1 (ru) Многоуровневое декодирование сигнала и восстановление сигнала
WO2021047471A1 (zh) 图像隐写及提取方法、装置及电子设备
KR102141319B1 (ko) 다시점 360도 영상의 초해상화 방법 및 영상처리장치
CN110740350B (zh) 图像处理方法、装置、终端设备及计算机可读存储介质
KR20140071339A (ko) 계층화된 신호 품질 계층에서의 재구성 데이터의 송신
CN111669564B (zh) 图像重建方法、系统、设备及计算机可读存储介质
CN111310744B (zh) 图像识别方法、视频播放方法、相关设备及介质
CN108810427B (zh) 基于视点的全景视频内容表示的方法及装置
CN111667438B (zh) 视频重建方法、系统、设备及计算机可读存储介质
KR20130079819A (ko) 절차적 방법에 의해 생성된 지형 데이터를 편집하는 방법
Luo et al. Masked360: Enabling robust 360-degree video streaming with ultra low bandwidth consumption
TWI772102B (zh) 用於傳輸縮減的深度資訊的方法和電子系統
KR20210056179A (ko) Ai 부호화 장치 및 그 동작방법, 및 ai 복호화 장치 및 그 동작방법
KR102391615B1 (ko) 영상 처리 방법, 영상 재생 방법 및 그 장치들
US20150326873A1 (en) Image frames multiplexing method and system
CN112533005A (zh) 一种vr视频慢直播的交互方法及系统
WO2023086795A1 (en) Techniques for reconstructing downscaled video content
KR102127846B1 (ko) 영상을 처리하는 방법, 영상을 재생하는 방법 및 그 장치들
WO2019130794A1 (ja) 映像処理装置
KR20210113057A (ko) 압축 신경망 내에서의 패딩/트리밍을 사용하는 방법, 장치 및 기록 매체

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant