KR102050780B1 - 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법 - Google Patents

신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법 Download PDF

Info

Publication number
KR102050780B1
KR102050780B1 KR1020180003377A KR20180003377A KR102050780B1 KR 102050780 B1 KR102050780 B1 KR 102050780B1 KR 1020180003377 A KR1020180003377 A KR 1020180003377A KR 20180003377 A KR20180003377 A KR 20180003377A KR 102050780 B1 KR102050780 B1 KR 102050780B1
Authority
KR
South Korea
Prior art keywords
content
cluster
contents
model
learning
Prior art date
Application number
KR1020180003377A
Other languages
English (en)
Other versions
KR20190093746A (ko
Inventor
한동수
여현호
도성현
Original Assignee
한국과학기술원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국과학기술원 filed Critical 한국과학기술원
Priority to KR1020180003377A priority Critical patent/KR102050780B1/ko
Priority to US15/924,637 priority patent/US10560731B2/en
Publication of KR20190093746A publication Critical patent/KR20190093746A/ko
Application granted granted Critical
Publication of KR102050780B1 publication Critical patent/KR102050780B1/ko

Links

Images

Classifications

    • G06K9/627
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • G06K9/46
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • H04N21/23109Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion by placing content in organized collections, e.g. EPG data repository
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/23439Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements for generating different versions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/251Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/2668Creating a channel for a dedicated end-user group, e.g. insertion of targeted commercials based on end-user profiles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/60Network structure or processes for video distribution between server and client or between remote clients; Control signalling between clients, server and network components; Transmission of management data between server and client, e.g. sending from server to client commands for recording incoming content stream; Communication details between server and client 
    • H04N21/61Network physical structure; Signal processing
    • H04N21/6106Network physical structure; Signal processing specially adapted to the downstream path of the transmission network
    • H04N21/6125Network physical structure; Signal processing specially adapted to the downstream path of the transmission network involving transmission via Internet
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/10Recognition assisted with metadata

Abstract

신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법을 개시한다.
컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 컨텐츠 군집화부; 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 학습부; 상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 저장부; 및 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 포함하는 컨텐츠 전송 서버 장치를 제공한다.

Description

신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법{Method and Server Apparatus for Delivering Content Based on Content-aware Using Neural Network}
본 발명은 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법에 관한 것이다.
이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.
인터넷을 통한 비디오 전송이 급격하게 증가하고 있으며, 증강 현실이나 가상 현실을 제공하는 스트리밍 서비스가 등장함에 따라 인터넷 비디오가 전체 인터넷 트래픽에서 차지하는 비중이 높아지고 있다.
인터넷 비디오 전송 기술은 컨텐츠 전송 네트워크(content delivery networks, CDNs)에서부터 HTTP 적응적 스트리밍(adaptive streaming) 및 QoE(Quality of Experience)를 위한 데이터를 이용한 최적화에 이르기까지, 한정된 네트워크 자원 내에서 사용자에게 최상의 화질을 제공할 수 있도록 하기 위해 다양한 기술이 제안된 바 있다.
그러나, 현재의 비디오 전송 기술의 경우, 비디오를 단지 비트스트림으로만 취급함으로써 컨텐츠의 종류와 상관 없이 동일한 기술을 적용하고 있으며, 비디오 인코딩도 단순히 짧은 시간 스케일(프레임 내)에서 발생하는 공간 및 시간 중복성을 이용한 신호 처리 기술(이산 코사인 변환 및 프레임 간 예측)을 사용하는 것에 그치고 있다.
본 발명은, 개별 컨텐츠의 특성에 적합하도록 사용자 단말에 컨텐츠를 전송할 수 있는 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 그 전송 방법을 제공하는 데 주된 목적이 있다.
본 발명의 일 실시예에 의하면, 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 컨텐츠 군집화부; 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 학습부; 상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 저장부; 및 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 포함하는 컨텐츠 전송 서버 장치를 제공한다.
상기 장치의 실시예들은 다음의 특징들을 하나 이상 더 포함할 수 있다.
상기 컨텐츠 군집화부는, 인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화할 수 있다.
상기 학습부는, 상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시킬수 있다.
상기 전송부는, 상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송할 수 있다.
본 발명의 일 실시예에 의하면, 컨텐츠 제공 시스템의 컨텐츠 전송 서버에서 사용자 단말에 컨텐츠를 전송하기 위한 방법에 있어서, 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 과정, 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 과정, 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 과정을 포함하는 컨텐츠 전송 방법을 제공한다.
이상에서 설명한 바와 같이 본 실시예에 의하면, 유사한 컨텐츠들을 군집화하여 컨텐츠들의 유사성을 이용해 컨텐츠 복원 모델을 학습시킴으로써, 사용자에게 높은 품질의 컨텐츠를 제공하면서도 전송에 필요한 네트워크 대역폭은 감소시킬 수 있는 효과가 있다.
또한, 본 실시예에 의하면, 사용자 단말에 이러한 컨텐츠 복원 모델을 제공하고 사용자 단말의 연산 능력을 이용하여 컨텐츠 복원 성능을 구현함으로써, 네트워크 환경에 제한되지 않고 사용자가 원하는 품질의 컨텐츠를 제공할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 구성을 개략적으로 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 전송 서버에서의 컨텐츠 복원 모델 학습 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 컨텐츠 전송 방법을 도시한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 화질 개선 결과를 비교하여 도시한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 전송 성능을 비교하여 도시한 도면이다.
도 9는 종래 기술에 의한 비디오 인코딩 및 디코딩 결과를 비교하여 도시한 도면이다.
이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '~부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.
본 명세서에서 컨텐츠는 방송 컨텐츠, 오디오 또는 비디오 컨텐츠 등 다양한 멀티미디어 컨텐츠를 포함한다. 컨텐츠는 소정의 미디어 컨텐츠이면 그 내용이나 형식에는 제한이 없다. 따라서, 컨텐츠에는 컨텐츠 제작 사업자가 제작한 컨텐츠 뿐만 아니라 개인이 만들어 배포하는 UCC(User Creative Contents)가 포함된다.
본 명세서에서 메타데이터는 데이터에 관한 데이터(data about data)로서 컨텐츠에 대한 부가 정보를 의미한다. 메타데이터는 매니페스트 파일(manifest file)에 기록되어 사용자 단말에 전송되며, 사용자 단말은 메타데이터를 이용하여 원하는 컨텐츠를 요청하는 등 컨텐츠 제공 서비스를 받을 수 있다.
도 1은 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템을 개략적으로 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템은 컨텐츠 제공자(110), 컨텐츠 제공 서버(120) 및 사용자 단말(130)을 포함하여 구성된다.
컨텐츠 제공자(110)는 컨텐츠 제공 서비스를 위한 컨텐츠를 생성하여 제공한다. 컨텐츠 제공자(110)는 서비스 목적에 따라 다양한 컨텐츠를 생성할 수 있다.
예컨대, VOD(Video On Demand) 서비스를 제공하는 컨텐츠 제공자(110)는 비디오/오디오 형태의 컨텐츠를 생성하여 제공할 수 있고, 개인 방송을 제공하는 컨텐츠 제공자(110)는 라이브 스트림 형태의 컨텐츠를 생성하여 제공할 수 있다. 또한, 다시점 영상 공유 서비스를 제공하는 컨텐츠 제공자(110)는 영상의 깊이 정보를 포함하는 컨텐츠를 생성하여 제공할 수 있다. AR(Augmented Reality) 서비스를 제공하는 컨텐츠 제공자(110)는 360 카메라를 통해 스티칭된 컨텐츠를 생성하여 제공할 수 있다.
컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)에 의해 제공된 컨텐츠를 서비스 및 컨텐츠의 종류에 적합한 전송 프로토콜을 통해 사용자 단말(130)에 전송한다. 컨텐츠 제공 서버(120)는 다양한 컨텐츠와 서비스를 사용자 단말에 따라 적합한 제공 방식을 선정하고, 선정한 방식을 통해 컨텐츠 제공자(110)로부터 제공받은 컨텐츠를 사용자 단말(130)에 전송한다. 컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)로부터 생성되어 제공되는 새로운 컨텐츠를 지속적으로 제공받아 사용자 단말(130)에 새로운 컨텐츠를 전송할 수 있다.
예컨대, VOD 서비스를 제공하기 위해 RTSP(Real Time Streaming Protocol)을 이용하여 컨텐츠 제공자(110)로부터 제공받은 VOD 컨텐츠를 전송할 수 있고, 개인 방송 컨텐츠를 제공하는 컨텐츠 제공자(110)로부터 제공받은 개인 방송 컨텐츠를 전송하기 위해 HLS(HTTP Live Streaming) 프로토콜 또는 MPEG-TS(Moving Picture Experts Group - Transport Stream) 프로토콜을 통해 전송할 수 있다.
또한, 컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)로부터 제공받은 다수의 컨텐츠를 유사도에 기반하여 군집화하고, 각 군집에 대해 서로 다른 신경망 기반의 학습 모델을 통해 각 군집별로 군집 내 컨텐츠들을 이용한 컨텐츠 복원 모델을 생성한다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 영상의 프레임간 보간을 학습하여 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력할 수 있다.
컨텐츠 제공 서버(120)는 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자(110)로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.
컨텐츠 제공 서버(120)는 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.
사용자 단말(130)은 컨텐츠 제공자(110)에 의해 제공되는 컨텐츠와 컨텐츠 복원 모델을 컨텐츠 전송 서버(120)를 통해 수신한다. 사용자 단말(130)은 스마트폰, 태블릿 PC, 노트북 또는 데스크탑 등일 수 있으며, 사용자 단말(130)의 종류에 따라 적합한 컨텐츠 제공 모델이 제공될 수 있다.
컨텐츠 복원 모델은 사용자 단말(130)이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말(130)은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 수신할 수 있다.
사용자 단말(130)은 수신한 컨텐츠 및 컨텐츠 복원 모델을 이용하여, 원하는 품질의 컨텐츠를 생성할 수 있다. 즉, 제공받은 컨텐츠 복원 모델을 이용하여 사용자 단말(130) 내에서의 연산을 통해 고품질의 컨텐츠를 생성할 수 있기 때문에 사용자는 네트워크 환경이 좋지 않더라도 고품질의 컨텐츠를 제공받을 수 있게 된다.
사용자 단말(130)은 각 컨텐츠의 서비스 타입이 지원하는 전송 프로토콜을 통해 각 컨텐츠 및 컨텐츠 복원 모델을 수신한다. 예컨대, VOD 서비스를 제공받기 위하여 RTSP 및 HLS 프로토콜을 통해 컨텐츠를 수신하거나, 개인 방송 서비스를 제공받기 위해 라이브 스트림 형태의 컨텐츠를 HLS 프로토콜 또는 MPEG-TS 프로토콜을 통해 수신할 수 있다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 구성을 개략적으로 도시한 도면이다.
도 2를 참조하면, 본 실시예의 컨텐츠 전송 서버(120)는 컨텐츠 군집화부(210), 학습부(220) 및 저장부(230)를 포함하며, 저장부(230)는 컨텐츠 저장부(231) 및 메타데이터 저장부(232)를 포함하여 구성된다. 도 2에 도시한 각 구성요소는 하드웨어 칩으로 구현될 수 있으며, 또는 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.
컨텐츠 군집화부(210)는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 컨텐츠 제공 서버(120)는 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자(110)로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 컨텐츠 군집화부(210)는 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.
예컨대, 컨텐츠 제공자(110)로부터 다양한 스포츠 관련 영상을 제공받은 경우에, 컨텐츠 제공자(110)가 각 컨텐츠에 대하여 생성한 메타 데이터를 분석하여 농구 경기, 축구 경기, 야구 경기 등으로 유사한 컨텐츠들을 군집화할 수 있다. 또는 기계학습을 통해 이미지 분류를 학습한 이미지 분류 모델을 이용하여 제공받은 컨텐츠의 프레임을 분석하여 유사도에 따라 농구 경기, 축구 경기, 야구 경기 등으로 분류하여 군집화할 수도 있다.
컨텐츠 군집화부(210)는 컨텐츠 제공자(110)로부터 새로운 컨텐츠를 제공받으면, 이미지 분류 모델을 통해 새로운 컨텐츠와 기존의 군집들 간의 유사도를 판단한다. 컨텐츠 군집화부(210)는 새로운 컨텐츠가 기존에 존재하는 군집과 중복성이 높다면 중복성이 가장 높은 군집으로 새로운 컨텐츠를 분류하고, 중복성이 일정 수준 이하인 경우 유사도가 높은 군집이 없으므로 새로운 컨텐츠를 새로운 군집으로 분류할 수 있다.
학습부(220)는 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시킨다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.
학습부(220)는 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.
예컨대, 축구 경기의 경우, 축구장과 같은 배경이나 플레이어 등은 영상 전체를 통하여 반복하여 나타나고, 여러 축구 경기 영상에서 동일한 배경 및 플레이어가 나타날 수 있다. 또한, 동일한 축구 경기장이나 동일한 플레이어가 아니라 하더라도 경기장의 잔디 색이나 축구장 전경에 나타나는 관중 모습 등과 같이 축구 경기 영상이 공유하는 중복된 정보가 많다. 따라서, 이렇게 유사한 컨텐츠를 군집화하여 컨텐츠 복원 모델을 학습시키는 경우에, 다양한 경기 영상에 적용되는 뛰어난 컨텐츠 복원 성능을 보여줄 수 있으며, 군집에 포함된 모든 경기 영상이 해당 컨텐츠 복원 모델을 공유할 수 있다.
학습부(220)는 CNN(convolutional neural network)과 같이 이미지 처리에 적합한 신경망을 이용하여 각 군집 내 컨텐츠들에 대한 컨텐츠 복원 모델을 생성한다. 학습부(220)는 군집별 컨텐츠 복원 모델과 군집 내 컨텐츠를 연관시키고 해당 연관 정보를 메타데이터로서 매니페스트 파일에 기록한다. 학습부(220)는 컨텐츠 복원 모델의 학습 내용에 따라 컨텐츠의 저화질 또는 압축된 형태의 컨텐츠(이하 '대체 컨텐츠'라 함)를 생성하고, 대체 컨텐츠를 매니페스트 파일에 기록한다. 즉, 매니페스트 파일에는 컨텐츠 복원 모델과 대체 컨텐츠가 포함되어 있을 수 있다,
컨텐츠를 군집화하지 않고, 모든 컨텐츠에 적용되는 컨텐츠 복원 모델을 학습시키는 경우에, 연산을 위한 비용이 증가하며 모든 컨텐츠에 대해 고른 컨텐츠 복원 성능을 보여줄 수 없다. 따라서, 본 실시예에서는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠들을 유사도가 높은 컨텐츠들끼리 군집화하고, 각 군집에 대해 개별적으로 군집 내에 포함된 컨텐츠들을 이용하여 학습시킨 컨텐츠 복원 모델을 생성함으로써, 연산 비용을 감소시킬 수 있을 뿐 아니라 뛰어난 컨텐츠 복원 성능을 보여줄 수 있다.
저장부(230)는 다수의 컨텐츠 및 군집별 컨텐츠 복원 모델을 저장한다. 컨텐츠 저장부(231)는 컨텐츠 제공자(110)로부터 수신한 컨텐츠를 저장한다. 저장된 컨텐츠는 컨텐츠 원본 파일일 수도 있고, 경우에 따라 저화질 또는 압축된 형태의 컨텐츠(대체 컨텐츠)일 수 있다. 메타데이터 저장부(232)는 컨텐츠에 관련된 메타데이터를 저장한다.
도면에 도시되지는 않았지만, 컨텐츠 전송 서버(120)는 사용자로부터 요청된 컨텐츠 및 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 더 포함할 수 있다. 전송부(미도시)에서는, 사용자 단말(130)과의 네트워크 연결 상태를 고려하여 요청된 컨텐츠의 원본 또는 대체 컨텐츠를 컨텐츠 복원 모델과 함께 전송할 수 있다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 전송 서버에서의 컨텐츠 복원 모델 학습 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 도면이다.
컨텐츠 전송 서버(120)에서는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자로부터 컨텐츠와 함께 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다.
컨텐츠 복원 모델은 각 군집에 대해 개별적으로 생성된다. 군집은 서로 유사한 컨텐츠를 포함하고 있기 때문에, 동일한 컨텐츠 복원 모델을 공유할 수 있다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.
예컨대, 군집 A는 축구 경기, 군집 B는 농구 경기, 군집 C는 야구 경기인 경우에, 학습 모델 A는 군집 A에 포함된 컨텐츠인 축구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 B는 농구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 C는 야구 경기를 학습한 컨텐츠 복원 모델이다.
도 4를 참조하면, 컨텐츠 전송 서버(120)는 사용자 단말에 컨텐츠와 함께 컨텐츠 복원 모델을 전송한다. 사용자 단말1(131) 및 사용자 단말3(133)과의 네트워크 연결이 좋지 않은 상황이고, 사용자 단말2(132)와의 네트워크 연결은 양호한 경우를 가정한다. 사용자 단말1(131) 및 사용자 단말3(133)과의 네트워크 연결 상황이 좋지 않은 경우에, 대체 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자 단말1(131) 및 사용자 단말3(133)에서 자체적으로 연산하여 고품질의 컨텐츠를 생성할 수 있다. 또한, 사용자 단말2(132)와 같이 네트워크 연결 상황이 양호한 경우에는 컨텐츠 전송 서버(120)에서 고품질의 컨텐츠를 직접 전송하는 것도 가능하다. 이 경우에도, 대체 컨텐츠 및 컨텐츠 복원 모델을 전송할 수도 있으며, 고품질의 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자가 원하는 품질의 컨텐츠를 제공받을 수 있도록 할 수 있다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 컨텐츠 전송 방법을 도시한 흐름도이다.
컨텐츠 전송 서버는 컨텐츠 제공자로부터 컨텐츠를 수신한다(S510). 컨텐츠는 방송 컨텐츠, 오디오 또는 비디오 컨텐츠 등 다양한 멀티미디어 컨텐츠를 포함한다.
다음으로, 컨텐츠 전송 서버는 수신된 컨텐츠를 군집화한다(S520). 컨텐츠 제공자로부터 제공받은 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다.
컨텐츠 제공 서버는 군집별 학습 모델을 학습시킨다(S530). 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.
사용자로부터 컨텐츠 요청이 있는 경우 컨텐츠-학습 모델 쌍을 사용자 단말에 전송한다(S540). 이 때, 전송되는 컨텐츠는 네트워크 연결 상황에 따라 대체 컨텐츠 이거나 컨텐츠 원본일 수 있다. 컨텐츠 복원 모델은 사용자 단말이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 요청하여 수신할 수 있다.
이하, 본 발명의 일 실시예에 따른 컨텐츠 복원 모델의 구현 및 이를 이용한 비디오 전송 방법을 구체적으로 설명한다.
1.고해상도 복원
슈퍼 해상도(Super-resolution imaging, SR)는 이미지 해상도를 향상시키는 기술로 저해상도 미디어로부터 고해상도의 이미지를 복구하는 기술이다. 이하에서는, 컨텐츠 인지 기반 슈퍼 레졸루션을 이용한 컨텐츠 복원 모델을 통한 비디오 전송 방법에 대해 설명한다. 이러한 컨텐츠 복원 모델은 적응형 스트리밍의 대안이 될 수 있으며, 안정적이고 향상된 품질을 제공할 수 있게 한다.
컨텐츠 복원 모델로서 이미지 슈퍼 해상도 복원을 위해 심층 컨볼루션 신경망을 이용한다. 컨텐츠 인지 기반의 모델을 생성하기 위하여, 시리즈로 구성된 컨텐츠의 각 에피소드를 군집으로 하여 학습 데이터로 이용하였다. 구체적으로, 유투브에서 제공되는 2012 런던 올림픽의 농구 경기, 유투브에서 제공되는 2012 런던 올림픽의 100m 및 200m 경주 남자 결승전, 컴퓨터 게임(스타크래프트)의 플레이 영상 및 유투브의 공식 코난 오브라이언 쇼 채널로부터 제공되는 코난의 모놀로그 에피소드로 이루어진 총 4개의 데이터셋을 이용하였다. 농구 경기의 경우, 전반전을 학습 비디오로 사용하였고, 후반전을 테스트 비디오로 사용하였다. 나머지 데이터 셋에 대해서는, 학습을 위한 비디오와 테스트를 위한 비디오를 나누어 사용하였다.
비교를 위한 신경망 모델로는 유사도에 구분없이 슈퍼 해상도 복원을 위한 벤치마크 데이터 셋을 학습한 신경망 모델(content-agnostic DNN)을 사용하였고, 보간법(nearest-neighbor interpolation)을 이용하여 해상도를 복원하는 방법을 최소 성능 기준으로 사용하였다.
도 6은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 화질 개선 결과를 비교하여 도시한 도면이다.
도 6의 (a)는 원본 비디오를 도시한 것이고, (b)는 본 실시예에 의한 컨텐츠 복원 모델을 이용한 경우, (c)는 종래 VDSR 모델을 이용한 경우, (d)는 보간법을 이용한 경우 획득한 슈퍼 레졸루션 비디오를 도시한 것이다. 도 6에 도시된 바와 같이, 본 실시예에 의하면, 컨텐츠를 유사도에 따라 분류하여 해상도 복원을 학습함으로써, 향상된 화질 개선 성능을 제공할 수 있다. 특히, 도 6에서 게임 화면을 복원한 경우를 참조하면, 본 실시예에 의하면 또렷한 텍스트 복원 성능을 보여줌을 알 수 있다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 전송 성능을 비교하여 도시한 도면이다.
도 7은 비디오 전송에서의 비트레이트(bitrate)와 품질의 관계를 도시한 것이다. 구체적으로, 도 7의 (b)에서 확인할 수 있듯이, 컨텐츠 인지 기반 컨텐츠 복원 모델에 의한 1.1Mbps 비디오는 종래의 보간법을 이용한 경우의 2.2Mbps 비디오보다 더 품질이 뛰어난 것을 확인할 수 있고, 결과적으로 본 실시예를 이용하는 경우에 네트워크 대역폭 사용을 50% 이상 줄일 수 있다. 즉, 본 실시예에 의하면, 적은 대역폭을 사용하여 높은 수준의 화질을 보여주는 비디오를 전송할 수 있다.
도 8은 동일한 품질의 비디오를 전송하는 경우의 데이터 사용량을 도시한 것이다. 본 실시예에 의한 신경망 기반 컨텐츠 복원 모델은 7.8MB의 사이즈를 갖는다. 컨텐츠 복원 모델의 사이즈는 신경망의 파라미터 설정에 따라 변경될 수 있다. 신경망의 파라미터 갯수가 증가하면 복원 성능이 좋아지지만, 컨텐츠 복원 모델의 크기가 커지는 단점이 있다. 신경망 성능이 도 8의 (a)를 참조하면 2분 이내에, (b)를 참조하면 20초 이내에, 본 실시예에 의한 컨텐츠 복원 모델을 전송하는 데이터 전송 비용이 보상됨을 알 수 있다.
도시된 성능 비교 결과를 참조하면, 본 실시예에 의하면 유사도가 높은 컨텐츠를 지속적으로 시청하는 사용자 단말의 경우에는 최초 컨텐츠 복원 모델을 전송한 이후에는 해당 모델을 이용하여 지속적으로 대체 컨텐츠를 복원할 수 있기 때문에 더 효율적일 수 있다. 또한, 파라미터를 로드하는데 소요되는 시간이 짧기 때문에 학습 모델을 초기화하는데에도 긴 시간이 필요하지 않으며 고해상도의 이미지를 복원하는 데에도 짧은 시간이 소요된다.
2. 원본 영상 복원
GANs(Generative Adversarial Networks)는 이미지의 간단한 설명이 주어지면 실제의 이미지와 구분할 수 없는 이미지를 합성하는 신경망이다. 이러한 GANs을 이용하여, 중복성이 적은 비디오에 대해서도 높은 품질의 비디오를 생성할 수 있다. 본 실시예에서 대체 컨텐츠로는 컨텐츠를 YCbCr 색상 공간에서 채도를 제거하고 원본 비디오의 휘도(Y)만을 포함하여 데이터를 표현하는 LUM과 에지(edge) 검출 알고리즘을 이용하여 각 프레임의 경계선을 추출하고 1 비트 양자화를 통해 흑백 이미지를 생성하는 EDGE를 예를 들어 설명한다.
도 9는 종래 기술에 의한 비디오 인코딩 및 디코딩 결과를 비교하여 도시한 도면이다.
도 9의 (c) 및 (d)는 각 농구 경기, 컴퓨터 게임(스타크래프트) 영상에 적용된 LUM 및 EDGE의 예제 프레임을 도시한 것이다. 도면을 참조하면, 원본 영상에 비하여 훨씬 적은 양의 정보가 포함되어 있음을 알 수 있다. 본 실시예에서, 데이터 셋에 포함된 비디오를 학습 데이터로 이용하여 GAN 네트워크를 학습시키고 LUM 및 EDGE의 이미지를 생성하도록 한다. 예컨대, LUM의 경우에, 네트워크는 휘도 값으로부터 원래의 이미지(채도 포함)를 합성한다. LUM 및 EDGE를 이용한 이미지를 비슷한 품질의 JPEG 이미지와 비교한다.
비교 결과, LUM(20.33KB)는 유사한 품질의 이미지를 전송하기 위해 JPEG(22.84KB)에 비하여 11% 감소된 데이터 사용을 보여준다. 도 9의 (e)는 이러한 LUM을 이용하여 이미지를 복원한 결과를 보여준다. 복원된 색이 원본과 거의 동일함을 알 수 있다. 즉, 채도의 경우 이러한 신경망 기반의 학습 모델을 통하여 중복된 정보가 잘 학습되는 요소임을 알 수 있으며, 본 발명의 일 실시예에 따라 비디오 전송 과정에서 이용되는 경우 뛰어난 성능을 보여줄 수 있다.
EDGE(3.65KB)는 JPEG(9.29KB)와 유사한 품질의 이미지를 전송하기 위해 훨씬 더 적은 데이터를 사용한다. 도 9의 (f)는 이러한 EDGE를 이용하여 디코딩된 이미지를 보여준다. 객체의 외곽선에 약간의 왜곡이 있다는 점을 제외하면, 생성된 이미지의 색상은 원본의 색상과 거의 일치한다. 이는, 비디오에 장기적인 중복성이 있는 경우에 윤곽선으로 구성된 흑백 이미지가 원본 이미지를 복원하기에 충분한 정보를 포함하고 있음을 나타낸다.
3. 프레임 보간
심층 신경망(DNN)을 이용한 프레임 보간 학습은, 신호 처리 기반의 프레임 보간에 비해 더 나은 성능을 보여주고 있다. 따라서, 본 실시예에 의한 컨텐츠 복원 모델이 컨텐츠들에 대한 프레임 보간을 학습하는 경우에, 대체 컨텐츠로서 프레임이 압축된 컨텐츠를 생성하고, 프레임 보간을 학습한 컨텐츠 복원 모델을 함께 전송하는 경우에 기존의 신호 처리 기반의 프레임 보간에 비해 아티팩트가 적게 나타나고 영상간 연결이 더 자연스러운 컨텐츠를 제공할 수 있다.
이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.
전술한 바와 같이, 도 5에 기재된 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 발명의 일 실시예에 따른 컨텐츠 전송 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.
100: 컨텐츠 제공 시스템
110: 컨텐츠 제공자
120: 컨텐츠 전송 서버
130: 사용자 단말

Claims (12)

  1. 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 상기 다수의 컨텐츠의 메타데이터를 이용하거나 또는 이미지 분류를 학습한 기계학습 모델을 이용함으로써 유사도에 기반하여 군집화하는 컨텐츠 군집화부;
    군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키고, 상기 군집별 컨텐츠 복원 모델과 상기 각 군집 내 컨텐츠 간의 연관 정보를 매니페스트 파일에 기록하는 학습부;
    상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 컨텐츠 저장부; 및
    사용자 단말로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 상기 매니페스트 파일을 통해 상기 사용자 단말에 전송하는 전송부
    를 포함하는 컨텐츠 전송 서버 장치.
  2. 제 1항에 있어서,
    상기 컨텐츠 군집화부는,
    인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  3. 제 2항에 있어서,
    상기 컨텐츠 군집화부는,
    상기 컨텐츠 제공자로부터 새로운 컨텐츠를 제공받으면, 상기 이미지 분류 모델을 통해 상기 새로운 컨텐츠와 기존의 군집들 간의 유사도를 판단하고, 상기 새로운 컨텐츠와 중복성이 가장 높은 군집에 상기 새로운 컨텐츠를 군집화하고, 상기 유사도가 일정 수준 이하인 경우 새로운 컨텐츠를 새로운 군집에 군집화하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  4. 제 1항에 있어서,
    상기 학습부는,
    상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  5. 제 4항에 있어서,
    상기 학습부는,
    상기 군집에 포함된 컨텐츠의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 컨텐츠 원본 영상을 출력하도록 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  6. 제 4항에 있어서,
    상기 학습부는,
    상기 군집에 포함된 컨텐츠의 휘도 영상 또는 윤곽선 영상을 추출하여, 상기 컨텐츠 복원 모델에 상기 휘도 영상 또는 윤곽선 영상으로부터 컨텐츠 원본을 출력하도록 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  7. 제 4항에 있어서,
    상기 학습부는,
    상기 컨텐츠 복원 모델에 상기 군집에 포함된 컨텐츠에 대해 프레임 보간을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  8. 제 4항에 있어서,
    상기 전송부는,
    상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
  9. 컨텐츠 제공 시스템의 컨텐츠 전송 서버에서 사용자 단말에 컨텐츠를 전송하기 위한 방법에 있어서,
    컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 상기 다수의 컨텐츠의 메타데이터를 이용하거나 또는 이미지 분류를 학습한 기계학습 모델을 이용함으로써 유사도에 기반하여 군집화하는 과정,
    군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 과정,
    상기 군집별 컨텐츠 복원 모델과 각 군집 내 컨텐츠 간의 연관 정보를 매니페스트 파일에 기록하는 과정, 및
    사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 과정
    를 포함하는 컨텐츠 전송 방법.
  10. 제 9항에 있어서,
    상기 군집화하는 과정은,
    인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화하는 것을 특징으로 하는, 컨텐츠 전송 방법.
  11. 제 9항에 있어서,
    상기 학습시키는 과정은,
    상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 방법.
  12. 제 11항에 있어서,
    상기 전송하는 과정은,
    상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송하는 것을 특징으로 하는, 컨텐츠 전송 방법.
KR1020180003377A 2018-01-10 2018-01-10 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법 KR102050780B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020180003377A KR102050780B1 (ko) 2018-01-10 2018-01-10 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
US15/924,637 US10560731B2 (en) 2018-01-10 2018-03-19 Server apparatus and method for content delivery based on content-aware neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020180003377A KR102050780B1 (ko) 2018-01-10 2018-01-10 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20190093746A KR20190093746A (ko) 2019-08-12
KR102050780B1 true KR102050780B1 (ko) 2019-12-02

Family

ID=67141213

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020180003377A KR102050780B1 (ko) 2018-01-10 2018-01-10 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법

Country Status (2)

Country Link
US (1) US10560731B2 (ko)
KR (1) KR102050780B1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA3108301C (en) * 2018-08-01 2021-09-07 Centurylink Intellectual Property Llc Machine learning for quality of experience optimization
CN110909761A (zh) * 2019-10-12 2020-03-24 平安科技(深圳)有限公司 图像识别方法、装置、计算机设备及存储介质
KR102325577B1 (ko) * 2020-08-18 2021-11-12 (주)넥스트랩 차량 하부 촬영 및 영상 처리 시스템과 그 방법
KR102573511B1 (ko) * 2020-11-23 2023-08-31 서울대학교산학협력단 영상 데이터 처리 장치 및 방법
KR102414301B1 (ko) * 2021-12-29 2022-07-01 엔쓰리엔 주식회사 Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법
US20230345073A1 (en) * 2022-03-16 2023-10-26 Meta Platforms Technologies, Llc Systems and methods for providing auxiliary manifests for media items
CN115222600B (zh) * 2022-07-29 2023-04-07 大连理工大学 对比学习的多光谱遥感图像超分辨重建方法

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289758B1 (ko) * 2013-05-06 2013-07-26 (주)오티에스 Hd영상 가변스트리밍 전송시스템 및 전송방법

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2461830C (en) * 2001-09-26 2009-09-22 Interact Devices System and method for communicating media signals
US20030204718A1 (en) * 2002-04-29 2003-10-30 The Boeing Company Architecture containing embedded compression and encryption algorithms within a data file
KR101070981B1 (ko) * 2009-11-05 2011-10-06 홍익대학교 산학협력단 경계선 성분 분류 기반 신경회로망 모델을 이용한 영상 화질 개선방법
US9693110B2 (en) * 2010-06-03 2017-06-27 Cox Communications, Inc Dynamic content stream management
EP2737432A4 (en) * 2011-07-29 2015-03-25 Hewlett Packard Development Co REGROUPING INCREMENTAL IMAGES
TWI513291B (zh) * 2013-12-12 2015-12-11 Ind Tech Res Inst 影像處理的方法、裝置及電腦可讀取媒體
US9582739B2 (en) * 2014-11-18 2017-02-28 Harry Friedbert Padubrin Learning contour identification system using portable contour metrics derived from contour mappings
WO2016132152A1 (en) * 2015-02-19 2016-08-25 Magic Pony Technology Limited Interpolating visual data
KR101803471B1 (ko) * 2016-02-15 2017-12-01 성균관대학교 산학협력단 컨볼루션 신경망 기반의 영상 패턴화를 이용한 딥러닝 시스템 및 이를 이용한 영상 학습방법
US10057644B1 (en) * 2017-04-26 2018-08-21 Disney Enterprises, Inc. Video asset classification
US10469883B2 (en) * 2017-09-13 2019-11-05 Amazon Technologies, Inc. Distributed multi-datacenter video packaging system

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101289758B1 (ko) * 2013-05-06 2013-07-26 (주)오티에스 Hd영상 가변스트리밍 전송시스템 및 전송방법

Also Published As

Publication number Publication date
US20190215549A1 (en) 2019-07-11
US10560731B2 (en) 2020-02-11
KR20190093746A (ko) 2019-08-12

Similar Documents

Publication Publication Date Title
KR102050780B1 (ko) 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법
KR102082816B1 (ko) 스트리밍 파일의 해상도 개선 방법
Yeo et al. How will deep learning change internet video delivery?
US11232598B2 (en) Distinct encoding and decoding of stable information and transient/stochastic information
CN108632625A (zh) 一种视频编码方法、视频解码方法和相关设备
CN110072119A (zh) 一种基于深度学习网络的内容感知视频自适应传输方法
US9877056B1 (en) Compressed media with still images selected from a video stream
US20210334266A1 (en) Embedding codebooks for resource optimization
US20230130807A1 (en) Method for on-demand video editing at transcode-time in a video streaming system
TW202041008A (zh) 資訊處理裝置、再生處理裝置、資訊處理方法及再生處理方法
KR102130076B1 (ko) 특징 영역의 학습 중요도를 바탕으로 스트리밍 파일의 해상도를 개선하는 방법
US11095901B2 (en) Object manipulation video conference compression
Huang et al. A cloud computing based deep compression framework for UHD video delivery
US11336902B1 (en) Systems and methods for optimizing video encoding
KR20220021495A (ko) Ai에 기반하여 스트리밍 파일의 해상도를 개선하는 방법
KR20160098927A (ko) 스트리밍 컨텐츠 제공 장치 및 방법
CN111988661A (zh) 将视觉对象合并到视频材料中
US20230276111A1 (en) Video processing
KR102414301B1 (ko) Pod 기반의 영상 관제 시스템 및 pod 기반의 영상 처리 방법
KR102440794B1 (ko) Pod 기반의 영상 컨텐츠 전송 방법 및 장치
KR102540817B1 (ko) 머신러닝 기반 실시간 비디오 방송 품질 평가 방법, 장치 및 프로그램
US20160359934A1 (en) Efficient and scalable caching and representation of media with cross-similarities
KR20230001453A (ko) 사용자 선호도 기반의 트레일러 영상 생성 방법 및 이를 위한 사용자 단말기
He Empowering Video Applications for Mobile Devices
Wang Low-Latency Adaptive Media Streaming: From 2D to 6-DoF

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant