KR102050780B1

KR102050780B1 - 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법

Info

Publication number: KR102050780B1
Application number: KR1020180003377A
Authority: KR
Inventors: 한동수; 여현호; 도성현
Original assignee: 한국과학기술원
Priority date: 2018-01-10
Filing date: 2018-01-10
Publication date: 2019-12-02
Also published as: KR20190093746A; US20190215549A1; US10560731B2

Abstract

신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법을 개시한다.
컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 컨텐츠 군집화부; 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 학습부; 상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 저장부; 및 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 포함하는 컨텐츠 전송 서버 장치를 제공한다.

Description

신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법{Method and Server Apparatus for Delivering Content Based on Content-aware Using Neural Network}

본 발명은 신경망을 이용한 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 방법에 관한 것이다.

이 부분에 기술된 내용은 단순히 본 실시예에 대한 배경 정보를 제공할 뿐 종래기술을 구성하는 것은 아니다.

인터넷을 통한 비디오 전송이 급격하게 증가하고 있으며, 증강 현실이나 가상 현실을 제공하는 스트리밍 서비스가 등장함에 따라 인터넷 비디오가 전체 인터넷 트래픽에서 차지하는 비중이 높아지고 있다.

인터넷 비디오 전송 기술은 컨텐츠 전송 네트워크(content delivery networks, CDNs)에서부터 HTTP 적응적 스트리밍(adaptive streaming) 및 QoE(Quality of Experience)를 위한 데이터를 이용한 최적화에 이르기까지, 한정된 네트워크 자원 내에서 사용자에게 최상의 화질을 제공할 수 있도록 하기 위해 다양한 기술이 제안된 바 있다.

그러나, 현재의 비디오 전송 기술의 경우, 비디오를 단지 비트스트림으로만 취급함으로써 컨텐츠의 종류와 상관 없이 동일한 기술을 적용하고 있으며, 비디오 인코딩도 단순히 짧은 시간 스케일(프레임 내)에서 발생하는 공간 및 시간 중복성을 이용한 신호 처리 기술(이산 코사인 변환 및 프레임 간 예측)을 사용하는 것에 그치고 있다.

본 발명은, 개별 컨텐츠의 특성에 적합하도록 사용자 단말에 컨텐츠를 전송할 수 있는 컨텐츠 인지 기반 컨텐츠 전송 서버 장치 및 그 전송 방법을 제공하는 데 주된 목적이 있다.

본 발명의 일 실시예에 의하면, 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 컨텐츠 군집화부; 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 학습부; 상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 저장부; 및 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 포함하는 컨텐츠 전송 서버 장치를 제공한다.

상기 장치의 실시예들은 다음의 특징들을 하나 이상 더 포함할 수 있다.

상기 컨텐츠 군집화부는, 인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화할 수 있다.

상기 학습부는, 상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시킬수 있다.

상기 전송부는, 상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송할 수 있다.

본 발명의 일 실시예에 의하면, 컨텐츠 제공 시스템의 컨텐츠 전송 서버에서 사용자 단말에 컨텐츠를 전송하기 위한 방법에 있어서, 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화하는 과정, 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 과정, 사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 과정을 포함하는 컨텐츠 전송 방법을 제공한다.

이상에서 설명한 바와 같이 본 실시예에 의하면, 유사한 컨텐츠들을 군집화하여 컨텐츠들의 유사성을 이용해 컨텐츠 복원 모델을 학습시킴으로써, 사용자에게 높은 품질의 컨텐츠를 제공하면서도 전송에 필요한 네트워크 대역폭은 감소시킬 수 있는 효과가 있다.

또한, 본 실시예에 의하면, 사용자 단말에 이러한 컨텐츠 복원 모델을 제공하고 사용자 단말의 연산 능력을 이용하여 컨텐츠 복원 성능을 구현함으로써, 네트워크 환경에 제한되지 않고 사용자가 원하는 품질의 컨텐츠를 제공할 수 있는 효과가 있다.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템을 개략적으로 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 구성을 개략적으로 도시한 도면이다.
도 3은 본 발명의 일 실시예에 따른 컨텐츠 전송 서버에서의 컨텐츠 복원 모델 학습 방법을 설명하기 위한 도면이다.
도 4는 본 발명의 일 실시예에 따른 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 도면이다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 컨텐츠 전송 방법을 도시한 흐름도이다.
도 6은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 화질 개선 결과를 비교하여 도시한 도면이다.
도 7 및 도 8은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 전송 성능을 비교하여 도시한 도면이다.
도 9는 종래 기술에 의한 비디오 인코딩 및 디코딩 결과를 비교하여 도시한 도면이다.

이하, 본 발명의 일부 실시예들을 예시적인 도면을 통해 상세하게 설명한다. 각 도면의 구성요소들에 참조부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.

또한, 본 발명의 구성 요소를 설명하는 데 있어서, 제 1, 제 2, A, B, (a), (b) 등의 용어를 사용할 수 있다. 이러한 용어는 그 구성 요소를 다른 구성 요소와 구별하기 위한 것일 뿐, 그 용어에 의해 해당 구성 요소의 본질이나 차례 또는 순서 등이 한정되지 않는다. 명세서 전체에서, 어떤 부분이 어떤 구성요소를 '포함', '구비'한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 '~부', '모듈' 등의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.

아래에서는 첨부한 도면을 참고하여 본 발명의 실시예에 대하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략한다.

본 명세서에서 컨텐츠는 방송 컨텐츠, 오디오 또는 비디오 컨텐츠 등 다양한 멀티미디어 컨텐츠를 포함한다. 컨텐츠는 소정의 미디어 컨텐츠이면 그 내용이나 형식에는 제한이 없다. 따라서, 컨텐츠에는 컨텐츠 제작 사업자가 제작한 컨텐츠 뿐만 아니라 개인이 만들어 배포하는 UCC(User Creative Contents)가 포함된다.

본 명세서에서 메타데이터는 데이터에 관한 데이터(data about data)로서 컨텐츠에 대한 부가 정보를 의미한다. 메타데이터는 매니페스트 파일(manifest file)에 기록되어 사용자 단말에 전송되며, 사용자 단말은 메타데이터를 이용하여 원하는 컨텐츠를 요청하는 등 컨텐츠 제공 서비스를 받을 수 있다.

도 1은 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템을 개략적으로 나타낸 도면이다.

도 1을 참조하면, 본 발명의 일 실시예에 따른 컨텐츠 제공 서비스 시스템은 컨텐츠 제공자(110), 컨텐츠 제공 서버(120) 및 사용자 단말(130)을 포함하여 구성된다.

컨텐츠 제공자(110)는 컨텐츠 제공 서비스를 위한 컨텐츠를 생성하여 제공한다. 컨텐츠 제공자(110)는 서비스 목적에 따라 다양한 컨텐츠를 생성할 수 있다.

예컨대, VOD(Video On Demand) 서비스를 제공하는 컨텐츠 제공자(110)는 비디오/오디오 형태의 컨텐츠를 생성하여 제공할 수 있고, 개인 방송을 제공하는 컨텐츠 제공자(110)는 라이브 스트림 형태의 컨텐츠를 생성하여 제공할 수 있다. 또한, 다시점 영상 공유 서비스를 제공하는 컨텐츠 제공자(110)는 영상의 깊이 정보를 포함하는 컨텐츠를 생성하여 제공할 수 있다. AR(Augmented Reality) 서비스를 제공하는 컨텐츠 제공자(110)는 360 카메라를 통해 스티칭된 컨텐츠를 생성하여 제공할 수 있다.

컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)에 의해 제공된 컨텐츠를 서비스 및 컨텐츠의 종류에 적합한 전송 프로토콜을 통해 사용자 단말(130)에 전송한다. 컨텐츠 제공 서버(120)는 다양한 컨텐츠와 서비스를 사용자 단말에 따라 적합한 제공 방식을 선정하고, 선정한 방식을 통해 컨텐츠 제공자(110)로부터 제공받은 컨텐츠를 사용자 단말(130)에 전송한다. 컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)로부터 생성되어 제공되는 새로운 컨텐츠를 지속적으로 제공받아 사용자 단말(130)에 새로운 컨텐츠를 전송할 수 있다.

예컨대, VOD 서비스를 제공하기 위해 RTSP(Real Time Streaming Protocol)을 이용하여 컨텐츠 제공자(110)로부터 제공받은 VOD 컨텐츠를 전송할 수 있고, 개인 방송 컨텐츠를 제공하는 컨텐츠 제공자(110)로부터 제공받은 개인 방송 컨텐츠를 전송하기 위해 HLS(HTTP Live Streaming) 프로토콜 또는 MPEG-TS(Moving Picture Experts Group - Transport Stream) 프로토콜을 통해 전송할 수 있다.

또한, 컨텐츠 제공 서버(120)는 컨텐츠 제공자(110)로부터 제공받은 다수의 컨텐츠를 유사도에 기반하여 군집화하고, 각 군집에 대해 서로 다른 신경망 기반의 학습 모델을 통해 각 군집별로 군집 내 컨텐츠들을 이용한 컨텐츠 복원 모델을 생성한다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 영상의 프레임간 보간을 학습하여 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력할 수 있다.

컨텐츠 제공 서버(120)는 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자(110)로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.

컨텐츠 제공 서버(120)는 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.

사용자 단말(130)은 컨텐츠 제공자(110)에 의해 제공되는 컨텐츠와 컨텐츠 복원 모델을 컨텐츠 전송 서버(120)를 통해 수신한다. 사용자 단말(130)은 스마트폰, 태블릿 PC, 노트북 또는 데스크탑 등일 수 있으며, 사용자 단말(130)의 종류에 따라 적합한 컨텐츠 제공 모델이 제공될 수 있다.

컨텐츠 복원 모델은 사용자 단말(130)이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말(130)은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 수신할 수 있다.

사용자 단말(130)은 수신한 컨텐츠 및 컨텐츠 복원 모델을 이용하여, 원하는 품질의 컨텐츠를 생성할 수 있다. 즉, 제공받은 컨텐츠 복원 모델을 이용하여 사용자 단말(130) 내에서의 연산을 통해 고품질의 컨텐츠를 생성할 수 있기 때문에 사용자는 네트워크 환경이 좋지 않더라도 고품질의 컨텐츠를 제공받을 수 있게 된다.

사용자 단말(130)은 각 컨텐츠의 서비스 타입이 지원하는 전송 프로토콜을 통해 각 컨텐츠 및 컨텐츠 복원 모델을 수신한다. 예컨대, VOD 서비스를 제공받기 위하여 RTSP 및 HLS 프로토콜을 통해 컨텐츠를 수신하거나, 개인 방송 서비스를 제공받기 위해 라이브 스트림 형태의 컨텐츠를 HLS 프로토콜 또는 MPEG-TS 프로토콜을 통해 수신할 수 있다.

도 2는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 구성을 개략적으로 도시한 도면이다.

도 2를 참조하면, 본 실시예의 컨텐츠 전송 서버(120)는 컨텐츠 군집화부(210), 학습부(220) 및 저장부(230)를 포함하며, 저장부(230)는 컨텐츠 저장부(231) 및 메타데이터 저장부(232)를 포함하여 구성된다. 도 2에 도시한 각 구성요소는 하드웨어 칩으로 구현될 수 있으며, 또는 소프트웨어로 구현되고 마이크로프로세서가 각 구성요소에 대응하는 소프트웨어의 기능을 실행하도록 구현될 수도 있다.

컨텐츠 군집화부(210)는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 컨텐츠 제공 서버(120)는 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자(110)로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다. 구체적으로, 컨텐츠 군집화부(210)는 이미지 분류(classification)를 학습한 신경망 모델을 통해 컨텐츠의 유사도를 판단하여 제공되는 다수의 컨텐츠를 군집화할 수 있다.

예컨대, 컨텐츠 제공자(110)로부터 다양한 스포츠 관련 영상을 제공받은 경우에, 컨텐츠 제공자(110)가 각 컨텐츠에 대하여 생성한 메타 데이터를 분석하여 농구 경기, 축구 경기, 야구 경기 등으로 유사한 컨텐츠들을 군집화할 수 있다. 또는 기계학습을 통해 이미지 분류를 학습한 이미지 분류 모델을 이용하여 제공받은 컨텐츠의 프레임을 분석하여 유사도에 따라 농구 경기, 축구 경기, 야구 경기 등으로 분류하여 군집화할 수도 있다.

컨텐츠 군집화부(210)는 컨텐츠 제공자(110)로부터 새로운 컨텐츠를 제공받으면, 이미지 분류 모델을 통해 새로운 컨텐츠와 기존의 군집들 간의 유사도를 판단한다. 컨텐츠 군집화부(210)는 새로운 컨텐츠가 기존에 존재하는 군집과 중복성이 높다면 중복성이 가장 높은 군집으로 새로운 컨텐츠를 분류하고, 중복성이 일정 수준 이하인 경우 유사도가 높은 군집이 없으므로 새로운 컨텐츠를 새로운 군집으로 분류할 수 있다.

학습부(220)는 군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시킨다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.

학습부(220)는 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.

예컨대, 축구 경기의 경우, 축구장과 같은 배경이나 플레이어 등은 영상 전체를 통하여 반복하여 나타나고, 여러 축구 경기 영상에서 동일한 배경 및 플레이어가 나타날 수 있다. 또한, 동일한 축구 경기장이나 동일한 플레이어가 아니라 하더라도 경기장의 잔디 색이나 축구장 전경에 나타나는 관중 모습 등과 같이 축구 경기 영상이 공유하는 중복된 정보가 많다. 따라서, 이렇게 유사한 컨텐츠를 군집화하여 컨텐츠 복원 모델을 학습시키는 경우에, 다양한 경기 영상에 적용되는 뛰어난 컨텐츠 복원 성능을 보여줄 수 있으며, 군집에 포함된 모든 경기 영상이 해당 컨텐츠 복원 모델을 공유할 수 있다.

학습부(220)는 CNN(convolutional neural network)과 같이 이미지 처리에 적합한 신경망을 이용하여 각 군집 내 컨텐츠들에 대한 컨텐츠 복원 모델을 생성한다. 학습부(220)는 군집별 컨텐츠 복원 모델과 군집 내 컨텐츠를 연관시키고 해당 연관 정보를 메타데이터로서 매니페스트 파일에 기록한다. 학습부(220)는 컨텐츠 복원 모델의 학습 내용에 따라 컨텐츠의 저화질 또는 압축된 형태의 컨텐츠(이하 '대체 컨텐츠'라 함)를 생성하고, 대체 컨텐츠를 매니페스트 파일에 기록한다. 즉, 매니페스트 파일에는 컨텐츠 복원 모델과 대체 컨텐츠가 포함되어 있을 수 있다,

컨텐츠를 군집화하지 않고, 모든 컨텐츠에 적용되는 컨텐츠 복원 모델을 학습시키는 경우에, 연산을 위한 비용이 증가하며 모든 컨텐츠에 대해 고른 컨텐츠 복원 성능을 보여줄 수 없다. 따라서, 본 실시예에서는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠들을 유사도가 높은 컨텐츠들끼리 군집화하고, 각 군집에 대해 개별적으로 군집 내에 포함된 컨텐츠들을 이용하여 학습시킨 컨텐츠 복원 모델을 생성함으로써, 연산 비용을 감소시킬 수 있을 뿐 아니라 뛰어난 컨텐츠 복원 성능을 보여줄 수 있다.

저장부(230)는 다수의 컨텐츠 및 군집별 컨텐츠 복원 모델을 저장한다. 컨텐츠 저장부(231)는 컨텐츠 제공자(110)로부터 수신한 컨텐츠를 저장한다. 저장된 컨텐츠는 컨텐츠 원본 파일일 수도 있고, 경우에 따라 저화질 또는 압축된 형태의 컨텐츠(대체 컨텐츠)일 수 있다. 메타데이터 저장부(232)는 컨텐츠에 관련된 메타데이터를 저장한다.

도면에 도시되지는 않았지만, 컨텐츠 전송 서버(120)는 사용자로부터 요청된 컨텐츠 및 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 전송부를 더 포함할 수 있다. 전송부(미도시)에서는, 사용자 단말(130)과의 네트워크 연결 상태를 고려하여 요청된 컨텐츠의 원본 또는 대체 컨텐츠를 컨텐츠 복원 모델과 함께 전송할 수 있다.

도 3은 본 발명의 일 실시예에 따른 컨텐츠 전송 서버에서의 컨텐츠 복원 모델 학습 방법을 설명하기 위한 도면이다.

도 4는 본 발명의 일 실시예에 따른 군집별 컨텐츠 복원 모델을 이용한 컨텐츠 전송 방법을 설명하기 위한 도면이다.

컨텐츠 전송 서버(120)에서는 컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자로부터 컨텐츠와 함께 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다.

컨텐츠 복원 모델은 각 군집에 대해 개별적으로 생성된다. 군집은 서로 유사한 컨텐츠를 포함하고 있기 때문에, 동일한 컨텐츠 복원 모델을 공유할 수 있다. 컨텐츠 복원 모델은, 저화질 또는 압축된 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 학습된 신경망 기반의 모델로, 저해상도의 영상으로부터 고해상도의 영상을 출력하도록 학습하거나, 흑백 또는 윤곽선으로 이루어진 영상으로부터 원본 영상을 복원하여 출력하도록 학습하거나, 압축된 영상으로부터 보간된 프레임이 포함된 고품질의 영상을 출력하도록 영상의 프레임간 보간을 학습할 수 있다.

예컨대, 군집 A는 축구 경기, 군집 B는 농구 경기, 군집 C는 야구 경기인 경우에, 학습 모델 A는 군집 A에 포함된 컨텐츠인 축구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 B는 농구 경기를 학습한 컨텐츠 복원 모델이고, 학습 모델 C는 야구 경기를 학습한 컨텐츠 복원 모델이다.

도 4를 참조하면, 컨텐츠 전송 서버(120)는 사용자 단말에 컨텐츠와 함께 컨텐츠 복원 모델을 전송한다. 사용자 단말1(131) 및 사용자 단말3(133)과의 네트워크 연결이 좋지 않은 상황이고, 사용자 단말2(132)와의 네트워크 연결은 양호한 경우를 가정한다. 사용자 단말1(131) 및 사용자 단말3(133)과의 네트워크 연결 상황이 좋지 않은 경우에, 대체 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자 단말1(131) 및 사용자 단말3(133)에서 자체적으로 연산하여 고품질의 컨텐츠를 생성할 수 있다. 또한, 사용자 단말2(132)와 같이 네트워크 연결 상황이 양호한 경우에는 컨텐츠 전송 서버(120)에서 고품질의 컨텐츠를 직접 전송하는 것도 가능하다. 이 경우에도, 대체 컨텐츠 및 컨텐츠 복원 모델을 전송할 수도 있으며, 고품질의 컨텐츠와 함께 컨텐츠 복원 모델을 전송하여 사용자가 원하는 품질의 컨텐츠를 제공받을 수 있도록 할 수 있다.

도 5는 본 발명의 일 실시예에 따른 컨텐츠 전송 서버의 컨텐츠 전송 방법을 도시한 흐름도이다.

컨텐츠 전송 서버는 컨텐츠 제공자로부터 컨텐츠를 수신한다(S510). 컨텐츠는 방송 컨텐츠, 오디오 또는 비디오 컨텐츠 등 다양한 멀티미디어 컨텐츠를 포함한다.

다음으로, 컨텐츠 전송 서버는 수신된 컨텐츠를 군집화한다(S520). 컨텐츠 제공자로부터 제공받은 다수의 컨텐츠를 유사도에 기반하여 군집화한다. 다수의 컨텐츠를 군집화하기 위해 컨텐츠 제공자로부터 제공되는 컨텐츠에 대한 메타 데이터를 이용하거나, 이미지의 유사도를 판단하는 기계학습 기반의 모델을 이용할 수 있다.

컨텐츠 제공 서버는 군집별 학습 모델을 학습시킨다(S530). 각 군집에 포함되어 있는 유사도가 높은 컨텐츠들을 이용하여, 저화질 또는 압축된 형태의 컨텐츠로부터 고화질 또는 고품질의 컨텐츠를 출력하도록 컨텐츠 복원 모델을 학습시킬 수 있다. 군집 내에 포함되어 있는 컨텐츠들은 유사도가 높은 컨텐츠로 서로 공유하고 있는 중복된 정보가 많기 때문에, 동일한 컨텐츠 복원 모델을 이용할 수 있다.

사용자로부터 컨텐츠 요청이 있는 경우 컨텐츠-학습 모델 쌍을 사용자 단말에 전송한다(S540). 이 때, 전송되는 컨텐츠는 네트워크 연결 상황에 따라 대체 컨텐츠 이거나 컨텐츠 원본일 수 있다. 컨텐츠 복원 모델은 사용자 단말이 수신하는 매니페스트 파일(manifest file)의 메타 데이터에 포함될 수 있다. 사용자 단말은 매니 페스트 파일을 통해 컨텐츠에 접근 또는 컨텐츠를 요청하는 것 이외에, 해당 컨텐츠에 적합한 컨텐츠 복원 모델을 요청하여 수신할 수 있다.

이하, 본 발명의 일 실시예에 따른 컨텐츠 복원 모델의 구현 및 이를 이용한 비디오 전송 방법을 구체적으로 설명한다.

1.고해상도 복원

슈퍼 해상도(Super-resolution imaging, SR)는 이미지 해상도를 향상시키는 기술로 저해상도 미디어로부터 고해상도의 이미지를 복구하는 기술이다. 이하에서는, 컨텐츠 인지 기반 슈퍼 레졸루션을 이용한 컨텐츠 복원 모델을 통한 비디오 전송 방법에 대해 설명한다. 이러한 컨텐츠 복원 모델은 적응형 스트리밍의 대안이 될 수 있으며, 안정적이고 향상된 품질을 제공할 수 있게 한다.

컨텐츠 복원 모델로서 이미지 슈퍼 해상도 복원을 위해 심층 컨볼루션 신경망을 이용한다. 컨텐츠 인지 기반의 모델을 생성하기 위하여, 시리즈로 구성된 컨텐츠의 각 에피소드를 군집으로 하여 학습 데이터로 이용하였다. 구체적으로, 유투브에서 제공되는 2012 런던 올림픽의 농구 경기, 유투브에서 제공되는 2012 런던 올림픽의 100m 및 200m 경주 남자 결승전, 컴퓨터 게임(스타크래프트)의 플레이 영상 및 유투브의 공식 코난 오브라이언 쇼 채널로부터 제공되는 코난의 모놀로그 에피소드로 이루어진 총 4개의 데이터셋을 이용하였다. 농구 경기의 경우, 전반전을 학습 비디오로 사용하였고, 후반전을 테스트 비디오로 사용하였다. 나머지 데이터 셋에 대해서는, 학습을 위한 비디오와 테스트를 위한 비디오를 나누어 사용하였다.

비교를 위한 신경망 모델로는 유사도에 구분없이 슈퍼 해상도 복원을 위한 벤치마크 데이터 셋을 학습한 신경망 모델(content-agnostic DNN)을 사용하였고, 보간법(nearest-neighbor interpolation)을 이용하여 해상도를 복원하는 방법을 최소 성능 기준으로 사용하였다.

도 6은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 화질 개선 결과를 비교하여 도시한 도면이다.

도 6의 (a)는 원본 비디오를 도시한 것이고, (b)는 본 실시예에 의한 컨텐츠 복원 모델을 이용한 경우, (c)는 종래 VDSR 모델을 이용한 경우, (d)는 보간법을 이용한 경우 획득한 슈퍼 레졸루션 비디오를 도시한 것이다. 도 6에 도시된 바와 같이, 본 실시예에 의하면, 컨텐츠를 유사도에 따라 분류하여 해상도 복원을 학습함으로써, 향상된 화질 개선 성능을 제공할 수 있다. 특히, 도 6에서 게임 화면을 복원한 경우를 참조하면, 본 실시예에 의하면 또렷한 텍스트 복원 성능을 보여줌을 알 수 있다.

도 7 및 도 8은 본 발명의 일 실시예에 따른 방법 및 종래 기술에 의한 비디오 전송 성능을 비교하여 도시한 도면이다.

도 7은 비디오 전송에서의 비트레이트(bitrate)와 품질의 관계를 도시한 것이다. 구체적으로, 도 7의 (b)에서 확인할 수 있듯이, 컨텐츠 인지 기반 컨텐츠 복원 모델에 의한 1.1Mbps 비디오는 종래의 보간법을 이용한 경우의 2.2Mbps 비디오보다 더 품질이 뛰어난 것을 확인할 수 있고, 결과적으로 본 실시예를 이용하는 경우에 네트워크 대역폭 사용을 50% 이상 줄일 수 있다. 즉, 본 실시예에 의하면, 적은 대역폭을 사용하여 높은 수준의 화질을 보여주는 비디오를 전송할 수 있다.

도 8은 동일한 품질의 비디오를 전송하는 경우의 데이터 사용량을 도시한 것이다. 본 실시예에 의한 신경망 기반 컨텐츠 복원 모델은 7.8MB의 사이즈를 갖는다. 컨텐츠 복원 모델의 사이즈는 신경망의 파라미터 설정에 따라 변경될 수 있다. 신경망의 파라미터 갯수가 증가하면 복원 성능이 좋아지지만, 컨텐츠 복원 모델의 크기가 커지는 단점이 있다. 신경망 성능이 도 8의 (a)를 참조하면 2분 이내에, (b)를 참조하면 20초 이내에, 본 실시예에 의한 컨텐츠 복원 모델을 전송하는 데이터 전송 비용이 보상됨을 알 수 있다.

도시된 성능 비교 결과를 참조하면, 본 실시예에 의하면 유사도가 높은 컨텐츠를 지속적으로 시청하는 사용자 단말의 경우에는 최초 컨텐츠 복원 모델을 전송한 이후에는 해당 모델을 이용하여 지속적으로 대체 컨텐츠를 복원할 수 있기 때문에 더 효율적일 수 있다. 또한, 파라미터를 로드하는데 소요되는 시간이 짧기 때문에 학습 모델을 초기화하는데에도 긴 시간이 필요하지 않으며 고해상도의 이미지를 복원하는 데에도 짧은 시간이 소요된다.

2. 원본 영상 복원

GANs(Generative Adversarial Networks)는 이미지의 간단한 설명이 주어지면 실제의 이미지와 구분할 수 없는 이미지를 합성하는 신경망이다. 이러한 GANs을 이용하여, 중복성이 적은 비디오에 대해서도 높은 품질의 비디오를 생성할 수 있다. 본 실시예에서 대체 컨텐츠로는 컨텐츠를 YCbCr 색상 공간에서 채도를 제거하고 원본 비디오의 휘도(Y)만을 포함하여 데이터를 표현하는 LUM과 에지(edge) 검출 알고리즘을 이용하여 각 프레임의 경계선을 추출하고 1 비트 양자화를 통해 흑백 이미지를 생성하는 EDGE를 예를 들어 설명한다.

도 9는 종래 기술에 의한 비디오 인코딩 및 디코딩 결과를 비교하여 도시한 도면이다.

도 9의 (c) 및 (d)는 각 농구 경기, 컴퓨터 게임(스타크래프트) 영상에 적용된 LUM 및 EDGE의 예제 프레임을 도시한 것이다. 도면을 참조하면, 원본 영상에 비하여 훨씬 적은 양의 정보가 포함되어 있음을 알 수 있다. 본 실시예에서, 데이터 셋에 포함된 비디오를 학습 데이터로 이용하여 GAN 네트워크를 학습시키고 LUM 및 EDGE의 이미지를 생성하도록 한다. 예컨대, LUM의 경우에, 네트워크는 휘도 값으로부터 원래의 이미지(채도 포함)를 합성한다. LUM 및 EDGE를 이용한 이미지를 비슷한 품질의 JPEG 이미지와 비교한다.

비교 결과, LUM(20.33KB)는 유사한 품질의 이미지를 전송하기 위해 JPEG(22.84KB)에 비하여 11% 감소된 데이터 사용을 보여준다. 도 9의 (e)는 이러한 LUM을 이용하여 이미지를 복원한 결과를 보여준다. 복원된 색이 원본과 거의 동일함을 알 수 있다. 즉, 채도의 경우 이러한 신경망 기반의 학습 모델을 통하여 중복된 정보가 잘 학습되는 요소임을 알 수 있으며, 본 발명의 일 실시예에 따라 비디오 전송 과정에서 이용되는 경우 뛰어난 성능을 보여줄 수 있다.

EDGE(3.65KB)는 JPEG(9.29KB)와 유사한 품질의 이미지를 전송하기 위해 훨씬 더 적은 데이터를 사용한다. 도 9의 (f)는 이러한 EDGE를 이용하여 디코딩된 이미지를 보여준다. 객체의 외곽선에 약간의 왜곡이 있다는 점을 제외하면, 생성된 이미지의 색상은 원본의 색상과 거의 일치한다. 이는, 비디오에 장기적인 중복성이 있는 경우에 윤곽선으로 구성된 흑백 이미지가 원본 이미지를 복원하기에 충분한 정보를 포함하고 있음을 나타낸다.

3. 프레임 보간

심층 신경망(DNN)을 이용한 프레임 보간 학습은, 신호 처리 기반의 프레임 보간에 비해 더 나은 성능을 보여주고 있다. 따라서, 본 실시예에 의한 컨텐츠 복원 모델이 컨텐츠들에 대한 프레임 보간을 학습하는 경우에, 대체 컨텐츠로서 프레임이 압축된 컨텐츠를 생성하고, 프레임 보간을 학습한 컨텐츠 복원 모델을 함께 전송하는 경우에 기존의 신호 처리 기반의 프레임 보간에 비해 아티팩트가 적게 나타나고 영상간 연결이 더 자연스러운 컨텐츠를 제공할 수 있다.

이상의 설명은 본 실시예의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 실시예의 본질적인 특성에서 벗어나지 않는 범위에서 다양한 수정 및 변형이 가능할 것이다. 따라서, 본 실시예들은 본 실시예의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예에 의하여 본 실시예의 기술 사상의 범위가 한정되는 것은 아니다. 본 실시예의 보호 범위는 아래의 청구범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 실시예의 권리범위에 포함되는 것으로 해석되어야 할 것이다.

전술한 바와 같이, 도 5에 기재된 방법은 프로그램으로 구현되고 컴퓨터로 읽을 수 있는 기록매체에 기록될 수 있다. 본 발명의 일 실시예에 따른 컨텐츠 전송 방법을 구현하기 위한 프로그램이 기록되고 컴퓨터가 읽을 수 있는 기록매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록장치를 포함한다. 이러한 컴퓨터가 읽을 수 있는 기록매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등을 포함한다. 또한 컴퓨터가 읽을 수 있는 기록매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수도 있다. 또한, 본 실시예를 구현하기 위한 기능적인(Functional) 프로그램, 코드 및 코드 세그먼트들은 본 실시예가 속하는 기술분야의 프로그래머들에 의해 용이하게 추론될 수 있을 것이다.

100: 컨텐츠 제공 시스템
110: 컨텐츠 제공자
120: 컨텐츠 전송 서버
130: 사용자 단말

Claims

컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 상기 다수의 컨텐츠의 메타데이터를 이용하거나 또는 이미지 분류를 학습한 기계학습 모델을 이용함으로써 유사도에 기반하여 군집화하는 컨텐츠 군집화부;
군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키고, 상기 군집별 컨텐츠 복원 모델과 상기 각 군집 내 컨텐츠 간의 연관 정보를 매니페스트 파일에 기록하는 학습부;
상기 다수의 컨텐츠 및 상기 군집별 컨텐츠 복원 모델을 저장하는 컨텐츠 저장부; 및
사용자 단말로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 상기 매니페스트 파일을 통해 상기 사용자 단말에 전송하는 전송부
를 포함하는 컨텐츠 전송 서버 장치.
제 1항에 있어서,
상기 컨텐츠 군집화부는,
인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 2항에 있어서,
상기 컨텐츠 군집화부는,
상기 컨텐츠 제공자로부터 새로운 컨텐츠를 제공받으면, 상기 이미지 분류 모델을 통해 상기 새로운 컨텐츠와 기존의 군집들 간의 유사도를 판단하고, 상기 새로운 컨텐츠와 중복성이 가장 높은 군집에 상기 새로운 컨텐츠를 군집화하고, 상기 유사도가 일정 수준 이하인 경우 새로운 컨텐츠를 새로운 군집에 군집화하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 1항에 있어서,
상기 학습부는,
상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 4항에 있어서,
상기 학습부는,
상기 군집에 포함된 컨텐츠의 저해상도 영상을 생성하고, 상기 컨텐츠 복원 모델에 상기 저해상도 영상으로부터 컨텐츠 원본 영상을 출력하도록 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 4항에 있어서,
상기 학습부는,
상기 군집에 포함된 컨텐츠의 휘도 영상 또는 윤곽선 영상을 추출하여, 상기 컨텐츠 복원 모델에 상기 휘도 영상 또는 윤곽선 영상으로부터 컨텐츠 원본을 출력하도록 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 4항에 있어서,
상기 학습부는,
상기 컨텐츠 복원 모델에 상기 군집에 포함된 컨텐츠에 대해 프레임 보간을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
제 4항에 있어서,
상기 전송부는,
상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송하는 것을 특징으로 하는, 컨텐츠 전송 서버 장치.
컨텐츠 제공 시스템의 컨텐츠 전송 서버에서 사용자 단말에 컨텐츠를 전송하기 위한 방법에 있어서,
컨텐츠 제공자로부터 제공되는 다수의 컨텐츠를 상기 다수의 컨텐츠의 메타데이터를 이용하거나 또는 이미지 분류를 학습한 기계학습 모델을 이용함으로써 유사도에 기반하여 군집화하는 과정,
군집화 결과에 따라 각 군집에 포함된 컨텐츠를 이용하여 군집별 컨텐츠 복원 모델을 학습시키는 과정,
상기 군집별 컨텐츠 복원 모델과 각 군집 내 컨텐츠 간의 연관 정보를 매니페스트 파일에 기록하는 과정, 및
사용자로부터 요청된 컨텐츠 및 상기 요청된 컨텐츠가 포함된 군집에 대응하는 컨텐츠 복원 모델을 사용자 단말에 전송하는 과정
를 포함하는 컨텐츠 전송 방법.
제 9항에 있어서,
상기 군집화하는 과정은,
인공신경망 기반 이미지 분류 모델을 통해 상기 유사도를 판단하여 군집화하는 것을 특징으로 하는, 컨텐츠 전송 방법.
제 9항에 있어서,
상기 학습시키는 과정은,
상기 다수의 컨텐츠를 압축시켜 대체 컨텐츠를 생성하고, 상기 대체 컨텐츠로부터 컨텐츠 원본을 출력하도록 상기 컨텐츠 복원 모델을 학습시키는 것을 특징으로 하는, 컨텐츠 전송 방법.
제 11항에 있어서,
상기 전송하는 과정은,
상기 사용자 단말의 네트워트 연결 상태에 따라 상기 요청된 컨텐츠를 상기 대체 컨텐츠로 대체하여 전송하는 것을 특징으로 하는, 컨텐츠 전송 방법.